分类和聚类的区别

现在的位置: 首页 > 综合 > 正文

2013年06月13日 ⁄ 综合 ⁄ 共 563字 ⁄ 字号小中大 ⁄ 评论关闭

聚类：需要要训练数据，倾向于数据的自然划分

分类：有监督的学习过程，需要对标注数据集合进行训练

聚类：

分层(hierarchical clustering)

bottom-up

类似Huffman，每个对象有一个初始类，将距离d最小的两个类合并，直到最后top1

top-down

约束：相似函数为单调函数，合并过程不增加相似性

min(sim(c,c1), sim(c,c2)) >= sim(c, c1Uc2)

两个相似度很小的对象，经过合并后，相似度很大，说明函数有问题

相似度函数：

单联通：两个集合中最相似两个样本的相似度，局部性太强，链式效应，拉长，最大连通图(O(n^2)

全联通：两个集合中最不相似样本的相似度，内部紧密，最大完全图(O(n^3)

平均联通：O(n^2)

非层级聚类：

如何确定迭代结束

关键看数据本身是否有良好的分布

k平均算法

孤立点 L1减少孤立点问题

欧氏距离计算距离

中心选择：样本均值；mediod最接近中心的样本

如果样本良好，初始的选择的聚类中心影响不大

如果ill-behaved set,首先利用层级聚类算法在样本的子集上聚类，确定一些合理的K-平均算法初始中心。buck-shot的基本思想：随机选取一个子集，采用平均联通聚类算法选取中心，子集大小为样本的平方根。在这个基础上使用k-平均聚类。

不懂。。。。。。

抱歉!评论已关闭.

学步园