现在的位置: 首页 > 综合 > 正文

分类和聚类的区别

2013年06月13日 ⁄ 综合 ⁄ 共 563字 ⁄ 字号 评论关闭

聚类:需要要训练数据,倾向于数据的自然划分

分类:有监督的学习过程,需要对标注数据集合进行训练

 

聚类:

分层(hierarchical clustering)

bottom-up

类似Huffman,每个对象有一个初始类,将距离d最小的两个类合并,直到最后top1

top-down

 

约束:相似函数为单调函数,合并过程不增加相似性

min(sim(c,c1), sim(c,c2)) >= sim(c, c1Uc2)

两个相似度很小的对象,经过合并后,相似度很大,说明函数有问题

 

相似度函数:

单联通:两个集合中最相似两个样本的相似度,局部性太强,链式效应,拉长,最大连通图(O(n^2)

全联通:两个集合中最不相似样本的相似度,内部紧密,最大完全图(O(n^3)

平均联通:O(n^2)

 

非层级聚类:

如何确定迭代结束

关键看数据本身是否有良好的分布

 

 

k平均算法

孤立点  L1减少孤立点问题

欧氏距离计算距离

中心选择:样本均值;mediod最接近中心的样本

如果样本良好,初始的选择的聚类中心影响不大

如果ill-behaved set,首先利用层级聚类算法在样本的子集上聚类,确定一些合理的K-平均算法初始中心。buck-shot的基本思想:随机选取一个子集,采用平均联通聚类算法选取中心,子集大小为样本的平方根。在这个基础上使用k-平均聚类。

EM

不懂。。。。。。

抱歉!评论已关闭.