聚类:需要要训练数据,倾向于数据的自然划分
分类:有监督的学习过程,需要对标注数据集合进行训练
聚类:
分层(hierarchical clustering)
bottom-up
类似Huffman,每个对象有一个初始类,将距离d最小的两个类合并,直到最后top1
top-down
约束:相似函数为单调函数,合并过程不增加相似性
min(sim(c,c1), sim(c,c2)) >= sim(c, c1Uc2)
两个相似度很小的对象,经过合并后,相似度很大,说明函数有问题
相似度函数:
单联通:两个集合中最相似两个样本的相似度,局部性太强,链式效应,拉长,最大连通图(O(n^2)
全联通:两个集合中最不相似样本的相似度,内部紧密,最大完全图(O(n^3)
平均联通:O(n^2)
非层级聚类:
如何确定迭代结束
关键看数据本身是否有良好的分布
k平均算法
孤立点 L1减少孤立点问题
欧氏距离计算距离
中心选择:样本均值;mediod最接近中心的样本
如果样本良好,初始的选择的聚类中心影响不大
如果ill-behaved set,首先利用层级聚类算法在样本的子集上聚类,确定一些合理的K-平均算法初始中心。buck-shot的基本思想:随机选取一个子集,采用平均联通聚类算法选取中心,子集大小为样本的平方根。在这个基础上使用k-平均聚类。
EM
不懂。。。。。。