基于实例的学习
一、简介
Keypoint:可以为不同的待查询实例建立不同的目标函数逼近。(因为每次分类时选择的近邻不相同)
不足:分类新实例的开销很大;计算相似性时利用所有属性,但是实际上觉得样本是否相似的可能只是其中某几个属性。
二、k临近法
实例的距离是根据欧氏距离定义的:
最邻近学习目标函数是离散值:V:{v1,v2….vs}
取k个临近实例,取这k个实例中出现次数最多的类别作为待分类实例的预测类别:
最邻近学习目标函数是连续值:
改进:距离加权最邻近
离待分类实例近的贡献大,一种权重设定是使用距离平方的倒数。
说明:
归纳偏置:实例X的分类与在欧式空间中和它较近的实例的分类相似。
问题:实例可能只有部分属性和它的分类有关,但是欧氏距离计算了所有属性,解决:对属性加权
建立高效索引:KDTree
三、局部加权回归
利用待分类实例Xq周围的k个实例,来拟合目标函数,然后用这个目标函数来预测Xq的类别。局部:x周围的实例;加权:周围实例与Xq的距离加权;回归:拟合函数。
1局部加权线性回归
误差函数:
是距离的某种函数,例如距离的倒数。
公式表明离Xq越近的实例作用越大,所以Xq应该尽量和他们保持一致。对Wi求导易知训练法则为:
四、径向基函数(一笔带过)
五、基于案例的推理
六、总结
KNN和局部加权回归都属于消极学习算法,他们延迟了如何从数据中泛化的决策(拟合目标函数),直到遇到一个新的查询实例时才进行。
消极算法有着更丰富的假设空间,因为他使用许多不同的局部线性回归来对目标函数进行全局逼近。