现在的位置: 首页 > 综合 > 正文

看懂论文的机器学习基本知识(四)–bootstrap

2014年08月21日 ⁄ 综合 ⁄ 共 1202字 ⁄ 字号 评论关闭

           在读TLD的那篇论文中,对半监督算法有了一定的了解后,能把第4部分开头对P-N学习的推导看懂一点,但是在紧接着的第二部分中有Relation to supervised bootstrap这章,经常会出现bootstrap,但是没有学过模式识别,对这个概念很模糊,所以就查了下,但资料很少,最后结合《Machine Learing  A Probabilistic
Perspective》的6.2节,总算是有点明白了吧。有好的资料还请大家指教。

         

Bootstrapping从字面意思翻译是拔靴法,从其内容翻译又叫自助法,是一种再抽样统计方法。自助法的名称来源于英文短语“to pull
oneself up by one’s bootstrap”
,表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提出了一种新的增广样本的统计方法,就是Bootstrap方法,为解决小子样试验评估问题提供了很好的思路。
1、自助法的基本思路
如果不知道总体分布,那么,对总体分布的最好猜测便是由数据提供的分布。自助法的要点是:①假定观察值便是总体;②由这一假定的总体抽取样本,即再抽样。由原始数据经过再抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)自助样本(bootstrapsamples)。如果将由原始数据集计算所得的统计量称为观察统计量(observed
statistic)
的话,那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键所在是自助统计量与观察统计量间的关系,就如同观察统计量与真值间的关系,可表示为:
自助统计量::观察统计量<=>观察统计量::真值
其中,“::”表示二者间的关系,“<=>”表示等价于。也就是说,通过对自助统计量的研究,就可以了解有关观察统计量与真值的偏离情况。
其中的再抽样是有返还的抽样(sampling with replacement)方式。假定有n个观察值,自助样本可按如下步骤获得:
①将每一观察值写在纸签上;
②将所有纸签放在一个盒子中;
        ③混匀。抽取一个纸签,记下其上的观察值;
        ④放回盒子中,混匀,重新抽取;
        ⑤重复步骤③和④n次,便可得到一个自助样本。重复上述抽样过程B次,便可得到B个自助样本。(引用自刘文忠老师的一篇论文,感觉这样讲的比较容易懂了)。

2、Bootstrap的数学表达



其中等号上面一个小三角号表示定义。


上面的截图是从知网上的刘伟的一篇论文截的。那么经过上面的讲解后大家应该知道bootstrap是什么了,其实不用搞得多么高深害怕,就是一个在自身样本重采样的方法来估计真实分布的问题,以后在机器学习或者其它算法中碰到这个词的话,可以恰当的联想下,可能会对其它的算法有一定的帮助。有错请大家指正,引用的论文中的内容有冒犯请见谅。

抱歉!评论已关闭.