大师Yoav Freund在文章《A decision-theoretic generalization of on-line leanring and an application to boosting》
AdaBoost.M1(adaBoost的多分类版本)
—————————————————————————————————————————————————————
设序列,其中为的标签,,且,,服从分布,设为循环次数(弱分类器的个数)。
初始化序列的权重,,
:
1.归一化:
。
2.按照概率分布,对序列进行抽样分布,形成第次循环的训练数据集,得到弱分类器:。
3.计算弱分类器在数据集的错误率,如果,令,且跳出循环。
4.令(注:)。
5.令新的权重:
。
(注:我们发现对于分类正确的序列,它的权重减少,分类错误的序列,权重增大)
循环结束后,输出分类器映射:
。
_______________________________________________________________________________________________________________________________
________________________________________________________________________________________________________________________________
大师 JerRome Friedman、Tervor Hastie、Robert Tibshirani在文章《Additive Logistic Regression :a Statistical View of Boosting》,对AdaBoost.M1的二分类版本,做了更加清晰的描述。即:
Discrete AdaBoost(二分类)
—————————————————————————————————————————————————————
设序列,其中为的标签,,且,,服从分布。
1.初始化:是均匀分布,即的权重,。
2.:
(a):按概率分布对序列进行抽样分布,形成该次循环的训练数据集,然后得到弱分类器。
(b):计算错误率,并计算。
(c):令,,然后归一化
使得,并令。
【注:我们发现错分的样本,在下一次迭代中,权重增大】
3.输出分类器:。
—————————————————————————————————————————————————————
________________________________________________________________________________________________________________________________
Real AdaBoost是Robert E. Schapire和 Yoram Singer在文章《Improved Boosting Algorithms Using Confidence-rated Predictions》中提出的,我们以下还是采用《Additive
Logistic Regression :a Statistical View of Boosting》中Real Adaboost的二分类情况。
Real AdaBoost(二分类):
设序列,其中为的标签,,且,,服从分布。
1.初始化:是均匀分布,即的权重,。
2.:
(a):按概率分布对序列进行抽样分布,形成该次循环的训练数据集,利用Logistic
Regression(逻辑回归)拟合,得出概率
。
【注:Logistic
Regression是怎么做预测的?
当时,的标签是,
当时,的标签是】
(b):令,是数据集的分类器。
【注:分析,我们发现
,的标签是;
,的标签是,
所以,作为数据集的分类器
】
(c):令,,然后归一化,
使得,并令。
分析,分为两种情况讨论,
第一种情况:
如果,那么,
如果的标签,即正确分类,,显然减小。
如果的标签,即错误分类,,显然增大。
第二种情况:
如果,那么,
如果的标签,即错误分类,,显然增大。
如果的标签,即正确分类,,显然减小。
】
3.输出分类器:。