极大似然和最小平方误差等价关系

现在的位置: 首页 > 综合 > 正文

2014年07月10日 ⁄ 综合 ⁄ 共 639字 ⁄ 字号小中大 ⁄ 评论关闭

看了一下机器学习这一节，感觉有点乱，人生观乱了，原来如此。建议本文与贝叶斯一起看。

我们设想一个问题如下：学习器工作在X的实例空间和假设空间H，我们现在的任务就是根据实例空间X，然后在H空间中学习出h满足：y = h(x)。现在我们给出了训练样集D，但是D含有随机噪声，而且此噪声服从高斯分布。即满足：

根据贝叶斯理论，我们可以利用先验概率去估计后验概率p(h|d)，就是利用观察的结果得到一些先验概率去估计h。假设H空间中含有（h1,h2,h3…..,hn），那么最大后验概率估计的思想，当hi满足p(hi|d)有最大的后验概率，我们就能得出hi就是我们估计的结果。下面推导一下：

【注】MAP最大后验概率的意思

上面这个公式的意思就是说p(hi|d)达到最大时等价于p(d|hi)达到最大，这就是最大似然估计（maximum likelihood）。对于连续的变量我们用概率密度来刻画。

由于误差服从正态分布，结合di = h(xi) + ei，那么有如下推导：

上面这个式子，m表示m个训练样例，这样我们对上面的公式取对数（常用），就可以得到：

等价于

这正好就是说明，当hi-di的误差达到最小时，则hi就是我们学习到的结果。即最小平方误差的学习（梯度下降）就是最大似然估计，该结论成立的前提是di
= h(xi)+ei，ei一定是高斯误差。

最小平方误差用于神经网络权重学习，线性回归以及多项式拟合以及曲线逼近。

抱歉!评论已关闭.

学步园