(原创文章,转载请注明出处)
今天在回头看logistic回归的时候,无意中看到了最小二乘法,突然之间好像对概率的一些基本概念有了一层新的了解,下面就来总结下这个问题。
假设我讨论的是个简单的线性回归,
y为output, 为input,为我要训练的参数,可以看出这是一个最简答的线性回归。
由于训练集的数量多于参数的个数,所以我训练的参数即使是用训练集来测试的话也是有误差的,最后的解空间肯定要投影到我的这个列空间(详见mit线性代数公开课),这里扯远了,我假设误差为 。我假设有M个训练样本,对于第i个样本,显然有这样的公式成立
这里我需要做个假设了,假设 是服从高斯分布的,即
其实这里有一个之前我一直理解不好的概念,就是概率论的第一章讲述那个σ-代数,只是我这里就是这样认为的,就是对于这个样本点的 ,它是不确定的,但是是在一个区间中可以取值的,而在这个区间中,它显然是以一定的概率取到这个区间中某一个值的。而 这里就是一个类似随机变量(不太清楚可不可以叫做随机变量),而这个取值的概率显然就是它的概率分布了。我这样理解了之后,就会假设这个取值的概率分布是服从高斯分布的(世间万物冥冥之中都会服从高斯分布嘛!)。
则公式话表示上面这个就是
进一步显示就是
这样,这个概率密度函数就和y,x,联系起来了,这个函数里面的y和x都是训练集的数据,而是我训练得到的,而如果我将这个概率密度函数表示成为的函数,那么我就得到了
注意,其实这个函数也就是我们说的似然函数了,我们在求取的值的时候,就是采用极大似然估计
由独立性假设,假设每一个样本点之间是相互独立的,则我们就可以得到
对 取log,我们得到了似然函数的对数函数
而又因为如下等价式
这个公式 不就是最小二乘法嘛!!
所以可以看出,最小二乘法的根据就是我们假设误差是符合高斯分布的,且最大似然函数得到的结果!