现在的位置: 首页 > 综合 > 正文

贝叶斯学习

2013年10月26日 ⁄ 综合 ⁄ 共 1381字 ⁄ 字号 评论关闭

出处:http://mizzletown.blogspot.com/2008/09/em.html

贝叶斯学习

1. 贝叶斯学习

首先需要重新认识“数据”的概念,从统计意义上来看数据其实就是“证据”,是随机变量的实例化。数据作为证据,可以对某些概率理论和假设提供确信度的支持。所以,“假设”就是关于域如何起作用的概率理论。

贝叶斯学习就是根据给定的数据对每种假设的可能性进行计算,并在此基础上进行预测。学习的本质是概率推理,令D表示所有数据,其观测值记作d,则根据贝叶斯法则可以计算出每个假设的概率:

P(hi | d) = α P(d | hi) P(hi) (1)

可以看出,该概率是在观察到证据d后对先验概率P(hi)进行修正而获得的,称为后验概率。有了每个假设的后验概率,就可以对未知量X计算其概率分布,并进行预测:

P(X | d) = ∑_i P(X | d, hi) P(hi | d) = ∑_i P(X | hi) P(hi | d) (2)

这里,假定每个假设hi都确定了X上的一个概率分布。该公式表示预测是对每个假设预测结果的加权平均。贝叶斯学习的关键问题是:获得每种假设的先验概率P(hi)、以及在每种假设下数据的似然likelihood:P(d | hi)。

假设hi下数据的似然的实际意义是:在假设hi下观察到证据d的概率。如果观察过程是独立同分布的(independently and identically distributed, i.i.d.),则证据d的似然为:

P(d | hi) = ∏_j P(dj | hi) (3)

贝叶斯学习中,为真的假设最终会主导贝叶斯预测过程。对于任何包含真实假设的固定先验概率,任何为假的假设的后验概率都会最终消退,因为产生“不典型”证据的概率会不确定地逐渐减小。

1.1 贝叶斯学习的优势和问题

贝叶斯预测是最优的,且与数据集大小无关。对于给定假设的先验概率,任何预测方法都不会比贝叶斯预测更正确。

但是获得最优特性的代价很高,因为实际问题中假设空间通常很大。此外,在多数情况下公式(2)中的求和或连续积分很难求解,必须求助于近似或简化方法。

1.2 MAP假设和ML假设

MAP假设是基于单一的最可能假设作出预测,即根据使后验概率P(hi | d)最大化的假设进行预测。MAP假设是对贝叶斯方法的近似。

在MAP假设中,如果假定一个均匀的先验概率分布,则MAP学习过程退化为:根据使证据d的似然P(d | hi)最大化的假设进行预测,即形成最大似然(ML)假设。

1.3 假设先验的意义

在贝叶斯学习和MAP学习中,假设的先验概率有什么意义呢?实质上是通过先验概率使复杂度高的假设处于不利地位。一般地,越复杂的假设具有越低的先验概率,这样处理的原因有二:(1)复杂的假设通常多于简单的假设;(2)复杂的假设有更强的数据拟合能力。因此,假设的先验概率体现了在假设的复杂度和假设对数据的拟合程度之间的一种折中。

实际上,如果对(1)式取对数,则MAP假设就等效于最小化如下的量:

-log P(hi | d) = -log P(d | hi) - log P(hi)

根据信息编码理论,-log P(hi) 项表示指定假设hi所需要的位数,而-log P(d | hi)则是在给定假设下编码数据所需要的位数。因此,MAP学习就是要选择提供最大的数据压缩的假设。最小描述长度MDL学习算法可以直接处理该任务,它试图将假设和数据编码的长度最小化。

抱歉!评论已关闭.