现在的位置: 首页 > 综合 > 正文

朴素贝叶斯分类器

2013年05月02日 ⁄ 综合 ⁄ 共 889字 ⁄ 字号 评论关闭

朴素贝叶斯分类器是一种基于统计的分类器。其理论依据是贝叶斯定理(Bayes)。朴素贝叶斯分类器最典型的应用莫过于邮件过滤,也可以应用于网页分类、用户行为分析等领域。

1. 基本概念

分类是指依靠参考结构将空间中所有的数据点分成若干类。分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。也可以说是把分类分配给一个实例。

特征(属性)是指任何可用来判断内容中具备或缺失的东西。

实例则是具体的数据点。

分类、特征、实例可以类比为面向对象语言中的类、属性、实例。

2. 贝叶斯定理

解决的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(Y|X)的情况下如何求得P(X|Y)

其中

X表示分类,Y表示实例。

P(X)表示先验概率,即观察到分类X的概率。

P(Y|X)表示从属于分类X的实例中随机选择一个实例,选到Y的概率,被称为似然性。

P(Y)被称为证据,表示一般情况下选到Y的概率。P(Y)的计算其实没有必要,因为它对于所有类别都是一样的,不影响结果排序。

P(X|Y)表示分类器的输出,即观察到的实例Y属于概念X的估算概率值,被称为后验概率。

3. 类条件概率

类条件概率是指当已知类别为X的条件下,看到样本Y出现的概率。给定分类,假定属性值有条件地相互独立,即在属性间,不存在依赖关系。

若设Y =<Y1,Y2Ym>

即需计算该分类中各属性的频次/该分类的频次,即属性在该分类中出现的概率。

P(Y|X)要求对于一个给定的分类,求某一特定实例出现的概率,而每一个实例是由它的特征取值组成的。所以实例的条件概率本质上等于所有的属性值条件概率的联合概率。

条件独立假设所有的属性都是统计独立的,所以它们的联合概率就等于每个属性值的个体概率的乘积,此即“朴素”的由来。

4. 先验概率

P(X)代表还没有训练数据前,X拥有的初始概率。它反映了我们所拥有的关于X是正确分类的概率

5. 证据

一般情况下选到Y的概率被称为证据。

即各个分类中选到实例Y的概率之和。

6. 判别函数

二分类:



判决规则:如果g(X)>0,则判为X1;否则判为X2。

多分类:


判决规则:对于所有的j!=i,有


则判为Xi

抱歉!评论已关闭.