朴素贝叶斯分类器

现在的位置: 首页 > 综合 > 正文

2013年05月02日 ⁄ 综合 ⁄ 共 889字 ⁄ 字号小中大 ⁄ 评论关闭

朴素贝叶斯分类器是一种基于统计的分类器。其理论依据是贝叶斯定理（Bayes）。朴素贝叶斯分类器最典型的应用莫过于邮件过滤，也可以应用于网页分类、用户行为分析等领域。

1. 基本概念

分类是指依靠参考结构将空间中所有的数据点分成若干类。分类任务就是通过学习得到一个目标函数f，把每个属性集x映射到一个预先定义的类标号y。也可以说是把分类分配给一个实例。

特征（属性）是指任何可用来判断内容中具备或缺失的东西。

实例则是具体的数据点。

分类、特征、实例可以类比为面向对象语言中的类、属性、实例。

2. 贝叶斯定理

解决的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(Y|X)的情况下如何求得P(X|Y)。

其中

X表示分类，Y表示实例。

P(X)表示先验概率，即观察到分类X的概率。

P(Y|X)表示从属于分类X的实例中随机选择一个实例，选到Y的概率，被称为似然性。

P(Y)被称为证据，表示一般情况下选到Y的概率。P(Y)的计算其实没有必要，因为它对于所有类别都是一样的，不影响结果排序。

P(X|Y)表示分类器的输出，即观察到的实例Y属于概念X的估算概率值，被称为后验概率。

3. 类条件概率

类条件概率是指当已知类别为X的条件下，看到样本Y出现的概率。给定分类，假定属性值有条件地相互独立，即在属性间，不存在依赖关系。

若设Y =<Y1,Y2…Ym>

即需计算该分类中各属性的频次/该分类的频次，即属性在该分类中出现的概率。

P(Y|X)要求对于一个给定的分类，求某一特定实例出现的概率，而每一个实例是由它的特征取值组成的。所以实例的条件概率本质上等于所有的属性值条件概率的联合概率。

条件独立假设所有的属性都是统计独立的，所以它们的联合概率就等于每个属性值的个体概率的乘积，此即“朴素”的由来。

4. 先验概率

P(X)代表还没有训练数据前，X拥有的初始概率。它反映了我们所拥有的关于X是正确分类的概率。

5. 证据

一般情况下选到Y的概率被称为证据。

即各个分类中选到实例Y的概率之和。

6. 判别函数

二分类：

判决规则：如果g(X)>0，则判为X1；否则判为X2。

多分类：

判决规则：对于所有的j!=i，有

则判为Xi

【上篇】实战smartforms体会
【下篇】log4j配置文件详解

抱歉!评论已关闭.

学步园