朴素贝叶斯分类器是一种基于统计的分类器。其理论依据是贝叶斯定理(Bayes)。朴素贝叶斯分类器最典型的应用莫过于邮件过滤,也可以应用于网页分类、用户行为分析等领域。
1. 基本概念
分类是指依靠参考结构将空间中所有的数据点分成若干类。分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。也可以说是把分类分配给一个实例。
特征(属性)是指任何可用来判断内容中具备或缺失的东西。
实例则是具体的数据点。
分类、特征、实例可以类比为面向对象语言中的类、属性、实例。
2. 贝叶斯定理
解决的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(Y|X)的情况下如何求得P(X|Y)。
其中
X表示分类,Y表示实例。
P(X)表示先验概率,即观察到分类X的概率。
P(Y|X)表示从属于分类X的实例中随机选择一个实例,选到Y的概率,被称为似然性。
P(Y)被称为证据,表示一般情况下选到Y的概率。P(Y)的计算其实没有必要,因为它对于所有类别都是一样的,不影响结果排序。
P(X|Y)表示分类器的输出,即观察到的实例Y属于概念X的估算概率值,被称为后验概率。
3. 类条件概率
类条件概率是指当已知类别为X的条件下,看到样本Y出现的概率。给定分类,假定属性值有条件地相互独立,即在属性间,不存在依赖关系。
若设Y =<Y1,Y2…Ym>
即需计算该分类中各属性的频次/该分类的频次,即属性在该分类中出现的概率。
P(Y|X)要求对于一个给定的分类,求某一特定实例出现的概率,而每一个实例是由它的特征取值组成的。所以实例的条件概率本质上等于所有的属性值条件概率的联合概率。
条件独立假设所有的属性都是统计独立的,所以它们的联合概率就等于每个属性值的个体概率的乘积,此即“朴素”的由来。
4. 先验概率
P(X)代表还没有训练数据前,X拥有的初始概率。它反映了我们所拥有的关于X是正确分类的概率。
5. 证据
一般情况下选到Y的概率被称为证据。
即各个分类中选到实例Y的概率之和。
6. 判别函数
二分类:
判决规则:如果g(X)>0,则判为X1;否则判为X2。
多分类:
判决规则:对于所有的j!=i,有
则判为Xi