现在的位置: 首页 > 综合 > 正文

贝叶斯分类器与C4.5分类器的比较

2013年01月05日 ⁄ 综合 ⁄ 共 1793字 ⁄ 字号 评论关闭


贝叶斯分类器

特点:

1)贝叶斯分类计算的是属于各种类的概率,而不是直接指派给某一类。

2)所有属性的概率共同决定分类,而不是一个或几个属性决定分类。

3)属性可以是离散的、连续的,也可以是混合的。

特征选择方法:

贝叶斯分类器采用布尔模型,实例中的特征词不管出现多少次都表现为true,与频率无关。而且贝叶斯中所有特征词一视同仁共同决定分类结果这样,某些并不具有代表性的词无疑过多参与了分类决策,导致过拟合的问题。可以采用TF-IDF手段对特征进行筛选,如TF-IDF大于阈值或取TF-IDF前50%的词。经过TF-IDF筛选后的词既是文档中的重要词,又有不错的文档区分度。

优点:

1)速度快,允许增量式训练

大数据量训练和查询时能保持高速度。即使选用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是针对特征概率的数学运算而已。当训练量逐渐递增时计算复杂度也只线性增长。

允许增量式训练,每次训练时只需一个训练项,而不需使用整个数据集。支持增量式训练的能力在垃圾过滤等需要在应用中不断学习的场景非常重要。

2)学习情况可理解

可以计算出每个特征的概率值,即可理解为对最终分类的贡献。而在神经网络中神经元之间的连接强度则不存在如此简单的理解。

缺点:

无法处理特征组合的变化结果。贝叶斯分类器假设各属性间相互独立各个互相独立的属性具有各自的概率共同决定分类概率。假设有这样的样本,特征词w1和特征词w2分别单独出现时,分类的概率更高,但w1和w2同时出现时,正确的分类是正分类。贝叶斯将两概率相乘,显然会给出负分类结果。

C4.5分类器

特征选择方法:

适合用卡方检验、信息增益等统计检验的方法。决策树训练计算量大,且最终树的深度并不随维度的增加而明显增加,故必须降维。C4.5采用信息增益率作为判断最佳分类属性的依据,在特征选择阶段就进行一次信息增益的筛选显然能够更大程度地避免维度下降造成的损失。

优点:

1.预测计算速度快。只需沿着树根向下一直走到叶节点,沿途的分裂条件就能够唯一确定一条分类的谓词。

2. 更易解释训练模型。贝叶斯的可得到对分类贡献大的特征词,但这些特征词常常包含一些与分类结果没什么联系的词。C4.5挑选了重要特征作为分类属性,而且将最为重要的判断因素都很好地安排在了靠近树的根部位置。

3. 支持组合特征的分类。对于两个特征词同时出现的分类结果不同于单独出现的情况,C4.5很容易区分。

3. 经过剪枝后,处理过拟合问题比贝叶斯好。

缺点:

1. 高维时训练速度较慢,不支持增量式训练。每个分支属性的决定都得计算所有特征词的信息增益率,计算量大。每次训练依赖整个训练集,这样就无法在实际应用中实时学习。

2.
分类结果很多时,决策树会异常复杂,预测效果大打折扣。

3.
决策树并不擅长于对数值结果进行预测。一棵回归树可以将数据拆分成一系列具有最小方差的均值,但是如果数据非常复杂,则树就会变得非常庞大,以至于我们无法借此来做出准确的决策。


贝叶斯和C4.5的综合对比

                                                   贝叶斯                                                                               C4.5

速度快,允许增量式训练                                                                        高维后训练速度较慢,且不支持增量式训练

tf-idf特征信息适合用于贝叶斯                                                                卡方检验、信息增益等特征选取方法适合C4.5

组合词特征不适宜贝叶斯分类                                                                能够处理组合词特征

所有属性共同决定分类结果,不易去除噪音的影响                            C4.5经剪枝之后,在过拟合问题上要比贝叶斯分类器表现好

可解释训练模型,但存在无法理解的特征词                                        更容易解释训练模型

抱歉!评论已关闭.