现在的位置: 首页 > 综合 > 正文

评价分类器的性能

2018年04月13日 ⁄ 综合 ⁄ 共 1760字 ⁄ 字号 评论关闭

一.分类正确率

    分类正确率定义为分类正确的样本数目与总体样本数目的比值。
 


二.敏感性和特异性

   对于一个二分类问题,定义下面四个统计值:
  • 正确的正例(TP):本身为类别t=1,被分类为p=1的对象的数量;
  • 正确的反例(TN):本身为类别t=0,被分类为p=0的对象的数量;
  • 错误的正例(FP):本身为类别t=0,被分类为p=1的对象的数目;
  • 错误的正例(FN):本身为类别t=1,被分类为p=0的对象的数目。
敏感性的定义如下:


特异性的定义如下:



三.ROC曲线

   对于二分类问题,定义:
   
   
   
   ROC空间将TPR定义为X轴,定义FPR为Y轴。

   对于一个给定的二元分类模型和它的阈值,根据所有样本的真实值和预测值计算出一个ROC坐标。

   从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(胜过随机分类),而在这条线以下的点代表了差的分类结果(劣于随机分类)。

   完美的预测是一个在左上角的点,在ROC空间座标 (0,1)点,X=0 代表着没有FN,Y=1 代表着没有FP;也就是说,不管分类器输出结果是阳性或阴性,都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线(也叫无识别率线)上的一个点;最直观的随机预测的例子就是抛硬币。
    离左上角越近的点预测准确率越高。

    上述ROC空间里的单点,是给定分类模型且给定阈值后得出的。但同一个二元分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的FPR和TPR。
   将同一模型不同阈值的(FPR, TPR) 座标都画在ROC空间里,就成为特定模型的ROC曲线。
   
   ROC曲线的比较
   (1).比较不同分类器时,ROC曲线的实际形状,便视两个实际分布的重叠范围而定,没有规律可循。
   (2).但在同一个分类器之内,阈值的不同设定对ROC曲线的影响,仍有一些规律可循:
    • 当阈值设定为最高时,亦即所有样本都被预测为负样本,没有样本被预测为正样本,此时在FPR = FP / ( FP + TN ) 算式中的 FP = 0,所以 FPR = 0%。同时在TPR算式中, TPR = TP / ( TP + FN ) 算式中的 TP = 0,所以 TPR = 0%

       即当阈值设定为最高时,必得出ROC座标系左下角的点 (0, 0)。


    • 当阈值设定为最低时,亦即所有样本都被预测为正样本,没有样本被预测为负样本,此时在FPR = FP / ( FP + TN ) 算式中的 TN = 0,所以 FPR = 100%。同时在TPR = TP / ( TP + FN ) 算式中的 FN = 0,所以 TPR=100%
      即当阈值设定为最低时,必得出ROC座标系右上角的点 (1, 1)。

    • 因为TP、FP、TN、FN都是累积次数,TN和FN随着阈值调低而减少(或持平),TP和FP随着阈值调低而增加(或持平),所以FPR和TPR皆必随着阈值调低而增加(或持平)。
      即随着阈值调低,ROC点 往右上(或右/或上)移动,或不动;但绝不会往左/下/左下移动。


四.混淆矩阵

    在人工智能中,混淆矩阵(英语:confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一列代表一个类的实例预测,而每一行表示一个实际的类的实例。在机器学习领域, 混淆矩阵通常被称为列联表或误差矩阵。
    对于二分类问题来说,混淆矩阵可以用下面的形式表示:

真实值
p n



p' TP FP P'
n' FN TN N'
总数 P N

    

    对于多分类问题来说,例如五分类问题,混淆矩阵的形式如下:
    

   对于混淆矩阵来说,每一列表示一个实际类别的样本被预测为不同类别的样本数目,混淆矩阵的对角线就是每一类别预测正确的样本数目



五.F评分(F score)

    由于分类准确率有时并不能很好地突出样本集的特点以及判断一个分类器的性能,对于二分类问题,可以定义下面的两个参数:


    这两个参数也可以用来评价分类器的性能,但是,由于这两个参数互相影响,因此,单独使用一个参数来评价分类器的性能,并不能全面的评价一个分类器。
    因此,我们可以采用F评分来对二分类问题的分类器进行评价,F评分的定义如下:

  F评分越高,表示分类器对于正样本是分类效果越好。F评分也可以用于那些需要选择阈值的分类器,F评分得分越高的阈值,效果越好。





    
    

抱歉!评论已关闭.