现在的位置: 首页 > 综合 > 正文

简单理解混淆矩阵

2018年04月28日 ⁄ 综合 ⁄ 共 1427字 ⁄ 字号 评论关闭
混淆矩阵(confusion matrix)刻画一个分类器的分类准确程度。“混淆”一词也形象地表达了分类器面对多个分类时可能造成的混淆。
二元分类的混淆矩阵形式如下:
    实际值  
  样本总数 N Positive Negative
预测值 Positive
实际是Positive,预测成Positive的样本数,又叫true positive (TP)
实际是Negative,预测成Positive的样本数,又叫false positive(FP)
  Negative 实际是Positive,预测成Negative的样本数,又叫false negative(FN) 实际是Negative,预测成Negative的样本数,又叫true negative(TN)
    实际Positive样本数=TP+FN 实际Negative样本数=FP+TN
其中,实际值也称为target, reference, actural。相应地,预测值被称为model, prediction, predicted。
此处二元分类标识为Positive和Negative,有时也标识为Normal/Abnormal, Accept/Reject或更简单的Yes/No。
下面是一个二元分类混淆矩阵的实例。一共有30张动物图片,其中13只猫,17只狗,一个二元分类器识别结果如下表。这就是一个简单的混淆矩阵。
    实际  
    Cat Dog
预测结果 Cat 10 2
  Dog 3 15
有了TP,FP,FN,TN后,可以构造出很多指标,从不同角度反映分类器的分类准确程度,常用的有,
1)正确率(Accuracy):正确分类数/样本总数,描述了分类器总体分类准确程度。
accuracy = (TP+TN)/N, N=TP+FP+FN+TN
上例中,accuracy = (10+15)/30 = 0.83
2) 真阳性率(True Positive Rate): 如果一个实例类别是positive,分类器预测结果的类别也是positive的比例。这个指标也叫敏感度(sensitivity)或召回率(recall),描述了分类器对positive类别的敏感程度。
TPR = TP/(TP+FN)
上例中,TPR = 10 /(10+3)=0.70
3) 假阳性率(False Positive Rate):如果一个实例类别是negative,分类器预测结果的类别是positive的比例。这个指标也叫错检率(fallout)。
FPR = FP/(FP+TN)
上例中,FPR = 2/(2+15)=0.12
混淆矩阵的缺点:
一些positive事件发生概率极小的不平衡数据集(imbalanced data),混淆矩阵可能效果不好。比如对信用卡交易是否异常做分类的情形,很可能1万笔交易中只有1笔交易是异常的。一个将所有交易都判定为正常的分类器,准确率是99.99%。这个数字虽然很高,但是没有任何现实意义。
参考文章:

抱歉!评论已关闭.