简单理解混淆矩阵 | 学步园

返回顶部
查看留言
转到底部

现在的位置: 首页 > 综合 > 正文

简单理解混淆矩阵

2018年04月28日 ⁄ 综合 ⁄ 共 1427字 ⁄ 字号小中大 ⁄ 评论关闭

混淆矩阵（confusion matrix）刻画一个分类器的分类准确程度。“混淆”一词也形象地表达了分类器面对多个分类时可能造成的混淆。

二元分类的混淆矩阵形式如下：

		实际值
	样本总数 N	Positive	Negative
预测值	Positive	实际是Positive，预测成Positive的样本数，又叫true positive (TP)	实际是Negative，预测成Positive的样本数，又叫false positive（FP)
	Negative	实际是Positive，预测成Negative的样本数，又叫false negative(FN)	实际是Negative，预测成Negative的样本数，又叫true negative(TN)
		实际Positive样本数=TP+FN	实际Negative样本数=FP+TN

其中，实际值也称为target, reference, actural。相应地，预测值被称为model, prediction, predicted。

此处二元分类标识为Positive和Negative，有时也标识为Normal/Abnormal, Accept/Reject或更简单的Yes/No。

下面是一个二元分类混淆矩阵的实例。一共有30张动物图片,其中13只猫，17只狗，一个二元分类器识别结果如下表。这就是一个简单的混淆矩阵。

		实际
		Cat	Dog
预测结果	Cat	10	2
	Dog	3	15

有了TP，FP，FN，TN后，可以构造出很多指标，从不同角度反映分类器的分类准确程度，常用的有，

1）正确率（Accuracy）：正确分类数/样本总数，描述了分类器总体分类准确程度。

accuracy = (TP+TN)/N, N=TP+FP+FN+TN

上例中，accuracy = （10+15）/30 = 0.83

2) 真阳性率（True Positive Rate）: 如果一个实例类别是positive，分类器预测结果的类别也是positive的比例。这个指标也叫敏感度（sensitivity）或召回率（recall），描述了分类器对positive类别的敏感程度。

TPR = TP/(TP+FN)

上例中，TPR = 10 /（10+3）=0.70

3) 假阳性率（False Positive Rate）：如果一个实例类别是negative，分类器预测结果的类别是positive的比例。这个指标也叫错检率（fallout）。

FPR = FP/(FP+TN)

上例中，FPR = 2/（2+15）=0.12

混淆矩阵的缺点：

一些positive事件发生概率极小的不平衡数据集(imbalanced data)，混淆矩阵可能效果不好。比如对信用卡交易是否异常做分类的情形，很可能1万笔交易中只有1笔交易是异常的。一个将所有交易都判定为正常的分类器，准确率是99.99%。这个数字虽然很高，但是没有任何现实意义。

参考文章：

http://iccm.cc/classification-model-evaluation-confusion-matrix/

http://www.dataschool.io/simple-guide-to-confusion-matrix-terminology/

http://en.wikipedia.org/wiki/Confusion_matrix

http://iccm.cc/classification-model-evaluation-confusion-matrix/

返回

【上篇】在ubuntu中安装db2
【下篇】JSP页面UTF-8格式中文字符串乱码问题解决方法

作者: BonnieSpeight

该日志由 BonnieSpeight 于6年前发表在综合分类下，最后更新于 2018年04月28日.
转载请注明: 简单理解混淆矩阵 | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

Copyright © 2013-2018 学步园保留所有权利.
软文销售 QQ客服：2265327166

点击这里给我发消息

（其他合作也可洽谈）