马修斯相关系数 (MCC) 计算器

输入混淆矩阵数据,评估模型性能。

输入模型混淆矩阵中的真阳性 (TP)、假阳性 (FP)、真阴性 (TN) 和假阴性 (FN) 数值。计算器将自动计算MCC及其他关键性能指标。

实际示例

探索不同场景,理解MCC的应用。

均衡高性能模型

均衡型

模型在均衡数据集上表现良好。

TP: 90, FP: 10

TN: 85, FN: 15

不均衡数据集

不均衡型

不均衡数据集下的示例,MCC尤为有用。

TP: 95, FP: 5

TN: 9900, FN: 0

低性能模型

低性能

模型表现较差,接近随机猜测。

TP: 50, FP: 50

TN: 50, FN: 50

完美预测

完美预测

无误差的完美模型,MCC得分最高。

TP: 100, FP: 0

TN: 100, FN: 0

其他标题
理解马修斯相关系数 (MCC):全面指南
深入了解二元分类模型评估中最健壮的指标之一。

1. 什么是马修斯相关系数 (MCC)?

  • MCC定义
  • 混淆矩阵:MCC的基础
  • 为何MCC是更优指标
马修斯相关系数(MCC),又称phi系数,是衡量二元分类质量的统计量。它被认为是最平衡、最具信息量的指标之一,因为它考虑了混淆矩阵的全部四项:真阳性 (TP)、真阴性 (TN)、假阳性 (FP)、假阴性 (FN)。
MCC取值范围为-1到+1。+1表示完美预测,0表示与随机无异,-1表示预测与实际完全相反。与准确率或F1分数不同,MCC在不均衡数据集上表现良好,因此在许多实际场景下更可靠。
混淆矩阵
理解MCC,首先要理解混淆矩阵。真阳性 (TP):正确预测为正的样本数。真阴性 (TN):正确预测为负的样本数。假阳性 (FP):错误预测为正的样本数(I类错误)。假阴性 (FN):错误预测为负的样本数(II类错误)。
MCC的优势
不均衡数据:即使正负样本数量差异很大,MCC也能给出公平的分数。对称性:它是对称指标,不受正负类标签影响。交换正负类,MCC值不变。全面性:它是问题及其对偶的回归系数的几何平均,用单一数值总结性能。

2. 数学推导与公式

  • MCC公式
  • 结果解读
  • 边界情况处理
MCC可直接通过混淆矩阵的四个数值用特定公式计算。
公式
MCC = (TP TN - FP FN) / sqrt((TP + FP) (TP + FN) (TN + FP) * (TN + FN))
分子TP TN - FP FN本质上衡量预测与实际的协方差。分母是归一化因子,将结果缩放到-1到+1之间,是混淆矩阵四项和的几何平均。
边界情况:分母为零
若分母中任一项为零(如模型总是预测正类,导致TN+FP=0),则分母为零,会导致除零错误。约定此时MCC定义为0,表示模型无预测能力。

3. 计算器使用步骤

  • 收集数据
  • 输入数值
  • 解读输出
步骤1:获取混淆矩阵数值
在使用计算器前,需将二元分类模型结果整理为混淆矩阵,即四个数值:真阳性 (TP)、假阳性 (FP)、真阴性 (TN)、假阴性 (FN)。
步骤2:输入数值
将这四个数值分别输入到计算器对应字段。字段均有清晰标签。请确保输入非负整数。
步骤3:计算与分析
点击“计算”按钮,工具将立即给出马修斯相关系数 (MCC)。同时还会计算准确率、精确率、召回率(灵敏度)、特异性和F1分数,全面展示模型性能。

示例计算

  • 设TP=90, FP=5, TN=85, FN=10。
  • 分子 = (90 * 85) - (5 * 10) = 7650 - 50 = 7600。
  • 分母 = sqrt((90+5)*(90+10)*(85+5)*(85+10)) = sqrt(95 * 100 * 90 * 95) = sqrt(81,225,000) ≈ 9012.49
  • MCC = 7600 / 9012.49 ≈ 0.843

4. MCC的实际应用

  • 医学诊断
  • 生物信息学
  • 金融欺诈检测
医学诊断
医学检测中,准确识别患病(真阳性)和健康(真阴性)个体至关重要。由于健康人数远多于患病者(数据集不均衡),MCC非常适合评估诊断测试性能,不会因真阴性数量大而失真。
生物信息学
MCC广泛用于生物信息学任务,如蛋白质二级结构预测。这类任务属于分类问题,MCC为预测质量提供标准化衡量。
金融欺诈检测
在欺诈检测中,欺诈交易(正类)远少于正常交易。仅用准确率会误导,因为总是预测“非欺诈”会有很高准确率。MCC能更真实地评估模型区分欺诈与正常行为的能力。

5. 常见误区与正确方法

  • 准确率 vs. MCC
  • F1分数 vs. MCC
  • 何时优先使用MCC
误区:高准确率=好模型
这是最常见的误区,尤其在不均衡数据下。如欺诈检测示例,总是猜测多数类可得99%以上准确率。MCC通过平衡四项,能识别这种“伪好”模型,得分接近0。
误区:F1分数总是足够
F1分数是精确率与召回率的调和平均,是很好的指标,但它忽略了真阴性。在罕见病医学测试中,正确识别健康人的真阴性信息非常重要,而F1分数未考虑。MCC则用全部四项,给出更全面总结。
何时优先MCC?
只要是二元分类任务都建议关注MCC,尤其在数据集不均衡时。MCC能用单一、可解释且平衡的分数总结性能,是数据科学家和研究者不可或缺的工具。