ROC曲线与AUC计算器

高级统计检验

在下方输入模型预测分数和真实标签,生成ROC曲线并计算曲线下面积(AUC)。

实用示例

点击示例可将数据加载到计算器中。

癌症检测模型

医学诊断

评估一个预测肿瘤为恶性(1)或良性(0)的模型。

阳性标签: 1

阴性标签: 0

0.95,1
0.85,1
0.80,0
0.70,1
0.55,1
0.45,0
0.40,1
0.30,0
0.25,0
0.10,0

信用违约预测

金融风险

评估一个计算客户违约('违约')与未违约('已还清')概率的模型。

阳性标签: 违约

阴性标签: 已还清

0.88,违约
0.76,已还清
0.71,违约
0.65,已还清
0.61,已还清
0.52,违约
0.41,已还清
0.39,违约
0.22,已还清
0.15,已还清

垃圾邮件过滤器

市场营销

测试一个对邮件为垃圾邮件('垃圾')或非垃圾('正常')概率评分的过滤器。

阳性标签: 垃圾

阴性标签: 正常

0.99,垃圾
0.91,垃圾
0.82,正常
0.75,垃圾
0.63,正常
0.51,垃圾
0.49,正常
0.33,正常
0.21,垃圾
0.11,正常

理想分离

完美分类器

一个完美分类器的示例,所有阳性样本分数都高于所有阴性样本。

阳性标签: 1

阴性标签: 0

0.9,1
0.8,1
0.7,1
0.6,1
0.5,1
0.4,0
0.3,0
0.2,0
0.1,0
0.05,0
其他标题
理解ROC曲线:全面指南
深入解析ROC曲线、AUC及其在分类模型评估中的意义。

什么是ROC曲线?

  • 分类基础
  • 真阳性与假阳性
  • 性能可视化
接收者操作特征(ROC)曲线是一个图形化工具,用于展示二元分类器在不同判别阈值下的诊断能力。该曲线通过在不同阈值下绘制真阳性率(TPR)与假阳性率(FPR)而成。
ROC曲线的关键组成
ROC曲线的两个基本指标是真阳性率(灵敏度)和假阳性率。TPR表示实际阳性中被正确识别的比例。FPR表示实际阴性中被错误识别为阳性的比例。理想分类器的TPR为1,FPR为0,即ROC空间的左上角。

ROC曲线计算器使用步骤指南

  • 数据格式化
  • 类别定义
  • 结果解读
使用本计算器非常简单。首先准备您的数据,每行包含模型预测分数和真实标签两列。
1. 输入数据
将数据粘贴到主文本区。每行一条记录,分数和标签用逗号分隔(如:0.85,1)。
2. 指定标签
在“阳性类别标签”和“阴性类别标签”字段中,输入代表阳性和阴性类别的确切文本或数字(如“1”和“0”,或“垃圾”和“正常”)。区分大小写。
3. 计算与分析
点击“计算”。工具将输出曲线下面积(AUC),基于Youden's J统计量找出最佳分类阈值,并给出该阈值下的灵敏度和特异性。同时生成绘制ROC曲线所需的(FPR, TPR)点。

AUC(曲线下面积)的意义

  • AUC作为性能指标
  • AUC值解读
  • AUC的局限性
曲线下面积(AUC)是ROC曲线最重要的指标,综合反映所有可能分类阈值下的模型性能。AUC表示分类器将随机选取的阳性样本排在随机选取的阴性样本前的概率。
如何解读AUC值
AUC值范围为0到1,值越高表示性能越好。AUC为1.0代表完美分类器,AUC为0.5表示无判别能力,相当于随机猜测。AUC小于0.5说明模型表现比随机还差。

AUC值通用解读指南

  • AUC = 1.0:完美分类器。
  • AUC > 0.9:卓越。
  • AUC > 0.8:优秀。
  • AUC > 0.7:可接受。
  • AUC = 0.5:无预测价值(随机)。
  • AUC < 0.5:比随机更差。

ROC分析的实际应用

  • 医学诊断
  • 金融与信用评分
  • 机器学习模型选择
医学诊断
在医学领域,ROC曲线用于评估诊断测试的性能。例如,可通过生物标志物水平开发检测某疾病的测试。ROC曲线帮助确定该生物标志物的最佳临界值,以最大化真阳性并最小化假阳性。
金融与信用评分
银行使用评分模型预测贷款申请人是否会违约。ROC分析帮助他们选择一个信用分数阈值,在降低坏账风险(假阳性)和避免错失优质客户(假阴性)之间取得平衡。

数学推导与最佳阈值的确定

  • TPR与FPR的计算
  • 曲线构建
  • Youden's J统计量
构建ROC曲线时,首先按模型分数降序排列数据。然后将每个唯一分数视为一个潜在阈值。对于每个阈值,将分数高于该值的样本判为阳性,低于的判为阴性。
TPR与FPR的公式
TPR = TP / (TP + FN),FPR = FP / (FP + TN)。其中TP为真阳性,FN为假阴性,FP为假阳性,TN为真阴性。
Youden's J统计量
为寻找“最佳”阈值,本计算器采用Youden's J统计量。其定义为J = 灵敏度 + 特异性 - 1(或TPR - FPR)。最大化该值的阈值被认为是最优点,对应于ROC空间中距离无判别线(对角线)最远的位置。