Calculateur de Courbe ROC et AUC

Tests Statistiques Avancés

Saisissez les scores de prédiction de votre modèle et les vraies étiquettes ci-dessous pour générer une courbe ROC et calculer l'Aire Sous la Courbe (AUC).

Exemples Pratiques

Cliquez sur un exemple pour charger ses données dans le calculateur.

Cancer Detection Model

Diagnostic Médical

Evaluating a model that predicts the probability of a tumor being malignant (1) or benign (0).

Étiquette Positive: 1

Étiquette Négative: 0

0.95,1
0.85,1
0.80,0
0.70,1
0.55,1
0.45,0
0.40,1
0.30,0
0.25,0
0.10,0

Credit Default Prediction

Risque Financier

Assessing a model that calculates the likelihood of a customer defaulting on a loan ('default') vs. not defaulting ('paid').

Étiquette Positive: default

Étiquette Négative: paid

0.88,default
0.76,paid
0.71,default
0.65,paid
0.61,paid
0.52,default
0.41,paid
0.39,default
0.22,paid
0.15,paid

Spam Email Filter

Marketing

Testing a filter that scores emails on their probability of being spam ('spam') vs. not spam ('ham').

Étiquette Positive: spam

Étiquette Négative: ham

0.99,spam
0.91,spam
0.82,ham
0.75,spam
0.63,ham
0.51,spam
0.49,ham
0.33,ham
0.21,spam
0.11,ham

Ideal Separation

Classifieur Parfait

An example of a perfect classifier where all positive samples have higher scores than all negative samples.

Étiquette Positive: 1

Étiquette Négative: 0

0.9,1
0.8,1
0.7,1
0.6,1
0.5,1
0.4,0
0.3,0
0.2,0
0.1,0
0.05,0
Autres titres
Comprendre la Courbe ROC : Un Guide Complet
Un aperçu approfondi de la courbe ROC, de l'AUC et de leur importance dans l'évaluation des modèles de classification.

Qu'est-ce qu'une Courbe ROC ?

  • Les Bases de la Classification
  • Vrais Positifs vs Faux Positifs
  • Visualiser la Performance
Une courbe ROC (Receiver Operating Characteristic) est un graphique qui illustre la capacité diagnostique d'un système de classifieur binaire lorsque son seuil de discrimination varie. La courbe est créée en traçant le Taux de Vrais Positifs (TPR) contre le Taux de Faux Positifs (FPR) à différents seuils.
Composants Clés d'une Courbe ROC
Les deux métriques fondamentales qui forment la courbe ROC sont le Taux de Vrais Positifs (Sensibilité) et le Taux de Faux Positifs. Le TPR mesure la proportion de vrais positifs correctement identifiés. Le FPR mesure la proportion de vrais négatifs incorrectement identifiés comme positifs. Un classifieur idéal aurait un TPR de 1 et un FPR de 0, correspondant au coin supérieur gauche de l'espace ROC.

Guide Étape par Étape pour Utiliser le Calculateur de Courbe ROC

  • Formatage des Données
  • Définir les Classes
  • Interpréter les Résultats
Utiliser ce calculateur est simple. D'abord, préparez vos données. Elles doivent consister en deux colonnes ou parties par ligne : le score de prédiction de votre modèle et la vraie étiquette réelle.
1. Saisir les Données
Copiez et collez vos données dans la zone de texte principale. Chaque entrée doit être sur une nouvelle ligne, avec le score et l'étiquette séparés par une virgule (ex: 0.85,1).
2. Spécifier les Étiquettes
Dans les champs 'Étiquette de Classe Positive' et 'Étiquette de Classe Négative', saisissez le texte ou le nombre exact qui représente vos classes positive et négative (ex: '1' et '0', ou 'spam' et 'ham'). C'est sensible à la casse.
3. Calcul et Analyse
Cliquez sur 'Calculer'. L'outil affichera l'Aire Sous la Courbe (AUC), identifiera le seuil optimal pour la classification basé sur la statistique J de Youden, et fournira la sensibilité et la spécificité à ce seuil. Il génère également les points (FPR, TPR) nécessaires pour tracer vous-même la courbe ROC.

L'Importance de l'Aire Sous la Courbe (AUC)

  • AUC comme Métrique de Performance
  • Interpréter les Valeurs AUC
  • Limitations de l'AUC
L'Aire Sous la Courbe (AUC) est la métrique la plus importante dérivée de la courbe ROC. Elle fournit une mesure agrégée de performance à travers tous les seuils de classification possibles. L'AUC représente la probabilité que le classifieur classe une instance positive choisie au hasard plus haut qu'une instance négative choisie au hasard.
Comment Interpréter les Valeurs AUC
Les valeurs AUC vont de 0 à 1, où une valeur plus élevée indique une meilleure performance. Une AUC de 1.0 représente un classifieur parfait. Une AUC de 0.5 suggère aucune capacité de discrimination, équivalente à un tirage au sort. Une AUC inférieure à 0.5 indique que le modèle performe moins bien qu'un tirage au sort.

Guide Général d'Interprétation de l'AUC

  • AUC = 1.0 : Classifieur parfait.
  • AUC > 0.9 : Exceptionnel.
  • AUC > 0.8 : Excellent.
  • AUC > 0.7 : Acceptable.
  • AUC = 0.5 : Aucune valeur prédictive (hasard).
  • AUC < 0.5 : Pire que le hasard.

Applications Réelles de l'Analyse ROC

  • Diagnostics Médicaux
  • Finance et Scoring de Crédit
  • Sélection de Modèles d'Apprentissage Automatique
Diagnostics Médicaux
En médecine, les courbes ROC sont utilisées pour évaluer la performance des tests diagnostiques. Par exemple, un test pourrait être développé pour détecter une certaine maladie basée sur le niveau d'un biomarqueur. La courbe ROC aide à déterminer le seuil optimal pour ce niveau de biomarqueur pour maximiser les vrais positifs tout en minimisant les faux positifs.
Finance et Scoring de Crédit
Les banques utilisent des modèles de scoring pour prédire si un demandeur de prêt fera défaut. L'analyse ROC les aide à choisir un seuil de score de crédit qui équilibre le risque de prêter à un mauvais demandeur (faux positif) contre l'opportunité manquée de refuser un bon demandeur (faux négatif).

Dérivation Mathématique et Trouver le Seuil Optimal

  • Calculer TPR et FPR
  • Construire la Courbe
  • Statistique J de Youden
Pour construire une courbe ROC, les données sont d'abord triées par le score du modèle par ordre décroissant. Ensuite, chaque score unique est traité comme un seuil potentiel. Pour chaque seuil, nous classifions toutes les instances avec des scores au-dessus comme 'positives' et en dessous comme 'négatives'.
Formules pour TPR et FPR
TPR = TP / (TP + FN) et FPR = FP / (FP + TN), où TP sont les Vrais Positifs, FN sont les Faux Négatifs, FP sont les Faux Positifs, et TN sont les Vrais Négatifs.
Statistique J de Youden
Pour trouver le seuil 'optimal', ce calculateur utilise la statistique J de Youden. Elle est définie pour chaque point sur la courbe ROC comme J = Sensibilité + Spécificité - 1 (ou TPR - FPR). Le seuil qui maximise cette valeur est considéré comme optimal car il représente le point le plus éloigné de la ligne de non-discrimination (la ligne diagonale).