Calculateur du Coefficient de Corrélation de Matthews (MCC)

Entrez les valeurs de votre matrice de confusion pour évaluer les performances du modèle.

Fournissez les valeurs Vrais Positifs (TP), Faux Positifs (FP), Vrais Négatifs (TN) et Faux Négatifs (FN) de la matrice de confusion de votre modèle. Le calculateur calculera le MCC et d'autres métriques de performance clés.

Exemples Pratiques

Explorez différents scénarios pour comprendre comment fonctionne le MCC.

Balanced High-Performing Model

Modèle Équilibré à Haute Performance

Un scénario où le modèle performe bien sur un ensemble de données équilibré.

TP: 90, FP: 10

TN: 85, FN: 15

Imbalanced Dataset

Ensemble de Données Déséquilibré

Un exemple avec un ensemble de données déséquilibré, où le MCC est particulièrement utile.

TP: 95, FP: 5

TN: 9900, FN: 0

Poor Performing Model

Modèle à Faible Performance

Un modèle qui performe mal, proche d'une prédiction aléatoire.

TP: 50, FP: 50

TN: 50, FN: 50

Perfect Prediction

Prédiction Parfaite

Un modèle parfait sans erreurs, résultant au score MCC le plus élevé possible.

TP: 100, FP: 0

TN: 100, FN: 0

Autres titres
Comprendre le Coefficient de Corrélation de Matthews (MCC) : Un Guide Complet
Une plongée approfondie dans l'une des métriques les plus robustes pour l'évaluation des modèles de classification binaire.

1. Qu'est-ce que le Coefficient de Corrélation de Matthews (MCC) ?

  • Définir le MCC
  • La Matrice de Confusion : La Fondation du MCC
  • Pourquoi le MCC est une Métrique Supérieure
Le Coefficient de Corrélation de Matthews (MCC), également connu sous le nom de coefficient phi, est un taux statistique qui mesure la qualité d'une classification binaire. Il est largement considéré comme l'une des mesures les plus équilibrées et informatives car il prend en compte les quatre entrées de la matrice de confusion : Vrais Positifs (TP), Vrais Négatifs (TN), Faux Positifs (FP) et Faux Négatifs (FN).
Le MCC produit une valeur entre -1 et +1. Un coefficient de +1 représente une prédiction parfaite, 0 n'est pas mieux qu'aléatoire, et -1 indique un désaccord total entre prédiction et observation. Contrairement à la précision ou au score F1, le MCC performe bien même sur des ensembles de données déséquilibrés, le rendant plus fiable dans de nombreux scénarios du monde réel.
La Matrice de Confusion
Pour comprendre le MCC, vous devez d'abord comprendre la matrice de confusion. Vrais Positifs (TP) : Cas positifs correctement prédits. Vrais Négatifs (TN) : Cas négatifs correctement prédits. Faux Positifs (FP) : Cas positifs incorrectement prédits (une erreur de 'Type I'). Faux Négatifs (FN) : Cas négatifs incorrectement prédits (une erreur de 'Type II').
Avantages du MCC
Données Déséquilibrées : Il fournit un score équitable même si le nombre d'échantillons négatifs et positifs sont très différents. Symétrie : C'est une métrique symétrique, ce qui signifie qu'il n'importe pas quelle classe est étiquetée 'positive'. Échanger les classes positives et négatives donne la même valeur MCC. Exhaustivité : C'est la moyenne géométrique des coefficients de régression du problème et de son dual, résumant la performance en une seule valeur.

2. Dérivation Mathématique et Formule

  • La Formule MCC
  • Interpréter le Résultat
  • Gérer les Cas Limites
Le MCC est calculé directement à partir des quatre valeurs de la matrice de confusion en utilisant une formule spécifique.
La Formule
MCC = (TP TN - FP FN) / sqrt((TP + FP) (TP + FN) (TN + FP) * (TN + FN))
Le numérateur, TP * TN - FP * FN, mesure essentiellement la covariance entre les valeurs prédites et réelles. Une grande valeur positive signifie que les prédictions s'alignent bien avec la réalité. Le dénominateur est un facteur de normalisation, mettant à l'échelle le résultat entre -1 et +1. C'est la moyenne géométrique des quatre sommes des lignes et colonnes de la matrice de confusion.
Cas Limite : Zéro au Dénominateur
Un cas limite crucial se produit si l'une des quatre sommes au dénominateur est zéro (par exemple, le modèle prédit toujours 'positif', rendant TN + FP = 0). Dans cette situation, le dénominateur devient zéro, ce qui mènerait à une erreur de division par zéro. Par convention, le MCC est défini comme 0 dans de tels cas, reflétant que le modèle n'a aucun pouvoir prédictif.

3. Guide Étape par Étape pour Utiliser le Calculateur

  • Rassembler Vos Données
  • Entrer les Valeurs
  • Interpréter la Sortie
Étape 1 : Obtenir les Valeurs de la Matrice de Confusion
Avant d'utiliser le calculateur, vous devez avoir les résultats de votre modèle de classification binaire résumés dans une matrice de confusion. Cela signifie que vous avez besoin de quatre nombres : Vrais Positifs (TP), Faux Positifs (FP), Vrais Négatifs (TN) et Faux Négatifs (FN).
Étape 2 : Entrer les Valeurs
Entrez chacune de ces quatre valeurs dans les champs correspondants du calculateur. Les champs sont clairement étiquetés. Assurez-vous d'entrer des entiers non négatifs.
Étape 3 : Calculer et Analyser
Cliquez sur le bouton 'Calculer'. L'outil fournira instantanément le Coefficient de Corrélation de Matthews (MCC). Outre le MCC, il calculera également d'autres métriques utiles comme la Précision, la Précision, le Rappel (Sensibilité), la Spécificité et le Score F1, vous donnant une image complète des performances de votre modèle.

Exemple de Calcul

  • Soit TP = 90, FP = 5, TN = 85, FN = 10.
  • Numérateur = (90 * 85) - (5 * 10) = 7650 - 50 = 7600.
  • Dénominateur = sqrt((90+5)*(90+10)*(85+5)*(85+10)) = sqrt(95 * 100 * 90 * 95) = sqrt(81,225,000) ≈ 9012.49
  • MCC = 7600 / 9012.49 ≈ 0.843

4. Applications Réelles du MCC

  • Diagnostic Médical
  • Bioinformatique
  • Détection de Fraude Financière
Diagnostic Médical
Dans les tests médicaux, identifier avec précision les patients atteints d'une maladie (vrais positifs) et sans maladie (vrais négatifs) est critique. Parce que le nombre d'individus en bonne santé dépasse souvent largement le nombre d'individus malades (un ensemble de données déséquilibré), le MCC est une excellente métrique pour évaluer les performances des tests diagnostiques, car il n'est pas biaisé par le grand nombre de vrais négatifs.
Bioinformatique
Le MCC est largement utilisé en bioinformatique pour des tâches comme la prédiction des structures secondaires des protéines. La prédiction est une tâche de classification (par exemple, hélice, feuillet ou boucle), et le MCC fournit un moyen standard de mesurer la qualité de ces prédictions.
Détection de Fraude Financière
Dans la détection de fraude, les transactions frauduleuses (la classe 'positive') sont très rares par rapport aux légitimes. La précision serait une métrique trompeuse, car un modèle qui prédit toujours 'pas de fraude' aurait une très haute précision. Le MCC fournit une évaluation beaucoup plus réaliste de la capacité d'un modèle de détection de fraude à distinguer entre les activités frauduleuses et légitimes.

5. Idées Fausses Courantes et Méthodes Correctes

  • Précision vs MCC
  • Score F1 vs MCC
  • Quand Utiliser le MCC
Idée Fausse : 'Une Haute Précision Signifie un Bon Modèle'
C'est le sophisme le plus courant, surtout avec des données déséquilibrées. Comme mentionné dans l'exemple de détection de fraude, un modèle peut atteindre plus de 99% de précision en devinant simplement la classe majoritaire. Le MCC évite ce piège en incorporant l'équilibre des quatre cellules de la matrice de confusion, fournissant un score proche de zéro pour un tel modèle naïf.
Idée Fausse : 'Le Score F1 est Toujours Suffisant'
Le Score F1 est la moyenne harmonique de la précision et du rappel et est une excellente métrique. Cependant, il ignore les Vrais Négatifs. Cela peut être problématique. Par exemple, dans un test médical pour une maladie rare, le nombre de vrais négatifs (personnes en bonne santé correctement identifiées) est une information très importante que le Score F1 néglige. Le MCC, en revanche, utilise les quatre cellules et fournit ainsi un résumé plus complet.
Quand Devriez-Vous Prioriser le MCC ?
Vous devriez considérer le MCC comme votre métrique principale chaque fois que vous traitez une tâche de classification binaire, mais cela devient particulièrement crucial lorsque votre ensemble de données est déséquilibré. Sa capacité à fournir un résumé unique, interprétable et équilibré de la performance en fait un outil indispensable pour les scientifiques des données et les chercheurs.