Le fondement mathématique des métriques de précision de classification dérive de la théorie des probabilités et de l'inférence statistique, fournissant des cadres rigoureux pour l'évaluation et la comparaison des performances.
Fondements Mathématiques :
Précision : A = (VP + VN) / N, où N = VP + FP + VN + FN est la taille totale de l'échantillon. Ceci représente la probabilité de classification correcte : P(Correct) = P(Positif ∩ Prédit Positif) + P(Négatif ∩ Prédit Négatif).
Précision : P = VP / (VP + FP) = P(Positif Réel | Prédit Positif). Cette probabilité conditionnelle mesure la fiabilité des prédictions positives en utilisant le cadre du théorème de Bayes.
Rappel (Sensibilité) : R = VP / (VP + FN) = P(Prédit Positif | Positif Réel). Ceci mesure le taux de vrais positifs et se rapporte à la puissance statistique dans les tests d'hypothèses.
Spécificité : S = VN / (VN + FP) = P(Prédit Négatif | Négatif Réel). Ceci mesure le taux de vrais négatifs et complète la sensibilité dans l'analyse ROC.
Score F1 : F1 = 2PR / (P + R) = 2VP / (2VP + FP + FN). Cette moyenne harmonique fournit une métrique unique équilibrant la précision et le rappel, particulièrement précieuse pour les ensembles de données déséquilibrés.
Relations Statistiques Avancées :
- Analyse ROC : Taux de Vrais Positifs (Rappel) vs Taux de Faux Positifs (1-Spécificité) fournit une visualisation complète des performances à travers les seuils de classification.
- Théorie de l'Information : L'information mutuelle entre les prédictions et les classes réelles quantifie les performances de classification en utilisant des mesures d'entropie.
- Intervalles de Confiance : Pour la précision A avec taille d'échantillon n, l'intervalle de confiance à 95% est approximativement A ± 1,96√(A(1-A)/n), permettant les tests de signification statistique.
Extensions Multi-Classes :
- Moyenné Macro : Calculez les métriques pour chaque classe séparément, puis moyennez : Précisionmacro = (1/k)Σ Précisioni pour k classes.
- Moyenné Micro : Agrégez tous les VP, FP, FN à travers les classes, puis calculez : Précisionmicro = Σ VPi / (Σ VPi + Σ FPi).
- Métriques Pondérées : Ponderez chaque classe par sa fréquence pour gérer le déséquilibre de classe : Précisionpondérée = Σ (ni/n) × Précisioni où ni est le nombre d'échantillons dans la classe i.