Matrice de confusion dans l'apprentissage automatique avec EXEMPLE

Table des matières:

Anonim

Qu'est-ce que la matrice de confusion?

Une matrice de confusion est une technique de mesure des performances pour la classification de l'apprentissage automatique. C'est une sorte de tableau qui vous aide à connaître les performances du modèle de classification sur un ensemble de données de test pour que les vraies valeurs soient connues. Le terme matrice de confusion lui-même est très simple, mais sa terminologie associée peut être un peu déroutante. Ici, une explication simple est donnée pour cette technique.

Dans ce tutoriel, vous apprendrez,

  • Qu'est-ce que la matrice de confusion?
  • Quatre résultats de la matrice de confusion
  • Exemple de matrice de confusion:
  • Comment calculer une matrice de confusion
  • Autres termes importants utilisant une matrice de confusion
  • Pourquoi avez-vous besoin d'une matrice de confusion?

Quatre résultats de la matrice de confusion

La matrice de confusion visualise la précision d'un classificateur en comparant les classes réelles et prévues. La matrice de confusion binaire est composée de carrés:

Table de confusion
  • TP: True Positive: les valeurs prédites correctement prédites comme positives réelles
  • FP: Les valeurs prédites prédisaient incorrectement un réel positif. c.-à-d. valeurs négatives prédites comme positives
  • FN: faux négatif: valeurs positives prédites comme négatives
  • TN: True Negative: les valeurs prédites correctement prédites comme un négatif réel

Vous pouvez calculer le test de précision à partir de la matrice de confusion:

Exemple de matrice de confusion:

Confusion Matrix est une méthode d'apprentissage automatique utile qui vous permet de mesurer le rappel, la précision, l'exactitude et la courbe AUC-ROC. Vous trouverez ci-dessous un exemple pour connaître les termes Vrai positif, Vrai négatif, Faux négatif et Vrai négatif.

Vrai positif:

Vous avez projeté du positif et cela s'est avéré vrai. Par exemple, vous aviez prédit que la France gagnerait la coupe du monde, et elle a gagné.

Vrai négatif:

Quand vous avez prédit négatif, et c'est vrai. Vous aviez prédit que l'Angleterre ne gagnerait pas et elle a perdu.

Faux positif:

Votre prédiction est positive et fausse.

Vous aviez prédit que l'Angleterre gagnerait, mais elle a perdu.

Faux négatif:

Votre prédiction est négative et le résultat est également faux.

Vous aviez prédit que la France ne gagnerait pas, mais elle a gagné.

N'oubliez pas que nous décrivons les valeurs prédites comme Vrai ou Faux ou Positif et Négatif.

Comment calculer une matrice de confusion

Voici le processus étape par étape pour calculer une matrice de confusion dans l'exploration de données

  • Étape 1) Tout d'abord, vous devez tester l'ensemble de données avec ses valeurs de résultat attendues.
  • Étape 2) Prédisez toutes les lignes de l'ensemble de données de test.
  • Étape 3) Calculez les prévisions et les résultats attendus:
  1. Le total des prédictions correctes de chaque classe.
  2. Le total des prédictions incorrectes de chaque classe.

Après cela, ces numéros sont organisés selon les méthodes ci-dessous:

  • Chaque ligne de la matrice est liée à une classe prédite.
  • Chaque colonne de la matrice correspond à une classe réelle.
  • Les décomptes totaux de classification correcte et incorrecte sont inscrits dans le tableau.
  • La somme des prédictions correctes pour une classe va dans la colonne prédite et la ligne attendue pour cette valeur de classe.
  • La somme des prédictions incorrectes pour une classe entre dans la ligne attendue pour cette valeur de classe et la colonne prédite pour cette valeur de classe spécifique.

Autres termes importants utilisant une matrice de confusion

  • Valeur prédictive positive (PVV): Ceci est très proche de la précision. Une différence significative entre les deux termes est que le PVV tient compte de la prévalence. Dans le cas où les classes sont parfaitement équilibrées, la valeur prédictive positive est la même que la précision.
  • Taux d'erreur nul: ce terme est utilisé pour définir combien de fois votre prédiction serait erronée si vous pouvez prédire la classe majoritaire. Vous pouvez le considérer comme une métrique de base pour comparer votre classificateur.
  • Score F: Le score F1 est un score moyen pondéré du vrai positif (rappel) et de la précision.
  • Roc Curve: La courbe Roc montre les vrais taux positifs par rapport au taux de faux positifs à divers points de coupure. Il démontre également un compromis entre la sensibilité (rappel et spécificité ou le vrai taux négatif).
  • Précision: la métrique de précision montre l'exactitude de la classe positive. Il mesure la probabilité que la prédiction de la classe positive soit correcte.

Le score maximum est de 1 lorsque le classificateur classe parfaitement toutes les valeurs positives. La précision seule n'est pas très utile car elle ignore la classe négative. La métrique est généralement associée à la métrique de rappel. Le rappel est également appelé sensibilité ou vrai taux positif.

  • Sensibilité : La sensibilité calcule le rapport des classes positives correctement détectées. Cette métrique donne à quel point le modèle est bon pour reconnaître une classe positive.

Pourquoi avez-vous besoin d'une matrice de confusion?

Voici les avantages / avantages de l'utilisation d'une matrice de confusion.

  • Il montre comment tout modèle de classification est confus lorsqu'il fait des prédictions.
  • La matrice de confusion vous donne non seulement un aperçu des erreurs commises par votre classificateur, mais également des types d'erreurs qui sont commises.
  • Cette ventilation vous aide à surmonter la limitation de l'utilisation de la précision de classification seule.
  • Chaque colonne de la matrice de confusion représente les instances de cette classe prédite.
  • Chaque ligne de la matrice de confusion représente les instances de la classe réelle.
  • Il fournit un aperçu non seulement des erreurs commises par un classificateur, mais également des erreurs commises.