Apprentissage automatique supervisé: qu'est-ce que c'est, algorithmes, exemple

Table des matières:

Anonim

Qu'est-ce que l'apprentissage automatique supervisé?

Dans l'apprentissage supervisé, vous entraînez la machine en utilisant des données bien «étiquetées ». Cela signifie que certaines données sont déjà étiquetées avec la bonne réponse. Il peut être comparé à un apprentissage qui se déroule en présence d'un superviseur ou d'un enseignant.

Un algorithme d'apprentissage supervisé apprend à partir de données d'entraînement étiquetées et vous aide à prédire les résultats des données imprévues.

La création, la mise à l'échelle et le déploiement de modèles d'apprentissage automatique supervisé précis nécessitent du temps et une expertise technique de la part d'une équipe de data scientists hautement qualifiés. De plus, le scientifique des données doit reconstruire les modèles pour s'assurer que les informations fournies restent vraies jusqu'à ce que ses données changent.

Dans ce tutoriel, vous apprendrez:

  • Qu'est-ce que l'apprentissage automatique supervisé?
  • Comment fonctionne l'apprentissage supervisé
  • Types d'algorithmes d'apprentissage automatique supervisés
  • Techniques d'apprentissage automatique supervisées et non supervisées
  • Défis de l'apprentissage automatique supervisé
  • Avantages de l'apprentissage supervisé:
  • Inconvénients de l'apprentissage supervisé
  • Meilleures pratiques pour l'apprentissage supervisé

Comment fonctionne l'apprentissage supervisé

Par exemple, vous souhaitez entraîner une machine pour vous aider à prévoir le temps qu'il vous faudra pour rentrer de votre lieu de travail en voiture. Ici, vous commencez par créer un ensemble de données étiquetées. Ces données comprennent

  • Conditions météorologiques
  • Heure de la journée
  • Vacances

Tous ces détails sont vos entrées. La sortie est le temps qu'il a fallu pour rentrer chez soi ce jour-là.

Vous savez instinctivement que s'il pleut dehors, il vous faudra plus de temps pour rentrer chez vous en voiture. Mais la machine a besoin de données et de statistiques.

Voyons maintenant comment vous pouvez développer un modèle d'apprentissage supervisé de cet exemple qui aide l'utilisateur à déterminer le temps de trajet. La première chose que vous devez créer est un ensemble de formation. Cet ensemble d'entraînement contiendra le temps total de trajet et les facteurs correspondants tels que la météo, le temps, etc. Sur la base de cet ensemble d'entraînement, votre machine peut voir qu'il existe une relation directe entre la quantité de pluie et le temps que vous devrez prendre pour rentrer à la maison.

Ainsi, il vérifie que plus il pleut, plus vous roulerez longtemps pour rentrer chez vous. Il peut également voir le lien entre l'heure à laquelle vous quittez le travail et l'heure à laquelle vous serez sur la route.

Plus vous approchez de 18 h, plus il vous faudra de temps pour rentrer à la maison. Votre appareil peut trouver certaines des relations avec vos données étiquetées.

C'est le début de votre modèle de données. Cela commence à avoir un impact sur la façon dont la pluie affecte la façon dont les gens conduisent. Il commence également à voir que plus de personnes voyagent à une heure particulière de la journée.

Types d'algorithmes d'apprentissage automatique supervisés

Régression:

La technique de régression prédit une valeur de sortie unique à l'aide des données d'entraînement.

Exemple : vous pouvez utiliser la régression pour prédire le prix de l'immobilier à partir des données d'entraînement. Les variables d'entrée seront la localité, la taille d'une maison, etc.

Points forts : Les sorties ont toujours une interprétation probabiliste, et l'algorithme peut être régularisé pour éviter le surajustement.

Faiblesses : La régression logistique peut sous-performer lorsqu'il existe des limites de décision multiples ou non linéaires. Cette méthode n'est pas flexible, elle ne capture donc pas les relations plus complexes.

Régression logistique:

Méthode de régression logistique utilisée pour estimer des valeurs discrètes basées sur un ensemble donné de variables indépendantes. Il vous aide à prédire la probabilité d'occurrence d'un événement en adaptant les données à une fonction logit. Par conséquent, il est également connu sous le nom de régression logistique. Comme il prédit la probabilité, sa valeur de sortie se situe entre 0 et 1.

Voici quelques types d'algorithmes de régression

Classification:

La classification signifie regrouper la sortie dans une classe. Si l'algorithme essaie d'étiqueter l'entrée en deux classes distinctes, on parle de classification binaire. La sélection entre plus de deux classes est appelée classification multiclasse.

Exemple : déterminer si quelqu'un sera ou non en défaut de paiement.

Points forts : L'arbre de classification fonctionne très bien en pratique

Faiblesses : Les arbres individuels sans contrainte sont sujets au surajustement.

Voici quelques types d'algorithmes de classification

Classificateurs naïfs de Bayes

Le modèle bayésien naïf (NBN) est facile à construire et très utile pour les grands ensembles de données. Cette méthode est composée de graphes acycliques directs avec un parent et plusieurs enfants. Il suppose l'indépendance entre les nœuds enfants séparés de leur parent.

Arbres de décision

Les arbres de décision classifient les instances en les triant en fonction de la valeur de la caractéristique. Dans cette méthode, chaque mode est la fonctionnalité d'une instance. Il doit être classé et chaque branche représente une valeur que le nœud peut prendre. C'est une technique de classification largement utilisée. Dans cette méthode, la classification est un arbre appelé arbre de décision.

Il vous aide à estimer les valeurs réelles (coût d'achat d'une voiture, nombre d'appels, ventes mensuelles totales, etc.).

Machine à vecteur de soutien

La machine à vecteurs de support (SVM) est un type d'algorithme d'apprentissage développé en 1990. Cette méthode est basée sur les résultats de la théorie de l'apprentissage statistique introduite par Vap Nik.

Les machines SVM sont également étroitement liées aux fonctions du noyau, ce qui est un concept central pour la plupart des tâches d'apprentissage. Le framework du noyau et SVM sont utilisés dans une variété de domaines. Il comprend la récupération d'informations multimédias, la bioinformatique et la reconnaissance de formes.

Techniques d'apprentissage automatique supervisées et non supervisées

Basé sur Technique d'apprentissage automatique supervisé Technique d'apprentissage automatique non supervisé
Des données d'entrée Les algorithmes sont entraînés à l'aide de données étiquetées. Les algorithmes sont utilisés contre des données qui ne sont pas étiquetées
Complexité informatique L'apprentissage supervisé est une méthode plus simple. L'apprentissage non supervisé est complexe sur le plan du calcul
Précision Méthode très précise et digne de confiance. Méthode moins précise et digne de confiance.

Défis de l'apprentissage automatique supervisé

Voici les défis rencontrés dans l'apprentissage automatique supervisé:

  • Une fonction d'entrée non pertinente présente des données d'entraînement pouvant donner des résultats inexacts
  • La préparation et le prétraitement des données sont toujours un défi.
  • La précision souffre lorsque des valeurs impossibles, improbables et incomplètes ont été saisies en tant que données d'entraînement
  • Si l'expert concerné n'est pas disponible, l'autre approche est la «force brute». Cela signifie que vous devez penser aux bonnes fonctionnalités (variables d'entrée) pour entraîner la machine. Cela pourrait être inexact.

Avantages de l'apprentissage supervisé:

  • L'apprentissage supervisé vous permet de collecter des données ou de produire une sortie de données de l'expérience précédente
  • Vous aide à optimiser les critères de performance en utilisant l'expérience
  • L'apprentissage automatique supervisé vous aide à résoudre divers types de problèmes de calcul dans le monde réel.

Inconvénients de l'apprentissage supervisé

  • La limite de décision peut être surentraînée si votre ensemble d'entraînement qui ne contient pas d'exemples que vous souhaitez avoir dans une classe
  • Vous devez sélectionner de nombreux bons exemples de chaque classe pendant que vous entraînez le classificateur.
  • La classification du big data peut être un véritable défi.
  • La formation à l'apprentissage supervisé nécessite beaucoup de temps de calcul.

Meilleures pratiques pour l'apprentissage supervisé

  • Avant de faire quoi que ce soit d'autre, vous devez décider du type de données à utiliser comme ensemble d'apprentissage
  • Vous devez décider de la structure de la fonction apprise et de l'algorithme d'apprentissage.
  • Gathere les résultats correspondants soit d'experts humains, soit de mesures

Résumé

  • Dans l'apprentissage supervisé, vous entraînez la machine en utilisant des données bien «étiquetées».
  • Vous voulez entraîner une machine qui vous aide à prédire combien de temps il vous faudra pour rentrer de votre lieu de travail pour rentrer chez vous est un exemple d'apprentissage supervisé
  • La régression et la classification sont deux types de techniques d'apprentissage automatique supervisé.
  • L'apprentissage supervisé est une méthode plus simple tandis que l'apprentissage non supervisé est une méthode complexe.
  • Le plus grand défi de l'apprentissage supervisé est que les données de formation présentes sur les fonctionnalités d'entrée non pertinentes peuvent donner des résultats inexacts.
  • Le principal avantage de l'apprentissage supervisé est qu'il vous permet de collecter des données ou de produire une sortie de données à partir de l'expérience précédente.
  • L'inconvénient de ce modèle est que la limite de décision peut être surmenée si votre ensemble d'entraînement ne contient pas d'exemples que vous souhaitez avoir dans une classe.
  • En tant que meilleure pratique de supervision de l'apprentissage, vous devez d'abord décider du type de données à utiliser comme ensemble de formation.