Qu'est-ce que l'apprentissage automatique supervisé?
Dans l'apprentissage supervisé, vous entraînez la machine en utilisant des données bien «étiquetées ». Cela signifie que certaines données sont déjà étiquetées avec la bonne réponse. Il peut être comparé à un apprentissage qui se déroule en présence d'un superviseur ou d'un enseignant.
Un algorithme d'apprentissage supervisé apprend à partir de données d'entraînement étiquetées et vous aide à prédire les résultats des données imprévues. Construire, mettre à l'échelle et déployer avec succès un modèle de science des données de machine learning supervisé et précis nécessite du temps et une expertise technique de la part d'une équipe de data scientists hautement qualifiés. De plus, le scientifique des données doit reconstruire les modèles pour s'assurer que les informations fournies restent vraies jusqu'à ce que ses données changent.
Dans ce tutoriel, vous apprendrez
- Qu'est-ce que l'apprentissage automatique supervisé?
- Qu'est-ce que l'apprentissage non supervisé?
- Pourquoi l'apprentissage supervisé?
- Pourquoi l'apprentissage non supervisé?
- Comment fonctionne l'apprentissage supervisé?
- Comment fonctionne l'apprentissage non supervisé?
- Types de techniques d'apprentissage automatique supervisées
- Types de techniques d'apprentissage automatique non supervisées
- Apprentissage supervisé ou non supervisé
Qu'est-ce que l'apprentissage non supervisé?
L'apprentissage non supervisé est une technique d'apprentissage automatique, dans laquelle vous n'avez pas besoin de superviser le modèle. Au lieu de cela, vous devez autoriser le modèle à fonctionner seul pour découvrir des informations. Il traite principalement des données non étiquetées.
Les algorithmes d'apprentissage non supervisé vous permettent d'effectuer des tâches de traitement plus complexes que l'apprentissage supervisé. Cependant, l'apprentissage non supervisé peut être plus imprévisible par rapport à d'autres méthodes d'apprentissage en profondeur d'apprentissage naturel et d'apprentissage par renforcement.
Pourquoi l'apprentissage supervisé?
- L'apprentissage supervisé vous permet de collecter des données ou de produire une sortie de données à partir de l'expérience précédente.
- Vous aide à optimiser les critères de performance en utilisant l'expérience
- L'apprentissage automatique supervisé vous aide à résoudre divers types de problèmes de calcul dans le monde réel.
Pourquoi l'apprentissage non supervisé?
Voici les principales raisons d'utiliser l'apprentissage non supervisé:
- L'apprentissage automatique non supervisé trouve toutes sortes de modèles inconnus dans les données.
- Les méthodes non supervisées vous aident à trouver des fonctionnalités qui peuvent être utiles pour la catégorisation.
- Elle se déroule en temps réel, donc toutes les données d'entrée doivent être analysées et étiquetées en présence des apprenants.
- Il est plus facile d'obtenir des données non étiquetées à partir d'un ordinateur que des données étiquetées, qui nécessitent une intervention manuelle.
Comment fonctionne l'apprentissage supervisé?
Par exemple, vous souhaitez entraîner une machine pour vous aider à prévoir le temps qu'il vous faudra pour rentrer de votre lieu de travail en voiture. Ici, vous commencez par créer un ensemble de données étiquetées. Ces données comprennent
- Conditions météorologiques
- Heure de la journée
- Vacances
Tous ces détails sont vos entrées. La sortie est le temps qu'il a fallu pour rentrer chez soi ce jour-là.
Vous savez instinctivement que s'il pleut dehors, il vous faudra plus de temps pour rentrer chez vous en voiture. Mais la machine a besoin de données et de statistiques.
Voyons maintenant comment vous pouvez développer un modèle d'apprentissage supervisé de cet exemple qui aide l'utilisateur à déterminer le temps de trajet. La première chose que vous devez créer est un ensemble de données d'entraînement. Cet ensemble d'entraînement contiendra le temps total de trajet et les facteurs correspondants tels que la météo, le temps, etc. Sur la base de cet ensemble d'entraînement, votre machine peut voir qu'il existe une relation directe entre la quantité de pluie et le temps que vous devrez prendre pour rentrer à la maison.
Ainsi, il vérifie que plus il pleut, plus vous roulerez longtemps pour rentrer chez vous. Il peut également voir le lien entre l'heure à laquelle vous quittez le travail et l'heure à laquelle vous serez sur la route.
Plus vous vous rapprochez de 18 h, plus il vous faudra de temps pour rentrer à la maison. Votre appareil peut trouver certaines des relations avec vos données étiquetées.
C'est le début de votre modèle de données. Cela commence à avoir un impact sur la façon dont la pluie affecte la façon dont les gens conduisent. Il commence également à voir que plus de personnes voyagent à une heure particulière de la journée.
Comment fonctionne l'apprentissage non supervisé?
Prenons le cas d'un bébé et de son chien de famille.
Elle connaît et identifie ce chien. Quelques semaines plus tard, un ami de la famille amène un chien et essaie de jouer avec le bébé.
Bébé n'a pas vu ce chien plus tôt. Mais il reconnaît que de nombreuses caractéristiques (2 oreilles, yeux, marcher sur 4 pattes) sont comme son chien de compagnie. Elle identifie un nouvel animal comme un chien. Il s'agit d'un apprentissage non supervisé, dans lequel on ne vous enseigne pas mais vous apprenez à partir des données (dans ce cas, des données sur un chien). Si cet apprentissage avait été supervisé, l'ami de la famille aurait dit au bébé que c'est un chien.
Types de techniques d'apprentissage automatique supervisées
Régression:
La technique de régression prédit une valeur de sortie unique à l'aide des données d'entraînement.
Exemple: vous pouvez utiliser la régression pour prédire le prix de l'immobilier à partir des données d'entraînement. Les variables d'entrée seront la localité, la taille d'une maison, etc.
Classification:
La classification signifie regrouper la sortie dans une classe. Si l'algorithme essaie d'étiqueter l'entrée en deux classes distinctes, on parle de classification binaire. La sélection entre plus de deux classes est appelée classification multiclasse.
Exemple : déterminer si quelqu'un sera ou non en défaut de paiement.
Points forts : Les sorties ont toujours une interprétation probabiliste, et l'algorithme peut être régularisé pour éviter le surajustement.
Faiblesses : La régression logistique peut sous-performer lorsqu'il existe des limites de décision multiples ou non linéaires. Cette méthode n'est pas flexible, elle ne capture donc pas les relations plus complexes.
Types de techniques d'apprentissage automatique non supervisées
Problèmes d'apprentissage non supervisés regroupés en problèmes de regroupement et d'association.
Clustering
Le clustering est un concept important en matière d'apprentissage non supervisé. Il s'agit principalement de trouver une structure ou un modèle dans une collection de données non catégorisées. Les algorithmes de clustering traiteront vos données et trouveront des clusters naturels (groupes) s'ils existent dans les données. Vous pouvez également modifier le nombre de clusters que vos algorithmes doivent identifier. Il vous permet d'ajuster la granularité de ces groupes.
Association
Les règles d'association vous permettent d'établir des associations entre des objets de données dans de grandes bases de données. Cette technique non supervisée consiste à découvrir des relations passionnantes entre des variables dans de grandes bases de données. Par exemple, les personnes qui achètent une nouvelle maison sont les plus susceptibles d'acheter de nouveaux meubles.
Autres exemples:
- Un sous-groupe de patients cancéreux regroupés en fonction de leurs mesures d'expression génique
- Groupes d'acheteurs en fonction de leur historique de navigation et d'achat
- Groupe de films en fonction de la note donnée par les téléspectateurs de films
Apprentissage supervisé ou non supervisé
Paramètres | Technique d'apprentissage automatique supervisé | Technique d'apprentissage automatique non supervisé |
Traiter | Dans un modèle d'apprentissage supervisé, les variables d'entrée et de sortie seront données. | Dans le modèle d'apprentissage non supervisé, seules les données d'entrée seront fournies |
Des données d'entrée | Les algorithmes sont entraînés à l'aide de données étiquetées. | Les algorithmes sont utilisés contre des données qui ne sont pas étiquetées |
Algorithmes utilisés | Supporte la machine vectorielle, le réseau neuronal, la régression linéaire et logistique, la forêt aléatoire et les arbres de classification. | Les algorithmes non supervisés peuvent être divisés en différentes catégories: comme les algorithmes de cluster, les K-means, le clustering hiérarchique, etc. |
Complexité informatique | L'apprentissage supervisé est une méthode plus simple. | L'apprentissage non supervisé est complexe sur le plan du calcul |
Utilisation des données | Le modèle d'apprentissage supervisé utilise les données de formation pour apprendre un lien entre l'entrée et les sorties. | L'apprentissage non supervisé n'utilise pas les données de sortie. |
Exactitude des résultats | Méthode très précise et digne de confiance. | Méthode moins précise et digne de confiance. |
Apprentissage en temps réel | La méthode d'apprentissage se déroule hors ligne. | La méthode d'apprentissage se déroule en temps réel. |
Nombre de classes | Le nombre de classes est connu. | Le nombre de classes n'est pas connu. |
Principal inconvénient | La classification du big data peut être un véritable défi dans l'apprentissage supervisé. | Vous ne pouvez pas obtenir d'informations précises sur le tri des données, et la sortie en tant que données utilisées dans l'apprentissage non supervisé est étiquetée et n'est pas connue. |
Résumé
- Dans l'apprentissage supervisé, vous entraînez la machine en utilisant des données bien «étiquetées».
- L'apprentissage non supervisé est une technique d'apprentissage automatique, dans laquelle vous n'avez pas besoin de superviser le modèle.
- L'apprentissage supervisé vous permet de collecter des données ou de produire une sortie de données à partir de l'expérience précédente.
- L'apprentissage automatique non supervisé vous aide à trouver toutes sortes de modèles inconnus dans les données.
- Par exemple, vous pourrez déterminer le temps nécessaire pour revenir en fonction des conditions météorologiques, des heures de la journée et des vacances.
- Par exemple, Baby peut identifier d'autres chiens sur la base d'un apprentissage supervisé antérieur.
- La régression et la classification sont deux types de techniques d'apprentissage automatique supervisé.
- Le clustering et l'association sont deux types d'apprentissage non supervisé.
- Dans un modèle d'apprentissage supervisé, les variables d'entrée et de sortie seront données tandis qu'avec un modèle d'apprentissage non supervisé, seules les données d'entrée seront données