Apprentissage non supervisé
L'apprentissage non supervisé est une technique d'apprentissage automatique dans laquelle les utilisateurs n'ont pas besoin de superviser le modèle. Au lieu de cela, il permet au modèle de fonctionner seul pour découvrir des modèles et des informations qui n'étaient pas détectés auparavant. Il traite principalement des données non étiquetées.
Algorithmes d'apprentissage non supervisés
Les algorithmes d'apprentissage non supervisé permettent aux utilisateurs d'effectuer des tâches de traitement plus complexes que l'apprentissage supervisé. Cependant, l'apprentissage non supervisé peut être plus imprévisible que d'autres méthodes d'apprentissage naturelles. Les algorithmes d'apprentissage non supervisés incluent le clustering, la détection d'anomalies, les réseaux neuronaux, etc.
Dans ce tutoriel, vous apprendrez:
- Exemple d'apprentissage automatique non supervisé
- Pourquoi l'apprentissage non supervisé?
- Types d'apprentissage non supervisé
- Clustering
- Types de clustering
- Association
- Machine Learning supervisé vs non supervisé
- Applications de l'apprentissage automatique non supervisé
- Inconvénients de l'apprentissage non supervisé
Exemple d'apprentissage automatique non supervisé
Prenons le cas d'un bébé et de son chien de famille.
Elle connaît et identifie ce chien. Quelques semaines plus tard, un ami de la famille amène un chien et essaie de jouer avec le bébé.
Bébé n'a pas vu ce chien plus tôt. Mais il reconnaît que de nombreuses caractéristiques (2 oreilles, yeux, marcher sur 4 pattes) sont comme son chien de compagnie. Elle identifie le nouvel animal comme un chien. Il s'agit d'un apprentissage non supervisé, dans lequel on ne vous enseigne pas mais vous apprenez à partir des données (dans ce cas, des données sur un chien). Si cet apprentissage avait été supervisé, l'ami de la famille aurait dit au bébé que c'est un chien.
Pourquoi l'apprentissage non supervisé?
Voici les principales raisons d'utiliser l'apprentissage non supervisé:
- L'apprentissage automatique non supervisé trouve toutes sortes de modèles inconnus dans les données.
- Les méthodes non supervisées vous aident à trouver des fonctionnalités qui peuvent être utiles pour la catégorisation.
- Elle se déroule en temps réel, donc toutes les données d'entrée doivent être analysées et étiquetées en présence des apprenants.
- Il est plus facile d'obtenir des données non étiquetées à partir d'un ordinateur que des données étiquetées, qui nécessitent une intervention manuelle.
Types d'apprentissage non supervisé
Problèmes d'apprentissage non supervisés regroupés en problèmes de regroupement et d'association.
Clustering
Le clustering est un concept important en matière d'apprentissage non supervisé. Il s'agit principalement de trouver une structure ou un modèle dans une collection de données non catégorisées. Les algorithmes de clustering traiteront vos données et trouveront des clusters naturels (groupes) s'ils existent dans les données. Vous pouvez également modifier le nombre de clusters que vos algorithmes doivent identifier. Il vous permet d'ajuster la granularité de ces groupes.
Il existe différents types de clustering que vous pouvez utiliser:
Exclusif (partitionnement)
Dans cette méthode de clustering, les données sont regroupées de telle sorte qu'une donnée ne peut appartenir qu'à un seul cluster.
Exemple: K-signifie
Agglomératif
Dans cette technique de clustering, chaque donnée est un cluster. Les unions itératives entre les deux clusters les plus proches réduisent le nombre de clusters.
Exemple: clustering hiérarchique
Chevauchement
Dans cette technique, des ensembles flous sont utilisés pour regrouper les données. Chaque point peut appartenir à deux ou plusieurs groupes avec des degrés d'appartenance distincts.
Ici, les données seront associées à une valeur d'appartenance appropriée. Exemple: moyennes C floues
Probabiliste
Cette technique utilise la distribution de probabilité pour créer les grappes
Exemple: mots-clés suivants
- «chaussure d'homme».
- «chaussures pour femmes».
- «gant de femme».
- "gant d'homme."
peuvent être regroupés en deux catégories «chaussure» et «gant» ou «homme» et «femme».
Types de clustering
- Classification hiérarchique
- K-signifie clustering
- K-NN (k voisins les plus proches)
- Analyse des composants principaux
- Décomposition en valeurs singulières
- Analyse indépendante des composants
Classification hiérarchique:
Le clustering hiérarchique est un algorithme qui construit une hiérarchie de clusters. Il commence par toutes les données qui sont attribuées à un cluster qui leur est propre. Ici, deux clusters proches vont être dans le même cluster. Cet algorithme se termine lorsqu'il ne reste qu'un seul cluster.
Clustering K-means
K signifie qu'il s'agit d'un algorithme de clustering itératif qui vous aide à trouver la valeur la plus élevée pour chaque itération. Au départ, le nombre souhaité de clusters est sélectionné. Dans cette méthode de clustering, vous devez regrouper les points de données en k groupes. Un k plus grand signifie des groupes plus petits avec plus de granularité de la même manière. Un k inférieur signifie des groupes plus grands avec moins de granularité.
La sortie de l'algorithme est un groupe «d'étiquettes». Il attribue un point de données à l'un des k groupes. Dans le clustering k-means, chaque groupe est défini en créant un centroïde pour chaque groupe. Les centres de gravité sont comme le cœur du cluster, qui capture les points les plus proches d'eux et les ajoute au cluster.
Le clustering K-mean définit en outre deux sous-groupes:
- Regroupement agglomératif
- Dendrogramme
Regroupement agglomératif:
Ce type de clustering K-means commence avec un nombre fixe de clusters. Il alloue toutes les données dans le nombre exact de clusters. Cette méthode de clustering ne nécessite pas le nombre de clusters K comme entrée. Le processus d'agglomération commence par la formation de chaque donnée en un seul cluster.
Cette méthode utilise une mesure de distance, réduit le nombre de clusters (un à chaque itération) en fusionnant le processus. Enfin, nous avons un gros cluster qui contient tous les objets.
Dendrogramme:
Dans la méthode de clustering Dendrogram, chaque niveau représentera un cluster possible. La hauteur du dendrogramme montre le niveau de similitude entre deux clusters de jointure. Le plus proche du bas du processus, ils sont plus similaires cluster qui est la découverte du groupe à partir d'un dendrogramme qui n'est pas naturel et principalement subjectif.
K- Voisins les plus proches
K- le plus proche voisin est le plus simple de tous les classificateurs d'apprentissage automatique. Elle diffère des autres techniques d'apprentissage automatique en ce qu'elle ne produit pas de modèle. Il s'agit d'un algorithme simple qui stocke tous les cas disponibles et classe les nouvelles instances en fonction d'une mesure de similarité.
Cela fonctionne très bien lorsqu'il y a une distance entre les exemples. La vitesse d'apprentissage est lente lorsque l'ensemble d'entraînement est grand et le calcul de la distance n'est pas trivial.
Analyse des principales composantes:
Au cas où vous voudriez un espace de plus grande dimension. Vous devez sélectionner une base pour cet espace et uniquement les 200 scores les plus importants de cette base. Cette base est connue comme un composant principal. Le sous-ensemble que vous sélectionnez constitue un nouvel espace de petite taille par rapport à l'espace d'origine. Il maintient autant que possible la complexité des données.
Association
Les règles d'association vous permettent d'établir des associations entre des objets de données dans de grandes bases de données. Cette technique non supervisée consiste à découvrir des relations intéressantes entre les variables dans de grandes bases de données. Par exemple, les personnes qui achètent une nouvelle maison sont les plus susceptibles d'acheter de nouveaux meubles.
Autres exemples:
- Un sous-groupe de patients cancéreux regroupés en fonction de leurs mesures d'expression génique
- Groupes d'acheteurs en fonction de leur historique de navigation et d'achat
- Groupe de films en fonction de la note donnée par les téléspectateurs de films
Machine Learning supervisé vs non supervisé
Paramètres | Technique d'apprentissage automatique supervisé | Technique d'apprentissage automatique non supervisé |
Des données d'entrée | Les algorithmes sont entraînés à l'aide de données étiquetées. | Les algorithmes sont utilisés contre des données qui ne sont pas étiquetées |
Complexité informatique | L'apprentissage supervisé est une méthode plus simple. | L'apprentissage non supervisé est complexe sur le plan du calcul |
Précision | Méthode très précise et digne de confiance. | Méthode moins précise et digne de confiance. |
Applications de l'apprentissage automatique non supervisé
Certaines applications des techniques d'apprentissage automatique non supervisées sont:
- Le clustering divise automatiquement l'ensemble de données en groupes en fonction de leurs similitudes
- La détection d'anomalies peut découvrir des points de données inhabituels dans votre ensemble de données. Il est utile pour trouver des transactions frauduleuses
- L'exploration d'association identifie des ensembles d'éléments qui se produisent souvent ensemble dans votre ensemble de données
- Les modèles à variables latentes sont largement utilisés pour le prétraitement des données. Comme réduire le nombre d'entités dans un jeu de données ou décomposer le jeu de données en plusieurs composants
Inconvénients de l'apprentissage non supervisé
- Vous ne pouvez pas obtenir d'informations précises sur le tri des données, et la sortie en tant que données utilisées dans l'apprentissage non supervisé est étiquetée et n'est pas connue
- La précision des résultats est moindre parce que les données d'entrée ne sont pas connues et ne sont pas étiquetées à l'avance par les gens. Cela signifie que la machine doit le faire elle-même.
- Les classes spectrales ne correspondent pas toujours aux classes informationnelles.
- L'utilisateur doit passer du temps à interpréter et à étiqueter les classes qui suivent cette classification.
- Les propriétés spectrales des classes peuvent également changer au fil du temps, de sorte que vous ne pouvez pas avoir les mêmes informations de classe tout en passant d'une image à une autre.
Résumé
- L'apprentissage non supervisé est une technique d'apprentissage automatique, dans laquelle vous n'avez pas besoin de superviser le modèle.
- L'apprentissage automatique non supervisé vous aide à trouver toutes sortes de modèles inconnus dans les données.
- Le clustering et l'association sont deux types d'apprentissage non supervisé.
- Quatre types de méthodes de regroupement sont 1) Exclusif 2) Agglomératif 3) Chevauchement 4) Probabiliste.
- Les types de clustering importants sont: 1) Clustering hiérarchique 2) Clustering K-means 3) K-NN 4) Analyse en composantes principales 5) Décomposition en valeurs singulières 6) Analyse en composantes indépendantes.
- Les règles d'association vous permettent d'établir des associations entre des objets de données dans de grandes bases de données.
- Dans l'apprentissage supervisé, les algorithmes sont entraînés à l'aide de données étiquetées tandis que dans l'apprentissage non supervisé, les algorithmes sont utilisés contre des données qui ne sont pas étiquetées.
- La détection d'anomalies peut découvrir des points de données importants dans votre ensemble de données, ce qui est utile pour trouver des transactions frauduleuses.
- Le plus gros inconvénient de l'apprentissage non supervisé est que vous ne pouvez pas obtenir d'informations précises sur le tri des données.