Problèmes de balisage et modèle de Markov caché

Table des matières:

Anonim

Balisage des phrases

Marquer la phrase dans un sens plus large fait référence à l'ajout d'étiquettes du verbe, du nom, etc. par le contexte de la phrase. L'identification des étiquettes de point de vente est un processus compliqué. Ainsi, l'étiquetage générique de POS n'est pas possible manuellement car certains mots peuvent avoir des significations différentes (ambiguës) selon la structure de la phrase. La conversion du texte sous forme de liste est une étape importante avant le balisage car chaque mot de la liste est bouclé et compté pour une balise particulière. Veuillez consulter le code ci-dessous pour mieux le comprendre

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

PRODUCTION

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Explication du code

  1. Code à importer nltk (boîte à outils en langage naturel qui contient des sous-modules tels que phrase tokenize et word tokenize.)
  2. Texte dont les étiquettes doivent être imprimées.
  3. Tokenisation des phrases
  4. La boucle For est implémentée où les mots sont jetés à partir de la phrase et l'étiquette de chaque mot est imprimée en sortie.

Dans Corpus, il existe deux types d'étiqueteurs de point de vente:

  • Basé sur des règles
  • Taggers de point de vente stochastiques

1.Règles POS Tagger: Pour les mots ayant une signification ambiguë, une approche basée sur des règles sur la base d'informations contextuelles est appliquée. Cela se fait en vérifiant ou en analysant la signification du mot précédent ou suivant. L'information est analysée à partir de l'environnement du mot ou en lui-même. Par conséquent, les mots sont étiquetés par les règles grammaticales d'une langue particulière telles que la capitalisation et la ponctuation. par exemple, le tagueur de Brill.

2. Stochastic POS Tagger: Différentes approches telles que la fréquence ou la probabilité sont appliquées dans le cadre de cette méthode. Si un mot est principalement étiqueté avec une étiquette particulière dans l'ensemble d'apprentissage, alors dans la phrase de test, cette étiquette particulière lui est attribuée. La balise de mot dépend non seulement de sa propre balise mais également de la balise précédente. Cette méthode n'est pas toujours exacte. Une autre méthode consiste à calculer la probabilité d'occurrence d'une balise spécifique dans une phrase. Ainsi, l'étiquette finale est calculée en vérifiant la probabilité la plus élevée d'un mot avec une étiquette particulière.

Modèle de Markov caché:

Les problèmes de marquage peuvent également être modélisés à l'aide de HMM. Il traite les jetons d'entrée comme une séquence observable tandis que les balises sont considérées comme des états cachés et le but est de déterminer la séquence d'états cachés. Par exemple x = x 1 , x 2 ,…, x n où x est une suite de jetons tandis que y = y 1 , y 2 , y 3 , y 4 … y n est la séquence cachée.

Comment fonctionne le modèle HMM?

HMM utilise la distribution de jointure qui est P (x, y) où x est la séquence d'entrée / séquence de jetons et y est la séquence d'étiquettes.

La séquence de balises pour x sera argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Nous avons catégorisé les balises à partir du texte, mais les statistiques de ces balises sont vitales. Donc, la partie suivante compte ces balises pour une étude statistique.