Merking av problemer og skjult Markov-modell

Innholdsfortegnelse:

Anonim

Merking av setninger

Merking av setning i bredere forstand refererer til tillegg av etiketter for verbet, substantiv, etc. i sammenheng med setningen. Identifisering av POS-koder er en komplisert prosess. Generisk merking av POS er således ikke mulig manuelt, da noen ord kan ha forskjellige (tvetydige) betydninger i henhold til setningsstrukturen. Konvertering av tekst i form av liste er et viktig trinn før merking, ettersom hvert ord i listen sløyfes og telles for en bestemt tag. Se koden nedenfor for å forstå den bedre

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

PRODUKSJON

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Kode Forklaring

  1. Kode for å importere nltk (verktøy for naturlig språk som inneholder undermoduler som setningstokenisering og ordtokenisering.)
  2. Tekst hvis tagger skal skrives ut.
  3. Setningstokenisering
  4. For loop er implementert der ord tokeniseres fra setning og merke for hvert ord skrives ut som utdata.

I Corpus er det to typer POS-taggere:

  • Regelbasert
  • Stokastiske POS-taggers

1. Regelbasert POS-tagger: For ordene som har tvetydig betydning, brukes regelbasert tilnærming på grunnlag av kontekstuell informasjon. Det gjøres ved å sjekke eller analysere betydningen av forrige eller følgende ord. Informasjon blir analysert fra omgivelsene av ordet eller i seg selv. Derfor er ord merket av de grammatiske reglene til et bestemt språk, slik som store og små bokstaver. for eksempel Brill's tagger.

2.Stokastisk POS-tagger: Ulike tilnærminger som frekvens eller sannsynlighet brukes under denne metoden. Hvis et ord for det meste er merket med et bestemt merke i treningssettet, blir det i testsetningen gitt den aktuelle koden. Ordet tag er avhengig ikke bare av sin egen tag, men også av forrige tag. Denne metoden er ikke alltid nøyaktig. En annen måte er å beregne sannsynligheten for forekomst av en bestemt tag i en setning. Dermed beregnes den endelige taggen ved å sjekke den høyeste sannsynligheten for et ord med en bestemt tag.

Skjult Markov-modell:

Merkingsproblemer kan også modelleres ved hjelp av HMM. Den behandler inngangsbrikker for å være observerbar sekvens mens koder betraktes som skjulte tilstander og målet er å bestemme sekvensen for skjult tilstand. For eksempel x = x 1 , x 2 , ..., x n der x er en sekvens av tokens mens y = y 1 , y 2 , y 3 , y 4 ... y n er den skjulte sekvensen.

Hvordan fungerer HMM-modellen?

HMM bruker sammenkoblingsfordeling som er P (x, y) hvor x er inngangssekvensen / tokensekvensen og y er merkesekvensen.

Merkesekvens for x vil være argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Vi har kategorisert koder fra teksten, men statistikk over slike koder er viktig. Så neste del teller disse kodene for statistisk studie.