Merking av setninger
Merking av setning i bredere forstand refererer til tillegg av etiketter for verbet, substantiv, etc. i sammenheng med setningen. Identifisering av POS-koder er en komplisert prosess. Generisk merking av POS er således ikke mulig manuelt, da noen ord kan ha forskjellige (tvetydige) betydninger i henhold til setningsstrukturen. Konvertering av tekst i form av liste er et viktig trinn før merking, ettersom hvert ord i listen sløyfes og telles for en bestemt tag. Se koden nedenfor for å forstå den bedre
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
PRODUKSJON
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Kode Forklaring
- Kode for å importere nltk (verktøy for naturlig språk som inneholder undermoduler som setningstokenisering og ordtokenisering.)
- Tekst hvis tagger skal skrives ut.
- Setningstokenisering
- For loop er implementert der ord tokeniseres fra setning og merke for hvert ord skrives ut som utdata.
I Corpus er det to typer POS-taggere:
- Regelbasert
- Stokastiske POS-taggers
1. Regelbasert POS-tagger: For ordene som har tvetydig betydning, brukes regelbasert tilnærming på grunnlag av kontekstuell informasjon. Det gjøres ved å sjekke eller analysere betydningen av forrige eller følgende ord. Informasjon blir analysert fra omgivelsene av ordet eller i seg selv. Derfor er ord merket av de grammatiske reglene til et bestemt språk, slik som store og små bokstaver. for eksempel Brill's tagger.
2.Stokastisk POS-tagger: Ulike tilnærminger som frekvens eller sannsynlighet brukes under denne metoden. Hvis et ord for det meste er merket med et bestemt merke i treningssettet, blir det i testsetningen gitt den aktuelle koden. Ordet tag er avhengig ikke bare av sin egen tag, men også av forrige tag. Denne metoden er ikke alltid nøyaktig. En annen måte er å beregne sannsynligheten for forekomst av en bestemt tag i en setning. Dermed beregnes den endelige taggen ved å sjekke den høyeste sannsynligheten for et ord med en bestemt tag.
Skjult Markov-modell:
Merkingsproblemer kan også modelleres ved hjelp av HMM. Den behandler inngangsbrikker for å være observerbar sekvens mens koder betraktes som skjulte tilstander og målet er å bestemme sekvensen for skjult tilstand. For eksempel x = x 1 , x 2 , ..., x n der x er en sekvens av tokens mens y = y 1 , y 2 , y 3 , y 4 ... y n er den skjulte sekvensen.
Hvordan fungerer HMM-modellen?
HMM bruker sammenkoblingsfordeling som er P (x, y) hvor x er inngangssekvensen / tokensekvensen og y er merkesekvensen.
Merkesekvens for x vil være argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Vi har kategorisert koder fra teksten, men statistikk over slike koder er viktig. Så neste del teller disse kodene for statistisk studie.