I denne opplæringen lærer du -
- Installere NLTK i Windows
- Installere Python i Windows
- Installere NLTK i Mac / Linux
- Installere NLTK gjennom Anaconda
- NLTK-datasett
- Hvordan laste ned alle pakker med NLTK
- Kjører NLP-skriptet
- Hvordan kjøre NLTK Script
Installere NLTK i Windows
I denne delen vil vi lære at hvordan du konfigurerer NLTK via terminal (ledetekst i windows).
Instruksjonene nedenfor er basert på antagelsen om at du ikke har python installert. Så første trinn er å installere python.
Installere Python i Windows:
Trinn 1) Gå til lenken https://www.python.org/downloads/ , og velg den nyeste versjonen for Windows.
Merk : Hvis du ikke vil laste ned den nyeste versjonen, kan du gå til nedlastingsfanen og se alle utgivelsene.
Trinn 2) Klikk på den nedlastede filen
Trinn 3) Velg Tilpass installasjon
Trinn 4) Klikk på NESTE
Trinn 5) I neste skjermbilde
- Velg de avanserte alternativene
- Gi et eget installasjonssted. I mitt tilfelle er en mappe på C-stasjonen valgt for enkel bruk
- Klikk på Installer
Trinn 6) Klikk på Lukk-knappen når installasjonen er fullført.
Trinn 7) Kopier banen til Skripts-mappen.
Trinn 8) I Windows ledetekst
- Naviger til plasseringen av pip-mappen
- Skriv inn kommandoen for å installere NLTK
pip3 install nltk
- Installasjonen skal gjøres med hell
MERKNAD : For Python2 bruk commandpip2 install nltk
Trinn 9) I Windows Start-meny, søk og åpne PythonShell
Trinn 10) Du kan kontrollere om installasjonen er nøyaktig ved å levere kommandoen nedenfor
import nltk
Hvis du ikke ser noen feil, er installasjonen fullført.
Installere NLTK i Mac / Linux
Installasjon av NLTK i Mac / Unix krever python-pakkebehandling-pip for å installere nltk. Hvis pip ikke er installert, følg instruksjonene nedenfor for å fullføre prosessen
Trinn 1) Oppdater pakkeindeksen ved å skrive kommandoen nedenfor
sudo apt update
Trinn 2) Installere pip for Python 3:
sudo apt install python3-pip
Du kan også installere pip ved hjelp av easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Nå er easy_install installert. Kjør kommandoen nedenfor for å installere pip
sudo easy_install pip
Trinn 3) Bruk følgende kommando for å installere NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Installere NLTK gjennom Anaconda
Trinn 1) Installer anaconda (som også kan brukes til å installere forskjellige pakker) ved å gå til https://www.anaconda.com/products/individual og velg hvilken versjon av python du trenger å installere for anaconda.
Merk: Se denne opplæringen for detaljerte trinn for å installere anaconda
Trinn 2) I Anaconda-meldingen,
- Skriv inn kommandoen
conda install -c anaconda nltk
- Gå gjennom pakkeoppgraderingen, nedgrader, installer informasjon og skriv inn ja
- NLTK lastes ned og installeres
NLTK-datasett
NLTK-modulen har mange datasett tilgjengelig som du trenger å laste ned for å bruke. Mer teknisk kalles det corpus . Noen av eksemplene er stoppord , gutenberg , framenet_v15 , store_grammatikker og så videre.
Hvordan laste ned alle pakker med NLTK
Trinn 1) Kjør Python-tolk i Windows eller Linux
Steg 2)
- Skriv inn kommandoene
import nltknltk.download ()
- NLTK-nedlastet vindu åpnes. Klikk på Last ned-knappen for å laste ned datasettet. Denne prosessen vil ta tid, basert på internettforbindelsen din
MERKNAD: Du kan endre nedlastingsplasseringen ved å klikke på File> Change Download Directory
Trinn 3) Bruk følgende kode for å teste de installerte dataene
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]
Kjører NLP-skriptet
Vi skal diskutere hvordan NLP-skript vil bli utført på vår lokale PC. Det er mange biblioteker for naturlig språkbehandling i markedet. Så å velge et bibliotek avhenger av at du oppfyller dine behov. Her er listen over NLP-biblioteker.
Hvordan kjøre NLTK Script
Trinn 1) Kopier koden i favorittkodeditoren din og lagre filen som " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Kode Forklaring:
- I dette programmet var målet å fjerne alle typer tegnsetting fra gitt tekst. Vi importerte "RegexpTokenizer" som er en modul av NLTK. Det fjerner alt uttrykk, symbol, karakter, numerisk eller andre ting hva du vil.
- Du har nettopp passert det vanlige uttrykket til "RegexpTokenizer" -modulen.
- Videre tokeniserte vi ordet ved hjelp av "tokenize" -modulen. Utgangen er lagret i "filterdText" -variabelen.
- Og skrev dem ut med "print ()."
Trinn 2) I ledeteksten
- Naviger til stedet der du har lagret filen
- Kjør kommandoen Python NLTKsample.py
Dette viser utdata som:
['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' besøker ',' ditt ',' nettsted ']