I denne opplæringen tar vi deg trinnvis prosess for å installere Apache Hadoop på en Linux-boks (Ubuntu). Dette er todelt prosess
- Del 1) Last ned og installer Hadoop
- Del 2) Konfigurer Hadoop
Det er to forutsetninger
- Du må ha Ubuntu installert og kjøre
- Du må ha Java installert.
Del 1) Last ned og installer Hadoop
Trinn 1) Legg til en Hadoop-systembruker ved å bruke kommandoen nedenfor
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Skriv inn passord, navn og andre detaljer.
MERK: Det er en mulighet for feil som er nevnt nedenfor i denne installasjons- og installasjonsprosessen.
"hduser er ikke i sudoers-filen. Denne hendelsen vil bli rapportert."
Denne feilen kan løses ved pålogging som rotbruker
Utfør kommandoen
sudo adduser hduser_ sudo
Re-login as hduser_
Trinn 2) Konfigurer SSH
For å administrere noder i en klynge, krever Hadoop SSH-tilgang
Bytt først bruker, skriv inn følgende kommando
su - hduser_
Denne kommandoen vil opprette en ny nøkkel.
ssh-keygen -t rsa -P ""
Aktiver SSH-tilgang til lokal maskin ved hjelp av denne nøkkelen.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Test nå SSH-oppsett ved å koble til localhost som 'hduser' bruker.
ssh localhost
Merk: Vær oppmerksom på at hvis du ser feil nedenfor, som svar på 'ssh localhost', er det en mulighet for at SSH ikke er tilgjengelig på dette systemet-
For å løse dette -
Rens SSH ved hjelp av,
sudo apt-get purge openssh-server
Det er god praksis å rense før installasjonen starter
Installer SSH ved hjelp av kommandoen-
sudo apt-get install openssh-server
Trinn 3) Neste trinn er å laste ned Hadoop
Velg Stabil
Velg tar.gz-filen (ikke filen med src)
Når en nedlasting er fullført, navigerer du til katalogen som inneholder tarfilen
Tast inn,
sudo tar xzf hadoop-2.2.0.tar.gz
Nå, endre navn på hadoop-2.2.0 som hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Del 2) Konfigurer Hadoop
Trinn 1) Endre ~ / .bashrc- filen
Legg til følgende linjer til slutten av filen ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Nå, kild denne miljøkonfigurasjonen ved å bruke kommandoen nedenfor
. ~/.bashrc
Trinn 2) Konfigurasjoner relatert til HDFS
Sett JAVA_HOME i filen $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Med
Det er to parametere i $ HADOOP_HOME / etc / hadoop / core-site.xml som må stilles inn-
1. 'hadoop.tmp.dir' - Brukes til å spesifisere en katalog som skal brukes av Hadoop til å lagre datafilene.
2. 'fs.default.name' - Dette angir standard filsystem.
Åpne core-site.xml for å angi disse parameterne
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Kopier under linjen mellom taggene
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Naviger til katalogen $ HADOOP_HOME / etc / Hadoop
Opprett nå katalogen som er nevnt i core-site.xml
sudo mkdir -p
Gi tillatelser til katalogen
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Trinn 3) Kart Reduser konfigurasjon
Før du begynner med disse konfigurasjonene, kan du angi HADOOP_HOME-bane
sudo gedit /etc/profile.d/hadoop.sh
Og Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Neste inn
sudo chmod +x /etc/profile.d/hadoop.sh
Gå ut av terminalen og start på nytt
Skriv ekko $ HADOOP_HOME. For å bekrefte banen
Kopier nå filer
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Åpne mapred-site.xml- filen
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Legg til under linjene for innstilling mellom kodene
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Åpne $ HADOOP_HOME / etc / hadoop / hdfs-site.xml som nedenfor,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Legg til under linjene for innstilling mellom taggene
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Opprett en katalog spesifisert i innstillingen ovenfor-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Trinn 4) Før vi starter Hadoop for første gang, må du formatere HDFS ved å bruke kommandoen nedenfor
$HADOOP_HOME/bin/hdfs namenode -format
Trinn 5) Start klyngen med Hadoop-enkeltnode ved å bruke kommandoen nedenfor
$HADOOP_HOME/sbin/start-dfs.sh
En utdata fra kommandoen ovenfor
$HADOOP_HOME/sbin/start-yarn.sh
Bruk 'jps' verktøy / kommando for å kontrollere om alle Hadoop-relaterte prosesser kjører eller ikke.
Hvis Hadoop har startet vellykket, skal en utgang fra jps vise NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Trinn 6) Stoppe Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh