Slik installerer du Hadoop med trinnvis konfigurasjon på Ubuntu

Innholdsfortegnelse:

Anonim

I denne opplæringen tar vi deg trinnvis prosess for å installere Apache Hadoop på en Linux-boks (Ubuntu). Dette er todelt prosess

  • Del 1) Last ned og installer Hadoop
  • Del 2) Konfigurer Hadoop

Det er to forutsetninger

  • Du må ha Ubuntu installert og kjøre
  • Du må ha Java installert.

Del 1) Last ned og installer Hadoop

Trinn 1) Legg til en Hadoop-systembruker ved å bruke kommandoen nedenfor

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Skriv inn passord, navn og andre detaljer.

MERK: Det er en mulighet for feil som er nevnt nedenfor i denne installasjons- og installasjonsprosessen.

"hduser er ikke i sudoers-filen. Denne hendelsen vil bli rapportert."

Denne feilen kan løses ved pålogging som rotbruker

Utfør kommandoen

sudo adduser hduser_ sudo

Re-login as hduser_

Trinn 2) Konfigurer SSH

For å administrere noder i en klynge, krever Hadoop SSH-tilgang

Bytt først bruker, skriv inn følgende kommando

su - hduser_

Denne kommandoen vil opprette en ny nøkkel.

ssh-keygen -t rsa -P ""

Aktiver SSH-tilgang til lokal maskin ved hjelp av denne nøkkelen.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Test nå SSH-oppsett ved å koble til localhost som 'hduser' bruker.

ssh localhost

Merk: Vær oppmerksom på at hvis du ser feil nedenfor, som svar på 'ssh localhost', er det en mulighet for at SSH ikke er tilgjengelig på dette systemet-

For å løse dette -

Rens SSH ved hjelp av,

sudo apt-get purge openssh-server

Det er god praksis å rense før installasjonen starter

Installer SSH ved hjelp av kommandoen-

sudo apt-get install openssh-server

Trinn 3) Neste trinn er å laste ned Hadoop

Velg Stabil

Velg tar.gz-filen (ikke filen med src)

Når en nedlasting er fullført, navigerer du til katalogen som inneholder tarfilen

Tast inn,

sudo tar xzf hadoop-2.2.0.tar.gz

Nå, endre navn på hadoop-2.2.0 som hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Del 2) Konfigurer Hadoop

Trinn 1) Endre ~ / .bashrc- filen

Legg til følgende linjer til slutten av filen ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Nå, kild denne miljøkonfigurasjonen ved å bruke kommandoen nedenfor

. ~/.bashrc

Trinn 2) Konfigurasjoner relatert til HDFS

Sett JAVA_HOME i filen $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Med

Det er to parametere i $ HADOOP_HOME / etc / hadoop / core-site.xml som må stilles inn-

1. 'hadoop.tmp.dir' - Brukes til å spesifisere en katalog som skal brukes av Hadoop til å lagre datafilene.

2. 'fs.default.name' - Dette angir standard filsystem.

Åpne core-site.xml for å angi disse parameterne

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Kopier under linjen mellom taggene

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Naviger til katalogen $ HADOOP_HOME / etc / Hadoop

Opprett nå katalogen som er nevnt i core-site.xml

sudo mkdir -p 

Gi tillatelser til katalogen

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Trinn 3) Kart Reduser konfigurasjon

Før du begynner med disse konfigurasjonene, kan du angi HADOOP_HOME-bane

sudo gedit /etc/profile.d/hadoop.sh

Og Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Neste inn

sudo chmod +x /etc/profile.d/hadoop.sh

Gå ut av terminalen og start på nytt

Skriv ekko $ HADOOP_HOME. For å bekrefte banen

Kopier nå filer

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Åpne mapred-site.xml- filen

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Legg til under linjene for innstilling mellom kodene og

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Åpne $ HADOOP_HOME / etc / hadoop / hdfs-site.xml som nedenfor,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Legg til under linjene for innstilling mellom taggene og

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Opprett en katalog spesifisert i innstillingen ovenfor-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Trinn 4) Før vi starter Hadoop for første gang, må du formatere HDFS ved å bruke kommandoen nedenfor

$HADOOP_HOME/bin/hdfs namenode -format

Trinn 5) Start klyngen med Hadoop-enkeltnode ved å bruke kommandoen nedenfor

$HADOOP_HOME/sbin/start-dfs.sh

En utdata fra kommandoen ovenfor

$HADOOP_HOME/sbin/start-yarn.sh

Bruk 'jps' verktøy / kommando for å kontrollere om alle Hadoop-relaterte prosesser kjører eller ikke.

Hvis Hadoop har startet vellykket, skal en utgang fra jps vise NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Trinn 6) Stoppe Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh