Topp 60 Hadoop & MapReduce intervju spørsmål & Svar

Anonim

Last ned PDF

Følgende er ofte stilte spørsmål i intervjuer for nybegynnere og erfarne utviklere.

1) Hva er Hadoop Map Reduce?

For behandling av store datasett parallelt over en Hadoop-klynge, brukes Hadoop MapReduce-rammeverk. Dataanalyse bruker et to-trinns kart og reduserer prosessen.

2) Hvordan fungerer Hadoop MapReduce?

I MapReduce teller det ordene i hvert dokument under kartfasen, mens det i reduseringsfasen samler dataene i henhold til dokumentet som spenner over hele samlingen. I løpet av kartfasen er inngangsdataene delt inn i splitt for analyse av kartoppgaver som kjører parallelt på tvers av Hadoop-rammeverket.

3) Forklar hva som stokkes i MapReduce?

Prosessen der systemet utfører sorteringen og overfører kartutgangene til reduseringsenheten som innganger, er kjent som blanding

4) Forklar hva som er distribuert Cache i MapReduce Framework?

Distribuert cache er en viktig funksjon som tilbys av MapReduce-rammeverket. Når du vil dele noen filer på tvers av alle noder i Hadoop Cluster, brukes Distribuert Cache. Filene kan være kjørbare jar-filer eller enkle egenskapsfiler.

5) Forklar hva som er NameNode i Hadoop?

NameNode i Hadoop er noden, der Hadoop lagrer all informasjon om filens plassering i HDFS (Hadoop Distributed File System). Med andre ord er NameNode midtpunktet i et HDFS-filsystem. Den holder oversikt over alle filene i filsystemet og sporer fildataene over klyngen eller flere maskiner

6) Forklar hva som er JobTracker i Hadoop? Hva er handlingene fulgt av Hadoop?

I Hadoop for innsending og sporing av MapReduce-jobber brukes JobTracker. Jobbsporing kjøres på sin egen JVM-prosess

Job Tracker utfører følgende handlinger i Hadoop

  • Kundesøknad sender jobber til jobbsporeren
  • JobTracker kommuniserer til navnemodus for å bestemme datalokalisering
  • I nærheten av dataene eller med tilgjengelige plasser JobTracker lokaliserer TaskTracker-noder
  • På valgte TaskTracker-noder sender den arbeidet
  • Når en oppgave mislykkes, gir Job tracker beskjed og bestemmer hva den skal gjøre da.
  • TaskTracker-nodene overvåkes av JobTracker

7) Forklar hva som er hjerterytme i HDFS?

Hjerteslag blir referert til et signal som brukes mellom en datanode og Navnode, og mellom oppgavesporeren og jobbsporeren, hvis Navneknutepunktet eller jobbsporeren ikke reagerer på signalet, anses det som om det er noen problemer med datanoden eller oppgaven tracker

8) Forklar hva kombinatorer er, og når du skal bruke en kombinator i en MapReduce-jobb?

For å øke effektiviteten til MapReduce-programmet, brukes kombinatorer. Mengden data kan reduseres ved hjelp av combiner som må overføres til reduksjonsgirene. Hvis operasjonen som utføres er kommutativ og assosiativ, kan du bruke reduseringskoden din som en kombinator. Utførelsen av combiner er ikke garantert i Hadoop

9) Hva skjer når en datanode mislykkes?

Når en datanode mislykkes

  • Jobtracker og navnekode oppdager feilen
  • På den mislykkede noden er alle oppgaver omplanlagt
  • Namenode replikerer brukerens data til en annen node

10) Forklar hva som er spekulativ utførelse?

I Hadoop under spekulativ utførelse lanseres et visst antall dupliserte oppgaver. På en annen slaveknute kan flere kopier av samme kart eller redusere oppgave utføres ved hjelp av spekulativ utførelse. Med enkle ord, hvis en bestemt stasjon tar lang tid å fullføre en oppgave, vil Hadoop opprette en duplikatoppgave på en annen disk. En disk som fullfører oppgaven først beholdes og disker som ikke fullføres først blir drept.

11) Forklar hva som er de grunnleggende parametrene til en Mapper?

De grunnleggende parametrene til en Mapper er

  • Langskrivbar og tekst
  • Tekst og IntWritable

12) Forklar hva som er funksjonen til MapReduce partisjonering?

Funksjonen til MapReduce-partisjoneringsenheten er å sørge for at all verdien på en enkelt nøkkel går til den samme reduksjonsenheten, noe som til slutt hjelper til med jevn fordeling av kartutgangen over reduseringene.

13) Forklar hva som er forskjellen mellom en Input Split og HDFS Block?

Den logiske delingen av data er kjent som Split mens en fysisk deling av data er kjent som HDFS Block

14) Forklar hva som skjer i tekstformat?

I tekstinndataformat er hver linje i tekstfilen en post. Verdien er linjens innhold mens Key er offset for linjen. For eksempel Key: longWritable, Value: text

15) Nevn hvilke hovedkonfigurasjonsparametere som brukeren trenger å spesifisere for å kjøre MapReduce Job?

Brukeren av MapReduce-rammeverket må spesifisere

  • Jobs inngangssteder i det distribuerte filsystemet
  • Jobbs utgangssted i det distribuerte filsystemet
  • Inndataformat
  • Utgående format
  • Klasse som inneholder kartfunksjonen
  • Klasse som inneholder reduseringsfunksjonen
  • JAR-fil som inneholder kartleggere, reduksjons- og sjåførklasser

16) Forklar hva som er WebDAV i Hadoop?

For å støtte redigering og oppdatering av filer er WebDAV et sett med utvidelser av HTTP. På de fleste operativsystemer kan WebDAV-aksjer monteres som filsystemer, så det er mulig å få tilgang til HDFS som et standard filsystem ved å eksponere HDFS over WebDAV.

17) Forklar hva som er Sqoop i Hadoop?

For å overføre data mellom Relational database management (RDBMS) og Hadoop HDFS brukes et verktøy som kalles Sqoop. Bruk av Sqoop-data kan overføres fra RDMS som MySQL eller Oracle til HDFS, samt eksportere data fra HDFS-fil til RDBMS

18) Forklar hvordan JobTracker planlegger en oppgave?

Oppgavesporeren sender hjerteslagmeldinger til Jobtracker vanligvis noen få minutter for å sikre at JobTracker er aktiv og fungerer. Meldingen informerer også JobTracker om antall tilgjengelige spor, slik at JobTracker kan holde seg oppdatert med hvor klyngearbeidet kan delegeres

19) Forklar hva som er Sequencefileinputformat?

Sequencefileinputformat brukes til å lese filer i rekkefølge. Det er et spesifikt komprimert binært filformat som er optimalisert for å overføre data mellom utdataene til en MapReduce-jobb til inngangen til en annen MapReduce-jobb.

20) Forklar hva gjør conf.setMapper Class?

Conf.setMapperclass angir kartklassen og alle ting relatert til kartjobben, slik som å lese data og generere et nøkkelverdipar ut av kartleggeren

21) Forklar hva som er Hadoop?

Det er et open source-programvarerammeverk for lagring av data og kjøring av applikasjoner på klynger av råvare. Det gir enorm prosessorkraft og massiv lagring for alle typer data.

22) Nevn hva som er forskjellen mellom en RDBMS og Hadoop?

RDBMS Hadoop
RDBMS er et relasjonelt databasestyringssystem Hadoop er en nodebasert flat struktur
Den ble brukt til OLTP-behandling mens Hadoop Den brukes for tiden til analytisk og til BIG DATA-behandling
I RDBMS bruker databaseklyngen de samme datafilene som er lagret i en delt lagring I Hadoop kan lagringsdataene lagres uavhengig i hver prosesseringsknute.
Du må forhåndsbehandle data før du lagrer dem du trenger ikke å forhåndsbehandle data før du lagrer dem

23) Nevn Hadoop-kjernekomponenter?

Hadoop kjernekomponenter inkluderer,

  • HDFS
  • Kart reduksjon

24) Hva er NameNode i Hadoop?

NameNode i Hadoop er der Hadoop lagrer all informasjon om filens plassering i HDFS. Det er masternoden som jobbsporeren kjører på og består av metadata.

25) Nevn hva er datakomponentene som brukes av Hadoop?

Datakomponenter som brukes av Hadoop er

  • Gris
  • Hive

26) Nevn hva er datalagringskomponenten som brukes av Hadoop?

Datalagringskomponenten som brukes av Hadoop er HBase.

27) Nevn hva som er de vanligste inndataformatene som er definert i Hadoop?

De vanligste inndataformatene som er definert i Hadoop er;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Hva er InputSplit i Hadoop?

Den deler inndatafiler i biter og tilordner hver deling til en kartlegger for behandling.

29) Hvordan skriver du en egendefinert partisjonær for en Hadoop-jobb?

Du skriver en egendefinert partisjonering for en Hadoop-jobb, du følger følgende vei

  • Opprett en ny klasse som utvider Partitioner Class
  • Overstyr metoden getPartition
  • I innpakningen som kjører MapReduce
  • Legg til den egendefinerte partisjoneren til jobben ved å bruke metodesettet Partitioner Class eller - legg til den egendefinerte partisjoneren til jobben som en konfigurasjonsfil

30) Er det mulig å endre antall kartleggere som skal opprettes for en jobb i Hadoop?

Nei, det er ikke mulig å endre antall kartleggere som skal opprettes. Antall kartleggere bestemmes av antall inngangssplitt.

31) Forklar hva som er en sekvensfil i Hadoop?

For å lagre binære nøkkel / verdipar brukes sekvensfil. I motsetning til vanlig komprimert fil støtter sekvensfiler splitting selv når dataene i filen er komprimert.

32) Hva skjer med jobbsporing når Namenode er nede?

Namenode er det eneste feilpunktet i HDFS, så når klyngen er nede vil klyngen din sette i gang.

33) Forklar hvordan indeksering i HDFS gjøres?

Hadoop har en unik måte å indeksere på. Når dataene er lagret i henhold til blokkstørrelsen, vil HDFS fortsette å lagre den siste delen av dataene som sier hvor neste del av dataene vil være.

34) Forklar er det mulig å søke etter filer ved hjelp av jokertegn?

Ja, det er mulig å søke etter filer ved hjelp av jokertegn.

35) Liste opp Hadoops tre konfigurasjonsfiler?

De tre konfigurasjonsfilene er

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Forklar hvordan kan du sjekke om Namenode fungerer ved siden av å bruke jps-kommandoen?

Foruten å bruke jps-kommandoen, kan du også bruke for å sjekke om Namenode fungerer

/etc/init.d/hadoop-0.20-namenode-status.

37) Forklar hva som er "kart" og hva er "reduseringsmiddel" i Hadoop?

I Hadoop er et kart en fase i HDFS-spørsmålsløsning. Et kart leser data fra en inngangsplassering og sender ut et nøkkelverdipar i henhold til inngangstypen.

I Hadoop samler en redusering utdata generert av kartleggeren, behandler den og skaper en egen utgang.

38) Hvilken fil styrer rapportering i Hadoop i Hadoop?

I Hadoop kontrollerer filen hadoop-metrics.properties rapporteringen.

39) For å bruke Hadoop liste over nettverkskravene?

For bruk av Hadoop er listen over nettverkskrav:

  • Passordfri SSH-tilkobling
  • Secure Shell (SSH) for å starte serverprosesser

40) Nevn hva som er rackbevissthet?

Rackbevissthet er måten namenoden bestemmer på hvordan du skal plassere blokker basert på rackdefinisjonene.

41) Forklar hva som er en Task Tracker i Hadoop?

En oppgavetracker i Hadoop er en slave node-demon i klyngen som godtar oppgaver fra en JobTracker. Den sender også hjerterytmemeldingene til JobTracker hvert par minutter for å bekrefte at JobTracker fortsatt er i live.

42) Nevn hvilke demoner som kjører på en masternode og slavernoder?

  • Daemons som kjøres på hovednoden er "NameNode"
  • Daemoner som kjøres på hver slaveknutepunkt er "Task Tracker" og "Data"

43) Forklar hvordan kan du feilsøke Hadoop-kode?

De populære metodene for feilsøking av Hadoop-koden er:

  • Ved å bruke webgrensesnitt levert av Hadoop framework
  • Ved å bruke Counters

44) Forklar hva som er lagrings- og beregningsnoder?

  • Lagringsnoden er maskinen eller datamaskinen der filsystemet ditt ligger for å lagre behandlingsdataene
  • Beregningsnoden er datamaskinen eller maskinen der den faktiske forretningslogikken din blir utført.

45) Nevn hva er bruken av Context Object?

Kontekstobjektet gjør det mulig for kartleggeren å samhandle med resten av Hadoop

system. Den inkluderer konfigurasjonsdata for jobben, samt grensesnitt som lar den sende ut utdata.

46) Nevn hva som er neste trinn etter Mapper eller MapTask?

Neste trinn etter Mapper eller MapTask er at utdataene til Mapper er sortert, og partisjoner vil bli opprettet for utgangen.

47) Nevn hva er antallet standard partisjoneringsenheter i Hadoop?

I Hadoop er standardpartisjoneringsenheten en "Hash" -deler.

48) Forklar hva er hensikten med RecordReader i Hadoop?

I Hadoop laster RecordReader dataene fra kilden og konverterer dem til (nøkkel, verdi) par som er egnet for lesing av Mapper.

49) Forklar hvordan deles data før de sendes til reduksjonsenheten hvis ingen tilpasset partisjoneringsenhet er definert i Hadoop?

Hvis ingen tilpasset partisjonering er definert i Hadoop, beregner en standard partisjonator en hash-verdi for nøkkelen og tildeler partisjonen basert på resultatet.

50) Forklar hva som skjer når Hadoop skapte 50 oppgaver for en jobb og en av oppgaven mislyktes?

Den starter oppgaven på nytt på en annen TaskTracker hvis oppgaven mislykkes mer enn den definerte grensen.

51) Nevn hva som er den beste måten å kopiere filer mellom HDFS-klynger?

Den beste måten å kopiere filer mellom HDFS-klynger er ved å bruke flere noder og distcp-kommandoen, slik at arbeidsmengden deles.

52) Nevn hva som er forskjellen mellom HDFS og NAS?

HDFS-datablokker distribueres over lokale stasjoner på alle maskiner i en klynge mens NAS-data lagres på dedikert maskinvare.

53) Nevn hvordan Hadoop er forskjellig fra andre databehandlingsverktøy?

I Hadoop kan du øke eller redusere antall kartleggere uten å bekymre deg for datamengden som skal behandles.

54) Nevn hvilken jobb gjør conf-klassen?

Jobbkonfektklasse skiller forskjellige jobber som kjører på samme klynge. Den gjør innstillinger på jobbnivå, for eksempel å erklære en jobb i et reelt miljø.

55) Nevn hva er Hadoop MapReduce API-kontrakten for en nøkkel- og verdiklasse?

For en nøkkel- og verdiklasse er det to Hadoop MapReduce API-kontrakter

  • Verdien må definere org.apache.hadoop.io.Writable grensesnittet
  • Nøkkelen må definere grensesnittet org.apache.hadoop.io.WritableComparable

56) Nevn hva er de tre modusene der Hadoop kan kjøres?

De tre modusene der Hadoop kan kjøres er

  • Pseudodistribuert modus
  • Frittstående (lokal) modus
  • Fullt distribuert modus

57) Nevn hva gjør inntastingsformatet?

Tekstinndataformatet vil opprette et linjeobjekt som er et heksadesimalt tall. Verdien betraktes som en hel linjetekst mens nøkkelen betraktes som et linjeobjekt. Kartleggeren vil motta verdien som "tekst" -parameter mens den er nøkkel som "langskrivbar" -parameter.

58) Nevn hvor mange InputSplits som er laget av et Hadoop Framework?

Hadoop vil gjøre fem splittelser

  • 1 split for 64K filer
  • 2 delt for 65 MB filer
  • 2 deler for 127 MB filer

59) Nevn hva som er distribuert cache i Hadoop?

Distribuert cache i Hadoop er et anlegg levert av MapReduce framework. På tidspunktet for utførelsen av jobben brukes den til å cache filen. Framework kopierer de nødvendige filene til slavernoden før utførelsen av en hvilken som helst oppgave ved den noden.

60) Forklar hvordan spiller Hadoop Classpath en viktig rolle i å stoppe eller starte i Hadoop-demoner?

Classpath vil bestå av en liste over kataloger som inneholder jar-filer for å stoppe eller starte demoner.