Topp 62 spørsmål om dataingeniører & Svar

Anonim

Her er ofte stilte spørsmål om dataingeniørintervju for nybegynnere så vel som erfarne kandidater for å få riktig jobb.

1) Forklar datateknikk.

Data engineering er et begrep som brukes i big data. Den fokuserer på anvendelse av datainnsamling og forskning. Dataene generert fra forskjellige kilder er bare rådata. Data engineering hjelper til med å konvertere disse rådataene til nyttig informasjon.

2) Hva er datamodellering?

Datamodellering er metoden for å dokumentere kompleks programvareutforming som et diagram slik at alle enkelt kan forstå. Det er en konseptuell fremstilling av dataobjekter som er assosiert mellom forskjellige dataobjekter og reglene.

3) Oppgi forskjellige typer designskjemaer i datamodellering

Det er hovedsakelig to typer skjemaer i datamodellering: 1) Stjerneskjema og 2) Snøfnuggskjema.

4) Skille mellom strukturerte og ustrukturerte data

Følgende er en forskjell mellom strukturerte og ustrukturerte data:

Parameter Strukturerte data Ustrukturerte data
Oppbevaring DBMS Ustyrte filstrukturer
Standard ADO.net, ODBC og SQL STMP, XML, CSV og SMS
Integreringsverktøy ELT (pakke ut, transformere, laste) Manuell datainnføring eller batchbehandling som inkluderer koder
skalering Skjemaskalering er vanskelig Det er veldig enkelt å skalere.

5) Forklar alle komponentene i en Hadoop-applikasjon

Følgende er komponentene i Hadoop-applikasjonen:

  • Hadoop Common: Det er et vanlig sett med verktøy og biblioteker som brukes av Hadoop.
  • HDFS: Dette Hadoop-programmet er knyttet til filsystemet der Hadoop-dataene er lagret. Det er et distribuert filsystem med høy båndbredde.
  • Hadoop MapReduce: Den er basert på algoritmen for tilførsel av databehandling i stor skala.
  • Hadoop GARN: Den brukes til ressursadministrasjon i Hadoop-klyngen. Den kan også brukes til planlegging av oppgaver for brukere.

6) Hva er NameNode?

Det er midtpunktet i HDFS. Den lagrer data fra HDFS og sporer forskjellige filer på tvers av klyngene. Her lagres ikke de faktiske dataene. Dataene lagres i DataNodes.

7) Definer Hadoop-streaming

Det er et verktøy som muliggjør oppretting av kartet og reduserer jobber og sender dem til en bestemt klynge.

8) Hva er den fulle formen for HDFS?

HDFS står for Hadoop Distributed File System.

9) Definer Block and Block Scanner i HDFS

Blokker er den minste enheten i en datafil. Hadoop deler automatisk store filer i små biter.

Block Scanner verifiserer listen over blokker som presenteres på en DataNode.

10) Hva er trinnene som oppstår når Block Scanner oppdager en ødelagt datablokk?

Følgende er trinnene som oppstår når Block Scanner finner en ødelagt datablokk:

1) Først av alt, når Block Scanner finner en ødelagt datablokk, rapporterer DataNode til NameNode

2) NameNode starter prosessen med å lage en ny kopi ved hjelp av en kopi av den ødelagte blokken.

3) Replikeringstall for de riktige replikaene prøver å matche med replikasjonsfaktoren. Hvis kampen funnet, er ødelagt datablokk ikke slettet.

11) Nevn to meldinger som NameNode får fra DataNode?

Det er to meldinger som NameNode får fra DataNode. De er 1) Blokkeringsrapport og 2) Hjerteslag.

12) Liste opp forskjellige XML-konfigurasjonsfiler i Hadoop?

Det er fem XML-konfigurasjonsfiler i Hadoop:

  • Mapred-site
  • Core-site
  • HDFS-side
  • Garn-nettsted

13) Hva er fire V store data?

Fire V med store data er:

  • Hastighet
  • Variasjon
  • Volum
  • Sannhet

14) Forklar funksjonene til Hadoop

Viktige funksjoner i Hadoop er:

  • Det er et open source-rammeverk som er tilgjengelig freeware.
  • Hadoop er kompatibel med de mange typer maskinvare og lett tilgjengelig ny maskinvare innenfor en bestemt node.
  • Hadoop støtter raskere distribuert behandling av data.
  • Den lagrer dataene i klyngen, som er uavhengig av resten av operasjonene.
  • Hadoop tillater å lage 3 kopier for hver blokk med forskjellige noder.

15) Forklar hovedmetodene til Reducer

  • setup (): Den brukes til å konfigurere parametere som størrelsen på inndata og distribuert cache.
  • opprydding (): Denne metoden brukes til å rydde midlertidige filer.
  • redusere (): Det er et hjerte av reduksjonen som kalles en gang per tast med tilhørende redusert oppgave

16) Hva er forkortelse av COSHH?

Forkortelsen av COSHH er klassifiserings- og optimaliseringsbasert tidsplan for heterogene Hadoop-systemer.

17) Forklar stjerneskjema

Star Schema eller Star Join Schema er den enkleste typen Data Warehouse-skjema. Det er kjent som stjerneskjema fordi strukturen er som en stjerne. I stjerneskjemaet kan stjernens sentrum ha en faktatabell og flere tilknyttede dimensjonstabeller. Dette skjemaet brukes til å spørre store datasett.

18) Hvordan distribuere en big data-løsning?

Følg trinnene nedenfor for å distribuere en big data-løsning.

1) Integrer data ved hjelp av datakilder som RDBMS, SAP, MySQL, Salesforce

2) Lagre dataekstraherte data i enten NoSQL-database eller HDFS.

3) Distribuer stor dataløsning ved å bruke behandlingsrammer som Pig, Spark og MapReduce.

19) Forklar FSCK

File System Check eller FSCK er en kommando som brukes av HDFS. FSCK-kommandoen brukes til å kontrollere inkonsekvenser og problemer i filen.

20) Forklar snøfnuggskjema

Et snøfnuggskjema er en utvidelse av et stjerneskjema, og det tilfører ytterligere dimensjoner. Det er såkalt som snøfnugg fordi diagrammet ser ut som et snøfnugg. Dimensjonstabellene er normalisert, som deler data i flere tabeller.

21) Skille mellom stjerne- og snøfnuggskjema

Stjerne SnowFlake-skjema
Dimensjonshierarkier lagres i dimensjonstabell. Hvert hierarki lagres i separate tabeller.
Sjansene for dataredundans er høye Sjansene for dataredundans er lave.
Den har en veldig enkel DB-design Den har en kompleks DB-design
Gi en raskere måte for kubebehandling Kubebehandlingen er treg på grunn av den komplekse sammenføyningen.

22) Forklar Hadoop-distribuerte filsystem

Hadoop fungerer med skalerbare distribuerte filsystemer som S3, HFTP FS, FS og HDFS. Hadoop Distributed File System er laget på Google File System. Dette filsystemet er utformet slik at det enkelt kan kjøres på en stor klynge av datasystemet.

23) Forklar hovedansvaret til en dataingeniør

Dataingeniører har mange ansvar. De administrerer kildesystemet med data. Dataingeniører forenkler kompleks datastruktur og forhindrer reduplisering av data. Mange ganger gir de også ELT og datatransformasjon.

24) Hva er den fulle formen for GARN?

Den fulle formen for YARN er Yet Another Resource Negotiator.

25) Liste over forskjellige moduser i Hadoop

Modi i Hadoop er 1) Frittstående modus 2) Pseudodistribuert modus 3) Fullt distribuert modus.

26) Hvordan oppnå sikkerhet i Hadoop?

Utfør følgende trinn for å oppnå sikkerhet i Hadoop:

1) Det første trinnet er å sikre autentiseringskanalen til klienten til serveren. Gi tidsstemplet til klienten.

2) I det andre trinnet bruker klienten den mottatte tidsstemplet for å be TGS om en servicebillett.

3) I det siste trinnet bruker klienten tjenestebillett for egenautentisering til en bestemt server.

27) Hva er hjerteslag i Hadoop?

I Hadoop kommuniserer NameNode og DataNode med hverandre. Hjerteslag er signalet som DataNode sender til NameNode regelmessig for å vise dets tilstedeværelse.

28) Skille mellom NAS og DAS i Hadoop

NAS DAS
Lagringskapasiteten er 10 9 til 10 12 byte. Lagringskapasitet er 10 9 byte.
Administrasjonskostnad per GB er moderat. Administrasjonskostnad per GB er høy.
Overfør data ved hjelp av Ethernet eller TCP / IP. Overfør data ved hjelp av IDE / SCSI

29) Liste over viktige felt eller språk som brukes av dataingeniør

Her er noen få felt eller språk som brukes av dataingeniør:

  • Sannsynlighet samt lineær algebra
  • Maskinlæring
  • Trendanalyse og regresjon
  • Hive QL og SQL databaser

30) Hva er Big Data?

Det er en stor mengde strukturerte og ustrukturerte data, som ikke lett kan behandles av tradisjonelle datalagringsmetoder. Dataingeniører bruker Hadoop til å administrere store data.

31) Hva er FIFO-planlegging?

Det er en Hadoop jobbplanleggingsalgoritme. I denne FIFO-planleggingen velger en reporter jobber fra en arbeidskø, den eldste jobben først.

32) Nevn standard portnumre som oppgavesporing, NameNode og jobbsporing kjører i Hadoop

Standard portnumre som oppgavesporing, NameNode og jobbsporing kjører i Hadoop er som følger:

  • Oppgave tracker kjører på 50060 port
  • NameNode kjører på 50070 port
  • Job Tracker kjører på 50030 port

33) Hvordan deaktivere Block Scanner på HDFS Data Node

For å deaktivere Block Scanner på HDFS Data Node, sett dfs.datanode.scan.period.hours til 0.

34) Hvordan definere avstanden mellom to noder i Hadoop?

Avstanden er lik summen av avstanden til de nærmeste nodene. Metoden getDistance () brukes til å beregne avstanden mellom to noder.

35) Hvorfor bruke råvare i Hadoop?

Råvare er lett å få tak i og rimelig. Det er et system som er kompatibelt med Windows, MS-DOS eller Linux.

36) Definer replikasjonsfaktor i HDFS

Replikasjonsfaktor er et totalt antall kopier av en fil i systemet.

37) Hvilke data er lagret i NameNode?

Namenode lagrer metadata for HDFS som blokkeringsinformasjon og navneplassinformasjon.

38) Hva mener du med Rack Awareness?

I Haddop-klyngen bruker Namenode Datanode til å forbedre nettverkstrafikken mens du leser eller skriver en fil som er nærmere racket i nærheten for å lese eller skrive forespørsel. Namenode opprettholder rack-ID-en for hver DataNode for å oppnå rackinformasjon. Dette konseptet kalles Rack Awareness i Hadoop.

39) Hva er funksjonene til Secondary NameNode?

Følgende er funksjonene til Secondary NameNode:

  • FsImage som lagrer en kopi av EditLog og FsImage-filen.
  • NameNode-krasj: Hvis NameNode krasjer, kan Secondary NameNodes FsImage brukes til å gjenskape NameNode.
  • Kontrollpunkt: Det brukes av Secondary NameNode for å bekrefte at data ikke er ødelagt i HDFS.
  • Oppdatering: Den oppdaterer automatisk EditLog- og FsImage-filen. Det hjelper å holde FsImage-filen på Secondary NameNode oppdatert.

40) Hva skjer når NameNode er nede, og brukeren sender inn en ny jobb?

NameNode er det eneste feilpunktet i Hadoop, slik at brukeren ikke kan sende inn en ny jobb som ikke kan utføres. Hvis NameNode er nede, kan jobben mislykkes på grunn av at denne brukeren må vente på at NameNode skal starte på nytt før han kjører en jobb.

41) Hva er de grunnleggende fasene til reduksjonsmiddel i Hadoop?

Det er tre grunnleggende faser av en redusering i Hadoop:

1. Shuffle: Her kopierer Reducer utdataene fra Mapper.

2. Sorter: På sortering sorterer Hadoop inngangen til Reduser ved hjelp av samme tast.

3. Reduser: I denne fasen reduseres utgangsverdiene knyttet til en nøkkel for å konsolidere dataene i den endelige utdata.

42) Hvorfor bruker Hadoop kontekstobjekt?

Hadoop framework bruker kontekstobjekt med Mapper-klassen for å samhandle med det gjenværende systemet. Kontekstobjekt får systemkonfigurasjonsdetaljer og jobb i sin konstruktør.

Vi bruker kontekstobjekt for å formidle informasjonen i oppsett (), opprydding () og kart () metoder. Dette objektet gjør viktig informasjon tilgjengelig under kartoperasjonene.

43) Definer Combiner i Hadoop

Det er et valgfritt trinn mellom Map og Reduce. Combiner tar utdataene fra kartfunksjonen, oppretter nøkkelverdipar og sender til Hadoop Reducer. Combiners oppgave er å oppsummere det endelige resultatet fra Map til sammendragsposter med en identisk nøkkel.

44) Hva er standard replikasjonsfaktor tilgjengelig i HDFS Hva det indikerer?

Standard replikasjonsfaktor tilgjengelig i HDFS er tre. Standard replikasjonsfaktor indikerer at det vil være tre kopier av hver data.

45) Hva mener du datalokalitet i Hadoop?

I et Big Data-system er datastørrelsen enorm, og det er derfor ikke fornuftig å flytte data over nettverket. Nå prøver Hadoop å flytte beregning nærmere data. På denne måten forblir dataene lokale for den lagrede plasseringen.

46) Definer balanser i HDFS

I HDFS er balansen en administrasjon som brukes av administrasjonsmedarbeidere til å balansere data på nytt mellom DataNodes og flytter blokker fra overutnyttede til underutnyttede noder.

47) Forklar sikkermodus i HDFS

Det er en skrivebeskyttet modus av NameNode i en klynge. Opprinnelig er NameNode i Safemode. Det forhindrer skriving til filsystem i Safemode. På dette tidspunktet samler den inn data og statistikk fra alle DataNodes.

48) Hva er viktigheten av Distribuert Cache i Apache Hadoop?

Hadoop har en nyttig verktøyfunksjon såkalt Distribuert Cache som forbedrer ytelsen til jobber ved å cache filene som brukes av applikasjoner. Et program kan spesifisere en fil for hurtigbufferen ved hjelp av JobConf-konfigurasjon.

Hadoop framework lager replika av disse filene til nodene som en oppgave må utføres. Dette gjøres før utførelsen av oppgaven starter. Distribuert cache støtter distribusjon av skrivebeskyttede filer samt glidelåser og krukkerfiler.

49) Hva er Metastore in Hive?

Den lagrer skjema samt plassering av Hive-tabellen.

Hive-tabellen definerer, kartlegger og metadata som er lagret i Metastore. Dette kan lagres i RDBMS støttet av JPOX.

50) Hva betyr SerDe in Hive?

SerDe er et kort navn for Serializer eller Deserializer. I Hive tillater SerDe å lese data fra tabell til og skrive til et bestemt felt i hvilket format du vil.

51) Liste over komponenter som er tilgjengelige i Hive-datamodellen

Det er følgende komponenter i Hive-datamodellen:

  • Tabeller
  • Skillevegger
  • Skuffer

52) Forklar bruken av Hive i Hadoop økosystem.

Hive gir et grensesnitt for å administrere data som er lagret i Hadoop økosystem. Hive brukes til å kartlegge og arbeide med HBase-tabeller. Hive-spørringer blir konvertert til MapReduce-jobber for å skjule kompleksiteten knyttet til å opprette og kjøre MapReduce-jobber.

53) Liste over forskjellige komplekse datatyper / samling støttes av Hive

Hive støtter følgende komplekse datatyper:

  • Kart
  • Struktur
  • Array
  • Union

54) Forklar hvordan .hiverc-filen i Hive brukes?

I Hive er .hiverc initialiseringsfilen. Denne filen lastes først når vi starter Command Line Interface (CLI) for Hive. Vi kan angi de opprinnelige verdiene til parametrene i .hiverc-filen.

55) Er det mulig å lage mer enn én tabell i Hive for en enkelt datafil?

Ja, vi kan lage mer enn en tabellskjema for en datafil. Hive lagrer skjema i Hive Metastore. Basert på dette skjemaet, kan vi hente forskjellige resultater fra samme data.

56) Forklar forskjellige SerDe-implementeringer tilgjengelig i Hive

Det er mange SerDe-implementeringer tilgjengelig i Hive. Du kan også skrive din egen tilpassede SerDe-implementering. Følgende er noen kjente SerDe-implementeringer:

  • OpenCSVSerde
  • RegexSerDe
  • AvgrensetJSONSerDe
  • ByteStreamTypedSerDe

57) Liste som genererer funksjoner som er tilgjengelige i Hive

Følgende er en liste over tabellgenererende funksjoner:

  • Eksplodere (matrise)
  • JSON_tuple ()
  • Stable()
  • Eksplodere (kart)

58) Hva er et skjevt bord i Hive?

En skjev tabell er en tabell som inneholder kolonneverdier oftere. I Hive, når vi spesifiserer en tabell som SKEWED under opprettelsen, skrives skjevverdier i separate filer, og gjenværende verdier går til en annen fil.

59) Liste opp objekter opprettet av create statement i MySQL.

Objekter opprettet av create statement i MySQL er som følger:

  • Database
  • Indeks
  • Bord
  • Bruker
  • Fremgangsmåte
  • Avtrekker
  • Begivenhet
  • Utsikt
  • Funksjon

60) Hvordan ser jeg databasestrukturen i MySQL?

For å se databasestrukturen i MySQL, kan du bruke

BESKRIV kommandoen. Syntaks for denne kommandoen er BESKRIVELSE Tabellnavn ;.

61) Hvordan søke etter en bestemt streng i MySQL-tabellkolonnen?

Bruk regex-operator for å søke etter en streng i MySQL-kolonnen. Her kan vi også definere forskjellige typer regulært uttrykk og søke etter bruk av regex.

62) Forklar hvordan dataanalyse og stordata kan øke selskapets inntekter?

Følgende er måtene hvordan dataanalyse og big data kan øke selskapets inntekter:

  • Bruk data effektivt for å sikre at virksomheten vokser.
  • Øk kundeverdien.
  • Slå analytisk for å forbedre bemanningsnivåer.
  • Kutte ned organisasjonens produksjonskostnader.