Topp 50 datavitenskapsspørsmål og svar

Anonim

Følgende er ofte stilte spørsmål i jobbintervjuer for ferske så vel som erfarne Data Scientist.

1. Hva er datavitenskap?

Datavitenskap er en kombinasjon av algoritmer, verktøy og maskinlæringsteknikk som hjelper deg med å finne vanlige skjulte mønstre fra de gitte rådataene.

2. Hva er logistisk regresjon innen datavitenskap?

Logistisk regresjon kalles også som logit-modellen. Det er en metode for å forutsi det binære utfallet fra en lineær kombinasjon av prediktorvariabler.

3. Nevn tre typer skjevheter som kan oppstå under prøvetaking

I prøvetakingsprosessen er det tre typer forstyrrelser, som er:

  • Utvalg bias
  • Under dekkingsskjevhet
  • Overlevelse bias

4. Diskuter algoritmen for beslutningstreet

Et beslutningstre er en populær maskinlæringsalgoritme som er under tilsyn. Den brukes hovedsakelig til regresjon og klassifisering. Det gjør det mulig å bryte ned et datasett i mindre delmengder. Beslutningstreet kan håndtere både kategoriske og numeriske data.

5. Hva er tidligere sannsynlighet og sannsynlighet?

Tidligere sannsynlighet er andelen av den avhengige variabelen i datasettet, mens sannsynligheten er sannsynligheten for å klassifisere en gitt observant i nærvær av en annen variabel.

6. Forklar anbefalingssystemer?

Det er en underklasse av informasjonsfiltreringsteknikker. Det hjelper deg å forutsi preferanser eller rangeringer som brukere sannsynligvis vil gi til et produkt.

7. Nevn tre ulemper ved å bruke en lineær modell

Tre ulemper med den lineære modellen er:

  • Forutsetningen om linearitet av feilene.
  • Du kan ikke bruke denne modellen for binære eller telle resultater
  • Det er mange problemer med overmontering som det ikke kan løse

8. Hvorfor trenger du å utføre prøvetaking?

Resampling gjøres i nedenstående tilfeller:

  • Estimere nøyaktigheten av eksempler på statistikk ved å tegne tilfeldig med erstatning fra et sett av datapunktet eller bruke som delmengder av tilgjengelige data
  • Bytte etiketter på datapunkter når du utfører nødvendige tester
  • Validerer modeller ved å bruke tilfeldige delmengder

9. Liste ut bibliotekene i Python som brukes til dataanalyse og vitenskapelige beregninger.

  • SciPy
  • Pandaer
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Hva er kraftanalyse?

Kraftanalysen er en integrert del av den eksperimentelle designen. Det hjelper deg å bestemme prøvestørrelsen som kreves for å finne ut effekten av en gitt størrelse fra en årsak med et bestemt forsikringsnivå. Det lar deg også distribuere en bestemt sannsynlighet i et utvalg størrelse begrensning.

11. Forklar samarbeidsfiltrering

Samarbeidsfiltrering som brukes til å søke etter riktige mønstre ved å samarbeide synspunkter, flere datakilder og forskjellige agenter.

12. Hva er skjevhet?

Bias er en feil introdusert i modellen på grunn av forenkling av en maskinlæringsalgoritme. "Det kan føre til underutrustning.

13. Diskuter 'Naive' i en Naive Bayes-algoritme?

Naive Bayes Algorithm-modellen er basert på Bayes Theorem. Den beskriver sannsynligheten for en hendelse. Den er basert på forkunnskap om forhold som kan være relatert til den spesifikke hendelsen.

14. Hva er en lineær regresjon?

Lineær regresjon er en statistisk programmeringsmetode der poengsummen for en variabel 'A' forutsies fra poengsummen til den andre variabelen 'B'. B blir referert til som prediktorvariabelen og A som kriterievariabelen.

15. Oppgi forskjellen mellom forventet verdi og middelverdi

De er ikke mange forskjeller, men begge disse begrepene brukes i forskjellige sammenhenger. Gjennomsnittlig verdi refereres vanligvis til når du diskuterer en sannsynlighetsfordeling mens forventet verdi blir referert til i sammenheng med en tilfeldig variabel.

16. Hva er målet med A / B-testing?

AB-testing brukes til å utføre tilfeldige eksperimenter med to variabler, A og B. Målet med denne testmetoden er å finne ut endringer på en webside for å maksimere eller øke resultatet av en strategi.

17. Hva er ensemble-læring?

Ensemblet er en metode for å kombinere et mangfoldig sett med elever sammen for å improvisere på stabiliteten og prediktiv kraften til modellen. To typer ensemble læringsmetoder er:

Bagging

Bagging-metoden hjelper deg med å implementere lignende elever på små utvalgspopulasjoner. Det hjelper deg å komme nærmere spådommer.

Øker

Boosting er en iterativ metode som lar deg justere vekten av en observasjon avhengig av den siste klassifiseringen. Boosting reduserer forspenningsfeilen og hjelper deg med å bygge sterke prediktive modeller.

18. Forklar Eigenvalue og Eigenvector

Eigenvektorer er for å forstå lineære transformasjoner. Dataforsker trenger å beregne egenvektorene for en kovariansematrise eller korrelasjon. Eigenverdier er retningene langs bruk av spesifikke lineære transformasjonshandlinger ved komprimering, vending eller strekking.

19. Definer begrepet kryssvalidering

Kryssvalidering er en valideringsteknikk for å evaluere hvordan resultatene av statistisk analyse vil generalisere for et uavhengig datasett. Denne metoden brukes i bakgrunner der målet er forutsagt, og man må estimere hvor nøyaktig en modell vil oppnå.

20. Forklar trinnene for et dataanalyseprosjekt

Følgende er viktige trinn involvert i et analyseprosjekt:

  • Forstå forretningsproblemet
  • Utforsk dataene og studer dem nøye.
  • Forbered dataene for modellering ved å finne manglende verdier og transformere variabler.
  • Begynn å kjøre modellen og analyser Big data-resultatet.
  • Valider modellen med nytt datasett.
  • Implementere modellen og følg resultatet for å analysere ytelsen til modellen i en bestemt periode.

21. Diskuter kunstige nevrale nettverk

Kunstige nevrale nettverk (ANN) er et spesielt sett med algoritmer som har revolusjonert maskinlæring. Det hjelper deg å tilpasse deg etter endrede innspill. Så nettverket genererer best mulig resultat uten å redesigne utgangskriteriene.

22. Hva er ryggforplantning?

Tilbake-forplantning er essensen av nevral nettopplæring. Det er metoden for å innstille vektene til et nevralnett, avhengig av feilraten oppnådd i forrige periode. Riktig innstilling av hjelper deg med å redusere feilrater og å gjøre modellen pålitelig ved å øke generaliseringen.

23. Hva er en tilfeldig skog?

Tilfeldig skog er en maskinlæringsmetode som hjelper deg med å utføre alle typer regresjons- og klassifiseringsoppgaver. Den brukes også til behandling av manglende verdier og avvikende verdier.

24. Hva er viktigheten av å ha en valgforstyrrelse?

Selection Bias oppstår når det ikke oppnås noen spesifikk randomisering mens du velger individer eller grupper eller data som skal analyseres. Det antyder at den gitte prøven ikke nøyaktig representerer populasjonen som var ment å bli analysert.

25. Hva er K-betyr klyngemetode?

K-betyr klynging er en viktig læringsmetode uten tilsyn. Det er teknikken for å klassifisere data ved hjelp av et bestemt sett med klynger som kalles K-klynger. Den er distribuert for gruppering for å finne ut likheten i dataene.

26. Forklar forskjellen mellom Data Science og Data Analytics

Dataforskere må kutte data for å hente ut verdifull innsikt som en dataanalytiker kan bruke på virkelige forretningsscenarier. Hovedforskjellen mellom de to er at dataforskerne har mer teknisk kunnskap enn forretningsanalytiker. Videre trenger de ikke forståelse for virksomheten som kreves for datavisualisering.

27. Forklar p-verdi?

Når du gjennomfører en hypotesetest i statistikk, lar en p-verdi deg bestemme styrken til resultatene dine. Det er et tall mellom 0 og 1. Basert på verdien vil det hjelpe deg å angi styrken til det spesifikke resultatet.

28. Definere begrepet dyp læring

Deep Learning er en undertype maskinlæring. Det er opptatt av algoritmer inspirert av strukturen som kalles kunstige nevrale nettverk (ANN).

29. Forklar metoden for å samle inn og analysere data for å bruke sosiale medier til å forutsi værforhold.

Du kan samle inn sosiale mediedata ved hjelp av Facebook, twitter, Instagrams API-er. For eksempel, for tweeter, kan vi konstruere en funksjon fra hver tweet som tweeted date, retweets, list of follower, etc. Deretter kan du bruke en multivariat tidsseriemodell for å forutsi værforhold.

30. Når trenger du å oppdatere algoritmen i datavitenskap?

Du må oppdatere en algoritme i følgende situasjon:

  • Du vil at datamodellen din skal utvikle seg som datastrømmer ved hjelp av infrastruktur
  • Den underliggende datakilden er i endring

    Hvis det ikke er stasjonært

31. Hva er normalfordeling

En normalfordeling er et sett med en kontinuerlig variabel spredt over en normalkurve eller i form av en bjellekurve. Du kan betrakte det som en kontinuerlig sannsynlighetsfordeling som er nyttig i statistikk. Det er nyttig å analysere variablene og deres forhold når vi bruker normalfordelingskurven.

32. Hvilket språk er best for tekstanalyse? R eller Python?

Python vil være mer egnet for tekstanalyse, da det består av et rikt bibliotek kjent som pandaer. Det lar deg bruke verktøy på høyt nivå for dataanalyse og datastrukturer, mens R ikke tilbyr denne funksjonen.

33. Forklar fordelene ved å bruke statistikk fra Data Scientists

Statistikk hjelper Dataforsker for å få et bedre inntrykk av kundens forventning. Ved å bruke den statistiske metoden Data Scientists kan få kunnskap om forbrukernes interesse, atferd, engasjement, oppbevaring osv. Det hjelper deg også med å bygge kraftige datamodeller for å validere visse slutninger og spådommer.

34. Nevn forskjellige typer dype læringsrammer

  • Pytorch
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35. Forklar Auto-Encoder

Autokodere er læringsnettverk. Det hjelper deg å transformere innganger til utganger med færre antall feil. Dette betyr at du vil få utdata for å være så nær input som mulig.

36. Definer Boltzmann-maskin

Boltzmann-maskiner er en enkel læringsalgoritme. Det hjelper deg å oppdage de funksjonene som representerer komplekse regelmessigheter i treningsdataene. Denne algoritmen lar deg optimalisere vektene og mengden for det gitte problemet.

37. Forklar hvorfor datarensing er viktig og hvilken metode du bruker for å opprettholde rene data

Skitne data fører ofte til feil innside, noe som kan skade utsiktene til enhver organisasjon. For eksempel hvis du vil kjøre en målrettet markedsføringskampanje. Våre data forteller deg imidlertid feilaktig at et bestemt produkt vil være etterspurt hos målgruppen din; kampanjen vil mislykkes.

38. Hva er skjev distribusjon og jevn fordeling?

Skjev fordeling oppstår når data distribueres på en side av plottet, mens ensartet fordeling identifiseres når dataene spres, er like i området.

39. Når underfitting skjer i en statisk modell?

Underfitting oppstår når en statistisk modell eller maskinlæringsalgoritme ikke er i stand til å fange den underliggende trenden til dataene.

40. Hva er forsterkningslæring?

Reinforcement Learning er en læringsmekanisme om hvordan man kan kartlegge situasjoner til handlinger. Sluttresultatet skal hjelpe deg med å øke det binære belønningssignalet. I denne metoden blir ikke en elev fortalt hvilken handling han skal ta, men må i stedet oppdage hvilken handling som gir maksimal belønning. Som denne metoden basert på belønnings- / straffemekanismen.

41. Nevn ofte brukte algoritmer.

Fire mest brukte algoritmer av Data scientist er:

  • Lineær regresjon
  • Logistisk regresjon
  • Tilfeldig skog
  • KNN

42. Hva er presisjon?

Presisjon er den vanligste feilverdien er n klassifiseringsmekanisme. Dens rekkevidde er fra 0 til 1, hvor 1 representerer 100%

43. Hva er en univariat analyse?

En analyse som brukes på ingen attributter om gangen, kalles univariat analyse. Boxplot er mye brukt, univariat modell.

44. Hvordan overvinner du utfordringene til funnene dine?

For å overvinne utfordringene ved å finne et behov for å oppmuntre til diskusjon, demonstrere lederskap og respektere forskjellige alternativer.

45. Forklar klyngesamplingsteknikk i datavitenskap

En klyngesamplingsmetode brukes når det er utfordrende å studere målpopulasjonen fordelt på, og enkel tilfeldig prøvetaking kan ikke brukes.

46. ​​Angi forskjellen mellom et valideringssett og et testsett

Et valideringssett som for det meste betraktes som en del av treningssettet, da det brukes til parametervalg som hjelper deg med å unngå overmontering av modellen som bygges.

Mens et testsett brukes til å teste eller evaluere ytelsen til en trent maskinlæringsmodell.

47. Forklar begrepet Binomial sannsynlighetsformel?

"Binomialfordelingen inneholder sannsynlighetene for enhver mulig suksess på N-forsøk for uavhengige hendelser som har en sannsynlighet for at π vil forekomme."

48. Hva er en tilbakekalling?

En tilbakekalling er et forhold mellom den virkelige positive raten og den faktiske positive raten. Det varierer fra 0 til 1.

49. Diskuter normalfordeling

Normalfordeling like fordelt som sådan, gjennomsnittet, medianen og modusen er like.

50. Hvordan kan du velge viktige variabler mens du arbeider med et datasett? Forklare

Følgende metoder for variabelt valg kan du bruke:

  • Fjern de korrelerte variablene før du velger viktige variabler
  • Bruk lineær regresjon og velg variabler som avhenger av p-verdiene.
  • Bruk bakover, fremovervalg og trinnvis valg
  • Bruk Xgboost-, Random Forest- og plot-variabel-viktighetsdiagram.
  • Mål informasjonsgevinst for det gitte settet med funksjoner og velg topp n-funksjoner deretter.

51. Er det mulig å fange sammenhengen mellom kontinuerlig og kategorisk variabel?

Ja, vi kan bruke analyse av kovarianseteknikk for å fange sammenhengen mellom kontinuerlige og kategoriske variabler.

52. Å behandle en kategorisk variabel som en kontinuerlig variabel vil resultere i en bedre prediktiv modell?

Ja, den kategoriske verdien skal bare betraktes som en kontinuerlig variabel når variabelen er ordinær. Så det er en bedre prediktiv modell.