Hva er Data Lake?
A Data Lake er et lagringsregister som kan lagre store mengder strukturerte, semistrukturerte og ustrukturerte data. Det er et sted å lagre alle typer data i sitt opprinnelige format uten faste begrensninger på kontostørrelse eller fil. Den tilbyr høy datamengde for å øke analytisk ytelse og integrert integrering.
Data Lake er som en stor container som er veldig lik ekte innsjø og elver. Akkurat som i en innsjø har du flere bifloder som kommer inn, en datasjø har strukturerte data, ustrukturerte data, maskin til maskin, logger som strømmer gjennom i sanntid.
Data Lake demokratiserer data og er en kostnadseffektiv måte å lagre alle data i en organisasjon for senere behandling. Forskningsanalytiker kan fokusere på å finne meningsmønstre i data og ikke i selve data.
I motsetning til et hierarkisk Dataware-hus der data lagres i Files and Folder, har Data lake en flat arkitektur. Hvert dataelement i en Data Lake får en unik identifikator og merkes med et sett med metadatainformasjon.
I denne veiledningen vil du lære-
- Hva er Data Lake?
- Hvorfor Data Lake?
- Data Lake Architecture
- Key Data Lake Concepts
- Modenhetsstadier i Data Lake
- Beste fremgangsmåter for implementering av Data Lake:
- Forskjellen mellom datasjøer og datalager
- Fordeler og risikoer ved bruk av Data Lake:
Hvorfor Data Lake?
Hovedmålet med å bygge en datasjø er å tilby et uraffinert syn på data til dataforskere.
Årsaker til bruk av Data Lake er:
- Med utbruddet av lagringsmotorer som Hadoop har det blitt enkelt å lagre ulik informasjon. Det er ikke nødvendig å modellere data i et virksomhetsovergripende skjema med en Data Lake.
- Med økningen i datavolum, datakvalitet og metadata øker også kvaliteten på analysene.
- Data Lake tilbyr forretningsfleksibilitet
- Maskinlæring og kunstig intelligens kan brukes til å komme med lønnsomme spådommer.
- Det gir en konkurransefortrinn til den implementerende organisasjonen.
- Det er ingen datasilostruktur. Data Lake gir 360 graders oversikt over kunder og gjør analysene mer robuste.
Data Lake Architecture
Figuren viser arkitekturen til en Business Data Lake. De nedre nivåene representerer data som for det meste er i ro, mens de øvre nivåene viser sanntids transaksjonsdata. Disse dataene strømmer gjennom systemet uten eller liten ventetid. Følgende er viktige nivåer i Data Lake Architecture:
- Svelgingsnivå : Nivåene på venstre side viser datakildene. Dataene kan lastes inn i datasjøen i grupper eller i sanntid
- Insights Tier: Nivåene til høyre representerer forskningssiden der innsikt fra systemet brukes. SQL, NoSQL-spørsmål eller til og med excel kan brukes til dataanalyse.
- HDFS er en kostnadseffektiv løsning for både strukturerte og ustrukturerte data. Det er en landingssone for alle data som er i ro i systemet.
- Destillasjonsnivå tar data fra lagringsdekket og konverterer det til strukturerte data for enklere analyse.
- Behandler tier kjøre analytiske algoritmer og brukerforespørsler med varierende sanntid, interaktiv, batch for å generere strukturerte data for enklere analyse.
- Unified operations tier styrer systemadministrasjon og overvåking. Det inkluderer revisjon og ferdighetsstyring, datahåndtering, arbeidsflytstyring.
Key Data Lake Concepts
Følgende er Key Data Lake-konsepter som man trenger å forstå for å forstå Data Lake Architecture
Svelging av data
Datainntak gjør det mulig for kontakter å hente data fra forskjellige datakilder og laste dem inn i datasjøen.
Inntak av data støtter:
- Alle typer strukturerte, semistrukturerte og ustrukturerte data.
- Flere inntak som batch, sanntid, engangsbelastning.
- Mange typer datakilder som databaser, webservere, e-post, IoT og FTP.
Datalagring
Datalagring skal være skalerbar, tilbyr kostnadseffektiv lagring og gi rask tilgang til datautforskning. Den skal støtte forskjellige dataformater.
Datastyring
Datastyring er en prosess for å administrere tilgjengelighet, brukervennlighet, sikkerhet og integritet til data som brukes i en organisasjon.
Sikkerhet
Sikkerhet må implementeres i hvert lag av Data Lake. Det starter med lagring, oppdekking og forbruk. Det grunnleggende behovet er å stoppe tilgangen for uautoriserte brukere. Den skal støtte forskjellige verktøy for å få tilgang til data med enkel å navigere GUI og Dashboards.
Autentisering, regnskap, autorisasjon og databeskyttelse er noen viktige trekk ved datasjøsikkerhet.
Datakvalitet:
Datakvalitet er en viktig komponent i Data Lake-arkitekturen. Data brukes til å eksakte forretningsverdien. Å hente ut innsikt fra data av dårlig kvalitet, vil føre til innsikt i dårlig kvalitet.
Data Discovery
Data Discovery er et annet viktig trinn før du kan begynne å forberede data eller analyser. I dette stadiet brukes merkingsteknikk for å uttrykke dataforståelsen, ved å organisere og tolke dataene som er inntatt i Data Lake.
Datarevisjon
To store dataovervåkingsoppgaver sporer endringer i nøkkeldatasettet.
- Spore endringer i viktige datasettelementer
- Fanger hvordan / når / og hvem som endrer seg til disse elementene.
Datarevisjon hjelper til med å evaluere risiko og samsvar.
Datalinje
Denne komponenten tar for seg datas opprinnelse. Den handler hovedsakelig om hvor den beveger seg over tid og hva som skjer med den. Det letter feilretting i en dataanalyseprosess fra opprinnelse til destinasjon.
Data leting
Det er begynnelsen på dataanalysen. Det hjelper å identifisere riktig datasett er viktig før du starter Data Exploration.
Alle gitte komponenter må samarbeide for å spille en viktig rolle i Data Lake-bygningen som lett kan utvikle seg og utforske miljøet.
Modenhetsstadier i Data Lake
Definisjonen av Data Lake Maturity-stadier er forskjellig fra lærebok til andre. Selv om kernen forblir den samme. Etter modenhet er scenedefinisjon fra et lekmann synspunkt.
Trinn 1: Håndter og inntak data i målestokk
Denne første fasen av datamodenhet innebærer å forbedre evnen til å transformere og analysere data. Her må bedriftseiere finne verktøyene i henhold til deres ferdighetssett for å skaffe mer data og bygge analytiske applikasjoner.
Trinn 2: Bygg den analytiske muskelen
Dette er et andre trinn som innebærer å forbedre evnen til å transformere og analysere data. I dette stadiet bruker bedriftene det verktøyet som passer best for deres ferdigheter. De begynner å skaffe seg mer data og bygge applikasjoner. Her brukes kapasitetene til bedriftens datalager og data lake sammen.
Trinn 3: EDW og Data Lake fungerer i kor
Dette trinnet innebærer å få data og analyser i hendene på så mange mennesker som mulig. På dette stadiet begynner datasjøen og bedriftens datalager å jobbe i et fagforbund. Begge spiller sin rolle i analyser
Trinn 4: Bedriftsevne i sjøen
I dette modenhetsfasen av datasjøen blir bedriftsegenskaper lagt til i Data Lake. Vedtakelse av informasjonsstyring, administrasjon av informasjonssyklus og Metadataadministrasjon. Imidlertid kan svært få organisasjoner nå dette modenhetsnivået, men dette tallet vil øke i fremtiden.
Beste fremgangsmåter for implementering av Data Lake:
- Arkitektoniske komponenter, deres interaksjon og identifiserte produkter skal støtte innfødte datatyper
- Design av Data Lake bør drives av det som er tilgjengelig i stedet for det som kreves. Skjema- og datakravet er ikke definert før det blir spurt
- Design skal styres av engangskomponenter integrert med service API.
- Datafunn, inntak, lagring, administrasjon, kvalitet, transformasjon og visualisering bør håndteres uavhengig.
- Data Lake-arkitekturen skal være skreddersydd til en bestemt bransje. Det bør sikre at evner som er nødvendige for det domenet, er en iboende del av designet
- Raskere ombordstigning av nyoppdagede datakilder er viktig
- Data Lake hjelper tilpasset ledelse med å hente ut maksimal verdi
- Data Lake bør støtte eksisterende teknologier og metoder for forretningsadministrasjon
Utfordringer med å bygge en datasjø:
- I Data Lake er datavolumet høyere, så prosessen må være mer avhengig av programmatisk administrasjon
- Det er vanskelig å håndtere sparsomme, ufullstendige, ustabile data
- Større omfang av datasett og kilde trenger større datastyring og støtte
Forskjellen mellom datasjøer og datalager
Parametere | Datasjøer | Datavarehus |
---|---|---|
Data | Datasjøer lagrer alt. | Data Warehouse fokuserer bare på forretningsprosesser. |
Behandling | Data er hovedsakelig ubehandlet | Svært behandlede data. |
Type data | Det kan være ustrukturert, semi-strukturert og strukturert. | Det er for det meste i tabellform og struktur. |
Oppgave | Del datastyring | Optimalisert for datainnhenting |
Smidighet | Svært smidig, konfigurer og konfigurer etter behov. | Sammenlignet med Data lake er det mindre smidig og har fast konfigurasjon. |
Brukere | Data Lake brukes mest av Data Scientist | Forretningsfolk bruker mye datalager |
Oppbevaring | Data innsjøer design for billig lagring. | Det brukes dyr lagring som gir raske responstider |
Sikkerhet | Tilbyr mindre kontroll. | Tillater bedre kontroll av dataene. |
Utskifting av EDW | Data lake kan være kilde for EDW | Utfyllende til EDW (ikke erstatning) |
Skjema | Skjema ved lesing (ingen forhåndsdefinerte skjemaer) | Skjema ved skriving (forhåndsdefinerte skjemaer) |
Databehandling | Hjelper med rask inntak av nye data. | Tidkrevende å introdusere nytt innhold. |
Datagranularitet | Data med lavt detaljnivå eller granularitet. | Data i sammendraget eller samlet detaljnivå. |
Verktøy | Kan bruke åpen kildekode / verktøy som Hadoop / Map Reduce | For det meste kommersielle verktøy. |
Fordeler og risikoer ved bruk av Data Lake:
Her er noen store fordeler ved å bruke en Data Lake:
- Hjelper fullt med produktioniserende og avansert analyse
- Tilbyr kostnadseffektiv skalerbarhet og fleksibilitet
- Tilbyr verdi fra ubegrensede datatyper
- Reduserer langsiktige eierkostnader
- Tillater økonomisk lagring av filer
- Kan raskt tilpasses endringer
- Den største fordelen med data lake er sentraliseringen av forskjellige innholdskilder
- Brukere, fra forskjellige avdelinger, kan være spredt over hele verden og kan ha fleksibel tilgang til dataene
Risiko for bruk av Data Lake:
- Etter en stund kan Data Lake miste relevans og fart
- Det er større mengderisiko involvert når du designer Data Lake
- Ustrukturerte data kan føre til ikke-styrt Chao, ubrukelig data, forskjellige og komplekse verktøy, bedriftssamarbeid, enhetlig, konsistent og vanlig
- Det øker også lagring og beregner kostnader
- Det er ingen måte å få innsikt fra andre som har jobbet med dataene fordi det ikke er noen redegjørelse for avstamningen av funn fra tidligere analytikere
- Den største risikoen for datasjøer er sikkerhet og tilgangskontroll. Noen ganger kan data plasseres i en innsjø uten tilsyn, da noen av dataene kan ha personvern og myndighetsbehov
Sammendrag:
- A Data Lake er et lagringsregister som kan lagre store mengder strukturerte, semistrukturerte og ustrukturerte data.
- Hovedmålet med å bygge en datasjø er å tilby et uraffinert syn på data til dataforskere.
- Unified operations tier, Processing tier, Destillation tier og HDFS er viktige lag i Data Lake Architecture
- Svelging av data, datalagring, datakvalitet, dataovervåking, datautforskning, dataoppdagelse er noen viktige komponenter i Data Lake Architecture
- Design av Data Lake bør drives av det som er tilgjengelig i stedet for det som kreves.
- Data Lake reduserer langsiktige eierkostnader og tillater økonomisk lagring av filer
- Den største risikoen for datasjøer er sikkerhet og tilgangskontroll. Noen ganger kan data plasseres i en innsjø uten tilsyn, da noen av dataene kan ha personvern og myndighetsbehov.