Hva er Data Lake? Det er arkitektur

Hva er Data Lake?

A Data Lake er et lagringsregister som kan lagre store mengder strukturerte, semistrukturerte og ustrukturerte data. Det er et sted å lagre alle typer data i sitt opprinnelige format uten faste begrensninger på kontostørrelse eller fil. Den tilbyr høy datamengde for å øke analytisk ytelse og integrert integrering.

Data Lake er som en stor container som er veldig lik ekte innsjø og elver. Akkurat som i en innsjø har du flere bifloder som kommer inn, en datasjø har strukturerte data, ustrukturerte data, maskin til maskin, logger som strømmer gjennom i sanntid.

Data Lake demokratiserer data og er en kostnadseffektiv måte å lagre alle data i en organisasjon for senere behandling. Forskningsanalytiker kan fokusere på å finne meningsmønstre i data og ikke i selve data.

I motsetning til et hierarkisk Dataware-hus der data lagres i Files and Folder, har Data lake en flat arkitektur. Hvert dataelement i en Data Lake får en unik identifikator og merkes med et sett med metadatainformasjon.

I denne veiledningen vil du lære-

Hva er Data Lake?
Hvorfor Data Lake?
Data Lake Architecture
Key Data Lake Concepts
Modenhetsstadier i Data Lake
Beste fremgangsmåter for implementering av Data Lake:
Forskjellen mellom datasjøer og datalager
Fordeler og risikoer ved bruk av Data Lake:

Hvorfor Data Lake?

Hovedmålet med å bygge en datasjø er å tilby et uraffinert syn på data til dataforskere.

Årsaker til bruk av Data Lake er:

Med utbruddet av lagringsmotorer som Hadoop har det blitt enkelt å lagre ulik informasjon. Det er ikke nødvendig å modellere data i et virksomhetsovergripende skjema med en Data Lake.
Med økningen i datavolum, datakvalitet og metadata øker også kvaliteten på analysene.
Data Lake tilbyr forretningsfleksibilitet
Maskinlæring og kunstig intelligens kan brukes til å komme med lønnsomme spådommer.
Det gir en konkurransefortrinn til den implementerende organisasjonen.
Det er ingen datasilostruktur. Data Lake gir 360 graders oversikt over kunder og gjør analysene mer robuste.

Data Lake Architecture

Figuren viser arkitekturen til en Business Data Lake. De nedre nivåene representerer data som for det meste er i ro, mens de øvre nivåene viser sanntids transaksjonsdata. Disse dataene strømmer gjennom systemet uten eller liten ventetid. Følgende er viktige nivåer i Data Lake Architecture:

Svelgingsnivå : Nivåene på venstre side viser datakildene. Dataene kan lastes inn i datasjøen i grupper eller i sanntid
Insights Tier: Nivåene til høyre representerer forskningssiden der innsikt fra systemet brukes. SQL, NoSQL-spørsmål eller til og med excel kan brukes til dataanalyse.
HDFS er en kostnadseffektiv løsning for både strukturerte og ustrukturerte data. Det er en landingssone for alle data som er i ro i systemet.
Destillasjonsnivå tar data fra lagringsdekket og konverterer det til strukturerte data for enklere analyse.
Behandler tier kjøre analytiske algoritmer og brukerforespørsler med varierende sanntid, interaktiv, batch for å generere strukturerte data for enklere analyse.
Unified operations tier styrer systemadministrasjon og overvåking. Det inkluderer revisjon og ferdighetsstyring, datahåndtering, arbeidsflytstyring.

Key Data Lake Concepts

Følgende er Key Data Lake-konsepter som man trenger å forstå for å forstå Data Lake Architecture

Svelging av data

Datainntak gjør det mulig for kontakter å hente data fra forskjellige datakilder og laste dem inn i datasjøen.

Inntak av data støtter:

Alle typer strukturerte, semistrukturerte og ustrukturerte data.
Flere inntak som batch, sanntid, engangsbelastning.
Mange typer datakilder som databaser, webservere, e-post, IoT og FTP.

Datalagring

Datalagring skal være skalerbar, tilbyr kostnadseffektiv lagring og gi rask tilgang til datautforskning. Den skal støtte forskjellige dataformater.

Datastyring

Datastyring er en prosess for å administrere tilgjengelighet, brukervennlighet, sikkerhet og integritet til data som brukes i en organisasjon.

Sikkerhet

Sikkerhet må implementeres i hvert lag av Data Lake. Det starter med lagring, oppdekking og forbruk. Det grunnleggende behovet er å stoppe tilgangen for uautoriserte brukere. Den skal støtte forskjellige verktøy for å få tilgang til data med enkel å navigere GUI og Dashboards.

Autentisering, regnskap, autorisasjon og databeskyttelse er noen viktige trekk ved datasjøsikkerhet.

Datakvalitet:

Datakvalitet er en viktig komponent i Data Lake-arkitekturen. Data brukes til å eksakte forretningsverdien. Å hente ut innsikt fra data av dårlig kvalitet, vil føre til innsikt i dårlig kvalitet.

Data Discovery

Data Discovery er et annet viktig trinn før du kan begynne å forberede data eller analyser. I dette stadiet brukes merkingsteknikk for å uttrykke dataforståelsen, ved å organisere og tolke dataene som er inntatt i Data Lake.

Datarevisjon

To store dataovervåkingsoppgaver sporer endringer i nøkkeldatasettet.

Spore endringer i viktige datasettelementer
Fanger hvordan / når / og hvem som endrer seg til disse elementene.

Datarevisjon hjelper til med å evaluere risiko og samsvar.

Datalinje

Denne komponenten tar for seg datas opprinnelse. Den handler hovedsakelig om hvor den beveger seg over tid og hva som skjer med den. Det letter feilretting i en dataanalyseprosess fra opprinnelse til destinasjon.

Data leting

Det er begynnelsen på dataanalysen. Det hjelper å identifisere riktig datasett er viktig før du starter Data Exploration.

Alle gitte komponenter må samarbeide for å spille en viktig rolle i Data Lake-bygningen som lett kan utvikle seg og utforske miljøet.

Modenhetsstadier i Data Lake

Definisjonen av Data Lake Maturity-stadier er forskjellig fra lærebok til andre. Selv om kernen forblir den samme. Etter modenhet er scenedefinisjon fra et lekmann synspunkt.

Trinn 1: Håndter og inntak data i målestokk

Denne første fasen av datamodenhet innebærer å forbedre evnen til å transformere og analysere data. Her må bedriftseiere finne verktøyene i henhold til deres ferdighetssett for å skaffe mer data og bygge analytiske applikasjoner.

Trinn 2: Bygg den analytiske muskelen

Dette er et andre trinn som innebærer å forbedre evnen til å transformere og analysere data. I dette stadiet bruker bedriftene det verktøyet som passer best for deres ferdigheter. De begynner å skaffe seg mer data og bygge applikasjoner. Her brukes kapasitetene til bedriftens datalager og data lake sammen.

Trinn 3: EDW og Data Lake fungerer i kor

Dette trinnet innebærer å få data og analyser i hendene på så mange mennesker som mulig. På dette stadiet begynner datasjøen og bedriftens datalager å jobbe i et fagforbund. Begge spiller sin rolle i analyser

Trinn 4: Bedriftsevne i sjøen

I dette modenhetsfasen av datasjøen blir bedriftsegenskaper lagt til i Data Lake. Vedtakelse av informasjonsstyring, administrasjon av informasjonssyklus og Metadataadministrasjon. Imidlertid kan svært få organisasjoner nå dette modenhetsnivået, men dette tallet vil øke i fremtiden.

Beste fremgangsmåter for implementering av Data Lake:

Arkitektoniske komponenter, deres interaksjon og identifiserte produkter skal støtte innfødte datatyper
Design av Data Lake bør drives av det som er tilgjengelig i stedet for det som kreves. Skjema- og datakravet er ikke definert før det blir spurt
Design skal styres av engangskomponenter integrert med service API.
Datafunn, inntak, lagring, administrasjon, kvalitet, transformasjon og visualisering bør håndteres uavhengig.
Data Lake-arkitekturen skal være skreddersydd til en bestemt bransje. Det bør sikre at evner som er nødvendige for det domenet, er en iboende del av designet
Raskere ombordstigning av nyoppdagede datakilder er viktig
Data Lake hjelper tilpasset ledelse med å hente ut maksimal verdi
Data Lake bør støtte eksisterende teknologier og metoder for forretningsadministrasjon

Utfordringer med å bygge en datasjø:

I Data Lake er datavolumet høyere, så prosessen må være mer avhengig av programmatisk administrasjon
Det er vanskelig å håndtere sparsomme, ufullstendige, ustabile data
Større omfang av datasett og kilde trenger større datastyring og støtte

Forskjellen mellom datasjøer og datalager

Parametere	Datasjøer	Datavarehus
Data	Datasjøer lagrer alt.	Data Warehouse fokuserer bare på forretningsprosesser.
Behandling	Data er hovedsakelig ubehandlet	Svært behandlede data.
Type data	Det kan være ustrukturert, semi-strukturert og strukturert.	Det er for det meste i tabellform og struktur.
Oppgave	Del datastyring	Optimalisert for datainnhenting
Smidighet	Svært smidig, konfigurer og konfigurer etter behov.	Sammenlignet med Data lake er det mindre smidig og har fast konfigurasjon.
Brukere	Data Lake brukes mest av Data Scientist	Forretningsfolk bruker mye datalager
Oppbevaring	Data innsjøer design for billig lagring.	Det brukes dyr lagring som gir raske responstider
Sikkerhet	Tilbyr mindre kontroll.	Tillater bedre kontroll av dataene.
Utskifting av EDW	Data lake kan være kilde for EDW	Utfyllende til EDW (ikke erstatning)
Skjema	Skjema ved lesing (ingen forhåndsdefinerte skjemaer)	Skjema ved skriving (forhåndsdefinerte skjemaer)
Databehandling	Hjelper med rask inntak av nye data.	Tidkrevende å introdusere nytt innhold.
Datagranularitet	Data med lavt detaljnivå eller granularitet.	Data i sammendraget eller samlet detaljnivå.
Verktøy	Kan bruke åpen kildekode / verktøy som Hadoop / Map Reduce	For det meste kommersielle verktøy.

Fordeler og risikoer ved bruk av Data Lake:

Her er noen store fordeler ved å bruke en Data Lake:

Hjelper fullt med produktioniserende og avansert analyse
Tilbyr kostnadseffektiv skalerbarhet og fleksibilitet
Tilbyr verdi fra ubegrensede datatyper
Reduserer langsiktige eierkostnader
Tillater økonomisk lagring av filer
Kan raskt tilpasses endringer
Den største fordelen med data lake er sentraliseringen av forskjellige innholdskilder
Brukere, fra forskjellige avdelinger, kan være spredt over hele verden og kan ha fleksibel tilgang til dataene

Risiko for bruk av Data Lake:

Etter en stund kan Data Lake miste relevans og fart
Det er større mengderisiko involvert når du designer Data Lake
Ustrukturerte data kan føre til ikke-styrt Chao, ubrukelig data, forskjellige og komplekse verktøy, bedriftssamarbeid, enhetlig, konsistent og vanlig
Det øker også lagring og beregner kostnader
Det er ingen måte å få innsikt fra andre som har jobbet med dataene fordi det ikke er noen redegjørelse for avstamningen av funn fra tidligere analytikere
Den største risikoen for datasjøer er sikkerhet og tilgangskontroll. Noen ganger kan data plasseres i en innsjø uten tilsyn, da noen av dataene kan ha personvern og myndighetsbehov

Sammendrag:

A Data Lake er et lagringsregister som kan lagre store mengder strukturerte, semistrukturerte og ustrukturerte data.
Hovedmålet med å bygge en datasjø er å tilby et uraffinert syn på data til dataforskere.
Unified operations tier, Processing tier, Destillation tier og HDFS er viktige lag i Data Lake Architecture
Svelging av data, datalagring, datakvalitet, dataovervåking, datautforskning, dataoppdagelse er noen viktige komponenter i Data Lake Architecture
Design av Data Lake bør drives av det som er tilgjengelig i stedet for det som kreves.
Data Lake reduserer langsiktige eierkostnader og tillater økonomisk lagring av filer
Den største risikoen for datasjøer er sikkerhet og tilgangskontroll. Noen ganger kan data plasseres i en innsjø uten tilsyn, da noen av dataene kan ha personvern og myndighetsbehov.

Hva er Data Lake? Det er arkitektur

Innholdsfortegnelse:

Hva er Data Lake?

Hvorfor Data Lake?

Data Lake Architecture

Key Data Lake Concepts

Svelging av data

Datalagring

Datastyring

Sikkerhet

Datakvalitet:

Data Discovery

Datarevisjon

Datalinje

Data leting

Modenhetsstadier i Data Lake

Trinn 1: Håndter og inntak data i målestokk

Trinn 2: Bygg den analytiske muskelen

Trinn 3: EDW og Data Lake fungerer i kor

Trinn 4: Bedriftsevne i sjøen

Beste fremgangsmåter for implementering av Data Lake:

Forskjellen mellom datasjøer og datalager

Fordeler og risikoer ved bruk av Data Lake:

Sammendrag:

SAP PA10 personalfil: Hvordan vise alle infotyper i SAP HR

Hva er SAP HR? Introduksjon til SAP HCM

Hva er en infotype?

Alt om infotype 0003 lønnsstatus i SAP

Hva er tidsbegrensning? SAP HR-veiledning

Web Service (WS) Security Tutorial with SOAP Example

SOAP vs. REST: Forskjell mellom Web API Services

Prinsipper for SOA (Service Oriented Architecture)

RESTful Web Services Tutorial med REST API-eksempel

API vs Web Service: Hva er forskjellen?

Topp- og bunnhalvdeler - CSS-triks

Serverer opp Universal IE 6-stilark - CSS-triks

Bruk Firebug i hvilken som helst nettleser - CSS-triks

Vis kilden til RSS-feed i Firefox CSS-triks

XHTML 1.0 STRICT Sidestruktur - CSS-triks