Datavarehusarkitektur, konsepter og komponenter

Innholdsfortegnelse:

Anonim

Data Warehouse Concepts

Det grunnleggende konseptet med et datavarehus er å legge til rette for en enkelt versjon av sannheten for et selskap for beslutningstaking og prognoser. Et datalager er et informasjonssystem som inneholder historiske og kommutative data fra enkelt eller flere kilder. Data Warehouse Concepts forenkler rapporterings- og analyseprosessen til organisasjoner.

Kjennetegn ved datalager

Data Warehouse Concepts har følgende egenskaper:

  • Fagorientert
  • Integrert
  • Tidsvariant
  • Ikke-flyktig

Fagorientert

Et datalager er emneorientert ettersom det tilbyr informasjon om et tema i stedet for bedriftens løpende drift. Disse fagene kan være salg, markedsføring, distribusjoner, etc.

Et datalager fokuserer aldri på den pågående driften. I stedet la den vekt på modellering og analyse av data for beslutningstaking . Det gir også en enkel og kortfattet oversikt rundt det spesifikke emnet ved å ekskludere data som ikke er nyttige for å støtte beslutningsprosessen.

Integrert

I Data Warehouse betyr integrasjon etablering av en felles måleenhet for alle lignende data fra den forskjellige databasen. Dataene må også lagres i Datawarehouse på vanlig og allment akseptabel måte.

Et datalager er utviklet ved å integrere data fra forskjellige kilder som en hovedramme, relasjonsdatabaser, flate filer osv. Videre må den holde konsekvente navngivningskonvensjoner, format og koding.

Denne integrasjonen hjelper til med effektiv analyse av data. Konsistens i navngivningskonvensjoner, attributtmål, kodingsstruktur osv. Må sikres. Tenk på følgende eksempel:

I eksemplet ovenfor er det tre forskjellige applikasjoner merket A, B og C. Informasjon lagret i disse applikasjonene er kjønn, dato og balanse. Hver applikasjons data lagres imidlertid på annen måte.

  • I applikasjon lagrer kjønnsfelt logiske verdier som M eller F
  • I applikasjon B er kjønnsfelt en numerisk verdi,
  • I applikasjon C-applikasjon lagres kjønnsfelt i form av en tegnverdi.
  • Det samme er tilfelle med dato og saldo

Imidlertid lagres alle disse dataene i vanlig format i datalageret etter transformasjon og rengjøringsprosess.

Tidsvariant

Tidshorisonten for datalager er ganske omfattende sammenlignet med driftssystemer. Dataene som samles inn i et datalager er anerkjent med en bestemt periode og gir informasjon fra historisk synspunkt. Den inneholder et element av tid, eksplisitt eller implisitt.

Et slikt sted der Datawarehouse-data viser tidsavvik, er i strukturen til postnøkkelen. Hver primærnøkkel i DW skal ha implisitt eller eksplisitt et tidselement. Som dagen, ukemåneden osv.

Et annet aspekt av tidsavvik er at når data er satt inn i lageret, kan de ikke oppdateres eller endres.

Ikke-flyktig

Datalager er også ikke-flyktig, betyr at tidligere data ikke slettes når nye data blir lagt inn i det.

Data er skrivebeskyttet og oppdateres med jevne mellomrom. Dette hjelper også til å analysere historiske data og forstå hva og når som skjedde. Det krever ikke transaksjonsprosesser, gjenoppretting og samtidighetskontrollmekanismer.

Aktiviteter som sletting, oppdatering og innsetting som utføres i et operativt applikasjonsmiljø er utelatt i Data warehouse-miljøet. Bare to typer datahandlinger utført i datalageret er

  1. Datainnlasting
  2. Datatilgang

Her er noen store forskjeller mellom Application og Data Warehouse

Operasjonell applikasjon Datavarehus
Kompleks program må være kodet for å sikre at dataoppgraderingsprosesser opprettholder høy integritet av sluttproduktet. Denne typen problemer skjer ikke fordi dataoppdatering ikke utføres.
Data plasseres i normalisert form for å sikre minimal redundans. Data lagres ikke i normalisert form.
Teknologien som trengs for å støtte spørsmål om transaksjoner, datagjenoppretting, tilbakeføring og oppløsning, da dens fastlåst tilstand er ganske kompleks. Det gir relativt enkel teknologi.

Datavarehusarkitektur

Data Warehouse Architecture er kompleks ettersom det er et informasjonssystem som inneholder historiske og kommutative data fra flere kilder. Det er tre tilnærminger for å konstruere lagring av datavarehus: Single Tier, Two Tier og Three Tier. Denne 3-lags arkitekturen til Data Warehouse er forklart som nedenfor.

En-lags arkitektur

Målet med et enkelt lag er å minimere datamengden som er lagret. Dette målet er å fjerne dataredundans. Denne arkitekturen brukes ikke ofte i praksis.

To-lags arkitektur

To-lags arkitektur er et av Data Warehouse-lagene som skiller fysisk tilgjengelige kilder og datalager. Denne arkitekturen kan ikke utvides og støtter heller ikke et stort antall sluttbrukere. Det har også tilkoblingsproblemer på grunn av nettverksbegrensninger.

Tre-lags datalagerarkitektur

Dette er den mest brukte Architecture of Data Warehouse.

Den består av topp-, mellom- og bunnnivå.

  1. Bottom Tier: Databasen til Datawarehouse-serverne som bunnnivå. Det er vanligvis et relasjonelt databasesystem. Data blir renset, transformert og lastet inn i dette laget ved hjelp av back-end verktøy.
  2. Middle Tier: Middle tier i Data warehouse er en OLAP-server som implementeres ved hjelp av enten ROLAP- eller MOLAP-modellen. For en bruker presenterer dette applikasjonsnivået et abstrakt syn på databasen. Dette laget fungerer også som en formidler mellom sluttbrukeren og databasen.
  3. Toppnivå: Toppnivået er et frontend-klientlag. Toppnivå er verktøyene og API-et som du kobler til og henter data fra datalageret. Det kan være spørringsverktøy, rapporteringsverktøy, administrerte spørringsverktøy, analyseverktøy og data mining verktøy.

Datawarehouse-komponenter

Vi vil lære om Datawarehouse Components and Architecture of Data Warehouse med diagram som vist nedenfor:

Datavarehusarkitektur

Data Warehouse er basert på en RDBMS-server som er et sentralt informasjonslager som er omgitt av noen viktige Data Warehousing-komponenter for å gjøre hele miljøet funksjonelt, håndterbart og tilgjengelig.

Det er hovedsakelig fem datavarehuskomponenter:

Datalagerdatabase

Den sentrale databasen er grunnlaget for datalagermiljøet. Denne databasen er implementert på RDBMS-teknologien. Selv om denne typen implementering er begrenset av det faktum at tradisjonelt RDBMS-system er optimalisert for transaksjonell databasebehandling og ikke for datalagring. For eksempel ad-hoc-spørring, flertabell sammenføyning, aggregater er ressurskrevende og reduserer ytelsen.

Derfor brukes alternative tilnærminger til database som listet opp nedenfor -

  • I et datawarehouse distribueres relasjonsdatabaser parallelt for å muliggjøre skalerbarhet. Parallelle relasjonsdatabaser tillater også delt minne eller delt ingenting-modell på forskjellige prosessorkonfigurasjoner eller massivt parallelle prosessorer.
  • Nye indeksstrukturer brukes til å omgå relasjonstabellskanning og forbedre hastigheten.
  • Bruk av flerdimensjonal database (MDDB) for å overvinne eventuelle begrensninger som er plassert på grunn av de relasjonelle datavarehusmodellene. Eksempel: Essbase fra Oracle.

Sourcing, Acquisition, Clean-up and Transformation Tools (ETL)

Verktøyene for datainnsamling, transformasjon og migrering brukes til å utføre alle konverteringer, oppsummeringer og alle endringene som trengs for å transformere data til et enhetlig format i datalageret. De blir også kalt Extract, Transform and Load (ETL) Tools.

Funksjonaliteten inkluderer:

  • Anonymiser data i henhold til forskriftsbestemmelser.
  • Eliminerer uønskede data i operasjonelle databaser fra å lastes inn i Data warehouse.
  • Søk og erstatt vanlige navn og definisjoner for data som kommer fra forskjellige kilder.
  • Beregning av sammendrag og avledede data
  • Hvis du mangler data, fyll dem ut med standardinnstillinger.
  • De-dupliserte gjentatte data som kommer fra flere datakilder.

Disse ekstraherings-, transformasjons- og lasteverktøyene kan generere cron-jobber, bakgrunnsjobber, Cobol-programmer, shell-skript osv. Som regelmessig oppdaterer data i datawarehouse. Disse verktøyene er også nyttige for å vedlikeholde metadataene.

Disse ETL-verktøyene må takle utfordringer med heterogenitet i databaser og data.

Metadata

Navnet Meta Data antyder noen teknologiske data Warehousing-konsepter på høyt nivå. Det er imidlertid ganske enkelt. Metadata er data om data som definerer datalageret. Den brukes til å bygge, vedlikeholde og administrere datalageret.

I datavarehusarkitekturen spiller metadata en viktig rolle da den spesifiserer kilden, bruken, verdiene og funksjonene til datalagerdataene. Den definerer også hvordan data kan endres og behandles. Det er nært knyttet til datalageret.

For eksempel kan en linje i salgsdatabasen inneholde:

4030 KJ732 299.90

Dette er meningsløse data før vi konsulterer Meta som forteller oss at det var det

  • Modellnummer: 4030
  • Salgsagent-ID: KJ732
  • Totalt salgsbeløp på $ 299,90

Derfor er Meta Data essensielle ingredienser i transformasjonen av data til kunnskap.

Metadata hjelper deg med å svare på følgende spørsmål

  • Hvilke tabeller, attributter og nøkler inneholder datavarehuset?
  • Hvor kom dataene fra?
  • Hvor mange ganger lastes data på nytt?
  • Hvilke transformasjoner ble påført med rensing?

Metadata kan klassifiseres i følgende kategorier:

  1. Tekniske metadata : Denne typen metadata inneholder informasjon om lager som brukes av datalagerdesignere og administratorer.
  2. Forretningsmetadata: Denne typen metadata inneholder detaljer som gir sluttbrukere en måte som er lett å forstå informasjon som er lagret i datalageret.

Spørringsverktøy

Et av de viktigste formålene med datalagring er å gi informasjon til bedrifter for å ta strategiske beslutninger. Spørringsverktøy tillater brukere å samhandle med datalagersystemet.

Disse verktøyene faller inn i fire forskjellige kategorier:

  1. Spørrings- og rapporteringsverktøy
  2. Verktøy for applikasjonsutvikling
  3. Data mining verktøy
  4. OLAP-verktøy

1. Spørrings- og rapporteringsverktøy:

Spørrings- og rapporteringsverktøy kan deles inn i

  • Rapporteringsverktøy
  • Administrerte søkeverktøy

Rapporteringsverktøy:

Rapporteringsverktøy kan videre deles inn i produksjonsrapporteringsverktøy og skrivebordsrapportforfatter.

  1. Rapporter forfattere: Denne typen rapporteringsverktøy er verktøy designet for sluttbrukere for analysen.
  2. Produksjonsrapportering: Denne typen verktøy gjør det mulig for organisasjoner å generere regelmessige operasjonsrapporter. Den støtter også store volumjobber som utskrift og beregning. Noen populære rapporteringsverktøy er Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Administrerte søkeverktøy:

Denne typen tilgangsverktøy hjelper sluttbrukere med å løse problemer i database og SQL og databasestruktur ved å sette inn metalag mellom brukere og database.

2. Verktøy for applikasjonsutvikling:

Noen ganger tilfredsstiller ikke innebygde grafiske og analytiske verktøy en organisasjons analytiske behov. I slike tilfeller utvikles tilpassede rapporter ved hjelp av verktøy for applikasjonsutvikling.

3. Data mining verktøy:

Data mining er en prosess for å oppdage meningsfull ny korrelasjon, patens og trender ved å utvinne store mengder data. Data mining verktøy brukes til å gjøre denne prosessen automatisk.

4. OLAP-verktøy:

Disse verktøyene er basert på konsepter i en flerdimensjonal database. Det lar brukerne analysere dataene ved hjelp av forseggjorte og komplekse flerdimensjonale visninger.

Datalager Bussarkitektur

Data warehouse Bus bestemmer datastrømmen i lageret ditt. Dataflyten i et datalager kan kategoriseres som Inflow, Upflow, Downflow, Outflow og Meta flow.

Mens du designer en databuss, må du ta hensyn til de delte dimensjonene, fakta på tvers av datamarts.

Data Marts

En datamart er et tilgangslag som brukes til å få data ut til brukerne. Det presenteres som et alternativ for stort datalager, da det tar mindre tid og penger å bygge. Imidlertid er det ingen standard definisjon av en datamart som er forskjellig fra person til person.

I et enkelt ord er Data mart et datterselskap av et datalager. Datamart brukes til partisjon av data som er opprettet for den spesifikke brukergruppen.

Data marts kan opprettes i samme database som Datawarehouse eller en fysisk separat database.

Beste praksis for datalagerarkitektur

For å designe datavarehusarkitektur, må du følge de beste fremgangsmåtene nedenfor:

  • Bruk datavarehusmodeller som er optimalisert for informasjonsinnhenting, som kan være dimensjonal modus, denormalisert eller hybrid tilnærming.
  • Velg riktig designtilnærming som tilnærming ovenfra og ned i Data Warehouse
  • Trenger å forsikre deg om at data behandles raskt og nøyaktig. Samtidig bør du ta en tilnærming som konsoliderer data til en enkelt versjon av sannheten.
  • Utform datainnsamlings- og renseprosessen for datalager nøye.
  • Design en MetaData-arkitektur som gjør det mulig å dele metadata mellom komponenter i Data Warehouse
  • Vurder å implementere en ODS-modell når informasjonsinnhentingsbehov er nær bunnen av dataabstraheringspyramiden, eller når det er flere operasjonelle kilder som kreves for å få tilgang til.
  • Man bør sørge for at datamodellen er integrert og ikke bare konsolidert. I så fall bør du vurdere 3NF datamodell. Det er også ideelt for anskaffelse av ETL- og datarensingsverktøy

Sammendrag:

  • Data warehouse er et informasjonssystem som inneholder historiske og kommutative data fra enkelt eller flere kilder. Disse kildene kan være tradisjonelt datavarehus, sky datavarehus eller virtuelt datavarehus.
  • Et datalager er emneorientert ettersom det tilbyr informasjon om emnet i stedet for organisasjonens pågående virksomhet.
  • I Data Warehouse betyr integrering etablering av en felles måleenhet for alle lignende data fra de forskjellige databasene
  • Datalager er også ikke-flyktig, betyr at tidligere data ikke slettes når nye data blir lagt inn i det.
  • Et Datawarehouse er tidsvariant da dataene i en DW har høy holdbarhet.
  • Det er hovedsakelig 5 komponenter av Data Warehouse Architecture: 1) Database 2) ETL Tools 3) Meta Data 4) Query Tools 5) DataMarts
  • Dette er fire hovedkategorier med søkeverktøy 1. Spørring og rapportering, verktøy 2. Applikasjonsutviklingsverktøy, 3. Data mining verktøy 4. OLAP verktøy
  • Verktøyene for datainnsamling, transformasjon og migrering brukes til å utføre alle konverteringer og oppsummeringer.
  • I datavarehusarkitekturen spiller metadata en viktig rolle da den spesifiserer kilden, bruken, verdiene og funksjonene til datalagerdataene.