Hva er dataavstemming?
Data avstemming (DR) er definert som en prosess for verifisering av data under datamigrering. I denne prosessen sammenlignes måldata med kildedata for å sikre at overføringsarkitekturen overfører data. Datavalidering og avstemming (DVR) betyr en teknologi som bruker matematiske modeller for å behandle informasjon.
I denne veiledningen vil du lære,
- Hva er dataavstemming?
- Hvorfor er dataavstemming viktig?
- Terminologi assosiert med dataavstemming
- Historien om dataforlikning
- Dataforlikelsesprosess
- Beste fremgangsmåter for bruk av dataavstemming
- Data Avstemming Verktøy
Hvorfor er dataavstemming viktig?
I datamigrasjonsprosessen er det mulig for feil å bli gjort i kartleggings- og transformasjonslogikken. Problemer som kjøretidsfeil som nettverk frafall eller ødelagte transaksjoner kan ødelegge data.
Denne typen feil kan føre til at data blir stående i ugyldig tilstand. Disse kan skape en rekke problemer som:
- Mangler poster
- Manglende verdier
- Feil verdier
- Dupliserte poster
- Dårlig formaterte verdier
- Brutte forhold på tvers av tabeller eller systemer
Her er viktige grunner til å bruke dataforstemmelsesprosessen:
- Bruken av dataavstemming hjelper deg med å hente ut nøyaktig og pålitelig informasjon om tilstanden i bransjeprosessen fra rå måledata.
- Det hjelper deg også med å produsere et ensartet datasett som representerer den mest sannsynlige prosessoperasjonen.
- Det fører også til unøyaktig innsikt og problemer med kundeservice.
- Avstemming av data er også viktig for virksomhetskontrollintegrasjon.
Bortsett fra ovenfra er det mange fordeler / fordeler med dataavstemming.
Terminologi assosiert med dataavstemming
Grov feil | Grove feil i målinger. Det gjenspeiler bare forspenningsfeil, instrumentfeil eller unormale støypigger hvis du bare bruker en kort tids gjennomsnittsperiode. |
Observerbarhet | Observabilitetsanalyse kan gi deg detaljer om hvilke variabler som kan bestemmes for et gitt sett med begrensninger og et sett med målinger. |
Forskjell | Variasjon er et mål på variabelen til en sensor. |
Overflødighet | Det hjelper deg å bestemme hvilke målinger som skal estimeres fra andre variabler ved å bruke begrensningsligningene. |
Historien om dataforlikning
Her er viktige landemerker fra historien om dataforlikning.
- DVR (datavalidering og avstemming) startet tidlig på 1960-tallet. Det var rettet mot å lukke materialbalanser i produksjonen der rå målinger var tilgjengelige for alle variabler.
- På slutten av 1960-tallet ble alle de ikke-målte variablene vurdert i dataavstemningsprosessen.
- Quasi-steady state dynamikk for filtrering og parallell parameterestimering over tid ble introdusert i 1977 av Stanley og Mah.
- Dynamic DVR ble utviklet som en ikke-lineær optimaliseringsmodell som ble utgitt av Liebman i 1992
Dataforlikelsesprosess
Typer dataforlikningsmetoder er:
Master Data Avstemming
Master data avstemming er en teknikk for å avstemme bare master data mellom kilde og mål. Stamdata er stort sett uendret eller endrer seg sakte i naturen, og ingen aggregeringsoperasjon gjøres på datasettet.
Få vanlige eksempler på avstemming av stamdata er:
- Totalt antall rader
- Total kunde i kilde og mål
- Totalt antall varer i kilde og mål
- Totalt antall rader basert på gitt tilstand
- Antall aktive brukere
- Antall inaktive brukere etc.
Nøyaktighet av aktivitet
- Du må sørge for at transaksjonene er gyldige og er korrekte.
- Må sjekke om transaksjonene er godkjent på riktig måte.
Transaksjonell dataavstemming
Transaksjonsdata utgjør basen for BI-rapporter. Derfor kan ethvert misforhold i transaksjonsdata direkte påvirke påliteligheten til rapporten og hele BI-systemet generelt.
Transaksjonsdata-avstemmingsmetode brukes når det gjelder totalsummen som forhindrer misforhold forårsaket av endring av granulariteten til kvalifiserende dimensjoner.
Eksempler på tiltak som brukes for avstemming av transaksjonsdata bør være:
- Summen av total inntekt beregnet fra kilde og mål
- Summen av hele den solgte varen, beregnet fra kilde og mål, etc.
Automatisert dataavstemming:
I et stort datalagerstyringssystem er det praktisk å automatisere dataavstemmingsprosessen ved å gjøre dette som en integrert del av datainnlasting. Det lar deg vedlikeholde separate lasting av metadatatabeller. Videre vil automatisert avstemming holde alle interessenter informert om gyldigheten av rapportene.
Beste fremgangsmåter for bruk av dataavstemming
- Dataforlikningsprosessen bør være rettet mot riktige målefeil.
- Grove feil bør være null for å gjøre dataavstemmingsprosessen effektiv.
- Standardtilnærmingen til dataavstemming har avhengig av enkle opptellingsteller for å holde rede på om det målrettede antallet poster har migrert eller ikke.
- Dataoverføringsløsningen gir lignende avstemmingsfunksjoner og dataprototyping-funksjonalitet som gir full volum dataforstemmingstesting.
Data Avstemming Verktøy
1) OpenRefine
OpenRefine, som tidligere er kjent som Google Refine, er et nyttig rammeverk for databaseavstemming. Det lar deg rense og overføre rotete data.
Last ned lenke: https://openrefine.org/
2) TIBCO klarhet
Dette dataavstemningsverktøyet tilbyr programvaretjenester på forespørsel fra nettet i form av Software-as-a-service. Det lar brukerne validere dataene og rense dataene. Det gir komplette avstemmingstestfunksjoner. Mye brukt i ETL-prosessen.
Last ned lenke: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure er en rimelig og nøyaktig programvare for rengjøring av data. Det lar deg rense en stor mengde data, fjerne duplikater, korrigere og standardisere for å designe det endelige datasettet.
Last ned lenke: https://winpure.com/
Sammendrag
- Datavalidering og avstemming (DVR) er en teknologi som bruker matematiske modeller for å behandle informasjon.
- Bruken av dataavstemming hjelper deg med å hente ut nøyaktig og pålitelig informasjon om tilstanden i bransjeprosessen fra rå måledata.
- Grov feil, observerbarhet, avvik, redundans er viktige begreper som brukes i dataforlikelsesprosessen
- Datavalidering og forsoning startet tidlig på 1960-tallet.
- Tre typer dataavstemmingsmetoder er 1) stamdataavstemming 2) transaksjonsdataavstemming 3) automatisert dataavstemming
- Grove feil bør være null for å gjøre dataavstemmingsprosessen effektiv.
- Noen viktige verktøy for dataavstemming er: 1) OpenRefine 2) TIBCO 3) Winpure
- Denne metoden er mye brukt i ytelses- og prosessovervåking i oljeraffinering / kjernefysisk / kjemisk industri