Hva er ETL?
ETL er en forkortelse av Extract, Transform and Load. I denne prosessen trekker et ETL-verktøy ut dataene fra forskjellige RDBMS-kildesystemer, transformerer deretter dataene som å bruke beregninger, sammenkoblinger osv., Og laster deretter dataene inn i Data Warehouse-systemet.
I ETL strømmer data fra kilden til målet. I ETL-prosessen tar transformasjonsmotoren seg av eventuelle dataendringer.
Hva er ELT?
ELT er en annen metode for å se på verktøyets tilnærming til databevegelse. I stedet for å transformere dataene før de er skrevet, lar ELT målsystemet gjøre transformasjonen. Dataene ble først kopiert til målet og deretter transformert på plass.
ELT brukes vanligvis med ikke-SQL-databaser som Hadoop-klynge, dataenhet eller skyinstallasjon.
HOVEDFORSKJELL
- ETL står for Extract, Transform and Load mens ELT står for Extract, Load, Transform.
- ETL laster data først inn i staging-serveren og deretter i målsystemet, mens ELT laster data direkte inn i målsystemet.
- ETL-modellen brukes til lokale, relasjonelle og strukturerte data mens ELT brukes til skalerbare skystrukturerte og ustrukturerte datakilder.
- ETL brukes hovedsakelig for en liten datamengde, mens ELT brukes for store datamengder.
- ETL gir ikke data lake support mens ELT gir data lake support.
- ETL er lett å implementere, mens ELT krever nisjeferdigheter for å implementere og vedlikeholde.
Forskjellen mellom ETL og ELT
ETL- og ELT-prosessen er forskjellige i følgende parametere:
Parametere | ETL | ELT |
---|---|---|
Prosess | Data blir transformert på iscenesetter og deretter overført til Datawarehouse DB. | Data forblir i databladet til Datawarehouse. |
Kodebruk | Brukt til
| Brukes til store datamengder |
Transformasjon | Transformasjoner gjøres i ETL-server / staging-området. | Transformasjoner utføres i målsystemet |
Time-Load | Data først lastet inn i iscenesettelse og senere lastet inn i målsystemet. Tidskrevende. | Data lastet inn i målsystemet bare en gang. Raskere. |
Tidstransformasjon | ETL-prosessen må vente på at transformasjonen er fullført. Når datastørrelsen vokser, øker transformasjonstiden. | I ELT-prosessen er hastighet aldri avhengig av størrelsen på dataene. |
Tid - Vedlikehold | Det trenger høyt vedlikehold da du må velge data som skal lastes inn og transformeres. | Lite vedlikehold, ettersom data alltid er tilgjengelig. |
Implementeringskompleksitet | På et tidlig stadium, lettere å implementere. | For å implementere ELT-prosessen, bør organisering ha dyp kunnskap om verktøy og ekspertferdigheter. |
Støtte for datalager | ETL-modell brukt til lokale, relasjonelle og strukturerte data. | Brukes i skalerbar skyinfrastruktur som støtter strukturerte, ustrukturerte datakilder. |
Data Lake Support | Støtter ikke. | Tillater bruk av Data lake med ustrukturerte data. |
Kompleksitet | ETL-prosessen laster bare viktige data, som identifisert ved designtid. | Denne prosessen innebærer utvikling fra bakover-utgang og innlasting av bare relevante data. |
Koste | Høye kostnader for små og mellomstore bedrifter. | Lave inngangskostnader ved bruk av online programvare som serviceplattformer. |
Oppslag | I ETL-prosessen må både fakta og dimensjoner være tilgjengelige i iscenesettelsesområdet. | All data vil være tilgjengelig fordi ekstrakt og belastning skjer i en enkelt handling. |
Aggregasjoner | Kompleksiteten øker med den ekstra datamengden i datasettet. | Kraften til målplattformen kan behandle betydelig datamengde raskt. |
Beregninger | Overskriver eksisterende kolonne eller trenger å legge til datasettet og skyve til målplattformen. | Det er enkelt å legge til den beregnede kolonnen i den eksisterende tabellen. |
Modenhet | Prosessen er brukt i over to tiår. Det er godt dokumentert og best practices lett tilgjengelig. | Relativt nytt konsept og komplekst å implementere. |
Maskinvare | De fleste verktøy har unike maskinvarekrav som er dyre. | Å være Saas maskinvarekostnad er ikke et problem. |
Støtte for ustrukturerte data | Støtter hovedsakelig relasjonsdata | Støtte for ustrukturerte data som er lett tilgjengelige. |