Før du går til introduksjon til Big Data, må du først vite det
Hva er data?
Mengdene, tegnene eller symbolene som operasjoner utføres av en datamaskin, som kan lagres og overføres i form av elektriske signaler og registreres på magnetiske, optiske eller mekaniske opptaksmedier.
La oss nå introdusere Big Data
Hva er Big Data?
Big Data er en samling data som er enorm i volum, men som vokser eksponentielt med tiden. Det er data med så stor størrelse og kompleksitet at ingen av tradisjonelle dataadministrasjonsverktøy kan lagre eller behandle dem effektivt. Big data er også data, men med enorm størrelse.
I denne veiledningen vil du lære,
- Hva er data?
- Hva er Big Data?
- Eksempler på store data
- Typer Big Data
- Kjennetegn ved store data
- Fordeler med stor databehandling
Eksempler på store data
Følgende er noen av Big Data-eksemplene -
The New York Stock Exchange genererer om en terabyte av nye handels data per dag.
Sosiale medier
Statistikken viser at 500+ terabyte med nye data blir inntatt i databasene til sosiale medier Facebook , hver dag. Disse dataene genereres hovedsakelig når det gjelder opplasting av bilder og videoer, meldingsutveksling, kommentarer osv.
En enkelt Jet-motor kan generere 10 + terabyte data på 30 minutters flytid. Med mange tusen flyreiser per dag når generering av data opp til mange petabyte.
Typer Big Data
Følgende er typer Big Data:
- Strukturert
- Ustrukturert
- Halvstrukturert
Strukturert
Alle data som kan lagres, åpnes og behandles i form av fast format, blir betegnet som en 'strukturert' data. I løpet av tidsperioden har talent innen informatikk oppnådd større suksess med å utvikle teknikker for å jobbe med en slik type data (der formatet er kjent på forhånd) og også utlede verdi av det. Imidlertid forutser vi i dag problemer når en størrelse på slike data vokser i stor grad, typiske størrelser er i raseri av flere zettabyte.
Vet du? 10 21 byte lik 1 zettabyte eller en milliard terabyte danner en zettabyte .
Når man ser på disse figurene, kan man lett forstå hvorfor navnet Big Data er gitt og forestille seg utfordringene som er lagret og behandlet.
Vet du? Data lagret i et relasjonelt databasestyringssystem er et eksempel på en 'strukturert' data.
Eksempler på strukturerte data
En 'ansatt'-tabell i en database er et eksempel på strukturerte data
Ansatt ID | Arbeidstakers navn | Kjønn | Avdeling | Lønn_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Mann | Finansiere | 650000 |
3398 | Pratibha Joshi | Hunn | Administrator | 650000 |
7465 | Shushil Roy | Mann | Administrator | 500000 |
7500 | Shubhojit Das | Mann | Finansiere | 500000 |
7699 | Priya Sane | Hunn | Finansiere | 550000 |
Ustrukturert
Alle data med ukjent form eller struktur er klassifisert som ustrukturerte data. I tillegg til at størrelsen er enorm, gir ikke-strukturerte data flere utfordringer når det gjelder behandlingen for å hente verdi ut av den. Et typisk eksempel på ustrukturerte data er en heterogen datakilde som inneholder en kombinasjon av enkle tekstfiler, bilder, videoer osv. Nå har organisasjoner vell av data tilgjengelig med dem, men dessverre vet de ikke hvordan de kan hente verdi ut av det siden disse dataene er i rå form eller ustrukturert format.
Eksempler på ustrukturerte data
Resultatet returneres av 'Google Søk'
Halvstrukturert
Semistrukturerte data kan inneholde begge formene for data. Vi kan se semistrukturerte data som en strukturert form, men det er faktisk ikke definert med f.eks. En tabelldefinisjon i relasjonell DBMS. Eksempel på semistrukturerte data er data representert i en XML-fil.
Eksempler på semistrukturerte data
Personlige data lagret i en XML-fil-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Datavekst gjennom årene
Vær oppmerksom på at webapplikasjonsdata, som er ustrukturerte, består av loggfiler, transaksjonshistorikkfiler osv. OLTP-systemer er bygget for å fungere med strukturerte data der data lagres i relasjoner (tabeller).
Kjennetegn ved store data
Big data kan beskrives ved følgende egenskaper:
- Volum
- Variasjon
- Hastighet
- Variasjon
(i) Volum - Selve navnet Big Data er relatert til en størrelse som er enorm. Datastørrelse spiller en veldig avgjørende rolle for å bestemme verdien ut av data. Om bestemte data faktisk kan betraktes som store data eller ikke, er også avhengig av datamengden. Derfor er 'Volum' en egenskap som må vurderes når du arbeider med Big Data.
(ii) Variasjon - Det neste aspektet av Big Data er dens variasjon .
Variasjon refererer til heterogene kilder og naturen til data, både strukturerte og ustrukturerte. Tidligere dager var regneark og databaser de eneste datakildene som ble vurdert av de fleste applikasjonene. I dag vurderes også data i form av e-post, bilder, videoer, overvåkingsenheter, PDF-filer, lyd osv. I analysesøknadene. Denne variasjonen av ustrukturerte data gir visse problemer for lagring, gruvedrift og analyse av data.
(iii) Hastighet - Begrepet 'hastighet' refererer til hastigheten for generering av data. Hvor raskt dataene genereres og behandles for å imøtekomme kravene, avgjør det virkelige potensialet i dataene.
Big Data Velocity håndterer hastigheten som data strømmer inn fra kilder som forretningsprosesser, applikasjonslogger, nettverk og sosiale medier, sensorer, mobile enheter osv. Datastrømmen er massiv og kontinuerlig.
(iv) Variabilitet - Dette refererer til inkonsekvensen som kan vises av dataene til tider, og dermed hindrer prosessen med å kunne håndtere og administrere dataene effektivt.
Fordeler med Big Data Processing
Evnen til å behandle Big Data gir flere fordeler, for eksempel-
- Bedrifter kan bruke ekstern intelligens mens de tar beslutninger
Tilgang til sosiale data fra søkemotorer og nettsteder som facebook, twitter gjør det mulig for organisasjoner å finjustere sine forretningsstrategier.
- Forbedret kundeservice
Tradisjonelle tilbakemeldingssystemer fra kunder blir erstattet av nye systemer designet med Big Data-teknologier. I disse nye systemene blir Big Data og naturlige språkbehandlingsteknologier brukt til å lese og evaluere forbrukernes respons.
- Tidlig identifisering av risiko for produktet / tjenestene, hvis noen
- Bedre driftseffektivitet
Big Data-teknologier kan brukes til å lage et iscenesettingsområde eller landingssone for nye data før du identifiserer hvilke data som skal flyttes til datalageret. I tillegg hjelper en slik integrering av Big Data-teknologier og datalager en organisasjon til å laste ut sjeldent tilgjengelige data.
Sammendrag
- Big Data-definisjon: Big Data er definert som data som har enorm størrelse. Bigdata er et begrep som brukes til å beskrive en innsamling av data som er enorme i størrelse og som likevel vokser eksponentielt med tiden.
- Eksempler på Big Data-analyse inkluderer børser, sosiale mediasider, jetmotorer, etc.
- Big Data kan være 1) strukturert, 2) ustrukturert, 3) semistrukturert
- Volum, variasjon, hastighet og variabilitet er få Big Data-egenskaper
- Forbedret kundeservice, bedre driftseffektivitet, bedre beslutningstaking er få fordeler med Bigdata