Hva er R-programvare?
R er et programmeringsspråk og gratis programvare utviklet av Ross Ihaka og Robert Gentleman i 1993. R har en omfattende katalog med statistiske og grafiske metoder. Den inkluderer maskinlæringsalgoritmer, lineær regresjon, tidsserier, statistisk slutning for å nevne noen. De fleste av R-bibliotekene er skrevet i R, men for tunge beregningsoppgaver foretrekkes C, C ++ og Fortran-koder.
R er ikke bare betrodd av akademiske, men mange store selskaper bruker også R-programmeringsspråk, inkludert Uber, Google, Airbnb, Facebook og så videre.
Dataanalyse med R gjøres i en serie trinn; programmering, transformering, oppdagelse, modellering og formidling av resultatene
- Program : R er et tydelig og tilgjengelig programmeringsverktøy
- Transform : R består av en samling biblioteker designet spesielt for datavitenskap
- Oppdag : Undersøk dataene, avgrens hypotesen din og analyser dem
- Modell : R gir et bredt spekter av verktøy for å fange riktig modell for dataene dine
- Kommuniser : Integrer koder, grafer og utganger til en rapport med R Markdown eller bygg skinnende apper for å dele med verden
I denne introduksjonen lærer du R
- Hva brukes R til?
- R etter bransje
- R-pakke
- Kommuniser med R
- Hvorfor bruke R?
- Skal du velge R?
- Er R vanskelig?
Hva brukes R til?
- Statistisk slutning
- Dataanalyse
- Maskinlæringsalgoritme
R etter bransje
Hvis vi bryter ned bruken av R etter næring, ser vi at akademikere kommer først. R er et språk å gjøre statistikk. R er førstevalget i helsevesenet, etterfulgt av myndigheter og rådgivning.
R-pakke
Den primære bruken av R er og vil alltid være statistikk, visualisering og maskinlæring. Bildet nedenfor viser hvilken R-pakke som fikk flest spørsmål i Stack Overflow. På topp 10 er de fleste relatert til arbeidsflyten til en datavitenskapsmann: forberedelse av data og formidle resultatene.
Alle bibliotekene til R, nesten 12k, er lagret i CRAN. CRAN er en gratis og åpen kildekode. Du kan laste ned og bruke de mange bibliotekene til å utføre maskinlæring eller analyser av tidsserier.
Kommuniser med R
R har flere måter å presentere og dele arbeid på, enten gjennom et markdown-dokument eller en skinnende app. Alt kan være vert på Rpub, GitHub eller bedriftens nettside.
Nedenfor er et eksempel på en presentasjon på Rpub
Rstudio godtar markdown for å skrive et dokument. Du kan eksportere dokumentene i forskjellige formater:
- Dokument:
- HTML
- PDF / Latex
- Ord
- Presentasjon
- HTML
- PDF-beamer
Rstudio har et flott verktøy for å lage en app enkelt. Nedenfor er et eksempel på app med data fra Verdensbanken.
Hvorfor bruke R?
Datavitenskap er i ferd med å forme måten selskaper driver virksomheten på. Uten tvil vil holde seg borte fra kunstig intelligens og maskin føre til at selskapet mislykkes. Det store spørsmålet er hvilket verktøy / språk du bør bruke?
De er mange verktøy tilgjengelig i markedet for å utføre dataanalyse. Å lære et nytt språk krever litt tid. Bildet nedenfor viser læringskurven i forhold til forretningsevnen et språk tilbyr. Det negative forholdet innebærer at det ikke er gratis lunsj. Hvis du vil gi best mulig innsikt fra dataene, må du bruke litt tid på å lære det riktige verktøyet, som er R.
Øverst til venstre i grafen kan du se Excel og PowerBI. Disse to verktøyene er enkle å lære, men tilbyr ikke enestående forretningsevne, spesielt når det gjelder modellering. I midten kan du se Python og SAS. SAS er et dedikert verktøy for å kjøre en statistisk analyse for virksomheten, men det er ikke gratis. SAS er en klikk-og-kjør programvare. Python er imidlertid et språk med en ensformig læringskurve. Python er et fantastisk verktøy for å distribuere Machine Learning og AI, men mangler kommunikasjonsfunksjoner. Med en identisk læringskurve er R en god avveining mellom implementering og dataanalyse.
Når det gjelder datavisualisering (DataViz), ville du sannsynligvis hørt om Tableau. Tableau er uten tvil et flott verktøy for å oppdage mønstre gjennom grafer og diagrammer. Dessuten er det ikke tidkrevende å lære Tableau. Et stort problem med datavisualisering er at du kanskje ender med å aldri finne et mønster eller bare lage mange ubrukelige diagrammer. Tableau er et godt verktøy for rask visualisering av data eller Business Intelligence. Når det gjelder statistikk og beslutningsverktøy, er R mer passende.
Stack Overflow er et stort fellesskap for programmeringsspråk. Hvis du har et kodingsproblem eller trenger å forstå en modell, er Stack Overflow her for å hjelpe. I løpet av året har andelen spørsmålssynspunkter økt kraftig for R sammenlignet med de andre språkene. Denne trenden er selvfølgelig sterkt korrelert med datavitenskapens blomstrende alder, men den gjenspeiler kravet til R-språk for datavitenskap.
Innen datavitenskap er det to verktøy som konkurrerer med hverandre. R og Python er sannsynligvis programmeringsspråket som definerer datavitenskap.
Skal du velge R?
Dataforsker kan bruke to gode verktøy: R og Python. Du har kanskje ikke tid til å lære dem begge, spesielt hvis du kommer i gang med å lære datavitenskap. Læring av statistisk modellering og algoritmeer langt viktigere enn å lære et programmeringsspråk. Et programmeringsspråk er et verktøy for å beregne og kommunisere oppdagelsen din. Den viktigste oppgaven innen datavitenskap er måten du håndterer dataene på: import, ren, prep, funksjonsteknikk, funksjonsvalg. Dette bør være ditt primære fokus. Hvis du prøver å lære R og Python samtidig uten en solid bakgrunn i statistikk, er det ganske dumt. Dataforsker er ikke programmerere. Deres jobb er å forstå dataene, manipulere dem og avsløre den beste tilnærmingen. Hvis du tenker på hvilket språk du skal lære, la oss se hvilket språk som passer best for deg.
Hovedmålgruppen for datavitenskap er forretningsfaglig. I virksomheten er kommunikasjon en stor implikasjon. Det er mange måter å kommunisere på: rapport, webapp, dashbord. Du trenger et verktøy som gjør alt dette sammen.
Er R vanskelig?
For mange år siden var R et vanskelig språk å mestre. Språket var forvirrende og ikke så strukturert som de andre programmeringsverktøyene. For å overvinne dette store problemet utviklet Hadley Wickham en samling pakker kalt tidyverse. Spillets regel endret seg på det beste. Datamanipulering blir trivielt og intuitivt. Å lage en graf var ikke så vanskelig lenger.
De beste algoritmene for maskinlæring kan implementeres med R. Pakker som Keras og TensorFlow tillater å lage high-end maskinlæringsteknikk. R har også en pakke for å utføre Xgboost, en av de beste algoritmene for Kaggle-konkurranser.
R kan kommunisere med det andre språket. Det er mulig å ringe Python, Java, C ++ i R. World of big data er også tilgjengelig for R. Du kan koble R til forskjellige databaser som Spark eller Hadoop.
Til slutt har R utviklet seg og tillatt parallellisering for å øke hastigheten på beregningen. Faktisk ble R kritisert for å bare bruke en CPU om gangen. Parallellpakken lar deg utføre oppgaver i forskjellige kjerner på maskinen.
Sammendrag
I et nøtteskall er R et flott verktøy for å utforske og undersøke dataene. Utførlig analyse som klynging, korrelasjon og datareduksjon gjøres med R. Dette er den mest avgjørende delen, uten god funksjonsteknikk og modell, vil ikke distribusjonen av maskinlæringen gi meningsfulle resultater.