Hva er faktor i R?
Faktor i R er en variabel som brukes til å kategorisere og lagre dataene, med et begrenset antall forskjellige verdier. Den lagrer dataene som en vektor av heltallverdier. Faktor i R er også kjent som en kategorisk variabel som lagrer både streng- og heltallverdier som nivåer. Faktor brukes mest i statistisk modellering og utforskende dataanalyse med R.
I et datasett kan vi skille mellom to typer variabler: kategorisk og kontinuerlig .
- I beskrivende statistikk for kategoriske variabler i R er verdien begrenset og vanligvis basert på en bestemt begrenset gruppe. For eksempel kan en kategorisk variabel i R være land, år, kjønn, yrke.
- En kontinuerlig variabel kan imidlertid ta alle verdier, fra heltall til desimal. For eksempel kan vi ha inntekt, pris på en aksje osv ...
Kategoriske variabler
Kategoriske variabler i R lagres i en faktor. La oss sjekke koden nedenfor for å konvertere en tegnvariabel til en faktorvariabel i R. Tegn støttes ikke i maskinlæringsalgoritmen, og den eneste måten er å konvertere en streng til et helt tall.
Syntaks
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argumenter:
- x : En vektor med kategoriske data i R. Trenger å være en streng eller et helt tall, ikke desimal.
- Nivåer : En vektor med mulige verdier tatt av x. Dette argumentet er valgfritt. Standardverdien er den unike listen over elementer i vektoren x.
- Etiketter : Legg til en etikett til de x kategoriske dataene i R. For eksempel kan 1 ta etiketten "hann" mens 0, etiketten "hunn".
- bestilt : Bestem om nivåene skal ordnes i kategoridata i R.
Eksempel:
La oss lage en faktor dataramme.
# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)
Produksjon:
## [1] "character"## [1] "factor"
Det er viktig å transformere en streng til faktorvariabel i R når vi utfører Machine Learning-oppgaven.
En kategorisk variabel i R kan deles inn i nominell kategorisk variabel og ordinal kategorisk variabel .
Nominell kategorisk variabel
En kategorisk variabel har flere verdier, men rekkefølgen spiller ingen rolle. For eksempel mann eller kvinne. Kategoriske variabler i R har ikke rekkefølge.
# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color
Produksjon:
## [1] blue red green white black yellow## Levels: black blue green red white yellow
Fra faktor_fargen kan vi ikke si noen ordre.
Ordinær kategorisk variabel
Ordinære kategoriske variabler har en naturlig rekkefølge. Vi kan spesifisere rekkefølgen, fra laveste til høyeste med ordre = SANT og høyest til laveste med ordre = FALSK.
Eksempel:
Vi kan bruke sammendrag til å telle verdiene for hver faktorvariabel i R.
# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day
Produksjon:
## [1] evening morning afternoon middaymidnight evening
Eksempel:
## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)
Produksjon:
## morning midday afternoon evening midnight## 1 1 1 2 1
R bestilte nivået fra 'morgen' til 'midnatt' som angitt i nivå parentes.
Kontinuerlige variabler
Kontinuerlige klassevariabler er standardverdien i R. De lagres som numerisk eller heltall. Vi kan se det fra datasettet nedenfor. mtcars er et innebygd datasett. Den samler informasjon om forskjellige biltyper. Vi kan importere den ved hjelp av mtcars og sjekke klassen til variabelen mpg, mile per gallon. Den returnerer en numerisk verdi som indikerer en kontinuerlig variabel.
dataset <- mtcarsclass(dataset$mpg)
Produksjon
## [1] "numeric"