Overvåket maskinlæring: Hva er, algoritmer, eksempel

Hva er tilsyn med maskinlæring?

I Overvåket læring trener du maskinen ved hjelp av data som er godt "merket ." Det betyr at noen data allerede er merket med riktig svar. Det kan sammenlignes med læring som foregår i nærvær av en veileder eller en lærer.

En overvåket læringsalgoritme lærer av merkede opplæringsdata, hjelper deg med å forutsi resultater for uforutsette data.

Å lykkes med å bygge, skalere og distribuere nøyaktige tilsyn med maskinlæringsmodeller tar tid og teknisk ekspertise fra et team av dyktige dataforskere. Videre må dataforsker bygge opp modeller for å sikre at den gitte innsikten forblir sant til dataene endres.

I denne opplæringen lærer du:

  • Hva er tilsyn med maskinlæring?
  • Hvordan fungerer veiledet læring
  • Typer overvåket maskinlæringsalgoritmer
  • Overvåket vs Uovervåket maskinlæringsteknikk
  • Utfordringer i tilsyn med maskinlæring
  • Fordeler med veiledet læring:
  • Ulemper ved veiledet læring
  • Beste praksis for veiledet læring

Hvordan fungerer veiledet læring

For eksempel vil du trene en maskin for å hjelpe deg med å forutsi hvor lang tid det vil ta deg å kjøre hjem fra arbeidsplassen din. Her begynner du med å lage et sett med merkede data. Disse dataene inkluderer

  • Værforhold
  • Tid på dagen
  • Ferier

Alle disse detaljene er dine innganger. Resultatet er hvor lang tid det tok å kjøre hjem den spesifikke dagen.

Du vet instinktivt at hvis det regner ute, vil det ta lenger tid å kjøre hjem. Men maskinen trenger data og statistikk.

La oss nå se hvordan du kan utvikle en overvåket læringsmodell for dette eksemplet som hjelper brukeren å bestemme pendlingstiden. Det første du trenger for å lage er et treningssett. Dette treningssettet vil inneholde total pendeltid og tilhørende faktorer som vær, tid osv. Basert på dette treningssettet, kan maskinen din se at det er et direkte forhold mellom mengden regn og tid det tar å komme hjem.

Så det konstaterer at jo mer det regner, jo lenger vil du kjøre for å komme tilbake til hjemmet ditt. Det kan også se sammenhengen mellom tiden du forlater jobben og tiden du er på veien.

Jo nærmere du er 18.00, jo lenger tid tar det før du kommer hjem. Maskinen din kan finne noen av forholdene til de merkede dataene dine.

Dette er starten på datamodellen din. Det begynner å påvirke hvordan regn påvirker måten folk kjører på. Det begynner også å se at flere reiser i løpet av en bestemt tid på dagen.

Typer overvåket maskinlæringsalgoritmer

Regresjon:

Regresjonsteknikk forutsier en enkelt utgangsverdi ved hjelp av treningsdata.

Eksempel : Du kan bruke regresjon til å forutsi boligprisen fra treningsdata. Inngangsvariablene vil være lokalitet, størrelse på et hus osv.

Styrker : Outputs har alltid en sannsynlig tolkning, og algoritmen kan reguleres for å unngå overmontering.

Svakheter : Logistisk regresjon kan underprestere når det er flere eller ikke-lineære beslutningsgrenser. Denne metoden er ikke fleksibel, så den fanger ikke mer komplekse forhold.

Logistisk regresjon:

Logistisk regresjonsmetode brukt til å estimere diskrete verdier basert på gitt et sett med uavhengige variabler. Det hjelper deg å forutsi sannsynligheten for at en hendelse skal forekomme ved å tilpasse data til en logit-funksjon. Derfor er det også kjent som logistisk regresjon. Som det forutsier sannsynligheten, ligger utgangsverdien mellom 0 og 1.

Her er noen få typer regresjonsalgoritmer

Klassifisering:

Klassifisering betyr å gruppere utdataene i en klasse. Hvis algoritmen prøver å merke inngang i to forskjellige klasser, kalles det binær klassifisering. Å velge mellom mer enn to klasser kalles multiklasseklassifisering.

Eksempel : Bestemme om noen vil være mislighold av lånet eller ikke.

Styrker : Klassifiseringstreet fungerer veldig bra i praksis

Svakheter : Ubegrensede, individuelle trær er utsatt for overmontering.

Her er noen få typer klassifiseringsalgoritmer

Naive Bayes-klassifiserere

Naïve Bayesian-modell (NBN) er enkel å bygge og veldig nyttig for store datasett. Denne metoden er sammensatt av direkte asykliske grafer med en forelder og flere barn. Den forutsetter uavhengighet blant barnekoder skilt fra foreldrene.

Beslutningstrær

Beslutningstrær klassifiserer forekomst ved å sortere dem basert på funksjonsverdien. I denne metoden er hver modus funksjonen til en forekomst. Den skal klassifiseres, og hver gren representerer en verdi som noden kan anta. Det er en mye brukt teknikk for klassifisering. I denne metoden er klassifisering et tre som er kjent som et beslutningstre.

Det hjelper deg å estimere reelle verdier (kostnad for å kjøpe bil, antall samtaler, totalt månedlig salg osv.).

Support Vector Machine

Support vector machine (SVM) er en type læringsalgoritme utviklet i 1990. Denne metoden er basert på resultater fra statistisk læringsteori introdusert av Vap Nik.

SVM-maskiner er også nært knyttet til kjernefunksjoner, som er et sentralt konsept for de fleste læringsoppgaver. Kjernerammen og SVM brukes i en rekke felt. Det inkluderer multimediainformasjonsinnhenting, bioinformatikk og mønstergjenkjenning.

Overvåket vs Uovervåket maskinlæringsteknikk

Basert på Overvåket maskinlæringsteknikk Uovervåket maskinlæringsteknikk
Inndata Algoritmer blir trent ved hjelp av merkede data. Algoritmer brukes mot data som ikke er merket
Computational Complexity Veiledet læring er en enklere metode. Uovervåket læring er beregningsmessig kompleks
Nøyaktighet Svært nøyaktig og pålitelig metode. Mindre nøyaktig og pålitelig metode.

Utfordringer i tilsyn med maskinlæring

Her står utfordringene i overvåket maskinlæring:

  • Irrelevante inngangsfunksjoner, nåværende treningsdata, kan gi unøyaktige resultater
  • Dataforberedelse og forbehandling er alltid en utfordring.
  • Nøyaktighet lider når umulige, usannsynlige og ufullstendige verdier er lagt inn som treningsdata
  • Hvis den aktuelle eksperten ikke er tilgjengelig, er den andre tilnærmingen "brute-force." Det betyr at du må tenke at de riktige funksjonene (inputvariabler) for å trene maskinen på. Det kan være unøyaktig.

Fordeler med veiledet læring:

  • Overvåket læring lar deg samle inn data eller produsere datautdata fra forrige erfaring
  • Hjelper deg med å optimalisere ytelseskriterier ved hjelp av erfaring
  • Overvåket maskinlæring hjelper deg med å løse ulike typer virkelige beregningsproblemer.

Ulemper ved veiledet læring

  • Beslutningsgrensen kan bli overtrent hvis treningssettet ditt ikke har eksempler du vil ha i en klasse
  • Du må velge mange gode eksempler fra hver klasse mens du trener klassifisereren.
  • Klassifisering av big data kan være en reell utfordring.
  • Opplæring for veiledet læring trenger mye beregningstid.

Beste praksis for veiledet læring

  • Før du gjør noe annet, må du bestemme hva slags data som skal brukes som et treningssett
  • Du må bestemme strukturen til den lærte funksjonen og læringsalgoritmen.
  • Få tilsvarende resultater enten fra menneskelige eksperter eller fra målinger

Sammendrag

  • I Overvåket læring trener du maskinen ved hjelp av data som er godt "merket."
  • Du vil trene en maskin som hjelper deg med å forutsi hvor lang tid det tar å kjøre hjem fra arbeidsplassen din, er et eksempel på veiledet læring.
  • Regresjon og klassifisering er to typer overvåket maskinlæringsteknikk.
  • Veiledet læring er en enklere metode mens Uovervåket læring er en kompleks metode.
  • Den største utfordringen i veiledet læring er at irrelevant input-funksjon nåværende opplæringsdata kan gi unøyaktige resultater.
  • Hovedfordelen med veiledet læring er at den lar deg samle inn data eller produsere datautdata fra forrige erfaring.
  • Ulempen med denne modellen er at beslutningsgrensen kan være overbelastet hvis treningssettet ditt ikke har eksempler du vil ha i en klasse.
  • Som en best praksis for å overvåke læring, må du først bestemme hva slags data som skal brukes som et treningssett.

Interessante artikler...