Overvåket maskinlæring: Hva er, algoritmer, eksempel

Hva er tilsyn med maskinlæring?

I Overvåket læring trener du maskinen ved hjelp av data som er godt "merket ." Det betyr at noen data allerede er merket med riktig svar. Det kan sammenlignes med læring som foregår i nærvær av en veileder eller en lærer.

En overvåket læringsalgoritme lærer av merkede opplæringsdata, hjelper deg med å forutsi resultater for uforutsette data.

Å lykkes med å bygge, skalere og distribuere nøyaktige tilsyn med maskinlæringsmodeller tar tid og teknisk ekspertise fra et team av dyktige dataforskere. Videre må dataforsker bygge opp modeller for å sikre at den gitte innsikten forblir sant til dataene endres.

I denne opplæringen lærer du:

Hva er tilsyn med maskinlæring?
Hvordan fungerer veiledet læring
Typer overvåket maskinlæringsalgoritmer
Overvåket vs Uovervåket maskinlæringsteknikk
Utfordringer i tilsyn med maskinlæring
Fordeler med veiledet læring:
Ulemper ved veiledet læring
Beste praksis for veiledet læring

Hvordan fungerer veiledet læring

For eksempel vil du trene en maskin for å hjelpe deg med å forutsi hvor lang tid det vil ta deg å kjøre hjem fra arbeidsplassen din. Her begynner du med å lage et sett med merkede data. Disse dataene inkluderer

Værforhold
Tid på dagen
Ferier

Alle disse detaljene er dine innganger. Resultatet er hvor lang tid det tok å kjøre hjem den spesifikke dagen.

Du vet instinktivt at hvis det regner ute, vil det ta lenger tid å kjøre hjem. Men maskinen trenger data og statistikk.

La oss nå se hvordan du kan utvikle en overvåket læringsmodell for dette eksemplet som hjelper brukeren å bestemme pendlingstiden. Det første du trenger for å lage er et treningssett. Dette treningssettet vil inneholde total pendeltid og tilhørende faktorer som vær, tid osv. Basert på dette treningssettet, kan maskinen din se at det er et direkte forhold mellom mengden regn og tid det tar å komme hjem.

Så det konstaterer at jo mer det regner, jo lenger vil du kjøre for å komme tilbake til hjemmet ditt. Det kan også se sammenhengen mellom tiden du forlater jobben og tiden du er på veien.

Jo nærmere du er 18.00, jo lenger tid tar det før du kommer hjem. Maskinen din kan finne noen av forholdene til de merkede dataene dine.

Dette er starten på datamodellen din. Det begynner å påvirke hvordan regn påvirker måten folk kjører på. Det begynner også å se at flere reiser i løpet av en bestemt tid på dagen.

Typer overvåket maskinlæringsalgoritmer

Regresjon:

Regresjonsteknikk forutsier en enkelt utgangsverdi ved hjelp av treningsdata.

Eksempel : Du kan bruke regresjon til å forutsi boligprisen fra treningsdata. Inngangsvariablene vil være lokalitet, størrelse på et hus osv.

Styrker : Outputs har alltid en sannsynlig tolkning, og algoritmen kan reguleres for å unngå overmontering.

Svakheter : Logistisk regresjon kan underprestere når det er flere eller ikke-lineære beslutningsgrenser. Denne metoden er ikke fleksibel, så den fanger ikke mer komplekse forhold.

Logistisk regresjon:

Logistisk regresjonsmetode brukt til å estimere diskrete verdier basert på gitt et sett med uavhengige variabler. Det hjelper deg å forutsi sannsynligheten for at en hendelse skal forekomme ved å tilpasse data til en logit-funksjon. Derfor er det også kjent som logistisk regresjon. Som det forutsier sannsynligheten, ligger utgangsverdien mellom 0 og 1.

Her er noen få typer regresjonsalgoritmer

Klassifisering:

Klassifisering betyr å gruppere utdataene i en klasse. Hvis algoritmen prøver å merke inngang i to forskjellige klasser, kalles det binær klassifisering. Å velge mellom mer enn to klasser kalles multiklasseklassifisering.

Eksempel : Bestemme om noen vil være mislighold av lånet eller ikke.

Styrker : Klassifiseringstreet fungerer veldig bra i praksis

Svakheter : Ubegrensede, individuelle trær er utsatt for overmontering.

Her er noen få typer klassifiseringsalgoritmer

Naive Bayes-klassifiserere

Naïve Bayesian-modell (NBN) er enkel å bygge og veldig nyttig for store datasett. Denne metoden er sammensatt av direkte asykliske grafer med en forelder og flere barn. Den forutsetter uavhengighet blant barnekoder skilt fra foreldrene.

Beslutningstrær

Beslutningstrær klassifiserer forekomst ved å sortere dem basert på funksjonsverdien. I denne metoden er hver modus funksjonen til en forekomst. Den skal klassifiseres, og hver gren representerer en verdi som noden kan anta. Det er en mye brukt teknikk for klassifisering. I denne metoden er klassifisering et tre som er kjent som et beslutningstre.

Det hjelper deg å estimere reelle verdier (kostnad for å kjøpe bil, antall samtaler, totalt månedlig salg osv.).

Support Vector Machine

Support vector machine (SVM) er en type læringsalgoritme utviklet i 1990. Denne metoden er basert på resultater fra statistisk læringsteori introdusert av Vap Nik.

SVM-maskiner er også nært knyttet til kjernefunksjoner, som er et sentralt konsept for de fleste læringsoppgaver. Kjernerammen og SVM brukes i en rekke felt. Det inkluderer multimediainformasjonsinnhenting, bioinformatikk og mønstergjenkjenning.

Overvåket vs Uovervåket maskinlæringsteknikk

Basert på	Overvåket maskinlæringsteknikk	Uovervåket maskinlæringsteknikk
Inndata	Algoritmer blir trent ved hjelp av merkede data.	Algoritmer brukes mot data som ikke er merket
Computational Complexity	Veiledet læring er en enklere metode.	Uovervåket læring er beregningsmessig kompleks
Nøyaktighet	Svært nøyaktig og pålitelig metode.	Mindre nøyaktig og pålitelig metode.

Utfordringer i tilsyn med maskinlæring

Her står utfordringene i overvåket maskinlæring:

Irrelevante inngangsfunksjoner, nåværende treningsdata, kan gi unøyaktige resultater
Dataforberedelse og forbehandling er alltid en utfordring.
Nøyaktighet lider når umulige, usannsynlige og ufullstendige verdier er lagt inn som treningsdata
Hvis den aktuelle eksperten ikke er tilgjengelig, er den andre tilnærmingen "brute-force." Det betyr at du må tenke at de riktige funksjonene (inputvariabler) for å trene maskinen på. Det kan være unøyaktig.

Fordeler med veiledet læring:

Overvåket læring lar deg samle inn data eller produsere datautdata fra forrige erfaring
Hjelper deg med å optimalisere ytelseskriterier ved hjelp av erfaring
Overvåket maskinlæring hjelper deg med å løse ulike typer virkelige beregningsproblemer.

Ulemper ved veiledet læring

Beslutningsgrensen kan bli overtrent hvis treningssettet ditt ikke har eksempler du vil ha i en klasse
Du må velge mange gode eksempler fra hver klasse mens du trener klassifisereren.
Klassifisering av big data kan være en reell utfordring.
Opplæring for veiledet læring trenger mye beregningstid.

Beste praksis for veiledet læring

Før du gjør noe annet, må du bestemme hva slags data som skal brukes som et treningssett
Du må bestemme strukturen til den lærte funksjonen og læringsalgoritmen.
Få tilsvarende resultater enten fra menneskelige eksperter eller fra målinger

Sammendrag

I Overvåket læring trener du maskinen ved hjelp av data som er godt "merket."
Du vil trene en maskin som hjelper deg med å forutsi hvor lang tid det tar å kjøre hjem fra arbeidsplassen din, er et eksempel på veiledet læring.
Regresjon og klassifisering er to typer overvåket maskinlæringsteknikk.
Veiledet læring er en enklere metode mens Uovervåket læring er en kompleks metode.
Den største utfordringen i veiledet læring er at irrelevant input-funksjon nåværende opplæringsdata kan gi unøyaktige resultater.
Hovedfordelen med veiledet læring er at den lar deg samle inn data eller produsere datautdata fra forrige erfaring.
Ulempen med denne modellen er at beslutningsgrensen kan være overbelastet hvis treningssettet ditt ikke har eksempler du vil ha i en klasse.
Som en best praksis for å overvåke læring, må du først bestemme hva slags data som skal brukes som et treningssett.

Overvåket maskinlæring: Hva er, algoritmer, eksempel

Innholdsfortegnelse:

Hva er tilsyn med maskinlæring?

Hvordan fungerer veiledet læring

Typer overvåket maskinlæringsalgoritmer

Regresjon:

Logistisk regresjon:

Klassifisering:

Naive Bayes-klassifiserere

Beslutningstrær

Support Vector Machine

Overvåket vs Uovervåket maskinlæringsteknikk

Utfordringer i tilsyn med maskinlæring

Fordeler med veiledet læring:

Ulemper ved veiledet læring

Beste praksis for veiledet læring

Sammendrag

Style Placeholder Tekst - CSS-triks

Gjennomsiktig indre kantlinje - CSS-triks

System Font Stack - CSS-triks

Gjennomsiktige bakgrunnsbilder - CSS-triks

Toppskygge - CSS-triks

# 100: Almanac Styling, del 1 - CSS-triks

# 079: Flytte Live Database Local - CSS-triks

# 105: Building Snippets Area, Part 2 (HTML & CSS) - CSS-triks

# 078: Å flytte til WordPress, lage et tema - CSS-triks

# 101: Almanakkstyling, del 2 - CSS-triks

12: Få SVG - Ikonfonter og -sett - CSS-triks

09: SVG med data-URIer - CSS-triks

13: SVG som et ikon-system - `bruk`-elementet - CSS-triks

16: SVG-ikonsystem - ekstern kilde - CSS-triks

14: SVG Icon System - Building Out Defs - CSS-triks