Uovervåket maskinlæring: Hva er, algoritmer, eksempel

Uovervåket læring

Uovervåket læring er en maskinlæringsteknikk der brukerne ikke trenger å overvåke modellen. I stedet lar den modellen jobbe alene for å oppdage mønstre og informasjon som tidligere ikke ble oppdaget. Den handler hovedsakelig med umerkede data.

Uovervåket læringsalgoritmer

Uovervåket læringsalgoritmer tillater brukere å utføre mer komplekse behandlingsoppgaver i forhold til veiledet læring. Selv om læring uten tilsyn kan være mer uforutsigbar sammenlignet med andre naturlige læringsmetoder. Uovervåket læringsalgoritmer inkluderer klynger, anomali deteksjon, nevrale nettverk, etc.

I denne opplæringen lærer du:

Eksempel på maskinlæring uten tilsyn
Hvorfor uten tilsyn læring?
Typer uten tilsyn
Gruppering
Klyngingstyper
assosiasjon
Overvåket vs Uovervåket maskinlæring
Anvendelser av maskinlæring uten tilsyn
Ulemper ved tilsyn uten tilsyn

Eksempel på maskinlæring uten tilsyn

La oss ta saken med en baby og hennes familiehund.

Hun kjenner og identifiserer denne hunden. Få uker senere tar en familievenn med seg en hund og prøver å leke med babyen.

Baby har ikke sett denne hunden tidligere. Men den gjenkjenner mange funksjoner (to ører, øyne, å gå på 4 ben) er som kjæledyrhunden hennes. Hun identifiserer det nye dyret som en hund. Dette er læring uten tilsyn, der du ikke blir undervist, men du lærer av dataene (i dette tilfellet data om en hund.) Hadde dette vært veiledet læring, ville familievenninnen ha fortalt babyen at det er en hund.

Hvorfor uten tilsyn læring?

Her er hovedårsakene til å bruke Unsupervised Learning:

Uovervåket maskinlæring finner alle slags ukjente mønstre i data.
Uovervåket metode hjelper deg med å finne funksjoner som kan være nyttige for kategorisering.
Det foregår i sanntid, så alle inngangsdataene som skal analyseres og merkes i nærvær av elever.
Det er lettere å få umerkede data fra en datamaskin enn merkede data, som trenger manuell inngrep.

Typer uten tilsyn

Uoppsynte læringsproblemer videre gruppert i klyngeproblemer og tilknytningsproblemer.

Gruppering

Klynging er et viktig konsept når det gjelder læring uten tilsyn. Det handler hovedsakelig om å finne en struktur eller et mønster i en samling av ukategoriserte data. Klyngealgoritmer vil behandle dataene dine og finne naturlige klynger (grupper) hvis de finnes i dataene. Du kan også endre hvor mange klynger algoritmene dine skal identifisere. Det lar deg justere granulariteten til disse gruppene.

Det er forskjellige typer klynger du kan bruke:

Eksklusiv (partisjonering)

I denne klyngemetoden grupperes data på en slik måte at en data kun kan tilhøre en klynge.

Eksempel: K-betyr

Agglomerativ

I denne klyngeteknikken er alle data en klynge. De iterative fagforeningene mellom de to nærmeste klyngene reduserer antall klynger.

Eksempel: Hierarkisk gruppering

Overlappende

I denne teknikken brukes fuzzy sett til å klynge data. Hvert punkt kan tilhøre to eller flere klynger med separate grader av medlemskap.

Her vil data knyttes til en passende medlemsverdi. Eksempel: Fuzzy C-Means

Probabilistisk

Denne teknikken bruker sannsynlighetsfordeling for å lage klyngene

Eksempel: Følgende nøkkelord

"mannssko."
"damesko."
"kvinners hanske."
"manns hanske."

kan grupperes i to kategorier "sko" og "hanske" eller "mann" og "kvinner."

Klyngingstyper

Hierarkisk gruppering
K-betyr klynging
K-NN (k nærmeste naboer)
Hovedkomponentanalyse
Singular Value Decomposition
Uavhengig komponentanalyse

Hierarkisk gruppering:

Hierarkisk klynging er en algoritme som bygger et hierarki av klynger. Det begynner med alle dataene som er tilordnet en egen klynge. Her kommer to nære klynger til å være i samme klynge. Denne algoritmen slutter når det bare er en klynge igjen.

K-betyr klynging

K betyr at det er en iterativ klyngealgoritme som hjelper deg med å finne den høyeste verdien for hver iterasjon. Opprinnelig velges ønsket antall klynger. I denne grupperingsmetoden må du gruppere datapunktene i k-grupper. En større k betyr mindre grupper med mer granularitet på samme måte. En lavere k betyr større grupper med mindre granularitet.

Resultatet av algoritmen er en gruppe "etiketter". Det tildeler datapunkt til en av k-gruppene. I k-betyr klynging defineres hver gruppe ved å opprette en sentroid for hver gruppe. Sentroidene er som klyngens hjerte, som fanger punktene nærmest dem og legger dem til klyngen.

K-middelklynging definerer ytterligere to undergrupper:

Agglomerativ klynging
Dendrogram

Agglomerativ klynging:

Denne typen K-betyr klynging starter med et fast antall klynger. Den tildeler alle dataene i det nøyaktige antall klynger. Denne klyngemetoden krever ikke antall klynger K som inngang. Agglomerasjonsprosessen starter med å danne hver data som en enkelt klynge.

Denne metoden bruker noe avstandsmål, reduserer antall klynger (en i hver iterasjon) ved å slå sammen prosessen. Til slutt har vi en stor klynge som inneholder alle objektene.

Dendrogram:

I Dendrogram-klyngemetoden vil hvert nivå representere en mulig klynge. Høyden på dendrogram viser likhetsnivået mellom to sammenføyningsklynger. Jo nærmere bunnen av prosessen, de er mer like klynger som finner gruppen fra dendrogram som ikke er naturlig og mest subjektiv.

K- Nærmeste naboer

K- nærmeste nabo er den enkleste av alle maskinlæringsklassifikatorer. Den skiller seg fra andre maskinlæringsteknikker, ved at den ikke produserer en modell. Det er en enkel algoritme som lagrer alle tilgjengelige saker og klassifiserer nye forekomster basert på et likhetsmål.

Det fungerer veldig bra når det er avstand mellom eksemplene. Læringshastigheten er treg når treningssettet er stort, og avstandsberegningen er ikke viktig.

Hovedkomponentanalyse:

I tilfelle du vil ha et høyere dimensjonalt rom. Du må velge et grunnlag for det rommet og bare de 200 viktigste poengene for det grunnlaget. Denne basen er kjent som en hovedkomponent. Delsettet du velger utgjør et nytt rom som er lite i størrelse sammenlignet med det opprinnelige rommet. Den opprettholder så mye av kompleksiteten i data som mulig.

assosiasjon

Foreningsregler lar deg etablere assosiasjoner mellom dataobjekter i store databaser. Denne ukontrollerte teknikken handler om å oppdage interessante forhold mellom variabler i store databaser. For eksempel er det mest sannsynlig at folk som kjøper et nytt hjem kjøper nye møbler.

Andre eksempler:

En undergruppe av kreftpasienter gruppert etter deres genuttrykkelsesmålinger
Grupper av kunder basert på deres nettleser- og innkjøpshistorikk
Filmgruppe etter rangering gitt av film seere

Overvåket vs Uovervåket maskinlæring

Parametere	Overvåket maskinlæringsteknikk	Uovervåket maskinlæringsteknikk
Inndata	Algoritmer blir trent ved hjelp av merkede data.	Algoritmer brukes mot data som ikke er merket
Computational Complexity	Veiledet læring er en enklere metode.	Uovervåket læring er beregningsmessig kompleks
Nøyaktighet	Svært nøyaktig og pålitelig metode.	Mindre nøyaktig og pålitelig metode.

Anvendelser av maskinlæring uten tilsyn

Noen anvendelser av ikke-overvåket teknikk for maskinlæring er:

Clustering deler automatisk datasettet i grupper basert på deres likheter
Avviksdeteksjon kan oppdage uvanlige datapunkter i datasettet ditt. Det er nyttig for å finne falske transaksjoner
Association mining identifiserer sett med elementer som ofte forekommer sammen i datasettet ditt
Latente variable modeller er mye brukt til forbehandling av data. Som å redusere antall funksjoner i et datasett eller å spalte datasettet i flere komponenter

Ulemper ved tilsyn uten tilsyn

Du kan ikke få presis informasjon om datasortering, og utdataene som data som brukes i tilsyn er merket og ikke kjent.
Mindre nøyaktighet av resultatene er fordi inngangsdataene ikke er kjent og ikke merket av folk på forhånd. Dette betyr at maskinen krever å gjøre dette selv.
Spektralklassene tilsvarer ikke alltid informasjonsklasser.
Brukeren må bruke tid på å tolke og merke klassene som følger klassifiseringen.
Spektrale egenskaper til klasser kan også endres over tid, slik at du ikke kan ha samme klasseinformasjon mens du flytter fra ett bilde til et annet.

Sammendrag

Uovervåket læring er en maskinlæringsteknikk, der du ikke trenger å overvåke modellen.
Uovervåket maskinlæring hjelper deg med å finne alle slags ukjente mønstre i data.
Klynging og tilknytning er to typer uten tilsyn læring.
Fire typer klyngemetoder er 1) Eksklusiv 2) Agglomerativ 3) Overlappende 4) Probabilistisk.
Viktige klyngetyper er: 1) Hierarkisk klynging 2) K-betyr klynging 3) K-NN 4) Hovedkomponentanalyse 5) Singular Value Decomposition 6) Uavhengig komponentanalyse.
Foreningsregler lar deg etablere assosiasjoner mellom dataobjekter i store databaser.
I Overvåket læring blir Algoritmer trent ved hjelp av merkede data, mens Algoritmer brukes i Uovervåket læring mot data som ikke er merket.
Avviksdeteksjon kan oppdage viktige datapunkter i datasettet ditt, noe som er nyttig for å finne falske transaksjoner.
Den største ulempen med Uovervåket læring er at du ikke kan få presis informasjon om datasortering.

Uovervåket maskinlæring: Hva er, algoritmer, eksempel

Innholdsfortegnelse:

Uovervåket læring

Uovervåket læringsalgoritmer

Eksempel på maskinlæring uten tilsyn

Hvorfor uten tilsyn læring?

Typer uten tilsyn

Gruppering

Eksklusiv (partisjonering)

Agglomerativ

Overlappende

Probabilistisk

Klyngingstyper

Hierarkisk gruppering:

K-betyr klynging

Agglomerativ klynging:

Dendrogram:

K- Nærmeste naboer

Hovedkomponentanalyse:

assosiasjon

Overvåket vs Uovervåket maskinlæring

Anvendelser av maskinlæring uten tilsyn

Ulemper ved tilsyn uten tilsyn

Sammendrag

Lorem Ipsum Avsnitt - CSS-triks

Venstre og høyre halvdel layout CSS-triks

Lag IE 6 Crash - CSS-triks

Mailto-koblinger - CSS-triks

HTML5 artikkelstruktur med hNews - CSS-triks

SVG Hamburger Menu - CSS-triks

Form Morphing-ikoner i knapp ved klikk - CSS-triks

SVG-mønstre - CSS-triks

Legg til kategorinavn i body_class - CSS-triks

Buet tekst langs en bane - CSS-triks

Grense - CSS-triks

Grense-kollaps - CSS-triks

Bakgrunnsstørrelse - CSS-triks

Grensegrense - CSS-triks

Grenseavstand - CSS-triks