Uovervåket maskinlæring: Hva er, algoritmer, eksempel

Uovervåket læring

Uovervåket læring er en maskinlæringsteknikk der brukerne ikke trenger å overvåke modellen. I stedet lar den modellen jobbe alene for å oppdage mønstre og informasjon som tidligere ikke ble oppdaget. Den handler hovedsakelig med umerkede data.

Uovervåket læringsalgoritmer

Uovervåket læringsalgoritmer tillater brukere å utføre mer komplekse behandlingsoppgaver i forhold til veiledet læring. Selv om læring uten tilsyn kan være mer uforutsigbar sammenlignet med andre naturlige læringsmetoder. Uovervåket læringsalgoritmer inkluderer klynger, anomali deteksjon, nevrale nettverk, etc.

I denne opplæringen lærer du:

  • Eksempel på maskinlæring uten tilsyn
  • Hvorfor uten tilsyn læring?
  • Typer uten tilsyn
  • Gruppering
  • Klyngingstyper
  • assosiasjon
  • Overvåket vs Uovervåket maskinlæring
  • Anvendelser av maskinlæring uten tilsyn
  • Ulemper ved tilsyn uten tilsyn

Eksempel på maskinlæring uten tilsyn

La oss ta saken med en baby og hennes familiehund.

Hun kjenner og identifiserer denne hunden. Få uker senere tar en familievenn med seg en hund og prøver å leke med babyen.

Baby har ikke sett denne hunden tidligere. Men den gjenkjenner mange funksjoner (to ører, øyne, å gå på 4 ben) er som kjæledyrhunden hennes. Hun identifiserer det nye dyret som en hund. Dette er læring uten tilsyn, der du ikke blir undervist, men du lærer av dataene (i dette tilfellet data om en hund.) Hadde dette vært veiledet læring, ville familievenninnen ha fortalt babyen at det er en hund.

Hvorfor uten tilsyn læring?

Her er hovedårsakene til å bruke Unsupervised Learning:

  • Uovervåket maskinlæring finner alle slags ukjente mønstre i data.
  • Uovervåket metode hjelper deg med å finne funksjoner som kan være nyttige for kategorisering.
  • Det foregår i sanntid, så alle inngangsdataene som skal analyseres og merkes i nærvær av elever.
  • Det er lettere å få umerkede data fra en datamaskin enn merkede data, som trenger manuell inngrep.

Typer uten tilsyn

Uoppsynte læringsproblemer videre gruppert i klyngeproblemer og tilknytningsproblemer.

Gruppering

Klynging er et viktig konsept når det gjelder læring uten tilsyn. Det handler hovedsakelig om å finne en struktur eller et mønster i en samling av ukategoriserte data. Klyngealgoritmer vil behandle dataene dine og finne naturlige klynger (grupper) hvis de finnes i dataene. Du kan også endre hvor mange klynger algoritmene dine skal identifisere. Det lar deg justere granulariteten til disse gruppene.

Det er forskjellige typer klynger du kan bruke:

Eksklusiv (partisjonering)

I denne klyngemetoden grupperes data på en slik måte at en data kun kan tilhøre en klynge.

Eksempel: K-betyr

Agglomerativ

I denne klyngeteknikken er alle data en klynge. De iterative fagforeningene mellom de to nærmeste klyngene reduserer antall klynger.

Eksempel: Hierarkisk gruppering

Overlappende

I denne teknikken brukes fuzzy sett til å klynge data. Hvert punkt kan tilhøre to eller flere klynger med separate grader av medlemskap.

Her vil data knyttes til en passende medlemsverdi. Eksempel: Fuzzy C-Means

Probabilistisk

Denne teknikken bruker sannsynlighetsfordeling for å lage klyngene

Eksempel: Følgende nøkkelord

  • "mannssko."
  • "damesko."
  • "kvinners hanske."
  • "manns hanske."

kan grupperes i to kategorier "sko" og "hanske" eller "mann" og "kvinner."

Klyngingstyper

  • Hierarkisk gruppering
  • K-betyr klynging
  • K-NN (k nærmeste naboer)
  • Hovedkomponentanalyse
  • Singular Value Decomposition
  • Uavhengig komponentanalyse

Hierarkisk gruppering:

Hierarkisk klynging er en algoritme som bygger et hierarki av klynger. Det begynner med alle dataene som er tilordnet en egen klynge. Her kommer to nære klynger til å være i samme klynge. Denne algoritmen slutter når det bare er en klynge igjen.

K-betyr klynging

K betyr at det er en iterativ klyngealgoritme som hjelper deg med å finne den høyeste verdien for hver iterasjon. Opprinnelig velges ønsket antall klynger. I denne grupperingsmetoden må du gruppere datapunktene i k-grupper. En større k betyr mindre grupper med mer granularitet på samme måte. En lavere k betyr større grupper med mindre granularitet.

Resultatet av algoritmen er en gruppe "etiketter". Det tildeler datapunkt til en av k-gruppene. I k-betyr klynging defineres hver gruppe ved å opprette en sentroid for hver gruppe. Sentroidene er som klyngens hjerte, som fanger punktene nærmest dem og legger dem til klyngen.

K-middelklynging definerer ytterligere to undergrupper:

  • Agglomerativ klynging
  • Dendrogram

Agglomerativ klynging:

Denne typen K-betyr klynging starter med et fast antall klynger. Den tildeler alle dataene i det nøyaktige antall klynger. Denne klyngemetoden krever ikke antall klynger K som inngang. Agglomerasjonsprosessen starter med å danne hver data som en enkelt klynge.

Denne metoden bruker noe avstandsmål, reduserer antall klynger (en i hver iterasjon) ved å slå sammen prosessen. Til slutt har vi en stor klynge som inneholder alle objektene.

Dendrogram:

I Dendrogram-klyngemetoden vil hvert nivå representere en mulig klynge. Høyden på dendrogram viser likhetsnivået mellom to sammenføyningsklynger. Jo nærmere bunnen av prosessen, de er mer like klynger som finner gruppen fra dendrogram som ikke er naturlig og mest subjektiv.

K- Nærmeste naboer

K- nærmeste nabo er den enkleste av alle maskinlæringsklassifikatorer. Den skiller seg fra andre maskinlæringsteknikker, ved at den ikke produserer en modell. Det er en enkel algoritme som lagrer alle tilgjengelige saker og klassifiserer nye forekomster basert på et likhetsmål.

Det fungerer veldig bra når det er avstand mellom eksemplene. Læringshastigheten er treg når treningssettet er stort, og avstandsberegningen er ikke viktig.

Hovedkomponentanalyse:

I tilfelle du vil ha et høyere dimensjonalt rom. Du må velge et grunnlag for det rommet og bare de 200 viktigste poengene for det grunnlaget. Denne basen er kjent som en hovedkomponent. Delsettet du velger utgjør et nytt rom som er lite i størrelse sammenlignet med det opprinnelige rommet. Den opprettholder så mye av kompleksiteten i data som mulig.

assosiasjon

Foreningsregler lar deg etablere assosiasjoner mellom dataobjekter i store databaser. Denne ukontrollerte teknikken handler om å oppdage interessante forhold mellom variabler i store databaser. For eksempel er det mest sannsynlig at folk som kjøper et nytt hjem kjøper nye møbler.

Andre eksempler:

  • En undergruppe av kreftpasienter gruppert etter deres genuttrykkelsesmålinger
  • Grupper av kunder basert på deres nettleser- og innkjøpshistorikk
  • Filmgruppe etter rangering gitt av film seere

Overvåket vs Uovervåket maskinlæring

Parametere Overvåket maskinlæringsteknikk Uovervåket maskinlæringsteknikk
Inndata Algoritmer blir trent ved hjelp av merkede data. Algoritmer brukes mot data som ikke er merket
Computational Complexity Veiledet læring er en enklere metode. Uovervåket læring er beregningsmessig kompleks
Nøyaktighet Svært nøyaktig og pålitelig metode. Mindre nøyaktig og pålitelig metode.

Anvendelser av maskinlæring uten tilsyn

Noen anvendelser av ikke-overvåket teknikk for maskinlæring er:

  • Clustering deler automatisk datasettet i grupper basert på deres likheter
  • Avviksdeteksjon kan oppdage uvanlige datapunkter i datasettet ditt. Det er nyttig for å finne falske transaksjoner
  • Association mining identifiserer sett med elementer som ofte forekommer sammen i datasettet ditt
  • Latente variable modeller er mye brukt til forbehandling av data. Som å redusere antall funksjoner i et datasett eller å spalte datasettet i flere komponenter

Ulemper ved tilsyn uten tilsyn

  • Du kan ikke få presis informasjon om datasortering, og utdataene som data som brukes i tilsyn er merket og ikke kjent.
  • Mindre nøyaktighet av resultatene er fordi inngangsdataene ikke er kjent og ikke merket av folk på forhånd. Dette betyr at maskinen krever å gjøre dette selv.
  • Spektralklassene tilsvarer ikke alltid informasjonsklasser.
  • Brukeren må bruke tid på å tolke og merke klassene som følger klassifiseringen.
  • Spektrale egenskaper til klasser kan også endres over tid, slik at du ikke kan ha samme klasseinformasjon mens du flytter fra ett bilde til et annet.

Sammendrag

  • Uovervåket læring er en maskinlæringsteknikk, der du ikke trenger å overvåke modellen.
  • Uovervåket maskinlæring hjelper deg med å finne alle slags ukjente mønstre i data.
  • Klynging og tilknytning er to typer uten tilsyn læring.
  • Fire typer klyngemetoder er 1) Eksklusiv 2) Agglomerativ 3) Overlappende 4) Probabilistisk.
  • Viktige klyngetyper er: 1) Hierarkisk klynging 2) K-betyr klynging 3) K-NN 4) Hovedkomponentanalyse 5) Singular Value Decomposition 6) Uavhengig komponentanalyse.
  • Foreningsregler lar deg etablere assosiasjoner mellom dataobjekter i store databaser.
  • I Overvåket læring blir Algoritmer trent ved hjelp av merkede data, mens Algoritmer brukes i Uovervåket læring mot data som ikke er merket.
  • Avviksdeteksjon kan oppdage viktige datapunkter i datasettet ditt, noe som er nyttig for å finne falske transaksjoner.
  • Den største ulempen med Uovervåket læring er at du ikke kan få presis informasjon om datasortering.

Interessante artikler...