Hva er forvirringsmatrise?
En forvirringsmatrise er en målingsteknikk for maskinlæring. Det er en slags tabell som hjelper deg å vite ytelsen til klassifiseringsmodellen på et sett med testdata for at de sanne verdiene er kjent. Begrepet forvirringsmatrise i seg selv er veldig enkelt, men dets relaterte terminologi kan være litt forvirrende. Her er noen enkle forklaringer gitt for denne teknikken.
I denne veiledningen vil du lære,
- Hva er forvirringsmatrise?
- Fire utfall av forvirringsmatrisen
- Eksempel på forvirringsmatrise:
- Hvordan beregne en forvirringsmatrise
- Andre viktige vilkår som bruker en forvirringsmatrise
- Hvorfor trenger du forvirringsmatrise?
Fire utfall av forvirringsmatrisen
Forvirringsmatrisen visualiserer nøyaktigheten til en klassifikator ved å sammenligne de faktiske og forutsagte klassene. Den binære forvirringsmatrisen er sammensatt av firkanter:

- TP: True Positive: Forutsagte verdier korrekt forutsagt som faktisk positive
- FP: Forutsagte verdier forutsa feil en faktisk positiv. dvs. negative verdier spådd som positive
- FN: False Negative: Positive verdier spådd som negative
- TN: True Negative: Forutsi verdier korrekt forutsagt som en faktisk negativ
Du kan beregne nøyaktighetstesten fra forvirringsmatrisen:
Eksempel på forvirringsmatrise:
Confusion Matrix er en nyttig maskinlæringsmetode som lar deg måle Recall, Precision, Accuracy og AUC-ROC curve. Nedenfor er gitt et eksempel for å kjenne begrepene True Positive, True Negative, False Negative og True Negative.
Ekte positivt:
Du projiserte positivt og det viste seg å være sant. For eksempel hadde du spådd at Frankrike ville vinne verdensmesterskapet, og det vant.
Ekte negativt:
Når du spådde negativt, og det er sant. Du hadde spådd at England ikke ville vinne, og det tapte.
Falsk positiv:
Forutsigelsen din er positiv, og den er falsk.
Du hadde spådd at England ville vinne, men det tapte.
Falske negative:
Forutsigelsen din er negativ, og resultatet er også falsk.
Du hadde spådd at Frankrike ikke ville vinne, men det vant.
Du bør huske at vi beskriver forutsagte verdier som enten sanne eller falske eller positive og negative.
Hvordan beregne en forvirringsmatrise
Her er trinnvis prosess for å beregne en forvirringsmatrise i data mining
- Trinn 1) Først må du teste datasettet med forventede utfallsverdier.
- Trinn 2) Forutsi alle radene i testdatasettet.
- Trinn 3) Beregn forventede spådommer og utfall:
- Totalt antall korrekte spådommer for hver klasse.
- Totalt antall feil spådommer for hver klasse.
Etter det er disse tallene organisert i nedenstående metoder:
- Hver rad i matrisen lenker til en forutsagt klasse.
- Hver kolonne i matrisen tilsvarer en faktisk klasse.
- Totaltallene av korrekt og feil klassifisering er lagt inn i tabellen.
- Summen av riktige spådommer for en klasse går inn i den forutsagte kolonnen og forventet rad for den klasseverdien.
- Summen av feil spådommer for en klasse går inn i den forventede raden for den klasseverdien og den forutsagte kolonnen for den spesifikke klasseverdien.
Andre viktige vilkår som bruker en forvirringsmatrise
- Positive prediktiv verdi (PVV): Dette er veldig nær presisjon. En signifikant forskjell mellom de to begrepene er at PVV vurderer utbredelse. I situasjonen der klassene er perfekt balanserte, er den positive prediktive verdien den samme som presisjon.
- Null Error Rate: Dette begrepet brukes til å definere hvor mange ganger prediksjonen din ville være feil hvis du kan forutsi majoritetsklassen. Du kan vurdere det som en grunnlinjeberegning å sammenligne klassifisereren din.
- F-poeng: F1-poengsum er et vektet gjennomsnittlig poengsum for den sanne positive (tilbakekallingen) og presisjonen.
- Roc-kurve: Roc-kurven viser de sanne positive frekvensene mot den falske positive frekvensen ved forskjellige kuttpunkter. Det viser også en avveining mellom følsomhet (tilbakekalling og spesifisitet eller den virkelige negative raten).
- Presisjon: Presisjonsberegningen viser nøyaktigheten til den positive klassen. Den måler hvor sannsynlig spådommen til den positive klassen er riktig.
Maksimal poengsum er 1 når klassifisereren perfekt klassifiserer alle positive verdier. Presisjon alene er ikke veldig nyttig fordi den ignorerer den negative klassen. Beregningen er vanligvis parret med tilbakekallingsverdien. Tilbakekalling kalles også følsomhet eller ekte positiv hastighet.
- Sensitivity : Sensitivity beregner forholdet mellom positive klasser som er riktig oppdaget. Denne beregningen gir hvor god modellen er å gjenkjenne en positiv klasse.
Hvorfor trenger du forvirringsmatrise?
Her er fordeler / fordeler ved å bruke en forvirringsmatrise.
- Den viser hvordan enhver klassifiseringsmodell er forvirret når den gir spådommer.
- Forvirringsmatrise gir deg ikke bare innblikk i feilene som klassifisereren din gjør, men også typer feil som blir gjort.
- Denne oversikten hjelper deg med å overvinne begrensningen ved å bruke klassifiseringsnøyaktighet alene.
- Hver kolonne i forvirringsmatrisen representerer forekomster av den forutsagte klassen.
- Hver rad i forvirringsmatrisen representerer forekomster av den faktiske klassen.
- Det gir ikke bare innsikt i feilene som gjøres av en klassifikator, men også feil som blir gjort.