Binær klassifikation

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 3. august 2020; verifikation kræver 1 redigering .

Binær , binær eller dikotom klassifikation er opgaven med at klassificere elementerne i en given mængde i to grupper (forudsige hvilken gruppe hvert element i sættet tilhører) baseret på klassifikationsreglen . Kontekster , hvor det er nødvendigt at afgøre, om et objekt har en kvalitativ egenskab , nogle specifikke karakteristika eller en typisk binær klassifikation omfatter:

Binær klassifikation er en dikotomisering anvendt til praktiske formål. I mange praktiske problemer med binær klassificering er de to grupper ikke symmetriske - i stedet for overordnet nøjagtighed er de relative andele af fejltyper vigtige . For eksempel, i laboratorieundersøgelser, anses en falsk positiv (påvisning af en sygdom, der faktisk ikke eksisterer) for at kunne skelnes fra en falsk negativ (ikke påvisning af en sygdom, som patienten faktisk har).

Statistisk binær klassifikation

Statistisk klassificering er en opgave, der studeres i maskinlæring . Det er en type overvåget læring , en metode til maskinlæring, hvor kategorier er foruddefinerede og bruges til at vælge en kategori til en ny sandsynlighedsobservation. Hvis der kun er to kategorier, er problemet kendt som statistisk binær klassifikation.

Nogle metoder, der almindeligvis anvendes til binær klassificering, er:

Hver klassifikator klarer sig kun bedst i et udvalgt område, baseret på antallet af observationer, dimensionen af ​​trækvektoren , støjen i dataene og mange andre faktorer. For eksempel yder tilfældige skovklassifikatorer bedre end understøttende vektormaskiner til 3D-punktskyer [1] [2] .

Binær klassifikationsscore

Der er mange målinger, der kan bruges til at måle ydeevnen af ​​en klassifikator eller prædiktor. Forskellige felter har forskellige fordele for specifikke målinger på grund af forskellige formål. F.eks. bruges sensitivitet og specificitet ofte i medicin , mens præcision og tilbagekaldelse foretrækkes informationssøgning . En vigtig forskel i målinger er, om den er uafhængig af prævalens (hvor ofte hver kategori forekommer i befolkningen) eller afhængig, og begge typer er nyttige, men de har meget forskellige egenskaber.

Givet en klassificering af et datasæt, er der fire grundlæggende kombinationer af en gyldig kategori og en tildelt kategori:

  1. korrekt tildelte positive klassifikationer TP
  2. korrekt tildelte negative klassifikationer TN
  3. falsk tildelte positive klassifikationer FP
  4. falsk tildelte negative klassifikationer FN

De kan placeres i en beredskabstabel med kolonner svarende til faktiske værdier - betinget positive ( eng. betingelse positiv , CP) eller betinget negative ( eng. betingelse negativ , CN), og rækker svarende til klassifikationsværdier - testen resultatet er positivt eller negativt. Der er otte basisforhold, der kan beregnes fra tabellen, som falder i fire komplementære par (summen af ​​hvert par er 1). De opnås ved at dividere hvert af de fire tal med række- eller kolonnesummen, hvilket giver otte tal, der kan omtales som en "række af sande positive" eller en "kolonne af falske negativer", selvom der er almindeligt anvendte udtryk. Der er også to par af kolonneforhold og to par af rækkeforhold, og du kan få fire af dem ved at vælge et forhold fra hvert par, hvor de andre fire tal er deres komplementer.   

Aktiekolonnen indeholder forholdet mellem sande positive ( eng.  True Positive Rate , TPR, også kaldet sensitivity eller recall , tilføjelsen er andelen af ​​falsk negative resultater , eng.  False Negative Rate , FNR) og andel af sande negative resultater ( eng.  True Negative Rate , TNR, også kaldet specificity , ( eng.  Specificity , SPC, komplement - andelen af ​​falske positive , eng.  False Positive Rate , FPR) De er proportionale med populationen med en tilstand (henholdsvis uden en betingelse), for hvilken testen er sand (eller testen er falsk), og de er ikke afhængige af prævalens.

Brøkrækken er den positive prædiktive værdi ( Positive Predictive Value , PPV, også kaldet nøjagtighed , komplementet er andelen af ​​falske afvisninger , False Discovery Rate , FDR) og den negative prædiktive værdi ( eng  ... Negative Predictive Value , NPV, addition - andelen af ​​falske afleveringer, eng. False Omission Rate , FOR). De er proportionale med populationen med et givet sandt testresultat (eller falsk resultat), og de afhænger af prævalens.    

I laboratorietests er de vigtigste nøgletal den sande andel kolonne - andelen af ​​sande positive og andelen af ​​sande negative - hvor disse er kendt som sensitivitet og specificitet . Ved udtrækning af information er hovedrelationerne den sande positive rate (række og kolonne) - den negative forudsigende værdi og den sande positive rate - hvor disse er kendt som præcision og genkald .

Det er muligt at tage forholdet mellem komplementære par af forhold, hvilket giver fire sandsynlighedsforhold (to værdier af proportionskolonnen, to værdier af rækken af ​​proportioner). Dette gøres primært for kolonneforhold, som giver sandsynlighedsforhold i laboratorietests . Tager vi forholdet i en af ​​disse grupper, får vi det endelige diagnostiske test odds ratio ( Diagnostic Odds Ratio , DOR) .  Denne værdi kan også defineres direkte som . Dette har en nyttig fortolkning som et oddsforhold og er uafhængigt af prævalens.

Der er flere andre målinger, hvoraf den enkleste er Fraction Correct (FC), som måler andelen af ​​alle tilfælde, der er korrekt klassificeret .  Tilføjelsen til 1 af denne værdi er andelen af ​​ukorrekte ( engelsk fraktion forkert , FiC). F-målet kombinerer præcision og genkald i ét tal ved at vælge en vægt, i det enkleste tilfælde lig med vægten som i et balanceret F-mål ( F1 mål ). Nogle metrikker kommer fra regressionskoefficienterne - markeret og informativ og deres geometriske middelværdi , Matthews korrelationskoefficient . Andre målinger inkluderer Youdens J-statistik , usikkerhedskoefficient , Phi-koefficient og Cohens kappa.  

Konvertering af kontinuerlige værdier til binær

Tests, hvis resultater er kontinuerlige værdier, såsom de fleste blodprøveværdier , kan kunstigt gøres binære ved at definere en cutoff-værdi . Testresultatet er defineret som positivt eller negativt afhængigt af resultaterne af sammenligningen af ​​de resulterende og cutoff-værdier.

Denne konvertering resulterer dog i tab af information, fordi resultatet af den binære klassifikation ikke indikerer, hvor meget højere eller lavere cutoff-værdierne er. Ved konvertering af en kontinuert værdi, der er tæt på cutoff-værdien, er den resulterende positive eller negative forudsigelsesværdi generelt højere end den forudsigelige værdi opnået direkte fra den kontinuerte værdi. I sådanne tilfælde giver et positivt eller negativt testresultat en uacceptabel høj sikkerhed, mens selve værdien faktisk er i usikkerhedsområdet. For eksempel har koncentrationen af ​​humant choriongonadotropin (hCG) i urinen en kontinuerlig værdi. En uringraviditetstest med en cut-off på 50 mIU/ml med en reel hCG-koncentration på 52 mIU/ml kan vise et "positivt resultat". På den anden side har et testresultat langt fra cutoff normalt en positiv eller negativ prædiktiv værdi, der er mindre end den prædiktive værdi opnået fra en kontinuert værdi. For eksempel indikerer en hCG-værdi på 200.000 mIU/mL en meget høj grad af graviditet, men konvertering til binære resultater giver et "positivt" testresultat på kun 52 mIU/mL.

Se også

Noter

  1. Zhang, Zakhor, 2014 .
  2. Lu, Rasmussen, 2012 .

Litteratur