ROC kurve

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 11. maj 2020; checks kræver 42 redigeringer .

ROC-kurve ( engelsk  modtagerdriftskarakteristik , modtagerdriftskarakteristik ) - en graf, der giver dig mulighed for at evaluere kvaliteten af ​​binær klassificering , viser forholdet mellem andelen af ​​objekter fra det samlede antal bærere af funktionen, korrekt klassificeret som bærere af funktionen ( eng.  true positive rate , TPR, kaldet sensitivity classification algorithm), og andelen af ​​objekter fra det samlede antal objekter, der ikke bærer en feature, fejlagtigt klassificeret som bærende en feature ( eng.  falsk positiv rate , FPR, værdien af ​​1-FPR kaldes klassifikationsalgoritmens specificitet ), når tærsklen for beslutningsreglen varieres.

Også kendt som fejlkurven . Analysen af ​​klassifikationer ved hjælp af ROC-kurver kaldes ROC-analyse .

Kvantitativ fortolkning af ROC giver AUC ( eng.  Area Under Curve , area under the curve ) - området afgrænset af ROC-kurven og aksen for andelen af ​​falsk positive klassifikationer. Jo højere AUC, desto bedre klassificerer, mens værdien på 0,5 viser uegnetheden af ​​den valgte klassificeringsmetode (svarende til tilfældig gæt). En værdi mindre end 0,5 siger, at klassificereren fungerer præcis det modsatte: hvis positive kaldes negative og omvendt, vil klassificereren fungere bedre.

Grundlæggende koncept

Ondartede tumorer er en klassisk anvendelse af klassifikationsproblemer: symptomer opstår ofte, når sygdommen er udviklet til uhelbredelig, og pålidelige tests er ekstremt dyre. Derfor efterspørges billige, men ikke så pålidelige, tests - og vi vil forklare ved at bruge eksemplet med raske og syge mennesker.

Klassificeringens opgave er at tildele hidtil ukendte objekter til en bestemt klasse. Et eksempel på en sådan opgave kan være at diagnosticere en sygdom - uanset om patienten blev syg ( positivt resultat ) eller ej ( negativt resultat ). Derefter, som et resultat af klassificering, kan fire forskellige situationer observeres:

De fire mulige output kan formuleres og formateres som en 2×2 kontingentabel .

Så kaldes værdien Sen=TP/(TP+FN), algoritmens evne til at "se" patienter, følsomheden eller frekvensen af ​​sande positive , Spe=TN/(TN+FP) er specificiteten eller frekvensen af ​​sande. negativer , algoritmens evne til ikke at tage raske mennesker for syge. Den økonomiske effekt af disse fejl er anderledes: en falsk-negativ patient vil komme med en overset sygdom, ressourcer vil blive brugt på yderligere undersøgelse af en falsk-positiv. Værdien 1−Spe=FP/(TN+FP) kaldes den falske positive rate .

Ofte returnerer klassificereren ikke den raske-syge bit, men et tal på en kontinuerlig skala: for eksempel 0="åbenbart rask", 25="mest sandsynligt rask", 50="ubestemt", 75="mest sandsynligt syg ", 100="klart syg". Men alligevel er det sæt af beslutninger, der træffes, sædvanligvis endelige, eller endda binære: skal patienten sendes til yderligere undersøgelse? Skal skubberen virke, idet den taber delen ned i beholderen med ægteskabet ? Ved at variere responstærsklen ændrer vi karakteristikaene for sensitivitet og specificitet: jo højere den ene, jo lavere den anden.

Som et resultat af at ændre tærsklen fra −∞ til ∞ og plotte punkterne X=1−Spe og Y=Sen i X,Y koordinatrummet, fås en graf, som kaldes ROC-kurven. Ved tærsklen −∞ klassificerer klassificereren alle patienter som syge (1−Spe=1, Sen=1). Ved +∞-tærsklen klassificeres alle som raske (1−Spe=0, Sen=0). Derfor går ROC-kurven altid fra (0,0) til (1,1).

Tilfældet med kontinuerlige tilfældige variabler

Klassifikationen er ofte baseret på kontinuerte stokastiske variable . I dette tilfælde er det praktisk at skrive sandsynligheden for at tilhøre en bestemt klasse som en sandsynlighedsfordelingsfunktion afhængigt af en bestemt tærskelværdi (grænse) for parameteren i formen , og sandsynligheden for ikke at høre til som . Derefter kan antallet af falsk-positive (falsk-positive rate, FPR) løsninger udtrykkes som . Samtidig kan antallet af sand-positive beslutninger (true-positive rate, TPR) udtrykkes som . Når man konstruerer ROC-kurven langs aksen og langs -aksen  , opnået ved forskellige værdier af parameteren .

Forestil dig for eksempel, at niveauet af noget protein i blodet er normalfordelt med centre svarende til 1 g / dL og 2 g / dL hos henholdsvis raske og syge mennesker . En medicinsk test kan give en indikation af niveauet af ethvert protein i blodplasmaet . Et proteinniveau over en vis grænse kan betragtes som et tegn sygdom . Forskeren kan flytte grænsen (sort lodret linje i figuren), hvilket vil ændre antallet af falsk-positive resultater. Den resulterende form af ROC-kurven afhænger af graden af ​​skæring af de to fordelinger .

Særlige tilfælde

Hvis den generelle population er begrænset (hvilket normalt sker på reelle datasæt), så er følgende situationer mulige, når tærskelværdien t bevæger sig fra −∞ til ∞:

Da sandsynligheden for den fjerde hændelse er lille, har ROC-kurven for den endelige generelle befolkning en trinvis form med et lille antal skrånende segmenter, hvor fejlene i dataindsamling og -behandling gav det samme resultat på objekter af forskellige klasser.

Følgelig er algoritmen til at konstruere en ROC-kurve for en endelig generel population som følger. Lad os sortere objekterne efter værdien af ​​kriteriet. Vi tager et sæt objekter med ens kriterieværdi, genberegner Sen og Spe og tegner et segment. Vi fortsætter, indtil genstandene løber tør.

ROC-kurven for en binær klassifikator, der producerer 0 eller 1 (for eksempel et beslutningstræ ) ligner to segmenter (0,0) → (1−Spe,Sen) → (1,1).

I det ideelle tilfælde, når klassifikatoren fuldstændig adskiller de positive og negative medlemmer af den generelle befolkning, bliver alle falske positive først sande negative (segment (1,1) - (0,1)), derefter bliver alle sande positive til falske negativer ( segment (0,1)—(0,0)). Det vil sige, at ROC-kurven for en ideel klassifikator, uanset hvilke tal kriteriet frembringer, og om den generelle befolkning er endelig, ser ud som to segmenter (0,0) - (0,1) - (1,1).

Ved de tærskelværdier t , hvor ROC-kurven er under diagonalen 1−Spe = Sen , kan kriteriet inverteres (alt mindre end t kan erklæres positivt), og klassificereren vil præstere bedre end oprindeligt: ​​både sensitivitet og specificitet øges .

Ansøgning

ROC-kurver blev først brugt i teorien om signalbehandling i USA under Anden Verdenskrig for at forbedre kvaliteten af ​​genkendelsen af ​​fjendtlige objekter fra et radarsignal [1] . Efter angrebet på Pearl Harbor i 1941 begyndte det amerikanske militær ny forskning med det formål at forsøge at øge nøjagtigheden af ​​at identificere japanske fly fra radarsignaler.

Efterfølgende blev ROC-kurver meget brugt i medicinsk diagnostik [2] [3] [4] . ROC-kurver bruges i epidemiologi og medicinsk forskning og omtales ofte i samme sammenhæng som evidensbaseret medicin . I radiologi bruges ROC-kurver til at validere og teste nye teknikker [5] . I samfundsvidenskaberne bruges ROC-kurver til at foretage vurderinger om kvaliteten af ​​sandsynlighedsmodeller. Kurver bruges også i produktkvalitetsstyring og kreditvurdering .

Som allerede nævnt er ROC-kurver meget brugt i maskinlæring . De blev først brugt i denne sammenhæng i Spakmans arbejde, som demonstrerede brugen af ​​ROC-kurver til at sammenligne flere klassifikationsalgoritmer . [6]

Yderligere use cases

Område under kurven

I et normaliseret rum svarer arealet under kurven ( AUC - Area Under Curve, AUROC - Area Under Receiver Operating Characteristic ) til sandsynligheden for, at klassifikatoren vil tildele mere vægt til en tilfældigt valgt positiv enhed end til en tilfældigt valgt negativ. . [7] Dette kan vises som følger: arealet under kurven er givet af integralet (aksen drejes med et minustegn - en større værdi af koordinaten svarer til en mindre værdi af parameteren ): . Vinkelparenteserne angiver operationen med at tage gennemsnittet.

AUC har vist sig at være tæt relateret til Mann-Whitney U-testen [8] [9] , som er et mål for, om positive elementer vægtes mere end negative. AUC-værdien er også relateret til Wilcoxon-testen [9] og til Gini-koefficienten ( ) som følger: , hvor:

[10] .

AUC bruges også ofte til at sammenligne modeller baseret på træningssættet [ 11] . Men i nogle tilfælde er brugen af ​​denne indikator vanskelig, fordi AUC er følsom over for støj [12] . Også i nogle papirer bemærkes yderligere problemer, der opstår, når AUC- værdien bruges til at sammenligne modeller [13] [14] . Som nævnt tidligere kan værdien af ​​arealet under kurven bruges som en værdi af sandsynligheden for, at en tilfældigt valgt positiv enhed vil blive tildelt en vægt, der er større end en tilfældigt valgt negativ. I en række værker [12] [13] blev der imidlertid gjort antagelser om vanskeligheden ved at opnå pålidelige estimater af AUC- værdierne . Der er således blevet sat spørgsmålstegn ved den praktiske værdi af AUC- indikatoren [14] , hvilket indikerer, at værdien ofte kan introducere mere usikkerhed end klarhed.

ROC-kurver i ikke-binære klassifikationsproblemer

Udvidelsen af ​​ROC-kurver til tilfælde af klassifikationsproblemer med mere end to klasser har altid været behæftet med vanskeligheder, da antallet af frihedsgrader vokser kvadratisk med antallet af klasser, og ROC-rummet har dimensioner , hvor  er antal klasser. [15] Der er også udviklet nogle praktiske tilgange til det tilfælde, hvor antallet af klasser er tre. [16] Volumen under ROC-overfladen ( VUS - Volume Under Surface ) betragtes som en kvalitetsmåling af klassifikatorer for ikke-binære klassifikationsproblemer. [17] På grund af kompleksiteten af ​​analysen af ​​VUS-variablen er der imidlertid udviklet andre tilgange [18] baseret på udvidelsen af ​​VUS- konceptet .

På grund af den vellykkede anvendelse af ROC-kurver til at analysere kvaliteten af ​​klassifikatorer, er udvidelser af ROC-kurver til andre overvågede læringsproblemer blevet undersøgt . Blandt de værker, der er værd at bemærke, er dem, der er dedikeret til de såkaldte REC-kurver ( regressionsfejlkarakteristik - REC-kurve ) [19] og RROC-kurver ( Regressions ROC-kurver ) [20] . Det er værd at bemærke, at arealet under RROC-kurven er proportional med regressionsmodellens fejlvarians .

Se også

Noter

  1. Green, David M.; Swets, John A. Signaldetektionsteori og  psykofysik . - New York, NY: John Wiley and Sons Inc., 1966. - ISBN 0-471-32420-5 .
  2. Zweig, Mark H.; Campbell, Gregory. Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine  (engelsk)  // Clinical Chemistry: journal. - 1993. - Bd. 39 , nr. 8 . - s. 561-577 . — PMID 8472349 .
  3. Pepe, Margaret S. Den statistiske evaluering af medicinske tests til klassificering og forudsigelse  . — New York, NY: Oxford, 2003. — ISBN 0-19-856582-8 .
  4. Sushkova, OS; Morozov, A.A.; Gabova, A.V.; Karabanov, AV; Illarioshkin, SN En statistisk metode til udforskende dataanalyse baseret på 2D- og 3D-areal under kurvediagrammer: Parkinsons sygdomsundersøgelse  (engelsk)  // Sensorer: tidsskrift. - MDPI, 2021. - Vol. 21 , nr. 14 . — S. 4700 .
  5. Obuchowski, Nancy A. Modtagerdriftskarakteristiske kurver og deres anvendelse i radiologi  //  Radiologi: tidsskrift. - 2003. - Bd. 229 , nr. 1 . - S. 3-8 . - doi : 10.1148/radiol.2291010898 . — PMID 14519861 .
  6. Spackman, Kent A. (1989). "Signaldetektionsteori: Værdifulde værktøjer til evaluering af induktiv læring". Proceedings of the Sixth International Workshop on Machine Learning . San Mateo, Californien: Morgan Kaufmann . pp. 160-163.
  7. Fawcett, Tom (2006); En introduktion til ROC-analyse , Pattern Recognition Letters, 27, 861-874.
  8. Hanley, James A.; McNeil, Barbara J. Betydningen og brugen af ​​området under en modtageroperationskarakteristik (ROC) Curve  //  Radiology : journal. - 1982. - Bd. 143 . - S. 29-36 . — PMID 7063747 .
  9. 1 2 Mason, Simon J.; Graham, Nicholas E. Områder under kurverne for relative driftskarakteristika (ROC) og relative driftsniveauer (ROL): Statistisk signifikans og fortolkning  // Quarterly  Journal of the Royal Meteorological Society : journal. - 2002. - Nej. 128 . - S. 2145-2166 .
  10. Hand, David J.; og Till, Robert J. (2001); En simpel generalisering af området under ROC-kurven for flere klasseklassifikationsproblemer, Machine Learning, 45, 171-186.
  11. Hanley, James A.; McNeil, Barbara J. En metode til at sammenligne områderne under operationskarakteristiske kurver afledt af de samme tilfælde  //  Radiology : journal. - 1983. - 1. september ( bd. 148 , nr. 3 ). - s. 839-843 . — PMID 6878708 .
  12. 1 2 Hanczar, Blaise; Hua, Jianping; Sima, Chao; Weinstein, John; Bittner, Michael; og Dougherty, Edward R. (2010); Småprøvepræcision af ROC-relaterede estimater , Bioinformatics 26(6): 822-830
  13. 1 2 Lobo, Jorge M.; Jimenez-Valverde, Alberto; og Real, Raimundo (2008), AUC: et vildledende mål for præstationen af ​​prædiktive distributionsmodeller , Global Ecology and Biogeography, 17: 145-151
  14. 1 2 Hand, David J. (2009); Måling af klassificeringsydelse: Et sammenhængende alternativ til området under ROC-kurven , Machine Learning, 77: 103-123
  15. Srinivasan, A. (1999). "Note om placeringen af ​​optimale klassifikatorer i N-dimensionelt ROC-rum". Teknisk rapport PRG-TR-2-99, Oxford University Computing Laboratory, Wolfson Building, Parks Road, Oxford .
  16. Mossman, D. Tre-vejs ROC'er  (uspecificeret)  // Medicinsk beslutningstagning. - 1999. - T. 19 . - S. 78-89 . doi : 10.1177 / 0272989x9901900110 .
  17. Ferry, C.; Hernandez Orallo, J.; Salido, M.A. (2003). "Bind under ROC-overfladen til problemer med flere klasser". Machine Learning: ECML 2003 . pp. 108-120.
  18. Till, DJ; Hånd, RJ En simpel generalisering af området under ROC-kurven for problemer med flere klasseklassifikationer  //  Machine Learning : journal. - 2012. - Bd. 45 . - S. 171-186 .
  19. Bi, J.; Bennett, KP (2003). "Regressionsfejlskarakteristiske kurver". Twentieth International Conference on Machine Learning (ICML-2003). Washington, DC .
  20. Hernandez-Orallo, J. ROC-kurver for regression  (ubestemt)  // Mønstergenkendelse. - 2013. - T. 46 , nr. 12 . - S. 3395-3411. . - doi : 10.1016/j.patcog.2013.06.014 .