Bias-Dispersion Dilemma

Varians-varians-afvejningen i statistik og maskinlæring  er en egenskab ved et sæt forudsigelsesmodeller, hvor modeller med mindre varians fra de tilgængelige data har højere varians på nye data (dvs. underlagt overtilpasning ) og omvendt. Varians-varians- afvejningen  er konflikten i forsøget på samtidig at minimere disse to fejlkilder , som forhindrer overvågede læringsalgoritmer i at generalisere ud over træningssættet .

Bias-varians-dekomponeringen  er en måde at analysere den forventede generaliseringsfejl af en indlæringsalgoritme for et bestemt problem ved at reducere den til summen af ​​tre led - bias, varians og en størrelse kaldet uundgåelig fejl , hvilket er resultatet af støj i selve problemet.

Dilemmaet opstår i alle former for superviseret indlæring  - i klassifikation , regression ( funktionstilnærmelse ) [1] [2] og strukturel forudsigelse . Dilemmaet bruges også til at forklare effektiviteten af ​​heuristik til at undervise mennesker [3] .

Motiver

Bias-variance dilemmaet er et centralt problem i superviseret læring. Den valgte model skal på den ene side præcist fange alle mønstrene i træningsdataene, og på den anden side generalisere mønstrene til ukendte data. Desværre er det normalt ikke muligt at gøre begge dele på samme tid. Træningsmetoder med høj varians kan repræsentere træningssættet godt, men risikerer at blive overudstyret til støjende eller ikke-repræsentative data. I modsætning hertil producerer algoritmer med lav varians typisk enklere modeller, er ikke tilbøjelige til at overfitte , men kan ende med at undertilpasse , hvilket fører til manglende vigtige egenskaber.

Modeller med lav bias har en tendens til at være mere komplekse (for eksempel har de højere ordens regressionspolynomier), hvilket giver dem mulighed for at repræsentere træningssættet mere præcist. De kan dog have en stor støjkomponent hvilket gør forudsigelsen mindre præcis på trods af den ekstra kompleksitet. I modsætning hertil er modeller med høj bias relativt simplere (har lavere orden eller endda lineære polynomier), men kan producere lav forudsigelsesvarians, hvis de anvendes uden for træningssættet.

Bias-varians dekomponering af kvadreret fejl

Antag, at vi har et træningssæt bestående af et sæt point og reelle værdier forbundet med hvert af disse punkter . Vi antager, at der er en støjende funktion, hvor støjen har nul middelværdi og varians .

Vi ønsker at finde en funktion , der tilnærmer den sande funktion så godt som muligt i form af en indlæringsalgoritme. Vi gør begrebet "så godt som muligt" præcist ved at måle den gennemsnitlige kvadratiske fejl mellem og  - vi ønsker, at værdien skal være minimal både for punkter og uden for vores stikprøve . Naturligvis kan vi ikke gøre det perfekt, fordi det indeholder støj . Det betyder, at vi skal være parate til at acceptere en fatal fejl i enhver funktion, vi arbejder med.

At finde en funktion , der generaliserer til punkter uden for træningssættet, kan udføres ved hjælp af en hvilken som helst af et utalligt antal algoritmer, der bruges til overvåget læring. Det viser sig, at uanset hvilken funktion vi vælger, kan vi dekomponere dens forventede fejl på den usete dataforekomst som følger: [4] [5] .

,

hvor

og

Matematiske forventninger løber gennem forskellige valg af træningssæt fra den samme fælles fordeling . De tre medlemmer repræsenterer

Jo mere kompleks modellen er, jo flere datapunkter fanger den, og jo mindre vil bias være. Men kompleksiteten får modellen til at fange flere point, og derfor vil dens varians være større.

Konklusion

Udledningen af ​​bias-varians-dekomponeringen for rms-fejlen er angivet nedenfor [6] [7] . For nemheds skyld introducerer vi notationen og . Husk først, at vi pr. definition har for enhver tilfældig variabel

Omarrangering af vilkårene får vi:

For det er bestemt

.

Så følger det af og det .

Men siden vi får

Da og er uafhængige, kan vi skrive

Ansøgning om regression

Bias-varians-nedbrydningen danner det begrebsmæssige grundlag for regressionsregulariseringsmetoder som Lasso og ridge-regression . Regulariseringsmetoder introducerer bias i regressionsløsningen, hvilket kan reducere variansen betydeligt sammenlignet med Ordinary Least Squares OLS ) . Selvom GLSM-løsningen giver et upartisk regressionsestimat, giver de lavere variansløsninger opnået ved regularisering en fremragende middelkvadratfejl.  

Ansøgning om klassificering

Bias-varians-nedbrydningen blev oprindeligt formuleret til lineær mindste kvadraters regression . For klassifikationstilfældet med en 0-1 tabsfunktion (fejlklassificeret fraktion) kan en lignende nedbrydning findes [8] [9] . Alternativt, hvis klassifikationsproblemet kan formuleres som en probabilistisk klassifikation , kan forventningen om den kvadrerede fejl af de forudsagte sandsynligheder i forhold til de sande sandsynligheder dekomponeres som før [10] .

Tilnærmelser

Dimensionalitetsreduktion og funktionsvalg kan reducere variansen ved at forenkle modeller. Ligeledes fører et større træningssæt til et fald i variansen. Tilføjelse af funktioner (prædiktorer) fører til et fald i bias ved at øge variansen. Læringsalgoritmer har normalt nogle konfigurerbare parametre, der styrer bias og varians. For eksempel,

En måde at løse dilemmaet på er at bruge blandede modeller og kompositorisk læring [14] [15] . For eksempel kombinerer forcering flere "svage" (høj bias) modeller til en bygning, der har en lavere bias end hver af de individuelle modeller, mens bagging kombinerer "streng" træning på en måde, der reducerer varians.

k -nærmeste naboer

I tilfælde af k -nearest neighbor - regression er der et lukket udtryk , der relaterer bias-varians-dekomponeringen til parameteren k [5] :

hvor er de k nærmeste naboer til x i træningssættet. Forspændingen (første led) er en monotont stigende funktion af k , mens variansen (anden led) aftager, når k øges . Faktisk, under "rimelige antagelser" forsvinder den nærmeste nabo-bias-estimator (1-NN) fuldstændig, efterhånden som træningssættets størrelse går til uendeligt [1] .

Ansøgning om undervisning af mennesker

Mens bias-variance dilemmaet er meget diskuteret i sammenhæng med maskinlæring, er det blevet testet i sammenhæng med menneskelig kognition , især af Gerd Gigerenzer et al. De hævder, at (se referencer nedenfor) den menneskelige hjerne løser dilemmaet i tilfælde af sparsomme, dårligt beskrevne træningssæt afledt af personlig erfaring ved at bruge en høj bias/lav varians heuristik. Dette afspejler det faktum, at nul-bias-tilgangen har dårlig generalisering til nye situationer, og også urimeligt forudsætter præcis viden om verdens tilstand. Den resulterende heuristik er relativt enkel, men giver en bedre tilpasning til en lang række forskellige situationer [3] .

Gieman et al. [1] imødegår , at bias-dispersion dilemmaet indebærer, at kapaciteter såsom fælles objektgenkendelse ikke kan erhverves fra bunden, men kræver en form for "hardwiring", der så bliver til erfaring. Dette er grunden til, at modelløse inferenstilgange kræver urimeligt store træningssæt, hvis høj varians skal undgås.

Se også

Noter

  1. 1 2 3 4 Geman, Bienenstock, Doursat, 1992 , s. 1-58.
  2. Encyclopedia of Machine Learning, 2011 , s. 100-101.
  3. 1 2 Gigerenzer, Brighton, 2009 , s. 107-143.
  4. 1 2 James, Witten, Hastie, Tibshirani, 2013 , s. 34.
  5. 1 2 Hastie, Tibshirani, Friedman, 2009 , s. 223.
  6. Vijayakumar, 2007 .
  7. Shakhnarovich, 2011 .
  8. Domingos, 2000 .
  9. Valentini, Dietterich, 2004 , s. 725-775.
  10. Manning, Raghavan, Schütze, 2008 , s. 308-314.
  11. Belsley, 1991 .
  12. Gagliardi, 2011 , s. 123-139.
  13. James, Witten, Hastie, Tibshirani, 2013 , s. 307.
  14. Ting, Vijaykumar, Schaal, 2011 , s. 615.
  15. Fortmann-Roe, 2012 .

Litteratur