Empirisk risikominimering

Empirisk risikominimering ( ERM) er et  princip for statistisk læringsteori, der definerer en familie af læringsalgoritmer , og som sætter de teoretiske grænser for ydeevne.

Fundamenter

Overvej følgende situation, som er den grundlæggende indstilling for mange overvågede læringsopgaver . Vi har to objektrum og og vil gerne træne en funktion (ofte kaldet en hypotese ), der kortlægger et objekt til et objekt . For at gøre dette har vi til rådighed et træningssæt af instanser , hvor input er og er det tilsvarende svar, som vi ønsker fra .

Mere formelt antage, at der er en fælles fordeling over og , og at træningssættet består af forekomster af , udvalgt fra uafhængige stokastiske variable fra . Bemærk, at den fælles fordelingsantagelse giver os mulighed for at simulere usikkerhed i forudsigelsen (for eksempel på grund af støj i dataene), da det ikke er en deterministisk funktion af , men derimod en tilfældig variabel med en betinget fordeling for en fast .

Antag også, at vi får en ikke-negativ real- vurderet tabsfunktion , som måler, hvor forskellig forudsigelsen af ​​hypotesen er fra det sande output . Risikoen forbundet med hypotesen , defineres derefter som den forventede værdi af tabsfunktion:

Tabsfunktionen 0-1 bruges ofte som tabsfunktionen i teorien : , hvor står for indikatoren .

Det højeste mål med indlæringsalgoritmen er at finde en hypotese i en fast klasse af funktioner , hvor risikoen er minimal:

Empirisk risikominimering

Generelt kan risikoen ikke beregnes, fordi fordelingen er ukendt for læringsalgoritmen (denne situation kaldes læringsagnostisk ). Vi kan dog beregne en tilnærmelse kaldet empirisk risiko ved at tage et gennemsnit af tabsfunktionen over træningssættet:

Princippet om empirisk risikominimering (ERM) [1] siger, at læringsalgoritmen skal vælge den hypotese , der minimerer risikoen:

Så består læringsalgoritmen defineret af MED-princippet i at løse ovenstående optimeringsproblem .

Egenskaber

Beregningsmæssig kompleksitet

Det er kendt, at empirisk risikominimering for et klassifikationsproblem med en 0-1 tabsfunktion er NP-hård selv for en så relativt simpel klasse af problemfunktioner som lineære klassifikatorer [2] . Selvom det effektivt kan løses, når den minimale empiriske risiko er nul, dvs. dataene er lineært adskillelige .

I praksis håndterer auto-læringsalgoritmer dette enten ved konveks tilnærmelse til 0-1 af tabsfunktionen (svarende til den stykkevise lineære tabsfunktion for støtteelementmaskiner ), som er nemmere at optimere, eller ved at lave en antagelse om fordelingen (og så holder læringsalgoritmen op med at være agnostisk).

Se også

Noter

  1. Vapnik, 1992 , s. 831-838.
  2. Feldman, Guruswami, Raghavendra, Wu, 2012 , s. 1558-1590.

Litteratur

Læsning for yderligere læsning