Online maskinlæring

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 9. november 2021; checks kræver 2 redigeringer .

Online maskinlæring er en maskinlæringsteknik, hvor data gøres tilgængelige i sekventiel rækkefølge og bruges til at opdatere den bedste forudsigelse for efterfølgende data, udført ved hvert træningstrin. Metoden er modsat batchtræningsteknikken, hvor den bedste forudsigelse genereres på én gang fra det fulde træningsdatasæt. Online læring er en almindelig teknik, der bruges inden for maskinlæring, når det ikke er muligt at træne på hele datasættet, som når der er behov for algoritmer, der arbejder med ekstern hukommelse. Metoden bruges også i situationer, hvor algoritmen dynamisk skal tilpasse nye mønstre i dataene, eller når selve dataene er dannet som en funktion af tiden, for eksempel ved forudsigelse af kurser på aktiemarkedet . Online læringsalgoritmer kan være tilbøjelige til katastrofal interferens , et problem der kan løses med en trin-for- trin læringstilgang [1] .

Introduktion

Under superviserede læringsforhold trænes en funktion , hvor der betragtes som rummet for inputdata, og er rummet for outputdata, som forudsiger godt på elementerne i den fælles sandsynlighedsfordeling på . I virkeligheden, i træning, er den sande fordeling aldrig kendt. Normalt er der tværtimod adgang til træningssættet med eksempler . Under disse forhold er tabsfunktionen givet som sådan, at den måler forskellen mellem den forudsagte værdi og den sande værdi af . Det ideelle mål er at vælge en funktion , hvor er et rum af funktioner, kaldet hypoteserum, sådan at det totale tab er minimalt i en eller anden forstand. Afhængigt af typen af ​​model (statistisk eller kontradiktorisk) kan der udvikles forskellige begreber om tab, der fører til forskellige indlæringsalgoritmer.

Et statistisk syn på online læring

I statistiske læringsmodeller antages testprøven at være trukket fra den sande fordeling, og målet med læring er at minimere den forventede "risiko"

Det generelle paradigme i denne situation er at evaluere funktionen ved at minimere empirisk risiko eller minimere regulariseret empirisk risiko (typisk ved hjælp af Tikhonovs regularisering ). Valget af tabsfunktion her giver flere velkendte indlæringsalgoritmer såsom regulariserede mindste kvadrater og understøttende vektormaskiner . En ren online model i denne kategori ville være at træne kun på nye input , den nuværende bedste forudsigelse og nogle ekstra lagrede informationer (som normalt har hukommelseskrav uafhængigt af størrelsen af ​​dataene). For mange problemindstillinger, såsom ikke-lineære kernemetoder , er ægte online læring ikke mulig, selvom hybride former for online læring med rekursive algoritmer kan bruges, hvor værdien tillades at afhænge af og alle tidligere datapunkter . I dette tilfælde kan hukommelseskravene ikke længere begrænses, fordi alle tidligere punkter skal beholdes, men løsningen kan tage kortere tid at beregne med nye datapunkter tilføjet end batchindlæringsteknikker.

En almindelig strategi til at håndtere dette problem er mini-batch læring, hvor små batches af datapunkter behandles på et tidspunkt, og dette kan ses som pseudo-online læring for et meget mindre samlet antal træningspunkter. Minibatch-teknikken bruges med iteration over træningsdataene for at opnå en optimeret version af ekstern hukommelsesmaskineindlæringsalgoritmer, såsom stokastisk gradientnedstigning . Når det kombineres med backpropagation, er dette i øjeblikket de facto træningsmetoden til kunstige neurale netværk .

Eksempel: lineære mindste kvadrater

Lineære mindste kvadrater bruges her til at forklare forskellige online læringsideer. Idéerne er generelle nok til at kunne anvendes til andre indstillinger, såsom andre konvekse tabsfunktioner .

Batch læring

I en overvåget indstilling med en kvadratisk tabsfunktion er målet at minimere det empiriske tab

, hvor .

Lad være en matrix af data og være en matrix af målværdier efter ankomsten af ​​de første datapunkter. Forudsat at kovariansmatrixen er inverterbar (ellers bør en procedure svarende til Tikhonovs regularisering udføres), er den bedste løsning af mindste kvadraters metode givet af ligheden

.

Nu vil beregningen af ​​kovariansmatrixen tage tid, matrixinversionen vil tage tid, og matrixmultiplikationen vil tage tid, hvilket giver den samlede tid . Hvis der i alt er punkter i datasættet, og du skal genberegne løsningen, efter hvert datapunkt ankommer , vil den naturlige tilgang have fuld kompleksitet . Bemærk, at hvis matrixen er gemt, kræver opdatering ved hvert trin kun tilføjelse , hvilket tager tid, hvilket reducerer den samlede tid til , men kræver yderligere lagerplads [ 2] .

Online læring: rekursive mindste kvadrater

Rekursive mindste kvadrater overvejer en online tilgang til mindste kvadrater. Det kan vises, at med initialisering og løsningen af ​​den lineære mindste kvadraters metode kan beregnes som følger:

Ovenstående iterative algoritme kan bevises ved induktion på [3] . Det viser beviset også . Man kan betragte rekursive mindste kvadrater i sammenhæng med adaptive filtre (se Rekursive mindste kvadrater ).

Kompleksiteten af ​​trinene i denne algoritme er , hvilket er hurtigere end den tilsvarende batchindlæringskompleksitet. Den hukommelse, der kræves for hvert trin for at gemme matrixen, er her en konstant . I det tilfælde, hvor den ikke er reversibel, overvejes en regulariseret version af tabsfunktionen . Så er det nemt at vise, at den samme algoritme virker med , og fortsatte iterationer giver [2] .

Stokastisk gradientnedstigningsmetode

Hvis ligestilling

Erstattet af

eller på , dette bliver en stokastisk gradient-nedstigningsalgoritme. I dette tilfælde reduceres kompleksiteten for trinene i denne algoritme til . Hukommelseskravet ved hvert trin er konstant .

Trinstørrelsen til løsning af det forventede risikominimeringsproblem bør dog vælges omhyggeligt, som forklaret ovenfor. Ved at vælge størrelsen på dæmpningstrinnet kan konvergensen af ​​den gennemsnitlige iteration bevises . Disse indstillinger er et særligt tilfælde af stokastisk optimering , et velkendt optimeringsproblem [2] .

Inkrementel Stokastisk Gradient Descent

I praksis er det muligt at udføre flere stokastiske gradientpassager over dataene. Den resulterende algoritme kaldes den inkrementelle gradientmetode og svarer til iterationen

Hovedforskellen med den stokastiske gradientmetode er, at det her er valgt at bestemme hvilket træningspunkt der besøges i trin . En sådan sekvens kan være tilfældig eller deterministisk. Antallet af iterationer er således afkoblet fra antallet af punkter (hvert punkt kan ses mere end én gang). Det kan påvises, at den inkrementelle gradientmetode giver empirisk risikominimering [4] . Inkrementelle teknikker kan have fordele, når man betragter den objektive funktion som summen af ​​mange elementer, for eksempel som en empirisk fejl i et meget stort datasæt [2] .

Nukleare metoder

Kerner kan bruges til at udvide ovenstående algoritmer til ikke-parametriske modeller (eller modeller, hvor parametrene danner et uendeligt dimensionelt rum). Den tilsvarende procedure vil ikke længere være virkelig online og i stedet gemme alle datapunkter, men metoden forbliver hurtigere end brute force. Denne diskussion er begrænset til tilfældet med kvadratisk tab, selvom den kan udvides til enhver konveks tabsfunktion. Det kan vises ved direkte induktion [2] , at når a er en datamatrix, er a outputtet efter trinene i den tilfældige gradientnedstigningsalgoritme, så

hvor og rækkefølgen opfylder de tilbagevendende relationer

og

Bemærk, at her er standardkernen i , og forudsigelsesfunktionen har formen

.

Hvis vi nu introducerer en fælles kerne og repræsenterer forudsigelsesfunktionen som

,

så viser det samme bevis, at mindste kvadraters minimering af tabsfunktionen opnås ved at erstatte ovenstående rekursion med

Ovenstående udtryk kræver, at man husker alle data for at opdatere . Den samlede tidskompleksitet for rekursion, hvis den beregnes for det -. datapunkt, er , hvor er omkostningerne ved at beregne kernen på et par punkter [2] . Brug af kernen tillader derefter bevægelse fra et finitdimensionelt parameterrum til et muligvis uendeligt dimensionelt rum repræsenteret af kernen i stedet for at vende tilbage over parameterrummet , hvis dimension er den samme som størrelsen af ​​træningsdatasættet. Generelt er denne tilgang en konsekvens af repræsentationssætningen [2] .

Progressiv læring

Progressiv læring er en effektiv læringsmodel, der demonstreres af menneskers læreproces. Denne læringsproces er kontinuerlig og kommer fra direkte erfaring. Den progressive læringsteknik inden for maskinlæring kan lære nye klasser eller etiketter dynamisk på farten [5] . Selvom online træning kan træne nye dataeksempler , der kommer ind sekventielt, kan de ikke træne nye dataklasser . Det progressive lærings-læringsparadigme er uafhængigt af antallet af klassebegrænsninger og kan undervise i nye klasser, samtidig med at kendskabet fra tidligere klasser bevares. Men hvis en ny klasse (ikke naturligt forekommende) stødes på, genopbygges klassificereren automatisk, og parametrene beregnes på en sådan måde, at tidligere viden bevares. Denne teknik er velegnet til applikationer i den virkelige verden, hvor antallet af klasser ofte er ukendt, og online læring fra realtidsdata er påkrævet.

Online konveks optimering

Online konveks optimering [6] er et generelt beslutningsskema, der bruger konveks optimering til at opnå effektive algoritmer. Ordningen er en gentagelse af følgende handlinger:

Til

Målet er at minimere "fortryd" eller forskellen mellem det samlede tab og tabet på det bedste fikspunkt set i bakspejlet. Som et eksempel kan du overveje tilfældet med online lineær mindste kvadraters regression. Her kommer vægten af ​​vektorerne fra en konveks mængde og naturen returnerer en konveks tabsfunktion . Bemærk, at implicit sendes med .

Nogle online forudsigelsesproblemer kan dog ikke passe ind i det online konvekse optimeringsskema. For eksempel i onlineklassifikation er forudsigelsesområdet og tabsfunktionerne ikke konvekse. I sådanne scenarier bruges to simple teknikker til reduktion af konvekse tilfælde - randomisering og surrogattabsfunktioner.

Nogle enkle online konvekse optimeringsalgoritmer:

Følg lederen

Den enkleste indlæringsregel for et forsøg er at vælge (på det aktuelle trin) den hypotese, der har det mindste tab blandt alle tidligere runder. Denne algoritme kaldes  " Følg lederen " og giver blot en runde :

Denne metode kan så opfattes som en grådig algoritme . For tilfældet med online kvadratisk optimering (hvor tabsfunktionen er ), kan det påvises, at "fortryd"-grænsen vokser som . Der kan dog ikke opnås lignende grænser for follow-the-leader-algoritmen for andre vigtige modelfamilier som for online lineær optimering. For at få dem føjes regularisering til algoritmen.

Følger en regulær leder

Dette er en naturlig modifikation af leder-følgende algoritme, der bruges til at stabilisere leder-følgende beslutninger og opnå bedre fortrydelsesgrænser. Der vælges en regulariseringsfunktion og træningen udføres i runde t som følger:

Som et særligt tilfælde skal du overveje tilfældet med online lineær optimering, det vil sige, når naturen returnerer tabsfunktioner i formen . Lad også . Antag, at regulariseringsfunktionen er valgt for et positivt tal . Så kan det påvises, at iterationen med at minimere "fortrydelse" bliver til

Bemærk, at dette kan omskrives som , hvilket ser nøjagtigt ud som online gradient descent-metoden.

Hvis S er et konveks underrum , skal S projiceres, hvilket resulterer i en ændret opdateringsregel

Algoritmen er kendt som doven projektion, fordi vektoren akkumulerer gradienter. Dette er også kendt som Nesterovs dobbeltgennemsnitsalgoritme (eller subgradient dobbeltgennemsnitsmetode [7] ). I dette scenarie er lineære tabsfunktioner og kvadratisk regularisering "beklagelse" begrænset til , og så har den gennemsnitlige "beklagelse" en tendens til 0 .

Online subgradient descent

"Beklagelsen" bundet til lineære tabsfunktioner er blevet bevist ovenfor . For at generalisere algoritmen til enhver konveks tabsfunktion, bruges funktionen subgradient som en lineær tilnærmelse omkring , hvilket fører til online subgradient descent-algoritmen:

Start af en parameter

Til

  • Vi laver en forudsigelse ved at bruge , vi får fra naturen .
  • Vælge
  • Hvis , lav en opdatering
  • Hvis , projekt kumulative gradienter til dvs

Du kan bruge online subgradient descent-algoritmen til at få "beklagelse"-grænserne for onlineversionen af ​​støttevektormaskinen til klassificering , som bruger en stykkevis lineær tabsfunktion

Andre algoritmer

Kvadratregulerede leder-følgende algoritmer fører til dovent projicerede gradientalgoritmer, som beskrevet ovenfor. For at bruge ovenstående tilgang til alle konvekse funktioner og regularizers kan online spejlnedstigning bruges. Optimal regularisering i en stykkevis lineær funktion kan opnås for lineære tabsfunktioner, hvilket fører til AdaGrad- algoritmen . For euklidisk regularisering kan det påvises, at "beklagelsen"-bundet er ens og kan forbedres til strengt konvekse og eksp-konkave tabsfunktioner.

Fortolkninger af online læring

Online læringsparadigmet har forskellige fortolkninger afhængigt af valget af læringsmodel, hver med en forskellig kvalitet af forudsigelser af træksekvenser . Til diskussion bruger vi den stokastiske gradientnedstigningsalgoritme. Som nævnt ovenfor er rekursionen af ​​algoritmen givet af ligheden

Den første fortolkning betragter den stokastiske gradientnedstigningsmetode som en anvendelse på det forventede risikominimeringsproblem defineret ovenfor [8] . Desuden, i tilfælde af en uendelig datastrøm, da tilfældene antages at være samplet fra en uafhængig og ligeligt fordelt fordeling , er gradientsekvenserne i iterationen ovenfor uafhængige og ligeligt fordelte prøver af det forventede risiko stokastiske gradientestimat , og derfor man kan anvende kompleksitetsresultaterne for den stokastiske gradientnedstigningsmetode til at begrænse afvigelse , hvor er minimizeren [9] . Denne fortolkning gælder også for begrænsede træningssæt. Selvom gradienterne ikke længere vil være uafhængige, når der itereres over dataene, kan kompleksitetsresultater i særlige tilfælde opnås.

Den anden fortolkning anvendes på tilfældet med et begrænset træningssæt og betragter den stokastiske gradientnedstigningsalgoritme som en repræsentant for inkrementel gradientnedstigning [4] . I dette tilfælde kan man se på den empiriske risiko:

Da gradienterne i iterationer af inkrementel gradientnedstigning er stokastiske estimater af gradienten , er denne fortolkning relateret til metoden for stokastisk gradientnedstigning, men anvendt til empirisk risikominimering i modsætning til forventet risiko. Fordi denne fortolkning handler om empirisk risiko snarere end forventet risiko, er flere pass over dataene fuldkommen gyldige og fører faktisk til stramme variansgrænser , hvor .

Implementeringer

Se også

Noter

  1. Katastrofal interferens er kunstige neurale netværks tendens til pludselig helt at glemme alt, hvad netværket er blevet trænet til at gøre før.
  2. 1 2 3 4 5 6 7 Rosasco, Poggio, 2015 .
  3. Yin, Kushner, 2003 , s. 8-12.
  4. 12 Bertsekas , 2011 .
  5. Venkatesan, Meng Joo, 2016 , s. 310-321.
  6. Hazan, 2015 .
  7. Dolgopolik, 2016 .
  8. Bottou, 1998 .
  9. Kushner, Yin, 1997 .

Litteratur

  • Leon Bottou. Online algoritmer og stokastiske approksimationer // Online læring og neurale netværk . - Cambridge University Press, 1998. - ISBN 978-0-521-65263-6 .
  • Rosasco L., Poggio T. Kapitel 7 - Online læring // Machine Learning: a Regularization Approach . MIT-9.520 Forelæsningsnotater. - 2015. - (Manuskript).
  • Harold J. Kushner, G. George Yin. Stokastiske approksimationsalgoritmer og applikationer. - New York: Springer-Verlag, 1997. - ISBN 0-387-94916-X .
    • Harold J. Kushner, G. George Yin. Stokastisk approksimation og rekursive algoritmer og applikationer. - 2. udg. - New York: Springer-Verlag, 2003. - ISBN 0-387-00894-2 .
  • Elad Hazan. Introduktion til online konveks optimering . — Foundations and Trends® in Optimization, 2015.
  • Rajasekar Venkatesan, Er Meng Joo. En ny progressiv læringsteknik til klassificering i flere klasser // Neurocomputing. - 2016. - T. 207 . - doi : 10.1016/j.neucom.2016.05.006 . - arXiv : 1609.00085 .
  • Dolgopolik MV Nesterovs metode til at minimere konvekse funktioner. – 2016.
  • Harold J. Yin, G. George Kushner. Stokastisk tilnærmelse og rekursive algoritmer og applikationer. - Sekund. - New York: Springer, 2003. - ISBN 978-0-387-21769-7 .
  • Bertsekas DP Inkrementelle gradient-, subgradient- og proksimale metoder til konveks optimering: en undersøgelse // Optimization for Machine Learning. - 2011. - Udgave. 85 .

Links