Online maskinlæring

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 9. november 2021; checks kræver 2 redigeringer .

Online maskinlæring er en maskinlæringsteknik, hvor data gøres tilgængelige i sekventiel rækkefølge og bruges til at opdatere den bedste forudsigelse for efterfølgende data, udført ved hvert træningstrin. Metoden er modsat batchtræningsteknikken, hvor den bedste forudsigelse genereres på én gang fra det fulde træningsdatasæt. Online læring er en almindelig teknik, der bruges inden for maskinlæring, når det ikke er muligt at træne på hele datasættet, som når der er behov for algoritmer, der arbejder med ekstern hukommelse. Metoden bruges også i situationer, hvor algoritmen dynamisk skal tilpasse nye mønstre i dataene, eller når selve dataene er dannet som en funktion af tiden, for eksempel ved forudsigelse af kurser på aktiemarkedet . Online læringsalgoritmer kan være tilbøjelige til katastrofal interferens , et problem der kan løses med en trin-for- trin læringstilgang [1] .

Introduktion

Under superviserede læringsforhold trænes en funktion , hvor der betragtes som rummet for inputdata, og er rummet for outputdata, som forudsiger godt på elementerne i den fælles sandsynlighedsfordeling på . I virkeligheden, i træning, er den sande fordeling aldrig kendt. Normalt er der tværtimod adgang til træningssættet med eksempler . Under disse forhold er tabsfunktionen givet som sådan, at den måler forskellen mellem den forudsagte værdi og den sande værdi af . Det ideelle mål er at vælge en funktion , hvor er et rum af funktioner, kaldet hypoteserum, sådan at det totale tab er minimalt i en eller anden forstand. Afhængigt af typen af model (statistisk eller kontradiktorisk) kan der udvikles forskellige begreber om tab, der fører til forskellige indlæringsalgoritmer. $f:X\to Y$ $x$ $Y$ $p(x,y)$ $X \ gange Y$ $p(x,y)$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $V:Y\ gange Y\to \mathbb {R}$ $V(f(x),y)$ $f(x)$ $y$ $f\in {\mathcal {H}}$ ${\mathcal {H}}$

Et statistisk syn på online læring

I statistiske læringsmodeller antages testprøven at være trukket fra den sande fordeling, og målet med læring er at minimere den forventede "risiko" $(x_{i},y_{i})$ $p(x,y)$

I[f]=\mathbb {E} [V(f(x),y)]=\int V(f(x),y)\,dp(x,y)\ .

Det generelle paradigme i denne situation er at evaluere funktionen ved at minimere empirisk risiko eller minimere regulariseret empirisk risiko (typisk ved hjælp af Tikhonovs regularisering ). Valget af tabsfunktion her giver flere velkendte indlæringsalgoritmer såsom regulariserede mindste kvadrater og understøttende vektormaskiner . En ren online model i denne kategori ville være at træne kun på nye input , den nuværende bedste forudsigelse og nogle ekstra lagrede informationer (som normalt har hukommelseskrav uafhængigt af størrelsen af dataene). For mange problemindstillinger, såsom ikke-lineære kernemetoder , er ægte online læring ikke mulig, selvom hybride former for online læring med rekursive algoritmer kan bruges, hvor værdien tillades at afhænge af og alle tidligere datapunkter . I dette tilfælde kan hukommelseskravene ikke længere begrænses, fordi alle tidligere punkter skal beholdes, men løsningen kan tage kortere tid at beregne med nye datapunkter tilføjet end batchindlæringsteknikker. ${\hat {f))$ $(x_{t+1},y_{t+1})$ ${\displaystyle f_{t))$ $f_{t+1}$ $f_t$ $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$

En almindelig strategi til at håndtere dette problem er mini-batch læring, hvor små batches af datapunkter behandles på et tidspunkt, og dette kan ses som pseudo-online læring for et meget mindre samlet antal træningspunkter. Minibatch-teknikken bruges med iteration over træningsdataene for at opnå en optimeret version af ekstern hukommelsesmaskineindlæringsalgoritmer, såsom stokastisk gradientnedstigning . Når det kombineres med backpropagation, er dette i øjeblikket de facto træningsmetoden til kunstige neurale netværk . $b\geq 1$ $b$

Eksempel: lineære mindste kvadrater

Lineære mindste kvadrater bruges her til at forklare forskellige online læringsideer. Idéerne er generelle nok til at kunne anvendes til andre indstillinger, såsom andre konvekse tabsfunktioner .

Batch læring

I en overvåget indstilling med en kvadratisk tabsfunktion er målet at minimere det empiriske tab

I_{n}[w]=\sum _{j=1}^{n}V(\langle w,x_{j}\rangle ,y_{j})=\sum _{j=1} ^{n}(x_{j}^{T}w-y_{j})^{2}

, hvor

x_{j}\in \mathbb {R} ^{d},w\in \mathbb {R} ^{d},y_{j}\in \mathbb {R}

Lad være en matrix af data og være en matrix af målværdier efter ankomsten af de første datapunkter. Forudsat at kovariansmatrixen er inverterbar (ellers bør en procedure svarende til Tikhonovs regularisering udføres), er den bedste løsning af mindste kvadraters metode givet af ligheden $x$ $i\times d$ $Y$ $i\times 1$ $jeg$ $\Sigma _{i}=X^{T}X$ $f^{*}(x)=\langle w^{*},x\rangle$

w^{*}=(X^{T}X)^{-1}X^{T}Y=\Sigma _{i}^{-1}\sum _{j=1}^{ i}x_{j}y_{j}

Nu vil beregningen af kovariansmatrixen tage tid, matrixinversionen vil tage tid, og matrixmultiplikationen vil tage tid, hvilket giver den samlede tid . Hvis der i alt er punkter i datasættet, og du skal genberegne løsningen, efter hvert datapunkt ankommer , vil den naturlige tilgang have fuld kompleksitet . Bemærk, at hvis matrixen er gemt, kræver opdatering ved hvert trin kun tilføjelse , hvilket tager tid, hvilket reducerer den samlede tid til , men kræver yderligere lagerplads [ 2] . ${\displaystyle \Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T))$ $O(id^{2})$ $d\times d$ $O(d^{3})$ $O(d^{2})$ $O(id^{2}+d^{3})$ $n$ $i=1,\ldots ,n$ $O(n^{2}d^{2}+nd^{3})$ ${\displaystyle \Sigma _{i))$ ${\displaystyle x_{i+1}x_{i+1}^{T))$ $O(d^{2})$ $O(nd^{2}+nd^{3})=O(nd^{3})$ $O(d^{2})$ ${\displaystyle \Sigma _{i))$

Online læring: rekursive mindste kvadrater

Rekursive mindste kvadrater overvejer en online tilgang til mindste kvadrater. Det kan vises, at med initialisering og løsningen af den lineære mindste kvadraters metode kan beregnes som følger: ${\displaystyle \textstyle w_{0}=0\in \mathbb {R} ^{d))$ ${\displaystyle \textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d))$

\Gamma _{i}=\Gamma _{i-1}-{\frac {\Gamma _{i-1}x_{i}x_{i}^{T}\Gamma _{i-1 }}{1+x_{i}^{T}\Gamma _{i-1}x_{i}}}

w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

Ovenstående iterative algoritme kan bevises ved induktion på [3] . Det viser beviset også . Man kan betragte rekursive mindste kvadrater i sammenhæng med adaptive filtre (se Rekursive mindste kvadrater ). $jeg$ ${\displaystyle \Gamma _{i}=\Sigma _{i}^{-1))$

Kompleksiteten af trinene i denne algoritme er , hvilket er hurtigere end den tilsvarende batchindlæringskompleksitet. Den hukommelse, der kræves for hvert trin for at gemme matrixen, er her en konstant . I det tilfælde, hvor den ikke er reversibel, overvejes en regulariseret version af tabsfunktionen . Så er det nemt at vise, at den samme algoritme virker med , og fortsatte iterationer giver [2] . $n$ $O(nd^{2})$ $jeg$ $\Gamma _{i}$ $O(d^{2})$ ${\displaystyle \Sigma _{i))$ $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2 }$ ${\displaystyle \Gamma _{0}=(I+\lambda I)^{-1))$ ${\displaystyle \Gamma _{i}=(\Sigma _{i}+\lambda I)^{-1))$

Stokastisk gradientnedstigningsmetode

Hvis ligestilling

\textstyle w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

Erstattet af

\textstyle w_{i}=w_{i-1}-\gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})=w_ {i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{i}\rangle ,y_{i})

eller på , dette bliver en stokastisk gradient-nedstigningsalgoritme. I dette tilfælde reduceres kompleksiteten for trinene i denne algoritme til . Hukommelseskravet ved hvert trin er konstant . ${\displaystyle \Gamma _{i}\in \mathbb {R} ^{d\times d))$ $\gamma _{i}\in \mathbb {R}$ $n$ $O(nd)$ $jeg$ $O(d)$

Trinstørrelsen til løsning af det forventede risikominimeringsproblem bør dog vælges omhyggeligt, som forklaret ovenfor. Ved at vælge størrelsen på dæmpningstrinnet kan konvergensen af den gennemsnitlige iteration bevises . Disse indstillinger er et særligt tilfælde af stokastisk optimering , et velkendt optimeringsproblem [2] . ${\displaystyle \gamma _{i))$ ${\displaystyle \gamma _{i}\approx {\frac {1}{\sqrt {i))))$ ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$

Inkrementel Stokastisk Gradient Descent

I praksis er det muligt at udføre flere stokastiske gradientpassager over dataene. Den resulterende algoritme kaldes den inkrementelle gradientmetode og svarer til iterationen

\textstyle w_{i}=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{t_{i}}\rangle ,y_{t_{ jeg)))

Hovedforskellen med den stokastiske gradientmetode er, at det her er valgt at bestemme hvilket træningspunkt der besøges i trin . En sådan sekvens kan være tilfældig eller deterministisk. Antallet af iterationer er således afkoblet fra antallet af punkter (hvert punkt kan ses mere end én gang). Det kan påvises, at den inkrementelle gradientmetode giver empirisk risikominimering [4] . Inkrementelle teknikker kan have fordele, når man betragter den objektive funktion som summen af mange elementer, for eksempel som en empirisk fejl i et meget stort datasæt [2] . $t_{i}$ $jeg$

Nukleare metoder

Kerner kan bruges til at udvide ovenstående algoritmer til ikke-parametriske modeller (eller modeller, hvor parametrene danner et uendeligt dimensionelt rum). Den tilsvarende procedure vil ikke længere være virkelig online og i stedet gemme alle datapunkter, men metoden forbliver hurtigere end brute force. Denne diskussion er begrænset til tilfældet med kvadratisk tab, selvom den kan udvides til enhver konveks tabsfunktion. Det kan vises ved direkte induktion [2] , at når a er en datamatrix, er a outputtet efter trinene i den tilfældige gradientnedstigningsalgoritme, så $X_{i}$ $w_{i}$ $jeg$

w_{i}=X_{i}^{T}c_{i}

hvor og rækkefølgen opfylder de tilbagevendende relationer $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ ${\displaystyle c_{i))$

c_{0}=0

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

{\displaystyle (c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1 })_{j}\langle x_{j},x_{i}\rangle {\Big )))

Bemærk, at her er standardkernen i , og forudsigelsesfunktionen har formen $\langle x_{j},x_{i}\rangle$ ${\displaystyle \mathbb {R} ^{d))$

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j} \langle x_{j},x\rangle

Hvis vi nu introducerer en fælles kerne og repræsenterer forudsigelsesfunktionen som $K$

f_{i}(x)=\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x)

så viser det samme bevis, at mindste kvadraters minimering af tabsfunktionen opnås ved at erstatte ovenstående rekursion med

{\displaystyle (c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1 })_{j}K(x_{j},x_{i}){\Big )))

Ovenstående udtryk kræver, at man husker alle data for at opdatere . Den samlede tidskompleksitet for rekursion, hvis den beregnes for det -. datapunkt, er , hvor er omkostningerne ved at beregne kernen på et par punkter [2] . Brug af kernen tillader derefter bevægelse fra et finitdimensionelt parameterrum til et muligvis uendeligt dimensionelt rum repræsenteret af kernen i stedet for at vende tilbage over parameterrummet , hvis dimension er den samme som størrelsen af træningsdatasættet. Generelt er denne tilgang en konsekvens af repræsentationssætningen [2] . ${\displaystyle c_{i))$ $n$ $O(n^{2}dk)$ $k$ ${\displaystyle \textstyle w_{i}\in \mathbb {R} ^{d))$ $K$ ${\displaystyle \textstyle c_{i}\in \mathbb {R} ^{i))$

Progressiv læring

Progressiv læring er en effektiv læringsmodel, der demonstreres af menneskers læreproces. Denne læringsproces er kontinuerlig og kommer fra direkte erfaring. Den progressive læringsteknik inden for maskinlæring kan lære nye klasser eller etiketter dynamisk på farten [5] . Selvom online træning kan træne nye dataeksempler , der kommer ind sekventielt, kan de ikke træne nye dataklasser . Det progressive lærings-læringsparadigme er uafhængigt af antallet af klassebegrænsninger og kan undervise i nye klasser, samtidig med at kendskabet fra tidligere klasser bevares. Men hvis en ny klasse (ikke naturligt forekommende) stødes på, genopbygges klassificereren automatisk, og parametrene beregnes på en sådan måde, at tidligere viden bevares. Denne teknik er velegnet til applikationer i den virkelige verden, hvor antallet af klasser ofte er ukendt, og online læring fra realtidsdata er påkrævet.

Online konveks optimering

Online konveks optimering [6] er et generelt beslutningsskema, der bruger konveks optimering til at opnå effektive algoritmer. Ordningen er en gentagelse af følgende handlinger:

Til $t=1,2,...,T$

Eleven modtager input ${\displaystyle x_{t))$
Eleven danner et output fra et fast konveks sæt ${\displaystyle w_{t))$ $S$
Naturen returnerer værdien af en konveks tabsfunktion . $v_{t}:S\rightarrow \mathbb {R}$
Eleven står for tabet og opdaterer modellen $v_{t}(w_{t})$

Målet er at minimere "fortryd" eller forskellen mellem det samlede tab og tabet på det bedste fikspunkt set i bakspejlet. Som et eksempel kan du overveje tilfældet med online lineær mindste kvadraters regression. Her kommer vægten af vektorerne fra en konveks mængde og naturen returnerer en konveks tabsfunktion . Bemærk, at implicit sendes med . $u\in S$ ${\displaystyle S=\mathbb {R} ^{d))$ ${\displaystyle v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2))$ ${\displaystyle y_{t))$ ${\displaystyle v_{t))$

Nogle online forudsigelsesproblemer kan dog ikke passe ind i det online konvekse optimeringsskema. For eksempel i onlineklassifikation er forudsigelsesområdet og tabsfunktionerne ikke konvekse. I sådanne scenarier bruges to simple teknikker til reduktion af konvekse tilfælde - randomisering og surrogattabsfunktioner.

Nogle enkle online konvekse optimeringsalgoritmer:

Følg lederen

Den enkleste indlæringsregel for et forsøg er at vælge (på det aktuelle trin) den hypotese, der har det mindste tab blandt alle tidligere runder. Denne algoritme kaldes " Følg lederen " og giver blot en runde : $t$

w_{t}=\operatørnavn {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)

Denne metode kan så opfattes som en grådig algoritme . For tilfældet med online kvadratisk optimering (hvor tabsfunktionen er ), kan det påvises, at "fortryd"-grænsen vokser som . Der kan dog ikke opnås lignende grænser for follow-the-leader-algoritmen for andre vigtige modelfamilier som for online lineær optimering. For at få dem føjes regularisering til algoritmen. $v_{t}(w)=||w-x_{t}||_{2}^{2}$ $\log(T)$

Følger en regulær leder

Dette er en naturlig modifikation af leder-følgende algoritme, der bruges til at stabilisere leder-følgende beslutninger og opnå bedre fortrydelsesgrænser. Der vælges en regulariseringsfunktion og træningen udføres i runde t som følger: $R:S\rightarrow \mathbb {R}$

w_{t}=\operatørnavn {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)+R(w)

Som et særligt tilfælde skal du overveje tilfældet med online lineær optimering, det vil sige, når naturen returnerer tabsfunktioner i formen . Lad også . Antag, at regulariseringsfunktionen er valgt for et positivt tal . Så kan det påvises, at iterationen med at minimere "fortrydelse" bliver til $v_{t}(w)=\langle w,z_{t}\rangle$ ${\displaystyle S=\mathbb {R} ^{d))$ $R(w)={\frac {1}{2\eta }}||w||_{2}^{2}$ $\eta$

{\displaystyle w_{t+1}=-\eta \sum _{i=1}^{t}z_{i}=w_{t}-\eta z_{t))

Bemærk, at dette kan omskrives som , hvilket ser nøjagtigt ud som online gradient descent-metoden. $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$

Hvis S er et konveks underrum , skal S projiceres, hvilket resulterer i en ændret opdateringsregel ${\displaystyle \mathbb {R} ^{d))$

w_{t+1}=\Pi _{S}(-\eta \sum _{i=1}^{t}z_{i})=\Pi _{S}(\eta \theta _ {t+1})

Algoritmen er kendt som doven projektion, fordi vektoren akkumulerer gradienter. Dette er også kendt som Nesterovs dobbeltgennemsnitsalgoritme (eller subgradient dobbeltgennemsnitsmetode [7] ). I dette scenarie er lineære tabsfunktioner og kvadratisk regularisering "beklagelse" begrænset til , og så har den gennemsnitlige "beklagelse" en tendens til 0 . $\theta _{t+1}$ $O({\sqrt {T)))$

Online subgradient descent

"Beklagelsen" bundet til lineære tabsfunktioner er blevet bevist ovenfor . For at generalisere algoritmen til enhver konveks tabsfunktion, bruges funktionen subgradient som en lineær tilnærmelse omkring , hvilket fører til online subgradient descent-algoritmen: $v_{t}(w)=\langle w,z_{t}\rangle$ $\partial v_{t}(w_{t})$ ${\displaystyle v_{t))$ ${\displaystyle v_{t))$ ${\displaystyle w_{t))$

Start af en parameter $\eta ,w_{1}=0$

Til $t=1,2,...,T$

Vi laver en forudsigelse ved at bruge , vi får fra naturen . ${\displaystyle w_{t))$ $f_t$
Vælge $z_{t}\in \partial v_{t}(w_{t})$
Hvis , lav en opdatering ${\displaystyle S=\mathbb {R} ^{d))$ ${\displaystyle w_{t+1}=w_{t}-\eta z_{t))$
Hvis , projekt kumulative gradienter til dvs ${\displaystyle S\subset \mathbb {R} ^{d))$ $S$ ${\displaystyle w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t))$

Du kan bruge online subgradient descent-algoritmen til at få "beklagelse"-grænserne for onlineversionen af støttevektormaskinen til klassificering , som bruger en stykkevis lineær tabsfunktion $O({\sqrt {T)))$ $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$

Andre algoritmer

Kvadratregulerede leder-følgende algoritmer fører til dovent projicerede gradientalgoritmer, som beskrevet ovenfor. For at bruge ovenstående tilgang til alle konvekse funktioner og regularizers kan online spejlnedstigning bruges. Optimal regularisering i en stykkevis lineær funktion kan opnås for lineære tabsfunktioner, hvilket fører til AdaGrad- algoritmen . For euklidisk regularisering kan det påvises, at "beklagelsen"-bundet er ens og kan forbedres til strengt konvekse og eksp-konkave tabsfunktioner. $O({\sqrt {T)))$ $O(\log T)$

Fortolkninger af online læring

Online læringsparadigmet har forskellige fortolkninger afhængigt af valget af læringsmodel, hver med en forskellig kvalitet af forudsigelser af træksekvenser . Til diskussion bruger vi den stokastiske gradientnedstigningsalgoritme. Som nævnt ovenfor er rekursionen af algoritmen givet af ligheden ${\displaystyle f_{1},f_{2},\ldots ,f_{n))$

\textstyle w_{t}=w_{t-1}-\gamma _{t}\nabla V(\langle w_{t-1},x_{t}\rangle ,y_{t})

Den første fortolkning betragter den stokastiske gradientnedstigningsmetode som en anvendelse på det forventede risikominimeringsproblem defineret ovenfor [8] . Desuden, i tilfælde af en uendelig datastrøm, da tilfældene antages at være samplet fra en uafhængig og ligeligt fordelt fordeling , er gradientsekvenserne i iterationen ovenfor uafhængige og ligeligt fordelte prøver af det forventede risiko stokastiske gradientestimat , og derfor man kan anvende kompleksitetsresultaterne for den stokastiske gradientnedstigningsmetode til at begrænse afvigelse , hvor er minimizeren [9] . Denne fortolkning gælder også for begrænsede træningssæt. Selvom gradienterne ikke længere vil være uafhængige, når der itereres over dataene, kan kompleksitetsresultater i særlige tilfælde opnås. $I[w]$ $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ $p(x,y)$ $V(\cdot ,\cdot )$ $I[w]$ $I[w_{t}]-I[w^{\ast }]$ $w^{\ast }$ $I[w]$

Den anden fortolkning anvendes på tilfældet med et begrænset træningssæt og betragter den stokastiske gradientnedstigningsalgoritme som en repræsentant for inkrementel gradientnedstigning [4] . I dette tilfælde kan man se på den empiriske risiko:

I_{n}[w]={\frac {1}{n}}\sum _{i=1}^{n}V(\langle w,x_{i}\rangle ,y_{i} )\ .

Da gradienterne i iterationer af inkrementel gradientnedstigning er stokastiske estimater af gradienten , er denne fortolkning relateret til metoden for stokastisk gradientnedstigning, men anvendt til empirisk risikominimering i modsætning til forventet risiko. Fordi denne fortolkning handler om empirisk risiko snarere end forventet risiko, er flere pass over dataene fuldkommen gyldige og fører faktisk til stramme variansgrænser , hvor . $V(\cdot ,\cdot )$ $I_{n}[w]$ $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ ${\displaystyle w_{n}^{\ast ))$ $I_{n}[w]$

Implementeringer

Vowpal Wabbit : Et hurtigt, open source, eksternt hukommelses online læringssystem med et sæt understøttede maskinlæringsteknikker, med vægtning af vigtighed og et udvalg af forskellige tabsfunktioner og optimeringsalgoritmer. Systemet bruger et hash-trick til at begrænse størrelsen af funktionssættet uanset størrelsen af træningsdataene.
scikit-learn : Giver en implementering af algoritmer uden for hukommelsen til
- klassifikatorer: perceptron , statistisk gradient afstamningsklassifikator , naiv bayes-klassifikator .
- regression: stokastisk gradientnedstigningsregression, passiv aggressiv regressor.
- clustering: k-betyder metode .
- funktionsudtræk: mini-batch-ordforrådsindlæring , inkrementel hovedkomponentanalyse .

Se også

Hierarkisk midlertidig hukommelse
k-nærmeste nabo metode
Doven læring
Vektorkvantisering under træning
Offline læring , modsat model
Online algoritme
Stream algoritme
perceptron
Stokastisk gradientnedstigning
At lære med en lærer
Online optimering

Noter

↑ Katastrofal interferens er kunstige neurale netværks tendens til pludselig helt at glemme alt, hvad netværket er blevet trænet til at gøre før.
↑ 1 2 3 4 5 6 7 Rosasco, Poggio, 2015 .
↑ Yin, Kushner, 2003 , s. 8-12.
↑ 12 Bertsekas , 2011 .
↑ Venkatesan, Meng Joo, 2016 , s. 310-321.
↑ Hazan, 2015 .
↑ Dolgopolik, 2016 .
↑ Bottou, 1998 .
↑ Kushner, Yin, 1997 .

Litteratur

Leon Bottou. Online algoritmer og stokastiske approksimationer // Online læring og neurale netværk . - Cambridge University Press, 1998. - ISBN 978-0-521-65263-6 .
Rosasco L., Poggio T. Kapitel 7 - Online læring // Machine Learning: a Regularization Approach . MIT-9.520 Forelæsningsnotater. - 2015. - (Manuskript).
Harold J. Kushner, G. George Yin. Stokastiske approksimationsalgoritmer og applikationer. - New York: Springer-Verlag, 1997. - ISBN 0-387-94916-X .
- Harold J. Kushner, G. George Yin. Stokastisk approksimation og rekursive algoritmer og applikationer. - 2. udg. - New York: Springer-Verlag, 2003. - ISBN 0-387-00894-2 .
Elad Hazan. Introduktion til online konveks optimering . — Foundations and Trends® in Optimization, 2015.
Rajasekar Venkatesan, Er Meng Joo. En ny progressiv læringsteknik til klassificering i flere klasser // Neurocomputing. - 2016. - T. 207 . - doi : 10.1016/j.neucom.2016.05.006 . - arXiv : 1609.00085 .
Dolgopolik MV Nesterovs metode til at minimere konvekse funktioner. – 2016.
Harold J. Yin, G. George Kushner. Stokastisk tilnærmelse og rekursive algoritmer og applikationer. - Sekund. - New York: Springer, 2003. - ISBN 978-0-387-21769-7 .
Bertsekas DP Inkrementelle gradient-, subgradient- og proksimale metoder til konveks optimering: en undersøgelse // Optimization for Machine Learning. - 2011. - Udgave. 85 .

Links

http://onlineprediction.net/ Arkiveret 31. oktober 2018 på Wayback Machine , Wiki for On-Line Prediction.

Machine learning og data mining
Opgaver	Klassifikationsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-Net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG