Lærerassisteret læring

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 3. april 2021; checks kræver 7 redigeringer .

Semi-superviseret læring ( også semi-automatiseret læring eller delvis læring ) er en metode til maskinlæring, en type overvåget læring , der også bruger umærkede data til træning - normalt en lille mængde mærkede data og en stor mængde umærkede data .

Delvis overvåget læring indtager en mellemposition mellem uovervåget læring (uden brug af mærkede træningsdata) og overvåget læring (kun ved brug af mærkede data).

Mange maskinlæringsforskere har fundet ud af, at umærkede data, når de bruges i kombination med en lille mængde mærkede data, i høj grad kan forbedre træningsnøjagtigheden.

At indstille mærkede data til en læringsopgave kræver ofte en dygtig person (for eksempel at oversætte et lydspor til tekst) eller et fysisk eksperiment (for eksempel at bestemme 3D-strukturen af et protein eller at detektere tilstedeværelsen af olie i et bestemt område). Derfor kan omkostningerne ved datamærkning gøre læringsprocessen ved kun at bruge mærkede data upraktisk, mens processen med at specificere umærkede data ikke er særlig dyr. I sådanne situationer kan semi-automatiseret læring være af stor praktisk værdi. Sådan læring er også af interesse inden for maskinlæring og som model for menneskelig læring.

Læringsopgave

Som i superviseret læring får vi et sæt uafhængige identisk fordelte eksempler med passende etiketter . Derudover får vi umærkede eksempler . Målet med semi-automatiseret læring er at bruge denne kombinerede information til at opnå bedre klassificeringspræstationsresultater , som kan opnås enten ved at droppe umærkede data og bruge overvåget læring eller ved at droppe etiketter og bruge uovervåget læring. $l$ $x_{1},\dots ,x_{l}\in X$ $y_{1},\dots ,y_{l}\in Y$ $u$ $x_{l+1},\dots ,x_{l+u}\in X$

Semi-automatiseret læring kan høre til transduktiv læring eller induktiv læring . Målet med transduktiv læring er kun at udlede korrekte etiketter for umærkede data . Målet med induktion er at udlede den korrekte kortlægning fra til . ${\displaystyle x_{l+1},\dots,x_{l+u))$ $x$ $Y$

Vi kan tænke på læringsopgaven som en eksamen, og de mærkede data som et par eksempler, som læreren løste i klassen. Læreren giver også et sæt uløste problemer. Inden for rammerne af transduktiv læring er disse uløste problemer en hjemmeeksamen, som du generelt ønsker at klare godt. I et induktivt læringsmiljø ligner disse praksisproblemer dem, du ville møde i en klasseeksamen. Det er ikke nødvendigt (og ifølge Vapniks princip uklogt) at udføre transduktiv læring ved at udlede en klassifikationsregel for alle input. Men i praksis bruges algoritmer, der formelt er beregnet til transduktion eller induktion, ofte i flæng.

Antagelser brugt i semi-automatiseret læring

For at bruge rådata skal der tildeles en vis struktur til den underliggende fordeling af dataene. Semi-automatiserede læringsalgoritmer bruger mindst én af disse antagelser. [en]

Glathedsantagelse

Punkter, der ligger tæt på hinanden, mærkes ens med en højere sandsynlighed. Den samme antagelse bruges hovedsageligt i superviseret læring og har den fordel, at der anvendes geometrisk simple løsninger. I tilfælde af semi-automatiseret læring giver glathedsantagelsen desuden en fordel for afgrænsning i områder med lav tæthed, hvor der er færre punkter, der er tæt på hinanden, men af forskellige klasser.

Clustering-antagelse

Data har en tendens til at danne diskrete klynger, og punkter fra den samme klynge er mere tilbøjelige til at blive mærket det samme (selvom data, der bruger de samme etiketter, kan være placeret i flere forskellige klynger). Dette er et særligt tilfælde af glathedsantagelse, der fører til funktionsindlæring ved hjælp af klyngealgoritmer .

Dataredundansantagelse

Denne antagelse gælder, når datadimensionerne er overflødige, det vil sige, at de genereres af en specifik proces, der kun har nogle få frihedsgrader. I dette tilfælde gør umærkede data det muligt at studere genereringsprocessen og derved reducere dimensionen af .

For eksempel styres den menneskelige stemme af flere stemmebånd, [2] og præsentationen af forskellige ansigtsudtryk styres af flere muskler. I disse tilfælde er det mere bekvemt at bruge genereringsrummet end rummet for henholdsvis alle mulige akustiske bølger eller billeder.

Historie

Den heuristiske tilgang til selvlæring er den tidligste. [1] Den har været i brug siden 1960'erne (se f.eks. Scudder 1965) [3] ).

Grundlaget for transduktiv læring blev lagt af Vladimir Vapnik i 1970'erne. [4] I 1970'erne sås også fremkomsten af interesse for induktiv læring ved hjælp af generative modeller. Anvendelsen af Approximate Correct Learning til semi-automatiseret læring baseret på en Gaussisk blandingsmodel blev demonstreret af Ratsaby og Venkatesh i 1995. [5]

Semi-automatiseret læring er for nylig blevet mere populær og relevant på grund af en række opgaver, som en enorm mængde umærkede data er tilgængelig for (f.eks. websidetekst, proteinsekvenser eller billeder. For en gennemgang af det seneste arbejde på dette område , se Zhu (2008 [6

Tilgange til semi-automatiseret læring

Generative modeller

Generative tilgange til statistisk læring søger primært at estimere fordelingen af datapunkter for hver klasse. Sandsynligheden for, at et givet punkt har en etiket , vil være proportional med Bayes' sætning . Semi-automatiseret læring ved brug af generative tilgange kan ses som enten en udvidelse af superviseret læring (klassificering og information om ) eller en udvidelse af ikke-superviseret læring (clustering og nogle etiketter). $p(x|y)$ $p(y|x)$ $x$ $y$ $p(x|y)p(y)$ $p(x)$

Generative modeller antager, at distributioner antager en bestemt form , parametriseret af en vektor . Hvis disse antagelser er forkerte, kan de umærkede data faktisk reducere nøjagtigheden af løsningen sammenlignet med, hvad der ville blive opnået fra de mærkede data alene. [7] Men hvis disse antagelser er korrekte, vil umærkede data nødvendigvis forbedre ydeevnen. [5] $p(x|y,\theta )$ $\theta$

Umærkede data er fordelt efter en blanding af individuelle klasseinddelinger. For at fordelingen af en blanding af umærkede data kan studeres, skal dataene være genkendelige, det vil sige, at forskellige parametre skal føre til forskellige resulterende fordelinger. Gaussiske blandingsfordelinger er genkendelige og almindeligvis brugt i generative modeller.

Den parametriserede fællesfordeling kan skrives som en kæderegel. Hver vektor er forbundet med en funktion . Parameteren vælges derefter baseret på tilpasningen til både mærket der og til umærkede data, balanceret med : $p(x,y|\theta )=p(y|\theta )p(x|y,\theta )$ $\theta$ $f_{\theta }(x)={\underset {y}{\operatørnavn {argmax} }}\ p(y|x,\theta )$ $\lambda$

{\underset {\Theta }{\operatørnavn {argmax} }}\left(\log p(\{x_{i},y_{i}\}_{i=1}^{l}|\ theta )+\lambda \log p(\{x_{i}\}_{i=l+1}^{l+u}|\theta )\right)

[6]

Low Density Separation

Dette er en anden vigtig klasse af metoder, der forsøger at afgrænse områder, der indeholder flere datapunkter (mærket eller umærket). En af de mest brugte algoritmer er den transduktive støttevektormaskine , eller TSVM (som på trods af navnet også kan bruges til induktiv læring). Mens SVM for overvåget læring leder efter den separerende overfladeløsning med det største hul i de mærkede data, er målet med TMST at mærke de umærkede data, således at den adskillende overfladeløsning har det største hul sammenlignet med alle data. Ud over standardtabssløjfen for mærkede data er der også indført en tabsfunktion for umærkede data, der betegner . TMOV vælger derefter en reproducerbar kerne fra Hilbert-rummet ved at minimere den regulariserede empiriske risiko : ${\displaystyle (1-yf(x))_{+))$ ${\displaystyle (1-|f(x)|)_{+))$ $y=\operatørnavn {tegn} {f(x)}$ $f^{*}(x)=h^{*}(x)+b$ ${\mathcal {H}}$

f^{*}={\underset {f}{\operatørnavn {argmin} }}\left(\displaystyle \sum _{i=1}^{l}(1-y_{i}f(x_ {i}))_{+}+\lambda _{1}||h||_{\mathcal {H}}^{2}+\lambda _{2}\sum _{i=l+1} ^{l+u}(1-|f(x_{i})|)_{+}\right)

Den nøjagtige løsning er uafklarelig på grund af det ikke-konvekse udtryk , så forskning er fokuseret på at finde nyttige tilnærmelser. [6] ${\displaystyle (1-|f(x)|)_{+))$

Andre tilgange, der implementerer lavdensitetsdistribution, omfatter Gaussiske procesmodeller, informationsbestilling og entropiminimering (hvoraf TMOV er et specialtilfælde).

Grafbaserede metoder

Grafbaserede metoder til semi-automatiseret læring bruger data repræsenteret af en graf med en node for hvert mærket eller umærket eksempel. Grafen kan bygges ved hjælp af domæneviden eller baseret på ligheden mellem eksempler. To almindelige tilgange involverer at forbinde hvert datapunkt med dets nærmeste naboer eller til eksempler på afstand inden for . Vægten af kanten mellem og er indstillet til . $k$ $\epsilon$ ${\displaystyle W_{ij))$ $x_{i}$ $x_{j}$ $e^{\frac {-||x_{i}-x_{j}||^{2}}{\epsilon }}$

Inden for rammerne af manifold-regularisering [8] [9] tjener grafen som en repræsentant for manifolden. Udtrykket føjes til standard Tikhonov-regulariseringsproblemet for at sikre glatheden af løsningen med hensyn til multiformitet (i problemets eget rum), såvel som det omgivende inputrum. Opgaven med minimering bliver:

{\underset {f\in {\mathcal {H))}{\operatørnavn {argmin} }}\left({\frac {1}{l}}\displaystyle \sum _{i=1}^ {l}V(f(x_{i}),y_{i})+\lambda _{A}||f||_{\mathcal {H}}^{2}+\lambda _{I}\ int _{\mathcal {M}}||\nabla _{\mathcal {M}}f(x)||^{2}dp(x)\right)

[6]

hvor er Hilbert-rummet for den reproducerbare kerne, og er multiformdata. Reguleringsparametrene og kontrollerer glatheden i henholdsvis nærliggende og indre rum. Grafen bruges til at tilnærme den interne regulariserende term. Efter at have defineret Kirchhoff-matricen , hvor og er en vektor, får vi: ${\mathcal {H}}$ ${\mathcal {M}}$ $\lambda _{A}$ $\lambda _{I}$

\mathbf {f} ^{T}L\mathbf {f} =\displaystyle \sum _{i,j=1}^{l+u}W_{ij}(f_{i}-f_{j })^{2}\ca. \int _{\mathcal {M}}||\nabla _{\mathcal {M}}f(x)||^{2}dp(x)

Heuristiske tilgange

Nogle af de semi-automatiserede læringsmetoder er ikke tilpasset til at bruge både mærkede og umærkede data på samme tid, men kan bruge umærkede data til superviseret læring. For eksempel kan mærkede og umærkede eksempler informere præsentationen, metrikken eller datakernerne i det første uovervågede trin. Så overvågede læreprocesser kun mærkede eksempler.

Selvlæring er en indpakningsmetode til semi-automatisk læring. [10] I første omgang mærkede overvågede læringsprocesser kun data. Denne klassificering anvendes derefter på de umærkede data for at generere flere mærkede eksempler til overvåget læring. Generelt kan man være sikker på, at der kun tilføjes klassificeringsetiketter ved hvert trin. [elleve]

Kollaborativ læring er en udvidelse af selvlæring, hvor flere klassifikatorer arbejder på forskellige (ideelt set ikke-overlappende) funktionssæt og genererer mærkede eksempler for hinanden. [12]

Semi-automatiseret læring i menneskelig perception

Menneskelige reaktioner på formelle semi-automatiserede læringsopgaver har givet forskellige konklusioner vedrørende graden af indflydelse af umærkede data (se [13] for et resumé ). Mange naturlige læringsopgaver kan også ses som eksempler på semi-automatiseret læring. De fleste principper for menneskelig læring involverer et lille antal direkte instruktioner (f.eks. at mærke genstande af forældre i barndommen) kombineret med et stort antal umærkede eksempler (f.eks. at observere objekter uden at navngive eller tælle dem, eller i det mindste ikke at beskrive dem).

Babyer er følsomme over for strukturen af umærkede data, såsom billeder af hunde og katte, eller mandlige og kvindelige ansigter. [14] Nylige undersøgelser har vist, at spædbørn og børn ikke kun tager højde for de tilgængelige umærkede eksempler, men også udvælgelsesprocessen fra dem, hvilket resulterer i mærkede eksempler. [15] [16]

Se også

At lære med en lærer

Kilder

↑ 1 2 Semi-superviseret læring (ubestemt) . - Cambridge, Mass.: MIT Press , 2006. - ISBN 978-0-262-03358-9 .
↑ Stevens, KN(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3 , 978-0-262-69250-2
↑ Scudder, HJ Sandsynlighed for fejl på nogle adaptive mønstergenkendelsesmaskiner.
↑ Vapnik, V. N., Chervonenkis, A. Ya. Teori om mønstergenkendelse. — M.: Nauka, 1974. — 416 s.
↑ 1 2 Ratsaby, J. og Venkatesh, S. At lære af en blanding af mærkede og umærkede eksempler med parametrisk sideinformation.
↑ 1 2 3 4 Zhu, Xiaojin.
↑ Cozman, F. og Cohen, I. Risici ved semi-overvåget læring: hvordan umærkede data kan forringe ydeevnen af generative klassifikatorer.
↑ M. Belkin, P. Niyogi. Semi-superviseret læring på Riemann-manifolder (ubestemt) // Machine Learning. - 2004. - V. 56 , nr. Særligt nummer om klyngedannelse . - S. 209-239 . - doi : 10.1023/b:mach.0000033120.25363.1e .
↑ M. Belkin, P. Niyogi, V. Sindhwani.
↑ Triguero, Isaac. Selvmærkede teknikker til semi-superviseret læring: taksonomi, software og empirisk undersøgelse (engelsk) // Knowledge and Information Systems : journal. - 2013. - 26. november ( bind 42 , nr. 2 ). - S. 245-284 . — ISSN 0219-1377 . - doi : 10.1007/s10115-013-0706-y .
↑ Fazakis, Nikos. Selvtrænet LMT for Semisupervised Learning (engelsk) // Computational Intelligence and Neuroscience : journal. - 2015. - 29. december ( vol. 2016 ). - S. 1-13 . - doi : 10.1155/2016/3057481 .
↑ Didaci, Luca. Analyse af Co-training Algoritme med meget små træningssæt . — Springer Berlin Heidelberg . - s. 719-726. — ISBN 9783642341656 .
↑ Introduktion til semi- superviseret læring . - Morgan & Claypool, 2009. - ISBN 9781598295481 .
↑ Younger BA, Fearing DD Parsing Items into Separate Categories: Developmental Change in Infant Categorization // Child Development: journal. - 1999. - Bd. 70 . - S. 291-303 . - doi : 10.1111/1467-8624.00022 .
↑ Xu, F. og Tenenbaum, JB. Følsomhed over for prøveudtagning i Bayesiansk ordindlæring. Udviklingsvidenskab // Udviklingsvidenskab _ : journal. - 2007. - Bd. 10 . - S. 288-297 . - doi : 10.1111/j.1467-7687.2007.00590.x .
↑ Gweon, H., Tenenbaum JB og Schulz LE Infants overvejer både prøven og prøvetagningsprocessen i induktiv generalisering // Proceedings of the National Academy of Sciences of the United States of America : journal . - 2010. - Bd. 107 , nr. 20 . - P. 9066-9071 . - doi : 10.1073/pnas.1003095107 .

Links

Machine learning og data mining
Opgaver	Klassifikationsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-Net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG