Semi-superviseret læring ( også semi-automatiseret læring eller delvis læring ) er en metode til maskinlæring, en type overvåget læring , der også bruger umærkede data til træning - normalt en lille mængde mærkede data og en stor mængde umærkede data .
Delvis overvåget læring indtager en mellemposition mellem uovervåget læring (uden brug af mærkede træningsdata) og overvåget læring (kun ved brug af mærkede data).
Mange maskinlæringsforskere har fundet ud af, at umærkede data, når de bruges i kombination med en lille mængde mærkede data, i høj grad kan forbedre træningsnøjagtigheden.
At indstille mærkede data til en læringsopgave kræver ofte en dygtig person (for eksempel at oversætte et lydspor til tekst) eller et fysisk eksperiment (for eksempel at bestemme 3D-strukturen af et protein eller at detektere tilstedeværelsen af olie i et bestemt område). Derfor kan omkostningerne ved datamærkning gøre læringsprocessen ved kun at bruge mærkede data upraktisk, mens processen med at specificere umærkede data ikke er særlig dyr. I sådanne situationer kan semi-automatiseret læring være af stor praktisk værdi. Sådan læring er også af interesse inden for maskinlæring og som model for menneskelig læring.
Som i superviseret læring får vi et sæt uafhængige identisk fordelte eksempler med passende etiketter . Derudover får vi umærkede eksempler . Målet med semi-automatiseret læring er at bruge denne kombinerede information til at opnå bedre klassificeringspræstationsresultater , som kan opnås enten ved at droppe umærkede data og bruge overvåget læring eller ved at droppe etiketter og bruge uovervåget læring.
Semi-automatiseret læring kan høre til transduktiv læring eller induktiv læring . Målet med transduktiv læring er kun at udlede korrekte etiketter for umærkede data . Målet med induktion er at udlede den korrekte kortlægning fra til .
Vi kan tænke på læringsopgaven som en eksamen, og de mærkede data som et par eksempler, som læreren løste i klassen. Læreren giver også et sæt uløste problemer. Inden for rammerne af transduktiv læring er disse uløste problemer en hjemmeeksamen, som du generelt ønsker at klare godt. I et induktivt læringsmiljø ligner disse praksisproblemer dem, du ville møde i en klasseeksamen. Det er ikke nødvendigt (og ifølge Vapniks princip uklogt) at udføre transduktiv læring ved at udlede en klassifikationsregel for alle input. Men i praksis bruges algoritmer, der formelt er beregnet til transduktion eller induktion, ofte i flæng.
For at bruge rådata skal der tildeles en vis struktur til den underliggende fordeling af dataene. Semi-automatiserede læringsalgoritmer bruger mindst én af disse antagelser. [en]
Punkter, der ligger tæt på hinanden, mærkes ens med en højere sandsynlighed. Den samme antagelse bruges hovedsageligt i superviseret læring og har den fordel, at der anvendes geometrisk simple løsninger. I tilfælde af semi-automatiseret læring giver glathedsantagelsen desuden en fordel for afgrænsning i områder med lav tæthed, hvor der er færre punkter, der er tæt på hinanden, men af forskellige klasser.
Data har en tendens til at danne diskrete klynger, og punkter fra den samme klynge er mere tilbøjelige til at blive mærket det samme (selvom data, der bruger de samme etiketter, kan være placeret i flere forskellige klynger). Dette er et særligt tilfælde af glathedsantagelse, der fører til funktionsindlæring ved hjælp af klyngealgoritmer .
Denne antagelse gælder, når datadimensionerne er overflødige, det vil sige, at de genereres af en specifik proces, der kun har nogle få frihedsgrader. I dette tilfælde gør umærkede data det muligt at studere genereringsprocessen og derved reducere dimensionen af .
For eksempel styres den menneskelige stemme af flere stemmebånd, [2] og præsentationen af forskellige ansigtsudtryk styres af flere muskler. I disse tilfælde er det mere bekvemt at bruge genereringsrummet end rummet for henholdsvis alle mulige akustiske bølger eller billeder.
Den heuristiske tilgang til selvlæring er den tidligste. [1] Den har været i brug siden 1960'erne (se f.eks. Scudder 1965) [3] ).
Grundlaget for transduktiv læring blev lagt af Vladimir Vapnik i 1970'erne. [4] I 1970'erne sås også fremkomsten af interesse for induktiv læring ved hjælp af generative modeller. Anvendelsen af Approximate Correct Learning til semi-automatiseret læring baseret på en Gaussisk blandingsmodel blev demonstreret af Ratsaby og Venkatesh i 1995. [5]
Semi-automatiseret læring er for nylig blevet mere populær og relevant på grund af en række opgaver, som en enorm mængde umærkede data er tilgængelig for (f.eks. websidetekst, proteinsekvenser eller billeder. For en gennemgang af det seneste arbejde på dette område , se Zhu (2008 [6
Generative tilgange til statistisk læring søger primært at estimere fordelingen af datapunkter for hver klasse. Sandsynligheden for, at et givet punkt har en etiket , vil være proportional med Bayes' sætning . Semi-automatiseret læring ved brug af generative tilgange kan ses som enten en udvidelse af superviseret læring (klassificering og information om ) eller en udvidelse af ikke-superviseret læring (clustering og nogle etiketter).
Generative modeller antager, at distributioner antager en bestemt form , parametriseret af en vektor . Hvis disse antagelser er forkerte, kan de umærkede data faktisk reducere nøjagtigheden af løsningen sammenlignet med, hvad der ville blive opnået fra de mærkede data alene. [7] Men hvis disse antagelser er korrekte, vil umærkede data nødvendigvis forbedre ydeevnen. [5]
Umærkede data er fordelt efter en blanding af individuelle klasseinddelinger. For at fordelingen af en blanding af umærkede data kan studeres, skal dataene være genkendelige, det vil sige, at forskellige parametre skal føre til forskellige resulterende fordelinger. Gaussiske blandingsfordelinger er genkendelige og almindeligvis brugt i generative modeller.
Den parametriserede fællesfordeling kan skrives som en kæderegel. Hver vektor er forbundet med en funktion . Parameteren vælges derefter baseret på tilpasningen til både mærket der og til umærkede data, balanceret med :
[6]Dette er en anden vigtig klasse af metoder, der forsøger at afgrænse områder, der indeholder flere datapunkter (mærket eller umærket). En af de mest brugte algoritmer er den transduktive støttevektormaskine , eller TSVM (som på trods af navnet også kan bruges til induktiv læring). Mens SVM for overvåget læring leder efter den separerende overfladeløsning med det største hul i de mærkede data, er målet med TMST at mærke de umærkede data, således at den adskillende overfladeløsning har det største hul sammenlignet med alle data. Ud over standardtabssløjfen for mærkede data er der også indført en tabsfunktion for umærkede data, der betegner . TMOV vælger derefter en reproducerbar kerne fra Hilbert-rummet ved at minimere den regulariserede empiriske risiko :
Den nøjagtige løsning er uafklarelig på grund af det ikke-konvekse udtryk , så forskning er fokuseret på at finde nyttige tilnærmelser. [6]
Andre tilgange, der implementerer lavdensitetsdistribution, omfatter Gaussiske procesmodeller, informationsbestilling og entropiminimering (hvoraf TMOV er et specialtilfælde).
Grafbaserede metoder til semi-automatiseret læring bruger data repræsenteret af en graf med en node for hvert mærket eller umærket eksempel. Grafen kan bygges ved hjælp af domæneviden eller baseret på ligheden mellem eksempler. To almindelige tilgange involverer at forbinde hvert datapunkt med dets nærmeste naboer eller til eksempler på afstand inden for . Vægten af kanten mellem og er indstillet til .
Inden for rammerne af manifold-regularisering [8] [9] tjener grafen som en repræsentant for manifolden. Udtrykket føjes til standard Tikhonov-regulariseringsproblemet for at sikre glatheden af løsningen med hensyn til multiformitet (i problemets eget rum), såvel som det omgivende inputrum. Opgaven med minimering bliver:
[6]hvor er Hilbert-rummet for den reproducerbare kerne, og er multiformdata. Reguleringsparametrene og kontrollerer glatheden i henholdsvis nærliggende og indre rum. Grafen bruges til at tilnærme den interne regulariserende term. Efter at have defineret Kirchhoff-matricen , hvor og er en vektor, får vi:
Nogle af de semi-automatiserede læringsmetoder er ikke tilpasset til at bruge både mærkede og umærkede data på samme tid, men kan bruge umærkede data til superviseret læring. For eksempel kan mærkede og umærkede eksempler informere præsentationen, metrikken eller datakernerne i det første uovervågede trin. Så overvågede læreprocesser kun mærkede eksempler.
Selvlæring er en indpakningsmetode til semi-automatisk læring. [10] I første omgang mærkede overvågede læringsprocesser kun data. Denne klassificering anvendes derefter på de umærkede data for at generere flere mærkede eksempler til overvåget læring. Generelt kan man være sikker på, at der kun tilføjes klassificeringsetiketter ved hvert trin. [elleve]
Kollaborativ læring er en udvidelse af selvlæring, hvor flere klassifikatorer arbejder på forskellige (ideelt set ikke-overlappende) funktionssæt og genererer mærkede eksempler for hinanden. [12]
Menneskelige reaktioner på formelle semi-automatiserede læringsopgaver har givet forskellige konklusioner vedrørende graden af indflydelse af umærkede data (se [13] for et resumé ). Mange naturlige læringsopgaver kan også ses som eksempler på semi-automatiseret læring. De fleste principper for menneskelig læring involverer et lille antal direkte instruktioner (f.eks. at mærke genstande af forældre i barndommen) kombineret med et stort antal umærkede eksempler (f.eks. at observere objekter uden at navngive eller tælle dem, eller i det mindste ikke at beskrive dem).
Babyer er følsomme over for strukturen af umærkede data, såsom billeder af hunde og katte, eller mandlige og kvindelige ansigter. [14] Nylige undersøgelser har vist, at spædbørn og børn ikke kun tager højde for de tilgængelige umærkede eksempler, men også udvælgelsesprocessen fra dem, hvilket resulterer i mærkede eksempler. [15] [16]
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|