Nuklear metode

Nukleare metoder i maskinlæring er en klasse af mønstergenkendelsesalgoritmer , hvor den mest berømte repræsentant er støttevektormaskinen (SVM, eng.  SVM ). Den generelle opgave med mønstergenkendelse er at finde og lære almindelige typer af relationer (f.eks. klynger , rangeringer , hovedkomponenter , korrelationer , klassifikationer ) i datasæt. For mange af de algoritmer, der løser disse problemer, konverteres rådata eksplicit til en funktionsvektorrepræsentation ved hjælp af et specifikt funktionsfordelingsskema , men kernemetoder kræver kun en specifik kerne , dvs. lighedsfunktionerne for par af datapunkter i den rå repræsentation.

Kernelmetoder har fået deres navn fra brugen af ​​kernefunktioner , som giver dem mulighed for at operere i et højdimensionelt implicit trækrum uden at beregne koordinaterne for dataene i rummet, blot ved at beregne prikprodukterne mellem billederne af alle data par i feature-rummet. Denne operation er ofte beregningsmæssigt billigere end eksplicitte koordinatberegninger. Denne tilgang kaldes " atomtricket " [1] . Kernelfunktioner er blevet introduceret til serielle data, grafer , tekster, billeder og også for vektorer.

Blandt de algoritmer, der er i stand til at arbejde med kerner, er den nukleare perceptron , støttevektormaskiner, Gaussiske processer , principal komponentanalyse ( PCA ), kanonisk korrelationsanalyse , ridge regression , spektral clustering , lineære adaptive filtre og mange andre .  Enhver lineær model kan konverteres til en ikke-lineær model ved at anvende et kernetrick på modellen, og erstatte dens funktioner (prædiktorer) med en kernefunktion.

De fleste kernealgoritmer er baseret på konveks optimering eller egenvektorfund og er statistisk velfunderede. Normalt analyseres deres statistiske egenskaber ved hjælp af statistisk læringsteori (for eksempel ved hjælp af Rademacher kompleksitet ).

Årsager og uformel forklaring

Kernelmetoder kan opfattes som læring ved eksempel - i stedet for at lære nogle faste sæt parametre svarende til inputfunktioner, "husker" de det te træningseksempel og træner i henhold til dets vægte . Forudsigelse for umærket input, dvs. ikke inkluderet i træningssættet læres ved hjælp af lighedsfunktionen (kaldet kernen ) mellem det umærkede input og hvert af træningsinputsene . For eksempel beregner en binær kerneklassifikator normalt en vægtet lighedssum ved hjælp af formlen

,

hvor

Nukleare klassifikatorer blev beskrevet i begyndelsen af ​​1960'erne med opfindelsen af ​​den nukleare perceptron [2] . De opnåede bred accept sammen med populariteten af ​​støttevektormaskiner i 1990'erne, da SVM viste sig at være konkurrencedygtig med neurale netværk på opgaver såsom håndskriftsgenkendelse .

Mathematics: The Nuclear Trick

Kerneltricket undgår den eksplicitte mapping, der er nødvendig for at få en lineær indlæringsalgoritme for en ikke-lineær funktion eller beslutningsgrænse . For alle og i inputrummet kan nogle funktioner repræsenteres som et prikprodukt i et andet rum . Funktionen omtales ofte som kernen eller kernefunktionen . Ordet "kerne" bruges i matematik til at henvise til en vægtfunktion eller integral .

Nogle maskinlæringsproblemer har yderligere struktur i stedet for blot en vægtfunktion . Beregningerne bliver meget nemmere, hvis kernen kan skrives som en "feature mapping" , der opfylder ligheden

Hovedbegrænsningen her er, hvad der skal være et passende prikprodukt. På den anden side er en eksplicit repræsentation for ikke nødvendig, da det er et punktproduktrum . Alternativet følger af Mercers sætning — en implicit defineret funktion eksisterer, hvis rummet kan udstyres med et passende mål , der sikrer, at funktionen opfylder Mercers betingelse .

Mercers sætning er som en generalisering af et resultat fra lineær algebra, der relaterer prikproduktet til enhver positiv bestemt matrix . Faktisk kan Mercers tilstand reduceres til dette simple tilfælde. Hvis vi vælger som vores mål et tællemål for alle , som tæller antallet af punkter inde i mængden , så reduceres integralet i Mercers sætning til summering

Hvis denne ulighed gælder for alle endelige sekvenser af punkter i og alle sæt af reelle koefficienter (jf. Positiv bestemt kerne ), så opfylder funktionen Mercers betingelse.

Nogle algoritmer, der er afhængige af vilkårlige links i det oprindelige rum , vil i virkeligheden have en lineær repræsentation under andre forhold - i det varierede rum . Den lineære fortolkning giver os en idé om algoritmen. Desuden er det ofte ikke nødvendigt at beregne direkte på beregningstidspunktet, som det er tilfældet med støttevektormaskinen . Nogle anser reduktionen i tid på grund af dette som den største fordel ved algoritmen. Forskere bruger det til at forfine betydningen og egenskaberne af eksisterende algoritmer.

Teoretisk set bør Gram-matricen med hensyn til (nogle gange kaldet "kernematricen" [3] ), hvor , være positiv semidefinit [4] . Empirisk kan det for heuristik af maskinlæring stadig være berettiget at vælge en funktion, der ikke opfylder Mercers tilstand, hvis den i det mindste nærmer sig den intuitive idé om lighed [5] . Uanset om kernen er Mercer eller ej, kan o fortsat blive omtalt som "kernen".

Hvis kernefunktionen også er en kovariansfunktion , som bruges i en gaussisk proces , så kan Gram-matricen kaldes kovariansmatricen [6] .

Ansøgninger

Anvendelser af nukleare metoder er forskellige og omfatter geostatistik [7] , kriging , afstandsvægtning , 3D-rekonstruktion , bioinformatik , kemoinformatik , informationsudtrækning og håndskriftsgenkendelse .

Populære kerner

Noter

  1. Theodoridis, 2008 , s. 203.
  2. Aizerman, Braverman, Rozoner, 1964 , s. 821-837.
  3. Hofmann, Scholkopf, Smola, 2007 .
  4. Mohri, Rostamizadeh, Talwalkar, 2012 .
  5. Sewell, Martin Support Vector Machines: Mercer's Condition . www.svms.org .
  6. Rasmussen, Williams, 2006 .
  7. Honarkhah, Caers, 2010 , s. 487-517.

Litteratur

Litteratur

Link