Begrænset Boltzmann-maskine

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 23. maj 2021; checks kræver 3 redigeringer .

Begrænset Boltzmann-maskine ( eng.  restricted Boltzmann-maskine ), forkortet som RBM  , er en type generativt stokastisk neuralt netværk , der bestemmer sandsynlighedsfordelingen på inputdataprøver.

Den første begrænsede Boltzmann-maskine blev bygget i 1986 af Paul Smolensky under navnet Harmonium [1] , men fik først popularitet efter Hintons opfindelse af hurtige indlæringsalgoritmer i midten af ​​2000'erne.

Maskinen fik dette navn som en modifikation af den sædvanlige Boltzmann-maskine , hvor neuroner blev opdelt i synlige og skjulte, og forbindelser er kun tilladt mellem neuroner af forskellige typer, hvilket begrænser forbindelserne. Meget senere, i 2000'erne, vandt begrænsede Boltzmann-maskiner mere popularitet og blev ikke længere betragtet som variationer af Boltzmann-maskinen, men som særlige komponenter i arkitekturen af ​​deep learning -netværk . Kombination af flere kaskader af afgrænsede Boltzmann-maskiner danner et dybt trosnetværk , en speciel slags flerlags neurale netværk, der kan lære sig selv uden en lærer ved hjælp af backpropagation-algoritmen [2] .

Et træk ved begrænsede Boltzmann-maskiner er evnen til at blive trænet uden en lærer , men i visse applikationer trænes begrænsede Boltzmann-maskiner med en lærer. Maskinens skjulte lag er de dybe funktioner i dataene, der afsløres under indlæringsprocessen (se også Data mining ).

Bounded Boltzmann-maskiner har en bred vifte af applikationer - disse er problemer med reduktion af datadimensionalitet [ 3 ] , klassifikationsproblemer [4] , kollaborativ filtrering [5] , feature learning [ 6] og emnemodellering [ 7] . 

I en begrænset Boltzmann-maskine danner neuroner en todelt graf , på den ene side af grafen er der synlige neuroner (input), og på den anden side er der skjulte, og der etableres tværbindinger mellem hver synlig og hver skjult neuron. Et sådant system af forbindelser gør det muligt at anvende gradient-nedstigningsmetoden med kontrastiv divergens ved træning af netværket [8] .

Netværksstruktur

Den begrænsede Boltzmann-maskine er baseret på binære elementer med en Bernoulli-fordeling , der udgør de synlige og skjulte lag af netværket. Links mellem lag er specificeret ved hjælp af en matrix af vægte (størrelse m  ×  n ), samt forskydninger for det synlige lag og for det skjulte lag.

Begrebet netværksenergi ( v , h ) introduceres som

eller i matrixform

Hopfield-nettet har også en lignende energifunktion . Hvad angår den sædvanlige Boltzmann-maskine , bestemmes sandsynligheden for fordeling på vektorerne af de synlige og skjulte lag gennem energi [9] :

hvor  er partitionsfunktionen defineret som for alle mulige netværk (med andre ord  er en normaliseringskonstant, der garanterer, at summen af ​​alle sandsynligheder er lig med én). Bestemmelsen af ​​sandsynligheden for en separat inputvektor (marginalfordeling) udføres på samme måde gennem summen af ​​konfigurationer af alle mulige skjulte lag [9] :

På grund af netværkets struktur som en todelt graf er de enkelte elementer i det skjulte lag uafhængige af hinanden og aktiverer det synlige lag, og omvendt er de enkelte elementer i det synlige lag uafhængige af hinanden og aktiverer det skjulte. lag [8] . For synlige elementer og for skjulte elementer bestemmes de betingede sandsynligheder v gennem produkterne af sandsynligheden h :

og omvendt er de betingede sandsynligheder h defineret i form af produktet af sandsynligheden v :

Specifikke aktiveringssandsynligheder for et element er defineret som

og

hvor  er den logistiske funktion for lagaktivering.

De synlige lag kan også have en multinomial fordeling , mens de skjulte lag har en Bernoulli- fordeling . I tilfælde af multinomialitet bruges softmax i stedet for logistikfunktionen :

hvor K  er antallet af diskrete værdier af synlige elementer. Denne repræsentation bruges i emnemodelleringsproblemer [ 7] og i anbefalingssystemer [5] .

Forholdet til andre modeller

Den begrænsede Boltzmann-maskine er et specialtilfælde af den almindelige Boltzmann-maskine og Markov-netværket [10] [11] . Deres grafmodel svarer til grafmodellen for faktoranalyse [12] .

Læringsalgoritme

Læringsmålet er at maksimere sandsynligheden for et system med et givet sæt prøver (en matrix, hvor hver række svarer til en prøve af den synlige vektor ), defineret som produktet af sandsynligheden

eller, som er det samme, maksimering af produktets logaritme: [10] [11]

For at træne det neurale netværk bruges algoritmen for kontrastiv divergens (CD) til at finde de optimale matrixvægte , det blev foreslået af Geoffrey Hinton , oprindeligt til træning af PoE-modeller (“produkt af ekspertestimater”) [13] [14] . Algoritmen bruger Gibbs-sampling til at organisere en gradient-nedstigningsprocedure , svarende til backpropagation-metoden for neurale netværk.

Generelt ser ét trin af kontrastiv divergens (CD-1) sådan ud:

  1. For en dataprøve v beregnes de skjulte elementsandsynligheder, og aktivering anvendes for det skjulte lag h for den givne sandsynlighedsfordeling.
  2. Det ydre produkt (prøveudtagning) for v og h beregnes , som kaldes den positive gradient .
  3. Gennem prøven h rekonstrueres prøven af ​​det synlige lag v' , og derefter udføres prøvetagning igen med aktivering af det skjulte lag h' . (Dette trin kaldes Gibbs Sampling .)
  4. Dernæst beregnes det ydre produkt , men allerede vektorerne v' og h' , som kaldes den negative gradient .
  5. Vægtmatricen korrigeres for forskellen mellem den positive og negative gradient, ganget med en faktor, der specificerer indlæringshastigheden: .
  6. Bias a og b korrigeres på lignende måde: , .

Praktisk vejledning om implementering af læringsprocessen kan findes på Jeffrey Hintons personlige side [9] .

Se også

Links

  1. Smolensky, Paul. Kapitel 6: Informationsbehandling i dynamiske systemer: Fundamenter for harmoniteori // Parallel distribueret behandling: Explorations in the Microstructure of Cognition, bind 1: Fundamenter  (engelsk) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - P. 194-281. — ISBN 0-262-68053-X . Arkiveret kopi (ikke tilgængeligt link) . Hentet 10. november 2017. Arkiveret fra originalen 13. juni 2013. 
  2. Hinton, G. Deep belief networks  (ubestemt)  // Scholarpedia . - 2009. - T. 4 , nr. 5 . - S. 5947 . doi : 10.4249 /scholarpedia.5947 .
  3. Hinton, G.E.; Salakhutdinov, RR Reducing the dimensionality of data with Neural Networks  (engelsk)  // Science : journal. - 2006. - Bd. 313 , nr. 5786 . - S. 504-507 . - doi : 10.1126/science.1127647 . — PMID 16873662 .
  4. Larochelle, H.; Bengio, Y. (2008). Klassificering ved brug af diskriminerende begrænsede Boltzmann-maskiner (PDF) . Proceedings fra den 25. internationale konference om Machine learning - ICML '08. s. 536. DOI : 10.1145/1390156.1390224 . ISBN  9781605582054 . Arkiveret fra originalen (PDF) 2017-10-13 . Hentet 2017-11-10 . Forældet parameter brugt |deadlink=( hjælp )
  5. 1 2 Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Begrænsede Boltzmann-maskiner til kollaborativ filtrering . Proceedings af den 24. internationale konference om Machine learning - ICML '07. s. 791. doi : 10.1145/ 1273496.1273596 . ISBN 9781595937933 . 
  6. Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). En analyse af enkeltlags netværk i uovervåget funktionsindlæring (PDF) . International konference om kunstig intelligens og statistik (AISTATS). Arkiveret fra originalen (PDF) 2014-12-20 . Hentet 2017-11-10 . Forældet parameter brugt |deadlink=( hjælp )
  7. 1 2 Ruslan Salakhutdinov og Geoffrey Hinton (2010). Replikeret softmax: en urettet emnemodel Arkiveret 25. maj 2012 på Wayback Machine . Neurale informationsbehandlingssystemer 23
  8. 1 2 Miguel A. Carreira-Perpiñán og Geoffrey Hinton (2005). Om kontrastiv divergenslæring. Kunstig intelligens og statistik .
  9. 1 2 3 Geoffrey Hinton (2010). En praktisk guide til træning af begrænsede Boltzmann-maskiner Arkiveret 25. september 2014 på Wayback-maskinen . UTML TR 2010-003, University of Toronto.
  10. 1 2 Sutskever, Ilja; Tieleman, Tijmen. Om konvergensegenskaberne ved kontrastysiv divergens   // Proc . 13th Int'l Conf. om AI og statistik (AISTATS): tidsskrift. - 2010. Arkiveret 10. juni 2015.
  11. 1 2 Asja Fischer og Christian Igel. Træningsbegrænsede Boltzmann-maskiner: en introduktion . Arkiveret 10. juni 2015 på Wayback Machine . Mønstergenkendelse 47, s. 25-39, 2014.
  12. María Angélica Cueto; Jason Morton; Bernd Sturmfels. Geometri af den begrænsede Boltzmann-maskine  (neopr.)  // Algebraiske metoder i statistik og sandsynlighed. - American Mathematical Society, 2010. - V. 516 . - arXiv : 0908.4425 .  (utilgængeligt link)
  13. Geoffrey Hinton (1999). Produkter fra eksperter arkiveret 24. september 2015 på Wayback Machine . ICANN 1999 .
  14. Hinton, GE Træningsprodukter fra eksperter ved at minimere kontrastiv divergens  //  Neural Computation : journal. - 2002. - Bd. 14 , nr. 8 . - S. 1771-1800 . - doi : 10.1162/089976602760128018 . — PMID 12180402 .

Litteratur