Tilbagevendende neurale netværk

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 22. januar 2022; checks kræver 7 redigeringer .

Gentagende neurale netværk ( RNS , eng.  Recurrent neural network ; RNN ) - en type neurale netværk , hvor forbindelser mellem elementer danner en rettet sekvens. Dette gør det muligt at bearbejde en række begivenheder i tid eller successive rumlige kæder. I modsætning til flerlagsperceptroner kan tilbagevendende netværk bruge deres interne hukommelse til at behandle sekvenser af vilkårlig længde. Derfor er RNN'er anvendelige i sådanne opgaver, hvor noget integreret er opdelt i dele, for eksempel: håndskriftsgenkendelse [1] eller talegenkendelse [2][3] . Mange forskellige arkitektoniske løsninger er blevet foreslået til tilbagevendende netværk, lige fra simple til komplekse. For nylig er langtids- og korttidshukommelsesnetværket (LSTM) og den kontrollerede tilbagevendende enhed (GRU) blevet de mest udbredte.

Historie

John Hopfield foreslog Hopfield Network i 1982 . I 1993 var et neuralt system til lagring og komprimering af historiske data i stand til at løse et "meget deep learning"-problem, hvor mere end 1000 på hinanden følgende lag udfoldede sig i et tilbagevendende netværk. [fire]

Long Short Term Memory (LSTM)

Netværk med langtids- og korttidshukommelse ( eng.  Langtidshukommelse, LSTM) ; LSTM ). [5] har fundet anvendelse i forskellige applikationer.

Fra og med 2007 vandt LSTM popularitet og var i stand til at tage talegenkendelse til næste niveau , hvilket viste en betydelig forbedring i forhold til traditionelle modeller. [6] I 2009 dukkede Connectionist Temporal Classification (CTC) tilgangen op. Denne metode gjorde det muligt for tilbagevendende netværk at inkludere kontekstanalyse i håndskriftsgenkendelse. [7] I 2014 var Encyclopedia of China og søgemaskinen Baidu ved hjælp af CTC-trænede tilbagevendende netværk i stand til at tage Switchboard Hub5'00 til et nyt niveau, foran traditionelle metoder. [otte]

LSTM har også ført til forbedringer i talegenkendelse med store ordbøger [2] [3] og forbedringer i tekst-til-tale [9] , og har også fundet anvendelse i Google Android -operativsystemet . [10] I 2015 øgede Googles talegenkendelse sine resultater markant op til 49 %, grunden til dette var brugen af ​​et særligt CTC-baseret LSTM-træningssystem i Googles stemmesøgnings- system . [elleve]

LSTM har bragt kvaliteten af ​​maskinoversættelse , [12] opbygning af sprogmodeller og [13] flersproget tekstbehandling til et nyt niveau. [14] Kombinationen af ​​LSTM med Convolutional Neural Networks (CNN'er) har forbedret automatisk billedbeskrivelse. [femten]

Arkitektur

Der er mange varianter, løsninger og konstruktive elementer af tilbagevendende neurale netværk.

Vanskeligheden ved det tilbagevendende netværk ligger i, at hvis hvert tidstrin tages i betragtning, så bliver det nødvendigt for hvert tidstrin at skabe sit eget lag af neuroner, hvilket forårsager alvorlige beregningsmæssige vanskeligheder. Derudover viser flerlagsimplementeringer sig at være beregningsmæssigt ustabile, da vægte normalt forsvinder eller forsvinder fra skalaen i dem. Hvis beregningen er begrænset til et fast tidsvindue, vil de resulterende modeller ikke afspejle langsigtede tendenser. Forskellige tilgange forsøger at forbedre modellen for historisk hukommelse og mekanismen til at huske og glemme.

Fuldt tilbagevendende netværk

Denne grundlæggende arkitektur blev udviklet i 1980'erne. Netværket er bygget af noder, som hver især er forbundet med alle andre noder. For hver neuron ændres aktiveringstærsklen over tid og er et reelt tal. Hver forbindelse har en variabel reel vægt. Noder er opdelt i input, output og skjulte.

For diskret-tidsovervåget læring tilføres inputknudepunkter ved hvert (diskrete) tidstrin data, og andre noder fuldfører deres aktivering, og udgangssignaler forberedes til transmission af neuronen til næste niveau. Hvis netværket f.eks. er ansvarligt for talegenkendelse, sendes der allerede labels (genkendte ord) til outputknuderne.

I forstærkende læring er der ingen lærer, der leverer målsignaler til netværket, i stedet bruges nogle gange en fitnessfunktion (fitness) eller en belønningsfunktion, som evaluerer kvaliteten af ​​netværket, mens outputværdien påvirker netværkets adfærd ved inputtet. Især hvis netværket implementerer et spil, måles outputtet ved antallet af gevinst- eller positionsscorepoint.

Hvert trin beregner fejlen som den samlede afvigelse af netværkets output. Hvis der er et sæt træningsprøver, beregnes fejlen under hensyntagen til fejlene for hver enkelt prøve.

Rekursivt netværk

Rekursive neurale netværk er et mere generelt tilfælde af tilbagevendende netværk, når signalet i netværket passerer gennem en struktur i form af et træ (normalt binære træer). [16] De samme vægtmatricer bruges rekursivt i hele grafen i henhold til dens topologi. [17] [18] Rekursive neurale netværk finder anvendelse i naturlige sprogbehandlingsopgaver . [19] Der er også tensor rekursive neurale netværk (RNTN, Recursive Neural Tensor Network), som bruger tensorfunktioner til alle noder i træet. [tyve]

Hopfields neurale netværk

Et Hopfield-netværk  er en type tilbagevendende netværk, hvor alle forbindelser er symmetriske. Opfundet af John Hopfield i 1982, er det garanteret, at dynamikken i et sådant netværk konvergerer til en af ​​ligevægtspositionerne. Hvis Hebbian learning bruges ved oprettelse af forbindelser , så kan Hopfield-netværket fungere som en pålidelig associativ hukommelse , der er modstandsdygtig over for skiftende forbindelser.

Bidirectional Associative Memory (BAM)

En variation på Hopfield-netværket er tovejs associativ hukommelse (BAM) . BAM har to lag, som hver kan fungere som input, finde (huske) en association og generere et resultat for det andet lag. [21] [22] [23]

Elman og Jordan Networks

Elmans neurale netværk er et tre-lags neuralt netværk. I illustrationen er lagene i netværket mærket x , y og z . Netværket indeholder også et sæt "kontekstbokse" ( u i illustrationen), der gemmer de tidligere værdier af skjulte lagnoder. For at gøre dette er det skjulte lag forbundet med kontekstblokkene ved direkte links med en fast vægt lig med én. [24] For hvert trin modtages information ved inputtet, som passerer en direkte vej til outputlaget i overensstemmelse med indlæringsreglerne. Faste tilbagemeldinger fra kontekstblokkene formidler værdierne af de tidligere tilstande af noderne i det skjulte lag (før det skjulte lag ændrer værdien under indlæringsprocessen). På denne måde bevarer netværket sin tidligere tilstand og giver således sekvensforudsigelse, som ligger uden for en flerlagsperceptrons muligheder.

Jordans neurale netværk ligner Elmans netværk. Kontekstboksene er dog ikke knyttet til det skjulte lag, men med outputlaget. Kontekstblokke bevarer således netværkets tidligere tilstand og muliggør tilbagevendende kommunikation i netværket. [24]

Elman- og Jordan-netværk kaldes også "simple recurrent networks" (SRN'er).

Elman netværk [25] Jordan netværk [26]

Variable og funktionsnotationer:

  • : input lag vektor
  • : skjult lagvektor
  • : outputlagsvektor
  • , og : Forbindelsesvægtmatricer og parametervektor
  • og : Aktiveringsfunktion

Ekko netværk

Ekko-netværk ( engelsk  echo state network ; ESN ) er karakteriseret ved ét skjult lag (som kaldes et reservoir) med tilfældige sparsomme forbindelser mellem neuroner. I dette tilfælde er forbindelserne inde i reservoiret faste, men forbindelserne med outputlaget er underlagt træning. Tankens tilstand (tilstand) beregnes gennem tankens tidligere tilstande, såvel som de tidligere tilstande for input- og outputsignalerne. Da ekko-netværk kun har ét skjult lag, har de en forholdsvis lav beregningsmæssig kompleksitet, men kvaliteten af ​​simuleringen er meget afhængig af de indledende indstillinger, som er nogenlunde tilfældige. Ekko-netværk fungerer godt ved gengivelse af tidsserier . [27] En variation af ekko-netværk er impuls-(spids-) neurale netværk , også kendt som flydende neurale netværk ("flydende" netværk er navngivet ved hjælp af metaforen om divergerende cirkler på vand fra en faldende sten, som karakteriserer korttidshukommelsen fra en inputhændelse). [28]

Neural historie kompressor

Den neurale kompressor af historiske data er en blok, der giver dig mulighed for i en komprimeret form at gemme de væsentlige historiske træk ved processen, som er en slags stak af et tilbagevendende neuralt netværk dannet i processen med selvindlæring . [29] På inputniveauet forsøger den neurale historiekompressor at forudsige det næste input fra de historiske data. Det næste niveau af det tilbagevendende netværk modtager kun de input, der ikke kunne forudsiges, og som samtidig bidrager til en ændring i kompressorens tilstand. Hvert næste lag af netværket lærer også komprimeret historisk information fra tidligere lag på samme måde. Således kan inputsekvensen rekonstrueres nøjagtigt ud fra repræsentationen af ​​efterfølgende lag.

Systemet forsøger at minimere størrelsen af ​​beskrivelsen eller bruger negative logaritmer til at estimere sandsynligheden for dataene. [30] Ved at bruge trænerbar forudsigelighed i den indkommende datasekvens kan RNN-netværket på næste niveau, der anvender allerede overvåget læring, allerede klassificere selv dybe sekvenser med store tidsintervaller mellem nøglebegivenheder.

RNN-netværket kan således opdeles i to niveauer af lag: "bevidst" (højere niveau) og "underbevidst" automatisering (lavere niveau). Når først topniveauet har lært at forudsige og komprimere input (som er uforudsigelige) ved hjælp af automatoren, så kan automatoren så tvinges i næste fase af at lære at forudsige sig selv eller efterligne gennem yderligere eller skjulte blokke af den langsommere forandring højeste niveau. Dette forenkler automatorens arbejde og giver mulighed for langsigtede, men sjældent skiftende minder. Til gengæld hjælper dette automatoren med at gøre mange af sine engang uforudsigelige input forudsigelige, så det øverste lag kan fokusere på de resterende uforudsigelige begivenheder. [29]

Long Short Term Memory (LSTM)

Et netværk med langtids- og korttidshukommelse ( engelsk  Long short term memory, LSTM) er et dybt læringssystem , hvis implementering formåede at omgå problemet med at forsvinde eller gå ud over skalaen af ​​gradienter i læringsprocessen ved hjælp af tilbageformeringsmetode . LSTM-netværket modereres typisk med tilbagevendende gates kaldet "glem"-gates. [31] Fejl forplanter sig bagud i tiden gennem et potentielt ubegrænset antal virtuelle lag. På denne måde finder læring sted i LSTM [32], mens hukommelsen om tusinder og endda millioner af tidsintervaller i fortiden bevares. Topologier af LSTM-netværk kan udvikles i henhold til processens specifikationer. [33] I et LSTM-netværk kan der tages højde for selv store forsinkelser mellem væsentlige hændelser, og dermed kan højfrekvente og lavfrekvente komponenter blandes.

Mange tilbagevendende netværk bruger datastakke, der er iboende i LSTM [34] Netværk kan trænes ved hjælp af "Connectionist Temporal Classification (CTC)" [  35 ] for at finde en sådan vægtmatrix, hvor sandsynligheden for en sekvens af etiketter i sætprøverne ved de relevante inputstrøm er minimeret. CTC giver dig mulighed for at opnå både bestilling og anerkendelse.

LSTM kan også trænes til at genkende kontekstfølsomme sprog, i modsætning til tidligere modeller baseret på Hidden Markov Model (HMM) og lignende ideer. [36]

Andenordens tilbagevendende netværk

Andenordens tilbagevendende netværk bruger højere ordens vægte i stedet for almindelige vægte , og input- og tilstandsparametrene kan fås som et produkt. I dette tilfælde transformeres netværket (mapping) til en tilstandsmaskine både i læreprocessen og under stabilisering og præsentation. [37] [38] Lang korttidshukommelse har i dette tilfælde ikke en sådan transformations- og stabilitetstest.

Kontrolleret tilbagevendende blok

Gated recurrent unit ( Gated recurrent units ; GRU ) er en tilbagevendende netværksstyringsmekanisme, der blev foreslået i 2014 .  GRU-ydeevne i talesignal- eller polyfoniske musikmodeller blev fundet at være sammenlignelig med langtidshukommelsen (LSTM). [39] Denne model har færre parametre end LSTM og mangler outputkontrol. [40]

Se også

Noter

  1. Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. Et nyt forbindelsessystem til forbedret ubegrænset håndskriftsgenkendelse  // IEEE-  transaktioner på mønsteranalyse og maskinintelligens : journal. - 2009. - Bd. 31 , nr. 5 .
  2. 1 2 Sak, Hasim; Senior, Andrew; Beaufays, Francoise Long Short-Term Memory tilbagevendende neurale netværksarkitekturer til akustisk modellering i stor skala (utilgængeligt link) (2014). Hentet 9. december 2017. Arkiveret fra originalen 24. april 2018. 
  3. 1 2 Li, Xiangang & Wu, Xihong (2014-10-15), Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition, arΧiv : 1410.4281 [cs.CL]. 
  4. Schmidhuber, Jürgen . Habiliteringsafhandling : Systemmodellering og optimering  . — 1993. Side 150 ff demonstrerer merittildeling på tværs af hvad der svarer til 1.200 lag i et udfoldet RNN.
  5. Hochreiter, Sepp; Schmidhuber, JürgenLangtidshukommelse  //  Neural beregning. - 1997. - 1. november ( bind 9 , nr. 8 ). - S. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 .
  6. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen. En anvendelse af tilbagevendende neurale netværk til diskriminerende søgeordspotting  //  Proceedings of the 17th International Conference on Artificial Neurale Networks: tidsskrift. - Berlin, Heidelberg: Springer-Verlag, 2007. - Vol. ICANN'07 . - S. 220-229 . — ISBN 978-3-540-74693-5 .
  7. Graves, Alex; Schmidhuber, Jürgen. Offline håndskriftsgenkendelse med multidimensionelle tilbagevendende neurale netværk // Neurale informationsbehandlingssystemer  (  NIPS) Foundation: tidsskrift / Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris redaktør-KI; Culotta, Aron. - 2009. - S. 545-552 .
  8. Hannun, Awni; Sag, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; et al. (2014-12-17), Deep Speech: Opskalering end-to-end talegenkendelse, arΧiv : 1412.5567 [cs.CL]. 
  9. Bo Fan, Lijuan Wang, Frank K. Soong og Lei Xie (2015). Foto-rigtigt talende hoved med dyb tovejs LSTM. I Proceedings of ICASSP 2015.
  10. Zen, Heiga; Sak, Hasim Ensrettet lang korttidshukommelse Gentagende neuralt netværk med tilbagevendende outputlag til talesyntese med lav latens . Google.com 4470–4474. ICASSP (2015). Arkiveret fra originalen den 9. maj 2021.
  11. Sak, Hasim; Senior, Andrew; Rao, Kanishka; Beaufays, Francoise; Schalkwyk, Johan Google stemmesøgning: hurtigere og mere præcis (september 2015). Dato for adgang: 9. december 2017. Arkiveret fra originalen 9. marts 2016.
  12. Sutskever, L.; Vinyals, O.; Le, Q. Sequence to Sequence Learning med neurale netværk  (ubestemt)  // Electronic Proceedings of the Neural Information Processing Systems Conference. - 2014. - T. 27 . - S. 5346 . - . - arXiv : 1409.3215 .
  13. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam & Wu, Yonghui (2016-02-07), Exploring the Limits of Language Modeling, arΧiv : 1602.02410 [cs.CL]. 
  14. Gillick, Dan; Brunk, Cliff; Vinyals, Oriol & Subramanya, Amarnag (2015-11-30), Flersproget sprogbehandling fra bytes, arΧiv : 1512.00103 [cs.CL]. 
  15. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy & Erhan, Dumitru (2014-11-17), Show and Tell: A Neural Image Caption Generator, arΧiv : 1411.4555 [cs.CV]. 
  16. Goller, C.; Küchler, A. Læring af opgaveafhængige distribuerede repræsentationer ved backpropagation gennem struktur  //  IEEE International Conference on Neural Networks, 1996: tidsskrift. - 1996. - Bd. 1 . - S. 347 . - ISBN 0-7803-3210-5 . - doi : 10.1109/ICNN.1996.548916 .
  17. Seppo Linnainmaa (1970). Repræsentationen af ​​den kumulative afrundingsfejl af en algoritme som en Taylor-udvidelse af de lokale afrundingsfejl. Kandidatafhandling (på finsk), Univ. Helsinki, 6-7.
  18. Griewank, Andreas; Walter, Andrea. [ [1]  i Google Books Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation  ] . - Sekund. - SIAM, 2008. - ISBN 978-0-89871-776-1 .
  19. Socher, Richard; Lin, Cliff; Ng, Andrew Y. & Manning, Christopher D., Parsing Natural Scenes and Natural Language with Recursive Neural Networks , 28th International Conference on Machine Learning (ICML 2011) Arkiveret 31. oktober 2017 på Wayback Machine 
  20. Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. Rekursive Deep Models for Semantic Compositionality Over a Sentiment Treebank  (engelsk)  // Emnlp 2013 : journal.
  21. Kosko, B. (1988). "Tovejs associative erindringer". IEEE-transaktioner på systemer, mennesker og kybernetik . 18 (1): 49-60. DOI : 10.1109/21.87054 .
  22. Rakkiyappan, R.; Chandrasekar, A.; Lakshmanan, S.; Park, Ju H. Eksponentiel stabilitet for Markovian jumping stokastiske BAM neurale netværk med tilstandsafhængige probabilistiske tidsvarierende forsinkelser og impulskontrol  //  Complexity: journal. - 2015. - 2. januar ( bind 20 , nr. 3 ). - S. 39-65 . - doi : 10.1002/cplx.21503 .
  23. Raul Rojas. [ [2]  i Google Books Neurale netværk : en systematisk introduktion]  . - Springer, 1996. - S. 336. - ISBN 978-3-540-60505-8 .
  24. 12 Cruse , Holk; Neurale netværk som cybernetiske systemer Arkiveret 20. oktober 2016 på Wayback Machine , 2. og revideret udgave
  25. Elman, Jeffrey L. Finde struktur i tid  (ubestemt)  // Kognitiv videnskab. - 1990. - T. 14 , nr. 2 . - S. 179-211 . - doi : 10.1016/0364-0213(90)90002-E .
  26. Jordan, Michael I. Serial Order: A Parallel Distributed Processing Approach  //  Advances in Psychology: tidsskrift. - 1997. - 1. januar ( bind 121 ). - S. 471-495 . — ISBN 9780444819314 . - doi : 10.1016/s0166-4115(97)80111-2 .
  27. Jaeger, Herbert; Haas, Harold. Udnyttelse af ikke-linearitet: Forudsigelse af kaotiske systemer og energibesparelse i trådløs kommunikation  (engelsk)  // Science : journal. - 2004. - 2. april ( bd. 304 , nr. 5667 ). - S. 78-80 . - doi : 10.1126/science.1091277 . - . — PMID 15064413 .
  28. W. Maass, T. Natschläger og H. Markram. Et nyt kig på realtidsberegning i generiske tilbagevendende neurale kredsløb. Teknisk rapport, Institut for Teoretisk Datalogi, TU Graz, 2002.
  29. 1 2 Schmidhuber, Jürgen. At lære komplekse, udvidede sekvenser ved hjælp af princippet om historiekomprimering  //  Neural Computation : journal. — Bd. 4 , nr. 2 . - S. 234-242 .
  30. Schmidhuber, Jürgen. Deep Learning  (ubestemt)  // Scholarpedia . - 2015. - T. 10 , nr. 11 . - S. 32832 .
  31. Gers, Felix; Schraudolph, Nicol N.; Schmidhuber, Jürgen Lær præcis timing med LSTM tilbagevendende netværk (PDF-download tilgængelig) . ResearchGate . Hentet 13. juni 2017. Arkiveret fra originalen 4. april 2019.
  32. Schmidhuber, Jürgen Deep Learning in Neurale Networks: An Overview  (neopr.)  // Neurale netværk. - 2015. - Januar ( bind 61 ). - S. 85-117 . - doi : 10.1016/j.neunet.2014.09.003 . - arXiv : 1404.7828 . — PMID 25462637 .
  33. Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Jürgen. Evolving Memory Cell Structures for Sequence Learning  //  Kunstige neurale netværk - ICANN 2009: tidsskrift. - Springer, Berlin, Heidelberg, 2009. - 14. september ( vol. Lecture Notes in Computer Science ). - S. 755-764 . - ISBN 978-3-642-04276-8 . - doi : 10.1007/978-3-642-04277-5_76 .
  34. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen. Sekvensmærkning i strukturerede domæner med hierarkiske tilbagevendende neurale netværk   // Proc . 20. Int. Fælles konf. om kunstig intelligens, Ijcai 2007: tidsskrift. - 2007. - S. 774-779 .
  35. Graves, Alex; Fernandez, Santiago; Gomez, Faustino. Connectionistisk tidsklassifikation: Mærkning af usegmenterede sekvensdata med tilbagevendende neurale netværk  //  In Proceedings of the International Conference on Machine Learning, ICML 2006: tidsskrift. - 2006. - S. 369-376 .
  36. Gers, F.A.; Schmidhuber, E. LSTM tilbagevendende netværk lærer enkle kontekstfrie og kontekstfølsomme sprog  // IEEE-  transaktioner på neurale netværk : journal. - 2001. - November ( bind 12 , nr. 6 ). - S. 1333-1340 . — ISSN 1045-9227 . - doi : 10.1109/72.963769 .
  37. CL Giles, CB Miller, D. Chen, HH Chen, GZ Sun, YC Lee, "Learning and Extracting Finite State Automata with Second-Order Recurrent Neural Networks" Arkiveret 15. april 2021 på Wayback Machine , Neural Computation, 4( 3), s. 393, 1992.
  38. CW Omlin, CL Giles, "Constructing Deterministic Finite-State Automata in Recurrent Neural Networks" Arkiveret 18. april 2017 i Wayback Machine Journal of the ACM, 45(6), 937-972, 1996.
  39. Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun & Bengio, Yoshua (2014), Empirisk evaluering af lukkede tilbagevendende neurale netværk på sekvensmodellering, arΧiv : 1412.3555 [cs.NE]. 
  40. Gentagende Neural Network Tutorial, Del 4 - Implementering af en GRU/LSTM RNN med Python og Theano - WildML . Hentet 18. maj 2016. Arkiveret fra originalen 10. november 2021.

Litteratur

  • Jordan, MI Serial order: A parallel distributed processing approach // Institute for Cognitive Science Report 8604. — University of California, San Diego, 1986.