Lang korttidshukommelse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 16. marts 2021; checks kræver 20 redigeringer .

En lang kæde af korttidshukommelseselementer ( eng.  Long short-term memory ; LSTM ) er en type tilbagevendende neural netværksarkitektur foreslået i 1997 af Sepp Hochreiter og Jurgen Schmidhuber [2] . Som de fleste tilbagevendende neurale netværk er et LSTM-netværk universelt i den forstand, at det med et tilstrækkeligt antal netværkselementer kan udføre enhver beregning, som en konventionel computer er i stand til, hvilket kræver en passende vægtmatrix , som kan betragtes som en program. I modsætning til traditionelle tilbagevendende neurale netværk er LSTM-netværket godt tilpasset til at lære om opgaverne med at klassificere , behandle og forudsige tidsserier i tilfælde, hvor vigtige begivenheder er adskilt af tidsforsinkelser med ubestemt varighed og grænser. Den relative immunitet over for varigheden af ​​tidsgab giver LSTM en fordel i forhold til alternative tilbagevendende neurale netværk, skjulte Markov-modeller og andre træningsmetoder til sekvenser i forskellige applikationer. Af de mange præstationer af LSTM-netværk kan man fremhæve de bedste resultater i genkendelse af ikke-segmenteret kontinuerlig håndskrift [3] og sejren i 2009 i håndskriftsgenkendelseskonkurrencen ( ICDAR ). LSTM-netværk bruges også i talegenkendelsesopgaver , for eksempel var LSTM -netværket hovedkomponenten i netværket, som i 2013 nåede en rekordfejltærskel på 17,7 % i fonemgenkendelsesopgaven på det klassiske naturlige talekorpus TIMIT [4] . Fra og med 2016 bruger førende teknologivirksomheder inklusive Google , Apple , Microsoft og Baidu LSTM-netværk som en grundlæggende komponent i nye produkter [5] [6] .

Arkitektur

Et LSTM-netværk er et kunstigt neuralt netværk, der indeholder LSTM-moduler i stedet for eller ud over andre netværksmoduler. Et LSTM-modul er et tilbagevendende netværksmodul, der er i stand til at lagre værdier i både korte og lange perioder. Nøglen til denne evne er, at LSTM-modulet ikke bruger en aktiveringsfunktion i dets tilbagevendende komponenter. Den lagrede værdi bliver således ikke sløret i tide, og gradienten eller straffen forsvinder ikke, når man bruger backpropagation through time-metoden, når man træner et kunstigt neuralt netværk . 

LSTM'er er ofte grupperet i "blokke", der indeholder forskellige LSTM'er. En sådan enhed er typisk for "dybe" flerlags neurale netværk og bidrager til implementeringen af ​​parallel databehandling ved hjælp af passende udstyr. I formlerne nedenfor angiver hver variabel, skrevet med små kursiv, en vektor med dimensioner svarende til antallet af LSTM-moduler i blokken.

LSTM-blokke indeholder tre eller fire "gates", der bruges til at styre informationsstrømmen ved ind- og udgangene af hukommelsen af ​​disse blokke. Disse porte er implementeret som en logistisk funktion til at beregne en værdi i området [0; en]. Multiplikation med denne værdi bruges til delvist at tillade eller afvise strømmen af ​​information ind og ud af hukommelsen. For eksempel styrer "inputporten" i hvilket omfang en ny værdi kommer ind i hukommelsen, og "glemporten" styrer i hvilket omfang en værdi bevares i hukommelsen. "Outputporten" styrer, i hvilket omfang værdien i hukommelsen bruges til at beregne udgangsaktiveringsfunktionen for blokken. (I nogle implementeringer er input-porten og forget-porten implementeret som en enkelt port. Tanken er, at den gamle værdi skal glemmes, når der er en ny værdi, der er værd at huske).

Vægtene i LSTM-blokken ( og ) bruges til at indstille portenes driftsretning. Disse vægte er defineret for de værdier, der føres ind i blokken (inklusive output fra det forrige tidstrin ) for hver af portene. Således bestemmer LSTM-blokken, hvordan dens hukommelse skal styres som en funktion af disse værdier, og vægttræning giver LSTM-blokken mulighed for at lære en funktion, der minimerer tabet. LSTM-blokke trænes normalt ved hjælp af backpropagation over tid.

Traditionel LSTM

Traditionel LSTM med glemmeporte [2] [7] og ( står for Hadamard-produkt ):

Variabler:

Aktiveringsfunktioner :

LSTM med øjne

Eye LSTM med glemmeporte [8] [9] bruges ikke, bruges som erstatning de fleste steder:

Convolutional LSTM

Convolutional LSTM [10] ( står for convolution operator ):

Træning

For at minimere den overordnede fejl af LSTM over hele sættet af træningssekvenser, kan iterativ gradientnedstigning såsom tidsudrullet backpropagation bruges til at ændre hver af vægtene i forhold til dens afledte afhængigt af størrelsen af ​​fejlen. Hovedproblemet med gradientnedstigning for standard tilbagevendende neurale netværk er, at fejlgradienter falder med en eksponentiel hastighed, efterhånden som tidsforsinkelsen mellem vigtige begivenheder øges, hvilket blev identificeret i 1991 [11] [12] . Med LSTM-blokke, men når fejlværdier forplanter sig tilbage fra outputlaget, låses fejlen i blokkens hukommelse. Dette kaldes en "fejlkarrusel", som konstant "føder" en fejl tilbage til hver af portene, indtil de er trænet til at kassere en værdi. Således er regelmæssig fejltilbageføring effektiv til at træne en LSTM-blok til at huske værdier i meget lange tidsperioder.

LSTM kan også trænes ved hjælp af en kombination af en evolutionær algoritme for vægtene i de skjulte lag og pseudoinverse matricer eller en støttevektormaskine til vægtene i outputlaget . [13] I forstærkningslæring kan LSTM'er trænes ved direkte at søge i rummet efter strategier, evolutionære strategier eller genetiske algoritmer .

Ansøgninger

Eksempler på LSTM-anvendelse er beskrevet: i robotteknologi [14] , til tidsserieanalyse [15] , til talegenkendelse [4] [16] [17] , i rytmisk læring [9] , til generering af musikalske kompositioner [18] , i grammatikindlæring ( engelsk  kunstig grammatikindlæring ) [8] [19] [20] , i opgaver med håndskriftsgenkendelse [21] [22] , til genkendelse af menneskelig aktivitet [23] , i opgaven med at identificere homologe proteiner [24] .

Noter

  1. Klaus Greff; Rupesh Kumar Srivastava; Jan Koutnik; Bas R. Steunebrink & Jürgen Schmidhuber (2015), LSTM: A Search Space Odyssey, arΧiv : 1503.04069 . 
  2. 12. Sepp Hochreiter ; Jürgen Schmidhuber . Langtidshukommelse //  Neural Computation   : journal. - 1997. - Bd. 9 , nr. 8 . - S. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 . — PMID 9377276 . Arkiveret fra originalen den 26. maj 2015. Arkiveret kopi (ikke tilgængeligt link) . Hentet 4. februar 2017. Arkiveret fra originalen 26. maj 2015. 
  3. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. Et nyt forbindelsessystem til forbedret ubegrænset håndskriftsgenkendelse. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, nr. 5, 2009.
  4. 1 2 Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey. Talegenkendelse med dybe tilbagevendende neurale netværk  //  Akustik, tale og signalbehandling (ICASSP), 2013 IEEE International Conference on : journal. - 2013. - S. 6645-6649 .
  5. Med QuickType vil Apple gøre mere end at gætte din næste tekst. Den vil gerne give dig en AI.  (engelsk) . KABLET . Dato for adgang: 16. juni 2016. Arkiveret fra originalen 24. marts 2017.
  6. Tilbagevendende neurale netværk - Feedback-netværk - Lstm Tilbagevendende netværk - Feedback-neuralt netværk - Tilbagevendende net - Feedback-netværk - Tilbagevendende net - - Feedback-net . people.idsia.ch _ Hentet 16. juni 2016. Arkiveret fra originalen 5. maj 2021.
  7. Felix A. Gers; Jurgen Schmidhuber; Fred Cummins. Lær at glemme: Kontinuerlig forudsigelse med LSTM  //  Neural Computation : journal. - 2000. - Vol. 12 , nr. 10 . - P. 2451-2471 . - doi : 10.1162/089976600300015015 .
  8. 1 2 3 Gers, F.A.; Schmidhuber, J. LSTM Tilbagevendende netværk Lær simple kontekstfrie og kontekstfølsomme sprog  // IEEE-transaktioner på neurale  netværk : journal. - 2001. - Bd. 12 , nr. 6 . - S. 1333-1340 . - doi : 10.1109/72.963769 .
  9. 1 2 3 Gers, F.; Schraudolph, N.; Schmidhuber, J. At lære præcis timing med LSTM tilbagevendende netværk  //  Journal of Machine Learning Research  : tidsskrift. - 2002. - Bd. 3 . - S. 115-143 .
  10. Xingjian Shi; Zhurong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting  //  Proceedings of the 28th International Conference on Neurale Information Processing Systems : tidsskrift. - 2015. - S. 802-810 .
  11. S. Hochreiter. Untersuchungen zu dynamiske neuronale Netzen. Diplomopgave, Institut f. Informatik, Teknisk Univ. München, 1991.
  12. S. Hochreiter, Y. Bengio, P. Frasconi og J. Schmidhuber. Gradientflow i tilbagevendende net: vanskeligheden ved at lære langsigtede afhængigheder. I SC Kremer og JF Kolen, redaktører, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
  13. Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. Træning af tilbagevendende netværk af Evolino   // Neural Computation. - 2007. - Bd. 19 , nr. 3 . - s. 757-779 . - doi : 10.1162/neco.2007.19.3.757 .
  14. H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll og J. Schmidhuber. Et system til robothjertekirurgi, der lærer at binde knob ved hjælp af tilbagevendende neurale netværk. Advanced Robotics, 22/13-14, pp. 1521-1537, 2008.
  15. J. Schmidhuber og D. Wierstra og F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, s. 853-858, 2005.
  16. Graves, A.; Schmidhuber, J. Rammemæssig fonemklassificering med tovejs LSTM og andre neurale netværksarkitekturer  //  Neural Networks : journal. - 2005. - Bd. 18 , nr. 5-6 . - S. 602-610 . - doi : 10.1016/j.neunet.2005.06.042 .
  17. S. Fernandez, A. Graves, J. Schmidhuber. En anvendelse af tilbagevendende neurale netværk til diskriminerende søgeordspotting. Intl. Konf. om kunstige neurale netværk ICANN'07, 2007.
  18. D. Eck og J. Schmidhuber. At lære Blues' langsigtede struktur. I J. Dorronsoro, red., Proceedings of Int. Konf. på Artificial Neural Networks ICANN'02, Madrid, side 284-289, Springer, Berlin, 2002.
  19. Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. At lære ikke-regulære sprog: En sammenligning af simple tilbagevendende netværk og LSTM   // Neural Computation : journal. - 2002. - Bd. 14 , nr. 9 . - S. 2039-2041 . doi : 10.1162 / 089976602320263980 .
  20. Perez-Ortiz, JA; Gers, F.A.; Eck, D.; Schmidhuber, J. Kalman-filtre forbedrer LSTM-netværkets ydeevne i problemer, der ikke kan løses af traditionelle tilbagevendende net  //  Neural Networks: journal. - 2003. - Bd. 16 , nr. 2 . - S. 241-250 . - doi : 10.1016/s0893-6080(02)00219-8 .
  21. A. Graves, J. Schmidhuber. Offline håndskriftsgenkendelse med multidimensionelle tilbagevendende neurale netværk. Advances in Neural Information Processing Systems 22, NIPS'22, pp. 545-552, Vancouver, MIT Press, 2009.
  22. A. Graves, S. Fernandez, M. Liwicki, H. Bunke, J. Schmidhuber. Ubegrænset online håndskriftsgenkendelse med tilbagevendende neurale netværk. Advances in Neural Information Processing Systems 21, NIPS'21, pp. 577-584, 2008, MIT Press, Cambridge, MA, 2008.
  23. M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sekventiel dyb læring for menneskelig handlingsgenkendelse. 2. internationale workshop om menneskelig adfærdsforståelse (HBU), AA Salah, B. Lepri red. Amsterdam, Holland. pp. 29-39. Lecture Notes in Computer Science 7065. Springer. 2011
  24. Hochreiter, S.; Heusel, M.; Obermayer, K. Hurtig modelbaseret proteinhomologidetektion uden justering  //  Bioinformatik: tidsskrift. - 2007. - Bd. 23 , nr. 14 . - P. 1728-1736 . - doi : 10.1093/bioinformatics/btm247 . — PMID 17488755 .

Links