Dyb læring

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 5. juni 2022; checks kræver 7 redigeringer .

Deep learning ( deep learning ; eng.  Deep learning ) - et sæt maskinlæringsmetoder ( med en lærer , med delvis involvering af en lærer , uden en lærer , med forstærkning ) baseret på læringsrepræsentationer ( eng.  feature/representation learning ), og ikke specialiserede algoritmer under specifikke opgaver. Mange deep learning-metoder var kendt tilbage i 1980'erne (og endnu tidligere [1] ), men resultaterne var ikke imponerende [2] før fremskridt i teorien om kunstige neurale netværk (fortræning af neurale netværk ved brug af et særligt tilfælde af en ikke-retningsbestemt grafisk model, den såkaldte begrænsede maskine Boltzmann ) og computerkraften i midten af ​​2000'erne (inklusive dem, der brugte grafikacceleratorer , brugerprogrammerbare gate-arrays og forskellige former for neurale processorer ) tillod ikke skabelsen af ​​komplekse teknologiske arkitekturer af neurale netværk , der har tilstrækkelig ydeevne og tillader løsning af en lang række problemer, der ikke kunne løses effektivt tidligere, for eksempel inden for computersyn , maskinoversættelse , talegenkendelse , og kvaliteten af ​​løsningen er i mange tilfælde nu sammenlignelig, og i nogle tilfælde overgår menneskelig effektivitet [3] .

Historie

På trods af, at udtrykket " deep learning " først dukkede op i det videnskabelige samfund af maskinlæring i 1986 efter Rina Dekhters arbejde [4] , blev den første generelle arbejdsalgoritme for dyb feed-forward flerlagsperceptroner udgivet i bogen af ​​Sovjetunionen videnskabsmændene Alexei Grigorievich Ivakhnenko og Valentin Grigorievich Lapa "Cybernetic predictive devices", tilbage i 1965 [5]

Andre dybe arkitekturer, især dem, der er specialiseret i mønstergenkendelse , har deres oprindelse i neokognitronen udviklet af Kunihiko Fukushima.i 1980. I 1989 lykkedes det Jan LeCun at bruge backpropagation- algoritmen til at træne dybe neurale netværk til at løse problemet med at genkende håndskrevne postnumre [6] . På trods af den succesfulde oplevelse tog det tre dage at træne modellen, hvilket begrænsede anvendeligheden af ​​denne metode betydeligt. Den lave indlæringsrate er forbundet med mange faktorer, herunder problemet med forsvindende gradienter på grund af den store spredning i værdierne af oplærbare parametre, som blev analyseret i 1991 af Jörgen Schmidhuber og Sepp Hochreiter. På grund af disse problemer gav neurale netværk plads til at understøtte vektormaskiner i 1990'erne .

I 1991 blev sådanne systemer brugt til at genkende isolerede 2D-håndskrevne cifre, og 3D-objektgenkendelse blev opnået ved at matche 2D-billeder til en håndlavet 3D-objektmodel. I 1992 blev en model af en cresceptron skabt [7] [8] [9] til genkendelse af tredimensionelle objekter i rodede scener.

I 1994 offentliggjorde André de Carvalho sammen med Mike Fairhurst og David Bisset de eksperimentelle resultater af et flerlags boolsk neuralt netværk, også kendt som et vægtløst neuralt netværk, bestående af et tre-lags selvorganiserende neuralt netværksmodul til funktionsudtrækning ( SOFT) og derefter en lagdelt neural netværksmodulklassifikation (GSN). Hvert modul gennemgik selvstændig træning. Hvert lag i modulet hentede objekter med stigende kompleksitet i forhold til det forrige lag. [ti]

I 1995 demonstrerede Brendan Frey, at det var muligt at træne (på to dage) et netværk indeholdende seks fuldt forbundne lag og flere hundrede skjulte enheder ved hjælp af en søvn-vågningsalgoritme udviklet med Peter Dayan og Hinton [11] . Mange faktorer bidrager til langsom hastighed, herunder problemet med forsvindende gradient analyseret i 1991 af Sepp Hochreiter [12] [13] .

Enklere modeller, der bruger opgavespecifikt manuelt arbejde, såsom Gabor-filtre og støttevektormaskiner (SVM'er), var populære valg i 1990'erne og 2000'erne på grund af de beregningsmæssige omkostninger ved kunstige neurale netværk (ANN'er). .ANN) og mangel på forståelse af, hvordan hjernen forbinder sine biologiske netværk.

Både overflade- og deep learning (f.eks. tilbagevendende netværk) ANN'er er blevet undersøgt i mange år [14] [15] [16] . Disse metoder har aldrig udkonkurreret heterogene blandede Gaussiske og skjulte Markov- modeller baseret på diskriminerende trænede generative talemodeller [17] . Nøglevanskeligheder blev analyseret, herunder gradientreduktion [12] og svag tidsmæssig korrelationsstruktur i neurale prædiktive modeller [18] [19] . Yderligere vanskeligheder var manglen på træningsdata og begrænset computerkraft.

Deep learning vandt popularitet i midten af ​​2000'erne, da alt kom sammen: computere blev kraftige nok til at træne store neurale netværk (de lærte at uddelegere beregninger til GPU'er , hvilket accelererede indlæringsprocessen med en størrelsesorden), datasæt blev store nok til at træne store netværk gav mening, og endnu et fremskridt fandt sted i teorien om kunstige neurale netværk - artikler af Hinton , Osinderero og Tae [20] , samt Bengio [21] , hvori forfatterne viste, at det er muligt effektivt at fortræne et flerlags neuralt netværk, hvis hvert lag trænes separat i at bruge en begrænset Boltzmann-maskine , og derefter genoptræning ved hjælp af backpropagation- metoden .

The Deep Learning Revolution

I 2012 vandt et hold ledet af George E. Dahl Merck Molecular Activity Challenge ved at bruge multitasking dybe neurale netværk til at forudsige det biomolekylære mål for et enkelt lægemiddel [22] . I 2014 brugte Hochreiters gruppe dyb læring til at identificere off-target og toksiske effekter af miljøkemikalier i næringsstoffer, husholdningsprodukter og lægemidler, og vandt "Tox21 Data Challenge" fra U.S. National Institutes of Health , US Food and Drug Administration . fødevare- og lægemiddelkvalitet og NCATS [23] .

En betydelig udvikling i billed- eller objektgenkendelse blev mærket mellem 2011 og 2012. Mens backpropagated convolutional neural networks (CNN'er) har eksisteret i årtier, og GPU'er har implementeret neurale netværk i mange år, inklusive CNN'er, er hurtige implementeringer af CNN'er på GPU'en blevet brugt til at fremme computersyn. I 2011 opnåede denne tilgang overmenneskelige præstationer for første gang i en konkurrence om visuel mønstergenkendelse. Også i 2011 vandt han ICDAR håndskriftskonkurrencen, og i maj 2012 ISBI billedsegmenteringskonkurrencen [24] . Indtil 2011 spillede CNN'er ikke nogen større rolle ved computervisionskonferencer, men i juni 2012 viste en præsentation af Ciresan [25] på flagskibet CVPR-konferencen, hvordan den maksimale integration af CNN'er på en GPU markant kan forbedre mange benchmark-resultater. I oktober 2012 blev et lignende system udviklet af Krizhevsky [26] , hvis hold vandt den store ImageNet -konkurrence med en betydelig margin i forhold til maskinlæringsmetoder på overfladen. I november 2012 vandt Ciresan-holdet også ICPR-konkurrencen for stor medicinsk billedanalyse til kræftpåvisning, og året efter MICCAI Grand Challenge om samme emne [27] . I 2013 og 2014 blev fejlprocenten i ImageNet-opgaven ved hjælp af deep learning yderligere reduceret på grund af en lignende tendens i storstilet talegenkendelse. Steven Wolfram offentliggjorde disse forbedringer som en del af Image Identification Project [28] .

Billedklassificering blev derefter udvidet til den mere komplekse opgave at generere beskrivelser (billedtekster) til billeder, ofte som en kombination af CNN og LSTM [29] [30] [31] [32] .

Nogle forskere mener, at ImageNets sejr i oktober 2012 markerede begyndelsen på en "deep learning revolution", der ændrede AI-industrien [33] .

I marts 2019 blev Yoshua Bengio , Geoffrey Hinton og Yann LeCun tildelt Turing-prisen for konceptuelle og ingeniørmæssige gennembrud, der har gjort dybe neurale netværk til en kritisk komponent i computing.

Neurale netværk

Kunstige neurale netværk (ANN'er)  er beregningssystemer baseret på principperne for biologiske neurale netværk , der udgør dyrehjernen. Sådanne systemer lærer (gradvis forbedrer deres evner) til at udføre opgaver, normalt uden at være programmeret til at løse specifikke opgaver. For eksempel kan de i billedgenkendelse af katte lære at genkende billeder, der indeholder katte, ved at analysere eksempler på billeder, der manuelt er blevet mærket "kat" eller "ingen kat" og bruge resultaterne af analysen til at identificere katte på andre billeder. ANN'er har fundet deres største brug i softwareapplikationer, der er svære at udtrykke med en traditionel computeralgoritme, der bruger regelbaseret programmering .

ANN'er er baseret på et sæt af forbundne enheder kaldet kunstige neuroner (svarende til biologiske neuroner i den biologiske hjerne). Hver forbindelse (synapse) mellem neuroner kan sende et signal til en anden neuron. Den modtagende (postsynaptiske) neuron kan behandle signalet/signalerne og derefter signalere de neuroner, der er forbundet til det. Neuroner kan have en tilstand, normalt repræsenteret ved reelle tal, normalt mellem 0 og 1. Neuroner og synapser kan også have vægte, der ændrer sig under indlæring, hvilket kan øge eller mindske styrken af ​​det signal, det udsender.

Typisk er neuroner organiseret i lag. Forskellige lag kan udføre forskellige former for transformationer. Signalerne bevæger sig fra det første (input) til det sidste (output) lag, muligvis efter at have passeret gennem lagene flere gange.

Det oprindelige mål med den neurale netværkstilgang var at løse problemer på samme måde som den menneskelige hjerne gør. Over tid har opmærksomheden fokuseret på udvælgelsen af ​​visse intellektuelle evner, hvilket førte til afvigelser fra biologien, såsom backpropagation, eller transmission af information i den modsatte retning og oprettelse af et netværk til at afspejle denne information.

Neurale netværk bruges til en række forskellige opgaver, herunder maskinsyn, talegenkendelse, maskinoversættelse, filtrering af sociale medier, videospil og medicinsk diagnostik.

Fra 2017 har neurale netværk typisk et par tusinde til et par millioner enheder og millioner af forbindelser. På trods af at dette tal er adskillige størrelsesordener mindre end antallet af neuroner i den menneskelige hjerne, kan disse netværk udføre mange opgaver på et niveau, der overstiger menneskers evner (f.eks. ansigtsgenkendelse, spille go ) [34] .

Dybe neurale netværk

Et dybt neuralt netværk (DNN, DNN - Deep neural network) er et kunstigt neuralt netværk (ANN) med flere lag mellem input- og outputlagene [35] [36] . GNN finder den korrekte matematiske transformationsmetode til at omdanne input til et output, uanset om korrelationen er lineær eller ikke-lineær . Netværket bevæger sig gennem lagene og beregner sandsynligheden for hver udgang. For eksempel vil en DNN, der er trænet til at genkende hunderacer, gå gennem et givent billede og beregne sandsynligheden for, at en hund på billedet tilhører en bestemt race. Brugeren kan se resultaterne og vælge de sandsynligheder, netværket skal vise (for eksempel over en vis tærskel) og returnere en foreslået etiket til netværket. Hver matematisk transformation betragtes som et lag, og komplekse GNN'er har mange lag, deraf navnet "dybe" eller "dybe" netværk.

GNN'er kan modellere komplekse ikke-lineære relationer. GNN-arkitekturer genererer kompositionsmodeller, hvor et objekt udtrykkes som en flerniveausammensætning af primitiver [37] . Yderligere lag gør det muligt at sammensætte elementer fra lavere niveauer, der potentielt modellerer komplekse data med færre enheder end et fint netværk med lignende metrikker [35] .

Dyb arkitektur omfatter mange variationer af flere grundlæggende tilgange. Hver arkitektur har fundet succes på visse områder. Det er ikke altid muligt at sammenligne ydeevnen af ​​flere arkitekturer, medmindre de er blevet evalueret på de samme datasæt.

GNN'er er typisk feed-forward-netværk, hvor data overføres fra et inputlag til et outputlag uden feedback. For det første opretter GNN et kort over virtuelle neuroner og tildeler tilfældige numeriske værdier eller "vægte" til forbindelserne mellem dem. Vægtene og inputdataene multipliceres og returnerer et udgangssignal fra 0 til 1. Hvis netværket ikke nøjagtigt genkender et bestemt mønster, vil algoritmen justere vægtene, indtil den bestemmer koefficienterne, der korrekt behandler dataene. [38]

Definitioner

Maskinlæringsalgoritmer

Deep learning er karakteriseret som en klasse af maskinlæringsalgoritmer , der [39] :

Alle definitioner angiver

  1. tilstedeværelsen af ​​flere lag af ikke-lineær behandling
  2. overvåget eller uovervåget læring fremhævede hvert lag, der dannede et hierarki fra lave til høje niveauer [39] .

Sammensætningen af ​​specifikke ikke-lineære lag afhænger af problemet, der skal løses. Både skjulte lag af det neurale netværk og lag af komplekse logiske transformationer bruges [40] . Systemet kan inkludere latente variable organiseret i lag i dybe generative modeller såsom noder i et dybt net af tillid og en dybt begrænset Boltzmann-maskine .

Deep learning algoritmer er i modsætning til overfladiske indlæringsalgoritmer med hensyn til antallet af parameteriserede transformationer, som signalet møder, når det udbreder sig fra inputlaget til outputlaget, hvor en parameteriseret transformation anses for at være en databehandlingsenhed, der har oplærbare parametre som f.eks. som vægte eller tærskler [41] . Kæden af ​​transformationer fra input til output kaldes CAP - ved at overføre ansvar ( engelsk  credit assignment path, CAP ). CAP'er beskriver potentielle årsagssammenhænge langs netværket fra input til output, og stien i forskellige grene kan have forskellig længde. For et feedforward neuralt netværk afviger CAP-dybden ikke fra netværksdybden og er lig med antallet af skjulte lag plus et (outputlaget er også parametriseret). For tilbagevendende neurale netværk , hvor signalet kan springe gennem lag uden om mellemliggende, er CAP potentielt ubegrænset i længde på grund af feedback. Der er ingen universelt aftalt tærskel for opdelingsdybden af ​​overfladisk læring fra dyb læring, men dyb læring anses generelt for at være karakteriseret ved flere ikke-lineære lag (CAP > 2). Jørgen Schmidhuber fremhæver også "meget dyb læring", når CAP > 10 [41] .

Indhold

Deep learning er en maskinlæringsalgoritme til modellering af abstraktioner på højt niveau ved hjælp af flere ikke-lineære transformationer [39] [40] [41] [42] [43] .

Først og fremmest omfatter deep learning følgende metoder og deres variationer:

Ved at kombinere disse metoder skabes komplekse systemer, der svarer til forskellige kunstige intelligensopgaver .

Deep learning er et valideret udvalg fra en bred familie af maskinlæringsmetoder til at repræsentere de data, der passer bedst til problemets natur. Et billede kan for eksempel repræsenteres på mange måder, såsom en intensitetsvektor af værdier pr. pixel, eller (i en mere abstrakt form) som et sæt af primitiver, regioner med en bestemt form osv. Succesfulde datarepræsentationer gøre det nemmere at løse specifikke problemer - for eksempel ansigtsgenkendelse og ansigtsudtryk [44] ). I deep learning-systemer automatiserer den processen med funktionsvalg og tuning, udfører funktionsindlæring uden en lærer eller med delvis involvering af en lærer , ved hjælp af effektive algoritmer og hierarkisk funktionsudtrækning [45] til dette .

Forskning på dette område har forbedret modeller til at arbejde med store mængder umærkede data. Nogle tilgange er opstået fra fremskridt inden for neurovidenskab , fremskridt inden for fortolkning af informationsbehandling, opbygning af kommunikationsmodeller i nervesystemet , såsom neural kodning forbundet med at bestemme forholdet mellem stimulus og neurale reaktioner, og forholdet mellem elektrisk aktivitet mellem neuroner i hjernen [46] .

Deep learning-systemer har fundet anvendelse inden for områder som computersyn , talegenkendelse , naturlig sprogbehandling , lydgenkendelse, bioinformatik , hvor der blev demonstreret væsentligt bedre resultater end tidligere for en række opgaver.

På trods af succesen med at bruge deep learning, har den stadig en grundlæggende begrænsning: Deep learning-modeller er begrænset i, hvad de kan repræsentere, og de fleste programmer kan ikke udtrykkes som en kontinuerlig geometrisk morphing af en række data [47] .

Der er dog stadig den skeptiske forestilling om, at deep learning  ikke er andet end et buzzword eller et rebrand for neurale netværk [48] [49] .

Se også

Noter

  1. Faktisk dukkede de første dybe netværk op i midten af ​​1960'erne: netværk i form af dybe perceptroner blev beskrevet i værker af sovjetiske videnskabsmænd A. G. Ivakhnenko og V. G. Lapa - se afsnittet Historie nedenfor.
  2. Neurale netværksforsker John Denker observerede i 1994: "Neurale netværk er den næstbedste måde at gøre stort set alt på."
  3. Ciresan, Dan; Meier, U.; Schmidhuber, J. Dybe neurale netværk med flere kolonner til billedklassificering  //  2012 IEEE Conference on Computer Vision and Pattern Recognition: tidsskrift. - 2012. - Juni. - S. 3642-3649 . - doi : 10.1109/cvpr.2012.6248110 .
  4. Rina Dechter (1986). Læring mens du søger i problemer med begrænsningstilfredshed Arkiveret 19. april 2016 på Wayback Machine . University of California, Computer Science Department, Cognitive Systems Laboratory.
  5. Ivakhnenko A. G. , Lapa V. G. Cybernetiske prædiktive enheder. - K . : "Naukova Dumka", 1965. - 216 s. - ISBN 978-5-458-61159-6 .
  6. Yann LeCun et al. Backpropagation anvendt på håndskrevet postnummergenkendelse (link ikke tilgængeligt) . Hentet 28. august 2014. Arkiveret fra originalen 29. maj 2015. 
  7. J. Weng, N. Ahuja og TS Huang. Cresceptron: et selvorganiserende neuralt netværk, som vokser adaptivt  // Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, bind I, pp. 576-581. - juni 1992. Arkiveret fra originalen den 21. september 2017.
  8. J. Weng, N. Ahuja og TS Huang,. Lære genkendelse og segmentering af 3-D objekter fra 2-D billeder  // Proc. 4. internationale konf. Computer Vision, Berlin, Tyskland, pp. 121-128. - Maj, 1993. Arkiveret fra originalen den 21. september 2017.
  9. J. Weng, N. Ahuja og TS Huang,. Læringsgenkendelse og segmentering ved hjælp af Cresceptron  // International Journal of Computer Vision, vol. 25, nr. 2, s. 105-139. nov. 1997. Arkiveret fra originalen den 25. januar 2021.
  10. de Carvalho, Andre CLF; Fairhurst, Mike C.; Bisset, David (1994-08-08). Et integreret boolesk neuralt netværk til mønsterklassificering  // Pattern Recognition Letters.. — s. 807–813 . - doi : 10.1016/0167-8655(94)90009-4. . Arkiveret fra originalen den 25. august 2019.
  11. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford. Wake-sleep-algoritmen til uovervågede neurale netværk  // Videnskab. 268 (5214): 1158–1161 .. - 1995-05-26. doi : 10.1126 / science.7761831. . Arkiveret fra originalen den 25. august 2019.
  12. ↑ 1 2 S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen  // Diplomafhandling. institut f. Informatik, Teknisk Univ. München. Rådgiver: J. Schmidhuber. - 1991. Arkiveret 6. marts 2015.
  13. Hochreiter, S.; et al. Gradientflow i tilbagevendende net: vanskeligheden ved at lære langsigtede afhængigheder  // I Kolen, John F.; Kremer, Stefan C. (red.). En feltvejledning til dynamiske tilbagevendende netværk. John Wiley & Sons. - 15. januar 2001. - ISBN 978-0-7803-5369-5 . . Arkiveret fra originalen den 19. august 2020.
  14. Morgan, Nelson; Bourlard, Herve; Renals, Steve; Cohen, Michael; Franco, Horacio. Hybrid neuralt netværk/skjulte markov-modelsystemer til kontinuerlig talegenkendelse // International Journal of Pattern Recognition and Artificial Intelligence.. — 1993-08-01. - nr. 07 (4): 899–916 . — ISSN 0218-0014 . - doi : 10.1142/s0218001493000455 .
  15. Robinson, T. Et system til genkendelse af ordgenkendelse i netværk med tilbagevendende fejl i realtid. — ICASSP. Icassp'92: 617–620 .. - 1992. - ISBN 9780780305328 ..
  16. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ Fonemgenkendelse ved hjælp af tidsforsinkelse neurale netværk // IEEE-transaktioner på akustik, tale og signalbehandling. 37(3): 328-339. - marts 1989. - ISSN 0096-3518 . - doi : 10.1109/29.21701. hdl:10338.dmlcz/135496 .
  17. Baker, J.; Deng, Li; Glas, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. 2009. Research Developments and Directions in Speech Recognition and Understanding, Del 1 // IEEE Signal Processing Magazine.. - nr. 26 (3): 75–80 . - doi : 10.1109/msp.2009.932166 .
  18. Bengio, Y. Artificial Neural Networks and their Application to Speech/Sequence Recognition  // McGill University Ph.D. afhandling.. - 1991. Arkiveret fra originalen den 9. maj 2021.
  19. Deng, L.; Hassanein, K.; Elmasry, M. Analyse af korrelationsstruktur for en neural prædiktiv model med applikationer til talegenkendelse // Neurale netværk. 7(2). - 1994. - S. 331-339 . - doi : 10.1016/0893-6080(94)90027-2 .
  20. En hurtig læringsalgoritme for dybe trosnet . Hentet 24. januar 2018. Arkiveret fra originalen 23. december 2015.
  21. Bengio, Yoshua (2012), Praktiske anbefalinger til gradientbaseret træning af dybe arkitekturer, arΧiv : 1206.5533 . 
  22. Annoncering af vinderne af Merck Molecular Activity Challenge . Hentet 27. november 2019. Arkiveret fra originalen 21. juni 2017.
  23. NCATS annoncerer vindere af Tox21 Data Challenge . Hentet 27. november 2019. Arkiveret fra originalen 8. september 2015.
  24. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen. Fremskridt inden for neurale informationsbehandlingssystemer  // Curran Associates, Inc. - 2012. - S. 2843–2851. . Arkiveret fra originalen den 9. august 2017.
  25. Ciresan, D.; Meier, U.; Schmidhuber, J. Dybe neurale netværk med flere kolonner til billedklassificering // IEEE-konference om computersyn og mønstergenkendelse. - 2012. - S. 3642–3649 . — ISBN 978-1-4673-1228-8 . - doi : 10.1109/cvpr.2012.6248110 . - arXiv : 1202.2745. .
  26. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry. ImageNet Classification with Deep Convolutional Neural Networks  // NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.. - 2012. Arkiveret den 10. januar 2017.
  27. Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. Mitosepåvisning i brystkræfthistologibilleder ved hjælp af dybe neurale netværk // Proceedings MICCAI. Forelæsningsnotater i datalogi. 7908 (Pt 2): 411–418. - 2013. - ISBN 978-3-642-38708-1 . - doi : 10.1007/978-3-642-40763-5_51 . — PMID 24579167 .
  28. "The Wolfram Language Image Identification Project". www.imageidentify.com. Hentet 2017-03-22. . Hentet 29. november 2019. Arkiveret fra originalen 22. juli 2020.
  29. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru. Vis og fortæl: En neural billedtekstgenerator // [cs.CV]. - 2014. - arXiv : 1411.4555 .
  30. Fang, Hao; Gupta, Saurabh; Iandola, Skov; Srivastava, Rupesh; Deng, Li; Dollar, Piotr; Gao, Jianfeng; Han, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey. Fra billedtekster til visuelle koncepter og tilbage // [cs.CV]. - 2014. - arXiv : https://arxiv.org/abs/1411.4952 .
  31. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. Forening af visuel-semantiske indlejringer med multimodale neurale sprogmodeller // [cs.LG]. - 2014. - arXiv : https://arxiv.org/abs/1411.2539 .
  32. Zhong, Sheng-hua; Liu, Yan; Liu, Yang. Bilinear Deep Learning til billedklassificering // Proceedings of the 19th ACM International Conference on Multimedia. MM '11. New York, NY, USA: ACM. - 2011. - S. 343–352 . — ISBN 9781450306164 . - doi : 10.1145/2072298.2072344 .
  33. Hvorfor dyb læring pludselig ændrer dit liv . Fortune (2016. Hentet 13. april 2018.). Hentet 30. november 2019. Arkiveret fra originalen 14. april 2018.
  34. Sølv, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda. Mestring af spillet Go med dybe neurale netværk og træsøgning // Nature: 529 (7587):. - Januar 2016. - ISSN 1476-4687 . - doi : 10.1038/nature16961 . — . — PMID 26819042 .
  35. ↑ 1 2 Bengio, Yoshua. Læring af dybe arkitekturer til kunstig intelligens  // Fundamenter og tendenser i maskinlæring. 2(1):1-127. - 2009. - doi : 10.1561/2200000006 .
  36. Schmidhuber, J. Deep Learning in Neurale Networks: An Overview // Neurale netværk. 61:85-117. - 2015. - doi : 10.1016/j.neunet.2014.09.003 . - arXiv : 1404.7828 . — PMID 25462637 .
  37. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru. Dybe neurale netværk til objektdetektion  // Fremskridt i neurale informationsbehandlingssystemer. - 2013. - S. 2553-2561 . Arkiveret fra originalen den 29. juni 2017.
  38. Hof, Robert D. Kommer kunstig intelligens endelig til sin ret?  // MIT Technology Review. Hentet 2018-07-10. Arkiveret fra originalen den 31. marts 2019.
  39. 1 2 3 Deng, L.; Yu, D. Deep Learning: Methods and Applications  (ubestemt)  // Fundamenter og tendenser i signalbehandling. - 2014. - V. 7 , nr. 3-4 . - S. 1-199 . - doi : 10.1561/2000000039 .
  40. 1 2 Bengio, Yoshua. Learning Deep Architectures for AI  (neopr.)  // Fundamenter og tendenser i Machine Learning. - 2009. - V. 2 , nr. 1 . - S. 1-127 . - doi : 10.1561/2200000006 . Arkiveret fra originalen den 4. marts 2016. Arkiveret kopi (ikke tilgængeligt link) . Hentet 24. november 2017. Arkiveret fra originalen 4. marts 2016. 
  41. 1 2 3 Schmidhuber, J. Deep Learning in Neurale Networks: An Overview  (indefinite)  // Neurale netværk. - 2015. - T. 61 . - S. 85-117 . - doi : 10.1016/j.neunet.2014.09.003 . - arXiv : 1404.7828 . — PMID 25462637 .
  42. Bengio, Y.; Courville, A.; Vincent, P. Repræsentationslæring: En gennemgang og nye perspektiver  // IEEE Transactions on Pattern Analysis and Machine Intelligence  [  : tidsskrift. - 2013. - Bd. 35 , nr. 8 . - S. 1798-1828 . - doi : 10.1109/tpami.2013.50 . - arXiv : 1206.5538 .
  43. Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning  (engelsk)  // Nature. - 2015. - Bd. 521 . - S. 436-444 . - doi : 10.1038/nature14539 . — PMID 26017442 .
  44. Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc-afhandling). Imperial College London, Department of Computing. arXiv : 1508.06535 .
  45. Song, Lee, Neural Information Processing, 2013
  46. Olshausen, BA Fremkomsten af ​​simple-celle-receptive feltegenskaber ved at lære en sparsom kode til naturlige billeder  //  Nature: journal. - 1996. - Bd. 381 , nr. 6583 . - S. 607-609 . - doi : 10.1038/381607a0 . — . — PMID 8637596 .
  47. Francois Chollet. Kapitel 9, afsnit 2 // Deep Learning med Python. - Manning, 2017. - 350 s. — ISBN 9781617294433 .
  48. Dyb læring til effektiv diskriminerende analyse . Tid fra kildestart: 7min 45s. Arkiveret 19. oktober 2020 på Wayback Machine
  49. Gomes, Machine-Learning Maestro Michael Jordan om vrangforestillingerne om Big Data og andre enorme ingeniørbestræbelser

Litteratur