Kunstig neuron

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 25. december 2020; checks kræver 4 redigeringer .

En kunstig neuron ( matematisk neuron McCulloch - Pitts , formel neuron [1] ) er en knude i et kunstigt neuralt netværk , som er en forenklet model af en naturlig neuron . Matematisk er en kunstig neuron normalt repræsenteret som en ikke-lineær funktion af et enkelt argument - en lineær kombination af alle inputsignaler. Denne funktion kaldes aktiveringsfunktionen [2] eller driftsfunktionen , overførselsfunktionen . Resultatet sendes til en enkelt udgang. Sådanne kunstige neuroner kombineres i netværk - de forbinder output fra nogle neuroner til input fra andre. Kunstige neuroner og netværk er hovedelementerne i en ideel neurocomputer . [3]

Biologisk prototype

En biologisk neuron består af et legeme med en diameter på 3 til 100 mikron, der indeholder en kerne (med et stort antal nukleare porer) og andre organeller (inklusive et højt udviklet ru ER med aktive ribosomer , Golgi-apparatet ) og processer. Der er to typer skud. Et axon er normalt en lang proces, der er tilpasset til at udføre excitation fra kroppen af en neuron. Dendritter er som regel korte og stærkt forgrenede processer, der tjener som hovedstedet for dannelsen af excitatoriske og hæmmende synapser, der påvirker neuronet (forskellige neuroner har et forskelligt forhold mellem længden af axon og dendritter). En neuron kan have flere dendritter og normalt kun én axon. En neuron kan have forbindelser med 20.000 andre neuroner. Den menneskelige hjernebark indeholder omkring 80 milliarder neuroner.

Udviklingshistorie

Den matematiske model af en kunstig neuron blev foreslået af W. McCulloch og W. Pitts sammen med en model af et netværk bestående af disse neuroner. Forfatterne viste, at netværket på sådanne elementer kan udføre numeriske og logiske operationer [4] . I praksis blev netværket implementeret af Frank Rosenblatt i 1958 som et computerprogram og senere som en elektronisk enhed - en perceptron . I starten kunne neuronen kun fungere med signalerne logisk nul og logisk et [5] , da den blev bygget på basis af en biologisk prototype, som kun kan være i to tilstande - ophidset eller uophidset. Udviklingen af neurale netværk har vist, at for at udvide omfanget af deres anvendelse er det nødvendigt, at neuronen ikke kun kan arbejde med binære, men også med kontinuerlige (analoge) signaler. En sådan generalisering af neuronmodellen blev lavet af Widrow og Hoff [6] , som foreslog at bruge den logistiske kurve som neurons affyringsfunktion.

Forbindelser mellem kunstige neuroner

Forbindelser, hvorigennem udgangssignalerne fra nogle neuroner går til input fra andre, kaldes ofte synapser , analogt med forbindelserne mellem biologiske neuroner. Hver forbindelse er kendetegnet ved sin egen vægt . Forbindelser med en positiv vægt kaldes excitatoriske , og dem med negativ vægt kaldes hæmmende [7] . Neuronen har én udgang, ofte kaldet axonen , analogt med den biologiske prototype. Fra et enkelt output fra en neuron kan et signal ankomme til et vilkårligt antal input fra andre neuroner.

Matematisk model

Matematisk er en neuron en vægtet adder, hvis eneste output er givet af dens input og vægtmatrixen som følger:

y=f(u)

, hvor

{\displaystyle u=\sum _{i=1}^{n}w_{i}x_{i}+w_{0}x_{0))

Her og er henholdsvis signalerne ved neurons input og vægtene af inputs, funktionen u kaldes det inducerede lokale felt, og f(u) er transferfunktionen. De mulige værdier af signalerne ved neurons input anses for givet i intervallet . De kan enten være diskrete (0 eller 1) eller analoge. Det ekstra input og dets tilsvarende vægt bruges til at initialisere neuronen [8] . Ved initialisering menes forskydningen af neuronets aktiveringsfunktion langs den horisontale akse, det vil sige dannelsen af neurons følsomhedstærskel [5] . Derudover tilføjes nogle gange en bestemt tilfældig variabel, kaldet et skift, bevidst til outputtet af en neuron. Skiftet kan betragtes som et signal på en yderligere, altid indlæst, synapse. $x_{i}$ $w_{i}$ $[0,1]$ $x_{0}$ $w_{0}$

Overførselsfunktionen af en neuron

Overførselsfunktionen bestemmer afhængigheden af signalet ved udgangen af neuronen af den vægtede sum af signalerne ved dets input. I de fleste tilfælde er den monotont stigende og har en række af eller , men der er undtagelser. For nogle netværkslæringsalgoritmer er det også nødvendigt, at det kontinuerligt kan differentieres på hele den numeriske akse [8] . En kunstig neuron er fuldt ud karakteriseret ved sin overførselsfunktion. Brugen af forskellige overførselsfunktioner gør det muligt at introducere ikke-linearitet i driften af neuronen og det neurale netværk som helhed. $f(u)$ $[-1,1]$ $[0,1]$

Klassificering af neuroner

Grundlæggende klassificeres neuroner baseret på deres position i netværkstopologien. Del:

Inputneuroner - accepter den originale vektor, der koder for inputsignalet. Som regel udfører disse neuroner ikke beregningsmæssige operationer, men sender blot det modtagne inputsignal til outputtet, hvilket muligvis forstærker eller svækker det;
Outputneuroner er output fra netværket. Enhver beregningsoperation kan udføres i outputneuronerne;
Mellemliggende neuroner - udføre grundlæggende beregningsmæssige operationer [9] .

Grundlæggende typer overførselsfunktioner

Lineær overførselsfunktion

Signalet ved udgangen af neuronen er lineært relateret til den vægtede sum af signalerne ved dens input.

f(x)=tx

hvor er en funktionsparameter. I kunstige neurale netværk med en lagdelt struktur udgør neuroner med overføringsfunktioner af denne type som regel inputlaget. Ud over en simpel lineær funktion kan dens modifikationer bruges. For eksempel en semi-lineær funktion (hvis dens argument er mindre end nul, så er den lig med nul, og i andre tilfælde opfører den sig som en lineær) eller en trinfunktion (en lineær funktion med mætning), som kan være udtrykt ved formlen [10] : $t$

f(x)={\begin{cases}0&{\text{if }}x\leq 0\\1&{\text{if }}x\geq 1\\x&{\text{else}} \end{sager}}

I dette tilfælde kan funktionen flyttes langs begge akser (som vist på figuren).

Ulemperne ved trin- og semi-lineære aktiveringsfunktioner i forhold til den lineære kan kaldes det faktum, at de ikke er differentiable på hele den numeriske akse, hvilket betyder, at de ikke kan bruges ved indlæring efter nogle algoritmer.

Threshold transfer funktion

Et andet navn er Heaviside-funktionen . Repræsenterer et hul. Indtil det vægtede signal ved neurons input når et vist niveau , er signalet ved udgangen nul. Så snart signalet ved neurons input overstiger det specificerede niveau, hopper udgangssignalet med én. Den allerførste repræsentant for lagdelte kunstige neurale netværk , perceptronen [11] , bestod udelukkende af neuroner af denne type [5] . Den matematiske notation for denne funktion ser sådan ud: $T$

f(x)={\begin{cases}1&{\text{if }}x\geq T\\0&{\text{else}}\end{cases}}

Her er forskydningen af aktiveringsfunktionen i forhold til den vandrette akse; følgelig skal den vægtede sum af signalerne ved neurons inputs forstås uden at tage hensyn til dette udtryk. På grund af det faktum, at denne funktion ikke er differentierbar på hele x-aksen, kan den ikke bruges i netværk, der trænes af backpropagation-algoritmen og andre algoritmer, der kræver differentiabilitet af overførselsfunktionen. ${\displaystyle T=-w_{0}x_{0))$ $x$

Sigmoidal overførselsfunktion

En af de mest brugte typer overførselsfunktioner i øjeblikket. Introduktionen af sigmoid-type funktioner skyldtes begrænsningerne af neurale netværk med en tærskelaktiveringsfunktion af neuroner - med en sådan aktiveringsfunktion er enhver af netværksoutputtene enten nul eller én, hvilket begrænser brugen af netværk, der ikke er i klassificeringsproblemer . Brugen af sigmoide funktioner gjorde det muligt at skifte fra binære neuronoutput til analoge [12] . Overførselsfunktioner af denne type er som regel iboende i neuroner placeret i de indre lag af det neurale netværk.

Logistisk funktion

Matematisk kan den logistiske funktion udtrykkes som følger:

\sigma (x)={\frac {1}{(1+\exp(-tx))))

Her er t en funktionsparameter, der bestemmer dens stejlhed . Når t nærmer sig uendelighed, degenererer funktionen til en tærskelfunktion. Når sigmoiden degenererer til en konstant funktion med en værdi på 0,5. Området for denne funktion er i intervallet (0,1). En vigtig fordel ved denne funktion er enkelheden af dens afledte: $t = 0$

{\cfrac {d\sigma (x)}{dx}}=t\sigma (x)(1-\sigma (x))

Det faktum, at derivatet af denne funktion kan udtrykkes i form af dens værdi, letter brugen af denne funktion, når du træner et netværk ved hjælp af backpropagation-algoritmen [13] . Et træk ved neuroner med en sådan overførselskarakteristik er, at de forstærker stærke signaler meget mindre end svage, da områderne med stærke signaler svarer til flade dele af karakteristikken. Dette forhindrer mætning fra store signaler [14] .

Hyperbolsk tangent

Brug af den hyperbolske tangentfunktion

{\displaystyle \operatorname {th} (Ax)={\frac {e^{Ax}-e^{-Ax}}{e^{Ax}+e^{-Ax))))

adskiller sig fra den logistiske kurve betragtet ovenfor ved, at dens værdiområde ligger i intervallet (-1; 1). Da forholdet er korrekt

\operatorname {th} \left({\frac {t}{2}}x\right)=2\sigma (x)-1

så adskiller begge grafer sig kun i aksernes skala. Den afledte af den hyperbolske tangens er naturligvis også udtrykt ved en kvadratisk værdifunktion; egenskaben ved at modstå mætning gælder nøjagtigt det samme.

Ændret hyperbolsk tangent

Brug af den modificerede hyperbolske tangentfunktion

\operatorname {mth} x={\frac {e^{x}-e^{-x}}{e^{ax}+e^{-bx}}},(a,b>1) ,

skaleret langs y-aksen til intervallet [-1; 1] giver dig mulighed for at få en familie af sigmoide funktioner.

Radial basis overførselsfunktion

Radial Basis Transfer Function (RBF) tager som argument afstanden mellem inputvektoren og et foruddefineret aktiveringsfunktionscenter. Værdien af denne funktion er højere, jo tættere inputvektoren er på midten [15] . Som radial basis kan du f.eks. bruge Gauss-funktionen :

y=\exp \left(-{\frac {(SR)^{2}}{2\sigma ^{2}}}\right)

Her er afstanden mellem midten og vektoren af inputsignaler . Den skalære parameter bestemmer henfaldshastigheden for funktionen, når vektoren bevæger sig væk fra midten og kaldes vinduesbredden , parameteren bestemmer aktiveringsfunktionens forskydning langs abscisseaksen. Netværk med neuroner, der bruger sådanne funktioner, kaldes RBF-netværk . Forskellige metrikker [16] kan bruges som afstanden mellem vektorer , den euklidiske afstand bruges normalt: $S=||\mathbf {X} -\mathbf {C} ||$ ${\mathbf {C}}$ $\mathbf {X}$ $\sigma$ $R$

S={\sqrt {\sum _{j=1}^{N}{(x_{j}-c_{j})^{2))))

Her er den -th komponent af vektoren, der fødes til input af neuron, og er den -th komponent af vektoren, der bestemmer positionen af centrum af overførselsfunktionen. Følgelig kaldes netværk med sådanne neuroner probabilistiske og regression [17] . $x_{j}$ $j$ ${\displaystyle c_{j))$ $j$

I virkelige netværk kan aktiveringsfunktionen af disse neuroner afspejle sandsynlighedsfordelingen af en tilfældig variabel eller betegne enhver heuristisk afhængighed mellem variablerne.

Andre overførselsfunktioner

Ovenstående funktioner er kun en brøkdel af de mange overførselsfunktioner, der er i brug i øjeblikket. Andre overførselsfunktioner omfatter [18] :

Udstiller ; $f(x)=\exp(-Ax)$
Trigonometrisk sinus ;
Modulopbygget: ; $f(x)=\venstre|x\højre|$
Kvadratisk .

Stokastisk neuron

Modellen af en deterministisk kunstig neuron er beskrevet ovenfor, det vil sige, at tilstanden ved udgangen af neuronen er unikt bestemt af resultatet af driften af adderen af inputsignaler. Stokastiske neuroner overvejes også , hvor neuronskiftet sker med en sandsynlighed afhængig af det inducerede lokale felt, det vil sige, at overførselsfunktionen er defineret som:

f(u)={\begin{cases}1&{\text{med sandsynlighed}}P(u)\\0&{\text{med sandsynlighed}}1-P(u)\end{cases}}

hvor sandsynlighedsfordelingen normalt har form af et sigmoid: $P(u)$

\sigma (u)={\frac {A(T)}{1+\exp(-u/T)))

der indføres en normaliseringskonstant for normaliseringsbetingelsen af sandsynlighedsfordelingen . Således aktiveres neuronen med sandsynlighed . Parameteren er analog med temperaturen (men ikke neuronens temperatur) og bestemmer lidelsen i det neurale netværk. Hvis vi har tendens til 0, vil den stokastiske neuron blive til en regulær neuron med en Heaviside-overførselsfunktion (tærskelfunktion). $A(T)$ $\int _{0}^{1}\sigma (u)du=1$ $P(u)$ $T$ $T$

Modellering af formelle logiske funktioner

En neuron med en tærskeloverførselsfunktion kan modellere forskellige logiske funktioner.

$f(u)={\begin{cases}1&{\text{if }}u\geqslant T\\0&{\text{else}}\end{cases}}$ , hvor $u=\sum _{i=1}^{n}w_{i}x_{i}+0$

Tabellerne illustrerer, hvordan det er muligt, ved at indstille vægten af inputsignaler og følsomhedstærsklen, at få neuronen til at udføre konjunktion (logisk "AND") og disjunktion (logisk "ELLER") over inputsignaler, samt logisk negation af indgangssignalet [19] . Disse tre operationer er nok til at modellere absolut enhver logisk funktion af et vilkårligt antal argumenter.

IKKE	T	-1,0
	w	-1,5
	x	0	en
	f	en	0

Og	T	1.5
	w 1	1.0
	w 2	1.0
	x 1	0	0	en	en
	x2 _	0	en	0	en
	f	0	0	0	en

ELLER	T	0,5
	w 1	1.0
	w 2	1.0
	x 1	0	0	en	en
	x2 _	0	en	0	en
	f	0	en	en	en

Se også

Noter

↑ L. G. Komartsova, A. V. Maksimov "Neurocomputers", MSTU. N. E. Bauman, 2004, ISBN 5-7038-2554-7
↑ I analogi med aktiveringsneuroner
↑ Mirkes E.M. , Neurocomputer. Udkast til standard. Arkivkopi dateret 15. juni 2009 på Wayback Machine - Novosibirsk: Nauka, 1999. - 337 s. ISBN 5-02-031409-9
↑ I McCulloch W.S., Pitts W. A logical Calculus of Ideas Immanent in Nervous Activity - Bull. Matematisk biofysik, 1943 online (utilgængeligt link)
↑ 1 2 3 Yasnitsky, 2005 , s. 29.
↑ I Widrow B., Hoff ME Adaptive koblingskredsløb . 1960 IRE WESTCON Conference Record. - New York, 1960
↑ V. V. Kruglov, V. V. Borisov - Kunstige neurale netværk. Teori og praksis - s.11
↑ 1 2 V. A. Terekhov - Neurale netværkskontrolsystemer - s.12-13
↑ V. V. Kruglov, V. V. Borisov - Kunstige neurale netværk. Teori og praksis - s.14
↑ V. V. Kruglov, V. V. Borisov - Kunstige neurale netværk. Teori og praksis - s.12
↑ Meget ofte i litteraturen kan man finde navnet perceptron
↑ Yasnitsky, 2005 , s. 34.
↑ CIT-forum - Neurocomputere - arkitektur og implementering . Hentet 16. november 2007. Arkiveret fra originalen 10. maj 2008. (ubestemt)
↑ V. V. Kruglov, V. V. Borisov - Kunstige neurale netværk. Teori og praksis - s.13
↑ Yasnitsky, 2005 , s. 77.
↑ V. V. Kruglov, V. V. Borisov - Kunstige neurale netværk. Teori og praksis - s.349
↑ V. V. Kruglov, V. V. Borisov - Kunstige neurale netværk. Teori og praksis - s.348
↑ tekst
↑ Yasnitsky, 2005 , s. tredive.

Litteratur

Terekhov V.A., Efimov D.V., Tyukin I.Yu. Neurale netværkskontrolsystemer. - 1. - Videregående skole , 2002. - S. 184. - ISBN 5-06-004094-1 .
Kruglov VV, Borisov VV Kunstige neurale netværk. Teori og praksis. - 1. - M . : Hotline - Telecom, 2001. - S. 382. - ISBN 5-93517-031-0 .
Callan R. Essential Neural Network Concepts = The Essence of Neural Networks First Edition. - 1. - "Williams" , 2001. - S. 288. - ISBN 5-8459-0210-X .
Yasnitsky L. N. Introduktion til kunstig intelligens. - 1. - Publishing Center "Academy", 2005. - S. 176. - ISBN 5-7695-1958-4 .
Komartsova L. G., Maksimov A. V. Neurocomputere . - 1. - Forlag af MSTU im. N.E. Bauman, 2002. - S. 320. - ISBN 5-7038-1908-3 .
Savelyev A. V. Konceptet med en multiprocessorneuron // Kunstig intelligens. Intelligente og multiprocessor systemer. - Donetsk-Taganrog-Minsk, 2006. - S. 293-300 .
Savelyev A. V. Neurocomputere i opfindelser // tidsskrift "Neurocomputere: udvikling, applikation". , Forlag "Radioteknik". - Moskva, 2004. - Nr. 2-3 . - S. 33-49 .
Lakhmi C. Jain; NM Martin Fusion af neurale netværk, fuzzy systemer og genetiske algoritmer: industrielle applikationer. — CRC Press, CRC Press LLC, 1998
Emelyanov VV, Kureichik VV, Kureichik VN Teori og praksis for evolutionær modellering. - M: Fizmatlit, 2003.

Eksterne links

Neuromodel RF-PSTH (simulerer strukturen af det receptive felt (RP) og det neurale outputsignal PSTH)