En kunstig neuron ( matematisk neuron McCulloch - Pitts , formel neuron [1] ) er en knude i et kunstigt neuralt netværk , som er en forenklet model af en naturlig neuron . Matematisk er en kunstig neuron normalt repræsenteret som en ikke-lineær funktion af et enkelt argument - en lineær kombination af alle inputsignaler. Denne funktion kaldes aktiveringsfunktionen [2] eller driftsfunktionen , overførselsfunktionen . Resultatet sendes til en enkelt udgang. Sådanne kunstige neuroner kombineres i netværk - de forbinder output fra nogle neuroner til input fra andre. Kunstige neuroner og netværk er hovedelementerne i en ideel neurocomputer . [3]
En biologisk neuron består af et legeme med en diameter på 3 til 100 mikron, der indeholder en kerne (med et stort antal nukleare porer) og andre organeller (inklusive et højt udviklet ru ER med aktive ribosomer , Golgi-apparatet ) og processer. Der er to typer skud. Et axon er normalt en lang proces, der er tilpasset til at udføre excitation fra kroppen af en neuron. Dendritter er som regel korte og stærkt forgrenede processer, der tjener som hovedstedet for dannelsen af excitatoriske og hæmmende synapser, der påvirker neuronet (forskellige neuroner har et forskelligt forhold mellem længden af axon og dendritter). En neuron kan have flere dendritter og normalt kun én axon. En neuron kan have forbindelser med 20.000 andre neuroner. Den menneskelige hjernebark indeholder omkring 80 milliarder neuroner.
Den matematiske model af en kunstig neuron blev foreslået af W. McCulloch og W. Pitts sammen med en model af et netværk bestående af disse neuroner. Forfatterne viste, at netværket på sådanne elementer kan udføre numeriske og logiske operationer [4] . I praksis blev netværket implementeret af Frank Rosenblatt i 1958 som et computerprogram og senere som en elektronisk enhed - en perceptron . I starten kunne neuronen kun fungere med signalerne logisk nul og logisk et [5] , da den blev bygget på basis af en biologisk prototype, som kun kan være i to tilstande - ophidset eller uophidset. Udviklingen af neurale netværk har vist, at for at udvide omfanget af deres anvendelse er det nødvendigt, at neuronen ikke kun kan arbejde med binære, men også med kontinuerlige (analoge) signaler. En sådan generalisering af neuronmodellen blev lavet af Widrow og Hoff [6] , som foreslog at bruge den logistiske kurve som neurons affyringsfunktion.
Forbindelser, hvorigennem udgangssignalerne fra nogle neuroner går til input fra andre, kaldes ofte synapser , analogt med forbindelserne mellem biologiske neuroner. Hver forbindelse er kendetegnet ved sin egen vægt . Forbindelser med en positiv vægt kaldes excitatoriske , og dem med negativ vægt kaldes hæmmende [7] . Neuronen har én udgang, ofte kaldet axonen , analogt med den biologiske prototype. Fra et enkelt output fra en neuron kan et signal ankomme til et vilkårligt antal input fra andre neuroner.
Matematisk er en neuron en vægtet adder, hvis eneste output er givet af dens input og vægtmatrixen som følger:
, hvorHer og er henholdsvis signalerne ved neurons input og vægtene af inputs, funktionen u kaldes det inducerede lokale felt, og f(u) er transferfunktionen. De mulige værdier af signalerne ved neurons input anses for givet i intervallet . De kan enten være diskrete (0 eller 1) eller analoge. Det ekstra input og dets tilsvarende vægt bruges til at initialisere neuronen [8] . Ved initialisering menes forskydningen af neuronets aktiveringsfunktion langs den horisontale akse, det vil sige dannelsen af neurons følsomhedstærskel [5] . Derudover tilføjes nogle gange en bestemt tilfældig variabel, kaldet et skift, bevidst til outputtet af en neuron. Skiftet kan betragtes som et signal på en yderligere, altid indlæst, synapse.
Overførselsfunktionen bestemmer afhængigheden af signalet ved udgangen af neuronen af den vægtede sum af signalerne ved dets input. I de fleste tilfælde er den monotont stigende og har en række af eller , men der er undtagelser. For nogle netværkslæringsalgoritmer er det også nødvendigt, at det kontinuerligt kan differentieres på hele den numeriske akse [8] . En kunstig neuron er fuldt ud karakteriseret ved sin overførselsfunktion. Brugen af forskellige overførselsfunktioner gør det muligt at introducere ikke-linearitet i driften af neuronen og det neurale netværk som helhed.
Grundlæggende klassificeres neuroner baseret på deres position i netværkstopologien. Del:
Signalet ved udgangen af neuronen er lineært relateret til den vægtede sum af signalerne ved dens input.
,hvor er en funktionsparameter. I kunstige neurale netværk med en lagdelt struktur udgør neuroner med overføringsfunktioner af denne type som regel inputlaget. Ud over en simpel lineær funktion kan dens modifikationer bruges. For eksempel en semi-lineær funktion (hvis dens argument er mindre end nul, så er den lig med nul, og i andre tilfælde opfører den sig som en lineær) eller en trinfunktion (en lineær funktion med mætning), som kan være udtrykt ved formlen [10] :
I dette tilfælde kan funktionen flyttes langs begge akser (som vist på figuren).
Ulemperne ved trin- og semi-lineære aktiveringsfunktioner i forhold til den lineære kan kaldes det faktum, at de ikke er differentiable på hele den numeriske akse, hvilket betyder, at de ikke kan bruges ved indlæring efter nogle algoritmer.
Et andet navn er Heaviside-funktionen . Repræsenterer et hul. Indtil det vægtede signal ved neurons input når et vist niveau , er signalet ved udgangen nul. Så snart signalet ved neurons input overstiger det specificerede niveau, hopper udgangssignalet med én. Den allerførste repræsentant for lagdelte kunstige neurale netværk , perceptronen [11] , bestod udelukkende af neuroner af denne type [5] . Den matematiske notation for denne funktion ser sådan ud:
Her er forskydningen af aktiveringsfunktionen i forhold til den vandrette akse; følgelig skal den vægtede sum af signalerne ved neurons inputs forstås uden at tage hensyn til dette udtryk. På grund af det faktum, at denne funktion ikke er differentierbar på hele x-aksen, kan den ikke bruges i netværk, der trænes af backpropagation-algoritmen og andre algoritmer, der kræver differentiabilitet af overførselsfunktionen.
En af de mest brugte typer overførselsfunktioner i øjeblikket. Introduktionen af sigmoid-type funktioner skyldtes begrænsningerne af neurale netværk med en tærskelaktiveringsfunktion af neuroner - med en sådan aktiveringsfunktion er enhver af netværksoutputtene enten nul eller én, hvilket begrænser brugen af netværk, der ikke er i klassificeringsproblemer . Brugen af sigmoide funktioner gjorde det muligt at skifte fra binære neuronoutput til analoge [12] . Overførselsfunktioner af denne type er som regel iboende i neuroner placeret i de indre lag af det neurale netværk.
Logistisk funktionMatematisk kan den logistiske funktion udtrykkes som følger:
Her er t en funktionsparameter, der bestemmer dens stejlhed . Når t nærmer sig uendelighed, degenererer funktionen til en tærskelfunktion. Når sigmoiden degenererer til en konstant funktion med en værdi på 0,5. Området for denne funktion er i intervallet (0,1). En vigtig fordel ved denne funktion er enkelheden af dens afledte:
Det faktum, at derivatet af denne funktion kan udtrykkes i form af dens værdi, letter brugen af denne funktion, når du træner et netværk ved hjælp af backpropagation-algoritmen [13] . Et træk ved neuroner med en sådan overførselskarakteristik er, at de forstærker stærke signaler meget mindre end svage, da områderne med stærke signaler svarer til flade dele af karakteristikken. Dette forhindrer mætning fra store signaler [14] .
Hyperbolsk tangentBrug af den hyperbolske tangentfunktion
adskiller sig fra den logistiske kurve betragtet ovenfor ved, at dens værdiområde ligger i intervallet (-1; 1). Da forholdet er korrekt
,så adskiller begge grafer sig kun i aksernes skala. Den afledte af den hyperbolske tangens er naturligvis også udtrykt ved en kvadratisk værdifunktion; egenskaben ved at modstå mætning gælder nøjagtigt det samme.
Ændret hyperbolsk tangentBrug af den modificerede hyperbolske tangentfunktion
skaleret langs y-aksen til intervallet [-1; 1] giver dig mulighed for at få en familie af sigmoide funktioner.
Radial Basis Transfer Function (RBF) tager som argument afstanden mellem inputvektoren og et foruddefineret aktiveringsfunktionscenter. Værdien af denne funktion er højere, jo tættere inputvektoren er på midten [15] . Som radial basis kan du f.eks. bruge Gauss-funktionen :
.Her er afstanden mellem midten og vektoren af inputsignaler . Den skalære parameter bestemmer henfaldshastigheden for funktionen, når vektoren bevæger sig væk fra midten og kaldes vinduesbredden , parameteren bestemmer aktiveringsfunktionens forskydning langs abscisseaksen. Netværk med neuroner, der bruger sådanne funktioner, kaldes RBF-netværk . Forskellige metrikker [16] kan bruges som afstanden mellem vektorer , den euklidiske afstand bruges normalt:
.Her er den -th komponent af vektoren, der fødes til input af neuron, og er den -th komponent af vektoren, der bestemmer positionen af centrum af overførselsfunktionen. Følgelig kaldes netværk med sådanne neuroner probabilistiske og regression [17] .
I virkelige netværk kan aktiveringsfunktionen af disse neuroner afspejle sandsynlighedsfordelingen af en tilfældig variabel eller betegne enhver heuristisk afhængighed mellem variablerne.
Ovenstående funktioner er kun en brøkdel af de mange overførselsfunktioner, der er i brug i øjeblikket. Andre overførselsfunktioner omfatter [18] :
Modellen af en deterministisk kunstig neuron er beskrevet ovenfor, det vil sige, at tilstanden ved udgangen af neuronen er unikt bestemt af resultatet af driften af adderen af inputsignaler. Stokastiske neuroner overvejes også , hvor neuronskiftet sker med en sandsynlighed afhængig af det inducerede lokale felt, det vil sige, at overførselsfunktionen er defineret som:
,hvor sandsynlighedsfordelingen normalt har form af et sigmoid:
,der indføres en normaliseringskonstant for normaliseringsbetingelsen af sandsynlighedsfordelingen . Således aktiveres neuronen med sandsynlighed . Parameteren er analog med temperaturen (men ikke neuronens temperatur) og bestemmer lidelsen i det neurale netværk. Hvis vi har tendens til 0, vil den stokastiske neuron blive til en regulær neuron med en Heaviside-overførselsfunktion (tærskelfunktion).
En neuron med en tærskeloverførselsfunktion kan modellere forskellige logiske funktioner.
, hvor
Tabellerne illustrerer, hvordan det er muligt, ved at indstille vægten af inputsignaler og følsomhedstærsklen, at få neuronen til at udføre konjunktion (logisk "AND") og disjunktion (logisk "ELLER") over inputsignaler, samt logisk negation af indgangssignalet [19] . Disse tre operationer er nok til at modellere absolut enhver logisk funktion af et vilkårligt antal argumenter.
IKKE | T | -1,0 | |
---|---|---|---|
w | -1,5 | ||
x | 0 | en | |
f | en | 0 |
Og | T | 1.5 | |||
---|---|---|---|---|---|
w 1 | 1.0 | ||||
w 2 | 1.0 | ||||
x 1 | 0 | 0 | en | en | |
x2 _ | 0 | en | 0 | en | |
f | 0 | 0 | 0 | en |
ELLER | T | 0,5 | |||
---|---|---|---|---|---|
w 1 | 1.0 | ||||
w 2 | 1.0 | ||||
x 1 | 0 | 0 | en | en | |
x2 _ | 0 | en | 0 | en | |
f | 0 | en | en | en |