Selvorganiserende kort over Kohonen

Kohonens selvorganiserende kort ( engelsk  Self-organizing map  - SOM) er et uovervåget neuralt netværk , der udfører opgaven med visualisering og klyngedannelse . Idéen med netværket blev foreslået af den finske videnskabsmand T. Kohonen. Det er en metode til at projicere et multidimensionelt rum ind i et rum med en lavere dimension (oftest todimensionelt), det bruges også til at løse problemer med modellering, prognose, identifikation af sæt af uafhængige funktioner, søgning efter mønstre i store datasæt , udvikling af computerspil, kvantificering af farver til deres begrænsede antal indekser i farvepaletten: ved udskrivning på en printer og tidligere på en pc eller på set-top-bokse med et display med et reduceret antal farver, til arkivering [generelt formål] eller video-codecs osv. Det er en af ​​versionerne af Kohonens neurale netværk .

Historie

Metoden blev foreslået af den finske videnskabsmand Teuvo Kohonen i 1984. Der er mange modifikationer af den originale model.

Netværksstruktur

Et selvorganiserende kort består af komponenter kaldet noder eller neuroner. Deres antal er fastsat af analytikeren . Hver af knudepunkterne er beskrevet af to vektorer. Den første er den såkaldte. en vektor med vægt m , der har samme dimension som inputtet. Den anden er vektoren r , som er koordinaterne for knudepunktet på kortet. Kohonen-kortet vises visuelt ved hjælp af rektangulære eller sekskantede celler; sidstnævnte bruges oftere, da afstandene mellem centrene af tilstødende celler i dette tilfælde er de samme, hvilket øger korrektheden af ​​kortvisualiseringen.

Indledningsvis er dimensionen af ​​inputdataene kendt; på en eller anden måde er den oprindelige version af kortet bygget på det. Under indlæringsprocessen nærmer knudevægtsvektorerne sig inputdataene. For hver observation (prøve) vælges den mest ensartede node med hensyn til vægtvektor, og værdien af ​​dens vægtvektor nærmer sig observationen. Vægtvektorerne for flere knudepunkter i nærheden nærmer sig også observationen, så hvis to observationer var ens i inputdatasættet, vil tætte knudepunkter svare til dem på kortet. Den cykliske læringsproces, der itererer over inputdataene, slutter, når kortet når en acceptabel (forudbestemt af analytikeren) fejl eller efter et specificeret antal iterationer. Som et resultat af træning klassificerer Kohonen-kortet således inputdataene i klynger og viser visuelt multidimensionelle inputdata i et todimensionelt plan, distribuerer vektorer af tætte træk ind i naboceller og farver dem afhængigt af de analyserede parametre for neuroner.

Som et resultat af algoritmen opnås følgende kort:

Netværksdrift

Algoritme

Der er tre mest almindelige måder at indstille de indledende nodevægte på:

Lad være  iterationsnummeret (initialisering svarer til nummer 0).

, for enhver , hvor  er nodens vægtvektor . Hvis der er flere noder, der opfylder betingelsen, vælges BMU'en tilfældigt blandt dem. Funktionen bestemmer "nabomålet" for noder og ændringen i vægtvektorer. Det bør gradvist forfine deres værdier, først ved et større antal noder og stærkere, derefter ved en mindre og svagere. Ofte bruges en Gauss-funktion som en nabofunktion: hvor  er en træningsfaktor, der monotont aftager med hver efterfølgende iteration (det vil sige, den bestemmer tilnærmelsen af ​​værdien af ​​vægtvektorerne for BMU'en og dens naboer til observationen; jo større trin, jo mindre raffinement); ,  - koordinater af noder og på kortet;  — faktoren, der reducerer antallet af naboer med iterationer, falder monotont. Parametre og deres karakter af fald er fastsat af analytikeren. En nemmere måde at definere en nabofunktion på: , hvis det er i nærheden af ​​en radius forudbestemt af analytikeren, og 0 ellers. Funktionen er ens for BMU og aftager med afstanden fra BMU. Skift vægtvektoren i henhold til formlen: At. vægtvektorerne for alle knudepunkter, der er naboer til BMU, nærmer sig den betragtede observation. For eksempel, som det aritmetiske gennemsnit af afstandene mellem observationer og vægtvektorerne for deres tilsvarende BMU'er: , hvor N er antallet af elementer i inputdatasættet.

Funktioner af modellen

Modstandsdygtighed over for støjende data, hurtig og uovervåget læring, evne til at forenkle multivariate inputdata med visualisering. [2]

Selvorganiserende Kohonen-kort kan kun bruges til klyngeanalyse, hvis antallet af klynger er kendt på forhånd [2] .

En vigtig ulempe er, at det endelige resultat af arbejdet med neurale netværk afhænger af netværkets indledende indstillinger. På den anden side kan neurale netværk teoretisk tilnærme enhver kontinuerlig funktion, hvilket gør det muligt for forskeren ikke at opstille nogen hypoteser om modellen på forhånd [2] .

Se også

Noter

  1. Chubukova, 2000 , s. 140.
  2. 1 2 3 Manzhula, 2011 .

Litteratur

Links