Selvorganiserende kort over Kohonen
Kohonens selvorganiserende kort ( engelsk Self-organizing map - SOM) er et uovervåget neuralt netværk , der udfører opgaven med visualisering og klyngedannelse . Idéen med netværket blev foreslået af den finske videnskabsmand T. Kohonen. Det er en metode til at projicere et multidimensionelt rum ind i et rum med en lavere dimension (oftest todimensionelt), det bruges også til at løse problemer med modellering, prognose, identifikation af sæt af uafhængige funktioner, søgning efter mønstre i store datasæt , udvikling af computerspil, kvantificering af farver til deres begrænsede antal indekser i farvepaletten: ved udskrivning på en printer og tidligere på en pc eller på set-top-bokse med et display med et reduceret antal farver, til arkivering [generelt formål] eller video-codecs osv. Det er en af versionerne af Kohonens neurale netværk .
Historie
Metoden blev foreslået af den finske videnskabsmand Teuvo Kohonen i 1984. Der er mange modifikationer af den originale model.
Netværksstruktur
Et selvorganiserende kort består af komponenter kaldet noder eller neuroner. Deres antal er fastsat af analytikeren . Hver af knudepunkterne er beskrevet af to vektorer. Den første er den såkaldte. en vektor med vægt m , der har samme dimension som inputtet. Den anden er vektoren r , som er koordinaterne for knudepunktet på kortet. Kohonen-kortet vises visuelt ved hjælp af rektangulære eller sekskantede celler; sidstnævnte bruges oftere, da afstandene mellem centrene af tilstødende celler i dette tilfælde er de samme, hvilket øger korrektheden af kortvisualiseringen.
Indledningsvis er dimensionen af inputdataene kendt; på en eller anden måde er den oprindelige version af kortet bygget på det. Under indlæringsprocessen nærmer knudevægtsvektorerne sig inputdataene. For hver observation (prøve) vælges den mest ensartede node med hensyn til vægtvektor, og værdien af dens vægtvektor nærmer sig observationen. Vægtvektorerne for flere knudepunkter i nærheden nærmer sig også observationen, så hvis to observationer var ens i inputdatasættet, vil tætte knudepunkter svare til dem på kortet. Den cykliske læringsproces, der itererer over inputdataene, slutter, når kortet når en acceptabel (forudbestemt af analytikeren) fejl eller efter et specificeret antal iterationer. Som et resultat af træning klassificerer Kohonen-kortet således inputdataene i klynger og viser visuelt multidimensionelle inputdata i et todimensionelt plan, distribuerer vektorer af tætte træk ind i naboceller og farver dem afhængigt af de analyserede parametre for neuroner.
Som et resultat af algoritmen opnås følgende kort:
- neuroninputkort — visualiserer den interne struktur af inputdataene ved at justere vægten af kortneuronerne. Normalt bruges flere inputkort, som hver viser et af dem og er farvet afhængigt af neurons vægt. På et af kortene angiver en bestemt farve området, som omfatter omtrent de samme input til de analyserede eksempler.
- neuron output map - visualiserer en model af den relative position af input eksempler. De skitserede områder på kortet er klynger bestående af neuroner med lignende outputværdier.
- specialkort er et kort over klynger opnået som et resultat af anvendelsen af Kohonens selvorganiserende kortalgoritme, såvel som andre kort, der karakteriserer dem. [en]
Netværksdrift
- Kortinitialisering, det vil sige den indledende tildeling af vægtvektorer for noder.
- Cyklus:
- Valg af næste observation (en vektor fra et sæt af input).
- At finde den bedst matchende enhed til det (BMU eller vinder) - en node på kortet, hvis vægtvektor er mindst forskellig fra observationen (i metrikken indstillet af analytikeren, oftest euklidisk).
- Bestemmelse af antallet af BMU-naboer og læring - ændring af vægtvektorerne for BMU'en og dens naboer for at tilnærme dem til observationen.
- Definition af kortfejl.
Algoritme
Der er tre mest almindelige måder at indstille de indledende nodevægte på:
- Indstilling af alle koordinater med tilfældige tal.
- Tildeling af værdien af en tilfældig observation fra input til vægtvektoren.
- Udvælgelse af vægtvektorer fra det lineære rum spændt over af hovedkomponenterne i inputdatasættet.
- Cyklus
Lad være iterationsnummeret (initialisering svarer til nummer 0).

- Vælg en vilkårlig observation fra et sæt inputdata.

- Find afstandene fra den til vægtvektorerne for alle knudepunkter på kortet, og bestem den nærmeste knude med hensyn til vægt . Dette er BMU eller Vinder. Betingelse for :



,
for enhver , hvor er nodens vægtvektor . Hvis der er flere noder, der opfylder betingelsen, vælges BMU'en tilfældigt blandt dem.


- Brug funktionen (nabofunktion) til at bestemme naboerne og ændre deres vægtvektorer.


- Dyrke motion

Funktionen bestemmer "nabomålet" for noder og ændringen i vægtvektorer. Det bør gradvist forfine deres værdier, først ved et større antal noder og stærkere, derefter ved en mindre og svagere. Ofte bruges en Gauss-funktion som en nabofunktion:


hvor er en træningsfaktor, der monotont aftager med hver efterfølgende iteration (det vil sige, den bestemmer tilnærmelsen af værdien af vægtvektorerne for BMU'en og dens naboer til observationen; jo større trin, jo mindre raffinement);

, - koordinater af noder og på kortet;



— faktoren, der reducerer antallet af naboer med iterationer, falder monotont.
Parametre og deres karakter af fald er fastsat af analytikeren.


En nemmere måde at definere en nabofunktion på:

,
hvis det er i nærheden af en radius forudbestemt af analytikeren, og 0 ellers.


Funktionen er ens for BMU og aftager med afstanden fra BMU.

Skift vægtvektoren i henhold til formlen:

At. vægtvektorerne for alle knudepunkter, der er naboer til BMU, nærmer sig den betragtede observation.
For eksempel, som det aritmetiske gennemsnit af afstandene mellem observationer og vægtvektorerne for deres tilsvarende BMU'er:

,
hvor N er antallet af elementer i inputdatasættet.
Funktioner af modellen
Modstandsdygtighed over for støjende data, hurtig og uovervåget læring, evne til at forenkle multivariate inputdata med visualisering. [2]
Selvorganiserende Kohonen-kort kan kun bruges til klyngeanalyse, hvis antallet af klynger er kendt på forhånd [2] .
En vigtig ulempe er, at det endelige resultat af arbejdet med neurale netværk afhænger af netværkets indledende indstillinger. På den anden side kan neurale netværk teoretisk tilnærme enhver kontinuerlig funktion, hvilket gør det muligt for forskeren ikke at opstille nogen hypoteser om modellen på forhånd [2] .
Se også
Noter
- ↑ Chubukova, 2000 , s. 140.
- ↑ 1 2 3 Manzhula, 2011 .
Litteratur
- T. Kohonen , Self-Organizing Maps (Third Extended Edition), New York, 2001, 501 sider. ISBN 3-540-67921-9
- Debock G., Kohonen T. Finansiel dataanalyse med selvorganiserende kort, Alpina Publisher, 2001, 317 s. ISBN 5-89684-013-6
- Zinoviev A. Yu Visualisering af multidimensionelle data . - Krasnojarsk: Udg. Krasnoyarsk State Technical University, 2000. - 180 s.
- Chubukova I.A. data mining . - 2000. - 326 s.
- Manzhula V.G., Fedyashov D.S. Kohonen Neurale Netværk og Fuzzy Neurale Netværk i Data Mining . – 2011.
- Lakhmi C. Jain; NM Martin Fusion af neurale netværk, fuzzy systemer og genetiske algoritmer: industrielle applikationer. — CRC Press, CRC Press LLC, 1998
Links
Typer af kunstige neurale netværk |
---|
|