Analyse af uafhængige komponenter

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 12. marts 2021; verifikation kræver 1 redigering .

Independent Component Analysis ( ICA ) , også kaldet Independent Component Analysis ( OLS ) , er en beregningsmetode i signalbehandling til at adskille et multidimensionelt signal i additive underkomponenter. Denne metode anvendes under den antagelse, at underkomponenterne er ikke-Gaussiske signaler, og at de er statistisk uafhængige af hinanden. ANC er et særligt tilfælde af blind signaladskillelse . Et typisk eksempel på en applikation er opgaven med et cocktailparty - når folk til en larmende fest skelner samtalepartnerens stemme på trods af høj musik og støj fra mennesker i rummet: hjernen er i stand til at filtrere lyde og fokusere på en kilde (modpartens stemme) i realtid.

Introduktion

Uafhængig komponentanalyse forsøger at dekomponere et multipelt signal til uafhængige ikke-Gaussiske signaler. For eksempel er en lyd normalt et signal, der består af tilføjelse i hvert øjeblik af enkelte t-signaler, der kommer fra flere kilder. Spørgsmålet er, om det er muligt at adskille disse kilder og adskille dem fra det generelle signal. Hvis antagelsen om statistisk uafhængighed er korrekt, vil blind adskillelse af de uafhængige komponenter i det blandede signal give meget gode resultater. Metoden bruges også til at analysere signaler, der ikke må blandes.

En simpel anvendelse af ANC er det "støjende parti problem", når samtalepartnerne hører hinanden, isolerer samtalepartnerens stemme fra det generelle signal, bestående af støjen fra samtidig talende mennesker i lokalet og en larmende gade uden for vinduet. Normalt forenkles opgaven ved at antage, at der ikke er nogen tidsforsinkelse eller ekko. Bemærk, at det filtrerede og forsinkede signal er en kopi af den afhængige komponent, og så er antagelsen om statistisk uafhængighed ikke overtrådt.

Det er også vigtigt at overveje, at hvis kilder præsenteres, er der i det mindste behov for observationer (f.eks. mikrofoner, hvis det observerede signal er lyd) for at detektere de originale signaler. I dette tilfælde er matrixen kvadratisk ( , hvor er inputdimensionen for dataene og er modellens dimension). Ellers opnår og studerer vi det underbestemte ( ) eller overbestemte ( ) tilfælde. ${\tekststil N}$ ${\tekststil N}$ ${\tekststil J=D}$ ${\tekststil D}$ ${\textstyle J}$ ${\textstyle J>D}$ ${\textstyle J<D}$

ANC metoden - blandet signalseparation, baseret på to antagelser og tre effekter af blandede signalkilder, hvilket giver rigtig gode resultater. De to antagelser er:

Signalkilder er uafhængige af hinanden.
Værdierne for hver signalkilde har en ikke-gaussisk fordeling.

De tre effekter af en blandet signalkilde er:

Uafhængighed : Som i antagelse 1 er signalkilderne uafhængige, men deres blanding er ikke kildeuafhængig, fordi blandingen af signaler har de samme kilder.
Normalitet : Ifølge den centrale grænsesætning tenderer fordelingen af en sum af uafhængige stokastiske variable med endelig varians til en Gauss-fordeling. Kort sagt har summen af to uafhængige stokastiske variable normalt en mere gaussisk fordeling end nogen af de to oprindelige stokastiske variable. Her behandler vi hvert signal som en tilfældig variabel.
Kompleksitet : Tidskompleksiteten af enhver blanding af signaler er større end kompleksiteten af et enkelt signal, der er enklere i dets komponenter.

Disse principper danner det grundlæggende grundlag for ANC. Hvis de signaler, vi var i stand til at udvinde fra blandingen, er uafhængige, ligesom de originale signaler, og har ikke-Gaussiske histogrammer, eller har lav kompleksitet, som kildesignalet, skal de være kildesignaler [2] [3] .

Definition af komponentuafhængighed

ANC finder uafhængige komponenter (kaldet faktorer, latente variabler eller kilder) ved at maksimere den statistiske uafhængighed af de estimerede komponenter. Du kan vælge en af mange måder at definere en erstatning for uafhængighed, og dette valg vil bestemme formen på ANC-algoritmen. De to bredeste definitioner af ANC-uafhængighed er:

Gensidig informationsminimering
Maksimering af ikke-Gaussianitet

ANC-familien af algoritmer til minimering af gensidig information (MMI) bruger mål som Kullback -Leibler divergens og maksimal entropi . ANC-familien af ikke-Gaussiske maksimerende algoritmer bruger kurtosis og negentropi .

Typiske ANC-algoritmer har en tendens til at bruge følgende metoder:

centrering ( fratrække gennemsnittet og skabe et nulgennemsnit for signalet);
at slippe af med korrelationen (normalt ved hjælp af den spektrale nedbrydning af matrixen );
dimensionalitetsreduktion som præprocessor-trin for at reducere problemkompleksiteten og producere en gyldig iterativ algoritme.

Dekorrelation og dimensionalitetsreduktion kan opnås ved principiel komponentanalyse eller enkeltværdinedbrydning . Dekorrelation giver metoden sådanne betingelser, når alle dimensioner behandles ens og er indstillet a priori , før algoritmen køres. Velkendte algoritmer til ANC: infomax , FastICA , JADE , kernel uafhængig komponentanalyse og mange andre. Generelt vil ANC ikke være i stand til at bestemme det faktiske antal signalkilder, den eneste korrekte rækkefølge eller skala (inklusive tegn) af signalerne.

ANC er vigtigt for blind signaladskillelse og har mange praktiske anvendelser. Metoden er nært beslægtet med søgningen (eller endda et særligt tilfælde af søgningen) efter faktoriel kodning af data, det vil sige en ny vektorrepræsentation af hver datavektor på en sådan måde, at den er entydigt kodet af den resulterende kodevektor (tabsfri kodning), mens kodekomponenterne er statistisk uafhængige.

Matematisk definition

Lineær analyse af uafhængige komponenter kan opdeles i det støjende tilfælde og det støjende tilfælde, hvor støjende ANC er et hyppigt tilfælde af støjende ANC. Ikke-lineær ANC bør betragtes som en separat sag.

Generel definition

Dataene er repræsenteret af den observerede tilfældige vektor og de skjulte komponenter af den tilfældige vektor . Opgaven med at konstruere algoritmen er at transformere de observerede data ved hjælp af en statisk transformation til en observeret vektor af maksimalt uafhængige komponenter målt ved en eller anden uafhængighedsfunktion . ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}$ ${\fed symbol {x}}$ ${\bold symbol {W}}$ ${\boldsymbol {s}}={\boldsymbol {W}}{\boldsymbol {x}}$ $F(s_{1},\ldots ,s_{n})$

Genererer model

Lineær ANC uden støj

Komponenterne i den observerede tilfældige vektor genereres som summen af uafhængige komponenter , : $x_{i}$ ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ ${\displaystyle s_{k))$ $k=1,\ldots ,n$

${\displaystyle x_{i}=a_{i,1}s_{1}+\cdots +a_{i,k}s_{k}+\cdots +a_{i,n}s_{n))$

vejes af vægte . ${\displaystyle a_{i,k))$

Den samme genererende model kan skrives i vektorform som , hvor den observerede tilfældige vektor er repræsenteret af basisvektorerne . Basisvektorerne danner kolonnerne i blandingsmatrixen, og den genererende formel kan skrives som , hvor . ${\boldsymbol {x}}=\sum _{k=1}^{n}{\boldsymbol {s}}_{k}{\boldsymbol {a}}_{k}$ $x$ ${\boldsymbol {a}}_{k}=({\boldsymbol {a}}_{1,k},\ldots ,{\boldsymbol {a}}_{m,k})^{T }$ ${\boldsymbol {a}}_{k}$ ${\boldsymbol {A}}=({\boldsymbol {a}}_{1},\ldots ,{\boldsymbol {a}}_{n})$ ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}$ ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}$

Givet en model og implementering af en tilfældig vektor , er opgaven at evaluere både blandingsmatrixen og kilderne . Dette gøres ved adaptivt at beregne vektorerne og etablere en omkostningsfunktion, der enten maksimerer ikke-Gaussianiteten af den beregnede eller minimerer den gensidige information. I nogle tilfælde kan a priori viden om kildens sandsynlighedsfordeling anvendes i omkostningsfunktionen. ${\displaystyle x_{1},\ldots ,x_{N))$ ${\fed symbol {x}}$ ${\bold symbol {A}}$ ${\bold symbol {s))$ ${\bold symbol {w}}$ $s_{k}={\boldsymbol {w}}^{T}{\boldsymbol {x}}$

De originale kilder kan udvindes ved at multiplicere de observerede signaler med det omvendte af blandingsmatrixen , som også er kendt som den ikke-blandende matrix. Her antages blandingsmatrixen at være kvadratisk ( ). Hvis antallet af basisvektorer er større end dimensionen af de observerede vektorer , er problemet overbestemt , men forbliver løseligt ved hjælp af en pseudoinvers matrix . ${\bold symbol {s))$ ${\fed symbol {x}}$ ${\boldsymbol {W}}={\boldsymbol {A}}^{-1}$ $n=m$ $n>m$

Lineær ANC med støj

Med den yderligere antagelse af nul middelværdi og ukorreleret Gaussisk støj , antager ANC-modellen formen . $n\sim N(0,\operatørnavn {diag} (\Sigma ))$ ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}+n$

Ikke-lineær ANC

Blandingen af kilder behøver ikke være lineær. Ved at bruge en ikke-lineær blandingsfunktion med parametre vil den ikke-lineære ANC-model være . $f(\cdot |\theta )$ $\theta$ $x=f(s|\theta )+n$

Distinguishability

Uafhængige komponenter kan skelnes op til permutation og skalering af kilder. Denne sondring kræver, at:

Højst en af kilderne var gaussisk, ${\displaystyle s_{k))$
Antallet af observerede blandinger må ikke være mindre end antallet af komponenter : . Dette svarer til at sige, at blandingsmatrixen skal have fuld rang , for at dens omvendte blanding eksisterer. $m$ $n$ $m\geqslant n$ ${\bold symbol {A}}$

Binær analyse af uafhængige komponenter

En særlig variant af ANC er Binær ANC , hvor både signalkilder og monitorer er i binær form, og monitorobservationerne er en disjunktiv blanding af binære uafhængige kilder. Problemet har vist sig at have applikationer på mange områder, herunder medicinsk diagnostik , multi-cluster-tildeling, og internetressourcestyring.

Lad være et sæt binære variabler fra monitorer og være et sæt binære variabler fra kilder. Kilde-monitor-relationer er repræsenteret af den (ukendte) blandede matrix , hvor det angiver, at signalet fra den i -te kilde kan observeres af den j -te monitor. Systemet fungerer således: til enhver tid, hvis kilden er aktiv ( ) og den er forbundet til en monitor ( ), vil monitoren observere noget aktivitet ( ). Formelt har vi: ${x_{1},x_{2},\ldots ,x_{m))$ $m$ ${y_{1},y_{2},\ldots ,y_{n))$ $n$ ${\textstyle {\boldsymbol {G}}}$ $g_{ij}=1$ $jeg$ $y_{i}=1$ $j$ $g_{ij}=1$ $j$ $x_{j}=1$

x_{i}=\bigvee _{j=1}^{n}(g_{ij}\wedge y_{j}),i=1,2,\ldots ,m,

hvor er en boolsk AND ( eng. AND ), og er en boolsk OR ( eng. OR ). Bemærk, at støjen ikke er modelleret eksplicit, men behandles som uafhængige kilder. $\kile$ $\vee$

Problemet beskrevet ovenfor kan løses heuristisk [4] (forudsat at variablerne er kontinuerte) ved at anvende FastICA- metoden på binære observerede data for at opnå en blandet matrix (reelle værdier opnået), og derefter anvende afrundingsteknikken for at opnå binære værdier. Denne tilgang har vist sig at være meget unøjagtig. ${\textstyle {\boldsymbol {G}}}$ ${\textstyle {\boldsymbol {G}}}$

En anden metode er at bruge dynamisk programmering - matrixen opdeler rekursivt observationerne i submatricer og inferensalgoritmen køres på disse submatricer. Nøgleobservationen, der fører til denne algoritme, er submatrixen af matrixen , hvor den svarer til den upartiske matrix af skjulte komponentobservationer, der ikke har nogen forbindelse med den -th monitor. Eksperimentelle resultater [5] viser, at denne tilgang er nøjagtig ved et moderat støjniveau. ${\textstyle {\boldsymbol {X}}}$ ${\textstyle {\boldsymbol {X}}^{0}}$ ${\textstyle {\boldsymbol {X}}}$ ${\textstyle x_{ij}=0\forall j}$ $jeg$

Apparatet til den generaliserede binære ANC [6] introducerer en bredere beskrivelse af problemet, der ikke kræver nogen viden om den genererende model. Med andre ord forsøger denne metode at dekomponere kilden i uafhængige komponenter (så meget som muligt for at skabe en algoritme uden at miste nogen information) uden forudgående antagelser om anvendelsen af den metode, hvorved den blev opnået. Selvom dette problem er ret vanskeligt, kan det løses nøjagtigt ved hjælp af branch and bound-metoden eller nøjagtigt afgrænset ovenfra ved at gange en matrix med en vektor.

Blind Signal Separation Methods

Find den bedste projektion

Blandinger af signaler har en tendens til at have en Gaussisk sandsynlighedstæthed, og kildesignaler har en tendens til at have en ikke-Gaussisk sandsynlighedstæthed. Hver signalkilde kan udvindes fra et sæt signalblandinger ved at beregne skalarproduktet af vægtvektoren og signalblandingen, hvorpå dette skalarprodukt giver en ortogonal projektion af signalblandingen. Næste opgave er at finde vægtvektoren. En metode er at finde den bedste projektion [2] [7] .

Søgningen efter den bedste projektion søger efter én projektion pr. trin, idet det antages, at det udtrukne signal er så ikke-Gaussisk som muligt. Dette er i modsætning til ANC, som typisk udtrækker M signaler samtidigt fra M blandinger af signaler, hvilket kræver evaluering af den ikke-blande matrix. En praktisk fordel ved at finde den bedste projektion i forhold til ANC er, at mindre end M signaler kan udtrækkes, hvis det kræves, hvor hver signalkilde ekstraheres fra en blanding af M signaler ved hjælp af en M -element vektor af vægte. $M\times M$

Vi kan bruge kurtosisfaktoren til at udtrække et multikildesignal ved at finde de korrekte vægtvektorer ved hjælp af den bedste projektionssøgning.

Kurtosekoefficienten for signalets sandsynlighedstæthed for en endelig prøve beregnes som

K={\frac {\operatørnavn {E} [(\mathbf {y} -\mathbf {\overline {y)) )^{4}]}{(\operatørnavn {E} [(\mathbf { y} -\mathbf {\overline {y}} )^{2}])^{2}}}-3

hvor er prøvegennemsnittet af de ekstraherede signaler. Konstanten 3 sikrer, at Gaussiske signaler har nul kurtose, super-Gaussiske signaler har positiv kurtose, og sub-Gaussiske signaler har negativ kurtose. Nævneren er lig med variansen og sikrer, at den målte kurtosisfaktor opnår variansen af signalet. Målet med at finde den bedste projektion er at maksimere kurtosisfaktoren og gøre det ekstraherede signal så unormalt som muligt. $\mathbf {\overline {y}}$ $\mathbf {y}$ $\mathbf {y}$

Ved at bruge kurtosis som et mål for ikke-normalitet, kan vi nu teste, hvor meget kurtosis af et signal , ekstraheret fra et sæt af M blandinger , ændres, når vægtvektoren roterer omkring oprindelsen. I betragtning af, at hver signalkilde er super-gaussisk, kan vi forvente $\mathbf {y} =\mathbf {w} ^{T}\mathbf {x}$ ${\displaystyle \mathbf {x} =(x_{1},x_{2},\ldots,x_{M})^{T))$ $\mathbf {w}$ ${\mathbf {s}}$

koefficienten for kurtosis af det udtrukne signal er maksimal nøjagtigt hvornår . $\mathbf {y}$ $\mathbf {y} =\mathbf {s}$
Kurtosekoefficienten for det udtrukne signal er maksimal, når den er ortogonal i forhold til projektionerne af eller -akserne , da vi ved, at den optimale vægtvektor skal være ortogonal i forhold til de transformerede akser og . $\mathbf {y}$ $\mathbf {w}$ $S_{1}$ $S_{2}$ $S_{1}$ $S_{2}$

For en blanding af signaler fra forskellige kilder kan vi bruge Gram-Schmidt Orthogonalization Kurtosis (GNR) til at udtrække signalerne. Givet en blanding af M signaler i et M -dimensionelt rum, projicerer GNR disse datapunkter ind i ( M-1 )-dimensionelt rum ved hjælp af en vægtvektor. Vi kan garantere uafhængigheden af de udtrukne signaler ved hjælp af OGNR.

For at finde den korrekte værdi kan vi bruge gradient descent- metoden . Først og fremmest slipper vi for korrelationen og konverterer til en ny blanding , der har enhedsvarians og . Denne proces kan udføres ved at anvende singulære værdinedbrydning på , $\mathbf {w}$ $\mathbf {x}$ $\mathbf {z}$ ${\displaystyle \mathbf {z} =(z_{1},z_{2},\ldots,z_{M})^{T))$ $\mathbf {x}$

{\displaystyle \mathbf {x} =\mathbf {U} \mathbf {D} \mathbf {V} ^{T))

Skaler hver vektor og sæt . Signalet fremhævet af den vægtede vektor er lig med . Hvis vægtvektoren w har enhedslængde, dvs. , så kan kurtosisfaktoren omskrives som: $U_{i}=U_{i}/\operatørnavn {E} (U_{i}^{2})$ $\mathbf {z} =\mathbf {U}$ $\mathbf {w}$ $\mathbf {y} =\mathbf {w} ^{T}\mathbf {z}$ $\operatorname {E} [(\mathbf {w} ^{T}\mathbf {z} )^{2}]=1$

K={\frac {\operatørnavn {E} [\mathbf {y} ^{4}]}{(\operatørnavn {E} [\mathbf {y} ^{2}])^{2)) }-3=\operatørnavn {E} [(\mathbf {w} ^{T}\mathbf {z} )^{4}]-3.

Opgraderingsproces for : $\mathbf {w}$

\mathbf {w} _{ny}=\mathbf {w} _{gammel}-\eta \operatørnavn {E} [\mathbf {z} (\mathbf {w} _{gammel}^{T} \mathbf {z} )^{3}].

hvor er en lille konstant for at sikre, at konvergerer til den optimale løsning. Efter hver opdatering normaliserer vi både sættet og gentager opdateringsprocessen, indtil den konvergerer. Vi kan også bruge en anden algoritme til at opdatere vægtvektoren . $\eta$ $\mathbf {w}$ $\mathbf {w} _{ny}={\frac {\mathbf {w} _{ny}}{|\mathbf {w} _{ny}|}}$ ${\displaystyle \mathbf {w} _{gammel}=\mathbf {w} _{ny))$ $\mathbf {w}$

En anden tilgang er at bruge negentropi [8] i stedet for kurtosis-koefficienten. Negentropi er robust med hensyn til kurtosis, fordi kurtosis er meget følsom over for outliers. Negentropimetoden er baseret på en vigtig egenskab ved den gaussiske fordeling - en normal stokastisk variabel har den højeste entropi blandt alle kontinuerte stokastiske variable med samme varians. Dette er også grunden til, at vi ønsker at finde de mest ikke-Gaussiske variable. Et simpelt bevis kan findes i artiklen differentialentropi .

J(x)=S(y)-S(x)\,

y er en Gaussisk stokastisk variabel af en eller anden kovariant matrix,

S(x)=-\int p_{x}(u)\log p_{x}(u)du

Tilnærmelsen for negentropien er

J(x)={\frac {1}{12}}(E(x^{3}))^{2}+{\frac {1}{48}}(kurt(x))^ {2}

Beviset kan findes på side 131 i bogen Analysis of Independent Components af Aapo Hyvärinen, Juha Karhunen og Erkki Oja [3] . Denne tilnærmelse lider også af de samme problemer som kurtosisfaktoren (følsomhed over for outliers). Andre tilgange er også blevet udviklet [9]

J(y)=k_{1}(E(G_{1}(y)))^{2}+k_{2}(E(G_{2}(y))-E(G_{2 }(v))^{2}

Valg og $G_{1}$ $G_{2}$

G_{1}={\frac {1}{a_{1))}\log(\cosh(a_{1}u))

G_{2}=-\exp(-{\frac {u^{2}}{2}})

Baseret på infomax

ANC er i det væsentlige en multivariat parallel version af at finde den bedste projektion. Mens søgningen efter den bedste projektion udtrækker en række signaler fra et af en blanding af M signaler, udtrækker ANC M signaler parallelt. Dette fører til større ANC-stabilitet sammenlignet med at finde den bedste fremskrivning [2] .

Den bedste projektionssøgningsmetode bruger Gram-Schmidt- ortogonalisering til at sikre uafhængigheden af de udtrukne signaler, mens ANC bruger infomax- og maksimal sandsynligheds-estimering for at sikre uafhængigheden af det ekstraherede signal. Abnormiteten af det ekstraherede signal opnås ved hjælp af en passende model.

ANC-processen baseret på infomax , kort sagt: givet en blanding af signaler og et sæt identiske uafhængige distributionsfunktioner søger vi en ikke-blande matrix , der maksimerer den fælles entropi af signaler , hvor er signalerne samplet af . Givet en optimal , har signalerne maksimal entropi og er derfor uafhængige, hvilket sikrer, at de valgte signaler også er uafhængige. Funktionen er reversibel og er en signalmodel. Bemærk, at hvis sandsynlighedstætheden af signalkildemodellen svarer til sandsynlighedstætheden for det udtrukne signal , maksimerer en maksimering af den fælles entropi også mængden af gensidig information mellem og . Af denne grund er brugen af entropi til at udtrække uafhængige signaler kendt som infomax . $\mathbf {x}$ $g$ ${\mathbf {W}}$ $\mathbf {Y} =g(\mathbf {y} )$ $\mathbf {y} =\mathbf {Bx}$ ${\mathbf {W}}$ ${\mathbf {W}}$ $\mathbf {Y}$ $\mathbf {y} =g^{-1}(\mathbf {Y} )$ $g$ $p_{s}$ ${\displaystyle p_{\mathbf {y} ))$ $Y$ $\mathbf {x}$ $\mathbf {Y}$

Overvej entropien af en vektorvariabel , hvor er et sæt signaler adskilt af en ikke-blandende matrix . For et endeligt sæt værdier valgt fra en sandsynlighedstæthedsfordeling kan entropien estimeres som: $\mathbf {Y} =g(\mathbf {y} )$ $\mathbf {y} =\mathbf {Bx}$ ${\mathbf {W}}$ ${\displaystyle p_{\mathbf {y} ))$ $\mathbf {Y}$

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {Y} }(\mathbf {Y } ^{t})

Den fælles sandsynlighedstæthed kan påvises at være relateret til den fælles sandsynlighedstæthed af de ekstraherede signaler ved hjælp af en multivariat form: $p_{\mathbf {Y} }$ ${\displaystyle p_{\mathbf {y} ))$

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{ \partial \mathbf {y} }}|}}

hvor er den jakobiske matrix . Vi har , og er sandsynlighedsdensiteten taget for signalkilder , derfor, $\mathbf {J} ={\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}$ $|\mathbf {J} |=g'(\mathbf {y} )$ $g'$ ${\displaystyle g'=p_{s))$

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{ \partial \mathbf {y} }}|}}={\frac {p_{\mathbf {y} }(\mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )} }

derfor,

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {y} }( \mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )}}

Vi ved, at når , er en ensartet fordeling og er maksimeret. Fordi ${\displaystyle p_{\mathbf {y} }=p_{s))$ $p_{\mathbf {Y} }$ $H({\mathbf {Y} })$

p_{\mathbf {y} }(\mathbf {y} )={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|{\frac {\partial \mathbf { y} }{\partial \mathbf {x} }}|}}={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|\mathbf {W} |}}

hvor er den absolutte værdi af determinanten for den ikke-blandende matrix . Derfor, $|\mathbf {W} |$ ${\mathbf {W}}$

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {x} }( \mathbf {x} ^{t})}{|\mathbf {W} |p_{\mathbf {s} }(\mathbf {y} ^{t})))

så,

H(\mathbf {Y} )={\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |+H(\mathbf {x} )

da , og maksimering ikke påvirker , kan vi maksimere funktionen $H(\mathbf {x} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {x} }(\mathbf {x } ^{t})$ ${\mathbf {W}}$ $H_{\mathbf {x} }$

h(\mathbf {Y} )={\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |

for at få uafhængigheden af det udtrukne signal.

Hvis der er M marginale sandsynlighedstætheder af modellen, er de fælles sandsynlighedstætheder uafhængige og bruger en super-gaussisk sandsynlighedstæthedsmodel for signalkilder , så får vi ${\displaystyle p_{\mathbf {s} ))$ $p_{\mathbf {s} }=(1-\tanh(\mathbf {s} )^{2})$

h(\mathbf {Y} )={\frac {1}{N}}\sum _{i=1}^{M}\sum _{t=1}^{N}\ln(1 -\tanh(\mathbf {w_{i}^{T}x^{t}} )^{2})+\ln |\mathbf {W} |

I sum kan vi, givet den observerede signalblanding , det tilsvarende sæt af udtrukne signaler og signalkildemodellen , finde den optimale ikke-blande matrix og gøre de ekstraherede signaler uafhængige og ikke-Gaussiske. I lighed med situationen med at finde den bedste projektion, kan vi bruge gradient descent-metoden til at finde den optimale løsning til den ikke-blande matrix. $\mathbf {x}$ $\mathbf {y}$ $p_{\mathbf {s} }=g'$ ${\mathbf {W}}$

Baseret på det maksimale sandsynlighedsestimat

Maximum likelihood estimering ( MLE ) er et standard statistisk værktøj til at finde parameterværdier (for eksempel ikke-blandende matrix ), der giver den bedste tilpasning af nogle data (for eksempel ekstraherede signaler ) for en given model (for eksempel fælles sandsynlighedstæthed (PT) signalkilder) [2] . ${\mathbf {W}}$ $y$ $p_{s}$

Maximum likelihood - modellen inkluderer en sandsynlighedstæthedsspecifikation, som i dette tilfælde er sandsynlighedstætheden af de ukendte kildesignaler . Når man bruger maksimum sandsynlighed , er målet at finde en ikke-blandende matrix, der giver udtrukne signaler med en fælles sandsynlighedstæthed, der er så lig som muligt med den fælles sandsynlighedstæthed for de ukendte kildesignaler . $p_{s}$ $s$ $y=\mathbf {W} x$ $p_{s}$ $s$

Det maksimale sandsynlighedsestimat er baseret på den antagelse, at hvis sandsynlighedstæthedsmodellen og parametermodellen er korrekte, så skal der opnås en høj sandsynlighed for , at dataene faktisk er observerbare. Omvendt, hvis det er langt fra de korrekte værdier af parametrene, skal man forvente en lav sandsynlighed for at observere data. $p_{s}$ $\mathbf {A}$ $x$ $\mathbf {A}$

I estimering af maksimal sandsynlighed henviser vi til sandsynligheden for de observerede data for et givet sæt af modelparameterværdier (f.eks. sandsynlighedstæthed og matrix ) som sandsynligheden for modelparameterværdierne givet af de observerede data. $p_{s}$ $\mathbf {A}$

Vi definerer matrixsandsynlighedsfunktionen : $\mathbf {L(W)}$ ${\mathbf {W}}$

$\mathbf {L(W)} =p_{s}(\mathbf {W} x)|\det \mathbf {W} |.$

Dette er lig med sandsynlighedstætheden i , fordi . $x$ $s=\mathbf {W} x$

Så, hvis vi vil finde , så er det mest sandsynligt at have genereret observerede blandinger fra ukendte signalkilder med en sandsynlighedstæthed , så mangler vi kun at finde , hvilket maksimerer sandsynligheden . Den unmixing matrix, der maksimerer lighed, er kendt som det maksimale sandsynlighedsestimat af den optimale unmixing matrix. ${\mathbf {W}}$ $x$ $s$ $p_{s}$ ${\mathbf {W}}$ $\mathbf {L(W)}$

En almindelig praksis er at bruge log- sandsynligheden , da den er den nemmeste at beregne. Da logaritmen er en monoton funktion, maksimerer den matrix , der maksimerer funktionen , også dens logaritme . Dette giver dig mulighed for at tage logaritmen i ligningen ovenfor, som giver logaritmen for sandsynlighedsfunktionen ${\mathbf {W}}$ $\mathbf {L(W)}$ $\ln \mathbf {L(W)}$

$\ln \mathbf {L(W)} =\sum _{i}\sum _{t}\ln p_{s}(w_{i}^{T}x_{t})+N\ln |\det \mathbf {W} |$

Hvis vi erstatter den meget anvendte højkurtosis sandsynlighedstæthedsmodel med signalkilder , får vi $p_{s}=(1-\tanh(s)^{2})$

$\ln \mathbf {L(W)} ={1 \over N}\sum _{i}^{M}\sum _{t}^{N}\ln(1-\tanh(w_{ i}^{T}x_{t})^{2})+\ln |\det \mathbf {W} |$

Matrixen , der maksimerer denne funktion, er den maksimale sandsynlighedsestimator . ${\mathbf {W}}$

Historie og baggrund

En tidlig generel ramme for uafhængig komponentanalyse blev foreslået af Jenny Herault og Bernard Anse i 1984 [10] , efterfulgt af Christian Jutten i 1985 [11] [12] [13] . Denne metode blev tydeligst forklaret af Pierre Caumont i 1994 [14] . I 1995 foreslog Tony Bell og Terry Sejnowski en hurtig og effektiv ANC-algoritme baseret på infomax- princippet introduceret af Ralph i 1987.

Mange algoritmer, der implementerer ANC, er tilgængelige og er beskrevet i den relevante litteratur. FastICA-algoritmen udviklet af Aapo Hyvärinen og Erkki Oja er meget udbredt, herunder i fremstillingsapplikationer. Den bruger kurtosisfaktoren som en funktion af prisen. Andre eksempler er mere relateret til blind signaladskillelse , som er baseret på en mere generel tilgang. For eksempel kan man udelade antagelsen om uafhængighed og adskille parvis korrelerede signaler og dermed undgå statistisk "afhængige" signaler. Sepp Hochreiter og Jürgen Schmidhuber har vist, hvordan man opnår en ikke-lineær ANC eller implementerer kildeadskillelse, hvis de er et biprodukt af regularisering (1999) [15] . Deres metode kræver ikke indiskutabel og streng viden om antallet af uafhængige kilder.

Ansøgninger

ANC kan udvides til at analysere ikke-fysiske signaler. For eksempel er ANC blevet brugt til at opdage diskussionsemner i nyhedsarkiver.

Nogle af ANC-applikationerne er anført nedenfor [2] :

optisk billede af neuroner [16]
sortering af impulser af neuroner sortering [17]
ansigtsgenkendelse [18]
modellering af receptorfeltet for de vigtigste visuelle neuroner [19]
forudsigelse af priser på værdipapirmarkedet [20]
mobiltelefoni [21]
bestemmelse af modenheden af en tomat baseret på farve [22]
fjernelse af genstande, såsom øjenblink, fra elektroencefalogramdata [23]
analyse af ændringer i genekspression over tid i eksperimenter med RNA-sekventering i en enkelt celle [24]
undersøgelse af funktionel hjerne-MR i hvile [25]

Se også

Blind dekonvolution
Faktoranalyse
Gilbert Spectrum
Digital billedbehandling
Multilineær hovedkomponentanalyse
Multilineær underrumslæring
Ikke-negativ matrixudvidelse
Ikke-lineær dimensionalitetsreduktion
At finde den bedste projektion
Varimax Rotation

Noter

↑ Isomura, Toyoizumi, 2016 .
↑ 1 2 3 4 5 Sten, 2004 .
↑ 1 2 Hyvärinen, Karhunen, Oja, 2001 .
↑ Himbergand, Hyvärinen, 2001 .
↑ Nguyen, Zheng, 2011 , s. 3168-3181.
↑ Painsky, Rosset, Feder, 2014 , s. 1326-1330.
↑ Kruskal, 1969 , s. 427-440.
↑ Hyvärinen, Oja, 2000 , s. 411-430.
↑ Hyvärinen, 1998 , s. 273-279.
↑ Hérault, Ans, 1984 , s. 525-528.
↑ Ans, Hérault, Jutten, 1985 , s. 593-597.
↑ Hérault, Jutten, Ans, 1985 , s. 1017-1022.
↑ Hérault, Jutten, 1986 , s. 206-211.
↑ Fælles, 1994 .
↑ Hochreiter og Schmidhuber 1999 , s. 679-714.
↑ Brown, Yamada, Sejnowski, 2001 , s. 54-63.
↑ Lewicki, 1998 , s. 53-78.
↑ Barlett, 2001 .
↑ Bell, Sejnowski, 1997 , s. 3327-3338.
↑ Back, Weigend, 1997 , s. 473-484.
↑ Hyvarinen, Karhunen, Oja, 2001 .
↑ Polder, van der Heijen, 2003 , s. 57-64.
↑ Delorme, Sejnowski, Makeig, 2007 , s. 1443-1449
↑ Trapnell, Cacchiarelli, Grimsby, 2014 , s. 381-386.
↑ Kiviniemi, Kantola, Jauhiainen, Hyvärinen, Tervonen, 2003 , s. 253-260.

Litteratur

Takuya Isomura, Taro Toyoizumi. En lokal læringsregel for uafhængig komponentanalyse // Videnskabelige rapporter. - 2016. - doi : 10.1038/srep28073 .
Aapo Hyvärinen, Juha Karhunen, Erkki Oja. Uafhængig komponentanalyse. — 1. - New York: John Wiley & Sons, 2001. - ISBN 0-471-22131-7 .
Aapo Hyvärinen, Juha Karhunen, Erkki Oja. Uafhængig komponentanalyse. — Genoptryk. - New York, NY: Wiley, 2001. - ISBN 0-471-40540-X .
Aapo Hyvärinen, Erkki Oja. Uafhængig komponentanalyse: Algoritmer og applikationer // Neurale netværk. - 2000. - T. 13 , no. 4–5 . - doi : 10.1016/s0893-6080(00)00026-5 . — PMID 10946390 .
Johan Himbergand, Aapo Hyvärinen. Uafhængig komponentanalyse for binære data: en eksperimentel undersøgelse // Proc. Int. Workshop om uafhængig komponentanalyse og blindsignalseparation (ICA2001) . - San Diego, Californien, 2001.
Aapo Härinen. Nye tilnærmelser af differentiel entropi til uafhængig komponentanalyse og projektionsforfølgelse. // Fremskridt inden for neurale informationsbehandlingssystemer. - 1998. - T. 10 .
Huy Nguyen, Rong Zheng. Binær uafhængig komponentanalyse med eller blandinger // IEEE-transaktioner på signalbehandling. - 2011. - Juli ( bd. 59 , hæfte 7 ).
Amichai Painsky, Saharon Rosset, Meir Feder. Generaliseret binær uafhængig komponentanalyse // IEEE International Symposium on Information Theory (ISIT), 2014 . – 2014.
James V. Stone. Uafhængig komponentanalyse: En selvstudieintroduktion. - Cambridge, Massachusetts, London, England: The MIT Press, 2004. - ISBN 0-262-69315-1 .

Kruskal JB Mod en praktisk metode, som hjælper med at afdække strukturen af et sæt observationer ved at finde den linjetransformation, som optimerer et nyt "kondensationsindeks" // Statistisk beregning / Milton RC, Nelder JA. - New York: Academic Press, 1969.
Pierre Common. Uafhængig komponentanalyse: et nyt koncept? // signalbehandling. - 1994. - T. 36 , no. 3 . — S. 287–314 . (Original artikel, der beskriver begrebet ICA)
Comon P., Jutten C. Handbook of Blind Source Separation, Independent Component Analysis and Applications. - Oxford UK: Academic Press, 2010. - ISBN 978-0-12-374726-6 .
Lee T.-W. Uafhængig komponentanalyse: Teori og anvendelser. - Boston, Mass: Kluwer Academic Publishers, 1998. - ISBN 0-7923-8261-7 .
Ranjan Acharya. En ny tilgang til blind kildeadskillelse af konvolutive kilder - Wavelet-baseret adskillelse ved hjælp af krympefunktion. - 2008. - ISBN 3-639-07797-0 . (bogen fokuserer på uovervåget læring gennem blind kildevalg)
Hérault J., Ans B. Réseau de neurones à synapses modificables: Décodage de messages sensoriels composites par apprentissage non supervisé and permanent // Comptes Rendus de l'Académie des Sciences, Série III. - 1984. - T. 299 . — S. 525–528 .
Ans B., Herault J., Jutten C. Architectures neuromimétiques adaptatives: Detection de primitives. // Cognitiva 85, Paris 4.-7. juni 1985. - Paris, 1985. - T. 2.
Hérault J., Jutten C., Ans B. Détection de grandeurs primitives dans un message composite par une architecture de calcul neuromimétique en apprentissage non supervise // Proceedings of the 10th Workshop Treatment du signal et ses applications. - Nice (Frankrig): GRETSI, 1985. - Vol. 2.
Hérault J., Jutten C. Rum- eller tidsadaptiv signalbehandling af neurale netværksmodeller // Intern. Konf. om neurale netværk til computere. — Utah, USA: Snowbird, 1986.
Sepp Hochreiter, Jürgen Schmidhuber. Funktionsudtrækning gennem LOCOCODE // Neural beregning. - 1999. - T. 11 , no. 3 . — ISSN 0899-7667 . - doi : 10.1162/089976699300016629 .
Brown GD, Yamada S., Sejnowski TJ Uafhængig komponentanalyse ved det neurale cocktailparty // Trends in Neurosciences. - 2001. - T. 24 , no. 1 . - doi : 10.1016/s0166-2236(00)01683-0 .
Lewicki MS Oversigt over metoder til spidssortering: detektion og klassificering af neurale aktionspotentialer // Network: Computation in Neural Systems. - 1998. - T. 9 .
Barlett MS Ansigtsbilledanalyse ved uovervåget læring. - Boston: Kluwer International Series on Engineering and Computer Science, 2001. - T. 612. - (SECS). - ISBN 978-1-4613-5653-0 .
Bell AJ, Sejnowski TJ De uafhængige komponenter i naturlige scener er kantfiltre // Vision Research. - 1997. - T. 37 , no. 23 . - doi : 10.1016/s0042-6989(97)00121-1 . — PMID 9425547 .
Tilbage AD, Weigend AS En første anvendelse af uafhængig komponentanalyse til at udtrække struktur fra aktieafkast // International Journal of Neural Systems. - 1997. - T. 8 , no. 4 . - doi : 10.1142/s0129065797000458 . — PMID 9730022 .
Hyvarinen A., Karhunen J., Oja E. Uafhængig komponentanalyse / Symon Haykin. - New York: John Wiley and Sons, 2001. - (Adaptivt og lærende system til signalbehandling, kommunikation og kontrol). — ISBN 0-471-40540-X .
Polder G., van der Heijen FWAM Estimering af sammensætningsfordeling i spektrale billeder af tomater ved hjælp af uafhængig komponentanalyse // Austrian Computer Society. – 2003.
Delorme A., Sejnowski T., Makeig S. Forbedret detektion af artefakter i EEG-data ved hjælp af højere-ordens statistik og uafhængig komponentanalyse // NeuroImage. - 2007. - T. 34 , no. 4 . - doi : 10.1016/j.neuroimage.2006.11.004 . — PMID 17188898 .
Trapnell C., Cacchiarelli D., Grimsby J. Dynamikken og regulatorerne af celleskæbnebeslutninger afsløres ved pseudotemporal bestilling af enkeltceller // Nature Biotechnology. - 2014. - T. 32 , no. 4 . - doi : 10.1038/nbt.2859 . — PMID 24658644 .
Vesa J. Kiviniemi, Juha-Heikki Kantola, Jukka Jauhiainen, Aapo Hyvärinen, Osmo Tervonen. Uafhængig komponentanalyse af ikke-deterministiske fMRI-signalkilder // NeuroImage. - 2003. - T. 19 . - doi : 10.1016/S1053-8119(03)00097-1 . — PMID 12814576 .

Links

Hvad er uafhængig komponentanalyse? (Aapo Hyvärinen)
Selvstudium: Uafhængig komponentanalyse (Aapo Hyvärinen)
Selvstudium: Uafhængig komponentanalyse
FastICA som en pakke til Matlab, i R og C++
ICALAB værktøjssæt til Matlab udviklet på RIKEN
Værktøjer til højeffektiv signalanalyse leveres af C++-implementeringen af FastICA- og Infomax-metoderne
ICA Workbench — Matlab-arbejdsbord til ICA med Bell-Sejnowski, Molgedey-Schuster og mean field ICA. Udviklet af DTU.
Demonstration af Noisy Party Problem Arkiveret 13. marts 2010 på Wayback Machine
EEGLAB ICA EEG værktøj til Matlab udviklet på UCSD.
FMRLAB ICA Functional Magnetic Resonance Imaging Toolkit til Matlab udviklet på UCSD
MELODIC , en del af FMRIB biblioteket .
Diskussion af ICA brugt i sammenhæng med biometriske repræsentationer af objekter
FastICA, CuBICA, JADE og TDSEP algoritmer til Python
Group ICA og Fusion ICA Workbench
Tutorial: Brug af ICA til at rense encefalogramsignaler

Machine learning og data mining
Opgaver	Klassifikationsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-Net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG