Hovedkomponentmetode

Principal component analysis (PCA ) er en af  ​​de vigtigste måder at reducere dimensionen af ​​data på og miste den mindste mængde information . Opfundet af Karl Pearson i 1901 . Det bruges på mange områder, herunder økonometri , bioinformatik , billedbehandling , datakomprimering , samfundsvidenskab .

Beregningen af ​​hovedkomponenterne kan reduceres til beregningen af ​​entalsværdinedbrydningen af ​​datamatricen eller til beregningen af ​​egenvektorerne og egenværdierne af kovariansmatrixen af ​​de originale data . Nogle gange kaldes hovedkomponentmetoden Karhunen -Loeve-transformationen [1] eller Hotelling - transformationen .  

Formel erklæring om problemet

Principal Component Analysis-problemet har mindst fire grundlæggende versioner:

De første tre versioner opererer på endelige datasæt. De er ækvivalente og bruger ingen hypotese om statistisk datagenerering. Den fjerde version opererer med tilfældige variabler . Finite mængder optræder her som stikprøver fra en given fordeling, og løsningen af ​​de tre første problemer - som en tilnærmelse til udvidelsen ifølge Karhunen-Loeve-sætningen ( "sand Karhunen-Loeve-transformation" ). Dette rejser et yderligere og ikke helt trivielt spørgsmål om nøjagtigheden af ​​denne tilnærmelse.

Approksimation af data ved lineære manifolds

Principal komponentanalyse begyndte med problemet med den bedste tilnærmelse af et endeligt sæt punkter ved linjer og planer ( Pearson , 1901). Givet et endeligt sæt af vektorer , for hver blandt alle - dimensionelle lineære manifolds i finde sådan , at summen af ​​kvadrerede afvigelser fra er minimal:

,

hvor  er den euklidiske afstand fra et punkt til en lineær manifold. Enhver dimensionel lineær manifold i kan defineres som et sæt lineære kombinationer , hvor parametrene løber over den reelle linje , og  er et ortonormalt sæt af vektorer

,

hvor er den euklidiske norm,  er det euklidiske skalarprodukt eller i koordinatform:

.

Løsningen af ​​tilnærmelsesproblemet for er givet af et sæt indlejrede lineære manifolds , . Disse lineære manifolds er defineret af et ortonormalt sæt af vektorer (hovedkomponentvektorer) og en vektor . Vektoren søges som en løsning på minimeringsproblemet for :

,

det er

.

Dette er prøvegennemsnittet : .

Fréchet bemærkede i 1948 , at variationsdefinitionen af ​​middelværdien (som et punkt, der minimerer summen af ​​kvadrerede afstande til datapunkter) er meget praktisk til at konstruere statistik i et vilkårligt metrisk rum , og byggede en generalisering af klassisk statistik for generelle rum (generaliseret). mindste kvadrater ).

Hovedkomponentvektorer kan findes som løsninger på optimeringsproblemer af samme type :

  1. Data er centraliseret (ved at trække gennemsnittet fra): . Nu ;
  2. Den første hovedkomponent findes som en løsning på problemet: . hvis løsningen ikke er unik, så vælges en af ​​dem.
  3. Projektionen på den første hovedkomponent trækkes fra dataene: ;
  4. Den anden hovedkomponent findes som en løsning på problemet: . Hvis løsningen ikke er unik, så vælges en af ​​dem.

Yderligere fortsætter processen, det vil sige i trin , trækkes projektionen på den -th hovedkomponent fra (på dette tidspunkt er projektionerne på de tidligere hovedkomponenter allerede blevet fratrukket):

;

og i trin -th hovedkomponent defineres som en løsning på problemet:

(hvis løsningen ikke er unik, så vælges en af ​​dem).

Ved hvert forberedende trin trækkes projektionen til den foregående hovedkomponent fra. De fundne vektorer er ortonormale blot som et resultat af løsning af det beskrevne optimeringsproblem, men for at forhindre beregningsfejl i at krænke den indbyrdes ortogonalitet af hovedkomponentvektorerne, kan de inkluderes i betingelserne for optimeringsproblemet.

Ikke-unikheden i definitionen, udover den trivielle vilkårlighed i valget af tegn ( og løse samme problem), kan være mere væsentlig og komme for eksempel fra datasymmetriforhold. Den sidste hovedkomponent  er en enhedsvektor vinkelret på alle tidligere .

Søg efter ortogonale projektioner med den største spredning

Lad os få et centreret sæt datavektorer ( det aritmetiske middel er nul). Opgaven er at finde en sådan ortogonal transformation til et nyt koordinatsystem , for hvilket følgende betingelser ville være sande:

Prøvevariansen af ​​dataene langs retningen givet af den normaliserede vektor er

(fordi dataene er centreret, er stikprøvevariansen her den samme som den gennemsnitlige kvadrerede afvigelse fra nul).

Løsningen af ​​problemet med den bedste tilnærmelse giver det samme sæt af hovedkomponenter som søgningen efter ortogonale projektioner med den største spredning, af en meget simpel grund: det første led afhænger ikke af .

Søg efter ortogonale projektioner med den største rms-afstand mellem punkter

En anden ækvivalent formulering følger af den åbenlyse identitet, som er sand for enhver vektor :

På venstre side af denne identitet er rod-middel-kvadrat-afstanden mellem punkterne, og i firkantede parenteser til højre er prøvevariansen. I metoden med hovedkomponenter søges der således efter underrum i projektionen, hvor rod-middel-kvadratafstanden mellem punkter er maksimal (eller, hvad der er det samme, dens forvrængning som følge af projektionen er minimal) [ 2] . En sådan omformulering giver mulighed for at konstruere generaliseringer med vægtning af forskellige parvise afstande (og ikke kun punkter).

Annullering af korrelationer mellem koordinater

For en given -dimensionel stokastisk variabel , find sådan en ortonormal basis, , hvor kovarianskoefficienten mellem forskellige koordinater er lig med nul. Efter transformation til dette grundlag

for .

Her  er kovarianskoefficienten, hvor  er den matematiske forventning .

Diagonalisering af kovariansmatricen

Alle hovedkomponentproblemer fører til problemet med diagonalisering af kovariansmatrixen eller prøve kovariansmatricen. Dette er en empirisk eller prøve kovariansmatrix

Kovariansmatricen for en multivariat tilfældig variabel , det er

De vigtigste komponentvektorer for den bedste tilpasning og mest spredende ortogonale projektionsproblemer er et ortonormalt sæt af egenvektorer af den empiriske kovariansmatrix , arrangeret i faldende rækkefølge af egenværdier Disse vektorer tjener som estimater for kovariansmatrixens egenvektorer . I basis af egenvektorer for kovariansmatrixen er den naturligt diagonal, og på denne basis er kovarianskoefficienten mellem forskellige koordinater lig med nul.

Hvis spektret af kovariansmatrixen er degenereret, vælges en vilkårlig ortonormal basis af egenvektorer. Det eksisterer altid, og egenværdierne af kovariansmatricen er altid reelle og ikke-negative.

Enkeltværdidekomponering af en datamatrix

Ideen om nedbrydning af singulære værdier

Det matematiske indhold af hovedkomponentmetoden er den spektrale nedbrydning af kovariansmatrixen , det vil sige repræsentationen af ​​datarummet som en sum af indbyrdes ortogonale egenunderrum , og selve matrixen  som en lineær kombination af ortogonale projektioner på disse underrum med koefficienter . Hvis  er en matrix sammensat af rækkevektorer (dimension ) af centrerede data, så bliver problemet med den spektrale dekomponering af kovariansmatrixen til problemet med entalsværdinedbrydning af datamatricen .

Et tal kaldes en singulær værdi af en matrix, hvis og kun hvis der er højre og venstre singulære vektorer : sådan -dimensionel rækkevektor og -dimensionel kolonnevektor (begge af enhedslængde), som to ligheder har:

Lad være rangen  af ​​datamatricen. Entalsværdinedbrydningen af ​​en datamatrix  er dens repræsentation i formen

hvor  er en singulær værdi,  er den tilsvarende højre singulære kolonnevektor og  er den tilsvarende venstre singulære rækkevektor ( ). De højre singulære kolonnevektorer involveret i denne dekomponering er hovedkomponentvektorerne og egenvektorerne i den empiriske kovariansmatrix , svarende til positive egenværdier .

Selvom problemerne med singularværdinedbrydning af datamatricen og den spektrale dekomponering af kovariansmatrix formelt falder sammen, er algoritmerne til at beregne singularværdien direkte, uden at beregne kovariansmatrixen og dens spektrum, mere effektive og stabile [3] .

Singular værditeorien blev skabt af James Joseph Sylvester i 1889 og præsenteres i alle detaljerede manualer om matrixteori [4] .

En simpel iterativ entalsværdinedbrydningsalgoritme

Hovedproceduren er at finde den bedste tilnærmelse af en vilkårlig matrix ved en matrix af formen (hvor  er -dimensional vektor og  er -dimensional vektor) ved mindste kvadraters metode:

Løsningen på dette problem er givet ved successive iterationer ved hjælp af eksplicitte formler. For en fast vektor er de værdier , der giver minimum til formen , entydigt og eksplicit bestemt ud fra lighederne  :

Tilsvarende for en fast vektor bestemmes følgende værdier :

Som en indledende tilnærmelse af vektoren tager vi en tilfældig vektor af enhedslængde, beregner vektoren og beregner derefter vektoren for denne vektor osv. Hvert trin reducerer værdien af ​​. Småheden af ​​det relative fald i værdien af ​​det minimerede funktionelle per iterationstrin ( ) eller selve værdiens lillehed bruges som et stopkriterium .

Som et resultat, for matricen , opnås den bedste tilnærmelse af en matrix af formen (her angiver den hævede skrift tilnærmelsestallet). Yderligere trækkes den resulterende matrix fra matrixen , og for den opnåede afvigelsesmatrix søges igen den bedste tilnærmelse af samme type , og så videre, indtil for eksempel normen bliver tilstrækkelig lille. Som et resultat opnåede vi en iterativ procedure til at nedbryde en matrix som en sum af matricer af rang 1, det vil sige . Vi antager og normaliserer vektorerne : Som et resultat opnås en tilnærmelse af entalstal og entalsvektorer (højre - og venstre - ).

Fordelene ved denne algoritme omfatter dens exceptionelle enkelhed og evnen til at overføre den næsten uden ændringer til data med huller [5] , samt vægtede data.

Der er forskellige modifikationer af den grundlæggende algoritme, der forbedrer nøjagtigheden og stabiliteten. For eksempel bør vektorerne for hovedkomponenterne for forskellige være ortogonale "ved konstruktion", men med et stort antal iterationer (stor dimension, mange komponenter), akkumuleres små afvigelser fra ortogonalitet, og en særlig korrektion kan være påkrævet ved hvert trin, hvilket sikrer dets ortogonalitet til de tidligere fundne hovedkomponenter.

For kvadratsymmetriske positiv-definite matricer bliver den beskrevne algoritme til en direkte iterationsmetode til at finde egenvektorer (se artiklen Eigenvektorer, værdier og mellemrum ).

Singular værdi nedbrydning af tensorer og tensor principal komponent metode

Ofte har en datavektor den yderligere struktur som en rektangulær tabel (for eksempel et fladt billede) eller endda en flerdimensionel tabel - det vil sige en tensor : , . I dette tilfælde er det også effektivt at bruge singulære værdinedbrydning. Definitionen, de grundlæggende formler og algoritmer overføres praktisk talt uden ændringer: I stedet for en datamatrix har vi en -indeksværdi , hvor det første indeks er datapunktets (tensor) nummer.

Hovedproceduren er at finde den bedste tilnærmelse af tensoren ved en tensor af formen (hvor  er -dimensional vektor (  er antallet af datapunkter),  er dimensionsvektoren ved ) ved hjælp af mindste kvadraters metode:

Løsningen på dette problem er givet ved successive iterationer ved hjælp af eksplicitte formler. Hvis alle faktorvektorer er givet undtagen én , så bestemmes denne tilbageværende eksplicit ud fra tilstrækkelige minimumsbetingelser.

Tilfældige vektorer af længdeenhed tages som den indledende tilnærmelse af vektorerne ( ), vi beregner vektoren , derefter beregnes vektoren for denne vektor og disse vektorer , og så videre (cyklus gennem indeksene). Hvert trin reducerer værdien af ​​. Algoritmen konvergerer åbenbart. Småheden af ​​det relative fald i værdien af ​​det funktionelle, der skal minimeres pr. cyklus, eller selve værdiens lillehed , bruges som et stopkriterium . Dernæst trækkes den resulterende tilnærmelse fra tensoren og den bedste tilnærmelse af samme type søges igen for resten, og så videre, indtil for eksempel normen for den næste rest bliver tilstrækkelig lille.

Denne multikomponent singular værdinedbrydning (tensormetode for hovedkomponenter) er med succes brugt til behandling af billeder, videosignaler og mere generelt alle data, der har en tabel- eller tensorstruktur.

Transformationsmatrix til hovedkomponenter

Datatransformationsmatrixen til hovedkomponenter består af hovedkomponentvektorer arrangeret i faldende rækkefølge af egenværdier:

( betyder transponering),

og

Det vil sige, at matrixen er ortogonal .

Det meste af datavariationen vil være koncentreret i de første koordinater, hvilket giver dig mulighed for at flytte til et lavere dimensionelt rum.

Resterende varians

Lad dataene være centreret, . Når datavektorerne erstattes af deres projektion på de første hovedkomponenter, introduceres den gennemsnitlige kvadrat af fejlen pr. datavektor:

hvor er egenværdierne af den empiriske kovariansmatrix , arrangeret i faldende rækkefølge, under hensyntagen til multipliciteten.

Denne størrelse kaldes den resterende varians . Værdi

kaldes den forklarede varians . Deres sum er lig med stikprøvevariansen. Den tilsvarende kvadratiske relative fejl er forholdet mellem den resterende varians og prøvevariansen (det vil sige andelen af ​​uforklaret varians ):

Den relative fejl evaluerer anvendeligheden af ​​hovedkomponentmetoden med projektion på de første komponenter.

Bemærk : i de fleste beregningsalgoritmer, egenværdier med de tilsvarende egenvektorer - hovedkomponenterne beregnes i rækkefølgen "fra største  til mindste". For at beregne er det nok at beregne de første egenværdier og sporet af den empiriske kovariansmatrix , (summen af ​​de diagonale elementer , det vil sige varianserne langs akserne). Derefter

Valg af hovedkomponent efter Kaisers regel

Måltilgangen til at estimere antallet af hovedkomponenter ved den nødvendige andel af den forklarede varians er formelt altid anvendelig, men implicit antager den, at der ikke er nogen adskillelse i "signal" og "støj", og enhver forudbestemt nøjagtighed giver mening. Derfor er en anden heuristik ofte mere produktiv , baseret på hypotesen om tilstedeværelsen af ​​et "signal" (forholdsvis lille dimension, relativt stor amplitude) og "støj" (stor dimension, relativt lille amplitude). Fra dette synspunkt fungerer principalkomponentmetoden som et filter: signalet er hovedsageligt indeholdt i projektionen på de første hovedkomponenter, og i de resterende komponenter er andelen af ​​støj meget højere.

Spørgsmål: hvordan estimerer man antallet af nødvendige hovedkomponenter, hvis signal-til-støj-forholdet ikke er kendt på forhånd?

Den enkleste og ældste metode til at udvælge hovedkomponenter er Kaiser 's regel :  væsentlige er de hovedkomponenter, for hvilke

det vil sige, at den overstiger middelværdien (gennemsnitlig prøvevarians af datavektorens koordinater). Kaisers regel fungerer godt i simple tilfælde, hvor der er flere hovedkomponenter med , som er meget større end middelværdien, og resten af ​​egenværdierne er mindre end det. I mere komplekse tilfælde kan det give for mange væsentlige hovedkomponenter. Hvis dataene normaliseres til enhedsprøvevarians langs akserne, antager Kaiser-reglen en særlig enkel form: kun de hovedkomponenter er signifikante for hvilke

Estimering af antallet af hovedkomponenter ved hjælp af reglen om brudt stok

En af de mest populære heuristiske tilgange til at estimere antallet af nødvendige hovedkomponenter er Broken stick -modellen [ 6 ] .  Sættet af egenværdier normaliseret til en enhedssum ( , ) sammenlignes med fordelingen af ​​længderne af fragmenter af en stok med enhedslængde, brudt ved det tilfældigt valgte punkt (brudpunkter vælges uafhængigt og er ligeligt fordelt langs stokkens længde). Lad ( ) være længderne af de opnåede stokstykker, nummereret i faldende længderækkefølge :. Det er ikke svært at finde den matematiske forventning :

Ved den brudte stok-regel gemmes den egenvektor (i faldende egenværdirækkefølge ) i listen over hovedkomponenter, hvis

På Fig. et eksempel for det 5-dimensionelle tilfælde er givet:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

For eksempel valgt

=0,5; =0,3; =0,1; =0,06; = 0,04.

I henhold til reglen om en knækket stok skal der i dette eksempel være 2 hovedkomponenter tilbage:

Ifølge brugere har den ødelagte stok-regel en tendens til at undervurdere antallet af væsentlige hovedkomponenter.

Estimering af antallet af hovedkomponenter fra betingelsesnummeret

Både Kaiser-reglen og den knækkede stok-reglen er ret følsomme over for tilstedeværelsen af ​​irrelevante attributter. Dette er let demonstreret ved at fordoble attributter. Mirkes et al . [7] foreslog en simpel test for stabiliteten af ​​dimensionsestimatet: Hvis du blot duplikerer attributter i databasen, så bør dimensionsestimatet ikke stige. Hverken Kaiser-reglen eller den brudte stok-reglen består denne test, fordi "halen" af en komponent med små egenværdier forskyder estimatet og øger dimensionen proportionalt. Denne mangel besidder ikke et skøn af tilstandsnummeret. [7] [8] Betingelsesnummeret for korrelationsmatricen er forholdet mellem dens maksimale egenværdi og minimum : . En stor værdi betyder dårligt konditioneret og multikollineær . For at bestemme antallet af resterende komponenter vælges en vis værdi af multikollinearitetstærsklen og de komponenter, for hvilke . Der er således ingen multikolinearitet i de resterende komponenter. Dimensionen af ​​dataene estimeres som antallet af egenværdier af kovariansmatrixen, der overstiger en fast brøkdel ( ) af dens største egenværdi. Valget af tærskelværdien bestemmes af problemets detaljer. Talrige numeriske eksperimenter viser, at udvælgelsen spænder fra lav til "moderat" multikollinearitet i de tilbageholdte komponenter og er acceptabel for mange databehandlingsproblemer. [7] [9]

Normalisering

Normalisering efter reduktion til hovedkomponenter

Efter projicering på de første hovedkomponenter med, er det praktisk at normalisere til enhed (prøve) varians langs akserne. Spredningen langs den th hovedkomponent er lig med ), så for normalisering er det nødvendigt at dividere den tilsvarende koordinat med . Denne transformation er ikke ortogonal og bevarer ikke prikproduktet. Efter normalisering bliver dataprojektionskovariansmatricen til enhed, projektioner til to vilkårlige ortogonale retninger bliver uafhængige størrelser, og enhver ortonormal basis bliver grundlaget for hovedkomponenterne (husk på, at koordinatmæssig normalisering ændrer ortogonalitetsforholdet mellem vektorer). Kortlægningen fra det indledende datarum til de første hovedkomponenter sammen med normaliseringen er givet af matrixen

.

Det er denne transformation, der oftest kaldes Karhunen-Loeve transformationen. Her  er kolonnevektorer, og hævet betyder transponere.

Normalisering til beregning af hovedkomponenter

Advarsel : forveksle ikke normaliseringen udført efter transformationen til hovedkomponenterne med normaliseringen og "dimensionsløsheden" under dataforbehandlingen , udført før beregningen af ​​hovedkomponenterne. Præ-normalisering er nødvendig for et rimeligt valg af en metrik, hvor den bedste tilnærmelse af dataene vil blive beregnet, eller retningerne for den største spredning (som er ækvivalent) vil blive søgt. For eksempel, hvis dataene er tredimensionelle vektorer af "meter, liter og kilogram", så vil en forskel på 1 meter i den første koordinat yde det samme bidrag som en forskel på 1 liter i den anden ved brug af den euklidiske standardafstand. eller 1 kg i den tredje. Normalt afspejler systemerne af enheder, hvori de originale data præsenteres, ikke nøjagtigt vores ideer om de naturlige skalaer langs akserne, og " ikke- dimensionalisering " udføres: hver koordinat er opdelt i en bestemt skala bestemt af dataene, formålene med deres behandling og processerne for måling og indsamling af data.

Der er tre væsentligt forskellige standardtilgange til en sådan normalisering: at enhedsvarians langs akserne (skalaerne langs akserne er lig med standardafvigelserne - efter denne transformation falder kovariansmatricen sammen med matrixen af ​​korrelationskoefficienter ), til ens målenøjagtighed (skalaen langs aksen er proportional med målenøjagtigheden af ​​en given værdi) og på samme krav i problemet (skalaen langs aksen bestemmes af den nødvendige nøjagtighed af prognosen for en given værdi eller dens tilladte forvrængning - niveauet af tolerance). Valget af forbehandling er påvirket af den meningsfulde redegørelse for problemet, såvel som betingelserne for dataindsamling (for eksempel, hvis dataindsamlingen er grundlæggende ufuldstændig, og dataene stadig vil blive modtaget, så er det ikke rationelt at vælge normalisering strengt efter enhedsvarians, selvom dette svarer til problemets betydning, da dette involverer renormalisering af alle data efter modtagelse af en ny del; det er mere rimeligt at vælge en skala, der groft estimerer standardafvigelsen, og så ikke ændre den) .

Prænormalisering til enhedsvarians langs akserne ødelægges ved rotation af koordinatsystemet, hvis akserne ikke er hovedkomponenter, og normalisering under dataforbehandling erstatter ikke normalisering efter reduktion til hovedkomponenter.

Mekanisk analogi og principiel komponentanalyse for vægtede data

Hvis vi tildeler en enhedsmasse til hver datavektor, så vil den empiriske kovariansmatrix falde sammen med inertietensoren for dette system af punktmasser (dividet med den samlede masse ), og problemet med hovedkomponenter vil falde sammen med problemet med at bringe inerti tensor til hovedakserne. Yderligere frihed i valget af masseværdier kan bruges til at tage højde for vigtigheden af ​​datapunkter eller pålideligheden af ​​deres værdier (højere masser tildeles vigtige data eller data fra mere pålidelige kilder). Hvis datavektoren får en masse , så får vi i stedet for den empiriske kovariansmatrix

Alle yderligere operationer for at reducere til hovedkomponenterne udføres på samme måde som i hovedversionen af ​​metoden: der søges efter en ortonormal egenbasis , egenværdierne er ordnet i faldende rækkefølge, den vægtede gennemsnitlige fejl for datatilnærmelsen med første komponenter estimeres (ved summen af ​​egenværdierne ), normalisering udføres, og så videre.

En mere generel måde at vægte på er at maksimere den vægtede sum af parvise afstande [10] mellem projektioner. For hvert to datapunkter indtastes en vægt ; og . I stedet for den empiriske kovariansmatrix bruger vi

For den symmetriske matrix er positiv bestemt, fordi den kvadratiske form er positiv:

Dernæst leder vi efter en ortonormal egenbasis , bestiller den i faldende rækkefølge af egenværdier, estimerer den vægtede gennemsnitlige fejl af datatilnærmelsen ved de første komponenter osv. - på nøjagtig samme måde som i hovedalgoritmen.

Denne metode bruges i nærværelse af klasser: for forskellige klasser er vægten valgt til at være større end for point i samme klasse. Som følge heraf bliver de forskellige klasser i projektionen på de vægtede hovedkomponenter "flyttet fra hinanden" med en større afstand.

En anden applikation er at reducere indflydelsen af ​​store afvigelser, de såkaldte outliers (en.:outlier), som kan forvrænge billedet på grund af brugen af ​​rodmiddel-kvadratafstand: hvis du vælger , så vil indflydelsen af ​​store afvigelser være reduceret. Den beskrevne modifikation af hovedkomponentmetoden er således mere robust end den klassiske.

Særlig terminologi

I statistikker, når man bruger metoden for hovedkomponenter, bruges flere specielle termer.

Grænser for anvendelighed og begrænsninger af metodens effektivitet

Principal komponent metoden er altid anvendelig. Den almindelige påstand om, at den kun gælder for normalfordelte data (eller fordelinger, der er tæt på normalen) er forkert: i Pearsons oprindelige formulering er problemet at tilnærme et begrænset sæt data, og der er ikke engang en hypotese om deres statistiske generering. , for ikke at nævne fordelingen .

Metoden reducerer dog ikke altid effektivt dimensionaliteten under givne begrænsninger for nøjagtighed . Lige linjer og planer giver ikke altid en god tilnærmelse. For eksempel kan dataene følge en eller anden kurve med god nøjagtighed, og denne kurve kan være svær at lokalisere i datarummet. I dette tilfælde vil hovedkomponentmetoden for acceptabel nøjagtighed kræve flere komponenter (i stedet for én) eller vil slet ikke give dimensionalitetsreduktion med acceptabel nøjagtighed. For at arbejde med sådanne "kurver" af hovedkomponenter blev metoden med hovedmanifolder [12] og forskellige versioner af den ikke-lineære metode for hovedkomponenter [13] [14] opfundet . Flere problemer kan levere komplekse topologidata. Forskellige metoder er også blevet opfundet for at tilnærme dem, såsom selvorganiserende Kohonen-kort , neuralgas [15] eller topologiske grammatikker [11] . Hvis dataene er statistisk genereret med en fordeling, der er meget forskellig fra den normale, så er det for at tilnærme fordelingen nyttigt at gå fra hovedkomponenter til uafhængige komponenter [16] , som ikke længere er ortogonale i det originale prikprodukt. Til sidst, for en isotrop fordeling (selv en normal en), i stedet for en spredende ellipsoide, opnår vi en kugle, og det er umuligt at reducere dimensionen ved tilnærmelsesmetoder.

Eksempler på brug

Datavisualisering

Datavisualisering er en præsentation i en visuel form af eksperimentelle data eller resultaterne af en teoretisk undersøgelse.

Det første valg ved visualisering af et datasæt er ortogonal projektion på planet af de første to hovedkomponenter (eller 3D-rum af de første tre hovedkomponenter). Projektionsplanet er i det væsentlige en flad todimensional "skærm", der er placeret på en sådan måde, at den giver et "billede" af data med den mindste forvrængning. En sådan projektion vil være optimal (blandt alle ortogonale projektioner på forskellige todimensionelle skærme) i tre henseender:

  1. Minimumsummen af ​​kvadratiske afstande fra datapunkter til projektioner på planet af de første hovedkomponenter, det vil sige, at skærmen er placeret så tæt som muligt på punktskyen.
  2. Minimumsummen af ​​forvrængninger af de kvadrerede afstande mellem alle par af punkter fra dataskyen efter projicering af punkterne på planet.
  3. Minimumsummen af ​​kvadrerede afstandsforvrængninger mellem alle datapunkter og deres "tyngdepunkt".

Datavisualisering er en af ​​de mest udbredte anvendelser af principal komponentanalyse og dens ikke-lineære generaliseringer [2] .

Billed- og videokomprimering

For at reducere den rumlige redundans af pixels ved kodning af billeder og videoer, bruges en lineær transformation af pixelblokke. Efterfølgende kvantisering af de opnåede koefficienter og tabsfri kodning gør det muligt at opnå signifikante kompressionskoefficienter. Brug af PCA-transformationen som en lineær transformation er optimal for nogle datatyper i forhold til størrelsen af ​​de modtagne data med samme forvrængning [17] . I øjeblikket bruges denne metode ikke aktivt, hovedsageligt på grund af den høje beregningsmæssige kompleksitet. Datakomprimering kan også opnås ved at kassere de sidste transformationskoefficienter.

Støjreduktion i billeder

Hovedessensen af ​​metoden [18]  er, at når du fjerner støj fra en blok af pixels, skal du repræsentere området til denne blok som et sæt punkter i et multidimensionelt rum, anvende PCA på det og kun lade de første komponenter af transformationen blive tilbage. . Det antages, at de første komponenter indeholder de vigtigste nyttige oplysninger, mens de resterende komponenter indeholder unødvendig støj. Ved at anvende den omvendte transformation efter reduktion af grundlaget for hovedkomponenter opnår vi et billede uden støj.

Videoindeksering

Hovedideen er at repræsentere hver videoramme med flere værdier ved hjælp af PCA, som senere vil blive brugt, når du bygger en database og forespørgsler til den. En sådan betydelig reduktion af data giver dig mulighed for betydeligt at øge arbejdshastigheden og modstanden mod en række forvrængninger i videoen.

Bioinformatik

Principal komponentanalyse bruges intensivt i bioinformatik til at reducere beskrivelsesdimensionen, udtrække meningsfuld information, visualisere data osv. En af de almindelige use cases er korrespondanceanalyse [19] [20] [21] . I illustrationerne (Fig. A, B) er den genetiske tekst [22] præsenteret som et sæt punkter i et 64-dimensionelt rum af tripletfrekvenser. Hver prik svarer til et DNA- fragment i et 300 nukleotider langt glidevindue (DNA walk). Dette fragment opdeles i ikke-overlappende tripletter, startende fra den første position. De relative frekvenser af disse tripletter i fragmentet udgør den 64-dimensionelle vektor. På Fig. En projektion på de første 2 hovedkomponenter for genomet af bakterien Streptomyces coelicolor præsenteres. På Fig. B viser projektionen på de første 3 hovedkomponenter. Nuancer af rød og brun fremhæver fragmenter af kodende sekvenser i den forreste DNA-streng, og nuancer af grønne fremhæver fragmenter af kodende sekvenser i den omvendte DNA-streng. Fragmenter tilhørende den ikke-kodende del er markeret med sort. Hovedkomponentanalyse af de fleste kendte bakterielle genomer præsenteres på et specialiseret websted [23] .

Kemometri

Hovedkomponentmetoden er en af ​​hovedmetoderne inden for kemometri . Giver dig mulighed for at opdele matrixen af ​​indledende data X i to dele: "meningsfuld" og "støj".

Psykodiagnostik

Psykodiagnostik er et af de mest udviklede anvendelsesområder for metoden med hovedkomponenter [24] . Brugsstrategien er baseret på hypotesen om, at eksperimentelle data er selvinformative , hvilket indebærer, at en diagnostisk model kan skabes ved at tilnærme den geometriske struktur af et sæt objekter i rummet af initiale funktioner. En god lineær diagnostisk model kan bygges, når en væsentlig del af de indledende funktioner er internt konsistente. Hvis denne interne konsistens afspejler den ønskede psykologiske konstruktion , så er parametrene for den lineære diagnostiske model (egenskabsvægte) givet ved metoden med hovedkomponenter.

Økonometri

Principal komponentanalyse er et af nøgleværktøjerne i økonometri , det bruges til at visualisere data, sikre, at modeller er kortfattede, forenkle beregning og fortolkning og komprimere mængden af ​​lagret information. Metoden giver maksimalt informationsindhold og minimal forvrængning af kildedataens geometriske struktur.

Sociologi

I sociologien er metoden nødvendig for at løse de to første hovedopgaver [25] :

  1. dataanalyse (beskrivelse af resultaterne af undersøgelser eller andre undersøgelser, præsenteret i form af arrays af numeriske data);
  2. beskrivelse af sociale fænomener (konstruktion af modeller af fænomener, herunder matematiske modeller).

Statskundskab

I statskundskab var hovedkomponentmetoden hovedværktøjet i Political Atlas of Modernity-projektet [26] til lineær og ikke-lineær analyse af vurderingerne af 192 lande i verden i henhold til fem specielt udviklede integrerede indekser (levestandard, international indflydelse, trusler, stat og demokrati). Til kartografi af resultaterne af denne analyse er der udviklet et særligt geoinformationssystem, der kombinerer det geografiske rum med featurerummet. Politiske atlasdatakort er også blevet oprettet ved hjælp af 2D-principalmanifolds i 5D-landrummet som baggrund. Forskellen på et datakort og et geografisk kort er, at der på et geografisk kort er objekter i nærheden, som har lignende geografiske koordinater, mens der på et datakort er objekter (lande) med lignende funktioner (indekser) i nærheden.

Reduktion af dimensionen af ​​dynamiske modeller

Dimensionalitetens forbandelse gør det vanskeligt at modellere komplekse systemer. Reduktion af modeldimensionen er en nødvendig betingelse for simuleringens succes. For at nå dette mål er der skabt en omfattende matematisk teknologi. Principal komponentanalyse bruges også i disse problemer (ofte kaldet  korrekt ortogonal dekomponering ( POD ) ). Når man for eksempel beskriver turbulensens dynamik, hører de dynamiske variable - hastighedsfeltet - til et uendeligt dimensionelt rum (eller, hvis feltet er repræsenteret ved dets værdier på et tilstrækkeligt fint gitter, til et finitdimensionelt rum af høj dimension). Du kan tage en stor samling af øjeblikkelige feltværdier og anvende principal komponentanalyse på dette sæt af multidimensionelle "datavektorer". Disse hovedkomponenter kaldes også empiriske egenvektorer . I nogle tilfælde ( strukturel turbulens ) giver metoden en imponerende dimensionalitetsreduktion [27] . Andre anvendelser af denne dynamiske modelreduktionsteknik er ekstremt forskellige, fra det teoretiske grundlag for kemiteknik til oceanologi og klimatologi .  

Sansevurdering af mad

Metoden med hovedkomponenter blev anvendt under den sensoriske (organoleptiske) vurdering af fødevarers egenskaber [28] . Principal Component Analysis (PCA) gør det muligt at klassificere fødevarer i tilfælde, hvor et stort antal deskriptorer bruges samtidigt til at karakterisere deres egenskaber, for eksempel ved vurdering af egenskaberne af vin, [29] marmelade, [30] ekstruderede fødevarer, [31] ost, [32] og andre.

Alternativer og generaliseringer

Hovedkomponentmetoden er den mest almindelige tilgang til dimensionalitetsreduktion , men der er andre metoder, især metoden med uafhængige komponenter , multidimensionel skalering , såvel som adskillige ikke-lineære generaliseringer: metoden med principielle kurver og manifolds, metoden af elastiske kort , søgningen efter den bedste projektion ( eng.  Projection Pursuit ), flaskehals-neurale netværksmetoder, selvorganiserende Kohonen - kort .

Se også

Noter

  1. Faktisk er metoden en empirisk implementering af Karhunen-Loeve-sætningen , ifølge hvilken enhver tilfældig proces kan repræsenteres som en uendelig række af ortogonale funktioner . I den russisksprogede videnskabelige litteratur er stavemåden " Karunen-Loev transformation " også almindelig , svarende til den engelske læsning af det finske efternavn
  2. 1 2 Zinoviev A. Yu. , Visualisering af multidimensionelle data Arkivkopi af 6. marts 2019 på Wayback Machine , Krasnoyarsk, red. KSTU, 2000.
  3. Bau III, D., Trefethen, LN , Numerisk lineær algebra Arkiveret 7. april 2022 på Wayback Machine , Philadelphia: Society for Industrial and Applied Mathematics, 1997. (Foredrag 31) ISBN 978-0-89871-361-9
  4. F. R. Gantmakher , Matrix Theory. - M .: Nauka, 1966. - 576 sider.
  5. Rossiev A. A. ,: Iterativ modellering af ufuldstændige data ved hjælp af lavdimensionelle manifolds Arkiveret 6. marts 2019 på Wayback Machine , Publishing House of the Siberian Branch of the Russian Academy of Sciences, 2005.
  6. Cangelosi R. , Goriely A. , Komponentretention i principiel komponentanalyse med anvendelse på cDNA-mikroarray-data Arkiveret 9. marts 2008 på Wayback Machine , Biology Direct 2007, 2:2. Også på PCA-webstedet Arkiveret 16. marts 2019 på Wayback Machine .
  7. 1 2 3 Mirkes, Evgeny M.; Allohibi, Jeza; Gorban, Alexander. "Fraktionelle normer og kvasinormer hjælper ikke med at overvinde dimensionalitetens forbandelse" Entropy 22, 2020 nr. 10:1105. https://doi.org/10.3390/e22101105
  8. Fukunaga, K.; Olsen, D. R. En algoritme til at finde datas iboende dimensionalitet. IEEE Trans. Comput. 1971, C-20, 176-183 https://doi.org/10.1109/TC.1971.223208
  9. Dormann CF, Elith J., Bacher S., Buchmann C., Carl G., Carré G., Marquéz JR, Gruber B., Lafourcade B., Leitão PJ, Münkemüller T. Collinearity: a review of methods to deal with det og en simuleringsundersøgelse, der evaluerer deres præstationer. Ecography 36(1), 27-46 (2013). https://doi.org/10.1111/j.1600-0587.2012.07348.x
  10. Koren Y., Carmel L., Robust lineær dimensionalitetsreduktion, IEEE Transactions on Visualization and Computer Graphics, 10 (4) (2004), 459-470. Også på PCA-webstedet Arkiveret 16. marts 2019 på Wayback Machine
  11. 1 2 Beskrivelse af metoden kan findes i artiklen: Gorban AN , Sumner NR og Zinovyev AY , Topological grammars for data approximation, Applied Mathematics Letters, Volume 20, Issue 4 (2007), 382-386; eller Gorban AN , Sumner NR og Zinovyev AY , Beyond The Concept of Manifolds: Principal Trees, Metro Maps and Elastic Cubic Complexes Arkiveret 6. marts 2019 på Wayback Machine I: Gorban AN et al (red.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0 ; og også i arXiv
  12. Studiet af de vigtigste manifolder begyndte med dette arbejde. Afhandling af T. Hastie : Hastie T. , Principal Curves and Surfaces tilgået 10/03/2022 Arkiveret 10. marts 2022 på Wayback Machine , Ph.D.-afhandling, Stanford Linear Accelerator Center, Stanford University, Stanford, Californien, USA, november 1984 ArkiveretOgså på PCA-webstedet 6. marts 2019 på Wayback Machine
  13. Scholz M., Fraunholz M., Selbig J. , Nonlinear Principal Component Analysis: Neural Network Models and Applications Arkiveret 6. marts 2019 på Wayback Machine , I: Gorban AN et al (red.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
  14. Yin H. Learning nonlinear Principal Manifolds by Self-Organising Maps Archited March 6, 2019 at the Wayback Machine , I: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
  15. Martinetz, TM, Berkovich, SG og Schulten KJ , Neural-gas-netværk til vektorkvantisering og dets anvendelse på tidsserieforudsigelse. Arkiveret 16. juli 2019 på Wayback Machine IEEE Transactions on Neural Networks, 4 (1993) #4, 558-569 . Fra PCA- webstedet Arkiveret 16. marts 2019 på Wayback Machine
  16. Hyvdrinen A, Karhunen J. og Oja E. , Uafhængig komponentanalyse, A Volume in the Wiley Series on Adaptive and Learning Systems for Signal Processing, Communications and Control. — John Wiley & Sons, Inc., 2001. — XVI+481 s. ISBN 0-471-40540-X
  17. Rao, K., Yip P. (red.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.
  18. Muresan DD, Parks TW , Adaptive Principal Components and Image Denoising Arkiveret 16. juli 2019 på Wayback Machine , i: Image Processing, 2003, Proceedings 2003 IEEE International Conference on Image Processing (ICIP), 14.-17. sept. 2003, v. 1, s. I-101-104. Fra PCA- webstedet Arkiveret 16. marts 2019 på Wayback Machine
  19. Engelsk.  Korrespondanceanalyse
  20. Benzécri, J.-P. , L'Analyse des Donnees. Bind II. L'Analyse des Correspondences, Dunod, Paris, Frankrig, 1973.
  21. Tekaia F. , Brug af korrespondanceanalyse i genomforskning Arkiveret 12. august 2007 på Wayback Machine .
  22. Se artiklen Oversættelse (biologi)
  23. Zinovyev A. , Сlusterstrukturer i genomiske ordfrekvensfordelinger Arkiveret 10. marts 2019 på Wayback Machine ; og også i arXiv: PCA og K-Means dechifrerer genomet Arkiveret 24. juli 2019 på Wayback Machine .
  24. Duke V. A., Computer psychodiagnostics, St. Petersburg, 1994; se individuelle afsnit på Psi Factor- webstedet Arkiveret 28. april 2019 på Wayback Machine
  25. Guts A. K., Frolova Yu. V. , Mathematical methods in sociology Arkivkopi dateret 21. januar 2022 på Wayback Machine , Serie: Synergetics: from the past to the future. - Forlaget "URSS", 2007. - 216 s.
  26. Modernitetens politiske atlas: Oplevelsen af ​​multidimensionel statistisk analyse af moderne staters politiske systemer. Arkiveksemplar dateret 21. januar 2022 på Wayback Machine  - M .: MGIMO-University Publishing House, 2007. - 272 s.
  27. Berkooz G, Holmes Ph., og. Lumley J. L , Den korrekte ortogonale nedbrydning i analysen af ​​turbulente strømme, Arkiveret 16. juli 2019 på Wayback Machine Annu. Rev. FluidMech. 25 (1993), 539-575. Den første publikation til analyse af turbulens er Lumley, JL , The structure of inhomogeneous turbulence. I Atmospheric Turbulence and Wave Propagation, red. A. M. Yaglom, VI Tatarski, pp. 166-178. Moscow, Nauka, 1967 (med illustrationer og kort. (AN SSSR. Interdepartmental Geophysical Committee. Institute of Atmospheric Physics). Det er interessant, at forfatterne til disse værker sporer historien om deres tilgang til Kosambis (1943), Loevs værker. (1945), Karhunen (1946), Pugachev (1953) og Obukhov (1954), uden at være opmærksom på Pearsons arbejde og 40 år af metodens tidligere historie.
  28. Harry T. Lawless, Hildegarde Heymann. Datarelationer og multivariate applikationer  (engelsk)  // Food Science Text Series. — New York, NY: Springer New York, 2010. — S. 433–449 . - ISBN 9781441964878 , 9781441964885 . - doi : 10.1007/978-1-4419-6488-5_18 . Arkiveret fra originalen den 9. juni 2018.
  29. Korrelation mellem flygtig sammensætning og sensoriske egenskaber i spanske Albariño-vine  //  Microchemical Journal. - 01-07-2010. — Bd. 95 , iss. 2 . — S. 240–246 . — ISSN 0026-265X . - doi : 10.1016/j.microc.2009.12.007 .
  30. Nataliya V Zhilinskaya, Varuzhan A Sarkisyan, Valentina M Vorobieva, Irina S Vorobieva, Alla A Kochetkova, Elena A Smirnova, Irina V Glazkova. Udvikling af en marmelade til patienter med type 2-diabetes: Sensoriske karakteristika og acceptabilitet  (engelsk)  // Food Science and Technology International: tidsskrift. - 2018. - 7. juni. — ISSN 10820132 .
  31. Teksturprofil og sammenhæng mellem sensoriske og instrumentelle analyser på ekstruderede snacks  //  Journal of Food Engineering. — 2014-01-01. — Bd. 121 . — S. 9–14 . — ISSN 0260-8774 . - doi : 10.1016/j.jfoodeng.2013.08.007 . Arkiveret fra originalen den 17. juni 2022.
  32. Karakterisering af de sensoriske egenskaber og markedspositionering af ny fedtfattig ost  //  Innovative Food Science & Emerging Technologies. — 2014-01-01. — Bd. 21 . — S. 169–178 . — ISSN 1466-8564 . - doi : 10.1016/j.ifset.2013.10.003 .

Litteratur

klassiske værker Grundlæggende vejledninger Nutidige anmeldelser Pædagogisk software

Links