Principal component analysis (PCA ) er en af de vigtigste måder at reducere dimensionen af data på og miste den mindste mængde information . Opfundet af Karl Pearson i 1901 . Det bruges på mange områder, herunder økonometri , bioinformatik , billedbehandling , datakomprimering , samfundsvidenskab .
Beregningen af hovedkomponenterne kan reduceres til beregningen af entalsværdinedbrydningen af datamatricen eller til beregningen af egenvektorerne og egenværdierne af kovariansmatrixen af de originale data . Nogle gange kaldes hovedkomponentmetoden Karhunen -Loeve-transformationen [1] eller Hotelling - transformationen .
Principal Component Analysis-problemet har mindst fire grundlæggende versioner:
De første tre versioner opererer på endelige datasæt. De er ækvivalente og bruger ingen hypotese om statistisk datagenerering. Den fjerde version opererer med tilfældige variabler . Finite mængder optræder her som stikprøver fra en given fordeling, og løsningen af de tre første problemer - som en tilnærmelse til udvidelsen ifølge Karhunen-Loeve-sætningen ( "sand Karhunen-Loeve-transformation" ). Dette rejser et yderligere og ikke helt trivielt spørgsmål om nøjagtigheden af denne tilnærmelse.
Principal komponentanalyse begyndte med problemet med den bedste tilnærmelse af et endeligt sæt punkter ved linjer og planer ( Pearson , 1901). Givet et endeligt sæt af vektorer , for hver blandt alle - dimensionelle lineære manifolds i finde sådan , at summen af kvadrerede afvigelser fra er minimal:
,hvor er den euklidiske afstand fra et punkt til en lineær manifold. Enhver dimensionel lineær manifold i kan defineres som et sæt lineære kombinationer , hvor parametrene løber over den reelle linje , og er et ortonormalt sæt af vektorer
,hvor er den euklidiske norm, er det euklidiske skalarprodukt eller i koordinatform:
.Løsningen af tilnærmelsesproblemet for er givet af et sæt indlejrede lineære manifolds , . Disse lineære manifolds er defineret af et ortonormalt sæt af vektorer (hovedkomponentvektorer) og en vektor . Vektoren søges som en løsning på minimeringsproblemet for :
,det er
.Dette er prøvegennemsnittet : .
Fréchet bemærkede i 1948 , at variationsdefinitionen af middelværdien (som et punkt, der minimerer summen af kvadrerede afstande til datapunkter) er meget praktisk til at konstruere statistik i et vilkårligt metrisk rum , og byggede en generalisering af klassisk statistik for generelle rum (generaliseret). mindste kvadrater ).
Hovedkomponentvektorer kan findes som løsninger på optimeringsproblemer af samme type :
Yderligere fortsætter processen, det vil sige i trin , trækkes projektionen på den -th hovedkomponent fra (på dette tidspunkt er projektionerne på de tidligere hovedkomponenter allerede blevet fratrukket):
;og i trin -th hovedkomponent defineres som en løsning på problemet:
(hvis løsningen ikke er unik, så vælges en af dem).Ved hvert forberedende trin trækkes projektionen til den foregående hovedkomponent fra. De fundne vektorer er ortonormale blot som et resultat af løsning af det beskrevne optimeringsproblem, men for at forhindre beregningsfejl i at krænke den indbyrdes ortogonalitet af hovedkomponentvektorerne, kan de inkluderes i betingelserne for optimeringsproblemet.
Ikke-unikheden i definitionen, udover den trivielle vilkårlighed i valget af tegn ( og løse samme problem), kan være mere væsentlig og komme for eksempel fra datasymmetriforhold. Den sidste hovedkomponent er en enhedsvektor vinkelret på alle tidligere .
Lad os få et centreret sæt datavektorer ( det aritmetiske middel er nul). Opgaven er at finde en sådan ortogonal transformation til et nyt koordinatsystem , for hvilket følgende betingelser ville være sande:
Prøvevariansen af dataene langs retningen givet af den normaliserede vektor er
(fordi dataene er centreret, er stikprøvevariansen her den samme som den gennemsnitlige kvadrerede afvigelse fra nul).
Løsningen af problemet med den bedste tilnærmelse giver det samme sæt af hovedkomponenter som søgningen efter ortogonale projektioner med den største spredning, af en meget simpel grund: det første led afhænger ikke af .
En anden ækvivalent formulering følger af den åbenlyse identitet, som er sand for enhver vektor :
På venstre side af denne identitet er rod-middel-kvadrat-afstanden mellem punkterne, og i firkantede parenteser til højre er prøvevariansen. I metoden med hovedkomponenter søges der således efter underrum i projektionen, hvor rod-middel-kvadratafstanden mellem punkter er maksimal (eller, hvad der er det samme, dens forvrængning som følge af projektionen er minimal) [ 2] . En sådan omformulering giver mulighed for at konstruere generaliseringer med vægtning af forskellige parvise afstande (og ikke kun punkter).
For en given -dimensionel stokastisk variabel , find sådan en ortonormal basis, , hvor kovarianskoefficienten mellem forskellige koordinater er lig med nul. Efter transformation til dette grundlag
for .Her er kovarianskoefficienten, hvor er den matematiske forventning .
Alle hovedkomponentproblemer fører til problemet med diagonalisering af kovariansmatrixen eller prøve kovariansmatricen. Dette er en empirisk eller prøve kovariansmatrix
Kovariansmatricen for en multivariat tilfældig variabel , det er
De vigtigste komponentvektorer for den bedste tilpasning og mest spredende ortogonale projektionsproblemer er et ortonormalt sæt af egenvektorer af den empiriske kovariansmatrix , arrangeret i faldende rækkefølge af egenværdier Disse vektorer tjener som estimater for kovariansmatrixens egenvektorer . I basis af egenvektorer for kovariansmatrixen er den naturligt diagonal, og på denne basis er kovarianskoefficienten mellem forskellige koordinater lig med nul.
Hvis spektret af kovariansmatrixen er degenereret, vælges en vilkårlig ortonormal basis af egenvektorer. Det eksisterer altid, og egenværdierne af kovariansmatricen er altid reelle og ikke-negative.
Det matematiske indhold af hovedkomponentmetoden er den spektrale nedbrydning af kovariansmatrixen , det vil sige repræsentationen af datarummet som en sum af indbyrdes ortogonale egenunderrum , og selve matrixen som en lineær kombination af ortogonale projektioner på disse underrum med koefficienter . Hvis er en matrix sammensat af rækkevektorer (dimension ) af centrerede data, så bliver problemet med den spektrale dekomponering af kovariansmatrixen til problemet med entalsværdinedbrydning af datamatricen .
Et tal kaldes en singulær værdi af en matrix, hvis og kun hvis der er højre og venstre singulære vektorer : sådan -dimensionel rækkevektor og -dimensionel kolonnevektor (begge af enhedslængde), som to ligheder har:
Lad være rangen af datamatricen. Entalsværdinedbrydningen af en datamatrix er dens repræsentation i formen
hvor er en singulær værdi, er den tilsvarende højre singulære kolonnevektor og er den tilsvarende venstre singulære rækkevektor ( ). De højre singulære kolonnevektorer involveret i denne dekomponering er hovedkomponentvektorerne og egenvektorerne i den empiriske kovariansmatrix , svarende til positive egenværdier .
Selvom problemerne med singularværdinedbrydning af datamatricen og den spektrale dekomponering af kovariansmatrix formelt falder sammen, er algoritmerne til at beregne singularværdien direkte, uden at beregne kovariansmatrixen og dens spektrum, mere effektive og stabile [3] .
Singular værditeorien blev skabt af James Joseph Sylvester i 1889 og præsenteres i alle detaljerede manualer om matrixteori [4] .
Hovedproceduren er at finde den bedste tilnærmelse af en vilkårlig matrix ved en matrix af formen (hvor er -dimensional vektor og er -dimensional vektor) ved mindste kvadraters metode:
Løsningen på dette problem er givet ved successive iterationer ved hjælp af eksplicitte formler. For en fast vektor er de værdier , der giver minimum til formen , entydigt og eksplicit bestemt ud fra lighederne :
Tilsvarende for en fast vektor bestemmes følgende værdier :
Som en indledende tilnærmelse af vektoren tager vi en tilfældig vektor af enhedslængde, beregner vektoren og beregner derefter vektoren for denne vektor osv. Hvert trin reducerer værdien af . Småheden af det relative fald i værdien af det minimerede funktionelle per iterationstrin ( ) eller selve værdiens lillehed bruges som et stopkriterium .
Som et resultat, for matricen , opnås den bedste tilnærmelse af en matrix af formen (her angiver den hævede skrift tilnærmelsestallet). Yderligere trækkes den resulterende matrix fra matrixen , og for den opnåede afvigelsesmatrix søges igen den bedste tilnærmelse af samme type , og så videre, indtil for eksempel normen bliver tilstrækkelig lille. Som et resultat opnåede vi en iterativ procedure til at nedbryde en matrix som en sum af matricer af rang 1, det vil sige . Vi antager og normaliserer vektorerne : Som et resultat opnås en tilnærmelse af entalstal og entalsvektorer (højre - og venstre - ).
Fordelene ved denne algoritme omfatter dens exceptionelle enkelhed og evnen til at overføre den næsten uden ændringer til data med huller [5] , samt vægtede data.
Der er forskellige modifikationer af den grundlæggende algoritme, der forbedrer nøjagtigheden og stabiliteten. For eksempel bør vektorerne for hovedkomponenterne for forskellige være ortogonale "ved konstruktion", men med et stort antal iterationer (stor dimension, mange komponenter), akkumuleres små afvigelser fra ortogonalitet, og en særlig korrektion kan være påkrævet ved hvert trin, hvilket sikrer dets ortogonalitet til de tidligere fundne hovedkomponenter.
For kvadratsymmetriske positiv-definite matricer bliver den beskrevne algoritme til en direkte iterationsmetode til at finde egenvektorer (se artiklen Eigenvektorer, værdier og mellemrum ).
Ofte har en datavektor den yderligere struktur som en rektangulær tabel (for eksempel et fladt billede) eller endda en flerdimensionel tabel - det vil sige en tensor : , . I dette tilfælde er det også effektivt at bruge singulære værdinedbrydning. Definitionen, de grundlæggende formler og algoritmer overføres praktisk talt uden ændringer: I stedet for en datamatrix har vi en -indeksværdi , hvor det første indeks er datapunktets (tensor) nummer.
Hovedproceduren er at finde den bedste tilnærmelse af tensoren ved en tensor af formen (hvor er -dimensional vektor ( er antallet af datapunkter), er dimensionsvektoren ved ) ved hjælp af mindste kvadraters metode:
Løsningen på dette problem er givet ved successive iterationer ved hjælp af eksplicitte formler. Hvis alle faktorvektorer er givet undtagen én , så bestemmes denne tilbageværende eksplicit ud fra tilstrækkelige minimumsbetingelser.
Tilfældige vektorer af længdeenhed tages som den indledende tilnærmelse af vektorerne ( ), vi beregner vektoren , derefter beregnes vektoren for denne vektor og disse vektorer , og så videre (cyklus gennem indeksene). Hvert trin reducerer værdien af . Algoritmen konvergerer åbenbart. Småheden af det relative fald i værdien af det funktionelle, der skal minimeres pr. cyklus, eller selve værdiens lillehed , bruges som et stopkriterium . Dernæst trækkes den resulterende tilnærmelse fra tensoren og den bedste tilnærmelse af samme type søges igen for resten, og så videre, indtil for eksempel normen for den næste rest bliver tilstrækkelig lille.
Denne multikomponent singular værdinedbrydning (tensormetode for hovedkomponenter) er med succes brugt til behandling af billeder, videosignaler og mere generelt alle data, der har en tabel- eller tensorstruktur.
Datatransformationsmatrixen til hovedkomponenter består af hovedkomponentvektorer arrangeret i faldende rækkefølge af egenværdier:
( betyder transponering),og
Det vil sige, at matrixen er ortogonal .
Det meste af datavariationen vil være koncentreret i de første koordinater, hvilket giver dig mulighed for at flytte til et lavere dimensionelt rum.
Lad dataene være centreret, . Når datavektorerne erstattes af deres projektion på de første hovedkomponenter, introduceres den gennemsnitlige kvadrat af fejlen pr. datavektor:
hvor er egenværdierne af den empiriske kovariansmatrix , arrangeret i faldende rækkefølge, under hensyntagen til multipliciteten.
Denne størrelse kaldes den resterende varians . Værdi
kaldes den forklarede varians . Deres sum er lig med stikprøvevariansen. Den tilsvarende kvadratiske relative fejl er forholdet mellem den resterende varians og prøvevariansen (det vil sige andelen af uforklaret varians ):
Den relative fejl evaluerer anvendeligheden af hovedkomponentmetoden med projektion på de første komponenter.
Bemærk : i de fleste beregningsalgoritmer, egenværdier med de tilsvarende egenvektorer - hovedkomponenterne beregnes i rækkefølgen "fra største til mindste". For at beregne er det nok at beregne de første egenværdier og sporet af den empiriske kovariansmatrix , (summen af de diagonale elementer , det vil sige varianserne langs akserne). Derefter
Måltilgangen til at estimere antallet af hovedkomponenter ved den nødvendige andel af den forklarede varians er formelt altid anvendelig, men implicit antager den, at der ikke er nogen adskillelse i "signal" og "støj", og enhver forudbestemt nøjagtighed giver mening. Derfor er en anden heuristik ofte mere produktiv , baseret på hypotesen om tilstedeværelsen af et "signal" (forholdsvis lille dimension, relativt stor amplitude) og "støj" (stor dimension, relativt lille amplitude). Fra dette synspunkt fungerer principalkomponentmetoden som et filter: signalet er hovedsageligt indeholdt i projektionen på de første hovedkomponenter, og i de resterende komponenter er andelen af støj meget højere.
Spørgsmål: hvordan estimerer man antallet af nødvendige hovedkomponenter, hvis signal-til-støj-forholdet ikke er kendt på forhånd?
Den enkleste og ældste metode til at udvælge hovedkomponenter er Kaiser 's regel : væsentlige er de hovedkomponenter, for hvilke
det vil sige, at den overstiger middelværdien (gennemsnitlig prøvevarians af datavektorens koordinater). Kaisers regel fungerer godt i simple tilfælde, hvor der er flere hovedkomponenter med , som er meget større end middelværdien, og resten af egenværdierne er mindre end det. I mere komplekse tilfælde kan det give for mange væsentlige hovedkomponenter. Hvis dataene normaliseres til enhedsprøvevarians langs akserne, antager Kaiser-reglen en særlig enkel form: kun de hovedkomponenter er signifikante for hvilke
En af de mest populære heuristiske tilgange til at estimere antallet af nødvendige hovedkomponenter er Broken stick -modellen [ 6 ] . Sættet af egenværdier normaliseret til en enhedssum ( , ) sammenlignes med fordelingen af længderne af fragmenter af en stok med enhedslængde, brudt ved det tilfældigt valgte punkt (brudpunkter vælges uafhængigt og er ligeligt fordelt langs stokkens længde). Lad ( ) være længderne af de opnåede stokstykker, nummereret i faldende længderækkefølge :. Det er ikke svært at finde den matematiske forventning :
Ved den brudte stok-regel gemmes den egenvektor (i faldende egenværdirækkefølge ) i listen over hovedkomponenter, hvis
På Fig. et eksempel for det 5-dimensionelle tilfælde er givet:
=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.For eksempel valgt
=0,5; =0,3; =0,1; =0,06; = 0,04.I henhold til reglen om en knækket stok skal der i dette eksempel være 2 hovedkomponenter tilbage:
Ifølge brugere har den ødelagte stok-regel en tendens til at undervurdere antallet af væsentlige hovedkomponenter.
Både Kaiser-reglen og den knækkede stok-reglen er ret følsomme over for tilstedeværelsen af irrelevante attributter. Dette er let demonstreret ved at fordoble attributter. Mirkes et al . [7] foreslog en simpel test for stabiliteten af dimensionsestimatet: Hvis du blot duplikerer attributter i databasen, så bør dimensionsestimatet ikke stige. Hverken Kaiser-reglen eller den brudte stok-reglen består denne test, fordi "halen" af en komponent med små egenværdier forskyder estimatet og øger dimensionen proportionalt. Denne mangel besidder ikke et skøn af tilstandsnummeret. [7] [8] Betingelsesnummeret for korrelationsmatricen er forholdet mellem dens maksimale egenværdi og minimum : . En stor værdi betyder dårligt konditioneret og multikollineær . For at bestemme antallet af resterende komponenter vælges en vis værdi af multikollinearitetstærsklen og de komponenter, for hvilke . Der er således ingen multikolinearitet i de resterende komponenter. Dimensionen af dataene estimeres som antallet af egenværdier af kovariansmatrixen, der overstiger en fast brøkdel ( ) af dens største egenværdi. Valget af tærskelværdien bestemmes af problemets detaljer. Talrige numeriske eksperimenter viser, at udvælgelsen spænder fra lav til "moderat" multikollinearitet i de tilbageholdte komponenter og er acceptabel for mange databehandlingsproblemer. [7] [9]
Efter projicering på de første hovedkomponenter med, er det praktisk at normalisere til enhed (prøve) varians langs akserne. Spredningen langs den th hovedkomponent er lig med ), så for normalisering er det nødvendigt at dividere den tilsvarende koordinat med . Denne transformation er ikke ortogonal og bevarer ikke prikproduktet. Efter normalisering bliver dataprojektionskovariansmatricen til enhed, projektioner til to vilkårlige ortogonale retninger bliver uafhængige størrelser, og enhver ortonormal basis bliver grundlaget for hovedkomponenterne (husk på, at koordinatmæssig normalisering ændrer ortogonalitetsforholdet mellem vektorer). Kortlægningen fra det indledende datarum til de første hovedkomponenter sammen med normaliseringen er givet af matrixen
.Det er denne transformation, der oftest kaldes Karhunen-Loeve transformationen. Her er kolonnevektorer, og hævet betyder transponere.
Advarsel : forveksle ikke normaliseringen udført efter transformationen til hovedkomponenterne med normaliseringen og "dimensionsløsheden" under dataforbehandlingen , udført før beregningen af hovedkomponenterne. Præ-normalisering er nødvendig for et rimeligt valg af en metrik, hvor den bedste tilnærmelse af dataene vil blive beregnet, eller retningerne for den største spredning (som er ækvivalent) vil blive søgt. For eksempel, hvis dataene er tredimensionelle vektorer af "meter, liter og kilogram", så vil en forskel på 1 meter i den første koordinat yde det samme bidrag som en forskel på 1 liter i den anden ved brug af den euklidiske standardafstand. eller 1 kg i den tredje. Normalt afspejler systemerne af enheder, hvori de originale data præsenteres, ikke nøjagtigt vores ideer om de naturlige skalaer langs akserne, og " ikke- dimensionalisering " udføres: hver koordinat er opdelt i en bestemt skala bestemt af dataene, formålene med deres behandling og processerne for måling og indsamling af data.
Der er tre væsentligt forskellige standardtilgange til en sådan normalisering: at enhedsvarians langs akserne (skalaerne langs akserne er lig med standardafvigelserne - efter denne transformation falder kovariansmatricen sammen med matrixen af korrelationskoefficienter ), til ens målenøjagtighed (skalaen langs aksen er proportional med målenøjagtigheden af en given værdi) og på samme krav i problemet (skalaen langs aksen bestemmes af den nødvendige nøjagtighed af prognosen for en given værdi eller dens tilladte forvrængning - niveauet af tolerance). Valget af forbehandling er påvirket af den meningsfulde redegørelse for problemet, såvel som betingelserne for dataindsamling (for eksempel, hvis dataindsamlingen er grundlæggende ufuldstændig, og dataene stadig vil blive modtaget, så er det ikke rationelt at vælge normalisering strengt efter enhedsvarians, selvom dette svarer til problemets betydning, da dette involverer renormalisering af alle data efter modtagelse af en ny del; det er mere rimeligt at vælge en skala, der groft estimerer standardafvigelsen, og så ikke ændre den) .
Prænormalisering til enhedsvarians langs akserne ødelægges ved rotation af koordinatsystemet, hvis akserne ikke er hovedkomponenter, og normalisering under dataforbehandling erstatter ikke normalisering efter reduktion til hovedkomponenter.
Hvis vi tildeler en enhedsmasse til hver datavektor, så vil den empiriske kovariansmatrix falde sammen med inertietensoren for dette system af punktmasser (dividet med den samlede masse ), og problemet med hovedkomponenter vil falde sammen med problemet med at bringe inerti tensor til hovedakserne. Yderligere frihed i valget af masseværdier kan bruges til at tage højde for vigtigheden af datapunkter eller pålideligheden af deres værdier (højere masser tildeles vigtige data eller data fra mere pålidelige kilder). Hvis datavektoren får en masse , så får vi i stedet for den empiriske kovariansmatrix
Alle yderligere operationer for at reducere til hovedkomponenterne udføres på samme måde som i hovedversionen af metoden: der søges efter en ortonormal egenbasis , egenværdierne er ordnet i faldende rækkefølge, den vægtede gennemsnitlige fejl for datatilnærmelsen med første komponenter estimeres (ved summen af egenværdierne ), normalisering udføres, og så videre.
En mere generel måde at vægte på er at maksimere den vægtede sum af parvise afstande [10] mellem projektioner. For hvert to datapunkter indtastes en vægt ; og . I stedet for den empiriske kovariansmatrix bruger vi
For den symmetriske matrix er positiv bestemt, fordi den kvadratiske form er positiv:
Dernæst leder vi efter en ortonormal egenbasis , bestiller den i faldende rækkefølge af egenværdier, estimerer den vægtede gennemsnitlige fejl af datatilnærmelsen ved de første komponenter osv. - på nøjagtig samme måde som i hovedalgoritmen.
Denne metode bruges i nærværelse af klasser: for forskellige klasser er vægten valgt til at være større end for point i samme klasse. Som følge heraf bliver de forskellige klasser i projektionen på de vægtede hovedkomponenter "flyttet fra hinanden" med en større afstand.
En anden applikation er at reducere indflydelsen af store afvigelser, de såkaldte outliers (en.:outlier), som kan forvrænge billedet på grund af brugen af rodmiddel-kvadratafstand: hvis du vælger , så vil indflydelsen af store afvigelser være reduceret. Den beskrevne modifikation af hovedkomponentmetoden er således mere robust end den klassiske.
I statistikker, når man bruger metoden for hovedkomponenter, bruges flere specielle termer.
Principal komponent metoden er altid anvendelig. Den almindelige påstand om, at den kun gælder for normalfordelte data (eller fordelinger, der er tæt på normalen) er forkert: i Pearsons oprindelige formulering er problemet at tilnærme et begrænset sæt data, og der er ikke engang en hypotese om deres statistiske generering. , for ikke at nævne fordelingen .
Metoden reducerer dog ikke altid effektivt dimensionaliteten under givne begrænsninger for nøjagtighed . Lige linjer og planer giver ikke altid en god tilnærmelse. For eksempel kan dataene følge en eller anden kurve med god nøjagtighed, og denne kurve kan være svær at lokalisere i datarummet. I dette tilfælde vil hovedkomponentmetoden for acceptabel nøjagtighed kræve flere komponenter (i stedet for én) eller vil slet ikke give dimensionalitetsreduktion med acceptabel nøjagtighed. For at arbejde med sådanne "kurver" af hovedkomponenter blev metoden med hovedmanifolder [12] og forskellige versioner af den ikke-lineære metode for hovedkomponenter [13] [14] opfundet . Flere problemer kan levere komplekse topologidata. Forskellige metoder er også blevet opfundet for at tilnærme dem, såsom selvorganiserende Kohonen-kort , neuralgas [15] eller topologiske grammatikker [11] . Hvis dataene er statistisk genereret med en fordeling, der er meget forskellig fra den normale, så er det for at tilnærme fordelingen nyttigt at gå fra hovedkomponenter til uafhængige komponenter [16] , som ikke længere er ortogonale i det originale prikprodukt. Til sidst, for en isotrop fordeling (selv en normal en), i stedet for en spredende ellipsoide, opnår vi en kugle, og det er umuligt at reducere dimensionen ved tilnærmelsesmetoder.
Datavisualisering er en præsentation i en visuel form af eksperimentelle data eller resultaterne af en teoretisk undersøgelse.
Det første valg ved visualisering af et datasæt er ortogonal projektion på planet af de første to hovedkomponenter (eller 3D-rum af de første tre hovedkomponenter). Projektionsplanet er i det væsentlige en flad todimensional "skærm", der er placeret på en sådan måde, at den giver et "billede" af data med den mindste forvrængning. En sådan projektion vil være optimal (blandt alle ortogonale projektioner på forskellige todimensionelle skærme) i tre henseender:
Datavisualisering er en af de mest udbredte anvendelser af principal komponentanalyse og dens ikke-lineære generaliseringer [2] .
For at reducere den rumlige redundans af pixels ved kodning af billeder og videoer, bruges en lineær transformation af pixelblokke. Efterfølgende kvantisering af de opnåede koefficienter og tabsfri kodning gør det muligt at opnå signifikante kompressionskoefficienter. Brug af PCA-transformationen som en lineær transformation er optimal for nogle datatyper i forhold til størrelsen af de modtagne data med samme forvrængning [17] . I øjeblikket bruges denne metode ikke aktivt, hovedsageligt på grund af den høje beregningsmæssige kompleksitet. Datakomprimering kan også opnås ved at kassere de sidste transformationskoefficienter.
Hovedessensen af metoden [18] er, at når du fjerner støj fra en blok af pixels, skal du repræsentere området til denne blok som et sæt punkter i et multidimensionelt rum, anvende PCA på det og kun lade de første komponenter af transformationen blive tilbage. . Det antages, at de første komponenter indeholder de vigtigste nyttige oplysninger, mens de resterende komponenter indeholder unødvendig støj. Ved at anvende den omvendte transformation efter reduktion af grundlaget for hovedkomponenter opnår vi et billede uden støj.
Hovedideen er at repræsentere hver videoramme med flere værdier ved hjælp af PCA, som senere vil blive brugt, når du bygger en database og forespørgsler til den. En sådan betydelig reduktion af data giver dig mulighed for betydeligt at øge arbejdshastigheden og modstanden mod en række forvrængninger i videoen.
Principal komponentanalyse bruges intensivt i bioinformatik til at reducere beskrivelsesdimensionen, udtrække meningsfuld information, visualisere data osv. En af de almindelige use cases er korrespondanceanalyse [19] [20] [21] . I illustrationerne (Fig. A, B) er den genetiske tekst [22] præsenteret som et sæt punkter i et 64-dimensionelt rum af tripletfrekvenser. Hver prik svarer til et DNA- fragment i et 300 nukleotider langt glidevindue (DNA walk). Dette fragment opdeles i ikke-overlappende tripletter, startende fra den første position. De relative frekvenser af disse tripletter i fragmentet udgør den 64-dimensionelle vektor. På Fig. En projektion på de første 2 hovedkomponenter for genomet af bakterien Streptomyces coelicolor præsenteres. På Fig. B viser projektionen på de første 3 hovedkomponenter. Nuancer af rød og brun fremhæver fragmenter af kodende sekvenser i den forreste DNA-streng, og nuancer af grønne fremhæver fragmenter af kodende sekvenser i den omvendte DNA-streng. Fragmenter tilhørende den ikke-kodende del er markeret med sort. Hovedkomponentanalyse af de fleste kendte bakterielle genomer præsenteres på et specialiseret websted [23] .
Hovedkomponentmetoden er en af hovedmetoderne inden for kemometri . Giver dig mulighed for at opdele matrixen af indledende data X i to dele: "meningsfuld" og "støj".
Psykodiagnostik er et af de mest udviklede anvendelsesområder for metoden med hovedkomponenter [24] . Brugsstrategien er baseret på hypotesen om, at eksperimentelle data er selvinformative , hvilket indebærer, at en diagnostisk model kan skabes ved at tilnærme den geometriske struktur af et sæt objekter i rummet af initiale funktioner. En god lineær diagnostisk model kan bygges, når en væsentlig del af de indledende funktioner er internt konsistente. Hvis denne interne konsistens afspejler den ønskede psykologiske konstruktion , så er parametrene for den lineære diagnostiske model (egenskabsvægte) givet ved metoden med hovedkomponenter.
Principal komponentanalyse er et af nøgleværktøjerne i økonometri , det bruges til at visualisere data, sikre, at modeller er kortfattede, forenkle beregning og fortolkning og komprimere mængden af lagret information. Metoden giver maksimalt informationsindhold og minimal forvrængning af kildedataens geometriske struktur.
I sociologien er metoden nødvendig for at løse de to første hovedopgaver [25] :
I statskundskab var hovedkomponentmetoden hovedværktøjet i Political Atlas of Modernity-projektet [26] til lineær og ikke-lineær analyse af vurderingerne af 192 lande i verden i henhold til fem specielt udviklede integrerede indekser (levestandard, international indflydelse, trusler, stat og demokrati). Til kartografi af resultaterne af denne analyse er der udviklet et særligt geoinformationssystem, der kombinerer det geografiske rum med featurerummet. Politiske atlasdatakort er også blevet oprettet ved hjælp af 2D-principalmanifolds i 5D-landrummet som baggrund. Forskellen på et datakort og et geografisk kort er, at der på et geografisk kort er objekter i nærheden, som har lignende geografiske koordinater, mens der på et datakort er objekter (lande) med lignende funktioner (indekser) i nærheden.
Dimensionalitetens forbandelse gør det vanskeligt at modellere komplekse systemer. Reduktion af modeldimensionen er en nødvendig betingelse for simuleringens succes. For at nå dette mål er der skabt en omfattende matematisk teknologi. Principal komponentanalyse bruges også i disse problemer (ofte kaldet korrekt ortogonal dekomponering ( POD ) ). Når man for eksempel beskriver turbulensens dynamik, hører de dynamiske variable - hastighedsfeltet - til et uendeligt dimensionelt rum (eller, hvis feltet er repræsenteret ved dets værdier på et tilstrækkeligt fint gitter, til et finitdimensionelt rum af høj dimension). Du kan tage en stor samling af øjeblikkelige feltværdier og anvende principal komponentanalyse på dette sæt af multidimensionelle "datavektorer". Disse hovedkomponenter kaldes også empiriske egenvektorer . I nogle tilfælde ( strukturel turbulens ) giver metoden en imponerende dimensionalitetsreduktion [27] . Andre anvendelser af denne dynamiske modelreduktionsteknik er ekstremt forskellige, fra det teoretiske grundlag for kemiteknik til oceanologi og klimatologi .
Metoden med hovedkomponenter blev anvendt under den sensoriske (organoleptiske) vurdering af fødevarers egenskaber [28] . Principal Component Analysis (PCA) gør det muligt at klassificere fødevarer i tilfælde, hvor et stort antal deskriptorer bruges samtidigt til at karakterisere deres egenskaber, for eksempel ved vurdering af egenskaberne af vin, [29] marmelade, [30] ekstruderede fødevarer, [31] ost, [32] og andre.
Hovedkomponentmetoden er den mest almindelige tilgang til dimensionalitetsreduktion , men der er andre metoder, især metoden med uafhængige komponenter , multidimensionel skalering , såvel som adskillige ikke-lineære generaliseringer: metoden med principielle kurver og manifolds, metoden af elastiske kort , søgningen efter den bedste projektion ( eng. Projection Pursuit ), flaskehals-neurale netværksmetoder, selvorganiserende Kohonen - kort .
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |
|
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|