Dimensionalitetsreduktion

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 30. november 2021; checks kræver 2 redigeringer .

I statistik , maskinlæring og informationsteori er dimensionalitetsreduktion  en datatransformation, der består i at reducere antallet af variable ved at opnå principielle variabler [1] . Transformation kan opdeles i funktionsvalg og funktionsudtrækning [2] .

Funktionsvalg

Funktionsvalgsmetoden forsøger at finde en delmængde af de oprindelige variabler (kaldet funktioner eller attributter). Der er tre strategier - filterstrategien ( f.eks. featureakkumulering ), indpakningsstrategien (f.eks. søg efter nøjagtighed) og indlejringsstrategien (funktioner vælges til at blive tilføjet eller fjernet, efterhånden som modellen bygges baseret på forudsigelsesfejl). Se også kombinatoriske optimeringsproblemer .

I nogle tilfælde kan dataanalyse , såsom regression eller klassificering , udføres i det reducerede rum mere præcist end i det oprindelige rum [3] .

Projektion af tegn

Funktionsprojektion transformerer data fra højdimensionelt rum til lavdimensionelt rum. Datatransformation kan være lineær, som i PCA , men der er et stort antal ikke-lineære dimensionalitetsreduktionsteknikker [4] [5] . For multidimensionelle data kan en tensorrepræsentation bruges til at reducere dimensionalitet gennem multilineær underrumsindlæring [6] .

Principal component method (PCA)

Den primære lineære teknik til dimensionalitetsreduktion, principal komponentanalyse, udfører en lineær kortlægning af data i et rum med lavere dimensionalitet, således at variansen af ​​dataene i den lavdimensionelle repræsentation maksimeres. I praksis konstrueres en kovarians (og nogle gange korrelations ) matrix af dataene, og egenvektorerne for denne matrix beregnes . Egenvektorerne svarende til de største egenværdier (hovedkomponenter) kan nu bruges til at genvinde det meste af variansen af ​​de originale data. Desuden kan de første par egenvektorer ofte fortolkes i forhold til systemets fysiske opførsel i stor skala. Det oprindelige rum (med en dimension lig med antallet af punkter) reduceres (med tab af data, men med håb om, at den vigtigste varians forbliver) til et rum, der spændes over af flere egenvektorer.

Ikke-negativ matrixudvidelse (NMP)

Den ikke-negative matrix-nedbrydning nedbryder en ikke-negativ matrix til produktet af to ikke-negative matricer, som har lovende midler i felter, hvor der kun eksisterer ikke-negative signaler [7] [8] , såsom astronomi [9] [10 ] ] . Ikke-negativ matrixnedbrydning er velkendt på grund af Lee og Seungs multiplikative opdateringsregel  [7] , som løbende er blevet udviklet: inklusion af usikkerheder [9] , hensyntagen til  manglende data ) og parallel beregning [11] , sekventiel konstruktion [11] , hvilket fører til stabiliteten og lineariteten af ​​HMP [10] , samt andre justeringer .  

Med et stabilt komponentgrundlag under konstruktion og en lineær modelleringsproces er en sekventiel ikke-negativ matrixnedbrydning ( eng.  sekventiel NMF ) [11] i stand til at bevare strømmen af ​​cirkumstellære strukturer af direkte observation (det vil sige observeret direkte, og ikke ved indirekte beviser) i astronomi [10] , som en af ​​metoderne til at detektere exoplaneter , især til direkte observation af cirkumstellære skiver . Sammenlignet med PCA fjerner ikke-negativ matrixnedbrydning ikke middelværdien af ​​matricer, hvis fjernelse fører til ikke-fysiske ikke-negative fluxer, fordi NMR er i stand til at gemme mere information end hovedkomponentanalyse, som blev demonstreret af Ren et. al . [10] .

Nuclear Principal Component Method (NPC)

Principal komponent analyse kan anvendes på en anden måde ved hjælp af kernel tricket . Den resulterende teknik er i stand til at konstruere ikke-lineære afbildninger, der maksimerer variansen af ​​dataene. Denne teknik kaldes kernel principal component-metoden .

Graf-baseret nuklear MGK

Andre lovende ikke-lineære teknikker er mangfoldige læringsteknikker såsom Isomap , lokalt lineær indlejring (LLE), lokalt lineær indlejring ved hjælp af hessisk ( eng.  Hessian LLE ), egenkortmetode Laplacianske værdier ​​( Laplacian Eigenmaps )  og lokal tangentrumsjusteringsmetode ( lokal tangentrumsjustering , LTSA) . Disse teknikker bygger en lavdimensionel repræsentation af dataene ved hjælp af en omkostningsfunktion, der bevarer de lokale egenskaber for dataene, og som kan opfattes som en definition af en grafbaseret kerne for kerne-PCA.  

For nylig er der blevet foreslået teknikker, der i stedet for at definere en fast kerne, forsøger at lære kernen ved hjælp af semi-bestemt programmering . Det mest betydningsfulde eksempel på en sådan teknik er Maximum Residual Sweep (RMS). Den centrale idé med RMN er netop at bevare alle parvise afstande mellem nærmeste naboer (i punktproduktrum) og samtidig maksimere afstande mellem punkter, der ikke er nærmeste naboer.

En alternativ tilgang til at bevare naboskab er at minimere omkostningsfunktionen, som måler afstandene i input- og outputrummene. Vigtige eksempler på sådanne teknikker er: klassisk multidimensionel skalering , som er identisk med PCA; Isomap , som bruger geodætiske afstande i datarummet; diffusion map method , som bruger diffusionsafstande i datarum; t -distribueret stokastisk  naboindlejring , t-SNE, som minimerer forskellen mellem par af punkter, UMAP (Uniform Approximation and Projection), som minimerer Kullback-Leibler divergensen mellem mængder i høj- og lavdimensionelle rum [12] og ikke-lineær komponentanalyse ( Curvilinear Component Analysis , CCA ) . 

En anden tilgang til ikke-lineær dimensionalitetsreduktion er gennem brugen af ​​autoencodere , en speciel type feed -forward-netværk med et flaskeformet (flaskehals) skjult lag [13] . Træning af dybe indkodere udføres normalt ved hjælp af grådig lagdelt fortræning (for eksempel ved hjælp af en kaskade af begrænsede Boltzmann-maskiner ), efterfulgt af et finjusteringstrin baseret på tilbageudbredelse .  

Lineær diskriminantanalyse (LDA)

Lineær diskriminantanalyse (LDA) er en generalisering af Fishers lineære diskriminant, en teknik der bruges i statistik, mønstergenkendelse og maskinlæring til at finde en lineær kombination af funktioner, der beskriver eller adskiller to eller flere klasser af objekter eller begivenheder.

Generaliseret diskriminantanalyse (GDA)

Generaliseret diskriminantanalyse omhandler ikke-lineær diskriminantanalyse ved hjælp af kernefunktionsoperatoren .  Den underliggende teori er tæt på støttevektormaskinen (SVM), da SVM-metoden giver en kortlægning af inputvektorerne til et højdimensionelt trækrum [14] [15] . I lighed med LDA er målet med ODA at søge efter projektion af funktioner i et rum af lavere dimension med maksimering af forholdet mellem interklasse-invarians ( eng. between-class scatter ) og intraclass-invarians ( eng. inside -class scatter ) .   

Autoencoder

Autoencoderen kan bruges til at lære den ikke-lineære dimensionalitetsreduktion og kodningsfunktioner sammen med den inverse funktion fra den kodede til den oprindelige repræsentation.

Dimensionsreduktion

For højdimensionelle datasæt (det vil sige med mere end 10 dimensioner) udføres dimensionalitetsreduktion normalt før anvendelse af k -nearest neighbours-algoritmen ( k-NN) for at undgå dimensionalitetens forbandelse [16] .  

Funktionsekstraktion og dimensionalitetsreduktion kan kombineres i ét trin ved at bruge Principal Component Analysis (PCA) , Linear Discriminant Analysis (LDA), Canonical Correlation Analysis (CCA) eller Non-Negative Matrix Decomposition (NMR) som et indledende trin efterfulgt af gruppering med K-NN på trækvektoren i det reducerede dimensionsrum. I maskinlæring kaldes denne proces også lavdimensionel nesting [17] .

For alle højdimensionelle datasæt (f.eks. når man leder efter lighed i en videostrøm, DNA-data eller en højdimensionel tidsserie ), ved brug af hurtig tilnærmet K-NN-søgning ved hjælp af lokalitetsfølsom hashing , tilfældig projektion [18] , "skitser" [19] (for eksempel tensorskitse ) eller andre højdimensionelle lighedssøgningsteknikker fra arsenalet af ekstra store databaser[ klargør ] kan være den eneste mulige mulighed.

Fordele ved dimensionalitetsreduktion

  1. Det reducerer den nødvendige tid og hukommelse.
  2. Fjernelse af multikolinearitet forbedrer hastigheden af ​​en maskinlæringsmodel.
  3. Det er nemmere at repræsentere data visuelt, når det reduceres til meget lave dimensioner, såsom 2D eller 3D.

Ansøgninger

En dimensionsreduktionsteknik, der nogle gange bruges i neurovidenskaberne , er maksimale informative dimensioner . Teknikken finder lavdimensionelle repræsentationer af et datasæt, der bevarer så meget information som muligt om de originale data.

Se også

Noter

  1. Roweis, Saul, 2000 .
  2. Pudil, Novovičová, 1998 , s. 101.
  3. Rico-Sulayes, 2017 , s. 26-35.
  4. Samet, 2006 .
  5. Ding, He, Zha, Simon, 2002 .
  6. Lu, Plataniotis, Venetsanopoulos, 2011 , s. 1540-1551
  7. 1 2 Lee, Seung, 1999 , s. 788-791.
  8. Lee, Seung, 2001 , s. 556-562.
  9. 1 2 Blanton, Roweis, 2007 , s. 134.
  10. 1 2 3 4 Ren, Pueyo, Zhu, Duchêne, 2018 , s. 104.
  11. 1 2 3 Zhu, Guangtun B. (2016-12-19), Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data, arΧiv : 1612.06037 [astro-ph.IM]. 
  12. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction  ( 7. december 2018). Hentet 26. august 2019. Arkiveret fra originalen 3. november 2019.
  13. Hu, Zahorian, 2010 .
  14. Baudat, Anouar, 2000 , s. 2385-2404.
  15. Haghighat, Zonouz, Abdel-Mottaleb, 2015 , s. 7905-7916.
  16. Beyer, Goldstein, Ramakrishnan, Shaft, 1999 , s. 217-235.
  17. Shaw, Jebara, 2009 , s. en.
  18. Bingham, Mannila, 2001 , s. 245.
  19. Shasha, 2004 .

Litteratur

Links