I statistik , maskinlæring og informationsteori er dimensionalitetsreduktion en datatransformation, der består i at reducere antallet af variable ved at opnå principielle variabler [1] . Transformation kan opdeles i funktionsvalg og funktionsudtrækning [2] .
Funktionsvalgsmetoden forsøger at finde en delmængde af de oprindelige variabler (kaldet funktioner eller attributter). Der er tre strategier - filterstrategien ( f.eks. featureakkumulering ), indpakningsstrategien (f.eks. søg efter nøjagtighed) og indlejringsstrategien (funktioner vælges til at blive tilføjet eller fjernet, efterhånden som modellen bygges baseret på forudsigelsesfejl). Se også kombinatoriske optimeringsproblemer .
I nogle tilfælde kan dataanalyse , såsom regression eller klassificering , udføres i det reducerede rum mere præcist end i det oprindelige rum [3] .
Funktionsprojektion transformerer data fra højdimensionelt rum til lavdimensionelt rum. Datatransformation kan være lineær, som i PCA , men der er et stort antal ikke-lineære dimensionalitetsreduktionsteknikker [4] [5] . For multidimensionelle data kan en tensorrepræsentation bruges til at reducere dimensionalitet gennem multilineær underrumsindlæring [6] .
Den primære lineære teknik til dimensionalitetsreduktion, principal komponentanalyse, udfører en lineær kortlægning af data i et rum med lavere dimensionalitet, således at variansen af dataene i den lavdimensionelle repræsentation maksimeres. I praksis konstrueres en kovarians (og nogle gange korrelations ) matrix af dataene, og egenvektorerne for denne matrix beregnes . Egenvektorerne svarende til de største egenværdier (hovedkomponenter) kan nu bruges til at genvinde det meste af variansen af de originale data. Desuden kan de første par egenvektorer ofte fortolkes i forhold til systemets fysiske opførsel i stor skala. Det oprindelige rum (med en dimension lig med antallet af punkter) reduceres (med tab af data, men med håb om, at den vigtigste varians forbliver) til et rum, der spændes over af flere egenvektorer.
Den ikke-negative matrix-nedbrydning nedbryder en ikke-negativ matrix til produktet af to ikke-negative matricer, som har lovende midler i felter, hvor der kun eksisterer ikke-negative signaler [7] [8] , såsom astronomi [9] [10 ] ] . Ikke-negativ matrixnedbrydning er velkendt på grund af Lee og Seungs multiplikative opdateringsregel [7] , som løbende er blevet udviklet: inklusion af usikkerheder [9] , hensyntagen til manglende data ) og parallel beregning [11] , sekventiel konstruktion [11] , hvilket fører til stabiliteten og lineariteten af HMP [10] , samt andre justeringer .
Med et stabilt komponentgrundlag under konstruktion og en lineær modelleringsproces er en sekventiel ikke-negativ matrixnedbrydning ( eng. sekventiel NMF ) [11] i stand til at bevare strømmen af cirkumstellære strukturer af direkte observation (det vil sige observeret direkte, og ikke ved indirekte beviser) i astronomi [10] , som en af metoderne til at detektere exoplaneter , især til direkte observation af cirkumstellære skiver . Sammenlignet med PCA fjerner ikke-negativ matrixnedbrydning ikke middelværdien af matricer, hvis fjernelse fører til ikke-fysiske ikke-negative fluxer, fordi NMR er i stand til at gemme mere information end hovedkomponentanalyse, som blev demonstreret af Ren et. al . [10] .
Principal komponent analyse kan anvendes på en anden måde ved hjælp af kernel tricket . Den resulterende teknik er i stand til at konstruere ikke-lineære afbildninger, der maksimerer variansen af dataene. Denne teknik kaldes kernel principal component-metoden .
Andre lovende ikke-lineære teknikker er mangfoldige læringsteknikker såsom Isomap , lokalt lineær indlejring (LLE), lokalt lineær indlejring ved hjælp af hessisk ( eng. Hessian LLE ), egenkortmetode Laplacianske værdier ( Laplacian Eigenmaps ) og lokal tangentrumsjusteringsmetode ( lokal tangentrumsjustering , LTSA) . Disse teknikker bygger en lavdimensionel repræsentation af dataene ved hjælp af en omkostningsfunktion, der bevarer de lokale egenskaber for dataene, og som kan opfattes som en definition af en grafbaseret kerne for kerne-PCA.
For nylig er der blevet foreslået teknikker, der i stedet for at definere en fast kerne, forsøger at lære kernen ved hjælp af semi-bestemt programmering . Det mest betydningsfulde eksempel på en sådan teknik er Maximum Residual Sweep (RMS). Den centrale idé med RMN er netop at bevare alle parvise afstande mellem nærmeste naboer (i punktproduktrum) og samtidig maksimere afstande mellem punkter, der ikke er nærmeste naboer.
En alternativ tilgang til at bevare naboskab er at minimere omkostningsfunktionen, som måler afstandene i input- og outputrummene. Vigtige eksempler på sådanne teknikker er: klassisk multidimensionel skalering , som er identisk med PCA; Isomap , som bruger geodætiske afstande i datarummet; diffusion map method , som bruger diffusionsafstande i datarum; t -distribueret stokastisk naboindlejring , t-SNE, som minimerer forskellen mellem par af punkter, UMAP (Uniform Approximation and Projection), som minimerer Kullback-Leibler divergensen mellem mængder i høj- og lavdimensionelle rum [12] og ikke-lineær komponentanalyse ( Curvilinear Component Analysis , CCA ) .
En anden tilgang til ikke-lineær dimensionalitetsreduktion er gennem brugen af autoencodere , en speciel type feed -forward-netværk med et flaskeformet (flaskehals) skjult lag [13] . Træning af dybe indkodere udføres normalt ved hjælp af grådig lagdelt fortræning (for eksempel ved hjælp af en kaskade af begrænsede Boltzmann-maskiner ), efterfulgt af et finjusteringstrin baseret på tilbageudbredelse .
Lineær diskriminantanalyse (LDA) er en generalisering af Fishers lineære diskriminant, en teknik der bruges i statistik, mønstergenkendelse og maskinlæring til at finde en lineær kombination af funktioner, der beskriver eller adskiller to eller flere klasser af objekter eller begivenheder.
Generaliseret diskriminantanalyse omhandler ikke-lineær diskriminantanalyse ved hjælp af kernefunktionsoperatoren . Den underliggende teori er tæt på støttevektormaskinen (SVM), da SVM-metoden giver en kortlægning af inputvektorerne til et højdimensionelt trækrum [14] [15] . I lighed med LDA er målet med ODA at søge efter projektion af funktioner i et rum af lavere dimension med maksimering af forholdet mellem interklasse-invarians ( eng. between-class scatter ) og intraclass-invarians ( eng. inside -class scatter ) .
Autoencoderen kan bruges til at lære den ikke-lineære dimensionalitetsreduktion og kodningsfunktioner sammen med den inverse funktion fra den kodede til den oprindelige repræsentation.
For højdimensionelle datasæt (det vil sige med mere end 10 dimensioner) udføres dimensionalitetsreduktion normalt før anvendelse af k -nearest neighbours-algoritmen ( k-NN) for at undgå dimensionalitetens forbandelse [16] .
Funktionsekstraktion og dimensionalitetsreduktion kan kombineres i ét trin ved at bruge Principal Component Analysis (PCA) , Linear Discriminant Analysis (LDA), Canonical Correlation Analysis (CCA) eller Non-Negative Matrix Decomposition (NMR) som et indledende trin efterfulgt af gruppering med K-NN på trækvektoren i det reducerede dimensionsrum. I maskinlæring kaldes denne proces også lavdimensionel nesting [17] .
For alle højdimensionelle datasæt (f.eks. når man leder efter lighed i en videostrøm, DNA-data eller en højdimensionel tidsserie ), ved brug af hurtig tilnærmet K-NN-søgning ved hjælp af lokalitetsfølsom hashing , tilfældig projektion [18] , "skitser" [19] (for eksempel tensorskitse ) eller andre højdimensionelle lighedssøgningsteknikker fra arsenalet af ekstra store databaser[ klargør ] kan være den eneste mulige mulighed.
En dimensionsreduktionsteknik, der nogle gange bruges i neurovidenskaberne , er maksimale informative dimensioner . Teknikken finder lavdimensionelle repræsentationer af et datasæt, der bevarer så meget information som muligt om de originale data.
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|
Anbefalingssystemer | |
---|---|
Begreber |
|
Metoder og spørgsmål |
|
Implementeringer |
|
Forskning |
|