Dimensionalitetsreduktion

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 30. november 2021; checks kræver 2 redigeringer .

I statistik , maskinlæring og informationsteori er dimensionalitetsreduktion en datatransformation, der består i at reducere antallet af variable ved at opnå principielle variabler [1] . Transformation kan opdeles i funktionsvalg og funktionsudtrækning [2] .

Funktionsvalg

Funktionsvalgsmetoden forsøger at finde en delmængde af de oprindelige variabler (kaldet funktioner eller attributter). Der er tre strategier - filterstrategien ( f.eks. featureakkumulering ), indpakningsstrategien (f.eks. søg efter nøjagtighed) og indlejringsstrategien (funktioner vælges til at blive tilføjet eller fjernet, efterhånden som modellen bygges baseret på forudsigelsesfejl). Se også kombinatoriske optimeringsproblemer .

I nogle tilfælde kan dataanalyse , såsom regression eller klassificering , udføres i det reducerede rum mere præcist end i det oprindelige rum [3] .

Projektion af tegn

Funktionsprojektion transformerer data fra højdimensionelt rum til lavdimensionelt rum. Datatransformation kan være lineær, som i PCA , men der er et stort antal ikke-lineære dimensionalitetsreduktionsteknikker [4] [5] . For multidimensionelle data kan en tensorrepræsentation bruges til at reducere dimensionalitet gennem multilineær underrumsindlæring [6] .

Principal component method (PCA)

Den primære lineære teknik til dimensionalitetsreduktion, principal komponentanalyse, udfører en lineær kortlægning af data i et rum med lavere dimensionalitet, således at variansen af dataene i den lavdimensionelle repræsentation maksimeres. I praksis konstrueres en kovarians (og nogle gange korrelations ) matrix af dataene, og egenvektorerne for denne matrix beregnes . Egenvektorerne svarende til de største egenværdier (hovedkomponenter) kan nu bruges til at genvinde det meste af variansen af de originale data. Desuden kan de første par egenvektorer ofte fortolkes i forhold til systemets fysiske opførsel i stor skala. Det oprindelige rum (med en dimension lig med antallet af punkter) reduceres (med tab af data, men med håb om, at den vigtigste varians forbliver) til et rum, der spændes over af flere egenvektorer.

Ikke-negativ matrixudvidelse (NMP)

Den ikke-negative matrix-nedbrydning nedbryder en ikke-negativ matrix til produktet af to ikke-negative matricer, som har lovende midler i felter, hvor der kun eksisterer ikke-negative signaler [7] [8] , såsom astronomi [9] [10 ] ] . Ikke-negativ matrixnedbrydning er velkendt på grund af Lee og Seungs multiplikative opdateringsregel [7] , som løbende er blevet udviklet: inklusion af usikkerheder [9] , hensyntagen til manglende data ) og parallel beregning [11] , sekventiel konstruktion [11] , hvilket fører til stabiliteten og lineariteten af HMP [10] , samt andre justeringer .

Med et stabilt komponentgrundlag under konstruktion og en lineær modelleringsproces er en sekventiel ikke-negativ matrixnedbrydning ( eng. sekventiel NMF ) [11] i stand til at bevare strømmen af cirkumstellære strukturer af direkte observation (det vil sige observeret direkte, og ikke ved indirekte beviser) i astronomi [10] , som en af metoderne til at detektere exoplaneter , især til direkte observation af cirkumstellære skiver . Sammenlignet med PCA fjerner ikke-negativ matrixnedbrydning ikke middelværdien af matricer, hvis fjernelse fører til ikke-fysiske ikke-negative fluxer, fordi NMR er i stand til at gemme mere information end hovedkomponentanalyse, som blev demonstreret af Ren et. al . [10] .

Nuclear Principal Component Method (NPC)

Principal komponent analyse kan anvendes på en anden måde ved hjælp af kernel tricket . Den resulterende teknik er i stand til at konstruere ikke-lineære afbildninger, der maksimerer variansen af dataene. Denne teknik kaldes kernel principal component-metoden .

Graf-baseret nuklear MGK

Andre lovende ikke-lineære teknikker er mangfoldige læringsteknikker såsom Isomap , lokalt lineær indlejring (LLE), lokalt lineær indlejring ved hjælp af hessisk ( eng. Hessian LLE ), egenkortmetode Laplacianske værdier ( Laplacian Eigenmaps ) og lokal tangentrumsjusteringsmetode ( lokal tangentrumsjustering , LTSA) . Disse teknikker bygger en lavdimensionel repræsentation af dataene ved hjælp af en omkostningsfunktion, der bevarer de lokale egenskaber for dataene, og som kan opfattes som en definition af en grafbaseret kerne for kerne-PCA.

For nylig er der blevet foreslået teknikker, der i stedet for at definere en fast kerne, forsøger at lære kernen ved hjælp af semi-bestemt programmering . Det mest betydningsfulde eksempel på en sådan teknik er Maximum Residual Sweep (RMS). Den centrale idé med RMN er netop at bevare alle parvise afstande mellem nærmeste naboer (i punktproduktrum) og samtidig maksimere afstande mellem punkter, der ikke er nærmeste naboer.

En alternativ tilgang til at bevare naboskab er at minimere omkostningsfunktionen, som måler afstandene i input- og outputrummene. Vigtige eksempler på sådanne teknikker er: klassisk multidimensionel skalering , som er identisk med PCA; Isomap , som bruger geodætiske afstande i datarummet; diffusion map method , som bruger diffusionsafstande i datarum; t -distribueret stokastisk naboindlejring , t-SNE, som minimerer forskellen mellem par af punkter, UMAP (Uniform Approximation and Projection), som minimerer Kullback-Leibler divergensen mellem mængder i høj- og lavdimensionelle rum [12] og ikke-lineær komponentanalyse ( Curvilinear Component Analysis , CCA ) .

En anden tilgang til ikke-lineær dimensionalitetsreduktion er gennem brugen af autoencodere , en speciel type feed -forward-netværk med et flaskeformet (flaskehals) skjult lag [13] . Træning af dybe indkodere udføres normalt ved hjælp af grådig lagdelt fortræning (for eksempel ved hjælp af en kaskade af begrænsede Boltzmann-maskiner ), efterfulgt af et finjusteringstrin baseret på tilbageudbredelse .

Lineær diskriminantanalyse (LDA)

Lineær diskriminantanalyse (LDA) er en generalisering af Fishers lineære diskriminant, en teknik der bruges i statistik, mønstergenkendelse og maskinlæring til at finde en lineær kombination af funktioner, der beskriver eller adskiller to eller flere klasser af objekter eller begivenheder.

Generaliseret diskriminantanalyse (GDA)

Generaliseret diskriminantanalyse omhandler ikke-lineær diskriminantanalyse ved hjælp af kernefunktionsoperatoren . Den underliggende teori er tæt på støttevektormaskinen (SVM), da SVM-metoden giver en kortlægning af inputvektorerne til et højdimensionelt trækrum [14] [15] . I lighed med LDA er målet med ODA at søge efter projektion af funktioner i et rum af lavere dimension med maksimering af forholdet mellem interklasse-invarians ( eng. between-class scatter ) og intraclass-invarians ( eng. inside -class scatter ) .

Autoencoder

Autoencoderen kan bruges til at lære den ikke-lineære dimensionalitetsreduktion og kodningsfunktioner sammen med den inverse funktion fra den kodede til den oprindelige repræsentation.

Dimensionsreduktion

For højdimensionelle datasæt (det vil sige med mere end 10 dimensioner) udføres dimensionalitetsreduktion normalt før anvendelse af k -nearest neighbours-algoritmen ( k-NN) for at undgå dimensionalitetens forbandelse [16] .

Funktionsekstraktion og dimensionalitetsreduktion kan kombineres i ét trin ved at bruge Principal Component Analysis (PCA) , Linear Discriminant Analysis (LDA), Canonical Correlation Analysis (CCA) eller Non-Negative Matrix Decomposition (NMR) som et indledende trin efterfulgt af gruppering med K-NN på trækvektoren i det reducerede dimensionsrum. I maskinlæring kaldes denne proces også lavdimensionel nesting [17] .

For alle højdimensionelle datasæt (f.eks. når man leder efter lighed i en videostrøm, DNA-data eller en højdimensionel tidsserie ), ved brug af hurtig tilnærmet K-NN-søgning ved hjælp af lokalitetsfølsom hashing , tilfældig projektion [18] , "skitser" [19] (for eksempel tensorskitse ) eller andre højdimensionelle lighedssøgningsteknikker fra arsenalet af ekstra store databaser[ klargør ] kan være den eneste mulige mulighed.

Fordele ved dimensionalitetsreduktion

Det reducerer den nødvendige tid og hukommelse.
Fjernelse af multikolinearitet forbedrer hastigheden af en maskinlæringsmodel.
Det er nemmere at repræsentere data visuelt, når det reduceres til meget lave dimensioner, såsom 2D eller 3D.

Ansøgninger

En dimensionsreduktionsteknik, der nogle gange bruges i neurovidenskaberne , er maksimale informative dimensioner . Teknikken finder lavdimensionelle repræsentationer af et datasæt, der bevarer så meget information som muligt om de originale data.

Se også

At finde den nærmeste nabo problem
MinHash
Akkumulering af information i et beslutningstræ
Semidefinite indlejring
Dimensionsreduktion af multifaktorielt rum
Multilineær underrumslæring
Multilineær hovedkomponentmetode
Tilfældig projektion
singular værdi nedbrydning
Latent semantisk analyse
Semantisk kortlægning
Topologisk dataanalyse
Lokalitetsfølsom hashing
Tilstrækkelig dimensionalitetsreduktion
Datakonvertering
Analyse af et vægtet netværk af sammenhænge
Hyperparameter optimering
CUR matrix tilnærmelser
Konvolut model
Ikke-lineær dimensionalitetsreduktion
Sammon mapping
Johnson-Lindenstrauss Lemma

Noter

↑ Roweis, Saul, 2000 .
↑ Pudil, Novovičová, 1998 , s. 101.
↑ Rico-Sulayes, 2017 , s. 26-35.
↑ Samet, 2006 .
↑ Ding, He, Zha, Simon, 2002 .
↑ Lu, Plataniotis, Venetsanopoulos, 2011 , s. 1540-1551
↑ 1 2 Lee, Seung, 1999 , s. 788-791.
↑ Lee, Seung, 2001 , s. 556-562.
↑ 1 2 Blanton, Roweis, 2007 , s. 134.
↑ 1 2 3 4 Ren, Pueyo, Zhu, Duchêne, 2018 , s. 104.
↑ 1 2 3 Zhu, Guangtun B. (2016-12-19), Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data, arΧiv : 1612.06037 [astro-ph.IM].
↑ UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction ( 7. december 2018). Hentet 26. august 2019. Arkiveret fra originalen 3. november 2019.
↑ Hu, Zahorian, 2010 .
↑ Baudat, Anouar, 2000 , s. 2385-2404.
↑ Haghighat, Zonouz, Abdel-Mottaleb, 2015 , s. 7905-7916.
↑ Beyer, Goldstein, Ramakrishnan, Shaft, 1999 , s. 217-235.
↑ Shaw, Jebara, 2009 , s. en.
↑ Bingham, Mannila, 2001 , s. 245.
↑ Shasha, 2004 .

Litteratur

Baudat G., Anouar F. Generaliseret diskriminantanalyse ved hjælp af en kernetilgang // Neural beregning. - 2000. - T. 12 , no. 10 .
Haghighat M., Zonouz S., Abdel-Mottaleb M. CloudID: Troværdig cloud-baseret og tværgående biometrisk identifikation // Ekspertsystemer med applikationer. - 2015. - T. 42 , no. 21 .
Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft. Hvornår er "nærmeste nabo" meningsfuldt? // Proceedings of the 7th International Conference on Database Theory (ICDT) . — Jerusalem, Israel, 1999.
Hongbing Hu, Stephen A. Zahorian. Dimensionalitetsreduktionsmetoder til HMM-fonetisk genkendelse // ICASSP 2010 . — Dallas, TX, 2010.
Bingham E., Mannila H. Tilfældig projektion i dimensionalitetsreduktion // Proceedings of the syvende ACM SIGKDD internationale konference om Knowledge discovery and data mining – KDD '01 . - 2001. - ISBN 158113391X . - doi : 10.1145/502512.502546 .
D Høj Shasha. Performance Discovery i Time Series. - Berlin: Springer, 2004. - ISBN 0-387-00857-8 .
Shaw B., Jebara T. Indlejring af strukturbevarelse // Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 . - 2009. - S. 1. - ISBN 9781605585161 . - doi : 10.1145/1553374.1553494 .
Roweis ST, Saul LK Ikke- lineær dimensionsreduktion ved lokalt lineær indlejring // Videnskab. - 2000. - T. 290 , Nr. 5500 . — S. 2323–2326 . - doi : 10.1126/science.290.5500.2323 . - . — PMID 11125150 .
Pudil P., Novovičová J. Novel Methods for Feature Subset Selection with Respect to Problem Knowledge // Feature Extraction, Construction and Selection / Huan Liu, Hiroshi Motoda. - 1998. - ISBN 978-1-4613-7622-4 . - doi : 10.1007/978-1-4615-5725-8_7 .
Antonio Rico-Sulayes. Reduktion af vektorrumsdimensionalitet i automatisk klassificering for forfatterskabstilskrivning // Revista Ingeniería Electrónica, Automática y Comunicaciones. - 2017. - T. 38 , nr. 3 .
Samet H. Grundlaget for multidimensionelle og metriske datastrukturer. - Morgan Kaufmann, 2006. - ISBN 0-12-369446-9 .
Ding C., He X., Zha H., Simon HD Adaptive Dimension Reduction for Clustering High Dimensional Data // Proceedings of International Conference on Data Mining. - 2002.
Haiping Lu, KN Plataniotis, AN Venetsanopoulos. En undersøgelse af multilineær underrumslæring til tensordata // mønstergenkendelse. - 2011. - T. 44 , nr. 7 . - S. 1540-1551 . - doi : 10.1016/j.patcog.2011.01.004 .
Daniel D. Lee, H. Sebastian Seung. At lære dele af objekter ved ikke-negativ matrixfaktorisering // Nature . - 1999. - T. 401 , udg. 6755 . — S. 788–791 . - doi : 10.1038/44565 . — . — PMID 10548103 .
Daniel D. Lee, H. Sebastian Seung. Algoritmer for ikke-negativ matrixfaktorisering // Fremskridt i neurale informationsbehandlingssystemer 13: Proceedings of the 2000 Conference . - MIT Press , 2001. - S. 556-562.
Michael R. Blanton, Sam Roweis. K-korrektioner og filtertransformationer i det ultraviolette, optiske og nær-infrarøde // The Astronomical Journal. - 2007. - T. 133 . - doi : 10.1086/510127 . - . - arXiv : astro-ph/0606170 .
Bin Ren, Laurent Pueyo, Guangtun B. Zhu, Gaspard Duchêne. Ikke-negativ Matrix Factorization: Robust Extraction of Extended Structures // The Astrophysical Journal. - 2018. - T. 852 . - doi : 10.3847/1538-4357/aaa1f2 . - . - arXiv : 1712.10317 .
Fodor I. En undersøgelse af dimensionsreduktionsteknikker. National teknisk rapport UCRL-ID-148494 . — Lawrence Livermore: Center for Applied Scientific Computing, 2002.
Cunningham P. Dimensionsreduktion. Teknisk rapport UCD-CSI-2007-7 . - University College Dublin, 2007.
Stephen A. Zahorian, Hongbing Hu. Metoder til reduktion af ikke-lineære dimensioner til brug med automatisk talegenkendelse // Taleteknologier. - 2011. - ISBN 978-953-307-996-7 . - doi : 10.5772/16863 .
Dhyaram Lakshmi Padmaja, B Vishnuvardhan. Komparativ undersøgelse af udvælgelsesmetoder for egenskabsundersæt til dimensionsreduktion på videnskabelige data. - 2016. - August. — s. 31–34 . - doi : 10.1109/IACC.2016.16 .

Links

Machine learning og data mining
Opgaver	Klassifikationsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-Net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG

Anbefalingssystemer
Begreber	kollektiv intelligens Relevans Stjernebedømmelse En lang hale
Metoder og spørgsmål	Kold start Samarbejdsfiltrering Dimensionalitetsreduktion Indsamling af indirekte data Samarbejdsfiltrering gennem analyse af relationer mellem objekter Matrix nedbrydning Indsamling af information om præferencer Søg efter lighed social dovenskab
Implementeringer	Samarbejdsbaseret informationssøgningssystem Platform til at opdage indhold Beslutningsstøttesystem Projekt "Music Genome" Produktsøgning
Forskning	GroupLens Research MovieLens Netflix-prisen