Feature Extraction

Feature-ekstraktion er en type abstraktion , en dimensionsreduktionsproces , hvor det oprindelige sæt af indledende variabler reduceres til mere håndterbare grupper (funktioner) for yderligere behandling, mens de forbliver et tilstrækkeligt sæt til nøjagtigt og fuldstændigt at beskrive det originale datasæt [1] . Funktionsudtrækning bruges i maskinlæring , mønstergenkendelse og i billedbehandling . Funktionsudtrækning starter fra det originale datasæt, udleder sekundære værdier ( funktioner ), som de formodes at være informative og ikke overflødige, hvilket bidrager til den efterfølgende proces med maskinlæring og generalisering af trin, og i nogle tilfælde fører til en bedre menneskelig fortolkning af dataene.

Når inputdataene for en algoritme er for store til at behandle, og der er mistanke om, at dataene er overflødige (f.eks. tages målinger i både fod og meter, eller billeders repeterbarhed repræsenteres af pixels ), så kan de transformeret til et reduceret funktionssæt (kaldet en feature vektor ). Definitionen af en delmængde af indledende funktioner kaldes funktionsvalg [2] . De valgte funktioner kontrolleres mod indholdet af den nødvendige information i inputdataene, således at den ønskede opgave kan udføres ved brug af dette reducerede sæt i stedet for de originale fulde data.

Generel tilgang

Funktionsudtræk indebærer at reducere antallet af ressourcer, der er nødvendige for at beskrive et stort sæt data. Når man analyserer komplekse data, er et af hovedproblemerne forårsaget af antallet af involverede variable. Analyse med et stort antal variable kræver generelt meget hukommelse og processorkraft, og det kan også få klassificeringsproblemalgoritmer til at overfitte i forhold til træningssættet, hvilket generelt fører til dårlige resultater for nye prøver. Funktionsekstraktion er hovedbetegnelsen for metoder til at konstruere kombinationer af variabler for at omgå disse problemer, mens dataene stadig beskrives med tilstrækkelig nøjagtighed. Mange maskinlæringsudøvere mener, at korrekt optimeret funktionsekstraktion er nøglen til at bygge en effektiv model [3] .

Resultaterne kan forbedres ved hjælp af et indbygget sæt applikationsspecifikke funktioner, normalt bygget af eksperter. En sådan proces kaldes feature engineering . Alternativt anvendes generelle dimensionsreduktionsteknikker, såsom:

Analyse af uafhængige komponenter
Isomap
Nuklear hovedkomponentmetode
Latent semantisk analyse
Delvis mindste kvadraters regression
Hovedkomponentmetode
Dimensionsreduktion af multifaktorielt rum
Ikke-lineær dimensionalitetsreduktion
Multilineær hovedkomponentmetode
Multilineær underrumslæring
Semidefinite indlejring
Autoencoder

Billedbehandling

Et meget vigtigt område af funktionsekstraktionsapplikation er billedbehandling , som bruger algoritmer til at detektere og isolere forskellige ønskede dele eller former (funktioner) af et digitalt billede eller videostrøm . Et af de vigtige anvendelsesområder for metoder er optisk tegngenkendelse .

Lavt niveau

Grænsefremhævning
Hjørneregistrering
Spotdetektion
Ridge detection
Skala-invariant funktionstransformation

Krumning

Kantretning, intensitetsændring, autokorrelation .

Billeder i bevægelse

Bevægelsesdetektion . Zonale og differentielle tilgange. optisk flow .

Formbaserede metoder

Tærskelfiltrering
Valg af objekter
Mønstermatchende
Algoritme til at finde ental punkter og sammenligne dem SIFT
Hough transformere
- Direkte
- Cirkler/ellipser
- Vilkårlige tal (generaliseret Hough-transformation)
- Arbejde med alle parameteriserbare funktioner (klasseparametre, klyngedetektering osv..)

Fleksible metoder

Deformerbare, parametriserede former
Aktive konturer (vridning)

Funktionsudtræk i software

Mange aggregeringspakker giver funktionsekstraktion og dimensionsreduktion. Almindelige numeriske behandlingssystemer såsom MATLAB , Scilab , NumPy og R-sproget understøtter nogle simple funktionsudtrækningsteknikker (såsom principal komponentanalyse ) ved hjælp af indbyggede kommandoer. Mere specifikke algoritmer er ofte tilgængelige som public domain scripts eller tredjepartsudviklinger. Der er også pakker designet til specifikke maskinlæringsapplikationer specifikt til udtræk af funktioner. [fire]

Se også

klyngeanalyse
Dimensionalitetsreduktion
Funktionsdetektion
funktionsvalg
data mining
Mærkning af tilsluttede komponenter
Segmentering (billedbehandling)

Noter

↑ Hvad er Feature Extraction? . deepai.org . Arkiveret fra originalen den 2. marts 2021. (ubestemt)
↑ Alpaydin, 2010 , s. 110.
↑ Reality AI Blog, "Its all about the features", september 2017, https://reality.ai/it-is-all-about-the-features/ Arkiveret 18. august 2019 på Wayback Machine
↑ se for eksempel https://reality.ai/ Arkiveret 25. marts 2021 på Wayback Machine

Litteratur

Ethem Alpaydin. Introduktion til Machine Learning . - London: The MIT Press, 2010. - ISBN 978-0-262-01243-0 .

Machine learning og data mining
Opgaver	Klassifikationsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-Net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG