Feature-ekstraktion er en type abstraktion , en dimensionsreduktionsproces , hvor det oprindelige sæt af indledende variabler reduceres til mere håndterbare grupper (funktioner) for yderligere behandling, mens de forbliver et tilstrækkeligt sæt til nøjagtigt og fuldstændigt at beskrive det originale datasæt [1] . Funktionsudtrækning bruges i maskinlæring , mønstergenkendelse og i billedbehandling . Funktionsudtrækning starter fra det originale datasæt, udleder sekundære værdier ( funktioner ), som de formodes at være informative og ikke overflødige, hvilket bidrager til den efterfølgende proces med maskinlæring og generalisering af trin, og i nogle tilfælde fører til en bedre menneskelig fortolkning af dataene.
Når inputdataene for en algoritme er for store til at behandle, og der er mistanke om, at dataene er overflødige (f.eks. tages målinger i både fod og meter, eller billeders repeterbarhed repræsenteres af pixels ), så kan de transformeret til et reduceret funktionssæt (kaldet en feature vektor ). Definitionen af en delmængde af indledende funktioner kaldes funktionsvalg [2] . De valgte funktioner kontrolleres mod indholdet af den nødvendige information i inputdataene, således at den ønskede opgave kan udføres ved brug af dette reducerede sæt i stedet for de originale fulde data.
Funktionsudtræk indebærer at reducere antallet af ressourcer, der er nødvendige for at beskrive et stort sæt data. Når man analyserer komplekse data, er et af hovedproblemerne forårsaget af antallet af involverede variable. Analyse med et stort antal variable kræver generelt meget hukommelse og processorkraft, og det kan også få klassificeringsproblemalgoritmer til at overfitte i forhold til træningssættet, hvilket generelt fører til dårlige resultater for nye prøver. Funktionsekstraktion er hovedbetegnelsen for metoder til at konstruere kombinationer af variabler for at omgå disse problemer, mens dataene stadig beskrives med tilstrækkelig nøjagtighed. Mange maskinlæringsudøvere mener, at korrekt optimeret funktionsekstraktion er nøglen til at bygge en effektiv model [3] .
Resultaterne kan forbedres ved hjælp af et indbygget sæt applikationsspecifikke funktioner, normalt bygget af eksperter. En sådan proces kaldes feature engineering . Alternativt anvendes generelle dimensionsreduktionsteknikker, såsom:
Et meget vigtigt område af funktionsekstraktionsapplikation er billedbehandling , som bruger algoritmer til at detektere og isolere forskellige ønskede dele eller former (funktioner) af et digitalt billede eller videostrøm . Et af de vigtige anvendelsesområder for metoder er optisk tegngenkendelse .
Mange aggregeringspakker giver funktionsekstraktion og dimensionsreduktion. Almindelige numeriske behandlingssystemer såsom MATLAB , Scilab , NumPy og R-sproget understøtter nogle simple funktionsudtrækningsteknikker (såsom principal komponentanalyse ) ved hjælp af indbyggede kommandoer. Mere specifikke algoritmer er ofte tilgængelige som public domain scripts eller tredjepartsudviklinger. Der er også pakker designet til specifikke maskinlæringsapplikationer specifikt til udtræk af funktioner. [fire]
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|