Dataforbehandling

Dataforbehandling er et væsentligt trin i data mining- processen . Udtrykket " garbage in, garbage out " gælder især for datamining og maskinlæringsprojekter . Det, der menes her, er, at selv den mest sofistikerede analyse ikke vil være brugbar, hvis tvivlsomme data tages som grundlag [1] .

Nødvendighed

Dataindsamlingsmetoder er ofte dårligt kontrolleret. Dette resulterer i ugyldige værdier (for eksempel: indkomst lig med -100), datakombinationer, der er umulige (for eksempel: "mandlig mens gravid"), manglende værdier og så videre. At analysere data, der ikke er immune over for denne slags problemer, kan føre til forkerte konklusioner. Kvaliteten af dataene er altafgørende i analysen [2] . Ofte bliver dataforbehandling en vigtig fase af et maskinlæringsprojekt . Dette gælder især for beregningsbiologiske processer [3] .

Under træningen af maskinen, med en stor mængde unødvendig information, " støjende " og upålidelige data, bliver udvindingen af viden vanskelig. Stadiet med dataforberedelse og filtrering kan tage lang tid. Dataforberedelse omfatter:

rengøring
udvalg af kopier
normalisering
datatransformation
funktionsudtræk
funktionsvalg

og anden datamanipulation.

Resultatet af dataforbehandling er det endelige træningssæt .

Metoder

Nedenfor er en kort beskrivelse af de metoder, der bruges i dataforbehandlingsfasen.

Datarensning bruges til at opdage, rette eller fjerne fejlagtige registreringer i et datasæt [4] ;
Datanormalisering bruges til at standardisere rækken af værdier for uafhængige variabler eller datafunktioner (for eksempel reduktion til intervallerne [0, 1] eller [-1, +1]);
Datatransformation bruges til at bringe data ind i det format, som publikum forventer;
Funktionsekstraktion bruges til at transformere inputdataene til et sæt funktioner, som de repræsenterer godt;
Datakomprimering bruges til at konvertere numeriske data til en korrigeret, ordnet og forenklet form. Dette hjælper med at reducere mængden og/eller dimensionaliteten af dataene.

Se også

Datarensning
rediger data
Datakomprimering
Primær databehandling

Noter

↑ Charles Whelan. Nøgen statistik. — 2. udgave. - Moskva: Mann, Ivanov og Ferber, 2017. - S. 152-153. — 341 s. - ISBN 978-5-00100-823-1 .
↑ Pyle, 1999 .
↑ Chicco, 2017 , s. 1-17.
↑ Wu, 2013 .

Litteratur