Dataforbehandling er et væsentligt trin i data mining- processen . Udtrykket " garbage in, garbage out " gælder især for datamining og maskinlæringsprojekter . Det, der menes her, er, at selv den mest sofistikerede analyse ikke vil være brugbar, hvis tvivlsomme data tages som grundlag [1] .
Dataindsamlingsmetoder er ofte dårligt kontrolleret. Dette resulterer i ugyldige værdier (for eksempel: indkomst lig med -100), datakombinationer, der er umulige (for eksempel: "mandlig mens gravid"), manglende værdier og så videre. At analysere data, der ikke er immune over for denne slags problemer, kan føre til forkerte konklusioner. Kvaliteten af dataene er altafgørende i analysen [2] . Ofte bliver dataforbehandling en vigtig fase af et maskinlæringsprojekt . Dette gælder især for beregningsbiologiske processer [3] .
Under træningen af maskinen, med en stor mængde unødvendig information, " støjende " og upålidelige data, bliver udvindingen af viden vanskelig. Stadiet med dataforberedelse og filtrering kan tage lang tid. Dataforberedelse omfatter:
og anden datamanipulation.
Resultatet af dataforbehandling er det endelige træningssæt .
Nedenfor er en kort beskrivelse af de metoder, der bruges i dataforbehandlingsfasen.
Data | |
---|---|
|