Dataforbehandling

Dataforbehandling er et væsentligt trin i data mining- processen . Udtrykket " garbage in, garbage out " gælder især for datamining og maskinlæringsprojekter . Det, der menes her, er, at selv den mest sofistikerede analyse ikke vil være brugbar, hvis tvivlsomme data tages som grundlag [1] .

Nødvendighed

Dataindsamlingsmetoder er ofte dårligt kontrolleret. Dette resulterer i ugyldige værdier (for eksempel: indkomst lig med -100), datakombinationer, der er umulige (for eksempel: "mandlig mens gravid"), manglende værdier og så videre. At analysere data, der ikke er immune over for denne slags problemer, kan føre til forkerte konklusioner. Kvaliteten af ​​dataene er altafgørende i analysen [2] . Ofte bliver dataforbehandling en vigtig fase af et maskinlæringsprojekt . Dette gælder især for beregningsbiologiske processer [3] .

Under træningen af ​​maskinen, med en stor mængde unødvendig information, " støjende " og upålidelige data, bliver udvindingen af ​​viden vanskelig. Stadiet med dataforberedelse og filtrering kan tage lang tid. Dataforberedelse omfatter:

og anden datamanipulation.

Resultatet af dataforbehandling er det endelige træningssæt .

Metoder

Nedenfor er en kort beskrivelse af de metoder, der bruges i dataforbehandlingsfasen.

Se også

Noter

  1. Charles Whelan. Nøgen statistik. — 2. udgave. - Moskva: Mann, Ivanov og Ferber, 2017. - S. 152-153. — 341 s. - ISBN 978-5-00100-823-1 .
  2. Pyle, 1999 .
  3. Chicco, 2017 , s. 1-17.
  4. Wu, 2013 .

Litteratur

Links