Data validering

Datavalidering er processen med at validere data af  forskellige typer i forhold til kriterier for rigtighed og anvendelighed til en specifik applikation. Datavalidering udføres normalt efter udførelse af ETL -operationer og for at bekræfte rigtigheden af ​​resultaterne af maskinlæringsmodeller (forudsigelser). Datavalidering anvendes ikke kun på tabeldata, men også på datasæt, der indeholder sæt af tabeller, tekstmæssige, grafiske, lydoplysninger.

Forskellige datavalideringsmetoder anvendes i automatiseret informationsbehandling, statistik [1] , indsamling og behandling af videnskabelige og medicinske forskningsresultater og på andre områder.

Behov for datavalidering

Datavalidering er en af ​​metoderne til at udelukke modtagelse af bevidst fejlagtige, ufuldstændige eller unøjagtige data ved input af et informationssystem eller dets komponent, hvilket kan føre til fejlagtige resultater, datatab og systemfejl. Årsagerne til udseendet af sådanne fejlagtige data kan være fejl i processen med manuel dataindtastning, som et resultat af fejl i algoritmer og programmer, i processen med lagring og transmission af data, såvel som ved oprettelse af data ved hjælp af sensorer og enheder af diverse udstyr og IoT . Under valideringen kan data, filer, pakker og registreringer rettes eller udelukkes, operatøren informeres, algoritmen for informationssystemets drift kan ændres.

Datavalideringsoperationer

Valideringsmetoder kan omfatte visuel validering, herunder brug af forskellige analytiske værktøjer [2] , dataprofilering og filtrering [3] , [4] . For at validere data med en given eller kendt fordeling, og i maskinlæring til at evaluere datadrift, kan statistiske metoder til sammenligning af fordelinger bruges ved hjælp af Kolmogorov goodness -of-fit testen [5] , [6] .

Den største praktiske anvendelse findes ved metoder, der kan anvendes umiddelbart på tidspunktet for dataindtastning i systemet:

Datatypetjek bekræfte, at de individuelle tegn, som brugeren har indtastet, svarer til tegnene i en eller flere foruddefinerede specificerede datatyper. For eksempel kan et heltalsfelt kun kræve, at tegn fra 0 til 9 indtastes. Simpel rækkevidde og grænsekontrol kontrollerer inputdataene for overensstemmelse med det specificerede interval (minimum/maksimum værdi) eller den specificerede rækkefølge af tegn. For eksempel kan du kræve, at tællerværdien er et ikke-negativt heltal, og at adgangskoden skal have en minimumslængde og indeholde både store og små bogstaver og specialtegn. Kode- og krydsreferencetjek omfatter operationer til at kontrollere, at data er i overensstemmelse med en eller flere regler, krav eller sæt deraf, og kan omfatte krydsreferencer af leverede data med en velkendt opslagstabel eller kataloginformationstjeneste såsom LDAP. For eksempel, for at identificere en valuta, bruges koden for den all-russiske klassificering af valutaer . Struktureret check tillader andre typer validering at blive kombineret med mere kompleks behandling og kan omfatte betinget begrænsningsvalidering på et helt datasæt eller et sæt af operationer. Konsistenstjek konsistenstjek sikrer konsistensen af ​​dataene. For eksempel skal leveringsdatoen for en ordre gå forud for den dato, den blev afsendt. Formattjek geografiske koordinater skal f.eks. indtastes i grader, minutter og sekunder med en decimalbrøk (en historisk notation). Kontrollerer for manglende poster giver dig mulighed for at identificere forsvundne. Kardinalitetskontrol kontrollerer, at posten har et gyldigt antal relaterede poster. Eksempelvis skal posten "Kunde" svare til mindst én "Ordre". Tjek cifre bruges til numeriske data. For at opdage fejl tilføjes et ekstra ciffer til et tal, der beregnes ud fra andre cifre. Tværsystemkonsistenstjek sammenligner data i forskellige systemer for at sikre, at de matcher. Systemer kan repræsentere de samme data på forskellige måder, i hvilket tilfælde sammenligningen skal konverteres (et system kan f.eks. gemme kundens fornavn i ét felt i formatet "Efternavn, Fornavn, Patronymic", mens et andet bruger tre felter "Efternavn", "Navn og patronym". Kontrollerer om der findes en fil kontrollerer, om der findes en fil med det angivne navn. Denne kontrol er nødvendig for programmer, der bruger filmanipulation. Tilstedeværelseskontrol bekræfter eksistensen af ​​dataene, for eksempel skal kunder have en e-mailadresse. Rækkeviddekontrol bekræfter, at data er inden for et bestemt værdiområde, for eksempel skal sandsynligheden være mellem 0 og 1. Referenceintegritet værdier i to relationelle databasetabeller kan relateres gennem en fremmednøgle og en primærnøgle. Hvis værdierne i et fremmednøglefelt ikke er begrænset internt, skal de kontrolleres for at sikre, at referencetabellen altid refererer til en række i referencetabellen. Stave- og grammatikkontrol leder efter stave- og grammatiske fejl. Unikitetstjek kontrollerer hver værdis unikke karakter. En sådan kontrol kan anvendes på flere felter på én gang (for eksempel adresse, fornavn, efternavn). Validering af tabelopslag sammenligner dataene med et sæt gyldige værdier.

Andre metoder og kombinationer deraf kan også anvendes.

Risici ved at bruge data uden validering

Brug af data, der ikke har bestået validering, kan føre til forkerte eller forkerte resultater af driften af ​​informationssystemer, tab af data og deres relationer (herunder vægten af ​​maskinlæringsmodeller ), kritiske fejl i driften af ​​systemerne.

Se også

Noter

  1. Arkiveret kopi . Hentet 11. december 2021. Arkiveret fra originalen 1. december 2017.
  2. SAS Visual Statistics Features | S.A.S. _ Hentet 11. december 2021. Arkiveret fra originalen 12. december 2021.
  3. Valider data . Hentet 11. december 2021. Arkiveret fra originalen 11. december 2021.
  4. Validering af datakvalitet i AWS Glue DataBrew - AWS Glue DataBrew . Hentet 11. december 2021. Arkiveret fra originalen 11. december 2021.
  5. Data Drift Detection | Vigtigheden af ​​detektion af datadrift . Hentet 11. december 2021. Arkiveret fra originalen 2. november 2021.
  6. Registrer datadrift på datasæt (preview) - Azure Machine Learning | Microsoft docs . Hentet 11. december 2021. Arkiveret fra originalen 8. marts 2022.