Mørke data

Mørke data  er data , der automatisk indsamles under rutinemæssige aktiviteter i computernetværk, men som ikke bruges på nogen måde til at indhente information eller træffe beslutninger [1] [2] . En organisations evne til at indsamle data kan overstige den gennemstrømning, hvormed den kan analysere data . I nogle tilfælde er organisationen måske ikke engang klar over, at der indsamles data [3] . IBM anslår , at omkring 90 procent af de data, der genereres af sensorer og A/D-konvertere, aldrig bliver brugt [4] .

I en industriel sammenhæng kan mørke data omfatte information indsamlet af sensorer og telematik [5] .

Organisationer gemmer skjulte data af forskellige årsager, og det anslås, at de fleste virksomheder kun analyserer 1 % af deres data [6] . Årsager til lagring af ubrugte data kan omfatte overholdelse af lovgivning [7] og arkiver [1] . Nogle organisationer mener, at skjulte data kan være nyttige for dem i fremtiden, når mere avancerede analyse- og business intelligence-teknologier bliver tilgængelige [3] . Fordi opbevaring er billig, er det nemt at opbevare data. Datalagring og -beskyttelse medfører dog normalt højere omkostninger end den potentielle fortjeneste.

Professor David Hand fra Imperial College London bruger udtrykket "mørke data" til at henvise til manglende data: "mørke data er data, som du ikke har" [8] [a] .

Analyse

Mange mørke data er ustrukturerede, hvilket betyder, at informationen præsenteres i formater, der kan være svære at kategorisere, læses af en computer og dermed analysere. Ofte er grunden til, at en virksomhed ikke analyserer sine mørke data, mængden af ​​ressourcer, den vil kræve, og vanskeligheden ved at analysere disse data. Ifølge Computer Weekly siger 60% af organisationerne, at deres egne BI-kapaciteter er "utilstrækkelige", og 65% siger, at de har "noget uorganiserede tilgange til indholdsstyring" 10] .

Relevans

Nyttige data, der har mistet sin relevans over tid, kan også falde ind under kategorien mørke data. Dette skyldes utilstrækkelig databehandlingshastighed. For eksempel, hvis en kundes geolocation er kendt af virksomheden, kan virksomheden komme med et tilbud baseret på lokation, men hvis disse data ikke behandles med det samme, er det muligvis ikke relevant i fremtiden. Ifølge IBM mister omkring 60 procent af de indsamlede data øjeblikkeligt sin værdi [4] .

Opbevaring

Ifølge New York Times er 90 % af den energi, der bruges af datacentre, spildt [11] . At undgå overflødig datalagring ville spare energiomkostninger. Hertil kommer omkostninger forbundet med underudnyttelse af information og som følge heraf mistede muligheder. Ifølge Datamation er data, der er lagret i EMEA-medlemsorganisationer, 54 % mørke data, 32 % overflødige, forældede og trivielle data og kun 14 % af enhver værdi. Fra 2020 koster lagring af overflødige data omkring 900 milliarder amerikanske dollars [12 ] .

Permanent lagring af mørke data kan sætte en organisation i fare, især hvis dataene er følsomme. Datalækage kan føre til alvorlige konsekvenser: økonomiske, juridiske og omdømmemæssige. For eksempel kan lækage af kunders personlige data føre til massivt identitetstyveri . Et andet eksempel ville være lækage af en virksomheds egne følsomme oplysninger, såsom dem, der vedrører forskning og udvikling . Disse risici kan afbødes ved at vurdere og verificere behovet for dataene for organisationen og ved at bruge stærk kryptering og andre sikkerhedsforanstaltninger [13] . Sletning af unødvendige data bør ske på en sådan måde, at de ikke kan gendannes [14] .

Fremtid

Det er generelt accepteret, at efterhånden som mere avancerede computersystemer skabes, vil værdien af ​​mørke data stige. Der er en opfattelse af, at data og deres analyse vil blive grundlaget for en ny industriel revolution [5] . Potentielt nyttige data omfatter også, hvad der i øjeblikket betragtes som "mørke data", fordi der ikke er nok ressourcer til at behandle dem. Alle disse data kan bruges i fremtiden til at sikre maksimal ydeevne og organisationers evne til at imødekomme kundernes behov. Sundheds- og uddannelsesorganisationer, der beskæftiger sig med store mængder data, kan især drage fordel af behandlingen af ​​ubrugte data i fremtiden [15] .

Noter

Fodnoter

  1. Hands lister 15 forskellige typer mørke data, afhængigt af sidstnævntes natur [9]

Kilder

  1. ↑ 12 Mørke data . Gartner . Hentet 27. april 2021. Arkiveret fra originalen 31. marts 2019.
  2. Titel. Farerne ved mørke data og hvordan du minimerer din eksponering . CIO (24. september 2014). Hentet 27. april 2021. Arkiveret fra originalen 15. januar 2019.
  3. ↑ 12 Brantley . API Briefing: Udfordringen ved regeringens mørke data . Digitalgov.gov (17. juni 2015). Hentet 27. april 2021. Arkiveret fra originalen 16. januar 2018.
  4. 12 Johnson .  Opgravning af mørke data: Hvad placerer IBM i spidsen for indsigtsøkonomi ? . SiliconANGLE (30. oktober 2015). Hentet 3. november 2015. Arkiveret fra originalen 11. juli 2018.  
  5. ↑ 12 Dennies . TeradataVoice: Fremtidens fabrikker: værdien af ​​mørke data . Forbes (19. februar 2015). Arkiveret fra originalen den 22. februar 2015.
  6. Shahzad. Big data-udfordringen ved transformation for fremstillingsindustrien . IBM Big Data & Analytics Hub (3. januar 2017). Hentet 27. april 2021. Arkiveret fra originalen 6. marts 2018.
  7. Bruger du dine mørke data effektivt (downlink) . Hentet 27. april 2021. Arkiveret fra originalen 16. januar 2017. 
  8. David Hand. 10-minutters samtaler: Mørke data . Det britiske akademi . The British Academy (18. november 2020). Hentet 2. marts 2021. Arkiveret fra originalen 27. april 2021.
  9. Hånd, 2021 , s. 17.
  10. Mile. Mørke data kan stoppe big datas vej til succes . Computer Weekly (27. december 2013). Hentet 3. november 2015. Arkiveret fra originalen 10. april 2019.
  11. Glanz . Datacentre spilder enorme mængder energi, troende industribillede , The New York Times  (22. september 2012). Arkiveret 16. maj 2019. Hentet 2. november 2015.
  12. Hernandez. Virksomheder hamstrer 'mørke' data: Veritas . Databehandling (30. oktober 2015). Hentet 4. november 2015. Arkiveret fra originalen 4. oktober 2017.
  13. DarkShield bruger maskinlæring til at finde og maskere PII , IRI. Arkiveret fra originalen den 15. januar 2019. Hentet 14. januar 2019.
  14. Titel. Farerne ved mørke data og hvordan du minimerer din eksponering . CIO (24. september 2014). Hentet 2. november 2015. Arkiveret fra originalen 15. januar 2019.
  15. Prag.  Udnyttelse af mørke data : Q&A med Melissa McCormack  ? . The Machine Learning Times (30. september 2014). Hentet 4. november 2015. Arkiveret fra originalen 14. april 2019.

Litteratur