Mørke data er data , der automatisk indsamles under rutinemæssige aktiviteter i computernetværk, men som ikke bruges på nogen måde til at indhente information eller træffe beslutninger [1] [2] . En organisations evne til at indsamle data kan overstige den gennemstrømning, hvormed den kan analysere data . I nogle tilfælde er organisationen måske ikke engang klar over, at der indsamles data [3] . IBM anslår , at omkring 90 procent af de data, der genereres af sensorer og A/D-konvertere, aldrig bliver brugt [4] .
I en industriel sammenhæng kan mørke data omfatte information indsamlet af sensorer og telematik [5] .
Organisationer gemmer skjulte data af forskellige årsager, og det anslås, at de fleste virksomheder kun analyserer 1 % af deres data [6] . Årsager til lagring af ubrugte data kan omfatte overholdelse af lovgivning [7] og arkiver [1] . Nogle organisationer mener, at skjulte data kan være nyttige for dem i fremtiden, når mere avancerede analyse- og business intelligence-teknologier bliver tilgængelige [3] . Fordi opbevaring er billig, er det nemt at opbevare data. Datalagring og -beskyttelse medfører dog normalt højere omkostninger end den potentielle fortjeneste.
Professor David Hand fra Imperial College London bruger udtrykket "mørke data" til at henvise til manglende data: "mørke data er data, som du ikke har" [8] [a] .
Mange mørke data er ustrukturerede, hvilket betyder, at informationen præsenteres i formater, der kan være svære at kategorisere, læses af en computer og dermed analysere. Ofte er grunden til, at en virksomhed ikke analyserer sine mørke data, mængden af ressourcer, den vil kræve, og vanskeligheden ved at analysere disse data. Ifølge Computer Weekly siger 60% af organisationerne, at deres egne BI-kapaciteter er "utilstrækkelige", og 65% siger, at de har "noget uorganiserede tilgange til indholdsstyring" 10] .
Nyttige data, der har mistet sin relevans over tid, kan også falde ind under kategorien mørke data. Dette skyldes utilstrækkelig databehandlingshastighed. For eksempel, hvis en kundes geolocation er kendt af virksomheden, kan virksomheden komme med et tilbud baseret på lokation, men hvis disse data ikke behandles med det samme, er det muligvis ikke relevant i fremtiden. Ifølge IBM mister omkring 60 procent af de indsamlede data øjeblikkeligt sin værdi [4] .
Ifølge New York Times er 90 % af den energi, der bruges af datacentre, spildt [11] . At undgå overflødig datalagring ville spare energiomkostninger. Hertil kommer omkostninger forbundet med underudnyttelse af information og som følge heraf mistede muligheder. Ifølge Datamation er data, der er lagret i EMEA-medlemsorganisationer, 54 % mørke data, 32 % overflødige, forældede og trivielle data og kun 14 % af enhver værdi. Fra 2020 koster lagring af overflødige data omkring 900 milliarder amerikanske dollars [12 ] .
Permanent lagring af mørke data kan sætte en organisation i fare, især hvis dataene er følsomme. Datalækage kan føre til alvorlige konsekvenser: økonomiske, juridiske og omdømmemæssige. For eksempel kan lækage af kunders personlige data føre til massivt identitetstyveri . Et andet eksempel ville være lækage af en virksomheds egne følsomme oplysninger, såsom dem, der vedrører forskning og udvikling . Disse risici kan afbødes ved at vurdere og verificere behovet for dataene for organisationen og ved at bruge stærk kryptering og andre sikkerhedsforanstaltninger [13] . Sletning af unødvendige data bør ske på en sådan måde, at de ikke kan gendannes [14] .
Det er generelt accepteret, at efterhånden som mere avancerede computersystemer skabes, vil værdien af mørke data stige. Der er en opfattelse af, at data og deres analyse vil blive grundlaget for en ny industriel revolution [5] . Potentielt nyttige data omfatter også, hvad der i øjeblikket betragtes som "mørke data", fordi der ikke er nok ressourcer til at behandle dem. Alle disse data kan bruges i fremtiden til at sikre maksimal ydeevne og organisationers evne til at imødekomme kundernes behov. Sundheds- og uddannelsesorganisationer, der beskæftiger sig med store mængder data, kan især drage fordel af behandlingen af ubrugte data i fremtiden [15] .