Wordt big data te groot? Maar liefst 90% van alle bestaande data in de wereld werd geproduceerd in de afgelopen twee jaar - en slechts 20% ervan wordt gebruikt. Omdat big data-analyses niet in staat zijn gelijke tred te houden, is deze exponentiële stijging onmogelijk te realiseren en is er een zeer voor de hand liggend resultaat: de meeste gegevens die worden verzameld door bedrijven, individuen en internet of Things-sensoren worden niet gebruikt.

Ongestructureerde, ongebruikte en onbeminde gegevens op de loer op de computers, servers en archieven van organisaties over de hele wereld is een duidelijk bewijs dat bedrijven, terwijl ze in toenemende mate worden gedigitaliseerd en datacentrisch zijn, nog steeds in de donkere middeleeuwen leven.

Donkere gegevens kunnen metadata zijn die door andere systemen worden geproduceerd (Image Credit: NASA)

Wat is donkere data?

Ongebruikte of 'donkere' gegevens zijn het verhaal van het feit dat de bedrijfswereld niet op grote schaal aan de verwachtingen voldoet. Donkere gegevens worden door Gartner gedefinieerd als 'de informatie die organisaties verzamelen, verwerken en opslaan tijdens reguliere bedrijfsactiviteiten, maar in het algemeen niet gebruiken voor andere doeleinden'.

“We hebben het in de eerste plaats over transactie-informatie, logbestanden, metadata die niet zijn gebruikt, kleine stukjes niet-geanalyseerde informatie die geen waarde lijken te hebben en die heel goed gezien kunnen worden als het afvalproduct van andere systemen en processen,” zegt John Culkin, Directeur Informatiemanagement bij Crown Records Management, die bedrijven adviseert over gegevensbeleid. Hij voegt ook concept-, tijdelijke en oude e-mails en ZIP-bestanden toe aan die lijst.

Donkere gegevens kunnen op ongebruikte bedrijfslaptops liggen

Waar komen donkere gegevens vandaan??

“Donkere gegevens vormen ongeveer 80% van de totale inhoud in elke organisatie,” zegt Stephen Mackey, Senior IM Consultant bij informatie management bedrijf Kefron, die erop staat dat het het resultaat is van standaard dagelijkse zakelijke processen. “Donkere data is alle inhoud die achterblijft, verborgen in systemen en servers, en onderbenut of vergeten,” hij voegt toe.

Volgens IDC wordt 90% van de ongestructureerde gegevens nooit geanalyseerd, wat vaak het gevolg is van een gevaarlijke anti-verwijderingshouding, gevoed door zowel complianceregels als de beschikbaarheid van goedkope gegevensopslag in de cloud en elders.

“Voor een detailhandel- of productiebedrijf kan financiële informatie bijvoorbeeld terecht als een record worden bewaard,” zegt Culkin, toe te voegen, “maar hoewel gegevens die zijn gegenereerd door veel verkoop- en bezorgingssystemen niet nodig zijn, wordt deze zelden verwijderd.” Maar een conservatieve houding ten opzichte van data levert omgekeerd risico's op.

In 2020 zouden er 21 miljard IoT-apparaten kunnen zijn

Waarom zijn donkere gegevens schadelijk?

Er zijn twee belangrijke manieren waarop donkere gegevens een bedrijf kunnen beschadigen. Ten eerste is er een veiligheidsrisico bij het niet verwijderen van gegevens. “Het is belangrijk dat bestanden niet worden vergeten,” zegt Mackey. “Als ze niet worden gemonitord en veilig worden gehouden, kan de bedrijfskritieke informatie die ze bevatten zonder kennis worden gedolven en om kwalijke redenen worden gebruikt.”

Gegevens die niet zullen worden gebruikt, moeten worden verwijderd of worden beschermd tegen ongeautoriseerde toegang, omdat vertrouwelijke, gevoelige en ongestructureerde informatie klantaccountgegevens kan bevatten, wat complianceproblemen oplevert.

De tweede manier waarop donkere gegevens een bedrijf kunnen schaden, is door het indirect geld te kosten. “Veel bedrijven weten niet wat voor soort gegevens er zijn en het zijn deze verborgen gegevens die interne beoordelingen en externe audits bemoeilijken,” zegt Mackey. “Wat als er een probleem wordt opgeworpen over een account van twee jaar geleden en de betaling in twijfel wordt getrokken, maar de facturen en records niet kunnen worden gevonden?” hij vraagt. Het antwoord is eenvoudig; donkere gegevens kosten bedrijven geld.