De onbedoelde gevolgen van gegevensverouderingdata
NieuwsGegevens staan centraal in elke technologie die we aanraken, en terwijl we ons dagelijks leven gebruiken, consumeren we en genereren we gegevens met een ongelooflijke snelheid. Zelfs iets simpels als betalen voor de lunch in een café met een bankpas genereert gegevens.
Onlangs zijn de gegevensvolumes die we produceren geëxplodeerd, dus we praten niet langer over gegevens die eenvoudig in een spreadsheet kunnen worden beheerd, maar over big data, wat de behoefte aan geavanceerde intelligentiesystemen aandrijft..
Big data-evangelisten hebben de voordelen van het verzamelen van meer en meer gegevens onder de aandacht gebracht, daarbij verwijzend naar het feit dat de grootte goed is en dat groter beter is. Deze vloedgolf aan gegevens is ontworpen om ons slimmer te maken, ons in staat te stellen bijna realtime beslissingen te nemen en misschien zelfs toekomstig gedrag te voorspellen.
Echter, deze verleidelijke beweringen over big data verbergen het feit dat, indien verzameld binnen de huidige infrastructuur bij de meeste bedrijven, de datastroom de kans groter maakt dat een onderneming langzamer, minder responsief en - op de lange termijn - minder 'intelligent' wordt.
Waarom gebeurt dit?
Het komt omdat het verwerken van terabytes aan informatie over de reeds belastbare legacy-systemen waarop veel bedrijven draaien steeds langer duurt naarmate gegevensvolumes toenemen.
Als gevolg hiervan worden de gegevensorganisaties uiteindelijk gebruikt voor bedrijfskritieke rapporten of om nieuwe toepassingen te testen, is deze niet realtime, is deze oud en wordt deze alleen maar ouder omdat de volgende typen aanvullende IT-vereisten het probleem nog verergeren:
Data migratie: Bedrijven voeren vaak een groot aantal zakelijke apps uit (die in de banksector kunnen ze in de duizenden tellen) en ze hebben complexe processen om gegevens te voltooien voordat ze de business intelligence-software te pakken krijgen voor analyse.
De gegevens moeten van applicaties naar operationele datastores gaan voordat deze in een datawarehouse belanden. Er is meestal een beperkte periode waarin dit proces moet worden voltooid en wanneer datavolumes kleiner waren, was het een redelijk hanteerbare taak.
Als een van deze projecten gelijktijdig met BI-projecten wordt uitgevoerd, is het mogelijk dat analisten opeens in plaats van de gegevens van een dag oud in de rapportageomgeving terechtkomen bij gegevens die in sommige gevallen al weken oud waren. Een van onze klanten heeft de kosten van dit wachten op oude gegevens berekend op 50% van hun BI-investering.
Database replicatie: Veel grote organisaties moeten meerdere exemplaren van enkele databases beheren. Deze databases worden gebruikt voor een groot aantal bedrijfsprocessen, waaronder testen en ontwikkelen, kwaliteitsborging (QA), training en back-up en noodherstel.
Dientengevolge wordt gemiddeld elke database acht tot tien keer gerepliceerd. Deze replicaties werken als een zeeanker in elk business intelligence-systeem; het kost enorm veel tijd en moeite om de gerepliceerde gegevens te doorgronden, waardoor het hele proces wordt onderdrukt.
Gegevensmaskering: Nieuwe EU-regelgeving vereist binnenkort dat een organisatie die zich bezighoudt met klantgegevens de gevoelige gegevens die zij verzamelen maskeert, ongeacht of deze wordt gebruikt voor ontwikkeling, testen en kwaliteitsborging, of dat deze eenvoudig wordt opgeslagen en gecontroleerd voor business intelligence-doeleinden.
Hoewel het proces van het maskeren van gegevens eenvoudig is, hebben organisaties vaak moeite met het leveren van gegevens. Omdat de organisaties verplicht zijn om niet slechts één set gegevens te maskeren, maar elke kopie die wordt gemaakt, stapelen deze projecten zich snel op.
Een groot aantal compromissen
Wat is de oplossing voor dit probleem met ouderdomsgegevens? Traditioneel brengt het in de meeste gevallen veel compromissen met zich mee. Sommige bedrijven proberen dit probleem bijvoorbeeld aan te pakken door te kiezen voor kleinere subsets met gegevens.
Andere organisaties geven prioriteit aan welke gegevens echt realtime moeten zijn en wekelijks, maandelijks of driemaandelijks kunnen worden aangeleverd. Door echter afstand te nemen van oudere architecturen en prioriteit te geven aan de integriteit van hun gegevens, merken veel organisaties dat ze kunnen voorkomen dat ze die compromitterende maatregelen nemen.
Voor het prioriteren van gegevens moeten eerste organisaties die gegevens behendig maken. Technieken van virtualisatie worden nu toegepast op hele applicatiestacks, waardoor zelfs de meest uitgebreide datasets een fractie van de ruimte kunnen innemen, wat betekent dat de data binnen enkele minuten overal binnen de organisatie kunnen worden geleverd.
Organisaties die hun gegevens eerst hebben geplaatst door virtualisatietechnologie in te zetten, zagen de verwerkingstijden dramatisch krimpen van weken tot enkele uren, wat betekent dat de gegevens niet de kans krijgen om oudbakken te worden dat het ooit had gedaan. Een van onze klanten was in staat om de prestaties zodanig te verbeteren dat de gegevens binnen enkele minuten in plaats van dagen arriveerden.
De meeste IT-leiders begrijpen al de behendigheids- en mobiliteitsvoordelen die virtualisatie kan bieden met hun servers. Door de virtualisatiemogelijkheden echter uit te breiden naar de toepassingsstack, kunnen organisaties beginnen met het soort inzicht en bedrijfsinformatie dat 'big data' altijd heeft beloofd, terwijl ze toch nieuwe applicaties efficiënt kunnen ontwikkelen, testen en implementeren..
Verouderingsdata maakt ons langzamer, niet slimmer; maar met de juiste infrastructuur op hun plek, kunnen de big data bogen op - mijn is groter dan die van jou - eindelijk een echte betekenis beginnen te krijgen.
- Iain Chidgey heeft meer dan 20 jaar ervaring in de IT-industrie en is momenteel de EMEA VP en General Manager van Delphix, een toonaangevende wereldwijde leverancier van Agile Data Management-platform voor ondernemingen overal ter wereld.