IT-infrastructuur faalt alsof de afgelopen twee decennia nooit zijn gebeurd / Nieuws

In de Griekse mythologie was koning Sisyphus een arrogante heerser die geloofde dat hij slimmer was dan Zeus. Als straf voor zijn overmoed had Sisyphus de opdracht een rotsblok in de onderwereld op een heuvel te duwen, alleen om hem uit zijn controle te laten rennen en terug naar beneden te rollen.

Op basis van recente downtime-gebeurtenissen in het datacenter, kunnen we alleen het proces beschrijven van het draaiende houden van de IT-infrastructuur als Sisyphean. Eigenaren en exploitanten van datacenters kijken herhaaldelijk toe hoe de rots uit zijn greep glijdt en de heuvel afloopt.

Bedrijven hebben de afgelopen twee decennia ononderbroken toegang tot IT-services nodig gehad. De meerderheid heeft dus de beste technische procedures, engineering en beheer toegepast om downtime-incidenten te voorkomen.

Bedrijven investeren miljarden dollars en ontelbare uren aan planning, oefeningen en voorbereiding op operationele paraatheid. En toch hebben de stilstandtijden de industrie nog steeds teisteren; de rots blijft rollen.

In de eerste maand van 2017 waren er alleen al acht grote uitval van IT-services.

Het punt van evaluatie van grote uitval van publieke IT-infrastructuur is niet om deze organisaties te schamen, maar om erop te wijzen dat iedereen, van industrieleiders als Amazon die trots zijn op hun veerkrachtstrategieën, kan overkomen bij kleine overheidsinstanties..

De redenen voor de uitval zijn zo vaak dezelfde problemen die zich steeds opnieuw manifesteren. De rode draad door deze evenementen, over bedrijven en dienstverleners heen, is voorkombaarheid. Deze bedrijven en sites hebben geïnvesteerd en voorbereid om omstandigheden af te weren die stroomuitval veroorzaken, en ze faalden. Fouten werden gemaakt.

Er zijn meer storingen geweest sinds deze lijst werd samengesteld, maar je kunt zien hoe in een enkele maand veel spraakmakende merken met kritieke online en digitale bedrijfsprocessen kreupel waren door fouten die onze industrie beweert twintig jaar geleden te hebben opgelost.

Waarom dalen bedrijven die hebben geïnvesteerd in meerdere niveaus van fysieke en logische redundantie nog steeds met de cijfers die we momenteel zien? Het is niet zo dat er geen normen, technologieën en processen zijn om downtime te voorkomen.

Deze fouten blijven optreden omdat preventief beleid en faalkluizen ondoeltreffend zijn geworden door menselijke fouten.

Niet alle rapporten bevatten de exacte redenen voor storingen, maar ten minste 40 procent van de downtime-incidenten waren te wijten aan stroomuitval. De meest elementaire functie van een datacenter in een onderneming is om dit exacte risico te beperken en het is nog steeds de belangrijkste oorzaak van downtime.

Ongeveer 30 procent van de problemen was te wijten aan netwerk- of softwarefouten. En slechts een handvol gebeurde vanwege “buitenissige ongelukken.” De afhaal is weer, de oorzaken van downtime waren verwacht en voorbereid, en ze gingen nog steeds naar beneden.

De conclusie van deze analyse is dat een groot percentage van deze kostbare incidenten niet hoefde te gebeuren. De problemen waren volledig te voorkomen - inclusief de twee grootste downtime-incidenten van het afgelopen jaar:

British Airways gooide een contractant in de datacentertechniek onder de bus om de verkeerde switch om te draaien, waardoor een stroompanne ontstond die honderden miljoenen dollars kostte. Maar waarom was een slecht opgeleide of onvoldoende voorbereide aannemer in die positie in de eerste plaats?

Toen Amazon grote klanten van over de hele wereld afsloeg, stelde het vast dat het incident werd veroorzaakt door een verkeerde sleutelbeweging van een technicus. Nogmaals, waarom plaatste die technicus zich in een positie waarin dat soort van trapsgewijze mislukking zelfs mogelijk was??

De industrie in het algemeen richt zich overdreven op “menselijke fout,” waarvan wij denken dat het een misleidende term is. Het is een managementfout wanneer iemand ongetraind of onbekend is met nood- en standaardprocedures, of hoe bepaalde modi van apparatuur moeten worden beheerd - geen menselijke fout.

De fout ligt bij de manager die deze situatie heeft toegestaan, niet de eerstelijnstechnicus die een situatie probeert op te slaan.

Uiteindelijk is de IT-infrastructuur van vandaag afhankelijk van een ecosysteem van providers en datacenters, activa die vaak op elkaar zijn gestapeld als een Jenga-toren. Als je een schijnbaar onbetekenende steun trekt, stort het geheel in.

En toch, laten we de verschillende reacties van de industrie vergelijken met deze recente uitval. Aan de ene kant heb je CEO's van luchtvaartmaatschappijen die eigenaar zijn van hun tekortkomingen in de Wall Street Journal en de New York Times.

Daarentegen beweerde 's werelds grootste leverancier van cloud computing dat het zo zelden daalt dat het niet wist hoe de grote stroomuitval moest worden verwerkt..

Eerlijk gezegd, zelfs het meest vluchtige niveau van internetonderzoek zou je vertellen dat de reactie wild onnauwkeurig is. En toch is het illustratief voor de manier waarop de hyperscale cloudproviders de onderneming bekijken - nemen of verlaten. En voor het grootste deel nemen mensen het.

Volgens de Data Centre Industry Survey van 2017, rapporteerde slechts acht procent van de respondenten dat hun uitvoerend management was minder bezorgd over uitval van IT-diensten dan een jaar geleden.

Dat betekent dat 92 procent van de infrastructuurbeheerders net zo bezorgd is, of zelfs meer, over de veerkracht en beschikbaarheid van hun organisatie. Toch blijft het aantal uitvallen onverminderd doorgaan. 25 procent van de respondenten meldde het afgelopen jaar een storing in de IT-service.

De afgelopen twee decennia hebben bedrijven die kei de heuvel opgedreven, wetend dat deze weer naar beneden zal vallen. IT-infrastructuur wordt steeds complexer, onderling afhankelijker en gefragmenteerder.

Er is geen eenvoudig antwoord dat op magische wijze zal verschijnen wanneer de hyperscales het grootste deel van de bedrijfs-IT hebben teruggebracht tot een spookstad van verouderde hardware. Deze bedrijven worden niet betaald om het risico van uw organisatie te beperken en te beheersen - dat is het geval.

Er zijn versleten praktijken die exec's kunnen implementeren om IT-infrastructuurrisico's succesvol te beheren, maar een goede eerste stap zou zijn om rekening te houden met de twee grootste uitdagingen voor onze sector:

· Ondanks decennia van training, investeringen en ervaring zijn crashes in het datacenter gebruikelijk, en gebeuren om dezelfde redenen als twintig jaar geleden. Gebrek aan aandacht voor detail, goed management en verantwoording resulteren in uitval over de hele wereld.

· Voortdurende goedkeuring van cloud computing en colocatie door IT-afdelingen van bedrijven maakt IT-systemen kwetsbaarder op ten minste de korte termijn, omdat onderling afhankelijke IT-assets worden beheerd onder verschillende serviceniveaus en investeringen, vaak met weinig aandacht voor perifere implicaties.

Omdat organisaties hybride IT-modellen blijven gebruiken, illustreren deze voorbeelden dat we beschikbaarheid niet als vanzelfsprekend kunnen beschouwen. IT-uitval is ongebreideld en volledig te voorkomen.

Dit stuk is deel één van de twee over infrastructuurfalen, lees deel twee om te leren over best practices die organisaties kunnen gebruiken om hun risico om een waarschuwend verhaal te worden, zoals die in het artikel van vandaag, te minimaliseren..

Matt Stansberry is de Uptime Institute Senior Director Content & Publications en de Program Director voor Uptime Institute Symposium
Lee Kirby is de president van Uptime Institute

Bekijk de beste dedicated servers