IT-infrastructuur faalt alsof de afgelopen twee decennia nooit zijn gebeurd - deel 2
NieuwsIn deel 1 van deze serie hebben we gekeken naar recente uitval van datacenters en de redenen waarom deze zijn opgetreden “waarschuwende verhalen” kwam te geschieden. Laten we nu praktische tips bespreken voor het minimaliseren van het risico van storingen in bedrijfskritieke infrastructuur.
Weg met misvattingen
Menselijke fouten en / of uitval van apparatuur wordt vaak genoemd als de oorzaak van veel uitval van technische systemen, maar deze elementen veroorzaken meestal niet echt grote rampen. Het zijn eerder symptomen van een groter probleem - slecht beheer en operationele praktijken.
Leiderschapsbeslissingen en -prioriteiten die resulteren in een gebrek aan adequaat personeel en opleiding, een organisatiecultuur die gedomineerd wordt door “brand oefeningen,” of bezuinigingen die het noodzakelijke onderhoud verminderen, kunnen resulteren in pervasieve storingen die van bovenaf vloeien.
Hoewel operatorfouten in de frontlinie soms een incident lijken te veroorzaken, is een enkele fout (net als bij een enkele datacentercomponentfout) meestal niet voldoende om een robuust complex systeem op de knieën te krijgen - tenzij het systeem al wankelt op de rand van kritieke mislukking als resultaat van talrijke onderliggende risicofactoren.
Het is waar dat kwetsbaarheden aanwezig zijn in zelfs de best ontworpen datacenters. Bedrijven met complexe IT-systemen bestrijden het faalrisico met meerdere beschermingslagen en back-up. Dus nogmaals, wanneer IT-storingen plaatsvinden, is dit niet te wijten aan een gebrek aan back-upsystemen of een bepaald probleem, het is een aanwijzing voor slecht beheer.
Catastrofale datacenter-incidenten zoals die we in 2017 zagen, zijn te vermijden als organisaties hun infrastructuur volgens industrienormen ontwerpen, met redundantie en andere preventieve maatregelen ingebakken, en strenge best practices voor management en operations implementeren.
Elk bedrijf moet grondige mislukkinganalyses uitvoeren en de geleerde lessen toepassen bij het ontwikkelen en verfijnen van hun programma, zodat bedrijfskritieke faciliteiten op de lange termijn veerkrachtig en succesvol worden. De reactiesnelheid, bekendheid en naleving van gedocumenteerde procedures door elke organisatie zijn essentieel voor het evalueren van de prestaties.
Praktische overwegingen voor het minimaliseren van risico's
In de afgelopen 20 jaar heeft het Uptime Institute operationele beoordelingen uitgevoerd bij honderden datacenterfaciliteiten en heeft het belangrijke managementtekorten geïdentificeerd die het risico vergroten.
Veel datacenterprogramma's - zelfs rigoureuze operaties die succesvol zijn geweest - zijn onderhevig aan verschillende risico's en kunnen worden verbeterd door voortdurende beoordeling en ontwikkeling.
Neem even de tijd om uw programma met een objectief oog te bekijken; als u ja kunt antwoorden op een van de volgende vragen, is er mogelijk een crisis in managementstrenge:
· Zijn voicemailboxen van datacenters vol, e-mails niet gereageerd, limiet e-mailinbox is overschreden?
· Worden kritieke vergaderingen gemist of routinematig geannuleerd?
· Maakt uw datacenter-team melding van een gebrek aan tijd voor training?
· Zijn er wat gefluister over een mogelijk tekort aan gekwalificeerd personeel??
· Zijn bepaalde teamleden die hun werk uitvoeren buiten hun competentie om?
· Heeft uw personeel een hoog personeelsverloop??
· Heeft onderhoud het budget overschreden? Hoe zit het met schattingen van energiekosten?
· Lijkt de achterkant van uw servers of kabelgootjes op een spaghetti-pot die is opgeblazen??
· Baren uw apparatuur en bekabeling geen duidelijke labelsystemen?
Het kan relatief eenvoudig zijn om andere onderliggende risicofactoren te bepalen die door het management onbeantwoord blijven. Loop door uw faciliteit en stel uzelf deze vragen om ervoor te zorgen dat de juiste processen en documentatie aanwezig zijn:
· Zijn er brandbare materialen op de verhoogde vloer, in de batterijruimte of in de elektrische ruimtes? Alle inkomende apparatuur moet buiten de kritieke ruimte worden ontdaan van verpakkingen.
· Zijn niet-gerelateerde items - kantoormeubilair, stellingkasten, gereedschappen - opgeslagen in kritieke ruimte? Dit is een kwestie van brand, veiligheid en besmetting.
· Hebben brandblussers op het terrein verouderde tags??
· Wanneer heeft u voor het laatst een huishoudbeleid en procedurele documentatie doorgenomen??
· Als de installatie op een verhoogde vloer werkt, wat is dan de toestand van een ondervloerplenum? Dit gebied moet regelmatig worden schoongemaakt - vraag om het schema te bekijken.
· Hoeveel werknemers hebben toegang tot de kritieke ruimte? Heeft uw organisatie zelfs een toegangsbeleid voor personeel??
· Worden niet-doorgelichte individuen toegestaan in kritieke gebieden? Vraag om de vereisten voor het inchecken en de training van leveranciers te bekijken; niet-doorgelichte personen mogen nooit worden toegestaan.
· Zijn panelen, schakelborden en kleppen voorzien van een label om aan te geven “normaal” operationele posities?
· Is de markering van boogassen op alle panelen en PDU's geïnstalleerd??
Meer dan een decennium lang hebben de koelprocedures van datacenters opgedrongen tot isolatie van de luchtstroom - koele lucht aan de voorkant van een rack met IT-apparatuur en hete lucht die aan de achterkant was uitgeput.
In een verhoogde vloeromgeving worden rijen apparatuur typisch gerangschikt in een Hot Aisle - Cold Aisle-configuratie, waarbij geperforeerde tegels koele lucht naar de koude gang of serverinlaten leveren.
Houd bij het beoordelen van de koelprocedures van uw organisatie rekening met de volgende indicatoren voor een slecht beheer van de bypass-luchtstroom. Deze factoren kunnen resulteren in verhoogd risico, inefficiëntie van koeling, verspild geld en een slechte naleving van de beste werkwijzen van key management:
· Er zijn geraspte of geperforeerde panelen in de Hot Aisle.
· Er zijn niet-gesloten uitsparingen in de verhoogde vloer.
· Er zijn ondekte hiaten in de racks tussen IT-hardware.
Hier zijn enkele andere belangrijke stappen die kunnen helpen bij het identificeren van elementen van uw datacenter die slechte beheersprocedures en verhoogd risico op downtime vormen:
· Vraag om gegevens en schema's te bekijken voor onderhoudswerkzaamheden aan batterijen, motorgeneratoren en mechanische systemen.
· Lees documentatie over personeelszaken - overuren van meer dan 10 procent kunnen leiden tot een toename van menselijke fouten, wat de kans op een storing groter kan maken. Zijn rollen en verantwoordelijkheden gedocumenteerd? Zijn kwalificaties vermeld?
· Vraag om een lijst met preventieve onderhoudsactiviteiten te zien. Zijn de activiteiten volledig geschreven? Wat is het kwaliteitscontroleproces?
· Ontdek wie de kritische documentatie over apparatuur bewaart, inclusief garantie-informatie, onderhoudsrecords en prestatiegegevens.
· Herlees uw proces voor het onderhouden van de referentiebibliotheek (personeel, uitrusting, onderhoud, procedures en scripts).
· Analyseer de trainingsregistratie, het jaarbudget en de tijdverdeling van uw team.
Organisaties blijven verschillende nieuwe IT-modellen gebruiken om de steeds groeiende afhankelijkheid van technologie en gegevens in moderne bedrijven aan te pakken. Als zodanig is beschikbaarheid nog nooit zo belangrijk geweest.
Hoewel het vrijwel onmogelijk is om de siteprocessen, procedures en site-cultuur van een organisatie perfect te laten zijn, blijven succesvolle IT-infrastructuurteams hypergecentreerd op het voorkomen van falen..
Dit houdt in dat u te allen tijde waakzaam moet blijven en voortdurend de hierboven genoemde overwegingen moet aanpakken (en opnieuw moet aflezen) om verborgen kwetsbaarheden in uw IT-activiteiten op te sporen, die kunnen dienen als basis voor productieve gesprekken over verandering en verbetering. Het feit dat uw instelling nog geen incident heeft meegemaakt, betekent niet dat het immuun is.
Een solide toewijding aan uitmuntendheid op het gebied van management en operations kan een enorme impact hebben op de prestaties van uw IT-infrastructuur, dus stel de moeilijke vragen en bedek al uw bases om vermijdbare uitval te elimineren.
- Lee Kirby is de president van Uptime Institute
- Matt Stansberry is senior director van content & publications bij Uptime Institute
- Bekijk de beste dedicated servers