Che cosa si nasconde dietro l’interruzione di servizi fondamentali per il web come quelli offerti dai capaci datacenter di Google? In seguito a una “degradazione” generale delle appliance basate sull’infrastruttura App Engine avvenuta lo scorso febbraio, Mountain View ha analizzato la situazione e offre ora un resoconto abbastanza dettagliato su cosa è andato male , cosa non doveva succedere, e sul perché l’efficienza di recupero delle macchine è ancora meno importante della capacità degli uomini (in questo caso i tecnici in loco ) di reagire alle emergenze seguendo le procedure più indicate.
“Il 24 febbraio del 2010”, scrive l’App Engine Team sul gruppo ufficiale, “tutte le applicazioni basate su Googe App Engine si sono trovate in un stato operativo variamente degradato per un periodo di due ore e venti minuti” fino alle 18:09 ora di Greenwich.
La causa fondamentale del problema è stata individuata in una temporanea interruzione di corrente nel data center primario di Google e, sebbene l’infrastruttura sia progettata per risollevarsi in fretta in occasioni del genere, la “rarità” del problema in combinazione con i problemi riscontrati nell’interpretare le procedure interne ha esteso il periodo di durata del malfunzionamento.
La “rarità” del problema consiste nel fatto che le procedure di spostamento e ripristino del carico di lavoro verso centri sostitutivi prevedono che si verifichi uno stato di “general failure” riguardante la stragrande maggioranza delle macchine, mentre nel caso specifico l’interruzione di corrente ha impattato soltanto sul 25 per cento dei server presenti nel data center .
In occasione di questo peculiare incidente, i tecnici del centro si sono trovati a fronteggiare una situazione nuova senza avere regole specifiche da seguire, il che ha portato a una analisi erronea della situazione che ha a sua volta esteso oltremisura il periodo di “downtime”. Nel mezzo ci sono ovviamente capitati gli utenti, lesti a segnalare i problemi lato server, e costretti a subire la mancanza di coordinazione tra il personale più che l’ostracismo intransigente e capzioso dell’infrastruttura hardware.
Che fare, dunque, per evitare che capitino nuovi incidenti del genere? Google dice di aver approntato piani di ripristino in caso di fallimenti hardware parziali, oltre a nuove procedure di analisi che siano in grado di verificare se App Engine è in grado di funzionare lo stesso anche con una percentuale minoritaria di server offline .
Ma soprattutto, Mountain View ha messo in atto una pratica di “esercitazioni” regolari per lo staff messo di fronte a un ampio numero di necessità di intervento, senza dimenticare l’audizione bimestrale di tutti i documenti operativi. Grazie alla messa in atto delle nuove procedure, promette Google, l’incidente di febbraio sarebbe durato soltanto 20 minuti e avrebbe al massimo rallentato le applicazioni invece di mandarle tutte in crash.
Alfonso Maruccia