I disservizi della piattaforma Amazon S3 (Simple Storage Service) sono durati quasi cinque ore, hanno buttato giù un numero enorme di servizi, “app” e siti Web e hanno messo per l’ennesima volta in luce le debolezze strutturali del concetto di “always-on” su cui si basa il cloud computing. Stando a quanto spiega ora la corporation, però, l’origine del problema non è da ricercare nel cloud in quanto tale, bensì in un più prosaico errore umano .
Nel post-mortem dedicato all’interruzione di servizio nel data center della regione del Nord Virginia (US-EAST-1), Amazon imputa l’origine del problema a un team di tecnici impegnato nel debugging di un problema all’interno del sistema di fatturazione della piattaforma S3; una piccola porzione di server andava messa off-line, ma il comando inserito dai tecnici era incorretto ed è finito offline un numero di server superiore al previsto.
I server rimossi dalla rete giocavano a loro volta un ruolo di supporto per due altri sottosistemi S3, spiega ancora Amazon, e uno di questi era responsabile della gestione dei metadati e delle le informazioni di localizzazione di tutti gli “oggetti” S3 attivi nella regione. Una reazione a catena ha portato quindi al malfunzionamento dei servizi Web dipendenti dalla piattaforma, impossibilitati a richiamare i dati registrati sui server e ad eseguire task di base sullo storage.
I sistemi coinvolti hanno quindi dovuto eseguire un riavvio completo , e a quanto pare portare a compimento tale processo ha richiesto un tempo notevole; a peggiorare le cose c’è stata l’indisponibilità di altri servizi cloud di Amazon dipendenti da S3, inclusi EC2 e l’imbarazzante “luce verde” della Dashboard di AWS mentre in giro i siti Web morivano a milioni.
Chiedendo scusa per il disservizio e promettendo miglioramenti futuri, Amazon dice di aver imparato dai propri errori approntando meccanismi di salvaguardia aggiuntivi: la rimozione dei server S3 in caso di interventi tecnici sarà meno repentina, mentre la Dashboard di controllo sarà isolata rispetto al resto della piattaforma.
Alfonso Maruccia