Amazon S3, il cloud sconfitto da un errore umano

Amazon S3, il cloud sconfitto da un errore umano

La corporation di Seattle spiega le ragioni del tracollo di una delle piattaforme cloud più popolari al mondo, imputando il disastro a un errore umano. In futuro non accadrà più, promette Amazon
La corporation di Seattle spiega le ragioni del tracollo di una delle piattaforme cloud più popolari al mondo, imputando il disastro a un errore umano. In futuro non accadrà più, promette Amazon

I disservizi della piattaforma Amazon S3 (Simple Storage Service) sono durati quasi cinque ore, hanno buttato giù un numero enorme di servizi, “app” e siti Web e hanno messo per l’ennesima volta in luce le debolezze strutturali del concetto di “always-on” su cui si basa il cloud computing. Stando a quanto spiega ora la corporation, però, l’origine del problema non è da ricercare nel cloud in quanto tale, bensì in un più prosaico errore umano .

Nel post-mortem dedicato all’interruzione di servizio nel data center della regione del Nord Virginia (US-EAST-1), Amazon imputa l’origine del problema a un team di tecnici impegnato nel debugging di un problema all’interno del sistema di fatturazione della piattaforma S3; una piccola porzione di server andava messa off-line, ma il comando inserito dai tecnici era incorretto ed è finito offline un numero di server superiore al previsto.

I server rimossi dalla rete giocavano a loro volta un ruolo di supporto per due altri sottosistemi S3, spiega ancora Amazon, e uno di questi era responsabile della gestione dei metadati e delle le informazioni di localizzazione di tutti gli “oggetti” S3 attivi nella regione. Una reazione a catena ha portato quindi al malfunzionamento dei servizi Web dipendenti dalla piattaforma, impossibilitati a richiamare i dati registrati sui server e ad eseguire task di base sullo storage.

I sistemi coinvolti hanno quindi dovuto eseguire un riavvio completo , e a quanto pare portare a compimento tale processo ha richiesto un tempo notevole; a peggiorare le cose c’è stata l’indisponibilità di altri servizi cloud di Amazon dipendenti da S3, inclusi EC2 e l’imbarazzante “luce verde” della Dashboard di AWS mentre in giro i siti Web morivano a milioni.

Chiedendo scusa per il disservizio e promettendo miglioramenti futuri, Amazon dice di aver imparato dai propri errori approntando meccanismi di salvaguardia aggiuntivi: la rimozione dei server S3 in caso di interventi tecnici sarà meno repentina, mentre la Dashboard di controllo sarà isolata rispetto al resto della piattaforma.

Alfonso Maruccia

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
3 mar 2017
Link copiato negli appunti