Amazon S3, il cloud sconfitto da un errore umano

I disservizi della piattaforma Amazon S3 (Simple Storage Service) sono durati quasi cinque ore, hanno buttato giù un numero enorme di servizi, “app” e siti Web e hanno messo per l’ennesima volta in luce le debolezze strutturali del concetto di “always-on” su cui si basa il cloud computing. Stando a quanto spiega ora la corporation, però, l’origine del problema non è da ricercare nel cloud in quanto tale, bensì in un più prosaico errore umano .

Nel post-mortem dedicato all’interruzione di servizio nel data center della regione del Nord Virginia (US-EAST-1), Amazon imputa l’origine del problema a un team di tecnici impegnato nel debugging di un problema all’interno del sistema di fatturazione della piattaforma S3; una piccola porzione di server andava messa off-line, ma il comando inserito dai tecnici era incorretto ed è finito offline un numero di server superiore al previsto.

I server rimossi dalla rete giocavano a loro volta un ruolo di supporto per due altri sottosistemi S3, spiega ancora Amazon, e uno di questi era responsabile della gestione dei metadati e delle le informazioni di localizzazione di tutti gli “oggetti” S3 attivi nella regione. Una reazione a catena ha portato quindi al malfunzionamento dei servizi Web dipendenti dalla piattaforma, impossibilitati a richiamare i dati registrati sui server e ad eseguire task di base sullo storage.

I sistemi coinvolti hanno quindi dovuto eseguire un riavvio completo , e a quanto pare portare a compimento tale processo ha richiesto un tempo notevole; a peggiorare le cose c’è stata l’indisponibilità di altri servizi cloud di Amazon dipendenti da S3, inclusi EC2 e l’imbarazzante “luce verde” della Dashboard di AWS mentre in giro i siti Web morivano a milioni.

Chiedendo scusa per il disservizio e promettendo miglioramenti futuri, Amazon dice di aver imparato dai propri errori approntando meccanismi di salvaguardia aggiuntivi: la rimozione dei server S3 in caso di interventi tecnici sarà meno repentina, mentre la Dashboard di controllo sarà isolata rispetto al resto della piattaforma.

Alfonso Maruccia

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech