Il 7 dicembre si è verificato un problema tecnico per i server cloud di Amazon che ha rallentato o impedito l’accesso a numerosi servizi negli Stati Uniti, tra cui Netflix. Il blackout ha interessato la regione US-EAST-1, ovvero i data center situati in Virginia che garantiscono la connettività all’area nordest del paese. L’azienda di Seattle ha pubblicato un post per spiegare la causa.
AWS in panne, ecco il motivo
La maggioranza dei servizi e tutte le applicazioni dei clienti sono eseguiti all’interno della rete principale di AWS. Alcuni di essi, tra cui monitoring, DNS e autorizzazione, sono distribuiti in varie posizioni geografiche per garantire la scalabilità. I dispositivi di rete forniscono routing e NAT (Network Address Translation) aggiuntivi che consentono ai servizi AWS di comunicare tra la rete interna e la rete principale.
Alle 7:30 (ora locale) del 7 dicembre, un’attività automatizzata che incrementa la capacità di un servizio AWS ospitato nella rete principale ha innescato un “comportamento imprevisto“. Si è quindi verificato un aumento dei tentativi di connessione tra la rete principale e quella interna con il conseguente incremento della latenza e della congestione. Quest’ultima ha impedito ai tecnici di identificare rapidamente la fonte del problema attraverso il monitoraggio in tempo reale.
Gli operatori hanno quindi analizzato i log, scoprendo un numero elevato di errori DNS. Il team ha successivamente eliminato il traffico DNS dai percorsi di rete congestionati, isolato i dispositivi di rete interessati, disattivato alcuni servizi e incrementato la capacità di rete. Il problema è stato risolto alle 14:22 (ora locale).
In attesa del fix, che verrà rilasciato entro le prossime due settimane, Amazon ha disattivato le attività di scaling. Il problema ha impedito anche di aggiornare tempestivamente i clienti attraverso la Service Health Dashboard. L’azienda ha promesso miglioramenti per garantire una comunicazione più veloce e affidabile.