Una mattinata di ottobre che sembrava normale si è trasformata in un incubo digitale per milioni di utenti in tutto il mondo. Un grave guasto ai server di Amazon Web Services ha mandato in tilt una quantità impressionante di siti web, applicazioni, videogiochi e servizi online che dipendono dalla divisione cloud di Amazon per rimanere operativi.

La lista delle vittime illustri è lunghissima e include piattaforme popolari come Venmo, Snapchat, Canva, Fortnite, Roblox, Disney+, Apple Music, Pinterest, The New York Times e persino Alexa, l’assistente vocale di casa Amazon. Per diverse ore, navigare su internet è stato come tentare di attraversare un campo minato digitale, con servizi lenti, messaggi di errore e connessioni interrotte.

Secondo la pagina di stato dei servizi AWS, Amazon ha iniziato a indagare su “tassi di errore aumentati e latenze per molteplici servizi AWS” nella regione US-EAST-1, che comprende i data center della Virginia settentrionale, a partire dalle 3:11 del mattino ora locale di lunedì. Alle 5:01, i tecnici hanno identificato la causa del problema: un malfunzionamento nella risoluzione DNS delle API di DynamoDB, il database che conserva le informazioni per i clienti AWS.

Un effetto domino devastante

Alle 6:35 del mattino, AWS ha dichiarato di aver completamente mitigato il problema DNS e che la maggior parte delle operazioni dei servizi stava procedendo normalmente. Tuttavia, l’effetto a catena aveva già causato problemi significativi ad altri servizi AWS, in particolare EC2, il servizio di macchine virtuali su cui numerose aziende costruiscono le proprie applicazioni online. Alle 8:48, Amazon ha comunicato di star facendo progressi nella risoluzione del problema relativo al lancio di nuove istanze EC2 nella regione US-EAST-1, raccomandando ai clienti di non vincolare i nuovi deployment a specifiche zone di disponibilità per dare maggiore flessibilità al sistema nella scelta delle opzioni migliori.

La situazione è rimasta critica anche nelle ore successive. Alle 9:42, nonostante l’applicazione di “molteplici mitigazioni” attraverso diverse zone di disponibilità, AWS continuava a sperimentare “errori elevati per i lanci di nuove istanze EC2” e aveva implementato limitazioni di velocità per aiutare il recupero. Alle 10:14, l’azienda ha aggiunto di riscontrare “significativi errori API e problemi di connettività attraverso molteplici servizi nella regione US-EAST-1”. Anche dopo la risoluzione completa dei problemi tecnici, AWS si è ritrovata con un arretrato sostanziale di richieste da elaborare, allungando ulteriormente i tempi di recupero totale del sistema.

La fragilità di internet

L’ampiezza del disservio si spiega con un dato allarmante: moltissime aziende utilizzano la regione US-EAST-1 per i loro deployment AWS, motivo per cui lunedì mattina è sembrato che metà internet fosse crollata simultaneamente. A metà mattinata, un’infinità di siti web e servizi risultavano lenti o restituivano messaggi di errore.

Down Detector ha registrato picchi di segnalazioni per una vastissima gamma di servizi, tra cui banche, compagnie aeree, Lyft, Reddit e persino Wordle del New York Times, mettendo a rischio le preziose serie di vittorie consecutive degli appassionati. Piattaforme come Reddit hanno pubblicato propri aggiornamenti di stato senza menzionare esplicitamente AWS, ma è probabile che i percorsi dei servizi si incrociassero da qualche parte nelle pipeline infrastrutturali.

AWS offre caratteristiche estremamente vantaggiose per i clienti, come la capacità di scalare automaticamente la capacità di calcolo e server in base alle fluttuazioni del traffico, oltre a disporre di data center distribuiti in tutto il mondo. Questo tipo di infrastruttura risulta attraente per le aziende che servono un pubblico globale e necessitano di rimanere online ventiquattro ore su ventiquattro. A metà 2025, si stimava che la quota di mercato di AWS nell’infrastruttura cloud mondiale fosse del 30%, una concentrazione di potere digitale impressionante.