Un anno fa, un aggiornamento difettoso di una società di sicurezza informatica ha abbattuto ospedali, compagnie aeree, banche e uffici governativi in tutto il mondo.
Il 19 luglio 2024, Crowdstrike spinto Un aggiornamento al suo programma Falcon utilizzato dai computer di Microsoft Windows per raccogliere dati su potenziali nuovi metodi di attacco informatico.
L’operazione di routine si è trasformata in uno “schermo blu della morte” (BSOD) per circa 8,5 milioni di utenti Microsoft in quella che molti hanno considerato una delle più grandi interruzioni su Internet della storia.
Le ricadute hanno significato perdite finanziarie significative per i clienti di Crowdstrike, stimati in circa $ 10 miliardi (8,59 miliardi di euro).
“Non c’erano veri segnali di avvertimento che era probabile un incidente di questa natura”, ha detto a EuroneWS Steve Sands, membro del Chartered Institute.
“La maggior parte delle organizzazioni che si basano su Windows non avrebbero avuto alcuna pianificazione per soddisfare un tale evento”.
Ma cosa ha imparato Crowdstrike dall’interruzione e cosa possono fare altre aziende per evitare la prossima?
La sorveglianza “24 ore su 24” dell’ambiente IT necessario
Un anno dopo il crowdstrike, le interruzioni presso le banche e i “principali fornitori di servizi” suggerirebbero che la comunità della sicurezza informatica non è cambiata molto, secondo Eileen Haggerty, vicepresidente del prodotto e delle soluzioni presso la società di sicurezza cloud Netscout.
Finora quest’anno, un’interruzione di cloud da CloudFlare ha abbattuto Google Cloud e Spotify a giugno, modifiche all’autenticatore di Microsoft app ha portato a un’interruzione per migliaia di persone usando Outlook o Gmail a luglio e un difetto del software a Sentinelone cancellato Le reti critiche necessarie per mantenere in funzione i suoi programmi.
Haggerty ha affermato che le aziende devono avere visibilità per rispondere a possibili problemi del software prima che si verifichino avendo “monitoraggio 24 ore su 24” delle loro reti e del loro intero ambiente IT.
Haggerty suggerisce che i team IT conducono “test sintetici”, che simulano come un sito gestirebbe il traffico reale prima che una funzione critica fallisca.
Questi test fornirebbero alle aziende “la previsione vitale di cui hanno bisogno per anticipare i problemi prima ancora che abbiano la possibilità di materializzarsi”, ha aggiunto.
In un post sul blog, Microsoft ha affermato che sintetico monitoraggio non è ermetico e non è sempre “rappresentativo dell’esperienza utente”, perché le organizzazioni spesso spingono nuove versioni, che possono causare l’intero sistema instabile.
Il post sul blog ha aggiunto che può migliorare il tempo di risposta per correggere un errore una volta individuato.
Dopo che si è verificata un’interruzione, Haggerty suggerisce anche di costruire un deposito dettagliato di informazioni sul perché l’incidente è avvenuto in modo da poter anticipare eventuali sfide prima che diventino un problema.
Sands ha affermato che questi rapporti dovrebbero includere piani per la resilienza e il recupero, insieme a una valutazione di dove la società ha affidamento sulle società esterne.
Qualsiasi azienda che cerca di costruire con “resilienza” dovrebbe farlo il più presto possibile, poiché è difficile essere “imbullonato più tardi”, ha detto.
“Molte aziende avranno aggiornato i loro piani di risposta agli incidenti in base a ciò che è accaduto”, ha detto Sands.
“Tuttavia, l’esperienza ci dice che molti avranno già dimenticato l’impatto relativamente a breve termine e il caos causato e avranno fatto poco o nulla”.
Nathalie Devillier, an esperto All’europeo Cyber Centence Center, ha dichiarato a EuroneWS lo scorso anno che i fornitori di sicurezza europei e IT dovrebbero essere basati sullo stesso continente.
“Entrambi dovrebbero essere nello spazio europeo per non fare affidamento su soluzioni tecnologiche straniere che, come possiamo vedere oggi, hanno impatti sulle nostre macchine, sui nostri server, sui nostri dati ogni giorno”, ha detto al momento.
Cosa ha fatto lo stesso Crowdstrike dopo l’interruzione?
Crowdstrike ha detto in un recente Post di blog Questo mese ha sviluppato una modalità di auto-recupero per “rilevare anelli di arresto e … sistemi di transizione in modalità provvisoria”, di per sé.
Esiste anche una nuova interfaccia che aiuta i clienti dell’azienda ad avere una maggiore flessibilità nel testare aggiornamenti di sistema, come l’impostazione di piani di distribuzione diversi per sistemi di test e infrastrutture critiche in modo che non accada allo stesso tempo.
Una funzione di blocco dei contenuti consente inoltre ai clienti di bloccare le versioni specifiche dei loro contenuti e scegliere quando e come vengono applicati gli aggiornamenti.
Crowdsource ora ha anche un centro operativo digitale che secondo lui darà all’azienda una “visibilità più profonda e una risposta più rapida” a milioni di computer che utilizzano la tecnologia in tutto il mondo.
Conduce inoltre revisioni regolari del loro codice, processi di qualità e procedure operative.
“Ciò che ci ha definito non è stato quel momento, è stato tutto ciò che è venuto dopo”, ha detto George Kurtz, CEO di Crowdstrike Post di LinkedIn Questa settimana, osservando che la società è ora “fondata sulla resilienza, la trasparenza e l’esecuzione incessante”.
Mentre Crowdstrike ha apportato alcune modifiche, Sands ritiene che potrebbe essere “una richiesta impossibile” per evitare un’altra interruzione a quello stesso livello perché i computer e le reti “sono per loro naturale complesse con molte dipendenze”.
“Possiamo certamente migliorare la resilienza dei nostri sistemi da una prospettiva di architettura e progettazione … e possiamo prepararci meglio per rilevare, rispondere e recuperare i nostri sistemi quando si verificano interruzioni”, ha detto.
Image:Getty Images