Il 19 luglio 2024 sarà ricordato come un vero e proprio Black Friday per il mondo informatico, leggermente diverso dal famoso Black Friday in cui le persone possono fare acquisti con sconti molto pesanti.
Durante lo scorso venerdì sono accaduti ben tre problemi che hanno causato disagi di proporzioni globali, generando blocchi, disservizi e perdite economiche molto pesanti. Prima di iniziare a spiegare cos’è successo, il danno più grande lo hanno fatto molte testate giornalistiche, e giornalisti al seguito, che hanno riportato notizie ed informazioni molto errate. Per questo motivo ci siamo sentiti in dovere di spiegare meglio quanto accaduto.
Microsoft 365 Outage
Alle ore 01:00 (UTC) Microsoft ha aperto la issue MO821132, indicando il fatto che alcuni utenti potessero avere problemi ad accedere ai servizi, ed app, all’interno Microsoft 365.
La causa identificata dal team è stata la seguente: “A configuration change in a portion of our Azure backend workloads, caused interruption between storage and compute resources which resulted in connectivity failures that affected downstream Microsoft 365 services dependent on these connections.“
Il problema è rientrato alle 4:00 (UTC), anche se in modo randomico ci sono stati piccoli strascichi nelle ore successive. In Italia, per quello che abbiamo potuto notare noi, non ci sono stati impatti agli utenti.
Microsoft Azure Storage Outage
Tra giovedì e venerdì, la region Azure Central US ha avuto problemi legati alla componente di storage, causando il riavvio inaspettato delle macchine virtuali al loro interno. Un problema critico che ha portato diverse compagnie aeree, soprattutto americane, ad annullare e ritardare diversi voli.
La causa indentificata dal team è stata la seguente: “We are aware of this issue and have engaged multiple teams. We’ve determined the underlying cause. A backend cluster management workflow deployed a configuration change causing backend access to be blocked between a subset of Azure Storage clusters and compute resources in the Central US region. This resulted in the compute resources automatically restarting when connectivity was lost to virtual disks. Mitigation has been confirmed for all Azure Storage clusters, the majority of services are now recovered.“
Crowd….strike
Se questi due problemi sono stati gravi ma, in un certo senso, limitati non è niente in confronto a quanto accaduto nella mattinata di venerdì, in cui tutti i clienti CrowdStrike si sono trovati con tutti i client e server bloccati da un BSOD – la schermata blu di errore di Windows.
Ma cos’è successo? Alle 4:09 (UTC) CrowdStrike ha rilasciato un aggiornamento relativo a Falcon – la sua piattaforma di Security EDR. Questo update ha però inviato una configurazione errata – con file denominati “C-00000291-*.sys”, che hanno portato al blocco totale dei device. Le macchine coinvolte sono tutte quelle con a bordo Falcon for Windows 7.11 e che hanno ricevuto l’aggiornamento della configurazione tra le ore 4:09 e le 5:27 (UTC).
In modo errato, si è detto che il problema fosse il rilascio di un driver – cosa che ha fatto puntare il dito verso Microsoft – ma la società Texana ha tenuto a specificare che il crash è stato causato dal file CSAgent.sys.
Iniziato il polverone, il team di CrowdStrike si è subito messo all’opera per risolvere il problema, rilasciando un nuovo set di configurazioni, capaci di mitigare quanto accaduto, già alle ore 5:27 (UTC).
Un tempo rapido ma non abbastanza a fermare il blocco di quasi 9 milioni di client e server Windows in giro per il mondo, legati al mondo bancario, trasporti, finanziario e clienti di vario genere.
I sistemi operativi Microsoft colpiti sono stati quelli basati su Windows Server, Windows 10, Windows 11 sia on-premises che cloud, indipendentemente se fossero su Microsoft Azure, su AWS o Google Cloud; anche Windows 365 è stato coinvolto nella problematica.
La Soluzione
CrowdStrike ha, come detto, rilasciato delle firme aggiornate ed ha attivato il suo supporto tecnico pr supportare i propri clienti a risolvere il problema che, però, non è stato facile sistemare. Anche Microsoft, AWS e Google si sono messi in moto per fornire tool e soluzioni, atte a dare supporto ai propri utenti.
Ma allora perchè c’è voluto tanto per rimettere in pista tutta la macchina? Ci sono diverse motivazioni:
- Riuscire ad identificare le macchine colpite
- Mettere in pista un team di analisi problema e non farsi prendere dal panico (avete idea di che stress arriva nel sapere che hai tutto il tuo business fermo?)
- Identificare le macchine critiche da ripristinare, in ordine di priorità
- Avere abbastanza personale per sistemare i vari client e server
Lato cloud la risoluzione poteva essere messa a terra abbastanza facilmente, grazie alla documentazione che Microsoft, AWS e Google, hanno rilasciato per eseguire l’operazione in modo facile – ma che sempre tempo richiede.
Sul fronte on-premises, la parte server ha richiesto un lavoro molto intenso tra recupero dai backup e procedure di restore. Ma i client? Ecco il vero punto dolente: sì perchè la procedura di restore richiede l’intervento diretto sul dispositivo per poter eseguire quanto documentato da Microsoft – KB5042421: CrowdStrike issue impacting Windows endpoints causing an 0x50 or 0x7E error message on a blue screen – Microsoft Support – New Recovery Tool to help with CrowdStrike issue impacting Windows endpoints – Microsoft Community Hub.
Le compagnie aeree, le banche e la maggior parte delle aziende mondiali utilizzano Windows e quindi si può solo provare ad immaginare di dover correre in un’aeroporto a ripristinare 100 postazioni, con migliaia di persone in attesa di prendere il proprio volo, oppure rimettere a posto 400 PC sparsi in giro per la nazione.
Le Colpe
Anche se potrebbe essere scontato, non è tutta colpa di CrowdStrike.
Le aziende colpite, specie quelle grandi e con servizi critici, dovrebbero utilizzare device capaci di poter essere gestiti da remoto – usando magari Intel vPro – per consentire l’accesso remoto da parte del reparto IT / fornitori.
CrowdStrike è sicuramente l’indiziato numero uno ed colpevole di aver rilasciato un aggiornamento senza aver fatto i dovuti test, sottovalutando – sicuramente – la gravità dei danni che avrebbe potuto causare questa firma. Uno degli aspetti più gravi è che questo comportamento si sarebbe presentato in “Engine – 1” ed “Engine – 2”, della serie “non ci sarebbe stato niente da fare in nessun caso”.
Un anno fa, Microsoft commise un errore simile con Defender for Endpoint, rilasciando un aggiornamento che aveva cancellato i link di tutti i PC (icone sul desktop e start menù). Tuttavia, in tempi molto corti furono fatti dei cambiamenti nella gestione dell’installazione delle firme di MDE, consentendo agli IT Admin di avere 4 opzioni – così da dare la scelta alle aziende se installare gli aggiornamenti “subito” oppure con un delay di ore.
Ecco, se CrowdStrike avesse avuto un cosa simile, sicuramente il danno si sarebbe limitato moltissimo.
Puntare il dito verso Microsoft è stato l’errore più grande, perchè la responsabilità di chi fornisce il sistema operativo non può includere i software che ci girano attorno. Da questo punto di vista, grazie alla mala-informazione, nella giornata di venerdì abbiamo letto di tutto e di più.
Inoltre, ci si dimentica del passato e che tutte le piattaforme sono state colpite da problemi (nel 2023 Debian ebbe un problema serio al Kernel – VMware nel 2024 è stata oggetto di diversi bug di sicurezza), a dimostrazione che forse il problema è più nella mancanza di investimenti nel testare i rilasci, piuttosto che usare gli utenti come “cavie”.
Cosa Abbiamo Imparato?
8.7 milioni di device sono stati colpiti dal problema, corrispondente al 1% del totale dei dispositivi Windows installati al mondo. Tanto? Poco? Sicuramente molti dei settori più critici sono stati colpiti e sicuramente il danno d’immagine per molte aziende è stato incalcolabile.
Purtroppo è difficile che le aziende di software, anche le più piccole, impareranno qualcosa nel processo di rilascio. Ormai gli scenari di valutazione sono diventati troppi, quindi si preferisce fare il rilascio e “cross-finger”.
Quindi abbandoniamo CrowdStrike per altri lidi? Farsi prendere dall’impeto di quanto successo è pericoloso perchè, come detto, tutte le aziende non sono esenti da problemi.
Nel frattempo, l’azienda Texana ha rilasciato questo documento ufficiale nel suo blog – Falcon Content Update Remediation and Guidance Hub | CrowdStrike.
Aneddoto Divertente
Per chiudere questo articolo, vi lasciamo un piccolo aneddoto che vi farà sorridere. Nel 2010, un aggiornamento di McAfee causò un serio problema su tutte le macchine Windows XP. L’uomo che era CTO è oggi colui che è CEO di CrowdStrike, ovvero George Kurtz.