Justo antes de la 1:00 am, hora local, el viernes, un administrador del sistema de una empresa de la costa oeste que maneja servicios funerarios y de morgue se despertó de repente y notó que la pantalla de su computadora estaba iluminada. Al revisar su teléfono empresarial, estalló con mensajes sobre lo que sus colegas llamaban un problema de red. Su infraestructura completa estaba caída, amenazando con alterar los funerales y entierros.
Pronto se hizo evidente que la gran disrupción fue causada por la interrupción de CrowdStrike. La firma de seguridad causó accidentalmente caos en todo el mundo el viernes y durante el fin de semana después de distribuir software defectuoso a su plataforma de monitoreo Falcon, paralizando aerolíneas, hospitales y otros negocios, tanto pequeños como grandes.
El administrador, que pidió permanecer en el anonimato porque no está autorizado a hablar públicamente sobre la interrupción, se puso en acción. Terminó trabajando casi 20 horas, conduciendo de una morgue a otra y reiniciando docenas de computadoras en persona para resolver el problema. La situación era urgente, explica el administrador, porque las computadoras necesitaban volver a estar en línea para que no hubiera interrupciones en la programación de servicios funerarios y la comunicación de la morgue con los hospitales.
“Con un problema tan extenso como el que vimos con la interrupción de CrowdStrike, tenía sentido asegurarnos de que nuestra empresa estuviera lista para poder atender a estas familias, para que pudieran pasar por los servicios y estar con sus seres queridos,” dice el administrador del sistema. “La gente está de luto.”
La actualización defectuosa de CrowdStrike dejó inservibles unos 8.5 millones de computadoras Windows en todo el mundo, enviándolas a la temida espiral de la Pantalla Azul de la Muerte (BSOD). “La confianza que construimos en gotas a lo largo de los años se perdió en cubos en pocas horas, y fue un golpe duro,” escribió Shawn Henry, director de seguridad de CrowdStrike, en LinkedIn temprano el lunes. “Pero esto palidece en comparación con el dolor que hemos causado a nuestros clientes y socios. Fallamos a las mismas personas que nos comprometimos a proteger.”
Las interrupciones de plataformas en la nube y otros problemas de software, incluidos ataques cibernéticos maliciosos, han causado grandes interrupciones de TI y un caos global en el pasado. Pero el incidente de la semana pasada fue particularmente notable por dos razones. Primero, se originó de un error en un software destinado a ayudar y defender redes, no a dañarlas. Y segundo, para resolver el problema se requería acceso directo a cada máquina afectada; una persona tenía que arrancar manualmente cada computadora en el Modo Seguro de Windows y aplicar la solución.
La informática a menudo es un trabajo poco glamoroso y desagradecido, pero el fiasco de CrowdStrike ha sido una prueba de otro nivel. Algunos profesionales de TI tuvieron que coordinar con empleados remotos o múltiples ubicaciones a través de fronteras, guiándolos a través de reinicios manuales de dispositivos. Un administrador de sistema junior en Indonesia para una marca de moda tuvo que descubrir cómo superar las barreras del idioma para hacerlo. “Fue desalentador,” dice.
“No nos notan a menos que algo malo esté ocurriendo,” dijo un administrador de sistemas en una organización de salud en Maryland a WIRED.
Esa persona fue despertada poco antes de la 1:00 am EDT. Las pantallas en los sitios físicos de la organización se habían vuelto azules y no respondían. Su equipo pasó varias horas de la madrugada restaurando servidores en línea, y luego tuvo que salir a arreglar manualmente más de 5,000 otros dispositivos dentro de la empresa. La interrupción bloqueó llamadas telefónicas al hospital y alteró el sistema que dispensa medicamentos; todo tuvo que ser escrito a mano y llevado a la farmacia a pie.
Fuente y créditos: www.wired.com
Cats: Business