Че там с CrowdStrike?
В своей рассылке, автор The Pragmatic Engineer, пишет что-то в стиле: "если вы не находились в пещере, то явно уже слышали об инциденте с CrowdStrike/Microsoft". Однако, как оказалось, довольно много людей на самом деле не слышали об этом, а из тех кто слышал - многие не до конца понимают сути. Поэтому я решил вмешаться и поведать вам о сложившейся ситуации - красочно, в свойственном мне стиле (и вдохновившись манерой Гергели).
Итак, что произошло? В прошлую пятницу, Американская компания по "кибербезопасности" (или шпионажу?) CrowdStrike, выпустила обновление для своих клиентов под Windows. Однако, в обновлении был дефект, который приводил к отказу все компьютеры, на которые он попадал - около 8 миллионов. Надо отметить, что в числе клиентов этой компании было очень много важных и инфраструктурных объектов по всему миру - банковские системы, авиация, медицина, государственные службы (и даже магазины). В результате - наша планета была частично парализована (а чего вы хотели, мыж так сильно зависим от технологий). Этот инцидент уже считают самым крупным сбоем в истории - по оценкам, он уже превышает 5млдр долларов в убытках.
В чем причина? Ребята запушили файл конфигурации сразу на все свои клиенты (так не надо делать). В файле была логическая ошибка - инструкция переносить байты памяти из одного адреса в другой, однако финальный адрес был указан неверно (не существовал). Ошибка сразу вызывала сбой и знаменитый Синий Экран Смерти на виндоусах (MacOS / Linux-ы не были затронуты, изза этого частично, кто-то начал катить бочку на Майкрософт). Решалась проблема довольно прозаично - нужно было руками зайти на каждый компьютер в безопасном режиме и удалить испорченный файл в системе (позже придумали способы ускорить и автоматизировать это дело, но было уже поздно).
Кто виноват? Тут оч много вопросов и претензий к CrowdStrike. В первую очередь - тесты, почему эта вещь не тестировалась? А если тестировалась, почему никто у них в компании не заметил такую небольшую вещь, как ПОЛНЫЙ ОТКАЗ ОПЕРАЦИОННОЙ СИСТЕМЫ? Почему релиз был сразу на все клиенты, а не постепенно? Почему люди не учатся на собственных ошибках - CrowdStrike уже были замешаны в других подобных сбоях.
Собственно, очередной урок всем софтверным инженерам - тестируйте свой код, любые запуски в продакшен делайте с осторожностью и заранее имея план "как все быстро исправить" (особенно если ваш продукт является таким критически важным). Как говорил Питер Паркер: "With great power, comes great responsibility!".
В своей рассылке, автор The Pragmatic Engineer, пишет что-то в стиле: "если вы не находились в пещере, то явно уже слышали об инциденте с CrowdStrike/Microsoft". Однако, как оказалось, довольно много людей на самом деле не слышали об этом, а из тех кто слышал - многие не до конца понимают сути. Поэтому я решил вмешаться и поведать вам о сложившейся ситуации - красочно, в свойственном мне стиле (и вдохновившись манерой Гергели).
Итак, что произошло? В прошлую пятницу, Американская компания по "кибербезопасности" (или шпионажу?) CrowdStrike, выпустила обновление для своих клиентов под Windows. Однако, в обновлении был дефект, который приводил к отказу все компьютеры, на которые он попадал - около 8 миллионов. Надо отметить, что в числе клиентов этой компании было очень много важных и инфраструктурных объектов по всему миру - банковские системы, авиация, медицина, государственные службы (и даже магазины). В результате - наша планета была частично парализована (а чего вы хотели, мыж так сильно зависим от технологий). Этот инцидент уже считают самым крупным сбоем в истории - по оценкам, он уже превышает 5млдр долларов в убытках.
В чем причина? Ребята запушили файл конфигурации сразу на все свои клиенты (так не надо делать). В файле была логическая ошибка - инструкция переносить байты памяти из одного адреса в другой, однако финальный адрес был указан неверно (не существовал). Ошибка сразу вызывала сбой и знаменитый Синий Экран Смерти на виндоусах (MacOS / Linux-ы не были затронуты, изза этого частично, кто-то начал катить бочку на Майкрософт). Решалась проблема довольно прозаично - нужно было руками зайти на каждый компьютер в безопасном режиме и удалить испорченный файл в системе (позже придумали способы ускорить и автоматизировать это дело, но было уже поздно).
Кто виноват? Тут оч много вопросов и претензий к CrowdStrike. В первую очередь - тесты, почему эта вещь не тестировалась? А если тестировалась, почему никто у них в компании не заметил такую небольшую вещь, как ПОЛНЫЙ ОТКАЗ ОПЕРАЦИОННОЙ СИСТЕМЫ? Почему релиз был сразу на все клиенты, а не постепенно? Почему люди не учатся на собственных ошибках - CrowdStrike уже были замешаны в других подобных сбоях.
Собственно, очередной урок всем софтверным инженерам - тестируйте свой код, любые запуски в продакшен делайте с осторожностью и заранее имея план "как все быстро исправить" (особенно если ваш продукт является таким критически важным). Как говорил Питер Паркер: "With great power, comes great responsibility!".