Збій Cloudflare паралізував інтернет через файл, який раптово подвоївся в розмірі

«Спершу ми помилково запідозрили DDoS-атаку, але згодом зупинили розповсюдження збільшеного файлу та замінили його попередньою версією», CEO Cloudflare Меттью Прінс у звіті після інциденту.
Проблема ускладнилася тим, що нова версія файлу генерувалася на кожному вузлі бази даних окремо, тож кожні п’ять хвилин система створювала або “хорошу”, або “погану” конфігурацію, яка миттєво поширювалася мережею. Це призвело до хаотичних коливань і масових HTTP-помилок 5xx на тисячах сайтів.
Відновлення після збою та вибачення компанії
Щоб стабілізувати систему, Cloudflare зупинила оновлення файлів, вручну додала перевірену версію та перезапустила основні проксі-сервіси. Відновлення зайняло понад дві години.
«Від імені всієї команди Cloudflare я хочу вибачитися за біль, який ми спричинили інтернету сьогодні. Жоден збій неприпустимий, з огляду на роль Cloudflare у світовій мережі». CEO Cloudflare Меттью Прінс
Що далі: як Cloudflare планує захищатися
Після інциденту компанія пообіцяла зміцнити захист внутрішніх систем:
- перевіряти внутрішні файли так само, як зовнішні дані користувачів;
- додати глобальні «kill switches» для аварійного відключення функцій;
- обмежити генерацію core dumps, які перевантажують ресурси;
- переглянути всі можливі сценарії помилок у проксі-модулях.
«Не можу гарантувати, що подібне ніколи не повториться, але кожен збій змушує нас будувати ще більш стійкі системи», CEO Cloudflare Меттью Прінс

