3:26 Прокинувся рано, сьогодні відповідальний день, необхідно вилучити сервер з датацентру для проведення повної профілактики.
3:32 Перевірив як йде перенесення основних ресурсів. Усе за планом. Фахівці не спали всю ніч, але ніч це єдиний час, коли немає великого навантаження на сервер і можна все перенести цілком безболісно.
5:20 Контрольна звірка. Даних накопичилося багато, до того ж на вихідному сервері барахлити жорсткі диски. Перенесення затягується.
6:37 Перенесення закінчений. Залишається перевірити цілісність даних і «згасити» сервер.
7:42 віддзвонили Азіз. Дані перенесені коректно, можемо їхати забирати сервер. Голос у нього втомлений, відчувається ніч напруженої роботи. Треба було виконати дещо які бюрократичні процедури в офісі датацентру. У них робочий день з 10 ранку, документи будуть готові не раніше 11. Відправив Азіза спати до 12. Сам взявся за гантелі.
8:42 Дзвінок від Азіза. 1/3 Казнет відключена йому надзвонюють клієнти, друзі, партнери все хочуть знати чому не працюють їх сайти і SaaaS сервіси. Відключений Chokolife значить не тільки в нашому датацентрі, але і у всьому будинку Транстелекома. Азіз просить дізнатися справжню причину. За інету повзуть чутки про теракт і інша нісенітниця. Обіцяю віддзвонитися, як все з'ясую.
8:43 Нікуди не дзвоню. З досвіду знаю, що зараз у всієї команди Інтернет компанії PS шквал дзвінків, відповідь швидше за все буде стандартним і реальної картини того, що відбувається не дасть. Так само знаю, що всі технічні фахівці на чолі з директором підняті по тривозі і зараз роблять все, щоб якомога швидше запустити сервери, дзвонити їм - значить відволікати від роботи і створювати додаткову нервозність. Повертаюся до гантелей.
9:47 Дзвоню Кіту (Микита Красулин директор хостинг-провайдера). Говоримо коротко і по справі. Причина аварії усунена, наслідки будуть виправлені протягом години максимум двох. Голос спокійний і впевнений, значить все під контролем.
11:10 Запрацювали сайти.
11:15 запустили система інформаційної безпеки SAFI.
11:22 Повністю відновлено роботу паркувальної системи.
11:35 Повна перевірка працездатності всіх наших сервісів. Все в порядку, збоїв немає, цілісність даних не порушена. Паралельно моніторю «сусідів» - kolesa.kz все ще "лежать".
12:20 В офісі датацентру. На подив тихо і спокійно. З'ясовуємо, що ще годину тому тут було справжнє пекло. Всі дзвінки з датацентру, де розташовується техпідтримка, були переведені в офіс до відділу продажів. Всі менеджери, підняті по тривозі, були на свіх місцях вже через півгодини після аварії і взяли на себе основну «атаку» клієнтів. Таким чином «технарі» були звільнені від дзвінків і могли зосередиться на усунення неполадок.
12:51 Датацентр. Зазвичай тут порожньо, але в цей раз було кілька людей. Всі діяли без суєти, але досить швидко. Ми теж не стали возиться. Сервер «загасили» з мобільного, піднімаючись по сходах. Витягли з стійки і попрямували до виходу.
13:07 Біля виходу з будівлі сталася заминка, охорона ретельно перевіряла документи. Тут то все і з'ясувалося. За словами очевидця сталося наступне:
О 8:10 пропала напруга у всій системі електропостачання датацентру. При цьому в центральній електромережі напруга залишилося. Таким чином виходило, що у всьому будинку світло було, а в датацентрі немає, що само по собі нонсенс, тому що має бути навпаки.
Електропостачання в датацентрі побудовано таким чином, що при будь-яких ситуаціях електрику в нього повинно надходити. У разі вимкнення електропостачання в датацентрі запускається дизельний електрогенератор і серверна забезпечується напругою автономно від всієї будівлі.
Причиною аварії стала сама система захисту від збоїв електропостачання. Джерело безперебійного живлення забезпечує безперервність подачі електрики в момент переходу від центрального електропостачання до автономного. Саме він і вийшов з ладу.
1/3 Казнет зникла в одну мить через звичайного UPSа.
За годину UPS полагодили, на усунення наслідків пішло ще 2 години.
На момент коли ми вийшли з будівлі датацентру, Казнет вже жив звичайним життям.
14:36 Почали профілактичні роботи по серверу. Жорсткі диски йдуть на заміну. Причина швидкого зносу - відсутність кеша в контролері.
15:10 Замовили новий контролер на eBay.
3:47 Підйом, сьогодні відповідальний день. Обіцяв друзі написати статтю про те, що сталося в Казнет.
3:52 Вибрав стиль особистого щоденника, для опису подій.