Виправлення помилок raid на контролерах 3ware (утиліта tw_cli)

Виправлення помилок RAID на контролерах 3ware


На одному з серверів встановлених в датацентрі сталася дивна ситуація - пропав диск =). Про всяк випадок машину перезавантажив - не допомогло. Довелося написати тікет, щоб погасили, висмикнули другий праворуч хот-сваповий диск, встромили на місце і включили. Диск з'явився, але, стан масиву було "DEGRADED". Контролер був від правильного виробника - 3ware (недавно їх купив убогий LSI, дуже хочу сподіватися що вони не стануть виробляти такі ж криві контролери.). Після години колупання з tw_cli. довелося просити IP-КВМ і запускати перезбирання з BIOS контролера - утиліту на бойову систему я ниасилил (багато вещщі робити було стрьомно - дока мізерна, а пропозиції з буржуйського сектора інету, типу зруйнувати масив для пересборки - довіри не вселяли). Просто так ребілдінг запускатися не хотів, лаючись на невірну конфігурацію диска який я намагався вставити на місце.
Загалом, через пару тижнів в руки потрапив такий же контролер і два однакових SATA диска. Вирішив розібратися, як же це зробити наживу.
Емулюючи проблему: висмикує з одного диска шнурок, прям на ходу. Гашу тазик, встромляють шнурок назад, включаю. Отримую то що і в датацентрі:

Дивимося рідної утилітою:

Обидва диска на місці, але - стан масиву і другого диска (який смикався) - зруйнований. В ДЦ я намагався відразу ж увіткнути диск на місце (до речі, в БІОС контролера це саме так і виглядає, мабуть, він ховає ланцюжок операцій з метою спрощення інтерфейсу)

Облом. Колупання в інтерент і спроби видалити масив (посилання на блог радив ідіота не даю, щоб бажаючих повторювати не знайшлося) ні до чого не привели:

(Команда дана з наміром помилкою, оскільки на Linux воно прокатує в сингл-моді.)
Після півгодини тикання / розкурювання man'a вийшла послідовність команд, що дозволяє пересобрать масив без фізичного доступу.
Для початку видаляємо деградованих диск:

Дивимося, що вийшло: