Жил да был в одной огранизации один сервер по имени HP ProLiant D580, стоял себе и работал - базой данных ворочал да транзакции гонял. А надо сказать что вся та организация построена была вокруг этих транзакций, то есть как говорят буржуи - mission critical сервер был. Поэтому-то и взяли этакого монстра по цене самолета, а не что попроще. И казалось всем, что он всегда был - не осталось во всей организации никого, кто бы работал дольше этого сервера - еще бы, 10 лет ему недавно стукнуло. Выключали его за это время раза 3 - один раз организация переезжала, один раз питание надолго отключали, а про третий уже и не помнит никто. И вот в один не очень прекрасный момент снова отключили свет, причем без предупреждения. А пока выясняли стандартные бюрократические вопросы - кто поедет, где ключи, кто охране звонить будет и прочая - сервер доел батарейки бесперебойника и тихо выключился.
Приезжают к серверу сотрудники той организации, везде свет горит - значит дали уже! - а сервер не работает. Они ему пимпочку ТЫЦ - а он НЕ ВКЛЮЧАЕТСЯ. Говорит три долгих БИИИП - и все.
Но это же знаменитые, известные всем своей поддержкой серверы HP! Звонят значит скорбные владельцы приболевшего сервера в саппорт, так мол и так, не включается. Саппорт им бодро говорит - "привозите, починим". "Привозите? А сколько займет ремонт?" - интересуются ошарашеные владельцы. "Не больше месяца", уверенно отвечает саппорт. "На месяц остановить работу всей организации? Да нам же закрываться придется, нас же конкуренты съедят!" - стонут владельцы. "Мы за конкурентов не отвечаем, мы можем сервер починить если привезете" - отвечает саппорт.
Вот такую историю поведали мне вчера утром, уговаривая приехать и посмотреть этот "сервер высокой доступности, горячая замена всего, все дела - а включаешь и не работает".
Перед поездкой нагугливаю сервис-мануал от этого сервера - не знаком я с ними, как огня старался избегать "фирменных серверов" по своим внутренним причинам. Так вот, сервис мануал ничего не знает про 3 длинных БИИП! Два длинных или один длинный один короткий это пожалуйста, да и то у этих сигналов такое множество причин возникновения, что толку от этих БИИП и нет вовсе.
Приехав и сняв крышку, обнаруживаю под ней штуковину с двумя 7-сегментными индикаторами с гордым названием QuickFinder, на которых горит номер ошибки 40. Ладно хоть не 42
Пытаюсь нагуглить причину этой ошибки... Нда, не так уж часто удается увидеть всего 2 страницы результатов поиска гугля. Из которых 3/4 найденного вообще никак не относятся к делу.
Но пара результатов была в тему - два импортных форума, на которых совпадала причина происхождения этой ошибки 40: неисправность памяти. Опс...
А надо сказать что память в этом сервере это не обыкновенные всем привычные DIMM модули - нет, это устройства размером с литровый тетрапак, допускающие горячую замену, и уже в них установлены DIMM модули - но опять же не простые, а регистровые ECC. И запасных ни блока памяти, ни DIMM к ним у организации нет, потому что и так сервер стоил как самолет...
Пытаемся пошевелить модули памяти, поставить в другие слоты - безрезультатно.
Звоним в саппорт. Да, модули они могут привезти - под заказ, срок доставки 3 недели. И тут попадалово?!
Владелец поломатого сервера предлагает попытаться перенести софт на другой комп, благо сейчас производительность самой дешевой платы на Атоме не хуже. Едем ко мне, и в куче старого хлама таки находится контроллер UW SCSI 320 - то есть диски мы считаем. Возвращаемся к серверу, втыкаем контроллер и серверный диск в первый свободный комп - и нас ждет жесточайший облом. Имя ему - RAID5: 4 диска сервера объединены в единый массив, и уже он отдается контроллером в виде отдельных дисков. А при чтении другим контроллером, который не знает, где именно контроллер поломатого сервера что хранил и как именно были нарезаны куски, вместо файловой системы видны только какие-то огрызки... Так что даже если мы найдем в точности такой же контроллер, мы не узнаем настройку, а значит придется играть в угадайку и не факт что получится добраться к данным. (Кстати, я всегда говорил, что RAID5/6 на аппаратном контроллере это опасное кроилово, которое приведет к попадалову! RAID1 и без контроллера прекрасно читается, и даже RAID10 восстановить дело пары минут. Вот софверный RAID5/6 с метаданными на каждом из дисков - там да, таких проблем нет, и массив поднимется при переносе дисков в любую машину с той же ОС).
Бакап? Он конечно делался, но складывался на... другой диск того же сервера! И с его доставанием в точности такие же проблемы.
Сидим, идей ноль.
Но постойте, как память могла сдохнуть при штатном шатдауне с бесперебойника? Что-то тут не так!
Массивное гугленье не принесло никаких результатов, настала пора шаманства. Будем рассуждать логически - что могло поплохеть в сервере за 10 лет? Диски с вентиляторами крутятся - не оно, конденсаторы на процессорах - на глаз нормальные, батарейка... ААА, БАТАРЕЙКА на системной плате! Прошу у представителя организации новую батарейку - нету, и почти полчаса уходит на ее покупку в ближайшем ларьке. Ставим, и... никаких изменений, та же ошибка 40. Вот только показалось мне, что последовательность появления мелькающих цифирей на оном индикаторе чуточку поменялась...
Стоп! а почему и кроватки DIMM-модулей, и слоты для блоков памяти пронумерованы? Не означает ли что ставить память нужно в определенной последовательности?! Быстро переставляем память на исходное положение, пимпочка, секунда паники на отображение цифры 40 индикатором - и сервер стартует!
В ретроспективе все оказалось предельно ясно - пока сервер работал батарейка потихоньку садилась, и постепенно села настолько что при очередной загрузке контроллер что-то не смог где-то прочитать. Но как говорится, хоть сервер и заработал но осадок остался, и появилось несколько вопросов.
- Зачем нужен сервис-мануал, если в нем не описаны ВСЕ возможные сообщения об ошибках?
- Неужели в сервере ценой в самолет нельзя предусмотреть диагностику этой злосчастной батарейки?
- Зачем нужен этот QuickFind если нет информации по его ошибкам?
- Почему память, диски и даже материнская плата "горячей замены", а для замены батарейки требуется разобрать пол-сервера?
- Почему саппорт не спрашивает у всех "батарейку поменяли?", зная что реакция на ее отсутствие неадекватная?
- За что люди платят такие бабки, если самосбор на интелевских серверных комплектующих работает ничуть не хуже, и прекрасно стартует без батарейки?
- Может лучше брать 3 более дешевые машины одинаковой конфигурации, и при проблемах просто менять части?
- Теперь "я ненавижу HP!" - а вы?
PS. особенно повеселило сравнение конфигурации этого сервера. Одноядерный Пень4 на 2ггц, 1гб памяти, 36гб жесткие диски... Сервер? - да сейчас почти любой сотовый телефон мощнее!
Отзыв: 0 0
Надеюсь у ОРГАНИЗАЦИИ хватит ума заменить этот "сервер" ноутбуком (уж за "системник" современный молчу) ! :)
Отзыв: 0 0
Ноутом - не получится. К серверу подключена по оптокабелю корзина из 48 SCSI 15k накопителей, обеспечивающая просто сумасшедшую скорость ввода-вывода - что востребовано, ибо БД сейчас под 300гб и сотня (входящих!) запросов в секунду. Чтоб пересадить контроллер этой корзины нужен разъем PCI-64 на маме, а такое только в серверных мамах бывает. Самый простой серверный самосбор на интелевских комплектующих уходит за штуку баксов - а зачем их тратить, ежели и этот [censored] справляется?
ЗЫ. Современный SSD в течение ~месяца может заменить эту корзину, но это годится только в роли временного резерва.