Skip to content
 

Какой же Хьюлет этот Паккард!

Жил да был в одной огранизации один сервер по имени HP ProLiant D580, стоял себе и работал - базой данных ворочал да транзакции гонял. А надо сказать что вся та организация построена была вокруг этих транзакций, то есть как говорят буржуи - mission critical сервер был. Поэтому-то и взяли этакого монстра по цене самолета, а не что попроще.  И казалось всем, что он всегда был - не осталось во всей организации никого, кто бы работал дольше этого сервера - еще бы, 10 лет ему недавно стукнуло. Выключали его за это время раза 3 - один раз организация переезжала, один раз питание надолго отключали, а про третий уже и не помнит никто. И вот в один не очень прекрасный момент снова отключили свет, причем без предупреждения. А пока выясняли стандартные  бюрократические вопросы  - кто поедет, где ключи, кто охране звонить будет  и прочая - сервер доел батарейки бесперебойника и тихо выключился.proliant_dl580

Приезжают к серверу сотрудники той организации, везде свет горит - значит дали уже! - а сервер не работает. Они ему пимпочку ТЫЦ - а он НЕ ВКЛЮЧАЕТСЯ. Говорит три долгих БИИИП - и все.

Но это же знаменитые, известные всем своей поддержкой серверы HP! Звонят значит скорбные владельцы приболевшего сервера в саппорт, так мол и так, не включается. Саппорт им бодро говорит - "привозите, починим". "Привозите? А сколько займет ремонт?" - интересуются ошарашеные владельцы. "Не больше месяца", уверенно отвечает саппорт. "На месяц остановить работу всей организации? Да нам же закрываться придется, нас же конкуренты съедят!" - стонут владельцы. "Мы за конкурентов не отвечаем, мы можем сервер починить если привезете" - отвечает саппорт.

Вот такую историю поведали мне вчера утром, уговаривая приехать и посмотреть этот "сервер высокой доступности, горячая замена всего, все дела - а включаешь и не работает".

Перед поездкой нагугливаю сервис-мануал от этого сервера - не знаком я с ними, как огня старался избегать "фирменных серверов" по своим внутренним причинам. Так вот, сервис мануал ничего не знает про 3 длинных БИИП! Два длинных или один длинный один короткий это пожалуйста, да и то у этих сигналов такое множество причин возникновения, что толку от этих БИИП и нет вовсе.

Приехав и сняв крышку, обнаруживаю под ней штуковину с двумя 7-сегментными индикаторами с гордым названием QuickFinder, на которых горит номер ошибки 40. Ладно хоть не 42 :)

Пытаюсь нагуглить причину этой ошибки... Нда, не так уж часто удается увидеть всего 2 страницы результатов поиска гугля. Из которых 3/4 найденного вообще никак не относятся к делу. 

Но пара результатов была в тему - два импортных форума, на которых совпадала причина происхождения этой ошибки 40: неисправность памяти. Опс... 

А надо сказать что память в этом сервере это не обыкновенные всем привычные DIMM модули - нет, это устройства размером с литровый тетрапак, допускающие горячую замену, и уже в них установлены DIMM модули - но опять же не простые, а регистровые ECC. И запасных ни блока памяти, ни DIMM к ним у организации нет, потому что и так сервер стоил как самолет...

Пытаемся пошевелить модули памяти, поставить в другие слоты - безрезультатно.

Звоним в саппорт. Да, модули они могут привезти - под заказ, срок доставки 3 недели. И тут попадалово?!

Владелец поломатого сервера предлагает попытаться перенести софт на другой комп, благо сейчас производительность самой дешевой платы на Атоме не хуже. Едем ко мне, и в куче старого хлама таки находится контроллер UW SCSI 320 - то есть диски мы считаем. Возвращаемся к серверу, втыкаем контроллер и серверный диск в первый свободный комп - и нас ждет жесточайший облом. Имя ему - RAID5: 4 диска сервера объединены в единый массив, и уже он отдается контроллером в виде отдельных дисков.  А при чтении другим контроллером, который не знает, где именно контроллер поломатого сервера что хранил и как именно были нарезаны куски, вместо файловой системы видны только какие-то огрызки... Так что даже если мы  найдем в точности такой же контроллер, мы не узнаем настройку, а значит придется играть в угадайку и не факт что получится добраться к данным. (Кстати, я всегда говорил, что RAID5/6 на аппаратном контроллере это опасное кроилово, которое приведет к попадалову! RAID1 и без контроллера прекрасно читается, и даже RAID10 восстановить дело пары минут. Вот софверный RAID5/6 с метаданными на каждом из дисков - там да, таких проблем нет, и массив поднимется при переносе дисков в любую машину с той же ОС).

Бакап? Он конечно делался, но складывался на... другой диск того же сервера! И с его доставанием в точности такие же проблемы.

Сидим, идей ноль. 

Но постойте, как память могла сдохнуть при штатном шатдауне с бесперебойника? Что-то тут не так!

Массивное гугленье не принесло никаких результатов, настала пора шаманства. Будем рассуждать логически - что могло поплохеть в сервере за 10 лет? Диски с вентиляторами крутятся - не оно, конденсаторы на процессорах - на глаз нормальные, батарейка... ААА, БАТАРЕЙКА на системной плате! Прошу у представителя организации новую батарейку - нету, и почти полчаса уходит на ее покупку в ближайшем ларьке. Ставим, и... никаких изменений, та же ошибка 40. Вот только показалось мне, что последовательность появления мелькающих цифирей на оном индикаторе чуточку поменялась...

Стоп! а почему и кроватки DIMM-модулей, и слоты для блоков памяти пронумерованы? Не означает ли что ставить память нужно в определенной последовательности?! Быстро переставляем память на исходное положение, пимпочка, секунда паники на отображение цифры 40 индикатором - и сервер стартует!

В ретроспективе все оказалось предельно ясно  - пока сервер работал батарейка потихоньку садилась, и постепенно села настолько что при очередной загрузке контроллер что-то не смог где-то прочитать. Но как говорится, хоть сервер и заработал но осадок остался, и появилось несколько вопросов.

  1. Зачем нужен сервис-мануал, если в нем не описаны ВСЕ возможные сообщения об ошибках?
  2. Неужели в сервере ценой в самолет нельзя предусмотреть диагностику этой злосчастной батарейки?
  3. Зачем нужен этот QuickFind если нет информации по его ошибкам?
  4. Почему память, диски и даже материнская плата "горячей замены", а для замены батарейки требуется разобрать пол-сервера?
  5. Почему саппорт не спрашивает у всех "батарейку поменяли?", зная что реакция на ее отсутствие неадекватная?
  6. За что люди платят такие бабки, если самосбор на интелевских серверных комплектующих работает ничуть не хуже, и прекрасно стартует без батарейки? 
  7. Может лучше брать 3 более дешевые машины одинаковой конфигурации, и при проблемах просто менять части?
  8. Теперь "я ненавижу HP!" - а вы?

PS. особенно повеселило сравнение конфигурации этого сервера. Одноядерный Пень4 на 2ггц, 1гб памяти, 36гб жесткие диски... Сервер? - да сейчас почти любой сотовый телефон мощнее! :)

 

Также можно почитать:

  1. Установка мягких силиконовых пыльников

2 комментария

  1. михаил (Москва) пишет:

    Отзыв: Thumb up 0 Thumb down 0

    Надеюсь  у  ОРГАНИЗАЦИИ  хватит  ума  заменить этот  "сервер"  ноутбуком (уж  за  "системник" современный  молчу) !  :) 

    • admin admin пишет:

      Отзыв: Thumb up 0 Thumb down 0

      Ноутом - не получится. К серверу подключена по оптокабелю корзина из 48 SCSI 15k накопителей, обеспечивающая просто сумасшедшую скорость ввода-вывода - что востребовано, ибо БД сейчас под 300гб и сотня (входящих!) запросов в секунду. Чтоб пересадить контроллер этой корзины нужен разъем PCI-64 на маме, а такое только в серверных мамах бывает. Самый простой серверный самосбор на интелевских комплектующих уходит за штуку баксов - а зачем их тратить, ежели и этот [censored] справляется?

      ЗЫ. Современный SSD в течение ~месяца может заменить эту корзину, но это годится только в роли временного резерва.

Написать отзыв