Сбой в работе блогохостинга LiveJournal был связан с одновременными авариями на двух группах серверов (кластерах), содержащих пользовательские данные. Об этом 17 мая рассказал глава LiveJournal Russia Илья Дронов.
Узнайте больше в полной версии ➞Он отметил, что в ночь с 15 на 16 мая был обнаружен сбой в седьмом из 13 кластеров ЖЖ. На этом кластере хранится, в частности, дневник оппозиционера Алексея Навального. Специалистам пришлось восстанавливать содержимое серверов, скопировав данные с резервного кластера (при этом сам кластер-дублер было решено отключить на время копирования, чтобы обезопаситься от новых аварий).
В процессе восстановления кластера №7, пишет Дронов, система мониторинга отчиталась о сбое в еще одной группе серверов — №9. На ней, в частности, размещен дневник Рустема Адагамова, занимающий первое место в рейтинге ЖЖ. Содержимое этого кластера также пришлось восстанавливать с помощью «зеркала», которое было отключено на время операции. Перенос большого объема данных загрузил интернет-каналы, используемые в инфраструктуре ЖЖ, и восстановительные работы заняли значительный промежуток времени.
Из-за отключения двух кластеров пользователи, чьи дневники размещены на них, не могли пользоваться ЖЖ. Кроме того, ошибку видели и те пользователи, которые пытались (к примеру, в френдленте) получить доступ к записям, размещенным на одном из выключенных серверов. К утру 17 мая по московскому времени нормальная работа LiveJournal была восстановлена.
Илья Дронов подчеркнул, что предстоит еще выяснить, по какой причине практически одновременно вышли из строя сразу два кластера. Пользователям платных сервисов в качестве компенсации продлят действие их услуг на неделю.
ЖЖ не первый раз в этом году сталкивается с серьезными сбоями. Так, сервис оказался недоступен с конца декабря 2012 года по начало января 2013. Тогда Илья Дронов заявил,что причиной неполадок стала сработавшая система защиты от DDoS-атак.