Брэд Фицпатрик (Brad Fitzpatrick), глава компании, содержащей популярный в России блоггерский сайт LiveJournal.com, в четверг опубликовал на нем заявление, поясняющее, что именно произошло 15 января, когда из-за внезапного отключения электроэнергии сайт перестал работать и восстанавливался более суток.
Узнайте больше в полной версии ➞Как ранее сообщалось, "падение" "Живого журнала" (так его называют русскоязычные пользователи, которых сейчас насчитывается около 100 тысяч; всего у сайта около 5,5 миллионов пользователей во всем мире) вызвало бурную реакцию общественности и появление различного рода домыслов - не только среди простых пользователей, но и в массовой прессе.
Первоначально сообщалось, что авария была вызвана тем, что помещение одной из технических площадок хостинговой компании Internap в Сиэтле, где расположены более ста серверов "Живого журнала", было внезапно обесточено, причем перестали работать даже системы резервного питания. Однако причины возникновения этой нештатной ситуации оставались неизвестными. После проведенного Internap внутреннего расследования было установлено, что один из клиентов той же хостинговой площадки случайно нажал одну из кнопок аварийного обесточивания здания. Такие кнопки (EPO, Emergency Power Off) устанавливаются в зданиях США согласно государственным стандартам обеспечения пожарной безопасности. Отмечается, что нажавший кнопку клиент не просто нажал ее, а сначала снял с кнопки защитную крышку, а после нажатия поставил ее на место, после чего покинул здание. Когда операторы дата-центра увидели запрос на аварийное отключение питания, они проверили кнопки в здании, но все они были в исходном состоянии. Операторы решили, что запрос произошел из-за сбоя в системе сигнализации, и не стали принимать никаких мер, а питание отключилось после истечения срока, данного на отмену запроса.
Тем не менее, о преднамеренном саботаже говорить не приходится, так как виновник чистосердечно признался в содеянном. О том, что его побудило сделать это, умалчивается, однако можно предположить что человек, к примеру, мог случайно оступиться и попасть в кнопку, сбив крышку, а потом сделать все "как было". Фицпатрик замечает, что известен аналогичный инцидент, когда кто-то нажал кнопку EPO, думая, что она открывает находящуюся рядом с ней дверь.
Отключение резервного питания было вызвано тем, что по нажатию кнопки EPO прекращает работу и оно - технологическим процессом предусмотрено, что при поступлении команды аварийного отключения энергии, системы бесперебойного питания также самостоятельно выключаются - предполагается, что наличие любых сетей под напряжением может помешать пожарным. По следам инцидента специалисты Internap намерены провести ревизию противопожарных систем с целью обеспечить должную защиту всем имеющимся в здании аварийным кнопкам.
Фицпатрик также объясняет, почему восстановление нормальной работы сайта заняло столь длительное время. Энергоснабжение было восстановлено менее, чем через час, но администраторы не могли запустить сайт в прежнем режиме без тщательной проверки всех систем. При внезапном отключении возможны потери данных и выход из строя оборудования - необходимо было удостовериться, что все работает штатно. Как выяснилось, некоторые компоненты все же вышли из строя, и необходимо было их заменить, а также восстановить потерянные данные из резервных копий (в LiveJournal все поступающие данные дублируются на резервных серверах).
Как известно, через сутки сайт снова заработал в нормальном режиме, а впоследствии руководство сервиса в качестве моральной компенсации подарило всем пользователям, оплатившим свои журналы, лишние две недели платного времени. Администрация LiveJournal также пообещала, что установит для своих серверов собственные системы резервного питания, чтобы не полагаться исключительно на Internap.