«Яндекс» подтвердил факт иницидента со своим облачным сервисом, в результате которого некоторые его пользователи лишились виртуальных машин, развернутых на платформе. Компания принесла официальные извинения и пообещала компенсацию в виде грантов всем пострадавшим.

Облачный инцидент

«Яндекс» удалил часть активных виртуальных машин в своем облаке из-за человеческой ошибки. Инцидент произошел 16 мая 2019 г. в ходе проведения запланированных технических работ по остановке и удалению виртуальных машин в заблокированных облаках пользователей по причине неоплаты или нарушения правил использования сервисов «Яндекс.облака».

Одним из первых о проблеме сообщил пользователь ресурса Pikabu под псевдонимом dobrovolskiy, вступивший в переписку со службой поддержки сервиса после утраты доступа к виртуальной инфраструктуре. Позднее «Яндекс» официально подтвердил информацию об инциденте.

CNews обратился к «Яндексу» за комментарием относительно произошедшего и выяснил, что в 16:35 по московскому времени сотрудником «Облака» была запущена команда по удалению виртуальных машин согласно сформированному списку. В 16:51 специалисты компании обнаружили ошибку, в результате которой в список попали виртуальные машины, хотя бы раз находившиеся в статусе заблокированных (Suspended) – как выяснилось, при его формировании был применен неверный принцип фильтрации. В 16:56 выполнение команды было остановлено. 

В результате происшествия, по данным «Яндекса», было утрачено 0,77% от общего числа виртуальных машин и boot-дисков. При этом были затронуты виртуальные машины только в зоне ru-central1-c. Дополнительно созданные диски остались в сохранности. Пользователи, сделавшие снимки дисков, смогли восстановить свои данные, заверили CNews представители «Яндекса».

Платформа «Яндекс.облако» в настоящее время размещается в трех дата-центрах «Яндекса», расположенных во Владимирской, Рязанской и Московской областях. Инфраструктура «Облака» в каждом из дата-центров называется зоной доступности. Каждая из трех используемых зон изолирована от аппаратных и программных сбоев в других зонах доступности.

Комментарий «Яндекса»

В «Яндексе» произошедшее рядовой ситуацией не считают и обещают компенсацию в виде грантов всем тем, кого затронул инцидент. Грантом в документации «Яндекс.облака» называется скидка, которая предоставляется юридическому или физическому лицу на использование любых сервисов «Облака».

«Для нас каждый пользователь важен, и мы осознаем свою полную ответственность за надежность нашей платформы, – прокомментировал ситуацию Иван Кузнецов, представитель "Яндекса". – Мы уже работаем над формированием мер для предотвращения повторения подобного инцидента в будущем и в ближайшее время проинформируем о дальнейших шагах всех пользователей. Мы хотим принести извинения каждому, кого затронул технический сбой в работе "Облака". На данный момент наша техническая поддержка работает в формате "горячей линии" и мы оперативно помогаем всем». 

Похожие случаи в Amazon

Человеческий фактор нередко становится причиной серьезных инцидентов, от которых не застрахованы даже ИТ-гиганты. К примеру, одному из крупнейших в мире облачных провайдеров Amazon Web Services (AWS) и его пользователям приходилось сталкиваться с ошибками людей, приводившим к потере важных данных или отказу инфраструктуры. 

Так, в начале 2017 г. один из работников сервиса Amazon S3 допустил оплошность при вводе команды, с помощью которой планировалось удалить небольшое количество виртуальных серверов, используемых для обслуживания одной из подсистем платформы. Ошибка в команде привела к удалению большего числа машин, чем ожидалось, в результате чего тысячи популярных ресурсов и приложений, полагавшихся на объектное хранилище Amazon в своей работе (в частности Slack и Quora), оказались полностью недоступными в течение нескольких часов.

В апреле 2011 г. неожиданно отказали серверы облачного провайдера, располженные в дата-центре в Вирджинии (США). Вследствие их недоступности вывыденными из строя более чем на сутки оказались сервисы Quora, Foursquare и Reddit, а также множество мелких стартапов. Компания тогда не пожелала вдаваться в детали происшествия, лишь пояснив, что отказ серверов был вызван ошибкой в работе системы резервного копирования.