Microsoft разработала технологию, позволяющую связать Microsoft Excel с массивными вычислительными возможностями Windows Azure. Новый проект приведет к революции в области обработки больших массивов данных, сделав доступ к таким данным общедоступным, считают исследователи компании.

В ходе мероприятия D.C. TechFair 2011, которое состоится 15 июня в Вашингтоне, Microsoft готовится представить технологию обработки больших массивов данных в облаке Windows Azure непосредственно из интерфейса Microsoft Excel. Новая технология, известная как Excel DataScope, была создана участниками команды по исследованиям в сфере облачных вычислений (Cloud Research Engagement team) в рамках исследовательской группы eXtreme Computing Group.

С точки зрения конечного пользователя, Excel DataScope представляет собой лишь дополнительную ленту в интерфейсе Microsoft Excel, однако эта лента открывает доступ к функциям по ресурсоемкой обработке данных, которые невозможно реализовать на уровне отдельного персонального компьютера.

«Ученые говорят о «больших данных» как о проблеме, но по сути это идеальная возможность для применения облачных вычислений, – говорит Роджер Барга (Roger Barga), архитектор команды Cloud Research Engagement. – Обработка больших наборов данных в облаке — это один из важнейших технологических сдвигов, которые нам предстоит наблюдать в течение следующих нескольких лет».

Excel DataScope позволит исследователям загружать наборы данных в облако и осуществлять такие аналитические процедуры как поиск закономерностей, определение скрытых ассоциаций, обнаружение сходства и предсказание временных последовательностей. При этом технические процедуры, связанные с созданием виртуальных машин и резервированием вычислительных мощностей, полностью скрыты от пользователя, который взаимодействует только с интерфейсом Microsoft Excel. Таким образом, исследователи и аналитики смогут запускать ресурсоемкие аналитические процедуры, которые требуют использования десятков и даже сотен процессоров.

«Excel сегодня является ведущим инструментом для анализа данных, – говорит Барга. – Число лицензированных пользователей насчитывает 500 млн, и существует невероятное множество людей, которые уже умеют пользоваться этим инструментом. В сущности, электронные таблицы представляют собой подходящую метафору для манипулирования данными. Они просты и поддерживают различные типы данных, и поэтому вполне могут стать той пусковой установкой, которая выведет аналитиков к облакам».

 Лента для обработки данных в Windows Azure в интерфейсе Microsoft Excel

Сплит Лента для обработки данных в Windows Azure в интерфейсе Microsoft Excel

По сравнению с суперкомпьютерами, которые часто используются исследовательскими учреждениями для решения подобных аналитических задач, облачные вычисления обладают как преимуществами, так и недостатками. Разумеется, облако работает медленнее специализированного суперкомпьютера, однако во многих случаях этот недостаток компенсируется высокой оперативностью предоставления ресурсов в облаке: «Как показывают наши наблюдения, хотя облако и может быть медленнее в некоторых отношениях, оно позволяет вам получить вычислительные мощности в то время и в тех количествах, которые вам нужны. Многие крупные лаборатории по обработке данных в США, где используется наиболее мощное оборудование, требуют нескольких недель времени, прежде чем ваша задача будет принята к обработке. Таким образом, если принять во внимание все потраченное время, то в облаке ваша задача могла бы быть решена уже давным-давно, и к настоящему моменту вы бы могли уже завершить написание отчета», – отмечает Барга.

Исследователь Microsoft также подчеркивают, что аналитические задачи по обработке больших массивов данных обладают типологическим сходством в разных научных дисциплинах и поэтому могут быть стандартизированы и приведены к унифицированному интерфейсу: «Как выясняется, в области аналитической обработки данных существует достаточно постоянный набор задач, независимо от того, занимаетесь ли вы общественными дисциплинами, инженерным проектированием или океанографией, – замечает Барга. – Например, вам требуется кластеризация для того, чтобы посмотреть, как можно сгруппировать данные. Вам также может захотеться ознакомиться с отклонениями и провести регрессионный анализ, позволяющий выяснить превалирующие тренды. Мы посчитали, что если мы реализуем дюжину наиболее востребованных алгоритмов, то у нас будет неплохой стартовый набор».

Новая технология позиционируется как открытая для сторонних исследователей, которые смогут дополнять ее собственными алгоритмами по обработке данных.

Представители Microsoft считают, что у новой разработки есть большие перспективы в связи с инициативой американского правительства в области открытых данных data.gov. В частности, Microsoft планирует наладить взаимодействие с учеными, которые хотели бы добавить новые наборы данных на data.gov. «Но одних лишь данных недостаточно, – замечает Барга. – Нам хотелось бы, чтобы люди предлагали аналитические инструменты, связанные с этими наборами данных, и чтобы, попадая на data.gov, вы могли бы найти там полезные алгоритмы, которые можно было бы применить к опубликованным наборам данных».