Автоматический почти синхронный голосовой перевод с одного языка на другой стал реальностью: Microsoft Research продемонстрировала перевод с английского на путунхуа с задержкой в несколько секунд, в котором сам вариант на путунхуа звучал в вокальной манере оригинала. Директор Microsoft по разработкам Рик Рашид провёл презентацию технологии в Тяньцзине 25 октября, но известно об этом стало почему-то лишь сейчас.

Г-н Рашид произнёс всего восемь английских фраз в микрофон системы распознавания, перевода и генерации речи. Две тысячи студентов и учёных были явно поражены результатом (7:30 минута видео).

Утверждается, что это результат нововведений на всех стадиях процесса. ПО вроде Dragon Naturally Speaking компании Nuance уже совершило тихую революцию в области распознавания речи. И теперь продукты, основанные на этой технологии, доступны широкой публике в виде приложения Siri для iPhone или голосового интерфейса игрового контроллера Kinect.

Хотя подобные системы часто ошибаются (по словам г-на Рашида, неправильно интерпретируется каждое четвёртое-пятое слово), сегодняшние намного лучше вчерашних. Microsoft применила новую систему машинного обучения на основе искусственных нейронных сетей, которая сокращает непонимание до каждого седьмого-восьмого слова. А это значит, что программа-переводчик Bing Translate выдаст генератору речи более точный текст.

Но самое большое достижение — это, конечно, генерация речи с сохранением модуляций голоса говорящего. Собеседникам будет легче друг друга понять, и тем самым общение станет эффективнее. Г-н Рашид битый час общался с машиной, прежде чем она усвоила все нюансы его разговорной манеры. Надо признать, что новая система оставила технологию Dragon Naturally Speaking далеко позади.

«Ещё несколько лет, — сказал собравшимся г-н Рашид, — и мы сломаем языковые барьеры между народами».