Подделка голосов с применением искусственного интеллекта стала основой новой мошеннической технологии для кражи финансов, персональных и корпоративных данных.

Говорите дальше, вас подделывают

Современные технологии искусственного интеллекта могут быть использованы для машинного обучения систем, которые впоследствии могут использоваться для полноценной имитации речи любого человека, включая топ-менеджеров и даже гендиректора любой компании.

Об этом заявили представители компании Symantec по итогам собственного расследования ряда киберпреступлений с использованием поддельных голосов ряда топ-менеджеров ряда компаний. По мнению аналитиков Symantec, такие системы могут использоваться кибермошенниками для хищения различных активов, включая финансы, корпоративную и частную информацию.

По данным Symantec, технологиях уже использовалась для хищения «миллионов долларов». Аналитики компании сообщили о как минимум трех случаях, когда поддельные голоса гендиректоров были применены для обманах глав финансовых отделов компаний с целью мошеннического вывода денежных средств. Названия пострадавших компаний в Symantec не назвали.

«Глубокий фейк»: аудио проще чем видео

Новая кибермошенническая технология получила у аналитиков Symantec название Deepfaked Audio, то есть, «подделка аудио на основе машинного обучения».

Впервые англоязычный термин Deepfake, синтезированный из выражений «глубинное обучение» (Deep Learning) и «подделка» (Fake), появился несколько лет назад применительно к технологии, где искусственный интеллект применяется для тренинга систем с применением реальных изображений и видео человека для синтеза поддельного видео.

Жертвами «глубокой подделки видео» уже неоднократно становились многие публичные персоны и главы компаний. Одним из наиболее громких скандалов стало появление в соцсетях поддельного видео с Марком Цукербергом (Mark Zuckerberg), главой Facebook. Также известен случай реалистичной подделки видео с выступлением Барака Обамы (Barack Obama), бывшего президента США.

Все, что нужно для «тренинга» технологии «глубокого поддельного аудио» – это «достаточное количество» аудиозаписей предполагаемой жертвы, отмечают в Symantec. Далее искусственный интеллект использует аудио для тренинга двух так называемых «генеративных состязательных сетей» (GAN). В процессе обучения две нейросети такого типа «конкурируют» друг с другом: одна генерирует подделки, другая пытается отличить подделку от настоящего образца данных, и в процессе обе сети учатся на своих ошибках.

В случае преступлений против глав компаний источниками аудио для ИИ-тренинга могут выступать многочисленные записи голоса в открытом доступе – корпоративные видео, аудиозаписи квартальных конференций для инвесторов, публичные выступления, доклады на конференциях, презентации и т.п.

По словам доктора Хью Томсона (Hugh Thompson), главного технического директора Symantec, технологии моделирования и подделки голоса в настоящее время могут быть весьма близки к совершенству.

По его словам, в процессе имитации голоса кибермошенники используют самые разнообразные ухищрения. Например, специфические фоновые шумы позволяют замаскировать манеру произношения слогов и слов в наименее убедительных местах. Для таких целей используется имитация прерывистой сотовой связи или фоновый шум в оживленном людном месте.

По мнению доктора Александера Адама (Alexander Adam), специалиста по данным при ИИ-подразделении Symantec, для производства действительно качественных подделок аудио требуются значительные временные и финансовые ресурсы.

«Тренинг моделей может обойтись в тысячи долларов, поскольку для этого необходимы значительные вычислительные мощности. Человеческий слух очень чувствителен в широком частотном диапазоне, так что на моделирование действительно реалистичного звучания уйдет изрядно времени», отметил др. Александер Адам.

По его словам, в некоторых случаях на создание достаточно реалистичного голосового профиля может понадобиться всего 20 минут аудиозаписей. Тем не менее, для полноценной имитации реалистичных ритмов и живых интонаций речевых паттернов поддельного аудио понадобятся часы исходных записей с хорошим качеством.

В отличие от поддельного видео, технология имитации голоса имеет значительно больший потенциал для мошеннических махинаций. Так, в отличие от подделки видео, где «натренированная модель» должна заместить собой исходное видео для подделки лица, поддельный аудио профиль может использоваться даже с давно известной технологией преобразования текста в голос.

И как с этим бороться

По мнению специалистов Symantec, руководящему звену компаний, имеющему доступ к распоряжению финансами, следует серьезно проанализировать аудиозаписи своих выступлений в публичном доступе. Отныне злоумышленники могут получить необходимые им образцы голоса даже в телефонном разговора или в личной беседе.

Финансовым отделам компаний аналитики Symantec советуют переосмыслить уровень угроз от киберпреступлений с использованием поддельного аудио, и серьезнее относится к защите доступа к конфиденциальным данным и финансам компании.

В Symantec заявили, что в настоящее время разрабатывают методы анализа аудио, которые позволили бы проверять телефонные звонки и оценивать вероятность их подлинности. Существующие технологии для предотвращения кибератак с применением поддельного аудио, по мнению аналитиков компании, пока что слишком дорогостоящи.

Одним из возможных способов решения проблемы в Symantec называют использование сертифицированных систем связи для коммуникаций между компаниями. Другим потенциально перспективным способом является внедрение технологии блокчейна для IP-телефонии с обязательной аутентификацией вызывающего абонента.

Защита от поддельного аудио не отменяет использования других технологий защиты корпоративных данных, подчеркивают в Symantec – таких как системы фильтрации и проверки подлинности для электронной почты, платежные протоколы с многофакторной аутентификацией, обратный звонок и пр.