Китайские ученые выяснили, что голосовые помощники вроде Siri, Alexa, Cortana и др. охотно выполняют тайные неслышимые команды, отданные злоумышленниками с помощью ультразвука. Для атаки нужен лишь ультразвуковой передатчик стоимостью около $3. С его помощью голосового помощника можно заставить совершать звонки и даже управлять автомобилем.
Тайное управление
Голосовым помощникам — таким как Siri (компании Apple), Alexa (Amazon), Cortana (Microsoft), Google Now (Google) и другие — можно отдавать неслышимые для человеческого уха ультразвуковые команды, которые они будут выполнять, как обычные голосовые распоряжения. К такому выводу пришли исследователи из Чжэцзянского университета в Китае. Они не первые предприняли попытку скрыто управлять голосовым помощником. Однако в предыдущих исследованиях использовались команды хоть и не понятные человеку, но все-таки улавливаемые им на слух.
В новом же исследовании ученые впервые разработали систему полностью неслышимых для человека команд под названием DolphinAttack («атака дельфина»). В названии нашел отражение тот факт, что дельфины способны генерировать и воспринимать ультразвуковые волны, общаясь таким образом друг с другом и различая за счет отражения ультразвуковых волн окружающие предметы. Результаты исследования были опубликованы на ресурсе arxiv.org.
Как это работает
В ходе DolphinAttack используются ультразвуковые преобразователи, которые превращают голос злоумышленника в аудиосигнал с частотой свыше 20 кГц, благодаря чему эти сигналы не воспринимаются человеческим ухом. Чтобы голосовой помощник смог услышать такую команду, преступнику придется предварительно посетить дом жертвы и спрятать там удаленно контролируемый ультразвуковой передатчик или просто подобраться к жертве на достаточно близкое расстояние. Необходимый для атаки прибор можно приобрести по цене от $3.
Одна из главных проблем исследования заключалась в том, что многие микрофоны, в том числе голосовых помощников, разрабатываются в расчете не восприятие нормального человеческого голоса, поэтому они просто отфильтровывают все шумы, не соответствующие ему по частоте, в том числе ультразвук. Однако в микрофонах также имеются усилители, которые благодаря своей фактической нелинейности в процессе усиления звука создают новые частоты. Поэтому в итоге ультразвуковая команда, отраженная усилителями, улавливается голосовым помощником. Далее она дешифруется, восстанавливается и интерпретируется системой распознавания речи.
DolphinAttack дополнительно усложняется, если используется против Siri. Голосовой помощник Apple умеет распознавать голос своего владельца, чужим голосом его невозможно активировать. Чтобы добиться этого, злоумышленнику придется достать запись голоса жертвы, в которой содержатся все звуки, присутствующие в стандартной фразе активации «Hey Siri». Далее из этих звуков нужно смонтировать саму фразу, и уже с ее помощью активировать Siri.
Результаты эксперимента
DolphinAttack прошла проверку на популярных голосовых помощниках, в том числе Siri, Google Now, Samsung S Voice, Huawei HiVoice, Cortana и Alexa. Отдав последовательность неслышимых команд, ученые смогли, например, активировать Siri и попросить ее начать видеозвонок на iPhone с помощью услуги FaceTime. Также исследователи смогли убедить Google Now переключить смартфон в режим «В самолете», и даже управляли с помощью этого голосового помощника навигационной системой в автомобиле Audi Q3.
По словам исследователей, DolphinAttack можно выявить с помощью так называемого метода опорных векторов (SVM). Ученые предлагают перепроектировать голосовых помощников таким образом, чтобы они были не чувствительны к ультразвуковым командам.
Возможные препятствия
Успех атаки в значительной мере зависит от того, насколько шумно в помещении, где она проводится. Например, когда ученые отдавали Siri ультразвуковую команду перевести iPhone в режим «В самолете», то в офисе помощник выполнял ее в 100% случаев, в кафе — в 80% случаев, а на улице всего в 30% случаев.
Кроме того, у каждого смартфона существует идеальная, лучше всего им воспринимаемая ультразвуковая частота. Она зависит от конфигурации усилителей в микрофоне. Эту частоту можно подобрать в ходе эксперимента — например, для смартфона Nexus 7 идеальная частотой является 24,1 кГц. Тем не менее, аппарат отзывается на ультразвуковые команды, отданные на других частотах, пусть и с меньшей вероятностью.