Сложности понимания: почему голосовые смарт-помощники так трудно осваивают новые языки

Вопреки устоявшемуся мнению, английский язык не является наиболее распространенным в мире, даже больше – он не является вторым. Первое место занимает китайский, второе-испанский, а английский является только третьим. Далее по популярности идут хинди, арабский, португальский и бенгальский.

Впрочем еще до недавнего времени интеллектуальные голосовые помощники Google Assistant, Apple Siri, Amazon Alexa и Microsoft Cortana поддерживали только английский. Прошлой осенью сервис Bixby от Samsung начал понимать немецкий, французский, итальянский и испанский языки, которыми вообще разговаривают 616 миллионов людей во всем мире. Но для Microsoft Cortana понадобились годы, пока эта программа начала владеть испанским, французским и португальским языками.

Почему же добавление новых языков движется такими медленными темпами? Если вы ищете ответы, то сначала надо понять технологии, которые используются для обучения алгоритмов распознавания речи. Голосовые помощники устроены намного сложнее, чем кажется на первый взгляд.

Изучение нового языка – огромная проблема

Овладение голосовым помощником очередной речи — это сложный многошаговый процесс, который требует значительного объема исследований в сегменте распознавания речи и голосового синтеза. Первый шаг — это перевести голосовой фрагмент в текстовый вид (Speech to Text). Второй шаг — обработать его с использованием правил естественного языка (так называемая технология Natural Language Processing, NLP).

Сегодня большинство систем распознавания речи опираются на глубокие нейронные сети — системы нейроподобных математических функций, которые способны со временем автоматически улучшать качество распознавания. Эти сети прогнозируют фонемы или перцептивные различия единиц звука (например, звуки p, b, d, t в английских словах pad, pat, и bad). В отличие от старых технологий автоматического распознавания речи (automatic speech recognition, ASR), которые опирались на настроенную вручную статистическую модель, которая вычисляла вероятность возникновения в фразе определенных комбинаций слов, глубокие нейронные сети переводят звук в символы. Это не только снижает коэффициент ошибок, но и в значительной мере устраняет необходимость контроля со стороны человека.

Но базового понимания языка недостаточно. Без локализации голосовые помощники не могут подобрать культурные особенности или, что еще труднее, соответствующие нормы для каждой культуры. Считается, что для построения модуля, который понимает вопрос пользователя для нового языка, нужно от 30 до 90 дней, в зависимости от того, сколько коннотаций нужно охватить. И даже самые популярные на рынке смарт-спикеры, подобные Google и Amazon, имеют проблемы с пониманием пользователей с определенным акцентом. Недавний тест, проведенный компанией Vocalize.ai, показал, что устройствам Apple HomePod и Amazon Echo удалось понять лишь 78% китайских слов, против 94% английских и индийских слов.

На базовом уровне некоторые языки очень сильно отличаются между собой. Например, в английском языке прилагательные обычно находятся перед существительными, поэтому слово starfish, сказанное вслух, компьютер может толковать как «звездная рыба», хотя в данном контексте это означает «морская звезда». Все эти вещи нужно понимать при распознавании голосового запроса.

Такие задачи достаточно сложно реализовать для каждого языка. В августе 2018 года исследователи из подразделения Amazon AI описали одну из потенциальных проблем. Во время типичного общения с голосовыми помощниками специалисты задавали несколько вопросов, в которых использовали синонимы некоторых слов, например, «город» и «огород». Если специалист спрашивал направление к расположению ресторана, качественно подготовленный голосовой помощник должен был определить, что имеет в виду пользователь.

В то время как передовые системы text to speech (текст-в-речь, TTS), такие как Tacotron 2 от Google (что строит модели синтеза голоса на основе спектрограмм), и WaveNet (создает модели на основе колебаний сигналов), изучают новые языки в результате новых разговоров, обычные системы применяют базу данных фонов — элементарных речевых звуков, комбинации которых используются для формирования слов и предложений. Сцепление их в единый звук требует охвата дополнительных дифонов (единиц речи, состоящих из двух связанных половинок фонов) и трифонов (фон и половина предыдущего фона в начале и следующий фон в конце) во время длительных сеансов записи. Количество элементарных языковых единиц может легко превышать тысячу.

Другая методика, известная как параметрический TTS, применяет математические модели для воспроизведения звуков, которые затем собираются в слова и фразы. Сама голосовая речь создается с помощью вокодера, голосового кодека (кодер-декодер), который анализирует и синтезирует выходные сигналы.

Однако генератор TTS, т.е. преобразование текста в голос, является менее трудной проблемой, чем понимание голосовых запросов. Облачный TTS-сервис Amazon Polly поддерживает 28 языков, а Microsoft Azure API для распознавания языков поддерживает более 75.

Google, Microsoft и Amazon уже предлагают несколько голосов на китайском, голландском, французском, немецком, итальянском, японском, корейском шведском и турецком языках, что синтезируются системами искусственного интеллекта.

Голосовые помощники и языки, которые они поддерживают

Google Assistant. В начале 2019 года Google Assistant добавил более 20 новых языков и стал лидером среди голосовых помощников. Теперь сервис от Google поддерживает почти 30 языков, которыми разговаривают в 80 странах. Это гораздо больше, чем 8 языков и 14 стран в 2017 году.

Apple Siri. Второе место занимает Siri компании Apple, которая до января побеждала Google по количеству языков. В настоящее время сервис поддерживает 21 язык (на этих языках разговаривают в 36 странах), и десятки диалектов китайского, голландского, английского, французского, немецкого, итальянского и испанского языков.

Однако, смарт-спикер Apple HomePod понимает меньшее количество языков. Кроме английского, устройство получило поддержку французского, немецкого и канадского английского языка, а с обновлением программного обеспечения осенью прошлого года познакомился с испанским и канадским французским.

Microsoft Cortana. Cortana, которая дебютировала на конференции разработчиков Microsoft Build в апреле 2013 года, а позже была интегрирована в Windows 10, наушники, смарт-колонки, Android, iOS, Xbox One и даже Alexa (благодаря сотрудничеству с Amazon), пока что не поддерживает столько языков, сколько Google Assistant и Siri. Однако, за эти 6 лет продукт прошел весьма долгий путь. Вот языки, которые распознает Cortana: Китайский (упрощенный); Английский (Австралия, Канада, Новая Зеландия, Индия, Великобритания, США); Французский (Канада, Франция); Немецкий; Итальянский; Японский; Португальский (Бразилия); Испанский (Мексика, Испания).

Amazon Alexa. Технология Alexa доступна на более чем 150 продуктах в 41 стране, но пока что этот голосовой помощник понимает наименьшее количество языков среди других: Английский (Австралия, Канада, Индия, Великобритания и США); Французский (Канада, Франция); Немецкая; Японская (Япония); Испанский (Мексика, Испания).

И стоит отметить, что ситуация улучшается. Более 10 тысяч инженеров работают над различными компонентами NLP-платформы, кроме того, Amazon расширяет поддержку языков с помощью краудсорсинга. В прошлом году компания выпустила Cleo — сервис, который награждает пользователей за повторения фраз на местных языках и диалектах, таких как китайский, хинди, тамильский, маратхи, каннада, бенгальский, телугу, гуджарати.

Samsung Bixby. Bixby от Samsung — это голосовой помощник, встроенный во флагманские смартфоны серии Galaxy, а также будущий смарт-динамик Galaxy Home. И хотя смартфоны этой серии доступны в 200 странах мира, и Bixby поддерживает совсем немного языков: Английский; Китайский; Немецкий; Французский; Итальянский; Корейский; Испанский.

Samsung столкнулся с серьезными проблемами при создании собственной платформы Natural Language Processing. Издание The Wall Street Journal сообщило в марте 2017 года, что производитель был вынужден отложить выпуск английской версии Bixby, поскольку у разработчиков компании возникли сложности с пониманием определенного синтаксиса и грамматики.

Как поддержка языка может улучшиться в будущем

Очевидно, что некоторые голосовые ассистенты продвинулись дальше, чем другие. Чем это обусловлено? И можно ли пришпорить развитие других? По мнению экспертов, здесь может помочь больше степень использования машинного обучения.

Одной из главных проблем, связанных с поддержкой многоязычности, есть грамматические правила, которые надо учитывать. Большинство моделей Natural Language Processing анализируют предложения, определяют части речи — идентифицируют грамматику, и создают правила, чтобы определить, как интерпретировать эту грамматику.

С «настоящим» стеком нейронных сетей, который в целом не зависит от языковых библиотек, ключевых слов и словарей, акцент смещается от грамматических структур в словарных вставок и реляционных моделей в рамках этих словарных вставок. Тогда становится возможным научить систему распознавания голоса практически любому языку.

Стартап Aiqudo из Сан-Франциско придерживается несколько иной тактики. Их технология сосредотачивает внимание на намерениях — действиях, которые должна выполнить интеллектуальная система на запрос пользователя — и создает «индексы действий» для категорий, таких как рестораны, фильмы и географии, чтобы показать данные намерения до программ услуги и функции.

Модели Aiqudo не имеют целью понимать весь язык — лишь намерения. Только пользуясь индексами действий они знают, например, что слово «Мафия» в высказывании «Сделайте бронирование на ужин на завтра в 19:00 в Мафии», скорее всего, относится к ресторану, а не к телевизионному фильму.

Без сомнения, Google, Apple, Microsoft, Amazon, Samsung и другие компании уже используют новые методы, чтобы интегрировать поддержку новых языков в своих голосовых помощниках. Но некоторые из них сделали рывок вперед уже на старте, а другие вынуждены бороться с устаревшими системами. Вот почему эксперты считают, что потребуется время, прежде чем они будут поддерживать те же самые речи.

Источник

Это также будет Вам интересно:
iMag.one - Самые важные новости достойные вашего внимания из более чем 300 изданий!