JAICP

Распознавание и синтез речи


В ботах, которые совершают и принимают звонки, используется распознавание и синтез речи.

  • Automatic Speech Recognition (ASR) или распознавание речи — процесс преобразования речи в текст.
  • Text-To-Speech (TTS) или синтез речи — процесс генерации речи по печатному тексту.

При создании телефонного канала вы можете:

Если для ASR/TTS вы используете собственное подключение, использование минут ASR/TTS Just AI для вас не тарифицируется.


Выбор провайдера

При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.

При выборе определенного провайдера для ASR/TTS в случае неполадок вам необходимо самостоятельно переключить канал на другого провайдера.

Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.


Настройка ASR и TTS

ASR

При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.


Подключение Настройки Описание
Google Язык Сервис позволяет распознавать речь на различных языках. Полный список вы найдёте в документации Google.
Модель Для распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука.

В таблице перечислены модели, доступные для каждого языка:

Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд.

Default — используйте эту модель в любых других случаях.

Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR.
Yandex Язык Сервис позволяет распознавать речь на языках:

ru-RU — русский,
en-US — английский,
tr-TR — турецкий.
Модель Для распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса.
Распознавание чисел Если параметр включен, то в распознанном тексте указываются числа, а не числительные.
Сниженная чувствительность к шуму Уменьшает чувствительность распознавания к фоновому шуму.
Tinkoff На данный момент настройка подключения недоступна.

TTS

При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.


Подключение Настройки Описание
Google Язык Сервис позволяет синтезировать речь на различных языках. Полный список вы найдёте в документации Google.
Голос Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Google.

По умолчанию используется голос:

en-US-Wavenet-A для английского;
ru-RU-Wavenet-B для русского;
cmn-CN-Wavenet-B для китайского;
Wavenet-A для других языков.
Скорость Темп или скорость речи, где 1 — нормальная скорость определенного голоса.
Высота голоса Высота голоса, где 20 — увеличение на 20 полутонов от исходного тона, а -20 — соответствующее уменьшение.
Повышение громкости Увеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении +6.0 дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать +10.0 дБ.
Yandex Язык Вы можете синтезировать речь на трех языках:

ru-RU русский;
en-US английский;
tr-TR турецкий.
Голос Сервис позволяет использовать различные голоса, полный список вы найдёте в документации Yandex. По умолчанию используется голос:

alyss для английского;
alena для русского;
alyss для других языков.
Скорость Темп или скорость речи, где 1 — нормальная скорость определенного голоса.
Aimyvoice Голос Для использования в JAICP доступны голоса Татьяна и Василий.

Aimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашей задачи, а также обучать собственные голоса на своих данных.


Yandex v3 Ранний доступ

В настройках TTS от Yandex доступен дополнительный переключатель Включить Yandex v3. Если переключатель активен, для синтеза речи используется третья версия протокола Yandex SpeechKit.

Возможность сменить версию протокола находится в раннем доступе. Обратитесь к нам по адресу sales@just-ai.com за подробной информацией.

Если используется третья версия протокола, для подключения дополнительно доступны настройки:

  • Громкость — громкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS.
  • Использовать переменные — если переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных.

Примечание 1. При использовании Yandex v3 длина фраз, которые подаются на синтез, не должна превышать 160 символов, включая пробелы и знаки препинания. В противном случае провайдер вернет ошибку.

Примечание 2. При активном переключателе Использовать переменные в сценарии не работает тег a и метод $reactions.answer. Возможно только воспроизведение аудио через тег audio или $reactions.audio, а также вызов $reactions.ttsWithVariables.