Распознавание и синтез речи

В ботах, которые совершают и принимают звонки, используется распознавание и синтез речи.

Automatic Speech Recognition (ASR) или распознавание речи — процесс преобразования речи в текст.
Text-To-Speech (TTS) или синтез речи — процесс генерации речи по печатному тексту.

При создании телефонного канала вы можете:

Выбрать одного из провайдеров ASR/TTS, предоставляемых Just AI.
- В этом случае из интерфейса JAICP вы можете задать настройки синтеза и распознавания речи: например, выбрать модель распознавания, голос для синтеза и другие параметры.
Создать подключение с использованием собственного аккаунта одного из провайдеров ASR/TTS.

Если для ASR/TTS вы используете собственное подключение, использование минут ASR/TTS Just AI для вас не тарифицируется.

Выбор провайдера

При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.

При выборе определенного провайдера для ASR/TTS в случае неполадок вам необходимо самостоятельно переключить канал на другого провайдера.

Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.

Настройка ASR и TTS

ASR

При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.

Подключение	Настройки	Описание
Google	Язык	Сервис позволяет распознавать речь на различных языках. Полный список вы найдёте в документации Google.
	Модель	Для распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука. В таблице перечислены модели, доступные для каждого языка: Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд. Default — используйте эту модель в любых других случаях. Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR.
Yandex	Язык	Сервис позволяет распознавать речь на языках: `ru-RU` — русский, `en-US` — английский, `tr-TR` — турецкий.
	Модель	Для распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса.
	Распознавание чисел	Если параметр включен, то в распознанном тексте указываются числа, а не числительные.
	Сниженная чувствительность к шуму	Уменьшает чувствительность распознавания к фоновому шуму.
Tinkoff		На данный момент настройка подключения недоступна.

TTS

При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.

Подключение	Настройки	Описание
Google	Язык	Сервис позволяет синтезировать речь на различных языках. Полный список вы найдёте в документации Google.
	Голос	Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Google. По умолчанию используется голос: `en-US-Wavenet-A` для английского; `ru-RU-Wavenet-B` для русского; `cmn-CN-Wavenet-B` для китайского; `Wavenet-A` для других языков.
	Скорость	Темп или скорость речи, где `1` — нормальная скорость определенного голоса.
	Высота голоса	Высота голоса, где `20` — увеличение на 20 полутонов от исходного тона, а `-20` — соответствующее уменьшение.
	Повышение громкости	Увеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении `+6.0` дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать `+10.0` дБ.
Yandex	Язык	Вы можете синтезировать речь на трех языках: `ru-RU` русский; `en-US` английский; `tr-TR` турецкий.
	Голос	Сервис позволяет использовать различные голоса, полный список вы найдёте в документации Yandex. По умолчанию используется голос: `alyss` для английского; `alena` для русского; `alyss` для других языков.
	Скорость	Темп или скорость речи, где `1` — нормальная скорость определенного голоса.
Aimyvoice	Голос	Для использования в JAICP доступны голоса Татьяна и Василий.

Aimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашей задачи, а также обучать собственные голоса на своих данных.

Yandex v3 Ранний доступ

В настройках TTS от Yandex доступен дополнительный переключатель Включить Yandex v3. Если переключатель активен, для синтеза речи используется третья версия протокола Yandex SpeechKit.

Возможность сменить версию протокола находится в раннем доступе. Обратитесь к нам по адресу sales@just-ai.com за подробной информацией.

Если используется третья версия протокола, для подключения дополнительно доступны настройки:

Громкость — громкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS.
Использовать переменные — если переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных.

Примечание 1. При использовании Yandex v3 длина фраз, которые подаются на синтез, не должна превышать 160 символов, включая пробелы и знаки препинания. В противном случае провайдер вернет ошибку.

Примечание 2. При активном переключателе Использовать переменные в сценарии не работает тег a и метод $reactions.answer. Возможно только воспроизведение аудио через тег audio или $reactions.audio, а также вызов $reactions.ttsWithVariables.