Распознавание и синтез речи
В ботах, которые совершают и принимают звонки, используется распознавание и синтез речи.
- Automatic Speech Recognition (ASR) или распознавание речи — процесс преобразования речи в текст.
- Text-To-Speech (TTS) или синтез речи — процесс генерации речи по печатному тексту.
При создании телефонного канала вы можете:
- Выбрать одного из провайдеров ASR/TTS, предоставляемых Just AI.
- В этом случае из интерфейса JAICP вы можете задать настройки синтеза и распознавания речи: например, выбрать модель распознавания, голос для синтеза и другие параметры.
- Создать подключение с использованием собственного аккаунта одного из провайдеров ASR/TTS.
Если для ASR/TTS вы используете собственное подключение, использование минут ASR/TTS Just AI для вас не тарифицируется.
Выбор провайдера
При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.
При выборе определенного провайдера для ASR/TTS в случае неполадок вам необходимо самостоятельно переключить канал на другого провайдера.
Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.
Настройка ASR и TTS
ASR
При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.
| Подключение | Настройки | Описание |
|---|---|---|
| Язык | Сервис позволяет распознавать речь на различных языках. Полный список вы найдёте в документации Google. | |
| Модель | Для распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука. В таблице перечислены модели, доступные для каждого языка: Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд. Default — используйте эту модель в любых других случаях. Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR. |
|
| Yandex | Язык | Сервис позволяет распознавать речь на языках: ru-RU — русский, en-US — английский, tr-TR — турецкий. |
| Модель | Для распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса. |
|
| Распознавание чисел | Если параметр включен, то в распознанном тексте указываются числа, а не числительные. | |
| Сниженная чувствительность к шуму | Уменьшает чувствительность распознавания к фоновому шуму. | |
| Tinkoff | На данный момент настройка подключения недоступна. |
TTS
При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.
| Подключение | Настройки | Описание |
|---|---|---|
| Язык | Сервис позволяет синтезировать речь на различных языках. Полный список вы найдёте в документации Google. | |
| Голос | Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Google. По умолчанию используется голос: en-US-Wavenet-A для английского;ru-RU-Wavenet-B для русского; cmn-CN-Wavenet-B для китайского; Wavenet-A для других языков. |
|
| Скорость | Темп или скорость речи, где 1 — нормальная скорость определенного голоса. |
|
| Высота голоса | Высота голоса, где 20 — увеличение на 20 полутонов от исходного тона, а -20 — соответствующее уменьшение. |
|
| Повышение громкости | Увеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении +6.0 дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать +10.0 дБ. |
|
| Yandex | Язык | Вы можете синтезировать речь на трех языках:ru-RU русский; en-US английский; tr-TR турецкий. |
| Голос | Сервис позволяет использовать различные голоса, полный список вы найдёте в документации Yandex. По умолчанию используется голос: alyss для английского;alena для русского; alyss для других языков. |
|
| Скорость | Темп или скорость речи, где 1 — нормальная скорость определенного голоса. |
|
| Aimyvoice | Голос | Для использования в JAICP доступны голоса Татьяна и Василий. |
Aimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашей задачи, а также обучать собственные голоса на своих данных.
Yandex v3 Ранний доступ
В настройках TTS от Yandex доступен дополнительный переключатель Включить Yandex v3. Если переключатель активен, для синтеза речи используется третья версия протокола Yandex SpeechKit.
Возможность сменить версию протокола находится в раннем доступе. Обратитесь к нам по адресу sales@just-ai.com за подробной информацией.
Если используется третья версия протокола, для подключения дополнительно доступны настройки:
- Громкость — громкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS.
- Использовать переменные — если переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных.
Примечание 1. При использовании Yandex v3 длина фраз, которые подаются на синтез, не должна превышать 160 символов, включая пробелы и знаки препинания. В противном случае провайдер вернет ошибку.
Примечание 2. При активном переключателе Использовать переменные в сценарии не работает тег a и метод $reactions.answer.
Возможно только воспроизведение аудио через тег audio или $reactions.audio, а также вызов $reactions.ttsWithVariables.