Перейти к основному содержимому

Выбор ASR/TTS-провайдера

При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.

предупреждение
Если вы выбрали определенного провайдера для ASR/TTS, в случае неполадок вам необходимо самостоятельно переключить канал на другого провайдера.

Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.

Настройка ASR

При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.

ПодключениеНастройкиОписание
GoogleЯзыкСервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Google.
МодельДля распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука.
В таблице перечислены модели, доступные для каждого языка:
Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд.
Default — используйте эту модель в любых других случаях.
Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR.
ЯндексЯзыкСервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Яндекса.
МодельДля распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса.
Распознавание чиселЕсли параметр включен, то в распознанном тексте указываются числительные, а не числа (например, тринадцать вместо 13).
Сниженная чувствительность к шумуУменьшает чувствительность распознавания к фоновому шуму.
TinkoffУ подключения ASR от Tinkoff нет дополнительных настроек.
AzureЯзыкСервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Microsoft.
АСМ РешенияМодельДля распознавания используется одна из моделей машинного обучения. АСМ Решения обучили эти модели на данных из различных предметных областей.
SaluteSpeechСервис поддерживает только русский язык. Чтобы использовать его, сначала создайте подключение.

Настройка TTS

При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.

ПодключениеНастройкиОписание
GoogleЯзыкСервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Google.
ГолосСервис позволяет использовать различные голоса. Полный список вы найдете в документации Google. По умолчанию используется голос:
en-US-Wavenet-A для английского;
ru-RU-Wavenet-B для русского;
cmn-CN-Wavenet-B для китайского;
Wavenet-A для других языков.
СкоростьТемп или скорость речи, где 1 — нормальная скорость определенного голоса.
Высота голосаВысота голоса, где 20 — увеличение на 20 полутонов от исходного тона, а -20 — соответствующее уменьшение.
Повышение громкостиУвеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении +6.0 дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать +10.0 дБ.
ЯндексЯзыкСервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Яндекса.
ГолосСервис позволяет использовать различные голоса. Полный список вы найдете в документации Яндекса. По умолчанию используется голос:
alena для русского;
alyss для других языков.
СкоростьТемп или скорость речи, где 1 — нормальная скорость определенного голоса.
AzureГолосСервис позволяет использовать различные голоса. Полный список вы найдете в документации Microsoft.
JAICP поддерживает работу только с нейронными голосами. В названии таких голосов должно быть слово «neural».
AimyvoiceГолосAimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашего проекта (например, игры или аудиокниги), а также обучать собственные голоса на своих наборах.
SaluteSpeechСервис поддерживает только русский язык. Чтобы использовать его, сначала создайте подключение.
подсказка
Пользовательские голоса, которые вы сами создали и обучили, отсутствуют в выпадающем списке доступных голосов. Чтобы использовать их, введите название голоса вручную.

Yandex v3

В настройках TTS от Яндекса доступен дополнительный переключатель Включить Yandex v3. Если переключатель активен, для синтеза речи используется третья версия протокола Yandex SpeechKit.

к сведению

Возможность сменить версию протокола находится в раннем доступе. Обратитесь к нам по адресу client@just-ai.com за подробной информацией.

Если используется третья версия протокола, для подключения дополнительно доступны настройки:

  • Громкость — громкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS.
  • Использовать переменные — если переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных.
осторожно
  • При использовании Yandex v3 длина фраз, которые подаются на синтез, не должна превышать 250 символов на протяжении 24 секунд, включая пробелы и знаки препинания. В противном случае провайдер вернет ошибку.

  • При активном переключателе Использовать переменные в сценарии не работает тег a и метод $reactions.answer. Возможно только воспроизведение аудио через тег audio или $reactions.audio, а также вызов $reactions.ttsWithVariables.