Синтез речи с переменными

Боты в телефонном канале поддерживают два основных способа формирования ответов:

Синтез речи (TTS) — генерация речи по печатному тексту.
- Для синтеза требуется создать подключение к одному из провайдеров TTS.
- Для формирования ответов из сценария используется тег a или метод $reactions.answer.
Воспроизведение аудио — использование предзаписанных аудиофайлов с записями ответов.
- Помимо работы над сценарием требуется подготовить корпус записей диктора.
- Для формирования ответов из сценария используется тег audio или метод $reactions.audio.

Основное преимущество аудио в том, что речь диктора более живая и динамичная. Это позволяет более качественно выстраивать диалог с клиентами.

Однако аудио невозможно использовать в случаях, когда бот должен озвучивать в диалоге переменные значения, зависящие от контекста: например, имя клиента, номер телефона или размер страховой суммы. В этом случае необходимо сегментировать аудио на части, внутрь которых вставлять синтезированные фрагменты, что негативно сказывается на качестве воспроизведения.

Технология синтеза речи с переменными позволяет заменить несколько слов в аудиозаписи, сделанной диктором. Замену слов (переменных) осуществляет специальная модель синтеза речи, которая обучена на аудиозаписях, сделанных тем же диктором. Такая модель способна «подстраиваться» под интонации диктора, благодаря чему переменные звучат естественно и бесшовно вклеиваются в аудиозапись.

Провайдеры

Yandex поддерживает синтез речи с переменными на базе технологии Yandex SpeechKit Brand Voice Adaptive.