Синтез речи с переменными
Боты в телефонном канале поддерживают два основных способа формирования ответов:
-
Синтез речи (TTS) — генерация речи по печатному тексту.
- Для синтеза требуется создать подключение к одному из провайдеров TTS.
- Для формирования ответов из сценария используется тег
aили метод$reactions.answer.
-
Воспроизведение аудио — использование предзаписанных аудиофайлов с записями ответов.
- Помимо работы над сценарием требуется подготовить корпус записей диктора.
- Для формирования ответов из сценария используется тег
audioили метод$reactions.audio.
Основное преимущество аудио в том, что речь диктора более живая и динамичная. Это позволяет более качественно выстраивать диалог с клиентами.
Однако аудио невозможно использовать в случаях, когда бот должен озвучивать в диалоге переменные значения, зависящие от контекста: например, имя клиента, номер телефона или размер страховой суммы. В этом случае необходимо сегментировать аудио на части, внутрь которых вставлять синтезированные фрагменты, что негативно сказывается на качестве воспроизведения.
Технология синтеза речи с переменными позволяет заменить несколько слов в аудиозаписи, сделанной диктором. Замену слов (переменных) осуществляет специальная модель синтеза речи, которая обучена на аудиозаписях, сделанных тем же диктором. Такая модель способна «подстраиваться» под интонации диктора, благодаря чему переменные звучат естественно и бесшовно вклеиваются в аудиозапись.
Провайдеры
Yandex поддерживает синтез речи с переменными на базе технологии Yandex SpeechKit Brand Voice Adaptive.