Гибридный синтез от Just AI
Вы можете использовать технологию гибридного синтеза речи от Just AI. Эта технология позволяет заменить несколько слов в аудиозаписи, сделанной диктором, прямо во время звонка. Например, бот сможет обратиться к клиенту по имени или озвучить номер телефона клиента.
Использование гибридного синтеза по стоимости сопоставимо с использованием синтеза речи (TTS, Text‑to‑Speech). Подробную информацию о стоимости вам расскажет аккаунт-менеджер. Он свяжется с вами, когда вы отправите заявку на подключение.
Чтобы начать использовать гибридный синтез речи:
- Отправьте заявку на подключение.
- Создайте шаблон реплики и укажите переменные.
- Протестируйте реплику.
- Используйте реплику в сценарии бота.
Подключение
Чтобы подключить технологию гибридного синтеза речи, необходимо отправить заявку вашему аккаунт-менеджеру:
- Авторизуйтесь в JAICP.
- Нажмите на верхней панели, выберите Гибридный синтез речи и нажмите Подключить.
- Заполните поля в форме запроса и нажмите Отправить.
Ваш аккаунт-менеджер получит заявку и свяжется с вами, чтобы уточнить детали и подключить технологию.
Создание шаблона реплики
1. Подготовка аудиозаписи
Чтобы добавить шаблон реплики, подготовьте аудиозапись, сделанную диктором. Файл и аудио должны соответствовать требованиям:
- Формат файла: WAV.
- Глубина аудио: от 16 бит.
- Длительность аудио: до 15 сек.
- Канал: 1 (моно).
- Частота дискретизации: от 22 кГц.
2. Добавление шаблона
-
Нажмите на верхней панели и выберите Гибридный синтез речи.
-
Добавьте реплику одним из способов:
- нажмите кнопку Добавить шаблон реплики на верхней панели;
- нажмите ссылку Загрузить аудиофайл и выберите аудиофайл;
- перетащите аудиофайл в указанную область.
Откроется окно создания нового шаблона реплики:
-
Укажите ID шаблона и выберите голос, используемый в аудиозаписи.
Список доступных голосов определяется вашим аккаунт-менеджером на этапе подключения технологии.
-
Загрузите аудиофайл, если он еще не был загружен.
-
В поле Текст шаблона реплики введите текст с аудиозаписи. Вы можете указать переменные в тексте или сделать это позже.
Требования к заполнению
• Текст должен полностью совпадать с текстом аудиозаписи.
• Для записи текста используйте кириллицу. Буквы латинского алфавита допустимы только для записи имени переменной.
• В тексте не должно быть цифр, аббревиатур и других сокращений. Записывайте их полностью:8:00
→восемь ноль ноль
,и т. д.
→и так далее
.
• Формат записи переменных:{name: значение}
, гдеname
— имя переменной. Реплика может содержать до 3 переменных.
• Если в шаблоне реплики несколько переменных, то их значения должны быть разными.Например, текст аудиозаписи
Андрей Петрович, добрый день! Ваша задолженность по кредиту составляет двести рублей.
после разметки переменных может выглядеть так:{name: Андрей Петрович}, добрый день! Ваша задолженность по кредиту составляет {amount: двести рублей}.
-
Нажмите Добавить. Шаблон реплики появится в списке.
Тестирование и редактирование реплики
После того как вы добавили шаблон, протестируйте, как будет звучать реплика, и отредактируйте шаблон, если нужно. Чтобы приступить к тестированию:
- Выберите шаблон реплики в списке.
- В панели справа перейдите в нужный раздел, чтобы прослушать, как будет звучать реплика:
- при других значениях переменных — Тестирование переменных;
- при другой скорости произнесения переменных — Скорость. В этом же разделе вы можете применить новую скорость.
Чтобы загрузить новое аудио или выбрать другой голос, перейдите в раздел Настройки в панели справа.
Чтобы отредактировать текст аудиозаписи, поставьте курсор в поле с текстом в карточке нужного шаблона:

Использование
-
В сценарии
Чтобы использовать в сценарии реплики, сгенерированные с помощью гибридного синтеза речи, вам потребуется метод
$imputer.generateAudioUrl
. -
Через API
Вы также можете получать реплики, сгенерированные с помощью гибридного синтеза речи, через Imputer API. Это позволяет использовать технологию не только в сценарии бота в JAICP, но и во внешних сервисах.
При генерации реплик могут возникать задержки — паузы в диалоге бота с абонентом. Клиенты могут чувствовать себя некомфортно во время разговора с ботом. Кэшируйте реплику заранее — перед ее использованием в сценарии, чтобы избежать таких задержек. Сделать это можно при помощи методов:
$imputer.cacheAudio
(в сценарии);POST /api/imputer/p/{accessToken}/imputing/cache-audio
(через API).
Отчет об использовании
На странице Гибридный синтез речи вы можете скачать отчет, в котором будет информация о дате и объемах использования сервиса:
-
В столбце Service API Calls указывается, сколько раз были вызваны методы генерации и кэширования реплик, в том числе без переменных.
Если вы кэшировали реплику, а затем сгенерировали ее, будет учтен только вызов метода кэширования.
-
В столбце Test Calls указывается количество воспроизведений реплик на странице Гибридный синтез речи в блоках Тестирование переменных и Скорость.
Особенности звучания
Учитывайте, что реплики, сгенерированные при помощи гибридного синтеза, отличаются по звучанию от изначальных аудиозаписей. Это происходит, даже если в реплику не вставляются переменные значения.
Если вы планируете использовать в сценарии реплики без переменных, добавьте их в качестве шаблонов на странице Гибридный синтез речи, а затем используйте удобным способом. В этом случае звучание будет одинаковым для всех реплик: с переменными и без.
За такую генерацию реплики без переменных вы будете платить только один раз, даже если реплика используется в сценарии несколько раз.