Распознавание и синтез речи

В ботах, которые совершают и принимают звонки используется синтез и распознавание речи, TTS и ASR, соответственно.

Text-To-Speech (TTS) или синтез речи — процесс генерирования речи по печатному тексту.
Automatic Speech Recognition (ASR) или распознавание речи — процесс преобразования речи в текст.

При создании телефонного канала вы можете:

Выбрать провайдеров, а также настроить синтез и распознавание речи. Например, выбрать голос или модель распознавания. Или оставить стандартные настройки по умолчанию.
Создать подключение с использованием собственного аккаунта одного из провайдеров для распознавания и синтеза речи.

Выбор провайдера

При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.

Обратите внимание, что при выборе определенного провайдера для ASR и TTS в случае неполадок вам необходимо самостоятельно переключить канал на другого поставщика.

Также вы можете оставить вариант По умолчанию, в этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у провайдеров, канал будет переключен на другого поставщика.

Настройка ASR и TTS

ASR

При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.

Подключение	Настройки	Описание
Google	Язык	Сервис позволяет распознавать речь на различных языках. Полный список вы найдёте здесь. По умолчанию используется английский язык `en-US`.

       | *Модель* | Для распознавания речи используется [одна из моделей машинного обучения](https://cloud.google.com/speech-to-text/docs/basics#select-model). Google обучил эти модели для определенных типов и источников звука. </br> </br> В [таблице](https://cloud.google.com/speech-to-text/docs/languages) перечислены модели, доступные для каждого языка: </br> </br> `Phone call` — используйте эту модель для распознавания речи во время телефонного звонка. </br> </br> `Command and search` — используйте эту модель для распознавания речи в коротких аудиофайлах, например, голосовые команды. </br> </br> `Default` — используйте эту модель, если ранее описанные не подошли.

Yandex | Язык | Сервис позволяет распознавать речь на языках:

ru-RU (по умолчанию) — русский,
en-US — английский,
tr-TR — турецкий. | Модель | Для распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса.

Tinkoff | | На данный момент настройка подключения недоступна.

TTS

При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.

Подключение	Настройки	Описание
Google	Язык	Сервис позволяет синтезировать речь на различных языках. Полный список вы найдёте здесь.

       | *Голос* | Сервис позволяет использовать различные голоса, полный список вы найдёте [здесь](https://cloud.google.com/text-to-speech/docs/voices). </br> </br> По умолчанию используется голос: </br> </br>`en-US-Wavenet-A` для английского;</br> ` ru-RU-Wavenet-B` для русского; </br> `cmn-CN-Wavenet-B` для китайского; </br> `Wavenet-A` для других языков.
       | *Скорость* | Темп или скорость речи. Где `1` — нормальная скорость определенного голоса.
       | *Высота голоса* | Высота голоса. Где `20` — увеличение на 20 полутонов от исходного тона, а `-20` соответствующее уменьшение.
       | *Повышение громкости* | Увеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении `+6.0` дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать `+10.0` дБ.

Яндекс | Язык | Вы можете синтезировать речь на трех языках:

ru-RU русский;
en-US английский;
tr-TR турецкий. | Голос | Сервис позволяет использовать различные голоса, полный список вы найдёте здесь. По умолчанию используется голос:

alyss для английского;
alena для русского;
alyss для других языков. | Скорость | Темп или скорость речи. Где 1 — нормальная скорость определенного голоса.