
Инновационный автоответчик для преобразования речи в текст
Автоответчик "Speech-to-Text" позволяет абоненту, использующему услугу оператора "Голосовая почта" получать голосовые сообщения от других абонентов, в виде аудиофайла (mp3), а также текста, сконвертированного из аудиозаписи сообщения, в удобные для него каналы, например мессенджеры ( Telegram), SMSа также в мобильное приложение самообслуживания абонента (в частности, "Помощник абонента").
Компания OLSOFT, обладая большим опытом работы с операторами сотовой связи и будучи хорошо осведомленной о специфике и проблематике их деятельности, предлагает решение инновационного Speech-To-Text Answering Machine функционирующее на базе технологий распознования речи в партнерстве с Группой компаний ЦРТ (Российская Федерация) Speech-To-Text Автоответчика, функционирующее на базе технологий распознавания речи в партнерстве с Группой компаний ЦРТ (Российская Федерация) для повышения лояльности абонентов и расширения использования ими услуги "Голосовая почта" .
Дата
August 2020
Составляющие решения
Решение представляет из себя клиент-серверное решение. Непосредственно на сервере размещается База Данных, в которой хранится вся необходимая информация для работы системы, Web-приложение, которое позволяет клиентским приложениям получать нужную информацию, коммутатор голосовых сообщений, набор API для коммутатора, внутренних и внешних систем.
Клиентская часть включает мобильные приложения самообслуживания абонентов/ Также предусмотрено использование в качестве клиентских приложений мессенджеров, таких как Telegram.
Функционал системы
- Сервис распознования речи
- Служба распределения каналов
- API-интерфейс FreeSwitch
- API для системы «Помощник абонента»
- База данных "СТТ Автоответчик"
- Набор API для внешних систем
- Сервис статистики и мониторинга (метрики)
- Сервис отчетности
Бизнес-логика
Коммутатор The Free Switch принимает звонок от систем оператора, после чего выполняет запрос в API для проверки возможности записи голосового сообщения для вызываемого абонента. Если номер вызываемого абонента имеет активную подписку, и у него не истек лимит возможного количества сообщений, то FreeSwitch осуществляет запись голосового сообщения для вызываемого абонента с максимальной длительностью в 30 секунд. После чего записанный файл в формате WAV и метаданные звонка передаются в API.
Агент распознавания речи в текст переводит речь в текстовый формат:
- Сервис работает как фоновый процесс в ОС
- Агент с периодичностью в 1 секунду проверяет наличие сообщений в очереди, принимает по 10 сообщений за 1 итерацию для обработки. Из каждого сообщения берется путь к файлу, используя настроенный распознаватель выполняется идентификация речи и ее транскрипция в текст согласно требуемому языку. Распознавание речи может осуществляться как онлайн (API сервис), так и офлайн
- Используемые библиотеки и сервисы для распознавания речи: CRT SpeechPro, Mozilla Deepspeech
- Поддерживаемые языки: русский, английский и казахский
- Распознанный текст записывается в БД с привязкой к сообщению и в очередь отправляется сообщение для агента рассылки распознанной речи.
Агент рассылки распознанных голосовых сообщений с периодичностью в 1 сек проверяет наличие сообщение в очереди, принимая по 10 сообщений за 1 итерацию для обработки. Из каждого сообщения берется текст и номер абонента, используя настроенный канал сообщений, сообщение передается, используя API канала на аккаунт, по номеру абонента. Сообщение доставляется в том случае, если номер абонента привязан к каналу:
- Поддерживаемые каналы: мессенджер Telegram, мобильное приложение Beeline Uzbekistan
- Для канала Telegram рассылка на аккаунты осуществляется с номера, прописанного в конфигурации агента. Номер аккаунта рассылки может быть не зарегистрирован в контактах аккаунтов, на которые осуществляется рассылка
- Сообщение для телеграмма состоит из текстовой информации и mp3 файла. Mp3 файл генерируется непосредственно перед отправкой сообщения и удаляется после отправки, так и в случае возникновения ошибки.