नवाचारी भाषा-से-पाठ जवाब मशीन
Speech-To-Text Auto-responder मोबाइल ऑपरेटर की “वॉयस मेल” सेवा का उपयोग करने वाले उपभोक्ता को अन्य उपभोक्ताओं से आवाज संदेश को एक ऑडियो फ़ाइल (mp3) के रूप में प्राप्त करने की अनुमति देता है, साथ ही संदेश को ऑडियो रिकॉर्डिंग से पाठ में रूपांतरित करता है। इसके अलावा, संदेश को अन्य सुविधाजनक चैनलों पर पुनर्निर्देशित किया जा सकता है, उदाहरण के लिए तुरंत संवादक (टेलीग्राम), SMS, और उपभोक्ता के स्व-सेवा मोबाइल एप्लिकेशन (विशेष रूप से, “सब्सक्राइबर सहायक”) में।
ओलसॉफ्ट, मोबाइल ऑपरेटर्स के साथ काम करने का व्यापक अनुभव रखने और उनकी गतिविधियों में होने वाली विशेषताओं और मुद्दों को अच्छी तरह से जानते हुए, एक नवाचारी Speech-To-Text Answering Machine समाधान प्रस्तावित करता है, जो STC Group of Companies (Russian Federation) के साथ साझेदारी में भाषा पहचान प्रौद्योगिकियों पर आधारित है, जिसका उद्घाटन संप्रभुता को बढ़ाने और उपभोक्ताओं के “वॉयस मेल” सेवा का उपयोग विस्तारित करने के लिए किया जाता है।
तारीख
August 2020
समाधान के घटक
स्पीच-टू-टेक्स्ट ऑटो-रिस्पॉन्डर एक क्लाइंट-सर्वर समाधान है। सर्वर में डेटाबेस होस्ट होता है, जिसमें सिस्टम को संचालित करने के लिए सभी आवश्यक जानकारी संग्रहित होती है, वेब एप्लिकेशन जो क्लाइंट एप्लिकेशन को आवश्यक जानकारी प्राप्त करने की अनुमति देती है, वॉयस मैसेज स्विच, स्विच और आंतरिक और बाहरी सिस्टम के लिए एपीआई का सेट होता है।
क्लाइंट हिस्सा में सब्सक्राइबरों के लिए मोबाइल स्वयंसेवा एप्लिकेशन शामिल होते हैं। इसके अलावा, एक क्लाइंट एप्लिकेशन के रूप में टेलीग्राम जैसे तत्काल संवादकों का उपयोग करने की संभावना भी है।
सिस्टम की कार्यात्मकता
- भाषा पहचान सेवा
- चैनल वितरण सेवा
- फ्रीस्विच एपीआई
- "मोबाइल असिस्टेंट" सिस्टम के लिए एपीआई
- डेटाबेस "एसटीटी ऑटोरिस्पॉन्डर"
- बाहरी सिस्टमों के लिए एपीआई का सेट
- सांख्यिकी और मॉनिटरिंग सेवा (मीट्रिक्स)
- रिपोर्टिंग सेवा
-
ЦРТ speechpro
-
FreeSWITCH
व्यावसायिक तार्किकता
The FreeSwitch receives a call from the operator’s systems and then issues an API request to verify that the called party can record a voice message. If the called party’s number has an active subscription and its message limit has not expired, FreeSwitch records a voice message for the called party with a maximum duration of 30 seconds. After that, the recorded WAV file and call metadata are transferred to the API.
The speech-to-text agent translates speech into text format:
- यह सेवा ऑपरेटिंग सिस्टम में एक पृष्ठभूमि प्रक्रिया के रूप में चलती है।
- एजेंट 1 सेकंड के अंतराल पर कतार में संदेशों की जांच करता है, प्रति 1 परिवर्तन के लिए 10 संदेश संसाधित करने के लिए स्वीकार करता है। प्रत्येक संदेश से, फ़ाइल के लिए पथ लिया जाता है, कॉन्फ़िगर किए गए मान्यक का उपयोग करके, वाणी पहचानी जाती है और आवश्यक भाषा के अनुसार पाठ में लिखा जाता है। वाणी पहचानन ऑनलाइन (एपीआई सेवा) और ऑफ़लाइन दोनों तरीके से किया जा सकता है।
- वाणी पहचान के लिए पुस्तकालय और सेवाएं: CRT SpeechPro, Mozilla Deepspeech
- समर्थित भाषाएं: रूसी, अंग्रेज़ी, कजाख
- पहचाना गया पाठ संदेश से बाधित डेटाबेस में लिखा जाता है, और पहचाने गए वाणी वितरण एजेंट के लिए एक संदेश कतार में भेजा जाता है।
The agent for distributing recognized voice messages at intervals of 1 second checks for the presence of a message in the queue, accepting 10 messages per 1 iteration for processing. From each message, the text and subscriber number are taken using the configured message channel, the message is transmitted using the channel API to the account, according to the subscriber number. The message is delivered if the subscriber’s number is linked to a channel:
- समर्थित चैनल: टेलीग्राम मैसेंजर, बीलाइन उज़बेकिस्तान मोबाइल एप्लिकेशन
- टेलीग्राम चैनल के लिए, खाते में संदेशों को एजेंट कॉन्फ़िगरेशन में निर्दिष्ट नंबर से भेजा जाता है। संदेश भेजने के लिए मेलिंग खाता नंबर संदेश प्राप्त करने वाले खातों के संपर्कों में पंजीकृत नहीं हो सकता है।
- टेलीग्राम संदेश में पाठ सूचना और mp3 फ़ाइल शामिल होती है। mp3 फ़ाइल संदेश भेजने से पहले उत्पन्न की जाती है और भेजने के बाद हटा दी जाती है, और यदि कोई त्रुटि होती है तो