ऐ एक रेस्तरां या एक बाल नियुक्ति बुक कर सकते हैं, लेकिन एक पूर्ण बातचीत की उम्मीद नहीं है सुनिश्चित करें कि आपका AI सहायक आपके लिए अपॉइंटमेंट बुक कर सकता है, लेकिन किसी भी सार्थक बातचीत के बारे में क्या? शटरस्टॉक / बास नास्तासिया

हाल ही में Google अनावरण किया इसकी नवीनतम बात AI है, जिसे डुप्लेक्स कहा जाता है। डुप्लेक्स एक वास्तविक व्यक्ति की तरह लगता है, जो ठहराव, "उम" और "आह" के साथ पूरा होता है।

टेक दिग्गज का कहना है कि यह फोन पर लोगों से बात करने के लिए अपॉइंटमेंट ले सकता है और बिजनेस के शुरुआती घंटे चेक कर सकता है।

हेयर सैलून अपॉइंटमेंट को शेड्यूल करना डुप्लेक्स। गूगल445 KB (डाउनलोड)

Google द्वारा अनावरण किए गए रिकॉर्ड किए गए वार्तालापों में, इसने अंत में मनुष्यों के साथ निर्बाध रूप से बातचीत की, जो पूरी तरह से अनजान थे कि वे किसी अन्य व्यक्ति के साथ बात नहीं कर रहे थे।

डुप्लेक्स एक रेस्तरां बुला रहा है। गूगल399 KB (डाउनलोड)

ये कॉल बचे Google पर प्रौद्योगिकी-उन्मुख दर्शकों ने हांफते और जयकारे दिखाए। एक उदाहरण में, एआई को तब भी समझ में आया जब वह जिस व्यक्ति से बात कर रहा था वह मिला हुआ था, और बातचीत जारी रखने और उचित जवाब देने में सक्षम था जब उसे बताया गया कि उसे बुकिंग करने की आवश्यकता नहीं है।


आंतरिक सदस्यता ग्राफिक


एआई सहायकों का उदय

यदि आपने वर्तमान में उपलब्ध वॉइस असिस्टेंट में से किसी का उपयोग किया है, जैसे कि Google होम, Apple का सिरी या अमेज़न इको, यह लचीलापन आपको आश्चर्यचकित कर सकता है। ये सहायक हैं कुख्यात मुश्किल मानक अनुरोधों के अलावा किसी अन्य चीज़ के लिए उपयोग करने के लिए जैसे किसी संपर्क को फोन करना, एक गाना बजाना, एक साधारण वेब खोज करना, या एक अनुस्मारक सेट करना।

जब हम इन वर्तमान पीढ़ी के सहायकों से बात करते हैं, तो हम हमेशा इस बात से अवगत होते हैं कि हम एक AI से बात कर रहे हैं और हम अक्सर अपने अनुसार क्या कहते हैं, इस तरह से काम करने की हमारी संभावनाओं को अधिकतम करते हैं।

लेकिन डुप्लेक्स से बात कर रहे लोगों को कुछ पता नहीं था। वे हिचकिचाते थे, पीछे हटते थे, शब्दों को छोड़ देते थे और यहां तक ​​कि बदले हुए तथ्यों को एक वाक्य के माध्यम से बदल देते थे। डुप्लेक्स ने एक हरा नहीं किया। यह वास्तव में समझ में आ रहा था कि क्या चल रहा था।


अधिक पढ़ें: स्मार्ट स्पीकर होम ऑटोमेशन के लिए टिपिंग पॉइंट हो सकते हैं


तो क्या भविष्य किसी की अपेक्षा से पहले आ गया है? क्या दुनिया ऑनलाइन (और ऑन-फोन) एआई सहायकों को खुशी से चैट करने और हमारे लिए सब कुछ करने से भरा है? या इससे भी बदतर, क्या हम अचानक अपने विचारों और विचारों के साथ बुद्धिमान एआई से घिरे होंगे जो हमें मनुष्यों को शामिल कर सकते हैं या नहीं कर सकते हैं?

जवाब एक निश्चित "नहीं" है। यह समझने के लिए कि, यह एक एअर इंडिया जैसे एक ड्राइव पर हुड के तहत एक त्वरित नज़र लेने में मदद करता है।

द्वैध: यह कैसे काम करता है

यह क्या है डुप्लेक्स एआई प्रणाली की तरह लगता है।

आने वाली ध्वनि एक एएसआर प्रणाली के माध्यम से संसाधित होती है। यह पाठ का उत्पादन करता है जिसे संदर्भ डेटा और अन्य इनपुट के साथ प्रतिक्रिया पाठ का उत्पादन करने के लिए विश्लेषण किया जाता है जो पाठ से वाक् (टीटीएस) प्रणाली के माध्यम से जोर से पढ़ा जाता है। गूगल

सिस्टम "इनपुट" (बाईं ओर दिखाया गया है) लेता है जो उस व्यक्ति की आवाज है जिसे वह फोन पर बात कर रहा है। आवाज स्वचालित भाषण मान्यता (एएसआर) के माध्यम से जाती है और पाठ (लिखित शब्द) में परिवर्तित हो जाती है। ASR अपने आप में एक उन्नत AI सिस्टम है, लेकिन एक प्रकार का जो पहले से मौजूद वॉयस असिस्टेंट में आम उपयोग में है।

तब पाठ को इस प्रकार निर्धारित करने के लिए स्कैन किया जाता है कि यह किस प्रकार का है (जैसे अभिवादन, कथन, प्रश्न या निर्देश) और कोई महत्वपूर्ण जानकारी निकाल सकते हैं। महत्वपूर्ण जानकारी तब संदर्भ का हिस्सा बन जाती है, जो अतिरिक्त इनपुट है जो सिस्टम को वार्तालाप में अब तक कही गई बातों के साथ अपडेट रखता है।

एएसआर और कॉन्सेप्ट के पाठ को फिर डुप्लेक्स के दिल में भेजा जाता है, जिसे आर्टिफिशियल न्यूरल नेटवर्क (एएनएन) कहा जाता है।

ऊपर दिए गए आरेख में, ANN को मंडलियों और उन्हें जोड़ने वाली रेखाओं द्वारा दिखाया गया है। ANN हमारे दिमाग पर शिथिल रूप से अंकित हैं, जिसमें अरबों न्यूरॉन्स एक साथ विशाल नेटवर्क में जुड़े होते हैं।

काफी दिमाग नहीं, फिर भी

एएनएन हमारे दिमाग की तुलना में बहुत सरल हैं। केवल एक चीज जो यह करने की कोशिश करती है वह एक उचित प्रतिक्रिया के साथ इनपुट शब्दों से मेल खाती है। ANN रेस्तरां के लिए बुकिंग करने वाले लोगों के हजारों वार्तालापों के टेप दिखाए जा रहे हैं।

पर्याप्त उदाहरणों के साथ, यह सीखता है कि जिस व्यक्ति से यह बात कर रहा है उससे किस प्रकार के इनपुट वाक्यों की अपेक्षा की जाए, और प्रत्येक के लिए किस प्रकार की प्रतिक्रियाएं दी जाएं।

पाठ प्रतिक्रिया जो एएनएन उत्पन्न करती है, फिर उसे टेक्स्ट-टू-स्पीच (टीटीएस) सिंथेसाइज़र के लिए भेजा जाता है, जो इसे बोले गए शब्दों में परिवर्तित कर देता है जो बाद में फोन पर व्यक्ति को खेला जाता है।

एक बार फिर, यह टीटीएस सिंथेसाइज़र एक उन्नत एआई है - इस मामले में यह आपके फोन पर एक से अधिक उन्नत है, क्योंकि यह किसी भी सामान्य आवाज से लगभग अप्रभेद्य लगता है।

यही सब है इसके लिए। यह अत्याधुनिक होने के बावजूद, प्रणाली का दिल वास्तव में सिर्फ एक पाठ मिलान प्रक्रिया है। लेकिन आप पूछ सकते हैं - अगर यह इतना आसान है, तो हम इसे पहले क्यों नहीं कर सकते थे?

एक सीखा प्रतिक्रिया

तथ्य यह है कि मानव भाषा, और वास्तविक दुनिया में अधिकांश अन्य चीजें, सामान्य कंप्यूटर द्वारा अच्छी तरह से संभाला जाने के लिए बहुत अधिक परिवर्तनशील और अव्यवस्थित हैं, लेकिन इस तरह की समस्या एआई के लिए एकदम सही है।

ध्यान दें कि AI द्वारा उत्पादित आउटपुट पूरी तरह से वार्तालापों पर निर्भर करता है, जबकि यह सीख रहा था।

इसका मतलब यह है कि विभिन्न प्रकार की बुकिंग करने के लिए अलग-अलग एआई को प्रशिक्षित करने की आवश्यकता होती है - इसलिए, उदाहरण के लिए, एक एआई रेस्तरां की बुकिंग कर सकता है और दूसरा हेयर अपॉइंटमेंट बुक कर सकता है।

यह आवश्यक है क्योंकि विभिन्न प्रकार के बुकिंग के लिए प्रश्नों और प्रतिक्रियाओं के प्रकार इतने भिन्न हो सकते हैं। यह भी है कि सामान्य आवाज सहायकों की तुलना में डुप्लेक्स इतना बेहतर कैसे हो सकता है, जिसे कई प्रकार के अनुरोधों को संभालने की आवश्यकता है।

इसलिए अब यह स्पष्ट होना चाहिए कि हम जल्द ही किसी भी समय हमारे एआई सहायकों के साथ आकस्मिक बातचीत नहीं करेंगे। वास्तव में, हमारे सभी मौजूदा एआई वास्तव में पैटर्न मैचर्स (इस मामले में, पाठ के मिलान वाले पैटर्न) से ज्यादा कुछ नहीं हैं। वे नहीं समझते कि वे क्या सुनते हैं, या वे क्या देखते हैं, या वे क्या कहते हैं।

पैटर्न मिलान हमारे दिमाग की एक बात है, लेकिन वे भी बहुत कुछ करते हैं। अधिक शक्तिशाली एआई बनाने की कुंजी मस्तिष्क के रहस्यों को और अधिक अनलॉक करने के लिए हो सकती है। क्या हम चाहते हैं? यहीहै एक और प्रश्न.वार्तालाप

के बारे में लेखक

पीटर स्ट्रैटन, पोस्टडॉक्टोरल रिसर्च फेलो, क्वींसलैंड विश्वविद्यालय

इस लेख से पुन: प्रकाशित किया गया है वार्तालाप क्रिएटिव कॉमन्स लाइसेंस के तहत। को पढ़िए मूल लेख.