主頁(yè) > 知識(shí)庫(kù) > 微軟小冰武威：聊天機(jī)器人的演進(jìn)之路

微軟小冰武威：聊天機(jī)器人的演進(jìn)之路

　　聊天機(jī)器人一直都是一個(gè)性感的話題，電影《Her》中那個(gè)風(fēng)趣又善解人意的虛擬戀人，可謂是我們對(duì)于人工智能技術(shù)的美好遐想，但要達(dá)到那一步對(duì)于我們還是一場(chǎng)長(zhǎng)途跋涉。

　　但這絲毫不影響當(dāng)下聊天機(jī)器人的火熱，尤其是隨著近兩年智能音箱的爆發(fā)。在AI的舞臺(tái)上，微軟小冰是一個(gè)明星人物，憑借著鄰家女孩溫柔可人般的形象，以及良好的交互體驗(yàn)，可謂風(fēng)靡萬(wàn)千少男少女。

　　自2014年誕生以來(lái)，在微軟（亞洲）互聯(lián)網(wǎng)工程院諸位技術(shù)大牛的辛勤培育下，目前已經(jīng)成長(zhǎng)至第六代，從最初的閑聊走入更多應(yīng)用場(chǎng)景，從大家熟悉的主持節(jié)目、唱歌、講故事、寫(xiě)詩(shī)，到新聞評(píng)論、金融、智能家居、手機(jī)助手等都有它的蹤影。

　　在近期舉辦的自然語(yǔ)言處理領(lǐng)域的世界頂級(jí)會(huì)議之一EMNLP（Empirical Methods in Natural Language Processing）上，作為6場(chǎng)Tutorial分享之一，微軟小冰團(tuán)隊(duì)總結(jié)了他們?cè)诹奶鞕C(jī)器人領(lǐng)域的探索。

▲微軟小冰首席科學(xué)家武威博士

　　近期，智東西來(lái)到微軟（亞洲）互聯(lián)網(wǎng)工程院，與微軟小冰首席科學(xué)家武威博士圍繞聊天機(jī)器人技術(shù)進(jìn)行一場(chǎng)深入溝通。透過(guò)微軟小冰背后人機(jī)交互技術(shù)的演進(jìn)，我們看到了小冰由最初單一模態(tài)的文字回復(fù)升級(jí)到如今可以用語(yǔ)音、文字、圖像等多模態(tài)的交互，其背后對(duì)話模型也由檢索模型升級(jí)到生成模型、共感模型，小冰由最初靜態(tài)、被動(dòng)的聊天機(jī)器人變成了一個(gè)動(dòng)態(tài)、交互性更強(qiáng)的虛擬助手。

　　一、從單一模態(tài)到多模態(tài)演進(jìn)

　　四年前，剛誕生的微軟小冰只能在微信中被動(dòng)的回復(fù)用戶的文字消息，而如今它已經(jīng)成長(zhǎng)到第六代，逐漸具備了語(yǔ)音、視覺(jué)的能力；在交互能力上，也實(shí)現(xiàn)了從被動(dòng)回復(fù)到主動(dòng)交互的轉(zhuǎn)變；在與6.6億人類用戶的交談中，小冰的交互體驗(yàn)越來(lái)越好。

　　武威就微軟小冰的技術(shù)迭代談道，最開(kāi)始小冰是一個(gè)單一模態(tài)（文字）的聊天機(jī)器人，等到了第三代的時(shí)候，小冰有了視覺(jué)感官。當(dāng)時(shí)用戶發(fā)送一張照片給小冰，小冰就可以看到這張照片，并基于這張照片跟用戶進(jìn)行聊天。

　　而隨著小冰升級(jí)到第五代后，它有了實(shí)時(shí)視覺(jué)感官，此時(shí)小冰擁有了對(duì)視覺(jué)信息的動(dòng)態(tài)感知能力。比如當(dāng)你從小冰面前走過(guò)，向它揮手，它可以感知到這些動(dòng)態(tài)的信息并作出回應(yīng)。

　　在第六代小冰中，微軟小冰團(tuán)隊(duì)又將實(shí)時(shí)視覺(jué)感官、聽(tīng)覺(jué)、全雙工語(yǔ)音以及對(duì)話引擎進(jìn)一步融合，形成一個(gè)交互能力更強(qiáng)的更智能的物種。

　　而這背后正是多模態(tài)交互技術(shù)，也是當(dāng)下業(yè)界的一個(gè)研究熱點(diǎn)。武威表示，多模態(tài)一定是未來(lái)人工智能研究的一個(gè)方向。多模態(tài)跨過(guò)了自然語(yǔ)言，是一種更加貼近人的交互方式。因?yàn)槿说慕换ケ旧?，無(wú)論輸入還是輸出都是多模態(tài)的，而做人工智能，我們本身就希望能模擬人的行為。

　　武威認(rèn)為，從自然語(yǔ)言的角度來(lái)講，多模態(tài)技術(shù)還處在行業(yè)的探索與發(fā)力期。目前大家都意識(shí)到了多模態(tài)的重要性，但是同時(shí)又缺乏相應(yīng)的數(shù)據(jù)進(jìn)行研究。目前無(wú)論是學(xué)界還是業(yè)界也都在進(jìn)行一些數(shù)據(jù)集的建設(shè)。

　　小冰在多模態(tài)上也發(fā)展的較為靠前，目前微軟小冰團(tuán)隊(duì)已經(jīng)同構(gòu)多感官融合的架構(gòu)實(shí)現(xiàn)了一些多模態(tài)交互，比如你輸入一段文字/語(yǔ)音/圖片，小冰會(huì)根據(jù)它看到或聽(tīng)到的進(jìn)行回復(fù)，而回復(fù)的內(nèi)容可能是文字、語(yǔ)音或者一個(gè)表情等，武威認(rèn)為這種交互已經(jīng)是一個(gè)近似多模態(tài)的場(chǎng)景。

　　像目前的智能音箱，主要以語(yǔ)音交互為主，未來(lái)人機(jī)交互又是否會(huì)以一種模態(tài)為主模態(tài)呢？武威認(rèn)為，這一問(wèn)題要結(jié)合具體的交互場(chǎng)景來(lái)判斷。但如果從人類交互的角度來(lái)講，可能某一時(shí)刻，某一種模態(tài)扮演更加重要的作用，但基本上人所有模態(tài)都的需要的，所有模態(tài)都影響人的感知。

　　二、從回復(fù)到交互三種模型的迭代

　　最初微軟小冰團(tuán)隊(duì)的目標(biāo)是，無(wú)論用戶給出怎樣的輸入，小冰都能夠給出一個(gè)不錯(cuò)的回復(fù)，并且盡可能的將小冰與用戶之間的對(duì)話維持下去?；蛟S正是基于這樣的目標(biāo)，小冰在模型上經(jīng)歷了從檢索模型到生成模型再到基于生成模型的共感模型，自身交互能力也經(jīng)歷了從被動(dòng)回復(fù)到動(dòng)態(tài)交互的演進(jìn)。

　　在小冰誕生以前，搜索引擎的技術(shù)已經(jīng)相當(dāng)成熟，微軟在做小冰時(shí)，將微軟在Bing搜索引擎中積累的技術(shù)能力應(yīng)用到聊天機(jī)器人中，就形成了檢索模型。

　　武威介紹道，得益于搜索引擎的發(fā)展，檢索技術(shù)更加成熟，隨著深度學(xué)習(xí)時(shí)代的到來(lái)，它們能夠更好的讓機(jī)器學(xué)習(xí)特征，并建立更好的排序模型。檢索模型的特點(diǎn)在于對(duì)數(shù)據(jù)庫(kù)信息的重用，只要數(shù)據(jù)庫(kù)中有對(duì)應(yīng)的信息，機(jī)器就可能給出一個(gè)很好的回復(fù)。

　　但檢索模型的局限在于，一方面如果索引中沒(méi)有相關(guān)的回復(fù)，那機(jī)器人就沒(méi)有辦法給出很好的回答；另一方面檢索模型是對(duì)相關(guān)信息的重復(fù)使用，這就導(dǎo)致回答相對(duì)單一，交互體驗(yàn)受到局限。

　　正是檢索模型的局限性，學(xué)界與業(yè)界開(kāi)始研究生成模型，就自然語(yǔ)言而言，目前生成模型也是一塊前沿的研究領(lǐng)域。武威稱，生成模型是未來(lái)對(duì)話研究的一個(gè)方向，未來(lái)還有非常大的發(fā)展空間。它是更接近人說(shuō)話過(guò)程的一個(gè)模型，簡(jiǎn)單來(lái)說(shuō)就是對(duì)語(yǔ)言的合成。比如小冰可以根據(jù)你的說(shuō)話內(nèi)容，合成出不同模態(tài)的回復(fù)，或者合成出不同性格的回復(fù)，這樣回復(fù)的內(nèi)容就會(huì)更加豐富，更加像人類的表達(dá)。

　　目前這兩種模型都應(yīng)用在微軟小冰中，并承擔(dān)不同的分工。武威介紹道這兩種模型各有特點(diǎn)，檢索技術(shù)非常成熟，直接使用已有的回復(fù)，并且符合語(yǔ)言的邏輯，相對(duì)來(lái)說(shuō)效果會(huì)更好一些，在主流的聊天機(jī)器人產(chǎn)品上仍扮演著重要角色。

　　而生成模型是一個(gè)更自然的對(duì)人類交互進(jìn)行建模的過(guò)程，但技術(shù)還不那么成熟，比如生成的回復(fù)，經(jīng)常會(huì)是一些萬(wàn)能回復(fù)我知道了、我也是等，語(yǔ)言本身可能也相矛盾等，這些問(wèn)題都是對(duì)話生成的一個(gè)研究重點(diǎn)，很多問(wèn)題有待解決。

　　在兩個(gè)模型的配合上他認(rèn)為，生成模型更適合從全局出發(fā)，對(duì)人機(jī)交互對(duì)話的全流程進(jìn)行把控，而檢索模型可以解決目前生成模型做的不太好的一些問(wèn)題，針對(duì)交互細(xì)節(jié)進(jìn)行優(yōu)化。比如在具體應(yīng)用中，如果小冰識(shí)別到了用戶的意圖，并且能夠在數(shù)據(jù)庫(kù)中找到一個(gè)非常合適的回復(fù)，就可以使用檢索模型進(jìn)行回答；如果無(wú)法找到一個(gè)合適的回復(fù)，就可以依靠生成模型進(jìn)行對(duì)話的生成。武威還補(bǔ)充道，在印度尼西亞、日本等地，微軟的聊天機(jī)器人都是基于生成模型進(jìn)行回復(fù)的。

　　但是在武威看來(lái)，單純的生成模型在人機(jī)交互中仍然是一種被動(dòng)回復(fù)，讓回復(fù)的結(jié)果更加人性化，但還算不上交互。而共感模型是基于生成模型，逐漸解決的就是小冰從回復(fù)到交互的問(wèn)題。

　　武威說(shuō)，共感模型的關(guān)鍵在于交互，它是主動(dòng)與被動(dòng)回復(fù)的結(jié)合，是一個(gè)帶有策略的動(dòng)態(tài)的對(duì)話過(guò)程。比如在人與人的交互中，會(huì)有主動(dòng)的一方與被動(dòng)的一方，并且雙方的角色也可能會(huì)不斷轉(zhuǎn)換，這構(gòu)成了一個(gè)完整的交互過(guò)程。共感模型也是如此，它是一個(gè)動(dòng)態(tài)的交流過(guò)程，小冰可以去察覺(jué)用戶的對(duì)話意愿，來(lái)判斷是該主動(dòng)一點(diǎn)，還是多一點(diǎn)傾聽(tīng)，通過(guò)主動(dòng)與被動(dòng)的對(duì)話策略來(lái)引導(dǎo)對(duì)話的延續(xù)。

　　從檢索模型到生成模型再到第六代微軟小冰中的共感模型，武威稱，這是一個(gè)由淺層、簡(jiǎn)單層次的回復(fù)，上升到對(duì)話引導(dǎo)和管理的過(guò)程。

　　三、NLP技術(shù)的前沿探索

　　但目前聊天機(jī)器人仍屬于早期的探索階段，盡管微軟小冰已經(jīng)在行業(yè)中走到一個(gè)比較靠前的位置，但也仍存在許多問(wèn)題有待解決。

　　武威從技術(shù)與場(chǎng)景兩個(gè)維度談道，從技術(shù)上來(lái)說(shuō)，如今的聊天機(jī)器人在回復(fù)上仍有很多問(wèn)題，比如不相關(guān)、缺乏內(nèi)容等；從場(chǎng)景來(lái)說(shuō)，聊天機(jī)器人最終會(huì)走向什么樣的場(chǎng)景也有待探索。

　　針對(duì)與當(dāng)下行業(yè)在人機(jī)交互技術(shù)上的難點(diǎn)，他說(shuō)機(jī)器如何更好的理解用戶，怎么理解用戶的意圖，怎么能夠產(chǎn)生更加流暢、內(nèi)容豐富的回復(fù)，都是聊天機(jī)器人行業(yè)需要解決的問(wèn)題，行業(yè)仍然在探索期。

　　盡管對(duì)話生成領(lǐng)域有大量工作致力于增強(qiáng)對(duì)話生成的多樣性，但武威指出這一領(lǐng)域仍有較大空間，多模態(tài)盡管是未來(lái)的一個(gè)研究方向，但是多模態(tài)進(jìn)入人機(jī)交互后，會(huì)帶來(lái)怎么的新問(wèn)題，目前行業(yè)都有待進(jìn)一步探索。

　　而被譽(yù)為人工智能桂冠上的明珠的NLP（自然語(yǔ)言處理）技術(shù)，武威稱，只能說(shuō)我們有了大模型、大數(shù)據(jù)，我們可以利用它們產(chǎn)生一個(gè)不錯(cuò)的表示，但這個(gè)表示離理解有多遠(yuǎn)，則很難講。

　　比如在機(jī)器閱讀理解中，如果我們稍微波動(dòng)一下數(shù)據(jù)，這對(duì)人來(lái)講可能沒(méi)有太大影響，但是機(jī)器就會(huì)產(chǎn)生較大的錯(cuò)誤，這就說(shuō)明機(jī)器在很多問(wèn)題上理解的并不到位。此外端到端的生成模型就像一個(gè)黑盒子，我們很難解釋為什么會(huì)生成這樣的回復(fù)，這也導(dǎo)致我們很難進(jìn)一步去解決其中的問(wèn)題。

　　2018年伊始，阿里和微軟亞洲研究院相繼刷新了斯坦福大學(xué)發(fā)起的SQuAD（Stanford Question Answering Dataset）文本理解挑戰(zhàn)賽成績(jī)，一時(shí)間機(jī)器閱讀理解得分超過(guò)人類成為一個(gè)熱議的話題。

　　武威對(duì)機(jī)器閱讀理解的這一進(jìn)展持肯定觀點(diǎn)，他稱正是得益于SQuAD之類數(shù)據(jù)集的出現(xiàn)，我們?cè)诖嘶A(chǔ)上不斷迭代算法模型，近幾年來(lái)整個(gè)機(jī)器閱讀理解取得了飛躍性的發(fā)展。

　　但是不能憑空說(shuō)機(jī)器閱讀理解超過(guò)人類，應(yīng)該說(shuō)在特定數(shù)據(jù)以及特定的評(píng)估準(zhǔn)則下，機(jī)器可以跟人類水平持平，甚至在指標(biāo)上超過(guò)人類。

　　盡管近兩年NLP開(kāi)始在諸如智能硬件、車載以及垂直行業(yè)領(lǐng)域開(kāi)始落地，并且取得一些不錯(cuò)的效果，但武威認(rèn)為NLP最終還是要回到通用上來(lái)。因?yàn)槿死斫馐澜缡且砸环N通用的認(rèn)知進(jìn)行的，開(kāi)放式對(duì)話才是人的一般狀態(tài)。

　　此外他還強(qiáng)調(diào)道，通用NLP是基礎(chǔ)，細(xì)分領(lǐng)域的NLP只有扎根在這個(gè)基礎(chǔ)上，才能夠有更深的發(fā)展。

　　但在通用NLP上，盡管有谷歌的BERT模型在11項(xiàng)NLP任務(wù)中都取得不錯(cuò)的效果，但數(shù)據(jù)背后模型究竟理解到了什么，都有待行業(yè)探索。

　　武威就自然語(yǔ)言談道，當(dāng)下已有機(jī)構(gòu)將通用的開(kāi)放式聊天對(duì)話和基于任務(wù)式的對(duì)話結(jié)合在一起去做相關(guān)的研究，并且微軟小冰也在做相關(guān)領(lǐng)域的探索。

　　結(jié)語(yǔ)：多模態(tài)、個(gè)性化交互成趨勢(shì)

　　通過(guò)與武威的溝通和微軟小冰在人機(jī)交互上的一些探索可以發(fā)現(xiàn)，多模態(tài)交互、任務(wù)與非任務(wù)結(jié)合的對(duì)話方式等都可能是未來(lái)人機(jī)交互的一個(gè)研究趨勢(shì)。

　　此外，他認(rèn)為個(gè)性化也是聊天機(jī)器人的一個(gè)方向，目前很多高校、機(jī)構(gòu)也都在朝著這一方向探索。微軟未來(lái)也會(huì)在小冰框架基礎(chǔ)上，生產(chǎn)各種各樣的具有不同個(gè)性的聊天機(jī)器人。

　　要想推動(dòng)聊天機(jī)器人進(jìn)一步發(fā)展，武威認(rèn)為一方面數(shù)據(jù)非常重要，另一方面在模型的方法論上也有待突破。比如當(dāng)下我們深度依賴深度學(xué)習(xí)這種基于序列到序列的建模，但下一個(gè)這種級(jí)別的模型是什么？能帶來(lái)本質(zhì)變化的模型是什么？有有待業(yè)界去研究。

　　如果說(shuō)電影《Her》代表了我們對(duì)人工智能的一種探尋，那我們還需要多久才能達(dá)到那一狀態(tài)？武威謹(jǐn)慎地稱很難評(píng)估，因?yàn)橛行〇|西一旦能夠評(píng)估，就說(shuō)明你已經(jīng)知道答案了，而NLP之所以我們當(dāng)下難以攻克，正是因?yàn)槲覀兡壳安恢牢磥?lái)的答案是什么。

標(biāo)簽：云南寧夏儋州南昌延安普洱漯河宿州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《微軟小冰武威：聊天機(jī)器人的演進(jìn)之路》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。