佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > 評估虛擬助理(IVA):如何確定哪一個適合你?

評估虛擬助理(IVA):如何確定哪一個適合你?

熱門標簽:AI人工智能 網(wǎng)站建設 Win7旗艦版 太平洋壽險電話營銷 電銷行業(yè) 電話外呼服務 電話銷售團隊 話術
  • 老秦夜譯
  CTI論壇(ctiforum.com)(編譯/老秦):也許你一直在考慮在你的業(yè)務中使用智能虛擬助理(IVA)。您希望自動化客戶服務,幫助您的客戶在您的網(wǎng)站上找到他們想要的內容,或者為您的員工提供工具。在任何一個搜索引擎上呆上幾分鐘,都會發(fā)現(xiàn)無數(shù)的供應商說他們的產(chǎn)品是智能的、自然的或者就像和人說話一樣;其他人吹噓自己是真正的會話和革命,還有許多其他發(fā)光的描述。當然,你想使用最好的技術,但你怎么知道哪一個是最好的,甚至哪一個替代品是好的,足以完成你心目中的工作?
  顯然,簡單地看供應商網(wǎng)站并不是最好的方法。每個供應商都會聲稱他們的技術是最好的??纯碮ouTube的演示和與銷售人員交談也不會有什么幫助。供應商會有偏見,演示是基于非常仔細策劃的互動。隨便試用一個系統(tǒng)幾分鐘就會產(chǎn)生誤導性的結果。是否有一個可靠的,客觀的方法來衡量系統(tǒng)的準確性?
  其他產(chǎn)品可以與標準度量進行比較。我們有每加侖汽車的英里數(shù),電器的能源消耗量,顯示器的屏幕分辨率。不幸的是,我們還沒有針對智能虛擬助理的這些指標。即使我們把最好的縮小到最準確的,主觀性仍然有很大的空間。
  為了可靠地比較系統(tǒng),我們如何測量智能虛擬助理的精確度?不幸的是,我們沒有任何官方標準,但這里有一些似乎很有希望的想法。
  測量IVAs的方法
  讓我們首先說,任何公平的比較都必須基于廣泛接受的衡量標準和程序。一個實際的評估也不能太貴或太費時,所以我們不需要完美,只是一個足夠好的比較。
  首先,這里有一些有前途的策略。
  1、系統(tǒng)可能以兩種不同的方式出錯,因此我們必須同時衡量這兩種方式。系統(tǒng)可能會給出錯誤的答案,但也可能無法給出它應該知道的問題的答案。從技術上講,給出錯誤的答案是不準確的。沒有給出系統(tǒng)應該知道的答案是調用失敗。在大量的測試問題中,我們可以得到整體關于調用失敗和精確性的分數(shù),這將給我們系統(tǒng)的準確性一個分數(shù)。雖然調用失敗和精確性不是官方標準,但它們被研究人員廣泛接受。
  2、一個較新的指標是敏感性和特異性平均值(SSA)。這是谷歌為其聊天機器人Meena開發(fā)的。測試人員查看成對的用戶查詢和系統(tǒng)響應,并根據(jù)它們的敏感程度和具體程度對響應進行評分。敏感性的含義是顯而易見的。特異性會懲罰像那很好這樣的一般性回答。像那很好這樣含糊不清的回答是數(shù)字助理試圖掩蓋其無知的信號。敏感性和特異性得分相結合,得到一個總的SSA得分。這一指標的一個吸引人的特點是,對回答打分的用戶不必知道正確的答案,他們只需能夠決定答案的合理性和具體性如何。
  3、另一個值得一提的指標是亞馬遜AlexaPrize中使用的指標。它不能測量準確度;相反,它通過跟蹤用戶與應用程序交互的時間來衡量應用程序的吸引力。對于像老年伴侶這樣的應用程序來說這可能是一個有用的指標,老年同伴的目標是讓用戶參與應用程序,但精度不是一個主要要求。
  評估IVA表現(xiàn)
  不僅要使測量標準化,而且評價也要遵循一個標準過程:(1)有可重復的結果;(2)外部變量控制;以及(3)防止游戲結果。一個很好的例子是2015年著名的大眾汽車排放丑聞,當時大眾汽車在測試過程中關閉了排放裝置,這樣他們就可以謊報更好的排放評級。他們被抓住了。結果對大眾汽車不利;其首席執(zhí)行官因此辭職。
  評估過程的一些最佳做法包括:
  1、對同一個應用程序進行跨系統(tǒng)比較,這可以更通俗地稱為比較蘋果。比較執(zhí)行不同應用程序的系統(tǒng)是不公平的,因為一個應用程序可能比另一個更難。例如,一個應用程序中可能有更多的意圖和實體,這將降低該系統(tǒng)的分數(shù)。用于開發(fā)應用程序的數(shù)據(jù)可以是一個開放的公共數(shù)據(jù)集,就像Clinc開發(fā)的數(shù)據(jù)集一樣,也可以是特定垂直方向上應用程序的內部數(shù)據(jù)。對于沒有特定應用程序(比如Alexa或Siri)的泛型助手,會有一些已發(fā)布的數(shù)據(jù),比如我的應用程序中使用的數(shù)據(jù)。
  2、非重疊數(shù)據(jù)的培訓和測試系統(tǒng)。如果一個系統(tǒng)是在以后測試的數(shù)據(jù)上訓練的,那么當各種新的、以前看不見的數(shù)據(jù)出現(xiàn)時,測試將不能代表實際的工作條件。這將是一個游戲系統(tǒng)的例子。
  把它們放在一起
  那么回到最初的問題,如何正確評估智能虛擬助理呢?--下面是我們的一般建議。首先,不要把評估建立在主觀測試的基礎上。一個評估,包括幾分鐘的試用演示可能會非常誤導。第二,使用常見的測量方法,比如調用、精確度和SSA。第三,遵循一個標準流程:使用相同的數(shù)據(jù)集進行所有比較,并將訓練數(shù)據(jù)和測試數(shù)據(jù)分開。
  遵循這些準則將導致可靠和有意義的比較。將這些信息與其他的需求開發(fā)工具、運行時成本、易維護性結合起來,您就可以成功地部署智能虛擬助理了。
  聲明:版權所有 非合作媒體謝絕轉載
  作者:Deborah Dahl
  原文網(wǎng)址:
  https://www.speechtechmag.com/Articles/Columns/Standards/Assessing-IVAs-How-Do-You-Determine-Which-One-Is-Right-for-You-147371.aspx

標簽:寧夏 普洱 南昌 儋州 宿州 延安 漯河 云南

巨人網(wǎng)絡通訊聲明:本文標題《評估虛擬助理(IVA):如何確定哪一個適合你?》,本文關鍵詞  ;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    阿荣旗| 杭锦后旗| 临潭县| 绍兴市| 繁昌县| 湖州市| 永平县| 高密市| 杂多县| 萍乡市| 武功县| 固始县| 轮台县| 岳西县| 西昌市| 芮城县| 巴彦淖尔市| 孝义市| 肥西县| 奉节县| 隆昌县| 临沧市| 久治县| 中西区| 西乡县| 屯门区| 平泉县| 灵丘县| 台北县| 定结县| 修文县| 孟津县| 阿城市| 文成县| 盐山县| 东山县| 科技| 铜山县| 山东省| 汉源县| 陇川县|