11月15日-17日,第23屆亞洲語言處理國際大會(IALP)在中國上海舉行,會議由中文與東方語文信息處理學會(COLIPS)主辦、華東師范大學承辦。本次會議吸引了來自15個國家和地區(qū)約100位大學、研究機構和工業(yè)界的研究人員前來參會。小i機器人與阿里巴巴達摩院、復旦大學等知名院校企業(yè)一同受邀出席大會,探討東方語言信息處理領域未來的創(chuàng)新和發(fā)展,并圍繞知識圖譜的建設、應用與發(fā)展發(fā)表了主題演講。
知識圖譜作為自然語言處理技術的應用之一,在幫助機器理解自然語言方面具有重要意義。小i機器人研究院算法研究員沈大框在大會上提到,知識圖譜最早是由Google提出,主要是用來優(yōu)化現(xiàn)有的搜索引擎。不同于傳統(tǒng)的基于關鍵詞檢索的搜索引擎,知識圖譜基于預先構建的實體屬性關系三元組內蘊含的豐富的關聯(lián)信息,能夠更快速有效地反饋準確結果,并提供更豐富的關聯(lián)參考信息,讓搜索引擎從關鍵詞檢索向語義檢索邁進。
小i機器人研究院算法研究員沈大框
目前,知識圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構建方式,而這兩種構建方式都離不開知識抽取這一步驟。沈大框在此次大會上分享到小i機器人在構建知識圖譜的過程中提出了一種基于BERT的管道式的關系抽取方法,可以從各種信息源中抽取三元組關系知識,并集成到現(xiàn)有結構化知識庫中。該關系抽取方法先識別句子中存在的關系,然后根據(jù)關系抽取句子中的主語和賓語。存在關系識別可以看成一個多標簽分類任務,模型使用BERT獲取深度語義信息,然后增加CNN網(wǎng)絡獲取句子的詞性與分詞信息極大提升了關系識別的準確度。主語與賓語識別模型則采用BERT+CRF序列標注的方式,解決了句子中單個關系多主語或者多謂語的問題。這兩種模型結合的使用,使得單句中存在多個復雜關系的抽取的問題迎刃而解。
小i機器人也在運用包括知識圖譜相關技術在內的全套解決方案,以認知智能賦能行業(yè)企業(yè)的智能化升級。小i機器人為行業(yè)企業(yè)提供的智能客服解決方案便融合了知識圖譜的相關能力,能夠在行業(yè)領域內快速自動地生成背景知識庫,輔助客服機器人深度理解用戶問題,讓客服系統(tǒng)的業(yè)務能力得到進一步提升,很好的滿足銀行業(yè)務、信通訊業(yè)務、保險業(yè)務、電商業(yè)務、政府公共服務業(yè)務等領域的業(yè)務需求。