主頁 > 知識庫 > 遠場語音識別，性能提升 30%，百度怎么做到的？

遠場語音識別，性能提升 30%，百度怎么做到的？

　　今天我保守報一個30%以上的性能提升，很保守。未來這個技術(shù)會再次大幅刷新人們對遠場語音的認(rèn)知。我自己的判斷是，三年以內(nèi)遠場語音技術(shù)的識別率將達到近場識別率，因為有了這個技術(shù)，遠場識別問題基本可以得到解決，這是一個很大的跨學(xué)科創(chuàng)新。

　　講起百度最近在語音技術(shù)上的一項技術(shù)突破，百度語音首席架構(gòu)師賈磊變得激昂澎湃起來。

　　遠場語音識別，性能提升30%，百度怎么做到的？

　　對于賈磊，大家不會陌生，他是互聯(lián)網(wǎng)圈子里首位全國勞動模范（2015年），是一位每天睜開眼睛就是工作，走路坐車都在思考的人物。

　　賈磊向記者詳細(xì)講述了他們在遠場語音交互中的一項新的突破：基于復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)的語音增強和聲學(xué)建模一體化端到端建模技術(shù)。（很長的一段話，關(guān)鍵詞：復(fù)數(shù)卷積、端到端、增強和建模一體化）

　　據(jù)賈磊介紹，這項技術(shù)顛覆了傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法，因為它直接拋棄了數(shù)字信號處理學(xué)科和語音識別學(xué)科的各種先驗假設(shè)，直接端到端進行一體化建模。相較于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法，錯誤率降低超過30%；而國際上采用類似思路方法的相對錯誤率降低約為16%。

　　我們來看下，30%的錯誤率降低，百度是如何做到的。

　　一、傳統(tǒng)方法

　　先從傳統(tǒng)方法說起。

　　目前，語音識別技術(shù)在高信噪比場景下表現(xiàn)良好，但在低信噪比場景下，往往表現(xiàn)不穩(wěn)定。遠場語音識別是一個典型的低信噪比場景。在遠場環(huán)境下，目標(biāo)聲源距離拾音器較遠，就會使目標(biāo)信號衰減嚴(yán)重，加之環(huán)境嘈雜，干擾信號眾多，最終導(dǎo)致信噪比較低，語音識別性能較差。用戶站在3米甚至5米遠處與智能音箱進行語音交互就是一個典型的遠場語音識別應(yīng)用場景。

　　傳統(tǒng)上，為了提升遠場語音識別的準(zhǔn)確率，一般會使用麥克風(fēng)陣列作為拾音器。利用多通道語音信號處理技術(shù)，增強目標(biāo)信號，提升語音識別精度。

　　目前，絕大多數(shù)在售的智能音箱產(chǎn)品系統(tǒng)所采用的多通道語音識別系統(tǒng)，都是由一個前端增強模塊和一個后端語音識別聲學(xué)建模模塊串聯(lián)而成的：

　　前端增強模塊通常包括到達方向估計（DOA）和波束生成（BF）。DOA技術(shù)主要用于估計目標(biāo)聲源的方向，BF技術(shù)則利用目標(biāo)聲源的方位信息，增強目標(biāo)信號，抑制干擾信號。

　　后端語音識別聲學(xué)建模模塊，會對這一路增強后的語音信號進行深度學(xué)習(xí)建模。這個建模過程完全類似于手機上的近場語音識別的建模過程，只不過輸入建模過程的信號不是手機麥克風(fēng)采集的一路近場信號，而是用基于麥克陣列數(shù)字信號處理技術(shù)增強后的一路增強信號。

　　近些年，前端語音增強技術(shù)也逐漸開始用深度學(xué)習(xí)來做到達方向估計（DOA）和波束生成（BF），不少論文中和產(chǎn)品中也都提到了用深度學(xué)習(xí)技術(shù)來替代麥克陣列系統(tǒng)中的傳統(tǒng)數(shù)字信號處理技術(shù)，也獲得了一些提升。

　　但，

　　1）波束區(qū)域拾音方法有局限性。上面這一類語音增強技術(shù)大都是采用基于MSE的優(yōu)化準(zhǔn)則，從聽覺感知上使得波束內(nèi)語音更加清晰，波束外的背景噪音更小。但是聽覺感知和識別率并不完全一致。而且這種方法在噪音內(nèi)容也是語音內(nèi)容的時候（例如電視和人在同一個方向時），性能會急劇下降。

　　2）增強和識別模塊優(yōu)化目標(biāo)不一致。前端語音增強模塊的優(yōu)化過程獨立于后端識別模塊。該優(yōu)化目標(biāo)與后端識別系統(tǒng)的最終目標(biāo)不一致。目標(biāo)的不統(tǒng)一很可能導(dǎo)致前端增強模塊的優(yōu)化結(jié)果在最終目標(biāo)上并非最優(yōu)。

　　3）真實產(chǎn)品環(huán)境復(fù)雜，傳統(tǒng)方法會影響使用體驗。由于真實產(chǎn)品場合，聲源環(huán)境復(fù)雜，因此大多數(shù)產(chǎn)品都是先由DOA確定出聲源方向后，再在該方向使用波束生成形成波束，對波束內(nèi)的信號的信噪比進行提升，同時抑制波束外的噪音的干擾。這樣的機制使得整個系統(tǒng)的工作效果都嚴(yán)重依賴于聲源定位的準(zhǔn)確性。同時用戶第一次說喚醒詞或者是語音指令的時候，第一次的語音很難準(zhǔn)確利用波束信息（智能音箱沒有眼睛，他不知道你在第一次喚醒時候，所在的方向是什么?；蛘呤怯捎谥車h(huán)境嘈雜，喚醒之后人就變換了自己的位置，嘈雜的環(huán)境導(dǎo)致對人的位置變動的跟蹤失效），影響了首次喚醒率和首句識別率。

　　二、一體化的端到端識別

　　2017年谷歌團隊最早提出采用神經(jīng)網(wǎng)絡(luò)來解決前端語音增強和語音聲學(xué)建模的一體化建模問題。

　　文章從信號處理的Filter-and-Sum方法出發(fā)，首先推導(dǎo)出時域上的模型結(jié)構(gòu)，然后進一步推導(dǎo)出頻域上的模型結(jié)構(gòu)FCLP（Factored Complex Linear Projection），相比時域模型而言大幅降低了計算量。

　　該結(jié)構(gòu)先后通過空間濾波和頻域濾波，從多通道語音中抽取出多個方向的特征，然后將特征送給后端識別模型，最終實現(xiàn)網(wǎng)絡(luò)的聯(lián)合優(yōu)化。

　　谷歌提出的FCLP結(jié)構(gòu)仍然是以信號處理方法為出發(fā)點，起源于delayandsum濾波器，用一個深度學(xué)習(xí)網(wǎng)絡(luò)去模擬和逼近信號波束，因此也會受限于信號處理方法的一些先驗假設(shè)。

　　比如FCLP的最低層沒有挖掘頻帶之間的相關(guān)性信息，存在多路麥克信息使用不充分的問題，影響了深度學(xué)習(xí)建模過程的模型精度。

　　再比如，beam的方向（looking direction）數(shù)目被定義成10個以下，主要是對應(yīng)于數(shù)字信號處理過程的波束空間劃分。這種一定要和數(shù)字信號處理過程看齊的深度學(xué)習(xí)模型結(jié)構(gòu)設(shè)計，嚴(yán)重影響了深度學(xué)習(xí)技術(shù)在該方向上的發(fā)揮和延伸，限制了深度學(xué)習(xí)模型的模型結(jié)構(gòu)的演變，制約了技術(shù)的創(chuàng)新和發(fā)展。

　　最終谷歌學(xué)術(shù)報告，通過這種方法，相對于傳統(tǒng)基于數(shù)字信號處理的麥克陣列算法，得到了16%的相對錯誤率降低。

　　三、百度的解決方案

　　百度采用了類似的思想，即做語音增強和語音聲學(xué)建模一體化的端到端建模，不過他們所采用的是基于復(fù)數(shù)的卷積神經(jīng)網(wǎng)絡(luò)。

　　相比于谷歌的方法，該方法徹底拋棄了數(shù)字信號處理學(xué)科的先驗知識，模型結(jié)構(gòu)設(shè)計和數(shù)字信號處理學(xué)科完全脫鉤，充分發(fā)揮了CNN網(wǎng)絡(luò)的多層結(jié)構(gòu)和多通道特征提提取的優(yōu)勢。

　　具體來講，該模型底部以復(fù)數(shù)CNN為核心，利用復(fù)數(shù)CNN網(wǎng)絡(luò)挖掘生理信號本質(zhì)特征的特點。采用復(fù)數(shù)CNN，復(fù)數(shù)全連接層以及CNN等多層網(wǎng)絡(luò)，直接對原始的多通道語音信號進行多尺度多層次的信息抽取，期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息。

　　在保留原始特征相位信息的前提下，這個模型同時實現(xiàn)了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征，直接送入端到端的流式多級的截斷注意力模型（SMLTA）中，從而實現(xiàn)了從原始多路麥克信號到識別目標(biāo)文字的端到端一體化建模。

　　整個網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則完全依賴于語音識別網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則來做，完全以識別率提升為目標(biāo)來做模型參數(shù)調(diào)優(yōu)。

　　賈磊介紹說：我們的模型能提取生物的信號本質(zhì)特征，作為對比，Google的系統(tǒng)是假設(shè)兩路麥克信號對應(yīng)頻帶之間的信息產(chǎn)生關(guān)系，這沒有挖掘頻帶之間的信息，這也是Google在識別率上偏低的原因。

　　如前面提到，相對于百度智能音箱線上產(chǎn)品所采用的基于傳統(tǒng)數(shù)字信號處理的前端增強模塊和一個后端語音識別聲學(xué)建模過程串聯(lián)的方法，這種基于復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)的語音增強和聲學(xué)建模一體化端到端建模技術(shù)，獲得了錯誤率超過30%以上的降低。

　　除此之外，賈磊在演講中還列舉了這種端到端語音識別的5個特點：

　　這里值得一提的是，目前百度的這種一體化建模方案已經(jīng)被集成到百度最新發(fā)布的鴻鵠芯片中，該網(wǎng)絡(luò)所占內(nèi)存不到200K。

　　四、結(jié)尾

　　30%的降低，這也是近期深度學(xué)習(xí)遠場識別技術(shù)中，最大幅度的產(chǎn)品性能提升。賈磊認(rèn)為，這揭示了端到端建模將是遠場語音識別產(chǎn)業(yè)應(yīng)用的重要發(fā)展方向。

　　賈磊隨后補充說：

　　本質(zhì)上人類語音交互都是遠場。手機麥克風(fēng)放在嘴邊的近場語音交互，只是人們最初在做語音識別時，由于無法解決遠場識別問題而做的一個限制。

　　如果遠場語音技術(shù)在未來三年成熟以后，所有的語音都是遠場喚醒方式，喚醒之后隨意連續(xù)的輸入，任何一個家電設(shè)備或者汽車設(shè)備，都可以攜帶語音交互功能，進行本領(lǐng)域的查詢。所以這個技術(shù)成熟意味著遠場語音識別將走進千家萬戶，在所有我們看到的設(shè)備上，都會以遠場語音交互為主體，如果再配合芯片的發(fā)展，語音識別、語音合成，將一體化地來解決人類終端交互，我覺得是可以期待的。

標(biāo)簽：云南南昌漯河普洱寧夏宿州儋州延安

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《遠場語音識別，性能提升 30%，百度怎么做到的？》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。