佳木斯湛栽影视文化发展公司

主頁(yè) > 知識(shí)庫(kù) > 百度語(yǔ)音識(shí)別又獲突破 將圖像識(shí)別技術(shù)跨界到語(yǔ)音

百度語(yǔ)音識(shí)別又獲突破 將圖像識(shí)別技術(shù)跨界到語(yǔ)音

熱門(mén)標(biāo)簽:Linux服務(wù)器 鐵路電話系統(tǒng) 阿里云 蘋(píng)果 Win7旗艦版 解決方案 電銷機(jī)器人 科大訊飛語(yǔ)音識(shí)別系統(tǒng)
  近日,百度在語(yǔ)音識(shí)別技術(shù)方面再獲突破,將圖像識(shí)別技術(shù)成功“跨界”到語(yǔ)音領(lǐng)域,利用深層卷積神經(jīng)網(wǎng)絡(luò)(DeepCNN)應(yīng)用于語(yǔ)音識(shí)別聲學(xué)建模中,將其與基于長(zhǎng)短時(shí)記憶單元(LSTM)和連接時(shí)序分類(CTC)的端對(duì)端語(yǔ)音識(shí)別技術(shù)相結(jié)合,錯(cuò)誤率相對(duì)降低10%,大幅度提升語(yǔ)音識(shí)別產(chǎn)品性能,是繼端對(duì)端語(yǔ)音識(shí)別后取得的另一次重大技術(shù)突破。
Deep CNN語(yǔ)音識(shí)別的建模過(guò)程
  近年來(lái),運(yùn)用CNN技術(shù)的圖像識(shí)別成果頗豐,越來(lái)越深的CNN不斷刷新著圖像識(shí)別的精準(zhǔn)度,以人臉識(shí)別為例,識(shí)別準(zhǔn)確率高達(dá)99.7%。但CNN的進(jìn)展在語(yǔ)音識(shí)別方面沒(méi)有得到充分的應(yīng)用。作為一家在語(yǔ)音技術(shù)上有著深入研究的人工智能公司,百度將DeepCNN視為語(yǔ)音識(shí)別技術(shù)的下一個(gè)突破口。
ImageNet競(jìng)賽中,越來(lái)越深的CNN不斷刷新著其性能
  在商用領(lǐng)域的端對(duì)端語(yǔ)音識(shí)別技術(shù)中,百度首次嘗試引入更深層的CNN神經(jīng)網(wǎng)絡(luò),使錯(cuò)誤率相對(duì)降低10%。端對(duì)端技術(shù)則使用一個(gè)單獨(dú)的學(xué)習(xí)算法來(lái)完成從任務(wù)輸入端到輸出端的所有過(guò)程,減少了中間單元以及人為干預(yù),在海量數(shù)據(jù)的支持下模型效果提升明顯。目前,百度的端對(duì)端技術(shù)處于業(yè)界領(lǐng)先水平。值得一提的是,語(yǔ)音識(shí)別都是基于時(shí)頻分析后的語(yǔ)音譜完成的,將整個(gè)語(yǔ)音信號(hào)分析得到的時(shí)頻譜當(dāng)作一張圖像,就可以采用圖像中已廣泛應(yīng)用的CNN進(jìn)行識(shí)別,克服了語(yǔ)音信號(hào)多樣性的問(wèn)題,且通過(guò)引入更深層的CNN,使語(yǔ)音識(shí)別性能得到顯著提升,正如百度語(yǔ)音技術(shù)部識(shí)別技術(shù)負(fù)責(zé)人李先剛博士所言:‘The Deeper,The Better’。
  與學(xué)術(shù)研究不同,百度語(yǔ)音的研發(fā)立足點(diǎn),聚焦于技術(shù)的實(shí)際應(yīng)用,技術(shù)難度和實(shí)現(xiàn)程度更高。針對(duì)語(yǔ)音識(shí)別產(chǎn)品而言,必須具備在大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)上體現(xiàn)性能提升以及具有適合語(yǔ)音在線識(shí)別產(chǎn)品運(yùn)行的模型。百度采用數(shù)千小時(shí)進(jìn)行實(shí)驗(yàn)的研究,并在近十萬(wàn)小時(shí)的產(chǎn)品語(yǔ)音數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證,且充足的語(yǔ)音數(shù)據(jù)資源,使基于端對(duì)端技術(shù)的語(yǔ)音識(shí)別系統(tǒng)明顯優(yōu)于以往的框架性能。
百度語(yǔ)音識(shí)別技術(shù)每年迭代算法模型
  除此之外,百度語(yǔ)音技術(shù)在數(shù)據(jù)、計(jì)算能力、算法等三方面優(yōu)勢(shì)顯著。百度擁有約10萬(wàn)小時(shí)的精準(zhǔn)標(biāo)注語(yǔ)音數(shù)據(jù),以及基于數(shù)百個(gè)GPU的高性能計(jì)算平臺(tái)。在算法方面,百度每年都在不斷優(yōu)化、迭代模型算法,語(yǔ)音識(shí)別效果顯著提升,領(lǐng)先業(yè)界。
  此前,百度便利用端對(duì)端技術(shù)研發(fā)了Deep Speech 2深度語(yǔ)音識(shí)別技術(shù),用于提高在嘈雜環(huán)境下語(yǔ)音識(shí)別的準(zhǔn)確率。在噪音環(huán)境下,其錯(cuò)誤率低于谷歌、微軟以及蘋(píng)果的語(yǔ)音系統(tǒng)。目前,百度語(yǔ)音識(shí)別準(zhǔn)確率高達(dá)97%,并被美國(guó)權(quán)威科技雜志《麻省理工評(píng)論》列為2016年十大突破技術(shù)之一。另?yè)?jù)李先剛博士透露,目前的確正在加緊Deep Speech 3的研發(fā)工作,而本次公布的Deep CNN不排除將會(huì)是Deep Speech 3的核心組成部分。
 

標(biāo)簽:畢節(jié) 安陽(yáng) 呼倫貝爾 湘西 辛集 三門(mén)峽 湖州 邵陽(yáng)

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《百度語(yǔ)音識(shí)別又獲突破 將圖像識(shí)別技術(shù)跨界到語(yǔ)音》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    藁城市| 太湖县| 蓬安县| 平乡县| 元氏县| 洪洞县| 宁强县| 武宣县| 天镇县| 屯昌县| 缙云县| 永寿县| 九江市| 尉犁县| 萝北县| 淳安县| 田林县| 泸西县| 塘沽区| 保德县| 宜宾县| 江油市| 中江县| 泽普县| 塘沽区| 南投市| 昌平区| 昌都县| 施秉县| 伊川县| 松原市| 洱源县| 汕头市| 突泉县| 青田县| 定边县| 高安市| 蓝田县| 南开区| 扎赉特旗| 奉新县|