佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > 語音識別+歌聲合成,思必馳想讓普通人“讀詩成曲”

語音識別+歌聲合成,思必馳想讓普通人“讀詩成曲”

熱門標簽:Linux服務(wù)器 解決方案 科大訊飛語音識別系統(tǒng) 蘋果 電銷機器人 鐵路電話系統(tǒng) 阿里云 Win7旗艦版

  在小年夜,中央電視臺《經(jīng)典詠流傳》第二季節(jié)目中出現(xiàn)了一款“讀詩成曲”的在線互動小工具,用戶僅需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經(jīng)典詩詞唱段。那這是怎么實現(xiàn)的呢?
  原來,“讀詩成曲”的背后是思必馳提供的個性化歌聲合成算法。歌聲合成技術(shù)是語音合成(TTS,即Text to Speech)的衍生品,其關(guān)鍵區(qū)別在于韻律預(yù)測模型不同。在普通TTS系統(tǒng)中,通常有個韻律模型來根據(jù)句子的內(nèi)容和語調(diào)環(huán)境預(yù)測每個音素(音節(jié))的時長和音高曲線。在歌聲合成中,這個韻律模型則更換成由樂譜來預(yù)測每個音素(音節(jié))的時長和音高的歌曲韻律模型。最終的生成過程仍然跟語音合成類似,將韻律參數(shù)和頻譜參數(shù)結(jié)合,生成歌聲。
  在“讀詩成曲”中,韻律預(yù)測模型可以使得機器根據(jù)人說話的語調(diào)合成歌曲,且根據(jù)唱段的韻律和節(jié)奏調(diào)整音調(diào),這又是如何實現(xiàn)的呢?思必馳北京研發(fā)院院長兼副總裁初敏博士告訴36氪:韻律方面,思必馳在原有歌曲韻律模型的基礎(chǔ)上增加了個性化學習技術(shù),結(jié)合曲庫和名曲唱段的特征生成相應(yīng)的韻律曲線,使歌曲韻律特征盡量接近名曲唱段的特點;在語調(diào)方面,思必馳應(yīng)用了聲學模型的個性化學習技術(shù),使得生成的頻譜參數(shù)盡量接近用戶的聲音,通過將接近用戶的頻譜參數(shù)和接近名曲唱段的韻律參數(shù)結(jié)合,就能生成用戶“原聲”唱出的“經(jīng)典”曲調(diào)了。
  36氪注意到,這并非思必馳首次將個性化歌聲合成技術(shù)運用于泛娛樂領(lǐng)域,此前在央視節(jié)目《機智過人》中,思必馳團隊的“小馳”機器人就曾用撒貝寧的聲音演唱過《好久不見》。不同于以往,此次“讀詩成曲”則在曲目和參與度上更為開放,支持任何用戶從既定曲庫中自選歌曲,曲庫主要來自節(jié)目第一季、第二季嘉賓的演唱曲目。
  近兩年,語音合成技術(shù)進入商業(yè)落地加速期,除BAT大廠紛紛著眼外,此前36氪也曾報道過標貝科技等創(chuàng)業(yè)公司。除了在泛娛樂領(lǐng)域布局,思必馳又會如何將語音合成技術(shù)商業(yè)落地呢?據(jù)初敏博士透露,思必馳更多會將語音合成技術(shù)與語音識別、口語理解等算法配套,為泛物聯(lián)網(wǎng)領(lǐng)域產(chǎn)品提供全鏈路對話交互方案。
  具體來說,思必馳當前的業(yè)務(wù)圍繞四個AI進行整體布局:AIOT、AI芯片、AIBOT、AI生態(tài)。AIOT業(yè)務(wù)在泛物聯(lián)網(wǎng)領(lǐng)域(包括智能車載、智能家居、智能玩具/機器人、智能手機等)提供軟件、軟硬一體化、Turnkey一站式等多樣化方案。在車聯(lián)網(wǎng)后裝、智能音箱、兒童平板/故事機、知識機器人等領(lǐng)域市場占有率均第一,在汽車前裝、電視/白電、智能客服等重點領(lǐng)域市場增速領(lǐng)先。未來,思必馳將以“云+芯”戰(zhàn)略方向為主,整合智能終端方案能力與全渠道智慧服務(wù)能力,形成AllInOne解決方案,進入酒店、地產(chǎn)、物流、養(yǎng)老、醫(yī)療、教育、安全、社區(qū)等更多行業(yè)。
  據(jù)悉,在語音合成領(lǐng)域,目前思必馳已可以提供標準男女聲、童聲、名人合成音等,在最新推出的DUI平臺VoiceShop中,提供100+特色的高自然度合成音,并為不同廠商提供個性化定制服務(wù)打造voice-IP。  在小年夜,中央電視臺《經(jīng)典詠流傳》第二季節(jié)目中出現(xiàn)了一款“讀詩成曲”的在線互動小工具,用戶僅需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經(jīng)典詩詞唱段。那這是怎么實現(xiàn)的呢?
  原來,“讀詩成曲”的背后是思必馳提供的個性化歌聲合成算法。歌聲合成技術(shù)是語音合成(TTS,即Text to Speech)的衍生品,其關(guān)鍵區(qū)別在于韻律預(yù)測模型不同。在普通TTS系統(tǒng)中,通常有個韻律模型來根據(jù)句子的內(nèi)容和語調(diào)環(huán)境預(yù)測每個音素(音節(jié))的時長和音高曲線。在歌聲合成中,這個韻律模型則更換成由樂譜來預(yù)測每個音素(音節(jié))的時長和音高的歌曲韻律模型。最終的生成過程仍然跟語音合成類似,將韻律參數(shù)和頻譜參數(shù)結(jié)合,生成歌聲。
  在“讀詩成曲”中,韻律預(yù)測模型可以使得機器根據(jù)人說話的語調(diào)合成歌曲,且根據(jù)唱段的韻律和節(jié)奏調(diào)整音調(diào),這又是如何實現(xiàn)的呢?思必馳北京研發(fā)院院長兼副總裁初敏博士告訴36氪:韻律方面,思必馳在原有歌曲韻律模型的基礎(chǔ)上增加了個性化學習技術(shù),結(jié)合曲庫和名曲唱段的特征生成相應(yīng)的韻律曲線,使歌曲韻律特征盡量接近名曲唱段的特點;在語調(diào)方面,思必馳應(yīng)用了聲學模型的個性化學習技術(shù),使得生成的頻譜參數(shù)盡量接近用戶的聲音,通過將接近用戶的頻譜參數(shù)和接近名曲唱段的韻律參數(shù)結(jié)合,就能生成用戶“原聲”唱出的“經(jīng)典”曲調(diào)了。
  36氪注意到,這并非思必馳首次將個性化歌聲合成技術(shù)運用于泛娛樂領(lǐng)域,此前在央視節(jié)目《機智過人》中,思必馳團隊的“小馳”機器人就曾用撒貝寧的聲音演唱過《好久不見》。不同于以往,此次“讀詩成曲”則在曲目和參與度上更為開放,支持任何用戶從既定曲庫中自選歌曲,曲庫主要來自節(jié)目第一季、第二季嘉賓的演唱曲目。
  近兩年,語音合成技術(shù)進入商業(yè)落地加速期,除BAT大廠紛紛著眼外,此前36氪也曾報道過標貝科技等創(chuàng)業(yè)公司。除了在泛娛樂領(lǐng)域布局,思必馳又會如何將語音合成技術(shù)商業(yè)落地呢?據(jù)初敏博士透露,思必馳更多會將語音合成技術(shù)與語音識別、口語理解等算法配套,為泛物聯(lián)網(wǎng)領(lǐng)域產(chǎn)品提供全鏈路對話交互方案。
  具體來說,思必馳當前的業(yè)務(wù)圍繞四個AI進行整體布局:AIOT、AI芯片、AIBOT、AI生態(tài)。AIOT業(yè)務(wù)在泛物聯(lián)網(wǎng)領(lǐng)域(包括智能車載、智能家居、智能玩具/機器人、智能手機等)提供軟件、軟硬一體化、Turnkey一站式等多樣化方案。在車聯(lián)網(wǎng)后裝、智能音箱、兒童平板/故事機、知識機器人等領(lǐng)域市場占有率均第一,在汽車前裝、電視/白電、智能客服等重點領(lǐng)域市場增速領(lǐng)先。未來,思必馳將以“云+芯”戰(zhàn)略方向為主,整合智能終端方案能力與全渠道智慧服務(wù)能力,形成AllInOne解決方案,進入酒店、地產(chǎn)、物流、養(yǎng)老、醫(yī)療、教育、安全、社區(qū)等更多行業(yè)。
  據(jù)悉,在語音合成領(lǐng)域,目前思必馳已可以提供標準男女聲、童聲、名人合成音等,在最新推出的DUI平臺VoiceShop中,提供100+特色的高自然度合成音,并為不同廠商提供個性化定制服務(wù)打造voice-IP。

標簽:湖州 三門峽 邵陽 呼倫貝爾 安陽 湘西 畢節(jié) 辛集

巨人網(wǎng)絡(luò)通訊聲明:本文標題《語音識別+歌聲合成,思必馳想讓普通人“讀詩成曲”》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    和龙市| 凉城县| 景德镇市| 塔河县| 陈巴尔虎旗| 开化县| 乌审旗| 习水县| 资中县| 绥宁县| 刚察县| 当阳市| 临汾市| 琼海市| 鄂伦春自治旗| 陆丰市| 文化| 抚顺市| 紫金县| 温泉县| 北京市| 顺义区| 白城市| 广宗县| 安新县| 龙海市| 万安县| 梅河口市| 峡江县| 开化县| 筠连县| 乌拉特后旗| 桦川县| 望谟县| 柘荣县| 青铜峡市| 福安市| 凤台县| 灌阳县| 阿坝县| 邻水|