主頁 > 知識庫 > 回顧——語音合成技術(shù)發(fā)展歷程

回顧——語音合成技術(shù)發(fā)展歷程

　　語音合成（Speech Synthesis）就是人工合成人類的聲音。合成聲音的系統(tǒng)被稱作“語音合成器”（Speech Synthesizer）。這種系統(tǒng)可以主要由硬件實現(xiàn)，也可以主要由軟件實現(xiàn)。語音合成技術(shù)的學(xué)名是“文語轉(zhuǎn)換系統(tǒng)”，也常常被稱作TTS（text to speech）技術(shù)，是指將文本信息轉(zhuǎn)變?yōu)檎Z音數(shù)據(jù)，以語音的方式播放出來的技術(shù)。該項技術(shù)的目的就是讓計算機(jī)將文字“讀”出來，其追求的目標(biāo)是計算機(jī)“讀”出的聲音清晰、可懂、自然、具有表現(xiàn)力。
　　
　　縱觀語音合成技術(shù)的研究已有二百多年的歷史，早在現(xiàn)代電子信號處理技術(shù)發(fā)明以前，人們就開始試圖建造發(fā)出人類語音的機(jī)器或機(jī)械設(shè)備，比如Gerbert、Albertus Magnus和Roger Bacon制造的“speaking head”。以后又陸續(xù)有人制造出了可以發(fā)出元音和輔音的機(jī)器。
　　
　　1930年，貝爾實驗室開發(fā)了聲音編碼器。這是一個用鍵盤操作的電子語音分析器和合成器。1939年，Homer Dudley將其改進(jìn)的設(shè)備在紐約世界博覽會上展出。
　　
　　第一個基于計算機(jī)的語音合成系統(tǒng)在50年代后期誕生，第一個完整的TTS系統(tǒng)在1968年完成。從那時起至今，語音合成技術(shù)經(jīng)歷了各種各樣的技術(shù)改進(jìn)。
　　
　　真正有實用意義的近代語音合成技術(shù)是隨著計算機(jī)技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展而發(fā)展起來的，主要是讓計算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。近幾十年來國際和國內(nèi)的研究主要集中在按規(guī)則文語轉(zhuǎn)換，即將書面語言轉(zhuǎn)換成語音。在語音合成技術(shù)的發(fā)展中，早期的研究主要是采用參數(shù)合成方法。
　　
　　值得一提的是1973年Holmes的并聯(lián)共振峰合成器和1980年Klatt的串/并聯(lián)共振峰合成器，這兩個合成器都可以通過精心調(diào)整參數(shù)合成出非常自然的語音。而最具代表性的文語轉(zhuǎn)換系統(tǒng)應(yīng)該是1987年美國DEC公司的DECtalk，該系統(tǒng)采用Klatt的串/并聯(lián)共振峰合成器，可以通過標(biāo)準(zhǔn)的接口和計算機(jī)聯(lián)網(wǎng)或單獨接到電話網(wǎng)上提供各種語音信息服務(wù)，它的發(fā)音較清晰，并可產(chǎn)生七種不同音色的聲音，供用戶選擇。
　　
　　但是經(jīng)過多年的研究與實踐表明，由于準(zhǔn)確提取共振峰參數(shù)比較困難，雖然利用共振峰合成器可以得到許多逼真的合成語音，但是整體合成語音的音質(zhì)難以達(dá)到文語轉(zhuǎn)換系統(tǒng)的實用要求。自八十年代末期至今，語言合成技術(shù)又有了新的進(jìn)展，特別是1990年基音同步疊加（PSOLA）方法的提出，使基于時域波形拼接方法合成的語音的音色和自然度都有了很大的提高。九十年代初，基于PSOLA技術(shù)的法語、德語、英語、日語等語種的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功。這些系統(tǒng)的自然度比以前基于LPC方法或共振峰合成器的文語合成系統(tǒng)的自然度要高，并且結(jié)構(gòu)簡單易于實時實現(xiàn)，有較大的商用前景。
　　
　　國內(nèi)的漢語語音合成研究起步較晚，八十年代初期，國內(nèi)漢語語音合成研究基本與國際上研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、LPC合成至應(yīng)用PSOLA技術(shù)的過程。在國家863計劃、國家自然科學(xué)基金委、國家攻關(guān)計劃、中國科學(xué)院有關(guān)項目等支持下，漢語文語轉(zhuǎn)換系統(tǒng)研究近年來取得了令人舉目的進(jìn)展，其中不乏成功的例子：如1993年中國科學(xué)院聲學(xué)所的KX-PSOLA、清華大學(xué)的TH_SPEECH；1995年聯(lián)想佳音、中國科技大學(xué)的KDTALK等系統(tǒng)。這些系統(tǒng)基本上都是采用基于PSOLA方法的時域波形拼接技術(shù)，其合成漢語普通話的可懂度、清晰度達(dá)到了較高的水平。然而同國外其它語種的文語轉(zhuǎn)換系統(tǒng)一樣，這些系統(tǒng)合成的句子及篇章語音機(jī)器味較濃，其自然度還不能達(dá)到用戶可廣泛接受的程度，從而制約了這項技術(shù)的商品化。
　　
　　近些年，一種新的基于數(shù)據(jù)庫的語音合成方法得到了更廣泛的應(yīng)用。在這個方法中，合成語句的語音單元是從一個預(yù)先錄下的語音數(shù)據(jù)庫中挑選出來的，不難想象只要語音數(shù)據(jù)庫足夠大，包括了各種可能語境下的語音單元，理論上講就有可能拼接出任何語句。由于合成的語音基元都是來自自然的原始發(fā)音，合成語句的清晰度和自然度都將會非常高。
　　
　　2001年，北京捷通華聲語音技術(shù)有限公司推出了具有國際領(lǐng)先水平的TTS世紀(jì)版，是國內(nèi)第一項基于大容量真實錄音庫和韻律層級分析技術(shù)的TTS技術(shù)，在自然度和流暢度上達(dá)到了一個嶄新的水平，新版本的問世標(biāo)示著中國中文語音合成技術(shù)開始進(jìn)入商品實用化階段。
　　
　　語音合成技術(shù)研發(fā)與技術(shù)應(yīng)用發(fā)展趨勢同我國計算機(jī)技術(shù)的普及，網(wǎng)絡(luò)、通信、廣播電視等技術(shù)和業(yè)務(wù)的發(fā)展是同步的，可以說正是信息產(chǎn)業(yè)的迅猛發(fā)展推動了語音合成技術(shù)應(yīng)用領(lǐng)域的發(fā)展和突破，進(jìn)而刺激語音合成技術(shù)突飛猛進(jìn)的發(fā)展。
　　
　　我國在語音合成領(lǐng)域的研究選擇了與國外錯位發(fā)展的策略，并且在逐步縮小與國外關(guān)鍵技術(shù)領(lǐng)域的差距，在車載語音裝置、計算機(jī)聲音輸入或輸出技術(shù)、自然語言數(shù)據(jù)的數(shù)字?jǐn)?shù)據(jù)處理方法或設(shè)備等領(lǐng)域具有了一定的競爭優(yōu)勢。
　　
　　語音合成技術(shù)在下一代語音門戶網(wǎng)絡(luò)、移動通信系統(tǒng)和信息化家庭網(wǎng)絡(luò)平臺的領(lǐng)域都將有廣泛的應(yīng)用。未來的語音合成技術(shù)，應(yīng)將研究重點放在提高合成語音的自然度、豐富合成語音的表現(xiàn)力、降低語音合成技術(shù)的復(fù)雜度、多語種文語合成上。
　　
　　使計算機(jī)能夠真正像人一樣的說話，和人類自由地交流，仍然有大量的研究工作要做。今天的文語轉(zhuǎn)換系統(tǒng)只能機(jī)械地朗讀文章，與生動活潑、感情豐富多彩的人類語言相比差距甚大。但是毋庸置疑，今天的語音合成技術(shù)確實已經(jīng)走出實驗室了，其成功的應(yīng)用及潛在的巨大市場已經(jīng)讓我們看到曙光。

標(biāo)簽：通遼開封日喀則麗江阿拉善盟雅安長白山

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《回顧——語音合成技術(shù)發(fā)展歷程》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。

佳木斯湛栽影视文化发展公司

回顧——語音合成技術(shù)發(fā)展歷程

QQ咨詢

電話咨詢