科大訊飛已經(jīng)在做了。
一段 20 分鐘的音頻,只用 20 秒就轉(zhuǎn)錄成比較準(zhǔn)確的文字。
作為一個(gè)經(jīng)常需要采訪并且整理成文字的編輯,在如何將語(yǔ)音轉(zhuǎn)化成文字這件事上著實(shí)花費(fèi)了不少心思。
最傳統(tǒng)的方式是先開(kāi)啟錄音功能,然后一邊打電話(huà)一邊速記要點(diǎn),然后再利用音頻播放工具反復(fù)重聽(tīng)將所需要的細(xì)節(jié)進(jìn)行完善。我知道你也許會(huì)說(shuō)我很笨,但是我的確做不到一次性將采訪的內(nèi)容全部記住。
相信這樣的人也不在少數(shù),那么還有什么其他好辦法么?在我看來(lái),訊飛聽(tīng)見(jiàn)算一個(gè)。
訊飛聽(tīng)見(jiàn)作為科大訊飛自己的一套產(chǎn)品,包括三部分:PC 端網(wǎng)站、電銷(xiāo)機(jī)器人端 App 錄音寶、聽(tīng)見(jiàn)錄音筆,形成了一套“軟件+硬件+服務(wù)”的完整體系。
轉(zhuǎn)錄語(yǔ)音這件事,精確最重要!
在去年的訊飛年度發(fā)布會(huì)上,訊飛聽(tīng)見(jiàn)就展現(xiàn)了一把自己的轉(zhuǎn)錄精確度,董事長(zhǎng)在臺(tái)上演講,旁邊的屏幕上就直接出現(xiàn)演講的內(nèi)容智能語(yǔ)音系統(tǒng),精確度幾乎達(dá)到 99%。當(dāng)然,這個(gè)具體的精確度還是要具體使用才知道。
除了識(shí)別率之外,三款產(chǎn)品還有非常多的亮點(diǎn),PC 端的處理速度非常快,官網(wǎng)上表示 1 小時(shí)的音頻只需 10 分鐘就可以處理完成。而在實(shí)際使用中,速度比這個(gè)還快,20 分鐘出頭的音頻通常不用 1 分鐘就可以完成轉(zhuǎn)錄。
點(diǎn)擊進(jìn)入轉(zhuǎn)錄完成的頁(yè)面之后,你會(huì)看到一個(gè)非常有特點(diǎn)的操作頁(yè)面。頂部是語(yǔ)音的波形圖,用戶(hù)能夠選擇播放、加/減速播放,快進(jìn)/退等常見(jiàn)的操作。
波形圖的下方,則直接分成兩部分:左邊是轉(zhuǎn)錄出來(lái)內(nèi)容,右邊則是一個(gè)功能完善的文字編輯器。左邊的內(nèi)容被智能的分隔成很多段,用戶(hù)可以選擇將其中一段、幾段或是全文導(dǎo)入到編輯器中。
似乎沒(méi)有什么意思?接下來(lái)才是重點(diǎn)
上圖左側(cè)的轉(zhuǎn)錄內(nèi)容能夠直接通過(guò)搜索關(guān)鍵字的方式進(jìn)行篩選,點(diǎn)擊其中的文字還能直接播放對(duì)應(yīng)片段的音頻,這也就讓用戶(hù)能夠直接完成“轉(zhuǎn)錄-聽(tīng)錄音-修正結(jié)果”整個(gè)過(guò)程。
右側(cè)的編輯器功能也比較強(qiáng)大,主要的文字格式編輯,比如字體、大小、顏色、背景色、粗體、斜體、劃線、下劃線都有,此外提供了猶如對(duì)齊和縮進(jìn)的段落格式功能。
只不過(guò)添加一個(gè)編輯器而已,真的有那么重要么?從實(shí)際的使用效果來(lái)看智能語(yǔ)音系統(tǒng),除非錄音設(shè)備很高級(jí)、錄音對(duì)象的發(fā)音非常清晰,通過(guò)機(jī)器轉(zhuǎn)錄的效果目前還沒(méi)有辦法達(dá)到 100% 準(zhǔn)確。這也是添加一個(gè)編輯器的最大意義所在。
當(dāng)然如果你自己比較懶,訊飛聽(tīng)見(jiàn)還提供了收費(fèi)的人工轉(zhuǎn)錄服務(wù),只要上傳了錄音你就能夠直接獲得最終的精準(zhǔn)文字結(jié)果。
從定位上來(lái)說(shuō),這款產(chǎn)品主要面向記者、律師、速記員等有音頻轉(zhuǎn)文字需求的用戶(hù)。當(dāng)然這其中的語(yǔ)音分析技術(shù)同樣能夠運(yùn)用到其他應(yīng)用上,開(kāi)發(fā)者能夠通過(guò)訊飛開(kāi)放平臺(tái)中選擇自己所需的服務(wù)構(gòu)建 API 結(jié)構(gòu),實(shí)現(xiàn)自己產(chǎn)品的交互升級(jí)。