作為人工智能落地最成功的領(lǐng)域，語音識別發(fā)展現(xiàn)狀如何？

2025China.cn 2017年10月10日

　　曾轟動一時的電影《她》，講述了男主人公與人工智能虛擬助手相愛的故事，這個人工智能對話系統(tǒng)能夠同時與數(shù)百人進行對話?，F(xiàn)實中，蘋果Siri能夠有目的地模仿人類，并擁有了不同的人類風(fēng)格，像Siri這類智能軟件助手正在與數(shù)以億計的人類用戶互動。

　　“語音識別現(xiàn)在已經(jīng)有很多的產(chǎn)品，包括維語到漢語的翻譯等等。人工智能目前落地最成功的就是語音識別技術(shù)?！敝锌圃鹤詣踊芯克L徐波告訴《瞭望》新聞周刊記者，要讓機器理解人的語言，還面臨很多挑戰(zhàn)。

　　人機交互的基礎(chǔ)

　　近日，全國首家互聯(lián)網(wǎng)法院揭牌，案件庭審記錄由語音輸入系統(tǒng)即時完成?！盎ヂ?lián)網(wǎng)法院是遠程的，原告、被告、法官不在同一個地方，將庭審麥克風(fēng)接入語音識別的云端，就能夠?qū)崟r生成速記。它使用的就是阿里云語音在線識別技術(shù)。”阿里巴巴iDST智能語音團隊負責(zé)人鄢志杰告訴《瞭望》新聞周刊記者。

　　語音識別是人機交互的基礎(chǔ)，主要解決讓機器聽清楚人說什么的難題。早在1970年代，IBM沃森實驗室的弗雷德里克·賈里尼克(Frederick Jelinek)就提出了語音識別框架：聲學(xué)模型和語言模型。

　　語音識別取得的重大突破，就在于引入了深度神經(jīng)網(wǎng)絡(luò)技術(shù)?！吧疃壬窠?jīng)網(wǎng)絡(luò)的方法，是通過大量的語音數(shù)據(jù)，訓(xùn)練出高精度的聲學(xué)模型和語言模型，從而提升識別率?！崩顺奔瘓F人工智能與高性能計算總經(jīng)理劉軍告訴記者，淺層神經(jīng)網(wǎng)絡(luò)方法，是提取語音的特征，識別率比較低。

　　“教會機器聽懂人話的過程，就是通過深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)模型和語言模型的過程?！笨拼笥嶏w股份有限公司(簡稱科大訊飛)工程師丁瑞告訴記者，聲學(xué)模型訓(xùn)練是教會機器哪個字詞發(fā)什么音、該怎么連在一起讀，有點像我們小學(xué)時候跟著老師讀拼音。而語言模型訓(xùn)練則要教會機器什么樣的命令或文字組合是合理的、更常見的。

　　在完成模型訓(xùn)練后，需要將其送入語音識別系統(tǒng)的解碼引擎?！敖獯a引擎的工作是在一個巨大的網(wǎng)絡(luò)里進行搜索，這個網(wǎng)絡(luò)由數(shù)億節(jié)點及弧組成，并且里邊已經(jīng)糅合了訓(xùn)練好的聲學(xué)模型和語言模型信息，搜索出來的最優(yōu)路徑上所攜帶的信息就是對應(yīng)的語音識別結(jié)果了?！倍∪鸾榻B，解碼引擎的運算效率至關(guān)重要，直接影響到用戶體驗。目前，科大訊飛的解碼引擎可以在用戶說完話40毫秒之內(nèi)給出結(jié)果。

　　“一般的深度學(xué)習(xí)算法只能看到上下文的一點點，我們試驗最成功的是BLSTM算法(雙向長短時記憶神經(jīng)網(wǎng)絡(luò))。通常一句話講完才能出識別結(jié)果，但BLSTM算法理論上可以看到無窮遠的上下文，可以更好地理解人類的語言。”鄢志杰說，BLSTM算法是深度學(xué)習(xí)中的一種，對單位時間內(nèi)的計算量要求很高，他們研發(fā)出的LC—Blstm系統(tǒng)，將語音解碼速率提升了三倍，并在業(yè)界最先大規(guī)模上線了基于這一技術(shù)的語音識別系統(tǒng)。

　　提高識別準(zhǔn)確率有多難

　　目前，國外一些大公司提出，他們研發(fā)的語言識別系統(tǒng)已經(jīng)十分接近人類聽力水平。國內(nèi)也有多家公司提出，他們的語音識別系統(tǒng)達到90%以上的正確率。

　　鄢志杰認(rèn)為，脫離了應(yīng)用場景講識別準(zhǔn)確率并不現(xiàn)實?！氨热缫粋€IT方面的會議，會場上演講嘉賓的語音識別準(zhǔn)確率基本能達到95%，但如果突然邀請一個醫(yī)療領(lǐng)域的講演者，就很難達到同樣高的識別率，因為現(xiàn)有模型在醫(yī)療領(lǐng)域的知識積累不夠。”

　　“正常人際交流情況下，機器語音識別錯誤率超過15%甚至30%，而一些公司宣傳的機器識別準(zhǔn)確率過高，速記員都達不到這一水平?！臂持窘苷J(rèn)為，這樣的宣傳會讓公眾誤認(rèn)為語音識別問題得到了完全解決。

　　“語音識別要進入到各個不同的應(yīng)用場景，還有很多相關(guān)的工作需要去完成，不能單靠深度神經(jīng)網(wǎng)絡(luò)的方法來實現(xiàn)?！眲④娬f，語音識別準(zhǔn)確率涉及多方面原因，例如遠場精確識別就是業(yè)界難題。

　　遠場語音識別基本采用麥克風(fēng)陣列方案，通過波束成形和精準(zhǔn)定位的技術(shù)方案，解決遠場拾音、噪聲、混響等問題?！澳壳翱拼笥嶏w的語音識別距離已經(jīng)達到5米，同時有國際領(lǐng)先的回音消除技術(shù)，消除量可以達到50db?！倍∪鹫f。

　　受訪專家認(rèn)為，應(yīng)用麥克風(fēng)陣列做定位和聚焦可解決遠場識別問題，識別率較之前有了大幅提高。例如在落下車窗的快速行駛汽車中，可成功喚醒車載語音識別功能。

　　“現(xiàn)在有很多大量近講的數(shù)據(jù)，例如手機、錄音棚中的數(shù)據(jù)，將其放在一個房間內(nèi)播放，就能測得房間的沖擊響應(yīng)，可以模擬遠場數(shù)據(jù)。由此建立代表近講信號與遠場信號的不同模型。”鄢志杰介紹道。

　　受訪專家表示，遠場識別在一些場景中的應(yīng)用并不理想，例如機場、火車站、大型會場等環(huán)境嘈雜的地方。徐波告訴記者，現(xiàn)在用的麥克風(fēng)陣列，能辨別人說話的方位，但如果多個聲源在相近的方位還是難以識別。

　　語音識別應(yīng)用推廣的另一短板表現(xiàn)在場景數(shù)據(jù)的獲取。場景是用戶群體、語言風(fēng)格、語音信道、使用環(huán)境等綜合性的描述?！爸形恼Z法的隨意性比較大，還有場景中的方言因素，解決這一問題的方法主要是靠數(shù)據(jù)訓(xùn)練模型，我們需要一個很大的數(shù)據(jù)庫?！毙觳ㄕf。

　　“數(shù)據(jù)獲取的成本非常高，需要收集全國各地的各種口音數(shù)據(jù)，并使用人工把發(fā)音和文字一句一句地標(biāo)注對應(yīng)好，變成所謂的熟數(shù)據(jù)，才能交由機器學(xué)習(xí)。我們已經(jīng)做了幾萬小時的這種聲音?！毙觳ㄌ岬剑媚壳暗姆椒?，機器有多少智能，背后一定賦予了多少人力投入。

　　劉軍認(rèn)為，雖然現(xiàn)在使用互聯(lián)網(wǎng)服務(wù)，數(shù)據(jù)很容易上傳到云端，標(biāo)注后就可以用，但目前還沒有很好的方法替代“人工標(biāo)注”這一工作。

　　“數(shù)據(jù)是燃料，云計算背景下，怎樣做大規(guī)模低成本的定制化語音服務(wù)非常重要，如果成本不能控制，生意就做不下去?！臂持窘苷f，為節(jié)省成本，阿里iDST采用了數(shù)據(jù)模型自適應(yīng)的一系列算法。例如為電話客服場景做語音識別訓(xùn)練模型就需要用大量的數(shù)據(jù)，但這個模型就可以遷移到保險公司客服的模型中去，而不需要用大量數(shù)據(jù)重新訓(xùn)練保險公司的客服模型。

　　“自然語言理解”難題待解

　　“在計算機的世界里，理解對話系統(tǒng)不再是什么古怪的創(chuàng)新，而是一種逐漸成為主流的交互方式?！薄都~約時報》高級科技記者、普利策獎得主約翰·馬爾科夫(John Markoff)在其著作《與機器人共舞》中提出。

　　與機器對話是人與計算機之間的雙向信息交換，即人傳達給機器一個信息，機器會反饋給人一個信息。語音的交互已經(jīng)廣泛應(yīng)用于智能硬件、智能家居、智能機器人等領(lǐng)域。隨著亞馬遜打開智能音箱的市場，各巨頭公司爭相逐鹿，打響了“百箱大戰(zhàn)”，如谷歌推出了Google Home、蘋果上線了HomePod等。國內(nèi)來看，科大訊飛推出了“叮咚智能音箱”，阿里發(fā)布了智能音箱“天貓精靈X1”等。

　　受訪專家認(rèn)為，語音識別屬于感知智能，而讓機器從簡單的識別語音到理解語音，則上升到了認(rèn)知智能層面，機器的自然語言理解能力如何，也成為了其是否有智慧的標(biāo)志。

　　在機器理解人的語言方面，專家的意見非常一致，即自然語言理解是人工智能的難點。機器對語言理解本身的準(zhǔn)確率非常低，并不是非常聰明。但在馬爾科夫看來，人機交互是機器的終極智慧。

　　“全世界基于自然語言理解的人機對話領(lǐng)域，還沒有萬流歸宗的方法論，在工業(yè)界無法形成應(yīng)用?！臂持窘苷f，相比之下，基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的語音識別技術(shù)已經(jīng)形成固定的流派，只是互相之間用的聲學(xué)模型、語言模型各有特色。

　　“語言的理解非常困難，需要知識的儲備，而機器缺乏常識?！毙觳ㄅe例說，“張三吃食堂”、“能穿多少穿多少”。這樣的句子機器理解不了。“因為它包含了我們生活中的很多常識。比如說‘張三吃食堂’，實際上是說張三在食堂吃飯，不是把食堂吃下去。不同季節(jié)說‘能穿多少穿多少’意思也是不一樣的：在夏天說，意思就是太熱了盡量少穿;在冬天說，意思則是多穿點別著涼。”徐波告訴記者，常識是我們從小到大、通過與現(xiàn)實物理世界不斷交互感知和學(xué)習(xí)產(chǎn)生的，而計算機怎么去表示、獲取、學(xué)習(xí)常識，并將常識與數(shù)據(jù)結(jié)合是個挑戰(zhàn)，全世界都還沒有解決這個問題。

　　徐波告訴記者，目前機器服務(wù)多為簡單查詢，不涉及“推理”查詢類信息服務(wù)，而且缺乏基本語言理解能力?！澳銌枡C器明天這個天氣狀況會造成航班延誤嗎?機器回答不了。你讓機器推薦一個附近的餐廳，不要日本菜，機器推薦的沒準(zhǔn)就是日本餐廳?！?/FONT>

　　專家認(rèn)為，機器基本不具有的上下文功能，也讓人機交互之間難以順暢進行。目前開放領(lǐng)域的聊天系統(tǒng)，會根據(jù)用戶輸入的語句生成系統(tǒng)的回答語句。這種系統(tǒng)采用單輪的一問一答方式訓(xùn)練，而對于多輪交互才能完成的對話，機器無法將聊天中的上下文信息關(guān)聯(lián)起來，導(dǎo)致交流不暢。

　　“人與人之間的交流，最重要的就是持續(xù)、雙向、可打斷。為實現(xiàn)自然流暢的交互，科大訊飛采用了一個全鏈路的貫穿過程，需要包括持續(xù)的語音喚醒、人聲檢測、智能斷句、無效語音拒識等各個模塊相互配合才能完成?！倍∪鹫f，智能斷句主要是在識別過程中，用語義信息來預(yù)測和判定。以點歌為例，用戶經(jīng)常會說，我想聽……周杰倫的歌，中間會有思考過程。此時后端的斷句引擎必須等待后續(xù)的有效音頻，給出完整的理解內(nèi)容。但如果用戶停頓時間過長，后端引擎也會給出響應(yīng)，比如會問：您要聽誰的歌，以做出更好的引導(dǎo)提示。

　　雖然各方在積極探索機器的自然語言理解實現(xiàn)路徑，但要實現(xiàn)電影《她》中的強人工智能，還有待時日。

（轉(zhuǎn)自公眾號瞭望）

（轉(zhuǎn)載）

標(biāo)簽：人工智能語音識別

我要反饋