siemens x
控制系統(tǒng)

作為人工智能落地最成功的領(lǐng)域,語音識別發(fā)展現(xiàn)狀如何?

2025China.cn   2017年10月10日

  曾轟動一時的電影《她》,講述了男主人公與人工智能虛擬助手相愛的故事,這個人工智能對話系統(tǒng)能夠同時與數(shù)百人進行對話?,F(xiàn)實中,蘋果Siri能夠有目的地模仿人類,并擁有了不同的人類風(fēng)格,像Siri這類智能軟件助手正在與數(shù)以億計的人類用戶互動。

  “語音識別現(xiàn)在已經(jīng)有很多的產(chǎn)品,包括維語到漢語的翻譯等等。人工智能目前落地最成功的就是語音識別技術(shù)?!敝锌圃鹤詣踊芯克L徐波告訴《瞭望》新聞周刊記者,要讓機器理解人的語言,還面臨很多挑戰(zhàn)。

  人機交互的基礎(chǔ)

  近日,全國首家互聯(lián)網(wǎng)法院揭牌,案件庭審記錄由語音輸入系統(tǒng)即時完成?!盎ヂ?lián)網(wǎng)法院是遠程的,原告、被告、法官不在同一個地方,將庭審麥克風(fēng)接入語音識別的云端,就能夠?qū)崟r生成速記。它使用的就是阿里云語音在線識別技術(shù)。”阿里巴巴iDST智能語音團隊負責(zé)人鄢志杰告訴《瞭望》新聞周刊記者。

  語音識別是人機交互的基礎(chǔ),主要解決讓機器聽清楚人說什么的難題。早在1970年代,IBM沃森實驗室的弗雷德里克·賈里尼克(Frederick Jelinek)就提出了語音識別框架:聲學(xué)模型和語言模型。

  語音識別取得的重大突破,就在于引入了深度神經(jīng)網(wǎng)絡(luò)技術(shù)?!吧疃壬窠?jīng)網(wǎng)絡(luò)的方法,是通過大量的語音數(shù)據(jù),訓(xùn)練出高精度的聲學(xué)模型和語言模型,從而提升識別率?!崩顺奔瘓F人工智能與高性能計算總經(jīng)理劉軍告訴記者,淺層神經(jīng)網(wǎng)絡(luò)方法,是提取語音的特征,識別率比較低。

  “教會機器聽懂人話的過程,就是通過深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)模型和語言模型的過程?!笨拼笥嶏w股份有限公司(簡稱科大訊飛)工程師丁瑞告訴記者,聲學(xué)模型訓(xùn)練是教會機器哪個字詞發(fā)什么音、該怎么連在一起讀,有點像我們小學(xué)時候跟著老師讀拼音。而語言模型訓(xùn)練則要教會機器什么樣的命令或文字組合是合理的、更常見的。

  在完成模型訓(xùn)練后,需要將其送入語音識別系統(tǒng)的解碼引擎?!敖獯a引擎的工作是在一個巨大的網(wǎng)絡(luò)里進行搜索,這個網(wǎng)絡(luò)由數(shù)億節(jié)點及弧組成,并且里邊已經(jīng)糅合了訓(xùn)練好的聲學(xué)模型和語言模型信息,搜索出來的最優(yōu)路徑上所攜帶的信息就是對應(yīng)的語音識別結(jié)果了?!倍∪鸾榻B,解碼引擎的運算效率至關(guān)重要,直接影響到用戶體驗。目前,科大訊飛的解碼引擎可以在用戶說完話40毫秒之內(nèi)給出結(jié)果。

  “一般的深度學(xué)習(xí)算法只能看到上下文的一點點,我們試驗最成功的是BLSTM算法(雙向長短時記憶神經(jīng)網(wǎng)絡(luò))。通常一句話講完才能出識別結(jié)果,但BLSTM算法理論上可以看到無窮遠的上下文,可以更好地理解人類的語言。”鄢志杰說,BLSTM算法是深度學(xué)習(xí)中的一種,對單位時間內(nèi)的計算量要求很高,他們研發(fā)出的LC—Blstm系統(tǒng),將語音解碼速率提升了三倍,并在業(yè)界最先大規(guī)模上線了基于這一技術(shù)的語音識別系統(tǒng)。

  提高識別準(zhǔn)確率有多難

  目前,國外一些大公司提出,他們研發(fā)的語言識別系統(tǒng)已經(jīng)十分接近人類聽力水平。國內(nèi)也有多家公司提出,他們的語音識別系統(tǒng)達到90%以上的正確率。

  鄢志杰認(rèn)為,脫離了應(yīng)用場景講識別準(zhǔn)確率并不現(xiàn)實?!氨热缫粋€IT方面的會議,會場上演講嘉賓的語音識別準(zhǔn)確率基本能達到95%,但如果突然邀請一個醫(yī)療領(lǐng)域的講演者,就很難達到同樣高的識別率,因為現(xiàn)有模型在醫(yī)療領(lǐng)域的知識積累不夠。”

  “正常人際交流情況下,機器語音識別錯誤率超過15%甚至30%,而一些公司宣傳的機器識別準(zhǔn)確率過高,速記員都達不到這一水平?!臂持窘苷J(rèn)為,這樣的宣傳會讓公眾誤認(rèn)為語音識別問題得到了完全解決。

  “語音識別要進入到各個不同的應(yīng)用場景,還有很多相關(guān)的工作需要去完成,不能單靠深度神經(jīng)網(wǎng)絡(luò)的方法來實現(xiàn)?!眲④娬f,語音識別準(zhǔn)確率涉及多方面原因,例如遠場精確識別就是業(yè)界難題。

  遠場語音識別基本采用麥克風(fēng)陣列方案,通過波束成形和精準(zhǔn)定位的技術(shù)方案,解決遠場拾音、噪聲、混響等問題?!澳壳翱拼笥嶏w的語音識別距離已經(jīng)達到5米,同時有國際領(lǐng)先的回音消除技術(shù),消除量可以達到50db?!倍∪鹫f。

  受訪專家認(rèn)為,應(yīng)用麥克風(fēng)陣列做定位和聚焦可解決遠場識別問題,識別率較之前有了大幅提高。例如在落下車窗的快速行駛汽車中,可成功喚醒車載語音識別功能。

  “現(xiàn)在有很多大量近講的數(shù)據(jù),例如手機、錄音棚中的數(shù)據(jù),將其放在一個房間內(nèi)播放,就能測得房間的沖擊響應(yīng),可以模擬遠場數(shù)據(jù)。由此建立代表近講信號與遠場信號的不同模型。”鄢志杰介紹道。

  受訪專家表示,遠場識別在一些場景中的應(yīng)用并不理想,例如機場、火車站、大型會場等環(huán)境嘈雜的地方。徐波告訴記者,現(xiàn)在用的麥克風(fēng)陣列,能辨別人說話的方位,但如果多個聲源在相近的方位還是難以識別。

  語音識別應(yīng)用推廣的另一短板表現(xiàn)在場景數(shù)據(jù)的獲取。場景是用戶群體、語言風(fēng)格、語音信道、使用環(huán)境等綜合性的描述?!爸形恼Z法的隨意性比較大,還有場景中的方言因素,解決這一問題的方法主要是靠數(shù)據(jù)訓(xùn)練模型,我們需要一個很大的數(shù)據(jù)庫?!毙觳ㄕf。

  “數(shù)據(jù)獲取的成本非常高,需要收集全國各地的各種口音數(shù)據(jù),并使用人工把發(fā)音和文字一句一句地標(biāo)注對應(yīng)好,變成所謂的熟數(shù)據(jù),才能交由機器學(xué)習(xí)。我們已經(jīng)做了幾萬小時的這種聲音?!毙觳ㄌ岬剑媚壳暗姆椒?,機器有多少智能,背后一定賦予了多少人力投入。

  劉軍認(rèn)為,雖然現(xiàn)在使用互聯(lián)網(wǎng)服務(wù),數(shù)據(jù)很容易上傳到云端,標(biāo)注后就可以用,但目前還沒有很好的方法替代“人工標(biāo)注”這一工作。

  “數(shù)據(jù)是燃料,云計算背景下,怎樣做大規(guī)模低成本的定制化語音服務(wù)非常重要,如果成本不能控制,生意就做不下去?!臂持窘苷f,為節(jié)省成本,阿里iDST采用了數(shù)據(jù)模型自適應(yīng)的一系列算法。例如為電話客服場景做語音識別訓(xùn)練模型就需要用大量的數(shù)據(jù),但這個模型就可以遷移到保險公司客服的模型中去,而不需要用大量數(shù)據(jù)重新訓(xùn)練保險公司的客服模型。

  “自然語言理解”難題待解

  “在計算機的世界里,理解對話系統(tǒng)不再是什么古怪的創(chuàng)新,而是一種逐漸成為主流的交互方式?!薄都~約時報》高級科技記者、普利策獎得主約翰·馬爾科夫(John Markoff)在其著作《與機器人共舞》中提出。

  與機器對話是人與計算機之間的雙向信息交換,即人傳達給機器一個信息,機器會反饋給人一個信息。語音的交互已經(jīng)廣泛應(yīng)用于智能硬件、智能家居、智能機器人等領(lǐng)域。隨著亞馬遜打開智能音箱的市場,各巨頭公司爭相逐鹿,打響了“百箱大戰(zhàn)”,如谷歌推出了Google Home、蘋果上線了HomePod等。國內(nèi)來看,科大訊飛推出了“叮咚智能音箱”,阿里發(fā)布了智能音箱“天貓精靈X1”等。

  受訪專家認(rèn)為,語音識別屬于感知智能,而讓機器從簡單的識別語音到理解語音,則上升到了認(rèn)知智能層面,機器的自然語言理解能力如何,也成為了其是否有智慧的標(biāo)志。

  在機器理解人的語言方面,專家的意見非常一致,即自然語言理解是人工智能的難點。機器對語言理解本身的準(zhǔn)確率非常低,并不是非常聰明。但在馬爾科夫看來,人機交互是機器的終極智慧。

  “全世界基于自然語言理解的人機對話領(lǐng)域,還沒有萬流歸宗的方法論,在工業(yè)界無法形成應(yīng)用?!臂持窘苷f,相比之下,基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的語音識別技術(shù)已經(jīng)形成固定的流派,只是互相之間用的聲學(xué)模型、語言模型各有特色。

  “語言的理解非常困難,需要知識的儲備,而機器缺乏常識?!毙觳ㄅe例說,“張三吃食堂”、“能穿多少穿多少”。這樣的句子機器理解不了。“因為它包含了我們生活中的很多常識。比如說‘張三吃食堂’,實際上是說張三在食堂吃飯,不是把食堂吃下去。不同季節(jié)說‘能穿多少穿多少’意思也是不一樣的:在夏天說,意思就是太熱了盡量少穿;在冬天說,意思則是多穿點別著涼。”徐波告訴記者,常識是我們從小到大、通過與現(xiàn)實物理世界不斷交互感知和學(xué)習(xí)產(chǎn)生的,而計算機怎么去表示、獲取、學(xué)習(xí)常識,并將常識與數(shù)據(jù)結(jié)合是個挑戰(zhàn),全世界都還沒有解決這個問題。

  徐波告訴記者,目前機器服務(wù)多為簡單查詢,不涉及“推理”查詢類信息服務(wù),而且缺乏基本語言理解能力?!澳銌枡C器明天這個天氣狀況會造成航班延誤嗎?機器回答不了。你讓機器推薦一個附近的餐廳,不要日本菜,機器推薦的沒準(zhǔn)就是日本餐廳?!?/FONT>

  專家認(rèn)為,機器基本不具有的上下文功能,也讓人機交互之間難以順暢進行。目前開放領(lǐng)域的聊天系統(tǒng),會根據(jù)用戶輸入的語句生成系統(tǒng)的回答語句。這種系統(tǒng)采用單輪的一問一答方式訓(xùn)練,而對于多輪交互才能完成的對話,機器無法將聊天中的上下文信息關(guān)聯(lián)起來,導(dǎo)致交流不暢。

  “人與人之間的交流,最重要的就是持續(xù)、雙向、可打斷。為實現(xiàn)自然流暢的交互,科大訊飛采用了一個全鏈路的貫穿過程,需要包括持續(xù)的語音喚醒、人聲檢測、智能斷句、無效語音拒識等各個模塊相互配合才能完成?!倍∪鹫f,智能斷句主要是在識別過程中,用語義信息來預(yù)測和判定。以點歌為例,用戶經(jīng)常會說,我想聽……周杰倫的歌,中間會有思考過程。此時后端的斷句引擎必須等待后續(xù)的有效音頻,給出完整的理解內(nèi)容。但如果用戶停頓時間過長,后端引擎也會給出響應(yīng),比如會問:您要聽誰的歌,以做出更好的引導(dǎo)提示。

  雖然各方在積極探索機器的自然語言理解實現(xiàn)路徑,但要實現(xiàn)電影《她》中的強人工智能,還有待時日。

(轉(zhuǎn)自公眾號 瞭望)

(轉(zhuǎn)載)

標(biāo)簽:人工智能 語音識別 我要反饋