siemens x
智能家居

智能家居語音控制解決方案:能聽會(huì)說、自在交互

2025China.cn   2015年12月07日

  在智能家居給人們帶來便捷生活的同時(shí),人們的控制習(xí)慣逐漸發(fā)生改變。語音技術(shù)的發(fā)展也為控制入口做了一個(gè)補(bǔ)充,在拋去了傳統(tǒng)遙控器和手機(jī)APP之后,通過口令發(fā)送讓家居環(huán)境達(dá)到舒適狀態(tài),讓生活更便捷智能,這是否會(huì)成為智能家居行業(yè)下一個(gè)階段的普遍應(yīng)用?

  遠(yuǎn)場語音識別、云端語義辨識、人工智能應(yīng)用等等一個(gè)個(gè)技術(shù)節(jié)點(diǎn)得到新的突破,為智能家居提供了新的控制入口選擇。本文將從技術(shù)趨勢、解決方案、產(chǎn)品應(yīng)用、項(xiàng)目實(shí)施等多角度為您呈現(xiàn)語音控制技術(shù)在智能家居產(chǎn)品和集成項(xiàng)目中的應(yīng)用前景。

  所謂智能語音產(chǎn)業(yè),主要指通過語音合成技術(shù)和語音識別技術(shù),為用戶提供各種服務(wù)的產(chǎn)業(yè)。一般來說,用戶只需要用說話的方式給服務(wù)終端發(fā)布命令,就能得到相應(yīng)的服務(wù)。這一產(chǎn)業(yè)從上世紀(jì)六十年代就已出現(xiàn),但并不為普通消費(fèi)者所熟知,消費(fèi)者對其認(rèn)知度也比較低。近年來,隨著蘋果、谷歌、微軟等公司先后推出Siri等智能語音服務(wù),這一服務(wù)以及相關(guān)產(chǎn)業(yè)也開始被普通消費(fèi)者和投資界所關(guān)注。

  語音控制技術(shù)

  與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。

  語音識別是一門交叉學(xué)科,語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作,語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競爭性的新興高技術(shù)產(chǎn)業(yè)。

  目前語音控制技術(shù)存在的問題

  目前,對于語音控制類的智能硬件產(chǎn)品在很多場景下因語音交互體驗(yàn)不如人意而深受詬病,究其原因主要是受限于空間距離、背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素,進(jìn)而導(dǎo)致的識別距離近、識別率低等明顯痛點(diǎn)。

  除此之外,單是中國語系、方言和口音就相當(dāng)多,加上中文的多語義性,所以不同地區(qū)的人使用語音控制識別率差異較大。同時(shí),在語義識別上,也存在上下文的關(guān)聯(lián)帶來識別的學(xué)習(xí)難、定位難和建立模型難等問題。

 

  語音識別的幾種控制技術(shù)

  “語音識別”技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上“耳朵”,使其具備“能聽”的功能。該技術(shù)經(jīng)過語音信號處理、語音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟,使機(jī)器最終能夠?qū)⒄Z音中的內(nèi)容、說話人、語種等信息識別出來。語音控制功能的實(shí)現(xiàn),與用戶的使用習(xí)慣高度關(guān)聯(lián)。目前的語音控制功能實(shí)現(xiàn)方式可分為近場語音識別和遠(yuǎn)場語音識別二個(gè)大類。

  近場/遠(yuǎn)場語音識別技術(shù)

  近場語音識別,需要用戶點(diǎn)擊啟動(dòng),并且用戶與終端設(shè)備的距離比較近,如手機(jī)或其他終端設(shè)備,可直接借助這些終端設(shè)備的實(shí)現(xiàn)控制功能。

  遠(yuǎn)場語音識別,以麥克風(fēng)陣列遠(yuǎn)距離拾取的語音數(shù)據(jù)作為輸入數(shù)據(jù),通過語音識別的算法將語音信號轉(zhuǎn)寫成文字的技術(shù)。雖然和近場語音識別技術(shù)在原理上是相同的,但是由于音源和麥克風(fēng)之間的空間距離增大,在聲波傳播過程中會(huì)出現(xiàn)信號強(qiáng)度的衰減和各種噪音干擾,因此需要特殊的語音數(shù)據(jù)拾取和預(yù)處理技術(shù)。不同的拾取設(shè)備和預(yù)處理技術(shù)常常會(huì)使用于語音識別的聲波信號特征發(fā)生改變,因此針對不同的遠(yuǎn)場語音拾取技術(shù),需要對語音識別引擎進(jìn)行定制化適配和優(yōu)化。

 

  當(dāng)語音信號在傳播過程中有所衰減,影響采集信號的強(qiáng)度和分辨率,使用的靈敏度非常高的指向性麥克風(fēng),同時(shí)將麥克風(fēng)的參數(shù)調(diào)整到適合遠(yuǎn)場語音數(shù)據(jù)的模式,可以最大限度采集清晰的遠(yuǎn)場語音信號。語音指令聲波在傳輸過程中受到周圍噪音的污染,降低聲波信號的信噪比,使用定向波速成形技術(shù),抑制方向外的噪音,從而減少噪音對語音信號的干擾。在一個(gè)房間里,麥克風(fēng)拾取的聲波不僅僅直接來自于音源,還有音源發(fā)出后經(jīng)過墻壁反射的遲到的聲波,形成聲音的殘留,造成混響。利用多個(gè)麥克風(fēng)采集的數(shù)據(jù),通過多通道回聲消除算法,將這些不同時(shí)間達(dá)到的聲音數(shù)據(jù)分離開來,從而消除了混響對聲音數(shù)據(jù)的影響。

  喚醒目標(biāo)檢測技術(shù)

  在遠(yuǎn)距離用語音進(jìn)行操控的時(shí)候,聲音可能來自不同方向的不同人。因此首先要確定哪些是發(fā)指令的聲音,哪些不是。使用的麥克風(fēng)陣列波速成形算法,將360度空間垂直劃分成若干區(qū)域,每個(gè)麥克風(fēng)負(fù)責(zé)檢測一個(gè)指定的區(qū)域。當(dāng)某個(gè)空間區(qū)域里面檢測到有喚醒詞出現(xiàn)時(shí),對應(yīng)于該空間區(qū)域的麥克風(fēng)拾音功能就被增強(qiáng),其他區(qū)域的麥克風(fēng)拾音就被抑制。從而實(shí)現(xiàn)了對聲音進(jìn)行有方向有角度的拾取,避免了周圍電視機(jī)里的說話聲音、其他人交談對語音指令的影響。

  播放狀態(tài)打斷技術(shù)

  在對音箱等設(shè)備進(jìn)行語音控制時(shí),往往該設(shè)備處于播放歌曲的狀態(tài)。由于麥克風(fēng)安裝在音箱上,麥克風(fēng)和說話人之間的距離要遠(yuǎn)大于麥克風(fēng)和揚(yáng)聲器之間的距離,在這樣的情況下,采用內(nèi)外兼顧的方法進(jìn)行解決。內(nèi)部使用特殊的回聲消除算法從內(nèi)部減小噪音對麥克風(fēng)的影響。另外對于震動(dòng)帶來的非線性干擾,傳統(tǒng)的線性回聲消除方法失效了,因此可以使用非線性回聲消除算法提高內(nèi)部噪聲消除的效果。在外部結(jié)構(gòu)設(shè)計(jì)方面,使用精心設(shè)計(jì)的麥克風(fēng)陣列減震結(jié)構(gòu),使多個(gè)麥克風(fēng)和它所連接的電路板之間的震動(dòng)減小到最小,從而最大程度的控制高聲強(qiáng)導(dǎo)致的音箱本體震動(dòng)對拾音的干擾。

  距離:遠(yuǎn)場識別技術(shù)打破距離瓶頸

  近場識別技術(shù)目前已經(jīng)比較成熟,現(xiàn)在手機(jī)上使用的語音輸入功能就屬于近場識別技術(shù),用戶必須在離手機(jī)比較近的距離內(nèi)說話,但在智能家居環(huán)境中,用戶和智能終端之間的距離被大大增加了,用戶能隨意用語音控制智能家居的一個(gè)必要條件就是在無論你在客廳哪個(gè)角落發(fā)出指令,設(shè)備都能準(zhǔn)確的識別,語音識別技術(shù)必須突破距離的障礙。

  目前室內(nèi)的語音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響,導(dǎo)致識別率低甚至無法使用,只能在相對安靜、近距離的環(huán)境下使用。而遠(yuǎn)場識別技術(shù)將能夠很好的解決這些問題。

  效率:快速反應(yīng)實(shí)現(xiàn)秒懂

  近年來,隨著深度學(xué)習(xí)理論的爆發(fā)式發(fā)展及其在語音識別領(lǐng)域獲得的顯著效果,同時(shí)Kaldi等開源語音識別工具也在工業(yè)界和學(xué)術(shù)界逐漸普及,語音識別的門檻持續(xù)降低,許多公司都具備了語音識別的能力及相關(guān)產(chǎn)品,但是一些產(chǎn)品反應(yīng)慢,說出一句話往往要等待很久才能顯示結(jié)果,另外,準(zhǔn)確率也不高,存在識別不出來的情況。

 

  個(gè)性化:自動(dòng)學(xué)習(xí)適應(yīng)用戶使用習(xí)慣

  每個(gè)人在說話時(shí),口音、語速、口頭禪都不一樣,那么家里的智能設(shè)備只會(huì)識別一些基本詞句顯然是遠(yuǎn)遠(yuǎn)不夠的,它們必須要更懂你。比如,懂你的口音、方言、口頭禪以及時(shí)不時(shí)蹦出的專業(yè)詞匯等。

  讓智能設(shè)備適應(yīng)每個(gè)人的使用習(xí)慣可能嗎?答案是肯定的。這里要用的到就是語音識別的另外一項(xiàng)關(guān)鍵技術(shù)——個(gè)性化識別技術(shù)。個(gè)性化識別指的是語音識別系統(tǒng)具備自動(dòng)學(xué)習(xí)并適應(yīng)用戶使用習(xí)慣的能力,你用的越多,它越懂你。一般來說,個(gè)性化識別包括發(fā)音和語言兩方面。其中發(fā)音個(gè)性化主要是指系統(tǒng)對用戶語速、口音等發(fā)音習(xí)慣的學(xué)習(xí),而語言個(gè)性化主要是指系統(tǒng)可以對用戶的特定詞匯,例如人名、地名、口頭禪、專業(yè)詞匯等,具備更好的辨識性。

  方言:無拘束隨心控制

  眾所周知,中國的語音及語言博大精深,雖然國家在推廣標(biāo)準(zhǔn)普通話方面不遺余力,但是中國真正掌握標(biāo)準(zhǔn)普通話的人群比例還是比較低的,而中國的口音現(xiàn)象則是紛繁復(fù)雜,同城市中不同口音的情況也很常見。因此,當(dāng)這些帶有或輕或重口音的人群在使用語音輸入時(shí),如果按通常的方法使用標(biāo)準(zhǔn)普通話數(shù)據(jù)進(jìn)行模型的訓(xùn)練,就會(huì)產(chǎn)生很嚴(yán)重的適配問題,從而影響語音輸入時(shí)的識別效果。所以,方言問題的解決對中國來說意義也是重大的,若是能很好的解決方言問題,那么語音識別將會(huì)達(dá)到無拘束隨心所欲的效果。

  語音喚醒:真正解放雙手

  由于功耗等方面的限制,智能設(shè)備很難24小時(shí)都保持在激活狀態(tài)。因此,要想在家里自由地控制智能家居設(shè)備,我們還需要能即時(shí)“喚醒”功能,也就是給智能設(shè)備加入“語音喚醒”技術(shù)。

  語音喚醒,是指通過含有特定喚醒詞的語音輸入來“觸發(fā)”語音識別系統(tǒng)以實(shí)現(xiàn)后續(xù)的語音交互。通過該技術(shù),任何人在任何環(huán)境、任何時(shí)間,無論是近場還是遠(yuǎn)場,面向設(shè)備直接說出預(yù)設(shè)的喚醒詞,就能激活產(chǎn)品的識別引擎,從而真正實(shí)現(xiàn)全程無觸控的語音交互。

  除了說單個(gè)喚醒詞實(shí)現(xiàn)喚醒外,更自然便捷、在技術(shù)上更具有挑戰(zhàn)性的交互方式是在連續(xù)語流中帶上喚醒詞,以實(shí)現(xiàn)喚醒產(chǎn)品并同時(shí)實(shí)現(xiàn)操控的效果。目前,語音喚醒方案已在部分產(chǎn)品中取得成功應(yīng)用,比如在靈犀語音助手中,說出“靈犀靈犀,打電話給張三”就可以喚醒設(shè)備并自動(dòng)完成人名識別與撥打電話。

  國內(nèi)外語音控制的市場現(xiàn)狀

  隨著智能家居市場的發(fā)展,國外的IT巨頭們已先后以智能家居產(chǎn)品與語音相結(jié)合的方式進(jìn)入智能家居領(lǐng)域:谷歌收購NEST布局智能家居,不斷強(qiáng)化Google Now的語音入口;蘋果HomeKit智能家居平臺(tái)與Siri也不斷加強(qiáng)融合;市場上流行的Echo智能音箱使用了亞馬遜的Alexa語音技術(shù);微軟也發(fā)布語音助手Cortana,將它作為智能家庭領(lǐng)域擴(kuò)展交互入口。從這些國外科技大佬們對語音產(chǎn)業(yè)的重視和投入,可以看出智能語音與智能家居的融合是大勢所趨,業(yè)內(nèi)普遍認(rèn)為語音作為人類信息最自然、最便捷的交互方式,必將成為未來智能家居設(shè)備中的重要組成部分。

  在國內(nèi),語音巨頭科大訊飛也在去年8月宣布進(jìn)軍智能家居市場,并于今年3月攜手京東成立合資公司——北京靈隆科技,推出了其生產(chǎn)第一個(gè)產(chǎn)品——DingDong智能音箱,除了具備音箱的基本功能,還可以作為語音助手,更是智能硬件的控制中樞。除此之外,百度、騰訊等都在打造自己的語音團(tuán)隊(duì)。

  隨著國內(nèi)外巨頭們對語音交互領(lǐng)域投入的增加,語音核心技術(shù)正逐步成熟。智能家居作為 IT 產(chǎn)業(yè)和制造工業(yè)向個(gè)人家居領(lǐng)域滲透發(fā)展的必然結(jié)果,語音技術(shù)正不斷進(jìn)入智能家居領(lǐng)域滲透,市場前景廣闊。

  小貼士

  Siri是iOS系統(tǒng)上的語音系統(tǒng),與Siri對話,就和跟朋友對話一樣,可以幫您做很多事情,例如發(fā)短信、打電話、預(yù)定餐廳、問路等等。也能與Siri做一些很有趣的互動(dòng),例如讓它幫您拋硬幣或者占卜星座。Siri可以在免提模式下工作,可以通過Siri進(jìn)行語音操作導(dǎo)航尋找最佳駕車路線。Siri也可以與HomeKit一起工作以實(shí)現(xiàn)通過語音來控制家里的智能產(chǎn)品。Siri還能對接維基百科、Yelp、爛番茄、Shazam等許多第三方在線服務(wù)平臺(tái),幫助用戶更多地了解與關(guān)注世界。

  語音交互對于智能家居行業(yè)的意義

  科技讓生活更智能,語音讓交互更便捷。語音交互對于智能家居最直接的意義在于將“智能家居”變得真正的智能起來。無論是再技術(shù)先進(jìn)的品牌,再友善的人機(jī)交互界面,都沒有語音交互控制來的簡便直接。所有品牌、所有產(chǎn)品以一個(gè)智能控制的概念進(jìn)駐到人們息息相關(guān)的日常生活中的時(shí)候,少不了需要一個(gè)學(xué)習(xí)和適應(yīng)的過程,而語音則不需要,我們所有的日常交流、行為習(xí)慣,語言和聲音已經(jīng)成了人們思維中的一部分。所以,如果智能家居能與語音交互融于一體,那么智能家居產(chǎn)業(yè)也許會(huì)迎來一次劃時(shí)代的突破。

(轉(zhuǎn)載)

標(biāo)簽:智能家居 語音識別技術(shù) 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國工博會(huì)于9月24日至28日在國家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]