智能家居語(yǔ)音控制解決方案：能聽(tīng)會(huì)說(shuō)、自在交互

ainet.cn 2015年12月07日

　　在智能家居給人們帶來(lái)便捷生活的同時(shí)，人們的控制習(xí)慣逐漸發(fā)生改變。語(yǔ)音技術(shù)的發(fā)展也為控制入口做了一個(gè)補(bǔ)充，在拋去了傳統(tǒng)遙控器和手機(jī)APP之后，通過(guò)口令發(fā)送讓家居環(huán)境達(dá)到舒適狀態(tài)，讓生活更便捷智能，這是否會(huì)成為智能家居行業(yè)下一個(gè)階段的普遍應(yīng)用?

　　遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別、云端語(yǔ)義辨識(shí)、人工智能應(yīng)用等等一個(gè)個(gè)技術(shù)節(jié)點(diǎn)得到新的突破，為智能家居提供了新的控制入口選擇。本文將從技術(shù)趨勢(shì)、解決方案、產(chǎn)品應(yīng)用、項(xiàng)目實(shí)施等多角度為您呈現(xiàn)語(yǔ)音控制技術(shù)在智能家居產(chǎn)品和集成項(xiàng)目中的應(yīng)用前景。

　　所謂智能語(yǔ)音產(chǎn)業(yè)，主要指通過(guò)語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù)，為用戶(hù)提供各種服務(wù)的產(chǎn)業(yè)。一般來(lái)說(shuō)，用戶(hù)只需要用說(shuō)話(huà)的方式給服務(wù)終端發(fā)布命令，就能得到相應(yīng)的服務(wù)。這一產(chǎn)業(yè)從上世紀(jì)六十年代就已出現(xiàn)，但并不為普通消費(fèi)者所熟知，消費(fèi)者對(duì)其認(rèn)知度也比較低。近年來(lái)，隨著蘋(píng)果、谷歌、微軟等公司先后推出Siri等智能語(yǔ)音服務(wù)，這一服務(wù)以及相關(guān)產(chǎn)業(yè)也開(kāi)始被普通消費(fèi)者和投資界所關(guān)注。

　　語(yǔ)音控制技術(shù)

　　與機(jī)器進(jìn)行語(yǔ)音交流，讓機(jī)器明白你說(shuō)什么，這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。

　　語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科，語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán)，通過(guò)語(yǔ)音命令進(jìn)行操作，語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。

　　目前語(yǔ)音控制技術(shù)存在的問(wèn)題

　　目前，對(duì)于語(yǔ)音控制類(lèi)的智能硬件產(chǎn)品在很多場(chǎng)景下因語(yǔ)音交互體驗(yàn)不如人意而深受詬病，究其原因主要是受限于空間距離、背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素，進(jìn)而導(dǎo)致的識(shí)別距離近、識(shí)別率低等明顯痛點(diǎn)。

　　除此之外，單是中國(guó)語(yǔ)系、方言和口音就相當(dāng)多，加上中文的多語(yǔ)義性，所以不同地區(qū)的人使用語(yǔ)音控制識(shí)別率差異較大。同時(shí)，在語(yǔ)義識(shí)別上，也存在上下文的關(guān)聯(lián)帶來(lái)識(shí)別的學(xué)習(xí)難、定位難和建立模型難等問(wèn)題。

　　語(yǔ)音識(shí)別的幾種控制技術(shù)

　　“語(yǔ)音識(shí)別”技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上“耳朵”，使其具備“能聽(tīng)”的功能。該技術(shù)經(jīng)過(guò)語(yǔ)音信號(hào)處理、語(yǔ)音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟，使機(jī)器最終能夠?qū)⒄Z(yǔ)音中的內(nèi)容、說(shuō)話(huà)人、語(yǔ)種等信息識(shí)別出來(lái)。語(yǔ)音控制功能的實(shí)現(xiàn)，與用戶(hù)的使用習(xí)慣高度關(guān)聯(lián)。目前的語(yǔ)音控制功能實(shí)現(xiàn)方式可分為近場(chǎng)語(yǔ)音識(shí)別和遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別二個(gè)大類(lèi)。

　　近場(chǎng)/遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)

　　近場(chǎng)語(yǔ)音識(shí)別，需要用戶(hù)點(diǎn)擊啟動(dòng)，并且用戶(hù)與終端設(shè)備的距離比較近，如手機(jī)或其他終端設(shè)備，可直接借助這些終端設(shè)備的實(shí)現(xiàn)控制功能。

　　遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別，以麥克風(fēng)陣列遠(yuǎn)距離拾取的語(yǔ)音數(shù)據(jù)作為輸入數(shù)據(jù)，通過(guò)語(yǔ)音識(shí)別的算法將語(yǔ)音信號(hào)轉(zhuǎn)寫(xiě)成文字的技術(shù)。雖然和近場(chǎng)語(yǔ)音識(shí)別技術(shù)在原理上是相同的，但是由于音源和麥克風(fēng)之間的空間距離增大，在聲波傳播過(guò)程中會(huì)出現(xiàn)信號(hào)強(qiáng)度的衰減和各種噪音干擾，因此需要特殊的語(yǔ)音數(shù)據(jù)拾取和預(yù)處理技術(shù)。不同的拾取設(shè)備和預(yù)處理技術(shù)常常會(huì)使用于語(yǔ)音識(shí)別的聲波信號(hào)特征發(fā)生改變，因此針對(duì)不同的遠(yuǎn)場(chǎng)語(yǔ)音拾取技術(shù)，需要對(duì)語(yǔ)音識(shí)別引擎進(jìn)行定制化適配和優(yōu)化。

　　當(dāng)語(yǔ)音信號(hào)在傳播過(guò)程中有所衰減，影響采集信號(hào)的強(qiáng)度和分辨率，使用的靈敏度非常高的指向性麥克風(fēng)，同時(shí)將麥克風(fēng)的參數(shù)調(diào)整到適合遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)的模式，可以最大限度采集清晰的遠(yuǎn)場(chǎng)語(yǔ)音信號(hào)。語(yǔ)音指令聲波在傳輸過(guò)程中受到周?chē)胍舻奈廴?，降低聲波信?hào)的信噪比，使用定向波速成形技術(shù)，抑制方向外的噪音，從而減少噪音對(duì)語(yǔ)音信號(hào)的干擾。在一個(gè)房間里，麥克風(fēng)拾取的聲波不僅僅直接來(lái)自于音源，還有音源發(fā)出后經(jīng)過(guò)墻壁反射的遲到的聲波，形成聲音的殘留，造成混響。利用多個(gè)麥克風(fēng)采集的數(shù)據(jù)，通過(guò)多通道回聲消除算法，將這些不同時(shí)間達(dá)到的聲音數(shù)據(jù)分離開(kāi)來(lái)，從而消除了混響對(duì)聲音數(shù)據(jù)的影響。

　　喚醒目標(biāo)檢測(cè)技術(shù)

　　在遠(yuǎn)距離用語(yǔ)音進(jìn)行操控的時(shí)候，聲音可能來(lái)自不同方向的不同人。因此首先要確定哪些是發(fā)指令的聲音，哪些不是。使用的麥克風(fēng)陣列波速成形算法，將360度空間垂直劃分成若干區(qū)域，每個(gè)麥克風(fēng)負(fù)責(zé)檢測(cè)一個(gè)指定的區(qū)域。當(dāng)某個(gè)空間區(qū)域里面檢測(cè)到有喚醒詞出現(xiàn)時(shí)，對(duì)應(yīng)于該空間區(qū)域的麥克風(fēng)拾音功能就被增強(qiáng)，其他區(qū)域的麥克風(fēng)拾音就被抑制。從而實(shí)現(xiàn)了對(duì)聲音進(jìn)行有方向有角度的拾取，避免了周?chē)娨暀C(jī)里的說(shuō)話(huà)聲音、其他人交談對(duì)語(yǔ)音指令的影響。

　　播放狀態(tài)打斷技術(shù)

　　在對(duì)音箱等設(shè)備進(jìn)行語(yǔ)音控制時(shí)，往往該設(shè)備處于播放歌曲的狀態(tài)。由于麥克風(fēng)安裝在音箱上，麥克風(fēng)和說(shuō)話(huà)人之間的距離要遠(yuǎn)大于麥克風(fēng)和揚(yáng)聲器之間的距離，在這樣的情況下，采用內(nèi)外兼顧的方法進(jìn)行解決。內(nèi)部使用特殊的回聲消除算法從內(nèi)部減小噪音對(duì)麥克風(fēng)的影響。另外對(duì)于震動(dòng)帶來(lái)的非線(xiàn)性干擾，傳統(tǒng)的線(xiàn)性回聲消除方法失效了，因此可以使用非線(xiàn)性回聲消除算法提高內(nèi)部噪聲消除的效果。在外部結(jié)構(gòu)設(shè)計(jì)方面，使用精心設(shè)計(jì)的麥克風(fēng)陣列減震結(jié)構(gòu)，使多個(gè)麥克風(fēng)和它所連接的電路板之間的震動(dòng)減小到最小，從而最大程度的控制高聲強(qiáng)導(dǎo)致的音箱本體震動(dòng)對(duì)拾音的干擾。

　　距離：遠(yuǎn)場(chǎng)識(shí)別技術(shù)打破距離瓶頸

　　近場(chǎng)識(shí)別技術(shù)目前已經(jīng)比較成熟，現(xiàn)在手機(jī)上使用的語(yǔ)音輸入功能就屬于近場(chǎng)識(shí)別技術(shù)，用戶(hù)必須在離手機(jī)比較近的距離內(nèi)說(shuō)話(huà)，但在智能家居環(huán)境中，用戶(hù)和智能終端之間的距離被大大增加了，用戶(hù)能隨意用語(yǔ)音控制智能家居的一個(gè)必要條件就是在無(wú)論你在客廳哪個(gè)角落發(fā)出指令，設(shè)備都能準(zhǔn)確的識(shí)別，語(yǔ)音識(shí)別技術(shù)必須突破距離的障礙。

　　目前室內(nèi)的語(yǔ)音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響，導(dǎo)致識(shí)別率低甚至無(wú)法使用，只能在相對(duì)安靜、近距離的環(huán)境下使用。而遠(yuǎn)場(chǎng)識(shí)別技術(shù)將能夠很好的解決這些問(wèn)題。

　　效率：快速反應(yīng)實(shí)現(xiàn)秒懂

　　近年來(lái)，隨著深度學(xué)習(xí)理論的爆發(fā)式發(fā)展及其在語(yǔ)音識(shí)別領(lǐng)域獲得的顯著效果，同時(shí)Kaldi等開(kāi)源語(yǔ)音識(shí)別工具也在工業(yè)界和學(xué)術(shù)界逐漸普及，語(yǔ)音識(shí)別的門(mén)檻持續(xù)降低，許多公司都具備了語(yǔ)音識(shí)別的能力及相關(guān)產(chǎn)品，但是一些產(chǎn)品反應(yīng)慢，說(shuō)出一句話(huà)往往要等待很久才能顯示結(jié)果，另外，準(zhǔn)確率也不高，存在識(shí)別不出來(lái)的情況。

　　個(gè)性化：自動(dòng)學(xué)習(xí)適應(yīng)用戶(hù)使用習(xí)慣

　　每個(gè)人在說(shuō)話(huà)時(shí)，口音、語(yǔ)速、口頭禪都不一樣，那么家里的智能設(shè)備只會(huì)識(shí)別一些基本詞句顯然是遠(yuǎn)遠(yuǎn)不夠的，它們必須要更懂你。比如，懂你的口音、方言、口頭禪以及時(shí)不時(shí)蹦出的專(zhuān)業(yè)詞匯等。

　　讓智能設(shè)備適應(yīng)每個(gè)人的使用習(xí)慣可能嗎?答案是肯定的。這里要用的到就是語(yǔ)音識(shí)別的另外一項(xiàng)關(guān)鍵技術(shù)——個(gè)性化識(shí)別技術(shù)。個(gè)性化識(shí)別指的是語(yǔ)音識(shí)別系統(tǒng)具備自動(dòng)學(xué)習(xí)并適應(yīng)用戶(hù)使用習(xí)慣的能力，你用的越多，它越懂你。一般來(lái)說(shuō)，個(gè)性化識(shí)別包括發(fā)音和語(yǔ)言?xún)煞矫妗Ｆ渲邪l(fā)音個(gè)性化主要是指系統(tǒng)對(duì)用戶(hù)語(yǔ)速、口音等發(fā)音習(xí)慣的學(xué)習(xí)，而語(yǔ)言個(gè)性化主要是指系統(tǒng)可以對(duì)用戶(hù)的特定詞匯，例如人名、地名、口頭禪、專(zhuān)業(yè)詞匯等，具備更好的辨識(shí)性。

　　方言：無(wú)拘束隨心控制

　　眾所周知，中國(guó)的語(yǔ)音及語(yǔ)言博大精深，雖然國(guó)家在推廣標(biāo)準(zhǔn)普通話(huà)方面不遺余力，但是中國(guó)真正掌握標(biāo)準(zhǔn)普通話(huà)的人群比例還是比較低的，而中國(guó)的口音現(xiàn)象則是紛繁復(fù)雜，同城市中不同口音的情況也很常見(jiàn)。因此，當(dāng)這些帶有或輕或重口音的人群在使用語(yǔ)音輸入時(shí)，如果按通常的方法使用標(biāo)準(zhǔn)普通話(huà)數(shù)據(jù)進(jìn)行模型的訓(xùn)練，就會(huì)產(chǎn)生很?chē)?yán)重的適配問(wèn)題，從而影響語(yǔ)音輸入時(shí)的識(shí)別效果。所以，方言問(wèn)題的解決對(duì)中國(guó)來(lái)說(shuō)意義也是重大的，若是能很好的解決方言問(wèn)題，那么語(yǔ)音識(shí)別將會(huì)達(dá)到無(wú)拘束隨心所欲的效果。

　　語(yǔ)音喚醒：真正解放雙手

　　由于功耗等方面的限制，智能設(shè)備很難24小時(shí)都保持在激活狀態(tài)。因此，要想在家里自由地控制智能家居設(shè)備，我們還需要能即時(shí)“喚醒”功能，也就是給智能設(shè)備加入“語(yǔ)音喚醒”技術(shù)。

　　語(yǔ)音喚醒，是指通過(guò)含有特定喚醒詞的語(yǔ)音輸入來(lái)“觸發(fā)”語(yǔ)音識(shí)別系統(tǒng)以實(shí)現(xiàn)后續(xù)的語(yǔ)音交互。通過(guò)該技術(shù)，任何人在任何環(huán)境、任何時(shí)間，無(wú)論是近場(chǎng)還是遠(yuǎn)場(chǎng)，面向設(shè)備直接說(shuō)出預(yù)設(shè)的喚醒詞，就能激活產(chǎn)品的識(shí)別引擎，從而真正實(shí)現(xiàn)全程無(wú)觸控的語(yǔ)音交互。

　　除了說(shuō)單個(gè)喚醒詞實(shí)現(xiàn)喚醒外，更自然便捷、在技術(shù)上更具有挑戰(zhàn)性的交互方式是在連續(xù)語(yǔ)流中帶上喚醒詞，以實(shí)現(xiàn)喚醒產(chǎn)品并同時(shí)實(shí)現(xiàn)操控的效果。目前，語(yǔ)音喚醒方案已在部分產(chǎn)品中取得成功應(yīng)用，比如在靈犀語(yǔ)音助手中，說(shuō)出“靈犀靈犀，打電話(huà)給張三”就可以喚醒設(shè)備并自動(dòng)完成人名識(shí)別與撥打電話(huà)。

　　國(guó)內(nèi)外語(yǔ)音控制的市場(chǎng)現(xiàn)狀

　　隨著智能家居市場(chǎng)的發(fā)展，國(guó)外的IT巨頭們已先后以智能家居產(chǎn)品與語(yǔ)音相結(jié)合的方式進(jìn)入智能家居領(lǐng)域：谷歌收購(gòu)NEST布局智能家居，不斷強(qiáng)化Google Now的語(yǔ)音入口;蘋(píng)果HomeKit智能家居平臺(tái)與Siri也不斷加強(qiáng)融合;市場(chǎng)上流行的Echo智能音箱使用了亞馬遜的Alexa語(yǔ)音技術(shù);微軟也發(fā)布語(yǔ)音助手Cortana，將它作為智能家庭領(lǐng)域擴(kuò)展交互入口。從這些國(guó)外科技大佬們對(duì)語(yǔ)音產(chǎn)業(yè)的重視和投入，可以看出智能語(yǔ)音與智能家居的融合是大勢(shì)所趨，業(yè)內(nèi)普遍認(rèn)為語(yǔ)音作為人類(lèi)信息最自然、最便捷的交互方式，必將成為未來(lái)智能家居設(shè)備中的重要組成部分。

　　在國(guó)內(nèi)，語(yǔ)音巨頭科大訊飛也在去年8月宣布進(jìn)軍智能家居市場(chǎng)，并于今年3月攜手京東成立合資公司——北京靈隆科技，推出了其生產(chǎn)第一個(gè)產(chǎn)品——DingDong智能音箱，除了具備音箱的基本功能，還可以作為語(yǔ)音助手，更是智能硬件的控制中樞。除此之外，百度、騰訊等都在打造自己的語(yǔ)音團(tuán)隊(duì)。

　　隨著國(guó)內(nèi)外巨頭們對(duì)語(yǔ)音交互領(lǐng)域投入的增加，語(yǔ)音核心技術(shù)正逐步成熟。智能家居作為 IT 產(chǎn)業(yè)和制造工業(yè)向個(gè)人家居領(lǐng)域滲透發(fā)展的必然結(jié)果，語(yǔ)音技術(shù)正不斷進(jìn)入智能家居領(lǐng)域滲透，市場(chǎng)前景廣闊。

　　小貼士

　　Siri是iOS系統(tǒng)上的語(yǔ)音系統(tǒng)，與Siri對(duì)話(huà)，就和跟朋友對(duì)話(huà)一樣，可以幫您做很多事情，例如發(fā)短信、打電話(huà)、預(yù)定餐廳、問(wèn)路等等。也能與Siri做一些很有趣的互動(dòng)，例如讓它幫您拋硬幣或者占卜星座。Siri可以在免提模式下工作，可以通過(guò)Siri進(jìn)行語(yǔ)音操作導(dǎo)航尋找最佳駕車(chē)路線(xiàn)。Siri也可以與HomeKit一起工作以實(shí)現(xiàn)通過(guò)語(yǔ)音來(lái)控制家里的智能產(chǎn)品。Siri還能對(duì)接維基百科、Yelp、爛番茄、Shazam等許多第三方在線(xiàn)服務(wù)平臺(tái)，幫助用戶(hù)更多地了解與關(guān)注世界。

　　語(yǔ)音交互對(duì)于智能家居行業(yè)的意義

　　科技讓生活更智能，語(yǔ)音讓交互更便捷。語(yǔ)音交互對(duì)于智能家居最直接的意義在于將“智能家居”變得真正的智能起來(lái)。無(wú)論是再技術(shù)先進(jìn)的品牌，再友善的人機(jī)交互界面，都沒(méi)有語(yǔ)音交互控制來(lái)的簡(jiǎn)便直接。所有品牌、所有產(chǎn)品以一個(gè)智能控制的概念進(jìn)駐到人們息息相關(guān)的日常生活中的時(shí)候，少不了需要一個(gè)學(xué)習(xí)和適應(yīng)的過(guò)程，而語(yǔ)音則不需要，我們所有的日常交流、行為習(xí)慣，語(yǔ)言和聲音已經(jīng)成了人們思維中的一部分。所以，如果智能家居能與語(yǔ)音交互融于一體，那么智能家居產(chǎn)業(yè)也許會(huì)迎來(lái)一次劃時(shí)代的突破。

（轉(zhuǎn)載）

標(biāo)簽：智能家居語(yǔ)音識(shí)別技術(shù)

我要反饋

相關(guān)鏈接

中國(guó)機(jī)器人該何去何從?

引言：中國(guó)正在逐漸上演“機(jī)器換人”的場(chǎng)景，面對(duì)機(jī)器人大熱，外企在國(guó)內(nèi)建廠(chǎng)，市場(chǎng)空間利潤(rùn)巨大。從全球來(lái)看，機(jī)器人成為一個(gè)衡量國(guó)家經(jīng)濟(jì)的重要標(biāo)準(zhǔn)，從國(guó)內(nèi)來(lái)看，本土機(jī)器人技術(shù)核... [詳情]

2015年12月07日工業(yè)機(jī)器人汽車(chē)制造

機(jī)器人搶走你的飯碗了嗎?

引言：“機(jī)器換人”是否真的是在淘汰工人?其實(shí)不然，科技進(jìn)步所帶來(lái)的“真正”挑戰(zhàn)并非淘汰工人，而在于將他們轉(zhuǎn)移到新崗位，繼續(xù)開(kāi)發(fā)人類(lèi)大腦?！皺C(jī)器換人”在逐漸普及，但是專(zhuān)家預(yù)測(cè)... [詳情]

2015年12月07日機(jī)器人智能科技

全球機(jī)器人產(chǎn)業(yè)格局初現(xiàn)：日本暫時(shí)領(lǐng)先中美

引言：全球機(jī)器人產(chǎn)業(yè)大熱，或許將會(huì)是下一個(gè)技術(shù)爆點(diǎn)，未來(lái)除了工業(yè)領(lǐng)域之外，或許也會(huì)像電子設(shè)備那樣走進(jìn)人類(lèi)的生活。目前，全球機(jī)器人產(chǎn)業(yè)格局初現(xiàn)，日本處于暫時(shí)領(lǐng)先，中美其次。... [詳情]

2015年12月07日機(jī)器人人工智能