如果技術(shù)不能讓每個(gè)人無(wú)差別使用,不能幫助人去適應(yīng)變化……
這是程序員的恥辱。
這就是阿里達(dá)摩院技術(shù)大牛、天貓精靈首席科學(xué)家、程序員聶再清,在被問(wèn)及近期熱議話題時(shí)的表態(tài)。
最近,一則討論引發(fā)了兩種認(rèn)知的割裂。
智能手機(jī)給多數(shù)人的生活帶來(lái)了種種便利,但也有少數(shù)人被“落下”——許多老人不會(huì)用、不善用智能手機(jī),沒(méi)有健康碼,技術(shù)的快速鋪開(kāi),反而給他們的生活造成了一定困擾。
于是問(wèn)題來(lái)了:在這個(gè)科技日新月異的時(shí)代,如果有人跟不上技術(shù)迭代的節(jié)奏,怎么辦?
有人言辭激烈:科技倒逼人類(lèi)進(jìn)步,跟不上發(fā)展就要被淘汰,這是時(shí)代在懲罰不主動(dòng)學(xué)習(xí)的人。
也有人堅(jiān)決反對(duì):技術(shù)的發(fā)展,不應(yīng)該讓每個(gè)人能無(wú)差別使用嗎?
而阿里達(dá)摩院的大神程序員聶再清,就是后者的堅(jiān)定支持者。
作為前微軟亞洲研究院首席研究員、如今的阿里天貓精靈首席科學(xué)家,聶再清當(dāng)前正在不斷推進(jìn)的正是新一代人機(jī)交互方式——AI語(yǔ)音交互。
所以在他看來(lái),讓所有人無(wú)差別使用最新技術(shù),技術(shù)應(yīng)該幫助人去適應(yīng)變化,是每一個(gè)程序員、工程師再正常不過(guò)的使命。
當(dāng)然,體現(xiàn)到他帶隊(duì)的最新技術(shù)和產(chǎn)品應(yīng)用中,聶再清也是這樣做的。
技術(shù)應(yīng)該讓每個(gè)人能無(wú)差別使用
7月5日,天貓精靈剛好邁過(guò)三周年。
對(duì)于聶再清而言,過(guò)去半年,疫情改變了工作形態(tài),但沒(méi)有改變工作目標(biāo)——一種新的語(yǔ)音模組正在加快沖刺。
每天清晨,他習(xí)慣在自家小區(qū)400米一圈的院子里,跑到汗水浸透全身,再回到家中,與各種家用設(shè)備改裝的AI實(shí)驗(yàn)儀器為伴。
而這新一代語(yǔ)音模組的關(guān)鍵算法,正是要實(shí)現(xiàn)云端一體化后,讓不同用戶“無(wú)差別使用”。
所以在剛過(guò)去的618消費(fèi)季中,雖然天貓精靈孵化的智能家居設(shè)備,出現(xiàn)了100個(gè)千萬(wàn)級(jí)銷(xiāo)售爆款。
但讓聶再清最開(kāi)心的一則新聞,則是這樣一則“社會(huì)新聞”——在杭州,一位孫女為自己奶奶打造了無(wú)障礙的家。
視頻中,這位70多歲的老人通過(guò)智能音箱,語(yǔ)音操控家中的空調(diào)、窗簾、電視。
這也是對(duì)聶再清團(tuán)隊(duì)持續(xù)“無(wú)差別實(shí)驗(yàn)”,尤其是特殊疫情環(huán)境下堅(jiān)持的回報(bào)。
新冠疫情發(fā)生后,聶再清和天貓精靈產(chǎn)品團(tuán)隊(duì)的“無(wú)差別實(shí)驗(yàn)”,險(xiǎn)些面臨停擺。
首先,天貓精靈自身對(duì)新算法的測(cè)試流程,過(guò)去有大量外包設(shè)備廠商和測(cè)試員完成,新冠疫情導(dǎo)致2月基本無(wú)法復(fù)工。
更困難的是,預(yù)計(jì)要在618成為新品的掃地機(jī)、跑步機(jī)、按摩儀、水果榨汁機(jī)、集成灶等等智能設(shè)備,正處在廠商與天貓精靈智能語(yǔ)音模組對(duì)接測(cè)試,即將量產(chǎn)的關(guān)鍵階段。這些家電普遍運(yùn)行聲量偏大,對(duì)智能語(yǔ)音識(shí)別頗有挑戰(zhàn)。
由于疫情影響,人們也在家居環(huán)境中更高頻購(gòu)買(mǎi)和使用這些產(chǎn)品。讓技術(shù)的門(mén)檻持續(xù)降低,讓先進(jìn)科技能夠覆蓋到更多人群。
這是天貓精靈三周年的目標(biāo)之一,也是聶再清整個(gè)職業(yè)生涯,希望以語(yǔ)音助手作為一個(gè)突破點(diǎn)去實(shí)現(xiàn)的“無(wú)差別”價(jià)值。
因?yàn)檎Z(yǔ)音對(duì)話、眼神手勢(shì)交流,無(wú)疑是更為自然的交互方式,這就在技術(shù)層面,降低了用戶觸達(dá)前沿科技的門(mén)檻,用更簡(jiǎn)單的方式滿足人們的科技需求,讓科技普惠到更多人的生活。
去年,聶再清曾用業(yè)余時(shí)間打造了一個(gè)“爆款”,阿里反騷擾電話AI**“二哈”。
而這半年以來(lái),聶再清團(tuán)隊(duì)則投入精力,針對(duì)老人、兒童這樣的弱勢(shì)群體,嘗試進(jìn)一步擴(kuò)寬智能語(yǔ)音助手的“基站”覆蓋范圍,降低使用門(mén)檻。
比如,天貓精靈上線的方言功能,讓不會(huì)說(shuō)普通話、普通話不標(biāo)準(zhǔn)的老人也能方便地和語(yǔ)音助手交互。甚至還能合成四川話語(yǔ)音,實(shí)現(xiàn)與老人的鄉(xiāng)音交流。
一般來(lái)說(shuō),一個(gè)智能產(chǎn)品的推出,往往會(huì)選擇先覆蓋最主流、最具購(gòu)買(mǎi)力的群體。但這一次,聶再清團(tuán)隊(duì)卻是著重針對(duì)老人、兒童的功能進(jìn)行了優(yōu)化,背后的考量,與商業(yè)價(jià)值有關(guān),卻也與商業(yè)價(jià)值無(wú)關(guān)。
聶再清認(rèn)為,智能音箱,應(yīng)該是智能網(wǎng)時(shí)代的助手,其實(shí)是第三代的互聯(lián)網(wǎng)。
他打了這樣一個(gè)比方,在移動(dòng)互聯(lián)網(wǎng)時(shí)代,手機(jī)的通信依靠基站,哪個(gè)地方有基站覆蓋,信號(hào)連上了,這個(gè)地方的人就能夠享受到手機(jī)的服務(wù)。
而對(duì)于語(yǔ)音技術(shù)來(lái)說(shuō),能否發(fā)揮最大價(jià)值,最終也是要看覆蓋多少人群。
解決覆蓋人群的問(wèn)題,就像是在建基站。最終,只有百分百的覆蓋,才能說(shuō),智能語(yǔ)音真正成為了第三代互聯(lián)網(wǎng)助手。
音素編碼上的語(yǔ)義理解
單純站在技術(shù)的角度,聶再清說(shuō),科研的出發(fā)點(diǎn)很簡(jiǎn)單,就是讓用戶在使用的過(guò)程中,感受到的是“人工智能”,而非“人工智障”。
核心需要解決的問(wèn)題,就是如何讓數(shù)字世界里天貓精靈這樣的語(yǔ)音助手,“聽(tīng)懂”物理世界里用戶的需求。
傳統(tǒng)的做法,分為三個(gè)階段:
首先,把語(yǔ)音信號(hào)接入,做語(yǔ)音識(shí)別,將語(yǔ)音轉(zhuǎn)化成文本;
然后,對(duì)文本進(jìn)行語(yǔ)義理解;
最后,用抽取出關(guān)鍵詞,在知識(shí)庫(kù)里做實(shí)體鏈接。
這樣的方法,其實(shí)存在很多問(wèn)題。比如,一旦語(yǔ)音識(shí)別階段出現(xiàn)決策失誤,在后續(xù)的流程中就沒(méi)有辦法糾正,就會(huì)影響到識(shí)別的精度。
另外,實(shí)體鏈接也是很大的挑戰(zhàn)。因?yàn)閷?shí)體的名字經(jīng)常是“反語(yǔ)言模型”的。比如說(shuō)陳奕迅的《圣誕結(jié)》,在正常的語(yǔ)言模型中,就很容易被識(shí)別成“圣誕節(jié)”。
那么,能不能不轉(zhuǎn)成文字,直接根據(jù)語(yǔ)音做語(yǔ)義理解呢?
答案是,可以。聶再清介紹,語(yǔ)音語(yǔ)義一體化的關(guān)鍵,在于音素。
音素,是根據(jù)語(yǔ)音的自然屬性劃分出來(lái)的最小語(yǔ)音單位,基于人的發(fā)音動(dòng)作來(lái)分析,一個(gè)動(dòng)作構(gòu)成一個(gè)音素。
聶再清解釋?zhuān)热巛斎搿發(fā)iangzhu”這個(gè)語(yǔ)音信號(hào),通過(guò)聲學(xué)模型,就可以計(jì)算出一個(gè)音素后驗(yàn)矩陣。在這個(gè)時(shí)候,模型并不需要馬上判斷“l(fā)iangzhu”到底是指音樂(lè)里的“梁祝”,還是建筑里的“梁柱”,而是可以在音素后驗(yàn)的基礎(chǔ)上去做意圖分類(lèi)、語(yǔ)義分類(lèi)。
這樣,就避免了一步錯(cuò)步步錯(cuò)的情況。
也就是說(shuō),基于音素,語(yǔ)義理解、實(shí)體鏈接都可以放到一個(gè)統(tǒng)一的優(yōu)化模型中進(jìn)行優(yōu)化。
這一成果發(fā)表在了ICASSP 2020上。聶再清介紹,實(shí)驗(yàn)表明,該方法在公開(kāi)數(shù)據(jù)集上超越了此前的SOTA模型,同時(shí)在天貓精靈上線解決了大概30%的語(yǔ)義實(shí)體鏈接錯(cuò)誤。
這就真正讓智能語(yǔ)音助手在“聽(tīng)懂”人類(lèi)的道路上更進(jìn)一步。
語(yǔ)音+眼神,讓交互更自然
而聶再清思考的另一個(gè)問(wèn)題,是如何讓新一代語(yǔ)音助手跟人們之間的交互更自然。
交互方式越自然,學(xué)習(xí)成本就越低,使用的門(mén)檻就越低,越能服務(wù)到更多的人。
當(dāng)帶屏音箱越來(lái)越受到市場(chǎng)的認(rèn)可,視覺(jué)技能點(diǎn)的點(diǎn)亮,就給智能語(yǔ)音助手帶來(lái)了更多可能性。
比如,多模態(tài)喚醒。
比起每次都要喊“天貓精靈”這樣的喚醒詞,如果給智能音箱一個(gè)眼神,它就能知道你是在跟它對(duì)話,那這樣的交互就更符合人們的習(xí)慣,更加自然直接。
聶再清介紹,這其中的難點(diǎn)在于,智能音箱需要判斷一段語(yǔ)音到底是不是在跟它進(jìn)行對(duì)話,如果反復(fù)出現(xiàn)誤喚醒,那就太“人工智障”了。
于是,他們采用了視覺(jué) + 聲音 + 全雙工自然對(duì)話三管齊下的方式,來(lái)對(duì)“喚醒”這個(gè)動(dòng)作進(jìn)行優(yōu)化。
并且,這三個(gè)條件只要有兩項(xiàng)滿足,多模態(tài)喚醒就能夠?qū)崿F(xiàn)。也就是說(shuō),即使是在無(wú)屏音箱上,這項(xiàng)技術(shù)也能讓對(duì)話更加自然。
就像這樣:?jiǎn)拘阎悄芤粝洌笏蜷_(kāi)空調(diào)后,無(wú)需再次喚醒,只要說(shuō)“調(diào)到20度”,語(yǔ)音助手就能結(jié)合上下文,判斷出這句指令是對(duì)它說(shuō)的。
云端一體化,讓每個(gè)人都享受同樣智能
從實(shí)驗(yàn)室到落地終端,用戶最終的體驗(yàn)又是如何保證的呢?
天貓精靈產(chǎn)品部資深專(zhuān)家孫堯介紹說(shuō),一方面,是針對(duì)特定用戶的樣本測(cè)試。
比如,老人可能存在語(yǔ)言能力退化、口音重的問(wèn)題,就需要定向采集相關(guān)的語(yǔ)料和錄音,來(lái)提升老年人語(yǔ)音識(shí)別的準(zhǔn)確性。
另一方面,則是聶再清提到的關(guān)鍵詞,云端一體化。
依靠云端的能力,就可以把硬件端的產(chǎn)品做到更便宜,讓更多人用得起,但在智能體驗(yàn)上并不會(huì)有所損失。
這樣的方式,也降低了AI能力接入硬件的門(mén)檻。
去年,天貓精靈就推出了AI語(yǔ)音模組,把實(shí)現(xiàn)智能功能的一些設(shè)備集成到一個(gè)板子上。這樣,電器廠商只要在產(chǎn)品中留出標(biāo)準(zhǔn)接口,就能輕松把天貓精靈的AI能力接入到產(chǎn)品中。
就在疫情期間,天貓精靈工程師們還用這樣的AI語(yǔ)音模組打造了一個(gè)有趣的“業(yè)余項(xiàng)目”——
給園區(qū)里的電梯接入語(yǔ)音助手。
他們把天貓精靈的智能模組抽出來(lái),業(yè)余時(shí)間自己買(mǎi)電路板進(jìn)行了一番DIY、離線算法優(yōu)化,以便接入電梯。大概兩周時(shí)間,這個(gè)方案就上線到了園區(qū)電梯里,喊一聲“我要去XX樓”,電梯就能無(wú)接觸式完成操作。
甚至還能更酷。
孫堯介紹了這樣一個(gè)新的應(yīng)用場(chǎng)景:小區(qū)接入天貓精靈后,高層住戶只需在家中讓語(yǔ)音助手叫一下電梯,語(yǔ)音助手就能幫你隔空“按”電梯。
這樣換完鞋子出門(mén)時(shí),電梯差不多也就到了。
科技的發(fā)展,當(dāng)然會(huì)給人們的生活帶來(lái)改變。但在這種變化之中,人們的習(xí)慣和技術(shù)本身也不應(yīng)該是對(duì)立的。
聶再清表示:
我的觀點(diǎn)是,科技發(fā)展的目標(biāo)是讓每個(gè)人都能得到幫助。
即使是在改變的過(guò)程中,技術(shù)也能夠輔助人們適應(yīng)變化,而不是跟人對(duì)立起來(lái),造成所謂的“淘汰”。
做智能助手,遵循的就是這樣的邏輯:用跟人一樣打交道的模式,為更多人提供前沿科技帶來(lái)的便利。
聶再清還打了個(gè)比方:
比如你需要招一個(gè)私人助手,Ta告訴你你必須要適應(yīng)我的節(jié)奏,那你肯定就不招了。
千人千面的AI
從端到端的口語(yǔ)理解,到多模態(tài)的自然交互,聶再清也坦承,從技術(shù)的角度上,語(yǔ)音助手的進(jìn)步空間還很大。
談及語(yǔ)音交互的未來(lái)形態(tài),聶再清描繪了這樣一個(gè)場(chǎng)景:
身處北京的你有一個(gè)智能音箱,當(dāng)你飛到杭州出差,在另一臺(tái)設(shè)備上,智能助手依然能一眼就認(rèn)出你,按照你的習(xí)慣調(diào)出所有需求。
屆時(shí),終端便只是一個(gè)載體,而你的定制語(yǔ)音助手,將如影隨形。
何時(shí)能夠?qū)崿F(xiàn)?
聶再清笑答:5年可以有,3年也是可以期待的。
文章來(lái)源:量子位
(轉(zhuǎn)載)