siemens x
人工智能

專訪阿里達(dá)摩院聶再清:不能讓每個人無差別享受AI,是程序員的恥辱

2025China.cn   2020年07月06日

  如果技術(shù)不能讓每個人無差別使用,不能幫助人去適應(yīng)變化……

  這是程序員的恥辱。

  這就是阿里達(dá)摩院技術(shù)大牛、天貓精靈首席科學(xué)家、程序員聶再清,在被問及近期熱議話題時的表態(tài)。

  最近,一則討論引發(fā)了兩種認(rèn)知的割裂。

  智能手機(jī)給多數(shù)人的生活帶來了種種便利,但也有少數(shù)人被“落下”——許多老人不會用、不善用智能手機(jī),沒有健康碼,技術(shù)的快速鋪開,反而給他們的生活造成了一定困擾。

  于是問題來了:在這個科技日新月異的時代,如果有人跟不上技術(shù)迭代的節(jié)奏,怎么辦?

  有人言辭激烈:科技倒逼人類進(jìn)步,跟不上發(fā)展就要被淘汰,這是時代在懲罰不主動學(xué)習(xí)的人。

  也有人堅決反對:技術(shù)的發(fā)展,不應(yīng)該讓每個人能無差別使用嗎?

  而阿里達(dá)摩院的大神程序員聶再清,就是后者的堅定支持者。

  作為前微軟亞洲研究院首席研究員、如今的阿里天貓精靈首席科學(xué)家,聶再清當(dāng)前正在不斷推進(jìn)的正是新一代人機(jī)交互方式——AI語音交互。

  所以在他看來,讓所有人無差別使用最新技術(shù),技術(shù)應(yīng)該幫助人去適應(yīng)變化,是每一個程序員、工程師再正常不過的使命。

  當(dāng)然,體現(xiàn)到他帶隊的最新技術(shù)和產(chǎn)品應(yīng)用中,聶再清也是這樣做的。

技術(shù)應(yīng)該讓每個人能無差別使用

  7月5日,天貓精靈剛好邁過三周年。

  對于聶再清而言,過去半年,疫情改變了工作形態(tài),但沒有改變工作目標(biāo)——一種新的語音模組正在加快沖刺。

  每天清晨,他習(xí)慣在自家小區(qū)400米一圈的院子里,跑到汗水浸透全身,再回到家中,與各種家用設(shè)備改裝的AI實驗儀器為伴。

  而這新一代語音模組的關(guān)鍵算法,正是要實現(xiàn)云端一體化后,讓不同用戶“無差別使用”。

  所以在剛過去的618消費季中,雖然天貓精靈孵化的智能家居設(shè)備,出現(xiàn)了100個千萬級銷售爆款。

  但讓聶再清最開心的一則新聞,則是這樣一則“社會新聞”——在杭州,一位孫女為自己奶奶打造了無障礙的家。

  視頻中,這位70多歲的老人通過智能音箱,語音操控家中的空調(diào)、窗簾、電視。

  這也是對聶再清團(tuán)隊持續(xù)“無差別實驗”,尤其是特殊疫情環(huán)境下堅持的回報。

  新冠疫情發(fā)生后,聶再清和天貓精靈產(chǎn)品團(tuán)隊的“無差別實驗”,險些面臨停擺。

  首先,天貓精靈自身對新算法的測試流程,過去有大量外包設(shè)備廠商和測試員完成,新冠疫情導(dǎo)致2月基本無法復(fù)工。

  更困難的是,預(yù)計要在618成為新品的掃地機(jī)、跑步機(jī)、按摩儀、水果榨汁機(jī)、集成灶等等智能設(shè)備,正處在廠商與天貓精靈智能語音模組對接測試,即將量產(chǎn)的關(guān)鍵階段。這些家電普遍運行聲量偏大,對智能語音識別頗有挑戰(zhàn)。

  由于疫情影響,人們也在家居環(huán)境中更高頻購買和使用這些產(chǎn)品。讓技術(shù)的門檻持續(xù)降低,讓先進(jìn)科技能夠覆蓋到更多人群。

  這是天貓精靈三周年的目標(biāo)之一,也是聶再清整個職業(yè)生涯,希望以語音助手作為一個突破點去實現(xiàn)的“無差別”價值。

  因為語音對話、眼神手勢交流,無疑是更為自然的交互方式,這就在技術(shù)層面,降低了用戶觸達(dá)前沿科技的門檻,用更簡單的方式滿足人們的科技需求,讓科技普惠到更多人的生活。

  去年,聶再清曾用業(yè)余時間打造了一個“爆款”,阿里反騷擾電話AI**“二哈”。

  而這半年以來,聶再清團(tuán)隊則投入精力,針對老人、兒童這樣的弱勢群體,嘗試進(jìn)一步擴(kuò)寬智能語音助手的“基站”覆蓋范圍,降低使用門檻。

  比如,天貓精靈上線的方言功能,讓不會說普通話、普通話不標(biāo)準(zhǔn)的老人也能方便地和語音助手交互。甚至還能合成四川話語音,實現(xiàn)與老人的鄉(xiāng)音交流。

  一般來說,一個智能產(chǎn)品的推出,往往會選擇先覆蓋最主流、最具購買力的群體。但這一次,聶再清團(tuán)隊卻是著重針對老人、兒童的功能進(jìn)行了優(yōu)化,背后的考量,與商業(yè)價值有關(guān),卻也與商業(yè)價值無關(guān)。

  聶再清認(rèn)為,智能音箱,應(yīng)該是智能網(wǎng)時代的助手,其實是第三代的互聯(lián)網(wǎng)。

  他打了這樣一個比方,在移動互聯(lián)網(wǎng)時代,手機(jī)的通信依靠基站,哪個地方有基站覆蓋,信號連上了,這個地方的人就能夠享受到手機(jī)的服務(wù)。

  而對于語音技術(shù)來說,能否發(fā)揮最大價值,最終也是要看覆蓋多少人群。

  解決覆蓋人群的問題,就像是在建基站。最終,只有百分百的覆蓋,才能說,智能語音真正成為了第三代互聯(lián)網(wǎng)助手。

音素編碼上的語義理解

  單純站在技術(shù)的角度,聶再清說,科研的出發(fā)點很簡單,就是讓用戶在使用的過程中,感受到的是“人工智能”,而非“人工智障”。

  核心需要解決的問題,就是如何讓數(shù)字世界里天貓精靈這樣的語音助手,“聽懂”物理世界里用戶的需求。

  傳統(tǒng)的做法,分為三個階段:

  首先,把語音信號接入,做語音識別,將語音轉(zhuǎn)化成文本;

  然后,對文本進(jìn)行語義理解;

  最后,用抽取出關(guān)鍵詞,在知識庫里做實體鏈接。

  這樣的方法,其實存在很多問題。比如,一旦語音識別階段出現(xiàn)決策失誤,在后續(xù)的流程中就沒有辦法糾正,就會影響到識別的精度。

  另外,實體鏈接也是很大的挑戰(zhàn)。因為實體的名字經(jīng)常是“反語言模型”的。比如說陳奕迅的《圣誕結(jié)》,在正常的語言模型中,就很容易被識別成“圣誕節(jié)”。

  那么,能不能不轉(zhuǎn)成文字,直接根據(jù)語音做語義理解呢?

  答案是,可以。聶再清介紹,語音語義一體化的關(guān)鍵,在于音素。

  音素,是根據(jù)語音的自然屬性劃分出來的最小語音單位,基于人的發(fā)音動作來分析,一個動作構(gòu)成一個音素。

  聶再清解釋,比如輸入“l(fā)iangzhu”這個語音信號,通過聲學(xué)模型,就可以計算出一個音素后驗矩陣。在這個時候,模型并不需要馬上判斷“l(fā)iangzhu”到底是指音樂里的“梁?!保€是建筑里的“梁柱”,而是可以在音素后驗的基礎(chǔ)上去做意圖分類、語義分類。

  這樣,就避免了一步錯步步錯的情況。

  也就是說,基于音素,語義理解、實體鏈接都可以放到一個統(tǒng)一的優(yōu)化模型中進(jìn)行優(yōu)化。

  這一成果發(fā)表在了ICASSP 2020上。聶再清介紹,實驗表明,該方法在公開數(shù)據(jù)集上超越了此前的SOTA模型,同時在天貓精靈上線解決了大概30%的語義實體鏈接錯誤。

  這就真正讓智能語音助手在“聽懂”人類的道路上更進(jìn)一步。

  語音+眼神,讓交互更自然

  而聶再清思考的另一個問題,是如何讓新一代語音助手跟人們之間的交互更自然。

  交互方式越自然,學(xué)習(xí)成本就越低,使用的門檻就越低,越能服務(wù)到更多的人。

  當(dāng)帶屏音箱越來越受到市場的認(rèn)可,視覺技能點的點亮,就給智能語音助手帶來了更多可能性。

  比如,多模態(tài)喚醒。

  比起每次都要喊“天貓精靈”這樣的喚醒詞,如果給智能音箱一個眼神,它就能知道你是在跟它對話,那這樣的交互就更符合人們的習(xí)慣,更加自然直接。

  聶再清介紹,這其中的難點在于,智能音箱需要判斷一段語音到底是不是在跟它進(jìn)行對話,如果反復(fù)出現(xiàn)誤喚醒,那就太“人工智障”了。

  于是,他們采用了視覺 + 聲音 + 全雙工自然對話三管齊下的方式,來對“喚醒”這個動作進(jìn)行優(yōu)化。

  并且,這三個條件只要有兩項滿足,多模態(tài)喚醒就能夠?qū)崿F(xiàn)。也就是說,即使是在無屏音箱上,這項技術(shù)也能讓對話更加自然。

  就像這樣:喚醒智能音箱,要求它打開空調(diào)后,無需再次喚醒,只要說“調(diào)到20度”,語音助手就能結(jié)合上下文,判斷出這句指令是對它說的。

云端一體化,讓每個人都享受同樣智能

  從實驗室到落地終端,用戶最終的體驗又是如何保證的呢?

  天貓精靈產(chǎn)品部資深專家孫堯介紹說,一方面,是針對特定用戶的樣本測試。

  比如,老人可能存在語言能力退化、口音重的問題,就需要定向采集相關(guān)的語料和錄音,來提升老年人語音識別的準(zhǔn)確性。

  另一方面,則是聶再清提到的關(guān)鍵詞,云端一體化。

  依靠云端的能力,就可以把硬件端的產(chǎn)品做到更便宜,讓更多人用得起,但在智能體驗上并不會有所損失。

  這樣的方式,也降低了AI能力接入硬件的門檻。

  去年,天貓精靈就推出了AI語音模組,把實現(xiàn)智能功能的一些設(shè)備集成到一個板子上。這樣,電器廠商只要在產(chǎn)品中留出標(biāo)準(zhǔn)接口,就能輕松把天貓精靈的AI能力接入到產(chǎn)品中。

  就在疫情期間,天貓精靈工程師們還用這樣的AI語音模組打造了一個有趣的“業(yè)余項目”——

  給園區(qū)里的電梯接入語音助手。

  他們把天貓精靈的智能模組抽出來,業(yè)余時間自己買電路板進(jìn)行了一番DIY、離線算法優(yōu)化,以便接入電梯。大概兩周時間,這個方案就上線到了園區(qū)電梯里,喊一聲“我要去XX樓”,電梯就能無接觸式完成操作。

  甚至還能更酷。

  孫堯介紹了這樣一個新的應(yīng)用場景:小區(qū)接入天貓精靈后,高層住戶只需在家中讓語音助手叫一下電梯,語音助手就能幫你隔空“按”電梯。

  這樣換完鞋子出門時,電梯差不多也就到了。

  科技的發(fā)展,當(dāng)然會給人們的生活帶來改變。但在這種變化之中,人們的習(xí)慣和技術(shù)本身也不應(yīng)該是對立的。

  聶再清表示:

  我的觀點是,科技發(fā)展的目標(biāo)是讓每個人都能得到幫助。

  即使是在改變的過程中,技術(shù)也能夠輔助人們適應(yīng)變化,而不是跟人對立起來,造成所謂的“淘汰”。

  做智能助手,遵循的就是這樣的邏輯:用跟人一樣打交道的模式,為更多人提供前沿科技帶來的便利。

  聶再清還打了個比方:

  比如你需要招一個私人助手,Ta告訴你你必須要適應(yīng)我的節(jié)奏,那你肯定就不招了。

千人千面的AI

  從端到端的口語理解,到多模態(tài)的自然交互,聶再清也坦承,從技術(shù)的角度上,語音助手的進(jìn)步空間還很大。

  談及語音交互的未來形態(tài),聶再清描繪了這樣一個場景:

  身處北京的你有一個智能音箱,當(dāng)你飛到杭州出差,在另一臺設(shè)備上,智能助手依然能一眼就認(rèn)出你,按照你的習(xí)慣調(diào)出所有需求。

  屆時,終端便只是一個載體,而你的定制語音助手,將如影隨形。

  何時能夠?qū)崿F(xiàn)?

  聶再清笑答:5年可以有,3年也是可以期待的。

  文章來源:量子位

(轉(zhuǎn)載)

標(biāo)簽:阿里達(dá)摩院 AI 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]