siemens x
人工智能

當(dāng)聽障人士實(shí)現(xiàn)手語自由:手語AI平臺的產(chǎn)業(yè)狂想

2025China.cn   2022年03月07日

  盼望著,盼望著,春天的腳步近了,雪容融也終于正式上崗,迎來了自己的主場——2022北京冬殘奧會。

  本屆冬奧會不僅是運(yùn)動員們的競技舞臺,更是科技公司“秀肌肉”的絕佳舞臺。諸多科技亮點(diǎn)之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手語數(shù)字人。

  2月4日晚開幕的冬奧會上,央視新聞AI手語主播正式上崗,陪伴聽障人士見證了一場場精彩絕倫的比賽。即將開幕的冬殘奧會,這位手語數(shù)字人也義不容辭,將披掛上陣,讓聽障人士實(shí)時(shí)感受冰雪運(yùn)動的魅力。

  創(chuàng)造豐厚的冬奧遺產(chǎn),為國家、主辦城市、人民群眾帶來長期的、積極的收益,也是成功辦奧的重要標(biāo)志之一。在日常生活中,手語數(shù)字人能不能繼續(xù)發(fā)光發(fā)熱,為聽障人士提供服務(wù)呢?

  我們關(guān)注到,3月3日,央視新聞AI手語主播的制作者——百度智能云曦靈,又推出“AI手語平臺”,通過分鐘級生成手語合成視頻、手語主播實(shí)時(shí)直播等能力,為手語服務(wù)的普及難題,提出了科技平臺化的新解法。

  同時(shí),百度智能云曦靈還發(fā)布了“AI手語平臺一體機(jī)”,讓一些需要硬件交互的場景,比如醫(yī)院、銀行、車站等公共場合,插電即可提供手語服務(wù),快速部署無障礙窗口。

  平臺化和軟硬協(xié)作的革新,正在讓手語數(shù)字人走上一條與社會價(jià)值長期對接、一同成長的進(jìn)化之路。

  科技巨頭們都在積極打造手語數(shù)字人,反映出哪些潮水的方向?數(shù)字生命與智能技術(shù)的溫情加速照進(jìn)現(xiàn)實(shí),這究竟意味著什么?

  數(shù)字生命覺醒時(shí):

  手語數(shù)字人的能力體系

  百度智能云曦靈平臺賦予手語數(shù)字人哪些特殊能力?我們不妨以人類手語老師的標(biāo)準(zhǔn)來審視一下。

  有一種“難”,叫朱廣權(quán)的手語老師,想要實(shí)時(shí)且準(zhǔn)確地翻譯出朱廣權(quán)的妙語連珠,千挑萬選的央視手語老師有時(shí)也難免手忙腳亂。而在此前與朱廣權(quán)的在線pk中,這位由“百度智能云曦靈”打造的首個(gè)AI手語主播,面對朱廣權(quán)不斷拋出的超高速順口溜,立馬就能做出反應(yīng),表現(xiàn)出流暢、精準(zhǔn)的業(yè)務(wù)能力。

  綜合來看,手語主播的華麗炫技,以及冬奧會上的扎實(shí)服務(wù),來自百度智能云曦靈平臺提供的三個(gè)方面的基礎(chǔ)能力:

  1.理解能力。

  真實(shí)世界中,很容易受到噪音干擾,人類手語老師必須聽清、聽懂新聞內(nèi)容,不然翻譯出來也可能是錯(cuò)誤的,一通比劃猛如虎,但無法真正投入使用。

  想要聽清,需要領(lǐng)先的語音識別能力。百度智能云曦靈平臺融合了百度自然語言處理技術(shù),成熟領(lǐng)先的全雙工ASR(Automatic Speech Recognition)語音識別模型,近場中文普通話的識別準(zhǔn)確率,能夠達(dá)到98%以上。

  輕松搞定各種語音內(nèi)容,即使段子手朱廣權(quán)的神級語速也不在話下,這為后續(xù)數(shù)字人的手語翻譯打下了堅(jiān)實(shí)的基礎(chǔ),使得AI手語平臺一體機(jī)更好地應(yīng)用于不同場景中。

  2.翻譯能力。

  感知之外,手語老師要分析、歸納重要信息,根據(jù)語句整體意思進(jìn)行精煉和語序調(diào)整,將其轉(zhuǎn)換成手語語言。

  一些廠商研發(fā)的手語數(shù)字人直接采用“手勢漢語語料”,好處是無需重新標(biāo)注,節(jié)省時(shí)間,問題是生硬地按照說話順序?qū)⑹终Z手勢連接起來,并不能算是“人類高質(zhì)量手語”。

  舉個(gè)例子,“我想回家”并不是將這四個(gè)漢字依次比劃出來,而是按照“家”“回”“我想”的順序來表達(dá)。

  因此,想要翻得準(zhǔn),手語數(shù)字人必須學(xué)會自然手語語序。百度智能云曦靈平臺就基于“國家手語語法規(guī)則”,聯(lián)合手語語言學(xué)專家,特殊教育專家、天津理工大學(xué)等,邀請上百位聽障學(xué)生做數(shù)據(jù)標(biāo)注,形成了近千萬的高質(zhì)量訓(xùn)練數(shù)據(jù)。

  有了數(shù)據(jù),接下來就是模型設(shè)定與訓(xùn)練?;诎俣榷嗄攴e累的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),設(shè)計(jì)了從中文文本到手語符號的翻譯方法,打造出了業(yè)內(nèi)首個(gè)基于神經(jīng)網(wǎng)絡(luò)的精煉度可控手語翻譯模型,讓手語數(shù)字人的翻譯可懂度達(dá)到85%以上,媲美主流的中英,中日等方向的機(jī)器翻譯結(jié)果。

  3.表達(dá)能力。

  手語中,手勢必不可少,還需要表情、口型、動作等肢體語言的配合,幫助聽障人士更好地理解。比如疑問句“吃飯了嗎“,不僅要做出吃飯的手勢,還要配上疑惑的表情,眉頭皺起、眼睛睜大。

  要讓手語數(shù)字人聲情并茂、手舞足蹈地表達(dá),尤其是3D人像,有著不小的技術(shù)難度。一些手語數(shù)字人動作過快,有時(shí)又存在卡頓不連貫的情況。為了訓(xùn)練手語數(shù)字人的“聲臺形表“,百度智能云曦靈平臺也是煞費(fèi)苦心:

  表情上,百度智能云用4D掃描數(shù)據(jù),積累了超1萬個(gè)臉部面4D數(shù)據(jù),借助高精數(shù)字人“文字到形狀的跨模態(tài)面部表情生成技術(shù)”,能夠準(zhǔn)確生成微笑、開心笑、wink、吹泡泡、白眼、思考等表情??谛秃铣蓽?zhǔn)確性達(dá)98.5%,a和e這樣發(fā)音時(shí)表情接近的字母,都可以細(xì)致區(qū)分。

  驅(qū)動時(shí),通過個(gè)性化TTS,根據(jù)輸入的文本/語音信息來進(jìn)行自適應(yīng),結(jié)合多種預(yù)置動作,驅(qū)動數(shù)字人的唇形、肢體、表情、手勢等自動生成。多模態(tài)的手語表達(dá),能夠傳遞出更豐富、準(zhǔn)確、易于理解的信息。

  同時(shí),百度智能云曦靈平臺搭載的開放域?qū)υ捚脚_PLATO-XL,是百度基于百億級訓(xùn)練參數(shù)、多年搜索及知識圖譜積累而訓(xùn)練出來的,被認(rèn)為是當(dāng)前最大規(guī)模的中英文對話模型。通過它可以快速驅(qū)動數(shù)字人實(shí)現(xiàn)直播、動畫等內(nèi)容,達(dá)到多場景下的實(shí)時(shí)溝通。

  縱觀手語數(shù)字人的能力體系,不難發(fā)現(xiàn),頭部科技公司相繼推出了自己的手語機(jī)器人,除了體現(xiàn)科技的人文關(guān)懷之外,還隱藏著技術(shù)發(fā)展的必然。

  必須在算力、數(shù)據(jù)、算法三方面都有強(qiáng)大的能力,在語音、視覺、NLP、知識圖譜等領(lǐng)域都有領(lǐng)先優(yōu)勢,才能讓手語數(shù)字人真正覺醒在屏幕前、生活中。

  百度作為國內(nèi)AI 技術(shù)布局更完整的公司,能最快地實(shí)現(xiàn)手語數(shù)字人的大規(guī)模應(yīng)用,原因正在于此。

  數(shù)字生命的平臺化復(fù)制:

  手語數(shù)字人插上產(chǎn)業(yè)之翼

  在冬奧會和即將到來的冬殘奧會上的大規(guī)模應(yīng)用,幾乎代表了現(xiàn)階段數(shù)字虛擬人的最高水平,是典型的數(shù)字生命:具備完成復(fù)雜目標(biāo)的能力(通過手語翻譯傳遞賽事信息),以及實(shí)時(shí)學(xué)習(xí)進(jìn)化的能力(收集信息、實(shí)時(shí)互動、做出回應(yīng),而非提前錄制)。

  正如未來生命研究所的創(chuàng)始人:邁克斯·泰格馬克所說,數(shù)字生命是一種能夠自我復(fù)制的信息處理系統(tǒng),物理結(jié)構(gòu)是其硬件,行為和“算法”是其軟件。這決定了,手語數(shù)字人必須向軟硬協(xié)作、規(guī)模復(fù)制的方向發(fā)展。

  3月3日,百度智能云曦靈發(fā)布AI手語平臺和“AI手語平臺一體機(jī)”,或許正在為手語數(shù)字人插上產(chǎn)業(yè)騰飛的翅膀。

  為什么這么說?手語數(shù)字人雖好,卻不能低估技術(shù)產(chǎn)業(yè)化的難度,至少有幾座大山橫亙在前面:

  第一座大山,是效率之謎。

  對于新興的手語數(shù)字人領(lǐng)域,制作難度大、周期長、技術(shù)門檻高,服務(wù)的群體相對較小,很多行業(yè)和企業(yè)在引入之前都會顧慮,會不會需要大量的人力財(cái)力成本,會不會效果不好沒人用,思前想后就是等等再說。要讓全社會聽障人士都享受到技術(shù)紅利,還是要尊重產(chǎn)業(yè)規(guī)律,降低新技術(shù)的應(yīng)用門檻,真正讓手語數(shù)字人的制作“降本增效”。

  百度智能云曦靈的手語數(shù)字人平臺,出現(xiàn)得恰逢其時(shí)?!癆I手語平臺”具備“視頻手語合成”“直播手語合成”“文本轉(zhuǎn)手語”“語音轉(zhuǎn)手語”四大功能,可實(shí)現(xiàn)普通視頻合成為手語視頻、實(shí)時(shí)直播中增加手語畫面、文字翻譯為手語、語音實(shí)時(shí)翻譯為手語等多種效果。AI手語平臺可搭載在各類APP、網(wǎng)站、小程序中,讓聽障人士也能輕松實(shí)現(xiàn)線上社交、娛樂休閑、課程學(xué)習(xí)等各類需求。

  同時(shí),百度智能云曦靈還設(shè)置了三大平臺,讓手語數(shù)字人可以被快速、標(biāo)準(zhǔn)化、高效地生產(chǎn)和交付。比如在人設(shè)管理平臺上,根據(jù)不同的場景搭配設(shè)置不同的人設(shè),比如銀行中引入的手語數(shù)字人可以專業(yè)、嚴(yán)謹(jǐn),景區(qū)中使用的手語數(shù)字人則親和、活潑等,適應(yīng)千行百業(yè)的需求。

  平臺化、標(biāo)準(zhǔn)化、體系化的能力,使得AI驅(qū)動的2D數(shù)字人,生產(chǎn)周期只需要幾個(gè)小時(shí),3D虛擬偶像一兩個(gè)星期就能開發(fā)出來,輕松飛越效率這座大山。

  第二座大山,是體驗(yàn)之困。

  大家可能注意到了,在百度智能云曦靈發(fā)布 “AI手語平臺一體機(jī)”之前,幾乎所有的手語數(shù)字人都是以軟件形式存在的。專門打造一款手語數(shù)字人硬件,真的有必要嗎?

  從根本上來說,我們所知的所有生命形式都有著生物“硬件”的載體,有技術(shù)人員認(rèn)為,“生命3.0”階段的數(shù)字生命,不僅要具備設(shè)計(jì)自身軟件的進(jìn)化能力,還能設(shè)計(jì)自身硬件。

  很多銀行、醫(yī)院等都在引入人形智能機(jī)器人,來增加用戶的體驗(yàn)感。具體到手語數(shù)字人,作為未來在社交、電商、直播、客服、導(dǎo)游等領(lǐng)域的服務(wù)載體,企業(yè)與聽障用戶交互的關(guān)鍵入口,如果只能通過軟件來互動,顯然是不夠方便。

  但是,開發(fā)一個(gè)人形手語機(jī)器人又涉及到一個(gè)相當(dāng)漫長且復(fù)雜的產(chǎn)業(yè)鏈,很容易讓企業(yè)望而卻步。

  百度智能云曦靈此次發(fā)布的全離線一體機(jī)V3以及端云結(jié)合一體機(jī)P3,搭載了“AI手語平臺”的核心功能, AI手語數(shù)字人可以像手機(jī)、電腦一樣被快速、批量生產(chǎn),到線下生活的各個(gè)角落中服務(wù)聽障人群。

  其中本地全離線一體機(jī),在一些網(wǎng)絡(luò)情況不佳的區(qū)域,比如偏遠(yuǎn)的山村、景區(qū)等地,依然能夠進(jìn)行手語翻譯、人像渲染等操作,提供文本轉(zhuǎn)手語、語音轉(zhuǎn)手語等服務(wù)。

  端云結(jié)合一體機(jī),則通過云端計(jì)算+本地渲染的形式,也能靈活地實(shí)現(xiàn)手語服務(wù)。

  第三座大山,則是進(jìn)化之難。

  衡量一個(gè)數(shù)字生命的標(biāo)準(zhǔn)之一,就是具備自主學(xué)習(xí)、自主適應(yīng)、自我進(jìn)化的能力,這需要全面的AI能力支撐。目前,整個(gè)手語機(jī)器人的產(chǎn)業(yè)鏈還沒有被完全打通,盡管一些企業(yè)打出了“手語數(shù)字人”的概念,但只能在部分場合、部分視頻中露臉。

  推動手語數(shù)字人在真實(shí)的產(chǎn)業(yè)場景之中不斷升級,是AI產(chǎn)業(yè)化中必不可少的一種能力。在中國的AI科技企業(yè)當(dāng)中,像百度這樣具備從底層算力、開發(fā)框架到產(chǎn)業(yè)解決方案的全棧AI能力的公司,并不多見。

  目前看來,百度的全棧AI能力融入到百度智能云曦靈當(dāng)中,給數(shù)字人升級能力帶來了無限潛力,也將加速手語數(shù)字人這一“新物種“的全場景覆蓋。

  通過與產(chǎn)業(yè)的深度融合,手語數(shù)字人也將變得越來越復(fù)雜和聰明,進(jìn)化成為真正的數(shù)字生命。

  目前,我國有近2780萬聽障人士,而手語翻譯老師只有1萬人左右,許多場景中無法快速跟上手語服務(wù),在飛速發(fā)展變化的社會中,很容易造成新的不公平。

  而百度智能云曦靈的AI手語平臺,讓手語數(shù)字人的規(guī)?;瘡?fù)制變得更加可行;“AI手語平臺一體機(jī)”,讓數(shù)字人技術(shù)帶來的體驗(yàn)更加豐富和多元。

  數(shù)字生命的平臺化復(fù)制,是社會責(zé)任不會變成空談的前提,意味著商業(yè)價(jià)值與技術(shù)普惠的一次和解,也預(yù)示著手語數(shù)字人市場的快速打開。

  AI產(chǎn)業(yè)的無形之變:

  手語數(shù)字人帶來的連鎖反應(yīng)

  平臺化和軟硬一體,規(guī)模復(fù)制的產(chǎn)業(yè)落地效率與直觀的體驗(yàn)價(jià)值,讓百度智能云曦靈在手語數(shù)字人的競爭中,已經(jīng)獲得了先發(fā)優(yōu)勢。

  技術(shù)無障礙除了讓殘障群體受益,還將給企業(yè)自身和整個(gè)產(chǎn)業(yè)帶來意想不到的收獲。手語數(shù)字人的普及,換來的是AI受眾的擴(kuò)大和手語服務(wù)的延展,會讓許多我們習(xí)以為常的場景出現(xiàn)明顯的擴(kuò)容與創(chuàng)新,并引發(fā)一系列連鎖反應(yīng)。

  首先,AI手語解決方案不斷復(fù)制到各行各業(yè),讓聽障人士樂于去用,企業(yè)和機(jī)構(gòu)樂于引入手語服務(wù),讓手語數(shù)字人的落地場景會愈加豐富,在公益屬性、社交、傳播營銷等領(lǐng)域的價(jià)值將一一顯現(xiàn)。

  其次,數(shù)字人作為公認(rèn)的虛擬世界入口,帶來巨大的商業(yè)空間,已經(jīng)成為互聯(lián)網(wǎng)科技企業(yè)的下一幕競爭焦點(diǎn)。搶占數(shù)字人規(guī)模化生產(chǎn)的機(jī)遇,培養(yǎng)B端市場的信任感與忠誠度,有助于在接下來的市場競爭中占據(jù)優(yōu)勢。

  更進(jìn)一步,百度智能云曦靈在技術(shù)的領(lǐng)先性和全面性,決定了其有資格參與甚至主導(dǎo)數(shù)字人行業(yè)標(biāo)準(zhǔn)的建立,將吸引大量開發(fā)者和產(chǎn)業(yè)鏈上下游加速匯聚到生態(tài)體系內(nèi),推動技術(shù)不斷迭代和應(yīng)用持續(xù)創(chuàng)新,預(yù)先探索數(shù)字人的商業(yè)模式,帶動云計(jì)算、AIoT等領(lǐng)域的增長,對于中國數(shù)字經(jīng)濟(jì)的發(fā)展有著重要作用。

  以前提到智能科技,大家可能更多地關(guān)注獨(dú)角獸、投融資、數(shù)字經(jīng)濟(jì)等宏大概念,而現(xiàn)在,手語數(shù)字人這樣的智能新物種,正在給殘障群體日常生活中的“小事”帶來便利。

  從冬奧主播到AI手語平臺,百度智能云曦靈向世界證明,只需要打開一個(gè)通道、接通一座橋梁,技術(shù)紅利就可以源源不斷地匯聚到那些需要它的人群當(dāng)中。

  許人類一個(gè)更美好的未來,這或許是AI故事里,最溫暖人心的章節(jié)。

(轉(zhuǎn)載)

標(biāo)簽:AI平臺 手語數(shù)字人 冬奧會 我要反饋 
2024世界人工智能大會專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報(bào)道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]