siemens x
人工智能

商湯如影,打造高質(zhì)量、低門檻的數(shù)字人視頻生成平臺(tái)

2025China.cn   2023年05月15日

短視頻已成為當(dāng)今重要的社交載體,但如何高質(zhì)量、低成本地生產(chǎn)內(nèi)容正成為行業(yè)發(fā)展的瓶頸。

對(duì)此,商湯科技“日日新SenseNova”大模型體系下的“商湯如影SenseAvatar”AI數(shù)字人視頻生成平臺(tái)將發(fā)揮特長(zhǎng),突破質(zhì)量和效率的天花板。

如影平臺(tái)基于AI數(shù)字人視頻生成算法、語(yǔ)言大模型、AI文生圖、AIGC等多種能力,只需一次真人素材錄入,就能生成超寫實(shí)的數(shù)字分身,實(shí)現(xiàn)高質(zhì)量、高效率的數(shù)字人視頻內(nèi)容創(chuàng)作,推動(dòng)視頻內(nèi)容創(chuàng)作的范式革新。

作為全棧式AI數(shù)字人視頻生成平臺(tái),如影旨在幫助企業(yè)和個(gè)人輕松開展數(shù)字人短視頻、直播等內(nèi)容創(chuàng)作,同時(shí)也可為教育培訓(xùn)、企業(yè)宣傳,娛樂(lè)文化等領(lǐng)域提供視頻解決方案,提高品牌知名度和用戶粘性。

大模型+大算力,數(shù)字人生成既好又快

“大模型”和“大算力”是實(shí)現(xiàn)高質(zhì)量、高效率數(shù)字人生成的核心驅(qū)動(dòng)力。

在商湯“日日新SenseNova”大模型體系和AI大裝置SenseCore的支持下,如影平臺(tái)在生成效率和效果方面雙雙突破。

憑借大模型強(qiáng)大的數(shù)據(jù)學(xué)習(xí)能力,通過(guò)對(duì)海量真人基礎(chǔ)數(shù)據(jù)有效學(xué)習(xí),如影生成的數(shù)字人外貌真實(shí)、動(dòng)作表情自然,對(duì)輸入的素材也更魯棒。

其中,真人相似度達(dá)90%-95%,口型匹配度達(dá)95%,大大超過(guò)行業(yè)平均水平。大模型的強(qiáng)泛化能力,也讓如影更好地支持不同類型、不同風(fēng)格的數(shù)字人生成,并覆蓋多種語(yǔ)言。

高生成速度則依托于全自動(dòng)化的處理流程和AI大裝置強(qiáng)大的算力支持。

通過(guò)打通從上傳視頻、處理數(shù)據(jù)、訓(xùn)練模型、轉(zhuǎn)換模型到模型部署的自動(dòng)化閉環(huán),如影平臺(tái)可將傳統(tǒng)視頻制作流程中人工處理時(shí)間大幅減少90%,模型訓(xùn)練時(shí)間減少60%,只需1天即能完成各類定制數(shù)字人訓(xùn)練。平臺(tái)甚至還支持?jǐn)?shù)字人批量生產(chǎn),同時(shí)滿足不同客戶的定制化需求。

無(wú)論是2D數(shù)字人還是3D數(shù)字人的視頻生成,如影均能為客戶提供低門檻的創(chuàng)作工具。

5分鐘真人視頻打造寫實(shí)2D數(shù)字分身

2D數(shù)字人如同用戶的數(shù)字分身,可代替真人出鏡,實(shí)現(xiàn)視頻創(chuàng)作效率躍遷。

“商湯如影SenseAvatar”平臺(tái)具備強(qiáng)大AI生成能力和易用的使用體驗(yàn),僅需一段5分鐘手機(jī)拍攝的真人視頻,就能生成動(dòng)作、表情、口型都自然逼真、且精通多語(yǔ)種的數(shù)字分身。

平臺(tái)還打通文生文、文生視頻的整個(gè)流程,通過(guò)文字驅(qū)動(dòng),即可自由開展各類視頻制作。

比如,用戶進(jìn)行文案創(chuàng)作,只需輸入粗略想法,平臺(tái)就可自動(dòng)生成相關(guān)視頻文案。

換裝、換背景,素材選擇靈活自由,用戶不僅可以使用平臺(tái)內(nèi)置的豐富素材或上傳自有素材,還可借助平臺(tái)的AI文生圖能力,通過(guò)給定相應(yīng)提示詞生成“腦中所想”的素材用于視頻創(chuàng)作。

如影還支持涵蓋超100個(gè)國(guó)家和地區(qū)的多語(yǔ)言文本生成及多語(yǔ)言語(yǔ)音合成。用戶可直接將生成好的視頻切換成不同語(yǔ)言版本,發(fā)音、口型自動(dòng)匹配,輕松完成“本土化”。

創(chuàng)建鮮活飽滿的3D數(shù)字人

3D數(shù)字人虛擬主播或“虛擬IP”,有著更靈活廣泛的使用場(chǎng)景,但制作成本更高。

和現(xiàn)實(shí)世界的交互,不僅需要一顆聰明的大腦來(lái)生成可靠的文字,還需要通過(guò)靈動(dòng)自然、語(yǔ)義契合的動(dòng)作,來(lái)增加3D數(shù)字人的表現(xiàn)力和感染力。

基于商湯原創(chuàng)OpenXRLab擴(kuò)展現(xiàn)實(shí)平臺(tái)的領(lǐng)先算法,打造了一套多模態(tài)的動(dòng)作生成解決方案,無(wú)需專業(yè)設(shè)備進(jìn)行動(dòng)捕,就能根據(jù)文字語(yǔ)義和聲音韻律生成風(fēng)格多樣、語(yǔ)義準(zhǔn)確、長(zhǎng)時(shí)間自然連貫的表情和動(dòng)作。

得益于全棧生成式AI能力,讓用戶輕松開啟直播之旅。基于商湯的語(yǔ)言大模型,針對(duì)直播帶貨場(chǎng)景進(jìn)行了優(yōu)化,可以根據(jù)產(chǎn)品內(nèi)容快速生成多風(fēng)格的帶貨文本,配合多風(fēng)格的聲音及動(dòng)作生成,一鍵擁有百變主播。借助商湯大模型的精細(xì)化3D物件生成能力和文生圖大模型,數(shù)字人的交互能力和直播場(chǎng)景中的內(nèi)容元素亦可持續(xù)拓展。

直播過(guò)程中,數(shù)字人還可以自主完成帶貨、粉絲互動(dòng)、疑難解答等實(shí)時(shí)交互,以更低的運(yùn)營(yíng)成本實(shí)現(xiàn)24小時(shí)直播運(yùn)營(yíng),全天候觸達(dá)用戶。

推動(dòng)“可信數(shù)字人”發(fā)展

除視頻、直播場(chǎng)景外,AI數(shù)字人也可廣泛應(yīng)用于文旅、展館、金融、教育、商超等各類線下場(chǎng)景,提供多樣化服務(wù)。在今年上海車展期間,商湯即展示了在車艙場(chǎng)景中的數(shù)字人應(yīng)用,既能自動(dòng)提煉郵件關(guān)鍵信息,還會(huì)整理會(huì)議紀(jì)要,是一位智能有溫度的行車伴侶。

在推動(dòng)AI數(shù)字人視頻生成技術(shù)創(chuàng)新應(yīng)用過(guò)程中,商湯致力于打造“可信數(shù)字人”,在可信原則指導(dǎo)下推動(dòng)虛擬人市場(chǎng)健康、可持續(xù)、高質(zhì)量發(fā)展。

每個(gè)在如影平臺(tái)創(chuàng)作的數(shù)字人,都經(jīng)過(guò)嚴(yán)格的可信認(rèn)證,確保不被盜用或篡改。

同時(shí),由中國(guó)信通院牽頭,商湯科技參編的《可信虛擬人生成內(nèi)容管理系統(tǒng)技術(shù)要求》已完成立項(xiàng),將于年內(nèi)出臺(tái)團(tuán)體標(biāo)準(zhǔn),推動(dòng)可信數(shù)字人行業(yè)標(biāo)準(zhǔn)建立,讓數(shù)字人生成內(nèi)容與真人意愿不“脫鉤”,數(shù)字人產(chǎn)業(yè)快速發(fā)展不從監(jiān)管“脫韁”,肖像權(quán)、所有權(quán)與現(xiàn)實(shí)約束不“脫節(jié)”。

目前,“商湯如影SenseAvatar”平臺(tái)已面向多家企業(yè)用戶開放服務(wù),助力各行業(yè)突破原有內(nèi)容制作模式瓶頸,打破內(nèi)容創(chuàng)意的天花板。

(商湯科技)

標(biāo)簽:商湯科技 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]