人工智能

商湯如影,打造高質(zhì)量、低門檻的數(shù)字人視頻生成平臺

ainet.cn   2023年05月15日

短視頻已成為當(dāng)今重要的社交載體,但如何高質(zhì)量、低成本地生產(chǎn)內(nèi)容正成為行業(yè)發(fā)展的瓶頸。

對此,商湯科技“日日新SenseNova”大模型體系下的“商湯如影SenseAvatar”AI數(shù)字人視頻生成平臺將發(fā)揮特長,突破質(zhì)量和效率的天花板。

如影平臺基于AI數(shù)字人視頻生成算法、語言大模型、AI文生圖、AIGC等多種能力,只需一次真人素材錄入,就能生成超寫實的數(shù)字分身,實現(xiàn)高質(zhì)量、高效率的數(shù)字人視頻內(nèi)容創(chuàng)作,推動視頻內(nèi)容創(chuàng)作的范式革新。

作為全棧式AI數(shù)字人視頻生成平臺,如影旨在幫助企業(yè)和個人輕松開展數(shù)字人短視頻、直播等內(nèi)容創(chuàng)作,同時也可為教育培訓(xùn)、企業(yè)宣傳,娛樂文化等領(lǐng)域提供視頻解決方案,提高品牌知名度和用戶粘性。

大模型+大算力,數(shù)字人生成既好又快

“大模型”和“大算力”是實現(xiàn)高質(zhì)量、高效率數(shù)字人生成的核心驅(qū)動力。

在商湯“日日新SenseNova”大模型體系和AI大裝置SenseCore的支持下,如影平臺在生成效率和效果方面雙雙突破。

憑借大模型強(qiáng)大的數(shù)據(jù)學(xué)習(xí)能力,通過對海量真人基礎(chǔ)數(shù)據(jù)有效學(xué)習(xí),如影生成的數(shù)字人外貌真實、動作表情自然,對輸入的素材也更魯棒。

其中,真人相似度達(dá)90%-95%,口型匹配度達(dá)95%,大大超過行業(yè)平均水平。大模型的強(qiáng)泛化能力,也讓如影更好地支持不同類型、不同風(fēng)格的數(shù)字人生成,并覆蓋多種語言。

高生成速度則依托于全自動化的處理流程和AI大裝置強(qiáng)大的算力支持。

通過打通從上傳視頻、處理數(shù)據(jù)、訓(xùn)練模型、轉(zhuǎn)換模型到模型部署的自動化閉環(huán),如影平臺可將傳統(tǒng)視頻制作流程中人工處理時間大幅減少90%,模型訓(xùn)練時間減少60%,只需1天即能完成各類定制數(shù)字人訓(xùn)練。平臺甚至還支持?jǐn)?shù)字人批量生產(chǎn),同時滿足不同客戶的定制化需求。

無論是2D數(shù)字人還是3D數(shù)字人的視頻生成,如影均能為客戶提供低門檻的創(chuàng)作工具。

5分鐘真人視頻打造寫實2D數(shù)字分身

2D數(shù)字人如同用戶的數(shù)字分身,可代替真人出鏡,實現(xiàn)視頻創(chuàng)作效率躍遷。

“商湯如影SenseAvatar”平臺具備強(qiáng)大AI生成能力和易用的使用體驗,僅需一段5分鐘手機(jī)拍攝的真人視頻,就能生成動作、表情、口型都自然逼真、且精通多語種的數(shù)字分身。

平臺還打通文生文、文生視頻的整個流程,通過文字驅(qū)動,即可自由開展各類視頻制作。

比如,用戶進(jìn)行文案創(chuàng)作,只需輸入粗略想法,平臺就可自動生成相關(guān)視頻文案。

換裝、換背景,素材選擇靈活自由,用戶不僅可以使用平臺內(nèi)置的豐富素材或上傳自有素材,還可借助平臺的AI文生圖能力,通過給定相應(yīng)提示詞生成“腦中所想”的素材用于視頻創(chuàng)作。

如影還支持涵蓋超100個國家和地區(qū)的多語言文本生成及多語言語音合成。用戶可直接將生成好的視頻切換成不同語言版本,發(fā)音、口型自動匹配,輕松完成“本土化”。

創(chuàng)建鮮活飽滿的3D數(shù)字人

3D數(shù)字人虛擬主播或“虛擬IP”,有著更靈活廣泛的使用場景,但制作成本更高。

和現(xiàn)實世界的交互,不僅需要一顆聰明的大腦來生成可靠的文字,還需要通過靈動自然、語義契合的動作,來增加3D數(shù)字人的表現(xiàn)力和感染力。

基于商湯原創(chuàng)OpenXRLab擴(kuò)展現(xiàn)實平臺的領(lǐng)先算法,打造了一套多模態(tài)的動作生成解決方案,無需專業(yè)設(shè)備進(jìn)行動捕,就能根據(jù)文字語義和聲音韻律生成風(fēng)格多樣、語義準(zhǔn)確、長時間自然連貫的表情和動作。

得益于全棧生成式AI能力,讓用戶輕松開啟直播之旅?;谏虦恼Z言大模型,針對直播帶貨場景進(jìn)行了優(yōu)化,可以根據(jù)產(chǎn)品內(nèi)容快速生成多風(fēng)格的帶貨文本,配合多風(fēng)格的聲音及動作生成,一鍵擁有百變主播。借助商湯大模型的精細(xì)化3D物件生成能力和文生圖大模型,數(shù)字人的交互能力和直播場景中的內(nèi)容元素亦可持續(xù)拓展。

直播過程中,數(shù)字人還可以自主完成帶貨、粉絲互動、疑難解答等實時交互,以更低的運營成本實現(xiàn)24小時直播運營,全天候觸達(dá)用戶。

推動“可信數(shù)字人”發(fā)展

除視頻、直播場景外,AI數(shù)字人也可廣泛應(yīng)用于文旅、展館、金融、教育、商超等各類線下場景,提供多樣化服務(wù)。在今年上海車展期間,商湯即展示了在車艙場景中的數(shù)字人應(yīng)用,既能自動提煉郵件關(guān)鍵信息,還會整理會議紀(jì)要,是一位智能有溫度的行車伴侶。

在推動AI數(shù)字人視頻生成技術(shù)創(chuàng)新應(yīng)用過程中,商湯致力于打造“可信數(shù)字人”,在可信原則指導(dǎo)下推動虛擬人市場健康、可持續(xù)、高質(zhì)量發(fā)展。

每個在如影平臺創(chuàng)作的數(shù)字人,都經(jīng)過嚴(yán)格的可信認(rèn)證,確保不被盜用或篡改。

同時,由中國信通院牽頭,商湯科技參編的《可信虛擬人生成內(nèi)容管理系統(tǒng)技術(shù)要求》已完成立項,將于年內(nèi)出臺團(tuán)體標(biāo)準(zhǔn),推動可信數(shù)字人行業(yè)標(biāo)準(zhǔn)建立,讓數(shù)字人生成內(nèi)容與真人意愿不“脫鉤”,數(shù)字人產(chǎn)業(yè)快速發(fā)展不從監(jiān)管“脫韁”,肖像權(quán)、所有權(quán)與現(xiàn)實約束不“脫節(jié)”。

目前,“商湯如影SenseAvatar”平臺已面向多家企業(yè)用戶開放服務(wù),助力各行業(yè)突破原有內(nèi)容制作模式瓶頸,打破內(nèi)容創(chuàng)意的天花板。

(商湯科技)

標(biāo)簽:商湯科技 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
ABB協(xié)作機(jī)器人,自動化從未如此簡單
優(yōu)傲機(jī)器人下載中心
2024全景工博會
專題報道
2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進(jìn)“雙碳”實踐的最新成果,鼓勵更多企業(yè)、科研機(jī)構(gòu)、投資機(jī)構(gòu)等廣泛... [更多]

中國國際進(jìn)口博覽會
中國國際進(jìn)口博覽會

11月5日至10日,第七屆中國國際進(jìn)口博覽會在國家會展中心(上海)舉行。152個國家、地區(qū)和國際組織,近3500家參展企... [更多]

2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]