商湯如影，打造高質(zhì)量、低門檻的數(shù)字人視頻生成平臺

ainet.cn 2023年05月15日

短視頻已成為當(dāng)今重要的社交載體，但如何高質(zhì)量、低成本地生產(chǎn)內(nèi)容正成為行業(yè)發(fā)展的瓶頸。

對此，商湯科技“日日新SenseNova”大模型體系下的“商湯如影SenseAvatar”AI數(shù)字人視頻生成平臺將發(fā)揮特長，突破質(zhì)量和效率的天花板。

如影平臺基于AI數(shù)字人視頻生成算法、語言大模型、AI文生圖、AIGC等多種能力，只需一次真人素材錄入，就能生成超寫實的數(shù)字分身，實現(xiàn)高質(zhì)量、高效率的數(shù)字人視頻內(nèi)容創(chuàng)作，推動視頻內(nèi)容創(chuàng)作的范式革新。

作為全棧式AI數(shù)字人視頻生成平臺，如影旨在幫助企業(yè)和個人輕松開展數(shù)字人短視頻、直播等內(nèi)容創(chuàng)作，同時也可為教育培訓(xùn)、企業(yè)宣傳，娛樂文化等領(lǐng)域提供視頻解決方案，提高品牌知名度和用戶粘性。

大模型+大算力，數(shù)字人生成既好又快

“大模型”和“大算力”是實現(xiàn)高質(zhì)量、高效率數(shù)字人生成的核心驅(qū)動力。

在商湯“日日新SenseNova”大模型體系和AI大裝置SenseCore的支持下，如影平臺在生成效率和效果方面雙雙突破。

憑借大模型強(qiáng)大的數(shù)據(jù)學(xué)習(xí)能力，通過對海量真人基礎(chǔ)數(shù)據(jù)有效學(xué)習(xí)，如影生成的數(shù)字人外貌真實、動作表情自然，對輸入的素材也更魯棒。

其中，真人相似度達(dá)90%-95%，口型匹配度達(dá)95%，大大超過行業(yè)平均水平。大模型的強(qiáng)泛化能力，也讓如影更好地支持不同類型、不同風(fēng)格的數(shù)字人生成，并覆蓋多種語言。

高生成速度則依托于全自動化的處理流程和AI大裝置強(qiáng)大的算力支持。

通過打通從上傳視頻、處理數(shù)據(jù)、訓(xùn)練模型、轉(zhuǎn)換模型到模型部署的自動化閉環(huán)，如影平臺可將傳統(tǒng)視頻制作流程中人工處理時間大幅減少90%，模型訓(xùn)練時間減少60%，只需1天即能完成各類定制數(shù)字人訓(xùn)練。平臺甚至還支持?jǐn)?shù)字人批量生產(chǎn)，同時滿足不同客戶的定制化需求。

無論是2D數(shù)字人還是3D數(shù)字人的視頻生成，如影均能為客戶提供低門檻的創(chuàng)作工具。

5分鐘真人視頻打造寫實2D數(shù)字分身

2D數(shù)字人如同用戶的數(shù)字分身，可代替真人出鏡，實現(xiàn)視頻創(chuàng)作效率躍遷。

“商湯如影SenseAvatar”平臺具備強(qiáng)大AI生成能力和易用的使用體驗，僅需一段5分鐘手機(jī)拍攝的真人視頻，就能生成動作、表情、口型都自然逼真、且精通多語種的數(shù)字分身。

平臺還打通文生文、文生視頻的整個流程，通過文字驅(qū)動，即可自由開展各類視頻制作。

比如，用戶進(jìn)行文案創(chuàng)作，只需輸入粗略想法，平臺就可自動生成相關(guān)視頻文案。

換裝、換背景，素材選擇靈活自由，用戶不僅可以使用平臺內(nèi)置的豐富素材或上傳自有素材，還可借助平臺的AI文生圖能力，通過給定相應(yīng)提示詞生成“腦中所想”的素材用于視頻創(chuàng)作。

如影還支持涵蓋超100個國家和地區(qū)的多語言文本生成及多語言語音合成。用戶可直接將生成好的視頻切換成不同語言版本，發(fā)音、口型自動匹配，輕松完成“本土化”。

創(chuàng)建鮮活飽滿的3D數(shù)字人

3D數(shù)字人虛擬主播或“虛擬IP”，有著更靈活廣泛的使用場景，但制作成本更高。

和現(xiàn)實世界的交互，不僅需要一顆聰明的大腦來生成可靠的文字，還需要通過靈動自然、語義契合的動作，來增加3D數(shù)字人的表現(xiàn)力和感染力。

基于商湯原創(chuàng)OpenXRLab擴(kuò)展現(xiàn)實平臺的領(lǐng)先算法，打造了一套多模態(tài)的動作生成解決方案，無需專業(yè)設(shè)備進(jìn)行動捕，就能根據(jù)文字語義和聲音韻律生成風(fēng)格多樣、語義準(zhǔn)確、長時間自然連貫的表情和動作。

得益于全棧生成式AI能力，讓用戶輕松開啟直播之旅?；谏虦恼Z言大模型，針對直播帶貨場景進(jìn)行了優(yōu)化，可以根據(jù)產(chǎn)品內(nèi)容快速生成多風(fēng)格的帶貨文本，配合多風(fēng)格的聲音及動作生成，一鍵擁有百變主播。借助商湯大模型的精細(xì)化3D物件生成能力和文生圖大模型，數(shù)字人的交互能力和直播場景中的內(nèi)容元素亦可持續(xù)拓展。

直播過程中，數(shù)字人還可以自主完成帶貨、粉絲互動、疑難解答等實時交互，以更低的運營成本實現(xiàn)24小時直播運營，全天候觸達(dá)用戶。

推動“可信數(shù)字人”發(fā)展

除視頻、直播場景外，AI數(shù)字人也可廣泛應(yīng)用于文旅、展館、金融、教育、商超等各類線下場景，提供多樣化服務(wù)。在今年上海車展期間，商湯即展示了在車艙場景中的數(shù)字人應(yīng)用，既能自動提煉郵件關(guān)鍵信息，還會整理會議紀(jì)要，是一位智能有溫度的行車伴侶。

在推動AI數(shù)字人視頻生成技術(shù)創(chuàng)新應(yīng)用過程中，商湯致力于打造“可信數(shù)字人”，在可信原則指導(dǎo)下推動虛擬人市場健康、可持續(xù)、高質(zhì)量發(fā)展。

每個在如影平臺創(chuàng)作的數(shù)字人，都經(jīng)過嚴(yán)格的可信認(rèn)證，確保不被盜用或篡改。

同時，由中國信通院牽頭，商湯科技參編的《可信虛擬人生成內(nèi)容管理系統(tǒng)技術(shù)要求》已完成立項，將于年內(nèi)出臺團(tuán)體標(biāo)準(zhǔn)，推動可信數(shù)字人行業(yè)標(biāo)準(zhǔn)建立，讓數(shù)字人生成內(nèi)容與真人意愿不“脫鉤”，數(shù)字人產(chǎn)業(yè)快速發(fā)展不從監(jiān)管“脫韁”，肖像權(quán)、所有權(quán)與現(xiàn)實約束不“脫節(jié)”。

目前，“商湯如影SenseAvatar”平臺已面向多家企業(yè)用戶開放服務(wù)，助力各行業(yè)突破原有內(nèi)容制作模式瓶頸，打破內(nèi)容創(chuàng)意的天花板。

（商湯科技）

標(biāo)簽：商湯科技

我要反饋

近日，中國科學(xué)技術(shù)協(xié)會主席萬鋼一行到訪商湯科技參觀考察，深度調(diào)研我國人工智能(AI)技術(shù)與產(chǎn)業(yè)發(fā)展，并就商湯AI大模型研究成果及商業(yè)化進(jìn)展進(jìn)行了深入交流。上海市科協(xié)黨組書記、副... [詳情]

2023年05月15日商湯科技

用了“商湯方舟”的上海金山區(qū)，入選“算力服務(wù)商業(yè)實踐”產(chǎn)業(yè)標(biāo)桿案例

近期，由中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會共同主辦的2023企業(yè)上云暨算云融合產(chǎn)業(yè)大會在北京舉辦。會上，“算力服務(wù)領(lǐng)航者計劃”的評選結(jié)果也正式公布。在上海市金山區(qū)行政服務(wù)... [詳情]

2023年05月15日商湯科技

嘉會醫(yī)療與商湯科技達(dá)成戰(zhàn)略合作

近日，嘉會醫(yī)療與商湯科技達(dá)成戰(zhàn)略合作，旨在進(jìn)一步以人工智能賦能醫(yī)療服務(wù)，實現(xiàn)智慧醫(yī)療在臨床領(lǐng)域的更廣泛應(yīng)用。活動當(dāng)天，嘉會醫(yī)療CEO葛豐、嘉會醫(yī)療醫(yī)學(xué)影像中心主任陳鵬、商湯科... [詳情]

2023年05月15日商湯科技嘉會醫(yī)療