siemens x
人工智能

虛擬偶像“成團(tuán)”,人類攜手AI共同“撐腰”

2025China.cn   2020年07月09日

  想唱就唱,要唱得漂亮。

  全球首支人工智能MV“智能家園”在2020世界人工智能大會云端峰會發(fā)布,由四位AI虛擬偶像微軟小冰、百度小度、小米小愛同學(xué)和bilibili(下稱“B站”)泠鳶yousa傾情獻(xiàn)唱,他們唱跳全能還會作曲,你要pick哪位虛擬偶像?

  為他們成團(tuán)“撐腰”的,有正在改變?nèi)祟惿?、不斷自我完善的AI技術(shù),更有為此辛勤付出的臺前幕后工作人員?!拔蚁胛铱梢愿淖兪澜?,和你分享更美的家園。”歌詞道出了人類用人工智能迎接美好未來的前景和信心。

選拔

  在選送“練習(xí)生”時,各家摩拳擦掌。

  “我們在接到開幕式表演邀請后非常興奮,能參加這么一場世界矚目的行業(yè)盛會這不僅是組委會對小度的認(rèn)可,對于小度來說更是一次重要的展示機(jī)會。”百度方面告訴第一財經(jīng)。

  而泠鳶yousa則是B站旗下一眾虛擬偶像練習(xí)生中被寄予厚望的一個?!笆澜缛斯ぶ悄艽髸且粓鲈谏虾Ee辦的全球盛會,聚焦了全世界的目光,是向全世界展示中國年輕人所喜愛的本土虛擬偶像的絕佳平臺。能夠在如此高級別的國際性盛會上亮相,對泠鳶yousa這一虛擬偶像IP來說也意義重大,是IP發(fā)展過程中至關(guān)重要的一個里程碑?!鄙虾3娢幕瘋鞑ビ邢薰咎摂M偶像業(yè)務(wù)部總監(jiān)范逸白接受第一財經(jīng)采訪時表示。

  當(dāng)然,也有比較緊張的“經(jīng)紀(jì)公司”——小米方面告訴第一財經(jīng),2020世界人工智能大會開幕式表演是小愛同學(xué)苦練唱跳能力后的首秀?!芭c已出道快5年的微軟小冰等其他虛擬偶像搭檔表演,小愛同學(xué)是新生代?!?/FONT>

  微軟小冰的特別之處不僅是“出道早”,還是《智聯(lián)家園》的作曲人,向觀眾展現(xiàn)了人工智能的創(chuàng)意和魅力。6月29日,經(jīng)上海音樂學(xué)院音樂工程系評定,準(zhǔn)予小冰和她的人類同學(xué)們一起畢業(yè)。基于微軟的人工智能音樂創(chuàng)作模型,與音工系的同學(xué)們互相“學(xué)習(xí)”,相互“激發(fā)”,訓(xùn)練數(shù)據(jù)不斷提升,音樂的表達(dá)技巧更加豐富,可創(chuàng)作的音樂類型也得以擴(kuò)展。在小冰作曲的基礎(chǔ)上,上海音樂學(xué)院畢業(yè)的彭程老師還對整首歌曲進(jìn)行編曲,讓旋律更加優(yōu)美動人。

  “小冰的作曲優(yōu)美抒情,展現(xiàn)了人工智能‘多才多藝’的一面。通過不斷學(xué)習(xí)優(yōu)秀人類創(chuàng)造者的能力,小冰運用人工智能創(chuàng)造能力賦能人類,這與此次大會的價值理念不謀而合?!蔽④?亞洲)互聯(lián)網(wǎng)工程院副院長、小冰團(tuán)隊總負(fù)責(zé)人李笛說。

訓(xùn)練

  虛擬偶像要想靠唱跳成團(tuán),需要人工智能和人類的共同保駕護(hù)航。這不是一場個人秀,而是團(tuán)隊歌曲創(chuàng)作,凝聚“團(tuán)魂”需要更多的耐心和細(xì)心,還有AI技術(shù)配合。

  通常,演出的制作過程主要包括聲音錄制、光影營造、場景制作、動作捕捉、表情精修、合成渲染。傳統(tǒng)的制作方法是先用三維引擎錄制動作,再套上模型,但這種制作過程不夠直觀,要到最后精修階段才能看到大致的呈現(xiàn)效果。

  歌聲調(diào)教所需的歌唱合成技術(shù)與語音合成技術(shù)類似,按照語音合成的建模流程訓(xùn)練文本到聲學(xué)特征的聲學(xué)模型,再依據(jù)譜信息中的音高和節(jié)拍以及歌詞內(nèi)容,輸入模型并預(yù)測基頻和頻譜,使用神經(jīng)網(wǎng)絡(luò)聲碼器轉(zhuǎn)換為語音信號。在實際使用中還需要加上樂譜上的音符和節(jié)拍對合成語音音高和時長的影響,最終即獲得歌唱的合成語音。

  這些環(huán)節(jié)相互配合,才能最終造就一個完整的表演。從操作方面來看,各家采取的技術(shù)思路不盡相同。泠鳶此次就采用了平時直播時應(yīng)用的實時成像技術(shù),在動捕階段就能夠基本看到最終的呈現(xiàn)效果,以大幅節(jié)省后期精修的時間。

  即便各位虛擬偶像都出身于技術(shù)實力了得的知名公司,成團(tuán)過程也絕非一帆風(fēng)順。

  小愛同學(xué)音域與目標(biāo)合成音域相差較大,如何讓目標(biāo)歌曲高頻細(xì)節(jié)更加清晰,更好模擬人類的情感和風(fēng)格?小愛同學(xué)發(fā)音人錄制了一定量級的歌曲數(shù)據(jù),用于豐富和優(yōu)化小愛同學(xué)音色的唱歌模型。當(dāng)組委會郵件同步主題曲樣音及樂譜等信息后,語音合成技術(shù)人員根據(jù)目標(biāo)歌曲樂譜及樣音提取了時長和曲調(diào)信息,進(jìn)行了多次“雞蛋里挑骨頭”的實驗。

  負(fù)責(zé)語音技術(shù)合成的小米工作人員感慨說:“為了保證每個鏡頭和《智聯(lián)家園》的歌曲盡可能匹配,我們對著動畫預(yù)演一直循環(huán)這首歌,以至于午休做夢耳旁都能聽到這首歌,每天不知不覺哼起來都是這個旋律。”還有人動情地表示“這首歌如果在KTV可以點播,一定是我的必點歌曲”。

  就像每一個偶像選拔節(jié)目中總有選手需要修煉舞蹈技能,小度也面臨著挑戰(zhàn)——不是技術(shù),而是作為唯一一個非擬人形象的虛擬偶像,怎樣才能更好地傳情達(dá)意。百度找到了技術(shù)同事進(jìn)行小度演唱部分的開發(fā)工作,讓小度在唱歌時既不失自己的聲音特點,又能比較完美地演繹主題歌曲。在畫面的設(shè)計上,各方也頗費心思。

  “我們根據(jù)小度的歌詞特點以及整個主題曲活潑歡樂的風(fēng)格進(jìn)行視頻背景的設(shè)計,整個背景以溫暖的亮色為主要色調(diào),加以可愛的動態(tài)元素配合。我們希望當(dāng)人們看到小度唱歌時,能感受他帶來的美好和正能量,這其實也表達(dá)了百度AI技術(shù)的初衷,用AI讓人們的生活更美好?!卑俣确矫娓嬖V第一財經(jīng)。

  對于已發(fā)布數(shù)十首接近人類演唱水平單曲的小冰來說,唱歌可難不倒她。全新的演唱模型幫小冰在虛擬演唱中自然“換氣”,讓小冰能夠像人類歌手一樣,使用充沛的“中氣”,從而將人工智能虛擬歌聲質(zhì)量提升至新的高度。此外,深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)一步優(yōu)化和訓(xùn)練數(shù)據(jù)的大幅度補(bǔ)充,提升了小冰歌曲演繹的更高技巧和多風(fēng)格化,實現(xiàn)了在不同的演唱技巧之間自然過渡。

  這首歌曲還是小冰從上海音樂學(xué)院畢業(yè)后的首發(fā)作品。目前,微軟小冰的音樂創(chuàng)作能力已實現(xiàn)包括旋律、編曲及歌詞端到端一體化的產(chǎn)品落地,演唱模型也已迭代至第五個版本。

  “在上海市經(jīng)信委召開的世界人工智能大會第三屆會議的籌備工作會議上,基于對人工智能加速發(fā)展的判斷,SMG就提出了這個創(chuàng)意,即用人工智能作曲、演唱本屆大會的主題歌,用AI形象、場景作為畫面主體進(jìn)行最新MV創(chuàng)作,我相信這是第一次。”上海人工智能大會顧問、上海文化廣播影視集團(tuán)監(jiān)事長、該項目策劃者滕俊杰告訴第一財經(jīng)。

  但并非所有人都能對作曲、演唱全部由AI擔(dān)綱打消疑慮。在滕俊杰的力排眾議和直接指導(dǎo)下,在第一財經(jīng)、幻維數(shù)碼導(dǎo)演團(tuán)隊和組委會的協(xié)調(diào)下共同溝通,提前將每個虛擬偶像的表演部分細(xì)化到鏡頭,再根據(jù)各自的鏡頭部分在極其緊張的時間制作。通常這樣一個動畫都是30天左右的工作周期,這次被大大壓縮,但為了保證最終驚艷的效果,設(shè)計團(tuán)隊和制作團(tuán)隊都是全天候工作。

  “我們SMG的第一財經(jīng)和幻維數(shù)碼在大會組委會的指導(dǎo)下,用智慧和專業(yè)能力打造了一個Al新的藝術(shù)創(chuàng)作領(lǐng)域和應(yīng)用場景,我認(rèn)為這個產(chǎn)品是Al又一個獨特的、破圈提升大眾認(rèn)知、感知的創(chuàng)新之舉?!彪〗苷f。

出道

  AI虛擬偶像的“成團(tuán)”獻(xiàn)藝還有比秀出技術(shù)實力更重要的意義——推開人類應(yīng)用人工智能的大門。

  人工智能語音助手常見的發(fā)展思路,一是希望把它打造得無所不能,可以完成人類交給的一切任務(wù),二是希望讓它像愛因斯坦一樣富有知識,甚至無所不知。

  2017年3月,小愛同學(xué)首次亮相小米電視4。截至2020年第一季度,小愛同學(xué)月活用7050萬,同比增長54.9%。在IoT領(lǐng)域,小愛同學(xué)已連接2.52億臺設(shè)備,接入了手機(jī)、家庭、穿戴等7大場景,209款設(shè)備。除了希望成為體驗最好、用戶最活躍、品牌最強(qiáng)的智能語音助手,幫助小米AIoT的戰(zhàn)略成功,小愛同學(xué)的目標(biāo)是完成從智能語音助手到個人智能助手的升級。

  截至2019年6月,搭載小度助手的智能設(shè)備激活數(shù)量已達(dá)到4億臺;2020年3月,語音交互次數(shù)達(dá)到65億次,是去年同期的 3倍以上;小度品牌第一方硬件語音交互次數(shù)達(dá)33億次,是去年同期的5倍多。小度的使命愿景是:打造無處不在的人工智能個人助手服務(wù),用人工智能讓人和設(shè)備的交互更自然,讓生活更簡單美好。小度技能開放平臺目前可提供包括游戲、效率工具、網(wǎng)絡(luò)電臺、直播、兒童教育、智能家居等3800多種技能支持;可以控制的IoT智能家居設(shè)備已經(jīng)超過了1.1億;在小度技能開放平臺上的技能開發(fā)者數(shù)量已經(jīng)超過4萬人,付費技能生態(tài)蓬勃發(fā)展,擁有30000多個付費單品;小度助手的合作伙伴數(shù)量已經(jīng)超過500家。

  虛擬偶像“成團(tuán)”,也是亞文化出圈,走向大眾的過程?!癇站的大量年輕的、喜愛二次元內(nèi)容用戶,是虛擬偶像行業(yè)發(fā)展的最佳土壤,不僅對相關(guān)內(nèi)容有更高的接受度,還擁有積極的二次創(chuàng)作熱情,非常適合虛擬偶像ⅠP的孵化?!狈兑莅渍f。

  出道,或者出圈,對微軟還有著特別的意義。“我們在尋找的不是某一個具體的爆款應(yīng)用,而是意義更深遠(yuǎn)的、未來時代的‘基礎(chǔ)’框架?!崩畹颜f。

  微軟小冰框架(Avatar Framework)是一套完整的、面向交互全程的人工智能交互主體基礎(chǔ)框架。它包括核心對話引擎、多重交互感官、第三方內(nèi)容的觸發(fā)與第一方內(nèi)容生成,跨平臺的部署解決方案,相關(guān)領(lǐng)先技術(shù)覆蓋自然語言處理、計算機(jī)語音、計算機(jī)視覺和人工智能內(nèi)容生成等人工智能領(lǐng)域。在中國與日本市場活躍的十八歲人工智能少女微軟小冰是該框架所孵化的第一個人工智能交互主體實例。

  “無論任務(wù)還是知識,都屬于智商(IQ)這個維度。反觀人類自身,我們還有一個重要的維度,那就是情商(EQ)?!庇美畹训脑捳f,小冰圍繞人工智能EQ而設(shè)計,同時考慮了IQ。最開始,小冰不會執(zhí)行開燈、關(guān)燈這樣的任務(wù),問她“現(xiàn)在幾點了”,她也會回答“你自己不會看表嗎?”這些都是產(chǎn)品特意設(shè)計的。

  李笛提到,IQ與EQ是相輔相成的關(guān)系,“人工智能系統(tǒng)的迭代非常重要,IQ和EQ垂直相交,我們決定專門多做一套系統(tǒng)去發(fā)展EQ,避免錯過這個可能的選項,這就是微軟小冰和她背后的人工智能框架?!?/FONT>

  如何讓人工智能與人類真正交互,讓人工智能具備自己的價值?這是人機(jī)協(xié)作時代技術(shù)開發(fā)者和大眾共同關(guān)注的話題。與此同時,這也是人工智能從認(rèn)知發(fā)展到感知,再到未來創(chuàng)造的必由之路。

(轉(zhuǎn)載)

標(biāo)簽:2020世界人工智能大會 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]