趨勢(shì)洞見(jiàn) | 多模態(tài)預(yù)訓(xùn)練大模型

2025China.cn 2023年01月18日

2003年，身在加拿大的科學(xué)家約書(shū)亞·本吉奧(Yoshua Bengio)提出了一種新的算法理念，他將這稱之為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型——Nerual Network Language Models。整整十年后的2013年，Google提出了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型Word2Vec，這也在隨后作為很多自然語(yǔ)言處理領(lǐng)域的重要初始化輸入，得到很大的應(yīng)用。

又過(guò)了整整十年，預(yù)訓(xùn)練模型已經(jīng)獲得了快速發(fā)展，從而展現(xiàn)出了巨大的技術(shù)魅力。目前，人工智能正在從文本、語(yǔ)音、視覺(jué)等單模態(tài)智能，向著多種模態(tài)融合的通用人工智能方向發(fā)展。多模態(tài)統(tǒng)一建模，目的是增強(qiáng)模型的跨模態(tài)語(yǔ)義對(duì)齊能力，打通各個(gè)模態(tài)之間的關(guān)系，使得模型逐步標(biāo)準(zhǔn)化。

目前，技術(shù)的突出進(jìn)展來(lái)自CLIP(匹配圖像和文本)和BEiT-3(通用多模態(tài)基礎(chǔ)模型)。基于多領(lǐng)域知識(shí)構(gòu)建統(tǒng)一、跨場(chǎng)景、多任務(wù)的多模態(tài)基礎(chǔ)模型，已成為人工智能重點(diǎn)方向。未來(lái)，大模型作為基礎(chǔ)設(shè)施，將實(shí)現(xiàn)圖像、文本、音頻統(tǒng)一知識(shí)表示，并朝著能推理、能回答問(wèn)題、能總結(jié)、做創(chuàng)作的認(rèn)知智能方向演進(jìn)。

趨勢(shì)解讀

基于深度學(xué)習(xí)的多模態(tài)預(yù)訓(xùn)練是認(rèn)知智能快速發(fā)展的重要推動(dòng)力。構(gòu)建多場(chǎng)景、多任務(wù)的預(yù)訓(xùn)練大模型將加速模型標(biāo)準(zhǔn)化進(jìn)程，為人工智能模型成為基礎(chǔ)設(shè)施創(chuàng)造條件。深度學(xué)習(xí)模型的不斷完善、互聯(lián)網(wǎng)海量真實(shí)數(shù)據(jù)的積累和生成式預(yù)訓(xùn)練的廣泛應(yīng)用，使得人工智能模型在自然語(yǔ)言理解、語(yǔ)音處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的交叉應(yīng)用取得顯著進(jìn)展。

2022年，技術(shù)上的突出進(jìn)展來(lái)自于BEiT-3多模態(tài)基礎(chǔ)模型，該模型在視覺(jué)-語(yǔ)言任務(wù)處理上具備出色表現(xiàn)，包括視覺(jué)問(wèn)答、圖片描述生成和跨模態(tài)檢索等。BEiT-3通過(guò)統(tǒng)一的模型框架和骨干網(wǎng)絡(luò)(backbone)建模，能夠更加輕松地完成多模態(tài)編碼和處理不同的下游任務(wù)。另一方面，CLIP(Contrastive Language-Image Pre-training)的廣泛應(yīng)用也促進(jìn)了多模態(tài)模型的技術(shù)發(fā)展。CLIP作為基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練模型，負(fù)責(zé)從文本特征映射到圖像特征，能夠指導(dǎo)GAN或擴(kuò)散模型(diffusion model)生成圖像。在文生圖領(lǐng)域， Stable Diffusion也使用了CLIP，它能夠通過(guò)文本提示調(diào)整模型，并借助擴(kuò)散模型改善圖像質(zhì)量。

與此同時(shí)，開(kāi)源極大促進(jìn)了多模態(tài)的融合和預(yù)訓(xùn)練模型的發(fā)展。通過(guò)開(kāi)源來(lái)降低模型使用門(mén)檻，將大模型從一種新興的AI技術(shù)轉(zhuǎn)變?yōu)榉€(wěn)健的基礎(chǔ)設(shè)施，已成為許多大模型開(kāi)發(fā)者的共識(shí)。

多模態(tài)預(yù)訓(xùn)練模型的發(fā)展將重塑人工智能商業(yè)模式，并為人們的生產(chǎn)生活方式帶來(lái)積極影響。對(duì)個(gè)人而言，類似CLIP的多模態(tài)模型，將使更多非技術(shù)出身的人能夠表達(dá)自己的創(chuàng)造力，無(wú)需再借助工具和編程專業(yè)能力。對(duì)企業(yè)來(lái)說(shuō)，多模態(tài)預(yù)訓(xùn)練模型將成為企業(yè)生產(chǎn)效率提升的關(guān)鍵。商業(yè)模式上，具備大數(shù)據(jù)、算力資源和模型開(kāi)發(fā)能力的科技企業(yè)，將會(huì)成為模型服務(wù)的提供方，幫助企業(yè)將基礎(chǔ)模型的能力與生產(chǎn)流程融合起來(lái)，實(shí)現(xiàn)效率和成本最優(yōu)。

認(rèn)知智能的發(fā)展，不會(huì)局限在文本或圖像等單一的模態(tài)上。未來(lái)，如何針對(duì)不同模態(tài)建立更高效的模型架構(gòu)和統(tǒng)一的骨干網(wǎng)絡(luò)，使得大模型能夠廣泛地支持各種下游任務(wù)將成為主要挑戰(zhàn)。在此基礎(chǔ)上，更多的挑戰(zhàn)來(lái)自于挖掘不同模態(tài)(如圖像-文本，文本-自然語(yǔ)言，視頻-文本)數(shù)據(jù)間的相關(guān)信息，并巧妙設(shè)計(jì)預(yù)訓(xùn)練任務(wù)，讓模型更好捕捉不同模態(tài)信息之間的關(guān)聯(lián)。

語(yǔ)音、視覺(jué)和多模態(tài)預(yù)訓(xùn)練模型將加速人工智能向通用基礎(chǔ)模型方向演進(jìn)。在這個(gè)過(guò)程中，深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相互促進(jìn)發(fā)展，融合大量行業(yè)知識(shí)，模型將具備在不斷變化的環(huán)境中快速適應(yīng)的靈活性。建立統(tǒng)一的、跨場(chǎng)景、多任務(wù)的多模態(tài)基礎(chǔ)模型會(huì)成為人工智能發(fā)展的主流趨勢(shì)之一。隨著技術(shù)的不斷成熟，大模型在開(kāi)發(fā)成本、易用性、開(kāi)發(fā)周期、性能上會(huì)更具優(yōu)勢(shì)，給產(chǎn)品化和商業(yè)化帶來(lái)更多可能性。

（達(dá)摩院）

標(biāo)簽：達(dá)摩院多模態(tài)預(yù)訓(xùn)練大模型

我要反饋

今年大會(huì)的主題是“智聯(lián)世界元生無(wú)界”，旨在充分把握人工智能與元宇宙相融互促的發(fā)展趨勢(shì)，連接匯聚世界人工智能最新觀點(diǎn)和成果，傳遞無(wú)界共生的創(chuàng)新理念，展現(xiàn)上海智能時(shí)代的美好圖... [詳情]

2023年01月18日世界人工智能大會(huì) WAIC

探索全球化視野下的“人工智能與科學(xué)未來(lái)” 2022世界人工智能大會(huì)科學(xué)前沿全體會(huì)議圓滿舉辦

9月1日，2022年世界人工智能大會(huì)(WAIC)主論壇科學(xué)前沿全體會(huì)議在上海世博中心開(kāi)幕?？茖W(xué)前沿全體會(huì)議由國(guó)家發(fā)展和改革委員會(huì)、工業(yè)和信息化部、科學(xué)技術(shù)部、國(guó)家互聯(lián)網(wǎng)辦公室、中國(guó)科... [詳情]

2023年01月18日世界人工智能大會(huì) WAIC

達(dá)摩院牽頭推出AI模型社區(qū)魔搭ModelScope

導(dǎo)語(yǔ)：讓模型變成服務(wù)，ModelasaService。11月3日，2022云棲大會(huì)杭州現(xiàn)場(chǎng)，阿里達(dá)摩院聯(lián)手CCF開(kāi)源發(fā)展委員會(huì)共同推出AI模型社區(qū)“魔搭”ModelScope，旨在降低AI的應(yīng)用門(mén)檻。達(dá)摩院率先... [詳情]

2023年01月18日 AI模型達(dá)摩院魔搭ModelScope