siemens x
物聯(lián)網(wǎng)

趨勢(shì)洞見(jiàn) | 多模態(tài)預(yù)訓(xùn)練大模型

2025China.cn   2023年01月18日

2003年,身在加拿大的科學(xué)家約書(shū)亞·本吉奧(Yoshua Bengio)提出了一種新的算法理念,他將這稱之為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型——Nerual Network Language Models。整整十年后的2013年,Google提出了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型Word2Vec,這也在隨后作為很多自然語(yǔ)言處理領(lǐng)域的重要初始化輸入,得到很大的應(yīng)用。

又過(guò)了整整十年,預(yù)訓(xùn)練模型已經(jīng)獲得了快速發(fā)展,從而展現(xiàn)出了巨大的技術(shù)魅力。目前,人工智能正在從文本、語(yǔ)音、視覺(jué)等單模態(tài)智能,向著多種模態(tài)融合的通用人工智能方向發(fā)展。多模態(tài)統(tǒng)一建模,目的是增強(qiáng)模型的跨模態(tài)語(yǔ)義對(duì)齊能力,打通各個(gè)模態(tài)之間的關(guān)系,使得模型逐步標(biāo)準(zhǔn)化。

目前,技術(shù)的突出進(jìn)展來(lái)自CLIP(匹配圖像和文本)和BEiT-3(通用多模態(tài)基礎(chǔ)模型)。基于多領(lǐng)域知識(shí)構(gòu)建統(tǒng)一、跨場(chǎng)景、多任務(wù)的多模態(tài)基礎(chǔ)模型,已成為人工智能重點(diǎn)方向。未來(lái),大模型作為基礎(chǔ)設(shè)施,將實(shí)現(xiàn)圖像、文本、音頻統(tǒng)一知識(shí)表示,并朝著能推理、能回答問(wèn)題、能總結(jié)、做創(chuàng)作的認(rèn)知智能方向演進(jìn)。

趨勢(shì)解讀

基于深度學(xué)習(xí)的多模態(tài)預(yù)訓(xùn)練是認(rèn)知智能快速發(fā)展的重要推動(dòng)力。構(gòu)建多場(chǎng)景、多任務(wù)的預(yù)訓(xùn)練大模型將加速模型標(biāo)準(zhǔn)化進(jìn)程,為人工智能模型成為基礎(chǔ)設(shè)施創(chuàng)造條件。深度學(xué)習(xí)模型的不斷完善、互聯(lián)網(wǎng)海量真實(shí)數(shù)據(jù)的積累和生成式預(yù)訓(xùn)練的廣泛應(yīng)用,使得人工智能模型在自然語(yǔ)言理解、語(yǔ)音處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的交叉應(yīng)用取得顯著進(jìn)展。

2022年,技術(shù)上的突出進(jìn)展來(lái)自于BEiT-3多模態(tài)基礎(chǔ)模型,該模型在視覺(jué)-語(yǔ)言任務(wù)處理上具備出色表現(xiàn),包括視覺(jué)問(wèn)答、圖片描述生成和跨模態(tài)檢索等。BEiT-3通過(guò)統(tǒng)一的模型框架和骨干網(wǎng)絡(luò)(backbone)建模,能夠更加輕松地完成多模態(tài)編碼和處理不同的下游任務(wù)。另一方面,CLIP(Contrastive Language-Image Pre-training)的廣泛應(yīng)用也促進(jìn)了多模態(tài)模型的技術(shù)發(fā)展。CLIP作為基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練模型,負(fù)責(zé)從文本特征映射到圖像特征,能夠指導(dǎo)GAN或擴(kuò)散模型(diffusion model)生成圖像。在文生圖領(lǐng)域, Stable Diffusion也使用了CLIP,它能夠通過(guò)文本提示調(diào)整模型,并借助擴(kuò)散模型改善圖像質(zhì)量。

與此同時(shí),開(kāi)源極大促進(jìn)了多模態(tài)的融合和預(yù)訓(xùn)練模型的發(fā)展。通過(guò)開(kāi)源來(lái)降低模型使用門(mén)檻,將大模型從一種新興的AI技術(shù)轉(zhuǎn)變?yōu)榉€(wěn)健的基礎(chǔ)設(shè)施,已成為許多大模型開(kāi)發(fā)者的共識(shí)。

多模態(tài)預(yù)訓(xùn)練模型的發(fā)展將重塑人工智能商業(yè)模式,并為人們的生產(chǎn)生活方式帶來(lái)積極影響。對(duì)個(gè)人而言,類似CLIP的多模態(tài)模型,將使更多非技術(shù)出身的人能夠表達(dá)自己的創(chuàng)造力,無(wú)需再借助工具和編程專業(yè)能力。對(duì)企業(yè)來(lái)說(shuō),多模態(tài)預(yù)訓(xùn)練模型將成為企業(yè)生產(chǎn)效率提升的關(guān)鍵。商業(yè)模式上,具備大數(shù)據(jù)、算力資源和模型開(kāi)發(fā)能力的科技企業(yè),將會(huì)成為模型服務(wù)的提供方,幫助企業(yè)將基礎(chǔ)模型的能力與生產(chǎn)流程融合起來(lái),實(shí)現(xiàn)效率和成本最優(yōu)。

認(rèn)知智能的發(fā)展,不會(huì)局限在文本或圖像等單一的模態(tài)上。未來(lái),如何針對(duì)不同模態(tài)建立更高效的模型架構(gòu)和統(tǒng)一的骨干網(wǎng)絡(luò),使得大模型能夠廣泛地支持各種下游任務(wù)將成為主要挑戰(zhàn)。在此基礎(chǔ)上,更多的挑戰(zhàn)來(lái)自于挖掘不同模態(tài)(如圖像-文本,文本-自然語(yǔ)言,視頻-文本)數(shù)據(jù)間的相關(guān)信息,并巧妙設(shè)計(jì)預(yù)訓(xùn)練任務(wù),讓模型更好捕捉不同模態(tài)信息之間的關(guān)聯(lián)。

語(yǔ)音、視覺(jué)和多模態(tài)預(yù)訓(xùn)練模型將加速人工智能向通用基礎(chǔ)模型方向演進(jìn)。在這個(gè)過(guò)程中,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相互促進(jìn)發(fā)展,融合大量行業(yè)知識(shí),模型將具備在不斷變化的環(huán)境中快速適應(yīng)的靈活性。建立統(tǒng)一的、跨場(chǎng)景、多任務(wù)的多模態(tài)基礎(chǔ)模型會(huì)成為人工智能發(fā)展的主流趨勢(shì)之一。隨著技術(shù)的不斷成熟,大模型在開(kāi)發(fā)成本、易用性、開(kāi)發(fā)周期、性能上會(huì)更具優(yōu)勢(shì),給產(chǎn)品化和商業(yè)化帶來(lái)更多可能性。

(達(dá)摩院)

標(biāo)簽:達(dá)摩院 多模態(tài)預(yù)訓(xùn)練大模型 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]