siemens x
人工智能

AI縱橫論 | AI時代,顛覆性創(chuàng)新機會在哪里?

2025China.cn   2024年05月14日

復旦大學管理學院教授、博導,復旦大學智慧城市研究中心主任凌鴻教授在“WAIC Circle·AI預見生態(tài)論壇”上作主旨演講

引言

在這個充滿變革與創(chuàng)新的時代,人工智能浪潮席卷而來,AI大模型成為引領行業(yè)發(fā)展的重要引擎,孕育催生未來產(chǎn)業(yè)新模式、新業(yè)態(tài)。AI大模型的底層邏輯是什么?面對AI大模型帶來的顛覆性創(chuàng)新機會,AI+時代,企業(yè)應如何把握先機,實現(xiàn)跨越式發(fā)展?

4月23日“WAIC Circle·AI預見生態(tài)論壇”上,復旦大學管理學院教授、博導,復旦大學智慧城市研究中心主任凌鴻教授進行主題為《AI大模型的底層思考和發(fā)展趨勢:AI+時代,顛覆性創(chuàng)新機會在哪里?》的分享,以下內(nèi)容整理自凌鴻教授演講實錄。

精彩觀點

● 什么是人工智能時代?首先,要理解什么叫智能。我的理解是,智能是系統(tǒng)或個體能夠?qū)Νh(huán)境做出恰當反饋的能力。

● AI大模型的底層邏輯就是神經(jīng)網(wǎng)絡。數(shù)據(jù)是神經(jīng)網(wǎng)絡非常重要的要素,數(shù)據(jù)越多它學得越好,反饋越好。

● 大家都在說人工智能三大要素——算法、算力、數(shù)據(jù),其實在這三大要素中間,假如談到應用的話,必須加上另外一個要素——目標,而且目標比其它三個都重要。

● 人工智能不是人類智能,要讓機器做機器擅長的事情,人類做人類擅長的事情。

01、智能時代來臨

春節(jié)期間Sora出現(xiàn),我們可以看到,它最大的三個特點是文生視頻、多景切換和世界模型。

● 文生視頻。其中“文”非常關鍵,“文”是我們在人文交流過程中間最規(guī)范的一種交流方式。假如沒有這樣的規(guī)范,生成視頻很難。因為當我們要描述一個視頻時,可能需要有大量的信息。那這些信息從哪來?今天AIGC需要通過理解自然語言來產(chǎn)生內(nèi)容,而理解首先需要提供準確的表達,因此“文”變得很重要。

● 多景切換,即不同角度所看到的畫面準確對應。比如說,當我看到你的時候,可能這里有一個話筒。當我換一個角度看另一邊,話筒還是在那里。

● 世界模型。我們看到的世界是真實的世界,它其實不用叫模型,就是真實的。但當我們把它虛擬化、數(shù)字化之后,就變成了一個模型。那這個模型能不能表達我們的現(xiàn)實世界?我覺得現(xiàn)在還不能,正在努力。

了解了這些之后,我用ChatGPT產(chǎn)生了一個關于Sora的介紹,它幫我進行了簡單的匯總。但是大家有沒有發(fā)現(xiàn),假如你再去問ChatGPT同樣的問題,它的回答就變了,甚至永遠也給不出同樣的答案了。這是為什么?因為它本身就是大模型在模擬人性的東西,而恰恰人性很有可能是不確定性的東西。就像在沒有工具的輔助下,我不可能再完全相同地進行一次今天的演講,而這恰恰就是人。所以假如我們用大模型、人工智能來模擬人,這一點是必須要做到的,這就是它的底層邏輯。

這里是我羅列的從2010年開始每年的一個熱門詞,大家可以看到在整個的十年過程中,AI不是今天才剛剛出現(xiàn)的,它出現(xiàn)了很多次。

第一次人工智能出現(xiàn)是在2011年,當時有一個叫沃森的計算機,在美國的智力競猜節(jié)目中獲勝,同時擊敗兩位冠軍選手,碾壓人類。它聽得懂人話,能回答問題,由此引發(fā)了之后的人工智能大熱。這場人工智能熱導致知識圖譜在人工智能中間蓬勃發(fā)展。沃森也因能夠回答人類大量的問題變成了一個專家,成為醫(yī)生,進入醫(yī)療領域。近幾年因使用成本過高而正式退役。

第二次人工智能熱門出現(xiàn)在2017年。這次熱門出現(xiàn)是因為在2016年的一場圍棋大戰(zhàn)中,AlphaGo戰(zhàn)勝了韓國的圍棋頂尖高手李世石,讓大家看到了人工智能的潛力。雖然人們漸漸遺忘了AlphaGo,但其實AlphaGo帶來的影響到目前為止仍在影響我們。

第三次人工智能熱門就是在2023年了。大家都知道2022年的十月份出現(xiàn)了ChatGPT,我想不論是誰,當你第一次使用它,一定會感到驚訝,驚訝到不可思議。因為一個機器居然能回答的像人一模一樣,而且讓你感覺很舒服。那么這次的人工智能熱門能持續(xù)多久,會不會像前兩次一樣,過了幾年以后被大家漸漸遺忘呢?我們現(xiàn)在并不知道。

接著,我們來看看究竟怎么來理解人工智能。今天我們已經(jīng)進入到智能時代,那么什么是人工智能時代?首先,要理解什么叫智能,我的理解是,智能是系統(tǒng)或個體能夠?qū)Νh(huán)境做出恰當反饋的能力。

ChatGPT、Sora出現(xiàn)之后,我們感覺人工智能的能力好像不僅僅是回答問題、下棋、對話、畫圖,甚至生成視頻,它好像是萬能的,可以做任何事情,就給它命名為通用人工智能(AGI)。我認為,這里的通用人工智能是指它在某些方面的能力可能達到了“我想用它,它都能做”的那種感覺。

02、AI大模型的底層邏輯

在以上理解的基礎上,我們再來看看智能體的結(jié)構。

首先,智能體對環(huán)境要做出反饋的話,是環(huán)境要給它一個輸入。所以需要先有個輸入,輸入之后,智能體會在它得到輸入的信號后,給出及時的反饋,這里稱之為反射,即我們平時所說的條件反射。這種反射實際上是不經(jīng)過大腦的,我們可以把它認為是一種人的本能,人的本能自然而然就會對環(huán)境做出反應,而不是通過智能。然而,對環(huán)境做出反饋,其實不是大模型的擅長,因為它沒有條件反射,它沒有本能。假如按照這樣的邏輯,今天的大模型將永遠達不到我們?nèi)祟惖闹腔?,因為人的智慧中間最根本的、最基礎的是本能的反應、本能的反饋。

接著,吸收大量的環(huán)境數(shù)據(jù),感知到越來越多后,將人類天然的分析、邏輯歸納、聚類的能力加到分析中,分析之后,就形成了一種模型。模型是什么?模型就是我們認識世界的一種規(guī)律。有了規(guī)律的認識之后,當外界有一個條件的輸入,模型根據(jù)規(guī)律就能做出預判。那為什么要預判?因為要對環(huán)境做出更合理、恰當?shù)姆答?,這就是智能化。

按照這樣的結(jié)構,我們會發(fā)現(xiàn),它分為兩部分。模型部分就是大模型今天在做的事情,對環(huán)境做出本能反饋的部分是機器、智能設備或者機器人在做的事情。這兩部分要結(jié)合,結(jié)合以后,就創(chuàng)造了今天的另外一個人工智能的話題——具身智能。這樣的結(jié)合可能是真正地把這個整體整合起來。

然后,在此之前,又存在著我們的智能最終是由什么決定的?在哲學上有兩種決定人的智能:決定論和自由意志論。也就是我們這個社會是什么樣的一個社會,是確定的還是不確定的?假如按照科學的定義,認為任何事物之間一定有規(guī)律,存在固定的規(guī)則,按照這樣的規(guī)則,我們的世界就是確定的,即決定論。但是生活環(huán)境之下,大家并不這樣認為,都覺得好像世界由我決定,努力了就會成功,即自由意志論。這兩種不同的觀點相互矛盾,所以我們可能先要解決一個問題,這個世界或智能體是決定論還是自由意志論?這就是今天ChatGPT或者大模型給我們帶來的一個挑戰(zhàn)。

今天的人工智能有四種能力:感知能力、分析能力、預判能力和執(zhí)行能力。

● 感知能力,接收并處理外界信息的能力,如視覺、聽覺、觸覺等。但今天的人工智能感知與人類的感知相比,我覺得還差第六感知。

● 分析能力,識別數(shù)據(jù)及關系,進而理解其本質(zhì)和運作規(guī)律的能力。分析能力取決于所獲得的數(shù)據(jù),如果數(shù)據(jù)不完整,那它所理解的規(guī)律一定是欠缺的。

● 預判能力,對事物或環(huán)境做出預判的能力。預判就是形成了模型,對環(huán)境進行預判。但是今天的大模型因為獲得的數(shù)據(jù)不完整,所以預判能力總是有點欠缺。

● 執(zhí)行能力,轉(zhuǎn)化為實際行動能力。實際行動能力相對來說我們比較容易接受。因為它所謂對環(huán)境的影響是對人的影響,人的容錯能力特別強,只要我覺得它合適就合適,沒有苛求。今天的大模型,它掛了一個非常重要的特點叫chat,它沒有說是專家、科學,只是聊天,只要能聊起來就行。當然它也在盡量做到科學,這便是目前的現(xiàn)狀。

那么,AI大模型的背后是什么?底層邏輯是什么?怎么做到的?

AI大模型的底層邏輯就是神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡就是模擬人的大腦的神經(jīng),人的大腦里面有大量的神經(jīng)元,每個神經(jīng)元都會根據(jù)外界不同的信號及時做出反饋。神經(jīng)元之間相互影響,從最初感知到信號的神經(jīng)元,做出反應給到另一部分神經(jīng)元,最后由行動的神經(jīng)元做出恰當?shù)姆答?,這就是整個大腦的過程。

今天人工智能已經(jīng)開始用人的神經(jīng)元、大腦的神經(jīng)元網(wǎng)絡來構造神經(jīng)網(wǎng)絡算法。這個算法有輸入,中間有神經(jīng)元,神經(jīng)元之間彼此影響,影響到最后有輸出的神經(jīng)元,并要求這個輸出的神經(jīng)元進行恰當?shù)姆答仭K惴ㄗ龊弥?,接下來就是判斷什么叫恰當?shù)姆答?,當反饋不對時,這些神經(jīng)元就會調(diào)整它的功能,直到正確為止。這就是通過神經(jīng)元來訓練,訓練之后,一旦神經(jīng)元的功能固定,就形成了模型,這就是基本的神經(jīng)網(wǎng)絡。

人工智能也因為有了神經(jīng)元,學習的方法發(fā)生了變化。從早期分類、回歸的監(jiān)督學習,聚類、降維的非監(jiān)督學習,最優(yōu)行動策略的強化學習,到今天神經(jīng)網(wǎng)絡抽象特征的深度學習。

而深度學習的方法取決于什么?它的核心是數(shù)據(jù),輸入有數(shù)據(jù),輸出有數(shù)據(jù)。所以數(shù)據(jù)是神經(jīng)網(wǎng)絡非常重要的要素,數(shù)據(jù)越多它學得越好,反饋越好。在這里我們發(fā)現(xiàn),原來的小數(shù)據(jù)訓練適合于監(jiān)督學習、非監(jiān)督學習、強化學習,數(shù)據(jù)太多沒有意義。但是對于深度學習來說,數(shù)據(jù)越多越好,量變引起質(zhì)變,當數(shù)據(jù)足夠多,多到我們無法想象,那它產(chǎn)生的效果也是無法想象的,已經(jīng)類似于人類的思考,所以就產(chǎn)生了GPT模型。

GPT模型簡單來理解,其實就是在模擬我們的大腦。它分為三部分。第一部分是數(shù)據(jù),用數(shù)據(jù)來進行訓練。第二部分是Transformer,用大量數(shù)據(jù)訓練形成模型,相當于人類的大腦。第三部分是反饋,在與外界交流時,得到任務,理解后給出反饋。這樣的模型最早是解決語言類問題的。因為人類的對話之間是順序的、串行的,所以GPT模型也是按順序、串行的方式來訓練的。

到了視頻,它是通過圖片疊加的,是一個三維的信號,那如何去理解三維的信號呢?OpenAI用了這樣一種方法,它把圖形疊加起來形成視頻,然后分成一個個小塊,然后把這些小塊按照順序連接起來,變成串行的方式,這時GPT模型就派上用處了,它通過大量數(shù)據(jù)輸入訓練出今天的視頻模型Sora。

03、人工智能能做什么?

在理解了大模型的底層邏輯之后,我們來看看Sora給我們帶來的影響。

● AIGC。不僅僅是文生文、文生圖,今天已經(jīng)到了文生視頻。這里的通用人工智能是指模型具有多種能力,并不是它真的能代替人類。

● AGI(通用人工智能)。多場景、多任務、多模態(tài),用Sora這種大模型來幫助我們做各種各樣的事情。

● 視頻生成模型作為世界的模擬器。這一點的實現(xiàn)很難,但是給我們帶來了一個想象。在模型理解世界的過程中,最底層的是需要觀察更多的數(shù)據(jù),理解更多的數(shù)據(jù),然后找出底層的物理特性。

● 以前不相信是真的,現(xiàn)在不相信是假的。為什么?因為它模擬得太真實了,表面上來看沒有任何差錯。

在應用層面,Sora也帶來一些影響。

● 改變了視頻制作的流程,視頻制作變得更簡單,輸入文字通過多次產(chǎn)生得到好的結(jié)果,提高內(nèi)容創(chuàng)作的效率。這其中關鍵的不是簡單地產(chǎn)生視頻的能力,而是選擇視頻的能力。

● 擴散Transformer模型能夠處理不同分辨率、持續(xù)時間和縱橫比的視頻,為影視制作提供新的可能性。

● 廣告、游戲、教育和新聞等行業(yè)也可能受到Sora的影響,改變工作流程,提高效率。

當然,Sora也有它的局限。第一個是擴散模型(圖片產(chǎn)生新的圖片的一種技術)加上Transformer模型的架構,會導致越模糊越有優(yōu)勢,因此它在那些創(chuàng)新的、藝術的領域更有優(yōu)勢。第二個是模擬復雜物理世界的精確性不夠。第三個是邏輯的連貫性不夠,可能會出現(xiàn)幻覺。

那么在這樣的大背景下,我們建議大家盡早地學會使用Sora這個工具,因為它是一種完全創(chuàng)新的工具,而這種創(chuàng)新需要你給它一個合理的刺激,才能做出創(chuàng)新,所以未來會不會問問題變得非常重要。同時需要通過不斷嘗試來發(fā)現(xiàn)它在某些方面的用處和價值,用來解決問題。

Sora的應用影響

1、 影視生產(chǎn)的壁壘和“專業(yè)性”是否會被打破?

不會,而且會越來越專業(yè)。以前的專業(yè)是指會畫圖、產(chǎn)生視頻,今天的專業(yè)是會選圖、選視頻,選擇是藝術家的非常難得的專業(yè)水平。

2、 心影視的末日&芯影視的黎明?

心影視沒有末日。芯影視的黎明可能會出現(xiàn),也就是AIGC,在未來的視頻中間會產(chǎn)生大量的由計算機系統(tǒng)來產(chǎn)生的視頻。

3、 文生視頻的大模型,能代表“世界模型”?

今天代表不了。

4、 對比計算機圖形?虛擬引擎?空間計算?

對比計算機圖形,它比圖形要更加進一步,叫虛幻的引擎。還沒有進入到空間計算,這是第三步。

5、 是工具還是體驗?

一定是工具,今天還沒有到體驗,所以我們更多地拿它來做工具。

到了這里,我要特別強調(diào)一下,用人工智能來進行應用重要的是什么?今天大家都在說人工智能三大要素——算法、算力、數(shù)據(jù),其實在這三大要素中間,假如談到應用的話,必須加上另外一個要素——目標,而且目標比其它三個都重要。假如目標選錯了,很有可能AI就達不到你想要的效果。

應用首先看目標。假如按照這樣的邏輯,大家就能明白,中國的人工智能跟美國人工智能差多少,我們不要去比其它的,只要看目標。大家想中國的人工智能目標跟美國人工智能目標一樣嗎?當然不一樣,所以它再好不能代替我們,我們必須做自己的目標。那目標背后由什么決定?數(shù)據(jù)。數(shù)據(jù)背后是文化、價值觀和各種各樣的社會現(xiàn)象。

Sora的更深層次意義

1、 AI能表達真實物理世界的宏觀、中觀、微觀、量子力學?

這就是上面所說的,這個世界是決定論還是自由意志論?我想,在微觀層面往往隨機性更大,在宏觀層面其實是確定的。這個世界怎么發(fā)展可能大家都能確定,河流流到哪里去,大家都能確定;但是每一個水滴跑到哪里去,就不知道了。所以今天的大模型在大趨勢上是確定的,在小的方面它做了一些隨機。

2、 神經(jīng)網(wǎng)絡能接近人類思維嗎?

人的思維我們今天理解的是神經(jīng)網(wǎng)絡,用算法來模擬,那會不會人的思維就是這樣?我感覺不是。所以下一代的人工智能可能要有新科學、新邏輯的產(chǎn)生。

3、 AIGC有企圖和目的嗎?人類的智能有企圖和目的嗎?

今天的ChatGPT、Sora,它們都沒有目標,也就是沒有意識。既然沒有目標,沒有意識,要能達到人類的目標和意識可能很難,這是我的進一步判斷。

4、 AIGC創(chuàng)造的是形還是意?

AIGC創(chuàng)造的更多的是形,而不是意。

5、 人類和AI是你死我活的關系?

人類和人工智能不是你死我活的關系,它是能輔助我們的。人工智能實際上是一種新的工具。在人類的發(fā)展過程中間,我們要借助人工智能走向更好的未來。

那應該如何來用好AIGC工具?

對個人來說,第一,選工具比選版本更重要。第二,想問題比解決問題重要,選擇能力比生產(chǎn)能力重要。第三,理解業(yè)務本質(zhì)比完成業(yè)務重要。

對組織來說,第一,鼓勵員工使用AI,獎勵創(chuàng)新者。第二,改變工作流程。第三,形成獨立團隊,讓團隊理解如何創(chuàng)造新的標準化的AI工作流程。第四,按照部門提要求。第五,對于傳統(tǒng)型企業(yè)而言,改變理念是當務之急,系統(tǒng)性地推廣和學習是必要的。

最后,我想強調(diào),在人工智能時代的一種理念——人工智能不是人類智能,要讓機器做機器擅長的事情,人類做人類擅長的事情。

(來源:世界人工智能大會)

標簽:世界人工智能大會 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]