AI縱橫論 | AI時代，顛覆性創(chuàng)新機會在哪里?

ainet.cn 2024年05月14日

復旦大學管理學院教授、博導，復旦大學智慧城市研究中心主任凌鴻教授在“WAIC Circle·AI預見生態(tài)論壇”上作主旨演講

引言

在這個充滿變革與創(chuàng)新的時代，人工智能浪潮席卷而來，AI大模型成為引領行業(yè)發(fā)展的重要引擎，孕育催生未來產業(yè)新模式、新業(yè)態(tài)。AI大模型的底層邏輯是什么?面對AI大模型帶來的顛覆性創(chuàng)新機會，AI+時代，企業(yè)應如何把握先機，實現(xiàn)跨越式發(fā)展?

4月23日“WAIC Circle·AI預見生態(tài)論壇”上，復旦大學管理學院教授、博導，復旦大學智慧城市研究中心主任凌鴻教授進行主題為《AI大模型的底層思考和發(fā)展趨勢：AI+時代，顛覆性創(chuàng)新機會在哪里?》的分享，以下內容整理自凌鴻教授演講實錄。

精彩觀點

● 什么是人工智能時代?首先，要理解什么叫智能。我的理解是，智能是系統(tǒng)或個體能夠對環(huán)境做出恰當反饋的能力。

● AI大模型的底層邏輯就是神經(jīng)網(wǎng)絡。數(shù)據(jù)是神經(jīng)網(wǎng)絡非常重要的要素，數(shù)據(jù)越多它學得越好，反饋越好。

● 大家都在說人工智能三大要素——算法、算力、數(shù)據(jù)，其實在這三大要素中間，假如談到應用的話，必須加上另外一個要素——目標，而且目標比其它三個都重要。

● 人工智能不是人類智能，要讓機器做機器擅長的事情，人類做人類擅長的事情。

01、智能時代來臨

春節(jié)期間Sora出現(xiàn)，我們可以看到，它最大的三個特點是文生視頻、多景切換和世界模型。

● 文生視頻。其中“文”非常關鍵，“文”是我們在人文交流過程中間最規(guī)范的一種交流方式。假如沒有這樣的規(guī)范，生成視頻很難。因為當我們要描述一個視頻時，可能需要有大量的信息。那這些信息從哪來?今天AIGC需要通過理解自然語言來產生內容，而理解首先需要提供準確的表達，因此“文”變得很重要。

● 多景切換，即不同角度所看到的畫面準確對應。比如說，當我看到你的時候，可能這里有一個話筒。當我換一個角度看另一邊，話筒還是在那里。

● 世界模型。我們看到的世界是真實的世界，它其實不用叫模型，就是真實的。但當我們把它虛擬化、數(shù)字化之后，就變成了一個模型。那這個模型能不能表達我們的現(xiàn)實世界?我覺得現(xiàn)在還不能，正在努力。

了解了這些之后，我用ChatGPT產生了一個關于Sora的介紹，它幫我進行了簡單的匯總。但是大家有沒有發(fā)現(xiàn)，假如你再去問ChatGPT同樣的問題，它的回答就變了，甚至永遠也給不出同樣的答案了。這是為什么?因為它本身就是大模型在模擬人性的東西，而恰恰人性很有可能是不確定性的東西。就像在沒有工具的輔助下，我不可能再完全相同地進行一次今天的演講，而這恰恰就是人。所以假如我們用大模型、人工智能來模擬人，這一點是必須要做到的，這就是它的底層邏輯。

這里是我羅列的從2010年開始每年的一個熱門詞，大家可以看到在整個的十年過程中，AI不是今天才剛剛出現(xiàn)的，它出現(xiàn)了很多次。

第一次人工智能出現(xiàn)是在2011年，當時有一個叫沃森的計算機，在美國的智力競猜節(jié)目中獲勝，同時擊敗兩位冠軍選手，碾壓人類。它聽得懂人話，能回答問題，由此引發(fā)了之后的人工智能大熱。這場人工智能熱導致知識圖譜在人工智能中間蓬勃發(fā)展。沃森也因能夠回答人類大量的問題變成了一個專家，成為醫(yī)生，進入醫(yī)療領域。近幾年因使用成本過高而正式退役。

第二次人工智能熱門出現(xiàn)在2017年。這次熱門出現(xiàn)是因為在2016年的一場圍棋大戰(zhàn)中，AlphaGo戰(zhàn)勝了韓國的圍棋頂尖高手李世石，讓大家看到了人工智能的潛力。雖然人們漸漸遺忘了AlphaGo，但其實AlphaGo帶來的影響到目前為止仍在影響我們。

第三次人工智能熱門就是在2023年了。大家都知道2022年的十月份出現(xiàn)了ChatGPT，我想不論是誰，當你第一次使用它，一定會感到驚訝，驚訝到不可思議。因為一個機器居然能回答的像人一模一樣，而且讓你感覺很舒服。那么這次的人工智能熱門能持續(xù)多久，會不會像前兩次一樣，過了幾年以后被大家漸漸遺忘呢?我們現(xiàn)在并不知道。

接著，我們來看看究竟怎么來理解人工智能。今天我們已經(jīng)進入到智能時代，那么什么是人工智能時代?首先，要理解什么叫智能，我的理解是，智能是系統(tǒng)或個體能夠對環(huán)境做出恰當反饋的能力。

ChatGPT、Sora出現(xiàn)之后，我們感覺人工智能的能力好像不僅僅是回答問題、下棋、對話、畫圖，甚至生成視頻，它好像是萬能的，可以做任何事情，就給它命名為通用人工智能(AGI)。我認為，這里的通用人工智能是指它在某些方面的能力可能達到了“我想用它，它都能做”的那種感覺。

02、AI大模型的底層邏輯

在以上理解的基礎上，我們再來看看智能體的結構。

首先，智能體對環(huán)境要做出反饋的話，是環(huán)境要給它一個輸入。所以需要先有個輸入，輸入之后，智能體會在它得到輸入的信號后，給出及時的反饋，這里稱之為反射，即我們平時所說的條件反射。這種反射實際上是不經(jīng)過大腦的，我們可以把它認為是一種人的本能，人的本能自然而然就會對環(huán)境做出反應，而不是通過智能。然而，對環(huán)境做出反饋，其實不是大模型的擅長，因為它沒有條件反射，它沒有本能。假如按照這樣的邏輯，今天的大模型將永遠達不到我們人類的智慧，因為人的智慧中間最根本的、最基礎的是本能的反應、本能的反饋。

接著，吸收大量的環(huán)境數(shù)據(jù)，感知到越來越多后，將人類天然的分析、邏輯歸納、聚類的能力加到分析中，分析之后，就形成了一種模型。模型是什么?模型就是我們認識世界的一種規(guī)律。有了規(guī)律的認識之后，當外界有一個條件的輸入，模型根據(jù)規(guī)律就能做出預判。那為什么要預判?因為要對環(huán)境做出更合理、恰當?shù)姆答?，這就是智能化。

按照這樣的結構，我們會發(fā)現(xiàn)，它分為兩部分。模型部分就是大模型今天在做的事情，對環(huán)境做出本能反饋的部分是機器、智能設備或者機器人在做的事情。這兩部分要結合，結合以后，就創(chuàng)造了今天的另外一個人工智能的話題——具身智能。這樣的結合可能是真正地把這個整體整合起來。

然后，在此之前，又存在著我們的智能最終是由什么決定的?在哲學上有兩種決定人的智能：決定論和自由意志論。也就是我們這個社會是什么樣的一個社會，是確定的還是不確定的?假如按照科學的定義，認為任何事物之間一定有規(guī)律，存在固定的規(guī)則，按照這樣的規(guī)則，我們的世界就是確定的，即決定論。但是生活環(huán)境之下，大家并不這樣認為，都覺得好像世界由我決定，努力了就會成功，即自由意志論。這兩種不同的觀點相互矛盾，所以我們可能先要解決一個問題，這個世界或智能體是決定論還是自由意志論?這就是今天ChatGPT或者大模型給我們帶來的一個挑戰(zhàn)。

今天的人工智能有四種能力：感知能力、分析能力、預判能力和執(zhí)行能力。

● 感知能力，接收并處理外界信息的能力，如視覺、聽覺、觸覺等。但今天的人工智能感知與人類的感知相比，我覺得還差第六感知。

● 分析能力，識別數(shù)據(jù)及關系，進而理解其本質和運作規(guī)律的能力。分析能力取決于所獲得的數(shù)據(jù)，如果數(shù)據(jù)不完整，那它所理解的規(guī)律一定是欠缺的。

● 預判能力，對事物或環(huán)境做出預判的能力。預判就是形成了模型，對環(huán)境進行預判。但是今天的大模型因為獲得的數(shù)據(jù)不完整，所以預判能力總是有點欠缺。

● 執(zhí)行能力，轉化為實際行動能力。實際行動能力相對來說我們比較容易接受。因為它所謂對環(huán)境的影響是對人的影響，人的容錯能力特別強，只要我覺得它合適就合適，沒有苛求。今天的大模型，它掛了一個非常重要的特點叫chat，它沒有說是專家、科學，只是聊天，只要能聊起來就行。當然它也在盡量做到科學，這便是目前的現(xiàn)狀。

那么，AI大模型的背后是什么?底層邏輯是什么?怎么做到的?

AI大模型的底層邏輯就是神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡就是模擬人的大腦的神經(jīng)，人的大腦里面有大量的神經(jīng)元，每個神經(jīng)元都會根據(jù)外界不同的信號及時做出反饋。神經(jīng)元之間相互影響，從最初感知到信號的神經(jīng)元，做出反應給到另一部分神經(jīng)元，最后由行動的神經(jīng)元做出恰當?shù)姆答仯@就是整個大腦的過程。

今天人工智能已經(jīng)開始用人的神經(jīng)元、大腦的神經(jīng)元網(wǎng)絡來構造神經(jīng)網(wǎng)絡算法。這個算法有輸入，中間有神經(jīng)元，神經(jīng)元之間彼此影響，影響到最后有輸出的神經(jīng)元，并要求這個輸出的神經(jīng)元進行恰當?shù)姆答?。算法做好之后，接下來就是判斷什么叫恰當?shù)姆答?，當反饋不對時，這些神經(jīng)元就會調整它的功能，直到正確為止。這就是通過神經(jīng)元來訓練，訓練之后，一旦神經(jīng)元的功能固定，就形成了模型，這就是基本的神經(jīng)網(wǎng)絡。

人工智能也因為有了神經(jīng)元，學習的方法發(fā)生了變化。從早期分類、回歸的監(jiān)督學習，聚類、降維的非監(jiān)督學習，最優(yōu)行動策略的強化學習，到今天神經(jīng)網(wǎng)絡抽象特征的深度學習。

而深度學習的方法取決于什么?它的核心是數(shù)據(jù)，輸入有數(shù)據(jù)，輸出有數(shù)據(jù)。所以數(shù)據(jù)是神經(jīng)網(wǎng)絡非常重要的要素，數(shù)據(jù)越多它學得越好，反饋越好。在這里我們發(fā)現(xiàn)，原來的小數(shù)據(jù)訓練適合于監(jiān)督學習、非監(jiān)督學習、強化學習，數(shù)據(jù)太多沒有意義。但是對于深度學習來說，數(shù)據(jù)越多越好，量變引起質變，當數(shù)據(jù)足夠多，多到我們無法想象，那它產生的效果也是無法想象的，已經(jīng)類似于人類的思考，所以就產生了GPT模型。

GPT模型簡單來理解，其實就是在模擬我們的大腦。它分為三部分。第一部分是數(shù)據(jù)，用數(shù)據(jù)來進行訓練。第二部分是Transformer，用大量數(shù)據(jù)訓練形成模型，相當于人類的大腦。第三部分是反饋，在與外界交流時，得到任務，理解后給出反饋。這樣的模型最早是解決語言類問題的。因為人類的對話之間是順序的、串行的，所以GPT模型也是按順序、串行的方式來訓練的。

到了視頻，它是通過圖片疊加的，是一個三維的信號，那如何去理解三維的信號呢?OpenAI用了這樣一種方法，它把圖形疊加起來形成視頻，然后分成一個個小塊，然后把這些小塊按照順序連接起來，變成串行的方式，這時GPT模型就派上用處了，它通過大量數(shù)據(jù)輸入訓練出今天的視頻模型Sora。

03、人工智能能做什么?

在理解了大模型的底層邏輯之后，我們來看看Sora給我們帶來的影響。

● AIGC。不僅僅是文生文、文生圖，今天已經(jīng)到了文生視頻。這里的通用人工智能是指模型具有多種能力，并不是它真的能代替人類。

● AGI(通用人工智能)。多場景、多任務、多模態(tài)，用Sora這種大模型來幫助我們做各種各樣的事情。

● 視頻生成模型作為世界的模擬器。這一點的實現(xiàn)很難，但是給我們帶來了一個想象。在模型理解世界的過程中，最底層的是需要觀察更多的數(shù)據(jù)，理解更多的數(shù)據(jù)，然后找出底層的物理特性。

● 以前不相信是真的，現(xiàn)在不相信是假的。為什么?因為它模擬得太真實了，表面上來看沒有任何差錯。

在應用層面，Sora也帶來一些影響。

● 改變了視頻制作的流程，視頻制作變得更簡單，輸入文字通過多次產生得到好的結果，提高內容創(chuàng)作的效率。這其中關鍵的不是簡單地產生視頻的能力，而是選擇視頻的能力。

● 擴散Transformer模型能夠處理不同分辨率、持續(xù)時間和縱橫比的視頻，為影視制作提供新的可能性。

● 廣告、游戲、教育和新聞等行業(yè)也可能受到Sora的影響，改變工作流程，提高效率。

當然，Sora也有它的局限。第一個是擴散模型(圖片產生新的圖片的一種技術)加上Transformer模型的架構，會導致越模糊越有優(yōu)勢，因此它在那些創(chuàng)新的、藝術的領域更有優(yōu)勢。第二個是模擬復雜物理世界的精確性不夠。第三個是邏輯的連貫性不夠，可能會出現(xiàn)幻覺。

那么在這樣的大背景下，我們建議大家盡早地學會使用Sora這個工具，因為它是一種完全創(chuàng)新的工具，而這種創(chuàng)新需要你給它一個合理的刺激，才能做出創(chuàng)新，所以未來會不會問問題變得非常重要。同時需要通過不斷嘗試來發(fā)現(xiàn)它在某些方面的用處和價值，用來解決問題。

Sora的應用影響

1、影視生產的壁壘和“專業(yè)性”是否會被打破?

不會，而且會越來越專業(yè)。以前的專業(yè)是指會畫圖、產生視頻，今天的專業(yè)是會選圖、選視頻，選擇是藝術家的非常難得的專業(yè)水平。

2、心影視的末日&芯影視的黎明?

心影視沒有末日。芯影視的黎明可能會出現(xiàn)，也就是AIGC，在未來的視頻中間會產生大量的由計算機系統(tǒng)來產生的視頻。

3、文生視頻的大模型，能代表“世界模型”?

今天代表不了。

4、對比計算機圖形?虛擬引擎?空間計算?

對比計算機圖形，它比圖形要更加進一步，叫虛幻的引擎。還沒有進入到空間計算，這是第三步。

5、是工具還是體驗?

一定是工具，今天還沒有到體驗，所以我們更多地拿它來做工具。

到了這里，我要特別強調一下，用人工智能來進行應用重要的是什么?今天大家都在說人工智能三大要素——算法、算力、數(shù)據(jù)，其實在這三大要素中間，假如談到應用的話，必須加上另外一個要素——目標，而且目標比其它三個都重要。假如目標選錯了，很有可能AI就達不到你想要的效果。

應用首先看目標。假如按照這樣的邏輯，大家就能明白，中國的人工智能跟美國人工智能差多少，我們不要去比其它的，只要看目標。大家想中國的人工智能目標跟美國人工智能目標一樣嗎?當然不一樣，所以它再好不能代替我們，我們必須做自己的目標。那目標背后由什么決定?數(shù)據(jù)。數(shù)據(jù)背后是文化、價值觀和各種各樣的社會現(xiàn)象。