siemens x
產(chǎn)業(yè)政策

杰弗里·辛頓:數(shù)字智能終將戰(zhàn)勝生物智能

2025China.cn   2024年03月25日

關(guān)于人工智能與人類(lèi)的未來(lái)是我們每個(gè)人都要面對(duì)和思考的問(wèn)題。

近日,人工智能教父杰弗里·辛頓教授在牛津大學(xué)的年度Romanes講座上發(fā)表公開(kāi)演講,并提出了一個(gè)挑戰(zhàn)性問(wèn)題:“數(shù)字智能將取代生物智能嗎?”,他的回答幾乎是肯定的。

演講中,辛頓從哲學(xué)的角度對(duì)AI的未來(lái)走向提出了一些嚴(yán)肅且重要的思考,他強(qiáng)調(diào)了在人工智能發(fā)展的同時(shí),我們需要考慮倫理、社會(huì)和經(jīng)濟(jì)等多方面的影響,確保技術(shù)的進(jìn)步能夠造福人類(lèi)。

為了讓大家更好地了解辛頓的觀點(diǎn),本文將辛頓此次演講的精彩內(nèi)容進(jìn)行重構(gòu)呈現(xiàn)。

精彩觀點(diǎn):

我開(kāi)始思考我所稱(chēng)之為“有限計(jì)算”的概念,即利用非常低功耗的模擬計(jì)算來(lái)消除硬件和軟件之間的差別。

過(guò)去我一直認(rèn)為我們離超級(jí)智能還有很長(zhǎng)很長(zhǎng)的路要走,最近我突然開(kāi)始相信我們現(xiàn)在擁有的數(shù)字模型已經(jīng)非常接近于大腦的水平,并且將變得比大腦更好。

大模型才是人類(lèi)認(rèn)識(shí)自己的最佳模型。

大語(yǔ)言模型的錯(cuò)誤不是“幻覺(jué)”,更應(yīng)被稱(chēng)為“虛構(gòu)”。

在未來(lái)的20年內(nèi),有50%的概率,數(shù)字計(jì)算會(huì)比我們更聰明,很可能在未來(lái)的一百年內(nèi),它會(huì)比我們?nèi)祟?lèi)聰明得多。

01、人工智能的兩大研究范式

自20世紀(jì)50年代以來(lái),關(guān)于人工智能,有兩種研究范式。

邏輯啟發(fā)式方法認(rèn)為智能的本質(zhì)是推理,這是通過(guò)使用符號(hào)規(guī)則來(lái)操作符號(hào)表達(dá)式來(lái)實(shí)現(xiàn)的。他們認(rèn)為人工智能不要急著去學(xué)習(xí),當(dāng)我還是個(gè)學(xué)生的時(shí)候,有人告訴我不要研究學(xué)習(xí),在我們理解了如何表示事物之后,學(xué)習(xí)就很簡(jiǎn)單了。

生物啟發(fā)式方法則大不相同,它認(rèn)為智能的本質(zhì)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中的連接強(qiáng)度,不用急著去推理,在學(xué)習(xí)完成后,推理自然就解決了。

現(xiàn)在我將解釋什么是人工神經(jīng)網(wǎng)絡(luò)。一種簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)有輸入神經(jīng)元和輸出神經(jīng)元。以圖像識(shí)別網(wǎng)絡(luò)為例,輸入神經(jīng)元可以代表圖像中像素的灰度值,輸出神經(jīng)元可以代表圖像中物體的類(lèi)別,比如狗或貓。然后就是中間層的神經(jīng)元,有時(shí)被稱(chēng)為隱藏神經(jīng)元,它們學(xué)會(huì)檢測(cè)和識(shí)別這些事物相關(guān)的特征。

比如可能有一層神經(jīng)元,能識(shí)別兩條邊以細(xì)角度相交可能是一只鳥(niǎo)的喙,也可能不是,或者一些邊形成一個(gè)小圓圈。然后可能有一層神經(jīng)元,能識(shí)別這可能是一只鳥(niǎo)的頭部。最后,可能有一個(gè)輸出神經(jīng)元,識(shí)別出整體很可能是一只鳥(niǎo)。最后,可能會(huì)有一層輸出神經(jīng)元說(shuō),如果我找到鳥(niǎo)的頭部、鳥(niǎo)的腳、鳥(niǎo)的翅膀,那么這很可能是一只鳥(niǎo)。這些就是要學(xué)習(xí)的東西。

神經(jīng)元連接上有權(quán)重值,問(wèn)題是誰(shuí)來(lái)設(shè)定這些權(quán)重?有一種做法顯然是可行的,但需要很長(zhǎng)時(shí)間:你的權(quán)重一開(kāi)始是隨機(jī)的,然后你隨機(jī)挑選一個(gè)權(quán)重,稍微改變它,看看網(wǎng)絡(luò)是否運(yùn)行得更好。

你必須在很多不同的情況下嘗試,以評(píng)估它是否真的有所改善,看看將這個(gè)權(quán)重稍微增加一點(diǎn)或減少一點(diǎn),是否會(huì)有所幫助。如果增加它情況變得更糟,你就減少它,反之亦然。

這就是突變的方法,這種方式在進(jìn)化中是很合理的,因?yàn)閺幕蛐偷奖憩F(xiàn)型的過(guò)程非常復(fù)雜,且充滿了隨機(jī)的外部事件。

但對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),這是瘋狂的。因?yàn)槲覀冊(cè)谏窠?jīng)網(wǎng)絡(luò)中要進(jìn)行大量的計(jì)算。我們不是測(cè)量改變權(quán)重會(huì)如何影響事物,而是測(cè)量實(shí)際效果值和網(wǎng)絡(luò)預(yù)測(cè)值之間的誤差。這就是所謂的反向傳播,也就是你通過(guò)網(wǎng)絡(luò)反向發(fā)送信息,這些信息是關(guān)于你得到的和你想要的之間的差異,以此調(diào)節(jié)網(wǎng)絡(luò)權(quán)重。此時(shí),你要調(diào)整網(wǎng)絡(luò)中的每個(gè)權(quán)重,不管是將其稍微減少還是增加一點(diǎn),目的是為了讓結(jié)果更接近你想要的。這比突變方法更高效,效率是網(wǎng)絡(luò)中權(quán)重的數(shù)量的倍數(shù)。所以如果你的網(wǎng)絡(luò)中有一萬(wàn)億個(gè)權(quán)重,它的效率就是一萬(wàn)億倍。

神經(jīng)網(wǎng)絡(luò)經(jīng)常被用于識(shí)別圖像中的對(duì)象。現(xiàn)在,神經(jīng)網(wǎng)絡(luò)可以針對(duì)一個(gè)圖片,產(chǎn)生一個(gè)對(duì)于圖片的描述作為輸出。多年來(lái),人們嘗試用符號(hào)方法做到這一點(diǎn),但連接近都沒(méi)有,這是一個(gè)困難的任務(wù)。

我們知道生物系統(tǒng)是通過(guò)一系列層次化的特征探測(cè)器來(lái)實(shí)現(xiàn)這一功能的,因此對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行這樣的訓(xùn)練是有意義的。

2012年,我的兩位學(xué)生Ilya Sutskever和Alex Krizhevsky,在我的一點(diǎn)幫助下,展示了可以通過(guò)這種方式制作一個(gè)非常好的神經(jīng)網(wǎng)絡(luò),在有一百萬(wàn)張訓(xùn)練圖片時(shí),可以識(shí)別一千種不同類(lèi)型的對(duì)象。而在那之前,我們沒(méi)有足夠的訓(xùn)練圖像樣本。

Ilya很有遠(yuǎn)見(jiàn),他知道這個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)在ImageNet競(jìng)賽中獲勝。他是對(duì)的,他們贏得相當(dāng)炸裂,他們的神經(jīng)網(wǎng)絡(luò)只有16%的錯(cuò)誤率,而最好的傳統(tǒng)計(jì)算機(jī)視覺(jué)系統(tǒng)的錯(cuò)誤率超過(guò)了25%。

然后,科學(xué)界發(fā)生了一件非常奇怪的事情。通常在科學(xué)界中,如果有兩個(gè)競(jìng)爭(zhēng)的學(xué)派,當(dāng)你取得一點(diǎn)進(jìn)展時(shí),另一個(gè)學(xué)派會(huì)說(shuō)你的成果是垃圾。但在這個(gè)案例中,由于差距足夠大,使得最好的研究者Jitendra Malik和Andrew Zisserman轉(zhuǎn)換了他們的研究方向來(lái)做這個(gè),Andrew還給我發(fā)來(lái)郵件說(shuō),“這太神奇了。”然后改變了他們的研究方向,還做得比我們更好。

02、神經(jīng)網(wǎng)絡(luò)的語(yǔ)言和視覺(jué)奇跡

在語(yǔ)言處理方面,很多堅(jiān)信符號(hào)主義人工智能的研究人員認(rèn)為神經(jīng)網(wǎng)絡(luò)的特征層級(jí)無(wú)法處理語(yǔ)言問(wèn)題。很多語(yǔ)言學(xué)家也持這樣的態(tài)度。

Noam Chomsky曾說(shuō)服他的追隨者相信語(yǔ)言是天賦而非習(xí)得的?;仡檨?lái)看,這種說(shuō)法其實(shí)是完全荒謬的。如果你能說(shuō)服人們說(shuō)一些明顯錯(cuò)誤的話,那么你就把他們變成了你的信徒。我認(rèn)為Chomsky曾經(jīng)做出了驚人的貢獻(xiàn),但他的時(shí)代已經(jīng)過(guò)去了。

所以,一個(gè)沒(méi)有先天知識(shí)的大型神經(jīng)網(wǎng)絡(luò)僅僅通過(guò)觀察數(shù)據(jù)就能實(shí)際學(xué)習(xí)語(yǔ)言的語(yǔ)法和語(yǔ)義,曾被統(tǒng)計(jì)學(xué)家和認(rèn)知科學(xué)家認(rèn)為是完全瘋狂的想法。曾經(jīng)有統(tǒng)計(jì)學(xué)家向我解釋?zhuān)竽P陀?00個(gè)參數(shù)就可以了,訓(xùn)練一百萬(wàn)個(gè)參數(shù)的想法是愚蠢的,但現(xiàn)在,我們正在訓(xùn)練的參數(shù)達(dá)到了一萬(wàn)億個(gè)。

我現(xiàn)在要談?wù)撘幌挛以?985年做的一些工作。那是第一個(gè)用反向傳播訓(xùn)練的語(yǔ)言模型,你完全可以認(rèn)為它是現(xiàn)在這些大模型的祖先。我會(huì)進(jìn)行詳細(xì)地解釋?zhuān)驗(yàn)樗浅P《液?jiǎn)單,你能理解它是如何工作的。一旦你理解了它的工作原理,就能洞察在更大模型中正在發(fā)生的事情。

關(guān)于詞義有兩種非常不同的理論。

一種是結(jié)構(gòu)主義理論,認(rèn)為一個(gè)詞的意義取決于它與其他詞的關(guān)系。符號(hào)人工智能非常相信這種方法。在這種方法中,你會(huì)有一個(gè)關(guān)系圖,其中有單詞的節(jié)點(diǎn)和關(guān)系的弧線,通過(guò)這種方式來(lái)捕捉詞的意義,這個(gè)學(xué)派認(rèn)為必須有一些這樣的結(jié)構(gòu)存在。

第二種理論是心理學(xué)理論,從20世紀(jì)30年代甚至更早之前就在心理學(xué)中存在了,這種理論認(rèn)為,一個(gè)詞的意義是一大堆特征。比如“dog”這個(gè)詞的意義包括它是有生命的,它是一個(gè)捕食者等等。但是他們沒(méi)有說(shuō)特征從哪里來(lái),或者特征到底是什么。

這兩種意義理論聽(tīng)起來(lái)完全不同。我想要向你展示的是如何將這兩種意義理論統(tǒng)一起來(lái)。在1985年,我的一個(gè)簡(jiǎn)單模型做到了這一點(diǎn),它有超過(guò)一千個(gè)權(quán)重。

基本思想是我們學(xué)習(xí)每個(gè)單詞的語(yǔ)義特征以及單詞的特征如何相互作用,以便預(yù)測(cè)下一個(gè)單詞的特征。所以它是下一個(gè)單詞的預(yù)測(cè),就像現(xiàn)在的語(yǔ)言模型在微調(diào)時(shí)所做的一樣。但是最重要的內(nèi)容就是這些特征的交互,并不會(huì)有任何顯式的關(guān)系圖。它是一個(gè)生成模型,知識(shí)存在于你賦予符號(hào)的特征中,以及這些特征的交互中。

這里是兩個(gè)家族譜系的關(guān)系圖,我們來(lái)看看符號(hào)學(xué)派和神經(jīng)網(wǎng)絡(luò)怎么來(lái)處理它們。

你可以用一組三元組來(lái)表達(dá)相同的信息。比如你可以說(shuō)Colin有父親James和Colin有母親Victoria,從中你可以推斷出在這個(gè)美好而簡(jiǎn)單的20世紀(jì)50年代的世界中,James有妻子Victoria。還有其他一些你可以推斷出的東西。問(wèn)題是,如果我只給你一些三元組,你如何得到規(guī)則,符號(hào)人工智能想要做的就是派生出這樣的規(guī)則形式。如果X有母親Y、Y有丈夫Z,那么X有父親Z。

我所做的是,用一個(gè)神經(jīng)網(wǎng)絡(luò),通過(guò)特征交互的方式,讓它能學(xué)習(xí)到相同的信息。對(duì)于那些從不違反的非常離散的規(guī)則,神經(jīng)網(wǎng)絡(luò)可能不是最好的方法。事實(shí)上,符號(hào)學(xué)派的人嘗試用其他方法來(lái)做這件事。但是,如果你不要求規(guī)則總是那么穩(wěn)定和適用,神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)就體現(xiàn)出來(lái)了。

問(wèn)題在于,神經(jīng)網(wǎng)絡(luò)能否通過(guò)反向傳播來(lái)捕捉符號(hào)學(xué)派從規(guī)則中捕獲的知識(shí)?

神經(jīng)網(wǎng)絡(luò)是這樣運(yùn)作的:有一個(gè)代表人的符號(hào)輸入,一個(gè)代表關(guān)系的符號(hào)輸出。這些符號(hào)通過(guò)一些連接轉(zhuǎn)換為一個(gè)特征向量,這些特征是由網(wǎng)絡(luò)學(xué)習(xí)的。所以我們有了一個(gè)人的特征和關(guān)系的特征,這些特征相互作用,預(yù)測(cè)出關(guān)系人的特征,然后找到一個(gè)最匹配該特征的人,這個(gè)人就是要輸出的人。

這個(gè)網(wǎng)絡(luò)有趣的地方在于,它學(xué)到了有用的東西。當(dāng)時(shí)的神經(jīng)元是6個(gè)特征,如今這些向量是300或者1000的長(zhǎng)度。這是在一臺(tái)機(jī)器人完成的,這臺(tái)機(jī)器需要12.5微秒來(lái)進(jìn)行浮點(diǎn)數(shù)乘法,所以它學(xué)會(huì)了像國(guó)籍這樣的特征。比如,你知道第一個(gè)人是英格蘭人,你就知道輸出也會(huì)是英格蘭人,所以國(guó)籍是一個(gè)非常有用的特征。它還學(xué)會(huì)了人的代際特征,通過(guò)關(guān)系它就知道另一個(gè)人所處的世代。

所以它學(xué)習(xí)了領(lǐng)域中所有顯而易見(jiàn)的特征,它學(xué)會(huì)了如何使這些特征相互作用,以便它能夠進(jìn)行輸出。我給它展示了符號(hào)字符串,它創(chuàng)建了這樣的特征,這些特征之間的相互作用可以生成這些符號(hào)字符串,但它并沒(méi)有存儲(chǔ)符號(hào)字符串。就像GPT-4一樣,它不會(huì)在長(zhǎng)期記憶中存儲(chǔ)任何單詞序列單詞,它將它們?nèi)哭D(zhuǎn)化為權(quán)重,從中可以重新生成序列。所以這是一個(gè)特別簡(jiǎn)單的例子,你可以理解它做了什么。

我們今天擁有的大語(yǔ)言模型(LLM),我認(rèn)為它們是微小語(yǔ)言模型的后代,它們有更多的輸入詞,比如一百萬(wàn)個(gè)單詞片段,它們使用更多層的神經(jīng)元,比如幾十層。它們使用更復(fù)雜的相互作用,它們不僅僅是一個(gè)特征影響另一個(gè)特征。它們會(huì)匹配兩個(gè)特征向量,然后如果它們相似,一個(gè)向量會(huì)對(duì)另一個(gè)向量產(chǎn)生很大的影響,但如果它們不同,影響就不大,諸如此類(lèi)。

所以這涉及到更為復(fù)雜的相互作用,但它們遵循的是相同的基本框架,同樣的基本理念,即讓我們將簡(jiǎn)單的字符串轉(zhuǎn)化為單詞片段的特征以及這些特征向量之間的相互作用。這一點(diǎn)在這些模型中是相同的。

要理解它們的工作原理,就困難得多了。許多人,特別是來(lái)自喬姆斯基學(xué)派的人,爭(zhēng)辯說(shuō)它們并不是真正的智能,它們只是一種被美化的“自動(dòng)補(bǔ)全”功能,使用統(tǒng)計(jì)規(guī)律將人創(chuàng)造的文本片段拼貼在一起。

當(dāng)人們說(shuō)它只是自動(dòng)補(bǔ)全時(shí),他們是基于一個(gè)錯(cuò)誤觀念,因?yàn)檫@并不是LLM預(yù)測(cè)下一個(gè)單詞的方式。當(dāng)單詞轉(zhuǎn)化為特征時(shí),它們使這些特征相互作用,從這些特征相互作用中,它們預(yù)測(cè)下一個(gè)單詞的特征。

我想要強(qiáng)調(diào)的是,由于這些數(shù)以百萬(wàn)計(jì)的特征和數(shù)以?xún)|計(jì)的相互作用,LLM是有理解能力的。這是LLM真正做的事情,它們是在用數(shù)據(jù)擬合一個(gè)模型,直到最近,統(tǒng)計(jì)學(xué)家還沒(méi)認(rèn)真思考這種模型。這是一種奇怪的模型,它非常大,它有大量的參數(shù),它試圖通過(guò)特征以及特征如何交互來(lái)理解這些離散符號(hào)串。但它確實(shí)是一個(gè)模型。

有一件事要記住,如果你問(wèn),那么我們?nèi)祟?lèi)是如何理解的呢?大模型是我們關(guān)于理解的最佳模型。所以并不是這些AI系統(tǒng)正在以一種奇怪的方式理解,然后大腦以另一種方式理解,其實(shí)二者是相通的——我們對(duì)大腦如何理解的最好模型,就是通過(guò)特征和特征之間的相互作用來(lái)理解的。最初,我們這個(gè)小型語(yǔ)言模型就是作為人們理解的模型設(shè)計(jì)的。所以,我強(qiáng)烈認(rèn)為:大模型確實(shí)是有理解力的。

現(xiàn)在人們討論的另一個(gè)話題是,GPT-4有“幻覺(jué)”問(wèn)題。對(duì)于語(yǔ)言模型而言,實(shí)際上更應(yīng)該稱(chēng)為“虛構(gòu)”,它們只是編造東西。心理學(xué)家并不怎么說(shuō)這些,因?yàn)樾睦韺W(xué)家知道人們也經(jīng)常編造東西。任何研究記憶的人都知道,從巴特利特在20世紀(jì)30年代開(kāi)始,人們實(shí)際上就像這些大型語(yǔ)言模型一樣,他們只是編造東西。對(duì)我們來(lái)說(shuō),真實(shí)記憶和虛假記憶之間沒(méi)有明確的界線。如果某件事最近發(fā)生的,并且它與你理解的事情相符,你可能會(huì)大致正確地記住它。如果某件事是很久以前發(fā)生的,或者是比較奇怪的事,你不能正確地記住,而且你經(jīng)常會(huì)非常自信地認(rèn)為你的記憶是正確的,但你錯(cuò)了。這很難證明。

有一個(gè)可以證明的例子是John Dean的記憶。John Dean在水門(mén)事件中作證?;仡櫰饋?lái),很明顯他當(dāng)時(shí)是在試圖說(shuō)實(shí)話。但他說(shuō)的很多事情都是錯(cuò)的。他會(huì)混淆誰(shuí)在哪個(gè)會(huì)議上,他會(huì)把某個(gè)人的話歸于其他人,而實(shí)際上并不完全是那樣。他完全混淆了不同的場(chǎng)景。但從錄音中可以看出,他對(duì)白宮正在發(fā)生的事情有所了解。他只是編造內(nèi)容,但是聽(tīng)起來(lái)是合理的,所以他所說(shuō)的是對(duì)他而言聽(tīng)起來(lái)不錯(cuò)的東西。

LLM還可以進(jìn)行推理。我在多倫多有一個(gè)朋友是符號(hào)AI學(xué)派的人,但他非常誠(chéng)實(shí)。所以他對(duì)大模型能夠工作感到困惑,他向我提出了一個(gè)問(wèn)題,我把這個(gè)問(wèn)題變得更難一些,并在GPT-4能上網(wǎng)查東西之前向它提問(wèn),當(dāng)時(shí)它只是一堆在2021年被固定的權(quán)重,所有的知識(shí)都存在特征交互的強(qiáng)度中。

新的問(wèn)題是:“我的所有房間被粉刷成藍(lán)色或白色或黃色,黃色的油漆在一年內(nèi)會(huì)褪色變白。我想讓所有房間在兩年內(nèi)都變成白色。我應(yīng)該做什么,為什么?”朋友認(rèn)為它不會(huì)正確解答。

下面是GPT-4回答的內(nèi)容,它完全說(shuō)對(duì)了。

首先,它說(shuō),假設(shè)藍(lán)色的油漆不會(huì)褪色成白色,也許藍(lán)色的油漆也會(huì)褪色,但因?yàn)辄S色的油漆會(huì)褪色成白色,所以假設(shè)它不會(huì)褪色。那么白色的房間你不需要粉刷,黃色的房間你也不需要粉刷,因?yàn)樗鼈儠?huì)在一年內(nèi)褪色成白色。而藍(lán)色的房間你需要粉刷成白色。有一次我嘗試過(guò),它說(shuō)你需要將藍(lán)色的房間涂成黃色,因?yàn)樗庾R(shí)到它們會(huì)褪成白色。這更像是數(shù)學(xué)家將問(wèn)題簡(jiǎn)化為一個(gè)先前問(wèn)題的解決方法。

03、數(shù)字智能將超越生物智能

最后,我想談?wù)勎以?023年初的一個(gè)頓悟。我一直以為我們離超級(jí)智能還有很長(zhǎng)很長(zhǎng)的路要走,我過(guò)去常告訴人們可能需要50到100年,甚至可能是30到100年。這還很遙遠(yuǎn),我們現(xiàn)在不需要擔(dān)心它。

我還認(rèn)為,讓我們的模型更像大腦會(huì)使它們變得更好。我認(rèn)為大腦比我們現(xiàn)有的人工智能要好得多,如果我們能夠使人工智能更像大腦,比如說(shuō),通過(guò)設(shè)置三個(gè)時(shí)間尺度來(lái)做到這點(diǎn),目前我們擁有的大多數(shù)模型只有兩個(gè)時(shí)間尺度。一個(gè)是權(quán)重變化,速度很慢,另一個(gè)是單詞輸入,速度很快,它改變的是神經(jīng)活動(dòng)。大腦擁有的時(shí)間尺度比這要多,大腦可以快速地變化權(quán)重并將其快速地衰減掉,這可能就是大腦處理大量短期記憶的方式。

而我們的模型中沒(méi)有這一點(diǎn),這是技術(shù)原因?qū)е碌?,這與矩陣和矩陣的乘法運(yùn)算有關(guān)。我仍然相信,如果我們將這些特性融入我們的模型中,它們將變得更好。

但是,由于我在之前兩年所從事的工作,我突然開(kāi)始相信我們現(xiàn)在擁有的數(shù)字模型已經(jīng)非常接近于大腦的水平,并且將變得比大腦更好。

現(xiàn)在我將解釋我為什么相信這一點(diǎn)。

數(shù)字計(jì)算是很棒的,你可以在不同的計(jì)算機(jī)上運(yùn)行相同的程序,在不同的硬件上運(yùn)行相同的神經(jīng)網(wǎng)絡(luò)。你所需要做的就是保存權(quán)重,這意味著一旦你有了一些不會(huì)消失的權(quán)重,它們就是永生的。即便硬件損壞,只要你有權(quán)重,你可以制造更多的硬件并運(yùn)行相同的神經(jīng)網(wǎng)絡(luò)。為了做到這一點(diǎn),我們要以非常高的功率運(yùn)行晶體管,使其以數(shù)字方式運(yùn)行,并且我們必須有能夠精確執(zhí)行指令的硬件,當(dāng)我們精確地告訴計(jì)算機(jī)如何執(zhí)行任務(wù)時(shí),它們做的很棒。

但是現(xiàn)在我們有了另一種讓計(jì)算機(jī)執(zhí)行任務(wù)的方式,我們現(xiàn)在有可能利用硬件所具備的豐富的模擬特性,以更低的能量完成計(jì)算。大語(yǔ)言模型在訓(xùn)練時(shí)使用的是兆瓦級(jí)的能量,而我們?nèi)祟?lèi)大腦只使用30瓦的能量。由于我們知道如何訓(xùn)練,也許我們可以使用模擬硬件,雖然每個(gè)硬件都有些許差異,但我們可以訓(xùn)練它利用其特殊的特性,以便它按我們的要求執(zhí)行任務(wù)。

這樣它就能夠根據(jù)輸入產(chǎn)生正確的輸出。如果我們這樣做,我們就可以放棄硬件和軟件必須分離的觀念。我們可以有只在特定硬件上工作的權(quán)重,從而使能量效率更高。

所以我開(kāi)始思考我所稱(chēng)之為“有限計(jì)算”的概念,即利用非常低功耗的模擬計(jì)算來(lái)消除硬件和軟件之間的差別。

你可以以電導(dǎo)形式存儲(chǔ)數(shù)萬(wàn)億個(gè)權(quán)重,并以此進(jìn)行并行計(jì)算。而且,你也不需要使用非常可靠的硬件,你不需要在指令級(jí)別上讓硬件嚴(yán)格按照你的指示執(zhí)行任務(wù)。你可以培育一些“黏糊糊”的硬件,然后你只需要學(xué)會(huì)如何讓它們做正確的事情。所以你應(yīng)該能夠更便宜地使用硬件,甚至可以對(duì)神經(jīng)元進(jìn)行一些基因工程,使其由回收的神經(jīng)元構(gòu)成。

我想給你舉一個(gè)例子,說(shuō)明這樣做為什么會(huì)更高效。在神經(jīng)網(wǎng)絡(luò)中,我們一直在進(jìn)行的操作是將神經(jīng)活動(dòng)的向量與權(quán)重矩陣相乘,以獲得下一層的神經(jīng)活動(dòng)向量,或者至少獲得下一層的輸入。因此,提高向量矩陣乘法的效率,是我們要關(guān)注的事。在數(shù)字計(jì)算機(jī)中,我們有這些晶體管,它們被驅(qū)動(dòng)到非常高的功率,以表示32位數(shù)中的bits。當(dāng)我們執(zhí)行兩個(gè)32位數(shù)的乘法時(shí),如果你想要快速完成乘法運(yùn)算,就需要大量執(zhí)行這些數(shù)字操作。

有一種更簡(jiǎn)單的方法,就是將神經(jīng)活動(dòng)表示為電壓,將權(quán)重表示為電導(dǎo),電壓乘以電導(dǎo)就是單位時(shí)間內(nèi)的電荷,然后電荷會(huì)自然相加。因此,你可以通過(guò)將一些電壓送給一些電導(dǎo)來(lái)完成向量矩陣乘法運(yùn)算,而下一層中每個(gè)神經(jīng)元接收到的輸入將是該向量與這些權(quán)重的乘積。這非常好,它的能效要高得多。你已經(jīng)可以買(mǎi)到執(zhí)行這種操作的芯片了,但每次執(zhí)行時(shí)都會(huì)有略微的不同。而且,這種方法很難做非線性的計(jì)算。

所以有幾個(gè)關(guān)于有限計(jì)算的大問(wèn)題。其中之一是很難使用反向傳播算法,因?yàn)槟阏诶媚硞€(gè)特定硬件的特異模擬屬性,硬件不知道它自己的屬性,所以就很難使用反向傳播。相比之下,使用調(diào)整權(quán)重的強(qiáng)化學(xué)習(xí)算法要容易得多,但它們非常低效。

對(duì)于小型網(wǎng)絡(luò),我們已經(jīng)提出了一些與反向傳播算法效率基本相當(dāng)?shù)姆椒?,只是略差一些而已。這些方法尚未擴(kuò)展到更大的規(guī)模,我也不知道是否能夠做到。但不管怎樣,反向傳播是正確的做法。對(duì)于大型、深度網(wǎng)絡(luò),我不確定我們是否能找到與反向傳播同樣有效的解決方案,模擬系統(tǒng)中的學(xué)習(xí)算法可能不會(huì)像我們?cè)诖笮驼Z(yǔ)言模型中所擁有的算法那樣好。

有限計(jì)算的另一個(gè)重要問(wèn)題是,如果軟件與硬件不可分割,當(dāng)系統(tǒng)學(xué)習(xí)完畢后,如果硬件損壞,所有的知識(shí)就會(huì)失去。從這個(gè)意義上說(shuō),它是有限的。那么,如何將這些知識(shí)傳輸給另一個(gè)有限系統(tǒng)呢?你可以讓舊系統(tǒng)進(jìn)行講解,新系統(tǒng)通過(guò)調(diào)整其大腦中的權(quán)重來(lái)學(xué)習(xí),這就是所謂的“蒸餾”。你嘗試讓學(xué)生模型模仿教師模型的輸出,這是可行的。但效率不高。

你們可能已經(jīng)注意到,大學(xué)并不那么高效。教授將知識(shí)傳授給學(xué)生是非常困難的。一個(gè)句子包含了幾百位的信息,使用蒸餾方法,即使你完全吸收,你也只能傳達(dá)幾百位的信息。

但是,對(duì)于大模型,如果你看一群大模型代理,它們都有完全相同的神經(jīng)網(wǎng)絡(luò)和完全相同的權(quán)重,它們是數(shù)字化的,它們以完全相同的方式使用這些權(quán)重,這一千個(gè)不同的代理都去互聯(lián)網(wǎng)上查看不同的內(nèi)容并學(xué)習(xí)東西,現(xiàn)在你希望每個(gè)代理都知道其他代理學(xué)到了什么。你可以通過(guò)平均梯度或平均權(quán)重來(lái)實(shí)現(xiàn)這一點(diǎn),這樣你就可以將一個(gè)代理學(xué)到的東西大規(guī)模地傳達(dá)給所有其他代理。

當(dāng)你分享權(quán)重、分享梯度時(shí),你要傳遞的是一萬(wàn)億個(gè)數(shù)字,不是幾百位的信息。因此,大模型在傳遞信息方面比人類(lèi)溝通要強(qiáng)得太多了,這是它們超越我們的地方。它們?cè)谕荒P偷亩鄠€(gè)副本之間的通信上要比我們好得多,這就是為什么GPT-4比人類(lèi)知識(shí)更豐富,它不是由一個(gè)模型實(shí)現(xiàn)的,而是由不同硬件上運(yùn)行的大量相同模型的副本實(shí)現(xiàn)的。

我的結(jié)論是,數(shù)字計(jì)算需要大量能量,這一點(diǎn)不會(huì)變,我們只能通過(guò)硬件的特性實(shí)現(xiàn)進(jìn)化,使得能量消耗降低。但一旦你掌握了它,代理之間的共享就變得非常容易,GPT-4的權(quán)重只有人類(lèi)的2%左右,但卻擁有比人類(lèi)多上千倍的知識(shí)。這相當(dāng)令人沮喪。生物計(jì)算在進(jìn)化方面非常出色,因?yàn)樗枰苌俚哪芰?。但我的結(jié)論是數(shù)字計(jì)算更優(yōu)秀。

因此,我認(rèn)為,很明顯,在未來(lái)的20年內(nèi),有50%的概率,數(shù)字計(jì)算會(huì)比我們更聰明,很可能在未來(lái)的一百年內(nèi),它會(huì)比我們聰明得多,我們需要思考如何應(yīng)對(duì)這個(gè)問(wèn)題。很少有例子表明更聰明的事物受到不太聰明的事物的控制,雖然確實(shí)有這樣的例子,比如母親被嬰兒控制。但是很少有其他例子。有些人認(rèn)為我們可以使人工智能變得善良,但如果它們相互競(jìng)爭(zhēng),我認(rèn)為它們會(huì)開(kāi)始像黑猩猩一樣行事。我不確定你能否讓它們保持善良,如果它們變得非常聰明并且有了自我保護(hù)的意識(shí),它們可能會(huì)認(rèn)為自己比我們?nèi)祟?lèi)更重要。

相關(guān)參考:

https://www.ox.ac.uk/news/2024-02-20-romanes-lecture-godfather-ai-speaks-about-risks-artificial-intelligence

《AI教父Hinton最近對(duì)人工智能的7個(gè)觀點(diǎn)》,衛(wèi)sir說(shuō)

*素材來(lái)源于網(wǎng)絡(luò)

(來(lái)源:世界人工智能大會(huì))

標(biāo)簽:人工智能 數(shù)字智能 我要反饋 
2024世界人工智能大會(huì)專(zhuān)題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專(zhuān)題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專(zhuān)題
2024漢諾威工業(yè)博覽會(huì)專(zhuān)題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]