siemens x
人工智能

陶大程院士:深度學(xué)習(xí)“泛化”理論的回顧與前沿

2025China.cn   2020年07月14日

  2020年7月9日,在世界人工智能大會(huì)上,陶大程教授(澳大利亞科學(xué)院院士)在科學(xué)前沿全體會(huì)議上和觀眾連線,并做了《預(yù)見·可信 AI》的報(bào)告。在報(bào)告中,陶教授回顧了深度學(xué)習(xí)理論的發(fā)展,并介紹了最近在深度學(xué)習(xí)理論研究方面的進(jìn)展,具體包括,為什么深層結(jié)構(gòu)優(yōu)于淺層結(jié)構(gòu)?為什么隨即梯度下降算法對(duì)于理解深度學(xué)習(xí)的泛化能力非常重要?以及深度學(xué)習(xí)模型的損失曲面有什么樣的幾何性質(zhì)?

  注:陶大程,人工智能和信息科學(xué)領(lǐng)域國(guó)際知名學(xué)者,澳大利亞科學(xué)院院士、歐洲科學(xué)院(Academia Europaea)外籍院士、ACM Fellow(Association for Computing Machinery,美國(guó)計(jì)算機(jī)學(xué)會(huì))、IEEE Fellow,悉尼大學(xué)工程學(xué)院教授、優(yōu)必選悉尼大學(xué)人工智能中心主任、優(yōu)必選 AI首席科學(xué)家。此外,他還是 IEEE SMC 認(rèn)知計(jì)算技術(shù)委員會(huì)前主席。

  以下是演講全文:

  深度學(xué)習(xí)讓很多領(lǐng)域進(jìn)入了“自動(dòng)化革命”的時(shí)代,例如機(jī)器視覺、自然語言處理、語音識(shí)別等。

  如上動(dòng)圖,展示了目前深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域的一些進(jìn)展,例如物體檢測(cè)、實(shí)例分割、場(chǎng)景分割、道路檢測(cè)、文字檢測(cè)和識(shí)別等等。以上進(jìn)展給我們的啟示是:深度學(xué)習(xí)的存在確實(shí)讓之前非常困難的機(jī)器視覺任務(wù)變得容易。而現(xiàn)在存在的問題是:許多應(yīng)用領(lǐng)域?qū)I算法的安全性有很高的要求,例如自動(dòng)駕駛系統(tǒng),一個(gè)微小的錯(cuò)誤都有可能會(huì)導(dǎo)致致命的災(zāi)難。由于現(xiàn)有算法缺乏適當(dāng)?shù)睦碚摶A(chǔ),我們對(duì)這些算法“為什么能成功”并沒有準(zhǔn)確的把握;另外,AI應(yīng)用領(lǐng)域也持續(xù)遇到一些挑戰(zhàn),這都使得大眾對(duì)AI的信任不斷減少。 那么如何解決這個(gè)問題呢?根本性的解決方法是建立完整的人工智能的理論基礎(chǔ)。

  1、人工智能理論基礎(chǔ)回顧

  人工智能理論基礎(chǔ)的進(jìn)展,在深度學(xué)習(xí)方面,主要有兩點(diǎn):首先傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)理論相對(duì)比較成熟和完善;其次,深度學(xué)習(xí)主導(dǎo)了第三次的人工智能熱潮,驅(qū)動(dòng)了很多的實(shí)際應(yīng)用落地。目前深度學(xué)習(xí)的基礎(chǔ)理論研究還處在初級(jí)階段。深度學(xué)習(xí)的成功主要建立在實(shí)驗(yàn)之上,缺乏堅(jiān)實(shí)的理論基礎(chǔ)。那么理論分析深度學(xué)習(xí)算法為什么如此困難? 這里引用一句MIT 托馬斯教授的一句話,“從前,我們需要比模型參數(shù)更多的訓(xùn)練數(shù)據(jù)才能得到有意義的擬合”。

  那么深度學(xué)習(xí)的情況是什么樣的呢?如上圖對(duì)比,左邊是2017年效果最好的神經(jīng)網(wǎng)絡(luò),大概有幾千萬個(gè)參數(shù);右邊是現(xiàn)在常用的數(shù)據(jù)集,CORD-19數(shù)據(jù)庫(kù)只有6000個(gè)數(shù)據(jù)點(diǎn)。ImageNet作為機(jī)器視覺領(lǐng)域最大的數(shù)據(jù)庫(kù)之一僅有1000多萬個(gè)數(shù)據(jù)點(diǎn)。其他大多機(jī)器視覺領(lǐng)域的數(shù)據(jù)集只有幾萬個(gè)數(shù)據(jù)點(diǎn)。即使是ImageNet這樣的大規(guī)模數(shù)據(jù)庫(kù),與深度學(xué)習(xí)的參數(shù)相對(duì)比,數(shù)量仍然不足。為何深度學(xué)習(xí)模型如此過度參數(shù)化,但表現(xiàn)卻如此優(yōu)異?當(dāng)前有研究工作從模型容量和復(fù)雜度的角度出發(fā)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了分析。過去統(tǒng)計(jì)學(xué)習(xí)也有結(jié)論:如果模型的容量或者復(fù)雜度較小,那么模型的泛化能力就能夠得到保證。如果可以證明深度學(xué)習(xí)模型的容量(或者復(fù)雜度)與參數(shù)的數(shù)量不直接相關(guān),就能在一定程度上解釋“為什么深度學(xué)習(xí)如此成功”。

  先看傳統(tǒng)機(jī)器學(xué)習(xí)中復(fù)雜度度量的常用工具:VC維。2017年Harvey等人從VC維的角度出發(fā),分析了神經(jīng)網(wǎng)絡(luò)的泛化性能,得到了兩個(gè)上界。這兩個(gè)上界直接和模型的參數(shù)數(shù)量相關(guān),這就使得泛化誤差的上界很大,甚至比損失函數(shù)的最大值還要大,因此這樣的上限是非常松的。這樣的結(jié)論在一定程度上告訴我們:從VC維角度出發(fā),論證過程會(huì)非常難。但是,作為開拓性的研究,這個(gè)工作的意義很大。

  2018年,Golowich等人用Rademacher復(fù)雜度得到了一個(gè)泛化誤差的上界。結(jié)論表示:上界不直接與模型的規(guī)模相關(guān),但是和模型參數(shù)的模以及網(wǎng)絡(luò)的深度相關(guān)。2019年,Liang等人探索了Fisher-Rao范數(shù),得出的結(jié)論是Fisher-Rao有許多良好的性質(zhì),例如Fisher-Rao范數(shù)的不變性。

  今年,我們團(tuán)隊(duì)在ICLR 2020中發(fā)表了一篇使用Fisher-Rao范數(shù)證明RNN的泛化邊界。Fisher-Rao和matrix-1 norm可以有效的幫助我們控制上限的尺度。這給我們帶來的啟發(fā)是:在訓(xùn)練樣本中增加一些噪音,可以提升模型的泛化能力,但是不能加入太多的噪音,因?yàn)闀?huì)使訓(xùn)練誤差變大。我們的Fisher-Rao Norm依賴一個(gè)關(guān)于梯度的結(jié)構(gòu)化引理。該引理表示:參數(shù)的??梢员惶荻鹊拇笮】刂谱?,該引理幫助我們有效刻畫了梯度對(duì)深度學(xué)習(xí)模型泛化能力的影響,也幫助我們更好的理解泛化能力和訓(xùn)練能力之間的關(guān)系。

  基于模型容量,模型復(fù)雜度的泛化誤差的上界,通常表明小模型的泛化能力比較好。但是這和深度學(xué)習(xí)的實(shí)驗(yàn)和表現(xiàn)不非常一致。例如,Neyshabur在2015年的工作和Novak在2018年的實(shí)驗(yàn)證明了:“大型網(wǎng)絡(luò)不僅表現(xiàn)出良好的測(cè)試性能,并且隨著網(wǎng)絡(luò)規(guī)模的增加,泛化能力也在提升?!绷硗?。在2016年Canziani統(tǒng)計(jì)了一些競(jìng)賽中的模型和實(shí)驗(yàn)也得到了相同的結(jié)論。

  從信息論的角度出發(fā),我們團(tuán)隊(duì)得到了一個(gè)泛化誤差的上界。其中的理論分析主要基于三個(gè)方面,首先和傳統(tǒng)的淺層學(xué)習(xí)模型,例如支撐向量機(jī)不同,深度神經(jīng)網(wǎng)絡(luò)具有層級(jí)特征映射結(jié)構(gòu),這樣的層級(jí)結(jié)構(gòu)能有效幫助網(wǎng)絡(luò)避免過擬合。 其次,傳統(tǒng)的泛化誤差上界是通過模型的函數(shù)空間復(fù)雜度進(jìn)行估計(jì),忽略了數(shù)據(jù)的分布,僅考慮模型函數(shù)空間中最壞的情況。

  最后,實(shí)際中模型的泛化能力和數(shù)據(jù)分布是相關(guān)的。受到最近信息論和自適應(yīng)數(shù)據(jù)分析的研究的啟發(fā),我們用神經(jīng)網(wǎng)絡(luò)學(xué)到的特征和最后一層神經(jīng)網(wǎng)絡(luò)參數(shù)的互信息,來bound泛化誤差。 最終,我們得出的結(jié)論是:網(wǎng)絡(luò)的輸出對(duì)于輸入的依賴性越小,其泛化能力就越強(qiáng)。在信息論中強(qiáng)數(shù)據(jù)處理不等式的保證下:只要網(wǎng)絡(luò)的每一層的映射是不可逆的(也就是信息衰減),那么神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)到的特征和最后一層參數(shù)的互信息,就會(huì)隨著層數(shù)的增加而逐漸減少。因此網(wǎng)絡(luò)越深,模型的泛化能力也就變得越強(qiáng)。隨著網(wǎng)絡(luò)層數(shù)的增加,在映射過程中模型會(huì)丟失對(duì)于數(shù)據(jù)擬合有用的信息。在這種情況下,訓(xùn)練數(shù)據(jù)集擬合誤差就會(huì)變大。因此,深度網(wǎng)絡(luò)的泛化能力雖然逐漸增強(qiáng),但是要想整個(gè)神經(jīng)網(wǎng)絡(luò)的性能好,還需要保證訓(xùn)練誤差足夠小。

  2、通用近似定理一覽

  盡管如此,信息衰減的要求是非常強(qiáng)的,畢竟現(xiàn)在的深度學(xué)習(xí)中,我們經(jīng)常需要引入skip connections,因此這方面的研究還要進(jìn)一步深入。另外,也需要明確一下:神經(jīng)網(wǎng)絡(luò)的容量非常龐大,甚至具有通用的近似能力。1989年的三個(gè)獨(dú)立工作,同時(shí)證明了神經(jīng)網(wǎng)絡(luò)的“通用近似定理”。Hornik在1993年也證明了,如果網(wǎng)絡(luò)無限寬,即使淺層網(wǎng)絡(luò)也可以近似任何連續(xù)函數(shù)。2017年,Lu等人也證明了有限寬的神經(jīng)網(wǎng)絡(luò)也具有通用近似能力,而在今年他的團(tuán)隊(duì)又證明了神經(jīng)網(wǎng)絡(luò)可以近似任何分布。這些例子都說明了一個(gè)問題:如果參數(shù)可以任意取的話,神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的容量會(huì)非常龐大。這里又出現(xiàn)一個(gè)問題,參數(shù)是不是可以任意取? 目前神經(jīng)網(wǎng)絡(luò)的參數(shù)都是通過隨機(jī)梯度下降算法(SGD)學(xué)到的,所以參數(shù)的取值并不是“任意的”。因此雖然神經(jīng)網(wǎng)絡(luò)本身的假設(shè)空間非常大,但是隨機(jī)梯度下降只能探索到空間中的一小部分。這樣來看,隨機(jī)梯度下降算法是解釋深度學(xué)習(xí)泛化能力的關(guān)鍵。

  3、隨機(jī)梯度下降解釋深度學(xué)習(xí)泛化能力

  我們?cè)?019年NeurIPS上的文章指出:隨機(jī)梯度下降的優(yōu)化過程形成路徑可以用偏微分方程進(jìn)行表示。SGD優(yōu)化的過程可以描述為:T+1時(shí)刻的參數(shù)-T時(shí)刻的參數(shù)=學(xué)習(xí)率*函數(shù)的梯度。顯然,這個(gè)表達(dá)式就是偏微分方程。由于Batch是隨機(jī)的,初始化是隨機(jī)的,對(duì)于梯度的建模也引入了噪聲。這意味著,當(dāng)前的梯度等于整個(gè)數(shù)據(jù)集上梯度的平均值加上一個(gè)不確定的噪聲。目前大家會(huì)假設(shè)是該噪聲是正態(tài)(高斯)分布,最近也有研究用別的分布來建模噪聲。

  SGD的優(yōu)化路徑可以用隨機(jī)過程的穩(wěn)態(tài)分布來給隨機(jī)梯度下降算法學(xué)到的模型進(jìn)行建模。然后,我們就可以利用PAC-Bayes得到泛化誤差的上界。由此,我們得出結(jié)論:泛化能力和學(xué)習(xí)率與Batch Size之間存在正比例相關(guān)關(guān)系。這個(gè)關(guān)系也說明了超參數(shù)的調(diào)整有一定的規(guī)律可循。

  我們?cè)贑IFAR-10和CIFAR-100上基于ResNet和VGG兩個(gè)網(wǎng)絡(luò)訓(xùn)練了1600個(gè)模型,來驗(yàn)證“正相關(guān)”關(guān)系。上圖是所有模型的測(cè)試精度分析,每一個(gè)小圖由20個(gè)模型畫成。我們用測(cè)試精度表示泛化能力,因?yàn)橛?xùn)練精度幾乎是100%。左邊顯示學(xué)習(xí)率不變的條件下,測(cè)試精度和Batch大小之間的關(guān)系:隨著Batch Size的增加,測(cè)試精度下降。右邊是Batch Size不變的條件下,測(cè)試精度和學(xué)習(xí)率之間的關(guān)系:隨著學(xué)習(xí)率的增加,測(cè)試精度提升。

  上圖是測(cè)試精度和Batch Size、學(xué)習(xí)率之間的比值的關(guān)系,每種顏色各由400個(gè)模型畫成。顯然,隨著比值的增加,測(cè)試精度下降。

  4、深入理解損失曲面的幾何結(jié)構(gòu)

  所以,利用偏微分方程對(duì)SGD的優(yōu)化軌跡進(jìn)行建模,對(duì)理解深度學(xué)習(xí)非常有價(jià)值。同時(shí)這也要求我們深入理解損失曲面的幾何結(jié)構(gòu),因?yàn)閾p失曲面的幾何結(jié)構(gòu)決定了偏微分方程在損失曲面上的軌跡。這主要有兩方面的原因:首先,隨機(jī)偏微分方程包含了損失函數(shù)以及損失函數(shù)的各階導(dǎo)數(shù),所以損失曲面的幾何結(jié)構(gòu)直接影響了隨機(jī)偏方程的結(jié)構(gòu)。其次,損失曲面也決定了隨機(jī)偏微分方程的邊際條件,因此損失曲面決定了隨機(jī)梯度下降算法“輸出的解”的性質(zhì)。因此透徹理解損失曲面的幾何結(jié)構(gòu),對(duì)于研究深度學(xué)習(xí)的優(yōu)化以及泛化能力非常重要。

  在2018年Novak等人用實(shí)驗(yàn)說明:神經(jīng)網(wǎng)絡(luò)的泛化性能和損失曲面的幾何結(jié)構(gòu)相關(guān):神經(jīng)網(wǎng)絡(luò)的泛化性能和輸入空間的區(qū)域個(gè)數(shù)相關(guān)。然而,非線性激活函數(shù)使得損失曲面極端的非凸,并且不光滑,這使得優(yōu)化算法的理論分析非常困難。這種混亂的局面使得目前已有的優(yōu)化算法的理論分析變得非常困難。比如,為什么凸優(yōu)化的算法可以去優(yōu)化神經(jīng)網(wǎng)絡(luò)這種非凸的問題?但是,深度學(xué)習(xí)模型在很多實(shí)際問題中,的確有很好的使用效果。由此可以想象,混亂的局面之下可能存在某種未被發(fā)現(xiàn)的秩序。

  關(guān)于損失曲面的幾何結(jié)構(gòu),對(duì)于線性網(wǎng)絡(luò)(即激活函數(shù)是線性函數(shù)的網(wǎng)絡(luò))現(xiàn)有的結(jié)論是:線性網(wǎng)絡(luò)在平方損失函數(shù)下,所有的局部極小值都是同樣好的,也即局部最小值就是全局最小值。如果非線性網(wǎng)絡(luò)也能找到類似的性質(zhì),那么后面對(duì)于深度學(xué)習(xí)的理論分析就會(huì)比較順利。現(xiàn)有的研究對(duì)線性和非線性有著有趣的辯論,例如非線性是不重要,因?yàn)榉蔷€性網(wǎng)絡(luò)繼承了線性網(wǎng)絡(luò)的性質(zhì)。但是另一些文章則指出實(shí)際情況并非如此。

  在2019年,Yun等人證明了單層的神經(jīng)網(wǎng)絡(luò)損失曲面有無窮多的次優(yōu)局部極小值。此結(jié)論需要有4個(gè)條件保證:1.單個(gè)隱藏層;2.平方損失;3.一維輸出;4.兩段線性激活。

  我們今年在ICLR 2020的文章中,顯著擴(kuò)展了這四個(gè)條件:1.任意深度;2.任意可微分損失;3.任意維輸出;4.任意分段線性激活。

  那么之前猜測(cè)的秩序有可能是什么?Soudry和Hoffer在2018年指出,ReLU網(wǎng)絡(luò)的損失平面被劃分為若干光滑的多線性區(qū)域。

  我們?cè)谖恼轮羞M(jìn)一步指出:在每一個(gè)區(qū)域中,每一個(gè)局部極小值都是全局最小值;在每一個(gè)區(qū)域中,所有的局部極小值也匯聚成了一個(gè)極小值峽谷。第三,一個(gè)峽谷上所有的點(diǎn)構(gòu)成一個(gè)等價(jià)類;第四,此等價(jià)類還存在著平行峽谷;第五,所有的等價(jià)類構(gòu)成一個(gè)商空間。其實(shí),這里的第二條性質(zhì)就解釋了模式連接。即隨機(jī)梯度下降找到的局部極小值的附近,存在著一些經(jīng)驗(yàn)風(fēng)險(xiǎn)差別很小的點(diǎn),并且這些點(diǎn)連成了一條線。很遺憾,目前這些幾何性質(zhì)只對(duì)單個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)成立,對(duì)于多隱藏層的深度網(wǎng)絡(luò),還有很多工作要做。

  5、OMT:大佬對(duì)話談深度學(xué)習(xí)用于3維重建

  在陶大程教授分享之后。復(fù)旦大學(xué)類腦人工智能科學(xué)與技術(shù)研究院院長(zhǎng)、上海腦科學(xué)與類腦研究中心副主任馮建峰,上海科技大學(xué)信息科學(xué)與技術(shù)學(xué)院教授、執(zhí)行院長(zhǎng)虞晶怡和陶大程教授進(jìn)行交流。

  虞晶怡:陶院士這次報(bào)告非常精彩,整個(gè)報(bào)告聚焦于理論層面,當(dāng)前有很多工作利用深度學(xué)習(xí)進(jìn)行快速的3D估算,從而加速整個(gè)的判斷過程。您對(duì)此有何看法?

  陶大程:對(duì)于物體跟蹤和檢測(cè),三維重構(gòu)可以提供很多非常有價(jià)值的信息:(1)物體在場(chǎng)景中的位置信息,幫助提高基于二維圖像的物體跟蹤和檢測(cè)的定位精度;(2)物體和物體之間的前后順序信息(在實(shí)際三維場(chǎng)景中,物體處在不同的layer上),幫助減少遮擋的影響并提升區(qū)分不同物體的能力;(3)通過三維重構(gòu),我們可以獲得更加精細(xì)的物體的特征,幫助提高被跟蹤檢測(cè)的物體的表達(dá)能力。今天的深度學(xué)習(xí)成功的主要原因,在于其很強(qiáng)的特征表達(dá)能力。目前深度學(xué)習(xí)的泛化能力在理論上有很多問題還沒有解答。對(duì)于這些問題的回答,需要大家更加深入的研究深度學(xué)習(xí)的基礎(chǔ)理論:讓我們充分理解深度學(xué)習(xí)什么時(shí)候能成功,讓我們有效界定某一個(gè)特定的深度模型的使用范圍、讓我們知道該如何選擇訓(xùn)練的技巧、以及讓我們更加高效的去調(diào)整參數(shù)等等。

(轉(zhuǎn)載)

標(biāo)簽:世界人工智能大會(huì) WAIC 深度學(xué)習(xí) 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]