不久前,人力資源社會(huì)保障部發(fā)布了一種炙手可熱的新職業(yè):AI訓(xùn)練師。沒(méi)想到,浙江大學(xué)與阿里安全的人工智能訓(xùn)練師馬上創(chuàng)造出一個(gè) “AI訓(xùn)練師助手”,高效打造AI深度模型,應(yīng)對(duì)海量應(yīng)用場(chǎng)景的增加,讓AI訓(xùn)練模型面對(duì)新場(chǎng)景時(shí)不用從頭學(xué)習(xí),直接從已經(jīng)存在的模型上遷移,迅速獲得別人的知識(shí)、能力,成為全新的AI模型,而且能將模型周期從一個(gè)月縮短為一天。隨后,闡述這種讓AI訓(xùn)練AI,提升模型生產(chǎn)效率的論文被計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2020 接收(Oral)。
現(xiàn)在,視頻、直播成為互聯(lián)網(wǎng)內(nèi)容消費(fèi)的重要載體,內(nèi)容創(chuàng)作爆發(fā),創(chuàng)作形式自由度高帶來(lái)了許多潛在安全威脅。好消息是,AI深度模型被大規(guī)模用于多媒體內(nèi)容的識(shí)別、檢測(cè)、理解上,用以狙擊含有不良內(nèi)容的傳播。為了提升檢測(cè)的準(zhǔn)確性,面向不同場(chǎng)景必須使用不同的AI模型。但是,由于媒體場(chǎng)景、細(xì)分領(lǐng)域多,如何才能高效生產(chǎn)不同AI 深度模型?
目前實(shí)現(xiàn)這一目標(biāo)最流行的方法是遷移學(xué)習(xí)。浙江大學(xué)和阿里安全發(fā)現(xiàn),兩個(gè)預(yù)訓(xùn)練深度模型所提取的特征之間的遷移能力可由它們對(duì)應(yīng)的深度歸因圖譜之間的相似性來(lái)衡量。相似程度越高,從不同的預(yù)訓(xùn)練深度模型中獲得的特征相關(guān)性就越大,特征的相互遷移能力也就越強(qiáng)。而且,“AI訓(xùn)練師助手”還知道從什么模型遷移知識(shí),用模型的哪個(gè)部分遷移能最好地完成任務(wù)。也就是說(shuō),他們發(fā)現(xiàn)了讓小白模型向AI深度模型學(xué)習(xí)的高效學(xué)習(xí)方法。
問(wèn)題:如何才能取得最優(yōu)遷移效果
得益于大量高質(zhì)量標(biāo)注數(shù)據(jù)、高容量的模型架構(gòu)、高效率的優(yōu)化算法以及高性能計(jì)算硬件的發(fā)展,過(guò)去十年里深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理以及生物信息學(xué)等領(lǐng)域取得了舉世矚目的進(jìn)步。隨著深度學(xué)習(xí)取得了前所未有的成功,越來(lái)越多的科研人員和工業(yè)工作者愿意開(kāi)源他們訓(xùn)練好的模型來(lái)鼓勵(lì)業(yè)界進(jìn)一步的研究。目前,預(yù)訓(xùn)練好的深度學(xué)習(xí)模型可以說(shuō)是無(wú)處不在。
阿里安全圖靈實(shí)驗(yàn)室高級(jí)算法專家析策認(rèn)為,我們不僅處在一個(gè)大數(shù)據(jù)時(shí)代,同時(shí)也正在步入一個(gè)“大模型”時(shí)代。
與大數(shù)據(jù)相似,海量模型形成的模型倉(cāng)庫(kù)也蘊(yùn)含了巨大的潛在價(jià)值。這些預(yù)訓(xùn)練的深度模型已經(jīng)消耗了大量的訓(xùn)練時(shí)間以及大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)等昂貴的計(jì)算資源。如果這些預(yù)訓(xùn)練的模型能夠被合理地重新使用,那么在解決新任務(wù)時(shí)的對(duì)訓(xùn)練時(shí)間以及訓(xùn)練數(shù)據(jù)的依賴就會(huì)顯著降低。目前實(shí)現(xiàn)這一目標(biāo)最流行的方法就是遷移學(xué)習(xí)。在基于深度模型的跨任務(wù)的遷移學(xué)習(xí)中,模型微調(diào)是一種使用最廣泛并且有效的方法。
該方法以一個(gè)預(yù)先訓(xùn)練的模型作為起點(diǎn),固定模型的一部分參數(shù)以降低模型優(yōu)化空間,利用新任務(wù)有限的數(shù)據(jù)訓(xùn)練剩余的參數(shù),使得模型能夠在新任務(wù)上獲得成功。
雖然這種方法在一些具體問(wèn)題中取得了一定的成效,但是當(dāng)前這些遷移學(xué)習(xí)方法忽略了兩個(gè)重要的問(wèn)題:面對(duì)海量的預(yù)訓(xùn)練好的深度模型,選擇哪個(gè)模型解決當(dāng)前任務(wù)能夠取得最好的效果;給定一個(gè)預(yù)訓(xùn)練好的模型,應(yīng)該固定哪些層的參數(shù)以及優(yōu)化哪些層才能夠取得最優(yōu)的遷移效果。
目前的模型選擇通常是盲目地采用ImageNet的預(yù)訓(xùn)練模型。然而,ImageNet預(yù)訓(xùn)練的模型并不總是對(duì)所有任務(wù)產(chǎn)生令人滿意的性能,特別是當(dāng)任務(wù)與ImageNet數(shù)據(jù)上定義的任務(wù)有顯著差異時(shí)。而模型微調(diào)時(shí)參數(shù)優(yōu)化臨界點(diǎn)的選擇往往依賴于經(jīng)驗(yàn)。但是,由于最優(yōu)的優(yōu)化臨界點(diǎn)取決于各種因素,如任務(wù)相關(guān)性和目標(biāo)數(shù)據(jù)量等,依賴經(jīng)驗(yàn)做出的選擇往往很難保證最優(yōu)。
不同任務(wù)下深度神經(jīng)網(wǎng)絡(luò)提取特征的可遷移性
為了解決上述問(wèn)題,浙江大學(xué)和阿里安全發(fā)起了這項(xiàng)研究:在不同任務(wù)下訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)提取的特征之間的可遷移性。Zamir等人[1]對(duì)不同任務(wù)間的遷移關(guān)系作了初步的研究。他們提出了一種全計(jì)算的方法,稱為taskonomy,來(lái)測(cè)量任務(wù)的可遷移性。然而,taskonomy中有三個(gè)不可忽視的局限性,極大地阻礙了它在現(xiàn)實(shí)問(wèn)題中的應(yīng)用。
首先,它的計(jì)算成本高得令人望而卻步。在計(jì)算給定任務(wù)集合中兩兩任務(wù)之間的遷移關(guān)系時(shí),計(jì)算成本會(huì)隨集合中任務(wù)數(shù)量的增加而呈平方性地增長(zhǎng),當(dāng)任務(wù)數(shù)量很大時(shí),計(jì)算成本會(huì)變得非常昂貴。
第二個(gè)限制是,它采用遷移學(xué)習(xí)來(lái)建立任務(wù)之間的遷移關(guān)系,這仍然需要大量的標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練轉(zhuǎn)移模型。然而,在許多情況下,我們只能獲取訓(xùn)練好的模型,并不能夠獲取到相應(yīng)的訓(xùn)練數(shù)據(jù)。最后,taskonomy只考慮不同模型或任務(wù)之間的可遷移性,而忽略了不同層之間的可遷移性,不能夠用來(lái)解決微調(diào)模型時(shí)臨界點(diǎn)的選擇問(wèn)題。
衡量從不同預(yù)訓(xùn)練深度模型中提取到特征間的可遷移性,主要障礙是深度模型自身的黑箱性質(zhì)。由于從不同的預(yù)訓(xùn)練深度模型中學(xué)習(xí)到的特征是不可解釋的,而且處在不同的嵌入空間中,直接計(jì)算特征間的可遷移性非常困難。
為了推導(dǎo)預(yù)訓(xùn)練深度模型中提取到特征間的可遷移性,研究者們首先給出了可遷移性的嚴(yán)格定義。
在該定義下,預(yù)訓(xùn)練模型的選擇和模型微調(diào)時(shí)臨界點(diǎn)的選擇實(shí)際上是該遷移性定義下的兩個(gè)特例。然后,這篇論文提出了深度歸因圖譜(DEeP Attribution gRAph, DEPARA)來(lái)表示在預(yù)訓(xùn)練深度模型中學(xué)習(xí)到的知識(shí)。在深度歸因圖譜中,節(jié)點(diǎn)對(duì)應(yīng)于輸入,并由模型在輸入數(shù)據(jù)上歸因形成的歸因圖[2]來(lái)表達(dá)。邊表示輸入數(shù)據(jù)之間的關(guān)聯(lián),通過(guò)它們?cè)陬A(yù)訓(xùn)練深度模型特征空間中的相似度來(lái)度量,如圖1所示。
由于不同預(yù)訓(xùn)練深度模型中的深度歸因圖譜是在相同的輸入集上定義的,它們實(shí)際上處于相同的空間內(nèi),因此兩個(gè)預(yù)訓(xùn)練深度模型所提取的特征之間的遷移能力可直接由它們對(duì)應(yīng)的深度歸因圖譜之間的相似性來(lái)衡量。相似程度越高,從不同的預(yù)訓(xùn)練深度模型中獲得的特征相關(guān)性就越大,特征的相互遷移能力也就越強(qiáng)。這項(xiàng)研究通過(guò)大量實(shí)驗(yàn)證明了該方法應(yīng)用于任務(wù)間遷移關(guān)系度量以及模型微調(diào)時(shí)臨界點(diǎn)選擇的有效性。
遷移性定義
直接計(jì)算上述公式定義的遷移性需要大量標(biāo)注數(shù)據(jù)且非常耗時(shí)。本文提出通過(guò)計(jì)算影響遷移性的兩個(gè)重要因素,來(lái)做近似估計(jì)。
1. 包含性:要使得特征遷移在目標(biāo)任務(wù)上取得較為理想的效果,源任務(wù)的訓(xùn)練的模型生成的特征空間應(yīng)該包含解決目標(biāo)任務(wù)所需的足夠信息。包容性是遷移學(xué)習(xí)取得成功的一個(gè)比較基本的條件。
2. 易用性:特征空間應(yīng)該已經(jīng)經(jīng)過(guò)充分的學(xué)習(xí)并抽象到比較高的層次,這樣才能夠在有限的標(biāo)注數(shù)據(jù)下很好地解決目標(biāo)任務(wù)。如果不要求特征的易用性,那么原始的輸入總是比經(jīng)過(guò)深度網(wǎng)路處理的特征包含更多的信息。然而由于原始的數(shù)據(jù)沒(méi)有經(jīng)過(guò)任何知識(shí)提取與抽象,并不能夠很好的遷移到新任務(wù)中。
深度歸因圖譜
如何利用深度歸因圖來(lái)解決兩個(gè)遷移性問(wèn)題
1. 任務(wù)之間的遷移性
2. 層的遷移性
實(shí)驗(yàn)
1. DEPARA的可視化
上圖是對(duì)于不同視覺(jué)任務(wù)所生成的深度歸因圖的可視化結(jié)果。從圖中可以看出有一些任務(wù)生成非常相似的歸因圖以及樣本之間的關(guān)系,然而有些生成的結(jié)果則非常不同。例如,Rgb2depth和Rgb2mist生成了非常相似的歸因圖和關(guān)系圖,然而它們的結(jié)果和自編碼器的結(jié)果非常不同。事實(shí)上,在任務(wù)分類法中,Rgb2depth和Rgb2mist彼此間具有很高的遷移性,但它們到自編碼器的遷移性相對(duì)較低。此外,任務(wù)分類法采用層次聚類的方式把任務(wù)劃分為四組:2D任務(wù)(藍(lán)色),3D任務(wù)(綠色),幾何任務(wù)(紅色)以及語(yǔ)義任務(wù)(品紅色)。圖中選取了2個(gè)3D任務(wù),3個(gè)2D任務(wù),2個(gè)幾何任務(wù)以及2個(gè)語(yǔ)義任務(wù)作可視化。任務(wù)分類法在這些任務(wù)上生成的任務(wù)相似樹(shù)繪制在任務(wù)名稱的上方。從圖可以看出,在每個(gè)任務(wù)組內(nèi)部,深度歸因圖譜生成較為相似的節(jié)點(diǎn)以及邊。
2. 模型遷移度量
論文中采用PR曲線來(lái)評(píng)估方法效果,實(shí)驗(yàn)結(jié)果如上圖,可以看到論文中提出的深度歸因圖方法(DEPARA)與taskonomy(Oracle)實(shí)驗(yàn)的結(jié)果具有很高的相似性,且通過(guò)消融實(shí)驗(yàn)可知,只采用圖中節(jié)點(diǎn)相似性(DEPARA-V)和只采用圖中邊相似性(DEPARA-E)計(jì)算得到的遷移性準(zhǔn)確度都遠(yuǎn)遠(yuǎn)不如圖相似性(DEPARA),這意味著節(jié)點(diǎn)和邊都對(duì)結(jié)果起著重要作用,是不可分割的。另外,論文中的方法(DEPARA)好于SOTA(RSA),證明了這是一種更加有效的計(jì)算遷移性的方案。
3. 層遷移度量
在Syn2Real-C數(shù)據(jù)集(包含有合成圖像的數(shù)據(jù)域以及真實(shí)圖像的數(shù)據(jù)域)上進(jìn)行層遷移的實(shí)驗(yàn),分別考慮了兩種源模型(在合成數(shù)據(jù)域上訓(xùn)練的模型和在ImageNet[6]上預(yù)訓(xùn)練的模型)來(lái)進(jìn)行遷移至真實(shí)數(shù)據(jù)域。在遷移時(shí),只利用了1%(0.01-T)和10%(0.1-T)的標(biāo)注數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,觀察遷移效果和深度歸因圖相似性之間的關(guān)系。根據(jù)上圖中顏色的深淺可知,對(duì)于兩種不同的源模型,遷移效果越好的層,計(jì)算得到的深度歸因圖相似性越高,遷移效果越差的層,計(jì)算得到的深度歸因圖相似性也越低,驗(yàn)證了論文中方法的準(zhǔn)確性。有趣的是,對(duì)于在ImageNet上預(yù)訓(xùn)練和合成數(shù)據(jù)域上預(yù)訓(xùn)練的源模型來(lái)說(shuō),盡管具有最好的遷移效果的層并不相同,但是論文中的方法都能很好地進(jìn)行指示。而且,對(duì)于1%和10%兩種不同的模式,這種方法通過(guò)設(shè)定不同的λ超參數(shù),也依舊能挑選出遷移效果最好的那些層。從效果上來(lái)看,無(wú)論是從節(jié)點(diǎn)V還是邊E的相似性比較來(lái)看,DNN-ImageNet都比DNN-Source具有更好的遷移性,這是因?yàn)楸M管DNN-Source和目標(biāo)任務(wù)學(xué)習(xí)的是同一物體的圖像,但是他們的數(shù)據(jù)域相差太大,導(dǎo)致需要花費(fèi)更多的成本去重建目標(biāo)任務(wù)的特征空間。值得注意的是,有些層用于遷移甚至出現(xiàn)了負(fù)遷移的現(xiàn)象,負(fù)遷移經(jīng)常出現(xiàn)在當(dāng)用于遷移的源數(shù)據(jù)域和目標(biāo)數(shù)據(jù)域相差很大的情況下,這說(shuō)明在實(shí)驗(yàn)中,挑選一個(gè)合適的層用于遷移是十分重要的。
上圖是層遷移實(shí)驗(yàn)中的訓(xùn)練曲線,可以看到,由DEPARA挑選出來(lái)的層,遷移效果要好于其他層。而且,相比于DNN-Source,DNN-ImageNet中的訓(xùn)練曲線明顯更加地平滑,這也恰恰證明了遷移性越好的模型,在遷移時(shí)所花費(fèi)的重訓(xùn)練的成本就越低,也越容易地遷移至目標(biāo)任務(wù)?!霸凇瓵I訓(xùn)練師助手’的指導(dǎo)下,單個(gè)AI模型的生產(chǎn)周期從1個(gè)月降到1天,我們就能更快地發(fā)現(xiàn)不同的內(nèi)容風(fēng)險(xiǎn)。”析策希望,欺凌、色情、暴力、誤導(dǎo)等不良內(nèi)容不會(huì)成為人們消費(fèi)大量圖像視頻內(nèi)容付出的代價(jià),AI 技術(shù)可以更快地把不良內(nèi)容擋在第一線。論文地址:https://arxiv.org/abs/2003.07496代碼地址:https://github.com/zju-vipa/DEPARA
(轉(zhuǎn)載)