siemens x
深度觀察

AI芯片競(jìng)賽的開始

2025China.cn   2017年02月23日

  2016年深度學(xué)習(xí)技術(shù)不斷推動(dòng)著計(jì)算工業(yè)的前進(jìn),專家稱在2017年人工智能領(lǐng)域?qū)⑿枰焖?,更?qiáng)勁的“推理”引擎來(lái)強(qiáng)化深度神經(jīng)網(wǎng)絡(luò)。

  現(xiàn)有的深度學(xué)習(xí)系統(tǒng)動(dòng)用的是大型計(jì)算的優(yōu)勢(shì),借助網(wǎng)絡(luò)以及大數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練和學(xué)習(xí),然后再對(duì)接大型計(jì)算系統(tǒng)來(lái)完成它的目標(biāo)任務(wù)。

  不過(guò),這種學(xué)習(xí)方式在執(zhí)行效率方面很顯然不適合嵌入式系統(tǒng)(也就是包含,汽車,無(wú)人機(jī),包括物聯(lián)網(wǎng)設(shè)備,工業(yè)控制器等等)這些設(shè)備往往受到能源,帶寬以及存儲(chǔ)器大小方面的限制。

  把深度神經(jīng)網(wǎng)絡(luò)放到終端設(shè)備中為技術(shù)創(chuàng)新提供了非常大的可能性

  就在幾個(gè)月前Movidius CEO,RemiElquazzane曾表示,"人工智能在邊緣計(jì)算上的投放,將會(huì)是一個(gè)趨勢(shì)"

  Marc Duranton

  當(dāng)問(wèn)及如何讓AI在邊緣計(jì)算方面發(fā)揮能力的時(shí)候,集成電路設(shè)計(jì)以及嵌入式軟件部門的CEA架構(gòu)研究員Marc Duranton 闡述了其獨(dú)道見(jiàn)解,安全,隱私性和商用化這三點(diǎn)是快速進(jìn)入了工業(yè)領(lǐng)域處理末端數(shù)據(jù)的關(guān)鍵。Duranton 發(fā)現(xiàn)“短時(shí)間內(nèi)將數(shù)據(jù)變?yōu)樾畔ⅰ毙枨笳谠鲩L(zhǎng)。

  再比如無(wú)人汽車,如果安全性是這種技術(shù)設(shè)計(jì)最終目的,那么這種無(wú)人的功能設(shè)計(jì)不應(yīng)該完全依靠——全時(shí)間的實(shí)時(shí)網(wǎng)絡(luò)連接??梢韵胂笕绻粋€(gè)上年紀(jì)的人在家中摔倒,這起事件就應(yīng)該在本地偵測(cè)并得到確認(rèn)。私密性是一方面重要原因,而不依賴家中的10個(gè)攝像頭來(lái)傳輸圖像激活報(bào)警其實(shí)也是為了降低能耗以及數(shù)據(jù)規(guī)模,Duranton補(bǔ)充說(shuō)

  競(jìng)賽開始了

  芯片供應(yīng)商從多方面了解到市場(chǎng)對(duì)更好的推理引擎的增長(zhǎng)需求。

  類似于Movidus,Mobileye 以及 英偉達(dá) 這樣的半導(dǎo)體廠商已經(jīng)在超低功耗領(lǐng)域方面展開了競(jìng)爭(zhēng),更高的硬件加速表現(xiàn)可以讓嵌入式設(shè)備能夠擁有更好的學(xué)習(xí)能力。

  Duranton 認(rèn)為,這些公司在SOC方面所做的工作說(shuō)明了推理引擎已經(jīng)成為了許多半導(dǎo)體公司在后移動(dòng)時(shí)代的新的研究方向

  谷歌的Tensor 處理單元即TPUs在今年年初的發(fā)布標(biāo)志著工程領(lǐng)域?qū)C(jī)器學(xué)習(xí)類芯片的創(chuàng)新已經(jīng)達(dá)到了如饑似渴的程度。

  在發(fā)布會(huì)上,這家搜索巨頭公司形容TPUs提供了一個(gè)“比商用FPGA和GPU芯片高出一個(gè)數(shù)量級(jí)的單位瓦特性能?!惫雀枵故玖诉@款被裝載在打敗人類圍棋冠軍的阿爾法狗系統(tǒng)的加速器,然而卻從來(lái)不曾談?wù)揟PUs的結(jié)構(gòu)細(xì)節(jié),也不會(huì)將TPUs出售給商用市場(chǎng)。

  很多SOC設(shè)計(jì)者認(rèn)為谷歌的這一舉動(dòng)讓機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)方面更趨于定制化的結(jié)構(gòu),但是在他們?cè)O(shè)計(jì)定制化的芯片時(shí),又對(duì)谷歌芯片的結(jié)構(gòu)感到好奇。更要命的是,設(shè)計(jì)者們想要知道現(xiàn)在對(duì)于不同的硬件平臺(tái)是否已經(jīng)能夠有評(píng)測(cè)工具來(lái)對(duì)于深度神經(jīng)網(wǎng)絡(luò)DNN的好壞進(jìn)行評(píng)測(cè)和測(cè)量。

  工具正在到來(lái)

  CEA已經(jīng)準(zhǔn)備好了應(yīng)對(duì)不同硬件架構(gòu)的推理技術(shù)的開發(fā),并且開發(fā)了一個(gè)軟件框架,叫做 N2D2(有點(diǎn)類似星球大戰(zhàn)的機(jī)器人的名字R2D2)它能夠使設(shè)計(jì)者探索并生成DNN結(jié)構(gòu)。開發(fā)這個(gè)工具可以幫助DNN來(lái)選擇更加合適的硬件。

  DNN深度學(xué)習(xí)結(jié)構(gòu)

  N2D2將能夠在2017年第一季度實(shí)現(xiàn)開源,Duranton承諾道。

  N2D2這個(gè)新工具的關(guān)鍵在于不僅能夠非常精準(zhǔn)識(shí)別出并比較不同硬件,還可以在處理時(shí)間,硬件成本,以及能源消耗這幾個(gè)重要方面實(shí)現(xiàn)比較。Duranton認(rèn)為這幾點(diǎn)都非常重要 ,因?yàn)椴煌膽?yīng)用對(duì)于深度學(xué)習(xí)來(lái)在不同的硬件環(huán)境中實(shí)施中時(shí)可能會(huì)需要不同的參數(shù)。

  N2D2的工作方式(來(lái)源:CEA)

 

  N2D2提供了一系列商用常規(guī)硬件的測(cè)試,包括CPU,GPU以及FPGA多核以及多芯片協(xié)作的測(cè)試

  邊緣計(jì)算方面的障礙

  作為一個(gè)研究機(jī)構(gòu),CEA已經(jīng)對(duì)怎樣的讓深度神經(jīng)網(wǎng)絡(luò)更好地融入邊緣計(jì)算進(jìn)行了反復(fù)研究。關(guān)于DNN在邊緣計(jì)算方面的障礙,Duranton認(rèn)為,浮點(diǎn)服務(wù)器解決方案是不能夠使用的,除了電力,體積,延遲方面的限制,其他的限制還包括了MAC,帶寬和板載芯片的內(nèi)存空間的等因素。

  那么“以整數(shù)替代浮點(diǎn)”是首要考慮的事情,那么其它還要考慮什么呢?

  Duranton相信特殊的架構(gòu)能夠采用新的編碼,比如脈沖尖峰編碼(spike coding)

  當(dāng)CEA的研究者們對(duì)于神經(jīng)網(wǎng)絡(luò)的特性進(jìn)行研究時(shí),他們發(fā)現(xiàn)這些特性對(duì)計(jì)算錯(cuò)誤具有先天的容錯(cuò)性。這就讓它們成為了模糊計(jì)算方面非常好的備選。

  所以如果是這樣,可能二進(jìn)制編碼不再那么必要。這對(duì)于時(shí)間編碼(temporal coding)來(lái)說(shuō)是一個(gè)好消息——就比如脈沖尖峰編碼(Spike coding)——能夠使邊緣端的計(jì)算能效方面產(chǎn)出比更高,Duranton 解釋

  脈沖尖峰編碼是具有相當(dāng)?shù)奈?,因?yàn)榧夥灞痪幾g時(shí)或者在一個(gè)基于事件的系統(tǒng)中都展示了數(shù)據(jù)如何在真實(shí)的神經(jīng)系統(tǒng)中進(jìn)行編譯。更進(jìn)一步說(shuō)明,基于事件的編碼是可以與精密傳感器和前處理技術(shù)進(jìn)行相互匹配的。

  這樣的編碼更能讓研究人員來(lái)構(gòu)建一個(gè)體積更小能耗更低的硬件加速器并且用于一個(gè)裝備有混合模擬以及數(shù)字應(yīng)用的神經(jīng)系統(tǒng)當(dāng)中。

  也有一些其他因素可以幫助在邊緣計(jì)算方面加速構(gòu)建DNN結(jié)構(gòu)

  CEA就仔細(xì)考量了調(diào)整神經(jīng)網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)換成邊緣計(jì)算的潛力,包括用 Squeeze Net 來(lái)代替 Alex Net(兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的名稱)Duranton特別強(qiáng)調(diào)。 據(jù)說(shuō)SqueezeNet 能夠完成相當(dāng)于Alex Net 級(jí)別精度的50倍小的參數(shù)。Duranton也認(rèn)為這種簡(jiǎn)化是邊緣計(jì)算所需要的,在拓?fù)浣Y(jié)構(gòu)上是使Macs數(shù)量得到降低。

  在Duranton看來(lái),研究目標(biāo)是將“典型的”DNN結(jié)構(gòu)“自動(dòng)轉(zhuǎn)換到嵌入式”網(wǎng)絡(luò)當(dāng)中。

  Alexnet結(jié)構(gòu)

  P-Neuro,一個(gè)過(guò)渡時(shí)期的芯片

  CEA的真正野心在于發(fā)展神經(jīng)元形態(tài)的電路。這家研究機(jī)構(gòu)相信這樣的芯片是從傳感器的近端來(lái)提取有用信息進(jìn)行深度學(xué)習(xí)的一個(gè)有效補(bǔ)充。

  在達(dá)到研究目標(biāo)之前,CEA試探了很多過(guò)渡性步驟。比如N2D2開發(fā)工具就是芯片設(shè)計(jì)者們開發(fā)“高水平能效功耗比TOPS(TOPS每秒億萬(wàn)次計(jì)算)DNN”定制化解決方案的關(guān)鍵

  未來(lái),那些指望在邊緣計(jì)算上利用DNN的人可以選用手頭上的硬件去測(cè)試,為此,CEA提供了一個(gè)功耗極低的可編程加速器,叫做P-Neuro(P神經(jīng))

  現(xiàn)有的P-Neuro 神經(jīng)網(wǎng)絡(luò)處理單元基于FPGA構(gòu)建,而且,根據(jù)Duranton所說(shuō)CEA正在將這種FPGA轉(zhuǎn)換至ASIC

  當(dāng)P-Neuro樣本demo遇到 嵌入式CPU

  在CEA的實(shí)驗(yàn)室中,Duranton展示了一個(gè)面部偵測(cè)的卷積式神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network,模擬人類大腦結(jié)構(gòu))應(yīng)用,運(yùn)行于基于FPGA的 P-Neuro上。 這個(gè)P-Neuro 的demo被用于與嵌入式CPU(樹莓派Raspberry Pi的四核ARM處理器以及安卓系統(tǒng)上的三星獵戶座SOC)進(jìn)行比較,并同時(shí)運(yùn)行相同的嵌入式CNN應(yīng)用;目標(biāo)任務(wù)是從一個(gè)數(shù)據(jù)庫(kù)中調(diào)出的超過(guò)18000張圖像當(dāng)中進(jìn)行人臉特征提取。

  如圖所示P-Neuro識(shí)別速度是6942張圖每秒,能效達(dá)每2776張圖像僅用一瓦特

  看P-Neuro是怎樣斃掉嵌入式CPU和GPU的(來(lái)源CEA)

  對(duì)比嵌入式GPU(如英偉達(dá)的Tegra K1), 基于 FPGA的P-Neuro 可以運(yùn)行在100MHZ并被證明效率上快了一到兩倍,能效方面更是提供四到五倍

  P-Neuro 建立在SIMD架構(gòu)的基礎(chǔ)上,并以內(nèi)存層級(jí)結(jié)構(gòu)的優(yōu)化以及互聯(lián)為特點(diǎn)

  P-Neuro(來(lái)源CEA)

  歐盟項(xiàng)目

  “就CEA研究者來(lái)說(shuō),P-Neuro “是一個(gè)短期芯片”Duranton 強(qiáng)調(diào)。P-Neuro 是用二進(jìn)制編碼嵌入在一個(gè)完整的CMOS器件上。該項(xiàng)目組也同時(shí)在進(jìn)行在一個(gè)完整CMOS設(shè)備上運(yùn)行脈沖尖峰編碼的工作。

  為了能充分利用先進(jìn)設(shè)備來(lái)突破密度和功耗的問(wèn)題,該團(tuán)隊(duì)也已經(jīng)設(shè)定了更高的目標(biāo)

  同時(shí)歐盟作為EU地平線2020計(jì)劃的一分子,正在尋找“擬制造一款芯片來(lái)實(shí)施神經(jīng)元架構(gòu)支持最頂級(jí)的機(jī)器學(xué)習(xí)并且支持基于脈沖尖峰(spike,nerve impluse=spike)的學(xué)習(xí)機(jī)理

  這個(gè)項(xiàng)目的名稱叫做NeuRAM3, 據(jù)稱其芯片將具備超低功耗,可測(cè)量以及高可控性的神經(jīng)架構(gòu)“項(xiàng)目的目的在于能夠在特定應(yīng)用中比常規(guī)數(shù)字化方案節(jié)約50倍的能耗。

  神經(jīng)元形態(tài)處理器

  神經(jīng)形態(tài)處理器基礎(chǔ)說(shuō)明(來(lái)源: Prof. Giacomo Indiveri)

 

  CEA是一個(gè)深度融合的項(xiàng)目,CEA的自主研究目標(biāo)是與NeuRAM3項(xiàng)目來(lái)說(shuō)幾乎是相同的。這就包含了FD-SOL單片集成3D技術(shù)的開發(fā),以及RRAM存儲(chǔ)器突觸元素的使用。

  與IBM的叫做TrueNorth 腦力激發(fā)系統(tǒng)相比較,NeuRAM3項(xiàng)目的新混合信號(hào)多核新神經(jīng)形態(tài)設(shè)備應(yīng)該能夠大幅降低能源的消耗。

  與IBM的TrueNorth對(duì)比

  其它NeuRAM3項(xiàng)目的參與者包括了:IMEC,以及IBM蘇黎世,ST微電子,CNR,IMSE,蘇黎世大學(xué)和德國(guó)雅各布斯大學(xué)

 

2025china原創(chuàng),轉(zhuǎn)載請(qǐng)注明!  

ZERO1整理編譯

(轉(zhuǎn)載)

標(biāo)簽:人工智能 AI 芯片 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]