siemens x
嵌入式系統(tǒng)

利用 Xilinx 器件上的 INT8 優(yōu)化開(kāi)發(fā)嵌入式視覺(jué)

2025China.cn   2017年09月12日

  賽靈思 INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計(jì)算機(jī)視覺(jué)功能的嵌入式視覺(jué)應(yīng)用提供最優(yōu)異的性能和能效最出色的計(jì)算方法。與其他 FPGA DSP 架構(gòu)相比,賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運(yùn)算上能實(shí)現(xiàn) 1.75 倍的解決方案級(jí)性能。

  本白皮書(shū)探討將 INT8 運(yùn)算用于實(shí)現(xiàn)在賽靈思 DSP48E2 片上、使用深度學(xué)習(xí)推斷和計(jì)算機(jī)視覺(jué)功能的嵌入式視覺(jué)應(yīng)用,以及這種方案與其他 FPGA 的對(duì)比。與占用相同資源數(shù)量的其他 FPGA 相比,賽靈思的 DSP 架構(gòu)對(duì) INT8 乘法累加(MACC) 運(yùn)算能實(shí)現(xiàn) 1.75 倍的峰值解決方案級(jí)性能。由于嵌入式視覺(jué)應(yīng)用可以在不犧牲準(zhǔn)確性的情況下使用較低位精度,因此需要高效的 INT8 實(shí)現(xiàn)方案。

  賽靈思的 DSP 架構(gòu)和庫(kù)針對(duì) INT8 運(yùn)算進(jìn)行了精心優(yōu)化。本白皮書(shū)介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。本白皮書(shū)還闡述了要運(yùn)用賽靈思這一獨(dú)特技術(shù),為何輸入的最小位寬為 24 位。此外本白皮書(shū)還詳細(xì)介紹了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算術(shù)運(yùn)算使用。另外還提供在深度學(xué)習(xí)領(lǐng)域或其他計(jì)算機(jī)視覺(jué)處理任務(wù)領(lǐng)域如何將這些功能用于嵌入式視覺(jué)的實(shí)例。

  全書(shū)目錄

  用于深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的 INT8

  賽靈思 DSP Slice 片上的 INT8 運(yùn)算

  可擴(kuò)展的 INT8 優(yōu)化

  DSP48E2 SIMD 模式

  映射 INT8 優(yōu)化到深度學(xué)習(xí)應(yīng)用

  創(chuàng)建 INT8 鏈接 MACC 的其他方法

  映射 INT8 優(yōu)化到計(jì)算機(jī)視覺(jué)功能

  使用可擴(kuò)展 INT8 優(yōu)化的定制 2D 卷積

  使用 SIMD 運(yùn)算的中值濾波器

  競(jìng)爭(zhēng)分析

  在競(jìng)爭(zhēng)分析中使用英特爾的 Arria 10 器件與賽靈思的 Zynq? UltraScale+ ? MPSoC 對(duì)比。在進(jìn)行嵌入式視覺(jué)應(yīng)用計(jì)算效率比較時(shí),選擇的器件有可比的 DSP 密度和器件功耗:

  ? Arria 10 SoC :SX220、SX270 和 SX480

  ? Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件

  重點(diǎn)比較能用于包括深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)在內(nèi)的眾多應(yīng)用的通用 MACC 性能。

       

(轉(zhuǎn)載)

標(biāo)簽:Xilinx INT8 嵌入式視覺(jué) 我要反饋 
2024世界人工智能大會(huì)專(zhuān)題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專(zhuān)題報(bào)道