siemens x
人工智能

寒武紀7nm訓練芯片思元290及玄思1000加速器正式亮相

2025China.cn   2021年01月21日

  1月21日,寒武紀思元290智能芯片及加速卡、玄思1000智能加速器量產(chǎn)落地后首次正式亮相。思元290智能芯片是寒武紀的首顆訓練芯片,采用臺積電7nm先進制程工藝,集成460億個晶體管,支持MLUv02擴展架構(gòu),全面支持AI訓練、推理或混合型人工智能計算加速任務。

▲寒武紀首顆訓練芯片思元290

  寒武紀MLU290-M5智能加速卡搭載思元290智能芯片,采用開放加速模塊OAM設計,具備64個MLU Core,1.23TB/s內(nèi)存帶寬以及全新MLU-Link?多芯互聯(lián)技術(shù),在350W的最大散熱功耗下提供AI算力高達1024 TOPS(INT4)。

  寒武紀玄思1000智能加速器,在2U機箱內(nèi)集成4顆思元290智能芯片,高速本地閃存、Mellanox InfiniBand網(wǎng)絡,對外提供高速MLU-Link?接口,打破智能芯片、服務器、POD與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴展架構(gòu),實現(xiàn)AI算力在計算中心級縱向擴展,是AI算力的高集成度平臺。

  寒武紀訓練產(chǎn)品線采用自適應精度訓練方案,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等領域的復雜AI應用場景提供充裕算力,推動人工智能賦能產(chǎn)業(yè)升級。

思元290采用MLUv02擴展架構(gòu)

  MLUv02架構(gòu)為寒武紀MLU200全產(chǎn)品線共享,滿足云、邊、端三個場景的算力需求。云端訓練對AI算力的要求更為苛刻,因此寒武紀對思元290的MLUv02架構(gòu)進行了多項擴展,包括業(yè)內(nèi)領先的MLU-Link?多芯互聯(lián)技術(shù)、高帶寬HBM2內(nèi)存、高速片上總線NOC以及新一代PCIe 4.0接口。相比寒武紀思元270芯片,思元290芯片實現(xiàn)峰值算力提升4倍、內(nèi)存帶寬提高12倍、芯片間通訊帶寬提高19倍。新架構(gòu)結(jié)合7nm制程,思元290可提供更優(yōu)性能功耗比,以及多MLU系統(tǒng)的擴展能力。

▲MLU290的MLUv02架構(gòu)進行了多項擴展。

寒武紀MLU-Link?多芯互聯(lián)技術(shù)

  近年來,AI算法模型的復雜程度高速增長,對算力和訓練速度提出了更高的要求。為了構(gòu)建更強大的計算平臺,多芯片間的互聯(lián)技術(shù)已成為市場剛需。

  寒武紀推出MLU-Link?多芯互聯(lián)技術(shù),并首次搭載于寒武紀思元290芯片,每顆思元290的多芯互聯(lián)總帶寬高達600GB/s。MLU-Link?具備豐富的互聯(lián)特性,突破PCIe帶寬和互聯(lián)的瓶頸,相比思元270芯片通過PCIe并行的通訊方式,帶寬提高19倍。MLU-Link?多芯互聯(lián)技術(shù)支持多顆思元芯片無縫互聯(lián),支持跨系統(tǒng)互聯(lián),將縱向擴展能力整合到整個人工智能計算中心(AIDC),可以端到端加速大型AI模型訓練。

▲思元290采用MLU-Link?多芯互聯(lián)技術(shù)進行互聯(lián),帶寬、靈活性全面優(yōu)于PCIe 3.0。

▲思元290相較思元270并行通訊總帶寬提升19倍。

寒武紀vMLU解決方案

  不同場景下的AI訓練對計算和存儲的要求千差萬別,如何提供更靈活也更穩(wěn)定的服務,但同時讓算力得到充分地利用,是AIDC面臨的持續(xù)挑戰(zhàn)。

  寒武紀虛擬化技術(shù)vMLU,支持在思元290上實現(xiàn)4個相互隔離的AI計算實例,每個實例獨占計算、內(nèi)存和編解碼資源。實例之間的硬件資源互不干擾,即使在虛擬化環(huán)境下仍可保持90%以上的極高效率,幫助客戶充分利用硬件資源。

▲思元290上實現(xiàn)4個相互隔離的AI計算實例。

  vMLU還可以幫助思元290芯片提供更好的靈活性。通過熱遷移技術(shù),云管理員可將正在運行的AI負載及其應用程序移動到另外一臺主機上,從而平衡整個AIDC的負載,并實現(xiàn)更好的容災功能。

▲vMLU 熱遷移

寒武紀首款訓練智能加速卡MLU290-M5

  寒武紀MLU290-M5智能加速卡搭載了思元290智能芯片,采用開放加速模塊OAM設計,具備64個MLU Core,1.23TB/s內(nèi)存帶寬以及全新MLU-Link?多芯互聯(lián)技術(shù),在350W的最大散熱功耗下提供AI算力高達1024 TOPS(INT4)。

▲寒武紀智能加速卡MLU290-M5

▲寒武紀智能加速卡MLU290-M5產(chǎn)品規(guī)格

寒武紀首款智能加速器玄思1000

  寒武紀首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超過4100萬億次每秒(4.1 PetaOPS INT4),一臺玄思1000計算單元就足以替代一個小型傳統(tǒng)超級計算中心。

  玄思1000內(nèi)置高帶寬低延時的MLU-Link?多芯互聯(lián)技術(shù),實現(xiàn)內(nèi)部4顆思元290進行高速互聯(lián),同時打破服務器、緊耦合微集群(POD)與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴展架構(gòu),將AIDC構(gòu)建為節(jié)點、POD乃至超大規(guī)?;旌蠑U展架構(gòu)(Hybrid Scale-out),實現(xiàn)AI算力計算中心級縱向擴展,滿足高性能、高擴展性、靈活性、高魯棒性的要求。

▲玄思1000是AI算力的高集成度平臺,支持計算中心級縱向擴展。

重塑AIDC基礎架構(gòu)

  算力、算法、數(shù)據(jù)是人工智能發(fā)展的三大要素,隨著這幾年AI的逐步發(fā)展,算力的核心地位更為突出。人工智能技術(shù)落地于實際應用中需要芯片和硬件層面強大的算力支撐。算力已成為驅(qū)動AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化發(fā)展的關鍵要素。

  下一代AIDC要求更多智能芯片無縫協(xié)同、并行運行的同時,還能保持高計算效率,從而提供超級巨大的算力,以應對超大規(guī)模訓練的需要。寒武紀玄思1000智能加速器重新思考了未來AIDC的基礎架構(gòu),在內(nèi)部和外部采用統(tǒng)一的MLU-Link?多芯互聯(lián)技術(shù)進行通訊,使得思元290智能芯片的互聯(lián)范圍可以從單機擴展到POD乃至整個計算中心,重塑了基礎架構(gòu)。

▲玄思1000支持8個400G MLU-Link?和2個200G網(wǎng)絡接口,總帶寬高達3600 Gbps,是傳統(tǒng)異構(gòu)服務器的2倍。

  玄思1000配置8個對外互聯(lián)的MLU-Link?接口,支持跨系統(tǒng)互聯(lián)構(gòu)建MLU POD。標準配置支持MLU POD 16、24、32。在POD內(nèi)部,所有290芯片均可通過MLU-Link?多芯互聯(lián)技術(shù)進行通訊,在帶寬和延時方面實現(xiàn)了突破;POD外部通過玄思1000內(nèi)置的網(wǎng)卡與其他系統(tǒng)進行通訊,實現(xiàn)了AI訓練集群性能、擴展性和魯棒性的協(xié)同提升。

▲POD內(nèi)所有思元芯片通過MLU-Link?全互聯(lián)。

  除了標準配置的POD之外,在計算中心條件允許的前提下,通過MLU-Link?多芯互聯(lián)技術(shù),可實現(xiàn)1024顆或更多思元290互聯(lián),不需要額外的網(wǎng)卡即可實現(xiàn)無縫加速。

寒武紀Neuware?訓練軟件棧

  寒武紀Neuware?軟件棧為思元290芯片提供完善的軟件及應用生態(tài),支持業(yè)界主流的TensorFlow和PyTorch等深度學習框架,用戶不需要改變使用習慣,即可在思元290芯片上實現(xiàn)圖形圖像、語音、NLP、搜索推薦等多種應用的訓練和推理。其中,基于Horovod分布式訓練框架與MLU-Link?多芯互聯(lián)技術(shù)相互配合,讓思元290在單機多卡、多機多卡的場景下達到業(yè)界領先的訓練加速比。寒武紀Neuware?提供完善的開發(fā)工具包和社區(qū)支持,幫助用戶在思元290芯片進行方便、靈活的定制開發(fā)及部署工作。配合強大的BANG智能編程語言及配套調(diào)試工具,用戶可以為自定義的算法提供最佳性能調(diào)優(yōu)。

▲寒武紀Neuware?軟件棧為思元290芯片提供完善的軟件及應用生態(tài)。

  寒武紀思元290芯片及加速卡已與部分硬件合作伙伴完成適配,并已實現(xiàn)規(guī)?;鲐?。寒武紀首顆訓練芯片思元290智能芯片及加速卡、玄思1000智能加速器訓練產(chǎn)品線的集中亮相,標志著寒武紀已建立“云邊端一體、軟硬件協(xié)同、訓練推理融合”的新生態(tài)。

  寒武紀將面向多樣化的人工智能應用場景與需求,持續(xù)開展智能芯片及其基礎系統(tǒng)軟件的研發(fā)和產(chǎn)品化,為人工智能技術(shù)在各行業(yè)的廣泛應用提供底層算力支撐。

(轉(zhuǎn)載)

標簽:寒武紀 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]