人工智能

商湯大裝置加碼“算電一體化協(xié)同”,推理性能提升4倍

ainet.cn   2024年08月30日

隨著大模型對(duì)算力需求的劇增, “算電一體化協(xié)同”勢(shì)在必行!去年12月,國(guó)家發(fā)改委等部門(mén)聯(lián)合印發(fā)《深入實(shí)施“東數(shù)西算”工程 加快構(gòu)建全國(guó)一體化算力網(wǎng)的實(shí)施意見(jiàn)》明確提出,2025年底,算力電力雙向協(xié)同機(jī)制初步形成,國(guó)家樞紐節(jié)點(diǎn)新建數(shù)據(jù)中心綠電占比超過(guò)80%。作為國(guó)內(nèi)AI基礎(chǔ)設(shè)施服務(wù)的領(lǐng)導(dǎo)者,商湯大裝置積極推進(jìn)訓(xùn)推一體、算電協(xié)同等創(chuàng)新技術(shù)的應(yīng)用,并取得顯著成效:

根據(jù)商湯科技2024 H1財(cái)報(bào),在推理場(chǎng)景中,商湯大裝置實(shí)現(xiàn)了相同算力及電力成本下的每秒請(qǐng)求數(shù)(QPS)4倍提升,并實(shí)現(xiàn)了推理服務(wù)彈性按需伸縮,優(yōu)化了大規(guī)模AI推理的整體成本。

在本周舉辦的中國(guó)智算產(chǎn)業(yè)綠色科技大會(huì)上,商湯科技大裝置事業(yè)群智算中心運(yùn)維總監(jiān)張煦具體分享了商湯推進(jìn)“算電一體化協(xié)同”,打造下一代可持續(xù)AI基礎(chǔ)設(shè)施的相關(guān)實(shí)踐。

搭乘“東數(shù)西算”東風(fēng),

打造算電一體化協(xié)同管理平臺(tái)

算電協(xié)同的出發(fā)點(diǎn)在于通過(guò)集約化的AI基礎(chǔ)設(shè)施建設(shè)和運(yùn)營(yíng),降低全生命周期成本(TCO)。提升系統(tǒng)負(fù)載率優(yōu)化算力利用率、通過(guò)合理選址和綠電接入降低電費(fèi)成本,均是實(shí)現(xiàn)算電協(xié)同的有效手段。

國(guó)家“東數(shù)西算”工程,更為算電協(xié)同提供了政策東風(fēng)。

在我國(guó),西部電力成本相對(duì)低廉,清潔能源資源豐富,但應(yīng)用場(chǎng)景相對(duì)較少,需要更多算力基礎(chǔ)設(shè)施來(lái)促進(jìn)清潔能源的消納;而東部雖然清潔能源資源相對(duì)較少,但用戶(hù)場(chǎng)景豐富,有著大量的算力需求。

西部豐富的清潔能源與東部旺盛的算力需求,形成了良好的互補(bǔ)關(guān)系。

為助推東部與西部的算電協(xié)同,商湯提出了“源、網(wǎng)、儲(chǔ)、荷”一體化的解決路徑,從發(fā)電側(cè)到用戶(hù)側(cè)進(jìn)行全方位的協(xié)同管理,實(shí)現(xiàn)算力基礎(chǔ)設(shè)施和電力網(wǎng)絡(luò)的統(tǒng)一規(guī)劃、智能調(diào)度。

在發(fā)電側(cè),商湯通過(guò)合理選址,實(shí)現(xiàn)綠電能源的本地消納,并結(jié)合大模型賦能虛擬電廠的區(qū)域調(diào)度;在用戶(hù)側(cè),進(jìn)行精準(zhǔn)用電負(fù)荷的用能管理,并提高算力復(fù)合預(yù)測(cè)的準(zhǔn)確性。

商湯還打造了算電一體化協(xié)同管理平臺(tái),對(duì)算力和電力兩個(gè)維度的數(shù)據(jù)進(jìn)行整合、運(yùn)營(yíng)和預(yù)測(cè),不斷提高CUE(Compute Utilization Efficiency,計(jì)算利用效率)、增進(jìn)算力效率;降低PUE(Power Usage Effectiveness,電源使用效率)、減小電費(fèi)成本。

那么,如何提高CUE,降低PUE?

智算中心的訓(xùn)練任務(wù)具有非常大的波動(dòng)性,且不規(guī)律,需求時(shí)間段不穩(wěn)定;而推理任務(wù)有規(guī)律,需求時(shí)間段穩(wěn)定。如果按傳統(tǒng)的訓(xùn)、推分離模式,那么計(jì)算資源將閑置。

為此,商湯引入了更加靈活的“訓(xùn)推一體"調(diào)度架構(gòu),通過(guò)動(dòng)態(tài)調(diào)度、離線推理、后臺(tái)微調(diào)、斷點(diǎn)續(xù)訓(xùn)、削峰填谷,最大程度地提高算效CUE,減少資源的閑置和浪費(fèi)。

在PUE能效優(yōu)化方面,商湯不僅通過(guò)調(diào)整暖通運(yùn)行策略等方式降低能源消耗,還利用基于“日日新”大模型打造的能源大模型體系,對(duì)算力的應(yīng)用場(chǎng)景進(jìn)行負(fù)載率和電力需求量的趨勢(shì)預(yù)測(cè),以實(shí)現(xiàn)更精準(zhǔn)的能耗管理。

此外,商湯還構(gòu)建了全生命周期標(biāo)準(zhǔn)化運(yùn)維管理體系,研發(fā)了運(yùn)維大模型與 AI智能運(yùn)維管理平臺(tái),利用數(shù)字化與智能化技術(shù)提升運(yùn)營(yíng)效率15%,通過(guò)動(dòng)態(tài)制冷優(yōu)化,實(shí)現(xiàn)能耗降低5%。

商湯大裝置運(yùn)營(yíng)總算力突破20,000P,為行業(yè)輸出高能效比綠色智算服務(wù)

目前,商湯已在AIDC開(kāi)展算電協(xié)同試點(diǎn)實(shí)踐,通過(guò)能源大模型進(jìn)行精準(zhǔn)的能耗預(yù)測(cè)和設(shè)備調(diào)優(yōu)調(diào)參,有效降低了PUE,并通過(guò)軟件層面的訓(xùn)練框架優(yōu)化,不斷提升CUE。

截至2024年8月,商湯大裝置運(yùn)營(yíng)總算力規(guī)模已突破20,000 PetaFLOPS。隨著算電一體化協(xié)同的推進(jìn),大裝置將能夠?yàn)樾袠I(yè)輸出更高能效比的綠色智算服務(wù),幫助更多企業(yè)高效、低成本地?fù)肀墒紸I技術(shù)的紅利。

根據(jù)此前IDC發(fā)布的《中國(guó)智算服務(wù)市場(chǎng)(2023下半年)跟蹤》,商湯大裝置躋身2023年下半年中國(guó)GenAI IaaS服務(wù)廠商TOP 3,位居行業(yè)第一梯隊(duì)。

此外,經(jīng)中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院專(zhuān)家審核,商湯大裝置還通過(guò)了算力服務(wù)能力成熟度(CPMM)增強(qiáng)級(jí)評(píng)估,成為首個(gè)通過(guò)該評(píng)估的企業(yè)。

展望未來(lái),算電協(xié)同的推進(jìn)需要政府的統(tǒng)籌和產(chǎn)業(yè)上下游的緊密合作,通過(guò)更加靈活、更具針對(duì)性的選址和綠電接入,結(jié)合架構(gòu)的調(diào)優(yōu)和軟件的優(yōu)化,真正消除從電力到算力再到AI場(chǎng)景應(yīng)用上的不等式,推動(dòng)AI基礎(chǔ)設(shè)施的可持續(xù)發(fā)展。

(來(lái)源:商湯科技)

標(biāo)簽:商湯科技 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書(shū)下載
ABB協(xié)作機(jī)器人,自動(dòng)化從未如此簡(jiǎn)單
優(yōu)傲機(jī)器人下載中心
2024全景工博會(huì)
專(zhuān)題報(bào)道
2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國(guó)內(nèi)外企業(yè)推進(jìn)“雙碳”實(shí)踐的最新成果,鼓勵(lì)更多企業(yè)、科研機(jī)構(gòu)、投資機(jī)構(gòu)等廣泛... [更多]

中國(guó)國(guó)際進(jìn)口博覽會(huì)
中國(guó)國(guó)際進(jìn)口博覽會(huì)

11月5日至10日,第七屆中國(guó)國(guó)際進(jìn)口博覽會(huì)在國(guó)家會(huì)展中心(上海)舉行。152個(gè)國(guó)家、地區(qū)和國(guó)際組織,近3500家參展企... [更多]

2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]