隨著大模型對(duì)算力需求的劇增, “算電一體化協(xié)同”勢(shì)在必行!去年12月,國(guó)家發(fā)改委等部門(mén)聯(lián)合印發(fā)《深入實(shí)施“東數(shù)西算”工程 加快構(gòu)建全國(guó)一體化算力網(wǎng)的實(shí)施意見(jiàn)》明確提出,2025年底,算力電力雙向協(xié)同機(jī)制初步形成,國(guó)家樞紐節(jié)點(diǎn)新建數(shù)據(jù)中心綠電占比超過(guò)80%。作為國(guó)內(nèi)AI基礎(chǔ)設(shè)施服務(wù)的領(lǐng)導(dǎo)者,商湯大裝置積極推進(jìn)訓(xùn)推一體、算電協(xié)同等創(chuàng)新技術(shù)的應(yīng)用,并取得顯著成效:
根據(jù)商湯科技2024 H1財(cái)報(bào),在推理場(chǎng)景中,商湯大裝置實(shí)現(xiàn)了相同算力及電力成本下的每秒請(qǐng)求數(shù)(QPS)4倍提升,并實(shí)現(xiàn)了推理服務(wù)彈性按需伸縮,優(yōu)化了大規(guī)模AI推理的整體成本。
在本周舉辦的中國(guó)智算產(chǎn)業(yè)綠色科技大會(huì)上,商湯科技大裝置事業(yè)群智算中心運(yùn)維總監(jiān)張煦具體分享了商湯推進(jìn)“算電一體化協(xié)同”,打造下一代可持續(xù)AI基礎(chǔ)設(shè)施的相關(guān)實(shí)踐。
搭乘“東數(shù)西算”東風(fēng),
打造算電一體化協(xié)同管理平臺(tái)
算電協(xié)同的出發(fā)點(diǎn)在于通過(guò)集約化的AI基礎(chǔ)設(shè)施建設(shè)和運(yùn)營(yíng),降低全生命周期成本(TCO)。提升系統(tǒng)負(fù)載率優(yōu)化算力利用率、通過(guò)合理選址和綠電接入降低電費(fèi)成本,均是實(shí)現(xiàn)算電協(xié)同的有效手段。
國(guó)家“東數(shù)西算”工程,更為算電協(xié)同提供了政策東風(fēng)。
在我國(guó),西部電力成本相對(duì)低廉,清潔能源資源豐富,但應(yīng)用場(chǎng)景相對(duì)較少,需要更多算力基礎(chǔ)設(shè)施來(lái)促進(jìn)清潔能源的消納;而東部雖然清潔能源資源相對(duì)較少,但用戶(hù)場(chǎng)景豐富,有著大量的算力需求。
西部豐富的清潔能源與東部旺盛的算力需求,形成了良好的互補(bǔ)關(guān)系。
為助推東部與西部的算電協(xié)同,商湯提出了“源、網(wǎng)、儲(chǔ)、荷”一體化的解決路徑,從發(fā)電側(cè)到用戶(hù)側(cè)進(jìn)行全方位的協(xié)同管理,實(shí)現(xiàn)算力基礎(chǔ)設(shè)施和電力網(wǎng)絡(luò)的統(tǒng)一規(guī)劃、智能調(diào)度。
在發(fā)電側(cè),商湯通過(guò)合理選址,實(shí)現(xiàn)綠電能源的本地消納,并結(jié)合大模型賦能虛擬電廠的區(qū)域調(diào)度;在用戶(hù)側(cè),進(jìn)行精準(zhǔn)用電負(fù)荷的用能管理,并提高算力復(fù)合預(yù)測(cè)的準(zhǔn)確性。
商湯還打造了算電一體化協(xié)同管理平臺(tái),對(duì)算力和電力兩個(gè)維度的數(shù)據(jù)進(jìn)行整合、運(yùn)營(yíng)和預(yù)測(cè),不斷提高CUE(Compute Utilization Efficiency,計(jì)算利用效率)、增進(jìn)算力效率;降低PUE(Power Usage Effectiveness,電源使用效率)、減小電費(fèi)成本。
那么,如何提高CUE,降低PUE?
智算中心的訓(xùn)練任務(wù)具有非常大的波動(dòng)性,且不規(guī)律,需求時(shí)間段不穩(wěn)定;而推理任務(wù)有規(guī)律,需求時(shí)間段穩(wěn)定。如果按傳統(tǒng)的訓(xùn)、推分離模式,那么計(jì)算資源將閑置。
為此,商湯引入了更加靈活的“訓(xùn)推一體"調(diào)度架構(gòu),通過(guò)動(dòng)態(tài)調(diào)度、離線推理、后臺(tái)微調(diào)、斷點(diǎn)續(xù)訓(xùn)、削峰填谷,最大程度地提高算效CUE,減少資源的閑置和浪費(fèi)。
在PUE能效優(yōu)化方面,商湯不僅通過(guò)調(diào)整暖通運(yùn)行策略等方式降低能源消耗,還利用基于“日日新”大模型打造的能源大模型體系,對(duì)算力的應(yīng)用場(chǎng)景進(jìn)行負(fù)載率和電力需求量的趨勢(shì)預(yù)測(cè),以實(shí)現(xiàn)更精準(zhǔn)的能耗管理。
此外,商湯還構(gòu)建了全生命周期標(biāo)準(zhǔn)化運(yùn)維管理體系,研發(fā)了運(yùn)維大模型與 AI智能運(yùn)維管理平臺(tái),利用數(shù)字化與智能化技術(shù)提升運(yùn)營(yíng)效率15%,通過(guò)動(dòng)態(tài)制冷優(yōu)化,實(shí)現(xiàn)能耗降低5%。
商湯大裝置運(yùn)營(yíng)總算力突破20,000P,為行業(yè)輸出高能效比綠色智算服務(wù)
目前,商湯已在AIDC開(kāi)展算電協(xié)同試點(diǎn)實(shí)踐,通過(guò)能源大模型進(jìn)行精準(zhǔn)的能耗預(yù)測(cè)和設(shè)備調(diào)優(yōu)調(diào)參,有效降低了PUE,并通過(guò)軟件層面的訓(xùn)練框架優(yōu)化,不斷提升CUE。
截至2024年8月,商湯大裝置運(yùn)營(yíng)總算力規(guī)模已突破20,000 PetaFLOPS。隨著算電一體化協(xié)同的推進(jìn),大裝置將能夠?yàn)樾袠I(yè)輸出更高能效比的綠色智算服務(wù),幫助更多企業(yè)高效、低成本地?fù)肀墒紸I技術(shù)的紅利。
根據(jù)此前IDC發(fā)布的《中國(guó)智算服務(wù)市場(chǎng)(2023下半年)跟蹤》,商湯大裝置躋身2023年下半年中國(guó)GenAI IaaS服務(wù)廠商TOP 3,位居行業(yè)第一梯隊(duì)。
此外,經(jīng)中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院專(zhuān)家審核,商湯大裝置還通過(guò)了算力服務(wù)能力成熟度(CPMM)增強(qiáng)級(jí)評(píng)估,成為首個(gè)通過(guò)該評(píng)估的企業(yè)。
展望未來(lái),算電協(xié)同的推進(jìn)需要政府的統(tǒng)籌和產(chǎn)業(yè)上下游的緊密合作,通過(guò)更加靈活、更具針對(duì)性的選址和綠電接入,結(jié)合架構(gòu)的調(diào)優(yōu)和軟件的優(yōu)化,真正消除從電力到算力再到AI場(chǎng)景應(yīng)用上的不等式,推動(dòng)AI基礎(chǔ)設(shè)施的可持續(xù)發(fā)展。
(來(lái)源:商湯科技)