siemens x
人工智能

商湯大裝置加碼“算電一體化協(xié)同”,推理性能提升4倍

2025China.cn   2024年08月30日

隨著大模型對算力需求的劇增, “算電一體化協(xié)同”勢在必行!去年12月,國家發(fā)改委等部門聯(lián)合印發(fā)《深入實施“東數(shù)西算”工程 加快構(gòu)建全國一體化算力網(wǎng)的實施意見》明確提出,2025年底,算力電力雙向協(xié)同機(jī)制初步形成,國家樞紐節(jié)點新建數(shù)據(jù)中心綠電占比超過80%。作為國內(nèi)AI基礎(chǔ)設(shè)施服務(wù)的領(lǐng)導(dǎo)者,商湯大裝置積極推進(jìn)訓(xùn)推一體、算電協(xié)同等創(chuàng)新技術(shù)的應(yīng)用,并取得顯著成效:

根據(jù)商湯科技2024 H1財報,在推理場景中,商湯大裝置實現(xiàn)了相同算力及電力成本下的每秒請求數(shù)(QPS)4倍提升,并實現(xiàn)了推理服務(wù)彈性按需伸縮,優(yōu)化了大規(guī)模AI推理的整體成本。

在本周舉辦的中國智算產(chǎn)業(yè)綠色科技大會上,商湯科技大裝置事業(yè)群智算中心運維總監(jiān)張煦具體分享了商湯推進(jìn)“算電一體化協(xié)同”,打造下一代可持續(xù)AI基礎(chǔ)設(shè)施的相關(guān)實踐。

搭乘“東數(shù)西算”東風(fēng),

打造算電一體化協(xié)同管理平臺

算電協(xié)同的出發(fā)點在于通過集約化的AI基礎(chǔ)設(shè)施建設(shè)和運營,降低全生命周期成本(TCO)。提升系統(tǒng)負(fù)載率優(yōu)化算力利用率、通過合理選址和綠電接入降低電費成本,均是實現(xiàn)算電協(xié)同的有效手段。

國家“東數(shù)西算”工程,更為算電協(xié)同提供了政策東風(fēng)。

在我國,西部電力成本相對低廉,清潔能源資源豐富,但應(yīng)用場景相對較少,需要更多算力基礎(chǔ)設(shè)施來促進(jìn)清潔能源的消納;而東部雖然清潔能源資源相對較少,但用戶場景豐富,有著大量的算力需求。

西部豐富的清潔能源與東部旺盛的算力需求,形成了良好的互補(bǔ)關(guān)系。

為助推東部與西部的算電協(xié)同,商湯提出了“源、網(wǎng)、儲、荷”一體化的解決路徑,從發(fā)電側(cè)到用戶側(cè)進(jìn)行全方位的協(xié)同管理,實現(xiàn)算力基礎(chǔ)設(shè)施和電力網(wǎng)絡(luò)的統(tǒng)一規(guī)劃、智能調(diào)度。

在發(fā)電側(cè),商湯通過合理選址,實現(xiàn)綠電能源的本地消納,并結(jié)合大模型賦能虛擬電廠的區(qū)域調(diào)度;在用戶側(cè),進(jìn)行精準(zhǔn)用電負(fù)荷的用能管理,并提高算力復(fù)合預(yù)測的準(zhǔn)確性。

商湯還打造了算電一體化協(xié)同管理平臺,對算力和電力兩個維度的數(shù)據(jù)進(jìn)行整合、運營和預(yù)測,不斷提高CUE(Compute Utilization Efficiency,計算利用效率)、增進(jìn)算力效率;降低PUE(Power Usage Effectiveness,電源使用效率)、減小電費成本。

那么,如何提高CUE,降低PUE?

智算中心的訓(xùn)練任務(wù)具有非常大的波動性,且不規(guī)律,需求時間段不穩(wěn)定;而推理任務(wù)有規(guī)律,需求時間段穩(wěn)定。如果按傳統(tǒng)的訓(xùn)、推分離模式,那么計算資源將閑置。

為此,商湯引入了更加靈活的“訓(xùn)推一體"調(diào)度架構(gòu),通過動態(tài)調(diào)度、離線推理、后臺微調(diào)、斷點續(xù)訓(xùn)、削峰填谷,最大程度地提高算效CUE,減少資源的閑置和浪費。

在PUE能效優(yōu)化方面,商湯不僅通過調(diào)整暖通運行策略等方式降低能源消耗,還利用基于“日日新”大模型打造的能源大模型體系,對算力的應(yīng)用場景進(jìn)行負(fù)載率和電力需求量的趨勢預(yù)測,以實現(xiàn)更精準(zhǔn)的能耗管理。

此外,商湯還構(gòu)建了全生命周期標(biāo)準(zhǔn)化運維管理體系,研發(fā)了運維大模型與 AI智能運維管理平臺,利用數(shù)字化與智能化技術(shù)提升運營效率15%,通過動態(tài)制冷優(yōu)化,實現(xiàn)能耗降低5%。

商湯大裝置運營總算力突破20,000P,為行業(yè)輸出高能效比綠色智算服務(wù)

目前,商湯已在AIDC開展算電協(xié)同試點實踐,通過能源大模型進(jìn)行精準(zhǔn)的能耗預(yù)測和設(shè)備調(diào)優(yōu)調(diào)參,有效降低了PUE,并通過軟件層面的訓(xùn)練框架優(yōu)化,不斷提升CUE。

截至2024年8月,商湯大裝置運營總算力規(guī)模已突破20,000 PetaFLOPS。隨著算電一體化協(xié)同的推進(jìn),大裝置將能夠為行業(yè)輸出更高能效比的綠色智算服務(wù),幫助更多企業(yè)高效、低成本地?fù)肀墒紸I技術(shù)的紅利。

根據(jù)此前IDC發(fā)布的《中國智算服務(wù)市場(2023下半年)跟蹤》,商湯大裝置躋身2023年下半年中國GenAI IaaS服務(wù)廠商TOP 3,位居行業(yè)第一梯隊。

此外,經(jīng)中國電子技術(shù)標(biāo)準(zhǔn)化研究院專家審核,商湯大裝置還通過了算力服務(wù)能力成熟度(CPMM)增強(qiáng)級評估,成為首個通過該評估的企業(yè)。

展望未來,算電協(xié)同的推進(jìn)需要政府的統(tǒng)籌和產(chǎn)業(yè)上下游的緊密合作,通過更加靈活、更具針對性的選址和綠電接入,結(jié)合架構(gòu)的調(diào)優(yōu)和軟件的優(yōu)化,真正消除從電力到算力再到AI場景應(yīng)用上的不等式,推動AI基礎(chǔ)設(shè)施的可持續(xù)發(fā)展。

(來源:商湯科技)

標(biāo)簽:商湯科技 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]