大數(shù)據(jù)

200萬IOPS突破傳統(tǒng)存儲瓶頸!Polaris定義智算數(shù)據(jù)讀寫新基準(zhǔn)

ainet.cn   2025年04月16日

在智算時代,AI技術(shù)的迅猛發(fā)展不斷突破數(shù)據(jù)處理能力的邊界,存儲系統(tǒng)的性能已成為制約大規(guī)模AI訓(xùn)練效率的關(guān)鍵瓶頸。其中,IOPS(每秒讀取次數(shù))作為衡量存儲性能的核心指標(biāo)之一,直接決定了系統(tǒng)處理海量數(shù)據(jù)請求的能力。尤其在自然語言模型訓(xùn)練等場景中,動輒百萬級的小文件高頻讀取需求,使得傳統(tǒng)存儲架構(gòu)面臨前所未有的挑戰(zhàn)。這種突破物理介質(zhì)極限的性能要求,不僅重新定義了智算時代存儲系統(tǒng)的能力標(biāo)準(zhǔn),更催生了分布式存儲架構(gòu)的創(chuàng)新革命。

AI訓(xùn)練為什么需要百萬IOPS

近年來,AI領(lǐng)域取得了顯著的發(fā)展,成為廣泛關(guān)注的熱點。AI的工作負載主要由兩個關(guān)鍵階段組成:訓(xùn)練和推理。在訓(xùn)練階段,存儲系統(tǒng)的性能對于整體效率至關(guān)重要,特別是在兩個方面:訓(xùn)練數(shù)據(jù)的加載和檢查點(checkpoint)的保存。檢查點是一組GB到TB級不等的大文件,快速保存檢查點對存儲的要求是提供高帶寬能力。那么訓(xùn)練數(shù)據(jù)的特點是什么?對存儲的要求又是什么?

以H100和A100推薦存儲性能為例,可以更清晰地了解AI服務(wù)器在處理自然語言模型時對存儲系統(tǒng)的要求。在自然語言處理任務(wù)中,數(shù)據(jù)集通常由大量小文本文件組成,平均文件大小約為2KB。對于A100單節(jié)點AI服務(wù)器,其推薦的讀帶寬為2GB/s。這意味著,為了充分利用這一帶寬,系統(tǒng)需要每秒處理多達100萬個小文件的讀取操作。

同樣,H100單節(jié)點AI服務(wù)器在滿帶寬條件下的需求更為顯著,每秒需要讀取多達200萬個小文件。這些數(shù)據(jù)表明,AI服務(wù)器在自然語言模型訓(xùn)練中對存儲系統(tǒng)提出了極高的性能要求,尤其是在小文件的高頻讀取方面。存儲系統(tǒng)必須具備極高的并發(fā)處理能力和低延遲,以確保在如此高的文件訪問頻率下仍能保持穩(wěn)定和高效的性能。

超百萬IOPS是如何煉成的

處理海量小文件的讀寫操作通常會帶來高額的I/O開銷和沉重的元數(shù)據(jù)管理負擔(dān)。在這些操作中,元數(shù)據(jù)處理往往占據(jù)了很大的比例,可能達到整體操作的70%至80%。這使得元數(shù)據(jù)性能成為限制系統(tǒng)IOPS的主要瓶頸之一。

為應(yīng)對這一挑戰(zhàn),Polaris系統(tǒng)引入了一種高效的元數(shù)據(jù)管理框架,能夠提供百萬級的IOPS性能。首先,Polaris采用了一種全局分散的元數(shù)據(jù)處理策略,將元數(shù)據(jù)均勻分布到多個節(jié)點進行處理。這種方法有效地消除了單點瓶頸,極大地提高了系統(tǒng)的并發(fā)處理能力。

其次,Polaris引入了全局共享的分布式緩存策略,為業(yè)務(wù)I/O提供了一個共享的分布式緩存加速資源池。用戶的寫請求在被寫入該緩存池后立即返回成功確認,從而顯著提升了請求的響應(yīng)速度。在數(shù)據(jù)落盤時,Polaris通過ROW(Redirect-on-write:寫時重定向)技術(shù),將隨機的小I/O操作聚合成大I/O進行順序?qū)懭?。這不僅有效地減少了EC(糾刪碼)場景下的寫懲罰,還降低了元數(shù)據(jù)操作次數(shù)及CPU的開銷,同時減少了容量浪費。

這些技術(shù)應(yīng)用顯著提升了Polaris在處理小文件時的性能表現(xiàn),使其能夠更高效地應(yīng)對海量小文件操作帶來的挑戰(zhàn)。

全局分散的元數(shù)據(jù)處理方式:

● MDS(元數(shù)據(jù)服務(wù))采用全主模式,每個元數(shù)據(jù)節(jié)點提供n個VMDS服務(wù)。

● 每個VMDS處理歸屬自己的元數(shù)據(jù),處理能力隨硬件資源提升線性提升。

● 目錄A創(chuàng)建后,系統(tǒng)會為其自動生成x個虛擬目錄

● 虛擬目錄通過hash算法隨機打散到VMDS上。每個虛擬目錄對應(yīng)固定的VMDS服務(wù)(假設(shè)虛擬目錄1對應(yīng)的元數(shù)據(jù)服務(wù)是VMDS n)。

● 當(dāng)向目錄A寫入文件file1時,系統(tǒng)會根據(jù)file1的文件名稱計算落到哪個虛擬目錄(假設(shè)落到虛擬目錄1),file1的元數(shù)據(jù)處理就自動分配到VMDS n。

全局分布式緩存&ROW技術(shù):

● 業(yè)務(wù)主機下發(fā)的小IO寫入分布式緩存后,即返回完成,縮短IO路徑。

● 數(shù)據(jù)在分布式緩存中,隨機小IO通過ROW技術(shù)聚合成大IO順序落盤。EC場景則聚合成滿條帶寫入持久化介質(zhì)。避免了未滿條帶的情況下帶來的寫懲罰,無需將原有數(shù)據(jù)讀出后計算新的校驗位再寫入。減少了元數(shù)據(jù)的操作次數(shù)和CPU開銷,從而提升了系統(tǒng)性能。

伴隨著AI的快速發(fā)展,高效的數(shù)據(jù)存儲系統(tǒng)必將成為AI訓(xùn)練增效的下一個引擎。新華三的Polaris全閃分布式存儲系統(tǒng),憑借其超強性能、架構(gòu)簡化和極致穩(wěn)定性,為更多企業(yè)和用戶提供了便捷、高效的AI存儲解決方案,推動數(shù)據(jù)存儲、AI計算和大模型訓(xùn)練的高效協(xié)同,為AI創(chuàng)新注入新的活力。

(來源:新華三)

標(biāo)簽:新華三 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
ABB協(xié)作機器人,自動化從未如此簡單
優(yōu)傲機器人下載中心
2024全景工博會
專題報道
2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進“雙碳”實踐的最新成果,鼓勵更多企業(yè)、科研機構(gòu)、投資機構(gòu)等廣泛... [更多]

中國國際進口博覽會
中國國際進口博覽會

11月5日至10日,第七屆中國國際進口博覽會在國家會展中心(上海)舉行。152個國家、地區(qū)和國際組織,近3500家參展企... [更多]

2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]