大數(shù)據(jù)

200萬IOPS突破傳統(tǒng)存儲瓶頸!Polaris定義智算數(shù)據(jù)讀寫新基準

ainet.cn   2025年04月16日

在智算時代,AI技術的迅猛發(fā)展不斷突破數(shù)據(jù)處理能力的邊界,存儲系統(tǒng)的性能已成為制約大規(guī)模AI訓練效率的關鍵瓶頸。其中,IOPS(每秒讀取次數(shù))作為衡量存儲性能的核心指標之一,直接決定了系統(tǒng)處理海量數(shù)據(jù)請求的能力。尤其在自然語言模型訓練等場景中,動輒百萬級的小文件高頻讀取需求,使得傳統(tǒng)存儲架構面臨前所未有的挑戰(zhàn)。這種突破物理介質(zhì)極限的性能要求,不僅重新定義了智算時代存儲系統(tǒng)的能力標準,更催生了分布式存儲架構的創(chuàng)新革命。

AI訓練為什么需要百萬IOPS

近年來,AI領域取得了顯著的發(fā)展,成為廣泛關注的熱點。AI的工作負載主要由兩個關鍵階段組成:訓練和推理。在訓練階段,存儲系統(tǒng)的性能對于整體效率至關重要,特別是在兩個方面:訓練數(shù)據(jù)的加載和檢查點(checkpoint)的保存。檢查點是一組GB到TB級不等的大文件,快速保存檢查點對存儲的要求是提供高帶寬能力。那么訓練數(shù)據(jù)的特點是什么?對存儲的要求又是什么?

以H100和A100推薦存儲性能為例,可以更清晰地了解AI服務器在處理自然語言模型時對存儲系統(tǒng)的要求。在自然語言處理任務中,數(shù)據(jù)集通常由大量小文本文件組成,平均文件大小約為2KB。對于A100單節(jié)點AI服務器,其推薦的讀帶寬為2GB/s。這意味著,為了充分利用這一帶寬,系統(tǒng)需要每秒處理多達100萬個小文件的讀取操作。

同樣,H100單節(jié)點AI服務器在滿帶寬條件下的需求更為顯著,每秒需要讀取多達200萬個小文件。這些數(shù)據(jù)表明,AI服務器在自然語言模型訓練中對存儲系統(tǒng)提出了極高的性能要求,尤其是在小文件的高頻讀取方面。存儲系統(tǒng)必須具備極高的并發(fā)處理能力和低延遲,以確保在如此高的文件訪問頻率下仍能保持穩(wěn)定和高效的性能。

超百萬IOPS是如何煉成的

處理海量小文件的讀寫操作通常會帶來高額的I/O開銷和沉重的元數(shù)據(jù)管理負擔。在這些操作中,元數(shù)據(jù)處理往往占據(jù)了很大的比例,可能達到整體操作的70%至80%。這使得元數(shù)據(jù)性能成為限制系統(tǒng)IOPS的主要瓶頸之一。

為應對這一挑戰(zhàn),Polaris系統(tǒng)引入了一種高效的元數(shù)據(jù)管理框架,能夠提供百萬級的IOPS性能。首先,Polaris采用了一種全局分散的元數(shù)據(jù)處理策略,將元數(shù)據(jù)均勻分布到多個節(jié)點進行處理。這種方法有效地消除了單點瓶頸,極大地提高了系統(tǒng)的并發(fā)處理能力。

其次,Polaris引入了全局共享的分布式緩存策略,為業(yè)務I/O提供了一個共享的分布式緩存加速資源池。用戶的寫請求在被寫入該緩存池后立即返回成功確認,從而顯著提升了請求的響應速度。在數(shù)據(jù)落盤時,Polaris通過ROW(Redirect-on-write:寫時重定向)技術,將隨機的小I/O操作聚合成大I/O進行順序寫入。這不僅有效地減少了EC(糾刪碼)場景下的寫懲罰,還降低了元數(shù)據(jù)操作次數(shù)及CPU的開銷,同時減少了容量浪費。

這些技術應用顯著提升了Polaris在處理小文件時的性能表現(xiàn),使其能夠更高效地應對海量小文件操作帶來的挑戰(zhàn)。

全局分散的元數(shù)據(jù)處理方式:

● MDS(元數(shù)據(jù)服務)采用全主模式,每個元數(shù)據(jù)節(jié)點提供n個VMDS服務。

● 每個VMDS處理歸屬自己的元數(shù)據(jù),處理能力隨硬件資源提升線性提升。

● 目錄A創(chuàng)建后,系統(tǒng)會為其自動生成x個虛擬目錄

● 虛擬目錄通過hash算法隨機打散到VMDS上。每個虛擬目錄對應固定的VMDS服務(假設虛擬目錄1對應的元數(shù)據(jù)服務是VMDS n)。

● 當向目錄A寫入文件file1時,系統(tǒng)會根據(jù)file1的文件名稱計算落到哪個虛擬目錄(假設落到虛擬目錄1),file1的元數(shù)據(jù)處理就自動分配到VMDS n。

全局分布式緩存&ROW技術:

● 業(yè)務主機下發(fā)的小IO寫入分布式緩存后,即返回完成,縮短IO路徑。

● 數(shù)據(jù)在分布式緩存中,隨機小IO通過ROW技術聚合成大IO順序落盤。EC場景則聚合成滿條帶寫入持久化介質(zhì)。避免了未滿條帶的情況下帶來的寫懲罰,無需將原有數(shù)據(jù)讀出后計算新的校驗位再寫入。減少了元數(shù)據(jù)的操作次數(shù)和CPU開銷,從而提升了系統(tǒng)性能。

伴隨著AI的快速發(fā)展,高效的數(shù)據(jù)存儲系統(tǒng)必將成為AI訓練增效的下一個引擎。新華三的Polaris全閃分布式存儲系統(tǒng),憑借其超強性能、架構簡化和極致穩(wěn)定性,為更多企業(yè)和用戶提供了便捷、高效的AI存儲解決方案,推動數(shù)據(jù)存儲、AI計算和大模型訓練的高效協(xié)同,為AI創(chuàng)新注入新的活力。

(來源:新華三)

標簽:新華三 我要反饋 
優(yōu)傲機器人下載中心
億萬克
專題報道
聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風能五大新... [更多]

2025中國國際機床展覽會
2025中國國際機床展覽會

4月21至26日,以“融合創(chuàng)新,數(shù)智未來”為主題的第十九屆中國國際機床展覽會在首都國際會展中心盛大舉辦。憑借場館的卓越服... [更多]

2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進“雙碳”實踐的最新成果,鼓勵更多企業(yè)、科研機構、投資機構等廣泛... [更多]