最高提速30%!高性能數(shù)據(jù)存儲加速大模型訓(xùn)練

ainet.cn 2024年12月25日

面對智算應(yīng)用的大規(guī)模部署，用戶的IT開支正在向GPU傾斜。在大模型訓(xùn)練的成本構(gòu)成中，硬件投資包括算力、運力、存力，其中算力相關(guān)硬件投資占比80%。一個千億級參數(shù)的大模型，往往需要上萬顆GPU的算力，可在實際訓(xùn)練過程中，GPU的平均利用率卻不足50%。制約因素包括大模型參數(shù)需要頻繁調(diào)優(yōu)、訓(xùn)練中斷后恢復(fù)周期長、數(shù)據(jù)加載速度慢等等。如何確保智算系統(tǒng)高效運行?加速算力的同時，提升數(shù)據(jù)供給能力，或許是當(dāng)下應(yīng)對智算挑戰(zhàn)的最優(yōu)解。

大模型需要什么樣的存儲性能?

一次完整的AI大模型訓(xùn)練流程，通常分為數(shù)據(jù)集準(zhǔn)備、模型開發(fā)、模型訓(xùn)練、模型推理幾個階段。其中每個階段對數(shù)據(jù)存儲的性能需求并不十分一致，屬于混合復(fù)雜異構(gòu)的工作負(fù)載，要求數(shù)據(jù)存儲系統(tǒng)提供強大的綜合性能表現(xiàn)。

舉例來說，數(shù)據(jù)集準(zhǔn)備階段，涉及到不同終端、不同來源的大量數(shù)據(jù)，來源豐富且規(guī)模巨大，這些數(shù)據(jù)都需要存儲到系統(tǒng)中，需要數(shù)據(jù)存儲提供較大的帶寬性能和高吞吐能力;此外，在長時間訓(xùn)練模型時，需要定期將階段性的訓(xùn)練成果寫入硬盤，這個過程即Checkpoint，這個過程對存儲系統(tǒng)的小文件讀寫性能和帶寬性能都要求非常高，如果存儲系統(tǒng)性能不足，就會出現(xiàn)加載效率低，GPU空等的情況，從而拉低整個訓(xùn)練效率。

強悍存力，提升智算系統(tǒng)算力利用率

基于新一代傲擎平臺的新華三AI數(shù)據(jù)存儲平臺H3C UniStor Polaris X20000系列，通過對存儲軟件棧進(jìn)行重構(gòu)和優(yōu)化，大幅精簡系統(tǒng)無效IO，優(yōu)化數(shù)據(jù)讀寫路徑，單節(jié)點性能就可實現(xiàn)80GB帶寬和200萬IOPS，大幅提升不同階段的數(shù)據(jù)加載效率，可以減少30%的訓(xùn)練等待時間，保障智算系統(tǒng)的有效算力供給。

Polaris X20000系列通過多項技術(shù)革新提升在智算場景下的性能體驗，包括：

元數(shù)據(jù)性能優(yōu)化

對高性能智算存儲來說，元數(shù)據(jù)管理是至關(guān)重要的部分，將直接影響到文件系統(tǒng)的性能、可擴(kuò)展性和可靠性。Polaris X20000系列創(chuàng)新性地針對分布式kv數(shù)據(jù)庫進(jìn)行了優(yōu)化，來支撐整個元數(shù)據(jù)讀寫需求;同時設(shè)計了多級的元數(shù)據(jù)緩存，對元數(shù)據(jù)緩存結(jié)構(gòu)做了針對性精簡，減少內(nèi)存占用，對元數(shù)據(jù)訪問具有極大的加速效果。此外，采取多MDS、元數(shù)據(jù)打散、元數(shù)據(jù)協(xié)程化免鎖等多種元數(shù)據(jù)性能優(yōu)化手段，提升Polaris X20000系列的性能表現(xiàn)。

CPU智能分組

Polaris X20000系列針對AI/HPC 場景做了深度分析和軟件優(yōu)化設(shè)計，對CPU實現(xiàn)智能分組、綁核處理，實現(xiàn)專核專用，避免資源搶占，減少核間調(diào)度，最大程度發(fā)揮CPU性能。

高性能EPC客戶端

同時，通過獨有的高性能EPC客戶端，Polaris X20000系列可同時連接多個存儲節(jié)點，對上層應(yīng)用提供標(biāo)準(zhǔn)POSIX和MPI-IO接口，獲得更好的兼容性和更優(yōu)的性能，多存儲節(jié)點實現(xiàn)IO級負(fù)載均衡，最大程度發(fā)揮單節(jié)點性能。

AI訓(xùn)練綜合負(fù)載能力提升

高帶寬：通過RDMA、內(nèi)存零拷貝、EPC、400G網(wǎng)絡(luò)(結(jié)合硬件交換機)提升系統(tǒng)并行訪問能力，實現(xiàn)高帶寬性能;

高IOPS：通過Dcache技術(shù)，在小IO讀寫時，先寫入高速緩存層，并通過ROW寫時重定向快照，將多個小IO聚合成為大IO再一次性落盤，提升IOPS性能表現(xiàn);

混合負(fù)載優(yōu)化：在 EC邏輯層之上引入加速引擎層，對不同IO實現(xiàn)分組與流控調(diào)度，可同時滿足大IO高帶寬、小IO高IOPS與低時延的“混合負(fù)載”需求。

當(dāng)前，大模型參數(shù)從千億向萬億演進(jìn)，更大的模型參數(shù)需要更大規(guī)模的算力供給。新華三基于對智算場景的深入理解，對數(shù)據(jù)存儲產(chǎn)品實現(xiàn)持續(xù)優(yōu)化。面向未來，新華三集團(tuán)將秉持“精耕務(wù)實，為時代賦智慧”的理念，不斷深化“內(nèi)生智能·成就智慧存儲”技術(shù)戰(zhàn)略，充分發(fā)揮自身在數(shù)字領(lǐng)域的創(chuàng)新優(yōu)勢，持續(xù)推動產(chǎn)品的智能進(jìn)化，攜手百行百業(yè)激發(fā)數(shù)據(jù)潛能，邁向智能新未來。

（來源：新華三）

標(biāo)簽：新華三

我要反饋

12月14日，由《中國醫(yī)院》雜志社主辦，紫光股份旗下新華三集團(tuán)支持的“智慧醫(yī)療網(wǎng)絡(luò)安全發(fā)展與創(chuàng)新論壇”在南昌舉辦，來自醫(yī)療行業(yè)主管機構(gòu)及全國知名醫(yī)院近200名信息化專家... [詳情]

2024年12月25日新華三

新華三工業(yè)操作系統(tǒng)應(yīng)用開發(fā)套件通過首批工業(yè)互聯(lián)網(wǎng)產(chǎn)品質(zhì)量分級認(rèn)證

近日，由廣東省質(zhì)量發(fā)展促進(jìn)會主辦，中國工業(yè)互聯(lián)網(wǎng)研究院、廣電計量檢測集團(tuán)股份有限公司、廣州市工業(yè)互聯(lián)網(wǎng)發(fā)展研究中心承辦的“工業(yè)互聯(lián)網(wǎng)行業(yè)高質(zhì)量發(fā)展論壇”在廣州召... [詳情]

2024年12月25日新華三

東吳證券攜手新華三，以智能科技引領(lǐng)金融行業(yè)新變革

東吳證券是蘇州市屬唯一的國資券商，始終秉承“待人忠、辦事誠、共享共贏”的核心價值觀，不斷拓展其在財富管理、投資銀行、投資交易和資產(chǎn)管理等多元業(yè)務(wù)板塊的布局和影響... [詳情]

2024年12月25日新華三東吳證券