KAUST將機器學習訓練速度提高7倍有助于改進自動駕駛汽車等應用

2025China.cn 2021年08月26日

據外媒報道，沙特阿拉伯阿卜杜拉國王科技大學（KAUST）的研究人員發(fā)現了一種能夠顯著提升訓練速度的方法。通過觀察采用大型訓練數據庫的分布式機器學習中產生結果零的頻率，可以顯著加快大型機器學習模型的訓練速度。

計算機的1和0（圖片來源：techxplore.com）

       AI模型通過在數據庫上進行訓練來開發(fā)“智能”，而此類數據庫都被事先標記好，以告知模型如何區(qū)分不同輸入信息，然后再做出相應的反應。輸入的已標記數據越多，該模型就越擅長完成分配給它的任務。對于自動駕駛汽車等復雜深度學習應用而言，它們需要大量輸入的數據庫以及很長的訓練時間，即使采用了強大且昂貴的高度并行超級計算平臺也是如此。
       在訓練期間，小型的學習任務被分配給數十或數百個計算節(jié)點，然后在運行下一個任務之前，這些計算節(jié)點會通過通信網絡分享結果。在此種并行計算任務中，計算量消耗最大的來源之一是每個模型步驟中計算節(jié)點之間的通信。
       KAUST的研究人員表示：“在分布式深度學習中，通信是主要的性能瓶頸。隨著模型規(guī)模的迅速增長，我們還看到在學習過程中產生零值的比例在增加，稱為稀疏性。我們的想法是利用此種稀疏性，通過只發(fā)送非零數據塊來盡可能提高有效帶寬的使用效率?！?BR>       基于KAUST早期研發(fā)的SwitchML方法，即通過在處理數據傳輸的網絡交換機上運行高效的聚合代碼來優(yōu)化節(jié)點間的通信，研究人員希望能夠通過識別結果零，并研發(fā)一種方法，以在不中斷并行計算過程中，同步減少傳輸，而進一步優(yōu)化該方法。
       研究人員表示：“確切地說，如何利用稀疏性來加速分布式訓練是一個具有挑戰(zhàn)性的問題。所有的節(jié)點需要在同一時間內處理同一個位置的數據塊，因此我們必須協調節(jié)點，以確保只聚合同一個位置的數據塊。為了克服這個問題，我們打造了一個聚合程序以協調此類工作者，指導它們接下來發(fā)送哪個數據塊?！?BR>       該團隊在一個由一組圖形處理單元（GPU）構成的測試臺上展示了其OmniReduce方法，并且在典型深度學習任務中速度加快了7倍。

（轉載）

標簽：自動駕駛

我要反饋