近日,國際人工智能聯(lián)合會議IJCAI 2024在韓國濟州島成功舉辦,由吉林大學人工智能學院王琪老師項目組申報的利用視覺大語言模型直接控制電腦GUI(圖形用戶界面)的最新研究項目《ScreenAgent: A Vision Language Model-driven Computer Control Agent》依托于新華三提供的智能科學計算方案,憑借其卓越的創(chuàng)新理念和技術前沿性,獲得大會的肯定并在IJCAI 2024大會上發(fā)表。
吉林大學人工智能學院牛潤良博士在IJCAI2024發(fā)表論文演講
IJCAI全稱為國際人工智能聯(lián)合會議(International Joint Conference on Artificial Intelligence),是人工智能領域的CCF-A類頂級國際會議。國際人工智能聯(lián)合會是一個非營利性組織,成立于1969年,是人工智能研究人員的主要國際聚會,旨在促進科學和教育的發(fā)展,包括在會議上溝通交流人工智能信息,展示前沿科學成果。
吉林大學人工智能學院王琪老師項目組發(fā)表的《ScreenAgent: A Vision Language Model-driven Computer Control Agent》項目是一項利用視覺大語言模型直接控制電腦 GUI 的最新研究。該項目提出了 ScreenAgent 模型,首次探索在無需輔助定位標簽的情況下,利用 VLM Agent 直接控制電腦鼠標和鍵盤,實現(xiàn)大模型直接操作電腦的目標。ScreenAgent 通過「計劃-執(zhí)行-反思」的自動化流程首次實現(xiàn)對 GUI 界面的連續(xù)控制,可以幫助用戶輕松實現(xiàn)在線娛樂活動、購物、旅行、閱讀等行為,還可以幫助用戶管理個人電腦。甚至無需動手,就可以實現(xiàn)快速辦公,成為用戶最得力的辦公助手。該項目是對人機交互方式的一次探索和革新,同時開源了具備精準定位信息的數(shù)據(jù)集、控制器、訓練代碼等。
• 論文地址:https://arxiv.org/abs/2402.07945
• 項目地址:https://github.com/niuzaisheng/ScreenAgent
新華三賦能吉林大學人工智能學院構建智能算力中心
作為大模型的高端應用,該項目對于智能算力的強勁、穩(wěn)定支撐提出了嚴苛要求,同時還對智能算力的分配與調用提出了全新挑戰(zhàn)。鑒于AI技術在科研領域的廣泛應用與深入發(fā)展,學校迫切需求構建一個統(tǒng)一且高性能的計算資源池,旨在全面支撐多樣化的AI科研探索與教學活動,同時促進研究成果的高效共享與交流,以滿足日益增長的需求與挑戰(zhàn)。
為此,新華三為吉林大學量身打造了智能科學計算方案:
方案采用H3C UniServer R5500 AI服務器作為AI計算節(jié)點用作大模型訓練,H3C UniStor CX系列分布式存儲作為生產存儲池,服務器與存儲均通過100Gb HDR InfiniBand互聯(lián)傳輸業(yè)務數(shù)據(jù)。整套集群還配備了萬兆管理網(wǎng)絡,為了提升算力使用效率、高效完成AI科研任務,還按需部署了傲飛算力平臺與系統(tǒng)所需的相關中間件。該智能科學計算解決方案集群,依托全棧且多元化的開放平臺架構,不僅確保了技術的持續(xù)領先性,更致力于為用戶帶來省心、放心的使用體驗;通過更高性能的集群配置,顯著加速了用戶作業(yè)處理速度,從而有效提升了科研工作的效率;同時,通過全面而精細的管理優(yōu)化能力,極大簡化了用戶的操作流程,有效降低了運維成本。
■ 新華三R5500系列服務器,采用先進模塊化設計,實現(xiàn)系統(tǒng)解耦,用戶可以靈活選擇CPU/GPU模塊,實現(xiàn)算力可進化;雙供電平面設計,保障業(yè)務的穩(wěn)定運轉;2種拓撲架構,有效提升AI應用運轉;無需經(jīng)過CPU,GPU之間可實現(xiàn)高速、全互聯(lián)的片間通信,以實現(xiàn)大規(guī)模AI加速計算;兼容最新OCP OAI開放硬件標準,適配多廠商8-GPU模組。
■ 新華三針對AI計算場景的專用CX系列存儲,單節(jié)點可達20GB/s以上的帶寬、30萬以上的IOPS;系統(tǒng)可輕松擴展至PB級可用容量,性能線性增加,數(shù)據(jù)保護采用多副本或糾刪碼方式,供用戶靈活選擇。
■ 新華三自研的AI場景專用管理平臺傲飛算力平臺,依托自研GPU通用適配框架,將適配周期縮短至2周以內。同時,內置大模型全棧工作流,助力AI業(yè)務研究;此外,監(jiān)控、告警等功能全面直觀,讓運維更輕松。
新華三智能科學計算解決方案,為吉林大學人工智能學院構建了高效的智能算力中心。該中心實現(xiàn)了AI算力資源的智能分配、遠程調用、無縫熱遷移等功能,提高了資源利用率與靈活性,不僅為學院的科研項目提供了強大的算力支撐,還成功構建了教學、科研與產業(yè)實踐三者間緊密互動、相互促進的良性循環(huán)體系,推動學院科研成果的快速轉化與應用。
面向AGI時代,智算能力中心已成為決定前沿技術發(fā)展的關鍵基座。未來,新華三集團仍將秉持“精耕務實,為時代賦智慧”的理念,持續(xù)進化“一體·兩中樞”智慧計算體系,不斷實現(xiàn)技術突破,為百行百業(yè)客戶提供更高效、更智能、更綠色、更強勁的算力,加速客戶激發(fā)業(yè)務價值。
(來源:新華三)