siemens x
人工智能

新華三×吉林大學(xué)人工智能學(xué)院| 視覺大模型科研成果在國際人工智能聯(lián)合會議發(fā)表

2025China.cn   2024年08月07日

近日,國際人工智能聯(lián)合會議IJCAI 2024在韓國濟州島成功舉辦,由吉林大學(xué)人工智能學(xué)院王琪老師項目組申報的利用視覺大語言模型直接控制電腦GUI(圖形用戶界面)的最新研究項目《ScreenAgent: A Vision Language Model-driven Computer Control Agent》依托于新華三提供的智能科學(xué)計算方案,憑借其卓越的創(chuàng)新理念和技術(shù)前沿性,獲得大會的肯定并在IJCAI 2024大會上發(fā)表。

吉林大學(xué)人工智能學(xué)院牛潤良博士在IJCAI2024發(fā)表論文演講

IJCAI全稱為國際人工智能聯(lián)合會議(International Joint Conference on Artificial Intelligence),是人工智能領(lǐng)域的CCF-A類頂級國際會議。國際人工智能聯(lián)合會是一個非營利性組織,成立于1969年,是人工智能研究人員的主要國際聚會,旨在促進科學(xué)和教育的發(fā)展,包括在會議上溝通交流人工智能信息,展示前沿科學(xué)成果。

吉林大學(xué)人工智能學(xué)院王琪老師項目組發(fā)表的《ScreenAgent: A Vision Language Model-driven Computer Control Agent》項目是一項利用視覺大語言模型直接控制電腦 GUI 的最新研究。該項目提出了 ScreenAgent 模型,首次探索在無需輔助定位標簽的情況下,利用 VLM Agent 直接控制電腦鼠標和鍵盤,實現(xiàn)大模型直接操作電腦的目標。ScreenAgent 通過「計劃-執(zhí)行-反思」的自動化流程首次實現(xiàn)對 GUI 界面的連續(xù)控制,可以幫助用戶輕松實現(xiàn)在線娛樂活動、購物、旅行、閱讀等行為,還可以幫助用戶管理個人電腦。甚至無需動手,就可以實現(xiàn)快速辦公,成為用戶最得力的辦公助手。該項目是對人機交互方式的一次探索和革新,同時開源了具備精準定位信息的數(shù)據(jù)集、控制器、訓(xùn)練代碼等。

• 論文地址:https://arxiv.org/abs/2402.07945

• 項目地址:https://github.com/niuzaisheng/ScreenAgent

新華三賦能吉林大學(xué)人工智能學(xué)院構(gòu)建智能算力中心

作為大模型的高端應(yīng)用,該項目對于智能算力的強勁、穩(wěn)定支撐提出了嚴苛要求,同時還對智能算力的分配與調(diào)用提出了全新挑戰(zhàn)。鑒于AI技術(shù)在科研領(lǐng)域的廣泛應(yīng)用與深入發(fā)展,學(xué)校迫切需求構(gòu)建一個統(tǒng)一且高性能的計算資源池,旨在全面支撐多樣化的AI科研探索與教學(xué)活動,同時促進研究成果的高效共享與交流,以滿足日益增長的需求與挑戰(zhàn)。

為此,新華三為吉林大學(xué)量身打造了智能科學(xué)計算方案:

方案采用H3C UniServer R5500 AI服務(wù)器作為AI計算節(jié)點用作大模型訓(xùn)練,H3C UniStor CX系列分布式存儲作為生產(chǎn)存儲池,服務(wù)器與存儲均通過100Gb HDR InfiniBand互聯(lián)傳輸業(yè)務(wù)數(shù)據(jù)。整套集群還配備了萬兆管理網(wǎng)絡(luò),為了提升算力使用效率、高效完成AI科研任務(wù),還按需部署了傲飛算力平臺與系統(tǒng)所需的相關(guān)中間件。該智能科學(xué)計算解決方案集群,依托全棧且多元化的開放平臺架構(gòu),不僅確保了技術(shù)的持續(xù)領(lǐng)先性,更致力于為用戶帶來省心、放心的使用體驗;通過更高性能的集群配置,顯著加速了用戶作業(yè)處理速度,從而有效提升了科研工作的效率;同時,通過全面而精細的管理優(yōu)化能力,極大簡化了用戶的操作流程,有效降低了運維成本。

■ 新華三R5500系列服務(wù)器,采用先進模塊化設(shè)計,實現(xiàn)系統(tǒng)解耦,用戶可以靈活選擇CPU/GPU模塊,實現(xiàn)算力可進化;雙供電平面設(shè)計,保障業(yè)務(wù)的穩(wěn)定運轉(zhuǎn);2種拓撲架構(gòu),有效提升AI應(yīng)用運轉(zhuǎn);無需經(jīng)過CPU,GPU之間可實現(xiàn)高速、全互聯(lián)的片間通信,以實現(xiàn)大規(guī)模AI加速計算;兼容最新OCP OAI開放硬件標準,適配多廠商8-GPU模組。

■ 新華三針對AI計算場景的專用CX系列存儲,單節(jié)點可達20GB/s以上的帶寬、30萬以上的IOPS;系統(tǒng)可輕松擴展至PB級可用容量,性能線性增加,數(shù)據(jù)保護采用多副本或糾刪碼方式,供用戶靈活選擇。

■ 新華三自研的AI場景專用管理平臺傲飛算力平臺,依托自研GPU通用適配框架,將適配周期縮短至2周以內(nèi)。同時,內(nèi)置大模型全棧工作流,助力AI業(yè)務(wù)研究;此外,監(jiān)控、告警等功能全面直觀,讓運維更輕松。

新華三智能科學(xué)計算解決方案,為吉林大學(xué)人工智能學(xué)院構(gòu)建了高效的智能算力中心。該中心實現(xiàn)了AI算力資源的智能分配、遠程調(diào)用、無縫熱遷移等功能,提高了資源利用率與靈活性,不僅為學(xué)院的科研項目提供了強大的算力支撐,還成功構(gòu)建了教學(xué)、科研與產(chǎn)業(yè)實踐三者間緊密互動、相互促進的良性循環(huán)體系,推動學(xué)院科研成果的快速轉(zhuǎn)化與應(yīng)用。

面向AGI時代,智算能力中心已成為決定前沿技術(shù)發(fā)展的關(guān)鍵基座。未來,新華三集團仍將秉持“精耕務(wù)實,為時代賦智慧”的理念,持續(xù)進化“一體·兩中樞”智慧計算體系,不斷實現(xiàn)技術(shù)突破,為百行百業(yè)客戶提供更高效、更智能、更綠色、更強勁的算力,加速客戶激發(fā)業(yè)務(wù)價值。

(來源:新華三)

標簽:新華三 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]