2025年伊始,科技大咖們的判斷出奇一致,黃仁勛、奧特曼、扎克伯格…都認為2025是AI智能代理之年。
生成式AI→現(xiàn)在時
代理型AI→馬上到來
實體型AI→不遠將來
這是英偉達CEO黃仁勛在消費電子展CES 2025上的最新判斷。
他在主題演講中梳理了AI技術的進化路徑,從感知型AI,到生成式AI,再到現(xiàn)階段發(fā)展火熱的代理型AI,最終實現(xiàn)具備傳感與執(zhí)行功能的物理型AI。
而伴隨著AI代理的涌現(xiàn),有一類基于設備的人工智能可能會優(yōu)先發(fā)生,就是AIoT代理。這些代理并不像物理型AI那樣基于自動駕駛的汽車或者人形機器人等“大件”,而是基于小型的端側(cè)設備,實現(xiàn)AI代理的功能。
我們都知道,AIoT是人工智能AI和物聯(lián)網(wǎng)IoT的融合,它通過實現(xiàn)智能數(shù)據(jù)分析、決策和自主行動,正在徹底改變行業(yè)。
AIoT代理,即AI代理與物聯(lián)網(wǎng)IoT設備的融合,處于這一轉(zhuǎn)型的最前沿。這些AIoT智能代理旨在增強物聯(lián)網(wǎng)系統(tǒng)的功能、連接性和自主性,從而為各個領域帶來前所未有的機遇和應用。
在AIoT 2.0時代,發(fā)展的核心將是AIoT代理,即能夠感知環(huán)境、推理并采取行動實現(xiàn)特定目標的智能軟硬件實體。這些代理不僅僅是被動傳感器;它們是主動的,能夠從數(shù)據(jù)和經(jīng)驗中學習,不斷提高性能。
其實AIoT代理并不是異想天開,在2024年第一季度,李飛飛團隊已經(jīng)聯(lián)合微軟發(fā)表了一系列論文,探討了與物理世界相結合的AI代理的趨勢、分類、如何構建通用基礎模型,以及存在的挑戰(zhàn)。
這些論文包括:《Agent AI- Surveying the Horizons of Multimodal Interaction》《Position Paper- Agent AI Towards a Holistic Intelligence》《An Interactive Agent Foundation Model》。
本文綜合上述論文的成果,并做以延展,介紹什么是AIoT代理、AIoT代理的形態(tài)以及可能的應用場景。
什么是AIoT代理
AIoT代理是AI代理和IoT的融合,是指將AI功能與IoT設備集成的自主軟件實體。這些代理可實現(xiàn)智能決策、數(shù)據(jù)分析以及設備、人類和物理環(huán)境之間的實時交互。
AIoT代理代表了AI代理(具有自主決策能力的AI系統(tǒng))與物聯(lián)網(wǎng)(設備收集和傳輸數(shù)據(jù))的融合。與依賴基于云的分析的傳統(tǒng)物聯(lián)網(wǎng)系統(tǒng)不同,AIoT代理具有情境感知、主動性,并且能夠隨著時間的推移進行學習。
在論文《Agent AI- Surveying the Horizons of Multimodal Interaction》中,研究團隊從“空間智能”的視角,討論了Agent在物理和虛擬環(huán)境中的交互性。
論文中的圖片,展示了多模態(tài)跨現(xiàn)實感知AI代理的架構,概括了AI代理與環(huán)境交互、學習和決策的關鍵組成部分。具體來說,該架構包括以下幾個核心模塊:
環(huán)境與感知:通過感知模塊,智能體接收來自物理世界或虛擬世界的信息輸入,獲取對環(huán)境的觀測。
智能體學習:該模塊負責智能體的學習過程,包括從環(huán)境交互中學習(如強化學習)、從專家示范中學習(如模仿學習)等。
記憶:記憶模塊為Agent提供長期記憶和短期記憶能力。長期記憶儲存Agent對世界的知識和理解,而短期記憶則跟蹤Agent在執(zhí)行任務過程中的狀態(tài)變化歷史,以支持及時地調(diào)整策略。
行動:根據(jù)感知、學習、記憶等模塊的信息,Agent通過行動模塊采取相應動作,并影響外部環(huán)境。
認知:認知模塊是統(tǒng)籌協(xié)調(diào)感知、學習、記憶、行動等功能的核心,體現(xiàn)了Agent的整體認知能力,使其在復雜多變的環(huán)境中做出恰當反應。
總的來說,該架構突出了感知、學習、記憶、行動、認知等要素在塑造Agent整體智能方面的重要作用,以及Agent與物理和虛擬環(huán)境持續(xù)交互、積累經(jīng)驗和知識的動態(tài)過程。
而AIoT代理則融合了語言理解、視覺感知、運動控制、任務規(guī)劃等多種能力,代表了通用人工智能AGI發(fā)展的一個重要方向。近年來,大型語言模型LLM、視覺語言預訓練模型VLM等大模型的突破,為賦予AIoT代理更強大的感知認知和環(huán)境交互能力帶來了新的機遇。
一方面,大語言模型可以讓AIoT代理獲得接近人類的語言理解和語言生成能力,使其可以更自然地與使用者對話交流,快速理解指令并做出相應行動。
另一方面,視覺語言模型使AIoT代理具備匹配甚至超越人眼的圖像識別能力,可以精準感知和定位環(huán)境中的物體,并對視覺輸入信息進行語義理解。
借鑒論文中的架構,AIoT智能的基本架構可以簡化為上圖,簡化后的架構包含以下組成部分:
感知:Agent通過感知模塊接收外界環(huán)境的信息輸入,獲取對世界的觀測。這是Agent實現(xiàn)感知環(huán)境、采集數(shù)據(jù)的基礎。
推理:推理模塊是Agent的核心部件,它在感知信息的基礎上,利用知識庫中的世界知識,對當前環(huán)境狀態(tài)進行分析、判斷,并規(guī)劃后續(xù)行動。推理過程體現(xiàn)了Agent的智能性和自主性。
行動:根據(jù)推理的結果,Agent通過行動模塊采取相應的動作,并影響外部環(huán)境,這是Agent實現(xiàn)目標的關鍵。
交互:Agent通過與環(huán)境的持續(xù)交互來感知外界變化、積累知識、并評估行動效果。交互是Agent實現(xiàn)感知-決策-行動閉環(huán)的紐帶。
世界知識庫:這是Agent的知識庫,存儲了其對世界的理解和記憶。Agent在推理決策時會調(diào)用這些知識。隨著與環(huán)境交互的不斷深入,其知識庫也在持續(xù)擴充和更新。
學習:學習模塊使得Agent能夠在與環(huán)境的交互中,不斷積累新知識、優(yōu)化已有策略。通過學習,Agent的世界知識庫得以擴充,行為策略得以改進,智能水平得以提升。
總的來說,該架構展示了一個智能Agent“感知→推理→行動”的工作流程,以及知識、學習、交互等要素在該流程中扮演的重要角色。
AIoT代理將人工智能的認知能力與物聯(lián)網(wǎng)設備的連接和數(shù)據(jù)收集能力相結合。這些代理不僅可以收集和分析來自不同來源的數(shù)據(jù),還可以自主決策并執(zhí)行操作以優(yōu)化流程和結果。人工智能和物聯(lián)網(wǎng)的集成產(chǎn)生了協(xié)同效應,從而打造出更智能、響應更快、適應性更強的系統(tǒng)。
AIoT代理以大型AI模型為核心,通過感知、推理、決策、執(zhí)行等環(huán)節(jié)與物理世界互動,有望成為人工智能落地應用的重要抓手,為萬物智聯(lián)AIoT 2.0時代的到來開啟嶄新的可能性。
這些系統(tǒng)不僅能對數(shù)據(jù)做出反應,還能主動預測和采取行動,這對于需要精確性和靈活性的行業(yè)來說非常有價值。
更進一步,在論文《Position Paper- Agent AI Towards a Holistic Intelligence》中,研究團隊提出了通用型AI代理的整體框架和關鍵組成部分。
在這一框架下,AIoT代理可以與其他類型的AI代理一起,被置于一個包含物理世界、VR / AR / MR、元宇宙等多重現(xiàn)實的環(huán)境中,旨在實現(xiàn)整體智能和具有涌現(xiàn)能力的通用人工智能。
具體來看,該框架涵蓋了以下幾個層次:
跨模態(tài)層:強調(diào)Agent需要具備多模態(tài)理解和交互能力,包括同情心/意識、人機交互、具身操縱、基礎設施和智能系統(tǒng)等方面。
任務層:細化了智能體需要執(zhí)行的具體任務,涉及感知、認知、醫(yī)療保健、導航、行為識別和預測、語言理解、知識和推理等方面。
個體模型層:描述了構成Agent的各類基礎模型,包括生成模型、分類模型、視覺/分割模型、音頻模型、情感模型和神經(jīng)模型等。
基礎模型層:概括了支撐上述各層模型訓練所需的通用基礎模型,涵蓋視覺-語言標注數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)、語音情感數(shù)據(jù)、神經(jīng)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、跟蹤數(shù)據(jù)、行為數(shù)據(jù)、語言知識數(shù)據(jù)和邏輯數(shù)據(jù)等。
總之,該框架從現(xiàn)實環(huán)境復雜性、跨模態(tài)理解、任務多樣性、模型異構性等多個維度,系統(tǒng)地刻畫了實現(xiàn)通用人工智能所需的關鍵要素。而AIoT代理或許將成為其中的重要組成部分。
AIoT代理的分類
在大型預訓練模型、小模型等加持下,AIoT代理將逐步擺脫被動接受指令的桎梏,走向更加智能化、自主化的發(fā)展階段。它們將具備主動探索環(huán)境、持續(xù)學習進化的能力,通過從各類數(shù)據(jù)源汲取新知,不斷完善和更新自身的知識與技能。
基于知識推理和目標規(guī)劃,AIoT代理可針對環(huán)境的動態(tài)變化自主地調(diào)整策略和行為,完成各類復雜的任務。
基于論文《Agent AI- Surveying the Horizons of Multimodal Interaction》中的AI代理分類,AIoT代理可以包含如下類別:
1、具身AIoT代理
具身人工智能的目標是創(chuàng)造出諸如機器人等智能體,使其學會創(chuàng)造性地解決需要與環(huán)境交互的具有挑戰(zhàn)性的任務。
盡管這是一個重大的挑戰(zhàn),但深度學習的重要進展以及大型數(shù)據(jù)集(如ImageNet)可用性的不斷提高,已經(jīng)在許多此前被認為棘手的AI任務上實現(xiàn)了超人的表現(xiàn)。這些進展極大地推動了具身AI的發(fā)展,使得越來越多的用戶能夠朝著與機器進行交互的智能Agent迅速發(fā)展。
具身AIoT代理又可進一步劃分為行動AIoT代理和交互AIoT代理。
行動AIoT代理是指需要在模擬的物理環(huán)境或真實世界中執(zhí)行物理動作的Agent。具體而言,它們需要積極地與環(huán)境進行交互活動。
交互AIoT代理是指可以與世界交互的Agent,是一個比行動智能體更廣泛的類別。它們的交互形式不一定需要物理動作,但可能涉及向用戶傳遞信息或修改環(huán)境。
例如,一個具身交互AIoT代理可以通過對話回答用戶關于某個主題的問題,或幫助用戶像聊天機器人一樣解析現(xiàn)有信息。
2、仿真與環(huán)境AIoT代理
仿真和環(huán)境AIoT代理是在模擬環(huán)境中相互交互和通信的獨立實體。它們用于對復雜系統(tǒng)進行建模和仿真。AIoT代理學習如何在環(huán)境中行動的一種有效方法是通過與環(huán)境的交互進行反復試錯。一種代表性方法是強化學習,它需要大量的失敗經(jīng)驗來訓練Agent。盡管存在使用物理Agent的方法,但使用物理Agent耗時且成本高昂。此外,在實際環(huán)境中失敗可能是危險的情況下(例如自動駕駛、水下航行器),在物理環(huán)境中訓練往往是不可行的。因此,使用模擬器來學習策略是一種常見的方法。
總之,無論是具身AIoT代理還是仿真與環(huán)境AIoT代理,AIoT是人工智能與現(xiàn)實世界交互的重要舞臺,而AIoT代理則有望成為架起想象與現(xiàn)實之間橋梁的關鍵技術載體。
AIoT代理的應用
AIoT代理可能的應用場景包括:
智慧城市
AIoT 代理可能可以幫助改善城市基礎設施、改善資源管理并提高居民的生活質(zhì)量。具體應用包括智能交通管理、節(jié)能建筑、廢物管理和公共安全系統(tǒng)。AIoT 代理可實現(xiàn)實時監(jiān)控和控制、預測性維護和數(shù)據(jù)驅(qū)動的城市規(guī)劃。
衛(wèi)生保健
在醫(yī)療保健領域,AIoT代理可能將改變患者護理、診斷和運營效率。它們有助于患者遠程監(jiān)控、個性化治療計劃和疾病預防預測分析。支持AIoT的醫(yī)療設備可以收集和分析患者數(shù)據(jù)、提醒醫(yī)療保健提供者注意潛在問題,甚至可以自主管理治療。
工業(yè)自動化
AIoT代理可以通過優(yōu)化制造流程、減少停機時間和提高產(chǎn)品質(zhì)量來改變工業(yè)自動化。它們能夠?qū)崿F(xiàn)預測性維護、設備實時監(jiān)控和生產(chǎn)線自適應控制。AIoT代理還可以促進供應鏈優(yōu)化并確保智能工廠的無縫運行。
智能家居
在智能家居領域,AIoT代理可提高舒適度、安全性和能源效率。它們集成了各種智能設備,例如恒溫器、照明系統(tǒng)和安全攝像頭,以創(chuàng)建一個有凝聚力的智能家居環(huán)境。AIoT代理可以了解用戶偏好、自動執(zhí)行例程并響應不斷變化的條件,以改善整體生活體驗。
不過,讓AIoT代理從受限場景走向開放世界依然任重道遠。如何增強它們面對全新環(huán)境時的適應力,是一個關鍵挑戰(zhàn)。涌現(xiàn)式機制和持續(xù)學習能力或許是突破這一瓶頸的“鑰匙”。
例如,AIoT代理可以通過對話交互從人類使用者那里獲取環(huán)境信息以及行為反饋,或是利用其他IoT傳感器的數(shù)據(jù)來校準其決策模型。
再如,賦予AIoT代理虛擬仿真環(huán)境中的自主訓練能力,讓它們在數(shù)字孿生世界中反復練習,也可以有效提升真實場景下的執(zhí)行效果。
除了通用智能,面向行業(yè)應用的專用AIoT代理也大有可為。以工業(yè)機器人為例,AIoT代理可望在視覺引導、扭矩控制、智能裝配等環(huán)節(jié)實現(xiàn)革命性突破。在自動駕駛領域,AIoT代理可利用多傳感器融合感知技術,實時規(guī)劃車輛軌跡,大幅提升行車的安全性和舒適度。而在智慧醫(yī)療方面,AIoT代理或?qū)⒊蔀獒t(yī)生的得力助手,提供智能診斷、手術規(guī)劃等服務,讓每一位患者獲得更精準周到的診療。
因此,AIoT代理有可能成為AI代理經(jīng)濟中的一股重要力量。
如上圖所示,包括通用領域的AI代理、垂直行業(yè)的AI代理,以及面向消費者的AI代理。在后兩個領域,垂直行業(yè)和消費者應用,AIoT代理都可以一展身手。
寫在最后
毋庸置疑,AIoT代理的研發(fā)和落地應用仍有不少障礙需要跨越。其中,如何保障人機協(xié)作的安全性,避免智能代理做出違背人類意圖、危及生命財產(chǎn)的決策,是當前業(yè)界高度關注的倫理問題。因此,加強跨學科合作,建立健全法律法規(guī)體系,是保障AIoT代理健康發(fā)展的必要工作。
參考資料:
Agent AI- Surveying the Horizons of Multimodal Interaction,作者:Zane Durante、Qiuyuan Huang、Li Fei-Fei等,來源:arXiv.org
Position Paper- Agent AI Towards a Holistic Intelligence,作者:Qiuyuan Huang、Naoki Wake、Li Fei-Fei等,來源:arXiv.org
An Interactive Agent Foundation Model,作者:Zane Durante、Bidipta Sarkar、Li Fei-Fei等,來源:arXiv.org
(來源物聯(lián)網(wǎng)智庫)