機(jī)器人與模型深度融合開啟智能升級下半場，智能終端的未來終局是物理AI

ainet.cn 2025年02月12日

年初的CES 2025可以說給今年的智能硬件產(chǎn)品拉開了盛大的帷幕，不少創(chuàng)新的智能產(chǎn)品紛紛登場，在AI技術(shù)的加持下展現(xiàn)出豐富的應(yīng)用方向。雖然AI發(fā)展還有漫長的道路要走，但從云到端已經(jīng)成為一個(gè)明確的發(fā)展趨勢，AI世界在今年開啟了屬于智能硬件的下半場。

這些登場的智能硬件產(chǎn)品里，機(jī)器人產(chǎn)品是極具代表性的一類，尤其是人形機(jī)器人可以說是展會(huì)上最能代表前沿科技成果的焦點(diǎn)。英偉達(dá)演講期間14款機(jī)器人登場組成的“人形機(jī)器人軍團(tuán)”加上黃仁勛那句“通用機(jī)器人的ChatGPT時(shí)刻即將到來”的感嘆，令人印象深刻。

從人形機(jī)器人前后的發(fā)布足跡來看，如果說之前機(jī)器人的性能革新，AI技術(shù)還隱于底層軟硬件背后，更強(qiáng)調(diào)場景任務(wù)精密地控制執(zhí)行。那么最近圍繞人形機(jī)器人的性能革新，都已經(jīng)不約而同地圍繞一個(gè)關(guān)鍵宣傳詞——AI。

當(dāng)前AI發(fā)展已經(jīng)用盡了所有人類知識進(jìn)行訓(xùn)練，現(xiàn)在開始使用合成數(shù)據(jù)，并將在未來 3-4 年內(nèi)發(fā)展到可以完成任何認(rèn)知任務(wù)。現(xiàn)階段AI已經(jīng)給人類生活帶來了改變，未來將繼續(xù)帶來巨大變革，甚至可以完成任何人想要的事情。作為智能硬件的代表，機(jī)器人與AI的結(jié)合自然也更緊密，同時(shí)二者的結(jié)合也加速了機(jī)器人向落地更進(jìn)一步。

作為引領(lǐng)人形機(jī)器人浪潮的Optimus，馬斯克不久前公開表態(tài)要把特斯拉的未來押注在Optimus機(jī)器人上，2025年特斯拉的目標(biāo)是制造數(shù)千臺人形機(jī)器人，2026年特斯拉的人形機(jī)器人產(chǎn)量將增加10倍，目標(biāo)為生產(chǎn)5萬到10萬個(gè)人形機(jī)器人，以后或每年翻10倍。

除了人形機(jī)器人，消費(fèi)級智能機(jī)器人產(chǎn)品也開始涌現(xiàn)，如陪伴機(jī)器人、清潔機(jī)器人、商業(yè)服務(wù)機(jī)器人均開始在智能化上衍生多樣功能。特別是今年年初陸續(xù)登場的眾多創(chuàng)新AI陪伴機(jī)器人，帶動(dòng)了AI機(jī)器人玩具這一新賽道的發(fā)展。

在前文《CES智能終端崛起引領(lǐng)算力下沉，端側(cè)AI芯片性能再革新》中曾提到過，英偉達(dá)梳理的AI技術(shù)進(jìn)化路徑是從 Perception 感知AI到 Generative生成式AI，再到Agentic代理型AI，最終實(shí)現(xiàn)具備傳感與執(zhí)行功能的Physical 物理型AI。

在Physical 物理型AI終極形態(tài)，任何能感知并執(zhí)行操作的設(shè)備都被視為是機(jī)器人，并由AI賦能釋放應(yīng)用潛力。物理AI這一概念正在引領(lǐng)AI技術(shù)在機(jī)器人端側(cè)的革新，通過硬件與模型的深度融合將AI從數(shù)字世界帶入物理世界。

智能化下半場，機(jī)器人與模型融合創(chuàng)新

機(jī)器人借力智能模型通過多模態(tài)能力增強(qiáng)智能理解和決策是現(xiàn)今產(chǎn)業(yè)鏈正在推進(jìn)的方向，從近期人形機(jī)器人發(fā)展能明顯看出這個(gè)趨勢。

不久前阿加犀攜手高通，發(fā)布了全球首臺完全基于高通SoC的端側(cè)多模態(tài)AI大模型人形機(jī)器人——“通天曉”（Ultra Magnus）。根據(jù)官方給出的定位，這是基于終端側(cè)生成式AI的具身智能人形機(jī)器人解決方案。

高通的QCS8550處理器為機(jī)器人動(dòng)作控制、感知、決策規(guī)劃和語音交互提供底層計(jì)算能力支持。同時(shí)機(jī)器人基于終端側(cè)大語言模型技術(shù)，運(yùn)用端側(cè)語言小模型識別實(shí)現(xiàn)自然語音交互和用戶意圖理解，此外還融合了視覺感知技術(shù)對機(jī)器人運(yùn)動(dòng)控制與作業(yè)進(jìn)行規(guī)劃。

在英偉達(dá)演講“人形機(jī)器人軍團(tuán)”中亮相的銀河通用Galbot G1則搭載了具身抓取基礎(chǔ)大模型。不久前銀河通用也聯(lián)合北京智源人工智能研究院（BAAI）及北京大學(xué)和香港大學(xué)研究人員正式發(fā)布了具身抓取基礎(chǔ)大模型 GraspVLA。Galbot是人形機(jī)器人分支下的輪式人形機(jī)器人，即下半身采用AMR式的輪式移動(dòng)地盤，不追求雙足式在靈活移動(dòng)上的性能，聚焦于上半身的功能執(zhí)行。

這里不過多展開二者的形態(tài)之爭，輪式的優(yōu)勢在于從目前發(fā)展階段的商業(yè)化角度來看，輪式人形機(jī)器人設(shè)計(jì)、制造成本會(huì)相對較低一些，輪式移動(dòng)底盤已經(jīng)相當(dāng)成熟比雙足的運(yùn)動(dòng)控制簡單很多成本也更低，在商業(yè)化上可能先取得進(jìn)展。聚焦在上肢的功能執(zhí)行，Galbot的模型層通過仿真合成數(shù)據(jù)自研合成千萬級的場景數(shù)據(jù)以及海量抓取和導(dǎo)航數(shù)據(jù)來掌握泛化閉環(huán)抓取能力，達(dá)成基礎(chǔ)的感知操作模型。

去年剛剛成立的靈初智能不久前也發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)（RL）的具身模型 Psi R0。該模型也是感知操作模型，支持雙靈巧手將多個(gè)技能串聯(lián)進(jìn)行復(fù)雜操作，還可以實(shí)現(xiàn)跨物品、跨場景級別的泛化。

不止是2B類機(jī)器人在融合模型開始智能化升級，在許多消費(fèi)類機(jī)器人產(chǎn)品上，這一趨勢發(fā)展得同樣迅速，特別以語言與感知模型與終端側(cè)的結(jié)合居多。

大象機(jī)器人開發(fā)陪伴類機(jī)器人以動(dòng)物外觀作為外形設(shè)計(jì)，搭載AI大模型，理解人類語意和情感判別，提供情緒價(jià)值為主的智能交互。

TCL近期推出的的分體式智能家居陪伴機(jī)器人Ai Me基于AI大模型不僅能與人進(jìn)行多模態(tài)的自然交互，提供溫暖的情感陪伴和擬人互動(dòng)，還能智能移動(dòng)并自動(dòng)捕捉家庭美好瞬間。此外，Ai Me還會(huì)通過與用戶的互動(dòng)不斷學(xué)習(xí)和適應(yīng)家庭成員行為習(xí)慣控制家居設(shè)備，在陪伴等情緒價(jià)值之外兼顧了家居智能中控的功能，功能發(fā)散得越來越多樣。

在清潔家電深耕多年的云鯨智能同樣在向機(jī)器人＋模型的具身智能方向轉(zhuǎn)變，推出的逍遙系列已經(jīng)是具身智能雛形，通過大模型下達(dá)清潔指令，機(jī)器人依靠自己的語義理解去行動(dòng)、識別、完成清潔。

消費(fèi)類機(jī)器人尤其是提供情緒價(jià)值的陪伴類機(jī)器人有著很強(qiáng)的玩具屬性，在模型技術(shù)的發(fā)展下這些機(jī)器人從簡單的互動(dòng)設(shè)備進(jìn)化到集教育、陪伴和娛樂功能于一身。這類機(jī)器人和手辦、玩偶以及“谷子”一樣，能在情緒上給予消費(fèi)者很高價(jià)值反饋，有著很高的市場接受度高，市場空間正在打開。

其實(shí)將視野再放大一些，很多創(chuàng)新的實(shí)體終端設(shè)備都開始搭載AI技術(shù)來迭代功能，在終端設(shè)備與終端側(cè)AI的深度融合下，未來手機(jī)、PC，家電、汽車、玩具等等設(shè)備未嘗不是另一種形態(tài)的機(jī)器人，這些實(shí)體的智能終端也正是物理AI的愿景。

在這些終端市場的發(fā)展上，終端側(cè)AI也正朝著多模態(tài)融合、模型小型化與適配等方向發(fā)展，與終端硬件配置協(xié)同更新。可以說正是因?yàn)槟Ｐ湍芰σ蜒葸M(jìn)到一定程度能在終端側(cè)賦能硬件，才讓物理AI變得可行。

Physical物理型AI，用模型賦能機(jī)器人潛力

Physical物理型AI在基礎(chǔ)硬件上的需求提升自然是全方位的，聚焦在模型上，硬件配置完備機(jī)器人能否在不確定的環(huán)境下正常運(yùn)行，決定因素之一是具不具備泛化決策能力的“大腦”。建立起對空間與物理過程進(jìn)行精準(zhǔn)建模、理解與推理決策的“世界模型”是實(shí)現(xiàn)具身智能的前提。

以NVIDIA在CES 2025上面向物理AI開發(fā)發(fā)布的最新“世界基礎(chǔ)模型”——Cosmos為代表，Cosmos是一套“用于物理感知視頻生成的開放式擴(kuò)散和自回歸 Transformer 模型”，擁有一系列開放的預(yù)訓(xùn)練世界基礎(chǔ)模型，可以預(yù)測和生成虛擬環(huán)境未來狀態(tài)的物理感知視頻的神經(jīng)網(wǎng)絡(luò)。該世界基礎(chǔ)模型通過生成合成數(shù)據(jù)，使用包括文本、圖像、視頻和運(yùn)動(dòng)在內(nèi)的輸入數(shù)據(jù)來生成和仿真虛擬世界，以準(zhǔn)確模擬場景中物體的空間關(guān)系及其物理交互。

應(yīng)該說在當(dāng)前的AI架構(gòu)和模型范式下，通過生成式物理仿真，捕捉現(xiàn)實(shí)世界時(shí)空四維鏡像，從而獲取大量的物理數(shù)據(jù)是實(shí)現(xiàn)具身智能的關(guān)鍵。和語言大模型不一樣，機(jī)器人世界模型所需的訓(xùn)練數(shù)據(jù)需要精確標(biāo)定來進(jìn)行學(xué)習(xí)和泛化，很難從現(xiàn)實(shí)世界完成龐大的采集量且采集后多模態(tài)數(shù)據(jù)很難標(biāo)定，度量不一這些數(shù)據(jù)就無法被模型利用。

機(jī)器人模型從Sim到Real也就成了更有效率的一條路，生成大量可控的基于物理學(xué)的合成數(shù)據(jù)，仿真虛擬世界以準(zhǔn)確模擬場景中物體的空間關(guān)系及其物理交互。在物理AI模型部署到現(xiàn)實(shí)世界之前進(jìn)行仿真測試和調(diào)試，以及在虛擬環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)以加速AI智能體學(xué)習(xí)。然后通過部分真實(shí)數(shù)據(jù)做對齊，進(jìn)一步提高機(jī)器人執(zhí)行準(zhǔn)確性，最終實(shí)現(xiàn)物理AI愿景。

當(dāng)然，實(shí)現(xiàn)真正意義上的Physical物理型AI，這些世界模型的建立與應(yīng)用需要更多的計(jì)算能力和海量數(shù)據(jù)的學(xué)習(xí)與訓(xùn)練。除了通向物理AI終局的世界模型，終端側(cè)大模型以及細(xì)分小模型的應(yīng)用已經(jīng)在持續(xù)推動(dòng)終端設(shè)備智能化進(jìn)程，讓其擁有感知環(huán)境變化，依據(jù)觀測數(shù)據(jù)優(yōu)化決策，從而更精確地進(jìn)行物理交互的能力。而未來更全面更真實(shí)世界模型與終端機(jī)器人的融合將進(jìn)一步將AI向物理AI終局推動(dòng)。

世界模型與下沉到端側(cè)的語言、感知、操作模型共同賦能下物理Al將不斷賦予“以機(jī)器人為代表的終端物理設(shè)備”自我適應(yīng)和深度決策能力，使其在真實(shí)世界中具備更強(qiáng)的動(dòng)手與動(dòng)腦能力。

這里強(qiáng)調(diào)了是“以機(jī)器人為代表的終端物理設(shè)備”，物理AI的終局并不一定是現(xiàn)階段我們認(rèn)知的機(jī)器人，尤其不一定是人形。物理形態(tài)只是載體，在AI的加持下，設(shè)備外形設(shè)計(jì)適配具體任務(wù)的執(zhí)行即可。在終端設(shè)備與終端側(cè)AI的深度融合下，未來家電設(shè)備、自動(dòng)汽車等設(shè)備又何嘗不是另一種形態(tài)的機(jī)器人，這些實(shí)體的智能終端也正是物理AI的愿景。

寫在最后

世界基礎(chǔ)模型提供物理世界知識和高仿真數(shù)據(jù)，奠定泛化基礎(chǔ)；端側(cè)模型經(jīng)細(xì)化、壓縮及多模態(tài)融合優(yōu)化，適配終端側(cè)設(shè)備算力需求；加之基礎(chǔ)硬件如專用計(jì)算芯片、AI加速器性能的提升，物理AI時(shí)代正在慢慢變?yōu)楝F(xiàn)實(shí)。

（來源物聯(lián)網(wǎng)智庫）

標(biāo)簽：機(jī)器人具身智能

我要反饋

2月11日消息，工業(yè)和信息化部等十一部門近日聯(lián)合發(fā)布《銅產(chǎn)業(yè)高質(zhì)量發(fā)展實(shí)施方案(2025—2027年)》(以下簡稱《實(shí)施方案》)，提出到2027年，我國銅產(chǎn)業(yè)鏈供應(yīng)鏈韌性和安全水平明顯... [詳情]

2025年02月12日 AI技術(shù) 銅行業(yè)

摩根士丹利報(bào)告解讀：人形機(jī)器人的全鏈崛起和產(chǎn)業(yè)突圍

2年前，人形機(jī)器人的發(fā)展還被普遍認(rèn)為是科技泡沫。因?yàn)槿诵螜C(jī)器人先不說完成既定任務(wù)，僅僅解決平穩(wěn)行走就已經(jīng)用盡全力了，而同樣情況下四足機(jī)器人完成人形機(jī)器人的任務(wù)，難度則低得多... [詳情]

2025年02月12日人形機(jī)器人

官宣！TCL成為奧林匹克全球合作伙伴

2月20日，TCL&奧林匹克全球合作伙伴簽約儀式在北京水立方舉行。國際奧委會(huì)主席巴赫與TCL創(chuàng)始人、董事長李東生出席儀式并完成簽約，此次簽約標(biāo)志著TCL正式成為奧林匹克全球合作伙伴... [詳情]

2025年02月12日 TCL