大模型與具身智能的融合,正在將人形機(jī)器人推向AI發(fā)展的新浪潮。
作為國內(nèi)AI基礎(chǔ)設(shè)施服務(wù)的領(lǐng)導(dǎo)者,商湯大裝置將為推動(dòng)人形機(jī)器人的技術(shù)創(chuàng)新與應(yīng)用,提供領(lǐng)先的算力、模型和數(shù)據(jù)處理能力支撐。
在本周舉辦的第二屆中國具身智能與人形機(jī)器人創(chuàng)新發(fā)展大會(huì)上,商湯科技大裝置事業(yè)群生態(tài)總監(jiān)劉遠(yuǎn)輝分享了商湯在AI和自動(dòng)駕駛領(lǐng)域的創(chuàng)新實(shí)踐對(duì)于具身智能、人形機(jī)器人的借鑒價(jià)值。他指出,AI基礎(chǔ)設(shè)施將是驅(qū)動(dòng)人形機(jī)器人端到端發(fā)展的新引擎。
一段式端到端AI系統(tǒng)
開啟人形機(jī)器人通往AGI之路
過去十年間,AI技術(shù)已在多個(gè)垂直領(lǐng)域突破了工業(yè)紅線,成功與各行業(yè)的實(shí)際應(yīng)用場景融合,但其發(fā)展仍面臨諸多挑戰(zhàn)。
比如,各行各業(yè)中的長尾場景眾多,但需求規(guī)模小,而大規(guī)模的研發(fā)投入又會(huì)導(dǎo)致投資回報(bào)率降低。此外,行業(yè)中的AI模型種類眾多,但單一模型能夠解決的問題仍十分有限。
機(jī)器人的發(fā)展也呈現(xiàn)近似趨勢。大多數(shù)機(jī)器人產(chǎn)品僅局限于執(zhí)行單一、特定的任務(wù),缺乏足夠的通用性和泛化能力,成為廣泛普及與應(yīng)用的一大障礙。
商湯在端到端自動(dòng)駕駛大模型方面的創(chuàng)新研發(fā)實(shí)踐,為具身智能、人形機(jī)器人的突破提出了可以借鑒的新路徑。
傳統(tǒng)的自動(dòng)駕駛系統(tǒng)由多個(gè)感知小模型和規(guī)則定義的規(guī)控系統(tǒng)組成。在2022年底,商湯及其聯(lián)合實(shí)驗(yàn)室提出了行業(yè)首個(gè)感知決策一體化自動(dòng)駕駛通用模型UniAD,將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型中。
UniAD作為“一段式”端到端的代表,相較于業(yè)內(nèi)其他將感知和規(guī)控分為兩個(gè)模型的“兩段式”端到端方案,能夠?qū)崿F(xiàn)感知信息的無損傳遞,擁有更好的復(fù)雜場景理解、泛化能力和解決corner case的能力。
“一段式”端到端系統(tǒng)完全由數(shù)據(jù)驅(qū)動(dòng),其能力將隨著訓(xùn)練數(shù)據(jù)量的增加而實(shí)現(xiàn)躍遷,讓自動(dòng)駕駛系統(tǒng)和人形機(jī)器人擁有更通用、更泛化的復(fù)雜場景理解能力,有望創(chuàng)造自動(dòng)駕駛和具身智能發(fā)展的“ChatGPT時(shí)刻”,開啟自動(dòng)駕駛和人形機(jī)器人通往AGI之路。
而“一段式”端到端系統(tǒng)的訓(xùn)練,需要更高算力、全新數(shù)據(jù)生產(chǎn)管線、世界模型等作為平臺(tái)支撐,帶來了對(duì)人工智能基礎(chǔ)設(shè)施需求的激增。
商湯大裝置+日日新大模型體系
為具身智能打造新一代AI基礎(chǔ)設(shè)施
商湯對(duì)人工智能基礎(chǔ)設(shè)施的定義,源于AI發(fā)展的三要素:算力、算法和數(shù)據(jù)。
充足的算力資源儲(chǔ)備,強(qiáng)大的基模型、AI平臺(tái)軟件和數(shù)據(jù)能力優(yōu)勢,以及面向場景生態(tài)的AI專家服務(wù)體系,是AI基礎(chǔ)設(shè)施成功的關(guān)鍵要素。
在算力層面,商湯大裝置運(yùn)營總算力規(guī)模已突破20,000 PetaFLOPS,同時(shí)也在積極“云、邊、端”協(xié)同的算力布局,以更高的算力利用率,為人形機(jī)器人的應(yīng)用提供更高推理性價(jià)比。
根據(jù)IDC發(fā)布報(bào)告《中國智算服務(wù)市場(2023下半年)跟蹤》,商湯科技在中國云計(jì)算基礎(chǔ)設(shè)施廠商中脫穎而出,與火山引擎、阿里巴巴共同躋身2023年下半年中國GenAI IaaS服務(wù)廠商TOP 3,以顯著的市場份額優(yōu)勢位居GenAI IaaS領(lǐng)域的第一梯隊(duì)。
在算法層面,商湯的“日日新”大模型體系在尺度定律下快速迭代。最新的“日日新5.5”在語言能力、多模態(tài)能力已全面對(duì)標(biāo)GPT-4 Turbo和GPT-4o,可賦能人形機(jī)器人的“眼力”和“腦力”。
作為國內(nèi)首個(gè)具備流式原生多模態(tài)交互能力的大模型,“日日新5o”實(shí)現(xiàn)了語音、視頻和語言模型的原生融合,響應(yīng)延遲達(dá)到560ms,能夠滿足人形機(jī)器人實(shí)時(shí)的流式多模態(tài)AI交互能力需求。
同時(shí),商湯端到端AGI大模型,讓機(jī)器人能夠像人一樣理解復(fù)雜的現(xiàn)實(shí)世界,提升各種環(huán)境下的交互和決策能力。比如,在自動(dòng)駕駛場景中,該模型可以讓車輛平穩(wěn)通過路障限寬路段,勝任傳統(tǒng)規(guī)則系統(tǒng)無法應(yīng)對(duì)的場景。
具身智能發(fā)展的關(guān)鍵,正是多模態(tài)大模型能力與人形機(jī)器人的有效結(jié)合。
在數(shù)據(jù)層面,通過虛實(shí)結(jié)合的方式進(jìn)行數(shù)據(jù)生成,可以解決人形機(jī)器人開發(fā)廣泛存在的數(shù)據(jù)匱乏乃至標(biāo)準(zhǔn)不統(tǒng)一等難題。
對(duì)此,商湯正與行業(yè)伙伴聯(lián)合開發(fā)仿真模擬方案,通過商湯大模型和新型AI基礎(chǔ)設(shè)施加速仿真場景生成,提升開發(fā)效率。此外,商湯大裝置緊密聯(lián)動(dòng)機(jī)器人產(chǎn)業(yè)上下游軟件及硬件合作伙伴,如人形機(jī)器人國創(chuàng)中心、松應(yīng)科技、北京銀河通用機(jī)器人等,發(fā)揮商湯在算力及算法層的優(yōu)勢,共同探索具身智能行業(yè)應(yīng)用與實(shí)踐,助推人形機(jī)器人產(chǎn)業(yè)新一輪升級(jí)。
在人形機(jī)器人的浪潮下,商湯將堅(jiān)定基礎(chǔ)設(shè)施的行業(yè)定位,基于商湯大裝置和日日新大模型體系,提供算力、數(shù)據(jù)、模型能力的全棧支持,加速人形機(jī)器人的一體化定制化研發(fā)和落地,構(gòu)建機(jī)器人智能體的全新行業(yè)生態(tài)。
(來源:商湯科技)