siemens x
人工智能

2020,暢想人工智能3D感知技術(shù)的未來(lái)

2025China.cn   2020年02月12日

  編者按:本周,諸多企業(yè)已開始陸續(xù)返崗,通勤路上、辦公室內(nèi),大家更加需要注意嚴(yán)格防護(hù)。這里,商湯君繼續(xù)為大家分享人工智能的精彩報(bào)道和技術(shù)展望,帶來(lái)一篇AI+3D技術(shù)的深度內(nèi)容,一起來(lái)感受機(jī)器感知技術(shù)的快速演進(jìn)和美好未來(lái)。

  如果說(shuō),AI的快速發(fā)展,讓機(jī)器初步具備了看懂平面世界的能力。

  那么,下一個(gè)10年,AI+3D將讓機(jī)器能夠更深刻地感知和理解我們的三維世界,并重新定義我們的生活、娛樂(lè)和工作方式。

賦予機(jī)器感知三維世界的“眼睛”

  人類擁有與生俱來(lái)的3D環(huán)境感知能力,這是因?yàn)槲覀兡軌蛴脙芍谎劬?lái)捕捉圖像,通過(guò)大腦處理形成立體視覺(jué),從而辨認(rèn)物體的形狀、他人的動(dòng)作,感知我們和對(duì)方的距離,并輕松自然地跟這個(gè)三維世界進(jìn)行交互。

  人類也在不斷努力為機(jī)器賦予和我們一樣的3D感知能力,讓機(jī)器能夠“看懂”我們做出的動(dòng)作,并給予相應(yīng)的反饋,或是讓機(jī)器知道“自己周圍有什么”,甚至將其描繪出來(lái)。

  比如,通過(guò)體感控制畫面中的游戲人物,在家和朋友來(lái)一場(chǎng)棒球賽或是田徑比賽,而不是只能單調(diào)地坐在沙發(fā)上操控手柄;

  將下一代汽車通過(guò)增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)投射到桌面上,客戶可以親自“打開”車門甚至現(xiàn)場(chǎng)“拆解”內(nèi)部結(jié)構(gòu),直觀地提出修改建議;

  派無(wú)人機(jī)深入森林或洞穴,一邊前行一邊繪制周邊場(chǎng)景的三維圖像,幫助我們探索自然環(huán)境;

  讓自動(dòng)駕駛汽車,能夠像人一樣,做出合理的路徑規(guī)劃,讓出行更具效率且更加安全……

  3D感知技術(shù)能夠給各行各業(yè)帶來(lái)創(chuàng)新的發(fā)展模式,無(wú)論是豐富我們的娛樂(lè)體驗(yàn),還是提升我們的工作效率,便捷我們的出行體驗(yàn),或是改變我們探索自然的方式……

  為了賦予機(jī)器感知三維世界的“眼睛”,早在上世紀(jì)70年代,工業(yè)界便開始應(yīng)用激光雷達(dá)、結(jié)構(gòu)光、ToF(飛行時(shí)間)等3D感知技術(shù),用于測(cè)量、掃描物體,以提高生產(chǎn)效率。

  初期的自動(dòng)駕駛汽車,則大量應(yīng)用激光雷達(dá)作為傳感設(shè)備,提升對(duì)環(huán)境的感知能力。

  直到近10多年,家用游戲機(jī)廠商將外接體感設(shè)備帶到了普通人的視野當(dāng)中,創(chuàng)造出體感游戲等新奇體驗(yàn)。

  而在2017年,結(jié)構(gòu)光系統(tǒng)更是首次集成到了手機(jī)上,實(shí)現(xiàn)安全性更高的人臉身份驗(yàn)證。

  今天,小型化的結(jié)構(gòu)光和ToF出現(xiàn)在了越來(lái)越多的智能手機(jī)上。

  相較于結(jié)構(gòu)光,ToF支持的工作距離更長(zhǎng),適用于更加多元化的場(chǎng)景,同時(shí)占用空間更小,更易集成進(jìn)小型化的終端設(shè)備。

  在未來(lái)一段時(shí)間內(nèi),這兩種感知技術(shù)都將共存,且因不同使用場(chǎng)景需求,在不同行業(yè)領(lǐng)域中長(zhǎng)期發(fā)展。

  而新的10年,也將是小型化3D感知硬件快速普及、全面走向大眾的10年。

  但是,硬件只是基礎(chǔ),如同人們的雙眼,只是讓我們具備了捕捉立體圖像信息的能力,真正理解萬(wàn)物和人類之間的各類交互行為,依靠的還是我們大腦的學(xué)習(xí)能力。

  而3D感知硬件從工業(yè)界走向大眾,消費(fèi)者對(duì)這項(xiàng)技術(shù)自然也會(huì)抱有更高的期待,因此要具備更加通用的場(chǎng)景感知能力。

  對(duì)于機(jī)器來(lái)說(shuō),能學(xué)習(xí)這些能力的“大腦”,就是人工智能(AI)技術(shù)。

  如今,AI和3D這兩大革命性的技術(shù),正在產(chǎn)生絕妙的化學(xué)反應(yīng)。

  很快,在AI+3D技術(shù)的加持下,僅通過(guò)智能手機(jī)等小型終端設(shè)備,就能做到很多以往需要專業(yè)硬件設(shè)備才能夠?qū)崿F(xiàn)的事情,并因此讓這些事情變得更加簡(jiǎn)單,成本更低,讓眾多的應(yīng)用場(chǎng)景從不可能變成可能。

  AI+3D,很有希望成為掀起新10年行業(yè)變革的一項(xiàng)感知技術(shù)。

AI技術(shù),讓3D感知不斷學(xué)習(xí)

  機(jī)器依靠攝像頭來(lái)捕捉現(xiàn)實(shí)世界的影像。

  傳統(tǒng)的RGB攝像頭僅能捕獲場(chǎng)景中的色彩信息,無(wú)法感知現(xiàn)實(shí)世界的三維結(jié)構(gòu),無(wú)論遠(yuǎn)近,對(duì)機(jī)器來(lái)說(shuō)都只是一個(gè)2D平面。

  3D感知硬件的作用,就是在RGB的基礎(chǔ)上增加Depth這一深度信息。

  多一層信息維度,也就多了一層信息處理的復(fù)雜度。不僅信息量更大,隨之產(chǎn)生的技術(shù)挑戰(zhàn)也越多。

  盡管結(jié)構(gòu)光、ToF等技術(shù)在過(guò)去幾年間已經(jīng)不斷小型化,但受限于圖像處理算法的瓶頸,機(jī)器的3D感知能力,并未被充分挖掘。

  圖片來(lái)源于網(wǎng)絡(luò)

  2012年,AI技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域中取得的突破,也使其成為了驅(qū)動(dòng)3D感知技術(shù)新的引擎。

  AI可以通過(guò)對(duì)大量數(shù)據(jù)信息的學(xué)習(xí),自行總結(jié)其中的規(guī)律和特征,從而比傳統(tǒng)算法模式更快地達(dá)到更好的結(jié)果。

  這就為機(jī)器開創(chuàng)了學(xué)習(xí)理解三維世界的全新方法,諸如更加精細(xì)地識(shí)別場(chǎng)景中人和物的相互關(guān)系,快速重建人臉、人體和物體的三維模型,快速測(cè)量各種物體的三維信息,賦予機(jī)械臂感知物體的立體型態(tài),更高效率跟蹤人體關(guān)鍵點(diǎn)和動(dòng)作……

  可以說(shuō),AI技術(shù)能夠在相同的硬件能力上,更快速地實(shí)現(xiàn)更好的效果,相應(yīng)地,它也能夠彌補(bǔ)硬件能力的不足,在相對(duì)較低成本的硬件上達(dá)到媲美高端硬件帶來(lái)的效果。

  隨著3D感知硬件的廣泛普及,AI與3D的有效結(jié)合就將非常重要,兩者將密不可分:

  首先,AI+3D可以進(jìn)一步優(yōu)化感知效果,提升用戶體驗(yàn)。以動(dòng)作捕捉為例,結(jié)合對(duì)深度信息的高效處理,能夠整體提升肢體關(guān)鍵點(diǎn)的穩(wěn)定性、準(zhǔn)確性以及運(yùn)動(dòng)的穩(wěn)定性和自然度,精準(zhǔn)呈現(xiàn)人在三維空間中的動(dòng)作姿態(tài)變化;

  第二,AI+3D可以更加高效地應(yīng)用和處理深度信息,理解環(huán)境中人物間的相互關(guān)系。例如為自動(dòng)駕駛提供車外的人、車、物的識(shí)別和距離感知,或?yàn)樵鰪?qiáng)現(xiàn)實(shí)應(yīng)用帶來(lái)逼真的虛擬元素遮擋、旋轉(zhuǎn)、碰撞效果,又在智能手機(jī)等輕量級(jí)設(shè)備上完成高精度的3D模型建模;

  第三,AI+3D可以更加精準(zhǔn)地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下,得益于對(duì)深度信息的快速處理,在分割效果上就能夠比2D感知技術(shù)有很大的提升,可提供不同人物之間的語(yǔ)義信息,亦可結(jié)合3D相機(jī)系統(tǒng)帶來(lái)更逼近單反的攝影效果;

  第四,深度信息與紅外圖像的結(jié)合,可以讓3D感知適用于更多的場(chǎng)景,使之不受環(huán)境光線的影響,在暗態(tài)場(chǎng)景下依然能感知這個(gè)世界。

  目前,商湯科技已經(jīng)將AI技術(shù)廣泛地應(yīng)用于3D感知的各個(gè)領(lǐng)域,開發(fā)了基于ToF等3D感知硬件的技術(shù)與產(chǎn)品,包括人臉與人體3D重建、物體重建、3D全身關(guān)鍵點(diǎn)跟蹤、3D Avatar驅(qū)動(dòng)工具、AR測(cè)量、AR場(chǎng)景互動(dòng)、AR導(dǎo)航、3D人臉認(rèn)證、3D攝影等等。

  在提供算法的同時(shí),商湯科技也與3D感知硬件的合作伙伴緊密合作,為行業(yè)提供軟硬一體的整體解決方案,并由此驅(qū)動(dòng)AI+3D的發(fā)展和生態(tài)構(gòu)建,推動(dòng)3D感知技術(shù)給智能手機(jī)、娛樂(lè)行業(yè)、自動(dòng)駕駛汽車、泛工業(yè)領(lǐng)域發(fā)展帶來(lái)變革。

AI+3D,開創(chuàng)應(yīng)用場(chǎng)景的更多可能

  AI+3D正成為移動(dòng)終端設(shè)備發(fā)展的必然趨勢(shì)。

  自2017年以來(lái),智能手機(jī)攝像系統(tǒng)從單攝發(fā)展到雙攝,再發(fā)展到如今多攝搭配ToF的組合,攝像頭數(shù)量的大幅躍進(jìn),其對(duì)AI的依賴性也會(huì)越來(lái)越高,只有兩者的緊密協(xié)作,才能夠?qū)⑼昝赖挠跋耋w驗(yàn)帶給最終用戶,缺一不可。

  同樣,越來(lái)越多的智能硬件也在逐漸具備3D感知能力。

  為此,商湯科技一直積極與合作伙伴攜手共進(jìn),將AI+3D相關(guān)產(chǎn)品和技術(shù)充分應(yīng)用于手機(jī)等智能終端當(dāng)中,從人機(jī)交互體驗(yàn)、AR、身份認(rèn)證、拍照等層面,全面推動(dòng)移動(dòng)終端邁向AI+3D時(shí)代。

  首先,AI+3D讓機(jī)器真正具備了感知三維世界的能力,它可以將現(xiàn)實(shí)世界的物體進(jìn)行數(shù)字化建模,實(shí)現(xiàn)“物品重建”。

  借助商湯科技的通用3D重建技術(shù),從毛絨玩具、紙箱、書包、鞋子到雕塑,用戶只需拿手機(jī)沿著物體360度環(huán)繞掃描,就能將其掃描成數(shù)字化的模型。

  生成的模型文件可直接用于3D打印、3D/AR相冊(cè)預(yù)覽,也可應(yīng)用于短視頻直播的內(nèi)容生成并設(shè)置動(dòng)畫,也可植入到如AR養(yǎng)寵等游戲場(chǎng)景,或是電商的商品展示或預(yù)覽等場(chǎng)景中。

  除了物品重建,還可以做“人臉重建”。

  2018年,商湯科技助力合作伙伴推出了市面上第一款具備3D人臉重建功能的手機(jī)。

  3D人臉重建能夠讓人們對(duì)美的追求從平面走向立體。消費(fèi)者不僅可以體驗(yàn)比2D美顏在五官上更加精美的3D美顏功能,還可足不出戶輕松地進(jìn)行虛擬試妝,直觀查看上妝效果,甚至還能直觀體驗(yàn)“3D微整形”來(lái)模擬整形效果,給醫(yī)療美容行業(yè)帶來(lái)新的用戶體驗(yàn)。

  AI+3D更開創(chuàng)了人機(jī)互動(dòng)的新方式,它可以讓智能手機(jī)成為一臺(tái)體感設(shè)備,實(shí)現(xiàn)精準(zhǔn)的表情識(shí)別、肢體動(dòng)作關(guān)鍵點(diǎn)捕捉。

  由此一來(lái),玩家不再需要外接體感控制器,就可方便地暢玩體感游戲,而內(nèi)容創(chuàng)作者則可讓自己化身為一個(gè)3D Avatar虛擬形象,例如虛擬游戲人物、虛擬主播、虛擬講解員或者虛擬教師,通過(guò)自己的表情、動(dòng)作來(lái)驅(qū)動(dòng)虛擬形象的相應(yīng)行為。

  這種創(chuàng)新的虛實(shí)結(jié)合的互動(dòng)形式,能夠?yàn)橛螒颉⒅辈?、文旅乃至教育打造新的發(fā)展模式。

  AI+3D也將在很大程度上推動(dòng)移動(dòng)AR朝向3D AR方向發(fā)展。

  此前,相信很多用戶經(jīng)常會(huì)發(fā)現(xiàn)AR投射出來(lái)的虛擬形象并沒(méi)有真正融入到現(xiàn)實(shí)場(chǎng)景中,只像是一張貼在屏幕上的貼紙。

  隨著商湯科技將基于ToF的AI+3D技術(shù)賦能于AR應(yīng)用,提供RGBD SLAM(同時(shí)定位與地圖構(gòu)建)方案,將能夠充分利用深度信息重建真實(shí)環(huán)境的3D結(jié)構(gòu),準(zhǔn)確還原虛擬物體和真實(shí)環(huán)境中物體的相對(duì)位置,呈現(xiàn)遮擋、碰撞、反彈等效果,讓虛擬和現(xiàn)實(shí)做到“真融合”。

  為了推動(dòng)SLAM這一AR關(guān)鍵技術(shù)領(lǐng)域的發(fā)展,商湯科技還與浙江大學(xué)共建了“浙江大學(xué)-商湯三維視覺(jué)聯(lián)合實(shí)驗(yàn)室”,在SLAM和三維重建等領(lǐng)域的前沿研究展開深入合作,并推出了高精定位與內(nèi)容增強(qiáng)解決方案,不僅可以助力實(shí)現(xiàn)高精度的AR導(dǎo)航,還能讓用戶在此過(guò)程中與融入真實(shí)世界的虛擬景觀即時(shí)互動(dòng)。

  而有了3D AR,手機(jī)還能搖身一變成為一把更為好用的AR測(cè)量尺。

  以商湯科技的3D AR測(cè)量產(chǎn)品為例,從測(cè)量精度,場(chǎng)景覆蓋率到初始化耗時(shí),都遠(yuǎn)超基于2D攝像頭的AR測(cè)量方案,同時(shí)不僅能測(cè)量長(zhǎng)度,甚至還可以檢測(cè)立體幾何物體并自動(dòng)識(shí)別關(guān)鍵點(diǎn),完成測(cè)量。

  AI+3D也將讓3D人臉識(shí)別得到更加廣泛的應(yīng)用,并成為更便捷、更安全的解鎖或支付方式。

  商湯科技不僅在2018年助力合作伙伴推出了市面上首款基于結(jié)構(gòu)光的3D人臉識(shí)別安卓手機(jī),還于同年底推出了基于ToF的3D人臉識(shí)別方案,為客戶提供多種解決方案。

  不僅僅是智能手機(jī),智能門鎖等IoT設(shè)備也將邁向3D感知時(shí)代。

  今年,商湯科技推出了基于雙目視覺(jué)的3D人臉識(shí)別智能門鎖解決方案,支持在大角度和暗光環(huán)境下通過(guò)人臉驗(yàn)證準(zhǔn)確解鎖,并能有效防范各類非活體攻擊,為用戶帶來(lái)便捷、安全的入戶體驗(yàn)。

  媲美單反的大景深效果一直是手機(jī)人像拍照所追求的方向。

  早在2016年,商湯科技便推出了基于雙攝系統(tǒng)的拍照虛化功能,如今更是推出了基于3D相機(jī)的虛化技術(shù),精準(zhǔn)的深度信息結(jié)合AI技術(shù)的處理,可以讓人物等主體與背景的過(guò)渡效果更加自然、更加精準(zhǔn),無(wú)限逼近單反級(jí)別的虛化效果。

  在電商行業(yè),無(wú)論是AR試妝、AR試衣、AR家居已不是新鮮概念,但AI+3D不僅可讓虛擬上妝、試衣等效果更加精準(zhǔn),更讓消費(fèi)者能夠轉(zhuǎn)動(dòng)頭部、身體,從更多維的視角查看最終效果,充分消除“不知道是否符合自己”的疑惑,進(jìn)一步促成購(gòu)買行為。

  商家還可通過(guò)“物品重建”,將物品轉(zhuǎn)化為數(shù)字模型,讓顧客簡(jiǎn)單翻轉(zhuǎn)就能360度地了解物品外觀,并放置到真實(shí)場(chǎng)景中預(yù)覽,而無(wú)需像現(xiàn)在這樣一一翻看多張不同角度的靜態(tài)照片。

  放眼汽車行業(yè),AI+3D技術(shù)能夠?qū)崿F(xiàn)更加精準(zhǔn)的車外人、車、物識(shí)別和距離感知,從而有力推動(dòng)自動(dòng)駕駛在新10年的重要發(fā)展。

  而在泛工業(yè)領(lǐng)域,AI+3D將進(jìn)一步優(yōu)化工業(yè)生產(chǎn)流程,不斷提升生產(chǎn)效率。

  它可以為機(jī)械臂賦予3D感知能力,通過(guò)高精準(zhǔn)的SLAM、物體重建和測(cè)量等技術(shù),判斷立體物體所處的位置,以及相應(yīng)的尺寸、形狀和質(zhì)量等信息,從而進(jìn)行精準(zhǔn)的抓取,或是進(jìn)行自動(dòng)化的品質(zhì)檢測(cè),實(shí)現(xiàn)高標(biāo)準(zhǔn)的質(zhì)量把控,有力提升工業(yè)生產(chǎn)的智能化程度,降本增效。

  《Prediction Machines》一書中曾提到:“當(dāng)某種基礎(chǔ)產(chǎn)品價(jià)格大幅下降的時(shí)候,才是整個(gè)世界發(fā)生變化的基礎(chǔ)”。

  3D感知硬件的普及和AI技術(shù)的加持,讓以往工業(yè)界才能實(shí)現(xiàn)的應(yīng)用方式來(lái)到大眾視野,降低體驗(yàn)成本的同時(shí),應(yīng)用場(chǎng)景也更加拓寬,變得更加普及,從基礎(chǔ)改變我們的生活、娛樂(lè)、出行和工作方式。

  新的10年,機(jī)器的感知能力將從2D走向3D,AI+3D也將成為變革行業(yè)發(fā)展的全新引擎。

(轉(zhuǎn)載)

標(biāo)簽:商湯科技 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]