2020，暢想人工智能3D感知技術(shù)的未來(lái)

2025China.cn 2020年02月12日

　　編者按：本周，諸多企業(yè)已開始陸續(xù)返崗，通勤路上、辦公室內(nèi)，大家更加需要注意嚴(yán)格防護(hù)。這里，商湯君繼續(xù)為大家分享人工智能的精彩報(bào)道和技術(shù)展望，帶來(lái)一篇AI+3D技術(shù)的深度內(nèi)容，一起來(lái)感受機(jī)器感知技術(shù)的快速演進(jìn)和美好未來(lái)。

　　如果說(shuō)，AI的快速發(fā)展，讓機(jī)器初步具備了看懂平面世界的能力。

　　那么，下一個(gè)10年，AI+3D將讓機(jī)器能夠更深刻地感知和理解我們的三維世界，并重新定義我們的生活、娛樂(lè)和工作方式。

賦予機(jī)器感知三維世界的“眼睛”

　　人類擁有與生俱來(lái)的3D環(huán)境感知能力，這是因?yàn)槲覀兡軌蛴脙芍谎劬?lái)捕捉圖像，通過(guò)大腦處理形成立體視覺(jué)，從而辨認(rèn)物體的形狀、他人的動(dòng)作，感知我們和對(duì)方的距離，并輕松自然地跟這個(gè)三維世界進(jìn)行交互。

　　人類也在不斷努力為機(jī)器賦予和我們一樣的3D感知能力，讓機(jī)器能夠“看懂”我們做出的動(dòng)作，并給予相應(yīng)的反饋，或是讓機(jī)器知道“自己周圍有什么”，甚至將其描繪出來(lái)。

　　比如，通過(guò)體感控制畫面中的游戲人物，在家和朋友來(lái)一場(chǎng)棒球賽或是田徑比賽，而不是只能單調(diào)地坐在沙發(fā)上操控手柄;

　　將下一代汽車通過(guò)增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)投射到桌面上，客戶可以親自“打開”車門甚至現(xiàn)場(chǎng)“拆解”內(nèi)部結(jié)構(gòu)，直觀地提出修改建議;

　　派無(wú)人機(jī)深入森林或洞穴，一邊前行一邊繪制周邊場(chǎng)景的三維圖像，幫助我們探索自然環(huán)境;

　　讓自動(dòng)駕駛汽車，能夠像人一樣，做出合理的路徑規(guī)劃，讓出行更具效率且更加安全……

　　3D感知技術(shù)能夠給各行各業(yè)帶來(lái)創(chuàng)新的發(fā)展模式，無(wú)論是豐富我們的娛樂(lè)體驗(yàn)，還是提升我們的工作效率，便捷我們的出行體驗(yàn)，或是改變我們探索自然的方式……

　　為了賦予機(jī)器感知三維世界的“眼睛”，早在上世紀(jì)70年代，工業(yè)界便開始應(yīng)用激光雷達(dá)、結(jié)構(gòu)光、ToF(飛行時(shí)間)等3D感知技術(shù)，用于測(cè)量、掃描物體，以提高生產(chǎn)效率。

　　初期的自動(dòng)駕駛汽車，則大量應(yīng)用激光雷達(dá)作為傳感設(shè)備，提升對(duì)環(huán)境的感知能力。

　　直到近10多年，家用游戲機(jī)廠商將外接體感設(shè)備帶到了普通人的視野當(dāng)中，創(chuàng)造出體感游戲等新奇體驗(yàn)。

　　而在2017年，結(jié)構(gòu)光系統(tǒng)更是首次集成到了手機(jī)上，實(shí)現(xiàn)安全性更高的人臉身份驗(yàn)證。

　　今天，小型化的結(jié)構(gòu)光和ToF出現(xiàn)在了越來(lái)越多的智能手機(jī)上。

　　相較于結(jié)構(gòu)光，ToF支持的工作距離更長(zhǎng)，適用于更加多元化的場(chǎng)景，同時(shí)占用空間更小，更易集成進(jìn)小型化的終端設(shè)備。

　　在未來(lái)一段時(shí)間內(nèi)，這兩種感知技術(shù)都將共存，且因不同使用場(chǎng)景需求，在不同行業(yè)領(lǐng)域中長(zhǎng)期發(fā)展。

　　而新的10年，也將是小型化3D感知硬件快速普及、全面走向大眾的10年。

　　但是，硬件只是基礎(chǔ)，如同人們的雙眼，只是讓我們具備了捕捉立體圖像信息的能力，真正理解萬(wàn)物和人類之間的各類交互行為，依靠的還是我們大腦的學(xué)習(xí)能力。

　　而3D感知硬件從工業(yè)界走向大眾，消費(fèi)者對(duì)這項(xiàng)技術(shù)自然也會(huì)抱有更高的期待，因此要具備更加通用的場(chǎng)景感知能力。

　　對(duì)于機(jī)器來(lái)說(shuō)，能學(xué)習(xí)這些能力的“大腦”，就是人工智能(AI)技術(shù)。

　　如今，AI和3D這兩大革命性的技術(shù)，正在產(chǎn)生絕妙的化學(xué)反應(yīng)。

　　很快，在AI+3D技術(shù)的加持下，僅通過(guò)智能手機(jī)等小型終端設(shè)備，就能做到很多以往需要專業(yè)硬件設(shè)備才能夠?qū)崿F(xiàn)的事情，并因此讓這些事情變得更加簡(jiǎn)單，成本更低，讓眾多的應(yīng)用場(chǎng)景從不可能變成可能。

　　AI+3D，很有希望成為掀起新10年行業(yè)變革的一項(xiàng)感知技術(shù)。

AI技術(shù)，讓3D感知不斷學(xué)習(xí)

　　機(jī)器依靠攝像頭來(lái)捕捉現(xiàn)實(shí)世界的影像。

　　傳統(tǒng)的RGB攝像頭僅能捕獲場(chǎng)景中的色彩信息，無(wú)法感知現(xiàn)實(shí)世界的三維結(jié)構(gòu)，無(wú)論遠(yuǎn)近，對(duì)機(jī)器來(lái)說(shuō)都只是一個(gè)2D平面。

　　3D感知硬件的作用，就是在RGB的基礎(chǔ)上增加Depth這一深度信息。

　　多一層信息維度，也就多了一層信息處理的復(fù)雜度。不僅信息量更大，隨之產(chǎn)生的技術(shù)挑戰(zhàn)也越多。

　　盡管結(jié)構(gòu)光、ToF等技術(shù)在過(guò)去幾年間已經(jīng)不斷小型化，但受限于圖像處理算法的瓶頸，機(jī)器的3D感知能力，并未被充分挖掘。

　　圖片來(lái)源于網(wǎng)絡(luò)

　　2012年，AI技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域中取得的突破，也使其成為了驅(qū)動(dòng)3D感知技術(shù)新的引擎。

　　AI可以通過(guò)對(duì)大量數(shù)據(jù)信息的學(xué)習(xí)，自行總結(jié)其中的規(guī)律和特征，從而比傳統(tǒng)算法模式更快地達(dá)到更好的結(jié)果。

　　這就為機(jī)器開創(chuàng)了學(xué)習(xí)理解三維世界的全新方法，諸如更加精細(xì)地識(shí)別場(chǎng)景中人和物的相互關(guān)系，快速重建人臉、人體和物體的三維模型，快速測(cè)量各種物體的三維信息，賦予機(jī)械臂感知物體的立體型態(tài)，更高效率跟蹤人體關(guān)鍵點(diǎn)和動(dòng)作……

　　可以說(shuō)，AI技術(shù)能夠在相同的硬件能力上，更快速地實(shí)現(xiàn)更好的效果，相應(yīng)地，它也能夠彌補(bǔ)硬件能力的不足，在相對(duì)較低成本的硬件上達(dá)到媲美高端硬件帶來(lái)的效果。

　　隨著3D感知硬件的廣泛普及，AI與3D的有效結(jié)合就將非常重要，兩者將密不可分：

　　首先，AI+3D可以進(jìn)一步優(yōu)化感知效果，提升用戶體驗(yàn)。以動(dòng)作捕捉為例，結(jié)合對(duì)深度信息的高效處理，能夠整體提升肢體關(guān)鍵點(diǎn)的穩(wěn)定性、準(zhǔn)確性以及運(yùn)動(dòng)的穩(wěn)定性和自然度，精準(zhǔn)呈現(xiàn)人在三維空間中的動(dòng)作姿態(tài)變化;

　　第二，AI+3D可以更加高效地應(yīng)用和處理深度信息，理解環(huán)境中人物間的相互關(guān)系。例如為自動(dòng)駕駛提供車外的人、車、物的識(shí)別和距離感知，或?yàn)樵鰪?qiáng)現(xiàn)實(shí)應(yīng)用帶來(lái)逼真的虛擬元素遮擋、旋轉(zhuǎn)、碰撞效果，又在智能手機(jī)等輕量級(jí)設(shè)備上完成高精度的3D模型建模;

　　第三，AI+3D可以更加精準(zhǔn)地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下，得益于對(duì)深度信息的快速處理，在分割效果上就能夠比2D感知技術(shù)有很大的提升，可提供不同人物之間的語(yǔ)義信息，亦可結(jié)合3D相機(jī)系統(tǒng)帶來(lái)更逼近單反的攝影效果;

　　第四，深度信息與紅外圖像的結(jié)合，可以讓3D感知適用于更多的場(chǎng)景，使之不受環(huán)境光線的影響，在暗態(tài)場(chǎng)景下依然能感知這個(gè)世界。

　　目前，商湯科技已經(jīng)將AI技術(shù)廣泛地應(yīng)用于3D感知的各個(gè)領(lǐng)域，開發(fā)了基于ToF等3D感知硬件的技術(shù)與產(chǎn)品，包括人臉與人體3D重建、物體重建、3D全身關(guān)鍵點(diǎn)跟蹤、3D Avatar驅(qū)動(dòng)工具、AR測(cè)量、AR場(chǎng)景互動(dòng)、AR導(dǎo)航、3D人臉認(rèn)證、3D攝影等等。

　　在提供算法的同時(shí)，商湯科技也與3D感知硬件的合作伙伴緊密合作，為行業(yè)提供軟硬一體的整體解決方案，并由此驅(qū)動(dòng)AI+3D的發(fā)展和生態(tài)構(gòu)建，推動(dòng)3D感知技術(shù)給智能手機(jī)、娛樂(lè)行業(yè)、自動(dòng)駕駛汽車、泛工業(yè)領(lǐng)域發(fā)展帶來(lái)變革。

AI+3D，開創(chuàng)應(yīng)用場(chǎng)景的更多可能

　　AI+3D正成為移動(dòng)終端設(shè)備發(fā)展的必然趨勢(shì)。

　　自2017年以來(lái)，智能手機(jī)攝像系統(tǒng)從單攝發(fā)展到雙攝，再發(fā)展到如今多攝搭配ToF的組合，攝像頭數(shù)量的大幅躍進(jìn)，其對(duì)AI的依賴性也會(huì)越來(lái)越高，只有兩者的緊密協(xié)作，才能夠?qū)⑼昝赖挠跋耋w驗(yàn)帶給最終用戶，缺一不可。

　　同樣，越來(lái)越多的智能硬件也在逐漸具備3D感知能力。

　　為此，商湯科技一直積極與合作伙伴攜手共進(jìn)，將AI+3D相關(guān)產(chǎn)品和技術(shù)充分應(yīng)用于手機(jī)等智能終端當(dāng)中，從人機(jī)交互體驗(yàn)、AR、身份認(rèn)證、拍照等層面，全面推動(dòng)移動(dòng)終端邁向AI+3D時(shí)代。

　　首先，AI+3D讓機(jī)器真正具備了感知三維世界的能力，它可以將現(xiàn)實(shí)世界的物體進(jìn)行數(shù)字化建模，實(shí)現(xiàn)“物品重建”。

　　借助商湯科技的通用3D重建技術(shù)，從毛絨玩具、紙箱、書包、鞋子到雕塑，用戶只需拿手機(jī)沿著物體360度環(huán)繞掃描，就能將其掃描成數(shù)字化的模型。

　　生成的模型文件可直接用于3D打印、3D/AR相冊(cè)預(yù)覽，也可應(yīng)用于短視頻直播的內(nèi)容生成并設(shè)置動(dòng)畫，也可植入到如AR養(yǎng)寵等游戲場(chǎng)景，或是電商的商品展示或預(yù)覽等場(chǎng)景中。

　　除了物品重建，還可以做“人臉重建”。

　　2018年，商湯科技助力合作伙伴推出了市面上第一款具備3D人臉重建功能的手機(jī)。

　　3D人臉重建能夠讓人們對(duì)美的追求從平面走向立體。消費(fèi)者不僅可以體驗(yàn)比2D美顏在五官上更加精美的3D美顏功能，還可足不出戶輕松地進(jìn)行虛擬試妝，直觀查看上妝效果，甚至還能直觀體驗(yàn)“3D微整形”來(lái)模擬整形效果，給醫(yī)療美容行業(yè)帶來(lái)新的用戶體驗(yàn)。

　　AI+3D更開創(chuàng)了人機(jī)互動(dòng)的新方式，它可以讓智能手機(jī)成為一臺(tái)體感設(shè)備，實(shí)現(xiàn)精準(zhǔn)的表情識(shí)別、肢體動(dòng)作關(guān)鍵點(diǎn)捕捉。

　　由此一來(lái)，玩家不再需要外接體感控制器，就可方便地暢玩體感游戲，而內(nèi)容創(chuàng)作者則可讓自己化身為一個(gè)3D Avatar虛擬形象，例如虛擬游戲人物、虛擬主播、虛擬講解員或者虛擬教師，通過(guò)自己的表情、動(dòng)作來(lái)驅(qū)動(dòng)虛擬形象的相應(yīng)行為。

　　這種創(chuàng)新的虛實(shí)結(jié)合的互動(dòng)形式，能夠?yàn)橛螒颉⒅辈?、文旅乃至教育打造新的發(fā)展模式。

　　AI+3D也將在很大程度上推動(dòng)移動(dòng)AR朝向3D AR方向發(fā)展。

　　此前，相信很多用戶經(jīng)常會(huì)發(fā)現(xiàn)AR投射出來(lái)的虛擬形象并沒(méi)有真正融入到現(xiàn)實(shí)場(chǎng)景中，只像是一張貼在屏幕上的貼紙。

　　隨著商湯科技將基于ToF的AI+3D技術(shù)賦能于AR應(yīng)用，提供RGBD SLAM(同時(shí)定位與地圖構(gòu)建)方案，將能夠充分利用深度信息重建真實(shí)環(huán)境的3D結(jié)構(gòu)，準(zhǔn)確還原虛擬物體和真實(shí)環(huán)境中物體的相對(duì)位置，呈現(xiàn)遮擋、碰撞、反彈等效果，讓虛擬和現(xiàn)實(shí)做到“真融合”。

　　為了推動(dòng)SLAM這一AR關(guān)鍵技術(shù)領(lǐng)域的發(fā)展，商湯科技還與浙江大學(xué)共建了“浙江大學(xué)-商湯三維視覺(jué)聯(lián)合實(shí)驗(yàn)室”，在SLAM和三維重建等領(lǐng)域的前沿研究展開深入合作，并推出了高精定位與內(nèi)容增強(qiáng)解決方案，不僅可以助力實(shí)現(xiàn)高精度的AR導(dǎo)航，還能讓用戶在此過(guò)程中與融入真實(shí)世界的虛擬景觀即時(shí)互動(dòng)。

　　而有了3D AR，手機(jī)還能搖身一變成為一把更為好用的AR測(cè)量尺。

　　以商湯科技的3D AR測(cè)量產(chǎn)品為例，從測(cè)量精度，場(chǎng)景覆蓋率到初始化耗時(shí)，都遠(yuǎn)超基于2D攝像頭的AR測(cè)量方案，同時(shí)不僅能測(cè)量長(zhǎng)度，甚至還可以檢測(cè)立體幾何物體并自動(dòng)識(shí)別關(guān)鍵點(diǎn)，完成測(cè)量。

　　AI+3D也將讓3D人臉識(shí)別得到更加廣泛的應(yīng)用，并成為更便捷、更安全的解鎖或支付方式。

　　商湯科技不僅在2018年助力合作伙伴推出了市面上首款基于結(jié)構(gòu)光的3D人臉識(shí)別安卓手機(jī)，還于同年底推出了基于ToF的3D人臉識(shí)別方案，為客戶提供多種解決方案。

　　不僅僅是智能手機(jī)，智能門鎖等IoT設(shè)備也將邁向3D感知時(shí)代。

　　今年，商湯科技推出了基于雙目視覺(jué)的3D人臉識(shí)別智能門鎖解決方案，支持在大角度和暗光環(huán)境下通過(guò)人臉驗(yàn)證準(zhǔn)確解鎖，并能有效防范各類非活體攻擊，為用戶帶來(lái)便捷、安全的入戶體驗(yàn)。

　　媲美單反的大景深效果一直是手機(jī)人像拍照所追求的方向。

　　早在2016年，商湯科技便推出了基于雙攝系統(tǒng)的拍照虛化功能，如今更是推出了基于3D相機(jī)的虛化技術(shù)，精準(zhǔn)的深度信息結(jié)合AI技術(shù)的處理，可以讓人物等主體與背景的過(guò)渡效果更加自然、更加精準(zhǔn)，無(wú)限逼近單反級(jí)別的虛化效果。

　　在電商行業(yè)，無(wú)論是AR試妝、AR試衣、AR家居已不是新鮮概念，但AI+3D不僅可讓虛擬上妝、試衣等效果更加精準(zhǔn)，更讓消費(fèi)者能夠轉(zhuǎn)動(dòng)頭部、身體，從更多維的視角查看最終效果，充分消除“不知道是否符合自己”的疑惑，進(jìn)一步促成購(gòu)買行為。

　　商家還可通過(guò)“物品重建”，將物品轉(zhuǎn)化為數(shù)字模型，讓顧客簡(jiǎn)單翻轉(zhuǎn)就能360度地了解物品外觀，并放置到真實(shí)場(chǎng)景中預(yù)覽，而無(wú)需像現(xiàn)在這樣一一翻看多張不同角度的靜態(tài)照片。

　　放眼汽車行業(yè)，AI+3D技術(shù)能夠?qū)崿F(xiàn)更加精準(zhǔn)的車外人、車、物識(shí)別和距離感知，從而有力推動(dòng)自動(dòng)駕駛在新10年的重要發(fā)展。

　　而在泛工業(yè)領(lǐng)域，AI+3D將進(jìn)一步優(yōu)化工業(yè)生產(chǎn)流程，不斷提升生產(chǎn)效率。

　　它可以為機(jī)械臂賦予3D感知能力，通過(guò)高精準(zhǔn)的SLAM、物體重建和測(cè)量等技術(shù)，判斷立體物體所處的位置，以及相應(yīng)的尺寸、形狀和質(zhì)量等信息，從而進(jìn)行精準(zhǔn)的抓取，或是進(jìn)行自動(dòng)化的品質(zhì)檢測(cè)，實(shí)現(xiàn)高標(biāo)準(zhǔn)的質(zhì)量把控，有力提升工業(yè)生產(chǎn)的智能化程度，降本增效。

　　《Prediction Machines》一書中曾提到：“當(dāng)某種基礎(chǔ)產(chǎn)品價(jià)格大幅下降的時(shí)候，才是整個(gè)世界發(fā)生變化的基礎(chǔ)”。

　　3D感知硬件的普及和AI技術(shù)的加持，讓以往工業(yè)界才能實(shí)現(xiàn)的應(yīng)用方式來(lái)到大眾視野，降低體驗(yàn)成本的同時(shí)，應(yīng)用場(chǎng)景也更加拓寬，變得更加普及，從基礎(chǔ)改變我們的生活、娛樂(lè)、出行和工作方式。

　　新的10年，機(jī)器的感知能力將從2D走向3D，AI+3D也將成為變革行業(yè)發(fā)展的全新引擎。

（轉(zhuǎn)載）

標(biāo)簽：商湯科技

我要反饋

相關(guān)鏈接

你好，2020！2019年人工智能領(lǐng)域都發(fā)生了什么?

歲月極美，在于它的必然流逝，在于匆匆那年中一些值得紀(jì)念的人或事。伴隨著北風(fēng)的呼嘯，2019年在忙碌與充實(shí)中緩緩落下了帷幕。而這一年對(duì)于人工智能領(lǐng)域來(lái)說(shuō)，也是個(gè)異常忙碌的年份。... [詳情]

2020年02月12日 2019 人工智能

商湯科技通過(guò)AI參與新冠病毒治療方案研究

《科創(chuàng)板日?qǐng)?bào)》6日訊，商湯科技通過(guò)多種措施參與AI抗“疫”，包括為中山大學(xué)藥學(xué)院羅海彬教授及團(tuán)隊(duì)的藥物及病毒相關(guān)研究提供高性能計(jì)算資源;利用人臉識(shí)別算法和熱成像智能測(cè)溫技術(shù)，... [詳情]

2020年02月12日 AI 商湯科技

人工智能全面賦能抗“疫”攻堅(jiān)戰(zhàn)：2小時(shí)排查7000人

“您有沒(méi)有接觸過(guò)從武漢回來(lái)的親朋好友?”“基于您的情況，建議您在家隔離一段時(shí)間，做好防護(hù)?！弊罱慊蛟S已接到此類問(wèn)詢電話，但可能沒(méi)聽出來(lái)，電話的那頭并非社區(qū)工作人員，而是機(jī)... [詳情]

2020年02月12日人工智能