siemens x
機(jī)器視覺

機(jī)器視覺緊追猛趕 終與機(jī)器人齊駕并驅(qū)

2025China.cn   2016年01月05日

  計算機(jī)視覺的未來何去何從?這塊領(lǐng)域的大佬、加州伯克利大學(xué)的JitendraMalik教授,十年前就斗膽預(yù)測了未來十年計算機(jī)視覺的重要發(fā)展,如今驗證了他的大部分預(yù)測都是對的。

 

  自拍美圖、人臉識別、無人駕駛……很難說計算機(jī)視覺還高冷地?zé)o人知曉,其實它早已潛入日常生活中。40年前,這項與機(jī)器人本為一家的技術(shù),一度因識別精準(zhǔn)率過低被嫌棄,緊追猛趕后,如今終于回到與機(jī)器人并駕齊驅(qū)的高尖水平。

  最新的計算機(jī)視覺進(jìn)展到什么程度?

  2015年12月13日,烏鎮(zhèn)世界互聯(lián)網(wǎng)大會舉辦前夕,第14屆國際計算機(jī)視覺大會(ICCV)在南美智利舉辦,這場2年一屆的頂尖盛會,展示了這一領(lǐng)域的最近突破。本屆ICCV被微軟亞洲研究院搶走了頭條。他們的視覺計算組研發(fā)出全新深度學(xué)習(xí)方法,具備152層類神經(jīng)網(wǎng)絡(luò),比原先多出132層,即用同樣的百萬比資料就可以訓(xùn)練出深層的類神經(jīng)網(wǎng)絡(luò)。這些最先進(jìn)的深度學(xué)習(xí)類神經(jīng)網(wǎng)路,能將照片中的車、房、人、物……等等一千類物件精準(zhǔn)地識別出來,平均錯誤率從幾年前的動輒50%,到今年已經(jīng)降到3%,已可接入實際應(yīng)用。

  華人自古以來的圖像情節(jié)

  ICCV頭條中的“亞洲”字眼非常醒目,實際上微軟這項里程碑式成果的發(fā)明者全是中國人。如果這還無法證明計算機(jī)視覺的世界版圖正向亞洲遷移,來看下一項證據(jù)。

  ICCV通常在北美、歐洲等技術(shù)發(fā)達(dá)的國家舉行,今年的大會贊助商名單中竟出現(xiàn)了不少中國企業(yè)身影,商湯科技、百度、Viscovery創(chuàng)意引晴,漢字在贊助榜上快占據(jù)半壁江山。除了在世界頂尖國際會議上越發(fā)活躍之外,中國的計算機(jī)視覺學(xué)者也藉由區(qū)域型會議如ACCV,以及國內(nèi)計算視覺大會CCCV、RACV,凝聚了大量的政、商、媒體、學(xué)界的焦點與資源。

  過去十年,中國人在計算機(jī)領(lǐng)域的分量和影響力逐年增加,相關(guān)學(xué)者越來越多,我在美國讀博士班的時候,教授就很好奇,“為什么你們?nèi)A人對計算機(jī)視覺特別感興趣?”我回答說,“因為我們的文字就是從象形文字開始,本身從圖像引申來的,看文字就像在看圖像一樣。”

  中國很多面孔雖沒有去國外念過博士,但卻在這個領(lǐng)域越來越有影響力。微軟亞洲研究院的首席研究員孫劍博士,正是此類人物。近年來藉由“阿里云”的“天池”平臺舉辦的各項競賽,包括剛剛舉辦完的“淘寶穿衣搭配算法競賽”與“阿里大規(guī)模圖像搜索大賽”,也都幫助中國在圖像識別研究走在于世界的最前面。

  五年前,中國計算機(jī)視覺的市場還小于美國,現(xiàn)在,兩國做計算機(jī)視覺的新創(chuàng)公司數(shù)量已旗鼓相當(dāng)。如果碰上合適的具體市場應(yīng)用,過幾年很有可能超越美國,且成為贏家通吃的局面,就像以色列的MobileEye獨占全球的“車輛撞擊預(yù)警系統(tǒng)”一樣。

  中國獨特的市場需求:視頻+廣告

  計算機(jī)視覺雖未迎來里程碑式的巨大風(fēng)口,但一個接一個的小風(fēng)口從未斷過。90年代人臉偵測成熟之后,現(xiàn)在所有的相機(jī)都可以框出人臉。下一項成熟的技術(shù),人臉識別,還可以精準(zhǔn)識別誰是誰。現(xiàn)在從臉書上傳照片,會自動匹配好所有好友的標(biāo)簽,非常方便。在安防領(lǐng)域方面,全球有幾十家數(shù)得上的智能監(jiān)視系統(tǒng)廠商,可以輕松監(jiān)測畫面中的人物移動。

  目前大家搶著要解決的,是如何提升影像中物件識別的準(zhǔn)確度。一旦可以輕易知道畫面中存在的人物、物件、場景,就能用增強現(xiàn)實做游戲(AR)、監(jiān)測自動駕駛的環(huán)境等等。中國的巨頭BAT都在做計算機(jī)視覺應(yīng)用。阿里舉辦商品識別大賽,第一年就推出了一百萬商品做識別,但像同款女裝識別還比較困難,受材質(zhì)、穿著者身材影響,沒法直接商品化應(yīng)用。騰訊有自己的視頻服務(wù),有自建團(tuán)隊做視頻中商品識別、廣告關(guān)聯(lián),從頭吃到尾。百度有無人駕駛、云平臺、圖像搜索等。

  眾多可商業(yè)化應(yīng)用中,“視頻內(nèi)容關(guān)聯(lián)廣告”是中國獨創(chuàng)于世界的特色市場。這塊技術(shù)比YouTube早跑了兩年,不同于YouTube一家獨大,中國至少有十家企業(yè)競爭,都是賠錢在搶市場。阿里和優(yōu)酷、騰訊、愛奇藝、搜狐等視頻大佬,都開始鉆研基于視頻內(nèi)容識別的關(guān)聯(lián)廣告,即邊看邊購物體驗。

  現(xiàn)在看視頻時接觸的各類明星同款商品推送,已經(jīng)是深淺不一的機(jī)器視覺技術(shù)。觀賞綜藝節(jié)目時,隱藏在屏幕背后的機(jī)器腦“看到”你喜愛的明星和商品,在網(wǎng)絡(luò)海洋中幫你挖出他的八卦,同款鞋子、手機(jī)。這就是智能化的視頻內(nèi)容辨識,用機(jī)器取代人眼、人腦,識別甚至肉眼無法認(rèn)知的物件紋路、形狀、商標(biāo),用大數(shù)據(jù)技術(shù)做到更相關(guān)的商品、知識信息匹配推送。雖然各公司還在摸著石頭過河,但這塊應(yīng)用做好則用戶與商家皆大歡喜。

  機(jī)器視覺的未來

  計算機(jī)視覺的未來何去何從?這塊領(lǐng)域的大佬、加州伯克利大學(xué)的JitendraMalik教授,十年前就斗膽預(yù)測了未來十年計算機(jī)視覺的重要發(fā)展,如今驗證了他的大部分預(yù)測都是對的。在今年的ICCV大會上,Malik教授又做了十大方向的預(yù)測,結(jié)合場景的語義分析就是其中重要一塊。未來物件識別還會持續(xù)推進(jìn),朝畫面中所帶訊息、不同場景下的情感和意義的識別發(fā)展。也許未來,機(jī)器視覺就成讀心專家,準(zhǔn)備好迎接這位朋友了嗎?

(轉(zhuǎn)載)

標(biāo)簽:機(jī)器視覺 機(jī)器人 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報道