siemens x
行業(yè)資訊

計(jì)算機(jī)視覺(jué)創(chuàng)企Roboflow:自動(dòng)駕駛汽車訓(xùn)練語(yǔ)料庫(kù)遺漏關(guān)鍵數(shù)據(jù)

2025China.cn   2020年02月19日

         Roboflow擁有一個(gè)備受歡迎的語(yǔ)料庫(kù) - Udacity數(shù)據(jù)集2,主要用于訓(xùn)練自動(dòng)駕駛汽車模型,不過(guò),最近該公司表示該數(shù)據(jù)集缺少了關(guān)鍵數(shù)據(jù)。
         機(jī)器學(xué)習(xí)模型的性能取決于其訓(xùn)練的數(shù)據(jù)集的質(zhì)量,而在自動(dòng)駕駛領(lǐng)域,讓此種性能不會(huì)受到失誤的影響是至關(guān)重要的。據(jù)外媒報(bào)道,計(jì)算機(jī)視覺(jué)初創(chuàng)公司Roboflow發(fā)布了一份報(bào)告,據(jù)該公司創(chuàng)始人Brad Dwyer所說(shuō),用于訓(xùn)練自動(dòng)駕駛汽車模型的語(yǔ)料庫(kù)確實(shí)遺漏了關(guān)鍵數(shù)據(jù)。

 


         Dwyer表示,Udacity數(shù)據(jù)集2包含1.5萬(wàn)張白天在山景城和附近城市開車時(shí)拍攝的照片,其中就遺漏了關(guān)鍵數(shù)據(jù)。在大約5000個(gè)樣本中,有數(shù)千輛未標(biāo)記的車輛,數(shù)百名未標(biāo)記的行人以及數(shù)十名未標(biāo)記的騎自行車的車,占總數(shù)的33%(而217個(gè)樣本中根本都沒(méi)有任何注釋,此類樣本涵蓋了汽車、卡車、路燈或行人)。更糟糕的是,還有“幻覺(jué)”注釋以及除了“嚴(yán)重”加大的邊界框(邊界框指代感興趣的對(duì)象),還有重復(fù)注釋的邊界框。
         考慮到標(biāo)簽是讓人工智能(AI)系統(tǒng)理解模式的含義(如有人走到了汽車前面),并基于此類知識(shí)評(píng)估未來(lái)事件,上述現(xiàn)象是很有問(wèn)題的。錯(cuò)誤標(biāo)記或未標(biāo)記的物體可能會(huì)導(dǎo)致準(zhǔn)確性低、決策糟糕,從而為自動(dòng)駕駛汽車帶來(lái)災(zāi)難。

 


         AI很容易因?yàn)閿?shù)據(jù)集不完整或不正確導(dǎo)致偏差,這很好理解。例如,單詞嵌入(word embedding)是一種常見的算法訓(xùn)練技術(shù),需要將單詞與向量連接起來(lái)的,不可避免地會(huì)捕捉到源文本和對(duì)話中隱含的偏見內(nèi)容,在最糟糕的情況下,此種偏見還會(huì)被放大。此外,相比于白人,很多面部識(shí)別系統(tǒng)錯(cuò)誤識(shí)別有色人種的次數(shù)更多,而且谷歌圖片(Google Photos)曾經(jīng)將深膚色的人識(shí)別為“大猩猩?!?/P>

 


         但是,如果將表現(xiàn)不佳的AI用于汽車,就會(huì)造成更大的傷害。目前,還沒(méi)有自動(dòng)駕駛汽車引發(fā)碰撞事故的記錄,但是目前公共道路上的自動(dòng)駕駛汽車數(shù)量很少。不過(guò),這種情況很可能會(huì)改變,根據(jù)市場(chǎng)營(yíng)銷公司ABI的數(shù)據(jù),到2025年,將有多達(dá)800萬(wàn)輛無(wú)人駕駛汽車上路;而Research and Markets公司預(yù)計(jì),到2030年,美國(guó)將有大約2000萬(wàn)輛無(wú)人駕駛汽車投入使用。
         如果數(shù)百萬(wàn)的汽車運(yùn)行的是有缺陷的AI模型,帶來(lái)的影響可能是毀滅性的,會(huì)讓公眾更加不信任無(wú)人駕駛汽車。有兩項(xiàng)研究 – 一項(xiàng)由布魯金斯學(xué)會(huì)(Brookings Institution)和一項(xiàng)由高速公路與汽車安全倡議者(AHAS)表示,大多數(shù)美國(guó)人并不相信無(wú)人駕駛汽車的安全性。在布魯金斯學(xué)會(huì)進(jìn)行的調(diào)查中,超過(guò)60%的受訪者表示,傾向于不乘坐自動(dòng)駕駛汽車;而在AHAS的調(diào)查中,近70%的受訪者對(duì)于與自動(dòng)駕駛汽車共享道路表示了擔(dān)憂。
         解決數(shù)據(jù)集問(wèn)題的方法可能在于更好地進(jìn)行標(biāo)記。根據(jù)Udacity數(shù)據(jù)集2的GitHub頁(yè)面所說(shuō),眾包語(yǔ)料庫(kù)注釋公司Autti結(jié)合使用機(jī)器學(xué)習(xí)與人工監(jiān)工的方式來(lái)處理標(biāo)記,目前尚不清楚是否此種方法導(dǎo)致了上述錯(cuò)誤,不過(guò)嚴(yán)格的驗(yàn)證程序可能有助于發(fā)現(xiàn)上述錯(cuò)誤。

 

(轉(zhuǎn)載)

標(biāo)簽:自動(dòng)駕駛 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道