自人工智能技術(shù)進入產(chǎn)業(yè)化后,對于訓(xùn)練數(shù)據(jù)的需求變得更為復(fù)雜和龐大。通過工業(yè)化的方式產(chǎn)生更多更大更適合應(yīng)用的數(shù)據(jù)集就決定了人工智能產(chǎn)業(yè)是否能得到良性發(fā)展。
數(shù)據(jù)堂在人工智能數(shù)據(jù)生產(chǎn)與服務(wù)領(lǐng)域7年的技術(shù)研發(fā)成果及實踐經(jīng)驗積累,提出“人工智能數(shù)據(jù)工廠”的建設(shè)及產(chǎn)業(yè)化方案,以推動人工智能數(shù)據(jù)生產(chǎn)與服務(wù)的產(chǎn)業(yè)化進程。將實現(xiàn)從人工智能產(chǎn)業(yè)需求出發(fā)(From the AI),依靠人工智能技術(shù)(By the AI),最終為人工智能產(chǎn)業(yè)服務(wù)(For the AI)。
2018年,數(shù)據(jù)堂研發(fā)“基于Human-in-the-loop智能輔助標(biāo)注技術(shù)”,在海量人工智能數(shù)據(jù)生產(chǎn)過程中,采用人工標(biāo)注與智能標(biāo)注的迭代、交互式的數(shù)據(jù)標(biāo)注方法,將人和智能系統(tǒng)融為一體,提高智能數(shù)據(jù)的生產(chǎn)效率,進而推進AI數(shù)據(jù)加工方式的變革。
Human-in-the-loop在機器學(xué)習(xí)中得到廣泛的使用。用戶(user)和深度學(xué)習(xí)機器模型(model)進行交互、迭代的學(xué)習(xí)和糾錯。用戶為機器模型提供冷啟動所需的基礎(chǔ)知識;然后機器學(xué)習(xí)模型進行識別或預(yù)測;用戶針對模型的判斷結(jié)果進行確認(rèn)和糾錯;糾偏信息成為機器學(xué)習(xí)模型損失函數(shù)的一部分,進一步優(yōu)化模型。由此,循環(huán)迭代、多次往復(fù),形成增強型的基于human-in-loop的機器學(xué)習(xí)系統(tǒng)?;趆uman-in-the-loop增量式智能輔助標(biāo)注技術(shù),起始于人工標(biāo)注,終結(jié)于人工決策。將能夠顯著提高人工操作效率,降低生產(chǎn)實施成本,擴大人工智能數(shù)據(jù)的生產(chǎn)量。
數(shù)據(jù)堂在自主研發(fā)的“基于Human-in-the-loop智能輔助標(biāo)注技術(shù)”智能標(biāo)注平臺的基礎(chǔ)上,建設(shè)了人工智能數(shù)據(jù)工廠,一種人工智能數(shù)據(jù)產(chǎn)品的生產(chǎn)模式。它以人工智能數(shù)據(jù)采集、數(shù)據(jù)處理及數(shù)據(jù)標(biāo)注等數(shù)據(jù)生產(chǎn)過程流程化、生產(chǎn)工具智能化、質(zhì)量管理標(biāo)準(zhǔn)化的生產(chǎn)模式,實現(xiàn)面向公眾用戶提供人工智能數(shù)據(jù)的在線生產(chǎn)服務(wù)、面向企業(yè)用戶提供人工智能數(shù)據(jù)的定制生產(chǎn)服務(wù)以及面向特殊用戶提供人工智能數(shù)據(jù)的私有化部署生產(chǎn)服務(wù),從而提高數(shù)據(jù)生產(chǎn)效率,降低數(shù)據(jù)生產(chǎn)成本,進而推動人工智能數(shù)據(jù)的規(guī)?;a(chǎn)和產(chǎn)業(yè)布局。
整個人工智能數(shù)據(jù)工廠具備強大的生產(chǎn)能力和市場適應(yīng)能力,它能夠同時具備生產(chǎn)主流AI應(yīng)用所需訓(xùn)練數(shù)據(jù)集產(chǎn)品,包括無人駕駛、智能家居、智能認(rèn)證、智能交通、智能教育、智能安防、智能醫(yī)療。
目前,已經(jīng)初步具備年產(chǎn)2千小時視頻、3萬小時語音數(shù)據(jù)、2億張圖片的生產(chǎn)能力;數(shù)據(jù)吞吐量:5TB/日;創(chuàng)造500萬人次的就業(yè)機會,聚集數(shù)據(jù)企業(yè)200家,支撐多家國際領(lǐng)先的企業(yè)客戶。獲取專利14項,軟著42項。
(轉(zhuǎn)載)