數(shù)據(jù)堂——基于human-in-the-loop智能輔助標(biāo)注技術(shù)

ainet.cn 2019年08月22日

　　自人工智能技術(shù)進(jìn)入產(chǎn)業(yè)化后，對(duì)于訓(xùn)練數(shù)據(jù)的需求變得更為復(fù)雜和龐大。通過(guò)工業(yè)化的方式產(chǎn)生更多更大更適合應(yīng)用的數(shù)據(jù)集就決定了人工智能產(chǎn)業(yè)是否能得到良性發(fā)展。

　　數(shù)據(jù)堂在人工智能數(shù)據(jù)生產(chǎn)與服務(wù)領(lǐng)域7年的技術(shù)研發(fā)成果及實(shí)踐經(jīng)驗(yàn)積累，提出“人工智能數(shù)據(jù)工廠”的建設(shè)及產(chǎn)業(yè)化方案，以推動(dòng)人工智能數(shù)據(jù)生產(chǎn)與服務(wù)的產(chǎn)業(yè)化進(jìn)程。將實(shí)現(xiàn)從人工智能產(chǎn)業(yè)需求出發(fā)(From the AI)，依靠人工智能技術(shù)(By the AI)，最終為人工智能產(chǎn)業(yè)服務(wù)(For the AI)。

　　2018年，數(shù)據(jù)堂研發(fā)“基于Human-in-the-loop智能輔助標(biāo)注技術(shù)”，在海量人工智能數(shù)據(jù)生產(chǎn)過(guò)程中，采用人工標(biāo)注與智能標(biāo)注的迭代、交互式的數(shù)據(jù)標(biāo)注方法，將人和智能系統(tǒng)融為一體，提高智能數(shù)據(jù)的生產(chǎn)效率，進(jìn)而推進(jìn)AI數(shù)據(jù)加工方式的變革。

　　Human-in-the-loop在機(jī)器學(xué)習(xí)中得到廣泛的使用。用戶(user)和深度學(xué)習(xí)機(jī)器模型(model)進(jìn)行交互、迭代的學(xué)習(xí)和糾錯(cuò)。用戶為機(jī)器模型提供冷啟動(dòng)所需的基礎(chǔ)知識(shí);然后機(jī)器學(xué)習(xí)模型進(jìn)行識(shí)別或預(yù)測(cè);用戶針對(duì)模型的判斷結(jié)果進(jìn)行確認(rèn)和糾錯(cuò);糾偏信息成為機(jī)器學(xué)習(xí)模型損失函數(shù)的一部分，進(jìn)一步優(yōu)化模型。由此，循環(huán)迭代、多次往復(fù)，形成增強(qiáng)型的基于human-in-loop的機(jī)器學(xué)習(xí)系統(tǒng)?；趆uman-in-the-loop增量式智能輔助標(biāo)注技術(shù)，起始于人工標(biāo)注，終結(jié)于人工決策。將能夠顯著提高人工操作效率，降低生產(chǎn)實(shí)施成本，擴(kuò)大人工智能數(shù)據(jù)的生產(chǎn)量。

　　數(shù)據(jù)堂在自主研發(fā)的“基于Human-in-the-loop智能輔助標(biāo)注技術(shù)”智能標(biāo)注平臺(tái)的基礎(chǔ)上，建設(shè)了人工智能數(shù)據(jù)工廠，一種人工智能數(shù)據(jù)產(chǎn)品的生產(chǎn)模式。它以人工智能數(shù)據(jù)采集、數(shù)據(jù)處理及數(shù)據(jù)標(biāo)注等數(shù)據(jù)生產(chǎn)過(guò)程流程化、生產(chǎn)工具智能化、質(zhì)量管理標(biāo)準(zhǔn)化的生產(chǎn)模式，實(shí)現(xiàn)面向公眾用戶提供人工智能數(shù)據(jù)的在線生產(chǎn)服務(wù)、面向企業(yè)用戶提供人工智能數(shù)據(jù)的定制生產(chǎn)服務(wù)以及面向特殊用戶提供人工智能數(shù)據(jù)的私有化部署生產(chǎn)服務(wù)，從而提高數(shù)據(jù)生產(chǎn)效率，降低數(shù)據(jù)生產(chǎn)成本，進(jìn)而推動(dòng)人工智能數(shù)據(jù)的規(guī)模化生產(chǎn)和產(chǎn)業(yè)布局。

　　整個(gè)人工智能數(shù)據(jù)工廠具備強(qiáng)大的生產(chǎn)能力和市場(chǎng)適應(yīng)能力，它能夠同時(shí)具備生產(chǎn)主流AI應(yīng)用所需訓(xùn)練數(shù)據(jù)集產(chǎn)品，包括無(wú)人駕駛、智能家居、智能認(rèn)證、智能交通、智能教育、智能安防、智能醫(yī)療。

　　目前，已經(jīng)初步具備年產(chǎn)2千小時(shí)視頻、3萬(wàn)小時(shí)語(yǔ)音數(shù)據(jù)、2億張圖片的生產(chǎn)能力;數(shù)據(jù)吞吐量：5TB/日;創(chuàng)造500萬(wàn)人次的就業(yè)機(jī)會(huì)，聚集數(shù)據(jù)企業(yè)200家，支撐多家國(guó)際領(lǐng)先的企業(yè)客戶。獲取專利14項(xiàng)，軟著42項(xiàng)。

（轉(zhuǎn)載）

標(biāo)簽：2019世界人工智能大會(huì) 數(shù)據(jù)堂

我要反饋

相關(guān)鏈接

仟尋人工智能產(chǎn)品介紹

仟尋(MoSeeker)是一家基于人工智能的移動(dòng)社交招聘公司，聚集了一批頂尖的算法和開(kāi)發(fā)人員，在自然語(yǔ)言理解、機(jī)器學(xué)習(xí)和智能推薦等領(lǐng)域都有著長(zhǎng)期的積累。仟尋的主要業(yè)務(wù)面向招聘和人事... [詳情]

2019年08月22日 2019世界人工智能大會(huì) 仟尋

智能家居行業(yè)“大浪淘沙“，10月NEPCON西部電子展助力物聯(lián)溝通

如今，華為、阿里、小米等互聯(lián)網(wǎng)企業(yè)、通信企業(yè)等紛紛搶灘智能家居市場(chǎng)，走出了幾條特色鮮明的路，比如以生態(tài)鏈模式做智能家居“玩家市場(chǎng)”聚攏者的小米，還有基于HiLink智能家居平臺(tái)... [詳情]

2019年08月22日智能家居物聯(lián)網(wǎng)

IoT案例 | 如何做好信息搜集與控管?揭秘智能醫(yī)療管理系統(tǒng)

醫(yī)院信息龐雜，可視化是系統(tǒng)建置的必要設(shè)計(jì)，臺(tái)北醫(yī)院導(dǎo)入研華智能醫(yī)療管理系統(tǒng)，讓手術(shù)室與會(huì)議室的信息更實(shí)時(shí)、正確，大幅提升管理效能。醫(yī)院信息量龐大，醫(yī)療行為直接涉及人體安全... [詳情]

2019年08月22日智能醫(yī)療研華