siemens x
人工智能

從谷歌AutoML到百度EasyDL,AI大生產(chǎn)時代,調(diào)參師不再是剛需

2025China.cn   2020年11月06日

  2018 年,Google Cloud 宣布將 AutoML 作為機器學習產(chǎn)品的一部分。至此,AutoML 開始進入大眾的視野。

  實際上,2013 年AutoWEKA的發(fā)布可以算作AutoML的開端;2014 年,ICML開始組織AutoML研討會,AutoML成為學術(shù)界的研究熱點之一;2018 年,Google 將AutoML產(chǎn)品化,產(chǎn)業(yè)界開始全面關(guān)注。

  到底什么是AutoML?AutoML能解決什么問題?

  其實,AutoML理念就是用 AI 設(shè)計 AI,將特征提取、模型選擇、參數(shù)調(diào)節(jié)等需要人工干預的環(huán)節(jié)進行自動化,使得機器學習模型無需人工干預即可被應用。

  Google CEO Sundar Pichai 曾表示:Google 希望簡化設(shè)計機器學習模型的神經(jīng)網(wǎng)絡(luò),從而降低 AI 的門檻。設(shè)計神經(jīng)網(wǎng)絡(luò)是極其耗費時間的,其對專業(yè)知識的極高要求將適用人群縮小到了科研人員和工程師。這就是Google創(chuàng)造 AutoML 的原因,AutoML 表明,利用神經(jīng)網(wǎng)絡(luò)設(shè)計神經(jīng)網(wǎng)絡(luò)也是可行的。Google希望 AutoML 能擁有現(xiàn)在一些博士所具備的能力,并在 3~5 年內(nèi)使眾多開發(fā)者也能通過 AutoML 設(shè)計神經(jīng)網(wǎng)絡(luò),滿足其特定的需求。

  由于AI 人才的極度稀缺,AutoML 誕生的初衷是為了降低 AI 開發(fā)者的門檻,幫助各行各業(yè)都能使用AI 的能力,讓更多的 AI 應用落地。但 AutoML 只是針對 AI 落地中的特定環(huán)節(jié),并不能真正解決 AI 落地的實際問題。

  根據(jù)百度與波士頓咨詢公司的聯(lián)合調(diào)研報告,約86% 的市場需求需要定制開發(fā)業(yè)務場景下的AI模型。定制模型過程中,企業(yè)用戶和開發(fā)者往往會面臨缺少模型訓練經(jīng)驗、數(shù)據(jù)采集和標注成本較高、模型適配與部署流程較為繁瑣、模型優(yōu)化迭代周期長等核心難點,從而會造成整個項目的成本高、周期長、且在前期對項目效果無法準確預期。

  因此,需要降低門檻的不只是算法調(diào)優(yōu),被取代的也不僅僅是調(diào)參師,AI 大規(guī)模落地需要 AI 生產(chǎn)流程的全面自動化,于是就有了百度EasyDL。

從谷歌AutoML到百度EasyDL,被自動化的不只是模型設(shè)計

  2017 年 11 月,為解決面臨AI轉(zhuǎn)型壓力的企業(yè)開發(fā)者的問題,EasyDL 應運而生,百度也成為國內(nèi)最早推出零門檻深度學習平臺的公司。

  2018 年 4 月,百度宣布全面開放EasyDL,基于百度飛槳在深度學習領(lǐng)域深厚的技術(shù)積累,EasyDL 開始走上快車道。

  作為百度大腦推出的零門檻AI開發(fā)平臺,EasyDL 支持面向各行各業(yè)有定制 AI 需求的企業(yè)用戶及開發(fā)者使用。

  EasyDL 集成了百度自研的AutoDL技術(shù),幫助模型在給定的數(shù)據(jù)集上自動調(diào)優(yōu),獲得更好效果。其中,AutoDL 包含Auto Augment(自動數(shù)據(jù)增強)、Auto Finetuner(自動超參搜索)、NAS(自動網(wǎng)絡(luò)架構(gòu)搜索)等自動化建模技術(shù),旨在進行模型自動調(diào)優(yōu),獲得更好效果,降低算法工程師進行模型調(diào)優(yōu)的成本。

  算法調(diào)優(yōu)只是AI 應用落地中的一小部分,除此之外,EasyDL也通過技術(shù)手段盡可能降低AI 模型生產(chǎn)、應用全流程的成本。

  總的來說,EasyDL有以下幾大技術(shù)優(yōu)勢:

  一站式AI服務:EasyDL提供圍繞AI服務開發(fā)的端到端的一站式AI開發(fā)和部署平臺,包括數(shù)據(jù)上傳、數(shù)據(jù)標注、訓練任務配置及調(diào)參、模型效果評估、模型部署。

  完善安全的數(shù)據(jù)服務:針對開發(fā)者在 AI 開發(fā)過程面臨的數(shù)據(jù)痛點,EasyDL支持訓練數(shù)據(jù)的高質(zhì)量采集與高效標注,支持在模型迭代過程中不斷擴充數(shù)據(jù),助力持續(xù)提升模型效果。包含軟硬一體采集方案、自動數(shù)據(jù)清洗/擴充、智能標注、自動數(shù)據(jù)閉環(huán)等。將模型開發(fā)所需人工標注的數(shù)據(jù)量減少70%,數(shù)據(jù)采集效率從周提升到小時。

  超高精度訓練效果:內(nèi)置基于百度超大規(guī)模數(shù)據(jù)訓練的預訓練模型,包括超大規(guī)模視覺預訓練模型,及文本預訓練模型文心ERNIE,底層結(jié)合百度自研 AutoDL/AutoML技術(shù),基于少量數(shù)據(jù)就能獲得出色效果和性能的模型。

  端云結(jié)合靈活部署:基于 EasyDL訓練完成的模型可發(fā)布為公有云API、設(shè)備端 SDK、私有服務器部署、軟硬一體方案,靈活適配各種使用場景及運行環(huán)境。用戶無需關(guān)注模型轉(zhuǎn)換、適配加速、服務部署等細節(jié),能獲得可直接運行、部署的鏡像及可進行二次開發(fā)的SDK。特別是設(shè)備端部署已經(jīng)支持四大操作系統(tǒng),15+芯片類型,廣泛適配了市場上的主流硬件設(shè)備。

  目前,EasyDL還從覆蓋更廣泛的技術(shù)方向出發(fā),推出傳統(tǒng)ML 方向、語音識別方向、OCR、視頻追蹤等定制化能力,并從易用性的角度著手,在數(shù)據(jù)、模型、服務等各個方面,持續(xù)降低使用門檻。并且,EasyDL也會推出更多 QuickStart、Demo 教程,幫助用戶快速上手。

簡單只是外在,專業(yè)才能幫助AI真正大規(guī)模落地

  EasyDL 通過對 AI 生產(chǎn)全流程的優(yōu)化,極大降低了深度學習的應用門檻,使得企業(yè)不必花費高昂的成本構(gòu)建算法工程師團隊,也能享受到 AI 浪潮帶來的紅利。

  百度的理念是,希望通過先進的技術(shù)把 AI 開發(fā)變得像使用家電一樣簡單,用戶不必了解家電的內(nèi)部構(gòu)造和電路原理,也能享受家電帶來的便捷。

  然而越是追求使用簡單,它的內(nèi)在就會越復雜。EasyDL也是一樣,為了面向用戶提供簡單易用的使用流程,EasyDL平臺內(nèi)部采用了諸多復雜的深度學習算法和工程技術(shù),以保證應用效果。

  1)數(shù)據(jù)處理

  在很多場景中,數(shù)據(jù)難收集和難處理是一大痛點,也是阻礙 AI 模型開發(fā)和應用的常見問題之一。今年 5 月 EasyDL 全新發(fā)布了 EasyData 智能數(shù)據(jù)服務平臺,提供一站式的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)回流的完整解決方案,助力開發(fā)者高效獲取AI 開發(fā)所需的高質(zhì)量數(shù)據(jù)。

  在數(shù)據(jù)采集方面,EasyData提供軟硬一體、端云協(xié)同的自動數(shù)據(jù)采集方案,目前支持接入攝像頭采集圖片、云服務數(shù)據(jù)回流兩種數(shù)據(jù)采集方式,其中攝像頭采集圖片提供了免費的本地采集 SDK,可以支持各類硬件平臺的自定義抽幀采集圖片,并將圖片即時同步到 EasyData 管理。

  在數(shù)據(jù)標注方面,EasyData 提供了圖片、文本、音頻、視頻四種數(shù)據(jù)格式的11 種數(shù)據(jù)標注模板,并提供了最全面的智能標注方案,在物體檢測、圖像分割、文本分類三類任務場景中,通過百度自研的Hard Sample主動學習挖掘算法,進行針對性適配,在同樣的模型效果指標下,可減少 70% 的數(shù)據(jù)標注量。

  在數(shù)據(jù)清洗方面,EasyData提供了圖片數(shù)據(jù)清洗的完整解決方案,支持相似度去重、去模糊、裁剪、旋轉(zhuǎn)、鏡像5種標準的清晰方案,以及高級清洗方案,可過濾無人臉、無人體的圖片,并可根據(jù)需求保留識別出來的人臉或人體數(shù)據(jù)做為標注信息,大幅提升清洗數(shù)據(jù)的效率。

  2)模型訓練

  AI 的行業(yè)應用場景是非常分散的,如何保障各個場景下模型的效果都達到較高的水平,使得精度符合應用要求,也是非常大的挑戰(zhàn)。

  目前EasyDL在這個方向上,一方面是通過大規(guī)模預訓練模型,基于百度積累多年的海量數(shù)據(jù)和知識預訓練,能夠保證模型的泛化效果和通用性;另一方面是通過建設(shè)領(lǐng)域模型,針對特定場景提供具備更好適配性的算法模型。

  在視覺任務中,圖像分類訓練任務內(nèi)置百度基于海量互聯(lián)網(wǎng)數(shù)據(jù),包括 10萬+分類、6500 萬圖片訓練的超大規(guī)模預訓練模型,平均精度可提升3.24%-7.73%;物體檢測訓練任務內(nèi)置百度基于 800+ 標簽、170 萬圖片,1000 萬+ 檢測框訓練的超大規(guī)模物體檢測預訓練模型,平均精度可提升 1.78%-4.53%。

  在自然語言處理方向,EasyDL預置了由百度自研預訓練模型文心(ERNIE)。據(jù)悉,文心在中英文的 16 個任務上已經(jīng)超越了業(yè)界最好模型,全面適用于各類NLP 應用場景。

  由于目前大部分模型采用的都是分布式訓練,為了提升訓練效率,提高加速比,EasyDL基于飛槳 DGC 加速機制,通過只傳送重要梯度(稀疏更新)的方式來減少通信帶寬使用,在網(wǎng)絡(luò)帶寬受限的情況可以大幅提升通信效率,相比普通分布式訓練,有70% 以上的訓練速度增益。

  3)服務部署

  在最后的部署環(huán)節(jié)上,AI 模型小型化和邊緣計算的發(fā)展是技術(shù)趨勢也是挑戰(zhàn),而百度一直在這一領(lǐng)域有著深厚的積累。目前,EasyDL的設(shè)備端SDK已經(jīng)適配了百度昆侖芯片、Intel 神經(jīng)加速棒、華為 NPU、華為 Atlas、高通 DSP、RK 等15+芯片類型,以及 4 大常用操作系統(tǒng),并實現(xiàn)了模型自動的量化壓縮和性能加速。在軟硬一體方案部署上,EasyDL提供了 基于 Nvidia Jetson 和百度自研硬件EdgeBoard的共6款軟硬一體方案,支持專項適配與加速,覆蓋高中低全矩陣,模型識別速度可提升 10 倍。

  因此,對于開發(fā)者來說,簡單的流程只是外在,而EasyDL的專業(yè)才是幫助 AI 大規(guī)模落地的秘籍。

AI的“萬有引力”:人人做AI,才能AI為人人

  據(jù)了解,目前使用EasyDL的用戶數(shù)已經(jīng)超過70 萬,目前已經(jīng)覆蓋20多個行業(yè)場景,包括安全、互聯(lián)網(wǎng)、工業(yè)、農(nóng)業(yè)、醫(yī)療、物流、零售、教育、科研等。

  隨著 AI 技術(shù)的發(fā)展,各行各業(yè)應用 AI 進行轉(zhuǎn)型的需求也在爆發(fā)式增長。當前,AI 賦能千行萬業(yè)的愿景仍然處于起步階段,AI 在很多時候更被認為是很高深需要非常大投入的技術(shù)領(lǐng)域,而實際上EasyDL正在顛覆這一點。

  百度EasyDL平臺正在不斷升級自身技術(shù),同時為 AI 落地持續(xù)賦能,為產(chǎn)業(yè)智能化轉(zhuǎn)型提供更多創(chuàng)新力量。與此同時,EasyDL也正在積極的推進生態(tài)的建設(shè),比如9 月底新上線的模型AI市場,就是通過平臺化的基礎(chǔ)設(shè)施,促進生態(tài)的繁榮。

  為了進一步降低企業(yè)應用 AI 的門檻與成本,EasyDL也重磅推出“萬有引力”計劃,為有 AI 應用需求的企業(yè)提供專項基金,助力萬家企業(yè),創(chuàng)享 AI 能力。

  AI 的作用是相互的,只有人人做 AI,人人用 AI,才能最終實現(xiàn)AI for Everyone。

  出品 | AI科技大本營

(轉(zhuǎn)載)

標簽:AI 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]