從谷歌AutoML到百度EasyDL，AI大生產(chǎn)時代，調(diào)參師不再是剛需

2025China.cn 2020年11月06日

　　2018 年，Google Cloud 宣布將 AutoML 作為機器學習產(chǎn)品的一部分。至此，AutoML 開始進入大眾的視野。

　　實際上，2013 年AutoWEKA的發(fā)布可以算作AutoML的開端;2014 年，ICML開始組織AutoML研討會，AutoML成為學術(shù)界的研究熱點之一;2018 年，Google 將AutoML產(chǎn)品化，產(chǎn)業(yè)界開始全面關(guān)注。

　　到底什么是AutoML?AutoML能解決什么問題?

　　其實，AutoML理念就是用 AI 設(shè)計 AI，將特征提取、模型選擇、參數(shù)調(diào)節(jié)等需要人工干預的環(huán)節(jié)進行自動化，使得機器學習模型無需人工干預即可被應用。

　　Google CEO Sundar Pichai 曾表示：Google 希望簡化設(shè)計機器學習模型的神經(jīng)網(wǎng)絡(luò)，從而降低 AI 的門檻。設(shè)計神經(jīng)網(wǎng)絡(luò)是極其耗費時間的，其對專業(yè)知識的極高要求將適用人群縮小到了科研人員和工程師。這就是Google創(chuàng)造 AutoML 的原因，AutoML 表明，利用神經(jīng)網(wǎng)絡(luò)設(shè)計神經(jīng)網(wǎng)絡(luò)也是可行的。Google希望 AutoML 能擁有現(xiàn)在一些博士所具備的能力，并在 3~5 年內(nèi)使眾多開發(fā)者也能通過 AutoML 設(shè)計神經(jīng)網(wǎng)絡(luò)，滿足其特定的需求。

　　由于AI 人才的極度稀缺，AutoML 誕生的初衷是為了降低 AI 開發(fā)者的門檻，幫助各行各業(yè)都能使用AI 的能力，讓更多的 AI 應用落地。但 AutoML 只是針對 AI 落地中的特定環(huán)節(jié)，并不能真正解決 AI 落地的實際問題。

　　根據(jù)百度與波士頓咨詢公司的聯(lián)合調(diào)研報告，約86% 的市場需求需要定制開發(fā)業(yè)務場景下的AI模型。定制模型過程中，企業(yè)用戶和開發(fā)者往往會面臨缺少模型訓練經(jīng)驗、數(shù)據(jù)采集和標注成本較高、模型適配與部署流程較為繁瑣、模型優(yōu)化迭代周期長等核心難點，從而會造成整個項目的成本高、周期長、且在前期對項目效果無法準確預期。

　　因此，需要降低門檻的不只是算法調(diào)優(yōu)，被取代的也不僅僅是調(diào)參師，AI 大規(guī)模落地需要 AI 生產(chǎn)流程的全面自動化，于是就有了百度EasyDL。

從谷歌AutoML到百度EasyDL，被自動化的不只是模型設(shè)計

　　2017 年 11 月，為解決面臨AI轉(zhuǎn)型壓力的企業(yè)開發(fā)者的問題，EasyDL 應運而生，百度也成為國內(nèi)最早推出零門檻深度學習平臺的公司。

　　2018 年 4 月，百度宣布全面開放EasyDL，基于百度飛槳在深度學習領(lǐng)域深厚的技術(shù)積累，EasyDL 開始走上快車道。

　　作為百度大腦推出的零門檻AI開發(fā)平臺，EasyDL 支持面向各行各業(yè)有定制 AI 需求的企業(yè)用戶及開發(fā)者使用。

　　EasyDL 集成了百度自研的AutoDL技術(shù)，幫助模型在給定的數(shù)據(jù)集上自動調(diào)優(yōu)，獲得更好效果。其中，AutoDL 包含Auto Augment(自動數(shù)據(jù)增強)、Auto Finetuner(自動超參搜索)、NAS(自動網(wǎng)絡(luò)架構(gòu)搜索)等自動化建模技術(shù)，旨在進行模型自動調(diào)優(yōu)，獲得更好效果，降低算法工程師進行模型調(diào)優(yōu)的成本。

　　算法調(diào)優(yōu)只是AI 應用落地中的一小部分，除此之外，EasyDL也通過技術(shù)手段盡可能降低AI 模型生產(chǎn)、應用全流程的成本。

　　總的來說，EasyDL有以下幾大技術(shù)優(yōu)勢：

　　一站式AI服務：EasyDL提供圍繞AI服務開發(fā)的端到端的一站式AI開發(fā)和部署平臺，包括數(shù)據(jù)上傳、數(shù)據(jù)標注、訓練任務配置及調(diào)參、模型效果評估、模型部署。

　　完善安全的數(shù)據(jù)服務：針對開發(fā)者在 AI 開發(fā)過程面臨的數(shù)據(jù)痛點，EasyDL支持訓練數(shù)據(jù)的高質(zhì)量采集與高效標注，支持在模型迭代過程中不斷擴充數(shù)據(jù)，助力持續(xù)提升模型效果。包含軟硬一體采集方案、自動數(shù)據(jù)清洗/擴充、智能標注、自動數(shù)據(jù)閉環(huán)等。將模型開發(fā)所需人工標注的數(shù)據(jù)量減少70%，數(shù)據(jù)采集效率從周提升到小時。

　　超高精度訓練效果：內(nèi)置基于百度超大規(guī)模數(shù)據(jù)訓練的預訓練模型，包括超大規(guī)模視覺預訓練模型，及文本預訓練模型文心ERNIE，底層結(jié)合百度自研 AutoDL/AutoML技術(shù)，基于少量數(shù)據(jù)就能獲得出色效果和性能的模型。

　　端云結(jié)合靈活部署：基于 EasyDL訓練完成的模型可發(fā)布為公有云API、設(shè)備端 SDK、私有服務器部署、軟硬一體方案，靈活適配各種使用場景及運行環(huán)境。用戶無需關(guān)注模型轉(zhuǎn)換、適配加速、服務部署等細節(jié)，能獲得可直接運行、部署的鏡像及可進行二次開發(fā)的SDK。特別是設(shè)備端部署已經(jīng)支持四大操作系統(tǒng)，15+芯片類型，廣泛適配了市場上的主流硬件設(shè)備。

　　目前，EasyDL還從覆蓋更廣泛的技術(shù)方向出發(fā)，推出傳統(tǒng)ML 方向、語音識別方向、OCR、視頻追蹤等定制化能力，并從易用性的角度著手，在數(shù)據(jù)、模型、服務等各個方面，持續(xù)降低使用門檻。并且，EasyDL也會推出更多 QuickStart、Demo 教程，幫助用戶快速上手。

簡單只是外在，專業(yè)才能幫助AI真正大規(guī)模落地

　　EasyDL 通過對 AI 生產(chǎn)全流程的優(yōu)化，極大降低了深度學習的應用門檻，使得企業(yè)不必花費高昂的成本構(gòu)建算法工程師團隊，也能享受到 AI 浪潮帶來的紅利。

　　百度的理念是，希望通過先進的技術(shù)把 AI 開發(fā)變得像使用家電一樣簡單，用戶不必了解家電的內(nèi)部構(gòu)造和電路原理，也能享受家電帶來的便捷。

　　然而越是追求使用簡單，它的內(nèi)在就會越復雜。EasyDL也是一樣，為了面向用戶提供簡單易用的使用流程，EasyDL平臺內(nèi)部采用了諸多復雜的深度學習算法和工程技術(shù)，以保證應用效果。

　　1)數(shù)據(jù)處理

　　在很多場景中，數(shù)據(jù)難收集和難處理是一大痛點，也是阻礙 AI 模型開發(fā)和應用的常見問題之一。今年 5 月 EasyDL 全新發(fā)布了 EasyData 智能數(shù)據(jù)服務平臺，提供一站式的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)回流的完整解決方案，助力開發(fā)者高效獲取AI 開發(fā)所需的高質(zhì)量數(shù)據(jù)。

　　在數(shù)據(jù)采集方面，EasyData提供軟硬一體、端云協(xié)同的自動數(shù)據(jù)采集方案，目前支持接入攝像頭采集圖片、云服務數(shù)據(jù)回流兩種數(shù)據(jù)采集方式，其中攝像頭采集圖片提供了免費的本地采集 SDK，可以支持各類硬件平臺的自定義抽幀采集圖片，并將圖片即時同步到 EasyData 管理。

　　在數(shù)據(jù)標注方面，EasyData 提供了圖片、文本、音頻、視頻四種數(shù)據(jù)格式的11 種數(shù)據(jù)標注模板，并提供了最全面的智能標注方案，在物體檢測、圖像分割、文本分類三類任務場景中，通過百度自研的Hard Sample主動學習挖掘算法，進行針對性適配，在同樣的模型效果指標下，可減少 70% 的數(shù)據(jù)標注量。

　　在數(shù)據(jù)清洗方面，EasyData提供了圖片數(shù)據(jù)清洗的完整解決方案，支持相似度去重、去模糊、裁剪、旋轉(zhuǎn)、鏡像5種標準的清晰方案，以及高級清洗方案，可過濾無人臉、無人體的圖片，并可根據(jù)需求保留識別出來的人臉或人體數(shù)據(jù)做為標注信息，大幅提升清洗數(shù)據(jù)的效率。

　　2)模型訓練

　　AI 的行業(yè)應用場景是非常分散的，如何保障各個場景下模型的效果都達到較高的水平，使得精度符合應用要求，也是非常大的挑戰(zhàn)。

　　目前EasyDL在這個方向上，一方面是通過大規(guī)模預訓練模型，基于百度積累多年的海量數(shù)據(jù)和知識預訓練，能夠保證模型的泛化效果和通用性;另一方面是通過建設(shè)領(lǐng)域模型，針對特定場景提供具備更好適配性的算法模型。

　　在視覺任務中，圖像分類訓練任務內(nèi)置百度基于海量互聯(lián)網(wǎng)數(shù)據(jù)，包括 10萬+分類、6500 萬圖片訓練的超大規(guī)模預訓練模型，平均精度可提升3.24%-7.73%;物體檢測訓練任務內(nèi)置百度基于 800+ 標簽、170 萬圖片，1000 萬+ 檢測框訓練的超大規(guī)模物體檢測預訓練模型，平均精度可提升 1.78%-4.53%。

　　在自然語言處理方向，EasyDL預置了由百度自研預訓練模型文心(ERNIE)。據(jù)悉，文心在中英文的 16 個任務上已經(jīng)超越了業(yè)界最好模型，全面適用于各類NLP 應用場景。

　　由于目前大部分模型采用的都是分布式訓練，為了提升訓練效率，提高加速比，EasyDL基于飛槳 DGC 加速機制，通過只傳送重要梯度(稀疏更新)的方式來減少通信帶寬使用，在網(wǎng)絡(luò)帶寬受限的情況可以大幅提升通信效率，相比普通分布式訓練，有70% 以上的訓練速度增益。

　　3)服務部署

　　在最后的部署環(huán)節(jié)上，AI 模型小型化和邊緣計算的發(fā)展是技術(shù)趨勢也是挑戰(zhàn)，而百度一直在這一領(lǐng)域有著深厚的積累。目前，EasyDL的設(shè)備端SDK已經(jīng)適配了百度昆侖芯片、Intel 神經(jīng)加速棒、華為 NPU、華為 Atlas、高通 DSP、RK 等15+芯片類型，以及 4 大常用操作系統(tǒng)，并實現(xiàn)了模型自動的量化壓縮和性能加速。在軟硬一體方案部署上，EasyDL提供了基于 Nvidia Jetson 和百度自研硬件EdgeBoard的共6款軟硬一體方案，支持專項適配與加速，覆蓋高中低全矩陣，模型識別速度可提升 10 倍。

　　因此，對于開發(fā)者來說，簡單的流程只是外在，而EasyDL的專業(yè)才是幫助 AI 大規(guī)模落地的秘籍。

AI的“萬有引力”：人人做AI，才能AI為人人

　　據(jù)了解，目前使用EasyDL的用戶數(shù)已經(jīng)超過70 萬，目前已經(jīng)覆蓋20多個行業(yè)場景，包括安全、互聯(lián)網(wǎng)、工業(yè)、農(nóng)業(yè)、醫(yī)療、物流、零售、教育、科研等。

　　隨著 AI 技術(shù)的發(fā)展，各行各業(yè)應用 AI 進行轉(zhuǎn)型的需求也在爆發(fā)式增長。當前，AI 賦能千行萬業(yè)的愿景仍然處于起步階段，AI 在很多時候更被認為是很高深需要非常大投入的技術(shù)領(lǐng)域，而實際上EasyDL正在顛覆這一點。

　　百度EasyDL平臺正在不斷升級自身技術(shù)，同時為 AI 落地持續(xù)賦能，為產(chǎn)業(yè)智能化轉(zhuǎn)型提供更多創(chuàng)新力量。與此同時，EasyDL也正在積極的推進生態(tài)的建設(shè)，比如9 月底新上線的模型AI市場，就是通過平臺化的基礎(chǔ)設(shè)施，促進生態(tài)的繁榮。

　　為了進一步降低企業(yè)應用 AI 的門檻與成本，EasyDL也重磅推出“萬有引力”計劃，為有 AI 應用需求的企業(yè)提供專項基金，助力萬家企業(yè)，創(chuàng)享 AI 能力。

　　AI 的作用是相互的，只有人人做 AI，人人用 AI，才能最終實現(xiàn)AI for Everyone。

　　出品 | AI科技大本營

（轉(zhuǎn)載）

標簽：AI

我要反饋