文章來(lái)源:轉(zhuǎn)載自甲子光年微信公眾號(hào)
文 | 劉景豐
編輯 | 甲小姐
什么是智能?
人的智能,不僅來(lái)自眼睛的看,耳朵的聽(tīng),更重要的,是大腦的決策。無(wú)數(shù)看不見(jiàn)摸不著卻時(shí)刻都在發(fā)生的決策,推動(dòng)著我們將思維轉(zhuǎn)化為一言一行,讓人類(lèi)真正有能力和現(xiàn)實(shí)世界交互。
美劇《復(fù)仇者聯(lián)盟3》中有一個(gè)畫(huà)面:在復(fù)仇者聯(lián)盟即將與滅霸進(jìn)行大戰(zhàn)前,奇異博士用時(shí)間寶石推進(jìn)了時(shí)間,瀏覽了未來(lái)這一戰(zhàn)可能出現(xiàn)的結(jié)果,預(yù)測(cè)到在14000605種結(jié)果中,只有一種是獲勝的結(jié)果。這是一種高級(jí)的智能。
商業(yè)的智能,不僅需要感知智能,認(rèn)知智能,更重要的,是決策的智能。伴隨著時(shí)刻發(fā)生的億萬(wàn)用戶(hù)的海量需求,企業(yè)要短時(shí)間內(nèi)做出大量決策——研發(fā)環(huán)節(jié)如何減少試錯(cuò)成本,制造環(huán)節(jié)如何減少迭代次數(shù),營(yíng)銷(xiāo)環(huán)節(jié)如何提升投放效果,此外還有電商平臺(tái)如何給不同用戶(hù)動(dòng)態(tài)推薦產(chǎn)品,網(wǎng)約車(chē)平臺(tái)如何給不同司機(jī)動(dòng)態(tài)派發(fā)激勵(lì),物流倉(cāng)儲(chǔ)平臺(tái)如何更快地揀選貨物……決策時(shí)刻都有需求,顯然,很難靠人力去實(shí)現(xiàn)大數(shù)據(jù)和個(gè)性化時(shí)代數(shù)以?xún)|計(jì)的決策需求。
如今,機(jī)器可以比人看得更清,算得更快,但讓機(jī)器取代人來(lái)直接做決策,一直是人工智能的挑戰(zhàn)高地。
如果只看機(jī)器取代人做決策,這早已不是新鮮事兒。在游戲環(huán)境中,機(jī)器的決策能力已超越人類(lèi)。2016年,AlphaGo打敗人類(lèi)頂級(jí)棋手李世乭;2019年,DeepMind Alpha Star在《星際2》中擊敗了99.8%的人類(lèi)玩家。時(shí)隔多年,“AlphaGo們”仍沒(méi)有走出游戲虛擬區(qū)——在真實(shí)環(huán)境里,AI的決策能力仍未大放光彩。
為什么在科技突飛猛進(jìn)的今天,AI的決策能力——智能決策——仍難在真實(shí)場(chǎng)景中發(fā)揮作用?阻力在哪里?如何打破這一瓶頸?
一家位于南京的AI企業(yè),通過(guò)自己的實(shí)踐,為這些待解之題提供解題思路。
2021年1月9日,南棲仙策在南京發(fā)布旗下新一代智能決策系統(tǒng)REVIVE。其最大的特點(diǎn)是,讓強(qiáng)化學(xué)習(xí)通過(guò)一套通用流程就能在現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景中應(yīng)用,目前已探索出從研發(fā)、生產(chǎn)、物流到營(yíng)銷(xiāo)等多個(gè)制造業(yè)環(huán)節(jié)的落地場(chǎng)景。
脫胎于南京大學(xué)人工智能學(xué)院的南棲仙策,是一家專(zhuān)注于智能決策的人工智能新銳公司,公司的核心能力便是通過(guò)推演億萬(wàn)種結(jié)果,找到通向未來(lái)的最優(yōu)決策,進(jìn)而提供現(xiàn)實(shí)世界自主決策系統(tǒng)。
值得一提的是,南棲仙策并非按傳統(tǒng)數(shù)據(jù)挖掘的方式做大數(shù)據(jù)預(yù)測(cè),而是根據(jù)數(shù)據(jù)模擬成環(huán)境,讓機(jī)器具有“想象能力”,并在此基礎(chǔ)上根據(jù)目標(biāo)尋找最優(yōu)的策略。
換句話說(shuō),南棲仙策正把“AlphaGo們”從游戲搬到現(xiàn)實(shí)應(yīng)用中。
更重要的是,比起近些年AI落地場(chǎng)景的“需求真?zhèn)巍焙汀笆袌?chǎng)大小”之爭(zhēng)議,智能決策是各行各業(yè)古已有之的需求,而智能決策供給端終于出現(xiàn)了突破口。
如果一切實(shí)踐順利,一個(gè)由智能決策驅(qū)動(dòng)的大時(shí)代將開(kāi)啟。比起攝像頭讓機(jī)器看見(jiàn),語(yǔ)音助手讓機(jī)器聽(tīng)見(jiàn)聽(tīng)懂,智能決策,將開(kāi)啟一個(gè)更大的全面智能時(shí)代,商業(yè)將真正進(jìn)化到下一階段。
1.時(shí)代呼喚智能決策
對(duì)于2020年的“雙11”,人們或許仍記憶猶新。在“雙11”期間(11月1日-11月11日),近8億消費(fèi)者在天貓累計(jì)下單了4982億元,訂單峰值高達(dá)至58.3萬(wàn)筆/秒。截至11日24時(shí),天貓“雙11”實(shí)時(shí)物流訂單也突破23.21億單,約等于2010年全國(guó)快遞量總和。
這串讓人震撼的消費(fèi)數(shù)據(jù)背后,隱藏著玄機(jī)。
表面上,用戶(hù)在天貓上通過(guò)關(guān)鍵字搜想要的商品是“主動(dòng)”行為,實(shí)際其瀏覽的每個(gè)商品,都是平臺(tái)根據(jù)其喜好、需求精準(zhǔn)推薦的。
將每秒數(shù)十萬(wàn)的商品進(jìn)行個(gè)性化推薦,如果讓人類(lèi)去決策,可能僅耗費(fèi)的人力就要數(shù)萬(wàn)之眾,此外針對(duì)每個(gè)用戶(hù)的需求作分析也需要一個(gè)過(guò)程,對(duì)普通人而言,一秒之內(nèi)也很難做出準(zhǔn)確的決策判斷。
但機(jī)器就可以輕易完成。
真實(shí)的情況是,用戶(hù)在天貓通過(guò)關(guān)鍵字“搜索”商品行為的背后,他第一眼會(huì)看到什么、在第一次點(diǎn)擊之后再給他看什么,類(lèi)似這樣的決策其實(shí)都是機(jī)器自主完成的。用戶(hù)看到的一切其實(shí)都是通過(guò)數(shù)據(jù)智能的算法自動(dòng)形成的,不存在任何人為干預(yù)。
這個(gè)案例,恰對(duì)應(yīng)了阿里巴巴集團(tuán)總參謀長(zhǎng)曾鳴在其著作《智能商業(yè)》一書(shū)中總結(jié)的“智能商業(yè)”三個(gè)特征:實(shí)時(shí)服務(wù)海量用戶(hù),滿足每一個(gè)用戶(hù)的個(gè)性化需求,服務(wù)自我更新與提升。
電商,和訂單配送、出行打車(chē)、信息推送、自動(dòng)駕駛等等眾多場(chǎng)景共同組成了智能商業(yè),這是一個(gè)數(shù)萬(wàn)億級(jí)別的市場(chǎng)。
曾鳴斷言,基于數(shù)據(jù)智能的商業(yè)必將超越1913年橫空出世的福特流水線,給人類(lèi)整體的生產(chǎn)力帶來(lái)一次根本性的巨大突破。
在當(dāng)下的時(shí)間點(diǎn)看,疫情倒逼著企業(yè)加速數(shù)字化,人工智能推動(dòng)著產(chǎn)業(yè)加速智能化,兩者共同推動(dòng)商業(yè)智能的到來(lái)。近日,騰訊研究院發(fā)布的《2020騰訊人工智能白皮書(shū)》中就提出,人工智能技術(shù)與產(chǎn)業(yè)發(fā)展正在邁向“泛在智能”時(shí)代,未來(lái)中國(guó)不再有純粹的傳統(tǒng)產(chǎn)業(yè),每個(gè)產(chǎn)業(yè)或多或少都將開(kāi)啟數(shù)字化進(jìn)程。
智能商業(yè)下的每一個(gè)場(chǎng)景,都面臨大量的服務(wù)決策需求,且動(dòng)輒百萬(wàn)量級(jí)、千萬(wàn)量級(jí),且要求決策實(shí)時(shí)完成,靠原來(lái)人力決策的方式根本無(wú)法滿足這一需求。在巨大需求之下,一種新的決策手段誕生了——智能決策。
實(shí)際上,目前人們對(duì)智能決策并沒(méi)有準(zhǔn)確的定義。一種解釋認(rèn)為,智能決策是綜合了人工智能(AI)、商務(wù)智能(BI)、決策支持系統(tǒng)(DSS)、知識(shí)管理系統(tǒng)(KMS)、專(zhuān)家系統(tǒng)(ES)以及管理信息系統(tǒng)(MIS)的輔助決策支持系統(tǒng),其本質(zhì)還是通過(guò)改進(jìn)決策流程,用大數(shù)據(jù)的方式輔助決策。盡管這種決策方法已經(jīng)在現(xiàn)實(shí)中有了較多的落地應(yīng)用,但其最終還需要決策者自己“拍腦袋”,因此天花板較底。
智能決策的另一種解釋則簡(jiǎn)單得多——決策自動(dòng)化,或決策機(jī)器人。南棲仙策聯(lián)合創(chuàng)始人、CTO秦熔均將其本質(zhì)概括為“讓機(jī)器自主決策”。它背后則涉及一種時(shí)下熱門(mén)的硬科技——強(qiáng)化學(xué)習(xí)。
這一復(fù)雜的人工智能技術(shù),可使機(jī)器自主完成從采樣到學(xué)習(xí)的過(guò)程,進(jìn)而自主決策。
理論上,這種技術(shù)可自主決策,不再需要決策者去“拍腦袋”。然而,這一跟人工智能概念幾乎同時(shí)期誕生的智能決策理念,在很長(zhǎng)一段時(shí)間內(nèi),只能在游戲中展示和應(yīng)用。當(dāng)人工智能發(fā)展到今天,大眾對(duì)智能決策的期待早已不是局限在虛幻的游戲世界,而是如何在真實(shí)環(huán)境中解決問(wèn)題。
“我們更愿意說(shuō)‘智能決策’,而不是‘決策智能’,就是希望強(qiáng)調(diào)自主決策能力的應(yīng)用。”秦熔均對(duì)「甲子光年」表示。
2.走出游戲區(qū)
強(qiáng)化學(xué)習(xí)誕生以來(lái),就一直通過(guò)游戲來(lái)展示自己的能力。從1997年前國(guó)際象棋世界冠軍卡斯帕羅夫被IBM的深藍(lán)(Deep Blue)計(jì)算機(jī)擊敗,到2016年AlphaGo戰(zhàn)勝世界頂級(jí)圍棋棋手,20年間強(qiáng)化學(xué)習(xí)的智能決策本領(lǐng)接連在不同游戲中超越人類(lèi),但問(wèn)題是,它仍未擺脫游戲環(huán)境。
強(qiáng)化學(xué)習(xí)走不出游戲區(qū),是有原因的。
其中一個(gè)原因是,強(qiáng)化學(xué)習(xí)需要了解決策后果,而很多情況下這只能在決策執(zhí)行后看到,因此強(qiáng)化學(xué)習(xí)需通過(guò)“試錯(cuò)”來(lái)完成學(xué)習(xí)。
本質(zhì)上看,象棋、圍棋等游戲都屬于封閉環(huán)境,具有清晰明確的運(yùn)行規(guī)則,可在計(jì)算機(jī)中以100%的精度模擬。因此該環(huán)境下的強(qiáng)化學(xué)習(xí)試錯(cuò)數(shù)據(jù)幾乎是免費(fèi)獲得。唯一的開(kāi)銷(xiāo)只是支撐計(jì)算機(jī)運(yùn)行的電力。
而真實(shí)業(yè)務(wù)場(chǎng)景是開(kāi)放環(huán)境,環(huán)境運(yùn)行規(guī)則不明。一旦試錯(cuò)會(huì)產(chǎn)生巨大的代價(jià),輕則商業(yè)客戶(hù)流失,重則發(fā)生致命危害,如自動(dòng)駕駛事故等。
如何既用深度學(xué)習(xí)發(fā)揮智能決策的巨大價(jià)值,又降低開(kāi)放環(huán)境中的試錯(cuò)成本?這個(gè)“魚(yú)與熊掌”難題,曾困擾著許多強(qiáng)化學(xué)習(xí)研究者,其中就包括俞揚(yáng)。
從2004年進(jìn)入南京大學(xué)周志華教授的LAMDA研究組求學(xué),俞揚(yáng)在人工智能領(lǐng)域已有超過(guò)15年的研究經(jīng)歷。2011年,俞揚(yáng)在周志華教授指導(dǎo)下獲得南京大學(xué)博士學(xué)位,研究方向正是機(jī)器學(xué)習(xí)。此后,俞揚(yáng)集中在強(qiáng)化學(xué)習(xí)理論與應(yīng)用技術(shù)領(lǐng)域的研究,并于2018年獲聘南京大學(xué)人工智能學(xué)院教授。
對(duì)強(qiáng)化學(xué)習(xí)了解越深,俞揚(yáng)對(duì)“讓強(qiáng)化學(xué)習(xí)走出游戲”的想法就越強(qiáng)烈。
轉(zhuǎn)機(jī)出現(xiàn)在2016年底。AlphaGo的光彩閃耀,讓互聯(lián)網(wǎng)頭部企業(yè)看到強(qiáng)化學(xué)習(xí)的巨大價(jià)值,并希望拓展應(yīng)用。隨后,淘寶搜索組找到俞揚(yáng)博士,希望進(jìn)行一項(xiàng)校企合作項(xiàng)目。
這個(gè)項(xiàng)目是“如何在淘寶上創(chuàng)建搜索和推薦的模擬器”。
此前,淘寶面臨的問(wèn)題正是強(qiáng)化學(xué)習(xí)的“老大難”——在商品搜索和推薦決策中的使用成本過(guò)高,無(wú)法真正落地。
2017年,在與淘寶搜索團(tuán)隊(duì)討論后,俞揚(yáng)向阿里提交了“虛擬淘寶”模擬器項(xiàng)目申請(qǐng),試圖從歷史數(shù)據(jù)中學(xué)習(xí)出一個(gè)有虛擬用戶(hù)的環(huán)境,有了這個(gè)環(huán)境,便可以實(shí)現(xiàn)“0成本”訓(xùn)練強(qiáng)化學(xué)習(xí)。項(xiàng)目申請(qǐng)?zhí)峤缓?,俞揚(yáng)團(tuán)隊(duì)很快收到了阿里評(píng)審專(zhuān)家的質(zhì)疑:用戶(hù)行為如此復(fù)雜,從沒(méi)有方法能成功模擬,這個(gè)項(xiàng)目能行得通嗎?
以往對(duì)于環(huán)境模型學(xué)習(xí)的理論分析顯示出,環(huán)境模型的誤差會(huì)導(dǎo)致策略誤差平方級(jí)增長(zhǎng),模擬一個(gè)好的環(huán)境可能比直接學(xué)策略還要困難。
在當(dāng)時(shí)看來(lái),這樣的構(gòu)想此前沒(méi)有任何成功案例,而且團(tuán)隊(duì)也沒(méi)有經(jīng)驗(yàn),缺乏信心。但這是俞揚(yáng)預(yù)見(jiàn)的唯一可行的途徑。成功只剩這一條路,只能硬著頭皮試試看。
在跟阿里評(píng)審專(zhuān)家進(jìn)行了多次溝通后,俞揚(yáng)頂著失敗的風(fēng)險(xiǎn)繼續(xù)嘗試。這套“虛擬淘寶”模擬器,是一套針對(duì)電商平臺(tái)的虛擬仿真系統(tǒng),其目的是幫助平臺(tái)實(shí)現(xiàn)更合理的運(yùn)作機(jī)制,平衡微觀執(zhí)行和宏觀決策的一致性問(wèn)題。
從技術(shù)上看,這一過(guò)程極其復(fù)雜,但其運(yùn)行過(guò)程與《復(fù)仇者聯(lián)盟3》中的奇異博士用時(shí)間寶在14000605種結(jié)果中尋找獲勝結(jié)果一樣。
“虛擬淘寶”是通過(guò)模擬器克隆多個(gè)虛擬用戶(hù),并對(duì)其實(shí)施基于強(qiáng)化學(xué)習(xí)的商品推薦,從中找到最優(yōu)策略。慶幸的是,俞揚(yáng)不僅實(shí)現(xiàn)了在開(kāi)放環(huán)境中低成本使用強(qiáng)化學(xué)習(xí)決策,還將原來(lái)平方級(jí)的誤差降低到線性——誤差回到可控范圍。
使用強(qiáng)化學(xué)習(xí)構(gòu)建的“虛擬淘寶”架構(gòu)
事實(shí)也證明了這一方法的優(yōu)越性。該項(xiàng)目的研究結(jié)果顯示,“虛擬淘寶”模擬器能夠忠實(shí)反映真實(shí)環(huán)境中的特征,將其用于訓(xùn)練強(qiáng)化學(xué)習(xí),可以避免試錯(cuò)的代價(jià)。訓(xùn)練出的模型于2018年上線測(cè)試,在現(xiàn)實(shí)業(yè)務(wù)中獲得了2%的性能提升。
這一結(jié)果,第一次展示出環(huán)境學(xué)習(xí)途徑在真實(shí)場(chǎng)景應(yīng)用的可行性,證明了俞揚(yáng)的判斷是正確的。“虛擬淘寶”的探索,也為后來(lái)的淘寶國(guó)際項(xiàng)目中的搜索推薦任務(wù)提供了寶貴的研究積累。
阿里巴巴達(dá)摩院機(jī)器視覺(jué)團(tuán)隊(duì)負(fù)責(zé)人徐盈輝對(duì)「甲子光年」表示,“智能決策在阿里巴巴整個(gè)業(yè)務(wù)版圖里,已起到至關(guān)重要的作用?!痹陔娚唐脚_(tái)上帶約束的供給(平臺(tái)流量)和需求(商家)的在線匹配機(jī)制,新品推薦策略中應(yīng)用的規(guī)模化賭博機(jī)和半賭博機(jī)算法,以及為商家智能發(fā)布所研發(fā)的基于上下文的賭博機(jī)算法,還有傳統(tǒng)供應(yīng)鏈、物流運(yùn)輸領(lǐng)域,都有智能決策的身影。
此后,俞揚(yáng)又接連與滴滴出行、菜鳥(niǎo)倉(cāng)庫(kù)等公司合作,在網(wǎng)約車(chē)、倉(cāng)儲(chǔ)揀選優(yōu)化等多個(gè)真實(shí)開(kāi)放場(chǎng)景中,進(jìn)一步驗(yàn)證了該技術(shù)路徑,打磨了算法。以菜鳥(niǎo)網(wǎng)絡(luò)倉(cāng)儲(chǔ)揀選優(yōu)化為例,此前只是按照路徑最優(yōu)的方式給工人派單,但南棲仙策模擬了無(wú)數(shù)種可能的派單策略下工人的工作效率,最后從中選擇了最高效的策略。
最終結(jié)果顯示,該技術(shù)可將一個(gè)天貓倉(cāng)庫(kù)揀貨時(shí)間在人工優(yōu)化幾乎到頭的情況下,再縮短超過(guò)10%。
至此,強(qiáng)化學(xué)習(xí)終于走出游戲區(qū),跨過(guò)產(chǎn)業(yè)落地的第一道門(mén)檻。
3.解開(kāi)落地之困
2018年,強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)環(huán)境中的多次成功應(yīng)用,讓俞揚(yáng)有了更強(qiáng)的信心,同時(shí)也看到了一片藍(lán)海。
“我們拿著強(qiáng)化學(xué)習(xí)的技術(shù)跟企業(yè)去合作,在別人看來(lái)這不過(guò)是一個(gè)探索的項(xiàng)目,也不會(huì)投入太多資源來(lái)推動(dòng)這件事?!庇釗P(yáng)說(shuō)。與此同時(shí),俞揚(yáng)的博士生、后來(lái)成為南棲仙策聯(lián)合創(chuàng)始人和CTO的秦熔均也對(duì)強(qiáng)化學(xué)習(xí)的落地應(yīng)用充滿了憧憬,“非常希望能有一次契機(jī)和俞老師合作,我覺(jué)得公司的研究和項(xiàng)目與在學(xué)校里非常不同,有更多機(jī)會(huì)接觸產(chǎn)業(yè)界的問(wèn)題,不僅要仰望星空,還要腳踏實(shí)地?!鼻厝劬嬖V「甲子光年」。
另一方面,需求確實(shí)存在。南棲仙策COO徐亮是俞揚(yáng)的大學(xué)同學(xué),不同于俞揚(yáng)的學(xué)術(shù)經(jīng)歷,徐亮自大學(xué)畢業(yè)就一直在產(chǎn)業(yè)界摸爬滾打,產(chǎn)業(yè)落地經(jīng)驗(yàn)十分豐富。
計(jì)算機(jī)專(zhuān)業(yè)出身的他,從2017年開(kāi)始,對(duì)自己所從事的行業(yè)越來(lái)越感覺(jué)“不適”了。
“那時(shí)候,很多企業(yè)開(kāi)始了數(shù)字化轉(zhuǎn)型、智能化轉(zhuǎn)型。就是裝一些傳感器,傳感器再把數(shù)據(jù)收集后放到數(shù)據(jù)中臺(tái)?!毙炝粱貞?,“其實(shí)很多企業(yè)只是把數(shù)據(jù)收集起來(lái),但并沒(méi)有產(chǎn)生價(jià)值。”
盡管在當(dāng)時(shí)看來(lái),智能化的趨勢(shì)已經(jīng)顯現(xiàn),但實(shí)際中智能化的應(yīng)用卻有名無(wú)實(shí)。數(shù)據(jù)原本是為了提升生產(chǎn)和決策的效率,但由于各種約束,數(shù)據(jù)只能躺在數(shù)據(jù)庫(kù)里,并未產(chǎn)生明顯的決策價(jià)值。
要讓這些數(shù)據(jù)真正發(fā)揮決策價(jià)值,還需要一些更落地的解決方案。
2018年9月30日,在南京大學(xué)人工智能創(chuàng)新研究院新型研發(fā)機(jī)構(gòu)的孵化促進(jìn)下,南棲仙策(南京)科技有限公司成立。
公司最初選擇的方向是自動(dòng)駕駛中的智能決策。在與更有經(jīng)驗(yàn)的投資人溝通后,俞揚(yáng)改變了想法?!皼Q策只是自動(dòng)駕駛的一個(gè)環(huán)節(jié),自動(dòng)駕駛的很多環(huán)節(jié)都不夠成熟,即使我們把決策做好,也無(wú)法解決整個(gè)問(wèn)題?!庇釗P(yáng)告訴「甲子光年」。南棲仙策的天使投資人涌鏵投資近年來(lái)積極布局AI前沿產(chǎn)業(yè),2016年天使輪投資了寒武紀(jì),回報(bào)頗豐。在談及與俞揚(yáng)教授的交集之時(shí),涌鏵天使基金合伙人洪亦修笑道:“我們預(yù)感到人工智能可能處在爆發(fā)前夜,陳天石是教授創(chuàng)業(yè),而國(guó)內(nèi)人工智能的頂級(jí)學(xué)術(shù)圈子并不大,自然而然也就認(rèn)識(shí)了俞揚(yáng)教授?!?/P>
洪亦修告訴「甲子光年」,“作為天使投資人,更多的是信任和幫助,我們完全信任南棲仙策團(tuán)隊(duì)在核心科研上的實(shí)力和優(yōu)勢(shì),更多的是在商業(yè)和戰(zhàn)略等方面提供幫助”。他認(rèn)為,南棲仙策智能決策最大的潛力是通用性,它適用于包括制造、物流、營(yíng)銷(xiāo)等很多場(chǎng)景,凡是需要做決策的地方就有應(yīng)用的可能性。而我國(guó)既是全球最大的生產(chǎn)國(guó)也是最大的消費(fèi)國(guó),因此南棲仙策的產(chǎn)品在提升生產(chǎn)效率和促進(jìn)消費(fèi)方面都具有巨大的想象空間。
與洪亦修深入溝通后,南棲仙策開(kāi)始了通用場(chǎng)景的強(qiáng)化學(xué)習(xí)應(yīng)用,并形成四大核心技術(shù):構(gòu)建虛擬世界、高效強(qiáng)化學(xué)習(xí)、對(duì)抗攻擊訓(xùn)練、在線模型適配——這四項(xiàng)技術(shù),進(jìn)化出一套“現(xiàn)實(shí)世界自主決策系統(tǒng)”。
說(shuō)起來(lái)容易,但如果面對(duì)這樣的決策系統(tǒng),客戶(hù)依然顧慮重重。最大顧慮是:如何保證虛擬環(huán)境下的決策能適用于真實(shí)環(huán)境?
為了解決這一顧慮,南棲仙策做了兩件事。
首先,在理論上證明其優(yōu)越性。2020年俞揚(yáng)帶領(lǐng)團(tuán)隊(duì)成員,花了一年半的時(shí)間,最終用理論證明了在學(xué)習(xí)環(huán)境模型時(shí),強(qiáng)化學(xué)習(xí)的方法性能好于傳統(tǒng)監(jiān)督學(xué)習(xí)。這一理論已形成論文,并于2020年11月在NeurIPS 2020(2020年度國(guó)際人工智能頂會(huì))上發(fā)表。
其次,還要保證從虛擬環(huán)境到現(xiàn)實(shí)環(huán)境的可靠性。為此,秦熔均打造了南棲仙策檢驗(yàn)標(biāo)準(zhǔn),上線前對(duì)決策系統(tǒng)進(jìn)行檢驗(yàn),以確定其和現(xiàn)實(shí)環(huán)境的擬合程度,并形成評(píng)分,直到達(dá)到要求。
經(jīng)過(guò)這兩個(gè)環(huán)節(jié)的驗(yàn)證,幾乎就可以確保決策系統(tǒng)的可靠。
但俞揚(yáng)對(duì)該決策系統(tǒng)的要求并不止于可靠,“我們決策系統(tǒng)的優(yōu)勢(shì)在于,它有想象力,能做出歷史上沒(méi)有見(jiàn)過(guò)的決策?!焙帽華lphaGo Zero沒(méi)見(jiàn)過(guò)人類(lèi)下棋,就能學(xué)會(huì)各種下棋策略。
如今,南棲仙策智能決策已經(jīng)在一些場(chǎng)景中完成落地。
“中國(guó)是個(gè)制造業(yè)大國(guó),如果能在制造業(yè)場(chǎng)景把智能決策賦能上去,那能帶來(lái)很大的價(jià)值?!毙炝粮嬖V「甲子光年」。制造業(yè)分幾個(gè)場(chǎng)景,第一個(gè)場(chǎng)景是研發(fā)階段,需要從初始狀態(tài)找到更接近目標(biāo)的過(guò)程或者參數(shù)組合,這個(gè)目標(biāo)肯定有很多;第二是效率最大化的場(chǎng)景,或者性能最好,或者成本最低,對(duì)于研發(fā)過(guò)程中可能有這樣一個(gè)目標(biāo)的定義。
為了實(shí)現(xiàn)這個(gè)目標(biāo),南棲仙策通過(guò)不斷的試驗(yàn)來(lái)完成這個(gè)目標(biāo),比如不斷調(diào)整參數(shù)做試驗(yàn),就是試錯(cuò)的過(guò)程。但真實(shí)場(chǎng)景中試錯(cuò)帶來(lái)的代價(jià)很大,業(yè)務(wù)人員第一反應(yīng)就是能不能用模擬器的方式把這個(gè)東西實(shí)現(xiàn),在過(guò)程中智能決策就能自然而然派上用場(chǎng),幫助企業(yè)降低試錯(cuò)成本?!拔覀冋患移?chē)廠商合作,幫助它們研發(fā)智能決策。預(yù)計(jì)可大幅減少測(cè)試次數(shù),加快新車(chē)上市的時(shí)間,為車(chē)企贏得競(jìng)爭(zhēng)力?!毙炝裂a(bǔ)充道。
實(shí)際上,在南棲仙策的探索下,基于強(qiáng)化學(xué)習(xí)的智能決策系統(tǒng)已經(jīng)有了頗為清晰的應(yīng)用路徑:在研發(fā)環(huán)節(jié),可減少迭代次數(shù),提升研發(fā)效率;在生產(chǎn)環(huán)節(jié),可優(yōu)化產(chǎn)線配置,加快制造流程;在物流環(huán)節(jié),通過(guò)優(yōu)化揀選方案,提升物流環(huán)節(jié)效率,降低成本;在營(yíng)銷(xiāo)環(huán)節(jié),則可改善投放策略、精準(zhǔn)投放群體,進(jìn)而提升銷(xiāo)量。
南棲仙策智能決策系統(tǒng)可應(yīng)用場(chǎng)景
讓俞揚(yáng)引以為傲的是,盡管谷歌的AlphaGo曾讓深度學(xué)習(xí)名揚(yáng)天下,但南棲仙策是全球第一個(gè)將這一技術(shù)走出游戲,并用于真實(shí)業(yè)務(wù)環(huán)境的。從這個(gè)意義上講,南棲仙策自主決策系統(tǒng)具有劃時(shí)代的價(jià)值。
4.中國(guó)AI的真機(jī)會(huì)
基于強(qiáng)化學(xué)習(xí)的自主決策系統(tǒng)雖然價(jià)值巨大,但其“高冷”的外表讓很多人對(duì)其望而卻步。
“我們接觸的很多人,包括客戶(hù)、投資人,都看不懂我們的技術(shù),不知道我們到底是做什么的?!庇釗P(yáng)對(duì)「甲子光年」稱(chēng)。即使客戶(hù)有意愿使用這套智能決策系統(tǒng),也需要一定的門(mén)檻。
如果研發(fā)出來(lái)的產(chǎn)品沒(méi)人用,那它的價(jià)值就等于零。
所以對(duì)南棲仙策而言,一個(gè)重要的任務(wù)就是,讓這套智能決策系統(tǒng)更普適?!拔覀兿Ma(chǎn)品是,扔進(jìn)去數(shù)據(jù),就出來(lái)決策結(jié)果。通過(guò)走一套通用的流程就可以投入實(shí)際的業(yè)務(wù)場(chǎng)景當(dāng)中去?!蹦蠗刹逤OO徐亮解釋稱(chēng)。
這個(gè)愿望,已經(jīng)接近實(shí)現(xiàn)。2021年1月9日,南棲仙策在南京發(fā)布了旗下新一代智能決策系統(tǒng)——REVIVE。南棲仙策產(chǎn)品副總裁李濟(jì)君在發(fā)布會(huì)上稱(chēng),REVIVE要做的事,就是以強(qiáng)化學(xué)習(xí)算法為基礎(chǔ),形成一個(gè)通用產(chǎn)品,再將這個(gè)通用產(chǎn)品應(yīng)用到各行各業(yè),“用戶(hù)不用關(guān)注算法的細(xì)節(jié),只需要關(guān)注自身業(yè)務(wù)?!?/P>
REVIVE系統(tǒng)的特色在于,用戶(hù)只需根據(jù)系統(tǒng)內(nèi)的模版,將excel等數(shù)據(jù)表上傳到系統(tǒng),描述業(yè)務(wù)邏輯,系統(tǒng)就可以自動(dòng)訓(xùn)練模擬器,并學(xué)習(xí)得到策略模型,應(yīng)用到實(shí)際生產(chǎn)中。
REVIVE工作流程
REVIVE已經(jīng)能做到以目標(biāo)為導(dǎo)向,輸入當(dāng)前業(yè)務(wù)當(dāng)中需要最優(yōu)化的維度,策略模型就可以輸出一個(gè)決策結(jié)果。
如此一來(lái),其使用門(mén)檻大大降低,基于強(qiáng)化學(xué)習(xí)的自主決策系統(tǒng)就變成一個(gè)人人可用的產(chǎn)品。
南棲仙策強(qiáng)化學(xué)習(xí)落地的速度不斷加快,也引起了越來(lái)越多同行業(yè)團(tuán)隊(duì)的關(guān)注。
在國(guó)際上,此前Google、DeepMind、Berkeley等世界知名人工智能機(jī)構(gòu)的研究方向是虛擬環(huán)境下的決策系統(tǒng);如今這些機(jī)構(gòu)的學(xué)者,也把目光放在如何讓強(qiáng)化學(xué)習(xí)走出游戲環(huán)境上。他們推動(dòng)“離線強(qiáng)化學(xué)習(xí)”、“數(shù)據(jù)驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)”方向的研究,并建立了測(cè)評(píng)環(huán)境。照此下去,不出幾年,走出游戲環(huán)境將成為強(qiáng)化學(xué)習(xí)領(lǐng)域的主流研究方向之一。
在俞揚(yáng)看來(lái),強(qiáng)化學(xué)習(xí)技術(shù)大規(guī)模應(yīng)用后,將帶來(lái)重大變革,技術(shù)弱勢(shì)的競(jìng)爭(zhēng)者可能會(huì)面臨來(lái)自算法的打擊。但國(guó)內(nèi)在基于強(qiáng)化學(xué)習(xí)的智能決策領(lǐng)域布局的公司非常少,通常的做法是從數(shù)據(jù)中利用一些進(jìn)階的規(guī)則輔助決策。
“這是個(gè)起點(diǎn),也是我們的機(jī)會(huì)。中國(guó)AI企業(yè)需要突破原始創(chuàng)新能力,如果能抓住這一時(shí)機(jī),促進(jìn)強(qiáng)化學(xué)習(xí)在真實(shí)商業(yè)場(chǎng)景快速應(yīng)用,很有可能實(shí)現(xiàn)人工智能應(yīng)用的彎道超車(chē)。”甲子光年副總裁李世民表示。
根據(jù)李世民的測(cè)算,目前該技術(shù)面向任一適用領(lǐng)域的市場(chǎng)空間都在百億級(jí)以上,前景十分廣闊。
在這一機(jī)遇之下,南棲仙策已開(kāi)始與相關(guān)企事業(yè)單位的合作,率先將強(qiáng)化學(xué)習(xí)技術(shù)落地在我國(guó)制造、物流、服務(wù)等行業(yè)以及在國(guó)防應(yīng)用中,為我國(guó)的產(chǎn)業(yè)智能化升級(jí)和國(guó)家安全做出貢獻(xiàn)。
在學(xué)術(shù)研究方面,俞揚(yáng)聯(lián)合發(fā)起了亞洲強(qiáng)化學(xué)習(xí)研討會(huì),并承擔(dān)了多屆研討會(huì)的組織;他還擔(dān)任了2020年在南京舉辦的國(guó)際分布式人工智能會(huì)議程序主席,該會(huì)議以智能體和多智能體為主要議題;在今年剛過(guò)去的1月9日南棲仙策智能決策發(fā)布會(huì)上,南棲仙策還與多家單位一起,發(fā)起成立CCF多智能體系統(tǒng)專(zhuān)業(yè)學(xué)組——智能決策對(duì)抗MeetUp暨智能決策開(kāi)放研究聯(lián)盟,聯(lián)合企業(yè)應(yīng)用優(yōu)勢(shì)與高?;A(chǔ)研究?jī)?yōu)勢(shì),為中國(guó)AI研發(fā)帶來(lái)更多正向助力。
但這條路并不好走,甚至還要面對(duì)質(zhì)疑。
“歷史其實(shí)都是這樣,往后看滿是道理,往前看全是質(zhì)疑。不如堅(jiān)守自己的信念,開(kāi)始自己的征途,讓強(qiáng)化學(xué)習(xí)在真實(shí)決策問(wèn)題上落地,創(chuàng)造不同的世界?!边@是俞揚(yáng)的感慨,也是他的追求。
(轉(zhuǎn)載)