為什么說(shuō)“智能決策”將拉開(kāi)商業(yè)變革大幕？

ainet.cn 2021年01月13日

　　文章來(lái)源：轉(zhuǎn)載自甲子光年微信公眾號(hào)

　　文 | 劉景豐
　　編輯 | 甲小姐

　　什么是智能？

　　人的智能，不僅來(lái)自眼睛的看，耳朵的聽(tīng)，更重要的，是大腦的決策。無(wú)數(shù)看不見(jiàn)摸不著卻時(shí)刻都在發(fā)生的決策，推動(dòng)著我們將思維轉(zhuǎn)化為一言一行，讓人類(lèi)真正有能力和現(xiàn)實(shí)世界交互。

　　美劇《復(fù)仇者聯(lián)盟3》中有一個(gè)畫(huà)面：在復(fù)仇者聯(lián)盟即將與滅霸進(jìn)行大戰(zhàn)前，奇異博士用時(shí)間寶石推進(jìn)了時(shí)間，瀏覽了未來(lái)這一戰(zhàn)可能出現(xiàn)的結(jié)果，預(yù)測(cè)到在14000605種結(jié)果中，只有一種是獲勝的結(jié)果。這是一種高級(jí)的智能。

　　商業(yè)的智能，不僅需要感知智能，認(rèn)知智能，更重要的，是決策的智能。伴隨著時(shí)刻發(fā)生的億萬(wàn)用戶(hù)的海量需求，企業(yè)要短時(shí)間內(nèi)做出大量決策——研發(fā)環(huán)節(jié)如何減少試錯(cuò)成本，制造環(huán)節(jié)如何減少迭代次數(shù)，營(yíng)銷(xiāo)環(huán)節(jié)如何提升投放效果，此外還有電商平臺(tái)如何給不同用戶(hù)動(dòng)態(tài)推薦產(chǎn)品，網(wǎng)約車(chē)平臺(tái)如何給不同司機(jī)動(dòng)態(tài)派發(fā)激勵(lì)，物流倉(cāng)儲(chǔ)平臺(tái)如何更快地揀選貨物……決策時(shí)刻都有需求，顯然，很難靠人力去實(shí)現(xiàn)大數(shù)據(jù)和個(gè)性化時(shí)代數(shù)以?xún)|計(jì)的決策需求。

　　如今，機(jī)器可以比人看得更清，算得更快，但讓機(jī)器取代人來(lái)直接做決策，一直是人工智能的挑戰(zhàn)高地。

　　如果只看機(jī)器取代人做決策，這早已不是新鮮事兒。在游戲環(huán)境中，機(jī)器的決策能力已超越人類(lèi)。2016年，AlphaGo打敗人類(lèi)頂級(jí)棋手李世乭；2019年，DeepMind Alpha Star在《星際2》中擊敗了99.8%的人類(lèi)玩家。時(shí)隔多年，“AlphaGo們”仍沒(méi)有走出游戲虛擬區(qū)——在真實(shí)環(huán)境里，AI的決策能力仍未大放光彩。

　　為什么在科技突飛猛進(jìn)的今天，AI的決策能力——智能決策——仍難在真實(shí)場(chǎng)景中發(fā)揮作用？阻力在哪里？如何打破這一瓶頸？

　　一家位于南京的AI企業(yè)，通過(guò)自己的實(shí)踐，為這些待解之題提供解題思路。

　　2021年1月9日，南棲仙策在南京發(fā)布旗下新一代智能決策系統(tǒng)REVIVE。其最大的特點(diǎn)是，讓強(qiáng)化學(xué)習(xí)通過(guò)一套通用流程就能在現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景中應(yīng)用，目前已探索出從研發(fā)、生產(chǎn)、物流到營(yíng)銷(xiāo)等多個(gè)制造業(yè)環(huán)節(jié)的落地場(chǎng)景。

　　脫胎于南京大學(xué)人工智能學(xué)院的南棲仙策，是一家專(zhuān)注于智能決策的人工智能新銳公司，公司的核心能力便是通過(guò)推演億萬(wàn)種結(jié)果，找到通向未來(lái)的最優(yōu)決策，進(jìn)而提供現(xiàn)實(shí)世界自主決策系統(tǒng)。

　　值得一提的是，南棲仙策并非按傳統(tǒng)數(shù)據(jù)挖掘的方式做大數(shù)據(jù)預(yù)測(cè)，而是根據(jù)數(shù)據(jù)模擬成環(huán)境，讓機(jī)器具有“想象能力”，并在此基礎(chǔ)上根據(jù)目標(biāo)尋找最優(yōu)的策略。

　　換句話說(shuō)，南棲仙策正把“AlphaGo們”從游戲搬到現(xiàn)實(shí)應(yīng)用中。

　　更重要的是，比起近些年AI落地場(chǎng)景的“需求真?zhèn)巍焙汀笆袌?chǎng)大小”之爭(zhēng)議，智能決策是各行各業(yè)古已有之的需求，而智能決策供給端終于出現(xiàn)了突破口。

　　如果一切實(shí)踐順利，一個(gè)由智能決策驅(qū)動(dòng)的大時(shí)代將開(kāi)啟。比起攝像頭讓機(jī)器看見(jiàn)，語(yǔ)音助手讓機(jī)器聽(tīng)見(jiàn)聽(tīng)懂，智能決策，將開(kāi)啟一個(gè)更大的全面智能時(shí)代，商業(yè)將真正進(jìn)化到下一階段。

1.時(shí)代呼喚智能決策

　　對(duì)于2020年的“雙11”，人們或許仍記憶猶新。在“雙11”期間(11月1日-11月11日)，近8億消費(fèi)者在天貓累計(jì)下單了4982億元，訂單峰值高達(dá)至58.3萬(wàn)筆/秒。截至11日24時(shí)，天貓“雙11”實(shí)時(shí)物流訂單也突破23.21億單，約等于2010年全國(guó)快遞量總和。

　　這串讓人震撼的消費(fèi)數(shù)據(jù)背后，隱藏著玄機(jī)。

　　表面上，用戶(hù)在天貓上通過(guò)關(guān)鍵字搜想要的商品是“主動(dòng)”行為，實(shí)際其瀏覽的每個(gè)商品，都是平臺(tái)根據(jù)其喜好、需求精準(zhǔn)推薦的。

　　將每秒數(shù)十萬(wàn)的商品進(jìn)行個(gè)性化推薦，如果讓人類(lèi)去決策，可能僅耗費(fèi)的人力就要數(shù)萬(wàn)之眾，此外針對(duì)每個(gè)用戶(hù)的需求作分析也需要一個(gè)過(guò)程，對(duì)普通人而言，一秒之內(nèi)也很難做出準(zhǔn)確的決策判斷。

　　但機(jī)器就可以輕易完成。

　　真實(shí)的情況是，用戶(hù)在天貓通過(guò)關(guān)鍵字“搜索”商品行為的背后，他第一眼會(huì)看到什么、在第一次點(diǎn)擊之后再給他看什么，類(lèi)似這樣的決策其實(shí)都是機(jī)器自主完成的。用戶(hù)看到的一切其實(shí)都是通過(guò)數(shù)據(jù)智能的算法自動(dòng)形成的，不存在任何人為干預(yù)。

　　這個(gè)案例，恰對(duì)應(yīng)了阿里巴巴集團(tuán)總參謀長(zhǎng)曾鳴在其著作《智能商業(yè)》一書(shū)中總結(jié)的“智能商業(yè)”三個(gè)特征：實(shí)時(shí)服務(wù)海量用戶(hù)，滿足每一個(gè)用戶(hù)的個(gè)性化需求，服務(wù)自我更新與提升。

　　電商，和訂單配送、出行打車(chē)、信息推送、自動(dòng)駕駛等等眾多場(chǎng)景共同組成了智能商業(yè)，這是一個(gè)數(shù)萬(wàn)億級(jí)別的市場(chǎng)。

　　曾鳴斷言，基于數(shù)據(jù)智能的商業(yè)必將超越1913年橫空出世的福特流水線，給人類(lèi)整體的生產(chǎn)力帶來(lái)一次根本性的巨大突破。

　　在當(dāng)下的時(shí)間點(diǎn)看，疫情倒逼著企業(yè)加速數(shù)字化，人工智能推動(dòng)著產(chǎn)業(yè)加速智能化，兩者共同推動(dòng)商業(yè)智能的到來(lái)。近日，騰訊研究院發(fā)布的《2020騰訊人工智能白皮書(shū)》中就提出，人工智能技術(shù)與產(chǎn)業(yè)發(fā)展正在邁向“泛在智能”時(shí)代，未來(lái)中國(guó)不再有純粹的傳統(tǒng)產(chǎn)業(yè)，每個(gè)產(chǎn)業(yè)或多或少都將開(kāi)啟數(shù)字化進(jìn)程。

　　智能商業(yè)下的每一個(gè)場(chǎng)景，都面臨大量的服務(wù)決策需求，且動(dòng)輒百萬(wàn)量級(jí)、千萬(wàn)量級(jí)，且要求決策實(shí)時(shí)完成，靠原來(lái)人力決策的方式根本無(wú)法滿足這一需求。在巨大需求之下，一種新的決策手段誕生了——智能決策。

　　實(shí)際上，目前人們對(duì)智能決策并沒(méi)有準(zhǔn)確的定義。一種解釋認(rèn)為，智能決策是綜合了人工智能(AI)、商務(wù)智能(BI)、決策支持系統(tǒng)(DSS)、知識(shí)管理系統(tǒng)(KMS)、專(zhuān)家系統(tǒng)(ES)以及管理信息系統(tǒng)(MIS)的輔助決策支持系統(tǒng)，其本質(zhì)還是通過(guò)改進(jìn)決策流程，用大數(shù)據(jù)的方式輔助決策。盡管這種決策方法已經(jīng)在現(xiàn)實(shí)中有了較多的落地應(yīng)用，但其最終還需要決策者自己“拍腦袋”，因此天花板較底。

　　智能決策的另一種解釋則簡(jiǎn)單得多——決策自動(dòng)化，或決策機(jī)器人。南棲仙策聯(lián)合創(chuàng)始人、CTO秦熔均將其本質(zhì)概括為“讓機(jī)器自主決策”。它背后則涉及一種時(shí)下熱門(mén)的硬科技——強(qiáng)化學(xué)習(xí)。

　　這一復(fù)雜的人工智能技術(shù)，可使機(jī)器自主完成從采樣到學(xué)習(xí)的過(guò)程，進(jìn)而自主決策。

　　理論上，這種技術(shù)可自主決策，不再需要決策者去“拍腦袋”。然而，這一跟人工智能概念幾乎同時(shí)期誕生的智能決策理念，在很長(zhǎng)一段時(shí)間內(nèi)，只能在游戲中展示和應(yīng)用。當(dāng)人工智能發(fā)展到今天，大眾對(duì)智能決策的期待早已不是局限在虛幻的游戲世界，而是如何在真實(shí)環(huán)境中解決問(wèn)題。

　　“我們更愿意說(shuō)‘智能決策’，而不是‘決策智能’，就是希望強(qiáng)調(diào)自主決策能力的應(yīng)用。”秦熔均對(duì)「甲子光年」表示。

2.走出游戲區(qū)

　　強(qiáng)化學(xué)習(xí)誕生以來(lái)，就一直通過(guò)游戲來(lái)展示自己的能力。從1997年前國(guó)際象棋世界冠軍卡斯帕羅夫被IBM的深藍(lán)（Deep Blue）計(jì)算機(jī)擊敗，到2016年AlphaGo戰(zhàn)勝世界頂級(jí)圍棋棋手，20年間強(qiáng)化學(xué)習(xí)的智能決策本領(lǐng)接連在不同游戲中超越人類(lèi)，但問(wèn)題是，它仍未擺脫游戲環(huán)境。

　　強(qiáng)化學(xué)習(xí)走不出游戲區(qū)，是有原因的。

　　其中一個(gè)原因是，強(qiáng)化學(xué)習(xí)需要了解決策后果，而很多情況下這只能在決策執(zhí)行后看到，因此強(qiáng)化學(xué)習(xí)需通過(guò)“試錯(cuò)”來(lái)完成學(xué)習(xí)。

　　本質(zhì)上看，象棋、圍棋等游戲都屬于封閉環(huán)境，具有清晰明確的運(yùn)行規(guī)則，可在計(jì)算機(jī)中以100%的精度模擬。因此該環(huán)境下的強(qiáng)化學(xué)習(xí)試錯(cuò)數(shù)據(jù)幾乎是免費(fèi)獲得。唯一的開(kāi)銷(xiāo)只是支撐計(jì)算機(jī)運(yùn)行的電力。

　　而真實(shí)業(yè)務(wù)場(chǎng)景是開(kāi)放環(huán)境，環(huán)境運(yùn)行規(guī)則不明。一旦試錯(cuò)會(huì)產(chǎn)生巨大的代價(jià)，輕則商業(yè)客戶(hù)流失，重則發(fā)生致命危害，如自動(dòng)駕駛事故等。

　　如何既用深度學(xué)習(xí)發(fā)揮智能決策的巨大價(jià)值，又降低開(kāi)放環(huán)境中的試錯(cuò)成本？這個(gè)“魚(yú)與熊掌”難題，曾困擾著許多強(qiáng)化學(xué)習(xí)研究者，其中就包括俞揚(yáng)。

　　從2004年進(jìn)入南京大學(xué)周志華教授的LAMDA研究組求學(xué)，俞揚(yáng)在人工智能領(lǐng)域已有超過(guò)15年的研究經(jīng)歷。2011年，俞揚(yáng)在周志華教授指導(dǎo)下獲得南京大學(xué)博士學(xué)位，研究方向正是機(jī)器學(xué)習(xí)。此后，俞揚(yáng)集中在強(qiáng)化學(xué)習(xí)理論與應(yīng)用技術(shù)領(lǐng)域的研究，并于2018年獲聘南京大學(xué)人工智能學(xué)院教授。

　　對(duì)強(qiáng)化學(xué)習(xí)了解越深，俞揚(yáng)對(duì)“讓強(qiáng)化學(xué)習(xí)走出游戲”的想法就越強(qiáng)烈。

　　轉(zhuǎn)機(jī)出現(xiàn)在2016年底。AlphaGo的光彩閃耀，讓互聯(lián)網(wǎng)頭部企業(yè)看到強(qiáng)化學(xué)習(xí)的巨大價(jià)值，并希望拓展應(yīng)用。隨后，淘寶搜索組找到俞揚(yáng)博士，希望進(jìn)行一項(xiàng)校企合作項(xiàng)目。

　　這個(gè)項(xiàng)目是“如何在淘寶上創(chuàng)建搜索和推薦的模擬器”。

　　此前，淘寶面臨的問(wèn)題正是強(qiáng)化學(xué)習(xí)的“老大難”——在商品搜索和推薦決策中的使用成本過(guò)高，無(wú)法真正落地。

　　2017年，在與淘寶搜索團(tuán)隊(duì)討論后，俞揚(yáng)向阿里提交了“虛擬淘寶”模擬器項(xiàng)目申請(qǐng)，試圖從歷史數(shù)據(jù)中學(xué)習(xí)出一個(gè)有虛擬用戶(hù)的環(huán)境，有了這個(gè)環(huán)境，便可以實(shí)現(xiàn)“0成本”訓(xùn)練強(qiáng)化學(xué)習(xí)。項(xiàng)目申請(qǐng)?zhí)峤缓?，俞揚(yáng)團(tuán)隊(duì)很快收到了阿里評(píng)審專(zhuān)家的質(zhì)疑：用戶(hù)行為如此復(fù)雜，從沒(méi)有方法能成功模擬，這個(gè)項(xiàng)目能行得通嗎？

　　以往對(duì)于環(huán)境模型學(xué)習(xí)的理論分析顯示出，環(huán)境模型的誤差會(huì)導(dǎo)致策略誤差平方級(jí)增長(zhǎng)，模擬一個(gè)好的環(huán)境可能比直接學(xué)策略還要困難。

　　在當(dāng)時(shí)看來(lái)，這樣的構(gòu)想此前沒(méi)有任何成功案例，而且團(tuán)隊(duì)也沒(méi)有經(jīng)驗(yàn)，缺乏信心。但這是俞揚(yáng)預(yù)見(jiàn)的唯一可行的途徑。成功只剩這一條路，只能硬著頭皮試試看。

　　在跟阿里評(píng)審專(zhuān)家進(jìn)行了多次溝通后，俞揚(yáng)頂著失敗的風(fēng)險(xiǎn)繼續(xù)嘗試。這套“虛擬淘寶”模擬器，是一套針對(duì)電商平臺(tái)的虛擬仿真系統(tǒng)，其目的是幫助平臺(tái)實(shí)現(xiàn)更合理的運(yùn)作機(jī)制，平衡微觀執(zhí)行和宏觀決策的一致性問(wèn)題。

　　從技術(shù)上看，這一過(guò)程極其復(fù)雜，但其運(yùn)行過(guò)程與《復(fù)仇者聯(lián)盟3》中的奇異博士用時(shí)間寶在14000605種結(jié)果中尋找獲勝結(jié)果一樣。

　　“虛擬淘寶”是通過(guò)模擬器克隆多個(gè)虛擬用戶(hù)，并對(duì)其實(shí)施基于強(qiáng)化學(xué)習(xí)的商品推薦，從中找到最優(yōu)策略。慶幸的是，俞揚(yáng)不僅實(shí)現(xiàn)了在開(kāi)放環(huán)境中低成本使用強(qiáng)化學(xué)習(xí)決策，還將原來(lái)平方級(jí)的誤差降低到線性——誤差回到可控范圍。

使用強(qiáng)化學(xué)習(xí)構(gòu)建的“虛擬淘寶”架構(gòu)

　　事實(shí)也證明了這一方法的優(yōu)越性。該項(xiàng)目的研究結(jié)果顯示，“虛擬淘寶”模擬器能夠忠實(shí)反映真實(shí)環(huán)境中的特征，將其用于訓(xùn)練強(qiáng)化學(xué)習(xí)，可以避免試錯(cuò)的代價(jià)。訓(xùn)練出的模型于2018年上線測(cè)試，在現(xiàn)實(shí)業(yè)務(wù)中獲得了2%的性能提升。

　　這一結(jié)果，第一次展示出環(huán)境學(xué)習(xí)途徑在真實(shí)場(chǎng)景應(yīng)用的可行性，證明了俞揚(yáng)的判斷是正確的。“虛擬淘寶”的探索，也為后來(lái)的淘寶國(guó)際項(xiàng)目中的搜索推薦任務(wù)提供了寶貴的研究積累。

　　阿里巴巴達(dá)摩院機(jī)器視覺(jué)團(tuán)隊(duì)負(fù)責(zé)人徐盈輝對(duì)「甲子光年」表示，“智能決策在阿里巴巴整個(gè)業(yè)務(wù)版圖里，已起到至關(guān)重要的作用?！痹陔娚唐脚_(tái)上帶約束的供給（平臺(tái)流量）和需求（商家）的在線匹配機(jī)制，新品推薦策略中應(yīng)用的規(guī)模化賭博機(jī)和半賭博機(jī)算法，以及為商家智能發(fā)布所研發(fā)的基于上下文的賭博機(jī)算法，還有傳統(tǒng)供應(yīng)鏈、物流運(yùn)輸領(lǐng)域，都有智能決策的身影。

　　此后，俞揚(yáng)又接連與滴滴出行、菜鳥(niǎo)倉(cāng)庫(kù)等公司合作，在網(wǎng)約車(chē)、倉(cāng)儲(chǔ)揀選優(yōu)化等多個(gè)真實(shí)開(kāi)放場(chǎng)景中，進(jìn)一步驗(yàn)證了該技術(shù)路徑，打磨了算法。以菜鳥(niǎo)網(wǎng)絡(luò)倉(cāng)儲(chǔ)揀選優(yōu)化為例，此前只是按照路徑最優(yōu)的方式給工人派單，但南棲仙策模擬了無(wú)數(shù)種可能的派單策略下工人的工作效率，最后從中選擇了最高效的策略。

　　最終結(jié)果顯示，該技術(shù)可將一個(gè)天貓倉(cāng)庫(kù)揀貨時(shí)間在人工優(yōu)化幾乎到頭的情況下，再縮短超過(guò)10%。

　　至此，強(qiáng)化學(xué)習(xí)終于走出游戲區(qū)，跨過(guò)產(chǎn)業(yè)落地的第一道門(mén)檻。

3.解開(kāi)落地之困

　　2018年，強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)環(huán)境中的多次成功應(yīng)用，讓俞揚(yáng)有了更強(qiáng)的信心，同時(shí)也看到了一片藍(lán)海。

　　“我們拿著強(qiáng)化學(xué)習(xí)的技術(shù)跟企業(yè)去合作，在別人看來(lái)這不過(guò)是一個(gè)探索的項(xiàng)目，也不會(huì)投入太多資源來(lái)推動(dòng)這件事?！庇釗P(yáng)說(shuō)。與此同時(shí)，俞揚(yáng)的博士生、后來(lái)成為南棲仙策聯(lián)合創(chuàng)始人和CTO的秦熔均也對(duì)強(qiáng)化學(xué)習(xí)的落地應(yīng)用充滿了憧憬，“非常希望能有一次契機(jī)和俞老師合作，我覺(jué)得公司的研究和項(xiàng)目與在學(xué)校里非常不同，有更多機(jī)會(huì)接觸產(chǎn)業(yè)界的問(wèn)題，不僅要仰望星空，還要腳踏實(shí)地?！鼻厝劬嬖V「甲子光年」。

　　另一方面，需求確實(shí)存在。南棲仙策COO徐亮是俞揚(yáng)的大學(xué)同學(xué)，不同于俞揚(yáng)的學(xué)術(shù)經(jīng)歷，徐亮自大學(xué)畢業(yè)就一直在產(chǎn)業(yè)界摸爬滾打，產(chǎn)業(yè)落地經(jīng)驗(yàn)十分豐富。

　　計(jì)算機(jī)專(zhuān)業(yè)出身的他，從2017年開(kāi)始，對(duì)自己所從事的行業(yè)越來(lái)越感覺(jué)“不適”了。

　　“那時(shí)候，很多企業(yè)開(kāi)始了數(shù)字化轉(zhuǎn)型、智能化轉(zhuǎn)型。就是裝一些傳感器，傳感器再把數(shù)據(jù)收集后放到數(shù)據(jù)中臺(tái)?！毙炝粱貞?，“其實(shí)很多企業(yè)只是把數(shù)據(jù)收集起來(lái)，但并沒(méi)有產(chǎn)生價(jià)值。”

　　盡管在當(dāng)時(shí)看來(lái)，智能化的趨勢(shì)已經(jīng)顯現(xiàn)，但實(shí)際中智能化的應(yīng)用卻有名無(wú)實(shí)。數(shù)據(jù)原本是為了提升生產(chǎn)和決策的效率，但由于各種約束，數(shù)據(jù)只能躺在數(shù)據(jù)庫(kù)里，并未產(chǎn)生明顯的決策價(jià)值。

　　要讓這些數(shù)據(jù)真正發(fā)揮決策價(jià)值，還需要一些更落地的解決方案。

　　2018年9月30日，在南京大學(xué)人工智能創(chuàng)新研究院新型研發(fā)機(jī)構(gòu)的孵化促進(jìn)下，南棲仙策（南京）科技有限公司成立。

　　公司最初選擇的方向是自動(dòng)駕駛中的智能決策。在與更有經(jīng)驗(yàn)的投資人溝通后，俞揚(yáng)改變了想法?！皼Q策只是自動(dòng)駕駛的一個(gè)環(huán)節(jié)，自動(dòng)駕駛的很多環(huán)節(jié)都不夠成熟，即使我們把決策做好，也無(wú)法解決整個(gè)問(wèn)題?！庇釗P(yáng)告訴「甲子光年」。南棲仙策的天使投資人涌鏵投資近年來(lái)積極布局AI前沿產(chǎn)業(yè)，2016年天使輪投資了寒武紀(jì)，回報(bào)頗豐。在談及與俞揚(yáng)教授的交集之時(shí)，涌鏵天使基金合伙人洪亦修笑道：“我們預(yù)感到人工智能可能處在爆發(fā)前夜，陳天石是教授創(chuàng)業(yè)，而國(guó)內(nèi)人工智能的頂級(jí)學(xué)術(shù)圈子并不大，自然而然也就認(rèn)識(shí)了俞揚(yáng)教授?！?/P>

　　洪亦修告訴「甲子光年」，“作為天使投資人，更多的是信任和幫助，我們完全信任南棲仙策團(tuán)隊(duì)在核心科研上的實(shí)力和優(yōu)勢(shì)，更多的是在商業(yè)和戰(zhàn)略等方面提供幫助”。他認(rèn)為，南棲仙策智能決策最大的潛力是通用性，它適用于包括制造、物流、營(yíng)銷(xiāo)等很多場(chǎng)景，凡是需要做決策的地方就有應(yīng)用的可能性。而我國(guó)既是全球最大的生產(chǎn)國(guó)也是最大的消費(fèi)國(guó)，因此南棲仙策的產(chǎn)品在提升生產(chǎn)效率和促進(jìn)消費(fèi)方面都具有巨大的想象空間。

　　與洪亦修深入溝通后，南棲仙策開(kāi)始了通用場(chǎng)景的強(qiáng)化學(xué)習(xí)應(yīng)用，并形成四大核心技術(shù)：構(gòu)建虛擬世界、高效強(qiáng)化學(xué)習(xí)、對(duì)抗攻擊訓(xùn)練、在線模型適配——這四項(xiàng)技術(shù)，進(jìn)化出一套“現(xiàn)實(shí)世界自主決策系統(tǒng)”。

　　說(shuō)起來(lái)容易，但如果面對(duì)這樣的決策系統(tǒng)，客戶(hù)依然顧慮重重。最大顧慮是：如何保證虛擬環(huán)境下的決策能適用于真實(shí)環(huán)境？

　　為了解決這一顧慮，南棲仙策做了兩件事。

　　首先，在理論上證明其優(yōu)越性。2020年俞揚(yáng)帶領(lǐng)團(tuán)隊(duì)成員，花了一年半的時(shí)間，最終用理論證明了在學(xué)習(xí)環(huán)境模型時(shí)，強(qiáng)化學(xué)習(xí)的方法性能好于傳統(tǒng)監(jiān)督學(xué)習(xí)。這一理論已形成論文，并于2020年11月在NeurIPS 2020（2020年度國(guó)際人工智能頂會(huì)）上發(fā)表。

　　其次，還要保證從虛擬環(huán)境到現(xiàn)實(shí)環(huán)境的可靠性。為此，秦熔均打造了南棲仙策檢驗(yàn)標(biāo)準(zhǔn)，上線前對(duì)決策系統(tǒng)進(jìn)行檢驗(yàn)，以確定其和現(xiàn)實(shí)環(huán)境的擬合程度，并形成評(píng)分，直到達(dá)到要求。

　　經(jīng)過(guò)這兩個(gè)環(huán)節(jié)的驗(yàn)證，幾乎就可以確保決策系統(tǒng)的可靠。

　　但俞揚(yáng)對(duì)該決策系統(tǒng)的要求并不止于可靠，“我們決策系統(tǒng)的優(yōu)勢(shì)在于，它有想象力，能做出歷史上沒(méi)有見(jiàn)過(guò)的決策?！焙帽華lphaGo Zero沒(méi)見(jiàn)過(guò)人類(lèi)下棋，就能學(xué)會(huì)各種下棋策略。

　　如今，南棲仙策智能決策已經(jīng)在一些場(chǎng)景中完成落地。

　　“中國(guó)是個(gè)制造業(yè)大國(guó)，如果能在制造業(yè)場(chǎng)景把智能決策賦能上去，那能帶來(lái)很大的價(jià)值?！毙炝粮嬖V「甲子光年」。制造業(yè)分幾個(gè)場(chǎng)景，第一個(gè)場(chǎng)景是研發(fā)階段，需要從初始狀態(tài)找到更接近目標(biāo)的過(guò)程或者參數(shù)組合，這個(gè)目標(biāo)肯定有很多；第二是效率最大化的場(chǎng)景，或者性能最好，或者成本最低，對(duì)于研發(fā)過(guò)程中可能有這樣一個(gè)目標(biāo)的定義。

　　為了實(shí)現(xiàn)這個(gè)目標(biāo)，南棲仙策通過(guò)不斷的試驗(yàn)來(lái)完成這個(gè)目標(biāo)，比如不斷調(diào)整參數(shù)做試驗(yàn)，就是試錯(cuò)的過(guò)程。但真實(shí)場(chǎng)景中試錯(cuò)帶來(lái)的代價(jià)很大，業(yè)務(wù)人員第一反應(yīng)就是能不能用模擬器的方式把這個(gè)東西實(shí)現(xiàn)，在過(guò)程中智能決策就能自然而然派上用場(chǎng)，幫助企業(yè)降低試錯(cuò)成本?！拔覀冋患移?chē)廠商合作，幫助它們研發(fā)智能決策。預(yù)計(jì)可大幅減少測(cè)試次數(shù)，加快新車(chē)上市的時(shí)間，為車(chē)企贏得競(jìng)爭(zhēng)力?！毙炝裂a(bǔ)充道。

　　實(shí)際上，在南棲仙策的探索下，基于強(qiáng)化學(xué)習(xí)的智能決策系統(tǒng)已經(jīng)有了頗為清晰的應(yīng)用路徑：在研發(fā)環(huán)節(jié)，可減少迭代次數(shù)，提升研發(fā)效率；在生產(chǎn)環(huán)節(jié)，可優(yōu)化產(chǎn)線配置，加快制造流程；在物流環(huán)節(jié)，通過(guò)優(yōu)化揀選方案，提升物流環(huán)節(jié)效率，降低成本；在營(yíng)銷(xiāo)環(huán)節(jié)，則可改善投放策略、精準(zhǔn)投放群體，進(jìn)而提升銷(xiāo)量。

南棲仙策智能決策系統(tǒng)可應(yīng)用場(chǎng)景

　　讓俞揚(yáng)引以為傲的是，盡管谷歌的AlphaGo曾讓深度學(xué)習(xí)名揚(yáng)天下，但南棲仙策是全球第一個(gè)將這一技術(shù)走出游戲，并用于真實(shí)業(yè)務(wù)環(huán)境的。從這個(gè)意義上講，南棲仙策自主決策系統(tǒng)具有劃時(shí)代的價(jià)值。

4.中國(guó)AI的真機(jī)會(huì)

　　基于強(qiáng)化學(xué)習(xí)的自主決策系統(tǒng)雖然價(jià)值巨大，但其“高冷”的外表讓很多人對(duì)其望而卻步。

　　“我們接觸的很多人，包括客戶(hù)、投資人，都看不懂我們的技術(shù)，不知道我們到底是做什么的?！庇釗P(yáng)對(duì)「甲子光年」稱(chēng)。即使客戶(hù)有意愿使用這套智能決策系統(tǒng)，也需要一定的門(mén)檻。

　　如果研發(fā)出來(lái)的產(chǎn)品沒(méi)人用，那它的價(jià)值就等于零。

　　所以對(duì)南棲仙策而言，一個(gè)重要的任務(wù)就是，讓這套智能決策系統(tǒng)更普適?！拔覀兿Ｍa(chǎn)品是，扔進(jìn)去數(shù)據(jù)，就出來(lái)決策結(jié)果。通過(guò)走一套通用的流程就可以投入實(shí)際的業(yè)務(wù)場(chǎng)景當(dāng)中去?！蹦蠗刹逤OO徐亮解釋稱(chēng)。

　　這個(gè)愿望，已經(jīng)接近實(shí)現(xiàn)。2021年1月9日，南棲仙策在南京發(fā)布了旗下新一代智能決策系統(tǒng)——REVIVE。南棲仙策產(chǎn)品副總裁李濟(jì)君在發(fā)布會(huì)上稱(chēng)，REVIVE要做的事，就是以強(qiáng)化學(xué)習(xí)算法為基礎(chǔ)，形成一個(gè)通用產(chǎn)品，再將這個(gè)通用產(chǎn)品應(yīng)用到各行各業(yè)，“用戶(hù)不用關(guān)注算法的細(xì)節(jié)，只需要關(guān)注自身業(yè)務(wù)?！?/P>

　　REVIVE系統(tǒng)的特色在于，用戶(hù)只需根據(jù)系統(tǒng)內(nèi)的模版，將excel等數(shù)據(jù)表上傳到系統(tǒng)，描述業(yè)務(wù)邏輯，系統(tǒng)就可以自動(dòng)訓(xùn)練模擬器，并學(xué)習(xí)得到策略模型，應(yīng)用到實(shí)際生產(chǎn)中。

REVIVE工作流程

　　REVIVE已經(jīng)能做到以目標(biāo)為導(dǎo)向，輸入當(dāng)前業(yè)務(wù)當(dāng)中需要最優(yōu)化的維度，策略模型就可以輸出一個(gè)決策結(jié)果。

　　如此一來(lái)，其使用門(mén)檻大大降低，基于強(qiáng)化學(xué)習(xí)的自主決策系統(tǒng)就變成一個(gè)人人可用的產(chǎn)品。

　　南棲仙策強(qiáng)化學(xué)習(xí)落地的速度不斷加快，也引起了越來(lái)越多同行業(yè)團(tuán)隊(duì)的關(guān)注。

　　在國(guó)際上，此前Google、DeepMind、Berkeley等世界知名人工智能機(jī)構(gòu)的研究方向是虛擬環(huán)境下的決策系統(tǒng)；如今這些機(jī)構(gòu)的學(xué)者，也把目光放在如何讓強(qiáng)化學(xué)習(xí)走出游戲環(huán)境上。他們推動(dòng)“離線強(qiáng)化學(xué)習(xí)”、“數(shù)據(jù)驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)”方向的研究，并建立了測(cè)評(píng)環(huán)境。照此下去，不出幾年，走出游戲環(huán)境將成為強(qiáng)化學(xué)習(xí)領(lǐng)域的主流研究方向之一。

　　在俞揚(yáng)看來(lái)，強(qiáng)化學(xué)習(xí)技術(shù)大規(guī)模應(yīng)用后，將帶來(lái)重大變革，技術(shù)弱勢(shì)的競(jìng)爭(zhēng)者可能會(huì)面臨來(lái)自算法的打擊。但國(guó)內(nèi)在基于強(qiáng)化學(xué)習(xí)的智能決策領(lǐng)域布局的公司非常少，通常的做法是從數(shù)據(jù)中利用一些進(jìn)階的規(guī)則輔助決策。

　　“這是個(gè)起點(diǎn)，也是我們的機(jī)會(huì)。中國(guó)AI企業(yè)需要突破原始創(chuàng)新能力，如果能抓住這一時(shí)機(jī)，促進(jìn)強(qiáng)化學(xué)習(xí)在真實(shí)商業(yè)場(chǎng)景快速應(yīng)用，很有可能實(shí)現(xiàn)人工智能應(yīng)用的彎道超車(chē)。”甲子光年副總裁李世民表示。

　　根據(jù)李世民的測(cè)算，目前該技術(shù)面向任一適用領(lǐng)域的市場(chǎng)空間都在百億級(jí)以上，前景十分廣闊。

　　在這一機(jī)遇之下，南棲仙策已開(kāi)始與相關(guān)企事業(yè)單位的合作，率先將強(qiáng)化學(xué)習(xí)技術(shù)落地在我國(guó)制造、物流、服務(wù)等行業(yè)以及在國(guó)防應(yīng)用中，為我國(guó)的產(chǎn)業(yè)智能化升級(jí)和國(guó)家安全做出貢獻(xiàn)。

　　在學(xué)術(shù)研究方面，俞揚(yáng)聯(lián)合發(fā)起了亞洲強(qiáng)化學(xué)習(xí)研討會(huì)，并承擔(dān)了多屆研討會(huì)的組織；他還擔(dān)任了2020年在南京舉辦的國(guó)際分布式人工智能會(huì)議程序主席，該會(huì)議以智能體和多智能體為主要議題；在今年剛過(guò)去的1月9日南棲仙策智能決策發(fā)布會(huì)上，南棲仙策還與多家單位一起，發(fā)起成立CCF多智能體系統(tǒng)專(zhuān)業(yè)學(xué)組——智能決策對(duì)抗MeetUp暨智能決策開(kāi)放研究聯(lián)盟，聯(lián)合企業(yè)應(yīng)用優(yōu)勢(shì)與高?；A(chǔ)研究?jī)?yōu)勢(shì)，為中國(guó)AI研發(fā)帶來(lái)更多正向助力。

　　但這條路并不好走，甚至還要面對(duì)質(zhì)疑。

　　“歷史其實(shí)都是這樣，往后看滿是道理，往前看全是質(zhì)疑。不如堅(jiān)守自己的信念，開(kāi)始自己的征途，讓強(qiáng)化學(xué)習(xí)在真實(shí)決策問(wèn)題上落地，創(chuàng)造不同的世界?！边@是俞揚(yáng)的感慨，也是他的追求。

（轉(zhuǎn)載）

標(biāo)簽：人工智能大數(shù)據(jù)

我要反饋

水是生命之源、生產(chǎn)之要、生態(tài)之基，建設(shè)智慧水務(wù)是推動(dòng)城市實(shí)現(xiàn)智慧化和生態(tài)化的重要舉措。然而，在水環(huán)境問(wèn)題日益突出、水生態(tài)治理難度不斷加大的今天，如何利用云計(jì)算、大數(shù)據(jù)、物... [詳情]

2021年01月13日羅克韋爾自動(dòng)化智慧水務(wù)

工信部：深化“5G+工業(yè)互聯(lián)網(wǎng)” 構(gòu)建工業(yè)互聯(lián)網(wǎng)網(wǎng)絡(luò)地圖

關(guān)于印發(fā)《工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展行動(dòng)計(jì)劃(2021-2023年)》的通知工信部信管〔2020〕197號(hào)工業(yè)互聯(lián)網(wǎng)專(zhuān)項(xiàng)工作組成員單位：《工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展行動(dòng)計(jì)劃(2021-2023年)》已經(jīng)工業(yè)互聯(lián)網(wǎng)專(zhuān)項(xiàng)... [詳情]

2021年01月13日工業(yè)互聯(lián)網(wǎng)

IBM 混合云軟件的下一個(gè)重大創(chuàng)新：AI 驅(qū)動(dòng)的自動(dòng)化平臺(tái)

人工智能時(shí)代自動(dòng)化的嶄新未來(lái)和巨大商業(yè)價(jià)值。COVID-19帶來(lái)的挑戰(zhàn)倒逼全球幾乎每一個(gè)行業(yè)都在加速其數(shù)字化轉(zhuǎn)型，企業(yè)越來(lái)越需要直面混合云環(huán)境下管理關(guān)鍵IT系統(tǒng)和復(fù)雜應(yīng)用的巨大挑戰(zhàn)... [詳情]

2021年01月13日 IBM 混合云軟件