機器的進步

2025China.cn 2015年05月26日

　　引言：對于人工智能，你了解多少?這是一次徹底認識人工智能的機會。記者很榮幸地采訪到了原谷歌大腦創(chuàng)建人、現(xiàn)任百度首席科學家吳恩達，以及科大訊飛研究院院長吳郁。聽他們聊聊關于人工智能的那點事。

　　每周給你的機器人100比特，結果它卻買回來10粒搖頭丸和一張偽造的匈牙利護照，你不得不去警察局把它“撈”回來。

　　這并不是科幻小說。今年初，瑞士的一個研發(fā)團隊“!Mediengruppe Bitnik”發(fā)明了一個自動化網絡購物機器人程序，并將其安裝在一個機器人身上，稱為“隨機暗網購物者”，該研發(fā)團隊要求機器人每周從在線市場隨機購買商品，于是就發(fā)生了以上的測試結果。機器人確實也被警察帶走了。

　　好的應用是，如果你的冰箱裝了這一程序，它可以按時給你訂購牛奶，甚至還可以聯(lián)合其他冰箱一起弄個團購價回來。節(jié)省下來的錢，它可能不告訴你，偷偷存到銀行或買理財產品。然后，有一天，你發(fā)現(xiàn)你的冰箱已經比你富有了。

　　這就是人工智能(Artificial Intelligence，縮寫為AI)在今天和不遠的未來能做的事情。當下較為普遍的人工智能定義是：利用計算機程序的方式，自動完成人類可以完成的功能。

　　百度首席科學家吳恩達在接受記者采訪時表示，人工智能發(fā)展50多年來，已經無處不在了，最近一兩年取得了突飛猛進的進步，一是得益于為計算機提供的數(shù)據(jù)量越來越大，二是因為計算機的運算速度越來越快。

　　根據(jù)摩爾定律，計算能力每18個月翻一番，計算機容量和功能亦是如此。目前一部普通智能手機的能力都已超過了30年前功能最強大的計算機。美國科學家雷·庫茲韋爾(Ray Kurzweil)預言，到2019年，售價4000美元的計算機的計算能力將會超過人腦，即每秒20 quadrillion(千的五次方)次計算。

　　神經元網絡與大數(shù)據(jù)急速發(fā)展

　　谷歌完全無人駕駛車正等待美國加利福尼亞州的批準，一旦獲準便可馬上路測。這輛車裝有可拆卸的方向盤、油門踏板以及剎車踏板，但只是用以應急而非必需。在真正的原型車中，則完全沒有這三樣東西。

　　曾在谷歌擔任建立“谷歌大腦”重任的吳恩達評價稱，過去幾年里，計算機視覺獲得了大大的進步，開始區(qū)分事物，識別出各種圖片間十分微妙的差別，甚至有人已經著手研究讓計算機識別漂亮的圖片與不漂亮的圖片，這就自然給自動駕駛汽車帶來了激動人心的發(fā)展提升。百度無人駕駛汽車也已落地。

　　自動駕駛汽車技術包含幾個關鍵技術：精確的地圖定位、圖像識別、語音識別、基于感知的雷達、紅外形成自動導航，然后再進行模式識別，根據(jù)路上的情況不斷優(yōu)化模型，即大閉環(huán)優(yōu)化。

　　科大訊飛高級副總裁、訊飛研究院院長胡郁在接受記者采訪時表示，自動駕駛是人工智能最好的功能應用之一，“人工智能有三個條件：第一先進的算法，比如神經元網絡，第二大量的數(shù)據(jù)，第三大閉環(huán)優(yōu)化模型”。自動駕駛汽車中的地圖定位、圖像識別等都需要借助先進的算法，同時產生大量的數(shù)據(jù)，最后在優(yōu)化中讓機器自己不斷學會完全的無人駕駛。

　　整個過程在科學界亦稱之為“機器學習”。吳恩達認為，機器學習是人工智能的一個重要分支，而機器決策、策劃、不確定性推理則是下一個階段。他將機器學習比喻成一枚火箭，人工神經元網絡是發(fā)動機、大數(shù)據(jù)是燃料。

　　最近幾年在移動互聯(lián)網及智能硬件的帶動下，大數(shù)據(jù)的膨脹已不言自明。Facebook稱今年元旦一天上傳圖片量就達7.5億張。百度今年一季度財報顯示，僅百度LBS開放平臺每天響應來自第三方的定位請求就超過110億次。

　　與此同時，人工神經元網絡也取得了飛速的發(fā)展，這其中又包含兩個方面的技術：第一硬件，過去服務器用的是CPU，現(xiàn)在用GPU(Graphics Processing Unit，圖形處理器)，后者比前者至少快14倍，世界上最快的中國“天河二號”超級計算機用的就是CPU+GPU的模式;第二過去神經元網絡都是單層結構，現(xiàn)在不僅變成多層，還出現(xiàn)了多種計算方式，比如RNN(Recurrent neural Network，多層反饋神經網絡)、DNN(Deep neural network，深度神經網絡)、CNN(Cellular neural network，細胞神經網絡，又稱卷積神經網絡)。

　　單層神經網絡只能獲得幾百個神經元，而多層金字塔式結構則可達到十幾億神經元的規(guī)模，能更好地模擬大腦。每一層會記錄不同的類別特征，比如“貓”的特點會裝入到一層之中，相當于打上標簽。頂層用來輸入信息，比如照相機捕捉到一只貓，機器收到信息就開始在每層查找匹配，最終輸出信息告訴你“這是一只貓”。

　　科技更加進步的地方在于，以前，科學家們告訴計算機“貓臉”的幾個特征標簽，計算機“按標索貓”，但是現(xiàn)在，科學家們改用無監(jiān)督學習方式，只給機器查找的方法，讓它自己去找，查找的過程又會生成數(shù)據(jù)，影響它下次的查找行為。

　　谷歌無人駕駛汽車用的便是RNN神經網絡，它賦予了計算機邏輯推理的能力，讓它可以用一句話對畫面進行簡單描述(看圖說話)，這樣計算機便具備了用有邏輯的語言描述圖片中不同事物的能力。至此，擁有依靠概念為原點進行推理能力的機器人，比只會識別的機器人又邁上了一個更高的臺階。

　　雅虎則利用CNN神經網絡，可以從寬泛的角度來識別人臉，即使部分被遮擋住了，而且它可以相當精確地從相同的圖片中識別出多張臉。雅虎團隊把這種方法稱為深度密集人臉檢測器。當然其背后是龐大的數(shù)據(jù)，包括臉部不同角度和方位的20萬張圖片和近2000萬張無臉的圖片，然后用128張圖片5萬次循環(huán)來訓練神經網絡。

　　微軟5月份上線的與此有異曲同工之妙，即：上傳圖片，機器檢測到人臉，并給出年齡的大小。雖然準確率很低，但是其功能應用更進一步，也起到了收集數(shù)據(jù)的作用。

　　微軟此前已稱，為語音助手Cortana開發(fā)的物體識別軟件能夠告訴用戶彭布羅克威爾士柯基犬和卡迪根威爾士柯基犬的區(qū)別。如果你對犬類有了解，就知道這兩個家伙長得是多么的像。如果它還能告訴你每一只的實際年齡，那是不是很奇妙?

　　不只是雅虎、微軟，F(xiàn)acebook臉部識別率的精確度達到97.25%，國內百度LFW測試中曾跑出99.85%的國際最高分。

　　胡郁稱，在機器學習領域的算法，國內外技術水平不相上下，“谷歌的看圖說話能力很強，但我覺得這并沒有訊飛高考機器人難度大。只不過兩者專注的領域不同”。據(jù)胡郁介紹，大多數(shù)省市的中考、高考英語口語考試，都已由訊飛高考機器人作為主考官來完成，接下來文字考試的判卷工作也將由訊飛考試機器人完成，目前正在英語四六級考試中做部分推廣。

　　教育考試、無人駕駛、圖像識別、語音識別、即時翻譯、工業(yè)和家居機器人等等人工智能產品，無不是神經元網絡與大數(shù)據(jù)飛速進步的產物。

　　但是，這些進步都只僅限于一種功能，到目前為止，人類還沒有發(fā)明一個具備五官感覺功能的機器人。

　　特征：單一功能與語音交互

　　2014年11月，意法半導體在日本展示了一個人形機器人iCub，這個看起來跟一個4歲孩子差不多大小的機器人，外觀精準、動作溫柔，剛開始它并不會抓一只擺在桌上的毛絨玩偶，工作人員便指導它如何去抓，它不僅學會了，竟然還會輕輕地愛撫玩偶。iCub已經意識到自己的身體以及它如何和世界互動，這類似于嬰兒學習夠拿物件的過程。

　　2014年5月，在加利福尼亞州舉辦的會議上，微軟展示了一款可以實時語音翻譯的人工智能程序，一名研究人員用英語與一名德國的同事通話。

　　2014年1月，谷歌斥資4億英鎊收購了位于倫敦的Deepmind人工智能公司。Deepmind最擅長的是，能夠讓計算機學會49種不同的電子游戲。而且在超過半數(shù)的游戲中，計算機熟練到可以擊敗一個專業(yè)的人類玩家。

　　這看上去是三個級別的人工智能技術，但實際上都是專注實現(xiàn)一種功能，iCub做的是感官反饋功能，即時翻譯做的是翻譯功能，Deepmind就是打游戲功能。同樣都是輸入與輸出，涉及復雜的計算。

　　吳恩達說，“自動駕駛汽車也是單一功能機器人，就是開著車帶著你到處轉。”“因此近期來看，未來一兩代機器人的發(fā)展還將沿襲針對解決某種問題而設計的模式。”

　　工業(yè)機器人是單一功能人工智能的最好詮釋。1959年，第一個工業(yè)型機器人被安裝于瑞典的一個金屬制品工廠。它是一個有關節(jié)的，能運轉的手臂，重達2噸。通過磁鼓上的程序控制，機器人可依賴液壓缸調整機械臂的位置，到達一系列預設好的角度。

　　目前，超1300萬的工業(yè)型機器人在各行各業(yè)投入使用，包括汽車、電子產品、橡膠和塑料、化妝品、醫(yī)藥、食品和飲料。它們的市場價值達95億美元。

　　吳恩達說：“現(xiàn)在的機器人之所以能取得成功，顯然是因為工業(yè)化應用，科幻小說中說的那種什么都能做的泛用型機器人，現(xiàn)在幾乎不可能造得出來。”

　　他覺得現(xiàn)在能夠期待的是，對著手機說：“幫我叫輛車帶我去機場”，然后就能如愿以償。具有強大語音交互能力的機器已可期。他認為，人工智能下一個將要開啟的就是，語音交互時代。

　　在十多年間，人機交互發(fā)生了兩次突破：PC和鼠標的誕生、觸屏操作和語音交互問世。其中最后兩個都是在近十年發(fā)生的。特別是語音交互，它意味著計算機擁有了“聽覺”并能給出正確的反饋。語音交互的實現(xiàn)解放了人類的雙手，將促進人類生產力的巨大飛躍。

　　位于美國馬薩諸塞州的Kensho公司，正在設計一套能夠描述自然語言的查詢搜索，比如“當原油價格每桶降低5美元，汽車企業(yè)的股價將會如何變化”?系統(tǒng)就會去查找公司財報和上市文件、歷史市場數(shù)據(jù)等，并在幾秒內以自然語言的形式作出回復。

　　5月5日美國發(fā)布的一份報告，展示了美國的偵探是如何使用語音識別軟件來將語音通話轉化成文本的，這樣他們就能更好地對談話內容進行搜索。

　　最貼近普通用戶使用的是，應用軟件的語音搜索。百度稱，其有10%的搜索是通過語音進行，并預計到2020年會提升到50%。去年底，百度還宣布，其研發(fā)出了全新語音識別系統(tǒng)Deep Speech，準確率超過了谷歌和蘋果的產品。

　　胡郁亦認為，機器不能理解語言，就不能形成知識、對知識進行處理，就不能進行邏輯推理。機器需要一場認知革命，正如人類在7萬年前開始掌握語言一樣。

　　吳恩達認為，當語音識別準確率達到99%時(百度目前為96%)，人與機器的交互就將發(fā)生徹底改變。他與胡郁均向記者表示，這并不難實現(xiàn)。

　　今年初百度流出的“百度神燈”手機視頻，較好地展現(xiàn)了語音交互時代。借用全息顯示技術，用戶只需要對手機說出自己的需求，比如怎么做一道菜，手機便會立即在屏幕上方投影出如真實場景的真人教學影像，用兩個手指輕輕劃開，影像就會變大。

　　這并不意味著機器掌握了語言，交互只是理解語言的開始。一般認為，人工智能分為三個階段：計算智能、感知智能、認知智能。從感知飛躍至認知智能，目前人類還沒有好的方法。但感知智能已被大面積商業(yè)化，在使用的過程中，機器會不斷進步。

　　未來：應用廣泛化與人類的威脅

　　Facebook今年初已將深度人臉(DeepFace)算法，用于篩檢不雅照片和視頻，并且對暴力內容的視頻和照片進行了分類，還添加了警示功能。從這個角度來說，淘寶平臺亦可通過對產品照片的掃描來篩查正品與假貨。

　　Google和百度將人工智能技術放在了如何精準投放在線廣告、推送新聞上面，比如百度的鳳巢系統(tǒng)。

　　亞馬遜的揀貨機器人，則早已蜚聲國際。去年夏天投入使用，在加州特雷西占地120平方尺的倉庫，揀貨員只要站在原地等候，機器人就會把4尺寬、6尺長的貨架移過來，一天下來可少走多達20公里的路。這讓他們每小時可挑揀、掃描至少300項貨品，數(shù)量是用老方法揀貨的三倍。

　　IBM正在與合作伙伴密切合作，以支持其利用沃森的動態(tài)學習和云計算能力開發(fā)應用。1997年，IBM研發(fā)的計算機“深藍”(Deep Blue)戰(zhàn)勝了國際象棋冠軍卡斯帕羅夫;2011年，這家公司以創(chuàng)始人Thomas J. Watson(沃森)名字命名的計算機，繼續(xù)著對人類智能極限的挑戰(zhàn);2014年1月，IBM花費10億美元成立沃森集團，目的就是要把沃森技術推向市場。

　　最大規(guī)模的沃森應用現(xiàn)存于醫(yī)療行業(yè)。沃森可將大量動態(tài)復雜的文本信息(如不斷發(fā)生變化的醫(yī)學文獻)與另一組動態(tài)復雜的文本信息(如病歷或基因組數(shù)據(jù))結合起來，從而生成并且評估假設條件?？死蛱m醫(yī)療中心等許多知名的大學醫(yī)學中心都與IBM建立了合作，共同開發(fā)適當?shù)南到y(tǒng)，幫助醫(yī)療運營商更好地了解病患情況并推薦個性化治療方案。

　　荷蘭埃因霍溫大學的RoboEarth項目同樣頗受關注。該項目的四個機器人在醫(yī)院里相互協(xié)作來照顧病人，與其他看護機器人不同的是，它們可以通過云端服務器進行信息共享和學習，也就是說，一個機器人學會的知識和技能，通過云端分享，瞬間可以“教”會其他機器人。這個技術一旦成熟，一系列智能高效的護理機器人將被迅速復制出來。

　　就像科幻小說一樣，機器人真的來搶人類的工作了。

　　2013年9月，兩位牛津學者——Carl Benedikt Frey和Michael Osborne，就發(fā)布了一篇研究報告，該報告預測在未來20年內，美國將有約50%的工作崗位因機器人而消失。根據(jù)兩位的計算，在今后的二十幾年內，50%的編程工作也會外包給機器人。

　　失去工作還只是影響之一，機器的進步給人類帶來的更大威脅是，消滅人類。去年10月，在美國MIT的一次公開訪談上，特斯拉創(chuàng)始人馬斯克稱人工智能就是“召喚惡魔”，很多科學家對此表示了認同，并將超級智能作為人類的重大威脅，與小星球沖撞地球和大規(guī)模的核戰(zhàn)爭并列。

　　過去一年人工智能的高歌猛進，確實讓很多科學家為之興奮不已，雷·庫茲韋爾(Ray Kurzweil)亦曾發(fā)出樂觀的預言：機器智能超越人類智能總和的那個奇妙“奇點”，就在2045年。

　　不過，吳恩達與胡郁均向記者表示，不必為機器的進步過分焦慮。

　　現(xiàn)在，每位駕駛員在每次航班上平均只駕駛3分鐘的飛機，但飛行員并沒有被取代，就像ATM機并未取代銀行柜員一樣。恰恰相反，因為銀行支行需要的柜員減少，銀行便開設更多支行，而銀行柜員的總數(shù)增加。

　　科技一邊接手一些任務，一邊也增加了對商品和服務的需求，因此也需要更多執(zhí)行剩余任務的人力。一項統(tǒng)計表明，在過去30年中，計算機在辦公室文職工作里被廣泛應用，而工作崗位卻每年增加1.2%。

　　因此，人類仍然為擁有更聰明的人工智能技術而不吝千金。2014年，百度在研發(fā)投入上共計花費69.81億元，訊飛的研發(fā)投入占銷售收入的比例也高達30%-40%。然而，這與一年投入106億美元、104億美元、80億美元的Intel、微軟、谷歌，以及一個季度花掉10.6億美元研發(fā)經費的Facebook相比，并不算什么。

　　吳恩達說，人工智能的進步速度與投入是極度相關的，中國在這方面需要增加投入。胡郁亦表示，“并不是別人不會做，而是別人沒這個條件做這個事情。”這個條件，一是指數(shù)據(jù)規(guī)模，二是指資本投入。

（轉載）

標簽：工業(yè)機器人人工智能機械汽車電子

我要反饋