人工智能近年來的迅速發(fā)展,很大程度上歸功于“深度學習”為代表的新理論的提出。作為“深度學習”三巨頭之一的Yoshua Bengio教授,近期在AI助力全球抗擊疫情方面也進行了相關的研究。
今天,在2020世界人工智能大會云端峰會,2018年度圖靈獎得主、蒙特利爾大學計算機科學教授Yoshua Bengio發(fā)表主題演講:談談基于智能手機的傳感器風險預測和機器學習。
2018年度圖靈獎得主、蒙特利爾大學計算機科學教授Yoshua Bengio
Yoshua Bengio:大家好,我是Yoshua Bengio,今天跟大家談談基于智能手機的傳感器風險預測和機器學習。
首先,我想先談一談跟這次新冠病毒疫情相關的重要事實,以及它是如何從一個人傳到另一個人,有時候就是靠近的一個人傳到另外一個人。另外一個重要的事實就是什么時候你是具有傳染性,其實在你開始有癥狀,如果你有癥狀的話,癥狀開始幾天之前就已經開始具有傳染性了,你可能是因為其他人傳給你的,這時候你心里應該是有點感覺,因為其他傳給你的那些人肯定病毒測試的時候呈陽性了或者他們也有癥狀了,這就是我們所說的接觸跟蹤的一般概念。人們喜歡根據別人在手機上所報告的內容來發(fā)送一些警告信號,比如說測試,報告里面包含和新冠病毒有關的各種癥狀等等。但是用人工進行操作,其實是可以的,但是問題就是需要時間,手機上記錄那些信息的數(shù)字就是跟蹤的信息,很可能有所幫助。
現(xiàn)在,這種標準方式的數(shù)字接觸跟蹤的問題就在于只是考慮了一個人是否呈陽性與兩元化的信息,如果能減少延誤時間,那就有可能大大地減少病毒的傳播?,F(xiàn)在一旦你考慮一些癥狀的時候,那就不是簡簡單單的兩元,不是那么簡單了,因為有的時候它的癥狀不一樣,癥狀嚴重程度也不同,所以你就需要考慮到好多點,或者說你有現(xiàn)有的病情的狀況,還有你的年齡和你的性別都可能會影響疾病的進程。另外,你也可能從那些已經患病的人那里獲得信息,你接觸過不同風險等級的人,這些信息和線索都需要進行整合,要得到一個有效的整合方法就不容易了,最好的一個辦法就是用機器學習把這些碎片信息整合起來,來確定你是不是已經被傳染了或者你處于傳染的哪個階段。如果能做到這一點的話,那些有危險的人就可以根據這些預測出來的傳染性,向他過去幾天的時間里見過的那些人發(fā)個短信,告訴他們哪些人風險最大,你們要小心一點,你們就需要待在家里被隔離,而那些風險不是特別高的人就不會受到太大影響,需要謹慎一點,但不需要接受強制的規(guī)定,我們覺得這種技術未必能夠完全取代人工的接觸跟蹤,人工的接觸跟蹤還發(fā)現(xiàn)手機沒辦法進行評估的關系,我們想利用加強人工接觸跟蹤的工具,擴大范圍,可以說對公共衛(wèi)生管理來說也是很有用的、很珍貴的。
舉例,公共衛(wèi)生管理部門可以決定測試誰,那些風險更高的人或者有沒有有過接觸史的人是不是要接受優(yōu)先測試。此外,這些技術還可以提供很多重要的信息,比如說預測是不是有可能出現(xiàn)大疫情,在人們去醫(yī)院之前就能夠檢驗預測了,因為可以看到傳染的概率在某些地區(qū)已經大幅上升的情況。
現(xiàn)在我們回到機器學習這塊,我們如果已經知道了整個接觸的圖表了,我們可以做向遠程的預測了,換句話說,基于我們對每個人的了解,我們就可以預測他的狀態(tài)。有很多辦法,都需要某種形式的迭代,對應不同人的不同節(jié)點之間都可能會產生多次的交流概率信息,直到針對每個人的風險能夠達成一個共識。其中的問題就是說,我們也不希望這種接觸包含重要的文件,還有就是所有的這種迭代,你在算力、帶寬方面的成本可能會比較高,這也是需要考慮的。還有就是如果機器學習的預測器足夠簡單的話,另一種做法就是使用聯(lián)合學習,不需要擁有一個中央的訓練服務器,每個人手機上都可以進行預測器的學習和培訓。但是這可能有一個問題就是手機上可能會進行很多迭代、很多的通信,在這個里面,中央服務器和每部手機之間都會有大量的參數(shù)進行交換。我們實驗的這種做法里面,我們是用了混合方法,就是手機之間存在的風險信息流有交流,同時手機和機器學習服務器之間也存在這種數(shù)據和信息的交互,從而能夠進行共享,同時也能更好地訓練風險預測器。手機之間傳遞的信息可以是一個人風險的狀況,可以不斷更新,每個人能夠接收或者發(fā)送這些信息,大概一天可以接收發(fā)送四次?,F(xiàn)在為了能在手機端做預測,我們也需要訓練手機端的預測器,那些同意分享他們數(shù)據的這些人可以通過去識別的方式向服務器來提供自己的數(shù)據,所以數(shù)據并不知道,服務器不知道這些數(shù)據來自誰的手機、手機號碼,姓名都沒有,只知道他的癥狀、感受如何,也知道這個人有沒有測試通過,就是陰性還是陽性。如果做過測試的話,我們一直在說的風險預測器會接收以下的信息輸入,包括調查問卷所填的信息,包含你現(xiàn)在有沒有現(xiàn)有自身的疾病,還有年齡、性別、行為有關的信息,比如說你在外面或者封閉空間里面或者在工作場所有沒有戴口罩,你工作的地方有沒有玻璃擋著,有沒有坐過公共交通工具,你家里住多少人,我們知道的這些都有可能會影響你有沒有受感染的一種因素。包括在過去的14天里面,每個數(shù)據你能不能提供這些信息、癥狀的信息,還有核酸檢測報告的測試結果信息,還有你白天和多少人接觸過、接觸多久、相隔多長距離,有沒有混合接觸,還有當一個人發(fā)短信的時候,我們就可以知道這個人的風險水平是多少,這個數(shù)據有一個問題,它是一個可變抄錄的輸入,根據你接觸的數(shù)量,你的預測器輸入的數(shù)量也會不同,這就意味著需要有很多不同的機器學習算法,標準的算法無法處理這些問題了,但是還是有辦法的,我們需要討論的就是在這個任務里面利用變換器。
現(xiàn)在還有一個重要的問題就是預測的目標是什么,訓練這些機器的目的為了什么。這里面有一個重要的問題就是一個人向另一個人應該發(fā)什么信息呢?比如說艾麗斯在5天之前碰到鮑勃了,然后現(xiàn)在發(fā)現(xiàn)被感染了,應該給鮑勃發(fā)什么信息呢?我覺得最有用的、最相關的信息就是評估一下,艾麗斯在5天前遇到鮑勃的時候的傳染力有多少,要有一個估計。我們想做的就是我們想要預測每一個人在過去14天里面的每一天,他們的傳染力有多強,然后這些信息就可以發(fā)給他們在過去14天里面所見的所有人。
現(xiàn)在關于這種風險預測器它的目標是什么,我們其實本身并不知道傳染力是什么,我們只有類似測試結果的代理信息,所以我們也并不一定確認如何確定正確的一個訓練目標,而且即使測試結果里面也有假陽性、假陰性的,所以沒有一個真正的分析解決方案來找到一個進行預測的目標。幸運的就是,在機器學習中間有一些基于潛在變量的方法用于處理這個問題。
首先提醒大家,我們考慮了一個情況就是我們沒有辦法看到完整的一個人的接觸圖表,但是我們有一些相關的信息,我們每個人的每部手機上都存有相關的客流信息,從每部手機的角度來看都有一個小小的圖形模型描述了不同變量之間的因果關系。我們觀察到其中的一些,另外的一些是潛在的,也就是觀察不到的、潛伏的。現(xiàn)在對應不同的接觸的不同變量組織有聯(lián)系,我們知道一個人在于他見過誰之間接觸的風險程度,我們有部分的信息可以去耦合所有的迷你圖形,而且我們可以利用可用的信息來進行訓練。換句話說,介于我們已經觀察到的東西,我們想通過他們來預測那些還沒有觀察到的東西,在預測的空間里面,我們將會將自己限制在可用信息的預測之上。
這里面一個重要組成部分就是深層模型,我們建立它的目的是為了捕捉個體層面的信息,他們是如何通過移動的,如何通過信息進行傳染感染的,他們的病情是如何根據現(xiàn)已知的醫(yī)療信息變化來進行改變的。我們也調整了模擬器,讓它關于人們流動性的已知的統(tǒng)計數(shù)據和醫(yī)療數(shù)據保持一致,我們用這個做法做了一些實驗之后,我們發(fā)現(xiàn)在頂部可以看到案例的數(shù)量,在不同情況下的一個累積數(shù)量,我們發(fā)現(xiàn)使用人工智能的系統(tǒng)可以大幅減少病例的數(shù)量,把它和使用標準數(shù)字跟蹤的方法相比會減少病例的數(shù)量,這可以得到減少,我們最終發(fā)現(xiàn)疾病的傳染數(shù)就是R-not,低于1就表示這個疾病會慢慢消失了,所以我們現(xiàn)在已經開始嘗試使用機器學習作為改進標準的兩元的陰或陽的數(shù)字方法,而且我們已經進行了實驗,結果表明如果我們提供早期預警,因為有的時候人們會報告自己的癥狀,把自己癥狀方面的信息在自己感染他們之前就可以發(fā)送給其他的接觸者,這樣的話真的可以大大減少病毒傳播。
(轉載)