一個都不能用？62個AI算法被指存在重大問題，劍橋團隊：都不具有新冠臨床診斷價值

2025China.cn 2021年03月22日

　　2020 年，新冠肺炎肆虐全球。為了能協(xié)助醫(yī)生快速而精確地篩查潛在患者，各國的計算機科學家們發(fā)布了上千種機器學習算法，并聲稱這些算法能根據(jù)胸部 X 光片、CT 圖像診斷或預測新冠肺炎。

　　然而，近日由劍橋大學領銜的一項最新研究卻發(fā)現(xiàn)，這些算法存在著算法偏見和不可重復性等重大問題，并不具有臨床價值。

　　當?shù)貢r間 3 月 15 日，這篇名為 “Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans” 的論文發(fā)表于自然子刊《自然機器智能》(Nature Machine Intelligence)上。

(來源：Nature Machine Intelligence)

　　這項由劍橋大學科學家們領導完成的研究，涵蓋了從 2020 年 1 月 1 日到同年 10 月 3 日內(nèi)所有科學論文和預印本提到的相關機器學習算法。同一時間段內(nèi)，在 BioRxiv、medRxiv 和 arxiv 上刊登的所有手稿以及 EMBASE 和 MEDLINE 的所有條目也被納入了研究范圍。

　　在 2212 篇用機器算法診斷新冠肺炎的論文中，研究人員最終確定了 62 篇質(zhì)量相對較高的論文進行討論，其中 37 篇論文為深度學習算法，23 篇論文為傳統(tǒng)的機器學習算法，2 篇為混合算法。

　　但遺憾的是，由于算法偏見和不可重復性等問題，沒有一個具有潛在的臨床應用價值。

　　論文第一作者、劍橋大學應用數(shù)學和理論物理系博士邁克爾(Michael Roberts)在接受采訪時表示：“任何機器學習算法(的應用價值)都取決于訓練它所使用的數(shù)據(jù)，特別是對于像新冠肺炎這樣的新流行病來說，數(shù)據(jù)的多樣性是至關重要的?！?/FONT>

算法偏見和不可重復性

　　一般來說，算法偏見是指算法在數(shù)據(jù)集構(gòu)建、目標制定與特征選取、數(shù)據(jù)標注等環(huán)節(jié)中產(chǎn)生的信息偏差，導致算法失去公平和準確性。在這項研究中，劍橋大學人員使用 “預測性算法的偏見風險評估工具”(PROBAST)，從參與者、預測因素、結(jié)論和分析等四個方面系統(tǒng)性地評估了 62 個算法的偏見性風險。結(jié)果發(fā)現(xiàn)，有 55 個算法在至少一個方面有較高的算法偏見。

　　拿參與者舉例，研究人員認為從公共數(shù)據(jù)集里獲得的胸部 X 光片和 CT 影像具有選擇性偏見，因為無法確認患者是否真的新冠肺炎呈陽性。又比如，相當一部分算法采用了兒童的相關影像作為 “非新冠肺炎” 對照組。事實上相比于成人，兒童感染新冠肺炎的幾率要小得多。因此這種設計上的偏差會讓算法產(chǎn)生很大的偏見。

　　除了算法偏見以外，算法的性能，也就是預測結(jié)果的可重復性，也是劍橋大學在這項研究中關注的重點之一。一般來說有兩種方法來驗證算法的性能，即內(nèi)部驗證和外部驗證。內(nèi)部驗證是指測試數(shù)據(jù)與開發(fā)數(shù)據(jù)屬于相同來源;外部驗證是指測試數(shù)據(jù)屬于不同來源。研究人員發(fā)現(xiàn)，在 62 篇論文中，有 48 篇只考慮了內(nèi)部驗證，有 13 篇使用了外部測試數(shù)據(jù)集(其中 12 篇使用了真正的外部測試數(shù)據(jù)集，1 篇使用了與訓練算法完全相同的數(shù)據(jù)來進行測試)。

　　對此，論文作者劍橋大學醫(yī)學院博士路德(James Rudd)指出：“在新冠疫情初期，人們對信息的渴求是如此強烈，以至于一些論文無疑是倉促出版的。但是，如果你的算法只是基于一家醫(yī)院的數(shù)據(jù)之上的話，那么它很可能不適用于另一個城市的某家醫(yī)院。這些數(shù)據(jù)需要多樣性，最好是國際化的。否則，當你的機器學習算法被更廣泛地測試時肯定是要失敗的?！?/FONT>

　　在這篇論文中，研究人員特別指出了 “科學怪人數(shù)據(jù)集”(Frankenstein datasets)的問題?！翱茖W怪人數(shù)據(jù)集” 是指從不同的數(shù)據(jù)集合并而成并重新命名分布的數(shù)據(jù)集，這樣的數(shù)據(jù)集涉及到復雜的數(shù)據(jù)來源重復問題。例如，訓練某算法的數(shù)據(jù)集集合了 N 個子集而成，但算法開發(fā)人員沒有意識到其中一個子集還包含了其他子集的成分。這種對數(shù)據(jù)集的重新打包雖然實用，但會不可避免地導致算法在相同或重疊的數(shù)據(jù)集上進行訓練，進而出現(xiàn)問題。

圖 | 用于模型測試的圖像數(shù)量

　　除了算法偏見和預測結(jié)果的不可重復性之外，這些論文的另一個普遍問題是缺乏放射科醫(yī)生和臨床醫(yī)生的參與。羅伯茨認為：“不論你是使用機器學習來預測天氣或研究疾病如何發(fā)展，確保不同領域的專家一起參與并保持溝通是非常重要的，這樣才能專注于研究正確的問題?！?5 點建議

　　毫無疑問，機器學習算法在醫(yī)療方面有著巨大潛力和廣闊的市場前景。在過去的一年間，全球范圍內(nèi)的算法開發(fā)人員也為抗擊新冠肺炎做出了巨大的努力。

　　出于嚴謹?shù)闹螌W態(tài)度，劍橋大學研究人員對 2020 年相關機器算法文獻的系統(tǒng)性問題給出了 5 點建議：

　　(1)用于算法開發(fā)的數(shù)據(jù)使用和常見陷阱;(2)評估被訓練算法;(3)預測模型的可重復性;(4)手稿中的文獻;(5)同行評議過程。

　　其中，他們尤其強調(diào)需要謹慎使用公共數(shù)據(jù)庫。由于數(shù)據(jù)來源和 “科學怪人數(shù)據(jù)集” 的原因，公共數(shù)據(jù)庫會導致高風險的算法偏見。他們認為，算法開發(fā)人員應該著眼于廣泛采用不同人群的統(tǒng)計數(shù)據(jù)，這是一個經(jīng)常被忽視但卻非常重要的偏見性來源。除此之外，外部數(shù)據(jù)的檢驗也必不可少，任何用于診斷或預測的模型都必須足夠穩(wěn)健，以便為目標人群的任意樣本得出可靠結(jié)果。

　　論文還指出，清楚地認識到新冠肺炎檢測相關的人工智能算法與明確的臨床需求之間需求關系是技術轉(zhuǎn)化的關鍵。因此，開發(fā)人工智能算法需要臨床專業(yè)知識和計算機知識的互補，同時也需要高質(zhì)量的醫(yī)療數(shù)據(jù)。

　　盡管研究人員在新冠肺炎 AI 模型中發(fā)現(xiàn)了缺陷，但研究人員表示，通過一些關鍵的修改，機器學習可以成為抗擊這種流行病的強大工具。在未來的臨床場景中，被改進的算法可以更好地被驗證。

　　參考資料：https://www.nature.com/articles/s42256-021-00307-0

　　文章來源于學術頭條，作者劉芳

（轉(zhuǎn)載）

標簽：AI算法

我要反饋