AI 鑒定出了165個新癌癥基因!新研究登上Nature子刊

ainet.cn 2021年04月25日

　　作者 | 劉冰一 編輯 | 青暮

　　德國科學(xué)家Roman Schulte-Sasse等人借助一款深度學(xué)習(xí)軟件，對數(shù)萬個醫(yī)療數(shù)據(jù)集展開分析后，鑒別出了165個可能導(dǎo)致癌癥的新基因。這項發(fā)表在Nature Machine Intelligence上的最新研究為個性化藥物靶向治療以及生物標志物開發(fā)開辟了新前景。

論文鏈接：https://www.nature.com/articles/s42256-021-00325-y

　　癌癥導(dǎo)致細胞失控，癌細胞不斷繁殖并進入組織器官，從而損害人體重要的生命功能。這些細胞通常是由癌癥基因中控制細胞發(fā)育突變的DNA引起的，但是已知的致癌突變基因非常少，這意味著目前表現(xiàn)溫和的其他基因也會導(dǎo)致癌癥，只是暫未被發(fā)現(xiàn)。

　　可用的高通量分子數(shù)據(jù)的增加為癌癥基因的鑒定帶來了計算上的挑戰(zhàn)。遺傳和非遺傳原因均會導(dǎo)致癌癥或腫瘤發(fā)生，因此有必要開發(fā)預(yù)測模型以有效整合不同的數(shù)據(jù)模式。

　　柏林馬克斯·普朗克分子遺傳學(xué)研究所(MPIMG)和亥姆霍茲Zentrum慕尼黑計算生物學(xué)研究所的一組研究人員使用機器學(xué)習(xí)技術(shù)開發(fā)了一種新算法，用于識別165個以前未知的癌癥基因。

　　導(dǎo)致癌癥的突變基因的數(shù)量非常少?；虼虬?又稱“基因敲除”，指對一個結(jié)構(gòu)已知但功能未知的基因，從分子水平上設(shè)計實驗將該基因去除，或用其他相近基因取代，從而觀察推測相應(yīng)基因的功能)會產(chǎn)生突變和拷貝數(shù)變化，還有些基因通過遺傳機制(例如啟動子DNA甲基化或非啟動子)，或者調(diào)節(jié)編碼突變，間接激活或沉默其他基因等不同的途徑將細胞轉(zhuǎn)化為癌細胞。此外，許多基因具有上下文相關(guān)的功能，在某些癌癥中可被反復(fù)突變，而在另一些癌癥中被表觀遺傳改變。

　　顯然，基因失調(diào)已可導(dǎo)致癌癥。所有新近鑒定的基因都與有名的癌癥基因緊密相互作用，并已在細胞培養(yǎng)實驗中顯示出對腫瘤細胞生存至關(guān)重要。

　　1

　　個性化癌癥治療的基礎(chǔ)

　　該算法被稱為“ EMOGI”，這是一種基于圖卷積網(wǎng)絡(luò)的可解釋的機器學(xué)習(xí)方法，該算法可以解釋“基因演變?yōu)榘┌Y基因過程中細胞機制之間的關(guān)系”，預(yù)測癌癥及因網(wǎng)絡(luò)。在不同的PPI網(wǎng)絡(luò)和數(shù)據(jù)集中，EMOGI平均表現(xiàn)比其他方法更準確。

　　正如安娜麗莎·馬西科(Annalisa Marsico)領(lǐng)導(dǎo)的研究團隊在《Nature Machine Intelligence》期刊上所描述的那樣，該研究集成了從患者樣本中生成的數(shù)萬個數(shù)據(jù)集。這些信息除了包含突變的序列數(shù)據(jù)外，還包含有關(guān)DNA甲基化，單個基因的活性以及細胞途徑中蛋白質(zhì)相互作用的信息。在這些數(shù)據(jù)中，深度學(xué)習(xí)算法可檢測導(dǎo)致癌癥發(fā)展的模式和分子原理。

圖注：映射框架的原理圖-數(shù)據(jù)收集和串聯(lián)。

　　理想情況下，我們可以在某個時刻獲得所有癌癥基因的完整圖片，這可能對不同患者的癌癥進展產(chǎn)生不同的影響，”MPIMG研究小組負責人Marsico說道，“這是個性化癌癥治療的基礎(chǔ)。”

　　與傳統(tǒng)的癌癥治療方法(例如化學(xué)療法)不同，個性化治療方法可根據(jù)腫瘤類型精確調(diào)整藥物治療?！澳繕耸菫槊课换颊哌x擇最佳療法，即副作用最少的最有效療法。此外，我們將能夠根據(jù)癌癥的分子特征來識別已經(jīng)處于早期階段的癌癥?！?/FONT>

　　研究中說，只有知道了疾病的原因，我們才能夠有效地抵消或糾正它們，這就是為什么確定盡可能多的誘發(fā)癌癥的機制如此重要的原因。

　　2

　　用AI算法才能找到它們

　　“直到現(xiàn)在，大多數(shù)研究都集中在基因序列的致病性變化上，即細胞的藍圖，” Marsico團隊的博士生，該出版物的第一作者Roman Schulte-Sasse說?！芭c此同時，近年來已經(jīng)變得很明顯，表觀遺傳擾動或基因活性失調(diào)也可能導(dǎo)致癌癥?！?/FONT>

　　這就是為什么研究人員將反映藍圖故障的序列數(shù)據(jù)與代表細胞內(nèi)部事件的信息合并在一起的原因。最初，科學(xué)家們證實突變或基因組片段的倍增確實是癌癥的主要驅(qū)動力。然后，在第二步中，他們找出與實際癌癥驅(qū)動基因不太直接相關(guān)的基因候選物。

　　Schulte-Sasse說：“例如，我們發(fā)現(xiàn)了在癌癥中序列基本不變的基因，但是由于它們調(diào)節(jié)能量供應(yīng)，因此對于其他功能是必不可少的?！?這些基因通過其他方式失控，例如DNA上的化學(xué)變化--甲基化。這些修飾使序列信息完整無缺，但支配著基因的活性。這些基因是有前途的藥物靶標，但由于它們在后臺運行，因此我們只能使用復(fù)雜的算法才能找到它們?！?/FONT>

圖注：雙聚類的基因和特征貢獻圖，揭示了癌癥基因具有獨特的功能特征。

　　3

　　發(fā)現(xiàn)新的火車連接

　　研究人員的新程序在可疑的癌癥基因列表中添加了大量新條目，近年來，這一數(shù)目已增長到700至1,000。只有結(jié)合了生物信息學(xué)分析和最新的人工智能(AI)方法，研究人員才能夠找到隱藏的基因。

　　Schulte-Sasse說：“蛋白質(zhì)和基因的相互作用可以映射為一個數(shù)學(xué)網(wǎng)絡(luò)，稱為圖?！?“你可以把它想象成試圖猜測一個鐵路網(wǎng);每個車站對應(yīng)一個蛋白質(zhì)或基因，它們之間的每個相互作用都是火車連接?！?/FONT>

　　借助深度學(xué)習(xí)，研究人員甚至能夠發(fā)現(xiàn)那些以前未被注意的火車連接。舒爾特-薩斯(Schulte-Sasse)的計算機分析了16種不同癌癥類型的成千上萬種不同的網(wǎng)絡(luò)圖，每個網(wǎng)絡(luò)圖包含12,000至19,000個數(shù)據(jù)點。

圖示：Emogi提取對應(yīng)于對癌癥基因分類重要的子網(wǎng)的PPI網(wǎng)絡(luò)組分。紅色基因名稱表明該基因預(yù)測通過eMogi是癌癥基因，節(jié)點的形狀表明該基因是否已經(jīng)在癌癥基因的數(shù)據(jù)庫中注釋。

　　4

　　不僅限于癌癥

　　數(shù)據(jù)中隱藏了許多有趣的細節(jié)。我們看到的模式取決于特定的癌癥和組織， Marsico說，“我們認為這是腫瘤由不同器官中不同分子機制觸發(fā)的證據(jù)。”

　　研究人員強調(diào)，EMOGI計劃不僅限于癌癥。從理論上講，它可以用來整合各種生物數(shù)據(jù)集并在那里找到模式。Marsico解釋說，“將我們的算法應(yīng)用于收集了多方面數(shù)據(jù)并且基因起著重要作用的類似復(fù)雜疾病可能是有用的，例如乳腺癌、甲狀腺癌，還有糖尿病等疾病?！?/FONT>

　　“我們提出了165個新的癌癥基因，這些基因不一定在反復(fù)變化，但可以與已知的癌癥基因相互作用，技術(shù)顯示這些發(fā)生作用的癌癥細胞與功能喪失篩選中的必需基因相對應(yīng)。我們相信，人工智能方法可以為精密腫瘤學(xué)開辟新的研究途徑，并成為用于預(yù)測其他復(fù)雜疾病的生物標志物。”

　　參考鏈接：https://www.nature.com/articles/s42256-021-00325-y

　　https://www.sciencedaily.com/releases/2021/04/210412142730.htm

（轉(zhuǎn)載）

標簽：AI

我要反饋