作者 | 劉冰一 編輯 | 青暮
德國科學(xué)家Roman Schulte-Sasse等人借助一款深度學(xué)習(xí)軟件,對數(shù)萬個醫(yī)療數(shù)據(jù)集展開分析后,鑒別出了165個可能導(dǎo)致癌癥的新基因。這項發(fā)表在Nature Machine Intelligence上的最新研究為個性化藥物靶向治療以及生物標志物開發(fā)開辟了新前景。
論文鏈接:https://www.nature.com/articles/s42256-021-00325-y
癌癥導(dǎo)致細胞失控,癌細胞不斷繁殖并進入組織器官,從而損害人體重要的生命功能。這些細胞通常是由癌癥基因中控制細胞發(fā)育突變的DNA引起的,但是已知的致癌突變基因非常少,這意味著目前表現(xiàn)溫和的其他基因也會導(dǎo)致癌癥,只是暫未被發(fā)現(xiàn)。
可用的高通量分子數(shù)據(jù)的增加為癌癥基因的鑒定帶來了計算上的挑戰(zhàn)。遺傳和非遺傳原因均會導(dǎo)致癌癥或腫瘤發(fā)生,因此有必要開發(fā)預(yù)測模型以有效整合不同的數(shù)據(jù)模式。
柏林馬克斯·普朗克分子遺傳學(xué)研究所(MPIMG)和亥姆霍茲Zentrum慕尼黑計算生物學(xué)研究所的一組研究人員使用機器學(xué)習(xí)技術(shù)開發(fā)了一種新算法,用于識別165個以前未知的癌癥基因。
導(dǎo)致癌癥的突變基因的數(shù)量非常少?;虼虬?又稱“基因敲除”,指對一個結(jié)構(gòu)已知但功能未知的基因,從分子水平上設(shè)計實驗將該基因去除,或用其他相近基因取代,從而觀察推測相應(yīng)基因的功能)會產(chǎn)生突變和拷貝數(shù)變化,還有些基因通過遺傳機制(例如啟動子DNA甲基化或非啟動子),或者調(diào)節(jié)編碼突變,間接激活或沉默其他基因等不同的途徑將細胞轉(zhuǎn)化為癌細胞。此外,許多基因具有上下文相關(guān)的功能,在某些癌癥中可被反復(fù)突變,而在另一些癌癥中被表觀遺傳改變。
顯然,基因失調(diào)已可導(dǎo)致癌癥。所有新近鑒定的基因都與有名的癌癥基因緊密相互作用,并已在細胞培養(yǎng)實驗中顯示出對腫瘤細胞生存至關(guān)重要。
1
個性化癌癥治療的基礎(chǔ)
該算法被稱為“ EMOGI”,這是一種基于圖卷積網(wǎng)絡(luò)的可解釋的機器學(xué)習(xí)方法,該算法可以解釋“基因演變?yōu)榘┌Y基因過程中細胞機制之間的關(guān)系”,預(yù)測癌癥及因網(wǎng)絡(luò)。在不同的PPI網(wǎng)絡(luò)和數(shù)據(jù)集中,EMOGI平均表現(xiàn)比其他方法更準確。
正如安娜麗莎·馬西科(Annalisa Marsico)領(lǐng)導(dǎo)的研究團隊在《Nature Machine Intelligence》期刊上所描述的那樣,該研究集成了從患者樣本中生成的數(shù)萬個數(shù)據(jù)集。這些信息除了包含突變的序列數(shù)據(jù)外,還包含有關(guān)DNA甲基化,單個基因的活性以及細胞途徑中蛋白質(zhì)相互作用的信息。在這些數(shù)據(jù)中,深度學(xué)習(xí)算法可檢測導(dǎo)致癌癥發(fā)展的模式和分子原理。
圖注:映射框架的原理圖-數(shù)據(jù)收集和串聯(lián)。
理想情況下,我們可以在某個時刻獲得所有癌癥基因的完整圖片,這可能對不同患者的癌癥進展產(chǎn)生不同的影響,”MPIMG研究小組負責人Marsico說道,“這是個性化癌癥治療的基礎(chǔ)。”
與傳統(tǒng)的癌癥治療方法(例如化學(xué)療法)不同,個性化治療方法可根據(jù)腫瘤類型精確調(diào)整藥物治療?!澳繕耸菫槊课换颊哌x擇最佳療法,即副作用最少的最有效療法。此外,我們將能夠根據(jù)癌癥的分子特征來識別已經(jīng)處于早期階段的癌癥?!?/FONT>
研究中說,只有知道了疾病的原因,我們才能夠有效地抵消或糾正它們,這就是為什么確定盡可能多的誘發(fā)癌癥的機制如此重要的原因。
2
用AI算法才能找到它們
“直到現(xiàn)在,大多數(shù)研究都集中在基因序列的致病性變化上,即細胞的藍圖,” Marsico團隊的博士生,該出版物的第一作者Roman Schulte-Sasse說?!芭c此同時,近年來已經(jīng)變得很明顯,表觀遺傳擾動或基因活性失調(diào)也可能導(dǎo)致癌癥?!?/FONT>
這就是為什么研究人員將反映藍圖故障的序列數(shù)據(jù)與代表細胞內(nèi)部事件的信息合并在一起的原因。最初,科學(xué)家們證實突變或基因組片段的倍增確實是癌癥的主要驅(qū)動力。然后,在第二步中,他們找出與實際癌癥驅(qū)動基因不太直接相關(guān)的基因候選物。
Schulte-Sasse說:“例如,我們發(fā)現(xiàn)了在癌癥中序列基本不變的基因,但是由于它們調(diào)節(jié)能量供應(yīng),因此對于其他功能是必不可少的?!?這些基因通過其他方式失控,例如DNA上的化學(xué)變化--甲基化。這些修飾使序列信息完整無缺,但支配著基因的活性。這些基因是有前途的藥物靶標,但由于它們在后臺運行,因此我們只能使用復(fù)雜的算法才能找到它們?!?/FONT>
圖注:雙聚類的基因和特征貢獻圖,揭示了癌癥基因具有獨特的功能特征。
3
發(fā)現(xiàn)新的火車連接
研究人員的新程序在可疑的癌癥基因列表中添加了大量新條目,近年來,這一數(shù)目已增長到700至1,000。只有結(jié)合了生物信息學(xué)分析和最新的人工智能(AI)方法,研究人員才能夠找到隱藏的基因。
Schulte-Sasse說:“蛋白質(zhì)和基因的相互作用可以映射為一個數(shù)學(xué)網(wǎng)絡(luò),稱為圖?!?“你可以把它想象成試圖猜測一個鐵路網(wǎng);每個車站對應(yīng)一個蛋白質(zhì)或基因,它們之間的每個相互作用都是火車連接?!?/FONT>
借助深度學(xué)習(xí),研究人員甚至能夠發(fā)現(xiàn)那些以前未被注意的火車連接。舒爾特-薩斯(Schulte-Sasse)的計算機分析了16種不同癌癥類型的成千上萬種不同的網(wǎng)絡(luò)圖,每個網(wǎng)絡(luò)圖包含12,000至19,000個數(shù)據(jù)點。
圖示:Emogi提取對應(yīng)于對癌癥基因分類重要的子網(wǎng)的PPI網(wǎng)絡(luò)組分。紅色基因名稱表明該基因預(yù)測通過eMogi是癌癥基因,節(jié)點的形狀表明該基因是否已經(jīng)在癌癥基因的數(shù)據(jù)庫中注釋。
4
不僅限于癌癥
數(shù)據(jù)中隱藏了許多有趣的細節(jié)。我們看到的模式取決于特定的癌癥和組織, Marsico說,“我們認為這是腫瘤由不同器官中不同分子機制觸發(fā)的證據(jù)。”
研究人員強調(diào),EMOGI計劃不僅限于癌癥。從理論上講,它可以用來整合各種生物數(shù)據(jù)集并在那里找到模式。Marsico解釋說,“將我們的算法應(yīng)用于收集了多方面數(shù)據(jù)并且基因起著重要作用的類似復(fù)雜疾病可能是有用的,例如乳腺癌、甲狀腺癌,還有糖尿病等疾病?!?/FONT>
“我們提出了165個新的癌癥基因,這些基因不一定在反復(fù)變化,但可以與已知的癌癥基因相互作用,技術(shù)顯示這些發(fā)生作用的癌癥細胞與功能喪失篩選中的必需基因相對應(yīng)。我們相信,人工智能方法可以為精密腫瘤學(xué)開辟新的研究途徑,并成為用于預(yù)測其他復(fù)雜疾病的生物標志物。”
參考鏈接:https://www.nature.com/articles/s42256-021-00325-y
https://www.sciencedaily.com/releases/2021/04/210412142730.htm
(轉(zhuǎn)載)