siemens x
人工智能

科學(xué)匠人 | 用AI打開生物學(xué)研究的另一扇窗

2025China.cn   2021年01月15日

  編者按:在生物學(xué)研究領(lǐng)域,傳統(tǒng)基于分子、細(xì)胞、生理學(xué)實(shí)驗(yàn)方法進(jìn)行的研究通常被稱作濕實(shí)驗(yàn),如今這些傳統(tǒng)的生物學(xué)方法在某種程度上都遇到了瓶頸,而被稱作干實(shí)驗(yàn)的計(jì)算機(jī)模擬和生物學(xué)相結(jié)合的研究,正在利用 AI、大數(shù)據(jù)等創(chuàng)新手段,為生物學(xué)研究打開了另一扇窗。今天就讓我們一起來看一看三位在微軟亞洲研究院從事計(jì)算生物學(xué)研究的研究員的跨界經(jīng)歷。

  2020年,一場(chǎng)突如其來的新冠疫情讓生物學(xué)與 AI 等技術(shù)的融合進(jìn)一步加速。算力的提升、機(jī)器學(xué)習(xí)等模型的精進(jìn)、大量數(shù)據(jù)的積累,都讓計(jì)算生物學(xué)的研究條件越來越完善,傳統(tǒng)生物學(xué)方法無法解答的問題,可以通過這樣的跨界研究有所突破,因此,計(jì)算生物學(xué)成為了生物學(xué)研究的一個(gè)重要分支。

  早在一兩年前,微軟亞洲研究院就開始涉及計(jì)算生物學(xué)領(lǐng)域,近年來,基于干實(shí)驗(yàn)的生物學(xué)研究已在研究院逐漸起步,研究院里也因此多了幾位生物學(xué)博士。所謂干實(shí)驗(yàn),是與傳統(tǒng)生物學(xué)實(shí)驗(yàn)室的濕實(shí)驗(yàn)相對(duì)應(yīng)的一種研究方式,它不需要在物理層面操作實(shí)際的細(xì)胞、分子等進(jìn)行實(shí)驗(yàn),而是用計(jì)算機(jī)模擬的方式,去做生物學(xué)的實(shí)驗(yàn),甚至預(yù)測(cè)和推論。

  計(jì)算機(jī)科學(xué)和生物學(xué)碰撞出了哪些火花?計(jì)算生物學(xué)的未來發(fā)展是怎樣的?又是什么原因讓越來越多生物學(xué)的人才選擇加入了微軟亞洲研究院?讓我們從三位微軟亞洲研究院計(jì)算生物學(xué)組研究員的故事中來發(fā)現(xiàn)答案吧。

王童

從蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)到分子動(dòng)力學(xué)模擬

  2019年,剛在清華大學(xué)完成博士學(xué)業(yè)的王童直接加入了微軟亞洲研究院。讀博期間,王童從事的就是計(jì)算生物學(xué)這個(gè)交叉學(xué)科的研究,“在計(jì)算生物學(xué)領(lǐng)域除了需要掌握計(jì)算機(jī)、生物學(xué)的知識(shí)外,還會(huì)涉及數(shù)學(xué)、物理等其他學(xué)科”。

  做研究是王童所喜歡的,但在尋找適合的工作環(huán)境時(shí),他發(fā)現(xiàn)不少研究機(jī)構(gòu)都僅聚焦于單一領(lǐng)域的研究,同事們的背景也十分相似,對(duì)于需要跨越多個(gè)學(xué)科的計(jì)算生物學(xué)研究來說,王童感覺缺了點(diǎn)什么?!拔抑宰罱K選擇了微軟亞洲研究院,是因?yàn)檫@里多元化的氛圍和環(huán)境,不僅研究員們來自不同的學(xué)科背景,研究項(xiàng)目也是百花齊放,做研究在這里不會(huì)被設(shè)限?!?/FONT>

  在微軟亞洲研究院的這一年里,王童開啟了從蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),到分子動(dòng)力學(xué)模擬等多個(gè)與蛋白質(zhì)相關(guān)的研究項(xiàng)目。

  從無到有的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

  大自然里為什么會(huì)有生命?生命又為什么如此不同?如此精巧?其中蛋白質(zhì)非常關(guān)鍵,一個(gè)蛋白質(zhì)折疊的潛在構(gòu)象(即結(jié)構(gòu))是一個(gè)天文數(shù)字,但一個(gè)蛋白質(zhì)鏈卻在幾毫秒內(nèi)就能折疊成為一個(gè)精確定義的天然結(jié)構(gòu)。“想要探索蛋白質(zhì)的結(jié)構(gòu),傳統(tǒng)的生物學(xué)方法需要花費(fèi)大量時(shí)間和人力,但隨著如今計(jì)算機(jī)科學(xué)的快速發(fā)展,強(qiáng)大的算力和精巧的算法可以讓蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)更加高效,”王童介紹道。

  傳統(tǒng)的生物學(xué)研究中有一個(gè)基于知識(shí)經(jīng)驗(yàn)的Rosetta框架,可以預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),在過去的二十余年間,研究人員不斷“人工”地為其添磚加瓦。而王童和微軟亞洲研究院機(jī)器學(xué)習(xí)組的同事們則一起在業(yè)界數(shù)據(jù)積累的基礎(chǔ)上開發(fā)了一套蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的深度學(xué)習(xí)框架。該框架可以自監(jiān)督、自適應(yīng)地不斷迭代蛋白質(zhì)的折疊方式,研究人員無需大量生物領(lǐng)域知識(shí),也不需要關(guān)注蛋白質(zhì)底層的生物構(gòu)造,即可預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),大大提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的效率,為傳統(tǒng)框架的緩慢進(jìn)化,帶來了全新的 AI 節(jié)奏。

  從靜到動(dòng)的分子動(dòng)力學(xué)模擬

  在生物濕實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果只能預(yù)測(cè)靜態(tài)解析蛋白質(zhì)分子的空間結(jié)構(gòu),就像獲取人的身份證、檔案、靜態(tài)照片等特征,但正如人是有血有肉、會(huì)各種表情和動(dòng)作,每個(gè)蛋白質(zhì)分子也都是在不斷運(yùn)動(dòng)的,晚上睡覺、白天上班,不同環(huán)境下的分子活動(dòng)也是不同的,需要?jiǎng)討B(tài)地去看待分子變化。而模擬動(dòng)態(tài)變化便是干實(shí)驗(yàn)的優(yōu)勢(shì)所在。

  在微軟亞洲研究院搭建的計(jì)算機(jī)系統(tǒng)中,王童和同事們模擬了在細(xì)胞真實(shí)水環(huán)境下蛋白動(dòng)態(tài)變化的過程等等。擁有強(qiáng)大計(jì)算能力的平臺(tái)支撐起了百萬級(jí)原子的模擬計(jì)算量,數(shù)周就可以完成此前需要十幾年才能完成的工作量,“以前只能模擬局部的構(gòu)象,現(xiàn)在卻可以做到對(duì)整個(gè)蛋白質(zhì)結(jié)構(gòu)的模擬,以及大尺度構(gòu)象轉(zhuǎn)變的過程,”王童說。目前,王童和團(tuán)隊(duì)將該研究應(yīng)用在新冠病毒 SARS-CoV-2 的 S 蛋白上,發(fā)現(xiàn)了其中構(gòu)象轉(zhuǎn)變之間的關(guān)鍵作用和機(jī)理。

  基于計(jì)算生物學(xué)的研究成果,微軟亞洲研究院也希望從分子層研究上幫助創(chuàng)新藥物的研發(fā)。一方面,在分子對(duì)接技術(shù)上做得更準(zhǔn)、更快;另一方面,在分子生成上使用強(qiáng)化學(xué)習(xí)等手段來研究,以探索出前所未有的藥物分子。

  “相信隨著 AI 和計(jì)算機(jī)技術(shù)在生物學(xué)各個(gè)領(lǐng)域的深入應(yīng)用,一定會(huì)對(duì)生命科學(xué)和醫(yī)學(xué)產(chǎn)生越來越深刻的影響,比如基因?qū)Ρ?、基因鑒定就已經(jīng)從之前難以企及的高端技術(shù)進(jìn)入到了尋常百姓的生活中。未來將會(huì)有更多的生物高科技因?yàn)?AI 和計(jì)算而加速普及,”王童表示。

  雖然在微軟亞洲研究院工作僅有一年的時(shí)間,但王童已經(jīng)帶過7位實(shí)習(xí)生了。同學(xué)們的專業(yè)背景各不相同,有生物學(xué)、計(jì)算機(jī)科學(xué)、材料科學(xué)等等,與實(shí)習(xí)生們的跨領(lǐng)域碰撞也讓王童感受到了自己的不斷成長(zhǎng)。在日常與同學(xué)們的交流中,王童會(huì)告訴他們:要相信科學(xué)、相信你所做的研究,這樣才能永葆熱情、持之以恒。而擁有開放的心態(tài),才能讓自己更好地應(yīng)對(duì)未來的不確定性。

鄧攀

免疫學(xué)和腸道微生物組學(xué)

  鄧攀從本科到博士一直都在生物學(xué)專業(yè)“摸爬滾打”,期間她聽到過很多“勸退”生物領(lǐng)域的論調(diào),也考慮過是不是畢業(yè)就“轉(zhuǎn)碼”,但每次跟朋友聊起人體奧秘、自然界的生物運(yùn)行機(jī)制,她都興奮不已。最后,她聽從了內(nèi)心,選擇繼續(xù)從事生物學(xué)的研究工作。

  2020年5月,從康奈爾大學(xué)分子與細(xì)胞生物學(xué)系博士畢業(yè)近兩年之后,鄧攀重新回到了“學(xué)術(shù)圈”,加入了微軟亞洲研究院。她笑稱,自己曾經(jīng)在很多場(chǎng)合都表達(dá)過對(duì)目前這份計(jì)算生物學(xué)研究工作的熱愛,因?yàn)椤斑@個(gè)工作真的使我快樂”,鄧攀表示,“在微軟亞洲研究院做研究相當(dāng)純粹,大家不需要比拼文章數(shù)量,都在做自己內(nèi)心認(rèn)為的真正的科學(xué),這樣一群目標(biāo)一致的人在一起,交流起來特別舒服?!?/FONT>

  “有很多計(jì)算機(jī)科班出身的同事,會(huì)經(jīng)常跑過來跟我交流生物學(xué)知識(shí),他們的提問都異常專業(yè),”鄧攀說。而此時(shí)她也剛好可以跟同事們請(qǐng)教一些前沿 AI 算法或者“實(shí)用調(diào)參”的技術(shù)知識(shí)。當(dāng)看到有同事分享宇宙學(xué)知識(shí)的時(shí)候,她更是驚訝不已,“感覺在這里,只要是有大量數(shù)據(jù)的科學(xué)領(lǐng)域,研究員們就會(huì)想去做出點(diǎn)什么,無論跨界跨到了哪里,有什么挑戰(zhàn),似乎都不是問題?!?/FONT>

  “事實(shí)上,我們目前對(duì)人體很多運(yùn)行機(jī)制都并不了解。我們每個(gè)人都是從肉眼不可見的受精卵成長(zhǎng)成人,從1個(gè)細(xì)胞變成10兆億個(gè)細(xì)胞,細(xì)胞間的功能差異很大,人和人也各不相同,這中間有太多的事情值得去探索,”談起生命健康的研究,鄧攀的激動(dòng)溢于言表。“但是,目前傳統(tǒng)的生物學(xué)方法可能遇到了瓶頸。在這種情況下,把大數(shù)據(jù)和 AI 的方法納入進(jìn)來很有必要。以前用生物學(xué)的方法每次只能看到一點(diǎn)點(diǎn)發(fā)現(xiàn),但如果用計(jì)算的方法,則有可能窺見更大的畫面?!?/FONT>

  鄧攀目前的研究方向主要是免疫學(xué)和腸道微生物組學(xué)。在免疫學(xué)方向上,鄧攀主要做的是T細(xì)胞的研究,以解決獲得性免疫中的免疫細(xì)胞和抗原識(shí)別的問題。事實(shí)上,一個(gè)人體內(nèi)平均有超過100萬種不同的 T 細(xì)胞受體,而全部人群中可能出現(xiàn)的 T 細(xì)胞受體種類高達(dá)10的15次方,多樣性極高、計(jì)算量極大,但這正是 AI 技術(shù)發(fā)揮專長(zhǎng)的舞臺(tái)。在研究過程中,鄧攀參與了微軟與西雅圖一家生物技術(shù)公司的合作項(xiàng)目,旨在通過機(jī)器學(xué)習(xí)等 AI 技術(shù),將 T 細(xì)胞受體語言轉(zhuǎn)換為抗原語言,尋找身體正在對(duì)抗哪些疾病。對(duì)于腸道微生物的研究,其實(shí)也有類似之處,腸道微生物不僅多樣,而且它們相互之間的影響以及對(duì)于人體機(jī)制的影響都相當(dāng)復(fù)雜而隱秘,要找到其中的規(guī)律,必須依賴 AI 技術(shù)的幫忙。

  除此之外,鄧攀還對(duì)基因組學(xué)以及表觀遺傳組學(xué)的研究十分感興趣,但“精力確實(shí)有限”,她也很希望有更多志同道合的小伙伴加入進(jìn)來。

  鄧攀表示,生物學(xué)是一個(gè)發(fā)現(xiàn)性學(xué)科,主要目的是解釋生物體的運(yùn)轉(zhuǎn)機(jī)制,所以生物學(xué)論文更強(qiáng)調(diào)發(fā)現(xiàn)的新穎性;但計(jì)算機(jī)領(lǐng)域則十分強(qiáng)調(diào)方法和思路的創(chuàng)新性,AI 正在倒逼傳統(tǒng)的生物學(xué)領(lǐng)域去思考如何利用大量的數(shù)據(jù)挖掘其中的生物學(xué)洞察。“可以橫跨在計(jì)算機(jī)科學(xué)、生物學(xué)等多個(gè)領(lǐng)域,并游走于不同的研究范式和思維方式之中,讓我在微軟亞洲研究院收獲頗多。”

朱建偉

用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)

  朱建偉的本科專業(yè)是數(shù)學(xué),在中科院計(jì)算所攻讀博士時(shí),他就開始了計(jì)算生物學(xué)的研究,且一做就是5年。博士畢業(yè)后,他也曾猶豫過是否要加入一線互聯(lián)網(wǎng)公司,但與鄧攀一樣,在感受到了“探索生命奧秘”的召喚后,最終朱建偉選擇了繼續(xù)從事研究工作,并于2019年7月加入了微軟亞洲研究院。

  “研究院的工作氛圍和企業(yè)文化非常適合我,研究自由,束縛很少,而且與我的研究興趣也很匹配,”朱建偉表示。

  朱建偉的主要研究方向是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),使用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)殘基之間的距離矩陣,進(jìn)而通過距離約束恢復(fù)三維結(jié)構(gòu)。人體行使各種功能都是由蛋白質(zhì)特定三維結(jié)構(gòu)的功能完成的,蛋白質(zhì)氨基酸總體序列的數(shù)據(jù)量大概有260兆左右,其中只有0.17兆是有結(jié)構(gòu)的,其他序列沒有結(jié)構(gòu)。研究人員的工作就是從蛋白質(zhì)氨基酸序列中去預(yù)測(cè)每個(gè)氨基酸三維坐標(biāo)的空間位置,形成一個(gè)構(gòu)象,進(jìn)而通過這個(gè)結(jié)構(gòu)研究行使的功能。

  朱建偉和團(tuán)隊(duì)通過引入創(chuàng)新方法,在蛋白質(zhì)三維結(jié)構(gòu)的任意兩個(gè)氨基酸之間的距離預(yù)測(cè)中,取得了巨大改進(jìn)。微軟亞洲研究院的研究員們從多序列比對(duì)(Multiple Sequence Alignment,MSA)出發(fā),直接使用大的深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)兩個(gè)氨基酸的距離,與之前先標(biāo)注蛋白質(zhì)屬性、提取相關(guān)特征再預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法相比,大大提高了后續(xù)三維結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率。

  朱建偉介紹道,“計(jì)算機(jī)領(lǐng)域方法的引入,給生物研究提供了全新的思考角度。傳統(tǒng)的生物學(xué)家更偏重于生物的本質(zhì)理論,從問題出發(fā),通過解釋生物體的內(nèi)涵原理來做研究。而從機(jī)器學(xué)習(xí)的角度來看,則是從數(shù)據(jù)出發(fā),利用已有數(shù)據(jù)去發(fā)現(xiàn)問題、解決問題。兩方面相互推動(dòng),可以加快推進(jìn)生物學(xué)的研究。”

  自2017年前后精準(zhǔn)醫(yī)療開始興起,AI+生物也成了業(yè)界熱點(diǎn),尤其是2020年全球受到新冠疫情的沖擊,社會(huì)各界對(duì)相關(guān)領(lǐng)域的關(guān)注度進(jìn)一步提升。在朱建偉看來,未來 AI 技術(shù)除了在生物學(xué)的基礎(chǔ)研究層面可以發(fā)揮更大作用,在衛(wèi)生健康、疾病治療等應(yīng)用層面也將更快見效,像 AI+制藥、AI+生物圖像、AI+診斷結(jié)合、AI+基因檢測(cè),都會(huì)是下一階段的重點(diǎn)。

  在微軟亞洲研究院工作的一年多時(shí)間里,朱建偉表示他最大的收獲是深刻意識(shí)到了團(tuán)隊(duì)協(xié)作的重要性。學(xué)生時(shí)代,朱建偉有點(diǎn)“獨(dú)行俠”的感覺,有了想法就直接去實(shí)踐,但在微軟亞洲研究院他發(fā)現(xiàn),如果閉門造車絕對(duì)是一大損失。“來自不同領(lǐng)域的研究員都有著自己獨(dú)特的想法,共同分享、集思廣益總能給我?guī)碇T多啟發(fā)。而這也讓我更能夠站在對(duì)方的角度思考問題,拓寬思考的維度,”朱建偉說道。

  如何更加有效地利用 AI 技術(shù)促進(jìn)生物學(xué),甚至其它科學(xué)領(lǐng)域的研究,是微軟亞洲研究院的科研人員十分關(guān)心的問題。如果你對(duì)機(jī)器學(xué)習(xí)、計(jì)算生物學(xué)、計(jì)算化學(xué)、計(jì)算物理、高性能計(jì)算等方向感興趣,愿意探索科學(xué)未知領(lǐng)域,歡迎加入微軟亞洲研究院計(jì)算生物學(xué)組!

  文章來源:微軟研究院AI頭條

(轉(zhuǎn)載)

標(biāo)簽:人工智能 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國工博會(huì)于9月24日至28日在國家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]