人工智能

【智算芯聞】材料科學邁向AI4Materials的關鍵因素:密度泛函理論、GPGPU與人工智能(下)

ainet.cn   2025年01月09日

摘要

近年來,人工智能 (Artificial Intelligence,AI) 在各個領域展現(xiàn)出強大的能力,而人工智能與材料科學的融合有望大幅加速功能材料的研發(fā)。無論是高通量材料模擬計算還是人工智能算法在材料科學數(shù)據(jù)的訓練與推理過程中的應用,在通用顯卡 (General-Purpose Computing on Graphics Processing Units,GPGPU) 的加持下都將如虎添翼。在上篇中,我們介紹了第一性原理密度泛函理論的發(fā)展歷程、常用的材料模擬軟件以及材料基因組計劃,突顯了GPGPU在材料模擬中的重要性。對于AI4Materials (AI for Materials),材料數(shù)據(jù)庫的數(shù)量和質(zhì)量,以及如何把AI算法與材料科學有機地結合起來,都是十分重要的。作為人工智能在材料科學中使用的“養(yǎng)料”:晶體材料數(shù)據(jù),其可靠性與數(shù)據(jù)量是人工智能算法應用的先決條件。盡管材料模擬計算數(shù)據(jù)庫在近幾年得到了長足的發(fā)展,但對于大體系材料的模擬仍然是材料模擬計算的瓶頸所在。隨著AI算法與GPGPU的入場,這一局面不斷被突破。接下來我們將著重介紹AI4Materials中的晶體材料數(shù)據(jù)庫及人工智能算法的發(fā)展與應用,最后對本文進行總結和展望。

01

晶體材料數(shù)據(jù)庫

隨著大量實驗數(shù)據(jù)的積累、理論模擬計算以及計算機技術的不斷發(fā)展,材料大數(shù)據(jù)也為新型功能材料的預測與發(fā)展帶來了新機遇。經(jīng)過幾十年的發(fā)展,科學家們建立了多種材料數(shù)據(jù)庫,其中早期的材料數(shù)據(jù)庫主要是來源于實驗數(shù)據(jù)資料,例如,劍橋結構數(shù)據(jù)庫 (Cambridge Structural Database, CSD) [1–3]主要包括有機小分子材料,以及作為對CSD補充的無機晶體材料結構數(shù)據(jù)庫 (Inorganic Crystal Structure Database,ICSD) [4–7]等。CSD由英國劍橋大學的Kennard等人于1965年建立,現(xiàn)在包含超過百萬條文獻中的記錄,包括有機分子結構和金屬有機分子晶體三維結構的數(shù)據(jù),如原子坐標和化學鍵等信息。這些數(shù)據(jù)對化學反應、分子構型和晶體學等方面的研究具有非常重要的意義。ICSD自從1983年由德國波恩大學的Bergerhoff等人創(chuàng)建以來,截至2024年1月24日,已經(jīng)積累了291000條無機晶體結構信息,包括晶體結構、化學式、對稱性和參考文獻等,而且這些數(shù)據(jù)都會經(jīng)過多次維護和評審,以確保數(shù)據(jù)的可靠性和高質(zhì)量,即使是較久的晶體結構數(shù)據(jù)也不是一成不變的,也會被修改、補充和更新。這些可靠的基于實驗和文獻報道的材料數(shù)據(jù)庫為后續(xù)基于高通量計算模擬構建包含材料結構和性能的數(shù)據(jù)庫提供了重要的材料結構“原料”。

美國提出的材料基因工程理念,形成了材料數(shù)據(jù)庫新的發(fā)展方向,各種基于高通量理論模擬計算的材料數(shù)據(jù)庫不斷建立和發(fā)展,例如,材料項目數(shù)據(jù)庫 (Materials Project,MP) [8]、自動化流程材料數(shù)據(jù)庫 (Automatic-Flow for Materials Discovery Library,AFLOWlib) [9]、開放量子材料數(shù)據(jù)庫 (Open Quantum Materials Database,OQMD) [10]等,如圖 1所示。

國內(nèi)的MatCloud高通量材料集成設計平臺也具有相似的工作機制,通過調(diào)用VASP或CASTEP等第一性原理軟件在超級計算機上進行大批量計算,再將相應的計算結果保存到數(shù)據(jù)庫中,最終通過大數(shù)據(jù)分析來指導新材料設計。另一個國內(nèi)材料數(shù)據(jù)庫的典型代表之一,Atomly晶體材料數(shù)據(jù)庫,是由中科院物理研究所特聘研究員劉淼領導開發(fā),其曾是Materials Project的開發(fā)成員之一,2018年加入物理所,專注于材料數(shù)據(jù)庫開發(fā)和基于數(shù)據(jù)的材料研發(fā),并建設一套源自物理所的無機晶體材料計算數(shù)據(jù)庫:Atomly.net。Atomly數(shù)據(jù)庫包含了接近40萬個無機晶體材料的第一性原理計算結果(包含電子結構信息:DOS + energy bands),數(shù)據(jù)的數(shù)量和質(zhì)量已經(jīng)和其它世界知名數(shù)據(jù)庫比肩,如圖 1所示。

基于高通量的研究模式已經(jīng)成為篩選和設計功能材料的強有力工具和方法[11]。通過高通量計算可以快速、高效地篩選出具有潛在功能的材料[12]。通常,從理論上利用高通量方法研究功能材料可以分為兩種,(1)從頭高通量計算,從材料結構出發(fā)結合理論計算模型高通量計算材料目標功能性質(zhì);(2)高通量篩選,在材料數(shù)據(jù)庫中根據(jù)所需功能材料相關的篩選條件,實現(xiàn)對功能材料的快速篩選。第一種方法常用來構建可靠的材料數(shù)據(jù)庫,可以計算材料數(shù)據(jù)庫中不存在的結構。第二種方法常用來在第一種方法得到的數(shù)據(jù)庫中,基于特定條件的限制,比如化學組分、穩(wěn)定性、結構特征等,從龐大的搜索空間中通過特定的篩選條件選擇和預測具有目標功能的材料。基于高通量的方法在很多材料科學研究中都得到了廣泛的應用,例如,金屬有機框架[13,14],透明導電材料[15,16],鋰電池材料[17]等。

圖 1 典型的晶體材料數(shù)據(jù)庫

02

GPGPU加速大體系材料高精度模擬計算

通過前面的介紹可知,在集成高通量計算的材料數(shù)據(jù)庫中,快速、精確模擬計算材料性質(zhì)是非常迫切需要的。由于第一性原理計算的高精度和算法復雜性,長期以來,其計算的空間尺度和時間尺度(第一性原理分子動力學)受算力和算法限制。如何在保證精確度的前提下突破這一限制,提高材料體系的規(guī)模是目前研究者們不斷探索的方向。

2020年,由中美合作的研究小組(包括來自 UC Berkeley 的博士后賈偉樂、副教授林霖,北京應用物理與計算數(shù)學研究所計算物理實驗室的研究員王涵,北京大學助理教授陳默涵,北京大學研究生路登輝,普林斯頓大學化學系教授 Roberto Car、數(shù)學教授鄂維南以及普林斯頓大學數(shù)學系和化學系博士張林峰,如圖2所示)摘得戈登貝爾獎,他們使用科學計算+AI+Physical model結合的方法,通過機器學習,將具有第一性原理精度的分子動力學模擬的極限提升至上億個原子的體系規(guī)模,同時又確保了第一性原理計算的高精確度,且模擬時間尺度相較于傳統(tǒng)方法至少提高了1000倍[18]。該團隊開發(fā)的高度優(yōu)化的代碼 (GPU Deep MD-Kit) 所代表的科學計算+AI+Physical model結合的方法勢必會在力學、化學、材料、生物甚至工程領域解決實際問題中發(fā)揮更大作用。

2023年,Sambit Das、Bikash Kanungo、Vishal Subramanian 等人(共八位作者,如圖 2所示,他們分別來自于密歇根大學、印度科學研究所和橡樹嶺國家實驗室)實現(xiàn)了量子精度的大規(guī)模材料建模: 金屬合金中的準晶體和相互作用擴展缺陷的第一性原理模擬,并最終獲得2023年的戈登貝爾獎[19](此前,2019年該團隊模擬了1萬多個鎂原子也獲得了戈登貝爾獎的提名)。在這項工作中,團隊開發(fā)了一種混合方法,利用機器學習技術將密度函數(shù)理論和量子多體 (Quantum many-body, QMB) 問題結合起來,其核心思想是,量子多體計算出的精確結果作為訓練集,使用多層神經(jīng)網(wǎng)絡模型去訓練和擬合出其中的交換關聯(lián)能部分,并接入到密度泛函理論中,這種方法大大增加了密度泛函理論的精確度以及計算速度。他們實現(xiàn)了復雜鎂釔 (Mg-Y) 合金體系的基態(tài)能量,同時保持了QMB的精確度。

基于第一性原理計算的材料模擬能夠精確地預測材料中的電子行為和特征,因此在材料科學領域占據(jù)非常重要的地位。然而隨著材料體系的增加,其計算量也不斷增大(體系越大,材料模擬越能預測現(xiàn)實條件下的真實體系的性質(zhì)),通過第一性原理模擬計算大體系材料性質(zhì)所需的計算資源是十分昂貴的。近年來,隨著GPGPU的快速發(fā)展以及AI算法在材料模擬中的應用,材料模擬的體系不斷突破,因此,在GPGPU和AI的加持下,大體系材料的高精度材料模擬計算已經(jīng)成為戈登貝爾獎的常客。

2020年戈登貝爾獎獲獎團隊(張林峰制圖)

2023年戈登貝爾獎獲獎團隊

圖 2 2020年和2023年的戈登貝爾獎獲獎團隊

03

人工智能算法在材料科學中的應用

基于ML的材料發(fā)現(xiàn)和設計的一般工作流程[20],如圖 3所示,一般需要四個主要步驟:

01

數(shù)據(jù)收集和預處理

第一步是從開放共享的數(shù)據(jù)庫或者自行生成的數(shù)據(jù)中獲得合適的目標數(shù)據(jù)。研究人員需要獲取并整理與他們感興趣的材料屬性相關的數(shù)據(jù)。

02

特征工程

第二步是通過收集或構建與預測目標相關的特征,來構建目標數(shù)據(jù)的描述符或特征集。這些特征是用來描述材料的各種性質(zhì)和特征,有助于機器學習模型更好地理解和預測材料性能。

03

模型選擇和訓練

第三步是使用各種統(tǒng)計方法,例如簡單線性回歸、非線性回歸、高斯回歸和神經(jīng)網(wǎng)絡等,來構建描述符和目標屬性之間的模型,這些模型能夠基于已知的數(shù)據(jù)來快速預測未知數(shù)據(jù)的性能或特性。

04

模型評估和優(yōu)化

在最后一步中,通過基于計算的測試來評估模型的泛化誤差,即模型在新數(shù)據(jù)上的表現(xiàn)。評估結果用于對模型進行優(yōu)化,以提高其預測性能、準確性以及泛化性能。

圖 3 材料科學中機器學習的一般流程

圖片來源于文獻[20]

3.1

材料工程特征

把人工智能與材料科學結合起來的第一步是構建材料描述符,通常也叫做材料指紋,這個過程也叫做材料的特征工程[21]。通常一個好的分子或晶體結構描述符需要滿足唯一性、平移不變性、旋轉不變性、排列不變性等。材料結構的描述符通??煞譃閮蓚€部分:

01

元素周期表中元素的基礎化學性質(zhì)和元素單質(zhì)的物理性質(zhì),其中包括原子序數(shù)、原子質(zhì)量、周期和族數(shù)、第一電離能、第二電離能、電子親和力、Pauling電負性、Allen電負性、原子Vdw半徑、共價半徑、原子半徑、s軌道的贗勢半徑、p軌道的贗勢半徑、熔點、沸點、密度、摩爾體積、熔化熱、汽化熱、熱導率、比熱等[22]。

02

材料結構特征描述,例如,基于庫侖矩陣(Coulomb Matrix,CM)[23],原子徑向分布(Radial distribution function)[24]、SOAP (Smooth overlap of atomic positions)[21]、MBTR (Many-body tensor representation)[25]等方法。

通過人工特征工程結合機器學習方法能夠?qū)崿F(xiàn)對材料性質(zhì)的快速預測。Rupp等人[23]提出利用元素特征中的質(zhì)子和分子中原子徑向相對位置構成的庫侖矩陣來描述分子材料,并成功預測分子性質(zhì)。但是這種方法并沒有包含結構信息,因此為了進一步考慮每個原子周圍的徑向分布,Schütt等人[24]提出了稀疏徑向分布函數(shù)描述符 (Partial radial distribution function,PRDF),如圖 4(a)所示,并利用核嶺回歸 (Kernel ridge regression,KRR) 方法預測材料的費米能級處的電子態(tài)密度。Seko等人[26]提出一種基于原子徑向分布的材料描述符,廣義徑向分布函數(shù)描述符 (Generalized radial distribution function ,GRDF) ,不同于PRDF,如圖 4(b)所示,GRDF綜合考慮多種徑向基組函數(shù),高斯基組、cosine基組、Bessel基組、Neumann基組和高斯類軌道基組函數(shù),結合LASSO回歸算法[27,28],能夠非常準確預測地Hcp-Mg的勢能面,其均方根誤差僅為0.9 meV/atom,而且基于此勢能面計算的聲子譜與基于第一性原理計算的結果非常接近。

圖 4(a)稀疏徑向分布函數(shù)描述符(PRDF)示意圖[24];(b)基于廣義徑向分布函數(shù)描述符(GRDF)線性回歸擬合勢能面的流程示意圖[26]

3.2

圖神經(jīng)網(wǎng)絡在材料科學的應用

晶體材料的球棍模型可以很自然地用圖 (Graph) 來描述,而不需要復雜的人工特征工程構建[29]。隨著圖神經(jīng)網(wǎng)絡 (Graph Neural Network) 方法的發(fā)展[30,31],以及圖卷積方法在材料圖描述中的合理性和有效性引起學者們的廣泛關注,其在材料科學領域也展現(xiàn)出巨大的潛力[32,33]。2018年,Xie和Grossman首次提出利用晶體圖卷積神經(jīng)網(wǎng)絡[34]直接從晶體中原子的連接中學習和預測晶體材料性質(zhì)。如圖 5(a)所示,他們的方法首先構建晶體結構的圖描述,其中晶體結構圖描述中的節(jié)點和邊分別用晶胞中的原子和原子之間的鍵來表示,然后在圖中構建圖卷積層、全連接層和池化層,以預測晶體材料的目標性質(zhì),包括形成能、彈性力學、電子帶隙等。MP數(shù)據(jù)庫中的74466種晶體材料作為圖卷積神經(jīng)網(wǎng)絡的數(shù)據(jù)集,首先他們構建一個簡單的圖卷積函數(shù),其中每個原子的所有鄰接原子共享同一個權重矩陣,導致預測形成能的平均絕對誤差 (Mean Absolute Error, MAE) 為0.108 eV/atom。然而,這種圖卷積方法忽略了鄰接原子之間相互作用強度的差異,因此他們設計了一種新的圖卷積函數(shù),以學習權重矩陣的形式考慮了原子間相互作用強度,這大大降低了預測形成能的MAE,0.039 eV/atom,并把這種方法命名為CGCNN模型。隨后,他們繼續(xù)用CGCNN來預測MP材料數(shù)據(jù)庫中其他DFT計算的屬性,例如絕對能量、帶隙、費米能量、體積模量、剪切模量和泊松比,都取得了較高的預測精度。CGCNN模型除了具有很高的預測精度外,這種框架還在一定程度上提供了模型的可解釋性。

隨后,MP項目組的Chen等人[35]提出了一種用于分子和晶體結構性質(zhì)預測的通用圖神經(jīng)網(wǎng)絡框架,如圖 5(b)所示。其中,進一步在圖卷積過程中加入可學習的節(jié)點特征、邊特征和全局特征。這種方法進一步提高了圖卷積神經(jīng)網(wǎng)絡在分子和晶體結構性質(zhì)預測方面的精度。而且,根據(jù)MEGNet模型中通過在預測形成能學習到的元素嵌入特征結合遷移學習方法,能夠進一步提高具有較小數(shù)據(jù)量的帶隙和彈性模量的預測精度。

隨著對圖神經(jīng)網(wǎng)絡的研究逐漸深入,越來越多的學者注意到,晶體或者分子結構中的圖連接不僅原子間的距離是重要的,角度信息也同樣十分重要,許多重要的材料的性質(zhì)(尤其是與帶隙相關的電子性質(zhì))與鍵角以及局部的空間對稱性密切相關[36–39]。對包含鍵角的研究逐漸引起研究者們的興趣,因此延伸出更多的包含角度信息的圖卷積方法。Park等人[40]在CGCNN的基礎上,提出用Voronoi多面體中角度、面積和體積等特征來豐富對空間距離和角度分布的描述,增加了多體相互作用的信息,其比最初的CGCNN模型提高了對材料性質(zhì)的預測精度。Choudhary等人[41]在邊的特征不僅用距離描述,而且增加了鍵角的描述,如圖 5(c)所示,增加了原子線型圖描述,其中圖的節(jié)點對應于原子之間的成鍵,而邊對應于原子成鍵之間的鍵角;并提出ALIGNN模型實現(xiàn)了在這兩種圖卷積之間交替進行,把原子之間鍵角的信息傳遞到原子特征更新中,有效地更新原子和成鍵的特征表示,從而提高圖卷積模型的預測性能。其中邊的初始特征(距離和鍵角)通過徑向基函數(shù)進行展開。隨后,Hsu等人[42]在ALIGNN模型的基礎上進一步考慮了二面角的信息提出了ALIGNN-d模型,其能夠完整地描述具有復雜幾何特征的原子周圍局部環(huán)境信息,例如手性、扭曲、無序構型等,并用于材料光譜性質(zhì)的預測。隨著研究者們對材料科學中圖神經(jīng)網(wǎng)絡的研究不斷深入,具有更多特性的圖卷積神經(jīng)網(wǎng)絡方法被發(fā)展和應用[43–47]。

圖5 典型的晶體圖卷積神經(jīng)網(wǎng)絡模型(a)晶體結構圖描述及CGCNN模型框架[34](b)包含全局信息特征的MEGNet模型流程示意圖[35](c)考慮鍵角信息的ALIGNN模型[41]

2023年,谷歌的DeepMind團隊根據(jù)主動學習(Active learning)、NequIP (Neural Equivariant Interatomic Potentials) 圖神經(jīng)網(wǎng)絡[46],以及密度泛函理論 (DFT) 計算,開發(fā)了新材料晶體結構預測模型框架GNoME[48],如圖 6所示。通過該框架,他們成功預測了220萬個穩(wěn)定的晶體材料,其中38.1萬個為Materials Project數(shù)據(jù)庫中未曾出現(xiàn)的新材料,具有成為未來科技變革材料的潛在可能性。而且,在這些新材料中,有736種與文獻報道的實驗上合成的穩(wěn)定材料一致,這進一步驗證了GNoME的有效性。

GNoME的訓練過程使用Materials Project材料數(shù)據(jù)庫中的晶體材料數(shù)據(jù),并借助NequIP模型評估晶體材料的穩(wěn)定性,NequIP模型如圖 6(a)所示。GNoME采用兩種方法(或稱為兩個通道)生成新材料,如圖 6(b)所示,(1)通過對稱性在已知晶體構型中進行元素替換,利用訓練好的NequIP模型預測其穩(wěn)定性;(2)通過從頭隨機結構搜索(ab initio Random Structure Searching, AIRSS[49])的方式生成新材料,每個化學組分生成100個隨機結構,其穩(wěn)定性同樣通過NequIP圖神經(jīng)網(wǎng)絡進行預測,且能量限制在50 meV以內(nèi)。因此,GNoME根據(jù)主動學習進行材料設計的流程可分成4個步驟:

01

生成較為穩(wěn)定的結構,包括對稱性替換和AIRSS生成的隨機結構,均通過NequIP圖神經(jīng)網(wǎng)絡模型預測其穩(wěn)定性。

02

對于這些較為穩(wěn)定的構型,采用VASP進行嚴格的密度泛函理論計算以確保結果準確性,并將結構優(yōu)化過程的數(shù)據(jù)保存到GNoME材料數(shù)據(jù)集中。

03

根據(jù)更新后的GNoME材料數(shù)據(jù)集進一步訓練NequIP圖神經(jīng)網(wǎng)絡模型。

04

回到第1步,并重復上述過程,直到達到收斂條件。

圖 6 (a)NequIP圖神經(jīng)網(wǎng)絡示意圖[46](b)GNoME框架流程示意圖[48](c)GNoME生成的材料數(shù)據(jù)分布

在這項工作中,DeepMind團隊共進行了6次主動學習過程,取得了顯著的效果。對于未經(jīng)過主動學習過程的模型(初始模型),GNoME模型中的兩種方法生成穩(wěn)定結構的命中率分別是<6%和<3%,同時,與密度泛函理論計算結果相比,NequIP圖神經(jīng)網(wǎng)絡模型預測能量的MAE為21 meV/atom,而經(jīng)過6次主動學習之后,GNoME模型的上下兩個通道對穩(wěn)定結構的命中率分別提升到>80%和>33%,NequIP圖神經(jīng)網(wǎng)絡模型預測能量的MAE降低到了11 meV/atom。

由于GNoME主動學習框架提高了對穩(wěn)定材料預測的命中率,并且提高了圖神經(jīng)網(wǎng)絡對能量的預測精度,因此,這項工作成功發(fā)現(xiàn)了大量穩(wěn)定的新結構,如圖 6(c)所示,在GNoME預測的220萬個材料中,有42.1萬個穩(wěn)定材料在能量凸包 (Convex hull) 邊界上,其中,4萬個能夠在MP數(shù)據(jù)庫中找到,38.1萬個是新發(fā)現(xiàn)的穩(wěn)定材料,這意味著這些新材料是非常有可能在實驗上制備出來。

更進一步,勞倫斯伯克利國家實驗室 (Lawrence Berkeley National Laboratory) 與DeepMind團隊攜手合作,在《Nature》上與GNoME同期發(fā)表了一項關于自動化合成無機固體材料實驗室平臺 (A-Lab) 的工作[50],A-Lab采用了自動化實驗裝置(如圖 7(a)所示),其合成路徑是根據(jù)自然語言模型結合主動學習算法進行自動設計。在為期17天的連續(xù)實驗中,A-Lab成功合成了58個目標材料中的41種新型穩(wěn)定材料,成功率達到71%,如圖 7(b)所示,其中帶有斜線的柱狀圖表示的是根據(jù)GNoME預測出來的新材料,其余的是來自MP材料數(shù)據(jù)庫。這表明A-Lab平臺在結合人工智能算法,打通計算材料理論篩選與實驗合成之間的“壁壘”方面取得了顯著的成果。

圖 7 A-Lab(a)實驗裝置和(b)實驗結果

圖片來源于文獻[50]

基于人工智能算法的GNoME新材料設計主動學習框架與A-Lab新材料自動化合成實驗,為新材料從理論發(fā)現(xiàn)到實驗合成帶來了切實可行的路線。隨著數(shù)據(jù)的不斷積累,以及大模型的發(fā)展,人工智能算法在材料科學領域的應用前景將進一步提高,從而提升新型功能材料設計的準確性和成功率,但是這些也會對算力提出挑戰(zhàn)。隨著GPGPU技術的發(fā)展和算力的提升,密度泛函理論的計算效率以及圖神經(jīng)網(wǎng)絡的訓練和推理性能將會進一步提升,設計和研發(fā)新材料的進程無疑也將進一步加快

通過上面的介紹可知,在科學研究的第四范式中,人工智能算法在材料科學中的不斷發(fā)展和GPGPU的算力支持,將會大大縮短新型功能材料從發(fā)現(xiàn)到應用的這一漫長的過程。這也意味著材料科學研究正朝著更高效、快速的方向邁進,人工智能算法和GPGPU為材料科學領域帶來了前所未有的可能性。

3.3

自然語言模型在材料科學的應用

材料科學與自然語言模型有機地結合起來同樣也展現(xiàn)出強大的潛能。2019年,伯克利國家實驗室的Anubhav Jain領導的團隊收集了330萬篇已發(fā)表的材料科學論文的摘要,通過基于自然語言處理中的詞向量技術來構建和解釋文獻中材料之間的關系,并聲稱能夠提前數(shù)年給出新型熱電材料的預測(如果該算法能夠早點應用,一些材料早在幾年前就可以被發(fā)現(xiàn)了)[51],如圖 8所示。盡管這些結論有一些爭議,但是也提供了一些新的觀點和方法,對材料科學的發(fā)展具有啟發(fā)意義。

圖 8 根據(jù)詞向量對熱電材料的預測[51]

隨著大語言模型 (Large Language Model,LLM) 的不斷發(fā)展,其在材料科學中也展現(xiàn)出了強大的能力,UNSW AI Institute、澳大利亞國家超算中心以及Green Dynamics推出了名為DARWIN 的新型系列大語言模型[52],其是為物理、化學和材料科學應用而設計的專業(yè)化自然語言大模型,如圖 9所示。DARWIN的推出提高了科學領域基準測試的性能,也顯示著研究人員在利用 LLM 進行科學探索的集體努力中取得了重大進展,進一步確認了 LLM 在加速科學發(fā)現(xiàn)中的潛在作用,為通過人工智能驅(qū)動的自動化來增強和加快功能材料的探索和發(fā)現(xiàn)過程起到促進作用。

圖 9 自然科學任務中 DARWIN 與 GPT-4 的對比分析。DARWIN在物理、化學、材料科學特殊任務中的表現(xiàn)要優(yōu)于GPT-4

圖片來源于文獻[52]

材料大模型的發(fā)展是材料科學領域中一項重要的技術進步,它涉及到對大規(guī)模、復雜材料系統(tǒng)的建模和分析。從數(shù)據(jù)方面來看,DFT對材料大模型的發(fā)展至關重要,是為材料大模型提供準確、可靠數(shù)據(jù)的核心工具,隨著GPGPU計算性能的提升,DFT模擬的精度和規(guī)模得到了顯著提高。從材料大模型的模型復雜度上來看,材料大模型的訓練和推理通常需要處理龐大的計算任務,GPGPU在其中扮演著不可或缺的角色。大規(guī)模的實驗數(shù)據(jù)和計算結果被整合到晶體學數(shù)據(jù)庫和材料基因組中,為材料大模型提供了寶貴的信息源。材料大模型的發(fā)展在推動材料科學研究中發(fā)揮著關鍵作用,為新材料的設計、發(fā)現(xiàn)和優(yōu)化提供了有效的手段。隨著技術的不斷進步和多學科的融合,材料大模型將繼續(xù)在材料科學研究中發(fā)揮重要作用。

04

總結與展望

基于密度泛函理論的第一性原理計算工具不僅推動了科研學者對新型功能材料的探索,也為實驗提供了理論指導。然而,當今科技的快速發(fā)展使得新材料的研發(fā)周期已經(jīng)無法滿足對新功能材料的迫切需求,于是材料基因組計劃應運而生。在該計劃的指導下,國內(nèi)外不斷建立并發(fā)展了許多可靠的材料數(shù)據(jù)庫,這些材料數(shù)據(jù)庫為人工智能算法的應用提供了豐富的數(shù)據(jù)“養(yǎng)料”。隨著GPGPU的入場,科學研究者們不斷突破材料模擬計算的體系,與此同時,隨著人工智能的持續(xù)發(fā)展,將其運用于材料科學并為該領域注入了前所未有的活力。此外,當前蓬勃發(fā)展的大語言模型同樣展現(xiàn)了其在材料科學領域非凡的潛力。未來,在GPGPU的算力支持下,隨著人工智能算法與材料科學不斷發(fā)展完善,以及實驗技術的進步,材料科學將朝著“按需設計”新型功能材料的方向前行,推動整個人類社會的進步,朝著“星辰大海”出發(fā)、遠航。

參考資料

[1]    Allen F H. The Cambridge structural database: a quarter of a million crystal structures and rising[J]. Acta Crystallographica Section B Structural Science, 2002, 58(3): 380–388.

[2]    Bruno I J, Cole J C, Edgington P R, Kessler M, Macrae C F, McCabe P, Pearson J, Taylor R. New software for searching the Cambridge structural database and visualizing crystal structures[J]. Acta Crystallographica Section B: Structural Science, 2002, 58(3): 389–397.

[3]    Groom C R, Bruno I J, Lightfoot M P, Ward S C. The Cambridge structural database[J]. Acta Crystallographica Section B: Structural Science, Crystal Engineering and Materials, 2016, 72(2): 171–179.

[4]    Belsky A, Hellenbrandt M, Karen V L, Luksch P. New developments in the inorganic crystal structure database (ICSD): accessibility in support of materials research and design[J]. Acta Crystallographica Section B: Structural Science, 2002, 58(3): 364–369.

[5]    Hellenbrandt M. The inorganic crystal structure database (ICSD)—present and future[J]. Crystallography Reviews, 2004, 10(1): 17–22.

[6]    Allmann R, Hinek R. The introduction of structure types into the inorganic crystal structure database ICSD[J]. Acta Crystallographica Section A Foundations of Crystallography, 2007, 63(5): 412–417.

[7]    Zagorac D, Müller H, Ruehl S, Zagorac J, Rehme S. Recent developments in the Inorganic Crystal Structure Database: theoretical crystal structure data and related features[J]. Journal of Applied Crystallography, 2019, 52(5): 918–925.

[8]    Jain A, Ong S P, Hautier G, Chen W, Richards W D, Dacek S, Cholia S, Gunter D, Skinner D, Ceder G, Persson K A. Commentary: The materials project: A materials genome approach to accelerating materials innovation[J]. APL Materials, 2013, 1(1): 011002.

[9]    Curtarolo S, Setyawan W, Wang S, Xue J, Yang K, Taylor R H, Nelson L J, Hart G L W, Sanvito S, Buongiorno-Nardelli M, Mingo N, Levy O. AFLOWLIB.ORG: A distributed materials properties repository from high-throughput ab initio calculations[J]. Computational Materials Science, 2012, 58: 227–235.

[10]  Saal J E, Kirklin S, Aykol M, Meredig B, Wolverton C. Materials design and discovery with high-throughput density functional theory: The open quantum materials database (OQMD)[J]. JOM, 2013, 65(11): 1501–1509.

[11]  Yang J, Li H, Wu T, Zhang W, Chen L, Yang J. Evaluation of half-Heusler compounds as thermoelectric materials based on the calculated electrical transport properties[J]. Advanced Functional Materials, 2008, 18(19): 2880–2888.

[12]  Xi L, Pan S, Li X, Xu Y, Ni J, Sun X, Yang J, Luo J, Xi J, Zhu W, Li X, Jiang D, Dronskowski R, Shi X, Snyder G J, Zhang W. Discovery of high-performance thermoelectric chalcogenides through reliable high-throughput material screening[J]. Journal of the American Chemical Society, 2018, 140(34): 10785–10793.

[13]  Zornoza B, Tellez C, Coronas J, Gascon J, Kapteijn F. Metal organic framework based mixed matrix membranes: An increasingly important field of research with a large application potential[J]. Microporous and Mesoporous Materials, 2013, 166: 67–78.

[14]  Colón Y J, Snurr R Q. High-throughput computational screening of metal–organic frameworks[J]. Chemical Society Reviews, 2014, 43(16): 5735–5749.

[15]  Hautier G, Miglio A, Ceder G, Rignanese G-M, Gonze X. Identification and design principles of low hole effective mass p-type transparent conducting oxides[J]. Nature Communications, 2013, 4(1): 2292.

[16]  Brunin G, Ricci F, Ha V-A, Rignanese G-M, Hautier G. Transparent conducting materials discovery using high-throughput computing[J]. npj Computational Materials, 2019, 5(1): 1–13.

[17]  Wang Y, Zhang W, Chen L, Shi S, Liu J. Quantitative description on structure–property relationships of Li-ion battery materials for high-throughput computations[J]. Science and Technology of Advanced Materials, 2017, 18(1): 134–146.

[18]  Jia W, Wang H, Chen M, Lu D, Lin L, Car R, E W, Zhang L. Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning[A]. arXiv,2020[2023-12-04].

[19]  Das S, Kanungo B, Subramanian V, Panigrahi G, Motamarri P, Rogers D, Zimmerman P, Gavini V. Large-Scale Materials Modeling at Quantum Accuracy: Ab Initio Simulations of Quasicrystals and Interacting Extended Defects in Metallic Alloys[C]//Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. Denver CO USA:ACM,2023: 1–12[2023-11-30].

[20]  Fang J, Xie M, He X, Zhang J, Hu J, Chen Y, Yang Y, Jin Q. Machine learning accelerates the materials discovery[J]. Materials Today Communications, 2022, 33: 104900.

[21]  Bartók A P, Kondor R, Csányi G. On representing chemical environments[J]. Physical Review B, 2013, 87(18): 184115.

[22]  Seko A, Hayashi H, Tanaka I. Compositional descriptor-based recommender system for the materials discovery[J]. The Journal of Chemical Physics, 2018, 148(24): 241719.

[23]  Rupp M, Tkatchenko A, Müller K-R, Von Lilienfeld O A. Fast and accurate modeling of molecular atomization energies with machine learning[J]. Physical Review Letters, 2012, 108(5): 058301.

[24]  Schütt K T, Glawe H, Brockherde F, Sanna A, Müller K R, Gross E K U. How to represent crystal structures for machine learning: Towards fast prediction of electronic properties[J]. Physical Review B, 2014, 89(20): 205118.

[25]  Huo H, Rupp M. Unified representation of molecules and crystals for machine learning[J]. Machine Learning: Science and Technology, 2022, 3(4): 045017.

[26]  Seko A, Takahashi A, Tanaka I. Sparse representation for a potential energy surface[J]. Physical Review B, 2014, 90(2): 024101.

[27]  Ranstam J, Cook J A. LASSO regression[J]. British Journal of Surgery, 2018, 105(10): 1348.

[28]  Roth V. The generalized LASSO[J]. IEEE Transactions on Neural Networks, 2004, 15(1): 16–28.

[29]  Gilmer J, Schoenholz S S, Riley P F, Vinyals O, Dahl G E. Neural message passing for quantum chemistry[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia:JMLR.org,2017: 1263–1272[2023-06-07].

[30]  Sperduti A, Starita A. Supervised neural networks for the classification of structures[J]. IEEE Transactions on Neural Networks, 1997, 8(3): 714–735.

[31]  Scarselli F, Gori M, Tsoi A C, Hagenbuchner M, Monfardini G. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2009, 20(1): 61–80.

[32]  Schütt K T, Sauceda H E, Kindermans P-J, Tkatchenko A, Müller K-R. SchNet – A deep learning architecture for molecules and materials[J]. The Journal of Chemical Physics, 2018, 148(24): 241722.

[33]  Sun Y, Hu W. Novel machine learning framework for thermal conductivity prediction by crystal graph convolution embedded ensemble[J]. SmartMat, 2022, 3(3): 474–481.

[34]  Xie T, Grossman J C. Crystal graph convolutional neural networks for an accurate and interpretable prediction of material properties[J]. Physical Review Letters, 2018, 120(14): 145301.

[35]  Chen C, Ye W, Zuo Y, Zheng C, Ong S P. Graph networks as a universal machine learning framework for molecules and crystals[J]. Chemistry of Materials, 2019, 31(9): 3564–3572.

[36]  Linker G-J, Van Duijnen P Th, Broer R. Understanding trends in molecular bond angles[J]. The Journal of Physical Chemistry A, 2020, 124(7): 1306–1311.

[37]  Timoshenko J, Frenkel A I. “Inverting” X-ray absorption spectra of catalysts by machine learning in search for activity descriptors[J]. ACS Catalysis, 2019, 9(11): 10192–10211.

[38]  Guda A A, Guda S A, Martini A, Bugaev A L, Soldatov M A, Soldatov A V, Lamberti C. Machine learning approaches to XANES spectra for quantitative 3D structural determination: The case of CO2 adsorption on CPO-27-Ni MOF[J]. Radiation Physics and Chemistry, 2020, 175: 108430.

[39]  Guda A A, Guda S A, Lomachenko K A, Soldatov M A, Pankin I A, Soldatov A V, Braglia L, Bugaev A L, Martini A, Signorile M, Groppo E, Piovano A, Borfecchia E, Lamberti C. Quantitative structural determination of active sites from in situ and operando XANES spectra: From standard ab initio simulations to chemometric and machine learning approaches[J]. Catalysis Today, 2019, 336: 3–21.

[40]  Park C W, Wolverton C. Developing an improved crystal graph convolutional neural network framework for accelerated materials discovery[J]. Physical Review Materials, 2020, 4(6): 063801.

[41]  Choudhary K, DeCost B. Atomistic line graph neural network for improved materials property predictions[J]. npj Computational Materials, 2021, 7(1): 1–8.

[42]  Hsu T, Pham T A, Keilbart N, Weitzner S, Chapman J, Xiao P, Qiu S R, Chen X, Wood B C. Efficient and interpretable graph network representation for angle-dependent properties applied to optical spectroscopy[J]. npj Computational Materials, 2022, 8(1): 1–9.

[43]  Schütt K, Unke O, Gastegger M. Equivariant message passing for the prediction of tensorial properties and molecular spectra[C]//Proceedings of the 38th International Conference on Machine Learning. ELECTR NETWORK:PMLR,2021: 9377–9388[2023-02-26].

[44]  Satorras V G, Hoogeboom E, Welling M. E(n) Equivariant Graph Neural Networks[C]//Proceedings of the 38th International Conference on Machine Learning. ELECTR NETWORK:PMLR,2021: 9323–9332[2023-02-26].

[45]  Jørgensen P B, Bhowmik A. Equivariant graph neural networks for fast electron density estimation of molecules, liquids, and solids[J]. npj Computational Materials, 2022, 8(1): 1–10.

[46]  Batzner S, Musaelian A, Sun L, Geiger M, Mailoa J P, Kornbluth M, Molinari N, Smidt T E, Kozinsky B. E(3)-equivariant graph neural networks for data-efficient and accurate interatomic potentials[J]. Nature Communications, 2022, 13(1): 2453.

[47]  Reiser P, Neubert M, Eberhard A, Torresi L, Zhou C, Shao C, Metni H, Van Hoesel C, Schopmans H, Sommer T, Friederich P. Graph neural networks for materials science and chemistry[J]. Communications Materials, 2022, 3(1): 1–18.

[48]  Merchant A, Batzner S, Schoenholz S S, Aykol M, Cheon G, Cubuk E D. Scaling deep learning for materials discovery[J]. Nature, 2023: 1–6.

[49]  Pickard C J, Needs R J. Ab initio random structure searching[J]. Journal of Physics: Condensed Matter, 2011, 23(5): 053201.

[50]  Szymanski N J, Rendy B, Fei Y, Kumar R E, He T, Milsted D, McDermott M J, Gallant M, Cubuk E D, Merchant A, Kim H, Jain A, Bartel C J, Persson K, Zeng Y, Ceder G. An autonomous laboratory for the accelerated synthesis of novel materials[J]. Nature, 2023, 624(7990): 86–91.

[51]  Tshitoyan V, Dagdelen J, Weston L, Dunn A, Rong Z, Kononova O, Persson K A, Ceder G, Jain A. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571(7763): 95–98.

[52]  Xie T, Wan Y, Huang W, Yin Z, Liu Y, Wang S, Linghu Q, Kit C, Grazian C, Zhang W, Razzak I, Hoex B. DARWIN Series: Domain Specific Large Language Models for Natural Science[A]. arXiv,2023[2023-11-30]. 

(來源沐曦MetaX)

標簽:材料科學 AI4Materials 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
ABB協(xié)作機器人,自動化從未如此簡單
優(yōu)傲機器人下載中心
2024全景工博會
專題報道
2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進“雙碳”實踐的最新成果,鼓勵更多企業(yè)、科研機構、投資機構等廣泛... [更多]

中國國際進口博覽會
中國國際進口博覽會

11月5日至10日,第七屆中國國際進口博覽會在國家會展中心(上海)舉行。152個國家、地區(qū)和國際組織,近3500家參展企... [更多]

2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領航”為全新主題。 [更多]