機(jī)器學(xué)習(xí)輔助的高性能有機(jī)光伏材料分子設(shè)計(jì)
為了合成用于將太陽輻射轉(zhuǎn)換成直流電的有機(jī)光伏(OPV)的高性能材料,材料科學(xué)家必須有意義地建立化學(xué)結(jié)構(gòu)與其光伏特性之間的關(guān)系。在一項(xiàng)關(guān)于科學(xué)進(jìn)步的新研究中,孫文博及其一個(gè)團(tuán)隊(duì),包括來自能源與動力工程學(xué)院,自動化學(xué)院,計(jì)算機(jī)科學(xué),電氣工程以及綠色和智能技術(shù)學(xué)院的研究人員,建立了一個(gè)新的數(shù)據(jù)庫,該數(shù)據(jù)庫使用1,700多種捐助材料現(xiàn)有文獻(xiàn)報(bào)告。他們使用監(jiān)督學(xué)習(xí) 使用機(jī)器學(xué)習(xí)模型來建立結(jié)構(gòu)-屬性關(guān)系,并使用針對不同ML算法的各種輸入來快速篩選OPV材料。
使用超過1000位長度的分子指紋(以二進(jìn)制位編碼分子的結(jié)構(gòu))。獲得了較高的ML預(yù)測精度。他們通過篩選10種新設(shè)計(jì)的供體材料以確保模型預(yù)測與實(shí)驗(yàn)結(jié)果之間的一致性,從而驗(yàn)證了該方法的可靠性。ML結(jié)果提供了一個(gè)強(qiáng)大的工具,可以預(yù)篩選新的OPV材料并加速材料工程中OPV的開發(fā)。
有機(jī)光伏(OPV)電池可以促進(jìn)太陽能以直接且具有成本效益的方式轉(zhuǎn)換為電能,而最近的快速增長使其超過了電能轉(zhuǎn)換效率(PCE)的速度。主流OPV研究集中在建立新的OPV分子結(jié)構(gòu)與其光伏特性之間的關(guān)系。傳統(tǒng)工藝通常涉及光伏材料的設(shè)計(jì)和合成,以用于光伏電池的組裝/優(yōu)化。這種方法導(dǎo)致耗時(shí)的研究周期,需要精細(xì)控制化學(xué)合成和裝置制造,實(shí)驗(yàn)步驟和純化?,F(xiàn)有的OPV開發(fā)過程緩慢且效率低下,到目前為止,合成和測試的 OPV供體分子 不足2000個(gè)。然而,從數(shù)十年研究工作中收集的數(shù)據(jù)是無價(jià)的,潛在價(jià)值仍有待充分探索以生成高性能OPV材料。
為了從數(shù)據(jù)中提取有用的信息,Sun等人。需要一個(gè)復(fù)雜的程序來掃描大型數(shù)據(jù)集并從要素之間提取關(guān)系。由于機(jī)器學(xué)習(xí)(ML)提供了使用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)和識別模式和關(guān)系的計(jì)算工具,因此該團(tuán)隊(duì)使用了數(shù)據(jù)驅(qū)動的方法來啟用ML并預(yù)測各種材料特性。機(jī)器學(xué)習(xí)算法不必了解材料屬性背后的化學(xué)或物理原理即可完成任務(wù)。最近類似的方法已經(jīng)成功地預(yù)測了材料發(fā)現(xiàn),藥物開發(fā)和生產(chǎn)過程中材料的活性/性質(zhì)。材料設(shè)計(jì)。在ML應(yīng)用之前,科學(xué)家已經(jīng)生成了化學(xué)信息學(xué)來建立有用的工具箱。
材料科學(xué)家直到最近才探索 ML在OPV領(lǐng)域中的應(yīng)用。在目前的工作中,Sun等。建立了一個(gè)數(shù)據(jù)庫,其中包含從文獻(xiàn)中收集的1719個(gè)經(jīng)過實(shí)驗(yàn)測試的供體OPV材料。他們首先研究了分子的語言表達(dá)對理解機(jī)器學(xué)習(xí)性能的重要性。然后,他們測試了幾種不同類型的表達(dá)式,包括圖像,ASCII字符串,兩種類型的描述符和七種類型的分子指紋。他們觀察到模型預(yù)測與實(shí)驗(yàn)結(jié)果非常吻合??茖W(xué)家們希望這種新方法能夠極大地加快用于OPV研究應(yīng)用的新型高效有機(jī)半導(dǎo)體材料的開發(fā)。
研究團(tuán)隊(duì)首先將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器可讀的表示形式。同一分子存在多種表達(dá)形式,包括以不同抽象水平呈現(xiàn)的極為不同的化學(xué)信息。Sun等使用一組ML模型。通過比較功率轉(zhuǎn)換效率(PCE)的預(yù)測準(zhǔn)確度,獲得了69.41%的深度學(xué)習(xí)模型,從而探索了分子的多種表達(dá)。相對較差的性能是由于數(shù)據(jù)庫較小。例如,以前,當(dāng)同一小組使用最多50,000個(gè)分子時(shí),深度學(xué)習(xí)模型的準(zhǔn)確性超過了90%。要全面訓(xùn)練深度學(xué)習(xí)模型,研究人員必須實(shí)施一個(gè)包含數(shù)百萬個(gè)樣本的更大的數(shù)據(jù)庫。
Sun等。目前每個(gè)類別中只有數(shù)百個(gè)分子,因此模型很難提取足夠的信息來獲得更高的準(zhǔn)確性。盡管可以對預(yù)訓(xùn)練的模型進(jìn)行微調(diào)以減少所需的數(shù)據(jù)量,但仍需要成千上萬的樣本來實(shí)現(xiàn)足夠數(shù)量的特征。當(dāng)使用圖像表達(dá)分子時(shí),這導(dǎo)致增加數(shù)據(jù)庫大小的選擇。
科學(xué)家在研究中使用了五種類型的監(jiān)督ML算法,包括(1)反向傳播(BP)神經(jīng)網(wǎng)絡(luò)(BPNN),(2)深度神經(jīng)網(wǎng)絡(luò)(DNN),(3)深度學(xué)習(xí),(4)支持向量機(jī)(SVM)和(5)隨機(jī)森林(RF)。這些是高級算法,其中BPNN,DNN和深度學(xué)習(xí)均基于人工中性網(wǎng)絡(luò)(ANN)。該SMILES碼Sun等人(簡化的分子輸入線輸入系統(tǒng))提供了分子的另一種原始表達(dá)。用作四個(gè)模型的輸入。根據(jù)結(jié)果??,RF模型的最高準(zhǔn)確度約為67.84%。和以前一樣,與深度學(xué)習(xí)不同,這四種經(jīng)典方法無法提取隱藏特征。總體而言,SMILES作為圖像的分子描述符在預(yù)測數(shù)據(jù)中的PCE(功率轉(zhuǎn)換效率)等級方面表現(xiàn)不及圖像。
然后,研究人員使用了分子描述符,該描述符可以使用數(shù)字?jǐn)?shù)組而不是化學(xué)結(jié)構(gòu)的直接表達(dá)來描述分子的特性。研究小組在研究中使用了兩種類型的描述符PaDEL和RDKIt。在對所有ML模型進(jìn)行廣泛分析之后,大數(shù)據(jù)量意味著更多與PCE不相關(guān)的描述符會影響ANN性能。相比之下,當(dāng)使用分子描述符作為ML方法的輸入時(shí),小的數(shù)據(jù)量意味著無法有效地訓(xùn)練ML模型的化學(xué)信息,關(guān)鍵在于找到與目標(biāo)物體直接相關(guān)的合適描述符。
團(tuán)隊(duì)接下來使用分子指紋 ; 通常設(shè)計(jì)為將分子表示為數(shù)學(xué)對象,最初是為了識別異構(gòu)體而創(chuàng)建的。在大規(guī)模數(shù)據(jù)庫篩選期間,該概念表示為包含“ 1”和“ 0”的位數(shù)組,以描述分子中是否存在特定的子結(jié)構(gòu)或模式。Sun等。使用七種類型的指紋作為輸入來訓(xùn)練ML模型,并考慮了指紋長度對不同模型的預(yù)測性能的影響,以獲得不同的指紋。例如,分子通道系統(tǒng) (MACCS)指紋包含166位,并且是最短的輸入,并且由于其信息有限而無法令人滿意。
Sun等。展示了使用1024位雜交指紋和RF 獲得的編程語言和ML算法的最佳組合,可達(dá)到81.76%的預(yù)測精度;其中雜交指紋代表分子的SP2雜交狀態(tài)。當(dāng)指紋長度從166位增加到1024位時(shí),所有ML模型的性能都會提高,因?yàn)楦L的指紋會包含更多的化學(xué)信息。
為了測試ML模型的可靠性,Sun等人。合成了10種新的OPV供體分子。然后使用三個(gè)具有代表性的指紋來表達(dá)新分子的化學(xué)結(jié)構(gòu),并比較RF模型和實(shí)驗(yàn)PCE值預(yù)測的結(jié)果。系統(tǒng)將10個(gè)分子中的8個(gè)分類。結(jié)果表明了合成材料在OPV應(yīng)用中的潛力,另外還有兩種新材料的實(shí)驗(yàn)優(yōu)化。結(jié)構(gòu)上的細(xì)微變化可能會導(dǎo)致PCE值產(chǎn)生較大差異。令人鼓舞的是,機(jī)器學(xué)習(xí)模型識別出這樣的微小修改以利于良好的預(yù)測結(jié)果。
這樣,Wenbo Sun及其同事使用了有關(guān)OPV供體材料的文獻(xiàn)數(shù)據(jù)庫和各種編程語言表達(dá)式(圖像,ASCII字符串,描述符和分子指紋)來構(gòu)建ML模型并預(yù)測相應(yīng)的OPV PCE類。該團(tuán)隊(duì)演示了使用ML方法和實(shí)驗(yàn)分析設(shè)計(jì)OPV供體材料的方案。他們使用ML模型對大量供體材料進(jìn)行了預(yù)篩選,以鑒定合成和進(jìn)一步實(shí)驗(yàn)的主要候選對象。這項(xiàng)新工作可以加快新的供體材料設(shè)計(jì),從而加快高PCE OPV的開發(fā)。ML與實(shí)驗(yàn)結(jié)合使用將促進(jìn)材料發(fā)現(xiàn)。
推薦內(nèi)容
-
帶呼吸閥的N95口罩對新型冠狀病毒沒有防護(hù)作用?真實(shí)情況是怎樣
日常生活中我們經(jīng)常會聽到各種各樣的坊間流言。然而很少人去求證這些流言的真實(shí)性,久而久之就變成了真事。在這里,小編必須提醒大家,...
-
又是一年吃蟹時(shí)這些謠言不要信? 真相來了
又是一年吃蟹時(shí)這些謠言不要信? 真相來了隨著互聯(lián)網(wǎng)時(shí)代的到來,信息被大眾獲取的途徑多種多樣,但其中很多消息還沒被證實(shí)真實(shí)性就大范圍
-
西安男子600萬的勞斯萊斯被一女子噴字求交友 隨后車主反應(yīng)亮了
交友是人們?yōu)榱藬[脫自己單身的生活,而去結(jié)交認(rèn)識他人的過程。那么,在交友方面你會怎么做呢?據(jù)最新消息顯示,近日就發(fā)生了一起西安男子600
-
長期吃酸菜對健康是好是壞?會不會致癌?牢記3點(diǎn)降低危害
長期吃酸菜對健康是好是壞?會不會致癌?牢記3點(diǎn)降低危害 “緊噎慢噎,三個(gè)半月”“十個(gè)癌九個(gè)埋,還有一個(gè)不是癌” 這...
-
“坐著”護(hù)理,好得更快
“坐著”護(hù)理,好得更快 患者家屬:“護(hù)士,我爸爸病得那么重,怎么還讓他坐著呢,可別累著他呀!” 專業(yè)解答:“大哥,先別急,...
-
人工智能算法能自動分析心電圖數(shù)據(jù) 準(zhǔn)確度超過95%
近日,英國劍橋大學(xué)對外宣稱,該??蒲腥藛T研發(fā)出一款新型低成本可穿戴設(shè)備用于監(jiān)測心臟和心血管功能,該款無線設(shè)備可以憑借人工智能技...
-
暴強(qiáng)的中國富人心理
社會的發(fā)展越來越快,大家現(xiàn)在也慢慢開始關(guān)注一個(gè)人的心理健康。因?yàn)橥饨缡挛锏木薮笞兓?,很多人跟不上變化的腳步就會產(chǎn)生心理落差感從...
-
蜂蜜怎么還會有保質(zhì)期?需要好好科普
互聯(lián)網(wǎng)時(shí)代,每個(gè)人都是信息傳播者,但是我們必須清楚一點(diǎn):在沒有獲得真正證實(shí)的消息之前,千萬不能隨意散播謠言,很容易造成以訛傳訛...
-
21日上午9點(diǎn),鄭州二七區(qū)開展重點(diǎn)人群核酸檢測
21日上午9點(diǎn),鄭州二七區(qū)開展重點(diǎn)人群核酸檢測 按照市、區(qū)新冠肺炎疫情防控指揮部的統(tǒng)一部署,二七區(qū)持續(xù)開展重點(diǎn)人群核酸檢測工作。
-
湖北應(yīng)城十點(diǎn)后有更大余震? 這事兒是真的?
湖北應(yīng)城十點(diǎn)后有更大余震? 這事兒是真的?自媒體時(shí)代的來臨,大眾獲取消息的渠道非常多,但其中很多消息還沒被證實(shí)真實(shí)性就大范圍傳播開