合成生物學家開發(fā)蛋白質(zhì)語言的耳朵
就像字符串可以賦予含義一樣,氨基酸序列可以賦予確定的三維結(jié)構(gòu)以及所需的化學和生物學特性。這里的關鍵詞是“可能”。在合成蛋白質(zhì)中,氨基酸序列可能最終變得有意義或產(chǎn)生亂碼。如何事先知道序列的“含義”?這個問題長期困擾著蛋白質(zhì)工程師,他們尋求雄辯的,錯誤的,優(yōu)雅的解決方案來解決生物制造問題。幸運的是,可能會有一個答案。這稱為統(tǒng)一表示或UniRep(一種機器學習方法)。
UniRep來自哈佛大學的Wyss生物啟發(fā)工程研究所,由喬治·丘奇(George Church)博士領導的研究小組利用一種人工智能的深度學習技術,直接從蛋白質(zhì)的氨基酸序列中提取蛋白質(zhì)的基本特征。根據(jù)丘奇和他的同事所說,這種方法不需要額外的信息,并且可以將許多費力的實驗室實驗轉(zhuǎn)移到計算機上。
研究人員的深度學習方法于10月21日在《自然方法》上發(fā)表,文章標題為“ 基于序列的深度表示學習的統(tǒng)一理性蛋白質(zhì)工程 ”。該文章指出,UniRep允許構(gòu)建廣泛適用和概括的統(tǒng)計模型。到序列空間中看不見的區(qū)域。此外,該文章還堅持認為統(tǒng)計模型“在語義上是豐富的,并且在結(jié)構(gòu),進化和生物上都有扎實的基礎”。
文章的作者寫道:“我們的數(shù)據(jù)驅(qū)動方法可以預測天然和從頭設計的蛋白質(zhì)的穩(wěn)定性,以及分子多樣性突變體的定量功能,這與最新方法具有競爭性。” “ UniRep進一步使蛋白質(zhì)工程任務的效率提高了兩個數(shù)量級。”
蛋白質(zhì)工程的更多常規(guī)方法包括定向進化和合理設計。在定向進化中,蛋白質(zhì)工程師隨機改變編碼天然蛋白質(zhì)的氨基酸構(gòu)件的線性序列,并篩選具有所需活性的變體。在合理的設計中,蛋白質(zhì)工程師根據(jù)蛋白質(zhì)的實際3D結(jié)構(gòu)對蛋白質(zhì)建模,以識別可能會影響蛋白質(zhì)功能的氨基酸。
定向進化只能覆蓋可能的蛋白質(zhì)序列巨大空間的一小部分。精心設計的3D蛋白質(zhì)結(jié)構(gòu)的相對稀缺性限制了合理的設計方法。但是,UniRep承諾對蛋白質(zhì)功能有更全面的了解。
“無需廣泛表征蛋白質(zhì)來理解其設計原理,我們通過在公共數(shù)據(jù)庫中系統(tǒng)地尋找大量原始蛋白質(zhì)序列中的模式,而是使用神經(jīng)網(wǎng)絡以無偏見的方式學習那些規(guī)則,”研究生Surojit Biswas說是Church小組的學生,也是《自然方法》論文的三位共同第一作者之一。“神經(jīng)網(wǎng)絡通過許多艱苦的研究,學到了許多人類以前知道的規(guī)則,除此之外,它還發(fā)現(xiàn)了蛋白質(zhì)的新功能。”
可以將神經(jīng)網(wǎng)絡方法比喻為學習一種語言,在這種語言中,學習者可以建立語義理解,了解如何從字母和單詞的字符串構(gòu)造復雜的句子。在蛋白質(zhì)語言中,UniRep經(jīng)過培訓,可以探索公共數(shù)據(jù)庫中包含的蛋白質(zhì)序列中的所有可能性,從而從其第一個氨基酸開始預測蛋白質(zhì)序列中的下一個氨基酸。
在重復處理蛋白質(zhì)的其余部分(一次一個氨基酸)的過程中,UniRep制作并利用了迄今為止在蛋白質(zhì)中看到的序列的內(nèi)部“摘要”,該小組稱其為“隱藏狀態(tài)”,考慮到其個體順序和結(jié)構(gòu)特征。將這些信息以及來自許多其他蛋白質(zhì)的結(jié)果反饋回其算法,UniRep逐漸修改了其構(gòu)造隱藏狀態(tài)的方式,從而隨著時間的推移提高了其預測能力。
在語言類比中,基于對語法和單詞選擇的不斷改進,學習者將能夠以更高的可能性預測他們正在閱讀的句子的下一個單詞。
“我們在大約三周的時間內(nèi)對UniRep進行了約2400萬個蛋白質(zhì)序列的培訓,以使其能夠預測序列及其與諸如蛋白質(zhì)穩(wěn)定性,二級結(jié)構(gòu)以及內(nèi)部序列對蛋白質(zhì)內(nèi)周圍溶劑的可及性之類的特性之間的聯(lián)系,” Grigory Khimulya是哈佛大學的學生,也是Biswas和Ethan C. Alley的共同第一作者。“ UniRep準確地描述了來自非常不同的蛋白質(zhì)家族的蛋白質(zhì)中的這些特征,這些蛋白質(zhì)的結(jié)構(gòu)在先前的研究中得到了很好的表征,甚至在自然界中沒有對應蛋白質(zhì)的合成蛋白質(zhì)中也是如此。”
該團隊將UniRep更進一步,并將其用作預測單個氨基酸取代如何影響蛋白質(zhì)功能的工具。想想瘋子,但蛋白質(zhì)。
該神經(jīng)網(wǎng)絡以多種生物學功能(包括酶催化,DNA結(jié)合,分子傳感)可靠地量化了8種不同蛋白質(zhì)中單個氨基酸突變的影響。此外,他們使用維多利亞水母綠色熒光蛋白(GFP)作為模型,委托UniRep分析該蛋白的64,800個變異體,每個變異體帶有1–12個突變,這表明它可以準確預測突變的分布和相對負擔改變了蛋白質(zhì)的亮度。
丘奇說:“與其他策略相比,我們的數(shù)據(jù)驅(qū)動方法在預測蛋白質(zhì)的多種特性方面達到了最新或更高的性能,而成本卻遠低于其他方法。” “這使它成為許多領域蛋白質(zhì)工程師的真正授權(quán)工具。”
推薦內(nèi)容
-
從感染躲避干細胞到病毒性疾病研究的新策略
對于干細胞,未來是開放的。它可以無限分裂以產(chǎn)生更多的干細胞,或者它可以長成其他種類的細胞,在心臟,大腦或其他器官中占據(jù)一席之地...
-
喝茶能減肥還可解酒?聽聽專家怎么說
面對流言,希望我們第一時間想到的是尋找官方回應。而不是著急著把流言傳播出去,畢竟現(xiàn)在網(wǎng)絡相關的法律法規(guī)都出臺了,網(wǎng)絡上傳播謠言...
-
12月4日江西疫情最新消息公布 江西省疾控中心昨日發(fā)布新冠肺
想必大家都知道,江西,簡稱贛,省會南昌。江西位于中國東南部,長江中下游南岸,屬于華東地區(qū)。那么,你知道江西目前疫情什么情況嗎?自11
-
光片熒光顯微鏡揭示了紅面粉甲蟲發(fā)展的關鍵過程
科隆大學的一組研究人員首次成功地觀察了昆蟲中的羊膜囊。紅色甲蟲(Tribolium castaneum)是世界各地儲存的谷物的害蟲,是調(diào)查對象。利用紅
-
「防災減災」減輕災害風險守護美好家園
「防災減災」減輕災害風險守護美好家園 今年5月12日是我國第14個全國防災減災日5月7日至13日為防災減災宣傳周全國防災減災日主題為減
-
研究人員在尼斯湖尋找環(huán)境DNA
由奧塔哥大學教授尼爾·蓋默爾(Neil Gemmell)領導的國際研究小組正在使用最新的DNA技術來編制尼斯湖(Loch Ness)的生命普查,尼斯湖是一個
-
干洗就是不加水洗,這是真的嗎?來看學者的建議
隨著互聯(lián)網(wǎng)的快速發(fā)展,我們在獲取信息的時候很容易被帶跑方向。有時候真相也許并不是網(wǎng)上說的那樣,所以我們必須要有自己的判斷和獨立...