合成生物學家開發(fā)蛋白質語言的耳朵

就像字符串可以賦予含義一樣，氨基酸序列可以賦予確定的三維結構以及所需的化學和生物學特性。這里的關鍵詞是“可能”。在合成蛋白質中，氨基酸序列可能最終變得有意義或產(chǎn)生亂碼。如何事先知道序列的“含義”?這個問題長期困擾著蛋白質工程師，他們尋求雄辯的，錯誤的，優(yōu)雅的解決方案來解決生物制造問題。幸運的是，可能會有一個答案。這稱為統(tǒng)一表示或UniRep(一種機器學習方法)。

UniRep來自哈佛大學的Wyss生物啟發(fā)工程研究所，由喬治·丘奇(George Church)博士領導的研究小組利用一種人工智能的深度學習技術，直接從蛋白質的氨基酸序列中提取蛋白質的基本特征。根據(jù)丘奇和他的同事所說，這種方法不需要額外的信息，并且可以將許多費力的實驗室實驗轉移到計算機上。

研究人員的深度學習方法于10月21日在《自然方法》上發(fā)表，文章標題為“ 基于序列的深度表示學習的統(tǒng)一理性蛋白質工程 ”。該文章指出，UniRep允許構建廣泛適用和概括的統(tǒng)計模型。到序列空間中看不見的區(qū)域。此外，該文章還堅持認為統(tǒng)計模型“在語義上是豐富的，并且在結構，進化和生物上都有扎實的基礎”。

文章的作者寫道：“我們的數(shù)據(jù)驅動方法可以預測天然和從頭設計的蛋白質的穩(wěn)定性，以及分子多樣性突變體的定量功能，這與最新方法具有競爭性。” “ UniRep進一步使蛋白質工程任務的效率提高了兩個數(shù)量級。”

蛋白質工程的更多常規(guī)方法包括定向進化和合理設計。在定向進化中，蛋白質工程師隨機改變編碼天然蛋白質的氨基酸構件的線性序列，并篩選具有所需活性的變體。在合理的設計中，蛋白質工程師根據(jù)蛋白質的實際3D結構對蛋白質建模，以識別可能會影響蛋白質功能的氨基酸。

定向進化只能覆蓋可能的蛋白質序列巨大空間的一小部分。精心設計的3D蛋白質結構的相對稀缺性限制了合理的設計方法。但是，UniRep承諾對蛋白質功能有更全面的了解。

“無需廣泛表征蛋白質來理解其設計原理，我們通過在公共數(shù)據(jù)庫中系統(tǒng)地尋找大量原始蛋白質序列中的模式，而是使用神經(jīng)網(wǎng)絡以無偏見的方式學習那些規(guī)則，”研究生Surojit Biswas說是Church小組的學生，也是《自然方法》論文的三位共同第一作者之一。“神經(jīng)網(wǎng)絡通過許多艱苦的研究，學到了許多人類以前知道的規(guī)則，除此之外，它還發(fā)現(xiàn)了蛋白質的新功能。”

可以將神經(jīng)網(wǎng)絡方法比喻為學習一種語言，在這種語言中，學習者可以建立語義理解，了解如何從字母和單詞的字符串構造復雜的句子。在蛋白質語言中，UniRep經(jīng)過培訓，可以探索公共數(shù)據(jù)庫中包含的蛋白質序列中的所有可能性，從而從其第一個氨基酸開始預測蛋白質序列中的下一個氨基酸。

在重復處理蛋白質的其余部分(一次一個氨基酸)的過程中，UniRep制作并利用了迄今為止在蛋白質中看到的序列的內部“摘要”，該小組稱其為“隱藏狀態(tài)”，考慮到其個體順序和結構特征。將這些信息以及來自許多其他蛋白質的結果反饋回其算法，UniRep逐漸修改了其構造隱藏狀態(tài)的方式，從而隨著時間的推移提高了其預測能力。

在語言類比中，基于對語法和單詞選擇的不斷改進，學習者將能夠以更高的可能性預測他們正在閱讀的句子的下一個單詞。

“我們在大約三周的時間內對UniRep進行了約2400萬個蛋白質序列的培訓，以使其能夠預測序列及其與諸如蛋白質穩(wěn)定性，二級結構以及內部序列對蛋白質內周圍溶劑的可及性之類的特性之間的聯(lián)系，” Grigory Khimulya是哈佛大學的學生，也是Biswas和Ethan C. Alley的共同第一作者。“ UniRep準確地描述了來自非常不同的蛋白質家族的蛋白質的這些特征，這些蛋白質的結構在先前的研究中得到了很好的表征，甚至在本質上沒有對應物的合成蛋白質中也是如此。”

該團隊將UniRep更進一步，并將其用作預測單個氨基酸取代如何影響蛋白質功能的工具。想想瘋子，但對于蛋白質。

該神經(jīng)網(wǎng)絡以多種生物學功能(包括酶催化，DNA結合，分子傳感)可靠地量化了8種不同蛋白質中單個氨基酸突變的影響。此外，他們使用維多利亞水母綠色熒光蛋白(GFP)作為模型，委托UniRep分析該蛋白的64,800個變異體，每個變異體帶有1–12個突變，這表明它可以準確預測突變的分布和相對負擔改變了蛋白質的亮度。

丘奇說：“與其他策略相比，我們的數(shù)據(jù)驅動方法在預測蛋白質的多種特性方面達到了最新或更高的性能，而成本卻遠低于其他方法。” “這使它成為許多領域蛋白質工程師的真正授權工具。”

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如有侵權行為，請第一時間聯(lián)系我們修改或刪除，多謝。

推薦內容