合成生物學家開發(fā)蛋白質語言的耳朵
就像字符串可以賦予含義一樣,氨基酸序列可以賦予確定的三維結構以及所需的化學和生物學特性。這里的關鍵詞是“可能”。在合成蛋白質中,氨基酸序列可能最終變得有意義或產(chǎn)生亂碼。如何事先知道序列的“含義”?這個問題長期困擾著蛋白質工程師,他們尋求雄辯的,錯誤的,優(yōu)雅的解決方案來解決生物制造問題。幸運的是,可能會有一個答案。這稱為統(tǒng)一表示或UniRep(一種機器學習方法)。
UniRep來自哈佛大學的Wyss生物啟發(fā)工程研究所,由喬治·丘奇(George Church)博士領導的研究小組利用一種人工智能的深度學習技術,直接從蛋白質的氨基酸序列中提取蛋白質的基本特征。根據(jù)丘奇和他的同事所說,這種方法不需要額外的信息,并且可以將許多費力的實驗室實驗轉移到計算機上。
研究人員的深度學習方法于10月21日在《自然方法》上發(fā)表,文章標題為“ 基于序列的深度表示學習的統(tǒng)一理性蛋白質工程 ”。該文章指出,UniRep允許構建廣泛適用和概括的統(tǒng)計模型。到序列空間中看不見的區(qū)域。此外,該文章還堅持認為統(tǒng)計模型“在語義上是豐富的,并且在結構,進化和生物上都有扎實的基礎”。
文章的作者寫道:“我們的數(shù)據(jù)驅動方法可以預測天然和從頭設計的蛋白質的穩(wěn)定性,以及分子多樣性突變體的定量功能,這與最新方法具有競爭性。” “ UniRep進一步使蛋白質工程任務的效率提高了兩個數(shù)量級。”
蛋白質工程的更多常規(guī)方法包括定向進化和合理設計。在定向進化中,蛋白質工程師隨機改變編碼天然蛋白質的氨基酸構件的線性序列,并篩選具有所需活性的變體。在合理的設計中,蛋白質工程師根據(jù)蛋白質的實際3D結構對蛋白質建模,以識別可能會影響蛋白質功能的氨基酸。
定向進化只能覆蓋可能的蛋白質序列巨大空間的一小部分。精心設計的3D蛋白質結構的相對稀缺性限制了合理的設計方法。但是,UniRep承諾對蛋白質功能有更全面的了解。
“無需廣泛表征蛋白質來理解其設計原理,我們通過在公共數(shù)據(jù)庫中系統(tǒng)地尋找大量原始蛋白質序列中的模式,而是使用神經(jīng)網(wǎng)絡以無偏見的方式學習那些規(guī)則,”研究生Surojit Biswas說是Church小組的學生,也是《自然方法》論文的三位共同第一作者之一。“神經(jīng)網(wǎng)絡通過許多艱苦的研究,學到了許多人類以前知道的規(guī)則,除此之外,它還發(fā)現(xiàn)了蛋白質的新功能。”
可以將神經(jīng)網(wǎng)絡方法比喻為學習一種語言,在這種語言中,學習者可以建立語義理解,了解如何從字母和單詞的字符串構造復雜的句子。在蛋白質語言中,UniRep經(jīng)過培訓,可以探索公共數(shù)據(jù)庫中包含的蛋白質序列中的所有可能性,從而從其第一個氨基酸開始預測蛋白質序列中的下一個氨基酸。
在重復處理蛋白質的其余部分(一次一個氨基酸)的過程中,UniRep制作并利用了迄今為止在蛋白質中看到的序列的內部“摘要”,該小組稱其為“隱藏狀態(tài)”,考慮到其個體順序和結構特征。將這些信息以及來自許多其他蛋白質的結果反饋回其算法,UniRep逐漸修改了其構造隱藏狀態(tài)的方式,從而隨著時間的推移提高了其預測能力。
在語言類比中,基于對語法和單詞選擇的不斷改進,學習者將能夠以更高的可能性預測他們正在閱讀的句子的下一個單詞。
“我們在大約三周的時間內對UniRep進行了約2400萬個蛋白質序列的培訓,以使其能夠預測序列及其與諸如蛋白質穩(wěn)定性,二級結構以及內部序列對蛋白質內周圍溶劑的可及性之類的特性之間的聯(lián)系,” Grigory Khimulya是哈佛大學的學生,也是Biswas和Ethan C. Alley的共同第一作者。“ UniRep準確地描述了來自非常不同的蛋白質家族的蛋白質的這些特征,這些蛋白質的結構在先前的研究中得到了很好的表征,甚至在本質上沒有對應物的合成蛋白質中也是如此。”
該團隊將UniRep更進一步,并將其用作預測單個氨基酸取代如何影響蛋白質功能的工具。想想瘋子,但對于蛋白質。
該神經(jīng)網(wǎng)絡以多種生物學功能(包括酶催化,DNA結合,分子傳感)可靠地量化了8種不同蛋白質中單個氨基酸突變的影響。此外,他們使用維多利亞水母綠色熒光蛋白(GFP)作為模型,委托UniRep分析該蛋白的64,800個變異體,每個變異體帶有1–12個突變,這表明它可以準確預測突變的分布和相對負擔改變了蛋白質的亮度。
丘奇說:“與其他策略相比,我們的數(shù)據(jù)驅動方法在預測蛋白質的多種特性方面達到了最新或更高的性能,而成本卻遠低于其他方法。” “這使它成為許多領域蛋白質工程師的真正授權工具。”
推薦內容
-
11月19日江蘇疫情最新數(shù)據(jù)公布 江蘇昨日新增境外輸入無癥狀感
江蘇11月18日新增境外輸入無癥狀感染者1例。據(jù)消息顯示,11月18日0-24時,江蘇無新增確診病例,新增境外輸入無癥狀感染者1例。目前,在定點
-
今日四川疫情最新消息 新增境外輸入確診病例1例
四川疫情今日疫情具體詳情如何?想必大家都想值得,根據(jù)四川省衛(wèi)健委官方微博消息,昨日四川新增境外輸入確診病例1例,下面我們一起來看...
-
研究人員發(fā)現(xiàn)了一種威脅南極洲最豐富的海星的疾病
由巴塞羅那大學生物學院和生物多樣性研究所(IRBio)的專家領導的一項研究已經(jīng)確定了一種影響海星Odontaster validus的疾病,這是南極海底最
-
豆神教育現(xiàn)狀如何最新消息還有希望嗎?豆神大語文最近什么情況?
【導讀】你知道豆神教育嗎?據(jù)消息顯示,豆神教育,全稱是豆神教育科技(北京)股份有限公司,是一家在深圳證券交易所上市的公司。13日晚,豆
-
李靚蕾王力宏現(xiàn)狀最新消息:李靚蕾遭王力宏死亡威脅事件是怎么回
想必這段時間,大家對于李靚蕾遭王力宏死亡威脅一事是非常關注的。具體是什么情況呢?為什么會發(fā)生這樣的事呢?下面跟小編一起來了解下。...
-
10月一致性評價快速推進阿 阿莫西林膠囊成爆款品種
2018年無疑已經(jīng)進入倒計時模式,在一致性評價關鍵性的一年里,CDE每一次關于一致性評價動態(tài)的更新都牽動著醫(yī)藥人的心。10月一致性評價更是
-
李佳琦時尚先生封面 年賺2億是怎么辦到的?
【導讀】說到李佳琦大家都會知道是淘寶主播,但是也因為優(yōu)質的外表加上自身的努力讓李佳琦在網(wǎng)絡爆紅,今日李佳琦時尚先生封面公布感興...
-
廣州疫情最新消息現(xiàn)在是什么風險區(qū)?廣州疫情哪些地方被列為封控區(qū)
【摘要】非必要不外出、不出行、不遠行。如果您28天內有境外或14天內有國內中高風險區(qū)的旅居史,請及時向社區(qū)報告。2022廣州疫情最新消息截
-
新冠疫苗對感染奧密克戎毒株有用嗎?奧密克戎毒株傳染性怎么樣
【提醒】當前疫情形勢嚴峻復雜,防控不能放松。要時刻保持個人防護意識,支持配合防控措施,主動接種新冠病毒疫苗。11月29日電 綜合報道,
-
上海股神楊百萬去世的死因是什么?楊百萬得了什么???個人資料簡
上海股神楊百萬死因揭曉,楊百萬究竟得了什么病去世?而對于中國第一股民楊百萬去世的這個話題,今天的你是否也在關注著?究竟什么情況?下面