基于深度學(xué)習(xí)的模型DeepSpCas9預(yù)測SpCas9的活動
在一份關(guān)于科學(xué)進(jìn)步的新報(bào)告中,大韓民國藥理學(xué),電氣與計(jì)算機(jī)工程,醫(yī)學(xué),納米醫(yī)學(xué)和生物信息學(xué)系的許權(quán)權(quán)和跨學(xué)科研究人員評估了SpCas9的活性;化膿性鏈球菌的一種細(xì)菌RNA引導(dǎo)的Cas9 核酸內(nèi)切酶變體(一種可切割DNA進(jìn)行基因組編輯的細(xì)菌酶)。他們基于人類細(xì)胞文庫,使用了具有12,832個目標(biāo)序列的高通量方法來構(gòu)建深度學(xué)習(xí)模型并預(yù)測SpCas9的活性。
數(shù)據(jù)包含寡核苷酸(核苷酸或構(gòu)件),該寡核苷酸包含靶序列對和相應(yīng)的指導(dǎo)序列以編碼單指導(dǎo)RNA(sgRNA),該單指導(dǎo)RNA可以指導(dǎo)Cas9蛋白結(jié)合并切割特定的DNA序列以進(jìn)行基因組編輯。他們在SpCas9誘導(dǎo)的indel (插入或缺失)頻率的大型數(shù)據(jù)集上實(shí)施了基于深度學(xué)習(xí)的訓(xùn)練,以開發(fā)名為DeepSpCas9的SpCas9活動預(yù)測模型,該模型現(xiàn)已在線提供。當(dāng)團(tuán)隊(duì)針對獨(dú)立生成的數(shù)據(jù)集測試該軟件時(shí),結(jié)果顯示出較高的泛化性能,即該模型可以適當(dāng)?shù)剡m應(yīng)以前看不見的新數(shù)據(jù)。
所述CRISPR-CAS原核適應(yīng)性免疫系統(tǒng)用作基因組編輯用工具的轉(zhuǎn)化研究在多種物種和潛在的細(xì)胞類型,包括人細(xì)胞,其中所述容量準(zhǔn)確地預(yù)測SpCas9酶的活性是很重要的。研究人員先前已經(jīng)開發(fā)了幾種計(jì)算模型,這些模型可以根據(jù)基因編輯細(xì)胞的表型變化數(shù)據(jù)集或基于中等大小的質(zhì)粒數(shù)據(jù)庫(在細(xì)菌和其他細(xì)胞之間轉(zhuǎn)移基因的載體)的庫對庫方法來預(yù)測SpCas9的活性。。但是,由于數(shù)據(jù)集的質(zhì)量和大小都不理想,因此這些模型的泛化性能受到限制。例如,模型預(yù)測的基因插入和缺失(indels)以創(chuàng)建功能性敲除模型(一種在實(shí)驗(yàn)室中的實(shí)驗(yàn)動物模型中使基因失活的方法)會導(dǎo)致假陰性。此外,這些SpCas9誘導(dǎo)的插入缺失頻率數(shù)據(jù)集也只是中等大小。
Kim等。此前曾報(bào)道,一個名為深學(xué)習(xí)型計(jì)算模型DeepCpf1預(yù)測不同的核酸內(nèi)切酶(從AsCpf1的活性氨基酸球菌種)具有較高的推廣性能。為此,他們使用了指導(dǎo)RNA編碼的慢病毒文庫,目標(biāo)序列對來生成稱為DeepCpf1的大型訓(xùn)練數(shù)據(jù)集。盡管使用類似的基于庫的方法來開發(fā)可預(yù)測 Cas9酶產(chǎn)生的插入缺失頻率的計(jì)算模型,但仍有大量Cas9誘導(dǎo)的頻率數(shù)據(jù)集尚待形成。
因此,科學(xué)家必須開發(fā)具有高泛化性能的Cas9活動預(yù)測計(jì)算模型。在這項(xiàng)工作中,金等人。通過修改之前開發(fā)的DeepCpf1方法以形成DeepSpCas9,生成了一個高通量模型來測試SpCas9誘導(dǎo)的成千上萬個靶序列的插入缺失頻率。DeepSpCas9 Web工具是基于深度學(xué)習(xí)的模型,可以以較高的泛化性能準(zhǔn)確預(yù)測SpCas9的活動。
Kim等。首先準(zhǔn)備了一個慢病毒(一個復(fù)雜的逆轉(zhuǎn)錄病毒亞家族,可以整合外源DNA)文庫,包含15656個指導(dǎo)RNA(gRNA)編碼和目標(biāo)序列對,用于SpCas9活性的高通量評估。該研究小組使用聚合酶鏈反應(yīng)(PCR)擴(kuò)增了包含指導(dǎo)序列和靶序列對的寡核苷酸庫,并使用Gibson DNA組裝技術(shù)將它們克隆到慢病毒質(zhì)粒(用于在細(xì)胞之間轉(zhuǎn)移遺傳物質(zhì)的轉(zhuǎn)基因傳遞系統(tǒng))中。
研究人員采用兩步法切割質(zhì)粒,并在切割位點(diǎn)插入sgRNA支架序列以生成質(zhì)粒文庫。為了隨后形成細(xì)胞文庫,科學(xué)家用從質(zhì)粒文庫產(chǎn)生的慢病毒處理了人類胚胎腎細(xì)胞(HEK 293T)?,F(xiàn)在,每個細(xì)胞在其基因組中都包含一個合成靶序列,并表達(dá)了相應(yīng)的sgRNA。然后,科學(xué)家用編碼SpCas9的慢病毒處理細(xì)胞文庫,從而在靶序列上引起sgRNA定向的切割和插入缺失形成,其頻率取決于sgRNA的活性。為了測量插入缺失的頻率,科學(xué)家對目標(biāo)序列進(jìn)行了PCR擴(kuò)增,并對其進(jìn)行了深度測序?;诟咄繉?shí)驗(yàn),Kim等人。生成了兩個數(shù)據(jù)集,用于訓(xùn)練和測試DeepSpCas9模型。
科學(xué)家在具有不同染色質(zhì)可及性(染色質(zhì)結(jié)構(gòu)修飾對基因轉(zhuǎn)錄的影響)的124個內(nèi)源靶位點(diǎn)上選擇了SpCas9活性,以測試整合的合成靶序列的插入缺失頻率是否與相應(yīng)內(nèi)源位點(diǎn)的插入缺失頻率相關(guān)。他們觀察到根深蒂固的靶位點(diǎn)和HEK細(xì)胞內(nèi)源性位點(diǎn)的插入缺失頻率之間存在很強(qiáng)的相關(guān)性。
研究團(tuán)隊(duì)接下來開發(fā)了一個精確的計(jì)算模型,以使用端到端深度學(xué)習(xí)框架形成DeepSpCas9并預(yù)測SpCas9的活動來預(yù)測大型數(shù)據(jù)集上的SpCas9的活動。對于基本模型架構(gòu),他們使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN,類似于普通神經(jīng)網(wǎng)絡(luò)),對于輸入序列,他們使用了30個核苷酸的序列,并使用一鍵編碼將其轉(zhuǎn)換為二維二進(jìn)制矩陣(將包含數(shù)字分類數(shù)據(jù)的列拆分為許多列)。為了了解模型選擇和訓(xùn)練的通用性能,該團(tuán)隊(duì)使用Spearman相關(guān)性進(jìn)行了10倍交叉驗(yàn)證 實(shí)驗(yàn)測量值與預(yù)測的Cas9活性水平之間的系數(shù)。
當(dāng)他們增加用于交叉驗(yàn)證的訓(xùn)練數(shù)據(jù)集的大小時(shí),實(shí)驗(yàn)indel頻率和DeepSpCas9模型的預(yù)測分?jǐn)?shù)之間的平均Spearman相關(guān)系數(shù)穩(wěn)步增加到0.77。與以前用于SpCas9活動預(yù)測的傳統(tǒng)機(jī)器學(xué)習(xí)算法(如支持向量機(jī)(SVM),AdaBoost(自適應(yīng)提升),隨機(jī)森林和梯度增強(qiáng)回歸樹)相比,DeepSpCas9模型的Spearman相關(guān)性明顯更高??傮w而言,DeepSpCas9在所有型號中均表現(xiàn)出最佳性能。
在以前的工作中,Kim等人??紤]了染色質(zhì)可及性信息,以改善對內(nèi)源性靶位點(diǎn)AsCpf1酶活性的預(yù)測。他們試圖確定這些考慮因素是否還會改善SpCas9的活動預(yù)測。結(jié)果表明,與他們以前使用AsCpf1所做的努力相比,利用染色質(zhì)可訪問性信息進(jìn)行的微調(diào)僅能提高DeepSpCas9預(yù)測內(nèi)源位點(diǎn)插入缺失頻率的準(zhǔn)確性。因此,與先前開發(fā)的DeepCpf1算法形成鮮明對比的是,染色質(zhì)可訪問性僅對SpCas9活性產(chǎn)生了輕微影響。
為了了解DeepSpCas9的泛化性能,研究小組使用了足夠大的,已發(fā)布的,來自各種研究的數(shù)據(jù)集作為測試數(shù)據(jù),對該模型進(jìn)行了測試。他們將結(jié)果與其他SpCas9活動預(yù)測程序(例如DeepCRISPR)的結(jié)果進(jìn)行了比較。結(jié)果表明,在用于預(yù)測SpCas9活性的9個已發(fā)布模型中,DeepSpCas9保持最高的泛化功能。這樣,Hui Kwon Kim和研究團(tuán)隊(duì)使用DeepSpCas9網(wǎng)絡(luò)工具(現(xiàn)已在線提供,連同補(bǔ)充代碼)廣泛驗(yàn)證了準(zhǔn)確預(yù)測SpCas9活動的潛力。提供給研究科學(xué)家將DeepSpCas9整合到現(xiàn)有模型中?;贒eepSpCas9的高泛化性能,研究團(tuán)隊(duì)希望能夠提高基于SpCas9的基因組編輯的準(zhǔn)確性。
推薦內(nèi)容
-
新方法可監(jiān)控CAR T細(xì)胞
2019年2月20日消息,—嵌合抗原受體-T(Chimeric Antigen Receptor-T,CAR-T)細(xì)胞療法已經(jīng)在血液瘤病人身上產(chǎn)生了顯著的療效。但是這個領(lǐng)
-
研究人員揭示了癌癥治療關(guān)鍵分子靶標(biāo)的三維結(jié)構(gòu)
哥倫比亞大學(xué)的科學(xué)家們與Nimbus Therapeutics的研究人員合作,揭開了一種代謝酶的神秘面紗,這種酶可能成為癌癥治療的下一個主要分子靶點(diǎn)
-
FDA局長Scott Gottlieb宣布退休
據(jù)FiercePharma報(bào)道,在管理FDA不到兩年后,Scott Gottlieb正在辦理辭職。他的突然離職可能會給生物制藥行業(yè)帶來沖擊,因?yàn)镾cott Gottlie
-
研究將染色體區(qū)域的大量拷貝與化學(xué)治療藥物抗性聯(lián)系起來
貝爾維特生物醫(yī)學(xué)研究所(IDIBELL)的研究人員,貝勒醫(yī)學(xué)院(休斯頓)和阿斯圖里亞斯大學(xué)腫瘤學(xué)研究所(IUOPA)的合作者今天在癌癥研究中發(fā)表了一
-
科學(xué)家呼吁對環(huán)境基因編輯進(jìn)行仔細(xì)監(jiān)督
在布基納法索,政府正在考慮使用轉(zhuǎn)基因蚊子來消滅瘧疾。在馬薩諸塞州的楠塔基特,官員們正在將基因編輯作為抗擊萊姆病的工具??茖W(xué)家正...
-
聯(lián)合治療顯示出移植HCV感染器官的希望
數(shù)據(jù)從一個新的研究肝臟提交本周會議?- guardarado協(xié)會美國肝臟感染科研究發(fā)現(xiàn),結(jié)合抗病毒治療(斯)ezetimibe─的直接行動的膽固醇的藥...
-
數(shù)字醫(yī)療基金以193筆交易中的$ 3.4B刷新了H1記錄
根據(jù)Rock Health的最新報(bào)告,數(shù)字醫(yī)療資金在2018年上半年繼續(xù)打破紀(jì)錄,達(dá)到193個交易的34億美元,創(chuàng)六個月新高。持續(xù)的增長體現(xiàn)了數(shù)字醫(yī)
-
哺乳動物與4億年前的魚共享控制心臟的機(jī)制
根據(jù)一項(xiàng)新的研究,原始的空氣呼吸魚,其直接祖先最早出現(xiàn)在4億年前,顯示出控制心臟的機(jī)制,這種機(jī)制以前被認(rèn)為只在哺乳動物中發(fā)現(xiàn)。哺乳
-
發(fā)現(xiàn)了基因調(diào)控蛋白的新功能
瑞典Umeå和斯德哥爾摩大學(xué)以及美國約翰霍普金斯大學(xué)醫(yī)學(xué)院的研究人員在Molecular Cell雜志上發(fā)表了一項(xiàng)新研究。他們展示了蛋白質(zhì)CBP
-
研究發(fā)現(xiàn)噬菌體可以對腸道微生物組的動態(tài)產(chǎn)生深遠(yuǎn)的影響
腸道微生物組是一個復(fù)雜的,相互關(guān)聯(lián)的物種生態(tài)系統(tǒng)。而且,像任何生態(tài)系統(tǒng)一樣,有些生物是捕食者,有些是獵物。由布里格姆婦女醫(yī)院和Wyss