中文字幕在线天|亚洲一区二区三区手机版|少妇中文字幕乱码亚洲影视|最好看的久久综合伊人

      中國基因網(wǎng)您的位置:首頁 >企業(yè)新聞 >

      基于深度學(xué)習(xí)的模型DeepSpCas9預(yù)測SpCas9的活動

      在一份關(guān)于科學(xué)進(jìn)步的新報(bào)告中,大韓民國藥理學(xué),電氣與計(jì)算機(jī)工程,醫(yī)學(xué),納米醫(yī)學(xué)和生物信息學(xué)系的許權(quán)權(quán)和跨學(xué)科研究人員評估了SpCas9的活性;化膿性鏈球菌的一種細(xì)菌RNA引導(dǎo)的Cas9 核酸內(nèi)切酶變體(一種可切割DNA進(jìn)行基因組編輯的細(xì)菌酶)。他們基于人類細(xì)胞文庫,使用了具有12,832個目標(biāo)序列的高通量方法來構(gòu)建深度學(xué)習(xí)模型并預(yù)測SpCas9的活性。

      基于深度學(xué)習(xí)的模型DeepSpCas9預(yù)測SpCas9的活動

      數(shù)據(jù)包含寡核苷酸(核苷酸或構(gòu)件),該寡核苷酸包含靶序列對和相應(yīng)的指導(dǎo)序列以編碼單指導(dǎo)RNA(sgRNA),該單指導(dǎo)RNA可以指導(dǎo)Cas9蛋白結(jié)合并切割特定的DNA序列以進(jìn)行基因組編輯。他們在SpCas9誘導(dǎo)的indel (插入或缺失)頻率的大型數(shù)據(jù)集上實(shí)施了基于深度學(xué)習(xí)的訓(xùn)練,以開發(fā)名為DeepSpCas9的SpCas9活動預(yù)測模型,該模型現(xiàn)已在線提供。當(dāng)團(tuán)隊(duì)針對獨(dú)立生成的數(shù)據(jù)集測試該軟件時(shí),結(jié)果顯示出較高的泛化性能,即該模型可以適當(dāng)?shù)剡m應(yīng)以前看不見的新數(shù)據(jù)。

      所述CRISPR-CAS原核適應(yīng)性免疫系統(tǒng)用作基因組編輯用工具的轉(zhuǎn)化研究在多種物種和潛在的細(xì)胞類型,包括人細(xì)胞,其中所述容量準(zhǔn)確地預(yù)測SpCas9酶的活性是很重要的。研究人員先前已經(jīng)開發(fā)了幾種計(jì)算模型,這些模型可以根據(jù)基因編輯細(xì)胞的表型變化數(shù)據(jù)集或基于中等大小的質(zhì)粒數(shù)據(jù)庫(在細(xì)菌和其他細(xì)胞之間轉(zhuǎn)移基因的載體)的庫對庫方法來預(yù)測SpCas9的活性。。但是,由于數(shù)據(jù)集的質(zhì)量和大小都不理想,因此這些模型的泛化性能受到限制。例如,模型預(yù)測的基因插入和缺失(indels)以創(chuàng)建功能性敲除模型(一種在實(shí)驗(yàn)室中的實(shí)驗(yàn)動物模型中使基因失活的方法)會導(dǎo)致假陰性。此外,這些SpCas9誘導(dǎo)的插入缺失頻率數(shù)據(jù)集也只是中等大小。

      Kim等。此前曾報(bào)道,一個名為深學(xué)習(xí)型計(jì)算模型DeepCpf1預(yù)測不同的核酸內(nèi)切酶(從AsCpf1的活性氨基酸球菌種)具有較高的推廣性能。為此,他們使用了指導(dǎo)RNA編碼的慢病毒文庫,目標(biāo)序列對來生成稱為DeepCpf1的大型訓(xùn)練數(shù)據(jù)集。盡管使用類似的基于庫的方法來開發(fā)可預(yù)測 Cas9酶產(chǎn)生的插入缺失頻率的計(jì)算模型,但仍有大量Cas9誘導(dǎo)的頻率數(shù)據(jù)集尚待形成。

      因此,科學(xué)家必須開發(fā)具有高泛化性能的Cas9活動預(yù)測計(jì)算模型。在這項(xiàng)工作中,金等人。通過修改之前開發(fā)的DeepCpf1方法以形成DeepSpCas9,生成了一個高通量模型來測試SpCas9誘導(dǎo)的成千上萬個靶序列的插入缺失頻率。DeepSpCas9 Web工具是基于深度學(xué)習(xí)的模型,可以以較高的泛化性能準(zhǔn)確預(yù)測SpCas9的活動。

      Kim等。首先準(zhǔn)備了一個慢病毒(一個復(fù)雜的逆轉(zhuǎn)錄病毒亞家族,可以整合外源DNA)文庫,包含15656個指導(dǎo)RNA(gRNA)編碼和目標(biāo)序列對,用于SpCas9活性的高通量評估。該研究小組使用聚合酶鏈反應(yīng)(PCR)擴(kuò)增了包含指導(dǎo)序列和靶序列對的寡核苷酸庫,并使用Gibson DNA組裝技術(shù)將它們克隆到慢病毒質(zhì)粒(用于在細(xì)胞之間轉(zhuǎn)移遺傳物質(zhì)的轉(zhuǎn)基因傳遞系統(tǒng))中。

      研究人員采用兩步法切割質(zhì)粒,并在切割位點(diǎn)插入sgRNA支架序列以生成質(zhì)粒文庫。為了隨后形成細(xì)胞文庫,科學(xué)家用從質(zhì)粒文庫產(chǎn)生的慢病毒處理了人類胚胎腎細(xì)胞(HEK 293T)?,F(xiàn)在,每個細(xì)胞在其基因組中都包含一個合成靶序列,并表達(dá)了相應(yīng)的sgRNA。然后,科學(xué)家用編碼SpCas9的慢病毒處理細(xì)胞文庫,從而在靶序列上引起sgRNA定向的切割和插入缺失形成,其頻率取決于sgRNA的活性。為了測量插入缺失的頻率,科學(xué)家對目標(biāo)序列進(jìn)行了PCR擴(kuò)增,并對其進(jìn)行了深度測序?;诟咄繉?shí)驗(yàn),Kim等人。生成了兩個數(shù)據(jù)集,用于訓(xùn)練和測試DeepSpCas9模型。

      科學(xué)家在具有不同染色質(zhì)可及性(染色質(zhì)結(jié)構(gòu)修飾對基因轉(zhuǎn)錄的影響)的124個內(nèi)源靶位點(diǎn)上選擇了SpCas9活性,以測試整合的合成靶序列的插入缺失頻率是否與相應(yīng)內(nèi)源位點(diǎn)的插入缺失頻率相關(guān)。他們觀察到根深蒂固的靶位點(diǎn)和HEK細(xì)胞內(nèi)源性位點(diǎn)的插入缺失頻率之間存在很強(qiáng)的相關(guān)性。

      研究團(tuán)隊(duì)接下來開發(fā)了一個精確的計(jì)算模型,以使用端到端深度學(xué)習(xí)框架形成DeepSpCas9并預(yù)測SpCas9的活動來預(yù)測大型數(shù)據(jù)集上的SpCas9的活動。對于基本模型架構(gòu),他們使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN,類似于普通神經(jīng)網(wǎng)絡(luò)),對于輸入序列,他們使用了30個核苷酸的序列,并使用一鍵編碼將其轉(zhuǎn)換為二維二進(jìn)制矩陣(將包含數(shù)字分類數(shù)據(jù)的列拆分為許多列)。為了了解模型選擇和訓(xùn)練的通用性能,該團(tuán)隊(duì)使用Spearman相關(guān)性進(jìn)行了10倍交叉驗(yàn)證 實(shí)驗(yàn)測量值與預(yù)測的Cas9活性水平之間的系數(shù)。

      當(dāng)他們增加用于交叉驗(yàn)證的訓(xùn)練數(shù)據(jù)集的大小時(shí),實(shí)驗(yàn)indel頻率和DeepSpCas9模型的預(yù)測分?jǐn)?shù)之間的平均Spearman相關(guān)系數(shù)穩(wěn)步增加到0.77。與以前用于SpCas9活動預(yù)測的傳統(tǒng)機(jī)器學(xué)習(xí)算法(如支持向量機(jī)(SVM),AdaBoost(自適應(yīng)提升),隨機(jī)森林和梯度增強(qiáng)回歸樹)相比,DeepSpCas9模型的Spearman相關(guān)性明顯更高??傮w而言,DeepSpCas9在所有型號中均表現(xiàn)出最佳性能。

      在以前的工作中,Kim等人??紤]了染色質(zhì)可及性信息,以改善對內(nèi)源性靶位點(diǎn)AsCpf1酶活性的預(yù)測。他們試圖確定這些考慮因素是否還會改善SpCas9的活動預(yù)測。結(jié)果表明,與他們以前使用AsCpf1所做的努力相比,利用染色質(zhì)可訪問性信息進(jìn)行的微調(diào)僅能提高DeepSpCas9預(yù)測內(nèi)源位點(diǎn)插入缺失頻率的準(zhǔn)確性。因此,與先前開發(fā)的DeepCpf1算法形成鮮明對比的是,染色質(zhì)可訪問性僅對SpCas9活性產(chǎn)生了輕微影響。

      為了了解DeepSpCas9的泛化性能,研究小組使用了足夠大的,已發(fā)布的,來自各種研究的數(shù)據(jù)集作為測試數(shù)據(jù),對該模型進(jìn)行了測試。他們將結(jié)果與其他SpCas9活動預(yù)測程序(例如DeepCRISPR)的結(jié)果進(jìn)行了比較。結(jié)果表明,在用于預(yù)測SpCas9活性的9個已發(fā)布模型中,DeepSpCas9保持最高的泛化功能。這樣,Hui Kwon Kim和研究團(tuán)隊(duì)使用DeepSpCas9網(wǎng)絡(luò)工具(現(xiàn)已在線提供,連同補(bǔ)充代碼)廣泛驗(yàn)證了準(zhǔn)確預(yù)測SpCas9活動的潛力。提供給研究科學(xué)家將DeepSpCas9整合到現(xiàn)有模型中?;贒eepSpCas9的高泛化性能,研究團(tuán)隊(duì)希望能夠提高基于SpCas9的基因組編輯的準(zhǔn)確性。

      鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。

      推薦內(nèi)容