如何利用大數(shù)據(jù)捕獲魚(yú)類(lèi)基因組
如果你在美國(guó)吃魚(yú),很可能曾經(jīng)在另一個(gè)國(guó)家游過(guò)魚(yú)。據(jù)聯(lián)合國(guó)估計(jì),這是因?yàn)槊绹?guó)進(jìn)口的海鮮超過(guò)80%。新的基因研究可以幫助養(yǎng)殖魚(yú)類(lèi)更加美味,并將美國(guó)的野生魚(yú)類(lèi)帶到餐桌上??茖W(xué)家利用大數(shù)據(jù)和超級(jí)計(jì)算機(jī)捕獲魚(yú)類(lèi)基因組,這是其可持續(xù)水產(chǎn)養(yǎng)殖收獲的第一步。
研究人員首次匯集并注釋了基因組 - 魚(yú)類(lèi)物種Seriola dorsalis的總遺傳物質(zhì)。也被稱(chēng)為加利福尼亞黃尾魚(yú),它是生魚(yú)片或生海鮮產(chǎn)業(yè)的高價(jià)值的魚(yú)。該科學(xué)團(tuán)隊(duì)由美國(guó)國(guó)家海洋漁業(yè)局西南漁業(yè)科學(xué)中心,愛(ài)荷華州立大學(xué)和墨西哥國(guó)家政治研究所組成。他們于2018年1月在BMC Genomics期刊上發(fā)表了他們的研究結(jié)果。
該研究的共同作者,基因組信息學(xué)科學(xué)家和設(shè)施經(jīng)理Andrew Severin說(shuō):“該出版物的主要發(fā)現(xiàn)是對(duì)Seriola dorsalis基因組及其注釋進(jìn)行描述,同時(shí)更好地了解這種魚(yú)類(lèi)的性別決定。”愛(ài)荷華州立大學(xué)的設(shè)施。
“我們現(xiàn)在可以自信地說(shuō),”Severin補(bǔ)充說(shuō),“Seriola dorsalis有一個(gè)ZW性別決定系統(tǒng),我們知道它所包含的染色體以及實(shí)際決定這種魚(yú)性別的區(qū)域。”ZW是指性染色體,取決于雄性或雌性是否是雜合的(XX,XY或ZZ,ZW)。另一種思考方式是,在ZW性別測(cè)定中,魚(yú)卵的DNA分子決定了后代的性別。相比之下,在XY性別決定系統(tǒng)中,這種情況在人類(lèi)中發(fā)現(xiàn),精子決定了后代的性別。
很難區(qū)分雄性和雌性黃尾魚(yú),因?yàn)樗鼈儧](méi)有任何明顯的表型或外在物理特征。“能夠確定魚(yú)類(lèi)的性別非常重要,因?yàn)槲覀兛梢蚤_(kāi)發(fā)出一種標(biāo)記物,可以用來(lái)確定幼魚(yú)的性別,而這種標(biāo)記是你無(wú)法用表型確定的,”Severin解釋道。“這可以用來(lái)改善水產(chǎn)養(yǎng)殖實(shí)踐。”性別鑒定可以讓養(yǎng)殖漁民儲(chǔ)備適當(dāng)比例的雄性和雌性,并獲得更好的產(chǎn)量。
組裝和注釋基因組就像構(gòu)建一個(gè)巨大的三維拼圖游戲。Seriola dorsalis基因組有6.85億個(gè)片段 - 它們的DNA堿基對(duì) - 組合在一起。“基因注釋是基因組上編碼轉(zhuǎn)錄成蛋白質(zhì)的轉(zhuǎn)錄本的位置,”Severin解釋道。“蛋白質(zhì)是從食物消化到免疫系統(tǒng)激活到指甲生長(zhǎng)的全身生物化學(xué)運(yùn)作的分子機(jī)制。即使這是對(duì)所有規(guī)則的過(guò)度簡(jiǎn)化。”
Severin和他的團(tuán)隊(duì)匯集了來(lái)自數(shù)千個(gè)較小片段的685兆堿基(MB)對(duì)的基因組,每個(gè)片段都提供信息以形成完整的圖像。研究報(bào)告的共同作者Arun Seetharam說(shuō):“為了構(gòu)建完整的685 MB基因組,我們必須對(duì)它們進(jìn)行相當(dāng)深度的測(cè)序。”“這相當(dāng)于大量的數(shù)據(jù),”愛(ài)荷華州立大學(xué)基因組信息學(xué)設(shè)施的副科學(xué)家Seetharam補(bǔ)充說(shuō)。
原始DNA序列數(shù)據(jù)為Seriola dorsalis基因組的500千兆字節(jié),來(lái)自圣地亞哥Hubbs海洋世界研究所收集的幼魚(yú)的組織樣本。“為了將它們組合在一起,”Seetharam說(shuō),“我們需要一臺(tái)具有更多RAM的計(jì)算機(jī)將其全部放入計(jì)算機(jī)的內(nèi)存中,然后將它們組合在一起構(gòu)建685 MB的基因組。我們需要非常強(qiáng)大的機(jī)器。”
當(dāng)Seetharam意識(shí)到當(dāng)時(shí)愛(ài)荷華州立大學(xué)的計(jì)算資源不足以及時(shí)完成工作時(shí),他轉(zhuǎn)向XSEDE,這是由美國(guó)國(guó)家科學(xué)基金會(huì)資助的極限科學(xué)和工程發(fā)現(xiàn)環(huán)境。XSEDE是一個(gè)單一的虛擬系統(tǒng),科學(xué)家可以使用它來(lái)交互式共享計(jì)算資源,數(shù)據(jù)和專(zhuān)業(yè)知識(shí)。
“當(dāng)我們第一次開(kāi)始使用XSEDE資源時(shí),”Seetharam解釋道,“我們可以選擇ECSS,即擴(kuò)展協(xié)作支持服務(wù)。我們認(rèn)為如果有來(lái)自XSEDE的人幫助我們,這將是一個(gè)很大的幫助。我們選擇了ECSS。我們與匹茲堡超級(jí)計(jì)算中心的Phillip Blood的互動(dòng)對(duì)于讓我們?cè)赬SEDE資源上快速啟動(dòng)和運(yùn)行組件非常重要,“Seetharam說(shuō)。
該基因組組裝在匹茲堡超級(jí)計(jì)算中心(PSC)的Blacklight系統(tǒng)上計(jì)算了工作量,該系統(tǒng)曾經(jīng)是世界上最大的連貫共享內(nèi)存計(jì)算系統(tǒng)。此后,Blacklight已被PSC的以數(shù)據(jù)為中心的Bridges系統(tǒng)取代,該系統(tǒng)包括類(lèi)似的大型內(nèi)存節(jié)點(diǎn),最高可達(dá)12TB,是典型個(gè)人計(jì)算機(jī)的千兆倍。“當(dāng)時(shí)我們最終使用了Blacklight,因?yàn)樗泻芏郣AM,”Andrew Severin回憶道。那是因?yàn)樗麄冃枰獙⑺性紨?shù)據(jù)放入計(jì)算機(jī)的隨機(jī)存取存儲(chǔ)器(RAM)中,以便它可以使用Maryland Super-Read Celera Assembler基因組裝配軟件的算法。“你必須能夠?qū)⒚恳粋€(gè)序列數(shù)據(jù)與每個(gè)其他部分進(jìn)行比較,以確定哪些部分需要連接在一起,
“我們還使用了Stampede,”Severin繼續(xù)說(shuō)道,“第一個(gè)Stampede,它是另一個(gè)擁有大量計(jì)算節(jié)點(diǎn)的XSEDE計(jì)算資源。每個(gè)計(jì)算節(jié)點(diǎn)都可以看作是一臺(tái)獨(dú)立的計(jì)算機(jī)。”Texas Advanced的Stampede1系統(tǒng)計(jì)算中心擁有超過(guò)6,400個(gè)戴爾PowerEdge服務(wù)器節(jié)點(diǎn),后來(lái)又添加了508個(gè)英特爾Knights Landing(KNL)節(jié)點(diǎn),為其目前的繼任者Stampede2準(zhǔn)備了4,200個(gè)KNL節(jié)點(diǎn)。
“我們使用Stampede對(duì)我們?cè)诨蚪M中發(fā)現(xiàn)的這些基因模型進(jìn)行了注釋?zhuān)噲D弄清楚它們的功能是什么,”Severin說(shuō)。“這要求我們執(zhí)行稱(chēng)為基本局部對(duì)齊搜索工具(BLAST)的分析,并且它要求我們使用許多CPU,超過(guò)一年的計(jì)算時(shí)間,我們最終在幾周的實(shí)際時(shí)間內(nèi)完成,因?yàn)樵赟tampede上有很多節(jié)點(diǎn)。“
“這項(xiàng)實(shí)驗(yàn)始于與NOAA西南漁業(yè)科學(xué)中心的合作,”Severin解釋道。他說(shuō),該項(xiàng)目最初計(jì)劃完成一個(gè)大型的RNA-seq項(xiàng)目,結(jié)果發(fā)現(xiàn)有足夠的資金來(lái)進(jìn)行基因組裝配。“這導(dǎo)致了與西南漁業(yè)科學(xué)中心的長(zhǎng)期合作,”Severin說(shuō)。“隨著高通量DNA測(cè)序的最新進(jìn)展,我們現(xiàn)在能夠生成數(shù)TB的測(cè)序數(shù)據(jù)。這往往很短,100-150堿基對(duì)讀數(shù),我們必須將它們放在一起,就像一個(gè)非常大的謎題并弄清楚所有的作品都去了,“他補(bǔ)充道。
Severin和Seetharam的團(tuán)隊(duì)完成了Seriola dorsalis基因組的基本圖片,但是他們說(shuō)還有改進(jìn)的空間。“我們組裝的基因組并不完美,因?yàn)樗匀淮嬖谠S多碎片。我們無(wú)法完全拼湊整個(gè)染色體,”Seetharam解釋道。“我們有許多代表每條染色體的支架,我們?nèi)鄙偬钛a(bǔ)空白所需的大量信息。”Seetharam說(shuō),測(cè)序技術(shù)的進(jìn)步可以解決這些差距,通過(guò)可以產(chǎn)生更長(zhǎng)DNA讀取的測(cè)序技術(shù)的進(jìn)步。
“我們也在論文中假設(shè),”Severin說(shuō),“這種缺失位于將雌酮轉(zhuǎn)化為雌激素的基因的上游,這是性決定途徑的一部分。這可能是性別決定的原因。但由于它只是一個(gè)假設(shè)基于計(jì)算方法,這需要在實(shí)驗(yàn)室進(jìn)一步研究。我們當(dāng)然可以通過(guò)類(lèi)似CRISPR的實(shí)驗(yàn)來(lái)測(cè)試這種突變。“
Severin還提到了用于更大的全基因組關(guān)聯(lián)研究實(shí)驗(yàn)的數(shù)據(jù)收集,以找到與頜畸形相關(guān)的基因組中的位置和變體。“我們目前正在收集這些樣本,”Severin說(shuō),“但我們將能夠利用該基因組為農(nóng)民提供標(biāo)記,以選擇對(duì)抗下頜畸形這些傾向的魚(yú)類(lèi)。”
Severin和Seetharam都堅(jiān)信大數(shù)據(jù)可以解決可持續(xù)糧食生產(chǎn)中的問(wèn)題。“我相信公眾將會(huì)看到更多這種大數(shù)據(jù)的利用,并了解為什么科學(xué)對(duì)我們的未來(lái)如此重要,”Severin說(shuō)。他認(rèn)為,基因注釋只是冰山一角。“我們將開(kāi)始比較基因組裝配,開(kāi)始了解基因組是什么以及它是如何工作的;以及特定基因組如何確定基因的存在與否或其三維結(jié)構(gòu)的背景,這是如何成為一個(gè)物種,“塞弗林說(shuō)。
“大數(shù)據(jù)不斷變大,我們正在尋找真正有趣問(wèn)題的答案。”塞弗林總結(jié)道。Seetharam補(bǔ)充說(shuō):“將有更多的研究使用對(duì)公眾具有重大影響的大數(shù)據(jù)。這一級(jí)別的研究將在未來(lái)促進(jìn)更大規(guī)模的研究。”
這項(xiàng)研究“對(duì)Seriola dorsalis基因組裝配的硬骨魚(yú)性別測(cè)定的見(jiàn)解”于2018年1月發(fā)表在BMC Genomics期刊上。
推薦內(nèi)容
-
水果越酸含維生素C越高?大家都想知道
相信很多人都被“誤導(dǎo)”過(guò)。因?yàn)楝F(xiàn)在的網(wǎng)絡(luò)信息非常豐富和更新迅速,還沒(méi)等我們了解事情的詳情,下一秒就又反轉(zhuǎn)了。所以大家在獲取信息...
-
討厭別人看我這是什么心理
現(xiàn)在的人們?cè)絹?lái)越物質(zhì)化了,什么都要攀比,其實(shí)生活是自己的,過(guò)得開(kāi)不開(kāi)心只有自己知道。有時(shí)候我們真的不需要在意別人的眼光,做自己...
-
肺癌的治療方法可能支持疾病的進(jìn)展
表觀遺傳調(diào)控因子可以調(diào)節(jié)基因的開(kāi)啟和關(guān)閉,這是一種具有吸引力的抗癌靶點(diǎn),但這種策略在體內(nèi)是否有效尚未得到證實(shí)。對(duì)小鼠的研究由波...
-
團(tuán)隊(duì)發(fā)現(xiàn)了描述由傳染因子引起的營(yíng)養(yǎng)級(jí)聯(lián)的新范例
當(dāng)灰狼重新引入黃石國(guó)家公園時(shí),它們引發(fā)了白楊樹(shù)的復(fù)活。年輕的白楊樹(shù)已經(jīng)被摧毀,幾乎消失了,麋鹿的禮貌,在所謂的營(yíng)養(yǎng)級(jí)聯(lián) - 一個(gè)生
-
北京市科協(xié)、北京市網(wǎng)信辦等單位發(fā)布8月“科學(xué)”流言榜? 還真不
北京市科協(xié)、北京市網(wǎng)信辦等單位發(fā)布8月“科學(xué)”流言榜? 還真不一定!信息時(shí)代的來(lái)臨,信息被大眾獲取的途徑多種多樣,但也出現(xiàn)了很多...
-
新疆首例!
新疆首例! 來(lái) 源 :石榴云 新疆日?qǐng)?bào)“這種瓣膜的柔韌性更強(qiáng),比較適合中老年主動(dòng)脈瓣膜狹窄患者,哪怕只有4—6毫米,也不影響