科學(xué)家提出了一種更快 更準(zhǔn)確地研究DNA的算法
來(lái)自德國(guó),美國(guó)和俄羅斯的科學(xué)家團(tuán)隊(duì),包括MIPT生物信息學(xué)系主任Mark Borodovsky博士,提出了一種自動(dòng)搜索基因的算法,使其更有效率。新開(kāi)發(fā)結(jié)合了最先進(jìn)的基因組數(shù)據(jù)工具的優(yōu)勢(shì)。這種新方法將使科學(xué)家能夠更快,更準(zhǔn)確地分析DNA序列,并識(shí)別基因組中的全套基因。
盡管描述該算法的論文最近才出現(xiàn)在由牛津期刊出版的生物信息學(xué)期刊上,但已經(jīng)證明該方法非常受歡迎 - 計(jì)算機(jī)軟件程序已被全球1500多個(gè)不同的中心和實(shí)驗(yàn)室下載。該算法的測(cè)試表明它比其他類似算法準(zhǔn)確得多。
該發(fā)展涉及生物信息學(xué)跨學(xué)科領(lǐng)域的應(yīng)用。生物信息學(xué)將數(shù)學(xué),統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)結(jié)合起來(lái)研究生物分子,如DNA,RNA和蛋白質(zhì)結(jié)構(gòu)。DNA基本上是一種信息分子,有時(shí)甚至以計(jì)算機(jī)化的形式描述(見(jiàn)圖1),以強(qiáng)調(diào)其作為生物記憶分子的作用。生物信息學(xué)是一個(gè)非常熱門的話題; 每個(gè)新的測(cè)序基因組都會(huì)引發(fā)許多額外的問(wèn)題,科學(xué)家根本沒(méi)有時(shí)間回答這些問(wèn)題。因此,自動(dòng)化流程是任何生物信息學(xué)項(xiàng)目成功的關(guān)鍵,這些算法對(duì)于解決各種各樣的問(wèn)題至關(guān)重要。
生物信息學(xué)最重要的領(lǐng)域之一是注釋基因組 - 確定哪些特定的DNA分子用于合成RNA和蛋白質(zhì)(見(jiàn)圖2)。這些部分 - 基因 - 具有重大的科學(xué)意義。事實(shí)上,在許多研究中,科學(xué)家并不需要有關(guān)整個(gè)基因組的信息(對(duì)于單個(gè)人類細(xì)胞約為2米長(zhǎng)),而是關(guān)于其信息最豐富的部分 - 基因。通過(guò)搜索序列片段和已知基因之間的相似性,或通過(guò)檢測(cè)核苷酸序列的一致模式來(lái)鑒定基因部分。該過(guò)程使用預(yù)測(cè)算法來(lái)執(zhí)行。
定位基因切片并非易事,特別是在真核生物中,除了細(xì)菌外,其中包括幾乎所有廣為人知的有機(jī)體類型。這是因?yàn)樵谶@些細(xì)胞中,遺傳信息的轉(zhuǎn)移由于編碼區(qū)(內(nèi)含子)中的“缺口”而變得復(fù)雜,并且因?yàn)闆](méi)有明確的指標(biāo)來(lái)確定區(qū)域是否是編碼區(qū)。
科學(xué)家提出的算法確定DNA中哪些區(qū)域是基因,哪些區(qū)域不是。科學(xué)家使用馬爾可夫鏈,這是一系列隨機(jī)事件,其未來(lái)取決于過(guò)去的事件。在這種情況下,鏈的狀態(tài)是核苷酸或核苷酸詞(k-mers)。該算法確定基因組最可能的劃分為編碼區(qū)和非編碼區(qū),根據(jù)它們編碼蛋白質(zhì)或RNA的能力以最佳方式對(duì)基因組片段進(jìn)行分類。從RNA獲得的實(shí)驗(yàn)數(shù)據(jù)給出了額外的有用信息,其可用于訓(xùn)練算法中使用的模型。某些基因預(yù)測(cè)程序可以使用該數(shù)據(jù)來(lái)提高發(fā)現(xiàn)基因的準(zhǔn)確性。但是,這些算法需要對(duì)模型進(jìn)行特定類型的訓(xùn)練。對(duì)于AUGUSTUS軟件程序,例如,具有高水平的準(zhǔn)確性,需要訓(xùn)練基因組。這個(gè)集合可以使用另一個(gè)程序GeneMark-ET獲得 - 這是一種自我訓(xùn)練算法。這兩種算法結(jié)合在BRAKER1算法中,該算法由AUGUSTUS和GeneMark-ET的開(kāi)發(fā)人員聯(lián)合提出。
BRAKER1已經(jīng)證明了高效率。已開(kāi)發(fā)的程序已被1500多個(gè)不同的中心和實(shí)驗(yàn)室下載。該算法的測(cè)試表明它比其他類似算法準(zhǔn)確得多。BRAKER1在單個(gè)處理器上的運(yùn)行時(shí)間為~17.5小時(shí),用于訓(xùn)練和預(yù)測(cè)長(zhǎng)度為120兆堿基的基因組??紤]到使用并行處理器可以顯著減少這個(gè)時(shí)間,這是一個(gè)很好的結(jié)果,這意味著將來(lái),算法可能更快,通常更有效。
諸如此類的工具解決了各種問(wèn)題。準(zhǔn)確地在基因組中注釋基因是非常重要的 - 例如全球1000基因組項(xiàng)目,其初步結(jié)果已經(jīng)發(fā)表。該項(xiàng)目于2008年啟動(dòng),涉及來(lái)自75個(gè)不同實(shí)驗(yàn)室和公司的研究人員。發(fā)現(xiàn)了稀有基因變異和基因取代的序列,其中一些可導(dǎo)致疾病。在診斷遺傳性疾病時(shí),了解基因切片中的哪些取代會(huì)導(dǎo)致疾病發(fā)展是非常重要的。該項(xiàng)目繪制了不同人群的基因組圖譜,注意到它們的編碼區(qū),并鑒定了罕見(jiàn)的核苷酸取代。將來(lái),這將有助于醫(yī)生診斷心臟病,糖尿病和癌癥等復(fù)雜疾病。
BRAKER1使科學(xué)家能夠有效地利用新生物的基因組,加快注釋基因組和獲取生命科學(xué)基本知識(shí)的過(guò)程。
推薦內(nèi)容
-
研究人員確定了導(dǎo)致肝纖維化的蛋白質(zhì)
一個(gè)國(guó)際科學(xué)家團(tuán)隊(duì)發(fā)現(xiàn)了一種長(zhǎng)期尋找的導(dǎo)致肝纖維化(瘢痕形成)的蛋白質(zhì),為新療法鋪平了道路。該研究發(fā)表在Nature Genetics期刊上。由澳
-
哪些基因?qū)偶?xì)菌的能量代謝至關(guān)重要
由維也納大學(xué)的Christa Schleper領(lǐng)導(dǎo)的一個(gè)研究小組成功地從土壤中分離出了第一個(gè)氨氧化古菌:Nitrososphaera viennensis--來(lái)自維也納的
-
科學(xué)家們將探索感染流感的老鼠的肺部
在生物化學(xué)家和作家艾薩克·阿西莫夫(Isaac Asimov)撰寫(xiě)的1966年小說(shuō)神奇之旅(Fantastic Voyage)中,為了穿越科學(xué)家的身體并將他從腦中的
-
科學(xué)家們產(chǎn)生了一種具有半個(gè)基因組的新型人類干細(xì)胞
來(lái)自耶路撒冷希伯來(lái)大學(xué),哥倫比亞大學(xué)醫(yī)學(xué)中心(CUMC)和紐約干細(xì)胞基金會(huì)研究所(NYSCF)的科學(xué)家們成功地產(chǎn)生了一種新型的胚胎干細(xì)胞,它攜
-
瘧疾寄生蟲(chóng)在骨髓中未被發(fā)現(xiàn)累積
一間日瘧原蟲(chóng)感染就像一座冰山:這是危險(xiǎn)的,部分是因?yàn)榇蟛糠质请[藏拿出來(lái)看。本周在mBio上發(fā)表的一項(xiàng)新研究顯示,研究人員如何揭示這種寄
-
你需要多少運(yùn)動(dòng)才能讓你的大腦得到提升
身體活動(dòng)對(duì)身體和心靈都有好處。事實(shí)上,醫(yī)生們?cè)缇椭肋\(yùn)動(dòng)會(huì)改善思維并減緩認(rèn)知能力下降的速度,尤其是老年人。但是為了獲得更健康的...
-
研究人員發(fā)現(xiàn)了調(diào)節(jié)端粒的機(jī)制
染色體的尖端具有稱為端粒的結(jié)構(gòu),與鞋帶末端的塑料覆蓋物相當(dāng)。它們起到保護(hù)帽的作用,可以防止遺傳物質(zhì)的展開(kāi)和腐蝕。當(dāng)端粒不能正常...
-
藻類如何改變其內(nèi)部太陽(yáng)能電池板以保持活力
Benning和Kramer實(shí)驗(yàn)室之間的合作揭示了大自然在藻類中發(fā)現(xiàn)的太陽(yáng)能電池板如何不斷增長(zhǎng)和縮小以適應(yīng)環(huán)境的變化,這是確保其宿主保持健康和
-
新的腦相關(guān)突變與自閉癥譜系障礙有關(guān)
一個(gè)國(guó)際聯(lián)盟已經(jīng)確定了與自閉癥譜系障礙相關(guān)的新突變,提高了我們對(duì)該疾病的認(rèn)識(shí)并可能指導(dǎo)治療方法。該團(tuán)隊(duì)包括沙特阿拉伯國(guó)王阿卜杜...
-
紅海珊瑚是多種細(xì)菌的家園
珊瑚礁為大量不同種類的細(xì)菌提供了生態(tài)位,其中許多細(xì)菌被認(rèn)為可以共生為宿主提供營(yíng)養(yǎng)。在紅海海岸線周圍2000公里的珊瑚礁中發(fā)現(xiàn)了大約200