中文字幕在线天|亚洲一区二区三区手机版|少妇中文字幕乱码亚洲影视|最好看的久久综合伊人

      中國基因網(wǎng)您的位置:首頁 >國外研究 >

      搜索技術(shù)幫助研究人員在幾分鐘而不是幾天內(nèi)找到DNA序列

      由于卡內(nèi)基梅隆大學計算機科學家開發(fā)了一種新的搜索方法,現(xiàn)在可以在幾分鐘內(nèi)完成數(shù)據(jù)庫搜索DNA序列,這些DNA序列可以讓生物學家和醫(yī)學研究人員服用。由計算生物學副教授Carl Kingsford和博士研究生Brad Solomon開發(fā)的方法。計算生物學系的學生,旨在搜索所謂的“短讀取” - 通過高通量測序技術(shù)生成的DNA和RNA序列。它依賴于一種新的索引數(shù)據(jù)結(jié)構(gòu),稱為序列綻放樹或SBT,研究人員在今天由Nature Biotechnology雜志在線發(fā)表的報告中描述了這種結(jié)構(gòu)。

      搜索技術(shù)幫助研究人員在幾分鐘而不是幾天內(nèi)找到DNA序列

      美國國立衛(wèi)生研究院維護著一個名為Sequence Read Archive的龐大數(shù)據(jù)庫,該數(shù)據(jù)庫包含大約三個petabases,或總共三千萬億堿基對的序列。這些信息對于廣泛的研究人員非常有用,從提出有關(guān)基本生物過程的問題到研究潛在癌癥治療的研究人員。

      金斯福德說:“該數(shù)據(jù)庫包含了無數(shù)尚未被發(fā)現(xiàn)的數(shù)據(jù),并且被大量使用。” “它的主要問題是搜索非常困難。”

      存儲這些序列需要數(shù)千個硬盤驅(qū)動器。他指出,通過短讀數(shù)(每個通常為50到200個堿基對)進行搜索,看看哪些可以組裝形成大約10,000個堿基對的靶基因,這很麻煩,在某些情況下可能需要數(shù)天。

      正如索引可以加快書籍或目錄的搜索速度一樣,Kingsford和Solomon開發(fā)的基于SBT的索引可以極大地加速對該生物信息學數(shù)據(jù)庫的搜索。它們實際上將每個短讀取表示為一組固定長度的子序列,采用稱為布隆過濾器的數(shù)據(jù)結(jié)構(gòu),可以有效地將信息存儲在一個小空間中,并可以測試一個元素是否是一個集合的一部分。

      在第一級調(diào)查中,SBT可以判斷數(shù)據(jù)庫中是否包含目標DNA序列。如果是,則搜索進行到下一級別,其中SBT指示序列是在數(shù)據(jù)庫的一半還是另一半中。在每個級別,查詢以這樣或那樣的方式分支,直到識別出期望的實驗。

      Kingsford和Solomon使用2,652人血液,乳房和大腦實驗數(shù)據(jù)庫測試了他們的技術(shù),每個實驗通常包含超過10億個堿基對的RNA序列。他們發(fā)現(xiàn)該數(shù)據(jù)庫的大多數(shù)搜索都可以在平均20分鐘內(nèi)完成。他們估計使用現(xiàn)有技術(shù)(稱為SRA-BLAST和STAR)的可比搜索時間分別需要2.2天和921天。

      他們指出,可以進一步加速,因為可以同時執(zhí)行超過200,000次查詢。

      鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請第一時間聯(lián)系我們修改或刪除,多謝。

      推薦內(nèi)容