研究發(fā)現(xiàn)基因組數(shù)據(jù)庫的增長會影響物種的準確性
有許多方法可以切割和切割基因組數(shù)據(jù)以識別一種細菌,或者至少找到它的近親。但萊斯大學的一位計算機科學家表示,對基因組進行測序的快速技術已經充斥著公共數(shù)據(jù)庫并且以一種偏見的方式,包含了許多關于某些物種的基因組數(shù)據(jù),而對其他物種則不夠。
Todd Treangen及其同事測試了分類學分類方法,這些方法將目標細菌的基因組序列與大型數(shù)據(jù)庫中記錄的基因組序列進行匹配,以識別物種。在此過程中,他們制定了提高準確性和靈敏度的途徑。
Treangen是本月發(fā)表在Genome Biology上的一項研究的資深作者,該研究表明,在一個廣泛使用的聯(lián)邦數(shù)據(jù)庫 -國家生物技術信息中心的RefSeq中,隨時間的變化如何影響了宏基因組分類方法的準確性。
宏基因組學專家Treangen(環(huán)境樣品遺傳物質研究)的主要關注點是保持快速鑒定對公眾健康構成威脅的細菌的能力。
大數(shù)據(jù)具有獨特的優(yōu)勢,可以做到這一點 - 但它有很多。他說,目前,低成本,高通量的DNA鳥槍測序機從微生物集合中讀取短DNA序列,每兩到三年就會使RefSeq 的基因組數(shù)據(jù)翻倍。
“我最初認為這些方法的數(shù)據(jù)總是更好,”Treangen說,他今年從馬里蘭大學高級計算機研究所加入賴斯。“你會期望沒有懲罰,因為數(shù)據(jù)庫的增長是好的。” 然而,研究人員發(fā)現(xiàn),RefSeq中的細菌數(shù)據(jù)在分類層次的物種水平上具有巨大的影響,并且以驚人的速度增長。
對于將兩種常用技術結合起來以確定其發(fā)現(xiàn)的研究人員而言,這是一個問題。一種稱為基于k聚體的分類,其通過精確匹配鑒定來自細菌樣品中所有生物的短DNA序列。
“大多數(shù)使問題在計算上可行的方法依賴于k-mers,它們與長度'k'完全匹配,或者是數(shù)據(jù)庫中包含的微生物的關鍵,”他說。“如果順序讀取與數(shù)據(jù)庫中的某些內容完全匹配,那么直覺就是你能夠以更高的精度說明這是什么,并且更快捷的計算方法。”
他說,一種常用的基于k-mer分類的技術是最低共同祖先(LCA)分配。LCA將樣本與共享匹配的序列進行比較,如果需要,將它們分配到分類中的更高級別,例如屬而不是物種。但他說,對于試圖確定病原體的研究人員來說,這可能不夠具體。
事實上,該研究發(fā)現(xiàn)了一種名為Bracken的基于k-mer的分類工具,該工具使用貝葉斯統(tǒng)計來推斷序列的最佳匹配,有助于緩解不平衡。即便如此,它仍難以在數(shù)據(jù)庫中識別與近親相關的基因組,但不能完美匹配。
Treangen說,對特定病原體的資金充足的研究是必要的,并且極大地幫助了快速爆發(fā)檢測和跟蹤,但它最終偏向像RefSeq這樣的公共數(shù)據(jù)庫。
“例如,對食源性病原體存在巨大偏見,”他說。“社會希望對沙門氏菌有很多了解,這是理所當然的。美國食品和藥物管理局,特別是GenomeTrakr,已經幫助對數(shù)千種相關病原體進行測序,并將它們直接添加到參考數(shù)據(jù)庫中。”
然而,他說,將參考數(shù)據(jù)庫偏向特定屬和微生物家族的方式會影響使用k-mer和LCA方法的快速分類學分類工具(如Kraken)的準確性和靈敏度。
Treangen說最近最好的假陽性鑒定實例是一項最初報告紐約市地鐵炭疽細菌證據(jù)的研究。該研究基于來自樣本的測序基因組,后來進行了修訂,以反映錯誤識別序列為炭疽芽孢桿菌的錯配。
雖然對公共衛(wèi)生的關注是一個關鍵的優(yōu)先事項,但Treangen說,需要能夠應對數(shù)據(jù)庫增長和噪聲的新技術,以及增加序列基因組的廣度,以便在該領域持續(xù)改進。“例如,來自土壤和海洋的微生物嚴重欠采樣,”他說。“我們需要繼續(xù)排序以更好地填充公共數(shù)據(jù)庫,這將最終有助于我們從復雜樣本中準確分類微生物的能力。”
推薦內容
-
小而且極具彈性 黑色真菌的秘密
黑色真菌具有很強的抗壓能力,是微生物中的真正冠軍。在奧地利科學基金FWF的支持下,維也納的一個研究小組發(fā)現(xiàn),真菌在細胞水平上具有迄今
-
BMI較高的兒童大腦皮層往往較薄
已發(fā)表的研究早已發(fā)現(xiàn)兒童肥胖與執(zhí)行功能下降之間的相關性。美國醫(yī)學雜志《兒科》上發(fā)表的一項新研究基于一項大規(guī)模的全國性研究得出的...
-
計算機模型將基因位點轉變?yōu)榧膊C制
雖然全基因組關聯(lián)研究(GWAS)已被證明在揭示與疾病相關的基因位點方面具有無可估量的價值,但確定這些基因座內確切的致病變體以及變體如何引
-
蜜蜂可以在開發(fā)新抗生素方面發(fā)揮作用
根據(jù)伊利諾伊大學芝加哥分校的最新研究,蜜蜂制造的抗菌化合物可能成為新抗生素的基礎。30多年來沒有發(fā)現(xiàn)新的抗生素,一些細菌對用于治...
-
對一種抗生素有抗性的大腸桿菌菌株可以保護附近生長的其他細菌
麻省理工學院的一項新研究發(fā)現(xiàn),在一種含有兩種藥物的環(huán)境中,兩種對一種抗生素具有抗性的細菌可以相互保護。研究結果表明,共生是一種...
-
阿拉伯羚羊基因組序列草案
卡塔爾的研究人員繪制了脆弱的阿拉伯羚羊的基因組圖譜。這種羚羊的角矛類似,它在動物園和自然保護區(qū)中幸存下來,在20世紀70年代被列為滅絕
-
大蒜可以對抗慢性感染
哥本哈根大學的一項新研究表明,大蒜中的活性硫化合物可用于對抗慢性感染患者的健壯細菌。在這里,研究人員表明,大蒜化合物能夠破壞細...
-
細胞內病原體如何與宿主相互作用 還包括它們如何隱藏和存活
來自沙特阿拉伯國王阿卜杜拉科技大學(KAUST)和新加坡國立大學的研究人員開發(fā)了一種名為Hi-Jack的新方法,該方法可識別病原體如何劫持宿主的
-
科學家在“一次性”DNA中發(fā)現(xiàn)了未知病毒
機會發(fā)現(xiàn)開辟了一種尋找未知病毒的新方法。在發(fā)表在病毒進化雜志上的研究中,牛津大學動物學系的科學家們發(fā)現(xiàn),新一代測序及其相關的在...
-
科學家解決DNA組織的長期生物學謎團
伸展開來,我們體內所有細胞的DNA都會到達冥王星。那么,每個微小細胞如何將一個兩米長的DNA包裝到其細胞核中,這只是千分之一毫米?這個令