中文字幕在线天|亚洲一区二区三区手机版|少妇中文字幕乱码亚洲影视|最好看的久久综合伊人

      中國基因網(wǎng)您的位置:首頁 >基因科普 >

      基因組分析的答案可能在云端

      隨著NexGen測序儀以創(chuàng)紀錄的數(shù)量生成廉價的DNA數(shù)據(jù),基因組學研究人員一直在“云九”。除了一件事:從基因機器中涌出的數(shù)據(jù)正在淹沒計算機基礎(chǔ)設(shè)施 - 從最小的RO1實驗室到最大的測序中心。

      基因組分析的答案可能在云端

      例如,國際1000基因組項目迄今為止產(chǎn)生的數(shù)據(jù)集,使用NexGen建立最詳細的人類遺傳變異目錄的努力,達到50TB。這是50,000,000,000,000字節(jié)的數(shù)據(jù)。由于計算機網(wǎng)絡(luò)通常以每秒1千兆位的速度運行(一個字節(jié)中有8位),下載1000 Genome Project數(shù)據(jù)集需要4.6天以上 - 而且只有實驗室的硬盤陣列足夠容納這一切。

      然而,解決方案可能在云端 - 計算機云,即。云計算是一種空靈的,短暫的概念,依賴于互聯(lián)網(wǎng)利用的計算機網(wǎng)絡(luò)來咀嚼特定的計算問題。而這些云似乎有一線希望,這就是微軟,谷歌甚至亞馬遜等重量級企業(yè)開始提供云計算服務的原因。對于研究人員來說,這可能是一種經(jīng)濟有效的解決方案

      為了找到答案,國家人類基因組研究所(NHGRI)最近舉辦了一個研討會,討論云計算能否清除一些可能會減緩基因組測序醫(yī)療保健進展的數(shù)據(jù)瓶頸。從支付互聯(lián)網(wǎng)服務提供商提供的服務是否更便宜 - 而且更安全,特別是對于患者數(shù)據(jù) - 而不是在每個主要研究人員的實驗室中反復支付獨立數(shù)據(jù)中心的費用。

      “毫無疑問,數(shù)據(jù)管理和分析已成為基因組科學的新瓶頸,”NHGRI信息學和計算生物學項目主任,云計算研討會組織者Vivien Bonazzi博士說。“美國國立衛(wèi)生研究院必須弄清楚如何支持其受助者不斷增長的計算需求 - 無論是為每個RO1實驗室支付費用來創(chuàng)建自己的數(shù)據(jù)中心 - 這可能是昂貴的 - 或者找到另一種方法。我們想開始思考關(guān)于云計算是否可以成為解決方案。“

      大量先例表明它可能會。例如,家庭項目的SETI(參見:SETI @ HOME)在通過互聯(lián)網(wǎng)鏈接的閑置家用計算機上使用屏幕保護軟件來分析搜索外星生命(SETI)的射電望遠鏡的數(shù)據(jù)。雖然SETI還沒有找到任何一個小綠人,但它在數(shù)千臺普通PC中創(chuàng)造了一臺超級計算機。可以想象,云計算可以為基因組研究做類似的事情。

      在過去的幾年里,像亞馬遜,谷歌,微軟和其他互聯(lián)網(wǎng)電力公司這樣的公司已經(jīng)開始提供云計算解決方案作為一種服務,插入其強大而龐大的計算機服務器網(wǎng)絡(luò)。許多在線公司使用云服務來管理他們的應用程序或庫存和訂購系統(tǒng)。任何在亞馬遜上訂購書籍或使用Twitter或Facebook等社交媒體網(wǎng)站的人都可以從云計算中受益。

      作為一項合同服務,云服務提供了一種靈活的模型,可以訪問并將數(shù)千臺計算機的功能集中在一個大型科學問題上,該問題可以在全球任何地點按需使用和支付。然而,云計算解決方案僅處于起步階段,因此仍存在挑戰(zhàn)。

      美國麻省理工學院麻省理工學院和哈佛大學的副主任兼首席信息學官Jill Mesirov博士是NHGRI的大型測序中心之一,他描述了目前中心所面臨的計算問題的狀態(tài)。和基因組社區(qū)。“這是一個嚴重的問題,對我們來說只會變得更糟,”Mesirov博士說,他正在評估云計算,看看它對Broad有何幫助。

      Broad Institute的基因組測序平臺目前每年從NexGen測序平臺產(chǎn)生大約2PB的數(shù)據(jù)。1 PB等于100萬GB。目前,該中心擁有大約5.8PB(即5,800,000,000,000,000字節(jié))的存儲空間。除了存儲,Broad的計算基礎(chǔ)設(shè)施和員工必須協(xié)商不同類型的數(shù)據(jù)以及各種基因組分析軟件工具的集成,這些工具都需要Mesirov博士團隊的創(chuàng)新。

      她認為云計算可以提供一種擴展和支付可變計算需求的方法,并且可能提供經(jīng)常在大型團隊中協(xié)作的基因組研究人員,這是一種在實驗室,項目和機構(gòu)之間共享大型數(shù)據(jù)集的方法。“這可能是一些問題的答案,但不是其他問題,”梅西羅夫博士說,他認為在生物醫(yī)學研究人員采用云計算之前需要清除許多障礙。

      障礙包括將數(shù)據(jù)移動到云端并返回,將自定義應用程序上傳到云端,在云計算的低成本和維護數(shù)據(jù)控制之間進行權(quán)衡,應用程序互操作以及與生物相關(guān)的無數(shù)隱私和安全問題 - 尤其是患者 - 數(shù)據(jù)。

      從私營部門,政府和學術(shù)界,有許多團體正在努力克服這些問題并優(yōu)化云計算,以便為生物學和許多其他研究領(lǐng)域工作,從工程到監(jiān)測地球氣候。例如,微軟公司,華盛頓州雷蒙德市和美國國家科學基金會(NSF)聯(lián)合起來,讓NSF選擇的個體研究人員在未來三年內(nèi)免費訪問微軟云平臺Windows Azure。谷歌和IBM已經(jīng)與NSF展開了類似的努力,推出了Cluster Exploratory(CluE)計劃,該計劃讓NSF資助的研究人員可以訪問Google-IBM集群。

      根據(jù)微軟Extreme Computing Group云計算未來架構(gòu)師Roger Barga博士的說法,該公司一直試圖讓世界各地的研究人員和學術(shù)界人士了解如何組織研究人員社區(qū),并確定他們進行研究所需的核心服務和產(chǎn)品。

      當然,基因組研究界不會等待答案,并開始積極地在云中進行實驗。在亞馬遜的彈性計算云(EC2)基礎(chǔ)上,一項名為Galaxy的努力結(jié)合了現(xiàn)有基因組注釋數(shù)據(jù)庫和簡單Web門戶的信息。

      Galaxy由NHGRI,賓夕法尼亞州立大學和加州大學圣克魯茲分校的計算機科學和生物研究人員建造。目標是使研究人員能夠搜索多個遠程基因組資源,并結(jié)合來自許多查詢的數(shù)據(jù),從而產(chǎn)生序列和比對的視覺結(jié)果。Galaxy允許用戶保存他們的分析,以便于共享和集成來自其他分析的數(shù)據(jù)。

      “未來還有很多有趣的時期,”BioTeam的創(chuàng)始合伙人兼技術(shù)總監(jiān)Chris Dagdigian表示,該公司向生命科學研究人員提供包括云計算在內(nèi)的技術(shù)解決方案。

      Dagdigian在研討會上談到了云計算的一些技術(shù)挑戰(zhàn),提出了另一個觀點:雖然云計算最終可能足以分析大型生物和基因組數(shù)據(jù)集,但目前這些云的當前版本并非如此為生物學家而建。相反,他們正如Dagdigian所說,“主要是為Facebook和世界的Twitters而建。”

      雖然DNA測序在未來幾年將繼續(xù)變得更便宜和更有效,但解釋信息所需的信息學工具和專業(yè)知識的開發(fā)卻是相反的 - 昂貴且難以實現(xiàn) - 包括云計算。

      但是,正如NHGRI促進了DNA測序的改進,該研究所將采用NHGRI云計算研討會上提供的信息,并將其提供給4月底舉行的更大的信息學會議,以決定如何最好地應對信息學挑戰(zhàn)?;蚪M時代。兩個研討會的結(jié)果可能會納入NHGRI規(guī)劃過程,該過程旨在于年底前在主要科學出版物中公布基因組學領(lǐng)域的新愿景。

      鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請第一時間聯(lián)系我們修改或刪除,多謝。

      推薦內(nèi)容