中文字幕在线天|亚洲一区二区三区手机版|少妇中文字幕乱码亚洲影视|最好看的久久综合伊人

      中國基因網(wǎng)您的位置:首頁 >基因檢測 >

      保護基因組研究中的機密性

      全基因組關(guān)聯(lián)研究尋找特定遺傳變異與疾病發(fā)病率之間的聯(lián)系,是許多現(xiàn)代生物醫(yī)學(xué)研究的基礎(chǔ)。但基因組信息數(shù)據(jù)庫會帶來隱私風(fēng)險。從人們的原始基因組數(shù)據(jù)中,可以推斷出他們的姓氏,甚至可能是他們臉上的形狀。許多人不愿意將他們的基因組數(shù)據(jù)貢獻給生物醫(yī)學(xué)研究項目,并且在決定是否授予研究人員訪問請求之前,托管大型基因組數(shù)據(jù)庫的組織可能會進行長達數(shù)月的審查。

      保護基因組研究中的機密性

      在今天出現(xiàn)在Nature Biotechnology上的一篇論文中,來自麻省理工學(xué)院和斯坦福大學(xué)的研究人員提出了一個新的系統(tǒng),用于保護那些將基因組數(shù)據(jù)貢獻給大規(guī)模生物醫(yī)學(xué)研究的人的隱私。早期的加密方法計算密集程度太高,以至于超過幾千個基因組變得非常耗時,新系統(tǒng)承諾為多達一百萬個基因組進行的研究提供有效的隱私保護。

      “作為生物醫(yī)學(xué)研究人員,我們對缺乏數(shù)據(jù)和訪問控制的存儲庫感到沮喪,”麻省理工學(xué)院西蒙斯數(shù)學(xué)教授和該論文的相應(yīng)作者Bonnie Berger說。“我們期待一個擁有大量分布式基因組數(shù)據(jù)的未來,私人擁有自己的個人基因組,研究所和醫(yī)院都建立自己的私人基因組數(shù)據(jù)庫。我們的工作提供了一個匯集大量數(shù)據(jù)的路線圖?;蚪M數(shù)據(jù),以促進科學(xué)進步。“

      論文的第一作者是麻省理工學(xué)院電子工程和計算機科學(xué)研究生Hyunghoon Cho;他和伯杰加入了斯坦福大學(xué)計算機科學(xué)研究生David Wu。

      系統(tǒng)的核心是一種稱為秘密共享的技術(shù),它在多個服務(wù)器之間劃分敏感數(shù)據(jù)。例如,為了存儲數(shù)字x,秘密共享系統(tǒng)可以將隨機數(shù)r發(fā)送到一個服務(wù)器而將xr發(fā)送到另一個服務(wù)器。

      兩個服務(wù)器都不能獨立地推斷x。但總的來說,他們?nèi)匀豢梢詧?zhí)行有用的操作。如果一個服務(wù)器存儲了一堆r并將它們加在一起,而另一個服務(wù)器將所有相應(yīng)的(xr)加起來,那么共享結(jié)果并將它們加在一起將產(chǎn)生所有x的總和。但是,兩個服務(wù)器都不會觀察到任何一個x的值。

      當(dāng)然,如果兩個服務(wù)器都被黑客攻擊,攻擊者可以重建所有的x。但只要一臺服務(wù)器值得信賴,系統(tǒng)就是安全的。此外,該原則推廣到多個服務(wù)器。如果數(shù)據(jù)在四個服務(wù)器之間分配,則攻擊者必須滲透所有四個服務(wù)器;黑客攻擊任何三個都不足以提取任何數(shù)據(jù)。

      然而,在這種情況下,乘法比加法更復(fù)雜。乘以兩個x需要生成三個隨機數(shù)- 在密碼學(xué)家唐納德比弗之后,除了r之外,被稱為Beaver三元組。反過來,這三個數(shù)字必須在使用秘密共享的服務(wù)器之間進行劃分。在乘法之前將這些數(shù)字的秘密共享分量添加到x和r中會產(chǎn)生代數(shù)表達式,其中可以濾除所有添加的隨機性,僅留下兩個x的乘積。

      全基因組關(guān)聯(lián)研究涉及一個龐大的表格或矩陣,它將數(shù)據(jù)庫中的基因組與單核苷酸多態(tài)性的SNP遺傳變異位置進行對比。SNP通常約為一百萬,因此如果數(shù)據(jù)庫包含一百萬個基因組,結(jié)果將是一百萬個百萬的矩陣。

      尋找有用的疾病相關(guān)性需要過濾誤導(dǎo)性相關(guān)性,這一過程稱為人口分層校正。例如,東亞人經(jīng)常乳糖不耐癥,但他們也往往比北歐人短。對乳糖不耐受的遺傳相關(guān)性進行的初步調(diào)查可能最終會確定那些高度不足的人。

      群體分層校正通常依賴于稱為主成分分析的算法,其需要涉及整個SNP對基因組矩陣的重復(fù)乘法。如果矩陣中的每個條目都需要為這些乘法中的每一個都使用其自己的一組Beaver三元組,那么分析一百萬個基因組將非常耗時。

      但Cho,Berger和Wu找到了一種構(gòu)造乘法序列的方法,這樣許多Beaver三元組只能計算一次并重復(fù)使用,從而大大降低了計算的復(fù)雜性。

      他們還使用其他幾種技術(shù)來加速他們的系統(tǒng)。由于Beaver三元組必須秘密共享,因此Beaver三元組中的每個數(shù)字都有一個相關(guān)的隨機數(shù):在雙服務(wù)器方案中,一個服務(wù)器將獲得隨機數(shù),另一個服務(wù)器將獲得Beaver數(shù)減去隨機數(shù)。

      在Cho,Berger和Wu的系統(tǒng)中,有一個服務(wù)器致力于生成Beaver三元組并秘密共享它們。但是,雖然需要將海貍數(shù)量減去相關(guān)的隨機數(shù)傳輸?shù)竭m當(dāng)?shù)姆?wù)器,但它不需要自己傳輸隨機數(shù)。相反,它只是共享用于“種子”稱為偽隨機數(shù)生成器的算法的數(shù)字。然后,接收方服務(wù)器可以自己生成隨機數(shù),從而節(jié)省了大量的通信帶寬。

      最后,當(dāng)執(zhí)行所有乘法運算時,系統(tǒng)實際上并沒有使用整個百萬分之一的矩陣。相反,它使用稱為隨機投影的近似技術(shù)來降低矩陣,同時保持最終計算結(jié)果的準確性。

      基于這些技術(shù),Cho,Berger和Wu的系統(tǒng)準確地再現(xiàn)了三個??已發(fā)表的涉及23,000個個體基因組的全基因組關(guān)聯(lián)研究。這些分析的結(jié)果表明該系統(tǒng)應(yīng)該有效地擴展到一百萬個基因組。

      鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請第一時間聯(lián)系我們修改或刪除,多謝。

      推薦內(nèi)容