保護基因組研究中的機密性
全基因組關(guān)聯(lián)研究尋找特定遺傳變異與疾病發(fā)病率之間的聯(lián)系,是許多現(xiàn)代生物醫(yī)學(xué)研究的基礎(chǔ)。但基因組信息數(shù)據(jù)庫會帶來隱私風(fēng)險。從人們的原始基因組數(shù)據(jù)中,可以推斷出他們的姓氏,甚至可能是他們臉上的形狀。許多人不愿意將他們的基因組數(shù)據(jù)貢獻給生物醫(yī)學(xué)研究項目,并且在決定是否授予研究人員訪問請求之前,托管大型基因組數(shù)據(jù)庫的組織可能會進行長達數(shù)月的審查。
在今天出現(xiàn)在Nature Biotechnology上的一篇論文中,來自麻省理工學(xué)院和斯坦福大學(xué)的研究人員提出了一個新的系統(tǒng),用于保護那些將基因組數(shù)據(jù)貢獻給大規(guī)模生物醫(yī)學(xué)研究的人的隱私。早期的加密方法計算密集程度太高,以至于超過幾千個基因組變得非常耗時,新系統(tǒng)承諾為多達一百萬個基因組進行的研究提供有效的隱私保護。
“作為生物醫(yī)學(xué)研究人員,我們對缺乏數(shù)據(jù)和訪問控制的存儲庫感到沮喪,”麻省理工學(xué)院西蒙斯數(shù)學(xué)教授和該論文的相應(yīng)作者Bonnie Berger說。“我們期待一個擁有大量分布式基因組數(shù)據(jù)的未來,私人擁有自己的個人基因組,研究所和醫(yī)院都建立自己的私人基因組數(shù)據(jù)庫。我們的工作提供了一個匯集大量數(shù)據(jù)的路線圖?;蚪M數(shù)據(jù),以促進科學(xué)進步。“
論文的第一作者是麻省理工學(xué)院電子工程和計算機科學(xué)研究生Hyunghoon Cho;他和伯杰加入了斯坦福大學(xué)計算機科學(xué)研究生David Wu。
系統(tǒng)的核心是一種稱為秘密共享的技術(shù),它在多個服務(wù)器之間劃分敏感數(shù)據(jù)。例如,為了存儲數(shù)字x,秘密共享系統(tǒng)可以將隨機數(shù)r發(fā)送到一個服務(wù)器而將xr發(fā)送到另一個服務(wù)器。
兩個服務(wù)器都不能獨立地推斷x。但總的來說,他們?nèi)匀豢梢詧?zhí)行有用的操作。如果一個服務(wù)器存儲了一堆r并將它們加在一起,而另一個服務(wù)器將所有相應(yīng)的(xr)加起來,那么共享結(jié)果并將它們加在一起將產(chǎn)生所有x的總和。但是,兩個服務(wù)器都不會觀察到任何一個x的值。
當(dāng)然,如果兩個服務(wù)器都被黑客攻擊,攻擊者可以重建所有的x。但只要一臺服務(wù)器值得信賴,系統(tǒng)就是安全的。此外,該原則推廣到多個服務(wù)器。如果數(shù)據(jù)在四個服務(wù)器之間分配,則攻擊者必須滲透所有四個服務(wù)器;黑客攻擊任何三個都不足以提取任何數(shù)據(jù)。
然而,在這種情況下,乘法比加法更復(fù)雜。乘以兩個x需要生成三個隨機數(shù)- 在密碼學(xué)家唐納德比弗之后,除了r之外,被稱為Beaver三元組。反過來,這三個數(shù)字必須在使用秘密共享的服務(wù)器之間進行劃分。在乘法之前將這些數(shù)字的秘密共享分量添加到x和r中會產(chǎn)生代數(shù)表達式,其中可以濾除所有添加的隨機性,僅留下兩個x的乘積。
全基因組關(guān)聯(lián)研究涉及一個龐大的表格或矩陣,它將數(shù)據(jù)庫中的基因組與單核苷酸多態(tài)性的SNP遺傳變異位置進行對比。SNP通常約為一百萬,因此如果數(shù)據(jù)庫包含一百萬個基因組,結(jié)果將是一百萬個百萬的矩陣。
尋找有用的疾病相關(guān)性需要過濾誤導(dǎo)性相關(guān)性,這一過程稱為人口分層校正。例如,東亞人經(jīng)常乳糖不耐癥,但他們也往往比北歐人短。對乳糖不耐受的遺傳相關(guān)性進行的初步調(diào)查可能最終會確定那些高度不足的人。
群體分層校正通常依賴于稱為主成分分析的算法,其需要涉及整個SNP對基因組矩陣的重復(fù)乘法。如果矩陣中的每個條目都需要為這些乘法中的每一個都使用其自己的一組Beaver三元組,那么分析一百萬個基因組將非常耗時。
但Cho,Berger和Wu找到了一種構(gòu)造乘法序列的方法,這樣許多Beaver三元組只能計算一次并重復(fù)使用,從而大大降低了計算的復(fù)雜性。
他們還使用其他幾種技術(shù)來加速他們的系統(tǒng)。由于Beaver三元組必須秘密共享,因此Beaver三元組中的每個數(shù)字都有一個相關(guān)的隨機數(shù):在雙服務(wù)器方案中,一個服務(wù)器將獲得隨機數(shù),另一個服務(wù)器將獲得Beaver數(shù)減去隨機數(shù)。
在Cho,Berger和Wu的系統(tǒng)中,有一個服務(wù)器致力于生成Beaver三元組并秘密共享它們。但是,雖然需要將海貍數(shù)量減去相關(guān)的隨機數(shù)傳輸?shù)竭m當(dāng)?shù)姆?wù)器,但它不需要自己傳輸隨機數(shù)。相反,它只是共享用于“種子”稱為偽隨機數(shù)生成器的算法的數(shù)字。然后,接收方服務(wù)器可以自己生成隨機數(shù),從而節(jié)省了大量的通信帶寬。
最后,當(dāng)執(zhí)行所有乘法運算時,系統(tǒng)實際上并沒有使用整個百萬分之一的矩陣。相反,它使用稱為隨機投影的近似技術(shù)來降低矩陣,同時保持最終計算結(jié)果的準確性。
基于這些技術(shù),Cho,Berger和Wu的系統(tǒng)準確地再現(xiàn)了三個??已發(fā)表的涉及23,000個個體基因組的全基因組關(guān)聯(lián)研究。這些分析的結(jié)果表明該系統(tǒng)應(yīng)該有效地擴展到一百萬個基因組。
推薦內(nèi)容
-
一種有前途的新工具來測量抗瘧疾的抗體
可以使用需要非常少量血液的簡單,準確和可重復(fù)的測定來測量針對多種惡性瘧原蟲蛋白(或抗原)的抗體。在最近發(fā)表的一系列文章中,由ISGlobal
-
12月4日河北石家莊鹿泉區(qū)工地疫情消息公布 今日通報:4名確診
河北石家莊鹿泉區(qū)4名確診人員均為外來務(wù)工人員。據(jù)消息顯示,12月4日,石家莊市人民政府召開疫情防控新聞發(fā)布會,石家莊副市長張峰珍介紹,
-
CRISPR篩選識別幫助細胞抵抗西尼羅河寨卡病毒的基因
UT西南大學(xué)的研究人員今天報告首次使用CRISPR全基因組篩選鑒定一種有助于細胞抵抗黃病毒感染的基因。令人討厭的一類病原體包括西尼羅河病毒
-
魚的早期生活如何幫助決定其未來
一項新的研究表明,了解魚類在成熟過程中的活動可以幫助科學(xué)家識別和管理魚類在早期生活中依賴的脆弱棲息地。研究人員檢查了紅海鯛魚的...
-
獼猴測試抗HBV藥物和疫苗的新動物模型
每年有數(shù)百萬人感染乙型肝炎病毒,結(jié)果導(dǎo)致50萬人死亡。可引起肝癌的病毒(HBV)繼續(xù)無視疫苗并抵抗目前的抗HBV治療1,2。缺乏HBV感染的動物模
-
遺傳學(xué)研究揭示了真菌性秘密揭示了念珠菌病
根據(jù)西班牙巴塞羅那基因組監(jiān)管中心研究人員發(fā)表在Current Biology上的一項新研究,來自世界各地的真菌酵母菌感染(念珠菌病)的新遺傳分析揭
-
通過恢復(fù)p53腫瘤抑制基因的表達可以逆轉(zhuǎn)惡變前和惡性病變
恢復(fù)p53蛋白在癌前增生和惡性的p53缺陷型松果體病變,一個罕見的腦腫瘤的,可逆轉(zhuǎn)的惡性狀態(tài),根據(jù)一項新的研究?;騪53通過幾種機制起到
-
針對罕見疾病的新療法對孤立的土著社區(qū)造成嚴重破壞
麥考瑞大學(xué)的研究人員開發(fā)出了神經(jīng)退行性馬查多 - 約瑟夫病的第一個斑馬魚模型 - 并且已經(jīng)使用這個模型來測試可能用于治療疾病的藥物,
-
利用簡單的聚合物工具的力量來檢測土壤中的有毒化學(xué)物質(zhì)
監(jiān)測沉積物和土壤中有毒化學(xué)物質(zhì)含量的大多數(shù)現(xiàn)有技術(shù)僅提供樣本采集時污染物的快照,而無法追蹤其長期影響。現(xiàn)在,一個國際研究團隊在...
-
基因組測序顯示數(shù)千年前適應(yīng)高原的玉米
一個國際研究團隊已經(jīng)發(fā)現(xiàn)證據(jù)顯示,幾千年前玉米進化為在美國西南高地生存。在他們發(fā)表在科學(xué)雜志上的論文中,該小組概述了他們的基因...