評估基因組組織研究重現(xiàn)性的新統(tǒng)計(jì)方法
一種新的統(tǒng)計(jì)方法來評估Hi-C數(shù)據(jù)的可重復(fù)性 - 一種用于研究基因組如何在細(xì)胞內(nèi)部三維工作的尖端工具 - 將有助于確保這些“大數(shù)據(jù)”研究中的數(shù)據(jù)是可靠的。“Hi-C捕獲了基因組不同區(qū)域之間的物理相互作用,”賓夕法尼亞州立大學(xué)統(tǒng)計(jì)學(xué)助理教授,該論文的第一作者李群華說。“這些相互作用在決定肌細(xì)胞是什么使肌肉細(xì)胞而不是神經(jīng)或癌細(xì)胞中發(fā)揮作用。然而,評估數(shù)據(jù)再現(xiàn)性的標(biāo)準(zhǔn)措施通常無法判斷兩個(gè)樣本是來自相同的細(xì)胞類型還是來自完全不相關(guān)的細(xì)胞類型這使得很難判斷數(shù)據(jù)是否可重復(fù)。我們開發(fā)了一種新方法來準(zhǔn)確評估Hi-C數(shù)據(jù)的可重復(fù)性,這將使研究人員能夠更自信地從數(shù)據(jù)中解釋生物學(xué)。
由賓夕法尼亞州立大學(xué)和華盛頓大學(xué)的一組研究人員開發(fā)的名為HiCRep的新方法是第一個(gè)解釋Hi-C數(shù)據(jù)的獨(dú)特特征 - 基因組區(qū)域之間相互作用的相互作用更多可能偶然發(fā)生,因此在不相關(guān)的樣本之間產(chǎn)生虛假或錯(cuò)誤的相似性。描述這種新方法的論文發(fā)表在Genome Research期刊上。
“由于全基因組研究中產(chǎn)生的大量數(shù)據(jù),確保數(shù)據(jù)質(zhì)量至關(guān)重要,”李說。“利用Hi-C等高通量技術(shù),我們能夠深入了解基因組如何在細(xì)胞內(nèi)部發(fā)揮作用,但前提是數(shù)據(jù)是可靠且可重復(fù)的。”
在細(xì)胞核內(nèi)有大量的染色體形式的遺傳物質(zhì) - 由DNA和蛋白質(zhì)組成的極長分子。含有基因和控制基因使用時(shí)間和位置的調(diào)控DNA序列的染色體被組織并包裝成稱為染色質(zhì)的結(jié)構(gòu)。例如,細(xì)胞的命運(yùn),無論是肌肉還是神經(jīng)細(xì)胞,至少部分取決于染色質(zhì)結(jié)構(gòu)的哪些部分可以被表達(dá)的基因,哪些部分是封閉的,以及這些區(qū)域如何相互作用。HiC通過將基因組的相互作用區(qū)域鎖定在一起,分離它們,然后對它們進(jìn)行測序以找出它們來自基因組的位置來識別這些相互作用。
“這有點(diǎn)像一大碗意大利面條,其中面條觸摸的每個(gè)地方都可能是生物學(xué)上重要的互動(dòng),”李說。“Hi-C發(fā)現(xiàn)所有這些相互作用,但絕大多數(shù)發(fā)生在基因組區(qū)域之間,這些區(qū)域在染色體上彼此非常接近,并且沒有特定的生物學(xué)功能。其結(jié)果是信號強(qiáng)度這很大程度上取決于相互作用區(qū)域之間的距離。這使得常用的重現(xiàn)性測量(例如相關(guān)系數(shù))極難區(qū)分Hi-C數(shù)據(jù),因?yàn)榧词乖诜浅2煌募?xì)胞類型之間,這種模式看起來也非常相似。我們的新方法將Hi-C的這一特性考慮在內(nèi),使我們可以可靠地區(qū)分不同的細(xì)胞類型。“
“這為我們提供了一個(gè)經(jīng)常被忽視的基本統(tǒng)計(jì)課程,”李說。“很多時(shí)候,相關(guān)性被視為許多科學(xué)學(xué)科中可重復(fù)性的代表,但它們實(shí)際上并不是一回事。相關(guān)性是關(guān)于兩個(gè)對象的相關(guān)程度。兩個(gè)不相關(guān)的對象通過與公共因子相關(guān)而具有高度相關(guān)性這就是這種情況。距離是Hi-C數(shù)據(jù)中隱藏的共同因素,它驅(qū)動(dòng)相關(guān)性,使得相關(guān)性無法反映感興趣的信息。具有諷刺意味的是,這種現(xiàn)象被稱為統(tǒng)計(jì)學(xué)中的混雜效應(yīng),在每個(gè)基礎(chǔ)統(tǒng)計(jì)學(xué)課程中都會(huì)討論,即使在訓(xùn)練有素的科學(xué)家中,看到它在實(shí)踐中被忽視的頻率仍然非常驚人。“
研究人員設(shè)計(jì)了HiCRep以系統(tǒng)地解釋Hi-C數(shù)據(jù)的這種與距離相關(guān)的特征。為了實(shí)現(xiàn)這一目標(biāo),研究人員首先對數(shù)據(jù)進(jìn)行平滑處理,以便更清楚地了解數(shù)據(jù)趨勢。然后,他們開發(fā)了一種新的相似性度量,通過基于兩個(gè)區(qū)域之間的距離對相互作用進(jìn)行分層,能夠更容易地區(qū)分不同細(xì)胞類型的數(shù)據(jù)。“這就像研究藥物治療對年齡不同的人群的影響一樣。按年齡分層有助于我們專注于藥物效應(yīng)。對于我們的情況,按距離分層有助于我們關(guān)注樣本之間的真實(shí)關(guān)系。”
為了測試他們的方法,研究團(tuán)隊(duì)使用HiCRep和兩種傳統(tǒng)方法評估了來自幾種不同細(xì)胞類型的Hi-C數(shù)據(jù)。在傳統(tǒng)方法被基于附近相互作用過量的虛假相關(guān)性絆倒的情況下,HiCRep能夠可靠地區(qū)分細(xì)胞類型。此外,HiCRep可以量化細(xì)胞類型之間的差異量,并準(zhǔn)確地重建哪些細(xì)胞彼此更密切相關(guān)。
推薦內(nèi)容
-
西藏冒險(xiǎn)王家屬發(fā)聲說了什么?西藏冒險(xiǎn)王王相軍的死真的另有隱情
不久前,西藏冒險(xiǎn)王王相軍跌落冰瀑不幸離世,但關(guān)于他突然的死亡訊息網(wǎng)友們和家屬都有不少疑問。隨著該事件的持續(xù)發(fā)酵,今日一則關(guān)于西...
-
科學(xué)家發(fā)現(xiàn)Cas4蛋白質(zhì)在CRISPR-Cas防御系統(tǒng)的函數(shù)
越來越多的世界各地的研究人員利用一種細(xì)菌的防御機(jī)制被稱為CRISPR-Cas9手術(shù)作為一種工具來編輯在活細(xì)胞的DNA。這項(xiàng)新技術(shù)使基因編輯更容易
-
多吃主食死得快?你知道哪些
互聯(lián)網(wǎng)時(shí)代,每個(gè)人都是信息傳播者,但是我們必須清楚一點(diǎn):在沒有獲得真正證實(shí)的消息之前,千萬不能隨意散播謠言,很容易造成以訛傳訛...
-
烏魯木齊市疾病預(yù)防控制中心發(fā)布5月防病預(yù)警提示:保持衛(wèi)生好習(xí)慣
烏魯木齊市疾病預(yù)防控制中心發(fā)布5月防病預(yù)警提示:保持衛(wèi)生好習(xí)慣當(dāng)好健康第一責(zé)任人 烏魯木齊晚報(bào)新媒體【來源:烏魯木齊晚報(bào)】聲
-
超聲波安全刺激細(xì)胞
杜克大學(xué)的研究人員發(fā)現(xiàn)了一種增強(qiáng)超聲遺傳學(xué)或超聲波調(diào)制的有效性和安全性的方法,這種新興技術(shù)利用聲波來控制單個(gè)神經(jīng)元的行為或促進(jìn)...
-
速凍食品不安全、沒營養(yǎng)?實(shí)際是這樣...
生活中我們經(jīng)常會(huì)聽見各種各樣的流言,但是只要我們用心去思考和辨認(rèn)其實(shí) 不難發(fā)現(xiàn)這些謠言有很多破綻。所以今天,小編照常給大家辟謠一則
-
安陽市中醫(yī)院終身奉獻(xiàn)獎(jiǎng)獲得者、副主任醫(yī)師李玉梅:躬耕杏林書大
安陽市中醫(yī)院終身奉獻(xiàn)獎(jiǎng)獲得者、副主任醫(yī)師李玉梅:躬耕杏林書大愛 孜孜不倦佑健康 躬耕杏林書大愛 孜孜不倦佑健康 ——...
-
棲霞笏山金礦事故救援孔最新情況如何 棲霞笏山金礦與被困工人取
棲霞笏山金礦事故救援孔最新情況如何 棲霞笏山金礦與被困工人取得聯(lián)系說了什么?相信很多網(wǎng)友都在默默的祈禱他們能夠平安,也讓我們致敬那