麻省理工學(xué)院的研究人員開(kāi)發(fā)了分析大量細(xì)胞數(shù)據(jù)集的新方
數(shù)據(jù)采樣方法制作了笨拙的生物數(shù)據(jù)集的“草圖”,同時(shí)仍然捕獲了細(xì)胞類型的完整多樣性。藝術(shù)草圖可用于以更簡(jiǎn)單的圖像捕捉場(chǎng)景的細(xì)節(jié)。麻省理工學(xué)院的研究人員現(xiàn)在將這一概念引入計(jì)算生物學(xué),采用一種新方法,提取全面的樣本 - 稱為“草圖” - 大規(guī)模細(xì)胞數(shù)據(jù)集,更易于分析生物學(xué)和醫(yī)學(xué)研究。
近年來(lái),人們從各種人體組織和器官(如神經(jīng)元,肌肉和免疫細(xì)胞)中分析出單個(gè)細(xì)胞,以深入了解人類健康和治療疾病。最大的數(shù)據(jù)集包含大約100,000到200萬(wàn)個(gè)單元格,并且還在增長(zhǎng)。例如,人類細(xì)胞圖譜的長(zhǎng)期目標(biāo)是描繪大約100億個(gè)細(xì)胞。每個(gè)細(xì)胞本身都含有大量關(guān)于RNA表達(dá)的數(shù)據(jù),可以提供有關(guān)細(xì)胞行為和疾病進(jìn)展的見(jiàn)解。
憑借足夠的計(jì)算能力,生物學(xué)家可以分析完整的數(shù)據(jù)集,但需要數(shù)小時(shí)或數(shù)天。沒(méi)有這些資源,這是不切實(shí)際的。采樣方法可用于提取細(xì)胞的小子集以進(jìn)行更快,更有效的分析,但它們不能很好地?cái)U(kuò)展到大型數(shù)據(jù)集,并且通常會(huì)錯(cuò)過(guò)較少的細(xì)胞類型。
在下周于計(jì)算分子生物學(xué)研究會(huì)議上發(fā)表的一篇論文中,麻省理工學(xué)院的研究人員描述了一種方法,該方法可以捕獲整個(gè)數(shù)據(jù)集的完全全面的“草圖”,可以與其他數(shù)據(jù)集輕松共享和合并。它不是以相同的概率對(duì)細(xì)胞進(jìn)行采樣,而是均勻地對(duì)來(lái)自數(shù)據(jù)集中存在的不同細(xì)胞類型的細(xì)胞進(jìn)行采樣。
“這些就像紙上的草圖,藝術(shù)家將試圖保留主要圖像的所有重要特征,”麻省理工學(xué)院西蒙斯數(shù)學(xué)教授,電氣工程和計(jì)算機(jī)科學(xué)教授,以及其負(fù)責(zé)人Bonnie Berger說(shuō)。計(jì)算和生物學(xué)小組。
在實(shí)驗(yàn)中,該方法在幾分鐘內(nèi)從數(shù)百萬(wàn)個(gè)細(xì)胞的數(shù)據(jù)集中生成草圖 - 而不是幾個(gè)小時(shí) - 從數(shù)據(jù)集中得到的稀有細(xì)胞的表示更為平等。在一個(gè)例子中,草圖甚至捕獲了其他方法遺漏的罕見(jiàn)的炎性巨噬細(xì)胞子集。
“大多數(shù)分析單細(xì)胞數(shù)據(jù)的生物學(xué)家只是在他們的筆記本電腦上工作,”計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)博士生,計(jì)算與生物學(xué)研究組的Brian Hie說(shuō)。“草圖繪制了一個(gè)非常大的數(shù)據(jù)集的簡(jiǎn)明摘要,該數(shù)據(jù)集試圖保留盡可能多的生物信息......因此人們不需要使用如此多的計(jì)算能力。”
加入Hie和Berger的是:CSAIL博士生Hyunghoon Cho;麻省理工學(xué)院和哈佛醫(yī)學(xué)院的研究生Benjamin DeMeo;和麻省理工學(xué)院生物工程助理教授Bryan Bryson。
格子覆蓋物
人類擁有數(shù)百種細(xì)胞類別和子類別,每個(gè)細(xì)胞都表達(dá)了多種多樣的基因。諸如RNA測(cè)序的技術(shù)捕獲大量表中的所有細(xì)胞信息,其中每行代表細(xì)胞,每列代表基因表達(dá)的一些測(cè)量。細(xì)胞是散布在龐大的多維空間周?chē)狞c(diǎn),其中每個(gè)維度對(duì)應(yīng)于不同基因的表達(dá)。
“如果你采取10%的樣本,并且在一個(gè)罕見(jiàn)的群集中有10個(gè)細(xì)胞,在一個(gè)共同的群集中有1,000個(gè)細(xì)胞,你更有可能抓住大量的常見(jiàn)細(xì)胞,但是會(huì)遺漏所有稀有細(xì)胞,”Hie說(shuō)。“但稀有細(xì)胞可以導(dǎo)致重要的生物學(xué)發(fā)現(xiàn)。”實(shí)際上,具有相似基因多樣性的細(xì)胞類型 - 常見(jiàn)和罕見(jiàn) - 形成相似大小的簇,占據(jù)大致相同的空間。但是這些群集中的細(xì)胞密度差異很大:1,000個(gè)細(xì)胞可能存在于一個(gè)共同的聚類中,而同樣多樣的稀有聚類將包含10個(gè)細(xì)胞。對(duì)于提取單個(gè)細(xì)胞的目標(biāo)大小樣本的傳統(tǒng)??采樣方法來(lái)說(shuō),這是一個(gè)問(wèn)題。
研究人員修改了一類算法,該算法在數(shù)據(jù)集上形成了形狀。他們的算法覆蓋了整個(gè)計(jì)算空間,他們稱之為“格子覆蓋”,就像一個(gè)大小相等的網(wǎng)格,但在很多方面。它只放置這些多維正方形,其中至少有一個(gè)單元格,并跳過(guò)任何空白區(qū)域。最后,網(wǎng)格的空列將比占用的列更寬或更瘦 - 因此是“格子”描述。該技術(shù)可以節(jié)省大量計(jì)算量,以幫助覆蓋范圍擴(kuò)展到海量數(shù)據(jù)集。
捕獲稀有細(xì)胞
占用的方塊可能只包含一個(gè)單元格或1,000個(gè)單元格,但它們都具有完全相同的采樣權(quán)重。然后,該算法隨機(jī)地通過(guò)均勻地從每個(gè)占用的方格中選擇一組單元格來(lái)找到目標(biāo)樣本 - 例如20,000個(gè)單元。生成的草圖包含更加平等的細(xì)胞類型分布 - 例如,來(lái)自100個(gè)簇的10個(gè)常見(jiàn)細(xì)胞和來(lái)自10個(gè)簇的8個(gè)稀有細(xì)胞。
“我們利用占據(jù)相似空間的這些細(xì)胞類型,”Hie說(shuō)。“因?yàn)槲覀兏鶕?jù)體積而不是密度進(jìn)行采樣,我們可以更均勻地覆蓋生物空間......我們自然會(huì)保留稀有細(xì)胞類型。”
他們將他們的素描方法應(yīng)用于大約250,000個(gè)臍帶細(xì)胞的數(shù)據(jù)集,其中包含兩個(gè)罕見(jiàn)的巨噬細(xì)胞亞組 - 炎癥和抗炎。所有其他傳統(tǒng)的采樣方法將兩個(gè)子集聚集在一起,而草繪方法將它們分開(kāi)。研究人員說(shuō),對(duì)這些巨噬細(xì)胞亞群的進(jìn)一步深入研究有助于揭示炎癥的洞察力以及如何調(diào)節(jié)炎癥反應(yīng)過(guò)程中的炎癥過(guò)程。
“這對(duì)于在田野界面工作是有益的,”伯杰說(shuō)。“我們接受過(guò)數(shù)學(xué)家培訓(xùn),但我們了解生物數(shù)據(jù)科學(xué)問(wèn)題是什么,因此我們可以將最好的技術(shù)帶到他們的分析中。”
推薦內(nèi)容
-
轉(zhuǎn)基因板塊跌幅達(dá)2% 轉(zhuǎn)基因板塊指數(shù)多少
轉(zhuǎn)基因板塊跌幅達(dá)2%,那么轉(zhuǎn)基因板塊指數(shù)多少?而為何會(huì)出現(xiàn)這種變化呢?那么在轉(zhuǎn)基因板塊出現(xiàn)跌幅中,有哪些股票跌的比較多呢?9月7日14點(diǎn)35
-
解開(kāi)未知受體和植物受精機(jī)制
花粉管被LURE肽吸引,LURE肽由胚珠產(chǎn)生,以實(shí)現(xiàn)受精。在他們最近發(fā)表在 自然雜志上的報(bào)告中,名古屋大學(xué)的一對(duì)植物生物學(xué)家現(xiàn)在首次揭示了
-
Aptinyx對(duì)II期患者慢性疼痛的發(fā)生發(fā)展進(jìn)行了評(píng)價(jià)
Aptinyx今天表示,將考慮開(kāi)發(fā)其主要候選產(chǎn)品NYX-2925的下一步舉措。此前,該公司在一項(xiàng)針對(duì)糖尿病周?chē)窠?jīng)病變(DPN)患者的II期臨床試驗(yàn)中失
-
研究表明自由選擇伴侶可能會(huì)增強(qiáng)大熊貓的性欲
由于擔(dān)心動(dòng)物園中大熊貓的性欲低下,科學(xué)家們已經(jīng)嘗試了很多讓他們心情愉快的東西 - 尤其是偉哥和熊貓色情。當(dāng)一切都失敗了,他們經(jīng)常不
-
喉癌發(fā)生時(shí),身體或有4個(gè)異常表現(xiàn),留意到一個(gè),也要盡快檢查
喉癌發(fā)生時(shí),身體或有4個(gè)異常表現(xiàn),留意到一個(gè),也要盡快檢查 顧名思義,喉癌指的就是發(fā)生于喉嚨部位的惡性腫瘤,雖然相較于肝癌胃癌
-
科學(xué)家利用新技術(shù)組裝寨卡病毒蚊子的基因組
一個(gè)跨越貝勒醫(yī)學(xué)院,萊斯大學(xué),德克薩斯兒童醫(yī)院和麻省理工學(xué)院和哈佛大學(xué)的研究所的團(tuán)隊(duì)開(kāi)發(fā)了一種新的基因組序列方法,它可以完全從...
-
蜂蜜水可以解酒?看看真相是什么
面對(duì)流言,希望我們第一時(shí)間想到的是尋找官方回應(yīng)。而不是著急著把流言傳播出去,畢竟現(xiàn)在網(wǎng)絡(luò)相關(guān)的法律法規(guī)都出臺(tái)了,網(wǎng)絡(luò)上傳播謠言...
-
安徽警方偵破30年前命案 法網(wǎng)恢恢疏而不漏
安徽警方偵破30年前命案 法網(wǎng)恢恢疏而不漏。只要你觸犯了法律,那么終有一天就會(huì)收到法律的懲罰,所以我們?cè)谏钪胁灰龀銮址阜傻氖虑?