基因好的人有什么特征?修改基因有多可怕?
想必大家都知道,基因識別,是生物信息學(xué)的一個重要分支,使用生物學(xué)實驗或計算機(jī)等手段識別DNA序列上的具有生物學(xué)特征的片段。那么,你知道基因識別的主要對象是誰嗎?
據(jù)了解,基因識別的主要手段是基于活的細(xì)胞或生物的實驗。通過對若干種不同基因的同源重組的速率的統(tǒng)計分析,我們能夠獲知它們在染色體上的順序。若進(jìn)行大量類似的分析,我們可以確定各個基因的大致位置。現(xiàn)在,由于人類已經(jīng)獲得了巨大數(shù)量的基因組信息,依靠較慢的實驗分析已不能滿足基因識別的需要,而基于計算機(jī)算法的基因識別得到了長足的發(fā)展,成為了基因識別的主要手段。
識別具有生物學(xué)功能的片段與判定該片段(或其對應(yīng)的產(chǎn)品)的功能是兩個不同的概念,后者通常需要通過基因敲除等的實驗手段來決定。不過,生物信息學(xué)的前沿研究正在使得由基因序列預(yù)測基因功能變得愈發(fā)可能。
識別方法
間接識別法
在基因的間接識別法(Extrinsic Approach)中,人們利用已知的mRNA或蛋白質(zhì)序列為線索在DNA序列中搜尋所對應(yīng)的片段。由給定的mRNA序列確定唯一的作為轉(zhuǎn)錄源的DNA序列;而由給定的蛋白質(zhì)序列,也可以由密碼子反轉(zhuǎn)確定一族可能的DNA序列。因此,在線索的提示下搜尋工作相對較為容易,搜尋算法的關(guān)鍵在于提高效率,并能夠容忍由于測序不完整或者不精確所帶來的誤差。BLAST是目前以此為目的最廣泛使用的軟件之一。
若DNA序列的某一片段與mRNA或蛋白質(zhì)序列具有高度相似性,這說明該DNA片段極有可能是蛋白編碼基因。但是,測定mRNA或蛋白質(zhì)序列的成本高昂,而且在復(fù)雜的生物體中,任意確定的時刻往往只有一部分基因得到了表達(dá)。這意味著從任何單個細(xì)胞的mRNA和蛋白質(zhì)上都只能獲得一小部分基因的信息;要想得到更為完整的信息,不得不對成百上千個不同狀態(tài)的細(xì)胞中的mRNA和蛋白質(zhì)測序。這是相當(dāng)困難的。比如,某些人類基因只在胚胎或胎兒時期才得到表達(dá),對它們的研究就會受到道德因素的制約。
盡管有以上困難,對人類自身和一些常見的實驗生物如老鼠和酵母菌,人們已經(jīng)建立了大量轉(zhuǎn)錄和蛋白質(zhì)序列的數(shù)據(jù)庫。如RefSeq數(shù)據(jù)庫,Ensembl數(shù)據(jù)庫等等。但這些數(shù)據(jù)庫既不完整,也含有相當(dāng)數(shù)量的錯誤。
從頭計算法
鑒于間接識別法的種種缺陷,僅僅由DNA序列信息預(yù)測蛋白質(zhì)編碼基因的從頭計算法(Ab Initio Approach)就顯得十分重要了。一般意義上基因具有兩種類型的特征,一類特征是“信號”,由一些特殊的序列構(gòu)成,通常預(yù)示著其周圍存在著一個基因;另一類特征是“內(nèi)容”,即蛋白質(zhì)編碼基因所具有的某些統(tǒng)計學(xué)特征。使用Ab Initio方法識別基因又稱為基因預(yù)測。通常我們?nèi)孕杞柚鷮嶒炞C實預(yù)測的DNA片段是否具有生物學(xué)功能。
在原核生物中,基因往往具有特定且容易識別的啟動子序列(信號),如Pribnow盒和轉(zhuǎn)錄因子。與此同時,構(gòu)成蛋白質(zhì)編碼的序列構(gòu)成一個連續(xù)的開放閱讀框(內(nèi)容),其長度約為數(shù)百個到數(shù)千個堿基對(依據(jù)該長度區(qū)間可以篩選合適的密碼子)。除此之外,原核生物的蛋白質(zhì)編碼還具有其他一些容易判別的統(tǒng)計學(xué)的特征。這使得對原核生物的基因預(yù)測能達(dá)到相對較高的精度。
對真核生物(尤其是復(fù)雜的生物如人類)的基因預(yù)測則相當(dāng)有挑戰(zhàn)性。一方面,真核生物中的啟動子和其他控制信號更為復(fù)雜,還未被很好的了解。兩個被真核生物基因搜尋器識別到的訊號例子有CpG islands及poly(A) tail的結(jié)合點。
另一方面,由于真核生物所具有的splicing機(jī)制,基因中一個蛋白質(zhì)編碼序列被分為了若干段(外顯子),中間由非編碼序列連接(基因內(nèi)區(qū))。人類的一個普通蛋白質(zhì)編碼基因可能被分為了十幾個外顯子,其中每個外顯子的長度少于200個堿基對,而某些外顯子更可能只有二三十個堿基對長。因而蛋白質(zhì)編碼的一些統(tǒng)計學(xué)特征變得難于判別。
高級的基因識別算法常使用更加復(fù)雜的概率論模型,如隱馬爾可夫模型。Glimmer是一個廣泛應(yīng)用的高級基因識別程序,它對原核生物基因的預(yù)測已非常精確,相比之下,對真核生物的預(yù)測則效果有限。GENSCAN計劃是一個著名的例子。
比較基因組學(xué)的方法
由于多個物種的基因組序列已完全測出,使得比較基因組學(xué)得以發(fā)展,并產(chǎn)生了新的基因識別的方法。該方法基于如下原理:自然選擇的力量使得基因和DNA序列上具有生物學(xué)功能的其他片段較其他部分有較慢的變異速率,在前者的變異更有可能對生物體的生存產(chǎn)生負(fù)面影響,因而難以得到保存。因此,通過比較相關(guān)的物種的DNA序列,我們能夠取得預(yù)測基因的新線索。2003年,通過對若干種酵母基因組的比較,人類對原先的基因識別結(jié)果作了較大的修改;類似的方法也正在應(yīng)用于人類的基因組研究,并可能在將來的若干年內(nèi)取得成果。
總結(jié):基因識別的對象主要是蛋白質(zhì)編碼基因,也包括其他具有一定生物學(xué)功能的因子,如RNA基因和調(diào)控因子。基因識別是基因組研究的基礎(chǔ)。
推薦內(nèi)容
-
第72回紅白歌合戰(zhàn)名單都有誰?第72回紅白歌會名單陣容公布
關(guān)于第72回紅白歌合戰(zhàn)名單,日本NHK紅白歌會2021名單公布的這個話題,相信小伙伴們是非常有興趣了解的,因為這個話題是目前網(wǎng)絡(luò)上非常火熱
-
有快遞員一周交50元豐巢寄存費是真的嗎?豐巢寄存收費合理嗎?
日前,一則關(guān)于豐巢推出了會員機(jī)制,普通用戶(非會員)來說,豐巢智能快件箱超時收費0 5元起的規(guī)定引發(fā)了軒然大波。針對智能快件箱超時能否
-
天津伊康生物制藥科普:酸性氧化電位水替代75%酒精用于皮試消毒的
天津伊康生物制藥科普:酸性氧化電位水替代75%酒精用于皮試消毒的效果評價 原標(biāo)題:天津伊康生物制藥科普:
-
歐洲多國疫情出現(xiàn)反彈 每18秒就有1人因新冠死亡
近段時間,隨著社交限制措施的解除和經(jīng)濟(jì)活動的重起,歐洲多國疫情出現(xiàn)反彈。據(jù)最新資料顯示,每18秒就有1人因新冠死亡,那具體是怎么回事?為
-
上海昨日新增本土確診病例1249例、無癥狀感染者8932例,新增本土
上海昨日新增本土確診病例1249例、無癥狀感染者8932例,新增本土死亡47例 原標(biāo)題:上海昨日新增本土確診病
-
已故舉重冠軍才力女兒在微博上求助是怎么回事?才力之女網(wǎng)絡(luò)求助
【摘要】才力是誰?據(jù)消息顯示,才力(1970年6月30日—2003年5月31日),遼寧昌圖人,中國舉重運動員。1985年9月,才力在全國首屆青運會舉重比
-
記憶依賴于星形膠質(zhì)細(xì)胞 這是大腦中鮮為人知的細(xì)胞
當(dāng)你期待某樣?xùn)|西時——比如你在餐館點的菜——或者當(dāng)某樣?xùn)|西吸引了你的興趣時,獨特的電子節(jié)奏就會在你的大腦中閃現(xiàn)。這些波被稱為伽...
-
玄武湖公園現(xiàn)群魚跳躍奇觀 網(wǎng)友:“魚兒缺氧了”
【玄武湖公園現(xiàn)群魚跳躍奇觀】近日關(guān)于‘玄武湖公園現(xiàn)群魚跳躍奇觀’的消息引起了廣泛網(wǎng)友的關(guān)注,具體是什么情況呢?為什么又...
-
王思聰旗下公司拍賣 13.8萬成交 所得款項將用于破產(chǎn)清算
繼被列為失信被執(zhí)行人后,王思聰旗下的熊貓互娛昨日完成了拍賣。據(jù)最新資料顯示,昨天王思聰旗下公司拍賣 價以13 8萬成交,而所得款項將用
-
11月1日西安疫情最新數(shù)據(jù)公布 陜西昨日新增2例境外輸入無癥
小編在這里提醒大家,疫情期間,嚴(yán)格落實就醫(yī)制度。如出現(xiàn)發(fā)熱、咳嗽、胸悶氣促等癥狀,請佩戴口罩到定點醫(yī)院發(fā)熱門診就診,不要到普通...