版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基因預(yù)測11.基因預(yù)測意義2.基因預(yù)測原理3.基因預(yù)測常用軟件4.存在的主要問題21.基因預(yù)測意義3
據(jù)GOLD(GenomesOnLineDatabase)網(wǎng)站統(tǒng)計(jì),截止到2009年3月1日,已經(jīng)完成測序的基因組有958種,正在進(jìn)行測序的多達(dá)3655種。52.基因預(yù)測原理??????原核基因結(jié)構(gòu)真核基因結(jié)構(gòu)馬爾可夫模型與隱馬爾可夫模型基因預(yù)測算法的分類原核生物中的基因預(yù)測真核生物中的基因預(yù)測6
2.1原核基因結(jié)構(gòu)?原核生物基因組小,基因密度高,很少存在重復(fù)序列, 一個(gè)基因是由編碼一個(gè)蛋白質(zhì)或RNA的開封閱讀框構(gòu)成, 中間沒有間斷。?細(xì)菌的起始密碼子為:ATG,GTG,TTG?核糖體結(jié)合位點(diǎn)(Shine-Delgaronsequence)?終止密碼子較容易確定?轉(zhuǎn)錄終止子?密碼子偏好性翻譯起始位點(diǎn)翻譯終止位點(diǎn)編碼區(qū)轉(zhuǎn)錄終止子TTTTT
7轉(zhuǎn)錄起始位點(diǎn) AGGAGGT 核糖體結(jié)合位點(diǎn)2.3馬爾可夫模型與隱馬爾可夫模型?馬爾可夫模型是描述一條DNA序列中核苷酸分布的模型。?用馬爾可夫模型進(jìn)行基因預(yù)測利用以下事實(shí):編碼區(qū)寡核苷酸分布概率與非編碼區(qū)不同。9?統(tǒng)計(jì)分析表明密碼子對具有相關(guān)性。一組六聚體核苷 酸在編碼區(qū)出現(xiàn)的概率要比隨機(jī)分布概率高,因此, 用計(jì)算六聚體堿基概率的五階馬爾可夫模型來檢測編 碼區(qū)中核苷酸的相關(guān)性準(zhǔn)確度更高,也較為常用。?在基因內(nèi)容和長度分布上,非典型的基因和典型基因 是不同的,預(yù)測典型基因的模型可能會(huì)漏掉對非典型 基因的預(yù)測。為了使一個(gè)算法適用于整個(gè)基因組中的 全部基因,就需要更多的馬爾可夫模型。結(jié)合代表典 型與非典型核苷酸分布的不同的馬爾可夫模型,建立 了隱馬爾可夫模型預(yù)測算法。(Gene
2.4基因預(yù)測程序分類?基于從頭算的方法(Abinitio-based):以給定的 序列本身來進(jìn)行預(yù)測,主要依賴于以下兩個(gè)特征:
基因信號(Genesignals):包括起始終止密碼子,內(nèi) 含子剪接信號,轉(zhuǎn)錄因子結(jié)合位點(diǎn),核糖體結(jié)合位點(diǎn)以及 Poly-A等。
基因內(nèi)容(Gcontent):對編碼區(qū)的統(tǒng)計(jì)學(xué)上的 描述??梢杂筛怕誓P停厚R爾可夫模型或隱馬爾可夫模型 檢測到這一特性,用以區(qū)別編碼與非編碼區(qū)。?基于同源性的方法(Homology-based)以檢索序 列與已知基因的序列最大的匹配為基礎(chǔ)。?基于一致性的算法(Consensusbased)以上兩種策10略相結(jié)合。2.5原核生物中的基因預(yù)測?由于原核生物基因組密度較高且沒有插入 基因,其預(yù)測較真核生物簡單。目前,基 于HMMs的原核生物基因預(yù)測算法已經(jīng)達(dá) 到相當(dāng)高的準(zhǔn)確度。?主要對真核生物中的基因預(yù)測做詳細(xì)介紹。112.6.1基于從頭算(Abinitio-based)?此程序的目標(biāo)是從非編碼序列中辨別外顯子,的程序隨后使外顯子以正確的次序排列。?主要困難之處在于正確識別外顯子。要預(yù)測外 顯子,算法依賴于兩個(gè)方面特征,基因信號和 基因內(nèi)容。其中,六聚體頻率對識別可能的編碼區(qū)來說是最具有鑒別力的。?以下分別介紹用判別分析和隱馬爾可夫模型進(jìn)行預(yù)測的原理。132.6.1.1用判別分析進(jìn)行預(yù)測?一些基因預(yù)測程序依賴于判別分析,線性判別 分析(LDA)或二次判別分析(QDA),來 提高準(zhǔn)確性。?LDA或QDA用編碼信號對應(yīng)的所有可能的3’端 剪接位點(diǎn)作二維圖,并用斜線或曲線來劃分編 碼與非編碼信號,這是以已知基因結(jié)構(gòu)的培訓(xùn) 數(shù)據(jù)集的知識為基礎(chǔ)的。?E.g:FGENES,MZEF.142.6.1.2用隱馬爾可夫模型進(jìn)行基因預(yù)測?GENESCAN是以網(wǎng)絡(luò)為基礎(chǔ)的基于五階馬爾可夫模型進(jìn)行基因預(yù)測的程序。?它結(jié)合六聚體頻率以及編碼信號(起始密碼子, TATAbox,帽子位點(diǎn),poly-A等)進(jìn)行預(yù)測。?假定的外顯子能夠成為真外顯子的概率得分為P,只有當(dāng)P大于0.5時(shí),才被認(rèn)為是可靠的。?此程序訓(xùn)練用于脊椎動(dòng)物、擬南芥(雙子葉植 物)和玉米(單子葉植物)。也可以用來預(yù)測 人類基因。152.6.3基于一致性(Consensus-based)的程序?由于不同的預(yù)測程序的靈敏度和特異性的差異,以綜合手 段為基礎(chǔ)的方法將多個(gè)程序的結(jié)果綜合起來進(jìn)行分析是十 分有必要的。?該方法將與大多數(shù)程序相一致的預(yù)測結(jié)果保留下來,其余的結(jié)果被刪除掉。?這種方法可以提高特異性,但會(huì)遺漏一些有用的新預(yù)測 (因?yàn)樾骂A(yù)測可能不被大多數(shù)程序認(rèn)可而被忽略掉了)。?E.g:GeneComber,DIGIT.173.基因預(yù)測常用軟件?適用于原核生物GeneMark,Glimmer,FGENESB?適用于真核生物GENSCAN,FGENESH,TwinScan181921222325264.存在的主要問題?假陽性(FalsePositive,FP):多預(yù)測了假的編碼區(qū),即在非編碼區(qū)預(yù)測出編碼區(qū)。?假陰性FalseNegative,FN):漏掉了真實(shí)的編碼區(qū),即將編碼區(qū)預(yù)測為非編碼區(qū)。(Over?過界預(yù)測(OPrediction,OP):由于基因邊界很難準(zhǔn)確定位,預(yù)測經(jīng)常會(huì)超出實(shí)際邊界。?片段化(Fragmentation):內(nèi)含子過大的基因,在預(yù)測時(shí)容易斷裂成兩個(gè)或多個(gè)基因。?融合化(Fusion):距離過近的兩個(gè)或多個(gè)基因,29在預(yù)測時(shí)容易被融合成一個(gè)很大的基因。小結(jié)
基因的計(jì)算預(yù)測是基因組序列分析的各個(gè)過程中最為重要的一步。由于原核生物基因組密度較高且沒有插入基因,其預(yù)測較真核生物簡單。目前,基于HMMs的原核生物基因預(yù)測算法已經(jīng)達(dá)到相當(dāng)高的準(zhǔn)確度,但是對于真核生物預(yù)測還存在著許多問題。對于ab-initio算法,在進(jìn)行真核生物基因組預(yù)測時(shí)HMM算法能很好的區(qū)分外顯子-內(nèi)含子的界限,其主要的限制是對于統(tǒng)計(jì)模型訓(xùn)練的依賴性,訓(xùn)練使此方法變得物種專一。同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中化地質(zhì)礦山總局地質(zhì)研究院2026年高校應(yīng)屆畢業(yè)生招聘備考題庫及參考答案詳解1套
- 2025年曲靖市師宗縣公安局招聘輔警27人備考題庫參考答案詳解
- 2025年建始縣自然資源和規(guī)劃局所屬事業(yè)單位公開選聘工作人員備考題庫及答案詳解一套
- 2025年民生銀行深圳分行社會(huì)招聘備考題庫附答案詳解
- 2025年嘉睿招聘(派遣至市第四人民醫(yī)院)備考題庫及完整答案詳解1套
- 大數(shù)據(jù)背景下企業(yè)財(cái)務(wù)管控的全流程-覆蓋與精準(zhǔn)施策研究畢業(yè)論文答辯
- 房地產(chǎn)企業(yè)投融資的財(cái)務(wù)管理-精準(zhǔn)測算與風(fēng)險(xiǎn)可控研究畢業(yè)論文答辯
- 2025年山東大學(xué)晶體材料研究院(晶體材料全國重點(diǎn)實(shí)驗(yàn)室)非事業(yè)編制人員招聘備考題庫及完整答案詳解1套
- Social Research -2025年中國新能源汽車行業(yè)社媒熱度趨勢與熱點(diǎn)事件深度解析報(bào)告
- 體能測評協(xié)議書
- 2025年葫蘆島市總工會(huì)面向社會(huì)公開招聘工會(huì)社會(huì)工作者5人備考題庫及參考答案詳解
- 2026班級馬年元旦主題聯(lián)歡晚會(huì) 教學(xué)課件
- 2025年沈陽華晨專用車有限公司公開招聘備考筆試題庫及答案解析
- 2025年云南省人民檢察院聘用制書記員招聘(22人)筆試考試參考試題及答案解析
- 2025天津市第二批次工會(huì)社會(huì)工作者招聘41人考試筆試備考試題及答案解析
- 2025年樂山市商業(yè)銀行社會(huì)招聘筆試題庫及答案解析(奪冠系列)
- 江西省三新協(xié)同體2025-2026年高一上12月地理試卷(含答案)
- 2025新疆維吾爾自治區(qū)哈密市法院、檢察院系統(tǒng)招聘聘用制書記員(31人)筆試考試參考試題及答案解析
- 高層建筑消防安全教育培訓(xùn)課件(香港大埔區(qū)宏福苑1126火災(zāi)事故警示教育)
- 學(xué)堂在線 雨課堂 學(xué)堂云 研究生學(xué)術(shù)與職業(yè)素養(yǎng)講座 章節(jié)測試答案
評論
0/150
提交評論