版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
§3.9RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)背景:以前人們認(rèn)為,絕大部分的RNA分子要么是蛋白質(zhì)基因表達(dá)的信使分子(mRNA),要么是協(xié)助完成基因表達(dá)的結(jié)構(gòu)分子(tRNA和rRNA)。但是,近幾年來,人們發(fā)現(xiàn)了很多新的RNA分子,它們雖然也從基因組DNA中轉(zhuǎn)錄而來,它們不是tRNA和rRNA以及其他已知的RNA(如snRNA),又不表達(dá)為蛋白質(zhì),因此也不是mRNA。不管是原核生物還是真核生物,都存在這類RNA分子,原核的情況下稱為smallRNA(sRNA),真核的情況下通常稱為noncodingRNA(ncRNA)。目前一頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)人們發(fā)現(xiàn),這一類RNA分子起著非常重要的生物學(xué)功能,如影響發(fā)育過程、調(diào)節(jié)轉(zhuǎn)錄、影響染色體復(fù)制、對(duì)RNA進(jìn)行加工和修飾、影響mRNA的穩(wěn)定性進(jìn)而影響翻譯、甚至影響蛋白質(zhì)的降解和轉(zhuǎn)運(yùn),……,等等。這一類RNA分子一般通過兩種機(jī)制發(fā)揮功能:1.和目標(biāo)分子形成堿基配對(duì),如RNAi;2.形成空間結(jié)構(gòu),如核酶(ribozyme)?,F(xiàn)在,越來越多的科學(xué)家開展了對(duì)這類RNA的研究,《SCIENCE》雜志連續(xù)幾年將之評(píng)為十大熱門研究領(lǐng)域之一。在這種形勢(shì)下,對(duì)RNA結(jié)構(gòu)的預(yù)測(cè)就顯得格外重要。目前二頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)一條單鏈RNA可以折疊成非常多可能的二級(jí)結(jié)構(gòu),這種可能的數(shù)目隨著序列的長(zhǎng)度呈指數(shù)增長(zhǎng)。一條200個(gè)堿基的RNA,就有1050種可能的結(jié)構(gòu),而一般說來,正確的只有一種。必須有一種評(píng)價(jià)函數(shù)(指標(biāo)),使得正確結(jié)構(gòu)對(duì)應(yīng)的值最大(或最小)。目前三頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.9.1
RNA結(jié)構(gòu)的特征和術(shù)語(yǔ)因?yàn)镽NA是單鏈分子,在實(shí)際的生物體環(huán)境中它會(huì)折疊起來,形成很多的莖(stem)和環(huán)(loop)。絕大部分的莖環(huán)結(jié)構(gòu)互相之間是“嵌套”關(guān)系(nested),即對(duì)于任意兩對(duì)堿基對(duì)(i,j)和(m,n),要么i<m<n<j,要么m<i<j<n。目前四頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.9.2堿基對(duì)數(shù)目最大化(Nussinov)方法文獻(xiàn):SIAMJournalofAppliedMathematics35:68-82,1978該方法認(rèn)為,那種具有最大數(shù)目的堿基對(duì)的結(jié)構(gòu)就是正確的結(jié)構(gòu)。計(jì)算時(shí)采用動(dòng)態(tài)規(guī)劃的思想,是一種遞歸的過程:先定出一小段序列的最好二級(jí)結(jié)構(gòu),再用相同的法則將序列擴(kuò)展,找到相應(yīng)的最好二級(jí)結(jié)構(gòu);這種方法不斷進(jìn)行,直到全長(zhǎng)序列。目前五頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)KeyIdea:要在更短序列的最好二級(jí)結(jié)構(gòu)基礎(chǔ)上獲得序列i到j(luò)的最好二級(jí)結(jié)構(gòu),只有4種可能的途經(jīng):原有結(jié)構(gòu)兩端各延伸一個(gè)殘基并將它們配對(duì);向5’端延伸一個(gè)不配對(duì)的殘基;向3’端延伸一個(gè)不配對(duì)的殘基;將已存在最好二級(jí)結(jié)構(gòu)的兩段合并起來;目前六頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)具體算法:將一段長(zhǎng)度為L(zhǎng)的RNA序列記為b1,b2,……,bi,……,bj,……bL并定義并記從bi到bj所構(gòu)成的子序列所能形成的最大堿基對(duì)數(shù)目為(i,j)。目前七頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)第一步:初始化Let(i,i-1)=0,fori=2toL;(i,i)=0,fori=1toL;第二步:遞歸計(jì)算從所有的長(zhǎng)度為2的子序列開始,一直到長(zhǎng)度為L(zhǎng),按以下公式計(jì)算(i,j):目前八頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)以序列GGGAAAUCC為例子:初始化(i,i-1)=0,fori=2toL;(i,i)=0,fori=1toL;b.開始遞歸計(jì)算目前九頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)C.繼續(xù)遞歸過程d.完成遞歸計(jì)算(1,L)的值就是該序列所能形成堿基對(duì)的最大數(shù)目。從(1,L)開始,通過回溯過程,就可得到相應(yīng)的二級(jí)結(jié)構(gòu)。目前十頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)回溯算法從右上角(1,L)開始,放進(jìn)堆棧。遞歸:反復(fù)運(yùn)用以下規(guī)則,直到堆棧為空:取出堆棧上層位置,假設(shè)為(i,j),如果i>=j,繼續(xù)取堆棧;如果(i+1,j)=(i,j),放(i+1,j)入堆棧;如果(i,j-1)=(i,j),放(i,j-1)入堆棧;
如果(i+1,j-1)+(i,j)=(i,j)記錄(i,j)堿基對(duì),放(i+1,j-1)入堆棧;{前三種情況不止一種成立時(shí),須綜合考慮}否則fork=i+1toj-1:{if(i,k)+(k+1,j)=(i,j)放(k+1,j)和(i,k)入堆棧并跳出循環(huán);}目前十一頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)選取不同的回溯路徑得到不同的結(jié)構(gòu)目前十二頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)注意:回溯的線路經(jīng)常不是唯一的,所以結(jié)構(gòu)也是不唯一的,其中有些顯然是不可能的。另外,這種方法無(wú)法考慮“假結(jié)”(pseudoknot)的情況。這種算法可以加以推廣,比如讓GC配對(duì)得3分,而AU配對(duì)得2分,這時(shí)候只需對(duì)(i,j)函數(shù)重新定義即可。目前十三頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.9.3自由能最小化(Zuker)方法簡(jiǎn)介
文獻(xiàn):NucleicAcidsResearch9:133-148,1981
MethodsinEnzymology180:262-288,1989實(shí)際上,RNA折疊的真正動(dòng)力是鏈內(nèi)“相互作用”的而不是“數(shù)堿基對(duì)”。Zuker方法是一種自由能最小化方法,它假設(shè)正確的結(jié)構(gòu)應(yīng)具有最低的自由能(G)。Zuker方法中G被近似為來自loops,basepairs及其他二級(jí)結(jié)構(gòu)元素的貢獻(xiàn)之和。對(duì)于一個(gè)stem,其貢獻(xiàn)計(jì)算為堿基對(duì)的“堆積能”而不是簡(jiǎn)單的各堿基對(duì)貢獻(xiàn)之和。例如,一個(gè)有n個(gè)堿基對(duì)的stem,其貢獻(xiàn)是n-1個(gè)堆積能之和。目前十四頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)詳細(xì)規(guī)則參考:PNAS83:9373-9377,1986有了這些規(guī)則,運(yùn)用類似于前面Nussinov方法中的動(dòng)態(tài)規(guī)劃算法(當(dāng)然實(shí)際要復(fù)雜很多,但思想一樣),就可獲得可能為自由能最小化的二級(jí)結(jié)構(gòu)。目前十五頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.9.4多序列alignment法的基本思路一個(gè)生物分子,如果它主要依靠其結(jié)構(gòu)發(fā)揮功能,則一般地其結(jié)構(gòu)的保守性要高于其序列的保守性;對(duì)于結(jié)構(gòu)RNA中的stem,為了保證其結(jié)構(gòu)不被破壞,就有了堿基“協(xié)同突變”的特點(diǎn):根據(jù)這個(gè)特點(diǎn),我們能很有把握地推測(cè)其二級(jí)結(jié)構(gòu)。目前十六頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)顯然,位點(diǎn)對(duì)(2,9)提供了比其它位點(diǎn)對(duì)更多更可靠的二級(jí)結(jié)構(gòu)信息。信息論中一種稱為mutualinformation的指標(biāo)恰好能定量計(jì)算這種信息,公式為:Mij的意義是:i,j兩列的實(shí)際變化偏離“各自獨(dú)立變化”的程度。目前十七頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)例1:i…jU…AU…AU…AU…AMij=0例2:i…jU…AC…GA…UG…CMij=2例3i…jU…AU…AG…CG…CMij=1例4:i…jU…CU…AG…CG…AMij=0思考,如何將其和具體的生物學(xué)意義聯(lián)系起來?目前十八頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)基于一千多個(gè)tRNA的多序列alignment,可以畫出右圖上部的mutualinformation圖。對(duì)照酵母tRNA-Phe的二級(jí)結(jié)構(gòu)結(jié)構(gòu)(右圖下部),可以發(fā)現(xiàn),上圖中的4簇尖峰和下圖中的4個(gè)臂完全吻合,甚至因在三級(jí)結(jié)構(gòu)上靠近而產(chǎn)生的相關(guān)(虛線)也有所體現(xiàn)。到目前為止,這種基于多序列alignment的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法是公認(rèn)的最成功方法,但是需要很多條件。目前十九頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.9.5網(wǎng)上RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)軟件Mfold
server,網(wǎng)址:/applications/mfold/cgi-bin/rna-form1.cgiViennaRNAPackage,網(wǎng)址:http://www.tbi.univie.ac.at/~ivo/RNA/其中的程序RNAfold用的就是自由能最小化(Zuker)方法;GeneBee
服務(wù)器,網(wǎng)址:http://www.genebee.msu.su/services/rna2_reduced.html......目前二十頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)利用GeneBee服務(wù)器的一個(gè)示例目前二十一頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)稍等幾分鐘,即可看到結(jié)果:
目前二十二頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)目前二十三頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)目前二十四頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)目前二十五頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)目前二十六頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)注意:同一個(gè)序列用不同的預(yù)測(cè)程序可能得到不同的結(jié)果;如果一條較短序列是一條較長(zhǎng)序列的子序列,即使用同一個(gè)程序預(yù)測(cè),短序列的結(jié)構(gòu)可能和長(zhǎng)序列的相應(yīng)部分的結(jié)構(gòu)不同;同一個(gè)序列同一個(gè)程序,但條件參數(shù)不同,也會(huì)得到不同的預(yù)測(cè)結(jié)構(gòu)。目前二十七頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.10
找基因§3.10.1
在基因組DNA序列中尋找編碼區(qū)基于編碼區(qū)特征的方法基于數(shù)據(jù)庫(kù)的方法注意兩類假基因(pseudogenes)§3.10.2
基因的電腦克隆§3.10.3幾個(gè)常用軟件服務(wù)器目前二十八頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)目前二十九頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)CTCGGGCCGTCTCTTGGGCTTGATCGGCCTTCTTGCGCATCTCACGCGCTCCTGCGGCGGCCTGTAGGGC
AGGCTCATACCCCTGCCGAACCGCTTTTGTCAGCCGGTCGGCCACGGCTTCCGGCGTCTCAACGCGCTTT
GAGATTCCCAGCTTTTCGGCCAATCCCTGCGGTGCATAGGCGCGTGGCTCGACCGCTTGCGGGCTGATGG
TGACGTGGCCCACTGGTGGCCGCTCCAGGGCCTCGTAGAACGCCTGAATGCGCGTGTGACGTGCCTTGCT
GCCCTCGATGCCCCGTTGCAGCCCTAGATCGGCCACAGCGGCCGCAAACGTGGTCTGGTCGCGGGTCATC
TGCGCTTTGTTGCCGATGAACTCCTTGGCCGACAGCCTGCCGTCCTGCGTCAGCGGCACCACGAACGCGG
TCATGTGCGGGCTGGTTTCGTCACGGTGGATGCTGGCCGTCACGATGCGATCCGCCCCGTACTTGTCCGC
CAGCCACTTGTGCGCCTTCTCGAAGAACGCCGCCTGCTGTTCTTGGCTGGCCGACTTCCACCATTCCGGG
CTGGCCGTCATGACGTACTCGACCGCCAACACAGCGTCCTTGCGCCGCTTCTCTGGCAGCAACTCGCGCA
GTCGGCCCATCGCTTCATCGGTGCTGCTGGCCGCCCAGTGCTCGTTCTCTGGCGTCCTGCTGGCGTCAGC
GTTGGGCGTCTCGCGCTCGCGGTAGGCGTGCTTGAGACTGGCCGCCACGTTGCCCATTTTCGCCAGCTTC
TTGCATCGCATGATCGCGTATGCCGCCATGCCTGCCCCTCCCTTTTGGTGTCCAACCGGCTCGACGGGGG
CAGCGCAAGGCGGTGCCTCCGGCGGGCCACTCAATGCTTGAGTATACTCACTAGACTTTGCTTCGCAAAG
TCGTGACCGCCTACGGCGGCTGCGGCGCCCTACGGGCTTGCTCTCCGGGCTTCGCCCTGCGCGGTCGCTG
CGCTCCCTTGCCAGCCCGTGGATATGTGGACGATGGCCGCGAGCGGCCACCGGCTGGCTCGCTTCGCTCG
GCCCGTGGACAACCCTGCTGGACAAGCTGATGGACAGGCTGCGCCTGCCCACGAGCTTGACCACAGGGAT
TGCCCACCGGCTACCCAGCCTTCGACCACATACCCACCGGCTCCAACTGCGCGGCCTGCGGCCTTGCCCC
ATCAATTTTTTTAATTTTCTCTGGGGAAAAGCCTCCGGCCTGCGGCCTGCGCGCTTCGCTTGCCGGTTGG
ACACCAAGTGGAAGGCGGGTCAAGGCTCGCGCAGCGACCGCGCAGCGGCTTGGCCTTGACGCGCCTGGAA
CGACCCAAGCCTATGCGAGTGGGGGCAGTCGAAGGCGAAGCCCGCCCGCCTGCCCCCCGAGCCTCACGGC???????目前三十頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.10.1
在基因組DNA序列中尋找編碼區(qū)
基于編碼區(qū)特征的方法優(yōu)點(diǎn):不必依賴于數(shù)據(jù)庫(kù)(不必學(xué)習(xí)和訓(xùn)練),普適性強(qiáng)。缺點(diǎn):準(zhǔn)確度低,特別是對(duì)于真核基因,由于其高度復(fù)雜性,預(yù)測(cè)的準(zhǔn)確率更低。目前三十一頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)1.尋找長(zhǎng)ORF該方法較適用于原核生物,例如,我們從某種細(xì)菌中測(cè)得以下序列:
>MYSEQ1310bp
ggcgtcgccgccgatggcgcttaggcgtagcatggggtggccggggctacggccgctgct
gctggcgggactggctaatctgctgctacccgggtctgcggccgcaggcctgaagctcat
gggcgccccagttaagatgaccgtgtctcaggggcagtcagtgaagctcaactgcagcgt
ggaggggatggaggaccctgacatccactggatgaaggatggcaccgtggtccagaatgc
aagtcaggtgtccatctccatcagcgagcacagctggattggcttactcagccttaagtc
agtggagcgg我們可以將它按六種讀框?qū)⑺残蟹g成蛋白序列:目前三十二頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)
RF-3TAASPA*AYCPTAPAVAAA
RF-2ADGGIASLRLMPHGPSRGSS
RF-1RRRRHRKPTAHPPRP*PRQQ
3'complccgcagcggcggctaccgcgaatccgcatcgtaccccaccggccccgatgccggcgacga5'
5'1ggcgtcgccgccgatggcgcttaggcgtagcatggggtggccggggctacggccgctgct3'
RF1GVAADGA*A*HGVAGATAAA
RF2ASPPMALRRSMGWPGLRPLL
RF3RRRRWRLGVAWGGRGYGRC
RF-3APPVP*DAAVRTQPRLGSA*
RF-2SAPSALRSSGPDAAAPRFSM
RF-1QRSQSIQQ*GPRRGCAQLEH
3'complcgaccgccctgaccgattagacgacgatgggcccagacgccggcgtccggacttcgagta5'
5'61gctggcgggactggctaatctgctgctacccgggtctgcggccgcaggcctgaagctcat3'
RF1AGGTG*SAATRVCGRRPEAH
RF2LAGLANLLLPGSAAAGLKLM
RF3CWRDWLICCYPGLRPQA*SS
目前三十三頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)
RF-3PRGL*SSRTEPATLSA*SCR
RF-2PAGTLIVTD*PCDTFSLQLT
RF-1AGWNLHGHRLPL*HLEVAAH
3'complcccgcggggtcaattctactggcacagagtccccgtcagtcacttcgagttgacgtcgca5'
5'121gggcgccccagttaagatgaccgtgtctcaggggcagtcagtgaagctcaactgcagcgt3'
RF1GRPS*DDRVSGAVSEAQLQR
RF2GAPVKMTVSQGQSVKLNCSV
RF3WAPQLR*PCLRGSQ*SSTAA
RF-3PPSPPGQCGSSSPHCRPGSH
RF-2SPISSGSMWQIFSPVTTWFA
RF-1LPHLVRVDVPHLIAGHDLIC
3'complcctcccctacctcctgggactgtaggtgacctacttcctaccgtggcaccaggtcttacg5'
5'181ggaggggatggaggaccctgacatccactggatgaaggatggcaccgtggtccagaatgc3'
RF1GGDGGP*HPLDEGWHRGPEC
RF2EGMEDPDIHWMKDGTVVQNA
RF3WRGWRTLTSTG*RMAPWSRM
目前三十四頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)
RF-3LDPTWRW*RACSSQSV*G*T
RF-2L*TDMEMLSCLQIPKSLRLD
RF-1TLHGDGDALVAPNA*EAKL*
3'complttcagtccacaggtagaggtagtcgctcgtgtcgacctaaccgaatgagtcggaattcag5'
5'241aagtcaggtgtccatctccatcagcgagcacagctggattggcttactcagccttaagtc3'
RF1KSGVHLHQRAQLDWLTQP*V
RF2SQVSISISEHSWIGLLSLKS
RF3QVRCPSPSASTAGLAYSALS
RF-3LPA
RF-2TSR
RF-1HLP
3'compltcacctcgcc5'
5'301agtggagcgg3'
RF1SGA
RF2VER
RF3QWS
目前三十五頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)我們可以直觀地看出,讀框2沒有碰到終止密碼子,所以這段序列可能是蛋白質(zhì)基因。如果能在被預(yù)測(cè)為基因的上游的合適位置上找到轉(zhuǎn)錄promoter中的保守序列:
-10位置的“TATAAT”(T80A95T45A60A50T96)-35位置的“TTGACA”(T82T84G78A65C54A45)就可增加基因預(yù)測(cè)的可信度。目前三十六頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)2.利用周期特性找編碼區(qū)原則上說,任何能研究序列周期特性的方法和軟件都可以用來探測(cè)編碼區(qū),如D值得方法(以前講過),各種頻譜分析方法等等。3.利用其他特征找編碼區(qū)編碼區(qū)除了有大的開讀框架和周期3特性外,還有其它一些特征,如序列復(fù)雜度和分維度(后面講)較高,GC含量高等等,這些都可以被用來尋找或幫助尋找編碼區(qū)。目前三十七頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)基于數(shù)據(jù)庫(kù)的方法1.同源性比較法2.經(jīng)驗(yàn)規(guī)律符合法3.通過和EST序列的比較來定位基因目前三十八頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)1.同源性比較法將新測(cè)得的序列直接和數(shù)據(jù)庫(kù)中的已知基因序列或蛋白質(zhì)序列作同源性比較(BLAST和FASTA);若序列相似性在35%以上、期望值E在0.01以下,就基本上可以確定是基因序列;若相似性特別高,又屬于同一物種,則很可能不是新的基因。優(yōu)點(diǎn):準(zhǔn)確性高,且可預(yù)測(cè)其編碼蛋白質(zhì)的功能。缺點(diǎn):很多新的基因在數(shù)據(jù)庫(kù)中還找不到同源序列,因而無(wú)法用這種方法檢測(cè)到。目前三十九頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)2.經(jīng)驗(yàn)規(guī)律符合法即通過對(duì)已知基因的序列特征進(jìn)行訓(xùn)練學(xué)習(xí)、總結(jié)出規(guī)律,再用這個(gè)規(guī)律來檢驗(yàn)新測(cè)得的序列,以判斷其是否為基因序列,如前面講過的密碼子使用頻率方法。另外,馬爾科夫鏈方法(后面講)以及神經(jīng)網(wǎng)絡(luò)(用來預(yù)測(cè)編碼區(qū)時(shí))也屬于這類方法。優(yōu)點(diǎn):是目前尋找新基因的最常用、最有效的方法,準(zhǔn)確度也高。缺點(diǎn):若已有數(shù)據(jù)不足或數(shù)據(jù)集選取不當(dāng),會(huì)影響預(yù)測(cè)的準(zhǔn)確性。另外,對(duì)不同的物種常有不同的規(guī)律,需要對(duì)不同數(shù)據(jù)集體進(jìn)行學(xué)習(xí)和總結(jié),比較麻煩。目前四十頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)3.通過和EST的比較來定位基因EST是ExpressedSequenceTag的縮寫,實(shí)際上是一些cDNA序列的片段,長(zhǎng)度一般為400到500bp。但是,實(shí)驗(yàn)中測(cè)到的EST序列來源于哪個(gè)基因,是基因的哪一部分是隨機(jī)的,無(wú)法事先確定。利用EST序列和基因組序列的比較來確定基因在基因組中的位置,甚至進(jìn)一步確定基因的精細(xì)結(jié)構(gòu)(exon,intron,splicingsites)原則上是可能的。目前四十一頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)mRNA的可變剪接EXON1INTRON1EXON2INTRON2EXON3INTRON3EXON4Pre-mRNA正常剪接EXON1EXON2EXON3EXON4成熟mRNA1可變剪接EXON1EXON3EXON4成熟mRNA2可變剪接EXON1EXON2EXON4成熟mRNA3目前四十二頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)優(yōu)點(diǎn):可以確定基因的精細(xì)結(jié)構(gòu)并將其在基因組上定位,這是其他方法難以做到的?,F(xiàn)在對(duì)人類基因組中基因的標(biāo)注,很多都采用這個(gè)辦法。缺點(diǎn):EST數(shù)據(jù)庫(kù)中的數(shù)據(jù)含有大量的錯(cuò)誤,給方法的實(shí)施帶來很大的困難。另外,由于基因組DNA和EST序列的數(shù)據(jù)量都十分龐大,導(dǎo)致計(jì)算量也十分龐大。目前四十三頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)注意兩類假基因(pseudogenes)第一類假基因:基因的復(fù)制(duplication)會(huì)產(chǎn)生相同的基因一前一后緊鄰出現(xiàn)的情況。當(dāng)其中一個(gè)積累了太多的有害突變而失去功能時(shí),就成了假基因。由于還有另一個(gè)基因發(fā)揮正常功能,所以物種仍可存活。第二類假基因:稱為“processedpseudogenes”。這類基因也源自正?;?,但沒有內(nèi)含子,其上游也沒有promoter。推測(cè)這類假基因的產(chǎn)生過程是:正?;蚪?jīng)轉(zhuǎn)錄剪接得到成熟mRNA,隨后反轉(zhuǎn)錄為cDNA,再經(jīng)轉(zhuǎn)座作用插入染色體的某個(gè)位置。目前四十四頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)§3.10.2
基因的電腦克隆EST是對(duì)應(yīng)于表達(dá)基因的cDNA的一些隨機(jī)片段,長(zhǎng)度一般在400到500bp之間。這些片段相互之間可能有重疊的部分?,F(xiàn)在公共EST數(shù)據(jù)庫(kù)(如NCBI的dbEST)中人類EST序列總長(zhǎng)估計(jì)已是人類基因外顯子總長(zhǎng)的十幾倍,所以這種重疊是顯而易見的。因此,通過對(duì)EST序列的比對(duì)拼接,得到全長(zhǎng)cDNA序列是完全可能的;進(jìn)一步,可以對(duì)拼接所得的全長(zhǎng)cDNA進(jìn)行分析,找出可能的新基因。這樣的過程就稱為基因的電腦克隆。目前四十五頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)EST序列數(shù)據(jù)庫(kù)的形成EST序列數(shù)據(jù)庫(kù)目前四十六頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)SiClone流程圖數(shù)據(jù)準(zhǔn)備,包括:序列純化及格式標(biāo)準(zhǔn)化-----------------------取出一條種子庫(kù)大庫(kù)種子和大庫(kù)的序列比對(duì)判斷種子序列能否被延長(zhǎng)能—
—
———延長(zhǎng)了的序列代替舊序列否結(jié)束,放入contig庫(kù)目前四十七頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)目前四十八頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)目前四十九頁(yè)\總數(shù)六十五頁(yè)\編于十四點(diǎn)幾個(gè)技術(shù)問題判斷能否拼接的標(biāo)準(zhǔn):1.要求的重疊區(qū)最小序列相似性2.要求的重疊區(qū)最小長(zhǎng)度3.允許的“壞接頭”最大長(zhǎng)度如何決定新的序列1.庫(kù)序列的一致性問題2.堿基“投票”目前五十頁(yè)\總數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年道路工程施工合同(市政·驗(yàn)收版)
- 2025年銅仁職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)帶答案解析
- 2025年中牟縣招教考試備考題庫(kù)及答案解析(必刷)
- 2025年鶴壁汽車工程職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題含答案解析(奪冠)
- 古代兵器知識(shí)
- 2025年平安縣招教考試備考題庫(kù)含答案解析(必刷)
- 2025年長(zhǎng)江職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)附答案解析
- 2026年廣西自然資源職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)帶答案解析
- 2025年貴州傳媒職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題帶答案解析
- 2024年遼寧鐵道職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試題帶答案解析
- 森林消防安全知識(shí)課件
- T-CRHA 089-2024 成人床旁心電監(jiān)測(cè)護(hù)理規(guī)程
- 燃?xì)夤艿廊毕菪迯?fù)技術(shù)-深度研究
- 刑事訴訟法學(xué)全套課件
- DBJ51-T 040-2021 四川省工程建設(shè)項(xiàng)目招標(biāo)代理操作規(guī)程
- 青鳥消防JBF62E-T1型測(cè)溫式電氣火災(zāi)監(jiān)控探測(cè)器使用說明書
- 武漢市江岸區(qū)2022-2023學(xué)年七年級(jí)上學(xué)期期末地理試題【帶答案】
- 自動(dòng)駕駛系統(tǒng)關(guān)鍵技術(shù)
- 完整工資表模板(帶公式)
- 奇瑞汽車QC小組成果匯報(bào)材料
- 社區(qū)春節(jié)活動(dòng)方案
評(píng)論
0/150
提交評(píng)論