基因組學(xué)數(shù)據(jù)分析_第1頁
基因組學(xué)數(shù)據(jù)分析_第2頁
基因組學(xué)數(shù)據(jù)分析_第3頁
基因組學(xué)數(shù)據(jù)分析_第4頁
基因組學(xué)數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、實(shí)習(xí)一基因組數(shù)據(jù)注釋和功能分析,陳啟昀陳 辰 丁文超 張?jiān)雒?浙江加州國際納米技術(shù)研究院(ZCNI),課程內(nèi)容,基因組學(xué),轉(zhuǎn)錄物組學(xué),蛋白質(zhì)組學(xué),系統(tǒng)生物學(xué),通過序列比對(duì)工具BLAST學(xué)習(xí),了解蛋白編碼基因的功能注釋原理 介紹多序列聯(lián)配工具ClustalX 分子進(jìn)化分析軟件MEGA4的基本知識(shí),掌握系統(tǒng)發(fā)生樹繪制的基本方法,課程提綱,序列比對(duì)的進(jìn)化基礎(chǔ),什么是序列比對(duì): 將兩個(gè)或多個(gè)序列按照最佳匹配方式排列在一起。 對(duì)應(yīng)的相同或相似的符號(hào)排列在同一列上。 錯(cuò)配與突變相應(yīng),空位與插入或缺失對(duì)應(yīng)。 序列比對(duì)的目的: 從核酸以及氨基酸的層次去分析序列的相同點(diǎn)和不同點(diǎn),以推測他們的結(jié)構(gòu)、功能以及進(jìn)化上

2、的聯(lián)系 通過判斷兩個(gè)序列之間的相似性來判定兩者是否具有同源性 相似性:可以被數(shù)量化,如:序列之間相似部分的百分比 同源性:質(zhì)的判斷,兩個(gè)基因在進(jìn)化上是否曾有共同祖先的推斷,BLAST,基本局部比對(duì)搜索工具(Basic Local Alignment Search Tool) NCBI上BLAST服務(wù)的網(wǎng)址: /blast/ NCBI上BLAST程序的下載: /blast/executables/release/ NCBI的BLAST數(shù)據(jù)庫下載網(wǎng)址: ftp:/ftp.ncbi.nlm.nih.

3、gov/blast/db/,選擇物種,選擇blast程序,QuerySequence,AminoacidSequence,DNASequence,tBLASTx,BLASTx,BLASTn,tBLASTn,BLASTp,Nucleotide Database,Protein Database,Nucleotide Database,Nucleotide Database,Protein Database,Translated,Translated,Translated,以Blastx為例:,目標(biāo)序列為ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC

4、 AAT CTG CTT TAT ACC CGC,6個(gè)讀碼框翻譯,5端到3端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C 3端到5端 第一位起始: GCG GGT ATA AA

5、G CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T,與核酸相關(guān)的數(shù)據(jù)庫,與蛋白質(zhì)相關(guān)的數(shù)據(jù)庫,選擇數(shù)據(jù)庫,序列或目標(biāo)序列的GI號(hào),以文件格式上傳,BlastN,配對(duì)與錯(cuò)配,空位罰分,BlastP,打分矩陣: PAM30 PAM

6、70 BLOSUM80 BLOSUM62 BLOSUM45,PAM模型可用于尋找蛋白質(zhì)的進(jìn)化起源,而BLOSUM模型則用于發(fā)現(xiàn)蛋白質(zhì)的保守域。,選擇打分矩陣(scoring matrix),The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1.The BLOSUM family Ba

7、sed on local alignments. BLOSUM62 is a matrix calculated from comparison s of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments ;they are not extrapolated from comparisons of closely related proteins.,進(jìn)行比對(duì)的數(shù)據(jù)庫,圖形化結(jié)果,E值(E-value)表示僅僅因?yàn)殡S機(jī)性造成獲得這一 比對(duì)結(jié)果的可能性。這

8、一數(shù)值越接近零,發(fā)生這一事件的可能性越小。,上機(jī)實(shí)習(xí)1:網(wǎng)上運(yùn)行blastx和blastn,(NCBIblast網(wǎng)址:/BLAST/) lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTG

9、CTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCA

10、GGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAG

11、AGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAG

12、CACCACAGTCGACC 對(duì)contig34進(jìn)行網(wǎng)上blastn(演示), blastx(自行操作)比對(duì),本地運(yùn)行BLAST,下載NCBI上blast程序: /blast/executables/release/ 安裝(安裝到C:) 數(shù)據(jù)庫的格式化(formatdb) 程序運(yùn)行(blastall),登陸NCBI的FTP下載blast程序,雙擊安裝到C盤 產(chǎn)生三個(gè)文件夾 bin data doc,將數(shù)據(jù)庫文件(db)及目標(biāo)序列文件(in)保存在Blast/bin文件夾下,bin含可執(zhí)行程序(將數(shù)據(jù)庫及需要比對(duì)操作的數(shù)據(jù)放入該文件); data

13、文件夾含打分矩陣及演示例子的序列數(shù)據(jù)信息; doc文件夾含關(guān)于各子程序的說明文檔。,本地?cái)?shù)據(jù)庫的構(gòu)建,查看db文件,由fasta格式的序列組成,數(shù)據(jù)庫的格式化,formatdb命令用于數(shù)據(jù)庫的格式化: formatdb option1 option2 option3 formatdb常用參數(shù) -i database_name 需要格式化的數(shù)據(jù)庫名稱 -p TF 待格式化數(shù)據(jù)庫的序列類型 (核苷酸選F;蛋白質(zhì)選T;默認(rèn)值為T) 例:formatdb -i db -p T,對(duì)蛋白質(zhì)數(shù)據(jù)庫“db”進(jìn)行格式化,程序運(yùn)行,blastall命令用于運(yùn)行五個(gè)blast子程序: blastall option

14、1 option2 option3 *可在dos下輸入blastall查看各個(gè)參數(shù)的意義及使用 blastall常用參數(shù) 四個(gè)必需參數(shù) -p program_name,程序名,根據(jù)數(shù)據(jù)庫及搜索文件序列性質(zhì)進(jìn)行選擇; -d database_name,數(shù)據(jù)庫名稱,比對(duì)完成格式化的數(shù)據(jù)庫; -i input_file,搜索文件名稱; -o output_file,BLAST結(jié)果文件名稱; 兩個(gè)常用參數(shù) -e expectation,期待值,默認(rèn)值為10.0,可采用科學(xué)計(jì)數(shù)法來表示,如2e-5; -m alignment view options:比對(duì)顯示選項(xiàng),其具體的說明可以用以下的比對(duì)實(shí)例說明

15、例:blastall -p blastx -d db -i in -o out -e 2e-5 -m 9 (表格顯示比對(duì)結(jié)果),采用blastx程序,將in中的序列到數(shù)據(jù)庫bd中進(jìn)行比對(duì),結(jié)果以表格形式輸入到out文件,上機(jī)實(shí)習(xí)2:本地運(yùn)行blastx,進(jìn)入DOS命令行提示符狀態(tài)(“運(yùn)行”cmd) 進(jìn)入C盤“cd” 進(jìn)入包含序列數(shù)據(jù)的bin目錄下“cd blastbin” 察看目錄下內(nèi)容“dir” 格式化數(shù)據(jù)庫db“formatdb -i db -p T” 運(yùn)行blastx “blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 ” 察看結(jié)果“m

16、ore out ”或在 windows下雙擊打開,輸入,數(shù)據(jù)庫類型:F/T,Blast程序 序列輸入 數(shù)據(jù)庫 結(jié)果輸出,輸入“cd”-回車 回到安裝目錄C盤,輸入“cd blastbin”-回車 到達(dá)blast程序下bin文件夾,輸入“dir”-回車 察看bin文件夾下內(nèi)容,bin文件夾下包含以.exe為后綴的程序文件以及這次實(shí)習(xí)需要用到的數(shù)據(jù)可文件“bd”和目標(biāo)序列文件“in”,輸入“more db”-回車察看db文件內(nèi)容,空格鍵翻頁 輸入“q”跳出,輸入“formatdb -i db -p T”-回車 對(duì)db數(shù)據(jù)庫進(jìn)行格式化,輸入“dir”-回車 察看bin文件夾下內(nèi)容,格式化以后產(chǎn)生的文

17、件,輸入“blastall -p blastx -i in -d db -o out -e 2e-5 -m 9” -回車 運(yùn)行blastx程序,產(chǎn)生的結(jié)果文件“out”,用”more out” 察看結(jié)果文件,不使用-m參數(shù)時(shí) 比對(duì)結(jié)果顯示序列兩兩比對(duì),用”more out” 察看結(jié)果文件,多序列比對(duì)的目的,從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。 通過序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。,多序列比對(duì)的應(yīng)用: 系統(tǒng)發(fā)育分析(phylogenetic analysis) 結(jié)構(gòu)預(yù)測(structure prediction) 序列基序鑒定(seque

18、nce motif identification) 功能預(yù)測(function prediction) ClustalW/ClustalX:一種全局的多序列比對(duì)程序,可以用來繪制親緣樹,分析進(jìn)化關(guān)系。 MEGA4,ClustalW/X的運(yùn)行,本地運(yùn)行 命令行操作的Clustal W(linux & windows) 窗口化操作的ClustalX(windows) 下載頁面:ftp:/ftp.ebi.ac.uk/pub/software/ 歐洲生物學(xué)中心(EBI)還提供了Clustal W的網(wǎng)上運(yùn)行服務(wù)(http:/www.ebi.ac.uk/clustalw),目標(biāo)序列,各種參數(shù)設(shè)定,下載Cl

19、ustalX,Jalview,結(jié)果下載,點(diǎn)擊Start Jalview打開java程序窗口,上機(jī)實(shí)習(xí)3:本地運(yùn)行ClustalX,17-RNASE1.fasta 多序列比對(duì) (Multiple Alignment),在 C:zcni實(shí)習(xí)1Clustalx2 文件夾下,找到clustalx.exe 雙擊打開,ClustalX窗口,點(diǎn)擊File下拉菜單中 Load sequences選項(xiàng), 打開序列文件17-RNASE1.fasta.txt,打開后的界面,點(diǎn)擊進(jìn)行多序列比對(duì),可在Alignment下拉菜單中的Alignment Parameters中設(shè)定各個(gè)參數(shù),點(diǎn)擊Alignment下拉菜單中的

20、Do Complete Alignment進(jìn)行比對(duì),比對(duì)結(jié)果 “*”、“:”、“.” 和空格依次代表改位點(diǎn)的序列一致性由高到低,MEGA4,一個(gè)關(guān)于序列分析及比較 統(tǒng)計(jì)的工具包 包含距離建樹,MP等建樹法 自動(dòng)或手動(dòng)進(jìn)行序列比對(duì); 推斷進(jìn)化樹; 估算分子進(jìn)化率,進(jìn)行進(jìn)化假設(shè)測驗(yàn); 聯(lián)機(jī)進(jìn)行數(shù)據(jù)庫搜索; ,MEGA4可以識(shí)別fasta格式文件 將 17-RNASE1.fasta.txt 重命名為 17-RNASE1.fasta,選擇打開方式為MEGA4,打開17-RNASE1.fasta,自動(dòng)跳出序列窗口 用ClustalW做多序列聯(lián)配,ClustalW參數(shù)設(shè)置,以.meg格式保存結(jié)果,回到MEGA主窗口 激活所保存的文件(.meg),編輯標(biāo)注 保守區(qū)域標(biāo)注 不匹配的區(qū)域,回到MEGA4主窗口構(gòu)建進(jìn)化樹,已被激活的文件,選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論