已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
MEGA構建系統(tǒng)進化樹的步驟(以MEGA7為例)本文是看中國慕課山東大學生物信息學課程總結出來的分子進化的研究對象是核酸和蛋白質(zhì)序列。研究某個基因的進化,是用它的DNA序列,還是翻譯后的蛋白質(zhì)序列呢?序列的選取要遵循以下原則:1)如果DNA序列的兩兩間的一致度70%,選用DNA序列。因為,如果DNA序列都如此相似,它的蛋白質(zhì)會相似到看不出區(qū)別,這對構建系統(tǒng)發(fā)生樹是不利的。所以這種情況下應該選用DNA序列,而不選蛋白質(zhì)序列。2)如果DNA序列的兩兩間的一致度70%,DNA序列和蛋白質(zhì)序列都可以選用。1. 將要用于構建系統(tǒng)進化樹的所有序列合并到同一個fasta格式文件,注意:所有序列的方向都要保持一致 ( 5-3)。 想要做系統(tǒng)發(fā)生樹先要做多序列比對,然后把多序列比對的結果提交給建樹軟件進行建樹,所以在用MEGA建樹時可以輸入一個已經(jīng)比對好的多序列比對,也可以輸入一條原始序列,讓MEGA先來做多序列比對,再建樹(一般我們都是原始序列)。所以我們以后者為例。2. 打開MEGA軟件,選擇主窗口的”File” “Open A File”找到并打開fasta文件,這時會詢問以何種方式打開,我們是原始序列,需要先進行多序列比對,所以選擇“Align”。如果是比對好的多序列比對可以直接選擇“Analyze”。3. 在打開的Alignment Explorer窗口中選擇”Alignment”-“Align by ClustalW” 進行多序列比對(MEGA提供了ClustalW和Muscle兩種多序列比對方法,這里選擇熟悉的ClustalW),彈出窗口詢問“Nothing selected for alignment,Select all?”選擇“OK”。4. 之后,彈出多序列比對參數(shù)設置窗口。這個窗口和EMBL在線多序列比對一樣,可以設置替換記分矩陣、不同的空位罰分(罰分填寫的是正數(shù),計算時按負數(shù)計算)等參數(shù)。MEGA的所有默認參數(shù)都是經(jīng)過反復考量設置的,這保證了MEGA傻瓜機全自動檔的品質(zhì),所以當你無從下手,或者沒有什么特別要求的時候,直接點擊“OK”,接受這些默認參數(shù),開始多序列比對。了解兩個參數(shù): 替換記分矩陣,替換記分矩陣是反映殘基之間相互替換率的矩陣,也就是說,它描述了殘基兩兩相似的量化關系。DNA 序列有 DNA 序列的替換記分矩陣,蛋白質(zhì)序列有蛋白質(zhì)序列的替換記分矩陣,兩者不可混用。DNA 序列的替換記分矩陣主要有三種:1)等價矩陣。相同核苷酸得分為 1,不同核苷酸間的替換得分為 0。由于不含堿基的理化信息和不區(qū)別對待不同的替換,一般只用于理論計算。 2)轉(zhuǎn)換-顛換矩陣。轉(zhuǎn)換:DNA分子中的嘌呤被嘌呤或嘧啶被嘧啶替換。顛換:DNA分子中的嘌呤被嘧啶或嘧啶被嘌呤替換。在進化過程中,轉(zhuǎn)換發(fā)生的頻率遠比顛換高。為了反映這一情況,轉(zhuǎn)換-顛換矩陣中,轉(zhuǎn)換的得分比顛換要高為-1 分,而顛換的得分為-5 分。 3)BLAST 矩陣。經(jīng)過大量實際比對發(fā)現(xiàn),如果令被比對的兩個核苷酸相同時得分為+5 分,不相同為-4 分,這時比對效果最好。這個矩陣廣泛地被 DNA 序列比較所采用。沒有為什么,就是好,實踐經(jīng)驗所得。因為這個矩陣最早應用于 BLAST 工具,因此得名 BLAST 矩陣。 蛋白質(zhì)的替換記分矩陣要比核酸的復雜一些:1)等價矩陣。相同得 1 分,不同得 0 分。 2)PAM矩陣。基礎的 PAM-1矩陣反應的是進化產(chǎn)生的每一百個氨基酸平均發(fā)生一個突變的量值,是基于相似度85%的序列產(chǎn)由統(tǒng)計方法計算得到的。由PAM-1 自乘 n 次可以外推得到PAM-n ,表示發(fā)生了更多次突變。如果序列親緣關系遠,也就是說序列間會有很多突變,那就選 PAM 后面跟一個大數(shù)字的矩陣;如果親緣關系近,也就是突變比較少,序列間大多數(shù)地方都是一樣的,那就選 PAM 后面跟一個小數(shù)字的矩陣。3)BLOSUM矩陣。后面也有一個編號,是通過對大量符合特定要求的序列計算而來的。比如BLOSUM62是指這個矩陣是由一致度62%的序列計算得到的。如果序列親緣關系遠,序列相似度低,那就選BLOSUM 后面跟一個小數(shù)字的矩陣;如果序列親緣關系近,序列相似度高,那就選BLOSUM 后面跟一個大數(shù)字的矩陣??偨Y,親緣關系較近的序列之間的比較,用 PAM 數(shù)小的矩陣或BLOSUM 數(shù)大的矩陣;而親緣關系較遠的序列之間的比較,用 PAM 數(shù)大的矩陣或 BLOSUM數(shù)小的矩陣。對于關系較遠的序列之間的比較,由于 PAM250 是通過矩陣自乘推算而來的,所以其準確度受到一定限制。相比之下BLOSUM 矩陣更具優(yōu)勢。對于關系較近的序列之間的比較,用 PAM 或 BLOSUM 矩陣做出的比對結果,差別不大。如果關于要比較的序列不知道親緣關系遠近,那么就閉著眼睛用BLOSUM62 吧!如果你記不住或者聽不懂上面講的種種,那就記住BLOSUM62這個名字,也可以走遍天下全不怕!圖1:氨基酸差異與矩陣編號對照圖圖2: 序列親緣關系遠近與矩陣的選擇 空位罰分包括兩種: gap 開頭(gap open)和gap延長(gap extend)。默認gap開頭罰分高,gap延長罰分低,這樣得出的結果gap很集中,有很多長串出現(xiàn)的gap,這可以比對兩條很相似的序列-同源序列;相反,如果gap開頭罰分少,gap延長罰分高,比對結果gap就比較分散,極少出現(xiàn)連續(xù)長串的gap(可以想象其中的原因,總是要保證得分高),這可以比對兩條絕大部分序列都很相似,但其中一條的一個功能區(qū)在另一條序列中是缺失的兩條序列,可以找出這個功能區(qū)。5. 比對過程是先進行雙序列比對,在進行多序列比對,最后會出現(xiàn)一個多序列比對結果。將之作為中間結果保存下來。在Alignment Explorer窗口中選擇“Data”“Export Alignment”“MEGA Format”。這里一定選擇MEGA format以方便MEGA后續(xù)分析(其他格式適用于其他軟件的分析),MEGA自動賦予“.meg”后綴名,保存后,彈出窗口,“為這組數(shù)據(jù)命名”,自己看得懂知道就可以,我這里命名為“il1r2 alignment”。6. 生成的“.meg”文件可以雙擊直接導入MEGA。也可以將其拖入MEGA主窗口中。拖入后主窗口增加了一個“TA”按鈕,點擊彈出新窗口“Sequence Data Explorer”,其是多序列比對結果。再點擊“Sequence Data Explorer”上的“TA”按鈕,點擊后多序列最上面增加了一行,這一行是根據(jù)多序列比對結果分析得出的共有序列(consensus sequence),也就是一列里出現(xiàn)次數(shù)最多的字母。多序列比對中每一列里的字母如果和共有序列相同則打點,不同則標出不同的字母,空位還是空位。 如果還想進一步了解序列的保守程度,可以點擊“C”按鈕,以黃色標記保守序列;或者點擊“V”按鈕,以黃色標記不保守序列。通過進一步的分析,可以淘汰掉一些序列,比如海選的的序列里有一些不合群的序列,就可以把他們?nèi)サ?,不讓他們參與建樹,以免影響建樹質(zhì)量。 此外,還可以對這些序列進行分組標記。點擊分組按鈕,點擊“加號”按鈕,更改組名,然后按住Ctrl鍵同時選中Ungrouped Taxa 列表中的要放入這個組的序列,選中后點擊“箭頭”按鈕,即可將序列放入分組。同理,可以創(chuàng)建其他分組。當序列數(shù)量較多時,人為分組,可以從樹上更加清晰的看出組內(nèi)哪些成員叛逃了去了別的組。 此外,輸入序列的名字較長,作為構建的系統(tǒng)發(fā)生樹上葉子的名字,會破壞樹的外觀也不利于信息的解讀。因此,需要人為修改一下序列的名字。選中序列后點擊,把名字改為能區(qū)分彼此的關鍵詞,全部改好之后點擊“save”按鈕,準備工作全部完成。7. 開始建樹。點擊MEGA主窗口上的Phylogeny下拉菜單,選擇Neighbor Joining(最近鄰居法)。彈出窗口詢問是否使用當前 .meg里面的數(shù)據(jù),選Yes。接下來,彈出參數(shù)設置窗口(Analysis Preferences)。參數(shù)設置對構建的系統(tǒng)發(fā)生樹的準確程度非常重要。在樹構建好之后,還經(jīng)常需要根據(jù)樹的具體情況,重新設置參數(shù),并重新建樹,如此反復,紙質(zhì)結果令人滿意為止。同樣的如果對參數(shù)設置摸不著頭腦,就接受默認設置,也能做出基本滿意的系統(tǒng)發(fā)生樹。至少應該掌握其中三個參數(shù)的設置: Test of Phylogeny(建樹的檢驗方法),是用來檢驗建樹的質(zhì)量的。默認的檢驗方法是Bootstrp method (步長檢驗)。步長檢驗需要設定檢驗次數(shù),通常為100的倍數(shù),默認設置為500。步長檢驗是根據(jù)所選擇的建樹方法,計算并繪制指定次數(shù)株系統(tǒng)發(fā)生樹。因為大多數(shù)建樹的方法的核心算法都是統(tǒng)計概率模型,所以每次計算出來的樹都會有所差別。而劍豪的系統(tǒng)發(fā)生樹上每個節(jié)點上都會標有一個數(shù)字,它代表了指定次數(shù)次計算所得出的系統(tǒng)發(fā)生樹中有百分之多少的樹都含有這一節(jié)點。一般來講,絕大多數(shù)節(jié)點上的數(shù)值都大于70%的樹才可信。個別低于70%的節(jié)點可以暫且容忍,或通過添加、山間序列來改善質(zhì)量。 Substitution Model。是選擇計算遺傳距離時使用的計算模型。理論上應該嘗試各種模型,根據(jù)檢驗結果選擇最合適的模型計算。但在實際操作中,可先嘗試選用較簡單的距離模型,比如p-distance。 Gap/Missing Data Treatment,大多數(shù)建樹方法會要求刪除多序列比對中含有空位較多的列。但是根據(jù)遺傳距離度量方法的不同,刪除原則也不同。如果是以序列間不同殘基的個數(shù)來度量遺傳距離的話,這里需要選擇 Complete deletion(全部刪除)。如果是其他方法,比如這里選用的 NJ 方法,可以選擇 Partial deletion(部分刪除)。刪除程度定在 50%,即,保留一半含有空位的列。8. 按照以上方案參數(shù)設置后,點擊“Compute”按鈕,開始構建系統(tǒng)發(fā)生樹。經(jīng)過一番計算之后,新窗口 Tree Explorer 里展示的就是創(chuàng)建好的系統(tǒng)發(fā)生樹。這個窗口里有兩個標簽頁。第一個是 Original Tree(原始樹),第二個是 Bootstrap consensus tree(步長檢驗合并出來的樹)。Bootstrap consensus tree 上,節(jié)點處的數(shù)字表示,經(jīng)步長檢驗有百分之幾的樹具有這根樹枝,即,反應了該樹枝的可信度。當前構建的這株系統(tǒng)發(fā)生樹中,絕大多數(shù)節(jié)點處的數(shù)值都是70 的話,這株樹整體上就是可信的。 Original Tree 是步長檢驗構建的 500 株樹中的一株,未經(jīng)過多棵樹合并,所以樹枝的長短可以精確代表遺傳距離。此外,從這株樹也可以看出之前的人為分組情況是不是發(fā)生了意想不到的變化。比如,有的可能似乎脫離了分組,成為了外類群,從而確定了樹根。 樹構建好之后,外形也許還不太令人滿意。比如也許你想要將樹的外形改成圓形或三角型,可以通過按鈕選擇?;蛘吣阆胍{(diào)整樹枝的粗細或字體的大小,可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年網(wǎng)絡編程技術Web開發(fā)技術與應用實操題集
- 2026年品牌策劃經(jīng)理招聘面試全解從市場分析到策略制定
- 2026年基于AI的機器人增材制造工藝操作題集
- 2026年國際貿(mào)易文化交流與溝通技巧模擬題
- 2026年網(wǎng)絡信息安全協(xié)議和安全加密技術的測試題目
- 大數(shù)據(jù)在監(jiān)管中的應用-第1篇
- 智能算法在銀行交易監(jiān)測中的應用-第7篇
- 范蠡知識點教學課件
- 復合材料耐久性及壽命分析
- 2025年勞動關系協(xié)調(diào)員職業(yè)資格考試報名入口試題及真題
- 基于區(qū)域?qū)Ρ鹊牡乩砭C合思維培養(yǎng)-以澳大利亞和巴西人口分布專題復習課設計(湘教版·八年級)
- 2025年高考(海南卷)歷史真題(學生版+解析版)
- 2026河北石家莊技師學院選聘事業(yè)單位工作人員36人備考考試試題附答案解析
- NB-SH-T 0945-2017 合成有機酯型電氣絕緣液 含2025年第1號修改單
- 企業(yè)培訓課程需求調(diào)查問卷模板
- 2026屆福州第三中學數(shù)學高二上期末檢測模擬試題含解析
- 2026年細胞治療 免疫性疾病治療項目商業(yè)計劃書
- 化工復產(chǎn)安全培訓
- (一模)鄭州市2026年高中畢業(yè)年級(高三)第一次質(zhì)量預測數(shù)學試卷(含答案及解析)
- NBT 11898-2025《綠色電力消費評價技術規(guī)范》
- 2026年總經(jīng)理工作計劃
評論
0/150
提交評論