版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、123序列(序列(sequence)就是個字符串()就是個字符串(string)。)。s=abcdefghijklmnopqrstuvwxyzsi代表序列代表序列s的第的第i個字符,比如個字符,比如s4=ds=abcde,序列,序列s是序列是序列s的子序列的子序列 (substring)蛋白質(zhì)序列:由蛋白質(zhì)序列:由2020個不同的字母(氨基酸)排列組合而成。個不同的字母(氨基酸)排列組合而成。核酸序列:由核酸序列:由4 4個不同的字母(堿基)排列組合而成。個不同的字母(堿基)排列組合而成。 (DNADNA序列,序列,RNARNA序列)序列)4在麻將連連看中,你需要用眼睛從一推麻將牌中找出一對相
2、同的麻將牌。在麻將連連看中,你需要用眼睛從一推麻將牌中找出一對相同的麻將牌。 數(shù)據(jù)庫中的序列相似性搜索數(shù)據(jù)庫中的序列相似性搜索5對于一個蛋白質(zhì)或核酸序列,你需要從序列數(shù)據(jù)庫中找到對于一個蛋白質(zhì)或核酸序列,你需要從序列數(shù)據(jù)庫中找到與它相同或相似的序列。不可能再用眼睛去比較每一對序與它相同或相似的序列。不可能再用眼睛去比較每一對序列,因為數(shù)據(jù)庫中有太多序列,甚至用列,因為數(shù)據(jù)庫中有太多序列,甚至用眼睛比較一對序列都是不可能做到的。眼睛比較一對序列都是不可能做到的。 BLAST 數(shù)據(jù)庫中的序列相似性搜索數(shù)據(jù)庫中的序列相似性搜索6 序列相似性的重要性序列相似性的重要性相似的序列往往起源于一個共同的祖先
3、序列。它們很可能有相似的相似的序列往往起源于一個共同的祖先序列。它們很可能有相似的空間結(jié)構(gòu)和生物學(xué)功能空間結(jié)構(gòu)和生物學(xué)功能 ,因此對于一個已知序列但未知結(jié)構(gòu)和功能,因此對于一個已知序列但未知結(jié)構(gòu)和功能的蛋白質(zhì),如果與它序列相似的某些蛋白質(zhì)的結(jié)構(gòu)和功能已知,則的蛋白質(zhì),如果與它序列相似的某些蛋白質(zhì)的結(jié)構(gòu)和功能已知,則可以推測這個未知結(jié)構(gòu)和功能的蛋白質(zhì)的結(jié)構(gòu)和功能??梢酝茰y這個未知結(jié)構(gòu)和功能的蛋白質(zhì)的結(jié)構(gòu)和功能。相似的序列相似的序列相似的結(jié)構(gòu)相似的結(jié)構(gòu) 相似的功能相似的功能7結(jié)構(gòu)相似?功能相似?結(jié)構(gòu)相似?功能相似? 序列相似性的重要性序列相似性的重要性相似的序列往往起源于一個共同的祖先序列。它們很
4、可能有相似的相似的序列往往起源于一個共同的祖先序列。它們很可能有相似的空間結(jié)構(gòu)和生物學(xué)功能空間結(jié)構(gòu)和生物學(xué)功能 ,因此對于一個已知序列但未知結(jié)構(gòu)和功能,因此對于一個已知序列但未知結(jié)構(gòu)和功能的蛋白質(zhì),如果與它序列相似的某些蛋白質(zhì)的結(jié)構(gòu)和功能已知,則的蛋白質(zhì),如果與它序列相似的某些蛋白質(zhì)的結(jié)構(gòu)和功能已知,則可以推測這個未知結(jié)構(gòu)和功能的蛋白質(zhì)的結(jié)構(gòu)和功能??梢酝茰y這個未知結(jié)構(gòu)和功能的蛋白質(zhì)的結(jié)構(gòu)和功能。8結(jié)構(gòu)相似?功能相似?結(jié)構(gòu)相似?功能相似? 序列相似性的重要性序列相似性的重要性相似的序列往往起源于一個共同的祖先序列。它們很可能有相似的相似的序列往往起源于一個共同的祖先序列。它們很可能有相似的空間
5、結(jié)構(gòu)和生物學(xué)功能空間結(jié)構(gòu)和生物學(xué)功能 ,因此對于一個已知序列但未知結(jié)構(gòu)和功能,因此對于一個已知序列但未知結(jié)構(gòu)和功能的蛋白質(zhì),如果與它序列相似的某些蛋白質(zhì)的結(jié)構(gòu)和功能已知,則的蛋白質(zhì),如果與它序列相似的某些蛋白質(zhì)的結(jié)構(gòu)和功能已知,則可以推測這個未知結(jié)構(gòu)和功能的蛋白質(zhì)的結(jié)構(gòu)和功能??梢酝茰y這個未知結(jié)構(gòu)和功能的蛋白質(zhì)的結(jié)構(gòu)和功能。9一致度一致度:如果兩個序列(蛋白質(zhì)或核酸)長度相同,那么它們的一:如果兩個序列(蛋白質(zhì)或核酸)長度相同,那么它們的一致度定義為他們對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)致度定義為他們對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)的數(shù)目占總長度的百分數(shù)。的數(shù)目占總長
6、度的百分數(shù)。相似度相似度:如果兩個序列(蛋白質(zhì)或核酸)長度相同,那么它們的相:如果兩個序列(蛋白質(zhì)或核酸)長度相同,那么它們的相似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總長度的百分數(shù)。長度的百分數(shù)。問題:哪個殘基與問題:哪個殘基與哪個殘基算作相似哪個殘基算作相似答:殘基兩兩相似的量化答:殘基兩兩相似的量化關(guān)系被關(guān)系被替換記分矩陣替換記分矩陣所定所定義。義。 序列一致度(序列一致度(identityidentity)與相似度()與相似度(similaritysimilarity)序列序列 1 : CLHK序列序列 2 :
7、CIHL101. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix):):最簡單的替換記分矩陣,其中,相同核苷酸之間的匹配得分為1,不同核苷酸間的替換得分為0。由于不含有堿基的理化信息和不區(qū)別對待不同的替換,在實際的序列比較中較少使用。2. 2. 轉(zhuǎn)換轉(zhuǎn)換- -顛換矩陣(顛換矩陣(transition-transversion matrixtransition-transversion matrix):):核酸的堿基按照環(huán)結(jié)構(gòu)特征被劃分為兩類,一類是嘌呤(腺嘌呤A、鳥嘌呤G),它們有兩個環(huán);另一類是嘧啶(胞嘧啶C、胸腺嘧啶T),它們只有一個環(huán)。如果DNA堿基的
8、替換保持環(huán)數(shù)不變,則成為轉(zhuǎn)換,如A G、C T;如果環(huán)數(shù)發(fā)生變化,則成為顛換,如A C、T G等。在進化過程中,轉(zhuǎn)換發(fā)生的頻率遠比顛換高。為了反映這一情況,通常該矩陣中轉(zhuǎn)換的得分為-1,而顛換的得分為-5。3. BLAST3. BLAST矩陣:矩陣:經(jīng)過大量實際比對發(fā)現(xiàn),如果令被比對的兩個核苷酸相同時得分為+5,反之為-4,則比對效果較好。這個矩陣廣泛地被DNA序列比較所采用。 A T C G A T C GA T C GA 1 0 0 0 A 1 -5 -5 -1 A 5 -4 -4 -4 T 0 1 0 0 T -5 1 -1 -5 T -4 5 -4 -4C 0 0 1 0 C -5 -
9、1 1 -5 C -4 -4 5 -4G 0 0 0 1 G -1 -5 -5 1 G -4 -4 -4 5 DNADNA序列的替換記分矩陣序列的替換記分矩陣111. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix):):與DNA等價矩陣道理相同,相同氨基酸之間的匹配得分為1,不同氨基酸間的替換得分為0。在實際的序列比對中較少使用。2. PAM2. PAM矩陣(矩陣(DayhoffDayhoff突變數(shù)據(jù)矩陣):突變數(shù)據(jù)矩陣):PAM矩陣基于進化原理。如果兩種氨基酸替換頻繁,說明自然界易接受這種替換,那么這對氨基酸替換得分就應(yīng)該高。PAM矩陣是目前蛋白質(zhì)序列比
10、較中最廣泛使用的記分方法之一,基礎(chǔ)的PAM-1矩陣反應(yīng)的是進化產(chǎn)生的每一百個氨基酸平均發(fā)生一個突變的量值(統(tǒng)計方法得到)。PAM-1自乘n次,可以得到PAM-n ,即發(fā)生了更多次突變。3. BLOSUM3. BLOSUM矩陣(矩陣(blocks substitution matrixblocks substitution matrix):):BLOSUM矩陣是通過關(guān)系較遠的序列來獲得矩陣元素的。PAM-1矩陣的產(chǎn)生是基于相似性較高(85%)的序列比對,那些進化距離較遠的矩陣,如PAM-250,是通過PAM-1自乘得到的。即,BLOSUM矩陣的相似性是根據(jù)真實數(shù)據(jù)產(chǎn)生的,而PAM矩陣是通過矩陣自
11、乘外推而來的。和PAM矩陣一樣,BLOSUM矩陣也有不同編號,如BLOSUM-80,BLOSUM-62。80代表該矩陣是由一致性80%的序列計算而來,同理, 62是指該矩陣由一致性62%的序列計算而來。 蛋白質(zhì)序列的替換記分矩陣蛋白質(zhì)序列的替換記分矩陣121. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix):):與DNA等價矩陣道理相同,相同氨基酸之間的匹配得分為1,不同氨基酸間的替換得分為0。在實際的序列比對中較少使用。2. PAM2. PAM矩陣(矩陣(DayhoffDayhoff突變數(shù)據(jù)矩陣):突變數(shù)據(jù)矩陣):PAM矩陣基于進化原理。如果兩種氨基酸替
12、換頻繁,說明自然界易接受這種替換,那么這對氨基酸替換得分就應(yīng)該高。PAM矩陣是目前蛋白質(zhì)序列比較中最廣泛使用的記分方法之一,基礎(chǔ)的PAM-1矩陣反應(yīng)的是進化產(chǎn)生的每一百個氨基酸平均發(fā)生一個突變的量值(統(tǒng)計方法得到)。PAM-1自乘n次,可以得到PAM-n ,即發(fā)生了更多次突變。3. BLOSUM3. BLOSUM矩陣(矩陣(blocks substitution matrixblocks substitution matrix):):BLOSUM矩陣是通過關(guān)系較遠的序列來獲得矩陣元素的。PAM-1矩陣的產(chǎn)生是基于相似性較高(85%)的序列比對,那些進化距離較遠的矩陣,如PAM-250,是通過P
13、AM-1自乘得到的。即,BLOSUM矩陣的相似性是根據(jù)真實數(shù)據(jù)產(chǎn)生的,而PAM矩陣是通過矩陣自乘外推而來的。和PAM矩陣一樣,BLOSUM矩陣也有不同編號,如BLOSUM-80,BLOSUM-62。80代表該矩陣是由一致性80%的序列計算而來,同理, 62是指該矩陣由一致性62%的序列計算而來。 蛋白質(zhì)序列的替換記分矩陣蛋白質(zhì)序列的替換記分矩陣PAM-250PAM-250矩陣矩陣對角線上的數(shù)值為匹配對角線上的數(shù)值為匹配氨基酸的得分;其他位氨基酸的得分;其他位置上,置上,00的得分代表的得分代表對應(yīng)氨基酸對為相似氨對應(yīng)氨基酸對為相似氨基酸?;?。13 蛋白質(zhì)序列的替換記分矩陣蛋白質(zhì)序列的替換記分
14、矩陣1. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix):):與DNA等價矩陣道理相同,相同氨基酸之間的匹配得分為1,不同氨基酸間的替換得分為0。在實際的序列比對中較少使用。2. PAM2. PAM矩陣(矩陣(DayhoffDayhoff突變數(shù)據(jù)矩陣):突變數(shù)據(jù)矩陣):PAM矩陣基于進化原理。如果兩種氨基酸替換頻繁,說明自然界易接受這種替換,那么這對氨基酸替換得分就應(yīng)該高。PAM矩陣是目前蛋白質(zhì)序列比較中最廣泛使用的記分方法之一,基礎(chǔ)的PAM-1矩陣反應(yīng)的是進化產(chǎn)生的每一百個氨基酸平均發(fā)生一個突變的量值(統(tǒng)計方法得到)。PAM-1自乘n次,可以得到PAM-
15、n ,即發(fā)生了更多次突變。3. BLOSUM3. BLOSUM矩陣(矩陣(blocks substitution matrixblocks substitution matrix):):BLOSUM矩陣是通過關(guān)系較遠的序列來獲得矩陣元素的。PAM-1矩陣的產(chǎn)生是基于相似性較高(85%)的序列比對,那些進化距離較遠的矩陣,如PAM-250,是通過PAM-1自乘得到的。即,BLOSUM矩陣的相似性是根據(jù)真實數(shù)據(jù)產(chǎn)生的,而PAM矩陣是通過矩陣自乘外推而來的。和PAM矩陣一樣,BLOSUM矩陣也有不同編號,如BLOSUM-80,BLOSUM-62。80代表該矩陣是由一致性80%的序列計算而來,同理,
16、62是指該矩陣由一致性62%的序列計算而來。14BLOSUM-62BLOSUM-62對角線上的數(shù)值為匹對角線上的數(shù)值為匹配氨基酸的得分;其配氨基酸的得分;其他位置上,他位置上,00的得分的得分代表對應(yīng)氨基酸對為代表對應(yīng)氨基酸對為相似氨基酸。相似氨基酸。 蛋白質(zhì)序列比對的替換記分矩陣蛋白質(zhì)序列比對的替換記分矩陣15 蛋白質(zhì)序列比對的替換記分矩陣蛋白質(zhì)序列比對的替換記分矩陣PAM-1 還是還是 PAM-250? 氨基酸差異氨基酸差異 %PAMPAMBLOSUMBLOSUM-1 1PAM-1PAM-1BLOSUM -99BLOSUM -991010PAM-11PAM-11BLOSUM -90BLOS
17、UM -902020PAM-23PAM-23BLOSUM -80BLOSUM -803030PAM-38PAM-38BLOSUM -70BLOSUM -704040PAM-56PAM-56BLOSUM -60BLOSUM -605050PAM-80PAM-80BLOSUM -50BLOSUM -506060PAM-112PAM-112BLOSUM -40BLOSUM -407070PAM-159PAM-159BLOSUM -30BLOSUM -308080PAM-246PAM-246BLOSUM -20BLOSUM -2016 蛋白質(zhì)序列比對的替換記分矩陣蛋白質(zhì)序列比對的替換記分矩陣PAM-1
18、 還是還是 PAM-250? 氨基酸差異氨基酸差異 %PAMPAMBLOSUMBLOSUM-1 1PAM-1PAM-1BLOSUM -99BLOSUM -991010PAM-11PAM-11BLOSUM -90BLOSUM -902020PAM-23PAM-23BLOSUM -80BLOSUM -803030PAM-38PAM-38BLOSUM -70BLOSUM -704040PAM-56PAM-56BLOSUM -60BLOSUM -605050PAM-80PAM-80BLOSUM -50BLOSUM -506060PAM-112PAM-112BLOSUM -40BLOSUM -40707
19、0PAM-159PAM-159BLOSUM -30BLOSUM -308080PAM-246PAM-246BLOSUM -20BLOSUM -20PAM250矩陣定義的進化距離為兩同源序列大約有多少百分比的氨基酸發(fā)生改變(單選): A. 1%,B. 20%,C.80%,D. 250%17 蛋白質(zhì)序列替換記分矩陣蛋白質(zhì)序列替換記分矩陣PAM-? 還是還是 BLOSUM-? BLOSUM-80 BLOSUM-62 BLOSUM-45 PAM-1 PAM-120 PAM-250親緣關(guān)系較近的親緣關(guān)系較近的 親緣關(guān)系較遠的親緣關(guān)系較遠的序列之間的比對序列之間的比對 序列之間的比對序列之間的比對對于關(guān)系
20、較遠的序列之間的比較,由于對于關(guān)系較遠的序列之間的比較,由于PAM-250是推算而來,所以其是推算而來,所以其準確度受到一定限制,準確度受到一定限制,BLOSUM-45更具優(yōu)勢。對于關(guān)系較近的序列之更具優(yōu)勢。對于關(guān)系較近的序列之間的比較,用間的比較,用PAM或或BLOSUM矩陣做出的比對結(jié)果,差別不大。矩陣做出的比對結(jié)果,差別不大。最常用的:最常用的:BLOSUM-6218 蛋白質(zhì)序列替換記分矩陣蛋白質(zhì)序列替換記分矩陣PAM-? 還是還是 BLOSUM-? BLOSUM-80 BLOSUM-62 BLOSUM-45 PAM-1 PAM-120 PAM-250親緣關(guān)系較近的親緣關(guān)系較近的 親緣關(guān)
21、系較遠的親緣關(guān)系較遠的序列之間的比對序列之間的比對 序列之間的比對序列之間的比對最常用的:最常用的:BLOSUM-62假設(shè)你有兩條遠源相關(guān)蛋白質(zhì)序列。為了比較它們,最好使用下列哪個BLOSUM和PAM矩陣(單選):A. BLOSUM40和PAM200,B. BLOSUM40和PAM1,C. BLOSUM80和PAM200,D. BLOSUM60和PAM100191. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix)2. PAM2. PAM矩陣(矩陣(DayhoffDayhoff突變數(shù)據(jù)矩陣)突變數(shù)據(jù)矩陣)3. BLOSUM3. BLOSUM矩陣(矩陣(blo
22、cks substitution matrixblocks substitution matrix)4. 4. 遺傳密碼矩陣(遺傳密碼矩陣(genetic code matrix, GCMgenetic code matrix, GCM):):遺傳密碼矩陣通過計算一個氨基酸轉(zhuǎn)換成另一個氨基酸所需的密碼子變化的數(shù)目而得到,矩陣的值對應(yīng)為據(jù)此付出的代價。如果變化一個堿基就可以使一個氨基酸的密碼子轉(zhuǎn)換為另一個氨基酸的密碼子,則這兩個氨基酸的替換代價為1;如果需要2個堿基的改變,則替換代價為2;再比如從Met到Tyr三個密碼子都要變,則代價為3。遺傳密碼矩陣常用于進化距離的計算,其優(yōu)點是計算結(jié)果可以直
23、接用于繪制進化樹,但是它在蛋白質(zhì)序列比對(尤其是相似程度很低的蛋白質(zhì)序列比對)中,很少被使用。5. 5. 疏水矩陣:疏水矩陣:根據(jù)氨基酸殘基替換前后疏水性的變化而得到得分矩陣。若一次氨基酸替換疏水特性不發(fā)生太大的變化,則這種替換得分高,否則替換得分低。 蛋白質(zhì)序列比對的替換記分矩陣蛋白質(zhì)序列比對的替換記分矩陣201. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix)2. PAM2. PAM矩陣(矩陣(DayhoffDayhoff突變數(shù)據(jù)矩陣)突變數(shù)據(jù)矩陣)3. BLOSUM3. BLOSUM矩陣(矩陣(blocks substitution matrixbl
24、ocks substitution matrix)4. 4. 遺傳密碼矩陣(遺傳密碼矩陣(genetic code matrix, GCMgenetic code matrix, GCM):):遺傳密碼矩陣通過計算一個氨基酸轉(zhuǎn)換成另一個氨基酸所需的密碼子變化的數(shù)目而得到,矩陣的值對應(yīng)為據(jù)此付出的代價。如果變化一個堿基就可以使一個氨基酸的密碼子轉(zhuǎn)換為另一個氨基酸的密碼子,則這兩個氨基酸的替換代價為1;如果需要2個堿基的改變,則替換代價為2;再比如從Met到Tyr三個密碼子都要變,則代價為3。遺傳密碼矩陣常用于進化距離的計算,其優(yōu)點是計算結(jié)果可以直接用于繪制進化樹,但是它在蛋白質(zhì)序列比對(尤其是相
25、似程度很低的蛋白質(zhì)序列比對)中,很少被使用。5. 5. 疏水矩陣:疏水矩陣:根據(jù)氨基酸殘基替換前后疏水性的變化而得到得分矩陣。若一次氨基酸替換疏水特性不發(fā)生太大的變化,則這種替換得分高,否則替換得分低。 蛋白質(zhì)序列比對的替換記分矩陣蛋白質(zhì)序列比對的替換記分矩陣211. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix)2. PAM2. PAM矩陣(矩陣(DayhoffDayhoff突變數(shù)據(jù)矩陣)突變數(shù)據(jù)矩陣)3. BLOSUM3. BLOSUM矩陣(矩陣(blocks substitution matrixblocks substitution matrix)
26、4. 4. 遺傳密碼矩陣(遺傳密碼矩陣(genetic code matrix, GCMgenetic code matrix, GCM):):遺傳密碼矩陣通過計算一個氨基酸轉(zhuǎn)換成另一個氨基酸所需的密碼子變化的數(shù)目而得到,矩陣的值對應(yīng)為據(jù)此付出的代價。如果變化一個堿基就可以使一個氨基酸的密碼子轉(zhuǎn)換為另一個氨基酸的密碼子,則這兩個氨基酸的替換代價為1;如果需要2個堿基的改變,則替換代價為2;再比如從Met到Tyr三個密碼子都要變,則代價為3。5. 5. 疏水矩陣:疏水矩陣:根據(jù)氨基酸殘基替換前后疏水性的變化而得到得分矩陣。若一次氨基酸替換疏水特性不發(fā)生太大的變化,則這種替換得分高,否則替換得分低
27、。該矩陣物理意義明確,有一定的理化性質(zhì)依據(jù),適用于偏重蛋白質(zhì)功能方面的序列比對。 蛋白質(zhì)序列比對的替換記分矩陣蛋白質(zhì)序列比對的替換記分矩陣221. 1. 等價矩陣(等價矩陣(unitary matrixunitary matrix)2. PAM2. PAM矩陣(矩陣(DayhoffDayhoff突變數(shù)據(jù)矩陣)突變數(shù)據(jù)矩陣)3. BLOSUM3. BLOSUM矩陣(矩陣(blocks substitution matrixblocks substitution matrix)4. 4. 遺傳密碼矩陣(遺傳密碼矩陣(genetic code matrix, GCMgenetic code matr
28、ix, GCM):):遺傳密碼矩陣通過計算一個氨基酸轉(zhuǎn)換成另一個氨基酸所需的密碼子變化的數(shù)目而得到,矩陣的值對應(yīng)為據(jù)此付出的代價。如果變化一個堿基就可以使一個氨基酸的密碼子轉(zhuǎn)換為另一個氨基酸的密碼子,則這兩個氨基酸的替換代價為1;如果需要2個堿基的改變,則替換代價為2;再比如從Met到Tyr三個密碼子都要變,則代價為3。5. 5. 疏水矩陣:疏水矩陣:根據(jù)氨基酸殘基替換前后疏水性的變化而得到得分矩陣。若一次氨基酸替換疏水特性不發(fā)生太大的變化,則這種替換得分高,否則替換得分低。 蛋白質(zhì)序列比對的替換記分矩陣蛋白質(zhì)序列比對的替換記分矩陣23一致度一致度:如果兩個序列(蛋白質(zhì)或:如果兩個序列(蛋白質(zhì)
29、或DNADNA)長度相同,那么它們的一)長度相同,那么它們的一致度定義為他們對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)致度定義為他們對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)的數(shù)目占總長度的百分數(shù)。的數(shù)目占總長度的百分數(shù)。相似度相似度:如果兩個序列(蛋白質(zhì)或:如果兩個序列(蛋白質(zhì)或DNADNA)長度相同,那么它們的相)長度相同,那么它們的相似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總長度的百分數(shù)。長度的百分數(shù)。問題:哪個殘基與問題:哪個殘基與哪個殘基算作相似哪個殘基算作相似答:殘基兩兩相似的量化答:殘基兩兩相似的量
30、化關(guān)系被關(guān)系被替換記分矩陣替換記分矩陣所定所定義。義。 序列一致度(序列一致度(identityidentity)與相似度()與相似度(similaritysimilarity)序列序列 1 : CLHK序列序列 2 : CIHL一致度一致度 = 2/4 = 50% 相似度相似度 = 3/4 = 75%24 序列一致度(序列一致度(identityidentity)與相似度()與相似度(similaritysimilarity)BLOSUM-62BLOSUM-62對角線上的數(shù)值為匹對角線上的數(shù)值為匹配氨基酸的得分;其配氨基酸的得分;其他位置上,他位置上,00的得分的得分代表對應(yīng)氨基酸對為代表對
31、應(yīng)氨基酸對為相似氨基酸。相似氨基酸。25一致度一致度:如果兩個序列(蛋白質(zhì)或:如果兩個序列(蛋白質(zhì)或DNADNA)長度相同,那么它們的一)長度相同,那么它們的一致度定義為他們對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)致度定義為他們對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)的數(shù)目占總長度的百分數(shù)。的數(shù)目占總長度的百分數(shù)。相似度相似度:如果兩個序列(蛋白質(zhì)或:如果兩個序列(蛋白質(zhì)或DNADNA)長度相同,那么它們的相)長度相同,那么它們的相似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總長度的百分數(shù)。長度的百分數(shù)。問題:哪
32、個殘基與問題:哪個殘基與哪個殘基算作相似哪個殘基算作相似答:殘基兩兩相似的量化答:殘基兩兩相似的量化關(guān)系被關(guān)系被替換記分矩陣替換記分矩陣所定所定義。義。 序列一致度(序列一致度(identityidentity)與相似度()與相似度(similaritysimilarity)序列序列 1 : CLHK序列序列 2 : CIHL一致度一致度 = 2/4 = 50% 相似度相似度 = 3/4 = 75%26一致度一致度:如果兩個序列(蛋白質(zhì)或:如果兩個序列(蛋白質(zhì)或DNADNA)長度相同,那么它們的一)長度相同,那么它們的一致度定義為他們對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)致度定義為他們
33、對應(yīng)位置上相同的殘基(一個字母,氨基酸或堿基)的數(shù)目占總長度的百分數(shù)。的數(shù)目占總長度的百分數(shù)。相似度相似度:如果兩個序列(蛋白質(zhì)或:如果兩個序列(蛋白質(zhì)或DNADNA)長度相同,那么它們的相)長度相同,那么它們的相似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總似度定義為他們對應(yīng)位置上相似的殘基與相同的殘基的數(shù)目和占總長度的百分數(shù)。長度的百分數(shù)。問題:哪個殘基與問題:哪個殘基與哪個殘基算作相似?哪個殘基算作相似?答:殘基兩兩相似的量化答:殘基兩兩相似的量化關(guān)系被關(guān)系被替換記分矩陣替換記分矩陣所定所定義。義。 序列一致度(序列一致度(identityidentity)與相似度()與相似
34、度(similaritysimilarity)如果兩個序列的長度不同怎如果兩個序列的長度不同怎么計算一致度與相似度?么計算一致度與相似度?seq 1 : CLHKAseq 2 : CIHL27比較兩個序列的方法:比較兩個序列的方法:打點法打點法、序列比對法、序列比對法打點法:最簡單的比較兩個序列的方法,理論上可以用打點法:最簡單的比較兩個序列的方法,理論上可以用 來完成。來完成。Seq1: THEFASTCATSeq2: THEFATCAT T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x xlength(seq1) =
35、10length(seq2) = 910 x 9 = 90 次比較次比較Seq 1Seq 228對角線及對角線的平行線代表兩條序列中相同的區(qū)域?qū)蔷€及對角線的平行線代表兩條序列中相同的區(qū)域1. THEFA2. TCAT3. ATSeq1: THEFASTCATSeq2: THEFATCAT T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x xSeq 1Seq 229Seq1: THEFASTHE T H E F A S T H ET x xH x xE x xF xA xS xT x xH x xE x x可以用一條序列自
36、己對自己做打點,從而可以發(fā)現(xiàn)序列中重復(fù)的片段??梢杂靡粭l序列自己對自己做打點,從而可以發(fā)現(xiàn)序列中重復(fù)的片段。這樣的點矩陣必然是對稱的,并且有一條主對角線。在橫向或縱向上,這樣的點矩陣必然是對稱的,并且有一條主對角線。在橫向或縱向上,與主對角線平行的小對角線所對應(yīng)的序列片段就是重復(fù)的部分。與主對角線平行的小對角線所對應(yīng)的序列片段就是重復(fù)的部分。30Seq1: FASABCABCABCTHE F S A B C A B C A B C T HF x S xA x x xB x x xC x x xA x x x B x x xC x x xA x x x B x x x C x x xT xH x
37、 發(fā)現(xiàn)發(fā)現(xiàn)串聯(lián)重復(fù)序列(串聯(lián)重復(fù)序列(tandem repeattandem repeat)短串聯(lián)重復(fù)序列短串聯(lián)重復(fù)序列(short tandem repeat, STR)也叫做微衛(wèi)星DNA,是一類廣泛存在于真核生物基因組中的DNA串聯(lián)重復(fù)序列。它由2-6bp的核心序列組成,重復(fù)次數(shù)通常在15-30次。STR具有高度多態(tài)性,即存在重復(fù)次數(shù)的個體間差異,而且這種差異在基因遺傳過程中一般遵循孟德爾共顯性遺傳規(guī)律,所以它被廣泛用于法醫(yī)學(xué)個體識別、親子鑒定等領(lǐng)域。31打點法在線軟件:打點法在線軟件:名稱名稱網(wǎng)址鏈接網(wǎng)址鏈接Dotlethttp:/myhits.isb-sib.ch/cgi-bin/do
38、tletDnadot/molkit/dnadotDotterhttp:/sonnhammer.sbc.su.se/Dotter.htmlDottuphttp:/http:/myhits.isb-sib.ch/cgi-bin/dotlet 32輸入打點序列(注意,只能輸入純序列,不能是輸入打點序列(注意,只能輸入純序列,不能是FASTA格式的。)格式的。)seq1 以多長的序列以多長的序列 水平序列水平序列 垂直序列垂直序列 替換記分矩陣替換記分矩陣 為單位打一個點為單位打一個點 窗口顯示比例窗口顯示比例33seq1序列自己和自己比較:
39、該序列前一半和后一般相似度極高序列自己和自己比較:該序列前一半和后一般相似度極高相似度:低相似度:低 高高分值:分值:-60 165-60 16534seq2序列和序列和seq3序列比較:兩條序列非常相似序列比較:兩條序列非常相似35seq4序列和序列和seq4序列比較:該序列中序列比較:該序列中有串聯(lián)重復(fù)序列(有串聯(lián)重復(fù)序列(tandem repeattandem repeat)36比較兩個長度不同的序列的方法:打點法、比較兩個長度不同的序列的方法:打點法、序列比對法序列比對法序列比對(序列比對(alignmentalignment),也叫對位排列、聯(lián)配、對齊等。),也叫對位排列、聯(lián)配、對齊
40、等。 運用特定的運用特定的算法找出兩個或多個序列之間產(chǎn)生最大相似度得分的空格插入和序列算法找出兩個或多個序列之間產(chǎn)生最大相似度得分的空格插入和序列排列方案。排列方案。序列序列s和和t的比對:把的比對:把s和和t這兩個字符串上下排列起來,在某些位置這兩個字符串上下排列起來,在某些位置插入空格(空位,插入空格(空位,gapgap),然后依次比較它們在每一個位置上字符的匹),然后依次比較它們在每一個位置上字符的匹配情況,從而找出使這兩條序列產(chǎn)生最大相似度得分的排列方式和空配情況,從而找出使這兩條序列產(chǎn)生最大相似度得分的排列方式和空格插入方式。格插入方式。序列s:LQRHKRTHTGEKPYE-CNQ
41、CGKAFAQ-序列t:LQRHKRTHTGEKPYMNVINMVKPLHNS多序列比對多序列比對 雙序列比對雙序列比對全局比對全局比對局部比對局部比對37s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristia
42、n Wunsch兩兩人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTCAATC 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與
43、p1j最大相似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分38s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristian Wunsch兩兩人
44、首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0AATC 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與p1j最大相似性的得
45、分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分39s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristian Wunsch兩兩人首先將動態(tài)規(guī)劃算法應(yīng)
46、用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0-5-10-15-20-25AATC 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與p1j最大相
47、似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分40s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristian Wunsch兩兩人首先將動態(tài)規(guī)
48、劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0-5-10-15-20-25A-5A-10T-15C-20 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得
49、到的前綴q1i與與p1j最大相似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分41s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristian
50、Wunsch兩兩人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0-5-10-15-20-25A-510A-10T-15C-20 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分
51、矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與p1j最大相似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分 s(0,0) + w(1,1) = 0 + 10 = 10s(1,1) = max s(0,1) + gap = -5 + -5 = -10 s(1,0) + gap = -5 + -5 = -1042s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i
52、,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristian Wunsch兩兩人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0-5-10-15-20
53、-25A-5105A-10T-15C-20 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與p1j最大相似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分 s(0,1) + w(1,2) = -5 + -3 = -8s(1,2) = max s(0,2) + gap = -10 + -5 = -15 s(1,1) + gap = 10
54、 + -5 = 543s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristian Wunsch兩兩人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法
55、后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0-5-10-15-20-25A-5105A-10?T-15C-20 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與p1j最大相似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和
56、pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分 s(0,1) + w(1,2) = -5 + -3 = -8s(1,2) = max s(0,2) + gap = -10 + -5 = -15 s(1,1) + gap = 10 + -5 = 544s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedleman-WunschNeedleman-Wunsch算法,算法,19701970年,年,Sa
57、ul NeedlemanSaul Needleman和和Christian WunschChristian Wunsch兩兩人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0-5-10-15-20-25A-51050-5-10A-10574-1-6T-15054127C-20-594721 0 1 2 3 4 5 序列
58、p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與p1j最大相似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分45s(0,0) = 0s(0,j) = gap * j, 1=j=ms(i,0) = gap * i, 1=i=n s(i-1,j-1) + w(i,j)s(i,j) = max s(i-1,j) + gap s(i,j-1) + gapNeedlema
59、n-WunschNeedleman-Wunsch算法,算法,19701970年,年,Saul NeedlemanSaul Needleman和和Christian WunschChristian Wunsch兩兩人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為人首先將動態(tài)規(guī)劃算法應(yīng)用于兩條序列的全局比對,這個算法后稱為Needleman-WunschNeedleman-Wunsch算法。算法。AGCT-A10-1-3-4-5G-17-5-3C-3-590T-4-308-5替換記分矩陣替換記分矩陣得分矩陣得分矩陣ACGTC0-5-10-15-20-25A-51050-5-10A-10
60、574-1-6T-15054127C-20-594721 0 1 2 3 4 5 序列 p0123序列 q 4對于:對于:序列序列p:ACGTC序列序列q:AATCm=length(p)n=length(q)gap = -5s(i,j)是按照替換記分矩陣是按照替換記分矩陣得到的前綴得到的前綴q1i與與p1j最大相似性的得分。最大相似性的得分。w(i,j)是字符是字符qi和和pj按照替換記分矩陣計算的得分按照替換記分矩陣計算的得分46對于:對于:序列序列p:ACGTC序列序列q:AATC : 字符對字符字符對字符 : 字符對空位字符對空位箭頭指著的序列為空位箭頭指著的序列為空位 : 字符對空位字
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 質(zhì)量管理生產(chǎn)制度
- 水產(chǎn)品生產(chǎn)部規(guī)章制度
- 2026廣西來賓市忻城縣城鎮(zhèn)公益性崗位工作人員招聘2人備考考試題庫附答案解析
- 生產(chǎn)車間批號管理制度
- 生產(chǎn)現(xiàn)場安全標識制度
- 生產(chǎn)設(shè)備招標制度
- 生產(chǎn)單位規(guī)章制度范本
- 廠區(qū)安全生產(chǎn)會議制度
- 自然經(jīng)濟生產(chǎn)制度
- 2025河南洛陽市瀍河區(qū)區(qū)屬國有企業(yè)招聘背景調(diào)查事宜參考考試試題附答案解析
- 體育培訓(xùn)教練員制度
- 2025年安全生產(chǎn)事故年度綜合分析報告
- 中建給排水施工方案EPC項目
- 電氣工程及自動化基于PLC的皮帶集中控制系統(tǒng)設(shè)計
- 醫(yī)學(xué)教材 常見輸液反應(yīng)的處理(急性肺水腫)
- FURUNO 電子海圖 完整題庫
- 企業(yè)年會攝影拍攝合同協(xié)議范本
- 焊接質(zhì)量控制規(guī)范培訓(xùn)課件
- 急診科護士長述職報告
- JGT334-2012 建筑外墻用鋁蜂窩復(fù)合板
- 汽車4S店安全生產(chǎn)責(zé)任書
評論
0/150
提交評論