版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Excel計(jì)算和作圖;序列數(shù)據(jù)應(yīng)用于試驗(yàn)室技術(shù)改良(8); 第一章、生物信息數(shù)據(jù)庫(kù)(12) 第二章、數(shù)據(jù)庫(kù)檢索(25) 第三章、序列比對(duì)(30) 一 序列比對(duì)策略(31);二 算法(34) ;三 序列雙重比對(duì)(42) ;四 多序列比對(duì)(47)。 第四章 在系統(tǒng)發(fā)生分析中的應(yīng)用(51) 第五章、生物信息學(xué)在基因組構(gòu)建中的應(yīng)用;一 基因的識(shí)別和鑒定(62)二 蛋白質(zhì)功能的預(yù)測(cè)(73) ;三 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)(78) ;四 基因組中非編碼區(qū)的研究(96) ;五 人類基因組多樣性計(jì)劃(102) 。 第六章、計(jì)算機(jī)在其他方面的應(yīng)用(107);藥物開發(fā)(110)。 第七章、生物信息學(xué)在組學(xué)中的應(yīng)用;一 基因
2、組學(xué)研究(119);二 功能基因組研究(128) ;三 蛋白質(zhì)組研究(137) ;四 蛋白質(zhì)的功能確定(140);五 代謝組(142);六 網(wǎng)絡(luò)研究(145);七 細(xì)胞計(jì)劃(157) 。 第八章、生物醫(yī)學(xué)信息資源(160),計(jì)算機(jī)在生命科學(xué)和生物技術(shù)中的應(yīng)用,計(jì)算機(jī)是生物研究的工具。為了了解計(jì)算機(jī)工具在生物研究中的應(yīng)用,首先需要了解生物研究的現(xiàn)狀。 基因決定論 由于DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn),基因決定論成為主要觀點(diǎn)。人們嘗試尋找決定生物功能的基因,但是受到挫折。,一是由于美國(guó)能源部用30多年研究“核輻射對(duì)人類基因突變作用”,未取得實(shí)質(zhì)性突破進(jìn)展,受害者已表現(xiàn) 出明顯的突變性狀,但檢測(cè)不出其基因突變
3、與對(duì)照組存在顯著性差異。 二是美國(guó)于1975年巨額投資啟動(dòng)的“腫瘤十年計(jì)劃”基本以失敗告終。 R. Dulbecco 于1986在science上發(fā)表癌癥研究的轉(zhuǎn)折點(diǎn):測(cè)序人類基因組,認(rèn)為要徹底闡明癌癥的發(fā)生、演進(jìn)、侵襲和轉(zhuǎn)移的機(jī)制,必須對(duì)人體細(xì)胞的基因組進(jìn)行全測(cè)序。美國(guó)政府與1990年正式啟動(dòng)HGP。,基因組學(xué) 由于基因組是物種所有遺傳信息的儲(chǔ)藏庫(kù),從根本上決定著物種個(gè)體的發(fā)育和生理,因此,在研究遺傳、發(fā)育、進(jìn)化、功能調(diào)控等基本生物學(xué)問(wèn)題方面,基因組學(xué)關(guān)注的是基因組整體的作用,而不是個(gè)別基因。功能基因組學(xué)(后基因組學(xué))的中心任務(wù)是通過(guò)了解基因組表達(dá)與環(huán)境的關(guān)系,以及其在基本生物學(xué)方面和人類健
4、康和疾病相關(guān)的生物醫(yī)學(xué)問(wèn)題方面的意義。 后基因組學(xué) 轉(zhuǎn)錄組學(xué):關(guān)注mRNA的組成和細(xì)胞功能的關(guān)系。,蛋白質(zhì)組學(xué):其中心任務(wù)是通過(guò)比較不同時(shí)間或不同細(xì)胞的蛋白質(zhì)組成,以揭示蛋白質(zhì)變化的生物學(xué)意義。 結(jié)構(gòu)基因組學(xué):了解蛋白質(zhì)三維結(jié)構(gòu)與蛋白質(zhì)功能的關(guān)系。 蛋白質(zhì)相互作用網(wǎng)絡(luò):了解蛋白質(zhì)相互作用。 代謝組學(xué):其中心任務(wù)是通過(guò)比較不同時(shí)間或不同細(xì)胞的小分子組成,揭示生物學(xué)意義。 系統(tǒng)生物學(xué):以一個(gè)理論模式為基礎(chǔ),與基因組學(xué)和蛋白質(zhì)組學(xué)的表現(xiàn)進(jìn)行比較,判斷生物在分子水平上復(fù)雜的相互作用。,生物學(xué)發(fā)展的展望W. Gilbert (80年諾貝爾化學(xué)獎(jiǎng))91年專門在“nature”撰文討論生物學(xué)研究形式的變化:
5、 正在興起的新的范式在于,所有的基因?qū)⒈恢獣裕ㄔ诳捎秒娮臃绞綇臄?shù)據(jù)庫(kù)里讀取的意義上),今后生物學(xué)研究項(xiàng)目的起點(diǎn)將是理論的。一位科學(xué)家將從理論猜測(cè)開始,然后才轉(zhuǎn)向?qū)嶒?yàn)去繼續(xù)或檢驗(yàn)該假設(shè)。 新的范式:從機(jī)理出發(fā),推論在一定條件下細(xì)胞的表現(xiàn),再用實(shí)驗(yàn)去驗(yàn)證。 現(xiàn)代,生物學(xué)已分為兩個(gè)部分:,試驗(yàn)生物學(xué):傳統(tǒng)的、依靠實(shí)踐發(fā)現(xiàn)事物的性質(zhì)和活動(dòng)規(guī)律的學(xué)科。 研究對(duì)象是組成生物體的元件。研究手段是物質(zhì)分離和檢測(cè)技術(shù)。當(dāng)前主要在于建立高通量檢測(cè)技術(shù)。 理論生物學(xué):根據(jù)事物已知性質(zhì)和活動(dòng)規(guī)律推導(dǎo)其可能性質(zhì)和活動(dòng)規(guī)律的學(xué)科。 研究對(duì)象是生物體整體。研究手段是邏輯分析和推導(dǎo)。 計(jì)算機(jī)作為生物研究的工具,在前期生物學(xué)研
6、究工作中作為計(jì)算和存儲(chǔ)工具起輔助作用。在當(dāng)前生物學(xué)研究工作中作為數(shù)據(jù)處理工具。 數(shù)據(jù)處理是高通量檢測(cè)技術(shù)和理論生物學(xué)研究的主要方法。產(chǎn)生生物信息學(xué)。,一 Excel的功能: 表格處理;圖表功能;數(shù)據(jù)庫(kù)管理功能。 1 圖表制作 建立圖表,激活和修改圖表項(xiàng)。 2 計(jì)算 引用:相對(duì)引用(=(a1-b1)/c1*d1) 絕對(duì)引用($ a$1-$b$1)/$c$1*$d$1 ) 函數(shù):chitest(檢驗(yàn)相關(guān)性);slope(斜率);intercept(截距)。 二 化學(xué)做圖: ISIS DRAW2的應(yīng)用 下載軟件:www.bio-,計(jì)算機(jī)輔助工具的運(yùn)用,生物信息學(xué),背景: 1 數(shù)據(jù)分析技術(shù)的發(fā)展:19
7、62年Zuckerkandl和Pauling將序列變異分析與其演化關(guān)系聯(lián)系起來(lái),開辟了分子演化的研究領(lǐng)域;1964年Davies開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究;1970年Needoeman和Wunsch發(fā)表了兩序列比較算法;1974年Ratner運(yùn)用理論方法對(duì)分子遺傳調(diào)控系統(tǒng)進(jìn)行分析;1975年P(guān)ipas和McMahon用計(jì)算機(jī)技術(shù)預(yù)測(cè)二級(jí)結(jié)構(gòu)。1976年后生物學(xué)數(shù)據(jù)分析技術(shù)大量涌現(xiàn)。 2 人類基因組計(jì)劃產(chǎn)生了大量基因信息(圖0),生物信息學(xué)(bioinformatics):利用計(jì)算機(jī)技術(shù)并參照現(xiàn)代信息技術(shù),對(duì)生物信息進(jìn)行儲(chǔ)存、檢索和綜合分析。及一是對(duì)海量數(shù)據(jù)的收集、整理與服務(wù)。二是使用數(shù)據(jù)。 生物
8、信息學(xué)是把DNA序列分析作為源頭,找到基因組序列中代表蛋白質(zhì)和mRNA的編碼區(qū);同時(shí),闡明基因組中大量存在的非編碼區(qū)的信息實(shí)質(zhì),破譯隱藏在DNA序列中的遺傳語(yǔ)言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認(rèn)識(shí)代謝、發(fā)育、分化、進(jìn)化的規(guī)律。,生物信息學(xué)基本方法: 1 數(shù)據(jù)庫(kù)信息檢索; 2 用序列比對(duì)(alignment,對(duì)位排列)方法進(jìn)行數(shù)據(jù)庫(kù)序列檢索; 3 網(wǎng)絡(luò)分析,計(jì)算機(jī)模擬。 問(wèn)題:你對(duì)生物信息學(xué)的認(rèn)識(shí),第一章 生物信息數(shù)據(jù)庫(kù),生物信息數(shù)據(jù)庫(kù)分類保存各種生物信息,為大家提供計(jì)算機(jī)分析的基本材料。例文獻(xiàn)數(shù)據(jù)庫(kù)、序列數(shù)據(jù)庫(kù)。 一 信息中心:維護(hù)和提
9、供數(shù)據(jù)庫(kù)服務(wù)。 主要工作:在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算科學(xué)的方法研究基礎(chǔ)生物、醫(yī)學(xué)問(wèn)題;為科學(xué)和醫(yī)學(xué)界開發(fā)、維護(hù)和分享一系列的生物信息學(xué)數(shù)據(jù)庫(kù);開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫(kù)、數(shù)據(jù)存儲(chǔ)、交換以及生物學(xué)命名規(guī)則的標(biāo)準(zhǔn)化。,重要的生物信息中心: 1 美國(guó)國(guó)家生物技術(shù)信息中心(NCBI) / (管理著包括GenBank在內(nèi)的一批數(shù)據(jù)庫(kù)) 2 歐洲生物信息學(xué)研究所(EBI) www.ebi.ac.uk/ (主網(wǎng)頁(yè),可鏈接到其他項(xiàng)目) www2.ebi.ac.uk (各種數(shù)據(jù)庫(kù)和分析工具) www3.ebi.ac.uk (公眾服務(wù)網(wǎng)頁(yè)),3 日本核酸數(shù)據(jù)庫(kù)(DDBJ):
10、www.ddbj.nig.ac.jp/ 4 北京大學(xué)生物信息中心 (CBI或PKUCBI,是EMBnet的中國(guó)節(jié)點(diǎn),也是APBionet的中國(guó)節(jié)點(diǎn)) ,二 序列數(shù)據(jù)庫(kù),1 一級(jí)數(shù)據(jù)庫(kù):記錄實(shí)驗(yàn)結(jié)果和初步的解釋 2 二級(jí)數(shù)據(jù)庫(kù):從一級(jí)數(shù)據(jù)庫(kù)提取的信息構(gòu)建的數(shù)據(jù)庫(kù) 一級(jí)核酸序列數(shù)據(jù)庫(kù): (A)GenBank: /genband/ (B)EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室的DNA和RNA數(shù)據(jù)庫(kù)): www.ebi.ac.uk/,(C)DDBJ(日本核酸數(shù)據(jù)庫(kù)): www.ddbj.nig.ac.jp/ 翻譯編碼的DNA序列(根據(jù)ORF,數(shù)據(jù)庫(kù)中搜索) (D)Gen
11、eBuilder:r.it/webgene/genebuilder.html (E)上海生命科學(xué)中心: 一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫(kù): (A) PIR-PSD:序列來(lái)自于GenBank/EMBL/ DDBJ的編碼序列的翻譯、文獻(xiàn)中的和用戶,直接提交的序列。目前最大的公共蛋白質(zhì)序列數(shù)據(jù)庫(kù)。衍生出iProClass(描述蛋白質(zhì)家族的關(guān)系及結(jié)構(gòu)/功能特征),還有PIR-NREF ,PIR-ASDB,IESA,PIR-NRL3D,RESID,PIR-ALN等其他輔助數(shù)據(jù)庫(kù)。 /pirwww/ (B)SWISS-PROT/TrEMBL:經(jīng)注釋的蛋白質(zhì)數(shù)據(jù)庫(kù)。每個(gè)條目包括蛋白質(zhì)
12、序列、引用文獻(xiàn)、分類學(xué)信息、注釋等。注釋包括蛋白質(zhì)功能、轉(zhuǎn)錄后修飾位點(diǎn)、特殊位點(diǎn)和區(qū)域、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、與其他序列的形式性、序列殘缺與疾病的關(guān)系、序列變異體等信息。 /swissprot/,二級(jí)核酸序列數(shù)據(jù)庫(kù) CUTG:密碼子使用頻度表 www.dna.affrc.go.jp/nakamura/CUTG.html EPD:真核生物啟動(dòng)子數(shù)據(jù)庫(kù) www.epd.isb-sib.ch/ OOTFD:轉(zhuǎn)錄因子和基因表達(dá)數(shù)據(jù)庫(kù) / RepBase:真核生物DNA中重復(fù)序列數(shù)據(jù)庫(kù) www.firinst.orf/server/repbase.htm
13、l MPDB:外顯子和內(nèi)含子數(shù)據(jù)庫(kù) www.biotech.ist.unige.it/interlab/mpdb.html,三 專門研究的數(shù)據(jù)庫(kù),HGMD(可用于預(yù)測(cè)基因疾病): www.uwcm.ac.uk/medical_genetics/research/hgmd/ PDD(人類體液中蛋白質(zhì)與疾病關(guān)系): /pdd/ HIV(愛滋病分子免疫學(xué)): /immunology/immuno-main.html WIT(重構(gòu)代謝) :/wit2/ CSNDB(細(xì)胞信號(hào)網(wǎng)絡(luò)):geo.nihs.g
14、o.jp/csndb/,AgDB(農(nóng)業(yè)數(shù)據(jù)庫(kù)和信息資源總清單):/agdb/ PharmGKB( 藥物遺傳學(xué)和藥物基因組學(xué)):/ GBIF(全球生物多樣性信息機(jī)構(gòu)):/linkfram.htm 四 模式生物數(shù)據(jù)庫(kù) 模式生物:,人(Homo sapiens); 小鼠(Mus musculus); 大腸桿菌(Escherichia coli); 釀酒酵母(Saccharomyces cerevisiae); 果蠅(Drosophila melanogaster):遺傳; 秀麗線蟲(Caenorhabitedis el
15、egans):只有約千個(gè)細(xì)胞的動(dòng)物,研究RNAi的模式生物; 海膽(Strongylocentrotus purpuratus):研究發(fā)育和基因調(diào)控的模式生物; 擬南芥(Arabidopsis thaliana):生活周期6周的十字花科植物,研究植物的模式生物。,1 各種生物信息中心 2 大腸桿菌K12完全基因組序列: /pub/ 3 MYGD(酵母基因組蛋白質(zhì)和同源關(guān)系數(shù)據(jù)庫(kù)) www.mips.biochem.mpg.de/proj/yeast/ 4 BDGP(果蠅基因組中心): /,五 其他數(shù)據(jù)庫(kù),1 PubMed
16、:生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù) 2 OMIM(Online Mendelian inheritance in Man):保存所有已知的人類生物學(xué)和疾病信息的數(shù)據(jù)庫(kù) 3 GeneCard:/ 保存注釋過(guò)(定性)基因的數(shù)據(jù)庫(kù) 4 LocusLink:同3,六 數(shù)據(jù)庫(kù)目錄,1 核酸研究(每年第一期是數(shù)據(jù)庫(kù)專集) :/ 2 NAR (核酸研究數(shù)據(jù)庫(kù)總匯) :www3.oup.co.uk/nar/databse/ 3 DBcat (法國(guó)生物信息中心):biogen.fr/services/dbcat/ 4 nature(
17、介紹基因組測(cè)序進(jìn)展的新聞): www.nature/genomics 問(wèn)題:生物信息數(shù)據(jù)庫(kù)的作用,第二章 數(shù)據(jù)庫(kù)檢索,一 序列數(shù)據(jù)庫(kù)檢索 1 序列檢索工具: Entrez:Batch Entrez (批處理) ,NCBI提供的集成檢索工具。可以通過(guò)一次檢索而查詢到多個(gè)子系統(tǒng)中的所有信息。 主頁(yè)面有兩個(gè)窗口 1) 下拉式菜單:選擇14個(gè)數(shù)據(jù)庫(kù) 2) 搜索:關(guān)鍵詞、作者、雜志、名、物種、檢索號(hào)等。 3) 查詢結(jié)果右上角的link表示與其他數(shù)據(jù)庫(kù)的超級(jí)連接。,SRS:Sequence Retrieval System,EBI的檢索工具。 有三種查詢方式: 1)Quick Sequence:快速查詢。
18、選擇數(shù)據(jù)庫(kù)查關(guān)鍵詞。 2) Standard:標(biāo)準(zhǔn)查詢。由用戶限定查詢條件。 3) Extended:擴(kuò)展查詢。可以將輸入關(guān)鍵詞的查尋范圍限定在物種、說(shuō)明、作者、文獻(xiàn)等范圍內(nèi),也可以先定日期和序列長(zhǎng)度。,二 序列文件的格式,1 GBFF格式( GenBank flatfile, GenBank平面文件)。 (圖 1,圖2,圖3) BACs(bacterial artificial chromosomes)細(xì)菌人工染色體:攜帶人類基因DNA片段的細(xì)菌載體 YACs(yeast artificial chromosomes)酵母人工染色體:攜帶人類基因DNA片段的酵母載體 STS(sequence
19、 tagged site)序列標(biāo)簽位點(diǎn):染色體上獨(dú)特的DNA序列短片段 ESTs(expressed sequence tags)表達(dá)序列標(biāo)簽:cDNA 5端的短片段,2 FASTA格式 : 第一行:打頭的文字說(shuō)明,主要為標(biāo)記序列用。第二行開始是序列,每行不超過(guò)80個(gè)字母(核酸大小寫均可,氨基酸一般大寫)。由于FASTA沒(méi)有特殊的結(jié)束標(biāo)志,建議最后留一空行。 gi | 1293613 | gb | U49845 | SCU49845 Saccharomyces cerevisiae TCP-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (
20、REV7) genes, complete cds gatcct ,3 EPD格式和PDB數(shù)據(jù)格式: (圖4) 問(wèn)題:自己設(shè)計(jì)一個(gè)檢索路徑。,第三章 序列比對(duì),用戶提交一個(gè)核酸或蛋白質(zhì)序列,同指定數(shù)據(jù)庫(kù)的全部序列做比較,尋找一個(gè)得分最高(或代價(jià)最?。┑谋葘?duì)。通過(guò)相似序列的種類和功能,確定其種類和功能。 序列比對(duì)的基本思想基于一條分子生物學(xué)規(guī)則:當(dāng)兩個(gè)分子享有相似的序列時(shí),由于進(jìn)化關(guān)系和物理化學(xué)限制,它們將很有可能具有相似的三維結(jié)構(gòu)和生物學(xué)功能。,一 序列比對(duì)策略:分兩種(圖5) 1 最簡(jiǎn)單的操作:提交一個(gè)核酸或蛋白質(zhì)序列,同一級(jí)數(shù)據(jù)庫(kù)的序列做比較,人工判斷同源性?;驹瓌t:尋找一個(gè)最佳對(duì)齊方式
21、。 2 基于知識(shí)的預(yù)測(cè):將已知樣本抽象成代表序列-結(jié)構(gòu)或序列-功能相關(guān)性的經(jīng)驗(yàn)規(guī)則,由其判斷同源性(如motif庫(kù))。此方法的首要任務(wù)是找出可以擴(kuò)展到結(jié)構(gòu)和功能性質(zhì)的序列特征。,兩條序列相似程度的量化表示:相似度(表示相似程度的函數(shù));距離(表示不相似程度的函數(shù),有海明距離和編輯距離) 代價(jià)(cost)或權(quán)重(weight): w(a,a)= 0 w(a,b)= 1 (a w(a,-)= w(-,b)= 1 得分(score):p (a,a)= 1 p (a,b)= 0 (ab) p (a,-)= w(-,b)= -1,例1:兩條字符串AIMS和AMOS的最佳對(duì)齊方式 A I M S A MO
22、S 例2:兩個(gè)氨基酸序列ARRSG和ARKTVG。 ARRS G ARKTVG,二 算法:,1 點(diǎn)陣分析:用兩條序列為X和Y軸構(gòu)建二維矩陣,用點(diǎn)表現(xiàn)兩條序列的相似部分。點(diǎn)所包含的片段長(zhǎng)度叫窗口,匹配長(zhǎng)度叫相似度閾值。 2 動(dòng)態(tài)規(guī)劃算法:最優(yōu)對(duì)位排列方法 對(duì)兩個(gè)序列a=a1a2an和b=b1b2bn,當(dāng)S=S(a1a2ai,b1b2bi)時(shí)有: Sij= maxSi-1, j-1+s(ai , bj), max (Si-x, j+Wx), max(Si, j-y+Wy) Sij:ij位置的分值;s(ai , bj): Sij的打分分值; Wx :長(zhǎng)度為x的空位(間隔)罰分。,蛋白質(zhì)打分矩陣: P
23、AM1矩陣:根據(jù)71組相似性在85%以上的蛋白質(zhì)序列中的1572種變化來(lái)估計(jì)氨基酸在蛋白質(zhì)進(jìn)化中被替換的預(yù)期頻率。設(shè)為表現(xiàn)每108年一個(gè)突變的替換頻率(假定每一個(gè)特定位點(diǎn)的每一個(gè)變化都是獨(dú)立的)。 不同的PAM 矩陣可應(yīng)用于不同相似性水平序列比對(duì)。例:PAM 250、PAM120、 PAM80和PAM60分別用于1427%、40%、50%、和60%相似性的序列比對(duì)。 PAM250由PAM1自乘250次產(chǎn)生,代表25億年中250%的預(yù)期變化水平。(PAM250的矩陣,圖7),打分矩陣:,BLOSUM矩陣:在有500個(gè)蛋白質(zhì)家族的數(shù)據(jù)庫(kù)(PROSITE)中針對(duì)2000個(gè)保守氨基酸模式進(jìn)行替換頻率鑒
24、定。 具有60%同一性的模式聚在一起構(gòu)造一個(gè)矩陣就是BLOSUM60,依此類推。 PAM模型可用于尋找蛋白質(zhì)的進(jìn)化起源,BLOSUM模型可用于發(fā)現(xiàn)蛋白質(zhì)的保守域。 核酸打分矩陣: PAM矩陣 單位矩陣:相同堿基為1,不同為0。 轉(zhuǎn)換-顛換矩陣:相同堿基為正1分,轉(zhuǎn)換為-1分,顛換為-5分。,在不知道序列間的相似性大小時(shí),需用H(相對(duì)平均信息量)判斷選擇合適的矩陣。一般來(lái)說(shuō),若其他因素相同,H值高的合適。 20 i H=qij*Sij i=1 j=1 q:每個(gè)氨基酸對(duì)出現(xiàn)的頻率,S:每個(gè)氨基酸對(duì)的分值(以log2為單位,稱比特bit)。 空位罰分:wx=g+rx 或 wx=g+r( x 1) 。
25、 g:空位窗,單個(gè)空位的罰分;r:空位擴(kuò)展罰分,多個(gè)空位的追加罰分;x:空位長(zhǎng)度。,A 全局比對(duì):全局比對(duì)是兩條序列從頭到尾的比對(duì),有Needleman-Wunsch算法。 第一步:用兩條序列為X和Y軸構(gòu)建二維矩陣,矩陣中只有元素S0,0=0,從S0,0開始,對(duì)每一個(gè)位點(diǎn)賦值。賦值由出發(fā)點(diǎn)的分值+打分(罰分)組成。在所有路徑中選分最高的。 第二步:當(dāng)矩陣中所有位點(diǎn)的賦值完成后,從最高分值位點(diǎn)回溯,找出的分值最高的路徑就是最優(yōu)化的序列對(duì)位排列方式。(圖6),B 局部比對(duì):是一條序列的片斷與一條完整序列之間的比對(duì),有Smith-Waterman算法。 對(duì)于矩陣中所有j,令D0,j=0,對(duì)于矩陣中所
26、有i,令D0,i=0,就可能實(shí)現(xiàn)兩條序列的局部比對(duì)。這對(duì)于在由多個(gè)區(qū)域組成的序列中發(fā)現(xiàn)多個(gè)匹配有用。 C 高分值片段對(duì)(HSP)判斷: P(Sx)=1-exp(-Kmne-x); X:片段長(zhǎng)度。 P(Sx)是最大片段的分大于X的概率。 顯著性評(píng)價(jià):E(S)=log(Kmn)/ E:期望分值(序列最長(zhǎng)匹配的期望值);K:錯(cuò)配數(shù);m和n:序列長(zhǎng)度; = loge(1/p)。,3 散列算法:不是比較兩個(gè)序列中單個(gè)的殘基,而是搜索匹配序列模式或k-串。 在該方法中,需要為每個(gè)序列建立一個(gè)查詢表來(lái)標(biāo)明每個(gè)長(zhǎng)度為k的單詞(k-串)的位置。 每個(gè)單詞在兩個(gè)序列中的相對(duì)位置可用第二個(gè)序列中的位置減去第一個(gè)得到
27、。k-串長(zhǎng)度由用戶指定。 例:在二個(gè)序列中查找長(zhǎng)度為3的k-串 位置 1 2 3 4 5 6 7 8 9 10 11 序列1 n c s p t a 序列2 a c s p r k,Position in offset 序列1 序列2 序列2-序列1 a 6 6 0 c 2 7 5 k - 11 n 1 - p 4 9 5 r - 10 s 3 8 5 t 5 - 快速發(fā)現(xiàn)一個(gè)可能的對(duì)位排列 序列1 n c s p t a 序列2 a c s p t a,三 序列搜尋工具及其應(yīng)用:,1 BLAST(Basic Local Alignment Search Tool): 基本局域聯(lián)配搜尋工具,將
28、所查詢的序列打斷成為許多小序列片段(叫做字“W”),然后用小序列片段逐步與數(shù)據(jù)庫(kù)序列進(jìn)行無(wú)空隙比對(duì)。挑出分值大于閾值T的所有相似片段。對(duì)目標(biāo)序列和挑出的數(shù)據(jù)庫(kù)序列進(jìn)行無(wú)空隙局部比對(duì)。從字開始向兩邊延伸。用統(tǒng)計(jì)置信度檢驗(yàn)找到HSP的組合。 E-value(expect value):E=mn2-S m:目標(biāo)序列的有效長(zhǎng)度 n:數(shù)據(jù)庫(kù)的有效長(zhǎng)度(總堿基數(shù)) S :標(biāo)準(zhǔn)比值(bit score)。,:前期加工分值,R-mnK S= ln2 和K是正規(guī)化參數(shù) R:前期加工分值(raw score) R=aI+bX+cO+dG a:對(duì)每個(gè)完全匹配的加分,I:完全匹配的個(gè)數(shù) b:對(duì)每個(gè)錯(cuò)配的加分,X:錯(cuò)配
29、的核苷酸數(shù) c:每開發(fā)一個(gè)gap的罰分,O: gap的數(shù)目 d: gap中每個(gè)“-”的罰分,G:總的 “-”的數(shù)目,2 FASTA:對(duì)角線方法,原理基于散列算法 3 比對(duì)步驟: 比對(duì)基因:選擇megaBLAST、數(shù)據(jù)庫(kù),選擇濾過(guò)程序,如濾過(guò)低復(fù)雜度區(qū)域(low complexity region,LCR)即重復(fù)元件;選擇相似度/字長(zhǎng)(SCORES/ALIGN ) 、空位設(shè)置(GAPOPEN)、空位擴(kuò)展(GAPTEXT)。設(shè)定E的閾值(S,缺省值為10)。 比對(duì)蛋白質(zhì):選擇BLASTp、數(shù)據(jù)庫(kù),選擇濾過(guò)程序,設(shè)定E的閾值(缺省值為10)。 通常先用BLAST,結(jié)果不理想時(shí)再用FASTA。 應(yīng)先做
30、蛋白質(zhì),再做核酸的序列比較。,序列比對(duì)結(jié)果:最佳匹配序列描述所使用程序的描述、版本及相關(guān)信息, 所要檢索的序列長(zhǎng)度, 所要檢索的數(shù)據(jù)庫(kù)信息,包括序列記錄數(shù)和字符數(shù)圖形化的檢索結(jié)果 Score E Sequences producing significant alignments: (bits) Value gi|576838|gb|L37747.1|HUMLAM11 Homo 900 0.0 gi|18854963|AC093532.2| Homo sapiens 862 e-167 Query: 616 gag gaannnnnnngtaata 675 | | | | | | | | |
31、| | | Subjct: 616gag gaat t t t t t t gtaata 675,例:假肥大性肌營(yíng)養(yǎng)不良癥(DMD)基因分析 DMD是一種隱性遺傳疾?。ǜ秷D10.2)。前期實(shí)驗(yàn)工作證明該疾病是X和6號(hào)染色體重組所至。在重組部位找到引起DMD的基因/蛋白質(zhì)dystrophin。 Dystrophin 在連接細(xì)胞骨架與外骨架上起著重要作用。通過(guò)BLAST2搜索,發(fā)現(xiàn)另一種蛋白u(yù)trophin,其與dystrophin有一個(gè)高度保守的序列DVQKKTFTKW,該序列參與形成螺旋。通過(guò)免疫定位,顯示utrophin位于骨骼肌中,并且聚集在神經(jīng)-肌肉接點(diǎn)處。到目前為止,還沒(méi)有發(fā)現(xiàn)任何一種
32、由utrophin引起的疾病,使引入utrophin作為治療DMD的手段被考慮。(付圖10.3-10.8),多序列比對(duì)的目標(biāo)是發(fā)現(xiàn)多條序列的共性。 應(yīng)用于: (1)基因組測(cè)序; (2)提供相似區(qū)域的信息; (3)揭示結(jié)構(gòu)和功能的關(guān)系; (4)預(yù)測(cè)相同或不同有機(jī)體的相似家族或同一類群的其他成員。,四 多序列比對(duì),1 全局比對(duì) (1)逐對(duì)加和(sum-of-pairs, SP)方法 三條序列A、B、C,分別進(jìn)行A-B、A- C、B-C比對(duì),產(chǎn)生三個(gè)二維距陣,尋找其中的最優(yōu)排列。計(jì)算SP函數(shù)(一列中所有字符對(duì)得分之和) k-1 k SP-score(c1,c2,ck)=p(ci,cj) i=1 j=
33、i+1 (c是列中的字符;k是序列個(gè)數(shù);p是相似性打分函數(shù)。) 加和所有列的得分。該方法比對(duì)的序列不能太多。程序:MSA(/),(2)動(dòng)態(tài)規(guī)劃算法 首先使用動(dòng)態(tài)規(guī)劃法獲得多重排列,從最相關(guān)序列開始,逐步疊加相關(guān)性小的序列。 程序: CLUSTALW(圖) 主要步驟: A 對(duì)所有序列進(jìn)行比對(duì); B 生成系統(tǒng)發(fā)生樹; C 通過(guò)加權(quán),依次排列序列。 (3)其他方法: 聚類方法;構(gòu)樹方法。,2 序列中的局部比對(duì): (1)可以鑒定排列中高度保守的部分并產(chǎn)生一類稱為概型(profile)的記分矩陣。 概型由更像小的多重比對(duì)的列構(gòu)成,包括匹配、錯(cuò)配、插入和缺失??捎糜趯ふ乙粋€(gè)可能與之匹
34、配的目標(biāo)序列。 程序:GCG軟件包中的PILEUP (2)區(qū)塊分析:區(qū)塊(block)也是在多重比對(duì)中代表一個(gè)保守區(qū)域。與概形不同之處在于序列中缺乏插入和缺失的位置。(BLOCKS) (3)基序搜索: (EMOTIF),第四章 在系統(tǒng)發(fā)生分析中的應(yīng)用,進(jìn)化樹:有一系列節(jié)點(diǎn)和分支組成。每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元(物種或序列)。一般情況下,外部節(jié)點(diǎn)代表實(shí)際觀察到的分類單元,內(nèi)部節(jié)點(diǎn)為分支點(diǎn),他代表了進(jìn)化事件發(fā)生的位置,或代表分類單元進(jìn)化歷程中的祖先。 進(jìn)化樹類型:二元樹,無(wú)根樹,有根樹。 直系同源:不同物種之間擁有共同的功能的基因。 旁系同源:在同一生命體中,因復(fù)制過(guò)程中發(fā)生歧異而產(chǎn)生的功能不同的基
35、因。 蛋白質(zhì)超家族:具有某種共同結(jié)構(gòu)域的所有分子組成的分子集合。,分子進(jìn)化論:20世紀(jì)60年代,Zucherkandl等發(fā)現(xiàn)某一在不同物種間的氨基酸取代數(shù)與所研究物種間的分歧時(shí)間接近正線性關(guān)系,進(jìn)而將分子水平的這種恒速變異稱為“分子鐘”。支持分子鐘存在的證據(jù)來(lái)自免疫學(xué)的定量比較。但分子序列證據(jù)與化石證據(jù)在人類起源時(shí)間上存在差異。 分子進(jìn)化原則: 1) 每個(gè)位點(diǎn)進(jìn)化速率恒定; 2) 進(jìn)化速率=突變替換數(shù)/每位點(diǎn)/每年; 3) 破壞小的比破壞大的突變進(jìn)化頻繁; 4) 基因復(fù)制在基因獲得新功能前發(fā)生。,建樹步驟,(1)分子序列或特征數(shù)據(jù)的分析; (2)進(jìn)化樹構(gòu)造; (3)結(jié)果檢驗(yàn)。 建樹算法 應(yīng)用的
36、分子數(shù)據(jù)分兩類: (1)距離數(shù)據(jù)。由相似度打分的比對(duì),需轉(zhuǎn)化為距離: d(i,j)=1-(S(i,j)-Sr(i,j)/(Smax(i,j)- Sr(i,j),S (i,j):序列i和j各個(gè)比對(duì)位置得分的加權(quán)和; Sr (i,j):序列i和j隨機(jī)化后的比對(duì)得分的加權(quán)和; Smax(i,j):序列i和j所有可能比對(duì)的最大值。 兩個(gè)序列歸一化距離的值處于0和1之間,當(dāng)兩個(gè)序列完全一致時(shí),距離為0;當(dāng)兩個(gè)序列差異很大時(shí),距離接近于1。 (2)離散特征數(shù)據(jù):能夠表現(xiàn)序列特征的數(shù)據(jù)。分為: 二態(tài)特征:即具有和不具有,常用0和1表示; 多態(tài)特征:具有兩種以上可能的狀態(tài)。,1 基于距離的方法:用距離矩陣描述
37、。 常用距離方法: (1)連鎖聚類方法和非加權(quán)分組平均方法(除權(quán)配對(duì)法,UPGMA) :從最近的兩個(gè)樹葉開始,定義一個(gè)新節(jié)點(diǎn)。不斷重復(fù),最終產(chǎn)生樹根。前提是替換速度均等且一致。 例:序列A ACGCGTTGGGCGATGGCAAC B ACGCGTTGGGCGACGGTAAT C ACGCATTGAATGATGATAAT E ACACATTGAGTGATAATAAT 找出一個(gè)序列變成另一個(gè)序列所需的步驟數(shù) nAB=3,nAC=7,nAD=8,nBC=6,nBD=7,nCD=3,構(gòu)建距離表 A B C D A - 3 7 8 B - - 6 7 C - - - 3 D - - - - 根據(jù)序列之
38、間的距離構(gòu)建樹 連鎖聚類法:(A)初始化:分別用n個(gè)葉節(jié)點(diǎn)代表每個(gè)類(分類單元的集合);(B)執(zhí)行下列循環(huán):尋找具有最小距離dxy的兩個(gè)類x,y;建立一個(gè)新的聚類z,以z為一個(gè)新的內(nèi)部節(jié)點(diǎn), z到 x和y的分支的長(zhǎng)度為d(x,y )/2;,按 d(z,u)=(d(x,u)+d(y,u)/2 計(jì)算新的分類到其他類的距離;從距離矩陣中刪除與x和y相應(yīng)的行和列,加入與z相應(yīng)的行和列。從頭循環(huán),直到僅剩一個(gè)類為止。 UPGMA:一個(gè)新類到其他類(u)之間的距離就是簡(jiǎn)單的原距離平均值;計(jì)算: d(x,y),u=(nx/(nx+ny)dx,u+(ny/(nx+ny)dy,u n是每個(gè)類的元素個(gè)數(shù)。 2 1
39、 A 4 C B D 1 2,(2)距離變換法:考慮了不同家族的不同進(jìn)化速率,利用外部參考種幫助確定正確的樹。設(shè)D為外部參考種,其就作為變換其他物種之間距離的參考: dij=(dij-diD-djD)/2+dD (i,j=A,B,C) dij是i和j之間的變換后距離,dD是利用外部參考種與全體內(nèi)部物種之間的平均距離。在此, dD =(dAD-dBD-dCD)/3。 (3)鄰位相連法(NJ):在進(jìn)行類的合并時(shí),不僅要求待合并的類是相近的,同時(shí),還要求待合并的類遠(yuǎn)離其他的類。,(1)簡(jiǎn)約法(MP) 例:根據(jù)4個(gè)已排列序列尋找正確的無(wú)根樹 序列位點(diǎn)和性狀 Taxa 1 2 3 4 5 6 7 8 9
40、 1 A A G A G T G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G 尋找信息位點(diǎn)(每個(gè)特征必須在至少兩個(gè)分類群中相同的位點(diǎn)),為5,7,9。,2 基于特征數(shù)據(jù)的方法,構(gòu)建信息位點(diǎn)可能的樹 位點(diǎn)5的樹1 樹2 樹3 分類群1 分類群3 分類群1 分類群2 分類群1 分類群2 G A G G G G G * A * A A * * A A * G A A A A A 分類群2 分類群4 分類群3 分類群4 分類群4 分類群3 樹1中群1 和群2有共同祖先,群3和群4有共同祖先,變化數(shù)為1;樹2和樹3變化數(shù)
41、為2。 將每個(gè)樹每個(gè)信息位點(diǎn)的變化數(shù)相加,挑出變化數(shù)最小的樹為最優(yōu)樹。,(2)最大似然法(ML): 對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率,然后找出概率最大的進(jìn)化樹。 建樹策略(圖10)。確定樹根(根據(jù)外組或中點(diǎn))。 進(jìn)化樹的可靠性檢驗(yàn) (1)使用不同的建樹方法 (2)自舉(自展)檢驗(yàn):替換或重組序列。 (3)參數(shù)檢驗(yàn):對(duì)兩棵樹進(jìn)行乘數(shù)比較。,第五章 信息生物學(xué)在基因組構(gòu)建中的應(yīng)用,人類基因組工作已完成序列圖譜測(cè)定,進(jìn)一步需要確定遺傳圖譜和基因圖譜。 遺傳圖譜:表現(xiàn)基因組的遺傳特點(diǎn)。基因組內(nèi)基因及其專一的多態(tài)性DNA標(biāo)記相對(duì)位置的圖譜。第一代標(biāo)記:限制性片段長(zhǎng)度多態(tài)性(RFLP);第二代標(biāo)記:微衛(wèi)星
42、DNA(MS,同時(shí)也是物理圖譜的標(biāo)志);第三代標(biāo)記:單核苷酸多態(tài)性(SPN)。 基因圖譜:表現(xiàn)核酸序列中的基因、調(diào)節(jié)元件、重復(fù)序列以及各種重排結(jié)構(gòu)。,1 從基因組序列中尋找編碼蛋白質(zhì)的基因 (1)通過(guò)EST尋找新基因:即通過(guò)合成mRNA 3端片段的cDNA尋找EST,通過(guò)構(gòu)建包含這些EST區(qū)的重疊群,再進(jìn)行ORF的判定以及相關(guān) 蛋白質(zhì)結(jié)構(gòu)域和模體的識(shí)別。另外還可以尋找與這個(gè)EST重疊群對(duì)應(yīng)的基因組DNA(gDNA )序列,從而明確這個(gè)cDNA的基因結(jié)構(gòu),包括外顯子和內(nèi)含子的電子定位。 (2)相似序列的數(shù)據(jù)庫(kù)搜索:對(duì)于一個(gè)未知功能的序列,一個(gè)匹配的基因可以給出功能的線索;一個(gè)已知功能的序列也可以
43、用于搜索具有同樣功能的基因。,一 人類基因克隆計(jì)劃和基因的識(shí)別和鑒定,原核生物的基因預(yù)測(cè)方法 在一個(gè)片段中尋找一個(gè)基因:尋找較高保守性的序列(代表啟動(dòng)子區(qū)域,在一段未知序列上具有相同的順序和間隔。圖9-2),對(duì)其后序列進(jìn)行ORF分析。 對(duì)一個(gè)片段的全面預(yù)測(cè):建立一個(gè)大腸桿菌的隱馬爾可夫模型,然后擴(kuò)展到包括多基因以及基因間的序列。這一模型能檢查一個(gè)未知基因組成的序列并尋找基因,即一組標(biāo)明氨基酸的密碼子,兩側(cè)是起始和終止密碼子。模型的可靠性依賴于基因起始和終止信息的準(zhǔn)確性。,真核生物的基因預(yù)測(cè)方法 1)簡(jiǎn)單方法:用所有可能的閱讀框?qū)π蛄羞M(jìn)行翻譯,并應(yīng)用BLASTX或FASTX程序比較翻譯序列與蛋白
44、質(zhì)數(shù)據(jù)庫(kù)。 ORF預(yù)測(cè)的可靠性檢驗(yàn): (1)密碼子偏好性:同一ORF中同義密碼子的第3個(gè)堿基傾向相同,既同一生物有在同義密碼子中選擇某些密碼子的特性。 ORF的偏好性表(CUSP), bioweb.pasteir.fr/seqanal/interfaces/cusp.html,偏好性分析(SYCO), 圖12-5 bioweb.pasteir.fr/seqanal/ interfaces/syco.html (2)同源比對(duì):將ORF翻譯成氨基酸序列,然后進(jìn)行數(shù)據(jù)庫(kù)比較,如果發(fā)現(xiàn)一個(gè)或多個(gè)顯著相似的序列, ORF的可信度高。 (3)尋找剪切位點(diǎn): NetGene2, www.cbs.dtu.dk
45、/services/NetGene2/ SpliceView, r.it/webgene/wwwspliceview.html (4)尋找轉(zhuǎn)錄終止信號(hào): Hcpolya, r.it/webgene/www.HC_polya.html (5) 確定核小體位點(diǎn),2)其他方法: (1)尋找CpG島:通常出現(xiàn)在持家基因或頻繁表達(dá)的基因啟動(dòng)子周圍。其中80%的人類基因的轉(zhuǎn)錄起始位點(diǎn)前存在CpG島。 工具1:EMBL的CpGPlot/CpGReport/Isochore www.ebi.ac.uk/emboss/cpgplot/ CpGPlot :以圖示(圖9-3)形式顯示分析結(jié)果;Obs/Exp、GC百
46、分含量、 CpG島位置 CpGReport:以報(bào)表形式顯示分析結(jié)果; 包含CpG島的位置、大小、 C+G總量和CG百分含量(圖9-4) Isochore:以圖形方式標(biāo)出不同的等線體的CG含量,工具2: GpC Island Grapher: tiamat.kaist.ac.kr/util/cgi-web/ (2) 尋找啟動(dòng)子與轉(zhuǎn)錄因子結(jié)合位點(diǎn):圖12-1 TRES, .sg/tres/ 神經(jīng)網(wǎng)絡(luò)啟動(dòng)子預(yù)測(cè), /seq_tools/promoter.html (3)尋找其他順式元件: Cister,
47、/mfrith/cister.shtml 3)基因組裝:將預(yù)測(cè)出來(lái)的外顯子組裝成為一致的基因模型。 剪切給體(donnor)位點(diǎn):內(nèi)含子的5端 gt 剪切受體(acceptor)位點(diǎn):內(nèi)含子的3端 ag,基于動(dòng)態(tài)規(guī)劃的組裝方法 組裝形成的候選基因需滿足下列條件: (1)所有外顯子加起來(lái)的長(zhǎng)度是3的整倍數(shù); (2)在各個(gè)外顯子內(nèi)部(除最后一個(gè)外顯子的最后一個(gè)密碼)沒(méi)有終止密碼; (3)第一個(gè)內(nèi)含子-外顯子邊界(i0,e1)是翻譯起始密碼,而最后一個(gè)外顯子-內(nèi)含子邊界(en,in)是終止密碼。 包含完整基因的序列滿足條件 (1) (3),包含不完整基因的序列不滿足條件 (1) 或 (3)。 完整基
48、因的組裝:把標(biāo)明候選外顯子和內(nèi)含子的序列構(gòu)造成位點(diǎn)圖。然后通過(guò)打分處理,尋找最優(yōu)路徑(圖10-3)。,基于剪切比對(duì)的組裝方法 首先通過(guò)分析所有可能的剪切受體位點(diǎn)和供體位點(diǎn),構(gòu)建一組候選的外顯子;然后,進(jìn)一步分析候選外顯子,探查所有可能的外顯子組合,尋找一個(gè)與已知序列(如mRNA、蛋白質(zhì))最匹配的組合。圖10-4,2 從一個(gè)提交的未知序列中預(yù)測(cè)基因: 1)判定載體污染 污染:被檢測(cè)序列含有外源序列,主要有載體、接頭和引物、轉(zhuǎn)座子和提取純度。主要方法:在載體數(shù)據(jù)庫(kù)中做相似性搜索,限制性酶切位點(diǎn)搜索。工具: VecScreen, www.ebi.ac.uk/blastall/vectors.html
49、 2)屏蔽重復(fù)序列: 新序列自身的單位距陣比對(duì),用于找出互補(bǔ)、轉(zhuǎn)座、重復(fù)等結(jié)構(gòu)。,RepeatMasker: /cgi-bin/RepeatMasker XBLAST: bioweb.pasteur.fr/seqanal/interfaces/ xblast.html#_data 3)尋找外顯子或ORF 識(shí)別規(guī)律:核糖體結(jié)合位點(diǎn)可用于確定編碼區(qū)的起始位點(diǎn)(圖9-1,2) 。當(dāng)ORF的長(zhǎng)度達(dá)到一定程度時(shí),可以認(rèn)定其為編碼序列。 4)將編碼蛋白質(zhì)的DNA翻譯成蛋白質(zhì),進(jìn)行蛋白質(zhì)數(shù)據(jù)庫(kù)搜索。這是一個(gè)重要原則,因?yàn)榈鞍踪|(zhì)的復(fù)雜性是DNA的5倍。,二 R
50、NA二級(jí)結(jié)構(gòu)判斷 (1)預(yù)測(cè)分子中最可能產(chǎn)生堿基配對(duì)區(qū)域的方法 A 條件:最可能的結(jié)構(gòu)類似能量最穩(wěn)定的結(jié)構(gòu);雙鏈區(qū)中堿基對(duì)的能量只受前面堿基對(duì)影響,與較遠(yuǎn)和結(jié)構(gòu)中其他堿基對(duì)無(wú)關(guān);無(wú)結(jié)。 B 最簡(jiǎn)單的方法:利用RNA序列自補(bǔ)區(qū)的點(diǎn)陣比較。將序列列于橫軸,互補(bǔ)鏈列于縱軸,方向5-3。點(diǎn)表示相同核苷酸片斷。 C 最小自由能法:計(jì)算雙鏈區(qū)中每一對(duì)堿基的堆疊能量和不穩(wěn)定區(qū)域的估計(jì)能量之和。 (2)考慮堿基配對(duì)保守模式的方法。協(xié)同變異 (3)二級(jí)結(jié)構(gòu)的模建:隨機(jī)上下文無(wú)關(guān)文法。,1 判斷蛋白質(zhì)的功能和結(jié)構(gòu)域。 (1)模體搜索:基序(motif)是通過(guò)對(duì)一個(gè)蛋白質(zhì)家族進(jìn)行多序列比對(duì)檢測(cè)出來(lái)的一種高度保守元件
51、,通常對(duì)應(yīng)于一些功能域和結(jié)構(gòu)域。模體搜索的對(duì)象是序列中一些關(guān)鍵的保守氨基酸,忽略了其他位置的氨基酸多態(tài)性。 PROSITE:一個(gè)蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(kù)。包括重要的位點(diǎn)、序列模式和序列表譜。 www.expasy.ch/prosite/ /tools/scanprosite/,三 蛋白質(zhì)功能的預(yù)測(cè)和鑒定,PRINTS fingerprint Database:指紋圖譜是用來(lái)描述蛋白質(zhì)家族特征的一組保守模體組合。 ioinf.man.ac.uk/dbbrowser/PRINTS/printsman.html/ BLOCKS:通過(guò)一些高度保守的蛋白質(zhì)區(qū)域比對(duì)出來(lái)的無(wú)空位
52、的片斷。 / Pfam: www.sanger.ac.uk/Software/Pfam/index.shtml Prodom:Prodes.toulouse.inra.fr/dom.html SMART: www.ebi.ac.uk/interpro/,(2)通過(guò)蛋白質(zhì)結(jié)構(gòu)性質(zhì)比較,判斷蛋白質(zhì)的功能性質(zhì)(圖11) 2 其他功能序列分析 信號(hào)肽:通過(guò)神經(jīng)網(wǎng)絡(luò)法進(jìn)行預(yù)測(cè)(圖12-2,3) SignalP,www.cbs.dtu.dk/services/SignalP C:原始剪切位點(diǎn)的分值;S:信號(hào)肽分值;Y:綜合的剪切位點(diǎn)分值。
53、 跨膜結(jié)構(gòu):根據(jù)跨膜蛋白質(zhì)數(shù)據(jù)庫(kù)Tmbase進(jìn)行預(yù)測(cè)(圖12-4),Tmpred,/software/TMPRED-form.html,卷曲螺旋:算出相似性得分,與卷曲螺旋得分分布比較,得出概率。 COILS, /software/COILS-form.html 糖基化位點(diǎn): (圖12-7), www.cbs.dtu.dk/services/ ProtParam, www.expasy.ch/tools/protararm.html,氨基酸序列通常被認(rèn)為攜帶有蛋白質(zhì)分子折疊成天然三維結(jié)構(gòu)的所有必需信息, 即蛋白質(zhì)結(jié)構(gòu)的形成是由
54、熱力學(xué)決定的。所以對(duì)給定的氨基酸序列,通過(guò)計(jì)算方法搜索其穩(wěn)定結(jié)構(gòu)從而預(yù)測(cè)其三維結(jié)構(gòu)就成為可能。即根據(jù)熱力學(xué)第一定律,建立從頭預(yù)測(cè)的方法。但是,在生物學(xué)中,鮮有熱力學(xué)第一定律的明確表述,所以基于知識(shí)的預(yù)測(cè)成為大多數(shù)核酸和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的主要方法。,四 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),1 基于一級(jí)結(jié)構(gòu)的蛋白質(zhì)性質(zhì)預(yù)測(cè): (1)預(yù)測(cè)分子量,理論pI,氨基酸組成,原子組成,消光系數(shù),半衰期,不穩(wěn)定系數(shù)和總平均親水性。 AAComldent: www.expasy.ch/tools/aacomp/ (2)模擬處理提交的蛋白質(zhì)序列,并對(duì)結(jié)果進(jìn)行分析。 PeptideMass: www.expasy.ch/tools/pe
55、ptide-mass.html 提供的主要服務(wù)有:鑒定從2-D凝膠電泳中分離的蛋白質(zhì)以及相關(guān)分析,為層析及沉降等實(shí)驗(yàn)提供參考數(shù)據(jù)。,(3)蛋白質(zhì)疏水性分析:是二級(jí)和三級(jí)結(jié)構(gòu)預(yù)測(cè)的一個(gè)必要的過(guò)程。一方面為二級(jí)結(jié)構(gòu)預(yù)測(cè)提供參考,還可以為結(jié)構(gòu)域及功能域劃分提供依據(jù)。 ProtScale, www.expasy.ch/tools/pscale 2 二級(jí)結(jié)構(gòu)的預(yù)測(cè) 基于統(tǒng)計(jì)的方法:第一代是基于單個(gè)氨基酸殘基統(tǒng)計(jì)分析;第二代是基于氨基酸片段的統(tǒng)計(jì)分析;第三代是 應(yīng)用蛋白質(zhì)序列的長(zhǎng)程信息和蛋白質(zhì)序列的進(jìn)化信息進(jìn)行的分析。,(1)Chou-Fasman法:基于單個(gè)殘基統(tǒng)計(jì) 殘基傾向性因子 Pi=Ai/Ti,(
56、i=, t, c) Ti:所有被統(tǒng)計(jì)殘基處于第i種構(gòu)象態(tài)的分?jǐn)?shù), Ai :第A種殘基的對(duì)應(yīng)分?jǐn)?shù)。 Pi1,該殘基傾向于形成第i種構(gòu)象態(tài); Pi1,則認(rèn)為是螺旋核。從螺旋核向兩端延伸,直至4肽片段P的平均值小于1為止。按此方式找到的片斷長(zhǎng)度大于5,并且P的平均值大于P的平均值時(shí),此片段為螺旋。,折疊規(guī)則:相鄰的6個(gè)殘基中如果至少有4個(gè)的P 1,則認(rèn)為是折疊核。折疊核向兩端延伸,直至4肽片段P的平均值小于1為止。若延伸后片段的P的平均值大于1.05,并且P的平均值大于P的平均值,則該片段為折疊。 轉(zhuǎn)角規(guī)則:如果f(i)f(i+1)f(i+2)f(i+3)大于7.510-5,四肽片段的平均值大于1,
57、并且Pt的平均值大于P和P的平均值,則該四肽片段為轉(zhuǎn)角。 重疊規(guī)則:假如預(yù)測(cè)出的螺旋區(qū)域和折疊區(qū)域存在重疊,而P的均值大于P的均值,則預(yù)測(cè)為螺旋,反之為折疊。,(2)GOR法:認(rèn)為中心殘基左右各8個(gè)氨基酸的側(cè)鏈都會(huì)影響二級(jí)結(jié)構(gòu),針對(duì)長(zhǎng)度為17的殘基窗進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。該方法的數(shù)學(xué)基礎(chǔ)為條件概率。 (3)最小臨近法:從已知結(jié)構(gòu)但不一定同源的蛋白質(zhì)中,設(shè)定一定長(zhǎng)度的滑動(dòng)窗口搜索一些最相似的片段,用它們預(yù)測(cè)片段中心殘基的二級(jí)結(jié)構(gòu)。 其他還有:基于氨基酸疏水性的預(yù)測(cè)方法;隱馬爾可夫模型;人工神經(jīng)網(wǎng)絡(luò)法。 基于理論的方法:Lim法,Cohen法。,人工神經(jīng)網(wǎng)絡(luò)法 模擬神經(jīng)傳導(dǎo)方式建立的信息科學(xué)理論。 三層式前傳人工神經(jīng)網(wǎng)絡(luò)示意圖 輸入矢量 Inp 偏置點(diǎn) 隱含層 輸出值 Out,(1)前傳計(jì)算:節(jié)點(diǎn)對(duì)輸入值或激活值進(jìn)行處理得到輸出值 根據(jù)輸入值計(jì)算每個(gè)隱節(jié)點(diǎn)的激活值 激活值=(Inpiij)- 0 i:輸入單元;j:隱節(jié)點(diǎn)單元; ij:權(quán)重因子(反映第i個(gè)輸入對(duì)第j
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025浙江思睿觀通展覽展示有限公司招聘8人備考題庫(kù)及答案詳解(易錯(cuò)題)
- 2025下半年四川巴中市南江縣考核招聘高中緊缺學(xué)科教師44人備考題庫(kù)(含答案詳解)
- 2026新疆昆東經(jīng)濟(jì)技術(shù)開發(fā)區(qū)管委會(huì)招聘19人備考題庫(kù)及參考答案詳解
- 2026云南保山市人力資源市場(chǎng)招聘城鎮(zhèn)公益性崗位人員1人備考題庫(kù)及一套參考答案詳解
- 2026中國(guó)能建葛洲壩集團(tuán)黨群工作部主任崗位招聘1人備考題庫(kù)帶答案詳解
- 2026年昆明市五華區(qū)龍翔街道社區(qū)衛(wèi)生服務(wù)中心工作人員招聘?jìng)淇碱}庫(kù)(3人)及完整答案詳解
- 2025福建廈門外代國(guó)際貨運(yùn)有限公司海峽快線單證業(yè)務(wù)員崗社會(huì)招聘1人備考題庫(kù)及一套答案詳解
- 2026廣東深圳南山區(qū)朗麓家園第一幼兒園招聘1人備考題庫(kù)附答案詳解
- 2025山東青島農(nóng)業(yè)大學(xué)海都學(xué)院博士人才招聘?jìng)淇碱}庫(kù)及答案詳解(考點(diǎn)梳理)
- 2025年蕪湖市鏡湖區(qū)改制企業(yè)管理辦公室公開招聘工作人員2名備考題庫(kù)及參考答案詳解
- 辦公用品、耗材采購(gòu)服務(wù)投標(biāo)方案
- 遼寧省大連市2026屆高三上學(xué)期1月雙基模擬考試語(yǔ)文試題(含答案)
- 2025年腫瘤科年度工作總結(jié)匯報(bào)
- (正式版)DB51∕T 3336-2025 《零散天然氣橇裝回收安全規(guī)范》
- 初三數(shù)學(xué)備課組年終工作總結(jié)
- 2025年高職工業(yè)機(jī)器人(機(jī)器人編程調(diào)試)試題及答案
- 湖南名校聯(lián)考聯(lián)合體2026屆高三年級(jí)1月聯(lián)考物理試卷+答案
- 《陸上風(fēng)電場(chǎng)工程可行性研究報(bào)告編制規(guī)程》(NB/T 31105-2016)
- 京瓷哲學(xué)手冊(cè)樣本
- 五年級(jí)簡(jiǎn)便計(jì)算100題
- 三年級(jí)作文寫小狗海灘冬天童話故事
評(píng)論
0/150
提交評(píng)論