核酸數(shù)據(jù)庫的應(yīng)用_第1頁
核酸數(shù)據(jù)庫的應(yīng)用_第2頁
核酸數(shù)據(jù)庫的應(yīng)用_第3頁
核酸數(shù)據(jù)庫的應(yīng)用_第4頁
核酸數(shù)據(jù)庫的應(yīng)用_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索是分子生物信息學(xué)中兩個常用序語。 數(shù)據(jù)庫查詢是指對序列、結(jié)構(gòu)以及各種二級數(shù)據(jù)庫中的注釋信息進行關(guān)鍵詞匹配查找。 數(shù)據(jù)庫搜索是指通過特定的序列相似性比對算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測序列具有一定程度相似性的序列。,第一節(jié) 常用的核酸數(shù)據(jù)庫,一、GenBankNCBI核酸序列數(shù)據(jù)庫 1、 GenBank核酸序列數(shù)據(jù)庫的檢索,GenBank數(shù)據(jù)庫的簡單查詢是在NCBI首頁上的Search中直接查詢,利用著者進行查詢時,輸入格式應(yīng)為作者的姓加上名的縮寫。如: Thomas,也可以用序列登記號(accession number)進行一般查詢,如:AF477385,高級檢索

2、是通過NCBI的Entrez檢索系統(tǒng)實現(xiàn)。Entrez是NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)的核心。 利用Entrez系統(tǒng),可以檢索GenBank和其他數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集,以及有Pubmed獲得Medline的生物醫(yī)學(xué)文獻數(shù)據(jù)。,Entrez提供方便實用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。利用Entrez界面提供的限制條件(Limit鍵)、索引(Index鍵)、檢索歷史(History鍵)和剪貼板(Clipboard鍵)等功能實現(xiàn)復(fù)雜的檢索查詢工作。,進入NCBI的Entrez主頁,用戶可以選擇組成Ent

3、rez系統(tǒng)的五個數(shù)據(jù)庫之一作為查詢起點。如以Nucleotide開始。選擇Nucleotide即進入Entrez Nucleotide search界面,點擊Limits進入限定檢索界面。如上圖。完成各限制條件后,點擊Go即進行檢索。,2、NCBI中的GenBank數(shù)據(jù)的格式,LOCUS DEFINITION 序列名稱 基因定義 ACCESSION 序列編號 序列接受號或登記號 VERSION 序列版本號 DATE 序列提交、創(chuàng)建和更新日期 DISCRIPTION 序列簡要描述 KEYWORDS 與序列相關(guān)的關(guān)鍵詞 SOURCE 序列的來源種屬 ORGANISM 序列的來源分類 REFEREN

4、CE 參考文獻編號或遞交序列信息 REMARK 參考文獻評述 MEDLINE 參考文獻交叉索引或遞交序列在Medline 中的存取號TITLE AUTHER 參考文獻作者或遞交序列作者 TITLE 參考文獻題目 JOURNAL 參考文獻出處 FEATURES 序列特征表起始 COMMENT 序列注釋信息 BASE COUNT 序列起始標志 ORIGEN 序列數(shù)據(jù), LOCUS TG29 EDGP 839bp DNA linear INV18-APR-1998 DEFINITIONToxoplasma gondii DNA encodinga29kD GRA. ACCESSION Y13863

5、VERSION Y13863.1GI:2231107 KEYWORDS 29kDa protein;dense granule protein;p29gene. SOURCE Toxoplasma gondii ORGANISM Toxoplasmagondii Eukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida; Sarcocystidae;Toxoplasma. REFERENCE1(bases1to839) AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,et al. TITLEGRA7, JOURN

6、AL Mol.Biochem.Parasitol.91(2),251-262(1998) PUBMED 9566518,1:Y13863.ReportsToxoplasmagondii.gi:2231107,REFERENCE2(bases1to839) AUTHORSFischer,H.G. TITLEDirectSubmission JOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedical Microbiology and Virology,Heinrich-Heine-UniversitaetDuesseldorf, Univ

7、ersitaetsstr.1,D-40225Duesseldorf40225GERMANY FEATURES Location/Qualifiers CDS 79.789,Entrez 用途,檢索大分子生物學(xué)數(shù)據(jù) 獲取GenBank, EMBL等數(shù)據(jù)庫的核酸序列; 獲取Swiss-prot,PIR,PRF,PDB等蛋白質(zhì)序列;從核酸序列翻譯到蛋白質(zhì)的序列; 獲取基因和染色體圖譜;蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)及大分子模式(MMDB)等其他生物信息數(shù)據(jù)庫檢索。 PubMed書目文獻數(shù)據(jù)。,Entrez生命科學(xué)搜索引擎,Entrez 跨庫檢索,檢索字段限制,分子類型選擇,基因位置限定,序列片段限定,數(shù)據(jù)更新

8、日期限定,功能欄,核酸序列檢索,序列存取號,基因定義,數(shù)據(jù)庫標識符,代碼,物種來源,參考文獻,特性,專業(yè)評論,堿基數(shù),原序列復(fù)制后,可到BLAST中進行相似性對比,二、EMBL歐洲核酸數(shù)據(jù)庫,EMBL數(shù)據(jù)庫共有Genomes、Simple sequence retrieval 和SRS(序列提取系統(tǒng))三種檢索方式。,1、Genomes 提供已完成測序的基因組數(shù)據(jù),用戶可以通過生物分類名稱以分層點擊瀏覽的方式獲取相關(guān)信息,通過相關(guān)鏈接,用戶可獲得大量已完成測序的基因組數(shù)據(jù)。,網(wǎng)址為:http:/www.ebi.ac.uk/genomes,2、 Simple sequence retrieval

9、:直接輸入序列接受號檢索核酸序列。 網(wǎng)址:http:/www.ebi.ac.uk/cgi-bin/emblfetch,3、SRS(序列提取系統(tǒng)):是目前生物信息界應(yīng)用最為廣泛的數(shù)據(jù)庫系統(tǒng)。 網(wǎng)址:http:/srs.ebi.ac.uk/ 檢索序列時只需用鼠標點擊“Search”,在輸入框中輸入擬檢索的信息即可。 SRS的 詳細信息參見: http:/www.sanger.ac.uk/srs/srsman.html,三、DDBJ日本DNA數(shù)據(jù)庫,包括Getentry、SRS、AfgateTAIS、Homology等幾種方法。前四種用于檢索DDBJ數(shù)據(jù)庫中原始數(shù)據(jù), Homology采用FASTA

10、/BLAST檢索對用戶提供的序列或片段做同源性分析。,1、Getentry:通過登錄號檢索DDBJ核酸數(shù)據(jù)庫,最多可同時輸入10個號碼進行檢索,各號碼之間用空格或“,”分隔,連續(xù)號碼可用“-”表示。還可用Locus name、Gene name、Product name、P-ID、Clone number和Patent號等檢索。,2、SRS:有快速檢索和高級檢索兩種途徑??焖贆z索可同時選擇多個數(shù)據(jù)庫進行檢索,并且它只對來自“ID”、“Molecule”、“Discription”、“AccNumber”、“Keywords”、“Source”“Organism”、“Authors”、“Titl

11、e”及“Comment”等10個默認字段的信息進行檢索。 3、AfgateTAIS:比較簡單的關(guān)鍵詞檢索途徑,在檢索框內(nèi)輸入檢索策略,點擊start search按鈕即可完成。,第二節(jié) 常用的RNA數(shù)據(jù)庫及軟件,一、Transterm-mRNA序列和翻譯調(diào)控元件數(shù)據(jù)庫,1、Transterm數(shù)據(jù)庫簡介,Transterm數(shù)據(jù)庫由新西蘭Otago大學(xué)生物化學(xué)系構(gòu)建并維護,是一個mRNA序列和翻譯調(diào)控元件數(shù)據(jù)庫。 Transterm設(shè)計的目的是研究mRNA的構(gòu)成以及翻譯過程中的調(diào)控信號。 Transterm中收錄的mRNA序列包括多種功能成分,既可以對一種物種進行分析,也可以借此進行信息查詢。,每

12、一個從GenBank內(nèi)提取的mRNA被分成以下部分:功能成分,起始編碼區(qū),終止編碼區(qū),即5-UTR、3-UTR和翻譯信號的側(cè)翼序列。,網(wǎng)址:http:/www.uther.otago.ac.nz/Transterm.html,2、 Transterm數(shù)據(jù)檢索 Transterm提供每一物種密碼子使用表格,還提供描述mRNA中已知的基序或特征的模式的總結(jié)。通過Transterm來源于GenBank的編碼區(qū)可被分割為5側(cè)翼、起始區(qū)、全編碼區(qū)、終止區(qū)、3側(cè)翼。在Transterm的WWW界面使用與數(shù)據(jù)庫文件和有關(guān)數(shù)據(jù)庫相關(guān)聯(lián)的圖表,可以搜索所有或部分數(shù)據(jù)庫內(nèi)容,找尋任一條符合條件的模式或用戶自定義的

13、模式。,二、RDP-11-核糖體數(shù)據(jù)庫,由Maidak等人創(chuàng)建,提供一切與核糖體有關(guān)的數(shù)據(jù)、程序及相關(guān)服務(wù)計算機程序,包括rRNA在線數(shù)據(jù)分析、進化分類系統(tǒng)樹、rRNA相似序列的排列、序列注釋、rRNA二級結(jié)構(gòu)圖以及各種相似序列比較分析和顯示軟件。,網(wǎng)址:http:/www. ,1、簡介,2、 RDP-數(shù)據(jù)庫提供的分析工具,(1)Probe Match:分析特異探針在數(shù)據(jù)庫中出現(xiàn)的頻率 (2)Sequence Match:通過nearest neighbors算法確定與 用戶序列最相近的RDP-序列。 (3)Sequence Align:對使用者的數(shù)據(jù)進行排列,找

14、到與 使用者序列最相近的RDP-序列。 (4)Similarity Matrix:計算RDP-和/或使用者序列的 相似性/不相似性矩陣。 (5)Chimera Check:檢查用戶序列是否為嵌合型。,(6)Alignment Slices:從RDP-全排列數(shù)據(jù)庫中抽取興 趣部分,與相鄰序列精簡壓縮為 一個序列,突出鄰近序列的差異性. (7)Sequence Selection:從動態(tài)展示的等級分類中選取 序列,選出的序列可被下載并 進行RDP-其他軟件分析。 (8)T-RFLP:以ABI測序系統(tǒng)格式使用數(shù)據(jù),建立一個相似性矩陣。,(9)TAPT-RFLP:在RDP數(shù)據(jù)庫中進行“T-RFLP實驗

15、”,利于設(shè)計與分析。 (10)(Sub)Trees:一種Java applet,可以用來展示、操縱種屬進化系統(tǒng)樹,產(chǎn)生新分支,或選取序列進行其他的RDP-分析。 (11)PCA(principal Component analysis):對那些較大的序列系統(tǒng)進行圖象化處理,PCA可通過網(wǎng)頁上的“Sopplementary Material links”找到。,三、RNA二級結(jié)構(gòu)預(yù)測 借助計算機生物學(xué)可以很好地利用已知的RNA序列進行二級結(jié)構(gòu)預(yù)測乃至三級結(jié)構(gòu)建模。目前較成熟并實現(xiàn)自動化的軟件主要在二級結(jié)構(gòu)預(yù)測的水平上。 1、ViennaRNA軟件包 綜合了兩種算法來預(yù)測RNA二級結(jié)構(gòu):一種是最小

16、自由能的動態(tài)規(guī)劃算法,另一種是McCaskill的分割函數(shù)算法。除RNA折疊外,還可計算給定二級結(jié)構(gòu)的RNA能量、RNA比熱及采用字符串聯(lián)配或編輯計算二級結(jié)構(gòu)間距離,還為反折疊提供一種算法,搜索給定二級結(jié)構(gòu)的RNA序列。,2、MFOLD Zuker的主頁含眾多RNA結(jié)構(gòu)站點的超鏈接,作為RNA相關(guān)網(wǎng)站的導(dǎo)航站點。該站點可以下載最新mfold軟件,也可以將序列提交給Zuker的mfold服務(wù)器完成。其中RNA structure 是Zuker預(yù)測RNA二級結(jié)構(gòu)的Windows9X/WindowsNT版本,可以免費下載。 3、RNA draw 其主頁詳細介紹了程序的安裝、原理、使用和前景。大多數(shù)R

17、NA二級結(jié)構(gòu)預(yù)測均可在大型計算機上完成,一般實驗室不具備這些條件。,4、RNA世界 可能是最全面的RNA站點,其超鏈接包括各種數(shù)據(jù)庫站點、網(wǎng)絡(luò)工具、序列、二級結(jié)構(gòu)以及相關(guān)軟件??梢院芊奖愕馗鶕?jù)PDB(protein data bank)代碼或者NDB(nucleic acid data base)代碼來查找所需要RNA的結(jié)構(gòu)信息,同時提供包括研究方法、參考文獻、可視化圖象軟件及相關(guān)數(shù)據(jù)庫等信息。 5、其他核酸數(shù)據(jù)庫 HIV Database HIV序列數(shù)據(jù)庫、IMGT ImMunoGeneTics數(shù)據(jù)庫;dbEST表達序列標簽數(shù)據(jù)庫、BERLIN 5S rRNA 數(shù)據(jù)庫;EPD真核啟動子數(shù)據(jù)庫

18、。,第三節(jié) 核酸同源性序列比對的策略和方法,序列比較的根本任務(wù)是: 發(fā)現(xiàn)序列之間的相似性 辨別序列之間的差異 目的: 相似序列 相似的結(jié)構(gòu),相似的功能 判別序列之間的同源性 推測序列之間的進化關(guān)系,數(shù)據(jù)庫搜索就是一種基于兩兩比較的序列比對,因為它為兩個序列的功能片段之間的相互關(guān)系提供一個非常明確的圖譜。較多序列的比對是序列比對的一個重點方向,本節(jié)只介紹兩亮序列比對。,一、數(shù)據(jù)庫的相似性搜索,對于一個新序列的分析首要任務(wù)就是將其與各種數(shù)據(jù)庫進行比較搜索,發(fā)現(xiàn)是否存在同源序列。 數(shù)據(jù)庫相似性搜索能夠從數(shù)據(jù)庫海量中挑選出相關(guān)聯(lián)的序列。 最佳方式是搜索幾個不同的數(shù)據(jù)庫以發(fā)現(xiàn)最大可能多的同源序列。,二、

19、BLAST簡介 BLAST和FASTA是當前應(yīng)用最廣泛的程序,最新版的BLAST和FASTA中已消除原有各自局限性。綜合程序速度和敏感性,本節(jié)介紹NCBI中的BLAST程序。 BLAST (basic local alignment search tool,局部序列相似性對比工具)集速度、敏感性、彈性與統(tǒng)計處理的最佳組合于一身,能迅速找到非空位的相似片段。在報告相似性的同時,也報告這個相似性片段出現(xiàn)的可能性。 BLAST集成了一系列程序進行核酸和氨基酸序列不同類型的搜索,采用卡林氏統(tǒng)計描述結(jié)果的顯著性。,BLAST是NCBI提供的用于核酸或蛋白質(zhì)序列相似性對比分析的一個軟件,已發(fā)展到包括BLA

20、STP, BLASTN,BLASTX, TBLASTN, TBLASTX, MEGABLAST, PSI-BLAST, PHI-BLAST, RPS-BLAST等多個軟件和應(yīng)用工具的多功能序列分析程序。 1、BLASTN:最早的BLAST程序,用于鑒定測序所得序列和查找與之相似的序列。系最常用BLAST軟件。,2、MEGABLAST:用于鑒定一個未知的核酸序列。若要了解測得一個未知核酸序列是否已發(fā)表在公開的核酸數(shù)據(jù)庫中,以及其相關(guān)的生物研究文獻時,這是一個最好的工具。它可有效地找到與序列相近的其他序列。 3、 Discontiguous MEGABLAST:與MEGABLAST相似,主要用于相

21、近的序列段比較短、并且相鄰的序列段不連續(xù)的搜索。相近序列不易查找時,該工具可以提高查詢靈敏度和查詢效果。,4、 BLASTP:為查詢蛋白質(zhì)序列設(shè)計的軟件,主要用于鑒定蛋白質(zhì)的氨基酸序列和在數(shù)據(jù)庫中查找相似的序列。既可通過找到相似的已知蛋白質(zhì)的功能來鑒定一個未知的蛋白質(zhì)序列的功能,也可用于兩個或多個蛋白質(zhì)序列的比較。 5、 PSI-BLAST ( 點位重心BLAST):最靈敏的BLAST程序,通過它可以找到一個蛋白質(zhì)的遠親序列。,6、 PHI-BLAST ( 特異片段重心BLAST):可以指定某一個蛋白質(zhì)序列片段,并以這個片段為重心查詢相關(guān)蛋白質(zhì)序列。 7、 BLASTX:把所需查詢的核酸序列翻

22、譯成氨基酸序列,再在蛋白質(zhì)數(shù)據(jù)庫中查找。LBASTX可以將核酸序列翻譯成有6種可能的氨基酸序列后在進行查尋,對編碼區(qū)所有三聯(lián)密碼的組合所翻譯的氨基酸序列都查尋,提高了查尋靈敏度。,8、TBLASTN:與BLASTX相反,TBLASTN蛋白質(zhì)序列翻譯成可能的6種三聯(lián)密碼核酸序列,對尋找相似功能的核酸序列特別有用。多用于EST和大規(guī)模測序所做的序列分析,對三聯(lián)密碼的錯位有很高的容錯度。 9、TBLASTX:把要查尋的核酸序列和進行比較的核酸序列都翻譯成6種可能的氨基酸序列后進行比較。 10、RPS-BLAST:用于鑒定某些進化上比較穩(wěn)定的蛋白質(zhì)功能片段。數(shù)據(jù)來源于NCBI的CDD數(shù)據(jù)庫。 11、C

23、DART(conserved domain architeture retrieval tool):用于篩選特定蛋白質(zhì)數(shù)據(jù)庫中所有的蛋白質(zhì)功能片段和功能片段結(jié)構(gòu),并得到含有某一個或多個功能片段結(jié)構(gòu)的所有蛋白質(zhì)序列。,三、BLAST應(yīng)用舉例 順序:建立BLAST搜索,確定查詢序列; 選擇適當?shù)乃阉鞒绦蚝拖鄳?yīng)的數(shù)據(jù) 庫,以及參數(shù); 發(fā)送查詢序列; 讀取BLAST結(jié)果。 1、具體步驟 (1)確定查詢序列; (2)選擇數(shù)據(jù)庫和搜索程序:數(shù)據(jù)庫為核酸數(shù)據(jù)庫,程序為BLASTN;,(3)選擇默認的允許非空位的搜索; ( 4)E值限制,默認為10; (5)用默認矩陣BLOSUM62; (6)最后確認結(jié)果輸出

24、格式。 確認以上參數(shù)無誤后,點擊“BLAST”按鈕,同時也可以選擇E-mail回復(fù)結(jié)果。,2、結(jié)果分析 BLAST結(jié)果分兩部分,即圖形化結(jié)果和文字結(jié)果,后者又分為有意義的序列排列、兩兩對比結(jié)果、統(tǒng)計結(jié)果三部分。,選擇對比程序,基因組對比,特殊對比,將序列數(shù)據(jù)庫中的復(fù)制序列在此粘貼,點擊,(1)圖形結(jié)果,得分高低以不同顏色表示:200紅色,80-200分紅色,50-80綠色,40-50藍色,40黑色,也表示同源性由高到低。,2、文字結(jié)果,搜索的分值高低排列,即同源性從高到低。排列第一的是查詢序列本身。右側(cè)分別為隨機分值(score,S值)和期望值(expect,E值)。E值是特定匹配中基本的隨機噪聲。S值增加,E值呈指數(shù)性減少,即隨機噪聲降低,表明序列同源性較高。 經(jīng)驗提示,DNA序列具有75%以上的同源性才具有潛在的生物學(xué)意義,但這種結(jié)果很難把握,必須實驗驗證,或要求研究者具有豐富的序列分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論