版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第三章核酸數(shù)據(jù)庫的應(yīng)用
數(shù)據(jù)庫涉及到的內(nèi)容主要包括兩大部分:數(shù)據(jù)庫組織和數(shù)據(jù)庫開發(fā)工具。就核酸數(shù)據(jù)庫而言,前者有NCBI、EBI以及日本生物信息學(xué)服務(wù)器等;后者包括序列相似性搜索基本工具Entrez,BLAST和FASTA。核酸數(shù)據(jù)庫的應(yīng)用包括兩個(gè)主要方面,即數(shù)據(jù)庫查詢(databasequery)和數(shù)據(jù)庫搜索(databasesearch)。第三章核酸數(shù)據(jù)庫的應(yīng)用數(shù)據(jù)庫涉及到的內(nèi)容主要包括兩大
數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索是分子生物信息學(xué)中兩個(gè)常用序語。數(shù)據(jù)庫查詢是指對(duì)序列、結(jié)構(gòu)以及各種二級(jí)數(shù)據(jù)庫中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。數(shù)據(jù)庫搜索是指通過特定的序列相似性比對(duì)算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測序列具有一定程度相似性的序列。數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索是分子生物信息學(xué)中兩個(gè)常第一節(jié)常用的核酸數(shù)據(jù)庫
一、GenBank-NCBI核酸序列數(shù)據(jù)庫1、GenBank核酸序列數(shù)據(jù)庫的檢索GenBank數(shù)據(jù)庫的簡單查詢是在NCBI首頁上的Search中直接查詢檢索窗口第一節(jié)常用的核酸數(shù)據(jù)庫一、GenBank-NC利用著者進(jìn)行查詢時(shí),輸入格式應(yīng)為作者的姓加上名的縮寫。如:Thomas點(diǎn)擊利用著者進(jìn)行查詢時(shí),輸入格式應(yīng)為作者的姓加上名的縮寫。如:點(diǎn)擊點(diǎn)擊第三章核酸數(shù)據(jù)庫的應(yīng)用課件也可以用序列登記號(hào)(accessionnumber)進(jìn)行一般查詢,如:AF477385點(diǎn)擊也可以用序列登記號(hào)(accessionnumber)進(jìn)行一第三章核酸數(shù)據(jù)庫的應(yīng)用課件
高級(jí)檢索是通過NCBI的Entrez檢索系統(tǒng)實(shí)現(xiàn)。Entrez是NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)的核心。利用Entrez系統(tǒng),可以檢索GenBank和其他數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集,以及有Pubmed獲得Medline的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)。高級(jí)檢索是通過NCBI的Entrez檢索系統(tǒng)實(shí)現(xiàn)。En第三章核酸數(shù)據(jù)庫的應(yīng)用課件Entrez提供方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。利用Entrez界面提供的限制條件(Limit鍵)、索引(Index鍵)、檢索歷史(History鍵)和剪貼板(Clipboard鍵)等功能實(shí)現(xiàn)復(fù)雜的檢索查詢工作。
Entrez提供方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽
進(jìn)入NCBI的Entrez主頁,用戶可以選擇組成Entrez系統(tǒng)的五個(gè)數(shù)據(jù)庫之一作為查詢起點(diǎn)。如以Nucleotide開始。選擇Nucleotide即進(jìn)入EntrezNucleotidesearch界面,點(diǎn)擊Limits進(jìn)入限定檢索界面。如上圖。完成各限制條件后,點(diǎn)擊Go即進(jìn)行檢索。進(jìn)入NCBI的Entrez主頁,用戶可以選擇組成Ent第三章核酸數(shù)據(jù)庫的應(yīng)用課件2、NCBI中的GenBank數(shù)據(jù)的格式LOCUSDEFINITION序列名稱基因定義ACCESSION序列編號(hào)序列接受號(hào)或登記號(hào)VERSION序列版本號(hào)DATE序列提交、創(chuàng)建和更新日期DISCRIPTION序列簡要描述KEYWORDS與序列相關(guān)的關(guān)鍵詞SOURCE序列的來源種屬ORGANISM序列的來源分類REFERENCE參考文獻(xiàn)編號(hào)或遞交序列信息REMARK參考文獻(xiàn)評(píng)述MEDLINE參考文獻(xiàn)交叉索引或遞交序列在Medline
中的存取號(hào)TITLEAUTHER參考文獻(xiàn)作者或遞交序列作者TITLE參考文獻(xiàn)題目JOURNAL參考文獻(xiàn)出處FEATURES序列特征表起始COMMENT序列注釋信息BASECOUNT序列起始標(biāo)志ORIGEN序列數(shù)據(jù)2、NCBI中的GenBank數(shù)據(jù)的格式LOCUSDEFI第三章核酸數(shù)據(jù)庫的應(yīng)用課件·
LOCUSTG29EDGP839bpDNAlinearINV18-APR-1998DEFINITIONToxoplasmagondiiDNAencodinga29kDGRA.ACCESSION
Y13863VERSION
Y13863.1GI:2231107KEYWORDS29kDaprotein;densegranuleprotein;p29gene.SOURCE
ToxoplasmagondiiORGANISM
ToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,etal.TITLEGRA7,JOURNAL
Mol.Biochem.Parasitol.91(2),251-262(1998)PUBMED9566518
1:Y13863.ReportsToxoplasmagondii...[gi:2231107]
·
LOCUSTG29EDGP839REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiologyandVirology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURES
Location/QualifiersCDS
79..789REFERENCE2(bases1to839)Entrez
用途檢索大分子生物學(xué)數(shù)據(jù)獲取GenBank,EMBL等數(shù)據(jù)庫的核酸序列;獲取Swiss-prot,PIR,PRF,PDB等蛋白質(zhì)序列;從核酸序列翻譯到蛋白質(zhì)的序列;獲取基因和染色體圖譜;蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)及大分子模式(MMDB)等其他生物信息數(shù)據(jù)庫檢索。PubMed書目文獻(xiàn)數(shù)據(jù)。Entrez用途檢索大分子生物學(xué)數(shù)據(jù)Entrez生命科學(xué)搜索引擎Entrez生命科學(xué)搜索引擎Entrez跨庫檢索Entrez跨庫檢索檢索字段限制分子類型選擇基因位置限定序列片段限定數(shù)據(jù)更新日期限定功能欄核酸序列檢索檢索字段限制分子類型選擇基因位置限定序列片段限定數(shù)據(jù)更新功能序列存取號(hào)基因定義數(shù)據(jù)庫標(biāo)識(shí)符序列存取號(hào)基因定義數(shù)據(jù)庫標(biāo)識(shí)符代碼物種來源參考文獻(xiàn)特性專業(yè)評(píng)論代碼物種來源參考文獻(xiàn)特性專業(yè)評(píng)論堿基數(shù)原序列復(fù)制后,可到BLAST中進(jìn)行相似性對(duì)比堿基數(shù)原序列復(fù)制后,可到BLAST中進(jìn)行相似性對(duì)比二、EMBL-歐洲核酸數(shù)據(jù)庫EMBL數(shù)據(jù)庫共有Genomes、Simplesequenceretrieval和SRS(序列提取系統(tǒng))三種檢索方式。1、Genomes提供已完成測序的基因組數(shù)據(jù),用戶可以通過生物分類名稱以分層點(diǎn)擊瀏覽的方式獲取相關(guān)信息,通過相關(guān)鏈接,用戶可獲得大量已完成測序的基因組數(shù)據(jù)。二、EMBL-歐洲核酸數(shù)據(jù)庫EMBL數(shù)據(jù)庫共有Genomes網(wǎng)址為:http://www.ebi.ac.uk/genomes網(wǎng)址為:http://www.ebi.ac.uk/genom2、Simplesequenceretrieval
:直接輸入序列接受號(hào)檢索核酸序列。網(wǎng)址:http://www.ebi.ac.uk/cgi-bin/emblfetch2、Simplesequenceretrieval:3、SRS(序列提取系統(tǒng)):是目前生物信息界應(yīng)用最為廣泛的數(shù)據(jù)庫系統(tǒng)。網(wǎng)址:http://srs.ebi.ac.uk/檢索序列時(shí)只需用鼠標(biāo)點(diǎn)擊“Search”,在輸入框中輸入擬檢索的信息即可。SRS的詳細(xì)信息參見:http://www.sanger.ac.uk/srs/srsman.html3、SRS(序列提取系統(tǒng)):是目前生物信息界應(yīng)用最為廣泛的數(shù)第三章核酸數(shù)據(jù)庫的應(yīng)用課件三、DDBJ-日本DNA數(shù)據(jù)庫包括Getentry、SRS、Afgate&TAIS、Homology等幾種方法。前四種用于檢索DDBJ數(shù)據(jù)庫中原始數(shù)據(jù),Homology采用FASTA/BLAST檢索對(duì)用戶提供的序列或片段做同源性分析。1、Getentry:通過登錄號(hào)檢索DDBJ核酸數(shù)據(jù)庫,最多可同時(shí)輸入10個(gè)號(hào)碼進(jìn)行檢索,各號(hào)碼之間用空格或“,”分隔,連續(xù)號(hào)碼可用“-”表示。還可用Locusname、Genename、Productname、P-ID、Clonenumber和Patent號(hào)等檢索。三、DDBJ-日本DNA數(shù)據(jù)庫包括Getentry、SRS、2、SRS:有快速檢索和高級(jí)檢索兩種途徑。快速檢索可同時(shí)選擇多個(gè)數(shù)據(jù)庫進(jìn)行檢索,并且它只對(duì)來自“ID”、“Molecule”、“Discription”、“AccNumber”、“Keywords”、“Source”“Organism”、“Authors”、“Title”及“Comment”等10個(gè)默認(rèn)字段的信息進(jìn)行檢索。3、Afgate&TAIS:比較簡單的關(guān)鍵詞檢索途徑,在檢索框內(nèi)輸入檢索策略,點(diǎn)擊startsearch按鈕即可完成。2、SRS:有快速檢索和高級(jí)檢索兩種途徑??焖贆z索可同時(shí)選擇第三章核酸數(shù)據(jù)庫的應(yīng)用課件第二節(jié)常用的RNA數(shù)據(jù)庫及軟件一、Transterm---mRNA序列和翻譯調(diào)控元件數(shù)據(jù)庫1、Transterm數(shù)據(jù)庫簡介Transterm數(shù)據(jù)庫由新西蘭Otago大學(xué)生物化學(xué)系構(gòu)建并維護(hù),是一個(gè)mRNA序列和翻譯調(diào)控元件數(shù)據(jù)庫。
Transterm設(shè)計(jì)的目的是研究mRNA的構(gòu)成以及翻譯過程中的調(diào)控信號(hào)。Transterm中收錄的mRNA序列包括多種功能成分,既可以對(duì)一種物種進(jìn)行分析,也可以借此進(jìn)行信息查詢。第二節(jié)常用的RNA數(shù)據(jù)庫及軟件一、Transterm--每一個(gè)從GenBank內(nèi)提取的mRNA被分成以下部分:功能成分,起始編碼區(qū),終止編碼區(qū),即5’-UTR、3’-UTR和翻譯信號(hào)的側(cè)翼序列。網(wǎng)址:http://www.uther.otago.ac.nz/Transterm.html每一個(gè)從GenBank內(nèi)提取的mRNA被分成以下部分:功能成2、Transterm數(shù)據(jù)檢索Transterm提供每一物種密碼子使用表格,還提供描述mRNA中已知的基序或特征的模式的總結(jié)。通過Transterm來源于GenBank的編碼區(qū)可被分割為5’側(cè)翼、起始區(qū)、全編碼區(qū)、終止區(qū)、3’側(cè)翼。在Transterm的WWW界面使用與數(shù)據(jù)庫文件和有關(guān)數(shù)據(jù)庫相關(guān)聯(lián)的圖表,可以搜索所有或部分?jǐn)?shù)據(jù)庫內(nèi)容,找尋任一條符合條件的模式或用戶自定義的模式。2、Transterm數(shù)據(jù)檢索二、RDP-11-------核糖體數(shù)據(jù)庫由Maidak等人創(chuàng)建,提供一切與核糖體有關(guān)的數(shù)據(jù)、程序及相關(guān)服務(wù)計(jì)算機(jī)程序,包括rRNA在線數(shù)據(jù)分析、進(jìn)化分類系統(tǒng)樹、rRNA相似序列的排列、序列注釋、rRNA二級(jí)結(jié)構(gòu)圖以及各種相似序列比較分析和顯示軟件。網(wǎng)址:http://www.1、簡介二、RDP-11-------核糖體數(shù)據(jù)庫由Maidak等人2、RDP-Ⅱ數(shù)據(jù)庫提供的分析工具(1)ProbeMatch:分析特異探針在數(shù)據(jù)庫中出現(xiàn)的頻率(2)SequenceMatch:通過nearestneighbors算法確定與用戶序列最相近的RDP-Ⅱ序列。(3)SequenceAlign:對(duì)使用者的數(shù)據(jù)進(jìn)行排列,找到與使用者序列最相近的RDP-Ⅱ序列。(4)SimilarityMatrix:計(jì)算RDP-Ⅱ和/或使用者序列的相似性/不相似性矩陣。(5)ChimeraCheck:檢查用戶序列是否為嵌合型。2、RDP-Ⅱ數(shù)據(jù)庫提供的分析工具(1)ProbeMat(6)AlignmentSlices:從RDP-Ⅱ全排列數(shù)據(jù)庫中抽取興趣部分,與相鄰序列精簡壓縮為一個(gè)序列,突出鄰近序列的差異性.(7)SequenceSelection:從動(dòng)態(tài)展示的等級(jí)分類中選取序列,選出的序列可被下載并進(jìn)行RDP-Ⅱ其他軟件分析。(8)T-RFLP:以ABI測序系統(tǒng)格式使用數(shù)據(jù),建立一個(gè)相似性矩陣。(6)AlignmentSlices:從RDP-Ⅱ全排列數(shù)(9)TAPT-RFLP:在RDP數(shù)據(jù)庫中進(jìn)行“T-RFLP實(shí)驗(yàn)”,利于設(shè)計(jì)與分析。(10)(Sub)Trees:一種Javaapplet,可以用來展示、操縱種屬進(jìn)化系統(tǒng)樹,產(chǎn)生新分支,或選取序列進(jìn)行其他的RDP-Ⅱ分析。(11)PCA(principalComponentanalysis):對(duì)那些較大的序列系統(tǒng)進(jìn)行圖象化處理,PCA可通過網(wǎng)頁上的“SopplementaryMateriallinks”找到。(9)TAPT-RFLP:在RDP數(shù)據(jù)庫中進(jìn)行“T-RFLP三、RNA二級(jí)結(jié)構(gòu)預(yù)測借助計(jì)算機(jī)生物學(xué)可以很好地利用已知的RNA序列進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測乃至三級(jí)結(jié)構(gòu)建模。目前較成熟并實(shí)現(xiàn)自動(dòng)化的軟件主要在二級(jí)結(jié)構(gòu)預(yù)測的水平上。1、ViennaRNA軟件包綜合了兩種算法來預(yù)測RNA二級(jí)結(jié)構(gòu):一種是最小自由能的動(dòng)態(tài)規(guī)劃算法,另一種是McCaskill的分割函數(shù)算法。除RNA折疊外,還可計(jì)算給定二級(jí)結(jié)構(gòu)的RNA能量、RNA比熱及采用字符串聯(lián)配或編輯計(jì)算二級(jí)結(jié)構(gòu)間距離,還為反折疊提供一種算法,搜索給定二級(jí)結(jié)構(gòu)的RNA序列。三、RNA二級(jí)結(jié)構(gòu)預(yù)測2、MFOLDZuker的主頁含眾多RNA結(jié)構(gòu)站點(diǎn)的超鏈接,作為RNA相關(guān)網(wǎng)站的導(dǎo)航站點(diǎn)。該站點(diǎn)可以下載最新mfold軟件,也可以將序列提交給Zuker的mfold服務(wù)器完成。其中RNAstructure是Zuker預(yù)測RNA二級(jí)結(jié)構(gòu)的Windows9X/WindowsNT版本,可以免費(fèi)下載。3、RNAdraw
其主頁詳細(xì)介紹了程序的安裝、原理、使用和前景。大多數(shù)RNA二級(jí)結(jié)構(gòu)預(yù)測均可在大型計(jì)算機(jī)上完成,一般實(shí)驗(yàn)室不具備這些條件。2、MFOLDZuker的主頁含眾多RNA結(jié)構(gòu)站點(diǎn)的超4、RNA世界可能是最全面的RNA站點(diǎn),其超鏈接包括各種數(shù)據(jù)庫站點(diǎn)、網(wǎng)絡(luò)工具、序列、二級(jí)結(jié)構(gòu)以及相關(guān)軟件??梢院芊奖愕馗鶕?jù)PDB(proteindatabank)代碼或者NDB(nucleicaciddatabase)代碼來查找所需要RNA的結(jié)構(gòu)信息,同時(shí)提供包括研究方法、參考文獻(xiàn)、可視化圖象軟件及相關(guān)數(shù)據(jù)庫等信息。5、其他核酸數(shù)據(jù)庫
HIVDatabaseHIV序列數(shù)據(jù)庫、IMGTImMunoGeneTics數(shù)據(jù)庫;dbEST表達(dá)序列標(biāo)簽數(shù)據(jù)庫、BERLIN5SrRNA數(shù)據(jù)庫;EPD真核啟動(dòng)子數(shù)據(jù)庫。4、RNA世界可能是最全面的RNA站點(diǎn),其超鏈接包括各種第三節(jié)核酸同源性序列比對(duì)的策略和方法序列比較的根本任務(wù)是:發(fā)現(xiàn)序列之間的相似性辨別序列之間的差異目的: 相似序列相似的結(jié)構(gòu),相似的功能 判別序列之間的同源性 推測序列之間的進(jìn)化關(guān)系數(shù)據(jù)庫搜索就是一種基于兩兩比較的序列比對(duì),因?yàn)樗鼮閮蓚€(gè)序列的功能片段之間的相互關(guān)系提供一個(gè)非常明確的圖譜。較多序列的比對(duì)是序列比對(duì)的一個(gè)重點(diǎn)方向,本節(jié)只介紹兩亮序列比對(duì)。第三節(jié)核酸同源性序列比對(duì)的策略和方法序列比較的根本任務(wù)是一、數(shù)據(jù)庫的相似性搜索
對(duì)于一個(gè)新序列的分析首要任務(wù)就是將其與各種數(shù)據(jù)庫進(jìn)行比較搜索,發(fā)現(xiàn)是否存在同源序列。
數(shù)據(jù)庫相似性搜索能夠從數(shù)據(jù)庫海量中挑選出相關(guān)聯(lián)的序列。
最佳方式是搜索幾個(gè)不同的數(shù)據(jù)庫以發(fā)現(xiàn)最大可能多的同源序列。
一、數(shù)據(jù)庫的相似性搜索對(duì)于一個(gè)新序列的分析二、BLAST簡介
BLAST和FASTA是當(dāng)前應(yīng)用最廣泛的程序,最新版的BLAST和FASTA中已消除原有各自局限性。綜合程序速度和敏感性,本節(jié)介紹NCBI中的BLAST程序。
BLAST(basiclocalalignmentsearchtool,局部序列相似性對(duì)比工具)集速度、敏感性、彈性與統(tǒng)計(jì)處理的最佳組合于一身,能迅速找到非空位的相似片段。在報(bào)告相似性的同時(shí),也報(bào)告這個(gè)相似性片段出現(xiàn)的可能性。
BLAST集成了一系列程序進(jìn)行核酸和氨基酸序列不同類型的搜索,采用卡林氏統(tǒng)計(jì)描述結(jié)果的顯著性。二、BLAST簡介第三章核酸數(shù)據(jù)庫的應(yīng)用課件BLAST是NCBI提供的用于核酸或蛋白質(zhì)序列相似性對(duì)比分析的一個(gè)軟件,已發(fā)展到包括BLASTP,BLASTN,BLASTX,TBLASTN,TBLASTX,MEGABLAST,PSI-BLAST,PHI-BLAST,RPS-BLAST等多個(gè)軟件和應(yīng)用工具的多功能序列分析程序。1、BLASTN:最早的BLAST程序,用于鑒定測序所得序列和查找與之相似的序列。系最常用BLAST軟件。BLAST是NCBI提供的用于核酸或蛋白質(zhì)序列相似程序
數(shù)據(jù)庫
查
詢
簡
述
blastpblastnblastxtblastntblastx蛋白質(zhì)核酸蛋白質(zhì)核苷酸(翻譯)核酸(翻譯)蛋白質(zhì)核苷酸核酸(翻譯)蛋白質(zhì)核酸(翻譯)可能找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列適合尋找分值較高的匹配,不適合遠(yuǎn)源關(guān)系適合新DNA序列和EST序列的分析適合尋找數(shù)據(jù)庫中尚未標(biāo)注的編碼區(qū)適合分析EST序列
程序數(shù)據(jù)庫查詢簡述blastp蛋白質(zhì)蛋白質(zhì)可能找2、MEGABLAST:用于鑒定一個(gè)未知的核酸序列。若要了解測得一個(gè)未知核酸序列是否已發(fā)表在公開的核酸數(shù)據(jù)庫中,以及其相關(guān)的生物研究文獻(xiàn)時(shí),這是一個(gè)最好的工具。它可有效地找到與序列相近的其他序列。3、Discontiguous
MEGABLAST:與MEGABLAST相似,主要用于相近的序列段比較短、并且相鄰的序列段不連續(xù)的搜索。相近序列不易查找時(shí),該工具可以提高查詢靈敏度和查詢效果。2、MEGABLAST:用于鑒定一個(gè)未知的核酸序列。若要了解4、BLASTP:為查詢蛋白質(zhì)序列設(shè)計(jì)的軟件,主要用于鑒定蛋白質(zhì)的氨基酸序列和在數(shù)據(jù)庫中查找相似的序列。既可通過找到相似的已知蛋白質(zhì)的功能來鑒定一個(gè)未知的蛋白質(zhì)序列的功能,也可用于兩個(gè)或多個(gè)蛋白質(zhì)序列的比較。5、PSI-BLAST(點(diǎn)位重心BLAST):最靈敏的BLAST程序,通過它可以找到一個(gè)蛋白質(zhì)的遠(yuǎn)親序列。4、BLASTP:為查詢蛋白質(zhì)序列設(shè)計(jì)的軟件,主要用于鑒定6、PHI-BLAST(特異片段重心BLAST):可以指定某一個(gè)蛋白質(zhì)序列片段,并以這個(gè)片段為重心查詢相關(guān)蛋白質(zhì)序列。7、BLASTX:把所需查詢的核酸序列翻譯成氨基酸序列,再在蛋白質(zhì)數(shù)據(jù)庫中查找。LBASTX可以將核酸序列翻譯成有6種可能的氨基酸序列后在進(jìn)行查尋,對(duì)編碼區(qū)所有三聯(lián)密碼的組合所翻譯的氨基酸序列都查尋,提高了查尋靈敏度。6、PHI-BLAST(特異片段重心BLAST):可以8、TBLASTN:與BLASTX相反,TBLASTN蛋白質(zhì)序列翻譯成可能的6種三聯(lián)密碼核酸序列,對(duì)尋找相似功能的核酸序列特別有用。多用于EST和大規(guī)模測序所做的序列分析,對(duì)三聯(lián)密碼的錯(cuò)位有很高的容錯(cuò)度。9、TBLASTX:把要查尋的核酸序列和進(jìn)行比較的核酸序列都翻譯成6種可能的氨基酸序列后進(jìn)行比較。10、RPS-BLAST:用于鑒定某些進(jìn)化上比較穩(wěn)定的蛋白質(zhì)功能片段。數(shù)據(jù)來源于NCBI的CDD數(shù)據(jù)庫。11、CDART(conserveddomainarchitetureretrievaltool):用于篩選特定蛋白質(zhì)數(shù)據(jù)庫中所有的蛋白質(zhì)功能片段和功能片段結(jié)構(gòu),并得到含有某一個(gè)或多個(gè)功能片段結(jié)構(gòu)的所有蛋白質(zhì)序列。8、TBLASTN:與BLASTX相反,TBLASTN蛋白質(zhì)三、BLAST應(yīng)用舉例順序:①建立BLAST搜索,確定查詢序列;
②選擇適當(dāng)?shù)乃阉鞒绦蚝拖鄳?yīng)的數(shù)據(jù)庫,以及參數(shù);
③發(fā)送查詢序列;
④讀取BLAST結(jié)果。1、具體步驟(1)確定查詢序列;(2)選擇數(shù)據(jù)庫和搜索程序:數(shù)據(jù)庫為核酸數(shù)據(jù)庫,程序?yàn)锽LASTN;三、BLAST應(yīng)用舉例(3)選擇默認(rèn)的允許非空位的搜索;(4)E值限制,默認(rèn)為10;(5)用默認(rèn)矩陣BLOSUM62;(6)最后確認(rèn)結(jié)果輸出格式。確認(rèn)以上參數(shù)無誤后,點(diǎn)擊“BLAST”按鈕,同時(shí)也可以選擇E-mail回復(fù)結(jié)果。2、結(jié)果分析BLAST結(jié)果分兩部分,即圖形化結(jié)果和文字結(jié)果,后者又分為有意義的序列排列、兩兩對(duì)比結(jié)果、統(tǒng)計(jì)結(jié)果三部分。(3)選擇默認(rèn)的允許非空位的搜索;2、結(jié)果分析選擇對(duì)比程序基因組對(duì)比特殊對(duì)比選擇對(duì)比程序基因組對(duì)比特殊對(duì)比第三章核酸數(shù)據(jù)庫的應(yīng)用課件將序列數(shù)據(jù)庫中的復(fù)制序列在此粘貼將序列數(shù)據(jù)庫中的復(fù)制序列在此粘貼點(diǎn)擊點(diǎn)擊(1)圖形結(jié)果得分高低以不同顏色表示:≥200紅色,80-200分紅色,50-80綠色,40-50藍(lán)色,<40黑色,也表示同源性由高到低。(1)圖形結(jié)果得分高低以不同顏色表示:≥200紅色,80-22、文字結(jié)果2、文字結(jié)果第三章核酸數(shù)據(jù)庫的應(yīng)用課件搜索的分值高低排列,即同源性從高到低。排列第一的是查詢序列本身。右側(cè)分別為隨機(jī)分值(score,S值)和期望值(expect,E值)。E值是特定匹配中基本的隨機(jī)噪聲。S值增加,E值呈指數(shù)性減少,即隨機(jī)噪聲降低,表明序列同源性較高。經(jīng)驗(yàn)提示,DNA序列具有75%以上的同源性才具有潛在的生物學(xué)意義,但這種結(jié)果很難把握,必須實(shí)驗(yàn)驗(yàn)證,或要求研究者具有豐富的序列分析經(jīng)驗(yàn)。搜索的分值高低排列,即同源性從高到低。排列第一的是查詢序列本序列對(duì)比報(bào)告對(duì)比資源類似性圖譜序列對(duì)比報(bào)告對(duì)比資源類似性圖譜對(duì)比圖譜報(bào)告數(shù)據(jù)庫標(biāo)識(shí)符基因定義類似性積分E值為匹配期望值。說明可以找到與搜索序列相匹配的其它序列的幾率。E值越接近零,越不可能找到其它的匹配序列,其背后的含義就是E值越少,匹配度越好對(duì)比圖譜報(bào)告數(shù)據(jù)庫標(biāo)識(shí)符基因定義類似性積分E值為匹配期望值。點(diǎn)擊可得待檢序列與庫存序列對(duì)排基因表達(dá)庫鏈接單基因庫基因信息庫點(diǎn)擊可得待檢序列與庫存序列對(duì)排基因表達(dá)庫鏈接單基因庫基因信息人類染色體上的抗腫瘤基因序列對(duì)排表人類染色體上的抗腫瘤基因序列對(duì)排表相關(guān)文獻(xiàn)鏈接相關(guān)文獻(xiàn)鏈接對(duì)排序列不一致處序列對(duì)排報(bào)告對(duì)排序列序列對(duì)排報(bào)告第四節(jié)新序列的提交提交信息到NCBI、EBI和DDBJ的過程非常簡單。介紹三種方式:一、Internet的方式,如BankIt,為在線序列數(shù)據(jù)提交工具,基于互聯(lián)網(wǎng)直接將數(shù)據(jù)庫提交給GenBank的序列提交工具,提交的序列必須是提交者測定的DNA/RNA序列。輸入的格式是FASTA;由E-mail給予回復(fù);有基本的GenBank文本格式文件、GenBank存取號(hào)和完整的GenBank文本格式。第四節(jié)新序列的提交提交信息到NCBI、EBI和DDBJ的過BankIt是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來源信息以及序列本身的信息等。用戶提交序列后,會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目。GenBank的新序列號(hào)及完成注釋后的完整記錄。用戶還可在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。
BankIt適于獨(dú)立測序工作者提交少量序列,不適于提交很長的序列,EST序列和GSS序列也不用BankIt提交。BankIt是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要二、通過Sequin(authorin)提交??蓪⑿蛄刑峤唤oGenBank、EMBL和DDBJ及在線更新。能處理簡單和復(fù)雜提交。Sequin的使用說明可祥見網(wǎng)頁。三、通過Webin提交,該程序被推薦作為EMBL序列提交的互聯(lián)網(wǎng)界面。網(wǎng)址:http://www.ebi.ac.uk/Tools/index.html數(shù)據(jù)提交前可以修改和審查;有成批提交25項(xiàng)或更多相關(guān)序列的程序,也有EBI載體剔除軟件。二、通過Sequin(authorin)提交??蓪⑿蛄刑峤唤oGenBankGenBankSubmittoGenBankSubmittoGenBank11第三章核酸數(shù)據(jù)庫的應(yīng)用課件第三章核酸數(shù)據(jù)庫的應(yīng)用課件第三章核酸數(shù)據(jù)庫的應(yīng)用課件第三章核酸數(shù)據(jù)庫的應(yīng)用
數(shù)據(jù)庫涉及到的內(nèi)容主要包括兩大部分:數(shù)據(jù)庫組織和數(shù)據(jù)庫開發(fā)工具。就核酸數(shù)據(jù)庫而言,前者有NCBI、EBI以及日本生物信息學(xué)服務(wù)器等;后者包括序列相似性搜索基本工具Entrez,BLAST和FASTA。核酸數(shù)據(jù)庫的應(yīng)用包括兩個(gè)主要方面,即數(shù)據(jù)庫查詢(databasequery)和數(shù)據(jù)庫搜索(databasesearch)。第三章核酸數(shù)據(jù)庫的應(yīng)用數(shù)據(jù)庫涉及到的內(nèi)容主要包括兩大
數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索是分子生物信息學(xué)中兩個(gè)常用序語。數(shù)據(jù)庫查詢是指對(duì)序列、結(jié)構(gòu)以及各種二級(jí)數(shù)據(jù)庫中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。數(shù)據(jù)庫搜索是指通過特定的序列相似性比對(duì)算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測序列具有一定程度相似性的序列。數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索是分子生物信息學(xué)中兩個(gè)常第一節(jié)常用的核酸數(shù)據(jù)庫
一、GenBank-NCBI核酸序列數(shù)據(jù)庫1、GenBank核酸序列數(shù)據(jù)庫的檢索GenBank數(shù)據(jù)庫的簡單查詢是在NCBI首頁上的Search中直接查詢檢索窗口第一節(jié)常用的核酸數(shù)據(jù)庫一、GenBank-NC利用著者進(jìn)行查詢時(shí),輸入格式應(yīng)為作者的姓加上名的縮寫。如:Thomas點(diǎn)擊利用著者進(jìn)行查詢時(shí),輸入格式應(yīng)為作者的姓加上名的縮寫。如:點(diǎn)擊點(diǎn)擊第三章核酸數(shù)據(jù)庫的應(yīng)用課件也可以用序列登記號(hào)(accessionnumber)進(jìn)行一般查詢,如:AF477385點(diǎn)擊也可以用序列登記號(hào)(accessionnumber)進(jìn)行一第三章核酸數(shù)據(jù)庫的應(yīng)用課件
高級(jí)檢索是通過NCBI的Entrez檢索系統(tǒng)實(shí)現(xiàn)。Entrez是NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)的核心。利用Entrez系統(tǒng),可以檢索GenBank和其他數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集,以及有Pubmed獲得Medline的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)。高級(jí)檢索是通過NCBI的Entrez檢索系統(tǒng)實(shí)現(xiàn)。En第三章核酸數(shù)據(jù)庫的應(yīng)用課件Entrez提供方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。利用Entrez界面提供的限制條件(Limit鍵)、索引(Index鍵)、檢索歷史(History鍵)和剪貼板(Clipboard鍵)等功能實(shí)現(xiàn)復(fù)雜的檢索查詢工作。
Entrez提供方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽
進(jìn)入NCBI的Entrez主頁,用戶可以選擇組成Entrez系統(tǒng)的五個(gè)數(shù)據(jù)庫之一作為查詢起點(diǎn)。如以Nucleotide開始。選擇Nucleotide即進(jìn)入EntrezNucleotidesearch界面,點(diǎn)擊Limits進(jìn)入限定檢索界面。如上圖。完成各限制條件后,點(diǎn)擊Go即進(jìn)行檢索。進(jìn)入NCBI的Entrez主頁,用戶可以選擇組成Ent第三章核酸數(shù)據(jù)庫的應(yīng)用課件2、NCBI中的GenBank數(shù)據(jù)的格式LOCUSDEFINITION序列名稱基因定義ACCESSION序列編號(hào)序列接受號(hào)或登記號(hào)VERSION序列版本號(hào)DATE序列提交、創(chuàng)建和更新日期DISCRIPTION序列簡要描述KEYWORDS與序列相關(guān)的關(guān)鍵詞SOURCE序列的來源種屬ORGANISM序列的來源分類REFERENCE參考文獻(xiàn)編號(hào)或遞交序列信息REMARK參考文獻(xiàn)評(píng)述MEDLINE參考文獻(xiàn)交叉索引或遞交序列在Medline
中的存取號(hào)TITLEAUTHER參考文獻(xiàn)作者或遞交序列作者TITLE參考文獻(xiàn)題目JOURNAL參考文獻(xiàn)出處FEATURES序列特征表起始COMMENT序列注釋信息BASECOUNT序列起始標(biāo)志ORIGEN序列數(shù)據(jù)2、NCBI中的GenBank數(shù)據(jù)的格式LOCUSDEFI第三章核酸數(shù)據(jù)庫的應(yīng)用課件·
LOCUSTG29EDGP839bpDNAlinearINV18-APR-1998DEFINITIONToxoplasmagondiiDNAencodinga29kDGRA.ACCESSION
Y13863VERSION
Y13863.1GI:2231107KEYWORDS29kDaprotein;densegranuleprotein;p29gene.SOURCE
ToxoplasmagondiiORGANISM
ToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,etal.TITLEGRA7,JOURNAL
Mol.Biochem.Parasitol.91(2),251-262(1998)PUBMED9566518
1:Y13863.ReportsToxoplasmagondii...[gi:2231107]
·
LOCUSTG29EDGP839REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiologyandVirology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURES
Location/QualifiersCDS
79..789REFERENCE2(bases1to839)Entrez
用途檢索大分子生物學(xué)數(shù)據(jù)獲取GenBank,EMBL等數(shù)據(jù)庫的核酸序列;獲取Swiss-prot,PIR,PRF,PDB等蛋白質(zhì)序列;從核酸序列翻譯到蛋白質(zhì)的序列;獲取基因和染色體圖譜;蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)及大分子模式(MMDB)等其他生物信息數(shù)據(jù)庫檢索。PubMed書目文獻(xiàn)數(shù)據(jù)。Entrez用途檢索大分子生物學(xué)數(shù)據(jù)Entrez生命科學(xué)搜索引擎Entrez生命科學(xué)搜索引擎Entrez跨庫檢索Entrez跨庫檢索檢索字段限制分子類型選擇基因位置限定序列片段限定數(shù)據(jù)更新日期限定功能欄核酸序列檢索檢索字段限制分子類型選擇基因位置限定序列片段限定數(shù)據(jù)更新功能序列存取號(hào)基因定義數(shù)據(jù)庫標(biāo)識(shí)符序列存取號(hào)基因定義數(shù)據(jù)庫標(biāo)識(shí)符代碼物種來源參考文獻(xiàn)特性專業(yè)評(píng)論代碼物種來源參考文獻(xiàn)特性專業(yè)評(píng)論堿基數(shù)原序列復(fù)制后,可到BLAST中進(jìn)行相似性對(duì)比堿基數(shù)原序列復(fù)制后,可到BLAST中進(jìn)行相似性對(duì)比二、EMBL-歐洲核酸數(shù)據(jù)庫EMBL數(shù)據(jù)庫共有Genomes、Simplesequenceretrieval和SRS(序列提取系統(tǒng))三種檢索方式。1、Genomes提供已完成測序的基因組數(shù)據(jù),用戶可以通過生物分類名稱以分層點(diǎn)擊瀏覽的方式獲取相關(guān)信息,通過相關(guān)鏈接,用戶可獲得大量已完成測序的基因組數(shù)據(jù)。二、EMBL-歐洲核酸數(shù)據(jù)庫EMBL數(shù)據(jù)庫共有Genomes網(wǎng)址為:http://www.ebi.ac.uk/genomes網(wǎng)址為:http://www.ebi.ac.uk/genom2、Simplesequenceretrieval
:直接輸入序列接受號(hào)檢索核酸序列。網(wǎng)址:http://www.ebi.ac.uk/cgi-bin/emblfetch2、Simplesequenceretrieval:3、SRS(序列提取系統(tǒng)):是目前生物信息界應(yīng)用最為廣泛的數(shù)據(jù)庫系統(tǒng)。網(wǎng)址:http://srs.ebi.ac.uk/檢索序列時(shí)只需用鼠標(biāo)點(diǎn)擊“Search”,在輸入框中輸入擬檢索的信息即可。SRS的詳細(xì)信息參見:http://www.sanger.ac.uk/srs/srsman.html3、SRS(序列提取系統(tǒng)):是目前生物信息界應(yīng)用最為廣泛的數(shù)第三章核酸數(shù)據(jù)庫的應(yīng)用課件三、DDBJ-日本DNA數(shù)據(jù)庫包括Getentry、SRS、Afgate&TAIS、Homology等幾種方法。前四種用于檢索DDBJ數(shù)據(jù)庫中原始數(shù)據(jù),Homology采用FASTA/BLAST檢索對(duì)用戶提供的序列或片段做同源性分析。1、Getentry:通過登錄號(hào)檢索DDBJ核酸數(shù)據(jù)庫,最多可同時(shí)輸入10個(gè)號(hào)碼進(jìn)行檢索,各號(hào)碼之間用空格或“,”分隔,連續(xù)號(hào)碼可用“-”表示。還可用Locusname、Genename、Productname、P-ID、Clonenumber和Patent號(hào)等檢索。三、DDBJ-日本DNA數(shù)據(jù)庫包括Getentry、SRS、2、SRS:有快速檢索和高級(jí)檢索兩種途徑??焖贆z索可同時(shí)選擇多個(gè)數(shù)據(jù)庫進(jìn)行檢索,并且它只對(duì)來自“ID”、“Molecule”、“Discription”、“AccNumber”、“Keywords”、“Source”“Organism”、“Authors”、“Title”及“Comment”等10個(gè)默認(rèn)字段的信息進(jìn)行檢索。3、Afgate&TAIS:比較簡單的關(guān)鍵詞檢索途徑,在檢索框內(nèi)輸入檢索策略,點(diǎn)擊startsearch按鈕即可完成。2、SRS:有快速檢索和高級(jí)檢索兩種途徑??焖贆z索可同時(shí)選擇第三章核酸數(shù)據(jù)庫的應(yīng)用課件第二節(jié)常用的RNA數(shù)據(jù)庫及軟件一、Transterm---mRNA序列和翻譯調(diào)控元件數(shù)據(jù)庫1、Transterm數(shù)據(jù)庫簡介Transterm數(shù)據(jù)庫由新西蘭Otago大學(xué)生物化學(xué)系構(gòu)建并維護(hù),是一個(gè)mRNA序列和翻譯調(diào)控元件數(shù)據(jù)庫。
Transterm設(shè)計(jì)的目的是研究mRNA的構(gòu)成以及翻譯過程中的調(diào)控信號(hào)。Transterm中收錄的mRNA序列包括多種功能成分,既可以對(duì)一種物種進(jìn)行分析,也可以借此進(jìn)行信息查詢。第二節(jié)常用的RNA數(shù)據(jù)庫及軟件一、Transterm--每一個(gè)從GenBank內(nèi)提取的mRNA被分成以下部分:功能成分,起始編碼區(qū),終止編碼區(qū),即5’-UTR、3’-UTR和翻譯信號(hào)的側(cè)翼序列。網(wǎng)址:http://www.uther.otago.ac.nz/Transterm.html每一個(gè)從GenBank內(nèi)提取的mRNA被分成以下部分:功能成2、Transterm數(shù)據(jù)檢索Transterm提供每一物種密碼子使用表格,還提供描述mRNA中已知的基序或特征的模式的總結(jié)。通過Transterm來源于GenBank的編碼區(qū)可被分割為5’側(cè)翼、起始區(qū)、全編碼區(qū)、終止區(qū)、3’側(cè)翼。在Transterm的WWW界面使用與數(shù)據(jù)庫文件和有關(guān)數(shù)據(jù)庫相關(guān)聯(lián)的圖表,可以搜索所有或部分?jǐn)?shù)據(jù)庫內(nèi)容,找尋任一條符合條件的模式或用戶自定義的模式。2、Transterm數(shù)據(jù)檢索二、RDP-11-------核糖體數(shù)據(jù)庫由Maidak等人創(chuàng)建,提供一切與核糖體有關(guān)的數(shù)據(jù)、程序及相關(guān)服務(wù)計(jì)算機(jī)程序,包括rRNA在線數(shù)據(jù)分析、進(jìn)化分類系統(tǒng)樹、rRNA相似序列的排列、序列注釋、rRNA二級(jí)結(jié)構(gòu)圖以及各種相似序列比較分析和顯示軟件。網(wǎng)址:http://www.1、簡介二、RDP-11-------核糖體數(shù)據(jù)庫由Maidak等人2、RDP-Ⅱ數(shù)據(jù)庫提供的分析工具(1)ProbeMatch:分析特異探針在數(shù)據(jù)庫中出現(xiàn)的頻率(2)SequenceMatch:通過nearestneighbors算法確定與用戶序列最相近的RDP-Ⅱ序列。(3)SequenceAlign:對(duì)使用者的數(shù)據(jù)進(jìn)行排列,找到與使用者序列最相近的RDP-Ⅱ序列。(4)SimilarityMatrix:計(jì)算RDP-Ⅱ和/或使用者序列的相似性/不相似性矩陣。(5)ChimeraCheck:檢查用戶序列是否為嵌合型。2、RDP-Ⅱ數(shù)據(jù)庫提供的分析工具(1)ProbeMat(6)AlignmentSlices:從RDP-Ⅱ全排列數(shù)據(jù)庫中抽取興趣部分,與相鄰序列精簡壓縮為一個(gè)序列,突出鄰近序列的差異性.(7)SequenceSelection:從動(dòng)態(tài)展示的等級(jí)分類中選取序列,選出的序列可被下載并進(jìn)行RDP-Ⅱ其他軟件分析。(8)T-RFLP:以ABI測序系統(tǒng)格式使用數(shù)據(jù),建立一個(gè)相似性矩陣。(6)AlignmentSlices:從RDP-Ⅱ全排列數(shù)(9)TAPT-RFLP:在RDP數(shù)據(jù)庫中進(jìn)行“T-RFLP實(shí)驗(yàn)”,利于設(shè)計(jì)與分析。(10)(Sub)Trees:一種Javaapplet,可以用來展示、操縱種屬進(jìn)化系統(tǒng)樹,產(chǎn)生新分支,或選取序列進(jìn)行其他的RDP-Ⅱ分析。(11)PCA(principalComponentanalysis):對(duì)那些較大的序列系統(tǒng)進(jìn)行圖象化處理,PCA可通過網(wǎng)頁上的“SopplementaryMateriallinks”找到。(9)TAPT-RFLP:在RDP數(shù)據(jù)庫中進(jìn)行“T-RFLP三、RNA二級(jí)結(jié)構(gòu)預(yù)測借助計(jì)算機(jī)生物學(xué)可以很好地利用已知的RNA序列進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測乃至三級(jí)結(jié)構(gòu)建模。目前較成熟并實(shí)現(xiàn)自動(dòng)化的軟件主要在二級(jí)結(jié)構(gòu)預(yù)測的水平上。1、ViennaRNA軟件包綜合了兩種算法來預(yù)測RNA二級(jí)結(jié)構(gòu):一種是最小自由能的動(dòng)態(tài)規(guī)劃算法,另一種是McCaskill的分割函數(shù)算法。除RNA折疊外,還可計(jì)算給定二級(jí)結(jié)構(gòu)的RNA能量、RNA比熱及采用字符串聯(lián)配或編輯計(jì)算二級(jí)結(jié)構(gòu)間距離,還為反折疊提供一種算法,搜索給定二級(jí)結(jié)構(gòu)的RNA序列。三、RNA二級(jí)結(jié)構(gòu)預(yù)測2、MFOLDZuker的主頁含眾多RNA結(jié)構(gòu)站點(diǎn)的超鏈接,作為RNA相關(guān)網(wǎng)站的導(dǎo)航站點(diǎn)。該站點(diǎn)可以下載最新mfold軟件,也可以將序列提交給Zuker的mfold服務(wù)器完成。其中RNAstructure是Zuker預(yù)測RNA二級(jí)結(jié)構(gòu)的Windows9X/WindowsNT版本,可以免費(fèi)下載。3、RNAdraw
其主頁詳細(xì)介紹了程序的安裝、原理、使用和前景。大多數(shù)RNA二級(jí)結(jié)構(gòu)預(yù)測均可在大型計(jì)算機(jī)上完成,一般實(shí)驗(yàn)室不具備這些條件。2、MFOLDZuker的主頁含眾多RNA結(jié)構(gòu)站點(diǎn)的超4、RNA世界可能是最全面的RNA站點(diǎn),其超鏈接包括各種數(shù)據(jù)庫站點(diǎn)、網(wǎng)絡(luò)工具、序列、二級(jí)結(jié)構(gòu)以及相關(guān)軟件??梢院芊奖愕馗鶕?jù)PDB(proteindatabank)代碼或者NDB(nucleicaciddatabase)代碼來查找所需要RNA的結(jié)構(gòu)信息,同時(shí)提供包括研究方法、參考文獻(xiàn)、可視化圖象軟件及相關(guān)數(shù)據(jù)庫等信息。5、其他核酸數(shù)據(jù)庫
HIVDatabaseHIV序列數(shù)據(jù)庫、IMGTImMunoGeneTics數(shù)據(jù)庫;dbEST表達(dá)序列標(biāo)簽數(shù)據(jù)庫、BERLIN5SrRNA數(shù)據(jù)庫;EPD真核啟動(dòng)子數(shù)據(jù)庫。4、RNA世界可能是最全面的RNA站點(diǎn),其超鏈接包括各種第三節(jié)核酸同源性序列比對(duì)的策略和方法序列比較的根本任務(wù)是:發(fā)現(xiàn)序列之間的相似性辨別序列之間的差異目的: 相似序列相似的結(jié)構(gòu),相似的功能 判別序列之間的同源性 推測序列之間的進(jìn)化關(guān)系數(shù)據(jù)庫搜索就是一種基于兩兩比較的序列比對(duì),因?yàn)樗鼮閮蓚€(gè)序列的功能片段之間的相互關(guān)系提供一個(gè)非常明確的圖譜。較多序列的比對(duì)是序列比對(duì)的一個(gè)重點(diǎn)方向,本節(jié)只介紹兩亮序列比對(duì)。第三節(jié)核酸同源性序列比對(duì)的策略和方法序列比較的根本任務(wù)是一、數(shù)據(jù)庫的相似性搜索
對(duì)于一個(gè)新序列的分析首要任務(wù)就是將其與各種數(shù)據(jù)庫進(jìn)行比較搜索,發(fā)現(xiàn)是否存在同源序列。
數(shù)據(jù)庫相似性搜索能夠從數(shù)據(jù)庫海量中挑選出相關(guān)聯(lián)的序列。
最佳方式是搜索幾個(gè)不同的數(shù)據(jù)庫以發(fā)現(xiàn)最大可能多的同源序列。
一、數(shù)據(jù)庫的相似性搜索對(duì)于一個(gè)新序列的分析二、BLAST簡介
BLAST和FASTA是當(dāng)前應(yīng)用最廣泛的程序,最新版的BLAST和FASTA中已消除原有各自局限性。綜合程序速度和敏感性,本節(jié)介紹NCBI中的BLAST程序。
BLAST(basiclocalalignmentsearchtool,局部序列相似性對(duì)比工具)集速度、敏感性、彈性與統(tǒng)計(jì)處理的最佳組合于一身,能迅速找到非空位的相似片段。在報(bào)告相似性的同時(shí),也報(bào)告這個(gè)相似性片段出現(xiàn)的可能性。
BLAST集成了一系列程序進(jìn)行核酸和氨基酸序列不同類型的搜索,采用卡林氏統(tǒng)計(jì)描述結(jié)果的顯著性。二、BLAST簡介第三章核酸數(shù)據(jù)庫的應(yīng)用課件BLAST是NCBI提供的用于核酸或蛋白質(zhì)序列相似性對(duì)比分析的一個(gè)軟件,已發(fā)展到包括BLASTP,BLASTN,BLASTX,TBLASTN,TBLASTX,MEGABLAST,PSI-BLAST,PHI-BLAST,RPS-BLAST等多個(gè)軟件和應(yīng)用工具的多功能序列分析程序。1、BLASTN:最早的BLAST程序,用于鑒定測序所得序列和查找與之相似的序列。系最常用BLAST軟件。BLAST是NCBI提供的用于核酸或蛋白質(zhì)序列相似程序
數(shù)據(jù)庫
查
詢
簡
述
blastpblastnblastxtblastntblastx蛋白質(zhì)核酸蛋白質(zhì)核苷酸(翻譯)核酸(翻譯)蛋白質(zhì)核苷酸核酸(翻譯)蛋白質(zhì)核酸(翻譯)可能找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列適合尋找分值較高的匹配,不適合遠(yuǎn)源關(guān)系適合新DNA序列和EST序列的分析適合尋找數(shù)據(jù)庫中尚未標(biāo)注的編碼區(qū)適合分析EST序列
程序數(shù)據(jù)庫查詢簡述blastp蛋白質(zhì)蛋白質(zhì)可能找2、MEGABLAST:用于鑒定一個(gè)未知的核酸序列。若要了解測得一個(gè)未知核酸序列是否已發(fā)表在公開的核酸數(shù)據(jù)庫中,以及其相關(guān)的生物研究文獻(xiàn)時(shí),這是一個(gè)最好的工具。它可有效地找到與序列相近的其他序列。3、Discontiguous
MEGABLAST:與MEGABLAST相似,主要用于相近的序列段比較短、并且相鄰的序列段不連續(xù)的搜索。相近序列不易查找時(shí),該工具可以提高查詢靈敏度和查詢效果。2、MEGABLAST:用于鑒定一個(gè)未知的核酸序列。若要了解4、BLASTP:為查詢蛋白質(zhì)序列設(shè)計(jì)的軟件,主要用于鑒定蛋白質(zhì)的氨基酸序列和在數(shù)據(jù)庫中查找相似的序列。既可通過找到相似的已知蛋白質(zhì)的功能來鑒定一個(gè)未知的蛋白質(zhì)序列的功能,也可用于兩個(gè)或多個(gè)蛋白質(zhì)序列的比較。5、PSI-BLAST(點(diǎn)位重心BLAST):最靈敏的BLAST程序,通過它可以找到一個(gè)蛋白質(zhì)的遠(yuǎn)親序列。4、BLASTP:為查詢蛋白質(zhì)序列設(shè)計(jì)的軟件,主要用于鑒定6、PHI-BLAST(特異片段重心BLAST):可以指定某一個(gè)蛋白質(zhì)序列片段,并以這個(gè)片段為重心查詢相關(guān)蛋白質(zhì)序列。7、BLASTX:把所需查詢的核酸序列翻譯成氨基酸序列,再在蛋白質(zhì)數(shù)據(jù)庫中查找。LBASTX可以將核酸序列翻譯成有6種可能的氨基酸序列后在進(jìn)行查尋,對(duì)編碼區(qū)所有三聯(lián)密碼的組合所翻譯的氨基酸序列都查尋,提高了查尋靈敏度。6、PHI-BLAST(特異片段重心BLAST):可以8、TBLASTN:與BLASTX相反,TBLASTN蛋白質(zhì)序列翻譯成可能的6種三聯(lián)密碼核酸序列,對(duì)尋找相似功能的核
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《生活化教學(xué)在小學(xué)品德與社會(huì)課程中的教育評(píng)價(jià)研究方法實(shí)踐研究》教學(xué)研究課題報(bào)告
- 供應(yīng)鏈管理企業(yè)信息化管理制度
- KTV消防安全管理制度標(biāo)準(zhǔn)范本7篇
- 2026江西農(nóng)業(yè)大學(xué)校園建設(shè)處非全日制環(huán)衛(wèi)合同工招聘1人備考題庫完整參考答案詳解
- 2026年濱州無棣縣事業(yè)單位公開招聘人員備考題庫有完整答案詳解
- 2026吉林通化市集安市公益性崗位招聘54人備考題庫有答案詳解
- 2026安徽城市管理職業(yè)學(xué)院引進(jìn)高層次人才10人備考題庫及一套完整答案詳解
- 2026北京市環(huán)球時(shí)報(bào)新媒體部實(shí)習(xí)生招募備考題庫及答案詳解(新)
- 2026上??萍即髮W(xué)物質(zhì)科學(xué)與技術(shù)學(xué)院電鏡平臺(tái)招聘工程師1名備考題庫及完整答案詳解1套
- 2025恒豐銀行北京分行實(shí)習(xí)生招聘11人備考題庫及1套參考答案詳解
- 房地產(chǎn)項(xiàng)目回款策略與現(xiàn)金流管理
- 非連續(xù)性文本閱讀(中考試題20篇)-2024年中考語文重難點(diǎn)復(fù)習(xí)攻略(解析版)
- 《CAD的簡介和作用》課件
- 畜禽糞污資源化利用培訓(xùn)
- 《搶救藥物知識(shí)》課件
- 建筑工程咨詢服務(wù)合同(標(biāo)準(zhǔn)版)
- 2024年4月自考05424現(xiàn)代設(shè)計(jì)史試題
- 綜合能源管理系統(tǒng)平臺(tái)方案設(shè)計(jì)及實(shí)施合集
- 甲苯磺酸奧馬環(huán)素片-藥品臨床應(yīng)用解讀
- 共享單車對(duì)城市交通的影響研究
- 監(jiān)理大綱(暗標(biāo))
評(píng)論
0/150
提交評(píng)論