生物信息學(xué)課件_第1頁(yè)
生物信息學(xué)課件_第2頁(yè)
生物信息學(xué)課件_第3頁(yè)
生物信息學(xué)課件_第4頁(yè)
生物信息學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩117頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物信息學(xué),內(nèi) 容,一、生物信息學(xué)定義 二、生物信息學(xué)的發(fā)展歷史 三、生物信息學(xué)的主要研究?jī)?nèi)容,3,一、生物信息學(xué)定義,4,背景,人類基因組計(jì)劃(Human Genome Project, HGP):1990年正式啟動(dòng),旨在完成人類基因組約30億對(duì)堿基的全序列測(cè)定。 海量生物數(shù)據(jù)的迅速膨脹:DNA、RNA和蛋白質(zhì)序列,蛋白質(zhì)二級(jí)結(jié)構(gòu)和三維結(jié)構(gòu)數(shù)據(jù),蛋白質(zhì)相互作用數(shù)據(jù)等。 對(duì)大量生物數(shù)據(jù)的管理、分析和信息化需求促進(jìn)了生物信息學(xué)的迅速發(fā)展。,5,生物信息學(xué)(Bioinformatics)名詞的由來(lái),20世紀(jì)80代末期,林華安博士認(rèn)識(shí)到將計(jì)算機(jī)科學(xué)與生物學(xué)結(jié)合起來(lái)的重要意義,開(kāi)始留意要為這一領(lǐng)域構(gòu)思

2、一個(gè)合適的名稱。 起初,他使用的是“CompBio”; 之后,又將其更改為兼具法國(guó)風(fēng)情的“bioinformatique”,看起來(lái)似乎有些古怪。 不久,他便進(jìn)一步把它更改為“bio-informatics”。 但由于當(dāng)時(shí)的電子郵件系統(tǒng)與今日不同,該名稱中的-或/符號(hào)經(jīng)常會(huì)引起許多系統(tǒng)問(wèn)題,于是林博士將其去除,今天我們所看到的“bioinformatics”就正式誕生了,林博士也因此贏得了“生物信息學(xué)之父”的美譽(yù)。,6,生物信息學(xué)之父 林華安,Dr. Hwa A. Lim (林華安)1987年提出 “Bio-informatique” “Bioinformatics” 1955年出生于馬來(lái)西亞。

3、聯(lián)合國(guó)Bioinformatics專家,University of Texas at Dallas分子與細(xì)胞生物學(xué)Adjunct Professor、中國(guó)科學(xué)院基因遺傳研究所客座教授。1981年英國(guó)倫敦大學(xué)帝國(guó)學(xué)院(Imperial College, London University)畢業(yè),1986年獲得美國(guó)Rochester University生化物理學(xué)博士學(xué)位,30歲取得佛羅里達(dá)州立大學(xué)終生教授。1992年受聘擔(dān)任美國(guó)國(guó)家癌癥中心及美國(guó)國(guó)家科學(xué)基金會(huì)審核委員。1995年后,歷任多家生物科技公司生化信息執(zhí)行長(zhǎng)、副總裁等高層管理職位。1997年,創(chuàng)立結(jié)合軟件與數(shù)據(jù)分析的專業(yè)顧問(wèn)公司D Tr

4、ends,服務(wù)生物技術(shù)、制藥及衛(wèi)生保健等機(jī)構(gòu)。,什么是生物信息學(xué) ?,生物信息學(xué),說(shuō)文解字:生物 + 信息 + 學(xué) (bioinformatics) biology + information + theory 廣義: 應(yīng)用信息科學(xué)的方法和技術(shù),研究生物體系和生物過(guò)程中信息的存貯、信息的內(nèi)涵和信息的傳遞,研究和分析生物體細(xì)胞、組織、器官的生理、病理、藥理過(guò)程中的各種生物信息,或者也可以說(shuō)成是生命科學(xué)中的信息科學(xué)。 狹義: 應(yīng)用信息科學(xué)的理論、方法和技術(shù),管理、分析和利用生物分子數(shù)據(jù)。,9,生物信息學(xué) 基本思想的產(chǎn)生,生物信息學(xué) 的迅速發(fā)展,二十世紀(jì) 50年代,二十世紀(jì) 80-90年代,生物科學(xué)

5、和 技術(shù)的 發(fā)展,人類基因組 計(jì)劃的 推動(dòng),二、生物信息學(xué)的發(fā)展歷史,10,(一)前基因組時(shí)代的生物信息學(xué),屬于生物物理學(xué)范疇的傳統(tǒng)生物信息學(xué)可以追溯到很久以前,如研究生物發(fā)光、生物電、生物磁和激素等信息物質(zhì)的傳遞現(xiàn)象及其相應(yīng)測(cè)定技術(shù)。以研究序列比對(duì)為標(biāo)志的現(xiàn)代生物信息學(xué)則起源于20世紀(jì)7080年代。 這一階段的主要成就包括核酸和蛋白質(zhì)序列的初步分析、生物學(xué)數(shù)據(jù)庫(kù)的建立以及檢索工具的開(kāi)發(fā)。例如Dayhoff的替換矩陣、Neelleman和Wunsch的序列比對(duì)(sequence alignment)及GenBank(由美國(guó)國(guó)立生物技術(shù)信息中心建立和維護(hù)的核酸與蛋白質(zhì)序列數(shù)據(jù)庫(kù))等大型數(shù)據(jù)庫(kù)的建

6、立,形成了生物信息學(xué)的雛形。,11,20世紀(jì)50年代,生物信息學(xué)開(kāi)始孕育 20世紀(jì)60年代,生物分子信息在概念上將計(jì)算 生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來(lái) 20世紀(jì)70年代,生物信息學(xué)的真正開(kāi)端(序列比對(duì)算法) 20世紀(jì)80年代初期,生物信息分析方法的發(fā)展 20世紀(jì)80年代以后,生物信息服務(wù)機(jī)構(gòu)和數(shù)據(jù)庫(kù) 20世紀(jì)90年代后 ,HGP促進(jìn)生物信息學(xué)的迅速發(fā)展,生物信息學(xué)的孕育和初步形成,12,1956: 美國(guó)田納西州首次召開(kāi)了“生物學(xué)中的理論研討會(huì)”; 1962: Zucherkandl和Pauling研究了序列變化與進(jìn)化的關(guān)系,開(kāi)創(chuàng)了一個(gè)新的領(lǐng)域分子進(jìn)化; 1967: Dayhoff研制出蛋白質(zhì)序列圖

7、集,即后來(lái)著名的蛋白質(zhì)信息源PIR; 1970: Needleman和Wunsch提出了著名的序列比對(duì)算法,是生物信息學(xué)發(fā)展中最重要的貢獻(xiàn); 1970: Gibbs和McIntyre發(fā)表著名的矩陣打點(diǎn)做圖法; 1978: Gingeras等人研制了核酸序列中酶切位點(diǎn)識(shí)別程序; 1981: Smith和Waterman提出了著名的公共子序列識(shí)別算法,同年Doolittle提出了關(guān)于序列模式的概念;,13,1982: GenBank第3版本正式發(fā)行; 1983: Wilbur和Lipman發(fā)表了數(shù)據(jù)庫(kù)相似序列搜索算法; 1986: 日本核酸序列數(shù)據(jù)庫(kù)DDBJ誕生; 1986: 蛋白質(zhì)數(shù)據(jù)庫(kù)SWIS

8、S-PROT誕生; 1988: 美國(guó)國(guó)家生物技術(shù)信息中心NCBI誕生; 1988: 成立歐洲分子生物學(xué)網(wǎng)絡(luò)(EMBNet),EMBL數(shù)據(jù)庫(kù)誕生; 1988: Person和Lipman發(fā)表了著名的序列比較算法FASTA; 1990: 快速相似性序列搜索算法BLAST問(wèn)世,1987年BLAST的改進(jìn)版本PSI-BLAST投入使用,14,(二)基因組時(shí)代的生物信息學(xué),以基因組計(jì)劃的實(shí)施為標(biāo)志的基因組時(shí)代(1990年至2001年)是生物信息學(xué)成為一個(gè)較完整的新興學(xué)科并得到高速發(fā)展的時(shí)期。這一時(shí)期生物信息學(xué)確立了自身的研究領(lǐng)域和學(xué)科特征,成為生命科學(xué)的熱點(diǎn)學(xué)科和重要前沿領(lǐng)域之一。 這一階段的主要成就包

9、括大分子序列以及表達(dá)序列標(biāo)簽(expressed sequence tag,EST)數(shù)據(jù)庫(kù)的高速發(fā)展、BLAST(basic local alignment search tool)和FASTA(fast alignment)等工具軟件的研制和相應(yīng)新算法的提出、基因的尋找與識(shí)別、電子克?。╥n silico cloning)技術(shù)等,大大提高了管理和利用海量數(shù)據(jù)的能力。,人類基因組計(jì)劃 (HGP,Human Genome Project) 目標(biāo):整體上破解人類遺傳信息的奧秘,由美國(guó)NIH和能源部提出和帶頭,美、英、德、法、日、中共同參與的國(guó)際合作項(xiàng)目。 重大國(guó)際研究項(xiàng)目:測(cè)定人類基因組全部DNA

10、序列,構(gòu)建人類基因組遺傳圖譜和物理圖譜。 1990年: 正式啟動(dòng),30億美元。 2001年:人類基因組草圖公開(kāi)發(fā)表。 2003年:美國(guó)宣布該項(xiàng)目完成。,HGP的歷史回顧,1984.12 猶他州阿爾塔組織會(huì)議,初步研討測(cè)定人類整個(gè)基 因組DNA序列的意義 1985 Dulbecco在Science撰文 “腫瘤研究的轉(zhuǎn)折點(diǎn):人 類基因組的測(cè)序” 美國(guó)能源部(DOE)提出“人類基因組計(jì)劃”草案 1987 美國(guó)能源部和國(guó)家衛(wèi)生研究院(NIH)聯(lián)合為“人類 基因組計(jì)劃”下?lián)軉?dòng)經(jīng)費(fèi)約550萬(wàn)美元 1989 美國(guó)成立“國(guó)家人類基因組研究中心”,Watson擔(dān)任 第一任主任 1990.10 經(jīng)美國(guó)國(guó)會(huì)批準(zhǔn),

11、人類基因組計(jì)劃正式啟動(dòng),第一個(gè)自由生物體流感嗜血菌(H. inf)的全基因組測(cè)序完成 1996 完成人類基因組計(jì)劃的遺傳作圖 啟動(dòng)模式生物基因組計(jì)劃,H.inf全基因組,Saccharomyces cerevisiae 釀酒酵母,Caenorhabditis elegans 秀麗線蟲(chóng),1997 大腸桿菌(E.coli)全基因組測(cè)序完成 1998 完成人類基因組計(jì)劃的物理作圖 開(kāi)始人類基因組的大規(guī)模測(cè)序 Celera公司加入,與公共領(lǐng)域競(jìng)爭(zhēng) 啟動(dòng)水稻基因組計(jì)劃 1999.7 第5屆國(guó)際公共領(lǐng)域人類基因組測(cè)序會(huì)議,加快測(cè)序速度,大腸桿菌及其全基因組,水稻基因組計(jì)劃,1999.7 第5屆國(guó)際公共領(lǐng)域

12、人類基因組測(cè)序會(huì)議,加快測(cè)序速度 2000 Celera公司宣布完成果蠅基因組測(cè)序 國(guó)際公共領(lǐng)域宣布完成第一個(gè)植物基因組擬南芥全基 因組的測(cè)序工作,Drosophila melanogaster 果蠅,Arabidopsis thaliana 擬南芥,2001年2月15日Nature封面,2001年2月16日Science封面,2000.6.26 公共領(lǐng)域和Celera公司同時(shí)宣布完成人類基因組工作草圖 2001.2.15 Nature刊文發(fā)表國(guó)際公共領(lǐng)域結(jié)果 2001.2.16 Science刊文發(fā)表Celera公司及其合作者結(jié)果,21,我國(guó)對(duì)人類基因組計(jì)劃的貢獻(xiàn),23,人類基因組計(jì)劃準(zhǔn)備用

13、15年時(shí)間投入30億美元,完成人全部24(22+X+Y)條染色體中3.2109個(gè)堿基對(duì)的序列測(cè)定,主要任務(wù)包括做圖(遺傳圖譜物理圖譜以及轉(zhuǎn)錄圖譜的繪制)、測(cè)序和基因識(shí)別,其根本任務(wù)是解讀和破譯生物體的生老病死以及與疾病相關(guān)的遺傳信息。,24,人類基因組,人類基因組的組成,線粒體基因組(16.6kb),細(xì)胞核基因組(3200Mb),基因外序列,基因和基因有關(guān)序列,約10%,約90%,專一或中等重復(fù)序列,Non-coding DNA,假基因,內(nèi)含子,基因片段,10%,90%,專一的或低 拷貝數(shù)序列,中度至高度重復(fù)序列,2030%,7080%,分散重復(fù)序列,串聯(lián)重復(fù)序列/ 成簇重復(fù)序列,約60%,約

14、40%,蛋白編碼 基因,rRNA 基因,tRNA 基因,Coding DNA,估計(jì)10萬(wàn)最初公布3.5萬(wàn)目前研究確定2.45萬(wàn),25,生物信息學(xué)的研究,結(jié)構(gòu)基因組學(xué)時(shí)期,26,主要的數(shù)據(jù)庫(kù)資源,核酸序列數(shù)據(jù)庫(kù)主要有GenBank, EMBL, DDBJ等. 蛋白質(zhì)序列數(shù)據(jù)庫(kù)主要有SWISS-PROT, PIR, TrEMBL等, 蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)有PDB, MMDB等, 與基因組有關(guān)的數(shù)據(jù)庫(kù)還有dbEST, OMIM等,,27,3大核酸數(shù)據(jù)庫(kù),基因組數(shù)據(jù)庫(kù)的相關(guān)背景 主要的基因組數(shù)據(jù)庫(kù)資源 重點(diǎn)介紹GenBank,28,三大基因數(shù)據(jù)庫(kù),GenbankGenbank庫(kù)包含了所有已知的核酸序列和蛋白

15、質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(The National Center for Biotechnology Information, NCBI)建立和維護(hù)的。NCBI的網(wǎng)址是:。 EMBL(The European Molecular Biology Laboratory )核酸序列數(shù)據(jù)庫(kù)由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成,查詢檢索可以通過(guò)通過(guò)因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。數(shù)據(jù)庫(kù)網(wǎng)址是:http:/www.ebi.ac.uk/embl/。 DDBJ(DNA Data

16、 Bank of Japan)數(shù)據(jù)庫(kù)日本DNA數(shù)據(jù)倉(cāng)庫(kù)(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫(kù),與Genbank和EMBL核酸庫(kù)合作交換數(shù)據(jù)。使用其主頁(yè)上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析。DDBJ的網(wǎng)址是:http:/www.ddbj.nig.ac.jp/。,29,GenBank,Public free Available via Internet,EMBL Data Library,DDBJ (DNA Data Bank of Japan),三大基因數(shù)據(jù)庫(kù)之間的關(guān)系,30,/,http:/www.ddbj.nig.ac.jp/sear

17、ches-e.html,http:/www.ebi.ac.uk/embl/,31,美國(guó)的核酸數(shù)據(jù)庫(kù)GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7從1979年開(kāi)始建設(shè),1982年正式運(yùn)行。,32,33,歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL數(shù)據(jù)庫(kù)也于1982年開(kāi)始服務(wù)。,34,35,日本于1984年開(kāi)始建立國(guó)家級(jí)的核酸數(shù)據(jù)庫(kù)DDBJ,并于1987年正式服務(wù)。,36,37,蛋白質(zhì)數(shù)據(jù)庫(kù),38,主要的數(shù)據(jù)庫(kù)資源,核酸序列數(shù)據(jù)庫(kù)主要有GenBank, EMBL, DDBJ等. 蛋白質(zhì)序列數(shù)據(jù)庫(kù)主要有SWISS-PROT, PIR, TrE

18、MBL等, 蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)有PDB, MMDB等, 與基因組有關(guān)的數(shù)據(jù)庫(kù)還有dbEST, OMIM等,,39,60年代“蛋白質(zhì)信息資源”(Protein Information Resource,簡(jiǎn)稱PIR)雛形產(chǎn)生 1984年,“蛋白質(zhì)信息資源” 計(jì)劃正式啟動(dòng),蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR也因此而誕生。 1988年,美國(guó)的NBRF、日本的國(guó)際蛋白質(zhì)信息數(shù)據(jù)庫(kù)JIPID和德國(guó)的慕尼黑蛋白質(zhì)序列信息中心MIPS合作成立了國(guó)際蛋白質(zhì)信息中心(PIR-International),共同收集和維護(hù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR。,40,PIR(protein information resource) 1. 由美國(guó)

19、NCBI翻譯自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank數(shù)據(jù)庫(kù)上均建立了鏡像站點(diǎn); 3. 數(shù)據(jù)依據(jù)注釋的質(zhì)量分為4類。 網(wǎng)址: /,PIR數(shù)據(jù)庫(kù)的分類情況(Release 51.03),41,42,除了PIR外,另一個(gè)重要的蛋白質(zhì)序列數(shù)據(jù)庫(kù)則是SwissProt。 該數(shù)據(jù)庫(kù)由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建,目前由瑞士生物信息學(xué)研究所和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和管理。,43,SWISSPROT 1. 瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系和歐洲生物信息學(xué)研究所(EBI)合作維護(hù)(1986年); 2. 在

20、EMBL和GenBank數(shù)據(jù)庫(kù)上均建立了鏡像站點(diǎn); 3. 數(shù)據(jù)庫(kù)包括了從EMBL翻譯而來(lái)的蛋白質(zhì)序列,這些序列經(jīng)過(guò)檢驗(yàn)和注釋; SWISS-PROT的網(wǎng)址: /sprot,44,45,PIR和SwissProt是創(chuàng)建最早、使用最為廣泛的兩個(gè)蛋白質(zhì)數(shù)據(jù)庫(kù)。 蛋白質(zhì)序列數(shù)據(jù)庫(kù)TrEMBL是從EMBL中的cDNA序列翻譯得到的。該數(shù)據(jù)庫(kù)采用SwissProt數(shù)據(jù)庫(kù)格式,包含EMBL數(shù)據(jù)庫(kù)中所有編碼序列的翻譯。 TrEMBL: /news/2004/03/02/full,46,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),47,主要的數(shù)據(jù)庫(kù)資源,核酸

21、序列數(shù)據(jù)庫(kù)主要有GenBank, EMBL, DDBJ等. 蛋白質(zhì)序列數(shù)據(jù)庫(kù)主要有SWISS-PROT, PIR, TrEMBL等, 蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)有PDB, MMDB等, 與基因組有關(guān)的數(shù)據(jù)庫(kù)還有dbEST, OMIM等,,48,PDB(protein data bank) 1. 目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫(kù); 2. 1970年代建立,美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室維護(hù)管理; 3. 1988年,由美國(guó)RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放數(shù)據(jù),包括原子坐標(biāo)、物種來(lái)源、測(cè)定方法、提交者信息、一級(jí)

22、結(jié)構(gòu)、二級(jí)結(jié)構(gòu)等; PDB的網(wǎng)址:/pdb(美國(guó)),49,50,(三)后基因組時(shí)代的生物信息學(xué),隨著人類基因組計(jì)劃的順利進(jìn)行,人類全基因組測(cè)序工作已經(jīng)完成。測(cè)序工作的完成并不代表基因組計(jì)劃的結(jié)束,相反標(biāo)志著“后基因組信息學(xué)”的開(kāi)始。基因組學(xué)研究也由結(jié)構(gòu)基因組轉(zhuǎn)向了功能基因組的研究,通過(guò)對(duì)基因組的分析來(lái)了解生物體的功能成為后基因組時(shí)代的主要目標(biāo)。,51,后基因組研究對(duì)象的多層次性,后基因組研究對(duì)象是多層次的,人們從包括轉(zhuǎn)錄組 (Transcriptome)、蛋白質(zhì)組(Proteome)、相互作用組(Interactome)、定位組(Localizome)、折疊

23、子組(foldome)、代謝組(Metabolome)、表型組(Phenome)等方面,從組的角度研究各類生物學(xué)過(guò)程。如果說(shuō)基因組問(wèn)題涉及遺傳圖譜(Genetic map)、限制性圖譜(Restriction map)和物理圖譜(Physical map),那么其它的組學(xué)涉及功能圖譜(Functional maps)。,52,轉(zhuǎn)錄組學(xué)研究,轉(zhuǎn)錄組學(xué)(transcriptomics),是一門在整體水平上研究細(xì)胞中基因轉(zhuǎn)錄的情況及轉(zhuǎn)錄調(diào)控規(guī)律的學(xué)科。簡(jiǎn)而言之,轉(zhuǎn)錄組學(xué)是從RNA水平研究基因表達(dá)的情況。轉(zhuǎn)錄組即一個(gè)活細(xì)胞所能轉(zhuǎn)錄出來(lái)的所有RNA的總和,是研究細(xì)胞表型和功能的一個(gè)重要手段。,53,54

24、,基因組對(duì)生命體的整體控制必須通過(guò)它所表達(dá)的全部蛋白質(zhì)來(lái)執(zhí)行,由于基因芯片技術(shù)只能反映從基因組到RNA的轉(zhuǎn)錄水平上的表達(dá)情況,由于從RNA到蛋白質(zhì)還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術(shù)我們還不能最終掌握生物功能具體執(zhí)行者蛋白質(zhì)的整體表達(dá)狀況; 近幾年在發(fā)展基因芯片的同時(shí),人們也發(fā)展了一套研究基因組所有蛋白質(zhì)產(chǎn)物表達(dá)情況蛋白質(zhì)組研究技術(shù),從技術(shù)上來(lái)講包括二維凝膠電泳技術(shù)和質(zhì)譜測(cè)序技術(shù)。通過(guò)二維凝膠電泳技術(shù)可以獲得某一時(shí)間截面上蛋白質(zhì)組的表達(dá)情況,通過(guò)質(zhì)譜測(cè)序技術(shù)就可以得到所有這些蛋白質(zhì)的序列組成。這些都是技術(shù)實(shí)現(xiàn)問(wèn)題,最重要的就是如何運(yùn)用生物信息學(xué)理論方法去分析所得到的巨量數(shù)據(jù),從中還原出

25、生命運(yùn)轉(zhuǎn)和調(diào)控的整體系統(tǒng)的分子機(jī)制。,蛋白質(zhì)組研究,55,蛋白質(zhì)組研究,56,三、生物信息學(xué)的主要研究?jī)?nèi)容,1、生物分子數(shù)據(jù)的收集與管理 2、數(shù)據(jù)庫(kù)搜索及序列比較 3、基因組序列分析 4、基因表達(dá)數(shù)據(jù)的分析與處理 5、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),57,GenBank數(shù)據(jù)文件格式 GBFF,Genbank flat file (Genbank純文本文件),58,頭部:描述區(qū),59,GenBank數(shù)據(jù)文件格式,子庫(kù),Locus名字,定義 (標(biāo)題),修改日期,序列類型 mRNA (= cDNA) rRNA snRNA DNA,序列長(zhǎng)度,檢索號(hào),Genbank號(hào),序列形狀,60,GenBank的數(shù)據(jù)類型,61,物

26、種來(lái)源,作者,雜志或單位,測(cè)序方式,62,中部:注釋區(qū),63,GenBank數(shù)據(jù)文件格式,尾部:核酸序列,64,FASTA格式,65,NCBI文獻(xiàn)檢索 開(kāi)放閱讀框架查詢,66,UTR的含義是( )。 A. 編碼區(qū) B. 非編碼區(qū) C. 低復(fù)雜度區(qū)域 D. 開(kāi)放閱讀框,B,Untranslated Regions,67,algorithm的含義是( )。 A. 登錄號(hào) B. 算法 C. 比對(duì) D. 類推,B,68,alignment的含義是( )。 A. 登錄號(hào) B. 算法 C. 比對(duì) D. 類推,C,69,analogy的含義是( )。 A. 登錄號(hào) B. 算法 C. 比對(duì) D. 類推,D,7

27、0,contig的含義是( )。 A. 基序 B. 疊連群 C. 堿基對(duì) D. 結(jié)構(gòu)域,B,71,RGP是( )。 A. 在線人類孟德?tīng)栠z傳數(shù)據(jù) B. 國(guó)家核酸數(shù)據(jù)庫(kù) C. 人類基因組計(jì)劃 D. 水稻基因組計(jì)劃,D,72,下列FASTA格式正確的是( )。 A. seq1: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgc

28、tggctttgatgaaaactctaactaaacactccctta D. seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta,B,73,如果我們?cè)噲D做蛋白質(zhì)亞細(xì)胞定位分析,應(yīng)使用( )。 A. NDB數(shù)據(jù)庫(kù) B. PDB數(shù)據(jù)庫(kù) C. GenBank數(shù)據(jù)庫(kù) D. SWISS-PROT數(shù)據(jù)庫(kù),D,74,GenBank中分類碼PLN表示是( )。 A. 哺乳類序列 B. 細(xì)菌序列 C. 噬菌體序列 D. 植物、真菌和藻類序列,D,75,從cDNA文庫(kù)中獲得的短序列是( )。 A. STS (sequence-tagg

29、ed site) B. UTR (untranslated region) C. CDS (coding sequence) D. EST (expressed sequence tag),D,76,TAIR數(shù)據(jù)庫(kù)是( )。 A. 線蟲(chóng)基因組 B. 果蠅基因組 C. 擬南芥數(shù)據(jù)庫(kù) D. 大腸桿菌基因組,C,The Arabidopsis Information Resource,77,ORF的含義是( )。 A. 調(diào)控區(qū) B. 非編碼區(qū) C. 低復(fù)雜度區(qū)域 D. 開(kāi)放閱讀框,D,(open reading frame),78,mRNA 5端有( )結(jié)構(gòu)。 A. 帽子 B. 尾巴 C. 帽子和尾

30、巴 D. 多聚核苷酸,A,79,mRNA 3端有( )結(jié)構(gòu)。 A. 帽子 B. 尾巴 C. 帽子和尾巴 D. 多聚胞嘧啶,B,80,目前應(yīng)用于基因芯片表達(dá)數(shù)據(jù)統(tǒng)計(jì)分析的主要方法是( )。 A. 卡方檢驗(yàn) B. 相關(guān)分析 C. 聚類分析 D. 正態(tài)性分布檢驗(yàn),C,81,SAGE的含義是( )。 A. 基因表達(dá)連續(xù)分析 B. 聚丙烯酰胺凝膠電泳 C. 基因組分析 D. 雙向電泳分析,A,(Serial Analysis of Gene Expression,SAGE),(polyacrylamide gelelectrophoresis, PAGE),(two-dimensional electr

31、ophoresis, 2-DE),82,domain的含義是( )。 A. 基序 B. 跨疊克隆群 C. 堿基對(duì) D. 結(jié)構(gòu)域,D,83,NCBI中人類無(wú)冗余基因數(shù)據(jù)庫(kù)是( )。 A. UniGene B. UniPro C. UniRef D. URF,A,84,Entrez使用幾種邏輯運(yùn)算符對(duì)檢索關(guān)鍵詞做最基本的限制?( ) A. 1種 B. 2種 C. 3種 D. 4種,C,(AND, OR, NOT),85,微衛(wèi)星標(biāo)記是( )。 A. RFLP B. SNP C. SSR D. RAPD,C,(Restriction Fragment Length Polymorphism, 限制性內(nèi)

32、切酶片段長(zhǎng)度多態(tài)性),(Single Nucleotide Polymorphisms, 單核苷酸多態(tài)性),(Simple Sequence Repeats),(Random Amplified Polymorphic DNA, 隨機(jī)擴(kuò)增多態(tài)性DNA標(biāo)記),86,提交序列到GenBank中,使用的程序可以是( )。 A. Entrez B. SRS C. Medline D. BankIt,D,(Sequence Retrieval System,)是EMBL研制的一個(gè)基于WEB的查詢系統(tǒng),也是目前國(guó)際上最有影響的生物分子數(shù)據(jù)庫(kù)查詢系統(tǒng)之一),87,PDB是蛋白質(zhì)的( )。 A. 分類數(shù)據(jù)庫(kù)

33、B. 結(jié)構(gòu)數(shù)據(jù)庫(kù) C. 模體數(shù)據(jù)庫(kù) D. 結(jié)構(gòu)域數(shù)據(jù)庫(kù),B,88,限制性片段長(zhǎng)度多態(tài)性標(biāo)記是( )。 A. RFLP B. SNP C. SSR D. RAPD,A,89,CDS的含義是( )。 A. 編碼區(qū) B. 非編碼區(qū) C. 低復(fù)雜度區(qū)域 D. 非調(diào)控區(qū),A,(Codingsequence),90,構(gòu)建進(jìn)化樹(shù)工具是( )。 A. BLAST B. ClustalW C. Mega D. GCG,C,91,在真核生物中,一個(gè)基因cDNA 的5端起始密碼子AUG的前后序列符合( )規(guī)則。 A. Kozak B. AUAG C. SD D. Poly(A)n,(Kozak序列是位于真核生物mR

34、NA 5端帽子結(jié)構(gòu)后面的一段核酸序列,通常是ACCACCATGG,它可以與翻譯起始因子結(jié)合而介導(dǎo)含有5帽子結(jié)構(gòu)的mRNA翻譯起始。),A,92,在真核生物的一個(gè)基因內(nèi)含子兩端,即外顯子/內(nèi)含子拼接邊界處,其符合( )規(guī)則。 A. Kozak B. GUAG C. SD D. Poly(A)n,B,93,下列序列中起始密碼子,終止密碼子,可能的內(nèi)含子 5gauguucgucccggagaaccaugggcgcguacaucggauucgaagcuccacugaggcu-3,起始密碼子:AUG 終止密碼子:UAA, UGA, UAG,94,基本局部比對(duì)搜素工具是( )。 A. Mega B. Cl

35、ustalW C. BLAST D. GCG,The Basic Local Alignment Search Tool,C,95,將核酸序列按照6條鏈翻譯成蛋白質(zhì)序列后搜索蛋白質(zhì)序列數(shù)據(jù)庫(kù)使用的程序是( )。 A. blastp B. blastx C. tblastn D. tblastx E. blastn,(使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)行比較),(將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)行比對(duì)),(將給定的氨基酸序列與核酸數(shù)據(jù)庫(kù)中的序列(雙鏈)按不同的閱讀框進(jìn)行比對(duì)),(將庫(kù)和待查核酸序列都翻譯成蛋白序列, 然后對(duì)蛋白序列進(jìn)行比對(duì)),(將給定的

36、核酸序列與核酸數(shù)據(jù)庫(kù)中的序列進(jìn)行比較),B,96,97,被譽(yù)為“生物信息學(xué)之父”的科學(xué)家是( )。 A. Dulbecco B. Sanger C. 吳瑞 D. 林華安1955年出生于馬來(lái)西亞,1987年,林華安博士正式命名生物信息學(xué)(bioinformatics),D,98,DDBJ的含義是( )。 A. 美國(guó)國(guó)家生物信息中心 B. 歐洲分子生物學(xué)實(shí)驗(yàn)室 C. 日本DNA數(shù)據(jù)庫(kù) D. 中國(guó)基因組研究中心,C,99,單核苷酸標(biāo)記是( )。 A. RFLP B. SNP C. SSR D. RAPD,B,(single nueleotide polymorphism,SNP),100,GenBa

37、nk數(shù)據(jù)庫(kù)的基本信息單位是( )。 A. FASTA B. GBFF C. GCG D. ASN.1,B,(GenBank Flat File),101,OMIM是( )。 A. 在線人類孟德?tīng)栠z傳數(shù)據(jù)庫(kù) B. 國(guó)家核酸數(shù)據(jù)庫(kù) C. 人類基因組計(jì)劃 D. 國(guó)際水稻基因組測(cè)序計(jì)劃,A,(Online Mendelian Inheritance in Man),(human genome project, HGP),( International Rice Genome Sequencing Project , IRGSP),102,沒(méi)有直接參與完成人類基因組計(jì)劃的國(guó)家是( )。 A. 英國(guó) B.

38、 中國(guó) C. 俄羅斯 D. 德國(guó),C,美國(guó)、英國(guó)、法國(guó)、德國(guó)、日本和中國(guó),103,EMBL的含義是( )。 A. 美國(guó)國(guó)家生物信息中心 B. 歐洲分子生物學(xué)實(shí)驗(yàn)室 C. 日本DNA數(shù)據(jù)庫(kù) D. 中國(guó)國(guó)家基因組研究中心,B,(National Center for Biotechnology Information, NCBI),(The European Molecular Biology Laboratory, EMBL),(DNA Data Bank of Japan, DDBJ),104,accession number的含義是( )。 A. 登錄號(hào) B. 算法 algorithm C.

39、 比對(duì) alignment D. 類推 analogy,A,105,EST的含義是( )。 A. 表達(dá)序列標(biāo)簽 B. 序列標(biāo)簽位點(diǎn) C. 高通量基因組序列 D. 人工合成序列,A,(expressed sequence tag),(sequence-tagged site),106,Blast結(jié)果中HSP的含義是( )。 A. 空位 B. 期望值 C. 過(guò)濾 D. 高分配對(duì)片段,D,(high-scoring segment pairs),107,Proteomics的含義是( )。 A. 生物信息學(xué) B. 基因組學(xué) C. 蛋白質(zhì)組學(xué) D. 表觀遺傳學(xué),C,genomics,108,根據(jù)大量E

40、ST具有相互重疊的性質(zhì),通過(guò)計(jì)算機(jī)算法獲得cDNA全長(zhǎng)序列,這種克隆基因的方法是( )。 A. 重疊克隆 B. 電子克隆 C. 基因步移 D. 基因重組,B,109,隱馬爾科夫模型的代號(hào)是( )。 A. HMM B. CDD C. HTGS D. GSS,(Hidden Markov Model, HMM),A,(Conserved Domain Database, CDD, 保守結(jié)構(gòu)域數(shù)據(jù)庫(kù)),(high-throughput genome sequence, 高通量基因組序列),(Genome Survey Sequence database, 基因組勘測(cè)序列數(shù)據(jù)庫(kù)),110,構(gòu)建系統(tǒng)發(fā)生

41、樹(shù),應(yīng)使用( )。 A. BLAST B. FASTA C. UPGMA D. FTP,C,111,一類是基于距離的構(gòu)建方法,利用所有物種或分類單元間的進(jìn)化距離,依據(jù)一定的原則及算法構(gòu)建系統(tǒng)發(fā)生樹(shù)?;舅悸肥橇谐鏊锌赡艿男蛄袑?duì),計(jì)算序列之間的遺傳距離,選出相似程度比較大或非常相關(guān)的序列對(duì),利用遺傳距離預(yù)測(cè)進(jìn)化關(guān)系。這類方法有非加權(quán)分組平均法(unweighted pair group method with arithmetic means, UPGMA)、鄰近歸并法(neighbor joining method, NJ)、Fitch-Margoliash法、最小進(jìn)化方法(minimum evolution)等。 另一類方法是基于離散特征的構(gòu)建方法,利用的是具有離散特征狀態(tài)的數(shù)據(jù),如DNA序列中的特定位點(diǎn)的核苷酸。建樹(shù)時(shí),著重分析分類單位或序列間每個(gè)特征(如核苷酸位點(diǎn))的進(jìn)化關(guān)系等。屬于這一類的方法有最大簡(jiǎn)約法(maximum parsimony method)、最大似然法(maximum l

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論