序列比較生物學(xué)基礎(chǔ)_第1頁
序列比較生物學(xué)基礎(chǔ)_第2頁
序列比較生物學(xué)基礎(chǔ)_第3頁
序列比較生物學(xué)基礎(chǔ)_第4頁
序列比較生物學(xué)基礎(chǔ)_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、序列比較生物學(xué)基礎(chǔ)序列比較的生物學(xué)基礎(chǔ)構(gòu)成生命的基本單位是蛋白質(zhì)。而作為在細胞中催化各種化學(xué)反應(yīng)的分子機器的酶,也是蛋白質(zhì)。另外,細胞的許多結(jié)構(gòu)也是蛋白質(zhì)組成的。連非蛋白質(zhì)的構(gòu)成部分也是由屬于蛋白質(zhì)的酶所催化生產(chǎn)的。一個人體含有大約100,000種不同的蛋白質(zhì),正是這100,000種蛋白質(zhì)的特性及其相互作用使我們無所不能。序列比較的生物學(xué)基礎(chǔ)蛋白質(zhì)由20種氨基酸組成的多肽折疊而成。蛋白質(zhì)由20種不同的氨基酸組成不同長度的聚合體,也稱為肽或多肽。由這種線性拓樸結(jié)構(gòu)的聚合體折疊起來產(chǎn)生形狀各異的不同蛋白質(zhì),不同的形狀以及20種氨基酸的化學(xué)特性決定了蛋白質(zhì)的功能?,F(xiàn)代生物學(xué)中的一個很主要的概念是,蛋

2、白質(zhì)的功能特性主要決定于線性多肽鏈中20種氨基酸的序列。由于大多數(shù)蛋白質(zhì)都是自身折疊而成,所以理論上知道了一個蛋白質(zhì)的序列后即可推導(dǎo)出其功能。序列比較的生物學(xué)基礎(chǔ)什么決定蛋白質(zhì)的氨基酸序列?分子生物學(xué)的中心內(nèi)容就是描述我們從父母獲得的遺傳信息是如何儲存于DNA中,它們是如何被用于復(fù)制相同的DNA副本,如何從DNA轉(zhuǎn)錄到RNA再翻譯到蛋白質(zhì)的。序列比較的生物學(xué)基礎(chǔ)DNA由4種脫氧核苷酸組成:ATGC。DNA是由4種脫氧核苷酸形成的線性多聚體,這4種核苷酸是:腺嘌呤脫氧核苷單磷酸 (deoxyAdenosine monophosphate, A)、胸腺嘧啶脫氧核苷單磷酸 (deoxyThymidi

3、ne monophosphate, T)、鳥嘌呤脫氧核苷單磷酸 (deoxyGuanosine monophosphate, G)、胞嘧啶脫氧核苷單磷酸 (deoxyCytidine monophosphate, C)。序列比較的生物學(xué)基礎(chǔ)RNA則是由A、U、G、C,4種核苷酸形成的相似線性多聚體,這4種核苷酸是:腺嘌呤核苷單磷酸(Adenosine monophosphate, A)、尿嘧啶核苷單磷酸(Uridine monophosphate, U)、鳥嘌呤核苷單磷酸(Guanosine monophosphate, G)胞嘧啶核苷單磷酸(Cytidine monophosphate, C

4、)。序列比較的生物學(xué)基礎(chǔ)DNA和RNA的重要特征:互相配對DNA和RNA的一個重要特征是線性多聚體可以互相配對,其配對是序列特異的,由此而形成的雙鏈聚合體因其特殊的形狀而被稱為“雙螺旋”(double helix)。雙鏈中G與C配對,A與T或U配對,其中一鏈可以作為合成另一鏈的模板,這就是DNA復(fù)制以至所有遺傳學(xué)的基礎(chǔ)。由DNA轉(zhuǎn)錄為RNA也使用類似的模板合成方式,而由RNA序列轉(zhuǎn)化為蛋白質(zhì)序列則較為復(fù)雜,這是通過三聯(lián)密碼子翻譯成氨基酸的過程完成的,這一過程有轉(zhuǎn)移RNA和核糖體(tRNA和ribosomes)的參與。序列比較的生物學(xué)基礎(chǔ)遺傳密碼三聯(lián)子 mRNA上每3個核苷酸翻譯成蛋白質(zhì)多肽鏈上

5、的一個氨基酸,這3個核苷酸就稱為一個密碼,也叫三聯(lián)子密碼。翻譯時從起始密碼子AUG開始,沿mRNA53的方向連續(xù)閱讀直到終止密碼子,生成一條具有特定序列的多肽鏈。 mRNA中只有4種核苷酸,而蛋白質(zhì)中有20種氨基酸,若以一種核苷酸代表一種氨基酸,只能代表4種(41=4)。若以兩種核苷酸作為一個密碼(二聯(lián)子),能代表42=16種氨基酸。而假定以3個核苷酸代表一個氨基酸,則可以有43=64種密碼,滿足了編碼20種氨基酸的需要。序列比較的生物學(xué)基礎(chǔ)4種核苷酸組成64個三聯(lián)密碼子。4種核苷酸可以組成64個不同的三聯(lián)密碼子(triplet codes),用于編碼20種氨基酸綽綽有余。其中三個為終止密碼子

6、,代表多肽序列的末端,一種氨基酸可以由16個三聯(lián)密碼子編碼。由多個密碼子編碼的氨基酸,不同密碼子的使用頻率并不相等,這種使用頻率的不同分布稱為“密碼子偏好”(coden usage)。不同種的生物密碼子偏好不同。序列比較的生物學(xué)基礎(chǔ)4種核苷酸組成61個編碼氨基酸的密碼子和3個終止密碼子,它們不能與tRNA的反密碼子配對,但能被終止因子或釋放因子識別,終止肽鏈的合成。由一種以上密碼子編碼同一個氨基酸的現(xiàn)象稱為簡并(degeneracy),對應(yīng)于同一氨基酸的密碼子稱為同義密碼子(synonymous codon)。 序列比較的生物學(xué)基礎(chǔ)形成6個開放讀碼框 由于氨基酸是由三聯(lián)密碼子編碼的,因此DNA

7、序列就包含三個不同的開放讀碼框,取決于從第一、第二或第三位核苷酸開始(第四位和第一位同框)。而雙鏈DNA的兩條鏈都可以轉(zhuǎn)錄RNA,后者翻譯蛋白質(zhì)。因此,一個DNA序列及其互補鏈可以有6個不同的讀碼框(reading frames)。序列比較的生物學(xué)基礎(chǔ)基因一般概念 基因作為唯一能夠自主復(fù)制、永久存在的單位,其生理學(xué)功能以蛋白質(zhì)形式得到表達。DNA序列是遺傳信息的貯存者,它通過自主復(fù)制得到永存,并通過轉(zhuǎn)錄生成mRNA,翻譯生成蛋白質(zhì)的過程控制所有生命現(xiàn)象。編碼鏈(coding strand)又稱sense strand,是指與mRNA序列相同的那條鏈。非編碼鏈(anticoding strand

8、),又稱antisense strand,是指那條根據(jù)堿基互補原則指導(dǎo)mRNA生物合成的DNA鏈。序列比較的生物學(xué)基礎(chǔ)基因表達的一般概念 基因表達包括轉(zhuǎn)錄(transcription)和翻譯(translation)兩個階段。轉(zhuǎn)錄是指拷貝出一條與DNA鏈序列完全相同(除了TU之外)的RNA單鏈的過程,是基因表達的核心步驟。翻譯是指以新生的mRNA為模板,把核苷酸三聯(lián)子遺傳密碼翻譯成氨基酸序列、合成蛋白質(zhì)多肽鏈的過程,是基因表達的最終目的。只有mRNA所攜帶的遺傳信息才被用來指導(dǎo)蛋白質(zhì)生物合成,所以人們一般用U、C、A、G這4種核苷酸而不是T、C、A、G的組合來表示遺傳性狀。序列比較的生物學(xué)基礎(chǔ)

9、序列測定??梢杂没瘜W(xué)方法測定蛋白質(zhì)的氨基酸序列以及DNA和RNA的核苷酸序列??墒?,就目前來說,測定DNA的核苷酸序列比測定RNA序列和蛋白質(zhì)序列容易的多。由于蛋白質(zhì)序列可以由編碼它的DNA序列推導(dǎo)出來,許多已知的蛋白質(zhì)序列其實就是從DNA序列推導(dǎo)出來的。將mRNA轉(zhuǎn)為DNA(cDNA)是一個簡單的實驗技術(shù),因此RNA分子的序列通常是以cDNA序列測定的。序列分析其實就是從已知蛋白質(zhì)、RNA、DNA序列作出生物學(xué)推論的過程。序列分析的困難技術(shù)欠缺DNA非編碼區(qū)比編碼區(qū)多編碼區(qū)不連續(xù):內(nèi)含子、外顯子mRNA非編碼區(qū)、tRNA、SnRNA從DNA序列推導(dǎo)蛋白質(zhì)序列從蛋白質(zhì)序列推導(dǎo)結(jié)構(gòu)和功能二級結(jié)構(gòu)

10、:alpha helix、beta sheet超級二級結(jié)構(gòu)、三級結(jié)構(gòu)、四級結(jié)構(gòu)為什么結(jié)構(gòu)命名如此復(fù)雜?結(jié)構(gòu)決定功能、實驗方法欠缺蛋白質(zhì)三級結(jié)構(gòu)推導(dǎo)的基礎(chǔ)目前不能從結(jié)構(gòu)推導(dǎo)功能序列分析的困難技術(shù)欠缺。盡管從理論上來說,知道一個蛋白質(zhì)的序列后,完全可以推導(dǎo)出它的特性,可是目前的生物學(xué)技術(shù)還遠遠不能做到這一點。當(dāng)前的序列分析手段實際能做的與希望做到的還相去甚遠。下面就談?wù)勑蛄蟹治隼щy在哪里。另外,上面也已提到,由于蛋白質(zhì)序列測定的困難,目前大多數(shù)的蛋白質(zhì)序列其實都是由編碼它的DNA推導(dǎo)出來的。遺憾的是,從DNA轉(zhuǎn)錄RNA再翻譯蛋白質(zhì)的細胞學(xué)途徑所具有的特點使這種推導(dǎo)難度大增。序列分析的困難DNA非編

11、碼區(qū)比編碼區(qū)多。許多蛋白質(zhì)是由一個片段的DNA編碼的,所以當(dāng)分析DNA序列時,生物學(xué)家只需要知道蛋白質(zhì)編碼區(qū)從哪里開始,到哪里結(jié)束。然而在人類基因組中情況就不是那么簡單了,因為人類基因組中包含著遠遠多于編碼區(qū)的非編碼區(qū)序列,隨機獲取的一個片段很可能并不編碼任何蛋白質(zhì)。序列分析的困難編碼區(qū)不連續(xù):內(nèi)含子、外顯子。編碼蛋白質(zhì)的DNA并不是連續(xù)的,而是在其中分布有許多叫做“內(nèi)含子”的分隔區(qū)。大多數(shù)情況下,這個問題可以通過測定mRNA(cDNA)的序列來解決,因為cDNA中所含的非編碼的額外部分很少,而原來被分隔開的外顯子(exons)在mRNA(cDNA) 中已經(jīng)被連接成為一個連續(xù)的片段。當(dāng)然,在某

12、些特殊情況下,難以分析RNA而只能分析DNA本身。序列分析的困難mRNA非編碼區(qū)、tRNA、SnRNA。雖然RNA分子中編碼蛋白質(zhì)的區(qū)域相對非編碼區(qū)的比例遠大于DNA分子,然而RNA分子中也還存在非編碼區(qū),如編碼區(qū)的上游和下游,有時甚至比編碼區(qū)還大。許多RNA分子并不編碼任何蛋白質(zhì)。例如,核糖體RNA(Ribosomal RNA, rRNA),轉(zhuǎn)移RNA(transfer RNA, tRNA)以及一些核仁小分子RNA(small nuclear ribonucleoproteins, SnRNA)等就屬于非編碼的RNA。序列分析的困難從DNA序列推導(dǎo)蛋白質(zhì)序列。就目前來說,從DNA序列推導(dǎo)編碼

13、的蛋白質(zhì)序列還沒有一個總體的、通用的、完全的解決辦法。不過,通過各種計算方法以及一些實驗生物學(xué),人們已經(jīng)比較成功的做到這一點。目前,這個問題仍然是計算生物學(xué)最重要的問題之一。序列分析的困難從蛋白質(zhì)序列推導(dǎo)結(jié)構(gòu)和功能。當(dāng)我們得到一個蛋白質(zhì)序列之后,從序列推導(dǎo)它的結(jié)構(gòu)和功能遇到的困難更大。上面提過,蛋白質(zhì)的結(jié)構(gòu)是通過多肽鏈本身的折疊,有時還有多個多肽鏈的組合。這種折疊通過組成肽鏈的氨基酸內(nèi)部的化學(xué)鍵的轉(zhuǎn)動和氨基酸之間肽鍵的轉(zhuǎn)動而達成。遺憾的是,折疊的可能方式實際上是無限多的。為了幫助解決這一棘手問題,生物學(xué)家們將蛋白質(zhì)的結(jié)構(gòu)特征分成了等級。一級結(jié)構(gòu)指的是蛋白質(zhì)中氨基酸的序列(primary str

14、ucture),這是我們已經(jīng)知道的。序列分析的困難二級結(jié)構(gòu):alpha helix、beta sheet。幾十年前,人們發(fā)現(xiàn)多肽鏈可以形成有規(guī)則的結(jié)構(gòu),也就是在不同的多肽中都會形成一些相同形狀的結(jié)構(gòu)。其中之一是螺旋,被稱為a-螺旋(alpha helix);另一種形狀是多肽鏈來回折疊所產(chǎn)生的片狀面,這個結(jié)構(gòu)被稱為b-折疊(beta sheet)。它們形成蛋白質(zhì)的二級結(jié)構(gòu)。也有一些多肽根本不形成這種規(guī)則結(jié)構(gòu),事實上,大多數(shù)較長的多肽鏈在不同區(qū)域折疊成不同的二級結(jié)構(gòu)。序列分析的困難超級二級結(jié)構(gòu)、三級結(jié)構(gòu)、四級結(jié)構(gòu)。上面描述的肽鏈環(huán)繞形成a-螺旋和前后折疊形成b-片層都屬于簡單和規(guī)則的結(jié)構(gòu),還有一些

15、比較復(fù)雜的結(jié)構(gòu),其中之一的是在許多轉(zhuǎn)錄因子中發(fā)現(xiàn)的螺懸-環(huán)-螺旋模體(helix-loop-helix motif)。這些被稱為超二級結(jié)構(gòu)。當(dāng)我們看一個真實的多肽鏈時,其最終的形狀是由二級結(jié)構(gòu)的特征、也許有超二級結(jié)構(gòu)的特征、加上一些隨機的形態(tài)構(gòu)造所一起形成的,這一整體結(jié)構(gòu)被稱為三級結(jié)構(gòu)。最后,許多生物蛋白質(zhì)由多個多肽鏈構(gòu)成的,多條多肽鏈組合的方式被稱為蛋白質(zhì)的四級結(jié)構(gòu)。序列分析的困難為什么結(jié)構(gòu)命名如此復(fù)雜?為什么要對蛋白質(zhì)的結(jié)構(gòu)作如此復(fù)雜的命名呢?因為對蛋白質(zhì)結(jié)構(gòu)的理解實在是太重要又太困難了。其重要性體現(xiàn)在以下兩點: 1. 結(jié)構(gòu)決定功能 2. 實驗方法欠缺序列分析的困難結(jié)構(gòu)決定功能、實驗方法欠

16、缺。首先,蛋白質(zhì)的功能絕對取決于它的結(jié)構(gòu)。其實,讓蛋白質(zhì)失活的常規(guī)方法之一就是破壞它的結(jié)構(gòu),如通過加熱或機械力(如抽打雞蛋白)。只有完全正確折疊的蛋白質(zhì)才有活性;其次,通過實驗的方法測定蛋白質(zhì)的結(jié)構(gòu)極端困難。至今,已測定序列的蛋白質(zhì)有約30000,而已知三級結(jié)構(gòu)的蛋白只有約500個。顯然,如果能夠從一級結(jié)構(gòu)推導(dǎo)出三級結(jié)構(gòu),甚至功能,將引起醫(yī)學(xué)、藥理學(xué)、化學(xué)以及生態(tài)學(xué)的偉大變革。序列分析的困難蛋白質(zhì)三級結(jié)構(gòu)推導(dǎo)的基礎(chǔ)。目前對蛋白質(zhì)三級結(jié)構(gòu)進行推導(dǎo)的研究主要基于以下兩點:同源性和最小自由能。前者通過與相關(guān)已知結(jié)構(gòu)的蛋白質(zhì)序列作比較來預(yù)測其三級結(jié)構(gòu)。這種方式工作量大但卻很成功。不過前提是必須有相似的

17、已知結(jié)構(gòu)蛋白質(zhì),很多情況下根本不可能找到。后者嘗試測定最小自由能的結(jié)構(gòu),這是通過Monte-Carlo方法或Neural Net軟件來實現(xiàn)。序列分析的困難目前不能從結(jié)構(gòu)推導(dǎo)功能。最后,即使已經(jīng)測定了蛋白質(zhì)的三級結(jié)構(gòu),目前還沒有任何技術(shù)可以從它們的結(jié)構(gòu)推導(dǎo)出其功能特性。序列分析可以做些什么?從DNA序列推導(dǎo)蛋白質(zhì)一級序列從數(shù)據(jù)庫中查找相似序列序列排比,推導(dǎo)進化樹、結(jié)構(gòu)、功能從哪里可找到序列分析軟件?序列分析可以做些什么?按照上面所說,既然序列分析那么不另人樂觀,為何還要花大力氣去研究呢?首先,企圖尋找成功的序列分析方法本身是研究的目的之一,因為其研究成果的潛在回報可能是巨大的;其次,盡管目前很多

18、問題還不能通過序列分析來解決,但仍然可以通過序列分析獲得一些有意義的結(jié)果。序列分析可以做些什么?從DNA序列推導(dǎo)蛋白質(zhì)一級序列。計算機程序在用于從DNA序列推導(dǎo)出蛋白質(zhì)序列時,可以提供一些很有幫助的信息。例如,要找出DNA序列中那些是蛋白質(zhì)編碼區(qū),如果能預(yù)先知道可能編碼的是什么蛋白質(zhì),對找出編碼區(qū)就很有幫助,因為所有6個讀碼框都有可能編碼蛋白質(zhì)。當(dāng)然,計算機程序不可能絕對肯定的指出蛋白序列從哪里開始到哪里結(jié)束,至少能幫助我們推測蛋白編碼區(qū)可能在哪里。其實,有許多因素可以用來幫助推導(dǎo)DNA序列中的蛋白編碼區(qū),如偏好密碼子、代表DNA中調(diào)控信號的特征序列等等。一系列的計算機程序整合了這些有關(guān)特征,

19、通過一些算法等對蛋白編碼區(qū)作出預(yù)測。序列分析可以做些什么?從數(shù)據(jù)庫中查找相似序列。在我們剛剛測定了一個感興趣的DNA序列后,提出的第一個問題很可能就是“是否有人見過與此相似的序列?”。今天的國際互聯(lián)網(wǎng)上已經(jīng)有人很成功的將所有已經(jīng)測定的序列收集起來供人查找。在DNA序列的收集方面主要靠三個小組的通力合作,他們一個在日本,一個在歐洲,還有一個在美國,形成三個大的數(shù)據(jù)庫,分別是DDBJ、EMBL和GeneBank。這些數(shù)據(jù)庫不斷的相互交流數(shù)據(jù),使各數(shù)據(jù)庫的數(shù)據(jù)保持一致。因此查找任何其中一個,就等于查找所有三個。序列分析可以做些什么?從數(shù)據(jù)庫中查找相似序列。問題是這些數(shù)據(jù)庫都非常龐大,也就是說必須將新

20、獲得的基因序列與數(shù)據(jù)庫中大量的序列作有效的比較。為了能快速的完成這一工作,人們已經(jīng)編出了許多計算機程序,我們將在以后討論其中的兩個:BLAST和FASTA。為使查找或比較能快速進行,這些計算機程序所用的技術(shù)往往使序列比較中的精確度有所下降。很可能一些相似度不太高但相關(guān)的序列會被忽略掉。而另一方面,這些序列經(jīng)常會把一些相似度不顯著的序列判斷為相似的序列。因此,我們只能把它們用于從數(shù)據(jù)庫中找出一小批序列,作為進一步分析之用,而不是作為最終的結(jié)果。蛋白質(zhì)序列的數(shù)據(jù)庫,包括SwissProt和PIR,也可以用于查找和序列比較。序列分析可以做些什么?序列排比,推導(dǎo)進化樹、結(jié)構(gòu)、功能。盡管不可能完全從蛋白質(zhì)序列本身

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論