利用BLAST工具尋找新基因_第1頁(yè)
利用BLAST工具尋找新基因_第2頁(yè)
利用BLAST工具尋找新基因_第3頁(yè)
利用BLAST工具尋找新基因_第4頁(yè)
利用BLAST工具尋找新基因_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物工程二班生物工程二班2010472020820104720208郭廣興郭廣興 這篇這篇PPT從一個(gè)例子出發(fā),介紹了從一個(gè)例子出發(fā),介紹了 如何如何利用利用BLAST工具尋找新基因,以供大家參考。工具尋找新基因,以供大家參考。由于本人能力有限,由于本人能力有限, 其中可能有部分觀(guān)點(diǎn)理其中可能有部分觀(guān)點(diǎn)理解不到位,介紹的也不夠詳細(xì),解不到位,介紹的也不夠詳細(xì),僅供參考僅供參考。不足之處還請(qǐng)大家批評(píng)指正不足之處還請(qǐng)大家批評(píng)指正 。 本人保留對(duì)這篇本人保留對(duì)這篇PPT的所有的所有權(quán)利(權(quán)利(),僅),僅限于交流、學(xué)習(xí)之用,未經(jīng)允許,限于交流、學(xué)習(xí)之用,未經(jīng)允許,嚴(yán)禁分享、上傳,希望大家尊重嚴(yán)禁分享

2、、上傳,希望大家尊重他人的勞動(dòng)成果,謝謝!他人的勞動(dòng)成果,謝謝! 發(fā)現(xiàn)發(fā)現(xiàn)新基因是指在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)新基因是指在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)一些還沒(méi)有一些還沒(méi)有被注釋被注釋的的DNA序列。序列。新基因序列,新基因序列,是指在數(shù)據(jù)庫(kù)中是指在數(shù)據(jù)庫(kù)中已經(jīng)存在,但在蛋白質(zhì)水平上已經(jīng)存在,但在蛋白質(zhì)水平上還沒(méi)有完全匹配的基因序列,還沒(méi)有完全匹配的基因序列,或者是在蛋白質(zhì)水平上也有完或者是在蛋白質(zhì)水平上也有完全匹配的但卻來(lái)自于另一個(gè)物全匹配的但卻來(lái)自于另一個(gè)物種的基因序列。種的基因序列。BLAST (Basic Local Alignment Search Tool)是一是一套在蛋白質(zhì)數(shù)據(jù)庫(kù)或套在蛋白質(zhì)數(shù)據(jù)庫(kù)或DNA數(shù)據(jù)

3、庫(kù)中進(jìn)行相似數(shù)據(jù)庫(kù)中進(jìn)行相似性比較的分析工具。性比較的分析工具。 首先從一個(gè)已知的蛋白質(zhì)序列出發(fā),搜首先從一個(gè)已知的蛋白質(zhì)序列出發(fā),搜索一個(gè)索一個(gè)DNA數(shù)據(jù)庫(kù);找到尚未注釋的、與查數(shù)據(jù)庫(kù);找到尚未注釋的、與查詢(xún)序列相關(guān)的序列匹配,得到新發(fā)現(xiàn)的基因詢(xún)序列相關(guān)的序列匹配,得到新發(fā)現(xiàn)的基因和對(duì)應(yīng)的蛋白質(zhì);采用多種措施來(lái)驗(yàn)證匹配和對(duì)應(yīng)的蛋白質(zhì);采用多種措施來(lái)驗(yàn)證匹配結(jié)果,證實(shí)確實(shí)發(fā)現(xiàn)了新的基因。結(jié)果,證實(shí)確實(shí)發(fā)現(xiàn)了新的基因。我采用的我采用的數(shù)據(jù)庫(kù)為美國(guó)國(guó)立生物技術(shù)信息中數(shù)據(jù)庫(kù)為美國(guó)國(guó)立生物技術(shù)信息中心(心(The National Center for Biotechnology Informatio

4、n 網(wǎng)址網(wǎng)址:/)GenBank數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)。使用使用的的工具為工具為BLAST(Basic Local Alignment Search Tool 網(wǎng)址:網(wǎng)址:/)。)。Step1:選擇一條已知蛋白序列:選擇一條已知蛋白序列 這里給大家的例子是這里給大家的例子是視黃醇結(jié)合蛋白視黃醇結(jié)合蛋白( retinol-binding protein )。 視黃醇結(jié)合蛋白是血液中視黃醇結(jié)合蛋白是血液中維維生素的轉(zhuǎn)運(yùn)蛋白生素的轉(zhuǎn)運(yùn)蛋白,由肝臟合成、,由肝臟合成、廣泛分布于血液、腦脊液、尿液廣泛分布

5、于血液、腦脊液、尿液及其他體液中。測(cè)定視黃醇結(jié)合及其他體液中。測(cè)定視黃醇結(jié)合蛋白能早期發(fā)現(xiàn)腎小管的功能損蛋白能早期發(fā)現(xiàn)腎小管的功能損害,并能靈敏反映腎近曲小管的害,并能靈敏反映腎近曲小管的損害程度,還可作為肝功能早期損害程度,還可作為肝功能早期損害和監(jiān)護(hù)治療的指標(biāo)。損害和監(jiān)護(hù)治療的指標(biāo)。視黃醇結(jié)合蛋白(人類(lèi))視黃醇結(jié)合蛋白(人類(lèi))retinol-binding proteinHomosapiens1246aaproteinAccession:AAA59188.1GI:307075在在NCBI的搜索欄中搜索的搜索欄中搜索“Protein”中的中的“retinol-binding protein”

6、,如圖如圖點(diǎn)擊進(jìn)入人類(lèi)視黃醇點(diǎn)擊進(jìn)入人類(lèi)視黃醇結(jié)合蛋白的詳情頁(yè)面,結(jié)合蛋白的詳情頁(yè)面,會(huì)發(fā)現(xiàn)該基因的會(huì)發(fā)現(xiàn)該基因的FEATURES注釋的很注釋的很詳細(xì),包括詳細(xì),包括source、Protein、Region、Site、CDS等屬性,可等屬性,可以和后面的新基因進(jìn)以和后面的新基因進(jìn)行對(duì)比。行對(duì)比。Step2:將選擇的蛋白質(zhì)序列用:將選擇的蛋白質(zhì)序列用TBLASTN進(jìn)行進(jìn)行搜索搜索 BLAST主頁(yè)主頁(yè)選擇選擇HTGS,EST,GSS 或者特定物種的基因序列或者特定物種的基因序列搜索結(jié)果返回頁(yè)面搜索結(jié)果返回頁(yè)面 :圖中三項(xiàng)依次是圖中三項(xiàng)依次是圖表摘要、描述和圖表摘要、描述和比對(duì)信息比對(duì)信息,這三項(xiàng)

7、在返回的頁(yè)面中,這三項(xiàng)在返回的頁(yè)面中默認(rèn)是展開(kāi)的,這里為了在同一截默認(rèn)是展開(kāi)的,這里為了在同一截屏顯示,把這三項(xiàng)手動(dòng)折疊了屏顯示,把這三項(xiàng)手動(dòng)折疊了搜索結(jié)果返回頁(yè)面搜索結(jié)果返回頁(yè)面 :接下頁(yè)接下頁(yè)搜索結(jié)果返回頁(yè)面搜索結(jié)果返回頁(yè)面 :上說(shuō)這些匹配的上說(shuō)這些匹配的蛋白質(zhì)可能:蛋白質(zhì)可能:在一些數(shù)據(jù)庫(kù)中得到的結(jié)在一些數(shù)據(jù)庫(kù)中得到的結(jié)果完全匹配或者幾乎完全匹果完全匹配或者幾乎完全匹配。這就不是新基因了。配。這就不是新基因了。一些數(shù)據(jù)庫(kù)的結(jié)果也非常一些數(shù)據(jù)庫(kù)的結(jié)果也非常匹配,而該數(shù)據(jù)庫(kù)中編碼這匹配,而該數(shù)據(jù)庫(kù)中編碼這些蛋白質(zhì)的些蛋白質(zhì)的DNA還沒(méi)有被還沒(méi)有被注釋過(guò)。這種情況可能是新注釋過(guò)。這種情況可能是

8、新基因?;?。一些搜索結(jié)果并不是非常一些搜索結(jié)果并不是非常匹配。這就需要依賴(lài)經(jīng)驗(yàn)來(lái)匹配。這就需要依賴(lài)經(jīng)驗(yàn)來(lái)判斷哪些數(shù)據(jù)庫(kù)中的匹配是判斷哪些數(shù)據(jù)庫(kù)中的匹配是真正的匹配,哪些不是。真正的匹配,哪些不是。逐個(gè)序列的驗(yàn)證逐個(gè)序列的驗(yàn)證是最經(jīng)典而有效的方法是最經(jīng)典而有效的方法:具體來(lái)說(shuō),就是點(diǎn)擊最右邊具體來(lái)說(shuō),就是點(diǎn)擊最右邊一列一列Accession,進(jìn)入該基,進(jìn)入該基因的詳情頁(yè)面,主要看因的詳情頁(yè)面,主要看FEATURES,如果,如果FEATURES 下面只有下面只有source(有的還有(有的還有g(shù)ap 或或misc_feature等等 ),不含),不含有有Protein、Region、Site、C

9、DS等注釋屬性,則可初等注釋屬性,則可初步判定它是未被注釋的新基步判定它是未被注釋的新基因。因。按照上述方法初步判定,除了下圖中標(biāo)注出按照上述方法初步判定,除了下圖中標(biāo)注出的的6個(gè)基因,其他的均有可能是新基因個(gè)基因,其他的均有可能是新基因此處選擇此處選擇 ACSSTION為為CU539131.1的的Human gut metagenome(人類(lèi)腸道宏基因組)(人類(lèi)腸道宏基因組)Step3:用數(shù)據(jù)庫(kù)搜索來(lái)判斷它是否是真的:用數(shù)據(jù)庫(kù)搜索來(lái)判斷它是否是真的新蛋白質(zhì)新蛋白質(zhì)用CU539131.1進(jìn)行BLASTP搜索,搜索的結(jié)果表明它和其它一些蛋白質(zhì)相當(dāng)近源,但它在GenBank數(shù)據(jù)庫(kù)中還沒(méi)有被注釋過(guò)。

10、具體措施:具體措施:將將CU539131.1在在Alignments(比對(duì)信(比對(duì)信息)息)中出現(xiàn)的序列(中出現(xiàn)的序列(紅色標(biāo)出部分紅色標(biāo)出部分)作為輸入項(xiàng)在作為輸入項(xiàng)在一個(gè)一個(gè)非冗余非冗余(nr)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)中中逐一逐一進(jìn)行進(jìn)行BLASTP搜索。搜索。 BLAST主頁(yè)主頁(yè)在這里也可切換在這里也可切換BLAST的不同功能的不同功能CU539131.1的第一條的第一條sbjct序列序列非冗余的蛋白質(zhì)序列庫(kù)非冗余的蛋白質(zhì)序列庫(kù) (nr)BLASTP結(jié)果:結(jié)果: 在此頁(yè)面中用在此頁(yè)面中用“頁(yè)面查找頁(yè)面查找”功能功能(Ctrl+F),看頁(yè)面中是否有屬于),看頁(yè)面中是否有屬于Human gut meta

11、genome(人類(lèi)腸道宏基因組)的(人類(lèi)腸道宏基因組)的蛋白。結(jié)果顯示蛋白。結(jié)果顯示“未找到未找到”。() 用用CU539131.1蛋白質(zhì)進(jìn)行蛋白質(zhì)進(jìn)行BLASTP搜搜索的結(jié)果表明它和其它一些蛋白質(zhì)相當(dāng)近源,索的結(jié)果表明它和其它一些蛋白質(zhì)相當(dāng)近源,但它在但它在GenBank數(shù)據(jù)庫(kù)中還沒(méi)有被注釋過(guò)。數(shù)據(jù)庫(kù)中還沒(méi)有被注釋過(guò)。在在BLASTP結(jié)果中,雖然有許多與結(jié)果中,雖然有許多與CU539131.1高度高度 匹配的蛋白,甚至匹配的蛋白,甚至有有100%匹配的蛋白,但是這些蛋白都不屬于匹配的蛋白,但是這些蛋白都不屬于Human gut metagenome(人類(lèi)腸道宏基因組)。也就是說(shuō),雖然有和我們

12、發(fā)現(xiàn)的蛋白具有一模(人類(lèi)腸道宏基因組)。也就是說(shuō),雖然有和我們發(fā)現(xiàn)的蛋白具有一模一樣特征的蛋白,但是他們是通過(guò)其他物種被發(fā)現(xiàn)和被注釋的,我們發(fā)一樣特征的蛋白,但是他們是通過(guò)其他物種被發(fā)現(xiàn)和被注釋的,我們發(fā)現(xiàn)的這個(gè)物種的這個(gè)蛋白還沒(méi)有被注釋?zhuān)敲催@個(gè)蛋白質(zhì)所對(duì)應(yīng)的基因現(xiàn)的這個(gè)物種的這個(gè)蛋白還沒(méi)有被注釋?zhuān)敲催@個(gè)蛋白質(zhì)所對(duì)應(yīng)的基因就是沒(méi)有被注釋的新基因。(這是我的理解,言不盡意,大家認(rèn)真思考)就是沒(méi)有被注釋的新基因。(這是我的理解,言不盡意,大家認(rèn)真思考)接下來(lái)我們把接下來(lái)我們把 CU539131.1的其他幾個(gè)的其他幾個(gè)sbjct序列逐個(gè)進(jìn)行序列逐個(gè)進(jìn)行BLASTP,步驟同上。,步驟同上??紤]到最

13、后一個(gè)考慮到最后一個(gè)sbjct序列太短,沒(méi)有參考價(jià)序列太短,沒(méi)有參考價(jià)值,值,可以忽略??梢院雎浴?CU539131.1的三個(gè)主要的三個(gè)主要sbjct片段片段 驗(yàn)證驗(yàn)證結(jié)果均未找到該物種的相同蛋白,從某種意結(jié)果均未找到該物種的相同蛋白,從某種意義上,我們就可以確定義上,我們就可以確定CU539131.1所對(duì)應(yīng)的所對(duì)應(yīng)的基因是一個(gè)新基因?;蚴且粋€(gè)新基因。Step4:找到:找到 CU539131.1對(duì)應(yīng)的基因,開(kāi)展對(duì)應(yīng)的基因,開(kāi)展后續(xù)研究工作后續(xù)研究工作這個(gè)基因還是最近提交到數(shù)據(jù)庫(kù)的這個(gè)基因還是最近提交到數(shù)據(jù)庫(kù)的在該基因的在該基因的FEATURES下,只有下,只有source一項(xiàng),一項(xiàng),可以和人

14、的是視黃醇結(jié)可以和人的是視黃醇結(jié)合蛋白基因?qū)Ρ?,新基合蛋白基因?qū)Ρ?,新基因的特征還是很明顯的。因的特征還是很明顯的。點(diǎn)擊點(diǎn)擊FASTA可獲取該基因的可獲取該基因的FASTA格式格式FASTA格式:格式:視黃醇結(jié)合蛋白(豬)視黃醇結(jié)合蛋白(豬)retinol-binding proteinSusscrofa201aaproteinAccession:AAA31113.1GI:164633在在NCBI的搜索欄中搜索的搜索欄中搜索“Protein”中的中的“retinol-binding protein”,如圖如圖 按照上述方法步按照上述方法步驟進(jìn)行探索,發(fā)現(xiàn)新驟進(jìn)行探索,發(fā)現(xiàn)新基因是非常容易的,基

15、因是非常容易的,大家加油!大家加油! 示例中發(fā)現(xiàn)的新基因存在于人類(lèi)腸道的示例中發(fā)現(xiàn)的新基因存在于人類(lèi)腸道的宏基因組中,宏基因組中,宏基因組宏基因組 ( Metagenome)(也稱(chēng)也稱(chēng)微生物環(huán)境基因組微生物環(huán)境基因組 Microbial Environmental Genome, 或元基因組或元基因組) 。是。是由由 Handelsman 等等 1998 年提出的新名詞年提出的新名詞, 其定義為其定義為“the genomes of the total microbiota found in nature” , 即即生境中全生境中全部微小生物遺傳物質(zhì)的總和部微小生物遺傳物質(zhì)的總和。 如果人類(lèi)如

16、果人類(lèi) 腸道的宏基因組可以產(chǎn)生與視黃醇結(jié)合蛋白類(lèi)腸道的宏基因組可以產(chǎn)生與視黃醇結(jié)合蛋白類(lèi)似的有轉(zhuǎn)運(yùn)維生素功能的蛋白質(zhì)產(chǎn)物,那么,它會(huì)對(duì)人體有似的有轉(zhuǎn)運(yùn)維生素功能的蛋白質(zhì)產(chǎn)物,那么,它會(huì)對(duì)人體有什么影響呢?什么影響呢? 我們可以大膽推測(cè),我們可以大膽推測(cè),一方面一方面,維生素等營(yíng)養(yǎng)物質(zhì)大都是,維生素等營(yíng)養(yǎng)物質(zhì)大都是在小腸被機(jī)體吸收的,如果腸道內(nèi)存在在小腸被機(jī)體吸收的,如果腸道內(nèi)存在 由由CU539131.1表達(dá)表達(dá)的具有轉(zhuǎn)運(yùn)維生素功能的分泌型蛋白,那么,這些蛋白質(zhì)有的具有轉(zhuǎn)運(yùn)維生素功能的分泌型蛋白,那么,這些蛋白質(zhì)有可能有利于腸道對(duì)維生素的攝取;可能有利于腸道對(duì)維生素的攝取;另一方面另一方面,該

17、蛋白質(zhì)是由,該蛋白質(zhì)是由微生物菌群產(chǎn)生的,很有可能它會(huì)輔助微生物菌體攝取維生微生物菌群產(chǎn)生的,很有可能它會(huì)輔助微生物菌體攝取維生素,其結(jié)果可能是造成機(jī)體本該攝取的維生素的量降低,危素,其結(jié)果可能是造成機(jī)體本該攝取的維生素的量降低,危害人體健康。我們可不可以改造它的這一特性為我們所用。害人體健康。我們可不可以改造它的這一特性為我們所用。 當(dāng)然這就需要進(jìn)一步深入的當(dāng)然這就需要進(jìn)一步深入的 研究了,但我想說(shuō)的是如研究了,但我想說(shuō)的是如果在找到一個(gè)新基因之后,能夠引發(fā)這樣的思考,這才真正果在找到一個(gè)新基因之后,能夠引發(fā)這樣的思考,這才真正的體現(xiàn)出了尋找新基因的意義。的體現(xiàn)出了尋找新基因的意義。 作為新基因?qū)ふ业牡谝徊剑鹗嫉鞍椎淖鳛樾禄驅(qū)ふ业牡谝徊?,起始蛋白的選擇是至關(guān)重要的。選擇的是否得當(dāng)將嚴(yán)重選擇是至關(guān)重要的。選擇的是否得當(dāng)將嚴(yán)重影響到新基因的發(fā)現(xiàn)與否。影響到新基因的發(fā)現(xiàn)與否。 使用多種方法以及多種數(shù)據(jù)庫(kù)使用多種方法以及多種數(shù)據(jù)庫(kù)也會(huì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論