(生物物理學(xué)專業(yè)論文)蛋白質(zhì)折疊類型分類及其profile+hmm識別.pdf_第1頁
(生物物理學(xué)專業(yè)論文)蛋白質(zhì)折疊類型分類及其profile+hmm識別.pdf_第2頁
(生物物理學(xué)專業(yè)論文)蛋白質(zhì)折疊類型分類及其profile+hmm識別.pdf_第3頁
(生物物理學(xué)專業(yè)論文)蛋白質(zhì)折疊類型分類及其profile+hmm識別.pdf_第4頁
(生物物理學(xué)專業(yè)論文)蛋白質(zhì)折疊類型分類及其profile+hmm識別.pdf_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

(生物物理學(xué)專業(yè)論文)蛋白質(zhì)折疊類型分類及其profile+hmm識別.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

摘要 摘要 隨著生物大分子數(shù)據(jù)庫中蛋白質(zhì)序列數(shù)目的增多,發(fā)展有效的方法,從氨基 酸序列提取結(jié)構(gòu)信息成為后基因組時代的重要研究課題。越來越多的證據(jù)表明, 天然蛋白質(zhì)的折疊類型在總數(shù)上的是有限的,一般認(rèn)為只有數(shù)百到數(shù)千種,遠(yuǎn)小 于蛋白質(zhì)所具有的自由度數(shù)。a n f i n s e n 原理指出蛋白質(zhì)的結(jié)構(gòu)在很大程度上由其 序列決定,當(dāng)?shù)鞍踪|(zhì)結(jié)構(gòu)數(shù)據(jù)庫趨于完備以后,結(jié)構(gòu)的解析問題就可以轉(zhuǎn)化為折 疊識別問題,即使用計算方法,找到與待預(yù)測蛋白質(zhì)序列在三維結(jié)構(gòu)上最匹配的 已知折疊類型。對自然界存在的數(shù)百到數(shù)千種折疊類型進(jìn)行系統(tǒng)研究,有助于揭 示蛋白質(zhì)的折疊規(guī)律,可為大型的蛋白質(zhì)數(shù)據(jù)庫提供結(jié)構(gòu)注釋,或者為蛋白質(zhì)的 精確結(jié)構(gòu)預(yù)測提供參考。 目前的蛋白質(zhì)折疊類型識別基本上都是靠專家來完成的,不同的庫分類頗不 相同。s c o p 通過觀察將蛋白質(zhì)按照同源性進(jìn)行分類,但在s c o p 的一些折疊子 中,二級結(jié)構(gòu)及其走向存在很大差異,為折疊識別的模型構(gòu)建造成困難;c a t h 以序列、結(jié)構(gòu)比對的相似性打分為依據(jù)進(jìn)行“t o p o l o g y ”的分類,并沒有直接反 映出蛋白質(zhì)之間二級結(jié)構(gòu)及其空間排布上的相似性。實(shí)際上,蛋白質(zhì)的折疊類型 反映了蛋白核心結(jié)構(gòu)的拓?fù)浣Y(jié)構(gòu)模式,包括蛋白質(zhì)分子空間結(jié)構(gòu)的三個主要方 面:二級結(jié)構(gòu)單元、二級結(jié)構(gòu)單元的相對排布位置以及蛋白質(zhì)多肽鏈的整個路由 關(guān)系( 即肽鏈走向) ,我們在蛋白質(zhì)折疊結(jié)構(gòu)研究的基礎(chǔ)上,以結(jié)構(gòu)域的拓?fù)洳?變性為依據(jù),結(jié)合二級結(jié)構(gòu)片段的空間排列、取向特征和連接關(guān)系,進(jìn)行蛋白質(zhì) 折疊類型分類,建立了l i f c a 數(shù)據(jù)庫,為蛋白質(zhì)折疊識別奠定了基礎(chǔ)。 折疊識別的一個重要方面是建立折疊識別算法。目前,折疊識別的方法大體 上可以分為三類:氨基酸序列的兩兩比較,如使用b l a s t 和f a s t a 判斷序列之間 的相似性;多序列建模,如p r o f i l eh m m 方法;分類器,如神經(jīng)網(wǎng)絡(luò),支持向量機(jī) 等。與兩兩比較方法相比,h m m 建立了統(tǒng)一的模型,可以抓住一組同源序列的公 共核心,因而對于那些在已知數(shù)據(jù)庫沒有高相似度模板的未知序列有更好的識別 效果:與s v m 等分類機(jī)器相比,雖然后者可能獲得較高的準(zhǔn)確率,但是p r o f i l eh m m 有較為統(tǒng)一的構(gòu)架,保留了位點(diǎn)信息,有詳細(xì)的序列概形,與s v m 相比更有助于 對特定折疊類型進(jìn)行進(jìn)一步的分析和研究。 在本文中,我們在前期折疊分類的基礎(chǔ)上,對c t 類、b 類及q 0 類中樣 本數(shù)量較多的7 4 種折疊類型進(jìn)行研究,利用結(jié)構(gòu)比對得到多序列比對,繼而產(chǎn) 北京下業(yè)大學(xué)理學(xué)碩士學(xué)位論文 生p r o f i l eh m m 進(jìn)行識別,研究工作主要包括以下幾個方面: 1 蛋白質(zhì)折疊類型分類數(shù)據(jù)庫l i f c a 的建立 選取序列同一性低于2 5 的2 4 0 6 個蛋白質(zhì),包含了全q 、全b ,q p 三個 結(jié)構(gòu)類的所有代表性序列,在蛋白質(zhì)折疊結(jié)構(gòu)研究的基礎(chǔ)上,以結(jié)構(gòu)域的拓?fù)洳?變性為依據(jù),結(jié)合二級結(jié)構(gòu)片段的空間排列、取向特征和連接關(guān)系,進(jìn)行蛋白質(zhì) 折疊類型分類,對于結(jié)構(gòu)域的序列、二級結(jié)構(gòu)等信息,提供了詳細(xì)的注釋。為蛋 白質(zhì)折疊類型識別奠定基礎(chǔ)。 2 折疊類型的結(jié)構(gòu)比對研究 使用結(jié)構(gòu)比對算法對l i f c a 進(jìn)行了同種折疊類型在結(jié)構(gòu)上的差異性研究,以 結(jié)構(gòu)比對為基礎(chǔ)得到了折疊類型的多序列比對結(jié)果,用于建立折疊類型的模型。 3 h m m 模型數(shù)據(jù)庫的建立 對成員數(shù)目大于等于4 并且結(jié)構(gòu)比對效果較為顯著的7 4 個折疊類型分別建 立h m m 模型,組成隱馬爾科夫模型庫。使用非冗余的a s t r a l l 6 5 序列庫進(jìn)行識 別檢驗(yàn),識別精度7 4 ,5 ,并保持了很低的假陽性率,識別效果比目前報導(dǎo)的一 些方法識別效果均要好。 本文從數(shù)據(jù)集篩選及算法兩個方面對蛋白質(zhì)的折疊類型識別方法進(jìn)行了改 進(jìn),建立的隱馬爾科夫模型庫覆蓋范圍較廣,識別準(zhǔn)確率高,為折疊類型識別提 供了一種新思路,對于相關(guān)的研究工作有參考價值,同時為進(jìn)一步的研究提供了 基礎(chǔ)。 關(guān)鍵詞蛋白質(zhì);折疊類型識別: 折疊類型分類;隱馬爾科夫; 結(jié)構(gòu)比對 u a b s t r a c t i i i ii i i a b s t r a c t w i t ht h ei n c r e a s i n go fp r o t e i ns e q u e n c ei nt h eb i o m a c r o m o l e c u l ed a t a b a s e , d e v e l o p m e n to fn e wm e t h o d st o e x t r a c ts t r u c t u r a l i n f o r m a t i o nf r o ma m i n oa c i d s e q u e n c e sb e c o m e sa ni m p o r t a n tr e s e a r c ht o p i ci nt h ep o s t g e n o m ee r a m o r ea n d m o r ee v i d e n c e ss h o w st h a tt h en u m b e ro fn a t u r a lp r o t e i nf o l d si sl i m i t e d ,u s u a l l yf r o m h u n d r e d st ot h o u s a n d s ,w h i c hi sm u c hl e s st h a nt h en u m b e ro fd o fo b t a i n e db y p r o t e i n s t h e a n f i n s e n s p r i n c i p l es u g g e s t s t h a t p r o t e i n s s t r u c t u r ei sm o s t l y d e t e r m i n e db yi t ss e q u e n c e 。w h i l et h es t r u c t u r a ld a t a b a s et e n d i n gt oc o m p l e t e n e s s ,t h e p r o b l e mo fs t r u c t u r a la n a l y s i sb e c o m e st h eo n eo ff o l dr e c o g n i t i o n ,w h i c hi s ,f i n d i n g t h eb e s t m a t c h i n gt h r e ed i m e n s i o n a ls t r u c t u r a lf o l d s y s t e m a t i cr e s e a r c ho ft h o s ef o l d s i sm e a n i n g f u lt ou n c o v e rt h ep r i n c i p l eo fp r o t e i nf o l d i n g ,t op r o v i d es t r u c t u r a l a n n o t a t i o nf o r l a r g ep r o t e i nd a t a b a s e ,o rh e l p i n g f o rp r e c i s ep r o t e i ns t r u c t u r a l p r e d i c t i o n c u r r e n t l y , p r o t e i nf o l dr e c o g n i t i o nm o s t l yd e p e n d so ne x p e r t s ,a n dd i f f e r e n t d a t a b a s eh a sd i f f e r e n tp r i n c i p l e b ym e a n so fo b s e r v a t i o n ,s c o pc l a s s i f i e sp r o t e i n s b a s e do nh o m o l o g y , h o w e v e r , f o rs o m ef o l d ,i ti sd i f f i c u l tt oc o n s t r u c tf o l dr e c o g n i t i o n m o d e ls i n c et h e i rs e c o n d a r ys t r u c t u r ea n di t ss t r i k ed i r e c t i o nd o e se x i s td i f f e r e n c e t h ec l a s s i f i c a t i o no ft o p o l o g yi nc a t hi sb a s e do nt h es i m i l a r i t ys c o r eo fs e q u e n c e a n ds t r u c t u r ea l i g n m e n t ,w h i c hd o s en o td i r e c t l ys h o wt h es i m i l a r i t ye x i s t i n gi n p r o t e i ns e c o n d a r ys t r u c t u r ea n di t ss p a c ea s s i g m - n e n t i nf a c t ,p r o t e i nf o l dt y p er e f l e c t s t h et o p o l o g yo fp r o t e i nc o r e ,w h i c hc o n t a i n st h r e ea s p e c t so fp r o t e i ns p a c es t r u c t u r e : e l e m e n to fs e c o n d a r ys t r u c t u r e ,r e l a t i v ea s s i g n m e n to fs s ei ns e q u e n c ea n de n t i r e r o u t er e l a t i o n s h i po fp o l y p e p t i d ec h a i n s ( m e a n sd i r e c t i o no fp o l y p e p t i d ec h a i n s ) b a s e do nm o d e mp r o t e i nf o l dr e s e a r c ha n dt h ec o n s e r v a t i v eo fp r o t e i nd o m a i n t o p o l o g y , w er e c l a s s i f yp r o t e i nd o m a i n sf r o mt h r e ea s p a c t s :t h ea s s i g n m e n t ,t h e d i r e c t i o nc h a r a c t e r i s t i c s ,a n dt h ec o n n e c t i o nr e l a t i o n s h i po fp r o t e i ns s e f i n a l y , a d a t a b a s en a m e dl i f c aw a sb u i l t ,w h i c hf o r m e dt h eb a s eo fp r o t e i nf o l dr e c o g n i t i o n a s i g n i f i c a n ta s p e c to ff o l dr e c o g n i t i o ni st od e v e l o pn e wa l g o r i t h m f o rm o d e m r e s e a r c h ,t h e r ea r em a i n l yt h r e ek i n d s :p a i rc o m p a r i s o nb e t w e e na m i n oa c i ds e q u e n c e s ( e g c h e c k i n g t h e s e q u e n c e ss i m i l a r i t yb ym e a n s o fb l a s ta n df a s t a ) ,m o d e l c o n s t r u c t i o nb a s e do nm u l t i p l es e q u e n c e sa l i g n m e n t ( e g p r o f i l eh m mm e t h o d ) a n d c l a s s i f i c a t i o nm a c h i n e ( e g n n ,s v m ) c o m p a r e dw i t hp a i rc o m p a r i s o n ,h m mc o u l d c o n s t r u c tu n i f o l r l t lm o d e la n de x t r a c tt h ec o r eo fm u l t i p l eh o m o l o g o u ss e q u e n c e s ,t h u s i i i 北京工業(yè)大學(xué)理學(xué)碩七學(xué)位論文 i th a sb e r e rr e c o g n i t i o nr e s u l tt ot h e s es e q u e n c e sw h i c hd on o te x i s th i g hs i m i l a r t e m p l a t ei nt h o s ek n o w nd a t a b a s e s i na d d i t i o n ,a l t h o u g hc l a s s i f i c a t i o nm a c h i n es u c h a ss v mc o u l do b t a i nh i g h e ra c c u r a c y , p r o f i l eh m mh a ss o m eu n r e p l a c e a b l em e r i t s , s u c ha sm o r eu n i f o r m f r a m e w o r k ,k e e p i n gi n f o r m a t i o n s o fc o n s e r v a t i v e l o c u s , d e t a i l e ds t a t i s t i c a la n a l y s i so fa m i n oa c i d si ns e q u e n c e s ,e t c a l s of o rp r o f i l eh m m , s e q u e n c em o d e lc o u l db es i m p l yo b t a i n e db yam u l t i p l ea l i g n m e n t ,w h i c hi sm o r e s u i t a b l et of u r t h e ra n a l y s i sa n dr e s e a r c h 1 1 1 em a i nw o r ko ft h i sp a p e ri n c l u d e st h e f o l l o w i n g : 1 e s t a b l i s hl i f c ad a t a b a s eb a s e do nt h et o p o l o g i e so ff o l d i n gc o r e s c h o o s e2 , 4 0 6p r o t e i ns e q u e n c e sf r o ma s t r a lw i t hs e q u e n c ei d e n t i t y2 5 o rl o w t h em a i n l y 伐,m a i n l yp ,a n dq bs t r u c t u r ec l a s sa r ei n c l u d e di n t h e nr e c l a s s i f yt h o s e p r o t e i nd o m a i n sb a s e do nt h es t u d yo fp r o t e i nf o l d i n g ,w h i c hm e a n st h es s ec o n t e n t s , t h e i ra r r a n g e m e n to r i e n t a t i o na n dc o n n e c t i o n s t h i sw o r k1 a i dt h ef o u n d m i o nf o r f u r t h e rr e s e a r c h 2s t r u c t u r e b a s e ds e q u e n c ea l i g n m e n t sw i t h i nt o p o l o g i e s f o re a c ht o p o l o g y , as t r u c t u r e b a s e ds e q u e n c ea l i g n m e n ta r ec o n d u c t e d ,t h e d i f f e r e n c ew i t h i ne a c ht o p o l o g yi sr e s e a r c h e dt o o t h em u l t i p l ea l i g n m e n tr e s u l t sf r o m t h i ss t e pa r eu s e df o rm o d e l b u i l d i n g 3 p r o f i l eh m m l i b r a r y t h e r ea r e7 4r e p r e s e n t a t i v et o p o l o g i e sw h i c hc o n t a i nn ol e s st h a n4m e m b e r si n l i f c a ,s ot o t a l l y7 4p r o f i l eh m mm o d e la r ee s t a b l i s h i n g u s i n ga s t r a l1 6 510 0 i d e n t i t ys e q u e n c ed a t a b a s ef o rt e s td a t a s e t s ,t h ec l a s s i f i c a t i o na c c u r a c yi s7 4 5 ,s t i l l m a i n t a i nal o wf a l s ep o s i t i v er a t et h a no t h e ri d e n t i f i c a t i o nm e t h o d s ,t h ep r o f i l eh m m l i b r a r yp e r f o r m a n c eb e r e ri nm o s tt o p o l o g i e s i nt h i sp a p e r , d a t as e t sa n da l g o r i t h mh a sb e e ni m p r o v e db o t h ,t h eh i d d e n m a r k o vm o d e ll i b r a r yb a s e do nt h i sm e t h o dg e t sab r o a d e rc o v e r a g ea n dag o o d a c c u r a c yr a t e f o rr e l a t e dr e s e a r c hw o r k i t sv a l u a b l e , k e y w o r d s :p r o t e i n ,t o p o l o g yr e c o g n i t i o n ,t o p o l o g y , h i d d e nm a r k o vm o d e l ,s t r u c t u r e a l i g n m e n t i v 獨(dú)創(chuàng)性聲明 本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研 究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他 人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育機(jī)構(gòu) 的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均 己在論文中作了明確的說明并表示了謝意。 簽名:么 打 關(guān)于論文使用授權(quán)的說明 日期:趔乙 本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán) 保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)校可以公布論文的全部或部 分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定) 始釁新簽名樣吼坐 第l 幸緒論 第1 章緒論 1 1 蛋白質(zhì)結(jié)構(gòu)及其研究意義 幾乎一切生命現(xiàn)象都通過蛋白質(zhì)的功能而表現(xiàn)出來,而蛋白質(zhì)的結(jié)構(gòu)又被認(rèn) 為是功能行使的基礎(chǔ),如果只了解蛋白質(zhì)的一級結(jié)構(gòu)而不了解蛋白質(zhì)的空間結(jié) 構(gòu),那么就很難闡明生物大分子之間的關(guān)系。例如胰凝乳蛋白酶就通過三個一級 結(jié)構(gòu)不相連的氨基酸共同催化底物化學(xué)反應(yīng),只有通過多肽鏈的盤旋、折疊形成 空間結(jié)構(gòu)才能解釋這一現(xiàn)象。揭示每種蛋白質(zhì)的空間結(jié)構(gòu),對于蛋白質(zhì)結(jié)構(gòu)與 功能關(guān)系的研究、蛋白質(zhì)工程改造等都是非常必要的。 蛋白質(zhì)的結(jié)構(gòu)是有層次的,分為一級結(jié)構(gòu),二級結(jié)構(gòu),超二級結(jié)構(gòu),結(jié)構(gòu)域, 三級結(jié)構(gòu),較大的蛋白質(zhì)分子還具有四級結(jié)構(gòu),不同層次的研究具有不同的意義, 一級序列是高級結(jié)構(gòu)的基礎(chǔ),可以通過實(shí)驗(yàn)手段測定;二級結(jié)構(gòu)只有q 、b 、無 規(guī)卷曲等少數(shù)的幾種,二級結(jié)構(gòu)的預(yù)測一直是近年來研究工作的熱點(diǎn),目前準(zhǔn)確 度可以達(dá)到7 0 左右:與功能關(guān)系最為直接的是結(jié)構(gòu)域和三級結(jié)構(gòu)及四級結(jié)構(gòu), 本文研究工作的重點(diǎn)正是結(jié)構(gòu)域的分類和識別,我們希望能通過對結(jié)構(gòu)域的深入 研究來幫助促進(jìn)肽鏈折疊、蛋白質(zhì)功能分類的研究工作乜吲。 一般情況下,一段天然的氨基酸鏈與一個天然態(tài)的蛋白質(zhì)相對應(yīng),目前由基 因測序等手段得到的序列數(shù)據(jù)已經(jīng)非常多,為了了解這些序列如何行使生物學(xué)功 能,對于大規(guī)模蛋白質(zhì)結(jié)構(gòu)測定的要求是非常迫切的。但是由于蛋白質(zhì)難以結(jié)晶 等問題,使得實(shí)驗(yàn)手段測定蛋白質(zhì)結(jié)構(gòu)異常困難,序列數(shù)據(jù)的迅速擴(kuò)張和結(jié)構(gòu)數(shù) 據(jù)的匱乏形成明顯的對比,因此理想的方法是在有目的的實(shí)驗(yàn)測定的基礎(chǔ)上,最 終通過計算方法對所有蛋白質(zhì)的結(jié)構(gòu)加以解決。在目前研究中,蛋白質(zhì)結(jié)構(gòu)的解 析可以分為兩個部分:一方面,用x r a y ,n m r 等試驗(yàn)手段測定更多蛋白質(zhì)的 空間結(jié)構(gòu)保存到數(shù)據(jù)庫中,提供大量高精度的結(jié)構(gòu)模板;另一方面要發(fā)展利用這 些實(shí)驗(yàn)?zāi)0宓挠嬎惴椒ǎ褂帽容^建模、串線、動力學(xué)計算等手段預(yù)測盡可能多 的蛋白質(zhì)空間結(jié)構(gòu),從而建立一些模式生物蛋白質(zhì)表達(dá)譜和重要疾病相關(guān)蛋白質(zhì) 表達(dá)譜,解釋復(fù)雜的生物學(xué)過程h 吲。 由于蛋白質(zhì)折疊問題本身的復(fù)雜性,通過計算方法來解析蛋白質(zhì)的精細(xì)結(jié)構(gòu) 仍面臨諸多難題。但是在一些關(guān)于蛋白質(zhì)的進(jìn)化、功能分類等研究層次上,對于 北京t 業(yè)大學(xué)理學(xué)碩十學(xué)位論文 蛋白質(zhì)精細(xì)結(jié)構(gòu)的要求不是非常嚴(yán)格,三維拓?fù)浯至;念A(yù)測就可以作為較為可 信的參考,那些序列同一度很低,而三維拓?fù)渥呦蛳嗤牡鞍踪|(zhì)在功能上往往是 相近的,這可能是收斂進(jìn)化的結(jié)果。本文的研究工作并不是以計算精確的三維結(jié) 構(gòu)為目的,而是針對蛋白質(zhì)結(jié)構(gòu)域?qū)哟紊系耐負(fù)渥呦蚍诸愵A(yù)測。與精細(xì)結(jié)構(gòu)預(yù)測 相比,這樣的預(yù)測容易實(shí)現(xiàn),結(jié)果較為可信,計算成本低,同時,以此為基礎(chǔ)可 以進(jìn)行進(jìn)化、功能等相關(guān)方面的研究,也可以為精細(xì)結(jié)構(gòu)預(yù)測的模板選擇提供有 價值的參考。 近年來,蛋白質(zhì)結(jié)構(gòu)的研究進(jìn)展使人們對生命過程和本質(zhì)的認(rèn)識已大大提 高,但是隨著許多問題的解決,更多深刻的問題又被提出來。相信在新的世紀(jì), 在后基因組研究計劃的推動下,蛋白質(zhì)的相關(guān)研究會獲得更大的發(fā)展,提升我們 對生命活動本質(zhì)的認(rèn)識。 1 2 蛋白質(zhì)結(jié)構(gòu)的層次 蛋白質(zhì)的結(jié)構(gòu)是分層次的,一級結(jié)構(gòu)即序列,由2 0 種氨基酸組成,在此基 礎(chǔ)上形成了蛋白質(zhì)的二級結(jié)構(gòu),根據(jù)一些折疊理論,這些二級結(jié)構(gòu)通過延伸、碰 撞等過程形成了三級結(jié)構(gòu),進(jìn)而行使復(fù)雜的功能。 1 2 1 蛋白質(zhì)的基本組成單位 氨基酸是蛋白質(zhì)的基本組成單位,氨基酸是帶有氨基的有機(jī)酸,它有一個氨 基、一個羧基、一個氫原子和一個r 基團(tuán)組成( 如圖1 1 ) 。每一個從細(xì)菌到人 類的所有物種中,一切蛋白質(zhì)都是由2 0 種氨基酸構(gòu)成的。氨基酸側(cè)鏈r 的大小、 形狀、電荷、形成氫鍵的能力和化學(xué)活性方面都存在著差異。蛋白質(zhì)的功能范圍 之所以如此之廣,就是由于這2 0 種氨基酸的差異,以及它們的各種組合的變化 結(jié)果,表1 1 是2 0 種氨基酸的簡寫和符號。 h n c c o h iii l hho 圖1 1 氨基酸結(jié)構(gòu)示意圖 f i g 1 1t h es c h e m a t i cd r a w i n go f s t r u c t u r eo fa m i n oa c i d s o _ 表1 i2 0 種氬基酸的符號 t a b l ei is y m b o l so f2 0a m i n oa c i d s 12 2 蛋白質(zhì)的結(jié)構(gòu)層次 由于蛋白質(zhì)的立體結(jié)構(gòu)的形成是分階段的,同時在已知立體結(jié)構(gòu)的蛋白質(zhì)中 也看到了不同類型的規(guī)則的有序結(jié)構(gòu),因此在這個基礎(chǔ)上提出了蛋白質(zhì)的結(jié)構(gòu)是 立體的多層次的學(xué)說。通常把蛋白質(zhì)結(jié)構(gòu)層次分為一級結(jié)構(gòu)、二級結(jié)構(gòu)、超二級 結(jié)構(gòu)、結(jié)構(gòu)域、三緞結(jié)構(gòu)以及四繳結(jié)構(gòu)( 圖1 2 ) 。 一、。 晤f j ,| 薛卜刮、i u o i 匠一e ,i a n l i n oa c i df e s i d u e s qh e l i x p u l y i 。l t e “i d i lba n 1 er 3 l m n o 圖1 - 2 蚩白質(zhì)的結(jié)構(gòu)層次 p i g 】一2t h es t r u c t u r a ll e v e l so f p r o t e i n ( 1 ) 一級結(jié)構(gòu) 蛋白質(zhì)級結(jié)構(gòu)是指多肽鏈的氨基酸殘基的排列順序,也是蛋白質(zhì)最基本的 結(jié)構(gòu)。它是由基因上遺傳密碼的排列順序決定的,各種氨基酸按遺傳密碼的順序 通過肚鍵連接起來。圖i 3 是溶茁酶的一級結(jié)構(gòu)。 礤翼一遂 器匪 g 彗! 堅(jiān):! :蘭! : 圖1 4 蛋白質(zhì)的一級結(jié)構(gòu) f i g i 一4 t h es e c o n d a r ys t r u c t u r e s o f p r o t e i n ( 3 ) 超= 級結(jié)構(gòu) 超二級結(jié)構(gòu)是介于蛋白質(zhì)二級結(jié)構(gòu)和三級結(jié)構(gòu)之刪的空間結(jié)構(gòu),指相鄰的兩 個或者多個二級結(jié)構(gòu)單兀組合在一起,彼此相互作用,排列成規(guī)則的、在空間結(jié) 構(gòu)上能夠辨認(rèn)的二級結(jié)構(gòu)組合體,并充當(dāng)三級結(jié)構(gòu)的構(gòu)件,其基本形式有o t l 、 b o b 、1 = ;1 3 1 3 等。圖1 - 5 是幾種蛋白質(zhì)超二級結(jié)構(gòu)。 第l 章緒論 聞畫 圖1 - 5 蛋白質(zhì)超二級結(jié)構(gòu) f i g 1 5t h es u p e r s e c o n d a r ys t r u c t u r e so fp r o t e i n ( 4 ) 結(jié)構(gòu)域 結(jié)構(gòu)域和超二級結(jié)構(gòu)都是在二級結(jié)構(gòu)和三級結(jié)構(gòu)之間公認(rèn)的過度層次,結(jié) 構(gòu)域通常是超二級結(jié)構(gòu)與二級結(jié)構(gòu)或者多個超二級結(jié)構(gòu)相互結(jié)合構(gòu)成,一般要大 于超二級結(jié)構(gòu)。 圖1 6 免疫球蛋白質(zhì)的結(jié)構(gòu)域劃分 f i g 1 - 6t h ed o m a i n so fi g gp r o t e i n 首先從結(jié)構(gòu)比較和解剖的角度,注意到一些大的球狀蛋白可以被拆分為若 干部分,各部分之間存在較為明顯的間隙。從蛋白質(zhì)折疊的角度,也認(rèn)識到一條 很長的肽鏈在折疊過程中,可能先由部分二級結(jié)構(gòu)構(gòu)象單元或超二級結(jié)構(gòu)折疊成 局部的、具有三級結(jié)構(gòu)的區(qū)域,而后幾個區(qū)域通過一定長度的肽鏈相連,成為一 個完整的蛋白質(zhì)立體結(jié)構(gòu)。 根據(jù)蛋自質(zhì)化學(xué)多方面的研究和觀察,提出了結(jié)構(gòu)域的概念,可以理解為 蛋白質(zhì)構(gòu)象單元組成的一些實(shí)體,它們有一定的三級結(jié)構(gòu),而且往往有特定但不 膩r筒b 磺臀雙 :堅(jiān):= :些: 完全的牛物活性,很多實(shí)驗(yàn)指出,這些結(jié)構(gòu)域之間的連接肽段或一些連接的肽鍵 經(jīng)過蛋白水解酶酶解斷裂以后??梢苑蛛x成彼此獨(dú)立的實(shí)體。 如圖1 6 ,免疫球蛋白g ( t g g ) ,一級結(jié)構(gòu)上,由兩條輕鏈和兩條重鏈組成, 不論從一級序列、高級結(jié)構(gòu)特征、或者蛋白酶水解實(shí)驗(yàn)都可以分為1 2 個結(jié)構(gòu) 域。每條輕鏈由兩個結(jié)構(gòu)域組成,每條重鏈由四個結(jié)構(gòu)域組成。單獨(dú)的l a b 結(jié)構(gòu) 域保留了部分功能,只能與抗原結(jié)合,但是不能引發(fā)免疫反應(yīng)。 ( 5 ) 三級結(jié)構(gòu) 三級結(jié)構(gòu)主要針對球狀蛋白質(zhì)而言,指的是整條多肽鏈由二級結(jié)構(gòu)元件構(gòu)建 成的總?cè)S結(jié)構(gòu),包括一級結(jié)構(gòu)中相距遠(yuǎn)的肽段之間的幾何相互關(guān)系,骨架和側(cè) 鏈在內(nèi)的所有原子的空間排列。圖1 7 是溶菌酶分子的三級結(jié)構(gòu)。 ( 6 ) 圖1 - 8 血紅蛋向的四級結(jié)構(gòu) f i gl 一8 t h e q u a t e r n a r ys 口u c m 砷o f h e m o g l o b i n 第1 章緒論 蛋白質(zhì)的四級結(jié)構(gòu)是指在亞基和亞基之間通過疏水作用等次級鍵結(jié)合成為 有序排列的特定的空間結(jié)構(gòu)。四級結(jié)構(gòu)的蛋白質(zhì)中每個球狀蛋白質(zhì)稱為亞基,亞 基通常由一條多肽鏈組成,有時含兩條以上的多肽鏈,單獨(dú)存在時一般沒有生物 活性。圖1 8 是一個簡單的四級結(jié)構(gòu)示例,兩個蛋白質(zhì)結(jié)構(gòu)域結(jié)合在一起以實(shí)現(xiàn) 功能。 1 3 蛋白質(zhì)結(jié)構(gòu)分類 截至0 8 年四月,p d b 數(shù)據(jù)庫中包含了約4 萬條蛋白質(zhì)記錄,有約4 萬條較 高質(zhì)量的數(shù)據(jù)( 見表1 2 ) ,經(jīng)過專家的細(xì)致工作,從其中可以剝離出9 萬多個結(jié) 構(gòu)域。由于肽鏈折疊的復(fù)雜性,從實(shí)驗(yàn)測得的一個晶體數(shù)據(jù)切割、劃分不同的結(jié) 構(gòu)域是一個繁雜的過程,存在一條鏈多條結(jié)構(gòu)域、一個結(jié)構(gòu)域多條鏈、結(jié)構(gòu)域之 間分界不明晰等等問題,s c o p 哺1 1 在這方面已經(jīng)做了大量基礎(chǔ)性的工作并取得 了普遍的認(rèn)可,下文中所有的研究工作,若非特殊說明,折疊類型的分類和識別 均是以s c o p 專家分割過的結(jié)構(gòu)域?yàn)榛締挝贿M(jìn)行。 表1 - 2p d b 保留的蛋白質(zhì)數(shù)目 t a b l e1 - 2c u r r e n th o l d i n g so f p r o t e i ni np d b 蘭竺:竺竺! 蘭:竺! 竺遮莖墨z 竺! 竺! ! ! ! r e c o r d s 4 0 0 6 66 3 211 198 84 6 5 9 4 規(guī)范化的蛋白質(zhì)結(jié)構(gòu)分類以數(shù)據(jù)庫的形式發(fā)布,對于結(jié)構(gòu)域的分類,應(yīng)用較 為廣泛的有s c o p ( 按照同源性分類) 、c a t h q 3 3 ( 根據(jù)結(jié)構(gòu)、序列相似性分類) 、 f s s p n 鉑( 通過結(jié)構(gòu)比對分類) 等數(shù)據(jù)庫。這些庫的分類的標(biāo)準(zhǔn)存在差異,分類 的手段不盡相同。研究者們分別從結(jié)構(gòu)、進(jìn)化、功能等不同的角度進(jìn)行分類以解 決不同的問題。不同的分類在某些層次差距較大,在一定的層次上,又大致相當(dāng), 后面會有相關(guān)討論。 1 3 1s c o p 分類及折疊子( f o l d ) 蛋白結(jié)構(gòu)分類數(shù)據(jù)庫( s t r u c t u r a lc l a s s i f i c a t i o no fp r o t e i n s ,s c o p ) 是英國醫(yī)學(xué) 研究委員會( m e d i c a lr e s e a r c hc o u n c i l ,m r c ) n t i 拘m r c 分子生物學(xué)實(shí)驗(yàn)室和蛋 白質(zhì)工程研究中心( m r cl a b o r a t o r yo fm o l e c u l a rb i o l o g ya n dc e n t r ef o rp r o t e i n e n g i n e e r i n g ) 開發(fā)維護(hù)的,它是通過手工比較輔以自動計算方法,對已知結(jié)構(gòu)的 北京工業(yè)大學(xué)理學(xué)碩士學(xué)位論文 蛋白質(zhì)進(jìn)行相似性分析和進(jìn)化同源性分析得到。 s c o p 的構(gòu)架是一種層狀結(jié)構(gòu),把蛋白質(zhì)結(jié)構(gòu)域從粗到細(xì)分成7 個層次:( 1 ) j 限( r o o t ) ;( 2 ) 結(jié)構(gòu)類( c l a s s ) ;( 3 ) 折疊子( f 0 1 d ) ;( 4 ) 超家埃( s u p e r f a m i l y ) ;( 5 ) 家族 ( f a m i l y ) ;( 6 ) 蛋白質(zhì)( p r o t e i n ) ;( 7 ) 種屬( s p e c i e s ) 。 表1 3s c o p 分類統(tǒng)計( 1 7 3 版) t a b l el 一3s c o pc l a s s i f i c a t i o ns t a t i s t i c s ( 1 7 3r e l e a s e ) c l a s sn u m b e ro fn u m b e ro fn u m b e ro f f o l d s s u p e r f a m i l i e s f a m i l i e s a l la l p h ap r o t e i n s2 5 94 5 97 7 2 a l lb e t ap r o t e i n s1 6 53 316 7 9 a l p h aa n db e t ap r o t e i n s ( a b ) 1 4 12 3 27 3 6 a l p h aa n db e t ap r o t e i n s ( a + b ) 3 3 44 8 88 9 7 m u l t i d o r a a i np r o t e i n s5 35 37 4 m e m b r a n ea n dc e l ls u r f a c ep r o t e i n s5 09 210 4 s m a l lp r o t e i n s8 5 12 22 0 2 t b t a l1 0 8 61 7 7 73 4 6 4 從分類程序上,s c o p 的分類先從序列家族開始,序列同一性大于3 0 的氨 基酸序列可以歸為一個家族,當(dāng)?shù)鞍踪|(zhì)結(jié)構(gòu)功能上有非常大的相似性,也可以降 低序列相似性要求,家族分類使用的是序列比對方法。 在家族的層次之上劃分超家族:當(dāng)家族之間結(jié)構(gòu)比對相似性非常顯著,或者 有功能上的研究證據(jù)表明他們可能來自共同的進(jìn)化祖先,則歸在同一個超家族, 超家族劃分的方法是結(jié)構(gòu)比對和參閱相關(guān)的文獻(xiàn)。 s c o p 的折疊子是在超家族的基礎(chǔ)上,按照二級結(jié)構(gòu)及其空間分布及拓?fù)溥B 接進(jìn)行分類。在物理和化學(xué)的角度上講,在蛋白質(zhì)折疊過程中,出于對結(jié)構(gòu)打包 方式的要求,不同源的蛋白質(zhì)可能有結(jié)構(gòu)上的相似。t o :,因此這些蛋白質(zhì)可以從結(jié) 構(gòu)的角度綜合考慮,它們之間的功能可能是沒有關(guān)系的,也有可能是有不明顯的 進(jìn)化關(guān)系及未被發(fā)現(xiàn)的關(guān)系,目前在s c o p 中,這一層的分類只能依靠專家的經(jīng) 驗(yàn)人工完成哺。 折疊類是按照二級結(jié)構(gòu)含量分的,即:( 1 ) 全0 【類( a l la l p h ap r o t e i n s ) ;( 2 ) 全 p 類( a l lb e t ap r o t e i n s ) ;( 3 ) a i o 類( a l p h aa n db e t ap r o t e i n s ( a 1 3 ) ) ;( 3 ) 0 【郵結(jié)構(gòu)類 ( a l p h aa n db e t ap r o t e i n s ( c t + 1 3 ) ) ;( 5 ) 多結(jié)構(gòu)域a p 混合蛋白質(zhì)( m u l t i d o m a i np r o t e i n s ( a l p h aa n db e t a ) ) ;( 6 ) 膜蛋白與細(xì)胞表面蛋白質(zhì)和肽( m e m b r a n ea n dc e l l s u r f a c e p r o t e i n sa n dp e p t i d e s ) ;( 7 ) 小蛋t 芻( s m a l lp r o t e i n s ) 。 s c o p 的最新統(tǒng)計數(shù)據(jù)及分類情況見表1 3 。 第l 章緒論 1 3 2 c a t h 分類及拓?fù)? t o p o l o g y ) c a t h 數(shù)據(jù)庫蛋白質(zhì)分類的構(gòu)架有5 個層次:( 1 ) 結(jié)構(gòu)類( c l a s s ) :( 2 ) 框架 ( a r c h i t e c t u r e ) :( 3 ) 拓?fù)? t o p o l o g y ) ;( 4 ) 同源( h o m o i o g y ) ;( 5 ) 序y l j ( s e q u e n c e ) 。c a t h 的名稱就來源于4 個層次的英文縮寫。 圖1 - 9s c o p 與c a t h 數(shù)據(jù)庫結(jié)構(gòu)比較示意圖 f i g 1 - 9s c h e m a t i cr e p r e s e n t a t i o nf o rc o m p a r i s o nb e t w e e ns c o pa n dc a t hd a t a b a s e s 表1 4c a m 分類統(tǒng)計( 3 1 0 版) t a b l e1 4c a t hc l a s s i f i c a t i o ns t a t i s t i c s ( 3 1 0r e l e a s e ) 第一層次主要是按蛋白質(zhì)二級結(jié)構(gòu)的含量來劃分。目前分為9 個“類”:( 1 ) 0 類( m a i n l ya l p h ac l a s s ) ;( 2 ) p 類( m a i n l yb e t ac l a s s ) ;( 3 ) 混合ad 類( m i x e d a l p h a - b e t ac l a s s ) ;( 4 ) 無二級結(jié)構(gòu)類( f e ws e c o n d a r ys t r u c t u r e sc l a s s ) ;( 5 ) 多結(jié)構(gòu) 域類( m u l t id o m a i nc l a s s ) ;( 6 ) 預(yù)分配的單結(jié)構(gòu)域類( p r e l i m i n a r ys i n g l ed o m a i n a s s i g n m e n t sc l a s s ) ;( 7 ) p s i b l a s t 序列家族類( p s i b l a s ts e q u e n c ef a m i l i e sc l a s s ) ;( 8 ) 大于3 5 序列家族類( c a t h 3 5s e q u e n c ef a m i l i e s ) ;( 9 ) 多鏈結(jié)構(gòu)域片斷類 ( f r a g m e n t sf r o mm u l t i c h a i nd o m a i n s ) 。其中,前4 類是蛋白質(zhì)主要的類別,第3 類包含了a + 1 3 類和a 1 3 類。 北京工業(yè)大學(xué)理學(xué)顧十學(xué)位論文 第二個層次是c a t h 的特色之處,它反映了二級結(jié)構(gòu)的空間取向,而不考慮 二級結(jié)構(gòu)之間的連接方式,故稱之為“框架 。形象地說,建筑刻畫了蛋白質(zhì)空 間的結(jié)構(gòu)模體,可直觀地區(qū)分蛋白質(zhì)3 d 結(jié)構(gòu)的框架。例如,3 層三明治( 3 一l a y e r s a n d w i c h ) ,桶( b a r r e l ) ,馬蹄( h o r s e s h o e ) ,螺旋槳( p r o p e l l e r ) 等,人工完成分類。 第三層次為“拓?fù)?,與s c o p 的第二層次“折疊子 相似,它是根據(jù)二級 結(jié)構(gòu)單元( s e c o n d a r ys t r u c t u r a le l e m e n t ) 的拓?fù)溥B接對蛋白質(zhì)結(jié)構(gòu)進(jìn)行分類的,其 識別方法是基于識別結(jié)構(gòu)相似性的經(jīng)驗(yàn)算法s s a p n 引,那些s s a p 程序打分大于 7 0 ,且二者中大結(jié)構(gòu)6 0 以上與小結(jié)構(gòu)匹配的蛋白質(zhì)被歸入同一拓?fù)浼易濉?第四層次為“同源”,與s c o p 的第三層次“家族 類似,c a t h 在此把共 同祖先( 具有相似結(jié)構(gòu)或功能) 的蛋白質(zhì)放入同一個同源超家族中,但c a t h 更注 重結(jié)構(gòu)本身的相似性。 第五層次被稱為“序列”,它具有比同源更強(qiáng)的氨基酸序列相似性,即氨基 酸序列全同性大于3 5 ,且較大蛋白質(zhì)至少有6 0 與較小蛋白質(zhì)相匹配,包括 具有相似的結(jié)構(gòu)和功能。c a t h 與s c o p 的異同如圖1 - 9 所示,c a t hv 3 1 o 的 分類見表l 一4 。 1 3 3f s s p 自動分類 f s s p 是結(jié)構(gòu)相似蛋白質(zhì)家族( f a m i l i e so fs t r u c t u r a l l y s i m i l a rp r o t e i n s ) 的縮 寫,它們的蛋白質(zhì)來源于p d b 。目前f s s p 數(shù)據(jù)庫中約有3 3 0 種具有代表性的蛋 白結(jié)構(gòu)家族,收錄了32 4 2 個序列家族,3 06 2 4 蛋白質(zhì),收錄蛋白質(zhì)的標(biāo)準(zhǔn)為: 彼此結(jié)構(gòu)同源性范圍為3 0 7 0 ,小于3 0 被認(rèn)為同源性較小,大于7 0 則結(jié) 構(gòu)差別不大。 f s s p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論