已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大連理工大學(xué)碩士學(xué)位論文 摘要 人類基因組計(jì)劃己進(jìn)入到后基因組時(shí)代,對(duì)蛋白質(zhì)結(jié)構(gòu)和功能的研究和預(yù)測(cè)成為其 主要的研究方向之一。由于通過實(shí)驗(yàn)確定蛋白質(zhì)的結(jié)構(gòu)和功能速度較慢,而且會(huì)遇到一 些目前無法解決的困難。因此探索利用理論及計(jì)算方法來從氨基酸序列快速地推斷出蛋 白質(zhì)的結(jié)構(gòu)和功能具有重要意義。本文從氨基酸序列出發(fā),研究了同源寡聚蛋白質(zhì)分類, 主要工作如下: 本文介紹了特征提取方法和同源寡聚蛋白質(zhì)分類的研究現(xiàn)狀,并對(duì)同源二聚體和同 源非二聚體蛋白質(zhì)使用了基于偽氨基酸組成成分特征提取和信息熵方法進(jìn)行分類研究。 偽氨基酸組成成分特征提取方法以傳統(tǒng)的氨基酸組成成分為基礎(chǔ),又考慮了不同層次殘 基之間的相互影響,包含了蛋白質(zhì)序列的許多信息,根據(jù)這一特點(diǎn),本文使用了偽氨基 酸組成成分作為特征提取方法。f d o d 方法是基于信息熵的信息離散性度量函數(shù),它和叉 熵之間存在內(nèi)在的聯(lián)系,文中對(duì)它們之間的關(guān)系進(jìn)行了研究,并在叉熵的基礎(chǔ)上對(duì)多分 布偏差度量進(jìn)行了進(jìn)一步的思考。由于f d o d 是叉熵的一種形式,因此在它的基礎(chǔ)上根 據(jù)特征向量的提取情況,對(duì)同源寡聚蛋白質(zhì)進(jìn)行分類。其分類能力比使用子序列分布為 2 的f d o d 方法要好。 本文中在原數(shù)據(jù)集中隨機(jī)抽取一些數(shù)據(jù)構(gòu)建了一個(gè)子數(shù)據(jù)集,并使用同樣的方法對(duì) 子數(shù)據(jù)集進(jìn)行分類。比較了兩個(gè)數(shù)據(jù)集的分類結(jié)果,表明數(shù)據(jù)集的大小對(duì)分類系統(tǒng)的影 響較大。同時(shí),對(duì)偽氨基酸組成成分特征提取方法的中權(quán)重園子的選取進(jìn)行了討論,說 明它可用于調(diào)節(jié)氨基酸序列次序信息對(duì)分類系統(tǒng)的影響程度,在計(jì)算中可根據(jù)結(jié)果的優(yōu) 劣適當(dāng)選取。 關(guān)鍵詞:生物信息學(xué):同源二聚體;同源非二聚體;偽氨基酸組成成分特征提??;f d o d 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 i n f o r m a t i o ne n t r o p ym e t h o di nc l a s s i f i c a t i o no fh o m o o l i g o m e r i c a b s t r a c t w i t l lh g pe n t e r i n gi n t op o s t g e n o m ee r a , h o wt or e s e a r c ha n dt op r e d i c tt h es t r u c t u r e a n dt h ef u n c t i o no fp r o t e i n sh a sp l a y e da ni m p o r t a n tr o l e t h es t r u c t u r ea n dt h ef u n c t i o no f p r o t e i n sm a yb ed e t e r m i n e d b ym e a n so fe x p e r i m e n t ,b u ti tc o s t sm u c ht i m ea n dm a yb em e e t l o t so fd i f f i c u l t i e s s ot h es c i e n t i s t sh a v eb e i n gs o u g h tt h et h e o r e t i c a la n dc o m p u t a t i o n a l m e t h o d sf o rp r e d i c t i n g 也e m t m sp a p e ri n v e s t i g a t e st oc l a s s i f i c a t i o no fh o m o o l i g o m e r i cp r o t e i n sf r o mp r i m a r y s t r u c t u r e m a i nc o n t e n t so f t h i sp a p e ra r ea sf o l l o w s : s o m e e x i s t i n g m e t h o d sf o rf e a t u r ee x t r a c t i o nm e t h o da n dc l a s s i f i c a t i o no f h o m o o l i g o m e r i cp r o t e i n sa r ei n t r o d u c e d 。p s e u d oa m i n oa c i dc o m p o s i t i o na n df d o dm e t h o d s a r ea p p l i e dt od i s c r i m i n a t eb e t w e e nh o m o d i m e r sa n dn o n - h o m o d i m e r s p s e u d oa m i n oa c i d c o m p o s i t i o nk e e p st h em a i nf e a t u r eo fa m i n oa c i dc o m p o s i t i o n ;o nt h eo t h e rh a n d ,i tt a k e s i n t oa c c o u n ts e q u e n c e - o r d e rc o r r e l a t i o nw i t hd i f f e r e n tr a n k s ,w h i c hc o n t a i nm o r ei n f o r m a t i o n b e y o n dt h ec l a s s i ca m i n oa c i dc o m p o s i t i o n s oi ti su s e da saf e a t u r ee x t r a c t i o nm e t h o di nt h i s t e x t f d o dm e t h o di saf u n c t i o no fd e g r e eo fd i s a g r e e m e n tw h i c hi sb a s e do ns h a n n o n e n t r o p y ,s oi th a si n t e r n a lc o n n e c t i o n 謝t hk le n t r o p y t h ec o n n e c t i o ni ss t u d i e d b a s e do n k - le n t r o p y ,t h em e t h o do fm e a s u r i n gd i s a g r e e m e n tf o rs e v e r a ld i s t r i b u t i o n si si m p r o v e d f d o dm e t h o di sa p p l i e db yn o tt a k i n gi n t oa c c o u n tt h es u b s e q u e n c ed i s t r i b u t i o n ,b u t a u g m e n t i n gt h ed i m e n s i o no fd i s t r i b u t i o n sw h i c hg e tf r o mp s e u d oa m i n oa c i dc o m p o s i t i o n 。 t h ec l a s s i f i c a t i o nr e s u l t sa r eb e t t e rt h a nt h o s eo ff d o dw h i c hl e n g t ho fs u b s e q u e n c ei st w o i nt 1 1 i sp r e s e n tw o r k as u b s e td a m b a s ei se s t a b l i s h e d i ti sr a n d o m l ys e l e c t e df r o mt h e o r i g i n a ld a t a b a s ea n da p p l i e dt oc l a s s i f y c o m p a r e dw i t ht w or e s u l t s ,i ti se v i d e n tt h a tt h e d a t a b a s es i z eh a sg r e a ti n f l u e n c eo nt h ep e r f o r m a n c eo ft h ep r e d i c t i o ns y s t e m 1 1 l ec l a s s i f y i n g r e s u l t sm a yb ea l s oi n f l u e n c e db yt h ew e i g h t e df a c t o r t h e r ei sa no p t i m a lv a l u eo f w e i g h t e d f a c t o rt ob es e l e c t e d k e yw o r d s :b i o i n f o r m a t i c s ;h o m o d i m e r s ;n o n - h o m o d i m e r s ;p s e u d oa m i n oa c i d c o m p o s i t i o n ;f d o d i i 獨(dú)創(chuàng)性說明 作者鄭重聲明:本碩士學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工 作及取得研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外, 論文中不包含其他人已經(jīng)發(fā)表或撰寫的研究成果,也不包含為獲得大連理 工大學(xué)或者其他單位的學(xué)位或證書所使用過的材料。與我一同工作的同志 對(duì)本研究所做的貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。 作者簽名:墊迅,日期:冱丘:塑 大連理工大學(xué)碩士研究生學(xué)位論文 大連理工大學(xué)學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者及指導(dǎo)教師完全了解“大連理工大學(xué)碩士、博士學(xué)位論文版權(quán)使用 規(guī)定 ,同意大連理工大學(xué)保留并向國家有關(guān)部門或機(jī)構(gòu)送交學(xué)位論文的復(fù)印件和電子 版,允許論文被查閱和借閱。本人授權(quán)大連理工大學(xué)可以將本學(xué)位論文的全部或部分內(nèi) 容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,也可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論 文。 作者簽名:塑豳 導(dǎo)師簽 迦年上匕月絲日 大趣工大學(xué)碩士學(xué)位論文 1 緒論 1 1 同源寡聚蛋白質(zhì)分類研究的背景 人類基因組計(jì)劃( h u a m ug e n o m ep r o j e e t , h g p ) 與曼哈頓原子彈研制計(jì)劃、阿波羅 登月計(jì)劃并稱為2 0 世紀(jì)人類發(fā)展的三大科技計(jì)劃它對(duì)人類認(rèn)識(shí)和保護(hù)自身具有深遠(yuǎn) 的意義。隨著h g p 的實(shí)施,基因組測(cè)序數(shù)據(jù)迅猛增加,逐漸興起了- - l - j 新興學(xué)科一 生物信息學(xué)。它主要是利用計(jì)算機(jī)存儲(chǔ)核酸和蛋白質(zhì)序列,研究算法,對(duì)序列進(jìn)行分析、 比較與預(yù)測(cè),從中發(fā)現(xiàn)規(guī)律,揭示功能f l j 。同源寡聚蛋白質(zhì)分類預(yù)測(cè)正是其中的一個(gè)重 要的研究方向。 1 1 1 人類基因組計(jì)劃 人類基因組計(jì)劃是美國科學(xué)家子1 9 8 5 年在能源部的一次會(huì)議上提出的初步草案。 1 9 8 6 年諾貝爾獎(jiǎng)獲得者r d u l b e x x m 在s c i e n c e 上發(fā)表了一篇題為“癌癥研究的轉(zhuǎn)折點(diǎn)一 人類基因組的全序列分析”的短文。文中回顧了7 0 年代以來癌癥的研究情況,指出: 包括癌癥在內(nèi)的疾病的發(fā)生都與基因直接、間接有關(guān)。他認(rèn)為從整體上研究和分析整個(gè) 人類基因組及其序列的方法是一項(xiàng)具有重大意義的計(jì)劃。 1 9 8 9 年美國成立“國家人類基因組研究中心”。諾貝爾獎(jiǎng)獲得者、d n a 分子雙螺旋 模型提出者j w a s t o n 出任第一任主任。1 9 9 0 年1 0 月1 日美國人類基因組計(jì)劃正式啟動(dòng), 計(jì)劃用1 5 年時(shí)問,總投資不少于3 0 億美元進(jìn)行人類全基因組的測(cè)序和分析工作。此計(jì) 劃在1 9 9 3 年作了修訂,其主要內(nèi)容包括:人類基因組的基因圖構(gòu)建與序列分析;人類 基因的鑒定;基因組研究技術(shù)的建立;人類基因組研究的模式生物;信息系統(tǒng)的建立。 此外,還有人類基因組研究的社會(huì)、法律與倫理問題,交叉學(xué)科的技術(shù)訓(xùn)練,技術(shù)的轉(zhuǎn) 讓,研究計(jì)劃的外延等共9 方面的內(nèi)容。 人類基因組計(jì)劃最初的目標(biāo)是:通過國際合作,用1 5 年時(shí)間構(gòu)建詳細(xì)的人類基因 組遺傳圖和物理圖,并期望通過分析每個(gè)人類基因的功能和基因在染色體上的位置,使 醫(yī)學(xué)專家們了解所有疾病的分子結(jié)構(gòu),從而在根本上獲得治療的方法,迸而破譯人類全 部遺傳信息,使人類第一次在分子水平上全面地認(rèn)識(shí)自我,最終解開人類生命的奧秘。 由于技術(shù)的改進(jìn),計(jì)劃提取完成,于2 0 0 1 年2 月1 2 日完成并公布了準(zhǔn)確、清晰、 完整的人類基因組圖譜。但是,入類基因組計(jì)劃的分析還在很初步的階段。隨著基因組 計(jì)劃的進(jìn)一步實(shí)施,特別是后基因組計(jì)劃的發(fā)展,更加需要對(duì)數(shù)據(jù)進(jìn)行分析、比較、建 模和預(yù)測(cè),以推動(dòng)生物信息學(xué)的迅速發(fā)展。后基因組的研究,將成為2 l 世紀(jì)生命科學(xué) 研究的主要任務(wù)i l j ,麗這離不開生物信息學(xué)的發(fā)展。 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 1 1 2 生物信息學(xué) 隨著人類基因組計(jì)劃的實(shí)旅,有關(guān)核酸和蛋白質(zhì)的數(shù)據(jù)呈爆炸性的增長,為了存貯 分析處理這些數(shù)據(jù),一門新興的交叉學(xué)科生物信息學(xué)( b i o i n f o r m a t i c s ) 在2 0 世紀(jì)8 0 年代 末期正式誕生。雖然它誕生才近2 0 年,但發(fā)展極其迅猛,已經(jīng)成為當(dāng)今生命科學(xué)的一 個(gè)重要的前沿領(lǐng)域。 廣義地說,生物信息學(xué)從事對(duì)生物信息的獲取、加工、儲(chǔ)存、分配、分析和釋讀, 并綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)工具,以達(dá)到理解數(shù)據(jù)中的生物學(xué)含義的目標(biāo)。 具體地說,生物信息學(xué)是把基因組d n a 序列信息分析作為源頭,找到基因組序列 中代表蛋白質(zhì)和r n a 基因的編碼區(qū);同時(shí),闡明基因組中大量存在的非編碼區(qū)的信息 實(shí)質(zhì)。破譯隱藏在d n a 序列中的遺傳語言規(guī)律。在此基礎(chǔ)上,歸納、整理與基因組遺 傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認(rèn)識(shí)生物代謝、發(fā)育、分化、 r 1 進(jìn)化的規(guī)律h 。 生物信息學(xué)研究的主要內(nèi)容包括:基因組、蛋白質(zhì)組和蛋白質(zhì)結(jié)構(gòu)及藥物設(shè)計(jì)。 ( 1 ) 基因組 亂獲取人和各種生物的完整基因組 基因組研究的首要目標(biāo)是獲得人的整套遺傳密碼。人的遺傳密碼有3 2 億個(gè)堿基, 要得到人的全部遺傳密碼首先要把人的基因組打碎,鍘完一個(gè)個(gè)小段的序列后再把它們 重新拼接起來。迄今為止,人們對(duì)人類基因組真正掌握規(guī)律的只有d n a 上的編碼蛋白 質(zhì)的區(qū)域,最新資料表明這部分序列只占基因組的1 。l 。在高等生物和人的基因組中 非編碼序列己占到基因組序列的絕大部分。這表明非編碼序列具有重要的生物功能。由 于它們并不編碼蛋白質(zhì),一般認(rèn)為,它們的生物學(xué)功能可能體現(xiàn)在對(duì)基因表達(dá)的時(shí)空調(diào) 控上。 b 發(fā)現(xiàn)新基因 利用e s t ( e x p r c s s e ds e , q u e n c et a g s ) 數(shù)據(jù)庫發(fā)現(xiàn)新基因稱為基因的“電腦克隆”。e s t 序列是基因表達(dá)的短c 餅q a 序列,它們攜帶著完整基因的某些片段的信息。通過計(jì)算 分析從基因組d n a 序列中確定新基因編碼區(qū),已經(jīng)形成許多分析方法,如根據(jù)編碼區(qū) 具有的獨(dú)特序列特征、根據(jù)編碼區(qū)與非編碼區(qū)在堿基組成上的差異等。截止到2 0 0 1 年 l o 月,在g c n b a n k 的e s t 數(shù)據(jù)庫中,人類e s t 序列已超過3 8 0 萬條,它大約覆蓋了人類 基因的9 0 以上。 此外,還可以從基因組序列預(yù)測(cè)新基因,其本質(zhì)是把基因組上編碼蛋白質(zhì)的區(qū)域和 非編碼蛋白質(zhì)的區(qū)域區(qū)分開從方法上講,就是找出在編碼區(qū)和非編碼區(qū)有哪些數(shù)學(xué)和 物理學(xué)特征是不一樣的,將這些序列與已知基因數(shù)據(jù)庫進(jìn)行比較,就可以發(fā)現(xiàn)新基因。 一2 一 大連理工大學(xué)硬:t - - 撇 c 發(fā)現(xiàn)單核苷酸多態(tài) 基因組存在的差異很多表現(xiàn)為單個(gè)堿基上的變異,也就是單核苷酸的多態(tài)性( s i n g l e n u c l e o t i d ep o l y m o r p h i s m , s n t ) 一般認(rèn)為,s h i p 研究是人類基因組計(jì)劃走向應(yīng)用的重要步驟。這主要是因?yàn)閟 n p 將提供一個(gè)強(qiáng)有力的工具,用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計(jì)和 測(cè)試以及生物學(xué)的基礎(chǔ)研究等。s n p 在基因組中分布相當(dāng)廣泛。近年的研究表明,在人 類基因組中每3 0 0 個(gè)堿基對(duì)就出現(xiàn)一次。大量存在的s n p 位點(diǎn),使人們有機(jī)會(huì)發(fā)現(xiàn)與 各種疾病相關(guān)的基因組突變。 ( 2 ) 蛋白質(zhì)組 基因組對(duì)生命體的整體控制必須通過它所表達(dá)的全部蛋白質(zhì)來執(zhí)行,由于基因芯片 技術(shù)只能反映從基因組到r n a 的轉(zhuǎn)錄水平上的表達(dá)情況,而從r n a 到蛋白質(zhì)還有許多 中間環(huán)節(jié)的影響,這樣,僅憑基因芯片技術(shù)人們還不能最終掌握生物功能的具體執(zhí)行者 蛋白質(zhì)的整體表達(dá)狀況。因此,近年在發(fā)展基因芯片的同時(shí),人們還發(fā)展了一套研 究基因組所有蛋白質(zhì)產(chǎn)物表達(dá)情況的技術(shù)一一蛋白質(zhì)組研究技術(shù),從技術(shù)上講包括二維 凝膠電泳技術(shù)和質(zhì)譜測(cè)序技術(shù)。通過二維凝膠電泳技術(shù)可以獲得某一時(shí)間截面上蛋白質(zhì) 組的表達(dá)情況,通過質(zhì)譜測(cè)序技術(shù)則可以得到所有這些蛋白質(zhì)的序列組成。然而,最重 要的是如何運(yùn)用生物信息學(xué)的方法去分析獲得的海量數(shù)據(jù),從中還原出生命運(yùn)轉(zhuǎn)和調(diào)控 的整體系統(tǒng)的分子機(jī)制。 ( 3 ) 蛋白質(zhì)結(jié)構(gòu)及藥物設(shè)計(jì) 基因組和蛋白質(zhì)組研究的迅猛發(fā)展,使許多新蛋白序列涌現(xiàn)出來。然而,要了解它 們的功能,只有氨基酸序列是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)榈鞍踪|(zhì)的功能是通過其三維結(jié)構(gòu)來執(zhí)行 的,而且蛋白質(zhì)的三維結(jié)構(gòu)不一定是靜態(tài)的,在執(zhí)行功能的過程中,其結(jié)構(gòu)會(huì)有所改變。 目前,除了通過諸如x 射線晶體結(jié)構(gòu)分析、多維核磁共振波譜分析和電子顯微鏡二維晶 體三維重構(gòu)等物理方法獲得蛋白質(zhì)的三維結(jié)構(gòu)之外,廣泛使用的一種方法是通過計(jì)算機(jī) 輔助預(yù)測(cè)的方法。一般認(rèn)為,蛋白質(zhì)的折疊類型只有數(shù)百到數(shù)千種,遠(yuǎn)遠(yuǎn)小于蛋白質(zhì)所 具有的自由度數(shù)目,而且蛋白質(zhì)的折疊類型與其氨基酸序列具有相關(guān)性,這樣就有可能 直接從蛋白質(zhì)的氨基酸序列,通過計(jì)算機(jī)輔助方法預(yù)測(cè)出蛋白質(zhì)的三維結(jié)構(gòu)。傳統(tǒng)的藥 物研制方法是從大量的天然產(chǎn)物和合成化合物中進(jìn)行篩選。為獲得一個(gè)可供臨床使用的 藥物,耗資和耗時(shí)都是巨大的。進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)的模擬和蛋白質(zhì)功能的預(yù)測(cè),進(jìn)而 將此信息與生物體和生命過程的生理和生化信息結(jié)合,闡明其分子機(jī)制,最終進(jìn)行分子 設(shè)計(jì)藥物設(shè)計(jì)和個(gè)體化的醫(yī)療保健設(shè)計(jì)。 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 生物信息學(xué)的研究目標(biāo):認(rèn)識(shí)生命的起源、進(jìn)化、遺傳和發(fā)育的本質(zhì),破譯隱藏在 d n a 序列中的遺傳語言,揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律”, 揭示人體生理和病理過程的分子基礎(chǔ),為人類疾病的診斷、預(yù)防和治療提供最合理而有 效的方法和途徑。 1 2 同源寡聚蛋白質(zhì)分類預(yù)測(cè)的意義 人類基因組計(jì)劃已經(jīng)基本完成,進(jìn)入到后基因組時(shí)代( p o s t - g e n o m ee r a ) ,即揭示基因 組及其保護(hù)的全部基因的功能,以及對(duì)基因產(chǎn)物蛋白質(zhì)結(jié)構(gòu)和功能的研究和預(yù)測(cè)。 蛋白質(zhì)組學(xué)成為一個(gè)與基因組相對(duì)應(yīng)的概念。蛋白質(zhì)組是指由一個(gè)細(xì)胞或一個(gè)組織的基 因所表達(dá)的全部相應(yīng)的蛋白質(zhì)。它是一個(gè)動(dòng)態(tài)的概念:不同組織和不同發(fā)育時(shí)期所表達(dá) 的蛋白不同;基因在轉(zhuǎn)錄后,還有一系列的修飾、翻譯等過程都可以影響蛋白質(zhì)的表達(dá)。 因此通過對(duì)蛋白質(zhì)組的研究,更能闡明遺傳、發(fā)育、進(jìn)化、功能調(diào)控等基本生物學(xué)問題, 以及與人類健康和疾病相關(guān)的生物醫(yī)學(xué)問題l l j 蛋白質(zhì)的生物學(xué)功能在很大程度上取決于其空間結(jié)構(gòu),蛋白質(zhì)結(jié)構(gòu)構(gòu)象多樣性導(dǎo)致 了不同的生物學(xué)功能。蛋白質(zhì)結(jié)構(gòu)與功能關(guān)系研究是進(jìn)行蛋白質(zhì)功能預(yù)測(cè)及蛋白質(zhì)設(shè)計(jì) 的基礎(chǔ)。蛋白質(zhì)分子只有處于它自己特定的三維空間結(jié)構(gòu)情況下,才能獲得它特定的生 物活性;三維空間結(jié)構(gòu)稍有破壞,就很可能會(huì)導(dǎo)致蛋白質(zhì)生物活性的降低甚至喪失。目 前,研究蛋白質(zhì)空間結(jié)構(gòu)主要方法有x 射線晶體衍射方法、多維核磁共振方法等。x 射 線晶體衍射方法是迄今為止研究蛋白質(zhì)結(jié)構(gòu)最有效的方法。但是,有機(jī)小分子的x 射線 。 結(jié)構(gòu)測(cè)定分辨率約l a ,極少有蛋白質(zhì)晶體具有這種有序程度,并且,不是所有蛋白質(zhì) 都可被巧妙地結(jié)晶,亦即以有序三維陣列方式沉淀。即使形成晶體的蛋白質(zhì)也與多數(shù)有 機(jī)小分子晶體不同,它們是高度水化的,且晶體結(jié)構(gòu)測(cè)定的周期較長。多維核磁共振方 法可以直接測(cè)定蛋白質(zhì)在溶液中的構(gòu)象,可以闡明那些無法結(jié)晶的蛋白質(zhì)的結(jié)構(gòu)。但由 于對(duì)樣品的需要量大、純度高,被測(cè)定的蛋白質(zhì)的分子量一般不超過2 萬等,因而也受 到很大限制p 一。能夠知道結(jié)構(gòu)的蛋白質(zhì)數(shù)量與已知序列的蛋白質(zhì)數(shù)量相差很大,而且 這一差距越來越大。顯然,所有蛋白質(zhì)的空間結(jié)構(gòu)和功能都通過實(shí)驗(yàn)測(cè)定是不現(xiàn)實(shí)的, 因而有必要發(fā)展一種可靠的理論預(yù)測(cè)方法,借助于計(jì)算的手段來得到某種程度的解決。 也就是充分利用蛋白質(zhì)的一級(jí)序列信息來研究結(jié)構(gòu)與功能的關(guān)系,利用己知蛋白質(zhì)的結(jié) 構(gòu)信息,研究生物大分子的規(guī)律和規(guī)則。 1 9 6 1 年a 面l n s e n 等根據(jù)變性的核糖核酸酶a 在一定條件下可以自發(fā)地再折疊形成 天然酶分子的實(shí)驗(yàn),提出蛋白質(zhì)分子的一級(jí)序列完全決定其三維結(jié)構(gòu)的著名論斷 s l ,并 因此獲得諾貝爾獎(jiǎng),后來這一論斷多次被實(shí)驗(yàn)證實(shí),在蛋白質(zhì)領(lǐng)域被廣泛接受。盡管近 大連理工大學(xué)碩士學(xué)位論文 些年對(duì)蛋白質(zhì)折疊過程的研究發(fā)現(xiàn)有“分子伴侶”參與折疊過程,但是“分子伴侶”可 能只是起到穩(wěn)定折疊中間體的作用,并不影響蛋白質(zhì)的最終折疊構(gòu)象,蛋白質(zhì)的一級(jí)結(jié) 構(gòu)決定高級(jí)結(jié)構(gòu)是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的基礎(chǔ) 蛋白質(zhì)高級(jí)結(jié)構(gòu)是指蛋白質(zhì)的二、三、四級(jí)結(jié)構(gòu)。具有四級(jí)結(jié)構(gòu)的蛋白質(zhì)稱為寡聚 蛋白質(zhì),其中每個(gè)球狀蛋白質(zhì)稱為亞基。由相同亞基構(gòu)成的寡聚蛋白質(zhì)稱為同源寡聚蛋 白質(zhì)。寡聚蛋白質(zhì)不是亞基的簡單組合,和單體蛋白質(zhì)相比,結(jié)構(gòu)更加復(fù)雜,功能更加 多樣化,它們廣泛地參與物質(zhì)代謝、信號(hào)傳導(dǎo)、染色體復(fù)制等各種生命活動(dòng),因此從蛋 白質(zhì)一級(jí)結(jié)構(gòu)出發(fā)對(duì)蛋白質(zhì)四級(jí)結(jié)構(gòu)分類預(yù)測(cè),從而研究蛋白質(zhì)的功能具有重要的生物 學(xué)意義。 1 3 國內(nèi)外研究現(xiàn)狀 目前,對(duì)于同源寡聚蛋白質(zhì)分類研究較少,主要有以下幾種方法: 2 0 0 1 年,o a r i a n r n 首次在b i o i n f o r m a t i c s 發(fā)表了利用決策樹和簡單b i n n i n g f u n c t i o n 特征提取方法從蛋白質(zhì)一級(jí)結(jié)構(gòu)出發(fā)對(duì)同源二聚體和同源非二聚體蛋白質(zhì)進(jìn)行分類的 研究結(jié)果,證實(shí)了蛋白質(zhì)一級(jí)結(jié)構(gòu)即氨基酸序列包含四級(jí)結(jié)構(gòu)信息。c _ r t i r nr 在預(yù)測(cè)時(shí) 不僅考慮了氨基酸序列信息,而且還考慮了氨基酸的物理、化學(xué)和生物特性。計(jì)算結(jié)果 的精度較低。 2 0 0 3 年,c h o uk c 7 j 等人使用偽氨基酸組成成分特征提取和協(xié)方差判別式( c o v a r i a n t d i s c n m i n a n ta l g o r i t h m ) 方法對(duì)多類同源寡聚蛋白質(zhì)進(jìn)行分類。分類結(jié)果優(yōu)于決策樹方法。 偽氨基酸組成成分特征提取方法反映了埋藏在締合亞基作用部分接觸表面的基本信息, 比基本氨基酸組成方法包含了更多的蛋白質(zhì)結(jié)構(gòu)信息 2 0 0 3 年,西北工業(yè)大學(xué)的張紹武州等人利用支持向量機(jī)和貝葉斯兩種方法對(duì)同源寡 聚蛋白質(zhì)進(jìn)行分類預(yù)測(cè)。利用支持向量機(jī)方法時(shí),它的核函數(shù)及其參數(shù)的選取對(duì)分類結(jié) 果有影響,但與決策樹方法相比較,支持向量機(jī)方法只考慮了氨基酸序列信息,而且分 類結(jié)果要優(yōu)于決策樹方法,從而說明支持向量機(jī)方法用于蛋白質(zhì)四級(jí)結(jié)構(gòu)分類是一種非 常有效的方法。貝葉斯方法中只有錯(cuò)誤分類的正樣本率略好于上述兩種方法,其計(jì)算精 度不如決策樹和支持向量機(jī)方法,但結(jié)果可說明同源寡聚蛋白質(zhì)一級(jí)序列包含四級(jí)結(jié)構(gòu) 的信息。 同年,張紹武【9 j 等人又在b i o i n f o r m a t i c s 發(fā)表了基于自相關(guān)函數(shù)特征提取方法,使 用支持向量機(jī)作為分類器對(duì)同源二聚體和同源非二聚體進(jìn)行分類的論文。文中自相關(guān)函 數(shù)特征提取方法考慮了氨基酸的物理、化學(xué)等性質(zhì),分類結(jié)果優(yōu)于基于傳統(tǒng)氨基酸組成 方法的分類結(jié)果。 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 2 0 0 4 年,大連理工大學(xué)的宋杰【l o 1 1 】利用子序列與支持向量機(jī)方法、子序列與y d o d 方法對(duì)同源寡聚蛋白質(zhì)進(jìn)行分類預(yù)測(cè)。在支持向量機(jī)的模型和算法方面,構(gòu)造了一種基 于線形規(guī)劃的v - s v m 分類器,證明了參數(shù)v 具有明確的意義,可以控制支持向量的數(shù) 目和誤差,可直接利用比較成熟的線性規(guī)劃算法,計(jì)算時(shí)間比以前的支持向量機(jī)方法要 快幾十到幾百倍,而分類準(zhǔn)確率兩者相當(dāng)。 f d o d 方法是方偉武教授基于信息論中熵的概念提出的一種信息離散性度量函數(shù)。 宋杰把子序列分布與f d o d 函數(shù)應(yīng)用于同源寡聚蛋白質(zhì)的分類預(yù)測(cè),雖然結(jié)果的精度略 低于支持向量機(jī)方法,但是f d o d 方法計(jì)算簡單快速。 2 0 0 6 年,施建宇1 1 2 j 等提出了氨基酸組成分布概念。并基于氨基酸組成分布( 一種 新的特征提取方法) ,使用支持向量機(jī)作為成員分類器,采用“一對(duì)一”的多類分類策 略對(duì)同源寡聚蛋白質(zhì)進(jìn)行分類。 2 0 0 6 年,y u 1 1 3 j 等提出使用功能域組成( f i m c t i o n a ld o m a nc o m p o s i t i o n ) 方法對(duì)同 源寡聚蛋白質(zhì)進(jìn)行多類分類。功能域組成方法首先查找數(shù)據(jù)集中所有蛋白質(zhì)的全部功能 域,然后構(gòu)建數(shù)據(jù)集中每條蛋白質(zhì)的功能域特征向量,最后利用最小鄰近法對(duì)蛋白質(zhì)進(jìn) 行分類。 1 4 本文組織結(jié)構(gòu) 本文的具體內(nèi)容安排如下: 第一章介紹選題的背景、意義以及國內(nèi)外研究現(xiàn)狀。 第二章為蛋白質(zhì)基礎(chǔ)知識(shí),詳細(xì)介紹了蛋白質(zhì)的組成、結(jié)構(gòu)層次、穩(wěn)定和維持蛋白 質(zhì)高級(jí)構(gòu)象的因素、蛋白質(zhì)的生物學(xué)功能。 第三章和第四章分別介紹了特征提取方法和f d o d 函數(shù)的基本理論,并對(duì)它們的發(fā) 展、應(yīng)用做了詳細(xì)的說明和比較。在第四章中,分析f d o d 與叉熵的關(guān)系,并對(duì)f d o d 方法做了進(jìn)一步的思考。 第五章為本文重點(diǎn),利用偽氨基酸組成成分特征提取和f d o d 方法對(duì)同源寡聚蛋白 質(zhì)進(jìn)行分類計(jì)算。文中給出了具體的數(shù)值實(shí)驗(yàn)結(jié)果,并探討了數(shù)據(jù)集大小、權(quán)重因子的 選取對(duì)分類結(jié)果的影響。 大連理工大學(xué)碩士學(xué)位論文 2 蛋白質(zhì)基礎(chǔ)知識(shí) 蛋白質(zhì)是生物體的基本組成成分。蛋白質(zhì)英文一詞“p r o t e i n ”,是在1 8 3 9 年由荷 蘭化學(xué)家g j m u l d e r 首先用來表示化合物的【3 】蛋白質(zhì)在生物體的生命活動(dòng)中起著重要 的作用。生物體內(nèi)的蛋白質(zhì)種類極其繁多。分布極其廣泛,所擔(dān)負(fù)的任務(wù)也是多種多樣 的。人體蛋白質(zhì)含量達(dá)人體于重的4 5 ,估計(jì)人體有1 0 萬種以上蛋白質(zhì)。幾乎參與所 有的生命活動(dòng),生物體的生長、發(fā)育、繁殖、遺傳等等生命活動(dòng)都離不開蛋白質(zhì),它是 各種生命活動(dòng)的物質(zhì)基礎(chǔ)。 2 1 蛋白質(zhì)組成 各種蛋白質(zhì)都含有c 、h 、o 、n 四種元素,有的含有s 和少量的f e 、c u 、m n 、 窈等金屬元素。平均含n 量為1 6 。蛋白質(zhì)可受酸、堿、酶的作用而水解。各種蛋白 質(zhì)水解后都產(chǎn)生氨基酸,所以氨基酸是組成蛋白質(zhì)的基本單位。 自然界中的氨基酸有3 0 0 余種,但參與人體蛋白質(zhì)合成的氨基酸僅有2 0 種,除脯 氨酸外,都是口氮基酸。它們都有一個(gè)中心g 一碳原子( c 。) ,c 。與一個(gè)氫原子( 一h ) 、 一個(gè)氨基( 一n h 2 ) 、一個(gè)羧基( - c o o a ) 和一個(gè)被稱為側(cè)鏈的r 基團(tuán)相連,( 如圖2 i 所 示) 。2 0 種氨基酸在分子結(jié)構(gòu)的差別在于r 側(cè)鏈基團(tuán)的不相同,形成了不同的氨基酸。 c o o 一 +i h 3 n g h r 圖2 1 氨基酸分子結(jié)構(gòu)通式 f i g 1 1a m i n oa c i d 氨基酸能聚合成鏈,這一過程可用去水縮合( c o n d e n s a t i o n ) 反應(yīng)來表示( 如圖2 2 所示) ,縮合產(chǎn)生的c o - n h 酰胺鍵被稱為肽鍵( p e p t i d eb o n d ) 。 由二個(gè)或許多氨基酸單位構(gòu)成的聚合物,分別被稱為二肽和多肽。構(gòu)成肽的單個(gè)氨 基酸被稱為氨基酸殘基。 多肽是線性聚合物,即每個(gè)氨基酸殘基參加二個(gè)肽鍵,與鄰近的氨基酸以首尾相連 的方式連結(jié),而不形成支鏈。位于肽兩端的殘基僅參與一個(gè)肽鍵,具有自由氨基的殘基 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 叫做氨基端或n 端,有自由羧基的殘基稱為羧基端或c 端。蛋白質(zhì)是包含一個(gè)或多個(gè) 肽鏈的分子,多肽的長度和氮基酸序列的變化決定了蛋白質(zhì)形態(tài)和生物功能的多樣性。 甜hl 護(hù) 晦- - o h + 酬l k c 。 0 】k h 歸l | + 丑如 i l 圖2 2 二個(gè)氨基酸的縮臺(tái) f i g 2 。2t h ec o n d e n s a t i o no ft w oa i n oa c i d s 2 2 蛋白質(zhì)結(jié)構(gòu)層次 2 0 世紀(jì)初期,德國化學(xué)家e m i lh s c h c r 就已經(jīng)指出:蛋自質(zhì)中的氨基酸相互結(jié)合形 成多肽鏈。具有生物學(xué)功能的多肽和蛋白質(zhì)都是有序的結(jié)構(gòu),但不是線形伸展,而是按 一定方式折疊盤繞形成特有的空間結(jié)構(gòu)。蛋白質(zhì)的空間結(jié)構(gòu)又稱為構(gòu)象或高級(jí)結(jié)構(gòu),它 是指蛋自質(zhì)分子中原子和基團(tuán)在三維空間中的排布和肽鏈的走向。 早在2 0 世紀(jì)的3 0 年代,人們就已經(jīng)開始研究蛋白質(zhì)的空間結(jié)構(gòu),但是,直到1 9 5 2 年,蛋白質(zhì)生物化學(xué)家l i n g d e r s t r o m - l a n g 提出蛋白質(zhì)的一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu) 的概念后,才使蛋白質(zhì)結(jié)構(gòu)研究逐漸走上正確的道路。后來,隨著越來越多的蛋白質(zhì)結(jié) 構(gòu)被測(cè)定出來,人們又提出了四級(jí)結(jié)構(gòu)、超二級(jí)結(jié)構(gòu)和結(jié)構(gòu)域等概念h 。雖然蛋白質(zhì)結(jié) 構(gòu)很復(fù)雜,但是,其清楚的結(jié)構(gòu)層次為進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),揭示蛋白質(zhì)的折疊規(guī)律提 供了極大的方便條件。 1 蛋白質(zhì)一級(jí)結(jié)構(gòu)( p r i m a r ys t r u c t u r e ) 蛋白質(zhì)分子多肽鏈中氨基酸的排列順序稱為蛋白質(zhì)的一級(jí)結(jié)構(gòu)。蛋白質(zhì)一級(jí)結(jié)構(gòu)是 一個(gè)沒有空間概念的結(jié)構(gòu)。各種蛋白質(zhì)中氨基酸的排列順序是由該生物遺傳信息決定 的體內(nèi)種類繁多的蛋白質(zhì)的級(jí)結(jié)構(gòu)各不相同。級(jí)結(jié)構(gòu)是蛋白質(zhì)分子的基本結(jié)構(gòu), 它是決定蛋白質(zhì)空間構(gòu)象的基礎(chǔ),而蛋白質(zhì)的空間構(gòu)象則是實(shí)現(xiàn)其生物學(xué)功能的基礎(chǔ)。 一8 一 大連理工大學(xué)碩士學(xué)位論文 圖2 3 蛋白質(zhì)一級(jí)結(jié)構(gòu) f i g 2 3p r i m a r ys t r u c t u r e 一級(jí)結(jié)構(gòu)中的主要化學(xué)鍵是肽鍵,蛋白質(zhì)分子中有二硫鍵,有時(shí)也將其包含在一級(jí) 結(jié)構(gòu)中。 2 蛋白質(zhì)二級(jí)結(jié)構(gòu)( s e c o n d a r ys t r u c t u r e ) 最早的蛋白質(zhì)二級(jí)結(jié)構(gòu)是p a u l i n g 以及c o r e y 于1 9 5 1 年提出的口螺旋和夕折疊, 并在1 9 5 7 年由另一組生物學(xué)家用x - r a y 晶體衍射方法證實(shí)。此后,人們又觀察到轉(zhuǎn)角、 無規(guī)卷曲等多種二級(jí)結(jié)構(gòu)。 圖2 4 蛋白質(zhì)二級(jí)結(jié)構(gòu) f i g 2 4s e c o n d a r ys t r u c t u r e 蛋白質(zhì)的二級(jí)結(jié)構(gòu)是指肽鏈中局部肽段的構(gòu)象,而不涉及各r 側(cè)鏈的空間排布。它 們是完整肽鏈構(gòu)象的結(jié)構(gòu)單元,是蛋白質(zhì)復(fù)雜的空闖構(gòu)象的基礎(chǔ),故它們也稱為構(gòu)象單 元。 各類二級(jí)結(jié)構(gòu)的形成幾乎全是由于肽鏈骨架中的羰基上的氧原子和亞胺基上的氫 原子之間的氫鍵所維系。其他的作用力,例如范德華力、離子鍵等,也有一定的貢獻(xiàn)。 某一肽段,或某些肽段間的氫鍵越多,它( 們) 形成的二級(jí)結(jié)構(gòu)就越穩(wěn)定,即二級(jí)結(jié)構(gòu) 的形成有一種協(xié)同的趨勢(shì)。 3 蛋白質(zhì)超二級(jí)結(jié)構(gòu)( s u p e 】c o n d a r y 咖c t u r e ) 超二級(jí)結(jié)構(gòu)是指在多肽鏈內(nèi)順序上相互鄰近的二級(jí)結(jié)構(gòu)常常在空間折疊中靠近,彼 此相互作用,形成規(guī)則的二級(jí)結(jié)構(gòu)聚集體。目前發(fā)現(xiàn)的超二級(jí)結(jié)構(gòu)有三種基本形式:口 螺旋組合( 粥) :折疊組合( 屆夠) 和口螺旋夕折疊組合( 蘆a 玀) ,其中以夕a 筘組合最為 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 常見。它們可直接作為三級(jí)結(jié)構(gòu)的“建筑塊”或結(jié)構(gòu)域的組成單位,是蛋白質(zhì)構(gòu)象中二 級(jí)結(jié)構(gòu)與三級(jí)結(jié)構(gòu)之闖的一個(gè)層次,故稱為超二級(jí)結(jié)構(gòu)。多數(shù)情況下只有非極性殘基側(cè) 鏈參與這些相互作用,而親水側(cè)鏈多在分子的外表面。 圈2 5 蛋白質(zhì)超二級(jí)結(jié)構(gòu) f i g 2 5s u p e r s e c o n d a r ys t r u c t u r e 4 。結(jié)構(gòu)域 結(jié)構(gòu)域是由不同的二級(jí)結(jié)構(gòu)和超二級(jí)結(jié)構(gòu)組合形成的,是蛋白質(zhì)三級(jí)結(jié)構(gòu)的基本單 位。一個(gè)蛋白質(zhì)可以只包含一個(gè)結(jié)構(gòu)域也可以由幾個(gè)結(jié)構(gòu)域組成,也就是說結(jié)構(gòu)域是能 夠獨(dú)立折疊為穩(wěn)定的三級(jí)結(jié)構(gòu)的多肽鏈的一部分或全部。結(jié)構(gòu)域也是功能單位,通常多 結(jié)構(gòu)域蛋白質(zhì)中不同的結(jié)構(gòu)域是與不同的功能相關(guān)聯(lián)的。v 1 l c v j t t 和c 。c h o t h j a 把蛋自 質(zhì)結(jié)構(gòu)域的結(jié)構(gòu)分為四類:口類、類、口類以及口+ p 類。 圖2 6 蛋白質(zhì)結(jié)構(gòu)域 f i g 2 6d o m a i n 大連理工大學(xué)碩士學(xué)位論文 5 蛋白質(zhì)三級(jí)結(jié)構(gòu)( t e r t i a r ys 仇| c t l l r c ) 蛋自質(zhì)的三級(jí)結(jié)構(gòu)是指多肽鏈在各二級(jí)結(jié)構(gòu)的基礎(chǔ)上進(jìn)一步盤曲折疊的狀態(tài),即整 條肽鏈中全部氨基酸殘基的相對(duì)空間排布,包括形成主鏈構(gòu)象和側(cè)鏈構(gòu)象的所有原子在 三維空間的相互關(guān)系,也就是一條多肽鏈完整的三維結(jié)構(gòu)。穩(wěn)定三級(jí)結(jié)構(gòu)的因素是側(cè)鏈 基團(tuán)的相互作用,包括氫鍵、離子鍵、疏水作用、范德華力等。 圖2 7 蛋白質(zhì)三級(jí)結(jié)構(gòu) hg 2 7t e r t i a r ys t r u c t u r e 6 蛋白質(zhì)四級(jí)結(jié)構(gòu)( q 蚰姻瑚巧s t r u c l l | 囝 蛋白質(zhì)的四級(jí)結(jié)構(gòu)是指蛋白質(zhì)分子中亞基的立體排布,亞基間的相互作用與接觸部 位的布局。亞基是指參與構(gòu)成蛋白質(zhì)四級(jí)結(jié)構(gòu)的每條具有三級(jí)結(jié)構(gòu)的多欣鏈。 圖2 8 蛋白質(zhì)四級(jí)結(jié)構(gòu) f i g 2 8q u a t e r n a r ys t r u c t u r e 維系蛋白質(zhì)四級(jí)結(jié)構(gòu)的是氫鍵、離子鍵、范德華力、疏水鍵等非共價(jià)鍵。四級(jí)結(jié)構(gòu) 涉及各亞基的空間排布及相互作用狀態(tài)具有四級(jí)結(jié)構(gòu)的蛋白質(zhì)只有形成完整的各亞基 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 寡聚體時(shí)才具有生物活性,分離的亞基則失去正常生物功能。而且并不是所有蛋白質(zhì)分 子都具有四級(jí)結(jié)構(gòu)的,單亞基蛋白質(zhì)只具有三級(jí)結(jié)構(gòu),多亞基的蛋白質(zhì)才具有四級(jí)結(jié)構(gòu)。 2 。3 維持和穩(wěn)定蛋白質(zhì)高級(jí)結(jié)構(gòu)的因素 蛋白質(zhì)天然構(gòu)象是幾種穩(wěn)定因素共同作用的結(jié)果,這些因素包括離子鍵、氫鍵、范 德華力、疏水鍵、配位鍵、二硫鍵等l 4 j 4 j 。 ( 1 ) 離子鍵離子鍵也稱鹽鍵,是由帶正電荷基團(tuán)與帶負(fù)電荷基團(tuán)之聞相互吸引而 形成的化學(xué)鍵。在近中性環(huán)境中,蛋白質(zhì)分子中的酸性氨基酸殘基側(cè)鏈電離后帶負(fù)電荷, 而堿性氨基酸殘基側(cè)鏈電離后帶正電荷,兩者之間可形成離子鍵。 ( 2 ) 氫鍵氫鍵的形成常見于連接在以電負(fù)性很強(qiáng)的原子上的氫原予、與另一電負(fù) 性很強(qiáng)的原子之間。如在蛋白質(zhì)分子結(jié)構(gòu)中n h 、o - h 等具有較大的偶極矩,成鍵電子 云分布趨向正電性大的重原子核,從而使氫原子與另一電負(fù)性較強(qiáng)的原子接近時(shí)產(chǎn)生靜 電引力,形成氫鍵氫鍵在維系蛋白質(zhì)的空間結(jié)構(gòu)穩(wěn)定上起著重要作用。 ( 3 ) 范德華力它包括定向效應(yīng)、誘導(dǎo)效應(yīng)和分散效應(yīng)等3 種作用力。分散效應(yīng) 在多數(shù)情況下是起主要作用的范德華力,它是非極性分子或基團(tuán)間僅有的一種范德華 力,通常指的范德華力就是這種作用力。 ( 4 ) 疏水鍵非極性物質(zhì)在含水的極性環(huán)境中存在時(shí),會(huì)產(chǎn)生一種相互聚集的力, 這種力稱為疏水作用力。蛋白質(zhì)分子中的某些氨基酸殘基含有非極性的側(cè)鏈基團(tuán),這些 基團(tuán)為避開水相互盡量聚集,在蛋白質(zhì)內(nèi)部形成一個(gè)疏水的核心。由于非極性基團(tuán)的疏 水作用,使多肽鏈折疊、盤繞,從而形成了蛋白質(zhì)的空間構(gòu)象。它是天然蛋白質(zhì)結(jié)構(gòu)的 主要決定因素。 ( 5 ) 配位鍵它是兩個(gè)原子之間,由其中的一個(gè)原子提供電子而形成的一種特殊的 共價(jià)鍵。許多蛋自質(zhì)分子中含有金屬離子,金屬離子與蛋白質(zhì)的連接一般通過配位鍵。 ( 6 ) 二硫鍵二硫鍵是一種共價(jià)鍵。多數(shù)蛋白質(zhì)具有二硫鍵。然而,蛋白質(zhì)肽鏈生 物合成時(shí),并不存在和二硫鍵有關(guān)的胱氨酸的密碼。在新生肽鏈合成后,兩個(gè)半胱氨酸 的側(cè)鏈巰基氧化成胱氨酸,肽鏈中才出現(xiàn)二硫鍵,它是蛋白質(zhì)翻譯后加工的結(jié)果。二硫 鍵的形成使蛋白質(zhì)的肽鏈的空間結(jié)構(gòu)更為緊密,對(duì)穩(wěn)定蛋白質(zhì)的結(jié)構(gòu)起了重要的作用。 2 4 蛋白質(zhì)的生物學(xué)功能 蛋自質(zhì)幾乎在所有的生物過程中都起著關(guān)鍵的作用。生物體內(nèi)的蛋白質(zhì)種類極其繁 多,分布極其廣泛,所擔(dān)負(fù)的任務(wù)也是多種多樣的。據(jù)人類基因組的研究估計(jì),人類共 有1 0 萬個(gè)基因,這些基因能編碼1 0 萬種蛋白質(zhì)。蛋白質(zhì)的生物功能 4 1 如下: 大連理工大學(xué)碩士學(xué)位論文 ( 1 ) 酶的催化構(gòu)成生物體新陳代謝的全部化學(xué)反應(yīng)都是由具有催化功能的蛋白質(zhì) 酶所催化的。這些反應(yīng)有的較簡單,有的很復(fù)雜。對(duì)這些反應(yīng),幾乎所有的酶都表 現(xiàn)出巨大的催化能力,它們一般把反應(yīng)速率提高至少1 0 0 萬倍。沒有酶的催化作用,化 學(xué)轉(zhuǎn)化在活體中是十分困難的。因此可以說,蛋白質(zhì)扮演了一個(gè)唯一能決定生物體系中 化學(xué)轉(zhuǎn)化模式的角色。 ( 2 ) 機(jī)械支持蛋白質(zhì)在生物體中還起著機(jī)械支持作用。例如,皮膚和骨骼的高抗 張強(qiáng)度,是由于稱為膠原的一種纖維蛋白質(zhì)在生物體所起的機(jī)械支持作用。在所有真核 生物細(xì)胞中都存在一個(gè)細(xì)胞骨架,它是由肌動(dòng)蛋白組成的微絲,由胃管蛋白組成的微管 和由角蛋白組成的中間纖維構(gòu)成的一個(gè)網(wǎng)狀結(jié)構(gòu),使細(xì)胞具有一定的形狀和結(jié)構(gòu)。 ( 3 ) 運(yùn)輸和貯存很多小分子和離子是由專一蛋白質(zhì)來運(yùn)載和貯存的。例如,血紅 蛋白在紅血球中運(yùn)輸氧,而鐵蛋白作為復(fù)合體將鐵貯存起來?,F(xiàn)已證明,在神經(jīng)細(xì)胞中 一些營養(yǎng)物質(zhì)包裝在囊泡中,靠一種稱為力蛋白的蛋白沿著微管運(yùn)送到遠(yuǎn)處。 ( 4 ) 協(xié)調(diào)動(dòng)作在一些生命活動(dòng)中,兩種或幾種蛋白質(zhì)協(xié)調(diào)作用,完成某種生物學(xué) 功能。例如,肌肉的收縮是通過兩種蛋白微絲的滑動(dòng)來完成的此外,有絲分裂中染色 體的運(yùn)動(dòng)以及精子鞭毛的運(yùn)動(dòng)等,也是由蛋白質(zhì)組成的微管的運(yùn)動(dòng)產(chǎn)生的。 ( 5 ) 免疫保護(hù)抗體是高度專一的蛋白質(zhì),它們能識(shí)別抗原、病毒、細(xì)菌以及來自 其他有機(jī)體的細(xì)胞異物,并與之結(jié)合,從而在區(qū)別自身和非自身中起著重要的作用。 ( 6 ) 生長和分化的控制遺傳信息的受控的、按順序的表達(dá),對(duì)細(xì)胞有秩序的生長 和分化十分重要,細(xì)胞的基因組中每一次只有一小部分被表達(dá)出來。在細(xì)菌中,阻遏蛋 白質(zhì)是使細(xì)胞的d n a 中某些特殊片段不被表達(dá)的重要控制組分。 ( 7 ) 神經(jīng)沖動(dòng)的產(chǎn)生和傳遞神經(jīng)細(xì)胞對(duì)特定刺激的反應(yīng)是由受體蛋白傳遞的。例 如,在突觸處,即在神經(jīng)細(xì)胞的交接處,傳遞神經(jīng)沖動(dòng)的是被像乙酰膽堿這樣的專一小 分子觸發(fā)的受體分子。 ( 8 ) 信號(hào)轉(zhuǎn)導(dǎo)生物能夠?qū)ν饨绱碳ぷ龀龇磻?yīng)。生物體感受到外界的信號(hào)如光、氣 味、激素、神經(jīng)遞質(zhì)( 乙酰膽堿) 、生長因子之后,即與細(xì)胞表面的受體縮合成復(fù)合物, 隨后受體又與g 蛋白相互作用,使g 蛋白的口,亞基解離,然后0 蛋白又與細(xì) 胞內(nèi)的效應(yīng)物如酶、離子通道等相互作用,使之做出反應(yīng)。 ( 9 ) 跨膜運(yùn)輸生物細(xì)胞從外界吸收的各種離子和水分子都是通過細(xì)胞膜上的離子 通道,進(jìn)行跨膜運(yùn)輸?shù)摹,F(xiàn)已證明,離子通道( 包括水通道) 都是由蛋白質(zhì)組成的。 ( 1 0 ) 電子傳遞有些蛋白質(zhì)能進(jìn)行電子的傳遞,簡單的如鐵氧還蛋自能傳遞電子, 復(fù)雜的如線粒體上的呼吸鏈和能進(jìn)行光合作用的葉綠體上的光合鏈,在呼吸鏈上和光合 大連理工大學(xué)碩士學(xué)位論文格式規(guī)范 鏈上有很多電子傳遞蛋白,如各種細(xì)胞色素島以f 等能傳遞電子,使細(xì)胞膜兩側(cè)產(chǎn)生電 位差,實(shí)現(xiàn)某種生物學(xué)功能。 蛋白質(zhì)的功能是非常復(fù)雜的:同一種蛋白質(zhì),其功能又呈現(xiàn)出復(fù)雜性,如糖蛋白的 細(xì)胞識(shí)別功能涉及糖蛋白及其相應(yīng)受體、糖基轉(zhuǎn)移酶及其底物、或糖苷水解酶及其底物 所參與的一系列生化過程,又如酶催化功能受許多因素的影響,并表現(xiàn)出競(jìng)爭性、可調(diào) 節(jié)性等有的酶具有幾種不同的催化功能,以適應(yīng)多變的內(nèi)外環(huán)境。 大連理工大學(xué)碩士學(xué)位論文 3 特征提取 氨基酸序列的特征描述是指從一條氨基酸序列選取相關(guān)的特征信息并用數(shù)學(xué)方法 描述這些信息,使之能正確反映序列與結(jié)構(gòu)及功能之間的關(guān)系,對(duì)蛋白質(zhì)屬性分類研究 起至關(guān)重要的作用,也是分類質(zhì)量的關(guān)鍵i l ”。人們發(fā)現(xiàn)蛋白質(zhì)的結(jié)構(gòu)類和亞細(xì)胞定位都 與氨基酸組成有關(guān),因此很多預(yù)測(cè)都使用氨基酸組成方法進(jìn)行。然而,對(duì)于任意蛋白質(zhì) 鏈,如果僅用2 0 個(gè)基本氨基酸發(fā)生的頻率表示其組成,那么許多序列間相互作用和序 列長度因素被忽略。以一條長為5 0 個(gè)氨基酸組成的蛋白質(zhì)鏈為例,可能存在的排列方 式有2 0 如* l l x l 0 舒種,而氨基酸組成成分約有l(wèi) 6 x 1 0 1 7 種,即大約平均7 x l o ”條長度為 5 0 個(gè)殘基的氨基酸序列共同擁有一種氨基酸組成成分。何況,多數(shù)蛋白質(zhì)的氨基酸序列 長度遠(yuǎn)遠(yuǎn)超過5 0 個(gè)殘基,而且不同長度的氨基酸序列可能具有相同的氨基酸組成m 。 基于這種情況,人們?cè)谘芯扛黝悊栴}時(shí)也提出了不同的氨基酸序列的特征描述方法以改 進(jìn)方法的預(yù)測(cè)能力,氨基酸序列的特征描述不僅是各種預(yù)測(cè)方法的基礎(chǔ),對(duì)不同描述方 法的比較分析還有助于理解蛋白質(zhì)序列結(jié)構(gòu)功能之間的關(guān)系 1 6 , 1 7 】 目前,氨基酸序列特征描述方法主要有兩類:一類是僅基于氨基酸序列的描述方法; 另一類是考慮氨基酸性質(zhì)的描述方法【1 6 , 1 7 l 。 3 1 基于氨基酸序列的描述方法 基于氨基酸序列的描述方法主要有:氨基酸組成成分特征提取法、熵密度特征提取 法、完全信息集法和多肽組成成分法等。 3 1 1 氨基酸組成成分特征提取法 n i s h i k a w a 1 。_ 2 ”,k l e i n i 捌,c
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年軟件工程師專業(yè)水平測(cè)試系統(tǒng)設(shè)計(jì)與軟件工程實(shí)操模擬題
- 2026年程序員職業(yè)水平考試輔導(dǎo)數(shù)據(jù)結(jié)構(gòu)與算法實(shí)踐題目
- 2026年生物技術(shù)與應(yīng)用專業(yè)試題庫
- 2026年土木工程基礎(chǔ)道路橋梁設(shè)計(jì)與施工知識(shí)測(cè)試題集
- 2026年網(wǎng)絡(luò)安全管理與防范措施題集
- 深圳市第二高級(jí)中學(xué)2026屆數(shù)學(xué)高一下期末達(dá)標(biāo)檢測(cè)試題含解析
- 2026年酒店管理專業(yè)技能測(cè)試題客房服務(wù)與前廳管理
- 2026年網(wǎng)絡(luò)購物對(duì)現(xiàn)代生活方式的影響和潛在問題探究題目
- 2026年哲學(xué)思想與倫理道德探討題庫
- 2026年高級(jí)國際商業(yè)策略案例分析題庫
- 名著導(dǎo)讀傅雷家書
- 鉆探施工安全培訓(xùn)
- 博士組合物使用指南
- 高校輔導(dǎo)員隊(duì)伍建設(shè)基本情況報(bào)告
- 《相變儲(chǔ)熱供暖工程技術(shù)標(biāo)準(zhǔn)》
- 安裝防雨棚合同協(xié)議書
- DL∕T 1917-2018 電力用戶業(yè)擴(kuò)報(bào)裝技術(shù)規(guī)范
- 光伏維修維保合同
- CJJ 82-2012 園林綠化工程施工及驗(yàn)收規(guī)范
- 黑龍江商業(yè)職業(yè)學(xué)院單招《語文》考試復(fù)習(xí)題庫(含答案)
- 變壓器借用合同范本
評(píng)論
0/150
提交評(píng)論