【畢業(yè)學(xué)位論文】(Word原稿)雙序列排比分析的視覺化軟體工具之建置-義守大學(xué)資訊管理研究所_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)雙序列排比分析的視覺化軟體工具之建置-義守大學(xué)資訊管理研究所_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)雙序列排比分析的視覺化軟體工具之建置-義守大學(xué)資訊管理研究所_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)雙序列排比分析的視覺化軟體工具之建置-義守大學(xué)資訊管理研究所_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)雙序列排比分析的視覺化軟體工具之建置-義守大學(xué)資訊管理研究所_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

義 守 大 學(xué) 資 訊 管 理 研 究 所 碩士論文 雙序列排比分析的視覺化軟體工具之建置 究 生:陳欽賢 指導(dǎo)教授:陳孟峰博士 中華民國九十三年六月 2 雙序列排比分析的視覺化軟體工具之建置 究 生: 陳欽賢 導(dǎo)教授: 陳孟峰博士 守 大 學(xué) 資 訊 管 理 研 究 所 碩 士 論 文 A of 2004 華民國九十三年六月 I 致 謝 本論文的完成最感謝的是我的指導(dǎo)教授 陳孟峰 博士,在這兩年的研究所過程,給予我相當(dāng)充裕的資源,無論在學(xué)業(yè)或做人處事方面,亦提供相當(dāng)多的寶貴意見,讓我在學(xué)習(xí)的過程中獲益良多,其亦師亦友的態(tài)度,更讓人倍感溫馨。同時還要感謝口試委員 王隆仁 博士、 楊崇宏 博士,于口試期間給予指正及建議,讓本論文完善嚴(yán)謹(jǐn) ,不勝感激。 大學(xué)時期是化工背景的我,因?qū)χ娔X技術(shù)有著高度的熱忱,大學(xué)畢業(yè)后就加入了資訊管理的行列,然而在 陳孟峰 老師的指引后,毅然投入生物資訊的領(lǐng)域。開始時是一股新鮮感與懵懂的熱忱,接踵而來的是意料之中的茫然與灰心。但是,我并不后悔走入這項領(lǐng)域,況且這是個新興的研究主題,對著人類生物有著極大的貢獻(xiàn)及發(fā)展。雖然這條路我走的并非十分順?biāo)?,但是老師的指?dǎo)與激勵之下讓我有走下去的動力,因此最感謝的是老師對我的耐心指導(dǎo)。 對于從沒離開大臺北地區(qū)念書的我,南下來義守讀研究所真是個新的嘗試。就如同南臺灣的太陽一樣,這邊 的同學(xué)們都充滿了人情味及熱忱,于研究所兩年求學(xué)的時間中,與同學(xué)間建立深厚的情誼,讓我這個臺北來的學(xué)子得到許多溫馨的友情支持。圣峰、小蔡、智德,這些我學(xué)校宿舍的室友們;阿昌、俊豪、興國、日焜,我的球友們;素真、小龜、姿蓉、阿郎 ,真想列出每個人的名字,因為大家的感情是這么的好,只好說一句紙短情長,我的好友們,欽賢非常謝謝你們兩年來的照顧及指教。 最后,感謝父母親的關(guān)懷與支持,讓我順利完成學(xué)業(yè),因此將本論文特地獻(xiàn)給我的父母親、爺爺,對于您們對我的期許及鼓勵,我都一定會盡全力的去完成。同時也要跟全部關(guān)心我的人分享 這份榮耀。 陳欽賢 謹(jǐn)志于觀音山 民國九十三年六月序列排比分析的視覺化軟體工具之建置 研究生:陳欽賢 指導(dǎo)教授:陳孟峰 博士 義守大學(xué)資訊管理研究所 中 文 摘 要 生物資訊 (11215在硬體與軟體的支援下,促使分子生物學(xué)在 2000年 6月 26日,完成了整個人類基因體序列草圖。其中主要的工作 - 序列分析 24,即是研究 是通常在網(wǎng)路上的大型資料庫如 ,其使用介面共同的缺點在于分析的結(jié)果,往往以大量的文字顯示,因此不易解讀。本研究即在改善此缺點,以提升其效率。 我們針對雙序列排比分析之介面做設(shè)計,使得操作更加容易,結(jié)果的呈現(xiàn)更加清晰。此外也利用動態(tài)規(guī)劃 (計算最佳的序列排比,配合 陣圖,以及資料點亮度的調(diào)整,以適于視覺接受的方式展現(xiàn)出排比的結(jié)果,改善傳統(tǒng)的呈現(xiàn)方式。利用本程式去做幾組雙序列的蛋白質(zhì)排比,結(jié)果顯示在排比圖框中,再透過明亮度的調(diào)整, 突顯相關(guān)連的位置。另外可使用卷軸來移動兩序列的相對位置,其相似度高的配對會立刻以顏色標(biāo)示出來;而最佳化的全面性排比結(jié)果也同時呈現(xiàn)出來。 在本篇論文中,我們以視覺化的觀念去設(shè)計一個序列排比程式,把序列間的關(guān)連以全面性和區(qū)域性的方式呈現(xiàn)出來,以改善網(wǎng)頁傳統(tǒng)的文字顯示方式。未來發(fā)展方向,除了改善現(xiàn)有的演算法外,還可以利用網(wǎng)際網(wǎng)路與資料庫互動,成為客戶端的分析工具。 關(guān)鍵字:序列排比 ( of of 62000. of is NA on of a of is to is at We so is In is to is by of so it is to We to a of We to so of In we a of of so it of by on on V it on to a V 目 錄 致 謝 . 錯誤 !未定義書簽。 中 文 摘 要 . 錯誤 !未定義書簽。 . 錯誤 !未定義書簽。 目 錄 . 錯誤 !未定義書簽。 圖目錄 . 錯誤 !未定義書簽。 表目錄 . 錯誤 !未定義書簽。 壹、概論、研究動機與目的 . 錯誤 !未定義書簽。 貳、背景知識與文獻(xiàn)探討 . 錯誤 !未定義書簽。 蛋白質(zhì)的背景知識 . 錯誤 !未定義書簽。 . 錯誤 !未定義書簽。 白質(zhì) (. 錯誤 !未定義書簽。 陣圖 . 錯誤 !未定義書簽。 態(tài)規(guī)劃法 (. 錯誤 !未定義書簽。 比 (. 錯誤 !未定義書簽。 面性排比 ( . 錯誤 !未定義書簽。 域性排比 ( 誤 !未定義書簽。 分矩陣 . 錯誤 !未定義書簽。 核酸評分矩陣:單位矩陣 (. 15 蛋白質(zhì)評分矩陣: 洛森矩陣 ) . 16 洞扣分 (. 錯誤 !未定義書簽。 參、系統(tǒng)設(shè)計理念與建置流程 . 錯誤 !未定義書簽。 統(tǒng)設(shè)計理念 . 錯誤 !未定義書簽。 統(tǒng)建置環(huán)境 . 錯誤 !未定義書簽。 統(tǒng)執(zhí)行流程 . 錯誤 !未定義書簽。 列輸入畫面 . 錯誤 !未定義書簽。 程式畫面 . 錯誤 !未定義書簽。 面性及區(qū)域性排比畫面 . 錯誤 !未定義書簽。 例分析 . 錯誤 !未定義書簽。 伍、結(jié)論與未來展望 . 錯誤 !未定義書簽。 參考文獻(xiàn) . 錯誤 !未定義書簽。 附 錄 . 錯誤 !未定義書簽。 附錄一、標(biāo)準(zhǔn)的一個胺基酸碼和三個 基碼的對照 . 錯誤 !未定義書簽。 附錄二、 體 . 錯誤 !未定義書簽。 附錄三、各種的 分矩陣 . 錯誤 !未定義書簽。 附錄四、 料庫的蛋白質(zhì)序列 (程式使用到的 ) . 錯誤 !未定義書簽。 目錄 圖 2 - 1、構(gòu)成 四種鹼基 . 4 圖 2 - 2、 鹼基對及雙螺旋架構(gòu) . 4 圖 2 - 3、胺基酸的基本結(jié)構(gòu) . 5 圖 2 - 4、二十種胺基酸之名稱、支鏈構(gòu)造及縮寫 . 6 圖 2 - 5、肽鍵 . 6 圖 2 - 6、蛋白質(zhì)一級結(jié)構(gòu)表示法 . 7 圖 2 - 7、蛋白質(zhì)各級結(jié)構(gòu)的示意圖 . 8 圖 2 - 8、 蛋白質(zhì)之關(guān)係 . 9 圖 2 - 9、 由轉(zhuǎn)錄及轉(zhuǎn)譯到合成 示意 . 9 圖 2 - 10、利用 對之示意圖 . 10 圖 2 - 11、利用動態(tài)規(guī)劃的全面性排比計分矩陣計算之路徑 . 12 圖 2 - 12、 . 13 圖 2 - 13、利用動態(tài)規(guī)劃的區(qū)域性排比計分矩陣計算之路徑 . 14 圖 2 - 14、 . 15 圖 2 - 15、 . 17 圖 2 - 16、各種 陣的關(guān)係圖 . 17 圖 3 - 1、序列比對 料庫所產(chǎn)生的資訊 . 19 圖 3 - 2、利用 念建構(gòu)出的點陣圖 . 20 圖 3 - 3、系統(tǒng)流程圖 . 21 圖 4 - 1、程式功能鍵 . 26 圖 4 - 2、序列輸入視窗 . 27 圖 4 - 3、選擇欲使用的評分矩陣與未輸入資料的主程式畫面 . 28 圖 4 - 4、主程式畫面 . 29 圖 4 - 5、手動比對 . 29 圖 4 - 6、序列排比畫面 . 30 圖 4 - 7、任意兩蛋白質(zhì) . 31 圖 4 - 8、兩蛋白質(zhì)間有一小段序列一樣 . 32 目錄 表 2 - 1、單位矩陣 (. 15 1 壹、概論、研究動機與目的 西元 1953年, 已經(jīng)決定敞開分子生物學(xué)領(lǐng)域的大門,到了 2000年 6月 26日,人類聯(lián)合發(fā)表對于完成整個人類基因體序列草圖的繪制,從此便進(jìn)入了后基因體時代。從過去幾十年,生物學(xué)家不論是用化學(xué)的方式定序或配合科技 (累積了非常大量的基因序列資料,因此只是利用人力的分析是無效率且不切實際的。于是,生物資訊學(xué) (應(yīng)孕而生,生物資訊學(xué)意指所有電腦處理、分析生物學(xué)研究過程,包含利用電腦、網(wǎng)路進(jìn)行資料的收集與整合、利用影像處理設(shè)備將研究過程所得的圖像比對,及大多數(shù)分子生物學(xué)者比較熟悉的巨分子序列分析比對、結(jié)構(gòu)預(yù)測等。 所以,生物資訊學(xué)的成員是一個大集合,包含生物學(xué)家、病理家、數(shù)學(xué)家及程式設(shè)計者等,集合多個不同領(lǐng)域的專家。在后基因體時代,面對如此龐大的資料,便要依靠高度的電腦運算能力。在基因定序階段,主要依賴資訊業(yè)人才從事生物資訊工具的開發(fā),然而在蛋白質(zhì)體與基因功能的分析,就需要生物學(xué)家的協(xié)助 ,生物學(xué)家面臨了資 訊整理與資訊分析的挑戰(zhàn)。生物資訊的資料日漸擴(kuò)增,生物、醫(yī)學(xué)、藥學(xué)等領(lǐng)域研究人員想藉由生物資訊資料庫加快實驗?zāi)繕?biāo)的設(shè)定,一般而言研究人員會以已定序但未知功能的生物序列,從已知的資料庫內(nèi)查詢此序列是否存在,或者是否存在相似的序列 。另外,基因分析和資訊的管理,更是需要資訊與生物科技的整合性人才,這也是現(xiàn)階段各國在發(fā)展生物科技上最需要解決的問題。 序列分析技術(shù)可以應(yīng)用到 胺基酸 )序列。因此 們所面臨的問題通常是手上有一段沒有任何注解的片段的序列,我 們想要看看知道這一段序列與哪一段已知的序列相似性及其功能為何,在比較序列之前,序列之間的排比是必要的。 2 找出最佳序列排比的想法是很簡單的,先將兩條序列任意配對,對此配對的品質(zhì)給予評分,然后將其中一條序列相對于另一條序列移動,并再次計分,直找到分?jǐn)?shù)最高的比對為止。這個原理很簡單,但要靠人工排比的話就會令人感嘆人生苦短,因此,必須將挑出最佳結(jié)果程式以自動化的方式產(chǎn)生。所以一個好的程式是必須的,現(xiàn)今網(wǎng)路的發(fā)達(dá),很多的生物資料庫都提供比對的程式,但往往提供的功能有限,或是每個功能都是分離的且又有對特定的功能作呈現(xiàn), 常常讓人不知所然 (熟悉的研究者除外 );還有在輸入了序列,比對后是以文字或是以非常簡單的圖形呈現(xiàn)給使用者了解,常常讓人覺得好像還有很多資訊還沒被呈現(xiàn)或是太過繁雜。于是在本研究中將設(shè)計一個雙序列排比的介面以簡化其操作,并以圖形的方式展示其排比結(jié)果,以符合視覺化的效果。 3 貳、背景知識與文獻(xiàn)探討 本文內(nèi)容將對于生物體的相關(guān)知識、及序列如何運算分成下列各小節(jié)探討。 生命體是由數(shù)十種不同種類的元素所組成,其中碳 (C)、氫 (H)、氧 (O)、氮 (N)等元素占了 99%。所以生命體是由上述等 元素所制作出復(fù)雜的有機化合物,如碳水化合物 (醣類 )、脂質(zhì)、蛋白質(zhì)、核酸等物質(zhì),這些都是生物體組成的根本。 核酸中包含有 種。 作去氧核糖核酸, 1955 年 J. D. F. H. C. 現(xiàn) 于核苷酸上的堿基 (含氮堿基 )的四種去氧核糖核酸 (組成,分別是 腺嘌呤 (稱A)、胸腺嘧啶 (稱 T)、胞嘧啶 (稱 C)、鳥嘌呤 (稱G)四種 (如圖 2, 是由兩條單股所構(gòu)成的一雙股螺旋結(jié)構(gòu) 17,而兩條單股行進(jìn)的方向相反,為互補反平行,一股是由 5端 3端,另一股則為 3端 5 端, 5 端及 3 端分別代表核糖 (的第 5和第 3個碳 ,形成二個及三個氫鍵而得到安定的結(jié)構(gòu),所以 J. D. F. H. C. 外 E. 其共同研究者發(fā)現(xiàn) 、 C/據(jù)華生 . 相互間逆方向配對的 氫鍵多鍵的方式 16,如: A=T, G 圖 2 4 圖 2 - 1、構(gòu)成 圖 2 - 2、 如圖 2示, 成了 股結(jié)構(gòu)。而 骨架是由磷酸與核糖之間的鍵 結(jié)所構(gòu)成。其中5 堿基的排列順序即為生物體內(nèi)的遺傳密碼,現(xiàn)已有許多的密碼已經(jīng)被解開了,而這些密碼則是決定生物體內(nèi)蛋白質(zhì)如何組合鍵結(jié)。 而 是由四種去氧核糖核酸所組成,它的組成份和 類似,只是把 尿嘧啶 (稱 U)去取代胸腺嘧啶 (稱 T),如圖 2所以 人類的染色體有 23對且就是由一連串的 核苷酸 序列所組成的。 另外,蛋白質(zhì) 是由碳 (C)、 氫 (H)、 氧 (O)、 氮 (N)、 硫 (S)、 磷 (P)、 銅 ( 鐵( 幾種元素所構(gòu)成,其中碳 (C)、 氫 (H)、 氧 (O)、 氮 (N)等四種元素為比較主要的組成元素,而蛋白質(zhì)含 氮元素也是其組成和醣類以及脂肪最大的不同之處。 白質(zhì) (蛋白質(zhì)通常是由 20種胺基酸 (組合而成的 18,如圖 2基酸的基本結(jié)構(gòu)可分為三個部分,分別為胺基 ( 羧基 ( 支鏈 (R),就如圖 2 胺基酸的基本結(jié)構(gòu): 圖 2 - 3、胺基酸的基 本結(jié)構(gòu) 6 圖 2 - 4、二十種胺基酸之名稱、支鏈構(gòu)造及縮寫 另外在蛋白質(zhì)的合成中,有一個化學(xué)性質(zhì)的成分扮演著很重要的角色:那就是 肽鍵 (如圖 2 當(dāng)一個胺基酸的 羧 基與另一個胺基酸的胺基相遇而脫去一分子的水 (形成的 鍵結(jié)即為肽鍵 。 圖 2 - 5、肽鍵 7 本研究探討的是胺基酸序列 (即蛋白質(zhì)一級結(jié)構(gòu) ),因此以下只探究蛋白質(zhì)一級結(jié)構(gòu)的學(xué)理。 一級結(jié)構(gòu) ( (1) 蛋白質(zhì)的基本骨架: 為一胺基酸序列,是經(jīng)由 的補密碼與 的密碼子在核糖體中互相配對,此時胺基酸會經(jīng)由 經(jīng)由延長作用 (結(jié)形成長鏈狀的胺基酸鏈,最后利用終止作用 (胺基酸鏈從核糖體脫離,此為轉(zhuǎn)譯作用。一級結(jié)構(gòu)的一端為 作 一端為 作 C 端,在轉(zhuǎn)譯作用中,一級結(jié)構(gòu)是由 C 端結(jié)尾,而一級結(jié)構(gòu)可以用下圖 2 C:表示各個胺基酸上的 碳 R:表示不同胺基酸 上的支鏈 圖 2 - 6、蛋白質(zhì)一級結(jié)構(gòu)表示法 (2) 一級結(jié)構(gòu)是由 由核糖體的作用而形成的,而 列經(jīng)轉(zhuǎn)錄作用決定了 序列,在轉(zhuǎn)譯作用中 以 序列決定了一級結(jié)構(gòu)的胺基酸序列,因此 (3) 一級結(jié)構(gòu)的序列意義: 一級結(jié)構(gòu)的序列順序決定了其折迭后的 結(jié)構(gòu),因為每一不同的胺基酸在胺基酸鏈上的不同位置出現(xiàn)都會使胺基酸之間的作用力改變,而影響其折迭的結(jié)果。8 還有訊息序列 (而此序列是決定一蛋白質(zhì)在細(xì)胞中制造之后被送至細(xì)胞中的哪個位置。另外還由一些特殊的序列,像是 含,若是蛋白質(zhì)有一個或是多個 此蛋白質(zhì)易被分解,因此,此類的蛋白質(zhì)的半生期較短。圖 2白質(zhì)各級結(jié)構(gòu)的示意圖,其中三級結(jié)構(gòu) (3D 決定蛋白質(zhì)的功能。 圖 2 - 7、蛋白質(zhì)各級結(jié)構(gòu)的示意圖 而 2 后 錄一表示的為三個 9 圖 2 - 8、 圖 2 - 9、 6是一種繪制點矩陣的軟體,經(jīng)由簡單的圖形輸出可完整的呈現(xiàn)兩個序列間整體相似度,最先由 1970 所提出 。 出10 的是一種表格或矩陣模式,序列比對時其中一個序列位置橫列在矩陣的上方,另一個序列位置直排在矩陣的左方。如果序列比對結(jié)果相同 (單一位置 ),就將相同的序列 堿基 (入相對應(yīng)的矩陣空白處 ;如果比對結(jié)果不同,則保留矩陣空白。因此,序列比對結(jié)果對應(yīng)相同的殘基會 從左上方延伸到右下方。 圖 2基礎(chǔ)的例子。如果比對移動方向是連續(xù)的對角線,表示兩個序列間沒有插入的現(xiàn)象,如果是水平方向,表示比對中有空白插入且是在矩陣左方的序列中 ; 如果是垂直方向,表示比對中有空白插入且是在矩陣上方的序列中。 圖 2 - 10、利用 圖中箭頭所指示出的移動路線代表兩個序列間明顯的比對結(jié)果: 種基本的 解決的問題只能局限在比較殘基完全相同的位置上,而對于以 法發(fā)揮其效用。因此,我們引用 13的處理方式,將對應(yīng)的點的亮度根據(jù)兩殘基替換的機率的值來調(diào)整點的亮度,以利用眼睛直接觀察的能力,找出關(guān)聯(lián)程度高的區(qū)段。 11 動態(tài)程式規(guī)劃 8解決問題的方式是一步一步的解決主要問題中較小的次問題。 若兩個序列間存在著適當(dāng)?shù)南喈惓潭龋瑒t這兩條序列排序的結(jié)果通常不是只有一個最佳的排序方法,而是可能有多種可能排序方法 (最適解 )。用動態(tài)程式規(guī)劃尋找最佳序方式,通常會用回溯 (技巧并且運用各種參數(shù) (如缺洞扣分 驗不同的路徑,比較所有路徑中最好的一條 (最佳解路徑 )就是最佳的排序方式。 以下將會介紹兩種排比方 式,皆是運用動態(tài)程式規(guī)劃來達(dá)到排比的目的。 面性排比 ( 德曼與王氏 ( 1970年提出這個演算法 7。在這演算法中,兩個序列間的最佳配對定義為:能夠使第一條序列中最多的 面性排序的作法是將兩條序列以二度空間的方式形成的計分矩陣,然后從左上到右下角進(jìn)行分?jǐn)?shù)加總的動作,其執(zhí)行加總方式如下圖 2 ),(),1(m a x),( ; ),()1,( ; (1) ji )1,1( D ( i - 1 , j - 1 ) D ( i , j - 1 )D ( i - 1 , j ) D ( i , j )D ( - d ( )- d ( , 2 其中: ),( ,(:表示 (插入空白 )的相似函數(shù); (插入空白 )的相似函數(shù); ji :表示),( 目前這個排比位置的分?jǐn)?shù)。 圖 2 - 11、利用動態(tài)規(guī)劃的全面性排比計分矩陣計算之路徑 矩陣中的每個排比位置,依據(jù)橫向、縱向及斜對角 (三個不同方向 )的最高分?jǐn)?shù)為此位置的最佳分?jǐn)?shù)。 排序時則由右下角找得分最高的格子往左上角移動并且不斷加上分?jǐn)?shù) 3。 舉個例子來說:圖 2開始先由最左上角當(dāng)作起點往右下方走,如果是空白 ( )對上字母或往右、往下,則處罰扣分 8分,若是有字母對上的話,則依每組字母的比對有不同的得分。于是每個點都有往左、往下及右下三個方向可以走,每次都挑最大值的方向走,且沿途記錄走過的路徑。在圖中可以見到走到最右下角時其值為 1;然后就要進(jìn)行回溯 (步驟,往回走時就要依走下來的路徑回 去,且如果同一位置有二條以上的路則選值較大者;或是其值相同時,則任選一個方向走,所以如果路徑的輸出只能有一個的話,有可能其路徑走法不會唯一,但看程式演算法的設(shè)計,另外當(dāng)路徑往上時代表上方序列要插入空白,而往左走則是左方序列要插入空白。當(dāng)回溯到最左上角 (0,0)時,全面性的排比路徑就計算完成了,就如圖 2比過后的兩條序列間都有插入些許個空白,以讓這兩序列排的更好。 13 圖 2 - 12、 區(qū)域性排 比 ( 常用的序列排比工具,是以 區(qū)域性排比策略為基礎(chǔ)的方法 9。上一段所提到的全面性排比是假設(shè)兩序列都已知,才可以用全長來做排比。不過,我們常常遇到的序列排比目的,是以一個未知的序列對序列資料庫中的已知序列進(jìn)行搜尋,或是在一段很長的 列中尋找與查詢序列相符的部分片段。用動態(tài)程式規(guī)劃演算法,用來解決兩段已知序列的部分排比問題,它與 算法相似,但在回溯時加了一個額外的選擇:不需要由兩段序列的起點到終點做延伸;如果累積到某點時的積分為負(fù),于是這個排比停止并且開始新的排比。因此,排比可以在矩陣的任一部分停止。 D ( i - 1 , j - 1 ) D ( i , j - 1 )D ( i - 1 , j ) D ( i , j )D ( - d ( )- d ( , 4 0m a x),( ; ),(),1( ; (2) ),()1,( ; ji )1,1( 其中 : ),( ,(:表示 (插入空白 )的相似函數(shù); (插入空白 )的相似函數(shù): ji :表示 相似函數(shù) ),( 目前這個排比位置的分?jǐn)?shù)。 圖 2 - 13、利用動態(tài)規(guī)劃的區(qū)域性排比計分矩陣計算之路徑 其作法如同全面性排比,唯一不同之處是當(dāng)決定每個排比位置的最佳分?jǐn)?shù)時,在推導(dǎo)最佳排比過程中會發(fā)生某排比位置的最大值為 0,則此條最佳排比終止,因此造成區(qū)域性最佳排比 811。 圖 2算過程和全面性排比一樣,最大的不同點在于每個位置上最小值為 0(沒有負(fù)值 ),如果某個位置其值為負(fù),就要令其值為 0(根據(jù)演算法 )。當(dāng)由左上累加并且記錄所走 的路徑到右下方時停止;還有回溯時選擇最大值當(dāng)作起點,沿著路徑走到值為 0時便停下。在圖里可以看到回溯時起點的最大值為 28(粗體字 ),然后沿路徑回走 (粗體 ),直遇到 0時便停止。往上走表示上方序列要插入空白,往左則是左方序列插入空白,于是區(qū)域性排比如圖下方所示。 15 圖 2 - 14、 核酸評分矩陣:單位矩陣 (在 、 C、 G、 (組成,所以在此的評分矩陣非常簡單,堿基比對符合配對給值 +1,不符合配對則給值 0,詳細(xì)請參考表 2 A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1 表 2 - 1、單位矩陣 (16 蛋白質(zhì)評分矩陣: 洛森矩陣 ) 截至目前為止,我們計算序列間距離時都只有考慮到完全相同的殘基,相同的殘基配對得一分,這種計算序列距離的矩陣,稱 為單位矩陣 (就如同 ,這種矩陣的特性是它很稀疏,因為矩陣中大部分的組成份子都是 0,這同時也意味著這種矩陣缺乏辨別力。所以,為了提高辨別力,且在不增加背景雜訊的前提下,加入其它較弱但具有生物意義的胺基酸配對訊息。這個改變正是蛋白質(zhì)序列分析的重點,我們必須在僅有數(shù)學(xué)意義的高分排比方式,及具有生物意義但分?jǐn)?shù)較低的排比之間作出抉擇。 為了解決這位問題,科學(xué)家們設(shè)計出可以對相似 (但不相同 )的胺基酸堿配對評分的矩陣基,而給分的標(biāo)準(zhǔn)是參考許多不同親疏遠(yuǎn)進(jìn)的蛋白質(zhì)序列之間其胺基酸互相取代的比率 (定出來的矩陣。這跟 確地使用種矩陣,可以提高對不同排比間差異的敏感度,尤其是在兩條序列間的全等的胺基酸配對很少時,其辦識力可以更清楚的突顯出來。 因此 S. 1992年 11 月發(fā)展一種運算胺基酸序列排比時計算替換發(fā)生機率的 5, 可以更直接地表示序列間的遺傳距離 。它是以比對蛋白質(zhì)序列的 料庫為基礎(chǔ),從其中擷取出來的序列推演而得。因此以 命名。 陣法 (后者的優(yōu)點在于用來比較 85%以上相似度的序列 ),所以 S. 果以對數(shù)來表示。 此間胺基酸的差異不大,因此在計算每一點的各種胺基酸比例時,在遺傳距離相近的蛋白質(zhì)間共有的同一種胺基酸在其點上所占的比例會偏高,而導(dǎo)致計算上的偏差。所以 布洛森矩陣的方法是將各個序列片段依照最低相同比例 (予分組,每組分別計算其中每個點17 各種胺基酸的比例,事實上就像在計算一條序列的每個點各種不同的胺基酸出現(xiàn)的機率一樣,這樣就可以修正因為某些蛋白質(zhì)彼此間遺傳距離較近而造成的偏差。 當(dāng)用不同的最低相同比例來對蛋白質(zhì)序列分組時,就會得到不同的布洛森矩陣,用 62%最低相同比例做出來的就是布洛森 62 (陣,請參考圖2圖 2示,使用的布洛森矩陣值越大,辨識率就越高,另外還有布洛森 80矩陣,布洛森 45矩陣等以供使用 12,詳見附 錄三 。 圖 2 - 15、 L 0 62 B L M 4 5L di t M d i n - 16、各種 洞扣分 (假如排比僅局限于將完全相同的序列排在一起,那么很容易的可以寫出一個18 合理的程式來處理。但是,通常排比是要比對整段完整的序列,一個考慮完善的排比程式必須將兩條完整的序列中全部的胺基酸殘基都列入考慮,這意思是說有時候必須將不相同的胺基酸配對在一起。在這個情形下,缺洞位置的安排就變 的十分難以取舍。雖然可以將相同的胺基酸殘基配對在一起,而在不同的地方都插入缺洞,這樣的排比分?jǐn)?shù)將是最高的,但卻沒有任何生物意義。另一種較好的方式就是每增加一個缺洞則在總分上扣分 (于是配合動態(tài)程式規(guī)劃的全面性或區(qū)域性排比演算法,在插入空白時則處罰扣分。在 為堿基的比對較為單純,不用考慮突變 (取代 )的因素,所以插入空白造成缺洞所扣的分?jǐn)?shù)都是一樣的。但在蛋白質(zhì)序列中胺基酸比對時,因為使用的評分矩陣(不同,所以插入空白所扣的分?jǐn)?shù)也會有所不同。 19 參、系統(tǒng)設(shè)計理念與 建置流程 統(tǒng)設(shè)計理念 通常在網(wǎng)路上的大型資料庫,如 軟體都有共通的缺點,就是對于使用者所輸入的序列分析,往往都會有大量的資料訊息顯現(xiàn)在瀏覽器上,所以使用者可能要花很多時間去找尋想要得到的資訊,這樣對使用者來說是一件費心勞力的工作。圖 3是用一個已定序但不知道功能的蛋白質(zhì)序列對 料庫進(jìn)行搜索,看是否可找到類似的序列,或局部區(qū)域相似的序列,進(jìn)而可以讓生物學(xué)家利用這些的已知序列去推測、做實驗來探究這個已定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論