版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于蛋白質(zhì)互作和基因本體論數(shù)據(jù)庫知識的通路擴充方法,生物工程論文京都基因與基因組百科全書〔KyotoEncyclope-diaofGenesandGenomes,KEGG〕中的通路數(shù)據(jù)庫〔KEGGPATHWAYdatabase〕是系統(tǒng)性分析和闡釋基因功能的重要知識庫,涵蓋了從基本細胞經(jīng)過到人類復(fù)雜疾病等重要生命經(jīng)過中分子間的互相作用和網(wǎng)絡(luò)關(guān)系,已成為研究細胞生化經(jīng)過如代謝、膜轉(zhuǎn)運、信號傳遞和細胞周期以及人類復(fù)雜疾病致病分子機制的重要參考工具.KEGG通路通過描繪敘述分子間的互相互作和反響的信息以闡釋基因及其產(chǎn)物的功能。KEGG通路數(shù)據(jù)庫中存儲的數(shù)據(jù)對象也被稱為是廣義的蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò),包括基因產(chǎn)物〔節(jié)點〕和3種類型的互相作用和關(guān)系〔邊〕:酶-酶關(guān)系、直接的蛋白質(zhì)-蛋白質(zhì)互作、基因表示出關(guān)系.隨著分子生物學研究的不斷深切進入,KEGG通路數(shù)據(jù)庫得到快速地積累和擴大,已從2001年的201個通路約6000個基因產(chǎn)物節(jié)點增加到2018年的300多個通路約17000多個蛋白質(zhì)節(jié)點.盡管如此,對于復(fù)雜的生命經(jīng)過而言,該數(shù)據(jù)庫把握的知識仍只是冰山一角,亟需進一步進行知識擴大和完善。但是,受限于實驗成果發(fā)表周期以及數(shù)據(jù)庫管理人員手工擴大通路信息造成的滯后,傳統(tǒng)的基于實驗室技術(shù)的通路擴大方式方法已然不能知足當下分子生物學研究的需求。生物信息學預(yù)測方式方法為通路擴大提供了一種有效和便利的途徑。既往的通路〔網(wǎng)絡(luò)〕擴大、重構(gòu)和預(yù)測方式方法多基于基因表示出數(shù)據(jù)提取基因間互相作用的關(guān)系.例如:Markus等提出能夠利用基于相關(guān)的方式方法擴大現(xiàn)有的調(diào)控網(wǎng)絡(luò);Luo等利用基于三方互信息的方式方法推斷轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。除此之外,概率布爾網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)的方式方法也被廣泛用于生物學通路的重構(gòu)和擴大.然而,這些方式方法存在下面幾個缺陷:首先,需要借助高通量基因表示出譜數(shù)據(jù),這些數(shù)據(jù)往往不能知足理論模型依靠的統(tǒng)計分布假設(shè)條件;其次,這些方式方法沒有充分利用到日益積累的蛋白質(zhì)-蛋白質(zhì)互作和基因功能注釋等先驗生物學知識,其結(jié)果缺乏合理的生物學解釋,難以被廣泛接受。為了克制上述缺陷,本文提出了一種基于蛋白質(zhì)-蛋白質(zhì)互作〔Protein-proteininteraction,PPI〕和基因本體論〔GeneOntology,GO〕數(shù)據(jù)庫知識的通路擴大方式方法。該方式方法主要通過利用目的基因的互作鄰居的功能學信息,預(yù)測其可能介入的生物學通路以實現(xiàn)通路擴大的目的。PPI數(shù)據(jù)庫主要存儲通過實驗方式方法或者計算生物學方式方法獲得的蛋白質(zhì)-蛋白質(zhì)互作信息,已被廣泛應(yīng)用于分子網(wǎng)絡(luò)的構(gòu)建、功能分類以及基因功能預(yù)測等生物學研究。GO數(shù)據(jù)庫是當前應(yīng)用最廣泛的基因功能注釋體系之一,旨在建立基因及其產(chǎn)物知識的標準詞匯體系,從基因的細胞組分〔Cellularcomponent,CC〕、分子功能〔Molecularfunction,MF〕和生物學經(jīng)過〔Biologicalprocess,BP〕3個方面闡釋基因的功能歸屬。1材料和方式方法1.1蛋白質(zhì)互作數(shù)據(jù)來源本文所用到的蛋白質(zhì)-蛋白質(zhì)互作數(shù)據(jù)來源于HumanProteinReferenceDatabase〔HPRD〕數(shù)據(jù)庫和BiologicalGeneralRepositoryforInteractionDa-tasets〔BioGRID〕數(shù)據(jù)庫.HPRD數(shù)據(jù)庫包含了利用體內(nèi)、體外實驗和酵母雙雜交等技術(shù)獲得的人類蛋白質(zhì)-蛋白質(zhì)互作知識,牽涉9616個人類基因間的39240個互作對子。BioGRID數(shù)據(jù)庫包含了利用酵母雙雜交實驗獲得的人類蛋白質(zhì)-蛋白質(zhì)互作關(guān)系,牽涉12582個人類基因間的101925個互作對子。為便于方式方法學評價,本文對目的基因進行了下面挑選,去掉符合以下條件之一的基因:〔1〕不能注釋到任何KEGG通路;〔2〕不能注釋到任何GO節(jié)點;〔3〕與其互作的基因不能注釋到任何KEGG通路。經(jīng)挑選,在HPRD和BioGRID數(shù)據(jù)庫中,分別有3417個和3912個人類基因納入分析。本文利用BioconductorR軟件包對基因進行KEGG和GO功能注釋.1.2目的基因候選通路的辨別首先通過蛋白質(zhì)-蛋白質(zhì)互作信息確定與某一目的基因存在直接互作的鄰居;然后,將互作鄰居基因映射到KEGG數(shù)據(jù)庫中,查找其注釋到的所有通路。目的基因的候選通路定義為與其存在蛋白質(zhì)-蛋白質(zhì)互作的所有鄰居基因所能被注釋到的一系列KEGG通路。1.3目的基因的通路預(yù)測蛋白質(zhì)-蛋白質(zhì)互作通常與特定的生物學途徑有聯(lián)絡(luò).研究表示清楚,互相作用的一對蛋白質(zhì)傾向于共同介入特定的生物學經(jīng)過,因而KEGG通路能夠看作一個廣義的蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)。通路中的基因之間更傾向于存在較強的生物學關(guān)系,它們往往共同介入特定的生物學經(jīng)過并具有類似的生物學功能。因而,假如一條通路中的基因傾向于富集在目的基因所注釋到的GO節(jié)點上,則可逆向揣測該目的基因可能歸屬于此通路。給定一個目的基因和他的一個候選KEGG通路,首先,得到目的基因所注釋到的GO節(jié)點列表;其次,針對每一個GO節(jié)點,對候選通路中的所有基因〔不包括目的基因〕進行GO富集分析,以=0.05為檢驗水準。對于一個GO節(jié)點A和一個KEGG通路B,富集分析的P值可通過下面超幾何分布公式計算:【1】華而不實t是通路B中能夠注釋到GO節(jié)點A的基因個數(shù),N為KEGG數(shù)據(jù)庫中的全部基因個數(shù),m為KEGG數(shù)據(jù)庫中所有能注釋到GO節(jié)點A的基因個數(shù),S為通路B中的基因個數(shù)。最后,考慮到GO涵蓋了3個方面,假如在目的基因所有的BP節(jié)點或者CC節(jié)點或者MF節(jié)點顯著富集,則預(yù)測該目的基因?qū)儆诖送贰卜Q為預(yù)測通路〕。1.4預(yù)測效果評估以下為參考文獻[25],本文采用兩個指標評估預(yù)測效果,分別是平均準確率〔CR〕和相對準確率〔RP〕。本文定義,假如目的基因的預(yù)測通路中至少有一個與其已經(jīng)知道的注釋通路一致,則稱該基因可被成功預(yù)測。對于目的基因k,Pk為其預(yù)測通路的集合,Tk為其已經(jīng)知道的注釋通路集合。假設(shè)有n個目的基因,則CR值的計算公式如下:【2】||表示集合中的元素個數(shù)。CR值越大,表示方式方法的預(yù)測性能越好。給定一個成功的預(yù)測,RP值衡量該預(yù)測是完全正確〔目的基因注釋的所有通路都被預(yù)測正確〕的可能性,即預(yù)測的相對準確率。假設(shè)目的基因中有l(wèi)個基因被成功預(yù)測,華而不實s個被完全預(yù)測正確,則RP=s/l.對于GO功能節(jié)點的BP、CC和MF類,本文設(shè)計了4種方案:GPPI-BP、GPPI-CC、GPPI-MF和GPPI-BOCOM,以討論各GO功能類對預(yù)測結(jié)果的影響。GPPI-BP只考慮BP節(jié)點,GPPI-CC只考慮CC節(jié)點;GPPI-MF只考慮MF節(jié)點;GPPI-BOCOM綜合了所有3種GO功能類的結(jié)果,即只要在某一類節(jié)點到達富集即可。2結(jié)果與分析2.14種方案的預(yù)測結(jié)果4種方案的預(yù)測結(jié)果見表1.基于3種GO功能類的方案〔GPPI-BP、GPPI-CC和GPPI-MF〕預(yù)測效果相近。在HPRD數(shù)據(jù)中,3種方案的CR值分別為75.8%、72.1%和74.6%,RP值分別為79.6%、74.5%和77.3%;在BioGRID數(shù)據(jù)中,3種方案的CR值分別為55.8%、53.6%和54.5%,RP值分別為74.0%、70.2%和71.0%.比照利用BioGRID數(shù)據(jù)進行預(yù)測的結(jié)果,利用HPRD數(shù)據(jù)進行預(yù)測得到了更高層次的平均準確率和相對準確率。對3種方案進行比擬發(fā)現(xiàn),GPPI-BOCOM的預(yù)測效果最好,在HPRD和BioGRID數(shù)據(jù)中,CR值分別為81.7%和60.3%,RP值分別為86.7%和80.2%.因而,后續(xù)僅報告基于GPPI-BOCOM的結(jié)果?!颈?】2.2互作鄰居個數(shù)〔k〕對預(yù)測效果的影響本文討論了不同k值下對目的基因進行通路預(yù)測的效果。圖1給出了在不同k值下〔k=1,2,,22〕可被預(yù)測目的基因數(shù)目的分布以及部分預(yù)測正確和完全預(yù)測正確的基因數(shù)目的分布情況。在HPRD和BioGRID兩套數(shù)據(jù)中,可被預(yù)測的目的基因的絕對數(shù)目均隨互作鄰居數(shù)目的增加而逐步下降〔分別從434和655〔k=1〕減少到32和35〔k=22〕〕,而完全預(yù)測正確的基因個數(shù)占可被預(yù)測的目的基因的比例卻呈現(xiàn)上升趨勢,講明互作鄰居數(shù)目與目的基因的通路預(yù)測效果存在很強的關(guān)聯(lián)。與BioGRID數(shù)據(jù)庫相比,HPRD數(shù)據(jù)庫中可被預(yù)測的目的基因的絕對數(shù)目少一些,但華而不實完全預(yù)測正確的基因比例卻高很多,盡管兩個數(shù)據(jù)間的這些差異隨著互作鄰居個數(shù)的增加而逐步消失。【圖1】圖2描繪了在不同k值下目的基因通路歸屬預(yù)測的變化趨勢,并與隨機情況進行了比照。在兩套數(shù)據(jù)中〔圖2A和2B〕,CR值及RP值均呈現(xiàn)持續(xù)上升的趨勢,但BioGRID的上升趨勢更為明顯。當互作鄰居個數(shù)到達22時,CR值分別到達了96.2%〔HPRD〕和96.3%〔BioGRID〕,而RP分別為93.3%〔HPRD〕和84.1%〔BioGRID〕。值得注意的是,在HPRD數(shù)據(jù)中當互作鄰居個數(shù)5時,CR值已到達90%.為了進一步評估提出的基于蛋白質(zhì)-蛋白質(zhì)互作知識的通路擴大方式方法的有效性,本文與隨機的預(yù)測方式方法進行了比擬。對每個目的基因,隨機選取與實際互作鄰居數(shù)目一樣的基因〔為避免混淆,稱為互作鄰居〕,計算隨機情況下的預(yù)測效果〔其RP值和CR值隨互作鄰居個數(shù)的變化趨勢見圖2A和2B中下部的兩條曲線〕。在HPRD數(shù)據(jù)中,CR值介于2.9%~37.9%之間,RP值介于12.0%~51.4%之間;在BioGRID數(shù)據(jù)中,CR值介于3.5%~21.9%之間,RP值介于4.8%~50.0%之間。從圖中能夠看出,隨機情況下,兩套數(shù)據(jù)中的RP值隨互作鄰居個數(shù)增大呈現(xiàn)小幅度的上升趨勢,而CR值無明顯變化趨勢。結(jié)果證明,利用真實互作基因的預(yù)測效果要遠好于利用隨機挑選的基因的預(yù)測效果?!緢D2】2.3利用知識更新驗證提出的通路預(yù)測方式方法的有效性作為對預(yù)測方式方法進行驗證的另外一種方式,本文對新舊兩個版本的KEGG通路數(shù)據(jù)庫進行了數(shù)據(jù)收集,分別為2018年3月15日發(fā)布的版本和2020年3月18日發(fā)布的版本。定義在新版數(shù)據(jù)庫中更新的基因通路為驗證的對象。先用舊版數(shù)據(jù)庫數(shù)據(jù)對被更新通路注釋的基因進行預(yù)測,然后根據(jù)新版數(shù)據(jù)庫中的數(shù)據(jù)對其預(yù)測的正確性進行評估。新版數(shù)據(jù)庫共更新了89個基因,利用HPRD數(shù)據(jù)中的蛋白質(zhì)-蛋白質(zhì)互作知識,提出的GPPI方式方法成功地預(yù)測了華而不實的50個基因〔表2〕,華而不實43個基因的所有更新通路被全部預(yù)測出來,預(yù)測的相對準確率為86.0%.從預(yù)測結(jié)果能夠看出,更新基因的部分預(yù)測通路在新版通路數(shù)據(jù)庫中得到了驗證,且到達了較高的相對準確率,證明了方式方法的有效性?!颈?】3討論本文提出了一種通過整合蛋白質(zhì)-蛋白質(zhì)互作知識和GO數(shù)據(jù)庫對目的基因進行通路預(yù)測的新思路?;贙EGG通路是一個廣義的蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)這一背景,從蛋白質(zhì)-蛋白質(zhì)互作數(shù)據(jù)出發(fā),利用功能富集分析進行基因的通路預(yù)測。對利用蛋白質(zhì)-蛋白質(zhì)互作數(shù)據(jù)得到的目的基因的候選通路進行GO功能富集分析,成功預(yù)測出了目的基因所注釋到的部分或者全部通路,到達了良好的預(yù)測效果。進一步利用新舊版本數(shù)據(jù)庫的更新信息,對KEGG數(shù)據(jù)庫中的更新基因進行預(yù)測,部分預(yù)測結(jié)果在更新數(shù)據(jù)庫中得到了驗證,進而證明了本文提出的方式方法的有效性和可靠性。通過與隨機情況相比擬,我們較全面地評估了本文提出的方式方法的統(tǒng)計顯著性。較之現(xiàn)有的基于基因表示出譜數(shù)據(jù)及模型方式方法,本方式方法的優(yōu)勢主要具體表現(xiàn)出在下面幾個方面:第一,不需要很強的理論假設(shè)。對于表示出譜數(shù)據(jù)來講,現(xiàn)有方式方法所作的假設(shè)有時并不一定能夠得到知足,造成通路預(yù)測的可靠性差;第二,本研究充分利用了蛋白質(zhì)-蛋白質(zhì)互作知識,與KEGG通路的構(gòu)建背景相吻合,方式方法學更具有合理的生物學解釋;第三,本方式方法不需要事先定義一個基因族〔或者子網(wǎng)〕進行通路擴大,避免了基因族〔或者子網(wǎng)〕定義的隨意性;第四,從預(yù)測效果上看,本文提出的方式方法顯著優(yōu)于之前基于數(shù)據(jù)采礦的方式方法。例如,Luo等利用合成數(shù)據(jù)評估其提出的三方互信息法在推斷轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)關(guān)系的效果時,正確率為77.0%,而基于HPRD數(shù)據(jù),當互作基因個數(shù)5時,本文提出的方式方法正確率達90.0%,其他方式方法多是根據(jù)基因歸屬于某個通路的可能性大小對基因進行排序。從預(yù)測結(jié)果來看,BioGRID數(shù)據(jù)的預(yù)測結(jié)果稍遜于HPRD數(shù)據(jù)的結(jié)果,這可能是由如下原因造成的:BioGRID數(shù)據(jù)庫中的蛋白質(zhì)-蛋白質(zhì)互作僅通過酵母雙雜交實驗得到,而HPRD數(shù)據(jù)庫的蛋白質(zhì)-蛋白質(zhì)互作是通過體內(nèi)、體外和酵母雙雜交實驗中的至少一種實驗得到的。因而,與HPRD中的互作相比,BioGRID的假陽性率更高層次。除本文所研究的KEGG通路數(shù)據(jù)庫外,還有一些其他常用的通路數(shù)據(jù)庫值得探尋求索,如Reactome和BioCarta.Reactome通路數(shù)據(jù)庫的基本單元是一個生化反響,反響之間根據(jù)因果關(guān)系鏈組合起來構(gòu)成生物途徑來描繪敘述代謝、信號傳導(dǎo)、DNA修復(fù)和細胞周期調(diào)控等生物學經(jīng)過,已與KEGG數(shù)據(jù)庫建立了廣泛的穿插應(yīng)用.怎樣融合Reactome通路的構(gòu)建背景和蛋白質(zhì)-蛋白質(zhì)互作知識對其進一步擴大將是我們進一步的研究方向。BioCarta數(shù)據(jù)庫在其公共網(wǎng)站上提供了用于繪制生物學通路的模板,研究者能夠把符合標準的生物學通路提供應(yīng)BioCarta數(shù)據(jù)庫,但它不會檢驗這些生物學通路的質(zhì)量,故華而不實的資料質(zhì)量參差不齊,受數(shù)據(jù)庫本身質(zhì)量的影響,對其進行預(yù)測的可靠性可能會降低。作為一種探尋求索性研究,本研究遭到數(shù)據(jù)庫信息量完好性的影響。從預(yù)測結(jié)果能夠看出,大部分預(yù)測通路在更新的數(shù)據(jù)庫中得到了證實,但仍有部分預(yù)測通路未被現(xiàn)有的知識所證實。然而,這些新開掘的通路很可能是進行生物學通路歸屬預(yù)測的價值所在,為探尋求索生物學通路未知的空間提供了一個行之有效的方式方法,同時也為進一步開展?jié)駥嶒烌炞C研究指明了方向。當然,在實際預(yù)測時可通過整合幾種分子互作數(shù)據(jù)庫得到可信度更高層次更完善的蛋白質(zhì)-蛋白質(zhì)互作證據(jù),以到達更好更可靠地預(yù)測效果。本方式方法具有很好的推廣性,能夠應(yīng)用于其他類型的分子互作數(shù)據(jù)分析以及對其他生物的KEGG通路擴大研究中。除此之外,本方式方法另一個缺乏之處是將每個GO節(jié)點同等對待。事實上,一些GO節(jié)點之間是存在嚴密聯(lián)絡(luò)的,構(gòu)成了一種層次構(gòu)造,在將來的研究中我們也將進一步利用層次構(gòu)造信息研發(fā)預(yù)測效能更佳的算法。以下為參考文獻[1]KanehisaM,GotoS,SatoY,FurumichiM,TanabeM.KEGGforintegrationandinterpretationoflarge-scalemoleculardatasets.NucleicAcidsRes,2020,40〔Databaseissue〕:D109D114.[2]KanehisaM,GotoS.KEGG:kyotoencyclopediaofgenesandgenomes.NucleicAcidsR
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全員A證考試考前沖刺練習題往年題考附答案詳解
- 燃氣管道超聲波檢測技術(shù)方案
- 2025年新版什么是應(yīng)試類考試題目及答案
- 施工現(xiàn)場物料價格動態(tài)監(jiān)測系統(tǒng)
- 威海職業(yè)學院單招職業(yè)適應(yīng)性測試題庫完整參考答案詳解
- 鋼筋試驗方法試題及答案
- 安全員A證考試綜合提升測試卷及答案詳解(名校卷)
- 安全員A證考試過關(guān)檢測及完整答案詳解【奪冠系列】
- 安全員A證考試真題匯編【名校卷】附答案詳解
- 未來五年海水養(yǎng)殖病害預(yù)警監(jiān)測企業(yè)縣域市場拓展與下沉戰(zhàn)略分析研究報告
- 汽車租賃服務(wù)規(guī)范與操作手冊(標準版)
- 2026年食品安全員培訓(xùn)考試模擬題庫及解析答案
- 2025國家國防科技工業(yè)局核技術(shù)支持中心社會招聘13人模擬試卷附答案
- 2025年大學新能源材料與器件(新能源材料研發(fā))試題及答案
- 深度解析(2026)《HGT 5145-2017甲醇制混合芳烴》
- 股骨粗隆骨折并發(fā)癥
- 購房委托書范文
- 公司外來參觀人員安全須知培訓(xùn)課件
- 農(nóng)村集貿(mào)市場改造項目實施方案
- 印刷操作指導(dǎo)書
- 廣州自來水公司招聘試題
評論
0/150
提交評論