基于混合鄰域圖卷積的miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測:方法創(chuàng)新與應(yīng)用探索_第1頁
基于混合鄰域圖卷積的miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測:方法創(chuàng)新與應(yīng)用探索_第2頁
基于混合鄰域圖卷積的miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測:方法創(chuàng)新與應(yīng)用探索_第3頁
基于混合鄰域圖卷積的miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測:方法創(chuàng)新與應(yīng)用探索_第4頁
基于混合鄰域圖卷積的miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測:方法創(chuàng)新與應(yīng)用探索_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于混合鄰域圖卷積的miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測:方法創(chuàng)新與應(yīng)用探索一、引言1.1研究背景與意義在生物醫(yī)學(xué)領(lǐng)域,微小核糖核酸(MicroRNA,miRNA)與疾病關(guān)聯(lián)關(guān)系的研究一直是前沿?zé)狳c。miRNA是一類內(nèi)源性非編碼單鏈小分子RNA,長度約為22個核苷酸,雖不編碼蛋白質(zhì),卻在轉(zhuǎn)錄后水平通過與靶mRNA的互補配對,實現(xiàn)對基因表達的精準(zhǔn)調(diào)控。這種調(diào)控作用廣泛參與細(xì)胞的增殖、分化、凋亡、代謝等眾多生物學(xué)過程,一旦miRNA的表達或功能出現(xiàn)異常,便可能引發(fā)一系列疾病。以癌癥為例,大量研究表明,miRNA在癌癥的發(fā)生、發(fā)展、轉(zhuǎn)移和耐藥等過程中扮演著關(guān)鍵角色。miR-15和miR-16通過靶向抗凋亡基因BCL2,誘導(dǎo)癌細(xì)胞凋亡,對癌癥的發(fā)生發(fā)展起到抑制作用;而miR-21在多種癌癥中過表達,通過調(diào)控多種靶基因,促進腫瘤的生長、侵襲和轉(zhuǎn)移,被視為致癌miRNA。在神經(jīng)系統(tǒng)疾病方面,miRNA在神經(jīng)系統(tǒng)的發(fā)育、成熟及維持正常生理功能中不可或缺,其表達異常與帕金森病、阿爾茨海默病等神經(jīng)退行性疾病密切相關(guān)。在心腦血管疾病中,一些miRNAs如miR-21、miR-143/145等在心臟肥大、纖維化、心肌梗塞以及血管平滑肌細(xì)胞增殖和分化等過程中發(fā)揮關(guān)鍵調(diào)控作用。深入研究miRNA與疾病的關(guān)聯(lián)關(guān)系,對于理解疾病的發(fā)病機制意義重大。它能夠幫助我們從分子層面揭示疾病發(fā)生發(fā)展的內(nèi)在規(guī)律,為疾病的早期診斷、精準(zhǔn)治療以及藥物研發(fā)提供堅實的理論基礎(chǔ)。準(zhǔn)確識別與疾病相關(guān)的miRNA,有望為疾病的早期診斷提供高靈敏度和特異性的生物標(biāo)志物。例如,循環(huán)miRNA在多種疾病的體液中穩(wěn)定存在,其表達水平的變化與疾病的發(fā)生發(fā)展密切相關(guān),可作為潛在的診斷標(biāo)志物,實現(xiàn)疾病的早期篩查和預(yù)警。對于疾病的治療而言,miRNA也為其開辟了嶄新的途徑。通過調(diào)節(jié)異常表達的miRNA,使其恢復(fù)正常功能,有望達到治療疾病的目的。在癌癥治療中,可將具有抑癌作用的miRNA導(dǎo)入癌細(xì)胞,或者抑制致癌miRNA的表達,從而實現(xiàn)對腫瘤細(xì)胞生長、增殖和轉(zhuǎn)移的有效抑制。在藥物研發(fā)領(lǐng)域,miRNA與疾病關(guān)聯(lián)關(guān)系的研究能夠為新藥的研發(fā)提供全新的靶點。以特定的miRNA及其相關(guān)調(diào)控通路為目標(biāo),開發(fā)針對性的藥物,能夠提高藥物研發(fā)的效率和成功率,為患者帶來更多有效的治療選擇。然而,傳統(tǒng)的實驗方法在鑒定miRNA與疾病關(guān)聯(lián)關(guān)系時,面臨著諸多挑戰(zhàn)。不僅耗時費力,需要投入大量的人力、物力和時間成本,而且實驗過程復(fù)雜,技術(shù)要求高,難以大規(guī)模開展。隨著生物數(shù)據(jù)的爆炸式增長,僅依靠傳統(tǒng)實驗方法,遠遠無法滿足對miRNA與疾病關(guān)聯(lián)關(guān)系深入研究的需求。因此,開發(fā)高效、準(zhǔn)確的計算預(yù)測方法迫在眉睫。通過計算預(yù)測方法,能夠從海量的生物數(shù)據(jù)中快速篩選出潛在的miRNA-疾病關(guān)聯(lián)關(guān)系,為實驗驗證提供有價值的線索,極大地提高研究效率,加速生物醫(yī)學(xué)領(lǐng)域的發(fā)展。1.2miRNA與疾病關(guān)聯(lián)關(guān)系概述miRNA的結(jié)構(gòu)較為獨特,它是長度約為22個核苷酸的內(nèi)源性非編碼單鏈小分子RNA,其前體通常具有發(fā)夾狀結(jié)構(gòu),經(jīng)過一系列酶的加工處理后形成成熟的miRNA。這種短小精悍的結(jié)構(gòu)賦予了miRNA高效的基因調(diào)控能力。在功能上,miRNA通過與靶mRNA的互補配對,在轉(zhuǎn)錄后水平對基因表達進行精細(xì)調(diào)控。當(dāng)miRNA與靶mRNA完全或部分互補配對時,可促使靶mRNA降解,從而阻斷基因的翻譯過程,或者抑制靶mRNA的翻譯,減少相應(yīng)蛋白質(zhì)的合成。這種調(diào)控方式猶如精密的分子開關(guān),廣泛參與細(xì)胞的增殖、分化、凋亡、代謝等諸多重要生物學(xué)過程,對維持細(xì)胞的正常生理功能和機體的穩(wěn)態(tài)平衡起著不可或缺的作用。一旦miRNA的表達或功能出現(xiàn)異常,便可能打破細(xì)胞內(nèi)的基因調(diào)控網(wǎng)絡(luò)平衡,進而引發(fā)各種疾病。在眾多疾病中,癌癥與miRNA的關(guān)聯(lián)研究最為深入。大量研究確鑿地表明,miRNA在癌癥的發(fā)生、發(fā)展、轉(zhuǎn)移和耐藥等關(guān)鍵過程中扮演著極為重要的角色,發(fā)揮著致癌或抑癌的雙重作用。miR-15和miR-16通過精準(zhǔn)靶向抗凋亡基因BCL2,誘導(dǎo)癌細(xì)胞凋亡,對癌癥的發(fā)生發(fā)展起到顯著的抑制作用,猶如癌癥發(fā)展道路上的“剎車”;而miR-21在多種癌癥中異常過表達,通過調(diào)控多種靶基因,促進腫瘤的生長、侵襲和轉(zhuǎn)移,堪稱致癌miRNA的典型代表,恰似癌癥發(fā)展的“加速器”。在乳腺癌中,miR-21的高表達與腫瘤的惡性程度和不良預(yù)后密切相關(guān),它通過抑制相關(guān)抑癌基因的表達,為癌細(xì)胞的增殖和轉(zhuǎn)移創(chuàng)造了有利條件。在肺癌中,let-7的表達水平顯著降低,導(dǎo)致其對癌基因的抑制作用減弱,從而促進了肺癌細(xì)胞的增殖和遷移。神經(jīng)系統(tǒng)疾病同樣與miRNA的表達異常緊密相連。在神經(jīng)系統(tǒng)的發(fā)育、成熟及維持正常生理功能的過程中,miRNA發(fā)揮著至關(guān)重要的作用。一旦miRNA的表達出現(xiàn)異常,就可能引發(fā)帕金森病、阿爾茨海默病等神經(jīng)退行性疾病。帕金森病患者的腦組織中,某些miRNA的表達水平明顯失調(diào),這些miRNA通過調(diào)控相關(guān)基因的表達,影響神經(jīng)遞質(zhì)的合成、代謝和傳遞,以及神經(jīng)元的存活和功能,進而導(dǎo)致帕金森病的發(fā)生和發(fā)展。在阿爾茨海默病中,miR-125b等miRNA的表達異常與淀粉樣蛋白的沉積和tau蛋白的過度磷酸化密切相關(guān),它們參與了神經(jīng)炎癥和神經(jīng)元凋亡等病理過程,推動了阿爾茨海默病的病情進展。心腦血管疾病方面,miRNA也在其中發(fā)揮著關(guān)鍵的調(diào)控作用。在心臟肥大、纖維化、心肌梗塞以及血管平滑肌細(xì)胞增殖和分化等過程中,一些特定的miRNAs如miR-21、miR-143/145等扮演著重要角色。在心肌梗塞發(fā)生時,miR-21的表達顯著上調(diào),它通過調(diào)控相關(guān)靶基因,促進心肌細(xì)胞的凋亡和纖維化,加重心肌損傷;而miR-143/145則通過靶向調(diào)控相關(guān)基因,參與血管平滑肌細(xì)胞的增殖和分化過程,對血管的正常生理功能起著重要的維持作用,其表達異??赡軐?dǎo)致血管功能紊亂,增加心腦血管疾病的發(fā)病風(fēng)險。1.3圖卷積技術(shù)在生物信息學(xué)中的應(yīng)用進展圖卷積技術(shù)作為深度學(xué)習(xí)領(lǐng)域的重要分支,近年來在生物信息學(xué)中展現(xiàn)出巨大的應(yīng)用潛力,為解決生物分子網(wǎng)絡(luò)分析等復(fù)雜問題提供了全新的思路和方法。圖卷積神經(jīng)網(wǎng)絡(luò)(GraphConvolutionalNetworks,GCN)起源于2014年,其基本思想是將卷積神經(jīng)網(wǎng)絡(luò)(CNN)的卷積操作從歐幾里得空間擴展到圖空間,以處理具有復(fù)雜連接關(guān)系的圖結(jié)構(gòu)數(shù)據(jù)。在圖卷積中,每個節(jié)點都包含一個特征向量,邊表示節(jié)點之間的關(guān)系,通過將節(jié)點的特征向量與邊的權(quán)重相乘并求和,得到新的特征向量,從而捕捉節(jié)點之間的關(guān)系信息。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,圖卷積神經(jīng)網(wǎng)絡(luò)更適合處理非歐幾里得空間的數(shù)據(jù),如社交網(wǎng)絡(luò)、分子結(jié)構(gòu)等。隨著深度學(xué)習(xí)的不斷發(fā)展,圖卷積技術(shù)也在持續(xù)演進,衍生出了GraphSAGE、GAT等多種變體,以提升模型性能和拓展應(yīng)用范圍。GraphSAGE通過采樣和聚合鄰居節(jié)點的特征,能夠在大規(guī)模圖數(shù)據(jù)上進行高效的歸納學(xué)習(xí);GAT則引入了注意力機制,使模型能夠自適應(yīng)地學(xué)習(xí)不同鄰居節(jié)點的重要性,從而更好地捕捉圖中的復(fù)雜結(jié)構(gòu)和依賴關(guān)系。這些改進和創(chuàng)新使得圖卷積技術(shù)在生物信息學(xué)等領(lǐng)域得到了更為廣泛的應(yīng)用和深入的研究。在生物分子網(wǎng)絡(luò)分析中,圖卷積技術(shù)具有獨特的優(yōu)勢。生物分子網(wǎng)絡(luò),如蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)、基因調(diào)控網(wǎng)絡(luò)等,呈現(xiàn)出高度復(fù)雜且不規(guī)則的圖結(jié)構(gòu),傳統(tǒng)的分析方法往往難以有效處理。圖卷積技術(shù)能夠充分利用圖的拓?fù)浣Y(jié)構(gòu)信息,通過對節(jié)點鄰居信息的聚合和傳播,挖掘生物分子之間的相互作用模式和潛在關(guān)系。在蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)中,圖卷積可以通過分析節(jié)點(蛋白質(zhì))之間的連接關(guān)系和特征信息,預(yù)測蛋白質(zhì)的功能、識別蛋白質(zhì)復(fù)合物以及揭示蛋白質(zhì)在生物過程中的作用機制。通過圖卷積模型對蛋白質(zhì)相互作用網(wǎng)絡(luò)進行分析,能夠識別出與特定疾病相關(guān)的蛋白質(zhì)模塊,為疾病的發(fā)病機制研究和藥物靶點發(fā)現(xiàn)提供關(guān)鍵線索。在基因組學(xué)領(lǐng)域,圖卷積技術(shù)也發(fā)揮著重要作用。它可應(yīng)用于變異檢測、基因表達分析、蛋白質(zhì)互作預(yù)測等多個方面。在變異檢測中,將基因組數(shù)據(jù)轉(zhuǎn)化為圖結(jié)構(gòu),利用圖卷積網(wǎng)絡(luò)對圖中的節(jié)點(如基因片段)和邊(如基因之間的關(guān)聯(lián))進行特征提取和分析,能夠更準(zhǔn)確地識別出基因突變和結(jié)構(gòu)變異,為疾病的遺傳診斷和個性化治療提供有力支持。在基因表達分析中,圖卷積技術(shù)能夠考慮基因之間的調(diào)控關(guān)系和相互作用,從復(fù)雜的基因表達數(shù)據(jù)中挖掘出潛在的生物學(xué)信息,有助于深入理解基因的功能和調(diào)控機制。通過圖卷積網(wǎng)絡(luò)對基因表達數(shù)據(jù)進行分析,能夠發(fā)現(xiàn)與腫瘤發(fā)生發(fā)展相關(guān)的關(guān)鍵基因和調(diào)控通路,為腫瘤的診斷和治療提供新的靶點和策略。在蛋白質(zhì)組學(xué)方面,圖卷積技術(shù)為蛋白質(zhì)結(jié)構(gòu)預(yù)測和功能注釋提供了新的解決方案。蛋白質(zhì)的結(jié)構(gòu)和功能與其氨基酸序列以及氨基酸之間的相互作用密切相關(guān),將蛋白質(zhì)表示為圖結(jié)構(gòu),圖卷積網(wǎng)絡(luò)可以通過對圖中節(jié)點(氨基酸)和邊(氨基酸之間的相互作用)的特征學(xué)習(xí),預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),進而推斷其功能。這種方法能夠充分考慮蛋白質(zhì)結(jié)構(gòu)中的復(fù)雜拓?fù)潢P(guān)系,提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性和效率。在蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測中,圖卷積技術(shù)能夠利用蛋白質(zhì)序列和結(jié)構(gòu)信息,構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò),并通過對網(wǎng)絡(luò)的分析預(yù)測蛋白質(zhì)之間的相互作用,為理解細(xì)胞內(nèi)的信號傳導(dǎo)和代謝途徑提供重要依據(jù)。圖卷積技術(shù)在生物信息學(xué)中的應(yīng)用不僅局限于上述領(lǐng)域,還在疾病預(yù)測、藥物設(shè)計等方面展現(xiàn)出廣闊的應(yīng)用前景。在疾病預(yù)測中,通過整合多種生物數(shù)據(jù),構(gòu)建疾病相關(guān)的圖模型,利用圖卷積網(wǎng)絡(luò)挖掘數(shù)據(jù)中的潛在模式和關(guān)聯(lián),能夠?qū)崿F(xiàn)對疾病風(fēng)險的準(zhǔn)確預(yù)測,為疾病的早期預(yù)防和干預(yù)提供支持。在藥物設(shè)計中,圖卷積技術(shù)可以用于分析藥物分子與靶點之間的相互作用,預(yù)測藥物的活性和毒性,加速藥物研發(fā)的進程,降低研發(fā)成本。盡管圖卷積技術(shù)在生物信息學(xué)中取得了顯著的成果,但仍面臨一些挑戰(zhàn)。生物數(shù)據(jù)通常具有高維度、高噪聲和數(shù)據(jù)稀疏性等特點,這對圖卷積模型的性能和泛化能力提出了嚴(yán)峻的考驗;圖卷積模型的可解釋性較差,難以直觀地理解模型的決策過程和結(jié)果,限制了其在實際應(yīng)用中的推廣和應(yīng)用。未來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和生物數(shù)據(jù)的日益豐富,圖卷積技術(shù)有望在生物信息學(xué)中取得更加突破性的進展。通過改進模型算法,提高模型對復(fù)雜生物數(shù)據(jù)的處理能力;結(jié)合可解釋性方法,增強模型的可解釋性,將有助于圖卷積技術(shù)在生物信息學(xué)中發(fā)揮更大的作用,推動生物醫(yī)學(xué)研究的深入發(fā)展。二、相關(guān)理論與技術(shù)基礎(chǔ)2.1miRNA與疾病關(guān)聯(lián)數(shù)據(jù)來源及特點在miRNA與疾病關(guān)聯(lián)關(guān)系的研究中,數(shù)據(jù)來源廣泛且多樣,其中數(shù)據(jù)庫是重要的數(shù)據(jù)支撐。人類微小RNA疾病數(shù)據(jù)庫(HumanMicroRNADiseaseDatabase,HMDD)是該領(lǐng)域極具代表性的數(shù)據(jù)庫,其最新版本HMDDv4.0包含53530個實驗支持的miRNA-疾病關(guān)聯(lián)條目,涵蓋了來自37090篇論文的1817個人類miRNA基因、79個病毒源性miRNA和2360個人類疾病。這些條目依據(jù)實驗證據(jù)被細(xì)致地分為8類,包含23種不同的證據(jù)代碼。通過HMDD,研究人員能夠獲取到豐富的miRNA與疾病關(guān)聯(lián)的信息,為深入研究提供了堅實的數(shù)據(jù)基礎(chǔ)。除了HMDD,還有其他多個數(shù)據(jù)庫也在miRNA與疾病關(guān)聯(lián)研究中發(fā)揮著重要作用。miR2Disease數(shù)據(jù)庫專注于收集和整理miRNA與疾病之間的關(guān)系,為研究提供了有價值的數(shù)據(jù)參考;dbDEMC數(shù)據(jù)庫則主要聚焦于人類癌癥中差異表達的miRNA,對于研究miRNA在癌癥發(fā)生發(fā)展過程中的作用機制具有重要意義。這些數(shù)據(jù)庫從不同角度和側(cè)重點收集數(shù)據(jù),豐富了研究人員可獲取的數(shù)據(jù)資源。這些數(shù)據(jù)來源呈現(xiàn)出顯著的特點。數(shù)據(jù)具有多源性,不同數(shù)據(jù)庫基于不同的研究目的、實驗方法和數(shù)據(jù)收集渠道,收集了miRNA與疾病關(guān)聯(lián)的相關(guān)信息。HMDD主要通過對大量文獻的整理和篩選獲取數(shù)據(jù),而一些數(shù)據(jù)庫可能側(cè)重于特定疾病類型或特定實驗技術(shù)所產(chǎn)生的數(shù)據(jù)收集。這種多源性使得數(shù)據(jù)內(nèi)容豐富多樣,但也帶來了數(shù)據(jù)整合和一致性處理的挑戰(zhàn)。不同數(shù)據(jù)庫的數(shù)據(jù)格式、注釋標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量存在差異,如何將這些多源數(shù)據(jù)有效地整合起來,是研究過程中需要解決的關(guān)鍵問題之一。數(shù)據(jù)具有復(fù)雜性。miRNA與疾病之間的關(guān)聯(lián)并非簡單的一對一關(guān)系,而是呈現(xiàn)出復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。一個miRNA可能參與調(diào)控多個基因的表達,進而與多種疾病相關(guān);一種疾病也可能受到多個miRNA的共同調(diào)控。這種復(fù)雜的關(guān)聯(lián)關(guān)系使得數(shù)據(jù)的分析和理解變得更為困難,需要采用復(fù)雜的計算方法和模型來挖掘其中的潛在規(guī)律。在癌癥中,miR-21不僅與乳腺癌的發(fā)生發(fā)展密切相關(guān),還在肺癌、胃癌等多種癌癥中發(fā)揮著重要作用。它通過調(diào)控多個靶基因,影響腫瘤細(xì)胞的增殖、凋亡、侵襲和轉(zhuǎn)移等多個生物學(xué)過程,這種復(fù)雜的調(diào)控網(wǎng)絡(luò)使得miR-21與多種癌癥之間建立了緊密的聯(lián)系。數(shù)據(jù)還存在不完整性和噪聲干擾的問題。由于實驗技術(shù)的限制和研究的局限性,目前已知的miRNA與疾病關(guān)聯(lián)關(guān)系只是實際情況的一部分,大量潛在的關(guān)聯(lián)關(guān)系尚未被發(fā)現(xiàn)。一些低表達水平的miRNA或者與疾病關(guān)聯(lián)較弱的關(guān)系可能難以通過現(xiàn)有的實驗方法檢測到。數(shù)據(jù)中可能存在噪聲干擾,如實驗誤差、數(shù)據(jù)錄入錯誤等,這些噪聲會影響數(shù)據(jù)的質(zhì)量和分析結(jié)果的準(zhǔn)確性。在實驗過程中,由于樣本處理不當(dāng)、檢測儀器的誤差等原因,可能導(dǎo)致miRNA表達量的測量出現(xiàn)偏差,從而影響對miRNA與疾病關(guān)聯(lián)關(guān)系的判斷。數(shù)據(jù)質(zhì)量對預(yù)測結(jié)果有著至關(guān)重要的影響。高質(zhì)量的數(shù)據(jù)能夠為預(yù)測模型提供準(zhǔn)確、可靠的信息,從而提高預(yù)測的準(zhǔn)確性和可靠性;而低質(zhì)量的數(shù)據(jù)則可能引入錯誤信息,導(dǎo)致預(yù)測結(jié)果出現(xiàn)偏差。如果數(shù)據(jù)中存在大量的噪聲和錯誤標(biāo)注,模型在學(xué)習(xí)過程中可能會學(xué)到錯誤的模式,從而影響對未知關(guān)聯(lián)關(guān)系的預(yù)測能力。在構(gòu)建預(yù)測模型時,需要對數(shù)據(jù)進行嚴(yán)格的預(yù)處理和質(zhì)量控制,以確保數(shù)據(jù)的準(zhǔn)確性和可靠性,從而提高預(yù)測模型的性能。2.2傳統(tǒng)miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測方法2.2.1基于相似度計算的方法基于相似度計算的方法在miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測中占據(jù)著重要地位,這類方法的核心假設(shè)是功能相似的miRNA往往與表型相似的疾病相關(guān)聯(lián)。在實際應(yīng)用中,該方法主要通過計算miRNA與疾病之間的多種相似度來預(yù)測潛在關(guān)聯(lián)關(guān)系,其中包括高斯相互作用屬性核相似性、序列相似性、語義相似性等。高斯相互作用屬性核相似性的計算基于這樣的假設(shè):相似的miRNA更有可能與相似的疾病相關(guān)。具體計算過程中,會構(gòu)建一個二元向量來表示miRNA與所有其他疾病之間的關(guān)聯(lián)。對于miRNAm_i,其與疾病的關(guān)聯(lián)向量IP(m_i)是矩陣DM的第i列,通過該向量與相關(guān)參數(shù)進行運算,可得到miRNA的高斯相互作用曲線。類似地,也可計算出疾病的高斯相互作用曲線。這種方法能夠從整體上衡量miRNA與疾病之間的關(guān)聯(lián)模式相似性,在一些研究中,通過計算高斯相互作用屬性核相似性,成功發(fā)現(xiàn)了一些潛在的miRNA-疾病關(guān)聯(lián)關(guān)系,為后續(xù)實驗研究提供了有價值的線索。該方法對于數(shù)據(jù)的依賴性較強,如果數(shù)據(jù)存在噪聲或不完整性,可能會影響相似性計算的準(zhǔn)確性,進而導(dǎo)致預(yù)測結(jié)果出現(xiàn)偏差。而且它主要基于已有的關(guān)聯(lián)數(shù)據(jù)進行相似性度量,對于發(fā)現(xiàn)全新的、與已知模式差異較大的關(guān)聯(lián)關(guān)系存在一定局限性。序列相似性的計算則側(cè)重于從miRNA的核苷酸序列角度出發(fā),探尋miRNA之間以及miRNA與疾病之間的潛在聯(lián)系。通常采用的方法是將miRNA序列進行比對,通過計算序列之間的相似性得分來評估它們的相似程度。常見的序列比對算法如BLAST(BasicLocalAlignmentSearchTool),能夠快速在數(shù)據(jù)庫中搜索與目標(biāo)序列相似的序列,并給出相應(yīng)的相似性分?jǐn)?shù)。在miRNA與疾病關(guān)聯(lián)預(yù)測中,假設(shè)具有相似序列的miRNA可能具有相似的功能,進而與相似的疾病相關(guān)。通過對大量miRNA序列進行分析,發(fā)現(xiàn)某些序列相似的miRNA在多種疾病中表現(xiàn)出相似的表達模式,從而推測它們與這些疾病可能存在關(guān)聯(lián)。序列相似性計算方法對于序列數(shù)據(jù)的質(zhì)量要求較高,低質(zhì)量的序列數(shù)據(jù)可能導(dǎo)致比對結(jié)果不準(zhǔn)確;而且僅考慮序列相似性,忽略了miRNA在生物體內(nèi)復(fù)雜的調(diào)控網(wǎng)絡(luò)和功能多樣性,可能會遺漏一些重要的關(guān)聯(lián)關(guān)系。語義相似性的計算主要借助醫(yī)學(xué)領(lǐng)域的專業(yè)知識和數(shù)據(jù)庫,如醫(yī)學(xué)主題詞(MeSH)數(shù)據(jù)庫。在MeSH數(shù)據(jù)庫中,每種疾病都可以用有向無環(huán)圖(DAG)來表示。通過分析疾病在DAG中的位置、祖先節(jié)點和邊的關(guān)系等信息,計算疾病之間的語義貢獻值,進而得到疾病語義相似度。對于疾病d_i和d_j,首先計算疾病d_k對d_i的語義貢獻值,隨著疾病d_k到d_i的距離增加,語義貢獻因子會降低。在此基礎(chǔ)上,通過特定的公式計算出疾病d_i的語義值,進而得到疾病d_i和d_j之間的相似度。在實際應(yīng)用中,語義相似性計算方法能夠充分利用醫(yī)學(xué)領(lǐng)域的先驗知識,挖掘疾病之間潛在的語義關(guān)聯(lián),為miRNA與疾病關(guān)聯(lián)預(yù)測提供更具生物學(xué)意義的信息。在研究神經(jīng)系統(tǒng)疾病時,通過語義相似性分析,發(fā)現(xiàn)一些具有相似語義特征的疾病與某些特定miRNA存在共同的關(guān)聯(lián),為深入研究這些疾病的發(fā)病機制提供了新的思路。該方法的計算過程較為復(fù)雜,依賴于專業(yè)數(shù)據(jù)庫的準(zhǔn)確性和完整性;而且對于語義相似性的定義和計算方式存在多種觀點,不同的計算方法可能會導(dǎo)致結(jié)果存在差異。基于相似度計算的方法在miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測中具有一定的應(yīng)用場景。在初步篩選潛在關(guān)聯(lián)關(guān)系時,該方法能夠快速根據(jù)已知的相似性信息,對大量的miRNA和疾病進行排序,為后續(xù)深入研究提供候選對象。在生物標(biāo)志物的發(fā)現(xiàn)研究中,通過計算相似度,可以從眾多miRNA中篩選出與特定疾病可能相關(guān)的miRNA,然后再通過實驗驗證,確定其是否真正可作為疾病診斷或預(yù)后評估的生物標(biāo)志物。這類方法也存在一些局限性,如對數(shù)據(jù)質(zhì)量要求高、計算結(jié)果受限于已知信息、無法全面考慮生物分子間復(fù)雜的相互作用等。在實際應(yīng)用中,通常需要與其他方法相結(jié)合,以提高預(yù)測的準(zhǔn)確性和可靠性。2.2.2基于機器學(xué)習(xí)的方法基于機器學(xué)習(xí)的方法在miRNA-疾病關(guān)聯(lián)預(yù)測領(lǐng)域發(fā)揮著重要作用,這類方法通過運用各種分類算法和特征提取技術(shù),從大量的數(shù)據(jù)中學(xué)習(xí)miRNA與疾病之間的潛在關(guān)系模式,從而實現(xiàn)對未知關(guān)聯(lián)關(guān)系的預(yù)測。常見的算法包括邏輯回歸、支持向量機、隨機森林等,它們在miRNA-疾病關(guān)聯(lián)預(yù)測中各有特點和應(yīng)用方式。邏輯回歸是一種經(jīng)典的線性分類算法,在miRNA-疾病關(guān)聯(lián)預(yù)測中,它通過構(gòu)建線性模型來描述miRNA特征與疾病之間的關(guān)系。將miRNA的各種特征,如表達量、序列特征、功能相似性等作為輸入變量,疾病是否關(guān)聯(lián)作為輸出變量,通過對已知miRNA-疾病關(guān)聯(lián)數(shù)據(jù)的學(xué)習(xí),確定模型的參數(shù)。在實際應(yīng)用中,邏輯回歸模型可以根據(jù)給定的miRNA特征,預(yù)測其與特定疾病關(guān)聯(lián)的概率。通過對大量已知miRNA-疾病關(guān)聯(lián)數(shù)據(jù)的訓(xùn)練,邏輯回歸模型能夠?qū)W習(xí)到miRNA特征與疾病關(guān)聯(lián)之間的線性關(guān)系,對于一些特征與疾病關(guān)聯(lián)呈現(xiàn)簡單線性關(guān)系的情況,邏輯回歸能夠快速準(zhǔn)確地進行預(yù)測。邏輯回歸模型假設(shè)數(shù)據(jù)特征與疾病關(guān)聯(lián)之間是線性關(guān)系,然而在實際的生物系統(tǒng)中,miRNA與疾病之間的關(guān)系往往非常復(fù)雜,可能存在非線性關(guān)系,這就限制了邏輯回歸模型的預(yù)測能力;而且邏輯回歸對數(shù)據(jù)中的噪聲較為敏感,如果數(shù)據(jù)存在噪聲或異常值,可能會影響模型的準(zhǔn)確性。支持向量機(SupportVectorMachine,SVM)是一種強大的機器學(xué)習(xí)算法,它通過尋找一個最優(yōu)的分類超平面,將不同類別的數(shù)據(jù)點分開。在miRNA-疾病關(guān)聯(lián)預(yù)測中,SVM將miRNA和疾病的數(shù)據(jù)特征映射到高維空間,然后在這個高維空間中尋找一個能夠最大化兩類數(shù)據(jù)間隔的超平面。通過核函數(shù)的選擇,SVM可以處理線性不可分的數(shù)據(jù),從而適應(yīng)miRNA與疾病之間復(fù)雜的關(guān)系。在處理高維數(shù)據(jù)時,SVM能夠有效地避免維度災(zāi)難問題,對于少量的樣本數(shù)據(jù)也能取得較好的分類效果。在miRNA-疾病關(guān)聯(lián)預(yù)測中,SVM可以利用miRNA和疾病的多種特征數(shù)據(jù),如功能相似性、表達譜等,通過合適的核函數(shù)將數(shù)據(jù)映射到高維空間,找到最優(yōu)分類超平面,實現(xiàn)對miRNA-疾病關(guān)聯(lián)關(guān)系的準(zhǔn)確預(yù)測。SVM的性能很大程度上依賴于核函數(shù)的選擇和參數(shù)的調(diào)整,不同的核函數(shù)和參數(shù)設(shè)置可能會導(dǎo)致模型性能的巨大差異;而且SVM的訓(xùn)練時間較長,對于大規(guī)模數(shù)據(jù)的處理效率較低。隨機森林(RandomForest)是一種基于決策樹的集成學(xué)習(xí)算法,它通過構(gòu)建多個決策樹,并將這些決策樹的預(yù)測結(jié)果進行綜合,來提高預(yù)測的準(zhǔn)確性和穩(wěn)定性。在miRNA-疾病關(guān)聯(lián)預(yù)測中,隨機森林首先從原始數(shù)據(jù)中隨機抽取多個樣本子集,然后基于每個樣本子集構(gòu)建一棵決策樹。在構(gòu)建決策樹的過程中,隨機選擇特征子集進行分裂,以增加決策樹之間的多樣性。最終,通過對所有決策樹的預(yù)測結(jié)果進行投票或平均,得到最終的預(yù)測結(jié)果。隨機森林能夠有效地處理高維數(shù)據(jù)和非線性關(guān)系,對于數(shù)據(jù)中的噪聲和缺失值具有較強的魯棒性。在miRNA-疾病關(guān)聯(lián)預(yù)測中,隨機森林可以利用miRNA和疾病的各種復(fù)雜特征,通過多棵決策樹的綜合判斷,提高預(yù)測的準(zhǔn)確性。通過對大量miRNA和疾病數(shù)據(jù)的學(xué)習(xí),隨機森林模型能夠捕捉到數(shù)據(jù)中的復(fù)雜模式和潛在關(guān)系,對于預(yù)測一些復(fù)雜疾病與miRNA的關(guān)聯(lián)具有較好的性能表現(xiàn)。隨機森林模型的可解釋性相對較差,難以直觀地理解模型的決策過程;而且當(dāng)決策樹數(shù)量過多時,可能會導(dǎo)致模型過擬合,影響模型的泛化能力。在實際應(yīng)用中,這些基于機器學(xué)習(xí)的方法在miRNA-疾病關(guān)聯(lián)預(yù)測中都取得了一定的成果,但也面臨著一些挑戰(zhàn)。數(shù)據(jù)的質(zhì)量和特征的選擇對模型性能影響巨大,高質(zhì)量的數(shù)據(jù)和有效的特征能夠為模型提供準(zhǔn)確的信息,提高預(yù)測的準(zhǔn)確性;而低質(zhì)量的數(shù)據(jù)和無關(guān)的特征則可能導(dǎo)致模型學(xué)習(xí)到錯誤的模式,降低預(yù)測性能。模型的泛化能力也是一個關(guān)鍵問題,如何使模型在訓(xùn)練數(shù)據(jù)和未知數(shù)據(jù)上都能表現(xiàn)出良好的性能,是需要解決的重要挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),研究人員通常會采用多種方法進行改進,如對數(shù)據(jù)進行預(yù)處理和特征工程,提高數(shù)據(jù)質(zhì)量和特征的有效性;采用交叉驗證等技術(shù),評估和提高模型的泛化能力;將多種機器學(xué)習(xí)算法進行融合,發(fā)揮各自的優(yōu)勢,提高預(yù)測的準(zhǔn)確性和可靠性。2.3圖卷積網(wǎng)絡(luò)基礎(chǔ)2.3.1圖卷積網(wǎng)絡(luò)基本原理圖卷積網(wǎng)絡(luò)(GraphConvolutionalNetworks,GCN)作為深度學(xué)習(xí)領(lǐng)域中處理圖結(jié)構(gòu)數(shù)據(jù)的關(guān)鍵技術(shù),其基本原理融合了圖譜理論和卷積神經(jīng)網(wǎng)絡(luò)的核心思想。在深入理解圖卷積網(wǎng)絡(luò)之前,首先需要明確圖數(shù)據(jù)的基本表示方式,其中鄰接矩陣和拉普拉斯矩陣是描述圖結(jié)構(gòu)的重要數(shù)學(xué)工具。鄰接矩陣(AdjacencyMatrix)是表示圖中節(jié)點之間連接關(guān)系的矩陣。對于一個具有N個節(jié)點的圖G=(V,E),其中V是節(jié)點集合,E是邊集合,其鄰接矩陣A是一個N\timesN的矩陣。若節(jié)點i和節(jié)點j之間存在邊連接,則A_{ij}=1;若不存在邊連接,則A_{ij}=0。在一個簡單的社交網(wǎng)絡(luò)中,若用戶i和用戶j是好友關(guān)系,那么在對應(yīng)的鄰接矩陣中,A_{ij}=1,否則A_{ij}=0。鄰接矩陣直觀地展示了圖中節(jié)點之間的直接連接關(guān)系,是進一步分析圖結(jié)構(gòu)的基礎(chǔ)。拉普拉斯矩陣(LaplacianMatrix)則是基于鄰接矩陣定義的另一個重要矩陣,它在圖信號處理和圖卷積網(wǎng)絡(luò)中發(fā)揮著關(guān)鍵作用。拉普拉斯矩陣L可以通過鄰接矩陣A和度矩陣D計算得到,度矩陣D是一個對角矩陣,其對角元素D_{ii}等于節(jié)點i的度,即與節(jié)點i相連的邊的數(shù)量。拉普拉斯矩陣的定義為L=D-A。拉普拉斯矩陣反映了圖中節(jié)點的局部和全局結(jié)構(gòu)信息,其特征值和特征向量包含了關(guān)于圖的拓?fù)浣Y(jié)構(gòu)和信號傳播特性的重要信息。在分析一個蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)時,拉普拉斯矩陣可以幫助我們理解蛋白質(zhì)節(jié)點之間的相互作用強度和網(wǎng)絡(luò)的穩(wěn)定性,通過分析拉普拉斯矩陣的特征值,可以評估網(wǎng)絡(luò)的連通性和模塊化程度。圖卷積操作的核心目標(biāo)是在圖結(jié)構(gòu)數(shù)據(jù)上實現(xiàn)類似于卷積神經(jīng)網(wǎng)絡(luò)在歐幾里得空間數(shù)據(jù)上的特征提取和信息傳播功能。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,卷積操作通過滑動窗口在規(guī)則的網(wǎng)格結(jié)構(gòu)數(shù)據(jù)(如圖像)上進行局部特征提取,利用卷積核與局部區(qū)域的數(shù)據(jù)進行加權(quán)求和,從而提取出數(shù)據(jù)的局部特征。然而,圖數(shù)據(jù)具有不規(guī)則的拓?fù)浣Y(jié)構(gòu),節(jié)點的鄰居數(shù)量和連接方式各不相同,無法直接應(yīng)用傳統(tǒng)的卷積操作。為了解決這一問題,圖卷積網(wǎng)絡(luò)通過對節(jié)點及其鄰居節(jié)點的特征進行聚合和變換,實現(xiàn)對圖數(shù)據(jù)的特征提取。具體而言,圖卷積操作可以看作是對節(jié)點的鄰居節(jié)點信息進行加權(quán)求和,并結(jié)合節(jié)點自身的特征進行變換。對于圖中的每個節(jié)點i,其鄰居節(jié)點集合記為N(i),圖卷積操作通過對鄰居節(jié)點的特征h_j(j\inN(i))進行加權(quán)求和,并與節(jié)點i自身的特征h_i進行線性組合,得到節(jié)點i的新特征表示。這個過程可以用數(shù)學(xué)公式表示為:h_i^{l+1}=\sigma\left(\sum_{j\inN(i)}\frac{1}{\sqrt{D_{ii}D_{jj}}}A_{ij}W^lh_j^l+b^l\right)其中,h_i^{l+1}是節(jié)點i在第l+1層的特征表示,\sigma是激活函數(shù),如ReLU函數(shù)(\sigma(x)=max(0,x)),用于增加模型的非線性表達能力;W^l是第l層的權(quán)重矩陣,通過訓(xùn)練學(xué)習(xí)得到,用于對鄰居節(jié)點特征進行線性變換;b^l是第l層的偏置向量;\frac{1}{\sqrt{D_{ii}D_{jj}}}A_{ij}是歸一化的鄰接矩陣元素,用于對鄰居節(jié)點的特征進行加權(quán),使得不同鄰居節(jié)點的貢獻能夠在統(tǒng)一的尺度下進行計算。在一個基因調(diào)控網(wǎng)絡(luò)中,每個基因可以看作是圖中的一個節(jié)點,基因之間的調(diào)控關(guān)系用邊表示,通過圖卷積操作,可以聚合鄰居基因的表達信息,從而推斷出當(dāng)前基因在特定生物學(xué)過程中的潛在功能。通過多層圖卷積操作的堆疊,可以使節(jié)點不僅能夠獲取直接鄰居節(jié)點的信息,還能獲取更遠距離鄰居節(jié)點的信息,從而挖掘圖數(shù)據(jù)中的全局結(jié)構(gòu)和復(fù)雜關(guān)系。在一個社交網(wǎng)絡(luò)分析中,通過多層圖卷積網(wǎng)絡(luò),可以從用戶的直接好友關(guān)系出發(fā),逐步聚合間接好友的信息,從而對用戶的興趣愛好、社交影響力等進行更全面、準(zhǔn)確的預(yù)測。在分子結(jié)構(gòu)分析中,圖卷積網(wǎng)絡(luò)可以通過多層卷積操作,從原子之間的直接化學(xué)鍵信息開始,逐步整合分子中更廣泛的原子間相互作用信息,從而準(zhǔn)確預(yù)測分子的物理化學(xué)性質(zhì)和生物活性。2.3.2圖卷積網(wǎng)絡(luò)在節(jié)點分類和圖分類任務(wù)中的應(yīng)用在生物分子網(wǎng)絡(luò)分析領(lǐng)域,圖卷積網(wǎng)絡(luò)展現(xiàn)出了強大的應(yīng)用能力,在節(jié)點分類和圖分類任務(wù)中都取得了顯著成果。在節(jié)點分類任務(wù)中,以基因功能預(yù)測為例,基因在生物體內(nèi)構(gòu)成了復(fù)雜的調(diào)控網(wǎng)絡(luò),如同一個龐大而精密的信息傳遞系統(tǒng)。將基因調(diào)控網(wǎng)絡(luò)看作圖結(jié)構(gòu),每個基因是圖中的節(jié)點,基因之間的調(diào)控關(guān)系用邊表示。圖卷積網(wǎng)絡(luò)通過對基因節(jié)點的特征和鄰居節(jié)點的信息進行學(xué)習(xí),能夠有效預(yù)測基因的功能。在這個過程中,基因的特征可以包括基因的表達量、序列特征以及已知的功能注釋信息等。通過多層圖卷積操作,每個基因節(jié)點不僅能獲取直接鄰居基因的信息,還能獲取更廣泛的網(wǎng)絡(luò)信息。例如,在一個關(guān)于癌癥基因研究的項目中,研究人員利用圖卷積網(wǎng)絡(luò)對基因調(diào)控網(wǎng)絡(luò)進行分析。首先,將基因的表達數(shù)據(jù)和已知的功能注釋信息作為初始特征輸入到圖卷積網(wǎng)絡(luò)中。在網(wǎng)絡(luò)的第一層,基因節(jié)點通過與鄰居節(jié)點的信息聚合,初步學(xué)習(xí)到局部的調(diào)控關(guān)系。隨著層數(shù)的增加,基因節(jié)點逐漸整合了更廣泛的網(wǎng)絡(luò)信息。最終,通過對每個基因節(jié)點的特征進行分類,預(yù)測出未知基因的功能。實驗結(jié)果表明,相較于傳統(tǒng)的方法,圖卷積網(wǎng)絡(luò)能夠更準(zhǔn)確地預(yù)測基因功能,為癌癥的發(fā)病機制研究和藥物靶點發(fā)現(xiàn)提供了重要的線索。這是因為圖卷積網(wǎng)絡(luò)能夠充分利用基因調(diào)控網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息,捕捉基因之間復(fù)雜的相互作用關(guān)系,從而提高了預(yù)測的準(zhǔn)確性。在圖分類任務(wù)中,以疾病類型判斷為例,不同的疾病可以看作是不同類型的圖,疾病相關(guān)的生物分子(如蛋白質(zhì)、基因、miRNA等)及其相互作用構(gòu)成了圖的節(jié)點和邊。通過構(gòu)建疾病相關(guān)的圖模型,并利用圖卷積網(wǎng)絡(luò)對圖的全局特征進行提取和分析,可以實現(xiàn)對疾病類型的準(zhǔn)確判斷。在實際應(yīng)用中,首先需要整合多種生物數(shù)據(jù),構(gòu)建疾病相關(guān)的異構(gòu)圖。在構(gòu)建與心血管疾病相關(guān)的圖模型時,將與心血管疾病相關(guān)的蛋白質(zhì)、基因、miRNA等作為節(jié)點,它們之間的相互作用(如蛋白質(zhì)-蛋白質(zhì)相互作用、基因調(diào)控關(guān)系、miRNA-基因調(diào)控關(guān)系等)作為邊。然后,將這個異構(gòu)圖輸入到圖卷積網(wǎng)絡(luò)中。圖卷積網(wǎng)絡(luò)通過對圖中節(jié)點和邊的特征進行學(xué)習(xí),能夠提取出疾病相關(guān)的關(guān)鍵特征。在網(wǎng)絡(luò)的訓(xùn)練過程中,使用已知疾病類型的圖數(shù)據(jù)進行監(jiān)督學(xué)習(xí),調(diào)整網(wǎng)絡(luò)的參數(shù),使得網(wǎng)絡(luò)能夠準(zhǔn)確地區(qū)分不同類型的疾病。通過對大量心血管疾病和其他疾病相關(guān)圖數(shù)據(jù)的訓(xùn)練,圖卷積網(wǎng)絡(luò)能夠?qū)W習(xí)到心血管疾病相關(guān)圖的獨特特征模式。在測試階段,將未知疾病類型的圖數(shù)據(jù)輸入到訓(xùn)練好的網(wǎng)絡(luò)中,網(wǎng)絡(luò)通過對圖特征的分析,能夠準(zhǔn)確判斷出該圖所代表的疾病是否為心血管疾病。實驗結(jié)果顯示,圖卷積網(wǎng)絡(luò)在疾病類型判斷任務(wù)中表現(xiàn)出了較高的準(zhǔn)確率和召回率,能夠有效地輔助醫(yī)生進行疾病的診斷和分類。這得益于圖卷積網(wǎng)絡(luò)能夠綜合考慮多種生物分子之間的復(fù)雜相互作用,從整體上把握疾病相關(guān)圖的特征,從而提高了疾病類型判斷的準(zhǔn)確性。三、混合鄰域圖卷積模型解析3.1混合鄰域圖卷積的基本原理3.1.1鄰域感知機制在圖卷積網(wǎng)絡(luò)中,鄰域感知機制對于準(zhǔn)確學(xué)習(xí)節(jié)點特征和圖結(jié)構(gòu)信息至關(guān)重要。節(jié)點級鄰域感知聚焦于單個節(jié)點的直接鄰居,通過對直接鄰居節(jié)點特征的聚合來更新當(dāng)前節(jié)點的表示。在一個社交網(wǎng)絡(luò)中,若將用戶視為節(jié)點,用戶之間的關(guān)注關(guān)系視為邊,節(jié)點級鄰域感知就是關(guān)注某個用戶的直接關(guān)注者,通過分析這些直接關(guān)注者的特征(如年齡、興趣愛好等)來更新該用戶的特征表示。這種方式能夠捕捉到節(jié)點的局部信息,對于刻畫節(jié)點的局部特性具有重要意義。在蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)中,通過節(jié)點級鄰域感知,可以了解某個蛋白質(zhì)與直接相互作用的其他蛋白質(zhì)之間的關(guān)系,從而推斷該蛋白質(zhì)在局部功能模塊中的作用。跳級鄰域感知則突破了直接鄰居的限制,考慮了節(jié)點在多跳鄰居范圍內(nèi)的信息。它通過多層圖卷積操作,使節(jié)點能夠獲取更遠距離鄰居的信息,從而挖掘圖中的全局結(jié)構(gòu)和復(fù)雜關(guān)系。在上述社交網(wǎng)絡(luò)例子中,跳級鄰域感知不僅關(guān)注用戶的直接關(guān)注者,還會關(guān)注直接關(guān)注者的關(guān)注者,甚至更遠處的鄰居。通過這種方式,可以從更宏觀的角度了解用戶在社交網(wǎng)絡(luò)中的位置和影響力。在生物分子網(wǎng)絡(luò)中,跳級鄰域感知可以幫助研究人員發(fā)現(xiàn)蛋白質(zhì)之間的間接相互作用關(guān)系,這些間接關(guān)系可能在生物過程中發(fā)揮著重要的調(diào)控作用。通過分析多跳鄰居信息,能夠揭示生物分子網(wǎng)絡(luò)中隱藏的功能模塊和信號傳導(dǎo)通路。貪婪鄰域感知、節(jié)點級鄰域感知和跳級鄰域感知方法存在明顯差異。貪婪鄰域感知方法以GCN為典型代表,不區(qū)分鄰居節(jié)點的重要性,在每次圖卷積后,所有節(jié)點的鄰域感知范圍均勻增加一跳,同跳的節(jié)點被平等對待。這種方法雖然簡單直接,但可能會引入大量冗余信息,影響模型的學(xué)習(xí)效率和準(zhǔn)確性。在一個大規(guī)模的社交網(wǎng)絡(luò)中,貪婪鄰域感知可能會將大量與目標(biāo)節(jié)點相關(guān)性較弱的鄰居信息納入計算,導(dǎo)致計算資源浪費,同時也可能使目標(biāo)節(jié)點的特征表示受到噪聲干擾。節(jié)點級鄰域感知通過節(jié)點采樣技術(shù)或注意力機制,選擇性地從部分鄰居節(jié)點中聚合信息。這種方法能夠聚焦于與目標(biāo)節(jié)點相關(guān)性較強的鄰居,減少冗余信息的干擾,提高模型的學(xué)習(xí)效率。在分子結(jié)構(gòu)分析中,節(jié)點級鄰域感知可以通過注意力機制,關(guān)注與中心原子直接相連且對分子性質(zhì)影響較大的原子,從而更準(zhǔn)確地預(yù)測分子的物理化學(xué)性質(zhì)。這種方法主要關(guān)注局部信息,對于挖掘圖中的全局結(jié)構(gòu)信息存在一定局限性。跳級鄰域感知將所有卷積層的輸出(跳級表示)拼接在一起,并通過多層感知機制隱式計算它們的重要性。它能夠從全局角度感知鄰域信息,捕捉到圖中長距離的依賴關(guān)系。在基因調(diào)控網(wǎng)絡(luò)分析中,跳級鄰域感知可以綜合考慮不同層次的基因調(diào)控關(guān)系,發(fā)現(xiàn)基因之間的間接調(diào)控通路,從而更全面地理解基因調(diào)控網(wǎng)絡(luò)的功能。跳級鄰域感知對于計算資源的需求較高,且在處理復(fù)雜圖結(jié)構(gòu)時,可能會出現(xiàn)信息冗余和過擬合的問題?;旌相徲蚋兄椒▌t巧妙地綜合了全局和局部視角來學(xué)習(xí)節(jié)點鄰域信息。它既考慮了節(jié)點的直接鄰居信息,又通過多跳鄰居信息捕捉圖的全局結(jié)構(gòu),能夠更全面、準(zhǔn)確地刻畫節(jié)點在圖中的特征和角色。在疾病相關(guān)的生物分子網(wǎng)絡(luò)研究中,混合鄰域感知可以同時分析與疾病直接相關(guān)的生物分子(節(jié)點級鄰域)以及這些分子通過多步相互作用與其他分子形成的網(wǎng)絡(luò)關(guān)系(跳級鄰域)。通過這種方式,能夠更深入地理解疾病的發(fā)病機制,挖掘潛在的疾病生物標(biāo)志物和治療靶點。在分析癌癥相關(guān)的基因調(diào)控網(wǎng)絡(luò)時,混合鄰域感知可以通過節(jié)點級鄰域感知關(guān)注與癌癥直接相關(guān)的關(guān)鍵基因及其直接調(diào)控的基因,同時通過跳級鄰域感知發(fā)現(xiàn)這些基因與其他基因之間的間接調(diào)控關(guān)系,從而揭示癌癥發(fā)生發(fā)展過程中復(fù)雜的基因調(diào)控網(wǎng)絡(luò)變化。3.1.2多視角學(xué)習(xí)策略在圖數(shù)據(jù)處理中,多視角學(xué)習(xí)策略具有不可或缺的重要性。圖數(shù)據(jù)本身具有高度的復(fù)雜性和多樣性,單一視角的學(xué)習(xí)方法往往難以全面捕捉圖中蘊含的豐富信息。多視角學(xué)習(xí)能夠從多個不同的角度對圖數(shù)據(jù)進行分析和學(xué)習(xí),從而更全面、深入地挖掘圖的特征和潛在關(guān)系。在社交網(wǎng)絡(luò)分析中,從用戶的社交關(guān)系、興趣愛好、地理位置等多個視角進行學(xué)習(xí),可以更準(zhǔn)確地了解用戶的行為模式和社交圈子,為個性化推薦和社交關(guān)系預(yù)測提供更有力的支持。在混合鄰域圖卷積模型中,通過多種方式實現(xiàn)多視角學(xué)習(xí)。利用隨機特征遮蓋變體操作來擾動鄰居信息是一種重要手段。具體來說,通過從二元伯努利分布中以遮蓋比例q采樣得到掩碼因子\delta=Bernoulli(1-q),將圖中一些節(jié)點的特征隨機設(shè)為0。這種操作類似于節(jié)點采樣,但不擾亂潛在的圖結(jié)構(gòu),只修改節(jié)點的信息,影響圖卷積層時的聚合操作。通過這種方式,可以生成多個不同的鄰居信息視角,從而提升圖卷積操作的魯棒性。在分子結(jié)構(gòu)預(yù)測中,對分子圖中的原子節(jié)點進行隨機特征遮蓋,能夠模擬不同實驗條件下分子結(jié)構(gòu)信息的變化,使模型學(xué)習(xí)到更具通用性的分子結(jié)構(gòu)特征,提高對不同分子結(jié)構(gòu)的預(yù)測能力。研究設(shè)計了三種隨機特征遮蓋的變體操作,以更好地發(fā)揮其優(yōu)勢。訓(xùn)練特征遮蓋(TrainingFeatureMasking,TFM)類似于Dropout的設(shè)置,在訓(xùn)練時應(yīng)用隨機特征遮蓋,但不在測試時使用。這樣在測試時可以減少圖數(shù)據(jù)的擾動性,使得模型獲得更多節(jié)點特征,從而做出更準(zhǔn)確的預(yù)測。在圖像分類任務(wù)中,訓(xùn)練特征遮蓋可以在訓(xùn)練過程中隨機遮蓋圖像中的部分像素特征,讓模型學(xué)習(xí)到圖像的關(guān)鍵特征,避免過擬合;在測試時,不進行特征遮蓋,模型能夠利用完整的圖像特征進行準(zhǔn)確分類。簡單特征遮蓋(SimpleFeatureMasking,SFM)受DropGNN啟發(fā),在訓(xùn)練和測試集上都使用Dropout來保證兩個集合呈現(xiàn)相似的分布,同時訓(xùn)練集和測試集都應(yīng)用隨機特征遮蓋。這種方式能夠使模型在訓(xùn)練和測試過程中都能適應(yīng)特征的變化,提高模型的泛化能力。在推薦系統(tǒng)中,簡單特征遮蓋可以在訓(xùn)練和測試時對用戶-物品交互圖中的節(jié)點特征進行隨機遮蓋,讓模型學(xué)習(xí)到用戶和物品之間更穩(wěn)定的潛在關(guān)系,從而提高推薦的準(zhǔn)確性和穩(wěn)定性?;旌咸卣髡谏w(MixedFeatureMasking,MFM)受集成學(xué)習(xí)的啟發(fā),利用混合策略來增強視角間的多樣性。通過組合不同的隨機特征遮蓋操作,MFM可以生成更多樣化的鄰居信息視角,使模型能夠?qū)W習(xí)到更豐富的圖數(shù)據(jù)特征。在知識圖譜推理任務(wù)中,混合特征遮蓋可以結(jié)合多種不同的特征遮蓋方式,從多個角度對知識圖譜中的節(jié)點和邊特征進行擾動,讓模型學(xué)習(xí)到知識圖譜中更復(fù)雜的語義關(guān)系和推理規(guī)則,提高推理的準(zhǔn)確性。利用注意力機制自適應(yīng)地從“跳”層面選取重要鄰居也是多視角學(xué)習(xí)的關(guān)鍵策略。注意力機制能夠根據(jù)節(jié)點之間的相關(guān)性和重要性,為不同跳數(shù)的鄰居分配不同的權(quán)重。在一個包含多個層次的生物分子網(wǎng)絡(luò)中,注意力機制可以自動識別出與當(dāng)前節(jié)點功能密切相關(guān)的多跳鄰居,并賦予它們較高的權(quán)重,從而使模型能夠更有效地捕捉到長距離的依賴關(guān)系和重要的結(jié)構(gòu)信息。在分析基因調(diào)控網(wǎng)絡(luò)時,注意力機制可以聚焦于那些對目標(biāo)基因表達具有關(guān)鍵調(diào)控作用的多跳鄰居基因,通過對這些重要鄰居信息的聚合,更準(zhǔn)確地預(yù)測目標(biāo)基因的表達水平和功能。多通道技術(shù)和多視角損失在提升模型魯棒性和學(xué)習(xí)能力方面發(fā)揮著重要作用。多通道技術(shù)通過構(gòu)建多個并行的圖卷積通道,每個通道從不同的視角對圖數(shù)據(jù)進行處理,然后將這些通道的輸出進行融合。在圖像識別任務(wù)中,多通道技術(shù)可以分別從圖像的顏色、紋理、形狀等不同特征通道進行圖卷積操作,每個通道學(xué)習(xí)到圖像的不同方面特征,最后將這些特征融合,能夠更全面地描述圖像,提高圖像識別的準(zhǔn)確率。多視角損失則通過對不同視角下的學(xué)習(xí)結(jié)果進行約束和優(yōu)化,進一步提升模型的性能。它可以使模型在多個視角下都能學(xué)習(xí)到有效的特征表示,避免模型只關(guān)注某一個視角而忽略其他重要信息。在社交網(wǎng)絡(luò)分析中,多視角損失可以對從用戶社交關(guān)系、興趣愛好等不同視角學(xué)習(xí)到的用戶特征表示進行約束,使模型學(xué)習(xí)到的用戶特征更全面、準(zhǔn)確,從而提高社交關(guān)系預(yù)測和用戶行為分析的準(zhǔn)確性。三、混合鄰域圖卷積模型解析3.2混合鄰域圖卷積模型的構(gòu)建與實現(xiàn)3.2.1模型架構(gòu)設(shè)計混合鄰域圖卷積模型的架構(gòu)設(shè)計融合了多種先進技術(shù),旨在高效處理miRNA與疾病關(guān)聯(lián)數(shù)據(jù)中的復(fù)雜圖結(jié)構(gòu)信息。該模型主要包括輸入層、卷積層、池化層、全連接層等關(guān)鍵組成部分,各層相互協(xié)作,共同完成從原始數(shù)據(jù)到關(guān)聯(lián)關(guān)系預(yù)測的任務(wù)。輸入層負(fù)責(zé)接收經(jīng)過預(yù)處理的miRNA與疾病關(guān)聯(lián)數(shù)據(jù),這些數(shù)據(jù)以圖結(jié)構(gòu)的形式呈現(xiàn),節(jié)點代表miRNA或疾病,邊表示它們之間的關(guān)聯(lián)關(guān)系。為了使模型能夠更好地處理這些數(shù)據(jù),輸入層對節(jié)點和邊的特征進行了編碼。對于miRNA節(jié)點,其特征可以包括序列特征、表達譜特征等;疾病節(jié)點的特征則可能包含疾病的語義特征、臨床特征等。通過將這些特征轉(zhuǎn)化為適合模型處理的向量形式,輸入層為后續(xù)的卷積操作提供了基礎(chǔ)。在構(gòu)建輸入層時,會將miRNA的序列信息轉(zhuǎn)化為獨熱編碼向量,將疾病的語義信息通過預(yù)訓(xùn)練的詞向量模型(如Word2Vec)轉(zhuǎn)化為低維向量表示。卷積層是模型的核心部分,采用了混合鄰域圖卷積操作,以充分捕捉圖數(shù)據(jù)中的局部和全局信息。如前文所述,該操作結(jié)合了節(jié)點級鄰域感知和跳級鄰域感知。在節(jié)點級鄰域感知方面,通過注意力機制,模型能夠選擇性地從部分鄰居節(jié)點中聚合信息,聚焦于與目標(biāo)節(jié)點相關(guān)性較強的鄰居。在分析miRNA-疾病關(guān)聯(lián)圖時,對于某個miRNA節(jié)點,注意力機制可以自動識別出與該miRNA功能密切相關(guān)的疾病鄰居節(jié)點,并賦予它們較高的權(quán)重,從而使模型能夠更準(zhǔn)確地學(xué)習(xí)到miRNA與這些關(guān)鍵疾病之間的關(guān)聯(lián)信息。跳級鄰域感知則通過將所有卷積層的輸出(跳級表示)拼接在一起,并利用多層感知機制隱式計算它們的重要性,使節(jié)點能夠獲取更遠距離鄰居的信息,挖掘圖中的全局結(jié)構(gòu)和復(fù)雜關(guān)系。在miRNA-疾病關(guān)聯(lián)圖中,跳級鄰域感知可以幫助模型發(fā)現(xiàn)miRNA與疾病之間通過多步間接關(guān)聯(lián)形成的潛在關(guān)系,從而更全面地理解miRNA在疾病發(fā)生發(fā)展過程中的作用。為了提升圖卷積操作的魯棒性,卷積層還引入了隨機特征遮蓋變體操作。通過從二元伯努利分布中以遮蓋比例q采樣得到掩碼因子\delta=Bernoulli(1-q),將圖中一些節(jié)點的特征隨機設(shè)為0。這種操作類似于節(jié)點采樣,但不擾亂潛在的圖結(jié)構(gòu),只修改節(jié)點的信息,影響圖卷積層時的聚合操作。在實際應(yīng)用中,隨機特征遮蓋變體操作可以生成多個不同的鄰居信息視角,使模型能夠?qū)W習(xí)到更具通用性的特征表示,避免過擬合問題。訓(xùn)練特征遮蓋(TrainingFeatureMasking,TFM)在訓(xùn)練時應(yīng)用隨機特征遮蓋,但不在測試時使用,這樣在測試時可以減少圖數(shù)據(jù)的擾動性,使得模型獲得更多節(jié)點特征,從而做出更準(zhǔn)確的預(yù)測。池化層的作用是對卷積層輸出的特征進行降維,減少計算量,同時保留重要的特征信息。在圖數(shù)據(jù)中,池化操作不像在圖像數(shù)據(jù)中那樣有標(biāo)準(zhǔn)的方法,這里采用了基于注意力機制的池化策略。該策略根據(jù)節(jié)點的重要性對節(jié)點特征進行加權(quán)平均,從而得到更具代表性的池化結(jié)果。在miRNA-疾病關(guān)聯(lián)圖中,對于每個子圖區(qū)域,基于注意力機制的池化策略可以自動識別出該區(qū)域內(nèi)的關(guān)鍵節(jié)點,并根據(jù)這些關(guān)鍵節(jié)點的特征進行池化操作,使得池化后的特征能夠更好地反映該區(qū)域的重要信息。通過這種方式,池化層在降低數(shù)據(jù)維度的同時,有效地保留了圖數(shù)據(jù)中的關(guān)鍵特征,為后續(xù)的全連接層提供了更簡潔、有效的輸入。全連接層則將池化層輸出的特征進行進一步的整合和分類,最終輸出miRNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測結(jié)果。在全連接層中,通過多個全連接神經(jīng)元對輸入特征進行加權(quán)求和,并經(jīng)過激活函數(shù)(如Softmax函數(shù))的處理,得到每個miRNA與不同疾病關(guān)聯(lián)的概率。在實際應(yīng)用中,全連接層可以根據(jù)這些概率值判斷miRNA與疾病之間是否存在關(guān)聯(lián),以及關(guān)聯(lián)的可能性大小。對于某個miRNA,全連接層輸出的概率值表示該miRNA與各種疾病關(guān)聯(lián)的可能性,通過設(shè)定閾值,可以將概率值大于閾值的疾病判定為與該miRNA潛在關(guān)聯(lián)的疾病。模型架構(gòu)中各層之間的連接方式緊密且有序。輸入層將編碼后的圖數(shù)據(jù)特征傳遞給卷積層,卷積層通過多次混合鄰域圖卷積操作,逐步提取圖數(shù)據(jù)中的局部和全局特征,并將這些特征傳遞給池化層。池化層對特征進行降維處理后,將其輸出到全連接層,全連接層通過對特征的進一步整合和分類,最終得到miRNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測結(jié)果。這種有序的連接方式使得模型能夠逐步從原始數(shù)據(jù)中挖掘出有價值的信息,實現(xiàn)高效準(zhǔn)確的關(guān)聯(lián)關(guān)系預(yù)測。3.2.2模型訓(xùn)練與優(yōu)化在模型訓(xùn)練過程中,選擇合適的損失函數(shù)、優(yōu)化器和超參數(shù)調(diào)整方法對于提升模型性能至關(guān)重要。損失函數(shù)用于衡量模型預(yù)測結(jié)果與真實標(biāo)簽之間的差異,在miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測中,采用二元交叉熵?fù)p失函數(shù),其公式為:Loss=-\sum_{i=1}^{N}\left[y_i\log(p_i)+(1-y_i)\log(1-p_i)\right]其中,N是樣本數(shù)量,y_i是樣本i的真實標(biāo)簽(0表示無關(guān)聯(lián),1表示有關(guān)聯(lián)),p_i是模型預(yù)測樣本i與疾病關(guān)聯(lián)的概率。二元交叉熵?fù)p失函數(shù)能夠有效地衡量模型在二分類任務(wù)中的預(yù)測誤差,通過最小化該損失函數(shù),可以使模型的預(yù)測結(jié)果盡可能接近真實標(biāo)簽。在訓(xùn)練過程中,模型會不斷調(diào)整參數(shù),使得預(yù)測概率p_i與真實標(biāo)簽y_i的差異最小化,從而提高模型的預(yù)測準(zhǔn)確性。優(yōu)化器負(fù)責(zé)更新模型的參數(shù),以最小化損失函數(shù)。這里選用Adam優(yōu)化器,它結(jié)合了Adagrad和RMSProp算法的優(yōu)點,能夠自適應(yīng)地調(diào)整學(xué)習(xí)率,在訓(xùn)練過程中表現(xiàn)出較好的收斂速度和穩(wěn)定性。Adam優(yōu)化器通過計算梯度的一階矩估計和二階矩估計,動態(tài)地調(diào)整每個參數(shù)的學(xué)習(xí)率。在訓(xùn)練初期,學(xué)習(xí)率較大,模型能夠快速收斂;隨著訓(xùn)練的進行,學(xué)習(xí)率逐漸減小,模型能夠更加精細(xì)地調(diào)整參數(shù),避免過擬合。在訓(xùn)練過程中,Adam優(yōu)化器會根據(jù)梯度的變化自動調(diào)整學(xué)習(xí)率,使得模型能夠在不同的訓(xùn)練階段都保持較好的學(xué)習(xí)效果。超參數(shù)調(diào)整是優(yōu)化模型性能的關(guān)鍵步驟,通過調(diào)整卷積核數(shù)量、學(xué)習(xí)率、隱藏層節(jié)點數(shù)等超參數(shù),使模型達到最佳性能。采用網(wǎng)格搜索和隨機搜索相結(jié)合的方法進行超參數(shù)調(diào)整。首先,使用網(wǎng)格搜索在較大的超參數(shù)空間內(nèi)進行初步搜索,確定超參數(shù)的大致范圍。在搜索卷積核數(shù)量時,設(shè)置多個可能的值(如32、64、128),分別進行模型訓(xùn)練和評估,觀察模型在驗證集上的性能表現(xiàn),確定卷積核數(shù)量的大致合適范圍。然后,在初步確定的范圍內(nèi),使用隨機搜索進行更細(xì)致的搜索,以找到最優(yōu)的超參數(shù)組合。通過隨機搜索在卷積核數(shù)量的合適范圍內(nèi)隨機選擇不同的值,與其他超參數(shù)組合進行模型訓(xùn)練和評估,最終找到使模型在驗證集上性能最佳的超參數(shù)組合。為了提高模型的泛化能力,采用了交叉驗證技術(shù)。具體來說,將數(shù)據(jù)集劃分為多個子集,如常見的五折交叉驗證,將數(shù)據(jù)集平均分成五份,每次選擇其中一份作為測試集,其余四份作為訓(xùn)練集。通過多次訓(xùn)練和測試,取平均性能指標(biāo)作為模型的評估結(jié)果。在五折交叉驗證中,會進行五次訓(xùn)練和測試,每次使用不同的子集作為測試集,得到五個性能指標(biāo)(如準(zhǔn)確率、召回率等),然后計算這些指標(biāo)的平均值。這樣可以更全面地評估模型在不同數(shù)據(jù)分布下的性能,減少因數(shù)據(jù)集劃分帶來的偏差,提高模型的泛化能力。交叉驗證還可以幫助檢測模型是否存在過擬合問題,如果模型在訓(xùn)練集上表現(xiàn)很好,但在測試集上性能大幅下降,說明可能存在過擬合,需要進一步調(diào)整模型或數(shù)據(jù)。四、基于混合鄰域圖卷積的miRNA與疾病關(guān)聯(lián)預(yù)測方法4.1數(shù)據(jù)預(yù)處理4.1.1miRNA和疾病數(shù)據(jù)收集與整合為了構(gòu)建全面且準(zhǔn)確的miRNA與疾病關(guān)聯(lián)預(yù)測模型,需要從多個權(quán)威數(shù)據(jù)庫收集相關(guān)數(shù)據(jù)。人類微小RNA疾病數(shù)據(jù)庫(HMDD)是數(shù)據(jù)收集的重要來源之一,其最新版本HMDDv4.0包含了53530個實驗支持的miRNA-疾病關(guān)聯(lián)條目,涵蓋了來自37090篇論文的1817個人類miRNA基因、79個病毒源性miRNA和2360個人類疾病。這些條目依據(jù)實驗證據(jù)被細(xì)致地分為8類,包含23種不同的證據(jù)代碼。除了HMDD,還從miR2Disease數(shù)據(jù)庫收集miRNA與疾病之間的關(guān)系數(shù)據(jù),以及從dbDEMC數(shù)據(jù)庫獲取人類癌癥中差異表達的miRNA數(shù)據(jù)。在數(shù)據(jù)收集過程中,需要對數(shù)據(jù)進行清洗、去重和標(biāo)準(zhǔn)化處理,以確保數(shù)據(jù)的一致性和可用性。由于不同數(shù)據(jù)庫的數(shù)據(jù)格式、注釋標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量存在差異,清洗工作尤為重要。首先,檢查數(shù)據(jù)中的缺失值和異常值,對于存在大量缺失值或異常值的數(shù)據(jù)條目,進行謹(jǐn)慎評估和處理。若缺失值對整體分析影響較大,可能會考慮通過數(shù)據(jù)插值、機器學(xué)習(xí)預(yù)測等方法進行填充;對于異常值,通過統(tǒng)計學(xué)方法(如3倍標(biāo)準(zhǔn)差法)或基于領(lǐng)域知識進行識別和修正。在分析miRNA表達量數(shù)據(jù)時,若發(fā)現(xiàn)某個樣本的miRNA表達量遠高于其他樣本,且不符合生物學(xué)常理,可通過重新檢查實驗記錄或與其他相關(guān)數(shù)據(jù)進行對比,判斷是否為異常值,并進行相應(yīng)處理。去重工作主要是去除重復(fù)的數(shù)據(jù)條目,以避免數(shù)據(jù)冗余對模型訓(xùn)練的影響。通過對數(shù)據(jù)的關(guān)鍵信息(如miRNA名稱、疾病名稱、關(guān)聯(lián)關(guān)系等)進行比對,識別并刪除重復(fù)的數(shù)據(jù)。在整合多個數(shù)據(jù)庫的數(shù)據(jù)時,可能會出現(xiàn)相同的miRNA-疾病關(guān)聯(lián)條目被多次記錄的情況,通過去重操作,可以確保每個關(guān)聯(lián)條目只被納入一次。標(biāo)準(zhǔn)化處理則是將不同數(shù)據(jù)庫中關(guān)于miRNA和疾病的命名、分類等信息進行統(tǒng)一。對于疾病名稱,利用醫(yī)學(xué)主題詞(MeSH)數(shù)據(jù)庫進行規(guī)范化處理,將不同數(shù)據(jù)庫中同一疾病的不同命名統(tǒng)一為MeSH中的標(biāo)準(zhǔn)名稱。對于miRNA的命名,遵循國際上通用的miRBase命名規(guī)則,確保數(shù)據(jù)中miRNA名稱的一致性。通過這些數(shù)據(jù)預(yù)處理步驟,可以提高數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的相似性矩陣計算和模型訓(xùn)練奠定堅實的基礎(chǔ)。4.1.2相似性矩陣計算在miRNA與疾病關(guān)聯(lián)關(guān)系預(yù)測中,相似性矩陣的計算是關(guān)鍵步驟,它為構(gòu)建圖數(shù)據(jù)結(jié)構(gòu)和后續(xù)的分析提供了重要依據(jù)。miRNA序列相似性矩陣的計算基于miRNA的核苷酸序列信息。從miRBase公開數(shù)據(jù)庫下載miRNA序列信息,將兩個miRNAm_i和m_j的序列相似性值定義為s(m_i,m_j),計算方法如公式所示:s(m_i,m_j)=1-\frac{levenshtein(m_i,m_j)}{len(m_i)+len(m_j)}其中l(wèi)en(m_i)表示m_i的長度,len(m_j)表示m_j的長度,levenshtein(m_i,m_j)是指兩個miRNA序列的編輯距離,表示序列m_i和m_j之間,由一個轉(zhuǎn)成另外一個所需要的最少編輯操作次數(shù)。對于miRNA序列has-mir-21(caacaccagucgaugggcugu)和has-mir-155(cuccuacauauuagcgcauuaaca),其中l(wèi)en(has-mir-21)=21,len(has-mir-155)=22,兩個序列的編輯距離levenshtein為19,其序列相似性值為1-\frac{19}{21+22}=0.5581。通過這種方式,可以計算出所有miRNA之間的序列相似性,構(gòu)建miRNA序列相似性矩陣。該矩陣反映了miRNA之間基于序列的相似程度,相似序列的miRNA可能具有相似的功能,從而與相似的疾病相關(guān)聯(lián)。疾病語義相似性矩陣的計算借助醫(yī)學(xué)主題詞(MeSH)數(shù)據(jù)庫,每種疾病在MeSH中可以用有向無環(huán)圖(DAG)來表示。以疾病d_i為例,其在DAG中的語義值計算如下:首先,計算疾病d_k對d_i的語義貢獻值,隨著疾病d_k到d_i的距離增加,語義貢獻因子會降低。假設(shè)疾病d_i的DAG中節(jié)點集合為T_{d_i},邊集合為E_{d_i},對于節(jié)點t\inT_{d_i},其對d_i的語義貢獻值SC(t,d_i)可以通過以下公式計算:SC(t,d_i)=\begin{cases}1,&\text{if}t=d_i\\\max_{t'\inchildren(t)}\{\delta\cdotSC(t',d_i)\},&\text{if}t\neqd_i\end{cases}其中\(zhòng)delta是語義貢獻因子,通常設(shè)置為0.5,children(t)表示節(jié)點t的子節(jié)點集合。然后,通過公式SV(d_i)=\sum_{t\inT_{d_i}}SC(t,d_i)計算疾病d_i的語義值。最后,通過公式sim(d_i,d_j)=\frac{\sum_{t\inT_{d_i}\capT_{d_j}}SC(t,d_i)+SC(t,d_j)}{SV(d_i)+SV(d_j)}計算疾病d_i和d_j之間的語義相似度,從而構(gòu)建疾病語義相似性矩陣。該矩陣從語義層面反映了疾病之間的相似關(guān)系,對于挖掘疾病之間潛在的關(guān)聯(lián)以及預(yù)測miRNA與疾病的關(guān)聯(lián)具有重要意義。高斯相互作用屬性核相似矩陣的計算基于功能相似的miRNA與相似的疾病之間具有關(guān)聯(lián)關(guān)系的假設(shè)。構(gòu)建miRNA-疾病關(guān)聯(lián)關(guān)系的關(guān)聯(lián)矩陣A,A的行數(shù)為miRNA的數(shù)量,列數(shù)為疾病的數(shù)量,若miRNAm_i和疾病d_j存在關(guān)聯(lián)關(guān)系,則A(m_i,d_j)=1,否則A(m_i,d_j)=0。對于miRNAm_i,它的IP(m_i)值定義為關(guān)聯(lián)矩陣A的第i行,通過公式km(m_i,m_j)=\exp(-\gamma_m||IP(m_i)-IP(m_j)||^2)計算每一對miRNAm_i和m_j之間的高斯相互作用屬性核相似性,其中\(zhòng)gamma_m用于控制高斯相互作用屬性核相似性的頻寬。類似地,對于疾病d_i,它的IP(d_i)值定義為關(guān)聯(lián)矩陣A的第i列,通過公式kd(d_i,d_j)=\exp(-\gamma_d||IP(d_i)-IP(d_j)||^2)計算每一對疾病d_i和d_j之間的高斯相互作用屬性核相似性,其中\(zhòng)gamma_d用于控制頻寬。這樣可以分別構(gòu)建出miRNA的高斯相互作用屬性核相似矩陣KM和疾病的高斯相互作用屬性核相似矩陣KD。高斯相互作用屬性核相似矩陣能夠從整體上衡量miRNA與疾病之間的關(guān)聯(lián)模式相似性,為發(fā)現(xiàn)潛在的miRNA-疾病關(guān)聯(lián)關(guān)系提供了重要線索。這些相似性矩陣在構(gòu)建圖數(shù)據(jù)結(jié)構(gòu)中起著關(guān)鍵作用。將miRNA和疾病視為圖中的節(jié)點,相似性矩陣中的元素作為邊的權(quán)重,構(gòu)建出miRNA-疾病關(guān)聯(lián)圖。在這個圖中,節(jié)點之間的邊權(quán)重反映了miRNA與疾病之間的相似程度或關(guān)聯(lián)強度。通過對圖結(jié)構(gòu)的分析和處理,可以挖掘出miRNA與疾病之間潛在的關(guān)聯(lián)關(guān)系,為后續(xù)基于混合鄰域圖卷積的預(yù)測模型提供了豐富的信息。4.2構(gòu)建miRNA-疾病關(guān)聯(lián)圖4.2.1圖的節(jié)點和邊定義在構(gòu)建miRNA-疾病關(guān)聯(lián)圖時,將miRNA和疾病作為圖的節(jié)點,它們之間的關(guān)聯(lián)關(guān)系和相似性作為邊。對于miRNA節(jié)點集合M=\{m_1,m_2,\cdots,m_m\}和疾病節(jié)點集合D=\{d_1,d_2,\cdots,d_n\},若miRNAm_i與疾病d_j存在已知的關(guān)聯(lián)關(guān)系,則在圖中從節(jié)點m_i到節(jié)點d_j存在一條邊,記為e_{ij},且邊的權(quán)重w_{ij}=1;若不存在已知關(guān)聯(lián)關(guān)系,則w_{ij}=0。這種基于已知關(guān)聯(lián)關(guān)系構(gòu)建的邊,直接反映了miRNA與疾病之間已被實驗驗證的聯(lián)系。在人類微小RNA疾病數(shù)據(jù)庫(HMDD)中,若有實驗證明miR-21與乳腺癌存在關(guān)聯(lián),那么在關(guān)聯(lián)圖中,miR-21節(jié)點與乳腺癌節(jié)點之間就會有一條權(quán)重為1的邊。為了挖掘潛在的miRNA-疾病關(guān)聯(lián)關(guān)系,還考慮了miRNA之間的相似性和疾病之間的相似性作為邊。miRNA之間的相似性邊權(quán)重基于前文計算的miRNA序列相似性矩陣、高斯相互作用屬性核相似矩陣等進行確定。對于miRNAm_i和m_j,其序列相似性值為s(m_i,m_j),高斯相互作用屬性核相似性值為km(m_i,m_j),通過一定的融合策略(如加權(quán)平均)確定它們之間相似性邊的權(quán)重w_{m_{ij}},公式如下:w_{m_{ij}}=\alpha\cdots(m_i,m_j)+(1-\alpha)\cdotkm(m_i,m_j)其中\(zhòng)alpha是權(quán)重系數(shù),取值范圍為[0,1],可通過實驗或交叉驗證確定其最優(yōu)值。通過這種方式,相似性較高的miRNA節(jié)點之間會有較強的邊連接,反映了它們在功能和作用機制上的相似性。疾病之間的相似性邊權(quán)重則依據(jù)疾病語義相似性矩陣和高斯相互作用屬性核相似矩陣來確定。對于疾病d_i和d_j,其語義相似性值為sim(d_i,d_j),高斯相互作用屬性核相似性值為kd(d_i,d_j),同樣通過融合策略確定相似性邊的權(quán)重w_{d_{ij}},公式為:w_{d_{ij}}=\beta\cdotsim(d_i,d_j)+(1-\beta)\cdotkd(d_i,d_j)其中\(zhòng)beta是權(quán)重系數(shù),取值范圍為[0,1]。通過這樣的邊權(quán)重設(shè)置,語義相似或具有相似關(guān)聯(lián)模式的疾病節(jié)點之間會有更緊密的連接。在分析心血管疾病和代謝性疾病時,若它們在語義上有一定的關(guān)聯(lián),且在與miRNA的關(guān)聯(lián)模式上也有相似之處,那么它們在關(guān)聯(lián)圖中的節(jié)點之間就會有較強的邊連接。4.2.2圖的特征表示為了使混合鄰域圖卷積模型能夠有效處理miRNA-疾病關(guān)聯(lián)圖,需要將miRNA和疾病的各種特征映射到圖節(jié)點上,作為節(jié)點的初始特征表示。對于miRNA節(jié)點,其特征包括序列特征和功能特征等。序列特征通過將miRNA的核苷酸序列進行獨熱編碼表示。將miRNA序列中的每個核苷酸(A、U、C、G)分別編碼為一個4維向量,如A編碼為[1,0,0,0],U編碼為[0,1,0,0],C編碼為[0,0,1,0],G編碼為[0,0,0,1]。對于長度為l的miRNA序列,其獨熱編碼后的特征向量長度為4\timesl。通過這種方式,將miRNA的序列信息轉(zhuǎn)化為適合模型處理的數(shù)值特征。功能特征則通過與miRNA相關(guān)的生物學(xué)功能注釋信息來表示。從相關(guān)數(shù)據(jù)庫(如GO數(shù)據(jù)庫)獲取miRNA參與的生物學(xué)過程、分子功能和細(xì)胞組成等注釋信息。將這些注釋信息進行編碼,如采用one-hot編碼方式,對于每個注釋類別,若miRNA屬于該類別,則對應(yīng)位置為1,否則為0。若某個miRNA被注釋為參與細(xì)胞增殖調(diào)控和信號轉(zhuǎn)導(dǎo)兩個生物學(xué)過程,在編碼后的特征向量中,對應(yīng)細(xì)胞增殖調(diào)控和信號轉(zhuǎn)導(dǎo)的位置為1,其他位置為0。將序列特征和功能特征進行拼接,得到miRNA節(jié)點的初始特征向量h_m。疾病節(jié)點的特征包括語義特征和臨床特征等。語義特征利用疾病在醫(yī)學(xué)主題詞(MeSH)數(shù)據(jù)庫中的有向無環(huán)圖(DAG)表示進行提取。如前文計算疾病語義相似性時所述,通過分析疾病在DAG中的位置、祖先節(jié)點和邊的關(guān)系等信息,得到疾病的語義值。將這些語義值作為疾病節(jié)點的語義特征。對于疾病d_i,其語義特征向量可以由DAG中各節(jié)點對其語義貢獻值組成。臨床特征則包括疾病的發(fā)病率、死亡率、癥狀表現(xiàn)等信息。將這些臨床特征進行數(shù)值化處理,發(fā)病率和死亡率可以直接作為數(shù)值特征,癥狀表現(xiàn)可以通過編碼轉(zhuǎn)化為數(shù)值特征。將語義特征和臨床特征進行拼接,得到疾病節(jié)點的初始特征向量h_d。通過將miRNA和疾病的這些特征映射到圖節(jié)點上,為混合鄰域圖卷積模型提供了豐富的初始信息,使得模型能夠從這些特征出發(fā),通過圖卷積操作學(xué)習(xí)到miRNA與疾病之間潛在的關(guān)聯(lián)關(guān)系。在模型訓(xùn)練過程中,節(jié)點的特征會隨著圖卷積操作不斷更新和優(yōu)化,從而更好地捕捉圖中的結(jié)構(gòu)和關(guān)聯(lián)信息。4.3混合鄰域圖卷積模型應(yīng)用于關(guān)聯(lián)預(yù)測4.3.1模型輸入與輸出經(jīng)過數(shù)據(jù)預(yù)處理和圖構(gòu)建后,將得到的miRNA-疾病關(guān)聯(lián)圖作為混合鄰域圖卷積模型的輸入。在這個圖中,節(jié)點包含了miRNA和疾病,邊則體現(xiàn)了它們之間的關(guān)聯(lián)關(guān)系和相似性。節(jié)點的特征向量涵蓋了miRNA的序列特征、功能特征,以及疾病的語義特征、臨床特征等多方面信息。這些豐富的特征信息為模型提供了全面了解miRNA和疾病特性的基礎(chǔ)。在輸入模型時,節(jié)點特征矩陣X的維度為(N,F),其中N表示節(jié)點的總數(shù)(包括miRNA節(jié)點和疾病節(jié)點),F(xiàn)表示每個節(jié)點的特征維度。在一個包含1000個miRNA節(jié)點和500個疾病節(jié)點的關(guān)聯(lián)圖中,若每個節(jié)點的特征維度為100,則節(jié)點特征矩陣X的維度為(1500,100)。鄰接矩陣A的維度為(N,N),用于描述節(jié)點之間的連接關(guān)系。若節(jié)點i和節(jié)點j之間存在邊連接,則A_{ij}的值為邊的權(quán)重;若不存在邊連接,則A_{ij}=0。在miRNA-疾病關(guān)聯(lián)圖中,若miR-21與乳腺癌節(jié)點之間存在已知關(guān)聯(lián)關(guān)系,則A_{miR-21,?13è?o???}=1;若miR-21與心臟病節(jié)點之間不存在已知關(guān)聯(lián)關(guān)系,則A_{miR-21,???è?????}=0。模型的輸出是一個維度為(M,D)的概率矩陣P,其中M表示miRNA的數(shù)量,D表示疾病的數(shù)量。矩陣中的每個元素P_{ij}代表miRNAi與疾病j之間存在關(guān)聯(lián)的概率。通過模型的計算和分析,對于每個miRNA-疾病對,都能得到一個介于0到1之間的關(guān)聯(lián)概率值。當(dāng)P_{ij}的值接近1時,表示miRNAi與疾病j之間存在關(guān)聯(lián)的可能性較大;當(dāng)P_{ij}的值接近0時,則表示它們之間存在關(guān)聯(lián)的可能性較小。在實際應(yīng)用中,可以設(shè)定一個閾值\theta,當(dāng)P_{ij}\gt\theta時,判定miRNAi與疾病j之間存在潛在關(guān)聯(lián)。若設(shè)定閾值\theta=0.5,當(dāng)計算得到的P_{miR-122,è?????}=0.7時,就可以認(rèn)為miR-122與肝癌之間存在潛在關(guān)聯(lián),這為后續(xù)的實驗研究提供了有價值的線索。4.3.2預(yù)測過程與結(jié)果分析在預(yù)測過程中,模型首先進行前向傳播。輸入的miRNA-疾病關(guān)聯(lián)圖數(shù)據(jù)依次經(jīng)過模型的各層,包括輸入層、卷積層、池化層和全連接層。在輸入層,節(jié)點特征矩陣X和鄰接矩陣A被輸入到模型中。在卷積層,采用混合鄰域圖卷積操作,結(jié)合節(jié)點級鄰域感知和跳級鄰域感知。節(jié)點級鄰域感知通過注意力機制,對節(jié)點的直接鄰居信息進行選擇性聚合。對于某個miRNA節(jié)點,注意力機制會自動識別出與該miRNA功能密切相關(guān)的疾病鄰居節(jié)點,并賦予它們較高的權(quán)重,然后將這些鄰居節(jié)點的特征與該miRNA節(jié)點的特征進行融合,得到更新后的miRNA節(jié)點特征。跳級鄰域感知則通過將所有卷積層的輸出(跳級表示)拼接在一起,并利用多層感知機制隱式計算它們的重要性,使節(jié)點能夠獲取更遠距離鄰居的信息。通過這種方式,卷積層能夠充分挖掘圖數(shù)據(jù)中的局部和全局信息,得到更豐富的節(jié)點特征表示。池化層對卷積層輸出的特征進行降維處理,采用基于注意力機制的池化策略。根據(jù)節(jié)點的重要性對節(jié)點特征進行加權(quán)平均,保留重要的特征信息,減少計算量。對于每個子圖區(qū)域,基于注意力機制的池化策略會自動識別出該區(qū)域內(nèi)的關(guān)鍵節(jié)點,并根據(jù)這些關(guān)鍵節(jié)點的特征進行池化操作,使得池化后的特征能夠更好地反映該區(qū)域的重要信息。全連接層則將池化層輸出的特征進行進一步的整合和分類,通過多個全連接神經(jīng)元對輸入特征進行加權(quán)求和,并經(jīng)過激活函數(shù)(如Softmax函數(shù))的處理,得到每個miRNA與不同疾病關(guān)聯(lián)的概率,即模型的輸出概率矩陣P。在反向傳播過程中,模型根據(jù)預(yù)測結(jié)果與真實標(biāo)簽之間的差異(通過損失函數(shù)衡量,如前文所述的二元交叉熵?fù)p失函數(shù)),計算梯度,并利用優(yōu)化器(如Adam優(yōu)化器)更新模型的參數(shù)。通過不斷調(diào)整模型的權(quán)重和偏置,使模型的預(yù)測結(jié)果逐漸接近真實標(biāo)簽,從而提高模型的預(yù)測準(zhǔn)確性。在訓(xùn)練過程中,會不斷重復(fù)前向傳播和反向傳播的步驟,直到模型收斂,即損失函數(shù)不再顯著下降。為了評估模型的性能,采用了準(zhǔn)確性、召回率、F1值等評價指標(biāo)。準(zhǔn)確性(Accuracy)表示預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例,計算公式為:Accuracy=\frac{TP+TN}{TP+TN+FP+FN}其中TP表示真正例,即預(yù)測為正樣本且實際為正樣本的數(shù)量;TN表示真負(fù)例,即預(yù)測為負(fù)樣本且實際為負(fù)樣本的數(shù)量;FP表示假正例,即預(yù)測為正樣本但實際為負(fù)樣本的數(shù)量;FN表示假負(fù)例,即預(yù)測為負(fù)樣本但實際為正樣本的數(shù)量。召回率(Recall)表示實際為正樣本且被正確預(yù)測為正樣本的數(shù)量占

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論