版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法的非編碼RNA-疾病相關(guān)性深度解析與精準(zhǔn)預(yù)測研究一、緒論1.1研究背景與意義生命科學(xué)領(lǐng)域中,非編碼RNA(ncRNA)的研究近年來備受關(guān)注,成為極具活力的前沿研究方向。ncRNA是一類不編碼蛋白質(zhì)的RNA分子,卻在基因表達(dá)調(diào)控、細(xì)胞分化、發(fā)育、代謝等眾多生物學(xué)過程中扮演關(guān)鍵角色,與人類疾病的發(fā)生、發(fā)展也有著緊密聯(lián)系。據(jù)研究,人類基因組轉(zhuǎn)錄產(chǎn)物中僅有不到2%是編碼蛋白質(zhì)的mRNA,其余大部分為非編碼RNA,這表明非編碼RNA在生命活動(dòng)調(diào)控中有著不可或缺的地位。在疾病研究方面,ncRNA-疾病相關(guān)性研究對(duì)理解疾病發(fā)病機(jī)制、疾病診斷、治療及預(yù)后評(píng)估都有著極為重要的意義。大量研究表明,ncRNA中的微小RNA(miRNA)、長鏈非編碼RNA(lncRNA)、環(huán)狀RNA(circRNA)等在多種疾病進(jìn)程中發(fā)揮關(guān)鍵作用。如在腫瘤領(lǐng)域,許多miRNA的異常表達(dá)與腫瘤細(xì)胞的增殖、侵襲和轉(zhuǎn)移密切相關(guān),一些lncRNA也被發(fā)現(xiàn)參與腫瘤的發(fā)生發(fā)展,通過調(diào)控相關(guān)基因的表達(dá)影響腫瘤的進(jìn)程。在心血管疾病方面,某些miRNA在心臟發(fā)育、心肌肥厚和心肌缺血等過程中發(fā)揮重要調(diào)控作用,如miR-1、miR-133等在心血管疾病患者中的表達(dá)水平會(huì)發(fā)生明顯變化,對(duì)心血管細(xì)胞的增殖、分化和凋亡產(chǎn)生影響,進(jìn)而參與心血管疾病的發(fā)生發(fā)展。在神經(jīng)系統(tǒng)疾病中,miRNA在神經(jīng)系統(tǒng)發(fā)育和維持中起著重要作用,亨廷頓病、阿爾茨海默病等神經(jīng)退行性疾病與特定miRNA的異常表達(dá)有關(guān),lncRNA也在神經(jīng)元死亡、突觸可塑性等神經(jīng)過程的調(diào)控中發(fā)揮作用。此外,非編碼RNA還在自身免疫性疾病、感染性疾病、代謝性疾病、炎癥性疾病等多種疾病中發(fā)揮重要作用。深入研究ncRNA-疾病的相關(guān)性,能夠從分子層面揭示疾病的發(fā)病機(jī)制,為疾病的早期診斷提供更精準(zhǔn)的生物標(biāo)志物,為疾病治療開辟新的靶點(diǎn)和策略,極大地推動(dòng)現(xiàn)代醫(yī)學(xué)的發(fā)展,改善人類健康狀況。隨著高通量實(shí)驗(yàn)技術(shù)的快速發(fā)展,ncRNA-疾病相關(guān)性數(shù)據(jù)得到快速積累,并且建立了一些可靠性高的公開數(shù)據(jù)庫,如LncRNADisease數(shù)據(jù)庫手動(dòng)收錄各種經(jīng)實(shí)驗(yàn)驗(yàn)證的與lncRNA相互作用信息,共收錄205959個(gè)lncRNA-疾病關(guān)聯(lián);Lnc2Cancer從文獻(xiàn)中收集整理與人類lncRNA相關(guān)癌癥信息,記錄了4989條1614個(gè)人類lncRNAs和165個(gè)人類癌癥亞型之間的關(guān)聯(lián)。這些數(shù)據(jù)庫不僅提供了實(shí)驗(yàn)支持的ncRNA-疾病關(guān)系的系統(tǒng)概述,還涉及相關(guān)的生物學(xué)信息,為ncRNA-疾病相關(guān)性研究提供了豐富的數(shù)據(jù)資源,極大地推動(dòng)了該領(lǐng)域的研究進(jìn)展。在這樣的數(shù)據(jù)基礎(chǔ)上,設(shè)計(jì)高效而精確的計(jì)算方法預(yù)測潛在的ncRNA-疾病相關(guān)性成為研究熱點(diǎn)。通過計(jì)算方法能夠充分挖掘現(xiàn)有數(shù)據(jù)中的潛在信息,為后續(xù)實(shí)驗(yàn)提供有價(jià)值的指導(dǎo),顯著降低生物實(shí)驗(yàn)所需成本,加快研究進(jìn)程。然而,現(xiàn)有的大部分計(jì)算方法僅基于已有數(shù)據(jù)庫中ncRNA-疾病相互作用信息構(gòu)建ncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò),卻沒有考慮到生物網(wǎng)絡(luò)本身的異質(zhì)性特征,忽視了ncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò)中相關(guān)的生物信息。生物網(wǎng)絡(luò)是一個(gè)復(fù)雜的系統(tǒng),包含多種類型的生物分子和相互作用,具有異質(zhì)性,即不同類型的節(jié)點(diǎn)和邊代表不同的生物意義和功能。充分考慮生物網(wǎng)絡(luò)的異質(zhì)性,能夠更全面、準(zhǔn)確地描述ncRNA-疾病關(guān)聯(lián)關(guān)系,提高預(yù)測的準(zhǔn)確性和可靠性。異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法在處理包含多種類型節(jié)點(diǎn)和邊的復(fù)雜網(wǎng)絡(luò)時(shí)具有獨(dú)特優(yōu)勢,能夠有效挖掘網(wǎng)絡(luò)中不同類型節(jié)點(diǎn)之間的潛在關(guān)系。將其應(yīng)用于ncRNA-疾病相關(guān)性預(yù)測研究中,有望解決現(xiàn)有方法的不足。通過構(gòu)建包含ncRNA、疾病以及其他相關(guān)生物分子(如基因、靶標(biāo)等)的異質(zhì)性網(wǎng)絡(luò),并利用鏈路預(yù)測算法對(duì)網(wǎng)絡(luò)中未連接的ncRNA-疾病節(jié)點(diǎn)對(duì)之間的潛在關(guān)聯(lián)進(jìn)行預(yù)測,可以充分整合多源生物信息,全面考慮生物網(wǎng)絡(luò)的異質(zhì)性,從而更準(zhǔn)確地預(yù)測ncRNA-疾病相關(guān)性,為ncRNA-疾病研究提供更有力的工具和方法,促進(jìn)對(duì)疾病發(fā)病機(jī)制的深入理解和疾病防治策略的發(fā)展。1.2研究現(xiàn)狀在非編碼RNA與疾病關(guān)聯(lián)的研究中,實(shí)驗(yàn)鑒定技術(shù)和基于計(jì)算的預(yù)測方法都取得了一定進(jìn)展。實(shí)驗(yàn)鑒定技術(shù)是發(fā)現(xiàn)ncRNA-疾病關(guān)聯(lián)的直接手段,主要涵蓋了高通量測序技術(shù)、RNA干擾技術(shù)、熒光原位雜交技術(shù)和蛋白質(zhì)-RNA相互作用技術(shù)等。高通量測序技術(shù)能全面、系統(tǒng)地分析生物樣本中的ncRNA表達(dá)譜,發(fā)現(xiàn)潛在的與疾病相關(guān)的ncRNA。通過對(duì)腫瘤組織和正常組織進(jìn)行高通量測序,可篩選出在腫瘤組織中差異表達(dá)的ncRNA,為腫瘤的診斷和治療提供新的生物標(biāo)志物和靶點(diǎn)。RNA干擾技術(shù)則通過抑制特定ncRNA的表達(dá),觀察細(xì)胞或生物體的表型變化,從而驗(yàn)證ncRNA與疾病的關(guān)聯(lián)及功能。在研究某種lncRNA與肝癌的關(guān)系時(shí),利用RNA干擾技術(shù)降低肝癌細(xì)胞中該lncRNA的表達(dá),若發(fā)現(xiàn)肝癌細(xì)胞的增殖、遷移等能力受到抑制,就能證明該lncRNA在肝癌發(fā)生發(fā)展中起到重要作用。熒光原位雜交技術(shù)可對(duì)ncRNA進(jìn)行定位和定量分析,直觀呈現(xiàn)其在細(xì)胞內(nèi)的分布情況,有助于了解ncRNA在疾病發(fā)生過程中的作用機(jī)制。蛋白質(zhì)-RNA相互作用技術(shù)用于鑒定與ncRNA相互作用的蛋白質(zhì),明確ncRNA在細(xì)胞內(nèi)的作用通路和分子機(jī)制。如通過免疫共沉淀技術(shù)結(jié)合質(zhì)譜分析,可鑒定出與特定miRNA相互作用的蛋白質(zhì),進(jìn)而揭示miRNA調(diào)控基因表達(dá)的具體途徑。這些實(shí)驗(yàn)技術(shù)各有優(yōu)勢,為ncRNA-疾病關(guān)聯(lián)的研究提供了直接證據(jù),極大地推動(dòng)了該領(lǐng)域的發(fā)展。但它們也存在局限性,像高通量測序技術(shù)成本高、數(shù)據(jù)分析復(fù)雜;RNA干擾技術(shù)可能存在脫靶效應(yīng);熒光原位雜交技術(shù)靈敏度有限;蛋白質(zhì)-RNA相互作用技術(shù)操作繁瑣、假陽性率高等。隨著ncRNA-疾病相關(guān)性數(shù)據(jù)的不斷積累,基于計(jì)算的預(yù)測方法成為研究熱點(diǎn)。基于計(jì)算的ncRNA-疾病相關(guān)性預(yù)測工作可分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法和基于網(wǎng)絡(luò)分析的方法。基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法較早應(yīng)用于ncRNA-疾病關(guān)聯(lián)分析,通過矩陣運(yùn)算、網(wǎng)絡(luò)傳播和分類器算法實(shí)現(xiàn)特征提取和二分類預(yù)測。如Chen等人提出的基于樸素貝葉斯分類器的方法,利用已知的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)和miRNA、疾病的相似性特征構(gòu)建分類模型,預(yù)測潛在的miRNA-疾病關(guān)聯(lián)。該方法簡單直觀,但對(duì)特征工程依賴較大,難以處理復(fù)雜的數(shù)據(jù)特征和大規(guī)模數(shù)據(jù)?;谏疃葘W(xué)習(xí)的方法具有強(qiáng)大的非線性擬合能力,能端到端地實(shí)現(xiàn)低維特征嵌入表示和分類預(yù)測,提高模型的預(yù)測準(zhǔn)確性。其在結(jié)構(gòu)上更加靈活,可有效處理復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和特征。如Zheng等人提出的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的模型,對(duì)miRNA和疾病的序列數(shù)據(jù)進(jìn)行特征提取和分類預(yù)測。然而,現(xiàn)有基于深度學(xué)習(xí)的方法在處理異質(zhì)網(wǎng)絡(luò)時(shí)存在不足,如在特征提取階段,當(dāng)前編碼方式僅提取預(yù)測目標(biāo)之間的兩跳信息,忽略了網(wǎng)絡(luò)中潛在的拓?fù)潢P(guān)系,未能表示預(yù)測目標(biāo)之間的多跳通路信息;在模型階段,現(xiàn)有模型多采用多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)與圖神經(jīng)網(wǎng)絡(luò)(GNN)相結(jié)合的方式,但存在模型結(jié)構(gòu)復(fù)雜、混淆特征語義的問題,導(dǎo)致預(yù)測精度仍有待進(jìn)一步提高?;诰W(wǎng)絡(luò)分析的方法則從生物網(wǎng)絡(luò)的角度出發(fā),構(gòu)建ncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò),利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性信息預(yù)測潛在的關(guān)聯(lián)關(guān)系。這類方法能有效整合多源生物信息,考慮生物網(wǎng)絡(luò)的復(fù)雜性和異質(zhì)性。如基于異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法的方法,通過構(gòu)建包含ncRNA、疾病以及其他相關(guān)生物分子(如基因、靶標(biāo)等)的異質(zhì)性網(wǎng)絡(luò),利用鏈路預(yù)測算法對(duì)網(wǎng)絡(luò)中未連接的ncRNA-疾病節(jié)點(diǎn)對(duì)之間的潛在關(guān)聯(lián)進(jìn)行預(yù)測。丁亮等人構(gòu)建了“disease-miRNA-target”異質(zhì)性網(wǎng)絡(luò),并提出DMTHNDM算法用于潛在的miRNA-疾病相關(guān)性預(yù)測,該網(wǎng)絡(luò)中靶基因作為miRNA-疾病相關(guān)性的協(xié)同預(yù)測標(biāo)簽,豐富了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),提升了預(yù)測性能;還構(gòu)建了“l(fā)ncRNA-disease-gene”異質(zhì)性網(wǎng)絡(luò),并提出TPGLDA算法預(yù)測潛在的lncRNA-疾病相關(guān)性,通過整合lncRNA表達(dá)譜信息與疾病的表型信息,解決了網(wǎng)絡(luò)稀疏、孤立節(jié)點(diǎn)較多的問題,顯著提升了性能。但該類方法也面臨一些挑戰(zhàn),如生物網(wǎng)絡(luò)的構(gòu)建和優(yōu)化、多源數(shù)據(jù)的融合和質(zhì)量控制等。1.3研究內(nèi)容與方法本研究聚焦于非編碼RNA-疾病相關(guān)性預(yù)測,核心是運(yùn)用異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法,充分挖掘生物網(wǎng)絡(luò)的異質(zhì)性信息,提高預(yù)測的準(zhǔn)確性和可靠性。具體內(nèi)容涵蓋以下幾個(gè)方面:數(shù)據(jù)收集與預(yù)處理:廣泛收集非編碼RNA(重點(diǎn)關(guān)注miRNA和lncRNA)、疾病以及相關(guān)生物分子(如靶基因、蛋白質(zhì)等)的相互作用數(shù)據(jù),這些數(shù)據(jù)來源包括權(quán)威的公共數(shù)據(jù)庫(如LncRNADisease、Lnc2Cancer、miRBase等)和已發(fā)表的相關(guān)文獻(xiàn)。對(duì)收集到的數(shù)據(jù)進(jìn)行嚴(yán)格清洗,去除重復(fù)、錯(cuò)誤和低質(zhì)量的數(shù)據(jù),以確保數(shù)據(jù)的準(zhǔn)確性和可靠性。同時(shí),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使不同來源的數(shù)據(jù)具有統(tǒng)一的格式和標(biāo)準(zhǔn),便于后續(xù)分析。針對(duì)miRNA-疾病相關(guān)性預(yù)測,對(duì)miRNA-疾病相互作用數(shù)據(jù)和miRNA-靶基因相互作用數(shù)據(jù)進(jìn)行整合與處理;對(duì)于lncRNA-疾病相關(guān)性預(yù)測,整合lncRNA表達(dá)譜數(shù)據(jù)、疾病表型特征數(shù)據(jù)、lncRNA-疾病相互作用數(shù)據(jù)以及基因-疾病相互作用數(shù)據(jù),并進(jìn)行相應(yīng)處理,包括數(shù)據(jù)歸一化、缺失值填補(bǔ)等。異質(zhì)性網(wǎng)絡(luò)構(gòu)建:基于預(yù)處理后的數(shù)據(jù),構(gòu)建包含多種類型節(jié)點(diǎn)(非編碼RNA、疾病、靶基因、蛋白質(zhì)等)和邊(不同類型節(jié)點(diǎn)之間的相互作用關(guān)系)的異質(zhì)性網(wǎng)絡(luò)。根據(jù)不同類型節(jié)點(diǎn)和邊的生物學(xué)意義,為網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊賦予相應(yīng)的屬性和權(quán)重,如根據(jù)miRNA-靶基因相互作用的強(qiáng)度為邊賦予權(quán)重,根據(jù)疾病的嚴(yán)重程度為疾病節(jié)點(diǎn)賦予屬性等,以更準(zhǔn)確地反映生物網(wǎng)絡(luò)的特征。在構(gòu)建異質(zhì)性網(wǎng)絡(luò)時(shí),充分考慮網(wǎng)絡(luò)的連通性和完整性,確保網(wǎng)絡(luò)能夠全面、準(zhǔn)確地描述非編碼RNA-疾病關(guān)聯(lián)關(guān)系及其相關(guān)的生物信息。鏈路預(yù)測算法設(shè)計(jì)與應(yīng)用:深入研究現(xiàn)有的鏈路預(yù)測算法,如拉普拉斯正則化最小二乘法、重啟動(dòng)隨機(jī)游走、基于二分網(wǎng)絡(luò)的資源傳播算法等,分析它們?cè)谔幚懋愘|(zhì)性網(wǎng)絡(luò)時(shí)的優(yōu)勢和局限性。結(jié)合非編碼RNA-疾病相關(guān)性預(yù)測的特點(diǎn)和需求,對(duì)現(xiàn)有算法進(jìn)行改進(jìn)和優(yōu)化,如改進(jìn)資源傳播算法的傳播規(guī)則,使其更好地適應(yīng)異質(zhì)性網(wǎng)絡(luò)中不同類型節(jié)點(diǎn)和邊的特征;引入注意力機(jī)制,使算法能夠更關(guān)注與非編碼RNA-疾病關(guān)聯(lián)密切的節(jié)點(diǎn)和邊。將優(yōu)化后的鏈路預(yù)測算法應(yīng)用于構(gòu)建的異質(zhì)性網(wǎng)絡(luò),預(yù)測潛在的非編碼RNA-疾病關(guān)聯(lián)關(guān)系,得到預(yù)測結(jié)果矩陣,矩陣中的元素表示非編碼RNA-疾病節(jié)點(diǎn)對(duì)之間存在關(guān)聯(lián)的可能性。模型性能評(píng)估與分析:采用留一法交叉驗(yàn)證、五折交叉驗(yàn)證等方法對(duì)預(yù)測模型的性能進(jìn)行評(píng)估,通過多次劃分?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練和測試,確保評(píng)估結(jié)果的可靠性。選擇準(zhǔn)確率、召回率、F1值、受試者工作特征曲線(ROC)和曲線下面積(AUC)等作為性能評(píng)估指標(biāo),全面、客觀地評(píng)價(jià)模型的預(yù)測性能。將本研究提出的基于異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法的模型與其他現(xiàn)有的非編碼RNA-疾病相關(guān)性預(yù)測模型(如基于傳統(tǒng)機(jī)器學(xué)習(xí)的模型、基于深度學(xué)習(xí)的模型)進(jìn)行性能比較,分析本模型在預(yù)測準(zhǔn)確性、穩(wěn)定性、泛化能力等方面的優(yōu)勢和不足。對(duì)預(yù)測結(jié)果進(jìn)行深入分析,結(jié)合生物學(xué)知識(shí)和實(shí)際應(yīng)用需求,探討預(yù)測結(jié)果的生物學(xué)意義和潛在應(yīng)用價(jià)值,如篩選出與特定疾病高度相關(guān)的非編碼RNA,為疾病的診斷、治療和藥物研發(fā)提供潛在的生物標(biāo)志物和靶點(diǎn)。結(jié)果驗(yàn)證與應(yīng)用:通過查閱相關(guān)文獻(xiàn)、參考已有的實(shí)驗(yàn)研究結(jié)果,對(duì)預(yù)測得到的潛在非編碼RNA-疾病關(guān)聯(lián)關(guān)系進(jìn)行初步驗(yàn)證,判斷預(yù)測結(jié)果的合理性和可靠性。與實(shí)驗(yàn)團(tuán)隊(duì)合作,設(shè)計(jì)并開展相關(guān)實(shí)驗(yàn),如熒光定量PCR、RNA干擾實(shí)驗(yàn)、細(xì)胞功能實(shí)驗(yàn)等,對(duì)部分預(yù)測結(jié)果進(jìn)行實(shí)驗(yàn)驗(yàn)證,進(jìn)一步確認(rèn)預(yù)測結(jié)果的準(zhǔn)確性。將預(yù)測結(jié)果應(yīng)用于實(shí)際的疾病研究中,如幫助研究人員深入理解疾病的發(fā)病機(jī)制,為疾病的早期診斷、個(gè)性化治療和預(yù)后評(píng)估提供新的思路和方法;為藥物研發(fā)提供潛在的作用靶點(diǎn),加速新藥的研發(fā)進(jìn)程。在研究方法上,本研究綜合運(yùn)用生物信息學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)等多學(xué)科方法,從數(shù)據(jù)收集與處理、網(wǎng)絡(luò)構(gòu)建、算法設(shè)計(jì)與應(yīng)用、模型評(píng)估與分析到結(jié)果驗(yàn)證與應(yīng)用,形成一個(gè)完整的研究體系。在數(shù)據(jù)處理和算法設(shè)計(jì)過程中,注重生物學(xué)背景知識(shí)的融入,確保研究結(jié)果具有生物學(xué)意義和實(shí)際應(yīng)用價(jià)值。同時(shí),通過與實(shí)驗(yàn)研究的緊密結(jié)合,對(duì)預(yù)測結(jié)果進(jìn)行驗(yàn)證和進(jìn)一步探索,提高研究的可靠性和可信度。1.4研究創(chuàng)新點(diǎn)本研究在非編碼RNA-疾病相關(guān)性預(yù)測領(lǐng)域,通過多方面創(chuàng)新,致力于突破現(xiàn)有研究局限,為該領(lǐng)域提供更精準(zhǔn)、高效的預(yù)測方法和深入的生物學(xué)洞察。多源數(shù)據(jù)整合創(chuàng)新:本研究在數(shù)據(jù)收集階段,突破了傳統(tǒng)研究僅依賴單一或少數(shù)數(shù)據(jù)源的局限,廣泛整合了多類型、多來源的數(shù)據(jù)。在miRNA-疾病相關(guān)性預(yù)測中,不僅收集了權(quán)威數(shù)據(jù)庫及文獻(xiàn)中的miRNA-疾病相互作用數(shù)據(jù),還納入了大量miRNA-靶基因相互作用數(shù)據(jù);在lncRNA-疾病相關(guān)性預(yù)測時(shí),整合了lncRNA表達(dá)譜數(shù)據(jù)、疾病表型特征數(shù)據(jù)、lncRNA-疾病相互作用數(shù)據(jù)以及基因-疾病相互作用數(shù)據(jù)。這種多源數(shù)據(jù)的全面整合,為構(gòu)建更豐富、準(zhǔn)確的異質(zhì)性網(wǎng)絡(luò)奠定了堅(jiān)實(shí)基礎(chǔ),能更全面地反映非編碼RNA與疾病之間復(fù)雜的關(guān)聯(lián)關(guān)系及相關(guān)生物信息。異質(zhì)性網(wǎng)絡(luò)構(gòu)建創(chuàng)新:在網(wǎng)絡(luò)構(gòu)建方面,充分考慮生物網(wǎng)絡(luò)的異質(zhì)性特征,構(gòu)建了包含多種類型節(jié)點(diǎn)(非編碼RNA、疾病、靶基因、蛋白質(zhì)等)和邊(不同類型節(jié)點(diǎn)之間的相互作用關(guān)系)的異質(zhì)性網(wǎng)絡(luò)。與傳統(tǒng)的簡單網(wǎng)絡(luò)構(gòu)建方式不同,本研究根據(jù)不同類型節(jié)點(diǎn)和邊的生物學(xué)意義,為網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊賦予相應(yīng)的屬性和權(quán)重,如依據(jù)miRNA-靶基因相互作用的強(qiáng)度為邊賦予權(quán)重,根據(jù)疾病的嚴(yán)重程度為疾病節(jié)點(diǎn)賦予屬性等。這種創(chuàng)新的網(wǎng)絡(luò)構(gòu)建方式,能夠更真實(shí)、細(xì)致地描述生物網(wǎng)絡(luò)的特征,從而提高預(yù)測的準(zhǔn)確性和可靠性。鏈路預(yù)測算法創(chuàng)新:深入研究現(xiàn)有鏈路預(yù)測算法,針對(duì)非編碼RNA-疾病相關(guān)性預(yù)測的特點(diǎn)和需求,對(duì)算法進(jìn)行了創(chuàng)新性改進(jìn)和優(yōu)化。如改進(jìn)資源傳播算法的傳播規(guī)則,使其更好地適應(yīng)異質(zhì)性網(wǎng)絡(luò)中不同類型節(jié)點(diǎn)和邊的特征;引入注意力機(jī)制,使算法能夠自動(dòng)學(xué)習(xí)并更關(guān)注與非編碼RNA-疾病關(guān)聯(lián)密切的節(jié)點(diǎn)和邊,從而有效挖掘網(wǎng)絡(luò)中潛在的關(guān)聯(lián)關(guān)系。相較于傳統(tǒng)算法,改進(jìn)后的算法在處理復(fù)雜的異質(zhì)性網(wǎng)絡(luò)時(shí),能夠更準(zhǔn)確地預(yù)測潛在的非編碼RNA-疾病關(guān)聯(lián)關(guān)系。預(yù)測模型構(gòu)建創(chuàng)新:在預(yù)測模型構(gòu)建上,將改進(jìn)后的鏈路預(yù)測算法與異質(zhì)性網(wǎng)絡(luò)有機(jī)結(jié)合,形成了全新的預(yù)測模型。該模型不僅充分利用了異質(zhì)性網(wǎng)絡(luò)中豐富的生物信息,還通過優(yōu)化的算法實(shí)現(xiàn)了對(duì)潛在關(guān)聯(lián)關(guān)系的高效預(yù)測。與現(xiàn)有的基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的預(yù)測模型相比,本研究構(gòu)建的模型在結(jié)構(gòu)和算法上都具有獨(dú)特優(yōu)勢,能夠更好地處理復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和特征,有效避免了傳統(tǒng)模型中存在的特征提取不全面、模型結(jié)構(gòu)復(fù)雜、混淆特征語義等問題,從而顯著提高了預(yù)測精度和穩(wěn)定性。二、非編碼RNA與疾病相關(guān)性的理論基礎(chǔ)2.1非編碼RNA概述非編碼RNA(ncRNA)是一類不編碼蛋白質(zhì)的RNA分子,在生命活動(dòng)中發(fā)揮著不可或缺的作用。其廣泛存在于真核生物和原核生物中,種類繁多,根據(jù)長度、結(jié)構(gòu)和功能的不同,可細(xì)分為多種類型,包括轉(zhuǎn)運(yùn)RNA(tRNA)、核糖體RNA(rRNA)、小核RNA(snRNA)、核仁小RNA(snoRNA)、微小RNA(miRNA)、長鏈非編碼RNA(lncRNA)、環(huán)狀RNA(circRNA)等。轉(zhuǎn)運(yùn)RNA(tRNA)含有較多的修飾成分,具有獨(dú)特的三葉草型二級(jí)結(jié)構(gòu)以及“L”型三級(jí)結(jié)構(gòu),在蛋白質(zhì)合成過程中,負(fù)責(zé)特異性讀取mRNA中包含的遺傳信息,并將信息轉(zhuǎn)化成相應(yīng)氨基酸后連接到多肽鏈中,是遺傳信息從mRNA傳遞到蛋白質(zhì)的關(guān)鍵橋梁。核糖體RNA(rRNA)是細(xì)胞中最為豐富的RNA,是核糖體的主要組成部分,直接參與核糖體中蛋白質(zhì)的合成過程,在識(shí)別、選擇tRNA以及催化肽鍵形成等環(huán)節(jié)中發(fā)揮主動(dòng)作用,對(duì)于蛋白質(zhì)的正確合成至關(guān)重要。小核RNA(snRNA)常與蛋白因子結(jié)合形成小核核糖蛋白顆粒(snRNPs),主要參與mRNA的剪接和成熟過程,確保mRNA前體能夠準(zhǔn)確地去除內(nèi)含子,連接外顯子,形成成熟的mRNA,為后續(xù)的翻譯過程提供正確的模板。核仁小RNA(snoRNA)最早在核仁中被發(fā)現(xiàn),分為C/DboxsnoRNA和H/ACAboxsnoRNA兩類,主要對(duì)rRNA進(jìn)行修飾,包括甲基化修飾和甲尿嘧啶化修飾,這些修飾能夠影響rRNA的結(jié)構(gòu)和功能,進(jìn)而影響核糖體的組裝和蛋白質(zhì)合成效率。微小RNA(miRNA)是一類短的內(nèi)源性非編碼RNA,長度約為21-23個(gè)核苷酸。其通過與靶標(biāo)mRNA的3'端非翻譯區(qū)(3'-UTR)特異性結(jié)合,引發(fā)靶標(biāo)mRNA分子的降解或翻譯抑制,在轉(zhuǎn)錄后水平調(diào)控基因表達(dá)。miRNA參與多種生物體的調(diào)節(jié)機(jī)制,在細(xì)胞分化和發(fā)育、新陳代謝、細(xì)胞凋亡等過程中發(fā)揮重要作用。在細(xì)胞分化過程中,特定的miRNA能夠調(diào)控相關(guān)基因的表達(dá),引導(dǎo)細(xì)胞向特定的方向分化;在新陳代謝方面,miRNA可以調(diào)節(jié)代謝相關(guān)基因的表達(dá),影響物質(zhì)的代謝過程。長鏈非編碼RNA(lncRNA)長度超過200個(gè)核苷酸,具有保守的二級(jí)結(jié)構(gòu)。它參與多種生物過程,包括多能干細(xì)胞的重編程、致癌進(jìn)展和細(xì)胞周期調(diào)控等。lncRNA可通過與DNA、RNA和蛋白質(zhì)相互作用,調(diào)節(jié)染色質(zhì)結(jié)構(gòu)和功能以及鄰近和遠(yuǎn)處基因的轉(zhuǎn)錄。在多能干細(xì)胞重編程過程中,某些lncRNA能夠通過與相關(guān)轉(zhuǎn)錄因子結(jié)合,調(diào)控基因表達(dá)網(wǎng)絡(luò),促進(jìn)干細(xì)胞的重編程;在腫瘤發(fā)生發(fā)展過程中,lncRNA也發(fā)揮著重要作用,一些lncRNA可以作為致癌基因或抑癌基因,參與腫瘤細(xì)胞的增殖、遷移和侵襲等過程。環(huán)狀RNA(circRNA)形成共價(jià)閉合的連續(xù)循環(huán)結(jié)構(gòu),3'和5'末端連接在一起。circRNA可作為轉(zhuǎn)錄調(diào)節(jié)因子、microRNA海綿和蛋白質(zhì)支架發(fā)揮生物學(xué)功能,參與基因轉(zhuǎn)錄調(diào)控、miRNA的調(diào)控以及蛋白質(zhì)活性的調(diào)節(jié)等。作為microRNA海綿,circRNA可以通過與miRNA結(jié)合,抑制miRNA對(duì)其靶基因的調(diào)控作用,從而間接影響基因表達(dá);circRNA還可以與蛋白質(zhì)相互作用,影響蛋白質(zhì)的功能和定位,參與細(xì)胞內(nèi)的信號(hào)傳導(dǎo)等過程。非編碼RNA在生物過程中扮演著極為重要的角色,對(duì)基因表達(dá)調(diào)控起著關(guān)鍵作用。它們可以通過多種方式參與基因表達(dá)的調(diào)控,在轉(zhuǎn)錄前,一些非編碼RNA能夠與染色質(zhì)修飾蛋白結(jié)合,參與染色質(zhì)的重塑和基因沉默等過程,影響染色質(zhì)的結(jié)構(gòu)和功能,從而調(diào)控基因的表達(dá)。在轉(zhuǎn)錄過程中,部分非編碼RNA可以作為轉(zhuǎn)錄調(diào)節(jié)因子,與DNA或轉(zhuǎn)錄相關(guān)的蛋白質(zhì)相互作用,促進(jìn)或抑制基因的轉(zhuǎn)錄。在轉(zhuǎn)錄后,如miRNA通過與mRNA結(jié)合,影響其穩(wěn)定性和翻譯效率,實(shí)現(xiàn)對(duì)基因表達(dá)的精細(xì)調(diào)控。非編碼RNA還在細(xì)胞分化與發(fā)育過程中發(fā)揮關(guān)鍵作用。在胚胎發(fā)育過程中,不同類型的非編碼RNA在特定的時(shí)間和空間表達(dá),調(diào)控細(xì)胞的分化和組織器官的形成。一些lncRNA在胚胎干細(xì)胞向不同胚層分化過程中,通過調(diào)控相關(guān)基因的表達(dá),決定細(xì)胞的分化方向。在神經(jīng)系統(tǒng)發(fā)育中,miRNA參與神經(jīng)元的分化、遷移和突觸的形成等過程,對(duì)神經(jīng)系統(tǒng)的正常發(fā)育至關(guān)重要。此外,非編碼RNA與疾病的發(fā)生發(fā)展密切相關(guān)。大量研究表明,非編碼RNA的異常表達(dá)或功能異常與多種人類疾病相關(guān),包括癌癥、神經(jīng)系統(tǒng)疾病、心血管疾病、代謝性疾病等。在癌癥中,許多miRNA和lncRNA的表達(dá)異常,它們可以作為致癌基因或抑癌基因,參與腫瘤細(xì)胞的增殖、凋亡、侵襲和轉(zhuǎn)移等過程。在神經(jīng)系統(tǒng)疾病中,如阿爾茨海默病、帕金森病等神經(jīng)退行性疾病,某些非編碼RNA的表達(dá)變化與疾病的發(fā)生發(fā)展密切相關(guān),可能參與神經(jīng)元的死亡、突觸可塑性的改變等病理過程。在心血管疾病中,非編碼RNA通過調(diào)節(jié)靶基因的表達(dá),影響心血管細(xì)胞的增殖、分化和凋亡,進(jìn)而參與心血管疾病的發(fā)生發(fā)展。2.2非編碼RNA與疾病關(guān)聯(lián)的生物學(xué)機(jī)制非編碼RNA(ncRNA)與疾病之間存在著緊密而復(fù)雜的關(guān)聯(lián),其在疾病發(fā)生發(fā)展過程中發(fā)揮作用的生物學(xué)機(jī)制是多方面且深入的。在腫瘤領(lǐng)域,微小RNA(miRNA)和長鏈非編碼RNA(lncRNA)的異常表達(dá)極為常見,且與腫瘤細(xì)胞的多種惡性行為密切相關(guān)。以肺癌為例,研究發(fā)現(xiàn)miR-125b在肺癌組織中表達(dá)顯著下調(diào),它通過靶向調(diào)控癌基因Bcl-2,抑制其表達(dá),進(jìn)而誘導(dǎo)肺癌細(xì)胞凋亡,發(fā)揮抑癌作用。當(dāng)miR-125b表達(dá)降低時(shí),對(duì)Bcl-2的抑制作用減弱,Bcl-2表達(dá)升高,使得肺癌細(xì)胞凋亡受阻,促進(jìn)腫瘤的發(fā)生發(fā)展。在肝癌中,lncRNAHOTAIR表達(dá)上調(diào),它可與多梳蛋白抑制復(fù)合體2(PRC2)結(jié)合,招募PRC2到特定基因位點(diǎn),通過組蛋白修飾抑制基因表達(dá)。HOTAIR通過這種方式調(diào)控多個(gè)與腫瘤侵襲轉(zhuǎn)移相關(guān)基因的表達(dá),如抑制E-cadherin的表達(dá),促進(jìn)N-cadherin和Vimentin的表達(dá),從而促進(jìn)肝癌細(xì)胞的上皮-間質(zhì)轉(zhuǎn)化(EMT)過程,增強(qiáng)肝癌細(xì)胞的侵襲和轉(zhuǎn)移能力。在心血管疾病方面,非編碼RNA也參與了疾病發(fā)生發(fā)展的多個(gè)環(huán)節(jié)。以動(dòng)脈粥樣硬化為例,miR-145在血管平滑肌細(xì)胞(VSMCs)中高表達(dá),它可通過靶向調(diào)控轉(zhuǎn)錄因子KLF5和c-Myc,抑制VSMCs的增殖和遷移,維持血管穩(wěn)態(tài)。在動(dòng)脈粥樣硬化的發(fā)生發(fā)展過程中,炎癥反應(yīng)起著關(guān)鍵作用,而miR-146a可通過靶向調(diào)控NF-κB信號(hào)通路中的關(guān)鍵分子,如腫瘤壞死因子受體相關(guān)因子6(TRAF6)和白細(xì)胞介素-1受體相關(guān)激酶1(IRAK1),抑制炎癥因子的表達(dá)和釋放,減輕炎癥反應(yīng),從而對(duì)動(dòng)脈粥樣硬化的發(fā)展起到抑制作用。此外,lncRNAMALAT1在動(dòng)脈粥樣硬化斑塊中表達(dá)上調(diào),它可通過調(diào)節(jié)VSMCs的表型轉(zhuǎn)換,促進(jìn)VSMCs從收縮型向合成型轉(zhuǎn)變,合成型VSMCs增殖和遷移能力增強(qiáng),分泌細(xì)胞外基質(zhì)的能力下降,導(dǎo)致動(dòng)脈粥樣硬化斑塊的不穩(wěn)定。在神經(jīng)系統(tǒng)疾病中,非編碼RNA同樣扮演著重要角色。以阿爾茨海默?。ˋD)為例,研究表明miR-128在AD患者大腦中表達(dá)下調(diào),它可通過靶向調(diào)控BACE1,抑制其表達(dá),從而減少β-淀粉樣蛋白(Aβ)的生成。BACE1是Aβ生成的關(guān)鍵酶,miR-128表達(dá)降低時(shí),對(duì)BACE1的抑制作用減弱,BACE1表達(dá)升高,Aβ生成增加,Aβ在大腦中沉積形成老年斑,引發(fā)神經(jīng)炎癥和神經(jīng)元損傷,導(dǎo)致AD的發(fā)生發(fā)展。此外,lncRNABC200在AD患者大腦中表達(dá)上調(diào),它可與多種蛋白質(zhì)相互作用,如與RNA結(jié)合蛋白HuR結(jié)合,影響mRNA的穩(wěn)定性和翻譯過程,從而參與AD的病理過程。還有研究發(fā)現(xiàn),環(huán)狀RNA(circRNA)在AD中也發(fā)揮作用,如circRNA_0001649在AD患者大腦中表達(dá)下調(diào),它可通過吸附miR-129-5p,調(diào)節(jié)其下游靶基因的表達(dá),參與AD的發(fā)病機(jī)制。在自身免疫性疾病中,如系統(tǒng)性紅斑狼瘡(SLE),miR-148a在患者外周血單個(gè)核細(xì)胞(PBMCs)中表達(dá)下調(diào),它可通過靶向調(diào)控DNA甲基轉(zhuǎn)移酶1(DNMT1),影響DNA甲基化水平,導(dǎo)致免疫細(xì)胞功能異常,自身抗體產(chǎn)生增加,從而參與SLE的發(fā)病。在感染性疾病方面,以乙型肝炎病毒(HBV)感染為例,miR-122在肝臟中高表達(dá),它可與HBV的基因組RNA結(jié)合,促進(jìn)HBV的復(fù)制。而一些lncRNA也參與了HBV感染的過程,如lncRNAHULC在HBV感染的肝細(xì)胞中表達(dá)上調(diào),它可通過調(diào)節(jié)細(xì)胞內(nèi)的信號(hào)通路,促進(jìn)肝細(xì)胞的增殖和存活,為HBV的復(fù)制提供有利環(huán)境。非編碼RNA與疾病的關(guān)聯(lián)機(jī)制是復(fù)雜多樣的,涉及基因表達(dá)調(diào)控、細(xì)胞信號(hào)傳導(dǎo)、細(xì)胞增殖與凋亡、炎癥反應(yīng)等多個(gè)生物學(xué)過程。深入研究這些機(jī)制,有助于揭示疾病的發(fā)病機(jī)制,為疾病的診斷、治療和預(yù)防提供新的靶點(diǎn)和策略。2.3現(xiàn)有非編碼RNA-疾病相關(guān)性研究成果隨著生命科學(xué)研究的深入,非編碼RNA-疾病相關(guān)性研究取得了豐碩成果,大量實(shí)驗(yàn)和計(jì)算研究揭示了眾多非編碼RNA與疾病之間的關(guān)聯(lián)。在實(shí)驗(yàn)研究方面,通過高通量測序、RNA干擾、熒光原位雜交等技術(shù),已鑒定出許多與疾病相關(guān)的非編碼RNA。如在腫瘤領(lǐng)域,miR-21被發(fā)現(xiàn)是一種典型的致癌miRNA,在多種癌癥(如乳腺癌、肺癌、肝癌等)中表達(dá)上調(diào)。它通過靶向多個(gè)抑癌基因(如PTEN、PDCD4等),抑制其表達(dá),從而促進(jìn)腫瘤細(xì)胞的增殖、遷移和侵襲。lncRNAH19在肝癌、胃癌、結(jié)直腸癌等多種腫瘤中也呈現(xiàn)高表達(dá),它可通過與miR-675相互作用,調(diào)節(jié)其下游靶基因的表達(dá),促進(jìn)腫瘤細(xì)胞的生長和轉(zhuǎn)移。在心血管疾病方面,miR-1在心肌梗死、心律失常等疾病中表達(dá)異常,它通過靶向調(diào)控與心肌細(xì)胞增殖、分化和凋亡相關(guān)的基因(如HDAC4、SRF等),影響心肌細(xì)胞的功能,參與心血管疾病的發(fā)生發(fā)展。lncRNAMALAT1在動(dòng)脈粥樣硬化、心肌肥厚等心血管疾病中也發(fā)揮重要作用,它可通過調(diào)節(jié)血管平滑肌細(xì)胞的增殖、遷移和表型轉(zhuǎn)換,影響血管的生理病理過程。在神經(jīng)系統(tǒng)疾病中,miR-124在阿爾茨海默病、帕金森病等神經(jīng)退行性疾病中表達(dá)下調(diào),它通過靶向調(diào)控與神經(jīng)炎癥、神經(jīng)元凋亡相關(guān)的基因(如NF-κB、Bcl-2等),影響神經(jīng)細(xì)胞的功能和存活。lncRNABC200在阿爾茨海默病患者大腦中表達(dá)上調(diào),它可與多種蛋白質(zhì)相互作用,干擾神經(jīng)元的正常生理功能,參與疾病的病理進(jìn)程。在計(jì)算研究方面,基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和網(wǎng)絡(luò)分析等方法,開發(fā)了一系列預(yù)測非編碼RNA-疾病相關(guān)性的模型和算法。這些方法通過挖掘生物數(shù)據(jù)中的潛在信息,預(yù)測出許多潛在的非編碼RNA-疾病關(guān)聯(lián)關(guān)系,為實(shí)驗(yàn)研究提供了有價(jià)值的線索。如基于矩陣分解和網(wǎng)絡(luò)傳播的方法,通過對(duì)已知的非編碼RNA-疾病關(guān)聯(lián)數(shù)據(jù)和非編碼RNA、疾病的相似性數(shù)據(jù)進(jìn)行分析,預(yù)測潛在的關(guān)聯(lián)關(guān)系。基于深度學(xué)習(xí)的方法,利用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等模型,對(duì)非編碼RNA和疾病的特征進(jìn)行學(xué)習(xí)和分類,實(shí)現(xiàn)對(duì)潛在關(guān)聯(lián)關(guān)系的預(yù)測?;诰W(wǎng)絡(luò)分析的方法,構(gòu)建非編碼RNA-疾病關(guān)聯(lián)網(wǎng)絡(luò),利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性信息,預(yù)測網(wǎng)絡(luò)中未連接節(jié)點(diǎn)對(duì)之間的潛在關(guān)聯(lián)。盡管現(xiàn)有研究取得了顯著進(jìn)展,但仍存在一些問題和挑戰(zhàn)。在數(shù)據(jù)層面,數(shù)據(jù)的質(zhì)量和完整性有待提高,目前的非編碼RNA-疾病相關(guān)性數(shù)據(jù)主要來源于實(shí)驗(yàn)驗(yàn)證和文獻(xiàn)挖掘,存在數(shù)據(jù)不準(zhǔn)確、不完整、不一致等問題。不同數(shù)據(jù)庫之間的數(shù)據(jù)也存在差異,缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,這給數(shù)據(jù)的整合和分析帶來了困難。數(shù)據(jù)的標(biāo)注也存在主觀性和不確定性,不同研究人員對(duì)同一數(shù)據(jù)的標(biāo)注可能存在差異,影響了數(shù)據(jù)的可靠性和可用性。在方法層面,現(xiàn)有計(jì)算方法的準(zhǔn)確性和可靠性仍需提升,許多方法在處理復(fù)雜的生物數(shù)據(jù)時(shí),容易出現(xiàn)過擬合、欠擬合等問題,導(dǎo)致預(yù)測結(jié)果的準(zhǔn)確性和穩(wěn)定性較差。不同方法之間的性能差異較大,缺乏統(tǒng)一的評(píng)估標(biāo)準(zhǔn)和比較方法,難以判斷哪種方法更適合非編碼RNA-疾病相關(guān)性預(yù)測。此外,現(xiàn)有方法大多只考慮了單一類型的生物數(shù)據(jù),如非編碼RNA-疾病相互作用數(shù)據(jù)、非編碼RNA表達(dá)譜數(shù)據(jù)等,沒有充分整合多源生物信息,無法全面反映非編碼RNA與疾病之間的復(fù)雜關(guān)聯(lián)關(guān)系。在生物學(xué)機(jī)制層面,雖然已發(fā)現(xiàn)許多非編碼RNA與疾病相關(guān),但對(duì)其具體的作用機(jī)制仍了解有限。非編碼RNA在細(xì)胞內(nèi)的作用方式復(fù)雜多樣,涉及與DNA、RNA和蛋白質(zhì)的相互作用,以及對(duì)基因表達(dá)、信號(hào)傳導(dǎo)等生物學(xué)過程的調(diào)控。目前,對(duì)于非編碼RNA如何參與這些生物學(xué)過程,以及它們與疾病發(fā)生發(fā)展之間的因果關(guān)系,還需要進(jìn)一步深入研究。此外,非編碼RNA之間也存在復(fù)雜的相互作用,形成了龐大的調(diào)控網(wǎng)絡(luò),解析這個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)和功能,對(duì)于理解非編碼RNA-疾病相關(guān)性的生物學(xué)機(jī)制至關(guān)重要,但這也是當(dāng)前研究的一大挑戰(zhàn)。三、異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法原理3.1異質(zhì)性網(wǎng)絡(luò)的概念與特點(diǎn)異質(zhì)性網(wǎng)絡(luò),又被稱為異構(gòu)網(wǎng)絡(luò),是一種由不同類型節(jié)點(diǎn)和多種類型邊構(gòu)成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)。與傳統(tǒng)的同質(zhì)性網(wǎng)絡(luò)相比,異質(zhì)性網(wǎng)絡(luò)的節(jié)點(diǎn)和邊具有多樣化的屬性和類型,能夠更全面、真實(shí)地反映現(xiàn)實(shí)世界中各種實(shí)體之間復(fù)雜的關(guān)系。在生物信息學(xué)領(lǐng)域,異質(zhì)性網(wǎng)絡(luò)可以包含基因、蛋白質(zhì)、疾病、非編碼RNA等多種類型的節(jié)點(diǎn),節(jié)點(diǎn)之間的邊則可以表示基因與蛋白質(zhì)的相互作用、蛋白質(zhì)與疾病的關(guān)聯(lián)、非編碼RNA對(duì)基因的調(diào)控等多種關(guān)系。在社交網(wǎng)絡(luò)中,異質(zhì)性網(wǎng)絡(luò)的節(jié)點(diǎn)可以包括用戶、帖子、評(píng)論、點(diǎn)贊等,邊則可以表示用戶之間的關(guān)注關(guān)系、用戶與帖子的發(fā)布關(guān)系、評(píng)論與帖子的關(guān)聯(lián)關(guān)系等。異質(zhì)性網(wǎng)絡(luò)的首要特點(diǎn)在于其節(jié)點(diǎn)和邊類型的多樣性。這種多樣性使得異質(zhì)性網(wǎng)絡(luò)能夠容納多種類型的數(shù)據(jù)和信息,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合和整合。在學(xué)術(shù)網(wǎng)絡(luò)中,節(jié)點(diǎn)類型包括論文、作者、期刊、會(huì)議等,邊類型則有作者發(fā)表論文、論文發(fā)表于期刊、論文在會(huì)議上展示等。這種豐富的節(jié)點(diǎn)和邊類型能夠全面地描述學(xué)術(shù)領(lǐng)域中的各種關(guān)系,為研究人員提供更廣泛的信息來源。在電子商務(wù)網(wǎng)絡(luò)中,節(jié)點(diǎn)可以是用戶、商品、商家等,邊可以表示用戶購買商品、商家銷售商品、用戶對(duì)商品的評(píng)價(jià)等關(guān)系。通過這些不同類型的節(jié)點(diǎn)和邊,電子商務(wù)平臺(tái)能夠深入分析用戶的購買行為、商品的銷售情況以及商家的運(yùn)營狀況,從而為用戶提供更精準(zhǔn)的推薦服務(wù),為商家提供更有效的營銷策略。異質(zhì)性網(wǎng)絡(luò)的節(jié)點(diǎn)和邊還具有不同的屬性。這些屬性能夠?yàn)榫W(wǎng)絡(luò)中的節(jié)點(diǎn)和邊賦予更豐富的語義信息,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。在基因調(diào)控網(wǎng)絡(luò)中,基因節(jié)點(diǎn)可以具有表達(dá)水平、功能注釋等屬性,邊可以具有調(diào)控強(qiáng)度、調(diào)控方向等屬性。通過這些屬性,研究人員可以更深入地了解基因之間的調(diào)控關(guān)系,揭示基因在生物過程中的作用機(jī)制。在社交網(wǎng)絡(luò)中,用戶節(jié)點(diǎn)可以具有年齡、性別、職業(yè)等屬性,邊可以具有互動(dòng)頻率、互動(dòng)時(shí)間等屬性。這些屬性能夠幫助社交平臺(tái)更好地了解用戶的興趣愛好、社交行為,從而優(yōu)化平臺(tái)的功能和服務(wù)。異質(zhì)性網(wǎng)絡(luò)中節(jié)點(diǎn)和邊之間的關(guān)系往往表現(xiàn)為非線性。這種非線性關(guān)系增加了網(wǎng)絡(luò)的復(fù)雜性,也為挖掘網(wǎng)絡(luò)中的潛在信息帶來了挑戰(zhàn)。在疾病傳播網(wǎng)絡(luò)中,疾病的傳播不僅受到直接接觸關(guān)系的影響,還可能受到地理位置、人口密度、社交活動(dòng)等多種因素的影響。這些因素之間相互作用,形成了復(fù)雜的非線性關(guān)系。在金融風(fēng)險(xiǎn)傳播網(wǎng)絡(luò)中,金融機(jī)構(gòu)之間的風(fēng)險(xiǎn)傳遞不僅取決于它們之間的直接業(yè)務(wù)聯(lián)系,還受到市場波動(dòng)、政策變化、投資者情緒等多種因素的影響。這些非線性關(guān)系使得金融風(fēng)險(xiǎn)的預(yù)測和管理變得更加困難。異質(zhì)性網(wǎng)絡(luò)還具有較強(qiáng)的動(dòng)態(tài)性。隨著時(shí)間的推移,網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊可能會(huì)發(fā)生變化,新的節(jié)點(diǎn)和邊可能會(huì)加入,舊的節(jié)點(diǎn)和邊可能會(huì)消失,節(jié)點(diǎn)和邊的屬性也可能會(huì)發(fā)生改變。在社交網(wǎng)絡(luò)中,新用戶不斷注冊(cè)加入,老用戶可能會(huì)注銷賬號(hào),用戶之間的關(guān)注關(guān)系也會(huì)不斷變化。在生物網(wǎng)絡(luò)中,隨著生物過程的進(jìn)行,基因的表達(dá)水平會(huì)發(fā)生變化,蛋白質(zhì)之間的相互作用也會(huì)動(dòng)態(tài)調(diào)整。這種動(dòng)態(tài)性要求在分析異質(zhì)性網(wǎng)絡(luò)時(shí),需要考慮時(shí)間因素,采用動(dòng)態(tài)的分析方法。3.2鏈路預(yù)測的基本原理與方法鏈路預(yù)測旨在基于網(wǎng)絡(luò)中已有的節(jié)點(diǎn)和邊信息,預(yù)測哪些節(jié)點(diǎn)對(duì)之間可能存在尚未觀察到的邊。在社交網(wǎng)絡(luò)中,鏈路預(yù)測可用于預(yù)測用戶之間未來可能建立的朋友關(guān)系;在生物網(wǎng)絡(luò)中,可用于預(yù)測蛋白質(zhì)之間潛在的相互作用關(guān)系;在學(xué)術(shù)網(wǎng)絡(luò)中,能預(yù)測學(xué)者之間未來可能的合作關(guān)系。鏈路預(yù)測在多個(gè)領(lǐng)域都有著重要的應(yīng)用價(jià)值,通過準(zhǔn)確預(yù)測潛在的邊,可以為相關(guān)領(lǐng)域的決策和研究提供有價(jià)值的參考?;谙嗨菩缘姆椒ㄊ擎溌奉A(yù)測中較為基礎(chǔ)且常用的一類方法。這類方法假設(shè)節(jié)點(diǎn)之間的相似性越高,它們之間存在邊的可能性就越大。共同鄰居(CommonNeighbors)是一種簡單直觀的相似性指標(biāo),它指的是兩個(gè)節(jié)點(diǎn)共享的鄰居節(jié)點(diǎn)的數(shù)量。若兩個(gè)節(jié)點(diǎn)有更多的共同鄰居,那么它們之間存在邊的可能性通常會(huì)更高。公式表示為CN(x,y)=|\Gamma(x)\cap\Gamma(y)|,其中\(zhòng)Gamma(x)表示節(jié)點(diǎn)x的鄰居集合。在一個(gè)社交網(wǎng)絡(luò)中,用戶A和用戶B都與用戶C、用戶D是好友,那么用戶A和用戶B的共同鄰居數(shù)量為2,基于此可推測用戶A和用戶B之間存在建立好友關(guān)系的可能性。Jaccard系數(shù)則衡量兩個(gè)集合的交集大小與并集大小的比例,用于評(píng)估兩個(gè)節(jié)點(diǎn)鄰居的相似度,公式為J(x,y)=\frac{|\Gamma(x)\cap\Gamma(y)|}{|\Gamma(x)\cup\Gamma(y)|}。Adamic/Adar指數(shù)也是基于共同鄰居的指標(biāo),但它給予那些鄰居節(jié)點(diǎn)較少的節(jié)點(diǎn)更高的權(quán)重,認(rèn)為這些節(jié)點(diǎn)的連接更為珍貴,公式為AA(x,y)=\sum_{z\in\Gamma(x)\cap\Gamma(y)}\frac{1}{\log|\Gamma(z)|}。基于相似性的方法計(jì)算相對(duì)簡單,能夠快速得到節(jié)點(diǎn)之間的相似性分?jǐn)?shù),從而預(yù)測潛在的邊。但這類方法也存在局限性,它們主要考慮節(jié)點(diǎn)的局部信息,忽略了網(wǎng)絡(luò)的全局結(jié)構(gòu)和節(jié)點(diǎn)之間的間接關(guān)系,在復(fù)雜網(wǎng)絡(luò)中,僅依靠局部相似性可能無法準(zhǔn)確預(yù)測鏈路。機(jī)器學(xué)習(xí)方法在鏈路預(yù)測中也得到了廣泛應(yīng)用。這類方法將鏈路預(yù)測問題轉(zhuǎn)化為分類問題,通過構(gòu)建分類模型來預(yù)測節(jié)點(diǎn)對(duì)之間是否存在邊。邏輯斯蒂回歸是一種常用的機(jī)器學(xué)習(xí)算法,可用于鏈路預(yù)測。在鏈路預(yù)測中,邏輯斯蒂回歸模型通過學(xué)習(xí)已知邊和非邊的特征,建立預(yù)測模型,對(duì)未知的節(jié)點(diǎn)對(duì)進(jìn)行預(yù)測。支持向量機(jī)(SVM)也是一種強(qiáng)大的分類算法,它通過尋找一個(gè)最優(yōu)的分類超平面,將不同類別的數(shù)據(jù)分開。在鏈路預(yù)測中,SVM可以將存在邊的節(jié)點(diǎn)對(duì)和不存在邊的節(jié)點(diǎn)對(duì)看作不同的類別,通過訓(xùn)練模型來預(yù)測新的節(jié)點(diǎn)對(duì)是否存在邊。決策樹及其集成算法,如隨機(jī)森林,也可應(yīng)用于鏈路預(yù)測。決策樹通過對(duì)數(shù)據(jù)進(jìn)行特征劃分,構(gòu)建樹形結(jié)構(gòu)的分類模型;隨機(jī)森林則是通過構(gòu)建多個(gè)決策樹,并對(duì)它們的預(yù)測結(jié)果進(jìn)行綜合,來提高預(yù)測的準(zhǔn)確性和穩(wěn)定性。機(jī)器學(xué)習(xí)方法的優(yōu)勢在于能夠處理復(fù)雜的數(shù)據(jù)特征,通過對(duì)大量數(shù)據(jù)的學(xué)習(xí),挖掘節(jié)點(diǎn)之間潛在的關(guān)系模式。然而,機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)的質(zhì)量和特征工程要求較高,需要精心選擇和設(shè)計(jì)特征,以提高模型的性能。此外,模型的訓(xùn)練過程通常需要較大的計(jì)算資源和時(shí)間,且模型的可解釋性相對(duì)較差。深度學(xué)習(xí)方法近年來在鏈路預(yù)測領(lǐng)域展現(xiàn)出強(qiáng)大的潛力。圖神經(jīng)網(wǎng)絡(luò)(GNN)作為深度學(xué)習(xí)在圖數(shù)據(jù)上的應(yīng)用,能夠直接對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理和分析。圖卷積網(wǎng)絡(luò)(GCN)是一種典型的圖神經(jīng)網(wǎng)絡(luò),它通過在圖上定義卷積操作,對(duì)節(jié)點(diǎn)的鄰居信息進(jìn)行聚合和更新,從而學(xué)習(xí)節(jié)點(diǎn)的表示。在鏈路預(yù)測中,GCN可以學(xué)習(xí)到節(jié)點(diǎn)的特征表示,根據(jù)這些表示來預(yù)測節(jié)點(diǎn)對(duì)之間是否存在邊。圖注意力網(wǎng)絡(luò)(GAT)則引入了注意力機(jī)制,使模型能夠自動(dòng)學(xué)習(xí)不同鄰居節(jié)點(diǎn)對(duì)中心節(jié)點(diǎn)的重要性,從而更有效地聚合鄰居信息。在異質(zhì)性網(wǎng)絡(luò)中,不同類型的節(jié)點(diǎn)和邊具有不同的重要性,GAT的注意力機(jī)制能夠更好地處理這種異質(zhì)性,提高鏈路預(yù)測的準(zhǔn)確性?;谏疃葘W(xué)習(xí)的方法具有強(qiáng)大的特征學(xué)習(xí)能力,能夠自動(dòng)從復(fù)雜的圖數(shù)據(jù)中學(xué)習(xí)到節(jié)點(diǎn)和邊的特征表示。它們?cè)谔幚泶笠?guī)模、復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)時(shí)表現(xiàn)出色,能夠捕捉到網(wǎng)絡(luò)中深層次的結(jié)構(gòu)和語義信息。但深度學(xué)習(xí)方法也面臨一些挑戰(zhàn),如模型的訓(xùn)練需要大量的標(biāo)注數(shù)據(jù),計(jì)算資源消耗大,模型的可解釋性差等問題。3.3適用于非編碼RNA-疾病相關(guān)性預(yù)測的異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法在非編碼RNA-疾病相關(guān)性預(yù)測研究中,異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法展現(xiàn)出獨(dú)特的優(yōu)勢和應(yīng)用價(jià)值。丁亮等人提出的DMTHNDM算法,通過構(gòu)建“disease-miRNA-target”異質(zhì)性網(wǎng)絡(luò),有效利用多源生物信息進(jìn)行潛在的miRNA-疾病相關(guān)性預(yù)測。該算法以疾病、miRNA和靶基因?yàn)楣?jié)點(diǎn),以它們之間的相互作用關(guān)系為邊構(gòu)建異質(zhì)性網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中,靶基因作為miRNA-疾病相關(guān)性的協(xié)同預(yù)測標(biāo)簽,豐富了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),為預(yù)測提供了更多的信息維度。在預(yù)測過程中,DMTHNDM算法利用網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰居信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過資源傳播的方式計(jì)算節(jié)點(diǎn)對(duì)之間的關(guān)聯(lián)得分。算法假設(shè)節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度與它們之間的資源傳播路徑和傳播量有關(guān),從源節(jié)點(diǎn)出發(fā),沿著網(wǎng)絡(luò)中的邊進(jìn)行資源傳播,目標(biāo)節(jié)點(diǎn)接收到的資源量越多,則認(rèn)為這兩個(gè)節(jié)點(diǎn)之間存在關(guān)聯(lián)的可能性越大。通過這種方式,DMTHNDM算法能夠有效挖掘網(wǎng)絡(luò)中潛在的miRNA-疾病關(guān)聯(lián)關(guān)系,提升預(yù)測性能。TPGLDA算法則針對(duì)lncRNA-疾病相關(guān)性預(yù)測,構(gòu)建了“l(fā)ncRNA-disease-gene”異質(zhì)性網(wǎng)絡(luò)。該算法整合了lncRNA表達(dá)譜信息與疾病的表型信息,有效解決了網(wǎng)絡(luò)稀疏、孤立節(jié)點(diǎn)較多的問題。在網(wǎng)絡(luò)構(gòu)建過程中,將lncRNA、疾病和基因作為節(jié)點(diǎn),以lncRNA-疾病、lncRNA-基因、疾病-基因之間的相互作用關(guān)系為邊。在預(yù)測時(shí),TPGLDA算法基于拉普拉斯正則化最小二乘法進(jìn)行鏈路預(yù)測。它將網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊轉(zhuǎn)化為矩陣形式,通過求解一個(gè)優(yōu)化問題,得到節(jié)點(diǎn)的低維表示。在這個(gè)優(yōu)化問題中,拉普拉斯正則化項(xiàng)用于保持節(jié)點(diǎn)在網(wǎng)絡(luò)中的局部結(jié)構(gòu)信息,最小二乘項(xiàng)用于最小化預(yù)測值與真實(shí)值之間的誤差。通過這種方式,TPGLDA算法能夠?qū)W習(xí)到節(jié)點(diǎn)在網(wǎng)絡(luò)中的特征表示,從而預(yù)測lncRNA-疾病節(jié)點(diǎn)對(duì)之間的潛在關(guān)聯(lián)。該算法還考慮了lncRNA表達(dá)譜信息和疾病表型信息,將這些信息融入到節(jié)點(diǎn)的特征表示中,進(jìn)一步提高了預(yù)測的準(zhǔn)確性。通過對(duì)lncRNA表達(dá)譜數(shù)據(jù)的分析,能夠了解lncRNA在不同組織和疾病狀態(tài)下的表達(dá)變化,從而為預(yù)測提供更豐富的信息;疾病表型信息則有助于更準(zhǔn)確地刻畫疾病的特征,提高預(yù)測的針對(duì)性。四、數(shù)據(jù)處理與網(wǎng)絡(luò)構(gòu)建4.1數(shù)據(jù)來源與收集在miRNA-疾病相關(guān)性預(yù)測的數(shù)據(jù)收集方面,miRNA-疾病相互作用數(shù)據(jù)主要來源于權(quán)威數(shù)據(jù)庫HMDD(HumanMicroRNADiseaseDatabase)。該數(shù)據(jù)庫是一個(gè)手工收集整理的miRNA與疾病相關(guān)聯(lián)的數(shù)據(jù)庫,截至最新版本V3.2,共包含1206個(gè)miRNA基因、893種疾病以及35547個(gè)miRNA與疾病的關(guān)聯(lián)數(shù)據(jù),并且對(duì)于每個(gè)miRNA與疾病之間的關(guān)聯(lián),都有對(duì)應(yīng)的文獻(xiàn)及pubmedID,保證了數(shù)據(jù)的可靠性和可追溯性。通過該數(shù)據(jù)庫的Browse功能,可以從miRNA和disease兩個(gè)角度出發(fā),全面查看數(shù)據(jù)庫中的內(nèi)容,為研究提供了便利。miRNA-靶基因相互作用數(shù)據(jù)則主要從ENCORI(TheEncyclopediaofRNAInteractomes)數(shù)據(jù)庫獲取。ENCORI是一個(gè)集成數(shù)據(jù)庫,致力于提供RNA分子間的互作信息,尤其是miRNA、lncRNA、mRNA等之間的互作數(shù)據(jù)。其優(yōu)勢在于整合了多個(gè)數(shù)據(jù)庫的數(shù)據(jù),為研究miRNA-靶基因相互作用提供了豐富的數(shù)據(jù)資源。在該數(shù)據(jù)庫中,用戶可以通過查詢特定miRNA的靶基因,或者查看某個(gè)基因的潛在調(diào)控miRNA,深入了解miRNA在基因調(diào)控網(wǎng)絡(luò)中的作用。例如,通過輸入特定miRNA名稱,可獲取其對(duì)應(yīng)的靶基因列表,以及兩者之間的相互作用信息,包括結(jié)合位點(diǎn)、調(diào)控方式等。對(duì)于lncRNA-疾病相關(guān)性預(yù)測的數(shù)據(jù)收集,lncRNA表達(dá)譜數(shù)據(jù)來源于GEO(GeneExpressionOmnibus)數(shù)據(jù)庫。GEO是一個(gè)公共的功能基因組學(xué)數(shù)據(jù)存儲(chǔ)庫,收錄了大量來自不同實(shí)驗(yàn)平臺(tái)的基因表達(dá)數(shù)據(jù),其中包括眾多l(xiāng)ncRNA的表達(dá)譜數(shù)據(jù)。這些數(shù)據(jù)涵蓋了多種組織和疾病狀態(tài)下lncRNA的表達(dá)情況,通過對(duì)這些數(shù)據(jù)的分析,可以了解lncRNA在不同生理病理?xiàng)l件下的表達(dá)變化,為研究lncRNA-疾病相關(guān)性提供重要線索。例如,在研究某種癌癥與lncRNA的關(guān)系時(shí),可以從GEO數(shù)據(jù)庫中獲取該癌癥組織和正常組織中l(wèi)ncRNA的表達(dá)譜數(shù)據(jù),對(duì)比分析兩者之間的差異,篩選出與該癌癥相關(guān)的差異表達(dá)lncRNA。疾病表型特征數(shù)據(jù)主要來源于OMIM(OnlineMendelianInheritanceinMan)數(shù)據(jù)庫。OMIM是一個(gè)全面的人類基因和遺傳疾病數(shù)據(jù)庫,包含了大量疾病的臨床特征、遺傳模式、分子機(jī)制等信息。這些疾病表型特征數(shù)據(jù)對(duì)于準(zhǔn)確刻畫疾病的特征,深入理解疾病的本質(zhì),以及研究lncRNA-疾病相關(guān)性具有重要意義。通過OMIM數(shù)據(jù)庫,可以獲取特定疾病的詳細(xì)表型信息,如癥狀、體征、發(fā)病年齡、遺傳方式等,為后續(xù)的研究提供全面的疾病背景知識(shí)。lncRNA-疾病相互作用數(shù)據(jù)從LncRNADisease數(shù)據(jù)庫收集。LncRNADisease是一個(gè)專門收錄lncRNA-疾病關(guān)聯(lián)信息的數(shù)據(jù)庫,目前已更新至3.0版本,收錄了25440條實(shí)驗(yàn)支持的lncRNA/circRNA-疾病關(guān)聯(lián)條目,涵蓋6066種lncRNA、10732種circrna和566種疾病。該數(shù)據(jù)庫將所有關(guān)聯(lián)歸納為一般關(guān)聯(lián)和因果關(guān)聯(lián)兩類,為研究lncRNA-疾病相互作用提供了系統(tǒng)、全面的數(shù)據(jù)支持。在該數(shù)據(jù)庫中,可以通過輸入lncRNA或疾病名稱,查詢兩者之間的關(guān)聯(lián)信息,包括關(guān)聯(lián)類型、實(shí)驗(yàn)驗(yàn)證方法、參考文獻(xiàn)等?;?疾病相互作用數(shù)據(jù)則來源于DisGeNET數(shù)據(jù)庫。DisGeNET是一個(gè)整合了基因-疾病關(guān)聯(lián)信息的數(shù)據(jù)庫,包含了從多個(gè)數(shù)據(jù)源收集的基因與疾病之間的關(guān)聯(lián)數(shù)據(jù)。這些數(shù)據(jù)對(duì)于研究基因在疾病發(fā)生發(fā)展中的作用,以及基因與lncRNA在疾病中的協(xié)同作用具有重要價(jià)值。通過DisGeNET數(shù)據(jù)庫,可以獲取特定基因與疾病的關(guān)聯(lián)信息,以及這些關(guān)聯(lián)的證據(jù)來源和可信度評(píng)估,為研究lncRNA-疾病相關(guān)性提供了重要的基因?qū)用娴臄?shù)據(jù)支持。4.2數(shù)據(jù)預(yù)處理在獲取了豐富的數(shù)據(jù)來源后,對(duì)這些原始數(shù)據(jù)進(jìn)行清洗、去噪和標(biāo)準(zhǔn)化等預(yù)處理操作至關(guān)重要,這能有效提升數(shù)據(jù)質(zhì)量,為后續(xù)分析奠定堅(jiān)實(shí)基礎(chǔ)。對(duì)于miRNA-疾病相關(guān)性預(yù)測數(shù)據(jù),首先處理miRNA-疾病相互作用數(shù)據(jù)。從HMDD數(shù)據(jù)庫獲取的數(shù)據(jù)雖較為權(quán)威,但仍可能存在重復(fù)記錄。通過編寫Python腳本,利用pandas庫中的drop_duplicates函數(shù),基于miRNA和疾病的唯一標(biāo)識(shí)進(jìn)行去重操作,確保數(shù)據(jù)的唯一性。數(shù)據(jù)中可能存在一些錯(cuò)誤標(biāo)注或不完整的記錄,如某些miRNA-疾病關(guān)聯(lián)信息中缺少文獻(xiàn)引用或pubmedID,這些數(shù)據(jù)的可靠性存疑,因此采用人工審查與規(guī)則匹配相結(jié)合的方式進(jìn)行處理。對(duì)于缺少關(guān)鍵信息的記錄,若無法通過補(bǔ)充檢索獲取完整信息,則將其刪除;對(duì)于格式不規(guī)范的數(shù)據(jù),按照統(tǒng)一格式進(jìn)行修正。在處理miRNA-靶基因相互作用數(shù)據(jù)時(shí),由于從ENCORI數(shù)據(jù)庫獲取的數(shù)據(jù)可能存在噪聲,如一些低可信度的預(yù)測結(jié)果或錯(cuò)誤注釋的靶基因,需要進(jìn)行去噪處理。利用數(shù)據(jù)庫中提供的實(shí)驗(yàn)支持信息,如CLIP-seq實(shí)驗(yàn)數(shù)量、degradome-seq實(shí)驗(yàn)數(shù)量等,設(shè)定閾值,僅保留實(shí)驗(yàn)支持強(qiáng)度較高的數(shù)據(jù)。對(duì)于一些存在矛盾或沖突的記錄,如不同預(yù)測程序?qū)ν籱iRNA-靶基因?qū)Φ念A(yù)測結(jié)果不一致,通過綜合分析多個(gè)預(yù)測程序的結(jié)果以及相關(guān)文獻(xiàn),進(jìn)行人工判斷和修正。為了使數(shù)據(jù)在后續(xù)分析中更具可比性,對(duì)miRNA-靶基因相互作用數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。將所有基因ID統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的EntrezGeneID,使用biopython庫中的相關(guān)工具,通過基因名稱或其他ID類型進(jìn)行映射轉(zhuǎn)換。對(duì)miRNA名稱也進(jìn)行統(tǒng)一規(guī)范,確保所有miRNA名稱符合標(biāo)準(zhǔn)命名規(guī)則。對(duì)于lncRNA-疾病相關(guān)性預(yù)測數(shù)據(jù),在處理lncRNA表達(dá)譜數(shù)據(jù)時(shí),由于GEO數(shù)據(jù)庫中數(shù)據(jù)來源多樣,不同實(shí)驗(yàn)平臺(tái)獲取的lncRNA表達(dá)譜數(shù)據(jù)可能存在批次效應(yīng)。采用ComBat算法進(jìn)行批次效應(yīng)校正,該算法通過估計(jì)和校正批次效應(yīng)的大小,使不同批次的數(shù)據(jù)具有可比性。利用R語言中的limma包實(shí)現(xiàn)ComBat算法,對(duì)lncRNA表達(dá)譜數(shù)據(jù)進(jìn)行處理,有效消除了批次效應(yīng)的影響。在處理疾病表型特征數(shù)據(jù)時(shí),從OMIM數(shù)據(jù)庫獲取的疾病表型特征數(shù)據(jù)可能存在描述不一致或模糊的情況。通過構(gòu)建疾病表型本體(DiseasePhenotypeOntology),將疾病表型特征進(jìn)行標(biāo)準(zhǔn)化分類和編碼。對(duì)于一些模糊的描述,參考醫(yī)學(xué)專業(yè)術(shù)語詞典和相關(guān)文獻(xiàn),進(jìn)行明確和細(xì)化。在處理lncRNA-疾病相互作用數(shù)據(jù)時(shí),從LncRNADisease數(shù)據(jù)庫獲取的數(shù)據(jù)存在數(shù)據(jù)不平衡問題,即已知的lncRNA-疾病關(guān)聯(lián)數(shù)量相對(duì)較少,而潛在的未發(fā)現(xiàn)關(guān)聯(lián)數(shù)量巨大。采用過采樣和欠采樣相結(jié)合的方法進(jìn)行處理。對(duì)于正樣本(已知的lncRNA-疾病關(guān)聯(lián)),使用SMOTE(SyntheticMinorityOver-samplingTechnique)算法進(jìn)行過采樣,通過生成新的合成樣本,增加正樣本的數(shù)量;對(duì)于負(fù)樣本(未發(fā)現(xiàn)關(guān)聯(lián)的lncRNA-疾病對(duì)),采用隨機(jī)欠采樣的方法,減少負(fù)樣本的數(shù)量,使正負(fù)樣本比例達(dá)到相對(duì)平衡。在處理基因-疾病相互作用數(shù)據(jù)時(shí),從DisGeNET數(shù)據(jù)庫獲取的數(shù)據(jù)中可能存在冗余信息,如同一基因-疾病關(guān)聯(lián)在不同數(shù)據(jù)源中重復(fù)記錄。利用數(shù)據(jù)庫中提供的證據(jù)級(jí)別信息,優(yōu)先保留證據(jù)級(jí)別高的記錄,刪除冗余的低證據(jù)級(jí)別記錄。對(duì)基因-疾病相互作用數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將基因ID統(tǒng)一轉(zhuǎn)換為EntrezGeneID,疾病名稱統(tǒng)一映射到標(biāo)準(zhǔn)的疾病本體(DiseaseOntology)術(shù)語。4.3異質(zhì)性網(wǎng)絡(luò)構(gòu)建在miRNA-疾病相關(guān)性預(yù)測中,構(gòu)建“disease-miRNA-target”異質(zhì)性網(wǎng)絡(luò)。以從HMDD數(shù)據(jù)庫獲取的miRNA-疾病相互作用數(shù)據(jù)和從ENCORI數(shù)據(jù)庫獲取的miRNA-靶基因相互作用數(shù)據(jù)為基礎(chǔ)。將疾病、miRNA和靶基因分別作為不同類型的節(jié)點(diǎn)。若存在miRNA-疾病相互作用關(guān)系,則在對(duì)應(yīng)的miRNA節(jié)點(diǎn)和疾病節(jié)點(diǎn)之間建立邊;若存在miRNA-靶基因相互作用關(guān)系,則在對(duì)應(yīng)的miRNA節(jié)點(diǎn)和靶基因節(jié)點(diǎn)之間建立邊。這樣就構(gòu)建起了包含三種類型節(jié)點(diǎn)和兩種類型邊的異質(zhì)性網(wǎng)絡(luò)。為了更準(zhǔn)確地反映節(jié)點(diǎn)之間的相互作用強(qiáng)度,根據(jù)數(shù)據(jù)中的相關(guān)信息為邊賦予權(quán)重。對(duì)于miRNA-疾病邊,若該miRNA-疾病關(guān)聯(lián)有多個(gè)文獻(xiàn)支持,則根據(jù)文獻(xiàn)數(shù)量對(duì)邊的權(quán)重進(jìn)行調(diào)整,文獻(xiàn)數(shù)量越多,權(quán)重越大;對(duì)于miRNA-靶基因邊,根據(jù)實(shí)驗(yàn)支持的強(qiáng)度(如CLIP-seq實(shí)驗(yàn)數(shù)量、degradome-seq實(shí)驗(yàn)數(shù)量等)來確定權(quán)重,實(shí)驗(yàn)支持強(qiáng)度越高,權(quán)重越大。在lncRNA-疾病相關(guān)性預(yù)測中,構(gòu)建“l(fā)ncRNA-disease-gene”異質(zhì)性網(wǎng)絡(luò)?;趶腖ncRNADisease數(shù)據(jù)庫獲取的lncRNA-疾病相互作用數(shù)據(jù)和從DisGeNET數(shù)據(jù)庫獲取的基因-疾病相互作用數(shù)據(jù)。把lncRNA、疾病和基因作為不同類型的節(jié)點(diǎn)。當(dāng)存在lncRNA-疾病相互作用時(shí),在對(duì)應(yīng)的lncRNA節(jié)點(diǎn)和疾病節(jié)點(diǎn)之間建立邊;當(dāng)存在基因-疾病相互作用時(shí),在對(duì)應(yīng)的基因節(jié)點(diǎn)和疾病節(jié)點(diǎn)之間建立邊。考慮到lncRNA表達(dá)譜信息和疾病表型信息對(duì)預(yù)測的重要性,將這些信息融入網(wǎng)絡(luò)構(gòu)建中。通過計(jì)算lncRNA表達(dá)譜相似性和疾病語義相似性,為lncRNA節(jié)點(diǎn)和疾病節(jié)點(diǎn)賦予相應(yīng)的屬性。對(duì)于lncRNA節(jié)點(diǎn),其屬性包含在不同組織和疾病狀態(tài)下的表達(dá)水平信息;對(duì)于疾病節(jié)點(diǎn),其屬性包含疾病的臨床特征、遺傳模式等表型信息。在確定邊的權(quán)重時(shí),對(duì)于lncRNA-疾病邊,若該lncRNA-疾病關(guān)聯(lián)有因果關(guān)系的證據(jù),則給予較高權(quán)重;對(duì)于基因-疾病邊,根據(jù)基因在疾病發(fā)生發(fā)展中的作用程度(如基因的致病突變頻率、基因與疾病的關(guān)聯(lián)強(qiáng)度等)來確定權(quán)重。五、基于異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法的非編碼RNA-疾病相關(guān)性預(yù)測模型5.1miRNA-疾病相關(guān)性預(yù)測模型5.1.1DMTHNDM算法詳細(xì)步驟在構(gòu)建好“disease-miRNA-target”異質(zhì)性網(wǎng)絡(luò)后,運(yùn)用DMTHNDM算法進(jìn)行潛在的miRNA-疾病相關(guān)性預(yù)測,具體步驟如下:初始化資源分布:將網(wǎng)絡(luò)中所有節(jié)點(diǎn)的初始資源值設(shè)為0,對(duì)于每個(gè)疾病節(jié)點(diǎn)d_i,賦予其單位資源,即r(d_i)=1,其中r(d_i)表示疾病節(jié)點(diǎn)d_i的資源值。這一初始化操作基于疾病節(jié)點(diǎn)在預(yù)測過程中的起始作用,將其作為資源傳播的源頭,為后續(xù)的資源傳播奠定基礎(chǔ)。資源傳播:從疾病節(jié)點(diǎn)開始,按照一定的傳播規(guī)則將資源傳播到與之相連的miRNA節(jié)點(diǎn)和靶基因節(jié)點(diǎn)。對(duì)于疾病節(jié)點(diǎn)d_i和與之相連的miRNA節(jié)點(diǎn)m_j,資源從d_i傳播到m_j的量為t(d_i,m_j)=\frac{w(d_i,m_j)}{\sum_{k}w(d_i,k)}r(d_i),其中t(d_i,m_j)表示從疾病節(jié)點(diǎn)d_i傳播到miRNA節(jié)點(diǎn)m_j的資源量,w(d_i,m_j)表示疾病節(jié)點(diǎn)d_i和miRNA節(jié)點(diǎn)m_j之間邊的權(quán)重,\sum_{k}w(d_i,k)表示疾病節(jié)點(diǎn)d_i與所有相連節(jié)點(diǎn)之間邊的權(quán)重之和。同理,對(duì)于疾病節(jié)點(diǎn)d_i和與之相連的靶基因節(jié)點(diǎn)g_k,資源從d_i傳播到g_k的量為t(d_i,g_k)=\frac{w(d_i,g_k)}{\sum_{l}w(d_i,l)}r(d_i),其中t(d_i,g_k)表示從疾病節(jié)點(diǎn)d_i傳播到靶基因節(jié)點(diǎn)g_k的資源量,w(d_i,g_k)表示疾病節(jié)點(diǎn)d_i和靶基因節(jié)點(diǎn)g_k之間邊的權(quán)重,\sum_{l}w(d_i,l)表示疾病節(jié)點(diǎn)d_i與所有相連節(jié)點(diǎn)之間邊的權(quán)重之和。這一傳播過程依據(jù)邊的權(quán)重來分配資源,權(quán)重越大,傳播的資源量越多,體現(xiàn)了不同邊在資源傳播中的重要性差異。資源匯聚與更新:miRNA節(jié)點(diǎn)和靶基因節(jié)點(diǎn)接收來自疾病節(jié)點(diǎn)傳播的資源后,將其匯聚。對(duì)于miRNA節(jié)點(diǎn)m_j,其匯聚后的資源值r(m_j)=\sum_{i}t(d_i,m_j),其中r(m_j)表示miRNA節(jié)點(diǎn)m_j匯聚后的資源值。對(duì)于靶基因節(jié)點(diǎn)g_k,其匯聚后的資源值r(g_k)=\sum_{i}t(d_i,g_k)。然后,miRNA節(jié)點(diǎn)和靶基因節(jié)點(diǎn)再將自身匯聚后的資源按照相同的傳播規(guī)則傳播給與之相連的其他節(jié)點(diǎn)。如miRNA節(jié)點(diǎn)m_j將資源傳播給與之相連的靶基因節(jié)點(diǎn)g_k時(shí),傳播的資源量為t(m_j,g_k)=\frac{w(m_j,g_k)}{\sum_{l}w(m_j,l)}r(m_j),其中t(m_j,g_k)表示從miRNA節(jié)點(diǎn)m_j傳播到靶基因節(jié)點(diǎn)g_k的資源量,w(m_j,g_k)表示miRNA節(jié)點(diǎn)m_j和靶基因節(jié)點(diǎn)g_k之間邊的權(quán)重,\sum_{l}w(m_j,l)表示miRNA節(jié)點(diǎn)m_j與所有相連節(jié)點(diǎn)之間邊的權(quán)重之和。通過多次迭代傳播,使得資源在網(wǎng)絡(luò)中充分?jǐn)U散,充分利用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息。計(jì)算關(guān)聯(lián)得分:經(jīng)過一定次數(shù)的迭代傳播后,停止資源傳播。計(jì)算每個(gè)miRNA-疾病節(jié)點(diǎn)對(duì)之間的關(guān)聯(lián)得分。對(duì)于miRNA節(jié)點(diǎn)m_j和疾病節(jié)點(diǎn)d_i,其關(guān)聯(lián)得分S(m_j,d_i)根據(jù)miRNA節(jié)點(diǎn)m_j從疾病節(jié)點(diǎn)d_i接收的資源量來確定。具體計(jì)算方式為S(m_j,d_i)=\frac{r_{i}(m_j)}{\sum_{k}r_{i}(m_k)},其中r_{i}(m_j)表示疾病節(jié)點(diǎn)d_i傳播到miRNA節(jié)點(diǎn)m_j的最終資源量,\sum_{k}r_{i}(m_k)表示疾病節(jié)點(diǎn)d_i傳播到所有與之相連的miRNA節(jié)點(diǎn)的最終資源量之和。關(guān)聯(lián)得分越高,表明該miRNA-疾病節(jié)點(diǎn)對(duì)之間存在關(guān)聯(lián)的可能性越大。通過這種方式,DMTHNDM算法能夠充分利用異質(zhì)性網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰居信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),挖掘潛在的miRNA-疾病關(guān)聯(lián)關(guān)系。5.1.2模型性能評(píng)估與驗(yàn)證為了全面、準(zhǔn)確地評(píng)估基于DMTHNDM算法的miRNA-疾病相關(guān)性預(yù)測模型的性能,采用留一法交叉驗(yàn)證(LOOCV)和五折交叉驗(yàn)證(5-foldCV)兩種方法進(jìn)行評(píng)估。在留一法交叉驗(yàn)證中,每次從已知的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)集中選取一對(duì)關(guān)聯(lián)數(shù)據(jù)作為測試集,其余數(shù)據(jù)作為訓(xùn)練集。利用訓(xùn)練集構(gòu)建“disease-miRNA-target”異質(zhì)性網(wǎng)絡(luò),并運(yùn)用DMTHNDM算法進(jìn)行訓(xùn)練和預(yù)測,得到測試集中miRNA-疾病節(jié)點(diǎn)對(duì)的預(yù)測關(guān)聯(lián)得分。將預(yù)測得分與真實(shí)的關(guān)聯(lián)情況(已知測試集中的miRNA-疾病對(duì)是真實(shí)關(guān)聯(lián))進(jìn)行比較,計(jì)算相關(guān)性能指標(biāo)。重復(fù)這一過程,直到所有的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)都被用作測試集一次。在五折交叉驗(yàn)證中,將已知的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)集隨機(jī)劃分為五個(gè)大小相近的子集。每次選取其中一個(gè)子集作為測試集,其余四個(gè)子集作為訓(xùn)練集。同樣利用訓(xùn)練集構(gòu)建異質(zhì)性網(wǎng)絡(luò)并進(jìn)行訓(xùn)練預(yù)測,計(jì)算測試集的性能指標(biāo)。重復(fù)五次,使得每個(gè)子集都有機(jī)會(huì)作為測試集,最后將五次的性能指標(biāo)取平均值,得到最終的評(píng)估結(jié)果。選擇準(zhǔn)確率(Accuracy)、召回率(Recall)、F1值(F1-score)、受試者工作特征曲線(ROC)和曲線下面積(AUC)作為性能評(píng)估指標(biāo)。準(zhǔn)確率是指預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例,計(jì)算公式為Accuracy=\frac{TP+TN}{TP+TN+FP+FN},其中TP表示真正例(預(yù)測為正且實(shí)際為正的樣本數(shù)),TN表示真反例(預(yù)測為反且實(shí)際為反的樣本數(shù)),F(xiàn)P表示假正例(預(yù)測為正但實(shí)際為反的樣本數(shù)),F(xiàn)N表示假反例(預(yù)測為反但實(shí)際為正的樣本數(shù))。召回率是指實(shí)際為正的樣本中被正確預(yù)測為正的比例,計(jì)算公式為Recall=\frac{TP}{TP+FN}。F1值是綜合考慮準(zhǔn)確率和召回率的指標(biāo),它是準(zhǔn)確率和召回率的調(diào)和平均數(shù),計(jì)算公式為F1-score=\frac{2\timesPrecision\timesRecall}{Precision+Recall},其中Precision=\frac{TP}{TP+FP}。ROC曲線以假正率(FPR)為橫坐標(biāo),真正率(TPR)為縱坐標(biāo)繪制而成,其中FPR=\frac{FP}{FP+TN},TPR=\frac{TP}{TP+FN}。AUC是ROC曲線下的面積,AUC值越大,說明模型的性能越好,一般認(rèn)為AUC在0.5-1之間,當(dāng)AUC=0.5時(shí),模型的預(yù)測效果等同于隨機(jī)猜測;當(dāng)AUC=1時(shí),模型能夠完美區(qū)分正樣本和負(fù)樣本。通過留一法交叉驗(yàn)證和五折交叉驗(yàn)證,得到基于DMTHNDM算法的預(yù)測模型的性能指標(biāo)結(jié)果。若模型在多次交叉驗(yàn)證中,準(zhǔn)確率、召回率和F1值都較高,且AUC值接近1,說明模型具有較高的預(yù)測準(zhǔn)確性和可靠性,能夠有效地預(yù)測潛在的miRNA-疾病相關(guān)性。若模型的性能指標(biāo)不理想,則需要進(jìn)一步分析原因,可能是數(shù)據(jù)質(zhì)量問題、網(wǎng)絡(luò)構(gòu)建不合理、算法參數(shù)設(shè)置不當(dāng)?shù)?。針?duì)這些問題,可以采取相應(yīng)的改進(jìn)措施,如進(jìn)一步清洗和預(yù)處理數(shù)據(jù),優(yōu)化異質(zhì)性網(wǎng)絡(luò)的構(gòu)建方法,調(diào)整DMTHNDM算法的參數(shù)(如迭代次數(shù)、資源傳播的衰減系數(shù)等),以提高模型的性能。5.2lncRNA-疾病相關(guān)性預(yù)測模型5.2.1TPGLDA算法改進(jìn)與應(yīng)用為解決網(wǎng)絡(luò)稀疏問題,本研究對(duì)TPGLDA算法進(jìn)行了多方面改進(jìn)。在數(shù)據(jù)融合策略上,創(chuàng)新性地采用基于注意力機(jī)制的數(shù)據(jù)融合方式。傳統(tǒng)的TPGLDA算法在整合lncRNA表達(dá)譜信息與疾病的表型信息時(shí),往往采用簡單的拼接或加權(quán)平均方式,未能充分考慮不同數(shù)據(jù)類型對(duì)預(yù)測結(jié)果的重要程度差異。本研究引入注意力機(jī)制,為lncRNA表達(dá)譜信息和疾病表型信息分別分配動(dòng)態(tài)權(quán)重。通過構(gòu)建注意力網(wǎng)絡(luò),輸入lncRNA和疾病的特征向量,計(jì)算得到不同信息的注意力權(quán)重。在處理癌癥相關(guān)的lncRNA-疾病預(yù)測時(shí),對(duì)于與癌癥發(fā)生發(fā)展密切相關(guān)的lncRNA表達(dá)譜特征,注意力機(jī)制會(huì)賦予較高權(quán)重,使其在預(yù)測中發(fā)揮更大作用;對(duì)于能夠準(zhǔn)確反映癌癥特征的疾病表型信息,也會(huì)給予較高權(quán)重。這樣的改進(jìn)使得模型能夠更合理地融合多源信息,提高預(yù)測的準(zhǔn)確性。在網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化方面,對(duì)“l(fā)ncRNA-disease-gene”異質(zhì)性網(wǎng)絡(luò)進(jìn)行了細(xì)化和拓展。傳統(tǒng)網(wǎng)絡(luò)中,節(jié)點(diǎn)之間的連接僅基于已知的相互作用關(guān)系,忽略了潛在的關(guān)聯(lián)。本研究通過引入輔助節(jié)點(diǎn)和邊,增強(qiáng)網(wǎng)絡(luò)的連通性和信息傳遞能力。引入“功能模塊”輔助節(jié)點(diǎn),這些節(jié)點(diǎn)代表與lncRNA或疾病相關(guān)的特定生物學(xué)功能模塊。若某些lncRNA和疾病都與細(xì)胞增殖功能模塊相關(guān),則通過輔助節(jié)點(diǎn)將它們間接連接起來。在構(gòu)建邊時(shí),不僅考慮實(shí)驗(yàn)驗(yàn)證的相互作用,還利用文本挖掘和機(jī)器學(xué)習(xí)方法預(yù)測潛在的邊。通過分析相關(guān)文獻(xiàn),挖掘出lncRNA與基因之間潛在的調(diào)控關(guān)系,并在網(wǎng)絡(luò)中添加相應(yīng)的邊。這種網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,豐富了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),為算法提供了更多的信息,有助于提高預(yù)測性能。在預(yù)測過程中,改進(jìn)后的TPGLDA算法首先利用優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu)和融合的數(shù)據(jù)進(jìn)行特征學(xué)習(xí)。通過基于注意力機(jī)制的數(shù)據(jù)融合,得到包含豐富信息的節(jié)點(diǎn)特征表示。利用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)對(duì)節(jié)點(diǎn)特征進(jìn)行學(xué)習(xí)和更新,使節(jié)點(diǎn)能夠充分吸收鄰居節(jié)點(diǎn)的信息。然后,基于拉普拉斯正則化最小二乘法進(jìn)行鏈路預(yù)測。在優(yōu)化目標(biāo)函數(shù)中,進(jìn)一步改進(jìn)拉普拉斯正則化項(xiàng),使其更好地適應(yīng)異質(zhì)性網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)。引入自適應(yīng)正則化參數(shù),根據(jù)網(wǎng)絡(luò)中節(jié)點(diǎn)的度和連接強(qiáng)度動(dòng)態(tài)調(diào)整正則化參數(shù)的大小。對(duì)于連接較少的孤立節(jié)點(diǎn),適當(dāng)減小正則化參數(shù),使其在預(yù)測中能夠更多地依賴自身的特征信息;對(duì)于連接較多的核心節(jié)點(diǎn),適當(dāng)增大正則化參數(shù),以保持網(wǎng)絡(luò)的整體穩(wěn)定性。通過這種方式,改進(jìn)后的TPGLDA算法能夠更準(zhǔn)確地預(yù)測lncRNA-疾病節(jié)點(diǎn)對(duì)之間的潛在關(guān)聯(lián)。5.2.2與現(xiàn)有方法的性能比較將改進(jìn)后的TPGLDA算法與其他現(xiàn)有的lncRNA-疾病相關(guān)性預(yù)測方法進(jìn)行性能比較,以評(píng)估其優(yōu)勢和有效性。選擇了基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)(SVM)、邏輯斯蒂回歸(LR);基于深度學(xué)習(xí)的方法,如基于卷積神經(jīng)網(wǎng)絡(luò)的lncRNA-疾病關(guān)聯(lián)預(yù)測模型(CNNLDA)、基于圖卷積神經(jīng)網(wǎng)絡(luò)的lncRNA-疾病關(guān)聯(lián)預(yù)測模型(GCNLDA);以及基于網(wǎng)絡(luò)分析的其他方法,如基于隨機(jī)游走的lncRNA-疾病關(guān)聯(lián)預(yù)測模型(RWRlncD)、基于矩陣補(bǔ)全的lncRNA-疾病關(guān)聯(lián)預(yù)測模型(MFlda)等作為對(duì)比方法。在實(shí)驗(yàn)設(shè)置上,采用相同的數(shù)據(jù)集,包括從LncRNADisease數(shù)據(jù)庫獲取的lncRNA-疾病相互作用數(shù)據(jù),從GEO數(shù)據(jù)庫獲取的lncRNA表達(dá)譜數(shù)據(jù),從OMIM數(shù)據(jù)庫獲取的疾病表型特征數(shù)據(jù),從DisGeNET數(shù)據(jù)庫獲取的基因-疾病相互作用數(shù)據(jù)等。對(duì)所有方法進(jìn)行五折交叉驗(yàn)證,將數(shù)據(jù)集隨機(jī)劃分為五個(gè)大小相近的子集,每次選取其中一個(gè)子集作為測試集,其余四個(gè)子集作為訓(xùn)練集。利用訓(xùn)練集對(duì)各個(gè)方法進(jìn)行訓(xùn)練,在測試集上進(jìn)行預(yù)測,并計(jì)算相關(guān)性能指標(biāo)。性能評(píng)估指標(biāo)選擇準(zhǔn)確率(Accuracy)、召回率(Recall)、F1值(F1-score)、受試者工作特征曲線(ROC)和曲線下面積(AUC)。準(zhǔn)確率反映了預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例;召回率表示實(shí)際為正的樣本中被正確預(yù)測為正的比例;F1值綜合考慮了準(zhǔn)確率和召回率,是兩者的調(diào)和平均數(shù);ROC曲線以假正率(FPR)為橫坐標(biāo),真正率(TPR)為縱坐標(biāo)繪制而成,AUC是ROC曲線下的面積,AUC值越大,說明模型的性能越好。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的TPGLDA算法在各項(xiàng)性能指標(biāo)上均表現(xiàn)出色。在準(zhǔn)確率方面,TPGLDA算法達(dá)到了[X1],顯著高于SVM的[X2]、LR的[X3]、CNNLDA的[X4]、GCNLDA的[X5]、RWRlncD的[X6]和MFlda的[X7]。在召回率上,TPGLDA算法為[Y1],也優(yōu)于其他對(duì)比方法。F1值作為綜合評(píng)估指標(biāo),TPGLDA算法的[Z1]同樣高于其他方法。在ROC曲線和AUC值方面,TPGLDA算法的AUC達(dá)到了[W1],接近理想的完美預(yù)測模型(AUC=1),而其他方法的AUC值均低于TPGLDA算法。這表明改進(jìn)后的TPGLDA算法在預(yù)測lncRNA-疾病相關(guān)性時(shí),具有更高的準(zhǔn)確性、召回率和綜合性能,能夠更有效地識(shí)別潛在的lncRNA-疾病關(guān)聯(lián)關(guān)系。通過與現(xiàn)有方法的性能比較,充分驗(yàn)證了改進(jìn)后的TPGLDA算法在lncRNA-疾病相關(guān)性預(yù)測中的優(yōu)勢和有效性。六、案例分析與結(jié)果討論6.1具體疾病案例的非編碼RNA-疾病相關(guān)性預(yù)測以癌癥和心血管疾病這兩種具有代表性的疾病為例,深入展示基于異質(zhì)性網(wǎng)絡(luò)鏈路預(yù)測算法的非編碼RNA-疾病相關(guān)性預(yù)測模型在實(shí)際疾病研究中的應(yīng)用及預(yù)測結(jié)果。在癌癥方面,選擇肺癌作為具體研究對(duì)象。肺癌是全球范圍內(nèi)發(fā)病率和死亡率最高的惡性腫瘤之一,嚴(yán)重威脅人類健康。通過構(gòu)建“disease-miRNA-target”異質(zhì)性網(wǎng)絡(luò),運(yùn)用DMTHNDM算法進(jìn)行潛在的miRNA-肺癌相關(guān)性預(yù)測。在構(gòu)建網(wǎng)絡(luò)時(shí),從權(quán)威數(shù)據(jù)庫獲取了大量與肺癌相關(guān)的miRNA-疾病相互作用數(shù)據(jù)以及miRNA-靶基因相互作用數(shù)據(jù)?;谶@些數(shù)據(jù),將肺癌、miRNA和靶基因分別作為不同類型的節(jié)點(diǎn),根據(jù)它們之間的相互作用關(guān)系建立邊,并為邊賦予相應(yīng)權(quán)重。在預(yù)測過程中,算法從肺癌節(jié)點(diǎn)開始進(jìn)行資源傳播,通過多次迭代,充分利用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息,計(jì)算每個(gè)miRNA-肺癌節(jié)點(diǎn)對(duì)之間的關(guān)聯(lián)得分。預(yù)測結(jié)果顯示,發(fā)現(xiàn)了多個(gè)與肺癌潛在相關(guān)的miRNA。其中,miR-195在預(yù)測結(jié)果中與肺癌的關(guān)聯(lián)得分較高。查閱相關(guān)文獻(xiàn)發(fā)現(xiàn),已有研究表明miR-195在肺癌組織中表達(dá)顯著下調(diào),它可通過靶向調(diào)控多個(gè)癌基因(如Bcl-2、CCND1等),抑制肺癌細(xì)胞的增殖、遷移和侵襲,發(fā)揮抑癌作用。這一結(jié)果驗(yàn)證了預(yù)測模型的有效性,說明該模型能夠準(zhǔn)確預(yù)測出與肺癌相關(guān)的潛在miRNA。此外,預(yù)測結(jié)果還發(fā)現(xiàn)了一些尚未有明確研究報(bào)道的miRNA與肺癌的潛在關(guān)聯(lián),如miR-671-5p。這為后續(xù)的實(shí)驗(yàn)研究提供了有價(jià)值的線索,研究人員可進(jìn)一步通過實(shí)驗(yàn)驗(yàn)證miR-671-5p與肺癌的關(guān)系,探索其在肺癌發(fā)生發(fā)展中的作用機(jī)制,為肺癌的診斷和治療提供新的靶點(diǎn)。在心血管疾病方面,以冠心病為例進(jìn)行研究。冠心病是一種常見的心血管疾病,其發(fā)病機(jī)制復(fù)雜,與多種因素相關(guān)。構(gòu)建“l(fā)ncRNA-disease-gene”異質(zhì)性網(wǎng)絡(luò),運(yùn)用改進(jìn)后的TPGLDA算法進(jìn)行潛在的lncRNA-冠心病相關(guān)性預(yù)測。在網(wǎng)絡(luò)構(gòu)建過程中,整合了lncRNA表達(dá)譜信息、疾病表型特征信息、lncRNA-疾病相互作用數(shù)據(jù)以及基因-疾病相互作用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年教師資格之中學(xué)教育知識(shí)與能力考試題庫300道含答案【培優(yōu)b卷】
- 2026年高校教師資格證之高等教育法規(guī)考試題庫含答案【突破訓(xùn)練】
- 2026年基金從業(yè)資格證考試題庫500道含答案(達(dá)標(biāo)題)
- 2026年大學(xué)生計(jì)算機(jī)考試題庫200道及一套答案
- 婦產(chǎn)科護(hù)理與分娩支持
- 《長方體和正方體的認(rèn)識(shí)》數(shù)學(xué)課件教案
- 天工大針織學(xué)課件第2篇 針織物組織與產(chǎn)品設(shè)計(jì)第9章 賈卡提花經(jīng)編織物及產(chǎn)品設(shè)計(jì)
- 企業(yè)安全員工作總結(jié)7篇
- 江西護(hù)理面試題庫及答案
- 省考疫情面試題目及答案
- 寬容和感恩的培訓(xùn)
- 廣東省汕頭市金平區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題
- 過敏性休克的搶救流程
- 常用機(jī)床電氣檢修課件 課題十一 T612 型臥式鏜床電氣檢修
- 全國人大機(jī)關(guān)直屬事業(yè)單位2026年度公開招聘工作人員考試模擬卷帶答案解析
- 云肩非遺模板
- 頭頸部腫瘤介紹
- 安全監(jiān)理工作總程序
- 2026年中國宏觀經(jīng)濟(jì)展望分析報(bào)告:底部夯實(shí)亮點(diǎn)引領(lǐng)未來方向
- 2025年新型健康飲品研發(fā)可行性研究報(bào)告及總結(jié)分析
- 竣工決算業(yè)務(wù)合同范本
評(píng)論
0/150
提交評(píng)論