版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號CN115171780B(65)同一申請的已公布的文獻(xiàn)號(73)專利權(quán)人四川大學(xué)地址610065四川省成都市武侯區(qū)一環(huán)路南一段24號(72)發(fā)明人朱敏周怡王心翌姚林(74)專利代理機(jī)構(gòu)成都禾創(chuàng)知家知識產(chǎn)權(quán)代理有限公司51284專利代理師劉凱topologicalfeatureeBioinformatics》.2022,第23卷(第6期),1-12.周怡.基于異質(zhì)圖學(xué)習(xí)的miRNA-疾病關(guān)聯(lián)預(yù)測研究.《萬方數(shù)據(jù)》.2025,1-98.王心翌.基于自注意力機(jī)制的RNA-蛋白質(zhì)相互作用預(yù)測研究.《中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫基礎(chǔ)科學(xué)輯》.2025,(第01期),A006-審查員朱原雨潤(54)發(fā)明名稱基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng)本發(fā)明公開了一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng),使用已經(jīng)經(jīng)過生物實驗驗證的長鏈非編碼RNA-疾病關(guān)聯(lián)數(shù)據(jù)來訓(xùn)練深度學(xué)習(xí)模型,并使用所述模型預(yù)測目標(biāo)長鏈非編碼RNA-疾病節(jié)點(diǎn)對的關(guān)聯(lián)關(guān)系;在特征提取階段,本發(fā)明基于已知關(guān)聯(lián)和相似性信息構(gòu)建異質(zhì)網(wǎng)絡(luò)的帶權(quán)鄰接矩陣,并進(jìn)一步提取其中的多跳拓?fù)渫诽卣鳎辉谀P碗A段,本發(fā)明使用自注意力機(jī)制構(gòu)建預(yù)測模型,賦予關(guān)鍵拓?fù)渫犯叩臋?quán)重以使網(wǎng)絡(luò)充分學(xué)習(xí)關(guān)鍵特征,進(jìn)而提升模型的預(yù)測精度;最后,在基準(zhǔn)數(shù)據(jù)集21.一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法,其特征在于,包括如2.根據(jù)權(quán)利要求1所述的基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法,其獲取疾病之間的父子關(guān)系并將其表示為有向無環(huán)圖;對于疾病t?,記T?是包含了t?及其設(shè)SV(t?)=teT?St?(t),SV(t?)=∑teT?St?(t);則疾病t?和t?之間的相似性的其中,SV(t?)和SV(t?)分別表示集合T?和T?的疾病語義貢獻(xiàn)值之和;3對于數(shù)據(jù)集中的1個長鏈非編碼RNA,計算其兩兩之間的相似性,獲得長鏈非編碼RNA相3.根據(jù)權(quán)利要求2所述的基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法,其S21:整合帶權(quán)鄰接矩陣:將長鏈非編碼RNA-疾病關(guān)聯(lián)矩陣Ap、長鏈非編碼RNA相似性矩陣S?和疾病相似性矩陣S,整合為異質(zhì)網(wǎng)絡(luò)的帶權(quán)鄰接矩陣A:S22:處理多跳鄰接矩陣:基于帶權(quán)鄰接矩陣A,按照如下計算過程,獲取歸一化后的多跳鄰接矩陣:的極大值;S23:拓?fù)涮卣魈崛。簩τ谀繕?biāo)長鏈非編碼RNA的第i個節(jié)點(diǎn)-疾病的第j個節(jié)點(diǎn),通過以下計算過程提取拓?fù)?.根據(jù)權(quán)利要求3所述的基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法,其S31:構(gòu)建基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)提取拓?fù)渫诽卣鳎核龌谧宰⒁饬C(jī)制的神經(jīng)網(wǎng)絡(luò)由N個相同的層組成,每層包含兩個子層:多頭自注意力子層和位置前饋網(wǎng)絡(luò)子層,每個子層的輸出通過殘差連接與層歸一化處理,且每個子層均生成維度為dode1的輸出;歸一化處理公式如下:4H(X)=LayerNorm(X+Subla基于點(diǎn)積的注意力包括三個矩陣輸入Q、K和V,其計算過程為:其中,√dk表示K的通道維度;而所述的多頭自注意力子層將基于點(diǎn)積的注意力的計算過程拆分為多頭;多頭注意力計算公式如下:每個頭的三個矩陣通過如下線性變化得到:為經(jīng)過線性變換之后的三個參數(shù)矩陣;所述位置前饋網(wǎng)絡(luò)子層包括兩個線性變換,中間通過ReLU激活函數(shù)激活:S33:預(yù)測關(guān)聯(lián)情況:將自注意力網(wǎng)絡(luò)的輸出矩陣Xencoded∈R(l+d)×dmodel展平為一維數(shù)組,再通過線性變換和sigmoid激活函數(shù)來計算長鏈非編碼RNA和疾病的預(yù)測關(guān)聯(lián)概率p,計算公式如下:p=sigmoid(flatten(Xencoded)Wout+b示將矩陣逐行首尾相連,展平為一維數(shù)組。5.根據(jù)權(quán)利要求4所述的基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法,其S41:采用隨機(jī)失活來減少模型的過擬合:S411:在計算矩陣X后,添加dropout函數(shù)處理矩陣X:5S412:在完成子層計算后,添加dropout函數(shù)處理輸出:其中,Sublayer(X)表示將輸入矩陣經(jīng)由多頭自注意力子層或位置前饋網(wǎng)絡(luò)子層處理;S413:在將輸出矩陣Xencodea∈R(l+d)×dmodel展平為一維數(shù)組后,添加dropout函數(shù)處理輸出:dropout(flatten(XencoS42:加速模型收斂:通過adam優(yōu)化器來加速模型收斂,采用交叉熵?fù)p失函數(shù)訓(xùn)練模型;6.一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測系統(tǒng),其特征在于,包括處理器,存儲器以及儲存在存儲器上的計算機(jī)程序,所述計算機(jī)程序在處理器上執(zhí)行實現(xiàn)權(quán)利要求1至5任一項所述方法。6基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng)技術(shù)領(lǐng)域[0001]本發(fā)明涉及生物信息技術(shù)領(lǐng)域,具體涉及一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng)。背景技術(shù)[0002]長鏈非編碼RNA是一種長度大于200個核苷酸的非編碼RNA。作為生物體內(nèi)重要的調(diào)控因子,長鏈非編碼RNA參與了許多關(guān)鍵的基因調(diào)控過程,與多種人類疾病的發(fā)生和發(fā)展密切相關(guān)。例如,膀胱癌的凋亡相關(guān)轉(zhuǎn)錄物(AATBC)通過調(diào)節(jié)橋粒相關(guān)蛋白(Pinin)促進(jìn)鼻咽癌的轉(zhuǎn)移。[0003]近年來,已有部分長鏈非編碼RNA-疾病關(guān)聯(lián)關(guān)系得到了生物濕實驗驗證。但是高昂的時間和資源成本大大限制了生物濕實驗方法的進(jìn)一步發(fā)展?;谝阎膶嶒灁?shù)據(jù),研究人員越來越多地利用計算方法預(yù)測長鏈非編碼RNA-疾病關(guān)聯(lián)關(guān)系,從而為生物濕實驗驗證提供可靠的指導(dǎo)。[0004]根據(jù)預(yù)測模型所使用的技術(shù)的類別,可以將該領(lǐng)域現(xiàn)有的計算方法分為兩類:基于傳統(tǒng)機(jī)器學(xué)習(xí)的預(yù)測方法與基于深度學(xué)習(xí)的預(yù)測方法。基于傳統(tǒng)機(jī)器學(xué)習(xí)的預(yù)測方法較早地被應(yīng)用于長鏈非編碼RNA-疾病關(guān)聯(lián)分析,通過矩陣運(yùn)算、網(wǎng)絡(luò)傳播和分類器算法,實現(xiàn)特征提取和二分類預(yù)測。深度學(xué)習(xí)具有強(qiáng)大的非線性擬合能力,是當(dāng)前計算方法構(gòu)建模型的首要選擇。相較于機(jī)器學(xué)習(xí),基于深度學(xué)習(xí)的預(yù)測方法在結(jié)構(gòu)上更加靈活,可以端到端地實現(xiàn)低維特征嵌入表示和分類預(yù)測,從而提高模型的預(yù)測準(zhǔn)確性。[0005]但現(xiàn)有基于深度學(xué)習(xí)的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法仍存在一些不足之處。基于深度學(xué)習(xí)的預(yù)測方法的處理流程可劃分為特征提取階段和模型階段。在特征提取階段,當(dāng)前的編碼方式將已知的長鏈非編碼RNA和疾病關(guān)聯(lián)情況整合為異質(zhì)網(wǎng)絡(luò),并針對同類型節(jié)點(diǎn)計算類內(nèi)相似性。但是僅提取預(yù)測目標(biāo)之間的兩跳信息,忽略了網(wǎng)絡(luò)中潛在的拓?fù)潢P(guān)系,未能表示預(yù)測目標(biāo)之間的多跳通路信息。在模型階段,現(xiàn)有模型多采用多層感知機(jī) 特征語義的問題,因此預(yù)測精度仍有待進(jìn)一步提高。發(fā)明內(nèi)容[0006]針對上述問題,本發(fā)明的目的在于提供一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng),提取異質(zhì)網(wǎng)絡(luò)中的多跳拓?fù)渫诽卣鳎娜值慕嵌染劢雇負(fù)渫分g的相互依賴關(guān)系,進(jìn)而提高模型的預(yù)測精度。技術(shù)方案如下:[0007]一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法,包括如下步驟:[0008]S1:數(shù)據(jù)獲取與預(yù)處理:獲取疾病語義信息和已知的長鏈非編碼RNA-疾病關(guān)聯(lián)情[0009]S2:拓?fù)涮卣魈崛。簩⑺鱿嗨菩院完P(guān)聯(lián)情況表示為異質(zhì)網(wǎng)絡(luò)的帶權(quán)鄰接矩陣,根7據(jù)所述鄰接矩陣冪次的定義,獲取目標(biāo)長鏈非編碼RNA-疾病節(jié)點(diǎn)對之間的多跳拓?fù)渫诽豙0010]S3:基于自注意力網(wǎng)絡(luò)預(yù)測關(guān)聯(lián)關(guān)系:構(gòu)建基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),獲取特征嵌入并通過單層全連接網(wǎng)絡(luò)進(jìn)行分類,將基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)的輸出矩陣轉(zhuǎn)換為概率分布,預(yù)測是否具有關(guān)聯(lián)關(guān)系;[0011]S4:模型訓(xùn)練:在訓(xùn)練集上基于反向傳播算法進(jìn)行模型訓(xùn)練,得到長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測模型;[0012]S5:預(yù)測關(guān)聯(lián)關(guān)系:通過預(yù)測模型處理目標(biāo)長鏈非編碼RNA-疾病節(jié)點(diǎn)對,判斷是否具有關(guān)聯(lián)關(guān)系。[0014]S11:整合長鏈非編碼RNA-疾病關(guān)聯(lián)關(guān)系:[0015]對于1個長鏈非編碼RNA和d種疾病,以A∈R1×表示其關(guān)聯(lián)關(guān)系;若已知某長鏈非[0017]獲取疾病之間的父子關(guān)系并將其表示為有向無環(huán)圖;對于疾病t?,記T?是包含了t?及其祖先疾病的集合,則T?中的任一疾病t相對于t?的語義貢獻(xiàn)值為:[0019]其中,childrenof[0020]設(shè)SV(t?)=teT?St?(t),SV(t?)=∑teT?St?(t);則疾病t?和t?之間的相似性的計算過程為:[0024]S13:計算長鏈非編碼RNA相似性:≤n?,1≤m≤n?;則長鏈非編碼RNAr?和r?之間的相似性計算過程為:對于數(shù)據(jù)集中的1個長鏈非編碼RNA,計算其兩兩之間的相似性,獲得長鏈非編碼8[0030]S21:整合帶權(quán)鄰接矩陣:[0031]將長鏈非編碼RNA-疾病關(guān)聯(lián)矩陣A、長鏈非編碼RNA相似性矩陣S和疾病相似性矩陣Sp整合為異質(zhì)網(wǎng)絡(luò)的帶權(quán)鄰接矩陣A:[0034]S22:處理多跳鄰接矩陣:[0035]基于帶權(quán)鄰接矩陣A,按照如下計算過程,獲取歸一化后的多跳鄰接矩陣:陣中的極大值;[0040]對于目標(biāo)長鏈非編碼RNA的第i個節(jié)點(diǎn)-疾病的第j個節(jié)點(diǎn),通過以下計算過程提取拓?fù)涮卣鳎篬0042]其中跳鄰接矩陣Anh的第i列和第j列,為線性變換矩陣,X∈Rl+d)×dmodel為后續(xù)模型的矩陣輸入,dode1為矩陣輸入的維度參數(shù)。[0044]S31:構(gòu)建基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)提取拓?fù)渫诽卣鳎篬0045]所述基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)由N個相同的層組成,每層包含兩個子層:多頭自注意力子層和位置前饋網(wǎng)絡(luò)子層,每個子層的輸出通過殘差連接與層歸一化處理,且每[0046]H(X)=LayerN[0048]基于點(diǎn)積的注意力包括三個矩陣輸入Q、K和V,其計算過程為:[0050]其中,√dk表示K的通道維度。而所述的多頭自注意力子層將基于點(diǎn)積的注意力的計算過程拆分為多頭;多頭注意力計算公式如下:9[0053]其中,nhea表示頭數(shù),1≤i≤nhea換矩陣;[0060]FFN(X)=max(0,XW?+b?)W?+b?示中間層的大?。籦?和b?為偏移常數(shù);線性變換和sigmoid激活函數(shù)來計算長鏈非編碼RNA和疾病的預(yù)測關(guān)聯(lián)概率p,計算公式如[0067]更進(jìn)一步的,所述步驟S4具體為:[0068]S41:采用隨機(jī)失活來減少模型的過擬合:[0069]S411:在計算矩陣X后,添加dropout函數(shù)處理矩陣X:[0072]S412:在完成子層計算后,添加dropout函數(shù)處理輸出:表示將輸入矩陣經(jīng)由多頭自注意力子層或位置前饋網(wǎng)絡(luò)子層處理;函數(shù)處理輸出:[0076]dropout(flatten(Xencoded),Pirop[0079]其中,p表示表示預(yù)測關(guān)聯(lián)概率,y表示訓(xùn)練標(biāo)簽。及儲存在存儲器上的計算機(jī)程序,所述計算機(jī)程序在處理器上執(zhí)行實現(xiàn)上述方法。[0081]本發(fā)明的有益效果是:[0082]1)在特征提取階段,本發(fā)明設(shè)計了一套簡單、新穎的拓?fù)涮卣魈崛×鞒?,獲取目標(biāo)長鏈非編碼RNA-疾病節(jié)點(diǎn)對之間的多跳拓?fù)渫?,為模型提供更多有效的特征;[0083]2)在模型階段,本發(fā)明引入自注意力機(jī)制構(gòu)建預(yù)測模型,從全局的角度聚焦拓?fù)涮卣?,并賦予關(guān)鍵關(guān)聯(lián)通路更高的權(quán)重以使網(wǎng)絡(luò)充分學(xué)習(xí)關(guān)鍵特征,進(jìn)而提高模型預(yù)測精[0084]3)在相同數(shù)據(jù)集上與現(xiàn)有模型對比,取得了最優(yōu)的預(yù)測指標(biāo)(AUC=0.994、AUPR=0.709),相較于之前最好的算法GAERF(目前已公開的技術(shù)方案中,同數(shù)據(jù)集上預(yù)測準(zhǔn)確率最高的模型)的平均AUC值0.980和平均AUPR值0.491,分別提升了1.4個百分點(diǎn)和21.8個百[0085]4)本發(fā)明通過已有實驗數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),來預(yù)測未被驗證的長鏈非編碼RNA-疾病之間是否具有關(guān)聯(lián)關(guān)系以指導(dǎo)生物濕實驗,有效地減少了實驗時間與財力損耗。附圖說明[0086]圖1是本發(fā)明基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng)的流[0087]圖2是本發(fā)明基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng)的模型結(jié)構(gòu)示意圖。具體實施方式[0088]下面結(jié)合附圖和具體實施例對本發(fā)明做進(jìn)一步詳細(xì)說明。[0089]本發(fā)明提出了一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法和系統(tǒng)。該方法提取目標(biāo)長鏈非編碼RNA-疾病節(jié)點(diǎn)對之間的多跳拓?fù)渫罚⒁胱宰⒁饬C(jī)制構(gòu)建預(yù)測模型,賦予關(guān)鍵拓?fù)渫犯叩臋?quán)重以使網(wǎng)絡(luò)充分學(xué)習(xí)關(guān)鍵特征,進(jìn)而提升模型的預(yù)測精度。[0090]本實施例提供了一種基于自注意力機(jī)制的長鏈非編碼RNA-疾病關(guān)聯(lián)預(yù)測方法,參考圖1與圖2,其過程是基于python3.8.8-pytorch1.10.0實現(xiàn)的。該方法包括:[0092]獲取疾病語義信息和長鏈非編碼RNA-疾病關(guān)聯(lián)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理,構(gòu)建異質(zhì)網(wǎng)絡(luò),并計算同質(zhì)節(jié)點(diǎn)彼此間的相似性。[0093]從公開數(shù)據(jù)庫中獲取疾病語義信息和經(jīng)過生物濕實驗驗證的長鏈非編碼RNA-疾[0094]1、獲取數(shù)據(jù)。疾病語義信息來源于疾病本體(DiseaseOntology)國際項目所匯總的疾病從屬關(guān)系數(shù)據(jù),以有向無環(huán)圖的結(jié)構(gòu)表示了疾病之間的祖先-子孫信息。長鏈非編碼關(guān)系。若已知某長鏈非編碼RNA-疾病節(jié)點(diǎn)對有關(guān)聯(lián),則Ap中的對應(yīng)位置值為1,否則值為0。[0098]設(shè)SV(t?)=ZteT?St?(t),SV(t?)同理。則疾病t,和t?之間的相似性的計算過程饋網(wǎng)絡(luò)(Position-wiseFeed-ForwardNetworks)子層。每個子層的輸出通過殘差連接Xencoded∈Rl+d)×dmodel展平為一維數(shù)組,再通過以sigmoid為激活函數(shù)的一次線性變[0136]p=sigmoid(flatten(XencodeaWut+bou?)[0140]在訓(xùn)練集上基于反向傳播算法進(jìn)行模型訓(xùn)練,采用隨機(jī)失活(drop
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業(yè)服務(wù)協(xié)議(2025年業(yè)主公約執(zhí)行)
- 課件秀變臉教學(xué)課件
- 案場安全隱患培訓(xùn)課件
- 案場培訓(xùn)課件
- 醫(yī)用紅外成像技術(shù)在炎癥診斷中的應(yīng)用
- 2026年無人駕駛洗地機(jī)項目商業(yè)計劃書
- 醫(yī)療機(jī)構(gòu)信息化安全與風(fēng)險防范實踐
- 文庫發(fā)布:課件的種類
- 標(biāo)本運(yùn)輸培訓(xùn)
- 醫(yī)療糾紛預(yù)防與法律知識普及
- 2025年廣東省茂名農(nóng)墾集團(tuán)公司招聘筆試題庫附帶答案詳解
- 南京市雨花臺區(qū)醫(yī)療保險管理中心等單位2025年公開招聘編外工作人員備考題庫有完整答案詳解
- 2026年寧夏賀蘭工業(yè)園區(qū)管委會工作人員社會化公開招聘備考題庫帶答案詳解
- DBJ50-T-137-2023建筑邊坡工程現(xiàn)場檢測技術(shù)標(biāo)準(zhǔn)
- 第三方代付款協(xié)議書
- 房地產(chǎn)售后服務(wù)及質(zhì)量保證措施
- NB-T32036-2017光伏發(fā)電工程達(dá)標(biāo)投產(chǎn)驗收規(guī)程
- 感應(yīng)加熱器安全操作規(guī)程
- 商業(yè)地產(chǎn)行業(yè)商業(yè)地產(chǎn)投資機(jī)會
- JSA臨時用電作業(yè)安全分析表
- 2015-2022年北京衛(wèi)生職業(yè)學(xué)院高職單招語文/數(shù)學(xué)/英語筆試參考題庫含答案解析
評論
0/150
提交評論