CN120089191A 一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法 (青島大學(xué))_第1頁
CN120089191A 一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法 (青島大學(xué))_第2頁
CN120089191A 一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法 (青島大學(xué))_第3頁
CN120089191A 一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法 (青島大學(xué))_第4頁
CN120089191A 一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法 (青島大學(xué))_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局308號公司37252GO6N3一種基于對比融合圖特征的藥物靶點親和本發(fā)明提供了一種基于對比融合圖特征的取,得到靶點特征;設(shè)計對比融合圖模塊,基于對征、靶點特征和對比融合圖特征進行拼接并降21.一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其特征在于,具體包括如下步驟:S1,利用圖卷積網(wǎng)絡(luò)對藥物的SMILES字符串進行特征提取,得到藥物特征;S3,設(shè)計對比融合圖模塊,基于對比融合圖模塊,提取對比融合圖特征;S4,將藥物特征、靶點特征和對比融合圖特征進行拼接并降維,得到預(yù)測分數(shù)。2.根據(jù)權(quán)利要求1所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其S1.2,將藥物原子節(jié)點輸入圖卷積網(wǎng)絡(luò)分層聚合藥物原子節(jié)點特征,再通過全局加法操作將所有節(jié)點特征融合為藥物全局特征,最后通過線性層映射成為藥物特征。3.根據(jù)權(quán)利要求1所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其S2.1,將靶點的氨基酸序列輸入前向LSTM捕捉當前氨基酸與前方序列的依賴關(guān)系,并將靶點的氨基酸序列輸入后向LSTM捕獲其與后面序列的關(guān)聯(lián);S2.2,將前向LSTM和后向LSTM的隱藏狀態(tài)相加,生成靶點特征。4.根據(jù)權(quán)利要求1所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其特征在于,步驟S3具體包括如下步驟:S3.1,計算兩個氨基酸之間的歐幾里得距離,判斷兩個氨基酸是否存在接觸,生成靶點圖鄰接矩陣;S3.2,通過中心節(jié)點創(chuàng)建藥物與靶點的融合圖;S3.3,基于圖同構(gòu)網(wǎng)絡(luò)GIN對融合圖進行自監(jiān)督學(xué)習(xí),提取對比融合圖特征。5.根據(jù)權(quán)利要求4所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其S3.1.1,氨基酸A和氨基酸C的距離計算公式為:dist=√(A?-C?)其中,dist為氨基酸A(A?,A?,A?)和氨基酸C(C?,C?,C?之間的距離;S3.1.2,如果dist小于N埃,則視為存在接觸,靶點圖鄰接矩陣對應(yīng)位置記為1;反之記為0。6.根據(jù)權(quán)利要求4所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其S3.2.1,通過線性層將藥物圖維度和靶點圖維度統(tǒng)一:其中,d*和p*分別是藥物和靶點經(jīng)過線性變換后的特征,維度均為D,Wa和Wp分別為藥物圖和靶點圖的權(quán)重矩陣,d和P分別為藥物和靶點的初始特征矩陣,ba和bp分別為藥物和靶點的偏置向量;S3.2.2,初始化中心節(jié)點,作為連接藥物圖和靶點圖的橋梁,中心節(jié)點表示為:3S3.2.3,更新融合圖的鄰接矩陣P:7.根據(jù)權(quán)利要求6所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其8.根據(jù)權(quán)利要求4所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其S3.3.2,對于每個融合圖和掩蔽圖,利用圖同構(gòu)網(wǎng)絡(luò)GIN提取融合圖和掩蔽圖中的節(jié)點9.根據(jù)權(quán)利要求8所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其S3.3.2.4,定義正樣本對的特征為融合圖特征hfusion和正樣本對的掩蔽圖特征hmask,負樣本對的特征為hfusion和負樣本對的掩蔽圖特征hneg,采用對比損失Lcontrastive進4圖或掩蔽圖的特征。10.根據(jù)權(quán)利要求1所述的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,其S4.1,將三種特征拼接后生成最終的特征表示合圖特征;S4.2,通過第一層線性變換對hfinal進行特征降維:5技術(shù)領(lǐng)域[0001]本發(fā)明涉及藥物靶點親和活性預(yù)測領(lǐng)域,具體涉及一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法。背景技術(shù)[0002]藥物靶點親和活性DTA預(yù)測通常依賴于藥物分子的化學(xué)結(jié)構(gòu)特征和靶點的生物結(jié)構(gòu)特征,結(jié)合深度學(xué)習(xí)等方法建立模型,以量化藥物與靶點的結(jié)合常數(shù)。隨著深度學(xué)習(xí)和人工智能技術(shù)的迅速發(fā)展,DTA模型的性能逐步提高,能夠利用更為復(fù)雜的數(shù)據(jù)特征和深度模型進行更精準的預(yù)測。[0003]早期DTA預(yù)測方法主要采用傳統(tǒng)的機器學(xué)習(xí)方法??紤]到傳統(tǒng)機器學(xué)習(xí)方法在DTA預(yù)測中的局限性,尤其是在處理復(fù)雜的、非線性的藥物-靶點關(guān)系時,研究者們開始探索深度學(xué)習(xí)方法。現(xiàn)有的深度學(xué)習(xí)方法主要分為兩類:基于序列的方法和基于圖的方法?,F(xiàn)有模型仍然將靶點視為一維序列,并且這些模型通常單獨處理藥物和靶點的特征,例如將藥物視為分子圖,靶點視為一維序列或接觸圖,未能有效地捕捉藥物與靶點之間的復(fù)雜作用關(guān)系。其次,現(xiàn)有的模型往往依賴于有限的訓(xùn)練數(shù)據(jù),無法深入挖掘藥物和靶點的潛在深層特性。[0004]因此,現(xiàn)需要一種能夠有效效地利用大規(guī)模、多樣化的數(shù)據(jù)、捕捉藥物和靶點之間的深層交互信息關(guān)系的對比融合圖特征的藥物靶點親和活性預(yù)測方法。發(fā)明內(nèi)容[0005]本發(fā)明的主要目的在于提供一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,以解決現(xiàn)有技術(shù)中不能夠有效效地利用大規(guī)模、多樣化的數(shù)據(jù)、捕捉藥物和靶點之間的深層交互信息關(guān)系的問題。[0006]為實現(xiàn)上述目的,本發(fā)明提供了一種基于對比融合圖特征的藥物靶點親和活性預(yù)S1,利用圖卷積網(wǎng)絡(luò)對藥物的SMILES字符串進行特征提取,得到藥物特征。[0008]S3,設(shè)計對比融合圖模塊,基于對比融合圖模塊,提取對比融合圖特征。[0009]S4,將藥物特征、靶點特征和對比融合圖特征進行拼接并降維,得到預(yù)測分數(shù)。S1.1,將藥物的SMILES字符串,通過工具RDKit轉(zhuǎn)換為圖表示,圖中的節(jié)點為藥物原子。[0011]S1.2,將藥物原子節(jié)點輸入圖卷積網(wǎng)絡(luò)分層聚合藥物原子節(jié)點特征,再通過全局加法操作將所有節(jié)點特征融合為藥物全局特征,最后通過線性層映射成為藥物特征。[0012]進一步地,步驟S2具體包括如下步驟:S2.1,將靶點的氨基酸序列輸入前向LSTM捕捉當前氨基酸與前方序列的依賴關(guān)6[0013]S2.2,將前向LSTM和后向LSTM的隱藏狀態(tài)相加,生成靶點特征。S3.1,計算兩個氨基酸之間的歐幾里得距離,判斷兩個氨基酸是否存在接觸,生成靶點圖鄰接矩陣。[0015]S3.2,通過中心節(jié)點創(chuàng)建藥物與靶點的融合圖。[0016]S3.3,基于圖同構(gòu)網(wǎng)絡(luò)GIN對融合圖進行自監(jiān)督學(xué)習(xí),提取對比融合圖特征。S3.1.1,氨基酸A和氨基酸C的距離計算公式為:其中,dist為氨基酸A(A?,A?,A?)和氨基酸C(C?,C?,C?)之間的距離。之記為0。S3.2.1,通過線性層將藥物圖維度和靶點圖維度統(tǒng)一:其中,d*和p*分別是藥物和靶點經(jīng)過線性變換后的特征,維度均為D,Wa和Wp分別為藥物圖和靶點圖的權(quán)重矩陣,d和P分別為藥物和靶點的初始特征矩陣,ba和bp分別為藥物和靶點的偏置向量。[0020]S3.2.2,初始化中心節(jié)點,作為連接藥物圖和靶點圖的橋梁,中心節(jié)點表示為:[0021]S3.2.3,更新融合圖的鄰接矩陣P:其中,Aa和Ap分別為藥物圖和靶點圖的鄰接矩陣。[0022]進一步地,中心節(jié)點分別隨機連接藥物和靶點圖中的若干節(jié)點,且連接邊的數(shù)量相同,融合圖的節(jié)點總數(shù)為na+np+1,其中,na和np分別表示藥物圖和靶點圖的節(jié)點數(shù)量。S3.3.1,隨機遮蔽每個融合圖中的部分邊,得到掩蔽圖。[0024]S3.3.2,對于每個融合圖和掩蔽圖,利用圖同構(gòu)網(wǎng)絡(luò)GIN提取融合圖和掩蔽圖中的節(jié)點特征。S3.3.2.1,輸入的融合圖或掩蔽圖的節(jié)點特征h?通過批歸一化進行標準化:7其中,為經(jīng)過標準化的節(jié)點特征,BatchNorm[0026]S3.3.2.2,融合圖或掩蔽圖的節(jié)點特征通過圖卷積進行處理:其中,MLP(①)表示用于聚合鄰居節(jié)點特征的多層感知器,h是節(jié)點V在第l層的特[0027]S3.3.2.3,在經(jīng)過多層GIN后,對每個圖進行全局池化操作,將節(jié)點級特征匯聚為圖級特征,池化操作采用全局加法池化的方式:其中,hg為融合圖或掩蔽圖的圖級特征,V為圖中所有節(jié)點的集合,h為節(jié)點特[0028]S3.3.2.4,定義正樣本對的特征為融合圖特征hfusion和正樣本對的掩蔽圖特征hmask,負樣本對的特征為hfusion和負樣本對的掩蔽圖特征hneg,采用對比損失融合圖或掩蔽圖的特征。S4.1,將三種特征拼接后生成最終的特征比融合圖特征。其中,W?和b?分別是第一層線性變換的權(quán)重和偏置,σ是激活函數(shù),Z?是經(jīng)過第一層降維后的特征。[0031]S4.3,通過第二層線性變換生成最終的預(yù)測值:其中,W?和b?分別是第二層線性變換的權(quán)重和偏置,9為預(yù)測的交互分數(shù)。8[0032]S4.4,采用均方誤差MSE損失函數(shù)Lmse對模型進行更新:其中,I為樣本總數(shù),父i和yi分別表示第個樣本的預(yù)測值和真實值。[0033]本發(fā)明具有如下有益效果:(1)本發(fā)明利用圖卷積網(wǎng)絡(luò)從藥物的SMILES表示中提取分子拓撲特征,以及通過雙向長短時記憶網(wǎng)絡(luò)提取靶點序列的上下文特征。[0034](2)本發(fā)明設(shè)計了一種對比融合圖模塊,通過構(gòu)建藥物分子圖和靶點2D接觸圖的統(tǒng)一圖,并隨機生成掩蔽圖,利用對比學(xué)習(xí)優(yōu)化統(tǒng)一圖的特征表示。[0035](3)本發(fā)明通過預(yù)訓(xùn)練階段拉近正樣本特征表示,結(jié)合三種特征的拼接及線性層映射,實現(xiàn)藥物-靶點活性分數(shù)的精準預(yù)測。附圖說明[0036]為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:圖1示出了本發(fā)明的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法的流程圖。[0037]圖2示出了對比融合圖學(xué)習(xí)過程。具體實施方式[0038]下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。[0039]如圖1所示的一種基于對比融合圖特征的藥物靶點親和活性預(yù)測方法,具體包括如下步驟:S1,利用圖卷積網(wǎng)絡(luò)對藥物的SMILES字符串進行特征提取,得到藥物特征。[0040]S2,利用雙向LSTM對靶點序列進行特征提取,得到靶點特征。[0041]S3,設(shè)計對比融合圖模塊,基于對比融合圖模塊,提取對比融合圖特征。[0042]S4,將藥物特征、靶點特征和對比融合圖特征進行拼接并降維,得到預(yù)測分數(shù)。[0043]本發(fā)明首先利用圖卷積網(wǎng)絡(luò)對藥物的SMILES字符串進行特征提取,分析藥物的拓于藥物和靶點的結(jié)構(gòu)信息構(gòu)建兩種基礎(chǔ)圖:藥物分子圖和靶點2D接觸圖。在此基礎(chǔ)上,設(shè)計了一個對比融合圖模塊,該模塊通過引入中心節(jié)點將兩種基礎(chǔ)圖連接成一個統(tǒng)一圖,并生成部分邊隨機遮掩的掩蔽圖,以增強特征的魯棒性。統(tǒng)一圖和掩蔽圖分別輸入圖同構(gòu)網(wǎng)絡(luò)進行信息傳遞,通過平均池化提取全局特征表示,并利用對比學(xué)習(xí)優(yōu)化藥物和靶點的正樣本特征。最后,將提取到的藥物拓撲特征、靶點序列特征和融合圖的全局特征進行拼接,輸9[0046]S1.2,將藥物原子節(jié)點輸入圖卷積網(wǎng)絡(luò)分層聚合藥物原子節(jié)點特征,再通過全局S2.1,將靶點的氨基酸序列輸入前向LSTM捕捉當前氨基酸與前方序列的依賴關(guān)[0053]具體地,本發(fā)明從靶點序列結(jié)構(gòu)數(shù)據(jù)庫(如PDdist=√(A?-C?)2+(A?-C[0056]本發(fā)明創(chuàng)建一個藥物與靶點的融合圖,以實現(xiàn)藥物和靶點之間信息的有效交互。以往的方法通常單獨考慮藥物與靶點的特征,忽視了兩者之間的相互作[0058]S3.2.1,在生成融合圖之前,需要對兩種基礎(chǔ)圖:藥物分子圖和靶點2D接觸圖進行處理。由于藥物的分子結(jié)構(gòu)與靶點序列的特征維度不同,因此在融合前,需要通過線性層將藥物圖維度和靶點圖維度統(tǒng)一:其中,d*和p*分別是藥物和靶點經(jīng)過線性變換后的特征,維度均為D,Wa和Wp分別為藥物圖和靶點圖的權(quán)重矩陣,d和P分別為藥物和靶點的初始特征矩陣,ba和bp分別為藥物和靶點的偏置向量。[0059]S3.2.2,為了連接兩種基礎(chǔ)圖,初始化中心節(jié)點,作為連接藥物圖和靶點圖的橋梁,中心節(jié)點表示為:hm∈R1*D。由于藥物和靶點的具體作用位點未知,中心節(jié)點的引入能夠以隨機連接的方式將藥物分子圖和靶點圖整合起來。其中,Aa和Ap分別為藥物圖和靶點圖的鄰接矩陣。[0061]具體地,中心節(jié)點分別隨機連接藥物和靶點圖中的若干節(jié)點,且連接邊的數(shù)量相同,融合圖的節(jié)點總數(shù)為na+np+1,其中,na和np分別表示藥物圖和靶點圖的節(jié)點數(shù)[0062]本發(fā)明設(shè)計了一個預(yù)訓(xùn)練過程,通過對大量融合圖進行自監(jiān)督學(xué)習(xí)來捕捉藥物和靶點間的潛在關(guān)系。如圖2所示,具體而言,從公共數(shù)據(jù)庫中收集了100個藥物和100個靶點作為預(yù)訓(xùn)練數(shù)據(jù)集,利用上述方法將每個藥物與每個靶點進行一一組合,生成了10000個融合圖,為模型的預(yù)訓(xùn)練提供數(shù)據(jù)基礎(chǔ)。[0063]在生成融合圖之后,為了進一步模擬圖結(jié)構(gòu)中的不確定性和缺失信息,隨機遮蔽了每個融合圖中一定比例的邊,得到對應(yīng)的10000個掩蔽圖。這些掩蔽圖不僅提供了一個簡化的圖結(jié)構(gòu),還通過對比學(xué)習(xí)提升模型對圖中關(guān)鍵特征的關(guān)注能力。具體來說,正樣本對由同一融合圖及其對應(yīng)的掩蔽圖構(gòu)成,而負樣本對則由不同融合圖的組合構(gòu)成。[0065]S3.3.1,隨機遮蔽每個融合圖中的部分邊,得到掩蔽圖。[0066]S3.3.2,對于每個融合圖和掩蔽圖,利用圖同構(gòu)網(wǎng)絡(luò)GIN提取融合圖和掩蔽圖中的節(jié)點特征。[0067]具體地,對于每個融合圖和掩蔽圖,圖同構(gòu)網(wǎng)絡(luò)(GIN)被用來提取融合圖和掩蔽圖中的節(jié)點特征。GIN的關(guān)鍵在于它利用多層感知器(MLP)來聚合每個節(jié)點及其鄰居的特征,從而高效地捕捉圖的結(jié)構(gòu)信息。步驟S3.3.2具體包括如下步驟:[0068]S3.3.2.1,輸入的融合圖或掩蔽圖的節(jié)點特征h?通過批歸一化進行標準化:特征hfusion和正樣本對的掩蔽圖特征hmask,負樣本對的特征為hfusion和負樣本對的掩示hfinal:比融合圖特征。拼接后的特征hfinal綜合了藥物分子、靶點序列及它們的交互關(guān)系信息,為預(yù)測任務(wù)提供了全面且深層次的表示。[0075]S4.2,模型通過兩個線性層對拼接后的特征進行進一步處理以完成預(yù)測。通過第一層線性變換對hfinal進行特征降維:其中,W?和b?分別是第一層線性變換的權(quán)重和偏置,σ是激一層降維后的特征。[0076]S4.3,通過第二層線性變換生成最終的預(yù)測值:其中,W?和b?分別是第二層線性變換的權(quán)重和偏置,為預(yù)測的交互分數(shù)。[0077]S4.4,采用均方誤差MSE損失函數(shù)Lmse對模型進行更新:[0078]本發(fā)明提供的模型包括藥物特征提取模塊、靶點特征提取模塊、對比融合圖模塊和預(yù)測模塊。經(jīng)過藥物特征提取模塊提取出藥物特征,靶點特征提取模塊提取出靶點特征,對比融合圖模塊提取出對比融合特征,將藥物特征、靶點特征和對比融合圖特征進行拼接并降維,經(jīng)過預(yù)測模塊得到預(yù)測分數(shù)。[0079]為了評估本發(fā)明所提出模型Tri-DTA的性能,在Davis和KIBA數(shù)據(jù)集上與當前最先進的模型進行了DTA預(yù)測的性能比較,模型涉及DeepDTA,MT-DTA,GraphDTA,AttentionDTA和GRA-DTA。在Davis數(shù)據(jù)集上,本發(fā)明所提出模型在所有評估指標上均表現(xiàn)出對基線模型的優(yōu)勢,如表1所示特別是在均方差損失MSE上,本發(fā)明提供的模型Tri-DTA取得了0.004的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論