版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
廣義結(jié)構(gòu)視角下的網(wǎng)絡(luò)表示學(xué)習(xí)方法探索與實(shí)踐一、引言1.1研究背景與動(dòng)機(jī)在數(shù)字化時(shí)代,社交網(wǎng)絡(luò)的迅猛發(fā)展深刻改變了人們的生活與交流方式。從全球最大的社交平臺(tái)Facebook,其月活躍用戶數(shù)截至2017年6月已達(dá)20億,到國內(nèi)微信在2017年8月活躍用戶數(shù)超9.6億,社交網(wǎng)絡(luò)已成為連接信息空間與人類社會(huì)的關(guān)鍵橋梁。這些大規(guī)模社交網(wǎng)絡(luò)蘊(yùn)含著海量節(jié)點(diǎn)及復(fù)雜關(guān)系,如人際關(guān)系網(wǎng)絡(luò)、學(xué)術(shù)引用網(wǎng)絡(luò)、生物分子交互網(wǎng)絡(luò)等,對其深入分析挖掘在社交分析、推薦系統(tǒng)、生物醫(yī)學(xué)研究等眾多領(lǐng)域具有重大價(jià)值。網(wǎng)絡(luò)表示學(xué)習(xí)作為社交網(wǎng)絡(luò)分析的核心技術(shù)應(yīng)運(yùn)而生,它旨在將網(wǎng)絡(luò)中的節(jié)點(diǎn)轉(zhuǎn)化為低維、實(shí)值且稠密的向量表示。這種向量表示不僅能保留節(jié)點(diǎn)在原始網(wǎng)絡(luò)中的關(guān)鍵特征與關(guān)系,還可作為機(jī)器學(xué)習(xí)模型的優(yōu)質(zhì)輸入,有效解決傳統(tǒng)網(wǎng)絡(luò)表示方法在處理大規(guī)模復(fù)雜網(wǎng)絡(luò)時(shí)面臨的維度災(zāi)難、計(jì)算效率低下等問題。通過網(wǎng)絡(luò)表示學(xué)習(xí),能夠?qū)崿F(xiàn)節(jié)點(diǎn)分類,準(zhǔn)確判斷社交網(wǎng)絡(luò)中用戶的興趣愛好、職業(yè)等屬性;完成鏈接預(yù)測,預(yù)測社交網(wǎng)絡(luò)中潛在的好友關(guān)系或?qū)W術(shù)論文的引用關(guān)系;開展社區(qū)發(fā)現(xiàn),識(shí)別社交網(wǎng)絡(luò)中的興趣小組、學(xué)術(shù)領(lǐng)域的研究團(tuán)體等。在網(wǎng)絡(luò)表示學(xué)習(xí)中,保持廣義結(jié)構(gòu)是至關(guān)重要的。廣義結(jié)構(gòu)涵蓋了網(wǎng)絡(luò)中的多種結(jié)構(gòu)信息,不僅有節(jié)點(diǎn)間的一階鄰居關(guān)系(即直接相連的節(jié)點(diǎn)關(guān)系),還包括高階鄰居關(guān)系(通過多個(gè)中間節(jié)點(diǎn)間接相連的節(jié)點(diǎn)關(guān)系),以及社區(qū)結(jié)構(gòu)(網(wǎng)絡(luò)中緊密相連的節(jié)點(diǎn)組成的子群體)和其他復(fù)雜的拓?fù)浣Y(jié)構(gòu)。例如在學(xué)術(shù)引用網(wǎng)絡(luò)中,一篇論文不僅與直接引用它的論文存在緊密聯(lián)系(一階鄰居關(guān)系),還與那些通過其他論文間接引用它的論文存在關(guān)聯(lián)(高階鄰居關(guān)系);同時(shí),同一研究領(lǐng)域的論文會(huì)形成一個(gè)社區(qū),它們在研究主題、方法等方面具有相似性。保持廣義結(jié)構(gòu)能夠更全面、精準(zhǔn)地反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的真實(shí)位置與角色,從而使學(xué)習(xí)得到的節(jié)點(diǎn)向量表示更具準(zhǔn)確性和表現(xiàn)力。以社交網(wǎng)絡(luò)為例,若僅考慮一階鄰居關(guān)系,可能會(huì)忽略用戶之間通過共同興趣愛好或朋友的朋友等間接關(guān)系所形成的聯(lián)系,而這些間接關(guān)系對于理解用戶的社交行為和興趣偏好同樣關(guān)鍵。保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法能夠捕捉到這些復(fù)雜關(guān)系,為后續(xù)的社交推薦、社區(qū)挖掘等任務(wù)提供更堅(jiān)實(shí)的基礎(chǔ)。1.2國內(nèi)外研究現(xiàn)狀網(wǎng)絡(luò)表示學(xué)習(xí)作為社交網(wǎng)絡(luò)分析領(lǐng)域的關(guān)鍵技術(shù),在國內(nèi)外都受到了廣泛關(guān)注,取得了豐碩的研究成果,而結(jié)合廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)更是近年來的研究熱點(diǎn)之一。在國外,諸多學(xué)者圍繞保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)開展了深入研究。Perozzi等人提出的DeepWalk算法,通過隨機(jī)游走在網(wǎng)絡(luò)中生成節(jié)點(diǎn)序列,然后利用Skip-gram模型將節(jié)點(diǎn)序列轉(zhuǎn)化為低維向量表示。該算法在一定程度上捕捉了網(wǎng)絡(luò)的局部結(jié)構(gòu)信息,但對于高階鄰居關(guān)系和復(fù)雜社區(qū)結(jié)構(gòu)的挖掘能力有限。為了進(jìn)一步提升對廣義結(jié)構(gòu)的保持能力,Grover等人提出Node2Vec算法,通過對隨機(jī)游走策略的優(yōu)化,引入?yún)?shù)p和q來靈活控制游走的偏向性,使得算法既能捕捉到網(wǎng)絡(luò)的局部緊密連接結(jié)構(gòu)(類似深度優(yōu)先搜索),又能探索到網(wǎng)絡(luò)的全局稀疏連接結(jié)構(gòu)(類似廣度優(yōu)先搜索),從而在保持廣義結(jié)構(gòu)方面有了顯著提升。在學(xué)術(shù)引用網(wǎng)絡(luò)中,Node2Vec能夠更準(zhǔn)確地挖掘出論文之間通過共同引用文獻(xiàn)等形成的復(fù)雜關(guān)系,為學(xué)術(shù)研究提供更有價(jià)值的信息。然而,Node2Vec算法在處理大規(guī)模網(wǎng)絡(luò)時(shí),由于隨機(jī)游走的計(jì)算量較大,會(huì)面臨時(shí)間和空間復(fù)雜度較高的問題。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖神經(jīng)網(wǎng)絡(luò)(GraphNeuralNetworks,GNNs)逐漸成為網(wǎng)絡(luò)表示學(xué)習(xí)的重要工具。其中,圖卷積網(wǎng)絡(luò)(GraphConvolutionalNetworks,GCNs)是一類典型的基于譜域的圖神經(jīng)網(wǎng)絡(luò)。Kipf等人提出的GCN模型,通過對圖的拉普拉斯矩陣進(jìn)行特征分解,將卷積操作從歐幾里得空間拓展到圖結(jié)構(gòu)上,實(shí)現(xiàn)了對網(wǎng)絡(luò)節(jié)點(diǎn)特征的聚合與傳播,有效學(xué)習(xí)到節(jié)點(diǎn)在網(wǎng)絡(luò)中的結(jié)構(gòu)特征,對于保持網(wǎng)絡(luò)的廣義結(jié)構(gòu)具有重要意義。在社交網(wǎng)絡(luò)中,GCN可以通過對用戶之間的社交關(guān)系進(jìn)行建模,學(xué)習(xí)到用戶在不同社交圈子中的角色和地位等信息。但是,GCN在處理高階鄰居信息時(shí),隨著卷積層數(shù)的增加,會(huì)出現(xiàn)過平滑問題,導(dǎo)致節(jié)點(diǎn)表示逐漸趨同,無法有效區(qū)分不同節(jié)點(diǎn)的特征。為了解決這一問題,基于空間域的圖神經(jīng)網(wǎng)絡(luò),如圖注意力網(wǎng)絡(luò)(GraphAttentionNetworks,GATs)被提出。Veli?kovi?等人提出的GAT模型,引入注意力機(jī)制,讓節(jié)點(diǎn)在聚合鄰居信息時(shí)能夠自適應(yīng)地分配權(quán)重,更加關(guān)注對自身重要的鄰居節(jié)點(diǎn),從而更好地捕捉網(wǎng)絡(luò)中的廣義結(jié)構(gòu)信息,在處理復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)時(shí)表現(xiàn)出更強(qiáng)的能力。在生物分子交互網(wǎng)絡(luò)中,GAT能夠準(zhǔn)確識(shí)別出不同分子之間的關(guān)鍵相互作用關(guān)系,為生物醫(yī)學(xué)研究提供有力支持。在國內(nèi),學(xué)者們也在保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方面做出了許多有價(jià)值的研究成果。一些研究團(tuán)隊(duì)致力于改進(jìn)現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)算法,以更好地保持廣義結(jié)構(gòu)。例如,通過對傳統(tǒng)矩陣分解方法進(jìn)行改進(jìn),結(jié)合網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)信息,提出新的矩陣分解模型,使得學(xué)習(xí)到的節(jié)點(diǎn)向量能夠更好地反映節(jié)點(diǎn)在社區(qū)中的位置和與其他社區(qū)的關(guān)系。在分析企業(yè)合作網(wǎng)絡(luò)時(shí),該模型能夠準(zhǔn)確識(shí)別出處于不同合作社區(qū)的企業(yè),并挖掘出企業(yè)之間潛在的合作機(jī)會(huì)。還有學(xué)者將深度學(xué)習(xí)與網(wǎng)絡(luò)表示學(xué)習(xí)相結(jié)合,提出基于深度自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)方法,通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò),自動(dòng)學(xué)習(xí)網(wǎng)絡(luò)中復(fù)雜的結(jié)構(gòu)特征,實(shí)現(xiàn)對廣義結(jié)構(gòu)的有效保持。在電商平臺(tái)的用戶-商品交互網(wǎng)絡(luò)中,該方法可以學(xué)習(xí)到用戶的興趣偏好以及商品之間的關(guān)聯(lián)關(guān)系,為精準(zhǔn)推薦提供支持。盡管國內(nèi)外在保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方面取得了一定進(jìn)展,但仍存在一些不足之處?,F(xiàn)有方法在處理大規(guī)模、高動(dòng)態(tài)性的網(wǎng)絡(luò)時(shí),計(jì)算效率和可擴(kuò)展性有待進(jìn)一步提高。許多算法在面對不斷變化的網(wǎng)絡(luò)結(jié)構(gòu)時(shí),難以實(shí)時(shí)更新節(jié)點(diǎn)表示,無法及時(shí)反映網(wǎng)絡(luò)的最新狀態(tài)。對于如何更好地融合網(wǎng)絡(luò)中的多種結(jié)構(gòu)信息,如將社區(qū)結(jié)構(gòu)與高階鄰居關(guān)系進(jìn)行有機(jī)結(jié)合,目前還缺乏有效的方法。在處理具有復(fù)雜屬性信息的網(wǎng)絡(luò)時(shí),如何將屬性信息與廣義結(jié)構(gòu)信息進(jìn)行深度融合,以提升節(jié)點(diǎn)表示的準(zhǔn)確性和表現(xiàn)力,也是亟待解決的問題。1.3研究內(nèi)容與創(chuàng)新點(diǎn)本研究致力于探索保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法,主要聚焦于如何更全面、精準(zhǔn)地捕捉網(wǎng)絡(luò)中的廣義結(jié)構(gòu)信息,并將其有效地融入到節(jié)點(diǎn)向量表示中,以提升網(wǎng)絡(luò)表示學(xué)習(xí)在各類實(shí)際應(yīng)用中的性能。深入研究現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)模型,如DeepWalk、Node2Vec、GCN、GAT等,剖析它們在保持廣義結(jié)構(gòu)方面的優(yōu)勢與不足。通過理論分析和實(shí)驗(yàn)驗(yàn)證,明確不同模型在處理一階鄰居關(guān)系、高階鄰居關(guān)系以及社區(qū)結(jié)構(gòu)等廣義結(jié)構(gòu)信息時(shí)的能力邊界。例如,分析DeepWalk算法在捕捉高階鄰居關(guān)系時(shí)的局限性,以及GCN在處理過平滑問題對保持廣義結(jié)構(gòu)的影響。針對現(xiàn)有模型的不足,提出改進(jìn)策略。通過優(yōu)化隨機(jī)游走策略,引入新的節(jié)點(diǎn)采樣方法,以提高對高階鄰居關(guān)系的挖掘能力;設(shè)計(jì)更有效的鄰居聚合機(jī)制,緩解GCN中的過平滑問題,增強(qiáng)對網(wǎng)絡(luò)結(jié)構(gòu)特征的學(xué)習(xí)能力。在優(yōu)化隨機(jī)游走策略方面,可以考慮結(jié)合網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)信息,引導(dǎo)隨機(jī)游走更傾向于在同一社區(qū)內(nèi)進(jìn)行,從而更好地捕捉社區(qū)內(nèi)節(jié)點(diǎn)之間的緊密聯(lián)系。提出一種全新的保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法。該方法將綜合考慮網(wǎng)絡(luò)中的多種結(jié)構(gòu)信息,包括一階鄰居關(guān)系、高階鄰居關(guān)系以及社區(qū)結(jié)構(gòu)等,通過構(gòu)建統(tǒng)一的模型框架,實(shí)現(xiàn)對廣義結(jié)構(gòu)的全面學(xué)習(xí)。具體來說,通過設(shè)計(jì)基于注意力機(jī)制的社區(qū)感知模塊,讓模型能夠自動(dòng)識(shí)別和學(xué)習(xí)不同社區(qū)的特征,以及社區(qū)之間的關(guān)系;引入基于路徑的高階鄰居信息融合方法,將節(jié)點(diǎn)之間的不同路徑信息融入到節(jié)點(diǎn)表示中,從而更全面地反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置和角色。在基于注意力機(jī)制的社區(qū)感知模塊中,可以利用注意力機(jī)制計(jì)算不同社區(qū)對節(jié)點(diǎn)表示的重要性權(quán)重,使得模型能夠更準(zhǔn)確地捕捉節(jié)點(diǎn)在社區(qū)中的特征。將提出的方法應(yīng)用于多個(gè)實(shí)際場景,如社交網(wǎng)絡(luò)分析、推薦系統(tǒng)、生物醫(yī)學(xué)研究等,通過大量實(shí)驗(yàn)驗(yàn)證方法的有效性和優(yōu)越性。在社交網(wǎng)絡(luò)分析中,利用學(xué)習(xí)到的節(jié)點(diǎn)向量進(jìn)行節(jié)點(diǎn)分類和社區(qū)發(fā)現(xiàn)任務(wù),與現(xiàn)有方法進(jìn)行對比,評估在準(zhǔn)確性、召回率等指標(biāo)上的提升;在推薦系統(tǒng)中,通過將節(jié)點(diǎn)向量作為用戶和物品的特征輸入,提高推薦的準(zhǔn)確性和多樣性。在社交網(wǎng)絡(luò)分析的節(jié)點(diǎn)分類任務(wù)中,可以使用準(zhǔn)確率、召回率、F1值等指標(biāo)來評估方法的性能,通過與其他先進(jìn)方法進(jìn)行對比,展示所提方法在保持廣義結(jié)構(gòu)方面的優(yōu)勢。本研究的創(chuàng)新點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:在模型改進(jìn)方面,針對現(xiàn)有模型在保持廣義結(jié)構(gòu)上的不足,提出了創(chuàng)新性的改進(jìn)策略,通過優(yōu)化隨機(jī)游走和鄰居聚合機(jī)制,提升了模型對廣義結(jié)構(gòu)信息的學(xué)習(xí)能力,為網(wǎng)絡(luò)表示學(xué)習(xí)模型的發(fā)展提供了新的思路。提出的全新保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法,創(chuàng)新性地融合了多種結(jié)構(gòu)信息,設(shè)計(jì)了基于注意力機(jī)制的社區(qū)感知模塊和基于路徑的高階鄰居信息融合方法,實(shí)現(xiàn)了對廣義結(jié)構(gòu)的全面、深入學(xué)習(xí),與傳統(tǒng)方法相比,在模型框架和信息融合方式上具有顯著創(chuàng)新性。通過在多個(gè)實(shí)際場景中的廣泛應(yīng)用和實(shí)驗(yàn)驗(yàn)證,充分展示了所提方法的有效性和優(yōu)越性,為解決實(shí)際問題提供了新的有力工具,拓展了保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法的應(yīng)用領(lǐng)域。二、相關(guān)理論基礎(chǔ)2.1網(wǎng)絡(luò)表示學(xué)習(xí)概述2.1.1基本概念網(wǎng)絡(luò)表示學(xué)習(xí),也被稱作網(wǎng)絡(luò)嵌入或圖嵌入,其核心目標(biāo)是將網(wǎng)絡(luò)中的節(jié)點(diǎn)轉(zhuǎn)化為低維、實(shí)值且稠密的向量形式。在現(xiàn)實(shí)世界的社交網(wǎng)絡(luò)中,節(jié)點(diǎn)數(shù)量眾多且關(guān)系錯(cuò)綜復(fù)雜,如Facebook上龐大的用戶群體及其之間的好友關(guān)系、關(guān)注關(guān)系等。傳統(tǒng)的網(wǎng)絡(luò)表示方法,如鄰接矩陣,雖然能夠直觀地描述節(jié)點(diǎn)之間的連接關(guān)系,但存在維度災(zāi)難問題。當(dāng)社交網(wǎng)絡(luò)規(guī)模達(dá)到數(shù)十億節(jié)點(diǎn)時(shí),鄰接矩陣的維度將極其巨大,導(dǎo)致存儲(chǔ)和計(jì)算成本高昂,且難以直接用于機(jī)器學(xué)習(xí)算法。而網(wǎng)絡(luò)表示學(xué)習(xí)通過將節(jié)點(diǎn)映射到低維向量空間,不僅大大降低了數(shù)據(jù)維度,還能在向量中保留節(jié)點(diǎn)在原始網(wǎng)絡(luò)中的結(jié)構(gòu)和語義信息。以社交網(wǎng)絡(luò)分析中的節(jié)點(diǎn)分類任務(wù)為例,在一個(gè)包含數(shù)百萬用戶的社交網(wǎng)絡(luò)中,每個(gè)用戶節(jié)點(diǎn)可能具有多種屬性,如年齡、性別、興趣愛好等,同時(shí)與其他用戶存在復(fù)雜的社交關(guān)系。通過網(wǎng)絡(luò)表示學(xué)習(xí),可以將每個(gè)用戶節(jié)點(diǎn)轉(zhuǎn)化為一個(gè)低維向量,該向量融合了用戶的屬性信息和社交關(guān)系信息。然后,將這些向量輸入到分類模型中,如支持向量機(jī)(SVM)或神經(jīng)網(wǎng)絡(luò),就能夠準(zhǔn)確地預(yù)測用戶的興趣愛好類別。在鏈接預(yù)測任務(wù)中,通過學(xué)習(xí)到的節(jié)點(diǎn)向量表示,可以計(jì)算節(jié)點(diǎn)之間的相似度,從而預(yù)測社交網(wǎng)絡(luò)中潛在的鏈接關(guān)系,如預(yù)測用戶之間可能成為好友的關(guān)系,為社交推薦提供依據(jù)。在社區(qū)發(fā)現(xiàn)任務(wù)中,基于節(jié)點(diǎn)向量的相似性,可以將社交網(wǎng)絡(luò)中的節(jié)點(diǎn)劃分成不同的社區(qū),每個(gè)社區(qū)內(nèi)的節(jié)點(diǎn)具有緊密的聯(lián)系,這有助于發(fā)現(xiàn)社交網(wǎng)絡(luò)中的興趣小組、社團(tuán)等結(jié)構(gòu)。2.1.2主要方法分類網(wǎng)絡(luò)表示學(xué)習(xí)方法種類繁多,根據(jù)其對網(wǎng)絡(luò)結(jié)構(gòu)的依賴程度以及是否結(jié)合外部信息,可大致分為以下幾類。基于矩陣分解的方法是早期網(wǎng)絡(luò)表示學(xué)習(xí)的重要手段。它的核心思想是對網(wǎng)絡(luò)的鄰接矩陣或其他相關(guān)矩陣進(jìn)行分解,將高維的矩陣轉(zhuǎn)化為低維的向量表示。例如,傳統(tǒng)的奇異值分解(SVD)方法,通過對鄰接矩陣進(jìn)行分解,得到三個(gè)低維矩陣,其中包含了節(jié)點(diǎn)的低維表示信息。在一個(gè)簡單的社交網(wǎng)絡(luò)中,鄰接矩陣記錄了用戶之間的好友關(guān)系,通過SVD分解,可以將每個(gè)用戶表示為一個(gè)低維向量,向量中的元素反映了用戶在社交網(wǎng)絡(luò)中的地位和與其他用戶的關(guān)系緊密程度。這種方法具有良好的數(shù)學(xué)理論基礎(chǔ),能夠較好地捕捉網(wǎng)絡(luò)的全局結(jié)構(gòu)信息。但是,基于矩陣分解的方法計(jì)算復(fù)雜度較高,對于大規(guī)模網(wǎng)絡(luò),矩陣分解的計(jì)算量和存儲(chǔ)量都非常大,導(dǎo)致算法效率低下。而且,該方法對網(wǎng)絡(luò)結(jié)構(gòu)的變化較為敏感,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生動(dòng)態(tài)變化時(shí),需要重新進(jìn)行矩陣分解,難以滿足實(shí)時(shí)性要求。基于隨機(jī)游走的方法是當(dāng)前網(wǎng)絡(luò)表示學(xué)習(xí)的主流方法之一。這類方法通過在網(wǎng)絡(luò)上進(jìn)行隨機(jī)游走,生成節(jié)點(diǎn)序列,然后利用自然語言處理中的詞向量模型,如Skip-gram模型,將節(jié)點(diǎn)序列轉(zhuǎn)化為節(jié)點(diǎn)向量。DeepWalk算法是這類方法的典型代表,它在網(wǎng)絡(luò)中隨機(jī)選擇起始節(jié)點(diǎn),然后按照一定的概率選擇鄰居節(jié)點(diǎn)進(jìn)行游走,生成一系列節(jié)點(diǎn)序列。將這些節(jié)點(diǎn)序列看作是自然語言中的句子,節(jié)點(diǎn)看作是單詞,利用Skip-gram模型學(xué)習(xí)每個(gè)節(jié)點(diǎn)的向量表示。在學(xué)術(shù)引用網(wǎng)絡(luò)中,DeepWalk可以通過隨機(jī)游走生成論文節(jié)點(diǎn)序列,從而學(xué)習(xí)到論文之間的引用關(guān)系和學(xué)術(shù)關(guān)聯(lián),為學(xué)術(shù)研究提供有價(jià)值的信息?;陔S機(jī)游走的方法能夠有效地捕捉網(wǎng)絡(luò)的局部結(jié)構(gòu)信息,計(jì)算效率較高,適用于大規(guī)模網(wǎng)絡(luò)。然而,該方法對隨機(jī)游走的策略和參數(shù)設(shè)置較為敏感,不同的設(shè)置可能會(huì)導(dǎo)致學(xué)習(xí)到的節(jié)點(diǎn)向量質(zhì)量差異較大。而且,在捕捉網(wǎng)絡(luò)的高階結(jié)構(gòu)信息方面存在一定的局限性,對于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),難以全面準(zhǔn)確地反映節(jié)點(diǎn)之間的關(guān)系?;谏窠?jīng)網(wǎng)絡(luò)的方法,特別是圖神經(jīng)網(wǎng)絡(luò)(GNNs),近年來在網(wǎng)絡(luò)表示學(xué)習(xí)中取得了顯著進(jìn)展。GNNs可以直接對圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理,通過節(jié)點(diǎn)之間的信息傳播和聚合,學(xué)習(xí)節(jié)點(diǎn)的向量表示。圖卷積網(wǎng)絡(luò)(GCNs)是一種基于譜域的圖神經(jīng)網(wǎng)絡(luò),它通過對圖的拉普拉斯矩陣進(jìn)行特征分解,將卷積操作從歐幾里得空間拓展到圖結(jié)構(gòu)上。在一個(gè)社交網(wǎng)絡(luò)中,GCN可以通過對用戶節(jié)點(diǎn)的特征和社交關(guān)系進(jìn)行卷積操作,學(xué)習(xí)到用戶在社交網(wǎng)絡(luò)中的角色和地位信息。基于空間域的圖神經(jīng)網(wǎng)絡(luò),如圖注意力網(wǎng)絡(luò)(GATs),則引入了注意力機(jī)制,讓節(jié)點(diǎn)在聚合鄰居信息時(shí)能夠自適應(yīng)地分配權(quán)重。在電商用戶-商品交互網(wǎng)絡(luò)中,GAT可以根據(jù)用戶與不同商品的交互強(qiáng)度,為不同的鄰居節(jié)點(diǎn)分配不同的注意力權(quán)重,從而更準(zhǔn)確地學(xué)習(xí)到用戶的興趣偏好和商品之間的關(guān)聯(lián)關(guān)系?;谏窠?jīng)網(wǎng)絡(luò)的方法具有強(qiáng)大的學(xué)習(xí)能力,能夠自動(dòng)學(xué)習(xí)網(wǎng)絡(luò)中的復(fù)雜結(jié)構(gòu)和語義信息,在處理復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)時(shí)表現(xiàn)出明顯的優(yōu)勢。但是,這類方法通常需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,訓(xùn)練過程較為復(fù)雜,容易出現(xiàn)過擬合問題,且模型的可解釋性較差。除了上述基于網(wǎng)絡(luò)結(jié)構(gòu)的方法外,還有一些方法結(jié)合了網(wǎng)絡(luò)的屬性信息或其他外部信息來進(jìn)行表示學(xué)習(xí)。在社交網(wǎng)絡(luò)中,節(jié)點(diǎn)除了具有結(jié)構(gòu)關(guān)系外,還具有豐富的屬性信息,如用戶的年齡、職業(yè)、興趣標(biāo)簽等。將這些屬性信息與網(wǎng)絡(luò)結(jié)構(gòu)信息相結(jié)合,可以學(xué)習(xí)到更全面、準(zhǔn)確的節(jié)點(diǎn)向量表示。一些方法通過將屬性信息轉(zhuǎn)化為特征向量,與網(wǎng)絡(luò)結(jié)構(gòu)信息一起輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí);還有一些方法利用生成對抗網(wǎng)絡(luò)(GANs)等技術(shù),將屬性信息融入到節(jié)點(diǎn)向量的生成過程中,以提高節(jié)點(diǎn)向量的質(zhì)量。結(jié)合外部信息的方法能夠充分利用多源信息,提升節(jié)點(diǎn)表示的準(zhǔn)確性和表現(xiàn)力。但是,如何有效地融合不同類型的信息,以及如何處理信息之間的沖突和冗余,仍然是有待解決的問題。2.2廣義結(jié)構(gòu)相關(guān)理論2.2.1廣義結(jié)構(gòu)的定義與內(nèi)涵廣義結(jié)構(gòu)是一種在網(wǎng)絡(luò)分析中具有重要意義的概念,它涵蓋了網(wǎng)絡(luò)中多種復(fù)雜的結(jié)構(gòu)信息,遠(yuǎn)遠(yuǎn)超出了簡單的節(jié)點(diǎn)連接關(guān)系。從社區(qū)結(jié)構(gòu)來看,它是網(wǎng)絡(luò)中緊密相連的節(jié)點(diǎn)組成的子群體,這些子群體內(nèi)部節(jié)點(diǎn)之間的連接密度較高,而與其他社區(qū)節(jié)點(diǎn)之間的連接相對稀疏。在社交網(wǎng)絡(luò)中,興趣愛好相同的用戶會(huì)形成一個(gè)個(gè)社區(qū),如攝影愛好者社區(qū)、音樂愛好者社區(qū)等。在這些社區(qū)中,成員之間頻繁互動(dòng),分享作品、交流經(jīng)驗(yàn),形成了緊密的聯(lián)系。而不同社區(qū)之間,雖然也可能存在少量連接,但整體連接密度遠(yuǎn)低于社區(qū)內(nèi)部。層次結(jié)構(gòu)也是廣義結(jié)構(gòu)的重要組成部分。它體現(xiàn)了網(wǎng)絡(luò)中節(jié)點(diǎn)的層級(jí)關(guān)系,類似于組織結(jié)構(gòu)圖中的層級(jí),從高層節(jié)點(diǎn)到低層節(jié)點(diǎn)呈現(xiàn)出一種層次分明的結(jié)構(gòu)。在學(xué)術(shù)領(lǐng)域的知識(shí)圖譜中,學(xué)科領(lǐng)域可以看作是高層節(jié)點(diǎn),如計(jì)算機(jī)科學(xué)、物理學(xué)等;每個(gè)學(xué)科領(lǐng)域下又包含多個(gè)子領(lǐng)域,如計(jì)算機(jī)科學(xué)中的人工智能、數(shù)據(jù)挖掘等,這些子領(lǐng)域就是中層節(jié)點(diǎn);而具體的研究方向和論文則是低層節(jié)點(diǎn)。這種層次結(jié)構(gòu)有助于清晰地展示知識(shí)之間的包含關(guān)系和邏輯層次,方便進(jìn)行知識(shí)的組織和檢索。廣義結(jié)構(gòu)還包括其他復(fù)雜的拓?fù)浣Y(jié)構(gòu),如節(jié)點(diǎn)之間的高階鄰居關(guān)系。在社交網(wǎng)絡(luò)中,一個(gè)用戶不僅與他的直接好友(一階鄰居)有聯(lián)系,還通過這些直接好友與他們的好友(二階鄰居)以及更間接的好友(高階鄰居)存在關(guān)聯(lián)。這些高階鄰居關(guān)系蘊(yùn)含著豐富的信息,能夠反映出用戶在社交網(wǎng)絡(luò)中的更廣泛的社交圈子和潛在的社交影響力。例如,一個(gè)用戶的二階鄰居中可能存在與他具有相同職業(yè)背景或生活經(jīng)歷的人,通過分析這些高階鄰居關(guān)系,可以發(fā)現(xiàn)用戶潛在的共同興趣點(diǎn)和社交機(jī)會(huì)。廣義結(jié)構(gòu)在網(wǎng)絡(luò)分析中具有至關(guān)重要的作用,它能夠幫助我們更深入地挖掘網(wǎng)絡(luò)中節(jié)點(diǎn)之間的復(fù)雜關(guān)系。通過對社區(qū)結(jié)構(gòu)的分析,可以發(fā)現(xiàn)網(wǎng)絡(luò)中的緊密子群體,了解不同群體的特征和行為模式,為社交推薦、精準(zhǔn)營銷等提供依據(jù)。層次結(jié)構(gòu)的分析有助于理解網(wǎng)絡(luò)中信息的組織和傳遞方式,在知識(shí)圖譜中,通過層次結(jié)構(gòu)可以快速定位和檢索相關(guān)知識(shí),提高知識(shí)的利用效率。高階鄰居關(guān)系的挖掘則可以拓展我們對節(jié)點(diǎn)影響力和傳播路徑的認(rèn)識(shí),在信息傳播研究中,分析高階鄰居關(guān)系可以預(yù)測信息在網(wǎng)絡(luò)中的傳播范圍和速度,為輿情監(jiān)測和控制提供支持。2.2.2廣義結(jié)構(gòu)與網(wǎng)絡(luò)表示的聯(lián)系廣義結(jié)構(gòu)對網(wǎng)絡(luò)表示學(xué)習(xí)具有舉足輕重的影響,是提升網(wǎng)絡(luò)表示學(xué)習(xí)效果的關(guān)鍵因素。在網(wǎng)絡(luò)表示學(xué)習(xí)中,目標(biāo)是將網(wǎng)絡(luò)中的節(jié)點(diǎn)轉(zhuǎn)化為低維向量表示,而廣義結(jié)構(gòu)信息的融入能夠使這些向量更全面、準(zhǔn)確地反映節(jié)點(diǎn)的特征和在網(wǎng)絡(luò)中的位置。在社交網(wǎng)絡(luò)中,如果只考慮節(jié)點(diǎn)的直接連接關(guān)系(一階鄰居關(guān)系)來學(xué)習(xí)節(jié)點(diǎn)向量,可能會(huì)忽略用戶之間通過共同興趣愛好或朋友的朋友等間接關(guān)系所形成的聯(lián)系。而這些間接關(guān)系在廣義結(jié)構(gòu)中通過高階鄰居關(guān)系和社區(qū)結(jié)構(gòu)等體現(xiàn)出來,將這些廣義結(jié)構(gòu)信息融入網(wǎng)絡(luò)表示學(xué)習(xí)中,可以使學(xué)習(xí)得到的節(jié)點(diǎn)向量包含更豐富的社交信息,從而更準(zhǔn)確地表示用戶在社交網(wǎng)絡(luò)中的角色和地位。具體來說,廣義結(jié)構(gòu)影響著網(wǎng)絡(luò)表示學(xué)習(xí)中向量表示的維度和內(nèi)容。從維度上看,為了更好地捕捉廣義結(jié)構(gòu)信息,可能需要調(diào)整向量的維度。如果網(wǎng)絡(luò)中存在復(fù)雜的社區(qū)結(jié)構(gòu)和多層次的層次結(jié)構(gòu),簡單的低維向量可能無法充分表示這些信息,此時(shí)需要適當(dāng)增加向量維度,以容納更多關(guān)于社區(qū)歸屬、層次位置等信息。在一個(gè)包含多個(gè)層次和眾多社區(qū)的學(xué)術(shù)合作網(wǎng)絡(luò)中,為了準(zhǔn)確表示每個(gè)研究人員節(jié)點(diǎn)在不同層次學(xué)科領(lǐng)域和不同研究社區(qū)中的位置,可能需要較高維度的向量來存儲(chǔ)這些信息。在向量內(nèi)容方面,廣義結(jié)構(gòu)決定了向量中所包含的語義信息?;趶V義結(jié)構(gòu)學(xué)習(xí)得到的向量,不僅包含節(jié)點(diǎn)的基本屬性信息,還包含了節(jié)點(diǎn)在社區(qū)中的角色、與其他社區(qū)的關(guān)聯(lián)、在層次結(jié)構(gòu)中的位置以及高階鄰居關(guān)系所蘊(yùn)含的語義信息。在一個(gè)電商用戶-商品交互網(wǎng)絡(luò)中,考慮廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法可以使節(jié)點(diǎn)向量包含用戶所屬的興趣社區(qū)信息,如時(shí)尚愛好者社區(qū)、數(shù)碼產(chǎn)品愛好者社區(qū)等,以及用戶在這些社區(qū)中的活躍程度和影響力;還能包含商品在產(chǎn)品層次結(jié)構(gòu)中的位置信息,如屬于電子產(chǎn)品大類下的手機(jī)子類,以及商品與其他相關(guān)商品(通過高階鄰居關(guān)系)的關(guān)聯(lián)信息,如手機(jī)與手機(jī)配件、手機(jī)周邊服務(wù)等的關(guān)聯(lián)。廣義結(jié)構(gòu)還會(huì)影響網(wǎng)絡(luò)表示學(xué)習(xí)的方法和算法選擇。不同的廣義結(jié)構(gòu)特點(diǎn)需要不同的方法來有效捕捉。對于具有明顯社區(qū)結(jié)構(gòu)的網(wǎng)絡(luò),基于社區(qū)感知的網(wǎng)絡(luò)表示學(xué)習(xí)方法可能更有效,如通過設(shè)計(jì)社區(qū)發(fā)現(xiàn)算法與網(wǎng)絡(luò)表示學(xué)習(xí)相結(jié)合,先識(shí)別出網(wǎng)絡(luò)中的社區(qū),然后在學(xué)習(xí)節(jié)點(diǎn)向量時(shí)充分考慮節(jié)點(diǎn)的社區(qū)歸屬信息。在一個(gè)社交群組網(wǎng)絡(luò)中,使用基于社區(qū)感知的方法可以更好地學(xué)習(xí)到每個(gè)用戶在其所屬社交群組中的獨(dú)特特征和與其他群組的關(guān)系。而對于層次結(jié)構(gòu)明顯的網(wǎng)絡(luò),層次化的網(wǎng)絡(luò)表示學(xué)習(xí)算法可能更合適,它能夠按照層次結(jié)構(gòu)的順序逐步學(xué)習(xí)節(jié)點(diǎn)向量,更好地保留層次信息。在一個(gè)企業(yè)組織架構(gòu)網(wǎng)絡(luò)中,層次化的網(wǎng)絡(luò)表示學(xué)習(xí)算法可以從高層領(lǐng)導(dǎo)節(jié)點(diǎn)開始,逐步向下學(xué)習(xí)各層級(jí)員工節(jié)點(diǎn)的向量表示,準(zhǔn)確反映出員工在組織中的層級(jí)位置和職責(zé)關(guān)系。如果網(wǎng)絡(luò)中高階鄰居關(guān)系復(fù)雜,基于路徑的網(wǎng)絡(luò)表示學(xué)習(xí)方法,通過分析節(jié)點(diǎn)之間的不同路徑信息來學(xué)習(xí)節(jié)點(diǎn)向量,能夠更好地捕捉高階鄰居關(guān)系所蘊(yùn)含的信息。在一個(gè)知識(shí)圖譜網(wǎng)絡(luò)中,基于路徑的方法可以通過分析實(shí)體之間的不同語義路徑,學(xué)習(xí)到更準(zhǔn)確的實(shí)體向量表示,為知識(shí)推理和問答系統(tǒng)提供更好的支持。三、保持廣義結(jié)構(gòu)的經(jīng)典網(wǎng)絡(luò)表示學(xué)習(xí)方法剖析3.1Deepwalk算法分析3.1.1算法原理與流程DeepWalk算法作為網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域的開創(chuàng)性算法,于2014年被BryanPerozzi等人提出,其核心思想巧妙地借鑒了自然語言處理中Word2Vec的Skip-gram模型。在現(xiàn)實(shí)世界的社交網(wǎng)絡(luò)中,節(jié)點(diǎn)之間的關(guān)系錯(cuò)綜復(fù)雜,如同自然語言中單詞之間的語義聯(lián)系。DeepWalk算法通過隨機(jī)游走的方式,將網(wǎng)絡(luò)中的節(jié)點(diǎn)序列轉(zhuǎn)化為類似于自然語言句子的形式,從而利用Skip-gram模型學(xué)習(xí)節(jié)點(diǎn)的向量表示。算法首先對每個(gè)源節(jié)點(diǎn)執(zhí)行一定長度的隨機(jī)游走,生成一系列節(jié)點(diǎn)序列。在一個(gè)社交網(wǎng)絡(luò)中,從用戶A節(jié)點(diǎn)開始隨機(jī)游走,假設(shè)用戶A有好友B、C、D,算法會(huì)以均勻概率隨機(jī)選擇其中一個(gè)好友,比如選擇了B,然后從B節(jié)點(diǎn)繼續(xù)隨機(jī)游走,B的好友有E、F,算法再隨機(jī)選擇E,如此重復(fù),直到達(dá)到預(yù)設(shè)的游走長度,這樣就生成了一個(gè)如[A,B,E]的節(jié)點(diǎn)序列。通過多次這樣的隨機(jī)游走,從每個(gè)節(jié)點(diǎn)出發(fā)都生成多個(gè)節(jié)點(diǎn)序列,這些序列模擬了網(wǎng)絡(luò)中節(jié)點(diǎn)間的局部鄰域結(jié)構(gòu),反映了節(jié)點(diǎn)間的連通性和社區(qū)屬性。將每個(gè)隨機(jī)游走序列視為一個(gè)“句子”,其中每個(gè)節(jié)點(diǎn)作為“詞”。構(gòu)建一個(gè)大型文本語料庫,其中每個(gè)“文檔”對應(yīng)一個(gè)節(jié)點(diǎn)的所有游走序列。在上述社交網(wǎng)絡(luò)例子中,從用戶A出發(fā)生成的多個(gè)節(jié)點(diǎn)序列,如[A,B,E]、[A,D,F]等,就構(gòu)成了A節(jié)點(diǎn)對應(yīng)的“文檔”。這個(gè)語料庫包含了網(wǎng)絡(luò)中豐富的節(jié)點(diǎn)關(guān)系信息。利用Word2Vec中的Skip-gram模型對構(gòu)建的語料庫進(jìn)行訓(xùn)練,學(xué)習(xí)每個(gè)節(jié)點(diǎn)(“詞”)的低維向量表示。Skip-gram模型的目標(biāo)是通過給定的中心詞預(yù)測其上下文詞,在DeepWalk中,就是通過一個(gè)節(jié)點(diǎn)預(yù)測其在隨機(jī)游走序列中的鄰居節(jié)點(diǎn)。通過最大化節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)在游走序列中出現(xiàn)的條件概率來優(yōu)化節(jié)點(diǎn)向量,使得在原始網(wǎng)絡(luò)中連接緊密的節(jié)點(diǎn)在低維向量空間中也具有相近的向量表示。在社交網(wǎng)絡(luò)中,經(jīng)常一起出現(xiàn)的用戶節(jié)點(diǎn),如在同一個(gè)興趣小組中的用戶,其向量表示在低維空間中會(huì)更加接近。下面展示一個(gè)使用Python實(shí)現(xiàn)DeepWalk算法的示例,并對關(guān)鍵部分進(jìn)行詳細(xì)講解。這里使用networkx庫來處理圖結(jié)構(gòu)數(shù)據(jù),以及gensim庫中的Word2Vec模型來學(xué)習(xí)節(jié)點(diǎn)嵌入。importnetworkxasnxfromgensim.modelsimportWord2VecimportrandomclassDeepWalk:def__init__(self,G,walk_length=80,num_walks=10,embedding_dim=128,window_size=5,workers=4):"""初始化DeepWalk類參數(shù):G(nx.Graph):待處理的網(wǎng)絡(luò)X圖對象walk_length(int):隨機(jī)游走的步長(默認(rèn)為80)num_walks(int):每個(gè)節(jié)點(diǎn)開始的游走次數(shù)(默認(rèn)為10)embedding_dim(int):節(jié)點(diǎn)嵌入維度(默認(rèn)為128)window_size(int):Word2Vec模型的窗口大小(默認(rèn)為5)workers(int):并行計(jì)算的進(jìn)程數(shù)(默認(rèn)為4)"""self.G=Gself.walk_length=walk_lengthself.num_walks=num_walksself.embedding_dim=embedding_dimself.window_size=window_sizeself.workers=workersdefsimulate_walks(self):"""生成隨機(jī)游走序列返回:list[list[str]]:所有節(jié)點(diǎn)游走序列組成的列表"""walks=[]nodes=list(self.G.nodes())for_inrange(self.num_walks):fornodeinnodes:walk=[str(node)]#將節(jié)點(diǎn)轉(zhuǎn)換為字符串以便Word2Vec處理for_inrange(self.walk_length-1):neighbors=list(self.G.neighbors(node))ifneighbors:next_node=random.choice(neighbors)walk.append(str(next_node))node=next_nodewalks.append(walk)returnwalksdeflearn_embeddings(self,walks):"""使用Word2Vec模型學(xué)習(xí)節(jié)點(diǎn)嵌入?yún)?shù):walks(list[list[str]]):隨機(jī)游走序列列表返回:dict[str,np.ndarray]:節(jié)點(diǎn)ID到嵌入向量的字典"""model=Word2Vec(walks,size=self.embedding_dim,window=self.window_size,min_count=1,sg=1,workers=self.workers)node_embeddings={node_id:model.wv[node_str]fornode_id,node_strinenumerate(model.wv.index_to_key)}returnnode_embeddingsdefrun(self):"""執(zhí)行DeepWalk算法,包括隨機(jī)游走和學(xué)習(xí)節(jié)點(diǎn)嵌入返回:dict[str,np.ndarray]:節(jié)點(diǎn)ID到嵌入向量的字典"""walks=self.simulate_walks()node_embeddings=self.learn_embeddings(walks)returnnode_embeddings#示例:使用DeepWalk對給定圖G進(jìn)行節(jié)點(diǎn)嵌入學(xué)習(xí)G=nx.read_edgelist('your_graph.edgelist',create_using=nx.Graph())#加載網(wǎng)絡(luò)數(shù)據(jù)deepwalk=DeepWalk(G)node_embeddings=deepwalk.run()在這段代碼中,DeepWalk類定義了算法所需的參數(shù),如游走長度、次數(shù)、嵌入維度等,并實(shí)現(xiàn)了隨機(jī)游走和學(xué)習(xí)節(jié)點(diǎn)嵌入的兩個(gè)核心方法。simulate_walks方法遍歷所有節(jié)點(diǎn),從每個(gè)節(jié)點(diǎn)開始執(zhí)行指定次數(shù)和長度的隨機(jī)游走,每次游走時(shí)從當(dāng)前節(jié)點(diǎn)的鄰居中隨機(jī)選擇一個(gè)進(jìn)行下一步,生成的所有游走序列被收集到一個(gè)列表中返回。learn_embeddings方法使用gensim庫的Word2Vec模型對游走序列進(jìn)行訓(xùn)練,模型參數(shù)設(shè)置與之前介紹的一致,訓(xùn)練完成后將節(jié)點(diǎn)ID與模型中對應(yīng)的嵌入向量建立映射關(guān)系并返回該字典。run方法封裝了整個(gè)DeepWalk算法的執(zhí)行過程,先調(diào)用simulate_walks生成隨機(jī)游走序列,再調(diào)用learn_embeddings學(xué)習(xí)節(jié)點(diǎn)嵌入,最后返回嵌入結(jié)果。3.1.2在保持廣義結(jié)構(gòu)方面的優(yōu)勢與局限D(zhuǎn)eepWalk算法在保持廣義結(jié)構(gòu)方面具有一定的優(yōu)勢,能夠有效地捕捉網(wǎng)絡(luò)的連接結(jié)構(gòu)信息。由于隨機(jī)游走過程是基于網(wǎng)絡(luò)的邊進(jìn)行的,所以它能夠很好地反映節(jié)點(diǎn)之間的直接連接關(guān)系,即一階鄰居關(guān)系。在一個(gè)社交網(wǎng)絡(luò)中,通過隨機(jī)游走生成的節(jié)點(diǎn)序列,能夠體現(xiàn)出用戶之間的直接好友關(guān)系。經(jīng)常一起出現(xiàn)在隨機(jī)游走序列中的節(jié)點(diǎn),表明它們在原始網(wǎng)絡(luò)中連接緊密,在學(xué)習(xí)得到的向量表示中,這些節(jié)點(diǎn)的向量也會(huì)較為接近,從而保留了網(wǎng)絡(luò)的局部連接結(jié)構(gòu)。在一個(gè)包含用戶和商品的電商網(wǎng)絡(luò)中,通過DeepWalk算法,與某一熱門商品經(jīng)常同時(shí)出現(xiàn)在隨機(jī)游走序列中的用戶節(jié)點(diǎn),其向量表示會(huì)與該商品節(jié)點(diǎn)的向量接近,這有助于發(fā)現(xiàn)對該商品感興趣的潛在用戶。DeepWalk算法在捕捉廣義結(jié)構(gòu)中的復(fù)雜關(guān)系時(shí)存在一定的局限性。該算法主要關(guān)注的是節(jié)點(diǎn)的局部鄰域結(jié)構(gòu),對于高階鄰居關(guān)系的捕捉能力有限。在社交網(wǎng)絡(luò)中,用戶之間除了直接好友關(guān)系(一階鄰居)外,還存在通過朋友的朋友等形成的高階鄰居關(guān)系,這些高階關(guān)系蘊(yùn)含著豐富的社交信息,如共同的興趣愛好、社交圈子等。DeepWalk算法由于隨機(jī)游走的局限性,很難全面地捕捉到這些高階鄰居關(guān)系,導(dǎo)致學(xué)習(xí)到的節(jié)點(diǎn)向量無法充分反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的全局位置和角色。在一個(gè)學(xué)術(shù)合作網(wǎng)絡(luò)中,一篇論文除了與直接引用它的論文(一階鄰居)有聯(lián)系外,還與那些通過其他論文間接引用它的論文(高階鄰居)存在關(guān)聯(lián),DeepWalk算法難以有效挖掘這些高階引用關(guān)系,從而影響對論文學(xué)術(shù)價(jià)值和研究方向的全面理解。DeepWalk算法在處理社區(qū)結(jié)構(gòu)方面也存在不足。雖然隨機(jī)游走在一定程度上能夠在社區(qū)內(nèi)進(jìn)行,但它缺乏對社區(qū)結(jié)構(gòu)的明確感知和利用。在社交網(wǎng)絡(luò)中,不同的社區(qū)具有不同的特征和功能,如興趣愛好社區(qū)、職業(yè)社區(qū)等。DeepWalk算法無法自動(dòng)識(shí)別這些社區(qū),也不能充分利用社區(qū)結(jié)構(gòu)信息來優(yōu)化節(jié)點(diǎn)向量表示,使得在學(xué)習(xí)節(jié)點(diǎn)向量時(shí),可能會(huì)將不同社區(qū)中結(jié)構(gòu)相似但語義不同的節(jié)點(diǎn)賦予相似的向量表示,從而降低了向量表示的準(zhǔn)確性和區(qū)分度。在一個(gè)包含多個(gè)興趣愛好社區(qū)的社交網(wǎng)絡(luò)中,DeepWalk算法可能會(huì)將來自不同興趣社區(qū)但鄰居結(jié)構(gòu)相似的用戶節(jié)點(diǎn)的向量表示得過于接近,無法準(zhǔn)確反映用戶的真實(shí)興趣愛好。3.2LINE算法分析3.2.1一階相似度與二階鄰近度LINE(Large-scaleInformationNetworkEmbedding)算法由微軟研究院的研究團(tuán)隊(duì)于2015年提出,旨在解決大規(guī)模信息網(wǎng)絡(luò)的節(jié)點(diǎn)表示學(xué)習(xí)問題。該算法創(chuàng)新性地提出了一階相似度和二階鄰近度的概念,為網(wǎng)絡(luò)表示學(xué)習(xí)提供了新的思路。一階相似度用于描述圖中成對頂點(diǎn)之間的局部相似度,若兩個(gè)節(jié)點(diǎn)u、v之間存在直連邊,則邊權(quán)wuv即為兩個(gè)頂點(diǎn)的相似度;若不存在直連邊,則一階相似度為0。在一個(gè)社交網(wǎng)絡(luò)中,用戶A和用戶B是直接好友關(guān)系,他們之間的邊權(quán)較大,這就表明A和B具有較高的一階相似度,意味著他們在局部結(jié)構(gòu)上緊密相連,在低維向量空間中,他們的向量表示也應(yīng)較為接近。而用戶C和用戶D沒有直接連接,他們的一階相似度為0。一階相似度能夠直接反映節(jié)點(diǎn)之間的直接連接關(guān)系,對于捕捉網(wǎng)絡(luò)的局部結(jié)構(gòu)信息具有重要作用。在一個(gè)電商網(wǎng)絡(luò)中,某商品與經(jīng)常購買它的用戶節(jié)點(diǎn)之間具有較高的一階相似度,通過學(xué)習(xí)這種一階相似度,可以快速識(shí)別出對該商品感興趣的核心用戶群體。二階鄰近度描述的是兩個(gè)頂點(diǎn)之間沒有直接相連,但它們擁有相同的鄰居的情況。令pu=(wu1,…,wu|V|)表示頂點(diǎn)u與所有其他頂點(diǎn)間的一階相似度,則u與v的二階相似度可以通過pu和pv的相似度表示。若u與v之間不存在相同的鄰居頂點(diǎn),則二階相似度為0。在社交網(wǎng)絡(luò)中,用戶E和用戶F沒有直接的好友關(guān)系,但他們有很多共同的好友,這就說明E和F具有較高的二階鄰近度,即使他們沒有直接聯(lián)系,在語義上也可能具有相似性,在低維向量空間中,他們的向量表示也會(huì)比較接近。二階鄰近度能夠捕捉網(wǎng)絡(luò)中節(jié)點(diǎn)之間的間接關(guān)系,從更全局的角度反映節(jié)點(diǎn)之間的相似性。在學(xué)術(shù)引用網(wǎng)絡(luò)中,兩篇論文雖然沒有直接的引用關(guān)系,但它們被許多相同的其他論文引用,這表明這兩篇論文具有較高的二階鄰近度,它們可能在研究主題或方法上具有相似性,通過學(xué)習(xí)二階鄰近度,可以挖掘出這些潛在的學(xué)術(shù)關(guān)聯(lián)。3.2.2算法實(shí)現(xiàn)與廣義結(jié)構(gòu)保持效果LINE算法基于一階相似度和二階鄰近度的概念,通過優(yōu)化目標(biāo)函數(shù)來學(xué)習(xí)節(jié)點(diǎn)的向量表示。對于一階相似度,對于每一條無向邊(i,j),定義頂點(diǎn)vi和vj之間的聯(lián)合概率為:p1(vi,vj)=1/(1+exp(?ui^T?uj)),其中ui為頂點(diǎn)vi的低維向量表示。依據(jù)邊的權(quán)值,可得經(jīng)驗(yàn)分布:p1′(i,j)=wij/W,W=∑i,j∈Ewij,W為圖中邊的權(quán)值之和。為了保證一階相似度,使用KL散度來衡量兩種分布的相似性,去掉常數(shù)項(xiàng)后,得到的損失函數(shù)為:L1=?∑(i,j)∈Ewijlog(p1(vi,vj))。通過最小化L1,能夠保證圖中節(jié)點(diǎn)embedding的一階相似度,使得直接相連的節(jié)點(diǎn)在低維向量空間中具有相近的向量表示。對于二階鄰近度,以有向邊為例,對于有向邊(i,j),定義節(jié)點(diǎn)的上下文(鄰接)節(jié)點(diǎn)的概率為:p2(vj|vi)=exp(u′j^T?ui)/∑|V|k=1exp(u′k^T?ui)。優(yōu)化目標(biāo)是最小化分布之間的距離,考慮到圖中的節(jié)點(diǎn)重要性可能不一樣,設(shè)置了參數(shù)來對節(jié)點(diǎn)進(jìn)行加權(quán)。經(jīng)驗(yàn)分布被定義為:p2′(vj|vi)=wij/di,其中wij是邊(i,j)的權(quán)重,di是節(jié)點(diǎn)i的出度。同樣采用KL散度作為距離度量,得到優(yōu)化目標(biāo)。通過最小化與二階鄰近度相關(guān)的損失函數(shù),能夠使具有相同鄰居的節(jié)點(diǎn)在低維向量空間中具有相近的向量表示。LINE算法在保持廣義結(jié)構(gòu)方面具有一定的效果。在局部結(jié)構(gòu)保持方面,一階相似度的引入使得直接相連的節(jié)點(diǎn)在向量空間中距離相近,很好地保留了網(wǎng)絡(luò)的局部連接信息。在一個(gè)社交網(wǎng)絡(luò)中,直接好友節(jié)點(diǎn)的向量表示會(huì)緊密聚集在一起,這有助于發(fā)現(xiàn)網(wǎng)絡(luò)中的局部社區(qū)結(jié)構(gòu),如興趣小組、社團(tuán)等。通過分析這些局部緊密相連的節(jié)點(diǎn)向量,可以快速識(shí)別出具有共同興趣愛好或行為特征的用戶群體。在全局結(jié)構(gòu)保持方面,二階鄰近度的考慮使得具有相同鄰居的節(jié)點(diǎn)在向量空間中也能表現(xiàn)出相似性,從而在一定程度上捕捉到了網(wǎng)絡(luò)的全局結(jié)構(gòu)信息。在學(xué)術(shù)引用網(wǎng)絡(luò)中,通過二階鄰近度,即使兩篇論文沒有直接引用關(guān)系,但如果它們被許多相同的其他論文引用,它們的向量表示也會(huì)相近,這有助于挖掘出不同研究方向之間的潛在聯(lián)系,發(fā)現(xiàn)學(xué)術(shù)領(lǐng)域中的跨學(xué)科研究趨勢。LINE算法在保持廣義結(jié)構(gòu)時(shí)也存在一些局限性。雖然二階鄰近度能捕捉部分全局信息,但對于更復(fù)雜的高階結(jié)構(gòu)信息,如通過多個(gè)中間節(jié)點(diǎn)形成的復(fù)雜關(guān)系,LINE算法的捕捉能力有限。在一個(gè)復(fù)雜的社交網(wǎng)絡(luò)中,用戶之間通過朋友的朋友的朋友等形成的復(fù)雜關(guān)系,LINE算法難以全面準(zhǔn)確地捕捉,導(dǎo)致在處理這種復(fù)雜網(wǎng)絡(luò)時(shí),無法充分反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的真實(shí)位置和角色。對于大規(guī)模網(wǎng)絡(luò)中節(jié)點(diǎn)的動(dòng)態(tài)變化,LINE算法的適應(yīng)性有待提高。當(dāng)新節(jié)點(diǎn)加入或現(xiàn)有節(jié)點(diǎn)關(guān)系發(fā)生變化時(shí),重新計(jì)算節(jié)點(diǎn)向量的效率較低,難以滿足實(shí)時(shí)性要求。在一個(gè)實(shí)時(shí)更新的社交網(wǎng)絡(luò)中,新用戶不斷加入,用戶之間的好友關(guān)系也不斷變化,LINE算法需要花費(fèi)較長時(shí)間來更新節(jié)點(diǎn)向量,無法及時(shí)為推薦系統(tǒng)等應(yīng)用提供最新的節(jié)點(diǎn)表示。3.3node2vec算法分析3.3.1改進(jìn)的隨機(jī)游走策略node2vec算法是由AdityaGrover和JureLeskovec于2016年提出的一種網(wǎng)絡(luò)表示學(xué)習(xí)方法,它在DeepWalk算法的基礎(chǔ)上,對隨機(jī)游走策略進(jìn)行了創(chuàng)新性改進(jìn)。DeepWalk算法中的隨機(jī)游走是完全隨機(jī)的,從當(dāng)前節(jié)點(diǎn)的鄰居中均勻選擇下一個(gè)節(jié)點(diǎn),這種方式雖然能夠在一定程度上探索網(wǎng)絡(luò)的結(jié)構(gòu),但對于網(wǎng)絡(luò)中不同類型的結(jié)構(gòu)信息挖掘不夠全面。node2vec算法引入了兩個(gè)重要參數(shù)p和q,通過靈活調(diào)整這兩個(gè)參數(shù),可以實(shí)現(xiàn)對深度優(yōu)先搜索(DFS)和廣度優(yōu)先搜索(BFS)的有效平衡,從而更全面地捕捉網(wǎng)絡(luò)結(jié)構(gòu)信息。具體來說,在node2vec的隨機(jī)游走過程中,假設(shè)當(dāng)前節(jié)點(diǎn)為v,其前驅(qū)節(jié)點(diǎn)為t,下一步要從v的鄰居節(jié)點(diǎn)中選擇一個(gè)節(jié)點(diǎn)繼續(xù)游走。此時(shí),定義從v到鄰居節(jié)點(diǎn)x的轉(zhuǎn)移概率為:P(c_{i+1}=x|c_i=v,c_{i-1}=t)=\begin{cases}\frac{\pi_{vx}}{Z}&\text{if}(v,x)\inE\\0&\text{otherwise}\end{cases}其中,c_i表示隨機(jī)游走序列中的第i個(gè)節(jié)點(diǎn),\pi_{vx}是節(jié)點(diǎn)v到x的非標(biāo)準(zhǔn)化轉(zhuǎn)移概率,Z是歸一化常數(shù),用于確保所有可能的轉(zhuǎn)移概率之和為1。而\pi_{vx}的計(jì)算方式為:\pi_{vx}=\begin{cases}\frac{1}{p}&\text{if}x=t\\1&\text{if}d_{tx}=1\\\frac{1}{q}&\text{if}d_{tx}=2\end{cases}這里,d_{tx}表示節(jié)點(diǎn)t和x之間的最短路徑距離。當(dāng)x=t時(shí),即回到前驅(qū)節(jié)點(diǎn),轉(zhuǎn)移概率為\frac{1}{p},p被稱為返回參數(shù)。p值越小,隨機(jī)游走越傾向于回到之前訪問過的節(jié)點(diǎn),更偏向于深度優(yōu)先搜索,能夠深入探索網(wǎng)絡(luò)的局部緊密連接結(jié)構(gòu),挖掘出網(wǎng)絡(luò)中的社區(qū)內(nèi)部結(jié)構(gòu)信息。在一個(gè)社交網(wǎng)絡(luò)的興趣小組社區(qū)中,較小的p值可以使隨機(jī)游走更多地在小組內(nèi)部節(jié)點(diǎn)之間進(jìn)行,從而捕捉到小組內(nèi)成員之間緊密的互動(dòng)關(guān)系。當(dāng)d_{tx}=1時(shí),即x是v的鄰居節(jié)點(diǎn)且不是前驅(qū)節(jié)點(diǎn)t,轉(zhuǎn)移概率為1,這是一種常見的隨機(jī)游走情況。當(dāng)d_{tx}=2時(shí),即x是v的鄰居節(jié)點(diǎn)且與前驅(qū)節(jié)點(diǎn)t的距離為2,轉(zhuǎn)移概率為\frac{1}{q},q被稱為進(jìn)出參數(shù)。q值越小,隨機(jī)游走越傾向于訪問距離較遠(yuǎn)的節(jié)點(diǎn),更偏向于廣度優(yōu)先搜索,能夠更廣泛地探索網(wǎng)絡(luò)的全局稀疏連接結(jié)構(gòu),發(fā)現(xiàn)不同社區(qū)之間的聯(lián)系以及網(wǎng)絡(luò)中的長距離依賴關(guān)系。在一個(gè)跨學(xué)科的學(xué)術(shù)合作網(wǎng)絡(luò)中,較小的q值可以使隨機(jī)游走跨越不同的學(xué)科社區(qū),捕捉到不同學(xué)科領(lǐng)域研究人員之間的合作關(guān)系。通過合理調(diào)整p和q的值,node2vec能夠在不同的網(wǎng)絡(luò)結(jié)構(gòu)中自適應(yīng)地進(jìn)行隨機(jī)游走,生成包含豐富結(jié)構(gòu)信息的節(jié)點(diǎn)序列,為后續(xù)的節(jié)點(diǎn)向量學(xué)習(xí)提供更全面的數(shù)據(jù)基礎(chǔ)。3.3.2對廣義結(jié)構(gòu)的適應(yīng)性與改進(jìn)相較于DeepWalk算法,node2vec在捕捉廣義結(jié)構(gòu)方面實(shí)現(xiàn)了顯著的改進(jìn),對不同網(wǎng)絡(luò)結(jié)構(gòu)中的廣義結(jié)構(gòu)具有更強(qiáng)的適應(yīng)性。DeepWalk算法由于隨機(jī)游走的盲目性,在挖掘高階鄰居關(guān)系和復(fù)雜社區(qū)結(jié)構(gòu)時(shí)存在明顯的局限性。它難以全面捕捉節(jié)點(diǎn)之間通過多個(gè)中間節(jié)點(diǎn)形成的高階鄰居關(guān)系,對于社區(qū)結(jié)構(gòu)的挖掘也不夠精確,無法有效區(qū)分不同社區(qū)的特征和邊界。而node2vec通過改進(jìn)的隨機(jī)游走策略,能夠更有效地捕捉廣義結(jié)構(gòu)信息。在捕捉高階鄰居關(guān)系方面,node2vec通過參數(shù)p和q的調(diào)整,可以生成包含更多高階鄰居信息的節(jié)點(diǎn)序列。當(dāng)q值較小時(shí),隨機(jī)游走更傾向于探索遠(yuǎn)距離的節(jié)點(diǎn),這使得它能夠跨越多個(gè)中間節(jié)點(diǎn),從而捕捉到節(jié)點(diǎn)之間的高階鄰居關(guān)系。在一個(gè)社交網(wǎng)絡(luò)中,通過調(diào)整q值,node2vec可以找到用戶A通過多個(gè)朋友間接聯(lián)系到的其他用戶,這些間接聯(lián)系的用戶構(gòu)成了A的高階鄰居,node2vec能夠?qū)⑦@些高階鄰居關(guān)系信息融入到節(jié)點(diǎn)序列中,進(jìn)而在學(xué)習(xí)節(jié)點(diǎn)向量時(shí)保留這些信息。在處理社區(qū)結(jié)構(gòu)方面,node2vec具有更強(qiáng)的社區(qū)感知能力。當(dāng)p值較小時(shí),隨機(jī)游走更傾向于在局部社區(qū)內(nèi)進(jìn)行,能夠深入挖掘社區(qū)內(nèi)部的緊密連接結(jié)構(gòu),準(zhǔn)確捕捉社區(qū)內(nèi)節(jié)點(diǎn)之間的關(guān)系。在一個(gè)由攝影愛好者組成的社區(qū)中,較小的p值可以使隨機(jī)游走頻繁地在該社區(qū)內(nèi)的用戶節(jié)點(diǎn)之間進(jìn)行,從而學(xué)習(xí)到該社區(qū)內(nèi)用戶之間的共同興趣愛好、互動(dòng)模式等特征。通過不同參數(shù)設(shè)置下的多次隨機(jī)游走,node2vec能夠綜合考慮社區(qū)內(nèi)和社區(qū)間的結(jié)構(gòu)信息,更好地定義社區(qū)邊界,區(qū)分不同社區(qū)的特征。在一個(gè)包含多個(gè)興趣社區(qū)的社交網(wǎng)絡(luò)中,node2vec可以通過調(diào)整參數(shù),分別捕捉每個(gè)社區(qū)的獨(dú)特特征,以及不同社區(qū)之間的聯(lián)系,使得學(xué)習(xí)到的節(jié)點(diǎn)向量能夠準(zhǔn)確反映節(jié)點(diǎn)所在的社區(qū)信息。node2vec算法對不同網(wǎng)絡(luò)結(jié)構(gòu)中的廣義結(jié)構(gòu)具有廣泛的適應(yīng)性。在具有明顯層次結(jié)構(gòu)的網(wǎng)絡(luò)中,如企業(yè)組織架構(gòu)網(wǎng)絡(luò),node2vec可以通過調(diào)整參數(shù),使隨機(jī)游走沿著層次結(jié)構(gòu)進(jìn)行,捕捉到不同層級(jí)節(jié)點(diǎn)之間的關(guān)系。從高層領(lǐng)導(dǎo)節(jié)點(diǎn)開始,逐漸向下游走,能夠?qū)W習(xí)到不同層級(jí)員工在組織中的角色和職責(zé)關(guān)系,以及不同部門之間的協(xié)作關(guān)系。在具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)中,如生物分子交互網(wǎng)絡(luò),node2vec的靈活隨機(jī)游走策略能夠適應(yīng)網(wǎng)絡(luò)中節(jié)點(diǎn)之間復(fù)雜的連接方式,挖掘出分子之間的多種相互作用關(guān)系,為生物醫(yī)學(xué)研究提供更全面的信息。四、基于廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法改進(jìn)與創(chuàng)新4.1針對現(xiàn)有方法局限性的改進(jìn)思路現(xiàn)有保持廣義結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)方法雖取得一定成果,但仍存在諸多局限,針對這些不足,本研究提出以下改進(jìn)思路。在目標(biāo)函數(shù)優(yōu)化方面,現(xiàn)有方法的目標(biāo)函數(shù)往往無法全面反映廣義結(jié)構(gòu)信息。以DeepWalk算法為例,其目標(biāo)函數(shù)基于Skip-gram模型,主要關(guān)注節(jié)點(diǎn)的局部鄰接關(guān)系,對于高階鄰居關(guān)系和社區(qū)結(jié)構(gòu)等廣義結(jié)構(gòu)信息的體現(xiàn)不夠充分。為了改進(jìn)這一問題,可以在目標(biāo)函數(shù)中引入新的約束項(xiàng),以增強(qiáng)對廣義結(jié)構(gòu)的保持能力。在社交網(wǎng)絡(luò)中,為了更好地捕捉社區(qū)結(jié)構(gòu)信息,可以在目標(biāo)函數(shù)中添加一個(gè)基于社區(qū)模塊度的約束項(xiàng)。社區(qū)模塊度是衡量社區(qū)結(jié)構(gòu)緊密程度的重要指標(biāo),其計(jì)算公式為:Q=\frac{1}{2m}\sum_{ij}\left(A_{ij}-\frac{k_ik_j}{2m}\right)\delta(c_i,c_j)其中,m是網(wǎng)絡(luò)中邊的總數(shù),A_{ij}是節(jié)點(diǎn)i和j之間的鄰接矩陣元素,k_i和k_j分別是節(jié)點(diǎn)i和j的度,\delta(c_i,c_j)是一個(gè)指示函數(shù),當(dāng)節(jié)點(diǎn)i和j屬于同一個(gè)社區(qū)c時(shí)為1,否則為0。將社區(qū)模塊度作為約束項(xiàng)添加到目標(biāo)函數(shù)中,能夠使學(xué)習(xí)過程更加關(guān)注社區(qū)結(jié)構(gòu),促使同一社區(qū)內(nèi)的節(jié)點(diǎn)在向量空間中更加緊密地聚集在一起。在一個(gè)包含多個(gè)興趣社區(qū)的社交網(wǎng)絡(luò)中,通過這種方式可以使屬于攝影興趣社區(qū)的用戶節(jié)點(diǎn)向量在低維空間中相互靠近,更好地體現(xiàn)社區(qū)結(jié)構(gòu)信息。對于高階鄰居關(guān)系的捕捉,現(xiàn)有方法也存在不足。許多基于隨機(jī)游走的方法在生成節(jié)點(diǎn)序列時(shí),難以充分覆蓋高階鄰居信息。可以通過改進(jìn)隨機(jī)游走策略,增加對高階鄰居節(jié)點(diǎn)的采樣概率。設(shè)計(jì)一種基于路徑長度的隨機(jī)游走策略,在隨機(jī)游走過程中,以一定概率選擇距離當(dāng)前節(jié)點(diǎn)更遠(yuǎn)的高階鄰居節(jié)點(diǎn)作為下一個(gè)游走節(jié)點(diǎn)。在一個(gè)社交網(wǎng)絡(luò)中,當(dāng)隨機(jī)游走到達(dá)某個(gè)用戶節(jié)點(diǎn)時(shí),以一定概率選擇該用戶的二階或三階鄰居節(jié)點(diǎn)繼續(xù)游走,這樣可以生成包含更多高階鄰居信息的節(jié)點(diǎn)序列。還可以引入基于注意力機(jī)制的目標(biāo)函數(shù),讓模型在學(xué)習(xí)節(jié)點(diǎn)向量時(shí),能夠根據(jù)節(jié)點(diǎn)之間路徑的重要性,自適應(yīng)地分配權(quán)重,從而更有效地捕捉高階鄰居關(guān)系。在學(xué)術(shù)引用網(wǎng)絡(luò)中,對于那些在學(xué)術(shù)研究中具有重要橋梁作用的節(jié)點(diǎn)路徑,模型可以給予更高的注意力權(quán)重,使得學(xué)習(xí)到的節(jié)點(diǎn)向量能夠更好地反映論文之間通過這些重要路徑形成的高階引用關(guān)系。在多源信息融合方面,現(xiàn)有方法在融合網(wǎng)絡(luò)中的多種結(jié)構(gòu)信息以及屬性信息時(shí)存在困難。許多方法在處理具有復(fù)雜屬性信息的網(wǎng)絡(luò)時(shí),只是簡單地將屬性信息與結(jié)構(gòu)信息拼接在一起輸入模型,沒有充分挖掘?qū)傩孕畔⑴c結(jié)構(gòu)信息之間的內(nèi)在聯(lián)系。為了有效融合多源信息,可以采用多模態(tài)融合的方法,針對不同類型的信息設(shè)計(jì)不同的處理模塊,然后再將這些模塊的輸出進(jìn)行融合。在一個(gè)包含用戶屬性信息(如年齡、性別、興趣標(biāo)簽)和社交關(guān)系結(jié)構(gòu)信息的社交網(wǎng)絡(luò)中,可以設(shè)計(jì)一個(gè)屬性信息處理模塊,采用多層感知機(jī)(MLP)對用戶屬性進(jìn)行特征提?。煌瑫r(shí)設(shè)計(jì)一個(gè)結(jié)構(gòu)信息處理模塊,如基于圖注意力網(wǎng)絡(luò)(GAT)對社交關(guān)系結(jié)構(gòu)進(jìn)行建模。將這兩個(gè)模塊的輸出通過加權(quán)求和或其他融合方式進(jìn)行整合,得到更全面的節(jié)點(diǎn)表示。還可以利用知識(shí)圖譜等外部知識(shí)源來豐富網(wǎng)絡(luò)表示學(xué)習(xí)的信息。在學(xué)術(shù)領(lǐng)域,將學(xué)術(shù)論文網(wǎng)絡(luò)與知識(shí)圖譜中的學(xué)術(shù)概念、研究主題等知識(shí)相結(jié)合,能夠?yàn)榫W(wǎng)絡(luò)表示學(xué)習(xí)提供更豐富的語義信息。通過將論文節(jié)點(diǎn)與知識(shí)圖譜中的相關(guān)概念節(jié)點(diǎn)建立關(guān)聯(lián),利用知識(shí)圖譜中的語義關(guān)系來指導(dǎo)論文節(jié)點(diǎn)向量的學(xué)習(xí),從而使學(xué)習(xí)到的節(jié)點(diǎn)向量能夠更好地反映論文的學(xué)術(shù)主題和研究方向。在一個(gè)關(guān)于人工智能領(lǐng)域的學(xué)術(shù)論文網(wǎng)絡(luò)中,結(jié)合知識(shí)圖譜中關(guān)于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等概念之間的關(guān)系,可以更準(zhǔn)確地學(xué)習(xí)到論文節(jié)點(diǎn)的向量表示,發(fā)現(xiàn)不同研究方向之間的潛在聯(lián)系。4.2融合社區(qū)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)新方法4.2.1社區(qū)結(jié)構(gòu)挖掘算法選擇在網(wǎng)絡(luò)表示學(xué)習(xí)中,挖掘網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)是融合社區(qū)信息的關(guān)鍵前提。經(jīng)過深入研究與對比分析,本研究選用Louvain算法來挖掘網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu),該算法具有高效性和良好的社區(qū)劃分效果,能夠快速準(zhǔn)確地識(shí)別出網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。Louvain算法的核心目標(biāo)是通過不斷優(yōu)化模塊度(Modularity)來實(shí)現(xiàn)網(wǎng)絡(luò)的社區(qū)劃分。模塊度是衡量社區(qū)劃分質(zhì)量的重要指標(biāo),其定義為:Q=\frac{1}{2m}\sum_{ij}\left(A_{ij}-\frac{k_ik_j}{2m}\right)\delta(c_i,c_j)其中,m是網(wǎng)絡(luò)中邊的總數(shù),A_{ij}是節(jié)點(diǎn)i和j之間的鄰接矩陣元素,k_i和k_j分別是節(jié)點(diǎn)i和j的度,\delta(c_i,c_j)是一個(gè)指示函數(shù),當(dāng)節(jié)點(diǎn)i和j屬于同一個(gè)社區(qū)c時(shí)為1,否則為0。模塊度Q的取值范圍是[-0.5,1),其值越接近1,表示社區(qū)劃分的效果越好,即社區(qū)內(nèi)部的連接越緊密,社區(qū)之間的連接越稀疏。Louvain算法主要分為兩個(gè)階段,并且這兩個(gè)階段會(huì)不斷重復(fù),直至模塊度不再提升。在第一階段,即局部優(yōu)化階段,初始時(shí),每個(gè)節(jié)點(diǎn)都被視為一個(gè)獨(dú)立的社區(qū)。對于網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn),算法會(huì)檢查將該節(jié)點(diǎn)從當(dāng)前社區(qū)移到與其相鄰的某個(gè)社區(qū)中,是否能使整個(gè)網(wǎng)絡(luò)的模塊度增加。如果模塊度增加,就將節(jié)點(diǎn)移動(dòng)到那個(gè)社區(qū)中。這個(gè)過程會(huì)多次迭代,直到?jīng)]有節(jié)點(diǎn)移動(dòng)能帶來模塊度的提升為止,此時(shí)達(dá)到局部最優(yōu)。在一個(gè)社交網(wǎng)絡(luò)中,最初每個(gè)用戶節(jié)點(diǎn)都是一個(gè)單獨(dú)的社區(qū),算法會(huì)逐一檢查每個(gè)用戶節(jié)點(diǎn),看將其移動(dòng)到鄰居用戶所在的社區(qū)是否能提高模塊度。如果某個(gè)用戶經(jīng)常與某個(gè)興趣小組內(nèi)的用戶互動(dòng)頻繁,將其移動(dòng)到該興趣小組所在的社區(qū)會(huì)使模塊度增加,那么該用戶就會(huì)被移動(dòng)到這個(gè)社區(qū)中。在第二階段,即社區(qū)聚合階段,算法會(huì)將在第一階段形成的各個(gè)社區(qū)看作是新的“超級(jí)節(jié)點(diǎn)”,構(gòu)建一個(gè)新的網(wǎng)絡(luò)圖。新網(wǎng)絡(luò)中的邊權(quán)重通常是原來兩個(gè)社區(qū)之間所有邊的權(quán)重之和。在新網(wǎng)絡(luò)上再次應(yīng)用第一階段的局部優(yōu)化,反復(fù)進(jìn)行直到模塊度無法繼續(xù)提升。在上述社交網(wǎng)絡(luò)例子中,經(jīng)過第一階段的局部優(yōu)化后,形成了多個(gè)興趣小組社區(qū),此時(shí)將每個(gè)興趣小組社區(qū)看作一個(gè)超級(jí)節(jié)點(diǎn),這些超級(jí)節(jié)點(diǎn)之間的邊權(quán)重就是原來不同興趣小組社區(qū)用戶之間的互動(dòng)強(qiáng)度之和。然后在這個(gè)新的超級(jí)節(jié)點(diǎn)網(wǎng)絡(luò)上再次進(jìn)行局部優(yōu)化,進(jìn)一步調(diào)整社區(qū)結(jié)構(gòu),直到模塊度不再提升,得到最終的社區(qū)劃分結(jié)果。在實(shí)際應(yīng)用中,使用Louvain算法挖掘網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的步驟如下:使用networkx庫讀取網(wǎng)絡(luò)數(shù)據(jù),將其轉(zhuǎn)化為圖結(jié)構(gòu)對象。然后調(diào)用Louvain算法的實(shí)現(xiàn)函數(shù),這里可以使用python-louvain庫中的louvain.find_communities函數(shù)。將圖結(jié)構(gòu)對象傳入該函數(shù),函數(shù)會(huì)自動(dòng)執(zhí)行Louvain算法的兩個(gè)階段,不斷優(yōu)化模塊度,最終返回網(wǎng)絡(luò)的社區(qū)劃分結(jié)果。劃分結(jié)果通常以字典的形式呈現(xiàn),其中鍵是節(jié)點(diǎn)ID,值是該節(jié)點(diǎn)所屬的社區(qū)編號(hào)。通過這種方式,能夠清晰地獲取網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的社區(qū)歸屬信息,為后續(xù)融合社區(qū)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)提供基礎(chǔ)。4.2.2新方法的模型構(gòu)建與實(shí)現(xiàn)在挖掘出網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)后,構(gòu)建融合社區(qū)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)模型,具體實(shí)現(xiàn)步驟如下。對每個(gè)節(jié)點(diǎn)進(jìn)行初始向量表示。使用現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法,如DeepWalk算法,對網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)進(jìn)行初步的向量表示學(xué)習(xí)。通過在網(wǎng)絡(luò)上進(jìn)行隨機(jī)游走,生成節(jié)點(diǎn)序列,再利用Skip-gram模型將節(jié)點(diǎn)序列轉(zhuǎn)化為低維向量。在一個(gè)社交網(wǎng)絡(luò)中,從每個(gè)用戶節(jié)點(diǎn)出發(fā)進(jìn)行隨機(jī)游走,生成一系列包含用戶社交關(guān)系的節(jié)點(diǎn)序列,然后使用Skip-gram模型學(xué)習(xí)每個(gè)用戶節(jié)點(diǎn)的初始向量,這些初始向量包含了節(jié)點(diǎn)的基本連接信息,但尚未充分考慮社區(qū)結(jié)構(gòu)信息。將社區(qū)信息融入節(jié)點(diǎn)向量學(xué)習(xí)。為每個(gè)社區(qū)計(jì)算一個(gè)社區(qū)向量,社區(qū)向量的計(jì)算可以通過對社區(qū)內(nèi)所有節(jié)點(diǎn)的初始向量進(jìn)行聚合得到。可以采用均值聚合的方法,即將社區(qū)內(nèi)所有節(jié)點(diǎn)的初始向量相加后求平均值,得到該社區(qū)的向量表示。在一個(gè)興趣小組社區(qū)中,將社區(qū)內(nèi)所有用戶節(jié)點(diǎn)的初始向量相加,然后除以節(jié)點(diǎn)數(shù)量,得到該興趣小組社區(qū)的向量。在學(xué)習(xí)節(jié)點(diǎn)向量時(shí),引入社區(qū)向量的信息。通過設(shè)計(jì)一個(gè)注意力機(jī)制,讓節(jié)點(diǎn)向量的更新能夠自適應(yīng)地考慮社區(qū)向量的影響。具體來說,計(jì)算節(jié)點(diǎn)與所屬社區(qū)向量之間的注意力權(quán)重,權(quán)重的計(jì)算可以基于節(jié)點(diǎn)向量與社區(qū)向量的相似度。使用余弦相似度來計(jì)算節(jié)點(diǎn)向量v_i與社區(qū)向量c_j之間的相似度:sim(v_i,c_j)=\frac{v_i\cdotc_j}{\left\|v_i\right\|\left\|c_j\right\|}然后通過softmax函數(shù)將相似度轉(zhuǎn)化為注意力權(quán)重:\alpha_{ij}=\frac{exp(sim(v_i,c_j))}{\sum_{k\inN_i}exp(sim(v_i,c_k))}其中,N_i是節(jié)點(diǎn)i所屬的社區(qū)集合。根據(jù)注意力權(quán)重,更新節(jié)點(diǎn)向量:v_i^{new}=(1-\alpha_{ij})v_i+\alpha_{ij}c_j通過這種方式,節(jié)點(diǎn)向量在更新時(shí)能夠充分考慮所屬社區(qū)的特征,使學(xué)習(xí)到的節(jié)點(diǎn)向量不僅包含節(jié)點(diǎn)的連接信息,還包含社區(qū)結(jié)構(gòu)信息。在一個(gè)社交網(wǎng)絡(luò)中,對于屬于攝影興趣社區(qū)的用戶節(jié)點(diǎn),通過注意力機(jī)制,該節(jié)點(diǎn)向量會(huì)更多地融合攝影興趣社區(qū)向量的特征,從而更準(zhǔn)確地表示該用戶在攝影興趣社區(qū)中的角色和地位。下面給出使用Python實(shí)現(xiàn)上述模型的示例代碼:importnetworkxasnxfromgensim.modelsimportWord2Vecimportlouvainimportnumpyasnpdefdeepwalk_embedding(G,walk_length=80,num_walks=10,embedding_dim=128,window_size=5,workers=4):"""使用DeepWalk算法進(jìn)行初始節(jié)點(diǎn)向量表示學(xué)習(xí)參數(shù):G(nx.Graph):待處理的網(wǎng)絡(luò)X圖對象walk_length(int):隨機(jī)游走的步長(默認(rèn)為80)num_walks(int):每個(gè)節(jié)點(diǎn)開始的游走次數(shù)(默認(rèn)為10)embedding_dim(int):節(jié)點(diǎn)嵌入維度(默認(rèn)為128)window_size(int):Word2Vec模型的窗口大小(默認(rèn)為5)workers(int):并行計(jì)算的進(jìn)程數(shù)(默認(rèn)為4)返回:dict[str,np.ndarray]:節(jié)點(diǎn)ID到嵌入向量的字典"""nodes=list(G.nodes())walks=[]for_inrange(num_walks):fornodeinnodes:walk=[str(node)]for_inrange(walk_length-1):neighbors=list(G.neighbors(node))ifneighbors:next_node=np.random.choice(neighbors)walk.append(str(next_node))node=next_nodewalks.append(walk)model=Word2Vec(walks,size=embedding_dim,window=window_size,min_count=1,sg=1,workers=workers)node_embeddings={node_id:model.wv[node_str]fornode_id,node_strinenumerate(model.wv.index_to_key)}returnnode_embeddingsdefcalculate_community_vectors(G,node_embeddings):"""計(jì)算每個(gè)社區(qū)的向量參數(shù):G(nx.Graph):網(wǎng)絡(luò)X圖對象node_embeddings(dict[str,np.ndarray]):節(jié)點(diǎn)ID到嵌入向量的字典返回:dict[int,np.ndarray]:社區(qū)ID到社區(qū)向量的字典"""partition=louvain.find_communities(G)community_vectors={}forcommunity_id,community_nodesinenumerate(partition):community_embeddings=[node_embeddings[node]fornodeincommunity_nodes]community_vector=np.mean(community_embeddings,axis=0)community_vectors[community_id]=community_vectorreturncommunity_vectorsdefintegrate_community_info(G,node_embeddings,community_vectors):"""將社區(qū)信息融入節(jié)點(diǎn)向量參數(shù):G(nx.Graph):網(wǎng)絡(luò)X圖對象node_embeddings(dict[str,np.ndarray]):節(jié)點(diǎn)ID到嵌入向量的字典community_vectors(dict[int,np.ndarray]):社區(qū)ID到社區(qū)向量的字典返回:dict[str,np.ndarray]:融合社區(qū)信息后的節(jié)點(diǎn)ID到嵌入向量的字典"""partition=louvain.find_communities(G)new_node_embeddings={}fornodeinG.nodes():node_id=str(node)node_vector=node_embeddings[node_id]community_id=next((ifori,communityinenumerate(partition)ifnodeincommunity),None)community_vector=community_vectors[community_id]sim=np.dot(node_vector,community_vector)/(np.linalg.norm(node_vector)*np.linalg.norm(community_vector))alpha=np.exp(sim)/np.sum([np.exp(np.dot(node_vector,comm_vec)/(np.linalg.norm(node_vector)*np.linalg.norm(comm_vec)))forcomm_id,comm_vecincommunity_vectors.items()])new_node_vector=(1-alpha)*node_vector+alpha*community_vectornew_node_embeddings[node_id]=new_node_vectorreturnnew_node_embeddings#示例:使用上述函數(shù)進(jìn)行融合社區(qū)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)G=nx.read_edgelist('your_graph.edgelist',create_using=nx.Graph())node_embeddings=deepwalk_embedding(G)community_vectors=calculate_community_vectors(G,node_embeddings)new_node_embeddings=integrate_community_info(G,node_embeddings,community_vectors)在這段代碼中,deepwalk_embedding函數(shù)使用DeepWalk算法對網(wǎng)絡(luò)進(jìn)行初始節(jié)點(diǎn)向量表示學(xué)習(xí)。calculate_community_vectors函數(shù)計(jì)算每個(gè)社區(qū)的向量,通過對社區(qū)內(nèi)節(jié)點(diǎn)的初始向量進(jìn)行均值聚合得到。integrate_community_info函數(shù)將社區(qū)信息融入節(jié)點(diǎn)向量,通過計(jì)算節(jié)點(diǎn)與所屬社區(qū)向量之間的注意力權(quán)重,對節(jié)點(diǎn)向量進(jìn)行更新。最后,通過示例代碼展示了如何使用這些函數(shù)實(shí)現(xiàn)融合社區(qū)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)。4.2.3理論分析與優(yōu)勢闡述從理論上深入分析,本研究提出的融合社區(qū)結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)新方法在保持廣義結(jié)構(gòu)、提升節(jié)點(diǎn)表示準(zhǔn)確性和網(wǎng)絡(luò)分析性能方面具有顯著優(yōu)勢。在保持廣義結(jié)構(gòu)方面,該方法通過引入社區(qū)結(jié)構(gòu)信息,能夠更全面地捕捉網(wǎng)絡(luò)中的結(jié)構(gòu)特征。傳統(tǒng)的網(wǎng)絡(luò)表示學(xué)習(xí)方法往往只關(guān)注節(jié)點(diǎn)之間的直接連接關(guān)系或簡單的高階鄰居關(guān)系,難以充分體現(xiàn)網(wǎng)絡(luò)的社區(qū)特性。而本方法通過Louvain算法挖掘出網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu),并將社區(qū)向量融入節(jié)點(diǎn)向量學(xué)習(xí)過程中,使得學(xué)習(xí)到的節(jié)點(diǎn)向量不僅包含了節(jié)點(diǎn)的連接信息,還包含了社區(qū)結(jié)構(gòu)信息。在一個(gè)社交網(wǎng)絡(luò)中,不同興趣愛好的用戶形成了不同的社區(qū),傳統(tǒng)方法可能無法準(zhǔn)確區(qū)分屬于不同社區(qū)但連接結(jié)構(gòu)相似的節(jié)點(diǎn)。而本方法通過社區(qū)向量的引入,能夠使屬于攝影興趣社區(qū)的節(jié)點(diǎn)與屬于音樂興趣社區(qū)的節(jié)點(diǎn)在向量表示上體現(xiàn)出明顯的差異,從而更好地保持網(wǎng)絡(luò)的廣義結(jié)構(gòu)。從節(jié)點(diǎn)表示準(zhǔn)確性來看,將社區(qū)信息融入節(jié)點(diǎn)向量學(xué)習(xí),能夠更準(zhǔn)確地反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的角色和地位。在一個(gè)復(fù)雜的網(wǎng)絡(luò)中,節(jié)點(diǎn)的角色和地位不僅取決于其鄰居節(jié)點(diǎn),還與所屬社區(qū)的特征密切相關(guān)。在一個(gè)學(xué)術(shù)合作網(wǎng)絡(luò)中,一個(gè)研究人員所在的研究社區(qū)(如人工智能領(lǐng)域的深度學(xué)習(xí)研究社區(qū))對其學(xué)術(shù)影響力和研究方向具有重要影響。本方法通過社區(qū)向量與節(jié)點(diǎn)向量的融合,能夠使研究人員節(jié)點(diǎn)的向量表示更準(zhǔn)確地反映其在深度學(xué)習(xí)研究社區(qū)中的地位、與其他社區(qū)的交流情況等信息,從而提升節(jié)點(diǎn)表示的準(zhǔn)確性。在網(wǎng)絡(luò)分析性能方面,本方法能夠?yàn)楦鞣N網(wǎng)絡(luò)分析任務(wù)提供更有力的支持。在節(jié)點(diǎn)分類任務(wù)中,由于節(jié)點(diǎn)向量包含了更豐富的社區(qū)結(jié)構(gòu)信息,分類模型能夠更準(zhǔn)確地判斷節(jié)點(diǎn)的類別。在社交網(wǎng)絡(luò)中,對于用戶興趣愛好類別的預(yù)測,融合社區(qū)結(jié)構(gòu)信息的節(jié)點(diǎn)向量能夠提供更多的判斷依據(jù),提高分類的準(zhǔn)確率。在鏈接預(yù)測任務(wù)中,考慮社區(qū)結(jié)構(gòu)信息能夠更好地預(yù)測節(jié)點(diǎn)之間的潛在鏈接關(guān)系。在一個(gè)商業(yè)合作網(wǎng)絡(luò)中,通過分析企業(yè)節(jié)點(diǎn)所屬的行業(yè)社區(qū)以及社區(qū)之間的合作關(guān)系,能夠更準(zhǔn)確地預(yù)測企業(yè)之間可能的合作機(jī)會(huì),提高鏈接預(yù)測的精度。本方法還能夠在社區(qū)發(fā)現(xiàn)任務(wù)中進(jìn)一步優(yōu)化社區(qū)劃分結(jié)果,通過節(jié)點(diǎn)向量中包含的社區(qū)結(jié)構(gòu)信息,能夠更準(zhǔn)確地識(shí)別社區(qū)邊界,發(fā)現(xiàn)更緊密的社區(qū)結(jié)構(gòu),提升社區(qū)發(fā)現(xiàn)的質(zhì)量。4.3考慮節(jié)點(diǎn)屬性與網(wǎng)絡(luò)結(jié)構(gòu)的聯(lián)合表示學(xué)習(xí)4.3.1節(jié)點(diǎn)屬性與網(wǎng)絡(luò)結(jié)構(gòu)融合策略在網(wǎng)絡(luò)表示學(xué)習(xí)中,為了更全面準(zhǔn)確地學(xué)習(xí)節(jié)點(diǎn)的特征,將節(jié)點(diǎn)屬性與網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行融合是至關(guān)重要的。本研究提出了兩種主要的融合策略,分別是特征拼接和注意力機(jī)制。特征拼接是一種較為直觀的融合方式,它將節(jié)點(diǎn)的屬性特征向量與基于網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)得到的向量進(jìn)行直接拼接。在一個(gè)社交網(wǎng)絡(luò)中,每個(gè)用戶節(jié)點(diǎn)除了具有社交關(guān)系結(jié)構(gòu)信息外,還具有年齡、性別、興趣愛好等屬性信息。假設(shè)通過某種網(wǎng)絡(luò)表示學(xué)習(xí)方法,如DeepWalk算法,學(xué)習(xí)到了用戶節(jié)點(diǎn)基于社交關(guān)系的向量表示,同時(shí)將用戶的年齡、性別等屬性轉(zhuǎn)化為特征向量??梢詫⑦@兩種向量在維度上進(jìn)行拼接,得到一個(gè)包含節(jié)點(diǎn)屬性和網(wǎng)絡(luò)結(jié)構(gòu)信息的新向量。若基于社交關(guān)系的向量維度為128,屬性特征向量維度為32,拼接后新向量的維度就變?yōu)?60。這種方法簡單直接,易于實(shí)現(xiàn),能夠快速將不同來源的信息整合到一起。它沒有充分考慮屬性信息與結(jié)構(gòu)信息之間的內(nèi)在聯(lián)系,可能會(huì)導(dǎo)致信息的冗余和無效組合。在某些情況下,屬性信息和結(jié)構(gòu)信息對節(jié)點(diǎn)表示的重要性不同,特征拼接無法自適應(yīng)地調(diào)整它們的權(quán)重。為了克服特征拼接的局限性,引入注意力機(jī)制來融合節(jié)點(diǎn)屬性與網(wǎng)絡(luò)結(jié)構(gòu)信息。注意力機(jī)制能夠根據(jù)信息的重要性,自適應(yīng)地為不同信息分配權(quán)重。在融合過程中,首先分別對節(jié)點(diǎn)屬性特征和網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行編碼。利用多層感知機(jī)(MLP)對節(jié)點(diǎn)屬性進(jìn)行特征提取,得到屬性特征表示;同時(shí),使用圖注意力網(wǎng)絡(luò)(GAT)對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行建模,得到結(jié)構(gòu)特征表示。通過注意力計(jì)算模塊,計(jì)算屬性特征和結(jié)構(gòu)特征之間的注意力權(quán)重??梢允褂命c(diǎn)積注意力機(jī)制,計(jì)算屬性特征向量a與結(jié)構(gòu)特征向量s的點(diǎn)積,然后通過softmax函數(shù)進(jìn)行歸一化,得到注意力權(quán)重\alpha:\alpha=\frac{exp(a\cdots)}{\sum_{i\in\{a,s\}}exp(a\cdots)}根據(jù)注意力權(quán)重,對屬性特征和結(jié)構(gòu)特征進(jìn)行加權(quán)融合,得到最終的節(jié)點(diǎn)向量表示v:v=\alphaa+(1-\alpha)s通過這種方式,注意力機(jī)制能夠自動(dòng)學(xué)習(xí)屬性信息和結(jié)構(gòu)信息對于節(jié)點(diǎn)表示的重要程度,使融合后的向量更準(zhǔn)確地反映節(jié)點(diǎn)的特征。在一個(gè)電商用戶-商品交互網(wǎng)絡(luò)中,對于某些用戶節(jié)點(diǎn),其購買行為(網(wǎng)絡(luò)結(jié)構(gòu)信息)可能對其興趣偏好的表示更為重要,而對于另一些用戶節(jié)點(diǎn),其注冊時(shí)填寫的個(gè)人屬性信息可能更關(guān)鍵。注意力機(jī)制能夠根據(jù)不同節(jié)點(diǎn)的特點(diǎn),自適應(yīng)地調(diào)整屬性信息和結(jié)構(gòu)信息的權(quán)重,從而得到更精準(zhǔn)的節(jié)點(diǎn)向量表示。4.3.2模型設(shè)計(jì)與訓(xùn)練過程基于上述融合策略,設(shè)計(jì)了一種聯(lián)合表示學(xué)習(xí)模型,該模型能夠有效地融合節(jié)點(diǎn)屬性與網(wǎng)絡(luò)結(jié)構(gòu)信息,學(xué)習(xí)到全面準(zhǔn)確的節(jié)點(diǎn)向量表示。模型主要包括屬性編碼模塊、結(jié)構(gòu)編碼模塊和融合模塊。屬性編碼模塊負(fù)責(zé)對節(jié)點(diǎn)屬性進(jìn)行編碼,使用多層感知機(jī)(MLP)對節(jié)點(diǎn)的屬性信息進(jìn)行處理。在一個(gè)包含用戶年齡、性別、職業(yè)等屬性的社交網(wǎng)絡(luò)中,將這些屬性作為MLP的輸入,通過多層非線性變換,提取出屬性特征表示。MLP的結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年智能疊片過濾器項(xiàng)目可行性研究報(bào)告
- 油性皮膚化妝培訓(xùn)課件圖
- 初中英語寫作中文化背景對篇章連貫性的影響研究課題報(bào)告教學(xué)研究課題報(bào)告
- 高中生文化遺產(chǎn)保護(hù)實(shí)踐與能力提升研究教學(xué)研究課題報(bào)告
- 電氣三種人培訓(xùn)課件
- 外科術(shù)前患者體溫管理
- 護(hù)理溝通中的溝通障礙克服
- 2026年吉安縣產(chǎn)業(yè)發(fā)展投資有限責(zé)任公司面向社會(huì)公開招聘參考題庫及答案1套
- 岑溪市消防救援大隊(duì)2026年公開招聘政府專職消防員備考題庫及一套完整答案詳解
- 2026安徽淮南市壽縣職業(yè)中專學(xué)校機(jī)電專業(yè)職教高考教師招聘2人參考題庫完美版
- 2026屆川慶鉆探工程限公司高校畢業(yè)生春季招聘10人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 醫(yī)療器械法規(guī)考試題及答案解析
- 2025年河南體育學(xué)院馬克思主義基本原理概論期末考試筆試題庫
- 2026年廣西出版?zhèn)髅郊瘓F(tuán)有限公司招聘(98人)考試參考題庫及答案解析
- 2026年中國鐵路上海局集團(tuán)有限公司招聘普通高校畢業(yè)生1236人備考題庫及答案詳解1套
- 2026年上海市普陀區(qū)社區(qū)工作者公開招聘備考題庫附答案
- 醫(yī)源性早發(fā)性卵巢功能不全臨床治療與管理指南(2025版)
- 甘肅省平?jīng)鍪?2025年)輔警協(xié)警筆試筆試真題(附答案)
- 中國雙相障礙防治指南(2025版)
- 移動(dòng)式工程機(jī)械監(jiān)理實(shí)施細(xì)則
- 買房分手協(xié)議書范本
評論
0/150
提交評論