【《基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類分析綜述》6300字(論文)】_第1頁
【《基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類分析綜述》6300字(論文)】_第2頁
【《基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類分析綜述》6300字(論文)】_第3頁
【《基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類分析綜述》6300字(論文)】_第4頁
【《基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類分析綜述》6300字(論文)】_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類分析綜述目錄TOC\o"1-3"\h\u1128基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類分析綜述 1149451.1引言 148551.2異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集構(gòu)建 272661.2.1數(shù)據(jù)處理 2323931.2.2特征數(shù)據(jù)爬取 4299631.3基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類 5128171.1.1類別依據(jù) 5294541.1.2GCN模型 6314481.1.3GAT模型 7108581.4實驗與結(jié)果分析 844361.4.1實驗環(huán)境 8236531.4.2實驗數(shù)據(jù) 865811.4.3評價標準 10277541.4.4實驗分析與結(jié)論 101.1引言目前人們的大部分研究對象還都處于同質(zhì)網(wǎng)絡(luò),就是由單一類型的對象構(gòu)成的網(wǎng)絡(luò),但是隨著目當前的網(wǎng)絡(luò)信息的復(fù)雜性和多樣性的不斷升高,同質(zhì)網(wǎng)絡(luò)下的研究,已經(jīng)不能很準確的刻畫出網(wǎng)絡(luò)的結(jié)構(gòu)。在當今現(xiàn)實生活中出現(xiàn)了各種各樣的信息網(wǎng)絡(luò),比如學(xué)術(shù)網(wǎng)絡(luò),郵件網(wǎng)絡(luò),社交網(wǎng)絡(luò)(Facebook,微博),調(diào)控網(wǎng)絡(luò),生物分子結(jié)構(gòu)等,這些信息網(wǎng)絡(luò)都呈現(xiàn)出了異質(zhì)性。隨著機器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,語音、圖像、自然語言處理逐漸取德了很大的突破,然而語音、圖像、文本都是很簡單的序列或者網(wǎng)格數(shù)據(jù),是很結(jié)構(gòu)化的數(shù)據(jù),深度學(xué)習(xí)很善于處理這種類型的數(shù)據(jù),但是并不是所有的事物都可以表示成一個序列或者一個網(wǎng)格,例如社交網(wǎng)絡(luò)、知識圖譜、復(fù)雜的文件系統(tǒng)等,也就是說很多事物都是非結(jié)構(gòu)化的,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)在此類非結(jié)構(gòu)化數(shù)據(jù)上的處理效果并不如意,對于這個問題,業(yè)界正在進行積極探索,而其中一個很有前景的方向就是圖神經(jīng)網(wǎng)絡(luò)(GraphNeuralNetwork,GNN)。分類問題作為當今數(shù)據(jù)挖掘分析的一種方式,也被應(yīng)用在復(fù)雜網(wǎng)絡(luò)之中,通過對網(wǎng)絡(luò)中節(jié)點進行分類,通過標簽對節(jié)點的這些興趣,愛好,關(guān)系或其他可能的特征進行捕獲,可以得出對人口的價值觀、興趣的描述。通過分類技術(shù)對復(fù)雜網(wǎng)絡(luò)中的節(jié)點進行標簽標記,有利于深入分析對網(wǎng)絡(luò)結(jié)構(gòu)特征以及應(yīng)用的延研究。本章研究工作的內(nèi)容組織結(jié)構(gòu)圖如圖3-1所示。圖3-1內(nèi)容組織結(jié)構(gòu)圖1.2異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集構(gòu)建1.2.1數(shù)據(jù)處理本文選取的真實數(shù)據(jù)集是DBLP數(shù)據(jù)集[43],DBLP是一個收錄了大量的計算機類英文文獻的集成數(shù)據(jù)庫系統(tǒng),其中具體數(shù)據(jù)內(nèi)容包含都有,論文標題,作者,期刊,會議,年份等信息,原始數(shù)據(jù)的截圖入圖3-2所示:圖3-2DBLP原始數(shù)據(jù)截圖本文需要從DBLP的原始數(shù)據(jù)中抽取出構(gòu)造異質(zhì)關(guān)系網(wǎng)絡(luò)的數(shù)據(jù)內(nèi)容,并根據(jù)DBLP中數(shù)據(jù)之間的所對應(yīng)的關(guān)系構(gòu)造出異質(zhì)關(guān)系網(wǎng)絡(luò),該處理過程所對應(yīng)的網(wǎng)絡(luò)構(gòu)建流程如如3-3所示。原始數(shù)據(jù)原始數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)信息整理異質(zhì)網(wǎng)絡(luò)關(guān)系構(gòu)造圖3-3DBLP數(shù)據(jù)處理流程其中,數(shù)據(jù)處理流程中的第一個過程是解析DBLP的原始XML數(shù)據(jù),本文從中抽取了論文標題、摘要、會議、期刊、作者、等信息,通過程序解析獲得了構(gòu)建異質(zhì)網(wǎng)絡(luò)的結(jié)點和關(guān)系的基本數(shù)據(jù),抽取數(shù)據(jù)的截圖如圖3-4所示。圖3-4DBLP抽取信息截圖通過對原始數(shù)據(jù)的處理,本文得到了以下數(shù)據(jù)包含論文題目所對應(yīng)的論文發(fā)表的期刊或者會議,以論文作為分析的節(jié)點,論文之間通過共同發(fā)表的期刊或者會議作為關(guān)系,構(gòu)成一個異質(zhì)網(wǎng)絡(luò)圖。利用這些節(jié)點的屬性以及各個節(jié)點之間的直接關(guān)系或者隱藏關(guān)系構(gòu)建一個異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集,把每條數(shù)據(jù)/每篇論文表示為圖中的一個節(jié)點,和之前的深度學(xué)習(xí)數(shù)據(jù)集不同,以前假設(shè)數(shù)據(jù)之間是獨立同分布的,在這里論文間都有共同發(fā)表期刊或者會議關(guān)系而且各個期刊與會議又會屬于同一領(lǐng)域關(guān)系,也就是每個數(shù)據(jù)都是有關(guān)聯(lián)的,之前的假設(shè)不再適用。所以,就把這種有關(guān)聯(lián)的數(shù)據(jù)表示為圖中節(jié)點,邊表示數(shù)據(jù)之間的關(guān)系,如圖3-5為作者-論文-期刊之間的關(guān)系網(wǎng)絡(luò)。圖3-5DBLP網(wǎng)絡(luò)關(guān)系圖1.2.2特征數(shù)據(jù)爬取本文從DBLP中抽取出來的論文節(jié)點信息中,只有論文標題以及發(fā)表的期刊或者會議,但是為了進一步驗證節(jié)點屬性信息對數(shù)據(jù)節(jié)點結(jié)構(gòu)信息的影響,本文選擇從citeseer網(wǎng)站上爬取從DBLP數(shù)據(jù)集中所抽取出來的每篇論文所對應(yīng)的摘要信息,將所有摘要信息中具有代表性的關(guān)鍵詞匯總成一份總的關(guān)鍵詞表作為每篇論文的屬性信息,如圖3-6為數(shù)據(jù)爬取流程圖。圖3-6數(shù)據(jù)爬取流程圖3-6數(shù)據(jù)爬取流程中序號標注如表3-1所示:表3-1圖3-6序號注釋序號注釋序號注釋0Requests.get(url)4find()1Response.text5遍歷提取2BeautifulSoup(字符串)6Response.json()3Find_all()特征數(shù)據(jù)的爬取流程總共分為四大部分:1、發(fā)起請求:使用http庫向目標站點發(fā)起請求,即發(fā)送一個Request,Request包含:請求頭、請求體等;2、獲取響應(yīng)內(nèi)容:等待服務(wù)器能響應(yīng)返回,則會得到一個Response,Response包含:html,json,圖片,視頻等;3、解析內(nèi)容:解析html數(shù)據(jù):正則表達式,第三方解析庫,如Beautifulsoup,pyquery等;解析json數(shù)據(jù):json模塊;4、保存數(shù)據(jù):數(shù)據(jù)可保存在數(shù)據(jù)庫或者文件中。圖3-7摘要信息爬取截圖如圖3-7所示,圖中內(nèi)容為論文id,論文標題,以及每篇論文所對應(yīng)的摘要信息,本文將所有論文對應(yīng)的摘要信息全部提取出來,構(gòu)成一個由1558個關(guān)鍵詞組成的關(guān)鍵詞庫,再利用每篇論文摘要中的詞匯是否出現(xiàn)在關(guān)鍵詞庫中,如果論文摘要中的詞匯出現(xiàn)在關(guān)鍵詞庫中則此單詞作為此篇論文的特征信息。1.3基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類節(jié)點分類是社會計算中重要的應(yīng)用任務(wù),也是分析網(wǎng)絡(luò)數(shù)據(jù)的常見任務(wù),因此,本文選擇以節(jié)點分類任務(wù)來研究和分析圖神經(jīng)網(wǎng)絡(luò)在異質(zhì)關(guān)系網(wǎng)絡(luò)上的應(yīng)用情況和效果。本文從三個方面來研究基于圖神經(jīng)網(wǎng)絡(luò)的節(jié)點分類任務(wù),一是考慮到關(guān)系網(wǎng)絡(luò)中的節(jié)點不僅具有自身的屬性特征信息,還具有節(jié)點之間的關(guān)系結(jié)構(gòu)信息,為了研究分析這兩種節(jié)點信息在應(yīng)用任務(wù)中的影響和作用,本文進行了有無結(jié)點屬性特征的實驗對比;二是基于不同的圖神經(jīng)網(wǎng)絡(luò)來研究分析在節(jié)點分類任務(wù)中的效果,本文分別選擇了GCN和GAT兩種不同的圖神經(jīng)網(wǎng)絡(luò);三是鑒于異質(zhì)網(wǎng)絡(luò)中不同類型的節(jié)點之間會產(chǎn)生間接關(guān)系,比如:出現(xiàn)在同一個期刊的論文之間會有內(nèi)容上的相關(guān)性,本文認為這種間接關(guān)系在異質(zhì)網(wǎng)絡(luò)中潛藏著重要的關(guān)系信息,因此,為了分析和研究直接關(guān)系和間接關(guān)系在節(jié)點分類中的作用和意義,本文進行了相對應(yīng)的實驗對比和分析。1.1.1類別依據(jù)節(jié)點分類任務(wù)需要節(jié)點的類別標簽,本文采用中國計算機學(xué)會公布的國際期刊會議的目錄表作為類別劃分依據(jù)并設(shè)定了10個類別,之后按照每個領(lǐng)域下所包含的國際期刊和會議列表,將處理后的異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)進行類別標簽的自動標注。領(lǐng)域類別表如表3-2所示:表3-2計算機領(lǐng)域表序號領(lǐng)域class_id1網(wǎng)絡(luò)與信息安全0012計算機科學(xué)理論0023計算機體系結(jié)構(gòu)0034計算機圖形學(xué)與多媒體0045計算機網(wǎng)絡(luò)0056交叉綜合新興0067人工智能0078人機交互與普適計算0089軟件工程00910數(shù)據(jù)庫0101.1.2GCN模型在定義普通的卷積網(wǎng)絡(luò)時,可以直接調(diào)用torch自帶的torch.linear()等函數(shù),但是對于圖的卷積并沒有現(xiàn)成的,所以需要自己定義圖卷積層,圖卷積的前向傳播其實就是圖節(jié)點的屬性信息×權(quán)重×圖結(jié)構(gòu)的信息。GCN通過設(shè)計的圖數(shù)據(jù)提取特征的方法,可以得到圖的嵌入表示,在真實圖數(shù)據(jù)中,因為每個節(jié)點都有自身的特征信息,通過將這些節(jié)點特征的整合,構(gòu)成特征矩陣X,并且在真實網(wǎng)絡(luò)中節(jié)點之間也會存在聯(lián)系,將所有有聯(lián)系的節(jié)點構(gòu)成鄰接矩陣A。X和A便是此模型的輸入,如圖3-8為GCN圖卷積層的示意圖。圖3-8GCN圖卷積示意圖上圖中的GCN擁有C個輸入通道的圖作為輸入,通過中間的若干層hiddenlayer每個節(jié)點的特征從X變成了Z,得到F個特征輸出,但是,無論中間有多少層,節(jié)點之間的連接關(guān)系,即A,都是共享的。圖3-9多層GCNGCN層通過聚集來自其鄰居的特征信息來封裝每個節(jié)點的隱藏表示。特征聚合后,將非線性變換應(yīng)用于結(jié)果輸出。通過堆疊多層,每個節(jié)點的最終隱藏表示形式將包含來自其他節(jié)點的信息,表3-3為采用GCN模型的分類算法流程。表3-3分類算法流程輸入:G=(V,E)輸出:節(jié)點嵌入向量(1)加載數(shù)據(jù),處理數(shù)據(jù)(2)提取模型的參數(shù)為數(shù)據(jù)集出來的features和adj(3)利用圖卷積類定義圖卷積網(wǎng)絡(luò)訓(xùn)練模型(4)訓(xùn)練,輸入(2)中參數(shù)(5)測試1.1.3GAT模型本文在第二章節(jié)對GAT模型進行了詳細的分析,是在基于GCN模型將深度學(xué)習(xí)處理圖模型的基礎(chǔ)上引入attention思想,通過自注意力機制來對鄰居節(jié)點進行聚合,實現(xiàn)了對不同鄰居的權(quán)值自適應(yīng)匹配,計算每個節(jié)點的鄰居節(jié)點對它的權(quán)重,從而達到從局部信息可以獲取到整個網(wǎng)絡(luò)整體信息卻無需提前知道整個網(wǎng)絡(luò)的結(jié)構(gòu),同時通過堆疊這些隱藏自注意層能夠獲取臨近點的特征,從而避免大量矩陣運算,計算高效。 圖3-10GAT模型圖3-10為GAT模型的端到端結(jié)構(gòu),其中虛線表示協(xié)作連接操作,綠色圓圈表示初始實體嵌入向量,黃色圓圈表示初始關(guān)系嵌入向量??偟倪^程分兩步計算,第一計算注意力系數(shù),對于頂點

i,逐個計算它的鄰居們j和它自己之間的相似系數(shù),然后將相似系數(shù)通過SoftMax或者LeakyReLU函數(shù)進行歸一化處理就能得到注意力系數(shù),第二步加權(quán)求和,根據(jù)計算好的注意力系數(shù),把特征加權(quán)求和。1.4實驗與結(jié)果分析根據(jù)本文的實驗要求,本文選擇了所構(gòu)建的DBLP數(shù)據(jù)集和真實的Cora數(shù)據(jù)集,分別進行了三個方面的實驗分析,(1)特征與關(guān)系結(jié)構(gòu)的對比,(2)直接關(guān)系與間接關(guān)系的對比(3)GCN與GAT的對比。根據(jù)最終的實驗結(jié)果來驗證圖神經(jīng)網(wǎng)絡(luò)在異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集上的適用性。1.4.1實驗環(huán)境本節(jié)實驗環(huán)境如表3-4所示:表3-4實驗環(huán)境參數(shù)實驗環(huán)境型號操作系統(tǒng)Windows10專業(yè)版(64)位處理器Inter(R)Core(TM)i7-7700,1.60GHz內(nèi)存16G內(nèi)存實現(xiàn)語言Python1.7深度學(xué)習(xí)框架Pytorch.2實驗數(shù)據(jù)1.DBLP論文發(fā)表期刊數(shù)據(jù)集本文利用爬取的特征信息與從原始DBLP數(shù)據(jù)集中抽取的信息相結(jié)合,生成帶有特征信息的DBLP_1K數(shù)據(jù)集,該數(shù)據(jù)集由1000篇論文,以及它們之間的共發(fā)表期刊會議關(guān)系構(gòu)成的24202條邊構(gòu)成。每篇論的特征向量通過詞袋模型得到,維度為1586(詞典大小),每一維表示一個詞,1表示該詞在該論文中出現(xiàn),0表示未出現(xiàn),這些論文根據(jù)主題劃分為10類,分別是網(wǎng)絡(luò)與信息安全、計算機科學(xué)理論、計算機體系結(jié)構(gòu)、計算機圖形學(xué)與多媒體、計算機網(wǎng)絡(luò)、交叉綜合新興、人工智能、人機交互與普適計算、軟件工程、數(shù)據(jù)庫。所構(gòu)建的DBLP異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集中分別選擇了由1000、2000、5000篇論文,以及它們之間的共發(fā)表期刊會議關(guān)系構(gòu)成的邊,這三個實驗數(shù)據(jù)集名字分別是DBLP_1K、DBLP_2K、DBLP_5K。這些論文根據(jù)主題劃分為10類,如表3-5所示,每篇論文的特征(向量)均由單位矩陣代替。2.DBLP論文相似度關(guān)系數(shù)據(jù)集根據(jù)從DBLP原始數(shù)據(jù)集中抽取的論文,然后利用所抽取論文的題目,在citeseer網(wǎng)站爬取每篇論文的摘要信息,通過余弦相似度計算每兩篇論文的摘要相似度,如果兩篇論文的相似度超過40%,則可以為這兩篇論文建立邊關(guān)系。本文選取了1000篇論文,然后通過相似度計算,最終經(jīng)過計算得到相似度超過40%的有5426條關(guān)系,如表3-5中DBLPSIM數(shù)據(jù)集所示。1.Cora數(shù)據(jù)集Cora數(shù)據(jù)集由機器學(xué)習(xí)論文組成,是近年來圖深度學(xué)習(xí)很喜歡使用的數(shù)據(jù)集。在數(shù)據(jù)集中,論文分為以下七類之一:基于案例、遺傳算法、神經(jīng)網(wǎng)絡(luò)、概率方法、強化學(xué)習(xí)、規(guī)則學(xué)習(xí)、理論。由2708篇論文以及它們之間的引用關(guān)系構(gòu)成成一個圖,每篇論文的特征通過詞袋模型獲得,維度為1433,每一維代表一個詞,1表示該詞在該文章中出現(xiàn),0表示未出現(xiàn)。表3-5實驗數(shù)據(jù)集數(shù)據(jù)集節(jié)點數(shù)邊數(shù)備注DBLP_1K100024202有特征信息Cora27085429DBLP_1K100024202無特征信息DBLP_2K200086706DBLP_5K5000576385DBLPsim10005470相似性關(guān)系GCN模型與GAT模型的輸入分為兩部分(1)每個節(jié)點的特征信息,如果數(shù)據(jù)集擁有N個節(jié)點,D維向量,即一個N×D的矩陣(2)圖的結(jié)構(gòu),即邊的關(guān)系,通常是鄰接矩陣A。具體過程如表3-6所示。表3-6數(shù)據(jù)讀取流程輸入:結(jié)構(gòu)信息,特征信息(1)讀取特征信息數(shù)據(jù)集(2)對數(shù)據(jù)中的特征部分(剔除索引列和標簽列)進行壓縮(3)對數(shù)據(jù)中的標簽列內(nèi)容進行one-hot化(4)對特征數(shù)據(jù)中的文獻索引重新排列(5)讀取結(jié)構(gòu)信息數(shù)據(jù)集(6)根據(jù)上面特征信息數(shù)據(jù)中的文獻索引重新排列的結(jié)果,對結(jié)構(gòu)信息中的相互發(fā)表的共同期刊的論文序號進行相應(yīng)的替換。(7)建一個空矩陣,矩陣的長寬均為引文的數(shù)量,然后把有邊的地方用1表示,填充到這個矩陣中(8)對這個矩陣進行數(shù)據(jù)變化,然后對這個矩陣和前面的features進行序列化,就德到了圖的節(jié)點屬性矩陣和鄰接矩陣屬性(9)對標簽數(shù)據(jù)進行處理,用np.where()把onehot形式的label轉(zhuǎn)成一個一維數(shù)組,這就是最終要用到的標簽1.4.3評價標準為了評估異質(zhì)網(wǎng)絡(luò)在圖神經(jīng)網(wǎng)絡(luò)下的分類效果,本文所使用評價指標是準確率[44],accuracy=(TP+TN)/(TP+TN+FP+FN),這個很容易理解,就是被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類效果越好,如表3-7所示:表3-7分類結(jié)果混淆表真實情況預(yù)測結(jié)果正例反例正例TPFP反例FNTN模型預(yù)測的結(jié)果和真實標簽的組合就有4種:TP實際為正樣本預(yù)測為正樣本,F(xiàn)P實際為負樣本預(yù)測為正樣本,F(xiàn)N實際為正樣本預(yù)測為負樣本,TN實際為負樣本預(yù)測為負樣本。1.4.4實驗分析與結(jié)論(1)特征與關(guān)系結(jié)構(gòu)的對比表3-8GCN特征與關(guān)系結(jié)構(gòu)實驗結(jié)果數(shù)據(jù)集DBLP節(jié)點DBLP邊數(shù)訓(xùn)練集:驗證集:測試集迭代周期accuracy備注DBLP1000242022:2:610000.7483f表示帶有特征信息的數(shù)據(jù)集4:2:40.83506:2:20.89001000-f2:2:60.78504:2:40.85256:2:20.9050Cora270854292:2:60.78244:2:40.80486:2:20.83002708-f2:2:60.82314:2:40.82986:2:20.8400首先采用GCN對帶有特征信息與無特征信息的DBLP數(shù)據(jù)集進行節(jié)點分類實驗,從表3-8中的實驗結(jié)果數(shù)據(jù)來看,在節(jié)點,關(guān)系邊,迭代周期數(shù)目都相同的情況下,隨著訓(xùn)練集:驗證集:測試集比例的不同,在比例達到6:2:2時,帶有特征信息的DBLP數(shù)據(jù)與無特征信息的DBLP數(shù)據(jù)分類的accuracy值都達到最高值,但是前者比后者的準確率還要高出0.015個點,證明特征信息結(jié)合結(jié)構(gòu)信息更能夠體現(xiàn)出數(shù)據(jù)的完整性。圖3-11為DBLP在有特征與無特征情況下的準確率與損失函數(shù)圖。無特征 (b)有特征圖3-11DBLP-1000節(jié)點準確損失函數(shù)圖表3-8中針對Cora數(shù)據(jù)集與DBLP數(shù)據(jù)集采用GCN模型做實驗對比,兩個實驗數(shù)據(jù)集的有所不同,Cora數(shù)據(jù)集中的鄰接矩陣的關(guān)系為論文與論文之間的引用關(guān)系,而DBLP數(shù)據(jù)集中的關(guān)系為兩篇論文之間通過第三者也就是兩篇論文共同發(fā)布的期刊或者會議作為關(guān)系紐帶形成的間接關(guān)系,在隨著訓(xùn)練集比例的提升,Cora數(shù)據(jù)集所對應(yīng)的實驗準確率提升不是很明顯,而DBLP數(shù)據(jù)集隨著訓(xùn)練集比例的提升實驗準確率有著明顯的提升。并且Cora數(shù)據(jù)集的節(jié)點數(shù)比DBLP數(shù)據(jù)集的節(jié)點數(shù)多,邊關(guān)系數(shù)量卻比DBLP數(shù)據(jù)集少,最終分類效果DBLP數(shù)據(jù)集比較準確,由此證明異質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)屬性在分類實驗中的影響因素比較大。(2)直接關(guān)系與間接關(guān)系比較本文所構(gòu)建的DBLP異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集包含兩種數(shù)據(jù)關(guān)系,一種是根據(jù)兩篇論文摘要信息的相似度構(gòu)成直接邊關(guān)系,另一種是兩篇論文之間通過共發(fā)表的期刊會議構(gòu)成間接邊關(guān)系。在計算相似度的過程中分別整理出來相似度大于20%、30%、40%的邊關(guān)系,最終通過實驗選擇相似度大于等于的40%的論文確定邊關(guān)系。采用GCN模型與GAT模型對直接關(guān)系數(shù)據(jù)集與間接關(guān)系數(shù)據(jù)集進行分類任務(wù),驗證兩種關(guān)系對數(shù)據(jù)集劃分的不同影響。實驗結(jié)果如表3-9所示:表3-9直接關(guān)系與間接關(guān)系對比算法模型DBLP節(jié)點DBLP邊數(shù)訓(xùn)練集:驗證集:測試集迭代周期accuracyrunTimeGAT1000_1K242032:2:62600.723376.1594:2:42650.8200121.5696:2:22670.8900126.8711000_sim54262:2:610000.6022321..8714:2:40.6851300.2546:2:20.7532315.156GCN1000_1k242032:2:62000.78834.7394:2:40.83504.6786:2:20.90004.7451000_sim54262:2:610000.63414.4524:2:40.67124.7186:2:20.76354.488分析表3-9中的實驗數(shù)據(jù),可以看出無論是在GAT模型下還是GCN模型下,采用間接關(guān)系夠成邊關(guān)系的數(shù)據(jù)集1000_1K進行節(jié)點劃分效果要比采用直接關(guān)系構(gòu)成邊關(guān)系的數(shù)據(jù)集1000_sim進行節(jié)點劃分效果好很多,綜合分析原因采用間接關(guān)系可以從一個節(jié)點擴展到更多的鄰居節(jié)點,構(gòu)成比較豐富的邊關(guān)系,而采用相似度構(gòu)建的關(guān)系,只能構(gòu)成單一的點到點的關(guān)系,并且構(gòu)成的邊關(guān)系數(shù)量有限。由此可以證明在對異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集進行分析時,數(shù)據(jù)集的結(jié)構(gòu)信息越豐富,將對實驗結(jié)果產(chǎn)生越有利的影響。(3)GCN模型與GAT模型的對比使用同樣的數(shù)據(jù)樣本在GCN與GAT模型下分別進行節(jié)點分類任務(wù),通過實驗對比結(jié)果,驗證兩種圖神經(jīng)網(wǎng)路模型那種更加適合本文所構(gòu)建的異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論