版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
III基于NLP技術(shù)的一個基于知識圖譜的電網(wǎng)停電事件分析系統(tǒng)設計摘要電力已經(jīng)成為全球人們生產(chǎn)生活必不可少的一部分。無論是為人類帶來穩(wěn)定光明的電燈泡,或者為人類節(jié)省時間的洗衣機,電飯煲等基礎電器亦或是提供娛樂的游戲機、電視機還是提升生產(chǎn)力的計算機,更不用說發(fā)展迅速,日益完備的各種國家基礎建設,都已經(jīng)離不開電力的支持與應用。但是,電的廣泛應用不僅給我們帶來了飛速發(fā)展,也會給人類帶來潛在的風險與挑戰(zhàn)。停電,尤其是大規(guī)模停電會給人們的生產(chǎn)生活帶來極大障礙甚至是危機。因此,對停電事件的研究與分析變得日益重要。本文旨在設計一個電網(wǎng)原因的推薦系統(tǒng),依托知識圖譜進行基本停電事件的咨詢與原因推薦功能。針對電網(wǎng)原因推薦這一目標,首先完成數(shù)據(jù)的處理工作,本文利用全球范圍的大停電數(shù)據(jù)集,在此數(shù)據(jù)集上構(gòu)建停電事件的知識圖譜,之后使用MKR模型對數(shù)據(jù)進行推薦,以完成推薦任務。在此基礎上使用NLP技術(shù)等實現(xiàn)一個基于知識圖譜的電網(wǎng)停電事件分析系統(tǒng)。關(guān)鍵詞:推薦系統(tǒng),協(xié)同過濾,MKR模型,知識圖譜,知識圖譜嵌入,大停電目錄MACROBUTTONInsertCrossReference9281第一章緒論 1311551.1研究背景與意義 1147281.1.1研究背景 1142671.1.2研究意義 1188101.2國內(nèi)外發(fā)展現(xiàn)狀 1242921.2.1知識圖譜國內(nèi)外發(fā)展現(xiàn)狀 1121921.2.2推薦算法的國內(nèi)外發(fā)展現(xiàn)狀 4306401.2.3知識圖譜嵌入的國內(nèi)外發(fā)展現(xiàn)狀 626917第二章理論研究 837182.1面向知識圖譜增強推薦的多任務特征學習方法 8279292.1.1MKR的模型框架 829039多層感知機 98107交叉壓縮單元或交叉特征共享單元 920713推薦模塊(RecommendationModel) 1178知識圖譜嵌入模塊(KGEModel) 1110142.1.2MKR的學習算法 1229155損失函數(shù) 1229213學習算法 12136642.1.3停電問題的制定 1331220第三章實驗與分析 14129443.1停電事件知識圖譜的建立 1485483.1.1知識圖譜的實體與關(guān)系的概念設計 14183933.1.2知識圖譜的建立實現(xiàn) 1512423.2MKR模型的訓練 16248763.3停電推薦系統(tǒng)的實現(xiàn) 1725832參考文獻 1922415附錄 21PAGEVII緒論1.1研究背景與意義1.1.1研究背景2021年,我國已經(jīng)完成全面建成小康社會的目標,隨著我國基礎建設和科學技術(shù)的發(fā)展迭代,用電成為生活平常之事,無論是城市還是農(nóng)村,大多數(shù)家庭、公司等場景已經(jīng)離不開電力支持。從燈泡、電視、電腦到智能機器人、超級計算機、各種智能家居,各種設備升級換代,設備向電氣化發(fā)展進程加快,這些無不體現(xiàn)著國家的飛速發(fā)展和人們對美好生活需要的提高。而隨著用電設備的電力需求和用電時長的不斷增加,對電網(wǎng)的可靠性的要求也在不斷提升,同時對停電事故的分析與處理也提出了更高要求。因此,保證電網(wǎng)的正常運行成為關(guān)乎人們正常生活的一個關(guān)鍵因素。1.1.2研究意義當前,電力是國家發(fā)展的基石。導致停電的原因有很多,天氣因素如大霧、覆冰,人力因素如操作失誤、違章施工等,意外因素如著火、跳閘、緊急迫降等。停電往往會伴隨嚴重事故的發(fā)生,不僅會直接導致經(jīng)濟的損傷,還會間接使環(huán)境遭到破壞,從國外一些大停電事件中可以看到污水處理廠工作的停滯會產(chǎn)生很大的環(huán)境破壞。因此,在預防停電事件發(fā)生的同時,對停電事故的及時分析也同樣重要。本課題首先構(gòu)建一個國內(nèi)電網(wǎng)停電的知識圖譜,然后對停電通知進行事件信息抽取,然后在此基礎上設計并實現(xiàn)一個停電事件推薦系統(tǒng)。利用該系統(tǒng)可以初步實現(xiàn)停電事件的分析與推薦操作,對于及時響應、及時處理停電事故有重要的現(xiàn)實意義。1.2國內(nèi)外發(fā)展現(xiàn)狀1.2.1推薦算法的國內(nèi)外發(fā)展現(xiàn)狀推薦系統(tǒng)最重要的部分是推薦算法,傳統(tǒng)的推薦算法包括:基于內(nèi)容的推薦算法、協(xié)同過濾的推薦算法以及混合推薦算法。基于內(nèi)容的推薦算法是通過分析用戶以前喜好的內(nèi)容并產(chǎn)生與之相似的內(nèi)容進行推薦。圖1-1一種基于內(nèi)容的個性化推薦優(yōu)化算法圖1-1是孫曉等[1]人研究的一種基于內(nèi)容的個性化推薦優(yōu)化算法。首先根據(jù)文本處理結(jié)果得到特征向量,然后根據(jù)候選項目得到候選特征向量,之后再動態(tài)獲取用戶數(shù)據(jù),得到專屬用戶的動態(tài)角色模型。由此可以將特征向量模型與得到的多個用戶的動態(tài)角色模型進行結(jié)合,產(chǎn)生推薦列表?;趦?nèi)容的推薦算法可以解決冷啟動的問題,而且對于處理不確定方面有一定價值,因為這種推薦算法依賴于角色提供的內(nèi)容而不是角色的數(shù)量。但這種算法也有很多缺點,比較突出的問題包括特征提取的困難,對于用戶興趣的表現(xiàn)較淺顯還有對新角色的難適應等。現(xiàn)在基于內(nèi)容的推薦算法基本是輔助其他推薦算法進行使用,比如用于過濾候選數(shù)據(jù)集等。協(xié)同過濾算法主要分為兩大類,一種是基于記憶的協(xié)同過濾,另一種是基于模型的協(xié)同過濾[2]。比較常見的UserCF(基于用戶)模型和ItemCF(基于項目)模型都屬于基于記憶的協(xié)同過濾。協(xié)同過濾算法最早由Goldberg等人提出。這一算法的核心思想就是相似度。通過計算相似度,將User和Item進行分類,由此進行推薦。比如UserCF模型,是將用戶進行分類,相似度高的用戶分為一組,將用戶喜愛或偏好的物品推薦給同一組中的其他用戶。ItemCF模型與之相似,是將物品進行分類,相似度高的物品被分為一組,同一組的物品會被推薦給某一物品對應的用戶。這一算法在電子商務方面取得了很大成就,但隨著注冊用戶的增多以及新物品的暴增,傳統(tǒng)的協(xié)同過濾算法也面臨著冷啟動的問題。冷啟動是指推薦系統(tǒng)要根據(jù)用戶歷史的行為和喜好來預測用戶未來的行為和喜好。冷啟動又可以分為三類問題:用戶冷啟動、物品冷啟動以及系統(tǒng)冷啟動[2]。協(xié)同過濾算法可以解決物品冷啟動問題,即如何將新物品推薦給可能對它感興趣的用戶。但這一算法對用戶冷啟動問題的解決并不理想,即不好解決給新用戶做推薦,也無法處理好系統(tǒng)冷啟動問題,即對新開發(fā)的網(wǎng)站上的個性化推薦束手無策。又因為協(xié)同過濾算法是要比較所有用戶及物品之間的相似度,計算需要全部覆蓋到海量的相關(guān)數(shù)據(jù),算法的可伸縮性問題也會隨著用戶與物品的加入不斷凸顯。針對這些問題,學術(shù)界提出了很多改進算法。比如使用聚類等相關(guān)技術(shù)[3],提出新的相似度計算方法[4]等?;旌贤扑]方法是采取混合兩種或兩種以上的推薦算法以達到互補的效果。比如Mathew將多種推薦算法進行加權(quán)得到推薦結(jié)果[5]。之后隨著神經(jīng)網(wǎng)絡的發(fā)展,使用神經(jīng)網(wǎng)絡進行推薦流行起來。黃振華提出了深度度量分解學習[6],如圖1-2可以從多種角度對用戶和物品之間的關(guān)聯(lián)進行深度學習以保證推薦的精確和多樣。圖1-2一種基于內(nèi)容的個性化推薦優(yōu)化算法同時,基于卷積神經(jīng)網(wǎng)路、循環(huán)神經(jīng)網(wǎng)絡、圖神經(jīng)網(wǎng)絡等的推薦算法也逐漸發(fā)展起來。除了上述算法,還有一些其他的推薦算法。比如基于評論文本的推薦算法,通過用戶評論對用戶的偏好進行進一步的細致刻畫,可以為用戶進行更有效和準確的推薦。還有基于標簽的推薦算法,這類算法的核心是引入標簽(label),label的作用是刻畫物品的特征以及用戶對其的喜好厭惡程度??梢越ser-label-Item的三元關(guān)系,并計算標簽和物品特征的相似度實現(xiàn)推薦的目標?;谥R圖譜的推薦算法因為有著更為豐富的語義關(guān)系,對解決數(shù)據(jù)稀疏性提供了解決辦法,所以也受到了高度重視?;谛湃蔚耐扑]算法核心是對信任信息的深度提取。陳婷等人提出了基于信任的推薦算法[7],把全局和局部信任結(jié)合處理,通過設置權(quán)重,將相似度和信任度融合計算得到用戶的喜好來選擇用戶的相近鄰居,之后通過協(xié)同過濾算法的輔助計算得到一種高效率的基于信任的推薦算法??珙I(lǐng)域推薦算法的提出出于待研究領(lǐng)域數(shù)據(jù)量、信息量不足的情況,這種算法通過使用不同領(lǐng)域之間的相關(guān)性來填充目標領(lǐng)域的數(shù)據(jù)量,使數(shù)據(jù)有效地實現(xiàn)遷移,從而改善信息缺失的情況。JinY等[8]提出了具有回顧性的跨領(lǐng)域的推薦算法,可以有效地解決推薦中的冷啟動問題。1.2.2知識圖譜嵌入的國內(nèi)外發(fā)展現(xiàn)狀知識圖譜嵌入(KnowledgeGraphEmbedding)學習模型總體來說是把有關(guān)知識的語義信息向低維的向量空間中嵌入,使得一些比較高效的數(shù)值類的計算方法和推理方法能夠運用到知識圖譜的計算當中,逐漸成為研究語義信息的熱門。知識圖譜嵌入主要分為兩種方法,平移距離模型以及語義匹配模型。平移距離模型,顧名思義,就是判斷經(jīng)過關(guān)系解釋后頭實體和尾實體之間的距離,將這一距離的大小用于衡量一個事件是否合理。即對于三元組(h,r,t)在把實體和關(guān)系向低維的向量空間映射后,r就表示成h到t的一種平移向量,由此可以對關(guān)系實體這種信息進行向量化的計算和操作。這一模型一般會用一個基于距離的評分函數(shù)進行關(guān)系打分,比較常見的是TransE模型及其變形。TransE模型[9]對于基本的語義關(guān)系能建立比較好的關(guān)聯(lián),而且對于比較稀疏的數(shù)據(jù)也能有較高的性能,是知識圖譜向量化的經(jīng)典模型。它對于正確的三元組的判斷在于,如果頭實體h加上平移向量r能夠得到或接近t,就判斷這個三元組是正確的,h+r越接近t,這個三元組就越正確,即這個三元組所表示的事件就越是合理的。但是對于較為復雜的關(guān)系,比如一對多、多對一、多對多的關(guān)系模型的處理效果不是特別好。比如對于三元組(A,B,C)和(A,B,D),通過TransE模型可以得到A+B≈C,A+B≈D,但這樣一來,C≈D,但C和D是兩個不一樣的實體,理應用不同的向量表示,具體例子是,小明+乘坐≈火車,小明+乘坐≈宇宙飛船,但火車和宇宙飛船是完全不一樣的實體,但TransE模型卻會將它們歸一一個向量。針對復雜關(guān)系的處理,WangZhen等人提出了TransH模型[10]。這一模型使得同一個實體能夠在不同的關(guān)系中的表示方式不同。TransH模型定義了超平面,在TransE模型的基礎上多了一次向量轉(zhuǎn)換,但對一對多和多對一的情況的處理有著非常好的效果。上面兩種模型是在一個語義空間中進行計算的,即實體和關(guān)系在同一個語義空間中。但關(guān)系也是多樣的,比如(A,包含,B)與(C,扮演,D)中的“包含”關(guān)系和“扮演”關(guān)系也是不同的,也存在類似實體間的向量平移關(guān)系,為了更加準確地描述事件,力求事件的合理性,LinYankai等人提出了TransR模型[11]。TransR模型將實體和關(guān)系的語義空間分開,為關(guān)系開辟一個關(guān)系語義空間,按照計算實體平移向量的方法對關(guān)系語義空間中的不同關(guān)系進行向量平移計算,模型對復雜關(guān)系的表達能力更豐富,使得計算更加貼合實際,得出的結(jié)果更加準確。1.2.3知識圖譜的國內(nèi)外發(fā)展現(xiàn)狀知識圖譜(KnowledgeGraph,簡稱KG)是一種結(jié)構(gòu)化較強的知識庫,它可以把零散的知識高效地融合起來,方便人們的查詢與修改,而不是像毫無章節(jié)的文本一樣雜亂地在擺在眼前,因其高度的結(jié)構(gòu)化使得知識能夠直觀地被人們所觀察,極大提高了效率。知識圖譜因為結(jié)構(gòu)化多指向的特點,能夠在很小的文本空間將大量的關(guān)系表示出來,極大提高了內(nèi)容的豐富性。知識圖譜產(chǎn)生的背景一方面是互聯(lián)網(wǎng)的快速發(fā)展,海量的信息由越來越多的網(wǎng)民生產(chǎn)出來,但這些信息本身是雜亂無章的,是未被整理的信息,無法為人們研究使用。為了使人們能夠加速檢索到某些重要信息,知識圖譜技術(shù)顯得尤為重要。另一方面,越來越社區(qū)化的網(wǎng)絡環(huán)境使得網(wǎng)絡上的信息存在潛在的網(wǎng)狀結(jié)構(gòu),隨著科學技術(shù)的飛速發(fā)展,人們無法滿足也無力于人工處理這些信息,迫切地希望機器能夠像人一樣理解大范圍的網(wǎng)狀信息,并且能夠更智能地獲取網(wǎng)狀信息中的重要知識,為了讓機器高效工作,知識圖譜應運而生。圖1-3知識圖譜的起源從圖1-3可以看出在知識圖譜之前就有類似知識圖譜的知識庫存在。早期的知識庫是人工合作建立起來的,比如基于英文的WordNet[13]和Cyc[14]項目還有基于中文的HotNet知識庫。這些知識庫是幾個人進行的人工知識庫,之后維基百科利用社區(qū)性質(zhì)的共建智能創(chuàng)建了互聯(lián)網(wǎng)的超大資源庫,于是有很多基于維基百科進行構(gòu)建的知識庫,比如DBpedia就以本體構(gòu)建的方法對知識資源進行梳理展示。而YAGO知識庫[16]不僅使用了維基百科的知識資源,還結(jié)合了基于英文的WordNet的層次概念?,F(xiàn)在,從互聯(lián)網(wǎng)自動獲取各種知識資源,由機器自行建立知識的關(guān)系并將其融入適當?shù)闹R圖譜中成為一種可持續(xù)發(fā)展的趨勢,比如卡內(nèi)基梅隆大學的NELL(Never-EndingLanguageLearning,永不停止的語言學習)就是這類知識庫。知識圖譜的核心就是實體和實體間的種種關(guān)系。實體是現(xiàn)實世界客觀存在的種種事物,比如臺燈、地震、北京等,實體具有屬性,用以豐富實體的表述。實體之間有著很多關(guān)系,如學校包含學院,計算機擁有軟件和硬件等等。知識圖譜首次被提出是2012年,谷歌在5月提出了谷歌知識圖譜[12]。這表明了語義處理在大規(guī)模的知識上成功取得應用。谷歌的知識圖譜建立流程大致為,從Wikipedia等數(shù)據(jù)庫中提取數(shù)據(jù),然后使用信息抽取、融合等技術(shù)把各種文本數(shù)據(jù)轉(zhuǎn)化為具有結(jié)構(gòu)性的實體-關(guān)系數(shù)據(jù),然后經(jīng)過語義處理等將它們連接成知識圖譜?;谥R圖譜,各種技術(shù)有了更加肥沃的土壤能夠發(fā)揮更大的生命力。知識圖譜與深度學習結(jié)合,極大地推動了人工智能的發(fā)展,甚至成為該領(lǐng)域的核心之一。知識圖譜技術(shù)不是單純的知識圖譜,而是在使用知識圖譜中與知識圖譜進行結(jié)合的相關(guān)技術(shù),是語義處理、信息檢索、NLP、深度與機器學習以及數(shù)據(jù)挖掘等的技術(shù)交叉融合。具體的,知識圖譜技術(shù)涵蓋三個方面,包括知識表示、圖譜建立、圖譜應用。知識表示大致分為基于符號主義的知識表示,基于網(wǎng)絡內(nèi)容的知識表示以及表示學習。第一種表示方式使用邏輯符號表示知識資源,這種表示方式對于邏輯推理等具有良好的效果,但推理規(guī)則過于復雜,機器遵循各種規(guī)則來進行表示的能力不強。第二種表示方法是使用標簽化的XML文件、語義元數(shù)據(jù)描述框架RDF等表示知識資源,也是現(xiàn)在常用的知識表示方式。而第三種表示知識的方式不在高維空間中進行,而是想方法把高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù),使得轉(zhuǎn)化后的數(shù)據(jù)更加稠密,在同等條件下,表示的信息量更多,也使得計算更加快速。一些平移模型,比如TransE模型就是基于這種原理提出的。知識圖譜構(gòu)建技術(shù)有多種。常見的構(gòu)建是事實學習。這種構(gòu)建將一個事實用三元組的形式表示,事實越多,對應的知識圖譜就越大。另外還有基于層次結(jié)構(gòu)進行構(gòu)建的知識圖譜。這種構(gòu)建方式多見于概念之間的表示,比如計算機概論中各種概念的包含層次關(guān)系。圖1-2知識抽取的三個子任務關(guān)于知識圖譜的應用,隨著技術(shù)的發(fā)展,應用也越來越廣泛。知識圖譜的關(guān)鍵技術(shù)包括:信息抽取、知識合并、知識加工、知識更新、知識融合等。基于這些技術(shù),知識圖譜的典型應用又有智能搜索、深度問答、社交網(wǎng)絡、個性化推薦及垂直行業(yè)應用等。理論研究2.1面向知識圖譜增強推薦的多任務特征學習方法面向知識圖譜增強推薦的多任務特征學習方法(Multi-TaskFeatureLearningforKnowledgeGraphEnhancedRecommendation,簡稱MKR)將知識圖譜的特征學習和推薦算法看做兩種分離但相關(guān)的工作。針對大停電事件,把“事件”作為“用戶”,把“事件發(fā)生的原因”作為“物品”進行對應。2.1.1節(jié)介紹了MKR的模型框架,2.1.2節(jié)介紹了MKR的學習算法,2.1.3節(jié)是針對停電事件問題的制定。圖2-1MKR特征學習和推薦算法是分離且相關(guān)的2.1.1MKR的模型框架MKR是一個端到端的深度推薦框架,在進行推薦的同時,使用知識圖譜嵌入(KGE)幫助完成推薦任務。但是知識圖譜特征的學習和推薦任務是相互獨立的,但由于推薦系統(tǒng)中的物品(item,此處指“停電原因”)和知識圖譜中的實體(entity)是相互聯(lián)系、高度相關(guān)的。因此MKR模型框架可以交替學習、優(yōu)化特征學習和原因推薦這兩個任務,也讓MKR在大停電事件的原因推薦場景中有靈活性和適應性較高的優(yōu)點。MKR模型框架由三個主要部分組成:推薦模塊、知識圖譜嵌入模塊和兩個模塊間的交叉壓縮單元。如圖2-2所示。左側(cè)模塊是推薦模塊,推薦部分的輸入是用戶和物品的特征表示,并用多層感知器(MLP)和交叉壓縮單元費別提取輸入的用戶和物品特征,提取出的特征再一起送入另一個多層感知器,預測的可能性作為輸出。右側(cè)是知識圖譜嵌入(KGE)模塊,KGE模塊的輸入是三元組的頭節(jié)點和關(guān)系,使用多層感知器和交叉壓縮單元分別提取一個三元組的頭結(jié)點和關(guān)系,由此可以得到預測尾結(jié)點的表示,根據(jù)函數(shù)f計算預測的尾結(jié)點和實際尾結(jié)點之間的相似度,作為知識圖譜嵌入鏈路預測的能力分數(shù)。圖2-2MKR模型框架圖連接推薦模塊和知識圖譜嵌入模塊的是交叉壓縮單元,也叫交叉特征共享單元(Cross-feature-sharingUnit)是兩個模塊結(jié)合起來的關(guān)鍵,它可以讓這兩個任務交換信息,由于物品向量和實體向量實際上是一個對象的兩種描述,交叉共享可以讓兩者都獲得來自對面模塊的額外信息,實現(xiàn)自動學習推薦系統(tǒng)中物品和知識圖譜中實體的高階交互特征,從而彌補了推薦系統(tǒng)自身信息稀疏性的缺點。多層感知機多層感知機也叫人工神經(jīng)網(wǎng)絡,除了輸入輸出層,它中間可以有多個隱層,多層感知機層與層之間是全連接的。交叉壓縮單元或交叉特征共享單元交叉特征共享單元可以讓推薦任務與知識圖譜嵌入任務交換信息。具體結(jié)構(gòu)如圖2-3.圖2-2交叉壓縮單元結(jié)構(gòu)圖交叉特征共享單元通過接受來自第L層的輸入,即推薦系統(tǒng)中物品(Item)的特征(左)和知識圖譜嵌入系統(tǒng)中的實體特征(右)。將這兩方輸入進行交叉計算(CrossOperation),得到交叉特征矩陣,然后再對交叉特征矩陣進行壓縮操作(CompressOperation),將壓縮后的特征值作為輸入送入第L+1層,進行下一層的特征交叉與壓縮計算。其中,交叉計算定義為矩陣與轉(zhuǎn)置矩陣的乘積,即: (2-1)在壓縮運算中,w和b是訓練權(quán)重和偏差向量,權(quán)重向量可以將交叉特征矩陣從D×D的矩陣壓縮為D×1矩陣,具體計算為: (2-2)為了表述簡潔,可以將交叉壓縮單元表述為: (2-3)交叉特征共享單元的核心在于交叉運算,這一運算實現(xiàn)了特征的融合。推薦模塊(RecommendationModel)在推薦模塊中,向量u和向量v分別表示用戶和物品,基于不同的應用場景,這兩個向量可以用One-hotEncoding,Bag-of-Words,attributes或它們的結(jié)合來刻畫。One-hotEncoding(獨熱編碼),又稱作一位有效編碼,是用N位狀態(tài)寄存器對N個狀態(tài)進行編碼,每個狀態(tài)都有獨立的一個寄存器,并且在任意時刻都有一位有效。One-hotEncoding十分適用于離散特征的編碼,比如對于停電事故的原因這一特征擁有1位狀態(tài)寄存器,“自然災害”可映射為“0”,“設備故障”可映射為“1”,“網(wǎng)絡攻擊”可映射為“2”,“外力破壞”可映射為“3”等等。對于輸入向量u,即用戶的原始特征向量,使用L層的多層感知器(MLP)來提取用戶潛在濃縮的特征,可表示為:(2-4)其中是全連接神經(jīng)網(wǎng)絡層: (2-5)對于輸入向量v,使用L個交叉壓縮單元提取它的特征: (2-6)其中S(v)是與項v有關(guān)聯(lián)的實體。推薦系統(tǒng)模塊是點擊率預測模型,得到用戶和物品的特征向量后,通過向量內(nèi)積或MLP可計算用戶u參與項v的可能性: (2-7)知識圖譜嵌入模塊(KGEModel)知識圖譜嵌入是將實體和關(guān)系映射到連續(xù)的低維空間同時保留它們原來的空間結(jié)構(gòu)。KGE有很多模型,比如基于距離的翻譯方法、基于語義的匹配方法,MKR模型使用的是深度語義匹配結(jié)構(gòu)(deepsemanticmatchingarchitecture)。對于給定的三元組(h,r,t),利用交叉壓縮單元和多層感知機分別從原始的headh和relationr提取特征。將head和relation對應的向量進行拼接,經(jīng)過多層神經(jīng)網(wǎng)絡,得到一個對于tail的預估值, (2-8)知識圖譜嵌入模塊希望預測得到的對于tail的預估值向量是和實際的tail向量相似的,所以定義了得分函數(shù),最后三元組(h,r,t)的分數(shù)由相似度函數(shù)fKG計算得到,相似度函數(shù)可以是t和t的預估向量取內(nèi)積后取sigmoid: (2-9)2.1.2MKR的學習算法損失函數(shù)MKR模型的完整的損失函數(shù)如下: (2-10)損失函數(shù)的第一項測量是推薦模塊的交叉熵損失,其中u和v需要對用戶User和物品Item的集合進行遍歷。第二項測量是測量KGE模塊的損失,用以增加正確三元組的得分,減少錯誤三元組的得分。第三項是L2正則項,避免過擬合。其中l(wèi)ambda是平衡常數(shù)。學習算法由于是交替學習的模式,所以在訓練時,首先固定推薦系統(tǒng)模塊的參數(shù),來訓練知識圖譜特征學習模塊的參數(shù);然后固定知識圖譜嵌入模塊的參數(shù),來訓練推薦系統(tǒng)模塊的參數(shù)。因此,在每次迭代訓練中,都會有兩個任務:推薦任務和KGE任務,因為最終目的是要進行推薦,對推薦的性能更為關(guān)注,所以在每次迭代中,先重復訓練推薦任務t次,再訓練KGE任務1次。具體的MKR學習算法見表2-1.表2-1MKR的學習算法MKR的多任務訓練要求:交叉矩陣Y,知識圖譜G使用:預測函數(shù)(predictionfunction)初始化所有參數(shù)for迭代次數(shù)do推薦任務forT次do抽樣從Y獲得正負交互的小批次;對在小批次中的每一個物品v進行e~S(v)抽樣;通過梯度下降法更新預測函數(shù)中的參數(shù)值。endfor進行一次知識圖譜嵌入任務抽樣知識圖譜中的正確和錯誤的三元組小批次對上一步的小批次中的每一個三元組頭結(jié)點h進行v~S(h)抽樣通過梯度下降法更新預測函數(shù)中的參數(shù)值endfor2.1.3停電問題的制定定義M個大停電事件的集合U={u1,u2,…uM},然后定義N個停電事故原因的集合V={v1,v2,…vN}。取得用戶-物品的交互矩陣,即停電事件與停電事故的交互矩陣。取得知識圖譜G。問題描述:給定停電事件-停電事故的交互矩陣以及知識圖譜G,要預測的是,停電事件u是否會對原因v感興趣。2.2協(xié)同過濾(CF)模型雖然當今各種推薦模型很多,但協(xié)同過濾這種傳統(tǒng)的推薦算法仍然憑借著易實現(xiàn)、易部署、環(huán)境需求較低等要素占據(jù)一席之地。協(xié)同過濾算法是最早使用的用于推薦領(lǐng)域的算法。它衍生出了兩類基于不同視角進行推薦的算法。一個是基于用戶相似度的推薦,一個是基于物品相似度的推薦。協(xié)同過濾,顧名思義,就是協(xié)同參與推薦的各方的意見、看法、興趣以及反饋,然后對一些信息進行過濾,從中選擇出目標用戶可能會有興趣的信息?;谟脩粝嗨贫鹊耐扑]有著比較強烈的社交性質(zhì),可以將本來不在目標用戶興趣列表中的物品加入到該用戶的興趣列表中。而這種將新物品加入到目標用戶興趣列表中的操作是通過計算用戶間的相似度得以完成的。而基于物品相似度的協(xié)同過濾推薦更加適合用戶的興趣大致穩(wěn)定不變的場景,用戶在一個時間段內(nèi)會去尋找與找尋物品相似的其他物品。因此,與基于用戶的協(xié)同過濾推薦算法相比,基于物品的推薦更適合于大停電事件中與原因相關(guān)的事件推薦。因此,在本推薦系統(tǒng)中使用的傳統(tǒng)推薦算法,將使用基于物品的推薦。由于數(shù)據(jù)量的規(guī)模等原因,并不適合通過直接的數(shù)據(jù)對比進行所有相似對象的尋找。因此采取相似度計算的方法來找到和目標的相似集合。第一種相似計算方法是歐幾里得距離計算。 (2-11)第二種常見的相似計算方法是余弦相似度的計算。 (2-12)相比于歐幾里得距離以及余弦相似度的計算,皮爾遜相關(guān)系數(shù)對于相似度的計算更加精準一些。它使用平均分數(shù)對各個獨立分數(shù)進行修正,使用戶分數(shù)的偏差值減小。從公式上來說,皮爾遜相關(guān)系數(shù)判斷的是兩組數(shù)或向量的線性相關(guān)程度。 (2-13)雖然協(xié)同過濾比起其他推薦算法有著簡單易操作等特點,但正是過于簡單使得他在原理層面就有很多局限性,比如它有冷啟動問題以及泛化性較差,會導致出現(xiàn)熱門商品更熱門,而冷門商品更冷門的情況。比如對于停電事件原因來說,由于很多導致停電的原因是“設備故障”,所以按照協(xié)同過濾的原理,這一原因有著很強的頭部效應,這樣就容易與大量其他的停電原因產(chǎn)生比較大的相似性,導致被推薦的可能性大大增加,即使實際感興趣的原因并不是“設備故障”。而那些長尾商品,比如特征向量比較稀疏的原因向量,因為很少與其他物品產(chǎn)生相似性,而被推薦的概率大大減小。由于頭部效應過于明顯,在協(xié)同過濾的基礎上增加了矩陣分解技術(shù),得到了MF模型,以此來增加CF缺乏的泛化能力。對一個多維度的稀疏矩陣,矩陣因式分解可以使用戶-商品矩陣重新構(gòu)建成兩個低維度的矩陣相乘結(jié)構(gòu),這樣就可以通過盡可能改變低評分的矩陣使得對應的高維度矩陣能夠接近原始數(shù)據(jù)矩陣,還能填充缺失項。但MF的方法因為要分解矩陣導致該算法復雜度較高,在使用時將使用梯度下降的方法計算減少時間復雜度。天津大學碩士學位論文 MACROBUTTONAcceptAllChangesInDoc[此處鍵入中文論文題目]實驗與分析3.1停電事件知識圖譜的建立3.1.1知識圖譜的實體與關(guān)系的概念設計進行停電推薦系統(tǒng)的實現(xiàn),首先應該建立大停電事件的知識圖譜。針對停電事件的原始數(shù)據(jù),應該進行知識抽取,對文本中的實體和關(guān)系進行提取。將每一條停電通知分為日期(date)、地點(location)、范圍(range)、停電事件損失的電量(lossMW,單位是兆瓦)、波及或影響到的人數(shù)(scale)、停電事件開始時間(begin)、經(jīng)過停電事件后該國家或地區(qū)恢復基本用電的時間(end)、該停電事件對本國或本地區(qū)的人民生活、經(jīng)濟發(fā)展、社會風氣、交通便利等方面的影響和后果(consequence)、該停電事件發(fā)生的實質(zhì)歸類(character)以及該停電事件發(fā)生的原因(cause)。根據(jù)以上的事件標注整理,可以從中抽取出知識圖譜的實體,并根據(jù)實體間的現(xiàn)實關(guān)系,總結(jié)出實體間的關(guān)系,并用json數(shù)據(jù)的形式存儲。從上述數(shù)據(jù)中可以得到實體集“date”,該實體集作為每個停電事件發(fā)生的具體日期,可以作為每個停電事件的唯一標識。在本實驗中,將停電事件統(tǒng)一命名為“XXXX年XX月XX日事件”,可使用具體日期“XXXX年XX月XX日”作為對應停電事件的簡稱。提取到的第二個實體集是地點“l(fā)ocation”,該實體集包含發(fā)生停電事故的所有國家和地區(qū),因為有的停電事故發(fā)生的地點是跨國家的,比如美國和加拿大,瑞典和丹麥等,所以在構(gòu)建json數(shù)據(jù)時,“l(fā)ocation”實體集用數(shù)組的方式存儲國家或地區(qū)。范圍(range)作為地點(location)的進一步擴展,比如“美國中部”這一范圍是地點“美國”的進一步發(fā)展,由于本系統(tǒng)針對國家或地區(qū)進行推薦,太多的范圍對結(jié)果并沒有太多幫助,所以在這里將范圍作為地點location的屬性即可。雖然一個國家或地區(qū)所對應的范圍可能有多個,比如一次停電事故中國家是“美國”,范圍是“猶他州和懷俄明州”,但作為地點的屬性,構(gòu)建json數(shù)據(jù)時,不需要用數(shù)組的方式存儲。停電事件損失的電量(lossMW)以及停電波及或影響到的人數(shù)(scale)還有停電事件造成的影響和后果(consequence)都以字符串的格式作為事件的屬性,不構(gòu)成實體集。對于停電事件開始時間(begin)以及經(jīng)過停電事件后該國家或地區(qū)恢復基本用電的時間(end),可以經(jīng)過計算begin-end求得停電事件從開始到結(jié)束的時間跨度(recovery)。將跨度作為停電事件的一個屬性。將該停電事件發(fā)生的實質(zhì)歸類(character)作為一個實體集,雖然一般停電事件的實質(zhì)只有一個,但有些停電事件也有多個實質(zhì),比如有的停電事件的實質(zhì)既是“設施受損”也是“自然災害”。所以用數(shù)組形式存儲事件實質(zhì)。原因(cause)和實質(zhì)相同,也用數(shù)組存儲。根據(jù)實體在現(xiàn)實中的關(guān)系,可以建立3種關(guān)系。事件實體和地點實體之間有“發(fā)生在”的關(guān)系,事件實體和原因?qū)嶓w之間有“發(fā)生原因是”的關(guān)系,事件實體和實質(zhì)之間有“實質(zhì)是”的關(guān)系。關(guān)系不需要進行json數(shù)據(jù)的存儲。3.1.2知識圖譜的建立實現(xiàn)根據(jù)上一小節(jié)對實體和關(guān)系的概念設計,用python(==3.6)利用py2neo庫對neo4j圖數(shù)據(jù)庫進行操作,建立知識圖譜。在建立知識圖譜前,首先要讀取并處理json文件。Json數(shù)據(jù)每一條代表一次停電事故。首先創(chuàng)建知識圖譜中心事件的節(jié)點,即日期節(jié)點,數(shù)據(jù)庫中的標簽為“event”,然后建立其他實體節(jié)點。之后根據(jù)自己創(chuàng)建的實體關(guān)聯(lián)邊把實體關(guān)系邊創(chuàng)建出來。至此,知識圖譜建立完畢。將各種實體的名稱導出到各自的TXT文件,后續(xù)會用到。知識圖譜建立如圖3-1.圖3-1知識圖譜可視化3.2MKR模型的訓練知識圖譜建立完成后,就可以根據(jù)知識圖譜得到三元組文本集合,用以表述整個知識圖譜,還可以由建立好的知識圖譜用戶-物品的交互矩陣。之后數(shù)據(jù)預處理,把這里涉及到實體的地方,用在知識圖譜的實體節(jié)點ID進行表示。經(jīng)過數(shù)據(jù)預處理,可以得到打分集合,三列數(shù)據(jù)分別是用戶ID,物品ID以及標簽,其中標簽為0表示負采樣,正負樣本比例維持在1:1。而三元組是(h,r,t)格式,實體的ID和物品的ID是一樣的。對于MKR模型的輸入,將上述處理過的停電事件ID、原因的ID,推薦部分的標簽、以及(h,r,t)三元組六個數(shù)據(jù)輸入到MKR中。然后進行底層網(wǎng)絡構(gòu)建,按照模型,將停電事件ID、原因的ID,三元組頭結(jié)點h的ID以及關(guān)系ID轉(zhuǎn)化為與之對應的向量。其中停電事件ID和關(guān)系ID經(jīng)過多層全連接神經(jīng)網(wǎng)絡向上傳播,而原因的ID以及三元組頭結(jié)點h的ID經(jīng)過交叉壓縮單元向上傳播。之后進行高層網(wǎng)絡構(gòu)建,按照模型,對于推薦任務,經(jīng)過多層神經(jīng)網(wǎng)絡得到預估值;對于知識圖譜嵌入任務,拼接三元組頭結(jié)點和關(guān)系的對應向量,可以得到三元組尾結(jié)點對應的向量的預估值,將這個預估值與實際的尾結(jié)點預估值進行內(nèi)積的計算。推薦部分和知識圖譜嵌入部分各自有一個損失函數(shù),其中知識圖譜嵌入的損失函數(shù)依托于推薦部分的scores_kge。經(jīng)過訓練,可以得到MKR模型訓練后的TopK評估:precision,recall和F1值以及CTR(點擊率評估)。 (3-1)其中,TP叫做真陽性,F(xiàn)P叫做假陽性,F(xiàn)N叫做假陰性。真陽性的意思是實際為正,預測也為正。假陽性的意思是實際為負,預測為正。假陰性的意思是實際為負,預測也為負。所以精準度的含義是正確預測為正的次數(shù)占所有預測為正的比值。召回率的含義是正確預測為正的次數(shù)占所有判斷正確次數(shù)的比值。F1值同時考慮到了精準度和召回率,是兩者的調(diào)和平均值,最大值是1,最小值是0.MKR進行50個epochs的訓練,對于top-K中的不同K值,得到的precision,recall和F1值見表3-1.表3-1top-K評測中的precision,recall和F1值(MKR)K值precisionrecallF110.80000.60400.689020.45000.62400.523050.22000.69900.3350100.15000.97400.2600從得到的precision,recall和F1值來看,對于K值為1,2時來說,模型的結(jié)果還是可以的。由于是推薦系統(tǒng),更看中的是對用戶興趣的預測正確性,所以在以上評價指標中,precision的值相比于recall值來說更為重要,K值為1時,precision能夠達到0.8000,F(xiàn)1值達到了0.6890,說明推薦效果還是不錯的。此次訓練后MKR模型的點擊率(CTR)評估見表3-2.表3-2CTR評估中的auc,acc值Trainauc0.8046Trainacc0.7430Evalauc0.7295Evalacc0.6828Testauc0.7288Testacc0.6504從以上數(shù)據(jù)可以看出,模型的AUC是大于0.5的,說明模型的對于樣本的排序水平是較高的,AUC=0.7意味著,給定正樣本和負樣本,在70%的概率下,模型將正樣本預測為正的概率是大于將負樣本預測為正的概率的。從正確率上看,在測試集上的正確率為0.6504.該數(shù)據(jù)集通過協(xié)同過濾模型得到的topK評估的precision,recall和F1值以及ACC見表3-3.表3-3top-K評測中的precision,recall和F1值以及acc(協(xié)同過濾)K值precisionF1aucacc10.55000.57900.50940.448720.25000.3060通過比較MKR模型與協(xié)同過濾模型的模型評估值,可以看到,MKR模型的正確率、precision以及F1值都比協(xié)同過濾模型優(yōu)秀,從AUC值也可以看出MKR模型更為穩(wěn)健,而協(xié)同過濾模型在本數(shù)據(jù)集上的稍微比隨機分類器好一些,遠遠達不到MKR模型所具有的準確性。3.3停電推薦系統(tǒng)的實現(xiàn)在上一節(jié)中,介紹了推薦系統(tǒng)的核心推薦任務通過使用MKR模型進行訓練并實現(xiàn),在這一小節(jié)將介紹停電推薦系統(tǒng)的具體實現(xiàn)。核心功能是實現(xiàn)推薦對某一事件“感興趣”的原因所對應的事件。而獲取某一事件的依托是實現(xiàn)基于大停電知識圖譜的查詢系統(tǒng)。通過向系統(tǒng)詢問某一事件,系統(tǒng)會回答問題,當問到某一事件的原因時,系統(tǒng)會根據(jù)實現(xiàn)的推薦功能向詢問者推薦這個事件所“感興趣”的原因,并將事件原因所對應的事件向詢問者展示出來。首先需要對咨詢進行分類。利用建立知識圖譜時所存儲的實體集合作為特征詞。通過對咨詢進行特征詞匹配得到問句中的實體類型,在這一步使用Aho-Corasick匹配算法,該算法將字符匹配轉(zhuǎn)化為狀態(tài)轉(zhuǎn)移,使得只需要掃描一次文本就能在字符串中找到所有特征詞,加大了過濾效率。然后人工構(gòu)建疑問詞詞典。比如對于詢問某一事件對應原因的咨詢,可以建立cause_qwds數(shù)組,將'原因','成因','為什么','怎么會','怎樣才','咋樣才','怎樣會','如何會','為啥','為何','如何才會','怎么才會','會導致','會造成'等詞語放入數(shù)組中。疑問詞詞典應該盡可能完備,能夠覆蓋到一般常見的詢問方式。根據(jù)建立的疑問詞和特征詞的匹配,將咨詢分為6類。即“事件-地點”類、“事件-原因”類、“事件-實質(zhì)”類、“地點-事件”類、“原因-事件”類、“實質(zhì)-事件”類。這六類可以分為3組,通過特征詞來將實體相同的分為一組,又利用疑問詞區(qū)分實體的前后關(guān)系,進行進一步的咨詢分類,方便進行下面的操作。在這一步,關(guān)于前實體為事件,后實體為原因的咨詢,一方面要單獨進入MKR模型進行推薦工作,將得到的推薦結(jié)果保存起來;另一方面還需要針對咨詢進行解析,以得到對應的回答。而其他的前后實體類別將直接進行咨詢解析。接下來是對咨詢進行解析。通過對問題的分類,可以使用不同的SQL語句對知識圖譜進行查詢操作。比如咨詢是有關(guān)某一事件的原因的,那么在這一步需要編寫按照咨詢類別分類的統(tǒng)一的Neo4j圖數(shù)據(jù)庫中的查詢語句,使得在連接數(shù)據(jù)庫查詢時能夠快速得到查詢結(jié)果。在完成咨詢的分類和解析后,就可以進行知識圖譜上的查詢了。通過使用咨詢提供的前實體,可以找到與之相連的后實體,將后實體保存在數(shù)組中。然后編寫與咨詢類別相關(guān)的回復模板,產(chǎn)生答案。如果是前實體為事件,后實體為原因的咨詢類別,將答案與經(jīng)過MKR模型推薦的事件進行統(tǒng)一回復。至此,基本完成推薦系統(tǒng)的實現(xiàn),并輔以查詢功能進行對知識圖譜中的知識查詢。具體的查詢與推薦功能實現(xiàn)見圖3-2.圖3-1推薦系統(tǒng)的功能展示參考文獻SunX,XuX,XiaF.CROA:acontent-basedrecommendationoptimizationalgorithmforpersonalizedknowledgeservices[C].IEEE21stInternationalConferenceonHighPerformanceComputingandCommunications,Zhangjiajie,China,2019:804-810.李孟浩,趙學健,余云峰,宋學永,孫知信.推薦算法研究進展[J/OL].小型微型計算機系統(tǒng):1-14[2021-05-16].ZarzourH,Al-SharifZ,JararwehY.Anewcollaborativefilteringrecommendationalgorithmbasedondimensionalityreductionandclusteringtechniques[C].9thInternationalConferenceonInformationandCommunicationSystems(ICICS),Irbid,2018:102-106.ZhouWB,LiR,LiuW.Collaborativefilteringrecommendationalgorithmbasedonimprovedsimilarity[C].IEEE5thInformationTechnologyandMechatronicsEngineeringConference(ITOEC),Chongqing,China,2020:321-324.MathewP,KuriakoseB,HegdeV.Bookrecommendationsystemthroughcontentbasedandcollaborativefilteringmethod[C].InternationalConferenceonDataMiningandAdvancedComputing(SAPIENCE),Ernakulam,2016:47-52.HuangZ,YuC,NiJ,etal.Aneffic
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目管理方法與流程
- 2026年信息技術(shù)在農(nóng)業(yè)智能化中的應用測試題
- 2026年IT項目管理員面試項目規(guī)劃與實施模擬題
- 2026年古代文學史知識競賽試題及解析
- 2026年軟件工程軟件項目管理實踐問題及答案
- 2026年生物學基礎理論與實驗生物考試題庫
- 2026年金融投資顧問風險管理策略制定模擬試題
- 2026年企業(yè)文化品牌建設考核試題
- 2026年環(huán)境科學基礎理論與環(huán)保知識測試題
- 2026年健康管理與飲食科學高血壓疾病管理相關(guān)習題
- 2026 年初中英語《狀語從句》專項練習與答案 (100 題)
- 2026年遼寧省盤錦市高職單招語文真題及參考答案
- 農(nóng)投集團安全生產(chǎn)制度
- 近五年貴州中考物理真題及答案2025
- 2025年黑龍江省大慶市中考數(shù)學試卷
- 山東煙草2026年招聘(197人)考試備考試題及答案解析
- 二級醫(yī)院的DRGs培訓課件
- 空芯光纖行業(yè)分析報告
- 根據(jù)信用證制作商業(yè)發(fā)票、裝箱單、裝船通知
- GB/T 28046.4-2011道路車輛電氣及電子設備的環(huán)境條件和試驗第4部分:氣候負荷
- 初中體育《正確跑姿勢》教學課件
評論
0/150
提交評論