國家科學圖書館青年人才領域前沿項目結題報告-基于本體的科學知識圖譜分析方法研究_第1頁
國家科學圖書館青年人才領域前沿項目結題報告-基于本體的科學知識圖譜分析方法研究_第2頁
國家科學圖書館青年人才領域前沿項目結題報告-基于本體的科學知識圖譜分析方法研究_第3頁
國家科學圖書館青年人才領域前沿項目結題報告-基于本體的科學知識圖譜分析方法研究_第4頁
國家科學圖書館青年人才領域前沿項目結題報告-基于本體的科學知識圖譜分析方法研究_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

國家科學圖書館青年人才領域前沿項目 結題 報告 基于本體的科學知識圖譜 分析方法研究 撰寫 人: 王建芳 撰寫時間: 2011 年 6 月 10 日 摘 要 由于目前基于共詞關系繪制的科學圖譜可讀性不強的問題, 本研究 嘗試利用本體的語義關系來優(yōu)化共詞科學圖譜的關系展示,通過理論分析、實驗案例來揭示其可行性和有效性 。 本研究借鑒相關領域的研究成果,提取本體關系中的上下位關系及關聯關系計算詞與詞之間的語義關系,并根據兩種類型的語義關系構建了其與共詞關系融合的算法。 通過 “農業(yè)污染”領域的案例實驗 , 分析了共詞關系與 本體中體現的上下位關系、關聯關系融合的效果,結果顯示,上下位關系對共詞關系圖譜的優(yōu)化效果有效,而關聯關系可以在一定程度上豐富語義關系,并優(yōu)化聚類結果 。 關鍵詞: 科學知識圖譜 ; 本體 ; 關系融合 s a of a of to to by we to In on in we on of to of is we to 目 錄 一、研究背景與現狀 . 1 究背景 . 1 內外研究進展 . 2 學知識圖譜及相關研究進展 . 2 于本體的情報分析研究進展 . 4 二、科學圖譜語義解釋性問題及引入本體的可 行性 . 6 學圖譜語義解釋性問題的分析 . 6 于共詞的科學圖譜中引入本體關系的可行性分析 . 7 建共同的分析詞條 . 7 于共詞關系與本體關系的關系融合的思路 . 8 究思路 . 8 三、基于本體的科學圖譜分析方法 . 9 詞關系與本體關系計算的方法 . 9 體層次關系及關聯關系的計算 . 9 詞關系計算 . 11 詞關系與本體關系融合的方法 . 12 四、案例驗證及結論分析 . 13 例實驗的實施 . 13 用本體的選擇與結構解析 . 13 例試驗流程 . 15 究結果分析 . 17 五 、存在的問題及展望 . 20 附錄 . 21 1 一、研究 背景 與現狀 究背景 在科學技術自身發(fā)展取得巨大進步的同時,對于科學技術發(fā)展演化特征的解讀也在日益繁榮??茖W技術史考證史實,梳理科學發(fā)展的脈絡;科學技術社會學審視科學與技術建制的結構與運行機制,描述科學技術與社會的關系;科學哲學界定科學,反思科學,詮釋科學發(fā)展的邏輯 ;創(chuàng)造學總結技術系統(tǒng)進化的規(guī)律性。關注科學與技術發(fā)展的相關學科對科學技術知識演化的特征做出了規(guī)律總結。 情報科學以獨特的視角和方法觀察、展現科學活動與科研成果。情報學的獨特視角在于利用科學與技術知識的載體作為分析對象,嘗試利用定量的方法解讀科學與技術知識之間的關聯性 。 隨著文獻計量 學的發(fā)展,尤其是可視化技術的進步,科學圖譜方法 在揭示科學領域之間的相關關系及其發(fā)展演化等方面得到了廣泛的 應用。繪制科學圖譜的一般方法包括了共引分析方法、引文耦合分析方法、共詞分析方法,以及融合了其他文獻特征的綜合分析方法等。但無論分 析方法如何改進,采用何種可視化計劃,基于這些方法繪制的 科學圖譜 一直 存在可視化結果可讀性不高、結果解釋性不夠的問題。因此,對于科學圖譜方法的優(yōu)化是必須解決的問題。 這一問題的解決首先有賴于分析對象之間語義關系的明確。 而 知識組織系統(tǒng)對人類知識結構的表達能力 在不斷提升,包括能揭示語義關系的 敘詞表、語義網絡和本體 等,它們通過 對于概念、術語及其相互關系的規(guī)范化描述,勾畫出某一領域的基本知識體系和描述語言,為計算機實現類似人的思考構建一個概念層次。 而概念層次關系的模糊性正是科學圖譜方法中導致可讀性不高的關鍵問題,為此, 本文試圖借助知識組織系統(tǒng)的概念關系來優(yōu)化科學圖譜方法,以提升科學圖譜展示的科學進展的質量。 2 內外研究進展 學知識圖譜及相關研究進展 在科技哲學與科學社會學等領域,對于科學和技術知識演化及其關系的理論闡述已經非常成熟。文獻計量學、科學計量學作為對科學技術發(fā)展狀況進行數字解讀的學科也已經得到了長足的發(fā)展,尤其在利用信息可視化技術實現科學發(fā)展的展示方面,已經成為目前領域研究的熱點,利用其揭示科學發(fā)展的前沿等特征的嘗試也越來越多。 對科學技術發(fā)展演化狀況進行可視化分析的方法,即科學圖譜分析方法??茖W圖譜分析方法的研究中,包括分析過程中若干階段的研究和實踐,力圖以更客觀真實的圖示為讀者提供科學發(fā)展狀況的簡化描述。該過程可以大致劃分為如下幾個階段:根據分析的目的確定計量分析的文獻特征;選擇分析的方法,構建合適的文獻特征之間的關聯;對關聯特征進行適當的數字化表述,以盡量客觀的方式反映知識關系;對數字關系以清晰、易讀的可視化形式呈現給讀者。 用于計量分析的文獻特征有很多,而可用于分析的文獻特征中,具有知識表達功能的只有引文、分類和詞(短語),如基于引文的共引分析和基于主題詞的共詞分析等。引文指向的是一 篇文獻,代表的是一條法則、規(guī)律或一個問題,可以認為是若干知識單元的集合,所以基于引文的分析是不能反映微觀層次的知識關聯的。分類一般代表的是一個綜合的知識領域,即使是比較詳細的分類,對微觀知識的反映也是有限的。因此,為了明確分析知識之間的關聯關系,只有選擇知識繼承與發(fā)展的最小功能單元,即詞作為分析對象。 共詞分析基于的是詞之間的關聯而進行的知識關聯分析,詞是代表概念的,因此相比共引分析而言,共詞分析揭示的是更微觀的知識關系。但是一般的共詞分析沒有揭示詞之間的語義關系, 法作為共詞方法的一種3 改進,利用臨近度 來揭示語義關聯性。 在這些研究領域,國外開創(chuàng)了方法研究的先河,近年來,國內也有越來越多的學者開始這方面的研究和實踐應用。本研究為揭示知識之間的關聯關系,選擇共詞分析的方法,為此以下的研究現狀論述以共詞分析為主。早期共詞分析方法的基本思想是以問題網絡的層次結構為基礎,通過包容指數和臨近指數兩個指標尋找中心 現目前規(guī)模較小但是具有成長潛力的領域,并將問題網絡展現為包容地圖和臨近地圖。在包容圖中通過比較問題網絡的結構變化說明知識的發(fā)展變化,這里的指標通常包括:中心詞的個數、點的位置變化、點與點之間的關 聯變化、網絡密度、結構層次等。臨近地圖揭示具有較強關聯性的小主題。隨著閾值的降低,越來越多的高頻詞之間的強關聯包括進來。因此它又被認為是自下而上的分析,揭示問題網絡中的微單元知識。 由于上述方法的復雜性及結果解釋等問題,后來學者們又開發(fā)了基于網絡密度和中心度的網絡分析方法,并據此建立空間坐標、進行網絡比較等。這里密度用來度量共詞網絡中聚合成一個主題的內部凝聚程度,中心度用來度量一個研究主題和其它研究主題的相互影響程度。將密度與中心點分別作為橫縱坐標繪制戰(zhàn)略坐標圖,通過研究主題在圖中的位置,以及比較主題在不同 時期的位置變化,可以對領域的發(fā)展進行一定的預測。相比較初期的方法,該方法的易操作性大大提高,因此得到了比較廣泛的應用。 類似于共引網絡聚類圖的展現,后來的共詞網絡分析也依據各種相關度指數,如 數等計算詞之間的相關度,然后通過各種聚類算法繪制網絡圖,進而對網絡圖所展示的結果進行定性、定量的分析,揭示知識之間的關聯情況。 上述共詞分析方法中分析指標的變化,伴隨了分析用詞、聚類算法、可視化方法的改進等等,使共詞分析的結果大大改善,也使得其對科學知識演化的描繪更加可靠。已有的共詞分析應用揭示的知識演化 特征可以總結4 為:從學科內部關系的角度,區(qū)分科學子領域,確定學科結構;從學科之間,以及科學與技術之間的關系層面,揭示研究主題之間的特點與差異;從時間的維度,揭示出特定領域的不同子領域的研究的演化模式及其相互關系;從橫向的主題比較中,揭示研究主題接近所屬領域熱點問題的程度,進而預測特定領域的知識發(fā)展趨勢。 但目前的研究和應用中還存在很多的問題,當然也是由于知識關系本身的復雜性問題,特別是在具體分析方法上,對于分析對象的選擇的研究仍有不足。在共詞分析中,詞的選擇將嚴重影響分析的結果,而且不同詞的概念屬性和集總層次 度截然不同,據此得出的共詞網絡可以說不具有語義解釋性。 這里的原因主要在于,詞的含義是不夠明確的,在不同的語境中會有不同的意義。 1這給基于概念詞的情報分析帶來了疑問。但是值得注意的是,該問題存在的前提是,詞在沒有特定語境的情況下,才造成了語義的不明確。當我們對所分析概念詞事先做出語義限定的話,這也就不稱其為問題了。為了揭示深層次的知識演化關系,本人曾對共詞圖譜的語義解釋性問題提出了可行的解決方案。 對于分析詞的語義限定是共詞分析面臨的一個主要挑戰(zhàn),而本體的發(fā)展為共詞分析詞的選擇和利用提供了可靠的思路。因為本 體是一種共享詞表,可以揭示特定領域之中那些存在著的對象類型或概念及其屬性、相互關系。因此,本研究試圖在已有的基于概念詞的知識單元形態(tài)劃分進而建立知識圖譜的基礎上,嘗試引用本體對科學知識領域的描繪對特征詞進行語義限定,映射文本分析中提取的關鍵詞或者主題詞,將其賦予特定而規(guī)定性的語義屬性,從而完善共詞分析多維視角和語義可解釋性。 于本體的情報分析研究進展 根據知識組織系統(tǒng)對人類知識結構的表達能力可以將知識組織系統(tǒng)1 of of 997,48(5): 418 ( 分為 3 類: 1)術語列表型( 如字典和術語表; 2)分類 型( 如標題表、分類法和范疇表; 3)關系型( 如敘詞表、語義網絡和本體 2。其中,敘詞表是本體出現之前最高端的知識組織系統(tǒng) 3。 盡管敘詞表和本體有不同的起源和用途,但它們都是通過受控詞匯來表達概念的概念系統(tǒng),都提供了對領域知識的共同理解與描述,都追求概念及其之間關系的明確化和描述的形式化;都可以作為特定學科信息(知識)的組織工具,都具有等級結構,并通過等級關系及詞(概念、類)間關系將詞(概念、類)組織起 來;都需要維護與不斷修訂。另外,本體的構建通常是以敘詞表作為基礎和起點的;由于敘詞表本質上一種知識組織體系,具有層次結構和分類等級,所以敘詞表本身是輕量級本體 4。 在傳統(tǒng)的信息檢索系統(tǒng)中,由于 語義異構性的存在, 使得 系統(tǒng)難以滿足用戶對信息和知識的深層次需求,因此, 學者們提出 加強基于概念匹配的信息檢索系統(tǒng)的研究。概念匹配,簡而言之就是計算詞語之間的語義相似度 5。與 傳統(tǒng) 的以 詞形為 切入 點 ,建立在 詞語 字面匹配基 礎 上的 檢索 算法相比, 語義 相似度 計 算是 對 源和目 標詞語間 在概念 層 面上相似程度的度量,需要考 慮詞語 所在的 語 境和 語義 等 信息。 國外基于本體的語義相似度計算 包括 基于距離的語義相似度計算 、 基于信息內容的語義相似度計算 、 基于屬性的語義相似度計算 ,以及 混合式語義相似度計算 等。 基于本體的相似度計算研究已經取得很多成果,本研究試圖選擇適當的相似度計算方法,并與共詞關系的關聯度相結合,形成集成的詞間關系,分析其是否有利于基于共詞的科學圖譜展示效果的提升。 2 趙渙洲 ,唐愛民 敘詞表與 情報理論與實踐 ,2005,28(5):469 曾新紅 ,林偉明 J2008(5):1 顧金睿 ,王芳 J2007,25(6):949 2007 、 科學圖譜語義解釋性問題及引入本體的可行性 學圖譜語義解釋性問題 的分析 關于科學圖譜的語義解釋性不佳的問題, 有很多方面的原因,分析 其原因可能包括如下方面 : ( 1) 詞與詞 之間的共現關系,不必然揭示語義關系 。繪制科學圖譜的目的是 顯示科學知識的發(fā)展進程 或 結構關系 ,從宏觀的科學結構來講,以引文(也就是一篇文獻)作為一個節(jié)點 、 以文獻間的引用關系來構建 科學結構,由于文獻本身就是一個語義單元,因此,引文關系揭示的宏觀的科學 結構比較容易體現語義解釋性,而在微觀層面,通過共詞 方法分析科學進展或前沿,分析的節(jié)點是 單個 的詞和詞組,它們可以揭示一個概念,而概念與概念之間的聯系才構成有明確的語義,這里的聯系 必須是在同一個語境 中才可以表現出特定的語義。 但共詞分析一般用的關鍵詞和主題詞僅僅是出現在同一 篇文獻的關鍵詞列表中,只有在文獻的語境中,這些關鍵詞的之間的語義關系才是明確的。比如 “知識管理”與“競爭情報”同時出現在許多文件的關鍵詞中,但研究的內容有的是研究二者之間的關系,有的是討論競爭情報對知識管理影響作用,等等。因此,兩個詞之間的共現對語義關系的反映是有限的。 ( 2) 由于詞與詞之間的上下位關系、通用詞 、 專用詞 以及同義詞 在文獻中出現頻度的明顯差異,造成共詞關系圖譜中上位詞和通用詞的優(yōu)勢地位 ,從而弱化了更加深層次的語義關系。 這里除了同義詞的影響,還有某種語義關聯詞的影響, 如 “醫(yī)生 ”、 “護士 ”、 “醫(yī)院 ”、 “病床 ”、 “手術室 ”、 “診斷 ”、 “藥方 ”、 “感染 ”、 “病情 ”、 “抗體 ”等詞是存在某種關聯的。其中一個特征的存在在某種程度上具有替代其它詞的作用 , 各個特征單獨出現的頻率可能比較小 , 而且也許會被一些無關的、出現頻率大的詞所覆蓋。 而如果 這些詞共同表達的是一個主題的話 , 它們出現在 詞表 中的語義距離是比7 較近的 , 根據詞表之間的臨近關系, 就可以把它們綜合起來考慮。 比如從文本中抽出這樣一些詞信息如下 :3 , 1 , 1 , , 1 ,14其中每個詞后面的數字表示在文本中出現的次數。如果只是分別考慮各個詞的詞頻的話 , 則 高 , 但是我們可以知道前面幾個詞之間有很強的語義關聯 , 它們可以相互補充 , 從而提高該部分各個詞的重要性。 ( 3) 共詞關系中所揭示的關聯度,使語義關系被弱化 。該問題與上面兩個問題相關聯,由于通用詞的詞頻往往較高,通用詞與通用詞之間的共現關系也較多,這樣 共詞關系揭示的往往是通用詞之間的關系, 從而在很大程度上掩蓋了需要重點反映的 內在語義關系。 因此 ,很大程度上,詞之間語義關系的復雜性導致了共詞 關系 得出的知識圖譜的語義解釋性不佳 。 于共詞的科學圖譜中引入本體關系的可行性分析 本體或敘詞表 都是通過受控詞匯來表達概念的概念系統(tǒng), 但 都提供了對領域知識的共同理解與描述 ,且作為特定學科信息(知識)的組織工具,除能夠 通過等級關系及詞(概念、類)間關系將詞(概念、類)組織起來以外,都能夠體現詞與詞之間的語義關聯關系。因此,本體關系從語義的角度體現了 詞與詞之間的關系。 基于共詞的科學圖譜是通過詞與詞之間的共現 關系來體現研究內容的關聯性。從本質上講,共詞關 系與本體關系體現的都是詞與詞之間的關系,這就構成了二者融合的基礎。 建共同的分析詞條 用于建立共詞關系的詞往往是來自于文獻的關鍵詞列表,或者從標題、摘要甚至全文中提取的主題詞,這些詞不可能有非常規(guī)范的形式和表達,而本體或敘詞表給出的都是經過嚴格規(guī)范的詞,因此,在關系融合之前二8 者的匹配是首先需要解決的問題。 從另一個方面講,本體或敘詞表提供的規(guī)范詞條可以為共詞分析提供關鍵詞清理的工具,因此,可以通過本體的詞條對關鍵詞進行不規(guī)范詞的規(guī)范化處理,以及同義詞的合并等,這樣不僅可以實現關鍵詞的自動清理, 在基礎上溝通相同的 分析 詞條,進而進行融合。 于共詞 關系 與本體關系的 關系融合的思路 共詞關系與本體關系的融合,可以有多種思路, 首先, 可以在具體關系分析之前,也就是圖譜繪制之前,基于二者的關系矩陣進行數值換算,得到融合的關系 。這是一種最容易實現的方法,而且在信息過濾等領域,這種融合已經有了比較成熟的經驗。但這里存在的一個問題是,兩者本身揭示的關系類型是不同的,經過數值計算的融合結果的得出結果的真正含義是什么?這一問題可以通過數值計算的不同方式來得到解決,比如簡單的加權平均,為了強調某一種關系,可以 設置不同的權重。 其次,可以 在 某一種關系的可視化結果的基礎上,進行另一種關系的疊加 , 這樣可以更容易地解釋融合后的關系性質,繪制的圖譜的結果的解釋性會更強。 比如在本體關系可視化圖上,疊加共詞關系,將共詞關系的親疏通過詞之間的連線來表示等。 但類似的做法很少有可以借鑒的經驗,但理論上是可行的。 究思路 本項目 嘗試 利用本體所體現的語義關系來優(yōu)化共詞構建的知識圖譜, 在一 般共詞分析的基礎上,進行概念語義關系的計算,進而與共詞關系進行融合 , 并分析其對于知識圖譜語義解釋性的作用, 具體如圖 1。 9 三 、 基于本體的科學圖譜分析方法 基于本體的科學圖譜分析方法首先要確定共詞關系、本體關系的計算方法,進而根據融合的目的 確定 共詞關系與本體關系融合的 方法 。 詞關系與本體關系計算的方法 體 層次關系及關聯 關系 的 計算 在信息過濾等領域,對于本體中詞之間的關系,即本體關系的計算, 主要是計算詞之間的層次關系和關聯關系,層次關系揭示詞之間的上下位關數據集構建 數據預處理 分析詞 遴選 概念語義關系計算 聚類分析 可視化展示 圖 1基于知識組織的情報分析總體流程 文獻集 傳統(tǒng)關系 計算 研究主題 上下位概念計算 關聯關系 計算 共詞關系 計算 混合模型 權重 計算 聚類分析 研究主題 對比分析 10 系,關聯關系揭示詞之間的語義相關性,甚至 關聯的 屬性。 常見的 計算 方法包括 : ( 1) 層次關系 (: i. 別 為詞 詞 共同祖先節(jié)點的距離, 這個共同祖先到根節(jié)點的距離。 詞 詞 短通路上的節(jié)點的數量 D:為知識組織體系的層次深度 但分析該公式的含義, 從 1 到 2D,上下位關系通過根節(jié)點鏈接,因此 d 的大小為 1/2D 到 1, p/2d)從 0。因此,在 2D 大于底數的情況下,該值就大于 1,是錯誤的值,因此該參數可以改為: p/2D 1/2D,1.相似度用 1D 表示。 121*2 A( 為所有詞 先詞),包括 A( 為所有詞 先詞),包括 以上三種計算方法的結果沒有很大區(qū)別,本研究嘗試 利用 三種 算法 進行初步計算, 以分析該應用場景的最佳算法。 ( 2) 關聯關系( 6 1)2010. 88 11 關聯關系是本報告所強調的語義關系的最佳體現,在比較理想的本體結構中,關聯關系可以有很多種,或者不同的屬性類型,對于此類情況,可以將關聯關系分為若干級別,然后計算權重。 一種較為簡單的計算方法是按照是否有關聯關系計權重來得出關系值,如: 示直接從關聯關系表中取得兩次詞是否有關聯關系,有關聯關系值為其層次關系值的 50%,若沒找到關聯關系,則該值為 0; 加上同義詞和注釋詞的向量表示 (詞干表示 ),計算夾角。則關聯關系值為: r=(r1+2 對于 只揭示一種 關聯關系 “農業(yè)敘詞表 ,詞之間的語義關聯可以簡化 為 ,將直接關聯的關系參數設定為 如果: “ “ 那么 關聯關系值 共詞關系計算( 詞與詞之間的共現關系中的共現詞頻本身就可以體現共詞關聯度, 在此基礎上,學者們又提出了若干計算共詞關系強度的算法, 這些指數的一般原理為:將兩個本來關系就密切的關鍵詞顯得更密切,使關系疏遠的關鍵詞顯現得更為疏遠,由此可以在某一主題內,明顯區(qū)分核心和非核心概念。但這些測度指標的計算僅僅是從詞的頻次或共現的頻次出發(fā)的,沒有考慮這些頻次所屬分析文獻集的大小,因此,很難區(qū)分不同的詞對相對領域貢獻度的大小。 常見的共詞關系相似度的計算 方法如下: ( 1)內積。 設 , T, , T, 間的相似度用內積表示為 12 ( 2) 數。 關鍵詞 數定義為 ( 3) 數。 關鍵詞 數定義為 : ( 4)余 弦 函數。關鍵詞 余 弦 系數定義為: 作為對比對象,本研究選擇 數作為共詞關系計算的系數。 詞關系與本體關系 融合 的方法 通過計算,對于任一的詞對,可以獲得三 種 關系:上下位關系 聯關系 共詞關系 點是將三個矩陣合并,形成關系的合成。一般來講,合并權重可以由配置獲得(必須滿足: ),若沒有,則按照下面算法計算三個關系的權重系數 陣中非對角線的最大值。 陣中非對角線的最大值。 陣中非對角線的最大值。 2222m a a a a 2222m a a a a 13 2222m a a a a 在本研究中,為分析對比各種類 型的關系對共詞圖譜的作用,首先分別將共詞關系與上下位關系、關聯關系進行了合并,然后再將三者融合。 合并的算法分別為: ( 1)共詞關系與上下位關系的合并: 如果上下位關系為 0,則合并值仍 取 共詞關系值,如果上下位關系值非零,則合并值為共詞關系值 *上下位關系值,這樣可以在某種程度上調整共詞關系的強度,弱化上下位關系的強關聯,從而凸顯語義關系。 ( 2)共詞關系與關聯關系的合并: 為了體現共詞關系中的語義聯系,也就是說,在不同共詞詞對中,突出具有語義聯系的詞之間的關聯度,因此,可以利用關聯關系來調整共詞關系詞之間的語 義強度,算法為賦權合并,共詞關系權重為 聯關系權重為 3)共詞關系、上下位關系與關聯關系的合并: 三者的合并目的是在若干上下位關系的基礎上,更好體現語義關系,因此這里的算法是在共詞關系與上下位關系合并的基礎上,在與關聯關系進行賦權合并。權重賦值同上。 四 、 案例驗證及結論分析 例實驗的實施 本研究案例實驗 選擇的本體為 聯合國糧農組織發(fā)布的 農業(yè)敘詞表于目前可用的比較完善本體不太容易獲得 ,故選擇輕量級的敘詞表作為本體的基礎 集合 ,而且該敘詞表的 塊還有關鍵概念與概念關系的范例,力圖以本體的形式進行描述 ,因此,基本可以滿足本研究的需求 。 14 分析 農業(yè)敘詞表 的結構,其中 存儲 了 農業(yè) 領域 的專業(yè)概念信息、概念的同義詞、概念的上下位詞和概念的關聯詞信息。 這些信息在敘詞表中的表現形式如下所示。 概念標簽,最后后面的數字,是該概念在敘詞表中的標號信息。 簽是這個術語的名稱。 簽中的內容是該概念的同義詞或同義概念。 簽中的內容是該概念的上位詞或上位概念,通過最后的數字(概念標號)關聯。 簽中的內容是該概念的下位詞或下位概念,通過最后的數字(概念標號)關聯。 簽中的內容是該概念的關聯詞或關聯概念,通過最后的數字(概念標號)關聯。 部分概念還有注釋 of 5 例試驗流程 ( 1) 試驗數據 及 預 處理 本項目的分析數據來源為 of 主題選擇與農業(yè)敘詞表有對應關系的 “ 農業(yè)污染 ”領域 。 檢索 2006 “ 農業(yè) 污染 ” 主題的 英文 論文( ,共 得到 11,844 篇 , 以此 作為初始數據集。 為有利于與農業(yè)敘詞表的匹配, 分析用詞選擇相對規(guī)范的 作者關鍵詞 ,作為構建共詞關系的來源,首先,將 文獻 數據導入 必要的數據清理之后,再提取 作者 關鍵詞 信息 并進行 初步清理, 最后 導出詞頻大于 10 的655 多個詞條作為與農業(yè)敘詞表的匹配對象。 從敘詞表中 導入 的 農 業(yè)敘詞 為 38202 個,其中正規(guī)名稱 28174 個,別名10028 個, 將 出的 655 個詞條中 農業(yè)敘詞表 匹配,得到 337 個匹配詞,利用 敘詞表合并同義詞(一個詞的正規(guī)名和別名) ,結果示意如下表 。 敘詞表中正規(guī)詞的 稱 合并結果 228 28 302 302 159 159 651 651 807 807 391 391 268 268 077 077 077 617 617 377 6 7377 5911 5911 3483 3483 3560 3560 3949 3949 5028 5028 5131 5131 5131 并同義詞后, 剩余 319個 ,作為 可分析的對象 ,詳見附表。 ( 2)關系計算及 比較分析 本研究編制了專門計算機程序,實現 從農業(yè)敘詞表中提取詞與詞之間的上下位關系、關聯關系 ,并利用上述算法計算關系值 。另一方面, 在 19 個分析詞,并構建共現矩陣 并計算關聯系數 。 然后將不同類型的關系合并,形成新的關系矩陣并可視化,以比較分析結果的優(yōu)劣勢。 關系合并的思路包括: 共詞關系與上下位關系的合并 ,主要展示共詞關系,僅以上下位關系系數作為調整詞與詞之間由于上下位關系而導致的某些關系太過密切的問題,以此來突出其它更重要的共詞關系 ; 共詞關系與關聯關系的合并 ,仍以共詞關系為核心,通過關聯關系加權突出具有特定語義關系的詞與詞之間的聯系,進而更清晰地表達特定關系的所顯示的領域發(fā)展趨勢 ; 共詞關系與上下位、關聯關系的合并 ,通過三者的融合,在弱化上下位關系的基礎上,進一步突出關聯關系, 但仍以共詞關系為主,嘗試是否可以更好揭示研究的熱點問題。 需要說明的一點是, 由于農業(yè)敘詞表中 最多計算到四級, 因此本研究中17 詞與詞有 關聯 的值最小為: 究結果分析 這里 通過對比傳統(tǒng)的共詞關系、共詞關系與上下位關系合并、共詞關系與關聯關系合并,以及共詞關系與上下位、關聯關系合并的圖譜, 分析在共詞關系構建的圖譜當中,利用詞之間的上下位關系及關聯關系進行優(yōu)化的可行性, 及其 對共詞關系圖譜語義解釋性的貢獻。 上述合并后繪制的知識圖譜如圖 2、圖 3、圖 4、圖 5。 圖中點的 大小 以文獻集中詞的頻次 為依據,點越大詞頻越高;線的粗細以合并前或合并后的關聯關系為依據,點越大說明關聯關系越密切。 此外,為對比分析結果的差異,圖 2繪制利用了同樣的關聯閾值,及關系值大于 圖 2為傳統(tǒng)的共詞關系圖,圖 3為進行了上下位關系調整的共詞關系圖,對比圖 2 與圖 3 可以發(fā)現,傳統(tǒng)共詞關系圖與上下位關系合并圖的結果差異不大,兩者對詞與詞之間關聯度的揭示程度都不是很好。因此,上下位關系對共詞關系圖的優(yōu)化效果比較有限。 圖 2 農業(yè)污染領域共詞關系圖 18 圖 3 上下位關系與共詞關系 融合后的 圖譜 圖 4 關聯關系與共詞關系融合后的圖譜 19 圖 5 上下位關系、關聯關系與共詞關系融合后的圖譜 比較圖 2、 3 與圖 4 可以發(fā)現, 關聯關系的 引入 對共詞關系的調整 效果比較明顯,一方面關聯關系更加豐富,另一方面,體現的語義關聯更加明顯,聚類的效果也更好。 如 及 下 側遠程遙感 、 環(huán)境監(jiān)測中的利用 ,都能比較明顯 地體現 熱點的內容要點。 比較 圖 4和圖 5,可以看出兩者 的差異不太明顯 ,這進一步說明了上下位關系調整對于共詞關系圖譜顯示效果的影響不 是很大,分析其中的原因可能在于,在我們的分析對象 作者關鍵中,是比較理想的分析用詞,上下位詞同時出現在關鍵詞列表中的幾率較低,從而造成上下位關系沒有明顯影響共詞關系。在未來的研究中,可以嘗試利用標題、摘要中提取的關鍵詞來進行類似的分析,以發(fā)現其中的差異性。 此外, 作為通用詞的 各圖 中雖然節(jié)點比較大(點的大小由詞頻的高低來確定),但從與其他詞之間的關聯來看,是比較弱的,這從某種程度上說明了語義合并的價值所在,即是通用詞、上位詞的優(yōu)勢地位 有所 弱化。 20 因此, 進行對比分析可以看出,共詞關系 與關聯關系合并的圖譜最具可讀性,語義解釋性也最強。 五 、存在的問題及展望 本研究 存在的問題主要是 ,某些參數的選擇還可以更加豐富,進而進行更加深入的比較。另外, 目前的研究僅實現 了 分析前的關系合并, 即 直接將共詞關系與本體語義關系進行合并, 進一步的研究可以實現可視化結果的合并, 如將語義關系作為詞之間的距離的標識參數,將共詞關系 體現 的強度作為連線的粗細,這樣可以 在體現語義關系的前提下,顯示研究熱點和前沿。 由于本研究案例實驗的領域本身的問題,導致文獻數據關鍵詞與敘詞表的匹配結果不是很理想,這也在某種程度上影響了共 詞關系與本體關系融合的效果,為此,未來的研究中可以通過一定的方法將實現詞條的更好匹配,如借助其他工具實現進一步的合并,或者對未實現匹配的關鍵詞 進行進一步的 分析。 此外,一個比較重要的問題是,本研究的算法優(yōu)化主要是基于本體的關系,但是目前除醫(yī)學領域外,很難找到比較成熟的本體結構,項目研究過程中搜集了多個領域的本體或敘詞表,雖然

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論