【畢業(yè)學(xué)位論文】(Word原稿)Web中實(shí)體關(guān)系分析與面向?qū)嶓w的社會網(wǎng)絡(luò)分析研究-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)Web中實(shí)體關(guān)系分析與面向?qū)嶓w的社會網(wǎng)絡(luò)分析研究-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)Web中實(shí)體關(guān)系分析與面向?qū)嶓w的社會網(wǎng)絡(luò)分析研究-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)Web中實(shí)體關(guān)系分析與面向?qū)嶓w的社會網(wǎng)絡(luò)分析研究-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)Web中實(shí)體關(guān)系分析與面向?qū)嶓w的社會網(wǎng)絡(luò)分析研究-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室 摘要 : 以實(shí)體為核心的 以分為三個層次: 實(shí)體層次 提取、分析單個實(shí)體及其屬性 、 實(shí)體關(guān)系層次 提取、分析多個實(shí)體間的關(guān)系 的 和基于實(shí)體的社會網(wǎng)絡(luò)分析 。本文對后面兩個部分的相關(guān)研究進(jìn)行了總結(jié),描述了近年來該領(lǐng)域的研究路線,分析了其中用到的主要方法,并提出了幾個該領(lǐng)域亟待解決的問題。 關(guān)鍵字 : 實(shí)體關(guān)系、社會網(wǎng)絡(luò)分析、綜述 錄 1. 前言 . 3 2. . 4 關(guān)系發(fā)現(xiàn)研究概況 . 4 先確定 關(guān)系類型的方法 . 7 有監(jiān)督的學(xué)習(xí)方法 . 7 半監(jiān)督的學(xué)習(xí)方法方法 . 8 后確定關(guān)系類型的方法 . 14 實(shí)體關(guān)系發(fā)現(xiàn)的難點(diǎn) . 15 實(shí)體關(guān)系對的確定 . 15 實(shí)體關(guān)系描述文本的篩選與擴(kuò)展 . 15 實(shí)體關(guān)系對的驗(yàn)證 . 16 實(shí)體關(guān)系體系的發(fā)現(xiàn) . 16 3. . 17 以網(wǎng)頁為研究對象的社會網(wǎng)絡(luò)分析 . 17 基于 . 18 基于二分有向圖的技術(shù) . 20 基于流量的技術(shù) . 20 幾種技術(shù)的總結(jié) . 21 以實(shí)體為研究對象的社會網(wǎng)絡(luò)分析 . 21 以實(shí)體為核心的社會網(wǎng)絡(luò)構(gòu)建 . 22 以實(shí)體為核心的社會網(wǎng)絡(luò)分析方法 . 23 基于 . 25 4. 參考文獻(xiàn) . 27 1. 前言 隨著計(jì)算機(jī)的廣泛應(yīng)用與互聯(lián)網(wǎng)的高速發(fā)展 , 網(wǎng)絡(luò)信息不斷爆炸式地增長。信息的過量增長帶來一定負(fù)面影響:面對大規(guī)模的信息 , 用戶難以找到自己真正的需求。如何利用一些自動化的方法幫助人們在海量信息源中迅速找到真正需要的信息, 現(xiàn)有的 搜索引擎已經(jīng)不能 滿足用戶的要求。 下面就是一個例子 : 例如對 于“丁磊”這個名字來說,叫這個名字的人很多,新聞報(bào)道中也會很常見,通過其服務(wù)的機(jī)構(gòu)以及職務(wù)來分析,會發(fā)現(xiàn)網(wǎng)易公司有丁磊,而上海通用汽車公司也有一個丁磊,并且網(wǎng)易公司的丁磊的任職包括:董事會主席、總裁、總經(jīng)理、 事等等。除了了解“丁磊”的個人情況外,發(fā)現(xiàn)他與 “人物”、“機(jī)構(gòu)”、“事件”等其他命名實(shí)體地關(guān)系。 “命名實(shí)體關(guān)系標(biāo)注”時還可以進(jìn)行“機(jī)構(gòu)名 + 職務(wù)”、“機(jī)構(gòu) +人名”等組合搜索,獲取檢索機(jī)構(gòu)和特定職務(wù)的歷任信息等。能夠極大的提高情報(bào)分析、獵頭行業(yè)的工作效率,因此具有很高的應(yīng)用前景和商業(yè)價值。 基于實(shí)體對 成為 域研究開發(fā)的焦點(diǎn) , 信息抽?。?是在這種背景下產(chǎn)生與發(fā)展起來。 信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息( 1。比如,從新聞報(bào)道中抽取出恐怖事件的詳細(xì)情況:時間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等;從經(jīng)濟(jì)新聞中抽取出公司發(fā)布新產(chǎn)品的情況:公司名、產(chǎn)品名、發(fā)布時間、產(chǎn)品性能等;從病人的醫(yī)療記錄中抽取出癥狀、診斷記錄、檢驗(yàn)結(jié)果、處方等等。通常,被抽取出來的信息 以結(jié)構(gòu)化的形式描述,可以直接存入數(shù)據(jù)庫中,供用戶查詢以及進(jìn)一步分析利用。 近十年來,信息抽取逐步發(fā)展成為自然語言處理領(lǐng)域的一個重要分支,涉及到了深層次的語言理解、篇章分析與推理、多語言文本處理、息抽取、名實(shí)體識別等自然語言研究領(lǐng)域。通過系統(tǒng)化、大規(guī)模地定量研究和評測推動了自然語言處理研究的發(fā)展,促進(jìn)了自然語言處理研究與應(yīng)用的緊密結(jié)合。近年來,信息抽取的處理對象也擴(kuò)展到了語音、圖像、視頻等其他媒體類型的數(shù)據(jù)??梢哉f,信息抽取已成為當(dāng)前自然語言處理和相關(guān)領(lǐng)域的研究熱點(diǎn)。信息抽取技術(shù)對搜索引擎、網(wǎng)絡(luò)信息 過濾和信息安全、自動問答系統(tǒng)、機(jī)器翻譯、文本挖掘、企業(yè)智能信息系統(tǒng)等許多應(yīng)用領(lǐng)域具有至關(guān)重要的作用 23。 在信息抽取領(lǐng)域中,命名實(shí)體( 文本中基本的信息元素,是正確理解文本的基礎(chǔ) 3。狹義地講,命名實(shí)體是指現(xiàn)實(shí)世界中的具體的或抽象的實(shí)體,如人、組織、公司、地點(diǎn)等,通常用唯一的標(biāo)志符(專有名稱)表示,如人名、組織名、公司名、地名等。廣義地講,命名實(shí)體還可以包含時間、數(shù)量表達(dá)式等。至于命名實(shí)體的確切含義,只能根據(jù)具體應(yīng)用來確定。比如,在具體應(yīng)用中,可能需要把住址、電子信箱地址 、電話號碼、艦船編號、會議名稱等作為命名實(shí)體。 關(guān)系( 看作兩個實(shí)體在一段時間或空間范圍內(nèi)的某種聯(lián)系 4,在信息抽取研究中關(guān)系的發(fā)現(xiàn)在事件的偵測與描述中起著關(guān)鍵的作用。所以命名實(shí)體之間語義關(guān)系的抽取是信息抽取領(lǐng)域的一項(xiàng)重要的基礎(chǔ)性研究 現(xiàn)如今,命名實(shí)體語義關(guān)系抽取技術(shù)在很多專業(yè)領(lǐng)域中有著更高的要求和更迫切的需求。在教育自動化、公司人事管理等領(lǐng)域都期待著高質(zhì)量的專業(yè)領(lǐng)域的命名實(shí)體語義關(guān)系抽取技術(shù)。面向?qū)I(yè)領(lǐng)域的信息抽取技術(shù)作為未來高層次、高效率的專業(yè)領(lǐng)域信息處理技術(shù)的基礎(chǔ)具有重大研究價值。 而作為信息抽取的核心任務(wù)之一的關(guān)系抽取在專業(yè)領(lǐng)域中的研究同樣極具價值。 當(dāng)前,雖然有一些有指導(dǎo)或弱有導(dǎo)的語義關(guān)系抽取方法可以移植到專業(yè)領(lǐng)域,但是這些方法的抽取規(guī)則、關(guān)系種子、訓(xùn)練語料庫都要重新構(gòu)造,從而耗費(fèi)大量的時間和人力。而目前效率較高的無指導(dǎo)的命名實(shí)體語義關(guān)系抽取方法卻只適用于一般領(lǐng)域,在特定的專業(yè)領(lǐng)域中卻難以滿足用戶的需求。所以尋求一種在專業(yè)領(lǐng)域中高效的命名實(shí)體語義關(guān)系抽取方案具有重大意義。 2. 關(guān)系發(fā)現(xiàn)研究概況 從 20 世紀(jì) 80 年代末開始,由于信息量的迅速增長,人們對信息處理的質(zhì)量和速度的要求也日益增高,信息抽取也因此成為自然語言理解和自然語言處理的一個熱點(diǎn)問題, 美國紐約大學(xué)開展的 5開始于 60年代中期并一直延續(xù)到 80年代。該項(xiàng)目的主要研究內(nèi)容是建立一個大規(guī)模的英語計(jì)算語法,與之相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的 這種信息格式實(shí)際上就是現(xiàn)在我們所說的模板 1( 另一個相關(guān)的長期項(xiàng)目是由耶魯大學(xué) 0世紀(jì)70年代開展的有關(guān)故 事理解的研究。由他的學(xué)生 e 6是根據(jù)故事腳本理論建立的一個信息抽取系統(tǒng)。該系統(tǒng)從新聞報(bào)道中抽取信息,內(nèi)容涉及地震、工人罷工等很多領(lǐng)域或場景。該系統(tǒng)采用了期望驅(qū)動( 本)與數(shù)據(jù)驅(qū)動( 入文本)相結(jié)合的處理方法。這種方法被后來的許多信息抽取系統(tǒng)采用。 特別是由美國國防高級研究計(jì)劃署( 助的消息理解系列會議( 7的召開,使得各國學(xué)者有了一個公開、公正、統(tǒng)一的研究平臺,從而可以在一致的條件下對比各自的系統(tǒng),總結(jié)成功的經(jīng)驗(yàn),探討解決問題的方法,因此信息提取技術(shù)在其影響下得到了迅速的發(fā)展。 信息提取方面的一個國際性的評測會議,與 似,它也是典型的評測驅(qū)動會議。無庸置疑,評測是技術(shù)發(fā)展的動力,各個參賽單位為了取得好的評測結(jié)果,千方百計(jì)地發(fā)掘和利用新技術(shù),從而在整體上推動了信息提取技術(shù)的不斷進(jìn)步 8。從 1987 年開始到 1998 年, 議共舉行了七次, 在 1998 年的第七屆 議上,首次將關(guān)系識別作為單獨(dú)的一個模板任務(wù)提出來,這極大地推動了關(guān)系抽取研究的發(fā)展 8。隨著 議的停止,從 2000 年開始由美國標(biāo)準(zhǔn)技術(shù)研究院組織的自動內(nèi)容抽取評測會議( 過了 任務(wù),將信息抽取的研究推到了一個新的高度。 目標(biāo)是為了達(dá)到發(fā)展自動內(nèi)容抽取的技術(shù)以支持人類語言文本方式的自動處理。 術(shù)的研究發(fā)展目標(biāo)是支持不同方式的分類、過濾和選擇 ,通過抽取來呈現(xiàn)文本的內(nèi)容,因此 要發(fā)展自動檢測和表現(xiàn)語言的意義的技術(shù)。自 始到 共進(jìn)行了 7 次評測,其基本任務(wù)定義了實(shí)體檢測和識別、數(shù)值檢測和識別、時間檢測和識別、關(guān)系檢測和識別、事件檢測和識別 10。該會議將繼續(xù)開展下去,對于信息抽取的未來發(fā)展將起到進(jìn)一步推進(jìn)作用。 圖 1 目前,除強(qiáng)烈的應(yīng)用需求外,正在推動信息抽取研究進(jìn)一步發(fā)展的動力主要來自美國國家標(biāo)準(zhǔn)技術(shù)研究所( 織的自動內(nèi)容抽取( 9評測會議。 它從 1999年開始舉行至今, 這項(xiàng)評測旨在開發(fā)自動內(nèi)容抽取技術(shù)以支持對三種不同來源(普通文本、由自動語音識別 光學(xué)字符識別 語言文本的自動處理,研究的主要內(nèi)容是自動抽取新聞?wù)Z料中出現(xiàn)的實(shí)體、關(guān)系、事件等 內(nèi)容,即對新聞?wù)Z料中實(shí)體、關(guān)系、事件的識別與描述。最近一次2007年 評測中的 主要有任務(wù) 包括 :實(shí)體 發(fā)現(xiàn)與識別 ( 關(guān)系 發(fā)現(xiàn)與識別 ( 、 事件發(fā)現(xiàn)與識別( 和時間表達(dá)式發(fā)現(xiàn)與規(guī)整化( 等 。與 前的 用基于漏報(bào)(標(biāo)準(zhǔn)答案中有而系統(tǒng)輸出中沒有)和誤報(bào)(標(biāo)準(zhǔn)答案中沒有而系統(tǒng)輸出中有)為基礎(chǔ)的一套評價體系,還對系統(tǒng)跨文檔處理( 力進(jìn) 行評測。這一新的評測會議將把信息抽取技術(shù)研究引向新的高度。 以上的研究中對命名實(shí)體間的關(guān)系定義 如下: 形式上,集合 ., 的關(guān)系是一個 (n + 1) 元組 R=(S= , T= , G(R),這里G(R) 是 的一個函數(shù),稱為 R 的關(guān)系圖。 從 此 的定義來看 , 為了 發(fā)現(xiàn)一組命名實(shí)體之間所有 可能地關(guān)系 ,需要確定實(shí)體關(guān)系類型集合 體關(guān)系圖 G(R)?,F(xiàn)有的實(shí)體關(guān)系發(fā)研究工作可以按照 確定關(guān)系類型的先后分為 兩大類別: 先確定實(shí)體關(guān)系類型 再發(fā)現(xiàn)該類關(guān)系的命名實(shí)體對; 先發(fā)現(xiàn)命名實(shí)體對再標(biāo)注關(guān)系 類型 。 先確定關(guān)系類型 的方法 先確定了關(guān)系類型的方法,根據(jù) 特定地 關(guān)系類型 確定 一組 關(guān)系描述模版,現(xiàn)有工作 中 對于 發(fā)現(xiàn)描述模版地方法有兩種方法。第一種是 是知識工程方法( 二是自動訓(xùn)練方法 (知識工程方法主要靠手工編制規(guī)則使系統(tǒng)能處理特定知識領(lǐng)域的信息抽取問題,這種方法要求編制規(guī)則的知識工程師對該知識領(lǐng)域有深入的了解。 這種開發(fā)過程可能非常耗時耗力。自動訓(xùn)練方法不一定需要專業(yè)的知識工程師。系統(tǒng)主要通過學(xué)習(xí)已經(jīng)標(biāo)記好的語料庫獲取規(guī)則。任何對該知識領(lǐng)域比較熟悉的人都可以根據(jù)事先約定的規(guī)范標(biāo)記語料庫。經(jīng)訓(xùn)練后的系統(tǒng)能處理沒有見過的新文本。這種方法要比知識工程方法快,但需要足夠數(shù)量的訓(xùn)練數(shù)據(jù)才能保證其處理質(zhì)量。 有監(jiān)督的學(xué)習(xí) 方法 國內(nèi)有許多研究人員從事信息提取的研究,有北京大學(xué)計(jì)算語言學(xué)研究所設(shè)計(jì)并發(fā)了面向新聞領(lǐng)域的中文信息提取系統(tǒng) 10,該系統(tǒng)以人民日報(bào)新聞文本為處理對象,首先根據(jù)構(gòu)成規(guī)則對文本中出現(xiàn)的各類數(shù)字、貨幣、時間等進(jìn) 行綁定預(yù)處理,再利用隱馬爾可夫模型( 行中文分詞、詞性標(biāo)注,根據(jù)觸發(fā)詞或觸發(fā)短語以及一些啟發(fā)式規(guī)則進(jìn)行人名識別(包括譯名和中國人名)、地名識別、機(jī)構(gòu)名識別,然后根據(jù)模板提取人名與職務(wù)、人名與機(jī)構(gòu)等的二元關(guān)系,進(jìn)而根據(jù)模板和觸發(fā)詞提取會議事件和訪問事件。 在 11中對金融領(lǐng)域類信息的自動獲取進(jìn)行了研究,其方法也是對規(guī)則數(shù)據(jù)學(xué)習(xí)自動抽取規(guī)則,具體 是由人工標(biāo)記大量的語料,再由程序?qū)W習(xí)得到信息抽取規(guī)則,在規(guī)則的指導(dǎo)下,抽取領(lǐng)域內(nèi)詞匯的語義關(guān)系。 類似的工作還有 12是由專家來預(yù)先定義該領(lǐng)域有關(guān)的名詞成分之間的語義框架。 在關(guān)系抽取領(lǐng)域中,有指導(dǎo)的方法也是占主導(dǎo)位置。其 中 13, 14是其中比較有代表性的一種方法。在該方法中,系統(tǒng)通過學(xué)習(xí) 結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù) ,經(jīng)訓(xùn)練后的系統(tǒng)根據(jù)規(guī)則,能夠提取同一類型的結(jié)構(gòu)化網(wǎng)頁 所有 的關(guān)系實(shí)體對 ,并 標(biāo)注這些 命名實(shí)體 對 的關(guān)系 類型 。國外比較典型的其他有導(dǎo)方法還包括 5、 6、 7、 8。 等的方法,這些方法的最大問題是 只能處理 少量結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù),且對每組網(wǎng)頁找 到的關(guān)系提取規(guī)則都不具備 普遍性,不能應(yīng)用到其它數(shù)據(jù)集合上面。 半監(jiān)督的學(xué)習(xí)方法 方法 為避免有導(dǎo)方法的弱點(diǎn),有些系統(tǒng)采用弱指導(dǎo) (法。這些系統(tǒng)預(yù)先定義一些關(guān)系和關(guān)系實(shí)例作為種子,然后通過機(jī)器學(xué)習(xí),發(fā)現(xiàn)一些新的關(guān)系模板,主要代表包括: 998)19、 000)20, 21、 004)22等。 該方法 最開始地工作是 19的 該方法是 基于 用實(shí)體間的關(guān)系( 描述這 些關(guān)系的模式( 間的對應(yīng)關(guān)系,從一個種子關(guān)系集合出發(fā),從 后從這些上下文中產(chǎn)生對應(yīng)的模式,進(jìn)而利用這些模式從 后從這些關(guān)系實(shí)例中選擇新的種子集合,重復(fù)上述過程,迭代地從 種方法在獲取關(guān)系對的同時,就可以獲得對應(yīng)的命名實(shí)體。該方法不需要人工標(biāo)注的訓(xùn)練集,所需的僅是可以產(chǎn)生初始種子集合的關(guān)系實(shí)例或模式,然后利用 以準(zhǔn)確高效地進(jìn)行關(guān)系和命 名實(shí)體的提取。 1. 人工選擇一個較小的集合,其元素為所要提取關(guān)系的實(shí)例,做為種子集合 . 基于一個網(wǎng)頁(文本)集合 W,發(fā)現(xiàn)所有出現(xiàn) 從中提取 . 基于 生對應(yīng)的 保 能夠利用 且這些候選關(guān)系實(shí)例以較大概率對目標(biāo)關(guān)系的真實(shí)實(shí)例 4. 利用 到集合 R 5. 以 ( 2)開始執(zhí)行 若 停止上述循環(huán)。 為了驗(yàn)證該方法的有效性, 系為目的,從下圖的五個關(guān)系實(shí)例組成的種子集合開始 : 圖 2 關(guān)系實(shí)例種子集合 在 156,000網(wǎng)頁上利用 到了 15257個不重復(fù)的 關(guān)系對,在這個過程中, 其中 作者 和 書名 的先后順序, 于 關(guān)系對經(jīng)常聚集于某些網(wǎng)站這一假設(shè)), 圖是三個 圖 3 為了對 濾掉太 者定義了一個 值為 定義 n為 為產(chǎn)生該 果 np)大于某個閾值且,則該 則,剔除該 樣可以保證同時剔除掉太 證提取的關(guān)系實(shí)例的質(zhì)量。作者對結(jié)果的質(zhì)量進(jìn)行了評測,準(zhǔn)確率為 95%,并且發(fā)現(xiàn)結(jié)果的范圍大大超過了當(dāng)時著名的幾大網(wǎng)上書店全部的書目,證明了此方法的有用性。但是 ,做為者只是提出了方法的思想,設(shè)計(jì)了一個相對簡單的實(shí)驗(yàn),對這一方法中的關(guān)鍵性問題并未做深入探討。在 以下幾個關(guān)鍵問題: 1. 適用范圍。 體間關(guān)系的種類繁多,對于某些類型的命名實(shí)體,與其他類型的實(shí)體有著密切的關(guān)系,并且于這樣的命名實(shí)體,可以利用 而得到目標(biāo)命名實(shí)體;對于某些類型的實(shí)體,雖然與很多類型的實(shí)體有密切的關(guān)系,但這樣的關(guān)系的描述較為復(fù)雜 ,蘊(yùn)涵在較長的上下文中,關(guān)系對應(yīng)的模式需要用復(fù)雜的模型表示出來,在實(shí)際應(yīng)用中存在問題;還有一些類型的實(shí)體,雖然從實(shí)際上來講,有很多類型的實(shí)體與其相關(guān),但對應(yīng)的關(guān)系實(shí)例在 太可能產(chǎn)生高質(zhì)量的 不可能進(jìn)行高質(zhì)量的結(jié)果。如何根據(jù)實(shí)體及實(shí)體關(guān)系的實(shí)際情況,進(jìn)行量化的分析,確定 一個非常重要的問題,但迄今為止,并沒有相關(guān)的工作來解決這一問題。這也正是我們下一步想要努力解決的一個問題。 2. 初始種子集合的產(chǎn)生和選擇方式。 子集合,初始種子中關(guān)系實(shí)例的產(chǎn)生和選擇方式會對最后的結(jié)果造成什么樣的影響,是一個很重要的問題。當(dāng)前,種子集合的產(chǎn)生選擇方式大體有三種:( a)人工選擇,例如 20, 21,若種子集合選擇的不夠好,則會造成最終得到的關(guān)系實(shí)例集合局限在一個較小的樣本空間里,并且這些關(guān)系實(shí)例與種子實(shí)例同一個領(lǐng)域,例如對于關(guān)系 ,若種子關(guān)系均是關(guān)于政治人物的關(guān)系實(shí)例,由于對于政治人物的描述會過于正式,提取出的 果會造成最終提取的關(guān)系實(shí)例都是關(guān)于政治人物和相近領(lǐng)域人物的,而娛樂人物等與政 治人物相去較遠(yuǎn)的人物關(guān)系實(shí)例則不能得到,這樣會造成結(jié)果的局部性。( b)基于人工定義的 2,通過觀察出現(xiàn)頻率比較高的不同領(lǐng)域的關(guān)系實(shí)例,人工創(chuàng)建一個 用此 選擇出現(xiàn)頻率較高的做為初始種子集合,這種方式性能一般會比上一種好,但需要的人工代價要大一些。( c)利用關(guān)系的具體特征從 種方法利用能夠描述關(guān)系的幾個 后從句子中提取候選關(guān)系實(shí)例,繼而可 利用候選實(shí)例出現(xiàn)頻度的高低選取高質(zhì)量的種子集合 41, 42。然而,這三種方法,究竟那種更好一些,或者各種方法的適用范圍,是否可以量化,都沒有相關(guān)的研究工作。 3. 的 且應(yīng)該保證利用 有的種為語法相關(guān)的,一種為語法無關(guān)的。前一種基于關(guān)系實(shí)例上下文的依存語法 (析45,利用依存語法分析的結(jié)果來抽象 出 種方法產(chǎn)生的以一定程度減少 需要進(jìn)行語法分析,會產(chǎn)生一定的效率問題,并且并沒有大規(guī)模的實(shí)驗(yàn)驗(yàn)證該方法的有效性。對于后一種方法, 具體的表現(xiàn)形式而言,可以細(xì)分為兩種,一種是以具體的文本內(nèi)容做為 21, 46,一種是以文本字符的統(tǒng)計(jì)信息做為 似于向量空間模型17,21,43,分別適用于不同的情形。 4. 接影響到迭代過程的速度、關(guān)系實(shí)例的質(zhì)量。如何對 除掉低質(zhì)量的保利用高質(zhì)量的 一個重要的問題。一種方法是利用產(chǎn)生該 49,以及 48等對 后確定一閾值,僅保留分?jǐn)?shù)高于閾值的 一種方法基于這樣一種假設(shè):質(zhì)量越高的 中含有能夠描述對應(yīng)關(guān)系的 大,基于這樣一個假設(shè),在每一次迭代過程中,首先對于所產(chǎn)生的如 包含的詞的頻率進(jìn)行統(tǒng)計(jì),然后對每一個 其每個部分根據(jù)此部分對應(yīng)的詞頻結(jié)果進(jìn)行打分,然后取各部分的最高分值做為該 種方法簡單而直接,效果也不錯,但現(xiàn)在并沒有工作將其性能同前一種方法進(jìn)行比較。 5. 迭代過程的速度和質(zhì)量問題。從對 響迭代過程速度和結(jié)果質(zhì)量的因素有很多,根據(jù)重要性不同,下面幾個 因素需要著重考慮:( a) b) c)新產(chǎn)生的關(guān)系實(shí)例質(zhì)量的評估。( d)新種子集合的產(chǎn)生策略( e)迭代過程中形成的先驗(yàn)知識的構(gòu)成與使用 47, 48。對于每一個因素,都有幾種可能的解決方案,如何根據(jù)關(guān)系的類型,選擇不同的方案的組合,是一個具有一定復(fù)雜度的組合優(yōu)化問題,解決這一問題,將會對基于 6. 迭代結(jié)果的覆蓋率。由于 何估計(jì)當(dāng)前得到結(jié)果對于全集的覆蓋率,是一個非常 重要的問題,其結(jié)果可以指導(dǎo)迭代過程的進(jìn)行。 53利用第三方知識庫產(chǎn)生一個 用結(jié)果落在這個 一方法有一定的局限性;首先,對于某些類型的實(shí)體和實(shí)體關(guān)系,存在第三方的知識庫,包含了大量的相關(guān)知識,利用其生成 以進(jìn)行覆蓋率的估計(jì),而對于沒有第三方知識庫的情況,則不能適用,需要有一種基于迭代過程數(shù)據(jù)的理論模型能夠估計(jì)結(jié)果的覆蓋率;其次,即便對于有第三方知識庫的情形,知識庫的廣度無法確定,且其與 合程度也無法確定,即使拋開這些問題不考慮,利用 個估計(jì)的置信度和置信區(qū)間如何科學(xué)地估計(jì),也是一個很大的問題。第二種得到覆蓋率的方法是基于 據(jù)迭代過程中產(chǎn)生的相關(guān)數(shù)據(jù),估計(jì)出當(dāng)前結(jié)果的覆蓋率,并給出置信度和置信區(qū)間,相關(guān)工作在 51,54中有所論述,但 用于不同的情況,如何選擇最適合的模型,并對模型估計(jì)結(jié)果的可信性進(jìn)行嚴(yán)格的實(shí)驗(yàn)驗(yàn)證,目前還是一個未經(jīng)探索的領(lǐng)域。 7. 網(wǎng)頁預(yù)處理的作用。同一般文本不同,網(wǎng)頁中包含著大量由 利用 何對網(wǎng)頁進(jìn)行預(yù)處理,在剔除掉無關(guān)信息的同時保留有用信息,確保迭代過程的速度和迭代結(jié)果的質(zhì)量,是一個需要探討的問題,其中一個關(guān)鍵問題在于 否要包含除了網(wǎng)頁文本內(nèi)容之外的元素(網(wǎng)頁的 接信息等),如何利用這些信息提高 有某些工作使用了這些信息 52,但并沒有工作探討其適用場合。另一方面,網(wǎng)頁的 文本內(nèi)容中包含著大量的指代,如果對這些指代進(jìn)行消解,是否會對最后結(jié)果的數(shù)量和質(zhì)量產(chǎn)生一定程度的影響,并沒有工作進(jìn)行深入的研究和探討,目前,僅有工作51利用了指代消解進(jìn)行預(yù)處理。 關(guān)系類型的動態(tài)擴(kuò)展。在利用 系的構(gòu)建是一個關(guān)鍵問題。同一個實(shí)體可能會同多個其他類型的實(shí)體有關(guān)系,如何定義這些關(guān)系,通過這些關(guān)系的提取,使得最終得到的命名實(shí)體有較高的覆蓋率,在 48中有初步的探討,即是關(guān)系類型動態(tài)擴(kuò)展問題。關(guān)系類型動態(tài)擴(kuò)展的一般步驟是:首先定義一個核心關(guān)系,比如 ,或者 ,然后從核心關(guān)系出發(fā),利用 上下文進(jìn)行統(tǒng)計(jì)分析,提取出其中的與所要提取實(shí)體密切相關(guān)的其他實(shí)體,比如對于 關(guān)系,可以從對應(yīng)關(guān)系實(shí)例的上下文中發(fā)掘出 性別 、 身高 、 愛好 等與人物密切相關(guān)的實(shí)體;然后利用這些實(shí)體與 人名 組成新型候選關(guān)系,對候選關(guān)系類型進(jìn)行過濾,保留質(zhì)量較好地新型關(guān)系,利用這些關(guān)系發(fā)掘更多的關(guān)系實(shí)例,進(jìn)而提高命名實(shí)體提取的覆蓋率。不過, 48并沒有對這一問題進(jìn)行深入的探討和評估,比如上下文 邊界的確定、實(shí)體的選擇、候選關(guān)系類型的過濾等,需要有進(jìn)一步的工作,這也是我們下一步要做的工作。 為了解決 個局限性, 后續(xù)又有若干工作 ,其中有代表性的有 20, 21, 22等 。 2000年, 出 過限定兩個命名實(shí)體類型的方法來改進(jìn) 且 過這樣的改進(jìn),關(guān)系抽取的召回率和準(zhǔn)確率都得到了提 高。 2004年 1. 人工的為每個 類別的 關(guān)系確定一些詞匯( 為該關(guān)系對的“鑒別器”( 這里的“鑒別器”是在關(guān)系對發(fā)現(xiàn)前定義好的,而且每類關(guān)系可以有若干不同的“鑒別器” 。 2. 將該 類的 實(shí)體對 、非該類的實(shí)體對 和“鑒別器”作為 別統(tǒng)計(jì)其返回網(wǎng)頁的個數(shù)和共現(xiàn)網(wǎng)頁的個數(shù)。 3. 以共現(xiàn)網(wǎng)頁的個數(shù)或貢獻(xiàn)網(wǎng)頁的 為特征 訓(xùn)練 一個 4. 對新發(fā)現(xiàn)的實(shí)體對計(jì)算其與各類別“鑒別器”的共現(xiàn)次數(shù)或共現(xiàn)帶入 回其屬于該類別的概率 方法給出一種有效的檢驗(yàn)其結(jié)果正確性的途徑。這種檢驗(yàn)途徑與之前工作中的評測不同之處在于,以前的工作只能對結(jié)果的總體正確率給出估計(jì),而對發(fā)現(xiàn)的某個特定的實(shí)體關(guān)系對不能判斷其正確性;而 別的這種檢驗(yàn)方法也是利用了 用概率工具來進(jìn)行 評測的。 何定義那些初始的關(guān)系和關(guān)系實(shí)例的集合。對此問題 還有許多學(xué)者利用已有的語義資源,提取詞匯或者概念之間的語義關(guān)系。在資源建設(shè)方面,影響較大的有 網(wǎng) )23、同義詞詞林24、 念層次網(wǎng)絡(luò)) 25、 文概念詞典) 26等。其中,概念為描述對象 , 依靠“義原”這種“知識表示語言”來定義概念,通過概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系形成一個網(wǎng)狀的知識系統(tǒng), 27提出了基于 知網(wǎng) 的中文信息結(jié)構(gòu)抽取方法。而 論建立了概念層次網(wǎng)絡(luò),在此基礎(chǔ)上,定義了一套詞匯語義的符號化描述方法,這種表示方法并非要給出詞匯語義的精確定義,而是希望能表現(xiàn)詞匯包含的概念關(guān)聯(lián)性知識和聯(lián)想脈絡(luò)的線索,利用 論的詞匯語義符號化描述方法,通過推理,可以發(fā)現(xiàn)概念之間的一些語義關(guān)系。 襲分類體系,將名詞分為 25 個語義類 。 后確定關(guān)系類型的方法 上述的方法 需要 事先 定義關(guān)系類型, 因此需要人工構(gòu)建 實(shí)體關(guān)系的體系結(jié)構(gòu) 。 而很多情況下這樣地關(guān)系體系的 構(gòu)造是很困難、甚至是不可能地。 一般社會關(guān)系的種類很多 ,根據(jù) 57的分 類 約有 40多種 人物 關(guān)系, 如果對每種關(guān)系都設(shè)置關(guān)系對實(shí)例則是相當(dāng)大的工作 ; 而且在 不是如上面 57中規(guī)定的人物關(guān)系,即使能確定例子關(guān)系對也不容易找到高質(zhì)量的反映該關(guān)系的模式( ;更 進(jìn)一步的在 的 例如 人物“胡錦濤”和人物“布什”可能因?yàn)椤安际苍L華”這樣的事件因此在 如果簡單的將兩人的關(guān)系分類到現(xiàn)有的社會關(guān)系則是忽略 量的 有關(guān)這次事件的信息,而且很可能兩人在另一個時間、地點(diǎn)因?yàn)閯e的事件也 被大量報(bào)道,采用之前的方法則不能有效的 提取、區(qū)分這些人物實(shí)體關(guān)系。因此有了另一類關(guān)系提取方法,即先確定關(guān)系實(shí)體對,再確定關(guān)系類型的方法 。 2004 年在 議上, 不定義關(guān)系類別 關(guān)系抽取方法首次被提出( 004) 28。該方法中,他們首先剔除出現(xiàn)頻率較低的命名實(shí)體對,然后提取每個命名實(shí)體對實(shí)例的上下文,并將同一命名實(shí)體對的所有實(shí)例的上下文進(jìn)行累加作為該實(shí)體對的上下文;接下來采用 方法對實(shí)體對的上下文進(jìn)行聚類;最后在得到的類中尋找出現(xiàn)頻率最高的詞匯,并 以該詞匯標(biāo)注該類命名實(shí)體對的關(guān)系。然而此方法依然存在一定的缺陷,剔除低頻的命名實(shí)體對或許會遺漏一些重要關(guān)系;其次,采用的 聚類方式,其閾值難以確定。 之后 29, 30, 31, 32還對此方法做出過改進(jìn); 他將每一個命名實(shí)體對的上下文,而不是所有相同的命名實(shí)體對,作為它們之間關(guān)系的特征。在聚類時, 31, 32通過對 法聚類對 方法進(jìn)行了改進(jìn)。在確定命名實(shí)體對之間關(guān)系的數(shù)量時,利用多次取樣方法( 過反復(fù)的實(shí)驗(yàn)找到最自然的 關(guān)系的個數(shù),也就是最符合數(shù)據(jù)的命名實(shí)體之間關(guān)系的個數(shù)。 總之, 出了無導(dǎo)語義關(guān)系抽取的大體步驟為之后無導(dǎo)語義關(guān)系的抽取奠定了重要基礎(chǔ)。無導(dǎo)的關(guān)系抽取建立在以下假設(shè)之上:擁有相同語義關(guān)系的實(shí)體對,它們的上下文環(huán)境較為相似,其上下文集合代表著該實(shí)體對的語義關(guān)系。在這種思想下,無指導(dǎo)名實(shí)體對中語義關(guān)系的抽取過程被大體劃分為 3 個部分: 1. 命名實(shí)體對及其上下文的提?。?2. 命名實(shí)體對的聚類; 3. 標(biāo)注各個類中的語義關(guān)系。 目前,大部分的信息抽取研究都是在一般領(lǐng)域中進(jìn)行的,而一些特定領(lǐng)域?qū)π畔⒊槿∮兄芨咝枨螅?例如 對經(jīng)濟(jì)學(xué)領(lǐng)域 自動化的核心技術(shù)實(shí)現(xiàn)取決于該領(lǐng)域的實(shí)體抽取技術(shù)和關(guān)系抽取技術(shù)的發(fā)展 30,于是近年來也逐漸開始有人研究適應(yīng)于某些專業(yè)領(lǐng)域中的 信息抽取技術(shù)。關(guān)系抽取在專業(yè)領(lǐng)域中的應(yīng)用大都采用有指導(dǎo)的方法 。而將高效的無指導(dǎo)關(guān)系抽取技術(shù)應(yīng)用在專業(yè)領(lǐng)域中的研究目前還沒有相關(guān)報(bào)道;將無指導(dǎo)關(guān)系抽取與有指導(dǎo)的關(guān)系抽取技術(shù)結(jié)合起來在專業(yè)領(lǐng)域中的相關(guān)研究同樣未曾見到。 實(shí)體關(guān)系發(fā)現(xiàn)的難點(diǎn) 對上述的研究工作進(jìn)行 分析總結(jié) ,可以得到 在解決實(shí)體關(guān)系發(fā)現(xiàn)問題中的幾個重要 難點(diǎn)問題。 從 解決 問題 的順序來看可以分為以下四大難點(diǎn):( 1)實(shí)體 關(guān)系對的確定;( 2) 關(guān)系描述文本的篩選與擴(kuò)展 ;( 3) 實(shí)體關(guān)系對正確性的 測量 ;( 4) 實(shí)體關(guān)系體系的發(fā)現(xiàn) 實(shí)體關(guān)系對的確定 現(xiàn)有的工作中關(guān)系對的確定可以分為兩大類別:一種是利用特定的模式( 來確定 關(guān)系對;另一種是利用實(shí)體在網(wǎng)頁文本中的共現(xiàn)來確定關(guān)系對 。 第一種方法 在 發(fā)現(xiàn)關(guān)系對的同時也確定了該關(guān)系對的具體類別或者關(guān)系的含義, 例如“ 的父親”這個模式發(fā)現(xiàn)的人物實(shí)體關(guān)系對正是人物實(shí)體之間的“父子” 關(guān)系。該方法的問題是如何能夠發(fā)現(xiàn)質(zhì)量高的文本模式,它能夠發(fā)現(xiàn)盡可能多的該類別關(guān)系對,并且能夠剔除其他類型 的關(guān)系對?,F(xiàn)有的做法都是基于 方法,這需要 為每類關(guān)系尋找合適的例子 實(shí)體 關(guān)系對。另一種方法是 發(fā)現(xiàn)關(guān)系對之后再來確定關(guān)系類比,而關(guān)系對的確定一般采用實(shí)體的共現(xiàn),簡單的做法只設(shè)置一個固定長度的滑動窗口進(jìn)行檢驗(yàn),而 27, 31, 34等則采用了段落、句子等分割方法, 32特別的考慮了新聞網(wǎng)頁內(nèi)部結(jié)構(gòu),更注重網(wǎng)頁標(biāo)題中出現(xiàn)的人物實(shí)體。而更進(jìn)一步的分析可以發(fā)現(xiàn),如果考慮實(shí)體共現(xiàn)處的句法結(jié)構(gòu) 例如主動句、被動句的分析 則能夠進(jìn)一步提高實(shí)體對發(fā)現(xiàn)的精確度。 實(shí)體關(guān)系描 述文本的篩選與擴(kuò)展 對于先發(fā)現(xiàn)實(shí)體對再確定關(guān)系的實(shí)體關(guān)系發(fā)現(xiàn)方法, 現(xiàn)有工作都采用為每個實(shí)體對標(biāo)注文本以便于 后面關(guān)系對的分析研究 。 最初的做法使用實(shí)體對共現(xiàn)處的文本作為關(guān)系對描述文本 28,這樣的做法 對于高質(zhì)量的數(shù)據(jù)集例如基于報(bào)紙文檔的數(shù)據(jù)集合 有很好的效果。而對于分析處理來自于面兩個問題:首先 有豐富的 元信息,例如 標(biāo)題數(shù)據(jù),超鏈接的 錨文字信息等,而撰寫網(wǎng)頁的人員一般會把重要的信息添加上這些標(biāo)簽, 因此關(guān)系描述文本的選擇 應(yīng)該給予這些信息以更大的權(quán)重;另一方 面 且由于 文字風(fēng)格差異明顯,這也和小規(guī)模的數(shù)據(jù)集有很大差異。因此 以后的相關(guān)工作中對描述文本地選擇也 進(jìn)行進(jìn)一步的關(guān)注, 35, 39將文檔標(biāo)題的文本和頁面內(nèi)其它實(shí)體也加入到描述文本中, 43則分析頁面的時間信息作為一個新的維度加入到描述文本向量中。 我的工作中 不僅采用了共現(xiàn)頁面的 內(nèi)容,同時 將 共現(xiàn)文本作為查詢詞 投入搜索引擎,利用返回文檔中抽取的部分文本作為關(guān)系描述文本的補(bǔ)充。這種方法對于 哪些因熱門事件而在 明顯幫助。綜上所述,關(guān)系描述文本的選擇對于從海量 今的研究仍沒有一個完美的 文本篩選和擴(kuò)展方法,因此我認(rèn)為需要針對具體的數(shù)據(jù)集來 分別確定關(guān)系描述文本的 確定方法。 實(shí)體 關(guān)系 對 的 驗(yàn)證 2首次提出了一種有效的評價已發(fā)現(xiàn)關(guān)系對的質(zhì)量的方法,這種方法較之前的特點(diǎn)在于它能夠測量每個發(fā)現(xiàn)的關(guān)系對的置信度,而不是籠統(tǒng)的測量關(guān)系對集合的正確率。但這種做法只限于先確定關(guān)系類型再發(fā)現(xiàn)關(guān)系對的方法,它需要為每個關(guān)系類別 人工的定義一些“關(guān)系鑒別器”詞匯。這 顯然不適用于基于共現(xiàn)文本的關(guān)系發(fā)現(xiàn)方法。 因此在第二種先發(fā)現(xiàn)關(guān)系對在確定關(guān)系類型的方法中,如何評價發(fā)現(xiàn)的實(shí)體關(guān)系對的質(zhì)量仍是一個未能解決的問題。具體的可以分為兩類評測問題:實(shí)體關(guān)系對的精度和實(shí)體關(guān)系對的召回率。前者為每個發(fā)現(xiàn)的關(guān)系對是否屬于該類別的置信度, 我認(rèn)為可以利用一般分類、聚類算法的精度評測方法來量度,而這應(yīng)該需要一個標(biāo)注為正確的實(shí)體關(guān)系對集合,這應(yīng)該需要一定的人工工作來解決; 而后者則是測量已發(fā)現(xiàn)的實(shí)體關(guān)系對占所有關(guān)系對的比例,這個問題更加復(fù)雜, 亟待 要解決的 就是如何確定所有的可能的實(shí)體關(guān)系類型,以及相對 應(yīng)的所有實(shí)體關(guān)系對,這也引入了我們下面的一個問題難點(diǎn)。 實(shí)體關(guān)系體系的發(fā)現(xiàn) 在 57中將人物之間的社會關(guān)系進(jìn)行了匯總,并對這些關(guān)系進(jìn)行了分類,構(gòu)建了人物關(guān)系的層次結(jié)構(gòu),但這樣的工作是人工的,是否能夠自動的構(gòu)建這樣的關(guān)系體系呢?如果能夠構(gòu)建這樣的關(guān)系體系可以幫助進(jìn)一步理解發(fā)現(xiàn)的關(guān)系內(nèi)部之間的關(guān)系,可以回答已有的關(guān)系發(fā)現(xiàn)系統(tǒng)是否發(fā)現(xiàn)了所有可能的實(shí)體間關(guān)系。進(jìn)一步分析,如果要求對從 要 定義、發(fā)現(xiàn)、并測量已有關(guān)系對之間的關(guān)系,一個關(guān)系間關(guān)系的例子如:朋友關(guān)系和好 友關(guān)系之間是關(guān)系的包含關(guān)系?,F(xiàn)有的難點(diǎn)問題是如何定義這樣的關(guān)系,如何測量這樣的關(guān)系,并且該方法的擴(kuò)展性、可評測性都是保證關(guān)系體系發(fā)現(xiàn)亟待解決的難點(diǎn)。 3. 根據(jù) 58的定義, 社會網(wǎng)絡(luò)是指由一系列社會關(guān)系連接在一起的節(jié)點(diǎn) (個體或組織 )的總和 ,社會網(wǎng)絡(luò)中的個體和組織的經(jīng)濟(jì)行為不僅受其所處的總體社會環(huán)境的影響和制約,也受其在社會網(wǎng)絡(luò)中所處的位置的影響。 它 一個結(jié)構(gòu)化的網(wǎng)絡(luò)系統(tǒng),其中的節(jié)點(diǎn)一般是人物、機(jī)構(gòu)或地點(diǎn)等,而其中的邊是某種特定的關(guān)系,例如朋友關(guān)系、貿(mào)易關(guān)系或網(wǎng)絡(luò)鏈接關(guān)系等。 以往的社會 網(wǎng)絡(luò)分析工作一般是 利用 社會調(diào)查的數(shù)據(jù) ,以 概率 統(tǒng)計(jì)的方法來 揭示整個網(wǎng)絡(luò)的結(jié)果,預(yù)測網(wǎng)絡(luò)的行為。 隨著 的獲取開銷相比以往的社會調(diào)查要小得多,而其獲得的數(shù)據(jù)量基本接近于 全體 數(shù)據(jù)集 。這些 優(yōu)勢為基于 供了廣闊的發(fā)展空間。 最早的相關(guān)研究 59可以追溯到上個世紀(jì) 90年代初, 這時的工作還僅僅以 作的方法和以往的社會網(wǎng)絡(luò)分析研究基本相同。 其后隨著搜索引擎的發(fā)展 ,在 90年代中后期 利用搜索引擎的 社

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論