網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點_第1頁
網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點_第2頁
網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點_第3頁
網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點_第4頁
網(wǎng)絡(luò)數(shù)據(jù)挖掘考試重點_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《WebDatamining》復(fù)習(xí)與總結(jié)課程主要內(nèi)容數(shù)據(jù)挖掘概述+WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘(ch1概述):又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。是指從數(shù)據(jù)源(如DB、文本、圖片、萬維網(wǎng)等)探尋有用的模式或知識的過程。這些模式必須是有用的、有潛在價值的、并且是可以被理解的。數(shù)據(jù)挖掘是一門多學(xué)科交叉的學(xué)科,包括機器學(xué)習(xí)、統(tǒng)計、數(shù)據(jù)庫、人工智能、信息檢索和可視化。WEB數(shù)據(jù)挖掘(ch6-12)的目標(biāo)是從web超鏈接、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。依據(jù)挖掘過程中使用的數(shù)據(jù)類別,web挖掘的任務(wù)劃分為三種主要的類型:web結(jié)構(gòu)挖掘、web內(nèi)容挖掘和web使用挖掘。web結(jié)構(gòu)挖掘:從表征web結(jié)構(gòu)的超鏈接中尋找知識。Ch6-ch8:信息檢索與web搜索;鏈接分析;web爬取。web內(nèi)容挖掘:從網(wǎng)頁內(nèi)容中抽取有用的信息和知識。Ch9-ch11:結(jié)構(gòu)化數(shù)據(jù)抽取:包裝器生成;信息集成;觀點挖掘。web使用挖掘:從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。Ch12:web使用挖掘各章主要知識點(ch1)概述——主要知識點萬維網(wǎng)、超文本、超鏈接、超媒體的概念;HTTP,HTML,URL,WEB,TCP/IP的含義;Web數(shù)據(jù)的特點:P5-6;數(shù)據(jù)挖掘的定義、數(shù)據(jù)挖掘任務(wù)、KDD過程、KDD的數(shù)據(jù)類型等;Web數(shù)據(jù)挖掘的定義、分類、web數(shù)據(jù)挖掘過程等。關(guān)聯(lián)規(guī)則、列模式挖掘、分類與預(yù)測、聚類挖掘的基本概念及挖掘思想。WEB結(jié)構(gòu)挖掘:包括——信息檢索與WEB搜索、鏈接分析、WEB爬?。╟h6)信息檢索與web搜索基本概念:(1)信息檢索IR:即幫助使用者從大號的數(shù)據(jù)集信息中發(fā)現(xiàn)需要的資料。了信息的采集、組織、存儲、檢索及分發(fā)。根據(jù)用戶的查詢信息得到相應(yīng)的一組文檔,得到的結(jié)果根據(jù)其與用戶查詢信息的相關(guān)程序排序,最常用的用戶查詢信息是一組關(guān)鍵字(又稱詞)。其基本信息是單個文檔,大量的文檔形成文本數(shù)據(jù)庫。(2)web搜索:是信息檢索的一個重要分支。區(qū)別于信息檢索的特點是:效率是WEB搜索的一個最為重要的問題;網(wǎng)頁與傳統(tǒng)信息檢索系統(tǒng)中使用的普通文檔不同:(1)具有超鏈接以及錨文本、(2)網(wǎng)頁是半結(jié)構(gòu)化的、(3)網(wǎng)頁中的內(nèi)容基本上是有組織的,并且在一些結(jié)構(gòu)塊中出現(xiàn);作弊技術(shù)是網(wǎng)絡(luò)上的一個重要的問題。(3)IR基本架構(gòu):用戶查詢(關(guān)鍵字查詢、布爾查詢、短語查詢、鄰近查詢、全文查詢、自然語言查詢等)+查詢操作(作簡單預(yù)處理如STOPWORDS刪除等發(fā)送到檢索引擎、或處理用戶反饋——關(guān)聯(lián)性反饋)+索引器(為提高查詢效率對原始文檔用某種數(shù)據(jù)結(jié)構(gòu)做索引,形成文檔索引——返回文檔索引,如倒排索引)+檢索系統(tǒng)(為每個索引文檔計算與查詢的相關(guān)度分數(shù))關(guān)鍵字查詢布爾查詢短語查詢鄰近查詢?nèi)牟樵冏匀徽Z言查詢預(yù)處理關(guān)聯(lián)性反饋倒排索引計算文檔與查詢的相關(guān)度分數(shù)布爾模型(布爾查詢:AND、OR、NOT)向量空間模型(TF表、TF-IDF表、查詢、相關(guān)度排名)語言模型概率模型關(guān)聯(lián)性反饋(4)查全率(recall)、查準率(precision)、查準率-查全率曲線(PR曲線)、排名查準率(rankprecision)、F-score(5)網(wǎng)頁預(yù)處理:移除停用詞、詞干提取、數(shù)字、連字號、標(biāo)點、字符大小寫的處理;辨別不同的字段;辨別錨文本;移除HTML標(biāo)簽;辨別主要內(nèi)容塊;(6)副本探測(對整個文本Hash——MD5算法;基于n元短語的副本探測技術(shù)):即復(fù)制頁面,可減少索引大小,改善搜索效率;鏡像:復(fù)制站點的技術(shù)。(7)倒排索引:是一張列表,包含了每一個不同的詞和包含該詞的文檔列表??杉涌鞕z索和查詢的速度。其本身構(gòu)建速度也非??臁S涗浉袷剑骸磇dj,fij,[o1,o2,…..o|fij|]〉倒排索引的建立及壓縮:搜索引擎——基于向量空間模型和詞匹配模型。爬取網(wǎng)頁??!元搜索引擎和組合多種排序:略網(wǎng)絡(luò)作弊的概念及分類:內(nèi)容作弊(詞組作弊):標(biāo)題、元標(biāo)記、正文、錨文本、網(wǎng)址。如內(nèi)容重復(fù)、或添加其他不相關(guān)的鏈接作弊(影響知名度分數(shù)):鏈出鏈接作弊(指向中心頁面——目錄克?。┗蜴溔腈溄幼鞅祝▌?chuàng)建蜜罐、網(wǎng)絡(luò)目錄中添加鏈接、用戶生成內(nèi)容是添加鏈接、交換鏈接、自發(fā)添加等)隱藏技術(shù):內(nèi)容隱藏(隱藏垃圾項)、掩飾技術(shù)(垃圾網(wǎng)絡(luò)服務(wù)器、重定向技術(shù)等)抵制作弊:分類處理——區(qū)別對待內(nèi)容作弊、鏈接作弊、隱藏技術(shù)等;信任排名方法可用。2、主要知識點IR系統(tǒng)的基本架構(gòu)及原理用戶查詢的主要形式:關(guān)鍵字查詢、布爾查詢、短語查詢、鄰近查詢、全文查詢、自然語言查詢的含義查詢操作索引器檢索系統(tǒng)信息檢索模型主要有四種信息檢索模型:布爾模型、向量空間模型、語言模型、概率模型。熟悉布爾模型、向量空間模型的基本原理,了解統(tǒng)計語言模型、概率模型。了解社區(qū)發(fā)現(xiàn)的基本原理。(ch8)WEB爬取1.基本概念(1)WEB爬蟲(蜘蛛或機器人):能自動下載網(wǎng)頁的程序。(2)WEB爬蟲的分類:通用爬蟲、限定爬蟲、主題爬蟲。通用爬蟲限定爬蟲主題爬蟲(3)簡單爬蟲算法:種子URL、隊列、頁面獲取、網(wǎng)頁庫等模塊。寬度優(yōu)先爬蟲帶偏好的爬蟲網(wǎng)頁獲取/網(wǎng)頁解析/刪除無用詞、詞干提取、鏈接提取和規(guī)范化/爬蟲陷井網(wǎng)頁庫爬蟲消耗的資源:網(wǎng)絡(luò)、中CPU和磁盤。(4)爬蟲的改進:實現(xiàn)并發(fā)性(并行爬蟲架構(gòu))。通用爬蟲:可擴展性、爬蟲覆蓋率、新鮮度和重要度。限定爬蟲:能爬取用戶感興趣的某一類網(wǎng)頁。熟悉概念。主題爬蟲:帶偏好爬取網(wǎng)頁的爬蟲。熟悉概念。了解通用爬蟲、限定爬蟲、主題爬蟲的聯(lián)系與區(qū)別。主要知識點簡單爬蟲算法及改進(并行爬蟲)。限定爬蟲算法的基本思想。主題爬蟲的基本原理。三種爬蟲算法的聯(lián)系與區(qū)別WEB內(nèi)容挖掘:包括——結(jié)構(gòu)化信息抽取、信息集成、觀點挖掘。(ch9)結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成1、基本概念(1)WEB信息抽取:從網(wǎng)頁中抽取目標(biāo)信息,包括:從自然語言文本中抽取信息及從網(wǎng)頁的結(jié)構(gòu)化數(shù)據(jù)中抽取信息。包裝器:抽取結(jié)構(gòu)化數(shù)據(jù)的程序。WEB結(jié)構(gòu)化數(shù)據(jù):從后臺數(shù)據(jù)庫獲取的數(shù)據(jù)記錄,它們按照一定的模板被展現(xiàn)在網(wǎng)頁上。數(shù)據(jù)記錄(2)信息抽取的主要方法:手工方法、包裝器歸納(監(jiān)督學(xué)習(xí)方法)、自動抽?。o監(jiān)督學(xué)習(xí)方法)。數(shù)據(jù)抽?。航o定由HTML標(biāo)記編碼的數(shù)據(jù)(網(wǎng)頁),抽取系統(tǒng)恢復(fù)數(shù)據(jù)模型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。列表頁詳情頁數(shù)據(jù)模型:嵌套關(guān)系;基本類型、元組類型、集合類型、平坦元組類型、平坦集合類型;平坦關(guān)系;集合類型實例;元組類型實例等。數(shù)據(jù)實例的HTML編碼(3)包裝器歸納的概念及基本原理EC樹開始規(guī)則/結(jié)束規(guī)則地標(biāo)通配符析取規(guī)則學(xué)習(xí)抽取規(guī)則:正規(guī)則、負規(guī)則地標(biāo)提純拓樸提純包裝器學(xué)習(xí)的重要問題之一:手工標(biāo)注訓(xùn)練樣例。費時費力。可能的包裝器歸納學(xué)習(xí)的改進:主動學(xué)習(xí)或協(xié)同測試的方法。主動學(xué)習(xí):是一種幫助自動識別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動學(xué)習(xí)步驟:①從U中隨機選取一個較小的未標(biāo)注樣例子集L;②手工標(biāo)注L中的樣例,并令U=U-L;③基于標(biāo)注樣例集L學(xué)習(xí)一個包裝器;④將W應(yīng)用于U以找到一個提供信息樣例的集合L;⑤如果L=Ф,則終止,否則轉(zhuǎn)②?!惴ǖ年P(guān)鍵是④步。協(xié)同測試的方法可用來識別提供信息的樣例?!私馄浠舅枷?。包裝器維護:包裝器驗證問題、包裝器修復(fù)問題。——學(xué)習(xí)目標(biāo)數(shù)據(jù)項的特征模式,以監(jiān)視抽取工作以及檢驗所抽取的數(shù)據(jù)項是否正確。再標(biāo)注,再學(xué)習(xí)?;趯嵗陌b器學(xué)習(xí):不用學(xué)習(xí)抽取規(guī)則,而是通過將目標(biāo)數(shù)據(jù)項的前綴和后綴標(biāo)志字符串與對應(yīng)的標(biāo)注好的樣例進行比較,來從一個新的實例或網(wǎng)頁中識別目標(biāo)數(shù)據(jù)項。如果一個未標(biāo)注的樣例中,某個數(shù)據(jù)項不能被識別。則它將被交付標(biāo)注,這是沒有附加機制的主動學(xué)習(xí)。(4)自動包裝生成中的問題:手工標(biāo)注不適合對大量站點的抽取;包裝器維護的開銷很大。包裝器自動生成中的模板:指代網(wǎng)頁設(shè)計者所采用的隱藏模板。包裝器自動生成中的模式:指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。包裝器的應(yīng)用——兩個抽取問題:基于一張列表頁的抽??;基于多張網(wǎng)頁的抽取。從一組編碼好的同種類型的實例中尋找編碼模板——檢測HTML編碼字符串中重復(fù)出現(xiàn)的模式。信息抽取技術(shù):字符串匹配和樹匹配。DOM:文檔對象模型標(biāo)簽樹。字符串的編輯距離:即萊文斯坦距離,定義為將串S1變成串S2所需要的點突變的最少次數(shù)。點突變是指下列操作之一——改變一個字符;插入一個字符;刪除一個字符。掌握字符串的對齊算法。樹匹配中的樹編輯距離:是將樹A變換為樹B所需要的最小操作集對應(yīng)的代價。樹編輯距離的操作包括:節(jié)點刪除;節(jié)點插入和節(jié)點替換。每個操作都被指定了一個代價。解樹編輯距離問題應(yīng)時尋找兩棵樹間的最小代價映射。樹代價映射的定義簡單樹匹配STM:不允許節(jié)點替換和層次交叉,STM的目標(biāo)是找到兩棵樹間的最大匹配。最大匹配:設(shè)A、B是兩棵樹,而i∈A和j∈B是A和B中的兩節(jié)點,兩棵樹間的一個匹配定義為一個映射M,使得對每一個節(jié)點對(i,j)∈M,(i,j都不是根節(jié)點),都有(parent(i),parent(j))∈M。一個最大匹配就是一個擁有最多節(jié)點對的匹配。了解STM算法多重對齊:產(chǎn)生一個對所有字符串或樹的全局對齊任務(wù)稱為多重對齊。兩種多重對齊算法:中星方法和部分樹對齊。中星方法部分樹對齊方法:構(gòu)建DOM樹——標(biāo)簽樹。標(biāo)簽樹的構(gòu)建方法:標(biāo)簽方法或用標(biāo)簽和視覺提示的方法。利用標(biāo)簽構(gòu)建DOM樹:HTML編碼清理;樹的構(gòu)建。用標(biāo)簽和視覺提示構(gòu)建DOM樹:通過調(diào)用瀏覽器的渲染引擎找到每一個HTML元素長廊形的四個邊界;依據(jù)開始標(biāo)簽序列進行包含檢驗以構(gòu)建標(biāo)簽樹。包含檢驗:是指檢驗一個長方形是否被另一個長方形包含?;诹斜眄摰某槿。浩教箶?shù)據(jù)記錄的抽取假設(shè)網(wǎng)頁的DOM樹已經(jīng)構(gòu)建,給定一個含有多個列表,且每個列表含有多個數(shù)據(jù)記錄的列表頁,將執(zhí)行下列任務(wù):(1)識別每個列表(也稱為數(shù)據(jù)區(qū)域),即挖掘所有數(shù)據(jù)區(qū)域(挖掘廣義節(jié)點序列;比較廣義節(jié)點;);——MDR算法(2)將每個列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段,以及;——識別數(shù)據(jù)記錄、(3)對齊數(shù)據(jù)記錄中的數(shù)據(jù)項以為每一個數(shù)據(jù)區(qū)域產(chǎn)生一個數(shù)據(jù)表和一個正則表達式。數(shù)據(jù)項對齊與抽取;沖突消解;利用視覺信息等;基于列表頁的抽取——嵌套數(shù)據(jù)記錄(NET算法:后序遍歷):了解2主要知識點信息抽取的主要方法:手工方法、包裝器歸納(監(jiān)督學(xué)習(xí)方法)、自動抽?。o監(jiān)督學(xué)習(xí)方法)。(1)數(shù)據(jù)抽?。航o定由HTML標(biāo)記編碼的數(shù)據(jù)(網(wǎng)頁),抽取系統(tǒng)恢復(fù)數(shù)據(jù)模型并從編碼后的數(shù)據(jù)記錄中抽取數(shù)據(jù)。即從HTML編碼的數(shù)據(jù)中恢復(fù)隱藏的模式。列表頁/詳情頁數(shù)據(jù)模型:嵌套關(guān)系;基本類型、元組類型、集合類型、平坦元組類型、平坦集合類型;平坦關(guān)系;集合類型實例;元組類型實例等。數(shù)據(jù)實例的HTML編碼(2)包裝器歸納的概念及基本原理EC樹開始規(guī)則/結(jié)束規(guī)則地標(biāo)通配符析取規(guī)則學(xué)習(xí)抽取規(guī)則:正規(guī)則、負規(guī)則地標(biāo)提純拓樸提純包裝器學(xué)習(xí)的重要問題之一:手工標(biāo)注訓(xùn)練樣例。費時費力??赡艿陌b器歸納學(xué)習(xí)的改進:主動學(xué)習(xí)或協(xié)同測試的方法?!私庵鲃訉W(xué)習(xí):是一種幫助自動識別提供信息的未標(biāo)注樣例的方法。包裝器學(xué)習(xí)中主動學(xué)習(xí)的算法步驟:(1)從U中隨機選取一個較小的未標(biāo)注樣例子集L;(2)手工標(biāo)注L中的樣例,并令U=U-L;(3)基于標(biāo)注樣例集L學(xué)習(xí)一個包裝器;(4)將W應(yīng)用于U以找到一個提供信息樣例的集合L;(5)如果L=Ф,則終止,否則轉(zhuǎn)(2)。——算法的關(guān)鍵是(4)步。協(xié)同測試的方法可用來識別提供信息的樣例。——了解其基本思想。包裝器維護:包裝器驗證問題、包裝器修復(fù)問題。——學(xué)習(xí)目標(biāo)數(shù)據(jù)項的特征模式,以監(jiān)視抽取工作以及檢驗所抽取的數(shù)據(jù)項是否正確。再標(biāo)注,再學(xué)習(xí)?;趯嵗陌b器學(xué)習(xí):不用學(xué)習(xí)抽取規(guī)則,而是通過將目標(biāo)數(shù)據(jù)項的前綴和后綴標(biāo)志字符串與對應(yīng)的標(biāo)注好的樣例進行比較,來從一個新的實例或網(wǎng)頁中識別目標(biāo)數(shù)據(jù)項。如果一個未標(biāo)注的樣例中,某個數(shù)據(jù)項不能被識別。則它將被交付標(biāo)注,這是沒有附加機制的主動學(xué)習(xí)。(3)自動包裝生成中的問題:手工標(biāo)注不適合對大量站點的抽?。话b器維護的開銷很大。包裝器自動生成中的模板:指代網(wǎng)頁設(shè)計者所采用的隱藏模板。包裝器自動生成中的模式:指代系統(tǒng)所發(fā)現(xiàn)的規(guī)則結(jié)構(gòu)。包裝器的應(yīng)用——兩個抽取問題:基于一張列表頁的抽??;基于多張網(wǎng)頁的抽取。從一組編碼好的同種類型的實例中尋找編碼模板——檢測HTML編碼字符串中重復(fù)出現(xiàn)的模式。(4)信息抽取技術(shù):字符串匹配和樹匹配及相關(guān)算法。DOM:文檔對象模型標(biāo)簽樹。字符串的編輯距離:即萊文斯坦距離,定義為將串S1變成串S2所需要的點突變的最少次數(shù)。點突變是指下列操作之一——改變一個字符;插入一個字符;刪除一個字符。掌握字符串的對齊算法。樹匹配中的樹編輯距離:是將樹A變換為樹B所需要的最小操作集對應(yīng)的代價。樹編輯距離的操作包括:節(jié)點刪除;節(jié)點插入和節(jié)點替換。每個操作都被指定了一個代價。解樹編輯距離問題應(yīng)時尋找兩棵樹間的最小代價映射。樹代價映射的定義簡單樹匹配STM:不允許節(jié)點替換和層次交叉,STM的目標(biāo)是找到兩棵樹間的最大匹配。最大匹配:設(shè)A、B是兩棵樹,而i∈A和j∈B是A和B中的兩節(jié)點,兩棵樹間的一個匹配定義為一個映射M,使得對每一個節(jié)點對(i,j)∈M,(i,j都不是根節(jié)點),都有(parent(i),parent(j))∈M。一個最大匹配就是一個擁有最多節(jié)點對的匹配。了解STM算法多重對齊:產(chǎn)生一個對所有字符串或樹的全局對齊任務(wù)稱為多重對齊。兩種多重對齊算法:中星方法和部分樹對齊。中星方法——掌握運用部分樹對齊方法:掌握應(yīng)用構(gòu)建DOM樹——標(biāo)簽樹。標(biāo)簽樹的構(gòu)建方法:標(biāo)簽方法或用標(biāo)簽和視覺提示的方法。利用標(biāo)簽構(gòu)建DOM樹:HTML編碼清理;樹的構(gòu)建。用標(biāo)簽和視覺提示構(gòu)建DOM樹:通過調(diào)用瀏覽器的渲染引擎找到每一個HTML元素長廊形的四個邊界;依據(jù)開始標(biāo)簽序列進行包含檢驗以構(gòu)建標(biāo)簽樹。包含檢驗:是指檢驗一個長方形是否被另一個長方形包含?;诹斜眄摰某槿。浩教箶?shù)據(jù)記錄的抽取平坦數(shù)據(jù)記錄抽取流程或算法步驟:假設(shè)網(wǎng)頁的DOM樹已經(jīng)構(gòu)建,給定一個含有多個列表,且每個列表含有多個數(shù)據(jù)記錄的列表頁,將執(zhí)行下列任務(wù)(應(yīng)盡量細化內(nèi)核):(1)識別每個列表(也稱為數(shù)據(jù)區(qū)域),即挖掘所有數(shù)據(jù)區(qū)域(挖掘廣義節(jié)點序列;比較廣義節(jié)點;);——MDR算法,(2)將每個列表或數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)記錄分段,以及;——識別數(shù)據(jù)記錄、(3)對齊數(shù)據(jù)記錄中的數(shù)據(jù)項以為每一個數(shù)據(jù)區(qū)域產(chǎn)生一個數(shù)據(jù)表和一個正則表達式。數(shù)據(jù)項對齊與抽??;沖突消解;利用視覺信息等;基于列表頁的抽取——嵌套數(shù)據(jù)記錄(NET算法:后序遍歷):了解(ch10)信息集成1、基本概念(1)信息集成:最初的研究是針對關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫。(2)WEB全局搜索界面:是用來產(chǎn)生查詢字從而到WEB數(shù)據(jù)庫(深層WEB)中獲取相關(guān)信息的。全局搜索界面允許用戶輸入相關(guān)的信息,系統(tǒng)根據(jù)用戶提供的信息自動填寫所有的源搜索界面從而從各個站點獲取所。各站點返回的數(shù)據(jù)需要經(jīng)過集成,展示給用戶。(3)樣式表匹配:是指對于兩個或更多個數(shù)據(jù)庫的樣式表建立映射,把具有相同意義的屬性(或元素)映射到一起。目的是把多個樣式表整合為一張全局的統(tǒng)一的樣式表。(4)樣式表的匹配方法:半自動化的匹配(有難度,基于啟發(fā)式的領(lǐng)域知識)或自動匹配(難度很大,產(chǎn)生候選匹配由用戶確認……)。基于輸入信息,樣式表匹配的不同類型:樣式表層次的匹配、領(lǐng)域和實例層次的匹配;樣式表、領(lǐng)域、實例整合的匹配。樣式表匹配的預(yù)處理:分詞、擴展、移除無用詞和詞干提取、詞的標(biāo)準化等。匹配類型:1:1;1:m;m:1;m:n樣式表層次的匹配中,主要有兩種信息:樣式表中屬性的名稱、描述等的自然語言詞匯(基于語言學(xué)的算法——名稱匹配、上位關(guān)系、基于描述的匹配等);樣式表中的限制(數(shù)據(jù)類型和數(shù)值范圍、唯一性、關(guān)系類型的的限制等)?;陬I(lǐng)域和實例層次的匹配:在WEB數(shù)據(jù)庫中,數(shù)據(jù)實例易于獲得;有些應(yīng)用中,屬性的領(lǐng)域信息也是可獲得的。屬性的領(lǐng)域分為:簡單領(lǐng)域和復(fù)雜領(lǐng)域。簡單領(lǐng)域是指該領(lǐng)域中的實例值都是簡單的,也就是非合成的。數(shù)據(jù)類型:如果樣式表對于屬性的類型沒有說明,則需要通過屬性的實例值來判斷元素的數(shù)據(jù)類型。識別數(shù)據(jù)類型的方法:半自動方法(即正則表達式匹配的方法)和自動化方法(使用機器學(xué)習(xí)的方法)。匹配算法:DI1——DI6簡單領(lǐng)域匹配算法DI1-使用數(shù)據(jù)類型作為限制信息,建立對應(yīng)表來描述一系列預(yù)定義好的數(shù)據(jù)類型之間的兼容度。DI2-對于數(shù)字類型的數(shù)據(jù),數(shù)值范圍、平均值和言狀都可以被用來計算他們之間的數(shù)據(jù)類型的相似度。DI3-對于不確定的數(shù)據(jù)類型,可以抽取和比較兩個元素的實例值,以決定其屬性是否匹配。DI4-對于字母和數(shù)字混雜的數(shù)據(jù)類型,字符串的長度和字母/非字母的比例都是非常有用的信息。DI5-對于文本數(shù)據(jù),可以用夾角余弦計算屬性之間的相似度。DI6-把樣式表元素的名稱添加到實例值中進行比較。復(fù)合的領(lǐng)域和屬性:一個K元的復(fù)合領(lǐng)域是一個有序的K元組,其中第i個部分是第i個子領(lǐng)域的值,記作di。每個di都是一個簡單領(lǐng)域。如果一個屬性所有的領(lǐng)域是復(fù)合的,則稱該屬性是復(fù)合的屬性。一個復(fù)合領(lǐng)域通常可以通過它的實例值來反映。往往含有各種形式的分隔符,或其他的特殊單詞。進行復(fù)合領(lǐng)域的匹配時,為了保證分隔的正確性,需要大量的實例值。算法DI7-一個簡單領(lǐng)域與一個復(fù)合領(lǐng)域的相似度是通過比較簡單領(lǐng)域和復(fù)合領(lǐng)域的各個子領(lǐng)域來實現(xiàn)的。兩個復(fù)合領(lǐng)域的相似度也是通過比較他們各自所包含的簡單子領(lǐng)域的相似性來決定的。不同相似度的聯(lián)合:可通過多種策略實現(xiàn)——取最大值的策略;加權(quán)和;加權(quán)平均;機器學(xué)習(xí)的方法。1:m匹配——對于part-of類型的匹配;對于is-a類型的匹配樣式表匹配的結(jié)果的處理:最熱門N個候選;取最大相似度;閾值篩選等。(5)WEB全局搜索界面:把多個搜索界面集成為一個以提供給用戶一個全局的搜索因人而異,無需用戶逐個手動搜索各個數(shù)據(jù)源,只需在全局搜索界面上輸入所需的信息即可。WEB全局搜索界面與普通的信息集成的區(qū)別:在WEB搜索界面中縮寫記號使用非常有限;詞匯有限;WEB中有大量的相似數(shù)據(jù)庫(網(wǎng)頁);附加的結(jié)構(gòu)。WEB全局搜索界面集成的方法:基于聚類的算法;基于互關(guān)系的方法;基于實例的方法。WEB全局搜索界面構(gòu)建步驟:一個良好的全局搜索界面應(yīng)該滿足的條件:結(jié)構(gòu)上的正確性;詞匯的正確性和實例的正確性。2、主要知識點(1)信息集成:從單一網(wǎng)站上抽取信息往往是不夠的,需要從大量的站點中提取數(shù)據(jù),然后對提取出的數(shù)據(jù)進行集成以便提供增值服務(wù)。對不同的數(shù)據(jù)而言集成意味著匹配出表示同類信息的列,或者匹配出語義相同但是表達方式不同的值,并可能存放在后臺數(shù)據(jù)庫中。(2)信息集成的基本方法:樣式表匹配抽取樣式表——樣式表預(yù)處理——樣式表層次的匹配(基于語言學(xué)的算法、或基于樣式表中限制的算法)、基于領(lǐng)域和實例層次的匹配(簡單領(lǐng)域匹配方法——半自動的方法或自動的方法;復(fù)合領(lǐng)域匹配的方法)、樣式表/領(lǐng)域/實例整合的匹配;——大量樣式表的匹配(借助聚類算法、互關(guān)系或模式發(fā)現(xiàn)算法)——樣式表匹配的結(jié)果處理(最熱門的N個候選;最大相似度;閾值篩選等)——用戶交互(匹配系統(tǒng)搭建;匹配的后期工作)。(3)WEB搜索界面的集成:全局搜索界面的構(gòu)建全局搜索界面樣式表:全局搜索界面構(gòu)建:基于聚類的算法、基于互關(guān)系的方法、基于實例的方法?;诰垲惖乃惴ǎ毫私鈱崿F(xiàn)思想基于互關(guān)系的方法:了解實現(xiàn)思想基于實例的方法:了解實現(xiàn)思想(ch11)觀點挖掘1、基本概念背景:從網(wǎng)頁中抽取的結(jié)構(gòu)化數(shù)據(jù)通常在網(wǎng)頁設(shè)計時是來自于一個后臺的數(shù)據(jù)庫,并遵循一定的模板格式顯示在網(wǎng)頁中。此外,網(wǎng)頁中還存在大量的非結(jié)構(gòu)化的文本信息,包括了所有類型的各種有價值的信息,分析這些信息是非常重要的。觀點挖掘的背景:企業(yè)需要了解用戶對其產(chǎn)品或服務(wù)的評價;新用戶需要知道現(xiàn)有用戶對某產(chǎn)品或服務(wù)的評價;了解評價可為廣告放置提供參考等?,F(xiàn)實性與可能性:網(wǎng)絡(luò)用戶有多種發(fā)表觀點的方法:商業(yè)網(wǎng)站、產(chǎn)品或服務(wù)評價、博客、論壇等。本章內(nèi)容:評估文本、觀點搜索、觀點欺詐。(1)評估文本的三個挖掘任務(wù):意見分類、基于特征的觀點挖掘和摘要、比較性句子和比較關(guān)系挖掘。(2)觀點挖掘:可以使用戶搜索關(guān)于任何對象的觀點。(3)觀點欺詐:欺詐性觀點是指有些人為推銷自身產(chǎn)品或服務(wù)?;蛘邠p害競爭對手聲譽而發(fā)表的那些不切實際的或者懷有惡意的觀點。意見分類:正面評論、負面評論和中立評論。意見分類主要用于快速判定大眾對一個對象的普遍觀點。該任務(wù)和傳統(tǒng)的基于主題的文本分類相似。但有不同。意見分類中主題相關(guān)的詞匯并不重要,表征正面或負面觀點的詞匯更加重要。意見分類的研究層次:主要是文檔層次;其次還有句子層次的。①意見分類的具體方法:基于意見短語的分類;采用文本分類方法進行意見分類;基于評分函數(shù)進行分類。基于意見短語的分類:基于各個評估文本中正面和負面的意見詞和短語?!惴ú襟E:基于調(diào)整性標(biāo)注的自然語言處理技術(shù)S1.抽取包含有形容詞和副詞的短語,采用賓州樹庫詞性標(biāo)注集(表11.1)+基于特征的觀點摘要(表11.2);S2.采用點對互信息估計所抽取的短語的語義傾向(一個短語的語義傾向SO基于它和正面參考詞“excellent”與負面詞“poor”的關(guān)聯(lián)程度進行計算);S3.給定一個評審。算法計算評審中所有短語的平均SO。如果平均SO是正的,則為正面證人否則為負面評價。采用文本分類方法進行意見分類:將該問題作為基于主題的文本分類問題,可采用na?veBayesian,VM,N等方法?;谠u分函數(shù)進行分類:采用通用評分函數(shù),算法步驟為:S1.在訓(xùn)練集中采用評分公式為每個詞賦值,介于-1——1之間;S2.算法將新文檔的所有詞的評分求和,并給出分類的判斷。②基于特征的觀點挖掘和摘要:一個關(guān)于特定對象的正面評估文本并不能說明作者對于該對象的任一方面都有正面的評價。在一個特定產(chǎn)品的評審中,評審人通常會同時給出一個產(chǎn)品的正面或負面評價,挖掘往往作用于句子層面。定位和抽取評審者所評論產(chǎn)品的特征——產(chǎn)品特征判定對于特定特征的評價是正面的、負面的還是中立的。對象:一個對象O是指一個實體,它可以是一個產(chǎn)品、人物、事件、組織或者主題。它關(guān)聯(lián)到一個序?qū):(T,A),其中T是一個層次化或者結(jié)構(gòu)化的部件(或者組件)、子部件等。A是一個關(guān)于屬性的集合,每個部件都擁有它自己的子部件或?qū)傩约?。O:數(shù)碼相機部件:lens,battery,view-finder……..Battery:life,size,weight……顯式特征和隱式特征:如果一個特征f出現(xiàn)在一個評估文本r中,則稱它是r的一個顯式特征。如果f沒有在r中出現(xiàn),則稱其為r的一個隱式特征。如thebatterylifeofthiscameraistooshort.Thiscameraistoolarge.某一特征的觀點段:一個關(guān)于對象r的特征f的觀點段是r中一組表達了關(guān)于f的正面或者負面觀點的連續(xù)句子。如:thebatteryqualityisgood,butthebatterylifeisshort.大多數(shù)的研究集中在句子上。每個段落由一個單獨的句子組成。顯式觀點和隱式觀點:一個關(guān)于特征f的顯式觀點是一個直接表達了正面或負面觀點的主觀句子。一個關(guān)于特征f的隱式觀點是一個蘊含了正面或負面觀點的客觀句子。如:thispicturequalityofthiscameraisamazing.Theearphonebrokeintwodays.觀點持有對象:關(guān)于某一特定觀點的持有對象是指擁有這一觀點的人或組織。一個對象和該對象之上的觀點集合的簡要模型:一個對象可以被表示為一個關(guān)于特征的有限集合F={f1,f2,…,fn},每一個F中的特征fi都可以表示為一個同義詞或者同義短語Wi的集合。即對于n個特征,有一個對應(yīng)的同義詞集合W={W1,W2,…Wn}。由于每個F中的特征fi都有一個名字(標(biāo)記為fi),可得到fi∈Wi。每個作者或觀點持有對象j對一個特征的子集SjF進行評論。對于每個觀點持有對象進行評論了的特征fk∈Sj,可以從Wk中選擇一個詞或者短語來描述該特征,并對其表達正面或負面的觀點。給定一個評測文本集合D作為輸入,則可有如下三個問題:P1:F和W都是未知的,在觀點挖掘中需要挖掘的任務(wù)——T1、T2和T3.T1:從每個評估d∈D中定位與抽取被評估對象的特征。T2:確定對于該特征的觀點是正面的、負面的或中立的。T3:由于不同的人可能采用不同的詞或短語來描述同樣的特征。需將各個特征的同義詞進行歸并。P2:F已知而W未知。與P1類似有三個任務(wù),但處理更簡單。其中T1與T2同前;但T3可將已發(fā)現(xiàn)的特征與給定特征集合F進行匹配而求解。P3:W已知(可以推出F也是已知的)。僅需要進行任務(wù)T2,即在抽取所有包含相應(yīng)特征的句子后,,確定一個已知特征上的觀點是正面的,負面的還是中立的。基于特征的摘要:形成針對某一對象的各種觀點的基于特征的摘要。對象特征提取:主要用在在線產(chǎn)品的評審上。有三種類型的評審格式,不同的評審格式需要不同的技術(shù)進行特征提取。格式1:區(qū)分正面、負面以及細節(jié)的評審。評審者被要求獨立地描述正面和負面觀點;此外,還要給出細節(jié)評審。格式2:區(qū)分正面和負面的評審。評審者被要求獨立地描述正面和負面觀點;但不需要給出獨立的細節(jié)評審。格式3:自由格式。評審者可以自由地給出評價。不必區(qū)分正面或負面觀點。格式1中特征抽取算法:S1:用于LSR挖掘的訓(xùn)練數(shù)據(jù)準備;S2:標(biāo)記順序規(guī)則挖掘;找到包含特征的規(guī)則,詞性標(biāo)注和詞形成語言模式;S3:特征抽取,考慮三種情形:如果一個句子片段匹配多個規(guī)則的處理對于沒有規(guī)則適用的句子片段,如果存在,被詞性標(biāo)注工具標(biāo)出來的名詞和名詞短語被抽取為特征;對于只有一個詞的句子片段,單一詞匯被對待為特征。隱式特征匹配同義詞分組特征粒度格式2和格式3的特征抽取算法:了解S1:找到所有的調(diào)頻名詞和名詞短語;名詞和名詞短語可能通過詞性標(biāo)注工具勷S2:通過利用意見詞找到不頻繁出現(xiàn)的特征。意見詞(又稱觀點詞)通常表達正面或負面評價的形容詞和副詞。觀點傾向分類:意見詞和短語是那些表達了正面或負面意見(觀點)的詞,通常是形容詞和副詞,也可是動詞或名詞。已構(gòu)建了意見詞的集合人工找到一個正面或負面詞匯、成語的種子集合,為形容詞、動詞、名詞和副詞、成語等都準備一個單獨的種子集合。在WORDNET中迭代地查找它們的同義詞和反義詞,以此擴展種子集合直到收斂。人工檢查結(jié)果,并去除不正確的詞匯。識別句子的意見詞和短語,是正面的則賦值+1,負面的賦值為-1,所有的賦值相加,為正則結(jié)論是正面的,否則結(jié)論為負面的。③比較性句子和比較關(guān)系挖掘——直接表達某一對象的正面或負面觀點只是評估的一種形式,將一個對象和其他同等對象進行比較是另一種形式。比較也是更能讓人信服的一種方式。分為主觀比較和客觀比較。如thepicturequalityofcameraxisgreat.典型句子主觀比較:thepicturequalityofcameraxisbetterthanthatofcameray.客觀比較:cameraXis20gramsheavierthancameray.比較性句子和判定比較關(guān)系是很難的。很多包含比較級(最高級)的句子并不是比較格式;而不包含這類詞的句子卻是比較性句子。比較性句子:是一個表達了多個對象之間的相似或者不同關(guān)系的句子,比較性句子中的比較關(guān)系通常由一個形容詞或副詞的比較級或最高級來表達。幾種重要的比較類型:等級比較和非等級比較,其中等級比較可進一步分為形容詞和副詞比較。等級比較包括:不相等的等級比較、相等等級的比較、最高級的比較。非等級比較比較了兩個或者多個對象的特征,但并不對他們進行分級??煞譃槿N類型:對象A和對象B在某些特征上相似或者不同;對象A有特征f1,而對象B有特征f2;對象A擁有特征f,但是對象B沒有。比較性句子的三種類型:非平等等級比較;平等比較;最高級比較。比較關(guān)系的抽取:序列數(shù)據(jù)產(chǎn)生:用于挖掘的順序數(shù)據(jù)庫創(chuàng)建;在數(shù)據(jù)中手工標(biāo)記每個句子的標(biāo)號詞…….LSR的生成挖掘規(guī)則系統(tǒng)被用來生成標(biāo)號順序規(guī)則。關(guān)系項抽取,如使用規(guī)則來匹配句子,并用具有最高置信度的規(guī)則來抽取關(guān)系項。觀點搜索包括:搜索某一特定對象或?qū)ο筇卣魃系挠^點。搜索某一個人或組織對某一特定對象或?qū)ο筇卣鞯目捶?。觀點欺詐指人們故意誤導(dǎo)讀者和自動觀點挖掘系統(tǒng)的行為(比如撰寫欺詐性的評審)。觀點欺詐的目的:推銷某些目標(biāo)對象;損害某些其他目標(biāo)對象的聲譽等。觀點欺詐的行為:為了推銷目標(biāo)對象撰寫一些不切實際的正面評審——炒作欺詐;為了詆毀某些目標(biāo)對象的聲譽,撰寫一些不公平或者惡毒的反而評審——誹謗欺詐。欺詐和欺詐者的種類:人工欺詐和自動欺詐;個人欺詐和群組欺詐。隱藏技巧:欺詐者為了避免被檢測出來所采取的預(yù)防措施。欺詐檢測:面向評論的欺詐檢測;面向評論者的欺詐檢測;面向服務(wù)器的欺詐檢測。面向評論的欺詐檢測:比較內(nèi)容相似性;檢測評分和內(nèi)容例外;比較多個網(wǎng)站的平均打分;檢測評分例外。面向評論者的欺詐檢測:觀察早期用戶;檢測早期修正動作;比較同一評論者對于不同品牌產(chǎn)品的評論打分;比較評論時間。面向服務(wù)器的欺詐檢測。2、主要知識點(1)意見分類基于意見短語的分類算法:基于各個評估文本中正面和負面的意見詞和短語。——算法步驟:基于調(diào)整性標(biāo)注的自然語言處理技術(shù)S1.抽取包含有形容詞和副詞的短語,采用賓州樹庫詞性標(biāo)注集(表11.1)+基于特征的觀點摘要(表11.2);S2.采用點對互信息估計所抽取的短語的語義傾向(一個短語的語義傾向SO基于它和正面參考詞“excellent”與負面詞“poor”的關(guān)聯(lián)程度進行計算);S3.給定一個評審。算法計算評審中所有短語的平均SO。如果平均SO是正的,則為正面證人否則為負面評價。采用文本分類方法進行意見分類:將該問題作為基于主題的文本分類問題,可采用na?veBayesian,VM,N等方法?;谠u分函數(shù)進行分類:采用通用評分函數(shù),算法步驟為:S1.在訓(xùn)練集中采用評分公式為每個詞賦值,介于-1——1之間;S2.算法將新文檔的所有詞的評分求和,并給出分類的判斷?;谔卣鞯挠^點挖掘和摘要:一個關(guān)于特定對象的正面評估文本并不能說明作者對于該對象的任一方面都有正面的評價。在一個特定產(chǎn)品的評審中,評審人通常會同時給出一個產(chǎn)品的正面或負面評價,挖掘往往作用于句子層面。定位和抽取評審者所評論產(chǎn)品的特征——產(chǎn)品特征判定對于特定特征的評價是正面的、負面的還是中立的。對象:一個對象O是指一個實體,它可以是一個產(chǎn)品、人物、事件、組織或者主題。它關(guān)聯(lián)到一個序?qū):(T,A),其中T是一個層次化或者結(jié)構(gòu)化的部件(或者組件)、子部件等。A是一個關(guān)于屬性的集合,每個部件都擁有它自己的子部件或?qū)傩约?。O:數(shù)碼相機部件:lens,battery,view-finder……..Battery:life,size,weight……顯式特征和隱式特征:如果一個特征f出現(xiàn)在一個評估文本r中,則稱它是r的一個顯式特征。如果f沒有在r中出現(xiàn),則稱其為r的一個隱式特征。如thebatterylifeofthiscameraistooshort.Thiscameraistoolarge.某一特征的觀點段:一個關(guān)于對象r的特征f的觀點段是r中一組表達了關(guān)于f的正面或者負面觀點的連續(xù)句子。如:thebatteryqualityisgood,butthebatterylifeisshort.大多數(shù)的研究集中在句子上。每個段落由一個單獨的句子組成。顯式觀點和隱式觀點:一個關(guān)于特征f的顯式觀點是一個直接表達了正面或負面觀點的主觀句子。一個關(guān)于特征f的隱式觀點是一個蘊含了正面或負面觀點的客觀句子。如:thispicturequalityofthiscameraisamazing.Theearphonebrokeintwodays.觀點持有對象:關(guān)于某一特定觀點的持有對象是指擁有這一觀點的人或組織。一個對象和該對象之上的觀點集合的簡要模型:一個對象可以被表示為一個關(guān)于特征的有限集合F={f1,f2,…,fn},每一個F中的特征fi都可以表示為一個同義詞或者同義短語Wi的集合。即對于n個特征,有一個對應(yīng)的同義詞集合W={W1,W2,…Wn}。由于每個F中的特征fi都有一個名字(標(biāo)記為fi),可得到fi∈Wi。每個作者或觀點持有對象j對一個特征的子集SjF進行評論。對于每個觀點持有對象進行評論了的特征fk∈Sj,可以從Wk中選擇一個詞或者短語來描述該特征,并對其表達正面或負面的觀點。給定一個評測文本集合D作為輸入,則可有如下三個問題:P1:F和W都是未知的,在觀點挖掘中需要挖掘的任務(wù)——T1、T2和T3.T1:從每個評估d∈D中定位與抽取被評估對象的特征。T2:確定對于該特征的觀點是正面的、負面的或中立的。T3:由于不同的人可能采用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論