【《文本數(shù)據(jù)獲取及預(yù)處理算法分析概述》3800字】_第1頁
【《文本數(shù)據(jù)獲取及預(yù)處理算法分析概述》3800字】_第2頁
【《文本數(shù)據(jù)獲取及預(yù)處理算法分析概述》3800字】_第3頁
【《文本數(shù)據(jù)獲取及預(yù)處理算法分析概述》3800字】_第4頁
【《文本數(shù)據(jù)獲取及預(yù)處理算法分析概述》3800字】_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余2頁可下載查看

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

文本數(shù)據(jù)獲取及預(yù)處理算法分析概述目錄TOC\o"1-3"\h\u24313文本數(shù)據(jù)獲取及預(yù)處理算法分析概述 145181.1.1目標(biāo)數(shù)據(jù)簡述 1250911.1.2數(shù)據(jù)獲取方法分析 249771.1.3數(shù)據(jù)預(yù)處理方法分析 5如前所述,人物數(shù)據(jù)一般分為靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)兩類(圖1.5)。前者主要包含目標(biāo)人物的基本屬性,比如生物屬性(身高、性別等)和固有社會屬性(姓名、聯(lián)系方式等),這些屬性一般不會隨著時間發(fā)生很大的改變。相比之下,后者主要是隨著時間會增加或變化的數(shù)據(jù),一般來源于目標(biāo)人物的工作和社交活動,比如獎懲、正面采訪報導(dǎo)和側(cè)面新聞報道等[21]。目標(biāo)數(shù)據(jù)簡述本課題研究的數(shù)據(jù)來源為某高校的教師信息。查看該校各院系的官網(wǎng),可以找到院系教師的基本信息和經(jīng)歷。其次,各院系官網(wǎng)中的一些新聞和實時信息更新中也可以看到本院系或外院系教師的動態(tài)數(shù)據(jù),如參與的活動、研究的成果等。而這些數(shù)據(jù)均為文本類數(shù)據(jù),因此需要通過一定的手段將這些數(shù)據(jù)獲取并整合后進(jìn)行處理,方能使用。由于需要獲取網(wǎng)頁上的數(shù)據(jù),下面就網(wǎng)頁上的數(shù)據(jù)類型進(jìn)行簡要介紹。網(wǎng)頁上的數(shù)據(jù)一般分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要由二維表結(jié)構(gòu)來實現(xiàn),嚴(yán)格遵守數(shù)據(jù)格式和長度規(guī)范,因而也被稱作行數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)標(biāo)記能使網(wǎng)站在檢索中充分展示網(wǎng)頁摘要,有利于網(wǎng)站信息的宣傳。相比之下,除了可以高度自動化處理的數(shù)據(jù),大部分?jǐn)?shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)[22],平均占企業(yè)數(shù)據(jù)的百分之八十左右。例如,各種格式的辦公文檔、報表,HTML、XML文件,以及各種圖片、音視頻等。利用可視化工具分析非結(jié)構(gòu)化數(shù)據(jù),可以有效地幫助企業(yè)快速了解員工狀況、銷售狀況和未來可能出現(xiàn)的問題等。介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的是半結(jié)構(gòu)化數(shù)據(jù)[23],一般來說由有向圖結(jié)構(gòu)或者傳統(tǒng)的樹結(jié)構(gòu)來表示,它可以有效處理結(jié)構(gòu)化數(shù)據(jù)無法保存的信息:半結(jié)構(gòu)數(shù)據(jù)的樹或圖結(jié)果就具有較高的靈活性,雖然其結(jié)果相對復(fù)雜但是模式的動態(tài)性使信息得以有序地完整保存[24]。人物信息簡述數(shù)據(jù)獲取方法分析基于上面的研究分析,可以對本課題研究的需求進(jìn)一步明晰。高校院系的教師信息網(wǎng)頁(基本結(jié)構(gòu)例如圖1.6)中主要包含人物的姓名、職稱、院系、聯(lián)系方式、郵寄地址等基本信息,以及教師的教育履歷、工作兼職、學(xué)術(shù)成果和社會工作等信息,這些信息均為文本類數(shù)據(jù)。院系的其他網(wǎng)頁(例如新聞網(wǎng)頁,活動網(wǎng)頁等)則包含了教師的相關(guān)新聞報道和采訪資料,其中含有圖片、音視頻等信息。日常生活中我們?yōu)g覽網(wǎng)頁查找資料,每個點擊都是一個或多個建立連接、從目標(biāo)服務(wù)器獲取數(shù)據(jù)的過程。網(wǎng)頁瀏覽是在瀏覽器程序上接入并依照TCP/IP協(xié)議的方式進(jìn)行HTML或XHTML格式的WEB網(wǎng)頁信息獲取的過程。用戶通過瀏覽網(wǎng)頁訪問服務(wù)器獲得信息是一個相對復(fù)雜的過程(圖1.7),需要經(jīng)過“去”的過程——用戶請求服務(wù)器和“回”的過程——服務(wù)器回應(yīng)用戶請求,其中需要經(jīng)歷TCP/IP握手等過程[25]。其中,瀏覽器想目標(biāo)服務(wù)器發(fā)起訪問請求后,需要獲取其HTML代碼,返回后經(jīng)過一系列處理、組合最后獲得可供瀏覽和訪問的網(wǎng)頁。因此,可以通過一定的方法,利用Python爬蟲來實現(xiàn)自動獲取網(wǎng)頁信息和數(shù)據(jù)[26]。網(wǎng)絡(luò)爬蟲(webcrawler)是一種基于一定規(guī)則從網(wǎng)站獲取網(wǎng)頁信息的程序,因大數(shù)據(jù)時代的發(fā)展而在近些年得到廣泛的應(yīng)用,其基本流程如圖1.8所示。一般來說,按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),網(wǎng)絡(luò)爬蟲主要分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲四種。實際使用中往往是幾種爬蟲結(jié)合使用。通用網(wǎng)絡(luò)爬蟲(GeneralPurposeWebCrawler)[27]又稱為全網(wǎng)爬蟲(ScalableWebCrawler),它通過一些URL種子擴(kuò)充到整個網(wǎng)絡(luò),進(jìn)行數(shù)據(jù)爬取和收集。通用網(wǎng)絡(luò)爬蟲常用的爬行策略為深度優(yōu)先(DFS)策略和廣度優(yōu)先(BFS)策略。前者是針對同一個網(wǎng)頁的不同層次鏈接,由深度依淺入深,直到一個鏈接不能再深入,說明一個爬行分支構(gòu)建完成,爬蟲才會轉(zhuǎn)向其他鏈接。所有分支構(gòu)建完成后爬蟲工作結(jié)束。后者則按照廣度優(yōu)先的原則,同一層次的鏈接全部爬取完畢后才會進(jìn)入到下一層的鏈接[28]。通用爬蟲對爬行速度和存儲空間要求較高,一般用于搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商。聚焦網(wǎng)絡(luò)爬蟲(FocusedCrawler),或稱主題網(wǎng)絡(luò)爬蟲(TopicalCrawler)。與通用網(wǎng)絡(luò)爬蟲不同,聚焦網(wǎng)絡(luò)爬蟲只專注與主題相關(guān)的頁面,極大地減輕了硬件和存儲空間的壓力,但是結(jié)構(gòu)也更為復(fù)雜。DeBra等人[29]提出了基于內(nèi)容評價的爬行策略——FishSearchAlgorithm(魚搜索算法,下稱fish-search算法)。它可以以搜索者的輸入查詢詞為主題,通過爬取與主題相關(guān)的頁面以獲得資料和信息。教師個人主頁一般格式(例)用戶訪問服務(wù)器的流程爬蟲獲取數(shù)據(jù)的基本流程這一方法的缺點主要是只能單純針對關(guān)鍵詞進(jìn)行頁面篩選,所有含有該關(guān)鍵詞的頁面都會被納入而無法評價其與主題詞的相關(guān)性高低。隨后LuoF等人[30]就魚搜索算法的效率進(jìn)行了改進(jìn),指出fish-search算法因搜索范圍隨機(jī)導(dǎo)致重復(fù)搜索或搜索時間過長的問題,并通過設(shè)定自適應(yīng)搜索范圍參數(shù)改進(jìn)了fish-search算法。此外,HersoviciM等人[31]提出了進(jìn)一步改進(jìn)的算法“SharkSearchAlgorithm”等。另一方面,基于鏈接結(jié)構(gòu)進(jìn)行評價的PageRank算法可以根據(jù)頁面鏈接結(jié)構(gòu)的重要性進(jìn)行排序。XingW等人[32]提出的WPRAlgorithm(加權(quán)頁面評級算法),在傳統(tǒng)PageRank算法上同時考慮了頁面內(nèi)鏈和外鏈的重要性,并根據(jù)頁面的受歡迎程度來分配排名分?jǐn)?shù),進(jìn)一步實現(xiàn)了網(wǎng)頁搜索效率的優(yōu)化。增量式網(wǎng)絡(luò)爬蟲(IncrementalWebCrawler)是對已經(jīng)爬行網(wǎng)頁的爬蟲進(jìn)行更新,它的主要目的是盡可能保證所爬行的頁面是最新的。增量式網(wǎng)絡(luò)爬蟲的主要策略是上述兩種的綜合,其主要功能是查詢網(wǎng)頁的歷史版本并跟蹤網(wǎng)頁的更新。深層網(wǎng)絡(luò)爬蟲(DeepWebCrawler)則主要為了針對網(wǎng)絡(luò)頁面的深層網(wǎng)頁(需要填寫關(guān)鍵詞才能到達(dá)的頁面,比如需要注冊和登錄才能進(jìn)入的網(wǎng)絡(luò)頁面)進(jìn)行訪問而設(shè)計的。將四種爬蟲的主要目標(biāo)、功能和需求總結(jié)如圖2.7。根據(jù)上面的總結(jié)分析,不同類型的爬蟲在方向和功能上都存在一定差異,需要針對具體應(yīng)用適配。四種爬蟲總結(jié)數(shù)據(jù)預(yù)處理方法分析上一部分已經(jīng)分析,利用爬蟲從高校基本信息網(wǎng)頁和其他相關(guān)新聞報道網(wǎng)頁獲取的文本數(shù)據(jù)大多為非結(jié)構(gòu)化數(shù)據(jù),不能直接作為網(wǎng)絡(luò)的輸入,而是需要空過一定的預(yù)處理。在預(yù)處理部分,需要先篩選出有用的信息保留,刪除其他多余或重復(fù)信息(例如新聞報道中的媒體名、編輯名、語氣詞等),這是第一步去除無用信息的過程,或稱為“去噪”。隨后需要更改文本形式,進(jìn)行分詞處理,以便于后續(xù)研究使用[33]。在第一步“去噪”的過程中,首先需要找出噪聲的來源和類別。一般來說,對獲取文章或文段核心信息沒有幫助,即與文章或文段意義無關(guān)的鏈接、表情、數(shù)字、單詞、詞組等均為噪聲。在具體操作時,主要是利用基于字符串匹配的正則表達(dá)式,從而完成首步篩選,去除無意義信息。正則表達(dá)式又稱規(guī)則表達(dá)式,通常被用來檢索、替換那些符合某個模式的文本,常被用于處理無效信息字符串——利用其正則表達(dá)式將其檢索并處理,可以有效減少無關(guān)信息的干擾。去掉無用信息后收集到所需的文段,為了方便后續(xù)的關(guān)鍵詞提取還需要進(jìn)行段落的分詞處理。常用的中文分詞方法有:基于字符串匹配的方法,基于語義理解的方法和基于標(biāo)注的方法。算法方面,較為著名的有基于字符串匹配算法、jieba分詞和BiLstm+CRF算法等?;谧址ヅ涞乃惴ǔ7譃槿N,即正向最大匹配法、逆向最大匹配法和最少切分方法。字符串匹配發(fā)的主要思想是將漢字字符串與詞典中的詞進(jìn)行匹配,一旦匹配成功則識別出一個詞,以此類推。正向最大匹配法的核心是從字段首部尋找最大字符串與詞典匹配[34],其算法流程如圖1.10所示。與正向最大匹配算法相似,逆向最大匹配算法的主要思路也是與詞典最大詞條比對并實現(xiàn)分詞和提取。與前者不同的是,逆向最大匹配算法的流程中,若匹配不成功,則刪去字符串最前面一個字,再執(zhí)行下一步循環(huán)。最少切分方法則基于算法效率出發(fā),主要是為實現(xiàn)每一句中切出的詞數(shù)最少?;谧址ヅ渌愕闹饕獌?yōu)點是運(yùn)算速度快(時間復(fù)雜度均為O(n)),并且較為容易實現(xiàn)。但是由于核心思想是切割和詞典比對,對歧義詞和詞典中未收錄的詞處理效果并不好。正向最大匹配算法流程圖jieba分詞是一個為Python設(shè)計的中文分詞處理工具包,具體方法主要有DAG(有向無環(huán)圖)分詞和HMM分詞兩種。一般來說,引入因馬爾科夫模型(HMM)的jieba分詞效果更好。此外,基于深度學(xué)習(xí)的BiLstm+CRF算法也體現(xiàn)出很好的分詞能力。此模型原是為了解決標(biāo)注問題的,但在分詞上也體現(xiàn)出較好的效果。BiLstm+CRF算法的基礎(chǔ)是詞語標(biāo)注原理,基于標(biāo)注實現(xiàn)文段分詞。BiLstm+CRF算法基于BMES等標(biāo)注方法,依照標(biāo)注結(jié)果進(jìn)行分詞。網(wǎng)絡(luò)方面,BiLstm+CRF算法(結(jié)構(gòu)如圖1.11)是利用雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)和條件隨機(jī)場(CRF)的組合實現(xiàn)的。BiLstm主要用于提取特征,輸出維度為4。引入CRF的主要原因是BiLstm的輸出有缺陷——實際標(biāo)注序列是有明顯轉(zhuǎn)移概率的,以“B”為例,其后不可能是“S”,并且“E”和“M”出現(xiàn)的概率也明顯是不一樣的。因而CRF可以通過轉(zhuǎn)移矩陣實現(xiàn)對Bi-LSTM輸出的限制,從而提高預(yù)測和求解的準(zhǔn)確度。理論計算方法可以規(guī)劃如下:設(shè)Bi-LSTM的輸出矩陣為P,其中每一位置Pi,j代表詞wi映射到tagj(標(biāo)注矩陣)的非歸一化概率。引入CRF后,假設(shè)存在轉(zhuǎn)移矩陣A,其中每一位置Ai,j代表s利用softmax函數(shù)計算每一個正確標(biāo)注的y的概率(YXp利用MLE原理,需要訓(xùn)練過程中最大化似然概率pylog化簡得到:l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論