版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
文本數(shù)據(jù)獲取及預(yù)處理分析案例目錄TOC\o"1-3"\h\u9295文本數(shù)據(jù)獲取及預(yù)處理分析案例 1287571.1文本數(shù)據(jù)獲取 1151581.2文本預(yù)處理 6256431.2.1正則表達(dá)式匹配去無(wú)效信息 6187411.2.2文本分詞處理 7174811.2.3文本去停用詞 9利用網(wǎng)絡(luò)爬蟲(chóng)爬取目標(biāo)頁(yè)面上的數(shù)據(jù),針對(duì)網(wǎng)頁(yè)特征編寫對(duì)應(yīng)的爬蟲(chóng)來(lái)獲取數(shù)據(jù)。對(duì)得到的數(shù)據(jù)進(jìn)行分類儲(chǔ)存后,按照模型的輸入需求進(jìn)行一系列預(yù)處理,獲得可供模型訓(xùn)練或測(cè)試的數(shù)據(jù)集。文本數(shù)據(jù)獲取首先利用網(wǎng)絡(luò)爬蟲(chóng)爬取目標(biāo)頁(yè)面上的數(shù)據(jù),由于教師信息頁(yè)面和新聞頁(yè)面均沒(méi)有需要密碼登錄的深層頁(yè)面,也無(wú)需要實(shí)時(shí)更新的數(shù)據(jù),故采用性能最為穩(wěn)定、代價(jià)最低的通用網(wǎng)絡(luò)爬蟲(chóng)。本課題利用通用網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)的過(guò)程可分為5個(gè)步驟,具體如表2.1所示。爬蟲(chóng)獲取數(shù)據(jù)的步驟步驟內(nèi)容收集目標(biāo)網(wǎng)站教師信息方面,主要是針對(duì)某高校的48個(gè)院系的教師主頁(yè)進(jìn)行收集,包含有教師的照片、姓名、聯(lián)系方式、院系、教育及工作經(jīng)歷和學(xué)術(shù)成就等一系列基本信息;新聞數(shù)據(jù)方面,主要針對(duì)某高校新聞網(wǎng)上的一系列數(shù)據(jù)進(jìn)行爬取,這其中有包括該網(wǎng)站援引其他新聞媒體的報(bào)道,豐富了新聞數(shù)據(jù)的來(lái)源。分析網(wǎng)頁(yè)組成即使是同一學(xué)校,不同院系由于網(wǎng)絡(luò)分別編寫,其格式和順序中也有明顯差異。每一個(gè)網(wǎng)頁(yè)都有不同的網(wǎng)頁(yè)結(jié)構(gòu),這些結(jié)構(gòu)以HTML標(biāo)簽標(biāo)示,故可以依照結(jié)構(gòu)深入分析網(wǎng)頁(yè)構(gòu)成,獲取所需數(shù)據(jù)。依照網(wǎng)頁(yè)組成編寫爬蟲(chóng)根據(jù)前一步獲得的各個(gè)網(wǎng)頁(yè)組成,分別編寫爬蟲(chóng)獲取數(shù)據(jù);此外,由于需要爬取的網(wǎng)頁(yè)較多,采用分布式爬取的方式,多線程獲取各個(gè)網(wǎng)頁(yè)信息,提高了數(shù)據(jù)收集的效率。數(shù)據(jù)分類處理將爬取獲得的數(shù)據(jù)進(jìn)行一系列預(yù)處理,獲得符合后續(xù)模型需要的數(shù)據(jù)集。這一部分將在后面詳細(xì)說(shuō)明。數(shù)據(jù)儲(chǔ)存初步獲取數(shù)據(jù)后將其按一定順序保存在文檔中,預(yù)處理后再分別保存于另一文檔中。根據(jù)計(jì)算機(jī)網(wǎng)絡(luò)相關(guān)原理,爬蟲(chóng)程序會(huì)使用HTTP庫(kù)向目標(biāo)網(wǎng)頁(yè)發(fā)起請(qǐng)求(Request),目標(biāo)網(wǎng)站的服務(wù)器接收到后向本機(jī)發(fā)出回應(yīng)(Response),其中包含HTML代碼等一系列需要的內(nèi)容。此外,在網(wǎng)頁(yè)中也可直接查看“審查元素”(快捷鍵鍵盤F12)來(lái)獲知網(wǎng)頁(yè)的HTML標(biāo)簽結(jié)構(gòu),例如圖2.1中的網(wǎng)頁(yè)。HTML利用樹(shù)結(jié)構(gòu)來(lái)儲(chǔ)存標(biāo)簽,基本結(jié)構(gòu)如圖2.2所示。網(wǎng)頁(yè)HTML標(biāo)簽一例HTML標(biāo)簽樹(shù)狀儲(chǔ)存結(jié)構(gòu)從上述兩幅圖中可以看到,除了有用的、可以提取URL等有效信息的標(biāo)簽以外還有很多表征字體、空格、換行的標(biāo)簽,諸如<div>、</div>、<br>、<p>、</p>和<script>等,這些標(biāo)簽會(huì)含有不需要的信息、影響到數(shù)據(jù)收集。因此,需要在從層層標(biāo)簽中提取文本數(shù)據(jù)的同時(shí),清除網(wǎng)頁(yè)中的無(wú)用標(biāo)簽。最初計(jì)劃是編寫統(tǒng)一的爬蟲(chóng)模型實(shí)現(xiàn)數(shù)據(jù)獲取,僅針對(duì)不同院系網(wǎng)頁(yè)進(jìn)行URL等細(xì)節(jié)的微調(diào)。實(shí)際工程中發(fā)現(xiàn),不同院系的網(wǎng)頁(yè)編寫方式差異極大,排版方式也有明顯的不同——基于最新的教師信息頁(yè)面一般是按照“照片、姓名、聯(lián)系方式、院系、辦公室地址、教育及工作經(jīng)歷、學(xué)術(shù)獲獎(jiǎng)、學(xué)術(shù)成就”順序排列,但實(shí)際上由于不同院系及不同教師的教師主頁(yè)具有較強(qiáng)的個(gè)性化,最終決定按照院系來(lái)分別編寫爬蟲(chóng),獲取數(shù)據(jù)最后整合。整合后的教師基本信息數(shù)據(jù)儲(chǔ)存為EXCEL表格形式,如圖2.3所示。教師基本信息儲(chǔ)存格式新聞數(shù)據(jù)方面,主要是利用爬蟲(chóng)獲取某高校新聞網(wǎng)主頁(yè)上的一系列教師新聞。最初計(jì)劃是利用“教師姓名”和“院系”兩個(gè)關(guān)鍵詞標(biāo)簽去篩選和分類新聞數(shù)據(jù),但由于某高校新聞網(wǎng)網(wǎng)頁(yè)自身的特殊性,導(dǎo)致出現(xiàn)使用>1個(gè)關(guān)鍵詞爬取就會(huì)網(wǎng)頁(yè)宕機(jī)的現(xiàn)象,所以最后決定僅按照教師姓名進(jìn)行篩選,并在后續(xù)按照院系進(jìn)行進(jìn)一步處理和細(xì)分。整合后的教師新聞數(shù)據(jù)儲(chǔ)存為EXCEL表格形式,如圖2.4所示。教師新聞數(shù)據(jù)儲(chǔ)存格式需要特別說(shuō)明的是教師基本信息中,部分例如教育經(jīng)歷、學(xué)術(shù)成果等對(duì)本教師塑像人物幫助較小的數(shù)據(jù)在獲取數(shù)據(jù)之初就未保存,以保證信息的有效性并減小不必要的算力浪費(fèi)。此外,在錄入數(shù)據(jù)處理保留了新聞的發(fā)文時(shí)間,后續(xù)處理后也摒棄了這個(gè)信息,因?yàn)樗鼘?duì)任務(wù)的完成并無(wú)裨益。獲取完全部數(shù)據(jù)后,統(tǒng)計(jì)總數(shù)據(jù)量如圖2.5所示。可以看到,初步獲取得到的數(shù)據(jù)量還是較大的,但這些數(shù)據(jù)中還未經(jīng)過(guò)進(jìn)一步處理,很可能含有很多無(wú)用信息和多余信息。例如教師信息中的電話、郵箱等信息和新聞數(shù)據(jù)中的時(shí)間信息對(duì)教師塑像任務(wù)并沒(méi)有直接的作用,這些數(shù)據(jù)在后續(xù)工作中會(huì)進(jìn)一步分離和去除。此外,對(duì)全部新聞的數(shù)據(jù)長(zhǎng)度進(jìn)行統(tǒng)計(jì),作圖如圖2.6所示。五萬(wàn)四千余條新聞數(shù)據(jù)中最短為0個(gè)字符(頁(yè)面無(wú)內(nèi)容或內(nèi)容被刪除),最長(zhǎng)為32767個(gè)字符。從圖中可以看到,無(wú)內(nèi)容的文本有1600余條,因而需要進(jìn)一步處理掉;此外,大部分新聞長(zhǎng)度在500~5000字范圍內(nèi),這為后續(xù)設(shè)置參數(shù)提供了基本依據(jù)。但同樣需要注意到的是,文本數(shù)據(jù)量龐大、計(jì)算代價(jià)較高,因此有必要進(jìn)行預(yù)處理過(guò)程以提取有效信息。教師信息及新聞數(shù)據(jù)量新聞數(shù)據(jù)長(zhǎng)度分布除了上述其他部分的無(wú)用信息,所需文本本身也存在許多需要進(jìn)行處理的地方。例如圖2.7中的新聞文段,紅色標(biāo)注的劃掉部分是需要?jiǎng)h除的部分內(nèi)容。新聞來(lái)源、時(shí)間、人數(shù)、語(yǔ)氣詞、助動(dòng)詞、供稿審稿人和編輯等信息對(duì)獲取關(guān)鍵詞均無(wú)幫助,還很可能混淆文意、導(dǎo)致關(guān)鍵詞提取效果不佳,因此這些信息在后續(xù)處理過(guò)程中都是必須去掉的。需要處理的文本內(nèi)容(例)文本預(yù)處理基于獲取的數(shù)據(jù),以及對(duì)數(shù)據(jù)的分析可知,許多沒(méi)有實(shí)際作用的數(shù)據(jù)都需要在預(yù)處理過(guò)程中刪除掉,以便于生成可用數(shù)據(jù)集以供文本向量化處理和后續(xù)模型的使用。此外,基于后續(xù)模型需求,需要對(duì)獲得的文本進(jìn)行分詞處理。需要說(shuō)明的是,需要處理的數(shù)據(jù)主要分為新聞數(shù)據(jù)和教師個(gè)人榮譽(yù)數(shù)據(jù)兩部分。但由于教師個(gè)人主頁(yè)均為自行編輯填寫,導(dǎo)致個(gè)人榮譽(yù)部分具有較大的差異性、信息存在較嚴(yán)重缺失且難以進(jìn)行彌補(bǔ),故本課題的主要目標(biāo)數(shù)據(jù)為有效的個(gè)人榮譽(yù)數(shù)據(jù)和全部新聞數(shù)據(jù),后面的一系列處理過(guò)程也主要針對(duì)這兩部分內(nèi)容進(jìn)行。正則表達(dá)式匹配去無(wú)效信息首先通過(guò)觀察數(shù)據(jù)可以發(fā)現(xiàn),獲取的文段中有大量的無(wú)用信息。需要注意的是,如新聞來(lái)源“某某新聞網(wǎng)/日?qǐng)?bào)”、時(shí)間信息“2020年X月X日”、新聞作者信息“供稿:XX,編輯:XX”等信息具有較強(qiáng)的格式化特征,因此可以利用正則表達(dá)式篩除掉這些無(wú)效信息字符串。常見(jiàn)的一些無(wú)效字符串的正則表達(dá)式如圖2.8所示,將其檢索并處理。具體工程處理過(guò)程中,我使用了re庫(kù)中的sub函數(shù),它可以針對(duì)給定的原表達(dá)式A、新表達(dá)式B和待處理文段C,設(shè)置查找次數(shù)count后順序?qū)替換為B。首先通過(guò)查閱原數(shù)據(jù)得出一些普遍存在的無(wú)用的固定形式字符串,得到其正則表達(dá)式后利用sub函數(shù)將其篩除。利用正則表達(dá)式篩除新聞來(lái)源、編輯審核、攝影供稿等信息后,基本剔除了與新聞文意無(wú)關(guān)的干擾信息,提高了后續(xù)工作的準(zhǔn)確性,可以進(jìn)行進(jìn)一步的分詞和停用詞去除工作。常見(jiàn)無(wú)意義字符串的正則表達(dá)式文本分詞處理由于后續(xù)模型輸入的需要,本部分對(duì)已得到的新聞數(shù)據(jù)進(jìn)一步的分詞處理,使用的方法主要是前述的jieba分詞方法。jieba分詞(下稱jieba)是一個(gè)為Python設(shè)計(jì)的中文分詞處理工具包,在各種場(chǎng)景的中文分詞任務(wù)中表現(xiàn)出較好的效果。jieba主要有DAG分詞和HMM分詞兩種思路。DAG(有向無(wú)環(huán)圖)算法主要分為三部分(圖2.9),在第二步構(gòu)造DAG時(shí)實(shí)現(xiàn)每個(gè)字符的切分并構(gòu)建圖關(guān)系,在第三部中依照詞典計(jì)算出最大概率路徑,完成字符串的切分。比如對(duì)一句話“去北京大學(xué)玩”,其DAG如圖2.10所示。根據(jù)路徑和詞典切分得到的最大概率路徑如圖2.11所示。這一方法的核心思想與匹配類似,不同的是DAG法是通過(guò)構(gòu)建有向無(wú)環(huán)圖來(lái)實(shí)現(xiàn)分詞,而匹配算法是直接把文段切片與詞典進(jìn)行對(duì)比。類似的,DAG法是基于字典構(gòu)建的,所以在處理歧義詞和未收錄詞時(shí)也會(huì)出現(xiàn)問(wèn)題。jieba分詞DAG算法流程圖“去北京大學(xué)玩”的有向無(wú)環(huán)圖“去北京大學(xué)玩”的最大概率路徑計(jì)算此外,jieba的HMM算法主要基于隱馬爾可夫模型(HiddenMarkovModel,HMM)進(jìn)行預(yù)測(cè),基本流程是“序列標(biāo)注、HMM預(yù)測(cè)、Viterbi算法求解、輸出結(jié)果”。隱馬爾可夫模型(下稱HMM)主要是指含有隱含狀態(tài)的馬爾可夫模型。一般來(lái)說(shuō),被建模的系統(tǒng)可以認(rèn)為是一個(gè)馬爾可夫過(guò)程與未觀測(cè)到的(即隱藏的)狀態(tài)的HMM。通過(guò)已知狀態(tài)和關(guān)系矩陣預(yù)測(cè)隱藏(未知)狀態(tài),并利用Viterbi(維特比)算法求解,最終輸出預(yù)測(cè)結(jié)果。利用jieba分詞實(shí)現(xiàn)原數(shù)據(jù)的分詞處理,并利用“/”作為分詞標(biāo)志位。以圖2.12的文段為例,其分詞后的結(jié)果如圖2.13所示。由兩幅圖對(duì)比可以看出,分詞及預(yù)處理前的文段含有明顯的無(wú)用信息,并且句意劃分僅僅依照中文標(biāo)點(diǎn)符號(hào),句內(nèi)并無(wú)分詞處理。相比之下,處理后的文段去掉了無(wú)用信息并利用“/”分詞,有效地將原句按照詞性和語(yǔ)義分開(kāi)來(lái)。未分詞及預(yù)處理前的原文段分詞及預(yù)處理后的文段文本去停用詞最后一步就是去停用詞的過(guò)程。本課題在比較了三種最常用的停用詞表后,擬采用哈工大停用詞表來(lái)實(shí)現(xiàn)文本去停用詞處理。在哈工大停
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年成都農(nóng)業(yè)科技職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)含詳細(xì)答案解析
- 2026年桂林生命與健康職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026年安慶師范大學(xué)單招職業(yè)技能考試備考題庫(kù)含詳細(xì)答案解析
- 2026年新疆能源職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考題庫(kù)含詳細(xì)答案解析
- 2026年江西傳媒職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫(kù)含詳細(xì)答案解析
- 2026年重慶建筑工程職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫(kù)含詳細(xì)答案解析
- 2026年江蘇衛(wèi)生健康職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試參考題庫(kù)含詳細(xì)答案解析
- 2026年寧德師范學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026年湖北工程職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年廣東食品藥品職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試參考題庫(kù)含詳細(xì)答案解析
- 《新疆工程勘察設(shè)計(jì)計(jì)費(fèi)導(dǎo)則(工程勘察部分)》
- 字母認(rèn)主協(xié)議書(2篇)
- 骨科研究生年終總結(jié)
- (完整)七年級(jí)生物上冊(cè)思維導(dǎo)圖
- GB/T 34765-2024肥料和土壤調(diào)理劑黃腐酸含量及碳系數(shù)的測(cè)定方法
- DL∕T 1573-2016 電力電纜分布式光纖測(cè)溫系統(tǒng)技術(shù)規(guī)范
- 20G520-1-2鋼吊車梁(6m-9m)2020年合訂本
- 電梯維護(hù)保養(yǎng)規(guī)則(TSG T5002-2017)
- PLC控制的搶答器設(shè)計(jì)與仿真
- (高清版)TDT 1057-2020 國(guó)土調(diào)查數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)
- 天然藥物化學(xué)教學(xué)大綱
評(píng)論
0/150
提交評(píng)論