版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Python爬蟲(chóng)大數(shù)據(jù)采集與挖掘(11-1)
--文本信息處理與分類(lèi)《Python爬蟲(chóng)大數(shù)據(jù)采集與挖掘》第二版.微課視頻版(清華大學(xué)出版社,2025)教材《Python爬蟲(chóng)大數(shù)據(jù)采集與挖掘》及配套公眾號(hào)
(當(dāng)當(dāng)、京東可購(gòu)書(shū))提綱文本預(yù)處理文本的向量空間模型文本的分布式表示文本分類(lèi)及實(shí)現(xiàn)技術(shù)文本情感分析詞匯切分詞匯切分的必要性爬蟲(chóng)采集到文本信息之后的處理是文本處理挖掘的基礎(chǔ)是大數(shù)據(jù)語(yǔ)義分析的基礎(chǔ)切分的流程基于詞典的分詞方法三個(gè)基本要素分詞詞典文本掃描順序正向掃描、逆向掃描和雙向掃描匹配原則最大匹配、最小匹配、逐詞匹配和最佳匹配所謂最大匹配,就是優(yōu)先匹配最長(zhǎng)詞匯,即每一句的分詞結(jié)果中的詞匯總量要最少。正向最大匹配分詞在實(shí)現(xiàn)上可以采用減字法。正向減字最大匹配法,首先需要將詞典中詞匯按照其長(zhǎng)度從大到小的順序排列,然后對(duì)于待切分的中文字符串,做如下處理:(1)將字符串和詞典中的每個(gè)詞匯逐一進(jìn)行比較;(2)如果匹配到,則切分出一個(gè)詞匯,轉(zhuǎn)步驟5執(zhí)行;(3)否則,從字符串的末尾減去一個(gè)字;(4)如果剩下的字符串只有一個(gè)字,則切分出該字;(5)將剩下的字符串作為新的字符串,轉(zhuǎn)步驟1執(zhí)行,直到剩下的字符串長(zhǎng)度為0。[1]s=“今天是中華人民共和國(guó)獲得奧運(yùn)會(huì)舉辦權(quán)的日子”[2]s=“今天是中華人民共和國(guó)獲得奧運(yùn)會(huì)舉辦權(quán)的日”[3]s=“今天是中華人民共和國(guó)獲得奧運(yùn)會(huì)舉辦權(quán)的”…[20]s=“今天”[21]s=“是中華人民共和國(guó)獲得奧運(yùn)會(huì)舉辦權(quán)的日子”[22]s=“是中華人民共和國(guó)獲得奧運(yùn)會(huì)舉辦權(quán)的日”…[39]s=“是”[40]s=“中華人民共和國(guó)獲得奧運(yùn)會(huì)舉辦權(quán)的日子”…[51]s=“中華人民共和國(guó)”[52]s=“獲得奧運(yùn)會(huì)舉辦權(quán)的日子”…[61]s=“獲得”…[1]s=“今天是中華人民”…[6]s=“今天”[7]s=“是中華人民共和”[13]s=“是”[14]s=“中華人民共和國(guó)”[15]s=“獲得奧運(yùn)會(huì)舉辦”[20]s=“獲得”[21]s=“奧運(yùn)會(huì)舉辦權(quán)的”…按照目前基于一些語(yǔ)料的詞匯切分實(shí)驗(yàn)結(jié)果,逆向最大匹配的切分方法得到的錯(cuò)誤率是1/245,而正向最大匹配的切分方法的錯(cuò)誤率是1/169。切分中的錯(cuò)誤源于詞匯之間字符的重疊.“局長(zhǎng)的房間內(nèi)存儲(chǔ)貴重的黃金”正向最大匹配掃描得到的結(jié)果是“局長(zhǎng)的房間內(nèi)存儲(chǔ)貴重的黃金”逆向最大匹配掃描得到的結(jié)果是“局長(zhǎng)的房間內(nèi)存儲(chǔ)貴重的黃金”基于統(tǒng)計(jì)的分詞該方法利用詞匯使用中的統(tǒng)計(jì)特性進(jìn)行分詞,如字串的使用頻率、每個(gè)字在詞匯中的位置特征等。通過(guò)使用機(jī)器學(xué)習(xí)的方法學(xué)習(xí)字詞特征。該方法由3個(gè)步驟組成,分別是構(gòu)造語(yǔ)料、訓(xùn)練模型和分詞。語(yǔ)料采用BMES標(biāo)簽,構(gòu)造大量語(yǔ)料。如上,是語(yǔ)料中的兩個(gè)例子。訓(xùn)練模型訓(xùn)練模型的目的是獲得描述語(yǔ)料中的字和對(duì)應(yīng)標(biāo)簽的統(tǒng)計(jì)特征,可以是標(biāo)簽和字的組合概率、上下文的使用情況等。模型學(xué)習(xí)類(lèi)似p(人|B)、p(人|S)、p(這|B)…每個(gè)字作為BMES的概率,以及BMES序列之間的聯(lián)系等特征。相關(guān)模型:HMM、CRF、RNN等等。分詞例如,輸入句子是“上海大學(xué)學(xué)科發(fā)展得很快”,假如模型輸出的標(biāo)簽序列是BMMEBEBESBE,那么,相應(yīng)的切分結(jié)果就是“上海大學(xué)/學(xué)科/發(fā)展/得/很快”。停用詞過(guò)濾停用詞過(guò)濾停用詞在不同的文本分析任務(wù)中有著不同的定義,在基于詞的檢索系統(tǒng)中,停用詞是指出現(xiàn)頻率太高、沒(méi)有太大檢索意義的詞,如“一個(gè)、一種、因此、否則、其中”等;在文本分類(lèi)中,停用詞是指沒(méi)有意義的虛詞和類(lèi)別色彩不強(qiáng)的中性詞;在自動(dòng)問(wèn)答系統(tǒng)中,停用詞因問(wèn)題不同而動(dòng)態(tài)變化。詞形規(guī)范化詞形規(guī)范化英文單詞一般由三部分構(gòu)成:詞根、前綴和后綴,其中詞根決定單詞意思,前綴改變單詞詞義,后綴改變單詞詞性。在英文文本處理當(dāng)中,在有些應(yīng)用當(dāng)中需要對(duì)一個(gè)詞的不同形態(tài)進(jìn)行歸并,提高文本處理的效率。詞干提取是抽取詞的詞干或詞根形式,不要求一定能表達(dá)完整語(yǔ)義。例如,fishing抽取出fish,electricity抽取出electr。詞干提取的方法同樣分為:基于規(guī)則的方法、基于詞典的方法、基于統(tǒng)計(jì)的方法。Python開(kāi)源庫(kù)的使用Python開(kāi)源庫(kù)的使用“結(jié)巴”(jieba)(1)jieba.cut(sentence,cut_all=False,HMM=True)(2)加載自定義詞典(3)切分詞匯、同時(shí)進(jìn)行詞性標(biāo)注(4)命名實(shí)體識(shí)別:名詞、人名等相關(guān)例子見(jiàn)教材提綱文本預(yù)處理文本的向量空間模型文本的分布式表示文本分類(lèi)及實(shí)現(xiàn)技術(shù)文本情感分析文本表示向量空間表示文本表示成為一個(gè)向量維度可以是詞匯,也可以不是詞匯概率模型表示特征選擇目前,特征選擇的主要方法有:信息增益、卡方統(tǒng)計(jì)量、互信息以及專(zhuān)門(mén)針對(duì)文本內(nèi)容的TF-IDF等方法。這些特征選擇方法可分為有監(jiān)督和無(wú)監(jiān)督兩類(lèi),其中TF-IDF、互信息為無(wú)監(jiān)督方法,卡方統(tǒng)計(jì)量、信息增益為有監(jiān)督方法。模型表示文本的向量空間模型和線性代數(shù)中學(xué)過(guò)的向量空間模型是相同的,由基向量和坐標(biāo)構(gòu)成。以詞匯作為維度為例,在文本表示中,基向量就是特征詞匯,坐標(biāo)就是詞匯的權(quán)重。
坐標(biāo)或權(quán)重常用的計(jì)算方法有布爾權(quán)重記錄特征詞是否在文本中出現(xiàn)過(guò)TF特征項(xiàng)頻率權(quán)重(TermFrequency)TF-IDFTF-IDF(詞頻率-逆文檔頻率,TermFrequency-InverseDocumentFrequency)TF-IDF=TF*IDFIDF=log((1+N)/(1+N(ti)))+1可避免IDF=0
維度/文檔ABCw1210w2001w3010w4110w5000w6110w7101基本公式平滑公式—替換基本公式的idfLog((1+3)/(1+2))+1Log((1+3)/(1+2))+1使用Python構(gòu)建向量空間表示可以使用Python開(kāi)源庫(kù)sklearn和gensim中的相關(guān)類(lèi)或函數(shù)來(lái)構(gòu)造相應(yīng)的向量空間表示。基本步驟#裝載停用詞列表#分詞、去停用詞#特征選擇#使用TfidfVectorizer計(jì)算每個(gè)文檔中每個(gè)詞匯的TF-IDF值例子見(jiàn)教材特別強(qiáng)調(diào)的是:下面語(yǔ)句進(jìn)行特征選擇:解釋見(jiàn)教材dictionary=Dictionary(texts)dictionary.filter_extremes(no_below=2,no_above=1.0,keep_n=10)擴(kuò)展閱讀向量的重要性提綱文本預(yù)處理文本的向量空間模型文本的分布式表示文本分類(lèi)及實(shí)現(xiàn)技術(shù)文本情感分析VSM模型的維度是隨著文本集的不同而不同,這樣會(huì)導(dǎo)致大規(guī)模文本集處理的困難,因此,希望能將不同文本集的詞匯都表示為一個(gè)等長(zhǎng)向量。分布式表示(DistributedRepresentation)將長(zhǎng)短不一的句子表示為一個(gè)定長(zhǎng)向量,而向量的每個(gè)維度不再是詞匯,而是代表某種語(yǔ)義特征。具有更加豐富的語(yǔ)義。文本向量表示的技術(shù)發(fā)展SVD--LDA–word2vec--Glove–FastText—Doc2vec—Elmo—GTP—BertWord2vec之后采取的是神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的方法。Fromgenism.models.doc2vecimportDoc2Vec,TaggedDocument準(zhǔn)備訓(xùn)練語(yǔ)料,需要分詞訓(xùn)練文檔模型model.train使用模型進(jìn)行文本分析提綱文本預(yù)處理文本的向量空間模型文本的分布式表示文本分類(lèi)及實(shí)現(xiàn)技術(shù)文本情感分析分類(lèi)技術(shù)概要在分類(lèi)中涉及到的概念有:分類(lèi)器、訓(xùn)練、訓(xùn)練樣本、測(cè)試樣本等。分類(lèi)器是對(duì)數(shù)據(jù)挖掘中對(duì)樣本進(jìn)行分類(lèi)的總稱(chēng),訓(xùn)練是指對(duì)模型的參數(shù)進(jìn)行優(yōu)化,選取最優(yōu)的模型參數(shù)使得算法能夠建立具有很好泛化能力的模型。訓(xùn)練樣本是由類(lèi)別已知的樣本組成,用于模型的訓(xùn)練。測(cè)試樣本是由類(lèi)別未知的樣本組成,用于測(cè)試模型的性能。根據(jù)文本表示方法的不同,文本分類(lèi)方法總體上有兩大類(lèi)基于概率模型的分類(lèi)使用概率文本模型,如n-gram等基于向量空間模型的分類(lèi)使用文本向量表示,如VSM、Doc2vec等不管是哪類(lèi)方法,基本流程大都相似。分類(lèi)的流程基于概率模型的分類(lèi)器樸素Bayes分類(lèi)訓(xùn)練:求解以下兩組參數(shù)分類(lèi):按照極大后驗(yàn)例子假設(shè)有以下A類(lèi)、B類(lèi)共7個(gè)訓(xùn)練樣本。其中斜體的詞匯為特征詞,共8個(gè)不同的特征詞,即:元旦、旅游、假期、計(jì)劃、跑步、運(yùn)動(dòng)、身材、方法。A類(lèi)4個(gè)文本共有10個(gè)特征詞,B類(lèi)3文本有7個(gè)特征詞模型訓(xùn)練-采用unigram,加一平滑分類(lèi)X=“元旦里,跑步、運(yùn)動(dòng)不可少”P(pán)(x|A)*P(A)=0.167*0.056*0.056*4/7=0.000299,P(x|B)*P(B)=0.067*0.2*0.2*3/7=0.001149,根據(jù)最大后驗(yàn)概率判定準(zhǔn)則可見(jiàn),應(yīng)當(dāng)把該文本分為B類(lèi)。基于向量空間表示的分類(lèi)KNN分類(lèi)KNN算法的思想比較簡(jiǎn)單,即如果一個(gè)樣本(向量)在特征空間中的
個(gè)最近鄰樣本(向量)中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本(向量)也屬于這個(gè)類(lèi)別。對(duì)文本分類(lèi)而言,在給定新文本后,考慮在訓(xùn)練文本集中與該新文本距離最近的
篇文本,根據(jù)這
篇文本所屬的類(lèi)別判斷新文本所屬類(lèi)別。SVM分類(lèi)簡(jiǎn)單分類(lèi)器可以避免過(guò)擬合分類(lèi)方法常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)和復(fù)合核函數(shù)。SVM在應(yīng)對(duì)多類(lèi)情況下,常用的方法是將
類(lèi)問(wèn)題轉(zhuǎn)化為
個(gè)兩類(lèi)問(wèn)題性能評(píng)估分類(lèi)模型的性能評(píng)估真實(shí)類(lèi)別為正例真實(shí)類(lèi)別為負(fù)例算法判斷為正例ab算法判斷為負(fù)例cd查全率(召回率,Recall,簡(jiǎn)記為r)和查準(zhǔn)率(準(zhǔn)確率,Precision,簡(jiǎn)記為p),
Python實(shí)現(xiàn):新聞分類(lèi)為例具體實(shí)現(xiàn)方法,其中使用到的主要開(kāi)源函數(shù)包或函數(shù)有:gensim.corpora、sklearn.svm、sklearn.feature_extraction.text.TfidfVectorizer、sklearn.metrics.confusion_matrix、sklearn.metrics.classification_report等,用于數(shù)據(jù)集的表示、TFIDF的計(jì)算、SVM模型以及性能分析等。訓(xùn)練和分類(lèi)兩個(gè)過(guò)程見(jiàn)教材提綱文本預(yù)處理文本的向量空間模型文本的分布式表示文本分類(lèi)及實(shí)現(xiàn)技術(shù)文本情感分析情感分析也稱(chēng)為觀點(diǎn)挖掘,是互聯(lián)網(wǎng)大數(shù)據(jù)挖掘應(yīng)用中的一項(xiàng)重要技術(shù)。目標(biāo)是從文本中識(shí)別出顯性或隱性表達(dá)的褒貶情感,在社會(huì)事件、服務(wù)評(píng)論、票房預(yù)測(cè)、金融市場(chǎng)等眾多領(lǐng)域具有廣泛的應(yīng)用。情感分析分為詞匯級(jí)別、屬性級(jí)別、句子級(jí)別和篇章級(jí)別。以“手機(jī)用很久了,今天買(mǎi)了一個(gè)新的,屏幕大,分辨率高。如果過(guò)幾天覺(jué)得不好用,還可以退貨?!痹~匯級(jí)別情感分析目標(biāo)是提取文本中詞匯的情感,“很久”“新”“大”“高”“不好”都是包含情感的詞匯。屬性級(jí)別是提取文本中的描述對(duì)象及其情感,如(手機(jī),新)(屏幕,大)(分辨率,高)(手機(jī),不好用)句子級(jí)別是為整條評(píng)論文本輸出其情感,基于機(jī)器學(xué)習(xí)的方法SnowNLP是一個(gè)常用的中文文本處理庫(kù),其包含了基于Bayes的情感分類(lèi)器
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年金湖縣招教考試備考題庫(kù)含答案解析(必刷)
- 2025年旺蒼縣招教考試備考題庫(kù)含答案解析(奪冠)
- 2026年伊犁職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)帶答案解析
- 2024年紅安縣招教考試備考題庫(kù)帶答案解析(必刷)
- 2025年徐水縣招教考試備考題庫(kù)及答案解析(奪冠)
- 2025年內(nèi)蒙古警察學(xué)院馬克思主義基本原理概論期末考試模擬題附答案解析
- 2025年天津傳媒學(xué)院馬克思主義基本原理概論期末考試模擬題含答案解析(奪冠)
- 2025年石家莊農(nóng)林職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題帶答案解析(必刷)
- 2025年四川大學(xué)馬克思主義基本原理概論期末考試模擬題帶答案解析
- 2025年廣西水利電力職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)附答案解析
- 2026年中央網(wǎng)信辦直屬事業(yè)單位-國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心校園招聘?jìng)淇碱}庫(kù)參考答案詳解
- 老友記電影第十季中英文對(duì)照劇本翻譯臺(tái)詞
- 2025年黑龍江省大慶市檢察官逐級(jí)遴選筆試題目及答案
- 2025年銀行柜員年終工作總結(jié)(6篇)
- 電力工程質(zhì)量保修承諾書(shū)(5篇)
- 英語(yǔ)詞根詞綴詞匯教學(xué)全攻略
- T-GDDWA 001-2023 系統(tǒng)門(mén)窗應(yīng)用技術(shù)規(guī)程
- 液壓計(jì)算(37excel自動(dòng)計(jì)算表格)
- 機(jī)房網(wǎng)絡(luò)架構(gòu)優(yōu)化計(jì)劃
- 網(wǎng)絡(luò)工程公司信息安全管理辦法
- 消毒供應(yīng)中心風(fēng)險(xiǎn)評(píng)估與改進(jìn)措施
評(píng)論
0/150
提交評(píng)論