版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
非結(jié)構(gòu)化數(shù)據(jù)
文本挖掘
非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn)文本挖掘及其過程文本預(yù)處理文本分類文本聚類工具與應(yīng)用非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn)非結(jié)構(gòu)化數(shù)據(jù)主要指沒有預(yù)先定義好的數(shù)據(jù)模型或者不適用于關(guān)系型數(shù)據(jù)庫的信息。通常指大量的文本,但也可能含有日期、數(shù)字和事實(shí)等數(shù)據(jù)。文本是最大的也是最常見的大數(shù)據(jù)源之一。另外還有一類半結(jié)構(gòu)化數(shù)據(jù),一般用來描述不適用于數(shù)據(jù)模型一般結(jié)構(gòu)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)有時(shí)候也會(huì)含有一些能夠區(qū)分語義成分的標(biāo)簽,這些標(biāo)簽具有強(qiáng)化數(shù)據(jù)內(nèi)層次的能力。文本挖掘及其過程文本挖掘是指從大量文本數(shù)據(jù)中發(fā)現(xiàn)知識(shí),抽取隱含的、未知的、潛在有用的模式的過程。文本挖掘?qū)嶋H上是數(shù)據(jù)挖掘中的一個(gè)研究領(lǐng)域,只是數(shù)據(jù)挖掘的研究對(duì)象大多是結(jié)構(gòu)化的數(shù)據(jù),而文本挖掘的研究對(duì)象是非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息。文本挖掘主要處理過程有對(duì)大量文檔集進(jìn)行預(yù)處理、特征抽取和特征集縮減、模式發(fā)現(xiàn)、模式質(zhì)量評(píng)價(jià)、結(jié)果可視化等文本挖掘的一般過程文本預(yù)處理文本預(yù)處理的目的是改變自然語言文本中包含的各種元素,將它們從一種不規(guī)范的和隱含的結(jié)構(gòu)表示轉(zhuǎn)換為明確的結(jié)構(gòu)表示,以便計(jì)算機(jī)能夠處理和計(jì)算。文本挖掘的一項(xiàng)基本任務(wù)就是識(shí)別文本特征的一個(gè)最簡(jiǎn)單子集,用以表示特定的文本,我們把這樣的一組特征稱為文本特征。文本預(yù)處理——1.分詞字詞是文本組成的基本單位,分詞是指將語句文本分割成詞或詞組,并按照一定的規(guī)范重新組合詞序列的過程。分詞是對(duì)文本進(jìn)行計(jì)算機(jī)處理的基礎(chǔ)工作,是文本深層次分析的前提。目前的分詞方法有很多中,主要有基于詞典的分詞基于統(tǒng)計(jì)的分詞基于理解的分詞文本預(yù)處理——2.文本表示為了使文本便于計(jì)算機(jī)處理和計(jì)算,在文本預(yù)處理階段需要將文本進(jìn)行形式化處理,即文本表示。不同的文本表示模型有不同的特點(diǎn),需要根據(jù)不同文本特點(diǎn)和文本處理要求選擇合適的文本表示模型。
(1)布爾邏輯模型
(2)向量空間模型
(3)概率模型文本預(yù)處理——3.特征選擇文本是由大量特征組成的,如果將分詞后的每個(gè)特征都用來表示文本,那么模型的維數(shù)會(huì)非常的高,這將大大影響文本挖掘的效果,也會(huì)給計(jì)算機(jī)處理計(jì)算帶來困難。因此我們必須進(jìn)行文本特征選擇,即根據(jù)某種準(zhǔn)則從原始特征中選擇部分最有區(qū)分類別能力、最有效的特征,以降低特征空間維數(shù)。目前常用的文本特征選擇方法有:文檔頻率(DF)信息增益(IG)互信息(MI)χ2統(tǒng)計(jì)量(CHI)期望交叉熵(ECE)等文本分類文本分類(TextCategorization)是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過程。文本分類預(yù)處理:將原始語料格式化為統(tǒng)一格式,便于后續(xù)的統(tǒng)一處理;索引:將文檔分解為基本處理單元,同時(shí)降低后續(xù)處理的開銷;統(tǒng)計(jì):詞頻統(tǒng)計(jì),項(xiàng)(包括單詞、概念)與分類的相關(guān)概率;特征抽取:從文檔中抽取出反映文檔主題的特征;分類器:分類器的訓(xùn)練;文本分類:樸素貝葉斯算法樸素貝葉斯算法(NaiveBayesian,NB)是一種典型的概率模型算法,根據(jù)貝葉斯公式算出文本屬于某特定類別的概率?;舅悸肥羌僭O(shè)文檔中每個(gè)詞對(duì)于類別的影響是獨(dú)立的,在此前提下利用貝葉斯定理計(jì)算文本屬于類別的概率,該類別概率等于文本中每一個(gè)特征詞屬于類別的概率的綜合表達(dá)式,而每個(gè)詞屬于該類別的概率又在一定程度上可以用這個(gè)詞在該類別訓(xùn)練文本中出現(xiàn)的次數(shù)(詞頻信息)來粗略估計(jì)。文本分類:Rocchio算法Rocchio算法又稱類中心向量法,是基于向量空間模型和最小距離的算法?;舅悸肥怯煤?jiǎn)單的算術(shù)平均為每類中訓(xùn)練集(m個(gè))生成一個(gè)代表該類向量的中心向量Cj(Wi1,Wi2,…,Win),分類時(shí),將待分類文本T表示成n維向量的形式(Wj1,Wj2,…,Wjn),然后計(jì)算測(cè)試新向量與每類中心向量之間的相似度,將相似度最大的類判斷為文本所屬的類。文本分類:K最近鄰算法
K最近鄰算法(KNearestNeighbor,KNN)是一個(gè)理論上較為成熟的方法?;舅悸肥牵涸诮o出待定新文本后,計(jì)算出訓(xùn)練文本集中與待定文本距離最近(最相似)的k篇文本,依據(jù)這k篇文本所屬的類別判斷新文本所屬的類別。文本分類:K最近鄰算法具體步驟如下:(1)根據(jù)特征項(xiàng)集合對(duì)訓(xùn)練文本向量進(jìn)行表示,當(dāng)目標(biāo)文本輸入時(shí),根據(jù)特征項(xiàng)集合對(duì)目標(biāo)文本進(jìn)行分詞,確定其特征項(xiàng)向量表現(xiàn)結(jié)果;(2)在訓(xùn)練文本集中選出與目標(biāo)文本距離最近的k個(gè)文本,可以使用夾角余弦、向量?jī)?nèi)積或歐氏距離計(jì)算出k篇最相似文本;(3)在目標(biāo)文本的k個(gè)最近的鄰居中,計(jì)算每個(gè)類別的分?jǐn)?shù)。(4)比較所有類別的分?jǐn)?shù),將文本劃分到分?jǐn)?shù)最高的類別中;(5)而決策規(guī)則在于統(tǒng)計(jì)k篇訓(xùn)練樣本中屬于每一類的文本數(shù),最多文本數(shù)的類即為待分類文本的類。文本分類:其它分類算法決策樹(DecisionTree)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法?;舅悸肥墙⒁粋€(gè)樹形結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)表示特征,從節(jié)點(diǎn)引出的每個(gè)分支表示該特征上的測(cè)試輸出,而每個(gè)葉節(jié)點(diǎn)表示類別。其核心問題是選取測(cè)試屬性和決策樹的剪枝。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)是一種按照人腦的組織和活動(dòng)原理而構(gòu)造的一種數(shù)據(jù)驅(qū)動(dòng)型非線性模型。它由神經(jīng)元結(jié)構(gòu)模型、網(wǎng)絡(luò)連接模型、網(wǎng)絡(luò)學(xué)習(xí)算法等幾個(gè)要素組成,是具有某些智能功能的系統(tǒng)。支持向量機(jī)算法(SupportVectorMachine,SVM)是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。文本分類:分類性能評(píng)估分類器性能評(píng)估通常采用評(píng)估指標(biāo)來衡量,評(píng)估指標(biāo)是在測(cè)試過程中所使用的一些用來評(píng)價(jià)分類準(zhǔn)確度的量化指標(biāo)。(1)查全率是衡量所有實(shí)際屬于某個(gè)類別的文本中被分類器劃分到該類別的比率。
(2)查準(zhǔn)率是衡量所有被分類器劃分到該類別的文本中正確文本的比率。(3)Fl標(biāo)準(zhǔn)即考慮了查全率,又考慮了查準(zhǔn)率,將兩者看作同等重要。文本聚類文本聚類主要是依據(jù)假設(shè):同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,它在給定的某種相似性度量下把對(duì)象集合進(jìn)行分組,使彼此相近的對(duì)象分到同一個(gè)組內(nèi)。文本聚類方法通常先利用向量空間模型把文檔轉(zhuǎn)換成高維空間中的向量,然后對(duì)這些向量進(jìn)行聚類。由于中文文檔沒有詞的邊界,所以一般先由分詞軟件對(duì)中文文檔進(jìn)行分詞,然后再把文檔轉(zhuǎn)換成向量,通過特征抽取后形成樣本矩陣,最后再進(jìn)行聚類,文本聚類的輸出一般為文檔集合的一個(gè)劃分。文本聚類:基于劃分的方法給定一個(gè)有N個(gè)元組或紀(jì)錄的數(shù)據(jù)集,分裂法將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,K<N。而且這K個(gè)分組滿足下列條件:每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組(注意:這個(gè)要求在某些模糊聚類算法中可以放寬)。對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好。而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。文本聚類:基于劃分的方法以K-MEANS為例,文本聚類的過程為:
(1)任意選擇k個(gè)文本作為初始聚類中心;
(2)Repeat;
(3)計(jì)算輸入文本與簇之間的相似度,將文本分配到最相似的簇中;
(4)更新簇質(zhì)心向量;
(5)Until簇質(zhì)心不再發(fā)生變化。文本聚類:基于層次的方法基于層次的聚類算法將數(shù)據(jù)對(duì)象組織成一棵聚類的樹。凝聚的層次聚類,首先將每個(gè)文本對(duì)象作為一個(gè)簇,然后將這些原子簇合并為越來越大的簇,直到所有對(duì)象都在一個(gè)簇中,或者終止條件滿足。分裂的層次聚類,與凝聚的層次聚類相反,它首先將所有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到每個(gè)對(duì)象自成一簇,或者終止條件滿足。文本聚類:基于層次的方法對(duì)于給定的文檔集合D={d1,…,di,…,dn}層次凝聚法的過程如下:(1)將D中的每個(gè)文本di看作是具有單個(gè)成員的類ci={di},這些類構(gòu)成了D的一個(gè)聚類C={c1,…,ci,…,cn};(2)計(jì)算C中每對(duì)類(ci,cj)之間的相似度sim(ci,cj);(3)選取具有最大相似度的類對(duì),并將ci和cj合并為一個(gè)新的類ck,從而構(gòu)成了D的一個(gè)新的聚類C={c1,…,ci,…,cn-1};(4)重復(fù)上述步驟,直到C中剩下一個(gè)類為止。文本聚類:其它聚類算法基于密度的聚類算法認(rèn)為類別是向任意方向按相同密度擴(kuò)張的連通區(qū)域。主要需要考慮數(shù)據(jù)空間的密度,連通性與邊界區(qū)。基于網(wǎng)格的方法首先將數(shù)據(jù)空間劃分成有限個(gè)單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個(gè)的單元為對(duì)象的?;谀P偷姆椒ńo每一個(gè)聚類假定一個(gè)模型,然后去尋找一個(gè)能很好的滿足這個(gè)模型的數(shù)據(jù)集。文本聚類:聚類質(zhì)量評(píng)價(jià)文本聚類的質(zhì)量評(píng)價(jià)可以采用兩種常用的指標(biāo):純度和F值。采用的數(shù)據(jù)一般是人工分好類的文檔集合。(1)純度(2)F值工具與應(yīng)用大部分商業(yè)文本挖掘工具都對(duì)多語言、多格式的數(shù)據(jù)提供了良好的支持,且數(shù)據(jù)的前期處理功能都比較完善,支持結(jié)構(gòu)化、半結(jié)構(gòu)化和完全非結(jié)構(gòu)化數(shù)據(jù)的分析處理。在算法方面,商業(yè)文本挖掘工具較開源文本挖掘工具更為齊全。商業(yè)文本挖掘工具
IntelligentMinerforText是IBMIntelligentMiner系列中文本挖掘的部分,允許企業(yè)從文本信息中獲取有價(jià)值的客戶信息。其功能包括識(shí)別文檔語言,建立姓名、用語或其它詞匯的詞典,提取文本的涵義,將類似的文檔分組,并根據(jù)內(nèi)容將文檔歸類。
TextMiner是SAS公司開發(fā)的文本挖掘系統(tǒng)。算法齊全,360°數(shù)據(jù)視圖展示,提出SEMMA方法論,用戶界面靈活友好,但是操作復(fù)雜,分析結(jié)果難以理解,適合專業(yè)人員。商業(yè)文本挖掘工具Clementine結(jié)合商業(yè)技術(shù)可以快速建立預(yù)測(cè)性模型,其中TextMining模塊可以進(jìn)行一些基本的文本挖掘。方正智思研發(fā)推出的一個(gè)中文智能信息挖掘與知識(shí)管理的軟件開發(fā)包與服務(wù)系統(tǒng)。它提供對(duì)海量文檔、圖片、音視頻等數(shù)字化內(nèi)容進(jìn)行智能檢索、智能分析以及智能自動(dòng)處理的功能。TRS文本挖掘軟件基于統(tǒng)計(jì)原理的自動(dòng)分類和基于語義規(guī)則的規(guī)則分類、自動(dòng)過濾、政治常識(shí)校對(duì)以及標(biāo)準(zhǔn)的文本挖掘技術(shù)。開源文本挖掘工具Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。在功能方面,Weka支持噪音消除、分詞、去停用詞、詞頻分析、支持自定義詞庫、特征表示和特征提取,可以實(shí)現(xiàn)多種文本分類、文本聚類、關(guān)聯(lián)規(guī)則和回歸的算法,可訪問數(shù)據(jù)庫,并有二次開發(fā)接口。開源文本挖掘工具
Lingpipe是alias公司開發(fā)的一款自然語言處理軟件包。在功能上,包含中文分詞、拼寫檢查、詞性標(biāo)注、命名實(shí)體識(shí)別、詞頻統(tǒng)計(jì)、情感分析、語音辨別、特征表示、特征提取、奇異值分析,還可以實(shí)現(xiàn)主題分類、聚類,另外支持字符語言建模、訪問數(shù)據(jù)庫和二次開發(fā)接口。ROSTCM是武漢大學(xué)虛擬學(xué)習(xí)團(tuán)隊(duì)開發(fā)的基于內(nèi)容挖掘的人文社會(huì)科學(xué)數(shù)字化研究平臺(tái),是一組功能聯(lián)系緊密、可相互智能協(xié)作、無縫互操作的軟件及插件包,最終形成能夠依據(jù)一定范式進(jìn)行人文社科智能化學(xué)術(shù)研究的數(shù)字化研究平臺(tái)。開源文本挖掘工具R是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng)。功能包括數(shù)據(jù)存儲(chǔ)和處理、數(shù)組運(yùn)算(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大)、完整連貫的統(tǒng)計(jì)分析、優(yōu)秀的統(tǒng)計(jì)制圖,其簡(jiǎn)便而強(qiáng)大的編程語言可操縱數(shù)據(jù)的輸入和輸出,可實(shí)現(xiàn)分支、循環(huán),用戶可自定義功能。使用R里面tm包進(jìn)行文本挖掘,對(duì)于中文環(huán)境還有一些包來處理中文字符。在功能上,R語言支持中文分詞、去停用詞、詞頻統(tǒng)計(jì)等,可以實(shí)現(xiàn)多種文本分類、文本聚類、關(guān)聯(lián)規(guī)則和回歸的算法。文本挖掘的應(yīng)用文本挖掘具有廣泛的應(yīng)用前景,它不僅可以用于企業(yè)有決策需求的業(yè)務(wù)部門,而且可以用于提供綜合信息服務(wù)的網(wǎng)站。從企業(yè)角度來看,任何一個(gè)企業(yè)都不能再只關(guān)注企業(yè)內(nèi)部的情況,必然要關(guān)心競(jìng)爭(zhēng)對(duì)手、合作伙伴、市場(chǎng)變換等企業(yè)外部環(huán)境,而文本挖掘是獲取這些非結(jié)構(gòu)化或半結(jié)構(gòu)化信息的最好途徑。文本挖掘的應(yīng)用(1)在信息檢索系統(tǒng)中的應(yīng)用信息智能代理信息表現(xiàn)基于內(nèi)容的信息檢索文本挖掘的應(yīng)用(2)在主動(dòng)信息服務(wù)中的應(yīng)用主動(dòng)信息服務(wù),即當(dāng)領(lǐng)域中有新理論、新技術(shù)、新產(chǎn)品、新發(fā)展方向出現(xiàn)時(shí),主動(dòng)服務(wù)體系應(yīng)能根據(jù)用戶的需求和用戶所關(guān)心的領(lǐng)域,及時(shí)向用戶提供并主動(dòng)推送相應(yīng)的信息機(jī)構(gòu)服務(wù),從而實(shí)現(xiàn)一種個(gè)性化的主動(dòng)服務(wù)模式。文本挖掘的應(yīng)用(3)在企業(yè)競(jìng)爭(zhēng)情報(bào)中的應(yīng)用文本挖掘可以為企業(yè)收集和分析數(shù)據(jù),以識(shí)別出現(xiàn)的威脅或問題。
除此之外,文本挖掘還可應(yīng)用于文檔管理、市場(chǎng)研究、專利分析等方面,方便管理統(tǒng)計(jì),提高工作效率。小結(jié)
大數(shù)據(jù)環(huán)境下,以文本作為典型代表的非結(jié)構(gòu)化數(shù)據(jù)被
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 46975-2025嬰童用品便攜式嬰兒睡籃技術(shù)要求
- 2025年質(zhì)量管理與監(jiān)督操作手冊(cè)
- 兒童游樂場(chǎng)所安全管理規(guī)范(標(biāo)準(zhǔn)版)
- 會(huì)議風(fēng)險(xiǎn)評(píng)估與應(yīng)對(duì)措施制度
- 公共交通線路優(yōu)化調(diào)整制度
- 2026年浙江舟山群島新區(qū)六橫管理委員會(huì)招聘?jìng)淇碱}庫及參考答案詳解一套
- 中意寧波生態(tài)園控股集團(tuán)有限公司2025年第三次公開招聘?jìng)淇碱}庫及完整答案詳解一套
- 2026年某央企數(shù)據(jù)庫運(yùn)維招聘?jìng)淇碱}庫附答案詳解
- 養(yǎng)老院入住老人福利待遇保障制度
- 安全認(rèn)知培訓(xùn)課件
- 2023-2024學(xué)年北京市海淀區(qū)清華附中八年級(jí)(上)期末數(shù)學(xué)試卷(含解析)
- 臨終決策中的醫(yī)患共同決策模式
- 2025年貴州省輔警考試真題附答案解析
- 防護(hù)網(wǎng)施工專項(xiàng)方案
- 2026年及未來5年市場(chǎng)數(shù)據(jù)中國(guó)聚甲醛市場(chǎng)運(yùn)行態(tài)勢(shì)及行業(yè)發(fā)展前景預(yù)測(cè)報(bào)告
- TCFLP0030-2021國(guó)有企業(yè)網(wǎng)上商城采購(gòu)交易操作規(guī)范
- 2025廣東省佛山市南海公證處招聘公證員助理4人(公共基礎(chǔ)知識(shí))測(cè)試題附答案解析
- (支行)2025年工作總結(jié)和2026年工作計(jì)劃匯報(bào)
- 2025年秋統(tǒng)編版(新教材)初中歷史七年級(jí)第一學(xué)期期末模擬試題及答案
- 金華市軌道交通控股集團(tuán)運(yùn)營(yíng)有限公司應(yīng)屆生招聘考試真題2024
- 清淤工程分包合同范本
評(píng)論
0/150
提交評(píng)論