自然語言及語音處理項目式教程 課件3.2.3-1文本分類常用算法_第1頁
自然語言及語音處理項目式教程 課件3.2.3-1文本分類常用算法_第2頁
自然語言及語音處理項目式教程 課件3.2.3-1文本分類常用算法_第3頁
自然語言及語音處理項目式教程 課件3.2.3-1文本分類常用算法_第4頁
自然語言及語音處理項目式教程 課件3.2.3-1文本分類常用算法_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

熟悉文本分類與聚類

深入文本進階處理文本挖掘簡介文本分類與聚類的步驟用戶可獲得的信息包含技術(shù)資料、商業(yè)信息、新聞報道、娛樂資訊等,可構(gòu)成一個異常龐大的具有異構(gòu)性、開放性等特性的分布式數(shù)據(jù)庫。結(jié)合人工智能研究領(lǐng)域中的NLP技術(shù),從數(shù)據(jù)挖掘中派生出了文本挖掘這個新興的數(shù)據(jù)挖掘研究領(lǐng)域。文本挖掘簡介文本挖掘概念文本分類常用算法文本聚類常用算法文本挖掘概念定義:抽取有效、新穎、有用、可理解的、散布在文本中的有價值知識,并利用相關(guān)知識更好地組織信息;從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或有用模式的過程。分類:文本信息抽取、文本分類、文本聚類、摘要抽取、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理。文本挖掘概念文本挖掘流程文本收集——文本分析——特征修剪文本挖掘概念文本挖掘技術(shù)——文本分類將帶有類別的文本集合按照每一類的文本子集合共有的特性,歸納出分類模型按照該模型將其他文檔遷移到已有類中,最終實現(xiàn)文本的自動分類可以方便用戶查找信息縮小查找文本的范圍文本挖掘概念文本挖掘技術(shù)——文本聚類文本聚類將文本集合分為若干個簇。要求同簇內(nèi)的文本相似度盡量高,而不同簇的文本相似度盡量低。例:根據(jù)用戶瀏覽信息保留與用戶瀏覽內(nèi)容相關(guān)的簇,提高瀏覽文本效率。文本挖掘概念文本挖掘技術(shù)——摘要抽取計算機能夠自動地從原始文檔中提取出能夠準確地反映該文檔中心內(nèi)容的簡單連貫的短文。生成簡短的關(guān)于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶。以便用戶決定是否要閱讀文檔的原文,節(jié)省用戶的瀏覽時間。文本分類常用算法文本分類目的:將一段文本分類到預定義的類別中。作用:對文本進行自動分類和標注。應(yīng)用:信息過濾、垃圾郵件識別、情感分析、新聞分類、媒體監(jiān)測。文本分類常用算法文本分類方法基于知識工程的分類方法:通過專家經(jīng)驗,依靠人工提取規(guī)則進行分類?;跈C器學習的分類方法:通過計算機自主學習、提取規(guī)則進行分類。樸素貝葉斯算法K近鄰算法支持向量機算法神經(jīng)網(wǎng)絡(luò)算法決策樹算法樸素貝葉斯算法樸素貝葉斯(NaiveBayes)算法是一種基于貝葉斯定理的簡單概率分類器。假設(shè):特征之間是條件獨立的。優(yōu)點:簡單、易于實現(xiàn)。缺點:當特征之間存在依賴關(guān)系的情況下導致性能下降。樸素貝葉斯算法樸素貝葉斯算法:計算每個類別的先驗概率。針對每個特征,計算每個類別下的條件概率。當有一個新的輸入樣本時,算法利用貝葉斯定理計算后驗概率。選擇具有最大后驗概率的類別作為輸入樣本的預測類別。樸素貝葉斯算法樸素貝葉斯算法示例:存在新聞分類訓練數(shù)據(jù),其中,判斷新文章“NBA電影”是體育新聞還是娛樂新聞。類別文本體育新聞籃球NBA比賽娛樂新聞電影院線上映體育新聞足球聯(lián)賽勝利娛樂新聞歌手音樂會演唱體育新聞籃球NBA電影娛樂新聞電影院線NBA樸素貝葉斯算法計算每個類別的先驗概率。使用拉普拉斯平滑計算每個特征的條件概率。樸素貝葉斯算法使用貝葉斯定理計算新文章屬于體育新聞和娛樂新聞的后驗概率。在NBA電影中,屬于體育新聞和娛樂新聞的后驗概率相等,可以根據(jù)實際需求選擇一個類別。支持向量機算法支持向量機算法核心思想:尋找一個超平面(或在高維空間中的超曲面);將不同類別的數(shù)據(jù)最大程度地分開。支持向量機算法支持向量機算法示例:判斷文章是關(guān)于科技(類別1)還是藝術(shù)(類別2)類別關(guān)鍵詞1關(guān)鍵詞2類別171類別162類別226類別238………神經(jīng)網(wǎng)絡(luò)算法神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu):神經(jīng)網(wǎng)絡(luò)算法神經(jīng)網(wǎng)絡(luò)算法步驟:對文章進行預處理,將文本轉(zhuǎn)換為詞向量表示1其初始化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和權(quán)重2將文章的詞向量作為輸入,計算每個神經(jīng)元的加權(quán)和3應(yīng)用激活函數(shù)得到輸出。輸出層的輸出是一個概率分布,表示文章屬于各個類別的概率4決策樹算法決策樹算法結(jié)構(gòu)示意:決策樹算法決策樹算法步驟:根據(jù)關(guān)鍵詞“科技”的出現(xiàn)頻率分割數(shù)據(jù)集1在子節(jié)點上根據(jù)關(guān)鍵詞“旅游”的出現(xiàn)頻率繼續(xù)分割數(shù)據(jù)集2達到的葉節(jié)點為每個子集分配類別標簽3K近鄰算法K近鄰算法核心思想對于一個新的輸入樣本,KNN會在訓練數(shù)據(jù)集中找到與其最接近的K個鄰居,根據(jù)鄰居的標簽進行投票,選擇出現(xiàn)次數(shù)最多的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論