已閱讀5頁(yè),還剩95頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
北京大學(xué)博士研究生學(xué)位論文 題目: 中文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)研究 及其在搜索引擎中的應(yīng)用 姓 名: 學(xué) 號(hào): 院 系:計(jì)算機(jī)科學(xué)技術(shù)系 專(zhuān) 業(yè):計(jì)算機(jī)軟件與理論 研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng) 導(dǎo) 師:李曉明 教授 2003 年 5 月 A on in of y I 2003 聲 明 任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者授權(quán),不得將本論文轉(zhuǎn)借他人并復(fù)印、抄錄、拍照、或以任何方式傳播。否則,引起有礙作者著作權(quán)益之問(wèn)題,將可能承擔(dān)法律責(zé)任。 北京大學(xué)學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其它個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。 學(xué)位論文作者簽名: 日期: 2003 年 6 月 8 日 摘 要 i 摘 要 為了能夠 有效地組織和分析海量的 息資源,幫助用戶(hù)迅速地 獲取其所需要的知識(shí)和信息, 人們希望能夠按照其內(nèi)容實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的自動(dòng)分類(lèi)。 迅猛發(fā)展為文檔自動(dòng)分類(lèi)技術(shù)提供了一個(gè)前所未有的實(shí)驗(yàn)環(huán)境和應(yīng)用平臺(tái),同時(shí)也帶來(lái)了新的挑戰(zhàn),需要在傳統(tǒng)的技術(shù)基礎(chǔ)之上,開(kāi)展針對(duì) 頁(yè)特性的研究工作。 本文對(duì)中文 網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)這一具有重要理論意義和廣闊應(yīng)用前景的課題進(jìn)行了研究和探索 ,主要的研究成果有 : 影響分類(lèi)器性能的關(guān)鍵因素的定量分析 針對(duì)影響分類(lèi)器性能的兩個(gè)基本指標(biāo)(分類(lèi)質(zhì)量和分類(lèi)效率)及其相互關(guān)系,本文 從系統(tǒng)的角度出發(fā),綜合地考慮了影響分類(lèi)器性能的各種關(guān)鍵因素,并且通過(guò) 定量地分析這些因素,提出了一種新的中文網(wǎng)頁(yè)分類(lèi)器的設(shè)計(jì)方案。實(shí)驗(yàn)結(jié)果表明,應(yīng)用該方案設(shè)計(jì)實(shí)現(xiàn)的中文網(wǎng)頁(yè)分類(lèi)器不僅具有較高的分類(lèi)質(zhì)量,而且同時(shí)具有較高的分類(lèi)效率,滿(mǎn)足了處理大規(guī)模中文網(wǎng)頁(yè)的要求。 中文網(wǎng)頁(yè)內(nèi)“噪音”的自動(dòng)清除 同普通文檔相比,網(wǎng)頁(yè)的設(shè)計(jì)比較隨意,通常都包含大量“噪音”,這些“噪音”影響了網(wǎng)頁(yè)分類(lèi)的質(zhì)量。為此 ,本文提出了一種自動(dòng)從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”的方法。該方法通過(guò)利用中文網(wǎng)頁(yè)的結(jié)構(gòu)信息和內(nèi)容信息,并結(jié)合中文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù),實(shí)現(xiàn)了自動(dòng)從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”。實(shí)驗(yàn)結(jié)果表明,該方法不僅可以有效地從中文網(wǎng)頁(yè)中自動(dòng)清除“噪音”,而且,還可以有效地改進(jìn)中文網(wǎng)頁(yè)分類(lèi)器的分類(lèi)質(zhì)量。 從搜索引擎日志中學(xué)習(xí)新詞 針對(duì)直接從專(zhuān)業(yè)語(yǔ)料庫(kù)中學(xué)習(xí)新詞所面臨的困難,本文提出了一種從搜索引擎日志中學(xué)習(xí)新詞的方法。同傳統(tǒng)的方法相比,該方法具有學(xué)習(xí)效率和準(zhǔn)確率高、不受領(lǐng)域的局限、實(shí)現(xiàn)簡(jiǎn)單、易于推廣等優(yōu)點(diǎn)。該方法的基本思想是, 根據(jù)用戶(hù)查詢(xún)?cè)~的長(zhǎng)度分布特性和頻度分布特性以及分詞系統(tǒng)的先驗(yàn)知識(shí),從所有漢字組合模式中盡可能地排除無(wú)效的組合模式,從而提高了學(xué)習(xí)新詞的效率和準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該方法不僅可以有效摘 要 地從搜索引擎日志中學(xué)習(xí)新詞,為新詞的自動(dòng)學(xué)習(xí)提供了一種新的思路,而且,通過(guò)不斷擴(kuò)大分詞字典的規(guī)模,還可以有效地改進(jìn)網(wǎng)頁(yè)分類(lèi)質(zhì)量。 應(yīng)用中文網(wǎng)頁(yè)的自動(dòng)分類(lèi)技術(shù),在“自動(dòng)式”搜索引擎“天網(wǎng)”系統(tǒng)中同時(shí)提供目錄導(dǎo)航服務(wù) 為了提高搜索引擎的查準(zhǔn)率,幫助用戶(hù)快速地定位其感興趣的網(wǎng)頁(yè),本文應(yīng)用中文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù),在“自動(dòng)式”搜索引擎系統(tǒng) 中實(shí)現(xiàn)了目錄導(dǎo)航服務(wù)。這種同時(shí)具有目錄導(dǎo)航功能的“自動(dòng)式”搜索引擎系統(tǒng),不僅能夠維護(hù)大規(guī)模的網(wǎng)頁(yè),而且具有較高的查準(zhǔn)率。 關(guān)鍵詞: 搜索引擎, 掘,中文網(wǎng)頁(yè)自動(dòng)分類(lèi),定量分析,噪音清除,新詞學(xué)習(xí), 目錄導(dǎo)航 o eb to it to eb by eb an an a on at eb is to eb is a in in of as of of on a eb by of of by of eb eb at of eb an to eb of eb eb eb eb at in an of as by of is to as as to of of a eb by of To in eb o of eb eb to in of eb 目 錄 v 目 錄 摘 要 . i . 錄 . v 圖表索引 . 1 章 緒論 . 1 究背景 . 1 文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)概述 . 2 檔自動(dòng)分類(lèi)算法的分類(lèi) . 2 現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的一般過(guò)程 . 4 文網(wǎng)頁(yè)自動(dòng)分類(lèi)的關(guān)鍵技術(shù) . 6 現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)面臨的主要問(wèn)題 . 15 文的主要工作 . 16 文的主要研究?jī)?nèi)容 . 16 文的創(chuàng)新之處 . 18 文的組織結(jié)構(gòu) . 19 第 2 章 影響分類(lèi)器性能的關(guān)鍵因素的定量分析 . 21 言 . 21 響分類(lèi)器性能的關(guān)鍵因素的定量分析 . 22 驗(yàn)設(shè)置 . 22 練樣本 . 22 征選取 . 27 類(lèi)算法 . 28 值策略 . 33 個(gè)中文網(wǎng)頁(yè)分類(lèi)器的設(shè)計(jì)方案 . 34 關(guān)研究 . 35 章小結(jié) . 36 第 3 章 中文網(wǎng)頁(yè)內(nèi)噪音的自動(dòng)清除 . 38 目 錄 言 . 38 音清除算法 . 39 驗(yàn)結(jié)果及其分析 . 41 驗(yàn)設(shè)置 . 41 驗(yàn)結(jié)果 . 41 關(guān)研究 . 43 章小結(jié) . 44 第 4 章 從搜索引擎日志中學(xué)習(xí)新詞 . 45 言 . 45 種從搜索引擎日志中學(xué)習(xí)新詞的方法 . 47 本思想 . 47 戶(hù)查詢(xún)?cè)~的分布特性分析 . 49 合模式的提取 . 52 選詞的篩選 . 54 法分析 . 55 驗(yàn)結(jié)果及其分析 . 56 詞學(xué)習(xí)方法質(zhì)量的測(cè)試 . 56 詞學(xué)習(xí)方法效率的測(cè)試 . 58 詞字典的規(guī)模對(duì)分類(lèi)質(zhì)量的影響 . 59 關(guān)研究 . 60 章小結(jié) . 61 第 5 章 中文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)在搜索引擎中的應(yīng)用 . 62 言 . 62 天網(wǎng)”目錄導(dǎo)航服務(wù) . 64 天網(wǎng)”目錄導(dǎo)航服務(wù)的體系結(jié)構(gòu) . 64 天網(wǎng)”目錄的運(yùn)行實(shí)例 . 65 關(guān)研究 . 67 章小結(jié) . 68 第 6 章 總結(jié)與展望 . 69 文的總結(jié) . 69 一步的研究工作 . 71 目 錄 參考文獻(xiàn) . 73 附錄 “天網(wǎng)”中文網(wǎng)頁(yè)分類(lèi)目錄( ) . 80 博士生期間錄用和提交的論文 . 87 致 謝 . 88 圖表索引 圖表索引 圖 1檔自動(dòng)分類(lèi)算法的分類(lèi) . 3 圖 1現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的一般過(guò)程 . 5 圖 1文網(wǎng)頁(yè)分類(lèi)器的工作原理圖 . 5 圖 2 一個(gè)網(wǎng)頁(yè)實(shí)例集收集和整理工具 . 24 圖 2個(gè)中文網(wǎng)頁(yè)分類(lèi)體系 . 25 圖 2隨樣本數(shù)的變化 . 26 圖 2隨樣本數(shù)的變化 . 26 圖 2比較( . 27 圖 2比較( . 28 圖 2-7 類(lèi)結(jié)果的比較 . 29 圖 2-8 k 的取值對(duì)分類(lèi)器質(zhì)量的影響( . 30 圖 2-9 k 的取值對(duì)分類(lèi)器質(zhì)量的影響( . 30 圖 2式距離法與歐式距離法對(duì) 12 個(gè)不同 類(lèi)別的分類(lèi)情況 . 31 圖 2于層次模型的 基本 比較 . 32 圖 2 值策略的比較 . 33 圖 2方案同基本 比較 . 35 圖 3個(gè)網(wǎng)頁(yè)的 代碼 圖 3棵典型的標(biāo)簽樹(shù) . 40 圖 3理前的網(wǎng)頁(yè) . 42 圖 3用 法處理后的網(wǎng)頁(yè) . 42 圖 3R 算法對(duì)中文網(wǎng)頁(yè)分類(lèi)質(zhì)量的影響 . 43 圖 4搜索引擎日志中學(xué)習(xí)新詞的一般步驟 . 48 圖 4天網(wǎng)”搜索引擎的用戶(hù)查詢(xún)?nèi)罩九e例 . 48 圖 4戶(hù)查詢(xún)?cè)~的長(zhǎng)度分布圖 . 50 圖 4戶(hù)查詢(xún)?cè)~的頻度分布圖 . 51 圖 4種從搜索引擎日志中提取漢字組合模式的算法 . 53 圖 4詞學(xué)習(xí)方法的 學(xué)全率 曲線(xiàn)圖 . 57 圖 4搜索引擎日志中自動(dòng)學(xué)習(xí)得到的新詞的舉例 . 58 圖表索引 圖 4詞學(xué)習(xí)方法的時(shí)間復(fù)雜度 . 59 圖 5天網(wǎng)”目錄的體系結(jié)構(gòu) . 65 圖 5天網(wǎng)”目錄導(dǎo)航服務(wù)系統(tǒng)的用戶(hù)查詢(xún)界面 . 66 表 1息檢索系統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn) . 13 表 2本集中類(lèi)別及實(shí)例數(shù)量的分布情況表 . 23 表 2-2 法的分類(lèi)質(zhì)量和分類(lèi)效率比較 . 28 表 2式距離與蘭式距離的比較 . 31 表 2于層次模型的 基本 比較 . 32 表 2 值策略的比較 . 33 表 2個(gè)中文網(wǎng)頁(yè)分類(lèi)器的設(shè)計(jì)方案 . 34 表 2用新方案設(shè)計(jì)的分類(lèi)器的性能 . 34 表 3用的 簽及其相應(yīng)的權(quán)重 . 39 表 4典的規(guī)模對(duì)分類(lèi)質(zhì)量的影響 . 60 第 1 章 緒 論 1 第 1 章 緒論 究背景 因特網(wǎng)的飛速發(fā)展為人們提供了一個(gè)可以跨越時(shí)間和空間的界限來(lái)共享和發(fā)布信息的平臺(tái)。作為因特網(wǎng)上最成功的應(yīng)用,萬(wàn)維網(wǎng)( 記為 短短十幾年中獲得了舉世矚目的成就,為人們的學(xué)習(xí)和生活帶來(lái)了巨大的便利。一方面,人們可以通過(guò) 獲取所需要的信息和服務(wù):通過(guò)電子商務(wù),足不出戶(hù)就能夠購(gòu)買(mǎi)到所需要的商品;通過(guò)遠(yuǎn)程教育,可以接受來(lái)自世界各地著名學(xué)府的教育或培訓(xùn);通過(guò)瀏覽新聞?wù)军c(diǎn),可以及時(shí)地了解到國(guó)內(nèi)外的新聞焦點(diǎn)。另一方面,人們還可以通過(guò) 共享和發(fā)布各種信息:企業(yè)通過(guò)創(chuàng)建主頁(yè)來(lái)展示和宣傳自己的產(chǎn)品;科研機(jī)構(gòu)通過(guò)網(wǎng)頁(yè)來(lái)交流最新的研究成果;個(gè)人用戶(hù)也通過(guò)創(chuàng)建個(gè)人主頁(yè)來(lái)結(jié)識(shí)更多的朋友,所有這些都導(dǎo)致了 網(wǎng)頁(yè)量的迅速膨脹。到 2003年 4 月, 索引擎索引的網(wǎng)頁(yè)數(shù)已經(jīng)超過(guò) 30億 根據(jù)“天網(wǎng)”搜索引擎 周利民 97在中文網(wǎng)頁(yè)的收集工作中統(tǒng)計(jì)得到的數(shù)據(jù),到 2003 年 4 月,中國(guó)擁有的網(wǎng)頁(yè)數(shù)已經(jīng)超過(guò)了一億,而且還將在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)快速地增長(zhǎng)。 擁有海量網(wǎng)頁(yè)信息的 像一本無(wú)所不包的百科全書(shū)。由于沒(méi)有“主編”,人們可以隨心所欲地向這本書(shū)提交任何信息,這樣就導(dǎo)致了這本書(shū)在內(nèi)容組織上的極端混亂。盡管它包含著極大的信息資源,但是真正有用的信息卻相對(duì)匱乏。面對(duì)規(guī)模如此龐大的信息海洋,試圖通過(guò)瀏覽 往花費(fèi)大量的精力卻所獲甚少。因此,在 戶(hù)和 息資源之間出現(xiàn)了巨大的鴻溝:一方面, 一方面,用戶(hù)卻無(wú)法有效地獲取這些信息和知識(shí)。因此,為了能夠 有效地組織和分析海量的 助 戶(hù)方便地獲取其需要的信息和知識(shí),人們希望能夠按照其內(nèi)容實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的自動(dòng)分類(lèi)。 事實(shí)上,網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)在面向主第 1 章 緒 論 2 題的搜索引擎 個(gè)性化搜索引擎 搜索引擎的目錄導(dǎo)航服務(wù) 息過(guò)濾 息的主動(dòng)推送服務(wù) 數(shù)字圖書(shū)館等領(lǐng)域得到了 廣泛地應(yīng)用, 已經(jīng)成為 息檢索領(lǐng)域中的研究熱點(diǎn)。由于本文處理的對(duì)象主要是 的中文網(wǎng)頁(yè)資源,因此本文將對(duì)中文 網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)這一具有重要理論意義和廣闊應(yīng)用前景的課題進(jìn)行研究和探索。 文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)概述 在 現(xiàn)之前,人們已研究過(guò)許多普通文檔分類(lèi)的方法,形成了各種 文檔自動(dòng)分類(lèi)( 術(shù) 隨著海量網(wǎng)頁(yè)信息的涌現(xiàn), 術(shù)的處理對(duì)象從普通文檔擴(kuò)展到網(wǎng)頁(yè)信息,自然地, 術(shù)成了實(shí)現(xiàn)網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)的基礎(chǔ)。 所謂文檔自動(dòng)分類(lèi)就 是 用 計(jì) 算 機(jī) 程 序 來(lái) 確 定 文 檔 和 預(yù) 先 定 義 類(lèi) 別 之 間 的 隸 屬 關(guān) 系 中文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)涉及到 息檢索、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。下面,本節(jié)首先將簡(jiǎn)要地回顧一下文檔自動(dòng)分類(lèi)算法的分類(lèi),接著歸納了實(shí)現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的一般過(guò)程,并根據(jù)這個(gè)一般過(guò)程來(lái)設(shè)計(jì)中文網(wǎng)頁(yè)分類(lèi)器的基本框架,隨后重點(diǎn)介紹了與本文研究工作相關(guān)的基本概念和關(guān)鍵技術(shù),最后針對(duì)中文網(wǎng)頁(yè)資源較普通文本相比所具有的特性,對(duì)實(shí)現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)過(guò)程中存在的主要問(wèn)題進(jìn)行了分析。 檔自動(dòng)分類(lèi)算法的分類(lèi) 目前,已有的主要文檔自動(dòng)分 類(lèi)算法可以分為三類(lèi): 詞匹配法。詞匹配法又可以分為簡(jiǎn)單詞匹配法和基于同義詞的詞匹配法兩種。簡(jiǎn)單詞匹配法是最簡(jiǎn)單、最直觀(guān)的文檔分類(lèi)算法,它根據(jù)文檔和類(lèi)名中共同出現(xiàn)的詞決定文檔屬于哪些類(lèi)。很顯然,這種算法的分類(lèi)規(guī)則過(guò)于簡(jiǎn)單,分類(lèi)效果也很差。基于同義詞的詞匹配法是對(duì)簡(jiǎn)單詞匹配法的改進(jìn),它先定義一張同義詞表,然后根據(jù)文檔和類(lèi)名以及類(lèi)的描述中共同出現(xiàn)的詞(含同義詞)決定文檔屬于哪些類(lèi)。這種分類(lèi)算法擴(kuò)大了詞的第 1 章 緒 論 3 匹配范圍,在性能上要優(yōu)于簡(jiǎn)單詞匹配法。不過(guò),這種算法的分類(lèi)規(guī)則仍然很機(jī)械,而且同義詞表的構(gòu)成是靜態(tài)的,對(duì)文檔 的上下文不敏感,無(wú)法正確處理文檔中其具體含義依賴(lài)于上下文的詞,分類(lèi)的準(zhǔn)確度也很低。 基于知識(shí)工程的方法?;谥R(shí)工程的文檔分類(lèi)方法,需要知識(shí)工程師手工地編制大量的推理規(guī)則,這些規(guī)則通常面向具體的領(lǐng)域,當(dāng)處理不同領(lǐng)域的分類(lèi)問(wèn)題時(shí),需要不同領(lǐng)域的專(zhuān)家制定不同的推理規(guī)則,而且分類(lèi)質(zhì)量嚴(yán)重依賴(lài)于推理規(guī)則的質(zhì)量。因此,在實(shí)際的分類(lèi)系統(tǒng)中較少使用基于知識(shí)工程的學(xué)習(xí)法。 統(tǒng)計(jì)學(xué)習(xí)法。統(tǒng)計(jì)學(xué)習(xí)法和詞匹配法在分類(lèi)機(jī)制上有著本質(zhì)的不同。它的基本思路是先收集一些與待分類(lèi)文檔同處一個(gè)領(lǐng)域的文檔作為訓(xùn)練集,并由專(zhuān)家進(jìn)行人工分 類(lèi),保證分類(lèi)的準(zhǔn)確性,然后分析這些已經(jīng)分好類(lèi)的文檔,從中挖掘關(guān)鍵詞和類(lèi)之間的聯(lián)系,最后再利用這些學(xué)到的知識(shí)對(duì)文檔分類(lèi),而不是機(jī)械地按詞進(jìn)行匹配。因此,這種方法通常忽略文檔的語(yǔ)言學(xué)結(jié)構(gòu),而用關(guān)鍵詞來(lái)表示文檔,通過(guò)有指導(dǎo)的機(jī)器學(xué)習(xí)來(lái)訓(xùn)練分類(lèi)器,最后利用訓(xùn)練過(guò)的分類(lèi)器來(lái)對(duì)待分類(lèi)的文檔進(jìn)行分類(lèi)。這種基于統(tǒng)計(jì)的經(jīng)驗(yàn)學(xué)習(xí)法由于具有較好的理論基礎(chǔ)、簡(jiǎn)單的實(shí)現(xiàn)機(jī)制、以及較好的文檔分類(lèi)質(zhì)量等優(yōu)點(diǎn),目前實(shí)用的分類(lèi)系統(tǒng)基本上都是采用這種分類(lèi)方法。 文檔自動(dòng)分類(lèi)算法詞匹配法 知識(shí)工程法統(tǒng)計(jì)學(xué)習(xí)法B 檔自動(dòng)分類(lèi)算 法的分類(lèi) 本文介紹的文檔分類(lèi)算法都屬于統(tǒng)計(jì)學(xué)習(xí)法。根據(jù)分類(lèi)結(jié)果的不同,基于統(tǒng)計(jì)學(xué)習(xí)法的分類(lèi)系統(tǒng)在整體上可以被分為兩類(lèi):獨(dú)立二元( 類(lèi)系統(tǒng)和 m 元( 類(lèi)系統(tǒng)。 所謂獨(dú)立二元 分類(lèi),就是給定一篇文檔,分類(lèi)系統(tǒng)對(duì)每一個(gè)類(lèi)都獨(dú)立地判斷這篇文檔第 1 章 緒 論 4 是否屬于該類(lèi):要么屬于,要么不屬于,而不存在其它的結(jié)果,并且在分類(lèi)過(guò)程中,不同類(lèi)別之間互不影響。所謂 m 元分類(lèi)就是 給定一篇文檔,系統(tǒng)計(jì)算這篇文檔與所有預(yù)先定義的類(lèi)的相似度,并按這篇文檔和各個(gè)候選類(lèi)的相似度排序,最后輸出候選類(lèi)列表。 文檔 分類(lèi)算法示意圖如圖 1示,本文將在第 介紹其中幾個(gè)典型的分類(lèi)算法。 現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的一般過(guò)程 在應(yīng)用基于案例的有指導(dǎo)的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的過(guò)程中有一個(gè)基本的假設(shè):文檔的內(nèi)容與其中所包含的詞之間有著必然的聯(lián)系,同一類(lèi)的文檔之間總存在多個(gè)共同的詞,而不同類(lèi)的文檔所包含的詞之間差異很大。因此,分類(lèi)器的 訓(xùn)練過(guò)程 可以看作是在已知文檔類(lèi)別的情況下,統(tǒng)計(jì)不同類(lèi)別內(nèi)的詞的分布,即在預(yù)先定義的類(lèi)別集合 C( C= , , 與詞項(xiàng)集合 T( T= , , 的冪集之間建立一種加權(quán)的映射關(guān)系,形成一種向量表示 ;相應(yīng)的,分類(lèi)器的 分類(lèi)過(guò)程 ,可以看作在 已知一篇文檔內(nèi)所包含詞的分布(用一個(gè)向量表示)情況下,和在訓(xùn)練中形成的每個(gè)類(lèi)別的向量表示進(jìn)行對(duì)比, 來(lái)確定該文檔與類(lèi)別之間的隸屬關(guān)系。 根據(jù)對(duì)文檔分類(lèi)過(guò)程實(shí)質(zhì)的分析,下面給出中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的一般過(guò)程。同普通英文文檔相比,中文網(wǎng)頁(yè)信息具有自身的特性: 中文網(wǎng)頁(yè)的內(nèi)容使用中文書(shū)寫(xiě),不像英文單詞之間存在自然的形態(tài)間隔,因此為了對(duì)中文網(wǎng)頁(yè)進(jìn)行 有效地處理,首先 需要進(jìn)行分詞處理,而且分詞的效果將顯著地影響分 類(lèi)效果。 網(wǎng)頁(yè)使用超文本設(shè)計(jì)。它包含大量的 簽和超鏈接,有可能利用這些信息來(lái)改進(jìn)分類(lèi)的質(zhì)量。比如包含在標(biāo)題 標(biāo)簽內(nèi)的內(nèi)容通常要比出現(xiàn)在網(wǎng)頁(yè)正文 標(biāo)簽內(nèi)的內(nèi)容要重要的多。在 相鄰的網(wǎng)頁(yè)通常具有相關(guān)或相同的主題,因此網(wǎng)頁(yè)之間的超鏈信息也可以給本文一些啟發(fā)。 網(wǎng)頁(yè)通常包含大量的“噪音”。同普通文本相比,網(wǎng)頁(yè)的設(shè)計(jì)比較隨意,通常包含各類(lèi)廣告,設(shè)計(jì)人員的注釋以及版權(quán)申明等無(wú)關(guān)信息。有時(shí)同一個(gè)網(wǎng)頁(yè)甚至?xí)鄠€(gè)不同的主題。在進(jìn)行分類(lèi)之前,需要自動(dòng)清第 1 章 緒 論 5 除這些“噪音”,否則這些“噪 音”會(huì)降低分類(lèi)質(zhì)量。因此,需要對(duì)中文網(wǎng)頁(yè)進(jìn)行預(yù)處理后,才能應(yīng)用相應(yīng)的文檔自動(dòng)分類(lèi)算法實(shí)現(xiàn)分類(lèi)。 結(jié)合中文網(wǎng)頁(yè)的特性,圖 1出了實(shí)現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的一般過(guò)程。其中:預(yù)處理過(guò)程主要包括中文分詞以及網(wǎng)頁(yè)內(nèi)“噪音”清除等處理;基于二元分類(lèi)算法的分類(lèi)器,可以把分類(lèi)結(jié)果直接作為待分類(lèi)網(wǎng)頁(yè)的類(lèi)別結(jié)果,而基于 m 元分類(lèi)算法的分類(lèi)器,還需要對(duì)該分類(lèi)結(jié)果進(jìn)行進(jìn)一步的篩選后,才能作為待分類(lèi)網(wǎng)頁(yè)的類(lèi)別結(jié)果。 訓(xùn)練集 預(yù)處理 分類(lèi)算法參數(shù)調(diào)整測(cè)試特征選取 分類(lèi)結(jié)果 截尾算法I n d e p e n d e n c y B i n a r y 分類(lèi) M - a r y 分類(lèi)圖 1現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的一般過(guò)程 待分類(lèi)中文網(wǎng)頁(yè)向量表示預(yù)處理訓(xùn)練集實(shí)例預(yù)處理特征選取算法分類(lèi)算法校驗(yàn)集 測(cè)試每個(gè)類(lèi)的閾值訓(xùn)練結(jié)果類(lèi)別表閾值策略候選類(lèi)列表特征項(xiàng)向量表示訓(xùn)練過(guò)程 分類(lèi)過(guò)程圖 1文網(wǎng)頁(yè)分類(lèi)器的工作原理圖 根據(jù)圖 1示的實(shí)現(xiàn)中文網(wǎng)頁(yè)分類(lèi)的一般過(guò)程,本文設(shè)計(jì)了中文網(wǎng)頁(yè)分類(lèi)器的基本框架,其工作原理如圖 1示。從總體上,分類(lèi)器的整個(gè)工作周期可以分成訓(xùn)練過(guò)程和分類(lèi)過(guò)程。在訓(xùn)練過(guò)程中,訓(xùn)練集實(shí)例經(jīng)過(guò)中文分詞和特征選取處理后被表示成向量形式。該特征向量集用來(lái)描述類(lèi)別模式,在分類(lèi)過(guò)程中使用。校驗(yàn)集是訓(xùn)練集的一部分,通過(guò)應(yīng)用相應(yīng)的閾值策略來(lái)預(yù)先確定每個(gè)類(lèi)別的截尾閾值。在分類(lèi)過(guò)程中,一個(gè)待分類(lèi)第 1 章 緒 論 6 的中文網(wǎng)頁(yè)經(jīng)過(guò)中文分詞并表示成向量后,應(yīng)用分類(lèi)算 法同訓(xùn)練過(guò)程得到的類(lèi)別模式逐一比較,得到候選類(lèi)別列表,然后同訓(xùn)練過(guò)程中得到的每個(gè)類(lèi)別的閾值相比較,保留大于閾值的類(lèi)別,并作為該網(wǎng)頁(yè)的分類(lèi)結(jié)果。 從圖 1以看出,構(gòu)建一個(gè)分類(lèi)器的關(guān)鍵因素包括:預(yù)處理、訓(xùn)練集、特征選取算法、分類(lèi)算法和閾值策略等。本文的第 2 致第 4 章將逐一定量地分析這些因素對(duì)分類(lèi)器性能的影響。 文網(wǎng)頁(yè)自動(dòng)分類(lèi)的關(guān)鍵技術(shù) 從圖 1示的中文網(wǎng)頁(yè)分類(lèi)器的工作原理圖可以看出, 為了實(shí)現(xiàn)中文網(wǎng)頁(yè)的自動(dòng)分類(lèi),通常需要關(guān)注訓(xùn)練分類(lèi)器使用的訓(xùn)練樣本集、特征選取算法、分類(lèi)算法、閾值策略、分類(lèi)系統(tǒng) 的性能評(píng)價(jià)值指標(biāo)等方面的問(wèn)題。下面將分別介紹。 訓(xùn)練樣本集 為了評(píng)價(jià)各種 文檔自動(dòng)分類(lèi) 算法的優(yōu)劣,推進(jìn)信息檢
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江蘇鹽城濱海交通控股集團(tuán)有限公司招聘擬聘用人員筆試歷年典型考點(diǎn)題庫(kù)附帶答案詳解
- 2025四川廣安交旅集團(tuán)第一批次招聘通過(guò)人員及部分招聘崗位筆試歷年??键c(diǎn)試題專(zhuān)練附帶答案詳解
- 2026年重慶工業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能筆試參考題庫(kù)帶答案解析
- 2026年泰山職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能筆試備考題庫(kù)帶答案解析
- 2026年眉山職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫(kù)附答案詳解
- 2026年湖州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能筆試備考題庫(kù)帶答案解析
- 2026年重慶工程學(xué)院?jiǎn)握新殬I(yè)技能考試模擬試題帶答案解析
- 2026年智能陽(yáng)臺(tái)燈項(xiàng)目商業(yè)計(jì)劃書(shū)
- 2026年數(shù)字音樂(lè)文旅項(xiàng)目投資計(jì)劃書(shū)
- 2026年鶴崗師范高等專(zhuān)科學(xué)校單招綜合素質(zhì)筆試模擬試題附答案詳解
- 化學(xué)反應(yīng)原理大題集訓(xùn)(含解析)-2026屆高中化學(xué)一輪復(fù)習(xí)講義
- 腹腔鏡手術(shù)應(yīng)用推廣方案與技術(shù)指南
- 北京市西城區(qū)中學(xué)課余訓(xùn)練:現(xiàn)狀洞察與發(fā)展探究
- 規(guī)劃展館改造項(xiàng)目方案(3篇)
- 玉米dh育種技術(shù)
- 頭孢曲松鈉過(guò)敏的觀(guān)察與急救
- 幼兒園后勤人員培訓(xùn)會(huì)議記錄2025
- 廣告材料供貨方案(3篇)
- 四上語(yǔ)文《快樂(lè)讀書(shū)吧》作品導(dǎo)讀《世界經(jīng)典神話(huà)與傳說(shuō)》
- 母嬰護(hù)理員職業(yè)道德課件
- 混合痔術(shù)后大出血的護(hù)理
評(píng)論
0/150
提交評(píng)論