【畢業(yè)學(xué)位論文】(Word原稿)網(wǎng)絡(luò)資源的名字特征及其在資源組織中的應(yīng)用研究-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)博士論文_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)網(wǎng)絡(luò)資源的名字特征及其在資源組織中的應(yīng)用研究-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)博士論文_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)網(wǎng)絡(luò)資源的名字特征及其在資源組織中的應(yīng)用研究-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)博士論文_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)網(wǎng)絡(luò)資源的名字特征及其在資源組織中的應(yīng)用研究-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)博士論文_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)網(wǎng)絡(luò)資源的名字特征及其在資源組織中的應(yīng)用研究-計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)博士論文_第5頁
已閱讀5頁,還剩134頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

博士研究生學(xué)位論文 題 目 : 網(wǎng)絡(luò)資源的 名字特征及其在資源組織中的應(yīng)用研究 姓 名: d 學(xué) 號: 10308852 d 院 系: 信息科學(xué)技術(shù)學(xué)院 d 專 業(yè): 計(jì)算機(jī)系 統(tǒng) 結(jié)構(gòu) d 研究方向: 搜索引擎與 網(wǎng)絡(luò) 信息挖掘 d 導(dǎo)師姓名: 李曉明教授 d 二零零八年 五 月 On in of ( i 2008 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任 。 - i - 摘 要 本文中, 網(wǎng)絡(luò)資源指在含義上相對獨(dú)立 且完整的非網(wǎng)頁類互聯(lián)網(wǎng)信息資源,通常由一到多個(gè)文件按照一定的目錄結(jié)構(gòu)組織,常見于 務(wù)器和 統(tǒng)的節(jié)點(diǎn)中 。它們廣泛分布在互聯(lián)網(wǎng)上,是網(wǎng)絡(luò)用戶所關(guān)心的重要對象。同時(shí),這些網(wǎng)絡(luò)資源不僅數(shù)量巨大, 而且發(fā)布、傳播和共享都比較自由, 呈現(xiàn)出“混亂”和“無序”的特點(diǎn)。 廣泛收集并重新組織這類網(wǎng)絡(luò)資源,是許多應(yīng)用中的一項(xiàng) 根本 需求 。在這項(xiàng)工作中,資源名稱是最基本的依據(jù);人們一方面需要根據(jù)名稱來理解得到的資源,另一方面也要通過對資源命名來標(biāo)識資源。 本文 首先 考察各類網(wǎng)絡(luò)資源的命名狀況,研究其中蘊(yùn)含的用戶命名行為一般規(guī)律; 進(jìn)而 研究 了如何從 資源名中 切分 出 語義片段 的方法 ;并 考察了 名字信息 在 資源自動分類 中的作用,分析分類性能的影響因素等問題。注意到網(wǎng)絡(luò)上存在著許多以目錄樹的形式組織得相當(dāng)好的資源集合, 本文研究了依據(jù)目錄樹信息進(jìn)行資源整合 的效率 問題,并針對這類資源整合的任務(wù),設(shè)計(jì)了 一個(gè)可擴(kuò)展性 好 的 資源 增量存儲 與 組織方案。作為對上述研究的應(yīng)用, 實(shí)現(xiàn)了一個(gè)支持海量網(wǎng)絡(luò)資源存儲組織的庫藏系統(tǒng),并為相關(guān)領(lǐng)域的研究提供數(shù)據(jù)和系統(tǒng)平臺 。 本文主要貢獻(xiàn)包括: (1) 考察網(wǎng)絡(luò)資源命名的無序狀況,分析用戶對資源命名 行為 的一般規(guī)律 。通過考察總體與各類別的名字 長度、字符構(gòu)成、片段 頻度分布 、 文件 后綴 對資源類別的互信息 、語義種類 及位序關(guān)系 等方面,分析資源的名字無序混亂表象及所蘊(yùn)含的規(guī)律。 例如 從字符類型熵來看,資源名是用戶表達(dá)各種資源相關(guān)信息的渠道,而其中 娛樂 類 資源 名 的 字符類型熵 大于 工作學(xué)習(xí)類的資源名,這體現(xiàn)了用戶對娛樂內(nèi)容 的融入感較強(qiáng),傾向于參與修改名字來反映自己的意見和評價(jià)。 從符號的出現(xiàn)上看,用戶傾向于將多種意思通過顯式或隱式分隔信息濃縮在簡短的名字中。 這 些 是 本文 后續(xù) 名字 切分 、資源分類等工作 的 基礎(chǔ)。 (2) 基于錯(cuò)誤驅(qū)動轉(zhuǎn)換學(xué)習(xí)思想和字符類型突變分割假設(shè), 提出一種能對資源名按照語義信息切分、且不依賴于詞典的方法。 這一 研究也 適用于 其他具有 多種 文字符號混雜、 濃縮 表達(dá)多種語義類型 特點(diǎn) 的文本 環(huán)境 。 該方法優(yōu)點(diǎn)是能充分利用上下文特征學(xué)習(xí),且不要求大規(guī)模訓(xùn)練數(shù)據(jù)。 例如給 800 - 個(gè)訓(xùn)練樣本, 得到的 語義片段的切分精度 為 81%、 召回率 為 83%。 所得的切分結(jié)果有助于從混亂的原始命名狀態(tài)中獲取對資源描述有用的信息。 (3) 提出一種利用資源及其成員的名字所產(chǎn)生的特征進(jìn)行資源自動分類的方法 , 研究了 特征分布、概率估算、樣本數(shù)量等因素對 分類 性能的影響。 發(fā)現(xiàn)大量低頻特征 (例如只在一個(gè)資源中出現(xiàn)過) 對分類正確率的貢獻(xiàn) 在于幫 助合理估算 未觀測到的特征的概率; 因此也得出在低頻特征占優(yōu)、且使用 滑策略下無需進(jìn)行特征選擇的推論。 在使用所有特征情況下, 總體分類正確率可達(dá) 80%。 還應(yīng)用該方法實(shí)現(xiàn)了一個(gè)資源半自動分類工具, 在人工 給定 資源粒度條件下, 進(jìn)行 資源分類的時(shí)間是基準(zhǔn)時(shí)間的 45% (4) 針對原始 質(zhì)量較好 的 資源集合 , 提出一種利用原始組織知識的 目錄歸并 模型 整合 資源 ,刻畫 粗分類和精細(xì)檢查兩階段 工作模式并評估 模型 效率。粗分類階段 有精度 損失, 但完成任務(wù)的時(shí)間為 基準(zhǔn) 做法 的 1/2a( a 為批量處理的資源數(shù) , a1); 精細(xì)檢查 階段 在第一階段基礎(chǔ)上進(jìn)行,能保證精度無 損,且完成任務(wù)的時(shí)間約為基準(zhǔn)做法的 1/2。 (5) 持續(xù)從互聯(lián)網(wǎng)收集、并 運(yùn)用 目錄歸并 模式 高效低代價(jià)地 海量網(wǎng)絡(luò)資源庫藏系統(tǒng)。 通過分類體系和文件目錄的映射,并在服務(wù)器和磁盤兩級用 模塊化思想設(shè)計(jì) 存儲、組織功能,該系統(tǒng)能很好地應(yīng)對 增量式存儲、組織和 服務(wù)需求 。 系統(tǒng)還基于 想 從互聯(lián)網(wǎng)上為熱點(diǎn)門類的資源擴(kuò)展相關(guān) 描述 信息 。 關(guān)鍵詞:網(wǎng)絡(luò)資源, 命名分析 ,組織, 自動 分類 , 目錄歸并 - On i n to 1) by or of 2) a 3) TP 2P 4) at At It is a to In is is On of of On to of to of to on we to of in on on we a to in to a we of As to we a of is of In as 1) of By of we an on - of of as to as we or to of of of 2) a is to in is on of at of of be to of of a of of of 00 we a 1% in 3% in of 3) a of We on as on of We a of in to by to on on in in of 0%. As an of we a 5% 5% in 4) a to in in to a is by is a a is a to In - v - is (a is of in a 1). in is of of 5) a on By we of we eb on of of of - i - - 目 錄 第 1 章 緒論 . 1 究背景 . 1 究目的 . 2 難與挑戰(zhàn) . 3 究路線 . 4 絡(luò)資源的概述 . 4 源在本文中的定義 . 4 源的數(shù)據(jù)模型 . 6 絡(luò)資源的存儲組織模型 . 7 絡(luò)資源的組織及本文研究的意義 . 9 文主要工作 . 10 文主要貢獻(xiàn) . 12 文內(nèi)容結(jié)構(gòu) . 13 第 2 章 網(wǎng)絡(luò)資源名字無序特征與用戶命名行為 . 16 言 . 16 本概念 . 17 源命名混亂程度的量化評估 . 17 字長度分布規(guī)律 . 19 過名字表達(dá)資源信息的互補(bǔ)性 . 21 件名的后綴 . 23 件后綴和資源類別的關(guān)系 . 26 符構(gòu)成 . 28 字片段頻度 . 31 義片段 . 33 關(guān)研究 . 35 章小結(jié) . 36 第 3 章 網(wǎng)絡(luò)資源名字中語義片段的切分 . 37 言 . 37 義信息切分概述 . 38 級映射策略 . 38 符類型突變分割假設(shè) . 39 動切分方法相關(guān)研究 . 41 于錯(cuò)誤驅(qū)動轉(zhuǎn)換學(xué)習(xí)的自動切分 . 42 動學(xué)習(xí)的基本思想 . 42 - 分比較模型 . 44 始切分器 . 46 則模板 . 47 則學(xué)習(xí)與錯(cuò)誤驅(qū)動轉(zhuǎn)換 . 49 估指標(biāo) . 50 驗(yàn)與分析 . 51 關(guān)研究 . 53 章小結(jié) . 54 第 4 章 網(wǎng)絡(luò)資源類別自動判定 . 55 言 . 55 何找到適合的特征 . 55 生特征的屬性 . 55 本定義 . 56 練集和測試集 . 57 征頻度分布狀況分析 . 58 類方法及平滑策略 . 59 類方法的選擇 . 59 滑策略 . 61 估指標(biāo) . 63 于樸素貝葉斯的分類與影響因素 . 63 分方法、特征數(shù)量對性能的影響 . 64 同類別的精度 . 66 滑對性能的影響 . 67 于支持向量機(jī)的分類 . 68 關(guān)工作 . 71 章小結(jié) . 73 第 5 章 目錄歸并模型與組織效率比較 . 75 言 . 75 錄歸并模型 . 75 么是目錄歸并 . 75 型表述 . 76 于目錄歸并的資源組織效率評估 . 78 錄歸并模型的局限 . 78 源原始組織質(zhì)量可用性 . 79 驗(yàn) . 79 構(gòu)知識體系合并 相關(guān)工作 . 83 絡(luò)資源半自動分類工具 . 84 本思想 . 84 - 絡(luò)資源標(biāo)注 . 85 計(jì) . 86 章小結(jié) . 86 第 6 章 網(wǎng)絡(luò)資源組織相關(guān)研究 . 88 源組織方法 . 88 絡(luò)資源庫藏相關(guān)工作 . 89 . 90 . 91 . 92 . 92 章小結(jié) . 93 第 7 章 設(shè)計(jì)與實(shí)現(xiàn) . 95 言 . 95 統(tǒng)概況 . 95 統(tǒng)設(shè)計(jì) . 97 統(tǒng)結(jié)構(gòu)圖 . 97 擴(kuò)展的存儲組織方案 . 98 絡(luò)資源描述信息獲取 . 100 述 . 100 述信息獲取機(jī)制 . 101 進(jìn)查詢的方法 . 102 進(jìn)排序的方法 . 102 種基于局部聚類思想的共現(xiàn)詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論