已閱讀5頁,還剩134頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
博士研究生學位論文 題 目 : 網(wǎng)絡資源的 名字特征及其在資源組織中的應用研究 姓 名: d 學 號: d 院 系: 信息科學技術(shù)學院 d 專 業(yè): 計算機系 統(tǒng) 結(jié)構(gòu) d 研究方向: 搜索引擎與 網(wǎng)絡 信息挖掘 d 導師姓名: 教授 d 二零零八年 五 月 On in of 2008 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔法律責任 。 - i - 摘 要 本文中, 網(wǎng)絡資源指在含義上相對獨立且完整的非網(wǎng)頁類互聯(lián)網(wǎng)信息資源,通常由一到多個文件按照一定的目錄結(jié)構(gòu)組織,常見于 務器和 統(tǒng)的節(jié)點中 。它們廣泛分布在互聯(lián)網(wǎng)上,是網(wǎng)絡用戶所關(guān)心的重要對象。同時,這些網(wǎng)絡資源不僅數(shù)量巨大, 而且發(fā)布、傳播和共享都比較自由, 呈現(xiàn)出“混亂”和“無序”的特點。 廣 泛收集并重新組織這類網(wǎng)絡資源,是許多應用中的一項 根本 需求 。在這項工作中,資源名稱是最基本的依據(jù);人們一方面需要根據(jù)名稱來理解得到的資源,另一方面也要通過對資源命名來標識資源。 本文 首先 考察各類網(wǎng)絡資源的命名狀況,研究其中蘊含的用戶命名行為一般規(guī)律; 進而 研究 了如何從 資源名中 切分 出 語義片段 的方法 ;并 考察了 名字信息 在 資源自動分類 中的作用,分析分類性能的影響因素等問題。注意到網(wǎng)絡上存在著許多以目錄樹的形式組織得相當好的資源集合, 本文研究了依據(jù)目錄樹信息進行資源整合 的效率 問題,并針對這類資源整合的任務,設(shè)計了 一個可擴展 性 好 的 資源 增量存儲 與 組織方案。作為對上述研究的應用, 實現(xiàn)了一個支持海量網(wǎng)絡資源存儲組織的庫藏系統(tǒng),并為相關(guān)領(lǐng)域的研究提供數(shù)據(jù)和系統(tǒng)平臺 。 本文主要貢獻包括: (1) 考察網(wǎng)絡資源命名的無序狀況,分析用戶對資源命名 行為 的一般規(guī)律 。通過考察總體與各類別的名字長度、字符構(gòu)成、片段 頻度分布 、 文件 后綴 對資源類別的互信息 、語義種類 及位序關(guān)系 等方面,分析資源的名字無序混亂表象及所蘊含的規(guī)律。 例如 從字符類型熵來看,資源名是用戶表達各種資源相關(guān)信息的渠道,而其中 娛樂 類 資源 名 的 字符類型熵 大于 工作學習類的資源名,這體現(xiàn)了用戶對娛樂內(nèi)容 的 融入感較強,傾向于參與修改名字來反映自己的意見和評價。 從符號的出現(xiàn)上看,用戶傾向于將多種意思通過顯式或隱式分隔信息濃縮在簡短的名字中。 這 些 是 本文 后續(xù) 名字 切分 、資源分類等工作 的 基礎(chǔ)。 (2) 基于錯誤驅(qū)動轉(zhuǎn)換學習思想和字符類型突變分割假設(shè), 提出一種能對資源名按照語義信息切分、且不依賴于詞典的方法。 這一 研究也 適用于 其他具有 多種 文字符號混雜、 濃縮 表達多種語義類型 特點 的文本 環(huán)境 。 該方法優(yōu)點是能充分利用上下文特征學習,且不要求大規(guī)模訓練數(shù)據(jù)。 例如給 800 - 個訓練樣本, 得到的 語義片段的切分精度 為 81%、 召回率 為 83%。 所得的切分 結(jié)果有助于從混亂的原始命名狀態(tài)中獲取對資源描述有用的信息。 (3) 提出一種利用資源及其成員的名字所產(chǎn)生的特征進行資源自動分類的方法 , 研究了 特征分布、概率估算、樣本數(shù)量等因素對 分類 性能的影響。 發(fā)現(xiàn)大量低頻特征 (例如只在一個資源中出現(xiàn)過) 對分類正確率的貢獻在于幫 助合理估算 未觀測到的特征的概率; 因此也得出在低頻特征占優(yōu)、且使用 滑策略下無需進行特征選擇的推論。 在使用所有特征情況下, 總體分類正確率可達 80%。 還應用該方法實現(xiàn)了一個資源半自動分類工具, 在人工 給定 資源粒度條件下, 進行 資源分 類的時間是基準時間的 45% (4) 針對原始 質(zhì)量較好 的 資源集合 , 提出一種利用原始組織知識的 目錄歸并 模型 整合 資源 ,刻畫 粗分類和精細檢查兩階段 工作模式并評估 模型 效率。粗分類階段 有精度 損失, 但完成任務的時間為 基準 做法 的 1/2a( a 為批量處理的資源數(shù) , a1); 精細檢查 階段 在第一階段基礎(chǔ)上進行,能保證精度無 損,且完成任務的時間約為基準做法的 1/2。 (5) 持續(xù)從互聯(lián)網(wǎng)收集、并 運用 目錄歸并 模式 高效低代價地 海量網(wǎng)絡資源庫藏系統(tǒng)。 通過分類體系和文件目錄的映射,并在服務器和磁盤兩級用 模塊化思想設(shè)計 存儲 、組織功能,該系統(tǒng)能很好地應對 增量式存儲、組織和 服務需求 。 系統(tǒng)還基于 想 從互聯(lián)網(wǎng)上為熱點門類的資源擴展相關(guān) 描述 信息 。 關(guān)鍵詞:網(wǎng)絡資源, 命名分析 ,組織, 自動 分類 , 目錄歸并 - On i n to 1) by or of 2) a 3) TP 2P 4) at At It is a to In is is On of of On to of to of to on we to of in on on we a to in to a we of As to we a of is of In as 1) of By of we an on - of of as to as we or to of of of 2) a is to in is on of at of of be to of of a of of of 00 we a 1% in 3% in of 3) a of We on as on of We a of in to by to on on in in of 0%. As an of we a 5% 5% in 4) a to in in to a is by is a a is a to In - v - is (a is of in a 1). in is of of 5) a on By we of we eb on of of of - i - - 目 錄 第 1 章 緒論 . 1 究背景 . 1 究目的 . 2 難與挑戰(zhàn) . 3 究路線 . 4 絡資源的概述 . 4 源在本文中的定義 . 4 源的數(shù)據(jù)模型 . 6 絡資源的存儲組織模型 . 7 絡資源的組織及本文研究的意義 . 9 文主要工作 . 10 文主要貢獻 . 12 文內(nèi)容結(jié)構(gòu) . 13 第 2 章 網(wǎng)絡資源名字無序特征與用戶命名行為 . 16 言 . 16 本概念 . 17 源命名混亂程度的量化評估 . 17 字長度分布規(guī)律 . 19 過名字表達資源信息的互補性 . 21 件名的后綴 . 23 件后綴和資源類別的關(guān)系 . 26 符構(gòu)成 . 28 字片段頻度 . 31 義片段 . 33 關(guān)研究 . 35 章小結(jié) . 36 第 3 章 網(wǎng)絡資源名字中語義片段的切分 . 37 言 . 37 義信息切分概述 . 38 級映射策略 . 38 符類型突變分割假設(shè) . 39 動切分方法相關(guān)研究 . 41 于錯誤驅(qū)動轉(zhuǎn)換學習的自動切分 . 42 動學習的基本思想 . 42 - 分比較模型 . 44 始切分器 . 46 則模板 . 47 則學習與錯誤驅(qū)動轉(zhuǎn)換 . 49 估指標 . 50 驗與分析 . 51 關(guān)研究 . 53 章小結(jié) . 54 第 4 章 網(wǎng)絡資源類別自動判定 . 55 言 . 55 何找到適合的特征 . 55 生特征的屬性 . 55 本定義 . 56 練集和測試集 . 57 征頻度分布狀況分析 . 58 類方法及平滑策略 . 59 類方法的選擇 . 59 滑策略 . 61 估指標 . 63 于樸素貝葉斯的分類與影響因素 . 63 分方法、特征數(shù)量對性能的影響 . 64 同類別的精度 . 66 滑對性能的影響 . 67 于支持向量機的分類 . 68 關(guān)工作 . 71 章小結(jié) . 73 第 5 章 目錄歸并模型與組織效率比較 . 75 言 . 75 錄歸并模型 . 75 么是目錄歸并 . 75 型表述 . 76 于目錄歸并的資源組織效率評估 . 78 錄歸并模型的局限 . 78 源原始組織質(zhì)量可用性 . 79 驗 . 79 構(gòu)知識體系合并 相關(guān)工作 . 83 絡資源半自動分類工具 . 84 本思想 . 84 - 絡資源標注 . 85 計 . 86 章小結(jié) . 86 第 6 章 網(wǎng)絡資源組織相關(guān)研究 . 88 源組織方法 . 88 絡資源庫藏相關(guān)工作 . 89 . 90 . 91 . 92 . 92 章小結(jié) . 93 第 7 章 設(shè)計與實現(xiàn) . 95 言 . 95 統(tǒng)概況 . 95 統(tǒng)設(shè)計 . 97 統(tǒng)結(jié)構(gòu)圖 . 97 擴展的存儲組織方案 . 98 絡資源描述信息獲取 . 100 述 . 100 述信息獲取機制 . 101 進查詢的方法 . 102 進排序的方法 . 102 種基于局部聚類思想的共現(xiàn)詞匯算法 . 10
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學四年級(數(shù)字媒體項目管理)數(shù)字媒體項目策劃試題及答案
- 2025年高職(中藥學)中藥炮制綜合測試題及答案
- 2025年中職(紡織技術(shù)與營銷)紡織品營銷綜合測試卷及答案
- 2025年大學通信(通信報告編寫)試題及答案
- 2025年大學第二學年(服裝與服飾設(shè)計)服裝社會學綜合測試試題及答案
- 2025年大學安全工程(事故應急救援)試題及答案
- 2025年大學第三學年(機械設(shè)計制造及其自動化)機械工藝優(yōu)化試題及答案
- 2025年高職(體育教育)體育教學設(shè)計綜合測試題及答案
- 2025年中職護理(護理基礎(chǔ)常識)試題及答案
- 2026年廣西農(nóng)業(yè)職業(yè)技術(shù)大學高職單招職業(yè)適應性測試參考題庫有答案解析
- 某220千伏變電站10千伏電容器開關(guān)柜更換工程的安全措施與施工方案
- 2025水泥廠生產(chǎn)勞務承包合同
- 施工項目高效人員配置與設(shè)備管理方案
- 采血后預防淤青的按壓方式
- 光伏電站基礎(chǔ)知識500題及答案
- 深度學習:從入門到精通(微課版)全套教學課件
- 3d和值怎么算最準確范文
- 職業(yè)壓力管理學習通超星期末考試答案章節(jié)答案2024年
- (完整版)初一語文病句修改訓練大全及答案
- 工程管理前沿技術(shù)研究
- 疾病預防控制中心建設(shè)標準建標127-2009
評論
0/150
提交評論