2022《信息檢索技術(shù)》課程報告:《網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀、瓶頸及趨勢分析》3000字_第1頁
2022《信息檢索技術(shù)》課程報告:《網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀、瓶頸及趨勢分析》3000字_第2頁
2022《信息檢索技術(shù)》課程報告:《網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀、瓶頸及趨勢分析》3000字_第3頁
2022《信息檢索技術(shù)》課程報告:《網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀、瓶頸及趨勢分析》3000字_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀、瓶頸及趨勢分析摘要:目前網(wǎng)絡(luò)信息檢索技術(shù)主要有資源定位檢索技術(shù)、超鏈接搜索技術(shù)、 網(wǎng)絡(luò)搜索引擎技術(shù)及通用信息檢索技術(shù),制約網(wǎng)絡(luò)信息檢索技術(shù)開展的瓶頸是 圖像音頻視頻檢索、漢語自動切分、搜索引擎缺陷等。智能檢索技術(shù)、知識檢索 技術(shù)、多媒體檢索技術(shù)、新一代搜索引擎技術(shù)、自然語言檢索技術(shù)和基于內(nèi)容 的檢索技術(shù)是網(wǎng)絡(luò)信息檢索技術(shù)開展的核心與關(guān)鍵。關(guān)鍵詞:網(wǎng)絡(luò)信息;信息資源;信息瓶頸;信息檢索;檢索技術(shù).網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀資源定位檢索技術(shù)Internet是以TCP/IP(傳輸控制協(xié) 議/互聯(lián)網(wǎng)協(xié)議)和HTTP(超文本傳送協(xié)議) 為核心而開展起來 的。URL( Uniform Re

2、source Locator),俗稱網(wǎng)址,是描述網(wǎng)絡(luò) 信息資源的字符串一一統(tǒng)一資源定位符。它包括傳輸協(xié)議、信息資源的主機IP 地址和主機目錄及文件名的具體地址三個局部。網(wǎng)絡(luò) 數(shù)據(jù)庫、網(wǎng)上出版物、網(wǎng) 絡(luò)機構(gòu)等有固定的URL。聯(lián)機數(shù)據(jù)庫檢索中心,期刊、報紙等電子出版物圖書 館、高校、企業(yè)、政府等機構(gòu)都有唯一明確的網(wǎng)址。利用網(wǎng)絡(luò)瀏覽器(如ffi)查 找網(wǎng)址可以快捷、方便地獲得針對性極強的對口”網(wǎng)絡(luò)信息?!俺溄铀阉骷夹g(shù)Web信息以超文本鏈接方式組織,基本組織單元是信息節(jié)點而不是字符串, 信息節(jié)點之間通過鏈接 進行聯(lián)系。超鏈接是網(wǎng)頁必不可少的一個元素,同一主 題或相關(guān)的信息因超級鏈接構(gòu)成了龐大的無形的

3、跳躍式的信息網(wǎng)。超文本信息 檢索技術(shù)以超文本信息節(jié)點之間的多種鏈接關(guān)系為基礎(chǔ)根據(jù)思維聯(lián)想或查找信 息的需要通過鏈接從一個信息節(jié)點轉(zhuǎn)到另一個信息節(jié)點。超級鏈接,猶如印刷 型文獻的參考文獻,提供全面的回溯信息源。人們可以根據(jù)它順藤摸瓜在網(wǎng)上 自由地瀏覽信息,邊瀏覽點擊邊分析篩選一步一步根據(jù)鏈接跳轉(zhuǎn)查閱直至獲得 令人滿意的結(jié)果。網(wǎng)絡(luò)搜索引擎技術(shù)搜索引擎(Search Engine),也稱導(dǎo)航站點。搜索引擎技術(shù)集中表達在四個方 面:訪問、閱讀、整理Web信息的信息采集建立包含關(guān)鍵信息的索引數(shù)據(jù)庫,根 據(jù)用戶請求查找索引數(shù)據(jù)庫相關(guān)文檔的搜索軟件,以及為用戶提供可視化的查 詢輸入和結(jié)果輸出界面的用戶接口。

4、目前,實現(xiàn)網(wǎng)絡(luò)信息檢索的搜索引擎技術(shù) 可以分為兩類。通用信息檢索技術(shù),就是計算機把檢索入口詞與信息庫進行匹配并返回檢 索結(jié)果的信息查詢技術(shù)。首先根據(jù)用戶信息需求選擇恰當?shù)臋z索入口詞如題名、 著者、主 題、關(guān)鍵詞、分類號、BBN號、ISSN號等其次利用同位詞、同義 詞、 上位詞、下位詞及截詞等詞控方式控制檢索詞的專指度;然后運用布爾邏輯、位 置邏輯及截詞技術(shù)等進行檢索詞組配輔以文獻外表特征、加權(quán)檢索、規(guī)范主題 詞及二次檢索等方法進行限定檢索并返回結(jié)果。通用信息檢索技術(shù),包括截詞 技術(shù)、詞位限定檢索、字段限定檢索、范圍檢索技術(shù)、布爾查詢技術(shù)、全文檢 索技術(shù)、倒排索引檢索技術(shù)、概率推理模型和空間向量

5、模型技術(shù)等最終目的是 防止漏檢與誤檢,提高檢全率與檢準率。.網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀、瓶頸圖像音頻視頻檢索計算機技術(shù)、數(shù)字化技術(shù)、高密度存儲技術(shù)為非文本信息一一圖像、聲頻、 視頻等多媒體信息提供了廣闊的開展舞臺,圖文聲并茂的多媒體信息己逐漸成 為Web的主流信息檢索技術(shù)正在從傳統(tǒng)的線性文本檢索向超文本支持的非線性多媒體檢索開展然而圖像、聲頻、視頻的檢索技術(shù)卻還是襁褓中的嬰兒需要 特別的關(guān)心與保護。漢語自動切分語詞是信息表達的最小單位是信息檢索技術(shù)中匹配的基本元素。英語等西 方語種有空格作為分隔符,基本上不存在語詞切分問題。漢語字詞之間沒有分 隔符,而對信息資源的標引與對用戶檢索輸入的“理解”都必須

6、進行正確的語詞 切分,漢語切詞已成為全文檢索技術(shù)的瓶頸。虛假組配很多,垃圾信息不少, 誤檢率相當高無關(guān)結(jié)果較多,檢全率和檢準率難 以控制,是目前漢語切詞檢索 的通病。搜索引擎缺陷分類目錄搜索引擎采用人工干預(yù)技術(shù),信息分類不規(guī)范沒有一個統(tǒng)一的控 制詞表和參照標準分類目錄差異較大;搜索范圍較小,數(shù)據(jù)庫更新t曼查詢交叉 類目時容易遺漏如果用戶檢索請求沒有對應(yīng)的分類目錄那么無法進行查找;信息 遺漏不可避兔查全率低。關(guān)鍵詞式全文搜索引擎采用機器 人搜索技術(shù),自動標 引不完善數(shù)據(jù)庫更新愧檢索功能強,但是信息關(guān)聯(lián)難以控制且重復(fù)鏈接信息較 多,查準率低。搜索引擎互相覆蓋,輸出信息重復(fù),檢索結(jié)果太多且不一定與

7、用戶需求相關(guān)搜索引擎索引庫中全部或局部下載的網(wǎng)頁中有許多無用或暫時 信息影響了索引速度也浪費了網(wǎng)絡(luò)通信資源;站點、網(wǎng)頁的內(nèi)容經(jīng)常變化,實時 性難以保證?,F(xiàn)有搜索引擎在信息維護、信息重復(fù)、網(wǎng)絡(luò)及站點負載方面還存 在很大的缺乏,索引數(shù)據(jù)庫 往往很大檢索的查準率不高。同時,信息資源層出 不窮,無人組織控制,查全率無法得到保證。另外,搜索引擎的截詞技術(shù)、詞 位限定檢索、字段限定檢索或范圍檢索技術(shù)應(yīng)用十分有限信息檢索結(jié)果不太令 人滿意。.網(wǎng)絡(luò)信息檢索技開展趨勢智能檢索技術(shù)智能檢索技術(shù)就是采用人工智能進行信息檢索的技術(shù)。它可以模擬人腦的 思維方式,分析用戶以自然語言表達的檢索請求自動形成檢索策略進行智能、

8、 快速、高效的信息檢索。智能檢索技術(shù)主要表達在語義理解、知識管理和知識 檢索三個方面。它利用語義分析模塊自動智能分詞進行用戶請求和知識庫數(shù) 據(jù)”的語義理解,最終把知識庫中匹配的信息篩選、整序后提供給用戶。知識檢索技術(shù)信息檢索過程就是把用戶請求與索引庫匹配,尋找與請求關(guān)聯(lián)的網(wǎng)頁并返 回排序的命中信息的過程。運用截詞、詞位限定、布爾邏輯運算等技術(shù)可以控 制用戶請求與數(shù)據(jù)庫匹配的精度但是信息檢索難以防止喪失相關(guān)信息或產(chǎn)生 大量冗余信息即出現(xiàn)信息漏檢與誤檢。信息檢索效率是衡量信息檢索效果的重 要指標是檢驗信息檢索技術(shù)成熟與的否標準。知識是信息加工與序化的產(chǎn)物, 是高濃度的有序化的信息;知識檢索必然是高

9、層次的信息檢索。新一代搜索引擎技術(shù)現(xiàn)有搜索引擎漏檢、誤檢率較高,檢索效率不甚理想新一代搜索引擎技術(shù) 必須具有:信息開掘功能數(shù)據(jù)零點更新,即及時鏈接新增的信息剔除被刪除的站 點;多途徑檢索功能,用戶進行交互式檢索,控制信息輸出,獲得滿意的結(jié)果; 信息推薦功能,按信息關(guān)聯(lián)程度排序,重要而準確的信息排在前列;高檢索效率 功能,虛假信息和垃圾信息被過濾真實信息不遺漏檢準率和檢全率最正確化;智能 檢索功能,自動分析、理 解與處理檢索詞,為用戶提供所需信息;協(xié)作檢索功能, 信息檢索系統(tǒng)協(xié)同作業(yè)不同地區(qū)、專業(yè)、語種、類型的搜索引擎應(yīng)當實現(xiàn) 數(shù)據(jù) 庫有條件共享或互相滿足對方的信息檢索請求自然語言處理技術(shù)自然語

10、言是非受控語言,除語法的限制外其它束縛較少,信息標引直接從 原始信息中抽取詞組(包括新語詞),因而標引錯誤少、準確度高、時效性強。 同時,使用自然語言檢索,用戶不必考慮檢索規(guī)那么,信息檢索極其方便。但是, 自然語言的詞義模糊、詞間關(guān)系不清容易造成漏檢和誤檢難以獲得滿意的檢索 效果,必須建立系統(tǒng)內(nèi)關(guān)鍵詞詞典、類主題詞典和后控制詞表等自然語言處理 系統(tǒng)。.結(jié)論網(wǎng)絡(luò)信息檢索不受時空限制檢索速度快,檢索功能強大。智能化、知識化、 多媒體、自然語言、基于內(nèi)容等多途徑一體化網(wǎng)絡(luò)信息檢索技術(shù),為人們跨越 信息時空描繪了波瀾壯闊的藍蜀參考文獻1吳慰慈.網(wǎng)絡(luò)環(huán)境下信息存儲與檢索技術(shù)的開展J.四川圖書館學(xué)報.2003(01)2李村合.新一代中文智能搜索引擎尤里卡研究J.情報科學(xué).2003(01)3李瑞勤.MPEG-7促進多媒體信息檢索領(lǐng)域的革命J.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論