信息檢索 第01章 緒論專業(yè)課課件_第1頁
信息檢索 第01章 緒論專業(yè)課課件_第2頁
信息檢索 第01章 緒論專業(yè)課課件_第3頁
信息檢索 第01章 緒論專業(yè)課課件_第4頁
信息檢索 第01章 緒論專業(yè)課課件_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索

第01章緒論軟件學(xué)院教研室陳鄞課程考核隨堂考核:20%大作業(yè):30%試卷:50%隨堂考核(20%)課堂回答問題課堂討論形式小組討論過程每個(gè)學(xué)生簡(jiǎn)要發(fā)表一下自己的觀點(diǎn)組內(nèi)展開較深入的討論整理形成組內(nèi)觀點(diǎn),由一位組員代表發(fā)言(輪流發(fā)言)成績(jī)?cè)u(píng)定其他組成員可以進(jìn)行提問和評(píng)論(提問和進(jìn)行評(píng)論在考核個(gè)人成績(jī)時(shí)是加分的因素)發(fā)言提綱需交給教師,作為考核的重要依據(jù)提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結(jié)構(gòu)1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢(shì)1.6信息檢索的當(dāng)前研究熱點(diǎn)1.1什么是信息檢索TheWebWebspiderIndexerIndexesSearchUser在IR中,“相關(guān)性”是一個(gè)關(guān)鍵性的基礎(chǔ)概念信息檢索(InformationRetrieval,IR)廣義:“信息存儲(chǔ)與檢索”將信息按一定的方式組織和存儲(chǔ)起來,并根據(jù)用戶需求從信息集合中找出相關(guān)信息的過程和技術(shù)狹義:“信息查找”或“信息搜索”信息檢索的本質(zhì)是排序問題信息檢索系統(tǒng)vs.數(shù)據(jù)庫(kù)系統(tǒng)信息檢索系統(tǒng)與傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)有什么不同?處理的對(duì)象不同數(shù)據(jù)庫(kù)處理的是結(jié)構(gòu)化的數(shù)據(jù)信息檢索處理的是非結(jié)構(gòu)化的信息查詢結(jié)果的準(zhǔn)確性不同數(shù)據(jù)庫(kù)查詢的結(jié)果一定是準(zhǔn)確的;信息檢索的結(jié)果不一定是準(zhǔn)確的提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結(jié)構(gòu)1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢(shì)1.6信息檢索的當(dāng)前研究熱點(diǎn)1.2信息檢索的發(fā)展歷史19世紀(jì)下半葉:開始發(fā)展過去,信息檢索一直被人們稱為“情報(bào)檢索”,這一術(shù)語產(chǎn)生于圖書情報(bào)領(lǐng)域。檢索的主要目的是為了獲取有價(jià)值的情報(bào)或?qū)茖W(xué)研究有幫助的資料1.2信息檢索的發(fā)展歷史19世紀(jì)下半葉:開始發(fā)展20世紀(jì)中期以前:手工式檢索檢索工具:書本或卡片式的索引和目錄檢索方式:手翻、眼看、大腦判斷缺點(diǎn):檢索者負(fù)擔(dān)沉重、效率低、容易漏檢1.2信息檢索的發(fā)展歷史19世紀(jì)下半葉:開始發(fā)展20世紀(jì)中期以前:手工式檢索20世紀(jì)中期:機(jī)械式檢索檢索工具:穿孔卡片優(yōu)點(diǎn):不需人工判斷、卡片不需排序缺點(diǎn):難以適應(yīng)巨大規(guī)模信息庫(kù)的要求1.2信息檢索的發(fā)展歷史19世紀(jì)下半葉:開始發(fā)展20世紀(jì)中期以前:手工式檢索20世紀(jì)中期:機(jī)械式檢索20世紀(jì)60年代:脫機(jī)批量檢索1954年,美國(guó)海軍軍械試驗(yàn)站圖書館利用IBM-701計(jì)算機(jī)建立了世界上第一個(gè)信息檢索系統(tǒng),用于情報(bào)服務(wù)。1959年,H.P.Luhn(盧恩)利用IBM-650對(duì)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,實(shí)現(xiàn)定題情報(bào)檢索服務(wù)1.2信息檢索的發(fā)展歷史19世紀(jì)下半葉:開始發(fā)展20世紀(jì)中期以前:手工式檢索20世紀(jì)中期:機(jī)械式檢索20世紀(jì)60年代:脫機(jī)批量檢索20世紀(jì)70年代到80年代:聯(lián)機(jī)檢索利用通信線路將設(shè)在各處的終端與計(jì)算機(jī)檢索系統(tǒng)連接以提供情報(bào)檢索服務(wù)的系統(tǒng)ORBIT(On-LineRetrievalofBibliographicInfomation-Timeshared)MEDLINE(美國(guó)國(guó)家醫(yī)學(xué)圖書館)DIALOG國(guó)際聯(lián)機(jī)情報(bào)檢索系統(tǒng)(美國(guó)洛克希德公司)ESA-IRS(歐洲空間組織情報(bào)檢索中心)1.2信息檢索的發(fā)展歷史19世紀(jì)下半葉:開始發(fā)展20世紀(jì)中期以前:手工式檢索20世紀(jì)中期:機(jī)械式檢索20世紀(jì)60年代:脫機(jī)批量檢索20世紀(jì)70年代到80年代:聯(lián)機(jī)檢索20世紀(jì)90年代以后:Web信息檢索互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)終端,通過特定的網(wǎng)絡(luò)搜索工具或是通過瀏覽的方式,查找并獲取信息的行為計(jì)算機(jī)檢索Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網(wǎng)絡(luò)剛剛誕生的時(shí)候Archie,加拿大麥吉爾大學(xué)(UniversityofMcGill),1990定期搜集并分析FTP服務(wù)器中的文件名信息,然后在本地建立索引用戶通過交互界面輸入查詢?cè)~,系統(tǒng)自動(dòng)在索引中查找相關(guān)的文件名和所在的FTP服務(wù)器的地址,并將查詢結(jié)果返回給用戶雖然Archie搜集的信息資源不是網(wǎng)頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動(dòng)搜集信息資源、建立索引、提供檢索服務(wù)。所以,Archie被公認(rèn)為現(xiàn)代搜索引擎的鼻祖Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網(wǎng)絡(luò)剛剛誕生的時(shí)候目錄式信息服務(wù)網(wǎng)站——互聯(lián)網(wǎng)發(fā)展初期1994年,Stanford大學(xué)博士生DavidFilo和楊致遠(yuǎn)(JerryYang)創(chuàng)建的雅虎“Yahoo!”網(wǎng)站W(wǎng)eb檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網(wǎng)絡(luò)剛剛誕生的時(shí)候目錄式信息服務(wù)網(wǎng)站——互聯(lián)網(wǎng)發(fā)展初期1994年,Stanford大學(xué)博士生DavidFilo和楊致遠(yuǎn)(JerryYang)創(chuàng)建的雅虎“Yahoo!”網(wǎng)站1996年,中國(guó),搜狐Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網(wǎng)絡(luò)剛剛誕生的時(shí)候目錄式信息服務(wù)網(wǎng)站——互聯(lián)網(wǎng)發(fā)展初期現(xiàn)代網(wǎng)絡(luò)搜索引擎集中式搜索引擎——早期整個(gè)搜索引擎系統(tǒng)的所有子系統(tǒng)都運(yùn)行在同一臺(tái)服務(wù)器上實(shí)現(xiàn)簡(jiǎn)單,占用資源比較少,投入資金少海量數(shù)據(jù)的處理能力比較弱,支持同時(shí)訪問的用戶數(shù)量比較少升級(jí)系統(tǒng)硬件,使用大型機(jī)和并行機(jī)提高處理能力擴(kuò)展性有限,性價(jià)比也不高Web檢索的歷史與發(fā)展FTP文件檢索系統(tǒng)——網(wǎng)絡(luò)剛剛誕生的時(shí)候目錄式信息服務(wù)網(wǎng)站——互聯(lián)網(wǎng)發(fā)展初期現(xiàn)代網(wǎng)絡(luò)搜索引擎集中式搜索引擎——早期分布式搜索引擎——現(xiàn)在用網(wǎng)絡(luò)連接多臺(tái)微機(jī)組成一個(gè)分布式的機(jī)群系統(tǒng)提供的分布式網(wǎng)絡(luò)服務(wù)一些著名的搜索引擎Excite,1993年6個(gè)斯坦福大學(xué)學(xué)生開發(fā)WebCrawler,1994年華盛頓大學(xué)學(xué)生BrianPinkerton創(chuàng)建WebCrawler是互聯(lián)網(wǎng)上第一個(gè)支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評(píng)論或程序自動(dòng)取正文的前100個(gè)字Lycos,1994年卡內(nèi)基·梅隆大學(xué)MichaelMauldin創(chuàng)建Lycos(CarnegieMellonUniversity)是搜索引擎史上又一個(gè)重要的進(jìn)步。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個(gè)在搜索結(jié)果中使用了網(wǎng)頁自動(dòng)摘要,而最大的優(yōu)勢(shì)還是它遠(yuǎn)勝過其它搜索引擎的數(shù)據(jù)量。“Lycos”是Lycosidae(一種很善于捕捉獵物的狼蛛)的縮寫。

Infoseek,1994年允許站長(zhǎng)提交網(wǎng)址AltaVista,1995年AltaVista是第一個(gè)支持自然語言搜索的搜索引擎,第一個(gè)實(shí)現(xiàn)高級(jí)搜索語法的搜索引擎(如AND,OR,NOT等)Google,1998年斯坦福大學(xué)博士生LarryPage等主要的進(jìn)步在于應(yīng)用鏈接分析根據(jù)權(quán)威性對(duì)部分結(jié)果排序

北大天網(wǎng),1997年北大天網(wǎng)是國(guó)家“九五”重點(diǎn)科技攻關(guān)項(xiàng)目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果,由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在CERNET(中國(guó)教育和科研計(jì)算機(jī)網(wǎng))上提供服務(wù)百度,2000年前Infoseek資深工程師李彥宏創(chuàng)建搜狗,2004年2004年8月3日,搜狐公司推出中文搜索引擎LiveSearch,2006年2006年9月,微軟公司正式推出了擁有自主研發(fā)技術(shù)的LiveSearch,宣布進(jìn)軍搜索引擎市場(chǎng),挑戰(zhàn)Google在網(wǎng)絡(luò)搜索領(lǐng)域的霸主地位有道,2006年2006年12月,網(wǎng)易公司推出中文搜索引擎MicrosoftAcademicSearch,2009年2009年11月,微軟學(xué)術(shù)搜索MicrosoftAcademicSearchbeta版啟用,該搜索引擎目前主要提供計(jì)算機(jī)學(xué)科及相關(guān)領(lǐng)域的學(xué)術(shù)論文、作者、會(huì)議和學(xué)術(shù)期刊提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結(jié)構(gòu)1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢(shì)1.6信息檢索的當(dāng)前研究熱點(diǎn)文本數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)管理建索引索引查詢處理搜索排序排序后的文檔用戶反饋文本處理用戶界面匹配的文檔用戶需求文本提問邏輯視圖倒排文檔詞條化Stemming(詞干提?。┟麑?shí)體識(shí)別信息標(biāo)引為文檔建立倒排索引表根據(jù)倒排索引表檢索出與提問相關(guān)的文檔將檢索出的文檔根據(jù)相關(guān)性排序?qū)uery進(jìn)行變換,以改進(jìn)檢索結(jié)果1.3

信息檢索系統(tǒng)的體系結(jié)構(gòu)將用戶輸入的Query提交給系統(tǒng)將返回的文檔輸出給用戶結(jié)果的可視化表示相關(guān)反饋提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結(jié)構(gòu)1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢(shì)1.6信息檢索的當(dāng)前研究熱點(diǎn)1.4信息檢索的現(xiàn)狀搜索結(jié)果重復(fù)率高,搜索到的網(wǎng)頁打不開等令人煩惱個(gè)性化內(nèi)容少,結(jié)果雷同也是不可以忍受的專業(yè)搜索功能差信息更新速度慢73.3%54.1%48.3%49.1%多媒體搜索功能弱30.1%搜索引擎用戶的抱怨不準(zhǔn)、不全、不簡(jiǎn)潔、……提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結(jié)構(gòu)1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢(shì)1.6信息檢索的當(dāng)前研究熱點(diǎn)1.5信息檢索的發(fā)展趨勢(shì)智能化個(gè)性化移動(dòng)化商務(wù)化垂直化社區(qū)化多媒體化1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)oror“蘋果”:

“病毒”:NLP中的詞義消歧(WSD)技術(shù)用戶檢索上下文分析1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果利用分詞詞典改善檢索效果1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果利用同義詞典改善檢索效果“計(jì)算機(jī)”?“電腦”“China”?“PRC”“嗓子”?“咽喉”?“喉嚨”“互聯(lián)網(wǎng)”?“萬維網(wǎng)”?“因特網(wǎng)”… 1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示

藝術(shù)電影舞蹈繪畫…故事片紀(jì)錄片文藝片…1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示例如,對(duì)于用戶輸入的查詢“計(jì)算機(jī)”,可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示推測(cè)用戶的搜索意圖,給予智能提示當(dāng)輸入城市名的時(shí)候,很可能要找:當(dāng)?shù)氐木频?、地圖、名勝等;當(dāng)輸入電影名時(shí),很可能要找:影評(píng)、主要演員、在線觀看的地址;當(dāng)輸入手機(jī)型號(hào)時(shí),很可能要找:評(píng)測(cè)對(duì)比、性能等;當(dāng)輸入某些癥狀時(shí),很可能找的是疑似病的特征、原因、治愈方法、專家醫(yī)院等等。1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示檢索結(jié)果聚類,使用可視化技術(shù)顯示分類結(jié)構(gòu)1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示檢索結(jié)果聚類,使用可視化技術(shù)顯示分類結(jié)構(gòu)1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示檢索結(jié)果聚類,使用可視化技術(shù)顯示分類結(jié)構(gòu)1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示檢索結(jié)果聚類,使用可視化技術(shù)顯示分類結(jié)構(gòu)1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示檢索結(jié)果聚類,使用可視化技術(shù)顯示分類結(jié)構(gòu)1.5.1智能化信息檢索傳統(tǒng)的IR系統(tǒng)主要采用基于關(guān)鍵詞匹配的信息檢索技術(shù),往往存在查不全、查不準(zhǔn)、不夠簡(jiǎn)潔、檢索質(zhì)量不高等現(xiàn)象解決方案從自然語言處理技術(shù)入手,進(jìn)行更加深入的內(nèi)容理解詞匯層面考慮詞匯的意義(meaning)、考慮詞匯的順序(order)利用分詞詞典、同義詞典,同音詞典改善檢索效果知識(shí)層面(概念層面)通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),進(jìn)行輔助查詢,給予用戶智能知識(shí)提示檢索結(jié)果聚類,使用可視化技術(shù)顯示分類結(jié)構(gòu)引入直接或間接的相關(guān)反饋機(jī)制,更準(zhǔn)確地理解用戶的需求相關(guān)反饋機(jī)制Imagesearchengine/imsearch/imsearch.htmlResultsforInitialQueryRelevanceFeedbackResultsafterRelevanceFeedback問答系統(tǒng)允許用戶以自然語言方式詢問,系統(tǒng)從單語或多語文檔集中查找并返回確切答案或者蘊(yùn)含答案文本片斷世界上最大的宮殿是什么宮殿?紫禁城/故宮誰發(fā)現(xiàn)了北美洲?茉莉花每年能開花幾次?黃山在哪個(gè)???中國(guó)人口有多少?參加希臘奧運(yùn)會(huì)的國(guó)家都有哪些?……容錯(cuò)式檢索通配符查詢實(shí)用場(chǎng)景用戶對(duì)查詢的拼寫不太確定例:“Sydney”or“Sidney”→“S*dney”用戶想查找某個(gè)查詢?cè)~的所有變形例:“automat*”→automatic

automation

automated容錯(cuò)式檢索通配符查詢拼寫校正1.5.2個(gè)性化信息檢索文檔……傳統(tǒng)搜索引擎GRE紅寶書毛主席語錄考研紅寶書個(gè)性化搜索引擎信息過濾計(jì)算機(jī)根據(jù)用戶提供的一個(gè)過濾需求(UserProfile),從動(dòng)態(tài)變化的信息流(比如Web)中自動(dòng)檢索出滿足用戶個(gè)性化需求的信息選擇有用的信息推送(例如新聞定制)濾除無用的(有害的)信息過濾計(jì)算機(jī)根據(jù)用戶提供的一個(gè)過濾需求(UserProfile),從動(dòng)態(tài)變化的信息流(比如Web)中自動(dòng)檢索出滿足用戶個(gè)性化需求的信息選擇有用的信息推送(例如新聞定制)濾除無用的(有害的)信息過濾計(jì)算機(jī)根據(jù)用戶提供的一個(gè)過濾需求(UserProfile),從動(dòng)態(tài)變化的信息流(比如Web)中自動(dòng)檢索出滿足用戶個(gè)性化需求的信息選擇有用的信息推送(例如新聞定制)濾除無用的(有害的)垃圾郵件過濾反動(dòng)言論、色情內(nèi)容信息過濾vs.信息檢索信息過濾與信息檢索有許多共同的特征,Belkin和Croft認(rèn)為信息過濾是一種特殊的信息檢索,因?yàn)樗鼈兊哪康亩际撬阉飨嚓P(guān)的信息但是,二者還是有一些區(qū)別信息檢索信息過濾用戶需求描述“Query”“UserProfile”用戶需求動(dòng)態(tài)靜態(tài)信息資源靜態(tài)動(dòng)態(tài)需要了解用戶的情況否是信息過濾的重要意義克服重復(fù)查詢改變信息獲取方式,“信息找人”節(jié)省網(wǎng)絡(luò)資源、提高網(wǎng)絡(luò)傳輸效率提高信息安全提高獲取信息的效率1.5.3移動(dòng)化1.5.4商務(wù)化1.5.5垂直化1.5.6社區(qū)化“社區(qū)化搜索”幫助用戶獲得其他用戶所保存的同主題相關(guān)內(nèi)容,使得用戶既是搜索內(nèi)容的使用者,又是搜索內(nèi)容的創(chuàng)造者百度貼吧新浪愛問雅虎“知識(shí)堂”…1.5.7多媒體化基于內(nèi)容的多媒體檢索視頻圖像音頻語音音樂…基于內(nèi)容的圖像查詢

基于內(nèi)容的圖像查詢:顏色、紋理、形狀、空間結(jié)構(gòu)等圖像數(shù)據(jù)庫(kù)/互聯(lián)網(wǎng)用戶的提問查詢搜索引擎基于文本的圖像查詢提綱1.1什么是信息檢索1.2信息檢索的發(fā)展歷史1.3信息檢索系統(tǒng)的體系結(jié)構(gòu)1.4信息檢索的現(xiàn)狀1.5信息檢索的發(fā)展趨勢(shì)1.6信息檢索的當(dāng)前研究熱點(diǎn)1.6信息檢索的當(dāng)前研究熱點(diǎn)信息抽取信息過濾文本數(shù)據(jù)挖掘問答系統(tǒng)異構(gòu)信息檢索分布式信息檢索1.6.1信息抽取信息抽?。↖nformationExtraction:IE)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式從網(wǎng)頁中提取有用的信息

根據(jù)郵件內(nèi)容自動(dòng)生成日程表(Calendar)Subject:curriculummeetingDate:January15,2012To:DanJurafskyHiDan,we’venowscheduledthecurriculummeeting.ItwillbeinGates159tomorrowfrom10:00-11:30.-ChrisCreatenewCalendarentryEvent:CurriculummtgDate:Jan-16-2012Start:10:00amEnd:11:30amWhere:Gates1591.6.2文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘(TextMining)是指從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù)話題檢測(cè)與跟蹤對(duì)新聞媒體等信息源進(jìn)行新話題的自動(dòng)識(shí)別和已知話題的持續(xù)跟蹤應(yīng)用領(lǐng)域信息安全金融證券市場(chǎng)分析行業(yè)調(diào)研…1.6.2文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘(TextMining)是指從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù)話題檢測(cè)與跟蹤微博數(shù)據(jù)挖掘非常事件的檢測(cè)興趣、偏好建模觀點(diǎn)挖掘(情感分析)①基于微博的區(qū)域性非常事件檢測(cè)

②基于微博的興趣、偏好建模SCIR微博飲食地圖不同地區(qū)的飲食習(xí)慣上海重慶湖北黑龍江不同性別的飲食習(xí)慣女性男性不同時(shí)間段的飲食習(xí)慣早上中午晚上交叉分析北京人晚上喜歡吃的食品廣東男性的飲食習(xí)慣消費(fèi)行為分析閱讀習(xí)慣分析……③觀點(diǎn)挖掘(情感分析)情感分析(Sentimentanalysis)又稱傾向性分析,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程從電影評(píng)論中識(shí)別用戶對(duì)電影的褒貶評(píng)價(jià)太令人失望了充滿滑稽的人物、幽默的諷刺和曲折的情節(jié)有史以來最偉大的喜劇影片太可悲了。最糟糕的是拳擊場(chǎng)面商業(yè)領(lǐng)域的情感分析niceandcompacttocarry!sincethecameraissmallandlight,Iwon'tneedtocarryaroundthoseheavy,bulkyprofessionalcameraseither!thecamerafeelsflimsy,isplasticandverylightinweightyouhavetobeverydelicateinthehandlingofthiscameraSizeandweightAttributes:zoomaffordabilitysizeandweightflasheaseofuse???TwitterSentimentAppTwitter情感分析與傳統(tǒng)的民調(diào)、投票等方法結(jié)果有高度的一致性預(yù)測(cè)股票走勢(shì)、電影票房、選舉結(jié)果等1.6.3異構(gòu)信息檢索異構(gòu)信息檢索發(fā)展的基點(diǎn)檢索和整合不同來源和結(jié)構(gòu)的信息涉及內(nèi)容支持各種格式化文件的檢索TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等支持多語種的信息檢索支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理和關(guān)系數(shù)據(jù)庫(kù)檢索的無縫集成以及其他開放檢索接口的集成1.6.4分布式信息檢索IR系統(tǒng)面臨的效率方面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論