版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
北京郵電大學(xué)模式識別實驗室信息抽取與信息檢索
徐蔚然信息時代的機遇和挑戰(zhàn)信息檢索信息抽取機器學(xué)習(xí)主要內(nèi)容信息時代的機遇和挑戰(zhàn)信息檢索信息抽取機器學(xué)習(xí)主要內(nèi)容信息技術(shù)革命(第三次技術(shù)革命)250年前,發(fā)明蒸汽機工業(yè)革命100年前,電磁場理論,發(fā)現(xiàn)電子電氣革命50年前,發(fā)明計算機,信息數(shù)字化信息革命信息時代的機遇和挑戰(zhàn)4-1
我們生活在大變革的時代生活方式的改變送別、信件、娛樂學(xué)習(xí)方法的改變圖書館、互聯(lián)網(wǎng)、MOOC工作方式的改變信息行業(yè)、SOHO社會的改變經(jīng)濟全球化信息時代的機遇和挑戰(zhàn)4-2
信息時代改變了我們給我們帶來革命的基盤技術(shù)是什么?IBM PC機硬件微軟
軟件Netscape 瀏覽器Yahoo 門戶網(wǎng)站Google/百度
搜索引擎Twitter/新浪微博
微博
Facebook /騰訊
社交網(wǎng)絡(luò)服務(wù)網(wǎng)站……信息時代的機遇和挑戰(zhàn)4-3
信息時代的機遇信息技術(shù)內(nèi)容處理技術(shù)文本信息處理技術(shù)未來技術(shù)的暢想:新的Google/百度是什么樣?白手起家到身價千億集中在IT行業(yè)從硬件到軟件從信息到內(nèi)容從內(nèi)容的傳輸?shù)絻?nèi)容的處理傳輸技術(shù)/網(wǎng)絡(luò)技術(shù)的發(fā)展和成熟內(nèi)容處理的挑戰(zhàn)最有代表性的內(nèi)容處理問題:語言文字語言文字專門用來傳遞信息和承載知識與人類的智能密不可分大數(shù)據(jù)時代的技術(shù)瓶頸互聯(lián)網(wǎng)有我們需要的海量
信息和知識,但是我們找
不到它們。信息時代的機遇和挑戰(zhàn)4-4
文本信息處理技術(shù)信息時代的機遇和挑戰(zhàn)信息檢索信息抽取機器學(xué)習(xí)主要內(nèi)容什么是信息檢索信息檢索的方法:怎樣構(gòu)建自己的Google或百度搜索引擎中科院研究生院2011年度秋季課程10中科院研究生院2011年度秋季課程11中科院研究生院2011年度秋季課程12四個應(yīng)用例子的共同特征給定需求(或者是對象),從信息庫中找出最匹配的信息(或?qū)ο?信息檢索:什么是信息檢索查詢請求信息庫返回結(jié)果傳統(tǒng)圖書檢索系統(tǒng)書名=“現(xiàn)代信息檢索”收錄圖書數(shù)據(jù)庫數(shù)目列表谷歌搜索引擎“現(xiàn)代信息檢索”互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)庫網(wǎng)頁列表卓越-亞馬遜(淘寶)“天王表LS3522S(黑色)”商品數(shù)據(jù)庫商品列表世紀佳緣網(wǎng)“白富美”交友數(shù)據(jù)庫人員列表信息檢索是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。信息檢索:什么是信息檢索14索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索fromJian-YunNie信息檢索系統(tǒng)給定:索引數(shù)據(jù)集合+用戶查詢請求查找:相關(guān)的數(shù)據(jù)列表信息檢索:什么是信息檢索15索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索fromJian-YunNie谷歌或百度的原理?構(gòu)建自己的全文搜索引擎信息檢索:什么是信息檢索16索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索Web爬取索引Nutch/about.html
Java開源Web爬蟲和搜索引擎谷歌或百度的原理?構(gòu)建自己的全文搜索引擎信息檢索:信息檢索中的關(guān)鍵問題和方法文檔數(shù)據(jù)集查詢結(jié)果列表內(nèi)容表示內(nèi)容表示查詢表示文檔表示相似度計算數(shù)據(jù)索引SlideisfromJimmyLin’stutorial爬取Crawling內(nèi)容表示Representation數(shù)據(jù)索引Indexing相似度計算Retrieval系統(tǒng)評價Evaluation信息檢索:信息檢索中的關(guān)鍵問題和方法目標(biāo)表示出文檔的內(nèi)容和語義,方便于信息的查找考慮因素準(zhǔn)確表達文本的語義全面覆蓋文本全部內(nèi)容方便計算機處理主要方法向量空間模型(VectorSpaceModel)詞袋模型(BagOfWords):忽略文檔的詞語順序和語法、句法等要素,僅將其看作是若干個詞匯的集合。TF(詞頻):一個詞在一篇文檔中出現(xiàn)的次數(shù)DF(文檔頻率):全部文檔集合中包含該詞的文檔數(shù)IDF:ID的倒數(shù)信息檢索:文檔和查詢的內(nèi)容表示信息檢索:文檔和查詢的內(nèi)容表示信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發(fā)展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務(wù)項目。信息檢索
起源
于
圖書館
的
參考
咨詢
和
文摘
索引
工作
從19世紀
下半葉
首先
開始
發(fā)展
至20世紀40年代
索引
和
檢索
已
成為
圖書館
獨立
的
工具
和
用戶
服務(wù)
項目分詞去標(biāo)點基于TF-IDF的詞袋模型特點:頻率高的詞權(quán)重大問題:這次詞能代表這篇文檔嗎?詞典TF191201401參考1成為1從1的2獨立1發(fā)展1服務(wù)1工具1工作1和3檢索1開始1年代1起源1世紀2首先1索引2圖書館2文摘1下半葉1項目1信息檢索1已1用戶1于1至1咨詢1TF*IDF10.010.010.05.05.02.55.05.05.05.05.05.07.510.05.05.05.010.03.320.020.010.05.05.010.02.53.33.33.35.0DF0.10.10.10.20.20.40.40.20.20.20.20.20.40.10.20.20.20.20.30.10.10.10.20.20.10.40.30.30.30.2一篇文檔TF-IDF權(quán)重的向量查詢的內(nèi)容表示理想的查詢:一篇文檔實際的查詢:幾個詞方法查詢擴展:擴展出相關(guān)詞例如,查詢詞=馬航擴展詞=MH370,客機,失聯(lián),波音777,......生成詞向量[與文檔表示方法一樣]
TF-IDF權(quán)重的詞向量信息檢索:文檔和查詢的內(nèi)容表示問題海量數(shù)據(jù):谷歌,百度這樣大型的商業(yè)搜索引擎索引都是億級甚至幾千億的網(wǎng)頁數(shù)量。針對一個查詢,如何快速找到包含查詢詞的文檔?毫秒級時間方法對文檔建立倒排索引(InvertedIndex)記錄每個詞條在哪些文檔中出現(xiàn)過信息檢索:倒排索引(InvertedIndex)信息檢索:倒排索引(InvertedIndex)ThisisasampledocumentwithonesamplesentenceDoc1ThisisanothersampledocumentDoc2詞典倒排索引項TermDFTFThis22is22sample23another11………DocidFreq11211121122121…………SlideisfromChengXiangZhai問題索引數(shù)據(jù)集合:已經(jīng)表示成詞向量集合,記為{Di}
用戶查詢請求:已經(jīng)表示成詞向量,記為Q查找:相關(guān)的數(shù)據(jù)列表關(guān)鍵問題:計算Di與Q的相似度,排序給出最相關(guān)的結(jié)果相似度計算余弦相似度信息檢索:
檢索查詢θDiQ系統(tǒng)評價系統(tǒng)效率和效果怎么樣。效率時間:算法速度空間:存儲資源,計算資源效果檢索到的文檔是否相關(guān)?查準(zhǔn)率(精度precision)所有相關(guān)文檔是否都找到了?查全率(召回率recall)信息檢索:系統(tǒng)評價開源搜索引擎平臺面向研究卡耐基-梅隆大學(xué)的Lemur
和Indri
面向應(yīng)用LuceneXapianSphinx信息檢索:搭建自己的搜索引擎信息時代的機遇和挑戰(zhàn)信息檢索信息抽取機器學(xué)習(xí)主要內(nèi)容谷歌和百度是否足夠?信息檢索功能:從文檔集中找到最相關(guān)的文檔。是否有正好符合需求的文檔?能不能讓計算機把相關(guān)信息自動搜集整理起來,一起提供給用戶?信息抽取:什么是信息抽取信息抽取(Informationextraction,IE)是把文本里包含的信息進行結(jié)構(gòu)化處理,變成表格一樣的組織形式。例如:從新聞報道中抽取出恐怖事件的詳細情況:時間、地點、作案者、受害者、襲擊目標(biāo)、使用的武器等;從經(jīng)濟新聞中抽取出公司發(fā)布新產(chǎn)品的情況:公司名、產(chǎn)品名、發(fā)布時間、產(chǎn)品性能等;從病人的醫(yī)療記錄中抽取出癥狀、診斷記錄、檢驗結(jié)果、處方、治療結(jié)果等等。信息抽取:什么是信息抽取信息檢索(IR)與信息抽?。↖E)信息檢索從文檔集中找到相關(guān)的文檔。用戶必須從找到的文檔中翻閱自己所要的信息。相關(guān)理論:信息論,概率論,統(tǒng)計學(xué)技術(shù)相對成熟信息抽取從文檔集中提取相關(guān)的信息。相關(guān)理論:計算語言學(xué),自然語言處理技術(shù),機器學(xué)習(xí)技術(shù)不成熟兩者聯(lián)系滿足不同層次的信息需求,逐漸結(jié)合。信息抽取:什么是信息抽取習(xí)近平奧巴馬蘋果公司蘋果水果喬布斯習(xí)近平奧巴馬蘋果公司北京國家主席喬布斯命名實體識別(NamedEntityRecognition)識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等。信息抽?。盒畔⒊槿〉难芯繂栴}命名實體識別人名地名組織機構(gòu)名知識庫共指消解語義消岐實體鏈接關(guān)系抽取確定實體之間的關(guān)系,包括隱含的關(guān)系和明確的關(guān)系。信息抽?。盒畔⒊槿〉膯栴}習(xí)近平奧巴馬蘋果公司蘋果水果習(xí)近平蘋果公司國家主席知識庫喬布斯喬布斯奧巴馬北京創(chuàng)建關(guān)系知識庫填充蘋果公司創(chuàng)建人:創(chuàng)建時間:子公司:主要產(chǎn)品:…….關(guān)系抽取事件檢測抽取出新聞報到中的各種事件,提取出每個事件的關(guān)鍵信息(動態(tài)信息的提取)恐怖襲擊:時間、地點、作案者、受害者、襲擊目標(biāo)、使用的武器等;自然災(zāi)害:時間、地點、事件原因、人員傷亡、財產(chǎn)損失;傾向判斷對某一人物、商品和事件的態(tài)度淘寶商品的傾向抽取信息抽?。盒畔⒊槿〉膯栴}手工模板(某人)創(chuàng)建了(某個組織)機器學(xué)習(xí)監(jiān)督學(xué)習(xí):支持向量機半監(jiān)督學(xué)習(xí):bootstrapping信息抽?。盒畔⒊槿〉闹饕椒C器學(xué)習(xí)要解決什么問題?信息抽?。簷C器學(xué)習(xí)簡介學(xué)習(xí)數(shù)據(jù)物理觀測數(shù)據(jù)學(xué)習(xí)算法問題模型(函數(shù))物理理論學(xué)習(xí)過程完成學(xué)習(xí)怎樣評價學(xué)習(xí)的好壞?理論模型的好壞?預(yù)測能力推廣能力最簡單化解釋數(shù)據(jù)能力問題模型(函數(shù))物理理論例:是否有上帝?信息抽?。簷C器學(xué)習(xí)簡介物理理論預(yù)測能力推廣能力最簡單化上帝論物理理論+上帝論解釋數(shù)據(jù)能力強較強較強較強較強強較強較簡單很弱很弱很復(fù)雜很復(fù)雜信息抽取的難度將依賴與機器學(xué)習(xí)的方法解決。涉及文本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025西南家居用品行業(yè)市場消費者偏好渠道轉(zhuǎn)型投資潛力分析研究文檔
- 2025西亞通信設(shè)備產(chǎn)業(yè)供需分析及投資布局規(guī)劃研究文本
- 2025西亞汽車電子控制市場供需形勢分析行業(yè)競爭態(tài)勢評估投資機會規(guī)劃研究分析報告
- 2025西亞農(nóng)業(yè)科技產(chǎn)業(yè)市場供需現(xiàn)狀及投資布局規(guī)劃分析研究報告
- 2025荷蘭花卉苗木行業(yè)市場供需分析及投資評估規(guī)劃分析研究報告
- 2025荷蘭物流企業(yè)競爭現(xiàn)狀評估規(guī)劃分析研究報告
- 2025荷蘭工業(yè)機器人控制系統(tǒng)行業(yè)市場競爭力分析未來機遇投資機會評估研究分析報告
- 2025荷蘭農(nóng)產(chǎn)品出口行業(yè)市場供需分析及投資評估規(guī)劃分析研究報告
- 2025荷蘭3D打印粉末材料行業(yè)現(xiàn)狀供需格局投資潛力規(guī)劃分析研究報告
- 2025英國銀行業(yè)市場競爭分析技術(shù)發(fā)展分析研究分析發(fā)展
- 煤矸石填溝造地綜合利用項目技術(shù)方案
- 《高等數(shù)學(xué)上冊》全套教學(xué)課件
- 剪紙社團匯報課件
- 掛名監(jiān)事免責(zé)協(xié)議書模板
- 2025房屋買賣合同范本(下載)
- 分布式光伏電站運維管理與考核體系
- 【MOOC期末】《模擬電子技術(shù)基礎(chǔ)》(華中科技大學(xué))期末考試慕課答案
- 腦炎的護理課件
- 胎頭吸引技術(shù)課件
- 電池PACK箱體項目可行性研究報告(備案審核模板)
- 貴州省2023年7月普通高中學(xué)業(yè)水平合格性考試地理試卷(含答案)
評論
0/150
提交評論