版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
北京郵電大學(xué)模式識(shí)別實(shí)驗(yàn)室信息抽取與信息檢索
徐蔚然信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容信息技術(shù)革命(第三次技術(shù)革命)250年前,發(fā)明蒸汽機(jī)工業(yè)革命100年前,電磁場(chǎng)理論,發(fā)現(xiàn)電子電氣革命50年前,發(fā)明計(jì)算機(jī),信息數(shù)字化信息革命信息時(shí)代的機(jī)遇和挑戰(zhàn)4-1
我們生活在大變革的時(shí)代生活方式的改變送別、信件、娛樂(lè)學(xué)習(xí)方法的改變圖書(shū)館、互聯(lián)網(wǎng)、MOOC工作方式的改變信息行業(yè)、SOHO社會(huì)的改變經(jīng)濟(jì)全球化信息時(shí)代的機(jī)遇和挑戰(zhàn)4-2
信息時(shí)代改變了我們給我們帶來(lái)革命的基盤(pán)技術(shù)是什么?IBM PC機(jī)硬件微軟
軟件Netscape 瀏覽器Yahoo 門(mén)戶網(wǎng)站Google/百度
搜索引擎Twitter/新浪微博
微博
Facebook /騰訊
社交網(wǎng)絡(luò)服務(wù)網(wǎng)站……信息時(shí)代的機(jī)遇和挑戰(zhàn)4-3
信息時(shí)代的機(jī)遇信息技術(shù)內(nèi)容處理技術(shù)文本信息處理技術(shù)未來(lái)技術(shù)的暢想:新的Google/百度是什么樣?白手起家到身價(jià)千億集中在IT行業(yè)從硬件到軟件從信息到內(nèi)容從內(nèi)容的傳輸?shù)絻?nèi)容的處理傳輸技術(shù)/網(wǎng)絡(luò)技術(shù)的發(fā)展和成熟內(nèi)容處理的挑戰(zhàn)最有代表性的內(nèi)容處理問(wèn)題:語(yǔ)言文字語(yǔ)言文字專門(mén)用來(lái)傳遞信息和承載知識(shí)與人類的智能密不可分大數(shù)據(jù)時(shí)代的技術(shù)瓶頸互聯(lián)網(wǎng)有我們需要的海量
信息和知識(shí),但是我們找
不到它們。信息時(shí)代的機(jī)遇和挑戰(zhàn)4-4
文本信息處理技術(shù)信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容什么是信息檢索信息檢索的方法:怎樣構(gòu)建自己的Google或百度搜索引擎中科院研究生院2011年度秋季課程10中科院研究生院2011年度秋季課程11中科院研究生院2011年度秋季課程12四個(gè)應(yīng)用例子的共同特征給定需求(或者是對(duì)象),從信息庫(kù)中找出最匹配的信息(或?qū)ο?信息檢索:什么是信息檢索查詢請(qǐng)求信息庫(kù)返回結(jié)果傳統(tǒng)圖書(shū)檢索系統(tǒng)書(shū)名=“現(xiàn)代信息檢索”收錄圖書(shū)數(shù)據(jù)庫(kù)數(shù)目列表谷歌搜索引擎“現(xiàn)代信息檢索”互聯(lián)網(wǎng)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)網(wǎng)頁(yè)列表卓越-亞馬遜(淘寶)“天王表LS3522S(黑色)”商品數(shù)據(jù)庫(kù)商品列表世紀(jì)佳緣網(wǎng)“白富美”交友數(shù)據(jù)庫(kù)人員列表信息檢索是指信息按一定的方式組織起來(lái),并根據(jù)信息用戶的需要找出有關(guān)的信息的過(guò)程和技術(shù)。信息檢索:什么是信息檢索14索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索fromJian-YunNie信息檢索系統(tǒng)給定:索引數(shù)據(jù)集合+用戶查詢請(qǐng)求查找:相關(guān)的數(shù)據(jù)列表信息檢索:什么是信息檢索15索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索fromJian-YunNie谷歌或百度的原理?構(gòu)建自己的全文搜索引擎信息檢索:什么是信息檢索16索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索Web爬取索引Nutch/about.html
Java開(kāi)源Web爬蟲(chóng)和搜索引擎谷歌或百度的原理?構(gòu)建自己的全文搜索引擎信息檢索:信息檢索中的關(guān)鍵問(wèn)題和方法文檔數(shù)據(jù)集查詢結(jié)果列表內(nèi)容表示內(nèi)容表示查詢表示文檔表示相似度計(jì)算數(shù)據(jù)索引SlideisfromJimmyLin’stutorial爬取Crawling內(nèi)容表示Representation數(shù)據(jù)索引Indexing相似度計(jì)算Retrieval系統(tǒng)評(píng)價(jià)Evaluation信息檢索:信息檢索中的關(guān)鍵問(wèn)題和方法目標(biāo)表示出文檔的內(nèi)容和語(yǔ)義,方便于信息的查找考慮因素準(zhǔn)確表達(dá)文本的語(yǔ)義全面覆蓋文本全部?jī)?nèi)容方便計(jì)算機(jī)處理主要方法向量空間模型(VectorSpaceModel)詞袋模型(BagOfWords):忽略文檔的詞語(yǔ)順序和語(yǔ)法、句法等要素,僅將其看作是若干個(gè)詞匯的集合。TF(詞頻):一個(gè)詞在一篇文檔中出現(xiàn)的次數(shù)DF(文檔頻率):全部文檔集合中包含該詞的文檔數(shù)IDF:ID的倒數(shù)信息檢索:文檔和查詢的內(nèi)容表示信息檢索:文檔和查詢的內(nèi)容表示信息檢索起源于圖書(shū)館的參考咨詢和文摘索引工作,從19世紀(jì)下半葉首先開(kāi)始發(fā)展,至20世紀(jì)40年代,索引和檢索成已為圖書(shū)館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。信息檢索
起源
于
圖書(shū)館
的
參考
咨詢
和
文摘
索引
工作
從19世紀(jì)
下半葉
首先
開(kāi)始
發(fā)展
至20世紀(jì)40年代
索引
和
檢索
已
成為
圖書(shū)館
獨(dú)立
的
工具
和
用戶
服務(wù)
項(xiàng)目分詞去標(biāo)點(diǎn)基于TF-IDF的詞袋模型特點(diǎn):頻率高的詞權(quán)重大問(wèn)題:這次詞能代表這篇文檔嗎?詞典TF191201401參考1成為1從1的2獨(dú)立1發(fā)展1服務(wù)1工具1工作1和3檢索1開(kāi)始1年代1起源1世紀(jì)2首先1索引2圖書(shū)館2文摘1下半葉1項(xiàng)目1信息檢索1已1用戶1于1至1咨詢1TF*IDF10.010.010.05.05.02.55.05.05.05.05.05.07.510.05.05.05.010.03.320.020.010.05.05.010.02.53.33.33.35.0DF0.10.10.10.20.20.40.40.20.20.20.20.20.40.10.20.20.20.20.30.10.10.10.20.20.10.40.30.30.30.2一篇文檔TF-IDF權(quán)重的向量查詢的內(nèi)容表示理想的查詢:一篇文檔實(shí)際的查詢:幾個(gè)詞方法查詢擴(kuò)展:擴(kuò)展出相關(guān)詞例如,查詢?cè)~=馬航擴(kuò)展詞=MH370,客機(jī),失聯(lián),波音777,......生成詞向量[與文檔表示方法一樣]
TF-IDF權(quán)重的詞向量信息檢索:文檔和查詢的內(nèi)容表示問(wèn)題海量數(shù)據(jù):谷歌,百度這樣大型的商業(yè)搜索引擎索引都是億級(jí)甚至幾千億的網(wǎng)頁(yè)數(shù)量。針對(duì)一個(gè)查詢,如何快速找到包含查詢?cè)~的文檔?毫秒級(jí)時(shí)間方法對(duì)文檔建立倒排索引(InvertedIndex)記錄每個(gè)詞條在哪些文檔中出現(xiàn)過(guò)信息檢索:倒排索引(InvertedIndex)信息檢索:倒排索引(InvertedIndex)ThisisasampledocumentwithonesamplesentenceDoc1ThisisanothersampledocumentDoc2詞典倒排索引項(xiàng)TermDFTFThis22is22sample23another11………DocidFreq11211121122121…………SlideisfromChengXiangZhai問(wèn)題索引數(shù)據(jù)集合:已經(jīng)表示成詞向量集合,記為{Di}
用戶查詢請(qǐng)求:已經(jīng)表示成詞向量,記為Q查找:相關(guān)的數(shù)據(jù)列表關(guān)鍵問(wèn)題:計(jì)算Di與Q的相似度,排序給出最相關(guān)的結(jié)果相似度計(jì)算余弦相似度信息檢索:
檢索查詢?chǔ)菵iQ系統(tǒng)評(píng)價(jià)系統(tǒng)效率和效果怎么樣。效率時(shí)間:算法速度空間:存儲(chǔ)資源,計(jì)算資源效果檢索到的文檔是否相關(guān)?查準(zhǔn)率(精度precision)所有相關(guān)文檔是否都找到了?查全率(召回率recall)信息檢索:系統(tǒng)評(píng)價(jià)開(kāi)源搜索引擎平臺(tái)面向研究卡耐基-梅隆大學(xué)的Lemur
和Indri
面向應(yīng)用LuceneXapianSphinx信息檢索:搭建自己的搜索引擎信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容谷歌和百度是否足夠?信息檢索功能:從文檔集中找到最相關(guān)的文檔。是否有正好符合需求的文檔?能不能讓計(jì)算機(jī)把相關(guān)信息自動(dòng)搜集整理起來(lái),一起提供給用戶?信息抽取:什么是信息抽取信息抽取(Informationextraction,IE)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。例如:從新聞報(bào)道中抽取出恐怖事件的詳細(xì)情況:時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等;從經(jīng)濟(jì)新聞中抽取出公司發(fā)布新產(chǎn)品的情況:公司名、產(chǎn)品名、發(fā)布時(shí)間、產(chǎn)品性能等;從病人的醫(yī)療記錄中抽取出癥狀、診斷記錄、檢驗(yàn)結(jié)果、處方、治療結(jié)果等等。信息抽取:什么是信息抽取信息檢索(IR)與信息抽?。↖E)信息檢索從文檔集中找到相關(guān)的文檔。用戶必須從找到的文檔中翻閱自己所要的信息。相關(guān)理論:信息論,概率論,統(tǒng)計(jì)學(xué)技術(shù)相對(duì)成熟信息抽取從文檔集中提取相關(guān)的信息。相關(guān)理論:計(jì)算語(yǔ)言學(xué),自然語(yǔ)言處理技術(shù),機(jī)器學(xué)習(xí)技術(shù)不成熟兩者聯(lián)系滿足不同層次的信息需求,逐漸結(jié)合。信息抽取:什么是信息抽取習(xí)近平奧巴馬蘋(píng)果公司蘋(píng)果水果喬布斯習(xí)近平奧巴馬蘋(píng)果公司北京國(guó)家主席喬布斯命名實(shí)體識(shí)別(NamedEntityRecognition)識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。信息抽取:信息抽取的研究問(wèn)題命名實(shí)體識(shí)別人名地名組織機(jī)構(gòu)名知識(shí)庫(kù)共指消解語(yǔ)義消岐實(shí)體鏈接關(guān)系抽取確定實(shí)體之間的關(guān)系,包括隱含的關(guān)系和明確的關(guān)系。信息抽?。盒畔⒊槿〉膯?wèn)題習(xí)近平奧巴馬蘋(píng)果公司蘋(píng)果水果習(xí)近平蘋(píng)果公司國(guó)家主席知識(shí)庫(kù)喬布斯喬布斯奧巴馬北京創(chuàng)建關(guān)系知識(shí)庫(kù)填充蘋(píng)果公司創(chuàng)建人:創(chuàng)建時(shí)間:子公司:主要產(chǎn)品:…….關(guān)系抽取事件檢測(cè)抽取出新聞報(bào)到中的各種事件,提取出每個(gè)事件的關(guān)鍵信息(動(dòng)態(tài)信息的提?。┛植酪u擊:時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等;自然災(zāi)害:時(shí)間、地點(diǎn)、事件原因、人員傷亡、財(cái)產(chǎn)損失;傾向判斷對(duì)某一人物、商品和事件的態(tài)度淘寶商品的傾向抽取信息抽?。盒畔⒊槿〉膯?wèn)題手工模板(某人)創(chuàng)建了(某個(gè)組織)機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):支持向量機(jī)半監(jiān)督學(xué)習(xí):bootstrapping信息抽?。盒畔⒊槿〉闹饕椒C(jī)器學(xué)習(xí)要解決什么問(wèn)題?信息抽?。簷C(jī)器學(xué)習(xí)簡(jiǎn)介學(xué)習(xí)數(shù)據(jù)物理觀測(cè)數(shù)據(jù)學(xué)習(xí)算法問(wèn)題模型(函數(shù))物理理論學(xué)習(xí)過(guò)程完成學(xué)習(xí)怎樣評(píng)價(jià)學(xué)習(xí)的好壞?理論模型的好壞?預(yù)測(cè)能力推廣能力最簡(jiǎn)單化解釋數(shù)據(jù)能力問(wèn)題模型(函數(shù))物理理論例:是否有上帝?信息抽?。簷C(jī)器學(xué)習(xí)簡(jiǎn)介物理理論預(yù)測(cè)能力推廣能力最簡(jiǎn)單化上帝論物理理論+上帝論解釋數(shù)據(jù)能力強(qiáng)較強(qiáng)較強(qiáng)較強(qiáng)較強(qiáng)強(qiáng)較強(qiáng)較簡(jiǎn)單很弱很弱很復(fù)雜很復(fù)雜信息抽取的難度將依賴與機(jī)器學(xué)習(xí)的方法解決。涉及文本
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大型兒童游樂(lè)設(shè)施施工技術(shù)方案
- 園林景觀亮化工程施工技術(shù)方案
- 2025年宜昌科技職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題含答案解析(必刷)
- 會(huì)議門(mén)牌施工技術(shù)方案
- 2025年慶云縣幼兒園教師招教考試備考題庫(kù)含答案解析(奪冠)
- 2025年臨沭縣招教考試備考題庫(kù)附答案解析(奪冠)
- 2024年長(zhǎng)春市建筑職工業(yè)余大學(xué)馬克思主義基本原理概論期末考試題附答案解析(奪冠)
- 2025年南江縣招教考試備考題庫(kù)帶答案解析
- 2025年青海省西寧市單招職業(yè)傾向性測(cè)試題庫(kù)附答案解析
- 2025年鶴崗礦務(wù)局職工大學(xué)馬克思主義基本原理概論期末考試模擬題帶答案解析
- 2026云南昭通市搬遷安置局招聘公益性崗位人員3人備考題庫(kù)及答案詳解(考點(diǎn)梳理)
- 標(biāo)書(shū)財(cái)務(wù)制度
- 四川發(fā)展控股有限責(zé)任公司會(huì)計(jì)崗筆試題
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)及一套答案詳解
- 2025-2030心理健康行業(yè)市場(chǎng)發(fā)展分析及趨勢(shì)前景與投資戰(zhàn)略研究報(bào)告
- 技術(shù)副總年終總結(jié)
- 《馬年馬上有錢(qián)》少兒美術(shù)教育繪畫(huà)課件創(chuàng)意教程教案
- 天津市專升本高等數(shù)學(xué)歷年真題(2016-2025)
- 2025山西焦煤集團(tuán)所屬華晉焦煤井下操作技能崗?fù)艘圮娙苏衅?0人筆試參考題庫(kù)帶答案解析
- 兒童骨科主任論兒童骨科
- 2026年齊齊哈爾高等師范??茖W(xué)校單招(計(jì)算機(jī))測(cè)試模擬題庫(kù)必考題
評(píng)論
0/150
提交評(píng)論