版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
搜索引擎技術(shù)主講教師:王旭博士深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院未來媒體技術(shù)與計(jì)算研究所Email:wangxu@1模塊一:商用搜索引擎架構(gòu)與原理搜索引擎基礎(chǔ)網(wǎng)頁抓取技術(shù)網(wǎng)頁信息預(yù)處理技術(shù)信息索引技術(shù)信息查詢與評價(jià)技術(shù)參考書籍:袁津生,李群編著,《搜索引擎基礎(chǔ)教程》,清華大學(xué)出版社其他文獻(xiàn)/互聯(lián)網(wǎng)資料深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所2Scrapy:基于Python的爬蟲框架Scrapy是使用Python開發(fā)的一個(gè)速度快、效率高的web和屏幕數(shù)據(jù)抓取的框架,多用于抓取web站點(diǎn)并從結(jié)構(gòu)復(fù)雜的Web頁面中提取出結(jié)構(gòu)化的數(shù)據(jù)。Scrapy的用途非常廣泛,可以用于自動化測試、監(jiān)測、數(shù)據(jù)挖掘等任務(wù)。Scrapy的底層是基于Twisted網(wǎng)絡(luò)引擎,用戶只需要開發(fā)其中的幾個(gè)模塊就可以實(shí)現(xiàn)一個(gè)功能相當(dāng)復(fù)雜的web爬蟲,可以用來進(jìn)行網(wǎng)頁信息抽取和抓取網(wǎng)站上的圖片等。使用Scrapy的優(yōu)勢是開發(fā)相對簡單,信息抽取以后還可以利用Python豐富的第三方庫進(jìn)行后續(xù)數(shù)據(jù)處理和展示。官方網(wǎng)站:/安裝指南:/en/latest/intro/install.htmlWiKi:/scrapy/scrapy/wiki/moin/BeginnersGuide/NonProgrammers/zh_CN/latest/intro/overview.htmlScrapy:基于Python的爬蟲框架Built-insupportforselectingandextractingdatafromHTML/XMLsourcesusingextendedCSSselectorsandXPathexpressions,withhelpermethodstoextractusingregularexpressions.Aninteractiveshellconsole(IPythonaware)fortryingouttheCSSandXPathexpressionstoscrapedata,veryusefulwhenwritingordebuggingyourspiders.Built-insupportforgeneratingfeedexportsinmultipleformats(JSON,CSV,XML)andstoringtheminmultiplebackends(FTP,S3,localfilesystem)Robustencodingsupportandauto-detection,fordealingwithforeign,non-standardandbrokenencodingdeclarations.Strongextensibilitysupport,allowingyoutopluginyourownfunctionalityusingsignalsandawell-definedAPI(middlewares,extensions,andpipelines).Widerangeofbuilt-inextensionsandmiddlewaresforhandling:–cookiesandsessionhandling–HTTPfeatureslikecompression,authentication,caching–user-agentspoofing–robots.txt–crawldepthrestrictionScrapy:基于Python的爬蟲框架庫Windows下的Scrapy安裝和環(huán)境搭建檢查PlatformspecificinstallationnotesPython
2.7pip
and
setuptools
Pythonpackages.Nowadays
pip
requiresandinstalls
setuptools
ifnotinstalled.lxml.MostLinuxdistributionsshipsprepackagedversionsoflxml.Otherwiserefertohttp://lxml.de/installation.htmlOpenSSL.Thiscomespreinstalledinalloperatingsystems,exceptWindowswherethePythoninstallershipsitbundled.具體步驟安裝Python2.7:
/downloads/在命令行下,添加環(huán)境變量:
c:\python27\python.exec:\python27\tools\scripts\win_add2path.py
測試python版本
python--version安裝pywin32:/projects/pywin32/安裝pip:https://pip.pypa.io/en/latest/installing.htmlpip–version安裝IPython安裝scrapypipinstallScrapyScrapy使用:基本教程新建一個(gè)新的scrapy工程建議需要提取的item對象寫一個(gè)spider抓取相關(guān)的網(wǎng)站和提取items寫一個(gè)ItemPipeline存儲提取的itemsScrapy基本教程:新建工程打開命令行窗口,轉(zhuǎn)到指定路徑下輸入:scrapystartprojecttutorialScrapy基本教程:定義Item修改文件:item.pyScrapy基本教程:新建spider在“spiders”文件夾下新建一個(gè)文件:tutorial.pyScrapy基本教程:新建spider進(jìn)入到當(dāng)前文件夾cd<path>在命令行下鍵入以下命令scrapycrawltutorial結(jié)果在文件中查看Scrapy基本教程:提取網(wǎng)頁中的數(shù)據(jù)Selectors類:從網(wǎng)頁中提取數(shù)據(jù)Scrapy基于Xpath(XMLPathLanguage)和CSS/html/head/title選擇包含在<head>中的<title>信息/html/head/title/text()選擇文本信息//td選擇所有的<td>//div[@class=“mine”]選擇所有clase=“mine”的divScrapy基本教程:提取網(wǎng)頁中的數(shù)據(jù)在命令行中鍵入下列命令scrapyshell/Computers/Programming/Languages/Python/Books/可以查看的對象Scrapy基本教程:提取網(wǎng)頁中的數(shù)據(jù)查看數(shù)據(jù),例子response.xpath('//title')response.xpath('//title').extract()response.xpath('//title/text()')response.xpath('//title/text()').extract()退出控制臺命令:exit()Scrapy基本教程:提取網(wǎng)頁中的數(shù)據(jù)在“spiders”文件夾下新建dmoz.pyScrapy基本教程:保存數(shù)據(jù)保存數(shù)據(jù)scrapycrawldmoz-oitems.json具體例子參考:/scrapy/dirbot作業(yè)一(選擇一)編程實(shí)踐作業(yè):基于Scrapy框架,學(xué)習(xí)如何抓取一個(gè)網(wǎng)頁或者網(wǎng)站,并完成實(shí)驗(yàn)報(bào)告截止日期:2015.10.25相似度要求:50%以上相似,不合格;增加兩點(diǎn)以上的功能,功能越多,分?jǐn)?shù)越高實(shí)驗(yàn)報(bào)告+源程序基礎(chǔ)分15分(報(bào)告完整,代碼可執(zhí)行),總分:20分作業(yè)一(選擇二)實(shí)踐作業(yè):基于搜索引擎和個(gè)人興趣,調(diào)研社交搜索或者垂直搜索,完成一份行業(yè)調(diào)研和綜述報(bào)告。截止日期:2015.10.251、字?jǐn)?shù):3000字2、相似度要求:大于30%以上不合格;3、基礎(chǔ)分15分,總分20分4、OralPresentation加5分模塊一:商用搜索引擎架構(gòu)與原理搜索引擎基礎(chǔ)網(wǎng)頁抓取技術(shù)網(wǎng)頁信息預(yù)處理技術(shù)信息索引技術(shù)信息查詢與評價(jià)技術(shù)參考書籍:袁津生,李群編著,《搜索引擎基礎(chǔ)教程》,清華大學(xué)出版社其他文獻(xiàn)/互聯(lián)網(wǎng)資料深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所20深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所網(wǎng)頁信息預(yù)處理4.1網(wǎng)頁信息結(jié)構(gòu)化4.2文本處理4.3PageRank算法21深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所網(wǎng)頁信息預(yù)處理技術(shù)對于信息預(yù)處理系統(tǒng)來說,最主要的工作就是從抓取的網(wǎng)頁中提取有價(jià)值的,能夠代表網(wǎng)頁的屬性(如網(wǎng)頁的URL、編碼類型、標(biāo)題、正文、關(guān)鍵詞等),并將這些屬性組成一個(gè)網(wǎng)頁的對象。然后根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜的計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容及鏈接每一個(gè)關(guān)鍵詞的相關(guān)度,并用這些信息建立索引數(shù)據(jù)庫。從網(wǎng)頁中提取關(guān)鍵詞,至少要作兩部分的工作:一是將網(wǎng)頁的源代碼整理成一個(gè)可以有層次的、利于分析的、包含原始網(wǎng)頁中的各種屬性的網(wǎng)頁對象,即DOM樹;二是從整理出來的網(wǎng)頁對象中提取文本內(nèi)容,將這些文本內(nèi)容切分成以詞為單位的集合。22深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所網(wǎng)頁信息結(jié)構(gòu)化結(jié)構(gòu)化數(shù)據(jù)是指被標(biāo)簽定義了其內(nèi)容、意義和用法的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)除了包含數(shù)據(jù)本身之外,一般還包含對數(shù)據(jù)的描述信息,而且其中的數(shù)據(jù)與描述信息都按照嚴(yán)格的規(guī)則進(jìn)行組織。語法上不具有層次特點(diǎn)的數(shù)據(jù)稱為非結(jié)構(gòu)化數(shù)據(jù)。介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)稱為半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)模型可以用二維表(關(guān)系型)來表示,半結(jié)構(gòu)化數(shù)據(jù)模型可以用樹和圖來表示,非結(jié)構(gòu)化數(shù)據(jù)沒有數(shù)據(jù)模型。結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是先有結(jié)構(gòu)、再有數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是先有數(shù)據(jù),再有結(jié)構(gòu)。典型的結(jié)構(gòu)化數(shù)據(jù)的格式有:XML、XHTML、INI等,半結(jié)構(gòu)化數(shù)據(jù)的格式有:HTML。23深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所網(wǎng)頁結(jié)構(gòu)化的目標(biāo)網(wǎng)頁結(jié)構(gòu)化的目標(biāo)是根據(jù)搜索的需要,將半結(jié)構(gòu)化的HTML網(wǎng)頁中的數(shù)據(jù)按照約定的基本屬性組合成一個(gè)網(wǎng)頁的對象。一個(gè)網(wǎng)頁對象至少有5個(gè)屬性:(1)錨文本(anchortext)(2)標(biāo)題(title)(3)正文標(biāo)題(contenttitle)(4)正文(content)(5)正向鏈接(link)24深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所建立一個(gè)簡單的HTML文件,文件名為:index.html。<html><head><metahttp-equiv="Content-Type"content="text/html;charset=gb2312"><title>搜索引擎基礎(chǔ)教程</title></head><body><table><tr><td>搜索引擎基礎(chǔ)教程:第1章</td></tr><tr><td>搜索引擎基礎(chǔ)教程:第2章</td></tr><tr><td>搜索引擎基礎(chǔ)教程:第3章</td></tr></table></body></html>25深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所26深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所建立DOM樹DOM的全稱是DocumentObjectModel,也即文檔對象模型。我們在使用過程中,首先要將HTML網(wǎng)頁轉(zhuǎn)換成XML格式,然后使用XML分析器將一個(gè)XML文檔轉(zhuǎn)換成一個(gè)對象模型的集合(通常稱DOM樹)。應(yīng)用程序正是通過對這個(gè)對象模型的操作,來實(shí)現(xiàn)對XML文檔數(shù)據(jù)的操作。通過DOM接口,應(yīng)用程序可以在任何時(shí)候訪問XML文檔中的任何一部分?jǐn)?shù)據(jù),因此,這種利用DOM接口的機(jī)制也被稱作隨機(jī)訪問機(jī)制。/xml
27深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所1.網(wǎng)頁內(nèi)容的DOM樹表示28深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所2.DOM樹的建立過程HTML語法中,各種標(biāo)簽都是成對出現(xiàn)的,這樣我們可以分析一個(gè)標(biāo)記的始末。因此,在解析網(wǎng)頁的過程中需要一個(gè)標(biāo)簽分析棧的數(shù)據(jù)結(jié)構(gòu)。棧結(jié)構(gòu)是一種先進(jìn)后出的線性表結(jié)構(gòu),棧結(jié)構(gòu)的這種特性為分析工作提供了可能。具體步驟如下:(1)建立標(biāo)簽分析棧(2)順序讀取網(wǎng)頁標(biāo)簽并依次入棧(3)文本結(jié)點(diǎn)不入棧(4)成對標(biāo)簽同時(shí)退棧DOM樹建立以后,遍歷樹中的每個(gè)結(jié)點(diǎn),將其中的文本送到分詞模塊進(jìn)行處理。29深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所網(wǎng)頁內(nèi)容的獲取1.正文分塊正文具有分塊保存的特性,因此我們引入文本塊的概念,對于那些諸如<P></P>等標(biāo)簽間的文本認(rèn)為是一個(gè)文本塊。例如<TD>搜索引擎基礎(chǔ)教程:第1章</TD>稱為一個(gè)文本塊。一般來說,網(wǎng)頁會出現(xiàn)3種類型的文本塊。(1)主題型文本塊主題型文本塊是大段文字的文本塊,如:“<TD>搜索引擎基礎(chǔ)教程:第1章</TD>”(2)目錄型文本塊目錄型文本塊是描述鏈接的文本塊,如:“<ahref=””>搜索引擎基礎(chǔ)教程:第1章</a>”(3)圖片型文本塊 圖片型文本塊是描述圖片的文本塊,如:“<imgsrc=””>搜索引擎基礎(chǔ)教程:第1章</img>”30深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所網(wǎng)頁內(nèi)容的獲取2.投票算法目錄型文本塊和圖片型文本塊相對容易被區(qū)分;而主題型文本塊中可能包含廣告等其他內(nèi)容,必須與正文相區(qū)別。判斷哪個(gè)文本塊是正文采用稱為”投票算法”的計(jì)算方法,這種方法在搜索引擎中特別常用。投票算法的過程是:首先定義一系列規(guī)則,然后通過這些規(guī)則為每一個(gè)文本塊打分。得分最高的被認(rèn)是正文的可能性足夠大,并且可以接受。31深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所網(wǎng)頁內(nèi)容的獲取3.提取正文打分之后的工作就是將一個(gè)個(gè)文本塊組織成一個(gè)正文。深度優(yōu)先遍歷DOM樹并依次記錄主題類型的文本塊,即可得到該網(wǎng)頁的正文。如圖4-2所示,按照深度優(yōu)先,我們可以依次提取文本塊并按照順序組織成正文“搜索引擎基礎(chǔ)教程:第1章搜索引擎基礎(chǔ)教程:第2章搜索引擎基礎(chǔ)教程:第3章”。32深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所4.2文本處理文本預(yù)處理文本詞法分析中文分詞33深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所文本預(yù)處理的過程(1)文本的詞法分析,它主要是對文本中的數(shù)字、連接符、標(biāo)點(diǎn)符號和字符的大小寫進(jìn)行處理;(2)無用詞匯的刪除,它主要是過濾掉那些對于信息獲取過程來說區(qū)分能力低的詞匯;(3)詞干提取,它主要是去除詞綴(前綴和后綴),這樣可以允許所獲取的文檔包含一些查詢詞條的變換形式;(4)索引詞條/詞干的選擇,在選擇的時(shí)候通常按照單詞的習(xí)慣用法,實(shí)際上名詞往往要比形容詞、副詞和動詞包含更多的語義;(5)構(gòu)造詞條的分類結(jié)構(gòu),例如詞典或者結(jié)構(gòu)抽取,利用它可以進(jìn)行查詢的擴(kuò)展。34深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所文本的詞法分析詞法分析的過程是將字符串(文檔中的文本)轉(zhuǎn)換成詞條的過程,這些詞條可能被用來作為索引詞條。因此詞法分析的主要目的就是識別文本中的詞條。在對英文進(jìn)行分詞的過程中,除了空格分隔符,還有幾種特殊的情況要處理:數(shù)字、連字符、標(biāo)點(diǎn)符號和字母的大小寫。數(shù)字一般不適合用作索引詞條,因?yàn)閷τ跀?shù)字來說,如果不參考上下文,它就沒有明確的含義。35深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所文本的詞法分析連字符的處理,目前常用的是首先采用一定的規(guī)則選出那些對詞義有影響的連字符號,然后將其他的連字符都過濾掉。文本中標(biāo)點(diǎn)符號的處理,在詞法分析過程中將被全部去除。但是,對于那些成為單詞中一部分的標(biāo)點(diǎn)符號來說,一般不可以去除。字母的大小寫處理,可以將文本中的所有詞條都轉(zhuǎn)換成大寫或者小寫。但是在某些特殊情況下,也需要對大小寫進(jìn)行區(qū)分。36深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所中文分詞技術(shù)所謂分詞,指的就是將一個(gè)完整的句子劃分為一個(gè)個(gè)詞條的過程。這種詞條應(yīng)當(dāng)滿足某種語言規(guī)則,以便于為其建立索引。1.中文分詞的方法單字切分:就是按照中文一個(gè)字、一個(gè)字地進(jìn)行分詞。二分法:就是指每兩個(gè)字進(jìn)行一次切分。詞庫分詞:就是用一個(gè)已經(jīng)建立好的詞的集合去匹配目標(biāo),當(dāng)遇上集合中已經(jīng)存在的詞時(shí),就將之切分出來。37深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所中文分詞技術(shù)2.中文分詞的系統(tǒng)評價(jià)用戶相應(yīng)度:主要指用戶對這項(xiàng)技術(shù)的滿意度。兼容性:能在不同的系統(tǒng)中都可以毫無障礙地使用,而且能給各行各業(yè)都帶來方便。準(zhǔn)確率:是分詞系統(tǒng)性能的核心指標(biāo),系統(tǒng)的準(zhǔn)確率越高越好。準(zhǔn)確率(p)=切分結(jié)果中正確分詞數(shù)/切分結(jié)果中所有分詞數(shù)*100%38深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所中文分詞技術(shù)運(yùn)行效率:在分詞系統(tǒng)中分詞的工作消耗的時(shí)間應(yīng)盡量少,使用戶沒有等待的感覺。適用性:好的分詞系統(tǒng)具有良好的適用性,可以方便地集成在各種各樣的漢語信息處理系統(tǒng)中。通用性:中文分詞系統(tǒng)必須具有很好的通用性。中文分詞系統(tǒng)應(yīng)支持不同地區(qū)的漢語處理;應(yīng)能適應(yīng)不同地區(qū)的不同用字、用詞,不同的語言風(fēng)格。39深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所中文分詞技術(shù)3.中文分詞算法中文分詞的算法主要有:正向最大匹配、逆向最大匹配、雙向最大匹配、最佳匹配法、最少分詞法、詞網(wǎng)格算法、逐詞遍歷法、設(shè)立切分法、有窮多層次列舉法、二次掃描法、鄰接約束法、鄰接知識約束法和專家系統(tǒng)法等等?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。40深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所基于字符串匹配的分詞方法這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。41深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所基于字符串匹配的分詞方法①最大匹配法(ForwardMaximumMatchingmethod,F(xiàn)MM)FMM算法是正向最大匹配算法,它是基于字符串匹配的一種分詞方法,其主要的算法思想是,選取包含6~8個(gè)漢字的符號串作為最大符號串,把最大符號串與詞典中的單詞條目相匹配,如果不能匹配,就削掉一個(gè)漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞為止。匹配的方向是從左向右。42深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所基于字符串匹配的分詞方法②逆向最大匹配法(BackwardMaximumMatchingmethod,BMM)基于字符串匹配的一種分詞方法,基本算法和正向最大匹配法相似,只是匹配的方向是從左到右,它的算法比FMM的精確度高一些。③雙向匹配法(Bi-directionMatchingmethod,BM)對FMM法和BMM法結(jié)合起來的算法稱為雙向匹配法,這種速算法通過比較兩者的切分結(jié)果,來決定正確的切分,而且可以識別出分詞中的交叉歧義。43深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所基于字符串匹配的分詞方法④最少匹配算法(FewestWordsMatching,F(xiàn)WM)實(shí)現(xiàn)的分詞結(jié)果中含詞數(shù)最少,它和在有向圖中搜索最短路徑很相似。控制首先要對所選的語料進(jìn)行分段,然后逐段計(jì)算最短路徑,得到若干個(gè)分詞結(jié)果,最后進(jìn)行統(tǒng)計(jì)排歧,確定最理想的分詞結(jié)果。44深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所基于字符串匹配的分詞方法⑤網(wǎng)格分詞算法基于統(tǒng)計(jì)性的一種分詞算法,它的算法思想是:首先構(gòu)造候選詞網(wǎng)格,利用詞典匹配,列舉輸入句子所有可能的切分詞語,并且以詞網(wǎng)格形式保存;然后計(jì)算詞網(wǎng)格中的每一條路徑的權(quán)值,權(quán)值通過計(jì)算圖中每一結(jié)點(diǎn)得一元統(tǒng)計(jì)概率和結(jié)點(diǎn)之間的二元統(tǒng)計(jì)概率的相關(guān)信息;最后根據(jù)搜索算法在圖中找到一條權(quán)值最大的路徑,作為最后的分詞結(jié)果。45深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所基于理解的分詞方法這種分詞方法是通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模擬了人對句子的理解過程。46深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。47深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所分詞中的難題在中文分詞過程中,有兩大難題。(1)歧義識別歧義是指同樣的一句話,可能有兩種或者更多的切分方法。(2)新詞識別新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。48深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所無用詞匯的刪除在信息庫的文檔中太頻繁出現(xiàn)的單詞將不會成為具有良好區(qū)分能力的詞匯。實(shí)際上,如果一個(gè)單詞出現(xiàn)在信息庫中80%的文檔中,該單詞對于信息獲取過程來說根本沒用,這些詞統(tǒng)稱為無用詞匯。在選擇索引詞條的時(shí)候,這些詞條常常被過濾掉。刪除無用詞匯對于信息獲取來說具有重要意義,它可以大大縮小索引空間的大小,而且空間的縮小一般可以在40%左右。49深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所詞干提取技術(shù)在用戶查詢過程中,經(jīng)常會發(fā)生如下情況:用戶輸入詞匯是信息庫中某個(gè)相關(guān)文檔中詞匯的一種變形,詞匯的變形可以是該詞的復(fù)數(shù)、動名詞或過去分詞形式等。所謂詞干是單詞的一部分,是去除詞的前綴和后綴后剩下的部分。詞干提取技術(shù)可以分為4種:詞綴刪除、表格查詢、后續(xù)變形和N個(gè)字符列。50深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所索引詞條的選擇在全文索引中,對所有的詞條都要建立索引。但是,對有些無用詞條建立索引將浪費(fèi)系統(tǒng)的索引空間,而且影響系統(tǒng)的檢索性能,因此并不一定對文檔中出現(xiàn)的所有詞條都建立索引,而是選擇一些比較重要的詞條來建立索引。句子一般是由名詞、代詞、冠詞、動詞、形容詞、副詞、介詞和連詞構(gòu)成。在這些詞中,主要是由名詞表達(dá)句子的語義的,因此選擇句子中的名詞來作為索引詞條是一種可行的方法。51深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所詞典詞典是用來根據(jù)詞匯找到對應(yīng)詞匯信息的數(shù)據(jù)匯編。詞典的主要作用是:(1)提供索引和搜索的標(biāo)準(zhǔn)詞匯;(2)幫助用戶使用合適的查詢詞匯;(3)提供分類層次結(jié)構(gòu),這樣可以根據(jù)用戶的需求來擴(kuò)大或者縮小查詢請求。詞典的主要組成部分是索引詞、詞語之間的關(guān)系以及編排的方式。52深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所詞典索引詞是詞典的索引單元。通常來說,詞典中的一個(gè)詞語表示一個(gè)概念,它是表達(dá)觀點(diǎn)的基本語義單元。詞語可以使一個(gè)單詞、一組詞和短語。一個(gè)詞語相關(guān)索引詞的集合是由同義詞和近義詞組成的,另外還可以包含相關(guān)索引詞之間的關(guān)系。利用詞典對用戶的查詢進(jìn)行適當(dāng)?shù)臄U(kuò)展53深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所4.3PageRank算法54深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所PageRankPageRank是Google的創(chuàng)始人LarryPage發(fā)明的一種網(wǎng)頁級別的算法。Google的PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量來衡量網(wǎng)站的價(jià)值。PageRank背后的概念是,每個(gè)到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個(gè)就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個(gè)概念引自學(xué)術(shù)中一篇論文的被引述的頻度——即被別人引述的次數(shù)越多,一般判斷這篇論文的權(quán)威性就越高。55深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所PageRank一個(gè)網(wǎng)頁多次被引用,則可能是很重要的;如果一個(gè)網(wǎng)頁沒有被多次引用,但是如果被重要的網(wǎng)頁引用,也有可能是重要的網(wǎng)頁。一個(gè)網(wǎng)頁的重要性被平均地傳遞到它所引用的網(wǎng)頁上,這種網(wǎng)頁稱為權(quán)威(Authoritive)網(wǎng)頁。網(wǎng)頁重要性的評價(jià)主要有三種:(1)認(rèn)可度越高的網(wǎng)頁越重要,即反向鏈接越多的網(wǎng)頁越重要。(2)反向鏈接的源網(wǎng)頁質(zhì)量越高,被這些高質(zhì)量網(wǎng)頁的鏈接指向的網(wǎng)頁越重要。(3)鏈接數(shù)越少的網(wǎng)頁越重要。56深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所PagePank的算法1.PageRank算法1其中:PRn(A)是網(wǎng)頁A的PageRank值,PRn-1(Ti)是指網(wǎng)頁Ti存在指向A的鏈接,并且網(wǎng)頁在上一次迭代時(shí)的PageRank值,C(Ti)是指網(wǎng)頁Ti的外鏈數(shù)量??梢?,首先,PageRank并不是將整個(gè)網(wǎng)站排等級,而是以單個(gè)頁面計(jì)算的。其次,頁面A的PageRank值取決于那些連接到A的頁面的PageRank的遞歸值。57深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所
PageRank示例58深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所PagePank的算法2.PageRank算法2假定用戶一開始隨機(jī)地訪問網(wǎng)頁集合中的一個(gè)網(wǎng)頁,以后跟隨網(wǎng)頁的向外鏈接向前瀏覽網(wǎng)頁,而不回退瀏覽,瀏覽下一個(gè)網(wǎng)頁的概率就是被瀏覽網(wǎng)頁的PageRank值?;谝陨系脑恚惴?可改進(jìn)為以下的公式:59深圳大學(xué)未來媒體技術(shù)與計(jì)算研究所PageRank的特性假定存在如圖所示簡單的網(wǎng)頁鏈接關(guān)系。假
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職機(jī)電一體化技術(shù)(設(shè)備故障診斷)試題及答案
- 2025年大學(xué)大一(人工智能技術(shù)應(yīng)用)機(jī)器學(xué)習(xí)實(shí)務(wù)試題及答案
- 2025年大學(xué)通識選修(博物館與中國藝術(shù))試題及答案
- 2025年高職智能化工程技術(shù)(智能系統(tǒng))試題及答案
- 2025年高職市場營銷(品牌推廣方案設(shè)計(jì))試題及答案
- 禁毒科普作品
- 珠寶設(shè)計(jì)職業(yè)規(guī)劃
- 2026招商銀行中山分行寒假實(shí)習(xí)生招募備考題庫及答案詳解一套
- 福建省莆田市秀嶼區(qū)莆田第二十五中學(xué)2025-2026學(xué)年九年級上學(xué)期1月期末道德與法治試題(無答案)
- 【試卷】四川省達(dá)州市通川區(qū)2025-2026學(xué)年八年級上學(xué)期1月期末歷史試題
- 2026年食品安全員培訓(xùn)考試模擬題庫及解析答案
- 道路交通反違章培訓(xùn)課件
- 2026年電商直播主播簽約協(xié)議
- 遼寧省建筑工程施工品質(zhì)標(biāo)準(zhǔn)化指導(dǎo)圖集(可編輯經(jīng)典版)
- 2026年中化地質(zhì)礦山總局浙江地質(zhì)勘查院招聘備考題庫及1套完整答案詳解
- 護(hù)理部年度述職報(bào)告
- 2026年高考全國一卷英語真題試卷(新課標(biāo)卷)(+答案)
- 2025年度麻醉科主任述職報(bào)告
- GB/T 10125-2021人造氣氛腐蝕試驗(yàn)鹽霧試驗(yàn)
- 綜合醫(yī)院心身疾病診治課件
- 陜西省渭南市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細(xì)及行政區(qū)劃代碼
評論
0/150
提交評論