網(wǎng)絡(luò)信息內(nèi)容獲取技術(shù)概述_第1頁
網(wǎng)絡(luò)信息內(nèi)容獲取技術(shù)概述_第2頁
網(wǎng)絡(luò)信息內(nèi)容獲取技術(shù)概述_第3頁
網(wǎng)絡(luò)信息內(nèi)容獲取技術(shù)概述_第4頁
網(wǎng)絡(luò)信息內(nèi)容獲取技術(shù)概述_第5頁
已閱讀5頁,還剩159頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息內(nèi)容安全任延珍武漢大學(xué)計(jì)算機(jī)學(xué)院空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室上節(jié)回顧顧(3)信息獲取取信息分析析表示理解識(shí)別信息管控控分級(jí)過濾阻斷審計(jì)取證還原被動(dòng)主動(dòng)第二章網(wǎng)絡(luò)信息息內(nèi)容獲獲取技術(shù)術(shù)本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)1.1互聯(lián)網(wǎng)信信息類型型網(wǎng)絡(luò)信息息發(fā)布形形式搜索引擎即時(shí)通信門戶網(wǎng)站論壇博客微信微博聚合內(nèi)容電子郵件現(xiàn)代信息息傳播方方法口信報(bào)紙電視電話信件電臺(tái)廣播網(wǎng)絡(luò)信息息量截至2011年12月底,中中國網(wǎng)站站數(shù)量為為230萬,中國國網(wǎng)頁數(shù)數(shù)量為866億個(gè),平平均每個(gè)個(gè)網(wǎng)站的的網(wǎng)頁數(shù)數(shù)是5588個(gè),平均均每個(gè)網(wǎng)網(wǎng)頁的字字節(jié)數(shù)是是28.6KB網(wǎng)絡(luò)信息息類型網(wǎng)絡(luò)媒體體形態(tài)廣播式媒媒體新聞網(wǎng)站站、論壇壇、博客客交互式媒媒體搜索引擎擎、多媒媒體點(diǎn)播播、網(wǎng)上上交友、、網(wǎng)上招招聘、電電子商務(wù)務(wù)(網(wǎng)絡(luò)絡(luò)購物))網(wǎng)絡(luò)信息息類型網(wǎng)絡(luò)媒體體信息:互聯(lián)網(wǎng)網(wǎng)網(wǎng)站公公開發(fā)布布的信息息。網(wǎng)絡(luò)絡(luò)用戶通通??梢砸曰谕ㄍㄓ镁W(wǎng)絡(luò)絡(luò)瀏覽器器獲得互互聯(lián)網(wǎng)公公開發(fā)布布的信息息。網(wǎng)絡(luò)通信信信息:除了使使用瀏覽覽器之外外的專業(yè)業(yè)客戶端端軟件,,實(shí)現(xiàn)與與特定點(diǎn)點(diǎn)的通信信或進(jìn)行行點(diǎn)對(duì)點(diǎn)點(diǎn)通信時(shí)時(shí)所交互互的信息息。網(wǎng)絡(luò)信息息類型發(fā)布信息息類型文本信息息:比例例最大圖像信息息音頻信息息視頻信息息網(wǎng)絡(luò)信息息類型媒體發(fā)布布方式直接匿名名瀏覽::公開發(fā)發(fā)布信息息需要身份份認(rèn)證的的網(wǎng)絡(luò)信信息發(fā)布布網(wǎng)絡(luò)信息息類型網(wǎng)頁形態(tài)態(tài)靜態(tài)網(wǎng)頁頁動(dòng)態(tài)網(wǎng)頁頁:含““?”或或輸入?yún)?shù)的URL網(wǎng)絡(luò)信息息類型信息交互互協(xié)議網(wǎng)頁瀏覽覽:HTTP文件傳輸輸:ftp電子郵件件:foxmail,outlook聊天工具具:qq,微信,MSN多媒體交交互工具具:skype,rtsp,rtp網(wǎng)絡(luò)通信信信息專業(yè)客戶戶端軟件件電子郵件件:foxmail,outlook聊天工具具:qq,微信,MSN多媒體交交互信息息:skype1.1網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型圖2-1網(wǎng)絡(luò)環(huán)境境下的信信息內(nèi)容容獲取模模型2.1網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型信息檢索索(InformationSearch,,IS)是信息的的需求者者主動(dòng)地地在網(wǎng)上上搜尋所所需要的的信息。。1951年,CalvinMooers首次提出出了“信信息檢索索(InformationRetrieval,,IR)”概念念[1],并給出出了信息息檢索的的主要任任務(wù):即即協(xié)助信信息的潛潛在用戶戶將信息息需求轉(zhuǎn)轉(zhuǎn)換成一一張文獻(xiàn)獻(xiàn)來源信信息列表表,而這這些文獻(xiàn)獻(xiàn)包含對(duì)對(duì)用戶有有用的信信息。目目前通常常使用搜搜索引擎擎技術(shù)完完成信息息檢索功功能。2.1網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型信息推薦薦(Informationrecommendation)又稱為信信息推送送(InformationPush),是指指網(wǎng)絡(luò)信信息服務(wù)務(wù)系統(tǒng)從從網(wǎng)上的的信息源源或信息息提供商商獲取信信息,并并通過固固定的頻頻道向用用戶發(fā)送送信息的的新型信信息傳播播系統(tǒng)。。2.1網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型信息交互互是一種雙雙向的信信息交流流,在信信息交互互的過程程中,信信息獲取取的個(gè)體體可以通通過所交交流的信信息滿足足認(rèn)知上上和情感感上的信信息需求求。2.1網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型信息瀏覽覽方式相當(dāng)于傳傳統(tǒng)情況況下的閱閱讀、觀觀看、傾傾聽等獲獲取信息息的行為為。1.2網(wǎng)絡(luò)媒體體信息獲獲取原理理網(wǎng)絡(luò)媒體體信息獲獲取原理理網(wǎng)絡(luò)信息息獲取范范圍:理論上可可以覆蓋蓋整個(gè)國國際互聯(lián)聯(lián)網(wǎng)網(wǎng)絡(luò)媒體體信息獲獲取理想想流程網(wǎng)上采集集算法網(wǎng)上采集集算法,,又稱為為網(wǎng)絡(luò)爬蟲蟲(WebCrawler)、網(wǎng)絡(luò)蜘蛛蛛(WebSpider)或Web信息采集集器,是一個(gè)個(gè)自動(dòng)下載載網(wǎng)頁的的計(jì)算機(jī)機(jī)程序或或自動(dòng)化化腳本,是搜索索引擎的的重要組組成部分分。1.3網(wǎng)絡(luò)媒體體信息獲獲取的分分類全網(wǎng)信息息獲取定點(diǎn)信息息獲取1.全網(wǎng)信息息獲取搜索引擎擎,大型型內(nèi)容服服務(wù)提供供商google百度Yahoo單次全網(wǎng)網(wǎng)信息獲獲取一般般需要數(shù)數(shù)周乃至至數(shù)月時(shí)時(shí)間網(wǎng)站提供供Sitmap,提高搜搜索效率率獲取——顯示(排排名PageRank)2.定點(diǎn)信息息獲取全網(wǎng)信息息檢索存儲(chǔ)空間間要求大大,難以以保障信信息獲取取的時(shí)效效性定點(diǎn)獲取取:重點(diǎn)關(guān)注注的特定定網(wǎng)絡(luò)區(qū)區(qū)域深入搜索索定期輪詢?cè)兯阉?/p>

3.基于主題題的信息息獲取和和元搜索索國內(nèi)元搜搜索引擎擎·搜魅網(wǎng)網(wǎng)(someta)::

·馬馬虎聚搜搜:··佐意綜綜合搜索索(chinazss)··比比貓貓(bbmao)………..3.基于主題題的信息息獲取和和元搜索索高級(jí)檢索索功能::提高檢索索的質(zhì)量量使用布爾邏輯輯符檢索最后更新新頁面((時(shí)間檢檢索)域名過濾濾(DomainFilter)成人過濾濾(AdultFilter)語言選擇擇(LanguageSelection):結(jié)果展示示(ResultsDisplay):排序序網(wǎng)絡(luò)媒體體信息獲獲取的技技術(shù)難點(diǎn)點(diǎn)網(wǎng)絡(luò)媒體體信息:形態(tài)各異異、信息息類型多多樣。針對(duì)完全全異構(gòu)的的網(wǎng)絡(luò)媒媒體信息息,對(duì)信信息提取取的全面面性和時(shí)時(shí)效性提提出了更更高的要要求。拒絕服務(wù)務(wù):部分網(wǎng)絡(luò)絡(luò)媒體選選擇屏蔽蔽過于頻頻繁的、、來自相相同客戶戶端的信信息獲取取操作。。降低訪問問頻率更換客戶戶端信息息網(wǎng)絡(luò)通信信信息獲獲取方案案網(wǎng)絡(luò)通信信:電子子郵件、、即時(shí)通通信軟件件、金融融客戶端端、視頻頻點(diǎn)播信息獲取取過程網(wǎng)絡(luò)通信信信息鏡鏡像網(wǎng)絡(luò)交互互數(shù)據(jù)重重組通信協(xié)議議數(shù)據(jù)恢恢復(fù)網(wǎng)絡(luò)通信信信息存存儲(chǔ)1.3網(wǎng)絡(luò)通信信信息獲獲取原理理網(wǎng)絡(luò)通信信信息獲獲取方案案網(wǎng)絡(luò)通信信信息獲獲取流程程本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)二、搜索索引擎技技術(shù)據(jù)調(diào)查統(tǒng)統(tǒng)計(jì)顯示示:全球以中中文為母母語的人人口占總總?cè)丝诘牡?2%以上;2011年底中國國網(wǎng)民人人數(shù)已經(jīng)經(jīng)超過5億人;中文網(wǎng)頁頁數(shù)量已已經(jīng)占到到了全球球網(wǎng)頁數(shù)數(shù)量的15%以上。搜索引擎擎已成為為中國網(wǎng)網(wǎng)民使用用最為頻頻繁的互互聯(lián)網(wǎng)應(yīng)應(yīng)用。龐大的中中文用戶戶群、豐豐富的中中文網(wǎng)頁頁資源和和中文信信息處理理特有的的難度,,以及搜搜索引擎擎作為互互聯(lián)網(wǎng)基基礎(chǔ)工具具的重要要地位,,極大地地推動(dòng)了了中文搜搜索引擎擎的研究究和開發(fā)發(fā)二、搜索索引擎技技術(shù)中文搜索索引擎的的發(fā)展最早見于于“748工程”中中的漢字字情報(bào)檢檢索清華大學(xué)學(xué)的《中中國學(xué)術(shù)術(shù)期刊((光盤版版)》2001年,百度度搜索從2003年開始,,中文網(wǎng)網(wǎng)絡(luò)信息息服務(wù)的的四大門門戶網(wǎng)站站(新浪浪、搜狐狐、網(wǎng)易易和騰訊訊)陸續(xù)續(xù)推出了了自己的的搜索引引擎服務(wù)務(wù)二、搜索索引擎技技術(shù)中文搜索索引擎的的關(guān)鍵技技術(shù):網(wǎng)頁內(nèi)容容分析網(wǎng)頁索引引查詢解析析相關(guān)性計(jì)計(jì)算二、搜索索引擎技技術(shù)一個(gè)通用用搜索引引擎包括括網(wǎng)上采采集、索索引、查查詢、排排級(jí)和提提交等算算法,相相關(guān)概念念參見表表2-1本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)2.2..1網(wǎng)上采集集算法2.2..2排級(jí)算法法2.2..3討論搜索引擎擎與垃圾圾信息關(guān)關(guān)系三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)2.2..1網(wǎng)上采集集算法網(wǎng)上采集集算法,,又稱為為網(wǎng)絡(luò)爬蟲蟲(WebCrawler)、網(wǎng)絡(luò)蜘蛛蛛(WebSpider)或Web信息采集集器,是一個(gè)個(gè)自動(dòng)下載載網(wǎng)頁的的計(jì)算機(jī)機(jī)程序或或自動(dòng)化化腳本,是搜索索引擎的的重要組組成部分分。2.2..1網(wǎng)上采集集算法工作原理理2.2..1網(wǎng)上采集集算法按照系統(tǒng)統(tǒng)結(jié)構(gòu)和和實(shí)現(xiàn)技技術(shù),大大致可以以分為以以下幾種種類型::通用網(wǎng)絡(luò)絡(luò)爬蟲((GeneralPurposeWebCrawler)聚焦網(wǎng)絡(luò)絡(luò)爬蟲((FocusedWebCrawler)增量式網(wǎng)網(wǎng)絡(luò)爬蟲蟲(IncrementalWebCrawler)深層網(wǎng)絡(luò)絡(luò)爬蟲((DeepWebCrawler)。實(shí)際的網(wǎng)網(wǎng)絡(luò)爬蟲蟲系統(tǒng)通通常是幾幾種爬蟲蟲技術(shù)相相結(jié)合實(shí)實(shí)現(xiàn)網(wǎng)絡(luò)媒體體信息獲獲取原理理1.初始URL集合2.信息獲取取3.信息解析析4.信息叛重重2.2..1網(wǎng)上采集集算法爬蟲算法法1.初始URL集合跟隨網(wǎng)頁頁內(nèi)嵌鏈鏈接逐級(jí)級(jí)遞歸便便利互聯(lián)聯(lián)網(wǎng)絡(luò)2.信息獲取取根據(jù)來自自網(wǎng)絡(luò)地地址集合合或URL隊(duì)列中的的每條網(wǎng)網(wǎng)絡(luò)地址址信息,,確定獲獲取內(nèi)容容所采用用的信息息發(fā)布協(xié)協(xié)議?;谔囟ǘ▍f(xié)議的的網(wǎng)絡(luò)交交互機(jī)制制,向信信息發(fā)布布網(wǎng)站請(qǐng)請(qǐng)求所需需內(nèi)容。。HTTP文本信息息獲取范范例隨著信息息媒體形形態(tài)的增增加,信信息交互互協(xié)議的的增加,,實(shí)現(xiàn)信信息獲取取的操作作復(fù)雜度度和網(wǎng)絡(luò)絡(luò)交互重重構(gòu)難度度呈指數(shù)數(shù)級(jí)增長(zhǎng)長(zhǎng)2.信息解析析根據(jù)不同同通信協(xié)協(xié)議的具具體定義義,從網(wǎng)網(wǎng)絡(luò)響應(yīng)應(yīng)信息相相應(yīng)位置置提取發(fā)發(fā)布信息息的主體體內(nèi)容信息關(guān)鍵鍵字段信息來源源信息標(biāo)題題信息失效效時(shí)間信息最近近修改時(shí)時(shí)間3.信息解析析(HTTP/HTML)4.信息判重重主要基于于網(wǎng)絡(luò)媒媒體信息息URL與內(nèi)容摘摘要兩大大元素,,實(shí)現(xiàn)信信息采集集/存儲(chǔ)的與與否判斷斷。URL判重:在在信息采采集操作作啟動(dòng)之之前進(jìn)行行是否已經(jīng)經(jīng)采集是否已經(jīng)經(jīng)過期內(nèi)容摘要要判重::采集信信息存儲(chǔ)儲(chǔ)時(shí)進(jìn)行行MD5從爬蟲的的角度對(duì)對(duì)互聯(lián)網(wǎng)網(wǎng)進(jìn)行劃劃分爬蟲URL抓取策略略深度優(yōu)先先遍歷策策略寬度優(yōu)先先遍歷策策略反向鏈接接數(shù)策略略PartialPageRank策略O(shè)PIC策略大站優(yōu)先先策略深度優(yōu)先先遍歷策策略指網(wǎng)絡(luò)爬爬蟲會(huì)從從起始頁頁開始,,一個(gè)鏈鏈接一個(gè)個(gè)鏈接跟跟蹤下去去,處理理完這條條線路之之后再轉(zhuǎn)轉(zhuǎn)入下一一個(gè)起始始頁,繼繼續(xù)跟蹤蹤鏈接遍歷的路路徑:A-F--GE-H-IBCD寬度優(yōu)先先遍歷策策略指網(wǎng)絡(luò)爬爬蟲會(huì)先先抓取起起始網(wǎng)頁頁中鏈接接的所有有網(wǎng)頁,,然后再再選擇其其中的一一個(gè)鏈接接網(wǎng)頁,,繼續(xù)抓抓取在此此網(wǎng)頁中中鏈接的的所有網(wǎng)網(wǎng)頁。遍歷路徑徑:A-B--C-D-E--FGHI反向鏈接接數(shù)策略略反向鏈接接數(shù):一一個(gè)網(wǎng)頁頁被其他他網(wǎng)頁鏈鏈接指向向的數(shù)量量。反向鏈接接數(shù)表示示的是一一個(gè)網(wǎng)頁頁的內(nèi)容容受到其其他人的的推薦的的程度。。因此,,很多時(shí)時(shí)候搜索索引擎的的抓取系系統(tǒng)會(huì)使使用這個(gè)個(gè)指標(biāo)來來評(píng)價(jià)網(wǎng)網(wǎng)頁的重重要程度度,從而而決定不不同網(wǎng)頁頁的抓取取先后順順序。在真實(shí)的的網(wǎng)絡(luò)環(huán)環(huán)境中,,由于廣廣告鏈接接、作弊弊鏈接的的存在,,反向鏈鏈接數(shù)不不能完全全等同的的重要程程度。因因此,搜搜索引擎擎往往考考慮一些些可靠的的反向鏈鏈接數(shù)。。PartialPageRank策略對(duì)于于已已經(jīng)下載載的網(wǎng)頁頁,連同同待抓取取URL隊(duì)列中的的URL,形成網(wǎng)網(wǎng)頁集合合,計(jì)算算每個(gè)頁頁面的PageRank值,計(jì)算算完之后后,將待待抓取URL隊(duì)列中的的URL按照PageRank值的大小小排列,,并按照照該順序序抓取頁頁面OPIC策略該算法實(shí)實(shí)際上也也是對(duì)頁頁面進(jìn)行行一個(gè)重重要性打打分。在在算法開開始前,,給所有有頁面一一個(gè)相同同的初始始現(xiàn)金((cash)。當(dāng)下下載了某某個(gè)頁面面P之后,將將P的現(xiàn)金分分?jǐn)偨o所所有從P中分析出出的鏈接接,并且且將P的現(xiàn)金清清空。對(duì)對(duì)于待抓抓取URL隊(duì)列中的的所有頁頁面按照照現(xiàn)金數(shù)數(shù)進(jìn)行排排序。大站優(yōu)先先策略對(duì)于待抓抓取URL隊(duì)列中的的所有網(wǎng)網(wǎng)頁,根根據(jù)所屬屬的網(wǎng)站站進(jìn)行分分類。對(duì)對(duì)于待下下載頁面面數(shù)多的的網(wǎng)站,,優(yōu)先下下載。2.2..1網(wǎng)上采集集算法本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)2.2..1網(wǎng)上采集集算法2.2..2排級(jí)算法法2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)2.2..2排級(jí)算法法網(wǎng)頁排級(jí)級(jí)是對(duì)搜搜索結(jié)果果的分析析,使那那些更具具“重要要性”的的網(wǎng)頁在在搜索結(jié)結(jié)果中的的排名獲獲得提升升,從而而提高搜搜索結(jié)果果的相關(guān)關(guān)性和質(zhì)質(zhì)量網(wǎng)頁排級(jí)級(jí)》》網(wǎng)頁的““重要性性”--》網(wǎng)頁普及及度評(píng)分分2.2..2排級(jí)算法法兩種應(yīng)用用最廣、、最成功功的排級(jí)級(jí)算法HITS2.2..2排級(jí)算法法:PageRank2.2..2排級(jí)算法法:PageRank原理:民主表決決核心思想想:在互聯(lián)網(wǎng)網(wǎng)上,如如果一個(gè)個(gè)網(wǎng)頁被被很多其其它網(wǎng)頁頁所鏈接接,說明明它受到到普遍的的承認(rèn)和和信賴,,那么它它的排名名就高。。2.2..2排級(jí)算法法:PageRank圖的基本本概念度(degree):指和該該頂點(diǎn)相相關(guān)聯(lián)的的邊數(shù)。。在有向圖圖中,度度又分為為入度和出度。入度(in--degree):以某頂頂點(diǎn)為弧弧頭,終終止于該該頂點(diǎn)的的弧的數(shù)數(shù)目稱為為該頂點(diǎn)點(diǎn)的入度度出度(out-degree):以某頂頂點(diǎn)為弧弧頭,起起始于該該頂點(diǎn)的的弧的數(shù)數(shù)目稱為為該頂點(diǎn)點(diǎn)的出度度在某頂點(diǎn)點(diǎn)的入度度和出度度的和稱稱為該頂頂點(diǎn)的度例如:((a)中Vo的入度為為1,出度為為2,度為32.2..2排級(jí)算法法:PageRank2.2..2排級(jí)算法法:PageRank2.2..2排級(jí)算法法:PageRank入度(in-degree)出度(out--degree)頁面t被訪問到到的概率率,即其其PageRank值影響因子子(dampingfactor),取2.2..2排級(jí)算法法:PageRank網(wǎng)頁數(shù)量量過大問問題的解解決稀疏矩陣陣MapReduce2.2..2排級(jí)算法法:PageRank優(yōu)點(diǎn):(1)直接高高效(2)主題集集中PageRank算法存在在的缺陷如下:(1)完全忽忽略網(wǎng)頁頁內(nèi)容,,干擾挖挖掘結(jié)果果(2)結(jié)果范范圍窄(3)影響因因子與網(wǎng)網(wǎng)頁獲取取數(shù)量缺缺乏科學(xué)學(xué)性PR(PageRank(網(wǎng)網(wǎng)頁級(jí)別別))PR外部鏈接接的數(shù)量量外部鏈接接的質(zhì)量量PR(PageRank(網(wǎng)網(wǎng)頁級(jí)別別))用來表現(xiàn)現(xiàn)網(wǎng)頁等級(jí)的一一個(gè)標(biāo)準(zhǔn)準(zhǔn),級(jí)別別分別是是0到10,是Google用于評(píng)測(cè)測(cè)一個(gè)網(wǎng)網(wǎng)頁“重重要性””的一種種方法PR值越高說說明該網(wǎng)網(wǎng)頁越受受歡迎((越重要要)。例如:一一個(gè)PR值為1的網(wǎng)站表表明這個(gè)個(gè)網(wǎng)站不太具有有流行度度,而PR值為7到10則表明這這個(gè)網(wǎng)站站非常受受歡迎((或者說說極其重重要)。。一般PR值達(dá)到4,就算是是一個(gè)不不錯(cuò)的網(wǎng)網(wǎng)站了2.2..2排級(jí)算法法:HITS1.Hub頁面與Authority頁面Hub頁面(樞樞紐頁面面)和Authority頁面(權(quán)權(quán)威頁面面)是HITS算法最基基本的兩兩個(gè)定義義。

“Authority””頁面,是是指與某某個(gè)領(lǐng)域域或者某某個(gè)話題題相關(guān)的的高質(zhì)量量網(wǎng)頁,,比如搜搜索引擎擎領(lǐng)域,,Google和百度首首頁即該該領(lǐng)域的的高質(zhì)量量網(wǎng)頁,,比如視視頻領(lǐng)域域,優(yōu)酷酷和土豆豆首頁即即該領(lǐng)域域的高質(zhì)質(zhì)量網(wǎng)頁頁。

1.Hub頁面與Authority頁面“Hub””頁面,指指的是包包含了很很多指向向高質(zhì)量量“Authority””頁面鏈接接的網(wǎng)頁頁,比如如hao123首頁可以以認(rèn)為是是一個(gè)典典型的高高質(zhì)量““Hub””網(wǎng)頁。

2.2..2排級(jí)算法法:HITS圖2-4Hub頁與Authority頁關(guān)系HITS:Hyperlink--InducedTopicSearch核心概念念:樞紐值(HubScores):頁面上上所有導(dǎo)導(dǎo)出鏈接接指向頁頁面的權(quán)權(quán)威值之之和權(quán)威值((AuthorityScores)所有導(dǎo)入入鏈接所所在的頁頁面的樞樞紐值之之和這兩個(gè)值值是相互互依存、、相互影影響的。。2.2..2排級(jí)算法法:HITSHITS算法的目目的即是是通過一一定的技技術(shù)手段段,在海海量網(wǎng)頁頁中找到到與用戶戶查詢主主題相關(guān)關(guān)的高質(zhì)質(zhì)量“Authority””頁面和““Hub””頁面,尤尤其是““Authority””頁面,因因?yàn)檫@些些頁面代代表了能能夠滿足足用戶查查詢的高高質(zhì)量?jī)?nèi)內(nèi)容,搜搜索引擎擎以此作作為搜索索結(jié)果返返回給用用戶。2.2..2排級(jí)算法法:HITS基本假設(shè)設(shè)1:一個(gè)好好的“Authority””頁面會(huì)被很多多好的“Hub””頁面指向向;基本假設(shè)設(shè)2:一個(gè)好好的“Hub””頁面會(huì)指向很很多好的的“Authority””頁面;。算法基本本思想::相互增增強(qiáng)關(guān)系系2.2..2排級(jí)算法法:HITS算法具體算法法:可利用以以上兩個(gè)個(gè)基本假假設(shè),以以及相互互增強(qiáng)關(guān)關(guān)系等原原則進(jìn)行行多輪迭迭代計(jì)算算,每輪輪迭代計(jì)計(jì)算更新新每個(gè)頁頁面的兩兩個(gè)權(quán)值值,直到到權(quán)值穩(wěn)穩(wěn)定不再再發(fā)生明明顯的變變化為止止。2.2..2排級(jí)算法法:HITS算法1.構(gòu)建根集集合2.擴(kuò)展集合合Base2.2..2排級(jí)算法法:HITS算法3.計(jì)算擴(kuò)展展集base中所有頁頁面的Hub值(樞紐紐度)和和Authority值(權(quán)威威度)3.4排序,結(jié)結(jié)果輸出出。優(yōu)點(diǎn):(1)知識(shí)范范圍擴(kuò)大大。(2)搜索時(shí)時(shí)部分地地考慮了了頁面內(nèi)內(nèi)容,挖掘結(jié)果果科學(xué)性性大大增增強(qiáng)不僅應(yīng)用用在搜索索引擎領(lǐng)領(lǐng)域,而而且被““自然語語言處理理”以及及“社交交分析””等很多多其它計(jì)計(jì)算機(jī)領(lǐng)領(lǐng)域借鑒鑒使用,,并取得得了很好好的應(yīng)用用效果2.2..2排級(jí)算法法:HITS存在的問問題:(1)計(jì)算效率率低,實(shí)時(shí)性差差與查詢相相關(guān)的算算法(2)“主題題漂移””(3)易被作作弊者操操縱結(jié)果果作弊者可可以建立立一個(gè)很很好的Hub頁面,再再將這個(gè)個(gè)網(wǎng)頁鏈鏈接指向向作弊網(wǎng)網(wǎng)頁,可可以提升升作弊網(wǎng)網(wǎng)頁的Authority得分(4)結(jié)構(gòu)不不穩(wěn)定在原有的的“擴(kuò)充充網(wǎng)頁集集合”內(nèi)內(nèi),如果果添加刪刪除個(gè)別別網(wǎng)頁或或者改變變少數(shù)鏈鏈接關(guān)系系,則HITS算法的排排名結(jié)果果就會(huì)有有非常大大的改變變。

2.2..2排級(jí)算法法:HITSHITS算法與PageRank算法比較較1.HITS算法是與與用戶輸輸入的查查詢請(qǐng)求求密切相相關(guān)的,,而PageRank與查詢請(qǐng)請(qǐng)求無關(guān)關(guān)。所以以,HITS算法可以以單獨(dú)作作為相似似性計(jì)算算評(píng)價(jià)標(biāo)標(biāo)準(zhǔn),而而PageRank必須結(jié)合合內(nèi)容相相似性計(jì)計(jì)算才可可以用來來對(duì)網(wǎng)頁頁相關(guān)性性進(jìn)行評(píng)評(píng)價(jià);2.HITS算法因?yàn)闉榕c用戶戶查詢密密切相關(guān)關(guān),所以以必須在在接收到到用戶查查詢后實(shí)實(shí)時(shí)進(jìn)行行計(jì)算,,計(jì)算效效率較低低;而PageRank則可以在在爬蟲抓抓取完成成后離線線計(jì)算,,在線直直接使用用計(jì)算結(jié)結(jié)果,計(jì)計(jì)算效率率較高;;HITS算法與PageRank算法比較較3.HITS算法的計(jì)計(jì)算對(duì)象象數(shù)量較較少,只只需計(jì)算算擴(kuò)展集集合內(nèi)網(wǎng)網(wǎng)頁之間間的鏈接接關(guān)系;;而PageRank是全局性性算法,,對(duì)所有有互聯(lián)網(wǎng)網(wǎng)頁面節(jié)節(jié)點(diǎn)進(jìn)行行處理;;4.從兩者的的計(jì)算效效率和處處理對(duì)象象集合大大小來比比較,PageRank更適合部部署在服服務(wù)器端端,而HITS算法更適適合部署署在客戶戶端;HITS算法與PageRank算法比較較5.HITS算法存在在主題泛泛化問題題,所以以更適合合處理具具體化的的用戶查查詢;而而PageRank在處理寬寬泛的用用戶查詢?cè)儠r(shí)更有有優(yōu)勢(shì);;6.HITS算法在計(jì)計(jì)算時(shí),,對(duì)于每每個(gè)頁面面需要計(jì)計(jì)算兩個(gè)個(gè)分值,,而PageRank只需計(jì)算算一個(gè)分分值即可可;在搜搜索引擎擎領(lǐng)域,,更重視視HITS算法計(jì)算算出的Authority權(quán)值,但但是在很很多應(yīng)用用HITS算法的其其它領(lǐng)域域,Hub分值也有有很重要要的作用用;

HITS算法與PageRank算法比較較7.從鏈接反反作弊的的角度來來說,PageRank從機(jī)制上上優(yōu)于HITS算法,而而HITS算法更易易遭受鏈鏈接作弊弊的影響響。8.HITS算法結(jié)構(gòu)構(gòu)不穩(wěn)定定,當(dāng)對(duì)對(duì)“擴(kuò)充充網(wǎng)頁集集合”內(nèi)內(nèi)鏈接關(guān)關(guān)系作出出很小改改變,則則對(duì)最終終排名有有很大影影響;而而PageRank相對(duì)HITS而言表現(xiàn)現(xiàn)穩(wěn)定,,其根本本原因在在于PageRank計(jì)算時(shí)的的“遠(yuǎn)程程跳轉(zhuǎn)””。網(wǎng)頁排名名推薦參考考文檔::《數(shù)學(xué)之美美》,吳軍,,第10章PageRank———google的明主表表決式網(wǎng)網(wǎng)頁排名名技術(shù)本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)2.2..1網(wǎng)上采集集算法2.2..2排級(jí)算法法2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系BernardJ..Jansen和AmandaSpink的研究結(jié)結(jié)果顯示示,大約約80%的用戶只只需要搜搜索結(jié)果果前3頁。為了了讓廣大大的網(wǎng)絡(luò)絡(luò)用戶能能夠看到到自己的的頁面,,網(wǎng)站管管理者和和網(wǎng)頁制制作者就就想方設(shè)設(shè)法讓其其站點(diǎn)和和頁面變變得有名名,以期期用戶在在進(jìn)行相相關(guān)內(nèi)容容查詢時(shí)時(shí),目標(biāo)標(biāo)網(wǎng)頁排排在結(jié)果果集的最最前面。。為此,,搜索引擎擎優(yōu)化(SearchEngineOptimization)應(yīng)運(yùn)而而生。2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系搜索引擎擎優(yōu)化((SearchEngineOptimization)搜索引擎擎優(yōu)化師師(SearchEngineOptimizer,SEOer)利用工具具或其他他手段,,使目標(biāo)標(biāo)網(wǎng)站符符合搜索索引擎的的搜索規(guī)規(guī)則,從從而獲得得較好的的排名2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系SEO可分為兩兩類具有良好好素養(yǎng)和和道德觀觀念的SEO,他們力力圖通過過優(yōu)化網(wǎng)網(wǎng)站結(jié)構(gòu)構(gòu)、提高高頁面質(zhì)質(zhì)量等方方法使自自己的網(wǎng)網(wǎng)頁獲得得好的排排名;通過尋找找“捷徑徑”提高高網(wǎng)頁的的排名,往往是垃圾信信息的制制造者。

2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系垃圾信息息制造手手段包括提高排名名(Boosting)技術(shù)關(guān)鍵字垃垃圾(termspamming)鏈接垃圾圾(linkspamming)隱藏(Hiding)技術(shù)對(duì)所使用用的Boosting技術(shù)進(jìn)行行隱藏,,盡量不不讓用戶戶和網(wǎng)絡(luò)絡(luò)采集器器發(fā)現(xiàn)主要技術(shù)術(shù)包括內(nèi)內(nèi)容隱藏藏(contenthiding)、偽裝裝(cloaking)和重定定向(redirection)如何提高高PRGoogle在在網(wǎng)站抓抓取的頁頁面數(shù),,數(shù)目越越多,Pagerank值越越高。但通常Google并并不會(huì)主主動(dòng)抓取取你的網(wǎng)網(wǎng)站的所所有頁面面,尤其其是網(wǎng)址址里帶有有“?””的動(dòng)態(tài)鏈接接。如何提高高PR最笨的辦辦法是把把網(wǎng)站所所有的頁頁面都提提交給Google,,更好的辦辦法是制制作一個(gè)個(gè)靜態(tài)Html頁面,,通常被被稱作““網(wǎng)站地圖圖”或“網(wǎng)站導(dǎo)航航”,它里里面包含含你要添添加的所所有網(wǎng)址址,然后后把這個(gè)個(gè)靜態(tài)頁頁面提交交給Google。影響PR的因素素1與pr高的網(wǎng)站站做鏈接接2內(nèi)容質(zhì)量量高的網(wǎng)網(wǎng)站鏈接接3加入搜索索引擎分分類目錄錄4加入免費(fèi)費(fèi)開源目目錄5你的鏈接接出現(xiàn)在在流量大大、知名名度高、、頻繁更更新的重重要網(wǎng)站站上6google對(duì)PDF格式的文文件比較較看重7安裝Google工具條8域名和title標(biāo)題出現(xiàn)現(xiàn)關(guān)鍵詞詞與meta標(biāo)簽等9反向鏈接接數(shù)量和和反向鏈鏈接的等等級(jí)提高PR的方法法1、增加網(wǎng)網(wǎng)站內(nèi)容容質(zhì)量,,不僅要要保持原原創(chuàng)性,,而且要要保證質(zhì)質(zhì)量。良良好的內(nèi)內(nèi)容不僅僅有利于于用戶體體驗(yàn),而而且有助助于提升升搜索引引擎對(duì)網(wǎng)網(wǎng)站友好好度、內(nèi)內(nèi)容的收收錄和網(wǎng)網(wǎng)站權(quán)重重。2、登錄搜搜索引擎擎和分類類目錄;;以及友情鏈接接,如果能能獲得來來自PR值不低于于4并與你的的主題相相關(guān)或互互補(bǔ)的網(wǎng)網(wǎng)站的友友情鏈接接,且很很少導(dǎo)出出鏈接,,那樣效效果更好好.3、寫一些些高質(zhì)量量的軟文,發(fā)布到到大型網(wǎng)網(wǎng)站,如如果得到到大家的的認(rèn)可,,你的網(wǎng)網(wǎng)址會(huì)被被無數(shù)的的網(wǎng)站轉(zhuǎn)轉(zhuǎn)載.這種方法法對(duì)于提提高PR值效果最最好.4、搜索引擎擎收錄一個(gè)網(wǎng)站站的頁面面數(shù)量,,如果收收錄的比比例越高高,對(duì)提提高PR值越有利利.提高PR的方法法5、提供有有價(jià)值的的網(wǎng)站內(nèi)內(nèi)容,并并進(jìn)行SEO優(yōu)化.對(duì)提高PR值也非常常的重要要.6、最好使使網(wǎng)站被被三大知知名網(wǎng)絡(luò)絡(luò)目錄DMOZ,Yahoo和Looksmart收錄,如如果能被被收錄,,對(duì)PR值的提高高非常的的迅速.7、與高PR值網(wǎng)站鏈鏈接,最最好找同同行業(yè)網(wǎng)網(wǎng)站進(jìn)行行友情鏈鏈接,其其次要防防止鏈接接欺騙以以及PR值劫持的的網(wǎng)站。。2.2..3搜索引擎擎與垃圾圾信息關(guān)關(guān)系搜索引擎擎和網(wǎng)絡(luò)絡(luò)垃圾信信息制造造者之間間的斗爭(zhēng)爭(zhēng)像一場(chǎng)場(chǎng)“軍備備競(jìng)賽””本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)2.3..1數(shù)據(jù)挖掘掘技術(shù)歷歷程2.3..2Web挖掘技術(shù)術(shù)2.3..3Web文本挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)2.3..1數(shù)據(jù)挖掘掘技術(shù)歷歷程1989年8月,IJCAI1989開展“在數(shù)據(jù)據(jù)庫中發(fā)發(fā)現(xiàn)知識(shí)識(shí)(KnowledgeDiscoveryinDatabase,KDD)”的研研討會(huì),,標(biāo)志著著數(shù)據(jù)挖挖掘成為為一個(gè)新新領(lǐng)域。。1995年,美國國計(jì)算機(jī)機(jī)年會(huì)((ACM)提出了了數(shù)據(jù)挖挖掘(DataMining,DM)概念2.3..1數(shù)據(jù)挖掘掘技術(shù)歷歷程數(shù)據(jù)挖掘掘(DataMining,DM)概念:通過從數(shù)數(shù)據(jù)庫中中抽取隱含的、、未知的的、具有有潛在使使用價(jià)值值信息的過程。。數(shù)據(jù)挖掘掘的對(duì)象象早就不不限于數(shù)數(shù)據(jù)庫,,而可以以是存放放在任何何地方的的數(shù)據(jù),,包括互聯(lián)網(wǎng)上上的信息息內(nèi)容。2.3..1數(shù)據(jù)挖掘掘技術(shù)歷歷程數(shù)據(jù)挖掘掘技術(shù)統(tǒng)計(jì)分析析類知識(shí)發(fā)現(xiàn)現(xiàn)類其他數(shù)據(jù)據(jù)挖掘技技術(shù)Web數(shù)據(jù)挖掘掘分類系統(tǒng)統(tǒng)可視化系系統(tǒng)空間數(shù)據(jù)據(jù)挖掘分布式數(shù)數(shù)據(jù)挖掘掘。本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)2.3..1數(shù)據(jù)挖掘掘技術(shù)歷歷程2.3..2Web挖掘技術(shù)術(shù)2.3..3Web文本挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)2.3..2Web挖掘技術(shù)術(shù)Web挖掘技術(shù)術(shù)網(wǎng)絡(luò)知識(shí)識(shí)發(fā)現(xiàn)((knowledgediscoveryinWeb,KDW)涉及數(shù)據(jù)庫、機(jī)器學(xué)習(xí)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)識(shí)別、人人工智能能、計(jì)算算機(jī)語言言、計(jì)算算機(jī)網(wǎng)絡(luò)絡(luò)等多個(gè)領(lǐng)領(lǐng)域從大量非結(jié)構(gòu)化化、異構(gòu)構(gòu)的Web信息資源源中發(fā)現(xiàn)現(xiàn)興趣性性(interestingness)的知識(shí)識(shí),包括括概念、、模式、、規(guī)則、、規(guī)律、、約束及及可視化化等形式式的非平平凡過程程2.3..2Web挖掘技術(shù)術(shù)Web挖掘過程(1)資源發(fā)發(fā)現(xiàn)(2)信息選選擇與預(yù)預(yù)處理(3)綜合過過程(4)分析過過程2.3..2Web挖掘技術(shù)術(shù)2.3..2Web挖掘技術(shù)術(shù)Web內(nèi)容挖掘

Web結(jié)構(gòu)挖掘

Web使用挖掘

處理數(shù)據(jù)類型信息檢索方法:無結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)數(shù)據(jù)庫方法:半結(jié)構(gòu)化數(shù)據(jù)

Web結(jié)構(gòu)數(shù)據(jù)

用戶訪問Web數(shù)據(jù)

主要數(shù)據(jù)

自由化文本、HTML標(biāo)記的超文本

HTML標(biāo)記的超文本

Web文檔內(nèi)及文檔間的超鏈接Serverlog,Proxyserverlog,Clientlog表示方法

詞集、段落、概念、信息檢索的三種經(jīng)典模型對(duì)象關(guān)系模型

圖關(guān)系表、圖

處理方法

統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自然語言理解

數(shù)據(jù)庫技術(shù)機(jī)器學(xué)習(xí)、專用算法統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則

主要應(yīng)用分類、聚類、模式發(fā)現(xiàn)

模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)?、多層?shù)據(jù)庫、站點(diǎn)創(chuàng)建與維護(hù)頁面權(quán)重分類聚類本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)2.3..1數(shù)據(jù)挖掘掘技術(shù)歷歷程2.3..2Web挖掘技術(shù)術(shù)2.3..3Web文本挖掘掘技術(shù)四、信息推薦薦技術(shù)五、信息還原原技術(shù)2.3..3Web文本挖掘技術(shù)術(shù)Web文本挖掘技術(shù)術(shù)從Web文檔和Web活動(dòng)中發(fā)發(fā)現(xiàn)、抽抽取感興興趣的、、潛在有有用的模模式和隱隱藏的信信息的過過程。Web文本挖掘掘與普通通的平面面文本挖挖掘既有有類似之之處,又又有其自自身的特特點(diǎn):每條記錄錄包含字字符少,,而文本本數(shù)量巨巨大BBS、Weblog等形式的的網(wǎng)頁越越來越多多地出現(xiàn)現(xiàn)了帶有有個(gè)人情情感色彩彩的文章章、言論論大量不規(guī)規(guī)范用語語、網(wǎng)絡(luò)絡(luò)流行語語等。2.3..3Web文本挖掘技術(shù)術(shù)Web文本挖掘——定義指從大量量文本的的集合C中發(fā)現(xiàn)隱隱含的模模式p。如果將將C當(dāng)作輸入入,p當(dāng)作輸出出,那么么Web文本挖掘掘的過程程就是從從輸入到到輸出的的一個(gè)映映射。Web文本挖掘——過程本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)2.4..1信息推薦薦概念和和形式化化定義2.4..2信息推薦算法法五、信息還原原技術(shù)四、信息推薦薦技術(shù)四、信息推薦薦技術(shù)信息推薦薦與信息息檢索的的區(qū)別信息檢索信息推薦關(guān)注點(diǎn)檢索結(jié)果注重結(jié)果之間的關(guān)系和排序服務(wù)對(duì)象研究用戶模型和用戶的喜好,基于社會(huì)網(wǎng)絡(luò)進(jìn)行個(gè)性化的計(jì)算主動(dòng)性用戶主導(dǎo)由用戶主導(dǎo),包括輸入查詢?cè)~和選擇結(jié)果,結(jié)果不好用戶會(huì)修改查詢?cè)俅螜z索系統(tǒng)主導(dǎo)由系統(tǒng)主導(dǎo)用戶的瀏覽順序,引導(dǎo)用戶發(fā)現(xiàn)需要的結(jié)果有什么重重要的股股市信息息?有什么好好的旅游游景點(diǎn)??附近有什什么好的的餐廳??Alice這么多商商品信息息,到底底該買那那個(gè)呢??這么多商商品信息息,到底底該買那那個(gè)呢??這么多商商品信息息,到底底該買那那個(gè)呢??有什么重重要的股股市信息息?這么多商商品信息息,到底底該買那那個(gè)呢??下雨了,這個(gè)周末可以去哪娛樂呢?有什么好好的旅游游景點(diǎn)??下雨了,這個(gè)周末可以去哪娛樂呢?附近有什什么好的的餐廳??有什么好好的旅游游景點(diǎn)??下雨了,這個(gè)周末可以去哪娛樂呢?這么多商商品信息息,到底底該買那那個(gè)呢??附近有什什么好的的餐廳??有什么好好的旅游游景點(diǎn)??下雨了,這個(gè)周末可以去哪娛樂呢?有什么重重要的股股市信息息?這么多商商品信息息,到底底該買那那個(gè)呢??附近有什什么好的的餐廳??有什么好好的旅游游景點(diǎn)??下雨了,這個(gè)周末可以去哪娛樂呢?有什么重重要的股股市信息息?這么多商商品信息息,到底底該買那那個(gè)呢??下雨了,這個(gè)周末可以去哪娛樂呢?附近有什什么好的的餐廳??有什么重重要的股股市信息息?這么多商商品信息息,到底底該買那那個(gè)呢??下雨了,這個(gè)周末可以去哪娛樂呢?附近有什什么好的的餐廳??有什么重重要的股股市信息息?這么多商商品信息息,到底底該買那那個(gè)呢??下雨了,這個(gè)周末可以去哪娛樂呢?四、信息推薦薦技術(shù)四、信息推薦薦技術(shù)四、信息推薦薦技術(shù)——應(yīng)用本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)2.4..1信息推薦薦概念和和形式化化定義2.4..2信息推薦算法法五、信息還原原技術(shù)2.4..1信息推薦薦概念和和形式化化定義Resnick和Varian在1997年給出了了信息推推薦的非非形式化化定義[26]]:利用電子子商務(wù)網(wǎng)網(wǎng)站向客客戶提供供商品信信息和建建議,幫幫助用戶戶決定應(yīng)應(yīng)購買什什么產(chǎn)品品,模擬擬銷售人人員幫助助客戶完完成購買買過程。。2.4..1信息推薦薦概念和和形式化化定義信息推薦薦有三個(gè)個(gè)組成要要素:推薦候選選對(duì)象、、用戶、、推薦方方法。對(duì)象用戶推薦算法對(duì)象對(duì)象對(duì)象對(duì)象用戶用戶用戶用戶2.4..1信息推薦薦概念和和形式化化定義信息推薦薦系統(tǒng)的的形式化化定義::設(shè)C是所有用用戶(user)的集合合,S是所有可可以推薦薦給用戶戶的商品品對(duì)象的的集合,效用函數(shù)數(shù)u()用以計(jì)算對(duì)象象s對(duì)用戶c的推薦度(如提供供商的可可靠性vendorreliability)和產(chǎn)品品的可得性(productavailability),即R是一定范范圍內(nèi)的的全序的的非負(fù)實(shí)實(shí)數(shù),信信息推薦薦要研究究的問題題就是找到推薦薦度R最大的那些對(duì)對(duì)象,即:(2-4)2.4..1信息推薦薦概念和和形式化化定義根據(jù)實(shí)際際面對(duì)的的問題不不同,用用戶和對(duì)對(duì)象的度度量與采采樣可以以使用不不同的屬屬性和特特征。推薦算法法研究的的中心問問題是效效用度u的計(jì)算,,并非遍遍歷CXS的整個(gè)空空間,而而是分布布到一個(gè)個(gè)流形子子空間((manifold)上。本講提要要一、網(wǎng)絡(luò)信息息內(nèi)容獲獲取模型型二、搜索引擎擎技術(shù)三、數(shù)據(jù)挖掘掘技術(shù)四、信息推薦薦技術(shù)2.4..1信息推薦薦概念和和形式化化定義2.4..2信息推薦算法法五、信息還原原技術(shù)2.4..2信息推薦算法法基于內(nèi)容推薦協(xié)同過濾推薦組合推薦信息推薦content-basedrecommendation根據(jù)用戶已選擇的對(duì)對(duì)象,推薦其其他類似似屬性的的對(duì)象作作為推薦薦。屬于Schafer劃分中的的Item-to-ItemCorrelation方法.基于內(nèi)容容推薦2.4..2信息推薦算法法對(duì)象內(nèi)容容特征((Content(s)):以對(duì)象的的文字描描述為主主。用戶的資資料模型型ContentBasedProfile(c):取決于機(jī)機(jī)器學(xué)習(xí)習(xí)方法結(jié)合對(duì)象象內(nèi)容特特征和用用戶資料料模型,,最終的的效用函函數(shù)定義義如下::u(c,s)=score(ContentBasedProfile(c),Content(s))Score的計(jì)算有有不同的的方法,,例如可可以使用用向量夾夾角余弦弦的距離離計(jì)算方方法:最后得到到的u數(shù)值用于于排序?qū)?duì)象,將將最靠前前的若干干個(gè)對(duì)象象推薦給給用戶。?;趦?nèi)容容推薦2.4..2信息推薦算法法基于內(nèi)容推薦協(xié)同過濾推薦組合推薦信息推薦collaborativefilteringrecommendation推薦相似用戶戶所選擇的對(duì)對(duì)象是推薦系系統(tǒng)中最最為成功功的技術(shù)術(shù)之一協(xié)同過濾濾推薦2.4..2信息推薦算法法基本思路是:找到與當(dāng)當(dāng)前用戶戶相似的其其他用戶戶,計(jì)算對(duì)象象s對(duì)于用戶戶的效用用值,利用效用用值對(duì)所所有s進(jìn)行排序序或者加加權(quán)操作作,找到到最適合合的對(duì)象。協(xié)同過濾濾推薦四、信息推薦薦技術(shù)2.4..2信息推薦算法法左圖是根據(jù)據(jù)客戶在在系統(tǒng)訂訂單記錄錄由系統(tǒng)統(tǒng)采用某某種算法法推薦商商品的一一個(gè)實(shí)際際結(jié)果圖圖2.4..2信息推薦算法法協(xié)同過濾濾推薦又又可分為為兩類::?jiǎn)l(fā)式方方法(heuristic--basedormemory-based)基于模型型的方法法(model-based)協(xié)同過濾濾推薦2.4..2信息推薦算法法基本思路是:使用用與新用用戶c相似的用用戶c’對(duì)一個(gè)對(duì)對(duì)象的評(píng)價(jià)來預(yù)測(cè)s對(duì)新用戶戶c的效用,,進(jìn)而判判斷是否否推薦s給c。。啟發(fā)式方方法2.4..2信息推薦算法法計(jì)算用戶戶之間的的相似度度;對(duì)所有與與用戶相相似的用用戶對(duì)對(duì)對(duì)象的評(píng)評(píng)分進(jìn)行行聚合計(jì)計(jì)算,以以得到對(duì)對(duì)新用戶戶的效用用的統(tǒng)計(jì)計(jì)預(yù)測(cè)方方法。啟發(fā)式方方法2.4..2信息推薦算法法(2-8)(2-9)(2-10)啟發(fā)式函函數(shù)例子子2.4..2信息推薦算法法基本思路是:利用用用戶c對(duì)眾多對(duì)對(duì)象的評(píng)評(píng)分來學(xué)學(xué)習(xí)一個(gè)個(gè)c的模型,,然后使使用概率率方法對(duì)對(duì)新的對(duì)對(duì)象s的推薦效效用進(jìn)行行預(yù)測(cè)。?;谀P托偷姆椒ǚ?.4..2信息推薦算法法基于內(nèi)容推薦協(xié)同過濾推薦組合推薦信息推薦基本原理理:通過組合合各種推薦薦技術(shù),,避免或彌彌補(bǔ)各推推薦技術(shù)術(shù)的弱點(diǎn)點(diǎn),提升推推薦的效效果。組合推薦薦2.4..2信息推薦算法法組合推薦薦后融合組合推薦中融合組合推薦前融合組合推薦2.4..2信息推薦算法法基本思路路:融合兩種種或兩種種以上的的推薦方方法各自自產(chǎn)生的的推薦結(jié)結(jié)果,判判斷使用用其中的的哪個(gè)推推薦結(jié)果果更好。。屬于結(jié)果層次次上的融融合最簡(jiǎn)單的的做法就就是分別別用基于于內(nèi)容的的方法和和協(xié)同過過濾推薦薦方法產(chǎn)產(chǎn)生一個(gè)個(gè)推薦預(yù)預(yù)測(cè)結(jié)果果,然后后用某種種方法組組合其結(jié)結(jié)果。后融合組組合推薦薦2.4..2信息推薦算法法基本思路路:以一種推推薦方法法為框架架,融合合另一種種推薦方方法。中融合組合合推薦基于內(nèi)容容推薦方方法協(xié)同過濾濾方法協(xié)同過濾濾方法基于內(nèi)容容方法2.4..2信息推薦算法法基本思路路:直接融合合各種推推薦方法法。前融合組合合推薦推薦系統(tǒng)統(tǒng)框架協(xié)同過濾濾方法基于內(nèi)容容方法2.4..2信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論