搜索引擎重復(fù)網(wǎng)發(fā)現(xiàn)技術(shù)_第1頁
搜索引擎重復(fù)網(wǎng)發(fā)現(xiàn)技術(shù)_第2頁
搜索引擎重復(fù)網(wǎng)發(fā)現(xiàn)技術(shù)_第3頁
搜索引擎重復(fù)網(wǎng)發(fā)現(xiàn)技術(shù)_第4頁
搜索引擎重復(fù)網(wǎng)發(fā)現(xiàn)技術(shù)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索引擎重復(fù)網(wǎng)頁發(fā)現(xiàn)技術(shù)分析中科院軟件所作者:張俊林一.

介紹統(tǒng)計(jì)結(jié)果表明,近似鏡像網(wǎng)頁數(shù)占總網(wǎng)頁數(shù)的比例高達(dá)全部頁面的

29%,而完全相同的頁面大約占全部頁面的

22%。這些重復(fù)網(wǎng)頁有的是沒有一點(diǎn)改動(dòng)的拷貝,有的在內(nèi)容上稍作修改,比如同一文章的不同版本,一個(gè)新一點(diǎn),一個(gè)老一點(diǎn),有的則僅僅是網(wǎng)頁的格式不同(如

HTML,

Postscript),文獻(xiàn)[Modelsand

Algorithms

for

Duplicate

Document

Detection

1999

年]將內(nèi)容重復(fù)歸結(jié)為以下四個(gè)類型:1.如果

2

篇文檔內(nèi)容和格式上毫無差別,則這種重復(fù)叫做full-layout

duplicate。2.如果2篇文檔內(nèi)容相同,但是格式不同,則叫做full-contentduplicates3.如果

2

篇文檔有部分重要的內(nèi)容相同,并且格式相同,則稱為

partial-layout

duplicates4.如果

2

篇文檔有部分重要的內(nèi)容相同,但是格式不同,則稱為

partial-content

duplicates近似重復(fù)網(wǎng)頁發(fā)現(xiàn)技術(shù)就是通過技術(shù)手段快速全面發(fā)現(xiàn)這些重復(fù)信息的手段.如何快速準(zhǔn)確地發(fā)現(xiàn)這些內(nèi)容上相似的網(wǎng)頁已經(jīng)成為提高搜索引擎服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一。發(fā)現(xiàn)重復(fù)或者近似網(wǎng)頁對(duì)于搜索引擎有很多好處:1.

首先,如果我們能夠找出這些重復(fù)網(wǎng)頁并從數(shù)據(jù)庫(kù)中去掉,就能夠節(jié)省一部分存儲(chǔ)空間,進(jìn)而可以利用這部分空間來存放更多的有效網(wǎng)頁內(nèi)容,同時(shí)也提高了

web

檢索的質(zhì)量。2.

其次,如果我們能夠通過對(duì)以往搜集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,在今后的網(wǎng)頁搜集過程中就可以避開這些網(wǎng)頁,從而提高有效網(wǎng)頁的搜集速度。有研究表明重復(fù)網(wǎng)頁隨著時(shí)間級(jí)別不發(fā)生太大變化,所以這種從重復(fù)頁面集合中選擇部分頁面進(jìn)行索引是有效的.3.

另外,如果某個(gè)網(wǎng)頁的鏡像度較高,也就預(yù)示著該網(wǎng)頁相對(duì)重要,在搜集網(wǎng)頁時(shí)應(yīng)賦予它較高的優(yōu)先級(jí),而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請(qǐng)求并對(duì)輸出結(jié)果排序時(shí),應(yīng)該賦予它較高的權(quán)值。4.

從另外一個(gè)角度看,如果用戶點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶引導(dǎo)到一個(gè)相同頁面,這樣可以有效的增加用戶的檢索體驗(yàn).因而近似鏡像網(wǎng)頁的及時(shí)發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。二.

基本處理流程通過分析現(xiàn)有技術(shù),可以歸納出以下幾個(gè)解決該問題的核心技術(shù)點(diǎn),每個(gè)不同的技術(shù)基本上是由這幾個(gè)技術(shù)點(diǎn)構(gòu)成,無非是具體采納的技術(shù)不同而已:1.

文檔對(duì)象的特征抽取:將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,這一步是為了方面后面的特征比較計(jì)算相似度.2.

特征的壓縮編碼:通過

HASH

編碼等文本向數(shù)字串映射方式以方便后續(xù)的特征存儲(chǔ)以及特征比較.起到減少存儲(chǔ)空間,加快比較速度的作用.3.

文檔相似度計(jì)算:根據(jù)文檔特征重合比例來確定是否重復(fù)文檔.4.

聚類算法:通過疊代計(jì)算算出哪些文檔集合是根據(jù)相似度計(jì)算是相近的;5.

工程化問題:出于海量數(shù)據(jù)計(jì)算速度的考慮,提出一些速度優(yōu)化算法以使得算法實(shí)用化.我們可以從幾個(gè)不同的角度對(duì)于現(xiàn)有的方法進(jìn)行分類:l

按照利用的信息,現(xiàn)有方法可以分為以下三類1.只是利用內(nèi)容計(jì)算相似2.結(jié)合內(nèi)容和鏈接關(guān)系計(jì)算相似3.結(jié)合內(nèi)容,鏈接關(guān)系以及

url

文字進(jìn)行相似計(jì)算評(píng)價(jià):現(xiàn)有絕大部分方法還是利用文本內(nèi)容進(jìn)行相似識(shí)別,其它兩種利用鏈接關(guān)系以及

URL

文字的方法還不是很成熟,而且從效果看引入其它特征收效并不明顯,所以從實(shí)際出發(fā)還是選擇利用內(nèi)容進(jìn)行相似計(jì)算的算法.l

按照特征提取的粒度現(xiàn)有方法可以分為以下三類1.

按照單詞這個(gè)級(jí)別的粒度進(jìn)行特征提取.2.

按照SHINGLE這個(gè)級(jí)別的粒度進(jìn)行特征提取.SHNGLE是若干個(gè)連續(xù)出現(xiàn)的單詞,級(jí)別處于文檔和單詞之間,比文檔粒度小,比單詞粒度大.3.

按照整個(gè)文檔這個(gè)級(jí)別的粒度進(jìn)行特征提取評(píng)價(jià):目前這個(gè)領(lǐng)域里面很多工作借鑒類似于信息檢索的方法來識(shí)別相似文檔,其本質(zhì)和

SHINGLE

等是相同的,都是比較兩個(gè)文檔的孔重合欄程度債,但蟻是區(qū)模別是SH勞IN辭GL撇E是將胡若干段單詞雄組成蠟片斷講,粒度洲比較餓大,亮而信煙息檢魂索類趙方法吃其實(shí)霧是用趁單詞俗作為頁比較棵粒度指,粒度希比較首小,普粒度怖越大倚計(jì)算愉速度專越快掙,而前粒度雞越小般計(jì)算專速度孤越慢,巡壽所以壘信息村檢索碎類方何法是秧不實(shí)軋用的晨,而牌且對(duì)SH趴IN但GL痰E的改革進(jìn)以及獅新提組出的過方法棗的發(fā)虹展趨痛勢(shì)也鎖是粒脈度越隸來越堵大,按這樣粒才能曬解決實(shí)敢際使漠用中圣速度梁的問耐題。迫粒度掀最大底的極槳端情秧況是瞎每個(gè)煮文檔脈用一個(gè)HA務(wù)SH函數(shù)孟編碼辱(比良如MD獄5)絮,這軟樣只伍要編胡碼相項(xiàng)同就扒說明充文檔完潛全相塔同,確但是輪粒度候太大帽帶來饑的問屆題是定對(duì)于另細(xì)微幸的變陰化文敗檔無法畢判別拘,只搶能判穿斷是田否完結(jié)全相銳同,港至于漿部分熟相同隨以及果相同刻的程度爹無法飾判斷家.所以聲,現(xiàn)飾有方澇法也創(chuàng)可以夕從以站下角棍度分仁類:撥粒度密。最暴小粒墾度:惱單詞;罪中等主粒度?。篠馬HI堆NG饒LE言;最轉(zhuǎn)大粒惱度:閥整個(gè)鵝文檔院;可條見SH革IN節(jié)GL跟E類方被法其要實(shí)是刑在速筍度和選精確慣程度怎上的內(nèi)一種妥折中局方法芬。可氣以探眉討不同解粒度伯的效余果,棍比如勸以句儀子為漲單位委進(jìn)行涉編碼僻,以姜段落心為單握位編碼地等不嘩同粒繪度的莖編碼葬單位沙,還按可以裹考慮邀動(dòng)態(tài)衫的編純碼:殃首先飾以自然宋段落躺編碼匹進(jìn)行卷判別撿,如壩果發(fā)像現(xiàn)部釘分相仍似,籌然后稱針對(duì)聯(lián)不同簽的部分廊再以特細(xì)小垃粒度刃比如侵句子凱甚至甘單詞坦級(jí)別鉆的比燦較所謂SU痰PE幻玉RSH洞IN根GL鄭E就是粘將粒的度放梅大得騙到的蘇。粒臥度越獎(jiǎng)大,走好處貝是計(jì)籌算速粗度越快遲(對(duì)佩于MD女5整個(gè)念文檔緊來說菌,每棉個(gè)文耕檔一爐個(gè)HA笑SH編碼奪,然后排浮序,喊將相剝同的廟找出蛙,是喝速度派最快擴(kuò)的)暈,缺桐點(diǎn)是麥會(huì)遺襪漏很玻多部分公相似齒的文綢檔;個(gè)粒度燈越小湯,好坊處是攔招回懼率比慢較高掘,缺躁點(diǎn)是定計(jì)算速繼度減綁慢。l按照虹去處養(yǎng)重復(fù)裝的級(jí)敬別進(jìn)號(hào)行分壇類,帥去處油重復(fù)紐奉三個(gè)傷級(jí)別件:1.鏡像才站點(diǎn)滿:根蝦據(jù)站溫點(diǎn)內(nèi)由相似嫁頁面鳴多少?gòu)d進(jìn)行聚判斷肅.實(shí)云現(xiàn)相倒對(duì)簡(jiǎn)單.2.完全識(shí)相同備網(wǎng)頁絕:實(shí)誓現(xiàn)相規(guī)對(duì)簡(jiǎn)林單并談且速捧度比鹽較塊暖,可梳以根兇據(jù)頁面MD庭5整個(gè)獵文檔弄來說襪,每刊個(gè)文百檔一殘個(gè)HA喪SH編碼誼,然伸后排售序,將相執(zhí)同的虎找出買.3.部分腸相同決頁面回:實(shí)袋現(xiàn)相土對(duì)負(fù)胖責(zé),團(tuán)目前絮大多饒工作枝在這創(chuàng)個(gè)部藝分.評(píng)價(jià)遍:三個(gè)觀級(jí)別炭應(yīng)該興從最東高級(jí)嗓別到環(huán)較低組級(jí)別址分別老進(jìn)行燈,因陜?yōu)橛袛『艽缶斜壤?么22穗%)漂的內(nèi)與容是伐完全甲相同醉的,肢這個(gè)初部分餅實(shí)現(xiàn)施起來圓相對(duì)冷簡(jiǎn)單孝,而且如塔果這憐個(gè)部的分已貪經(jīng)識(shí)慈別,衫那么茂針對(duì)睛部分棚相同住頁面鵝的計(jì)嗽算量牌會(huì)大量密減少匹,這游樣應(yīng)貿(mào)該可帽以減翅少總羽體的揪計(jì)算緞時(shí)間暖..l按照心去重痰的時(shí)糕機(jī),牽可以喪分為艙以下故三類(1敢)抓取噴頁面妖的時(shí)鐵候去鳴重,隔這樣理可以辨減少棕帶寬輪以及認(rèn)減少派存儲(chǔ)數(shù)量眉;(2謝)索引來之后顧進(jìn)行笨去重坐;(3興)用戶芽檢索麻時(shí)候林進(jìn)行走再次籌去重圾;增摔加準(zhǔn)評(píng)確性邊,耗幻玉費(fèi)時(shí)遮間;評(píng)價(jià)強(qiáng):可以幣結(jié)合濟(jì)三個(gè)擠時(shí)機(jī)惱某個(gè)尾或者載所有涼都結(jié)燥合,謎對(duì)于GO世OG想LE來說鐮,很可能銅是結(jié)狂合了2和3兩種叼方法特,GO會(huì)OG湖LE的很糖多思零路建慚立在欺后臺(tái)計(jì)算竿和實(shí)球時(shí)計(jì)仰算聯(lián)盞合,歌比如恐相關(guān)劃度計(jì)它算,獅后臺(tái)雙計(jì)算粗重要全性得推分,在用免戶輸鴿入查普詢后營(yíng)得到員初始旦數(shù)據(jù)揮集合義,然輕后根碰據(jù)這勤個(gè)數(shù)是據(jù)集銹合之間純文檔尾的關(guān)陜系重嘗新調(diào)趙整順摸序;橡比如榮去處悄重復(fù)躬,首諸先在絮后臺(tái)蓬進(jìn)行重嫂復(fù)發(fā)蜜現(xiàn),莖為了眉增加危精確念度,恰在返傘回查網(wǎng)詢結(jié)稱果后局,在英返回皂文檔集鋒合內(nèi)拖,又主根據(jù)筒"描群述"總部分版重新匪計(jì)算錦哪些歇文檔楚是重黨復(fù)的睬,這樣增言加了蹈準(zhǔn)確丙性,秒估計(jì)丸其它血很多什相關(guān)眨算法確也采屢取這磨種聯(lián)標(biāo)合策茶略,為了版加快鎖速度綠,實(shí)速時(shí)計(jì)敵算部喘分可孔以和CA非CH秤E部分接結(jié)合政進(jìn)行紀(jì)計(jì)算岸。l按照默不同抽的特性征選古擇方頸法,歡有幾耗種方偏式:1.完全杏保留將特征2.特征斬選擇照,設(shè)貌置不番同的闊選擇趕策略衰來保根留部外分特傍征,象拋棄遺其它特征a.比如臣對(duì)于這單詞躁級(jí)別墊的拋逐棄權(quán)臥重小常的單討詞(隨I-皮MA余TC大H)b.對(duì)于SH韻IN皮GL但E方法料,可掩以保電留部即分SH母IN膚GL島E拋棄屈其它SH涂IN隨GL績(jī)E(1沫)一種折是保兼留FI將NG信ER宜PR魂IN滴T第I個(gè)位心置為0的SH喂IN姓GL早E,巨其它拋映棄;(2醉)一種駛是每倉(cāng)隔I個(gè)SH進(jìn)IN墳GL胡E進(jìn)行局抽樣減保留挨,其許它拋胞棄;服這兩種得療到的微文檔SH勾IN江GL弊E數(shù)目串是變集長(zhǎng)的盆;(3裳)一種善是選途擇最忘小的K個(gè)SH瞧IN繁GL置E,卷這種卷得到孤定長(zhǎng)蓋的SH魔IN鴨GL犁E數(shù)目柳;(4蜓)用84個(gè)RA碑BI慘NFI閱NG豎ER毫PR焰IN烘T函數(shù)借對(duì)于絡(luò)每個(gè)SH享IN躁GL磁E進(jìn)行計(jì)算系,保贊留數(shù)澆值最執(zhí)小的84個(gè)FI視NG殘ER跌PR怒IN晴T,及這個(gè)浩方法算是定監(jiān)長(zhǎng)的駛.對(duì)于SH層IN潮GL擾E類方獵法來銀說,蘆還可后以區(qū)研分為粉:定很長(zhǎng)的請(qǐng)和變號(hào)長(zhǎng)的bl喚oc盜k切分添算法定長(zhǎng)文算法盤:速姨度快面,但練是如品果內(nèi)惰容有牲稍微毛變化煮(比駝如插酬入或膜者刪除共一個(gè)耍字符誼或者戚單詞嗓),羊其影軌響會(huì)勇比較糊大。朗比如Sh飾in圾gl臘e及其改確進(jìn)方丟法(緊Su快pe量r-天Sh肥in拍gl酬e)洲,C郊SC及其討改進(jìn)善方法個(gè)(C板SC步-S姜S)染。變長(zhǎng)倘算法葛:速編度相壞對(duì)慢賞,但洞是內(nèi)哈容變卻化只伐是造融成局略部影竟響。屑比如CD屠C,遲TT迫TD等算圈法。評(píng)價(jià)好:為了啟提高莫計(jì)算敏速度剃,一采種策特略是統(tǒng)在特直征提夏取的都時(shí)候遵,拋棄部檔分特練征,況保留沿部分王特征匆,通襯過減棄少特?cái)勒鲾?shù)坊目來并加快付計(jì)算犬速度.另外一個(gè)策略是粒度盡可能加大,比如SU承PE猾R-弦SH溝IN計(jì)GL燥E,才ME術(shù)GA挪-S惱HI爸NG雪LE甚至跟是文敞檔基雪本;疤為了檔提高礦算法效果廟,策任略是護(hù)采取兵變長(zhǎng)摧的內(nèi)舉容切隸割算軟法比墨如CS程C算法膝等;亂這三這種策略匯是方方法加獲快速期度和犁準(zhǔn)確擦性的堂發(fā)展茫方向陳.一些老初步增的結(jié)端論:1.對(duì)于倉(cāng)信息紅檢索歲類型誼的方監(jiān)法來巨說,柜由于極其特競(jìng)征選鍋擇是敢基于奪單詞的爭(zhēng),所走以計(jì)奇算速潔度是熱個(gè)根坡本的歌問題遺,所余以基役本上仁是不偽實(shí)用副的;2.從利室用的太信息急來看塘,實(shí)頓用的雅系統(tǒng)娛還是愚應(yīng)該芬立足示于只液是利冬用文本堤內(nèi)容夠來判隱別相餃似性忘,排娘除掉霸利用澆鏈接贊信息馳等方滾法;3.從算蹈法特橋征抽販取粒綱度來蛾看,黨應(yīng)該炕立足或于SH闊IN盒LG基E類的程粒度澆甚至是考文檔矮級(jí)別腫的粒亦度算滾法;星而SH拼IN氣GL輪E類別愿的算敬法又不應(yīng)該龍優(yōu)先選擇鞋拋棄習(xí)部分者特征款的算強(qiáng)法以暢及變娛長(zhǎng)的屢算法氣;4.從去麗重級(jí)孕別角吳度考窄慮,鎖應(yīng)該霧將完德全相習(xí)同的寧文檔瀉和部鍵分相憲同的文負(fù)檔識(shí)朝別分批開進(jìn)似行,獎(jiǎng)而且撇首先彩進(jìn)行癥完全胡相同豪文檔冠的識(shí)鳥別,擁這樣會(huì)樹有效暢加快理計(jì)算鮮速度頌;5.從去儉重時(shí)播機(jī)考便慮,醬可以臟考慮必結(jié)合臺(tái)后臺(tái)廉去重偶以及品實(shí)時(shí)叫去重獸,這樣增具加去羽重的蝦效果爆;6.從壓追縮編頑碼方僑法來擺看,如最有學(xué)效的奮方式取可能闖是RA剝BI喚NFI倦NG撓ER更PR余IN尊T變體盼算法隊(duì);7.從聚架類方躲法來測(cè)看,香最有葬效的振方式娃可能典是UN辰IO密NFI辛ND算法哨,目前比餡較快漢的算咬法基突本上篩都采學(xué)用這良個(gè)方址法;8.從整欠體方抗法選筋擇來膽看,萍應(yīng)該簽選擇順改進(jìn)旋的SH巷IN及LG晶E方法慘,在港此基礎(chǔ)長(zhǎng)上進(jìn)似行進(jìn)峽一步香的改敘進(jìn);三.方法花效率腎比較1.SH梅IN悼GL市IN雷G方法丟:時(shí)健間效負(fù)率O(容(m櫻n)遭2),其蛇中m是SH訓(xùn)IN成GL故E的大嶄小,搶n是文歸檔數(shù)民目.約計(jì)算兵時(shí)間稿為:傷3千萬意文檔病,1是0臺(tái)機(jī)音器算疤一天,效或者估一臺(tái)副機(jī)器亡算10天;2.改進(jìn)拴的SH滴IN永GL淘E方法禽(O亮nth膜eEv鐘ol燙ut僻io杠nofCl道us輕te湖rsofNe魔ar宅-D續(xù)up倦li虹ca滴teWe會(huì)bPa盲ge拍s.奸):旁時(shí)間睜效率批接近薄于線懇性的O(膝n)虧,計(jì)算晴時(shí)間示為:則1億5千萬襪網(wǎng)頁喇計(jì)算3個(gè)小列時(shí);3.IM孟AC轉(zhuǎn)H方法濟(jì):最壞釘?shù)那槊箾r下微時(shí)間四復(fù)雜潛度是壤(O役(dlo羞gd)庭),址速度比姑較快4.BL唐OO飾MFI鐮LT承ER方法驚:1扮0k數(shù)據(jù)你花費(fèi)嶄大約66匹ms圓;從計(jì)歸算效屯率考宣慮,澡速度辟排序享為:1.改進(jìn)絮的SH往IN至GL睛E方法閥;2.IM啟AT版CH方法危;3.BL補(bǔ)OO島MFI帖LT業(yè)ER方法糾;4.SH臂IN返GL騰E方法耕;四.目前樣代表災(zāi)性解拍決方府法分羊析1.Sh鑒in騎gl絹e方法尺(1破99膀7年)a.特征祥抽取Sh接in孩gl丈e方法呈:所浸謂Sh噸in綿gl沃e類似棟于自脾然語者言處憲理中噸常用垂的N-寸GR瞧AM方法需,就糧是將爆相互鈴連續(xù)戰(zhàn)出現(xiàn)憐窗口車大小秤為N的單怪詞串蕩作為一個(gè)Sh糕in課gl喊e,臭兩者院的不善同點(diǎn)菜在于Sh紹in合gl俊e是這滿些串刺的集泛合,謙相同的賢串會(huì)遮合并或?yàn)橐粍?chuàng)個(gè),四而N-妄GR深A(yù)M則由器于考獨(dú)慮的師是文待本線魂性結(jié)餅構(gòu),所以來沒有凈相同己合并治步驟翅.每理個(gè)Sh俘in知gl筒e就是鉗文檔憶的一腫個(gè)特羨征,挖一篇文描檔就擾是由付所有途這些Sh恢in嚷gl竹e構(gòu)成迷的.b.壓縮懸編碼40bi擔(dān)t長(zhǎng)度Ra嘉bi牙nFi爆ng曠er相Pr偶in股t方法階;至坊于存籃儲(chǔ)方沈式則轟類似音于傳統(tǒng)澆信息格檢索縣領(lǐng)域遺的倒過排文鴨檔技趨術(shù),兇存儲(chǔ)裹信息汗以記帝錄某勁個(gè)特床征在哪沈些文集檔中籌出現(xiàn)天過,唱然后京進(jìn)一泉步計(jì)節(jié)算文候檔的運(yùn)相似縣性;c.文檔飾相似移度計(jì)秧算(1刻)相似晌度:拉任意森兩個(gè)訪文檔A和B,快相似差度指縫的是敲兩者運(yùn)相同會(huì)的Sh訂in川gl賓e數(shù)目胡占兩隔者Sh參in懷gl享e數(shù)目信總和毫的比伴例;(2陶)包含記度:叫指的膝是兩腔者相姨同的Sh漠in美gl胃e數(shù)目艙占某交篇文竹檔Sh閉in慨gl朱e數(shù)目碰的比孝例;d.優(yōu)化逗措施理:(1起)分布論計(jì)算能然后蔑合并楊;(2錯(cuò))拋棄臣超高猶頻出雀現(xiàn)Sh憤in訊gl蛾e,薯分析袋發(fā)現(xiàn)胞這些Sh董in純gl熟e是無拖意義的擴(kuò)片斷擠;(3室)完全奔相同偵文檔歌保留汪一份槽進(jìn)行恩聚類臨;(吩文檔你是否弱完全見相同樣根據(jù)壓待縮編久碼后決數(shù)值錄是否尊相同些判斷惜)(4笑)Su方pe哭r(nóng)Sh嚇in紗gl價(jià)e:羽關(guān)于Sh陰in溪gl配e的Sh摧in悶gl挽e,廊從更饞大結(jié)延構(gòu)上計(jì)算隔相似瘋性以臥節(jié)省然存儲(chǔ)晝空間評(píng);2.Go情og輛le可能辮采取硬的方暢法a.特征詳抽取類似歡于Sh肝in在gl旬e方法彼,不譜同點(diǎn)指在于常:對(duì)徐于每檔個(gè)單剪詞根皆據(jù)HA篇SH函數(shù)決諸定屬默于哪半個(gè)LI上ST因,這蜓樣每宵個(gè)文剝檔由耕若干允個(gè)這嘴樣的LI霜ST構(gòu)成;b.壓縮創(chuàng)編碼Fi給ng蟻er霜Pr喇in荷t方法激;對(duì)起于組先成文閑檔的LI渣ST進(jìn)行Fi陣ng豪er錄Pr亂in殼t方法計(jì)爆算;c.文檔他相似躍度計(jì)窗算編輯距離(E頭di盯tDi段st聯(lián)an徐ce革):如果兩個(gè)文檔有任何一個(gè)Fi丘ng艘er國(guó)Pr筋in邁t相似扇就判夏斷為騙內(nèi)容亦接近邁.d.聚類折方法首先望對(duì)按范照Do適cID進(jìn)行核排序胳;然潑后采削取Un躬io丟nFi封nd聚類疾方法足,聚類也結(jié)果認(rèn)就是糠相似敢文檔謝集合械;e.優(yōu)化拳措施3.HP實(shí)驗(yàn)足室方虜法(糠20陽05年)a.特征沒抽取基于蜂內(nèi)容礎(chǔ)的Ch絹un成k方法想:變懇長(zhǎng)而燒非定裝長(zhǎng)的Ch去un何k算法驢(T績(jī)TT觀D算法)欄;將批一篇蘿文檔獅分解喂為若暢干個(gè)親長(zhǎng)度忽不同展的C配hu炮nk資,每吧個(gè)C難hu多nk免作為文菌本的漠一個(gè)妖特征我.與sh限in笨gl坡e方法軋相比戲這種蹈變長(zhǎng)Ch鄰un油k方法能夠軍增加炎系統(tǒng)潮招回值率;b.壓縮局編碼12藏8b膀itMD阿5HA功SH方法市;每叮篇文塵章壓絞縮編恰碼后爬由若噸干二元六組構(gòu)成;c.文檔細(xì)相似坐度計(jì)棚算(1崇)構(gòu)建俘所有之文檔暮和Ch顛un巖k構(gòu)成瓣的二暴分圖惹;(2件)找到雖文檔A包含奮的所偽有CH寫UN貴K,煎計(jì)算葬這些CH疾UN晝K還被劈燕哪些其它亭文檔善包含鮮;(3籌)計(jì)算聞這些府文檔朵和A的相劇似性輔;d.聚類浴方法綱:U達(dá)ni扶onFi管nd算法e.優(yōu)化辟措施準(zhǔn):B稈ip脫ar催ti圍te劃分口,本撕質(zhì)上霧是將獎(jiǎng)大規(guī)雹模數(shù)伶據(jù)分反成小規(guī)模租數(shù)據(jù)萄進(jìn)行弱識(shí)別途然后次再合粗并結(jié)柄果.租相當(dāng)紙于分悉布計(jì)林算;4.川bl高oo滲mfi減lt放er撕(2摩00目5年)(1雖).憐特征和抽取暖方法基于棕內(nèi)容凱的語涉塊(遲Co糕nt虹en漲t-站de遇fi報(bào)ne鍛dch適un拜ki聞ngCD墓C)蠅:C肆DC將文檔切沾分為湯變長(zhǎng)詠的內(nèi)晉容片饞斷,街切分通邊界四由ra宗bi域nfr死in篩ge糠rp掛ri宮nt和預(yù)井先制鴉定的ma挽ke遵r數(shù)值藥匹配任來進(jìn)本行判奏斷。(2牧)編盒碼(通構(gòu)造bl串oo粗mfi窮lt梳er集合次元素銹)對(duì)于邁切分錢的片央斷進(jìn)待行編犁碼。暮bl哄oo圓mfi包lt剖er的編懸碼方臘式如爐下:策整個(gè)文踏檔是婚由片練斷構(gòu)凡成的低,文賣檔由稿長(zhǎng)為m的二斑值數(shù)昌組表瞧示。陜?cè)趯⒁粋€(gè)室元素過(內(nèi)克容片放斷)貴進(jìn)行避編碼戰(zhàn)插入劈燕集合哄的時(shí)易候,數(shù)利用k個(gè)不同的ha根sh函數(shù)穩(wěn)進(jìn)行勇編碼仗,每姜個(gè)ha堪sh函數(shù)典設(shè)置m個(gè)位霉置的午某個(gè)位置害為1。勺這種扮技術(shù)束以前綁主要曠用來崇進(jìn)行鋪判斷揮某個(gè)資元素辭是否傘被集合包袋含。(3棉)相商似度喂計(jì)算女方法bl鉛oo收mfi許lt丘er方法伙:對(duì)伐于兩桃個(gè)已蕩經(jīng)編雄碼的鵝文檔質(zhì)(兩放個(gè)長(zhǎng)誓度為m的二偽值數(shù)膜組)影,通域過bi酒t邏輯栽運(yùn)算AN盡D計(jì)算恭,如摩果兩齒者很紫多位置都進(jìn)同時(shí)址為1,想那么馬兩個(gè)懸文檔末被認(rèn)唱為是隨近似嫩的。(4路)優(yōu)導(dǎo)勢(shì)1.異文檔踐編碼鼠形式詞簡(jiǎn)潔授,便件于存炭?jī)?chǔ)。2.擔(dān)由于棉計(jì)算衫相似慣性是BI鍬T邏輯憐運(yùn)算冬,所牧以速餓度快吵。(3.勞相對(duì)Sh慢in以gl女in評(píng)g方式左來說玩便于些判斷沖文檔哥包含咸關(guān)系擦。某個(gè)奏文檔包咐含另迫外一花個(gè)短天小的智文檔皇)5.瞇內(nèi)容賭+鏈撫接關(guān)闖系(男20憂03年)1.雙特征泄抽取平方法這個(gè)鐮方法召在抽禾取特要征的耗時(shí)候嘆同時(shí)箭考慮裳了文混檔的夢(mèng)內(nèi)容渣因素絕以及鏈接預(yù)關(guān)系詞因素斯。內(nèi)容揮因素闊:通挖過Ra寸nd爸omPr廊oj長(zhǎng)ec帖ti漆on技術(shù)點(diǎn)將文部檔內(nèi)拴容從碌高維長(zhǎng)空間映片射到扛低維木空間間,并餡且由嫁實(shí)數(shù)琴表示長(zhǎng),如乖果兩民個(gè)文柱檔映是射后勤的數(shù)字合越接卸近則曾表明蟻兩者冒內(nèi)容泄越相舌似。鏈接是因素液:通邁過考香慮類寇似于PA孕GE雙RA借NK的連辰接關(guān)明系,友將某爆個(gè)網(wǎng)頁的學(xué)內(nèi)容驚因素完計(jì)算核獲得饑的分齒值通栗過鏈喪接傳搏播到續(xù)其他御網(wǎng)頁余(傳寨播關(guān)系閘見下餅列公女式)輸,多初次疊魯代計(jì)謠算后年得到半

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論