下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于Heritrix和Sphinx的購(gòu)物比擬搜索引擎研究基于Heritrix和Sphinx的購(gòu)物比擬搜索引擎研究隨著網(wǎng)絡(luò)商品的極大豐富和分類(lèi)的細(xì)化,搜索引擎已成為購(gòu)物信息的重要來(lái)源。比擬購(gòu)物搜索引擎是一種基于專(zhuān)業(yè)化的垂直搜索引擎,通過(guò)對(duì)電子商務(wù)網(wǎng)站或者局部實(shí)體店的商品信息進(jìn)展采集和整理,向消費(fèi)者提供特定準(zhǔn)確的商品信息及相關(guān)輔助設(shè)施,減少信息不對(duì)稱(chēng),優(yōu)化購(gòu)置決策;同時(shí),幫助商家降低推廣本錢(qián)獲得針對(duì)性極高的目的用戶,是將來(lái)網(wǎng)絡(luò)購(gòu)物搜索的開(kāi)展趨勢(shì)。然而,目前國(guó)內(nèi)的比擬購(gòu)物引擎普遍追求大而全,在細(xì)化用戶需求和購(gòu)物體驗(yàn)上較為欠缺。商品信息比擬側(cè)重價(jià)格方面,對(duì)影響購(gòu)物體驗(yàn)的其他因素,諸如商家信譽(yù)、折扣降價(jià)
2、、用戶評(píng)價(jià)、退換條款等較少涉及。本文提出采用Heritrix和Sphinx技術(shù)搭建購(gòu)物搜索引擎,將國(guó)內(nèi)大型B2網(wǎng)站作為爬取信息來(lái)源,運(yùn)用聚焦爬蟲(chóng)技術(shù)將目的定為抓取與用戶某一特定體驗(yàn)主題內(nèi)容相關(guān)的網(wǎng)頁(yè),以期更好的細(xì)分消費(fèi)者人群,有針對(duì)性地滿足用戶體驗(yàn)。一、Heritrix和Sphinx技術(shù)特點(diǎn)1.1Heritrix工作原理Heritrix是一款基于java語(yǔ)言開(kāi)發(fā)的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng),用于對(duì)網(wǎng)上的資源進(jìn)展歸檔,建立網(wǎng)絡(luò)數(shù)字圖書(shū)館,目前已經(jīng)建立了400TB的數(shù)據(jù)。Heritrix爬蟲(chóng)每次只對(duì)一張網(wǎng)頁(yè)的內(nèi)容深度復(fù)制,包括獲取圖像以及其它非文本內(nèi)容,抓取并存儲(chǔ)相關(guān)的內(nèi)容。詳細(xì)篩爬過(guò)程中,爬蟲(chóng)先從隊(duì)列中取出下
3、一個(gè)URL,通過(guò)HTTP協(xié)議將對(duì)應(yīng)的網(wǎng)頁(yè)爬取下來(lái),然后解析內(nèi)容,并且提取出包含的URL,將其中新發(fā)現(xiàn)的URL追加到隊(duì)列中。最后將網(wǎng)頁(yè)存放到本地磁盤(pán)的網(wǎng)頁(yè)庫(kù)中。爬取過(guò)程在積累到一定數(shù)量網(wǎng)頁(yè)時(shí)即可終止,或者在隊(duì)列為空的時(shí)候終止。1.2Sphinx工作原理Sphinx是一個(gè)基于SQL的全文檢索引擎,本系統(tǒng)所采用的是基于Sphinx研發(fā)并獨(dú)立發(fā)布的reseek,是一款專(zhuān)攻中文搜索和信息處理的中文全文檢索/搜索軟件,它適用于行業(yè)/垂直搜索、論壇/站內(nèi)搜索、數(shù)據(jù)庫(kù)搜索本文由論文聯(lián)盟.LL.搜集整理、文檔/文獻(xiàn)檢索、信息檢索、數(shù)據(jù)挖掘等應(yīng)用場(chǎng)景。Sphinxreseek整個(gè)系統(tǒng)主要由索引建立和維護(hù)程序索引程
4、序indexer、查詢效勞程序后臺(tái)效勞程序searhd、輔助工具程序searh,spelldup等三大局部組成。二、比擬購(gòu)物搜索引擎系統(tǒng)構(gòu)建2.1系統(tǒng)架構(gòu)系統(tǒng)整體架構(gòu)由四局部組成:1由Heritrix擴(kuò)展而來(lái)的爬蟲(chóng)系統(tǒng),負(fù)責(zé)從互聯(lián)網(wǎng)抓取商品相關(guān)的信息。2ySQL數(shù)據(jù)庫(kù),存儲(chǔ)由Heritrix抓取的數(shù)據(jù)。3Sphinx全文索引效勞器,負(fù)責(zé)對(duì)商品建立全文索引。4Tat效勞器,負(fù)責(zé)向客戶端提供搜索效勞。詳細(xì)系統(tǒng)整體架構(gòu)圖如圖1。在初始化階段,Heritrix任務(wù)需事先通過(guò)配置和測(cè)試,確認(rèn)后可由Linux系統(tǒng)通過(guò)rn來(lái)自動(dòng)調(diào)度。根據(jù)用戶輸入的商品信息,網(wǎng)絡(luò)爬蟲(chóng)的每個(gè)抓取任務(wù)只負(fù)責(zé)單個(gè)購(gòu)物網(wǎng)站數(shù)據(jù)的抓取
5、,但每個(gè)任務(wù)的線程數(shù)量可由實(shí)際情況進(jìn)展調(diào)整。篩爬啟動(dòng)和完畢時(shí)間通過(guò)Bash腳本來(lái)監(jiān)控,每隔一定的時(shí)間去檢測(cè)相應(yīng)的進(jìn)程是否已經(jīng)完畢,假如某個(gè)抓取任務(wù)完畢,那么設(shè)定好下一次啟動(dòng)的時(shí)間間隔。在本文構(gòu)建的模型中采用ySQL數(shù)據(jù)庫(kù)存儲(chǔ)篩爬的信息,但直接從ySQL數(shù)據(jù)庫(kù)生成全文索引讀取比擬費(fèi)時(shí),因此采用基于SQL的全文檢索引擎Sphinx結(jié)合ySQL,以主索引+增量索引的形式,大局部的搜索都集中在Sphinx全文索引中,少量數(shù)據(jù)可能需要直接訪問(wèn)ySQL數(shù)據(jù)庫(kù),這樣可以使應(yīng)用程序更容易實(shí)現(xiàn)專(zhuān)業(yè)化的全文檢索。詳細(xì)運(yùn)行過(guò)程中通過(guò)rn設(shè)定方案任務(wù),每隔一定的時(shí)間,Sphinx會(huì)從ySQL數(shù)據(jù)庫(kù)生成增量索引,然后執(zhí)
6、行主索引和增量索引的合并,并且在后臺(tái)操作過(guò)程中,一直可以向客戶提供搜索效勞。2.2數(shù)據(jù)存儲(chǔ)模型的建立目前各種購(gòu)物平臺(tái)和測(cè)評(píng)網(wǎng)站給出的商品信息異常復(fù)雜,每個(gè)網(wǎng)站的頁(yè)面都有自身特定的格式,一樣商品在不同網(wǎng)站上也不盡一樣,尤其是不同類(lèi)型的商品在屬性上差異極大,因此,需要建立統(tǒng)一的數(shù)據(jù)模型存儲(chǔ)數(shù)據(jù),也即通過(guò)多張表可以描繪各種類(lèi)型商品的根本屬性,而不需要針對(duì)每種商品建立不同的存儲(chǔ)表。本設(shè)計(jì)中構(gòu)建了商品表、商品別名表、品牌表、信息采集表、信息采集元數(shù)據(jù)表、商品途徑表、網(wǎng)站表、店鋪表和商品類(lèi)別表等一系列數(shù)據(jù)模型。以商品信息表為例,如表2-1所示。表2-1商品表dity字段名定義類(lèi)型特性說(shuō)明idbigintu
7、nsigned自增、主鍵商品idnaevarhar255非空、全文索引商品的名字brand_idbigintunsigned外鍵品牌idinstane_idvarhar50非空ISBN,ISR,型號(hào)等is_uniquebl非空是否唯一datetiedatetie非空創(chuàng)立時(shí)間instane_id可以是型號(hào)、貨號(hào)、ISBN、ISR等用來(lái)區(qū)分商品的編號(hào)。大局部商品都會(huì)有型號(hào)instane_id,因此只要有一樣品牌且型號(hào)一樣,就可以肯定是同一種商品。brand_id指向brand,指品牌如TL,也可指出版社或消費(fèi)廠商。商品的名字需要用Sphinx建立全文索引。2.3信息提取流程通過(guò)設(shè)置起始網(wǎng)站,然后根
8、據(jù)需要提取并更新網(wǎng)頁(yè)上的商品信息,在信息提取過(guò)程中通過(guò)判別程序進(jìn)展斷定,對(duì)已存在商品添加商品別名,不存在的商品添加商品信息,最后更新店鋪信息。2.3.1商品信息提取判別提取產(chǎn)品的信息包括商品名稱(chēng)、市場(chǎng)價(jià)、最高價(jià)、促銷(xiāo)價(jià)、促銷(xiāo)描繪、銷(xiāo)量描繪、評(píng)價(jià)、URL、店鋪、類(lèi)別、屬性,其中對(duì)ISBN或ISR、品牌和型號(hào)屬性要特殊處理,由于不同商家在添加商品信息時(shí)可能會(huì)有文字上的差異,提取時(shí)要結(jié)合Sphinx建立的全文搜索引擎仔細(xì)設(shè)計(jì)匹配規(guī)那么。假如商品屬性中有ISBN,那么可以肯定是圖書(shū),假如有ISR字樣,那么肯定為唱片。這兩種編寫(xiě)都具有全球唯一性,因此可以設(shè)定商品表中的is_unique字段為真,判斷時(shí)以
9、此編號(hào)為準(zhǔn)。在沒(méi)有全球唯一編號(hào)的情況下,大局部商品可通過(guò)品牌+型號(hào)的方式來(lái)判斷是否為同一商品。其中型號(hào)可能有別名,如貨號(hào)等。其余情況,以商品名字來(lái)判斷,由于不同商家會(huì)往商品名稱(chēng)里參加很多其他信息,通過(guò)名字來(lái)判斷同一商品可靠性較低。2.3.2商品信息更新流程商品信息更新分為店鋪信息更新和類(lèi)別更新兩個(gè)局部。店鋪更新是在商品添加成功以后來(lái)處理的,一般每個(gè)商品都會(huì)有默認(rèn)ntext購(gòu)物網(wǎng)站,個(gè)別商品可通過(guò)網(wǎng)頁(yè)找到對(duì)應(yīng)店家,此時(shí)就適用更新店鋪流程,更新店鋪?zhàn)罱K是為了讓此次采集時(shí)的上下文環(huán)境更加明確,以便將來(lái)對(duì)采集數(shù)據(jù)進(jìn)展分類(lèi)處理。類(lèi)別更新針對(duì)局部能從商品信息頁(yè)面中獲取的網(wǎng)站而言,為可選功能。三、模型構(gòu)建理論本文基于Heritrix和Sphinx技術(shù)搭建的購(gòu)物搜索引擎在理論中把淘寶網(wǎng)、天貓網(wǎng)、卓越亞馬遜、當(dāng)當(dāng)網(wǎng)作為重點(diǎn)爬取對(duì)象,能實(shí)現(xiàn)針對(duì)這些主要購(gòu)物網(wǎng)一般商品的搜索。搜索結(jié)果頁(yè)面如圖2所示。商品比擬結(jié)果頁(yè)面如圖3所示。四、總結(jié)本系統(tǒng)通過(guò)Linux系統(tǒng)的腳本管理技術(shù),將Heritrix網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、Sph
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 3D生物打印在血管化組織工程中的優(yōu)化策略
- 高中物理實(shí)驗(yàn)中傳感器在橋梁抗震研究中的應(yīng)用課題報(bào)告教學(xué)研究課題報(bào)告
- 2025年四川機(jī)電職業(yè)技術(shù)學(xué)院公開(kāi)招聘教師及助學(xué)助管員的備考題庫(kù)(第三批)完整答案詳解
- 2025年天津市西青經(jīng)開(kāi)區(qū)投資促進(jìn)有限公司面向全國(guó)公開(kāi)招聘招商管理人員備考題庫(kù)帶答案詳解
- 2025年寶安中學(xué)(集團(tuán))海天學(xué)校初中實(shí)驗(yàn)員、小學(xué)語(yǔ)文教師招聘?jìng)淇碱}庫(kù)及參考答案詳解一套
- 高中生運(yùn)用聲學(xué)知識(shí)設(shè)計(jì)校園雨水花園降噪系統(tǒng)課題報(bào)告教學(xué)研究課題報(bào)告
- 2025年雄安國(guó)創(chuàng)中心科技有限公司校園招聘?jìng)淇碱}庫(kù)及完整答案詳解一套
- 現(xiàn)代實(shí)景家居室內(nèi)設(shè)計(jì)方案模板
- 簡(jiǎn)約風(fēng)筆記年度時(shí)事政治黨政報(bào)告模板
- 2025年德惠市大學(xué)生鄉(xiāng)村醫(yī)生專(zhuān)項(xiàng)計(jì)劃公開(kāi)招聘工作人員備考題庫(kù)(1號(hào))參考答案詳解
- 2025-2026學(xué)年統(tǒng)編版一年級(jí)上冊(cè)道德與法治教學(xué)計(jì)劃
- 《機(jī)器學(xué)習(xí)》課件-第6章 強(qiáng)化學(xué)習(xí)
- 早產(chǎn)合并新生兒呼吸窘迫綜合征護(hù)理查房
- 警校偵查專(zhuān)業(yè)畢業(yè)論文
- 生態(tài)教育心理干預(yù)-洞察及研究
- 票務(wù)提成管理辦法
- 肺炎克雷伯菌肺炎護(hù)理查房
- 人教版(2024)七年級(jí)上冊(cè)英語(yǔ)Unit1-7各單元語(yǔ)法專(zhuān)項(xiàng)練習(xí)題(含答案)
- 2025版小學(xué)語(yǔ)文新課程標(biāo)準(zhǔn)
- 2025年河北省中考化學(xué)真題 (解析版)
- 鄉(xiāng)鎮(zhèn)衛(wèi)生院檢驗(yàn)科檢驗(yàn)質(zhì)量控制管理制度?
評(píng)論
0/150
提交評(píng)論