紡織業(yè)信息自動(dòng)獲取體系分析_第1頁
紡織業(yè)信息自動(dòng)獲取體系分析_第2頁
紡織業(yè)信息自動(dòng)獲取體系分析_第3頁
紡織業(yè)信息自動(dòng)獲取體系分析_第4頁
紡織業(yè)信息自動(dòng)獲取體系分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

紡織業(yè)信息自動(dòng)獲取體系分析

隨著因特網(wǎng)的飛速發(fā)展,WWW已成為一個(gè)巨大的信息資源庫,為用戶又提供了一個(gè)極具價(jià)值的信息來源。由于WWw信息的量大、動(dòng)態(tài)、分散和異構(gòu)等特點(diǎn),使得用戶很難快速準(zhǔn)確地獲取所需信息。為了解決這一矛盾,網(wǎng)絡(luò)搜索引擎技術(shù)應(yīng)運(yùn)而生。網(wǎng)絡(luò)搜索引擎在網(wǎng)絡(luò)信息資源查找中起到了重要的作用,它可以幫助用戶從浩如煙海的網(wǎng)絡(luò)信息中找出自己想要得到的信息[1]。網(wǎng)絡(luò)搜索引擎一般由信息收集、索引數(shù)據(jù)庫的創(chuàng)建和用戶查詢接口三部分組成。在一個(gè)通用的搜索引擎系統(tǒng)中,信息收集可用一類稱之為“網(wǎng)絡(luò)蜘蛛”的軟件,按照一定的規(guī)則瀏覽盡可能多的W如頁面,抓取頁面信息。索引數(shù)據(jù)庫即將抓取的信息分類索引,以利于檢索。用戶查詢接口即提供用戶輸入查詢關(guān)鍵詞和搜索條件的界面以及瀏覽結(jié)果的界面。由于WWW中信息的龐大,使得網(wǎng)絡(luò)搜索引擎需要的軟硬件條件相當(dāng)高,一般只有大公司才能提供。而且這些龐大的搜索引擎系統(tǒng)存在~些缺陷:如返回結(jié)果常不夠?qū)I(yè)要求,不能為用戶自動(dòng)提取網(wǎng)頁中內(nèi)容等等[2]。能不能有效地利用搜索引擎的相關(guān)技術(shù),為某些專業(yè)需求的廣大用戶服務(wù)呢?因特網(wǎng)上存在大量的紡織企業(yè)信息[3],如要建立一個(gè)有關(guān)紡織企業(yè)基本信息庫,通過網(wǎng)絡(luò)搜索引擎,可找到很多相關(guān)信息,但是只能通過手工記錄該信息。為了解決該問題,筆者以搜索引擎技術(shù)為核心研究具有反饋功能的搜索代理,該代理根據(jù)專業(yè)性的要求,結(jié)合用戶反饋信息自動(dòng)分析網(wǎng)頁內(nèi)容,只抓取針對(duì)專業(yè)相關(guān)的頁面特征信息。利用該代理,研究設(shè)計(jì)了一個(gè)紡織企業(yè)信息庫的自動(dòng)獲取系統(tǒng),該系統(tǒng)能自動(dòng)跟蹤紡織企業(yè)信息網(wǎng)頁,獲取其網(wǎng)頁特征信息,通過剖析這些特征信息,識(shí)別出其相關(guān)內(nèi)容,并將其置于數(shù)據(jù)庫中,可進(jìn)行廣泛應(yīng)用。

1系統(tǒng)總體框架

筆者所研究的基于搜索代理的紡織企業(yè)信息庫的自動(dòng)獲取系統(tǒng)如圖1所示。與通用搜索引擎不同的是,它用搜索代理替代了搜索引擎中的“網(wǎng)絡(luò)蜘蛛”軟件,該代理除了能完成網(wǎng)頁收集和自動(dòng)“爬行”外,還能利用專業(yè)關(guān)鍵詞和用戶的反饋信息自動(dòng)過濾相關(guān)網(wǎng)頁,這樣使收集來的頁面均與專業(yè)相關(guān),較大地縮小了對(duì)存儲(chǔ)空間的要求。此外還增加了反饋信息、專業(yè)信息數(shù)據(jù)庫,以及收集這些信息的代理模塊。

1.1搜索代理的工作原理代理又稱Agent是一個(gè)具有自治能力的實(shí)體,一般表現(xiàn)為由軟件支持下的系統(tǒng)[4]。在所設(shè)計(jì)的系統(tǒng)中,搜索代理是一個(gè)面向特定專業(yè)領(lǐng)域的信息獲取引擎。與一般搜索引擎相比,它使用自動(dòng)獲得的專業(yè)特征信息、用戶反饋信息知識(shí)進(jìn)行網(wǎng)頁信息搜集、過濾,并將自動(dòng)提取網(wǎng)頁基本結(jié)構(gòu)信息。其工作原理如圖2中虛線框所示。

1.2用戶反饋信息及專業(yè)信息收集為了提高信息識(shí)別的專業(yè)化和信息挖掘的準(zhǔn)確度,該搜索代理還利用了用戶的反饋信息和專業(yè)詞匯等信息,充分體現(xiàn)了該系統(tǒng)的自適應(yīng)性。用戶的反饋信息主要有:用戶經(jīng)常使用的某些關(guān)鍵詞,用戶對(duì)搜索結(jié)果的選擇情況,用戶對(duì)某個(gè)網(wǎng)站的評(píng)價(jià)等等。反饋信息庫可以采用表l所示的數(shù)據(jù)庫結(jié)構(gòu)來存儲(chǔ)。專業(yè)詞匯信息主要是針對(duì)某專業(yè)來說的相關(guān)詞匯。對(duì)某一網(wǎng)頁來說,通過計(jì)算該網(wǎng)頁中這些專業(yè)詞匯的出現(xiàn)情況,再根據(jù)“向量空間模型”[5]即可以判斷該網(wǎng)頁是否包含專業(yè)性信息,對(duì)那些無專業(yè)信息的網(wǎng)頁,不作處理,從而可以減少數(shù)據(jù)庫的存儲(chǔ)空間及后期處理的時(shí)間。專業(yè)詞匯信息庫可以采用表2所示的數(shù)據(jù)庫結(jié)構(gòu)來存儲(chǔ)。

2系統(tǒng)中的關(guān)鍵技術(shù)

2.1網(wǎng)頁的獲取由于Web系統(tǒng)具有分布性、相異性和獨(dú)立性的特點(diǎn),網(wǎng)頁的獲取是一項(xiàng)具有挑戰(zhàn)性的工作。為了提高獲取的效率及可靠性,本系統(tǒng)采用了線程緩沖池和超時(shí)技術(shù)。線程緩沖池可同時(shí)運(yùn)行20個(gè)線程以上,每個(gè)線程專門針對(duì)一個(gè)網(wǎng)站。當(dāng)一個(gè)網(wǎng)站被索引完成后,線程緩沖池即可馬上啟動(dòng)另一個(gè)線程對(duì)新的網(wǎng)站開始索引。該算法描述如下:while程序未退出fori=0to最大線程緩沖池if第i個(gè)緩沖池為空then‘從網(wǎng)站目錄表中得到一條IndexFlag為0的網(wǎng)站URL啟動(dòng)索引線程將網(wǎng)站目錄表中該記錄的Index-Flag置為2將第i個(gè)線程緩沖池標(biāo)為忙endifendforendwhile2.2網(wǎng)頁結(jié)構(gòu)特征信息過濾網(wǎng)頁文本信息由HTML標(biāo)記語言描述,其中包含有大量格式化標(biāo)記信息,其中有效信息只占少數(shù)。因此,對(duì)HTML源代碼進(jìn)行過濾,不但可以減少信息處理量,而且可以提高后面信息挖掘的準(zhǔn)確性。通過對(duì)大量HTML網(wǎng)頁的分析,包含有結(jié)構(gòu)化信息內(nèi)容的標(biāo)簽一般由等標(biāo)簽組成。除此以外,等標(biāo)簽也具有極其重要的價(jià)值。因此,網(wǎng)頁結(jié)構(gòu)特征信息過濾即從HTML源信息中保留以上標(biāo)簽的內(nèi)容,而將其他信息刪除掉。該算法描述如下:fori=0to保留標(biāo)簽個(gè)數(shù)得到保留標(biāo)簽從文檔開始至結(jié)尾處查找該保留標(biāo)簽將所有由該標(biāo)簽起始和結(jié)束符之間的信息保留nextfor將所有保留的信息加在一起即為過濾后信息

2.3專業(yè)信息的劃分在收集到網(wǎng)頁信息后,許多頁面可能都是與該專業(yè)不相關(guān)的。大量不相關(guān)的網(wǎng)頁,將占用大量存儲(chǔ)空間且影響信息獲取的速度和質(zhì)量,因此如何識(shí)別專業(yè)信息具有至關(guān)重要的作用。在判斷網(wǎng)頁內(nèi)容是否屬于專業(yè)性方面,我們借鑒“向量模型”的相關(guān)概念。用N個(gè)關(guān)鍵詞來對(duì)某專業(yè)領(lǐng)域R進(jìn)行表達(dá),從而形成N維的向量空間。同時(shí),對(duì)每個(gè)關(guān)鍵詞我們賦予它不同的權(quán)重級(jí)別m則該專業(yè)領(lǐng)域R可以表示為N維的向量空間:R一。對(duì)任何一個(gè)文檔D,我們可以找到每個(gè)關(guān)鍵詞在文檔D中出現(xiàn)的位置,從而確定其所處的標(biāo)簽。對(duì)HTML標(biāo)簽我們進(jìn)行了分類并給每類賦予不同的權(quán)值[6I,如表3所示。如表3所示,我們將HTML標(biāo)簽分成7類并賦給它們不同的權(quán)重值,當(dāng)然可以根據(jù)實(shí)際情況進(jìn)行相應(yīng)修改。根據(jù)表3,我們可以計(jì)算出每一個(gè)關(guān)鍵詞在文檔D中所占的權(quán)值。假設(shè)關(guān)鍵詞T在每類標(biāo)簽中出現(xiàn)的頻率分別為:則該關(guān)鍵詞T在文檔D中的權(quán)值如式所示。dl一玎1×1.2+礦2+玎3×0.9+tf4×0.8+礦5×0.64-tf6×0.4+玎7×0.2根據(jù)式,不難計(jì)算出所有專業(yè)關(guān)鍵詞在文檔W中的權(quán)值。因此,整個(gè)文檔可以由一個(gè)N維向量表示:D一。得到該向量后,我們可以通過式計(jì)算出該文檔D與某專業(yè)領(lǐng)域R的相似度:川similarity一下薩蘭。Vi=1i=1得到文檔與某專業(yè)領(lǐng)域R的相似度后,通過多次實(shí)驗(yàn),我們可以設(shè)定一個(gè)閾值K,當(dāng)文檔D的相似度S≥K時(shí),我們將保留該文檔的內(nèi)容,反之,該文檔被丟棄,即實(shí)現(xiàn)專業(yè)信息的劃分。

2.4網(wǎng)頁信息識(shí)別與挖掘在HTMI。語言的規(guī)范中,網(wǎng)頁中格式信息一般由所包含。通過對(duì)格式信息數(shù)據(jù)區(qū)域分析,一個(gè)包含格式化信息的網(wǎng)頁中可以轉(zhuǎn)化成一個(gè)樹型結(jié)構(gòu),如圖3所示。從圖3我們可以看出,網(wǎng)頁中信息可以描述成由行列組成的二維信息。若將標(biāo)志看作數(shù)據(jù)庫中表的話,那么標(biāo)志等同于表中的一條記錄,標(biāo)志等同于記錄的字段。但也有特殊情況,如幾個(gè)組成一條記錄,每個(gè)為該記錄的字段。為了解決這些情況,我們利用樹的相關(guān)算法可以完成信息的識(shí)別與挖掘。在圖3所示的樹型結(jié)構(gòu)中,令TR結(jié)點(diǎn)有N個(gè),TR節(jié)點(diǎn)的度為D川顯然D,等于該結(jié)點(diǎn)下包含TD節(jié)點(diǎn)的個(gè)數(shù),則信息識(shí)別與挖掘的規(guī)則如下:若所有的TR節(jié)點(diǎn)的D。均相等且大于0,則TR的個(gè)數(shù)即為記錄行的數(shù)目,D,,即為記錄字段的數(shù)目。若有M個(gè)連續(xù)的TR節(jié)點(diǎn)的D,相等且大于0,則M即為記錄行的數(shù)目,n,即為記錄字段的數(shù)目。其中M的選取可根據(jù)占所有TR之比來選取,如50%×N。除情況和外,相鄰TR結(jié)點(diǎn)的D,不相等但它們的變化呈現(xiàn)重復(fù)性,重復(fù)的間隔為K,如:n,的變化趨勢依次為1,2,2,0,1,2,2,0,1,2,2,0,…,重復(fù)間隔為4,則K即為記錄字段的數(shù)目,記錄行的數(shù)目為重復(fù)變化的TR個(gè)數(shù)除以K。其他情況暫不處理。

3紡織企業(yè)信息的自動(dòng)獲取系統(tǒng)的實(shí)現(xiàn)

通過以上的介紹,我們以紡織企業(yè)信息庫的創(chuàng)建為例,實(shí)現(xiàn)了Web環(huán)境下的紡織企業(yè)信息的自動(dòng)獲取。經(jīng)過了解,紡織企業(yè)基本信息包括:企業(yè)名稱、企業(yè)簡介、主要產(chǎn)品、所屬行業(yè)、聯(lián)系方式等。為了僅對(duì)該相關(guān)信息進(jìn)行搜索,首先需要設(shè)定專業(yè)詞匯信息,主要包括與紡織及企業(yè)相關(guān)的內(nèi)容,由于該類詞匯很多,僅選幾個(gè)列于表4中。當(dāng)網(wǎng)頁信息被索引后,我們可以瀏覽這些信息,通過人工判別,可以給搜索代理添加反饋信息,如某個(gè)網(wǎng)站必須索引,某個(gè)網(wǎng)站不需索引,等等。當(dāng)網(wǎng)頁信息索引完成后,搜索代理開始對(duì)每個(gè)網(wǎng)頁內(nèi)容進(jìn)行了格式信息識(shí)別與挖掘,如石家莊紡織網(wǎng)中有如圖4所示網(wǎng)頁。雖然,該信息并不完全是我們所要的信息,但是搜索代理已為我們挖掘出與所要專業(yè)相關(guān)的重要信息,我們下一步所要做的僅僅是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論