WEB數(shù)據(jù)采集系統(tǒng)_第1頁
WEB數(shù)據(jù)采集系統(tǒng)_第2頁
WEB數(shù)據(jù)采集系統(tǒng)_第3頁
WEB數(shù)據(jù)采集系統(tǒng)_第4頁
WEB數(shù)據(jù)采集系統(tǒng)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、WEB數(shù)據(jù)采集系統(tǒng)一. 概述面對互聯(lián)網(wǎng)海量的信息,政府機(jī)關(guān)、企事業(yè)單位和研究機(jī)構(gòu)都迫切希望獲取 與自身工作相關(guān)的有價(jià)值信息,如何方便快捷地獲取這些信息就變得至關(guān)重要 了。如果采用原始的手工收集方式,費(fèi)時(shí)費(fèi)力且毫無效率,面對越來越多的信息資源,勞動(dòng)強(qiáng)度和難度可想而知。因此,現(xiàn)代的政府和企業(yè)都迫切需要一種能夠 提供高質(zhì)量和高效運(yùn)作的信息采集解決方案。本系統(tǒng)針對不同行業(yè)用戶的應(yīng)用需求,以抓取互聯(lián)網(wǎng)為目的,實(shí)現(xiàn)在用戶自定義規(guī)則下,從互聯(lián)網(wǎng)中抓取指定信息。抓取的信息可存入數(shù)據(jù)庫或直接入庫發(fā)送至指定欄目,實(shí)現(xiàn)網(wǎng)站信息及時(shí)更新和數(shù)據(jù)量提升,從而使得搜索引擎收錄量提升,擴(kuò)大企業(yè)信息宣傳推廣力度。二. 典型應(yīng)用

2、1. 政府機(jī)關(guān)l 實(shí)時(shí)跟蹤、采集與業(yè)務(wù)工作相關(guān)的信息來源。l 全面滿足內(nèi)部工作人員對互聯(lián)網(wǎng)信息的全局觀測需求。l 及時(shí)解決政務(wù)外網(wǎng)、政務(wù)內(nèi)網(wǎng)的信息源問題,實(shí)現(xiàn)動(dòng)態(tài)發(fā)布。l 快速解決政府主網(wǎng)站對各地級子網(wǎng)站的信息獲取需求。l 全面整合信息,實(shí)現(xiàn)政府內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效溝通。l 節(jié)約信息采集的人力、物力、時(shí)間,提高辦公效率。2. 企業(yè)l 實(shí)時(shí)準(zhǔn)確地監(jiān)控、追蹤競爭對手動(dòng)態(tài),是企業(yè)獲取競爭情報(bào)的利器。l 及時(shí)獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。l 為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。l 大幅度地提高企業(yè)獲取、利用情報(bào)的效率,節(jié)省情報(bào)信息收集、存

3、儲、挖掘的相關(guān)費(fèi)用,是提高企業(yè)核心競爭力的關(guān)鍵。l 提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力,建立起以知識管理為核心的“競爭情報(bào)數(shù)據(jù)倉庫”,是提高企業(yè)核心競爭力的神經(jīng)中樞。3. 新聞媒體l 快速準(zhǔn)確地自動(dòng)采集數(shù)信息。l 支持每天對數(shù)萬條新聞進(jìn)行有效抓取。l 支持對所需內(nèi)容的智能提取、審核。l 實(shí)現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。三. 系統(tǒng)構(gòu)架工作過程描述采集的目的就是把對方網(wǎng)站上網(wǎng)頁中的某塊文字或者圖片等資源下載到自己的站網(wǎng)上,這個(gè)過程需要做如下配置工作:下載網(wǎng)頁配置,解析網(wǎng)頁配置,修正結(jié)果配置,數(shù)據(jù)輸出配置。如果數(shù)據(jù)符合自己要求,修正結(jié)果這步可省略。配置完畢后,把配置形

4、成任務(wù)(任務(wù)以XML格式描述),采集系統(tǒng)按照任務(wù)的描述開始工作,最終把采集到的結(jié)果存儲到網(wǎng)站服務(wù)器上。工作流程圖如下:數(shù)據(jù)處理邏輯圖: 四. 系統(tǒng)功能 根據(jù)用戶事先配置好的規(guī)則(網(wǎng)頁下載規(guī)則,網(wǎng)頁解析規(guī)則等),進(jìn)行數(shù)據(jù)采集。當(dāng)對方網(wǎng)站數(shù)據(jù)進(jìn)行了更新,或者添加新數(shù)據(jù)時(shí),系統(tǒng)自動(dòng)會進(jìn)行檢測,并進(jìn)行采集,然后更新到自己的數(shù)據(jù)庫(或者別的存儲方式),這個(gè)過程不再需要人工干涉。 五. 技術(shù)特點(diǎn) 1. 支持多種網(wǎng)頁編碼格式,也可以人工設(shè)置編碼格式。支持各國語言的網(wǎng)站。2. 支持圖片,軟件,音樂,視頻,flash等多種格式資源的下載。3. 支持采集結(jié)果輸出的多樣性,可以使用不同輸出插件進(jìn)行輸出,也可以自己開

5、發(fā)輸出插件。4. 采集配置分為三個(gè)部分:網(wǎng)頁爬蟲配置,網(wǎng)頁解析配置,采集任務(wù)配置。以上三者可以自由搭配,便于重復(fù)利用已設(shè)置完畢的配置。5. 可定制的數(shù)據(jù)解析和抽取??梢宰杂膳渲靡杉木W(wǎng)絡(luò)元數(shù)據(jù),并可以對每個(gè)網(wǎng)絡(luò)元數(shù)據(jù)自定義字段名。便于后續(xù)信息處理。6. 采集爬蟲采用多任務(wù)、多數(shù)據(jù)源管理。7. 每個(gè)任務(wù)下可以指定多個(gè)采集入口網(wǎng)站。8. 采集條件設(shè)置,可以針對不同任務(wù)下的入口網(wǎng)站設(shè)置采集路徑、重點(diǎn)頁面、采集網(wǎng)址過濾等控制條件??刂茥l件采用正則表達(dá)式。9. 運(yùn)行配置,采集運(yùn)行過程中使用的爬蟲名稱、個(gè)數(shù)、數(shù)據(jù)更新頻度等均可以由用戶進(jìn)行配置。10. 自動(dòng)識別文本中的圖片信息,并且自動(dòng)下載到本地,并替換

6、文本中的圖片URL為本地URL。11. 管理控制臺可以監(jiān)控采集過程的運(yùn)行情況。六. 系統(tǒng)優(yōu)勢1. 精確度高用戶可以按照自身需要自行選擇、設(shè)定監(jiān)測的目標(biāo)網(wǎng)站和特定信息源,實(shí)施24 小時(shí)不間斷監(jiān)測和采集,信息動(dòng)態(tài)始終處于掌握之中。系統(tǒng)支持將網(wǎng)頁中的 信息內(nèi)容按日期、標(biāo)題、作者、欄目進(jìn)行提取,過濾網(wǎng)頁中的無用信息。擴(kuò)展抓 取采集范圍可以精確到特定網(wǎng)站、特定欄目、特定頁面、特定區(qū)域。2. 易用性好系統(tǒng)參數(shù)設(shè)置簡單,一次設(shè)置多次使用。設(shè)置過程直觀、便捷。3. 靈活性強(qiáng)系統(tǒng)具有很強(qiáng)的靈活性,可按需選擇目標(biāo)站點(diǎn),并根據(jù)形勢的變化,隨時(shí)更 換目標(biāo)站點(diǎn)。用戶可直接到某一網(wǎng)站抓取用戶想要的特定欄目下的信息,它僅僅 要求用戶設(shè)定特定的抓取條件,用戶需要的內(nèi)容就會自動(dòng)被抓取和保存下來,從 而實(shí)現(xiàn)由用戶上網(wǎng)找信息轉(zhuǎn)變?yōu)樾畔⒆詣?dòng)流向用戶的方式。4. 實(shí)施部署容易系統(tǒng)用戶界面友好,抓取服務(wù)器在任意瀏覽器下運(yùn)行,實(shí)施部署過程簡單, 即裝即用。5. 采集內(nèi)容全面適應(yīng)網(wǎng)站內(nèi)容格式的多變性,能完整地獲取需要采集的頁面,遺漏少,網(wǎng)頁 采集內(nèi)容的完整性在 99%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論