資源數(shù)據(jù)采集技術方案_第1頁
資源數(shù)據(jù)采集技術方案_第2頁
資源數(shù)據(jù)采集技術方案_第3頁
資源數(shù)據(jù)采集技術方案_第4頁
資源數(shù)據(jù)采集技術方案_第5頁
免費預覽已結束,剩余7頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

公司名稱20227月名目1(3(3(3(4(4(52(5(6(6(73(94(91局部概述工程概況Internet已經(jīng)進展成為當今世界上最大的信息庫和全球范圍內傳播學問的主要渠道,站點遍布全球的巨大信息效勞網(wǎng),為用戶供給了一個極具價值的信息源。無論是個人的進展還是企業(yè)競爭力的提升都越來越多地依靠對網(wǎng)上信息資源的利用?,F(xiàn)在是信息時代,信息是一種重要的資源,它在人們的生活和工作中起著重要的,Internet成為人們傳遞信息的一個重要的橋梁。網(wǎng)絡的不斷進展,伴隨著大量信息的產(chǎn)生,如何在海量的信息源中查找搜集所需的信息資源成為了我們今后建設在線預訂類旅游網(wǎng)重要的組成局部。因此,在當今高度信息化的社會里,信息的獵取和信息的準時性。而Web數(shù)據(jù)采集可以通過一系列方法,依據(jù)用戶興趣,自動搜取網(wǎng)上特定種類的信息,去除無關數(shù)據(jù)和垃圾數(shù)據(jù),篩選虛假數(shù)據(jù)和遲滯數(shù)據(jù),過濾重復數(shù)據(jù)。直接將信息依據(jù)用戶的要求呈現(xiàn)給用戶??梢源蟠鬁p輕用戶的信息過載和信息迷失。系統(tǒng)建設目標在線預訂類旅游網(wǎng)是在線供給機票、酒店、旅游線路等旅游商品為主,涉及的網(wǎng)站。假設用戶要搜集這一類網(wǎng)站的相關數(shù)據(jù),通常的做法是人工掃瞄網(wǎng)站,查看最近更的信息。然后再將之復制粘貼到Excel文檔或已有資源系統(tǒng)中。這種做法不僅費時費力,而且在查找的過程中可能還會遺漏,數(shù)據(jù)轉移的過程中會出錯。針對這種狀況,在線預訂類旅游網(wǎng)信息自動采集的系統(tǒng)可以實現(xiàn)數(shù)據(jù)采集的高效化和自動化。建設的原則建設原則多樣化的特點。因此,在進展工程建設的過程中,應當遵循以下原則:可擴大性依據(jù)實際的要求,系統(tǒng)可被便利地載減和敏捷的擴展,使系統(tǒng)能適應變化和狀況??梢詫崿F(xiàn)模塊級別的動態(tài)擴展,而且是運行時的。所謂運行時模塊的動態(tài)擴展,,Bundle進展組織,然后直接扔到運行時環(huán)境下,這些功能就可以用了。因此系統(tǒng)不會受技術改造而重做出調整。創(chuàng)性軟件的投資要考慮到今后的進展,不能使用落后的產(chǎn)品與技術,避開投資的鋪張;在系統(tǒng)軟件選型、開發(fā)技術上,到達國內外先進水平。標準性和標準性,應當全部遵循通用的國際或行業(yè)標準,符合國家有關標準標準的。低耦合性采集系統(tǒng)與其它系統(tǒng)彼此間相對獨立,直接進展數(shù)據(jù)庫入庫、sql同步或者基于txt/xml的數(shù)據(jù)交換,保證整體系統(tǒng)的低耦合性。高效性java語言,跨平臺,跨數(shù)據(jù)庫,運行效率卓越。安全、穩(wěn)定、準確、準時性承受先進的算法,承受多個子系統(tǒng)和工具組成一個安全、穩(wěn)定、準確、準時的解決方案。方案在總體設計上遵循穩(wěn)定、開放、可擴展、經(jīng)濟、安全的原則,從而,技術先進,易于擴展,既能滿足當前的業(yè)務數(shù)據(jù)處理要求,又能符合長期進展的需要。易操作和易維護原則,簡潔操作,易學,易用,WEB方式完成,降低維護的技術難度,也削減了人為隱患的發(fā)生。參考資料和標準主要參閱并依據(jù)以下一些參考資料及標準:(C-PMBOK,2022.5●GB/T1526-1989《信息處理數(shù)據(jù)流程圖、程序流程圖、系統(tǒng)流程圖、程序網(wǎng)絡圖、系統(tǒng)資源圖的文件編制符號及商定》●GB/T8566-1995《信息技術軟件生存期過程》●GB/T8567-1988《計算機軟件產(chǎn)品開發(fā)文件編制指南》●GB/T9385-1988《計算機軟件需求說明編制指南》●GB/T13702-1992《計算機件分類與代碼》●GB/T11457-1995《軟件工程術語》2局部系統(tǒng)總體框架與技術路線網(wǎng)絡信息資源采集系統(tǒng)是一套功能強大的網(wǎng)絡信息資源開發(fā)利用與整合系統(tǒng),,建立可再利用的信息效勞系統(tǒng)。能夠從各種網(wǎng)絡信息源,包括網(wǎng)頁、BLOG、論壇等采集用戶感興趣的特定信息,經(jīng)自動分類處理后,以多種形式供給應最終用戶使用。系統(tǒng)應用架構網(wǎng)絡蜘蛛:依據(jù)指定規(guī)章抓取網(wǎng)站數(shù)據(jù)。數(shù)據(jù)分析:分析從網(wǎng)絡蜘蛛來的數(shù)據(jù),過濾掉我們不需要的信息。數(shù)據(jù)解析:依據(jù)指定資源格式(字段的定義,進展數(shù)據(jù)庫字段級別的解析?!穹纸M分析:依據(jù)不同的網(wǎng)絡資源類型進展分類,并以多種存儲方式進展存儲。系統(tǒng)層次架構整個系統(tǒng)分為四層,分別為:數(shù)據(jù)層:數(shù)據(jù)層負責存儲抓取來的各種信息及數(shù)據(jù),這里面包括網(wǎng)頁、文檔、關系型數(shù)據(jù)、多媒體數(shù)據(jù)等。支撐層:支撐層供給了關鍵的硬、軟件支撐系統(tǒng),包括應用效勞器、WEB效勞器、標準接口等標準支撐系統(tǒng)。應用層:在應用層主要供給網(wǎng)絡資源采集、數(shù)據(jù)轉換、分析、處理、導出、公布、采集監(jiān)控、消息通知、登錄驗證、任務打算、認證碼識別等效勞。表現(xiàn)層:表現(xiàn)層通過掃瞄器等方式,為用戶供給多樣化的信息效勞。關鍵技術與路線為了充分滿足本工程的建設:我們承受先進、主流、牢靠、有用、性價比好的,充分考慮今后縱向、橫向擴張力量。承受構件化和面對對象技術,使系統(tǒng)具有敏捷的擴展性和良好的移植性。J2EE標準體系從軟件層次上看,J2EE三層架構體系,即應用—支撐—數(shù)據(jù)三層。簡潔地說,J2EE(Java[tm]2PlatformEnterpriseEdition是一個標準中間件體系旨在簡化和標準多層分布式應用系統(tǒng)的開發(fā)和部署,有了它,開發(fā)者只需要集中,至于其他系統(tǒng)問題,如內存治理,多線程,資源分布和垃圾收集等,J2EE自動完成。,在國內外擁有眾多成功的應用實例。J2EE應用效勞器(ApplicationServer承受目前國際最先進的開發(fā)理Internet應用需求的特點:三層構造體系——Internet環(huán)境,可以使系統(tǒng)有很強的可擴展性和可管理性。面對對象、組件化設計——2EE是一種組件技術,已完成的模塊能便利的移植到其它地方,可以提高開發(fā)速度,降低開發(fā)本錢?;贘AVA完全跨平臺特性——與平臺無關,Internet需要,并能得到大多數(shù)廠商支持,用戶可依據(jù)需要選擇適宜的效勞器硬件和數(shù)據(jù)庫。并且假設需要更換系統(tǒng)平臺時,J2EE也能便利的進展移植。J2EE三層架構軟件體系引用到資源采集系統(tǒng),將大大提高系統(tǒng)的可移植性、可伸縮性和可擴展性。XML技術XML(eXtensibleMarkupLanguage,可擴展標記語言,是當前最熱門的網(wǎng)絡技術之一,被稱為“Web語言”、“下一代網(wǎng)絡應用的基石”。自它被提出以來,幾乎得到了業(yè)界全部大公司的支持。XML具有卓越的性能,它具有四大特點:優(yōu)良的數(shù)據(jù)存儲格式可擴展性高度構造化便利的網(wǎng)絡傳輸以XML技術作為支持,為用戶自定義應用界面和業(yè)務數(shù)據(jù)構造,并將其與底層,可實現(xiàn)分布式、異構應用系統(tǒng)之間的數(shù)據(jù)交換。XML為存儲方式,便利擴展和數(shù)據(jù)分析。WEB2.0技術Web2.0,Web1.0(2022年以前的互聯(lián)網(wǎng)模式的的一類互聯(lián)網(wǎng)應用的統(tǒng),是依據(jù)“六度分隔”(注:由美國哈佛大學社會心理學教授斯坦利·米爾格蘭姆覺察的,你和任何一個生疏人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠生疏任何一個生疏人。、XML、AJAXWeb1.0單純通過網(wǎng)絡掃瞄器掃瞄html網(wǎng)頁模式向內容更豐富、聯(lián)系性更強、工具性更強的Web2.0互聯(lián)網(wǎng)模式的進展已經(jīng)成為互聯(lián)網(wǎng)的進展趨勢。Web1.0Web2.0的轉變,具體的說,從模式上是單純的“讀”向“寫”、“共同建設”進展;由被動地接收互聯(lián)網(wǎng)信息向主動制造網(wǎng)絡信息邁進。運行機制上,由“ClientServer”向“WebServices”轉變;作者由程序員等專業(yè)人士向全部一般用戶進展;應用“滑稽”Ajax技術,同等網(wǎng)絡環(huán)境下,90%。APIXML文檔構造在很多方面可以便利地反映對象的構造,這也是其適合面對對象的軟件技術的一個關鍵點。使用XML對數(shù)據(jù)源的數(shù)據(jù)進展處理,它起著接口層或者封裝的作用,這樣不同的應用程序之間,不同的操作系統(tǒng)之間,不同的數(shù)據(jù)庫之間都可以XML作為數(shù)據(jù)交換工具還可以解決異構數(shù)據(jù)庫之間的集成。,我們將開發(fā)專用的數(shù)據(jù)接口,XML技術作為數(shù)據(jù)交換的頁面描述標準。XML相互轉換的工具。使用格外的簡潔,并且可以自定義轉換的過程,但是這個組件僅能做的就是這些最根本的工作,有了這個組件,我們可JavaXML之間問題了。3局部系統(tǒng)設計標準4局部系統(tǒng)具體設計應用功能設計資源采集我們可以使用采集,對網(wǎng)絡上的各種資源進展挖掘。a采集工程:采集工作的具體設置文件,包含了要采集的資源鏈接。:依據(jù)指定資源格式(字段的定義,進展數(shù)據(jù)庫字段級別的采集。蜘蛛/爬蟲:依據(jù)指定的文件匹配表達式,自動對指定網(wǎng)站的資源進展全面分析和采集。b字段:各種資源的最小單位,譬如您要采集某個網(wǎng)站的多個帖子,那么每個帖子可能包含以下字段:作者、標題、日期、內容等。c鏈頁:一些帖子在多頁面里的,這種狀況下您可以為帖子的內容字段設置鏈頁屬性,自動把多個分頁的內容合并到內容字段。d追蹤:一些資源是要從列表頁面中,通過點擊多個頁面才顯示的,這種狀況下,您可以為內容自動設置跟蹤屬性,自動獵取最終的內容。e登錄驗證:一些資源網(wǎng)站需要您登錄后才可以訪問內容,這種狀況下下,您可以為整個網(wǎng)站、每個鏈接甚至每個資源單獨定義登錄驗證以滿足具體需求。參數(shù):這是模擬登錄需要的參數(shù),譬如用戶名、密碼等。,往往會承受一些動態(tài)參數(shù)/值,假設用固定的參數(shù)是無法滿足登錄需求的,這個時候,您可以使用采集工程來自動獵取登錄參數(shù)的值。登錄腳本:假設即便使用采集工程仍舊無法滿足一些特別網(wǎng)站的登錄需求,您可以使用自定義的登錄腳原來實現(xiàn)相應的登錄認證。f數(shù)據(jù)處理:臟字過濾:對符合國家規(guī)定的敏感字符的過濾,還可以自定義要過濾的字符,以確保采集到的內容符合相關法律法規(guī)。垃圾內容過濾:使用貝葉斯概率模型對已采集的內容自動分析判定是否為垃圾內容,您可以自行對各種垃圾內容進展過濾。內容嗅探:Flash/Silverlight播放器,會在頁面加載之后才從后臺獵取實等,您可以使用內容嗅探實現(xiàn)對這些實際內容的采集。關鍵字/標簽(Tag自動分析:利用全文分詞對采集的內容進展分析,自動獵取內容的關鍵字/標簽列表。:對大量文件的快速轉換,轉變圖片或視頻的大小/添加水,抽取壓縮文件,OfficeHTML,以多種方式修改文件名稱和內容,修改圖片文件屬性,文本排版,文本混淆,文本簡繁大小g圖片jpg、bmp、png、gif、icl、jpeg等。hij壓縮文檔:抽取/轉換/zip、rarOffice文檔支持:支doc、docx、xls、xlsx、xml、pdf、rtftxt,htm,emlkl大小、行數(shù)或段落數(shù)剪切文本內容、和并內容,支持txt,htm,eml。不良圖片過濾m數(shù)據(jù)轉換:使用自定義腳本轉換數(shù)據(jù)n1.鏈接分析:復制要下載各種資源(2.嗅探:復制視頻地址或內容,全自動分析并下載視頻,特有嗅探功能,支o4.1.2abcd導出數(shù)據(jù)庫:把采集后的數(shù)據(jù)導出到各大數(shù)據(jù)庫/Excel、XML等F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論