版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
長春職業(yè)技術(shù)大學課程教案首頁No.5授課題目自動采集數(shù)據(jù)教學單元學時2[√]4[]教學目標[知識目標]:掌握網(wǎng)絡爬蟲采集數(shù)據(jù)常用工具及爬蟲流程掌握爬蟲的基本原理[能力目標]:能夠運用爬蟲工具爬取所需要的數(shù)據(jù)。[素質(zhì)目標]:樹立數(shù)據(jù)隱私意識,合理合法應用網(wǎng)絡。梳理信息安全意識。重點難點爬蟲工具的操作與應用教學方法講授法、對比法、討論法、啟發(fā)式教學法等能力訓練(作業(yè))教學體會授課班級授課時間及地點年月日(星期)第節(jié),樓室年月日(星期)第節(jié),樓室年月日(星期)第節(jié),樓室年月日(星期)第節(jié),樓室年月日(星期)第節(jié),樓室注:教學體會一般在課后填寫,授課時間須按上課先后順序依次填寫長春職業(yè)技術(shù)大學課程教案用紙教學環(huán)節(jié)教學內(nèi)容備注導入新課(5分鐘)新課內(nèi)容:(50分鐘)課堂實訓:(30分鐘)課堂小結(jié)(5分鐘)項目二金融大數(shù)據(jù)采集和清洗任務二自動采集數(shù)據(jù)視頻導入:回顧上節(jié)手動采集數(shù)據(jù)的重點,并提問學生手動采集數(shù)據(jù)有何優(yōu)缺點。利用數(shù)據(jù)爬蟲視頻案例引出自動爬取金融數(shù)據(jù)內(nèi)容。一.網(wǎng)絡爬蟲1.什么是網(wǎng)絡爬蟲網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。爬蟲的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成一個或聯(lián)網(wǎng)內(nèi)容的鏡像備份。網(wǎng)絡爬蟲(Webcrawler),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本,它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,可以自動采集所有其能夠訪問到的頁面內(nèi)容,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲存三個部分。2.網(wǎng)絡爬蟲的工作原理如下圖所示,網(wǎng)絡爬蟲就像是一只蜘蛛沿著網(wǎng)爬行,從網(wǎng)站某一個頁面開始,讀取網(wǎng)頁的內(nèi)容,找到網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。3.網(wǎng)絡爬蟲的抓取策略在爬蟲系統(tǒng)中,待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL以什么樣的順序排列也是一個很重要的問題,因為這涉及到先抓取那個頁面,后抓取哪個頁面。而決定這些URL排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略:
(1)深度優(yōu)先遍歷策略深度優(yōu)先遍歷策略是指網(wǎng)絡爬蟲會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。我們以下面的圖為例:假如此時網(wǎng)頁ABCDEFG都在爬行隊列中,那么按照不同的爬行策略,其爬取的順序是不同的。比如,如果按照深度優(yōu)先爬行策略去爬取的話,那么此時會首先爬取一個網(wǎng)頁,然后將這個網(wǎng)頁的下層鏈接依次深入爬取完再返回上一層進行爬取。所以,若按深度優(yōu)先爬行策略,圖3-3中的爬行順序可以是:A→D→E→B→C→F→G。(2)寬度優(yōu)先遍歷策略基本思路是,將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊列的末尾。也就是指網(wǎng)絡爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。如果按照寬度優(yōu)先的爬行策略去爬取的話,那么此時首先會爬取同一層次的網(wǎng)頁,將同一層次的網(wǎng)頁全部爬取完后,在選擇下一個層次的網(wǎng)頁去爬行,比如,上述的網(wǎng)站中,如果按照廣度優(yōu)先的爬行策略去爬取的話,爬行順序可以是:A→B→C→D→E→F→G。除了以上兩種爬行策略之外,我們還可以采用大站爬行策略。我們可以按對應網(wǎng)頁所屬的站點進行歸類,如果某個網(wǎng)站的網(wǎng)頁數(shù)量多,那么我們則將其稱為大站,按照這種策略,網(wǎng)頁數(shù)量越多的網(wǎng)站越大,然后,優(yōu)先爬取大站中的網(wǎng)頁URL地址。一個網(wǎng)頁的反向鏈接數(shù),指的是該網(wǎng)頁被其他網(wǎng)頁指向的次數(shù),這個次數(shù)在一定程度上代表著該網(wǎng)頁被其他網(wǎng)頁的推薦次數(shù)。所以,如果按反鏈策略去爬行的話,那么哪個網(wǎng)頁的反鏈數(shù)量越多,則哪個網(wǎng)頁將被優(yōu)先爬取。但是,在實際情況中,如果單純按反鏈策略去決定一個網(wǎng)頁的優(yōu)先程度的話,那么可能會出現(xiàn)大量的作弊情況。比如,做一些垃圾站群,并將這些網(wǎng)站互相鏈接,如果這樣的話,每個站點都將獲得較高的反鏈,從而達到作弊的目的。二.網(wǎng)絡爬蟲的常用工具網(wǎng)絡爬蟲是一種自動化瀏覽網(wǎng)頁的程序,即WebSpider,常用的網(wǎng)絡爬蟲工具有Python,Java,或C++獨立設(shè)計網(wǎng)絡爬蟲,也可以通過已有的爬蟲工具獲取網(wǎng)站數(shù)據(jù)。不過因為網(wǎng)絡隱私安全問題,大多數(shù)爬蟲軟件已經(jīng)不再更新。三.Python語言1.什么是PythonPython語言是一種有機結(jié)合了編譯性、解釋性、互動性和面向?qū)ο蟮恼Z言。該語言簡潔易讀可擴展性強,被廣泛應用在科學計算和數(shù)據(jù)挖掘中。Python中專用的科學計算擴展庫如NumPy,Pandas和Spicy,提供了快速數(shù)組處理,數(shù)值運算及分析功能。因此十分適合處理金融實驗數(shù)據(jù),甚至開發(fā)金融數(shù)據(jù)計算模型。2.Python語言的特點:(l)Python是免費的開源軟件(2)Python語言的設(shè)計側(cè)重于可讀性、易用性及清晰性,上手友好。(3)Python是一門解釋型的語言,具有跨平臺的特質(zhì),只要提供了相應的解釋器,就可以在該平臺上運行Python.(4)Python是面向?qū)ο蟮恼Z言。第三方庫、函數(shù)、模塊庫、數(shù)字、字符串一切皆為對象,在實踐中,使用非常靈活。(5)Python應用領(lǐng)域廣泛,包括Web和Intemet開發(fā)、科學計算和統(tǒng)計、游戲開發(fā)、多媒體運用、自動采集開發(fā)以及人工智能等。二.Python自動采集過程用戶自動采集網(wǎng)絡數(shù)據(jù)的方式是模擬瀏覽器發(fā)送請求(獲取網(wǎng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年及未來5年市場數(shù)據(jù)中國鋁管行業(yè)發(fā)展全景監(jiān)測及投資方向研究報告
- 2026年及未來5年市場數(shù)據(jù)中國紡織行業(yè)市場需求預測及投資戰(zhàn)略規(guī)劃報告
- 2026年及未來5年市場數(shù)據(jù)中國綿混紡布行業(yè)市場調(diào)查研究及發(fā)展趨勢預測報告
- 2026年及未來5年市場數(shù)據(jù)中國勞動力資源行業(yè)市場全景分析及投資規(guī)劃建議報告
- 2026年及未來5年市場數(shù)據(jù)中國現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)園區(qū)行業(yè)發(fā)展前景預測及投資規(guī)劃建議報告
- 2026年及未來5年市場數(shù)據(jù)中國非電動健身用品行業(yè)發(fā)展前景預測及投資方向研究報告
- 2026年會計職稱考試《初級會計實務》職業(yè)道德與規(guī)范綜合模擬試題及答案
- 廣東省河源市和平縣2024-2025學年八年級上學期期末考試地理試題(含答案)
- 2026年1月廣東廣州市天河第一小學招聘編外聘用制專任教師1人筆試參考題庫及答案解析
- 2026山東事業(yè)單位統(tǒng)考泰安新泰市招聘初級綜合類崗位76人考試參考試題及答案解析
- 2025年新疆中考數(shù)學真題試卷及答案
- 2025屆新疆烏魯木齊市高三下學期三模英語試題(解析版)
- DB3210T1036-2019 補充耕地快速培肥技術(shù)規(guī)程
- 混動能量管理與電池熱管理的協(xié)同優(yōu)化-洞察闡釋
- T-CPI 11029-2024 核桃殼濾料標準規(guī)范
- 統(tǒng)編版語文三年級下冊整本書閱讀《中國古代寓言》推進課公開課一等獎創(chuàng)新教學設(shè)計
- 《顧客感知價值對綠色酒店消費意愿的影響實證研究-以三亞S酒店為例(附問卷)15000字(論文)》
- 勞動仲裁申請書電子版模板
- 趙然尊:胸痛中心時鐘統(tǒng)一、時間節(jié)點定義與時間管理
- 家用燃氣灶結(jié)構(gòu)、工作原理、配件介紹、常見故障處理
- ZD(J)9-型電動轉(zhuǎn)轍機
評論
0/150
提交評論