python爬蟲學(xué)習(xí)路線

上傳人：東*** IP屬地：黑龍江上傳時(shí)間：2023-05-16 格式：DOCX 頁(yè)數(shù)：6 大?。?2.49KB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩1頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)python爬蟲學(xué)習(xí)路線爬蟲、web開發(fā)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等等豐富的世界已經(jīng)向你敞開，選擇一個(gè)方向開始出發(fā)吧!下面是我為您整理的關(guān)于〔python〕爬蟲學(xué)習(xí)路線，希望對(duì)你有所幫助。

python爬蟲學(xué)習(xí)路線

我在學(xué)習(xí)Python爬蟲之前，只有一點(diǎn)點(diǎn)C++基礎(chǔ)。所謂"一點(diǎn)點(diǎn)'，指的是看過(guò)譚浩強(qiáng)的《C++程序〔制定〕》、磚頭一樣的《C++Primer》(當(dāng)然，后者沒看完)，有接觸實(shí)驗(yàn)室的MFC大型項(xiàng)目經(jīng)驗(yàn)，但是關(guān)于數(shù)據(jù)結(jié)構(gòu)、類、封裝等概念，理解得都不到位。

在這樣的基礎(chǔ)上，由于種種原因，開始學(xué)習(xí)Python。

(1)學(xué)習(xí)Python基礎(chǔ)

開始閱讀《零基礎(chǔ)入門學(xué)習(xí)Python》，看了三天，初始Python的基本語(yǔ)法、列表和字典、包和模塊等概念。推舉小甲魚的這本書作為入門，書籍是基于Python3作為開發(fā)語(yǔ)言，具有時(shí)效性;語(yǔ)言輕松易懂;一邊抄代碼一邊學(xué)語(yǔ)法，3天即可以略微上手Python。在這三天間，還參照百度教程，配置好Python的運(yùn)行環(huán)境。在win7環(huán)境下，安裝了Python3.6，Anaconda3，PcCharm，后來(lái)才發(fā)現(xiàn)，只必須要下載一個(gè)Anaconda3就可以了0-0熟悉了Python的運(yùn)行環(huán)境，熟悉了pip、conda等命令的用法、第三方包的安裝。此外，還配置了MySQL、Navicat、PowerBI等相關(guān)軟件?，F(xiàn)在想想，有點(diǎn)多余了，其實(shí)暫時(shí)是用不到的。但在做項(xiàng)目的時(shí)候，終會(huì)用到。

(2)初識(shí)Python數(shù)據(jù)分析

由于剛開始的時(shí)候，把自己的求職目標(biāo)定位為"基于Python的數(shù)據(jù)分析師'，因此還檢索了很多數(shù)據(jù)分析的崗位JD。包括數(shù)據(jù)分析的崗位要求、學(xué)習(xí)規(guī)劃、職業(yè)分類等等。自己也很懈怠。

11月27-12月4日去廈門大學(xué)出差，期間只能看看書?？吹氖恰独肞ython進(jìn)行數(shù)據(jù)分析》，草草瀏覽了一遍，只記得NumPy、Matplotlib、pandas這幾個(gè)包的名字而已=-=京東雙11的時(shí)候，買了《利用Python進(jìn)行數(shù)據(jù)分析》、《Python金融〔大數(shù)據(jù)〕分析》、《Python零基礎(chǔ)入門學(xué)習(xí)》、《誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析》、《深入淺出數(shù)據(jù)分析》這幾本書，一共大概200元，但是過(guò)了一個(gè)月，目前只看了《Python零基礎(chǔ)入門學(xué)習(xí)》這一本而已。。。

(3)初學(xué)Python網(wǎng)絡(luò)爬蟲

出差返校之后，重新定位了一下：把"爬蟲工程師'作為學(xué)習(xí)Python的階段性目標(biāo)。大概花了一周時(shí)間去攻克，學(xué)習(xí)到的知識(shí)有：

1、網(wǎng)頁(yè)的基本知識(shí)：get和post的含義、html的含義及基本格式;

2、爬蟲的基本原理：分析網(wǎng)頁(yè)-請(qǐng)求網(wǎng)頁(yè)-返回網(wǎng)頁(yè)信息-解析網(wǎng)頁(yè)-下載文件-儲(chǔ)存文件;

3、爬蟲相關(guān)的第三方包：請(qǐng)求網(wǎng)頁(yè)用的是requests，解析網(wǎng)頁(yè)有三種方法(re、lxml、BeautifulSoup)，這三個(gè)包是爬蟲的重中之重;

4、Python環(huán)境下對(duì)本地文件的讀寫：下載文件則必須要自己寫一個(gè)download函數(shù)，os包的使用;

5、網(wǎng)頁(yè)URL的分析方法，必須要用for循環(huán)獲取某些嵌套網(wǎng)頁(yè)的url;

6、使用瀏覽器調(diào)試url的方法，F(xiàn)12和尋找scr、href等;

學(xué)習(xí)的方法，就是不斷的尋找網(wǎng)上的示例，先自己在spyder中手動(dòng)敲一遍，然后逐句逐句的分析每一條代碼的含義。重復(fù)2-3個(gè)例子之后，會(huì)發(fā)現(xiàn)所有的爬蟲都基本是這個(gè)套路。這個(gè)重復(fù)的過(guò)程一周足矣。0-0爬取妹子圖，關(guān)于內(nèi)心成就感的提升是最大的。。。

學(xué)Python網(wǎng)絡(luò)爬蟲碰到問(wèn)題怎么辦?

學(xué)習(xí)的過(guò)程中或多或少都會(huì)有各種問(wèn)題出現(xiàn)，不要試著逃避，真的勇士敢于直面慘淡的BUG。

第一步肯定是利用好搜索引擎，怎么用也是一門技術(shù)活：

〔編程〕初學(xué)者如何使用搜索引擎：看完或許會(huì)對(duì)搜索引擎的使用有新的感受。

第二步，求助于各大同性交友網(wǎng)站：

stackoverflow：這個(gè)就不用多說(shuō)了吧，這是是一個(gè)程序員的知識(shí)庫(kù);

v2ex：國(guó)內(nèi)非常不錯(cuò)的編程社區(qū)，不僅僅是包涵程序，也包涵了程序猿的生活;

segmentfault：一家以編程問(wèn)答為主的網(wǎng)站。

從零開始學(xué)Python網(wǎng)絡(luò)爬蟲

在學(xué)習(xí)了基本的小型爬蟲之后，開始學(xué)習(xí)爬蟲框架Scrapy。學(xué)習(xí)Scrapy的過(guò)程非常的曲折，主要困難在：由于Scrapy包在17年2月份之后，才支持Python3;此外，有些網(wǎng)頁(yè)的html也在更改，因此網(wǎng)上很多教程都是不可正常運(yùn)行的。

我百度關(guān)鍵詞為"scrapy爬取圖片'，瀏覽了前100個(gè)網(wǎng)頁(yè)，能運(yùn)行的爬蟲實(shí)例，不過(guò)6個(gè)而已。因此，除了瀏覽Scrapy框架的簡(jiǎn)介之后，沒有幾個(gè)能仔細(xì)研究的case。于是，上jd買了一本《從零開始學(xué)Python網(wǎng)絡(luò)爬蟲》，由于是17年10月份出版的，因此和目前的開發(fā)環(huán)境很契合，不會(huì)出現(xiàn)代碼運(yùn)行不了的狀況。

將要學(xué)習(xí)的知識(shí)點(diǎn)：

1、用MongoDB和MySQL存儲(chǔ)爬取的數(shù)據(jù);

2、多線程爬蟲的實(shí)現(xiàn)方法;

3、針對(duì)異步加載網(wǎng)頁(yè)抓取數(shù)據(jù)的方法;

4、使用cookies模擬登錄網(wǎng)站;

Python學(xué)習(xí)體會(huì)

Python的學(xué)習(xí)到現(xiàn)在已經(jīng)有半個(gè)月了，因?yàn)橹坝袑W(xué)Java的基礎(chǔ)，所以這次就沒有買書，一直看的廖雪峰的教程。

Python給我的總體感覺是真的很簡(jiǎn)潔易讀，同樣的實(shí)現(xiàn)一個(gè)功能，Java必須要十行，Python可能只必須要三行。與之對(duì)應(yīng)的是學(xué)習(xí)起來(lái)也相對(duì)更簡(jiǎn)單一些。

同時(shí)Python的動(dòng)態(tài)語(yǔ)言特性也是區(qū)別于Java的靜態(tài)語(yǔ)言的，這一點(diǎn)我現(xiàn)在還沒有什么感受，畢竟才剛學(xué)半個(gè)月，但是Java給我的感覺就是很嚴(yán)謹(jǐn)，甚至有些呆板。

我學(xué)習(xí)Python的目的主要只是為了Python的數(shù)據(jù)處理能力和爬蟲，可是數(shù)據(jù)處理不僅僅必須要Python語(yǔ)言的支持，更多的是分析數(shù)據(jù)的能力，爬蟲呢相對(duì)來(lái)說(shuō)就比較簡(jiǎn)單了，因?yàn)橹皩W(xué)習(xí)過(guò)Web的知識(shí)，所以上手爬蟲來(lái)說(shuō)會(huì)相對(duì)簡(jiǎn)單一點(diǎn)，但是還是有一些概念繞的我頭有點(diǎn)暈。而且現(xiàn)在網(wǎng)上的爬蟲教程大多是2.7的，但是我用的是3.5的版本，所以看得都有些出入

總的來(lái)說(shuō)，Python真的是

人人文庫(kù)> 全部分類> 辦公材料 > 對(duì)照材料

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

python爬蟲學(xué)習(xí)路線

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

python爬蟲學(xué)習(xí)路線

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔