python爬蟲學(xué)習(xí)路線_第1頁(yè)
python爬蟲學(xué)習(xí)路線_第2頁(yè)
python爬蟲學(xué)習(xí)路線_第3頁(yè)
python爬蟲學(xué)習(xí)路線_第4頁(yè)
python爬蟲學(xué)習(xí)路線_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)python爬蟲學(xué)習(xí)路線爬蟲、web開發(fā)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等等豐富的世界已經(jīng)向你敞開,選擇一個(gè)方向開始出發(fā)吧!下面是我為您整理的關(guān)于〔python〕爬蟲學(xué)習(xí)路線,希望對(duì)你有所幫助。

python爬蟲學(xué)習(xí)路線

我在學(xué)習(xí)Python爬蟲之前,只有一點(diǎn)點(diǎn)C++基礎(chǔ)。所謂"一點(diǎn)點(diǎn)',指的是看過(guò)譚浩強(qiáng)的《C++程序〔制定〕》、磚頭一樣的《C++Primer》(當(dāng)然,后者沒看完),有接觸實(shí)驗(yàn)室的MFC大型項(xiàng)目經(jīng)驗(yàn),但是關(guān)于數(shù)據(jù)結(jié)構(gòu)、類、封裝等概念,理解得都不到位。

在這樣的基礎(chǔ)上,由于種種原因,開始學(xué)習(xí)Python。

(1)學(xué)習(xí)Python基礎(chǔ)

開始閱讀《零基礎(chǔ)入門學(xué)習(xí)Python》,看了三天,初始Python的基本語(yǔ)法、列表和字典、包和模塊等概念。推舉小甲魚的這本書作為入門,書籍是基于Python3作為開發(fā)語(yǔ)言,具有時(shí)效性;語(yǔ)言輕松易懂;一邊抄代碼一邊學(xué)語(yǔ)法,3天即可以略微上手Python。在這三天間,還參照百度教程,配置好Python的運(yùn)行環(huán)境。在win7環(huán)境下,安裝了Python3.6,Anaconda3,PcCharm,后來(lái)才發(fā)現(xiàn),只必須要下載一個(gè)Anaconda3就可以了0-0熟悉了Python的運(yùn)行環(huán)境,熟悉了pip、conda等命令的用法、第三方包的安裝。此外,還配置了MySQL、Navicat、PowerBI等相關(guān)軟件?,F(xiàn)在想想,有點(diǎn)多余了,其實(shí)暫時(shí)是用不到的。但在做項(xiàng)目的時(shí)候,終會(huì)用到。

(2)初識(shí)Python數(shù)據(jù)分析

由于剛開始的時(shí)候,把自己的求職目標(biāo)定位為"基于Python的數(shù)據(jù)分析師',因此還檢索了很多數(shù)據(jù)分析的崗位JD。包括數(shù)據(jù)分析的崗位要求、學(xué)習(xí)規(guī)劃、職業(yè)分類等等。自己也很懈怠。

11月27-12月4日去廈門大學(xué)出差,期間只能看看書??吹氖恰独肞ython進(jìn)行數(shù)據(jù)分析》,草草瀏覽了一遍,只記得NumPy、Matplotlib、pandas這幾個(gè)包的名字而已=-=京東雙11的時(shí)候,買了《利用Python進(jìn)行數(shù)據(jù)分析》、《Python金融〔大數(shù)據(jù)〕分析》、《Python零基礎(chǔ)入門學(xué)習(xí)》、《誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析》、《深入淺出數(shù)據(jù)分析》這幾本書,一共大概200元,但是過(guò)了一個(gè)月,目前只看了《Python零基礎(chǔ)入門學(xué)習(xí)》這一本而已。。。

(3)初學(xué)Python網(wǎng)絡(luò)爬蟲

出差返校之后,重新定位了一下:把"爬蟲工程師'作為學(xué)習(xí)Python的階段性目標(biāo)。大概花了一周時(shí)間去攻克,學(xué)習(xí)到的知識(shí)有:

1、網(wǎng)頁(yè)的基本知識(shí):get和post的含義、html的含義及基本格式;

2、爬蟲的基本原理:分析網(wǎng)頁(yè)-請(qǐng)求網(wǎng)頁(yè)-返回網(wǎng)頁(yè)信息-解析網(wǎng)頁(yè)-下載文件-儲(chǔ)存文件;

3、爬蟲相關(guān)的第三方包:請(qǐng)求網(wǎng)頁(yè)用的是requests,解析網(wǎng)頁(yè)有三種方法(re、lxml、BeautifulSoup),這三個(gè)包是爬蟲的重中之重;

4、Python環(huán)境下對(duì)本地文件的讀寫:下載文件則必須要自己寫一個(gè)download函數(shù),os包的使用;

5、網(wǎng)頁(yè)URL的分析方法,必須要用for循環(huán)獲取某些嵌套網(wǎng)頁(yè)的url;

6、使用瀏覽器調(diào)試url的方法,F(xiàn)12和尋找scr、href等;

學(xué)習(xí)的方法,就是不斷的尋找網(wǎng)上的示例,先自己在spyder中手動(dòng)敲一遍,然后逐句逐句的分析每一條代碼的含義。重復(fù)2-3個(gè)例子之后,會(huì)發(fā)現(xiàn)所有的爬蟲都基本是這個(gè)套路。這個(gè)重復(fù)的過(guò)程一周足矣。0-0爬取妹子圖,關(guān)于內(nèi)心成就感的提升是最大的。。。

學(xué)Python網(wǎng)絡(luò)爬蟲碰到問(wèn)題怎么辦?

學(xué)習(xí)的過(guò)程中或多或少都會(huì)有各種問(wèn)題出現(xiàn),不要試著逃避,真的勇士敢于直面慘淡的BUG。

第一步肯定是利用好搜索引擎,怎么用也是一門技術(shù)活:

〔編程〕初學(xué)者如何使用搜索引擎:看完或許會(huì)對(duì)搜索引擎的使用有新的感受。

第二步,求助于各大同性交友網(wǎng)站:

stackoverflow:這個(gè)就不用多說(shuō)了吧,這是是一個(gè)程序員的知識(shí)庫(kù);

v2ex:國(guó)內(nèi)非常不錯(cuò)的編程社區(qū),不僅僅是包涵程序,也包涵了程序猿的生活;

segmentfault:一家以編程問(wèn)答為主的網(wǎng)站。

從零開始學(xué)Python網(wǎng)絡(luò)爬蟲

在學(xué)習(xí)了基本的小型爬蟲之后,開始學(xué)習(xí)爬蟲框架Scrapy。學(xué)習(xí)Scrapy的過(guò)程非常的曲折,主要困難在:由于Scrapy包在17年2月份之后,才支持Python3;此外,有些網(wǎng)頁(yè)的html也在更改,因此網(wǎng)上很多教程都是不可正常運(yùn)行的。

我百度關(guān)鍵詞為"scrapy爬取圖片',瀏覽了前100個(gè)網(wǎng)頁(yè),能運(yùn)行的爬蟲實(shí)例,不過(guò)6個(gè)而已。因此,除了瀏覽Scrapy框架的簡(jiǎn)介之后,沒有幾個(gè)能仔細(xì)研究的case。于是,上jd買了一本《從零開始學(xué)Python網(wǎng)絡(luò)爬蟲》,由于是17年10月份出版的,因此和目前的開發(fā)環(huán)境很契合,不會(huì)出現(xiàn)代碼運(yùn)行不了的狀況。

將要學(xué)習(xí)的知識(shí)點(diǎn):

1、用MongoDB和MySQL存儲(chǔ)爬取的數(shù)據(jù);

2、多線程爬蟲的實(shí)現(xiàn)方法;

3、針對(duì)異步加載網(wǎng)頁(yè)抓取數(shù)據(jù)的方法;

4、使用cookies模擬登錄網(wǎng)站;

Python學(xué)習(xí)體會(huì)

Python的學(xué)習(xí)到現(xiàn)在已經(jīng)有半個(gè)月了,因?yàn)橹坝袑W(xué)Java的基礎(chǔ),所以這次就沒有買書,一直看的廖雪峰的教程。

Python給我的總體感覺是真的很簡(jiǎn)潔易讀,同樣的實(shí)現(xiàn)一個(gè)功能,Java必須要十行,Python可能只必須要三行。與之對(duì)應(yīng)的是學(xué)習(xí)起來(lái)也相對(duì)更簡(jiǎn)單一些。

同時(shí)Python的動(dòng)態(tài)語(yǔ)言特性也是區(qū)別于Java的靜態(tài)語(yǔ)言的,這一點(diǎn)我現(xiàn)在還沒有什么感受,畢竟才剛學(xué)半個(gè)月,但是Java給我的感覺就是很嚴(yán)謹(jǐn),甚至有些呆板。

我學(xué)習(xí)Python的目的主要只是為了Python的數(shù)據(jù)處理能力和爬蟲,可是數(shù)據(jù)處理不僅僅必須要Python語(yǔ)言的支持,更多的是分析數(shù)據(jù)的能力,爬蟲呢相對(duì)來(lái)說(shuō)就比較簡(jiǎn)單了,因?yàn)橹皩W(xué)習(xí)過(guò)Web的知識(shí),所以上手爬蟲來(lái)說(shuō)會(huì)相對(duì)簡(jiǎn)單一點(diǎn),但是還是有一些概念繞的我頭有點(diǎn)暈。而且現(xiàn)在網(wǎng)上的爬蟲教程大多是2.7的,但是我用的是3.5的版本,所以看得都有些出入

總的來(lái)說(shuō),Python真的是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論