版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第頁(yè)python爬蟲學(xué)習(xí)路線爬蟲、web開發(fā)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等等豐富的世界已經(jīng)向你敞開,選擇一個(gè)方向開始出發(fā)吧!下面是我為您整理的關(guān)于〔python〕爬蟲學(xué)習(xí)路線,希望對(duì)你有所幫助。
python爬蟲學(xué)習(xí)路線
我在學(xué)習(xí)Python爬蟲之前,只有一點(diǎn)點(diǎn)C++基礎(chǔ)。所謂"一點(diǎn)點(diǎn)',指的是看過(guò)譚浩強(qiáng)的《C++程序〔制定〕》、磚頭一樣的《C++Primer》(當(dāng)然,后者沒看完),有接觸實(shí)驗(yàn)室的MFC大型項(xiàng)目經(jīng)驗(yàn),但是關(guān)于數(shù)據(jù)結(jié)構(gòu)、類、封裝等概念,理解得都不到位。
在這樣的基礎(chǔ)上,由于種種原因,開始學(xué)習(xí)Python。
(1)學(xué)習(xí)Python基礎(chǔ)
開始閱讀《零基礎(chǔ)入門學(xué)習(xí)Python》,看了三天,初始Python的基本語(yǔ)法、列表和字典、包和模塊等概念。推舉小甲魚的這本書作為入門,書籍是基于Python3作為開發(fā)語(yǔ)言,具有時(shí)效性;語(yǔ)言輕松易懂;一邊抄代碼一邊學(xué)語(yǔ)法,3天即可以略微上手Python。在這三天間,還參照百度教程,配置好Python的運(yùn)行環(huán)境。在win7環(huán)境下,安裝了Python3.6,Anaconda3,PcCharm,后來(lái)才發(fā)現(xiàn),只必須要下載一個(gè)Anaconda3就可以了0-0熟悉了Python的運(yùn)行環(huán)境,熟悉了pip、conda等命令的用法、第三方包的安裝。此外,還配置了MySQL、Navicat、PowerBI等相關(guān)軟件?,F(xiàn)在想想,有點(diǎn)多余了,其實(shí)暫時(shí)是用不到的。但在做項(xiàng)目的時(shí)候,終會(huì)用到。
(2)初識(shí)Python數(shù)據(jù)分析
由于剛開始的時(shí)候,把自己的求職目標(biāo)定位為"基于Python的數(shù)據(jù)分析師',因此還檢索了很多數(shù)據(jù)分析的崗位JD。包括數(shù)據(jù)分析的崗位要求、學(xué)習(xí)規(guī)劃、職業(yè)分類等等。自己也很懈怠。
11月27-12月4日去廈門大學(xué)出差,期間只能看看書??吹氖恰独肞ython進(jìn)行數(shù)據(jù)分析》,草草瀏覽了一遍,只記得NumPy、Matplotlib、pandas這幾個(gè)包的名字而已=-=京東雙11的時(shí)候,買了《利用Python進(jìn)行數(shù)據(jù)分析》、《Python金融〔大數(shù)據(jù)〕分析》、《Python零基礎(chǔ)入門學(xué)習(xí)》、《誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析》、《深入淺出數(shù)據(jù)分析》這幾本書,一共大概200元,但是過(guò)了一個(gè)月,目前只看了《Python零基礎(chǔ)入門學(xué)習(xí)》這一本而已。。。
(3)初學(xué)Python網(wǎng)絡(luò)爬蟲
出差返校之后,重新定位了一下:把"爬蟲工程師'作為學(xué)習(xí)Python的階段性目標(biāo)。大概花了一周時(shí)間去攻克,學(xué)習(xí)到的知識(shí)有:
1、網(wǎng)頁(yè)的基本知識(shí):get和post的含義、html的含義及基本格式;
2、爬蟲的基本原理:分析網(wǎng)頁(yè)-請(qǐng)求網(wǎng)頁(yè)-返回網(wǎng)頁(yè)信息-解析網(wǎng)頁(yè)-下載文件-儲(chǔ)存文件;
3、爬蟲相關(guān)的第三方包:請(qǐng)求網(wǎng)頁(yè)用的是requests,解析網(wǎng)頁(yè)有三種方法(re、lxml、BeautifulSoup),這三個(gè)包是爬蟲的重中之重;
4、Python環(huán)境下對(duì)本地文件的讀寫:下載文件則必須要自己寫一個(gè)download函數(shù),os包的使用;
5、網(wǎng)頁(yè)URL的分析方法,必須要用for循環(huán)獲取某些嵌套網(wǎng)頁(yè)的url;
6、使用瀏覽器調(diào)試url的方法,F(xiàn)12和尋找scr、href等;
學(xué)習(xí)的方法,就是不斷的尋找網(wǎng)上的示例,先自己在spyder中手動(dòng)敲一遍,然后逐句逐句的分析每一條代碼的含義。重復(fù)2-3個(gè)例子之后,會(huì)發(fā)現(xiàn)所有的爬蟲都基本是這個(gè)套路。這個(gè)重復(fù)的過(guò)程一周足矣。0-0爬取妹子圖,關(guān)于內(nèi)心成就感的提升是最大的。。。
學(xué)Python網(wǎng)絡(luò)爬蟲碰到問(wèn)題怎么辦?
學(xué)習(xí)的過(guò)程中或多或少都會(huì)有各種問(wèn)題出現(xiàn),不要試著逃避,真的勇士敢于直面慘淡的BUG。
第一步肯定是利用好搜索引擎,怎么用也是一門技術(shù)活:
〔編程〕初學(xué)者如何使用搜索引擎:看完或許會(huì)對(duì)搜索引擎的使用有新的感受。
第二步,求助于各大同性交友網(wǎng)站:
stackoverflow:這個(gè)就不用多說(shuō)了吧,這是是一個(gè)程序員的知識(shí)庫(kù);
v2ex:國(guó)內(nèi)非常不錯(cuò)的編程社區(qū),不僅僅是包涵程序,也包涵了程序猿的生活;
segmentfault:一家以編程問(wèn)答為主的網(wǎng)站。
從零開始學(xué)Python網(wǎng)絡(luò)爬蟲
在學(xué)習(xí)了基本的小型爬蟲之后,開始學(xué)習(xí)爬蟲框架Scrapy。學(xué)習(xí)Scrapy的過(guò)程非常的曲折,主要困難在:由于Scrapy包在17年2月份之后,才支持Python3;此外,有些網(wǎng)頁(yè)的html也在更改,因此網(wǎng)上很多教程都是不可正常運(yùn)行的。
我百度關(guān)鍵詞為"scrapy爬取圖片',瀏覽了前100個(gè)網(wǎng)頁(yè),能運(yùn)行的爬蟲實(shí)例,不過(guò)6個(gè)而已。因此,除了瀏覽Scrapy框架的簡(jiǎn)介之后,沒有幾個(gè)能仔細(xì)研究的case。于是,上jd買了一本《從零開始學(xué)Python網(wǎng)絡(luò)爬蟲》,由于是17年10月份出版的,因此和目前的開發(fā)環(huán)境很契合,不會(huì)出現(xiàn)代碼運(yùn)行不了的狀況。
將要學(xué)習(xí)的知識(shí)點(diǎn):
1、用MongoDB和MySQL存儲(chǔ)爬取的數(shù)據(jù);
2、多線程爬蟲的實(shí)現(xiàn)方法;
3、針對(duì)異步加載網(wǎng)頁(yè)抓取數(shù)據(jù)的方法;
4、使用cookies模擬登錄網(wǎng)站;
Python學(xué)習(xí)體會(huì)
Python的學(xué)習(xí)到現(xiàn)在已經(jīng)有半個(gè)月了,因?yàn)橹坝袑W(xué)Java的基礎(chǔ),所以這次就沒有買書,一直看的廖雪峰的教程。
Python給我的總體感覺是真的很簡(jiǎn)潔易讀,同樣的實(shí)現(xiàn)一個(gè)功能,Java必須要十行,Python可能只必須要三行。與之對(duì)應(yīng)的是學(xué)習(xí)起來(lái)也相對(duì)更簡(jiǎn)單一些。
同時(shí)Python的動(dòng)態(tài)語(yǔ)言特性也是區(qū)別于Java的靜態(tài)語(yǔ)言的,這一點(diǎn)我現(xiàn)在還沒有什么感受,畢竟才剛學(xué)半個(gè)月,但是Java給我的感覺就是很嚴(yán)謹(jǐn),甚至有些呆板。
我學(xué)習(xí)Python的目的主要只是為了Python的數(shù)據(jù)處理能力和爬蟲,可是數(shù)據(jù)處理不僅僅必須要Python語(yǔ)言的支持,更多的是分析數(shù)據(jù)的能力,爬蟲呢相對(duì)來(lái)說(shuō)就比較簡(jiǎn)單了,因?yàn)橹皩W(xué)習(xí)過(guò)Web的知識(shí),所以上手爬蟲來(lái)說(shuō)會(huì)相對(duì)簡(jiǎn)單一點(diǎn),但是還是有一些概念繞的我頭有點(diǎn)暈。而且現(xiàn)在網(wǎng)上的爬蟲教程大多是2.7的,但是我用的是3.5的版本,所以看得都有些出入
總的來(lái)說(shuō),Python真的是
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026河南永錦能源招聘210人考試備考題庫(kù)及答案解析
- 2026內(nèi)蒙古包頭鐵道職業(yè)技術(shù)學(xué)院赴鐵路院校招聘急需專業(yè)教師16人考試備考試題及答案解析
- 2026年淮南經(jīng)濟(jì)技術(shù)開發(fā)區(qū)公益性崗位征集考試備考題庫(kù)及答案解析
- 2026廣東深圳市眼科醫(yī)院招聘工作人員招聘11人考試參考試題及答案解析
- 2026天津市津南創(chuàng)騰經(jīng)濟(jì)開發(fā)有限公司招聘8人考試備考試題及答案解析
- 文庫(kù)發(fā)布:exo介紹教學(xué)
- 2026日照銀行見習(xí)人員招聘10人考試參考題庫(kù)及答案解析
- 2026安徽亳州市蒙城縣商業(yè)綜合體招聘勞務(wù)派遣人員(四次)考試參考題庫(kù)及答案解析
- 2026年西安市鄠邑區(qū)就業(yè)見習(xí)基地見習(xí)招聘(163人)考試參考試題及答案解析
- 2026年合肥幼教集團(tuán)光明之家幼兒園門衛(wèi)招聘考試參考題庫(kù)及答案解析
- 發(fā)貨員崗位考試題及答案
- 2025年工會(huì)干事招聘面試題庫(kù)及解析
- 醫(yī)藥代表合規(guī)培訓(xùn)
- 管道施工臨時(shí)用電方案
- 車間核算員試題及答案
- 2025年敖漢旗就業(yè)服務(wù)中心招聘第一批公益性崗位人員的112人筆試備考試題附答案詳解(綜合卷)
- 《旅游應(yīng)用文寫作》課程標(biāo)準(zhǔn)
- 河北省石家莊市第四十中學(xué)2026屆中考語(yǔ)文仿真試卷含解析
- 血管外科護(hù)士進(jìn)修
- 臨床實(shí)習(xí)護(hù)士出科自我鑒定大綱及消毒供應(yīng)室、五官科、急診科、內(nèi)科、外科、兒科、婦科、手術(shù)室、血液科、骨科、神經(jīng)內(nèi)科等自我鑒定范文
- 農(nóng)村初中教學(xué)中引領(lǐng)學(xué)生自主學(xué)習(xí)的路徑探究
評(píng)論
0/150
提交評(píng)論