簡易網(wǎng)站爬取程序?qū)嵺`報(bào)告_第1頁
簡易網(wǎng)站爬取程序?qū)嵺`報(bào)告_第2頁
簡易網(wǎng)站爬取程序?qū)嵺`報(bào)告_第3頁
簡易網(wǎng)站爬取程序?qū)嵺`報(bào)告_第4頁
簡易網(wǎng)站爬取程序?qū)嵺`報(bào)告_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

成果形式:實(shí)踐報(bào)告成果名稱:簡易網(wǎng)站爬取程序?qū)嵺`報(bào)告實(shí)踐目的在當(dāng)前競爭激烈的社會(huì)環(huán)境中,如何在萬人之中脫穎而出是非常關(guān)鍵的一個(gè)問題,一般認(rèn)為的是比自己的競爭對手多擁有一門技術(shù)就是制勝法寶,擁有一項(xiàng)獨(dú)特的技能在職場上能很快引起他人對你的印象,當(dāng)你能給別人留下一個(gè)深刻影響的時(shí)候你就成功了一步了,如若這項(xiàng)技能能夠在你的工作中大放異彩便是如虎添翼,錦上添花,它會(huì)在工作當(dāng)中或許會(huì)有意想不到的幫助。所以本次暑期實(shí)踐主旨在初步掌握python的使用方法和基本語法并且了解其用處;了解什么是爬蟲并爬取一個(gè)網(wǎng)頁。培養(yǎng)個(gè)人對于python的興趣,有意向的話可以深入學(xué)習(xí)以掌握一門新的技術(shù)。實(shí)踐內(nèi)容項(xiàng)目的分析通過實(shí)踐去爬取目標(biāo)網(wǎng)頁信息以進(jìn)一步了解網(wǎng)絡(luò)爬蟲原理和工作內(nèi)容:用一個(gè)通俗易懂的比喻來說,我們把互聯(lián)網(wǎng)比作大的蜘蛛網(wǎng),那一臺(tái)計(jì)算機(jī)上的數(shù)據(jù)便是蜘蛛網(wǎng)上的一個(gè)獵物,而爬蟲程序就是這只小蜘蛛,能夠靈活準(zhǔn)確地在蜘蛛網(wǎng)上抓取到自己想要的獵物,而這些獵物也就是我們所說的數(shù)據(jù)。項(xiàng)目的設(shè)計(jì)1.寫一個(gè)簡單的html網(wǎng)頁。2.總結(jié)講的爬蟲過程,看發(fā)下去的網(wǎng)頁。3.新建一個(gè)1.py文件,輸入importrequests,如果報(bào)錯(cuò),自己配置電腦Requests4.解釋倒入的五個(gè)庫和包importrequestsfromrequests.exceptionsimportRequestExceptionimportreimportjsonfrommultiprocessingimportPool5.設(shè)計(jì)一個(gè)能夠爬取貓眼電影網(wǎng)前100部受歡迎電影排名及其名字的程序。項(xiàng)目使用說明該程序可以將貓眼網(wǎng)站上的能夠爬取下來的信息再結(jié)合我們所需的信息通過代碼的形式表現(xiàn)出來,實(shí)現(xiàn)能夠快速從該網(wǎng)站上爬取我們需要的信息,做到精簡有效,已與查詢和參考的目的實(shí)踐過程1.了解Python編寫軟件,并學(xué)習(xí)基礎(chǔ)代碼。作為python語言的開發(fā)軟件,了解各部分功能,才能給我們在后續(xù)的學(xué)習(xí)過程操作中打下堅(jiān)實(shí)的基礎(chǔ),換句話講,只有熟悉了工具,才可以做出好的作品。隨后又通過熟悉基礎(chǔ)的語句循環(huán)更進(jìn)一步的了解Python的運(yùn)作原理及用法。2.在老師帶領(lǐng)下用Python制作建議網(wǎng)站和爬蟲代碼。在擁有基礎(chǔ)功之后便開始逐步加深,曾經(jīng)學(xué)過的word制作網(wǎng)站在Python中適用性不大,但相對而言,用Python做網(wǎng)站更加簡單易懂,基于Python的內(nèi)置代碼很容易就能用簡潔明了的代碼寫出一個(gè)網(wǎng)站;爬蟲則是基于5個(gè)倒入的庫和包的基礎(chǔ)代碼下進(jìn)行,實(shí)現(xiàn)能夠從一個(gè)網(wǎng)頁爬取基礎(chǔ)的信息的代碼。實(shí)驗(yàn)總結(jié)社會(huì)實(shí)踐是如今大學(xué)生課外教育的一個(gè)重要方面,該項(xiàng)活動(dòng)也影響著許多學(xué)校對于學(xué)生的一部分平時(shí)成績的評定,同樣它也是大學(xué)生培養(yǎng)自我能力的一種重要渠道,所以對我來說,在暑期去參加實(shí)踐活動(dòng)使我能夠更深層次的認(rèn)識(shí)社會(huì)、了解社會(huì)。作為一名當(dāng)代大學(xué)生,學(xué)習(xí)不應(yīng)只停留在知識(shí)層面,也應(yīng)當(dāng)融入實(shí)踐,俗話說:“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”。我們的實(shí)踐應(yīng)該根據(jù)自身所需要提升的能力來制定,不是為了實(shí)踐而實(shí)踐,而是應(yīng)當(dāng)注重實(shí)踐的過程,并從中鍛煉自己、提高能力。我相信,實(shí)踐出真知,馬云曾在一次講座中就大學(xué)生社會(huì)實(shí)踐報(bào)告對學(xué)生們說:“當(dāng)代大學(xué)生要想有所成就,就應(yīng)該學(xué)好自己的專業(yè)或者某一自己擅長的領(lǐng)域,并在努力成為這一領(lǐng)域的佼佼者?!碑?dāng)前的社會(huì)競爭愈發(fā)激烈,人與人之間的關(guān)系受到物質(zhì)化的沖擊,在這個(gè)人為刀俎我為魚肉的殘酷社會(huì)中,擁有一技之長極其重要。據(jù)不完全的統(tǒng)計(jì),如今多數(shù)的普通工作職位就有約合40個(gè)大學(xué)生或者碩士生競爭,若是我們不能磨礪出一項(xiàng)屬于我們的獨(dú)特技能,便會(huì)被這個(gè)社會(huì)所淘汰。就企業(yè)而言,企業(yè)都要求應(yīng)聘者在某一領(lǐng)域擁有特長,企業(yè)家看中的更多在于是求職者在專業(yè)領(lǐng)域的影響力和實(shí)際操作能力而非知識(shí)層面。當(dāng)今社會(huì)分工繁瑣,一個(gè)博而不精的人無法成為21世紀(jì)的強(qiáng)有力的佼佼者,所以正值青春的我們應(yīng)當(dāng)博覽群書,積累多方面的技藝,在今后的工作中有的放矢,發(fā)展成為全方面的人才。學(xué)習(xí)的過程本身就是一個(gè)取長補(bǔ)短的過程,本次的實(shí)踐是學(xué)習(xí)計(jì)算機(jī)語言的一種:python,python是一種計(jì)算機(jī)程序設(shè)計(jì)語言,是一種面向?qū)ο蟮膭?dòng)態(tài)類語言,最初被設(shè)計(jì)用于編寫自動(dòng)化腳本,現(xiàn)在越來越多用于獨(dú)立的、大型項(xiàng)目的開發(fā)。這次實(shí)踐是我第一次接觸python,也是我第一次接觸計(jì)算機(jī)語言,對于我來說是一個(gè)不小的挑戰(zhàn)。同樣,這次的實(shí)踐只有兩個(gè)周的時(shí)間,而我需要在這段時(shí)間學(xué)習(xí)python的基本用法并且能夠爬取目標(biāo)網(wǎng)頁所需要的信息,對我來說無疑是一個(gè)不小的難題。通過這些基礎(chǔ)的學(xué)習(xí)實(shí)踐,讓沒有基礎(chǔ)的同學(xué)能夠循序漸進(jìn),能夠更好地融入到課堂,能夠跟上課堂的步伐,熟練地運(yùn)用python軟件并了解基礎(chǔ)語法,并在此基礎(chǔ)上理解到python語言的嚴(yán)謹(jǐn)性和魅力,為我們在今后學(xué)習(xí)python或想要更加深入的同學(xué)打下堅(jiān)實(shí)的基礎(chǔ),感受到python這門語言的魅力。而在這個(gè)過程中,能夠取其精華去其糟粕的人便能掌握先機(jī),快人一步,如若是工作中擁有這一項(xiàng)技能,對于個(gè)人,對于他人,領(lǐng)導(dǎo)對你的印象都是一個(gè)不錯(cuò)的加分項(xiàng)。Python特點(diǎn):易于學(xué)習(xí),易于閱讀,易于維護(hù),擁有一個(gè)廣泛的標(biāo)準(zhǔn)庫,互動(dòng)模式,可移植,可擴(kuò)展,巨大的數(shù)據(jù)庫,GUI編程,可嵌入。有了一周的學(xué)習(xí)經(jīng)驗(yàn)以及python的基礎(chǔ)之后,老師上課的內(nèi)容和布置的作業(yè)的難度開始急劇上升,有不少對我來說有困難的題,比如說是做一個(gè)99乘法表,用戶登錄(三次重試機(jī)會(huì))等等,這些都是我在編寫的時(shí)候遇到的困難,所以這個(gè)時(shí)候我往往會(huì)向我的同學(xué)或者老師尋求幫助,通過溝通交流得知自己的不足以及自己為,學(xué)習(xí)就要保持一個(gè)虛心請教的態(tài)度才能突破現(xiàn)在的自我,精進(jìn)自己的技藝。之后我們又了解了網(wǎng)絡(luò)爬蟲的定義:網(wǎng)絡(luò)爬蟲,又有網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人等稱呼,是一種按照一定的規(guī)則,能夠自動(dòng)地,有目的性地抓取萬維網(wǎng)信息的程序或者腳本,而這些信息腳本可以提供給他人進(jìn)行類似于數(shù)據(jù)分析的工作。網(wǎng)絡(luò)爬蟲的產(chǎn)生背景:21世紀(jì)至今,互聯(lián)網(wǎng)快速發(fā)展,逐步成為人民生活不可分割的一部分,互聯(lián)網(wǎng)成為大量信息的載體,能夠有效地攫取并加以應(yīng)用這些信息便成為一個(gè)艱巨的挑戰(zhàn)。傳統(tǒng)的搜索引擎普遍是作為一個(gè)人們檢索信息的輔助工具,這也僅僅是用戶通過互聯(lián)網(wǎng)的了解世界的入口,也就是說這類的普通引擎難以快速地跟上當(dāng)代人們的需求,無法做到個(gè)性化這一特點(diǎn)。如:(1)各方面領(lǐng)域、不同需求的用戶往往對所需信息的選擇有不同的搜索目的與需求,普通的搜索引擎給予的反饋結(jié)果大都包含用戶們不需要的內(nèi)容。(2)通用搜索引擎的目標(biāo)是廣泛的人群,而非少數(shù),盡可能擴(kuò)大的網(wǎng)絡(luò)覆蓋率才是他們的重中之重,而搜索引擎服務(wù)器資源與網(wǎng)絡(luò)數(shù)據(jù)資源相比是相對極其有限的,故而兩者之間的矛盾逐步加深缺難以有有效的方法去解決。(3)萬維網(wǎng)數(shù)據(jù)形式的豐富性和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,聊天信息、圖片、視頻、數(shù)據(jù)、音頻多媒體等多方位的各類數(shù)據(jù)大量出現(xiàn)時(shí),普通的搜索引擎在處理這些含量密集且復(fù)雜的信息數(shù)據(jù)時(shí),具有一定數(shù)據(jù)結(jié)構(gòu)也無能為力,難以達(dá)到精確地發(fā)現(xiàn)和用戶需求的地步。(4)一般的搜索引擎基本上只是提供基于關(guān)鍵字的搜索,卻難以對支持根據(jù)實(shí)際語義的信息進(jìn)行準(zhǔn)確的查詢,這和我們需要的東西大相徑庭。就好比如今手機(jī)市場主流是安卓,IOS缺很少有Windos系統(tǒng)的手機(jī),僅僅蠻族大部分普通人的需求卻無法進(jìn)行專業(yè)化和精簡化。這些通用性搜索引擎也存在著部分局限性,為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個(gè)能夠自動(dòng)下載網(wǎng)頁的程序,類似于我們所說的腳本,它能夠精確地根據(jù)目標(biāo)信息進(jìn)行抓取,選擇出萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取我們所需要的重要信息。與一般定義上的爬蟲不同的是,這類爬蟲并不追求大的覆蓋,而是將目標(biāo)定為抓取與我們所特定主題內(nèi)容相關(guān)的網(wǎng)頁,以便我們能準(zhǔn)確找到我們需要的信息。隨后我們有只做了一個(gè)簡易的登錄網(wǎng)站,而在實(shí)踐課結(jié)課的前一天我們對我們所學(xué)的知識(shí)驚醒了簡單的梳理,然后完成我們最開始定下的目標(biāo):從目標(biāo)網(wǎng)頁上爬取需要的數(shù)據(jù),其基本由下面的步驟完成:導(dǎo)入網(wǎng)絡(luò)進(jìn)行下載(importrequests),導(dǎo)入網(wǎng)絡(luò)進(jìn)行下載過程有報(bào)錯(cuò)異常,然后倒入一個(gè)報(bào)錯(cuò)庫。(fromrequests.exceptionsimportRequestException),導(dǎo)入RE(importre),爬出來的所有圖片,文字存在這里。(importjson),進(jìn)程池(frommultiprocessingimportPool:python)。然后后續(xù)的程序我們在老師的輔導(dǎo)下逐步完善。在這兩個(gè)周能夠?qū)W習(xí)到關(guān)于python的東西不過是滄海一粟,一方面在于這次實(shí)踐活動(dòng)的時(shí)間的確有限,沒有充足的時(shí)間去更加全面的掌握該門語言的更多魅力,即便我們把能利用的時(shí)間的較多一部分投入到Python的學(xué)習(xí)中,但是效率并不如我們預(yù)期的那樣理想,大概是因?yàn)槲沂堑谝淮谓佑|計(jì)算機(jī)語言的緣故,對于基礎(chǔ)語言和語法并不能達(dá)到爐火純青的地步,致使我遇到問題時(shí)大都一臉茫然,無從下手,輕言放棄,于是就去借助百度查看別人的代碼或者看同學(xué)的代碼,這只能說明我的基礎(chǔ)知識(shí)掌握的還是不夠牢固,解決問題的能力幾乎為零。這就好比寫作文,別人拿到個(gè)題目就有一個(gè)良好的思路,加上自己的才思開始奮筆疾書,可我想了半小時(shí),也不知道自己應(yīng)該怎樣抓住讀者眼球,讓自己的文章妙筆生花。說實(shí)話有時(shí)候自己也挺有挫敗感,第一,代碼都是抄別人的,自己理解不到位;第二,需要花上比他人更多的時(shí)間才能完成相同的任務(wù)量,這顯得我的工作效率低下。不過總的來說在這次的暑期實(shí)踐活動(dòng)的整個(gè)學(xué)習(xí)中也是很開心的,和同學(xué)一起討論代碼怎么寫,如何做到簡介精煉,哪里出了錯(cuò)應(yīng)該怎樣去修改,又或者是將一段代碼修改成更加準(zhǔn)確符合標(biāo)準(zhǔn)的代碼,即便是遇到一些不會(huì)的,老師也會(huì)細(xì)心解答。此外,我認(rèn)為計(jì)算機(jī)里語言是一個(gè)更加注重實(shí)踐的學(xué)科,而python語言恰好也是比較注重嚴(yán)謹(jǐn)?shù)囊环N,在掌握了基礎(chǔ)的python語言之后,需要不斷地去嘗試才能逐步清楚準(zhǔn)確地掌握python語言的運(yùn)用以及在不同的地方哪些語言表達(dá)更加完善,達(dá)到言簡意賅的境界,特別是python這種對于計(jì)算機(jī)語言要求特別嚴(yán)謹(jǐn)?shù)倪@種。計(jì)算機(jī)語言是一門注重邏輯性的學(xué)類,在計(jì)算機(jī)語言里的每一個(gè)代碼都會(huì)起到一個(gè)承前啟后的作用,一步接一步,然后才能得到最終的結(jié)果。總的來說,此次暑期的實(shí)踐經(jīng)歷讓我對自己的學(xué)習(xí)生活進(jìn)行了反省,讓我受益匪淺,更加明確了自己的奮斗目標(biāo)和決心,本次工作經(jīng)歷也讓我學(xué)會(huì)保持一個(gè)主動(dòng)樂觀的態(tài)度去面對繁重的學(xué)習(xí)生活,不管前進(jìn)的道路上又什么曲折,保持主動(dòng)的態(tài)度永遠(yuǎn)是首要的。豐富的暑期實(shí)踐生活已經(jīng)過去,我也即將再次回歸到學(xué)校,毋庸置疑的是我必須努力奮斗,不斷學(xué)習(xí)充實(shí)自我,加強(qiáng)個(gè)人身體的素質(zhì),增強(qiáng)體質(zhì)鍛煉,讓自己勞逸結(jié)合,做到松弛有度。綜上,大學(xué)生在步入社會(huì)之前需要積累的遠(yuǎn)遠(yuǎn)不止書本層面上的知識(shí),除此之外還需要踴躍參加社會(huì)實(shí)踐,積累豐富的社會(huì)經(jīng)驗(yàn)。大學(xué)生更多地應(yīng)當(dāng)在社會(huì)實(shí)踐中培養(yǎng)獨(dú)立思考的、獨(dú)立工作和獨(dú)立解決問題的能力,囤積正能量去發(fā)現(xiàn)自我,改變自我,超越自我。通過參加不同的實(shí)踐性活動(dòng)鞏固所學(xué)的理論知識(shí),增強(qiáng)自身在書本以外的實(shí)際經(jīng)驗(yàn)的積累,去觸及的那些更多的,新鮮的知識(shí)和技能。畢竟我們學(xué)習(xí)的最終目的是將知識(shí)轉(zhuǎn)化成真正的能力要依靠實(shí)踐的經(jīng)驗(yàn)和鍛煉,否則永遠(yuǎn)只是夸夸其談,授之以魚不如授之以漁便是這個(gè)道理。日益嚴(yán)峻的就業(yè)形勢和日新月異的社會(huì),我們這些大學(xué)生應(yīng)該轉(zhuǎn)變現(xiàn)有觀念,不要簡單地把暑期實(shí)踐作為掙錢或者是積累社會(huì)經(jīng)驗(yàn)的手段,更重要的是借機(jī)培養(yǎng)自己的創(chuàng)業(yè)和社會(huì)實(shí)踐能力,這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論