基于Python的淘車二手車網(wǎng)數(shù)據(jù)采集與分析_第1頁
基于Python的淘車二手車網(wǎng)數(shù)據(jù)采集與分析_第2頁
基于Python的淘車二手車網(wǎng)數(shù)據(jù)采集與分析_第3頁
基于Python的淘車二手車網(wǎng)數(shù)據(jù)采集與分析_第4頁
基于Python的淘車二手車網(wǎng)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

目錄

1引言1

1.1項目背景1

1.2開發(fā)環(huán)境與工具1

1.2.1Python簡介1

1.2.2Jypyternotebook簡介2

2需求分析3

2.1可行性需求分析3

2.2采集目標(biāo)功能分析3

2.3關(guān)鍵技術(shù)分析4

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)4

2.3.2文件存取技術(shù)5

2.3.3可視化技術(shù)5

3數(shù)據(jù)采集6

3.1采集頁面分析6

3.2字段分析6

3.3編程實現(xiàn)7

4數(shù)據(jù)清洗與處理9

4.1數(shù)據(jù)清洗9

4.2數(shù)據(jù)儲存10

5數(shù)據(jù)統(tǒng)計與分析12

5.1數(shù)據(jù)準(zhǔn)備12

5.2數(shù)據(jù)展示13

5.2.1依據(jù)淘車二手車中各個城市二手車數(shù)量進(jìn)行統(tǒng)計與分析13

5.2.2依據(jù)淘車二手車中各個城市二手車平均價格進(jìn)行統(tǒng)計與分析14

5.2.3依據(jù)淘車二手車數(shù)量前五占比區(qū)間進(jìn)行統(tǒng)計和分析15

5.2.4依據(jù)淘車二手車?yán)锍陶急葏^(qū)間進(jìn)行統(tǒng)計與分析16

5.3綜述16

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

6小結(jié)17

參考資料18

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

基于Python的淘車二手車網(wǎng)數(shù)據(jù)采集與分析

1引言

時光荏苒,我們的祖國已經(jīng)進(jìn)入了一個高速發(fā)展的階段。喬布斯的一次發(fā)布

會,標(biāo)志著移動互聯(lián)網(wǎng)時代的開端。云、大、物、智等計算機(jī)互聯(lián)網(wǎng)技術(shù)在當(dāng)下

從百姓民生的各個方面提供了智能生活的技術(shù)基礎(chǔ)。而廣大人民群眾日常的購

物、出行等產(chǎn)生的數(shù)據(jù)也讓為我們這些技術(shù)工作者提供的海量的數(shù)據(jù)源頭,讓我

們有東西去學(xué)習(xí)和開發(fā),然后應(yīng)用。

來自衣食住行、衛(wèi)生醫(yī)療等各個領(lǐng)域的海量數(shù)據(jù),蘊(yùn)含著越來越大的開發(fā)

價值。如今,我們這一代人正處于信息革命的門檻之上,正在逐步邁入一個信

息紛飛的時代。大數(shù)據(jù)從業(yè)者都明白,海量數(shù)據(jù)中隱藏的寶藏等待有緣人也可以

說是有心人去發(fā)掘,數(shù)據(jù)科學(xué)及大數(shù)據(jù)技術(shù)也成為目前信息技術(shù)領(lǐng)域的一個比

較熱門的分支,大家都覺得他是未來!

1.1項目背景

二手車市場的各類指標(biāo)之間存在一定的關(guān)聯(lián)度。以運(yùn)營商市場為例,從在

售量、品牌占比、二手車均價、里程數(shù)等方面來看,我們可以發(fā)現(xiàn)不同的指標(biāo)

之間存在不同程度的相關(guān)性。對于購買者來說,準(zhǔn)確把握不同指標(biāo)之間的聯(lián)系

可以幫助他們更好地選擇心儀的二手車。因此,在二手車交易中,了解這些關(guān)

聯(lián)度是非常必要的。我們需要了解各種二手車的相關(guān)信息,這涉及到大量的二

手車數(shù)據(jù),因此我們將通過Python爬蟲技術(shù)批量獲取所需數(shù)據(jù)。

本人的畢業(yè)設(shè)計是通過分析各個信息間關(guān)聯(lián)度,通過爬取淘車二手車這個

網(wǎng)站二手車數(shù)據(jù),對其進(jìn)行爬取,儲存,清洗,分析,然后再進(jìn)行可視化操作。

經(jīng)過數(shù)據(jù)清洗和分析,復(fù)雜的數(shù)據(jù)呈現(xiàn)在二手車需求者眼前,他們可以一目了

然地了解哪些二手車價格較低且貨源充足。此外,他們還能知道當(dāng)前購買哪種

二手車最劃算。最終,他們會根據(jù)自己的意愿做出選擇。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python是一種高級編程語言,具有強(qiáng)大的功能,可用于多種編程任務(wù),如

網(wǎng)絡(luò)編程、腳本編寫、自動化任務(wù)、科學(xué)計算、數(shù)據(jù)可視化和機(jī)器學(xué)習(xí)等。Python

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

易于學(xué)習(xí),因此受到許多程序員和開發(fā)者的喜愛。此外,Python還擁有豐富的

第三方庫,可以幫助開發(fā)者快速開發(fā)應(yīng)用程序。

Python可以用于游戲開發(fā),影視制作,圖形處理,音頻處理,數(shù)據(jù)庫管理,

桌面應(yīng)用程序開發(fā),科學(xué)計算,數(shù)據(jù)可視化以及網(wǎng)絡(luò)編程等。

Python的主要優(yōu)勢在于其豐富的庫和開放的開發(fā)社區(qū),可以幫助開發(fā)者快

速完成任務(wù)。

1.2.2Jypyternotebook簡介

Jupyternotebook是一個開源的Web應(yīng)用程序,它可以讓你快速的構(gòu)建和

分享可交互的代碼可視化,同時支持多種編程語言,包括Python,R,Julia,Scala,

Haskell和Ruby等。此外,它還可以幫助開發(fā)者與團(tuán)隊合作,分享和共享代碼,

并保持可重復(fù)性。

Jupyternotebook已成為數(shù)據(jù)科學(xué)家和計算機(jī)科學(xué)家的重要工具,它不僅

提供了一種集成開發(fā)環(huán)境,使用戶能夠在同一個頁面上同時編寫、運(yùn)行和共享

代碼,還擁有許多有益功能。其中最突出的優(yōu)點之一是其更好的代碼組織和易

于理解、調(diào)試。通過使用Markdown語法,用戶可以快速創(chuàng)建文檔并進(jìn)行可視化

處理,這有助于增強(qiáng)項目的可讀性和可維護(hù)性。此外,JupyterNotebook還支

持多種編程語言,并提供許多可視化工具,這使得用戶能夠輕松切換到不同的

語言環(huán)境并在不同環(huán)境之間共享代碼片段等。最令人興奮的是,Jupyter

Notebook還可用于創(chuàng)建交互式網(wǎng)頁應(yīng)用程序,使用戶能夠更方便地分享結(jié)果和

可視化圖表。

Jupyternotebook還支持多種編程語言,包括Python,R,Java,Julia,

Scala和多種Markup語言,比如HTML,LaTeX,Markdown,等等。它可以幫助

你更加容易地在多種語言之間進(jìn)行切換,并且可以輕松地在不同的環(huán)境之間共

享代碼片段等。

Jupyternotebook還能夠處理多種不同的文件格式,包括文本文件、

Markdown文件和LaTeX文件等。因此,對于需要在編程過程中使用不同類型文

件的用戶而言,JupyterNotebook是一個非常實用的工具,能夠滿足不同類型

的編程需求。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

本次項目使用了Python編程語言來實現(xiàn)數(shù)據(jù)的爬取、清洗預(yù)處理和可視化

等操作。Python是一門通俗易懂的計算機(jī)編程語言,非常適合進(jìn)行數(shù)據(jù)分析和

處理。在數(shù)據(jù)爬取的過程中,我們遇到了網(wǎng)頁動態(tài)傳輸數(shù)據(jù)的問題。但是通過

抓包分析和瀏覽器控制臺獲取請求和參數(shù)等方式,我們成功地得到了網(wǎng)頁數(shù)據(jù)

的返回值。為了方便數(shù)據(jù)處理和分析,我們將抓取到的原始數(shù)據(jù)以CSV格式暫

時存儲,后續(xù)可以進(jìn)行數(shù)據(jù)預(yù)處理和可視化等操作。通過這些步驟,我們能夠

更加全面準(zhǔn)確地理解和分析數(shù)據(jù),為我們的研究提供可靠的支撐。

以上為此次項目的技術(shù)可行性,我也將在后續(xù)的工作中將所有的步驟實現(xiàn)

到位,保證數(shù)據(jù)的準(zhǔn)確性和安全性。

2、項目可行性

自2015年以來,二手車交易規(guī)模迅速增長,但行業(yè)整合也在加速淘汰不良

經(jīng)營者。二手車經(jīng)銷商應(yīng)該抓住這個機(jī)遇,及時調(diào)整營銷策略,開展更多的促

銷活動,提升品牌的曝光度,加大市場宣傳力度,從而推動二手車市場穩(wěn)步發(fā)

展。

本次將從品牌,車輛生產(chǎn)日期,里程數(shù)等方面對其進(jìn)行深度解析,分析出有

其其中價值的信息,并將其進(jìn)行數(shù)據(jù)可視化最后根據(jù)結(jié)果得出結(jié)論。

2.2采集目標(biāo)功能分析

本次項目的數(shù)據(jù)來自淘車二手車,通過使用Python網(wǎng)絡(luò)爬蟲技術(shù)來抓取此

網(wǎng)站中所有車輛的信息。在經(jīng)過數(shù)據(jù)清洗之后,我們最終得到了2350條記錄。

數(shù)據(jù)爬取完畢后認(rèn)真檢查數(shù)據(jù)的可靠性及準(zhǔn)確性,確定爬取出來的數(shù)據(jù)沒有問

題并且確實屬于淘車二手車官網(wǎng)實時存在的車輛信息。

分析淘車二手車官方網(wǎng)站網(wǎng)頁信息,明確我們需要爬取的車輛信息有品牌,

車齡,里程數(shù),城市,售價,有無保修等數(shù)據(jù),在對起始數(shù)據(jù)進(jìn)行預(yù)處理后我們

會對其數(shù)據(jù)進(jìn)行多個角度的分析。例如,我們可以通過分析各個城市的二手車

數(shù)量來判斷不同城市之間的差異是否顯著。又或者想要得到車輛占比前幾的數(shù)

據(jù),那么我們就可以根據(jù)車型號,查看前幾的是那幾種車

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

我們在日常瀏覽網(wǎng)頁時,有時需要保存一些數(shù)據(jù)在本地以便以后使用,尤

其是當(dāng)需要保存大量數(shù)據(jù)時,手動下載數(shù)據(jù)顯然不太現(xiàn)實。這時我們可以使用

網(wǎng)絡(luò)爬蟲來自動地獲取網(wǎng)頁信息。網(wǎng)絡(luò)爬蟲是一種程序,可以按照設(shè)定的規(guī)則

去抓取信息,并將抓取到的數(shù)據(jù)自動儲存起來,方便日后的分析和處理。

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,數(shù)據(jù)已經(jīng)成為了我們?nèi)粘I詈凸ぷ鞑豢苫?/p>

缺的重要組成部分。網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生,可瀏覽和搜索互聯(lián)網(wǎng),采集大量目標(biāo)

網(wǎng)頁數(shù)據(jù)并生成有用信息。在大數(shù)據(jù)領(lǐng)域特別重要,需要采集大量數(shù)據(jù)以進(jìn)行

深入研究。手動獲取這些數(shù)據(jù)不僅效率低下,還容易出現(xiàn)錯誤。爬蟲自動采集,

快速生成有價值信息。因此,網(wǎng)絡(luò)爬蟲技術(shù)在大數(shù)據(jù)時代變得不可或缺,并將

繼續(xù)在各行業(yè)中發(fā)揮巨大的作用。

網(wǎng)絡(luò)爬蟲和黑客的最大區(qū)別在于手段的合法性。黑客為了獲取個人或組織

內(nèi)有價值的信息而采用違法途徑,而網(wǎng)絡(luò)爬蟲通過代替人們進(jìn)行一些重復(fù)無意

義的工作,以合法合理的方式獲取所需信息。雖然網(wǎng)絡(luò)爬蟲與普通用戶瀏覽網(wǎng)

頁沒有本質(zhì)區(qū)別,但是如果使用不當(dāng),反復(fù)訪問客戶端網(wǎng)站而不設(shè)置適當(dāng)?shù)乃?/p>

眠緩沖時間,則可能對服務(wù)器造成過高的負(fù)荷,甚至引發(fā)DDOS攻擊等問題。因

此,在應(yīng)用網(wǎng)絡(luò)爬蟲時必須遵守規(guī)定,保證使用的合法、合理,并注意設(shè)置合

理的訪問頻率和睡眠緩沖時間,以免影響服務(wù)器的正常運(yùn)行。

網(wǎng)絡(luò)爬蟲技術(shù)可以應(yīng)用于多種場景,如搶票、投票和報名等。但也有人用

于發(fā)送騷擾信息。因此,爬蟲技術(shù)有利也有弊。技術(shù)人員需懂法、守法編寫腳

本,避免自身犯罪。在使用網(wǎng)絡(luò)爬蟲技術(shù)時,必須要注意在合法合理的范圍內(nèi)

使用,并嚴(yán)格控制爬蟲的訪問頻率,避免對被訪問的網(wǎng)站造成過多負(fù)擔(dān)。只有

這樣,網(wǎng)絡(luò)爬蟲才能發(fā)揮其真正的價值。

隨著爬蟲技術(shù)普及,網(wǎng)站反爬機(jī)制不斷增強(qiáng),高級爬蟲需謹(jǐn)慎及采用繞過

方式以獲取數(shù)據(jù)。如果高級爬蟲工程師成功繞過這些機(jī)制從而獲取到數(shù)據(jù),則

代表著爬蟲工程師的個人技術(shù)水平已達(dá)到一定水平。大型網(wǎng)站采用復(fù)雜反爬機(jī)

制,防惡意爬蟲和攻擊。這些手段會增加工程師的難度和開發(fā)成本。對于小型

網(wǎng)站而言,只需少量的反爬策略即可。由于不必考慮成本,對于我們來說,獲

取數(shù)據(jù)就非常容易了??傊磁罊C(jī)制是提高網(wǎng)站安全性的一項措施,同時也

為爬蟲工程師帶來挑戰(zhàn)。

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

2.3.2文件存取技術(shù)

Python自帶的csv模塊可以方便地讀寫逗號分隔值(CSV)格式的文件。該

模塊提供了多個常用函數(shù),包括csv.reader()和csv.writer()分別用于讀取和

寫入CSV文件。CSV文件是由多行組成的,每行都有多個字段,并用逗號進(jìn)行分

隔。這種文件格式可以在電子表格程序如MicrosoftExcel中打開和使用。

除了csv.reader()和csv.writer(),csv模塊還為我們提供了其他一些有

用的函數(shù)。例如,csv.DictReader()和csv.DictWriter()可以將CSV文件解析

為字典對象或?qū)⒆值鋵ο髮懭隒SV文件。使用DictReader()和DictWriter()可

以更方便地操作CSV文件并且避免一些手動處理CSV文件的繁瑣工作。此外,

csv模塊還提供了眾多選項,如指定分隔符、引用字符和行終止符等,以適應(yīng)各

種不同的CSV格式。需要注意的是,在處理大型CSV文件時,應(yīng)該使用適當(dāng)?shù)?/p>

內(nèi)存管理技術(shù)來避免內(nèi)存泄漏等問題。

2.3.3可視化技術(shù)

爬蟲通常需預(yù)處理并保存為CSV。但是,即使我們有了完整的數(shù)據(jù)集,在不

進(jìn)行進(jìn)一步處理和分析的情況下,也很難一下子得到想要的結(jié)論。數(shù)據(jù)需處理、

清洗、分析、可視化,方能獲有用信息。數(shù)據(jù)挖掘即從數(shù)據(jù)中提取寶貴信息。

因此,爬蟲獲取到的數(shù)據(jù)只是一個起點,還需要進(jìn)行一系列下一步的處理和分

析,才能真正應(yīng)用到實際的業(yè)務(wù)場景之中。

我們需要一種技術(shù)將龐大數(shù)據(jù)通過統(tǒng)計學(xué)圖形展現(xiàn),使結(jié)果清晰易懂。。

這個就是數(shù)據(jù)可視化技術(shù)。

當(dāng)我們用爬蟲技術(shù)獲取到數(shù)據(jù)后,我們會得到一堆冗長的字符串,里面包

含了各種信息。或許對于一條或幾條信息我們能夠讀懂,但當(dāng)數(shù)據(jù)量成千上萬

時,很難快速地找出其中的端倪和破綻。因此,我們需要進(jìn)行深入的了解和分

析。數(shù)據(jù)需處理易懂、使用,如選圖表格。盡管這些數(shù)據(jù)看起來很枯燥無味,

但在進(jìn)行了有效的處理和分析后,它們通常都能夠給我們帶來有價值的信息。

數(shù)據(jù)挖掘為決策提供信息。

本次項目使用簡單的pyecharts可視化,使數(shù)據(jù)直觀易懂,并高效表現(xiàn)各

種圖形,得出結(jié)論。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

3數(shù)據(jù)采集

3.1采集頁面分析

通過chrome瀏覽器搜索淘車二手車的官方網(wǎng)頁,然后找到二手車信息頁面

查看圖3-1,其中URL為:

/buycar/pges9bxcdzaoqtrnml/?page=1&然后點

擊頁面下方的分頁按鈕,同時觀察URL,發(fā)現(xiàn)URL從

/buycar/pges9bxcdzaoqtrnml/?page=1&變成了

/buycar/pges9bxcdzaoqtrnml/?page=2&

圖3-1數(shù)據(jù)網(wǎng)址頁面

所以我們在爬取數(shù)據(jù)時只需改變page=后的阿拉伯?dāng)?shù)字即可完成批量的多

頁面爬取,本次項目爬取數(shù)據(jù)為50頁,為當(dāng)前網(wǎng)站全部二手車的數(shù)據(jù)

3.2字段分析

通過淘車二手車網(wǎng)站進(jìn)行分析,從此二手車網(wǎng)站爬取了全國各地區(qū)二手車

的信息。本次采集的字段有品牌,車齡,里程,城市,售價,保修字段的采集在于前

面爬取的city_id字段,將他遍歷并發(fā)起請求到之前找到的數(shù)據(jù)接口后返回各

個城市的數(shù)據(jù),從json中拿取字段信息。集中整理存儲起來到j(luò)son文件里,

再將其寫入到taoche.csv,再以可視化的形式展現(xiàn)出來,在通過爬蟲爬取之后,

得到了如下圖3-2所示的相關(guān)的字段。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-2查看爬取數(shù)據(jù)

3.3編程實現(xiàn)

導(dǎo)入所需庫

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-3導(dǎo)入所需庫頁面

代碼實現(xiàn)如下:

importrequests

importparsel

importcsv

importre

csv_taoche=open('taoche.csv',mode='a',encoding='utf-8',newline='')#寫入方式改為追加寫入

csv.writer=csv.writer(csv_taoche)

csv.writer.writerow(['品牌','車齡','里程(萬公里)','城市','售價(萬元)','保修'])

forpageinrange(1,51):

print(f'正在爬取第{page}頁')

url=(f'/buycar/pges9bxcdzaoqtrnml/?page={page}&')

#爬取的網(wǎng)頁

html_Data=requests.get(url).text#網(wǎng)頁源代碼,為字符串

selector=parsel.Selector(html_Data)#可篩選格式

lis=selector.css('#container_base>ul>li')

forliinlis:

title=li.css('lidivaspan::text').get()#::text提取標(biāo)題里的文本內(nèi)容

car_old=li.css('lidivpi:nth-child(1)::text').get()#年數(shù)

km=li.css('lidivpi:nth-child(2)::text').get()#里程數(shù)

licheng_list=re.findall(r"\d+\.?\d*",km)#里程數(shù)通過正則只取數(shù)字

licheng=''.join(licheng_list)#轉(zhuǎn)換

cs=li.css('.city_i::text').get()#城市

cs=cs.strip()

ywbaoxiu=li.css('i:nth_child(1)::text').getall()#通過有無保修得出下面的長度,有保

修為3,沒有為2

#i_list=li.css('divi')

iflen(ywbaoxiu)==2:#沒有保修

jia=li.css('lidivdivi::text').get()#價格

yjia=''#原價

baoxiu='無保修'#保修

eliflen(ywbaoxiu)==3:#有保修

jia=li.css('lidivdivi::text').get()

yjia=li.css('lidivdivi:nth-child(2)::text').get()

ifyjia==None:

yjia=''

baoxiu=li.css('lidivdivdivi::text').get()

print(title,car_old,licheng+'萬公里',cs,jia+'萬',baoxiu)

#保存

csv.writer.writerow([title,car_old,licheng,cs,jia,baoxiu])

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

csv_taoche.close()

4數(shù)據(jù)清洗與處理

在獲取了龐大的數(shù)據(jù)集之后,我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的

清洗和檢查,以確定爬取到的數(shù)據(jù)是否存在無效值或缺失值,并且保證數(shù)據(jù)的

一致性。這個任務(wù)對于信息質(zhì)量的評估至關(guān)重要。但是光是預(yù)處理還遠(yuǎn)遠(yuǎn)不夠,

我們還需要將數(shù)據(jù)進(jìn)行有理化和有序化,以方便開發(fā)人員在調(diào)用和共享過程中

更加方便地使用數(shù)據(jù)信息。數(shù)據(jù)預(yù)處理和數(shù)據(jù)有理化/有序化是進(jìn)行大規(guī)模數(shù)據(jù)

分析的不可或缺的一部分,能夠提高數(shù)據(jù)的質(zhì)量和利用價值,也是數(shù)據(jù)科學(xué)家

不可或缺的技能之一。

本次項目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是

否出現(xiàn)空值、錯值,還有數(shù)據(jù)的位置是否正確。

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗讀取數(shù)據(jù)頁面

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-2查看表格數(shù)據(jù)描述

圖4-3查看表格是否有數(shù)據(jù)缺失

我們使用describe函數(shù)來查看表格數(shù)據(jù)的描述,如圖4-2所示。同時,我

們通過isnull函數(shù)來查詢是否存在數(shù)據(jù)缺失,如圖4-3所示。通過對比和仔細(xì)

審查,我們確認(rèn)數(shù)據(jù)既沒有缺失,也沒有錯位或空值。

4.2數(shù)據(jù)儲存

在數(shù)據(jù)處理的過程中,數(shù)據(jù)儲存是非常重要的環(huán)節(jié)。目前,有多種方法可

供選擇,例如直接使用記事本格式(txt)或其他文件格式(csv、excel、json

等),但這些方法僅適合儲存較小的數(shù)據(jù)體量。在選擇數(shù)據(jù)庫時,需要根據(jù)具

體需求進(jìn)行選擇,例如對于需要支持高并發(fā)處理和海量數(shù)據(jù)存儲的場景,非關(guān)

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

系型數(shù)據(jù)庫則更加適合。總之,數(shù)據(jù)儲存是數(shù)據(jù)處理過程中不可或缺的環(huán)節(jié),

正確選擇適合自己需求的數(shù)據(jù)庫對于數(shù)據(jù)的高效處理和存儲具有非常重要的作

用。我這次使用的是csv。

如圖4-4所示:

圖4-4數(shù)據(jù)存儲為csv頁面

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入相關(guān)的庫后,使用pandas來加載源數(shù)據(jù),如圖5-1、5-2所示。

圖5-1數(shù)據(jù)準(zhǔn)備頁面

圖5-2數(shù)據(jù)加載頁面

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2數(shù)據(jù)展示

5.2.1依據(jù)淘車二手車中各個城市二手車數(shù)量進(jìn)行統(tǒng)計與分析

圖5-3數(shù)據(jù)展示頁面

將在表格中生產(chǎn)廠商的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計出現(xiàn)的頻率,

最后生成特定序列,通過特定序列里面的數(shù)據(jù)再按照詞頻生成柱狀圖,如圖5-3

中可以看出北京出現(xiàn)的頻率最高,其次就是鄭州,這兩個城市二手車供應(yīng)最多。

上榜的城市大多位于北上廣等一線城市地區(qū)。從側(cè)面分析這些地區(qū)的二手

車行業(yè)發(fā)展是比較繁榮的,有想做二手車方向生意的人可以優(yōu)先考慮去這些地

區(qū)發(fā)展,或許在這些地區(qū)你們能得到更多的發(fā)展和機(jī)遇。除了前述提到的因素,

這些地方還有一個重要的優(yōu)勢,即擁有多家行業(yè)巨頭公司的坐落。這些公司代

表著各個領(lǐng)域的最新技術(shù)和創(chuàng)新成果,對于個人的職業(yè)發(fā)展和前景都有好處。

首先,這些公司提供了更多廣闊的工作機(jī)會,因為各種不同的領(lǐng)域和行業(yè)都有

代表性的公司在這些地方設(shè)立的分支機(jī)構(gòu)或總部。其次,此外,這些公司通常

會投入更多的研發(fā)資源和技術(shù)支持。加入這些公司不僅有機(jī)會學(xué)習(xí)最新的技術(shù),

還能拓展人脈并獲取更多職業(yè)機(jī)遇。此外,行業(yè)巨頭公司的坐落也帶動了周邊

的生態(tài)環(huán)境和基礎(chǔ)設(shè)施建設(shè),例如公共交通、娛樂設(shè)施等,為個人提供更加便

利的工作和生活條件??傊?,這些因素共同促進(jìn)了這些地方的繁榮和發(fā)展,成

為吸引人才和推動個人職業(yè)發(fā)展的重要因素之一。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.2依據(jù)淘車二手車中各個城市二手車平均價格進(jìn)行統(tǒng)計與分析

圖5-4數(shù)據(jù)展示頁面

從圖5-4中得出各個城市二手車平均價格為9.25萬,

最高的為12萬最低的為7萬,因此如果想購買較為便宜的二手車用戶可以

選擇去平均價格較低的地區(qū)進(jìn)行選購。無經(jīng)濟(jì)壓力的則可按需選購。

此外,可以在成本較低的地區(qū)開展二手車交易以獲取更多利潤。二手車價

格低說明需求量小。價格高則說明供不應(yīng)求。在圖上可以看到,展示的車輛均

為二手車中數(shù)量最多的幾個型號,這也從一個側(cè)面反映出市場中對于車輛數(shù)量

和種類分布的影響。對此,我們需要了解市場信息和趨勢,做出準(zhǔn)確決策。此

外需要注意的是,盡管這些二手車輛價格較低,但仍需要全面檢測和評估。二

手車存在的一些潛在問題需要我們在購買前進(jìn)行充分了解和咨詢,以免出現(xiàn)后

悔的情況。同樣地,售二手車時,須了解市場情況??偟膩碚f,對于二手車市

場的了解和分析是進(jìn)行購買和銷售的重要前提,無論是從個人還是商業(yè)角度來

看,都具有重要的價值和意義。

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.3依據(jù)淘車二手車數(shù)量前五占比區(qū)間進(jìn)行統(tǒng)計和分析

圖5-5數(shù)據(jù)展示頁面

從圖5-5中可以得知哈弗H6和紅旗H7的占比的最多的。在圖上可以看到,

展示的車輛均為二手車中數(shù)量最多的幾個型號。二手車市場是一個充滿機(jī)遇和

風(fēng)險的市場,其車輛數(shù)量和種類分布對市場影響非常大。因此,為了做出準(zhǔn)確

的決策,我們需要了解更多的市場信息和趨勢。盡管二手車價格相對較低,但

購買前仍需要進(jìn)行全面的檢測和評估,以確保所購買的車輛能夠長期使用且符

合需求。此外,在出售二手車時,了解市場情況也顯得非常重要,這能夠幫助

我們更好地定價和推廣二手車。綜上所述,對于二手車市場的了解和分析是進(jìn)

行購買和銷售的重要前提,無論是從個人還是商業(yè)角度來看,都具有重要的價

值和意義。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.4依據(jù)淘車二手車?yán)锍陶急葏^(qū)間進(jìn)行統(tǒng)計與分析

圖5-6數(shù)據(jù)展示頁面

五個區(qū)間為0-5萬、5-10萬、10-15萬、15-20萬、20萬以上,其中0-5

萬最多,5-10萬其次。購買二手車時,通常關(guān)注新舊程度和里程數(shù)。里程數(shù)能

很好地反映車輛的使用情況和磨損程度,因此成為了二手車新舊程度的重要指

標(biāo)之一。一般而言,里程數(shù)低的車輛通常被認(rèn)為比里程數(shù)高的車輛更加新,更

有保值性。所以,在選擇購買二手車時,我們應(yīng)當(dāng)了解并評估該車的里程數(shù),

以判斷其真實價值和是否具有購買的價值。此外,需要注意的是,即使車輛里

程數(shù)低,仍需要進(jìn)行全面的檢測和評估,以避免購買到存在潛在問題的車輛。

對于出售二手車的人而言,及時更新里程數(shù)記錄以及提供真實信息也是非常重

要的,可以提高車輛的銷售價值和信譽(yù)度。因此,在二手車交易中,了解里程

數(shù)的意義和作用是非常重要的一部分。

5.3綜述

綜上,根據(jù)淘車二手車網(wǎng)站數(shù)據(jù)顯示:

第一,二手車數(shù)量最多的為北京,這可能與北京的經(jīng)濟(jì)水平和人口密集程

度等因素有關(guān),導(dǎo)致該地區(qū)的二手車市場格外活躍。對于購買和出售二手車的

人而言,了解北京市場的需求和價格走勢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論