版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
目錄
1引言1
1.1項目背景1
1.2開發(fā)環(huán)境與工具1
1.2.1Python簡介1
1.2.2Jypyternotebook簡介2
2需求分析3
2.1可行性需求分析3
2.2采集目標(biāo)功能分析3
2.3關(guān)鍵技術(shù)分析4
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)4
2.3.2文件存取技術(shù)5
2.3.3可視化技術(shù)5
3數(shù)據(jù)采集6
3.1采集頁面分析6
3.2字段分析6
3.3編程實現(xiàn)7
4數(shù)據(jù)清洗與處理9
4.1數(shù)據(jù)清洗9
4.2數(shù)據(jù)儲存10
5數(shù)據(jù)統(tǒng)計與分析12
5.1數(shù)據(jù)準(zhǔn)備12
5.2數(shù)據(jù)展示13
5.2.1依據(jù)淘車二手車中各個城市二手車數(shù)量進(jìn)行統(tǒng)計與分析13
5.2.2依據(jù)淘車二手車中各個城市二手車平均價格進(jìn)行統(tǒng)計與分析14
5.2.3依據(jù)淘車二手車數(shù)量前五占比區(qū)間進(jìn)行統(tǒng)計和分析15
5.2.4依據(jù)淘車二手車?yán)锍陶急葏^(qū)間進(jìn)行統(tǒng)計與分析16
5.3綜述16
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
6小結(jié)17
參考資料18
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
基于Python的淘車二手車網(wǎng)數(shù)據(jù)采集與分析
1引言
時光荏苒,我們的祖國已經(jīng)進(jìn)入了一個高速發(fā)展的階段。喬布斯的一次發(fā)布
會,標(biāo)志著移動互聯(lián)網(wǎng)時代的開端。云、大、物、智等計算機(jī)互聯(lián)網(wǎng)技術(shù)在當(dāng)下
從百姓民生的各個方面提供了智能生活的技術(shù)基礎(chǔ)。而廣大人民群眾日常的購
物、出行等產(chǎn)生的數(shù)據(jù)也讓為我們這些技術(shù)工作者提供的海量的數(shù)據(jù)源頭,讓我
們有東西去學(xué)習(xí)和開發(fā),然后應(yīng)用。
來自衣食住行、衛(wèi)生醫(yī)療等各個領(lǐng)域的海量數(shù)據(jù),蘊(yùn)含著越來越大的開發(fā)
價值。如今,我們這一代人正處于信息革命的門檻之上,正在逐步邁入一個信
息紛飛的時代。大數(shù)據(jù)從業(yè)者都明白,海量數(shù)據(jù)中隱藏的寶藏等待有緣人也可以
說是有心人去發(fā)掘,數(shù)據(jù)科學(xué)及大數(shù)據(jù)技術(shù)也成為目前信息技術(shù)領(lǐng)域的一個比
較熱門的分支,大家都覺得他是未來!
1.1項目背景
二手車市場的各類指標(biāo)之間存在一定的關(guān)聯(lián)度。以運(yùn)營商市場為例,從在
售量、品牌占比、二手車均價、里程數(shù)等方面來看,我們可以發(fā)現(xiàn)不同的指標(biāo)
之間存在不同程度的相關(guān)性。對于購買者來說,準(zhǔn)確把握不同指標(biāo)之間的聯(lián)系
可以幫助他們更好地選擇心儀的二手車。因此,在二手車交易中,了解這些關(guān)
聯(lián)度是非常必要的。我們需要了解各種二手車的相關(guān)信息,這涉及到大量的二
手車數(shù)據(jù),因此我們將通過Python爬蟲技術(shù)批量獲取所需數(shù)據(jù)。
本人的畢業(yè)設(shè)計是通過分析各個信息間關(guān)聯(lián)度,通過爬取淘車二手車這個
網(wǎng)站二手車數(shù)據(jù),對其進(jìn)行爬取,儲存,清洗,分析,然后再進(jìn)行可視化操作。
經(jīng)過數(shù)據(jù)清洗和分析,復(fù)雜的數(shù)據(jù)呈現(xiàn)在二手車需求者眼前,他們可以一目了
然地了解哪些二手車價格較低且貨源充足。此外,他們還能知道當(dāng)前購買哪種
二手車最劃算。最終,他們會根據(jù)自己的意愿做出選擇。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python是一種高級編程語言,具有強(qiáng)大的功能,可用于多種編程任務(wù),如
網(wǎng)絡(luò)編程、腳本編寫、自動化任務(wù)、科學(xué)計算、數(shù)據(jù)可視化和機(jī)器學(xué)習(xí)等。Python
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
易于學(xué)習(xí),因此受到許多程序員和開發(fā)者的喜愛。此外,Python還擁有豐富的
第三方庫,可以幫助開發(fā)者快速開發(fā)應(yīng)用程序。
Python可以用于游戲開發(fā),影視制作,圖形處理,音頻處理,數(shù)據(jù)庫管理,
桌面應(yīng)用程序開發(fā),科學(xué)計算,數(shù)據(jù)可視化以及網(wǎng)絡(luò)編程等。
Python的主要優(yōu)勢在于其豐富的庫和開放的開發(fā)社區(qū),可以幫助開發(fā)者快
速完成任務(wù)。
1.2.2Jypyternotebook簡介
Jupyternotebook是一個開源的Web應(yīng)用程序,它可以讓你快速的構(gòu)建和
分享可交互的代碼可視化,同時支持多種編程語言,包括Python,R,Julia,Scala,
Haskell和Ruby等。此外,它還可以幫助開發(fā)者與團(tuán)隊合作,分享和共享代碼,
并保持可重復(fù)性。
Jupyternotebook已成為數(shù)據(jù)科學(xué)家和計算機(jī)科學(xué)家的重要工具,它不僅
提供了一種集成開發(fā)環(huán)境,使用戶能夠在同一個頁面上同時編寫、運(yùn)行和共享
代碼,還擁有許多有益功能。其中最突出的優(yōu)點之一是其更好的代碼組織和易
于理解、調(diào)試。通過使用Markdown語法,用戶可以快速創(chuàng)建文檔并進(jìn)行可視化
處理,這有助于增強(qiáng)項目的可讀性和可維護(hù)性。此外,JupyterNotebook還支
持多種編程語言,并提供許多可視化工具,這使得用戶能夠輕松切換到不同的
語言環(huán)境并在不同環(huán)境之間共享代碼片段等。最令人興奮的是,Jupyter
Notebook還可用于創(chuàng)建交互式網(wǎng)頁應(yīng)用程序,使用戶能夠更方便地分享結(jié)果和
可視化圖表。
Jupyternotebook還支持多種編程語言,包括Python,R,Java,Julia,
Scala和多種Markup語言,比如HTML,LaTeX,Markdown,等等。它可以幫助
你更加容易地在多種語言之間進(jìn)行切換,并且可以輕松地在不同的環(huán)境之間共
享代碼片段等。
Jupyternotebook還能夠處理多種不同的文件格式,包括文本文件、
Markdown文件和LaTeX文件等。因此,對于需要在編程過程中使用不同類型文
件的用戶而言,JupyterNotebook是一個非常實用的工具,能夠滿足不同類型
的編程需求。
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
本次項目使用了Python編程語言來實現(xiàn)數(shù)據(jù)的爬取、清洗預(yù)處理和可視化
等操作。Python是一門通俗易懂的計算機(jī)編程語言,非常適合進(jìn)行數(shù)據(jù)分析和
處理。在數(shù)據(jù)爬取的過程中,我們遇到了網(wǎng)頁動態(tài)傳輸數(shù)據(jù)的問題。但是通過
抓包分析和瀏覽器控制臺獲取請求和參數(shù)等方式,我們成功地得到了網(wǎng)頁數(shù)據(jù)
的返回值。為了方便數(shù)據(jù)處理和分析,我們將抓取到的原始數(shù)據(jù)以CSV格式暫
時存儲,后續(xù)可以進(jìn)行數(shù)據(jù)預(yù)處理和可視化等操作。通過這些步驟,我們能夠
更加全面準(zhǔn)確地理解和分析數(shù)據(jù),為我們的研究提供可靠的支撐。
以上為此次項目的技術(shù)可行性,我也將在后續(xù)的工作中將所有的步驟實現(xiàn)
到位,保證數(shù)據(jù)的準(zhǔn)確性和安全性。
2、項目可行性
自2015年以來,二手車交易規(guī)模迅速增長,但行業(yè)整合也在加速淘汰不良
經(jīng)營者。二手車經(jīng)銷商應(yīng)該抓住這個機(jī)遇,及時調(diào)整營銷策略,開展更多的促
銷活動,提升品牌的曝光度,加大市場宣傳力度,從而推動二手車市場穩(wěn)步發(fā)
展。
本次將從品牌,車輛生產(chǎn)日期,里程數(shù)等方面對其進(jìn)行深度解析,分析出有
其其中價值的信息,并將其進(jìn)行數(shù)據(jù)可視化最后根據(jù)結(jié)果得出結(jié)論。
2.2采集目標(biāo)功能分析
本次項目的數(shù)據(jù)來自淘車二手車,通過使用Python網(wǎng)絡(luò)爬蟲技術(shù)來抓取此
網(wǎng)站中所有車輛的信息。在經(jīng)過數(shù)據(jù)清洗之后,我們最終得到了2350條記錄。
數(shù)據(jù)爬取完畢后認(rèn)真檢查數(shù)據(jù)的可靠性及準(zhǔn)確性,確定爬取出來的數(shù)據(jù)沒有問
題并且確實屬于淘車二手車官網(wǎng)實時存在的車輛信息。
分析淘車二手車官方網(wǎng)站網(wǎng)頁信息,明確我們需要爬取的車輛信息有品牌,
車齡,里程數(shù),城市,售價,有無保修等數(shù)據(jù),在對起始數(shù)據(jù)進(jìn)行預(yù)處理后我們
會對其數(shù)據(jù)進(jìn)行多個角度的分析。例如,我們可以通過分析各個城市的二手車
數(shù)量來判斷不同城市之間的差異是否顯著。又或者想要得到車輛占比前幾的數(shù)
據(jù),那么我們就可以根據(jù)車型號,查看前幾的是那幾種車
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
我們在日常瀏覽網(wǎng)頁時,有時需要保存一些數(shù)據(jù)在本地以便以后使用,尤
其是當(dāng)需要保存大量數(shù)據(jù)時,手動下載數(shù)據(jù)顯然不太現(xiàn)實。這時我們可以使用
網(wǎng)絡(luò)爬蟲來自動地獲取網(wǎng)頁信息。網(wǎng)絡(luò)爬蟲是一種程序,可以按照設(shè)定的規(guī)則
去抓取信息,并將抓取到的數(shù)據(jù)自動儲存起來,方便日后的分析和處理。
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,數(shù)據(jù)已經(jīng)成為了我們?nèi)粘I詈凸ぷ鞑豢苫?/p>
缺的重要組成部分。網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生,可瀏覽和搜索互聯(lián)網(wǎng),采集大量目標(biāo)
網(wǎng)頁數(shù)據(jù)并生成有用信息。在大數(shù)據(jù)領(lǐng)域特別重要,需要采集大量數(shù)據(jù)以進(jìn)行
深入研究。手動獲取這些數(shù)據(jù)不僅效率低下,還容易出現(xiàn)錯誤。爬蟲自動采集,
快速生成有價值信息。因此,網(wǎng)絡(luò)爬蟲技術(shù)在大數(shù)據(jù)時代變得不可或缺,并將
繼續(xù)在各行業(yè)中發(fā)揮巨大的作用。
網(wǎng)絡(luò)爬蟲和黑客的最大區(qū)別在于手段的合法性。黑客為了獲取個人或組織
內(nèi)有價值的信息而采用違法途徑,而網(wǎng)絡(luò)爬蟲通過代替人們進(jìn)行一些重復(fù)無意
義的工作,以合法合理的方式獲取所需信息。雖然網(wǎng)絡(luò)爬蟲與普通用戶瀏覽網(wǎng)
頁沒有本質(zhì)區(qū)別,但是如果使用不當(dāng),反復(fù)訪問客戶端網(wǎng)站而不設(shè)置適當(dāng)?shù)乃?/p>
眠緩沖時間,則可能對服務(wù)器造成過高的負(fù)荷,甚至引發(fā)DDOS攻擊等問題。因
此,在應(yīng)用網(wǎng)絡(luò)爬蟲時必須遵守規(guī)定,保證使用的合法、合理,并注意設(shè)置合
理的訪問頻率和睡眠緩沖時間,以免影響服務(wù)器的正常運(yùn)行。
網(wǎng)絡(luò)爬蟲技術(shù)可以應(yīng)用于多種場景,如搶票、投票和報名等。但也有人用
于發(fā)送騷擾信息。因此,爬蟲技術(shù)有利也有弊。技術(shù)人員需懂法、守法編寫腳
本,避免自身犯罪。在使用網(wǎng)絡(luò)爬蟲技術(shù)時,必須要注意在合法合理的范圍內(nèi)
使用,并嚴(yán)格控制爬蟲的訪問頻率,避免對被訪問的網(wǎng)站造成過多負(fù)擔(dān)。只有
這樣,網(wǎng)絡(luò)爬蟲才能發(fā)揮其真正的價值。
隨著爬蟲技術(shù)普及,網(wǎng)站反爬機(jī)制不斷增強(qiáng),高級爬蟲需謹(jǐn)慎及采用繞過
方式以獲取數(shù)據(jù)。如果高級爬蟲工程師成功繞過這些機(jī)制從而獲取到數(shù)據(jù),則
代表著爬蟲工程師的個人技術(shù)水平已達(dá)到一定水平。大型網(wǎng)站采用復(fù)雜反爬機(jī)
制,防惡意爬蟲和攻擊。這些手段會增加工程師的難度和開發(fā)成本。對于小型
網(wǎng)站而言,只需少量的反爬策略即可。由于不必考慮成本,對于我們來說,獲
取數(shù)據(jù)就非常容易了??傊磁罊C(jī)制是提高網(wǎng)站安全性的一項措施,同時也
為爬蟲工程師帶來挑戰(zhàn)。
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
2.3.2文件存取技術(shù)
Python自帶的csv模塊可以方便地讀寫逗號分隔值(CSV)格式的文件。該
模塊提供了多個常用函數(shù),包括csv.reader()和csv.writer()分別用于讀取和
寫入CSV文件。CSV文件是由多行組成的,每行都有多個字段,并用逗號進(jìn)行分
隔。這種文件格式可以在電子表格程序如MicrosoftExcel中打開和使用。
除了csv.reader()和csv.writer(),csv模塊還為我們提供了其他一些有
用的函數(shù)。例如,csv.DictReader()和csv.DictWriter()可以將CSV文件解析
為字典對象或?qū)⒆值鋵ο髮懭隒SV文件。使用DictReader()和DictWriter()可
以更方便地操作CSV文件并且避免一些手動處理CSV文件的繁瑣工作。此外,
csv模塊還提供了眾多選項,如指定分隔符、引用字符和行終止符等,以適應(yīng)各
種不同的CSV格式。需要注意的是,在處理大型CSV文件時,應(yīng)該使用適當(dāng)?shù)?/p>
內(nèi)存管理技術(shù)來避免內(nèi)存泄漏等問題。
2.3.3可視化技術(shù)
爬蟲通常需預(yù)處理并保存為CSV。但是,即使我們有了完整的數(shù)據(jù)集,在不
進(jìn)行進(jìn)一步處理和分析的情況下,也很難一下子得到想要的結(jié)論。數(shù)據(jù)需處理、
清洗、分析、可視化,方能獲有用信息。數(shù)據(jù)挖掘即從數(shù)據(jù)中提取寶貴信息。
因此,爬蟲獲取到的數(shù)據(jù)只是一個起點,還需要進(jìn)行一系列下一步的處理和分
析,才能真正應(yīng)用到實際的業(yè)務(wù)場景之中。
我們需要一種技術(shù)將龐大數(shù)據(jù)通過統(tǒng)計學(xué)圖形展現(xiàn),使結(jié)果清晰易懂。。
這個就是數(shù)據(jù)可視化技術(shù)。
當(dāng)我們用爬蟲技術(shù)獲取到數(shù)據(jù)后,我們會得到一堆冗長的字符串,里面包
含了各種信息。或許對于一條或幾條信息我們能夠讀懂,但當(dāng)數(shù)據(jù)量成千上萬
時,很難快速地找出其中的端倪和破綻。因此,我們需要進(jìn)行深入的了解和分
析。數(shù)據(jù)需處理易懂、使用,如選圖表格。盡管這些數(shù)據(jù)看起來很枯燥無味,
但在進(jìn)行了有效的處理和分析后,它們通常都能夠給我們帶來有價值的信息。
數(shù)據(jù)挖掘為決策提供信息。
本次項目使用簡單的pyecharts可視化,使數(shù)據(jù)直觀易懂,并高效表現(xiàn)各
種圖形,得出結(jié)論。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
3數(shù)據(jù)采集
3.1采集頁面分析
通過chrome瀏覽器搜索淘車二手車的官方網(wǎng)頁,然后找到二手車信息頁面
查看圖3-1,其中URL為:
/buycar/pges9bxcdzaoqtrnml/?page=1&然后點
擊頁面下方的分頁按鈕,同時觀察URL,發(fā)現(xiàn)URL從
/buycar/pges9bxcdzaoqtrnml/?page=1&變成了
/buycar/pges9bxcdzaoqtrnml/?page=2&
圖3-1數(shù)據(jù)網(wǎng)址頁面
所以我們在爬取數(shù)據(jù)時只需改變page=后的阿拉伯?dāng)?shù)字即可完成批量的多
頁面爬取,本次項目爬取數(shù)據(jù)為50頁,為當(dāng)前網(wǎng)站全部二手車的數(shù)據(jù)
3.2字段分析
通過淘車二手車網(wǎng)站進(jìn)行分析,從此二手車網(wǎng)站爬取了全國各地區(qū)二手車
的信息。本次采集的字段有品牌,車齡,里程,城市,售價,保修字段的采集在于前
面爬取的city_id字段,將他遍歷并發(fā)起請求到之前找到的數(shù)據(jù)接口后返回各
個城市的數(shù)據(jù),從json中拿取字段信息。集中整理存儲起來到j(luò)son文件里,
再將其寫入到taoche.csv,再以可視化的形式展現(xiàn)出來,在通過爬蟲爬取之后,
得到了如下圖3-2所示的相關(guān)的字段。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-2查看爬取數(shù)據(jù)
3.3編程實現(xiàn)
導(dǎo)入所需庫
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖3-3導(dǎo)入所需庫頁面
代碼實現(xiàn)如下:
importrequests
importparsel
importcsv
importre
csv_taoche=open('taoche.csv',mode='a',encoding='utf-8',newline='')#寫入方式改為追加寫入
csv.writer=csv.writer(csv_taoche)
csv.writer.writerow(['品牌','車齡','里程(萬公里)','城市','售價(萬元)','保修'])
forpageinrange(1,51):
print(f'正在爬取第{page}頁')
url=(f'/buycar/pges9bxcdzaoqtrnml/?page={page}&')
#爬取的網(wǎng)頁
html_Data=requests.get(url).text#網(wǎng)頁源代碼,為字符串
selector=parsel.Selector(html_Data)#可篩選格式
lis=selector.css('#container_base>ul>li')
forliinlis:
title=li.css('lidivaspan::text').get()#::text提取標(biāo)題里的文本內(nèi)容
car_old=li.css('lidivpi:nth-child(1)::text').get()#年數(shù)
km=li.css('lidivpi:nth-child(2)::text').get()#里程數(shù)
licheng_list=re.findall(r"\d+\.?\d*",km)#里程數(shù)通過正則只取數(shù)字
licheng=''.join(licheng_list)#轉(zhuǎn)換
cs=li.css('.city_i::text').get()#城市
cs=cs.strip()
ywbaoxiu=li.css('i:nth_child(1)::text').getall()#通過有無保修得出下面的長度,有保
修為3,沒有為2
#i_list=li.css('divi')
iflen(ywbaoxiu)==2:#沒有保修
jia=li.css('lidivdivi::text').get()#價格
yjia=''#原價
baoxiu='無保修'#保修
eliflen(ywbaoxiu)==3:#有保修
jia=li.css('lidivdivi::text').get()
yjia=li.css('lidivdivi:nth-child(2)::text').get()
ifyjia==None:
yjia=''
baoxiu=li.css('lidivdivdivi::text').get()
print(title,car_old,licheng+'萬公里',cs,jia+'萬',baoxiu)
#保存
csv.writer.writerow([title,car_old,licheng,cs,jia,baoxiu])
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
csv_taoche.close()
4數(shù)據(jù)清洗與處理
在獲取了龐大的數(shù)據(jù)集之后,我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的
清洗和檢查,以確定爬取到的數(shù)據(jù)是否存在無效值或缺失值,并且保證數(shù)據(jù)的
一致性。這個任務(wù)對于信息質(zhì)量的評估至關(guān)重要。但是光是預(yù)處理還遠(yuǎn)遠(yuǎn)不夠,
我們還需要將數(shù)據(jù)進(jìn)行有理化和有序化,以方便開發(fā)人員在調(diào)用和共享過程中
更加方便地使用數(shù)據(jù)信息。數(shù)據(jù)預(yù)處理和數(shù)據(jù)有理化/有序化是進(jìn)行大規(guī)模數(shù)據(jù)
分析的不可或缺的一部分,能夠提高數(shù)據(jù)的質(zhì)量和利用價值,也是數(shù)據(jù)科學(xué)家
不可或缺的技能之一。
本次項目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是
否出現(xiàn)空值、錯值,還有數(shù)據(jù)的位置是否正確。
4.1數(shù)據(jù)清洗
圖4-1數(shù)據(jù)清洗讀取數(shù)據(jù)頁面
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
圖4-2查看表格數(shù)據(jù)描述
圖4-3查看表格是否有數(shù)據(jù)缺失
我們使用describe函數(shù)來查看表格數(shù)據(jù)的描述,如圖4-2所示。同時,我
們通過isnull函數(shù)來查詢是否存在數(shù)據(jù)缺失,如圖4-3所示。通過對比和仔細(xì)
審查,我們確認(rèn)數(shù)據(jù)既沒有缺失,也沒有錯位或空值。
4.2數(shù)據(jù)儲存
在數(shù)據(jù)處理的過程中,數(shù)據(jù)儲存是非常重要的環(huán)節(jié)。目前,有多種方法可
供選擇,例如直接使用記事本格式(txt)或其他文件格式(csv、excel、json
等),但這些方法僅適合儲存較小的數(shù)據(jù)體量。在選擇數(shù)據(jù)庫時,需要根據(jù)具
體需求進(jìn)行選擇,例如對于需要支持高并發(fā)處理和海量數(shù)據(jù)存儲的場景,非關(guān)
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
系型數(shù)據(jù)庫則更加適合。總之,數(shù)據(jù)儲存是數(shù)據(jù)處理過程中不可或缺的環(huán)節(jié),
正確選擇適合自己需求的數(shù)據(jù)庫對于數(shù)據(jù)的高效處理和存儲具有非常重要的作
用。我這次使用的是csv。
如圖4-4所示:
圖4-4數(shù)據(jù)存儲為csv頁面
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5數(shù)據(jù)統(tǒng)計與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入相關(guān)的庫后,使用pandas來加載源數(shù)據(jù),如圖5-1、5-2所示。
圖5-1數(shù)據(jù)準(zhǔn)備頁面
圖5-2數(shù)據(jù)加載頁面
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2數(shù)據(jù)展示
5.2.1依據(jù)淘車二手車中各個城市二手車數(shù)量進(jìn)行統(tǒng)計與分析
圖5-3數(shù)據(jù)展示頁面
將在表格中生產(chǎn)廠商的字段數(shù)據(jù)進(jìn)行匯總和處理然后將其統(tǒng)計出現(xiàn)的頻率,
最后生成特定序列,通過特定序列里面的數(shù)據(jù)再按照詞頻生成柱狀圖,如圖5-3
中可以看出北京出現(xiàn)的頻率最高,其次就是鄭州,這兩個城市二手車供應(yīng)最多。
上榜的城市大多位于北上廣等一線城市地區(qū)。從側(cè)面分析這些地區(qū)的二手
車行業(yè)發(fā)展是比較繁榮的,有想做二手車方向生意的人可以優(yōu)先考慮去這些地
區(qū)發(fā)展,或許在這些地區(qū)你們能得到更多的發(fā)展和機(jī)遇。除了前述提到的因素,
這些地方還有一個重要的優(yōu)勢,即擁有多家行業(yè)巨頭公司的坐落。這些公司代
表著各個領(lǐng)域的最新技術(shù)和創(chuàng)新成果,對于個人的職業(yè)發(fā)展和前景都有好處。
首先,這些公司提供了更多廣闊的工作機(jī)會,因為各種不同的領(lǐng)域和行業(yè)都有
代表性的公司在這些地方設(shè)立的分支機(jī)構(gòu)或總部。其次,此外,這些公司通常
會投入更多的研發(fā)資源和技術(shù)支持。加入這些公司不僅有機(jī)會學(xué)習(xí)最新的技術(shù),
還能拓展人脈并獲取更多職業(yè)機(jī)遇。此外,行業(yè)巨頭公司的坐落也帶動了周邊
的生態(tài)環(huán)境和基礎(chǔ)設(shè)施建設(shè),例如公共交通、娛樂設(shè)施等,為個人提供更加便
利的工作和生活條件??傊?,這些因素共同促進(jìn)了這些地方的繁榮和發(fā)展,成
為吸引人才和推動個人職業(yè)發(fā)展的重要因素之一。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.2依據(jù)淘車二手車中各個城市二手車平均價格進(jìn)行統(tǒng)計與分析
圖5-4數(shù)據(jù)展示頁面
從圖5-4中得出各個城市二手車平均價格為9.25萬,
最高的為12萬最低的為7萬,因此如果想購買較為便宜的二手車用戶可以
選擇去平均價格較低的地區(qū)進(jìn)行選購。無經(jīng)濟(jì)壓力的則可按需選購。
此外,可以在成本較低的地區(qū)開展二手車交易以獲取更多利潤。二手車價
格低說明需求量小。價格高則說明供不應(yīng)求。在圖上可以看到,展示的車輛均
為二手車中數(shù)量最多的幾個型號,這也從一個側(cè)面反映出市場中對于車輛數(shù)量
和種類分布的影響。對此,我們需要了解市場信息和趨勢,做出準(zhǔn)確決策。此
外需要注意的是,盡管這些二手車輛價格較低,但仍需要全面檢測和評估。二
手車存在的一些潛在問題需要我們在購買前進(jìn)行充分了解和咨詢,以免出現(xiàn)后
悔的情況。同樣地,售二手車時,須了解市場情況??偟膩碚f,對于二手車市
場的了解和分析是進(jìn)行購買和銷售的重要前提,無論是從個人還是商業(yè)角度來
看,都具有重要的價值和意義。
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.3依據(jù)淘車二手車數(shù)量前五占比區(qū)間進(jìn)行統(tǒng)計和分析
圖5-5數(shù)據(jù)展示頁面
從圖5-5中可以得知哈弗H6和紅旗H7的占比的最多的。在圖上可以看到,
展示的車輛均為二手車中數(shù)量最多的幾個型號。二手車市場是一個充滿機(jī)遇和
風(fēng)險的市場,其車輛數(shù)量和種類分布對市場影響非常大。因此,為了做出準(zhǔn)確
的決策,我們需要了解更多的市場信息和趨勢。盡管二手車價格相對較低,但
購買前仍需要進(jìn)行全面的檢測和評估,以確保所購買的車輛能夠長期使用且符
合需求。此外,在出售二手車時,了解市場情況也顯得非常重要,這能夠幫助
我們更好地定價和推廣二手車。綜上所述,對于二手車市場的了解和分析是進(jìn)
行購買和銷售的重要前提,無論是從個人還是商業(yè)角度來看,都具有重要的價
值和意義。
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計
5.2.4依據(jù)淘車二手車?yán)锍陶急葏^(qū)間進(jìn)行統(tǒng)計與分析
圖5-6數(shù)據(jù)展示頁面
五個區(qū)間為0-5萬、5-10萬、10-15萬、15-20萬、20萬以上,其中0-5
萬最多,5-10萬其次。購買二手車時,通常關(guān)注新舊程度和里程數(shù)。里程數(shù)能
很好地反映車輛的使用情況和磨損程度,因此成為了二手車新舊程度的重要指
標(biāo)之一。一般而言,里程數(shù)低的車輛通常被認(rèn)為比里程數(shù)高的車輛更加新,更
有保值性。所以,在選擇購買二手車時,我們應(yīng)當(dāng)了解并評估該車的里程數(shù),
以判斷其真實價值和是否具有購買的價值。此外,需要注意的是,即使車輛里
程數(shù)低,仍需要進(jìn)行全面的檢測和評估,以避免購買到存在潛在問題的車輛。
對于出售二手車的人而言,及時更新里程數(shù)記錄以及提供真實信息也是非常重
要的,可以提高車輛的銷售價值和信譽(yù)度。因此,在二手車交易中,了解里程
數(shù)的意義和作用是非常重要的一部分。
5.3綜述
綜上,根據(jù)淘車二手車網(wǎng)站數(shù)據(jù)顯示:
第一,二手車數(shù)量最多的為北京,這可能與北京的經(jīng)濟(jì)水平和人口密集程
度等因素有關(guān),導(dǎo)致該地區(qū)的二手車市場格外活躍。對于購買和出售二手車的
人而言,了解北京市場的需求和價格走勢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 靜脈治療安全管理制度
- 預(yù)防動脈硬化宣教
- 2025版癲癇發(fā)作常見癥狀及護(hù)理禁忌
- 酒店客房實訓(xùn)總結(jié)
- 智能家電產(chǎn)品介紹
- 星空之謎梵高水粉課件
- 中建安全實訓(xùn)答辯
- 急性心肌梗死護(hù)理管理培訓(xùn)指南
- 易簡系統(tǒng)課件
- 2025版類風(fēng)濕性關(guān)節(jié)炎的癥狀及護(hù)理要點
- 數(shù)據(jù)庫應(yīng)用技術(shù)-004-國開機(jī)考復(fù)習(xí)資料
- 手衛(wèi)生執(zhí)行率PDCA案例實施分析
- 病理學(xué)考試練習(xí)題庫及答案
- 2025年新高考1卷(新課標(biāo)Ⅰ卷)語文試卷
- 2025-2030中國女鞋行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025至2030中國物理氣相沉積(PVD)設(shè)備行業(yè)行情監(jiān)測與發(fā)展動向追蹤報告
- 2025年中國EP級蓖麻油行業(yè)市場前景預(yù)測及投資價值評估分析報告
- 散酒采購合同協(xié)議
- 工控網(wǎng)管理制度
- 大學(xué)英語四級考試2024年12月真題(第一套)Part II Listening Comprehension
- 測量年終工作總結(jié)
評論
0/150
提交評論