版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開(kāi)發(fā)環(huán)境與工具..........................................................................................1
1.2.1Python簡(jiǎn)介..........................................................................................1
1.2.2JupyterNotebook簡(jiǎn)介......................................................................2
1.2.3Python第三方庫(kù)簡(jiǎn)介..........................................................................2
2需求分析....................................................................................................................2
2.1可行性需求分析..........................................................................................2
2.2采集目標(biāo)功能分析......................................................................................3
2.3關(guān)鍵技術(shù)分析..............................................................................................3
2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù).......................................................................................3
2.3.2文件存取技術(shù).......................................................................................4
2.3.3可視化技術(shù)...........................................................................................4
3數(shù)據(jù)采集....................................................................................................................4
3.1采集頁(yè)面分析..............................................................................................4
3.2字段分析......................................................................................................6
3.3編程實(shí)現(xiàn)......................................................................................................7
4數(shù)據(jù)清洗與處理........................................................................................................8
4.1數(shù)據(jù)清洗......................................................................................................8
4.2數(shù)據(jù)儲(chǔ)存......................................................................................................8
5數(shù)據(jù)統(tǒng)計(jì)與分析........................................................................................................9
5.1數(shù)據(jù)準(zhǔn)備......................................................................................................9
5.2數(shù)據(jù)展示......................................................................................................9
5.2.1Top10城市目的地分析........................................................................9
5.2.2費(fèi)用統(tǒng)計(jì)圖及分析...............................................................................11
5.2.3出游方式分析.......................................................................................12
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.4出游玩法分析.......................................................................................13
5.3統(tǒng)計(jì)分析小結(jié)............................................................................................14
6總結(jié).............................................................................................................................14
參考資料.........................................................................................................................16
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
攜程網(wǎng)景點(diǎn)數(shù)據(jù)采集與分析
1引言
當(dāng)今互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)被譽(yù)為"新石油",它具有重要的商業(yè)價(jià)值和應(yīng)用前景。
對(duì)于在線旅游行業(yè)而言,攜程網(wǎng)作為中國(guó)領(lǐng)先的旅游在線服務(wù)商,其數(shù)據(jù)更是具
有重要的價(jià)值。數(shù)據(jù)采集和分析是了解攜程網(wǎng)的競(jìng)爭(zhēng)對(duì)手、市場(chǎng)需求和用戶(hù)行
為的重要手段。
而Python作為一種高效、靈活且易于學(xué)習(xí)的編程語(yǔ)言,被廣泛應(yīng)用于數(shù)據(jù)
采集、處理和分析領(lǐng)域。本文將基于Python語(yǔ)言,以攜程網(wǎng)為例,介紹數(shù)據(jù)采集
和分析的基本流程,旨在了解如何運(yùn)用Python工具采集和分析攜程網(wǎng)的數(shù)據(jù)。
1.1項(xiàng)目背景
隨著旅游業(yè)的快速發(fā)展,攜程網(wǎng)成為了中國(guó)領(lǐng)先的在線旅游服務(wù)商之一。在
攜程網(wǎng)上,用戶(hù)可以通過(guò)平臺(tái)預(yù)訂機(jī)票、酒店、旅游團(tuán)等各種旅游產(chǎn)品。然而,
攜程網(wǎng)作為一個(gè)大型在線旅游服務(wù)平臺(tái),其網(wǎng)站上包含了大量的信息和數(shù)據(jù),如
酒店信息、機(jī)票信息、景點(diǎn)評(píng)價(jià)、用戶(hù)評(píng)價(jià)等。如何通過(guò)這些數(shù)據(jù)來(lái)分析用戶(hù)
需求、預(yù)測(cè)市場(chǎng)趨勢(shì),以及提高攜程網(wǎng)的服務(wù)質(zhì)量,成為了一個(gè)重要的問(wèn)題。
因此,本項(xiàng)目旨在通過(guò)采集攜程網(wǎng)的景點(diǎn)數(shù)據(jù),分析其用戶(hù)行為、市場(chǎng)趨勢(shì)
等信息,以便更好地了解攜程網(wǎng)的競(jìng)爭(zhēng)優(yōu)勢(shì)和未來(lái)發(fā)展趨勢(shì)。本項(xiàng)目將基于
Python語(yǔ)言,利用Python的相關(guān)工具和庫(kù)對(duì)攜程網(wǎng)數(shù)據(jù)進(jìn)行采集和分析,通過(guò)
對(duì)數(shù)據(jù)的清洗、統(tǒng)計(jì)和可視化,來(lái)提取有價(jià)值的信息,并為攜程網(wǎng)的業(yè)務(wù)決策提
供參考依據(jù)。
1.2開(kāi)發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
Python是一種高級(jí)編程語(yǔ)言,由荷蘭計(jì)算機(jī)科學(xué)家GuidovanRossum在
1989年圣誕節(jié)期間開(kāi)始設(shè)計(jì),1991年首次公開(kāi)發(fā)布。Python的設(shè)計(jì)哲學(xué)是簡(jiǎn)單
易學(xué)、可讀性強(qiáng)、代碼簡(jiǎn)潔、代碼風(fēng)格統(tǒng)一等,因此非常適合初學(xué)者學(xué)習(xí)和使用。
Python具有廣泛的應(yīng)用領(lǐng)域,如Web開(kāi)發(fā)、數(shù)據(jù)分析、人工智能、科學(xué)計(jì)算等。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
1.2.2JupyterNotebook簡(jiǎn)介
JupyterNotebook是一種基于Web的交互式計(jì)算環(huán)境,支持多種編程語(yǔ)言
Python、R和Julia等的代碼編寫(xiě)、文本標(biāo)記和數(shù)據(jù)可視化。它的名字來(lái)源于三
種編程語(yǔ)言:Julia、Python和REPL(Read-Eval-PrintLoop)。
JupyterNotebook通過(guò)一個(gè)Web應(yīng)用程序提供交互式環(huán)境,用戶(hù)可以在其中
創(chuàng)建、編輯和共享Notebook文檔。每個(gè)Notebook文檔由一系列的Cell組成,
每個(gè)Cell可以包含可執(zhí)行的代碼、Markdown文本或其他富文本元素。主要特點(diǎn)
包括多語(yǔ)言支持、數(shù)據(jù)可視化、可共享性等,是一個(gè)非常流行的工具,廣泛應(yīng)用
于數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、科學(xué)計(jì)算等領(lǐng)域。它可以幫助用戶(hù)更方便地進(jìn)行交互
式計(jì)算、可視化數(shù)據(jù)、分享分析結(jié)果等。
1.2.3Python第三方庫(kù)簡(jiǎn)介
requests是最友好的網(wǎng)絡(luò)爬蟲(chóng)功能庫(kù),是Python實(shí)現(xiàn)的簡(jiǎn)單易用的HTTP
庫(kù),使用起來(lái)比urllib更簡(jiǎn)潔很多,Python第三方庫(kù)在使用前要先進(jìn)行安裝。
re是正則表達(dá)式解析和處理功能庫(kù),里面包含了多種字符串匹配的方法。
CSV屬于Python中的內(nèi)置模塊,它能夠讀取csv格式的文件或者將數(shù)據(jù)存
入到csv表格中。并且csv文件是表格和數(shù)據(jù)庫(kù)中常見(jiàn)的文件操作格式。
NumPy庫(kù)是Python數(shù)據(jù)分析的基礎(chǔ),是處理數(shù)組的Python庫(kù),NumPy庫(kù)的
數(shù)據(jù)結(jié)構(gòu)比Python自帶的更加高效。
pandas是數(shù)據(jù)分析并保存為csv文件,Python數(shù)據(jù)分析高層次應(yīng)用庫(kù),還
可以進(jìn)行數(shù)據(jù)清洗。
Pyecharts是繪圖庫(kù),主要是偏向于二維繪圖包括折線圖、條形圖、箱型圖、
散點(diǎn)圖等等。
Wordcloud是生成中文詞云的。
Pylab是它能設(shè)置畫(huà)圖讓其能顯示中文。
2需求分析
2.1可行性需求分析
1.技術(shù)可行性
Python是一門(mén)非常簡(jiǎn)單的腳本語(yǔ)言,提供了非常完善的代碼庫(kù),這次項(xiàng)目
就是利用Python語(yǔ)言來(lái)實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)可視化。在數(shù)據(jù)采集時(shí)
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
其中有部分?jǐn)?shù)據(jù)需要登錄才能獲取,對(duì)于需要登錄獲取的數(shù)據(jù)利用Python的
BeautifulSoup和Scrapy等框架就可解決。數(shù)據(jù)處理過(guò)程目標(biāo)網(wǎng)站數(shù)據(jù)規(guī)模比
較大需要清洗,利用Python的Pandas和Numpy等工具就能解決。數(shù)據(jù)可視化
過(guò)程考慮到后續(xù)分析等問(wèn)題,Python提供了很多可視化分析的庫(kù),可以很好地
幫到我們。
以上為本次項(xiàng)目的技術(shù)可行性,我也將在后續(xù)步驟中逐步實(shí)現(xiàn),以此保證數(shù)
據(jù)的準(zhǔn)確性。
2.項(xiàng)目可行性
近年來(lái),隨著我國(guó)人民生活水平的不斷提高,我國(guó)旅游行業(yè)不斷發(fā)展,各式
各樣的旅游層出不窮,特別是今年疫情放開(kāi)之后關(guān)于節(jié)假日旅游熱門(mén)話題的討
論一直沒(méi)有斷絕過(guò),每次一打開(kāi)微博熱搜榜都是關(guān)于旅游的話題。
本次項(xiàng)目通過(guò)采集全國(guó)比較有名的景點(diǎn)數(shù)據(jù),來(lái)分析我國(guó)旅游熱門(mén)話題信
息。我們也將從人均費(fèi)用、出行方式、出游玩法等方面對(duì)其進(jìn)行深度分析,得出
更有用的信息,將其通過(guò)可視化得出最后的結(jié)論與記錄。
2.2采集目標(biāo)功能分析
本次項(xiàng)目的數(shù)據(jù)集的來(lái)源是攜程旅游網(wǎng)站,是通過(guò)python爬取攜程旅游網(wǎng)
的景點(diǎn)信息,通過(guò)數(shù)據(jù)分析處理清洗后共520條記錄。爬取完成后盡可能地與網(wǎng)
站的數(shù)據(jù)進(jìn)行對(duì)比檢查,確定爬取出來(lái)的準(zhǔn)確無(wú)誤并且是屬于攜程旅游網(wǎng)站上
的。
通過(guò)分析攜程旅游網(wǎng)上的景點(diǎn)信息,明確我們需要爬取的景點(diǎn)參數(shù)有地點(diǎn)、
出發(fā)時(shí)間、天數(shù)、人均消費(fèi)、任務(wù)、玩法、瀏覽量等數(shù)據(jù)。在對(duì)這些原始數(shù)據(jù)
進(jìn)行預(yù)處理后,我們會(huì)對(duì)其數(shù)據(jù)進(jìn)行多個(gè)維度的分析。分別是從費(fèi)用統(tǒng)計(jì)圖對(duì)其
進(jìn)行分析、從出游方式對(duì)其進(jìn)行分析、從出游玩法對(duì)其進(jìn)行分析,看看哪個(gè)景
點(diǎn)更受歡迎一些。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
在我們學(xué)習(xí)和工作的過(guò)程中瀏覽網(wǎng)頁(yè)通常都會(huì)遇到把數(shù)據(jù)下載到本地保存
的情況,當(dāng)數(shù)量比較少的時(shí)候我們可以自己用比較簡(jiǎn)單的方式比如手動(dòng)下載的
方式保存數(shù)據(jù)至本地,有時(shí)候遇到數(shù)據(jù)量比較多的情況時(shí),這時(shí)候再像少的情況
那樣采取手動(dòng)下載的方式就非常不好,弊端很大,所以這時(shí)候我們就會(huì)利用網(wǎng)絡(luò)
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
爬蟲(chóng)的方式來(lái)爬取網(wǎng)頁(yè)上的數(shù)據(jù)并下載保存至本地。
網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是指利用程序自動(dòng)化地從互聯(lián)網(wǎng)上獲取信息的一種技術(shù)。網(wǎng)
絡(luò)爬蟲(chóng)的英文即WebSpider,所以網(wǎng)絡(luò)爬蟲(chóng)也被稱(chēng)為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人等,
它可以自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并提取數(shù)據(jù),如文本、圖片、視頻、音頻等,
然后將這些數(shù)據(jù)保存到本地或遠(yuǎn)程服務(wù)器上。爬蟲(chóng)技術(shù)是信息獲取和數(shù)據(jù)挖掘
的重要手段之一。
在實(shí)際應(yīng)用中,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)常常被用于數(shù)據(jù)采集、搜索引擎、輿情監(jiān)測(cè)、
競(jìng)品分析等領(lǐng)域。
2.3.2文件存取技術(shù)
Python提供了許多文件存取技術(shù),例如CSV模塊,如圖2-1所示:
圖2-1python內(nèi)置CSV模塊
2.3.3可視化技術(shù)
Python提供了多種可視化庫(kù),可以用于處理和展示數(shù)據(jù)。下面是一些常用
的數(shù)據(jù)可視化庫(kù):
Pyecharts庫(kù)是Python中最常用的數(shù)據(jù)可視化庫(kù)之一,它可以生成各種類(lèi)
型的圖表,包括線圖、散點(diǎn)圖、直方圖、餅圖等,并且提供了豐富的配置選項(xiàng)
來(lái)控制圖表的樣式和內(nèi)容,本次項(xiàng)目利用Pyecharts就可以很好地將數(shù)據(jù)呈現(xiàn)
出來(lái),將呈現(xiàn)地?cái)?shù)據(jù)進(jìn)行分析就可得出結(jié)論。
3數(shù)據(jù)采集
3.1采集頁(yè)面分析
我們首先通過(guò)谷歌瀏覽器搜索攜程旅游網(wǎng)官方網(wǎng)頁(yè),然后找到酒店目錄集
頁(yè)面觀察圖3-1所示,其中URL為:/cn
然后點(diǎn)擊頁(yè)面下方的分頁(yè)按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL沒(méi)有變化。
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面
按F12調(diào)出開(kāi)發(fā)者工具,刷新頁(yè)面,如圖3-2所示。
圖3-2開(kāi)發(fā)者工具
利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開(kāi)發(fā)者工具上面的Headers字
段,分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)POST請(qǐng)求,那我們需要尋找它的的
formdata往下翻找,在最后找到了表單數(shù)據(jù)FormData,如圖3-3所示。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-3FormData
3.2字段分析
使用瀏覽器的開(kāi)發(fā)者工具(例如Chrome的開(kāi)發(fā)者工具)可以查看目標(biāo)網(wǎng)頁(yè)
的HTML結(jié)構(gòu),如圖3-4所示,確定需要爬取的內(nèi)容所在的標(biāo)簽和屬性。
根據(jù)目標(biāo)網(wǎng)頁(yè)的結(jié)構(gòu),確定需要爬取的字段,例如酒店名稱(chēng)、酒店地址、
酒店評(píng)分、房間類(lèi)型、價(jià)格等。
攜程網(wǎng)的搜索結(jié)果頁(yè)和酒店詳情頁(yè)的URL是動(dòng)態(tài)生成的,需要分析URL的
參數(shù)和格式,確定如何構(gòu)造URL來(lái)獲取需要的數(shù)據(jù)。
使用Python的爬蟲(chóng)庫(kù)(例如Requests、BeautifulSoup、Scrapy等)來(lái)編
寫(xiě)爬蟲(chóng)代碼,發(fā)送請(qǐng)求獲取網(wǎng)頁(yè)內(nèi)容,解析網(wǎng)頁(yè)結(jié)構(gòu),提取需要的字段,并保
存到本地或數(shù)據(jù)庫(kù)中。
圖3-4分析數(shù)據(jù)類(lèi)型頁(yè)面
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
3.3編程實(shí)現(xiàn)
導(dǎo)入編寫(xiě)代碼所需要庫(kù),如圖3-5所示
圖3-5導(dǎo)入所需庫(kù)頁(yè)面
設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問(wèn)服務(wù)器,如圖3-6所示
圖3-6請(qǐng)求頭內(nèi)容頁(yè)面
編寫(xiě)解析網(wǎng)頁(yè)的代碼,如圖3-7,3-8所示
圖3-7解析網(wǎng)頁(yè)代碼
圖3-8解析網(wǎng)頁(yè)頁(yè)面
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4數(shù)據(jù)清洗與處理
獲得龐大的數(shù)據(jù)集之后我們需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和
檢查,確定爬取過(guò)來(lái)的數(shù)據(jù)是否存在無(wú)效值和確實(shí)值,要保證數(shù)據(jù)的一致性,這
個(gè)對(duì)于信息質(zhì)量的評(píng)估是一項(xiàng)很重要的任務(wù)。不僅如此,我們需要將數(shù)據(jù)進(jìn)行有
理化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享過(guò)程中方便很多開(kāi)發(fā)人員對(duì)數(shù)據(jù)信
息的使用。
本次項(xiàng)目中我們需要將爬下來(lái)的數(shù)據(jù)和網(wǎng)頁(yè)原數(shù)據(jù)進(jìn)行比對(duì),并且檢查是
否出現(xiàn)空值、錯(cuò)值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對(duì)數(shù)據(jù)進(jìn)
行不同的處理。
4.1數(shù)據(jù)清洗
經(jīng)過(guò)比對(duì)和檢查,發(fā)現(xiàn)數(shù)據(jù)存在空值,那么要做的就是將空值項(xiàng)在編寫(xiě)代碼
時(shí)添加異常捕獲,將其空值賦予“未標(biāo)明”來(lái)設(shè)置。然后整理為原網(wǎng)頁(yè)格式存
入csv文件中,保存作為統(tǒng)計(jì)分析、可視化使用,如圖4-1所示。
圖4-1獲取數(shù)據(jù)頁(yè)面
4.2數(shù)據(jù)儲(chǔ)存
數(shù)據(jù)的儲(chǔ)存方法有很多種,例如JSON,CSV,TXT文本格式等,本次項(xiàng)目因?yàn)?/p>
考慮到爬取的數(shù)據(jù)量的原因所以我們用到的是CSV。
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入需要用到的庫(kù),并使用pandas加載源數(shù)據(jù),如圖5-1所示
圖5-1數(shù)據(jù)加載頁(yè)面
5.2數(shù)據(jù)展示
5.2.1Top10城市目的地分析
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-2目的地top10展示圖
如圖5-2所示,可以看出攜程網(wǎng)網(wǎng)站top10目的地城市數(shù)量最多的還屬于
三亞,其次就是成都,拉薩和上海等地的占比很少。為何數(shù)量相差如此之大?
其實(shí)這目的地的選擇很大程度上取決于很多因素,比如氣候條件、地理位
置、季節(jié)、節(jié)假日等。其中影響最大的因素當(dāng)還是屬氣候條件。在廣大游客出
發(fā)去目的地之前都會(huì)關(guān)注目的地的氣候條件,看那里氣候是否涼爽宜人,適合
旅游,三亞就是一個(gè)很好的例子,三亞地處熱帶地區(qū),又靠近海邊,氣候非常
涼爽宜人,很適合作為旅游目的地的選擇,其他那些目的地靠近內(nèi)陸地區(qū),相
比于三亞來(lái)講還是要熱一些,自然去那些地方的游客相對(duì)來(lái)講就會(huì)少一些。
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2費(fèi)用統(tǒng)計(jì)圖及分析
圖5-3費(fèi)用統(tǒng)計(jì)圖分析頁(yè)面
如圖5-3所示,三亞是一座位于中國(guó)南部的熱帶海濱城市,以其美麗的海
灘、溫暖的氣候和豪華的度假村而聞名。以下是三亞的各個(gè)景點(diǎn)的人均酒店費(fèi)
用:亞龍灣景區(qū)大約需要1000元-3000元人民幣。這里有高端的酒店和度假村,
如三亞亞龍灣洲際度假酒店、三亞瑞吉度假酒店等。天涯海角景區(qū)大約需要600
元-1500元人民幣。這里有一些中高檔酒店,如三亞天涯海角喜來(lái)登度假酒店、
三亞海角樂(lè)居度假酒店等。南山文化旅游區(qū)大約需要500元-1000元人民幣。
這里有一些中檔酒店,如三亞南山喜來(lái)登度假酒店、三亞南山開(kāi)元森泊度假酒
店等。瓊海市大約需要300元-800元人民幣。這里有一些經(jīng)濟(jì)型酒店和民宿,
如瓊海市城區(qū)的旅店、海頭鎮(zhèn)的民宿等。
成都是中國(guó)西南地區(qū)的一座歷史文化名城,以其美食、文化和旅游景點(diǎn)而
著名。以下是成都的各個(gè)景點(diǎn)的人均酒店費(fèi)用:錦里古街大約需要300元-1000
元人民幣。這里有一些中高檔酒店和客棧,如成都春熙路喜來(lái)登酒店、成都東
方飯店等。寬窄巷子大約需要200元-800元人民幣。這里有一些中檔酒店和客
棧,如成都寬窄巷子錦都酒店、成都九眼橋快捷酒店等。文殊院大約需要100
元-500元人民幣。這里有一些經(jīng)濟(jì)型酒店和客棧,如成都文殊院花園酒店、成
都蜀都源快捷酒店等。
綜上所述,三亞的酒店費(fèi)用較高,多為高檔酒店和度假村;成都的酒店費(fèi)
用相對(duì)較低,多為中檔酒店和客棧;上海的酒店費(fèi)用較為均衡,有各種檔次的
酒店。當(dāng)然,具體費(fèi)用還受季節(jié)、節(jié)假日、地理位置等因素影響。
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.3出游方式分析
圖5-4出游方式分析頁(yè)面
如圖5-4所示,可以看出不同出游方式的比例分布情況。其中,三五好友
出行占比最高,達(dá)到了37%,其次是獨(dú)自一人出行,占18%;家庭出行和情侶出
行占比都為14%,相對(duì)較為平均。親子出行和閨蜜出行占比分別為9%和6%,學(xué)
生出行占比最少,只有0.4%。
從這些數(shù)據(jù)中可以看出,好友出行是當(dāng)前最為流行的出行方式,占比最高,
這可能與年輕人的生活方式和社交習(xí)慣有關(guān),年輕人更愿意和自己的朋友一起
探索新的地方,享受旅途中的快樂(lè)時(shí)光。同時(shí),獨(dú)自一人出行也有不少的支持
者,這也反映出現(xiàn)代人注重獨(dú)立和自主的價(jià)值觀。而家庭出行和情侶出行的占
比相對(duì)較高,這反映出人們?cè)谏钪腥匀蛔⒅丶彝ズ桶閭H關(guān)系,希望在旅途中
能夠和親人或伴侶共同創(chuàng)造美好的回憶。相對(duì)而言,親子出行和學(xué)生出行的占
比相對(duì)較少,這可能與這些人群的時(shí)間和經(jīng)濟(jì)狀況有關(guān)。
針對(duì)這些出行方式的占比情況,不同的旅游公司或景點(diǎn)可以根據(jù)自己的目
標(biāo)受眾來(lái)進(jìn)行針對(duì)性的宣傳和營(yíng)銷(xiāo)。比如,對(duì)于想要吸引好友出行的景點(diǎn),可
以提供一些趣味性質(zhì)的項(xiàng)目和優(yōu)惠活動(dòng),讓年輕人感受到旅游的樂(lè)趣;對(duì)于希
望吸引情侶和家庭出行的景點(diǎn),可以提供浪漫、溫馨的服務(wù)和活動(dòng),讓他們?cè)?/p>
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
旅途中享受到幸福和歡樂(lè)。此外,對(duì)于獨(dú)自一人出行的旅游產(chǎn)品和服務(wù),可以
提供一些個(gè)性化的定制和特殊的關(guān)注,讓他們感受到獨(dú)特和貼心的服務(wù)。綜上
所述,根據(jù)不同出行方式的占比情況,旅游行業(yè)可以更好地針對(duì)目標(biāo)受眾進(jìn)行
營(yíng)銷(xiāo)和服務(wù),創(chuàng)造更多的商業(yè)機(jī)會(huì)和價(jià)值。
5.2.4出游玩法分析
圖5-5出游玩法分析頁(yè)面
如圖5-5所示,可以看出在出游玩法中,沒(méi)有想法的人占比最高,達(dá)到了118,
其次是短期周末出游,占比為9%;自駕出游和攝影出游的占比相對(duì)較少,分別
為13%和7%。
首先,值得注意的是,沒(méi)有想法的出游者占比最高,這也反映出一部分人
對(duì)于出游的期望和需求不明確,需要更多的信息和啟發(fā)來(lái)尋找合適的出游方式
和目的地。這也提醒旅游行業(yè),要加強(qiáng)目的地和出游方式的推廣,提供更多的
旅游信息和建議,讓出游者能夠更好地了解目的地的特點(diǎn)和文化,從而選擇更
適合自己的出游方式。
其次,短途周末出游的占比也比較高,這也反映出現(xiàn)代人快節(jié)奏的生活節(jié)
奏和工作壓力。對(duì)于這部分人,旅游行業(yè)可以提供更加輕松、便捷的出游方式
和產(chǎn)品,如周邊游、短途旅游等,滿(mǎn)足他們對(duì)于放松和休閑的需求。
另外,自駕和攝影出游的占比相對(duì)較少,這可能與這些出游方式需要較高
的技能或資金投入有關(guān)。對(duì)于這部分出游者,旅游行業(yè)可以提供一些專(zhuān)業(yè)的服
務(wù)和支持,如租賃攝影設(shè)備、提供攝影導(dǎo)游等,讓出游者能夠更好地享受到自
駕和攝影出游的樂(lè)趣和體驗(yàn)。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.3統(tǒng)計(jì)分析小結(jié)
綜上,在本次項(xiàng)目中,我使用Python編程語(yǔ)言爬取并分析了攜程網(wǎng)的旅游
產(chǎn)品信息。在項(xiàng)目的初期,我使用了Requests和BeautifulSoup等庫(kù)來(lái)爬取攜
程網(wǎng)的網(wǎng)頁(yè)信息,并通過(guò)對(duì)網(wǎng)頁(yè)源代碼的分析,找出了需要爬取的數(shù)據(jù)所在的
HTML標(biāo)簽。我使用正則表達(dá)式來(lái)進(jìn)一步提取需要的數(shù)據(jù),包括旅游產(chǎn)品的名稱(chēng)、
價(jià)格、出發(fā)日期、行程天數(shù)、出發(fā)城市和目的地城市等信息。
隨著爬蟲(chóng)程序的不斷運(yùn)行,我發(fā)現(xiàn)攜程網(wǎng)有反爬蟲(chóng)機(jī)制,導(dǎo)致程序被封IP。
為了解決這個(gè)問(wèn)題,我采用了IP代理池和請(qǐng)求頭偽裝等技術(shù),成功地繞過(guò)了攜
程網(wǎng)的反爬蟲(chóng)機(jī)制。
在獲取數(shù)據(jù)后,我使用了Pandas和Pyecharts等庫(kù)來(lái)對(duì)數(shù)據(jù)進(jìn)行處理和可
視化。我使用Pandas將數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)框,方便對(duì)數(shù)據(jù)進(jìn)行分析和處理。然后,
我使用Pyecharts將數(shù)據(jù)可視化,包括繪制折線圖、柱狀圖和餅圖等,以便更
直觀地了解數(shù)據(jù)的特征和趨勢(shì)。
通過(guò)對(duì)數(shù)據(jù)的分析,我發(fā)現(xiàn)攜程網(wǎng)上的旅游產(chǎn)品價(jià)格與出行日期和行程天
數(shù)等因素存在一定的關(guān)聯(lián)性,而不同目的地城市之間的旅游產(chǎn)品價(jià)格差異也比
較明顯。此外,我還發(fā)現(xiàn)攜程網(wǎng)上旅游產(chǎn)品的名稱(chēng)和出行日期等信息可能存在
一定的錯(cuò)誤和重復(fù),需要在數(shù)據(jù)處理和清洗時(shí)進(jìn)行一定的篩選和去重操作。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 國(guó)慶-大學(xué)活動(dòng)策劃方案(3篇)
- 施工進(jìn)度管理及控制制度
- 罕見(jiàn)血液病患者的營(yíng)養(yǎng)支持方案
- 2026廣東佛山市順德區(qū)順盛投資開(kāi)發(fā)有限公司招聘1人備考題庫(kù)及完整答案詳解一套
- 甘肅省武威市第二中學(xué) 2026屆英語(yǔ)高三上期末達(dá)標(biāo)測(cè)試試題含解析
- 2026上半年貴州事業(yè)單位聯(lián)考大方縣招聘210人備考題庫(kù)及答案詳解(考點(diǎn)梳理)
- 銷(xiāo)售部回款規(guī)定制度
- 2025浙江寧波文旅會(huì)展集團(tuán)有限公司招聘9人備考題庫(kù)及完整答案詳解一套
- 農(nóng)村小學(xué)食堂財(cái)務(wù)制度
- 家用電器財(cái)務(wù)制度范本
- 農(nóng)村土地永久性轉(zhuǎn)讓合同
- 中建市政道路施工組織設(shè)計(jì)方案
- 財(cái)務(wù)先進(jìn)個(gè)人代表演講稿
- 年度得到 · 沈祖蕓全球教育報(bào)告(2024-2025)
- DB23T 2689-2020養(yǎng)老機(jī)構(gòu)院內(nèi)感染預(yù)防控制規(guī)范
- 2025屆天津市和平區(qū)名校高三最后一模語(yǔ)文試題含解析
- 專(zhuān)業(yè)律師服務(wù)合同書(shū)樣本
- 建筑施工現(xiàn)場(chǎng)污水處理措施方案
- 學(xué)生計(jì)算錯(cuò)誤原因分析及對(duì)策
- DB32T 4398-2022《建筑物掏土糾偏技術(shù)標(biāo)準(zhǔn)》
- 送貨單格式模板
評(píng)論
0/150
提交評(píng)論