攜程旅游網(wǎng)景點(diǎn)數(shù)據(jù)采集與分析_第1頁(yè)
攜程旅游網(wǎng)景點(diǎn)數(shù)據(jù)采集與分析_第2頁(yè)
攜程旅游網(wǎng)景點(diǎn)數(shù)據(jù)采集與分析_第3頁(yè)
攜程旅游網(wǎng)景點(diǎn)數(shù)據(jù)采集與分析_第4頁(yè)
攜程旅游網(wǎng)景點(diǎn)數(shù)據(jù)采集與分析_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開(kāi)發(fā)環(huán)境與工具..........................................................................................1

1.2.1Python簡(jiǎn)介..........................................................................................1

1.2.2JupyterNotebook簡(jiǎn)介......................................................................2

1.2.3Python第三方庫(kù)簡(jiǎn)介..........................................................................2

2需求分析....................................................................................................................2

2.1可行性需求分析..........................................................................................2

2.2采集目標(biāo)功能分析......................................................................................3

2.3關(guān)鍵技術(shù)分析..............................................................................................3

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù).......................................................................................3

2.3.2文件存取技術(shù).......................................................................................4

2.3.3可視化技術(shù)...........................................................................................4

3數(shù)據(jù)采集....................................................................................................................4

3.1采集頁(yè)面分析..............................................................................................4

3.2字段分析......................................................................................................6

3.3編程實(shí)現(xiàn)......................................................................................................7

4數(shù)據(jù)清洗與處理........................................................................................................8

4.1數(shù)據(jù)清洗......................................................................................................8

4.2數(shù)據(jù)儲(chǔ)存......................................................................................................8

5數(shù)據(jù)統(tǒng)計(jì)與分析........................................................................................................9

5.1數(shù)據(jù)準(zhǔn)備......................................................................................................9

5.2數(shù)據(jù)展示......................................................................................................9

5.2.1Top10城市目的地分析........................................................................9

5.2.2費(fèi)用統(tǒng)計(jì)圖及分析...............................................................................11

5.2.3出游方式分析.......................................................................................12

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.4出游玩法分析.......................................................................................13

5.3統(tǒng)計(jì)分析小結(jié)............................................................................................14

6總結(jié).............................................................................................................................14

參考資料.........................................................................................................................16

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

攜程網(wǎng)景點(diǎn)數(shù)據(jù)采集與分析

1引言

當(dāng)今互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)被譽(yù)為"新石油",它具有重要的商業(yè)價(jià)值和應(yīng)用前景。

對(duì)于在線旅游行業(yè)而言,攜程網(wǎng)作為中國(guó)領(lǐng)先的旅游在線服務(wù)商,其數(shù)據(jù)更是具

有重要的價(jià)值。數(shù)據(jù)采集和分析是了解攜程網(wǎng)的競(jìng)爭(zhēng)對(duì)手、市場(chǎng)需求和用戶(hù)行

為的重要手段。

而Python作為一種高效、靈活且易于學(xué)習(xí)的編程語(yǔ)言,被廣泛應(yīng)用于數(shù)據(jù)

采集、處理和分析領(lǐng)域。本文將基于Python語(yǔ)言,以攜程網(wǎng)為例,介紹數(shù)據(jù)采集

和分析的基本流程,旨在了解如何運(yùn)用Python工具采集和分析攜程網(wǎng)的數(shù)據(jù)。

1.1項(xiàng)目背景

隨著旅游業(yè)的快速發(fā)展,攜程網(wǎng)成為了中國(guó)領(lǐng)先的在線旅游服務(wù)商之一。在

攜程網(wǎng)上,用戶(hù)可以通過(guò)平臺(tái)預(yù)訂機(jī)票、酒店、旅游團(tuán)等各種旅游產(chǎn)品。然而,

攜程網(wǎng)作為一個(gè)大型在線旅游服務(wù)平臺(tái),其網(wǎng)站上包含了大量的信息和數(shù)據(jù),如

酒店信息、機(jī)票信息、景點(diǎn)評(píng)價(jià)、用戶(hù)評(píng)價(jià)等。如何通過(guò)這些數(shù)據(jù)來(lái)分析用戶(hù)

需求、預(yù)測(cè)市場(chǎng)趨勢(shì),以及提高攜程網(wǎng)的服務(wù)質(zhì)量,成為了一個(gè)重要的問(wèn)題。

因此,本項(xiàng)目旨在通過(guò)采集攜程網(wǎng)的景點(diǎn)數(shù)據(jù),分析其用戶(hù)行為、市場(chǎng)趨勢(shì)

等信息,以便更好地了解攜程網(wǎng)的競(jìng)爭(zhēng)優(yōu)勢(shì)和未來(lái)發(fā)展趨勢(shì)。本項(xiàng)目將基于

Python語(yǔ)言,利用Python的相關(guān)工具和庫(kù)對(duì)攜程網(wǎng)數(shù)據(jù)進(jìn)行采集和分析,通過(guò)

對(duì)數(shù)據(jù)的清洗、統(tǒng)計(jì)和可視化,來(lái)提取有價(jià)值的信息,并為攜程網(wǎng)的業(yè)務(wù)決策提

供參考依據(jù)。

1.2開(kāi)發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

Python是一種高級(jí)編程語(yǔ)言,由荷蘭計(jì)算機(jī)科學(xué)家GuidovanRossum在

1989年圣誕節(jié)期間開(kāi)始設(shè)計(jì),1991年首次公開(kāi)發(fā)布。Python的設(shè)計(jì)哲學(xué)是簡(jiǎn)單

易學(xué)、可讀性強(qiáng)、代碼簡(jiǎn)潔、代碼風(fēng)格統(tǒng)一等,因此非常適合初學(xué)者學(xué)習(xí)和使用。

Python具有廣泛的應(yīng)用領(lǐng)域,如Web開(kāi)發(fā)、數(shù)據(jù)分析、人工智能、科學(xué)計(jì)算等。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

1.2.2JupyterNotebook簡(jiǎn)介

JupyterNotebook是一種基于Web的交互式計(jì)算環(huán)境,支持多種編程語(yǔ)言

Python、R和Julia等的代碼編寫(xiě)、文本標(biāo)記和數(shù)據(jù)可視化。它的名字來(lái)源于三

種編程語(yǔ)言:Julia、Python和REPL(Read-Eval-PrintLoop)。

JupyterNotebook通過(guò)一個(gè)Web應(yīng)用程序提供交互式環(huán)境,用戶(hù)可以在其中

創(chuàng)建、編輯和共享Notebook文檔。每個(gè)Notebook文檔由一系列的Cell組成,

每個(gè)Cell可以包含可執(zhí)行的代碼、Markdown文本或其他富文本元素。主要特點(diǎn)

包括多語(yǔ)言支持、數(shù)據(jù)可視化、可共享性等,是一個(gè)非常流行的工具,廣泛應(yīng)用

于數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、科學(xué)計(jì)算等領(lǐng)域。它可以幫助用戶(hù)更方便地進(jìn)行交互

式計(jì)算、可視化數(shù)據(jù)、分享分析結(jié)果等。

1.2.3Python第三方庫(kù)簡(jiǎn)介

requests是最友好的網(wǎng)絡(luò)爬蟲(chóng)功能庫(kù),是Python實(shí)現(xiàn)的簡(jiǎn)單易用的HTTP

庫(kù),使用起來(lái)比urllib更簡(jiǎn)潔很多,Python第三方庫(kù)在使用前要先進(jìn)行安裝。

re是正則表達(dá)式解析和處理功能庫(kù),里面包含了多種字符串匹配的方法。

CSV屬于Python中的內(nèi)置模塊,它能夠讀取csv格式的文件或者將數(shù)據(jù)存

入到csv表格中。并且csv文件是表格和數(shù)據(jù)庫(kù)中常見(jiàn)的文件操作格式。

NumPy庫(kù)是Python數(shù)據(jù)分析的基礎(chǔ),是處理數(shù)組的Python庫(kù),NumPy庫(kù)的

數(shù)據(jù)結(jié)構(gòu)比Python自帶的更加高效。

pandas是數(shù)據(jù)分析并保存為csv文件,Python數(shù)據(jù)分析高層次應(yīng)用庫(kù),還

可以進(jìn)行數(shù)據(jù)清洗。

Pyecharts是繪圖庫(kù),主要是偏向于二維繪圖包括折線圖、條形圖、箱型圖、

散點(diǎn)圖等等。

Wordcloud是生成中文詞云的。

Pylab是它能設(shè)置畫(huà)圖讓其能顯示中文。

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

Python是一門(mén)非常簡(jiǎn)單的腳本語(yǔ)言,提供了非常完善的代碼庫(kù),這次項(xiàng)目

就是利用Python語(yǔ)言來(lái)實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)可視化。在數(shù)據(jù)采集時(shí)

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

其中有部分?jǐn)?shù)據(jù)需要登錄才能獲取,對(duì)于需要登錄獲取的數(shù)據(jù)利用Python的

BeautifulSoup和Scrapy等框架就可解決。數(shù)據(jù)處理過(guò)程目標(biāo)網(wǎng)站數(shù)據(jù)規(guī)模比

較大需要清洗,利用Python的Pandas和Numpy等工具就能解決。數(shù)據(jù)可視化

過(guò)程考慮到后續(xù)分析等問(wèn)題,Python提供了很多可視化分析的庫(kù),可以很好地

幫到我們。

以上為本次項(xiàng)目的技術(shù)可行性,我也將在后續(xù)步驟中逐步實(shí)現(xiàn),以此保證數(shù)

據(jù)的準(zhǔn)確性。

2.項(xiàng)目可行性

近年來(lái),隨著我國(guó)人民生活水平的不斷提高,我國(guó)旅游行業(yè)不斷發(fā)展,各式

各樣的旅游層出不窮,特別是今年疫情放開(kāi)之后關(guān)于節(jié)假日旅游熱門(mén)話題的討

論一直沒(méi)有斷絕過(guò),每次一打開(kāi)微博熱搜榜都是關(guān)于旅游的話題。

本次項(xiàng)目通過(guò)采集全國(guó)比較有名的景點(diǎn)數(shù)據(jù),來(lái)分析我國(guó)旅游熱門(mén)話題信

息。我們也將從人均費(fèi)用、出行方式、出游玩法等方面對(duì)其進(jìn)行深度分析,得出

更有用的信息,將其通過(guò)可視化得出最后的結(jié)論與記錄。

2.2采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來(lái)源是攜程旅游網(wǎng)站,是通過(guò)python爬取攜程旅游網(wǎng)

的景點(diǎn)信息,通過(guò)數(shù)據(jù)分析處理清洗后共520條記錄。爬取完成后盡可能地與網(wǎng)

站的數(shù)據(jù)進(jìn)行對(duì)比檢查,確定爬取出來(lái)的準(zhǔn)確無(wú)誤并且是屬于攜程旅游網(wǎng)站上

的。

通過(guò)分析攜程旅游網(wǎng)上的景點(diǎn)信息,明確我們需要爬取的景點(diǎn)參數(shù)有地點(diǎn)、

出發(fā)時(shí)間、天數(shù)、人均消費(fèi)、任務(wù)、玩法、瀏覽量等數(shù)據(jù)。在對(duì)這些原始數(shù)據(jù)

進(jìn)行預(yù)處理后,我們會(huì)對(duì)其數(shù)據(jù)進(jìn)行多個(gè)維度的分析。分別是從費(fèi)用統(tǒng)計(jì)圖對(duì)其

進(jìn)行分析、從出游方式對(duì)其進(jìn)行分析、從出游玩法對(duì)其進(jìn)行分析,看看哪個(gè)景

點(diǎn)更受歡迎一些。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

在我們學(xué)習(xí)和工作的過(guò)程中瀏覽網(wǎng)頁(yè)通常都會(huì)遇到把數(shù)據(jù)下載到本地保存

的情況,當(dāng)數(shù)量比較少的時(shí)候我們可以自己用比較簡(jiǎn)單的方式比如手動(dòng)下載的

方式保存數(shù)據(jù)至本地,有時(shí)候遇到數(shù)據(jù)量比較多的情況時(shí),這時(shí)候再像少的情況

那樣采取手動(dòng)下載的方式就非常不好,弊端很大,所以這時(shí)候我們就會(huì)利用網(wǎng)絡(luò)

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

爬蟲(chóng)的方式來(lái)爬取網(wǎng)頁(yè)上的數(shù)據(jù)并下載保存至本地。

網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是指利用程序自動(dòng)化地從互聯(lián)網(wǎng)上獲取信息的一種技術(shù)。網(wǎng)

絡(luò)爬蟲(chóng)的英文即WebSpider,所以網(wǎng)絡(luò)爬蟲(chóng)也被稱(chēng)為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人等,

它可以自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并提取數(shù)據(jù),如文本、圖片、視頻、音頻等,

然后將這些數(shù)據(jù)保存到本地或遠(yuǎn)程服務(wù)器上。爬蟲(chóng)技術(shù)是信息獲取和數(shù)據(jù)挖掘

的重要手段之一。

在實(shí)際應(yīng)用中,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)常常被用于數(shù)據(jù)采集、搜索引擎、輿情監(jiān)測(cè)、

競(jìng)品分析等領(lǐng)域。

2.3.2文件存取技術(shù)

Python提供了許多文件存取技術(shù),例如CSV模塊,如圖2-1所示:

圖2-1python內(nèi)置CSV模塊

2.3.3可視化技術(shù)

Python提供了多種可視化庫(kù),可以用于處理和展示數(shù)據(jù)。下面是一些常用

的數(shù)據(jù)可視化庫(kù):

Pyecharts庫(kù)是Python中最常用的數(shù)據(jù)可視化庫(kù)之一,它可以生成各種類(lèi)

型的圖表,包括線圖、散點(diǎn)圖、直方圖、餅圖等,并且提供了豐富的配置選項(xiàng)

來(lái)控制圖表的樣式和內(nèi)容,本次項(xiàng)目利用Pyecharts就可以很好地將數(shù)據(jù)呈現(xiàn)

出來(lái),將呈現(xiàn)地?cái)?shù)據(jù)進(jìn)行分析就可得出結(jié)論。

3數(shù)據(jù)采集

3.1采集頁(yè)面分析

我們首先通過(guò)谷歌瀏覽器搜索攜程旅游網(wǎng)官方網(wǎng)頁(yè),然后找到酒店目錄集

頁(yè)面觀察圖3-1所示,其中URL為:/cn

然后點(diǎn)擊頁(yè)面下方的分頁(yè)按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL沒(méi)有變化。

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面

按F12調(diào)出開(kāi)發(fā)者工具,刷新頁(yè)面,如圖3-2所示。

圖3-2開(kāi)發(fā)者工具

利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開(kāi)發(fā)者工具上面的Headers字

段,分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)POST請(qǐng)求,那我們需要尋找它的的

formdata往下翻找,在最后找到了表單數(shù)據(jù)FormData,如圖3-3所示。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-3FormData

3.2字段分析

使用瀏覽器的開(kāi)發(fā)者工具(例如Chrome的開(kāi)發(fā)者工具)可以查看目標(biāo)網(wǎng)頁(yè)

的HTML結(jié)構(gòu),如圖3-4所示,確定需要爬取的內(nèi)容所在的標(biāo)簽和屬性。

根據(jù)目標(biāo)網(wǎng)頁(yè)的結(jié)構(gòu),確定需要爬取的字段,例如酒店名稱(chēng)、酒店地址、

酒店評(píng)分、房間類(lèi)型、價(jià)格等。

攜程網(wǎng)的搜索結(jié)果頁(yè)和酒店詳情頁(yè)的URL是動(dòng)態(tài)生成的,需要分析URL的

參數(shù)和格式,確定如何構(gòu)造URL來(lái)獲取需要的數(shù)據(jù)。

使用Python的爬蟲(chóng)庫(kù)(例如Requests、BeautifulSoup、Scrapy等)來(lái)編

寫(xiě)爬蟲(chóng)代碼,發(fā)送請(qǐng)求獲取網(wǎng)頁(yè)內(nèi)容,解析網(wǎng)頁(yè)結(jié)構(gòu),提取需要的字段,并保

存到本地或數(shù)據(jù)庫(kù)中。

圖3-4分析數(shù)據(jù)類(lèi)型頁(yè)面

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3.3編程實(shí)現(xiàn)

導(dǎo)入編寫(xiě)代碼所需要庫(kù),如圖3-5所示

圖3-5導(dǎo)入所需庫(kù)頁(yè)面

設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問(wèn)服務(wù)器,如圖3-6所示

圖3-6請(qǐng)求頭內(nèi)容頁(yè)面

編寫(xiě)解析網(wǎng)頁(yè)的代碼,如圖3-7,3-8所示

圖3-7解析網(wǎng)頁(yè)代碼

圖3-8解析網(wǎng)頁(yè)頁(yè)面

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

獲得龐大的數(shù)據(jù)集之后我們需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,也就是所謂的清洗和

檢查,確定爬取過(guò)來(lái)的數(shù)據(jù)是否存在無(wú)效值和確實(shí)值,要保證數(shù)據(jù)的一致性,這

個(gè)對(duì)于信息質(zhì)量的評(píng)估是一項(xiàng)很重要的任務(wù)。不僅如此,我們需要將數(shù)據(jù)進(jìn)行有

理化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享過(guò)程中方便很多開(kāi)發(fā)人員對(duì)數(shù)據(jù)信

息的使用。

本次項(xiàng)目中我們需要將爬下來(lái)的數(shù)據(jù)和網(wǎng)頁(yè)原數(shù)據(jù)進(jìn)行比對(duì),并且檢查是

否出現(xiàn)空值、錯(cuò)值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對(duì)數(shù)據(jù)進(jìn)

行不同的處理。

4.1數(shù)據(jù)清洗

經(jīng)過(guò)比對(duì)和檢查,發(fā)現(xiàn)數(shù)據(jù)存在空值,那么要做的就是將空值項(xiàng)在編寫(xiě)代碼

時(shí)添加異常捕獲,將其空值賦予“未標(biāo)明”來(lái)設(shè)置。然后整理為原網(wǎng)頁(yè)格式存

入csv文件中,保存作為統(tǒng)計(jì)分析、可視化使用,如圖4-1所示。

圖4-1獲取數(shù)據(jù)頁(yè)面

4.2數(shù)據(jù)儲(chǔ)存

數(shù)據(jù)的儲(chǔ)存方法有很多種,例如JSON,CSV,TXT文本格式等,本次項(xiàng)目因?yàn)?/p>

考慮到爬取的數(shù)據(jù)量的原因所以我們用到的是CSV。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入需要用到的庫(kù),并使用pandas加載源數(shù)據(jù),如圖5-1所示

圖5-1數(shù)據(jù)加載頁(yè)面

5.2數(shù)據(jù)展示

5.2.1Top10城市目的地分析

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-2目的地top10展示圖

如圖5-2所示,可以看出攜程網(wǎng)網(wǎng)站top10目的地城市數(shù)量最多的還屬于

三亞,其次就是成都,拉薩和上海等地的占比很少。為何數(shù)量相差如此之大?

其實(shí)這目的地的選擇很大程度上取決于很多因素,比如氣候條件、地理位

置、季節(jié)、節(jié)假日等。其中影響最大的因素當(dāng)還是屬氣候條件。在廣大游客出

發(fā)去目的地之前都會(huì)關(guān)注目的地的氣候條件,看那里氣候是否涼爽宜人,適合

旅游,三亞就是一個(gè)很好的例子,三亞地處熱帶地區(qū),又靠近海邊,氣候非常

涼爽宜人,很適合作為旅游目的地的選擇,其他那些目的地靠近內(nèi)陸地區(qū),相

比于三亞來(lái)講還是要熱一些,自然去那些地方的游客相對(duì)來(lái)講就會(huì)少一些。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2費(fèi)用統(tǒng)計(jì)圖及分析

圖5-3費(fèi)用統(tǒng)計(jì)圖分析頁(yè)面

如圖5-3所示,三亞是一座位于中國(guó)南部的熱帶海濱城市,以其美麗的海

灘、溫暖的氣候和豪華的度假村而聞名。以下是三亞的各個(gè)景點(diǎn)的人均酒店費(fèi)

用:亞龍灣景區(qū)大約需要1000元-3000元人民幣。這里有高端的酒店和度假村,

如三亞亞龍灣洲際度假酒店、三亞瑞吉度假酒店等。天涯海角景區(qū)大約需要600

元-1500元人民幣。這里有一些中高檔酒店,如三亞天涯海角喜來(lái)登度假酒店、

三亞海角樂(lè)居度假酒店等。南山文化旅游區(qū)大約需要500元-1000元人民幣。

這里有一些中檔酒店,如三亞南山喜來(lái)登度假酒店、三亞南山開(kāi)元森泊度假酒

店等。瓊海市大約需要300元-800元人民幣。這里有一些經(jīng)濟(jì)型酒店和民宿,

如瓊海市城區(qū)的旅店、海頭鎮(zhèn)的民宿等。

成都是中國(guó)西南地區(qū)的一座歷史文化名城,以其美食、文化和旅游景點(diǎn)而

著名。以下是成都的各個(gè)景點(diǎn)的人均酒店費(fèi)用:錦里古街大約需要300元-1000

元人民幣。這里有一些中高檔酒店和客棧,如成都春熙路喜來(lái)登酒店、成都東

方飯店等。寬窄巷子大約需要200元-800元人民幣。這里有一些中檔酒店和客

棧,如成都寬窄巷子錦都酒店、成都九眼橋快捷酒店等。文殊院大約需要100

元-500元人民幣。這里有一些經(jīng)濟(jì)型酒店和客棧,如成都文殊院花園酒店、成

都蜀都源快捷酒店等。

綜上所述,三亞的酒店費(fèi)用較高,多為高檔酒店和度假村;成都的酒店費(fèi)

用相對(duì)較低,多為中檔酒店和客棧;上海的酒店費(fèi)用較為均衡,有各種檔次的

酒店。當(dāng)然,具體費(fèi)用還受季節(jié)、節(jié)假日、地理位置等因素影響。

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3出游方式分析

圖5-4出游方式分析頁(yè)面

如圖5-4所示,可以看出不同出游方式的比例分布情況。其中,三五好友

出行占比最高,達(dá)到了37%,其次是獨(dú)自一人出行,占18%;家庭出行和情侶出

行占比都為14%,相對(duì)較為平均。親子出行和閨蜜出行占比分別為9%和6%,學(xué)

生出行占比最少,只有0.4%。

從這些數(shù)據(jù)中可以看出,好友出行是當(dāng)前最為流行的出行方式,占比最高,

這可能與年輕人的生活方式和社交習(xí)慣有關(guān),年輕人更愿意和自己的朋友一起

探索新的地方,享受旅途中的快樂(lè)時(shí)光。同時(shí),獨(dú)自一人出行也有不少的支持

者,這也反映出現(xiàn)代人注重獨(dú)立和自主的價(jià)值觀。而家庭出行和情侶出行的占

比相對(duì)較高,這反映出人們?cè)谏钪腥匀蛔⒅丶彝ズ桶閭H關(guān)系,希望在旅途中

能夠和親人或伴侶共同創(chuàng)造美好的回憶。相對(duì)而言,親子出行和學(xué)生出行的占

比相對(duì)較少,這可能與這些人群的時(shí)間和經(jīng)濟(jì)狀況有關(guān)。

針對(duì)這些出行方式的占比情況,不同的旅游公司或景點(diǎn)可以根據(jù)自己的目

標(biāo)受眾來(lái)進(jìn)行針對(duì)性的宣傳和營(yíng)銷(xiāo)。比如,對(duì)于想要吸引好友出行的景點(diǎn),可

以提供一些趣味性質(zhì)的項(xiàng)目和優(yōu)惠活動(dòng),讓年輕人感受到旅游的樂(lè)趣;對(duì)于希

望吸引情侶和家庭出行的景點(diǎn),可以提供浪漫、溫馨的服務(wù)和活動(dòng),讓他們?cè)?/p>

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

旅途中享受到幸福和歡樂(lè)。此外,對(duì)于獨(dú)自一人出行的旅游產(chǎn)品和服務(wù),可以

提供一些個(gè)性化的定制和特殊的關(guān)注,讓他們感受到獨(dú)特和貼心的服務(wù)。綜上

所述,根據(jù)不同出行方式的占比情況,旅游行業(yè)可以更好地針對(duì)目標(biāo)受眾進(jìn)行

營(yíng)銷(xiāo)和服務(wù),創(chuàng)造更多的商業(yè)機(jī)會(huì)和價(jià)值。

5.2.4出游玩法分析

圖5-5出游玩法分析頁(yè)面

如圖5-5所示,可以看出在出游玩法中,沒(méi)有想法的人占比最高,達(dá)到了118,

其次是短期周末出游,占比為9%;自駕出游和攝影出游的占比相對(duì)較少,分別

為13%和7%。

首先,值得注意的是,沒(méi)有想法的出游者占比最高,這也反映出一部分人

對(duì)于出游的期望和需求不明確,需要更多的信息和啟發(fā)來(lái)尋找合適的出游方式

和目的地。這也提醒旅游行業(yè),要加強(qiáng)目的地和出游方式的推廣,提供更多的

旅游信息和建議,讓出游者能夠更好地了解目的地的特點(diǎn)和文化,從而選擇更

適合自己的出游方式。

其次,短途周末出游的占比也比較高,這也反映出現(xiàn)代人快節(jié)奏的生活節(jié)

奏和工作壓力。對(duì)于這部分人,旅游行業(yè)可以提供更加輕松、便捷的出游方式

和產(chǎn)品,如周邊游、短途旅游等,滿(mǎn)足他們對(duì)于放松和休閑的需求。

另外,自駕和攝影出游的占比相對(duì)較少,這可能與這些出游方式需要較高

的技能或資金投入有關(guān)。對(duì)于這部分出游者,旅游行業(yè)可以提供一些專(zhuān)業(yè)的服

務(wù)和支持,如租賃攝影設(shè)備、提供攝影導(dǎo)游等,讓出游者能夠更好地享受到自

駕和攝影出游的樂(lè)趣和體驗(yàn)。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.3統(tǒng)計(jì)分析小結(jié)

綜上,在本次項(xiàng)目中,我使用Python編程語(yǔ)言爬取并分析了攜程網(wǎng)的旅游

產(chǎn)品信息。在項(xiàng)目的初期,我使用了Requests和BeautifulSoup等庫(kù)來(lái)爬取攜

程網(wǎng)的網(wǎng)頁(yè)信息,并通過(guò)對(duì)網(wǎng)頁(yè)源代碼的分析,找出了需要爬取的數(shù)據(jù)所在的

HTML標(biāo)簽。我使用正則表達(dá)式來(lái)進(jìn)一步提取需要的數(shù)據(jù),包括旅游產(chǎn)品的名稱(chēng)、

價(jià)格、出發(fā)日期、行程天數(shù)、出發(fā)城市和目的地城市等信息。

隨著爬蟲(chóng)程序的不斷運(yùn)行,我發(fā)現(xiàn)攜程網(wǎng)有反爬蟲(chóng)機(jī)制,導(dǎo)致程序被封IP。

為了解決這個(gè)問(wèn)題,我采用了IP代理池和請(qǐng)求頭偽裝等技術(shù),成功地繞過(guò)了攜

程網(wǎng)的反爬蟲(chóng)機(jī)制。

在獲取數(shù)據(jù)后,我使用了Pandas和Pyecharts等庫(kù)來(lái)對(duì)數(shù)據(jù)進(jìn)行處理和可

視化。我使用Pandas將數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)框,方便對(duì)數(shù)據(jù)進(jìn)行分析和處理。然后,

我使用Pyecharts將數(shù)據(jù)可視化,包括繪制折線圖、柱狀圖和餅圖等,以便更

直觀地了解數(shù)據(jù)的特征和趨勢(shì)。

通過(guò)對(duì)數(shù)據(jù)的分析,我發(fā)現(xiàn)攜程網(wǎng)上的旅游產(chǎn)品價(jià)格與出行日期和行程天

數(shù)等因素存在一定的關(guān)聯(lián)性,而不同目的地城市之間的旅游產(chǎn)品價(jià)格差異也比

較明顯。此外,我還發(fā)現(xiàn)攜程網(wǎng)上旅游產(chǎn)品的名稱(chēng)和出行日期等信息可能存在

一定的錯(cuò)誤和重復(fù),需要在數(shù)據(jù)處理和清洗時(shí)進(jìn)行一定的篩選和去重操作。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論