基于Python的攜程網(wǎng)酒店數(shù)據(jù)采集與分析_第1頁(yè)
基于Python的攜程網(wǎng)酒店數(shù)據(jù)采集與分析_第2頁(yè)
基于Python的攜程網(wǎng)酒店數(shù)據(jù)采集與分析_第3頁(yè)
基于Python的攜程網(wǎng)酒店數(shù)據(jù)采集與分析_第4頁(yè)
基于Python的攜程網(wǎng)酒店數(shù)據(jù)采集與分析_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1緒論..............................................................1

1.1項(xiàng)目背景.....................................................1

1.2項(xiàng)目的目的與意義.............................................1

1.2.1項(xiàng)目目的................................................1

1.2.2項(xiàng)目意義................................................2

1.3開發(fā)環(huán)境與工具...............................................2

1.3.1Python簡(jiǎn)介..............................................2

1.3.2Jupyternotebook簡(jiǎn)介....................................2

1.3.3Tableau簡(jiǎn)介.............................................2

2需求與分析........................................................3

2.1可行性需求分析................................................3

2.2數(shù)據(jù)采集目標(biāo)功能分析..........................................3

2.3關(guān)鍵數(shù)據(jù)信息分析..............................................4

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)............................................4

2.3.2文件存儲(chǔ)存取技術(shù)........................................4

2.3.3可視化技術(shù)..............................................5

3數(shù)據(jù)與采集........................................................5

3.1采集頁(yè)面分析..................................................5

3.2字段分析......................................................7

3.3編程的實(shí)現(xiàn)....................................................8

4數(shù)據(jù)清洗與處理...................................................10

4.1數(shù)據(jù)清洗.....................................................10

4.2數(shù)據(jù)存儲(chǔ).....................................................12

5數(shù)據(jù)統(tǒng)計(jì)與分析...................................................13

5.1數(shù)據(jù)準(zhǔn)備.....................................................13

5.2數(shù)據(jù)展示與分析...............................................14

5.2.1依據(jù)價(jià)格功能售賣點(diǎn)進(jìn)行統(tǒng)計(jì)與分析.......................14

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2依據(jù)酒店評(píng)分進(jìn)行統(tǒng)計(jì)與分析.............................15

5.2.3依據(jù)攜程網(wǎng)酒店價(jià)格進(jìn)行統(tǒng)計(jì)與分析.......................16

5.2.4前10熱評(píng)酒店數(shù)據(jù)統(tǒng)計(jì)與分析............................17

5.2.5前600家酒店星級(jí)數(shù)據(jù)統(tǒng)計(jì)與分析.........................18

5.2.6酒店售賣點(diǎn)詞云分析.....................................19

5.3綜述.........................................................20

6小結(jié).............................................................21

參考文獻(xiàn)............................................................22

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

基于Python的攜程網(wǎng)酒店數(shù)據(jù)采集與分析

1緒論

在互聯(lián)網(wǎng)時(shí)代,酒店行業(yè)的競(jìng)爭(zhēng)愈加激烈,酒店間的競(jìng)爭(zhēng)也已經(jīng)從傳統(tǒng)的價(jià)

格、服務(wù)和硬件的競(jìng)爭(zhēng),發(fā)展到了一個(gè)更加關(guān)注消費(fèi)者需求、關(guān)注用戶體驗(yàn)的時(shí)

代。因此處理有效信息獲取問(wèn)題的復(fù)雜度也會(huì)大大增加。而大數(shù)據(jù)處理技術(shù)的應(yīng)

用將能夠快速、方便、靈活地解決這類應(yīng)用問(wèn)題。

酒店行業(yè)的數(shù)據(jù)分析已成為各個(gè)酒店經(jīng)營(yíng)決策不可或缺的重要部分,而數(shù)據(jù)

采集則是進(jìn)行大數(shù)據(jù)分析的前提和基礎(chǔ)。

基于大數(shù)據(jù)分析的技術(shù)發(fā)展與趨勢(shì),本項(xiàng)目通過(guò)數(shù)據(jù)采集軟件對(duì)某互聯(lián)網(wǎng)平

臺(tái)上收錄的酒店信息進(jìn)行實(shí)時(shí)抓取,并對(duì)所抓取數(shù)據(jù)進(jìn)行清洗、整合和分析,從

而為酒店經(jīng)營(yíng)管理提供有價(jià)值的數(shù)據(jù)支持。

1.1項(xiàng)目背景

隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為衡量企業(yè)經(jīng)營(yíng)效率、產(chǎn)品和服

務(wù)質(zhì)量的重要標(biāo)準(zhǔn)之一,酒店業(yè)作為服務(wù)密集型行業(yè),也面臨著大數(shù)據(jù)帶來(lái)的挑

戰(zhàn)。酒店要實(shí)現(xiàn)信息化管理和智慧化發(fā)展,需要對(duì)各類數(shù)據(jù)進(jìn)行有效的采集和分

析。

同時(shí)我國(guó)經(jīng)濟(jì)的快速發(fā)展,中國(guó)的酒店業(yè)也得到了快速的發(fā)展。據(jù)統(tǒng)計(jì),從

2002年至2013年,我國(guó)酒店行業(yè)總體數(shù)量從14.9萬(wàn)家增長(zhǎng)到了41.4萬(wàn)家,客房

數(shù)量從834.4萬(wàn)間增長(zhǎng)到了3067.3萬(wàn)間。伴隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,酒店行業(yè)

也面臨著市場(chǎng)競(jìng)爭(zhēng)不斷加劇、酒店間入住率下降、價(jià)格競(jìng)爭(zhēng)日趨激烈、客戶需求

多樣化等問(wèn)題。因此,酒店行業(yè)迫切需要利用高新互聯(lián)網(wǎng)技術(shù)以此來(lái)提高自身競(jìng)

爭(zhēng)力、拓展新的盈利空間。

1.2項(xiàng)目的目的與意義

1.2.1項(xiàng)目目的

傳統(tǒng)酒店行業(yè)在經(jīng)營(yíng)管理中存在著很多弊端,例如管理流程繁瑣、服務(wù)效率

低下、員工積極性不高等問(wèn)題,這些問(wèn)題嚴(yán)重影響了酒店的服務(wù)質(zhì)量和顧客滿意

度,限制了酒店的發(fā)展。而互聯(lián)網(wǎng)技術(shù)的應(yīng)用能夠改變酒店行業(yè)的商業(yè)模式,提

高酒店的管理效率,提高客戶滿意度。通過(guò)互聯(lián)網(wǎng)技術(shù)對(duì)酒店進(jìn)行數(shù)據(jù)采集與分

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

析,能夠及時(shí)了解客戶需求并進(jìn)行相應(yīng)的調(diào)整和改進(jìn)。從而可以更好地滿足客戶

需求,提高酒店競(jìng)爭(zhēng)力。

1.2.2項(xiàng)目意義

大數(shù)據(jù)對(duì)酒店行業(yè)的影響酒店可以通過(guò)互聯(lián)網(wǎng)向消費(fèi)者提供他們所需的服務(wù)。

通過(guò)對(duì)互聯(lián)網(wǎng)技術(shù)在傳統(tǒng)酒店業(yè)中的應(yīng)用進(jìn)行研究分析可以更好地幫助酒店行業(yè)

進(jìn)行管理改進(jìn),促進(jìn)其發(fā)展。同時(shí)對(duì)于其他行業(yè)來(lái)說(shuō),對(duì)互聯(lián)網(wǎng)技術(shù)在傳統(tǒng)酒店

業(yè)中的應(yīng)用研究也具有重要的借鑒意義。

此外酒店行業(yè)在互聯(lián)網(wǎng)時(shí)代,需要積極利用互聯(lián)網(wǎng)技術(shù)來(lái)提高管理水平和服

務(wù)質(zhì)量。酒店通過(guò)大數(shù)據(jù)采集與分析,可以有效地改善客戶體驗(yàn),提升客戶滿意

度。通過(guò)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)采集與分析的研究,有利于促進(jìn)酒店行業(yè)的可持續(xù)發(fā)展。

1.3開發(fā)環(huán)境與工具

1.3.1Python簡(jiǎn)介

Python是一種計(jì)算機(jī)編程語(yǔ)言,具有強(qiáng)大的功能,在全世界范圍內(nèi)有大量的

用戶使用Python,它可以用來(lái)編寫腳本程序,也可以用來(lái)做數(shù)據(jù)處理、Web應(yīng)用

程序、游戲和科學(xué)計(jì)算等。Python是一種解釋型語(yǔ)言,它通過(guò)聲明式的代碼實(shí)現(xiàn),

在語(yǔ)法上類似于C語(yǔ)言。Python也是一種動(dòng)態(tài)類型語(yǔ)言,它使用內(nèi)置函數(shù)來(lái)處理

數(shù)據(jù)。

1.3.2Jupyternotebook簡(jiǎn)介

Jupyternotebook是一個(gè)可以為用戶提供記錄和分享知識(shí)的平臺(tái)。Jupyter

notebook的內(nèi)容來(lái)源于用戶的分享,并且可以將其分為三個(gè)部分:知識(shí),內(nèi)容來(lái)

自于用戶日常生活中遇到的問(wèn)題,例如:如何解決問(wèn)題,如何分析問(wèn)題。在這里,

你可以找到一個(gè)或多個(gè)解決辦法。經(jīng)驗(yàn),是用戶成功經(jīng)驗(yàn)的集合,包含了一些成

功的項(xiàng)目和失敗的項(xiàng)目。其中包括在工作中遇到過(guò)的問(wèn)題、經(jīng)驗(yàn)分享、分析失敗

原因等。知識(shí)管理,主要內(nèi)容是通過(guò)收集大量來(lái)自用戶、同行以及專家們對(duì)某一

領(lǐng)域的見(jiàn)解和建議來(lái)進(jìn)行知識(shí)組織和整理。這里也包括一些工具類產(chǎn)品。

1.3.3Tableau簡(jiǎn)介

Tableau是一款功能強(qiáng)大的在線報(bào)表平臺(tái),可以幫助企業(yè)快速的完成數(shù)據(jù)收集、

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

數(shù)據(jù)分析和數(shù)據(jù)可視化。Tableau是一個(gè)完全可定制、靈活易用的在線報(bào)表平臺(tái),

它允許企業(yè)將其數(shù)據(jù)與其他應(yīng)用程序集成,以提供交互式數(shù)據(jù)分析和查詢。

此外,Tableau還可以進(jìn)行數(shù)據(jù)的全面收集,數(shù)據(jù)的靈活分析,Tableau可以

提供強(qiáng)大的數(shù)據(jù)分析功能。同時(shí)還具有靈活的交互式數(shù)據(jù)查詢和數(shù)據(jù)可視化的功

能。

2需求與分析

2.1可行性需求分析

1、項(xiàng)目可行性

酒店數(shù)據(jù)收集技術(shù)一直是酒店業(yè)及旅游業(yè)最關(guān)注的領(lǐng)域,因?yàn)樗苯雨P(guān)系到

酒店的成本、利潤(rùn)和競(jìng)爭(zhēng)力。在這樣的情況下,消費(fèi)者可以更加直觀透明的去選

擇酒店。以大數(shù)據(jù)為基礎(chǔ)的酒店管理系統(tǒng)和數(shù)據(jù)平臺(tái)開始嶄露頭角,同時(shí)也出現(xiàn)

了更多新產(chǎn)品或服務(wù)形態(tài)以迎合客戶對(duì)酒店個(gè)性化、高質(zhì)量管理服務(wù)的需求,來(lái)

達(dá)到提高消費(fèi)者市場(chǎng)滿意度的這樣一個(gè)效果,來(lái)提高消費(fèi)者對(duì)于酒店選擇的一個(gè)

甄選度。

2、技術(shù)可行性

Python是一門面向?qū)ο笳Z(yǔ)言中通俗易懂的計(jì)算機(jī)編程語(yǔ)言,在本次項(xiàng)目中會(huì)

用到Python的網(wǎng)絡(luò)爬蟲技術(shù)、文件存儲(chǔ)技術(shù)、以及數(shù)據(jù)可視化技術(shù),其中最為重

要的就是數(shù)據(jù)可視化技術(shù)。

在第一階段中的數(shù)據(jù)收集過(guò)程中,用到了網(wǎng)絡(luò)爬蟲技術(shù),另外在數(shù)據(jù)收集過(guò)

程中通過(guò)抓包分析攜程網(wǎng)長(zhǎng)沙區(qū)域酒店的信息頁(yè)面是動(dòng)態(tài)的,因此本項(xiàng)目需要通

過(guò)瀏覽器來(lái)獲取請(qǐng)求和參數(shù)。

在第二階段中,所用到的有數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理以及文件存儲(chǔ)技術(shù)。例如

對(duì)收集到的多個(gè)數(shù)據(jù)庫(kù)進(jìn)行匹配以確保數(shù)據(jù)庫(kù)中沒(méi)有相同格式的字段,處理完后

再對(duì)通過(guò)文件系統(tǒng)對(duì)文件進(jìn)行存儲(chǔ)存取。

在第三階段中,用到了數(shù)據(jù)可視化技術(shù),通過(guò)前面對(duì)數(shù)據(jù)的清洗、整合、存

儲(chǔ),數(shù)據(jù)可視化技術(shù)就是將數(shù)據(jù)圖表化,能夠使圖表表達(dá)具象化,可以使文字表

達(dá)變得簡(jiǎn)潔化,化抽象為具體。數(shù)據(jù)圖表化的優(yōu)點(diǎn)是便于突出重點(diǎn),可以把問(wèn)題

的重點(diǎn)有效地表達(dá)。

2.2數(shù)據(jù)采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來(lái)源是攜程網(wǎng)站,是通過(guò)python爬取攜程網(wǎng)長(zhǎng)沙區(qū)域

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

600家酒店品牌的信息。數(shù)據(jù)清洗后共600條記錄,爬取完成后盡可能地檢查數(shù)據(jù)

地準(zhǔn)確性,確定爬取出來(lái)的數(shù)據(jù)無(wú)誤并且是屬于攜程網(wǎng)實(shí)時(shí)存在的酒店數(shù)據(jù)信息。

分析攜程網(wǎng)站網(wǎng)頁(yè)信息,明確本項(xiàng)目需要爬取的酒店數(shù)據(jù)參數(shù)有受歡迎程度,

價(jià)格占比區(qū)間,星級(jí)占比數(shù)據(jù),點(diǎn)評(píng)量數(shù)據(jù),標(biāo)簽詞云數(shù)據(jù),酒店評(píng)分?jǐn)?shù)據(jù)等。

在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后本項(xiàng)目會(huì)對(duì)其數(shù)據(jù)進(jìn)行多個(gè)維度的分析。例如,從長(zhǎng)沙

區(qū)域的酒店數(shù)量對(duì)其進(jìn)行分析,分析高價(jià)酒店和平價(jià)酒店的占比。又或者想要得到

長(zhǎng)沙區(qū)域所有酒店品牌在近兩年的入住率,那么本項(xiàng)目就可以根據(jù)點(diǎn)評(píng)量去統(tǒng)計(jì)

每年的入住率,查看入住率是隨時(shí)間上升還是下降。

2.3關(guān)鍵數(shù)據(jù)信息分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

1.網(wǎng)站數(shù)據(jù)分析技術(shù)

網(wǎng)絡(luò)爬蟲是通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容或網(wǎng)站結(jié)構(gòu)的分析,并對(duì)其進(jìn)行采集和獲取信息

并進(jìn)行統(tǒng)計(jì)的一種技術(shù)。

2.數(shù)據(jù)傳輸技術(shù)

數(shù)據(jù)傳輸是網(wǎng)絡(luò)爬蟲最基本的功能,它需要網(wǎng)絡(luò)爬蟲將抓取的數(shù)據(jù)傳遞給用

戶,網(wǎng)絡(luò)爬蟲需要根據(jù)不同的場(chǎng)景選擇不同的方式。

3.正則表達(dá)式

正則表達(dá)式是指在抓取網(wǎng)頁(yè)時(shí),根據(jù)一定的規(guī)則生成網(wǎng)頁(yè)代碼,并將該代碼

中的關(guān)鍵詞提取出來(lái),然后保存到數(shù)據(jù)庫(kù)中。

4.網(wǎng)頁(yè)去重技術(shù)

為了減少網(wǎng)頁(yè)重復(fù)抓取和資源浪費(fèi),需要對(duì)抓取到的網(wǎng)頁(yè)進(jìn)行去重。常用的

去重方式有:反向鏈接去重、頁(yè)面內(nèi)容去重和URL重復(fù)率去重。

2.3.2文件存儲(chǔ)存取技術(shù)

文件存儲(chǔ)存取技術(shù)是指通過(guò)文件系統(tǒng)對(duì)文件進(jìn)行存儲(chǔ)的存取。

圖2-1python內(nèi)置csv模塊

2.3.3可視化技術(shù)

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

數(shù)據(jù)可視化是指用圖形和文字來(lái)描述數(shù)據(jù)信息,以幫助人們更好的理解、處

理和分析數(shù)據(jù)。簡(jiǎn)而言之,數(shù)據(jù)可視化是以圖形的方式呈現(xiàn)結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)

據(jù),從而將隱藏在數(shù)據(jù)中的信息直接呈現(xiàn)給人們。它不僅僅是使用數(shù)據(jù)可視化工

具將數(shù)據(jù)轉(zhuǎn)化為圖形,相反,是從數(shù)據(jù)的角度直觀的看待內(nèi)容。

數(shù)據(jù)可視化最大的重要性就在于它可以幫助人們更快的理解數(shù)據(jù)。在堆積如

山的信息之間的聯(lián)系并不容易,但是圖形和圖表可以將無(wú)形的信息,轉(zhuǎn)化為可見(jiàn)

的圖形符號(hào),直接清晰地表達(dá)出來(lái),快速地理解數(shù)據(jù)。

數(shù)據(jù)可視化的技術(shù)發(fā)展成為了一下三類:科學(xué)可視化、信息可視化、可視化

分析。而本項(xiàng)目這里用到的就是信息可視化,信息可視化的處理對(duì)象是非結(jié)構(gòu)化、

非幾何的抽象數(shù)據(jù),此次過(guò)程中所涉及到的圖形可視化有折線圖、餅圖、柱狀圖以

及詞云圖,這些圖形可以清晰的把各項(xiàng)酒店數(shù)據(jù)具象化,可以更加直觀方便地理

解數(shù)據(jù)。

3數(shù)據(jù)與采集

3.1采集頁(yè)面分析

本項(xiàng)目首先通過(guò)瀏覽器搜索攜程網(wǎng)的官方網(wǎng)頁(yè),再然后找到酒店目錄集頁(yè)面

圖3-1,點(diǎn)擊長(zhǎng)沙酒店模塊,通過(guò)觀察發(fā)現(xiàn),其中URL為

/hotels/list?countryId=1&city=206&checkin=2023

/02/19&checkout=2023/02/20&optionId=206&optionType=City&directSearch=0

&display=%E9%95%BF%E6%B2%99%2C%20%E6%B9%96%E5%8D%97%2C%20%E4%B8%AD%E5%

9B%BD&crn=1&adult=1&children=0&searchBoxArg=t&travelPurpose=0&ctm_ref=

ix_sb_dl&domestic=1&,然后點(diǎn)擊頁(yè)面下方的分頁(yè)按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL

沒(méi)有變化。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面

在網(wǎng)頁(yè)調(diào)出開發(fā)者工具,刷新頁(yè)面,如圖3-2所示:

圖3-2開發(fā)者工具

利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字段,

分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)POST請(qǐng)求,那本項(xiàng)目需要尋找它的的from

data往下翻找,在最后找到了表單數(shù)據(jù)FormData,如圖3-3所示。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-3FromData

3.2字段分析

首先來(lái)到網(wǎng)頁(yè)面打開網(wǎng)頁(yè)的選擇欄,然后將選擇欄目定位到酒店熱門篩選集

中的位置也就是定位到本項(xiàng)目所需要的數(shù)據(jù)所在的位置,然后跳出開發(fā)者工具頁(yè)

面刷新一下頁(yè)面再進(jìn)入,點(diǎn)擊開發(fā)者工具界面上方的數(shù)據(jù)預(yù)覽Preview按鈕,如圖

3-4,可以看到本項(xiàng)目需要的所有的數(shù)據(jù)信息都是呈現(xiàn)json格式傳遞在這個(gè)網(wǎng)頁(yè)

面。

在每一個(gè)標(biāo)簽下有多個(gè)a標(biāo)簽,a標(biāo)簽內(nèi)的字符內(nèi)容就是本次項(xiàng)目所需要的字

段,如售賣詞云、價(jià)格、評(píng)分以及熱評(píng)數(shù)量等都可以通過(guò)xpath方式來(lái)獲取這些

字段的路徑。

本項(xiàng)目還得知他是post方法響應(yīng)的網(wǎng)站,所以本項(xiàng)目可以根據(jù)以上特點(diǎn)通過(guò)

Requests方法中的post方法來(lái)獲得響應(yīng)的數(shù)據(jù),最原始的數(shù)據(jù)格式是呈現(xiàn)json

格式的所以本項(xiàng)目需要重復(fù)獲取響應(yīng)數(shù)據(jù)然后依次寫入到csv格式的文件當(dāng)中。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-4分析數(shù)據(jù)類型頁(yè)面

3.3編程的實(shí)現(xiàn)

導(dǎo)入所需的庫(kù),如圖3-5所示:

圖3-5導(dǎo)入所需庫(kù)頁(yè)面

設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問(wèn)服務(wù)器,如圖3-6所示:

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-6設(shè)置請(qǐng)求頭內(nèi)容頁(yè)面

代碼截圖展示如下:

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

4.1數(shù)據(jù)清洗

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

數(shù)據(jù)清洗和數(shù)據(jù)處理是一種策略,是在獲得一個(gè)良好的數(shù)據(jù)集之前進(jìn)行處理,

以確保數(shù)據(jù)集能夠提供足夠的信息來(lái)解釋和預(yù)測(cè)。

一旦確定了要使用的數(shù)據(jù)集,就需要將其轉(zhuǎn)換為能夠在目標(biāo)范圍內(nèi)使用的格

式。這兩個(gè)階段都將為下面討論的內(nèi)容做好準(zhǔn)備。清洗和去重在此階段中,需要

先檢查并去除不正確或不相關(guān)的數(shù)據(jù)。使用這種技術(shù)通常是在小樣本情況下,因

為它可以通過(guò)提高計(jì)算效率來(lái)改進(jìn)預(yù)測(cè)結(jié)果。因此,一些專門針對(duì)小樣本的去重

技術(shù),如多重分析和基于網(wǎng)絡(luò)的方法等將被使用。為了進(jìn)行去重,需要檢查并刪

除重復(fù)值或錯(cuò)誤值。如果需要的話,還可以進(jìn)行一些調(diào)整以確定需要去除哪些信

息。

使用Hammer對(duì)收集到的多個(gè)數(shù)據(jù)庫(kù)進(jìn)行匹配以確保該數(shù)據(jù)庫(kù)中沒(méi)有相同格式

的字段。然后,將這些記錄中存儲(chǔ)過(guò)多且不完整信息字段列入要?jiǎng)h除的范圍中。

去重后有可能會(huì)丟失一些重要信息并且可能會(huì)影響所使用的算法。因此必須

對(duì)去重后相關(guān)字段進(jìn)行過(guò)濾操作來(lái)檢查其缺失情況以及是否存在不一致并且可能

需要檢查數(shù)據(jù)是否需要替換以避免丟失信息。去除重復(fù)值為了獲得可靠的結(jié)果,

需要先從數(shù)據(jù)庫(kù)中刪除重復(fù)值或?qū)⑵渑c零樣本一起處理

清洗準(zhǔn)備如圖4-1所示:

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁(yè)面

經(jīng)過(guò)比對(duì)和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯(cuò)位還有空值,那么本項(xiàng)目根據(jù)需求

將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù)以及糾正數(shù)據(jù)文件中錯(cuò)誤的程序,保持

數(shù)據(jù)一致性,處理無(wú)效值和缺失值。因此本項(xiàng)目只需保留需要的數(shù)據(jù),然后整理為

原網(wǎng)頁(yè)格式存入data.csv文件中,留存后續(xù)作為統(tǒng)計(jì)分析、可視化使用。

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)清洗結(jié)果界面

4.2數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)存儲(chǔ)是指計(jì)算機(jī)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)管理的總稱,是計(jì)算機(jī)系統(tǒng)中極其重

要的組成部分。數(shù)據(jù)存儲(chǔ)包括:磁盤、光盤、磁帶等存儲(chǔ)器;也包括:內(nèi)存和硬

盤、磁帶庫(kù)等輔助存儲(chǔ)設(shè)備。關(guān)系型數(shù)據(jù)庫(kù)比較典型的有MySQL和Oracle等,非

關(guān)系型數(shù)據(jù)庫(kù)等以鍵值對(duì)形式儲(chǔ)存數(shù)據(jù)的代表有Mongodb、Redis等。

數(shù)據(jù)儲(chǔ)存的方式有很多種,最常使用到的有記事本格式儲(chǔ)存,或者用word等

其他軟件進(jìn)行儲(chǔ)存,但這些方法的數(shù)據(jù)體量都比較小。所以本項(xiàng)目用到的是csv,

兩者的可以儲(chǔ)存較大的數(shù)據(jù)信息。

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

打開Excel軟件,加載并查看收集的600條長(zhǎng)沙酒店數(shù)據(jù),篩選出所需要用

到的關(guān)鍵詞條,為下一步做準(zhǔn)備。如圖5-1,5-2所示:

圖5-1數(shù)據(jù)頁(yè)面

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-2數(shù)據(jù)整合頁(yè)面

5.2數(shù)據(jù)展示與分析

5.2.1依據(jù)價(jià)格功能售賣點(diǎn)進(jìn)行統(tǒng)計(jì)與分析

如圖5-3所示:

圖5-3功能數(shù)據(jù)展示頁(yè)面

酒店功能售賣數(shù)據(jù)分析:酒店價(jià)格的制定,是酒店?duì)I銷部門根據(jù)市場(chǎng)行情,

參照當(dāng)?shù)氐穆糜蜗M(fèi)水平和季節(jié)變化等情況綜合考慮后制定的,每一種產(chǎn)品都有

其賣點(diǎn),酒店價(jià)格也不例外。酒店價(jià)格賣點(diǎn)是酒店經(jīng)營(yíng)者在市場(chǎng)營(yíng)銷中采取的一

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

種策略,其目的是通過(guò)促銷手段來(lái)影響消費(fèi)者的購(gòu)買心理,促使消費(fèi)者購(gòu)買他們

所希望的產(chǎn)品。通常情況下,酒店價(jià)格賣點(diǎn)一般包含以下內(nèi)容:提供不同類型的

客房和餐飲服務(wù)。

通過(guò)特定序列里面的數(shù)據(jù)再按照詞云生成詞云圖,如圖5-3所示可知免費(fèi)停

車詞條出現(xiàn)的頻率最高,其次就是享會(huì)員權(quán)益。在攜程網(wǎng)站上出現(xiàn)次數(shù)多次足以

說(shuō)明免費(fèi)停車已經(jīng)成為大多數(shù)人選擇酒店的依據(jù),說(shuō)明有免費(fèi)停車服務(wù)的酒店更

受大眾歡迎。

其次,同樣占比較高的詞條服務(wù)還有24小時(shí)前臺(tái)以及多功能廳和智能家居,

說(shuō)明大多數(shù)消費(fèi)者比較看重前臺(tái)的服務(wù)時(shí)間以及酒店的多功能性,說(shuō)明了大多數(shù)

消費(fèi)者比較看重高性價(jià)比而去選擇酒店居住。

最后,站在消費(fèi)者角度看待說(shuō)明了大眾群體在平臺(tái)挑選酒店會(huì)看重個(gè)人體驗(yàn),

對(duì)于目前有車的消費(fèi)用戶來(lái)說(shuō),車輛的停放是一個(gè)很大的問(wèn)題,再者停放車輛的

停車管理費(fèi),酒店利用站在消費(fèi)者的角度去推出一個(gè)免費(fèi)停車的權(quán)益。站在酒店

管理層來(lái)說(shuō),推出享會(huì)員權(quán)益也是利己利他的一個(gè)選擇,給消費(fèi)者留下了好印象

的同時(shí)還吸引了回頭客,間接的提高了酒店的入住率。

5.2.2依據(jù)酒店評(píng)分進(jìn)行統(tǒng)計(jì)與分析

如圖5-4所示:

圖5-4酒店評(píng)分?jǐn)?shù)據(jù)展示頁(yè)面

由圖5-4酒店評(píng)分?jǐn)?shù)據(jù)展示所示可知:評(píng)分的主要對(duì)象是平臺(tái)用戶而非酒店

本身。高評(píng)分以及低評(píng)分都是占極低比例的

可以看出大部分消費(fèi)者給出的評(píng)分是4.7分,這也意味著消費(fèi)者用戶對(duì)于酒

店的品質(zhì)和服務(wù)的認(rèn)可,用戶對(duì)酒店評(píng)分的期望較高,酒店所給到的服務(wù)以及內(nèi)

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

容可以滿足消費(fèi)者的期望。

另外可以使用一些數(shù)據(jù)分析工具來(lái)分析評(píng)價(jià)率、客戶流失情況、評(píng)分、客戶

留存情況等等。從這些數(shù)據(jù)中,本項(xiàng)目可以更好地了解到現(xiàn)在消費(fèi)者對(duì)酒店的態(tài)

度,同時(shí)也可以幫助酒店制定更好的運(yùn)營(yíng)方案。

另外可以看出攜程平臺(tái)的酒店的質(zhì)量高低,大部分酒店的評(píng)分都是4評(píng)分以

上,一小部分酒店的評(píng)分占比有5以上,這樣可以看出大多數(shù)消費(fèi)者的消費(fèi)習(xí)慣

以及對(duì)于入住酒店的選擇。

其實(shí)有很多細(xì)節(jié)問(wèn)題都是非常重要的。比如酒店的訂房數(shù)據(jù)、住客信息、前

臺(tái)接待等等,這些都是值得好好研究的。因?yàn)檫@些細(xì)節(jié)問(wèn)題處理不好,那么就會(huì)

導(dǎo)致酒店流失很多客戶,而且也不利于酒店的宣傳。所以建議酒店應(yīng)該花更多地

心思去做這些細(xì)節(jié)工作。當(dāng)有了客人好評(píng)后,本項(xiàng)目還要學(xué)會(huì)分析客人評(píng)論,看

哪些評(píng)論是積極的,哪些是消極的?對(duì)于那些積極和消極的評(píng)論本項(xiàng)目都要好好

利用起來(lái)。比如如果是積極評(píng)論的話,就可以作為酒店下一步運(yùn)營(yíng)計(jì)劃的參考和

借鑒。

為了避免差評(píng)和負(fù)面評(píng)論對(duì)本項(xiàng)目造成很大影響,本項(xiàng)目要學(xué)會(huì)分析客人評(píng)

分中存在哪些問(wèn)題原因是什么?通過(guò)分析這些問(wèn)題然后采取相應(yīng)措施來(lái)解決這些

問(wèn)題,這樣才能更好地幫助到酒店提升評(píng)分。比如在客戶評(píng)價(jià)中出現(xiàn)了一些不好

的評(píng)論后,本項(xiàng)目就需要立即去排查一下這些不良評(píng)論來(lái)自哪些方面?是哪方面

的原因?qū)е铝丝腿俗龀霾钤u(píng)?針對(duì)客人所反饋出來(lái)的問(wèn)題要進(jìn)行具體分析,如果

是客戶沒(méi)有入住前就遇到了各種問(wèn)題,那么就要想辦法去解決客戶遇到的這些問(wèn)

題。

5.2.3依據(jù)攜程網(wǎng)酒店價(jià)格進(jìn)行統(tǒng)計(jì)與分析

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-5酒店價(jià)格數(shù)據(jù)展示頁(yè)面

如圖5-5酒店價(jià)格數(shù)據(jù)所示,城市星際越高,酒店價(jià)格越高,相同星級(jí)的酒

店,高低和商務(wù)型比經(jīng)濟(jì)型價(jià)格要高很多;商務(wù)型的和國(guó)際型比國(guó)內(nèi)經(jīng)濟(jì)型價(jià)格

要高;同城五星級(jí)和城市4星的酒店比五星經(jīng)濟(jì)型酒店的價(jià)格要高。其實(shí)這都是

酒店針對(duì)不同需求而設(shè)置的。

可以看出在長(zhǎng)沙受歡迎程度前600家的酒店中,高價(jià)酒店占比并不高,可以

清晰的看出平價(jià)酒店占比很高,這說(shuō)明能躋身在受歡迎程度前600,是憑借自身平

價(jià)的優(yōu)勢(shì)破圈的。

高檔的酒店針對(duì)高端客人,所以在定價(jià)時(shí)可以定得高些;而中檔和經(jīng)濟(jì)型的

酒店針對(duì)中端客人,所以在定價(jià)時(shí)可以定得低一些。當(dāng)高檔、中檔、經(jīng)濟(jì)型都有

的時(shí)候,那么根據(jù)這三個(gè)檔次對(duì)不同類型的客人制定不同類型的價(jià)格就可以了。

從上面那個(gè)表格可以看出,星級(jí)越低。那么本項(xiàng)目可不可以根據(jù)這個(gè)規(guī)律來(lái)制定

酒店的價(jià)格呢?可以呀!但是根據(jù)上面那個(gè)表格本項(xiàng)目只能知道本項(xiàng)目所制定酒

店定價(jià)時(shí)所依據(jù)的基本信息是什么,并不能知道哪些因素在影響著酒店定價(jià)。高

星級(jí)酒店官網(wǎng)與OTA網(wǎng)站對(duì)比,同樣的房型在OTA網(wǎng)站上在大力的促銷政策下賣

價(jià)比酒店官網(wǎng)價(jià)格要更優(yōu)惠,形式也多樣化,還有不同的組合優(yōu)惠價(jià),而酒店官

網(wǎng)的價(jià)格體系單一,促銷價(jià)格沒(méi)有優(yōu)勢(shì),不便于顧客直接在酒店官網(wǎng)預(yù)定而在OTA

網(wǎng)站上訂房。要想真正了解這其中存在著什么規(guī)律,必須要通過(guò)調(diào)查分析來(lái)總結(jié)

出酒店定價(jià)所依據(jù)數(shù)據(jù)。

5.2.4前10熱評(píng)酒店數(shù)據(jù)統(tǒng)計(jì)與分析

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-6前十酒店熱評(píng)數(shù)據(jù)展示頁(yè)面

從圖5-6所示可以得知康萊酒店(黃花機(jī)場(chǎng)店)熱評(píng)數(shù)量最多,其次是長(zhǎng)沙

南站希爾頓歡朋酒店,可以看出前2位熱評(píng)最多酒店地理位置都是坐落于交通樞

紐位置,交通便利,地勢(shì)得天獨(dú)厚,是來(lái)長(zhǎng)沙旅游辦公居所的不二之選。

可以看出交通樞紐型酒店是指位于城市交通要道,如機(jī)場(chǎng)、車站、碼頭等附近

或中心地帶的酒店。這類酒店通常擁有良好的地理位置和便捷的交通條件,能夠吸

引大量的商務(wù)客人。

5.2.5前600家酒店星級(jí)數(shù)據(jù)統(tǒng)計(jì)與分析

18

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-7數(shù)據(jù)統(tǒng)計(jì)展示頁(yè)面

由圖5-7數(shù)據(jù)展示圖可以得知,在前600家酒店中黃色區(qū)域3星級(jí)酒店占比

最多,有220家;其次是紅色區(qū)域2星級(jí)酒店,占比32%,有192家;然后是綠色

區(qū)域4星級(jí)酒店占比25.67%,有154家;最后是藍(lán)色區(qū)域5星級(jí)酒店占比最少,

占比5.67%只有34家。

另外,住宿是旅行中不可缺少的一個(gè)環(huán)節(jié)。酒店星級(jí)的高低,往往代表著該酒

店在行業(yè)內(nèi)的地位,也是游客在選擇時(shí)的一個(gè)重要參考因素。那么,如何從星級(jí)來(lái)

評(píng)價(jià)一個(gè)酒店的好壞呢?

5.2.6酒店售賣點(diǎn)詞云分析

19

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖5-8數(shù)據(jù)展示界面

酒店功能售賣數(shù)據(jù)分析:酒店價(jià)格的制定,是酒店?duì)I銷部門根據(jù)市場(chǎng)行情,

參照當(dāng)?shù)氐穆糜蜗M(fèi)水平和季節(jié)變化等情況綜合考慮后制定的。由圖5-8所示可

以得知,十億豪補(bǔ)的占比是最大的,其次是高鐵鉆石價(jià),可以看出占比較多的酒

店應(yīng)該是位置毗鄰高鐵交通樞紐的酒店。

5.3綜述

綜上所述,攜程網(wǎng)所篩選的受歡迎程度前600的酒店坐落于長(zhǎng)沙,評(píng)分高與

星級(jí)高的酒店在長(zhǎng)沙是當(dāng)下消費(fèi)者入住較多的酒店。酒店行業(yè)分析:長(zhǎng)沙酒店市場(chǎng)

規(guī)模持續(xù)增長(zhǎng),未來(lái)發(fā)展?jié)摿Υ蟆?/p>

首先,不同等級(jí)的酒店,消費(fèi)者關(guān)注的信息重點(diǎn)不一樣,而酒店頁(yè)面信息所

呈現(xiàn)的位置、順序級(jí)與方式都會(huì)顯著影響消費(fèi)者對(duì)信息的關(guān)注與接受,如對(duì)于五

星級(jí)酒店,其酒店地理位置、酒店價(jià)格及房型等信息應(yīng)該在重點(diǎn)區(qū)域,而對(duì)于經(jīng)

濟(jì)型酒店,消費(fèi)者的評(píng)論信息應(yīng)更方便、快捷、全面地呈現(xiàn)給消費(fèi)者,以便于他

們進(jìn)行全面地甄選來(lái)入住消費(fèi)。

其次,對(duì)數(shù)據(jù)可視化分析具象化了平臺(tái)酒店的星級(jí)信息、酒店賣點(diǎn)信息,可

以得知消費(fèi)者更傾向于入住三星級(jí)經(jīng)濟(jì)型酒店,其中消費(fèi)者對(duì)于酒店設(shè)施、免費(fèi)

停車、行李寄存及周邊環(huán)境的評(píng)價(jià)能夠顯著影響酒店的網(wǎng)上預(yù)訂,而對(duì)于其他的

標(biāo)簽服務(wù)消費(fèi)者并非非常看重。地位位置也

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論