版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1緒論..............................................................1
1.1項(xiàng)目背景.....................................................1
1.2項(xiàng)目的目的與意義.............................................1
1.2.1項(xiàng)目目的................................................1
1.2.2項(xiàng)目意義................................................2
1.3開發(fā)環(huán)境與工具...............................................2
1.3.1Python簡(jiǎn)介..............................................2
1.3.2Jupyternotebook簡(jiǎn)介....................................2
1.3.3Tableau簡(jiǎn)介.............................................2
2需求與分析........................................................3
2.1可行性需求分析................................................3
2.2數(shù)據(jù)采集目標(biāo)功能分析..........................................3
2.3關(guān)鍵數(shù)據(jù)信息分析..............................................4
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)............................................4
2.3.2文件存儲(chǔ)存取技術(shù)........................................4
2.3.3可視化技術(shù)..............................................5
3數(shù)據(jù)與采集........................................................5
3.1采集頁(yè)面分析..................................................5
3.2字段分析......................................................7
3.3編程的實(shí)現(xiàn)....................................................8
4數(shù)據(jù)清洗與處理...................................................10
4.1數(shù)據(jù)清洗.....................................................10
4.2數(shù)據(jù)存儲(chǔ).....................................................12
5數(shù)據(jù)統(tǒng)計(jì)與分析...................................................13
5.1數(shù)據(jù)準(zhǔn)備.....................................................13
5.2數(shù)據(jù)展示與分析...............................................14
5.2.1依據(jù)價(jià)格功能售賣點(diǎn)進(jìn)行統(tǒng)計(jì)與分析.......................14
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2依據(jù)酒店評(píng)分進(jìn)行統(tǒng)計(jì)與分析.............................15
5.2.3依據(jù)攜程網(wǎng)酒店價(jià)格進(jìn)行統(tǒng)計(jì)與分析.......................16
5.2.4前10熱評(píng)酒店數(shù)據(jù)統(tǒng)計(jì)與分析............................17
5.2.5前600家酒店星級(jí)數(shù)據(jù)統(tǒng)計(jì)與分析.........................18
5.2.6酒店售賣點(diǎn)詞云分析.....................................19
5.3綜述.........................................................20
6小結(jié).............................................................21
參考文獻(xiàn)............................................................22
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
基于Python的攜程網(wǎng)酒店數(shù)據(jù)采集與分析
1緒論
在互聯(lián)網(wǎng)時(shí)代,酒店行業(yè)的競(jìng)爭(zhēng)愈加激烈,酒店間的競(jìng)爭(zhēng)也已經(jīng)從傳統(tǒng)的價(jià)
格、服務(wù)和硬件的競(jìng)爭(zhēng),發(fā)展到了一個(gè)更加關(guān)注消費(fèi)者需求、關(guān)注用戶體驗(yàn)的時(shí)
代。因此處理有效信息獲取問(wèn)題的復(fù)雜度也會(huì)大大增加。而大數(shù)據(jù)處理技術(shù)的應(yīng)
用將能夠快速、方便、靈活地解決這類應(yīng)用問(wèn)題。
酒店行業(yè)的數(shù)據(jù)分析已成為各個(gè)酒店經(jīng)營(yíng)決策不可或缺的重要部分,而數(shù)據(jù)
采集則是進(jìn)行大數(shù)據(jù)分析的前提和基礎(chǔ)。
基于大數(shù)據(jù)分析的技術(shù)發(fā)展與趨勢(shì),本項(xiàng)目通過(guò)數(shù)據(jù)采集軟件對(duì)某互聯(lián)網(wǎng)平
臺(tái)上收錄的酒店信息進(jìn)行實(shí)時(shí)抓取,并對(duì)所抓取數(shù)據(jù)進(jìn)行清洗、整合和分析,從
而為酒店經(jīng)營(yíng)管理提供有價(jià)值的數(shù)據(jù)支持。
1.1項(xiàng)目背景
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為衡量企業(yè)經(jīng)營(yíng)效率、產(chǎn)品和服
務(wù)質(zhì)量的重要標(biāo)準(zhǔn)之一,酒店業(yè)作為服務(wù)密集型行業(yè),也面臨著大數(shù)據(jù)帶來(lái)的挑
戰(zhàn)。酒店要實(shí)現(xiàn)信息化管理和智慧化發(fā)展,需要對(duì)各類數(shù)據(jù)進(jìn)行有效的采集和分
析。
同時(shí)我國(guó)經(jīng)濟(jì)的快速發(fā)展,中國(guó)的酒店業(yè)也得到了快速的發(fā)展。據(jù)統(tǒng)計(jì),從
2002年至2013年,我國(guó)酒店行業(yè)總體數(shù)量從14.9萬(wàn)家增長(zhǎng)到了41.4萬(wàn)家,客房
數(shù)量從834.4萬(wàn)間增長(zhǎng)到了3067.3萬(wàn)間。伴隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,酒店行業(yè)
也面臨著市場(chǎng)競(jìng)爭(zhēng)不斷加劇、酒店間入住率下降、價(jià)格競(jìng)爭(zhēng)日趨激烈、客戶需求
多樣化等問(wèn)題。因此,酒店行業(yè)迫切需要利用高新互聯(lián)網(wǎng)技術(shù)以此來(lái)提高自身競(jìng)
爭(zhēng)力、拓展新的盈利空間。
1.2項(xiàng)目的目的與意義
1.2.1項(xiàng)目目的
傳統(tǒng)酒店行業(yè)在經(jīng)營(yíng)管理中存在著很多弊端,例如管理流程繁瑣、服務(wù)效率
低下、員工積極性不高等問(wèn)題,這些問(wèn)題嚴(yán)重影響了酒店的服務(wù)質(zhì)量和顧客滿意
度,限制了酒店的發(fā)展。而互聯(lián)網(wǎng)技術(shù)的應(yīng)用能夠改變酒店行業(yè)的商業(yè)模式,提
高酒店的管理效率,提高客戶滿意度。通過(guò)互聯(lián)網(wǎng)技術(shù)對(duì)酒店進(jìn)行數(shù)據(jù)采集與分
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
析,能夠及時(shí)了解客戶需求并進(jìn)行相應(yīng)的調(diào)整和改進(jìn)。從而可以更好地滿足客戶
需求,提高酒店競(jìng)爭(zhēng)力。
1.2.2項(xiàng)目意義
大數(shù)據(jù)對(duì)酒店行業(yè)的影響酒店可以通過(guò)互聯(lián)網(wǎng)向消費(fèi)者提供他們所需的服務(wù)。
通過(guò)對(duì)互聯(lián)網(wǎng)技術(shù)在傳統(tǒng)酒店業(yè)中的應(yīng)用進(jìn)行研究分析可以更好地幫助酒店行業(yè)
進(jìn)行管理改進(jìn),促進(jìn)其發(fā)展。同時(shí)對(duì)于其他行業(yè)來(lái)說(shuō),對(duì)互聯(lián)網(wǎng)技術(shù)在傳統(tǒng)酒店
業(yè)中的應(yīng)用研究也具有重要的借鑒意義。
此外酒店行業(yè)在互聯(lián)網(wǎng)時(shí)代,需要積極利用互聯(lián)網(wǎng)技術(shù)來(lái)提高管理水平和服
務(wù)質(zhì)量。酒店通過(guò)大數(shù)據(jù)采集與分析,可以有效地改善客戶體驗(yàn),提升客戶滿意
度。通過(guò)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)采集與分析的研究,有利于促進(jìn)酒店行業(yè)的可持續(xù)發(fā)展。
1.3開發(fā)環(huán)境與工具
1.3.1Python簡(jiǎn)介
Python是一種計(jì)算機(jī)編程語(yǔ)言,具有強(qiáng)大的功能,在全世界范圍內(nèi)有大量的
用戶使用Python,它可以用來(lái)編寫腳本程序,也可以用來(lái)做數(shù)據(jù)處理、Web應(yīng)用
程序、游戲和科學(xué)計(jì)算等。Python是一種解釋型語(yǔ)言,它通過(guò)聲明式的代碼實(shí)現(xiàn),
在語(yǔ)法上類似于C語(yǔ)言。Python也是一種動(dòng)態(tài)類型語(yǔ)言,它使用內(nèi)置函數(shù)來(lái)處理
數(shù)據(jù)。
1.3.2Jupyternotebook簡(jiǎn)介
Jupyternotebook是一個(gè)可以為用戶提供記錄和分享知識(shí)的平臺(tái)。Jupyter
notebook的內(nèi)容來(lái)源于用戶的分享,并且可以將其分為三個(gè)部分:知識(shí),內(nèi)容來(lái)
自于用戶日常生活中遇到的問(wèn)題,例如:如何解決問(wèn)題,如何分析問(wèn)題。在這里,
你可以找到一個(gè)或多個(gè)解決辦法。經(jīng)驗(yàn),是用戶成功經(jīng)驗(yàn)的集合,包含了一些成
功的項(xiàng)目和失敗的項(xiàng)目。其中包括在工作中遇到過(guò)的問(wèn)題、經(jīng)驗(yàn)分享、分析失敗
原因等。知識(shí)管理,主要內(nèi)容是通過(guò)收集大量來(lái)自用戶、同行以及專家們對(duì)某一
領(lǐng)域的見(jiàn)解和建議來(lái)進(jìn)行知識(shí)組織和整理。這里也包括一些工具類產(chǎn)品。
1.3.3Tableau簡(jiǎn)介
Tableau是一款功能強(qiáng)大的在線報(bào)表平臺(tái),可以幫助企業(yè)快速的完成數(shù)據(jù)收集、
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
數(shù)據(jù)分析和數(shù)據(jù)可視化。Tableau是一個(gè)完全可定制、靈活易用的在線報(bào)表平臺(tái),
它允許企業(yè)將其數(shù)據(jù)與其他應(yīng)用程序集成,以提供交互式數(shù)據(jù)分析和查詢。
此外,Tableau還可以進(jìn)行數(shù)據(jù)的全面收集,數(shù)據(jù)的靈活分析,Tableau可以
提供強(qiáng)大的數(shù)據(jù)分析功能。同時(shí)還具有靈活的交互式數(shù)據(jù)查詢和數(shù)據(jù)可視化的功
能。
2需求與分析
2.1可行性需求分析
1、項(xiàng)目可行性
酒店數(shù)據(jù)收集技術(shù)一直是酒店業(yè)及旅游業(yè)最關(guān)注的領(lǐng)域,因?yàn)樗苯雨P(guān)系到
酒店的成本、利潤(rùn)和競(jìng)爭(zhēng)力。在這樣的情況下,消費(fèi)者可以更加直觀透明的去選
擇酒店。以大數(shù)據(jù)為基礎(chǔ)的酒店管理系統(tǒng)和數(shù)據(jù)平臺(tái)開始嶄露頭角,同時(shí)也出現(xiàn)
了更多新產(chǎn)品或服務(wù)形態(tài)以迎合客戶對(duì)酒店個(gè)性化、高質(zhì)量管理服務(wù)的需求,來(lái)
達(dá)到提高消費(fèi)者市場(chǎng)滿意度的這樣一個(gè)效果,來(lái)提高消費(fèi)者對(duì)于酒店選擇的一個(gè)
甄選度。
2、技術(shù)可行性
Python是一門面向?qū)ο笳Z(yǔ)言中通俗易懂的計(jì)算機(jī)編程語(yǔ)言,在本次項(xiàng)目中會(huì)
用到Python的網(wǎng)絡(luò)爬蟲技術(shù)、文件存儲(chǔ)技術(shù)、以及數(shù)據(jù)可視化技術(shù),其中最為重
要的就是數(shù)據(jù)可視化技術(shù)。
在第一階段中的數(shù)據(jù)收集過(guò)程中,用到了網(wǎng)絡(luò)爬蟲技術(shù),另外在數(shù)據(jù)收集過(guò)
程中通過(guò)抓包分析攜程網(wǎng)長(zhǎng)沙區(qū)域酒店的信息頁(yè)面是動(dòng)態(tài)的,因此本項(xiàng)目需要通
過(guò)瀏覽器來(lái)獲取請(qǐng)求和參數(shù)。
在第二階段中,所用到的有數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理以及文件存儲(chǔ)技術(shù)。例如
對(duì)收集到的多個(gè)數(shù)據(jù)庫(kù)進(jìn)行匹配以確保數(shù)據(jù)庫(kù)中沒(méi)有相同格式的字段,處理完后
再對(duì)通過(guò)文件系統(tǒng)對(duì)文件進(jìn)行存儲(chǔ)存取。
在第三階段中,用到了數(shù)據(jù)可視化技術(shù),通過(guò)前面對(duì)數(shù)據(jù)的清洗、整合、存
儲(chǔ),數(shù)據(jù)可視化技術(shù)就是將數(shù)據(jù)圖表化,能夠使圖表表達(dá)具象化,可以使文字表
達(dá)變得簡(jiǎn)潔化,化抽象為具體。數(shù)據(jù)圖表化的優(yōu)點(diǎn)是便于突出重點(diǎn),可以把問(wèn)題
的重點(diǎn)有效地表達(dá)。
2.2數(shù)據(jù)采集目標(biāo)功能分析
本次項(xiàng)目的數(shù)據(jù)集的來(lái)源是攜程網(wǎng)站,是通過(guò)python爬取攜程網(wǎng)長(zhǎng)沙區(qū)域
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
600家酒店品牌的信息。數(shù)據(jù)清洗后共600條記錄,爬取完成后盡可能地檢查數(shù)據(jù)
地準(zhǔn)確性,確定爬取出來(lái)的數(shù)據(jù)無(wú)誤并且是屬于攜程網(wǎng)實(shí)時(shí)存在的酒店數(shù)據(jù)信息。
分析攜程網(wǎng)站網(wǎng)頁(yè)信息,明確本項(xiàng)目需要爬取的酒店數(shù)據(jù)參數(shù)有受歡迎程度,
價(jià)格占比區(qū)間,星級(jí)占比數(shù)據(jù),點(diǎn)評(píng)量數(shù)據(jù),標(biāo)簽詞云數(shù)據(jù),酒店評(píng)分?jǐn)?shù)據(jù)等。
在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后本項(xiàng)目會(huì)對(duì)其數(shù)據(jù)進(jìn)行多個(gè)維度的分析。例如,從長(zhǎng)沙
區(qū)域的酒店數(shù)量對(duì)其進(jìn)行分析,分析高價(jià)酒店和平價(jià)酒店的占比。又或者想要得到
長(zhǎng)沙區(qū)域所有酒店品牌在近兩年的入住率,那么本項(xiàng)目就可以根據(jù)點(diǎn)評(píng)量去統(tǒng)計(jì)
每年的入住率,查看入住率是隨時(shí)間上升還是下降。
2.3關(guān)鍵數(shù)據(jù)信息分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
1.網(wǎng)站數(shù)據(jù)分析技術(shù)
網(wǎng)絡(luò)爬蟲是通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容或網(wǎng)站結(jié)構(gòu)的分析,并對(duì)其進(jìn)行采集和獲取信息
并進(jìn)行統(tǒng)計(jì)的一種技術(shù)。
2.數(shù)據(jù)傳輸技術(shù)
數(shù)據(jù)傳輸是網(wǎng)絡(luò)爬蟲最基本的功能,它需要網(wǎng)絡(luò)爬蟲將抓取的數(shù)據(jù)傳遞給用
戶,網(wǎng)絡(luò)爬蟲需要根據(jù)不同的場(chǎng)景選擇不同的方式。
3.正則表達(dá)式
正則表達(dá)式是指在抓取網(wǎng)頁(yè)時(shí),根據(jù)一定的規(guī)則生成網(wǎng)頁(yè)代碼,并將該代碼
中的關(guān)鍵詞提取出來(lái),然后保存到數(shù)據(jù)庫(kù)中。
4.網(wǎng)頁(yè)去重技術(shù)
為了減少網(wǎng)頁(yè)重復(fù)抓取和資源浪費(fèi),需要對(duì)抓取到的網(wǎng)頁(yè)進(jìn)行去重。常用的
去重方式有:反向鏈接去重、頁(yè)面內(nèi)容去重和URL重復(fù)率去重。
2.3.2文件存儲(chǔ)存取技術(shù)
文件存儲(chǔ)存取技術(shù)是指通過(guò)文件系統(tǒng)對(duì)文件進(jìn)行存儲(chǔ)的存取。
圖2-1python內(nèi)置csv模塊
2.3.3可視化技術(shù)
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
數(shù)據(jù)可視化是指用圖形和文字來(lái)描述數(shù)據(jù)信息,以幫助人們更好的理解、處
理和分析數(shù)據(jù)。簡(jiǎn)而言之,數(shù)據(jù)可視化是以圖形的方式呈現(xiàn)結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)
據(jù),從而將隱藏在數(shù)據(jù)中的信息直接呈現(xiàn)給人們。它不僅僅是使用數(shù)據(jù)可視化工
具將數(shù)據(jù)轉(zhuǎn)化為圖形,相反,是從數(shù)據(jù)的角度直觀的看待內(nèi)容。
數(shù)據(jù)可視化最大的重要性就在于它可以幫助人們更快的理解數(shù)據(jù)。在堆積如
山的信息之間的聯(lián)系并不容易,但是圖形和圖表可以將無(wú)形的信息,轉(zhuǎn)化為可見(jiàn)
的圖形符號(hào),直接清晰地表達(dá)出來(lái),快速地理解數(shù)據(jù)。
數(shù)據(jù)可視化的技術(shù)發(fā)展成為了一下三類:科學(xué)可視化、信息可視化、可視化
分析。而本項(xiàng)目這里用到的就是信息可視化,信息可視化的處理對(duì)象是非結(jié)構(gòu)化、
非幾何的抽象數(shù)據(jù),此次過(guò)程中所涉及到的圖形可視化有折線圖、餅圖、柱狀圖以
及詞云圖,這些圖形可以清晰的把各項(xiàng)酒店數(shù)據(jù)具象化,可以更加直觀方便地理
解數(shù)據(jù)。
3數(shù)據(jù)與采集
3.1采集頁(yè)面分析
本項(xiàng)目首先通過(guò)瀏覽器搜索攜程網(wǎng)的官方網(wǎng)頁(yè),再然后找到酒店目錄集頁(yè)面
圖3-1,點(diǎn)擊長(zhǎng)沙酒店模塊,通過(guò)觀察發(fā)現(xiàn),其中URL為
/hotels/list?countryId=1&city=206&checkin=2023
/02/19&checkout=2023/02/20&optionId=206&optionType=City&directSearch=0
&display=%E9%95%BF%E6%B2%99%2C%20%E6%B9%96%E5%8D%97%2C%20%E4%B8%AD%E5%
9B%BD&crn=1&adult=1&children=0&searchBoxArg=t&travelPurpose=0&ctm_ref=
ix_sb_dl&domestic=1&,然后點(diǎn)擊頁(yè)面下方的分頁(yè)按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL
沒(méi)有變化。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面
在網(wǎng)頁(yè)調(diào)出開發(fā)者工具,刷新頁(yè)面,如圖3-2所示:
圖3-2開發(fā)者工具
利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開發(fā)者工具上面的Headers字段,
分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)POST請(qǐng)求,那本項(xiàng)目需要尋找它的的from
data往下翻找,在最后找到了表單數(shù)據(jù)FormData,如圖3-3所示。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-3FromData
3.2字段分析
首先來(lái)到網(wǎng)頁(yè)面打開網(wǎng)頁(yè)的選擇欄,然后將選擇欄目定位到酒店熱門篩選集
中的位置也就是定位到本項(xiàng)目所需要的數(shù)據(jù)所在的位置,然后跳出開發(fā)者工具頁(yè)
面刷新一下頁(yè)面再進(jìn)入,點(diǎn)擊開發(fā)者工具界面上方的數(shù)據(jù)預(yù)覽Preview按鈕,如圖
3-4,可以看到本項(xiàng)目需要的所有的數(shù)據(jù)信息都是呈現(xiàn)json格式傳遞在這個(gè)網(wǎng)頁(yè)
面。
在每一個(gè)標(biāo)簽下有多個(gè)a標(biāo)簽,a標(biāo)簽內(nèi)的字符內(nèi)容就是本次項(xiàng)目所需要的字
段,如售賣詞云、價(jià)格、評(píng)分以及熱評(píng)數(shù)量等都可以通過(guò)xpath方式來(lái)獲取這些
字段的路徑。
本項(xiàng)目還得知他是post方法響應(yīng)的網(wǎng)站,所以本項(xiàng)目可以根據(jù)以上特點(diǎn)通過(guò)
Requests方法中的post方法來(lái)獲得響應(yīng)的數(shù)據(jù),最原始的數(shù)據(jù)格式是呈現(xiàn)json
格式的所以本項(xiàng)目需要重復(fù)獲取響應(yīng)數(shù)據(jù)然后依次寫入到csv格式的文件當(dāng)中。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-4分析數(shù)據(jù)類型頁(yè)面
3.3編程的實(shí)現(xiàn)
導(dǎo)入所需的庫(kù),如圖3-5所示:
圖3-5導(dǎo)入所需庫(kù)頁(yè)面
設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問(wèn)服務(wù)器,如圖3-6所示:
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-6設(shè)置請(qǐng)求頭內(nèi)容頁(yè)面
代碼截圖展示如下:
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4數(shù)據(jù)清洗與處理
4.1數(shù)據(jù)清洗
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
數(shù)據(jù)清洗和數(shù)據(jù)處理是一種策略,是在獲得一個(gè)良好的數(shù)據(jù)集之前進(jìn)行處理,
以確保數(shù)據(jù)集能夠提供足夠的信息來(lái)解釋和預(yù)測(cè)。
一旦確定了要使用的數(shù)據(jù)集,就需要將其轉(zhuǎn)換為能夠在目標(biāo)范圍內(nèi)使用的格
式。這兩個(gè)階段都將為下面討論的內(nèi)容做好準(zhǔn)備。清洗和去重在此階段中,需要
先檢查并去除不正確或不相關(guān)的數(shù)據(jù)。使用這種技術(shù)通常是在小樣本情況下,因
為它可以通過(guò)提高計(jì)算效率來(lái)改進(jìn)預(yù)測(cè)結(jié)果。因此,一些專門針對(duì)小樣本的去重
技術(shù),如多重分析和基于網(wǎng)絡(luò)的方法等將被使用。為了進(jìn)行去重,需要檢查并刪
除重復(fù)值或錯(cuò)誤值。如果需要的話,還可以進(jìn)行一些調(diào)整以確定需要去除哪些信
息。
使用Hammer對(duì)收集到的多個(gè)數(shù)據(jù)庫(kù)進(jìn)行匹配以確保該數(shù)據(jù)庫(kù)中沒(méi)有相同格式
的字段。然后,將這些記錄中存儲(chǔ)過(guò)多且不完整信息字段列入要?jiǎng)h除的范圍中。
去重后有可能會(huì)丟失一些重要信息并且可能會(huì)影響所使用的算法。因此必須
對(duì)去重后相關(guān)字段進(jìn)行過(guò)濾操作來(lái)檢查其缺失情況以及是否存在不一致并且可能
需要檢查數(shù)據(jù)是否需要替換以避免丟失信息。去除重復(fù)值為了獲得可靠的結(jié)果,
需要先從數(shù)據(jù)庫(kù)中刪除重復(fù)值或?qū)⑵渑c零樣本一起處理
清洗準(zhǔn)備如圖4-1所示:
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁(yè)面
經(jīng)過(guò)比對(duì)和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯(cuò)位還有空值,那么本項(xiàng)目根據(jù)需求
將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù)以及糾正數(shù)據(jù)文件中錯(cuò)誤的程序,保持
數(shù)據(jù)一致性,處理無(wú)效值和缺失值。因此本項(xiàng)目只需保留需要的數(shù)據(jù),然后整理為
原網(wǎng)頁(yè)格式存入data.csv文件中,留存后續(xù)作為統(tǒng)計(jì)分析、可視化使用。
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-2數(shù)據(jù)清洗結(jié)果界面
4.2數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)存儲(chǔ)是指計(jì)算機(jī)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)管理的總稱,是計(jì)算機(jī)系統(tǒng)中極其重
要的組成部分。數(shù)據(jù)存儲(chǔ)包括:磁盤、光盤、磁帶等存儲(chǔ)器;也包括:內(nèi)存和硬
盤、磁帶庫(kù)等輔助存儲(chǔ)設(shè)備。關(guān)系型數(shù)據(jù)庫(kù)比較典型的有MySQL和Oracle等,非
關(guān)系型數(shù)據(jù)庫(kù)等以鍵值對(duì)形式儲(chǔ)存數(shù)據(jù)的代表有Mongodb、Redis等。
數(shù)據(jù)儲(chǔ)存的方式有很多種,最常使用到的有記事本格式儲(chǔ)存,或者用word等
其他軟件進(jìn)行儲(chǔ)存,但這些方法的數(shù)據(jù)體量都比較小。所以本項(xiàng)目用到的是csv,
兩者的可以儲(chǔ)存較大的數(shù)據(jù)信息。
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
打開Excel軟件,加載并查看收集的600條長(zhǎng)沙酒店數(shù)據(jù),篩選出所需要用
到的關(guān)鍵詞條,為下一步做準(zhǔn)備。如圖5-1,5-2所示:
圖5-1數(shù)據(jù)頁(yè)面
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-2數(shù)據(jù)整合頁(yè)面
5.2數(shù)據(jù)展示與分析
5.2.1依據(jù)價(jià)格功能售賣點(diǎn)進(jìn)行統(tǒng)計(jì)與分析
如圖5-3所示:
圖5-3功能數(shù)據(jù)展示頁(yè)面
酒店功能售賣數(shù)據(jù)分析:酒店價(jià)格的制定,是酒店?duì)I銷部門根據(jù)市場(chǎng)行情,
參照當(dāng)?shù)氐穆糜蜗M(fèi)水平和季節(jié)變化等情況綜合考慮后制定的,每一種產(chǎn)品都有
其賣點(diǎn),酒店價(jià)格也不例外。酒店價(jià)格賣點(diǎn)是酒店經(jīng)營(yíng)者在市場(chǎng)營(yíng)銷中采取的一
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
種策略,其目的是通過(guò)促銷手段來(lái)影響消費(fèi)者的購(gòu)買心理,促使消費(fèi)者購(gòu)買他們
所希望的產(chǎn)品。通常情況下,酒店價(jià)格賣點(diǎn)一般包含以下內(nèi)容:提供不同類型的
客房和餐飲服務(wù)。
通過(guò)特定序列里面的數(shù)據(jù)再按照詞云生成詞云圖,如圖5-3所示可知免費(fèi)停
車詞條出現(xiàn)的頻率最高,其次就是享會(huì)員權(quán)益。在攜程網(wǎng)站上出現(xiàn)次數(shù)多次足以
說(shuō)明免費(fèi)停車已經(jīng)成為大多數(shù)人選擇酒店的依據(jù),說(shuō)明有免費(fèi)停車服務(wù)的酒店更
受大眾歡迎。
其次,同樣占比較高的詞條服務(wù)還有24小時(shí)前臺(tái)以及多功能廳和智能家居,
說(shuō)明大多數(shù)消費(fèi)者比較看重前臺(tái)的服務(wù)時(shí)間以及酒店的多功能性,說(shuō)明了大多數(shù)
消費(fèi)者比較看重高性價(jià)比而去選擇酒店居住。
最后,站在消費(fèi)者角度看待說(shuō)明了大眾群體在平臺(tái)挑選酒店會(huì)看重個(gè)人體驗(yàn),
對(duì)于目前有車的消費(fèi)用戶來(lái)說(shuō),車輛的停放是一個(gè)很大的問(wèn)題,再者停放車輛的
停車管理費(fèi),酒店利用站在消費(fèi)者的角度去推出一個(gè)免費(fèi)停車的權(quán)益。站在酒店
管理層來(lái)說(shuō),推出享會(huì)員權(quán)益也是利己利他的一個(gè)選擇,給消費(fèi)者留下了好印象
的同時(shí)還吸引了回頭客,間接的提高了酒店的入住率。
5.2.2依據(jù)酒店評(píng)分進(jìn)行統(tǒng)計(jì)與分析
如圖5-4所示:
圖5-4酒店評(píng)分?jǐn)?shù)據(jù)展示頁(yè)面
由圖5-4酒店評(píng)分?jǐn)?shù)據(jù)展示所示可知:評(píng)分的主要對(duì)象是平臺(tái)用戶而非酒店
本身。高評(píng)分以及低評(píng)分都是占極低比例的
可以看出大部分消費(fèi)者給出的評(píng)分是4.7分,這也意味著消費(fèi)者用戶對(duì)于酒
店的品質(zhì)和服務(wù)的認(rèn)可,用戶對(duì)酒店評(píng)分的期望較高,酒店所給到的服務(wù)以及內(nèi)
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
容可以滿足消費(fèi)者的期望。
另外可以使用一些數(shù)據(jù)分析工具來(lái)分析評(píng)價(jià)率、客戶流失情況、評(píng)分、客戶
留存情況等等。從這些數(shù)據(jù)中,本項(xiàng)目可以更好地了解到現(xiàn)在消費(fèi)者對(duì)酒店的態(tài)
度,同時(shí)也可以幫助酒店制定更好的運(yùn)營(yíng)方案。
另外可以看出攜程平臺(tái)的酒店的質(zhì)量高低,大部分酒店的評(píng)分都是4評(píng)分以
上,一小部分酒店的評(píng)分占比有5以上,這樣可以看出大多數(shù)消費(fèi)者的消費(fèi)習(xí)慣
以及對(duì)于入住酒店的選擇。
其實(shí)有很多細(xì)節(jié)問(wèn)題都是非常重要的。比如酒店的訂房數(shù)據(jù)、住客信息、前
臺(tái)接待等等,這些都是值得好好研究的。因?yàn)檫@些細(xì)節(jié)問(wèn)題處理不好,那么就會(huì)
導(dǎo)致酒店流失很多客戶,而且也不利于酒店的宣傳。所以建議酒店應(yīng)該花更多地
心思去做這些細(xì)節(jié)工作。當(dāng)有了客人好評(píng)后,本項(xiàng)目還要學(xué)會(huì)分析客人評(píng)論,看
哪些評(píng)論是積極的,哪些是消極的?對(duì)于那些積極和消極的評(píng)論本項(xiàng)目都要好好
利用起來(lái)。比如如果是積極評(píng)論的話,就可以作為酒店下一步運(yùn)營(yíng)計(jì)劃的參考和
借鑒。
為了避免差評(píng)和負(fù)面評(píng)論對(duì)本項(xiàng)目造成很大影響,本項(xiàng)目要學(xué)會(huì)分析客人評(píng)
分中存在哪些問(wèn)題原因是什么?通過(guò)分析這些問(wèn)題然后采取相應(yīng)措施來(lái)解決這些
問(wèn)題,這樣才能更好地幫助到酒店提升評(píng)分。比如在客戶評(píng)價(jià)中出現(xiàn)了一些不好
的評(píng)論后,本項(xiàng)目就需要立即去排查一下這些不良評(píng)論來(lái)自哪些方面?是哪方面
的原因?qū)е铝丝腿俗龀霾钤u(píng)?針對(duì)客人所反饋出來(lái)的問(wèn)題要進(jìn)行具體分析,如果
是客戶沒(méi)有入住前就遇到了各種問(wèn)題,那么就要想辦法去解決客戶遇到的這些問(wèn)
題。
5.2.3依據(jù)攜程網(wǎng)酒店價(jià)格進(jìn)行統(tǒng)計(jì)與分析
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-5酒店價(jià)格數(shù)據(jù)展示頁(yè)面
如圖5-5酒店價(jià)格數(shù)據(jù)所示,城市星際越高,酒店價(jià)格越高,相同星級(jí)的酒
店,高低和商務(wù)型比經(jīng)濟(jì)型價(jià)格要高很多;商務(wù)型的和國(guó)際型比國(guó)內(nèi)經(jīng)濟(jì)型價(jià)格
要高;同城五星級(jí)和城市4星的酒店比五星經(jīng)濟(jì)型酒店的價(jià)格要高。其實(shí)這都是
酒店針對(duì)不同需求而設(shè)置的。
可以看出在長(zhǎng)沙受歡迎程度前600家的酒店中,高價(jià)酒店占比并不高,可以
清晰的看出平價(jià)酒店占比很高,這說(shuō)明能躋身在受歡迎程度前600,是憑借自身平
價(jià)的優(yōu)勢(shì)破圈的。
高檔的酒店針對(duì)高端客人,所以在定價(jià)時(shí)可以定得高些;而中檔和經(jīng)濟(jì)型的
酒店針對(duì)中端客人,所以在定價(jià)時(shí)可以定得低一些。當(dāng)高檔、中檔、經(jīng)濟(jì)型都有
的時(shí)候,那么根據(jù)這三個(gè)檔次對(duì)不同類型的客人制定不同類型的價(jià)格就可以了。
從上面那個(gè)表格可以看出,星級(jí)越低。那么本項(xiàng)目可不可以根據(jù)這個(gè)規(guī)律來(lái)制定
酒店的價(jià)格呢?可以呀!但是根據(jù)上面那個(gè)表格本項(xiàng)目只能知道本項(xiàng)目所制定酒
店定價(jià)時(shí)所依據(jù)的基本信息是什么,并不能知道哪些因素在影響著酒店定價(jià)。高
星級(jí)酒店官網(wǎng)與OTA網(wǎng)站對(duì)比,同樣的房型在OTA網(wǎng)站上在大力的促銷政策下賣
價(jià)比酒店官網(wǎng)價(jià)格要更優(yōu)惠,形式也多樣化,還有不同的組合優(yōu)惠價(jià),而酒店官
網(wǎng)的價(jià)格體系單一,促銷價(jià)格沒(méi)有優(yōu)勢(shì),不便于顧客直接在酒店官網(wǎng)預(yù)定而在OTA
網(wǎng)站上訂房。要想真正了解這其中存在著什么規(guī)律,必須要通過(guò)調(diào)查分析來(lái)總結(jié)
出酒店定價(jià)所依據(jù)數(shù)據(jù)。
5.2.4前10熱評(píng)酒店數(shù)據(jù)統(tǒng)計(jì)與分析
17
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-6前十酒店熱評(píng)數(shù)據(jù)展示頁(yè)面
從圖5-6所示可以得知康萊酒店(黃花機(jī)場(chǎng)店)熱評(píng)數(shù)量最多,其次是長(zhǎng)沙
南站希爾頓歡朋酒店,可以看出前2位熱評(píng)最多酒店地理位置都是坐落于交通樞
紐位置,交通便利,地勢(shì)得天獨(dú)厚,是來(lái)長(zhǎng)沙旅游辦公居所的不二之選。
可以看出交通樞紐型酒店是指位于城市交通要道,如機(jī)場(chǎng)、車站、碼頭等附近
或中心地帶的酒店。這類酒店通常擁有良好的地理位置和便捷的交通條件,能夠吸
引大量的商務(wù)客人。
5.2.5前600家酒店星級(jí)數(shù)據(jù)統(tǒng)計(jì)與分析
18
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-7數(shù)據(jù)統(tǒng)計(jì)展示頁(yè)面
由圖5-7數(shù)據(jù)展示圖可以得知,在前600家酒店中黃色區(qū)域3星級(jí)酒店占比
最多,有220家;其次是紅色區(qū)域2星級(jí)酒店,占比32%,有192家;然后是綠色
區(qū)域4星級(jí)酒店占比25.67%,有154家;最后是藍(lán)色區(qū)域5星級(jí)酒店占比最少,
占比5.67%只有34家。
另外,住宿是旅行中不可缺少的一個(gè)環(huán)節(jié)。酒店星級(jí)的高低,往往代表著該酒
店在行業(yè)內(nèi)的地位,也是游客在選擇時(shí)的一個(gè)重要參考因素。那么,如何從星級(jí)來(lái)
評(píng)價(jià)一個(gè)酒店的好壞呢?
5.2.6酒店售賣點(diǎn)詞云分析
19
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖5-8數(shù)據(jù)展示界面
酒店功能售賣數(shù)據(jù)分析:酒店價(jià)格的制定,是酒店?duì)I銷部門根據(jù)市場(chǎng)行情,
參照當(dāng)?shù)氐穆糜蜗M(fèi)水平和季節(jié)變化等情況綜合考慮后制定的。由圖5-8所示可
以得知,十億豪補(bǔ)的占比是最大的,其次是高鐵鉆石價(jià),可以看出占比較多的酒
店應(yīng)該是位置毗鄰高鐵交通樞紐的酒店。
5.3綜述
綜上所述,攜程網(wǎng)所篩選的受歡迎程度前600的酒店坐落于長(zhǎng)沙,評(píng)分高與
星級(jí)高的酒店在長(zhǎng)沙是當(dāng)下消費(fèi)者入住較多的酒店。酒店行業(yè)分析:長(zhǎng)沙酒店市場(chǎng)
規(guī)模持續(xù)增長(zhǎng),未來(lái)發(fā)展?jié)摿Υ蟆?/p>
首先,不同等級(jí)的酒店,消費(fèi)者關(guān)注的信息重點(diǎn)不一樣,而酒店頁(yè)面信息所
呈現(xiàn)的位置、順序級(jí)與方式都會(huì)顯著影響消費(fèi)者對(duì)信息的關(guān)注與接受,如對(duì)于五
星級(jí)酒店,其酒店地理位置、酒店價(jià)格及房型等信息應(yīng)該在重點(diǎn)區(qū)域,而對(duì)于經(jīng)
濟(jì)型酒店,消費(fèi)者的評(píng)論信息應(yīng)更方便、快捷、全面地呈現(xiàn)給消費(fèi)者,以便于他
們進(jìn)行全面地甄選來(lái)入住消費(fèi)。
其次,對(duì)數(shù)據(jù)可視化分析具象化了平臺(tái)酒店的星級(jí)信息、酒店賣點(diǎn)信息,可
以得知消費(fèi)者更傾向于入住三星級(jí)經(jīng)濟(jì)型酒店,其中消費(fèi)者對(duì)于酒店設(shè)施、免費(fèi)
停車、行李寄存及周邊環(huán)境的評(píng)價(jià)能夠顯著影響酒店的網(wǎng)上預(yù)訂,而對(duì)于其他的
標(biāo)簽服務(wù)消費(fèi)者并非非常看重。地位位置也
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 深度解析(2026)《GBT 25633-2010電火花加工機(jī)床 電磁兼容性試驗(yàn)規(guī)范》(2026年)深度解析
- 2025重慶酉陽(yáng)自治縣城區(qū)事業(yè)單位公開遴選34人備考考試試題及答案解析
- 2025福建福州市鼓樓區(qū)城投集團(tuán)招聘5人參考筆試題庫(kù)附答案解析
- 2025年12月廣東深圳市大鵬新區(qū)葵涌辦事處招聘編外人員3人備考考試試題及答案解析
- 2025山東青島市市南區(qū)城市發(fā)展有限公司附全資子公司招聘10人參考筆試題庫(kù)附答案解析
- 2025湖南長(zhǎng)沙市天心區(qū)龍灣小學(xué)教師招聘2人備考考試試題及答案解析
- 2025山東陽(yáng)昇甄選產(chǎn)業(yè)運(yùn)營(yíng)有限公司公開選聘工作人員(7人)備考筆試題庫(kù)及答案解析
- 《菱形的性質(zhì)與判定》數(shù)學(xué)課件教案
- “青苗筑基 浙里建證”浙江省建設(shè)投資集團(tuán)2026屆管培生招聘30人備考筆試題庫(kù)及答案解析
- 2026河南許昌市襄城縣兵役登記參考筆試題庫(kù)附答案解析
- Cuk斬波完整版本
- GB/T 3521-2023石墨化學(xué)分析方法
- 一年級(jí)數(shù)學(xué)重疊問(wèn)題練習(xí)題
- 三維動(dòng)畫及特效制作智慧樹知到課后章節(jié)答案2023年下吉林電子信息職業(yè)技術(shù)學(xué)院
- 胰腺囊腫的護(hù)理查房
- 臨床醫(yī)學(xué)概論常見(jiàn)癥狀課件
- 知識(shí)圖譜與自然語(yǔ)言處理的深度融合
- 物業(yè)管理理論實(shí)務(wù)教材
- 仁川國(guó)際機(jī)場(chǎng)
- 全檢員考試試題
- 光刻和刻蝕工藝
評(píng)論
0/150
提交評(píng)論