2021高職 大數(shù)據(jù)技術(shù)與應用 任務(wù)書1(賽項賽題)_第1頁
2021高職 大數(shù)據(jù)技術(shù)與應用 任務(wù)書1(賽項賽題)_第2頁
2021高職 大數(shù)據(jù)技術(shù)與應用 任務(wù)書1(賽項賽題)_第3頁
2021高職 大數(shù)據(jù)技術(shù)與應用 任務(wù)書1(賽項賽題)_第4頁
2021高職 大數(shù)據(jù)技術(shù)與應用 任務(wù)書1(賽項賽題)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2021年全國職業(yè)院校技能大賽

高職組

“大數(shù)據(jù)技術(shù)與應用”

賽項賽卷(GZ-xxxxxxx-X卷)

務(wù)

參賽隊編號:

背景描述

據(jù)央視財經(jīng)報道,2020年我國020市場規(guī)模突破萬億元,020市

場存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場較大份額,

并且業(yè)務(wù)增長迅速。截至2020年底,全國外賣總體訂單量已超過

171.2億單,同比增長7.5%,全國外賣市場交易規(guī)模達到8352億元,

同比增長14.8%o我國外賣用戶規(guī)模已接近5億人,其中80后、90

后是餐飲外賣服務(wù)的中堅消費力量,消費者使用餐飲外賣服務(wù)也不再

局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費者的外賣新寵。

為把握這一商業(yè)機遇,ChinaSkills公司計劃進駐外賣平臺市場,現(xiàn)

需對大規(guī)模成熟外賣平臺進行詳細評估調(diào)研,采集多方多維度數(shù)據(jù),

尋找行業(yè)痛點,摸清市場需求,以技術(shù)為手段為投資保駕護航。

為完成該項工作,你所在的小組將應用大數(shù)據(jù)技術(shù),以Python、

Java、Scala作為整個項目的基礎(chǔ)開發(fā)語言,基于大數(shù)據(jù)平臺綜合利

用MapReduce>Spark、MySQL、Scrapy、Flask、ECharts等,對數(shù)據(jù)

進行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實現(xiàn)對公司

未來的重點戰(zhàn)略方向提出建議。

你們作為該小組的技術(shù)人員,請按照下面任務(wù)完成本次工作,并

編制綜合報告。

模塊A:Hadoop平臺及組件的部署管理(15分)

環(huán)境說明:

編號主機名類型用戶密碼

1master主節(jié)點rootpasswd

2slavel從節(jié)點rootpasswd

3slave2從節(jié)點rootpasswd

補充說明:主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/Passwordl23$

相關(guān)軟件安裝包在/chinaskills目錄下

所有模塊中應用命令必須采用絕對路徑

任務(wù)一:HadoopHA部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境,

具體部署要求如下:

1、將/chinaskills下的JDK包解壓到/usr/local/src路徑下,命令復制并粘貼

至對應報告中;

2、設(shè)置JDK環(huán)境變量,并使環(huán)境變量只對當前root用戶生效;將環(huán)境變量配置

內(nèi)容復制并粘貼至對應報告中;

3、從master復制JDK環(huán)境變量文件到slavel、slave2節(jié)點,命令和結(jié)果復制

并粘貼至對應報告中;

4、配置SSH密鑰登錄,實現(xiàn)從master登錄到slavel,命令和結(jié)果復制并粘貼

至對應報告中;

5、Zookeeper配置完畢后,在slave2節(jié)點啟動Zookeeper,查看Zookeeper運

行狀態(tài),將命令和結(jié)果復制并粘貼至對應報告中;

6、Zookeeper、HadoopHA配置完畢后,在master節(jié)點啟動Hadoop,并查看服

務(wù)進程狀態(tài),并將結(jié)果復制并粘貼至對應報告中;

7、HadoopHA配置完畢后,在slavel節(jié)點查看服務(wù)進程,將命令及結(jié)果復制并

粘貼至對應報告中。

任務(wù)二:Hive部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體部署要求如下:

1、將指定路徑下的Hive安裝包解壓到(/usr/local/src)下,使用絕對路徑,

將命令復制并粘貼至對應報告中;

2,把解壓后的apache-hive-1.1.0-bin文件夾更名為hive;進入hive文件夾,

并將查看命令及結(jié)果復制并粘貼至對應報告中;

3、設(shè)置Hive環(huán)境變量,并使環(huán)境變量只對當前root用戶生效;并將環(huán)境變量

配置內(nèi)容復制并粘貼至對應報告中;

4、將Hive安裝目錄里hive-default,xml.template文件更名為hive-site,xml;

并將更改命令復制并粘貼至對應報告中;

5、通過VI編輯器配置hive-site,xml文件,將MySQL數(shù)據(jù)庫作為Hive元數(shù)據(jù)

庫。將配置文件“Hive元存儲”相關(guān)內(nèi)容復制并粘貼至對應報告中;

6、初始化Hive元數(shù)據(jù),將MySQL數(shù)據(jù)庫JDBC驅(qū)動拷貝到Hive安裝目錄的lib

文件夾下;并通過schematool命令執(zhí)行初始化,將初始化結(jié)果復制粘貼至對

應報告中;

7、啟動Hive并保存命令輸出結(jié)果,將結(jié)果輸出復制粘貼至對應報告中。

任務(wù)三:Sqoop組件部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體部署要求如下:

1、解壓/chinaskills路徑下的Sqoop安裝包到/usr/local/src路徑下,并使

用相關(guān)命令,修改解壓后文件夾名為sqoop,進入sqoop文件夾,并將查看

內(nèi)容復制粘貼至對應報告中;

2、修改Sqoop環(huán)境變量,并使環(huán)境變量只對當前root用戶生效,并將變量內(nèi)容

復制粘貼至對應報告中;

3、修改并配置sqoop-env.sh文件,并將修改內(nèi)容復制粘貼至對應報告中;

4、測試Sqoop連接MySQL數(shù)據(jù)庫是否成功,結(jié)果復制粘貼至對應報告中。

模塊B:數(shù)據(jù)采集與處理(20分)

項目背景說明

1、查看餐飲外送統(tǒng)計平臺網(wǎng)站源碼結(jié)構(gòu)。

1)打開網(wǎng)站,在網(wǎng)頁中右鍵點擊檢查,或者F12快捷鍵,查看

源碼頁面;

2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。

2、從餐飲外送統(tǒng)計平臺中采集需要數(shù)據(jù),按照要求使用Python語言

編寫代碼工程,獲取指定數(shù)據(jù)項,并對結(jié)果數(shù)據(jù)集進行必要的數(shù)

據(jù)處理。請將符合任務(wù)要求的結(jié)果復制粘貼至對應報告中。

具體步驟如下:

1)創(chuàng)建工程工程項目:C:\food_delivery

2)構(gòu)建采集請求

3)按要求定義相關(guān)字段

4)獲取有效數(shù)據(jù)

5)將獲取到的數(shù)據(jù)保存到指定位置

6)對數(shù)據(jù)集進行基礎(chǔ)的數(shù)據(jù)處理

至此已從餐飲外送統(tǒng)計平臺中獲取所需數(shù)據(jù),并完成了必要的基

礎(chǔ)的數(shù)據(jù)處理。

3、自行創(chuàng)建Scrapy工程項目food_delivery,路徑為C:\

food_delivery按照任務(wù)要求從餐飲外送統(tǒng)計平臺中獲取數(shù)據(jù)。

提取“商戶數(shù)據(jù)”頁面相關(guān)字段(包括平臺餐廳ID、餐廳名稱、

城市等全部有效數(shù)據(jù)項),保存至文件restaurant_data.json;

再提取“配送平臺灰測維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)(包括餐廳名稱、

城市、營業(yè)時長等全部字段)保存至文件grey_test.json。

4、每條數(shù)據(jù)記錄請以單獨一行保存,信息存儲格式為key:value。

文件保存路徑為:C:\outputo

示例:

{firrest._i,dj:n*.*.*.n,irrest._namen:ir*,*,*,ir,....)],

{fIIrest,_i,dJH:IF*..*.*IF,IFrest._nameII:It*.*,*,,...)],

5、任務(wù)中要求將“以下內(nèi)容及答案完整復制粘貼至對應報告中

粘貼到對應報告中的內(nèi)容示例如下:

配送范圍審核相關(guān)數(shù)據(jù)頁數(shù)為:100

灰度數(shù)據(jù)對比相關(guān)數(shù)據(jù)頁數(shù)為:100

任務(wù)一:爬取網(wǎng)頁信息

自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取“配送范圍審核-人員預算”與“灰

度數(shù)據(jù)對比”頁面相關(guān)數(shù)據(jù),通過爬蟲代碼分頁爬取,以合理的程序邏輯判斷相

關(guān)數(shù)據(jù)包含的頁數(shù)并將以下內(nèi)容及答案完整復制粘貼至對應報告中。

示例格式:

配送范圍審核相關(guān)數(shù)據(jù)頁數(shù)為:

灰度數(shù)據(jù)對比相關(guān)數(shù)據(jù)頁數(shù)為:

任務(wù)二:爬取指定文件

運行代碼,爬取網(wǎng)頁數(shù)據(jù)至指定文件。查看文件并填寫采集到的記錄行數(shù),

并將答案復制粘貼至對應報告中。

示例格式:

range_audited.json行數(shù)為:

grey_value.json行數(shù)為:

任務(wù)三:屬性判斷

審查爬取的range_audited數(shù)據(jù),判斷屬性“申請時間”、“創(chuàng)建時間”與

“created_at"、"updated_at”是否為重復屬性。如果為重復屬性,則刪除“申

請時間”、“創(chuàng)建時間”;如果不是重復屬性,請輸出數(shù)據(jù)集中數(shù)值不相同的記錄

條數(shù)。并將答案復制粘貼至對應報告中。

(1)如果僅考慮年、月、日數(shù)據(jù),忽略時、分、秒信息,“申請時間”、“創(chuàng)建時

間”與“created_at“、“updated_at”是否為重復屬性(請?zhí)顚憽笆恰?“否”):

(2)如果不是重復屬性,不同的記錄條數(shù)為(如果為重復屬性,請?zhí)顚?/p>

任務(wù)四:數(shù)據(jù)探索

針對爬取的greyvalue數(shù)據(jù),利用DataFrame.describe方法探索數(shù)據(jù)基本

情況,將輸出結(jié)果復制粘貼至對應報告中。

任務(wù)五:缺失值統(tǒng)計

針對缺失值較多的屬性”推單數(shù)-8日”,“有效完成率-8日”,“超時率-8日”,

請分別計算下列任務(wù),并將正確答案復制粘貼至對應報告中。

(1)屬性”推單數(shù)-8日”空值記錄條數(shù)為j,中位數(shù)為:—。

(2)屬性“有效完成率-8日”空值記錄條數(shù)為j,平均值為:—。

(3)屬性“超時率-8日”空值記錄條數(shù)為,平均值為j。

任務(wù)六:缺失值處理

請根據(jù)任務(wù)5中計算的結(jié)果,對數(shù)據(jù)集中存在空值的字段進行填充。查看填

充后的數(shù)據(jù)集前5條記錄,將查看結(jié)果復制粘貼至對應報告中。

模塊C:數(shù)據(jù)清洗與挖掘分析(25分)

項目背景說明

餐飲外賣平臺的核心價值體現(xiàn)在配送,而配送的價值則依賴于商

家與客戶的雙向選擇。外賣平臺通常會通過內(nèi)容激活消費者和商家兩

個群體的活躍度。消費者會參考平臺展示的內(nèi)容選擇商家,商家也會

以消費者評價與平臺統(tǒng)計數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用

戶下單、評論、形成正向循環(huán)。保證配送的時效與品質(zhì)是從優(yōu)化用戶

體驗的角度,吸引更多的用戶參與,進而帶動商家不斷入駐。由此,

商家、消費者、騎手在平臺上形成越來越多的真實可靠的數(shù)據(jù),幫助

消費者更好的做出消費決策,同時促進商家提高服務(wù)質(zhì)量。而平臺通

過數(shù)據(jù),不斷調(diào)整優(yōu)化服務(wù),從而不斷提升這種多邊網(wǎng)絡(luò)效應。提升

網(wǎng)絡(luò)效應的直接結(jié)果就是用戶和商家規(guī)模大幅提升,進而形成規(guī)模效

應一一降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。

為探索各大外賣平臺的市場策略與經(jīng)營模式,現(xiàn)已從平臺獲取到

了原始數(shù)據(jù)集,包含“餐廳id,retailer_id,餐廳名稱,城市,商

戶業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投

訴率,異常率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)

取消數(shù),配送取消異常數(shù),整體時長,接單時長,到店時長,取餐時

長,送達時長,商戶投訴數(shù),用戶投訴數(shù),差評數(shù),好評數(shù),評價數(shù),

最遠訂單距離,該訂單整體時效,該訂單接單時效,該訂單到店時效,

該訂單取餐時效,該訂單送達時效,該訂單評價”字段。為保障用戶

隱私和行業(yè)敏感信息,已經(jīng)對數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感信

息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。在

涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對真實數(shù)據(jù)進行

改造并提供測試使用,如身份證號、手機號等個人敏感信息都需要進

行數(shù)據(jù)脫敏。本題已將脫敏后的數(shù)據(jù)存放于平臺對應任務(wù)

/chinaskills目錄下。工程所需配置文件pom.xml存放于"C:\清洗

配置文件”。任務(wù)中所有命令務(wù)必使用絕對路徑。

任務(wù)一:數(shù)據(jù)清洗

子任務(wù)1

任務(wù)背景:

數(shù)據(jù)源為眾多網(wǎng)站及平臺的數(shù)據(jù)匯總,且為多次采集的結(jié)果,在整合多來源

數(shù)據(jù)時可能遇到數(shù)據(jù)沖突,或數(shù)據(jù)拼接導致的屬性列矛盾等情況。請根據(jù)任務(wù)具

體參數(shù)要求,針對原始數(shù)據(jù)集中不符合業(yè)務(wù)邏輯的屬性列進行清洗,并寫入指定

的數(shù)據(jù)庫或數(shù)據(jù)文件,復制并保存結(jié)果。

任務(wù)描述:

數(shù)據(jù)源文件存放于平臺對應任務(wù)/chinaskills目錄下,其中屬性“推單數(shù)”

是指外賣平臺通過顧客點單向商家推送的訂單數(shù)量,“接單數(shù)”為商家根據(jù)自身

情況,最終選擇接受訂單的數(shù)量。一般來說,商家對于平臺推送的訂單,排除自

身原因,例如原材料耗盡、用戶下單時店鋪已經(jīng)打爛等特殊情況,都會選擇接單。

請按照如下要求編寫Spark程序?qū)?shù)據(jù)進行清洗,并將結(jié)果輸出

/diliveryoutput1。

1)分析/chinaskills中數(shù)據(jù)文件

2)針對屬性列“推單數(shù)”、“接單數(shù)”,排查并刪除異常數(shù)據(jù)條目

3)程序打包并在Spark平臺運行,結(jié)果輸出至HDFS文件系統(tǒng)

/diliveryoutput1

具體任務(wù)要求:

1、將相關(guān)文件上傳至HDFS新建目錄/platform_data中,編寫Spark程序,剔

除屬性列“推單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條目,并在程序中以打印語句輸

出異常條數(shù)。將打印輸出結(jié)果復制并保存至對應報告中。(復制內(nèi)容需包含打印

語句輸出結(jié)果的上下各5行運行日志)。

示例格式:

==="推單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條數(shù)為***條===

2、程序打包并在Spark平臺運行,將剔除異常數(shù)據(jù)后的結(jié)果數(shù)據(jù)集輸出至HDFS

文件系統(tǒng)/diliveryout.putl。并查看輸出文件前20行,將查看命令與執(zhí)行結(jié)果

復制粘貼至對應報告中。

子任務(wù)2

任務(wù)背景:

客單價是指客戶在該商鋪下一單的平均支付價格。根據(jù)商家定位不同,可以

分為高客單價和低客單價。高客單價,單量一般表現(xiàn)平平;低單價則通常會獲得

更高的單量。不同的定價針對的消費人群不同、選擇的位置不同、營業(yè)的時間也

不同。高客單價的品類偏向于白領(lǐng)人群,一般說來辦公樓覆蓋越多的位置越好,

但是辦公樓并不一定都是白領(lǐng)人群,所以辦公樓也要區(qū)分區(qū)域性,客戶行業(yè)越是

前沿的,具備消費能力越高,但晚上和周末的單量一般較少。低客單價的品類偏

向于大眾化,選址優(yōu)先辦公/大學區(qū)/小區(qū)綜合覆蓋區(qū)域,滿足低消費與一般消費

能力用戶群。當前數(shù)據(jù)源因涉及到多個平臺及數(shù)據(jù)庫對接,個別信息由于人為操

作失誤或計算機故障等原因產(chǎn)生了數(shù)據(jù)缺失值。缺失值是一種常見的臟數(shù)據(jù)情況。

對于缺失值的處理,從總體上來說分為缺失值刪除和缺失值插補兩種處理方式。

當缺失值過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進行填

補,則數(shù)據(jù)分析結(jié)果可能會受到干擾,有失客觀性。結(jié)合行業(yè)數(shù)據(jù)本身特點及上

述考慮,對于數(shù)據(jù)集中數(shù)值字段缺失的情況,通常可以采用填充固定值、均值、

中位數(shù)、KNN填充、以及把缺失值作為新的label等方式處理。同時,不當?shù)?/p>

填充可能會令后續(xù)的分析結(jié)果出現(xiàn)導向性偏差,當缺失信息的記錄數(shù)較少時可采

用刪除的方式來進行處理。下面請根據(jù)任務(wù)具體參數(shù)要求處理關(guān)鍵字段缺失。

任務(wù)描述:

請以前置任務(wù)的結(jié)果數(shù)據(jù)集/diliveryoutputl作為輸入數(shù)據(jù)源,編寫

Spark程序,按照如下要求實現(xiàn)對數(shù)據(jù)的清洗,并將結(jié)果輸出。

1)解析/diliveryoutputl中的文件

2)針對數(shù)據(jù)集“客單價”屬性,審查缺失值數(shù)量

3)當缺失值比例小于5%時,對包含缺失值數(shù)據(jù)的樣本進行刪除

當缺失值比例大于5%時,對缺失值字段進行中位數(shù)填充

4)程序打包并在Spark平臺運行,結(jié)果輸出至HDFS文件系統(tǒng)

/diliveryoutput2

具體任務(wù)要求:

1、根據(jù)任務(wù)要求,編寫Spark程序,針對數(shù)據(jù)集“客單價”屬性,審查缺失值

數(shù)量,并打印輸出,將打印輸出結(jié)果復制并粘貼至對應報告中(復制內(nèi)容需包含

打印語句輸出結(jié)果的上下各5行運行日志)。

示例格式:

==="客單價"屬性缺失記錄為***條,缺失比例**%===

2、缺失值處理

a)當缺失比例小于5%時,對含缺失值數(shù)據(jù)記錄進行刪除,同時在對應答案報

告中粘貼如下內(nèi)容(復制內(nèi)容需包含打印語句輸出結(jié)果的上下各5行運行日志):

示例格式:

==="客單價”缺失記錄已刪除===

b)當缺失比例大于5%時,利用“客單價”屬性中位數(shù)對缺失值進行填充,并

將中位數(shù)打印輸出,將打印輸出結(jié)果復制并粘貼至對應報告中(復制內(nèi)容需包含

打印語句輸出結(jié)果的上下各5行運行日志)。

示例格式:

==="客單價”屬性中位數(shù)為***天===

3、將清洗后的數(shù)據(jù)集輸出至/diliveryoutput2,并查看輸出文件前10行,將查

看命令與執(zhí)行結(jié)果復制粘貼至對應報告中。

任務(wù)二:數(shù)據(jù)挖掘分析

任務(wù)背景:

聚類分析又稱群分析,它是研究分類問題的一種統(tǒng)計分析方法,同時也是數(shù)

據(jù)挖掘的一個重要算法。聚類分析是由若干模式組成的。通常,模式是一個度量

的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎(chǔ),同一個聚類簇

中的模式之間具有相似性,不同聚類簇之間具有相異性。

在商業(yè)上,聚類可以幫助平臺市場分析人員從數(shù)據(jù)中區(qū)分出不同的商家群體,

并提取每一類商家的經(jīng)營模式。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單

獨的工具以發(fā)現(xiàn)數(shù)據(jù)中的深層的信息,并且提取出每一類樣本的特點,或者把注

意力放在某一個特定的類上以作進一步的分析;同時,聚類分析也可以作為數(shù)據(jù)

挖掘算法中其他分析算法的一個預處理步驟。本題數(shù)據(jù)請采用數(shù)據(jù)清洗的輸出文

件/diliveryoutput2。工程所需配置文件pom.xml存放于"C:\分析與挖掘配置

文件:任務(wù)中所有命令務(wù)必使用絕對路徑。

選擇數(shù)據(jù)分析的維度通常分為用戶維度、行為維度和產(chǎn)品維度,想要對外賣

平臺入駐商家進行聚類劃分,有側(cè)重地分類評估商家對平臺的價值,首先需要針

對商家數(shù)據(jù)選擇核心數(shù)據(jù)集,為確保聚類模型收斂速度與質(zhì)量,以及消除量綱對

聚類結(jié)果的影響,首先應對數(shù)據(jù)進行歸一化或標準化處理,再進行數(shù)據(jù)建模。

任務(wù)描述:

請以數(shù)據(jù)清洗任務(wù)結(jié)果數(shù)據(jù)集/dilive:ryoutput2作為輸入數(shù)據(jù)源,按照如

下要求編寫Spark程序?qū)崿F(xiàn)對數(shù)據(jù)的分析,并將結(jié)果輸出至HDFS文件系統(tǒng)中

/diliveryoutput3o

1)解析/diliveryoutput2中的文件

2)提取商家數(shù)據(jù)核心屬性

3)針對商家核心屬性進行預處理

4)利用處理過的核心屬性集完成商家聚類

具體任務(wù)要求:

1、針對相關(guān)數(shù)據(jù)集抽取北京地區(qū)相關(guān)數(shù)據(jù)記錄,并計算商家好評比,將“好評

比”作為新屬性添加至屬性“評價數(shù)”后。將結(jié)果數(shù)據(jù)集輸出至/diliveryoutput3,

并查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果復制粘貼至對應報告中。

【好評比計算公式:好評比=好評數(shù)/評價數(shù)】

2、根據(jù)/dilive:ryoutput3中輸出的結(jié)果數(shù)據(jù)集,篩選4項核心屬性集:“商戶

業(yè)務(wù)包”,“接單數(shù)”,“客單價”,“好評比”,數(shù)據(jù)記錄以接單數(shù)降序排列。將結(jié)

果數(shù)據(jù)集輸出至/diliveryoutput4,并查看輸出文件前10行,將查看命令與執(zhí)

行結(jié)果復制粘貼至對應報告中。

3、由于核心數(shù)據(jù)集中“商戶業(yè)務(wù)包”為分類屬性,請將該屬性設(shè)置為啞變量;

同時對屬性“接單數(shù)”,“客單價”進行max-min歸一化,以實現(xiàn)對核心屬性的預

處理。將處理后的結(jié)果數(shù)據(jù)集以接單數(shù)降序排列,輸出至/diliveryoutput5,并

查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果復制粘貼至對應報告中。

【歸一化公式:x'=(x-X_min)/(X_max-X_min)]

4、對以上屬性對商家進行k-means聚類,聚類數(shù)設(shè)為4,迭代次數(shù)為2000次,

請以打印語句輸出聚類中心,及每個類的商家數(shù)。

示例格式:

==cluster0:聚類中心為[****]=商家數(shù)為***個===

==cluster1:聚類中心為[****]=商家數(shù)為***個===

模塊D、數(shù)據(jù)可視化(20分)

MySQL數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集包含了城市、地點、商家id、網(wǎng)格id、餐品種

類、標品屬性等多項基礎(chǔ)信息字段。請使用Flask框架,結(jié)合Echarts完成下列

任務(wù)。

數(shù)據(jù)庫賬號:takeout密碼:takeout

自行創(chuàng)建代碼工程路徑為C:\food_di1ivery

每個可視化圖中需要添加圖片作為背景水印。

任務(wù)一:氣泡圖呈現(xiàn)商家數(shù)量

任務(wù)背景:

商圈,指某商場以其所在地為原點,沿著一定的方向和距離擴展,吸引顧客

的輻射范圍。簡單地說,就是來店顧客所居住或工作的區(qū)域范圍。無論餐廳規(guī)模

大小,其銷售覆蓋區(qū)域總是有一定的地理范圍。這個地理范圍就是以某商場為中

心,向四周輻射到可能來店消費的顧客居住地或工作地。請按任務(wù)指定要求,輸

出相關(guān)圖例。

任務(wù)描述:

請根據(jù)數(shù)據(jù)庫相關(guān)數(shù)據(jù)集中city_name,location,latitude,longtitude,

rest_type,p1atform_A_restid,A_rst_name,A_day_30_cnt,p1atform_B_restid,

B_rst_name,B_day_30_cnt等字段,明晰地理位置與商鋪聚集程度之間的關(guān)系。

請以經(jīng)度為橫坐標,緯度為縱坐標,繪制商家數(shù)量氣泡圖,并以該地理位置的商

家數(shù)量/10作為氣泡半徑。

具體任務(wù)要求:

1、提取表格相關(guān)字段,在控制臺按照“商家數(shù)量”降序排列,打印輸出商圈名

稱及包含的商家數(shù)量。

示例格式:

==1:商圈****=商家數(shù)為***個===

==2:商圈****=商家數(shù)為***個===

2、使用Flask框架,結(jié)合Echarts,完成氣泡圖輸出。要求氣泡圖標題為“商

家聚集地理位置展示”,橫坐標為經(jīng)度,縱坐標為維度,以該地理位置的商家數(shù)

量/10作為氣泡半徑,繪制氣泡圖。將可視化結(jié)果截圖并保存(截圖需包含瀏覽

器地址欄)。

任務(wù)二:雙折線圖呈現(xiàn)市場占有率

任務(wù)背景:

市場份額亦稱“市場占有率指某企業(yè)的銷售量(或銷售額)在市場同類

品類中所占比重。反映企業(yè)在市場上的地位。通常市場份額越高,競爭力越強。

市場占有率一般有3種基本測算方法:(1)總體市場份額,指某企業(yè)銷售量在整

個行業(yè)中所占比重。(2)目標市場份額,指某企業(yè)銷售量在其目標市場,即其所

服務(wù)的市場中所占比重。(3)相對市場份額,指某企業(yè)銷售量與市場上最大競爭

者銷售量之比,若高于1,表明該企業(yè)其為這一市場的領(lǐng)導者。請按任務(wù)指定要

求,輸出不同平臺商家銷售分析相關(guān)圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),分別統(tǒng)計A平臺與B平臺30天銷量最高的10個商家

的銷量,并以共享y軸的雙折線圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格city_name,location,latitude,longtitude,rest_type,

platform_A_restid,A_rst_name,A_day_30_cnt,platformB_restid,

B_rst_name,B_day_30_cnt等字段,分別統(tǒng)計A平臺與B平臺30天銷量最高的

10個商家及銷量,在控制臺按照“30天銷量”降序打印輸出商家id,商家所屬

平臺,及30天銷量。

示例格式:

==1:"****",Platform-A,銷量為***===

==2:”****”,Platform-A,銷量為***===

==10:"****",Platform-A,銷量為***===

==1:"****",Platform-B,銷量為***===

==2:"****",Platform-B,銷量為***===

==10:"****",Platform-B,商家數(shù)為***個===

2、使用Flask框架,結(jié)合Echarts,完成可視化輸出。要求雙折線圖標題為“各

平臺30天銷量最高10大商家”,橫坐標1(下方)為平臺A商家id,橫坐標2(下

方)為平臺B商家id(傾斜顯示、互不遮擋),縱坐標為商家銷量,以銷量降序

排列,紅色折線標識Platform-A商家,藍色折線標識Platform-B商家。將可視

化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

任務(wù)三:餅狀圖呈現(xiàn)標品屬性

任務(wù)背景:

外賣平臺的“標品屬性”是指外賣的配送方式,一般說來分為眾包、專送、

自營銷三種方式。其中,專送的穩(wěn)定性最高,專送騎手是配送商的正式員工,且

接單模式是平臺派單,所以惡劣天氣也很少會出現(xiàn)無人接單的尷尬情況。眾包則

是兼職配送員,以搶單的方式接單配送,所以一些“難送”或者惡劣天氣時的訂

單經(jīng)常會出現(xiàn)無人接單的情況。這將導致商家大量訂單積壓送不出去,從而被迫

關(guān)店。從穩(wěn)定性上來講,專送要遠遠優(yōu)于眾包和快送。但專送的配送范圍相對較

小,在2km左右,對于一些快餐品類來說更為合適,但是對于一些高客單價的細

分品類來說,2km的配送范圍很難拓展單量。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要

求,輸出配送方式相關(guān)分析圖例。

任務(wù)描述:

請根據(jù)數(shù)據(jù)庫相關(guān)表格數(shù)據(jù),統(tǒng)計不同標品屬性的商家數(shù)量,并以餅狀圖表

達。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格網(wǎng)格ID,網(wǎng)格名稱,城市,戰(zhàn)團,餐廳ID,近7天平臺單量,近

7天推單,餐廳名,餐廳地址(取餐地址),餐品種類,標品屬性,全推/選推等

字段等字段,統(tǒng)計不同標品屬性的商家數(shù)量。請將標品屬性“專送KA”合并至

“專送”中,“眾包平臺”合并至“眾包”中。在控制臺降序打印輸出標品屬性,

商家數(shù)量。

打印語句格式如下:

==專送:商家***個===

==眾包:商家***個===

2、使用Flask框架,結(jié)合Echarts,完成餅圖輸出。要求餅圖標題為“標品屬

性占比”,并標識該分類占比。將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地

址欄)。

任務(wù)四:組圖(條形圖、玫瑰餅圖)呈現(xiàn)戰(zhàn)團數(shù)量

任務(wù)背景:

外賣平臺對商家業(yè)務(wù)的拓展主要由BD負責,BD(BussinessDeveloper)即為

業(yè)務(wù)拓展經(jīng)理,工作職責是根據(jù)公司的業(yè)務(wù)戰(zhàn)略制定具體的戰(zhàn)略實施計劃,業(yè)務(wù)

推廣計劃,商家上架計劃的達成跟進及分析,提供訂單銷售分析報告。同時負責

調(diào)查區(qū)域品牌發(fā)展狀況,調(diào)研競品,為公司品牌發(fā)展提出相應建議。BD的上一

層戰(zhàn)略組織為戰(zhàn)營、戰(zhàn)團。一般指在更大的地域范圍內(nèi)組成的銷售部門,存在共

同的業(yè)務(wù)發(fā)展愿景和明確的績效考核指標。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,

輸出相關(guān)分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計不同戰(zhàn)團商家數(shù)量以及不同餐品品類占比,并以

組圖表達。

具體任務(wù)要求:

1、請根據(jù)表格中網(wǎng)格ID,網(wǎng)格名稱,城市,戰(zhàn)團,餐廳ID,近7天平臺單量,

近7天推單,餐廳名,餐廳地址(取餐地址),餐品種類,標品屬性,全推/選推

等字段字段,統(tǒng)計不同戰(zhàn)團的商家數(shù)量。請在控制臺以上架數(shù)量降序打印輸出戰(zhàn)

團名稱,商家數(shù)量。

打印語句格式如下:

==戰(zhàn)團:***,商家***個===

==戰(zhàn)團:***,商家***個===

1、統(tǒng)計包含商家數(shù)量最多的戰(zhàn)團中,不同餐品品類的占比。請匯總前4位餐品

品類占比,其他品類請歸并為“其他”。請在控制臺以占比數(shù)值降序打印輸出餐

品品類,商家數(shù)。

打印語句格式如下:

==小吃夜宵,商家***個===

==特色菜系,商家***個===

2、使用Flask框架,結(jié)合Echarts,完成組圖輸出。要求組圖左側(cè)輸出1)小題

數(shù)據(jù)條形圖,標題為“ToplO戰(zhàn)團商家數(shù)量”,縱坐標為戰(zhàn)團名,橫坐標為包含

商家個數(shù),并在柱形上方標識商家數(shù);組圖右側(cè)繪制2)小題數(shù)據(jù)的玫瑰餅圖表

達并標識各分類占比,標題為“**戰(zhàn)團餐品品類占比”。將可視化結(jié)果截圖并保

存(截圖需包含瀏覽器地址欄)。

任務(wù)五:柱狀圖呈現(xiàn)推單差值

任務(wù)背景:

網(wǎng)格化營銷是近年來新興的一種營銷管理模式,已被廣泛地運用于市場精準

營銷。在市場營銷中,采取地圖營銷、網(wǎng)格管理、精準策略等,可將客戶的心理

需求與其日常生活緊密地聯(lián)系起來,巧妙運用網(wǎng)格化管理和營銷地圖,以此來實

現(xiàn)客戶的營銷精準度與價值提升,提高單一客戶貢獻值和營銷效率。其核心旨在

幫助企業(yè)快速響應市場需求,為用戶提供更加便捷的、專業(yè)化服務(wù),并使企業(yè)的

資源分配以客戶為中心,以市場變化為導向,固本強基、開拓市場、提升效益,

有助于平臺有效地制定績效戰(zhàn)略。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出相

關(guān)分析圖例。

任務(wù)描述:

請根據(jù)數(shù)據(jù)庫相關(guān)表格數(shù)據(jù),統(tǒng)計不同標品屬性的商家數(shù)量,并以餅狀圖表

達。

具體任務(wù)要求:

1、請根據(jù)表格中網(wǎng)格ID,網(wǎng)格名稱,城市,戰(zhàn)團,餐廳ID,近7天平臺單量,

近7天推單,餐廳名,餐廳地址(取餐地址),餐品種類,標品屬性,全推/選推

等字段,統(tǒng)計不同網(wǎng)格“近7天平臺單量”,與“7天推單”的差值。在控制臺

以差值降序打印輸出前10位網(wǎng)格id,網(wǎng)格名稱,推單差值。

打印語句格式如下:

==1網(wǎng)格id:1111,網(wǎng)格名稱:****,推單差值為**===

==2網(wǎng)格id:1111,網(wǎng)格名稱:****,推單差值為**===

2、使用Flask框架,結(jié)合Echarts,完成柱狀圖輸出。以柱狀圖輸出推單差值

前10位的網(wǎng)格名稱及差值,其中標題為“推單差值ToplO”,橫坐標為網(wǎng)格名稱

(傾斜顯示,互補遮擋),縱坐標為推單差值。將可視化結(jié)果截圖并保存(截圖

需包含瀏覽器地址欄)。

任務(wù)六:組圖(玫瑰餅圖、柱狀圖)呈現(xiàn)投訴比例

任務(wù)背景:

投訴是顧客對平臺管理和服務(wù)不滿的表達方式,也是企業(yè)有價值的信息來源,

它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖

定他們對平臺和產(chǎn)品的忠誠,已成為企業(yè)營銷實踐的重要內(nèi)容之一。商戶業(yè)務(wù)包

是指該商戶在經(jīng)營定位時所確定的主要消費群體。不同城市消費群占比不同,大

致可以分為大客戶,白領(lǐng),小客戶,高校,家庭,其它六個商業(yè)業(yè)務(wù)包。請根

據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出投訴相關(guān)的分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)數(shù)據(jù)庫表格中“餐廳id,retailer_id,餐廳名稱,城市,商戶

業(yè)務(wù)包屬性,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異

常率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異

常數(shù),整體時長,接單時長,到店時長,取餐時長,送達時長,商戶投訴數(shù),用

戶投訴數(shù),差評數(shù),好評數(shù),評價數(shù),最遠訂單距離,該訂單整體時效,該訂單

接單時效,該訂單到店時效,該訂單取餐時效,該訂單送達時效,該訂單評價”

等字段,統(tǒng)計北京地區(qū),不同''商戶業(yè)務(wù)包”的餐廳數(shù)量及投訴數(shù)量,并以組圖

呈現(xiàn)。程序輸出及可視化輸出時請使用商戶業(yè)務(wù)包中文釋義,中文釋義對應關(guān)系

如表1所示。

表1商戶業(yè)務(wù)包中文釋義

字母縮寫中文釋義

GKA大客戶

BL白領(lǐng)

SIG小客戶

GX高效

FML家庭

OTH其他

具體任務(wù)要求:

1、根據(jù)相關(guān)數(shù)據(jù)庫表格字段,統(tǒng)計北京地區(qū)不同商戶業(yè)務(wù)包屬性商戶數(shù)量及投

訴數(shù)量,并在PyCharm控制臺打印輸出,請以投訴數(shù)量降序排列。

打印語句格式如下:

==1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家,投訴數(shù)***條===

==2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家,投訴數(shù)***條===

2、使用Flask框架,結(jié)合Echarts,完成組圖輸出。請在左側(cè)畫出以不同商戶

業(yè)務(wù)包屬性的商家數(shù)量降序排列的柱狀圖,標題為“北京商戶業(yè)務(wù)包商家數(shù)”,

橫坐標位商戶業(yè)務(wù)包名稱,縱坐標位商家數(shù)量;請在右側(cè)畫出不同商戶業(yè)務(wù)包商

家的投訴占比玫瑰圖,標題為“北京商戶業(yè)務(wù)包投訴占比“,順時針顯示次序與

打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

模塊E:綜合分析(20分)

通過模塊B的網(wǎng)站分析及數(shù)據(jù)爬取、模塊C的數(shù)據(jù)清洗與挖掘分析及模塊D

的數(shù)據(jù)可視化呈現(xiàn),我們已經(jīng)清晰的了解了餐飲外賣平臺業(yè)務(wù)背景及相關(guān)數(shù)據(jù),

在綜合理解外賣業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,根據(jù)任務(wù)要求進行分析,并編寫分析報告。

請根據(jù)任務(wù)要求,分析以下內(nèi)容,并編寫分析報告。分別從商家價值聚類、

推單差值等維度對外賣平臺推廣情況與網(wǎng)格銷售表現(xiàn)進行分析,并平臺經(jīng)營提出

幾點建議。

分析報告要求:

任務(wù)一:商家聚類分析

結(jié)合平臺相關(guān)數(shù)據(jù)文件,以雷達圖表示四類商家在核心屬性集上的聚類表現(xiàn)。

說明商家聚類對平臺發(fā)展的用途及經(jīng)營策略影響,分別以文字描述和圖例進行說

明。

任務(wù)二:推單差值分析

結(jié)合模塊D可視化分析中對不同網(wǎng)格推單量差值的統(tǒng)計結(jié)果,說明差值產(chǎn)生

的原因可能有哪些?對于縮小推單差值,你有哪些建議?分別以文字描述和圖例

進行說明。

任務(wù)三:平臺建議

請結(jié)合平臺業(yè)務(wù)背景及相關(guān)分析結(jié)論,對平臺未來規(guī)劃提出建議(不少于3

條建議)。

附錄:補充說明

數(shù)據(jù)集中涉及字段及中文說明

原字段中文釋義

city_name城市

location商圈

latitude緯度

longtitude經(jīng)度

rest_type商家所屬平臺

platform_A_restid商家id(A平臺)

A_rst__name店鋪名稱(A平臺)

A_day_30_cnt30天銷量(A平臺)

platform_B_restid商家id(B平臺)

B_rst_name店鋪名稱(B平臺)

B_day_30_cnt30天銷量(B平臺)

推單數(shù)-9推單數(shù)(9日)

有效完成率-9有效完成率(9日)

超時率-9超時率(90)

推單數(shù)-8推單數(shù)(80)

有效完成率-8有效完成率(8日)

超時率-8超時率(8日)

灰度餐廳灰度餐廳

Id標識id

Request_id請求id

Walle_id(平臺)商鋪id

Retailer_id(配送系統(tǒng))商鋪id

retailer_name商鋪名稱

retailer_address商鋪地址

retailer_location位置P0I編碼

City_id城市id

City_name城市名稱

Grid_id網(wǎng)格id

Carrier_id渠道經(jīng)理

Team_id渠道小組

Applicant_id申請人id

Applicant_name申請人

first_auditor_role一級審批角色

first_auditor_candidate_ids候選審批人id

first_auditor_id審核人id

first_auditor_name審批人名

second_auditor_role二級審批角色

secondauditor_candidate_ids審核小組成員

second_auditor_id二級審核人id

second_auditor_name二級審核人名

status申請狀態(tài)

maxdistancebeforeedit申請前最大配送距離

min_distance_before_edit申請前最小配送距離

max_distance_after_edit申請后最大配送距離

min_distance_after_edit申請后最小配送距離

area_before_edit申請前配送面積

areaafter_edit申請前配送面積

created_at申請遞交時間

updated_at審核完成

申請時間申請時間

創(chuàng)建時間創(chuàng)建時間

餐廳id餐廳id

餐廳名稱餐廳名稱

所屬城市所屬城市

營業(yè)時長營業(yè)時長

餐廳狀態(tài)餐廳狀態(tài)

是否托管是否托管

總單量總單量

總單量增長率總單量增長率

有效訂單量有效訂單量

有效訂單增長率有效訂單增長率

訂單配送成功率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論