2024年全國職業(yè)院校技能大賽ZZ052-大數(shù)據(jù)應(yīng)用與服務(wù)賽項賽題第04套_第1頁
2024年全國職業(yè)院校技能大賽ZZ052-大數(shù)據(jù)應(yīng)用與服務(wù)賽項賽題第04套_第2頁
2024年全國職業(yè)院校技能大賽ZZ052-大數(shù)據(jù)應(yīng)用與服務(wù)賽項賽題第04套_第3頁
2024年全國職業(yè)院校技能大賽ZZ052-大數(shù)據(jù)應(yīng)用與服務(wù)賽項賽題第04套_第4頁
2024年全國職業(yè)院校技能大賽ZZ052-大數(shù)據(jù)應(yīng)用與服務(wù)賽項賽題第04套_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

一、背景描述

大數(shù)據(jù)時代背景下,人們生活習(xí)慣發(fā)生了很多改變。

在傳統(tǒng)運營模式中,缺乏數(shù)據(jù)積累,人們在做出一些決策

行為過程中,更多是憑借個人經(jīng)驗和直覺,發(fā)展路徑比較

自我封閉。而大數(shù)據(jù)時代,為人們提供一種全新的思路,

通過大量的數(shù)據(jù)分析得出的結(jié)果將更加現(xiàn)實和準(zhǔn)確。平臺

可以根據(jù)用戶的瀏覽,點擊,評論等行為信息數(shù)據(jù)進行收

集和整理。通過大量用戶的行為可以對某一個產(chǎn)品進行比

較準(zhǔn)確客觀的評分和評價,或者進行相應(yīng)的用戶畫像,將

產(chǎn)品推薦給喜歡該產(chǎn)品的用戶進行相應(yīng)的消費。

因數(shù)據(jù)驅(qū)動的大數(shù)據(jù)時代已經(jīng)到來,沒有大數(shù)據(jù),我

們無法為用戶提供大部分服務(wù),為完成互聯(lián)網(wǎng)酒店、電商

的大數(shù)據(jù)分析工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),通

過Python語言以數(shù)據(jù)采集為基礎(chǔ),將采集的數(shù)據(jù)進行相應(yīng)處

理,并且進行數(shù)據(jù)標(biāo)注、數(shù)據(jù)分析與可視化、通過大數(shù)據(jù)

業(yè)務(wù)分析方法實現(xiàn)相應(yīng)數(shù)據(jù)分析。運行維護數(shù)據(jù)庫系統(tǒng)保

障存儲數(shù)據(jù)的安全性。通過運用相關(guān)大數(shù)據(jù)工具軟件解決

具體業(yè)務(wù)問題。你們作為該小組的技術(shù)人員,請按照下面

任務(wù)完成本次工作。

1

二、模塊一:平臺搭建與運維

(一)任務(wù)一:大數(shù)據(jù)平臺搭建

1.子任務(wù)一:Hadoop完全分布式安裝配置

本任務(wù)需要使用root用戶完成相關(guān)配置,安裝Hadoop需

要配置前置環(huán)境。命令中要求使用絕對路徑,具體要求如

下:

(1)從Master中的/opt/software目錄下將文件hadoop-

3.1.3.tar.gz、jdk-8u191-linux-x64.tar.gz安裝包解壓到

/opt/module路徑中(若路徑不存在,則需新建),將JDK解壓

命令復(fù)制并粘貼至客戶端桌面【Release\提交結(jié)果.docx】中

對應(yīng)的任務(wù)序號下;

(2)修改Master中/etc/profile文件,設(shè)置JDK環(huán)境變量

并使其生效,配置完畢后在Master節(jié)點分別執(zhí)行“java-

version”和“javac”命令,將命令行執(zhí)行結(jié)果分別截圖并

粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)

序號下;

(3)請完成host相關(guān)配置,將三個節(jié)點分別命名為

master、slave1、slave2,并做免密登錄,用scp命令并使用

絕對路徑從Master復(fù)制JDK解壓后的安裝文件到slave1、

slave2節(jié)點(若路徑不存在,則需新建),并配置slave1、

slave2相關(guān)環(huán)境變量,將全部scp復(fù)制JDK的命令復(fù)制并粘貼

2

至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號

下;

(4)在Master將Hadoop解壓到/opt/module(若路徑不存

在,則需新建)目錄下,并將解壓包分發(fā)至slave1、slave2中

,其中master、slave1、slave2節(jié)點均作為datanode,配置好

相關(guān)環(huán)境,初始化Hadoop環(huán)境namenode,將初始化命令及

初始化結(jié)果截圖(截取初始化結(jié)果日志最后20行即可)粘

貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序

號下;

(5)啟動Hadoop集群(包括hdfs和yarn),使用jps命

令查看Master節(jié)點與slave1節(jié)點的Java進程,將jps命令與結(jié)

果截圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)

的任務(wù)序號下。

2.子任務(wù)二:Flume安裝配置

本任務(wù)需要使用root用戶完成相關(guān)配置,已安裝Hadoop

及需要配置前置環(huán)境,具體要求如下:

(1)從Master中的/opt/software目錄下將文件apache-

flume-1.9.0-bin.tar.gz解壓到/opt/module目錄下,將解壓命令

復(fù)制并粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)

的任務(wù)序號下;

(2)完善相關(guān)配置設(shè)置,配置Flume環(huán)境變量,并使

環(huán)境變量生效,執(zhí)行命令flume-ngversion并將命令與結(jié)果截

3

圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任

務(wù)序號下;

(3)啟動Flume傳輸Hadoop日志(namenode或datanode

日志),查看HDFS中/tmp/flume目錄下生成的內(nèi)容,將查

看命令及結(jié)果(至少5條結(jié)果)截圖粘貼至客戶端桌面【

Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。

3.子任務(wù)三:FlinkonYarn安裝配置

本任務(wù)需要使用root用戶完成相關(guān)配置,已安裝Hadoop

及需要配置前置環(huán)境,具體要求如下:

(1)從Master中的/opt/software目錄下將文件flink-

1.14.0-bin-scala_2.12.tgz解壓到路徑/opt/module中(若路徑不

存在,則需新建),將完整解壓命令復(fù)制粘貼至客戶端桌面

【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下;

(2)修改容器中/etc/profile文件,設(shè)置Flink環(huán)境變量

并使環(huán)境變量生效。在容器中/opt目錄下運行命令flink--

version,將命令與結(jié)果截圖粘貼至客戶端桌面【Release\提

交結(jié)果.docx】中對應(yīng)的任務(wù)序號下;

(3)開啟Hadoop集群,在yarn上以perjob模式(即Job

分離模式,不采用Session模式)運行

$FLINK_HOME/examples/batch/WordCount.jar,將運行結(jié)果

最后10行截圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】

中對應(yīng)的任務(wù)序號下。

4

示例:

flinkrun-myarn-cluster-p2-yjm2G-ytm2G

$FLINK_HOME/examples/batch/WordCount.jar

(二)任務(wù)二:數(shù)據(jù)庫配置維護

1.子任務(wù)一:數(shù)據(jù)庫配置

(1)配置服務(wù)端MySQL數(shù)據(jù)庫的遠程連接。

(2)初始化MySQL數(shù)據(jù)庫系統(tǒng),將完整命令及初始化

成功的截圖復(fù)制粘貼至客戶端桌面【Release\提交結(jié)果.docx

】中對應(yīng)的任務(wù)序號下。

(3)配置root用戶允許任意ip連接,將完整命令截圖復(fù)

制粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任

務(wù)序號下

(4)通過root用戶登錄MySQL數(shù)據(jù)庫系統(tǒng),查看mysql

庫下的所有表,將完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)

制粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任

務(wù)序號下。

(5)輸入命令以創(chuàng)建新的用戶。完整命令及執(zhí)行命令

后的結(jié)果的截圖復(fù)制粘貼至客戶端桌面【Release\提交結(jié)果

.docx】中對應(yīng)的任務(wù)序號下。

(6)授予新用戶訪問數(shù)據(jù)的權(quán)限。完整命令及執(zhí)行命

令后的結(jié)果的截圖復(fù)制粘貼至客戶端桌面【Release\提交結(jié)

果.docx】中對應(yīng)的任務(wù)序號下。

5

(7)刷新權(quán)限。完整命令及執(zhí)行命令后的結(jié)果的截圖

復(fù)制粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的

任務(wù)序號下。

2.子任務(wù)二:創(chuàng)建相關(guān)表

(1)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫中創(chuàng)建酒店表

(hotel)。酒店表字段如下:

字段類型中文含義備注

idint酒店編號

hotel_namevarchar酒店名稱

cityvarchar城市

provincevarchar省份

levelvarchar星級

room_numint房間數(shù)

scoredouble評分

shoppingvarchar評論數(shù)

(2)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫中創(chuàng)建評論表

(comment)。評論表字段如下:

字段類型中文含義備注

idint評論編號

namevarchar酒店名稱

commentatorvarchar評論人

6

scoredouble評分

comment_timedatetime評論時間

contentvarchar評論內(nèi)容

將這兩個SQL建表語句分別截圖復(fù)制粘貼至客戶端桌面

【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。

3.子任務(wù)三:維護數(shù)據(jù)表

根據(jù)已給到的sql文件將這兩份數(shù)據(jù)導(dǎo)入任意自己創(chuàng)建

的數(shù)據(jù)庫中,并對其中的數(shù)據(jù)進行如下操作:

(1)在hotel_all表中刪除id為25的酒店數(shù)據(jù);

(2)在comment_all表中將id為30的評分改為5。

將這兩個SQL語句分別截圖復(fù)制粘貼至客戶端桌面【

Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。

7

三、模塊二:數(shù)據(jù)獲取與處理

(一)任務(wù)一:數(shù)據(jù)獲取與清洗

1.子任務(wù)一:數(shù)據(jù)獲取

有一份購物平臺列表數(shù)據(jù):商品ID、名稱、價格、瀏

覽量、銷量、庫存,并且存入到shopping.csv文件中。使用

pandas讀取shopping.csv并將讀取的csv打印在IDE終端的截

圖復(fù)制粘貼至【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號

下。

2.子任務(wù)二:數(shù)據(jù)處理

現(xiàn)已從相關(guān)網(wǎng)站及平臺獲取到原始數(shù)據(jù)集,為保障用

戶隱私和行業(yè)敏感信息,已進行數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指

對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感

隱私數(shù)據(jù)的可靠保護。同時為了正確保護消費者權(quán)益,對

于刷單或僵尸商戶要進行及時監(jiān)管,你的小組為此對數(shù)據(jù)

中異常數(shù)據(jù)進行處理。

相關(guān)數(shù)據(jù)文件中已經(jīng)包含了數(shù)據(jù)采集階段從購物網(wǎng)站

爬取的數(shù)據(jù)集,需要通過編寫代碼或腳本完成對相關(guān)數(shù)據(jù)

文件的清洗和整理。

請使用pandas庫加載并分析相關(guān)數(shù)據(jù)集,根據(jù)題目規(guī)定

要求使用pandas庫實現(xiàn)數(shù)據(jù)處理,具體要求如下:

(1)刪除shopping.csv中庫存小于10或庫存大于

10000的數(shù)據(jù),并存入shop1.csv;

8

(2)將涉及“刷單”、“撿漏”等字段的數(shù)據(jù)刪除,

并存入shop2.csv;

(3)將商品中涉及“女裝”字段的數(shù)據(jù)刪除,并存入

shop3.csv;

(4)將shopping.csv中手機價格為區(qū)間數(shù)據(jù)的,設(shè)置為

價格區(qū)間的平均數(shù),存入shop4.csv。

將該4個文件名截一張圖復(fù)制粘貼至客戶端桌面【

Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。

(二)任務(wù)二:數(shù)據(jù)標(biāo)注

1.子任務(wù)一:分類標(biāo)注

使用Python工具庫SnowNLP對手機商城評論數(shù)據(jù)

model_comment.csv進行標(biāo)注,獲取情感傾向評分(

sentiments),具體的對情感傾向的標(biāo)注規(guī)則如下:

(1)對分數(shù)大于等于0.6的評論數(shù)據(jù)標(biāo)注為正向;

(2)對分數(shù)大于0.4小于0.6的評論數(shù)據(jù)標(biāo)注為中性;

(3)對分數(shù)小于等于0.4的評論數(shù)據(jù)標(biāo)注為負向。

根據(jù)采集到的評論信息,給出三類標(biāo)注好的數(shù)據(jù),存

入model_sen.csv。具體格式如下:

編號手機品牌評論信息情感傾向編號

1華為XXXXXX正向1

HUAWEI

9

將model_sen.csv打開后直接截圖(不用下拉)復(fù)制粘

貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)

序號下。

(三)任務(wù)二:數(shù)據(jù)統(tǒng)計

1.子任務(wù)一:HDFS文件上傳下載

本任務(wù)需要使用Hadoop、HDFS命令,已安裝Hadoop及

需要配置前置環(huán)境,具體要求如下:

(1)將mobile.txt文件上傳至HDFS新建目錄/input/中

,查看文件截圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】

中對應(yīng)的任務(wù)序號下;

(2)移動HDFS上mobile.txt文件到/user/hive/warehouse

目錄下,查看文件截圖粘貼至客戶端桌面【Release\提交結(jié)

果.docx】中對應(yīng)的任務(wù)序號下。

2.子任務(wù)二:處理異常數(shù)值

mobile.txt文件存儲了用戶購買行為數(shù)據(jù),數(shù)據(jù)中有

以下內(nèi)容:

字段名稱字段說明數(shù)據(jù)類型示例

Model型號string華為榮耀4A

華為榮耀4A雙卡雙待

Title標(biāo)題string4G手機白色移動4G版

標(biāo)配

comment評論string給我叔叔買的價格合理

10

功能完善用著還OK等過

段時間再來評價

member_level會員等級string金牌會員

from_platform購買平臺string京東PC客戶端

area地區(qū)string遼寧

user_impressio國民手機信號穩(wěn)定外觀

用戶印象string

n漂亮照相不錯

color顏色string金色

price價格float699

type網(wǎng)絡(luò)類型string移動4G版標(biāo)配

time時間string2019/3/2923:25

編寫MapReduce程序,實現(xiàn)以下功能:清除數(shù)據(jù)中分

隔符混亂的,多于11個字段的數(shù)據(jù),輸出文件到HDFS;在

控制臺按順序打印輸出前10條數(shù)據(jù),將結(jié)果截圖粘貼至客

戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下

。

3.子任務(wù)三:數(shù)據(jù)統(tǒng)計

mobile.txt文件存儲了用戶購買行為數(shù)據(jù),數(shù)據(jù)中有

以下內(nèi)容:

字段名稱字段說明數(shù)據(jù)類型示例

model型號string華為榮耀4A

11

華為榮耀4A雙卡雙待

title標(biāo)題string4G手機白色移動4G版

標(biāo)配

給我叔叔買的價格合理

comment評論string功能完善用著還OK等過

段時間再來評價

member_level會員等級string金牌會員

from_platform購買平臺string京東PC客戶端

area地區(qū)string遼寧

user_impressio國民手機信號穩(wěn)定外觀

用戶印象string

n漂亮照相不錯

color顏色string金色

price價格float699

type網(wǎng)絡(luò)類型string移動4G版標(biāo)配

time時間string2019/3/2923:25

編寫MapReduce程序,實現(xiàn)以下功能:根據(jù)

user_impression這一字段,統(tǒng)計買家對商家銷售的手機商

品的印象,結(jié)果按照印象數(shù)降序排序,格式為:

(user_impression,次數(shù)),如:(性價比高,10),結(jié)果保存

至HDFS,在控制臺讀取HDFS文件輸出各組人數(shù),將結(jié)果截

圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的

任務(wù)序號下。

12

13

四、模塊三:業(yè)務(wù)分析與可視化

(一)任務(wù)一:數(shù)據(jù)分析與可視化

1.子任務(wù)一:數(shù)據(jù)分析

品牌價值和商品特性對用戶的購物習(xí)慣有著重要的影

響,不同的商品特性能夠滿足消費者不同的需求和偏好,

消費者往往也會根據(jù)自己對品牌的認知和評價以及對商品

特性的需求進行選擇和購買決策。請編寫程序或腳本根據(jù)

模塊二任務(wù)一子任務(wù)一采集到的數(shù)據(jù)文件shopping.csv進行

處理,要求對商品名稱進行分割,第一個元素作為對應(yīng)商

品品牌,其他元素作為對應(yīng)特征,統(tǒng)計以下的相關(guān)信息,

具體要求如下:

(1)對各品牌進行統(tǒng)計,進行正序排序展示前十名;

(2)對各商品特征進行統(tǒng)計,進行正序排序前六

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論