版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
一、背景描述
大數(shù)據(jù)時代背景下,人們生活習(xí)慣發(fā)生了很多改變。
在傳統(tǒng)運營模式中,缺乏數(shù)據(jù)積累,人們在做出一些決策
行為過程中,更多是憑借個人經(jīng)驗和直覺,發(fā)展路徑比較
自我封閉。而大數(shù)據(jù)時代,為人們提供一種全新的思路,
通過大量的數(shù)據(jù)分析得出的結(jié)果將更加現(xiàn)實和準(zhǔn)確。平臺
可以根據(jù)用戶的瀏覽,點擊,評論等行為信息數(shù)據(jù)進行收
集和整理。通過大量用戶的行為可以對某一個產(chǎn)品進行比
較準(zhǔn)確客觀的評分和評價,或者進行相應(yīng)的用戶畫像,將
產(chǎn)品推薦給喜歡該產(chǎn)品的用戶進行相應(yīng)的消費。
因數(shù)據(jù)驅(qū)動的大數(shù)據(jù)時代已經(jīng)到來,沒有大數(shù)據(jù),我
們無法為用戶提供大部分服務(wù),為完成互聯(lián)網(wǎng)酒店、電商
的大數(shù)據(jù)分析工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),通
過Python語言以數(shù)據(jù)采集為基礎(chǔ),將采集的數(shù)據(jù)進行相應(yīng)處
理,并且進行數(shù)據(jù)標(biāo)注、數(shù)據(jù)分析與可視化、通過大數(shù)據(jù)
業(yè)務(wù)分析方法實現(xiàn)相應(yīng)數(shù)據(jù)分析。運行維護數(shù)據(jù)庫系統(tǒng)保
障存儲數(shù)據(jù)的安全性。通過運用相關(guān)大數(shù)據(jù)工具軟件解決
具體業(yè)務(wù)問題。你們作為該小組的技術(shù)人員,請按照下面
任務(wù)完成本次工作。
1
二、模塊一:平臺搭建與運維
(一)任務(wù)一:大數(shù)據(jù)平臺搭建
1.子任務(wù)一:Hadoop完全分布式安裝配置
本任務(wù)需要使用root用戶完成相關(guān)配置,安裝Hadoop需
要配置前置環(huán)境。命令中要求使用絕對路徑,具體要求如
下:
(1)從Master中的/opt/software目錄下將文件hadoop-
3.1.3.tar.gz、jdk-8u191-linux-x64.tar.gz安裝包解壓到
/opt/module路徑中(若路徑不存在,則需新建),將JDK解壓
命令復(fù)制并粘貼至客戶端桌面【Release\提交結(jié)果.docx】中
對應(yīng)的任務(wù)序號下;
(2)修改Master中/etc/profile文件,設(shè)置JDK環(huán)境變量
并使其生效,配置完畢后在Master節(jié)點分別執(zhí)行“java-
version”和“javac”命令,將命令行執(zhí)行結(jié)果分別截圖并
粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)
序號下;
(3)請完成host相關(guān)配置,將三個節(jié)點分別命名為
master、slave1、slave2,并做免密登錄,用scp命令并使用
絕對路徑從Master復(fù)制JDK解壓后的安裝文件到slave1、
slave2節(jié)點(若路徑不存在,則需新建),并配置slave1、
slave2相關(guān)環(huán)境變量,將全部scp復(fù)制JDK的命令復(fù)制并粘貼
2
至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號
下;
(4)在Master將Hadoop解壓到/opt/module(若路徑不存
在,則需新建)目錄下,并將解壓包分發(fā)至slave1、slave2中
,其中master、slave1、slave2節(jié)點均作為datanode,配置好
相關(guān)環(huán)境,初始化Hadoop環(huán)境namenode,將初始化命令及
初始化結(jié)果截圖(截取初始化結(jié)果日志最后20行即可)粘
貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序
號下;
(5)啟動Hadoop集群(包括hdfs和yarn),使用jps命
令查看Master節(jié)點與slave1節(jié)點的Java進程,將jps命令與結(jié)
果截圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)
的任務(wù)序號下。
2.子任務(wù)二:Flume安裝配置
本任務(wù)需要使用root用戶完成相關(guān)配置,已安裝Hadoop
及需要配置前置環(huán)境,具體要求如下:
(1)從Master中的/opt/software目錄下將文件apache-
flume-1.9.0-bin.tar.gz解壓到/opt/module目錄下,將解壓命令
復(fù)制并粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)
的任務(wù)序號下;
(2)完善相關(guān)配置設(shè)置,配置Flume環(huán)境變量,并使
環(huán)境變量生效,執(zhí)行命令flume-ngversion并將命令與結(jié)果截
3
圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任
務(wù)序號下;
(3)啟動Flume傳輸Hadoop日志(namenode或datanode
日志),查看HDFS中/tmp/flume目錄下生成的內(nèi)容,將查
看命令及結(jié)果(至少5條結(jié)果)截圖粘貼至客戶端桌面【
Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。
3.子任務(wù)三:FlinkonYarn安裝配置
本任務(wù)需要使用root用戶完成相關(guān)配置,已安裝Hadoop
及需要配置前置環(huán)境,具體要求如下:
(1)從Master中的/opt/software目錄下將文件flink-
1.14.0-bin-scala_2.12.tgz解壓到路徑/opt/module中(若路徑不
存在,則需新建),將完整解壓命令復(fù)制粘貼至客戶端桌面
【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下;
(2)修改容器中/etc/profile文件,設(shè)置Flink環(huán)境變量
并使環(huán)境變量生效。在容器中/opt目錄下運行命令flink--
version,將命令與結(jié)果截圖粘貼至客戶端桌面【Release\提
交結(jié)果.docx】中對應(yīng)的任務(wù)序號下;
(3)開啟Hadoop集群,在yarn上以perjob模式(即Job
分離模式,不采用Session模式)運行
$FLINK_HOME/examples/batch/WordCount.jar,將運行結(jié)果
最后10行截圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】
中對應(yīng)的任務(wù)序號下。
4
示例:
flinkrun-myarn-cluster-p2-yjm2G-ytm2G
$FLINK_HOME/examples/batch/WordCount.jar
(二)任務(wù)二:數(shù)據(jù)庫配置維護
1.子任務(wù)一:數(shù)據(jù)庫配置
(1)配置服務(wù)端MySQL數(shù)據(jù)庫的遠程連接。
(2)初始化MySQL數(shù)據(jù)庫系統(tǒng),將完整命令及初始化
成功的截圖復(fù)制粘貼至客戶端桌面【Release\提交結(jié)果.docx
】中對應(yīng)的任務(wù)序號下。
(3)配置root用戶允許任意ip連接,將完整命令截圖復(fù)
制粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任
務(wù)序號下
(4)通過root用戶登錄MySQL數(shù)據(jù)庫系統(tǒng),查看mysql
庫下的所有表,將完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)
制粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任
務(wù)序號下。
(5)輸入命令以創(chuàng)建新的用戶。完整命令及執(zhí)行命令
后的結(jié)果的截圖復(fù)制粘貼至客戶端桌面【Release\提交結(jié)果
.docx】中對應(yīng)的任務(wù)序號下。
(6)授予新用戶訪問數(shù)據(jù)的權(quán)限。完整命令及執(zhí)行命
令后的結(jié)果的截圖復(fù)制粘貼至客戶端桌面【Release\提交結(jié)
果.docx】中對應(yīng)的任務(wù)序號下。
5
(7)刷新權(quán)限。完整命令及執(zhí)行命令后的結(jié)果的截圖
復(fù)制粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的
任務(wù)序號下。
2.子任務(wù)二:創(chuàng)建相關(guān)表
(1)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫中創(chuàng)建酒店表
(hotel)。酒店表字段如下:
字段類型中文含義備注
idint酒店編號
hotel_namevarchar酒店名稱
cityvarchar城市
provincevarchar省份
levelvarchar星級
room_numint房間數(shù)
scoredouble評分
shoppingvarchar評論數(shù)
(2)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫中創(chuàng)建評論表
(comment)。評論表字段如下:
字段類型中文含義備注
idint評論編號
namevarchar酒店名稱
commentatorvarchar評論人
6
scoredouble評分
comment_timedatetime評論時間
contentvarchar評論內(nèi)容
將這兩個SQL建表語句分別截圖復(fù)制粘貼至客戶端桌面
【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。
3.子任務(wù)三:維護數(shù)據(jù)表
根據(jù)已給到的sql文件將這兩份數(shù)據(jù)導(dǎo)入任意自己創(chuàng)建
的數(shù)據(jù)庫中,并對其中的數(shù)據(jù)進行如下操作:
(1)在hotel_all表中刪除id為25的酒店數(shù)據(jù);
(2)在comment_all表中將id為30的評分改為5。
將這兩個SQL語句分別截圖復(fù)制粘貼至客戶端桌面【
Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。
7
三、模塊二:數(shù)據(jù)獲取與處理
(一)任務(wù)一:數(shù)據(jù)獲取與清洗
1.子任務(wù)一:數(shù)據(jù)獲取
有一份購物平臺列表數(shù)據(jù):商品ID、名稱、價格、瀏
覽量、銷量、庫存,并且存入到shopping.csv文件中。使用
pandas讀取shopping.csv并將讀取的csv打印在IDE終端的截
圖復(fù)制粘貼至【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號
下。
2.子任務(wù)二:數(shù)據(jù)處理
現(xiàn)已從相關(guān)網(wǎng)站及平臺獲取到原始數(shù)據(jù)集,為保障用
戶隱私和行業(yè)敏感信息,已進行數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指
對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感
隱私數(shù)據(jù)的可靠保護。同時為了正確保護消費者權(quán)益,對
于刷單或僵尸商戶要進行及時監(jiān)管,你的小組為此對數(shù)據(jù)
中異常數(shù)據(jù)進行處理。
相關(guān)數(shù)據(jù)文件中已經(jīng)包含了數(shù)據(jù)采集階段從購物網(wǎng)站
爬取的數(shù)據(jù)集,需要通過編寫代碼或腳本完成對相關(guān)數(shù)據(jù)
文件的清洗和整理。
請使用pandas庫加載并分析相關(guān)數(shù)據(jù)集,根據(jù)題目規(guī)定
要求使用pandas庫實現(xiàn)數(shù)據(jù)處理,具體要求如下:
(1)刪除shopping.csv中庫存小于10或庫存大于
10000的數(shù)據(jù),并存入shop1.csv;
8
(2)將涉及“刷單”、“撿漏”等字段的數(shù)據(jù)刪除,
并存入shop2.csv;
(3)將商品中涉及“女裝”字段的數(shù)據(jù)刪除,并存入
shop3.csv;
(4)將shopping.csv中手機價格為區(qū)間數(shù)據(jù)的,設(shè)置為
價格區(qū)間的平均數(shù),存入shop4.csv。
將該4個文件名截一張圖復(fù)制粘貼至客戶端桌面【
Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下。
(二)任務(wù)二:數(shù)據(jù)標(biāo)注
1.子任務(wù)一:分類標(biāo)注
使用Python工具庫SnowNLP對手機商城評論數(shù)據(jù)
model_comment.csv進行標(biāo)注,獲取情感傾向評分(
sentiments),具體的對情感傾向的標(biāo)注規(guī)則如下:
(1)對分數(shù)大于等于0.6的評論數(shù)據(jù)標(biāo)注為正向;
(2)對分數(shù)大于0.4小于0.6的評論數(shù)據(jù)標(biāo)注為中性;
(3)對分數(shù)小于等于0.4的評論數(shù)據(jù)標(biāo)注為負向。
根據(jù)采集到的評論信息,給出三類標(biāo)注好的數(shù)據(jù),存
入model_sen.csv。具體格式如下:
編號手機品牌評論信息情感傾向編號
1華為XXXXXX正向1
HUAWEI
9
將model_sen.csv打開后直接截圖(不用下拉)復(fù)制粘
貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)
序號下。
(三)任務(wù)二:數(shù)據(jù)統(tǒng)計
1.子任務(wù)一:HDFS文件上傳下載
本任務(wù)需要使用Hadoop、HDFS命令,已安裝Hadoop及
需要配置前置環(huán)境,具體要求如下:
(1)將mobile.txt文件上傳至HDFS新建目錄/input/中
,查看文件截圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】
中對應(yīng)的任務(wù)序號下;
(2)移動HDFS上mobile.txt文件到/user/hive/warehouse
目錄下,查看文件截圖粘貼至客戶端桌面【Release\提交結(jié)
果.docx】中對應(yīng)的任務(wù)序號下。
2.子任務(wù)二:處理異常數(shù)值
mobile.txt文件存儲了用戶購買行為數(shù)據(jù),數(shù)據(jù)中有
以下內(nèi)容:
字段名稱字段說明數(shù)據(jù)類型示例
Model型號string華為榮耀4A
華為榮耀4A雙卡雙待
Title標(biāo)題string4G手機白色移動4G版
標(biāo)配
comment評論string給我叔叔買的價格合理
10
功能完善用著還OK等過
段時間再來評價
member_level會員等級string金牌會員
from_platform購買平臺string京東PC客戶端
area地區(qū)string遼寧
user_impressio國民手機信號穩(wěn)定外觀
用戶印象string
n漂亮照相不錯
color顏色string金色
price價格float699
type網(wǎng)絡(luò)類型string移動4G版標(biāo)配
time時間string2019/3/2923:25
編寫MapReduce程序,實現(xiàn)以下功能:清除數(shù)據(jù)中分
隔符混亂的,多于11個字段的數(shù)據(jù),輸出文件到HDFS;在
控制臺按順序打印輸出前10條數(shù)據(jù),將結(jié)果截圖粘貼至客
戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的任務(wù)序號下
。
3.子任務(wù)三:數(shù)據(jù)統(tǒng)計
mobile.txt文件存儲了用戶購買行為數(shù)據(jù),數(shù)據(jù)中有
以下內(nèi)容:
字段名稱字段說明數(shù)據(jù)類型示例
model型號string華為榮耀4A
11
華為榮耀4A雙卡雙待
title標(biāo)題string4G手機白色移動4G版
標(biāo)配
給我叔叔買的價格合理
comment評論string功能完善用著還OK等過
段時間再來評價
member_level會員等級string金牌會員
from_platform購買平臺string京東PC客戶端
area地區(qū)string遼寧
user_impressio國民手機信號穩(wěn)定外觀
用戶印象string
n漂亮照相不錯
color顏色string金色
price價格float699
type網(wǎng)絡(luò)類型string移動4G版標(biāo)配
time時間string2019/3/2923:25
編寫MapReduce程序,實現(xiàn)以下功能:根據(jù)
user_impression這一字段,統(tǒng)計買家對商家銷售的手機商
品的印象,結(jié)果按照印象數(shù)降序排序,格式為:
(user_impression,次數(shù)),如:(性價比高,10),結(jié)果保存
至HDFS,在控制臺讀取HDFS文件輸出各組人數(shù),將結(jié)果截
圖粘貼至客戶端桌面【Release\提交結(jié)果.docx】中對應(yīng)的
任務(wù)序號下。
12
13
四、模塊三:業(yè)務(wù)分析與可視化
(一)任務(wù)一:數(shù)據(jù)分析與可視化
1.子任務(wù)一:數(shù)據(jù)分析
品牌價值和商品特性對用戶的購物習(xí)慣有著重要的影
響,不同的商品特性能夠滿足消費者不同的需求和偏好,
消費者往往也會根據(jù)自己對品牌的認知和評價以及對商品
特性的需求進行選擇和購買決策。請編寫程序或腳本根據(jù)
模塊二任務(wù)一子任務(wù)一采集到的數(shù)據(jù)文件shopping.csv進行
處理,要求對商品名稱進行分割,第一個元素作為對應(yīng)商
品品牌,其他元素作為對應(yīng)特征,統(tǒng)計以下的相關(guān)信息,
具體要求如下:
(1)對各品牌進行統(tǒng)計,進行正序排序展示前十名;
(2)對各商品特征進行統(tǒng)計,進行正序排序前六
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人力資源業(yè)務(wù)支持工作考核標(biāo)準(zhǔn)
- 科技公司運營經(jīng)理面試題及解答指南
- 2025年健康食品研發(fā)及銷售項目可行性研究報告
- 2025年餐飲行業(yè)供應(yīng)鏈優(yōu)化項目可行性研究報告
- 2025年新材料研究與應(yīng)用項目可行性研究報告
- 2025年電商運營與物流服務(wù)優(yōu)化可行性研究報告
- 2025年智能校園解決方案項目可行性研究報告
- 2025年城市海綿體建設(shè)項目可行性研究報告
- 2026年天府新區(qū)信息職業(yè)學(xué)院單招職業(yè)技能測試題庫及答案詳解1套
- 2026年重慶市自貢市單招職業(yè)傾向性測試題庫附答案詳解
- 急性中毒的處理與搶救
- 淤泥消納施工方案
- 附表:醫(yī)療美容主診醫(yī)師申請表
- 跌落式熔斷器熔絲故障原因分析
- 2023年全市中職學(xué)校學(xué)生職業(yè)技能大賽
- 畢節(jié)市織金縣化起鎮(zhèn)污水處理工程環(huán)評報告
- 河流動力學(xué)-同濟大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 倉庫安全管理檢查表
- 嶺南版美術(shù)科五年級上冊期末素質(zhì)檢測試題附答案
- 以執(zhí)業(yè)醫(yī)師考試為導(dǎo)向的兒科學(xué)臨床實習(xí)教學(xué)改革
- 一年級上冊美術(shù)測試題
評論
0/150
提交評論