Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目3 基于Hive實(shí)現(xiàn)廣告流量檢測數(shù)據(jù)存儲-技能拓展+測試題V1.0_第1頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目3 基于Hive實(shí)現(xiàn)廣告流量檢測數(shù)據(jù)存儲-技能拓展+測試題V1.0_第2頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目3 基于Hive實(shí)現(xiàn)廣告流量檢測數(shù)據(jù)存儲-技能拓展+測試題V1.0_第3頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目3 基于Hive實(shí)現(xiàn)廣告流量檢測數(shù)據(jù)存儲-技能拓展+測試題V1.0_第4頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目3 基于Hive實(shí)現(xiàn)廣告流量檢測數(shù)據(jù)存儲-技能拓展+測試題V1.0_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Hive實(shí)現(xiàn)廣告流量檢測數(shù)據(jù)存儲技能拓展+測試題技能拓展在數(shù)據(jù)查詢的語法格式中,“select…from…”為select語句的主體部分,在select續(xù)接的部分可為“*”(表示指定所有數(shù)據(jù))通配符、數(shù)據(jù)表的字段名、Hive中的各類函數(shù)、算術(shù)表達(dá)式等內(nèi)容,from后接的可以是表、視圖或子查詢語句。其中[]中包含的內(nèi)容為可選項(xiàng),數(shù)據(jù)查詢的語法格式的關(guān)鍵字介紹如下表。關(guān)鍵字說明table_referencetable_reference可以是一張表,一個視圖或一個子查詢語句where可選參數(shù),用于指定查詢條件distinctdistinct關(guān)鍵字用于剔除查詢結(jié)果中重復(fù)的數(shù)據(jù),如果沒有定義那么將輸出全部數(shù)據(jù)groupbygroupby用于將查詢結(jié)果按照指定字段進(jìn)行分組having可選參數(shù),與groupby關(guān)鍵字連用,可以將分組后的結(jié)果進(jìn)行過濾技能拓展關(guān)鍵字說明distributebydistributeby是根據(jù)指定字段分發(fā)到不同的Reducer進(jìn)行處理,且分發(fā)算法采用哈希散列,類似MapReduce中的Partition分區(qū),通常結(jié)合sortby使用sortbysortby是在數(shù)據(jù)進(jìn)入Reducer前完成排序,因此不是全局排序,如果設(shè)置mapred.reduce.tasks>1,那么sortby只能保證每個Reducer的輸出有序,不保證全局有序clusterbyclusterby是一個分桶查詢語句,根據(jù)指定的字段進(jìn)行分桶,分桶數(shù)取決于用戶設(shè)置reduce的個數(shù),并且分桶后,每桶數(shù)據(jù)都會進(jìn)行排序。如果distributeby和sortby指定的字段是同一個,那么此時可以理解為distributeby+sortby=clusterbyorderby用于將查詢結(jié)果按照指定字段進(jìn)行全局排序,因此輸出文件只有一個,且只存在一個Reducer,當(dāng)數(shù)據(jù)量很大時﹐需要較長的計算時間limitlimit關(guān)鍵字用于限制查詢結(jié)果返回的行數(shù),其中“offset”用于指定起始位置,計數(shù)從0開始;“rows”用于指定返回的行數(shù)技能拓展1.簡單查詢天氣數(shù)據(jù)使用select語句加limit關(guān)鍵字,讀取數(shù)據(jù)庫weather的表weather_in的前10行數(shù)據(jù),運(yùn)行結(jié)果如下圖。技能拓展表weather_in的數(shù)據(jù)中包含了最低溫度和最高溫度,為了解一天的溫差變化,可以使用select語句,計算最高溫度和最低溫度的差值,同樣只查看前10行數(shù)據(jù),運(yùn)行結(jié)果如下圖。技能拓展2.依據(jù)城市分組統(tǒng)計天氣數(shù)據(jù)量使用select語句加groupby關(guān)鍵字,可以統(tǒng)計表weather_in中每個城市的數(shù)據(jù)量。運(yùn)行結(jié)果如下圖,表weather_in均記錄了4座城市的181天氣溫數(shù)據(jù)。知識測試(1)下列不屬于Hive的數(shù)據(jù)類型是()。A.tinyintB.charsC.dateD.boolean(2)下列不能創(chuàng)建數(shù)據(jù)庫test的語句是()。A.createdatabasetest;B.createdatabasestest;C.CREATEDATABASETEST;D.createdatabaseifnotexiststest;知識測試(3)下列關(guān)于Hive數(shù)據(jù)庫的管理操作說法不正確的是()。A.數(shù)據(jù)庫可直接刪除B.創(chuàng)建數(shù)據(jù)庫時需保證數(shù)據(jù)庫名稱的唯一性C.刪除數(shù)據(jù)庫時,添加關(guān)鍵字cascade可強(qiáng)制性刪除數(shù)據(jù)庫及其相關(guān)的表D.數(shù)據(jù)庫創(chuàng)建好后不能更改有關(guān)數(shù)據(jù)庫的其他元數(shù)據(jù)(4)下列關(guān)于Hive表創(chuàng)建的說法不正確的是()。A.在Hive中可使用HDFS上的數(shù)據(jù)創(chuàng)建外部表B.在Hive中默認(rèn)創(chuàng)建內(nèi)部表C.分區(qū)表和桶表是一樣的D.可對分區(qū)表進(jìn)行分桶知識測試(5)下列關(guān)于修改Hive表的說法不正確的是()。A.使用關(guān)鍵字rename,可對Hive表進(jìn)行重命名B.使用“altertable”語法可添加、修改Hive表的列信息C.在Hive中可隨意刪除無用的分區(qū)D.在Hive中,修改表的一些操作可以修改數(shù)據(jù)本身(6)代碼“createtableifexistsQ_6(num,questionstring)”解釋錯誤的是()。A.代碼執(zhí)行后會創(chuàng)建表Q_6B.代碼無法執(zhí)行,缺少分號C.代碼不正確,沒有指定字段num的數(shù)據(jù)類型D.代碼不正確,缺少關(guān)鍵字not知識測試(7)下列關(guān)于導(dǎo)入數(shù)據(jù)至Hive表的操作說法正確的是()。A.在Hive中,導(dǎo)入數(shù)據(jù)的命令只有l(wèi)oadB.在Hive中使用單表插入數(shù)據(jù)和多表插入數(shù)據(jù)的語法一樣C.查詢到的數(shù)據(jù)無法使用新建表保存D.單表插入數(shù)據(jù)的操作要求插入的數(shù)據(jù)一致與查詢的數(shù)據(jù)類型一致(8)下列關(guān)于導(dǎo)出Hive表數(shù)據(jù)的說法不正確的是()。A.導(dǎo)出和導(dǎo)入的語法類似,均可指定覆蓋或追加模式B.導(dǎo)出數(shù)據(jù)至指定文件路徑時需要確保已存在該文件路徑C.Linux文件系統(tǒng)的/opt/output目錄下已存在文件8.txt,將Hive表的數(shù)據(jù)導(dǎo)出至/opt/output后,/opt/output目錄下只存在文件000000_0D.將Hive表的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)和HDFS的語法類似,不同的是Hive數(shù)據(jù)導(dǎo)出到HDFS無須添加local關(guān)鍵字知識測試(9)導(dǎo)入數(shù)據(jù)至Hive表的操作錯誤的是()。A.需要將數(shù)據(jù)文件上傳至指定目錄下,如Linux文件系統(tǒng)目錄、HDFS目錄B.使用load命令將文件數(shù)據(jù)導(dǎo)入至Hive表C.使用insert命令將文件數(shù)據(jù)導(dǎo)入至Hive表D.導(dǎo)入數(shù)據(jù)至Hive表前,為避免數(shù)據(jù)文件的首行字段名帶來的異常顯示,需要使用sed命令將首行字段名刪除技能測試1.測試要點(diǎn)熟悉Hive的基礎(chǔ)和復(fù)雜數(shù)據(jù)類型的使用。掌握數(shù)據(jù)庫的創(chuàng)建方法。掌握Hive表的創(chuàng)建方法。熟悉Hive表的數(shù)據(jù)導(dǎo)入方法。技能測試2.需求說明我國堅(jiān)持把發(fā)展經(jīng)濟(jì)的著力點(diǎn)放在實(shí)體經(jīng)濟(jì)上,其中實(shí)體經(jīng)濟(jì)包括農(nóng)業(yè)、服務(wù)業(yè)(如甜品店、咖啡店)等。現(xiàn)有一份某全國連鎖咖啡店品牌的全國各區(qū)域門店的經(jīng)營情況數(shù)據(jù)coffee_shop.csv,包括銷售數(shù)據(jù)、利潤數(shù)據(jù),以及門店基礎(chǔ)數(shù)據(jù),數(shù)據(jù)字段說明如下表。某連鎖咖啡店的負(fù)責(zé)人為提高,想對各區(qū)域門店經(jīng)營情況對比進(jìn)行分析,為新門店選址提供建議依據(jù),助力構(gòu)建優(yōu)質(zhì)高效的服務(wù)業(yè)新體系。在對某連鎖咖啡店經(jīng)營情況進(jìn)行分析之前,需要將數(shù)據(jù)存儲至Hive數(shù)據(jù)倉庫。字段名說明Store_ID門店編號,每個門店的唯一標(biāo)識Region區(qū)域,門店所在的區(qū)域或城市Sales銷售額,門店的銷售總額,單位:元技能測試字段名說明Profit利潤,門店的利潤總額,單位:元Customers顧客數(shù)量,門店的總顧客數(shù)量Avg_Transaction平均交易金額,每位顧客的平均交易金額,單位:元Staff_Count員工數(shù),門店的員工數(shù)量Store_Area門店面積,門店的營業(yè)面積,單位:平方米Rent租金,門店的租

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論