版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER數(shù)據(jù)的存儲(1)5.1目錄5.1.1舊知回顧5.1.2探究新知5.1.3實操演練5.1.4小試牛刀5.1.5點評與總結Hive安裝配置表操作SparkSQL基礎為新能源汽車大數(shù)據(jù)存儲分析奠定技術基礎5.1.1舊知回顧PARTONE5.1.1舊知回顧Hadoop分布式系統(tǒng)基礎架構HDFSMapReduce5.1.1舊知回顧HDFS分布式文件系統(tǒng),主從架構NameNode管元數(shù)據(jù)DataNode存數(shù)據(jù)塊適合TB級大文件“一次寫入、多次讀取”MapReduce分布式計算模型Map(并行處理數(shù)據(jù)提鍵值對)Reduce(匯總中間結果)支撐海量數(shù)據(jù)處理5.1.2探究新知PARTTWO5.1.2探究新知實踐任務在Hadoop集群基礎上安裝Hive;用HiveSQL建庫、建外部表并關聯(lián)HDFS數(shù)據(jù);開發(fā)SparkSQL程序全量、增量同步Mysql表數(shù)據(jù)到Hive。5.1.2探究新知Hive概述SQL人員需查詢HDFS結構化數(shù)據(jù)時Hive可解決這一需求解析HiveSQL并轉成MapReduce任務執(zhí)行讓懂SQL但不懂MapReduce編程的人員也能使用Hadoop降低大數(shù)據(jù)處理門檻5.1.2探究新知Hive與關系型數(shù)據(jù)庫關鍵區(qū)別應用場景Hive查延時大適合海量離線數(shù)據(jù)統(tǒng)計數(shù)據(jù)更新默認不支持更新刪除多用于不常更新的數(shù)倉數(shù)據(jù)插入生產(chǎn)環(huán)境不建議直接用insert每次insert等價一次MapReduce5.1.2探究新知Hive架構MetaStoreHiveDrive存表結構等元數(shù)據(jù)依賴MySQL/OracleSQL解析器優(yōu)化器5.1.2探究新知Hive架構Yarn集群HDFS執(zhí)行MapReduce存表數(shù)據(jù)5.1.2探究新知Hive架構JDBC/ODBC驅動ThriftServer提供訪問接口映射HDFS文件為表轉SQL為MapReduce執(zhí)行返回結果5.1.2探究新知Hive3.1.3安裝實操5.1.2探究新知Hive實操實操5.1.2探究新知數(shù)據(jù)加載方式加載本地文件loaddatalocalinpath“/root/student.csv”intotablestudent將本地CSV文件導入表5.1.2探究新知數(shù)據(jù)加載方式insert插入insertintostudentvalues(“l(fā)ig13”,“803427”,30)insert本質是執(zhí)行MapReduce耗時較長5.1.2探究新知介紹SparkSQLSpark核心組件支持SQL分析核心對象:DataFrameSchema組織二維表Spark2.X用DataSet<Row>表示操作DSLSQL5.1.2探究新知介紹SparkSQL臨時視圖會話(僅當前會話訪問)全局(所有會話訪問)調(diào)用createTempView創(chuàng)會話臨時視圖用sparkSession.sql執(zhí)行SQL語句課程總結Hive安裝1表操作2SparkSQL基礎3是新能源汽車大數(shù)據(jù)存儲的核心支撐課程總結Hive與HDFS的關聯(lián)SQL到MapReduce的轉換邏輯e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER數(shù)據(jù)的存儲(2)5.1目錄5.1.1舊知回顧5.1.2探究新知5.1.3實操演練5.1.4小試牛刀5.1.5點評與總結5.1.3實操演練PARTTHREE5.1.3實操演練核心任務HDFS車輛動態(tài)明細數(shù)據(jù)MySQL車型銷售信息同步到Hive,構建數(shù)據(jù)倉庫ODS層5.1.3實操演練分步實操掌握數(shù)據(jù)同步關鍵流程夯實新能源汽車大數(shù)據(jù)存儲基礎5.1.3實操演練實操課程總結創(chuàng)建數(shù)據(jù)庫1實現(xiàn)多源數(shù)據(jù)的統(tǒng)一存儲ODS層構建關聯(lián)HDFS數(shù)據(jù)2同步MySQL數(shù)據(jù)3課程總結關鍵要點包括外部表的安全使用分區(qū)配置的數(shù)據(jù)組織作用全量與增量同步的場景適配為新能源汽車大數(shù)據(jù)的清洗與分析提供支撐e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER數(shù)據(jù)的存儲(3)5.1目錄5.1.1舊知回顧5.1.2探究新知5.1.3實操演練5.1.4小試牛刀5.1.5點評與總結通過三道練習題檢驗知識掌握程度系統(tǒng)梳理本小節(jié)核心內(nèi)容鞏固Hive與SparkSQL知識點形成完整的技術認知框架5.1.4小試牛刀PARTFOUR5.1.4小試牛刀問題一在Hive中,以下哪個命令用于查看表的結構信息?()解析:DESCRIBETABLE(或簡寫為DESCTABLE)是Hive中查看表結構的標準命令,能顯示字段名、數(shù)據(jù)類型及注釋等基礎元數(shù)據(jù);A選項SHOWTABLES用于查看數(shù)據(jù)庫中的表列表,C、D選項并非Hive的標準命令,因此排除。A.SHOWTABLESB.DESCRIBETABLEC.LISTSTRUCTURED.DISPLAYSCHEMAB5.1.4小試牛刀問題二關于SparkSQL的描述,以下哪項是錯誤的?()A.支持通過DataFrameAPI操作結構化數(shù)據(jù)CB.Catalyst優(yōu)化器可優(yōu)化查詢
計劃C.僅能處理存儲在HDFS上的
數(shù)據(jù)D.兼容Hive語法并支持查詢Hive表解析:SparkSQL支持多種數(shù)據(jù)源,不僅限于HDFS,還可直接處理Hive表、Parquet、JSON、JDBC數(shù)據(jù)庫(如MySQL)、本地文件系統(tǒng)等;A、B、D選項描述均符合SparkSQL的特性。5.1.4小試牛刀問題三在SparkSQL中,DataFrame
的核心特性是什么?()A.僅支持單一數(shù)據(jù)類型CB.是不可變的分布式數(shù)據(jù)集C.二維表格結構且每列可含不同數(shù)據(jù)類型D.必須手動指定行索引和列索引解析:DataFrame
的核心是二維表格結構,每列可包含不同數(shù)據(jù)類型,支持多類型混合列;A選項錯誤,因其支持多數(shù)據(jù)類型;B選項是RDD與DataFrame
共有的特性,并非DataFrame
核心;D選項錯誤,行/列索引由Spark自動管理,無需手動指定。5.1.5點評總結PARTFIVE5.1.5點評總結Hive相關知識包括概述安裝流程配置hive-site.xml替換guava包基本使用建庫建表加載數(shù)據(jù)元數(shù)據(jù)與表真實數(shù)據(jù)的存放地址元數(shù)據(jù)存于MySQL/Oracle表數(shù)據(jù)存于HDFS指定目錄Hive相關知識5.1.5點評總結Hive內(nèi)部表與外部表的差異內(nèi)部表外部表VS刪表時僅刪除元數(shù)據(jù)原始數(shù)據(jù)保留元數(shù)據(jù)與表數(shù)據(jù)會同時刪除選擇時結合數(shù)據(jù)是否已存在的場景判斷,避免數(shù)據(jù)誤刪。5.1.5點評總結SparkSQL相關知識SparkSQL相關知識包括01概述02DataFrame
概述二維表格結構多數(shù)據(jù)類型列03基本使用04關鍵應用場景5.1.5點評總結SparkSQL相關知識讀取MySQL數(shù)據(jù)并存儲到Hive,具體實現(xiàn)兩種同步方式:全量同步SaveMode.Overwrite
模式覆蓋數(shù)據(jù)增量同步MAX(sales_id)動態(tài)獲取最大ID僅同步新增數(shù)據(jù)5.1.5點評總結核心實踐目標構建數(shù)據(jù)倉庫ODS層通過Hive
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB 7300.310-2025飼料添加劑第3部分:礦物元素及其絡(螯)合物酵母硒
- 惑與不惑議論文題目及答案
- 簡愛初中考試題目及答案
- 九宮格拼字題目及答案
- 考爸爸的考試題目及答案
- 養(yǎng)老院老人生活照顧人員晉升制度
- 高校爬樹課面試題目及答案
- 養(yǎng)老院老人健康飲食制度
- 中考生物高考題目及答案
- 辦公室網(wǎng)絡安全教育與培訓制度
- 2025-2030腦機接口神經(jīng)信號解碼芯片功耗降低技術路線圖報告
- 空調(diào)安裝應急預案
- 木屋架維修施工方案
- 人工智能+技術體系變革智能物流研究報告
- 借用別人公司賬戶協(xié)議書
- 春節(jié)期間駕駛員安全教育
- 西湖龍井采購合同范本
- 集團公司職業(yè)技能等級認定管理辦法
- 2025年紫金礦業(yè)ai面試題目及答案
- 復發(fā)性叢集性頭痛
- HY/T 0437-2024海洋生物資源碳增匯計量和監(jiān)測技術規(guī)范大型藻類(筏式養(yǎng)殖)
評論
0/150
提交評論