版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Hadoop大數(shù)據(jù)解決方案進(jìn)階應(yīng)用Hadoop講師:迪倫(北風(fēng)網(wǎng)版權(quán)所有)MapReduce高階實(shí)現(xiàn)(14)hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第1頁(yè)!半連接實(shí)例
全局作業(yè)參數(shù)傳遞
全局?jǐn)?shù)據(jù)文件傳遞課程目標(biāo)hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第2頁(yè)!實(shí)例執(zhí)行結(jié)果:半連接hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第3頁(yè)!全局作業(yè)參數(shù)/數(shù)據(jù)的傳遞MapReduce作業(yè)處理過程中,有時(shí)需要讓每個(gè)節(jié)點(diǎn)共享一些重要的計(jì)算參數(shù)或數(shù)據(jù)對(duì)于小的計(jì)算參數(shù),可以通過Configuration類來傳遞對(duì)于較大的數(shù)據(jù),可以用共享數(shù)據(jù)文件來進(jìn)行傳遞盡量避免用硬代碼方式在程序中設(shè)置作業(yè)參數(shù),而是設(shè)置作業(yè)參數(shù)實(shí)現(xiàn)一個(gè)具有一定通用性的程序,允許任意指定字段作為參數(shù)運(yùn)行程序時(shí)指定需傳遞的數(shù)據(jù)然后該參數(shù)作為一個(gè)屬性保存在Configuration對(duì)象中并允許Map和Reduce節(jié)點(diǎn)從Configuration對(duì)象中獲取和使用該屬性值hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第4頁(yè)!全局作業(yè)參數(shù)的傳遞實(shí)例需求:處理顧客和訂單數(shù)數(shù)據(jù)集的連接連接主鍵參數(shù)希望通過在命令行中給出連接主鍵的列號(hào)來設(shè)置代碼實(shí)現(xiàn)將第1個(gè)輸入?yún)?shù)設(shè)置為GroupKeyColIdx屬性hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第5頁(yè)!查詢?nèi)諱apReduce作業(yè)屬性程序可以通過Configuration對(duì)象,使用預(yù)定義的屬性名稱查詢計(jì)算作業(yè)相關(guān)的信息hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第6頁(yè)!全局?jǐn)?shù)據(jù)文件的傳遞通過分布式緩存實(shí)現(xiàn)數(shù)據(jù)文件的傳遞先將這些文件傳送到分布式緩存中然后各個(gè)節(jié)點(diǎn)從分布式緩存中將文件復(fù)制到本地的文件系統(tǒng)中使用為提高訪問速度,通常會(huì)將較小的文件數(shù)據(jù)讀入各節(jié)點(diǎn)的內(nèi)存中使用涉及的編程設(shè)置Job類
publicvoidaddCacheFile(URLuri):將一個(gè)文件存放到分布式緩存中Mapper或Reducer的context類
publicPath[]getLocalCacheFiles():獲取設(shè)置在分布式緩存中的文件路徑,以便能將這些文件讀入到每個(gè)節(jié)點(diǎn)hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第7頁(yè)!全局?jǐn)?shù)據(jù)文件的傳遞hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第8頁(yè)!多數(shù)據(jù)源連接解決方法的限制如果數(shù)據(jù)源兩兩之間需要進(jìn)行多個(gè)不同的主鍵和外鍵的連接,則無法一次性完成數(shù)據(jù)源的連接通過多次使用MapReduce過程完成不同主/外鍵鍵的連接例如,有三個(gè)數(shù)據(jù)源,Customers(CustomerID主鍵)、Orders(OrderID主鍵,CustomerID外鍵、ItemID外鍵)、Products(ItemID主鍵)解決方法:設(shè)計(jì)兩個(gè)MapReduce作業(yè)個(gè)作業(yè)完成Customers與Orders的連接第二個(gè)作業(yè)完成個(gè)作業(yè)的連接結(jié)果與Products的連接hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第9頁(yè)!全局作業(yè)參數(shù)的傳遞Configuration類提供的保存和獲取屬性的方法hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第10頁(yè)!全局作業(yè)參數(shù)的傳遞實(shí)例在Mapper或Reducer類的初始化方法中從Configuration對(duì)象中讀取該屬性值hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第11頁(yè)!查詢?nèi)諱apReduce作業(yè)屬性通過Configuration類中提供的屬性獲取方法進(jìn)行,在屬性讀取方法中把相應(yīng)的作業(yè)屬性名設(shè)置好即可hadoop入門實(shí)例教程共14頁(yè),您現(xiàn)在瀏覽的是第12頁(yè)!全局?jǐn)?shù)據(jù)文件的傳遞實(shí)現(xiàn)將文件存入分布式緩存:從Mapper或Reducer的setup()方法中進(jìn)行讀取文件的初
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年湖南汽車工程職業(yè)學(xué)院招聘第一批高層次人才3人參考考試題庫(kù)及答案解析
- 2026浙江有色地勘集團(tuán)有限公司招聘技術(shù)人才4人考試參考試題及答案解析
- 六一-app活動(dòng)策劃方案(3篇)
- 電路布線-施工方案(3篇)
- 梳齒板施工方案(3篇)
- 2026云南羊場(chǎng)煤礦有限公司社會(huì)招聘20人備考考試題庫(kù)及答案解析
- 2026山東事業(yè)單位統(tǒng)考日照市嵐山區(qū)招聘初級(jí)綜合類崗位人員38人備考考試題庫(kù)及答案解析
- 2026山東聊城市“水城優(yōu)才·事編企用”?產(chǎn)業(yè)人才引進(jìn)16人備考考試題庫(kù)及答案解析
- 2026黑龍江港航工程有限公司招聘6人備考考試題庫(kù)及答案解析
- 2026大唐西藏能源開發(fā)有限公司招聘4人筆試模擬試題及答案解析
- 生產(chǎn)樣品合同范本
- 2025職業(yè)技能培訓(xùn)學(xué)校自查報(bào)告范文(3篇)
- 春節(jié)期間的安全注意事項(xiàng)課件
- 2026-2031年中國(guó)通信電子對(duì)抗設(shè)備行業(yè)深度分析與投資前景預(yù)測(cè)報(bào)告
- 北京市海淀區(qū)2025-2026學(xué)年高三上學(xué)期期中考試地理試題(含答案)
- 2024水電工程陸生野生動(dòng)物生境保護(hù)設(shè)計(jì)規(guī)范
- 風(fēng)電場(chǎng)安全警示教育培訓(xùn)課件
- 神經(jīng)細(xì)胞器膜脂質(zhì)調(diào)控機(jī)制-洞察及研究
- 加油站職業(yè)衛(wèi)生安全培訓(xùn)課件
- 仁愛科普版(2024)七年級(jí)上冊(cè)英語(yǔ)全冊(cè)教案(單元整體教學(xué)設(shè)計(jì))
- 高速公路路基施工組織方案
評(píng)論
0/150
提交評(píng)論