2023學(xué)年完整公開課版總結(jié)2_第1頁
2023學(xué)年完整公開課版總結(jié)2_第2頁
2023學(xué)年完整公開課版總結(jié)2_第3頁
2023學(xué)年完整公開課版總結(jié)2_第4頁
2023學(xué)年完整公開課版總結(jié)2_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主講:朱佳目錄0102HDFS文件系統(tǒng)命令DistCp0302Flume04KafkaHDFS文件系統(tǒng)命令1HDFS文件系統(tǒng)命令-cat命令:hadoopfs-cathdfs:///file1hadoopfs-catfile:///file1/user/sam/file2檢測(cè)HDFS文件:可以使用以下命令檢測(cè)HDFS中是否存在目標(biāo)文件:$hdfsdfs-test-e/user/alapati/file.txtHDFS文件系統(tǒng)命令可以使用-test命令的-z選項(xiàng)來檢測(cè)文件是否為空:$hdfsdfs-test-z/user/alapati/file.txt可以使用帶-d選項(xiàng)的-test命令來檢查文件是否為目錄:$hdfsdfs-test-d/user/alapati/testfile使用dfs-stat命令查看各種與文件相關(guān)的統(tǒng)計(jì)信息,例如是否是一個(gè)文件或目錄:$hdfsdfs-stat/user/alapati/file.txtHDFS文件系統(tǒng)命令-put命令:$hadoopfs-put/var/hadoop/logs/users/sam/-tail命令:$hdfsdfs-tail/users/sam/text1.txt-head命令:$hdfsdfs-cat/users/sam/text1.txt|head使用-get命令移動(dòng)文件:hadoopfs-get/user/hadoop/filelocalfileDistCp2DistCp當(dāng)使用DistCp工具移動(dòng)數(shù)據(jù)時(shí),可以使用幾個(gè)DistCp命令選項(xiàng)來自定義數(shù)據(jù)傳輸。以下是這些選項(xiàng)的說明?!?p:指定此選項(xiàng)時(shí),修改時(shí)間將保留?!?i:此選項(xiàng)指示DistCp忽略任何異常。它還保存復(fù)制失敗的日志?!?1og:此選項(xiàng)允許為日志文件指定目錄?!?m:此選項(xiàng)指定復(fù)制時(shí)map的最大數(shù)量?!?overwrite:此選項(xiàng)將覆蓋目標(biāo)。■-update:如果源文件大小與目標(biāo)文件大小不同,則使用此選項(xiàng)會(huì)覆蓋目標(biāo)DistCp■-f<urilisturi>:此選項(xiàng)允許指定一個(gè)包含所有源文件的文件URI,而不是在命令行上指定它們。-delete:此選項(xiàng)從目標(biāo)(但不是源)刪除文件。如果已啟用回收站,就自動(dòng)使用。■-sizelimit<n>:此選項(xiàng)指定復(fù)制的最大大小(以字節(jié)為單位)?!?filelimit:此選項(xiàng)用于限制文件的總數(shù)。Flume3FlumeFlume是一種分布式,可靠且可用的服務(wù),用于有效地收集,聚合和移動(dòng)大量日志數(shù)據(jù)。它具有基于流數(shù)據(jù)流的簡(jiǎn)單靈活的體系結(jié)構(gòu)。它具有可調(diào)整的可靠性機(jī)制以及許多故障轉(zhuǎn)移和恢復(fù)機(jī)制,具有強(qiáng)大的功能和容錯(cuò)能力。它使用一個(gè)簡(jiǎn)單的可擴(kuò)展數(shù)據(jù)模型,允許在線分析應(yīng)用程序。Flumeagent(在JVM中運(yùn)行)是一個(gè)守護(hù)進(jìn)程,是Flume的基本單元。agent由三個(gè)組件組成:source、channel和sink?!鰏ource將事件寫入一個(gè)或多個(gè)channel,這些channel是事件的保留區(qū)域Flume■事件通過channel從source傳遞到sink?!鰏ink是Flume傳輸數(shù)據(jù)的最終存儲(chǔ)庫。Flumeagent是一個(gè)JVM進(jìn)程,托管Flume數(shù)據(jù)事件流經(jīng)過的三個(gè)組件(source、channel和sink)。請(qǐng)注意,sink還可以作為其他Flumeagent的數(shù)據(jù)源,或?qū)?shù)據(jù)寫入HDFS和S3。Kafka4KafkaApacheKafka是一種種發(fā)布-訂閱消息系統(tǒng),用于替代傳統(tǒng)的消息代理(如JMS),因?yàn)樗峁┝烁玫耐掏铝亢涂煽啃?。Kafka具有高容錯(cuò)能力,允許并行數(shù)據(jù)導(dǎo)入Hadoop,從而在Hadoop系統(tǒng)中進(jìn)行巨量數(shù)據(jù)的低延遲分析。在Hadoop2環(huán)境中,可以使用Kafka及ApacheStorm和ApacheSpark進(jìn)行流式數(shù)據(jù)的實(shí)時(shí)分析。Kafka提供了以下這些特性,在需要高吞吐量和可靠的消息傳遞的情況下它們顯得非常有用?!鲂阅?即使在處理大量存儲(chǔ)消息時(shí),也可以提供發(fā)布和訂閱消息的高吞吐量Kafka■數(shù)據(jù)一致性:無須實(shí)現(xiàn)檢查數(shù)據(jù)一致性的功能,因?yàn)镵afka已經(jīng)為你提供了■可擴(kuò)展性:Kafka是分布式系統(tǒng),沒有任何停機(jī)時(shí)間?!隹煽?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論