版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
RDD類型操作目錄/Contents01
轉(zhuǎn)換算子02行動算子轉(zhuǎn)換算子01轉(zhuǎn)換算子Transformation:轉(zhuǎn)換算子,這類轉(zhuǎn)換并不觸發(fā)提交作業(yè),完成作業(yè)中間過程處理。下面是一些常用的轉(zhuǎn)換算子操作的API。操作介紹map(func)將RDD中的每個元素傳入自定義函數(shù),獲取一個新的元素,然后用新的元素組成新的RDDfilter(func)對RDD中每個元素進行判斷,如果返回true則保留,返回false則剔除flatMap(func)與map類似,但是對每個元素都可以返回一個或多個新元素groupByKey(func)根據(jù)key進行分組,每個key對應一個Iterable<value>reduceByKey(func)對每個key對應value進行reduce操作轉(zhuǎn)換算子1.map(func)map(func)操作是對RDD中的每個元素都執(zhí)行一個指定的函數(shù)來產(chǎn)生一個新的RDD。2.filter(func)filter(func)操作會篩選出滿足條件(即func)的元素,返回一個新的數(shù)據(jù)集。3.flatMap(func)類似于map,但是每一個輸入元素,會被映射為0到多個輸出元素(因此,func函數(shù)的返回值是一個Seq,而不是單一元素)。在一個由(K,V)對組成的數(shù)據(jù)集上調(diào)用,返回一個(K,Seq[V])對的數(shù)據(jù)集。4.groupByKey(func)5.reduceByKey(func)顧名思義,reduceByKey就是對元素為KV對的RDD中Key相同的元素的Value進行reduce,因此,Key相同的多個元素的值被reduce為一個值,然后與原RDD中的Key組成一個新的KV對。行動算子02行動算子Action:行動算子,這類算子會觸發(fā)SparkContext提交Job作業(yè)。下面是一些常用的行動算子操作的API。操作介紹
reduce(func)通過函數(shù)func聚集數(shù)據(jù)集中的所有元素。Func函數(shù)接受2個參數(shù),返回一個值。這個函數(shù)必須是關聯(lián)性的,確??梢员徽_的并發(fā)執(zhí)行collect()在Driver的程序中,以數(shù)組的形式,返回數(shù)據(jù)集的所有元素。count()返回數(shù)據(jù)集的元素個數(shù)take(n)返回一個數(shù)組,由數(shù)據(jù)集的前n個元素組成。first()返回數(shù)據(jù)集的第一個元素(類似于take(1))foreach(func)在數(shù)據(jù)集的每一個元素上,運行函數(shù)func。
saveAsTextFile(path)將數(shù)據(jù)集的元素,以textfile的形式,保存到本地文件系統(tǒng),hdfs或者任何其它hadoop支持的文件系統(tǒng)。Spark將會調(diào)用每個元素的toString方法,并將它轉(zhuǎn)換為文件中的一行文本行動算子1.reduce(func)reduce將RDD中元素兩兩傳遞給輸入函數(shù),同時產(chǎn)生一個新的值,新產(chǎn)生的值與RDD中下一個元素再被傳遞給輸入函數(shù)直到最后只有一個值為止。2.collect()在Driver的程序中,以數(shù)組的形式,返回數(shù)據(jù)集的所有元素。這通常會在使用filter或者其它操作后,返回一個足夠小的數(shù)據(jù)子集再使用,直接將整個RDD集Collect返回,很可能會讓Driver程序OOM。3.count()count返回整個RDD的元素個數(shù)。我們可以定義一個RDD,使用count()來統(tǒng)計RDD的元素個數(shù)。
take和collect操作類似,只是collect操作獲取的所有數(shù)據(jù),而take操作是獲取前n個元素。4.take(n)5.first()first()的作用是返回數(shù)據(jù)集的第一個元素.我們可以定義一個RDD,使用first()來獲取RDD中的第一個元素。6.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年雙溪鄉(xiāng)人民政府關于公開選拔重點公益林護林員備考題庫及答案詳解一套
- 2025年國家知識產(chǎn)權局專利局專利審查協(xié)作四川中心公開招聘工作人員40人備考題庫及參考答案詳解
- 2024年廣州市海珠區(qū)社區(qū)專職人員招聘考試真題
- 2025年甘肅電器科學研究院聘用人員招聘備考題庫及答案詳解1套
- 玻璃鋼水箱課程設計三
- 2025年可再生能源供電十年市場報告
- 2025年齊齊哈爾市總工會工會社會工作者招聘39人考試參考試題及答案解析
- 2025江蘇常州市體育局下屬事業(yè)單位招聘1人備考核心試題附答案解析
- 2025年生物質(zhì)能發(fā)電技術標準行業(yè)報告
- 2025年中國科學院心理研究所認知與發(fā)展心理學研究室杜憶研究組招聘備考題庫及1套參考答案詳解
- 2025年齊齊哈爾市總工會工會社會工作者招聘39人考試筆試模擬試題及答案解析
- 中北大學2025年招聘編制外參編管理人員備考題庫(一)及一套完整答案詳解
- 教育學課件教學課件
- 學堂在線 雨課堂 學堂云 科研倫理與學術規(guī)范 章節(jié)測試答案
- 紀錄片《蘇東坡》全6集(附解說詞)
- GB/T 43824-2024村鎮(zhèn)供水工程技術規(guī)范
- AI對抗性攻擊防御機制
- DRBFM的展開詳細解讀2
- 四環(huán)素的發(fā)酵工藝課件
- 泥漿護壁鉆孔灌注樁的施工
- 征信調(diào)研報告3篇
評論
0/150
提交評論