分布式計(jì)算系統(tǒng) 課件 Chapter-3-批處理系統(tǒng)MapReduce、Chapter-4-批處理系統(tǒng)Spark

上傳人：q*** IP屬地：山東上傳時(shí)間：2025-07-06 格式：PPTX 頁(yè)數(shù)：243 大?。?2.51MB 積分：25 舉報(bào) 版權(quán)申訴

分布式計(jì)算系統(tǒng) 課件 Chapter-3-批處理系統(tǒng)MapReduce、Chapter-4-批處理系統(tǒng)Spark_第2頁(yè)

分布式計(jì)算系統(tǒng) 課件 Chapter-3-批處理系統(tǒng)MapReduce、Chapter-4-批處理系統(tǒng)Spark_第3頁(yè)

分布式計(jì)算系統(tǒng) 課件 Chapter-3-批處理系統(tǒng)MapReduce、Chapter-4-批處理系統(tǒng)Spark_第4頁(yè)

分布式計(jì)算系統(tǒng) 課件 Chapter-3-批處理系統(tǒng)MapReduce、Chapter-4-批處理系統(tǒng)Spark_第5頁(yè)

已閱讀5頁(yè)，還剩238頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章批處理系統(tǒng)MapReduceHadoop簡(jiǎn)介Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)，為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)Hadoop是基于Java語(yǔ)言開發(fā)的，具有很好的跨平臺(tái)特性，并且可以部署在廉價(jià)的計(jì)算機(jī)集群中Hadoop的核心是分布式文件系統(tǒng)HDFS（HadoopDistributedFileSystem）和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件，在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力2Hadoop生態(tài)圈發(fā)展路線3大綱4設(shè)計(jì)思想MPI與MapReduce數(shù)據(jù)模型計(jì)算模型體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例MPI(MessagePassingInterface)編程簡(jiǎn)介MPI是一個(gè)信息傳遞應(yīng)用程序接口，包括協(xié)議和和語(yǔ)義說(shuō)明常用接口MPI_Init(…)并行環(huán)境初始化MPI_Comm_size(…)獲得進(jìn)程個(gè)數(shù)sizeMPI_Comm_rank(…)獲取進(jìn)程的rank值MPI_Send(…)發(fā)送消息MPI_Recv(…)獲取消息MPI_Finalize()退出MPI環(huán)境5MPI編程舉例6運(yùn)行MPI程序7MPI程序工作示意8進(jìn)程0進(jìn)程1進(jìn)程2進(jìn)程3MPI_Recv()MPI_Send()MPI_Send()MPI_Send()MPI的局限性9從用戶編程的角度來(lái)看，程序員需要考慮到進(jìn)程之間的并行問(wèn)題，并且進(jìn)程之間的通信需要用戶在程序中顯式地表達(dá)，這無(wú)疑增加了程序員編程的復(fù)雜性。從系統(tǒng)實(shí)現(xiàn)的角度來(lái)看，MPI程序是以多進(jìn)程方式運(yùn)行的。如果在運(yùn)行過(guò)程中某一進(jìn)程因故障導(dǎo)致崩潰，那么除非用戶在編寫程序時(shí)添加了故障恢復(fù)的功能，否則MPI編程框架本身并不能提供容錯(cuò)能力。大綱10設(shè)計(jì)思想MPI與MapReduce數(shù)據(jù)模型計(jì)算模型體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例數(shù)據(jù)模型11將數(shù)據(jù)抽象為一系列鍵值對(duì)，在處理過(guò)程中對(duì)鍵值對(duì)進(jìn)行轉(zhuǎn)換大綱12設(shè)計(jì)思想MPI與MapReduce數(shù)據(jù)模型計(jì)算模型體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例抽象為Map和Reduce兩個(gè)過(guò)程Map的過(guò)程將輸入鍵值對(duì)進(jìn)行一次變換，產(chǎn)生若干個(gè)新的鍵值對(duì)，Map轉(zhuǎn)換前后的鍵值對(duì)的內(nèi)容通常都會(huì)不同Reduce過(guò)程會(huì)對(duì)相同鍵的鍵值對(duì)進(jìn)行計(jì)算，并可根據(jù)需要將計(jì)算結(jié)果進(jìn)行一次鍵值對(duì)轉(zhuǎn)換后輸出有向無(wú)環(huán)圖（DirectedAcyclicGraph,DAG)邏輯計(jì)算模型13MapReduce物理計(jì)算模型14采用“分而治之”策略，由多個(gè)任務(wù)并行處理MapTaskMapTaskMapTaskMapTaskMapReduceTaskReduceTaskReduceTaskReduce用戶編程容易用戶不需要掌握分布式并行編程細(xì)節(jié)ClassX{map(){//map方法的實(shí)現(xiàn)…}reduce(){//reduce方法的實(shí)現(xiàn)}main(){Jobjob=…//定義分布式作業(yè)job.config=//作業(yè)參數(shù)設(shè)置}}15大綱16設(shè)計(jì)思想體系架構(gòu)架構(gòu)圖應(yīng)用程序執(zhí)行流程工作原理容錯(cuò)機(jī)制編程示例抽象架構(gòu)圖17HadoopMapReduce架構(gòu)圖18JobTracker資源管理通過(guò)監(jiān)控TaskTracker來(lái)管理系統(tǒng)擁有的計(jì)算資源作業(yè)管理負(fù)責(zé)將作業(yè)（Job）拆分成任務(wù)（Task），并進(jìn)行任務(wù)調(diào)度以及跟蹤任務(wù)的運(yùn)行進(jìn)度、資源使用量等信息19TaskTracker20管理本節(jié)點(diǎn)的資源TaskTracker使用slot等量劃分本節(jié)點(diǎn)上的資源量（CPU、內(nèi)存等）執(zhí)行JobTracker的命令接收J(rèn)obTracker發(fā)送過(guò)來(lái)的命令并執(zhí)行（如啟動(dòng)新Task、殺死Task等）向JobTracker匯報(bào)情況通過(guò)心跳將本節(jié)點(diǎn)上資源使用情況和任務(wù)運(yùn)行進(jìn)度匯報(bào)給JobTrackerTask任務(wù)執(zhí)行JobTracker根據(jù)TaskTracker匯報(bào)的信息進(jìn)行調(diào)度，命令存在空閑slot的TaskTracker啟動(dòng)Task進(jìn)程執(zhí)行map或reduce任務(wù)在HadoopMapReduce的實(shí)現(xiàn)中該進(jìn)程的名稱為Child21Client提交作業(yè)用戶編寫的MapReduce程序通過(guò)Client提交到JobTracker用戶可通過(guò)Client提供的一些接口查看作業(yè)運(yùn)行狀態(tài)在HadoopMapReduce的實(shí)現(xiàn)中，該進(jìn)程的名稱為RunJar22MapReduce與HDFS關(guān)系23計(jì)算與存儲(chǔ)相分離計(jì)算向數(shù)據(jù)靠攏，而不是數(shù)據(jù)向計(jì)算靠攏大綱24設(shè)計(jì)思想體系架構(gòu)架構(gòu)圖應(yīng)用程序執(zhí)行流程工作原理容錯(cuò)機(jī)制編程示例應(yīng)用程序執(zhí)行流程25應(yīng)用程序執(zhí)行流程26Client將用戶編寫的MapReduce作業(yè)的配置信息、jar包等信息上傳到共享文件系統(tǒng)，通常是HDFS。Client提交作業(yè)給JobTracker，即告知作業(yè)信息的位置。JobTracker讀取作業(yè)的信息，生成一系列Map和Reduce任務(wù)，調(diào)度給擁有空閑slot的TaskTracker。TaskTracker根據(jù)JobTacker的指令啟動(dòng)Child進(jìn)程執(zhí)行Map任務(wù)，Map任務(wù)將從共享文件系統(tǒng)讀取輸入數(shù)據(jù)。

JobTracker從TaskTracker處獲得Map任務(wù)進(jìn)度信息。一旦Map任務(wù)完成后，JobTacker將Reduce任務(wù)分發(fā)給TaskTracker。TaskTracker根據(jù)JobTacker的指令啟動(dòng)Child進(jìn)程執(zhí)行Reduce任務(wù)，Reduce任務(wù)將從Map任務(wù)所在節(jié)點(diǎn)的本地磁盤拉取Map的輸出結(jié)果。JobTracker從TaskTracker處獲得Reduce任務(wù)進(jìn)度信息。當(dāng)Reduce任務(wù)運(yùn)行結(jié)束并將結(jié)果寫入共享文件系統(tǒng)，則意味著整個(gè)作業(yè)執(zhí)行完畢。大綱27設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例Map-Shuffle-Reduce28大綱29設(shè)計(jì)思想體系架構(gòu)工作原理數(shù)據(jù)輸入Map階段Shuffle階段Reduce階段數(shù)據(jù)輸出容錯(cuò)機(jī)制編程示例數(shù)據(jù)輸入30從存儲(chǔ)系統(tǒng)中文件與Map任務(wù)可處理的鍵值對(duì)記錄之間的映射輸入文件的格式問(wèn)題：文件分塊存儲(chǔ)，可能存在跨塊記錄Splitvs.Block31Split相對(duì)block而言是邏輯概念，包含一些元信息，如數(shù)據(jù)起始位置、數(shù)據(jù)長(zhǎng)度、數(shù)據(jù)所在節(jié)點(diǎn)等信息InputFormat32數(shù)據(jù)邏輯劃分InputFormat根據(jù)預(yù)定義格式將輸入數(shù)據(jù)在邏輯上劃分為若干個(gè)Split（切片）Map任務(wù)讀取的單位是Split，而不是物理的文件塊Split的數(shù)量往往決定了Map任務(wù)的個(gè)數(shù)，一個(gè)Split的數(shù)據(jù)一般由一個(gè)Map任務(wù)來(lái)處理鍵值對(duì)解析給定一個(gè)Split，InputFormat將根據(jù)分隔符、大小等元信息將Split中的數(shù)據(jù)解析為相應(yīng)鍵值對(duì)常見的InputFormat33TextInputFormatKeyValueTextInputFormatNLineInputFormatCombineTextInputFormat…自定義InputFormat大綱34設(shè)計(jì)思想體系架構(gòu)工作原理數(shù)據(jù)輸入Map階段Shuffle階段Reduce階段數(shù)據(jù)輸出容錯(cuò)機(jī)制編程示例Map邏輯過(guò)程35[k1,v1]→List([k2,v2])Map物理過(guò)程36Map任務(wù)的數(shù)量MapReduce為每個(gè)split創(chuàng)建一個(gè)Map任務(wù)，split的多少?zèng)Q定了Map任務(wù)的數(shù)目mapred.map.tasks設(shè)置程序員期望的map個(gè)數(shù)37大綱38設(shè)計(jì)思想體系架構(gòu)工作原理數(shù)據(jù)輸入Map階段Shuffle階段Reduce階段數(shù)據(jù)輸出容錯(cuò)機(jī)制編程示例Shuffle邏輯過(guò)程39List([k2,v2])

→[k2,List(v2)]Shuffle物理過(guò)程40何時(shí)Shuffle？41當(dāng)系統(tǒng)中的Map任務(wù)完成率達(dá)到設(shè)定閾值時(shí)，系統(tǒng)將啟動(dòng)Reduce任務(wù)例如，閾值設(shè)定為60%意味著如果系統(tǒng)中共有100個(gè)Map任務(wù)，那么一旦有60個(gè)Map任務(wù)已經(jīng)完成了就可以啟動(dòng)Reduce任務(wù)，而不必等到這100個(gè)Map任務(wù)全部完成Reduce任務(wù)不會(huì)等到所有的Map任務(wù)執(zhí)行結(jié)束才拉取Map任務(wù)的輸出結(jié)果，但是拉取的數(shù)據(jù)必然來(lái)自于已經(jīng)完成運(yùn)行的Map任務(wù)，即已經(jīng)保存在磁盤上的文件大綱42設(shè)計(jì)思想體系架構(gòu)工作原理數(shù)據(jù)輸入Map階段Shuffle階段Reduce階段數(shù)據(jù)輸出容錯(cuò)機(jī)制編程示例[k2,List(v2)]→[k3,v3]Reduce邏輯過(guò)程43Reduce物理過(guò)程44Reduce任務(wù)的數(shù)量程序指定最優(yōu)的Reduce任務(wù)個(gè)數(shù)取決于集群中可用的reduce任務(wù)槽(slot)的數(shù)目通常設(shè)置比reduce任務(wù)槽數(shù)目稍微小一些的Reduce任務(wù)個(gè)數(shù)45大綱46設(shè)計(jì)思想體系架構(gòu)工作原理數(shù)據(jù)輸入Map階段Shuffle階段Reduce階段數(shù)據(jù)輸出容錯(cuò)機(jī)制編程示例數(shù)據(jù)輸出47每個(gè)Reduce任務(wù)的輸出結(jié)果將以一個(gè)文件的形式保持到指定的目錄當(dāng)中MapReduce輸出結(jié)果是一組文件OutputFormat48與數(shù)據(jù)輸入階段相反，MapReduce需要定義輸出文件的格式，即OutputFormat包括分隔符等元信息從MapReduce程序處理的邏輯鍵值對(duì)數(shù)據(jù)到物理存儲(chǔ)之間的映射MapReduce系統(tǒng)將Reduce任務(wù)處理產(chǎn)生的結(jié)果按OutputFormat定義的格式寫入HDFS等常見的OutputFormat49TextOutputFormatNullOutputFormatLazyOutputFormat…自定義OutputFormat大綱50設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例MapReduce故障類型51主節(jié)點(diǎn)故障JobTracker故障：如宕機(jī)引起從節(jié)點(diǎn)故障TaskTracker故障：如節(jié)點(diǎn)宕機(jī)引起Task故障:如JVM內(nèi)存不夠退出MapReduce容錯(cuò)和HDFS容錯(cuò)是兩回事大綱52設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制JobTracker故障TaskTracker故障Task故障編程示例JobTracker故障53對(duì)于MapReduce1.0的架構(gòu)，JobTracker故障意味著所有作業(yè)需要重新執(zhí)行MapReduce1.0沒(méi)有處理JobTracker故障的機(jī)制，因而成為單點(diǎn)瓶頸大綱54設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制JobTracker故障TaskTracker故障Task故障編程示例TaskTracker故障55JobTracker不會(huì)接收到“心跳”JobTracker會(huì)安排其他TaskTracker重新運(yùn)行失敗TaskTracker的任務(wù)這個(gè)過(guò)程對(duì)于用戶來(lái)說(shuō)是透明的，只會(huì)感覺(jué)到該作業(yè)在執(zhí)行某段時(shí)間里變慢了而已大綱56設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制JobTracker故障TaskTracker故障Task故障編程示例Task故障57MapTask故障重新執(zhí)行Map任務(wù)去HDFS重新讀入數(shù)據(jù)Task故障58ReduceTask故障重新執(zhí)行Reduce任務(wù)去哪里重新讀入數(shù)據(jù)？Task故障59典型例子Map任務(wù)或Reduce任務(wù)代碼異常當(dāng)一個(gè)任務(wù)經(jīng)過(guò)最大嘗試次數(shù)運(yùn)行后仍然失敗，那么整個(gè)作業(yè)將被標(biāo)記為失敗大綱60設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例Map方法框架61TextInputFormat→[LongWritable,Text]Reduce方法框架62主方法框架63大綱64設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例詞頻統(tǒng)計(jì)關(guān)系表自然連接及其優(yōu)化網(wǎng)頁(yè)鏈接排名K均值聚類詞頻統(tǒng)計(jì)65輸入：一個(gè)包含大量單詞的文本文件輸出：文件中每個(gè)單詞及其出現(xiàn)次數(shù)（頻數(shù)）每個(gè)單詞和其頻數(shù)占一行，單詞和頻數(shù)之間有間隔輸入輸出AnAnMyMeAnAnMyHeMyMyAnMyAn5He1Me1My5解決方案66Map過(guò)程：把文本的每行內(nèi)容轉(zhuǎn)換為鍵值對(duì)[單詞,1]Reduce過(guò)程：?jiǎn)卧~相同的鍵值對(duì)被發(fā)送到同一個(gè)Reduce中對(duì)單詞相同的鍵值對(duì)進(jìn)行計(jì)數(shù)輸出計(jì)數(shù)后的結(jié)果[單詞,頻數(shù)]詞頻統(tǒng)計(jì)運(yùn)行過(guò)程67編寫map方法68編寫reduce方法69編寫主方法70詞頻統(tǒng)計(jì)運(yùn)行過(guò)程71優(yōu)化方案72使用combine方法減少Shuffle數(shù)據(jù)量減少Reduce過(guò)程需要處理的數(shù)據(jù)量編寫combine方法73修改主方法74設(shè)置combine方法大綱75設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例詞頻統(tǒng)計(jì)關(guān)系表自然連接及其優(yōu)化網(wǎng)頁(yè)鏈接排名K均值聚類關(guān)系表的自然連接76輸入：兩個(gè)CSV文件，分別保存雇員表和部門表輸出：雇員表和部門表的自然連接結(jié)果雇員表部門表雇員表?部門表解決方案77Map過(guò)程：把來(lái)自雇員表的每個(gè)元組A轉(zhuǎn)換成鍵值對(duì)[DeptName,雇員A]把來(lái)自部門表的每個(gè)元組B轉(zhuǎn)換成鍵值對(duì)[DeptName,部門B]Reduce過(guò)程：具有相同DeptName值的元組被發(fā)送到同一Reduce中來(lái)自雇員表和部門表的具有相同DeptName值的元組進(jìn)行連接輸出連接后的元組標(biāo)記來(lái)自哪個(gè)關(guān)系表關(guān)系表自然連接的運(yùn)行過(guò)程78編寫自定義ReduceJoinWritable79自定義數(shù)據(jù)類型來(lái)保存標(biāo)識(shí)和元組兩類信息編寫map方法80獲取鍵值對(duì)所屬的文件路徑，并利用路徑對(duì)鍵值對(duì)進(jìn)行分類處理編寫reduce方法81從輸入值中分離元組，并執(zhí)行連接操作編寫主方法82

83假如部門表比較小，雇員表非常大雇員表部門表………數(shù)據(jù)分布示列84不考慮備份藍(lán)色：雇員表白色：部門表若數(shù)據(jù)本身無(wú)序，連接將有大量的數(shù)據(jù)移動(dòng)MapReduce層HDFS層hadoop-namenodehadoop-datanode1hadoop-datanode2hadoop-datanode3hadoop-datanode4JobTrackerTaskTrackerTaskTrackerTaskTrackerTaskTrackerMasterSlavesDataNodeDataNodeDataNodeDataNodeNameNodeMapReduce層HDFS層優(yōu)化方案85編程時(shí)將“小表”廣播出去MapReduce層HDFS層hadoop-namenodehadoop-datanode1hadoop-datanode2hadoop-datanode3hadoop-datanode4JobTrackerTaskTrackerTaskTrackerTaskTrackerTaskTrackerMasterSlavesDataNodeDataNodeDataNodeDataNodeNameNodeMapReduce層HDFS層優(yōu)化方案86編寫map方法87讀取廣播的部門表，并與輸入的雇員表執(zhí)行連接操作修改主方法88將Reduce任務(wù)數(shù)設(shè)置為0，并廣播部門表大綱89設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例詞頻統(tǒng)計(jì)關(guān)系表自然連接及其優(yōu)化網(wǎng)頁(yè)鏈接排名K均值聚類網(wǎng)頁(yè)鏈接排名90輸入：保存在文本文件中，一行為一項(xiàng)網(wǎng)頁(yè)信息網(wǎng)頁(yè)信息：(網(wǎng)頁(yè)名網(wǎng)頁(yè)排名值(出站鏈接出站鏈接的權(quán)重...))輸出：網(wǎng)頁(yè)名及其排名值輸入輸出A1.0B1.0D1.0B1.0C1.0C1.0A1.0B1.0D1.0B1.0C1.0A0.21436B0.36332C0.40833D0.13027網(wǎng)頁(yè)鏈接排名91算法思路許多網(wǎng)頁(yè)鏈向該網(wǎng)頁(yè)，則該網(wǎng)頁(yè)排名高有一個(gè)高排名值的網(wǎng)頁(yè)鏈向該網(wǎng)頁(yè)，則該網(wǎng)頁(yè)排名高圖片來(lái)源:/wiki/File:PageRank-hi-res-2.png網(wǎng)頁(yè)鏈接排名92算法執(zhí)行過(guò)程初始時(shí)，每個(gè)網(wǎng)頁(yè)的排名值為1網(wǎng)頁(yè)鏈接排名93

網(wǎng)頁(yè)鏈接排名94

網(wǎng)頁(yè)鏈接排名95

網(wǎng)頁(yè)鏈接排名96

網(wǎng)頁(yè)鏈接排名97

迭代計(jì)算98迭代計(jì)算的特征由一系列迭代步驟(Step)的循環(huán)構(gòu)成，每個(gè)步驟執(zhí)行的操作完全相同，直到最大迭代次數(shù)一個(gè)步驟的輸出是下一個(gè)步驟的輸入迭代計(jì)算在MapReduce中的實(shí)現(xiàn)一個(gè)步驟的計(jì)算過(guò)程由一個(gè)MapReduce作業(yè)來(lái)實(shí)現(xiàn)，迭代次數(shù)決定了MapReduce作業(yè)的個(gè)數(shù)每一步驟結(jié)束時(shí)將結(jié)果寫入HDFS，下一步將該結(jié)果再次從HDFS讀出解決方案99

一次迭代一個(gè)MapReduce作業(yè)解決方案100Map過(guò)程：把每項(xiàng)網(wǎng)頁(yè)信息轉(zhuǎn)換為鍵值對(duì)[網(wǎng)頁(yè)名，{PAGE_INFO，網(wǎng)頁(yè)信息}]計(jì)算每個(gè)網(wǎng)頁(yè)對(duì)其出站鏈接的貢獻(xiàn)值，即將每項(xiàng)網(wǎng)頁(yè)信息轉(zhuǎn)換成鍵值對(duì)[出站鏈接，{PR_L,貢獻(xiàn)值}]Reduce過(guò)程：計(jì)算每個(gè)網(wǎng)頁(yè)的排名值如果不是最后一次迭代，則輸出更新排名值后的網(wǎng)頁(yè)信息。否則，輸出網(wǎng)頁(yè)名及其排名值區(qū)分網(wǎng)頁(yè)信息和貢獻(xiàn)值單次迭代運(yùn)行過(guò)程101編寫ReducePageRankWritable102與關(guān)系表中類似，自定義類型以對(duì)不同信息進(jìn)行標(biāo)識(shí)編寫map方法103計(jì)算當(dāng)前網(wǎng)頁(yè)對(duì)出站鏈接的貢獻(xiàn)值，并以出站鏈接的網(wǎng)頁(yè)名為鍵進(jìn)行輸出以輸入的網(wǎng)頁(yè)信息的網(wǎng)絡(luò)名稱為鍵輸出網(wǎng)頁(yè)信息編寫reduce方法104從輸入值中分離網(wǎng)頁(yè)信息和貢獻(xiàn)值，計(jì)算排名值并更新網(wǎng)頁(yè)信息編寫主方法105

將每一次迭代的輸出設(shè)置為下一次迭代的輸入，循環(huán)提交作業(yè)以執(zhí)行迭代運(yùn)算

大綱106設(shè)計(jì)思想體系架構(gòu)工作原理容錯(cuò)機(jī)制編程示例詞頻統(tǒng)計(jì)關(guān)系表自然連接及其優(yōu)化網(wǎng)頁(yè)鏈接排名K均值聚類K均值聚類107輸入：兩個(gè)文本文件，分別保存數(shù)據(jù)集和聚類中心集數(shù)據(jù)集：每行為一個(gè)二維數(shù)據(jù)點(diǎn)及其類別標(biāo)簽聚類中心集：每行為一個(gè)二維數(shù)據(jù)點(diǎn)輸出：數(shù)據(jù)點(diǎn)及其類別標(biāo)簽數(shù)據(jù)集聚類中心集聚類結(jié)果0,0-11,2-13,1-18,8-19,10-110,7-11,23,10,01.01,21.010,72.03,11.08,82.09,102.0K均值聚類108算法執(zhí)行過(guò)程設(shè)定聚類中心數(shù)k。

例如，k=2K均值聚類109算法執(zhí)行過(guò)程設(shè)定聚類中心數(shù)k。

例如，k=2選取聚類中心K均值聚類110算法執(zhí)行過(guò)程設(shè)定聚類中心數(shù)k。