大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言 習(xí)題解答:第8章 大數(shù)據(jù)分析與挖掘_第1頁
大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言 習(xí)題解答:第8章 大數(shù)據(jù)分析與挖掘_第2頁
大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言 習(xí)題解答:第8章 大數(shù)據(jù)分析與挖掘_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析與挖掘一、選擇題1.所謂數(shù)據(jù)的描述性分析是指用統(tǒng)計(jì)學(xué)方法,描述數(shù)據(jù)的統(tǒng)計(jì)特征量,以下哪項(xiàng)屬于數(shù)據(jù)描述性分析方法(D)。邏輯回歸聚類分類離散趨勢度量2.邏輯回歸是屬于以下哪類方法的一種(C)。數(shù)據(jù)擬合聚類分類數(shù)據(jù)描述性分析3.以下哪種算法是屬于層次聚類算法(B)。K-MeansCUREWaveClusterDBSCAN二、填空題1.?dāng)?shù)據(jù)的偏態(tài)特性度量通常計(jì)算數(shù)據(jù)的__偏度___和___峰度____。2.隨機(jī)變量的分布越接近均勻分布,其離散程度越__大__,熵值則越__大__。3.回歸模型是描述因變量如何依賴___自變量___和隨機(jī)誤差項(xiàng)的方程。三、簡答題1.ID3分類算法用中的信息增益計(jì)算使用到條件熵,條件熵小則信息增益大,簡述什么情況下條件熵???答:條件熵是基于某個(gè)屬性劃分后的各個(gè)子集(子節(jié)點(diǎn))的熵的加權(quán)平均和,因此劃分后各子集中樣本的類別越純(離散度越?。﹦t信息熵越小,則條件熵也越小。2.簡述主層次聚類算法有哪幾種類型,以及各類型的特點(diǎn)。答:層次聚類分為“凝聚型層次聚類算法”和“分裂型聚類算法”,取決于層次分解是以自底向上(合并)還是以自頂向下(分裂)方式形成。凝聚的層次聚類方法使用自底向上的策略,開始時(shí)每個(gè)對象自己是獨(dú)立的類,然后不斷合并成越來越大的類,直到所有的對象都在一個(gè)類中,或者滿足某個(gè)終止條件。在合并過程中是找出兩個(gè)最近的類讓他們合并形成一個(gè)類,所以最多進(jìn)行N次迭代就將所有對象合并到一起了。分裂的層次聚類方法使用自頂向下的策略,開始時(shí)所有對象都在一個(gè)類中,然后不斷的劃分成更小的類,直到最小的類都足夠凝聚或者只包含一個(gè)對象。四、實(shí)驗(yàn)題【實(shí)驗(yàn)8-1】使用Python語言對kaggle的房價(jià)預(yù)測數(shù)據(jù)集進(jìn)行數(shù)據(jù)特性分析,并建立和訓(xùn)練回歸預(yù)測模型。1.?dāng)?shù)據(jù)準(zhǔn)備:從數(shù)據(jù)科學(xué)競賽平臺(tái)Kaggle下載房價(jià)預(yù)測數(shù)據(jù)集(/c/house-prices-advanced-regression-techniques)。2.任務(wù)要求(1)對房價(jià)數(shù)據(jù)集進(jìn)行數(shù)據(jù)特性分析。(2)對數(shù)據(jù)集進(jìn)行預(yù)處理,包括缺失值填充、異常值處理和屬性重構(gòu)等。(3)建立和訓(xùn)練某種回歸分析模型(4)對模型的預(yù)測結(jié)果進(jìn)行評價(jià)和分析?!緦?shí)驗(yàn)8-2】將經(jīng)典的KNN分類算法改造成基于MapReduce模型的分布式算法。實(shí)現(xiàn)方法參考:1.任務(wù)分析KNN算法首選找出待分類樣本的K個(gè)最近鄰,然后用這K個(gè)最近鄰的多數(shù)類標(biāo)簽作為待分類樣本的類別。因此,基于MapReduce模型的分布式KNN算法可以考慮分為幾下幾個(gè)步驟:(1)在分布式系統(tǒng)的各個(gè)結(jié)點(diǎn)計(jì)算待分類樣本與數(shù)據(jù)集中各數(shù)據(jù)的距離;(2)根據(jù)距離從小到大進(jìn)行排序,選出待分類數(shù)據(jù)的K個(gè)最近鄰;(3)各結(jié)點(diǎn)的中間結(jié)果匯總到中心結(jié)點(diǎn),再次根據(jù)距離進(jìn)行排序,選出最終的K個(gè)最近鄰,最后將K個(gè)最近鄰的多數(shù)類作為待分類數(shù)據(jù)的類別。2.設(shè)計(jì)思路根據(jù)上述的分析,顯然各結(jié)點(diǎn)的中間結(jié)果只要記錄:K個(gè)最近鄰的距離和類別標(biāo)簽(不需要記錄具體樣本數(shù)據(jù)),因此可以設(shè)計(jì)MapReduce的各階段任務(wù)和輸出格式:(1)Mapper階段輸入:待分類樣本,數(shù)據(jù)集處理:計(jì)算待分類樣本與數(shù)據(jù)集中每個(gè)測試數(shù)據(jù)的距離輸出:<Key,Value>序列為:<測試數(shù)據(jù)的行偏移量,距離,類別標(biāo)簽>(2)Combiner階段輸入:Mapper階段的輸出處理:對Mapper階段的輸出序列根據(jù)距離大小從小到大進(jìn)行排序,取前K個(gè)。輸出:<Key,Value>序列為:<距離,類別標(biāo)簽>(3)Red

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論