大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言習(xí)題解答：第8章大數(shù)據(jù)分析與挖掘

上傳人：q*** IP屬地：山東上傳時(shí)間：2025-08-28 格式：DOCX 頁數(shù)：3 大小：43.54KB 積分：12 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言習(xí)題解答：第8章大數(shù)據(jù)分析與挖掘_第2頁

大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言習(xí)題解答：第8章大數(shù)據(jù)分析與挖掘_第3頁

全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析與挖掘一、選擇題1．所謂數(shù)據(jù)的描述性分析是指用統(tǒng)計(jì)學(xué)方法，描述數(shù)據(jù)的統(tǒng)計(jì)特征量，以下哪項(xiàng)屬于數(shù)據(jù)描述性分析方法（D）。邏輯回歸聚類分類離散趨勢度量2．邏輯回歸是屬于以下哪類方法的一種（C）。數(shù)據(jù)擬合聚類分類數(shù)據(jù)描述性分析3．以下哪種算法是屬于層次聚類算法（B）。K-MeansCUREWaveClusterDBSCAN二、填空題1．?dāng)?shù)據(jù)的偏態(tài)特性度量通常計(jì)算數(shù)據(jù)的__偏度___和___峰度____。2．隨機(jī)變量的分布越接近均勻分布，其離散程度越__大__，熵值則越__大__。3．回歸模型是描述因變量如何依賴___自變量___和隨機(jī)誤差項(xiàng)的方程。三、簡答題1．ID3分類算法用中的信息增益計(jì)算使用到條件熵，條件熵小則信息增益大，簡述什么情況下條件熵??？答：條件熵是基于某個(gè)屬性劃分后的各個(gè)子集（子節(jié)點(diǎn)）的熵的加權(quán)平均和，因此劃分后各子集中樣本的類別越純（離散度越?。﹦t信息熵越小，則條件熵也越小。2．簡述主層次聚類算法有哪幾種類型，以及各類型的特點(diǎn)。答：層次聚類分為“凝聚型層次聚類算法”和“分裂型聚類算法”，取決于層次分解是以自底向上(合并)還是以自頂向下(分裂)方式形成。凝聚的層次聚類方法使用自底向上的策略，開始時(shí)每個(gè)對象自己是獨(dú)立的類，然后不斷合并成越來越大的類，直到所有的對象都在一個(gè)類中，或者滿足某個(gè)終止條件。在合并過程中是找出兩個(gè)最近的類讓他們合并形成一個(gè)類，所以最多進(jìn)行N次迭代就將所有對象合并到一起了。分裂的層次聚類方法使用自頂向下的策略，開始時(shí)所有對象都在一個(gè)類中，然后不斷的劃分成更小的類，直到最小的類都足夠凝聚或者只包含一個(gè)對象。四、實(shí)驗(yàn)題【實(shí)驗(yàn)8-1】使用Python語言對kaggle的房價(jià)預(yù)測數(shù)據(jù)集進(jìn)行數(shù)據(jù)特性分析，并建立和訓(xùn)練回歸預(yù)測模型。1．?dāng)?shù)據(jù)準(zhǔn)備：從數(shù)據(jù)科學(xué)競賽平臺(tái)Kaggle下載房價(jià)預(yù)測數(shù)據(jù)集（/c/house-prices-advanced-regression-techniques）。2．任務(wù)要求（1）對房價(jià)數(shù)據(jù)集進(jìn)行數(shù)據(jù)特性分析。（2）對數(shù)據(jù)集進(jìn)行預(yù)處理，包括缺失值填充、異常值處理和屬性重構(gòu)等。（3）建立和訓(xùn)練某種回歸分析模型（4）對模型的預(yù)測結(jié)果進(jìn)行評價(jià)和分析?！緦?shí)驗(yàn)8-2】將經(jīng)典的KNN分類算法改造成基于MapReduce模型的分布式算法。實(shí)現(xiàn)方法參考：1．任務(wù)分析KNN算法首選找出待分類樣本的K個(gè)最近鄰，然后用這K個(gè)最近鄰的多數(shù)類標(biāo)簽作為待分類樣本的類別。因此，基于MapReduce模型的分布式KNN算法可以考慮分為幾下幾個(gè)步驟：（1）在分布式系統(tǒng)的各個(gè)結(jié)點(diǎn)計(jì)算待分類樣本與數(shù)據(jù)集中各數(shù)據(jù)的距離；（2）根據(jù)距離從小到大進(jìn)行排序，選出待分類數(shù)據(jù)的K個(gè)最近鄰；（3）各結(jié)點(diǎn)的中間結(jié)果匯總到中心結(jié)點(diǎn)，再次根據(jù)距離進(jìn)行排序，選出最終的K個(gè)最近鄰，最后將K個(gè)最近鄰的多數(shù)類作為待分類數(shù)據(jù)的類別。2．設(shè)計(jì)思路根據(jù)上述的分析，顯然各結(jié)點(diǎn)的中間結(jié)果只要記錄：K個(gè)最近鄰的距離和類別標(biāo)簽（不需要記錄具體樣本數(shù)據(jù)），因此可以設(shè)計(jì)MapReduce的各階段任務(wù)和輸出格式：（1）Mapper階段輸入：待分類樣本，數(shù)據(jù)集處理：計(jì)算待分類樣本與數(shù)據(jù)集中每個(gè)測試數(shù)據(jù)的距離輸出：<Key,Value>序列為：<測試數(shù)據(jù)的行偏移量，距離，類別標(biāo)簽>（2）Combiner階段輸入：Mapper階段的輸出處理：對Mapper階段的輸出序列根據(jù)距離大小從小到大進(jìn)行排序，取前K個(gè)。輸出：<Key,Value>序列為：<距離，類別標(biāo)簽>（3）Red

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言習(xí)題解答：第8章大數(shù)據(jù)分析與挖掘

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言 習(xí)題解答：第8章 大數(shù)據(jù)分析與挖掘

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

大數(shù)據(jù)技術(shù)及應(yīng)用-基于Python語言習(xí)題解答：第8章大數(shù)據(jù)分析與挖掘