下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)分析與挖掘一、選擇題1.所謂數(shù)據(jù)的描述性分析是指用統(tǒng)計(jì)學(xué)方法,描述數(shù)據(jù)的統(tǒng)計(jì)特征量,以下哪項(xiàng)屬于數(shù)據(jù)描述性分析方法(D)。邏輯回歸聚類分類離散趨勢度量2.邏輯回歸是屬于以下哪類方法的一種(C)。數(shù)據(jù)擬合聚類分類數(shù)據(jù)描述性分析3.以下哪種算法是屬于層次聚類算法(B)。K-MeansCUREWaveClusterDBSCAN二、填空題1.?dāng)?shù)據(jù)的偏態(tài)特性度量通常計(jì)算數(shù)據(jù)的__偏度___和___峰度____。2.隨機(jī)變量的分布越接近均勻分布,其離散程度越__大__,熵值則越__大__。3.回歸模型是描述因變量如何依賴___自變量___和隨機(jī)誤差項(xiàng)的方程。三、簡答題1.ID3分類算法用中的信息增益計(jì)算使用到條件熵,條件熵小則信息增益大,簡述什么情況下條件熵???答:條件熵是基于某個(gè)屬性劃分后的各個(gè)子集(子節(jié)點(diǎn))的熵的加權(quán)平均和,因此劃分后各子集中樣本的類別越純(離散度越?。﹦t信息熵越小,則條件熵也越小。2.簡述主層次聚類算法有哪幾種類型,以及各類型的特點(diǎn)。答:層次聚類分為“凝聚型層次聚類算法”和“分裂型聚類算法”,取決于層次分解是以自底向上(合并)還是以自頂向下(分裂)方式形成。凝聚的層次聚類方法使用自底向上的策略,開始時(shí)每個(gè)對象自己是獨(dú)立的類,然后不斷合并成越來越大的類,直到所有的對象都在一個(gè)類中,或者滿足某個(gè)終止條件。在合并過程中是找出兩個(gè)最近的類讓他們合并形成一個(gè)類,所以最多進(jìn)行N次迭代就將所有對象合并到一起了。分裂的層次聚類方法使用自頂向下的策略,開始時(shí)所有對象都在一個(gè)類中,然后不斷的劃分成更小的類,直到最小的類都足夠凝聚或者只包含一個(gè)對象。四、實(shí)驗(yàn)題【實(shí)驗(yàn)8-1】使用Python語言對kaggle的房價(jià)預(yù)測數(shù)據(jù)集進(jìn)行數(shù)據(jù)特性分析,并建立和訓(xùn)練回歸預(yù)測模型。1.?dāng)?shù)據(jù)準(zhǔn)備:從數(shù)據(jù)科學(xué)競賽平臺(tái)Kaggle下載房價(jià)預(yù)測數(shù)據(jù)集(/c/house-prices-advanced-regression-techniques)。2.任務(wù)要求(1)對房價(jià)數(shù)據(jù)集進(jìn)行數(shù)據(jù)特性分析。(2)對數(shù)據(jù)集進(jìn)行預(yù)處理,包括缺失值填充、異常值處理和屬性重構(gòu)等。(3)建立和訓(xùn)練某種回歸分析模型(4)對模型的預(yù)測結(jié)果進(jìn)行評價(jià)和分析?!緦?shí)驗(yàn)8-2】將經(jīng)典的KNN分類算法改造成基于MapReduce模型的分布式算法。實(shí)現(xiàn)方法參考:1.任務(wù)分析KNN算法首選找出待分類樣本的K個(gè)最近鄰,然后用這K個(gè)最近鄰的多數(shù)類標(biāo)簽作為待分類樣本的類別。因此,基于MapReduce模型的分布式KNN算法可以考慮分為幾下幾個(gè)步驟:(1)在分布式系統(tǒng)的各個(gè)結(jié)點(diǎn)計(jì)算待分類樣本與數(shù)據(jù)集中各數(shù)據(jù)的距離;(2)根據(jù)距離從小到大進(jìn)行排序,選出待分類數(shù)據(jù)的K個(gè)最近鄰;(3)各結(jié)點(diǎn)的中間結(jié)果匯總到中心結(jié)點(diǎn),再次根據(jù)距離進(jìn)行排序,選出最終的K個(gè)最近鄰,最后將K個(gè)最近鄰的多數(shù)類作為待分類數(shù)據(jù)的類別。2.設(shè)計(jì)思路根據(jù)上述的分析,顯然各結(jié)點(diǎn)的中間結(jié)果只要記錄:K個(gè)最近鄰的距離和類別標(biāo)簽(不需要記錄具體樣本數(shù)據(jù)),因此可以設(shè)計(jì)MapReduce的各階段任務(wù)和輸出格式:(1)Mapper階段輸入:待分類樣本,數(shù)據(jù)集處理:計(jì)算待分類樣本與數(shù)據(jù)集中每個(gè)測試數(shù)據(jù)的距離輸出:<Key,Value>序列為:<測試數(shù)據(jù)的行偏移量,距離,類別標(biāo)簽>(2)Combiner階段輸入:Mapper階段的輸出處理:對Mapper階段的輸出序列根據(jù)距離大小從小到大進(jìn)行排序,取前K個(gè)。輸出:<Key,Value>序列為:<距離,類別標(biāo)簽>(3)Red
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025赤峰市林西縣招聘14名專職消防員模擬筆試試題及答案解析
- 深度解析(2026)《GBT 26831.5-2017社區(qū)能源計(jì)量抄收系統(tǒng)規(guī)范 第5部分:無線中繼》(2026年)深度解析
- 深度解析(2026)《GBT 26020-2010金廢料分類和技術(shù)條件》(2026年)深度解析
- 2025云南昆明市第三人民醫(yī)院“鳳凰引進(jìn)計(jì)劃”高層次人才招引考試筆試備考題庫及答案解析
- 2025年12月江蘇南京江北新區(qū)教育局所屬部分事業(yè)單位招聘教師20人參考考試試題及答案解析
- 2025甘肅中蘭能投有限公司貴州分公司招聘備考考試試題及答案解析
- 2025天津市西青經(jīng)開區(qū)投資促進(jìn)有限公司第二批次招聘工作人員3人考試筆試備考題庫及答案解析
- 錦江區(qū)新興領(lǐng)域黨建工作專員招募(20人)參考考試題庫及答案解析
- 2025安徽淮北濉溪縣龍華高級中學(xué)教師招聘20人備考筆試題庫及答案解析
- 2025重慶大學(xué)高端裝備機(jī)械傳動(dòng)全國重點(diǎn)實(shí)驗(yàn)室科研團(tuán)隊(duì)勞務(wù)派遣技術(shù)人員招聘考試參考試題及答案解析
- 2025中原農(nóng)業(yè)保險(xiǎn)股份有限公司招聘67人筆試備考重點(diǎn)試題及答案解析
- 2025中原農(nóng)業(yè)保險(xiǎn)股份有限公司招聘67人備考考試試題及答案解析
- 2025年度河北省機(jī)關(guān)事業(yè)單位技術(shù)工人晉升高級工考試練習(xí)題附正確答案
- 交通運(yùn)輸布局及其對區(qū)域發(fā)展的影響課時(shí)教案
- 2025年中醫(yī)院護(hù)理核心制度理論知識考核試題及答案
- GB/T 17981-2025空氣調(diào)節(jié)系統(tǒng)經(jīng)濟(jì)運(yùn)行
- 比亞迪儲(chǔ)能項(xiàng)目介紹
- 2025 年高職酒店管理與數(shù)字化運(yùn)營(智能服務(wù))試題及答案
- 2025年9月廣東深圳市福田區(qū)事業(yè)單位選聘博士11人備考題庫附答案
- 糖尿病足潰瘍VSD治療創(chuàng)面氧自由基清除方案
- 《公司治理》期末考試復(fù)習(xí)題庫(含答案)
評論
0/150
提交評論