版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年高職(大數(shù)據(jù)技術(shù))數(shù)據(jù)清洗與預(yù)處理試題及答案
(考試時間:90分鐘滿分100分)班級______姓名______第I卷(選擇題,共40分)(總共8題,每題5分,每題只有一個正確答案,請將正確答案填寫在括號內(nèi))w1.以下哪種情況不屬于數(shù)據(jù)缺失的類型?()A.完全隨機(jī)缺失B.結(jié)構(gòu)化缺失C.隨機(jī)缺失D.非隨機(jī)缺失w2.對于數(shù)據(jù)清洗中的去重操作,主要是針對()。A.重復(fù)的記錄B.重復(fù)的屬性值C.重復(fù)的數(shù)據(jù)集D.以上都是w3.在數(shù)據(jù)標(biāo)準(zhǔn)化中,將數(shù)據(jù)映射到[0,1]區(qū)間的方法是()。A.最小-最大標(biāo)準(zhǔn)化B.Z-Score標(biāo)準(zhǔn)化C.小數(shù)定標(biāo)標(biāo)準(zhǔn)化D.以上都不是w4.數(shù)據(jù)清洗過程中,處理噪聲數(shù)據(jù)的方法不包括()。A.分箱B.聚類C.回歸D.數(shù)據(jù)加密w5.對于異常值的檢測,基于統(tǒng)計的方法不包括()。A.基于均值和標(biāo)準(zhǔn)差B.基于中位數(shù)和四分位數(shù)C.基于距離度量D.基于密度估計w6.數(shù)據(jù)清洗時,處理不一致數(shù)據(jù)的步驟不包括()。A.識別不一致性B.分析不一致原因C.直接刪除D.進(jìn)行轉(zhuǎn)換w7.在數(shù)據(jù)清洗流程中,數(shù)據(jù)集成階段主要解決()。A.數(shù)據(jù)缺失問題B.數(shù)據(jù)重復(fù)問題C.來自多個數(shù)據(jù)源的數(shù)據(jù)合并問題D.數(shù)據(jù)噪聲問題w8.以下關(guān)于數(shù)據(jù)清洗的說法,錯誤的是()。A.數(shù)據(jù)清洗是為了提高數(shù)據(jù)質(zhì)量B.數(shù)據(jù)清洗只需要處理缺失值C.不同領(lǐng)域的數(shù)據(jù)清洗重點可能不同D.數(shù)據(jù)清洗是一個反復(fù)的過程第II卷(非選擇題,共60分)w9.(10分)簡述數(shù)據(jù)清洗的主要目的以及至少三個常見的數(shù)據(jù)質(zhì)量問題。w10.(15分)請詳細(xì)說明在數(shù)據(jù)清洗中,處理缺失值的三種主要方法及其適用場景。w11.(15分)給出一個數(shù)據(jù)集,其中存在一些重復(fù)記錄和噪聲數(shù)據(jù),請描述你會采取哪些步驟進(jìn)行清洗。材料:有一個包含學(xué)生成績的數(shù)據(jù)集,部分?jǐn)?shù)據(jù)如下:|學(xué)號|姓名|數(shù)學(xué)成績|語文成績|英語成績||----|----|----|----|----||1|張三|85|90|88||2|李四|78|82|85||1|張三|85|90|88||3|王五|65|70|72||4|趙六|88|92|89||5|孫七|55|60|58||6|周八|75|78|76||1|張三|85|90|88||7|吳九|45|50|48||8|鄭十|70|73|71||9|王十一|68|72|70||10|李十二|80|83|81||11|張十三|52|55|53||12|劉十四|62|65|63||13|陳十五|77|80|78||14|楊十六|82|85|83||15|黃十七|42|45|44||16|趙十八|74|77|75||17|吳十九|66|69|67||18|鄭二十|81|84|82||19|王二十一|58|61|59||20|李二十二|79|82|80||21|張二十三|50|53|51||22|劉二十四|60|63|61||23|陳二十五|76|79|77||24|楊二十六|83|86|84||25|黃二十七|40|43|41||26|趙二十八|73|76|74||27|吳二十九|64|67|65||28|鄭三十|80|83|81||29|王三十一|56|59|57||30|李三十二|78|81|79||31|張三十三|54|57|55||32|劉三十四|61|64|62||33|陳三十五|75|78|76||34|楊三十六|84|87|85||35|黃三十七|38|41|39||36|趙三十八|72|75|73||37|吳三十九|62|65|63||38|鄭四十|79|82|80||39|王四十一|52|55|53||40|李四十二|77|80|78||41|張四十三|48|51|49||42|劉四十四|63|66|64||43|陳四十五|74|77|75||44|楊四十七|85|88|86||45|黃四十八|;|;|;||46|趙四十九|71|74|72||47|吳五十|60|63|61||48|鄭五十一|78|81|79||49|王五十二|50|53|51||50|李五十三|76|79|77||51|張五十四|46|49|47||52|劉五十五|6`|63|61||53|陳五十六|73|76|74||54|楊五十七|82|85|83||55|黃五十八|3`|36|34||56|趙五十九|70|73|71||57|吳六十|58|61|59||58|鄭六十一|77|80|78||59|王六十二|44|47|45||60|李六十四|7`|73|71|w12.(10分)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025福建寧德霞浦縣福寧水務(wù)有限公司招聘企業(yè)自聘工作人員33人筆試備考重點題庫及答案解析
- 2025年公安遴選備考真題及答案
- 廈大考研真題數(shù)學(xué)及答案
- 2025華電電力科學(xué)研究院有限公司面向華電系統(tǒng)內(nèi)外公開招聘筆試備考重點試題及答案解析
- 2026年內(nèi)蒙古自治區(qū)招收事業(yè)編制行政執(zhí)法人員1991人筆試備考重點試題及答案解析
- 2025廣東湛江市坡頭區(qū)麻斜街道辦事處招聘政府雇員(非編制人員)2人模擬筆試試題及答案解析
- 2025四川內(nèi)江市市中區(qū)中醫(yī)醫(yī)院招聘員額人員2人備考考試題庫及答案解析
- 2025福建漳浦縣醫(yī)院醫(yī)共體總院急需緊缺人才招聘15人工作筆試備考重點試題及答案解析
- 2025江蘇南通海安市人民法院招聘勞務(wù)派遣制法官助理2人備考考試題庫及答案解析
- 2025貴州應(yīng)用技術(shù)職業(yè)學(xué)院招聘8人備考考試題庫及答案解析
- 冷庫安全培訓(xùn)演練課件
- 農(nóng)業(yè)產(chǎn)業(yè)新質(zhì)生產(chǎn)力
- 研磨鉆石的專業(yè)知識培訓(xùn)課件
- 2025年傳達(dá)學(xué)習(xí)醫(yī)療機(jī)構(gòu)重大事故隱患判定清單會議記錄
- 機(jī)動車檢驗機(jī)構(gòu)管理年度評審報告
- 百度無人機(jī)基礎(chǔ)知識培訓(xùn)課件
- 2025至2030中國家用燃?xì)鈭缶魇袌霈F(xiàn)狀發(fā)展分析及發(fā)展戰(zhàn)略規(guī)劃報告
- 金融行業(yè)行政管理社會調(diào)查報告范文
- 2025年中國高油玉米數(shù)據(jù)監(jiān)測報告
- 水印江南美食街招商方案
- 二零二五年度綠色生態(tài)住宅小區(qū)建設(shè)工程合同協(xié)議
評論
0/150
提交評論