2025 年高職大數(shù)據(jù)技術(shù)與應(yīng)用(數(shù)據(jù)清洗)實(shí)操卷_第1頁
2025 年高職大數(shù)據(jù)技術(shù)與應(yīng)用(數(shù)據(jù)清洗)實(shí)操卷_第2頁
2025 年高職大數(shù)據(jù)技術(shù)與應(yīng)用(數(shù)據(jù)清洗)實(shí)操卷_第3頁
2025 年高職大數(shù)據(jù)技術(shù)與應(yīng)用(數(shù)據(jù)清洗)實(shí)操卷_第4頁
2025 年高職大數(shù)據(jù)技術(shù)與應(yīng)用(數(shù)據(jù)清洗)實(shí)操卷_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年高職大數(shù)據(jù)技術(shù)與應(yīng)用(數(shù)據(jù)清洗)實(shí)操卷

(考試時(shí)間:90分鐘滿分100分)班級(jí)______姓名______一、單項(xiàng)選擇題(總共10題,每題4分,每題只有一個(gè)正確答案,請(qǐng)將正確答案填寫在括號(hào)內(nèi))1.以下哪種數(shù)據(jù)類型通常不需要進(jìn)行清洗()A.數(shù)值型B.文本型C.日期型D.已經(jīng)經(jīng)過驗(yàn)證且格式規(guī)范的數(shù)據(jù)2.對(duì)于缺失值較多的列,最不適合采用的處理方法是()A.刪除該列B.用均值填充C.用中位數(shù)填充D.用隨機(jī)值填充3.清洗數(shù)據(jù)時(shí),判斷數(shù)據(jù)是否重復(fù)主要依據(jù)()A.數(shù)據(jù)的長度B.數(shù)據(jù)的內(nèi)容C.數(shù)據(jù)的格式D.數(shù)據(jù)的來源4.以下哪種情況不屬于數(shù)據(jù)噪聲()A.數(shù)據(jù)中的錯(cuò)別字B.數(shù)據(jù)中的異常值C.數(shù)據(jù)中的空值D.數(shù)據(jù)中的亂碼5.當(dāng)數(shù)據(jù)存在不一致性時(shí),比如同一字段在不同記錄中有不同的表示方式,應(yīng)該()A.忽略B.統(tǒng)一格式C.隨機(jī)選擇一種格式D.全部刪除6.清洗含有無效字符的數(shù)據(jù)時(shí),通常采用的方法是()A.替換B.截?cái)郈.補(bǔ)齊D.合并7.對(duì)于數(shù)據(jù)清洗中的數(shù)據(jù)標(biāo)準(zhǔn)化,以下說法錯(cuò)誤的是()A.可以使不同來源的數(shù)據(jù)具有可比性B.包括最小-最大標(biāo)準(zhǔn)化等方法C.會(huì)改變數(shù)據(jù)的分布特征D.能提高數(shù)據(jù)的質(zhì)量8.在清洗數(shù)據(jù)時(shí),發(fā)現(xiàn)某一列數(shù)據(jù)的取值范圍明顯超出正常范圍,這種數(shù)據(jù)屬于()A.缺失值B.噪聲數(shù)據(jù)C.重復(fù)數(shù)據(jù)D.不一致數(shù)據(jù)9.以下哪種數(shù)據(jù)清洗工具在處理大規(guī)模數(shù)據(jù)時(shí)效率較高()A.ExcelB.Python的pandas庫C.SQLD.人工手動(dòng)處理10.清洗數(shù)據(jù)的主要目的不包括()A.提高數(shù)據(jù)質(zhì)量B.增加數(shù)據(jù)量C.便于數(shù)據(jù)分析D.減少數(shù)據(jù)冗余二、多項(xiàng)選擇題(總共5題,每題6分,每題有兩個(gè)或兩個(gè)以上正確答案,請(qǐng)將正確答案填寫在括號(hào)內(nèi),多選、少選、錯(cuò)選均不得分)1.數(shù)據(jù)清洗的步驟通常包括()A.數(shù)據(jù)集成B.數(shù)據(jù)預(yù)處理C.數(shù)據(jù)轉(zhuǎn)換D.數(shù)據(jù)清理E.數(shù)據(jù)挖掘2.以下哪些屬于數(shù)據(jù)清洗中處理缺失值的方法()A.用固定值填充B.用統(tǒng)計(jì)值填充C.基于模型預(yù)測(cè)填充D.直接刪除缺失值所在記錄E.不做處理3.數(shù)據(jù)噪聲可能來源于()A.數(shù)據(jù)采集設(shè)備故障B.數(shù)據(jù)錄入錯(cuò)誤C.數(shù)據(jù)傳輸問題D.數(shù)據(jù)本身的特性E.數(shù)據(jù)存儲(chǔ)介質(zhì)損壞4.清洗文本型數(shù)據(jù)時(shí),可能需要進(jìn)行的操作有()A.去除標(biāo)點(diǎn)符號(hào)B.轉(zhuǎn)換大小寫C.分詞D.去除停用詞E.提取關(guān)鍵詞5.數(shù)據(jù)清洗中數(shù)據(jù)標(biāo)準(zhǔn)化的常見方法有()A.零-均值標(biāo)準(zhǔn)化B.小數(shù)定標(biāo)標(biāo)準(zhǔn)化C.最大-最小標(biāo)準(zhǔn)化D.對(duì)數(shù)變換標(biāo)準(zhǔn)化E.指數(shù)變換標(biāo)準(zhǔn)化三、判斷題(總共10題,每題3分,請(qǐng)判斷下列說法是否正確,正確的打√,錯(cuò)誤的打×)1.數(shù)據(jù)清洗只是簡(jiǎn)單地刪除重復(fù)數(shù)據(jù),其他操作不需要進(jìn)行。()2.缺失值較多的數(shù)據(jù)列對(duì)數(shù)據(jù)分析沒有任何價(jià)值,可以直接刪除。()3.數(shù)據(jù)噪聲不會(huì)影響數(shù)據(jù)分析的結(jié)果,不需要進(jìn)行處理。()4.數(shù)據(jù)清洗過程中,對(duì)于不一致的數(shù)據(jù)必須統(tǒng)一格式。()5.清洗數(shù)據(jù)時(shí),只要保證數(shù)據(jù)的準(zhǔn)確性就可以,不需要考慮數(shù)據(jù)結(jié)構(gòu)的一致性。()6.數(shù)據(jù)標(biāo)準(zhǔn)化可以使不同規(guī)模的數(shù)據(jù)具有相同的特征,便于比較。()7.對(duì)于數(shù)值型數(shù)據(jù),異常值一定是錯(cuò)誤的數(shù)據(jù),必須刪除。()8.清洗數(shù)據(jù)可以提高數(shù)據(jù)的可用性和分析價(jià)值。()9.人工手動(dòng)清洗數(shù)據(jù)效率高,適合處理大規(guī)模數(shù)據(jù)。()10.數(shù)據(jù)清洗是一個(gè)一次性的過程,完成后不需要再次進(jìn)行。()四、簡(jiǎn)答題(總共3題,每題10分,請(qǐng)簡(jiǎn)要回答問題)1.請(qǐng)簡(jiǎn)述數(shù)據(jù)清洗的主要流程。2.當(dāng)遇到數(shù)據(jù)中的異常值時(shí),有哪些常見的處理方法?3.說明文本型數(shù)據(jù)清洗中去除停用詞的作用及常用的停用詞表來源。五、實(shí)操題(總共1題,每題30分,請(qǐng)根據(jù)給定的數(shù)據(jù)進(jìn)行清洗操作)給定一份包含學(xué)生成績的數(shù)據(jù)文件,部分?jǐn)?shù)據(jù)如下:|學(xué)號(hào)|姓名|數(shù)學(xué)成績|語文成績|英語成績||---|---|---|---|---||101|張三|85|90|78||102|李四|NULL|88|82||103|王五|92|NULL|85||104|趙六|88|95|89||105|孫七|90|92|NULL||106|周八|86|87|83||107|吳九|NULL|NULL|NULL||108|鄭十|91|93|87|請(qǐng)完成以下清洗操作:1.找出并處理缺失值。2.檢查是否存在重復(fù)記錄,如有則刪除。3.對(duì)數(shù)學(xué)成績、語文成績、英語成績進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理(采用最小-最大標(biāo)準(zhǔn)化方法)。答案:一、單項(xiàng)選擇題1.D2.D3.B4.C5.B6.A7.C8.B9.B10.B二、多項(xiàng)選擇題1.BCD2.ABCD3.ABC4.ABCDE5.ABC三、判斷題1.×2.×3.×4.√5.×6.√7.×8.√9.×10.×四、簡(jiǎn)答題1.數(shù)據(jù)清洗主要流程:首先進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)收集、導(dǎo)入等;然后檢查數(shù)據(jù)的完整性,找出缺失值;接著處理重復(fù)數(shù)據(jù);再識(shí)別和處理數(shù)據(jù)噪聲與異常值;最后進(jìn)行數(shù)據(jù)轉(zhuǎn)換,如標(biāo)準(zhǔn)化等操作,使數(shù)據(jù)更適合分析。2.常見處理異常值的方法:刪除異常值所在記錄,但可能損失信息;用均值、中位數(shù)等統(tǒng)計(jì)量替換異常值;基于數(shù)據(jù)分布模型預(yù)測(cè)異常值并替換;將異常值視為特殊值單獨(dú)標(biāo)記處理。3.去除停用詞的作用:停用詞通常是一些無實(shí)際意義的詞,如“的”“是”“在”等,去除它們可以減少文本的冗余信息,提高文本分析的效率和準(zhǔn)確性。常用的停用詞表來源有NLTK(NaturalLanguageToolkit)庫自帶的停用詞表,也可以根據(jù)具體需求自定義停用詞表。五、實(shí)操題1.缺失值處理:對(duì)于數(shù)學(xué)成績列,102、103、105、107的缺失值用該列均值填充;語文成績列,102、103、107的缺失值用均值填充;英語成績列,103、105、107的缺失值用均值填充。2.經(jīng)檢查無重復(fù)記錄。3.最小-最大標(biāo)準(zhǔn)化公式:$x_{new}=\frac{x-x_{min}}{x_{max}-x_{min}}$。數(shù)學(xué)成績最小值85,最大值92,語文成績最小值86,最大值95,英語成績最小值82,最大值89。標(biāo)準(zhǔn)化后數(shù)據(jù)如下:|學(xué)號(hào)|姓名|數(shù)學(xué)成績|語文成績|英語成績||---|---|---|---|---||101|張三|0.71

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論