版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析基礎(chǔ)工具集之?dāng)?shù)據(jù)清洗模板一、數(shù)據(jù)清洗的常見(jiàn)應(yīng)用場(chǎng)景數(shù)據(jù)清洗是數(shù)據(jù)分析流程中的關(guān)鍵前置環(huán)節(jié),主要解決數(shù)據(jù)質(zhì)量問(wèn)題,保證后續(xù)分析結(jié)果的準(zhǔn)確性和可靠性。常見(jiàn)應(yīng)用場(chǎng)景包括:多源數(shù)據(jù)整合:當(dāng)數(shù)據(jù)來(lái)自不同系統(tǒng)(如業(yè)務(wù)數(shù)據(jù)庫(kù)、用戶調(diào)研表、第三方平臺(tái))時(shí),常存在字段命名不一致、格式?jīng)_突(如日期格式“YYYY/MM/DD”與“DD-MM-YYYY”并存)、單位不統(tǒng)一(如金額字段同時(shí)包含“元”和“萬(wàn)元”)等問(wèn)題,需通過(guò)清洗實(shí)現(xiàn)標(biāo)準(zhǔn)化整合。業(yè)務(wù)數(shù)據(jù)日常維護(hù):企業(yè)業(yè)務(wù)系統(tǒng)(如CRM、ERP)在長(zhǎng)期運(yùn)行中可能產(chǎn)生重復(fù)記錄(如同一客戶被多次錄入)、無(wú)效數(shù)據(jù)(如手機(jī)號(hào)格式錯(cuò)誤、年齡字段出現(xiàn)“-1”或“999”)、缺失值(如用戶未填寫(xiě)性別信息)等,需定期清洗以保證數(shù)據(jù)可用性。分析模型數(shù)據(jù)預(yù)處理:在構(gòu)建機(jī)器學(xué)習(xí)模型或統(tǒng)計(jì)分析模型前,需清洗數(shù)據(jù)中的噪聲(如異常交易記錄)、偏差(如樣本分布不均衡導(dǎo)致的極端值),避免模型因數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生偏差。二、數(shù)據(jù)清洗標(biāo)準(zhǔn)化操作流程數(shù)據(jù)清洗需遵循“先整體后局部、先規(guī)則后人工”的原則,分步驟系統(tǒng)化處理,具體流程步驟1:數(shù)據(jù)導(dǎo)入與初步摸索操作目標(biāo):知曉數(shù)據(jù)全貌,識(shí)別潛在質(zhì)量問(wèn)題。操作方法:工具選擇:根據(jù)數(shù)據(jù)量大小選擇工具(小數(shù)據(jù)量用Excel/GoogleSheets,大數(shù)據(jù)量用Python的pandas庫(kù)、SQL或?qū)I(yè)ETL工具如Alteryx)。數(shù)據(jù)導(dǎo)入:將原始數(shù)據(jù)導(dǎo)入工具,保證字段映射正確(如CSV文件編碼統(tǒng)一為UTF-8,避免亂碼)。初步摸索:查看數(shù)據(jù)前5行和后5行,觀察字段值分布(如“性別”字段是否包含“男/女/未知/其他”等多種格式);使用info()(Python)或“數(shù)據(jù)透視表”(Excel)統(tǒng)計(jì)各字段的數(shù)據(jù)類型、非空數(shù)量(識(shí)別缺失值);使用describe()(Python)或“描述統(tǒng)計(jì)”(Excel)查看數(shù)值字段的均值、最大值、最小值(識(shí)別異常值,如“年齡”字段最小值為-5);檢查重復(fù)記錄(如基于唯一標(biāo)識(shí)字段“用戶ID”或“訂單號(hào)”去重)。示例輸出:初步摸索后《數(shù)據(jù)質(zhì)量概覽表》,包含字段名、數(shù)據(jù)類型、總行數(shù)、非空行數(shù)、缺失值數(shù)量、重復(fù)記錄數(shù)、異常值標(biāo)記等。步驟2:缺失值處理操作目標(biāo):根據(jù)業(yè)務(wù)場(chǎng)景和缺失原因,選擇合理方式處理缺失數(shù)據(jù)。操作方法:缺失原因分析:區(qū)分“完全隨機(jī)缺失”(MCAR,如設(shè)備故障導(dǎo)致數(shù)據(jù)未采集)、“隨機(jī)缺失”(MAR,如男性用戶更傾向不填寫(xiě)“化妝品偏好”字段)、“非隨機(jī)缺失”(MNAR,如用戶因隱私原因拒絕填寫(xiě)“收入”字段),不同原因采用不同策略。處理策略:刪除:當(dāng)缺失比例超過(guò)30%或字段與分析目標(biāo)無(wú)關(guān)時(shí)(如“用戶備注”字段缺失率80%),直接刪除該字段;若某記錄關(guān)鍵字段(如“訂單ID”)缺失,可刪除整行。填充:數(shù)值字段:用均值/中位數(shù)(如“年齡”用中位數(shù)填充,避免極端值影響)、前后值(時(shí)間序列數(shù)據(jù)用前一時(shí)刻值填充)或模型預(yù)測(cè)(如用“收入”與其他字段的相關(guān)性構(gòu)建回歸模型填充);分類字段:用眾數(shù)(如“性別”用“男/女”中出現(xiàn)頻次更高的值填充)或“未知”類別標(biāo)記。保留:若缺失本身包含業(yè)務(wù)信息(如“用戶反饋”字段缺失代表用戶未反饋),可保留缺失值并新增“是否缺失”字段作為分析維度。示例:Excel中用“IFERROR+VLOOKUP”填充缺失值,Python中用fillna()方法實(shí)現(xiàn)批量填充,并記錄處理邏輯(如“’年齡’字段缺失值用中位數(shù)35填充”)。步驟3:重復(fù)值處理操作目標(biāo):消除完全重復(fù)或部分重復(fù)的記錄,避免分析結(jié)果偏差(如同一訂單被重復(fù)計(jì)算)。操作方法:重復(fù)判斷依據(jù):基于業(yè)務(wù)唯一鍵(如“用戶ID+訂單日期+商品ID”)或全字段匹配,識(shí)別重復(fù)記錄。需注意部分重復(fù)(如同一用戶多條記錄僅“手機(jī)號(hào)”不同)可能需結(jié)合業(yè)務(wù)規(guī)則判斷是否重復(fù)。處理策略:保留最新/最有效記錄(如按“更新時(shí)間”降序排序,保留第一條);合并記錄(如重復(fù)用戶的“購(gòu)買(mǎi)商品”字段用逗號(hào)拼接合并);直接刪除(無(wú)業(yè)務(wù)意義的重復(fù)記錄,如數(shù)據(jù)導(dǎo)入時(shí)產(chǎn)生的冗余條目)。工具操作:Excel用“刪除重復(fù)項(xiàng)”功能(需勾選關(guān)鍵字段),Python用drop_duplicates()方法(指定subset參數(shù)定義重復(fù)判斷字段)。步驟4:異常值檢測(cè)與處理操作目標(biāo):識(shí)別并處理不符合業(yè)務(wù)邏輯或統(tǒng)計(jì)規(guī)律的異常值,如“年齡=200歲”“訂單金額=-100元”。操作方法:異常值檢測(cè)方法:業(yè)務(wù)規(guī)則法:根據(jù)業(yè)務(wù)常識(shí)設(shè)定閾值(如“年齡”0-120歲,“訂單金額”≥0),超出閾值為異常值;統(tǒng)計(jì)法:3σ原則(數(shù)值偏離均值超過(guò)3倍標(biāo)準(zhǔn)差視為異常)、箱線圖法(四分位距IQR=Q3-Q1,超出Q3+1.5IQR或低于Q1-1.5IQR為異常值)。處理策略:修正:若異常值由錄入錯(cuò)誤導(dǎo)致(如“年齡=200”實(shí)際應(yīng)為“20”),聯(lián)系業(yè)務(wù)方*小張或原始數(shù)據(jù)提供方核實(shí)修正;刪除:極端異常值且占比極低(如“訂單金額”為1億元,占總數(shù)據(jù)0.001%),可刪除;標(biāo)記:若異常值代表特殊業(yè)務(wù)場(chǎng)景(如“大額訂單”),可新增“是否異?!弊侄螛?biāo)記,保留用于后續(xù)分析。示例:Python中用boxplot()繪制箱線圖定位異常值,Excel用“條件格式”標(biāo)記超出閾值的單元格。步驟5:格式標(biāo)準(zhǔn)化操作目標(biāo):統(tǒng)一字段格式,消除因格式不統(tǒng)一導(dǎo)致的數(shù)據(jù)無(wú)法分析(如“日期”格式混亂、“文本”包含多余空格)。操作方法:日期時(shí)間:統(tǒng)一為“YYYY-MM-DD”或“YYYY-MM-DDHH:MM:SS”格式(如將“2023/10/01”和“01-Oct-23”統(tǒng)一為“2023-10-01”);文本數(shù)據(jù):去除首尾空格(如“北京”→“北京”)、統(tǒng)一大小寫(xiě)(如“男/Male”→“男”)、替換特殊字符(如“(銷(xiāo)售部)”→“_銷(xiāo)售部”);數(shù)值數(shù)據(jù):統(tǒng)一單位(如“10000元”和“10萬(wàn)元”統(tǒng)一為“10000元”)、去除千分位逗號(hào)(如“1,000”→“1000”);分類變量:統(tǒng)一編碼(如“性別”字段“男/1”“女/2”統(tǒng)一為“男/女”)。工具操作:Excel用“分列”功能、“TRIM”函數(shù)、“SUBSTITUTE”函數(shù),Python用str.strip()、str.upper()、pd.to_datetime()等方法。步驟6:數(shù)據(jù)關(guān)聯(lián)與整合操作目標(biāo):若數(shù)據(jù)分散在多個(gè)表/文件中,需通過(guò)關(guān)聯(lián)鍵整合為一張分析寬表。操作方法:關(guān)聯(lián)鍵確認(rèn):根據(jù)業(yè)務(wù)邏輯確定關(guān)聯(lián)字段(如“用戶ID”關(guān)聯(lián)用戶表和訂單表,“訂單日期”關(guān)聯(lián)訂單表和商品表);關(guān)聯(lián)方式選擇:一對(duì)一(如用戶表與用戶畫(huà)像表合并);一對(duì)多(如用戶表(1條用戶記錄)與訂單表(多條訂單記錄)合并);多對(duì)多(需通過(guò)中間表轉(zhuǎn)換為一對(duì)多)。處理關(guān)聯(lián)沖突:如關(guān)聯(lián)鍵值不匹配(“用戶ID”在用戶表存在,訂單表缺失),需補(bǔ)充數(shù)據(jù)或標(biāo)記為“無(wú)法關(guān)聯(lián)”。工具操作:Excel用“VLOOKUP”或“INDEX+MATCH”函數(shù),Python用merge()方法,SQL用JOIN語(yǔ)句。步驟7:清洗后驗(yàn)證與輸出操作目標(biāo):保證清洗后的數(shù)據(jù)符合分析要求,并輸出標(biāo)準(zhǔn)格式文件。操作方法:驗(yàn)證:重新執(zhí)行步驟1的初步摸索,檢查缺失值、重復(fù)值、異常值是否已處理,格式是否統(tǒng)一;抽樣檢查(隨機(jī)抽取100條記錄)人工核對(duì),保證清洗邏輯正確。輸出:保存為分析工具兼容的格式(如CSV、Excel、Parquet),文件名包含清洗日期和版本(如“用戶訂單數(shù)據(jù)_清洗版_20231001.csv”)。三、數(shù)據(jù)清洗過(guò)程記錄模板為便于追溯和復(fù)現(xiàn),需記錄清洗過(guò)程中的關(guān)鍵信息,常用記錄表結(jié)構(gòu):1.數(shù)據(jù)質(zhì)量檢查表(清洗前)字段名數(shù)據(jù)類型樣本值示例缺失值數(shù)量/比例重復(fù)值情況異常值標(biāo)記初步處理建議處理狀態(tài)負(fù)責(zé)人日期用戶ID字符串U001,U0020/0%無(wú)無(wú)無(wú)需處理已完成*2023-10-01年齡數(shù)值25,-5,99950/5%無(wú)-5,999填充中位數(shù),刪除異常已完成*2023-10-01注冊(cè)日期日期2023/01/01,02-0120/2%無(wú)格式不統(tǒng)一統(tǒng)一為YYYY-MM-DD已完成*趙六2023-10-012.缺失值處理記錄表字段名缺失值數(shù)量/比例缺失原因分析處理方法處理后缺失值數(shù)量處理依據(jù)(業(yè)務(wù)規(guī)則/統(tǒng)計(jì)方法)負(fù)責(zé)人日期年齡50/5%用戶未填寫(xiě)用中位數(shù)35填充0/0%年齡分布近似正態(tài),均值≈中位數(shù)*2023-10-01收入200/20%隱私原因拒絕填寫(xiě)新增“收入未知”標(biāo)記200/20%缺失值可能包含“不愿透露”信息*2023-10-01四、關(guān)鍵注意事項(xiàng)與風(fēng)險(xiǎn)規(guī)避原始數(shù)據(jù)備份:清洗前務(wù)必備份原始數(shù)據(jù),避免不可逆操作導(dǎo)致數(shù)據(jù)丟失,建議保存為“原始數(shù)據(jù)_YYYYMMDD”版本。處理邏輯可追溯:所有清洗操作(如填充方法、異常值刪除標(biāo)準(zhǔn))需詳細(xì)記錄,便于后續(xù)復(fù)盤(pán)或他人協(xié)作,避免“黑盒操作”。業(yè)務(wù)規(guī)則優(yōu)先:數(shù)據(jù)清洗需結(jié)合業(yè)務(wù)場(chǎng)景,而非僅依賴統(tǒng)計(jì)規(guī)則(如“訂單金額=0”可能是“未支付訂單”,非
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 老年癡呆的營(yíng)養(yǎng)調(diào)節(jié)
- 改善消化的食物建議
- 2025年環(huán)境評(píng)估與監(jiān)測(cè)服務(wù)項(xiàng)目建議書(shū)
- 胃癌術(shù)后疼痛緩解
- 模擬電子技術(shù) 課件 張虹 第1-5章 緒論 -集成運(yùn)算放大電路
- 兒童飲食中的鈣鐵鋅補(bǔ)充
- 員工獎(jiǎng)懲課件
- 護(hù)理實(shí)踐操作指導(dǎo)
- 吸痰器的使用培訓(xùn)課件
- 眼科護(hù)理與人文關(guān)懷
- 遼寧省遼西重點(diǎn)高中2025-2026學(xué)年高一上學(xué)期11月期中考試數(shù)學(xué)試題(原卷版)
- 甘肅省慶陽(yáng)市七區(qū)2024-2025學(xué)年高一上學(xué)期期末聯(lián)考語(yǔ)文試題
- 2025年行政事業(yè)單位資產(chǎn)管理自檢自查報(bào)告
- 基于VAR的證券投資組合優(yōu)化模型畢業(yè)論文
- 人教版小升初考試數(shù)學(xué)試卷(含解析)重慶市渝北區(qū)魯能巴蜀小學(xué)2025年
- 2025年天津紅日藥業(yè)股份有限公司招聘考試筆試參考題庫(kù)附答案解析
- 卓有成效的管理者要事優(yōu)先
- 生產(chǎn)車(chē)間安全管理檢查表及整改措施
- 電廠標(biāo)識(shí)系統(tǒng)KKS編碼說(shuō)明pdf
- 2023年郴州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)及答案詳解1套
- 2025年福建省綜合評(píng)標(biāo)專家?guī)炜荚囶}庫(kù)(二)
評(píng)論
0/150
提交評(píng)論