版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)智化人力資源管理主編徐明霞
唐玉潔數(shù)據(jù)清洗第五章第二篇方法篇1.了解數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)合并2.了解數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)規(guī)約3.理解數(shù)據(jù)質(zhì)量評估的標準4.掌握數(shù)據(jù)集成的內(nèi)涵5.掌握數(shù)據(jù)清洗的內(nèi)涵和方法學(xué)習(xí)目標知識結(jié)構(gòu)圖引導(dǎo)案例大數(shù)據(jù)也要“清洗”專家建議加快大數(shù)據(jù)清洗基地建設(shè),保護信息安全據(jù)新華社電(記者張辛欣張旭東)大數(shù)據(jù)也要清洗?是的,你沒看錯。數(shù)字化、智能化時代,大數(shù)據(jù)產(chǎn)業(yè)急需通過“清洗”技術(shù)對數(shù)據(jù)進行甄別、篩選和應(yīng)用,剔除無效信息,加強隱私保護。在青島召開的2016全球大數(shù)據(jù)應(yīng)用研究論壇上,多位業(yè)內(nèi)專家建議我國加快大數(shù)據(jù)清洗基地建設(shè)。大數(shù)據(jù)應(yīng)用于生活,信息的甄別和提取是第一步。大數(shù)據(jù)清洗,就是用電腦把不規(guī)則的數(shù)據(jù)制作成規(guī)則的數(shù)據(jù),讓它們發(fā)揮價值?!叭缤铀仨毥?jīng)過凈化才能飲用一樣,過濾、漂白、殺毒的過程,就是大數(shù)據(jù)的‘清洗’過程。”中國大數(shù)據(jù)行業(yè)領(lǐng)軍人物、貴陽大數(shù)據(jù)交易所執(zhí)行總裁王叁壽在會上說。專家認為,大數(shù)據(jù)的清洗,不僅有利于提高搜索處理效率,還能加速大數(shù)據(jù)產(chǎn)業(yè)與各行各業(yè)的融合,加快應(yīng)用步伐。比如,通過對家電、物流等多個行業(yè)數(shù)據(jù)整合、過濾,能更好地設(shè)計出智能家居方案等?!按髷?shù)據(jù)清洗也是安全使用的前提?!笨拼笥嶏w高級副總裁張友國說。加強大數(shù)據(jù)清洗,將對用戶信息多一層保護。與會專家認為,隨著大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展,數(shù)據(jù)清洗的重要性與日俱增,建議加快大數(shù)據(jù)清洗基地建設(shè),同步構(gòu)建大數(shù)據(jù)安全體系,用新方法來解決大數(shù)據(jù)安全問題。思考:如何來提高人力資源數(shù)據(jù)的質(zhì)量?第一節(jié)數(shù)據(jù)集成第二節(jié)數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)規(guī)約第三節(jié)數(shù)據(jù)清洗的內(nèi)涵與方法目錄第四節(jié)人力資源數(shù)據(jù)清洗第一節(jié)數(shù)據(jù)集成第一章第二篇方法篇一、數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)關(guān)聯(lián)的神奇之處就在于,它很容易就能夠與其他關(guān)聯(lián)數(shù)據(jù)組合在一起,從而構(gòu)成新的知識,這也是探索并使用關(guān)聯(lián)數(shù)據(jù)的最好理由。它打破了傳統(tǒng)的數(shù)據(jù)管理技術(shù)的封閉、不宜重組的問題,讓數(shù)據(jù)從原來的孤島中解放出來,使數(shù)據(jù)關(guān)聯(lián)成為數(shù)據(jù)共享中一種奇妙的新技術(shù)。二、數(shù)據(jù)合并數(shù)據(jù)合并其實是數(shù)據(jù)文件的合并。在實際操作過程中,有時候需要把多個數(shù)據(jù)文件合并為一個數(shù)據(jù)文件。例如,一個公司在全國各地有30多個分公司,每個月公司總部需要把各分公司的人員工資情況合并到一個數(shù)據(jù)文件中,這就是一個數(shù)據(jù)合并的過程。每個子公司的人員工作情況數(shù)據(jù)文件中的變量(或者屬性)都相同,不同的只是人員。合并數(shù)據(jù)文件一般分為添加變量(或稱為合并變量)和添加個案(或稱為合并記錄、合并個案)。三、數(shù)據(jù)集成數(shù)據(jù)集成,即將來自多個數(shù)據(jù)源的數(shù)據(jù),如數(shù)據(jù)庫、數(shù)據(jù)立方(多維數(shù)據(jù)庫)、普通數(shù)據(jù)文件等,結(jié)合在一起形成統(tǒng)一的數(shù)據(jù)集合,以便為后續(xù)的數(shù)據(jù)分析提供完整的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)集成一般有三種基本策略,分別是聯(lián)邦數(shù)據(jù)庫(federateddatabase)、數(shù)據(jù)倉庫(datawarehousing)、中介者(mediation)。數(shù)據(jù)表的連接方式包括以下四種(圖5-1)。第二節(jié)數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)規(guī)約第一章第二篇方法篇一、數(shù)據(jù)轉(zhuǎn)換(一)數(shù)據(jù)類別轉(zhuǎn)換數(shù)據(jù)的字段類型包括數(shù)值型、文本型和日期時間型。一般來講,最常見的是將文本型轉(zhuǎn)換為數(shù)值型,以方便機器學(xué)習(xí)算法的后續(xù)處理。定類數(shù)據(jù)也稱定性數(shù)據(jù),用于標明數(shù)據(jù)所描述的主題對象的類別或者屬性、名稱,如人名、事物名等。定序數(shù)據(jù)也稱序列數(shù)據(jù),用于對事物所具有的屬性順序進行描述,可以用數(shù)字或序號進行排序,進行比較。轉(zhuǎn)換數(shù)據(jù)分類一、數(shù)據(jù)轉(zhuǎn)換(二)數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化是指將數(shù)據(jù)按比例縮放,使其落入一個小的特定區(qū)間(如“-1,1”或“0,1”),以利于進行數(shù)據(jù)挖掘。常見的數(shù)據(jù)規(guī)范化方法包括:1.小數(shù)縮放2.最小—最大規(guī)范化3.標準差規(guī)范化一、數(shù)據(jù)轉(zhuǎn)換(三)數(shù)據(jù)泛化數(shù)據(jù)泛化,指的是用更抽象(更高層次)的概念來取代低層次的數(shù)據(jù)對象。例如,員工基本信息中的年齡,原始數(shù)據(jù)是連續(xù)性的數(shù)值,如20—60歲,可以映射到更高層次的概念,如20—30歲、31—40歲、41—50歲、51—60歲。二、數(shù)據(jù)規(guī)約1.KMO檢驗2.巴特利(Bartlett)球形檢驗因子分析的一般過程(一)判斷數(shù)據(jù)是否符合因子分析的要求(二)確定因子個數(shù)(三)確定公因子并進行賦值數(shù)據(jù)規(guī)約的主要目的就是從原有巨大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的信息完整性。第三節(jié)數(shù)據(jù)清洗的內(nèi)涵與方法第一章第二篇方法篇一、數(shù)據(jù)清洗的內(nèi)涵數(shù)據(jù)清洗通常是通過清洗臟數(shù)據(jù)、填寫缺失的值、光滑噪聲數(shù)據(jù)、清洗重復(fù)數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)。數(shù)據(jù)清洗的主要目標有格式標準化、異常數(shù)據(jù)清除、錯誤糾正、重復(fù)數(shù)據(jù)的清除。二、數(shù)據(jù)質(zhì)量評估標準在清洗數(shù)據(jù)之前,要對已經(jīng)獲得的數(shù)據(jù)質(zhì)量進行評估,高質(zhì)量的數(shù)據(jù)有著不同的評判標準,比較實用的標準是特定用戶對數(shù)據(jù)的期望程度。在這個標準之下結(jié)合數(shù)據(jù)分析要求,將數(shù)據(jù)質(zhì)量的評估標準具體化為以下四個方面:1.準確性2.完整性3.一致性4.及時性三、數(shù)據(jù)清洗的方法1.臟數(shù)據(jù)處理臟數(shù)據(jù)也叫作壞數(shù)據(jù),通常是指與期待的數(shù)據(jù)不一樣、會影響系統(tǒng)正常行為的數(shù)據(jù)。比如,源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯嶋H業(yè)務(wù)毫無意義,或數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。對于臟數(shù)據(jù)的處理,一般用結(jié)構(gòu)化、規(guī)范化和可關(guān)聯(lián)的方法。三、數(shù)據(jù)清洗的方法2.缺失值處理(1)直接刪除(2)填補(3)重新獲取三、數(shù)據(jù)清洗的方法2.缺失值處理(1)直接刪除(2)填補(3)重新獲取三、數(shù)據(jù)清洗的方法2.缺失值處理(1)直接刪除(2)填補(3)重新獲取如果在某些指標非常重要且缺失率比較高的情況下,就需要向相關(guān)人員了解是否通過其他渠道獲得相關(guān)數(shù)據(jù),甚至某些情況下可能要重新組織數(shù)據(jù)的采集。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則分箱法一般有三種,等深分箱法、等寬分箱法(圖5-2)和用戶自定義分箱法(圖5-3)。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則聚類法是指將數(shù)據(jù)集合分組為若干個簇,在簇外的值即為孤立點,這些孤立點就是噪聲數(shù)據(jù),應(yīng)當刪除或替換。聚類法可以發(fā)現(xiàn)異常數(shù)據(jù),如圖5-4所示。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則回歸法試圖發(fā)現(xiàn)兩個相關(guān)變量之間的變化模式,通過使數(shù)據(jù)符合一個函數(shù)來平滑處理數(shù)據(jù),即通過建立數(shù)學(xué)模型來預(yù)測下一個數(shù)值,包括線性回歸和非線性回歸。利用回歸分析方法所獲得的擬合函數(shù),能夠幫助平滑數(shù)據(jù)及去除其中的噪聲,如圖5-5所示。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則對于極個別的異常數(shù)據(jù),還可以采取估算分析法,例如,可以使用平均值、中值、mode估算方法等來實現(xiàn)。此外,在估算之前,應(yīng)該首先分析該異常值是自然異常值還是人為的。如果是人為的,則可以用估算值來估算,除此之外還可以使用統(tǒng)計模型來預(yù)測異常數(shù)據(jù)觀測值。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則3σ原則是指如果數(shù)據(jù)服從正態(tài)分布,那么在3σ原則下,異常數(shù)據(jù)為一組測定值中與平均值的偏差超過3倍標準差的值。因此,如果數(shù)據(jù)服從正態(tài)分布,那么距離平均值3σ之外的值出現(xiàn)的概率為p(│x-μ│>3σ)≤0.003(屬于小概率事件),即可以認為是異常數(shù)據(jù)。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠離平均值的多少倍標準差來描述,如圖5-6所示。三、數(shù)據(jù)清洗的方法4.冗余數(shù)據(jù)處理冗余有兩層含義,第一層含義是指多余的不需要的部分,第二層含義是指人為增加的重復(fù)部分。因此冗余數(shù)據(jù)既包含與分析處理的問題無關(guān)的數(shù)據(jù),也包含重復(fù)的數(shù)據(jù),通常采用過濾數(shù)據(jù)的方法來處理冗余數(shù)據(jù)。(1)重復(fù)過濾(2)條件過濾三、數(shù)據(jù)清洗的方法5.數(shù)據(jù)格式與內(nèi)容處理在數(shù)據(jù)集中,如果數(shù)據(jù)是由系統(tǒng)日志而來,那么通常在格式和內(nèi)容方面與元數(shù)據(jù)的描述一致。而如果數(shù)據(jù)是由人工收集或用戶填寫而來,則有很大可能在格式和內(nèi)容上存在一些問題。數(shù)據(jù)格式與內(nèi)容的問題包含以下幾類。(1)時間、日期、數(shù)值、全半角等顯示格式不一致(2)內(nèi)容中有不該存在的字符(3)內(nèi)容與該字段應(yīng)有內(nèi)容不符三、數(shù)據(jù)清洗的方法6.邏輯錯誤處理在數(shù)據(jù)清洗時,會發(fā)現(xiàn)一些使用簡答邏輯推理就可以直接發(fā)現(xiàn)問題的數(shù)據(jù),這部分數(shù)據(jù)也要進行處理,防止數(shù)據(jù)分析結(jié)果出現(xiàn)偏差。這些數(shù)據(jù)的問題是不符合邏輯的,如重復(fù)記錄、異常值和極端值等,通常稱其為邏輯錯誤。邏輯錯誤處理主要包含以下三種情況:(1)去重(2)去除不合理值(3)修正矛盾內(nèi)容第四節(jié)人力資源數(shù)據(jù)清洗第一章第二篇方法篇一、缺失值填補圖5-7選中數(shù)據(jù)區(qū)域以圖5-7為例,表中為某地區(qū)高校學(xué)生的平均身高數(shù)據(jù),其中,男女性身高都有缺失值。選中男性身高的數(shù)據(jù)區(qū)域,可以使用快捷鍵“Ctrl+G”,也可以采用選擇菜單。一、缺失值填補圖5-8定位使用快捷鍵“Ctrl+G”,會彈出“定位”對話框(圖5-8),選中“定位條件”;采用選擇菜單:單擊“開始”—“查找和選擇”—“定位條件”。一、缺失值填補在彈出的“定位條件”對話框,選擇“空值”(這里示例的表格中缺失值處是空值,可以根據(jù)實際需求對應(yīng)選擇)。單擊“確定”,如圖5-9所示。圖5-9定位條件一、缺失值填補回到數(shù)據(jù)表,會發(fā)現(xiàn)所有缺失值處出現(xiàn)灰色的底色(圖5-10),則證明所有缺失值都被選中。那么如何填充這些空值呢?圖5-10選中缺失值一、缺失值填補一般會選擇采用樣本的平均值來代替缺失值,假設(shè)這里的平均值為178,使用鍵盤輸入“178”,然后按“Ctrl+Enter”組合鍵。這樣,剛才所有被選中的缺失值所處的單元格里都變成了178,如圖5-11所示。圖5-11填充缺失值①Left函數(shù),用于從左截取字符串,公式為=Left(值所在單元格,截取長度)②Right函數(shù),用于從右截取字符串,公式為=Right(值所在單元格,截取長度)③Mid函數(shù),用于從中間截取字符串,公式為=Mid(值所在單元格,開始位置,截取長度),如根據(jù)身份證號提取出生年月。二、數(shù)據(jù)截取或分列(一)采用函數(shù)截取字段二、數(shù)據(jù)截取或分列(二)采用分列功能進行分列以圖5-12為例,從網(wǎng)上爬取的崗位薪資表中,薪資信息是文本形式,但下一步進行的數(shù)據(jù)分析需要數(shù)值型的薪資信息,我們需要從文本中提取數(shù)字并進行相應(yīng)的處理。圖5-12崗位薪酬表二、數(shù)據(jù)截取或分列(二)采用分列功能進行分列如圖5-13所示,選擇要進行清洗的數(shù)據(jù)B列,單擊“數(shù)據(jù)”—“分列”。圖5-13選擇數(shù)據(jù)二、數(shù)據(jù)截取或分列(二)采用分列功能進行分列如圖5-14所示,在彈出向?qū)Т暗牡?步選擇“分隔符號”選項,單擊“下一步”;在第2步選擇分隔符號的“其他”選項并填入“/”,單擊“下一步”;在第3步選擇“常規(guī)”,單擊“完成”,即完成了第一次數(shù)據(jù)分列。圖5-14第一次數(shù)據(jù)分列二、數(shù)據(jù)截取或分列(二)采用分列功能進行分列再次選擇B列數(shù)據(jù),依照上述操作以“-”為分隔符號完成第二次數(shù)據(jù)分列并替換C列的內(nèi)容。將D列命名為單位,在D2單元格中輸入函數(shù)=RIGHT(C2,1),雙擊填充柄向下完成填充,復(fù)制D列數(shù)據(jù)在D列粘貼為“值”。選擇C列數(shù)據(jù),單擊“查找和選擇”—“替換”,在“查找內(nèi)容”輸入“萬”,單擊“全部替換”,將“查找內(nèi)容”換成“千”,單擊“全部替換”。替換完成后,依次將E、F、G列命名為最低薪資、最高薪資和平均值,分別在E2、F2、G2中輸入函數(shù)=IF(D2=“萬”,B2*10000,B2*1000)、=IF(D2=“萬”,C2*10000,C2*1000)、=AVERAGE(E2:F2),雙擊填充柄向下完成填充。最終結(jié)果如圖5-15所示。圖5-15分列完成結(jié)果三、去除重復(fù)項以人員花名冊中的姓名重復(fù)項為例。先選中姓名所在列,切換到“開始”選項卡,在“樣式”組中,單擊“條件格式”的下三角按鈕,在彈出的下拉列表中,單擊“突出顯示單元格規(guī)則”,在彈出的菜單中單擊“重復(fù)值”,彈出“重復(fù)值”對話框,可編輯背景填充顏色等格式設(shè)置(圖5-1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深度解析(2026)《GBT 25758.1-2010無損檢測 工業(yè)X射線系統(tǒng)焦點特性 第1部分:掃描方法》
- 深度解析(2026)《GBT 25713-2010機械式振動時效裝置》(2026年)深度解析
- 2025廣西柳州市林業(yè)科學(xué)研究所招聘編外聘用人員1人參考考試題庫及答案解析
- 2025浙江紹興市文化旅游集團酒店職業(yè)經(jīng)理人選聘1人備考筆試題庫及答案解析
- 2025四川雅安市滎經(jīng)縣縣屬國有企業(yè)招聘14人考試備考題庫及答案解析
- 安全總結(jié)課件
- 2025陜西水務(wù)發(fā)展集團所屬企業(yè)社會招聘備考筆試題庫及答案解析
- 《平方根》數(shù)學(xué)課件教案
- 2025昆明市第十二中學(xué)教育集團聘用制教師招聘(若干)備考筆試試題及答案解析
- 2025廣東佛山市南海區(qū)國有資產(chǎn)監(jiān)督管理局財務(wù)總監(jiān)招聘1人模擬筆試試題及答案解析
- 2024年第18屆全國初中應(yīng)用物理知識競賽試題及答案
- 《開發(fā)客戶的技巧》課件
- 沐足行業(yè)嚴禁黃賭毒承諾書
- 【課件】第21課《小圣施威降大圣》課件2024-2025學(xué)年統(tǒng)編版語文七年級上冊
- 【MOOC】C語言程序設(shè)計-華中科技大學(xué) 中國大學(xué)慕課MOOC答案
- 【MOOC】C程序設(shè)計-西北工業(yè)大學(xué) 中國大學(xué)慕課MOOC答案
- 鄉(xiāng)村道路建設(shè)施工組織設(shè)計方案
- 南京信息工程大學(xué)《人工智能導(dǎo)論Ⅰ》2022-2023學(xué)年期末試卷
- 第14章人工智能安全
- 新人教版七年級英語上冊課件Unit 6 A Day in the Life
- 小學(xué)語文教師業(yè)務(wù)學(xué)習(xí)計劃(3篇)
評論
0/150
提交評論