版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第1頁3.1數(shù)據(jù)清洗數(shù)據(jù)清洗就是將格式錯誤數(shù)據(jù)進行處理糾正,將錯誤數(shù)據(jù)糾正或刪除,將缺失數(shù)據(jù)補充完整,將重復(fù)多出數(shù)據(jù)刪除。3.1.1數(shù)據(jù)一致性處理經(jīng)過統(tǒng)計調(diào)查搜集上來數(shù)據(jù),經(jīng)常會出現(xiàn)同一字段數(shù)據(jù)格式不一致問題,如圖3-1所表示。這會直接影響后續(xù)數(shù)據(jù)分析,所以必須對數(shù)據(jù)格式做出一致性處理。圖3-1數(shù)據(jù)格式不一致資料數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第2頁下面就以圖3-1所表示數(shù)據(jù)為例,將“身高”這個字段中數(shù)據(jù)去掉字符“cm”。打開Excel文件“數(shù)據(jù)處理.xlsx”,找到“數(shù)據(jù)清洗”工作表。把鼠標指針移到字母C上,當(dāng)指針變成 時,單擊選擇C列,如圖3-2所表示。選擇“查找和選擇”|“替換”命令,如圖3-3所表示。4數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第3頁圖3-2選擇C列圖3-3選擇“替換”命令數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第4頁(3)在“查找和替換”對話框“查找內(nèi)容”中輸入“cm”,設(shè)置“替換為”為空,單擊“全部替換”按鈕完成替換,如圖3-4所表示。替換后結(jié)果如圖3-5所表示。圖3-4輸入查找內(nèi)容和替換內(nèi)容圖3-5替換后結(jié)果數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第5頁3.1.2缺失數(shù)據(jù)處理數(shù)據(jù)清單中,單元格假如出現(xiàn)空值,就認為數(shù)據(jù)存在缺失。缺失數(shù)據(jù)處理方法通常有以下3種:用樣本均值(或眾數(shù)、中位數(shù))代替缺失值;將有缺失值統(tǒng)計刪除;保留該統(tǒng)計,在要用到該值做分析時,將其暫時刪除(最常見方法)。數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第6頁首先來處理怎樣發(fā)覺缺失數(shù)據(jù),僅靠眼睛來搜索缺失數(shù)據(jù)顯然是不現(xiàn)實,普通咱們用“定位條件”來查找缺失數(shù)據(jù)單元格。下面演示將“年紀”字段中空值均替換為“18”。選擇“年紀”所在E列。選擇“查找和選擇”|“定位條件”命令,如圖3-6所表示。在“定位條件”對話框中,選中“空值”單項選擇項,如圖3-7所表示。圖3-6選擇“定位條件”命令數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第7頁圖3-7選擇定位條件“空值”(4)單擊“確定”按鈕后,E列全部空白單元格呈選中狀態(tài),如圖3-8所表示。(5)輸入替換值“18”,按Ctrl+Enter組合鍵確認,結(jié)果如圖3-9所表示。圖3-8查找到全部空白單元格數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第8頁圖3-9統(tǒng)一輸入新數(shù)據(jù)3.1.3刪除重復(fù)統(tǒng)計刪除重復(fù)統(tǒng)計操作極其簡單,只需單擊數(shù)據(jù)表任意位置,再單擊“數(shù)據(jù)”|“刪除重復(fù)項”按鈕即可,如圖3-10所表示。圖3-10刪除重復(fù)項數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第9頁3.2數(shù)據(jù)加工數(shù)據(jù)加工伎倆主要有數(shù)據(jù)轉(zhuǎn)置、字段分列、字段匹配、數(shù)據(jù)抽取、數(shù)據(jù)計算。3.2.1數(shù)據(jù)轉(zhuǎn)置操作方法是:先復(fù)制好橫行數(shù)據(jù),然后在粘貼時單擊“開始”|“剪貼板”組“粘貼”按鈕下面三角箭頭,單擊“轉(zhuǎn)置”按鈕即可,如圖3-11所表示。圖3-11轉(zhuǎn)置性粘貼數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第10頁3.2.2字段分列選擇“字段分列”工作表A列數(shù)據(jù),如圖3-12所表示。單擊“數(shù)據(jù)”|“分列”按鈕,如圖3-13所表示。圖3-12選擇A列數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第11頁圖3-13數(shù)據(jù)分列(3)要將字段“姓名”中第一個字分列出來,所以選中“固定列寬”單項選擇項,如圖3-14所表示。圖3-14選中“固定列寬”單項選擇項數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第12頁(4)單擊“下一步”按鈕,在刻度尺上單擊鼠標確定分列位置,如圖3-15所表示。(5)單擊“下一步”按鈕,確定目標區(qū)域起點單元格D1,如圖3-16所表示。圖3-15確定分列位置數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第13頁圖3-16確定目標區(qū)域(6)單擊“完成”按鈕,分列結(jié)果如圖3-17所表示。圖3-17分列結(jié)果數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第14頁3.2.3字段匹配字段匹配就是將原數(shù)據(jù)清單中沒有但其它數(shù)據(jù)清單中有字段匹配過來。比如,文件“數(shù)據(jù)處理.xlsx”中“全校名單”工作表是某校級全體學(xué)生基礎(chǔ)信息(見圖3-18),“四級名單”工作表是級學(xué)生中報考了英語四級學(xué)生名單(見圖3-19)。圖3-18“全校名單”工作表數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第15頁圖3-19“四級名單”工作表(1)將“白有成”身份證號碼匹配到單元格D2。(2)雙擊D2填充柄完成填充,將全部些人身份證號碼都匹配過來,結(jié)果如圖3-21所表示。圖3-20
vlookup函數(shù)參數(shù)設(shè)置數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第16頁圖3-21匹配結(jié)果3.2.4數(shù)據(jù)抽取數(shù)據(jù)抽取是指利用原數(shù)據(jù)清單中一些字段個別信息得到一個新字段。常見數(shù)據(jù)抽取函數(shù)有l(wèi)eft()、right()、mid()、year()、month()、day()、weekday()。圖3-22
weekday函數(shù)應(yīng)用數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第17頁3.2.5數(shù)據(jù)計算例1:文件“數(shù)據(jù)處理.xlsx”“數(shù)據(jù)計算1”工作表中只有“銷量”和“單價”,沒有“銷售額”,能夠經(jīng)過公式“銷售額=單價×銷量”來計算銷售額,如圖3-23所表示。圖3-23計算銷售額數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第18頁例2:文件“數(shù)據(jù)處理.xlsx”“數(shù)據(jù)計算2”工作表中只有“成交單數(shù)”和“好評單數(shù)”,能夠經(jīng)過公式“好評率= ”來計算好評率,如圖3-24所表示。圖3-24計算好評率數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第19頁例3:文件“數(shù)據(jù)處理.xlsx”“數(shù)據(jù)計算3”工作表中,已知商品“上架日期”和“下架日期”,能夠經(jīng)過公式“銷售天數(shù)=下架日期-上架日期”來計算商品銷售天數(shù),如圖3-25所表示。圖3-25計算銷售天數(shù)數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第20頁例4:文件“數(shù)據(jù)處理.xlsx”“數(shù)據(jù)計算4”工作表中,已知商品“上架日期”,要計算迄今為止上架天數(shù),能夠用函數(shù)today來獲取當(dāng)日日期,用公式“=today()-B2”來計算上架天數(shù),如圖3-26所表示。圖3-26計算上架天數(shù)數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第21頁例5:文件“數(shù)據(jù)處理.xlsx”“數(shù)據(jù)計算3”工作表中,能夠用公式“=D2/360”計算銷售年數(shù),結(jié)果為3.6,如圖3-27所表示。圖3-27計算銷售年數(shù)數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第22頁這么計算出來年數(shù)通常是一個小數(shù),假如希望得到整數(shù),能夠用int函數(shù)取整,即用公式“=int(D2/360)”,結(jié)果是3,如圖3-28所表示。因為int函數(shù)功效是返回小于括號內(nèi)參數(shù)整數(shù)。圖3-28用int函數(shù)取整數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第23頁假如要進行四舍五入式取整,則要用函數(shù)round。當(dāng)round(number,digits)函數(shù)第二個參數(shù)為0時,就能夠?qū)Φ谝粋€參數(shù)進行四舍五入式取整,所以在編輯欄將公式修改為“=round(D2/360,0)”即可,如圖3-29所表示。圖3-29用round函數(shù)取整數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第24頁函數(shù)int(number)功效是向下取整(數(shù)軸上離左邊最近整數(shù)),如圖3-30所表示。圖3-30
int函數(shù)解釋數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第25頁所以,int(6.4)=int(6.7)=6,int(-6.4)=int(-6.7)=-7。函數(shù)round(number,digits)功效是進行四舍五入運算,功效解釋如表3-1所表示。number數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第26頁1263.472digits-2-1012四舍五入位數(shù)十位個位取整保留1位小數(shù)保留2位小數(shù)結(jié)果1300126012631263.51263.47表3-1
round函數(shù)解釋3.3數(shù)據(jù)修整在一段較長時間內(nèi),因為普通、連續(xù)、決定性等基礎(chǔ)原因作用,總體往往展現(xiàn)逐步向上或向下變動趨勢,如圖3-31所表示。圖3-31顯著向上趨勢數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第27頁在這么趨勢中,也不排除受一些偶然原因或不規(guī)則原因影響,出現(xiàn)與整體趨勢相差很大極端數(shù)據(jù),如圖3-32中箭頭所對應(yīng)數(shù)據(jù)所表示。移動平均法就是從時間數(shù)列第一位數(shù)值開始,按
一定項數(shù)求平均數(shù),逐項移動,形成一個新動態(tài)數(shù)列。常見移動平均法有三項移動平均法和四項移動平均法。圖3-32局部數(shù)據(jù)異動數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第28頁3.3.1三項移動平均法例:計算圖3-33所表示表格中,商品銷售額三項移動平均數(shù)。分析:選擇單元格區(qū)域A1:B13,單擊“插入”|“散點圖”|“僅帶數(shù)據(jù)標識散點圖”按鈕,如圖3-34所表示。圖3-33—年銷售額統(tǒng)計數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第29頁圖3-34插入散點圖結(jié)果得到圖3-35所表示散點圖,從散點圖能夠直觀地看出,第3個點顯著偏小,而第6個點顯著偏大,這可能是由不確定原因影響造成。在這種情況下,能夠經(jīng)過移動平均法對數(shù)據(jù)做修整,盡可能排除不確定原因?qū)?shù)據(jù)造成影響。圖3-35原始數(shù)據(jù)散點圖數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第30頁圖3-36選擇“平均值”命令圖3-37計算三項平均數(shù)數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第31頁圖3-38計算三項移動平均數(shù)圖3-39修整后數(shù)據(jù)散點圖數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第32頁3.3.2四項移動平均法例:計算圖3-40所表示表格中商品銷售額四項移動平均數(shù)。圖3-40四項移動平均數(shù)計算數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第33頁下面在Excel中用函數(shù)average計算四項移動平均數(shù)。(1)打開文件“數(shù)據(jù)處理.xlsx”中“四項移動平均”工作表,在C3中使用公式“=average(B2:B5)”計算第一個四項移動平均數(shù),如圖3-41所表示。(2)確認C3計算后,將C3填充柄填充到C11。圖3-41計算四項移動平均數(shù)數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第34頁在D4中使用公式“=average(C3:C4)”,如圖3-42所表示。確認D4計算后,將D4填充柄填充到D11。注意:若采取奇數(shù)項移動平均,平均值對準居中原時間數(shù)列項數(shù),一次可得趨勢值。若采取偶數(shù)項移動平均,平均值未對準居中原時間數(shù)列項數(shù),需再經(jīng)過一次移動平均進行正位。圖3-42計算四項移動平均正位數(shù)數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第35頁3.3.3分析工具庫加載和應(yīng)用在Excel中,還能夠用分析工具庫完成移動平均數(shù)計算。默認情況下,Excel并沒有安裝分析工具庫。下面介紹分析工具庫安裝過程。在Excel窗口中,選擇“文件”|“選項”命令。在隨即打開“Excel選項”對話框中,單擊左邊“加載項”選項后,再單擊下方“轉(zhuǎn)到”按鈕,如圖3-43所表示。圖3-43加載項數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第36頁(3)在隨即打開“加載宏”對話框中,選中“分析工具庫”復(fù)選項,單擊“確定”按鈕,如圖3-44所表示。(4)加載成功后,會在”數(shù)據(jù)”選項卡中看到一個新功效“數(shù)據(jù)分析”,如圖3-45所表示。圖3-44加載“分析工具庫”數(shù)據(jù)分析基礎(chǔ)課程之?dāng)?shù)據(jù)的處理第37頁圖3-45加載成功后“數(shù)據(jù)”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大冶一中分科考試試卷及答案
- 2025年反腐倡廉知識競賽試題庫(附答案)
- 玉林市模擬考試題及答案
- 醫(yī)藥產(chǎn)品知識產(chǎn)權(quán)考試題及答案
- 2026字節(jié)跳動招聘面試題及答案
- 初三理化試題及答案
- 2026黃河實驗室(河南)招聘5人備考題庫必考題
- 中共涼山州委辦公室2025年面向全州公開選調(diào)所屬事業(yè)單位工作人員的(5人)考試備考題庫附答案
- 中國火箭公司2026校園招聘參考題庫附答案
- 北京市公安局輔警崗位招聘300人備考題庫必考題
- 2025年醫(yī)療機構(gòu)工作人員廉潔從業(yè)9項準則心得體會
- 新安全生產(chǎn)法2025完整版
- (已壓縮)國民體質(zhì)測定標準(2023年修訂)
- 施工機具安全檢查記錄表
- 患者發(fā)生跌倒墜床應(yīng)急預(yù)案演練記錄總結(jié)
- 農(nóng)村土地承包經(jīng)營權(quán)的合作開發(fā)協(xié)議
- 富斯遙控器FS-i6說明書
- 腸脂垂炎的超聲診斷與臨床管理
- 行業(yè)特定市場調(diào)研方法與技巧分享
- 護理翻身叩背課件
- 旅游包車合同協(xié)議書范本
評論
0/150
提交評論