數(shù)據(jù)采集與處理 課件 項目3 數(shù)據(jù)預處理認知_第1頁
數(shù)據(jù)采集與處理 課件 項目3 數(shù)據(jù)預處理認知_第2頁
數(shù)據(jù)采集與處理 課件 項目3 數(shù)據(jù)預處理認知_第3頁
數(shù)據(jù)采集與處理 課件 項目3 數(shù)據(jù)預處理認知_第4頁
數(shù)據(jù)采集與處理 課件 項目3 數(shù)據(jù)預處理認知_第5頁
已閱讀5頁,還剩172頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目三數(shù)據(jù)預處理認知任務1認知數(shù)據(jù)整理任務導入請對上述數(shù)據(jù)進行整理,并說出某電商平臺60個店鋪銷售方面有哪些數(shù)據(jù)特征?!?shù)據(jù)整理的概念和意義(一)數(shù)據(jù)整理的概念數(shù)據(jù)整理:是指根據(jù)數(shù)據(jù)采集與處理的目的和任務,對數(shù)據(jù)采集、觀察、實驗等研究活動中所采集到的資料進行檢驗、歸類編碼和數(shù)字編碼,使之條理化、系統(tǒng)化,從而以集中、簡明的方式反映所研究數(shù)據(jù)采集對象特征的工作過程?!?shù)據(jù)整理的概念和意義為什么要進行數(shù)據(jù)整理?數(shù)據(jù)采集所取得的原始資料或二手資料是反映數(shù)據(jù)采集對象各個單位的資料,這些資料往往是不系統(tǒng)的、分散的,可能有一定的局限性,因此,必須進行相應的整理。

例如,從某網(wǎng)店平臺上采集到的購買者資料,只能說明每一個人的個別情況,諸如每個人的姓名、性別、文化程度、職業(yè)、愛好等,難以構建職業(yè)、性別等與購買商品之間的關系。因此,必須通過對大量購買者的資料進行整理、分組、匯總等加工處理,才能得到數(shù)據(jù)采集對象的綜合特征資料,從而了解數(shù)據(jù)采集對象的職業(yè)、性別、年齡等對購買行為的影響,實現(xiàn)對購買者全面系統(tǒng)的認識?!?shù)據(jù)整理的概念和意義(二)數(shù)據(jù)整理的意義1.能夠挖掘數(shù)據(jù)的特征,提高數(shù)據(jù)信息的質量,實現(xiàn)數(shù)據(jù)系統(tǒng)化、有序化。2.數(shù)據(jù)整理是檢驗數(shù)據(jù)質量的關鍵環(huán)節(jié),也為后續(xù)的數(shù)據(jù)分析提供必要的數(shù)據(jù)形式。二、數(shù)據(jù)整理的步驟(一)設計數(shù)據(jù)整理方案數(shù)據(jù)整理方案的主要內容一般包括:確定匯總的核心指標與綜合數(shù)據(jù)處理表,確定數(shù)據(jù)分組方案,選擇資料匯總形式,確定資料審查的內容與方法,以及對整理各工作環(huán)節(jié)做出時間安排和先后順序安排等。(二)對原始資料或次級資料進行審核資料的審核是數(shù)據(jù)處理工作的第一步,為了保證數(shù)據(jù)資料的質量,在對原始資料或次級資料進行匯總之前,必須對其進行審核,以便發(fā)現(xiàn)向題及時糾正,只有經(jīng)過認真審核后的資料才能進行匯總。二、數(shù)據(jù)整理的步驟(三)對原始資料進行分組和匯總根據(jù)數(shù)據(jù)整理的要求,采用科學的方法對原始資料進行數(shù)據(jù)分組,在此基礎上進行匯總,計算出各組的數(shù)據(jù)采集對象單位數(shù)和合計數(shù),匯總出各組的指標數(shù)值和綜合指標數(shù)值。(四)編制數(shù)據(jù)分組表或繪制數(shù)據(jù)透視圖數(shù)據(jù)整理的結果,必須用一定的方式呈現(xiàn)出來。數(shù)據(jù)分組表和數(shù)據(jù)透視圖是表現(xiàn)數(shù)據(jù)的兩種主要方式。通過數(shù)據(jù)分組表或透視圖表現(xiàn)數(shù)據(jù),能夠簡潔、清晰的反映數(shù)據(jù)特征,便于數(shù)據(jù)運用。三、數(shù)據(jù)的審核(一)數(shù)據(jù)審核的內容1.數(shù)據(jù)的真實性審核資料的真實性審核主要是審核資料來源的客觀性問題,數(shù)據(jù)資料來源必須是客觀的。數(shù)據(jù)準確性審核的方法主要是邏輯審核和計算審核,把那些違背常理的、前后矛盾的資料舍去,對于不準確或有疑問的數(shù)據(jù),要仔細核對,并加以糾正。三、數(shù)據(jù)的審核(一)數(shù)據(jù)審核的內容2.資料的準確性審核準確的審核要著重檢查那些含糊不清的、籠籠統(tǒng)統(tǒng)的以及互相矛盾的資料。3.數(shù)據(jù)的及時性審核對數(shù)據(jù)及時性的審核就是檢查數(shù)據(jù)是否符合時效性的要求。4.數(shù)據(jù)的完整性審核對數(shù)據(jù)完整性的審核,主要是看被采集單位有無遺漏,各項數(shù)值的填寫是否齊全,項目是否完備等。對于有漏報的項目應補齊,否則影響整個數(shù)據(jù)整理工作的進行,進而影響整個數(shù)據(jù)處理工作。三、數(shù)據(jù)的審核(二)審核應注意的問題在審核中,如發(fā)現(xiàn)問題可以分不同的情況予以處理:1.對于在數(shù)據(jù)采集中已發(fā)現(xiàn)并經(jīng)過認真核實后確認的錯誤,可以由采集者代為更正。2.對于資料中可疑之處或有錯誤與出入的地方,應進行補充調查。3.無法進行補充采集的應堅決剔除那些有錯誤的資料,以保證資料的真實準確。三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題通過各種渠道采集來的數(shù)據(jù),常常出現(xiàn)缺失、異常、冗余、不一致的現(xiàn)象,并不能直接為數(shù)據(jù)分析所用。此外,一些成熟的數(shù)據(jù)分析模型對處理的數(shù)據(jù)有要求,比如一定的數(shù)據(jù)類型、統(tǒng)一的數(shù)據(jù)量綱以及數(shù)據(jù)冗余性要求、屬性的相關性要求等。因此,必須對原始數(shù)據(jù)進行處理才能進行分析。具體來說,原始數(shù)據(jù)主要存在以下幾個問題:三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題1.重復數(shù)據(jù)。重復數(shù)據(jù)是指在數(shù)據(jù)表中唯一標識記錄的字段出現(xiàn)多次的數(shù)據(jù)。2.缺失數(shù)據(jù)。缺失數(shù)據(jù)是指在實踐過程中因沒有能夠獲取觀測對象的相關信息而不完整的數(shù)據(jù)。例如,在抽樣數(shù)據(jù)采集中,被數(shù)據(jù)采集對象拒絕提供相關信息;又如某些實驗中,因各種原因沒能獲取實驗數(shù)據(jù),或者數(shù)據(jù)錄入、存儲過程中的人為失誤和系統(tǒng)軟硬件問題,都有可能造成數(shù)據(jù)缺失。缺失數(shù)據(jù)會影響分析結果的可信度,甚至使分析結果出現(xiàn)嚴重偏差。三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題3.異常值。異常值是指所獲得的數(shù)據(jù)中與平均值的偏差超過兩倍標準差的數(shù)據(jù),也稱為離群點。例如,錄入數(shù)據(jù)時誤將90錄入為900,那么當數(shù)據(jù)均為100左右的數(shù)據(jù)時,900就會被識別為異常值。異常值的存在會嚴重影響數(shù)據(jù)分析的結果,例如使平均值偏高或偏低,使方差增大,影響數(shù)據(jù)模型的擬合優(yōu)度等。此外,若異常值不是錯誤數(shù)據(jù),就應是數(shù)據(jù)分析人員關注的焦點。三、數(shù)據(jù)的審核(三)初級數(shù)據(jù)存在的問題5.不一致數(shù)。不一致數(shù)據(jù)一般表現(xiàn)為以下三個方面:一是人工或機械原因導致的錄入錯誤或數(shù)據(jù)規(guī)范不同。例如將數(shù)據(jù)集中的“客單價”錄入為“-150”;又如變量名“用戶編碼”下,某數(shù)據(jù)的規(guī)范是“3位/數(shù)字”,在另一數(shù)據(jù)集中則要求“5位/字母+數(shù)字”。二是變量單位或者量綱不匹配。例如,某數(shù)據(jù)集中的商品價格以“元”為單位,另一數(shù)據(jù)集中卻為“萬元”。三是數(shù)據(jù)特征不適應特定數(shù)據(jù)分析模型的需求或變量過多,分析難度較大。例如,手機系統(tǒng)為Andriod和iOS兩種,但回歸分析模型中要求數(shù)據(jù)是數(shù)值型的,可以將其轉換名義變量(0/1變量)再進行處理。項目三數(shù)據(jù)預處理認知任務2認知數(shù)據(jù)清洗一、數(shù)據(jù)清洗概述數(shù)據(jù)清洗是指對數(shù)據(jù)進行重新審查和校驗的過程中,發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤,按照一定的規(guī)則把錯誤或沖突的數(shù)據(jù)洗掉,包括檢查數(shù)據(jù)一致性,處理無效值、缺失值和冗余值等,數(shù)據(jù)清理一般是由計算機而不是人工完成。二、數(shù)據(jù)清洗的方法缺失數(shù)據(jù)一般在數(shù)據(jù)表中表現(xiàn)為空白單元格或錯誤標識符(#div/0!)。檢測方法:在Excel軟件中可單擊“開始”選項卡的“編輯”功能區(qū),通過“定位”→“定位條件”→“空值”→“確定”(或者使用【Ctrl+G】組合鍵),將缺失數(shù)據(jù)一次性選定。(一)缺失數(shù)據(jù)的清洗符號產(chǎn)生原因解決方法#DIV/0!①公式中的除數(shù)使用了指向空白單元格或包含零值的單元格的引用②輸入的公式中包含明顯的除數(shù)零①修改單元格引用,或在用作除數(shù)的單元格中輸入不為零的值②將零改為非零值二、數(shù)據(jù)清洗的方法(一)缺失數(shù)據(jù)的清洗處理方法:①忽略缺失值:將有缺失數(shù)據(jù)的記錄保留,僅在相應的分析中做必要的排除。當調查的樣本量比較大,缺失數(shù)據(jù)的數(shù)量又不是很多,而且變量之間也不存在高度相關的情況下,采用這種方式處理缺失數(shù)據(jù)比較可行。②刪除缺失值:將有缺失數(shù)據(jù)的記錄刪除,刪除記錄會導致樣本量減少,所以此方法不適于小樣本量的數(shù)據(jù)集。③填充缺失值:如果可以推斷出正確數(shù)值,則填充為邏輯正確值如果無法推斷出正確數(shù)值,則可以填充“未知”,或者用樣本統(tǒng)計量代替缺失數(shù)據(jù),最典型的做法是使用變量的平均值替代。替代后由于該變量的平均值會保持不變,因此其他的統(tǒng)計量(如標準差和相關系數(shù)等)也不會受很大的影響。二、數(shù)據(jù)清洗的方法(一)缺失數(shù)據(jù)的清洗練習題:整理某店鋪9月的銷售數(shù)據(jù),其中9月25日的支付金額和客單價數(shù)據(jù)缺失??紤]到每天的客單價相對穩(wěn)定,因此可以用平均客單價代替缺失數(shù)據(jù)。步驟1:選中D列,在Excel窗口下方的狀態(tài)欄中可以看到平均值為152.7。

步驟2:在D7單元格中輸入152.7,然后選擇B7單元格,在編輯欄中輸入公式"=C7*D7"按【Enter】鍵確認,得出支付金額數(shù)據(jù)。二、數(shù)據(jù)清洗的方法二、數(shù)據(jù)清洗的方法(二)重復數(shù)據(jù)的清洗為了保證數(shù)據(jù)的一致性,我們需要對重復數(shù)據(jù)進行處理。在完成重復數(shù)據(jù)的查找后,即可刪除重復數(shù)據(jù)。實體重復字段重復所有字段完全重復某一個或多個不該重復的字段重復,如Name字段重復重復數(shù)據(jù)

的類型二、數(shù)據(jù)清洗的方法(二)重復數(shù)據(jù)的清洗選擇“開始”|“條件格式”|“突出顯示單元格規(guī)則”|“重復值”命令把重復的數(shù)據(jù)及其所在單元格標為不同顏色以便識別條件格式法重復數(shù)據(jù)的查找高級篩選法函數(shù)法數(shù)據(jù)透視表法利用Excel的“高級篩選”功能,選擇不重復的記錄選擇不重復的記錄該函數(shù)的語法規(guī)則:COUNTIF(range,criteria)range:計算其中非空單元格數(shù)目的區(qū)域criteria:以數(shù)字、表達式或文本形式定義的條件利用COUNTIF函數(shù)對重復數(shù)據(jù)進行識別拖動選擇相應字段,設置“計數(shù)”匯總,其中出現(xiàn)兩次及以上的數(shù)據(jù)就屬于重復項統(tǒng)計各數(shù)據(jù)出現(xiàn)的頻次二、數(shù)據(jù)清洗的方法(二)重復數(shù)據(jù)的清洗通過按鈕刪除重復項通過排序刪除重復項通過篩選刪除重復項單擊“數(shù)據(jù)”選項卡下的“刪除重復項”按鈕,將顯示有多少重復值被刪除,有多少唯一值被保留在利用COUNTIF函數(shù)對重復數(shù)據(jù)進行識別的基礎上,對有重復標記的列進行降序排列,刪除數(shù)值大于1的項在利用COUNTIF函數(shù)對重復數(shù)據(jù)進行識別的基礎上,對有重復標記的列進行篩選,篩選出數(shù)值不等于1的項刪除重復數(shù)據(jù)的方法二、數(shù)據(jù)清洗的方法(二)重復數(shù)據(jù)的清洗練習題:利用第三方采集工具從京東商城采集關于玻璃杯的商品數(shù)據(jù),其中包含了多條重復的數(shù)據(jù),請用不同方法對重復數(shù)據(jù)進行識別,并刪除重復數(shù)據(jù)。二、數(shù)據(jù)清洗的方法(二)重復數(shù)據(jù)的清洗練習題:COUNTIF函數(shù)法:1.在“京東價”左側插入一列,標題設為“第幾次出現(xiàn)”2.在C2單元格輸入公式“=COUNTIF($B$2:B2,B2)”,該公式用于對“商品ID”進行計數(shù)3.篩選出大于1的數(shù)據(jù),即為重復數(shù)據(jù)(也可排序找出重復數(shù)據(jù),但順序會亂)二、數(shù)據(jù)清洗的方法實操練習:在采集某商品的庫存數(shù)據(jù)時,由于部分SKU(商品最小存貨單位)的期初庫存和期末庫存數(shù)據(jù)無法采集,導致對應的庫存周轉率結果錯誤,同時考慮到這些數(shù)據(jù)無法手動修改。因此,這里僅需要對表格中的錯誤信息進行處理,即對于數(shù)據(jù)不完整的SKU,其庫存周轉率用“/”號來表示,最后再對整個表格的數(shù)據(jù)進行去重檢查與處理。1選擇單元格區(qū)域、設置公式2修改錯誤、刪除重復數(shù)據(jù)二、數(shù)據(jù)清洗的方法3擴展選定區(qū)域、設置檢查項4提示已經(jīng)刪除了重復數(shù)據(jù)專家點撥:

IFERROR

函數(shù)的語法格式為"

IFERROR

(

Value

,

Value

_

If

_

Error

)",該函數(shù)可用于捕獲和處理公式中的錯誤。如果公式的計算結果為錯誤值,則

IFERROR

函數(shù)將返回參數(shù)"

Value

_

If

_

Error

"所設置的值,否則將返回參數(shù)"

Value

"的值。二、數(shù)據(jù)清洗的方法二、數(shù)據(jù)清洗的方法(三)錯誤數(shù)據(jù)的清洗錯誤原因查找方法清洗方法手工錄入錯誤條件格式標注錯誤值錯誤數(shù)據(jù)清洗輸入不符合要求其他原因COUNTIF函數(shù)糾正錯誤二、數(shù)據(jù)清洗的方法1.邏輯錯誤數(shù)據(jù)的清洗練習題:(1)被調查者輸入的信息不符合要求在進行問卷調查時,多項選擇題最多可選3項,但被調查者選擇了4項或4項以上。對于這種情況,我們可以結合COUNTIF函數(shù),根據(jù)指定的條件利用IF函數(shù)來判斷其真假,然后根據(jù)邏輯計算的真假值(TRUE或FALSE)返回相應的內容。以客戶滿意度調查中的多項選擇題為例,介紹如何找出不符合要求的數(shù)據(jù)。二、數(shù)據(jù)清洗的方法1.邏輯錯誤數(shù)據(jù)的清洗練習題:方法1-使用COUNTIF函數(shù)完成檢驗步驟1:針對"題目1"設置了

A

、

B

、

C

、

D

、

E

F

、

G

共7個選項,這7個選項共有4條相關記錄,這4條記錄分別代表了4個客戶對"題目1"的回答,可以看出"客戶2"選擇了4項,不符合最多可選3項的要求。二、數(shù)據(jù)清洗的方法1.邏輯錯誤數(shù)據(jù)的清洗練習題:方法1-使用COUNTIF函數(shù)完成檢驗步驟2:選擇I3單元格,在編輯欄中輸入公式=COUNTIF(B3:H3,“<>0),該公式用于判斷被調查者是否選擇了3項以上。步驟3:選中檢驗列,“條件格式”-“突出顯示單元格規(guī)則”-“大于”-3,對所有大于3的單元格突出顯示二、數(shù)據(jù)清洗的方法1.邏輯錯誤數(shù)據(jù)的清洗練習題:方法2-使用COUNTIF和IF函數(shù)完成檢驗步驟1:針對"題目1"設置了

A

、

B

、

C

、

D

E

、

F

G

共7個選項,這7個選項共有4條相關記錄,這4條記錄分別代表了4個客戶對"題目1"的回答,可以看出"客戶2"選擇了4項,不符合最多可選3項的要求。二、數(shù)據(jù)清洗的方法1.邏輯錯誤數(shù)據(jù)的清洗練習題:方法2-使用COUNTIF和IF函數(shù)完成檢驗步驟2:選擇J3單元格,在編輯欄中輸入公式"=IF(COUNTIF(B3:H3,“<>0”)>3,"錯誤","正確")",該公式用于判斷被調查者是否選擇了3項以上。如果超過3項,表達式即為TRUE,返回"錯誤";否則為

FALSE

,返回"正確"。二、數(shù)據(jù)清洗的方法1.邏輯錯誤數(shù)據(jù)的清洗練習題:(2)手工錄入錯誤在手動錄入的調查問卷中,出現(xiàn)了0和1之外的數(shù)據(jù)。對于這種情況,我們可以采用條件格式,利用OR函數(shù)標記錯誤。該函數(shù)的語法規(guī)則為:OR(logicall,logical2,…)。在其參數(shù)組中,任何一個參數(shù)邏輯值為TRUE即返回TRUE;所有參數(shù)的邏輯值為FALSE才返回FALSE。二、數(shù)據(jù)清洗的方法1.邏輯錯誤數(shù)據(jù)的清洗練習題:(2)手工錄入錯誤步驟1:在手動錄入調查問卷時,錄入除0和1之外的數(shù)據(jù),從表中可以看出,單元格中出現(xiàn)了3、2、3這樣的數(shù)字。步驟2:選中B3:H6單元格區(qū)域,在“開始”選項卡下單擊“條件格式”下拉按鈕,在彈出的下拉列表中選擇“新建規(guī)則”選項,彈出“新建格式規(guī)則”對話框,選擇“使用公式確定要設置格式的單元格”選項,然后輸入公式“=OR(B3=1,B3=0)=FALSE“,表示既不為1也不為0的單元格會被標記出來。步驟3:單擊“格式”按鈕,在彈出的“設置單元格格式”對話框中選擇“填充”選項卡,此時錯誤數(shù)據(jù)被自動標記出來。二、數(shù)據(jù)清洗的方法二、數(shù)據(jù)清洗的方法2.格式錯誤數(shù)據(jù)的清洗數(shù)據(jù)格式問題主要有以下幾類:(一)時間、日期、數(shù)值、半全角等顯示格式不一致。直接將數(shù)據(jù)轉換為一類格式即可,該問題一般出現(xiàn)在多個數(shù)據(jù)源整合的情況下。(二)內容中有不該存在的字符。如在身高字段下有些變量帶單位,有些沒有,這時去除不需要的字符即可。(三)數(shù)據(jù)格式不滿足要求。在不同的計算方式下對數(shù)據(jù)格式要求不同,可根據(jù)分析要求進行格式調整。二、數(shù)據(jù)清洗的方法練習:某企業(yè)采集了競爭對手的相關數(shù)據(jù),發(fā)現(xiàn)一級類目下的數(shù)據(jù)表達格式未統(tǒng)一,且客單價與銷售額的格式也不相同,需要進行整理,其具體操作如下。1輸入查找與替換的內容2確認替換一級類目統(tǒng)一替換為:女裝/女士精品二、數(shù)據(jù)清洗的方法4選擇多個單元格區(qū)域5設置數(shù)據(jù)類型3查找與替換其他數(shù)據(jù)二、數(shù)據(jù)清洗的方法(四)異常數(shù)據(jù)的清洗檢測方法:(1)定義法:檢測數(shù)據(jù)與平均值的偏差,與檢測數(shù)據(jù)兩倍標準差比較大?。?)箱形圖:由數(shù)據(jù)的上邊緣、上四分位數(shù)、中位數(shù)、下四分位數(shù)和下邊緣組成的圖形,其中上邊緣和下邊緣線所代表的就是臨界值,超過上下邊界的離群點則為需要關注的異常值。操作要求:在excel表格中檢測“消費次數(shù)”的異常值。運用函數(shù):AVERAGE(平均值函數(shù))、ABS(絕對值函數(shù))、STDEV.S(標準差函數(shù))二、數(shù)據(jù)清洗的方法(四)異常數(shù)據(jù)的清洗處理方法:①參考后續(xù)的數(shù)據(jù)分析模型,選擇刪除或者保留異常值。②用一個樣本統(tǒng)計量去代替異常值,比如平均值、中位數(shù)、眾數(shù)等。③分箱法,即通過考察相鄰數(shù)據(jù)的取值對異常值進行平滑處理,可視為一種局部平滑方法。首先將異常值所在指標下的所有數(shù)據(jù)按照大小排序,并適當分組(也稱作分“箱”),然后用組內數(shù)據(jù)的平均值、中位數(shù)或邊界值來代替異常值。分組時,如果每個“箱”的數(shù)據(jù)個數(shù)相同就為等深分箱;如果每個“箱”內數(shù)據(jù)值的區(qū)間范圍是一個常量就為等寬分箱。三、數(shù)據(jù)加工數(shù)據(jù)加工是指對數(shù)據(jù)進行抽取、轉換、計算等操作,使經(jīng)過加工后的數(shù)據(jù)成為簡潔、規(guī)范、清晰的樣本數(shù)據(jù)。一般情況下,當數(shù)據(jù)經(jīng)過清洗之后仍然不能滿足用戶的分析需求時,就需要利用數(shù)據(jù)加工對數(shù)據(jù)進行進一步的處理,形成分析所需要的一系列新的字段。數(shù)據(jù)加工環(huán)節(jié)直接影響數(shù)據(jù)質量的價值性、可用性和準確性。因此在進行數(shù)據(jù)加工時,要根據(jù)數(shù)據(jù)特點合理選擇數(shù)據(jù)加工方法,以實現(xiàn)數(shù)據(jù)質量的最優(yōu)化。三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取數(shù)據(jù)抽取就是對數(shù)據(jù)庫中現(xiàn)有字段進行整合加工,使能夠形成分析所需要的數(shù)據(jù)。1.從某個字段中抽取部分數(shù)據(jù)字段拆分就是為了截取某一字段中的部分信息,將該字段拆分成兩個或多個字段。三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取Excel的“快速填充”功能一般來說,沒有規(guī)律的數(shù)據(jù)都需要手動輸入,但對于一些相同或有規(guī)律的數(shù)據(jù),如員工編號、部門名稱等,則可通過填充的方式快速輸入。三、數(shù)據(jù)加工三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取2.從不同的數(shù)據(jù)表中抽取多個字段VLOOKUP函數(shù)打開素材文件“2數(shù)據(jù)抽取-素材”,其中包括兩個表,第一個表為近期店鋪方可排名前10的商品表,包括商品標題、商品ID、商品貨號等屬性,第二個表為店鋪商品信息表,記錄了店鋪中所有商品的信息,運營者需要為這些商品添加相應的商品貨號。三、數(shù)據(jù)加工三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取練習:字段拆分打開素材文件“3數(shù)據(jù)抽取-素材”,已知某公司實習員工的信息表,將員工的出生年月日字段拆分成年、月、日三個字段;三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取練習:字段拆分分隔符號根據(jù)實際情況選擇或輸入三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取練習:字段拆分請大家嘗試用YEAR、MONTH、DAY、MID、LEFT、RIGHT等函數(shù)抽取信息;用VLOOKUP函數(shù)將考核得分抽取到基本信息表中。三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取3.字段合并字段合并就是將若干字段合并成為一個新的字段,或者將字段值與文字、數(shù)字等組合形成新的字段。字段合并可以利用CONCATENATE函數(shù)或者“&”(邏輯與)運算符。三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取3.字段合并請將基本信息表中員工的工號和姓名字段合并,合并成“**的工號是**”,例如“周慧的工號是1801201”。(1)利用&運算符合并三、數(shù)據(jù)加工(一)數(shù)據(jù)抽取3.字段合并(2)利用CONCATENATE函數(shù)合并三、數(shù)據(jù)加工(二)數(shù)據(jù)轉換由于不同來源的數(shù)據(jù)可能存在不同的結構,數(shù)據(jù)轉化主要是將數(shù)據(jù)轉換成規(guī)范、清晰、易于分析的結構。數(shù)據(jù)轉換包括數(shù)據(jù)行列轉換、數(shù)據(jù)類型轉換、數(shù)據(jù)排序和數(shù)據(jù)分組。三、數(shù)據(jù)加工1.數(shù)據(jù)行列轉換在進行數(shù)據(jù)報表分析時,常常要從不同的維度觀察數(shù)據(jù)。例如,從時間的維度查看匯總數(shù)據(jù),從地區(qū)的維度觀察匯總數(shù)據(jù),這樣需要對行列數(shù)據(jù)進行轉換(又稱轉置)。

例如,下圖的數(shù)據(jù)轉換,可以將原數(shù)據(jù)復制,然后利用"選擇性粘貼"對話框中的"轉置"選項完成這個操作。三、數(shù)據(jù)加工2.數(shù)據(jù)類型轉換(1)數(shù)值轉字符在Excel中輸入數(shù)據(jù)的時候,會默認使用數(shù)值型數(shù)據(jù);若是數(shù)字太長,會變成用科學記數(shù)法表示的數(shù),不利于查看數(shù)據(jù)。我們可以利用“數(shù)據(jù)”選項卡中的“分列”功能進行轉換。步驟:1)選擇要轉換的數(shù)字所在的單元格,隨后單擊“分列”按鈕,在“文本分列向導”對話框中,使用默認設置,連續(xù)單擊“下一步”按鈕;2)進入“文本分列向導”第3步,選中“列數(shù)據(jù)格式”欄中的“文本”單選項,單擊“完成”按鈕即可完成設置;3)設置完成后,返回Excel數(shù)據(jù)表,數(shù)據(jù)前有小三角符號,代表已轉換成功。三、數(shù)據(jù)加工2.數(shù)據(jù)類型轉換(2)字符轉數(shù)字在進行數(shù)據(jù)統(tǒng)計時,有時獲取的原始數(shù)據(jù)是以文本字符形式展現(xiàn)的,雖然這不影響數(shù)據(jù)展現(xiàn),但無法進行計算。直接選中要轉換的數(shù)據(jù)列,單擊數(shù)據(jù)列前出現(xiàn)的提醒符號,在給出的選項中選擇“轉換為數(shù)字”選項,即可將文本字符轉換為數(shù)值。三、數(shù)據(jù)加工(三)數(shù)據(jù)排序數(shù)據(jù)排序是指將數(shù)據(jù)按照方便我們處理分析的順序進行有規(guī)則的排列,如按照分數(shù)降序排序、按照日期升序排序等。(1)添加條件將數(shù)據(jù)按照“訪客數(shù)”和“下單買家數(shù)”兩個字段進行排序,均為降序排序。(2)自定義排序將數(shù)據(jù)根據(jù)流量來源進行排序。1)選擇“文件”菜單中的“選項”命令,彈出“Excel選項”對話框,切換到“高級”選項卡,單擊“編輯自定義列表”按鈕;2)在彈出的“自定義序列”對話框中輸入序列(即按照我們希望該字段排列的順序輸入),單擊“添加”按鈕,將其添加到自定義序列中,單擊“確定”按鈕完成添加三、數(shù)據(jù)加工三、數(shù)據(jù)加工(四)數(shù)據(jù)分組數(shù)據(jù)分組是根據(jù)統(tǒng)計研究需要,將原始數(shù)據(jù)按照某種標準劃分成不同的組別,分組后的數(shù)據(jù)稱為分組數(shù)據(jù)。在Excel中我們可以通過VLOOKUP函數(shù)快速實現(xiàn)數(shù)據(jù)分組。我們想將員工的“考核得分”按照分組要求顯示考核等級。三、數(shù)據(jù)加工(四)數(shù)據(jù)分組(1)在數(shù)據(jù)表中的空白位置新建數(shù)據(jù)分組標準,如上圖所示;(2)在C2單元格中輸入公式“=VLOOKUP(B2,$G$1:$H$5,2,1)”,三、數(shù)據(jù)加工(五)數(shù)據(jù)計算(1)常規(guī)計算:包括對數(shù)據(jù)值進行加、減、乘、除的簡單運算以及運用函數(shù)求均值、方差等統(tǒng)計分析指標的復雜運算。1)打開素材文件“數(shù)據(jù)計算”,求成交轉化率指標,設置單元格格式為百分比并保留兩位小數(shù);2)計算牛仔褲2019年的平均銷量三、數(shù)據(jù)加工(五)數(shù)據(jù)計算(2)日期計算1)日期的加減:打開素材文件“數(shù)據(jù)計算”,已給出了用戶首次下單時間和最近下單時間,計算用戶的購買間隔時長。2)日期函數(shù)常用的日期函數(shù)中,“YEAR()”表示計算年份,“MONTH()”表示計算月份,"TODAY()”表示計算當前日期,“WEEKNUM()”表示計算日期是本年的第幾周等。打開素材文件,已知商品的上架日期,請計算商品的上架天數(shù)。三、數(shù)據(jù)加工1輸入函數(shù)2計算銷售總額計算、排列、篩選并匯總銷售數(shù)據(jù)【實戰(zhàn)操作】某企業(yè)采集并整理了上半年各銷售部門的銷售數(shù)據(jù),為了便于后期進行數(shù)據(jù)分析,現(xiàn)在還需要進行計算、排列、篩選、匯總等加工處理,其具體操作如下。1.打開素材文件“銷售匯總-素材.xlsx”,計算銷售總額;三、數(shù)據(jù)加工3排列數(shù)據(jù)、篩選數(shù)據(jù)4設置篩選條件、篩選結果

2.按銷售總額從高到低的順序進行排序;3.篩選出所有銷售總額大于50000的數(shù)據(jù);三、數(shù)據(jù)加工5排序數(shù)據(jù)、設置分類匯總6設置分類匯總、匯總結果4.按銷售部門編號從小到大的順序排列各銷售人員上半年的銷售總額數(shù)據(jù);5.利用分類匯總功能,匯總出各銷售部門上半年的銷售總額數(shù)據(jù)。項目三數(shù)據(jù)預處理認知任務3認知數(shù)據(jù)篩選一、數(shù)據(jù)篩選概述數(shù)據(jù)篩選:也叫數(shù)據(jù)挖掘、數(shù)據(jù)加工,是一種把海量數(shù)據(jù)進行多維度的探索和挖掘,以達到選出有用的信息的過程。特點:具有全面性、客觀性、高效性,是信息決策技術中的一類應用工具。其主要目的是從海量的數(shù)據(jù)中提取重要的信息,一般采用統(tǒng)計學和人工智能相結合的模式,經(jīng)過數(shù)據(jù)篩選處理,生成有用的信息、數(shù)據(jù)。二、常用數(shù)據(jù)篩選工具在Excel中,我們可以使用篩選功能、高級篩選、數(shù)據(jù)透視表來篩選數(shù)據(jù)。篩選功能可以幫助我們更加精確的篩選數(shù)據(jù),提高數(shù)據(jù)分析的準確性。數(shù)據(jù)透視表可以幫助我們更加準確的了解數(shù)據(jù)的分布情況和趨勢,從而更好的進行數(shù)據(jù)分析與決策。(一)excel軟件二、常用數(shù)據(jù)篩選工具SQL是一種常用的數(shù)據(jù)庫查詢語言,它可以幫助我們從數(shù)據(jù)庫中篩選出需要的數(shù)據(jù)。首先需要連接到數(shù)據(jù)庫,然后使用SELECT語句進行查詢。SELECT語句可以根據(jù)條件篩選數(shù)據(jù),比如按照某一列的數(shù)值大小、文本內容、日期等進行篩選。SQL查詢可以幫助我們從大量的數(shù)據(jù)中快速地找到需要的信息,提高數(shù)據(jù)分析的效率。(二)SQL查詢二、常用數(shù)據(jù)篩選工具Python是一種常用的編程語言,它可以幫助我們對數(shù)據(jù)進行篩選和分析。首先需要導入需要的庫,比如pandas庫,然后讀取數(shù)據(jù)文件。在Python中,我們可以使用條件語句和邏輯運算符進行數(shù)據(jù)篩選,比如按照某一列的數(shù)值大小、文本內容、日期等進行篩選。Python篩選可以幫助我們更加靈活地對數(shù)據(jù)進行處理,提高數(shù)據(jù)分析的靈活性和準確性。(三)Python軟件篩選三、數(shù)據(jù)篩選實例打開時間篩選表的素材文件,將在2026年1月1日之前的日期字體設置為紫色,加粗,添加刪除線,背景填充為黃色。將在2026年1月1日之后的日期字體設置為黃色,加粗,背景填充為紅色。項目三數(shù)據(jù)預處理認知任務4數(shù)據(jù)分組認知任務導入:為準確了解工人的勞動效率,某企業(yè)生產(chǎn)管理部門對機加工車間30名工人完成勞動定額的情況進行數(shù)據(jù)采集,得到如下原始資料(%):97829584938692102100103105100103108107108106109113114109117125115122119118116129115該企業(yè)生產(chǎn)管理部門經(jīng)理要求該部門工作人員盡快對該資料進行整理,以便提供給公司管理層為制定新的生產(chǎn)定額提供參考。任務要求:1.請你根據(jù)上述數(shù)據(jù)資料幫助該企業(yè)生產(chǎn)部門工作人員,整理一下機加工車間30名工人完成勞動定額的情況,以便更好的反映工人生產(chǎn)定額完成情況的分布狀況及其構成。2.通過以上數(shù)據(jù)整理工作的流程,簡述一下數(shù)據(jù)分組是什么?數(shù)據(jù)分組最關鍵問題是什么?一、數(shù)據(jù)分組的概念及作用數(shù)據(jù)分組是在數(shù)據(jù)采集對象內部進行的一種特定分類,是根據(jù)數(shù)據(jù)處理的目的,將數(shù)據(jù)按照一定的數(shù)據(jù)處理需求區(qū)分為若干個組成部分的數(shù)據(jù)處理方法。(一)數(shù)據(jù)分組的概念一、數(shù)據(jù)分組的概念及作用1.可以揭示社會經(jīng)濟數(shù)據(jù)資料的特點及規(guī)律性(二)數(shù)據(jù)分組的作用通過數(shù)據(jù)采集得到的資料,往往是大量零散的、不系統(tǒng)的第一手數(shù)據(jù),僅僅通過這些散亂的資料,難以看出數(shù)據(jù)采集對象的特點和基本情況,所以需要進行分組。經(jīng)過數(shù)據(jù)分組之后,就可以觀察出數(shù)據(jù)具有的一些特點,進而研究數(shù)據(jù)采集對象具有的規(guī)律性。一、數(shù)據(jù)分組的概念及作用2.可以區(qū)分數(shù)據(jù)采集對象的類型(二)數(shù)據(jù)分組的作用例如,消費者按照購物習慣可分為傳統(tǒng)型購物人群和網(wǎng)店型購物人群等類型,網(wǎng)店購物人群可還以按照性別、職業(yè)和年齡等來區(qū)分,傳統(tǒng)型購物人群也可按照年齡、地域等來分類;當然,還可以按照城鎮(zhèn)購物人群和農村居民購物人群等來區(qū)分消費者類型。一、數(shù)據(jù)分組的概念及作用3.可以分析數(shù)據(jù)采集對象內部構成和結構特征(二)數(shù)據(jù)分組的作用把被研究現(xiàn)象按某一標志分組后,計算出各組在數(shù)據(jù)采集對象中的比重,就可以說明經(jīng)濟現(xiàn)象的內部結構,例如網(wǎng)購群體中老、中、青購物者構成情況,西瓜視頻、抖音等視媒體愛好者結構等,都反映出不同的購物人群對網(wǎng)購及自媒體的態(tài)度。一、數(shù)據(jù)分組的概念及作用4.可以揭示現(xiàn)象之間的依存關系(二)數(shù)據(jù)分組的作用數(shù)據(jù)采集對象都不是孤立存在的,而是相互聯(lián)系、相互依存、相互制約的。例如,網(wǎng)絡時代消費者中,年齡與購物習慣存在著一定的關系,一般來說,青年購物者往往喜歡網(wǎng)購,而老年人則喜歡實體店消費;廣告投入和銷售額存在一定的依存關系,一般來說,廣告投入越多,銷售額也比較高。再如商品銷售額和流通費用率之間也存在著一定的依存關系,一般來說,銷售額越高,流通費用率越低(見表3-3-1)。一、數(shù)據(jù)分組的概念及作用可以看出,商品流通費用率與商品銷售額之間存在的依存關系是?(二)數(shù)據(jù)分組的作用二、數(shù)據(jù)分組的方法數(shù)據(jù)分組的關鍵問題在于選擇分組標志和劃分各組界限,而選擇分組標志則是數(shù)據(jù)分組的核心問題。二、數(shù)據(jù)分組的方法1.根據(jù)數(shù)據(jù)處理的目的與任務選擇分組標志(一)選擇分組標志例如,以愛好網(wǎng)購的消費者為數(shù)據(jù)采集對象進行研究時,這個研究對象就有很多標志,如年齡,性別、職業(yè)、收入等。如果數(shù)據(jù)分析的目的是要分析不同年齡段人群在數(shù)據(jù)采集對象中的構成,那么就要選擇年齡作為分組標志;如果要研究職業(yè)、收入對網(wǎng)購的影響,則可以選擇職業(yè)、收入等作為分組標志。二、數(shù)據(jù)分組的方法2.要從眾多標志中選擇最能反映被研究對象本質特征的標志作為分組標志(一)選擇分組標志在選擇分組標志時,可能遇到既可以使用這種標志,又可以使用另一種標志的情況,這就需要根據(jù)被研究對象的特征,選擇最主要的、最能反映事物本質特征的標志進行分組。例如,研究某城市居民生活水平狀況時,既可用居民的個人收入水平作為分組標志,也可以用居民家庭成員人均收入水平作為分組標志。思考:哪個分組標志更能反映其生活水平的高低?二、數(shù)據(jù)分組的方法3.根據(jù)現(xiàn)象所處的歷史條件或經(jīng)濟條件來選擇數(shù)據(jù)分組標志(一)選擇分組標志數(shù)據(jù)采集對象是隨著時間、地點等條件的變化而變化的。例如,在研究公司發(fā)展水平高低時,需要對企業(yè)按年產(chǎn)量或年產(chǎn)值進行分組。一般來說,反映公司發(fā)展水平高低的標志主要有年產(chǎn)值、年產(chǎn)量、固定資產(chǎn)、年利潤額、資本利潤率等。在生產(chǎn)力水平較低的情況下,用年產(chǎn)值的多少來表示企業(yè)規(guī)模的大小比較適當;而在技術更新的歷史時期或技術裝備比較先進的情況下,有的企業(yè)由于采用了機械化生產(chǎn),雖然年產(chǎn)值可能很大,但發(fā)展水平并不一定很高。因此,年產(chǎn)值已不能準確地說明公司發(fā)展水平的高低,這時使用年利潤額或資本利潤率等作為反映公司發(fā)展水平的分組標志更為恰當。二、數(shù)據(jù)分組的方法1.按品質標志分組(屬性差異)(二)數(shù)據(jù)分組的種類例如,網(wǎng)民按性別、民族、文化程度等標志進行分組。按品質標志分組的結果形成品質數(shù)列,如下表為某縣區(qū)200家企業(yè)類型分組表。二、數(shù)據(jù)分組的方法2.按數(shù)量標志分組(數(shù)量差異)(二)數(shù)據(jù)分組的種類例如,消費者按年齡分組,職工按工資水平分組等。按數(shù)量標志分組的過程中,根據(jù)變量值取值范圍不同,分組的形式可以分為單項式分組和組距式分組。二、數(shù)據(jù)分組的方法(二)數(shù)據(jù)分組的種類單項式分組:即每一組只包含一個變量值,這種分組形式只適用于離散變量,而且只能在離散變量的變動范圍較小、變量值個數(shù)較少時使用,如,按某工廠機械加工車間工人日產(chǎn)量劃分工人生產(chǎn)情況(見下表)。單項式分組(要點)

用一個變量值作為一組適合于變量值較少的離散變量二、數(shù)據(jù)分組的方法工人日產(chǎn)量分組表(二)數(shù)據(jù)分組的種類二、數(shù)據(jù)分組的方法(二)數(shù)據(jù)分組的種類二、數(shù)據(jù)分組的方法(二)數(shù)據(jù)分組的種類組距式分組:即在變量值變異幅度較大時,將變量值取值范圍人為地劃分為若干個區(qū)間,變量在同一區(qū)間內取值的現(xiàn)象歸為一組,區(qū)間的距離即稱為組距,如商店按銷售額分組等。組距分組(要點)用變量值的一個區(qū)間作為一組適合于連續(xù)變量和變量值較多的離散變量二、數(shù)據(jù)分組的方法(二)數(shù)據(jù)分組的種類二、數(shù)據(jù)分組的方法(二)數(shù)據(jù)分組的種類二、數(shù)據(jù)分組的方法(三)數(shù)據(jù)分組體系所謂數(shù)據(jù)分組體系,就是根據(jù)數(shù)據(jù)采集與處理的要求,通過對同一數(shù)據(jù)采集對象進行不同分組,形成的系列相互聯(lián)系、相互補充的組的整體。數(shù)據(jù)分組體系有平行分組體系與復合分組體系之分。二、數(shù)據(jù)分組的方法(三)數(shù)據(jù)分組體系平行分組:平行分組是選擇兩個或兩個以上的標志對總體進行一次次簡單分組后所形成的體系。在平行分組中,各個分組是并列的,每個分組都是基于一個特定的標志或屬性進行的。這種分組方式適用于當各個分組之間沒有直接的邏輯或層次關系,或者當需要同時考慮多個標志時。二、數(shù)據(jù)分組的方法(三)數(shù)據(jù)分組體系復合分組:復合分組是將總體按照一個主要的標志進行初步分組,然后在每個初步分組的基礎上,再根據(jù)一個或多個其他標志進行更細致的分組。復合分組形成了一個分組的層次結構,其中每個較高級別的分組可以進一步細分為更具體的子組。這種分組方式適用于當需要對總體進行更深入的細分,以揭示不同子組之間的差異時。二、數(shù)據(jù)分組的方法(三)數(shù)據(jù)分組體系二、數(shù)據(jù)分組的方法(三)數(shù)據(jù)分組體系項目三數(shù)據(jù)預處理認知任務5數(shù)據(jù)匯總認知任務導入:一家評估機構為數(shù)據(jù)采集不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了數(shù)據(jù)采集。采集人員在某天對照50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。下面的資料是某超市對購買飲料進行記錄的原始數(shù)據(jù)。任務要求:1.匯總某日每種飲料的銷售情況;2.分析飲料銷售情況有何特征?一、數(shù)據(jù)匯總的概念數(shù)據(jù)匯總,它是在數(shù)據(jù)分組的基礎上,把數(shù)據(jù)采集單位各方面的特征值分別進行綜合和加總,最終得到數(shù)據(jù)指標的工作過程。(一)數(shù)據(jù)匯總的概念二、數(shù)據(jù)匯總的內容(一)數(shù)據(jù)采集單位數(shù)匯總也是頻數(shù)的匯總,即匯總各組和采集對象總體的單位數(shù)。(二)數(shù)據(jù)采集單位特征值匯總也即是相關標志值匯總,是將數(shù)據(jù)采集單位的某一數(shù)量特征值絕對數(shù)進行加總,最終合計為數(shù)據(jù)采集對象總體的某一數(shù)量特征值的總和。三、數(shù)據(jù)匯總的組織形式(一)逐級匯總逐級匯總就是按一定的統(tǒng)計管理體制,自下而上地對數(shù)據(jù)采集資料進行逐級匯總。(二)集中匯總對各級都需要的基本資料實行逐級匯總,對數(shù)據(jù)采集所得的其他資料則實行集中匯總。(三)綜合匯總集中匯總就是將全部數(shù)據(jù)采集資料集中到組織數(shù)據(jù)采集的最高一級機關進行一次性匯總。三、數(shù)據(jù)匯總的組織形式各種匯總形式對照表四、利用“分類匯總”進行數(shù)據(jù)匯總Excel是常用的數(shù)據(jù)處理分析軟件,能夠對數(shù)據(jù)進行分類匯總和計算。下面以某天貓書店某日的圖書銷售情況資料為例來介紹Excel中分類匯總的操作流程。某天貓書店某日圖書銷售情況四、利用“分類匯總”進行數(shù)據(jù)匯總匯總任務:按“購買者籍貫”匯總商品總價。第一步,鼠標點擊表格內“購買者省籍貫”的任一單元格,對數(shù)據(jù)進行升序排列;第二步,選擇“數(shù)據(jù)”菜單中“分類匯總”命令,打開“分類匯總”對話框;第三步,在“分類匯總”對話框中,選擇“購買者籍貫”為分類字段,匯總方式選擇“求和”選項,在“選定匯總項”中選中“商品總價(元)”復選框;第四步,可以將上述的結果創(chuàng)建一個圖表,該圖表僅使用了包含分類匯總的列表中的可見數(shù)據(jù)。分類匯總中的匯總方式有求和、計數(shù)、平均值、最大值、最小值、乘積、數(shù)值計數(shù)、標準差、方差,可通過第三步選定不同的匯總方式來進行不同的分類匯總。五、利用數(shù)據(jù)透視表進行數(shù)據(jù)匯總針對上述案例,請大家嘗試用數(shù)據(jù)透視表完成基于“購買者籍貫”的商品總價的匯總。實操練習請大家完成某日每種飲料的銷售匯總任務。項目三數(shù)據(jù)預處理認知任務6頻數(shù)分配及分布類型任務導入:某淘寶店家每天的銷售額(元)數(shù)據(jù)采集,采集50天銷售額構成樣本,樣本資料如下:任務要求:1.簡述編制頻數(shù)分布的步驟。2.利用Excel對上述某淘寶店日銷售額數(shù)據(jù)進行數(shù)據(jù)分組,并編制頻數(shù)分布。一、頻數(shù)分配的概念在數(shù)據(jù)分組的基礎上,將數(shù)據(jù)采集對象的所有單位按組歸類整理,并按一定順序排列,形成數(shù)據(jù)采集單位在各組間的分布,稱為頻數(shù)分布。(一)頻數(shù)分布的概念分布在各組的數(shù)據(jù)采集對象單位數(shù)叫次數(shù),也稱頻數(shù)。各組頻數(shù)之和為總頻數(shù)。各組頻數(shù)與總頻數(shù)之比稱為頻率(或稱為比重、比率)。各組頻數(shù)與頻率可以反映各組標志值水平對數(shù)據(jù)采集對象標志值水平的影響程度。一、頻數(shù)分配的概念將各組的名稱與相應的頻數(shù)或頻率,按一定順序排列起來形成的數(shù)列稱為頻數(shù)分布數(shù)列,簡稱頻數(shù)數(shù)列或分布數(shù)列。(一)頻數(shù)分布的概念頻數(shù)分布數(shù)列可以反映數(shù)據(jù)采集對象單位在各組間的分布狀態(tài)和分布特征,是進一步分析數(shù)據(jù)采集對象平均水平和差異程度的基礎。一、頻數(shù)分配的概念1.品質分配數(shù)列(二)頻數(shù)數(shù)列的種類按照品質數(shù)據(jù)分組而形成的分布數(shù)列稱為品質分布數(shù)列,簡稱品質數(shù)列。某零食網(wǎng)店一段時間購物者性別狀況分組表一、頻數(shù)分配的概念2.變量數(shù)列(二)頻數(shù)數(shù)列的種類按照數(shù)值數(shù)據(jù)分組而形成的分配數(shù)列稱為變量數(shù)列。變量數(shù)量又可分為單項式變量數(shù)列與組距式變量數(shù)列。某地區(qū)餐飲業(yè)按照營業(yè)額分組二、頻數(shù)分布的Excel處理Excel上主要利用FREQUENCY函數(shù)生成頻數(shù)分布數(shù)列,F(xiàn)REQUENCY函數(shù)計算數(shù)值在某個區(qū)域內的出現(xiàn)頻率,然后返回一個垂直數(shù)組。語法:FREQUENCY(數(shù)據(jù)源,分段點)呈現(xiàn):以分組區(qū)間點為間隔,數(shù)據(jù)源中所有數(shù)據(jù)在各段出現(xiàn)的頻數(shù)。注意:1.分組區(qū)間點必須設置為每一數(shù)據(jù)區(qū)域中最大的數(shù)值(重疊組限應設置為該區(qū)域的實際上限);2.最后一組(最大組)可不設置分組區(qū)間點,系統(tǒng)會自動查找最后一個分組區(qū)間點大的數(shù)據(jù)的個數(shù)作為返回數(shù)據(jù)組中的最后一個元素,以至于返回數(shù)據(jù)中的元素個數(shù)比分組區(qū)間點的個數(shù)要多一個。二、頻數(shù)分布的Excel處理下面我們以任務導入的案例某淘寶店每天的銷售額為例來對數(shù)據(jù)進行分組并編制頻數(shù)分布數(shù)列。第一步,新建“頻數(shù)分布.xls”工作簿,建立“某天貓店日銷售額”工作表,并在A1:B51區(qū)域輸入原始數(shù)據(jù)為數(shù)據(jù)源,如圖所示。二、頻數(shù)分布的Excel處理第二步,在單元格C1中輸入“按日銷售額分組(元)”,在單元格D1中輸入“分組區(qū)間”,在單元格E1中輸入“天數(shù)(日)”,如圖所示。二、頻數(shù)分布的Excel處理第三步,在單元格C2:C6區(qū)域中輸入“3000元以下”、“3000~4000”、“4000~5000”、“5000~6000”、“6000元以上”;作為分組結果,在D2:D6區(qū)域中依次輸入相應組的實際上限(即各組的最高銷售額):“2999”、“3999”“4999”“5999”,這些數(shù)據(jù)將作為數(shù)據(jù)的分組區(qū)間在函數(shù)中運用。輸入后如圖所示。二、頻數(shù)分布的Excel處理第四步,選中E2:E6區(qū)域,然后選擇“公式”菜單欄中的“插入函數(shù)”按鈕,或者單擊編輯欄左側的“插入函數(shù)”工具按鈕fx,彈出“插入函數(shù)”對話框,如圖所示。二、頻數(shù)分布的Excel處理第五步,在“選擇函數(shù)”下拉表中選擇“統(tǒng)計”選項,然后在“選擇函數(shù)”列表框中選擇FREQUENCY函數(shù),如圖所示,單擊“確定”按鈕,此時會彈出“函數(shù)參數(shù)”對話框,如圖所示。二、頻數(shù)分布的Excel處理第六步,在Data_array欄中填寫觀測值所在區(qū)域“B2:B52”,在Bins_array中填寫分組端點所在區(qū)域“D2:D5”,如圖所示.二、頻數(shù)分布的Excel處理第七步,在按住Ctrl+Shift的同時按Enter,即得Frequency計算在完成上述兩項步驟后的頻數(shù),如圖所示。三、頻數(shù)分布的類型(一)鐘型分布鐘型分布的特征是“兩頭小、中間大”,即靠近中間的變量值分布的頻數(shù)多,靠近兩邊的變量值分布的頻數(shù)少,其曲線圖像一個古鐘,如圖所示。一般來說,根據(jù)數(shù)據(jù)采集對象性質的不同,數(shù)據(jù)采集對象的頻數(shù)分布主要有三種類型:鐘型分布、U型分布和J型分布。三、頻數(shù)分布的類型(一)鐘型分布鐘型分布又可分為對稱分布與偏態(tài)分布。其中,對稱分布的特征是中間變量值分布的次數(shù)最多,以標志變量中心為對稱軸,兩側變量值分布的次數(shù)隨著與中間變量值距離的增大而漸次減少,并且圍繞中心變量值兩側呈對稱分布,這種分布在統(tǒng)計學中稱為正態(tài)分布。三、頻數(shù)分布的類型(二)U型分布U型分布的特征與鐘型分布恰恰相反,靠近中間的變量值分布的次數(shù)少,靠近兩端的變量值分布的次數(shù)多,形成“兩頭大,中間小”的U型分布,如人口死亡現(xiàn)象按年齡分布、機器設備磨損現(xiàn)象按使用時間分布就表現(xiàn)為U型分布。三、頻數(shù)分布的類型(三)J型分布在數(shù)據(jù)采集對象中,也有一些統(tǒng)計總體分布曲線呈J型。其中正J分布的特征是次數(shù)隨變量值的增大而增多,如投資按利潤率大小的分布;反J分布的特征是次數(shù)隨變量值的增大而減少,如人口總體按年齡大小的分布。補充內容

數(shù)據(jù)的排序、篩選與分類匯總目錄CONTENTS4.1數(shù)據(jù)的排序4.2數(shù)據(jù)的篩選4.3數(shù)據(jù)的分類匯總4.4提高與技巧4.1.1簡單排序138簡單排序可以快速對二維表格中的數(shù)據(jù)記錄重新進行排列。下面將通過簡單排序的方法來排列“網(wǎng)店客戶資料管理.xlsx”工作簿中數(shù)據(jù),其具體操作如下。1.選擇排序方式2.查看排序效果4.1.1簡單排序139簡單排序可以快速對二維表格中的數(shù)據(jù)記錄重新進行排列。下面將通過簡單排序的方法來排列“網(wǎng)店客戶資料管理.xlsx”工作簿中數(shù)據(jù),其具體操作如下。1.以“客戶類型”為依據(jù)進行升序排列2.以“客戶姓名”為依據(jù)進行降序排列注意:由于客戶類型中的數(shù)據(jù)是文本型,將按首字的拼音進行升序排序,如果首字是英文,將以英文優(yōu)先。4.1.1簡單排序1403.設置排序方式4.查看排序后的效果要想在Excel中成功對數(shù)據(jù)進行排序,首先要保證排列的區(qū)域是二維表格。也就是說,如果數(shù)據(jù)存放在不連續(xù)的單元格,或單元格區(qū)域的結構不是二維表格的結構,均無法實現(xiàn)排序操作。同樣,后面將要介紹的篩選和分類匯總等操作也是如此。提示4.1.2單一字段排序1411.套用表格樣式單一字段排序表面上與簡單排序類似,但實際上這種排序方法可以人為設置排序依據(jù),而不僅僅只以數(shù)值為依據(jù)進行排序。下面將在“網(wǎng)店客戶資料管理.xlsx”工作簿中按單元格的顏色進行排序,其具體操作如下。套用表格格式——淺色——玫瑰色:表樣式淺色172.確定數(shù)據(jù)來源4.1.2單一字段排序1423.轉換表格樣式區(qū)域4.確認轉換設置4.1.2單一字段排序1435.進行數(shù)據(jù)排序6.設置排序關鍵字和依據(jù)4.1.2單一字段排序1447.設置排列次序8.查看排序效果4.1.3多重字段排序145在一些數(shù)據(jù)字段較多的表格中,可以同時對多個字段進行排序,此時若第一個關鍵字的數(shù)據(jù)相同,則按第二個關鍵字的數(shù)據(jù)進行排序,從而可以更精確地控制數(shù)據(jù)記錄的排列次序。下面將在“網(wǎng)店客戶資料管理.xlsx”工作簿中對數(shù)據(jù)記錄進行多重字段排序,其具體操作如下。1.進行數(shù)據(jù)排序2.設置主要關鍵字選中A1:K25單元格區(qū)域4.1.3多重字段排序1463.設置次要關鍵字4.設置次要關鍵字4.1.3多重字段排序1475.應用多重字段排序的效果4.1.4自定義排序148Excel中的排序方式可滿足大多數(shù)用戶的需要,對于一些有特殊要求的排序可進行自定義設置,如按照職務、部門等進行排序時,便可指定職務和部門的排列順序。下面將在“網(wǎng)店客戶資料管理.xlsx”工作簿中對賣家評價進行自定義排序,其具體操作如下。1.設置字段和次序選中A1:K25單元格區(qū)域客戶評價4.1.4自定義排序1492.自定義排序方式3.確認排序方式4.1.4自定義排序1505.自定義排序效果如果需要對表格中的數(shù)據(jù)經(jīng)常使用同一種方式進行排序,那么可以將自定義的排序方式添加到“排序”對話框的“次序”下拉列表框中,下次使用時直接調用即可。提示目錄CONTENTS4.1數(shù)據(jù)的排序4.2數(shù)據(jù)的篩選4.3數(shù)據(jù)的分類匯總4.4提高與技巧4.2.1自動篩選152自動篩選一般用于簡單的條件篩選。當使用自動篩選功能時,在工作表的表頭將出現(xiàn)黑色三角形按鈕,單擊該三角形按鈕,在打開的下拉列表中,選擇相應的選項即可。下面將在“網(wǎng)店客戶資料管理.xlsx”工作簿中使用預設的篩選條件來篩選數(shù)據(jù),其具體操作如下。1.進入篩選狀態(tài)2.選擇篩選條件要求:篩選出成交額大于150、跟進人員為周雪梅的數(shù)據(jù)4.2.1自動篩選1533.設置篩選條件4.設置篩選條件4.2.1自動篩選1545.顯示篩選結果4.2.2自定義篩選155如果Excel預設的條件不能滿足篩選目的的需要,則可以自定義篩選條件來篩選數(shù)據(jù)。下面將在“網(wǎng)店客戶資料管理.xlsx”工作簿中通過自定義篩選條件來篩選需要的數(shù)據(jù),其具體操作如下。1.清除篩選狀態(tài)2.自定義篩選4.2.2自定義篩選1563.設置篩選條件4.查看篩選結果練習1:篩選出成交額150-300的數(shù)據(jù)練習2:篩選出手機號碼158開頭的數(shù)據(jù)4.2.3高級篩選157當自定義篩選仍然不能滿足對篩選數(shù)據(jù)的需要時,Excel還提供了高級篩選功能,使用此功能便可以篩選出任何所需要的數(shù)據(jù)結果。下面將在“網(wǎng)店客戶資料管理.xlsx”工作簿中使用高級篩選功能來篩選數(shù)據(jù),其具體操作如下。1.清除字段的篩選條件2.輸入篩選條件4.2.3高級篩選1583.設置高級篩選條件4.查看篩選結果目錄CONTENTS4.1數(shù)據(jù)的排序4.2數(shù)據(jù)的篩選4.3數(shù)據(jù)的分類匯總4.4提高與技巧4.3數(shù)據(jù)的分類匯總160數(shù)據(jù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論