版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2章數(shù)據(jù)的獲取與清洗2.1獲取數(shù)據(jù)內(nèi)容導(dǎo)航2.1.1課堂案例1——獲取企業(yè)財務(wù)報表數(shù)據(jù)2.1.2課堂案例2——使用智譜清言清洗數(shù)據(jù)2.1.3獲取文件數(shù)據(jù)
2.1.4獲取數(shù)據(jù)庫數(shù)據(jù)2.1.5獲取網(wǎng)站數(shù)據(jù)2.2清洗數(shù)據(jù)2.3綜合實訓(xùn)2.4課后練習(xí)2.1.1課堂案例1——獲取企業(yè)財務(wù)報表數(shù)據(jù)【制作要求】:利用Excel2019的數(shù)據(jù)獲取功能獲取華為集團年報中的5年財務(wù)概要數(shù)據(jù),然后保存表格?!静僮饕c】:訪問華為官方網(wǎng)站,復(fù)制該網(wǎng)站地址,然后使用Excel2019獲取網(wǎng)站數(shù)據(jù)的功能獲取數(shù)據(jù)。參考效果如下圖所示。2.1.1課堂案例1——獲取企業(yè)財務(wù)報表數(shù)據(jù)制作過程2.1.2課堂案例2——使用智譜清言清洗數(shù)據(jù)【制作要求】:借助智譜清言工具清洗表格中的重復(fù)數(shù)據(jù)記錄和包含缺失值的數(shù)據(jù)記錄?!静僮饕c】:訪問智譜清言官方網(wǎng)站,注冊并登錄賬號,讓智譜清言檢查表格是否存在重復(fù)數(shù)據(jù),并刪除存在的重復(fù)數(shù)據(jù),然后刪除有缺失值的數(shù)據(jù),并通過智譜清言提供的下載鏈接下載清洗后的表格,參考效果如下圖所示。2.1.2課堂案例2——使用智譜清言清洗數(shù)據(jù)制作過程2.1.3獲取文件數(shù)據(jù)文件數(shù)據(jù)指的是存放在以txt、csv或prn等為格式的文本文件中的數(shù)據(jù)。其方法:啟動Excel2019,在【數(shù)據(jù)】/【獲取和轉(zhuǎn)換數(shù)據(jù)】組中單擊“從文本/CSV”按鈕
,打開“導(dǎo)入數(shù)據(jù)”對話框,在其中選擇相應(yīng)的文本文件,單擊“導(dǎo)入”按鈕,打開相應(yīng)的文件窗口,這里為“醫(yī)生信息.txt”窗口。如右圖所示。2.1.4獲取數(shù)據(jù)庫數(shù)據(jù)除獲取文本文件數(shù)據(jù)外,還可以利用Excel2019獲取數(shù)據(jù)庫如SQLServer數(shù)據(jù)庫、MicrosoftAccess數(shù)據(jù)庫、Oracle數(shù)據(jù)庫、MySQL數(shù)據(jù)庫等中的數(shù)據(jù)。其方法:啟動Excel2019,在【數(shù)據(jù)】/【獲取和轉(zhuǎn)換數(shù)據(jù)】組中單擊“獲取數(shù)據(jù)”按鈕
,在彈出的下拉列表中選擇“來自數(shù)據(jù)庫”,在彈出的子列表中單擊相應(yīng)的數(shù)據(jù)庫選項,如單擊“從MicrosoftAccess數(shù)據(jù)庫”選項,打開“導(dǎo)入數(shù)據(jù)”對話框,在其中選擇相應(yīng)的數(shù)據(jù)庫文件,單擊“導(dǎo)入”按鈕,打開“導(dǎo)航器”對話框,在左側(cè)列表中單擊合適的選項,然后單擊“加載”按鈕,導(dǎo)入數(shù)據(jù)。如右圖所示。2.1.5獲取網(wǎng)站數(shù)據(jù)網(wǎng)站中包含大量的數(shù)據(jù),因此網(wǎng)站是獲取數(shù)據(jù)的重要渠道,可以利用Excel2019獲取網(wǎng)站數(shù)據(jù)。其方法為:訪問并復(fù)制數(shù)據(jù)所在網(wǎng)頁的網(wǎng)絡(luò)地址,然后啟動Excel2019,在【數(shù)據(jù)】/【獲取和轉(zhuǎn)換數(shù)據(jù)】組中單擊“自網(wǎng)站”按鈕
,打開“從Web”對話框,在“URL”文本框中單擊鼠標左鍵定位插入點,按【Ctrl+V】組合鍵粘貼復(fù)制的網(wǎng)絡(luò)地址,單擊“確定”按鈕,打開“導(dǎo)航器”對話框,在左側(cè)列表中選擇合適的選項,單擊“加載”按鈕,獲取數(shù)據(jù)。2.2清洗數(shù)據(jù)2.1
獲取數(shù)據(jù)內(nèi)容導(dǎo)航2.2.1課堂案例——清洗店鋪月度客戶數(shù)據(jù)
2.2.2修補缺失數(shù)據(jù)
2.2.3修復(fù)錯誤數(shù)據(jù)2.2.4清洗重復(fù)數(shù)據(jù)
2.2.5統(tǒng)一數(shù)據(jù)內(nèi)容2.3綜合實訓(xùn)2.4課后練習(xí)2.2.1課堂案例——清洗店鋪月度客戶數(shù)據(jù)【制作要求】:清洗獲取到的店鋪月度客戶數(shù)據(jù),確保數(shù)據(jù)的完整、正確和統(tǒng)一,且不能包含重復(fù)的數(shù)據(jù)記錄。【操作要點】:通過計算修補缺失的交易筆數(shù)數(shù)據(jù),通過查找和替換操作修復(fù)錯誤的年齡數(shù)據(jù),
通過“刪除重復(fù)值”功能清除重復(fù)數(shù)據(jù)記錄,然后統(tǒng)一交易總額和平均交易金額的數(shù)據(jù)類型,參考效果如下圖所示。2.2.1課堂案例——清洗店鋪月度客戶數(shù)據(jù)制作過程2.2.1課堂案例——清洗店鋪月度客戶數(shù)據(jù)制作過程2.2.2修補缺失數(shù)據(jù)1.刪除缺失值所在的數(shù)據(jù)記錄如果獲取的數(shù)據(jù)量足夠大,大到即使刪除若干缺失數(shù)據(jù)也不會影響數(shù)據(jù)樣本量,則可以通過刪除缺失數(shù)據(jù)所在的整條數(shù)據(jù)記錄來處理缺失值。其方法:在【開始】/【編輯】組中單擊“查找和選擇”按鈕
,在彈出的下拉列表中選擇“定位條件”,打開“定位條件”對話框,單擊選中“空值”單選項,單擊“確定”按鈕,此時將同時選中表格中的空白單元格,繼續(xù)在【開始】/【單元格】組中單擊“刪除”按鈕
下方的下拉按鈕
,在彈出的下拉列表中選擇“刪除工作表行”,如上圖所示。2.2.2修補缺失數(shù)據(jù)2.修補缺失值如果能夠精確判斷出表格中的缺失值,則可以手動修補缺失值,如本小節(jié)課堂案例中,可利用公式精確計算缺失值;如果無法精準判斷缺失值,則可以通過邏輯推斷或使用平均數(shù)、眾數(shù)、回歸分析、線性預(yù)測等統(tǒng)計方法來修補缺失數(shù)據(jù)。具體采用哪種方法修補需要結(jié)合實際情況。例如,在獲取某大學(xué)全部學(xué)生100米跑成績的過程中,若某名大二男學(xué)生的成績丟失,考慮到不同性別和年齡的身體機能不同,應(yīng)當(dāng)采用全體大二男學(xué)生的平均成績來替代該學(xué)生的成績,從而完成數(shù)據(jù)的修補。2.2.3修復(fù)錯誤數(shù)據(jù)1.修復(fù)邏輯錯誤數(shù)據(jù)的邏輯錯誤主要是指違反邏輯規(guī)律而產(chǎn)生的錯誤。例如,某店鋪各商品當(dāng)月的進貨數(shù)量均沒有超過1000,因此利用條件格式將超過了1000的數(shù)據(jù)自動填充淺紅色底紋,就能快速看到錯誤數(shù)據(jù),進行修復(fù)。其操作方法:選擇需要設(shè)置條件格式的單元格區(qū)域,在【開始】/【樣式】組中單擊“條件格式”下拉按鈕
,在彈出的下拉列表中選擇【突出顯示單元格規(guī)則】/【大于】,打開“大于”對話框,在左側(cè)的文本框中輸入“1000”,在右側(cè)的下拉列表中選擇“淺紅色填充”,單擊“確定”按鈕,如上圖所示。2.2.3修復(fù)錯誤數(shù)據(jù)2.借助IFERROR函數(shù)修復(fù)錯誤對于一些明顯錯誤的數(shù)據(jù),Excel2019會顯示錯誤信息,以提醒分析人員及時修復(fù)錯誤值。需要注意的是,對不同的錯誤,Excel2019會提示不同的信息,以幫助分析人員了解錯誤產(chǎn)生的原因。下表所示為Excel2019中常見的幾種錯誤信息提示,以及錯誤的產(chǎn)生原因和解決方法。2.2.4清洗重復(fù)數(shù)據(jù)當(dāng)獲取的數(shù)據(jù)量較大時,為了確保其中不存在重復(fù)的數(shù)據(jù)記錄,可以利用Excel2019的“刪除重復(fù)值”功能快速清洗數(shù)據(jù)中可能存在的重復(fù)數(shù)據(jù)。其操作方法:打開需要清洗重復(fù)數(shù)據(jù)的表格,在【數(shù)據(jù)】/【數(shù)據(jù)工具】組中單擊“刪除重復(fù)值”按鈕
,打開“刪除重復(fù)值”對話框,勾選需要檢查是否存在重復(fù)值的表格項目復(fù)選框,單擊“確定”按鈕,Excel2019將打開相應(yīng)的提示對話框,顯示是否存在重復(fù)值或重復(fù)值的數(shù)量,單擊“確定”按鈕進行清除,如上圖所示。2.2.5統(tǒng)一數(shù)據(jù)內(nèi)容1.設(shè)置數(shù)據(jù)類型選擇需統(tǒng)一類型的數(shù)據(jù)所在的單元格區(qū)域,單擊【開始】/【數(shù)字】組右下角的“對話框啟動器”按鈕
,打開“設(shè)置單元格格式”對話框,在“數(shù)字”選項卡的“分類”列表中選擇所需的數(shù)據(jù)類型,在對話框右側(cè)進一步設(shè)置所選類型的數(shù)據(jù)格式,完成后單擊“確定”按鈕,如右圖所示。2.2.5統(tǒng)一數(shù)據(jù)內(nèi)容2.設(shè)置數(shù)據(jù)內(nèi)容若需要統(tǒng)一處理數(shù)據(jù)的內(nèi)容,如某表格中“是否結(jié)算”欄下有“已付”和“已結(jié)算”兩種數(shù)據(jù),現(xiàn)需要將“已付”統(tǒng)一為“已結(jié)算”。其操作方法:在【開始】/【編輯】組中單擊“查找和選擇”按鈕
,在彈出的列表中選擇“替換”命令,或直接按【Ctrl+H】組合鍵,打開“查找和替換”對話框,在“替換”選項卡的“查找內(nèi)容”文本框中輸入“已付”,在“替換為”文本框中輸入“已結(jié)算”,依次單擊“全部替換”按鈕和“確定”按鈕,如上圖所示。2.3綜合實訓(xùn)2.1獲取數(shù)據(jù)內(nèi)容導(dǎo)航2.3.1獲取商品關(guān)鍵詞數(shù)據(jù)
2.3.2清洗商品關(guān)鍵詞數(shù)據(jù)2.2清洗數(shù)據(jù)2.4課后練習(xí)2.3.1獲取商品關(guān)鍵詞數(shù)據(jù)商品關(guān)鍵詞指的是客戶在電商平臺中用于搜索商品的關(guān)鍵詞。網(wǎng)店的商品標題中如果包含商品關(guān)鍵詞,那么商品被搜索到的概率會更大,展現(xiàn)在客戶面前的可能性就更高,進而可能會增大商品的流量數(shù)據(jù)和轉(zhuǎn)化率?!緦嵱?xùn)背景】某網(wǎng)店需要優(yōu)化商品名稱,為了提高商品被客戶搜索到的概率,網(wǎng)店需要獲取近一段時間內(nèi)的熱門商品關(guān)鍵詞數(shù)據(jù)?!静僮饕蟆坷肊xcel2019的數(shù)據(jù)獲取功能獲取商品關(guān)鍵詞數(shù)據(jù)。2.3.1獲取商品關(guān)鍵詞數(shù)據(jù)啟動Excel2019,利用獲取文件數(shù)據(jù)的方法獲取商品關(guān)鍵詞數(shù)據(jù)?!静僮魉悸贰俊緟⒖夹Ч?.3.2清洗商品關(guān)鍵詞數(shù)據(jù)獲取數(shù)據(jù)后,分析人員應(yīng)當(dāng)檢查數(shù)據(jù)內(nèi)容,清洗其中錯誤的內(nèi)容,以提高數(shù)據(jù)質(zhì)量,為后續(xù)數(shù)據(jù)分析提供更好的數(shù)據(jù)源?!緦嵱?xùn)背景】某網(wǎng)店利用Excel2019獲取到近一段時間內(nèi)的熱門商品關(guān)鍵詞數(shù)據(jù)后,為了更好地完成數(shù)據(jù)分析任務(wù),需要清洗獲取到的數(shù)據(jù)信息,保證數(shù)據(jù)的質(zhì)量?!静僮饕蟆浚?)調(diào)整數(shù)據(jù)類型和格式,使表格數(shù)據(jù)統(tǒng)一且美觀易讀;
(2)清除重復(fù)的數(shù)據(jù)記錄;
(3)修復(fù)錯誤數(shù)據(jù)。2.3.2清洗商品關(guān)鍵詞數(shù)據(jù)(1)將表格轉(zhuǎn)換為區(qū)域,然后調(diào)整數(shù)據(jù)類型、字體格式、對齊方式等,提高數(shù)據(jù)的統(tǒng)一性;
(2)利用刪除重復(fù)值功能清除重復(fù)的數(shù)據(jù)記錄;
(3)檢查錯誤數(shù)據(jù)并加以修改?!静僮魉悸贰俊緟⒖夹Ч?.1
獲取數(shù)據(jù)內(nèi)容導(dǎo)航2.2清洗數(shù)據(jù)2.3綜合實訓(xùn)2.4
課后練習(xí)練習(xí)1獲取企業(yè)營業(yè)收入數(shù)據(jù)
練習(xí)2清洗企業(yè)營業(yè)收入數(shù)據(jù)練習(xí)1?獲取企業(yè)營業(yè)收入數(shù)據(jù)利用Excel2019獲取國家統(tǒng)計局官方網(wǎng)站中,關(guān)于2023年全國規(guī)模以上文化產(chǎn)業(yè)及相關(guān)產(chǎn)業(yè)企業(yè)的營業(yè)收入數(shù)據(jù)。【制作要求】【操
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年陜西郵政校園招聘(含榆林崗)備考題庫及答案詳解一套
- 2025年深圳證券交易所人才引進備考題庫帶答案詳解
- 南昌大學(xué)附屬眼科醫(yī)院2026年高層次人才招聘9人備考題庫完整參考答案詳解
- 統(tǒng)計師初級統(tǒng)計基礎(chǔ)題目及答案
- 福建華南女子職業(yè)學(xué)院2025年秋季人才招聘備考題庫含答案詳解
- 2025年重慶氣體壓縮機廠有限責(zé)任公司招聘備考題庫帶答案詳解
- 2025年上海外國語大學(xué)國際教育學(xué)院招聘備考題庫完整參考答案詳解
- 2025年共青團中央所屬單位招聘66人備考題庫完整答案詳解
- 2025年云南省紅河州和信公證處招聘備考題庫附答案詳解
- 班級線上頒獎?wù)n件
- 光纜海底故障診斷-深度研究
- 2024年天津高考英語第二次高考真題(原卷版)
- 降低臥床患者便秘品管圈課件
- 工程測量水準儀課件
- 公司委托法人收款到個人賬戶范本
- 《楓丹白露宮苑景觀分析》課件
- 2023年上海市春考數(shù)學(xué)試卷(含答案)
- 中國石油大學(xué)(華東)自動控制課程設(shè)計 雙容水箱系統(tǒng)的建模、仿真于控制-2
- 潘謝礦區(qū)西淝河、泥河、濟河、港河水體下安全開采可行性論證報告
- 創(chuàng)業(yè)人生(上海大學(xué))【超星爾雅學(xué)習(xí)通】章節(jié)答案
- GB/T 4957-2003非磁性基體金屬上非導(dǎo)電覆蓋層覆蓋層厚度測量渦流法
評論
0/150
提交評論