商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件3 電商數(shù)據(jù)的采集與預(yù)處理2_第1頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件3 電商數(shù)據(jù)的采集與預(yù)處理2_第2頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件3 電商數(shù)據(jù)的采集與預(yù)處理2_第3頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件3 電商數(shù)據(jù)的采集與預(yù)處理2_第4頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件3 電商數(shù)據(jù)的采集與預(yù)處理2_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

商務(wù)數(shù)據(jù)分析基礎(chǔ)電商數(shù)據(jù)的采集與預(yù)處理本章提綱任務(wù)一

電商數(shù)據(jù)的采集任務(wù)二

電商數(shù)據(jù)的預(yù)處理項(xiàng)目測評與實(shí)戰(zhàn)思政園地案例1蜜雪冰城自救與救災(zāi)【思政教育元素:培養(yǎng)社會責(zé)任】2021年7月河南遭遇了罕見的極端強(qiáng)降雨天氣,許多地區(qū)遭遇特大水災(zāi),其中總部在受災(zāi)中心鄭州的蜜雪冰城積極展開自救與救援行動。蜜雪冰城成立救災(zāi)指揮中心,以黨員帶頭對旗下員工情況進(jìn)行逐一排查,全力保障員工生命安全,同時(shí)成立捐款捐物小組向重災(zāi)區(qū)域運(yùn)送物資,并捐款2200萬元用于抗洪救災(zāi)和災(zāi)后重建。蜜雪冰城在深處災(zāi)區(qū)遭受打擊的情況下,依然選擇挺身而出保障員工安全,幫助災(zāi)區(qū)重建,凸顯了企業(yè)的格局。面對重大災(zāi)情,我國的電子商務(wù)企業(yè)在發(fā)展壯大不斷擴(kuò)張的同時(shí)大力回報(bào)社會,彰顯了強(qiáng)烈的企業(yè)社會責(zé)任。思政園地案例2“丑萌”馬踏飛燕火出圈【思政教育元素:扎根傳統(tǒng)文化,增強(qiáng)文化自信】銅奔馬,或者更為大家熟知的“馬踏飛燕”,為東漢青銅器,是甘肅省博物館鎮(zhèn)館之寶。銅奔馬造型矯健精美,顯示一種勇往直前的豪情壯志,是中華民族偉大氣質(zhì)的象征。而正是這么一件擁有厚重歷史的文物,最近在網(wǎng)絡(luò)上以一種意想不到的方式火出圈了。2022年六月,甘肅省博物館推出了一款以“銅奔馬”為原型的文創(chuàng)玩偶,丑萌的綠馬一邊呲牙咧嘴一邊踩著腳底下的燕子,被踩著的飛燕翻著白眼十分“魔性”。這個(gè)別出心裁輕松搞笑的玩偶一推出就受到網(wǎng)友們的喜愛與調(diào)侃,同時(shí)吸引了許多關(guān)注。這個(gè)玩偶讓人們知道文創(chuàng)產(chǎn)品也可以很接地氣,也可以讓厚重的文物變得新潮有趣,活靈活現(xiàn)。案例導(dǎo)入

隨著大數(shù)據(jù)和人工智能的快速發(fā)展,當(dāng)今的消費(fèi)者與世界高度相連,一個(gè)公司想要獲得更好的商業(yè)成績需要通過大數(shù)據(jù)為他的每個(gè)客戶做出個(gè)性化的精準(zhǔn)服務(wù)。為此2013年,擁有145年歷史的大都會人壽保險(xiǎn)公司建立了名為MetLiftWall的新系統(tǒng),該系統(tǒng)從大都會人壽70多個(gè)不同的管理系統(tǒng)中收集大量的信息數(shù)據(jù),這些數(shù)據(jù)之前有許多都是不聯(lián)網(wǎng)的獨(dú)立存在,存在著大量的數(shù)據(jù)冗余,建立系統(tǒng)后又經(jīng)過多年的努力大都會人壽成功解決了該項(xiàng)問題。

上文所匯總的數(shù)據(jù)剛開始很難進(jìn)行使用,在大數(shù)據(jù)分析之前我們需要確保這些分析數(shù)據(jù)滿足分析模型的需求,因此數(shù)據(jù)預(yù)處理環(huán)節(jié)十分重要,它可以將缺失的數(shù)據(jù)補(bǔ)充,冗余的數(shù)據(jù)變得簡潔,復(fù)雜混亂的數(shù)據(jù)格式統(tǒng)一。你聽說過數(shù)據(jù)預(yù)處理嗎?繼續(xù)閱讀本章你可以對數(shù)據(jù)預(yù)處理擁有更深刻的了解。5.1數(shù)據(jù)的導(dǎo)入導(dǎo)出數(shù)據(jù)的導(dǎo)入導(dǎo)出作用:起到備份、存檔的作用;轉(zhuǎn)換為需要的數(shù)據(jù)格式和文件類型。數(shù)據(jù)導(dǎo)入導(dǎo)出分類:數(shù)據(jù)庫文件導(dǎo)出成文本文件;文本文件導(dǎo)入成數(shù)據(jù)庫文件;數(shù)據(jù)庫文件與數(shù)據(jù)庫文件之間的導(dǎo)入導(dǎo)出。使用Excel從文本文件導(dǎo)入數(shù)據(jù)有兩種方法:可以在Excel中打開它,也可以將其導(dǎo)入為外部數(shù)據(jù)區(qū)域。5.2數(shù)據(jù)預(yù)處理方法數(shù)據(jù)清理的方法數(shù)據(jù)融合的方法數(shù)據(jù)變換的方法數(shù)據(jù)規(guī)約的方法數(shù)據(jù)清理的方法數(shù)據(jù)清理是數(shù)據(jù)準(zhǔn)備過程中最花費(fèi)時(shí)間、最乏味的,但也是最重要的一步。該步驟可以有效的減少學(xué)習(xí)過程中可能出現(xiàn)的相互矛盾的情況。初始獲得的數(shù)據(jù)主要有以下幾種情況需要處理。(1)含噪聲數(shù)據(jù)

(2)錯(cuò)誤數(shù)據(jù)

(3)缺失數(shù)據(jù)

(4)冗余數(shù)據(jù)數(shù)據(jù)清理的方法1.含噪聲數(shù)據(jù)對于含噪聲數(shù)據(jù),尤其對于孤立點(diǎn)或異常數(shù)據(jù),是不可以隨便以刪除方式進(jìn)行處理的。

2.錯(cuò)誤數(shù)據(jù)對帶有錯(cuò)誤數(shù)據(jù)的數(shù)據(jù)元組,結(jié)合數(shù)據(jù)所反映的實(shí)際問題,進(jìn)行分析、更改、刪除或忽略。同時(shí)也可結(jié)合模糊數(shù)學(xué)的隸屬函數(shù)尋找約束函數(shù),或者根據(jù)前一段歷史數(shù)據(jù)趨勢對當(dāng)前數(shù)據(jù)進(jìn)行修正。數(shù)據(jù)清理的方法3.缺失數(shù)據(jù)補(bǔ)充缺失數(shù)據(jù)的主要辦法包括:(1)線性差值法,用其周圍數(shù)據(jù)點(diǎn)的信息來代替(2)使用一個(gè)全局常量或?qū)傩缘钠骄堤畛淇杖敝担?)對數(shù)據(jù)的部分屬性進(jìn)行修復(fù)(4)忽略該數(shù)據(jù)元組數(shù)據(jù)清理的方法4.冗余數(shù)據(jù)若某屬性的部分?jǐn)?shù)據(jù)足以反映該問題的信息,則其余的可刪除。若經(jīng)過分析,這部分冗余數(shù)據(jù)可能還有他用則先保留并進(jìn)行備注說明。實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出(一)數(shù)據(jù)導(dǎo)入可以將收集到的數(shù)據(jù)直接填寫在Excel的單元格中,也可以將多種格式的數(shù)據(jù)文件導(dǎo)入到Excel工作表中。單擊導(dǎo)航欄“數(shù)據(jù)”,最左側(cè)可以選擇將不同格式的數(shù)據(jù)導(dǎo)入Excel。(1)將文本文件導(dǎo)入Excel表格(2)將CSV文件導(dǎo)入Excel工作表

實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出1.將文本文件導(dǎo)入Excel表格(1)文本文件(2)打開并創(chuàng)建Excel文件,點(diǎn)擊“數(shù)據(jù)”—“自文本”實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出1.將文本文件導(dǎo)入Excel表格(3)在“導(dǎo)入文本文件”窗口中選擇需要導(dǎo)入的文件,點(diǎn)擊“導(dǎo)入”(4)在彈出的“文本導(dǎo)入向?qū)А睂υ捒蛑羞x擇“分隔符號”,點(diǎn)擊“下一步”實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出1.將文本文件導(dǎo)入Excel表格(5)“文本導(dǎo)入向?qū)А睂υ捒蛑羞x擇“Tab鍵”,點(diǎn)擊“下一步”(6)“文本導(dǎo)入向?qū)А睂υ捒蜻x擇“常規(guī)”,點(diǎn)擊“完成”實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出1.將文本文件導(dǎo)入Excel表格(7)彈出對話框“導(dǎo)入數(shù)據(jù)”,選擇“新工作表”,按“確定”按鈕即可(8)返回Excel工作表,就可以看到數(shù)據(jù)的導(dǎo)入情況實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出2.將CSV文件導(dǎo)入Excel工作表(1)CSV文件(2)導(dǎo)入前再次確認(rèn)數(shù)據(jù)的格式、編碼、分隔符、數(shù)據(jù)行數(shù)等,此處默認(rèn),點(diǎn)擊“加載”(3)數(shù)據(jù)導(dǎo)入之后的Excel文件實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出(二)數(shù)據(jù)導(dǎo)出將Excel數(shù)據(jù)導(dǎo)出到其他操作軟件中,這里以將Excel中的數(shù)據(jù)導(dǎo)出到Word中為例(1)打開Word,點(diǎn)擊“插入”“對象”(2)在彈出的“對象”對話框中,選擇“由文件創(chuàng)建”,并點(diǎn)擊“瀏覽”實(shí)訓(xùn)一、數(shù)據(jù)的導(dǎo)入與導(dǎo)出將Excel數(shù)據(jù)導(dǎo)出到其他操作軟件中,這里以將Excel中的數(shù)據(jù)導(dǎo)出到Word中為例(3)選擇需要導(dǎo)出的Excel數(shù)據(jù)源,點(diǎn)擊插入(4)在“對象”對話框中點(diǎn)擊“確定”(5)返回Word文件,就可以看到從Excel導(dǎo)出的數(shù)據(jù)實(shí)訓(xùn)三、數(shù)據(jù)的基本處理操作重復(fù)數(shù)據(jù)處理缺失數(shù)據(jù)處理錯(cuò)誤數(shù)據(jù)處理實(shí)訓(xùn)三、數(shù)據(jù)的基本處理操作(一)重復(fù)數(shù)據(jù)處理采集得到的原始數(shù)據(jù)通常存在重復(fù)情形,對于重復(fù)數(shù)據(jù)如何識別和去重,通過Excel介紹兩種常用的方法。(1)高級篩選法

(2)條件格式法

實(shí)訓(xùn)三、數(shù)據(jù)的基本處理操作1.高級篩選法(1)如果只是需要將目標(biāo)數(shù)據(jù)的非重復(fù)值篩選出來,可以選擇“數(shù)據(jù)”選項(xiàng)卡下“排序篩選”組中的“高級”按鈕(2)在彈出的對話框中進(jìn)行設(shè)置(3)點(diǎn)擊“確定”后,紅框部分為“來源”數(shù)據(jù)非重復(fù)項(xiàng)的篩選結(jié)果。實(shí)訓(xùn)三、數(shù)據(jù)的基本處理操作2.條件格式法(1)選中需要標(biāo)識重復(fù)值的區(qū)域,選擇“開始”—“條件格式”—“突出顯示單元格規(guī)則”—“重復(fù)值”(2)在彈出的對話框中把重復(fù)的數(shù)據(jù)標(biāo)注為紅色,點(diǎn)擊確定(3)重復(fù)數(shù)據(jù)處理部分結(jié)果實(shí)訓(xùn)三、數(shù)據(jù)的基本處理操作

(二)缺失數(shù)據(jù)處理Excel表中如果出現(xiàn)缺失數(shù)據(jù),一般表示為空值或者錯(cuò)誤表示符,運(yùn)用“定位條件”功能可以進(jìn)行缺失數(shù)據(jù)的處理。(1)原始數(shù)據(jù)中G列“上次進(jìn)貨數(shù)量”有部分值缺失。現(xiàn)要求將其全部標(biāo)記為0,便于后期數(shù)據(jù)分析。(2)選定G列,選擇“開始”—“查找和選擇”—“定位條件”(3)在“定位條件”對話框中,選擇“空值”,點(diǎn)擊“確定”(4)直接輸入“0”,按“Ctrl+Enter”,空值單元格一次性全部輸入“0”實(shí)訓(xùn)三、數(shù)據(jù)的基本處理操作(三)錯(cuò)誤數(shù)據(jù)處理使用Excel能夠控制和檢查數(shù)據(jù)統(tǒng)計(jì)中存在的錯(cuò)誤。(1)假設(shè)在源數(shù)據(jù)表中存在一列“銷售情況”,0表示銷售一般,1表示銷售良好,2表示銷售極好,其他所有數(shù)據(jù)均為錯(cuò)誤數(shù)據(jù)(2)選中H列,選擇“數(shù)據(jù)”—“數(shù)據(jù)驗(yàn)證”實(shí)訓(xùn)三、數(shù)據(jù)的基本處理操作(3)在彈出的對話框中進(jìn)行設(shè)置(4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論