大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目二 數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工_第1頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目二 數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工_第2頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目二 數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工_第3頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目二 數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工_第4頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目二 數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工_第5頁(yè)
已閱讀5頁(yè),還剩101頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目二數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工大數(shù)據(jù)基礎(chǔ)與應(yīng)用《商科版》識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題任務(wù)一任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一任務(wù)背景(導(dǎo))某服裝推廣團(tuán)隊(duì)通過(guò)分析行業(yè)數(shù)據(jù)來(lái)預(yù)測(cè)流行趨勢(shì),為服飾品牌提供市場(chǎng)策略。因此,團(tuán)隊(duì)需要對(duì)大量網(wǎng)絡(luò)筆記數(shù)據(jù)進(jìn)行分析。在數(shù)據(jù)收集過(guò)程中,團(tuán)隊(duì)發(fā)現(xiàn)有許多重復(fù)記錄;部分?jǐn)?shù)據(jù)未能及時(shí)抓取,造成了數(shù)據(jù)缺失。因此,需要對(duì)這些數(shù)據(jù)進(jìn)行及時(shí)的去除重復(fù)值和缺失值,以便進(jìn)行后續(xù)業(yè)務(wù)分析。能夠創(chuàng)建數(shù)據(jù)工作流,能根據(jù)業(yè)務(wù)要求進(jìn)行數(shù)據(jù)去重、缺失值刪除和缺失值替換。任務(wù)目標(biāo)目錄01任務(wù)描述02知識(shí)準(zhǔn)備03實(shí)操練習(xí)04拓展思考任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一數(shù)據(jù)質(zhì)量——數(shù)據(jù)分析的基石數(shù)據(jù)清洗定義:通過(guò)組織一系列規(guī)則和流程,“清洗”數(shù)據(jù)源里數(shù)據(jù),去除“臟數(shù)據(jù)”,這一過(guò)程即被稱為數(shù)據(jù)清洗。核心任務(wù):識(shí)別并修正數(shù)據(jù)中的明顯或隱藏的錯(cuò)誤,填補(bǔ)缺失值、消除重復(fù)項(xiàng)、糾正錯(cuò)誤,從而確保數(shù)據(jù)的完整性和一致性。

任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一(一)缺失值數(shù)據(jù)集中某個(gè)或某些屬性的值是不完全的,即存在空值或未知值。

產(chǎn)生原因:(1)信息暫時(shí)無(wú)法獲取。(2)信息被遺漏。(3)有些對(duì)象的某個(gè)或某些屬性不可用。(4)獲取這些信息的代價(jià)太大。(5)有些信息(被認(rèn)為)是不重要的。處理方法處理方法:(1)刪除:將存在遺漏信息屬性值的數(shù)據(jù)記錄刪除。這種方法簡(jiǎn)單易行,但不適用于缺失值占比較大的情況。(2)缺值補(bǔ)齊:用一定的值去填充空值,使信息表完備化。1)眾數(shù)填充;2)平均值填充;3)利用同類均值插補(bǔ)(3)不處理:在特定情況下,不處理缺失值是必要的或可接受的,比如數(shù)據(jù)集中的缺失值數(shù)量占比較小,對(duì)后續(xù)的分析或預(yù)測(cè)影響較??;或者缺失值不能反映數(shù)據(jù)的真實(shí)情況或收集過(guò)程中的某種特定信息。常見數(shù)據(jù)質(zhì)量問(wèn)題及其處理方法任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一重復(fù)值指的是數(shù)據(jù)集中兩行或多行具有完全相同的值。偶然出現(xiàn)或錯(cuò)誤造成。對(duì)于不同的分析需求,某些列的重復(fù)值可能被視為有效數(shù)據(jù)(如ID、分類等),而其他列的重復(fù)值則可能需要被識(shí)別和處理。處理方法(1)刪除重復(fù)值:最簡(jiǎn)單的方法,需要謹(jǐn)慎選擇刪除的條件和標(biāo)準(zhǔn),以避免損失有用信息。(2)去重并合并記錄:如果某些字段重復(fù)但其他字段不同,可以考慮將它們合并為一個(gè)記錄。例如,可以將一個(gè)人的多個(gè)重復(fù)記錄合并為一個(gè)記錄。(3)使用唯一標(biāo)識(shí)符去重:例如,出現(xiàn)姓名重復(fù)現(xiàn)象,可以使用身份證號(hào)作為唯一標(biāo)識(shí)符來(lái)區(qū)分。(二)重復(fù)值常見數(shù)據(jù)質(zhì)量問(wèn)題及其處理方法任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一處理方法:(1)使用統(tǒng)計(jì)方法識(shí)別異常值:例如,IQR(四分位距)方法可以根據(jù)數(shù)據(jù)的分布情況識(shí)別異常值。(2)刪除異常值:如果異常值較多或?qū)?shù)據(jù)集影響較大,可以考慮刪除異常值。但需要注意的是,刪除異常值可能會(huì)損失有用信息。(3)縮放或標(biāo)準(zhǔn)化數(shù)據(jù):通過(guò)將數(shù)據(jù)縮放到特定范圍或標(biāo)準(zhǔn)化,可以使異常值的影響減小。常見的縮放方法有最?。畲罂s放和Z-score標(biāo)準(zhǔn)化。異常值指樣本中的個(gè)別值,其數(shù)值明顯偏離它(或它們)所屬樣本的其余觀測(cè)值,也稱異常數(shù)據(jù),離群值。產(chǎn)生原因:數(shù)據(jù)錄入錯(cuò)誤、測(cè)量誤差、數(shù)據(jù)同步問(wèn)題、系統(tǒng)故障、欺詐行為或數(shù)據(jù)本身的自然變異等。(三)數(shù)據(jù)異常常見數(shù)據(jù)質(zhì)量問(wèn)題及其處理方法任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一本任務(wù)的執(zhí)行步驟如下表所示。

本任務(wù)工作流首先從數(shù)據(jù)源中抽取出Excel文件“服飾行業(yè)筆記數(shù)據(jù).xlsx”。整個(gè)工作流設(shè)計(jì)如下圖所示。工作流概覽步驟分解子任務(wù)步驟流程準(zhǔn)備(1)新建項(xiàng)目(2)創(chuàng)建數(shù)據(jù)工作流(3)創(chuàng)建課程文件(4)抽取文件(5)運(yùn)行調(diào)試工作流去除重復(fù)值(1)去除重復(fù)值處理缺失值(1)刪除缺失值(2)閱讀量缺失值替換成零任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考在“免費(fèi)數(shù)獵場(chǎng)_***********”上右鍵點(diǎn)擊【創(chuàng)建項(xiàng)目】,將項(xiàng)目名稱改為“項(xiàng)目二數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工”。若項(xiàng)目已存在,則無(wú)需重復(fù)新建,直接進(jìn)入下一步。1.新建項(xiàng)目操作01在剛才創(chuàng)建的項(xiàng)目上右鍵點(diǎn)擊【創(chuàng)建數(shù)據(jù)工作流】,將該工作流名稱改成“任務(wù)一

識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題”。鼠標(biāo)雙擊該工作流,即可打開該工作流。2.創(chuàng)建操作02一、流程準(zhǔn)備(一)新建項(xiàng)目(二)創(chuàng)建數(shù)據(jù)工作流任務(wù)一任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考在【工作流節(jié)點(diǎn)】面板中的【數(shù)據(jù)源】欄中,找到【課程文件】節(jié)點(diǎn),用鼠標(biāo)將它拖拽到上面步驟打開的工作流的編輯面板中。

課程文件節(jié)點(diǎn)是存儲(chǔ)文件類型數(shù)據(jù)的重要數(shù)據(jù)源,為后續(xù)數(shù)據(jù)存儲(chǔ)提供基礎(chǔ)。(三)創(chuàng)建課程文件任務(wù)一數(shù)據(jù)源文件存儲(chǔ)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考鼠標(biāo)選中【課程文件】節(jié)點(diǎn),在其屬性里面選擇課程“大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)”,然后點(diǎn)擊【連接】按鈕,會(huì)在下面的【數(shù)據(jù)源】中列出該課程的所有文件。正確的屬性設(shè)置能夠確保與目標(biāo)數(shù)據(jù)源的準(zhǔn)確連接,獲取所需文件數(shù)據(jù)。(三)創(chuàng)建課程文件任務(wù)一數(shù)據(jù)源文件存儲(chǔ)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考選中文件“服飾行業(yè)筆記數(shù)據(jù).xlsx”,然后點(diǎn)擊【預(yù)覽】按鈕,可以預(yù)覽數(shù)據(jù)。預(yù)覽的數(shù)據(jù)如右圖所示。從中可以看出,第1行的內(nèi)容“date、style、note_count、likes、favorites、comments、average_interaction、shares、reads”是標(biāo)題行,數(shù)據(jù)內(nèi)容從第2行開始。接下來(lái),對(duì)該節(jié)點(diǎn)進(jìn)行如右表的屬性設(shè)置。(三)創(chuàng)建課程文件任務(wù)一數(shù)據(jù)源文件存儲(chǔ)屬性名值課程大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)標(biāo)題行號(hào)1起始數(shù)據(jù)行號(hào)2任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一數(shù)據(jù)源數(shù)據(jù)庫(kù)存儲(chǔ)點(diǎn)擊屬性面板中的“連接”按鈕,找到文件表“服飾行業(yè)筆記數(shù)據(jù).xlsx”,選中該表并點(diǎn)擊“抽取”按鈕,即將該文件抽取出來(lái)。選中抽取節(jié)點(diǎn),在其屬性里面,將節(jié)點(diǎn)名稱改為“服飾行業(yè)筆記數(shù)據(jù)”。選中它并移動(dòng)到適當(dāng)位置。至此,完成文件抽取,如右圖所示。(四)抽取文件任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一數(shù)據(jù)源數(shù)據(jù)庫(kù)存儲(chǔ)在節(jié)點(diǎn)“服飾行業(yè)筆記數(shù)據(jù)”上【設(shè)置查看器】。設(shè)置查看器的方法是鼠標(biāo)右鍵,點(diǎn)擊【設(shè)置查看器】。設(shè)置查看器之后,節(jié)點(diǎn)“服飾行業(yè)筆記數(shù)據(jù)”上會(huì)出現(xiàn)“眼睛”標(biāo)記,點(diǎn)擊菜單欄上的【運(yùn)行調(diào)試】按鈕,流程開始運(yùn)行,當(dāng)節(jié)點(diǎn)變成綠色時(shí),表明運(yùn)行成功。然后點(diǎn)擊【停止】按鈕,結(jié)束流程運(yùn)行。在【數(shù)據(jù)查看器】面板可以看到該節(jié)點(diǎn)運(yùn)行后的數(shù)據(jù),部分?jǐn)?shù)據(jù)如右圖所示。(五)運(yùn)行調(diào)試工作流任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),把前面的節(jié)點(diǎn)“服飾行業(yè)筆記數(shù)據(jù)”與之連線。方法是:把鼠標(biāo)放到節(jié)點(diǎn)“服飾行業(yè)筆記數(shù)據(jù)”上,按住鼠標(biāo)右鍵拖拽到該節(jié)點(diǎn)上。最后把右側(cè)的全部列都導(dǎo)出,方法是選中“小紅書服飾行業(yè)筆記數(shù)據(jù)”,拖拽到左側(cè)目標(biāo)區(qū)域。在該新建節(jié)點(diǎn)的屬性欄,將名稱改為“去重”,并取消勾選【允許重復(fù)行】。這里的重復(fù)行是指兩行或多行的數(shù)據(jù)完全相同的行,執(zhí)行該操作后,只保留其中一行數(shù)據(jù)。二、去除重復(fù)行任務(wù)一注意:謹(jǐn)慎選擇刪除的條件和標(biāo)準(zhǔn),以避免損失有用信息。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考刪除缺失值(一)在【工作流節(jié)點(diǎn)】面板中的【工作流節(jié)點(diǎn)】欄中,找到【轉(zhuǎn)換】節(jié)點(diǎn),拖拽到上面步驟打開的工作流的編輯面板中,然后在其【屬性】面板中修改【名稱】為“刪除缺失值”。把節(jié)點(diǎn)“服飾行業(yè)筆記數(shù)據(jù)”連線到“刪除缺失值”上。方法是:按住右鍵將節(jié)點(diǎn)“服飾行業(yè)筆記數(shù)據(jù)”上,拖拽到節(jié)點(diǎn)“刪除缺失值”上。如右圖所示。三、處理缺失值任務(wù)一數(shù)據(jù)源文件存儲(chǔ)在節(jié)點(diǎn)“刪除缺失值”【數(shù)據(jù)轉(zhuǎn)換】面板中,把右側(cè)列全部導(dǎo)出。取消勾選左側(cè)全部列【可空】(表示不可以為空),這樣數(shù)據(jù)中如果有空值,會(huì)在運(yùn)行時(shí)將其刪除。只要一行中有一個(gè)屬性存在缺失值,整行數(shù)據(jù)都會(huì)被刪除。如上圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考缺失值替換成零(二)新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),名稱改成“reads列缺失值替換成零”,把【服飾行業(yè)筆記數(shù)據(jù)】連線到【reads列缺失值替換成零】。將右側(cè)的全部列都導(dǎo)出如右一所示。在【數(shù)據(jù)轉(zhuǎn)換器】欄中,拖拽一個(gè)【常量】到“reads列缺失值替換成零”的【數(shù)據(jù)轉(zhuǎn)換】面板中,如右二所示。在右下角的參數(shù)欄設(shè)置常量的數(shù)據(jù)類型和值。三、處理缺失值任務(wù)一數(shù)據(jù)源文件存儲(chǔ)常量參數(shù)設(shè)置參數(shù)名值常量數(shù)據(jù)類型INT值0任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考缺失值替換成零(二)再新建【null值替換】轉(zhuǎn)換器,把列“reads”連入。方法是:將列“reads”右鍵拖拽至“null值替換”。把“常量”連入“null值替換”中,方法是:將“常量”右鍵拖拽至“null值替換”。輸出替換后的結(jié)果,選中“null值替換”轉(zhuǎn)換器,右鍵點(diǎn)擊“生成新列:INT”。把名稱“col_1”改成“reads_new”,方法是鼠標(biāo)雙擊“col_1”,打開編輯框。設(shè)置查看器,并運(yùn)行流程。三、處理缺失值任務(wù)一數(shù)據(jù)源文件存儲(chǔ)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)一

數(shù)據(jù)清洗后,如何評(píng)估清洗效果并確定是否達(dá)到了預(yù)期目標(biāo)?如果數(shù)據(jù)清洗后發(fā)現(xiàn)數(shù)據(jù)質(zhì)量仍然不理想,有哪些可能的原因和解決方案?

實(shí)施數(shù)據(jù)篩選任務(wù)二目錄01任務(wù)描述02知識(shí)準(zhǔn)備03實(shí)操練習(xí)04拓展思考任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二任務(wù)背景數(shù)字化技術(shù)推動(dòng)農(nóng)產(chǎn)品市場(chǎng)向數(shù)字化平臺(tái)轉(zhuǎn)型,實(shí)現(xiàn)在線交易等功能。為理解、預(yù)測(cè)價(jià)格波動(dòng)及保障市場(chǎng)穩(wěn)定,政府及相關(guān)機(jī)構(gòu)計(jì)劃開展價(jià)格監(jiān)測(cè)項(xiàng)目,通過(guò)抽樣收集不同地區(qū)、種類的農(nóng)產(chǎn)品價(jià)格數(shù)據(jù),分析趨勢(shì)、識(shí)別異常,為政策制定提供支持。數(shù)據(jù)篩選是挑選滿足特定條件數(shù)據(jù)的過(guò)程,業(yè)務(wù)中常用,如篩選特定價(jià)格區(qū)間的農(nóng)產(chǎn)品。創(chuàng)建數(shù)據(jù)工作流,篩選出不同價(jià)格區(qū)間的農(nóng)產(chǎn)品數(shù)據(jù),以便進(jìn)行抽樣分析。任務(wù)目標(biāo)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二一、數(shù)據(jù)篩選概述(一)概念數(shù)據(jù)篩選是一種數(shù)據(jù)處理技術(shù),它指的是從大量數(shù)據(jù)中識(shí)別并提取滿足特定條件或標(biāo)準(zhǔn)的記錄。在大數(shù)據(jù)環(huán)境下,要想分析出海量數(shù)據(jù)所蘊(yùn)含的價(jià)值,篩選出有價(jià)值的數(shù)據(jù)十分重要,這個(gè)過(guò)程就像是用篩子過(guò)濾沙子,只留下那些符合我們需求的“金粒”。通過(guò)設(shè)置一定的規(guī)則,比如數(shù)值范圍、文本模式或日期條件,我們可以從原始數(shù)據(jù)集中分離出有用的信息,為后續(xù)的分析和決策提供精確的數(shù)據(jù)支持。(二)目的數(shù)據(jù)的價(jià)值在于其所能夠反映的信息,但在收集數(shù)據(jù)的時(shí)候,我們無(wú)法完全考慮到未來(lái)的用途,只是盡可能地收集,這可能會(huì)導(dǎo)致不同數(shù)據(jù)源中數(shù)據(jù)結(jié)構(gòu)相異、相同數(shù)據(jù)不同名稱或者不同表示等問(wèn)題。因此,數(shù)據(jù)篩選的目的是提高前期收集存儲(chǔ)的相關(guān)數(shù)據(jù)的可用性,確保我們處理的數(shù)據(jù)是相關(guān)且有價(jià)值的,從而提高大數(shù)據(jù)分析的質(zhì)量和效率。通過(guò)剔除不相關(guān)或冗余的數(shù)據(jù),我們可以更清晰地看到數(shù)據(jù)背后的故事,避免在無(wú)關(guān)信息的海洋中迷失方向。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二二、數(shù)據(jù)篩選條件

在數(shù)據(jù)篩選中,篩選條件是決定哪些數(shù)據(jù)被保留或排除的關(guān)鍵因素。這些條件通?;跀?shù)據(jù)的特定屬性,如數(shù)值大小、文本內(nèi)容、時(shí)間戳、類別等。例如,如果我們分析銷售數(shù)據(jù),篩選條件可能包括特定日期范圍內(nèi)的交易、特定地區(qū)的銷售記錄,或者銷售額超過(guò)一定閾值的記錄。

在設(shè)置數(shù)據(jù)篩選條件時(shí),運(yùn)用正確的邏輯運(yùn)算符和比較運(yùn)算符是非常必要的。

(一)數(shù)據(jù)篩選條件中的比較運(yùn)算符

在數(shù)據(jù)篩選中,比較運(yùn)算符用于確定數(shù)據(jù)字段的值是否符合特定的條件。如下表所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二表3-9比較運(yùn)算符?運(yùn)算符?說(shuō)明?=用于測(cè)試兩個(gè)表達(dá)式是否相等!=或<>用于測(cè)試兩個(gè)表達(dá)式彼此不相等的條件>?用于測(cè)試一個(gè)表達(dá)式是否大于另一個(gè)表達(dá)式>=用于測(cè)試一個(gè)表達(dá)式是否大于或等于另一個(gè)表達(dá)式?!>用于測(cè)試一個(gè)表達(dá)式是否不大于另一個(gè)表達(dá)式<用于測(cè)試一個(gè)表達(dá)式是否小于另一個(gè)表達(dá)式<=用于測(cè)試一個(gè)表達(dá)式是否小于或等于另一個(gè)表達(dá)式!<用于測(cè)試一個(gè)表達(dá)式是否不小于另一個(gè)表達(dá)式任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二(二)數(shù)據(jù)篩選條件中的邏輯運(yùn)算符

如果想把幾個(gè)單一條件組合成一個(gè)復(fù)合條件,這就需要使用邏輯運(yùn)算符AND、BETWEENAND、OR和NOT才能完成復(fù)合條件的數(shù)據(jù)篩選。

(1)

AND:表示邏輯“與”操作。只有當(dāng)所有使用AND連接的條件都為真時(shí),整個(gè)表達(dá)式才為真。

(2)

BETWEENAND:表示數(shù)值范圍操作。它用于篩選介于兩個(gè)數(shù)值之間的記錄。

(3)OR:表示邏輯“或”操作。只要使用OR連接的條件中至少有一個(gè)為真,整個(gè)表達(dá)式就為真。

(4)NOT:表示邏輯“非”操作。它用來(lái)反轉(zhuǎn)條件的真假值。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二本任務(wù)的執(zhí)行步驟如下表所示。

本任務(wù)工作流首先從數(shù)據(jù)源中抽取出Excel文件“agricultural_product_price”,然后使用【轉(zhuǎn)換】節(jié)點(diǎn)分別篩選出最高價(jià)格大于200的農(nóng)產(chǎn)品、最高價(jià)格在150到200之間的農(nóng)產(chǎn)品、最低價(jià)格低于10或平均價(jià)格低于15的農(nóng)產(chǎn)品、最低價(jià)格不在3到5之間的農(nóng)產(chǎn)品。整個(gè)工作流設(shè)計(jì)如下圖所示。工作流概覽步驟分解子任務(wù)步驟流程準(zhǔn)備(1)新建項(xiàng)目(2)創(chuàng)建數(shù)據(jù)工作流匯集文件數(shù)據(jù)(1)創(chuàng)建課程數(shù)據(jù)庫(kù)(2)抽取表篩選數(shù)據(jù)(1)篩選最高價(jià)格大于200的農(nóng)產(chǎn)品(2)篩選最高價(jià)格在150到200之間的農(nóng)產(chǎn)品(3)篩選最低價(jià)格低于10或者平均價(jià)格低于15(4)篩選最低價(jià)不在3到5之間的農(nóng)產(chǎn)品任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二一、流程準(zhǔn)備(一)新建項(xiàng)目在項(xiàng)目“免費(fèi)數(shù)獵場(chǎng)_*******”上右鍵點(diǎn)擊【創(chuàng)建項(xiàng)目】,將項(xiàng)目名稱改為“項(xiàng)目二

數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工”。若項(xiàng)目已存在,則無(wú)需重復(fù)新建。1.項(xiàng)目創(chuàng)建操作(二)創(chuàng)建數(shù)據(jù)工作流在新建的項(xiàng)目上右鍵點(diǎn)擊【創(chuàng)建數(shù)據(jù)工作流】,將工作流名稱改為“任務(wù)二

實(shí)施數(shù)據(jù)篩選”。雙擊該工作流,打開工作流編輯面板。2.工作流創(chuàng)建操作任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二一、流程準(zhǔn)備(三)課程數(shù)據(jù)庫(kù)節(jié)點(diǎn)添加在【工作流節(jié)點(diǎn)】面板中的【數(shù)據(jù)源】欄中,找到【課程數(shù)據(jù)庫(kù)】節(jié)點(diǎn),用鼠標(biāo)把它拖拽到上面步驟打開的工作流的編輯面板中。3.課程數(shù)據(jù)庫(kù)節(jié)點(diǎn)創(chuàng)建操作(四)連接數(shù)據(jù)庫(kù)鼠標(biāo)選中【課程數(shù)據(jù)庫(kù)】節(jié)點(diǎn),在其屬性里面選擇課程“大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)”,然后點(diǎn)擊【連接】按鈕。界面下方的【數(shù)據(jù)源】中會(huì)列出該課程的所有表。4.數(shù)據(jù)庫(kù)連接操作任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二二、匯集文件數(shù)據(jù):抽取文件并命名2.抽取節(jié)點(diǎn)命名與移動(dòng)選中抽取的節(jié)點(diǎn),在其屬性里面,把節(jié)點(diǎn)名稱改為“農(nóng)產(chǎn)品價(jià)格”。選中它并移動(dòng)到適當(dāng)位置。1.文件抽取操作在【課程數(shù)據(jù)庫(kù)】的【數(shù)據(jù)源】列表中找到“agricultural_product_price”,選中該表并點(diǎn)擊“抽取”按鈕,即可將該表抽取出來(lái)。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二三、數(shù)據(jù)篩選(一)篩選最高價(jià)格大于200的農(nóng)產(chǎn)品1.新建轉(zhuǎn)換節(jié)點(diǎn)新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),在其【屬性】里面修改節(jié)點(diǎn)【名稱】為“篩選最高價(jià)格大于200的農(nóng)產(chǎn)品”,然后把前面一個(gè)“農(nóng)產(chǎn)品價(jià)格”節(jié)點(diǎn)連線到“篩選最高價(jià)格大于200的農(nóng)產(chǎn)品”節(jié)點(diǎn)上。篩選出“最高價(jià)格大于200的農(nóng)產(chǎn)品”需要一個(gè)比較運(yùn)算符大于(>)。在節(jié)點(diǎn)“篩選最高價(jià)格大于200的農(nóng)產(chǎn)品”的【屬性】面板的【篩選條件】中編寫條件,這里的最高價(jià)格是數(shù)字,使用比較運(yùn)算符,條件是:最高價(jià)格大于200。需要注意運(yùn)算符都是英文狀態(tài)下輸入的,而不是中文輸入的。為了閱讀方便,一般也會(huì)在比較運(yùn)算符的前后添加一個(gè)空格。2.編寫篩選條件3.運(yùn)行調(diào)試在“篩選最高價(jià)格大于200的農(nóng)產(chǎn)品”節(jié)點(diǎn)上設(shè)置查看器,并運(yùn)行。在數(shù)據(jù)查看器中看到數(shù)據(jù)篩選結(jié)果后,點(diǎn)擊停止。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二三、數(shù)據(jù)篩選(二)篩選最高價(jià)格在150到200之間的農(nóng)產(chǎn)品1.新建轉(zhuǎn)換節(jié)點(diǎn)再新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),在其【屬性】里面修改節(jié)點(diǎn)【名稱】為“篩選最高價(jià)格在150到200的農(nóng)產(chǎn)品”,然后把前面一個(gè)“農(nóng)產(chǎn)品價(jià)格”節(jié)點(diǎn)連線到“篩選最高價(jià)格在150到200的農(nóng)產(chǎn)品”節(jié)點(diǎn)上。要篩選出“篩選最高價(jià)格在150到200的農(nóng)產(chǎn)品”需要比較運(yùn)算符大于等于(>=)、小于等于(<=)、邏輯運(yùn)算符and,即最高價(jià)格>=150且最高價(jià)格<=200。且在篩選條件中用and表示,這里的and可以寫成大寫AND。在節(jié)點(diǎn)“篩選最高價(jià)格大于100的農(nóng)產(chǎn)品”的【屬性】面板的【篩選條件】中編寫條件。最后在節(jié)點(diǎn)“篩選最高價(jià)格大于100的農(nóng)產(chǎn)品”的【數(shù)據(jù)轉(zhuǎn)換】面板中把全部列都導(dǎo)出。2.編寫篩選條件3.運(yùn)行調(diào)試在“篩選最高價(jià)格在150到200的農(nóng)產(chǎn)品”節(jié)點(diǎn)上設(shè)置查看器,并運(yùn)行。在數(shù)據(jù)查看器中看到數(shù)據(jù)篩選結(jié)果后,點(diǎn)擊停止。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二三、數(shù)據(jù)篩選(三)篩選最低價(jià)格低于10或者平均價(jià)格低于15的農(nóng)產(chǎn)品1.新建轉(zhuǎn)換節(jié)點(diǎn)再新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),在其【屬性】里面修改節(jié)點(diǎn)【名稱】為“篩選最高價(jià)格在150到200的農(nóng)產(chǎn)品”,然后把前面一個(gè)“農(nóng)產(chǎn)品價(jià)格”節(jié)點(diǎn)連線到“篩選最高價(jià)格在150到200的農(nóng)產(chǎn)品”節(jié)點(diǎn)上。要篩選出“最低價(jià)格低于10或者平均價(jià)格低于15”需要一個(gè)比較運(yùn)算符小于(<)、邏輯或(or)。這里的or也可以寫成大寫OR。在節(jié)點(diǎn)“篩選最低價(jià)格低于10或者平均價(jià)格低于15”的【屬性】面板的【篩選條件】中編寫條件。最后在節(jié)點(diǎn)“篩選最低價(jià)格低于10或者平均價(jià)格低于15”的【數(shù)據(jù)轉(zhuǎn)換】面板中把全部列都導(dǎo)出。2.編寫篩選條件3.運(yùn)行調(diào)試在“篩選最低價(jià)格低于10或者平均價(jià)格低于15的農(nóng)產(chǎn)品”節(jié)點(diǎn)上設(shè)置查看器,并運(yùn)行。在數(shù)據(jù)查看器中看到數(shù)據(jù)篩選結(jié)果后,點(diǎn)擊停止。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二三、數(shù)據(jù)篩選(四)篩選最低價(jià)不在3到5之間的農(nóng)產(chǎn)品1.新建轉(zhuǎn)換節(jié)點(diǎn)再新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),在其【屬性】里面修改節(jié)點(diǎn)【名稱】為“篩選最低價(jià)不在3到5之間的農(nóng)產(chǎn)品”,然后把前面一個(gè)“農(nóng)產(chǎn)品價(jià)格”節(jié)點(diǎn)連線到“篩選最低價(jià)不在3到5之間的農(nóng)產(chǎn)品”節(jié)點(diǎn)上。要篩選出“最低價(jià)不在3到5之間的農(nóng)產(chǎn)品”需要一個(gè)邏輯運(yùn)算符not,比較運(yùn)算符betweenand。在節(jié)點(diǎn)“篩選最低價(jià)不在3到5之間的農(nóng)產(chǎn)品”的【屬性】面板的【篩選條件】中編寫條件。需要注意not的前后、between的前后、and的前后都各有一個(gè)空格。在節(jié)點(diǎn)“篩選最低價(jià)不在3到5之間的農(nóng)產(chǎn)品”的【數(shù)據(jù)轉(zhuǎn)換】面板中把全部列都導(dǎo)出。

2.編寫篩選條件3.運(yùn)行調(diào)試在“篩選最低價(jià)不在3到5之間的農(nóng)產(chǎn)品”節(jié)點(diǎn)上設(shè)置查看器,并運(yùn)行。在數(shù)據(jù)查看器中看到數(shù)據(jù)篩選結(jié)果后,點(diǎn)擊停止。實(shí)驗(yàn)結(jié)束。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)二

1.假設(shè)你是一家電商公司的數(shù)據(jù)分析師,討論在促銷季選擇直播產(chǎn)品時(shí),哪些因素會(huì)被考慮到?如何使用數(shù)據(jù)篩選來(lái)實(shí)現(xiàn)此目的?2.在數(shù)據(jù)篩選時(shí),如何平衡數(shù)據(jù)的完整性和篩選的效率?

實(shí)施數(shù)據(jù)關(guān)聯(lián)任務(wù)三目錄01任務(wù)描述02知識(shí)準(zhǔn)備03實(shí)操練習(xí)04拓展思考任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三任務(wù)背景“城市鮮果批發(fā)市場(chǎng)”是當(dāng)?shù)刂匾∩唐芳⒌?,匯集眾多批發(fā)商,每日需處理大量訂單以滿足零售商和餐飲業(yè)需求。隨著業(yè)務(wù)擴(kuò)張,現(xiàn)有系統(tǒng)存效率瓶頸:訂單與商品信息分存兩獨(dú)立數(shù)據(jù)庫(kù),缺乏有效關(guān)聯(lián),進(jìn)貨前統(tǒng)計(jì)需手動(dòng)匹配,耗時(shí)易錯(cuò)。故管理者需關(guān)聯(lián)訂單表與商品表,以快速準(zhǔn)確讀取各訂單商品信息,提升處理效率與準(zhǔn)確性。設(shè)計(jì)數(shù)據(jù)工作流完成訂單表和商品表的關(guān)聯(lián),以讀取不同訂單的商品信息。任務(wù)目標(biāo)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三一、數(shù)據(jù)關(guān)聯(lián)概述數(shù)據(jù)關(guān)聯(lián)是指根據(jù)特定的匹配條件將來(lái)自兩個(gè)或多個(gè)數(shù)據(jù)表的數(shù)據(jù)進(jìn)行重新組合,最后形成一個(gè)新的數(shù)據(jù)表的數(shù)據(jù)加工技術(shù)。數(shù)據(jù)關(guān)聯(lián)之后,數(shù)據(jù)得以整合,后繼更深入的分析和處理就會(huì)很方便。這種連接操作通常發(fā)生在關(guān)系型數(shù)據(jù)表之間。在執(zhí)行關(guān)聯(lián)時(shí),我們可以指定連接條件。例如,如果我們有兩個(gè)表,一個(gè)是客戶信息表,另一個(gè)是訂單信息表,我們可以通過(guò)客戶ID將這兩個(gè)表關(guān)聯(lián)起來(lái),以便查詢特定客戶的訂單記錄。關(guān)聯(lián)的結(jié)果是一個(gè)組合后的表,它包含了所有滿足連接條件的數(shù)據(jù)行,使得用戶能夠從一個(gè)統(tǒng)一的數(shù)據(jù)集中提取和分析信息。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三二、數(shù)據(jù)關(guān)聯(lián)的方式數(shù)據(jù)關(guān)聯(lián)是根據(jù)一個(gè)或多個(gè)共同列(通常稱為鍵或連接條件)將兩個(gè)或多個(gè)表中的行結(jié)合起來(lái)。常用的數(shù)據(jù)關(guān)聯(lián)方式一般有內(nèi)連接和外連接,而外連接則包括左連接和右連接。內(nèi)連接僅返回兩個(gè)表中連接條件相匹配的行,而外聯(lián)接還會(huì)返回未匹配的行,這些行在結(jié)果集中會(huì)以NULL填充。例如,下面分別是訂單表與商品表,商品表中每行記錄一個(gè)商品:訂單編號(hào)商品編號(hào)11P0111P0212P0113P0414P06商品編號(hào)商品名稱P01筆記本電腦P02智能手機(jī)P03臺(tái)式電腦P04裙子表1訂單表表2商品表由于訂單與商品是分開在兩個(gè)表中,如果要查詢訂單11中的商品名稱,就需要把這兩張表進(jìn)行關(guān)聯(lián)。關(guān)聯(lián)方式是用這兩個(gè)表的公共字段“商品編號(hào)”進(jìn)行連接。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三二、數(shù)據(jù)關(guān)聯(lián)的方式(一)

內(nèi)連接內(nèi)連接是獲取兩表的公共部分的記錄,兩表的非公共部分將被省略。將訂單表與商品表內(nèi)連接后的結(jié)果如下表所示。訂單編號(hào)商品編號(hào)商品名稱11P01筆記本電腦11P02智能手機(jī)12P01筆記本電腦13P04裙子表3訂單表與商品表內(nèi)連接結(jié)果任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三(二)

外連接1.左連接

左連接是以左表(訂單表)為準(zhǔn),右表(商品表)與之匹配,如果沒有匹配上則顯示空值。將訂單表與商品表左連接后的結(jié)果如表4所示。表4訂單表與商品表左連接結(jié)果訂單編號(hào)商品編號(hào)商品名稱11P01筆記本電腦11P02智能手機(jī)12P01筆記本電腦13P04裙子14P06null

從結(jié)果可以看出,訂單編號(hào)14中的商品編號(hào)是P06,但是它不在商品表中,因此左連接結(jié)果的“商品名稱”列顯示null。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三2.右連接

右連接是以右表(商品表)為準(zhǔn),左表(訂單表)與之匹配,如果沒有匹配上則顯示空值。訂單表與商品表右連接后的結(jié)果如下表5所示。表5訂單表與商品表右連接結(jié)果訂單編號(hào)商品編號(hào)商品名稱11P01筆記本電腦12P01筆記本電腦11P02智能手機(jī)nullP03臺(tái)式電腦13P04裙子

從結(jié)果可以看出,商品編號(hào)P03不在訂單表中,因此右連接結(jié)果的“訂單編號(hào)”顯示null。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三本任務(wù)的執(zhí)行步驟如下表所示。

本任務(wù)工作流首先從數(shù)據(jù)源中抽取出訂單表“order_table”和商品表“goods_info”,然后根據(jù)這兩個(gè)表的共有字“product_code”進(jìn)行連接。整個(gè)工作流設(shè)計(jì)如下圖所示。工作流概覽步驟分解子任務(wù)步驟流程準(zhǔn)備(1)新建項(xiàng)目(2)創(chuàng)建數(shù)據(jù)工作流(3)創(chuàng)建課程數(shù)據(jù)庫(kù)(4)抽取訂單表(5)抽取商品表數(shù)據(jù)關(guān)聯(lián)(1)訂單中對(duì)應(yīng)的商品任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三一、流程準(zhǔn)備(一)新建項(xiàng)目在項(xiàng)目“免費(fèi)數(shù)獵場(chǎng)_***********”上右鍵點(diǎn)擊【創(chuàng)建項(xiàng)目】,將項(xiàng)目名稱改為“項(xiàng)目二

數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工”。若項(xiàng)目已存在,則無(wú)需重復(fù)新建。1.項(xiàng)目創(chuàng)建操作(二)創(chuàng)建數(shù)據(jù)工作流在新建的項(xiàng)目上右鍵點(diǎn)擊【創(chuàng)建數(shù)據(jù)工作流】,將工作流名稱改為“任務(wù)三

實(shí)施數(shù)據(jù)關(guān)聯(lián)”。雙擊該工作流,打開工作流編輯面板。2.工作流創(chuàng)建操作任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三一、流程準(zhǔn)備(三)課程數(shù)據(jù)庫(kù)節(jié)點(diǎn)添加在【工作流節(jié)點(diǎn)】面板中的【數(shù)據(jù)源】欄中,找到【課程數(shù)據(jù)庫(kù)】節(jié)點(diǎn),將其拖拽到上面步驟打開的工作流的編輯面板中。3.課程數(shù)據(jù)庫(kù)節(jié)點(diǎn)創(chuàng)建操作(四)連接數(shù)據(jù)庫(kù)鼠標(biāo)選中【課程數(shù)據(jù)庫(kù)】節(jié)點(diǎn),在其屬性里面選擇課程“大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)”,然后點(diǎn)擊【連接】按鈕。會(huì)在下面的【數(shù)據(jù)源】中列出該課程的所有表。4.數(shù)據(jù)庫(kù)連接操作任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三二、匯集文件數(shù)據(jù):抽取文件并命名1.抽取訂單表并命名在【課程數(shù)據(jù)庫(kù)】的【數(shù)據(jù)源】列表中找到表“order_table”,選中該表并點(diǎn)擊“抽取”按鈕,即可將該表抽取出來(lái)。選中抽取的節(jié)點(diǎn),在屬性中,把節(jié)點(diǎn)名稱改為“訂單表”。選中它并移動(dòng)到適當(dāng)位置。2.抽取商品表并命名在【數(shù)據(jù)源】列表中找到表“goods_info”,選中該表并點(diǎn)擊“抽取”按鈕,將該表抽取出來(lái)。選中抽取的節(jié)點(diǎn),在其屬性里面把節(jié)點(diǎn)名稱改為“商品表”。選中它并移動(dòng)到適當(dāng)位置。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三三、數(shù)據(jù)關(guān)聯(lián)1.新增【轉(zhuǎn)換】節(jié)點(diǎn)并命名新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),在其【屬性】里面修改節(jié)點(diǎn)【名稱】為“訂單中對(duì)應(yīng)的商品”,然后把前面兩個(gè)節(jié)點(diǎn)“訂單表”“商品表”連線到“訂單中對(duì)應(yīng)的商品”節(jié)點(diǎn)上。如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三三、數(shù)據(jù)關(guān)聯(lián)2.編寫連接條件在節(jié)點(diǎn)“訂單中對(duì)應(yīng)的商品”的【連接】面板中“商品表”的【條件】中填寫連接條件,如左下圖所示。在【表達(dá)式編輯器】中編輯連接條件“訂單表.product_code=商品表.product_code”(訂單表和商品表只需選擇上方按鈕即可),該表達(dá)式意為將訂單表和商品表通過(guò)“product_code”列連接。如右下圖所示。需要注意:條件的最后不要有空格。一般也會(huì)在等號(hào)“=”的前后添加一個(gè)空格。這里的點(diǎn)號(hào)“.”、等號(hào)“=”都要用英文字符。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三三、數(shù)據(jù)關(guān)聯(lián)3.導(dǎo)出數(shù)據(jù)在節(jié)點(diǎn)“篩選訂單中對(duì)應(yīng)的商品”的【數(shù)據(jù)轉(zhuǎn)換】面板中把全部列都導(dǎo)出。4.調(diào)試運(yùn)行在“訂單中對(duì)應(yīng)的商品”節(jié)點(diǎn)上設(shè)置查看器,并運(yùn)行,得到部分?jǐn)?shù)據(jù)結(jié)果如右下圖所示。這樣就把訂單表與商品表關(guān)聯(lián)起來(lái)了,我們可以很容易從訂單中看出購(gòu)買的商品。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)三

假設(shè)你有兩個(gè)數(shù)據(jù)集,一個(gè)包含客戶的購(gòu)買歷史,另一個(gè)包含客戶的個(gè)人信息。討論如何將這兩個(gè)數(shù)據(jù)集合并,并說(shuō)明合并后的數(shù)據(jù)可以用來(lái)做什么分析。

應(yīng)用函數(shù)型數(shù)據(jù)加工任務(wù)四目錄01任務(wù)描述02知識(shí)準(zhǔn)備03實(shí)操練習(xí)04拓展思考任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四任務(wù)背景“GlobalShop”是跨境電商平臺(tái),專注向海外銷售國(guó)內(nèi)優(yōu)質(zhì)商品,展示商品名稱、類別、價(jià)格等信息,以豐富種類、優(yōu)惠價(jià)格和便捷物流受全球買家歡迎。因不同國(guó)家價(jià)格展示習(xí)慣有差異,如美國(guó)用千分符,雖便于閱讀,但字符串類型價(jià)格影響銷售統(tǒng)計(jì)和數(shù)據(jù)分析。故平臺(tái)需加工數(shù)據(jù),移除千分符并轉(zhuǎn)為數(shù)值類型,以提高數(shù)據(jù)處理效率和準(zhǔn)確性。創(chuàng)建數(shù)據(jù)工作流,篩選出不同價(jià)格區(qū)間的農(nóng)產(chǎn)品數(shù)據(jù),以便進(jìn)行抽樣分析。任務(wù)目標(biāo)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、函數(shù)性數(shù)據(jù)加工概述(一)定義函數(shù)型數(shù)據(jù)加工是指使用轉(zhuǎn)換函數(shù)對(duì)列級(jí)別的數(shù)據(jù)進(jìn)行加工的技術(shù)。這些函數(shù)有不同的類型,包括數(shù)值函數(shù)、日期函數(shù)、邏輯函數(shù)等,分別用于不同數(shù)據(jù)類型的列。。函數(shù)的數(shù)學(xué)定義是y=f(x),其中x是待加工的輸入數(shù)據(jù),也稱為入?yún)?;y是加工后的輸出數(shù)據(jù),也稱為出參;f是函數(shù),指加工方法或邏輯。(二)函數(shù)型數(shù)據(jù)加工的特點(diǎn)(1)加工邏輯比較簡(jiǎn)單,容易理解和實(shí)現(xiàn)。(2)輸入和輸出數(shù)據(jù)的結(jié)構(gòu)及類型一般比較簡(jiǎn)單。(3)單個(gè)函數(shù)型數(shù)據(jù)加工只能解決比較單一的數(shù)據(jù)問(wèn)題,如果業(yè)務(wù)需求和業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,往往由多個(gè)函數(shù)型數(shù)據(jù)加工組合而成。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、函數(shù)性數(shù)據(jù)加工概述(三)數(shù)據(jù)加工函數(shù)的分類按照輸入?yún)?shù)的數(shù)據(jù)類型,數(shù)據(jù)加工函數(shù)可以分成以下幾個(gè)類別:(1)數(shù)值函數(shù):對(duì)數(shù)值類型的數(shù)據(jù)進(jìn)行加工。(2)文本函數(shù):對(duì)文本類型的數(shù)據(jù)進(jìn)行轉(zhuǎn)換加工。(3)日期函數(shù):對(duì)日期類型數(shù)據(jù)進(jìn)行數(shù)據(jù)加工轉(zhuǎn)換。(4)集合函數(shù):對(duì)集合類型數(shù)據(jù)進(jìn)行數(shù)據(jù)加工轉(zhuǎn)換。(5)邏輯函數(shù):根據(jù)設(shè)定的邏輯判斷條件取相應(yīng)的值。(6)挖掘預(yù)加工函數(shù):對(duì)即將進(jìn)入挖掘階段的數(shù)據(jù)根據(jù)挖掘需求進(jìn)行加工轉(zhuǎn)換。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、函數(shù)性數(shù)據(jù)加工概述(四)常用的數(shù)據(jù)加工函數(shù)?函數(shù)名稱中文名稱入?yún)⒊鰠⒐δ躌eplace字符串替換1字符串:NVARCHAR2字符串:NVARCHAR字符串:NVARCHAR在一個(gè)字符串中

尋找一個(gè)子串,并全部替換為另外一個(gè)字串Null值替換空值替換無(wú)限制無(wú)限制將數(shù)據(jù)中的null值替換為另一個(gè)值Left?左截取1被截取的源字符串2截取的長(zhǎng)度字符串:NVARCHAR從一個(gè)字符串的左邊中截取特定長(zhǎng)度的字串Right右截取1被截取的源字符串2截取的長(zhǎng)度字符串:NVARCHAR從一個(gè)字符串的右邊中截取特定長(zhǎng)度的字串任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、函數(shù)性數(shù)據(jù)加工概述(四)常用的數(shù)據(jù)加工函數(shù)(接上表)?函數(shù)名稱中文名稱入?yún)⒊鰠⒐δ躄ength獲取字符串長(zhǎng)度字符串:NVARCHAR整數(shù):Int返回一個(gè)字符串的長(zhǎng)度ArrayTermExtract匹配提取1需要提取的原始字符:NVARCHAR;2用來(lái)匹配的字符字符串?dāng)?shù)組:Array從輸入字符串左側(cè)開始搜索,提取出和正則表達(dá)式匹配的所有字符串組成的數(shù)組NumericToString數(shù)值轉(zhuǎn)字符串浮點(diǎn)數(shù):Double字符串:NVARCHAR把一個(gè)數(shù)值數(shù)據(jù)轉(zhuǎn)換為字符串StringToNumeric字符串轉(zhuǎn)數(shù)值字符串:NVARCHAR浮點(diǎn)數(shù):Double把一個(gè)字符串轉(zhuǎn)換為數(shù)值任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、函數(shù)性數(shù)據(jù)加工概述(四)常用的數(shù)據(jù)加工函數(shù)(接上表)?函數(shù)名稱中文名稱入?yún)⒊鰠⒐δ蹸onstant常量無(wú)用戶指定定義一個(gè)常量,可以是不同類型Calculation四則運(yùn)算1浮點(diǎn)數(shù):Double;2浮點(diǎn)數(shù):Double浮點(diǎn)數(shù):Decimal對(duì)兩個(gè)數(shù)值進(jìn)行四則運(yùn)算DateDiff日期時(shí)間差1開始日期datetime;2結(jié)束日期datetime;3日期差單位整數(shù):Int計(jì)算兩個(gè)日期之間的差DateInc日期增減1要做增減運(yùn)算的日期;2增減量;3增減單位(年/月/日/小時(shí)/分鐘/秒/毫秒)日期時(shí)間:datetime計(jì)算兩個(gè)日期之間的增減量任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、函數(shù)性數(shù)據(jù)加工概述(四)常用的數(shù)據(jù)加工函數(shù)(接上表)?函數(shù)名稱中文名稱入?yún)⒊鰠⒐δ躍tringToDatetime字符串轉(zhuǎn)日期時(shí)間要轉(zhuǎn)換的日期日期時(shí)間:datetime把一個(gè)YYYY-MM-DDhh:mm:ss[nnn]字符串轉(zhuǎn)換為日期時(shí)間SystemDatetime系統(tǒng)當(dāng)前日期時(shí)間無(wú)日期時(shí)間:datetime返回一個(gè)YYYY-MM-DDhh:mm:ss[nnn]類型的系統(tǒng)當(dāng)前日期和時(shí)間NumAssemble數(shù)組組裝數(shù)值/CSNCSN把多個(gè)數(shù)值型或CSN輸入組裝為一個(gè)CSN格式的字符串,只能在數(shù)據(jù)挖掘節(jié)點(diǎn)中使用DateInc日期增減1要做增減運(yùn)算的日期;2增減量;3增減單位(年/月/日/小時(shí)/分鐘/秒/毫秒)日期時(shí)間:datetime計(jì)算兩個(gè)日期之間的增減量任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四本任務(wù)的執(zhí)行步驟如下表所示。

工作流概覽步驟分解子任務(wù)步驟流程準(zhǔn)備(1)新建項(xiàng)目(2)創(chuàng)建數(shù)據(jù)工作流(3)創(chuàng)建課程文件(4)抽取某跨境電商產(chǎn)品數(shù)據(jù)集.csv文件替換逗號(hào)為空字符串(1)價(jià)格中的逗號(hào)替換成空字符串價(jià)格字符串轉(zhuǎn)數(shù)值(1)價(jià)格從字符串轉(zhuǎn)成數(shù)值本任務(wù)工作流首先從數(shù)據(jù)源中抽取出文件“某跨境電商產(chǎn)品數(shù)據(jù)集.csv”,其次把價(jià)格中的英文逗號(hào)“,”替換成空字符串,最后把價(jià)格從字符串類型轉(zhuǎn)成數(shù)值類型。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、流程準(zhǔn)備(一)新建項(xiàng)目在項(xiàng)目“免費(fèi)數(shù)獵場(chǎng)_***********”上右鍵點(diǎn)擊【創(chuàng)建項(xiàng)目】,將項(xiàng)目名稱改為“項(xiàng)目二

數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工”。若項(xiàng)目已存在,則無(wú)需重復(fù)新建。1.項(xiàng)目創(chuàng)建操作(二)創(chuàng)建數(shù)據(jù)工作流在剛才創(chuàng)建的項(xiàng)目上右鍵點(diǎn)擊【創(chuàng)建數(shù)據(jù)工作流】,把該工作流名稱改成“任務(wù)四

應(yīng)用函數(shù)型數(shù)據(jù)加工”。雙擊該工作流,打開工作流編輯面板。2.工作流創(chuàng)建操作任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四一、流程準(zhǔn)備(三)課程數(shù)據(jù)庫(kù)節(jié)點(diǎn)添加在【工作流節(jié)點(diǎn)】面板中的【數(shù)據(jù)源】欄中,找到【課程文件】節(jié)點(diǎn),將其拖拽到上面步驟打開的工作流的編輯面板中。3.課程數(shù)據(jù)庫(kù)節(jié)點(diǎn)創(chuàng)建操作(四)連接數(shù)據(jù)庫(kù)鼠標(biāo)選中【課程文件】節(jié)點(diǎn),在其屬性里面選擇課程“大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)”,然后點(diǎn)擊【連接】按鈕。會(huì)在下面的【數(shù)據(jù)源】中列出該課程的所有文件。4.數(shù)據(jù)庫(kù)連接操作任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四二、匯集文件數(shù)據(jù)1.抽取文件并命名在【數(shù)據(jù)源】列表中找到文件“某跨境電商產(chǎn)品數(shù)據(jù)集.csv”,選中該文件并點(diǎn)擊“抽取”按鈕,將該文件抽取出來(lái)。選中抽取的節(jié)點(diǎn),在其【屬性】面板里面,把節(jié)點(diǎn)【名稱】改為“產(chǎn)品數(shù)據(jù)集”。選中它并移動(dòng)到適當(dāng)位置。

任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四二、匯集文件數(shù)據(jù)2.數(shù)據(jù)格式化選擇文件,在【屬性】面板中設(shè)置標(biāo)題行號(hào)為1,起始數(shù)據(jù)行號(hào)為2。點(diǎn)擊【獲取元數(shù)據(jù)】,抽取各列信息,如右圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四二、匯集文件數(shù)據(jù)3.設(shè)置查看器并運(yùn)行調(diào)試在節(jié)點(diǎn)上【設(shè)置查看器】,并點(diǎn)擊【運(yùn)行】【調(diào)試】,可以從查看器中查看數(shù)據(jù)運(yùn)行結(jié)果,如右圖所示。從圖中可以看出,價(jià)格price這一列中,一些數(shù)據(jù)含有千分符“,”。下面用替換轉(zhuǎn)換器將其移除。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四三、替換逗號(hào)為空字符串1.新建轉(zhuǎn)換節(jié)點(diǎn)新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),在其【屬性】里面修改節(jié)點(diǎn)【名稱】為“替換逗號(hào)為空字符串”。把前面一個(gè)節(jié)點(diǎn)“產(chǎn)品數(shù)據(jù)集”連線到“替換逗號(hào)為空字符串”節(jié)點(diǎn)上,如右上圖所示。2.拖拽轉(zhuǎn)換節(jié)點(diǎn)在數(shù)據(jù)面板中把右側(cè)的列“price”從右拖拽到左側(cè),作為原數(shù)據(jù)的導(dǎo)出列。在【數(shù)據(jù)轉(zhuǎn)換器】欄的【文本】中,拖拽一個(gè)【替換】轉(zhuǎn)換器到轉(zhuǎn)換編輯區(qū)。如右下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四知識(shí)回顧:【替換】轉(zhuǎn)換器使用方法

【替換】轉(zhuǎn)換器用于在一個(gè)字符串中尋找一個(gè)子串,并全部替換為另外一個(gè)字串,其使用需要輸入三個(gè)參數(shù),詳見下表。名稱替換轉(zhuǎn)換器功能把一個(gè)大字符串中的子字符串替換成另外一個(gè)子字符串輸入(1)第一個(gè)參數(shù):原始字符串。數(shù)據(jù)類型:NVARCHAR。(2)第二個(gè)參數(shù):要替換成的新子字符串。數(shù)據(jù)類型:NVARCHAR。(3)第三個(gè)參數(shù):被替換的子字符串。數(shù)據(jù)類型:NVARCHAR。輸出替換結(jié)果任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四三、替換逗號(hào)為空字符串3.【替換】轉(zhuǎn)換器參數(shù)設(shè)置把右側(cè)的列“price”連入到“替換”的第一個(gè)參數(shù)“在此字符串中搜索”上(鼠標(biāo)右鍵拖拽不松手),如左下圖所示。再?gòu)摹緮?shù)據(jù)轉(zhuǎn)換器】欄的【數(shù)值】中拖拽兩個(gè)【常量】轉(zhuǎn)換器到轉(zhuǎn)換面板中,如右下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四三、替換逗號(hào)為空字符串4.【常量轉(zhuǎn)換器】參數(shù)設(shè)置設(shè)置第一個(gè)【常量轉(zhuǎn)換器】的數(shù)據(jù)類型為“NVARCHAR”,值為’‘(空),第二個(gè)【常量轉(zhuǎn)換器】的數(shù)據(jù)類型為“NVARCHAR”,值為’,’(英文逗號(hào))。注意:“常量”是替換后的空字符串'',“常量_2”是被替換的子字符串','。這兩個(gè)常量的值前后都需要用英文的單引號(hào)引起來(lái),否則會(huì)出現(xiàn)錯(cuò)誤。分別把“常量”和“常量_2”連到【替換】轉(zhuǎn)換器的第二、第三個(gè)參數(shù)上,注意順序不要連錯(cuò)。如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四三、替換逗號(hào)為空字符串5.導(dǎo)出替換結(jié)果選中“替換”轉(zhuǎn)換器,單擊鼠標(biāo)右鍵,選擇【生成新列:NVARCHAR】,如下圖所示??梢钥闯?,替換后的數(shù)據(jù)類型依然是字符串類型。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四三、替換逗號(hào)為空字符串6.更改列名把新列【名稱】改成“price_new”。最后,把剩下的三列“product_id”“title”“category”都導(dǎo)出,最終結(jié)果如右上圖所示。在節(jié)點(diǎn)“替換逗號(hào)為空字符串”上設(shè)置查看器。然后運(yùn)行調(diào)試,即可看到替換逗號(hào)為空字符串的結(jié)果,如右下圖所示。從圖中可以看出,價(jià)格中的逗號(hào)已經(jīng)替換成空字符串了。注意,替換后的價(jià)格“price_new”依然是字符串類型,下面把它轉(zhuǎn)成數(shù)值類型。7.設(shè)置查看器并運(yùn)行調(diào)試任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四四、價(jià)格字符串轉(zhuǎn)數(shù)值1.新建【轉(zhuǎn)換】節(jié)點(diǎn)新建一個(gè)【轉(zhuǎn)換】節(jié)點(diǎn),在其【屬性】里面修改節(jié)點(diǎn)【名稱】為“價(jià)格從字符串轉(zhuǎn)成數(shù)值”。把前面一個(gè)節(jié)點(diǎn)“價(jià)格中的逗號(hào)替換成空字符串”連線到“價(jià)格從字符串轉(zhuǎn)成數(shù)值”節(jié)點(diǎn)上。如右上圖所示。在【數(shù)據(jù)轉(zhuǎn)換器】欄的【文本】中,拖拽一個(gè)【字符串轉(zhuǎn)數(shù)值】轉(zhuǎn)換器到轉(zhuǎn)換編輯區(qū),如右下圖所示。2.使用【字符串轉(zhuǎn)數(shù)值】轉(zhuǎn)換器任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四知識(shí)回顧:【字符串轉(zhuǎn)數(shù)值】轉(zhuǎn)換器使用方法

【字符串轉(zhuǎn)數(shù)值】轉(zhuǎn)換器用于把一個(gè)字符串類型轉(zhuǎn)成數(shù)值類型。其輸入需要一個(gè)參數(shù),詳見下表。名稱【字符串轉(zhuǎn)數(shù)值】轉(zhuǎn)換器功能把一個(gè)字符串類型轉(zhuǎn)成數(shù)值類型。注意:只有數(shù)字類型的字符串才能直接轉(zhuǎn)成數(shù)值類型,否則會(huì)出現(xiàn)不能轉(zhuǎn)成數(shù)值類型的錯(cuò)誤。輸入?yún)?shù):原始字符串?dāng)?shù)據(jù)類型:NVARCHAR輸出轉(zhuǎn)換結(jié)果:數(shù)值數(shù)據(jù)類型:DOUBLE任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四四、價(jià)格字符串轉(zhuǎn)數(shù)值3.輸入?yún)?shù)并生成新列

把右側(cè)的列“price_new”連入到“字符串轉(zhuǎn)數(shù)值”上。選中“字符串轉(zhuǎn)數(shù)值”轉(zhuǎn)換器,右鍵點(diǎn)擊【生成新列:DOUBLE】,生成的新列如右所示??梢钥闯觯D(zhuǎn)換后的數(shù)據(jù)類型是DOUBLE類型。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四四、價(jià)格字符串轉(zhuǎn)數(shù)值4.新列重命名并導(dǎo)出把新列【名稱】改成“price_new”。最后,把剩下的三列“product_id”“title”“category”都導(dǎo)出,最終結(jié)果如右上圖所示。在節(jié)點(diǎn)“價(jià)格從字符串轉(zhuǎn)成數(shù)值”上設(shè)置查看器。運(yùn)行調(diào)試,即可看到轉(zhuǎn)換結(jié)果,如右下圖所示。轉(zhuǎn)換后的價(jià)格“price_new”為DOUBLE類型。5.設(shè)置查看器并調(diào)試運(yùn)行任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)四

列舉不同類型的數(shù)據(jù)加工函數(shù),如數(shù)值型數(shù)據(jù)加工函數(shù)、文本型數(shù)據(jù)加工函數(shù)、日期時(shí)間型數(shù)據(jù)加工函數(shù)等,并分別說(shuō)明其主要功能。

執(zhí)行數(shù)據(jù)聚合任務(wù)五目錄01任務(wù)描述02知識(shí)準(zhǔn)備03實(shí)操練習(xí)04拓展思考任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五任務(wù)背景上海,作為國(guó)際大都市,擁有眾多著名的旅游景點(diǎn)。為了進(jìn)一步提升景區(qū)服務(wù)質(zhì)量,上海市文化和旅游局計(jì)劃通過(guò)數(shù)據(jù)分析來(lái)優(yōu)化游客體驗(yàn),通過(guò)采用數(shù)據(jù)聚合的方式,統(tǒng)計(jì)來(lái)自不同省份的游客數(shù)量、計(jì)算游客的平均年齡、統(tǒng)計(jì)每個(gè)游客參觀的景點(diǎn)用于后續(xù)分析,以更好地了解游客需求、增強(qiáng)景點(diǎn)的市場(chǎng)競(jìng)爭(zhēng)力,促進(jìn)上海旅游的可持續(xù)發(fā)展。創(chuàng)建數(shù)據(jù)工作流,使用數(shù)據(jù)聚合的方式統(tǒng)計(jì)來(lái)自不同省份的游客數(shù)量、計(jì)算游客的平均年齡、統(tǒng)計(jì)每個(gè)游客參觀的景點(diǎn),用于后續(xù)分析。任務(wù)目標(biāo)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五一、數(shù)據(jù)聚合概述(一)概念數(shù)據(jù)聚合是指對(duì)數(shù)據(jù)集中的一個(gè)或多個(gè)列進(jìn)行匯總性計(jì)算,從而得到一個(gè)匯總后的單個(gè)值的數(shù)據(jù)加工技術(shù)。數(shù)據(jù)聚合又稱聚合函數(shù)。這些聚合函數(shù)包括求和、求平均值和最大最小值、計(jì)數(shù)等,它們幫助我們從宏觀的層面掌握數(shù)據(jù)的特征。在實(shí)際應(yīng)用中,聚合通常與分組操作結(jié)合使用,這樣可以對(duì)數(shù)據(jù)集中的特定分組執(zhí)行聚合計(jì)算。例如,在銷售數(shù)據(jù)分析中,按照產(chǎn)品類別或銷售區(qū)域?qū)︿N售額進(jìn)行分組聚合,可以幫助我們了解每個(gè)產(chǎn)品類別或區(qū)域的銷售情況。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五二、數(shù)據(jù)聚合的方式常用的數(shù)據(jù)聚合方式以及說(shuō)明如下表所示:聚合類型說(shuō)明SUM返回組中所有值的和AVG返回組中所有值的平均值MIN返回組中的最小值MAX返回組中的最大值COUNT返回組中的記錄數(shù)字符串拼接返回組中字符串的組合任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五假設(shè)某公司目前各部門員工及收入情況見下表。姓名部門工資1李明人事部60002張偉人事部58003王芳財(cái)務(wù)部65004劉濤財(cái)務(wù)部56005陳靜技術(shù)部90006趙磊技術(shù)部8800部門收入表任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五姓名部門工資7高峰技術(shù)部86008吳剛銷售部95009徐燕銷售部630010李月銷售部7600部門收入表(接上表)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五(一)SUM聚合SUM聚合返回組中所有記錄被聚合的列的總和。SUM聚合只能用于數(shù)值型列,空值將被忽略。對(duì)部門收入表的各部門工資進(jìn)行SUM聚合,得到的結(jié)果為如下表所示。部門工資財(cái)務(wù)部12100技術(shù)部26400人事部11800銷售部23400任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五(二)AVG聚合AVG聚合方式返回組中所有記錄被聚合的列的平均值(忽略空值)。對(duì)部門收入表各部門的工資列進(jìn)行AVG聚合,得到的結(jié)果如下表所示。部門工資財(cái)務(wù)部6050技術(shù)部8800人事部5900銷售部7800任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五(三)MAX聚合MAX聚合返回組中所有記錄被聚合的列的最大值。對(duì)部門收入表中各部門的工資列進(jìn)行MAX聚合,得到的結(jié)果為如下表所示。部門工資財(cái)務(wù)部6500技術(shù)部9000人事部6000銷售部9500任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五(四)MIN聚合MIN聚合返回組中所有記錄被聚合的列的最小值。對(duì)部門收入表中各部門工資列進(jìn)行MIN聚合,得到的結(jié)果如下表所示。部門工資財(cái)務(wù)部5600技術(shù)部8600人事部5800銷售部6300任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五(五)COUNT聚合COUNT聚合返回組中所有記錄被聚合的列的記錄數(shù)。對(duì)部門收入表各部門的工資列進(jìn)行COUNT聚合,得到的結(jié)果如下表所示。部門記錄數(shù)財(cái)務(wù)部2技術(shù)部3人事部2銷售部3任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五(六)字符串拼接

字符串拼接返回組中所有記錄被聚合的列以逗號(hào)隔開的字符串拼接。對(duì)部門工作表中各部門的工資進(jìn)行字符串拼接,得到的結(jié)果為如下表所示。部門工資財(cái)務(wù)部6500,5600技術(shù)部9000,8800,8600人事部6000,5800銷售部9500,6300,7600任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五三、數(shù)據(jù)聚合在不同行業(yè)的應(yīng)用

數(shù)據(jù)聚合就像是把拼圖的碎片拼湊起來(lái),讓我們能從宏觀的角度看到數(shù)據(jù)的全貌。想象一下,零售業(yè)的管理者可以通過(guò)把各個(gè)分店的銷售數(shù)據(jù)進(jìn)行聚合,判斷出哪些商品最受歡迎,哪些促銷活動(dòng)最有效。這樣,他們就能更明智地決定哪些商品要多備貨,哪些價(jià)格要調(diào)整。在金融行業(yè),數(shù)據(jù)分析師通過(guò)匯總客戶的交易信息,能夠更準(zhǔn)確地評(píng)估風(fēng)險(xiǎn),制定更合理的貸款策略。在公共衛(wèi)生領(lǐng)域,數(shù)據(jù)聚合則像是一張大網(wǎng),捕捉并分析來(lái)自不同地區(qū)和機(jī)構(gòu)的健康數(shù)據(jù),洞察疾病的傳播模式、流行趨勢(shì),以及不同地區(qū)人群健康狀況的差異與共性。總之,數(shù)據(jù)聚合不僅提高了數(shù)據(jù)處理的效率,也為決策提供了強(qiáng)有力的支持。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五本任務(wù)的執(zhí)行步驟如下表所示。

工作流概覽步驟分解子任務(wù)步驟流程準(zhǔn)備(1)新建項(xiàng)目(2)創(chuàng)建數(shù)據(jù)工作流(3)創(chuàng)建課程數(shù)據(jù)庫(kù)(4)抽取游客信息表數(shù)據(jù)聚合(1)統(tǒng)計(jì)每個(gè)省份游客數(shù)量(2)計(jì)算游客平均年齡(3)統(tǒng)計(jì)每個(gè)游客參觀的景點(diǎn)本任務(wù)工作流需要從數(shù)據(jù)源中抽取出游客信息表“tourist_information”,統(tǒng)計(jì)每個(gè)省份游客數(shù)量和游客平均年齡,整個(gè)工作流如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考任務(wù)五一、流程準(zhǔn)備(一)新建項(xiàng)目在項(xiàng)目“免費(fèi)數(shù)獵場(chǎng)_***********”上右鍵點(diǎn)擊【創(chuàng)建項(xiàng)目】,將項(xiàng)目名稱改為“項(xiàng)目二

數(shù)據(jù)質(zhì)量提升:數(shù)據(jù)清洗與加工”。若項(xiàng)目已存在,則無(wú)需重復(fù)新建。1.項(xiàng)目創(chuàng)建操作(二)創(chuàng)建數(shù)據(jù)工作流在剛才創(chuàng)建的項(xiàng)目上右鍵點(diǎn)擊

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論