大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目五 數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用_第1頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目五 數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用_第2頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目五 數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用_第3頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目五 數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用_第4頁(yè)
大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)課件 項(xiàng)目五 數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目五數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用大數(shù)據(jù)基礎(chǔ)與應(yīng)用《商科版》目錄01任務(wù)描述02知識(shí)準(zhǔn)備03實(shí)操練習(xí)04拓展思考任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五任務(wù)背景Bigmart是一家跨境電商平臺(tái),專(zhuān)注于食品銷(xiāo)售。產(chǎn)品通過(guò)跨境平臺(tái)銷(xiāo)售到全球各主要經(jīng)濟(jì)區(qū)域,其中最主要的銷(xiāo)售區(qū)域?yàn)闅W美地區(qū)。食品都是從國(guó)內(nèi)供應(yīng)商采購(gòu),但受限于成本因素,食品的定制化范圍比較有限。為了提高運(yùn)營(yíng)效率,該公司高薪從沃爾瑪引進(jìn)了一位運(yùn)營(yíng)總監(jiān),并給他分配了業(yè)績(jī)指標(biāo):在一年內(nèi)將平臺(tái)業(yè)績(jī)翻番。能夠針對(duì)企業(yè)業(yè)績(jī)目標(biāo),利用企業(yè)數(shù)據(jù)和市場(chǎng)數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘技術(shù),提出具體建議措施。任務(wù)目標(biāo)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五數(shù)據(jù)項(xiàng)目實(shí)施步驟分析業(yè)務(wù)問(wèn)題:例如,一個(gè)零售商想要提高其在線銷(xiāo)售量,業(yè)務(wù)問(wèn)題可能是“如何增加顧客的購(gòu)買(mǎi)轉(zhuǎn)化率?”??蚨I(yè)務(wù)數(shù)據(jù):為此問(wèn)題,可能需要用戶(hù)行為數(shù)據(jù)、產(chǎn)品信息、顧客評(píng)價(jià)等數(shù)據(jù)。探索業(yè)務(wù)問(wèn)題:通過(guò)分析用戶(hù)行為數(shù)據(jù),發(fā)現(xiàn)購(gòu)物車(chē)放棄率高,這可能是影響轉(zhuǎn)化率的關(guān)鍵因素。開(kāi)發(fā)數(shù)據(jù)流程:設(shè)計(jì)一個(gè)流程來(lái)分析用戶(hù)行為,識(shí)別購(gòu)物車(chē)放棄的原因,并提出解決方案。編寫(xiě)分析報(bào)告:報(bào)告中可能會(huì)展示購(gòu)物車(chē)放棄率的統(tǒng)計(jì)圖表,以及推薦的具體改進(jìn)措施。解決業(yè)務(wù)問(wèn)題:根據(jù)報(bào)告,實(shí)施改進(jìn)措施,如優(yōu)化結(jié)賬流程,提供更多的支付選項(xiàng)等。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五一

分析業(yè)務(wù)問(wèn)題在大數(shù)據(jù)項(xiàng)目中,僅僅關(guān)注可以利用大數(shù)據(jù)手段來(lái)解決的業(yè)務(wù)問(wèn)題。不是所有的業(yè)務(wù)問(wèn)題都可以利用大數(shù)據(jù)手段來(lái)解決,關(guān)鍵取決于:解決業(yè)務(wù)問(wèn)題是否有足夠的相關(guān)業(yè)務(wù)數(shù)據(jù)來(lái)支撐。是否超出了大數(shù)據(jù)平臺(tái)的極限,包括大數(shù)據(jù)平臺(tái)的數(shù)據(jù)存儲(chǔ)能力、計(jì)算能力、加工方法、算法的應(yīng)用范圍等。思考:本任務(wù)的業(yè)務(wù)問(wèn)題是什么?怎么細(xì)化業(yè)務(wù)問(wèn)題,細(xì)化后的業(yè)務(wù)問(wèn)題是什么?任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五一

分析業(yè)務(wù)問(wèn)題在本任務(wù)中,運(yùn)營(yíng)總監(jiān)目前要解決的核心業(yè)務(wù)問(wèn)題是:未來(lái)12個(gè)月,實(shí)現(xiàn)平臺(tái)在歐美大區(qū)食品銷(xiāo)售收入增長(zhǎng)100%。根據(jù)經(jīng)驗(yàn)一年內(nèi)業(yè)績(jī)?cè)鲩L(zhǎng)100%是一個(gè)非常有挑戰(zhàn)性的目標(biāo),解決這個(gè)業(yè)務(wù)問(wèn)題需要多維度地設(shè)計(jì)業(yè)務(wù)方案,比如選品、定價(jià)、廣告投放、促銷(xiāo)活動(dòng)、發(fā)展多級(jí)經(jīng)銷(xiāo)商等。根據(jù)對(duì)平臺(tái)信息系統(tǒng)的了解,目前后臺(tái)系統(tǒng)有產(chǎn)品數(shù)據(jù)、供應(yīng)商數(shù)據(jù)、平臺(tái)數(shù)據(jù)。從數(shù)據(jù)的角度解決上述業(yè)務(wù)問(wèn)題,應(yīng)考慮:該選擇哪個(gè)供應(yīng)商的哪種食品在平臺(tái)的哪個(gè)頁(yè)面中進(jìn)行銷(xiāo)售展示,以使得該食品在歐美區(qū)的銷(xiāo)售額最大?進(jìn)一步對(duì)此業(yè)務(wù)問(wèn)題進(jìn)行細(xì)化,得出下列幾個(gè)小的業(yè)務(wù)問(wèn)題:業(yè)務(wù)問(wèn)題1:食品的哪些方面會(huì)影響商品的銷(xiāo)售額?業(yè)務(wù)問(wèn)題2:供應(yīng)商的哪些方面會(huì)影響商品的銷(xiāo)售額?業(yè)務(wù)問(wèn)題3:電商平臺(tái)的哪些方面會(huì)影響商品的銷(xiāo)售額?業(yè)務(wù)問(wèn)題4:歐美重大節(jié)日的哪些方面會(huì)影響商品的銷(xiāo)售額?任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五二

框定業(yè)務(wù)數(shù)據(jù)(一)選擇業(yè)務(wù)數(shù)據(jù)框定哪些數(shù)據(jù)?根據(jù)業(yè)務(wù)問(wèn)題的影響因素分析結(jié)果,選擇出與業(yè)務(wù)問(wèn)題相關(guān)的、可能解決業(yè)務(wù)問(wèn)題、合適的業(yè)務(wù)數(shù)據(jù)。框定業(yè)務(wù)數(shù)據(jù)操作步驟:1.通過(guò)數(shù)據(jù)分析工具連接和業(yè)務(wù)問(wèn)題相關(guān)業(yè)務(wù)數(shù)據(jù)源。2.根據(jù)IT部門(mén)提供的數(shù)據(jù)字典,對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行瀏覽。選擇數(shù)據(jù)表有:(1)商品表product(2)供應(yīng)商數(shù)據(jù)表supplier(3)商品在展示頁(yè)信息表page3.根據(jù)業(yè)務(wù)問(wèn)題的業(yè)務(wù)影響因素,確定每一個(gè)影響因素所對(duì)應(yīng)的數(shù)據(jù)源、表/文件、列,把結(jié)果形成數(shù)據(jù)映射表。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五二

框定業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)名稱(chēng)數(shù)據(jù)類(lèi)型數(shù)據(jù)含義product_fat_content字符串脂肪含量organic字符串綠色食品target_area字符串主推區(qū)域product_id字符串商品編號(hào)product_max_price數(shù)值商品最高售價(jià)product_type字符串商品所屬分類(lèi)product_weight數(shù)值商品規(guī)格Product表供應(yīng)商數(shù)據(jù)表supplier數(shù)據(jù)名稱(chēng)數(shù)據(jù)類(lèi)型數(shù)據(jù)含義supplier_city_type字符串供應(yīng)商所在城市類(lèi)型supplier_id字符串供應(yīng)商編號(hào)supplier_open_date字符串供應(yīng)商建立時(shí)間supplier_size字符串供應(yīng)商注冊(cè)資本,有缺失值Small,Medium,Highquality_problem字符串是否發(fā)生過(guò)產(chǎn)品質(zhì)量:是否famous_brand數(shù)值是否是知名品牌是知名品牌1不知名品牌0supplier_type數(shù)值供應(yīng)商類(lèi)型(非專(zhuān)營(yíng)0或?qū)I(yíng)店1)商品在展示頁(yè)信息page表數(shù)據(jù)名稱(chēng)數(shù)據(jù)類(lèi)型數(shù)據(jù)含義product_id字符串頁(yè)面商品編號(hào)main_page數(shù)值是否是主頁(yè)推薦page_level數(shù)值所在頁(yè)面層次Page_id數(shù)值頁(yè)面編號(hào)sales數(shù)值該單品一年總銷(xiāo)售額supplier_id字符串頁(yè)面商品所屬供應(yīng)商編號(hào)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五二

框定業(yè)務(wù)數(shù)據(jù)(二)制作業(yè)務(wù)問(wèn)題數(shù)據(jù)映射表業(yè)務(wù)因子與數(shù)據(jù)的映射表的制作思路為:從業(yè)務(wù)問(wèn)題出發(fā),根據(jù)自己的行業(yè)經(jīng)驗(yàn),判斷有哪些業(yè)務(wù)因子對(duì)于解決該業(yè)務(wù)問(wèn)題有價(jià)值。這些業(yè)務(wù)因子在數(shù)據(jù)庫(kù)中對(duì)應(yīng)哪些業(yè)務(wù)數(shù)據(jù)表和業(yè)務(wù)字段?根據(jù)自己的經(jīng)驗(yàn)判斷,業(yè)務(wù)因子和業(yè)務(wù)問(wèn)題關(guān)聯(lián)的強(qiáng)弱。由于業(yè)務(wù)因子與數(shù)據(jù)的映射表的制作過(guò)程嚴(yán)重依賴(lài)分析人員的個(gè)人經(jīng)驗(yàn),建議在篩選業(yè)務(wù)因子時(shí),盡可能的放寬條件限制,并進(jìn)行小組討論,咨詢(xún)不同背景的分析人員,以免遺漏重要的業(yè)務(wù)因子。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五二

框定業(yè)務(wù)數(shù)據(jù)業(yè)務(wù)問(wèn)題業(yè)務(wù)因子業(yè)務(wù)表業(yè)務(wù)字段

支持強(qiáng)度業(yè)務(wù)問(wèn)題1:食品的哪些方面會(huì)影響商品的銷(xiāo)售額?脂肪含量productproduct_fat_content強(qiáng)綠色食品productorganic強(qiáng)商品最高售價(jià)productproduct_max_price強(qiáng)商品所屬分類(lèi)productproduct_type強(qiáng)商品規(guī)格productproduct_weight強(qiáng)業(yè)務(wù)問(wèn)題4:歐美重大節(jié)日的哪些方面會(huì)影響商品的銷(xiāo)售額?>動(dòng)手制作數(shù)據(jù)映射表業(yè)務(wù)問(wèn)題3:電商平臺(tái)的哪些方面會(huì)影響商品的銷(xiāo)售額?>動(dòng)手制作數(shù)據(jù)映射表業(yè)務(wù)問(wèn)題2:供應(yīng)商的哪些方面會(huì)影響商品的銷(xiāo)售額?>動(dòng)手制作數(shù)據(jù)映射表動(dòng)手練習(xí):(二)制作業(yè)務(wù)問(wèn)題數(shù)據(jù)映射表任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五二

框定業(yè)務(wù)數(shù)據(jù)(二)制作業(yè)務(wù)問(wèn)題數(shù)據(jù)映射表平臺(tái)系統(tǒng)開(kāi)放的后臺(tái)數(shù)據(jù)有產(chǎn)品表、供應(yīng)商表、頁(yè)面表等。通過(guò)尋找到:解決業(yè)務(wù)問(wèn)題1的業(yè)務(wù)因子有:脂肪含量、綠色食品、商品最高售價(jià)、商品所屬分類(lèi)、商品規(guī)格。業(yè)務(wù)問(wèn)題2的業(yè)務(wù)因子有:供應(yīng)商所在城市類(lèi)型、供應(yīng)商建立時(shí)間、是否發(fā)生過(guò)產(chǎn)品質(zhì)量、是否是知名品牌、供應(yīng)商類(lèi)型、供應(yīng)商注冊(cè)資本規(guī)模;業(yè)務(wù)問(wèn)題3的業(yè)務(wù)因子有:是否是主頁(yè)推薦、所在頁(yè)面層次。業(yè)務(wù)問(wèn)題4的業(yè)務(wù)因子有:各州節(jié)假日計(jì)劃、節(jié)假日和宗教的關(guān)系、節(jié)假日和人口統(tǒng)計(jì)學(xué)關(guān)系等。這些數(shù)據(jù)表和分析得到的業(yè)務(wù)因子有較好的對(duì)應(yīng)關(guān)系。但由于目前公司市場(chǎng)團(tuán)隊(duì)尚未完成美歐各區(qū)域節(jié)假日數(shù)據(jù)的收集和整理,因此對(duì)于業(yè)務(wù)問(wèn)題4無(wú)法從數(shù)據(jù)角度進(jìn)行分析解決。整體來(lái)說(shuō),本項(xiàng)目細(xì)化出4個(gè)業(yè)務(wù)問(wèn)題,其中3個(gè)業(yè)務(wù)問(wèn)題有較好的數(shù)據(jù)支撐,初步判斷,從數(shù)據(jù)的角度解決本項(xiàng)目的業(yè)務(wù)問(wèn)題是可行的。業(yè)務(wù)問(wèn)題業(yè)務(wù)因子業(yè)務(wù)表業(yè)務(wù)字段支持強(qiáng)度業(yè)務(wù)問(wèn)題1:食品的哪些方面會(huì)影響商品的銷(xiāo)售額?脂肪含量productproduct_fat_content強(qiáng)綠色食品productorganic強(qiáng)商品最高售價(jià)productproduct_max_price強(qiáng)商品所屬分類(lèi)productproduct_type強(qiáng)商品規(guī)格productproduct_weight強(qiáng)通過(guò)選定的數(shù)據(jù)表,制作業(yè)務(wù)因子與數(shù)據(jù)的映射表如下表所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五業(yè)務(wù)問(wèn)題業(yè)務(wù)因子業(yè)務(wù)表業(yè)務(wù)字段支持強(qiáng)度業(yè)務(wù)問(wèn)題2:供應(yīng)商的哪些方面會(huì)影響商品的銷(xiāo)售額?供應(yīng)商所在城市類(lèi)型suppliersupplier_city_type強(qiáng)供應(yīng)商建立時(shí)間suppliersupplier_open_date強(qiáng)是否發(fā)生過(guò)產(chǎn)品質(zhì)量supplierquality_problem強(qiáng)是否是知名品牌supplierfamous_brand強(qiáng)供應(yīng)商類(lèi)型suppliersupplier_type強(qiáng)供應(yīng)商注冊(cè)資本規(guī)模suppliersupplier_size強(qiáng)通過(guò)選定的數(shù)據(jù)表,制作業(yè)務(wù)因子與數(shù)據(jù)的映射表如下表所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五通過(guò)選定的數(shù)據(jù)表,制作業(yè)務(wù)因子與數(shù)據(jù)的映射表如下表所示。業(yè)務(wù)問(wèn)題業(yè)務(wù)因子業(yè)務(wù)表業(yè)務(wù)字段支持強(qiáng)度業(yè)務(wù)問(wèn)題3:電商平臺(tái)的哪些方面會(huì)影響商品的銷(xiāo)售額?是否是主頁(yè)推薦pagemain_page強(qiáng)所在頁(yè)面層次pagepage_level強(qiáng)產(chǎn)品銷(xiāo)售量pagesales強(qiáng)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五通過(guò)選定的數(shù)據(jù)表,制作業(yè)務(wù)因子與數(shù)據(jù)的映射表如下表所示。業(yè)務(wù)問(wèn)題業(yè)務(wù)因子業(yè)務(wù)表業(yè)務(wù)字段支持強(qiáng)度業(yè)務(wù)問(wèn)題4:歐美重大節(jié)日的哪些方面會(huì)影響商品的銷(xiāo)售額?各州節(jié)假日計(jì)劃無(wú)無(wú)無(wú)節(jié)假日和宗教的關(guān)系無(wú)無(wú)無(wú)節(jié)假日和人口統(tǒng)計(jì)學(xué)關(guān)系無(wú)無(wú)無(wú)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五三

探索業(yè)務(wù)問(wèn)題探索業(yè)務(wù)問(wèn)題是指通過(guò)對(duì)業(yè)務(wù)問(wèn)題的深入理解,將其轉(zhuǎn)化為怎樣處理業(yè)務(wù)數(shù)據(jù)的問(wèn)題,包括發(fā)現(xiàn)并處理數(shù)據(jù)質(zhì)量問(wèn)題、采用的加工方法、挖掘算法以及最終確定數(shù)據(jù)流程的基本設(shè)計(jì)思路。為什么需要探索業(yè)務(wù)問(wèn)題?第一:有些業(yè)務(wù)問(wèn)題的解決并非想象中那樣可行,探索業(yè)務(wù)問(wèn)題可以進(jìn)一步確定業(yè)務(wù)問(wèn)題是否有解,以及利用業(yè)務(wù)數(shù)據(jù)解決業(yè)務(wù)問(wèn)題的可行性;第二:有了數(shù)據(jù),如何通過(guò)數(shù)據(jù)來(lái)解決問(wèn)題,需要對(duì)數(shù)據(jù)有充分的認(rèn)識(shí),將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)處理的問(wèn)題。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五三

探索業(yè)務(wù)問(wèn)題1、原始業(yè)務(wù)數(shù)據(jù)畫(huà)像:

這些數(shù)據(jù)有哪些基本畫(huà)像特征:行列數(shù)、最大最小值、平均值等數(shù)據(jù)分布、男女比例等3、確定業(yè)務(wù)問(wèn)題轉(zhuǎn)化為什么樣的數(shù)據(jù)問(wèn)題,解決問(wèn)題的可行性4、確定數(shù)據(jù)處理流程的設(shè)計(jì)思路:確定加工分析方法、挖掘算法、可視化圖表類(lèi)型等。2、數(shù)據(jù)質(zhì)量問(wèn)題探索數(shù)據(jù)質(zhì)量問(wèn)題:數(shù)據(jù)空值、數(shù)據(jù)沖突、格式不一致等步驟任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五三

探索業(yè)務(wù)問(wèn)題(一)數(shù)據(jù)表探索數(shù)據(jù)探索是拿到數(shù)據(jù)要做的第一步,目的是對(duì)要分析的數(shù)據(jù)有個(gè)初步的了解。弄清數(shù)據(jù)集質(zhì)量,大小,特征和樣本數(shù)量,數(shù)據(jù)類(lèi)型,數(shù)據(jù)的概率分布等,并找出可能存在的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量問(wèn)題的探索沒(méi)有唯一方法或方式,可以利用各種手段對(duì)數(shù)據(jù)進(jìn)行了解,如利用數(shù)據(jù)工作流的加工方式來(lái)探索。業(yè)務(wù)字段數(shù)據(jù)類(lèi)型業(yè)務(wù)含義及畫(huà)像特征數(shù)據(jù)質(zhì)量問(wèn)題product_fat_contentNVARCHAR脂肪含量

Regular687個(gè);lowfat29個(gè);LowFat1284個(gè)有臟數(shù)據(jù)lowfat。屬性的取值一般是大小寫(xiě)有區(qū)分的。organicNVARCHAR綠色食品是有1332個(gè);否有668個(gè)否product_idNVARCHAR商品編號(hào)有1152個(gè)不同商品否product_typeNVARCHAR商品所屬分類(lèi)有

有16種類(lèi)商品否product_max_priceNVARCHAR商品最高售價(jià)(元)

最高價(jià)格是265.22;最低價(jià)格是31.29;平均價(jià)格是140.71有臟數(shù)據(jù),類(lèi)型不是數(shù)值類(lèi)型,有6條臟數(shù)據(jù)帶元字product_weight

Double商品重量352條缺失記錄有缺失值target_areaNVARCHAR商品所屬區(qū)域

歐美有1694個(gè);亞洲有97個(gè);中東有99個(gè);東南亞有110個(gè)否商品表product:共2000行,7列數(shù)據(jù),有重復(fù)數(shù)據(jù)。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五經(jīng)過(guò)進(jìn)一步探索,商品表product業(yè)務(wù)數(shù)據(jù)畫(huà)像特征及質(zhì)量問(wèn)題匯總?cè)缦滤?。供?yīng)商數(shù)據(jù)表supplier業(yè)務(wù)數(shù)據(jù)畫(huà)像特征及質(zhì)量問(wèn)題探索請(qǐng)自己完成后填寫(xiě)下表業(yè)務(wù)字段數(shù)據(jù)類(lèi)型業(yè)務(wù)含義及畫(huà)像特征數(shù)據(jù)質(zhì)量問(wèn)題supplier_city_typeNVARCHARsupplier_idNVARCHARsupplier_open_dateNVARCHARsupplier_sizeNVARCHARquality_problemNVARCHARfamous_brandINTsupplier_typeINT商品在展示頁(yè)信息表page業(yè)務(wù)數(shù)據(jù)畫(huà)像特征及質(zhì)量問(wèn)題探索請(qǐng)自己完成后填寫(xiě)下表。業(yè)務(wù)字段數(shù)據(jù)類(lèi)型業(yè)務(wù)含義及畫(huà)像特征數(shù)據(jù)質(zhì)量問(wèn)題product_idINTmain_pageINTpage_levelINTpage_idNVARCHARsalesDOUBLEsupplier_idNVARCHAR任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五三

探索業(yè)務(wù)問(wèn)題(二)業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題通過(guò)分析,將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為了下面5個(gè)數(shù)據(jù)問(wèn)題,對(duì)應(yīng)的數(shù)據(jù)流程設(shè)計(jì)思路如下表。數(shù)據(jù)問(wèn)題設(shè)計(jì)思路數(shù)據(jù)問(wèn)題1:產(chǎn)品表Product中和業(yè)務(wù)因子對(duì)應(yīng)的各字段與頁(yè)面表Page中銷(xiāo)售額的關(guān)聯(lián)分析。用相關(guān)系數(shù)、分組聚合、可視化方式來(lái)分析框定的數(shù)據(jù)列和銷(xiāo)售額的關(guān)聯(lián)關(guān)系。數(shù)據(jù)問(wèn)題2:供應(yīng)商表supplier中和業(yè)務(wù)因子對(duì)應(yīng)的各字段與頁(yè)面表Page中銷(xiāo)售額的關(guān)聯(lián)分析。用相關(guān)系數(shù)、分組聚合、可視化方式來(lái)分析框定的數(shù)據(jù)列和銷(xiāo)售額的關(guān)聯(lián)關(guān)系。數(shù)據(jù)問(wèn)題3:展示頁(yè)信息表page中和業(yè)務(wù)因子對(duì)應(yīng)的各字段與頁(yè)面表Page中銷(xiāo)售額的關(guān)聯(lián)分析。用相關(guān)系數(shù)、分組聚合、可視化方式來(lái)分析框定的數(shù)據(jù)列和銷(xiāo)售額的關(guān)聯(lián)關(guān)系。數(shù)據(jù)問(wèn)題4:分別從產(chǎn)品表Product、供應(yīng)商表supplier、展示頁(yè)信息表page中選擇合適的列建立一個(gè)回歸模型,預(yù)測(cè)產(chǎn)品銷(xiāo)售額。分別構(gòu)建線性回歸、嶺回歸、Lasso回歸、決策樹(shù)回歸、隨機(jī)森林回歸模型,并調(diào)整各自的參數(shù),來(lái)選擇最優(yōu)的一個(gè)模型。數(shù)據(jù)問(wèn)題5:對(duì)產(chǎn)品、供應(yīng)商、展示頁(yè)信息進(jìn)行多種配置組合,利用前面建立的銷(xiāo)售額預(yù)測(cè)模型預(yù)測(cè)該業(yè)務(wù)配置方案下的銷(xiāo)售額,選擇一個(gè)最優(yōu)的業(yè)務(wù)配置方案推薦給業(yè)務(wù)部門(mén)。用矩形塊、分組表和交叉表的方式來(lái)把結(jié)果展示出來(lái)。對(duì)比多種業(yè)務(wù)配置方案,采取最優(yōu)方案。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(一)數(shù)據(jù)源數(shù)據(jù)準(zhǔn)備1.數(shù)據(jù)工作流創(chuàng)建在“免費(fèi)數(shù)獵場(chǎng)_***********”上右鍵點(diǎn)擊【創(chuàng)建項(xiàng)目】。把該項(xiàng)目名稱(chēng)改為“項(xiàng)目五數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用”。在剛才創(chuàng)建的項(xiàng)目上右鍵點(diǎn)擊【創(chuàng)建數(shù)據(jù)工作流】,把該工作流名稱(chēng)改成“開(kāi)發(fā)數(shù)據(jù)工作流-數(shù)據(jù)準(zhǔn)備”。最后鼠標(biāo)雙擊該工作流,即可打開(kāi)該工作流。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(一)數(shù)據(jù)源數(shù)據(jù)準(zhǔn)備2.創(chuàng)建課程數(shù)據(jù)庫(kù)并匯集數(shù)據(jù)在【工作流節(jié)點(diǎn)】面板中的【數(shù)據(jù)源】欄中,找到【課程數(shù)據(jù)庫(kù)】節(jié)點(diǎn),用鼠標(biāo)把它拖拽到上面步驟打開(kāi)的工作流的編輯面板中,鼠標(biāo)選中【課程數(shù)據(jù)庫(kù)】節(jié)點(diǎn),選擇課程【大數(shù)據(jù)基礎(chǔ)與應(yīng)用(商科版)】。點(diǎn)擊屬性面板中的“連接”按鈕,找到“product,pager,supplier”三張表,依次選中這三張表并點(diǎn)擊“抽取”按鈕,至此,已經(jīng)把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取出來(lái)了,如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理在探索業(yè)務(wù)問(wèn)題中,經(jīng)過(guò)對(duì)數(shù)據(jù)表質(zhì)量的探索,相關(guān)數(shù)據(jù)質(zhì)量問(wèn)題總結(jié)如下。1.product表有重復(fù)記錄。2.product表中product_weight字段含缺失值的記錄。3.product表中product_fat_content字段中有臟數(shù)據(jù)lowfat。4.product表中product_max_price字段有‘元’單位字符,并且是非數(shù)值類(lèi)型。5.supplier表有重復(fù)記錄。6.supplier表中supplier_size字段中含缺失值的記錄。7.page表中的main_page有空值。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理根據(jù)業(yè)務(wù)的需求需進(jìn)行如下的處理加工方式。1.product表去除重復(fù)行。2.product表中product_weight字段含缺失值的記錄被刪除。3.product表中product_fat_content字段中l(wèi)owfat被替換成LowFat。4.product表中product_max_price字段‘元’單位字符串去掉,并轉(zhuǎn)換成數(shù)值。5.supplier表去除重復(fù)記錄。6.supplier表中supplier_size字段中含缺失值的記錄被刪除。7.page表中的main_page的空值被替換成0。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理1.product質(zhì)量問(wèn)題處理product質(zhì)量問(wèn)題處理節(jié)點(diǎn)轉(zhuǎn)換面板需要設(shè)置如下,篩選出歐美區(qū)域數(shù)據(jù),并且去除重復(fù)行操作,可解決重復(fù)行的問(wèn)題。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理1.product質(zhì)量問(wèn)題處理利用【替換】轉(zhuǎn)換器和兩個(gè)【常量】轉(zhuǎn)換器來(lái)把product_fat_content字段中l(wèi)owfat被替換成LowFat;利用【替換】轉(zhuǎn)換器,【字符串轉(zhuǎn)數(shù)值】轉(zhuǎn)換器和兩個(gè)【常量】轉(zhuǎn)換器將product_max_price字段‘元’單位字符串去掉,并轉(zhuǎn)換成數(shù)值,轉(zhuǎn)換邏輯如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理1.product質(zhì)量問(wèn)題處理把product_fat_content字段中l(wèi)owfat被替換成LowFat,【替換】轉(zhuǎn)換器和兩個(gè)【常量】轉(zhuǎn)換器可以通過(guò)設(shè)置以下參數(shù)來(lái)達(dá)到數(shù)據(jù)質(zhì)量處理的目的。

常量轉(zhuǎn)換器參數(shù)設(shè)置

常量2轉(zhuǎn)換器參數(shù)設(shè)置替換轉(zhuǎn)換器參數(shù)設(shè)置任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理1.product質(zhì)量問(wèn)題處理將product_max_price字段‘元’單位字符串去掉,并轉(zhuǎn)換成數(shù)值,可以通過(guò)設(shè)置以下常量轉(zhuǎn)換器、替換轉(zhuǎn)換器和字符串轉(zhuǎn)數(shù)值轉(zhuǎn)換器參數(shù)來(lái)達(dá)到數(shù)據(jù)質(zhì)量處理的目的。常量1轉(zhuǎn)換器參數(shù)設(shè)置常量2轉(zhuǎn)換器參數(shù)設(shè)置任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理1.product質(zhì)量問(wèn)題處理替換轉(zhuǎn)換器參數(shù)設(shè)置字符串轉(zhuǎn)數(shù)值參數(shù)設(shè)置任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理1.product質(zhì)量問(wèn)題處理該節(jié)點(diǎn)的部分計(jì)算結(jié)果如下圖所示,從圖中可以看出相關(guān)的數(shù)據(jù)質(zhì)量問(wèn)題已經(jīng)處理了。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理2.page質(zhì)量問(wèn)題處理利用【null值替換】轉(zhuǎn)換器和【常量】轉(zhuǎn)換器來(lái)把main_page的空值替換成0其轉(zhuǎn)換邏輯如下圖。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理2.page質(zhì)量問(wèn)題處理利用【null值替換】轉(zhuǎn)換器和【常量】轉(zhuǎn)換器來(lái)把main_page的空值替換成0其轉(zhuǎn)換邏輯如下圖?!境A俊哭D(zhuǎn)換器參數(shù)設(shè)置【null值替換】轉(zhuǎn)換器參數(shù)設(shè)置任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理2.page質(zhì)量問(wèn)題處理該節(jié)點(diǎn)的部分計(jì)算結(jié)果如下圖所示,從圖中可以看出相關(guān)的數(shù)據(jù)質(zhì)量問(wèn)題已經(jīng)處理了。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理3.supplier質(zhì)量問(wèn)題處理節(jié)點(diǎn)轉(zhuǎn)換面板需要設(shè)置如下,去除重復(fù)行操作,見(jiàn)圖。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理3.supplier質(zhì)量問(wèn)題處理節(jié)點(diǎn)利用勾選掉可空去除supplier_size中的空值轉(zhuǎn)換邏輯如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理4.數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)質(zhì)量問(wèn)題處理完畢后,增加【數(shù)據(jù)關(guān)聯(lián)節(jié)點(diǎn)】,并把三個(gè)轉(zhuǎn)換節(jié)點(diǎn)的數(shù)據(jù)通過(guò)連接操作,合并成了一個(gè)大數(shù)據(jù)表。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(二)數(shù)據(jù)質(zhì)量問(wèn)題處理4.數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)關(guān)聯(lián)節(jié)點(diǎn)連接操作的設(shè)置在連接面板設(shè)置如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(三)業(yè)務(wù)字段相關(guān)性分析在【數(shù)據(jù)關(guān)聯(lián)】節(jié)點(diǎn)后增加【統(tǒng)計(jì)分析】節(jié)點(diǎn),使用相關(guān)系數(shù)算法,計(jì)算特征業(yè)務(wù)字段和sales之間的相關(guān)性。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(三)業(yè)務(wù)字段相關(guān)性分析數(shù)據(jù)問(wèn)題1、2、3中的特征業(yè)務(wù)字段和sales之間的相關(guān)性,結(jié)果如表。業(yè)務(wù)字段(特征)業(yè)務(wù)字段(預(yù)測(cè)目標(biāo))皮爾遜相關(guān)系數(shù)皮爾遜相關(guān)系數(shù)絕對(duì)值線性相關(guān)性水平main_pagesales0.590.59中度product_max_pricesales0.620.62中度page_levelsales-0.560.56中度organicsales0.370.37低度supplier_typesales0.240.24低度f(wàn)amous_brandsales0.090.09極低supplier_sizesales0.060.06極低supplier_city_typesales0.040.04極低product_fat_contentsales-0.070.07極低supplier_open_datesales-0.0020.002極低product_weightsales0.040.04極低product_typesales-0.0030.003極低從表中可以看出,與銷(xiāo)售額中度線性相關(guān)的業(yè)務(wù)字段有:最大價(jià)格product_max_price、是否在主頁(yè)main_page、所展示頁(yè)面的層次page_level。這三個(gè)業(yè)務(wù)字段將作為銷(xiāo)售額預(yù)測(cè)模型的特征列。這里選取業(yè)務(wù)字段作為模型的特征列沒(méi)有統(tǒng)一標(biāo)準(zhǔn),需要根據(jù)業(yè)務(wù)需求選取相關(guān)程度相對(duì)高的字段。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四

開(kāi)發(fā)業(yè)務(wù)流程(四)訓(xùn)練模型的算法選擇模型平均絕對(duì)誤差MAE均方根誤差RMSE決定系數(shù)R2線性回歸779.871010.080.63嶺回歸778.361008.060.63Lasso回歸864.671103.740.87決策樹(shù)回歸1320.681667.89-0.00006隨機(jī)森林回歸1316.951657.06-0.00001利用選擇好的特征列最大價(jià)格product_max_price、是否在主頁(yè)main_page、所展示頁(yè)面的層次page_level,銷(xiāo)售額作為標(biāo)簽,分別嘗試構(gòu)建線性回歸、嶺回歸、Lasso回歸、決策樹(shù)回歸、隨機(jī)森林回歸模型,模型的參數(shù)都是默認(rèn)值。Lasso回歸在本次訓(xùn)練數(shù)據(jù)中的擬合效果最佳(R2=0.87),顯著優(yōu)于其他模型。盡管其預(yù)測(cè)誤差相較線性回歸與嶺回歸略高,但Lasso回歸能自動(dòng)篩選關(guān)鍵業(yè)務(wù)驅(qū)動(dòng)因素并剔除冗余信息干擾。這一特性在需要清晰決策依據(jù)的商業(yè)場(chǎng)景中具有優(yōu)勢(shì)。綜合考慮,我們選擇Lasso回歸模型作為我們最終的核心預(yù)測(cè)算法。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四開(kāi)發(fā)業(yè)務(wù)流程(五)開(kāi)發(fā)數(shù)據(jù)流程-訓(xùn)練階段訓(xùn)練流程通過(guò)算法訓(xùn)練數(shù)據(jù)得到一個(gè)模型,訓(xùn)練流程概覽如下圖所示。任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四開(kāi)發(fā)業(yè)務(wù)流程1.

訓(xùn)練數(shù)據(jù)組裝訓(xùn)練數(shù)據(jù)組裝節(jié)點(diǎn)利用【數(shù)值組裝】轉(zhuǎn)換器組裝特征數(shù)據(jù)為訓(xùn)練模型做數(shù)據(jù)準(zhǔn)備,利用選擇好的特征列最大價(jià)格product_max_price、是否在主頁(yè)main_page、所展示頁(yè)面的層次page_level,銷(xiāo)售額作為標(biāo)簽組裝。(五)開(kāi)發(fā)數(shù)據(jù)流程-訓(xùn)練階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四開(kāi)發(fā)業(yè)務(wù)流程1.

訓(xùn)練數(shù)據(jù)組裝訓(xùn)練數(shù)據(jù)組裝節(jié)點(diǎn)利用【數(shù)值組裝】把特征字段組裝成CSV類(lèi)型數(shù)據(jù),注意標(biāo)簽sales必須第一個(gè)鏈接。其參數(shù)設(shè)置如下表所示。編號(hào)變換輸入0Column:sales1Column:main_page3Column:page_level4Column:product_max_price(五)開(kāi)發(fā)數(shù)據(jù)流程-訓(xùn)練階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四開(kāi)發(fā)業(yè)務(wù)流程2.Lasso回歸Lasso回歸算法通過(guò)訓(xùn)練轉(zhuǎn)換器利用組裝好的數(shù)據(jù)來(lái)訓(xùn)練得到一個(gè)模型,其轉(zhuǎn)換邏輯如下圖所示。(五)開(kāi)發(fā)數(shù)據(jù)流程-訓(xùn)練階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四開(kāi)發(fā)業(yè)務(wù)流程2.Lasso回歸Lasso回歸算法節(jié)點(diǎn)需要“創(chuàng)建落地對(duì)象”,其目的是可以創(chuàng)建出算法訓(xùn)練模型生成數(shù)據(jù)的表結(jié)構(gòu),用于存儲(chǔ)模型的各項(xiàng)參數(shù)具體操作方法如下圖所示。(五)開(kāi)發(fā)數(shù)據(jù)流程-訓(xùn)練階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五當(dāng)前預(yù)測(cè)流程使用前面訓(xùn)練的Lasso回歸模型,預(yù)測(cè)商品在不同特征列取值條件下的銷(xiāo)售額。需要手動(dòng)制作預(yù)測(cè)數(shù)據(jù),其實(shí)就是手工構(gòu)造不同的業(yè)務(wù)方案。由前面的相關(guān)性分析結(jié)果可知,顯著影響一個(gè)單品年銷(xiāo)售額的字段主要有三個(gè):最大價(jià)格product_max_price、是否在主頁(yè)main_page、所展示頁(yè)面的層次page_level。這三者的不同合理組合即為該單品的業(yè)務(wù)方案。通過(guò)前面步驟訓(xùn)練的回歸模型,對(duì)該單品所有的業(yè)務(wù)方案進(jìn)行預(yù)測(cè)。預(yù)測(cè)值較高的業(yè)務(wù)方案即為該單品的最佳業(yè)務(wù)方案。所有單品的最佳業(yè)務(wù)方案的匯總就是BigMart公司的最佳業(yè)務(wù)方案。下面以編號(hào)為FDJ07的單品為例,詳細(xì)說(shuō)明確定某一單品最佳業(yè)務(wù)方案的過(guò)程。通過(guò)對(duì)原始商品表進(jìn)行數(shù)據(jù)探索結(jié)合市場(chǎng)調(diào)研等手段分析,可以確定FDJ07商品的product_max_price合理取值有四個(gè):116.01、114.52、114.3、115.66;main_page取值有兩個(gè):0、1;page_level取值有四個(gè):1、2、3、4。那么當(dāng)前能夠構(gòu)建的方案經(jīng)過(guò)合理的組合,有4*2*4種可能性,即方案設(shè)計(jì)有32種。四開(kāi)發(fā)業(yè)務(wù)流程(六)制作預(yù)測(cè)數(shù)據(jù)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五四開(kāi)發(fā)業(yè)務(wù)流程(六)制作預(yù)測(cè)數(shù)據(jù)任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五預(yù)測(cè)流程引用前面訓(xùn)練的Lasso回歸模型,預(yù)測(cè)商品在不同業(yè)務(wù)列取值條件下的銷(xiāo)售額。預(yù)測(cè)流程如下圖。四開(kāi)發(fā)業(yè)務(wù)流程(七)開(kāi)發(fā)數(shù)據(jù)流程——預(yù)測(cè)階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五1.方案數(shù)據(jù)上傳平臺(tái)在我的數(shù)據(jù)中找到圖形式引擎數(shù)據(jù),文件管理里選取文件(數(shù)據(jù)來(lái)自(六)制作預(yù)測(cè)數(shù)據(jù)),并點(diǎn)擊上傳,如圖所示。

四開(kāi)發(fā)業(yè)務(wù)流程(七)開(kāi)發(fā)數(shù)據(jù)流程——預(yù)測(cè)階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五2.數(shù)據(jù)準(zhǔn)備在‘項(xiàng)目五數(shù)據(jù)實(shí)戰(zhàn)解碼:綜合案例分析應(yīng)用’上右鍵,然后點(diǎn)擊【創(chuàng)建數(shù)據(jù)工作流】,然后把該工作流名稱(chēng)改成“開(kāi)發(fā)數(shù)據(jù)工作流-預(yù)測(cè)階段”。最后鼠標(biāo)雙擊該工作流,即可打開(kāi)該工作流。如下圖所示。

四開(kāi)發(fā)業(yè)務(wù)流程(七)開(kāi)發(fā)數(shù)據(jù)流程——預(yù)測(cè)階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五3.創(chuàng)建云文件并匯集數(shù)據(jù)在【工作流節(jié)點(diǎn)】面板中的【數(shù)據(jù)源】欄中,找到【云文件】節(jié)點(diǎn),用鼠標(biāo)把它拖拽到上面步驟打開(kāi)的工作流的編輯面板中,鼠標(biāo)選中【云文件】節(jié)點(diǎn),點(diǎn)擊屬性面板中的“連接”按鈕,找到“銷(xiāo)售方案制定_xlsx_xls”文件,選中并點(diǎn)擊“抽取”按鈕,至此,已經(jīng)把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取出來(lái)了,如下圖所示。

四開(kāi)發(fā)業(yè)務(wù)流程(七)開(kāi)發(fā)數(shù)據(jù)流程——預(yù)測(cè)階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五4.預(yù)測(cè)數(shù)據(jù)組裝在工作流節(jié)點(diǎn)“轉(zhuǎn)換”中推拽【轉(zhuǎn)換】節(jié)點(diǎn),與剛抽取的數(shù)據(jù)源“銷(xiāo)售方案制定_xlsx_xls”連線,并重命名為“預(yù)測(cè)數(shù)據(jù)組裝”。點(diǎn)擊該節(jié)點(diǎn),利用【數(shù)值組裝】轉(zhuǎn)換器組裝特征數(shù)據(jù)為預(yù)測(cè)營(yíng)業(yè)額做數(shù)據(jù)準(zhǔn)備,其轉(zhuǎn)換邏輯如下圖所示。

四開(kāi)發(fā)業(yè)務(wù)流程(七)開(kāi)發(fā)數(shù)據(jù)流程——預(yù)測(cè)階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五4.預(yù)測(cè)數(shù)據(jù)組裝預(yù)測(cè)數(shù)據(jù)組裝節(jié)點(diǎn)利用【數(shù)值組裝】把特征字段組裝成CSV類(lèi)型數(shù)據(jù),注意數(shù)據(jù)組裝的順序一定要和訓(xùn)練階段組裝順序保持一致,組裝后生成新列,命名為sales?!緮?shù)據(jù)組裝】參數(shù)設(shè)置即拖拽順序,如下表所示。

四開(kāi)發(fā)業(yè)務(wù)流程(七)開(kāi)發(fā)數(shù)據(jù)流程——預(yù)測(cè)階段任務(wù)描述知識(shí)準(zhǔn)備實(shí)操練習(xí)拓展思考項(xiàng)目五5.方案

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論