版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
項目背景|項目概述|學(xué)習(xí)目標(biāo)|任務(wù)實施步驟項目用餐數(shù)據(jù)統(tǒng)計分析【大數(shù)據(jù)分析技術(shù)】01101111011010111101010000101101010100111101背景先導(dǎo)項目概述項目學(xué)習(xí)目標(biāo)任務(wù)實施步驟01Background02BriefIntroduction03LearningObjectives04ImplementationSteps主要內(nèi)容數(shù)據(jù)要素“數(shù)據(jù)”被譽為“新時代的黃金”,與土地、勞動力、資本和技術(shù)一同構(gòu)成了五大要素市場。《黨和國家機(jī)構(gòu)改革方案》,方案中明確提出了組建國家數(shù)據(jù)局的構(gòu)想,其主要職責(zé)將是協(xié)調(diào)推進(jìn)數(shù)據(jù)基礎(chǔ)制度的建設(shè),統(tǒng)籌管理數(shù)據(jù)資源的整合共享與開發(fā)利用,全面推進(jìn)數(shù)字中國、數(shù)字經(jīng)濟(jì)和數(shù)字社會的規(guī)劃與建設(shè)。大數(shù)據(jù)時代0110111101101011110101111001001001011010101001001111010010110010111011010110100111101新質(zhì)生產(chǎn)力數(shù)據(jù)是形成新質(zhì)生產(chǎn)力的優(yōu)質(zhì)生產(chǎn)要素。隨著數(shù)字經(jīng)濟(jì)快速發(fā)展,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源和關(guān)鍵生產(chǎn)要素,并由此形成數(shù)字生產(chǎn)力。數(shù)據(jù)要素市場項目三維目標(biāo)掌握數(shù)據(jù)轉(zhuǎn)換和特征構(gòu)造的基本概念及主要方法;
(大數(shù)據(jù)工程技術(shù)人員國家職業(yè)技術(shù)技能標(biāo)準(zhǔn)初級5.1)掌握缺失值、重復(fù)值與異常值檢測與處理的常用方法;掌握異常值檢測的基本方法及不同的處理方式;掌握常用的數(shù)據(jù)分析方法,包括分組分析、分布分析、交叉分析、結(jié)構(gòu)分析、相關(guān)分析等;
(阿里云大數(shù)據(jù)分析與應(yīng)用中級4.2.1)
(大數(shù)據(jù)技術(shù)工程人員國家職業(yè)標(biāo)準(zhǔn)初級5.2.2)掌握常見可視化圖表中柱狀圖、散點圖的畫法。知識目標(biāo)能力目標(biāo)素質(zhì)目標(biāo)崗證崗項目三維目標(biāo)會使用Pandas工具對數(shù)據(jù)進(jìn)行操作,如數(shù)據(jù)集成、數(shù)據(jù)抽取等;
(《大數(shù)據(jù)應(yīng)用開發(fā)(Python)職業(yè)技能等級標(biāo)準(zhǔn)》初級3.1.4)會使用Pandas工具進(jìn)行數(shù)據(jù)轉(zhuǎn)換,并構(gòu)造特征;會使用Pandas工具對數(shù)據(jù)進(jìn)行清洗,包括缺失值、重復(fù)值、異常值的檢測與處理等;
(全國工業(yè)化和信息化大賽“工業(yè)大數(shù)據(jù)算法”賽項考點)
(《大數(shù)據(jù)應(yīng)用開發(fā)(Python)職業(yè)技能等級標(biāo)準(zhǔn)》初級3.1)會熟練使用Pandas工具實現(xiàn)分組分析、分布分析、交叉分析、結(jié)構(gòu)分析、相關(guān)分析。知識目標(biāo)能力目標(biāo)素質(zhì)目標(biāo)賽證011011110110101111010111100100001011010101001111101證項目三維目標(biāo)熟悉數(shù)據(jù)分析師崗位工作任務(wù),培養(yǎng)學(xué)生逐步養(yǎng)成勤奮自律的自學(xué)習(xí)慣和一定的數(shù)據(jù)思維;把控大數(shù)據(jù)時代政策前沿,提升數(shù)據(jù)驅(qū)動的大數(shù)據(jù)行業(yè)價值觀;提升數(shù)據(jù)處理過程中的嚴(yán)謹(jǐn)、細(xì)致的工作態(tài)度與一絲不茍的科學(xué)精神;合法、合規(guī)地使用數(shù)據(jù),培養(yǎng)大局意識以及遵紀(jì)守法、遵守社會公德的意識。能力目標(biāo)素質(zhì)目標(biāo)知識目標(biāo)011011110110101111010111100100001011010101001111101項目總體要求用餐數(shù)據(jù)統(tǒng)計分析
本項目將聚焦于數(shù)據(jù)要素市場,針對大數(shù)據(jù)工程技術(shù)人員的技能要求,對公開的用餐數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)處理、特征提取和數(shù)據(jù)分析,旨在熟練掌握數(shù)據(jù)預(yù)處理和常用數(shù)據(jù)分析方法,以更好地服務(wù)于數(shù)字經(jīng)濟(jì)的發(fā)展需求。用餐數(shù)據(jù)統(tǒng)計分析流程重復(fù)值處理缺失值處理異常值處理統(tǒng)計分析數(shù)據(jù)集成與處理從兩個文件中分別讀取數(shù)據(jù)集,并對用餐數(shù)據(jù)做集成和處理,以便后續(xù)的分析與使用用餐數(shù)據(jù)統(tǒng)計分析流程重復(fù)值處理缺失值處理異常值處理統(tǒng)計分析數(shù)據(jù)集成與處理給定的用餐數(shù)據(jù)中是否存在重復(fù)記錄,如果存在,則輸出具體重復(fù)的記錄并對記錄進(jìn)行適當(dāng)?shù)奶幚頇z測數(shù)據(jù)集中數(shù)值型的特征列是否存在重復(fù),如果存在,則進(jìn)行相應(yīng)處理。用餐數(shù)據(jù)統(tǒng)計分析流程重復(fù)值處理缺失值處理異常值處理統(tǒng)計分析數(shù)據(jù)集成與處理檢測各列是否存在缺失值,并嘗試使用不同的方法對缺失值進(jìn)行處理。用餐數(shù)據(jù)統(tǒng)計分析流程重復(fù)值處理缺失值處理異常值處理統(tǒng)計分析數(shù)據(jù)集成與處理對用餐數(shù)據(jù)中的小費(tip列)數(shù)據(jù)進(jìn)行異常值檢測,如果發(fā)現(xiàn)異常值,則對其進(jìn)行適當(dāng)?shù)奶幚碛貌蛿?shù)據(jù)統(tǒng)計分析流程重復(fù)值處理數(shù)據(jù)解析異常值處理統(tǒng)計分析數(shù)據(jù)集成與處理根據(jù)不同用餐人數(shù)和用餐時間,綜合運用分組、分布、交叉、結(jié)構(gòu)以及相關(guān)分析等多種分析方法,全面地理解用餐數(shù)據(jù),并為業(yè)務(wù)決策提供有力支持還在等什么?馬上動手實施用餐數(shù)據(jù)統(tǒng)計分析項目吧~1.數(shù)據(jù)要素市場2.項目統(tǒng)計分析整體流程:小結(jié)課程負(fù)責(zé)人:陳清華任務(wù)1數(shù)據(jù)集成與處理任務(wù)實施【大數(shù)據(jù)分析技術(shù)】課程用餐數(shù)據(jù)統(tǒng)計分析主要內(nèi)容任務(wù)說明引導(dǎo)問題任務(wù)解決方案代碼解析用餐數(shù)據(jù)集成與處理“tips1.csv”和“tips2.csv”教學(xué)難點任務(wù)工單給定用餐基本信息文件“tips1.csv”和用餐費用文件“tips2.csv”。我們需要從這兩個文件中分別讀取數(shù)據(jù)集,并對用餐數(shù)據(jù)做集成和處理,以便后續(xù)的分析與使用。。任務(wù)概述
任務(wù)描述:從“tips1.csv”和“tips2.csv”文件中讀取數(shù)據(jù),并集成數(shù)據(jù)。010010011001101010100100110110100101110101000100001011011101001010101101010011010010數(shù)據(jù)源“tips1.csv”和“tips2.csv”顯示結(jié)果
任務(wù)要求任務(wù)概述(1)什么是數(shù)據(jù)集成?數(shù)據(jù)集成常見的操作有哪些?(2)在Pandas中用來對數(shù)據(jù)做合并、連接等操作的函數(shù)是什么?(3)Pandas中的merge()函數(shù)有哪些參數(shù)?它們分別用來指定什么?(4)在Pandas中用來構(gòu)造特征的函數(shù)有哪些?它們的主要用途是什么?(5)Pandas中的數(shù)據(jù)類型轉(zhuǎn)換函數(shù)有哪些?如何使用它們?”
問題引導(dǎo):任務(wù)概述任務(wù)解決方案
一、數(shù)據(jù)合并:tips1.csv任務(wù)解決方案
一、數(shù)據(jù)合并:tips2.csv任務(wù)解決方案
一、數(shù)據(jù)合并merge()任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:1)數(shù)據(jù)映射where()任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:1)數(shù)據(jù)映射where()任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:1)數(shù)據(jù)映射apply()任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:2)特征構(gòu)造where()任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:2)特征構(gòu)造任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:3)數(shù)據(jù)處理map()任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:3)數(shù)據(jù)處理replace()任務(wù)解決方案
二、數(shù)據(jù)轉(zhuǎn)換:3)數(shù)據(jù)處理replace()小結(jié)1.如何使用Pandas中的函數(shù)實現(xiàn)數(shù)據(jù)集成?2.
如何使用相關(guān)工具完成數(shù)據(jù)轉(zhuǎn)換?3.
如何使用相關(guān)工具完成特征構(gòu)造?要點掌握merge()map()np.where()apply()replace()課程負(fù)責(zé)人:陳清華任務(wù)2重復(fù)值檢測處理任務(wù)實施【大數(shù)據(jù)分析技術(shù)】課程用餐數(shù)據(jù)統(tǒng)計分析主要內(nèi)容任務(wù)說明引導(dǎo)問題任務(wù)解決方案代碼解析用餐數(shù)據(jù)重復(fù)值檢測與處理重復(fù)值學(xué)難點任務(wù)工單為防止空值數(shù)據(jù)對數(shù)據(jù)分析與挖掘流程造成影響,本任務(wù)主要基于任務(wù)1中給定的用餐數(shù)據(jù),使用Pandas中的工具檢測數(shù)據(jù)中是否存在重復(fù)值。如果存在,則使用合適的方法對其進(jìn)行處理。任務(wù)概述
任務(wù)描述:基于前續(xù)任務(wù)獲得的數(shù)據(jù),用餐數(shù)據(jù)中是否存在重復(fù)記錄和重復(fù)特征。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原數(shù)據(jù):244清洗后數(shù)據(jù):243條
任務(wù)要求任務(wù)概述(1)如果數(shù)據(jù)中存在重復(fù)值,會造成什么樣的影響?(2)在Pandas中,哪些函數(shù)可以用來檢測重復(fù)值?(3)處理重復(fù)值的方法有哪些?如何選擇合適的處理方法?(4)在Pandas中,哪些函數(shù)可以用來處理重復(fù)值?”
問題引導(dǎo):任務(wù)概述任務(wù)解決方案
一、重復(fù)值檢測:重復(fù)記錄duplicated()任務(wù)解決方案
一、重復(fù)值檢測:重復(fù)特征corr()任務(wù)解決方案
二、重復(fù)值處理:刪除重復(fù)記錄drop_duplicates()小結(jié)1.如何使用duplicated()函數(shù)檢測重復(fù)記錄?2.
如何使用corr()函數(shù)檢測重復(fù)特征?3.
如何處理重復(fù)值?要點掌握重復(fù)記錄檢測重復(fù)特征檢測重復(fù)值處理課程負(fù)責(zé)人:陳清華任務(wù)3缺失值檢測處理任務(wù)實施【大數(shù)據(jù)分析技術(shù)】課程用餐數(shù)據(jù)統(tǒng)計分析主要內(nèi)容任務(wù)說明引導(dǎo)問題任務(wù)解決方案代碼解析用餐數(shù)據(jù)缺失值檢測與處理為防止缺失值對數(shù)據(jù)分析與挖掘流程造成影響,本任務(wù)主要基于任務(wù)1中給定的用餐數(shù)據(jù),使用Pandas中的工具檢測數(shù)據(jù)中是否存在缺失值。如果存在缺失值,則使用合適的方法(如刪除法、插補(bǔ)法等)對其進(jìn)行處理。缺失值教學(xué)難點任務(wù)工單任務(wù)概述
任務(wù)描述:檢測各列是否存在缺失值,并使用合適的方法進(jìn)行處理010010011001101010100100110110100101110101000100001011011101001010101101010011010010(1)數(shù)據(jù)中存在缺失值會造成什么樣的影響?(2)在Pandas中,哪些函數(shù)可以用來檢測缺失值?(3)處理缺失值的方法有哪些?如何選擇合適的處理方法?(4)在Pandas中,哪些函數(shù)可以用來處理缺失值?”
問題引導(dǎo):任務(wù)概述任務(wù)解決方案
一、檢測缺失值isna()任務(wù)解決方案
一、檢測缺失值任務(wù)解決方案
二、處理缺失值:刪除drop_na()fillna()任務(wù)解決方案
二、處理缺失值:填充bfill()ffill()任務(wù)解決方案
二、處理缺失值:填充mean()小結(jié)1.如何檢測缺失值?2.
如何處理缺失值?要點掌握isna()fillna()bfill()ffill()課程負(fù)責(zé)人:陳清華任務(wù)4異常值檢測處理任務(wù)實施【大數(shù)據(jù)分析技術(shù)】課程用餐數(shù)據(jù)統(tǒng)計分析主要內(nèi)容任務(wù)說明引導(dǎo)問題任務(wù)解決方案代碼解析用餐數(shù)據(jù)異常值檢測與處理xny.csv教學(xué)難點任務(wù)工單主要通過對tip單變量進(jìn)行異常值檢測與處理來講解異常值檢測與處理的基本方法。當(dāng)然,我們也可以結(jié)合其他信息變量對異常值進(jìn)行檢測和處理。任務(wù)概述
任務(wù)描述:對小費(tip列)數(shù)據(jù)進(jìn)行異常值檢測,如果發(fā)現(xiàn)異常值,則對其進(jìn)行適當(dāng)?shù)奶幚怼?10010011001101010100100110110100101110101000100001011011101001010101101010011010010原數(shù)據(jù):243條異常值檢測與處理:
任務(wù)要求任務(wù)概述(1)什么是異常值?異常值對數(shù)據(jù)分析與挖掘流程有什么樣的影響?(2)檢測異常值的方法有哪些?在使用時,有什么注意要點?(3)Pandas中提供了哪些用于異常值檢測的工具?(4)如何對已發(fā)現(xiàn)的異常值進(jìn)行處理?(5)Pandas中提供了哪些用于異常值處理的工具?”
問題引導(dǎo):任務(wù)概述任務(wù)解決方案
一、檢測異常值:散點圖scatter()任務(wù)解決方案
一、檢測異常值:簡單方法(排序)sort_values()任務(wù)解決方案
一、檢測異常值:3delta原則hist()任務(wù)解決方案
一、檢測異常值:箱形圖boxplot()任務(wù)解決方案
一、檢測異常值:箱形圖boxplot()任務(wù)解決方案
二、處理異常值條件篩選()①刪除法②填補(bǔ)法③平均值修正法④不處理小結(jié)1.如何檢測異常值?2.
如何處理異常值?要點掌握散點圖排序3delta原則箱形圖課程負(fù)責(zé)人:陳清華任務(wù)5數(shù)據(jù)統(tǒng)計分析任務(wù)實施【大數(shù)據(jù)分析技術(shù)】課程用餐數(shù)據(jù)統(tǒng)計分析主要內(nèi)容任務(wù)說明引導(dǎo)問題任務(wù)解決方案代碼解析用餐數(shù)據(jù)統(tǒng)計分析xny.csv教學(xué)難點任務(wù)工單運用Pandas的強(qiáng)大數(shù)據(jù)處理功能,我們將能夠根據(jù)性別、用餐人數(shù)、用餐時間等關(guān)鍵變量,詳細(xì)地統(tǒng)計并解讀賬單金額、小費金額,以及各變量間的相關(guān)性,從而為業(yè)務(wù)決策提供有力的數(shù)據(jù)支持。任務(wù)概述
任務(wù)描述:綜合運用分組、分布、交叉、結(jié)構(gòu)以及相關(guān)分析等多種分析方法,全面地理解用餐數(shù)據(jù),并為業(yè)務(wù)決策提供有力支持。010010011001101010100100110110100101110101000100001011011101001010101101010011010010原數(shù)據(jù)數(shù)據(jù)分析結(jié)果呈現(xiàn)
任務(wù)要求任務(wù)概述(1)如何使用Pandas的groupby()函數(shù)按照性別和用餐人數(shù)對數(shù)據(jù)進(jìn)行分組?分組后,如何計算每個組的賬單金額的平均值、中位數(shù)和標(biāo)準(zhǔn)差?(2)如何利用Pandas將用餐時間列轉(zhuǎn)換為適合進(jìn)行分布分析的格式?如何使用Pandas的cut()或qcut()函數(shù)將用餐時間非等距分組,并計算每個時間段的賬單金額分布情況?(3)如何通過pivot_table()或crosstab()函數(shù)創(chuàng)建性別、用餐時間和小費金額的交叉表?如何解讀這個交叉表,以理解這些變量之間的內(nèi)在聯(lián)系?(4)如何利Pandas用相關(guān)運算統(tǒng)計不同周幾的消費人數(shù),并計算占比情況?(5)如何使用Pandas的corr()函數(shù)計算小費與賬單金額、用餐時間(可能需要轉(zhuǎn)換為數(shù)值型)以及用餐人數(shù)之間的相關(guān)系數(shù)?如何解讀這些相關(guān)系數(shù),判斷各變量之間的關(guān)聯(lián)程度和方向?”
問題引導(dǎo):任務(wù)概述數(shù)據(jù)分析方法應(yīng)用分布分析交叉分析分組分析分組分析是指根據(jù)分組字段,將分析對象劃分成不同的部分,以進(jìn)行對比分析各組之間的差異性的一種分析方法。分組分析常用的統(tǒng)計指標(biāo)是計數(shù)、求和、平均值。結(jié)構(gòu)分析相關(guān)分析以性別和用餐人數(shù)為分類標(biāo)準(zhǔn),詳細(xì)統(tǒng)計并分析各組的賬單金額情況任務(wù)解決方案
一、分組分析bar()基于性別的賬單平均金額分組對比分析數(shù)據(jù)分析方法應(yīng)用分布分析交叉分析根據(jù)用餐時間將數(shù)據(jù)非等距分組,并考察各時間段內(nèi)賬單金額的分布情況結(jié)構(gòu)分析相關(guān)分析根據(jù)用餐時間將數(shù)據(jù)非等距分組,并考察各時間段內(nèi)賬單金額的分布情況分組分析任務(wù)解決方案
二、分布分析hist()工作日與非工作日的消費情況分布分析數(shù)據(jù)分析方法應(yīng)用交叉分析交叉分析通常是用于分析兩個或兩個以上分組變量之間的關(guān)系,以交叉表形式進(jìn)行變量間關(guān)系的對比分析;從數(shù)據(jù)的不同維度,綜合進(jìn)行分組細(xì)分,進(jìn)一步了解數(shù)據(jù)的構(gòu)成、分布特征。結(jié)構(gòu)分析相關(guān)分析綜合考慮性別
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南玉溪江川特巡警招隊員筆試真題2024
- 2025年山東大學(xué)晶體材料研究院(晶體材料全國重點實驗室)非事業(yè)編制人員招聘備考題庫及完整答案詳解一套
- 2025年都昌輔警招聘真題及答案
- 3dmax飛機(jī)建模課程設(shè)計
- 2025年固態(tài)電容十年產(chǎn)業(yè)化關(guān)鍵技術(shù)與電子設(shè)備穩(wěn)定性報告
- 2025湖南株洲市炎陵縣財政局、縣審計局公開招聘專業(yè)人才4人筆試重點題庫及答案解析
- 7天稅務(wù)培訓(xùn)課程設(shè)計
- 安卓初學(xué)者課程設(shè)計
- 2025-2026 學(xué)年高二 歷史 期中復(fù)習(xí)卷 試卷及答案
- 小學(xué)信息技術(shù)機(jī)器人課程教學(xué)策略對學(xué)生信息素養(yǎng)的影響研究教學(xué)研究課題報告
- 學(xué)堂在線 雨課堂 學(xué)堂云 大數(shù)據(jù)機(jī)器學(xué)習(xí) 章節(jié)測試答案
- 學(xué)堂在線 雨課堂 學(xué)堂云 研究生素養(yǎng)課-積極心理與情緒智慧 章節(jié)測試答案
- 運動安全與健康知到課后答案智慧樹章節(jié)測試答案2025年春浙江大學(xué)
- 輸血科院感知識培訓(xùn)課件
- 漁業(yè)養(yǎng)殖鋼架棚施工合同
- 手術(shù)室安全與事故應(yīng)對
- 統(tǒng)編版(2024)語文七年級上冊第六單元 分課基礎(chǔ)預(yù)習(xí)練+單元鞏固練(含答案)
- DL∕T 5143-2018 變電站和換流站給水排水設(shè)計規(guī)程
- 高中英語詞匯3500詞(必背)
- imatest教程完整課件
- 巨量千川初級道題不確定答案附有答案
評論
0/150
提交評論