版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目四搭建Python數(shù)據(jù)分析基礎(chǔ)任務(wù)一采集數(shù)據(jù)CONTENTS認(rèn)識(shí)DataFrame01多源數(shù)據(jù)采集02目錄PARTONE認(rèn)識(shí)DataFrame一、利用字典生成DataFrame二、利用列表生成DataFrame認(rèn)識(shí)DataFrameDataFrame數(shù)據(jù)結(jié)構(gòu)類似與Excel表格數(shù)據(jù),如下表所示的某品類商品訂單數(shù)據(jù)。接下來(lái)分別利用字典和列表,生成表中數(shù)據(jù)。利用字典生成DataFrame在生成DataFrame數(shù)據(jù)時(shí),字典是一種常用的方法。通常,會(huì)將每一列的字段作為字典的鍵(key),而字段下的數(shù)據(jù)則作為對(duì)應(yīng)的值(value),以此來(lái)構(gòu)建DataFrame。通過(guò)使用importpandasaspd語(yǔ)句導(dǎo)入pandas模塊,可以方便地在后續(xù)代碼中調(diào)用它的功能。設(shè)置別名為“pd”后,只需在函數(shù)名前加上“pd”即可調(diào)用相關(guān)函數(shù)。也可以利用AI助手,輔助完成數(shù)據(jù)的生成。利用列表生成DataFrame使用列表生成DataFrame格式的數(shù)據(jù),也是常見的構(gòu)造方式。下面展示了如何通過(guò)列表,生成相同數(shù)據(jù)。DataFrame可以使用同名函數(shù)DataFrame()創(chuàng)建,該函數(shù)包含3個(gè)參數(shù)。(1)data:數(shù)據(jù)參數(shù),是一組數(shù)據(jù)的集合。(2)columns:列索引,是縱向索引的集合;如果不指定,則默認(rèn)參數(shù)值為從0開始的正整數(shù)序列。(3)index:行索引,是橫向索引的集合;如果不指定,則默認(rèn)參數(shù)值為從0開始的正整數(shù)序列。也可以借助AI助手,利用列表和字典,構(gòu)造同樣的DataFrame。PARTTWO多源數(shù)據(jù)采集一、通過(guò)接口獲取訂單信息二、通過(guò)read_excel()函數(shù),獲取客戶信息三、通過(guò)read_html()函數(shù)獲取城市和產(chǎn)品數(shù)據(jù)通過(guò)接口獲取訂單信息在處理大規(guī)模訂單數(shù)據(jù)時(shí),利用公開的數(shù)據(jù)接口,能夠高效地從數(shù)萬(wàn)條訂單記錄中精準(zhǔn)檢索所需信息,提升數(shù)據(jù)處理的效率與準(zhǔn)確性。通過(guò)read_excel()函數(shù),獲取客戶信息可以借助AI助手,學(xué)習(xí)讀取本地excel文件。將“客戶數(shù)據(jù)表.xls”和對(duì)應(yīng)的ipynb代碼文件,存儲(chǔ)在同一目錄下,可以直接使用相對(duì)路徑,獲取客戶信息。通過(guò)read_html()函數(shù)獲取城市和產(chǎn)品數(shù)據(jù)read_html()函數(shù),能夠直接讀取網(wǎng)頁(yè)中標(biāo)簽為table的數(shù)據(jù),比如本例中的城市和產(chǎn)品表,可以采用通過(guò)read_html()函數(shù)獲取。結(jié)果列表里,包含了產(chǎn)品和城市的數(shù)據(jù)。通過(guò)列表索引,可以獲取需要的數(shù)據(jù)。通過(guò)read_html()函數(shù)獲取城市和產(chǎn)品數(shù)據(jù)限于篇幅,僅進(jìn)行部分?jǐn)?shù)據(jù)展示,df_list[0]為獲取的第一張表,對(duì)應(yīng)產(chǎn)品數(shù)據(jù)。通過(guò)read_html()函數(shù)獲取城市和產(chǎn)品數(shù)據(jù)df_list[1]為獲取的第2張表,對(duì)應(yīng)城市的DataFrame數(shù)據(jù)。謝謝項(xiàng)目四搭建Python數(shù)據(jù)分析基礎(chǔ)任務(wù)二數(shù)據(jù)清洗CONTENTS識(shí)別重復(fù)值、缺失值和異常值01處理重復(fù)值02處理缺失值03處理異常值04目錄PARTONE識(shí)別重復(fù)值缺失值和異常值識(shí)別重復(fù)值缺失值和異常值識(shí)別重復(fù)值缺失值和異常值寫入函數(shù)to_excel()和讀取函數(shù)read_excel()的參數(shù)設(shè)置比較類似。to_excel()函數(shù)寫入單個(gè)工作表的常用參數(shù)如表所示。識(shí)別重復(fù)值缺失值和異常值生成的“訂單數(shù)據(jù).xlsx”文件如表所示。訂單數(shù)據(jù)樣本顯示存在典型數(shù)據(jù)質(zhì)量問題:訂單號(hào)100007688重復(fù)出現(xiàn)(重復(fù)值),0007691和100006685缺失城市ID和銷售渠道信息(缺失值),100006686的產(chǎn)品單價(jià)為負(fù)值(異常值)。實(shí)際業(yè)務(wù)中,由于數(shù)據(jù)量龐大,通常直接通過(guò)編程進(jìn)行自動(dòng)化數(shù)據(jù)清洗,配合人工查驗(yàn),無(wú)需將數(shù)據(jù)導(dǎo)出。PARTTWO處理重復(fù)值處理重復(fù)值在具體業(yè)務(wù)場(chǎng)景中,由于數(shù)據(jù)量巨大,往往很難用人工查驗(yàn)發(fā)現(xiàn)重復(fù)值。所以,一般采用drop_duplicates()批量去重。PARTTHREE處理缺失值處理缺失值在數(shù)據(jù)預(yù)處理中,處理缺失值是確保數(shù)據(jù)質(zhì)量的關(guān)鍵。常見方法包括補(bǔ)全和刪除。補(bǔ)全方法包括使用臨近值、平均值、中位數(shù)或眾數(shù)等,這些方法可以減少數(shù)據(jù)丟失,但可能引入偏差。刪除方法則直接移除包含缺失值的行或列,適用于缺失值較少的情況,但可能導(dǎo)致數(shù)據(jù)量顯著減少。選擇合適的方法應(yīng)基于數(shù)據(jù)實(shí)際情況和業(yè)務(wù)分析目標(biāo)。可以發(fā)現(xiàn),有兩條訂單數(shù)據(jù),城市ID和銷售渠道,使用dropna()函數(shù),刪除缺失值。處理缺失值執(zhí)行dropna()函數(shù)后,再去觀察訂單數(shù)據(jù)df_order的缺失值情況,可以發(fā)現(xiàn),原本的兩條含有缺失值的訂單數(shù)據(jù)已經(jīng)刪除。PARTFOUR處理異常值處理異常值在數(shù)據(jù)預(yù)處理階段,識(shí)別和處理異常值對(duì)于確保數(shù)據(jù)質(zhì)量和分析結(jié)果的可靠性至關(guān)重要。異常值是指那些顯著偏離其他數(shù)據(jù)點(diǎn)的值,它們可能是由于測(cè)量錯(cuò)誤、數(shù)據(jù)錄入錯(cuò)誤或?qū)嶋H的極端情況引起的。處理異常值的方法包括刪除、修正或保留,具體選擇取決于異常值的成因和分析目標(biāo)。刪除異常值適用于那些明顯由錯(cuò)誤產(chǎn)生的數(shù)據(jù)點(diǎn),而修正異常值則可以通過(guò)替換為更合理的值(如中位數(shù)或均值)來(lái)實(shí)現(xiàn)。在某些情況下,如果異常值具有實(shí)際意義,也可以選擇保留。這些方法的選擇應(yīng)基于對(duì)數(shù)據(jù)的深入理解和分析需求。處理異常值本例判定異常值,主要查看數(shù)據(jù)是否符合邏輯。如單價(jià)或者成本的值小于等于0,不符合常規(guī)邏輯,被視作異常值。接下來(lái),使用dropna()函數(shù),刪除異常值。第一行代碼篩選出產(chǎn)品單價(jià)大于0,并且產(chǎn)品單件成本大于0的數(shù)據(jù),也就意味著刪除了異常的數(shù)據(jù),第二行代碼是重新查看異常值的情況,可以發(fā)現(xiàn)異常值已經(jīng)刪除。謝謝項(xiàng)目四搭建Python數(shù)據(jù)分析基礎(chǔ)任務(wù)三數(shù)據(jù)存儲(chǔ)與格式轉(zhuǎn)換CONTENTS數(shù)據(jù)存儲(chǔ)格式介紹01數(shù)據(jù)格式的轉(zhuǎn)換02目錄PARTONE數(shù)據(jù)存儲(chǔ)格式介紹一、CSV(Comma-SeparatedValues)二、Excel三、JSON(JavaScriptObjectNotation)CSV(Comma-Separated
Values)CSV文件特點(diǎn)1.簡(jiǎn)單易用:以逗號(hào)分隔字段,每行一條記錄,結(jié)構(gòu)清晰,易于閱讀和編輯。2.廣泛兼容:支持幾乎所有編程語(yǔ)言和數(shù)據(jù)處理工具,如Excel、Python等。3.輕量高效:作為簡(jiǎn)單文本格式,適合存儲(chǔ)和處理小型數(shù)據(jù)集,占用資源少。CSV(Comma-Separated
Values)CSV文件在財(cái)務(wù)領(lǐng)域的應(yīng)用:1.數(shù)據(jù)存儲(chǔ):常用于存儲(chǔ)銀行交易記錄和銷售數(shù)據(jù)等小型數(shù)據(jù)集。2.數(shù)據(jù)交換:適用于不同系統(tǒng)間的數(shù)據(jù)傳輸,如銀行與用戶系統(tǒng)之間的數(shù)據(jù)交互。3.數(shù)據(jù)分析:方便用戶在Excel等工具中導(dǎo)入和分析數(shù)據(jù),便于生成報(bào)表和進(jìn)行數(shù)據(jù)可視化。ExcelExcel文件特點(diǎn):1.格式多樣:支持豐富數(shù)據(jù)格式,可靈活調(diào)整單元格和字體。2.計(jì)算便捷:內(nèi)置強(qiáng)大公式功能,快速完成復(fù)雜數(shù)據(jù)計(jì)算。3.管理高效:多工作表設(shè)計(jì),便于分類存儲(chǔ)和管理不同數(shù)據(jù)。ExcelExcel文件在財(cái)務(wù)領(lǐng)域的應(yīng)用1.報(bào)表存儲(chǔ):廣泛用于存儲(chǔ)財(cái)務(wù)報(bào)表和預(yù)算數(shù)據(jù)等信息。2.模型構(gòu)建:財(cái)務(wù)分析師可創(chuàng)建動(dòng)態(tài)模型,進(jìn)行敏感性分析。3.分析決策:方便繪制圖表和進(jìn)行簡(jiǎn)單分析,助力財(cái)務(wù)決策。JSON(JavaScriptObjectNotation)JSON文件特點(diǎn)1.輕量高效:作為輕量級(jí)數(shù)據(jù)交換格式,文件體積小,傳輸速度快。2.結(jié)構(gòu)清晰:以鍵值對(duì)形式存儲(chǔ)數(shù)據(jù),支持嵌套結(jié)構(gòu),層次分明。3.易讀易寫:格式簡(jiǎn)潔,易于人類閱讀和編寫,也便于機(jī)器解析。JSON(JavaScriptObjectNotation)JSON文件在財(cái)務(wù)領(lǐng)域的應(yīng)用1.數(shù)據(jù)傳輸:常用于Web應(yīng)用前后端數(shù)據(jù)交互,如財(cái)務(wù)系統(tǒng)與前端界面。2.配置管理:用于存儲(chǔ)配置文件,方便系統(tǒng)參數(shù)調(diào)整和維護(hù)。3.系統(tǒng)集成:支持API數(shù)據(jù)交換,便于不同財(cái)務(wù)系統(tǒng)間集成與協(xié)同。PARTTWO數(shù)據(jù)格式的轉(zhuǎn)換數(shù)據(jù)格式的轉(zhuǎn)換了解各種數(shù)據(jù)存儲(chǔ)格式的特點(diǎn)和適用場(chǎng)景后,財(cái)務(wù)人員工作中常需轉(zhuǎn)換與保存數(shù)據(jù)。例如,將銀行CSV交易記錄轉(zhuǎn)為Excel以便深入分析和可視化,或財(cái)務(wù)系統(tǒng)將內(nèi)部數(shù)據(jù)以JSON輸出以與外部系統(tǒng)交換。這種靈活性可優(yōu)化數(shù)據(jù)管理流程,提高效率。數(shù)據(jù)格式轉(zhuǎn)換需注意:確保數(shù)據(jù)完整不丟失,處理中文注意編碼防亂碼,保證轉(zhuǎn)換后數(shù)據(jù)類型與原始一致。掌握這些方法可提升財(cái)務(wù)數(shù)據(jù)流轉(zhuǎn)效率。謝謝項(xiàng)目四搭建Python數(shù)據(jù)分析基礎(chǔ)任務(wù)四數(shù)據(jù)處理CONTENTS數(shù)據(jù)排序01數(shù)據(jù)篩選02數(shù)據(jù)連接03數(shù)據(jù)切片04目錄PARTONE數(shù)據(jù)排序
數(shù)據(jù)排序sort_values()是排序函數(shù),參數(shù)by表示排序字段,參數(shù)ascending表示排序方式,當(dāng)ascending值為True,表明從小到大排序;為False時(shí),表明從大到小排序。PARTTWO數(shù)據(jù)篩選數(shù)據(jù)篩選pandas中同樣具有Excel的數(shù)據(jù)篩選功能。本業(yè)務(wù)要獲得銷售渠道為線上購(gòu)物平臺(tái)的數(shù)據(jù),首先可以通過(guò)列索引,查看當(dāng)前的銷售渠道數(shù)據(jù)。數(shù)據(jù)篩選根據(jù)df_order['銷售渠道']獲取的結(jié)果,判斷是否屬于“線上購(gòu)物平臺(tái)”,得到一組布爾值組成的數(shù)據(jù)。接下來(lái),利用布爾索引,篩選出銷售渠道為線上購(gòu)物平臺(tái)的數(shù)據(jù)。PARTTHREE數(shù)據(jù)連接
數(shù)據(jù)連接現(xiàn)有客戶、城市和產(chǎn)品以ID形式存在。需將這些數(shù)據(jù)與其他表格連接以獲取完整信息。在pandas中可用merge()函數(shù)實(shí)現(xiàn)。以左連接為例,可獲取完整數(shù)據(jù)。數(shù)據(jù)連接
數(shù)據(jù)連接merge()函數(shù)操作的DataFrame對(duì)象只能有2個(gè)。參數(shù)on表示連接字段,如“客戶ID”相同的數(shù)據(jù)才能連接。參數(shù)how表示連接方式。左連接會(huì)保留左邊表格的數(shù)據(jù),右邊未匹配的數(shù)據(jù)為NaN。常用參數(shù)見下表。數(shù)據(jù)連接數(shù)據(jù)連接同理,使用左連接,獲取完整的城市數(shù)據(jù)。這里由于df_city表中缺乏與df匹配的城市ID,所以“城市”列數(shù)據(jù)多為NaN。同理,繼續(xù)完成產(chǎn)品數(shù)據(jù)的連接。
數(shù)據(jù)連接以上通過(guò)merge()函數(shù),將訂單數(shù)據(jù)df_order、客戶數(shù)據(jù)df_customer、城市數(shù)據(jù)df_city,產(chǎn)品數(shù)據(jù)df_product進(jìn)行連接后,發(fā)現(xiàn)缺失數(shù)據(jù)。通過(guò)數(shù)據(jù)清洗對(duì)缺失值進(jìn)行處理,將顯示為NaN的數(shù)據(jù)刪除。數(shù)據(jù)連接PARTFOUR數(shù)據(jù)切片數(shù)據(jù)切片iloc特點(diǎn)1、條件篩選
:布爾索引依據(jù)條件判斷,實(shí)現(xiàn)復(fù)雜查詢的數(shù)據(jù)篩選。2、精準(zhǔn)定位
:在財(cái)務(wù)數(shù)據(jù)分析時(shí),可依條件精準(zhǔn)定位異常數(shù)據(jù)。3、功能強(qiáng)大
:支持多條件組合篩選,滿足不同場(chǎng)景的復(fù)雜需求。布爾索引特點(diǎn)loc特點(diǎn)1、標(biāo)簽定位
:loc通過(guò)行列標(biāo)簽篩選數(shù)據(jù),適合已知名稱的情況。2、靈活便捷
:在財(cái)務(wù)數(shù)據(jù)中,可依科目或日期標(biāo)簽精準(zhǔn)定位所需數(shù)據(jù)。3、易讀性強(qiáng)
:使用標(biāo)簽篩選,使代碼可讀性好,方便理解和維護(hù)。1、位置選擇
:iloc基于位置篩選,按行列索引數(shù)字選取數(shù)據(jù)。2、高效準(zhǔn)確
:在財(cái)務(wù)報(bào)表固定結(jié)構(gòu)中,可依位置快速準(zhǔn)確獲取數(shù)據(jù)。3、代碼簡(jiǎn)潔
:通過(guò)數(shù)字索引篩選,代碼簡(jiǎn)潔,提高編寫效率。
數(shù)據(jù)切片
數(shù)據(jù)切片1、科目查詢
:用loc依科目名稱篩選財(cái)務(wù)數(shù)據(jù),快速獲取特定科目信息。2、日期提取
:按日期標(biāo)簽定位財(cái)務(wù)記錄,方便分析不同時(shí)期財(cái)務(wù)狀況。3、報(bào)表整合
:依標(biāo)簽整合不同財(cái)務(wù)報(bào)表數(shù)據(jù),提高報(bào)表編制效率。loc在財(cái)務(wù)領(lǐng)域應(yīng)用
數(shù)據(jù)切片1、單元格獲?。阂牢恢眠x取財(cái)務(wù)報(bào)表單元格,高效提取關(guān)鍵數(shù)據(jù)。2、批量處理:按位置批量處理財(cái)務(wù)數(shù)據(jù),如計(jì)算連續(xù)多行財(cái)務(wù)指標(biāo)。3、固定結(jié)構(gòu)操作:針對(duì)固定格式財(cái)務(wù)報(bào)表,iloc操作穩(wěn)定可靠。iloc在財(cái)務(wù)領(lǐng)域應(yīng)用
數(shù)據(jù)切片布爾索引在財(cái)務(wù)領(lǐng)域應(yīng)用1、異常檢測(cè):依條件篩選異常財(cái)務(wù)數(shù)據(jù),如支出超預(yù)算的記錄。2、風(fēng)險(xiǎn)評(píng)估:篩選高風(fēng)險(xiǎn)財(cái)務(wù)指標(biāo)數(shù)據(jù),輔助企業(yè)風(fēng)險(xiǎn)評(píng)估決策。3、趨勢(shì)分析:依時(shí)間序列篩選財(cái)務(wù)數(shù)據(jù),分析財(cái)務(wù)指標(biāo)變化趨勢(shì)。謝謝項(xiàng)目四搭建Python數(shù)據(jù)分析基礎(chǔ)任務(wù)五數(shù)據(jù)分析CONTENTS分組聚合01數(shù)據(jù)透視表02目錄PARTONE分組聚合
分組聚合分組聚合是數(shù)據(jù)分析關(guān)鍵操作,按特定鍵對(duì)數(shù)據(jù)集分組。對(duì)各分組用聚合函數(shù),如求和、求平均、求最大值。生成匯總統(tǒng)計(jì),簡(jiǎn)化大量數(shù)據(jù)為易分析摘要,方便理解。分組聚合
分組聚合通過(guò)df['訂單日期'].dt.strftime('%Y-%m'),將訂單日期轉(zhuǎn)化為年月形式,可以對(duì)通過(guò)聚合函數(shù)按月進(jìn)行訂單數(shù)據(jù)的統(tǒng)計(jì)。分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年建筑項(xiàng)目環(huán)境管理合同
- 燈具框架協(xié)議
- 2025年商業(yè)智能解決方案應(yīng)用可行性研究報(bào)告
- 2025年智能健康監(jiān)測(cè)系統(tǒng)研發(fā)項(xiàng)目可行性研究報(bào)告
- 2025年糧食倉(cāng)儲(chǔ)智能管理系統(tǒng)項(xiàng)目可行性研究報(bào)告
- 油煙大影響協(xié)議書
- 澆筑地面合同協(xié)議
- 線路檢修合同范本
- 燃?xì)赓I賣協(xié)議合同
- 2025年特高壓電網(wǎng)改造項(xiàng)目可行性研究報(bào)告
- 水電站大壩安全現(xiàn)場(chǎng)檢查技術(shù)規(guī)程 -DL-T 2204
- 國(guó)開學(xué)習(xí)網(wǎng)《園林樹木學(xué)》形考任務(wù)1234答案
- 膠質(zhì)瘤的圍手術(shù)期護(hù)理
- 數(shù)據(jù)庫(kù)應(yīng)用技術(shù)-004-國(guó)開機(jī)考復(fù)習(xí)資料
- 手衛(wèi)生執(zhí)行率PDCA案例實(shí)施分析
- 病理學(xué)考試練習(xí)題庫(kù)及答案
- 2025年新高考1卷(新課標(biāo)Ⅰ卷)語(yǔ)文試卷
- 2025-2030中國(guó)女鞋行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025至2030中國(guó)物理氣相沉積(PVD)設(shè)備行業(yè)行情監(jiān)測(cè)與發(fā)展動(dòng)向追蹤報(bào)告
- 2025年中國(guó)EP級(jí)蓖麻油行業(yè)市場(chǎng)前景預(yù)測(cè)及投資價(jià)值評(píng)估分析報(bào)告
- 散酒采購(gòu)合同協(xié)議
評(píng)論
0/150
提交評(píng)論