AI+Python財(cái)務(wù)應(yīng)用基礎(chǔ)課件項(xiàng)目5-AI+Python數(shù)據(jù)采集與清洗_第1頁(yè)
AI+Python財(cái)務(wù)應(yīng)用基礎(chǔ)課件項(xiàng)目5-AI+Python數(shù)據(jù)采集與清洗_第2頁(yè)
AI+Python財(cái)務(wù)應(yīng)用基礎(chǔ)課件項(xiàng)目5-AI+Python數(shù)據(jù)采集與清洗_第3頁(yè)
AI+Python財(cái)務(wù)應(yīng)用基礎(chǔ)課件項(xiàng)目5-AI+Python數(shù)據(jù)采集與清洗_第4頁(yè)
AI+Python財(cái)務(wù)應(yīng)用基礎(chǔ)課件項(xiàng)目5-AI+Python數(shù)據(jù)采集與清洗_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI+Python數(shù)據(jù)采集與清洗CONTENTS目錄01

課程學(xué)習(xí)目標(biāo)02

數(shù)據(jù)采集概述03

通過(guò)數(shù)據(jù)接口采集數(shù)據(jù)04

通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集數(shù)據(jù)05

數(shù)據(jù)清洗概述CONTENTS目錄06

缺失值處理07

重復(fù)值處理08

異常值處理09

AI+Python財(cái)務(wù)應(yīng)用拓展課程學(xué)習(xí)目標(biāo)01知識(shí)目標(biāo)數(shù)據(jù)接口獲取數(shù)據(jù)方法

掌握利用數(shù)據(jù)接口獲取數(shù)據(jù)的操作方法,包括了解接口規(guī)則、使用示范代碼及通過(guò)循環(huán)獲取不同維度數(shù)據(jù),如證券寶query_growth_data()接口獲取上市公司季頻成長(zhǎng)能力數(shù)據(jù)。網(wǎng)絡(luò)爬蟲(chóng)概念與操作

了解網(wǎng)絡(luò)爬蟲(chóng)概念,即按規(guī)則自動(dòng)抓取網(wǎng)絡(luò)數(shù)據(jù)的程序或腳本,掌握其爬取數(shù)據(jù)的操作方法,包括基本原理、工作流程及靜態(tài)頁(yè)面爬取,如利用pd.read_html()函數(shù)爬取IMF數(shù)據(jù)。AI+Python業(yè)務(wù)邏輯理解

理解AI+Python進(jìn)行數(shù)據(jù)采集和清洗的業(yè)務(wù)邏輯,包括人機(jī)協(xié)同開(kāi)發(fā)模式(AI生成代碼模板、可視化工具檢查結(jié)果),以及數(shù)據(jù)采集質(zhì)量要求(真實(shí)性、準(zhǔn)確性等)和合規(guī)要點(diǎn)。能力目標(biāo)

外部數(shù)據(jù)采集能力能夠根據(jù)業(yè)務(wù)需求,通過(guò)“AI助手+Python編程”模式,利用數(shù)據(jù)接口(如證券寶、AKShare)、網(wǎng)絡(luò)爬蟲(chóng)等實(shí)現(xiàn)完整的外部數(shù)據(jù)采集,例如分步驟采集農(nóng)業(yè)企業(yè)或深圳證券交易所數(shù)據(jù)并以DataFrame格式輸出。

數(shù)據(jù)清洗加工能力能夠根據(jù)業(yè)務(wù)需求,通過(guò)“AI助手+Python編程”模式,對(duì)缺失值(刪除或填充)、重復(fù)值(檢測(cè)與刪除)、異常值(箱線圖法等識(shí)別與處理)進(jìn)行清洗和初步加工,提升數(shù)據(jù)質(zhì)量。素養(yǎng)目標(biāo)數(shù)字素養(yǎng)與隱私保護(hù)提升數(shù)字素養(yǎng),注重在數(shù)據(jù)采集與處理過(guò)程中保護(hù)數(shù)據(jù)隱私,嚴(yán)格遵守《中華人民共和國(guó)數(shù)據(jù)安全法》等法律法規(guī),尊重知識(shí)產(chǎn)權(quán),避免侵犯他人合法權(quán)益,培養(yǎng)社會(huì)公德和職業(yè)道德。創(chuàng)新與批判性思維通過(guò)修改和迭代數(shù)據(jù)采集與清洗程序,培養(yǎng)創(chuàng)新思維和批判性思維,能夠?qū)I生成的代碼及清洗結(jié)果進(jìn)行合理性檢查,應(yīng)對(duì)AI幻覺(jué)等問(wèn)題。合規(guī)審查與算法偏見(jiàn)防范建立AI數(shù)據(jù)采集的合規(guī)審查意識(shí),規(guī)范數(shù)據(jù)處理活動(dòng),履行數(shù)據(jù)安全保護(hù)義務(wù),同時(shí)防范算法偏見(jiàn)導(dǎo)致的數(shù)據(jù)失真,確保數(shù)據(jù)應(yīng)用的公正性和可靠性。人機(jī)協(xié)同辯證思維培養(yǎng)人機(jī)協(xié)同的辯證思維,平衡自動(dòng)化采集與人工驗(yàn)證的關(guān)系,認(rèn)識(shí)到AI技術(shù)提升效率的同時(shí),需結(jié)合人工判斷保障數(shù)據(jù)質(zhì)量與合規(guī)性,承擔(dān)社會(huì)責(zé)任。數(shù)據(jù)采集概述02數(shù)據(jù)采集的重要性數(shù)據(jù)生命周期的起點(diǎn)數(shù)據(jù)采集是數(shù)據(jù)生命周期的首要環(huán)節(jié),為后續(xù)的數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等提供基礎(chǔ)數(shù)據(jù)支撐,直接影響數(shù)據(jù)應(yīng)用的質(zhì)量和效果。驅(qū)動(dòng)多領(lǐng)域決策與發(fā)展在商業(yè)決策中,高質(zhì)量數(shù)據(jù)助力企業(yè)精準(zhǔn)把握市場(chǎng)動(dòng)態(tài);科學(xué)研究依賴數(shù)據(jù)推動(dòng)創(chuàng)新發(fā)現(xiàn);社會(huì)治理通過(guò)數(shù)據(jù)提升管理效率,數(shù)字經(jīng)濟(jì)時(shí)代對(duì)數(shù)據(jù)采集的需求日益迫切。數(shù)據(jù)質(zhì)量的關(guān)鍵保障采集過(guò)程需關(guān)注數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、完整性和時(shí)效性,同時(shí)嚴(yán)格遵守法律法規(guī),尊重知識(shí)產(chǎn)權(quán),避免侵犯他人合法權(quán)益,確保數(shù)據(jù)合規(guī)可用。數(shù)據(jù)采集的途徑

數(shù)據(jù)庫(kù)通過(guò)數(shù)據(jù)庫(kù)獲取數(shù)據(jù)需具備訪問(wèn)權(quán)限,基于數(shù)據(jù)安全考量,一般人員較難獲取權(quán)限,受限較多。

數(shù)據(jù)接口數(shù)據(jù)接口提供規(guī)范、完整的數(shù)據(jù),能減少后期處理工作。如證券寶提供季頻盈利能力、營(yíng)運(yùn)能力等多種接口,可通過(guò)調(diào)整參數(shù)獲取不同上市公司不同時(shí)期數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲(chóng)當(dāng)無(wú)數(shù)據(jù)庫(kù)訪問(wèn)權(quán)限和合適第三方接口時(shí),網(wǎng)絡(luò)爬蟲(chóng)是可行方式。它按規(guī)則自動(dòng)抓取網(wǎng)頁(yè)內(nèi)容,如投資者爬取財(cái)經(jīng)網(wǎng)站數(shù)據(jù)用于分析,高校就業(yè)辦爬取招聘數(shù)據(jù)指導(dǎo)就業(yè)。

本課程重點(diǎn)因數(shù)據(jù)庫(kù)訪問(wèn)權(quán)限受限,本課程重點(diǎn)講解數(shù)據(jù)接口和網(wǎng)絡(luò)爬蟲(chóng)兩種數(shù)據(jù)采集方法。通過(guò)數(shù)據(jù)接口采集數(shù)據(jù)03數(shù)據(jù)接口規(guī)則了解

證券寶核心數(shù)據(jù)接口功能證券寶提供季頻盈利能力(query_profit_data())、營(yíng)運(yùn)能力(query_operation_data())、成長(zhǎng)能力(query_growth_data())等接口,可查詢企業(yè)財(cái)務(wù)數(shù)據(jù),如凈資產(chǎn)同比增長(zhǎng)率、凈利潤(rùn)同比增長(zhǎng)率等關(guān)鍵指標(biāo)。

接口說(shuō)明與示范代碼獲取通過(guò)證券寶官網(wǎng)對(duì)應(yīng)接口鏈接(如“季頻成長(zhǎng)能力”),可查看接口參數(shù)描述、算法說(shuō)明及示范代碼。以query_growth_data()為例,參數(shù)包括股票代碼(code)、統(tǒng)計(jì)年份(year)、季度(quarter)等,算法明確各指標(biāo)計(jì)算公式。示范代碼運(yùn)行與分析代碼結(jié)構(gòu)與登錄系統(tǒng)代碼需先安裝baostock模塊(pipinstallbaostock),通過(guò)bs.login()登錄系統(tǒng),返回error_code和error_msg驗(yàn)證登錄狀態(tài)(示例輸出“l(fā)oginsuccess!”)。數(shù)據(jù)獲取與結(jié)果展示調(diào)用query_growth_data(code='sh.600519',year=2024,quarter=4)獲取貴州茅臺(tái)2024年Q4成長(zhǎng)數(shù)據(jù),通過(guò)循環(huán)append()存儲(chǔ)結(jié)果,用pandas.DataFrame格式化輸出,包含pubDate(發(fā)布日期)、YOYNI(凈利潤(rùn)同比增長(zhǎng)率)等字段。結(jié)果參數(shù)解析輸出結(jié)果中英文索引可,如“YOYEquity”表示凈資產(chǎn)同比增長(zhǎng)率,計(jì)算公式為(本期凈資產(chǎn)-上年同期凈資產(chǎn))/上年同期凈資產(chǎn)絕對(duì)值×100%。利用循環(huán)獲取多維度數(shù)據(jù)

01可變參數(shù)調(diào)整方法核心參數(shù)包括股票代碼(sh/sz+6位數(shù)字,如sh.601398)、年份(默認(rèn)當(dāng)年)、季度(1-4,默認(rèn)當(dāng)前季度),通過(guò)修改參數(shù)可定向采集目標(biāo)數(shù)據(jù)。

02嵌套循環(huán)實(shí)現(xiàn)批量采集使用for循環(huán)嵌套遍歷年份和季度,示例代碼獲取sh.600519在2022-2024年各季度成長(zhǎng)數(shù)據(jù),通過(guò)result_growth輸出多維度時(shí)間序列數(shù)據(jù),提升采集效率。

03多接口擴(kuò)展應(yīng)用更換接口方法(如query_operation_data())可采集營(yíng)運(yùn)能力數(shù)據(jù),保持代碼框架不變,僅需調(diào)整函數(shù)名及對(duì)應(yīng)參數(shù),實(shí)現(xiàn)財(cái)務(wù)數(shù)據(jù)的全方位獲取。AI工具輔助數(shù)據(jù)接口采集

AI提示詞設(shè)計(jì)要點(diǎn)提示詞需明確數(shù)據(jù)源(如AKShare)、目標(biāo)(農(nóng)業(yè)企業(yè)數(shù)據(jù)采集)、背景(鄉(xiāng)村振興)、輸出格式(DataFrame)及展示要求(代碼注釋+結(jié)果),示例:“利用AKShare接口,分步驟采集北大荒(600598)2025.7.1-9.30日線數(shù)據(jù),以DataFrame輸出并注釋”。

騰訊云AI代碼助手輸出示例AI生成代碼包含模塊導(dǎo)入(importakshareasak)、數(shù)據(jù)采集(ak.stock_zh_a_hist())、結(jié)果處理(daily_()),融入鄉(xiāng)村振興背景描述,并輸出數(shù)據(jù)基本信息及DataFrame格式結(jié)果,減少人工編碼工作量。AI工具輔助數(shù)據(jù)接口采集AI提升采集效率的優(yōu)勢(shì)AI可快速生成標(biāo)準(zhǔn)化代碼模板,自動(dòng)處理接口調(diào)用邏輯(如參數(shù)校驗(yàn)、數(shù)據(jù)格式化),用戶僅需微調(diào)參數(shù)即可適配不同場(chǎng)景,實(shí)現(xiàn)“自然語(yǔ)言指令→代碼→數(shù)據(jù)”的高效轉(zhuǎn)化。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集數(shù)據(jù)04網(wǎng)絡(luò)爬蟲(chóng)基本原理與工作流程網(wǎng)絡(luò)爬蟲(chóng)的定義與本質(zhì)網(wǎng)絡(luò)爬蟲(chóng)是按照一定規(guī)則自動(dòng)抓取網(wǎng)絡(luò)數(shù)據(jù)的程序或腳本,其本質(zhì)是自動(dòng)化技術(shù),可根據(jù)指定URL獲取網(wǎng)頁(yè)中的圖像、文字、視頻、音頻等信息,并保存到本地或數(shù)據(jù)庫(kù)??蛻舳伺c服務(wù)器交互原理客戶端向服務(wù)器發(fā)送訪問(wèn)請(qǐng)求,服務(wù)器驗(yàn)證請(qǐng)求有效性后發(fā)送響應(yīng)內(nèi)容,客戶端接收并展示內(nèi)容,此為網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)獲取的底層交互邏輯。網(wǎng)絡(luò)爬蟲(chóng)的一般工作流程網(wǎng)絡(luò)爬蟲(chóng)工作流程廣泛應(yīng)用于財(cái)經(jīng)數(shù)據(jù)爬取、招聘信息采集等場(chǎng)景,其流程主要包括發(fā)起請(qǐng)求、接收響應(yīng)、解析內(nèi)容、提取數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)等環(huán)節(jié)。靜態(tài)網(wǎng)頁(yè)數(shù)據(jù)爬取實(shí)例查看數(shù)據(jù)所在網(wǎng)頁(yè)登錄國(guó)際貨幣基金組織官網(wǎng),進(jìn)入世界經(jīng)濟(jì)數(shù)據(jù)庫(kù)詳情頁(yè)面,確定目標(biāo)數(shù)據(jù)所在位置及網(wǎng)頁(yè)類(lèi)型。分析網(wǎng)頁(yè)結(jié)構(gòu)與數(shù)據(jù)格式通過(guò)瀏覽器右鍵查看網(wǎng)頁(yè)源代碼,判斷該頁(yè)面為靜態(tài)頁(yè)面,數(shù)據(jù)呈表格樣式,適合使用read_html()函數(shù)進(jìn)行爬取。編寫(xiě)代碼獲取特定數(shù)據(jù)利用pd.read_html()函數(shù)讀取網(wǎng)頁(yè)表格數(shù)據(jù),通過(guò)篩選年份列(如['SubjectDescriptor','2024']),可獲取馬來(lái)西亞2024年國(guó)內(nèi)生產(chǎn)總值、一般政府收入和一般政府總支出等數(shù)據(jù)。多維度數(shù)據(jù)爬取方法

獲取連續(xù)年份數(shù)據(jù)構(gòu)建年份列表(如['SubjectDescriptor']+[str(year)foryearinrange(2020,2025)]),從爬取的表格數(shù)據(jù)中篩選出2020-2024年的連續(xù)數(shù)據(jù)。

獲取不連續(xù)年份數(shù)據(jù)指定所需不連續(xù)年份(如['SubjectDescriptor','2010','2015','2020']),直接從表格數(shù)據(jù)中提取對(duì)應(yīng)年份列,實(shí)現(xiàn)非連續(xù)年份數(shù)據(jù)的精準(zhǔn)獲取。

獲取多個(gè)國(guó)家數(shù)據(jù)修改URL中國(guó)家參數(shù)(如'c=548,112'代表馬來(lái)西亞和英國(guó)),結(jié)合年份篩選(如2020-2024年),可同時(shí)獲取多個(gè)國(guó)家在指定年份的目標(biāo)數(shù)據(jù)。AI工具輔助網(wǎng)絡(luò)爬蟲(chóng)采集

01AI提示詞設(shè)計(jì)向騰訊云AI代碼助手輸入提示詞:“利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),分步驟完成深圳證券交易所數(shù)據(jù)的采集,以DataFrame格式輸出數(shù)據(jù)采集結(jié)果,并對(duì)代碼注釋和輸出結(jié)果進(jìn)行詳細(xì)展示?!?/p>

02AI生成代碼解析AI輸出代碼包含導(dǎo)入requests、pandas等庫(kù),設(shè)置請(qǐng)求URL、參數(shù)(如日期范圍)及headers,發(fā)送請(qǐng)求、解析JSON數(shù)據(jù)、處理異常等步驟,并對(duì)“今日融資買(mǎi)入額”“今日融券余額”等列進(jìn)行重命名。

03數(shù)據(jù)采集結(jié)果展示運(yùn)行AI生成的代碼,可獲取深圳證券交易所融資融券數(shù)據(jù),最終以DataFrame格式輸出,包含“今日融資買(mǎi)入額”“今日融資融券余額”等關(guān)鍵指標(biāo),便于后續(xù)分析使用。數(shù)據(jù)清洗概述05數(shù)據(jù)清洗的意義

原始數(shù)據(jù)常見(jiàn)問(wèn)題通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等方式采集到的數(shù)據(jù),常存在缺失值(如NaN表示的不完整屬性值)、重復(fù)值(多由系統(tǒng)錯(cuò)誤或重復(fù)錄入導(dǎo)致)、異常值(偏離數(shù)據(jù)正常范圍的值)等問(wèn)題,影響數(shù)據(jù)質(zhì)量。

數(shù)據(jù)清洗的核心價(jià)值數(shù)據(jù)清洗是將“臟數(shù)據(jù)”轉(zhuǎn)化為“干凈數(shù)據(jù)”的關(guān)鍵步驟,能有效提升數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、完整性和一致性,為后續(xù)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等工作提供可靠的數(shù)據(jù)基礎(chǔ),保證分析結(jié)果的準(zhǔn)確性和可信度。數(shù)據(jù)基本信息了解工具

數(shù)據(jù)預(yù)覽工具:head()與tail()head()函數(shù)可查看數(shù)據(jù)的前幾行(默認(rèn)前5行),tail()函數(shù)可查看數(shù)據(jù)的后幾行(默認(rèn)后5行),幫助快速了解數(shù)據(jù)的整體結(jié)構(gòu)、列名及數(shù)據(jù)格式。

數(shù)據(jù)量統(tǒng)計(jì)工具:count()count()函數(shù)用于統(tǒng)計(jì)每列非缺失值的數(shù)量,通過(guò)對(duì)比不同列的count值,可初步判斷數(shù)據(jù)是否存在缺失值,為缺失值處理提供依據(jù)。

數(shù)據(jù)分布描述工具:describe()describe()函數(shù)可生成數(shù)據(jù)的基本統(tǒng)計(jì)量,包括計(jì)數(shù)、均值、標(biāo)準(zhǔn)差、最小值、最大值及四分位數(shù)等,幫助了解數(shù)據(jù)的集中趨勢(shì)、離散程度和分布范圍,為異常值檢測(cè)提供參考。缺失值處理06缺失值查找方法01基礎(chǔ)判斷函數(shù):isnull()與notnull()isnull()函數(shù)用于檢測(cè)數(shù)據(jù)是否為缺失值(NaN),返回布爾值(True表示缺失);notnull()函數(shù)則判斷是否為非缺失值(False表示缺失),二者為互補(bǔ)關(guān)系。02統(tǒng)計(jì)每列缺失值數(shù)量通過(guò)df.isnull().sum()可快速計(jì)算各列缺失值總數(shù),直觀呈現(xiàn)數(shù)據(jù)缺失分布。例如某利潤(rùn)表數(shù)據(jù)中,"凈利潤(rùn)"列缺失值數(shù)量為1,其他列無(wú)缺失。03全局缺失值判斷使用df.isnull().any().any()可判斷數(shù)據(jù)集中是否存在缺失值,返回True則表示存在至少一個(gè)缺失值,便于快速篩查數(shù)據(jù)質(zhì)量。04缺失值位置定位通過(guò)df.isnull()生成布爾矩陣,True對(duì)應(yīng)位置即為缺失值所在行和列,結(jié)合iloc[]可精確定位具體缺失數(shù)據(jù),輔助分析缺失原因。缺失值處理方式-刪除

適用場(chǎng)景1:缺失值極少當(dāng)缺失值占比極低(如數(shù)萬(wàn)行數(shù)據(jù)中僅1行缺失),對(duì)整體分析影響可忽略時(shí),直接刪除所在行。

適用場(chǎng)景2:缺失量過(guò)大若某特征列缺失值占比超90%(如"行業(yè)分類(lèi)"列95%為空),該列已無(wú)分析價(jià)值,可刪除整列以簡(jiǎn)化數(shù)據(jù)集,避免無(wú)效計(jì)算。

適用場(chǎng)景3:無(wú)法填充的缺失值對(duì)于不可隨意推斷的屬性(如人口普查中"性別"列缺失),因填充可能引入偏差,需刪除對(duì)應(yīng)行以保證數(shù)據(jù)真實(shí)性。

刪除操作實(shí)現(xiàn):dropna()方法默認(rèn)df.dropna(axis=0)刪除含缺失值的行,df.dropna(axis=1)刪除含缺失值的列。例如df_cleaned=df.dropna()可刪除缺失數(shù)據(jù)。缺失值處理方式-填充

手動(dòng)填充:指定值替換根據(jù)業(yè)務(wù)規(guī)則直接填充固定值,如用0填充"補(bǔ)貼收入"列的缺失值(df.fillna(0)),適用于明確缺失原因?yàn)?無(wú)該項(xiàng)數(shù)據(jù)"的場(chǎng)景。

臨近填充:前向與后向填充前向填充(df.fillna(method='ffill'))用相鄰前一個(gè)非缺失值填充,后向填充(df.fillna(method='bfill'))用相鄰后一個(gè)非缺失值填充,適用于時(shí)間序列數(shù)據(jù)(如月度銷(xiāo)售額)的零散缺失。

統(tǒng)計(jì)量填充:均值/中位數(shù)填充對(duì)數(shù)值型數(shù)據(jù),可用列平均值(df.mean())或中位數(shù)(df.median())填充,避免數(shù)據(jù)分布偏移。重復(fù)值處理07重復(fù)值檢測(cè)方法完全重復(fù)行檢測(cè)完全重復(fù)行指所有列數(shù)據(jù)均相同的記錄,可通過(guò)df.duplicated()函數(shù)直接檢測(cè),返回布爾值表示是否重復(fù),sum()可統(tǒng)計(jì)重復(fù)行數(shù)。指定字段重復(fù)檢測(cè):以發(fā)票號(hào)為例針對(duì)關(guān)鍵標(biāo)識(shí)字段(如發(fā)票號(hào)),使用df.duplicated(subset=['發(fā)票號(hào)'],keep=False)檢測(cè)重復(fù),keep=False標(biāo)記所有重復(fù)項(xiàng)。業(yè)務(wù)特征組合重復(fù)檢測(cè)結(jié)合業(yè)務(wù)場(chǎng)景,通過(guò)多字段組合(如日期+交易類(lèi)型+部門(mén))檢測(cè)潛在重復(fù),使用df.duplicated(subset=['日期','交易類(lèi)型','部門(mén)'],keep=False)實(shí)現(xiàn)。重復(fù)值處理方法刪除完全重復(fù)行使用df.drop_duplicates()直接刪除所有完全重復(fù)的行,默認(rèn)保留第一條記錄,適用于無(wú)業(yè)務(wù)意義的完全重復(fù)數(shù)據(jù)。按關(guān)鍵字段保留指定記錄針對(duì)指定字段(如發(fā)票號(hào)),通過(guò)subset參數(shù)控制保留規(guī)則:keep='first'保留第一條記錄,keep='last'保留最后一條。重復(fù)記錄標(biāo)記與人工核驗(yàn)使用df[df.duplicated(subset=['發(fā)票號(hào)'],keep=False)]篩選并標(biāo)記所有重復(fù)記錄,便于人工核查區(qū)分合理重復(fù)(如同業(yè)務(wù)多批次)與錯(cuò)誤重復(fù),需要業(yè)務(wù)人員進(jìn)一步校驗(yàn)處理。異常值處理08異常值識(shí)別方法

異常值的概念與影響異常值指偏離數(shù)據(jù)正常范圍的值,非錯(cuò)誤值但出現(xiàn)概率低,會(huì)顯著扭曲數(shù)據(jù)分析結(jié)果,尤其對(duì)數(shù)值型數(shù)據(jù)預(yù)測(cè)分析產(chǎn)生誤導(dǎo)。

箱線圖法識(shí)別步驟1.計(jì)算四分位數(shù):下四分位數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論