《Pyhton財(cái)務(wù)數(shù)據(jù)分析與可視化》課件 項(xiàng)目4 財(cái)務(wù)數(shù)據(jù)獲取與清洗_第1頁
《Pyhton財(cái)務(wù)數(shù)據(jù)分析與可視化》課件 項(xiàng)目4 財(cái)務(wù)數(shù)據(jù)獲取與清洗_第2頁
《Pyhton財(cái)務(wù)數(shù)據(jù)分析與可視化》課件 項(xiàng)目4 財(cái)務(wù)數(shù)據(jù)獲取與清洗_第3頁
《Pyhton財(cái)務(wù)數(shù)據(jù)分析與可視化》課件 項(xiàng)目4 財(cái)務(wù)數(shù)據(jù)獲取與清洗_第4頁
《Pyhton財(cái)務(wù)數(shù)據(jù)分析與可視化》課件 項(xiàng)目4 財(cái)務(wù)數(shù)據(jù)獲取與清洗_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目4財(cái)務(wù)數(shù)據(jù)獲取與清洗目錄認(rèn)識財(cái)務(wù)大數(shù)據(jù)從文件中獲取數(shù)據(jù)通過數(shù)據(jù)接口獲取數(shù)據(jù)財(cái)務(wù)數(shù)據(jù)清洗工具方法理論認(rèn)識財(cái)務(wù)大數(shù)據(jù)

大數(shù)據(jù)與財(cái)務(wù)數(shù)據(jù)大數(shù)據(jù)大數(shù)據(jù)(Bigdata),也稱巨量數(shù)據(jù),指的是其數(shù)據(jù)規(guī)模巨大到無法通過人工或常規(guī)工具在合理時間內(nèi)完成捕獲、管理和處理的數(shù)據(jù)集合。財(cái)務(wù)數(shù)據(jù)財(cái)務(wù)賬簿數(shù)據(jù)及報表數(shù)據(jù)企業(yè)的各項(xiàng)指標(biāo)分析數(shù)據(jù)認(rèn)識財(cái)務(wù)大數(shù)據(jù)

財(cái)務(wù)大數(shù)據(jù)來源數(shù)據(jù)分類數(shù)據(jù)來源網(wǎng)站及網(wǎng)址宏觀經(jīng)濟(jì)數(shù)據(jù)國家統(tǒng)計(jì)局中國經(jīng)濟(jì)信息網(wǎng)金融統(tǒng)計(jì)數(shù)據(jù)中國人民銀行財(cái)政數(shù)據(jù)財(cái)政部稅務(wù)政策國家稅務(wù)總局證券市場交易信息上市公司相關(guān)信息證券交易所官網(wǎng)上海證券交易所:w深圳證券交易所:www.szse.Cn北京證券交易所:w財(cái)經(jīng)網(wǎng)站新浪財(cái)經(jīng):網(wǎng)易財(cái)經(jīng):巨潮資訊:商業(yè)數(shù)據(jù)庫國泰安數(shù)據(jù)庫CSMRA、銳思數(shù)據(jù)庫RESSET萬得數(shù)據(jù)庫wind上市公司官網(wǎng)

數(shù)據(jù)服務(wù)公司Tushare證券寶Akshare從PDF文件中獲取財(cái)務(wù)數(shù)據(jù)認(rèn)識PDF文件PDF解釋器pdfplumerpipinstallpdfplumber導(dǎo)入PDF文件提取PDF文件中的表格數(shù)據(jù)從網(wǎng)頁上獲取財(cái)務(wù)數(shù)據(jù)從HTML文件中獲取數(shù)據(jù)pd.read_html(io,header=0,encoding)io:文件路徑,可以是URL鏈接。Header:指定列標(biāo)題所在的行。encoding:文件的編碼格式。常見的文件編碼格式有UTF-8/UTF-16/UTF-32、ASCII、GBK/GB2312/GB18030。從新浪財(cái)經(jīng)爬取瀘州老窖(000568)2023年利潤表的數(shù)據(jù)。確定目標(biāo)網(wǎng)站編寫代碼提取數(shù)據(jù)統(tǒng)計(jì)返回結(jié)果中表格的數(shù)量為表格標(biāo)上序號提取利潤表數(shù)據(jù)存儲數(shù)據(jù)從網(wǎng)頁上獲取財(cái)務(wù)數(shù)據(jù)從新浪財(cái)經(jīng)網(wǎng)站上爬取瀘州老窖(股票代碼:000568)2023年利潤表的數(shù)據(jù)。確定目標(biāo)網(wǎng)站“/corp/go.php/vFD_ProfitStatement/stockid/000568/ctrl/part/displaytype/4.phtml”編寫代碼從網(wǎng)頁上獲取財(cái)務(wù)數(shù)據(jù)從新浪財(cái)經(jīng)網(wǎng)站上爬取瀘州老窖(股票代碼:000568)2023年利潤表的數(shù)據(jù)。提取數(shù)據(jù)統(tǒng)計(jì)返回結(jié)果中表格的數(shù)量為表格標(biāo)上序號提取利潤表數(shù)據(jù)從網(wǎng)頁上獲取財(cái)務(wù)數(shù)據(jù)通過數(shù)據(jù)接口獲取數(shù)據(jù)認(rèn)識數(shù)據(jù)接口數(shù)據(jù)接口指獲取數(shù)據(jù)的規(guī)范和方法,它是由數(shù)據(jù)擁有者定義,目的是方便用戶順利地采集數(shù)據(jù)。常用財(cái)務(wù)數(shù)據(jù)接口序號公司網(wǎng)址可提供的數(shù)據(jù)1Tushare股票、基金、期貨、數(shù)字貨幣等行情數(shù)據(jù),公司財(cái)務(wù)、基金經(jīng)理等基本面數(shù)據(jù)2證券寶證券歷史行情數(shù)據(jù)、上市公司財(cái)務(wù)數(shù)據(jù)3AKsharewww.akshare.xyz基于Python的財(cái)經(jīng)數(shù)據(jù)接口庫,目的是實(shí)現(xiàn)對股票、期貨、期權(quán)、基金、外匯、債券、指數(shù)、加密貨幣等金融產(chǎn)品的基本面數(shù)據(jù)、實(shí)時和歷史行情數(shù)據(jù)、衍生數(shù)據(jù)從數(shù)據(jù)采集、數(shù)據(jù)清洗到數(shù)據(jù)落地的一套工具,主要用于學(xué)術(shù)研究目的。通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)安裝pipinstalltushare注冊tushare社區(qū)獲取TokenToken可以理解為是個人在tushare社區(qū)的身份證明通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare數(shù)據(jù)平臺通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)利用Tushare采集上市公司基本信息了解tushare上市公司基本信息數(shù)據(jù)接口通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)利用Tushare采集上市公司基本信息采集上市公司基本信息通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare財(cái)務(wù)數(shù)據(jù)采集數(shù)據(jù)接口1.查看利潤表數(shù)據(jù)接口詳細(xì)說明通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare財(cái)務(wù)數(shù)據(jù)采集數(shù)據(jù)接口2.找到接口使用說明和數(shù)據(jù)樣例通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare財(cái)務(wù)數(shù)據(jù)采集數(shù)據(jù)接口3.對照接口使用說明理解輸入?yún)?shù)的含義通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare財(cái)務(wù)數(shù)據(jù)采集數(shù)據(jù)接口4.對照數(shù)據(jù)樣例理解輸出參數(shù)的含義名稱類型必選描述total_revenuefloatY營業(yè)總收入oth_b_incomefloatY其他業(yè)務(wù)收入total_cogsfloatY營業(yè)總成本other_bus_costfloatY其他營業(yè)成本operate_profitfloatY營業(yè)利潤non_oper_incomefloatY加:營業(yè)外收入non_oper_expfloatY減:營業(yè)外支出total_profitfloatY利潤總額income_taxfloatY所得稅費(fèi)用n_incomefloatY凈利潤(含少數(shù)股東損益)n_income_attr_pfloatY凈利潤(不含少數(shù)股東損益)ebitfloatY息稅前利潤ebitdafloatY息稅折舊攤銷前利潤distable_profitfloatY可分配利潤通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare財(cái)務(wù)數(shù)據(jù)采集數(shù)據(jù)接口用income采集單只股票利潤表數(shù)據(jù)通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare財(cái)務(wù)數(shù)據(jù)采集數(shù)據(jù)接口通過指定輸出參數(shù)來獲取利潤表中指定的數(shù)據(jù)通過Tushare數(shù)據(jù)接口采集財(cái)務(wù)數(shù)據(jù)了解Tushare財(cái)務(wù)數(shù)據(jù)采集數(shù)據(jù)接口獲取某一期全部股票數(shù)據(jù)財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理

缺失值缺失值是指數(shù)據(jù)集中某些屬性的值不完整。缺失值表示為NaN,意為NotaNumber。如果是時間類型數(shù)據(jù)缺失,則顯示為NaT(NotaTime)。財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理

缺失值檢測isnull()和notnull()財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值檢測用info()函數(shù)查看數(shù)據(jù)集整體情況財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理刪除有缺失值的行或列dropna()財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理填充缺失值fillna()用固定值填充全表財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理填充缺失值fillna()用固定值填充指定列財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理填充缺失值fillna()用臨近值填充財(cái)務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理填充缺失值fillna()用均值填充財(cái)務(wù)數(shù)據(jù)清洗-重復(fù)值檢測及處理

重復(fù)值數(shù)據(jù)集中存在全部或部分屬性值相同的情況。重復(fù)值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論