Python財務(wù)數(shù)據(jù)分析與可視化 課件 項目3、4 學習Pandas模塊、財務(wù)數(shù)據(jù)獲取與清洗_第1頁
Python財務(wù)數(shù)據(jù)分析與可視化 課件 項目3、4 學習Pandas模塊、財務(wù)數(shù)據(jù)獲取與清洗_第2頁
Python財務(wù)數(shù)據(jù)分析與可視化 課件 項目3、4 學習Pandas模塊、財務(wù)數(shù)據(jù)獲取與清洗_第3頁
Python財務(wù)數(shù)據(jù)分析與可視化 課件 項目3、4 學習Pandas模塊、財務(wù)數(shù)據(jù)獲取與清洗_第4頁
Python財務(wù)數(shù)據(jù)分析與可視化 課件 項目3、4 學習Pandas模塊、財務(wù)數(shù)據(jù)獲取與清洗_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目3學習Pandas模塊目錄了解模塊Series數(shù)據(jù)結(jié)構(gòu)DataFrame數(shù)據(jù)結(jié)構(gòu)Excel文件讀寫工具方法理論了解模塊認識模塊模塊也稱為庫。每個模塊都能實現(xiàn)某個方面特定的功能。Python模塊就是一個.py文件,其中可以包含多個函數(shù),還可以包含類、語句等。模塊的作用就是實現(xiàn)對函數(shù)的分類管理。模塊分類內(nèi)置模塊:Python自帶的模塊,可以直接導入并使用。自定義模塊:用戶自己編寫的模塊,以方便在編寫其他程序時調(diào)用,也可以上傳到第三方庫,供他人調(diào)用第三方模塊:Python的開源模塊模塊的安裝及導入模塊的安裝在交互模式下安裝:pipinstallpandas在JupyterNotebook中安裝:!pipinstallpandas模塊的導入使用import語句導入模塊import模塊名as別名使用from語句導入模塊:from模塊名import函數(shù)名from模塊名import函數(shù)名as別名認識Pandas模塊

Pandas模塊的主要功能Pandas是Python的核心數(shù)據(jù)分析支持庫數(shù)據(jù)獲取數(shù)據(jù)整理Pandas模塊安裝及導入Anaconda中自帶Pandas庫,無需另行安裝導入:importpandasaspdSeries數(shù)據(jù)結(jié)構(gòu)了解SeriesSeries是帶索引的一維數(shù)組位置索引和標簽索引創(chuàng)建Series如何創(chuàng)建pd.Series(data,index=[])通過列表創(chuàng)建Series創(chuàng)建Series如何創(chuàng)建pd.Series(data,index=[])通過字典創(chuàng)建Series字典的鍵作為索引index,字典的值作為數(shù)據(jù)data創(chuàng)建Series如何創(chuàng)建pd.Series(data,index=[])利用range()函數(shù)創(chuàng)建創(chuàng)建Seriesrange(start,stop,step)

初值

終值

步長訪問Series通過索引訪問Series訪問Series通過切片訪問Series按位置索引切片訪問Series中的多個元素時,含頭不含尾,即左閉右開。例如,訪問s3中索引值從0到1的元素,需要用print(s3[0:2])。按標簽索引切片訪問Series中的多個元素時,含頭又含尾。DataFrame數(shù)據(jù)結(jié)構(gòu)了解DataFrameDataFrame是帶標簽的、大小可變的二維數(shù)組DataFrame數(shù)據(jù)結(jié)構(gòu)了解DataFrame索引可以是位置索引,也可以是標簽索引,DataFrame中表現(xiàn)為loc(標簽索引)和iloc(數(shù)字索引、位置索引)兩個屬性。創(chuàng)建DataFrame1.以列表方式創(chuàng)建DataFrame自動生成索引0、1、2創(chuàng)建DataFrame1.以列表方式創(chuàng)建DataFrame指定索引創(chuàng)建DataFrame1.以列表方式創(chuàng)建DataFrame創(chuàng)建DataFrame2.以字典方式創(chuàng)建DataFrame

字典的鍵會作為列索引,列索引無需再單獨設(shè)置。如果沒有設(shè)置行索引,默認為從0開始的數(shù)字序列。訪問DataFrame屬性功能values查看所有元素的值dtypes查看所有元素的類型index查看所有行名、重命名行名columns查看所有列名、重命名列名T行列數(shù)據(jù)轉(zhuǎn)換head查看前N條數(shù)據(jù),默認前5條tail查看后N條數(shù)據(jù),默認后5條shape查看行數(shù)和列數(shù),shape[0]表示行,shape[1]表示列info查看索引、數(shù)據(jù)類型和內(nèi)存信息訪問DataFrame1.查看元素的值、類型、行名和列名訪問DataFrame2.查詢行數(shù)據(jù)(1)查詢單行數(shù)據(jù)訪問DataFrame2.查詢行數(shù)據(jù)(2)查看不連續(xù)的多行訪問DataFrame2.查詢行數(shù)據(jù)(3)查看連續(xù)的多行訪問DataFrame3.查詢列數(shù)據(jù)訪問DataFrame4.查詢指定數(shù)據(jù)訪問DataFrame5.查詢符合條件的數(shù)據(jù)(1)設(shè)置單一查詢條件訪問DataFrame5.查詢符合條件的數(shù)據(jù)(2)設(shè)置復合查詢條件訪問DataFrame6.表格轉(zhuǎn)置編輯DataFrame1.增加行數(shù)據(jù)增加單行數(shù)據(jù)編輯DataFrame1.增加行數(shù)據(jù)增加多行數(shù)據(jù)編輯DataFrame2.增加列數(shù)據(jù)在數(shù)據(jù)集末尾增加列編輯DataFrame2.增加列數(shù)據(jù)在指定位置插入列編輯DataFrame3.修改數(shù)據(jù)(1)利用loc屬性或iloc屬性修改某處數(shù)據(jù)編輯DataFrame3.修改數(shù)據(jù)(2)修改列標題編輯DataFrame4.刪除數(shù)據(jù)(1)利用drop刪除數(shù)據(jù)編輯DataFrame4.刪除數(shù)據(jù)(2)利用del刪除數(shù)據(jù)將數(shù)據(jù)文件上載到JupyterNotebookExcel文件讀寫Excel文件讀寫在數(shù)據(jù)文件所在的文件夾中打開JupyterNotebook1.打開“D:\python”文件夾2.在路徑框內(nèi)輸入“cmd”3.在命令提示符后輸入“jupyternotebook”從Excel文件中獲取數(shù)據(jù)導入Excel文件方法pd.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,converters=None)導入Excel文件實戰(zhàn)(1)讀取整個Excel文件從Excel文件中獲取數(shù)據(jù)導入Excel文件實戰(zhàn)(2)讀取Excel文件中指定的工作表(3)讀取工作表中指定的行從Excel文件中獲取數(shù)據(jù)導入Excel文件實戰(zhàn)(4)讀取工作表中指定的列Excel文件讀寫寫入單個工作表1.寫入全部數(shù)據(jù)2.寫入部分數(shù)據(jù)Excel文件讀寫寫入多個工作表

項目4財務(wù)數(shù)據(jù)獲取與清洗目錄認識財務(wù)大數(shù)據(jù)從文件中獲取數(shù)據(jù)通過數(shù)據(jù)接口獲取數(shù)據(jù)財務(wù)數(shù)據(jù)清洗工具方法理論認識財務(wù)大數(shù)據(jù)

大數(shù)據(jù)與財務(wù)數(shù)據(jù)大數(shù)據(jù)大數(shù)據(jù)(Bigdata),也稱巨量數(shù)據(jù),指的是其數(shù)據(jù)規(guī)模巨大到無法通過人工或常規(guī)工具在合理時間內(nèi)完成捕獲、管理和處理的數(shù)據(jù)集合。財務(wù)數(shù)據(jù)財務(wù)賬簿數(shù)據(jù)及報表數(shù)據(jù)企業(yè)的各項指標分析數(shù)據(jù)認識財務(wù)大數(shù)據(jù)

財務(wù)大數(shù)據(jù)來源數(shù)據(jù)分類數(shù)據(jù)來源網(wǎng)站及網(wǎng)址宏觀經(jīng)濟數(shù)據(jù)國家統(tǒng)計局中國經(jīng)濟信息網(wǎng)金融統(tǒng)計數(shù)據(jù)中國人民銀行財政數(shù)據(jù)財政部稅務(wù)政策國家稅務(wù)總局證券市場交易信息上市公司相關(guān)信息證券交易所官網(wǎng)上海證券交易所:w深圳證券交易所:www.szse.Cn北京證券交易所:w財經(jīng)網(wǎng)站新浪財經(jīng):網(wǎng)易財經(jīng):巨潮資訊:商業(yè)數(shù)據(jù)庫國泰安數(shù)據(jù)庫CSMRA、銳思數(shù)據(jù)庫RESSET萬得數(shù)據(jù)庫wind上市公司官網(wǎng)

數(shù)據(jù)服務(wù)公司Tushare證券寶Akshare從PDF文件中獲取財務(wù)數(shù)據(jù)認識PDF文件PDF解釋器pdfplumerpipinstallpdfplumber導入PDF文件提取PDF文件中的表格數(shù)據(jù)從網(wǎng)頁上獲取財務(wù)數(shù)據(jù)從HTML文件中獲取數(shù)據(jù)pd.read_html(io,header=0,encoding)io:文件路徑,可以是URL鏈接。Header:指定列標題所在的行。encoding:文件的編碼格式。常見的文件編碼格式有UTF-8/UTF-16/UTF-32、ASCII、GBK/GB2312/GB18030。從新浪財經(jīng)爬取瀘州老窖(000568)2023年利潤表的數(shù)據(jù)。確定目標網(wǎng)站編寫代碼提取數(shù)據(jù)統(tǒng)計返回結(jié)果中表格的數(shù)量為表格標上序號提取利潤表數(shù)據(jù)存儲數(shù)據(jù)從網(wǎng)頁上獲取財務(wù)數(shù)據(jù)從新浪財經(jīng)網(wǎng)站上爬取瀘州老窖(股票代碼:000568)2023年利潤表的數(shù)據(jù)。確定目標網(wǎng)站“/corp/go.php/vFD_ProfitStatement/stockid/000568/ctrl/part/displaytype/4.phtml”編寫代碼從網(wǎng)頁上獲取財務(wù)數(shù)據(jù)從新浪財經(jīng)網(wǎng)站上爬取瀘州老窖(股票代碼:000568)2023年利潤表的數(shù)據(jù)。提取數(shù)據(jù)統(tǒng)計返回結(jié)果中表格的數(shù)量為表格標上序號提取利潤表數(shù)據(jù)從網(wǎng)頁上獲取財務(wù)數(shù)據(jù)通過數(shù)據(jù)接口獲取數(shù)據(jù)認識數(shù)據(jù)接口數(shù)據(jù)接口指獲取數(shù)據(jù)的規(guī)范和方法,它是由數(shù)據(jù)擁有者定義,目的是方便用戶順利地采集數(shù)據(jù)。常用財務(wù)數(shù)據(jù)接口序號公司網(wǎng)址可提供的數(shù)據(jù)1Tushare股票、基金、期貨、數(shù)字貨幣等行情數(shù)據(jù),公司財務(wù)、基金經(jīng)理等基本面數(shù)據(jù)2證券寶證券歷史行情數(shù)據(jù)、上市公司財務(wù)數(shù)據(jù)3AKsharewww.akshare.xyz基于Python的財經(jīng)數(shù)據(jù)接口庫,目的是實現(xiàn)對股票、期貨、期權(quán)、基金、外匯、債券、指數(shù)、加密貨幣等金融產(chǎn)品的基本面數(shù)據(jù)、實時和歷史行情數(shù)據(jù)、衍生數(shù)據(jù)從數(shù)據(jù)采集、數(shù)據(jù)清洗到數(shù)據(jù)落地的一套工具,主要用于學術(shù)研究目的。通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)安裝pipinstalltushare注冊tushare社區(qū)獲取TokenToken可以理解為是個人在tushare社區(qū)的身份證明通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare數(shù)據(jù)平臺通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)利用Tushare采集上市公司基本信息了解tushare上市公司基本信息數(shù)據(jù)接口通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)利用Tushare采集上市公司基本信息采集上市公司基本信息通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare財務(wù)數(shù)據(jù)采集數(shù)據(jù)接口1.查看利潤表數(shù)據(jù)接口詳細說明通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare財務(wù)數(shù)據(jù)采集數(shù)據(jù)接口2.找到接口使用說明和數(shù)據(jù)樣例通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare財務(wù)數(shù)據(jù)采集數(shù)據(jù)接口3.對照接口使用說明理解輸入?yún)?shù)的含義通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare財務(wù)數(shù)據(jù)采集數(shù)據(jù)接口4.對照數(shù)據(jù)樣例理解輸出參數(shù)的含義名稱類型必選描述total_revenuefloatY營業(yè)總收入oth_b_incomefloatY其他業(yè)務(wù)收入total_cogsfloatY營業(yè)總成本other_bus_costfloatY其他營業(yè)成本operate_profitfloatY營業(yè)利潤non_oper_incomefloatY加:營業(yè)外收入non_oper_expfloatY減:營業(yè)外支出total_profitfloatY利潤總額income_taxfloatY所得稅費用n_incomefloatY凈利潤(含少數(shù)股東損益)n_income_attr_pfloatY凈利潤(不含少數(shù)股東損益)ebitfloatY息稅前利潤ebitdafloatY息稅折舊攤銷前利潤distable_profitfloatY可分配利潤通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare財務(wù)數(shù)據(jù)采集數(shù)據(jù)接口用income采集單只股票利潤表數(shù)據(jù)通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare財務(wù)數(shù)據(jù)采集數(shù)據(jù)接口通過指定輸出參數(shù)來獲取利潤表中指定的數(shù)據(jù)通過Tushare數(shù)據(jù)接口采集財務(wù)數(shù)據(jù)了解Tushare財務(wù)數(shù)據(jù)采集數(shù)據(jù)接口獲取某一期全部股票數(shù)據(jù)財務(wù)數(shù)據(jù)清洗-缺失值檢測及處理

缺失值缺失值是指數(shù)據(jù)集中某些屬性的值不完整。缺失值表示為NaN,意為NotaNumber。如果是時間類型數(shù)據(jù)缺失,則顯示為NaT(NotaTime)。財務(wù)數(shù)據(jù)清洗-缺失值檢測及處理

缺失值檢測isnull()和notnull()財務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值檢測用info()函數(shù)查看數(shù)據(jù)集整體情況財務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理刪除有缺失值的行或列dropna()財務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理填充缺失值fillna()用固定值填充全表財務(wù)數(shù)據(jù)清洗-缺失值檢測及處理缺失值處理填充缺失值fillna()用固定值填充指定列財務(wù)數(shù)據(jù)清洗-缺失值檢測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論