金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第1頁
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第2頁
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第3頁
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第4頁
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Python金融數(shù)據(jù)分析基礎(chǔ)數(shù)據(jù)包—PandasChapter04Pandas簡介Pandas(官網(wǎng):/)是Python的核心數(shù)據(jù)分析庫,其名稱來自于PanelDataAnalysis(面板數(shù)據(jù)分析)。Pandas提供了序列型Series和二維標簽數(shù)據(jù)DataFrame這兩種主要的數(shù)據(jù)結(jié)構(gòu)類型。這兩種類型都是基于NumPy數(shù)組擴展而來,因此Pandas天生具備NumPy的計算優(yōu)勢。Pandas簡介Pandas的強大體現(xiàn)在其豐富的二維數(shù)據(jù)操作支持,可以將Pandas類比為編程語言中的Excel。Pandas提供了數(shù)據(jù)存取、清洗和規(guī)范化、分組聚合、數(shù)據(jù)統(tǒng)計、重構(gòu)透視、可視化等一系列的功能支持。DataFrame基本操作其他IO操作DataFrame.to_csv(path_or_buf=None,sep=',',columns=None,header=True,index=True,encoding=None)path_or_buf設(shè)置包括文件名的文件路徑;sep指定文件的分隔符,默認為逗號;columns指定需要存儲的列;header設(shè)定是否將列名存為表頭;index設(shè)置是否存儲索引;encoding指定文件編碼格式,當文件中含有中文時建議顯式指定編碼格式(例如utf-8或GBK),讀取文件時用相同的編碼格式讀取。DataFrame數(shù)據(jù)操作(1)關(guān)于axis的理解。

軸代表數(shù)據(jù)的某一維度,例如DataFrame有兩個維度,有0和1兩個軸,其中0軸代表最高維度。

在DataFrame或二維數(shù)組中,axis=0代表跨行操作,axis=1代表跨列操作。(2)df[‘some_col’]返回的是Series,df[[‘some_col’]]返回的是DataFrame,根據(jù)需要選擇。(3)對列進行索引的標準形式是df[‘some_col’](方括號索引),簡化形式是df.some_col(屬性索引),兩者通常等價。Python金融數(shù)據(jù)分析基礎(chǔ)數(shù)據(jù)包—MatplotlibChapter04Matplotlib簡介Matplotlib(官網(wǎng):/)是一個Python的常用繪圖庫,其繪圖的操作風格非常類似于Matlab。通過Matplotlib可以快速地繪制折線圖、散點圖、柱狀圖、餅圖、直方圖、等高線圖、條形圖、極坐標圖、箱線圖、雷達圖、熱力圖等二維平面圖,還可以繪制三維圖形,甚至是圖形動畫等??偨Y(jié)Python金融數(shù)據(jù)分析基礎(chǔ)數(shù)據(jù)包—NumPyChapter04Python金融數(shù)據(jù)分析包在金融數(shù)據(jù)分析中,NumPy提供數(shù)據(jù)運算功能、Pandas提供數(shù)據(jù)分析功能、Matplotlib提供可視化功能,三者配合可以覆蓋分析流程中的絕大部分操作。Python金融數(shù)據(jù)分析包NumPy簡介NumPy中的基本對象是多維數(shù)組(ndarray)和矩陣(matrix),提供類似于Matlab的矩陣運算。用NumPy可以高效地進行包括數(shù)值、邏輯、排序、I/O、線性代數(shù)、統(tǒng)計、隨機模擬等運算。NumPy中的數(shù)組運算有類似于Matlab的向量化機制,因此其運算效率非常高。NumPy數(shù)組的基本操作有創(chuàng)建、訪問、修改、變形、復制、數(shù)組運算等。基本操作說明數(shù)組創(chuàng)建可分為用構(gòu)造函數(shù)直接創(chuàng)建和利用zeros()等特殊函數(shù)創(chuàng)建數(shù)組訪問訪問方式包括單下標索引、數(shù)組多下標索引、切片索引、條件索引等數(shù)組及元素修改可以對數(shù)組進行變形、復制等操作。元素修改在數(shù)組訪問的基礎(chǔ)上通過重新賦值進行數(shù)組運算包括標量和數(shù)組、數(shù)組和數(shù)組的逐點運算、函數(shù)對數(shù)組的逐點運算、數(shù)組和數(shù)組的廣播運算以及數(shù)組和數(shù)組的矩陣運算等矩陣運算針對matrix類型,有矩陣的加、減、乘、求逆等運算NumPy簡介課后作業(yè)網(wǎng)絡(luò)教學平臺Python金融數(shù)據(jù)分析金融數(shù)據(jù)獲取Chapter05金融數(shù)據(jù)獲取國家統(tǒng)計局TushareSuperMindKaggleTushare數(shù)據(jù)獲取流程注冊帳號,得到Token碼。查看注意事項、平臺接口說明。調(diào)用相應(yīng)接口獲取數(shù)據(jù)(DataFrame),有積分等級限制,但可以在本地運行。存儲數(shù)據(jù)。SuperMind數(shù)據(jù)獲取流程注冊帳號。查看幫助–API文檔–通用數(shù)據(jù)接口。調(diào)用相應(yīng)接口獲取數(shù)據(jù)(DataFrame),沒有積分等級限制,但只能在平臺環(huán)境中運行。操作或存儲數(shù)據(jù)。Python金融數(shù)據(jù)分析特征工程Chapter07特征工程特征工程(featureengineering)是對原始數(shù)據(jù)進行表示的過程,目的是通過一系列的特征操作使數(shù)據(jù)適合后續(xù)的建模分析,提高數(shù)據(jù)分析的效果和模型的預(yù)測精度。數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是在逼近這個上限。7.2特征與特征處理好的特征具有以下三個特點:可解釋性從業(yè)務(wù)邏輯的角度該特征與所分析的問題或者預(yù)測的信息相關(guān),并且從定性的角度很容易解釋該特征對預(yù)測結(jié)果的影響??色@得性良好的特征應(yīng)該使得絕大多數(shù)樣本都有數(shù)據(jù),缺失值越少越好。7.2特征與特征處理預(yù)測能力指從模型結(jié)果看,該特征對結(jié)果的預(yù)測精度有重要的影響,特征的預(yù)測能力越強越好。然而,預(yù)測能力和可解釋性有可能是矛盾的。金融數(shù)據(jù)常見的屬性種類類型說明例子操作數(shù)值型也稱為連續(xù)型股票價格、財務(wù)指標、信用額度、GDP等歸一化、標準化、函數(shù)變換、離散化、異常值處理、計算皮爾遜相關(guān)系數(shù)等無序類別型也稱為標稱性別、國籍、股票所屬行業(yè)等分箱、編碼、計算眾數(shù)、列聯(lián)相關(guān)系數(shù)、熵等有序類別型也稱為序數(shù)學歷、等級制成績、年齡段計算中值、百分位數(shù)、秩相關(guān)系數(shù)等日期時間型日期和時間2021-01-01、202101012021-01-0109:00:00格式轉(zhuǎn)換、計算時間差文本型文檔或字符串股票研報、電子郵件等分詞、關(guān)鍵詞提取等文本處理特征處理數(shù)據(jù)清洗一致性檢查重復值處理

重復行,相同數(shù)值列異常值處理異常值(outlier)也稱為極端值(簡稱極值)或離群點,指連續(xù)屬性中取值顯著不同于整體數(shù)據(jù)的數(shù)值。異常值對于均值計算的結(jié)果影響很大,也可能會極大影響模型的結(jié)果數(shù)據(jù)清洗異常值處理標準差法、中位數(shù)法、分位數(shù)法、箱線圖法缺失值處理樣本存在缺失值(missingvalue)是一種比較常見的現(xiàn)象,可以分為邏輯缺失和物理缺失。數(shù)據(jù)物理缺失的機制又可以分為完全隨機缺失、隨機缺失和非隨機缺失。特征變換不同的數(shù)值型屬性往往具備不同的量綱,實際中往往需要對數(shù)據(jù)進行規(guī)范化。類別屬性無法直接作為一些模型(例如回歸模型)的變量,在建模前需要進行編碼處理。此外,為了提高模型的性能,有時需要對連續(xù)屬性進行離散化,以及對離散屬性進行重新合并歸類,統(tǒng)稱為分箱(binning)處理。規(guī)范化

特征變換離散化屬性離散化(discretization)通常指通過在數(shù)據(jù)的分布范圍中加入切分點,將連續(xù)屬性轉(zhuǎn)化為有序類別型屬性的過程。另一種形式為合并類別屬性的一些取值,減少取值的種類。這兩種形式離散化的共同特點為減少了屬性的取值,相當于對屬性進行了模糊化處理。等距分箱、等頻分箱、數(shù)字特征分箱、聚類分箱特征變換編碼盡管某些模型(例如決策樹)可以直接處理類別屬性,但類別屬性通常無法直接用于大部分(例如回歸、支持向量機、主成分分析等)模型。無論類別屬性是原生的,還是經(jīng)過離散化后得到的,通常需要進一步的編碼(encoding)處理才能用于建模。序數(shù)編碼、啞變量編碼、One-hot編碼啞變量編碼示例行業(yè)銀行100軟件服務(wù)010酒店餐飲001醫(yī)療保健000編碼與模型One-hot編碼與啞變量編碼的區(qū)別在于有多少種取值就引入多少個虛擬變量,即多了一個虛擬變量。為避免多重共線性問題,如果回歸模型有截距項,則用啞變量編碼;如果沒有截距項,則用One-hot編碼。特殊函數(shù)變換

特征選擇特征選擇(featureselection)是特征工程中的核心問題,指的是從原始數(shù)據(jù)中選出好的特征、過濾掉不好的或者冗余特征的過程。特征選擇的目的是構(gòu)建更加精簡、準確、可解釋性強的模型,從而避免過擬合并提高模型的泛化能力。經(jīng)典的特征選擇方法可以分為三大類:過濾法、封裝法和嵌入法特征選擇——過濾法過濾法(filterapproach)用方差、相關(guān)性、互信息、卡方檢驗等指標過濾掉不達標的屬性。過濾法通常對應(yīng)的是單屬性分析,即每次只分析一個屬性自身或者對標記屬性的影響。方差法最簡單,但使用過程中需要特別注意一些細節(jié)。相關(guān)性過濾指通過計算屬性和標記屬性之間的相關(guān)系數(shù)(見6.2.2節(jié)),舍棄掉相關(guān)系數(shù)低于閾值的屬性。相關(guān)系數(shù)包括皮爾遜相關(guān)系數(shù)、秩相關(guān)系數(shù)、φ相關(guān)系數(shù)和V相關(guān)系數(shù)等。特征選擇——過濾法互信息(mutualinformation)是一種衡量隨機變量之間相互依賴程度的度量?;バ畔⑦^濾指通過計算屬性和標記屬性之間的互信息,并舍棄掉互信息值低于閾值的屬性?;バ畔⒌幕竞x為:已知一個隨機變量的信息后,給另一個隨機變量帶來的不確定性(即信息量)的減少量。

特征選擇——過濾法

特征選擇——過濾法

屬性X標記屬性Y1101111000特征選擇——過濾法卡方檢驗法的基本思想是假設(shè)屬性與標記屬性之間相互獨立,然后構(gòu)建卡方指標對假設(shè)進行檢驗。如果拒絕原假設(shè),則說明屬性是有意義的,這與6.2.2節(jié)中考察變量間的列聯(lián)相關(guān)系數(shù)的思想一致。方差分析法(ANOVA,analysisofvariance)適用于X為離散屬性,標記屬性Y為連續(xù)屬性的情形。將Y根據(jù)X的取值進行分組,然后用F檢驗考察Y的不同分組間的均值和方差是否有顯著差異。

特征選擇——過濾法

連續(xù)屬性離散屬性連續(xù)標記屬性離散標記屬性方差法√

√√皮爾遜相關(guān)系數(shù)√

V相關(guān)系數(shù)

√√√√√互信息法√√√√卡方檢驗法

√方差分析法

√√

特征選擇——封裝法封裝法(wrapperapproach)的基本思想是通過模型的最終效果指導特征的選擇。簡單來說,就是每次選取不同的特征子集構(gòu)建模型,比較各種模型在測試集上的性能。封裝法的難點在于如何搜索特征子集,通常采用的都是一些啟發(fā)式算法,例如遞歸特征消除法。封裝法以模型性能為導向,能夠保證特征選擇的效果。同時該方法與具體的模型獨立,是一個普遍適用的方法。封裝法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論