金融數(shù)據(jù)挖掘_第1頁(yè)
金融數(shù)據(jù)挖掘_第2頁(yè)
金融數(shù)據(jù)挖掘_第3頁(yè)
金融數(shù)據(jù)挖掘_第4頁(yè)
金融數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、金融數(shù)據(jù)挖掘第1頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 第一章:概論 一、何為數(shù)據(jù)挖掘(data mining) 現(xiàn)代信息社會(huì)的特征:信息(數(shù)據(jù))泛濫、知識(shí)缺乏,如何從海量數(shù)據(jù)(廣義的概念)中挖掘出決策有用信息? 數(shù)據(jù)挖掘是結(jié)合現(xiàn)代數(shù)學(xué)、統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)庫(kù)管理、計(jì)算機(jī)圖形學(xué)、軟件工程等各領(lǐng)域的技術(shù)和知識(shí),1990年代在西方國(guó)家出現(xiàn)的一種高新技術(shù)從海量數(shù)據(jù)中挖掘出決策有用信息的技術(shù)。 1990年代末,在對(duì)100名美國(guó)著名科學(xué)家的問(wèn)卷調(diào)查中,數(shù)據(jù)挖掘被列為21世紀(jì)對(duì)人類發(fā)展影響最大、最有前途的10大技術(shù)的第三位。 第2頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)

2、35分,星期三 我國(guó)對(duì)數(shù)據(jù)挖掘技術(shù)的重視(開(kāi)發(fā)與應(yīng)用) 1、863、963項(xiàng)目; 2、國(guó)家及省重點(diǎn)科學(xué)領(lǐng)域; 3、國(guó)家統(tǒng)計(jì)局在全國(guó)組織數(shù)據(jù)挖掘培訓(xùn)(2000); 4、企業(yè)特別是銀行對(duì)數(shù)據(jù)挖掘技術(shù)的重視; 5、人民大學(xué)數(shù)據(jù)挖掘研究與應(yīng)用中心。 海量數(shù)據(jù)沙漠,隱含的知識(shí)金子, 數(shù)據(jù)挖掘從沙漠中挖掘金子的技術(shù)。第3頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 二、不同學(xué)科對(duì)數(shù)據(jù)挖掘技術(shù)的研究與開(kāi)發(fā) 1、理論研究各種數(shù)據(jù)挖掘技術(shù)的理論基礎(chǔ)、理論依據(jù)研究,從數(shù)學(xué)、統(tǒng)計(jì)學(xué)、人工智能、計(jì)算機(jī)圖形學(xué)等不同領(lǐng)域; 2、挖掘技術(shù)研究,從統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)、軟件工程等領(lǐng)域; 3、

3、數(shù)據(jù)管理策略研究,從數(shù)據(jù)庫(kù)管理技術(shù)等領(lǐng)域; 4、數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究,其中數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用是一個(gè)重要方面。第4頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三三、幾種相對(duì)比較成熟的數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘是一門新興的、正在不斷發(fā)展中的技術(shù),近年來(lái),幾類十分重要、且相對(duì)比較成熟的數(shù)據(jù)挖掘技術(shù)是: 1、分類與預(yù)測(cè) 2、特征化、比較與關(guān)聯(lián)規(guī)則挖掘 3、聚類分析 4、序列發(fā)現(xiàn) 本課程主要內(nèi)容:幾類數(shù)據(jù)挖掘技術(shù)的基本原理、數(shù)據(jù)挖掘方法、及這些挖掘技術(shù)在金融領(lǐng)域的應(yīng)用。第5頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 第二章:分類與預(yù)測(cè) 一、分類與預(yù)測(cè)的概念 1、分類

4、已知離散的、有限的幾個(gè)類,判斷或預(yù)測(cè)樣本屬于那個(gè)類。 * 某人否具有某種疾病 * 上市公司是否會(huì)陷入財(cái)務(wù)困境、是否會(huì)被外資并購(gòu) * 借款人是否會(huì)違約 * 這個(gè)客戶是否為銀行的潛在優(yōu)質(zhì)客戶、是否會(huì)轉(zhuǎn)向其他銀行 用y表示類變量,y取離散的幾個(gè)值,分類就是判斷或預(yù)測(cè)樣本的y究竟取什么值第6頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 2、預(yù)測(cè) 預(yù)測(cè)是指對(duì)連續(xù)性變量的取值進(jìn)行預(yù)測(cè),如: * 某個(gè)借款人的違約概率是多少 * 銀行資產(chǎn)組合明天在99%置信度下的最大損失(VaR)有 多大 * 如果某開(kāi)放式基金因面臨巨額贖回申請(qǐng)而不得不大量拋售某種證券,這種證券的價(jià)格會(huì)下跌多少 分類對(duì)離散型變量

5、進(jìn)行預(yù)測(cè) 預(yù)測(cè)對(duì)連續(xù)型變量進(jìn)行預(yù)測(cè) 第7頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 二、分類案例教學(xué) 上市公司財(cái)務(wù)困境預(yù)測(cè)模型構(gòu)建 1、要求: 將因財(cái)務(wù)狀況異常而被特別處理的ST公司界定為財(cái)務(wù)困境公司、非ST公司界定為財(cái)務(wù)正常公司,利用上市公司的財(cái)務(wù)報(bào)表數(shù)據(jù),建立上市公司財(cái)務(wù)困境預(yù)測(cè)模型(提前一年預(yù)測(cè),即用第t-2年的數(shù)據(jù)預(yù)測(cè)企業(yè)在第t年是否會(huì)陷入財(cái)務(wù)困境)。 分類變量y的取值 y=0 如果公司為財(cái)務(wù)困境公司 y=1 如果公司為財(cái)務(wù)正常公司 第8頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 2、類似案例: * 外資并購(gòu)目標(biāo)公司預(yù)測(cè) * 防信用卡詐騙預(yù)警系統(tǒng) * 銀

6、行客戶關(guān)系管理 * 稅務(wù)稽核 3、數(shù)據(jù)來(lái)源:CSMAR數(shù)據(jù)庫(kù) 1990-2004 資產(chǎn)負(fù)債表、損益表, 1990-1997 財(cái)務(wù)狀況變動(dòng)表 1998-2004 現(xiàn)金流量表 4、報(bào)表變動(dòng)情況: 1994年合并會(huì)計(jì)報(bào)表 1998年資產(chǎn)減值準(zhǔn)備 第9頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 5、研究所需數(shù)據(jù) 、預(yù)測(cè)變量選取實(shí)踐經(jīng)驗(yàn)、其他文獻(xiàn)使用的預(yù)測(cè)變量、采用技術(shù)手段(統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù))選取預(yù)測(cè)變量、在一定理論指導(dǎo)下構(gòu)造新的預(yù)測(cè)變量; 、樣本數(shù)據(jù)的結(jié)構(gòu)形式 、采集樣本數(shù)據(jù)時(shí)應(yīng)注意的問(wèn)題 * 盡量采用跨年度數(shù)據(jù) * 需要?jiǎng)h除的數(shù)據(jù) * 盡量不采用配對(duì)抽樣 、隨機(jī)構(gòu)造的訓(xùn)練樣本組

7、與檢驗(yàn)樣本組(過(guò)度擬合現(xiàn)象) 第10頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、本案例的數(shù)據(jù)說(shuō)明(sj0): * 1995年底前上市的公司; * 刪除其他原因被特別處理的公司; * 數(shù)據(jù)跨期1996-2001,分別預(yù)測(cè)1998-2003; * 刪除在預(yù)測(cè)年度已陷入財(cái)務(wù)困境的公司; * 共有非ST公司數(shù)據(jù)1008個(gè),ST公司數(shù)據(jù)111個(gè); * 采用的6個(gè)預(yù)測(cè)變量為(第一種方法): 總負(fù)債/總資產(chǎn)、主營(yíng)業(yè)務(wù)收入/總資產(chǎn)、總利潤(rùn)/總資產(chǎn)、(貨幣資金+短期投資凈額)/流動(dòng)資產(chǎn)、留存盈余/總資產(chǎn)、總資產(chǎn)的自然對(duì)數(shù)。 第11頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、隨

8、機(jī)抽樣構(gòu)造訓(xùn)練樣本組、檢驗(yàn)樣本組的SAS方法: * 將EXCEL數(shù)據(jù)庫(kù)轉(zhuǎn)為SAS數(shù)據(jù)庫(kù); * SAS隨機(jī)數(shù)函數(shù)uniform(seed),隨機(jī)種子數(shù)seed取奇數(shù),產(chǎn)生0,1區(qū)間上的一個(gè)隨機(jī)數(shù) * 隨機(jī)建立訓(xùn)練樣本組、檢驗(yàn)樣本組的SAS程序 # data a; set sasuser.sj0; k=uniform(15); run; # 對(duì)已進(jìn)行k排序的數(shù)據(jù)庫(kù)a data b; set a; m=int(_n_/2); run; (sj1,sj2) 第12頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 二、構(gòu)造分類預(yù)測(cè)模型的方法 1、判別分析法 、判別分析方法的統(tǒng)計(jì)學(xué)原理 假設(shè)有兩

9、個(gè)總體財(cái)務(wù)困境公司與財(cái)務(wù)正常公司,每個(gè)總體都可以用一個(gè)六維隨機(jī)變量 表示,不同的總體分布不同。預(yù)測(cè)上市公司是否會(huì)陷入財(cái)務(wù)困境,就是判斷這個(gè)公司所對(duì)應(yīng)的樣本屬于哪個(gè)總體。 判別分析是利用距離(相似程度的體現(xiàn))來(lái)判斷樣本的歸屬。較常用的距離度量是馬氏距離: ,判別分析實(shí)際上是利用距離差: 為判斷指標(biāo)來(lái)判斷樣本的歸屬。 由于馬氏距離為一個(gè)二次型,因此當(dāng) 時(shí),距離差也會(huì)一個(gè)二次型,這樣在計(jì)算時(shí)較復(fù)雜,如果 ,且兩個(gè)總體均服從正態(tài)分布,則距離差為一個(gè)線性函數(shù)(線性判別函數(shù)),可利用這個(gè)線性函數(shù)建立預(yù)測(cè)規(guī)則。第13頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三第14頁(yè),共29頁(yè),2022年,5

10、月20日,22點(diǎn)35分,星期三 、判別分析的SAS程序: proc discrim data=sasuser.sj1; class y; run; 、SAS結(jié)果 對(duì)兩個(gè)距離的說(shuō)明。現(xiàn)在可以得到線行判別函數(shù)為:第15頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、如何建立預(yù)測(cè)規(guī)則 * 指標(biāo)的判斷:正指標(biāo)還是負(fù)指標(biāo)(正指標(biāo))。 * 根據(jù)兩種誤判的損失估計(jì)確定合適的臨界值 現(xiàn)在根據(jù)使兩種誤判盡可能接近的方法,得到: 臨界值:d = 1.2 、預(yù)測(cè)規(guī)則: 對(duì)每個(gè)上市公司計(jì)算對(duì)應(yīng)的d,若d1.2,則判斷其一年后不會(huì)陷入財(cái)務(wù)困境;若d1.2,則判斷其一年后會(huì)陷入財(cái)務(wù)困境。 、預(yù)測(cè)準(zhǔn)確率檢驗(yàn):

11、 訓(xùn)練樣本組 檢驗(yàn)樣本組 ST公司:49/56=87.5% 47/55 = 85.4% 非ST公司: 442/504=87.7% 432/504 = 85.7%第16頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、討論 * 判別分析只能運(yùn)用于離散型因變量預(yù)測(cè),而不能運(yùn)用于連續(xù)型因變量預(yù)測(cè); * 建立線性判別準(zhǔn)則,需要較強(qiáng)的限制條件正態(tài)分布與等協(xié)方差矩陣; * 臨界值的確定需考慮不同誤判的損失函數(shù),考慮使用者的風(fēng)險(xiǎn)偏好; * 使用判別分析方法,需要事先確定預(yù)測(cè)變量。 * 也可以建立另外形式的預(yù)測(cè)規(guī)則。 練習(xí):交換sj1與sj2的地位,建立預(yù)測(cè)規(guī)則,并進(jìn)行預(yù)測(cè)準(zhǔn)確率檢驗(yàn)。或建立其他問(wèn)

12、題的判別分析預(yù)測(cè)模型。第17頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 2、Logistic回歸預(yù)測(cè) 、統(tǒng)計(jì)學(xué)原理 計(jì)量經(jīng)濟(jì)學(xué)中,回歸模型具有預(yù)測(cè)功能,但現(xiàn)在的數(shù)據(jù)結(jié)構(gòu)為: ,因變量為離散變量(虛擬變量),一般的線性回歸模型不適用。 Logistic回歸模型實(shí)際上是概率預(yù)測(cè)模型,其原理如下: 建立如下形式的線性模型: 則得到概率預(yù)測(cè)模型 第18頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 Logistic回歸模型為非線性模型,模型的參數(shù)估計(jì)不能用最小二乘法,而采用極大似然估計(jì)法。 、Logistic回歸的SAS程序 proc logistic descending

13、 data=sasuser.Sj1; model y = x1-x6; run; 、SAS結(jié)果 、臨界值確定與預(yù)測(cè)規(guī)則 臨界值:0.09,預(yù)測(cè)規(guī)則: P0.09,一年后上市公司將陷入財(cái)務(wù)困境;P0.09,一年后上市公司不會(huì)陷入財(cái)務(wù)困境. 第19頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、預(yù)測(cè)準(zhǔn)確率檢驗(yàn) 訓(xùn)練樣本組 檢驗(yàn)樣本組ST公司 46/56=82.1% 44/55=80% 非ST公司 433/504=85.9% 425/504=84.3% 、討論 * 模型可用于分類預(yù)測(cè),也可用于概率預(yù)測(cè)(如違約率預(yù)測(cè)); * 構(gòu)建模型時(shí)應(yīng)該避免非隨機(jī)抽樣,否則模型參數(shù)估計(jì)會(huì)產(chǎn)生偏差,特別

14、是在構(gòu)建概率預(yù)測(cè)模型時(shí); * 如果需要采用分層抽樣方法,則對(duì)參數(shù)估計(jì)方法應(yīng)進(jìn)行調(diào)整; * 事先確定預(yù)測(cè)變量,否則的話,可以采用逐步回歸法。 第20頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、逐步回歸方法與預(yù)測(cè)變量選取 預(yù)測(cè)變量選取是建立分類預(yù)測(cè)模型的關(guān)鍵步驟。經(jīng)常的情況是,知道預(yù)測(cè)變量的大致范圍,但不知哪些變量具有較大的信息含量。 利用逐步回歸方法,可以在這個(gè)范圍內(nèi)挑選出較佳的構(gòu)建Logistic回歸模型的預(yù)測(cè)變量組。 現(xiàn)在,另外選取了15個(gè)可能有用的預(yù)測(cè)指標(biāo)y1-y15,對(duì)1119家上市公司利用逐步回歸法建立預(yù)測(cè)模型。 、逐步回歸的SAS程序 proc logistic d

15、escending data=sasuser.sj00; model y=y1-y15 / selection=stepwise; run; 第21頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、SAS結(jié)果 構(gòu)建Logistic回歸模型的變量為: y3、y4、y5、y6、y10、y11、y12、y13、y14; 、預(yù)測(cè)規(guī)則與預(yù)測(cè)準(zhǔn)確率 預(yù)測(cè)規(guī)則: P0.09,一年后上市公司將陷入財(cái)務(wù)困境;P0.09,一年后上市公司不會(huì)陷入財(cái)務(wù)困境。 預(yù)測(cè)準(zhǔn)確率 ST公司: 92/111 = 82.9%; 非ST公司: 864/1008 = 85.71%. 第22頁(yè),共29頁(yè),2022年,5月20

16、日,22點(diǎn)35分,星期三3、Probir回歸預(yù)測(cè) 數(shù)據(jù)結(jié)構(gòu)為: ,因變量為離散變量(虛擬變量),一般的線性回歸模型不適用。 Probit建立如下形式的回歸模型: Probit回歸同樣通過(guò)最大似然估計(jì)來(lái)估計(jì)模型參數(shù)。 Probit回歸的SAS程序 proc probit data=sasuser.sj1; class y;(注意Logistic程序中沒(méi)有這一項(xiàng)) model y=x1-x6; run;第23頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 經(jīng)計(jì)算得到: 預(yù)測(cè)規(guī)則: P0.1一年后上市公司將陷入財(cái)務(wù)困境,或者就不會(huì)陷入財(cái)務(wù)困境。 預(yù)測(cè)準(zhǔn)確率: 訓(xùn)練樣本組 檢驗(yàn)樣本組 St

17、公司: 46/56=82.1 46/55=83.6 非St公司: 428/504=84.9 419/504=83.1第24頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 4、決策樹(shù)方法 與前面討論的幾種分類預(yù)測(cè)方法相比,決策樹(shù)方法是一種近年來(lái)才出現(xiàn)的分類預(yù)測(cè)方法,其基本原理如下。 、熵與信息增量的概念 熵為一個(gè)統(tǒng)計(jì)學(xué)概念,設(shè)y為一個(gè)狀態(tài)隨機(jī)變量,其熵的定義為: 在統(tǒng)計(jì)學(xué)中,熵是不確定性的度量,一個(gè)分類隨機(jī)變量的熵越小,其不確定性就越小,對(duì)其的預(yù)測(cè)就越準(zhǔn)確。從信息學(xué)的角度看,如果利用一個(gè)變量后,可以減少分類變量的熵,則該變量對(duì)分類預(yù)測(cè)就具有信息價(jià)值,熵的減少量越大,該指標(biāo)用于預(yù)測(cè)的信

18、息價(jià)值也就越大。 第25頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三、信息增量的概念 設(shè)x為某個(gè)指標(biāo),選取一個(gè) ,按照條件 是否滿足,可以將樣本分為兩組,分別計(jì)算各組中y的熵 ,指標(biāo)x的信息增量定義為: 其中, 分別表示兩組樣本所占的比重。顯然,這樣計(jì)算的信息增量與 的取法有關(guān),對(duì)每個(gè)指標(biāo),通過(guò)計(jì)算機(jī)搜索,可以找到一個(gè)最佳的 ,使其對(duì)應(yīng)的信息增量達(dá)到最大。 對(duì)每個(gè)指標(biāo),我們都可以計(jì)算其信息增量,這樣我們就知道哪個(gè)指標(biāo)對(duì)分類預(yù)測(cè)的信息含量最大。 第26頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三 、分類預(yù)測(cè)方法決策樹(shù)方法 利用信息增量的概念,數(shù)據(jù)挖掘中創(chuàng)造了一種分類預(yù)測(cè)的決策樹(shù)方法,其基本的思路是反復(fù)地利用信息增量方法進(jìn)行樣本分割,直到不能再分割、或者達(dá)到事先的約定為止。 然后沿著決策樹(shù)的樹(shù)系結(jié)構(gòu),我們就可以寫出決策樹(shù)方法的預(yù)測(cè)規(guī)則。 決策樹(shù)的預(yù)測(cè)規(guī)則由由一系列的預(yù)測(cè)結(jié)論組成。第27頁(yè),共29頁(yè),2022年,5月20日,22點(diǎn)35分,星期三、如何利用數(shù)據(jù)挖掘軟件建立決策數(shù)預(yù)測(cè)模型 * 建立發(fā)掘數(shù)據(jù)庫(kù) 將SAS數(shù)據(jù)庫(kù)轉(zhuǎn)化為Excel數(shù)據(jù)庫(kù); 對(duì)Excel數(shù)據(jù)庫(kù)的格式進(jìn)行變化(格式/單元格/數(shù)值),并 將Excel數(shù)據(jù)庫(kù)文件另存為帶格式文本文件; 將其拷貝入

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論