【銀行營銷數(shù)據(jù)分類方法介紹4000字】_第1頁
【銀行營銷數(shù)據(jù)分類方法介紹4000字】_第2頁
【銀行營銷數(shù)據(jù)分類方法介紹4000字】_第3頁
【銀行營銷數(shù)據(jù)分類方法介紹4000字】_第4頁
【銀行營銷數(shù)據(jù)分類方法介紹4000字】_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

銀行營銷數(shù)據(jù)分類方法介紹綜述目錄TOC\o"1-3"\h\u32332銀行營銷數(shù)據(jù)分類方法介紹綜述 129951.1KNN 114333圖4-1k=3時(shí)的KNN算法圖解 283411.2邏輯回歸 37578圖4-2Sigmoid函數(shù)示意 3175531.3支持向量機(jī) 428232圖4-3SVM基本思想 5274521.4樸素貝葉斯 517475圖4-4樸素貝葉斯算法流程 6202151.5決策樹 77474圖4-5決策樹模型示例 762521.6隨機(jī)森林 887531.7提升方法 81.1KNNKNN(K-NearestNeighbors),也稱K最鄰近值算法。其基本思想為:當(dāng)對一個輸入向量Xn進(jìn)行預(yù)測時(shí),計(jì)算這個樣本與特征空間中的k個與向量Xn最鄰近的向量的集合,并把向量Xn的類別預(yù)測為這k個樣本中類別數(shù)最多的那一類。所以該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分類樣本的所屬類別。圖4-1是對k=3時(shí)KNN算法基本思想的圖解,其中圖4-1k=3時(shí)的KNN算法圖解KNN算法中僅有一個超參數(shù)k,k值的確定對KNN算法的預(yù)測結(jié)果起著至關(guān)重要的作用。如果k值較小,此時(shí)算法的近似誤差較小,但估計(jì)誤差會較大,預(yù)測結(jié)果對鄰近點(diǎn)會非常敏感,容易導(dǎo)致算法出現(xiàn)過擬合的情況;而如果k值較大,會使得距離較遠(yuǎn)的點(diǎn)也同樣對預(yù)測結(jié)果產(chǎn)生影響,容易導(dǎo)致算法出現(xiàn)欠擬合的情況。因此,在實(shí)際運(yùn)用過程中,往往采用交叉驗(yàn)證的方式選取k值。這個算法的關(guān)鍵在于樣本的所有特征都要做可比較的量化,且對樣本特征要做歸一化處理,利用一個可選擇的距離函數(shù)計(jì)算兩個樣本之間的距離。常用的距離函數(shù)有,曼哈頓距離(p=1)、歐氏距離(p=2)、切比雪夫距離(p→∞),其中的p是一個變參數(shù)。下面是距離函數(shù)dxy的計(jì)算公式:d當(dāng)KNN算法用于回歸預(yù)測時(shí),同樣對新加入的預(yù)測實(shí)例尋找它的k最鄰近,然后對這k個樣本的目標(biāo)值取均值,即得到新樣本的預(yù)測值y。1.2邏輯回歸邏輯回歸(LogisticRegression)屬于廣義線性回歸分析模型中的一種,它通過一系列連續(xù)型或類別型來預(yù)測多分類。尤其對于二分類型結(jié)果變量時(shí),邏輯回歸是十分有用的。通常,邏輯回歸會采用一個Sigmoid函數(shù),將函數(shù)值按照正負(fù)性分別將其映射為0和1,利用擬合曲線函數(shù)值來推斷出類標(biāo)號。圖4-2Sigmoid函數(shù)示意所以該模型的一個優(yōu)點(diǎn)在于其取值范圍為0,1,可視作待分類樣本屬于類的后驗(yàn)概率,即:p=p其中,z=gx=w0+w1x邏輯回歸在擬合曲線時(shí),除了利用Sigmoid函數(shù)計(jì)算最終的類標(biāo)號,同時(shí)也需要一個代價(jià)函數(shù),并需要對其求解最小值。通過前面的公式,容易得到,x條件下y不發(fā)生(y=0)的概率為1?p,故將事件發(fā)生與不發(fā)生的概率之比記為事件的機(jī)會比(odds),然后通過取對數(shù)將兩者聯(lián)系起來,即得到證據(jù)權(quán)重woe(WeightofEvidence):ln這個式子可用于衡量數(shù)據(jù)區(qū)間的信息含量差異:woe值越大,則代表該數(shù)據(jù)區(qū)間中因變量為1的比例越高。更進(jìn)一步,這里也可以使用一個聯(lián)合概率公式,對樣本標(biāo)號為y的后驗(yàn)概率進(jìn)行定義:p而其聯(lián)合概率i=1npyiX1.3支持向量機(jī)支持向量機(jī)(supportvectormachines,SVM)是一種二分類模型,是從模型識別中的廣義肖像算法發(fā)展而來的。其基本模型是定義在特征空間上的間隔最大的線性分類器,是一種黑盒算法,其思想即為間隔最大化。簡單來講,就是尋找最大化支持向量到分割超平面的距離,在此條件下求出分割超平面,并將其轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。將其在一個二元平面上做更直觀的解釋,可以得到圖4-3:圖4-3SVM基本思想SVM方法的理論基礎(chǔ)是非線性映射,通過利用內(nèi)積核函數(shù)來代替向高維空間的非線性映射,其中最常用的是徑向核函數(shù)(RBF)。由于支持向量是該模型的訓(xùn)練結(jié)果,在決策中起著關(guān)鍵作用,故這個模型需要的儲存空間較小,算法魯棒性強(qiáng)。而且SVM方法無任何前提假設(shè),不涉及概率密度,這也是它的顯著優(yōu)點(diǎn)。SVM模型使用范圍非常廣泛,無論是對線性可分?jǐn)?shù)據(jù)還是線性幾乎可分?jǐn)?shù)據(jù),都可以起到很好的分類效果。當(dāng)對于完全線性不可分的數(shù)據(jù),僅需將其投影到更高維的空間,利用超平面對其進(jìn)行分類,也可以達(dá)到不錯的分類效果。根據(jù)輸入數(shù)據(jù)類型的不同,可以做出不同的模型:若輸入標(biāo)簽為連續(xù)值,則可以用來解決回歸問題;若輸入標(biāo)簽為分類值,則可利用SVC解決分類問題。1.4樸素貝葉斯樸素貝葉斯是以貝葉斯定理為基礎(chǔ)的一種分類法。此方法假定在給定目標(biāo)值時(shí),屬性之間相互條件獨(dú)立。模型通過已給定的訓(xùn)練集,學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于已經(jīng)學(xué)習(xí)到的模型,輸入x后求出使得后驗(yàn)概率最大的輸出y。樸素貝葉斯的特點(diǎn)是對數(shù)據(jù)進(jìn)行分類時(shí)將先驗(yàn)概率和后驗(yàn)概率相結(jié)合,這樣做的好處是既避免了只使用先驗(yàn)概率的主觀偏見,也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。圖4-4是樸素貝葉斯算法的流程圖解:圖4-4樸素貝葉斯算法流程第一階段根據(jù)實(shí)際情況,確定特征屬性,并對其進(jìn)行適當(dāng)劃分,然后對其中一部分待分類項(xiàng)進(jìn)行分類,得到訓(xùn)練樣本集合。這一階段的輸入是所有等待進(jìn)行分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。第二階段的任務(wù)為對分類器進(jìn)行生成:首先計(jì)算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率,和每個特征屬性劃分對每個類別的條件概率估計(jì)。這里分類器的生成質(zhì)量,很大程度上都是由第一階段的特征屬性劃分即訓(xùn)練樣本質(zhì)量所決定的。第三階段使用分類器對待分類項(xiàng)進(jìn)行分類,從而得到待分類項(xiàng)與類別的映射關(guān)系。樸素貝葉斯算法在各個不同場景的應(yīng)用過程中,往往會根據(jù)需要處理的數(shù)據(jù)類型,選擇不同的算法:當(dāng)樣本特征的分布大部分是連續(xù)值時(shí),往往傾向于選擇使用GaussianNB算法;若樣本特征大部分是多元離散值,則MultinomialNB更加適合;而當(dāng)樣本特征是二元離散值或稀疏的多元離散值時(shí),應(yīng)該使用BernoulliNB算法。1.5決策樹決策樹(DecisionTree)算法是一種有監(jiān)督的分類方法,這種方法可以實(shí)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的探究以及新數(shù)據(jù)對象的分類預(yù)測。它根據(jù)給定的訓(xùn)練數(shù)據(jù)集構(gòu)造一個決策樹模型,使之能夠?qū)?shí)例進(jìn)行正確的分類。決策樹分類器呈樹形結(jié)構(gòu),包含一個根節(jié)點(diǎn)、若干個內(nèi)部節(jié)點(diǎn)和若干個葉節(jié)點(diǎn)。其中,每一個內(nèi)部節(jié)點(diǎn)表示一個屬性上的測試,即要素;每一個分支代表一個測試結(jié)果的輸出,即決策;最后每一個葉節(jié)點(diǎn)代表一種類別,即結(jié)果。圖4-5決策樹模型示例決策樹的建模,通常有三個步驟:特征選擇、決策樹的生成和決策樹的修剪。其中,決策樹的生成主要分兩步,節(jié)點(diǎn)的分裂和閾值的確定。節(jié)點(diǎn)的分裂表示,當(dāng)一個節(jié)點(diǎn)所代表屬性無法給出判斷時(shí),則選擇將這一節(jié)點(diǎn)分成兩個或多個子節(jié)點(diǎn)。而閾值的確定,則表示選擇最適當(dāng)?shù)拈撝凳沟梅诸愬e誤率達(dá)到盡可能的小。決策樹的生成算法有ID3、C1.5和CART等,其中CART的分類效果一般優(yōu)于其他決策樹。ID3算法是由熵增原理決定父節(jié)點(diǎn),對其進(jìn)行分裂。熵代表信息的期望值,熵越小說明分類效果越好。C1.5是在ID3的基礎(chǔ)上進(jìn)行改進(jìn),以優(yōu)化項(xiàng)除以當(dāng)分割太細(xì)時(shí)的代價(jià)作為信息增益率。信息增益越大,則表示使用該特征對數(shù)據(jù)集劃分所獲得的“純度提升”越大,當(dāng)分割太細(xì)時(shí),會使得信息增益率降低。而CART決策樹是通過GINI系數(shù)決定分裂的方式。當(dāng)總體內(nèi)包含的類別越雜亂時(shí),GINI系數(shù)則會越大。CART和ID3一樣,存在偏向細(xì)小分割,即過度擬合,故為了解決這一問題,往往還需進(jìn)行剪枝處理。1.6隨機(jī)森林隨機(jī)森林(RandomForest)是一種組成式的有監(jiān)督學(xué)習(xí)方法。它是一個由多棵決策樹組成的分類器,基本單元是決策樹,本質(zhì)則屬于集成學(xué)習(xí)方法。這是由于其輸出類別是由所有決策樹預(yù)測類別的眾數(shù)所決定。不難發(fā)現(xiàn),這與集成學(xué)習(xí)Bagging(BootstrapAGGregatING)的思想是相似的。Bagging是將訓(xùn)練集通過Bootstrap重抽樣產(chǎn)生若干個不同的訓(xùn)練集,并基于這些新的訓(xùn)練集上構(gòu)建多個基礎(chǔ)分類器。這些基礎(chǔ)分類器是獨(dú)立的,而在預(yù)測環(huán)節(jié)時(shí),會將這若干個模型結(jié)果進(jìn)行組合,從而得到最終的結(jié)果。其整合方式可以總結(jié)為:分類問題用服從大多數(shù)投票,回歸問題則采用求均值。隨機(jī)森林算法的實(shí)質(zhì),是對決策樹算法的一種改進(jìn)。單棵決策樹的分類能力可能會存在一些弱點(diǎn),但在經(jīng)過隨機(jī)產(chǎn)生大量決策樹的過程后,一個測試樣本可以通過每一棵樹的分類結(jié)果,綜合來選擇最可能正確的分類。下述為隨機(jī)森林算法的過程示意:(1)從樣本集中有放回隨機(jī)抽出n個樣本;(2)從所有特征中隨機(jī)選擇k個特征,利用這些特征對樣本建立決策樹;(3)重復(fù)以上步驟若干次,即生成若干棵決策樹,組合成隨機(jī)森林;(4)代入數(shù)據(jù)集,經(jīng)過每棵樹決策,最后投票確認(rèn)其最終分類。隨機(jī)森林的顯著優(yōu)點(diǎn)在于,由于模型最終結(jié)果是從每棵樹都選擇部分樣本和特征,故在一定程度上能夠避免過擬合,同時(shí)也使得模型具有很好的抗噪能力。其次,模型能夠處理高維度的數(shù)據(jù),不做特征選擇也適合進(jìn)行并行計(jì)算。1.7提升方法Boosting是一種常用的集成方法,它是由多個弱分類器集成,構(gòu)成一個新的強(qiáng)分類器。與Bagging不同的是,Boosting采用的是一種序貫的方法,使每一步生成的分類器依賴于之前的分類器,最后以加權(quán)的方式進(jìn)行投票,給予分類效果好的分類器更多的權(quán)重,使模型具有更優(yōu)的表現(xiàn)。AdaBoost是在每一輪構(gòu)造新的分類器時(shí),提高那些被前一輪弱分類器錯誤分類樣本的權(quán)值,降低那些被正確分類樣本的權(quán)值,然后再通過帶權(quán)重的訓(xùn)練樣本繼續(xù)對分類器進(jìn)行訓(xùn)練,從而達(dá)到一個提高分類效果的目的。它的分類器構(gòu)成通過加權(quán)多數(shù)表決,加大分類誤差率小的弱分類器的權(quán)值,使其在表決中其較大的作用;減小分類誤差率大的弱分類器的權(quán)值,使其在表決中起較小的作用,從而將若干個若分類器組合成一個強(qiáng)分類器。而XGBoost是由GBDT(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論