版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
銀行營銷數(shù)據(jù)分類方法介紹綜述目錄TOC\o"1-3"\h\u32332銀行營銷數(shù)據(jù)分類方法介紹綜述 129951.1KNN 114333圖4-1k=3時的KNN算法圖解 283411.2邏輯回歸 37578圖4-2Sigmoid函數(shù)示意 3175531.3支持向量機 428232圖4-3SVM基本思想 5274521.4樸素貝葉斯 517475圖4-4樸素貝葉斯算法流程 6202151.5決策樹 77474圖4-5決策樹模型示例 762521.6隨機森林 887531.7提升方法 81.1KNNKNN(K-NearestNeighbors),也稱K最鄰近值算法。其基本思想為:當對一個輸入向量Xn進行預測時,計算這個樣本與特征空間中的k個與向量Xn最鄰近的向量的集合,并把向量Xn的類別預測為這k個樣本中類別數(shù)最多的那一類。所以該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分類樣本的所屬類別。圖4-1是對k=3時KNN算法基本思想的圖解,其中圖4-1k=3時的KNN算法圖解KNN算法中僅有一個超參數(shù)k,k值的確定對KNN算法的預測結果起著至關重要的作用。如果k值較小,此時算法的近似誤差較小,但估計誤差會較大,預測結果對鄰近點會非常敏感,容易導致算法出現(xiàn)過擬合的情況;而如果k值較大,會使得距離較遠的點也同樣對預測結果產生影響,容易導致算法出現(xiàn)欠擬合的情況。因此,在實際運用過程中,往往采用交叉驗證的方式選取k值。這個算法的關鍵在于樣本的所有特征都要做可比較的量化,且對樣本特征要做歸一化處理,利用一個可選擇的距離函數(shù)計算兩個樣本之間的距離。常用的距離函數(shù)有,曼哈頓距離(p=1)、歐氏距離(p=2)、切比雪夫距離(p→∞),其中的p是一個變參數(shù)。下面是距離函數(shù)dxy的計算公式:d當KNN算法用于回歸預測時,同樣對新加入的預測實例尋找它的k最鄰近,然后對這k個樣本的目標值取均值,即得到新樣本的預測值y。1.2邏輯回歸邏輯回歸(LogisticRegression)屬于廣義線性回歸分析模型中的一種,它通過一系列連續(xù)型或類別型來預測多分類。尤其對于二分類型結果變量時,邏輯回歸是十分有用的。通常,邏輯回歸會采用一個Sigmoid函數(shù),將函數(shù)值按照正負性分別將其映射為0和1,利用擬合曲線函數(shù)值來推斷出類標號。圖4-2Sigmoid函數(shù)示意所以該模型的一個優(yōu)點在于其取值范圍為0,1,可視作待分類樣本屬于類的后驗概率,即:p=p其中,z=gx=w0+w1x邏輯回歸在擬合曲線時,除了利用Sigmoid函數(shù)計算最終的類標號,同時也需要一個代價函數(shù),并需要對其求解最小值。通過前面的公式,容易得到,x條件下y不發(fā)生(y=0)的概率為1?p,故將事件發(fā)生與不發(fā)生的概率之比記為事件的機會比(odds),然后通過取對數(shù)將兩者聯(lián)系起來,即得到證據(jù)權重woe(WeightofEvidence):ln這個式子可用于衡量數(shù)據(jù)區(qū)間的信息含量差異:woe值越大,則代表該數(shù)據(jù)區(qū)間中因變量為1的比例越高。更進一步,這里也可以使用一個聯(lián)合概率公式,對樣本標號為y的后驗概率進行定義:p而其聯(lián)合概率i=1npyiX1.3支持向量機支持向量機(supportvectormachines,SVM)是一種二分類模型,是從模型識別中的廣義肖像算法發(fā)展而來的。其基本模型是定義在特征空間上的間隔最大的線性分類器,是一種黑盒算法,其思想即為間隔最大化。簡單來講,就是尋找最大化支持向量到分割超平面的距離,在此條件下求出分割超平面,并將其轉化為一個凸二次規(guī)劃問題的求解。將其在一個二元平面上做更直觀的解釋,可以得到圖4-3:圖4-3SVM基本思想SVM方法的理論基礎是非線性映射,通過利用內積核函數(shù)來代替向高維空間的非線性映射,其中最常用的是徑向核函數(shù)(RBF)。由于支持向量是該模型的訓練結果,在決策中起著關鍵作用,故這個模型需要的儲存空間較小,算法魯棒性強。而且SVM方法無任何前提假設,不涉及概率密度,這也是它的顯著優(yōu)點。SVM模型使用范圍非常廣泛,無論是對線性可分數(shù)據(jù)還是線性幾乎可分數(shù)據(jù),都可以起到很好的分類效果。當對于完全線性不可分的數(shù)據(jù),僅需將其投影到更高維的空間,利用超平面對其進行分類,也可以達到不錯的分類效果。根據(jù)輸入數(shù)據(jù)類型的不同,可以做出不同的模型:若輸入標簽為連續(xù)值,則可以用來解決回歸問題;若輸入標簽為分類值,則可利用SVC解決分類問題。1.4樸素貝葉斯樸素貝葉斯是以貝葉斯定理為基礎的一種分類法。此方法假定在給定目標值時,屬性之間相互條件獨立。模型通過已給定的訓練集,學習從輸入到輸出的聯(lián)合概率分布,再基于已經學習到的模型,輸入x后求出使得后驗概率最大的輸出y。樸素貝葉斯的特點是對數(shù)據(jù)進行分類時將先驗概率和后驗概率相結合,這樣做的好處是既避免了只使用先驗概率的主觀偏見,也避免了單獨使用樣本信息的過擬合現(xiàn)象。圖4-4是樸素貝葉斯算法的流程圖解:圖4-4樸素貝葉斯算法流程第一階段根據(jù)實際情況,確定特征屬性,并對其進行適當劃分,然后對其中一部分待分類項進行分類,得到訓練樣本集合。這一階段的輸入是所有等待進行分類數(shù)據(jù),輸出是特征屬性和訓練樣本。第二階段的任務為對分類器進行生成:首先計算每個類別在訓練樣本中的出現(xiàn)頻率,和每個特征屬性劃分對每個類別的條件概率估計。這里分類器的生成質量,很大程度上都是由第一階段的特征屬性劃分即訓練樣本質量所決定的。第三階段使用分類器對待分類項進行分類,從而得到待分類項與類別的映射關系。樸素貝葉斯算法在各個不同場景的應用過程中,往往會根據(jù)需要處理的數(shù)據(jù)類型,選擇不同的算法:當樣本特征的分布大部分是連續(xù)值時,往往傾向于選擇使用GaussianNB算法;若樣本特征大部分是多元離散值,則MultinomialNB更加適合;而當樣本特征是二元離散值或稀疏的多元離散值時,應該使用BernoulliNB算法。1.5決策樹決策樹(DecisionTree)算法是一種有監(jiān)督的分類方法,這種方法可以實現(xiàn)數(shù)據(jù)內在規(guī)律的探究以及新數(shù)據(jù)對象的分類預測。它根據(jù)給定的訓練數(shù)據(jù)集構造一個決策樹模型,使之能夠對實例進行正確的分類。決策樹分類器呈樹形結構,包含一個根節(jié)點、若干個內部節(jié)點和若干個葉節(jié)點。其中,每一個內部節(jié)點表示一個屬性上的測試,即要素;每一個分支代表一個測試結果的輸出,即決策;最后每一個葉節(jié)點代表一種類別,即結果。圖4-5決策樹模型示例決策樹的建模,通常有三個步驟:特征選擇、決策樹的生成和決策樹的修剪。其中,決策樹的生成主要分兩步,節(jié)點的分裂和閾值的確定。節(jié)點的分裂表示,當一個節(jié)點所代表屬性無法給出判斷時,則選擇將這一節(jié)點分成兩個或多個子節(jié)點。而閾值的確定,則表示選擇最適當?shù)拈撝凳沟梅诸愬e誤率達到盡可能的小。決策樹的生成算法有ID3、C1.5和CART等,其中CART的分類效果一般優(yōu)于其他決策樹。ID3算法是由熵增原理決定父節(jié)點,對其進行分裂。熵代表信息的期望值,熵越小說明分類效果越好。C1.5是在ID3的基礎上進行改進,以優(yōu)化項除以當分割太細時的代價作為信息增益率。信息增益越大,則表示使用該特征對數(shù)據(jù)集劃分所獲得的“純度提升”越大,當分割太細時,會使得信息增益率降低。而CART決策樹是通過GINI系數(shù)決定分裂的方式。當總體內包含的類別越雜亂時,GINI系數(shù)則會越大。CART和ID3一樣,存在偏向細小分割,即過度擬合,故為了解決這一問題,往往還需進行剪枝處理。1.6隨機森林隨機森林(RandomForest)是一種組成式的有監(jiān)督學習方法。它是一個由多棵決策樹組成的分類器,基本單元是決策樹,本質則屬于集成學習方法。這是由于其輸出類別是由所有決策樹預測類別的眾數(shù)所決定。不難發(fā)現(xiàn),這與集成學習Bagging(BootstrapAGGregatING)的思想是相似的。Bagging是將訓練集通過Bootstrap重抽樣產生若干個不同的訓練集,并基于這些新的訓練集上構建多個基礎分類器。這些基礎分類器是獨立的,而在預測環(huán)節(jié)時,會將這若干個模型結果進行組合,從而得到最終的結果。其整合方式可以總結為:分類問題用服從大多數(shù)投票,回歸問題則采用求均值。隨機森林算法的實質,是對決策樹算法的一種改進。單棵決策樹的分類能力可能會存在一些弱點,但在經過隨機產生大量決策樹的過程后,一個測試樣本可以通過每一棵樹的分類結果,綜合來選擇最可能正確的分類。下述為隨機森林算法的過程示意:(1)從樣本集中有放回隨機抽出n個樣本;(2)從所有特征中隨機選擇k個特征,利用這些特征對樣本建立決策樹;(3)重復以上步驟若干次,即生成若干棵決策樹,組合成隨機森林;(4)代入數(shù)據(jù)集,經過每棵樹決策,最后投票確認其最終分類。隨機森林的顯著優(yōu)點在于,由于模型最終結果是從每棵樹都選擇部分樣本和特征,故在一定程度上能夠避免過擬合,同時也使得模型具有很好的抗噪能力。其次,模型能夠處理高維度的數(shù)據(jù),不做特征選擇也適合進行并行計算。1.7提升方法Boosting是一種常用的集成方法,它是由多個弱分類器集成,構成一個新的強分類器。與Bagging不同的是,Boosting采用的是一種序貫的方法,使每一步生成的分類器依賴于之前的分類器,最后以加權的方式進行投票,給予分類效果好的分類器更多的權重,使模型具有更優(yōu)的表現(xiàn)。AdaBoost是在每一輪構造新的分類器時,提高那些被前一輪弱分類器錯誤分類樣本的權值,降低那些被正確分類樣本的權值,然后再通過帶權重的訓練樣本繼續(xù)對分類器進行訓練,從而達到一個提高分類效果的目的。它的分類器構成通過加權多數(shù)表決,加大分類誤差率小的弱分類器的權值,使其在表決中其較大的作用;減小分類誤差率大的弱分類器的權值,使其在表決中起較小的作用,從而將若干個若分類器組合成一個強分類器。而XGBoost是由GBDT(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公園施工方案cad(3篇)
- 快遞行業(yè)服務質量提升方案實施報告
- 2025年門店合伙經營協(xié)議(模板)
- 2025年學校差旅費自查報告
- 沖孔護欄施工方案(3篇)
- 發(fā)電裝置施工方案(3篇)
- 工業(yè)保溫施工方案(3篇)
- 收購石礦協(xié)議合同
- 農歷新年策劃活動方案(3篇)
- 商品車拖車協(xié)議書
- 礦山隱蔽致災因素普查規(guī)范課件
- 2025年《數(shù)據(jù)分析》知識考試題庫及答案解析
- 寶安區(qū)老虎坑垃圾焚燒發(fā)電廠三期工程環(huán)境影響評價報告
- 設備安裝用工合同范本
- 紫杉醇的課件
- DB50∕T 1633-2024 高標準農田耕地質量調查評價技術規(guī)范
- DB32T 5178-2025預拌砂漿技術規(guī)程
- 醫(yī)療風險防范知識培訓課件
- 心力衰竭患者利尿劑抵抗診斷及管理中國專家共識解讀
- 餐飲合伙合同范本及注意事項
- 2022危險性較大的分部分項工程專項施工方案編制與管理指南
評論
0/150
提交評論