【銀行營銷數(shù)據分析處理方法分析6000字】_第1頁
【銀行營銷數(shù)據分析處理方法分析6000字】_第2頁
【銀行營銷數(shù)據分析處理方法分析6000字】_第3頁
【銀行營銷數(shù)據分析處理方法分析6000字】_第4頁
【銀行營銷數(shù)據分析處理方法分析6000字】_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

銀行營銷數(shù)據分析處理方法分析綜述目錄TOC\o"1-3"\h\u24428銀行營銷數(shù)據分析處理方法分析綜述 184621.1數(shù)據來源 1291761.2數(shù)據描述 238411.3數(shù)據分析 384391.4數(shù)據處理 12137031.4.1數(shù)據預處理 12231331.4.2缺失值填補 1245451.4.3轉換啞變量 131.1數(shù)據來源本文所采用的數(shù)據來源于UCI網站,包含從2008年5月至2010年11月的葡萄牙某商業(yè)銀行的直接營銷活動所涉及到的客戶信息和經濟社會背景信息等。數(shù)據集共有41188條有效樣本,包含21個屬性,涉及客戶個人信息、上一次營銷活動記錄、社會和經濟背景以及其它信息共四個大方面,以期望利用這些信息對客戶是否會通過電話營銷渠道認購定期存款作出分類和預測。1.2數(shù)據描述對數(shù)據集各屬性的數(shù)據類型分類,其取值共包含四種類別,分別為數(shù)值屬性、分類屬性、序數(shù)屬性和二元屬性。表3-1是對各變量的含義解釋:表3-1變量解釋變量名稱變量含義數(shù)據類型age年齡數(shù)值屬性job職業(yè)分類屬性marital婚姻狀況分類屬性education受教育背景分類屬性default信用情況二元屬性housing住房貸款二元屬性loan個人貸款二元屬性contact通信類型分類屬性month最后聯(lián)系月份序數(shù)屬性day_of_week最后聯(lián)系日序數(shù)屬性duration通話持續(xù)時間數(shù)值屬性campaign本次營銷活動中聯(lián)系的次數(shù)數(shù)值屬性pdays最后一次接觸距離上一次接觸的時間數(shù)值屬性previous以前的營銷活動中聯(lián)系的次數(shù)數(shù)值屬性poutcome上一次營銷活動成功與否分類屬性emp.var.rate就業(yè)變化率數(shù)值屬性cons.price.idx消費者價格指數(shù)數(shù)值屬性cons.conf.idx消費者信心指數(shù)數(shù)值屬性euribor3m歐元銀行同業(yè)拆借利率3個月利率數(shù)值屬性nr.employed就業(yè)人數(shù)數(shù)值屬性y客戶是否認購了定期存款二元屬性對表3-1中各變量還包含的其他信息作進一步的說明和解釋:1.變量屬性可分為四種,依次為:客戶個人資料、關于營銷活動的最后一次聯(lián)系記錄、社會和經濟屬性和其他。2.在社會和經濟背景屬性中,各數(shù)值類型指標的時間測度不等。就業(yè)變化率和就業(yè)人數(shù)為季度指標,消費者價格指數(shù)和消費者信心指數(shù)為月度指標,而歐元銀行同業(yè)拆借利率3個月利率為每日指標,在結果解釋時需要對這些時間單位特別注意。1.在變量“最后一次接觸距離上一次接觸的時間”中,數(shù)值“999”具有具體含義,它表示以前從未聯(lián)系過客戶的標記,并非為異常值,故不能盲目對其直接做異常值處理。4.變量“職業(yè)屬性”共包含12種分類。分別是,“行政”、“藍領”、“企業(yè)家”、“女傭”、“管理”、“退休”、“自營”、“服務”、“學生”、“技術人員”、“失業(yè)”和“未知”。5.變量“婚姻狀況”包括4種分類:“離婚”、“已婚”、“單身”、“未知”,其中,“離婚”選項既包含離婚情況,同時也指喪偶的情況。6.變量“受教育背景”包含“小學四年級”、“小學畢業(yè)”、“初中畢業(yè)”、“高中畢業(yè)”、“文盲”、“職業(yè)教育”、“大學畢業(yè)”以及“未知”這8種類別。1.3數(shù)據分析1.1.1數(shù)值型變量為了對數(shù)值型變量的數(shù)值分布得到初步把握,首先對原數(shù)據集中所包含的所有數(shù)值型變量進行描述性統(tǒng)計分析,得到其均值、標準差、最值和中位數(shù),整理為表格如下所示:

表3-2數(shù)值型變量描述性統(tǒng)計變量均值標準差最小值中位數(shù)最大值年齡40.0210.42173898通話持續(xù)時間258.29259.2801804918本次營銷聯(lián)系次數(shù)2.572.771256距離上一次接觸的時間間隔962.48186.910999999過往營銷的聯(lián)系次數(shù)0.170.49007就業(yè)變化率0.081.57-1.41.11.4消費者價格指數(shù)91.580.5892.291.7594.77消費者信心指數(shù)-40.54.63-50.8-41.8-26.9歐元銀行同業(yè)拆借利率1.621.730.634.865.05就業(yè)人數(shù)5167.0472.254961.651915228.1從表3-2中可以看到,以上10個表示不同含義的數(shù)值型變量中,除了“消費者信心指數(shù)”和“就業(yè)變化率”這兩個變量存在負值,其余變量的數(shù)值均全部分布在正軸。其中,“消費者信心指數(shù)”的兩個最值均為負數(shù),而“就業(yè)變化率”的最大值為正數(shù),最小值為負數(shù)。聯(lián)系現(xiàn)實意義,兩者的負值均可以進行解釋:當消費者信心指數(shù)為負時,表示消費者對經濟狀況的評估和大規(guī)模購買的意欲不佳,意味著有較多的悲觀者。而就業(yè)變化率為負,則表明就業(yè)率呈負增長變化趨勢,此時就業(yè)形式較為嚴峻,社會經濟情況也不容樂觀。在表格中還可以注意到,“以前的營銷活動中聯(lián)系的次數(shù)”和“消費者價格指數(shù)”這兩個變量有較小的標準差。說明兩者數(shù)值分布均較集中,整體數(shù)值保持穩(wěn)定,不同的客戶樣本在這個變量上的取值波動較小。為了進一步了解,本文利用各類可視化工具對不同數(shù)值型變量的基本情況作直觀的展示。將通過餅圖、熱力圖、箱圖等各具長處的數(shù)據可視化圖像,依照圖像傳達出的信息作出相應推測,并通過后續(xù)建模分類結果進行分析驗證。聯(lián)系實際生活中的場景,本文首先猜測定期存款產品是否能夠營銷成功的結果與年齡這一因素具有聯(lián)系。因為我們了解到在去銀行辦理業(yè)務時,往往在營業(yè)部和網點辦理業(yè)務的老年人比重較大。為消除量綱的影響,這里將該類樣本中正項樣本與該類樣本的總數(shù)之比,設為營銷成功率或認購成功率,用來探究不同年齡階段的客戶群體與營銷成功率之間的關系。圖3-1年齡與營銷成功率的關系從圖3-1中可以看出,在[10,40]這個年齡區(qū)間內,曲線呈下凹形態(tài),說明在此區(qū)間內產品營銷成功率是較低的。而當客戶年齡層到40歲以上時,其成功率呈現(xiàn)出通過一個陡峭的絕對上升后保持平穩(wěn)的趨勢,這能夠說明在年齡40歲以上的客戶群體對定期存款產品的購買偏好是強烈的。通過分析可得,這類客戶群體往往趨向于規(guī)避風險,而銀行產品呈現(xiàn)出穩(wěn)健性的風格,定期存款類型的產品的風險更是較小,可以滿足其對收益可控性的要求,這與前面的推測是相符的。而70歲以上的成功率波動非常大,故推測是由于此類客戶數(shù)量較小、樣本區(qū)間不連續(xù)所造成的。接下來對關于上次項目的營銷聯(lián)系的信息進行分析:由現(xiàn)實經驗,理財經理與客戶的聯(lián)系頻率、客戶的購買經歷等會對客戶認購的心理和體驗感產生影響??蛻敉敢庠谧约菏熳R的理財經理或客戶認為可靠的銀行購買產品,而對自己不了解的產品或營銷人員的說辭保持存疑的態(tài)度。正是由于這一道心理防線,大大增加營銷的難度系數(shù)。這里選擇“營銷通話持續(xù)時間”和“以前營銷活動中聯(lián)系的次數(shù)”兩個變量,繪制變量與期望目標間的分布關系箱線圖,如下所示:圖3-2、圖3-3通話持續(xù)時間、過去營銷活動聯(lián)系次數(shù)與目標變量的關系從圖3-2可以看出,“通話持續(xù)時間”在客戶是否認購營銷產品上有非常明顯的區(qū)分。未能成功認購的客戶的通話時間的箱接近于零秒,而成功認購產品的客戶的通話時間顯然是不為零的,這可以推測成功認購產品的客戶與通話時間具有較強聯(lián)系?,F(xiàn)實中當客戶在接到營銷電話后,確定認購產品之前,首先需要對產品得到足夠了解,才會依照自身情況作出是否認購的決策。而部分對電話營銷持較為反感態(tài)度的客戶往往在接聽電話后了解到其致電目的為營銷商品時,會果斷選擇直接掛斷電話。這里的信息與該項數(shù)據呈現(xiàn)出的分布趨勢是一致的。而在“以前營銷的活動中聯(lián)系的次數(shù)”這個變量上,能否營銷成功也有非常顯著的區(qū)別:圖3-3中顯示,不能使得客戶成功認購時的聯(lián)系次數(shù)分布貼近于零,而能使客戶成功認購時的過去練習次數(shù)分布在零次以上會更多。由此可以猜測,當某個客戶首次收到營銷電話時,其成功率是較低的。而當客戶曾經購買過該銀行的產品后,若得到了良好的購買或服務體驗,那么這類客戶對在此銀行繼續(xù)了解和購買其他產品的態(tài)度會更積極,更愿意去嘗試該銀行的其他類型產品。與之相應的,營銷成功率也就會隨之上升。圖3-4—圖3-7社會經濟背景相關變量與目標變量的關系在社會和經濟背景的屬性上,是否能夠營銷成功也有顯著差別的表現(xiàn)。聯(lián)系圖3-4至圖3-7中的信息,通過對比可以推測:當就業(yè)人數(shù)更多,歐元銀行同業(yè)拆借利率3個月利率越高,消費者價格指數(shù)和消費者信心指數(shù)更高的時候,客戶會更愿意去認購定期存款,營銷成功率會更高。而當就業(yè)人數(shù)更少,就業(yè)形勢越差,歐元銀行同業(yè)拆借利率3個月利率更低,消費者價格指數(shù)和消費者信心指數(shù)更低的時候,客戶表現(xiàn)出消極的消費態(tài)度,往往對認購定期存款的積極性也就更差,營銷效果相應越差,成功率會下降。通過上述推測,這些變量的變化方向存在一些相似或相反的趨勢。本文猜測某些數(shù)值型變量之間可能存在一定相關性,所以對各數(shù)值變量間的相關性進行可視化分析,欲通過熱力圖對其進行非常直觀的展示:圖3-8數(shù)值型變量相關性熱力圖從圖3-8中可以看到,就業(yè)變化率和歐元銀行同業(yè)拆借利率3個月利率間有非常強的正相關性,就業(yè)人數(shù)和就業(yè)變化率、歐元銀行同業(yè)拆借利率3個月利率兩個變量間也存在較強的正相關性。與實際情況相聯(lián)系,能夠聯(lián)想到生活中經濟形式和就業(yè)形式之間的同向變化關系,此條推測即可以得到驗證。而以前的營銷活動中聯(lián)系的次數(shù)這一變量,與最后一次接觸距離上一次接觸的時間、就業(yè)變化率、歐元銀行同業(yè)拆借利率3個月利率、就業(yè)人數(shù)這幾個變量均存在一定的負相關性。聯(lián)系實際情況,不難發(fā)現(xiàn),這一相關性也是符合邏輯的:過去和客戶聯(lián)系次數(shù)越多,聯(lián)系越頻繁,則最近一次聯(lián)系的間隔時間就會越短。1.1.2分類型變量本文繼續(xù)對另一大類型的變量——分類型變量的分布信息進行探究。容易知道,本文所使用數(shù)據集的期望目標即是一個分類型變量。當對原數(shù)據集中客戶各類型信息所對應的期望目標正負比例進行統(tǒng)計整理時,可以發(fā)現(xiàn),其二分類期望目標的正負項數(shù)量分別為4640和26548,比例約為0.11:0.89,這里負類樣本(否)的數(shù)量遠大于正類樣本(是)的數(shù)量,由此可以得出:此銀行直接營銷數(shù)據集是一個不平衡數(shù)據集。表3-3目標變量正負項分布目標變量計數(shù)占比正項46400.11負項265480.89合計311881.00訓練數(shù)據不平衡的現(xiàn)象在實際中十分常見:在欺詐交易識別中,絕大部分交易都是正常進行的,只有極少部分的交易屬于欺詐交易。在客戶流失問題中,絕大部分的客戶是會保持原有選擇,即作為非流失對象,只有極少數(shù)部分的客戶不會再繼續(xù)保持原選擇,即稱作流失對象。類似數(shù)值型變量的做法,這里也對一些可能對目標變量取值產生影響的分類型變量作探究。從實際經驗中考慮,由于不同職業(yè)的客戶收入水平及其消費偏好是呈現(xiàn)出顯著區(qū)別的,故本文推測職業(yè)對客戶是否會認購定期存款類產品這一決策可能起著重要作用,于是首先對職業(yè)因素在目標變量上的影響做可視化分析:圖3-9、圖3-10職業(yè)與營銷結果的關系從圖3-9和圖3-10中可以看到,當考慮認購成功的情況時,客戶職業(yè)占比最高的是行政管理人員,其次是技術人員和藍領。而在考慮認購失敗的情況時,職業(yè)降序排名前三也是如此。為進一步探究職業(yè)與營銷結果之間的關系,想要得到更加直接清晰的結論,本文這里同樣進行消除量綱的處理,利用各職業(yè)中營銷成功的樣本數(shù)量與樣本中該職業(yè)的總人數(shù)的比值,作為樣本里各職業(yè)的認購成功率,并進行整理統(tǒng)計,結果如下所示:圖3-11職業(yè)與營銷成功率的關系容易看出,營銷成功率最高的為學生群體,其成功率可以達到31%左右,其次是退休人員,成功率約為25%,隨后是行政管理和無業(yè)人員,這四類職業(yè)的客戶群體的認購成功率均高于全體客戶的平均成功率。由此可得,當客戶職業(yè)為學生、退休人員、行政管理人員和無業(yè)人員時,會更愿意認購定期存款產品,銀行在今后的定期存款營銷活動中應重點關注到在職業(yè)為這四類的客戶。接下來對客戶婚姻狀況與是否對定期存款產品的購買有偏好進行探究。本文推測,已婚客戶由于家庭限制,風險承受能力稍弱,其理財選擇可能傾向于收益穩(wěn)定風險較低的產品。這里同樣使用消除量綱后的成功率作為評判指標:圖3-12婚姻狀況與認購成功率的關系圖3-12中數(shù)值表示所有樣本中處于當前婚姻狀況的客戶的認購成功比例??梢钥闯觯橐鰻顩r為單身和未知的客戶的認購成功率分別為14%和15%,略高于結婚和離婚客戶的10%。但由于圖中四種顏色比例差別較小,故僅從這里的可視化分析不能夠得出婚姻狀況可以對客戶認購行為產生影響的結論。圖3-13受教育程度與認購成功率的關系在圖3-13受教育程度與認購成功率的關系條形圖中有一類成功率明顯很高的客戶群體類型,查閱屬性可以知道這是受教育程度為文盲類型的客戶群體,這里他們對定期存款的認購偏好較為明顯。其次是受教育程度未知和大學文憑的客戶。本文推測,這是由于文盲類型的客戶受教育程度較低,故其理財方式會偏向于風險較低穩(wěn)定收益的產品。而銀行可靠性高,在傳統(tǒng)客戶中的信譽口碑也較為優(yōu)秀,所以銀行定期存款類產品是此類客戶的首選。最后,本文還考慮到有部分客戶可能參與了上一次的營銷活動,經過對其推銷的產品認購后的個人親身體驗和消費感受,可能會對下一次是否選擇認購產生直接且主觀的影響。圖3-14上次活動成功與否與認購成功率的關系從圖3-14中可以明顯看出,上一次成功認購的客戶在下一次營銷活動中繼續(xù)選擇認購的可能性非常大,其成功率高達65%。而上一次營銷活動未能參與過的客戶的認購成功率最低,甚至低于上一次營銷失敗的客戶。這說明客戶在經過親身了解和感受過該銀行的產品之后,會更愿意相信該銀行的其它產品,其嘗試的積極性也更高。而要讓一位從來沒有參與過該銀行的營銷活動的客戶選擇認購其產品,是比較困難的。由此也從側面證實,銀行對老客戶的維系是非常重要且必要的。1.4數(shù)據處理1.4.1數(shù)據預處理在本數(shù)據集的各變量分析中,本文關注到通話持續(xù)時間屬性對期望輸出目標客戶是否會認購定期存款存在很大影響。例如,通話持續(xù)時間為0,那么客戶不會認購營銷的定期存款,而當通話持續(xù)時間不為0,則有營銷成功才存在可能性,這其中可能存在比較強烈的因果關系因此,由于本文旨在建立和對比各模型在銀行營銷產品方面的預測效果,通過客戶各方面的信息來預測其認購行為。所以,為了保證模型的預測有效性,應當對此變量進行刪除后,再進行建模。1.4.2缺失值填補在對數(shù)據進行描述性分析時不難發(fā)現(xiàn),數(shù)據集不直接存在有缺失值的情況,但卻存在許多未知值,這些未知值應當被視作缺失值進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論