下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘在電信客戶管理中的應(yīng)用王永輝摘 要 隨著信息時(shí)代的來臨,企業(yè)要面對(duì)越來越龐大的數(shù)據(jù),當(dāng)數(shù)據(jù)量極度增長時(shí),人們感到面對(duì)信息海洋像大海撈針一樣束手無策。 數(shù)據(jù)挖掘技術(shù)試圖從海量數(shù)據(jù)中找出有用的知識(shí),并被廣泛應(yīng)用于互聯(lián)網(wǎng)、金融、零售、電信等領(lǐng)域的客戶分析中,幫助企業(yè)深入細(xì)分客戶,提升客戶體驗(yàn),增加企業(yè)收入。目前,我國電信運(yùn)營商正面臨著激烈的市場(chǎng)競爭,對(duì)細(xì)分客戶的需求也日益強(qiáng)烈,對(duì)數(shù)據(jù)挖掘技術(shù)的跟蹤與應(yīng)用的需求十分迫切。本文深入探討數(shù)據(jù)挖掘方法論、技術(shù)方法及其在電信客戶分析中的應(yīng)用,指出應(yīng)用中要注意的問題,為對(duì)電信客戶進(jìn)行分析提供了技術(shù)支撐。關(guān)鍵詞 數(shù)據(jù)挖掘 電信 客戶管理引言互聯(lián)網(wǎng)、電信、金
2、融、零售等企業(yè)都積累了大量客戶數(shù)據(jù),這些數(shù)據(jù)是企業(yè)的重要資產(chǎn)和財(cái)富。通過深入分析,可以從中獲取大量有用的信息。數(shù)據(jù)挖掘是處理此類海量數(shù)據(jù),從中挖掘有用信息的常用技術(shù),應(yīng)用廣泛。如,沃爾瑪超市擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),利用數(shù)據(jù)挖掘工具分析客戶購買行為;國內(nèi)外電信運(yùn)營商都已逐漸在客戶分析中采用了數(shù)據(jù)挖掘技術(shù),以提升客戶洞察能力,提高企業(yè)競爭力。在激烈的競爭環(huán)境下,我國電信運(yùn)營商也越來越重視客戶分析工作,以解決客戶發(fā)展成本高、流失率高、個(gè)性化服務(wù)需求高、客戶滿意度低等問題。本文將探討在電信客戶數(shù)據(jù)分析過程中引入數(shù)據(jù)挖掘技術(shù),提升電信客戶分析的效率和質(zhì)量。1 數(shù)據(jù)挖掘方法論數(shù)據(jù)挖掘(Data Mi
3、ning)是從大量數(shù)據(jù)中提取或挖掘知識(shí)的過程。數(shù)據(jù)挖掘是一個(gè)新興的多學(xué)科交叉領(lǐng)域,起源于20世紀(jì)80年代,在決策支持中扮演著重要的角色。隨著數(shù)據(jù)庫技術(shù)的發(fā)展,越來越多的數(shù)據(jù)被收集起來,形成了“數(shù)據(jù)豐富,知識(shí)貧乏”的狀況。因此,如何從海量數(shù)據(jù)中挖掘有用的知識(shí),變得非常重要,數(shù)據(jù)挖掘技術(shù)就是在這種背景下誕生的。從數(shù)據(jù)挖掘的概念看,其特點(diǎn)主要體現(xiàn)在兩點(diǎn):一是處理大數(shù)據(jù)集的能力;二是“探索”或“挖掘”過程,數(shù)據(jù)挖掘強(qiáng)調(diào)從海量數(shù)據(jù)中獲取知識(shí)的過程,通過探索的方式,利用各種方法從大量數(shù)據(jù)中挖掘可能有用的數(shù)據(jù),并形成模型;因此,數(shù)據(jù)挖掘更側(cè)重于方法論,而非具體的算法。1996年SIG組織提出的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流
4、程CRISP-DM,是一種被廣泛應(yīng)用的跨行業(yè)的處理流程,如圖1所示。SAS也提出了一種數(shù)據(jù)挖掘方法論SEMMA,并應(yīng)用于SAS系統(tǒng)中。CRISP-DM流程分為六個(gè)階段,詳細(xì)說明見表1:步驟描述業(yè)務(wù)理解通過反復(fù)溝通準(zhǔn)確理解業(yè)務(wù)問題,將其轉(zhuǎn)換成數(shù)據(jù)挖掘問題,并擬定初步構(gòu)想數(shù)據(jù)理解收集、理解、過濾所需的數(shù)據(jù),并進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估數(shù)據(jù)預(yù)處理數(shù)據(jù)清理、轉(zhuǎn)換、歸并等,便于數(shù)據(jù)挖掘技術(shù)使用建模嘗試采用各種方法建立分析模型,解決提出的業(yè)務(wù)問題評(píng)估對(duì)建立的模型進(jìn)行評(píng)估部署最終報(bào)告生成或模型部署表1 CRISP-DM步驟說明從圖1中可以看出,數(shù)據(jù)挖掘過程是一個(gè)循環(huán)往復(fù)、不斷優(yōu)化的閉環(huán)流程。其中,“業(yè)務(wù)理解”與“數(shù)據(jù)
5、理解”之間、“數(shù)據(jù)準(zhǔn)備”與“建模”之間都存在著反復(fù)過程,正體現(xiàn)出了“挖掘”、“探索”的特點(diǎn)。首先,數(shù)據(jù)挖掘過程應(yīng)是業(yè)務(wù)主導(dǎo)而非技術(shù)主導(dǎo),深入理解業(yè)務(wù)問題和數(shù)據(jù)內(nèi)涵對(duì)數(shù)據(jù)挖掘項(xiàng)目的成功非常重要。這個(gè)過程需要業(yè)務(wù)人員和分析人員共同參與,深入溝通,明確分析的目標(biāo)、理解業(yè)務(wù)數(shù)據(jù)、確定數(shù)據(jù)需求、評(píng)估數(shù)據(jù)質(zhì)量。其次,分析時(shí)常采用探索的方式,嘗試多種數(shù)據(jù)挖掘技術(shù)來進(jìn)行建模。在此過程中,可能出現(xiàn)數(shù)據(jù)不足的問題,這就需要繼續(xù)豐富數(shù)據(jù),也可能出現(xiàn)模型效果不理想的情況,就需要嘗試其它方法來重新建模。我們將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電信客戶分析時(shí),應(yīng)充分重視業(yè)務(wù)理解、數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備過程,并關(guān)注分析結(jié)果的業(yè)務(wù)解釋。2 數(shù)據(jù)
6、挖掘技術(shù)方法作為一個(gè)交叉學(xué)科,數(shù)據(jù)挖掘是由多種不同的學(xué)科發(fā)展而來,主要包括統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫等。不同的來源也帶來了不同的觀點(diǎn),其采用的方法也有很大區(qū)別。最主要的觀點(diǎn)包括以下四個(gè)方面見表2:觀點(diǎn)說明數(shù)據(jù)庫觀點(diǎn)從數(shù)據(jù)庫的角度定義數(shù)據(jù)挖掘,強(qiáng)調(diào)方法的效率,即,如何高效地從海量數(shù)據(jù)中抽取知識(shí),主要有多維數(shù)據(jù)分析或OLAP方法,面向?qū)傩缘臍w納方法統(tǒng)計(jì)學(xué)觀點(diǎn)側(cè)重算法的正確性,假設(shè)的真實(shí)性,統(tǒng)計(jì)結(jié)果的獲得需要有大數(shù)據(jù)量的保證,主要有回歸分析、判別分析、聚類分析、探索性分析等神經(jīng)網(wǎng)絡(luò)觀點(diǎn)側(cè)重自學(xué)習(xí)、自組織,較好的學(xué)習(xí)、容錯(cuò)和優(yōu)良的非線性逼近能力,主要方法BP算法、自組織神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)觀點(diǎn)強(qiáng)調(diào)算法的有效性
7、,主要方法有歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法表2 數(shù)據(jù)挖掘觀點(diǎn)擁有不同專業(yè)背景的人員對(duì)數(shù)據(jù)挖掘有著不同的理解,所使用的技術(shù)方法也與自身專業(yè)相關(guān),這就給數(shù)據(jù)挖掘帶來了豐富的算法。從某種角度說,凡是可以用戶從數(shù)據(jù)中挖掘知識(shí)的技術(shù)方法,都可以納入數(shù)據(jù)挖掘范疇中??傮w上,數(shù)據(jù)挖掘中采用的方法可以劃分為以下幾類:2.1 數(shù)據(jù)泛化(data generalization)數(shù)據(jù)泛化是對(duì)數(shù)據(jù)進(jìn)行抽象與匯總的過程??梢岳脴I(yè)務(wù)知識(shí)或采用屬性歸納等方法生成屬性的概念層次樹,并利用這種層級(jí)關(guān)系對(duì)數(shù)據(jù)進(jìn)行泛化。匯總是一種常用的數(shù)據(jù)泛化方法。另外,OLAP分析3是數(shù)據(jù)泛化的一個(gè)具體應(yīng)用,用于發(fā)現(xiàn)
8、隱藏在不同數(shù)據(jù)粒度層級(jí)上的知識(shí)。2.2 聚類(clustering)聚類是按照某種相似性將數(shù)據(jù)分組的過程,通常被稱為無指導(dǎo)的(unsupervised)學(xué)習(xí)。聚類算法非常豐富,可以劃分為基于分割、分層、網(wǎng)格和模型等的方法。在數(shù)據(jù)挖掘中使用的聚類算法側(cè)重于對(duì)大數(shù)據(jù)集、高維特征數(shù)據(jù)的處理能力。2.3 關(guān)聯(lián)分析(association analysis)關(guān)聯(lián)分析主要用于發(fā)現(xiàn)大數(shù)據(jù)集中數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系、相關(guān)關(guān)系等,可采用關(guān)聯(lián)規(guī)則挖掘、相關(guān)分析、主成分分析,頻繁項(xiàng)目集等方法。其中用于查找頻繁項(xiàng)目集的Apriori算法可以認(rèn)為是數(shù)據(jù)挖掘技術(shù)中的原創(chuàng)性算法。2.4 分類(classification)分
9、類是將數(shù)據(jù)映射到事先定義好的群組或類,通常被稱為有指導(dǎo)的(supervised)學(xué)習(xí),主要包括統(tǒng)計(jì)方法(如貝葉斯分類、近鄰法)、機(jī)器學(xué)習(xí)(如決策樹、規(guī)則歸納)、神經(jīng)網(wǎng)絡(luò)等。2.5 回歸(regression)回歸是將數(shù)據(jù)映射到某一實(shí)值預(yù)測(cè)變量?;貧w與分類有些相似,區(qū)別在于,分類將數(shù)據(jù)映射到離散的類別中,而回歸則建立連續(xù)值函數(shù)模型?;貧w分析主要包括線性回歸、非線性回歸方法等,常用于預(yù)測(cè)。2.6 序列模式(sequential pattern)序列模式挖掘是挖掘有序序列或時(shí)間序列中的頻繁序列模式,主要包括頻繁子序列、周期模式等。類似于關(guān)聯(lián)分析,通過序列模式挖掘可以獲取有用的關(guān)聯(lián)規(guī)則,如客戶購買某產(chǎn)
10、品一段時(shí)間以后,很可能會(huì)購買該產(chǎn)品的附件。2.7 異常點(diǎn)分析(outlier analysis)異常點(diǎn)或孤立點(diǎn)分析通過檢測(cè)數(shù)據(jù)中的異常數(shù)據(jù),發(fā)現(xiàn)異常模式。異常點(diǎn)分析可以采用統(tǒng)計(jì)檢測(cè)、距離度量、基于背離度的方法,常用于欺詐檢測(cè)。如,通過檢測(cè)用戶近期的行為與歷史行為的不一致,發(fā)現(xiàn)客戶欺詐問題。以上每類方法中都有很多的算法可供使用,在進(jìn)行客戶分析時(shí)可以選擇其中一種或多種方法進(jìn)行嘗試、進(jìn)行對(duì)比并選擇較優(yōu)的算法。3 電信客戶數(shù)據(jù)分析應(yīng)用電信企業(yè)的客戶數(shù)據(jù)量非常龐大,一方面電信客戶數(shù)量多,另一方面客戶消費(fèi)行為產(chǎn)生了大量的記錄。從龐大的數(shù)據(jù)中抽取有用的知識(shí)是一件困難的事情,在使用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶分析時(shí)要
11、注重其方法論。 一般情況下,利用數(shù)據(jù)挖掘進(jìn)行客戶分析的過程是一個(gè)提出假設(shè)并驗(yàn)證的過程。 因此,對(duì)業(yè)務(wù)和數(shù)據(jù)的深入理解可以幫助分析人員提出更為恰當(dāng)和有效的提出假設(shè),選用恰當(dāng)?shù)姆椒ㄈヲ?yàn)證,從而更快更好地得到有用的知識(shí)。對(duì)于同一個(gè)業(yè)務(wù)問題,由于業(yè)務(wù)分析人員對(duì)業(yè)務(wù)的理解、分析結(jié)果的假設(shè)以及表示形式的設(shè)定不同,可能采取完全不同的分析方法,得到完全不同的結(jié)果,這也正是數(shù)據(jù)挖掘技術(shù)的特點(diǎn)之一。本文將電信客戶劃分為未入網(wǎng)客戶、非穩(wěn)定期客戶、穩(wěn)定其期客戶三個(gè)階段,并給出每個(gè)階段電信客戶分析的核心任務(wù)、典型分析課題及主要分析方法。此處僅列出主要的數(shù)據(jù)挖掘方法,實(shí)際上并不限于這些方法,見表3。生命周期核心任務(wù)分析課
12、題分析方法未入網(wǎng)客戶客戶拓展競爭對(duì)手大客戶聚類/分類,關(guān)聯(lián)分析客戶家庭成員關(guān)系關(guān)聯(lián)分析未入網(wǎng)網(wǎng)站關(guān)系分析序列式挖掘,關(guān)聯(lián)分析新入網(wǎng)用戶分析聚類/分類,探索數(shù)據(jù)分析非穩(wěn)定期客戶客戶關(guān)系維系客戶信息變化偵測(cè)異常點(diǎn)分析、關(guān)聯(lián)分析客戶異動(dòng)分析異常點(diǎn)分析、關(guān)聯(lián)分析客戶流失分析、預(yù)警、原因異常點(diǎn)分析、關(guān)聯(lián)分析,序列模式挖掘、聚類/分類客戶價(jià)值分析關(guān)聯(lián)分析、回歸分析穩(wěn)定期客戶客戶價(jià)值提升客戶愛好偏好分析數(shù)據(jù)泛化,關(guān)聯(lián)分析客戶購買傾向分析聚類/分類,序列模式分析交叉銷售分析關(guān)聯(lián)分析,序列模式分析敏感客戶分析關(guān)聯(lián)分析網(wǎng)站訪問行為分析聚類/分類,序列模式分析客戶忠誠度提升客戶忠誠度評(píng)估聚類/分類,回歸欺詐分析關(guān)聯(lián)
13、分析,異常點(diǎn)分析,聚類、分類表3 電信客戶分析典型課題及主要分析方法下面對(duì)表3中的幾個(gè)典型客戶分析課題進(jìn)行探討,包括客戶家庭成員分析、交叉銷售分析、客戶流失分析、欺詐分析等。3.1 客戶家庭成員關(guān)系分析客戶在入網(wǎng)時(shí)通常沒有登記家庭成員關(guān)系,可以通過關(guān)聯(lián)分析等方法生成關(guān)聯(lián)規(guī)則來進(jìn)行猜測(cè)。具體可以通過對(duì)客戶基本信息(包括姓名、性別、年齡、家庭地址、家庭電話等屬性)及消費(fèi)行為信息(如經(jīng)常聯(lián)系的號(hào)碼、夜間通話基站等)進(jìn)行分析,生成各屬性與家庭成員關(guān)系的關(guān)聯(lián)規(guī)則,用于自動(dòng)判別家庭成員關(guān)系。例如(CID1與CID2登記地址相同)(CID1與CID2同姓)(CID1比CID2年齡大20-30歲)(CID1與
14、CID2為父子或父女關(guān)系),并使用支持度(support)和置信度(confidence)來判斷規(guī)則的可靠性。假設(shè)條件為A,結(jié)果為B(父子或父女關(guān)系),則支持度和置信度分別為P(AB)和P(B|A),只有超過一定閾值才認(rèn)為是有效規(guī)則。家庭成員關(guān)系作為將來維系挽留與個(gè)性化營銷的參考,這對(duì)于全業(yè)務(wù)電信運(yùn)營商更為重要。3.2 交叉銷售(cross-selling)如果已知足夠多的客戶同時(shí)訂購了產(chǎn)品A和B,那么當(dāng)我們發(fā)現(xiàn)一個(gè)客戶訂購了產(chǎn)品A而未訂購產(chǎn)品B時(shí),可以向其推薦產(chǎn)品B,稱為產(chǎn)品的交叉銷售。在分析時(shí)通常采用Apriori及其改進(jìn)算法來查找頻繁項(xiàng)目集,通過支持度和置信度閾值來判斷是否作為有效規(guī)則。
15、以增值業(yè)務(wù)為例,與盲目營銷相比,交叉銷售可以在很大程度上降低營銷成本,提高成功率,并減少客戶不滿。3.3 客戶流失分析(churn)客戶流失分析主要包括流失預(yù)警和原因分析。電信客戶流失可以分為主動(dòng)流失和被動(dòng)流失(欠費(fèi)銷號(hào)等),而客戶主動(dòng)流失分析是企業(yè)最為關(guān)注的。對(duì)于離網(wǎng)預(yù)警/征兆及離網(wǎng)原因分析,可以采用關(guān)聯(lián)分析、序列模式挖掘、異常點(diǎn)分析、聚類/分類、回歸等方法,得到客戶離網(wǎng)預(yù)警模型并分析離網(wǎng)原因。如關(guān)聯(lián)分析主要用于探查與“離網(wǎng)”密切相關(guān)的屬性,序列模式挖掘用于發(fā)現(xiàn)離網(wǎng)前的頻繁子序列,作為離網(wǎng)征兆或原因,異常點(diǎn)分析通過客戶離網(wǎng)前的異常行為(異常點(diǎn))來進(jìn)行預(yù)警。預(yù)警模型可以使用關(guān)聯(lián)規(guī)則、決策樹、判
16、別函數(shù)等表示。客戶流失分析本質(zhì)上就是挖掘相關(guān)屬性與離網(wǎng)之間的關(guān)系。3.4 欺詐檢測(cè)通過客戶異常行為,檢測(cè)潛在的客戶/代理商欺詐行為,減少企業(yè)收入損失??梢圆捎镁垲?分類、關(guān)聯(lián)分析、異常點(diǎn)分析等方法檢測(cè)用戶欺詐行為。如,采用決策樹、聚類、異常點(diǎn)檢測(cè)、神經(jīng)元網(wǎng)絡(luò)等技術(shù)。聚類/分類、異常點(diǎn)分析主要研究欺詐客戶與其他客戶群在屬性空間分布的差異,發(fā)現(xiàn)潛在的欺詐客戶,或者通過分析客戶當(dāng)前行為與歷史行為的差異來發(fā)現(xiàn)欺詐行為。如可以選擇適當(dāng)?shù)膶傩?,通過聚類/分類或異常點(diǎn)分析找到欺詐客戶,或采用基于距離、信息增益或的評(píng)價(jià)函數(shù)來生成決策樹,或通過關(guān)聯(lián)分析找到與欺詐相關(guān)的屬性并得到關(guān)聯(lián)規(guī)則,以檢測(cè)客戶欺詐行為。4 總結(jié)本文對(duì)數(shù)據(jù)挖掘方法論、技術(shù)方法及其在電信客戶分析中的應(yīng)用進(jìn)行了探討。數(shù)據(jù)挖掘從海量數(shù)據(jù)中挖掘潛在的知識(shí),吸收多種學(xué)科的優(yōu)勢(shì),匯集了豐富的算法,適用于電信客戶分析,并在我國電信客戶分析得到了一定程度的應(yīng)用。在今后的發(fā)展中,數(shù)據(jù)挖掘技術(shù)會(huì)越來越廣泛地應(yīng)用于電信客戶分析,幫助企業(yè)洞察
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 我的小貓咪寫物類作文8篇
- 本人信用責(zé)任聲明書9篇
- 秋游的樂趣寫人記事(7篇)
- 2025中國水利水電第九工程局有限公司2026屆秋季招聘88人筆試參考題庫附帶答案詳解(3卷)
- 廈門海滄實(shí)驗(yàn)幼兒園2025年頂崗教師招聘備考題庫及參考答案詳解1套
- 上饒銀行2025年秋季招聘筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 2026年綏化市中醫(yī)醫(yī)院招聘備考題庫參考答案詳解
- 2025浙商銀行成都分行秋季校園招聘網(wǎng)申職位筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 2026年醫(yī)療干部綜合測(cè)試模擬復(fù)習(xí)題庫含答案
- 周口市中心血站2025年公開招聘工作人員備考題庫含答案詳解
- 智能家居銷售培訓(xùn)課件
- DB32∕T 5167-2025 超低能耗建筑技術(shù)規(guī)程
- 2025-2026學(xué)年小學(xué)蘇少版(2024)新教材一年級(jí)上冊(cè)美術(shù)期末測(cè)試卷及答案
- 2025-2026學(xué)年北師大版六年級(jí)數(shù)學(xué)上冊(cè)期末測(cè)試卷及答案
- 地球小博士知識(shí)競賽練習(xí)試題及答案
- 不同類型休克的床旁超聲鑒別診斷策略
- 殯儀館鮮花采購?fù)稑?biāo)方案
- 中小學(xué)生意外傷害防范
- 動(dòng)靜脈瘺課件
- 企業(yè)ESG審計(jì)體系構(gòu)建-洞察及研究
- 政治理論考試試題庫100題
評(píng)論
0/150
提交評(píng)論