數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用 一、數(shù)據(jù)挖掘研究概述 1.1數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘又常被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),UsamaFayyad等對(duì)其下的定義為:從大量數(shù)據(jù)中獲取有效的、新穎的、潛在而有用的、最終可理解的信息的非平凡過程,這些信息的表 現(xiàn)形式有概念、規(guī)那么、模式等。數(shù)據(jù)挖掘是一門交叉學(xué)科,其中融合了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、 數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)等多個(gè)領(lǐng)域的研究成果,為海量數(shù)據(jù)中的知識(shí)提取提供了一整套面向不同需求的算法。 數(shù)據(jù)挖掘是一門實(shí)用性的學(xué)科,其主要特點(diǎn)是對(duì)海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析等處理, 并從中歸納出有趣的模式或規(guī)律輔助決策,因此,數(shù)據(jù)挖掘的產(chǎn)生和開展是和數(shù)據(jù)庫(kù)的開展 密切相關(guān)的。二十世紀(jì)六七十年代,數(shù)據(jù)庫(kù)技術(shù)處于開展的初期,數(shù)據(jù)量相對(duì)較小,利用結(jié) 構(gòu)化查詢語(yǔ)言SQL已經(jīng)根本能夠滿足事務(wù)處理和數(shù)據(jù)分析的需要;從二十世紀(jì)八十年代開 始,隨著先進(jìn)數(shù)據(jù)庫(kù)系統(tǒng)、基于web的數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)的誕生和迅速開展,數(shù)據(jù)量 急劇增加,數(shù)據(jù)分析的要求也變得越來越復(fù)雜,這就迫切需要一套從海量數(shù)據(jù)中提取知識(shí)的 方法論,因此,數(shù)據(jù)挖掘作為一門獨(dú)立的學(xué)科應(yīng)運(yùn)而生。下列圖展示了數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù) 的聯(lián)系,從圖中可以看到,數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘的根底。監(jiān)控與鋼類據(jù)衆(zhòng)市 工具 圖1-1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 確切地說,數(shù)據(jù)挖掘只是數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),(KnowledgeDiscoveryinDatabase,簡(jiǎn) 稱KDD)的一個(gè)子過程,但卻代表著獲取知識(shí)的動(dòng)態(tài)過程,因此,常將整個(gè)知識(shí)發(fā)現(xiàn)的過程 稱為數(shù)據(jù)挖掘。由圖1-2可知,整個(gè)知識(shí)發(fā)現(xiàn)的過程是由假設(shè)干挖掘步驟組成,而數(shù)據(jù)挖掘僅僅是其中的一個(gè)主要步驟。整個(gè)知識(shí)發(fā)現(xiàn)的主要步驟有: 數(shù)據(jù)清洗〔DataCleaning〕去除噪聲和無關(guān)挖掘主題的數(shù)據(jù);數(shù)據(jù)集成(DataIntegration)將來源于多個(gè)數(shù)據(jù)源的相關(guān)數(shù)據(jù)進(jìn)行組合;數(shù)據(jù)轉(zhuǎn)換(DataTransformation)將數(shù)據(jù)轉(zhuǎn)換為易于挖掘的數(shù)據(jù)存儲(chǔ)形式; 數(shù)據(jù)挖掘(DataMining)知識(shí)發(fā)現(xiàn)的一個(gè)核心步驟,用智能的方法從海量數(shù)據(jù)中提取數(shù)據(jù)模式或規(guī)律; 模式評(píng)估(PatternEvaluation)依據(jù)一定的評(píng)估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出具有實(shí)際指導(dǎo)意義的模式; 知識(shí)表示(KnowledgePresentation)利用可視化和知識(shí)表達(dá)技術(shù),對(duì)所提取的知識(shí)進(jìn)行展示。圖1-2數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)流程示意圖1.2數(shù)據(jù)挖掘的分類和應(yīng)用數(shù)據(jù)挖掘技術(shù)涵蓋的范圍很廣,可以用來解決各類不同的實(shí)際問題,下面從數(shù)據(jù)挖掘的任務(wù)和功能這兩個(gè)不同的角度對(duì)數(shù)據(jù)挖掘進(jìn)行分類。 首先,從數(shù)據(jù)挖掘任務(wù)的角度對(duì)數(shù)據(jù)挖掘進(jìn)行分類。數(shù)據(jù)挖掘是以數(shù)據(jù)挖掘任務(wù)為單位的,一個(gè)數(shù)據(jù)挖掘任務(wù)走完數(shù)據(jù)挖掘的整個(gè)流程,其中包含了挖掘的各個(gè)環(huán)節(jié),如圖1-2所示。數(shù)據(jù)挖掘任務(wù)可以分為描述和預(yù)測(cè)兩類:描述性的挖掘任務(wù)刻畫數(shù)據(jù)的一般特性,是對(duì)數(shù)據(jù)中所蘊(yùn)含的規(guī)那么的描述,或者根據(jù)數(shù)據(jù)的相似程度將數(shù)據(jù)分成假設(shè)干組;預(yù)測(cè)性挖掘任務(wù)是在當(dāng)前數(shù)據(jù)的根底上,對(duì)未來數(shù)據(jù)的某種行為做出預(yù)測(cè),所使用的數(shù)據(jù)都是可以明確知道結(jié)果的。描述和預(yù)測(cè)的主要區(qū)別在于描述是靜態(tài)的,是抓取數(shù)據(jù)的主要特征,并加以歸納和總結(jié);預(yù)測(cè)是動(dòng)態(tài)的,是指通過學(xué)習(xí),將當(dāng)前學(xué)到的知識(shí)推廣到未來,是更為高級(jí)的一種知識(shí)提取形式。其次,從數(shù)據(jù)挖掘功能的角度對(duì)數(shù)據(jù)挖掘進(jìn)行分類。根據(jù)數(shù)據(jù)挖掘的不同功能,可將數(shù)據(jù)挖掘分成以下幾類:概念描述(ConceptDescription):概念描述是數(shù)據(jù)挖掘最簡(jiǎn)單和直接的功能,它指的是以匯總的、簡(jiǎn)潔的、精確的方式描述數(shù)據(jù)庫(kù)中的大量的細(xì)節(jié)數(shù)據(jù),以方便用戶通過數(shù)據(jù)做出決策。通??梢酝ㄟ^數(shù)據(jù)特征化、數(shù)據(jù)區(qū)分、數(shù)據(jù)特征比擬等方法得到概念描述,也可通過一些統(tǒng)計(jì)學(xué)的方法對(duì)數(shù)據(jù)進(jìn)行描述。關(guān)聯(lián)分析(AssociationAnalysis):關(guān)聯(lián)分析是指從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)。關(guān)聯(lián)分析廣泛地應(yīng)用于購(gòu)物籃或事物數(shù)據(jù)分析中,可以有效地幫助商家制定許多市場(chǎng)營(yíng)銷方面的決策,使他們知道哪些物品或效勞應(yīng)該被捆綁在一起銷售,以提高銷售額,“啤酒和尿布〃的例子是關(guān)聯(lián)規(guī)那么最具代表性的應(yīng)用。分類和預(yù)測(cè)(ClassificationandForecast):分類和預(yù)測(cè)是兩種性質(zhì)類似的數(shù)據(jù)分析形式,因?yàn)閮烧叨际歉鶕?jù)當(dāng)前數(shù)據(jù)行為預(yù)測(cè)未來的數(shù)據(jù)行為,所不同的是,分類通常預(yù)測(cè)的是類標(biāo)簽,類標(biāo)簽通常是離散值,而預(yù)測(cè)通常用于對(duì)連續(xù)值的預(yù)測(cè),例如對(duì)某個(gè)連續(xù)屬性的缺失值做出估計(jì)。分類是數(shù)據(jù)挖掘最重要的功能,其實(shí)際應(yīng)用也最為廣泛。聚類分析(Clustering):聚類和分類的功能類似,都是預(yù)測(cè)類標(biāo)簽,但從學(xué)習(xí)方式的角度看,兩者的實(shí)現(xiàn)機(jī)理卻是相反的;聚類不依賴任何先驗(yàn)知識(shí),只根據(jù)數(shù)據(jù)的某些特征來定義數(shù)據(jù)之間的距離,如使用最簡(jiǎn)單的歐式距離,從而衡量數(shù)據(jù)之間的相似度,將相似度大的歸入一類;因此,通常將分類稱作有指導(dǎo)的學(xué)習(xí),而將聚類稱作無指導(dǎo)的學(xué)習(xí)。離群點(diǎn)分析(OutlierAnalysis):通常稱那些遠(yuǎn)離大多數(shù)點(diǎn)的少數(shù)點(diǎn)為離群點(diǎn);針對(duì)數(shù)據(jù)集中的離群點(diǎn),一般的做法是將其視為噪聲或異常而丟棄,但在如故障診斷、欺詐檢測(cè)等應(yīng)用中,離群點(diǎn)本身可能是非常重要的信息,因此,如何檢測(cè)離群點(diǎn)并對(duì)其含義進(jìn)行合理解釋也是數(shù)據(jù)挖掘的重要的研究方向之一。演變分析(EvolutionAnalysis)數(shù)據(jù)演變分析是對(duì)行為隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì)的描述并建模。這種分析包括時(shí)間序列數(shù)據(jù)分析、序列模式匹配和基于相似性的數(shù)據(jù)分析。通過這種分析,可以識(shí)別整個(gè)股票市場(chǎng)和特定公司的股票演變規(guī)律,從而幫助預(yù)測(cè)股票市場(chǎng)價(jià)格的未來走向,支持股票投資者進(jìn)行決策。在實(shí)際的工程應(yīng)用中,往往根據(jù)實(shí)際作用把挖掘得到的模式細(xì)分為:關(guān)聯(lián)模式、分類模式、回歸模式、聚類模式、時(shí)間序列模式等等。分類模式和回歸模式是使用最普遍的模式,兩者都是通過對(duì)當(dāng)前數(shù)據(jù)建模,以對(duì)數(shù)據(jù)的未知屬性質(zhì)值做出預(yù)測(cè),所不同的是,分類針對(duì)離散屬性,而回歸針對(duì)連續(xù)屬性。分類模式、回歸模式、時(shí)間序列模式也被認(rèn)為是受監(jiān)督知識(shí),因?yàn)樵诮⒛J角皵?shù)據(jù)的結(jié)果是的,可以用來檢測(cè)模式的準(zhǔn)確性,模式的產(chǎn)生是在先驗(yàn)知識(shí)的指導(dǎo)下進(jìn)行的;一般在建立這些有監(jiān)督模式的時(shí)候,使用其中一局部數(shù)據(jù)作為樣本,用另一局部數(shù)據(jù)來檢驗(yàn)和校正模式,因此,這兩局部數(shù)據(jù)分別稱作訓(xùn)練數(shù)據(jù)集和檢驗(yàn)數(shù)據(jù)集。聚類模式、關(guān)聯(lián)模式、序列模式那么是非監(jiān)督知識(shí),因?yàn)樵谀J浇⑶暗慕Y(jié)果是未知的,模式的產(chǎn)生不受任何監(jiān)督,沒有任何先驗(yàn)知識(shí)的指導(dǎo)。通過這些模式,我們一般可以從中獲得廣義型知識(shí)(Generalization)、分類型知識(shí)(Classification)、預(yù)測(cè)型知識(shí)(Prediction)、關(guān)聯(lián)型知識(shí)(Association)、偏差型知識(shí)(Deviation)等類型的知識(shí)。數(shù)據(jù)挖掘技術(shù)誕生于實(shí)際應(yīng)用,由此決定它是一門實(shí)踐性的學(xué)科。目前,在很多重要的領(lǐng)域,數(shù)據(jù)挖掘都廣泛地應(yīng)用于其中,發(fā)揮著積極的促進(jìn)作用,尤其是在如銀行、電信、保險(xiǎn)、交通、零售等商業(yè)應(yīng)用領(lǐng)域,更是離不開數(shù)據(jù)挖掘。數(shù)據(jù)挖掘能夠解決許多典型的商業(yè)問題,其中包括:客戶分群、數(shù)據(jù)庫(kù)營(yíng)銷、交叉銷售等市場(chǎng)分析行為,以及客戶流失預(yù)測(cè)、客戶信用評(píng)估、信用卡欺詐檢測(cè)、股票價(jià)格分析與預(yù)測(cè)、金融投資風(fēng)險(xiǎn)分析、購(gòu)物籃分析等等。圖1-3描述了數(shù)據(jù)挖掘在解決具體的商業(yè)問題時(shí)所遵循的一般流程。在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)領(lǐng)域中也存在許多數(shù)據(jù)挖掘系統(tǒng)。另外,將數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)事務(wù)處理(OLTP)、聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘技術(shù)結(jié)合是近期數(shù)據(jù)庫(kù)開展的一個(gè)趨勢(shì)。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘都可以完成對(duì)決策技術(shù)的支持,相互間有一定的內(nèi)在聯(lián)系,兩者集成,可以有效地提高系統(tǒng)的決策支持能力。目前,電信行業(yè)已經(jīng)逐步建立起數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),在數(shù)據(jù)倉(cāng)庫(kù)的根底上將逐步建立如下數(shù)據(jù)挖掘?qū)n}客戶價(jià)值模型、客戶信用等級(jí)模型、客戶流失預(yù)測(cè)模型、交叉銷售模型、營(yíng)銷方案預(yù)演模型和客戶細(xì)分模型等。數(shù)據(jù)挖掘在電信中的應(yīng)用如圖1-4所示。

圖1-3CRISP-DM的參考模型 數(shù)據(jù)、數(shù)據(jù)挖掘任務(wù)和數(shù)據(jù)挖掘方法的多樣性和復(fù)雜性給數(shù)據(jù)挖掘提出了許多具有挑戰(zhàn)性的課題。數(shù)據(jù)挖掘語(yǔ)言的設(shè)計(jì),高效、準(zhǔn)確的挖掘算法和挖掘系統(tǒng)的開發(fā),交互和繼承的數(shù)據(jù)挖掘環(huán)境的建立,以及應(yīng)用數(shù)據(jù)挖掘技術(shù)解決大型應(yīng)用問題,都是目前數(shù)據(jù)挖掘研究人員、系統(tǒng)和應(yīng)用開發(fā)人員所面臨的主要難題。針對(duì)以上課題,數(shù)據(jù)挖掘產(chǎn)生了很多研究分支,主要有:數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)倉(cāng)庫(kù)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成、可伸縮的數(shù)據(jù)挖掘算法、數(shù)據(jù)挖掘的應(yīng)用、數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化實(shí)現(xiàn)、數(shù)據(jù)挖掘的可視化、對(duì)于復(fù)雜數(shù)據(jù)類型進(jìn)行挖掘的新方法、數(shù)據(jù)挖掘中的隱私保護(hù)與信息、平安等。圖1-4數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用1.3數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用分類數(shù)據(jù)挖掘是由其應(yīng)用的需求所驅(qū)動(dòng)的,每一個(gè)數(shù)據(jù)挖掘工程都有一個(gè)挖掘主題,描述挖掘目標(biāo),指導(dǎo)整個(gè)挖掘過程。電信企業(yè)是典型的以數(shù)據(jù)為驅(qū)動(dòng)的效勞型企業(yè),豐富的數(shù)據(jù)資源以及行業(yè)內(nèi)的劇烈競(jìng)爭(zhēng),促使數(shù)據(jù)挖掘在該行業(yè)得到了較為廣泛的應(yīng)用。數(shù)據(jù)挖掘在電信行業(yè)中的應(yīng)用通常使用挖掘主題來分類,由于電信業(yè)務(wù)的復(fù)雜性和多樣性,產(chǎn)生了許多電信數(shù)據(jù)挖掘主題,下面對(duì)其中常見的主題做一簡(jiǎn)要的介紹。(1)客戶欺詐識(shí)別〔CustomerFraudDetection)指根據(jù)歷史的客戶欺詐數(shù)據(jù)建立用戶屬性、效勞屬性和客戶消費(fèi)數(shù)據(jù)與其欺詐可能性關(guān)聯(lián)的模型,對(duì)每個(gè)客戶在未來實(shí)施欺詐的可能性進(jìn)行量化,以到達(dá)客戶欺詐的識(shí)別和預(yù)防。欺詐識(shí)別是 數(shù)據(jù)挖掘在電信中最為主要的應(yīng)用之一,它的興起緣于電信欺詐行為在電信業(yè) 的普遍存在和不斷擴(kuò)張,以及給電信運(yùn)營(yíng)商造成的越來越大的損失。本文重點(diǎn)研究的客戶惡意欠費(fèi)欺詐預(yù)測(cè)便是客戶欺詐識(shí)別中的一項(xiàng)重要內(nèi)容。 客戶流失預(yù)測(cè)(CustomerChurnPrediction)指通過分析客戶的歷史行為數(shù)據(jù),對(duì) 客戶的忠誠(chéng)度做出評(píng)估,判斷客戶流失的可能性大小??蛻袅魇У膹V泛應(yīng)用是因?yàn)殡娦判袠I(yè),尤其是電信運(yùn)營(yíng)商之間日趨劇烈的競(jìng)爭(zhēng)。競(jìng)爭(zhēng)是電信市場(chǎng)的未來趨勢(shì),盡可能多地爭(zhēng)取新客戶和保存老客戶是電信市場(chǎng)營(yíng)銷的兩大重要內(nèi)容,而客戶流失預(yù)測(cè)是在為效勞后者的根底上興起的,它的主要作用是給出了需要被挽留的客戶范圍,防止了營(yíng)銷手段的盲目性造成的本錢浪費(fèi)。客戶細(xì)分(CustomerSub-division)指按照一定的標(biāo)準(zhǔn)將電信企業(yè)的現(xiàn)有客戶劃分為不同的群體,采取“分而治之〃的策略,針對(duì)不同的客戶群采用不同的營(yíng) 銷手段,一方面可以節(jié)省營(yíng)銷本錢,另一方面能夠到達(dá)更優(yōu)的營(yíng)銷效果。許多營(yíng)銷者認(rèn)為,行為變量,如場(chǎng)合、用戶地位、使用率、忠誠(chéng)度、購(gòu)置階段及購(gòu) 置態(tài)度,是構(gòu)建細(xì)分市場(chǎng)的最正確起點(diǎn),而歷史的電信客戶行為數(shù)據(jù)正好記錄 了以上的這些關(guān)鍵信息,數(shù)據(jù)挖掘正好提供了處理和分析這些信息的有力手段。 交又銷售(CrossSellion)指通過分析電信各類產(chǎn)品之間的關(guān)聯(lián),開發(fā)各類產(chǎn)品的套餐捆綁策略,并且有針對(duì)性地對(duì)老客戶銷售其尚未使用過的相關(guān)產(chǎn)品。與客戶細(xì)分類似,交叉銷售也是有針對(duì)性地進(jìn)行銷售,是重要的現(xiàn)代營(yíng)銷策略之一, 它并不是簡(jiǎn)單地將客戶未購(gòu)置的產(chǎn)品推銷出去,而是根據(jù)每個(gè)個(gè)體的行為特征, 判斷其已購(gòu)置的和哪些未購(gòu)置的產(chǎn)品有較大的關(guān)聯(lián),并將那些有較大關(guān)聯(lián)的未購(gòu)置產(chǎn)品推銷給該客戶。 以上四個(gè)挖掘主題在電信數(shù)據(jù)挖掘的應(yīng)用中最為常見,除此之外,客戶的消費(fèi)模式分析、客戶盈利能力分析、目標(biāo)客戶定位、盜用模式分析和異常模式分析也在電信 行業(yè)得到了應(yīng)用。隨著電信行業(yè)中新問題的不斷涌現(xiàn),新的挖掘主題也會(huì)應(yīng)運(yùn)而生。 數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用現(xiàn)狀隨著電信市場(chǎng)壟斷格局的打破,各個(gè)電信企業(yè)間的競(jìng)爭(zhēng)日趨劇烈,誰(shuí)能提供更好的效勞,誰(shuí)就能占領(lǐng)市場(chǎng),甚至重新獲得行業(yè)的壟斷地位。因此,構(gòu)建其經(jīng)營(yíng)分析系統(tǒng),充分利用其 業(yè)務(wù)支撐系統(tǒng)中每天產(chǎn)生并存儲(chǔ)的大量歷史數(shù)據(jù),實(shí)現(xiàn)對(duì)信息的深加工和處理已成為當(dāng)前電 信企業(yè)系統(tǒng)建設(shè)關(guān)注的焦點(diǎn)。近幾年來,國(guó)內(nèi)外的許多電信企業(yè)已經(jīng)完成從“以產(chǎn)品為中心〃 到“以客戶為中心〃的經(jīng)營(yíng)理念的轉(zhuǎn)變,利用數(shù)據(jù)挖掘進(jìn)行分析以輔助決策,推動(dòng)自身的現(xiàn)代化經(jīng)營(yíng)和內(nèi)部管理。 在國(guó)外,數(shù)據(jù)挖掘在電信行業(yè)中已有較多的應(yīng)用實(shí)例。 美國(guó)西部電信公司(USWEST)是美國(guó)最大的長(zhǎng)途電信運(yùn)營(yíng)公司之一,其擁有的客戶數(shù)量超過2000萬(wàn)。該公司為了進(jìn)一步增強(qiáng)其目標(biāo)市場(chǎng)戰(zhàn)略,使用SAS的企業(yè)數(shù)據(jù)挖掘EnterpriseMiner軟件進(jìn)行經(jīng)營(yíng)分析。USWest利用銷售活動(dòng)管理軟件,配合SAS的EnterpriseMiner,使?fàn)I銷專家能夠?qū)α腥肽繕?biāo)的銷售活動(dòng)進(jìn)行規(guī)劃、執(zhí)行及評(píng)估,這樣既有利于消除銷售人員對(duì)客戶的全部數(shù)據(jù)進(jìn)行評(píng)分,減輕了銷售人員的負(fù)擔(dān),同時(shí)也減少了手工操作所造成的人為錯(cuò)誤,使得公司的市場(chǎng)營(yíng)銷周期大幅縮短。由于能夠?qū)κ袌?chǎng)進(jìn)行更加細(xì)致和高度目標(biāo)化的劃分,USWEST得到了更高的營(yíng)銷投資回報(bào),增強(qiáng)了自身的盈利能力。 老牌電信運(yùn)營(yíng)商、?財(cái)富?500強(qiáng)企業(yè)之一的英國(guó)電信(BritishTelecom)通過數(shù)據(jù)挖掘的手段建立模型,來確定潛在客戶的購(gòu)置傾向和他們變?yōu)橛脩糁罂赡軒淼膬r(jià)值,從而實(shí)現(xiàn)從 市場(chǎng)營(yíng)銷預(yù)算中獲得最大的價(jià)值。英國(guó)電信的“商業(yè)高速公路〃的目標(biāo)為小型商業(yè)客戶;通 過使用SPSS公司的著名數(shù)據(jù)挖掘軟件產(chǎn)品Clementine,英國(guó)電信較為成功實(shí)現(xiàn)了其“商業(yè) 高速公路〃活動(dòng)的數(shù)據(jù)分析和模型建立方面的探索。通過應(yīng)用該系統(tǒng),英國(guó)電信更好地了解

了客戶及其在電信市場(chǎng)的行為特征,向銷售人員和營(yíng)銷活動(dòng)提供了“最正確客戶〃清單,有針對(duì)性地進(jìn)行營(yíng)銷活動(dòng),其直郵活動(dòng)的回應(yīng)率提高了100%o比利時(shí)著名的電信運(yùn)營(yíng)商比利時(shí)電信(Belgacom)購(gòu)置了新型TeradataWarehouse數(shù)據(jù)倉(cāng)庫(kù)解決方案,使用數(shù)據(jù)倉(cāng)庫(kù)建立了客戶信息系統(tǒng),其數(shù)據(jù)倉(cāng)庫(kù)中擁有超過數(shù)據(jù)挖掘手段,1萬(wàn)億字節(jié)的歷史數(shù)據(jù),其中包含了詳細(xì)的通信記錄。通過比利時(shí)電信具有強(qiáng)烈欺詐性的通話方式能夠進(jìn)行欺詐檢測(cè),從而迅速地發(fā)現(xiàn)異常以及,這樣就能夠在這些電信欺詐方式給企業(yè)帶來重大經(jīng)濟(jì)損失之前采取一系列措施加以終止。iW場(chǎng)營(yíng)館AWEKTCEhEMT, ’n■一「「miI網(wǎng)也Ietedby/tf界監(jiān)fbyiW場(chǎng)營(yíng)館AWEKTCEhEMT, ’n■一「「miI網(wǎng)也Ietedby/tf界監(jiān)fby油getH抓■“?成加林‘II林句此為女|標(biāo)世括利峠而inwteE/exffirieTes忡消費(fèi)帯艱叫業(yè)奇s>麻而』PARTYp_series間tNnI—sis古粗姣II被髀決關(guān)pcrienoesardTsclres/is器剛釦即byendnesohestf出?,CildUJlCSiaLWji際tilllWUKfll/rKOrtfi cos呂可EM郵Is址更祿戶Hid—御,eitpedenets/仔劃叩aiedtv.1suppoMs閔Idioandmanagedby;襲r磚趣值I細(xì)5JE通回1口isLtiliiedf的偵J和婦£usage卻reemitswatn.1rowidsdtandpawnedfar噸動(dòng)包括ejtpenenxs^rirppji■ inic^w5零都卩電yA一,tQTFFRIOGKiiencEsI豎E白包而nJismarkelKtn圖1-4某市電信經(jīng)營(yíng)分系統(tǒng)的邏輯模型相對(duì)于國(guó)外的相對(duì)較為成熟的應(yīng)用,電信數(shù)據(jù)挖掘在國(guó)內(nèi)的研究與應(yīng)用還處于剛剛起步的階段,但也不乏一些較為成功的實(shí)例。廈門電信采用CA數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建了電信大客戶關(guān)系管理(CRM)系統(tǒng),對(duì)其管轄范圍內(nèi)大客戶的消費(fèi)習(xí)慣和消費(fèi)偏好進(jìn)行數(shù)據(jù)挖掘,為其管理層做出營(yíng)銷方面的決策提供了較科學(xué)的依據(jù)。除此以外,近年來,中國(guó)電信運(yùn)營(yíng)業(yè)的BOSS(Business&Operationsupportsystem),即業(yè)務(wù)運(yùn)營(yíng)支撐系統(tǒng)的市場(chǎng)規(guī)模占我國(guó)主要電信運(yùn)營(yíng)商設(shè)備投資總額的份額越來越大,運(yùn)營(yíng)商的日常運(yùn)營(yíng)也越來越離不開BOSS系統(tǒng);作為中國(guó)的兩大主流運(yùn)營(yíng)商,中國(guó)電信和中國(guó)移動(dòng)高舉BOSS建設(shè)大旗,其目的是為了提高計(jì)費(fèi)結(jié)算、營(yíng)業(yè)帳務(wù)、客戶效勞、決策支持等能力,希望通過固定報(bào)表、專題分析、多維分析、數(shù)據(jù)挖掘等多種數(shù)據(jù)分析的手段幫助電信企業(yè)有效遏制存量流失、激發(fā)收入增量,其經(jīng)營(yíng)方式也將實(shí)現(xiàn)從粗放式到精細(xì)化的轉(zhuǎn)變,順應(yīng)了現(xiàn)代的經(jīng)營(yíng)管理理念。1.4數(shù)據(jù)質(zhì)量評(píng)估研究概述數(shù)據(jù)質(zhì)量評(píng)估的背景和意義現(xiàn)代社會(huì)是一個(gè)充滿數(shù)據(jù)的社會(huì),數(shù)據(jù)資源是企業(yè)實(shí)現(xiàn)信息化的必要根底和珍貴資本,然而隨著企業(yè)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量的急劇膨脹、新應(yīng)用的不斷出現(xiàn)以及各類應(yīng)用之間越來越頻繁的相互整合,數(shù)據(jù)質(zhì)量問題日益顯現(xiàn)并日漸突出;這些數(shù)據(jù)質(zhì)量問題主要表現(xiàn)為數(shù)據(jù)不正確、數(shù)據(jù)不一致、數(shù)據(jù)不完整等方面,亟需一套方案對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效管理。質(zhì)量低劣的數(shù)據(jù)已經(jīng)成為影響企業(yè)進(jìn)行正確決策的重要因素,所以數(shù)據(jù)質(zhì)量管理必將成為企業(yè)進(jìn)行信息化進(jìn)程中一個(gè)不可或缺的重要環(huán)節(jié)。針對(duì)數(shù)據(jù)質(zhì)量問題的各個(gè)環(huán)節(jié),其中包括數(shù)據(jù)清洗、數(shù)據(jù)整合、相似記錄檢測(cè)、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量過程控制和管理等,業(yè)界的學(xué)者已進(jìn)行了大量的學(xué)術(shù)研究以及實(shí)際應(yīng)用方面的探索。在數(shù)據(jù)質(zhì)量管理的所有環(huán)節(jié)中,數(shù)據(jù)質(zhì)量評(píng)估 是提高數(shù)據(jù)質(zhì)量的根底和必要前提,它能對(duì)應(yīng)用系統(tǒng)的整體或局部數(shù)據(jù)的質(zhì)量狀況給出一個(gè) 合理的描述和評(píng)價(jià),從而可以幫助數(shù)據(jù)用戶了解應(yīng)用系統(tǒng)的數(shù)據(jù)質(zhì)量水平,及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì) 量問題,并采取相應(yīng)的處理過程來修復(fù)數(shù)據(jù)質(zhì)量問題,提高數(shù)據(jù)質(zhì)量。 數(shù)據(jù)質(zhì)量評(píng)估〔(DataQualityAssessment〕是數(shù)據(jù)質(zhì)量管理(DataQualityManagement的重要組成局部,承當(dāng)著發(fā)現(xiàn)數(shù)據(jù)問題的重任,是改善數(shù)據(jù)質(zhì)量的驅(qū)動(dòng)力和風(fēng)向標(biāo)。數(shù)據(jù)質(zhì)量 是一個(gè)多維的概念,每一個(gè)維度代表一個(gè)審視數(shù)據(jù)質(zhì)量的角度,例如可信度(Believability)、完整度(Completeness)、精簡(jiǎn)度(ConciseRepresentation)、及時(shí)度(Timeliness)、可理解度(understandability)等,數(shù)據(jù)質(zhì)量評(píng)估是以需求為導(dǎo)向的,同樣的數(shù)據(jù)在不同的應(yīng)用背景下的接 受度是不同的,例如對(duì)于數(shù)據(jù)挖掘,同樣的數(shù)據(jù)在一個(gè)挖掘主題下表現(xiàn)良好,而在另一個(gè)挖 掘主題下卻得不到有意義的結(jié)果。因此,需求分析實(shí)際上是維度選擇的過程,數(shù)據(jù)質(zhì)量評(píng)估 從一個(gè)或幾個(gè)維度出發(fā),以動(dòng)態(tài)或靜態(tài)的方式審視數(shù)據(jù)。所謂動(dòng)態(tài)的評(píng)估方式,是指從數(shù)據(jù) 產(chǎn)生機(jī)制上對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,而靜態(tài)方式只考慮數(shù)據(jù)本身。雖然動(dòng)態(tài)的評(píng)估方式能夠更 徹底全面地對(duì)數(shù)據(jù)質(zhì)量做出評(píng)價(jià),但在很多的應(yīng)用背景下,如數(shù)據(jù)挖掘,往往受條件限制, 無法得知數(shù)據(jù)產(chǎn)生機(jī)制的信息。 數(shù)據(jù)質(zhì)量的定義隨著具體應(yīng)用背景的不同而不同,因此,在進(jìn)行具體的數(shù)據(jù)質(zhì)量評(píng)估時(shí), 要根據(jù)具體的數(shù)據(jù)質(zhì)量評(píng)估需求對(duì)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)進(jìn)行相應(yīng)的取舍。但是,數(shù)據(jù)質(zhì)量評(píng)估 至少應(yīng)包含以下兩個(gè)方面的根本評(píng)估指標(biāo), 數(shù)據(jù)對(duì)用戶來說必須是可以信賴的,其中包括精確性、完整性、 有效性、一致性、唯一性等指標(biāo),其具體含義列舉如下 精確性(Accurate):數(shù)據(jù)是否客觀真實(shí),是否存在虛假。 完整性(ComPlete):數(shù)據(jù)是否存在缺失的記錄或字段。 有效性(valid):數(shù)據(jù)是否滿足用戶定義的條件或處于一定的域值范圍內(nèi)。一致性(Consistent):同一實(shí)體的同一屬性值在不同的系統(tǒng)或數(shù)據(jù)集中的表達(dá)是否是一致的。 唯一性(unique):數(shù)據(jù)中是否存在重復(fù)。 數(shù)據(jù)對(duì)用戶必須是可以使用的,其中包括穩(wěn)定性、時(shí)間性等方面的指標(biāo),其具體含義如下: 穩(wěn)定性(Volatile):數(shù)據(jù)是否穩(wěn)定,是否處于有效期內(nèi)。 時(shí)間性(Timely):數(shù)據(jù)是當(dāng)前的還是歷史的。 為了實(shí)現(xiàn)有效的數(shù)據(jù)質(zhì)量評(píng)估,下面給出了一個(gè)數(shù)據(jù)質(zhì)量評(píng)估模型,該模型由六個(gè)要素組成,是一個(gè)六元組,M=vD,I,R,W,E,S>其中 D:待評(píng)估數(shù)據(jù)集;對(duì)于關(guān)系數(shù)據(jù)庫(kù)來講,一個(gè)表或視圖代表一個(gè)數(shù)據(jù)集。 I:數(shù)據(jù)集D上需要進(jìn)行評(píng)估的指標(biāo),或稱數(shù)據(jù)質(zhì)量維度。 R:與評(píng)估指標(biāo)集I相對(duì)應(yīng)的規(guī)那么,規(guī)那么既可使用標(biāo)準(zhǔn)化的自然語(yǔ)言表達(dá),也可使用形式 化的語(yǔ)言來書寫,以便轉(zhuǎn)換成程序腳本。泌賦予規(guī)那么R的權(quán)值,為大于0的整數(shù),描述了規(guī)那么R在所有規(guī)那么中所占的比重。 E:對(duì)規(guī)那么R給出的期望值,為介于0到100之間的實(shí)數(shù),是在評(píng)估之前對(duì)規(guī)那么R所期望得到的結(jié)果。 S:規(guī)那么R對(duì)應(yīng)的最終結(jié)果,為介于0到100之間的實(shí)數(shù),是在檢測(cè)規(guī)那么R后得到的結(jié)果。 數(shù)據(jù)質(zhì)量評(píng)估的研究現(xiàn)狀 隨著電信行業(yè)內(nèi)部競(jìng)爭(zhēng)的加劇,數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)的有效工具已得到廣泛應(yīng)用。電 信行業(yè)有著豐富的數(shù)據(jù)資源,但由于各個(gè)數(shù)據(jù)源的數(shù)據(jù)質(zhì)量參差不齊,加之?dāng)?shù)據(jù)倉(cāng)庫(kù)的ETL 機(jī)制本身的某些問題,導(dǎo)致在數(shù)據(jù)集成時(shí)產(chǎn)生數(shù)據(jù)缺失和錯(cuò)誤,對(duì)挖掘結(jié)果產(chǎn)生巨大影響。 因此,合理量化這種影響,對(duì)數(shù)據(jù)質(zhì)量做出評(píng)估,這對(duì)分析數(shù)據(jù)挖掘的可行性具有重要意義。 對(duì)于數(shù)據(jù)質(zhì)量評(píng)估,一些研究人員也開展了許多的研究工作。文獻(xiàn)1從不同的角度提出 了數(shù)據(jù)質(zhì)量的評(píng)估方法,文獻(xiàn)2設(shè)計(jì)了一個(gè)數(shù)據(jù)質(zhì)量分析和瀏覽的工具,文獻(xiàn)3從用戶的角 度描述了對(duì)數(shù)據(jù)質(zhì)量評(píng)估的要求,文獻(xiàn)4給出了一種基于屬性的數(shù)據(jù)質(zhì)量評(píng)估模型。但總的 來講,已有的研究成果大局部集中在框架理論,較少涉及特定的行業(yè)背景和具體應(yīng)用,而面 向特定數(shù)據(jù)挖掘主題的數(shù)據(jù)質(zhì)量評(píng)估,尚未有專門的文獻(xiàn)進(jìn)行討論。基于實(shí)際經(jīng)驗(yàn),每個(gè)行 業(yè)、每個(gè)應(yīng)用都有自己的特點(diǎn),對(duì)數(shù)據(jù)的評(píng)估方法也應(yīng)有所差異,只能夠相互借鑒,但不能 夠完全照搬,應(yīng)該“量身定制〃。本論文所做的研究工作就是針對(duì)電信欠費(fèi)挖掘這一具體的 應(yīng)用背景,充分考慮該背景下數(shù)據(jù)集和數(shù)據(jù)挖掘本身的特點(diǎn),搭建了相對(duì)完整的數(shù)據(jù)質(zhì)量評(píng) 估體系,實(shí)現(xiàn)了面向電信欠費(fèi)挖掘的數(shù)據(jù)質(zhì)量評(píng)估,為挖掘的可行性分析提供了指導(dǎo)。 二、數(shù)據(jù)質(zhì)量評(píng)估技術(shù)與方法 本章首先表達(dá)了面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評(píng)估的意義以及數(shù)據(jù)質(zhì)量評(píng)估的一般方法,然 后針對(duì)欠費(fèi)挖掘主題,表達(dá)了電信行業(yè)欠費(fèi)的現(xiàn)狀與危害,以及欠費(fèi)挖掘的現(xiàn)實(shí)意義,并對(duì) 電信欠費(fèi)挖掘中的非平衡問題、缺失問題、離群?jiǎn)栴}的研究成果作了簡(jiǎn)要回憶,介紹了解決 這些問題的常用算法,為后續(xù)提出面向電信欠費(fèi)挖掘的數(shù)據(jù)質(zhì)量評(píng)估策略作鋪墊。2.1引言 隨著電信行業(yè)競(jìng)爭(zhēng)的不斷加劇,數(shù)據(jù)挖掘作為一種知識(shí)提取和決策支持的手段,已得到 了廣泛的應(yīng)用。然而,由于電信企業(yè)數(shù)據(jù)采集系統(tǒng)人為和非人為的擾動(dòng),造成各個(gè)數(shù)據(jù)源的 數(shù)據(jù)質(zhì)量參差不齊,加之?dāng)?shù)據(jù)倉(cāng)庫(kù)的ETL機(jī)制本身的某些問題,導(dǎo)致在數(shù)據(jù)集成時(shí)發(fā)生數(shù) 據(jù)缺失和錯(cuò)誤,造成數(shù)據(jù)的整體質(zhì)量不高,從而對(duì)數(shù)據(jù)挖掘的結(jié)果產(chǎn)生影響。因此,合理地 量化這種影響,對(duì)數(shù)據(jù)質(zhì)量做出評(píng)估,這對(duì)分析數(shù)據(jù)挖掘的可行性、減少無回報(bào)本錢具有重要的積極意義。 2.2面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評(píng)估 2.2.1數(shù)據(jù)質(zhì)量評(píng)估的意義 數(shù)據(jù)質(zhì)量是一個(gè)相對(duì)的概念。在不同的時(shí)期,數(shù)據(jù)質(zhì)量有著不同的定義和評(píng)估標(biāo)準(zhǔn)。20 世紀(jì)80年代以來,國(guó)際上普遍認(rèn)為,數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)根本上是圍繞著以提高數(shù)據(jù)準(zhǔn)確性為 出發(fā)點(diǎn)和原那么的。然而,隨著質(zhì)量本身的含義不斷進(jìn)行延伸,數(shù)據(jù)質(zhì)量的概念也由原來的 狹義轉(zhuǎn)變?yōu)閺V義,其中,基于實(shí)際需要,融入了許多數(shù)據(jù)質(zhì)量的考察和評(píng)判的標(biāo)準(zhǔn),準(zhǔn)確性 不再是衡量數(shù)據(jù)質(zhì)量的惟一指標(biāo)。上世紀(jì)90年代,美國(guó)的麻省理工學(xué)院開展了全面數(shù)據(jù)質(zhì) 量管理TDQM(TotalDataQualityManagement)的活動(dòng),該活動(dòng)借鑒了物理產(chǎn)品質(zhì)量管理體系的成功經(jīng)驗(yàn),提出了以信息生產(chǎn)系統(tǒng)生產(chǎn)的數(shù)據(jù)產(chǎn)品為根底的質(zhì)量管理體系。該活動(dòng)提出, 應(yīng)充分、客觀、全面地理解用戶的信息需求,將數(shù)據(jù)看作具有生命周期的產(chǎn)品,并對(duì)此進(jìn)行 管理,要設(shè)置數(shù)據(jù)產(chǎn)品管理員來管理數(shù)據(jù)生產(chǎn)的整個(gè)過程和結(jié)果。在數(shù)據(jù)生產(chǎn)過程中形成的 質(zhì)量維度,如準(zhǔn)確性(Accuracy)、完整性(Completeness)、一致性(Consistence)等,已經(jīng)成為數(shù)據(jù)質(zhì)量評(píng)估的根本要求;另外,用戶對(duì)數(shù)據(jù)的滿意程度也已成為衡量數(shù)據(jù)質(zhì)量的重要指標(biāo)之一。 目前,尚未形成系統(tǒng)化的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),數(shù)據(jù)質(zhì)量評(píng)估往往只零散地針對(duì)系統(tǒng)中比 擬重要的質(zhì)量指標(biāo),如一致性問題、復(fù)雜性問題、完整性問題等來進(jìn)行。在數(shù)據(jù)質(zhì)量評(píng)估領(lǐng) 域已經(jīng)得到使用的產(chǎn)品,如CRG的完整度分析器IA(IntegrityAnalyzer),可以實(shí)現(xiàn)對(duì)數(shù)據(jù)完整性的嚴(yán)格檢查,這里的完整性包括實(shí)體完整性、引用完整性、域完整性以及用戶自定義 的完整性。數(shù)據(jù)質(zhì)量的描述通??梢苑譃椴煌膶哟危贿^到目前為止,還沒有形成專門用于表示這種層次性的統(tǒng)一術(shù)語(yǔ),例如,有的用類和域表示這種層次,而ISOTC211那么用數(shù)據(jù)質(zhì)量元素及子元素來表達(dá)。不同的應(yīng)用領(lǐng)域?qū)?shù)據(jù)質(zhì)量的描述也是不同的,因此,建立反映應(yīng)用領(lǐng)域特點(diǎn)的數(shù)據(jù)質(zhì)量框架,是數(shù)據(jù)質(zhì)量評(píng)估所要解決的首要問題。 數(shù)據(jù)質(zhì)量評(píng)估是面向應(yīng)用的,同樣的數(shù)據(jù)在不同的應(yīng)用背景下的接受度是不同的,例如對(duì)于數(shù)據(jù)挖掘,同樣的數(shù)據(jù)在一個(gè)挖掘主題下表現(xiàn)良好,而在另一個(gè)挖掘主題下卻得不到有意義的結(jié)果。因此,需求分析實(shí)際上是維度選擇的過程,數(shù)據(jù)質(zhì)量評(píng)估從一個(gè)或幾個(gè)維度出發(fā),以動(dòng)態(tài)或靜態(tài)的方式審視數(shù)據(jù)。所謂動(dòng)態(tài)的評(píng)估方式,是指從數(shù)據(jù)產(chǎn)生機(jī)制上對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,而靜態(tài)方式只考慮數(shù)據(jù)本身。雖然動(dòng)態(tài)的評(píng)估方式能夠更徹底全面地對(duì)數(shù)據(jù)質(zhì)量做出評(píng)價(jià),但在很多的應(yīng)用背景下,如數(shù)據(jù)挖掘,往往受條件限制,無法得知數(shù)據(jù)產(chǎn)生機(jī)制的信息。面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評(píng)估DM-QDA(DataMiningOrientedDataQualityAssessment)是具有實(shí)際意義的,因?yàn)閿?shù)據(jù)挖掘常常是一個(gè)龐大的工程,需要投入較多的時(shí)間、人力和物力,所以在數(shù)據(jù)挖掘工程真正開始之前,對(duì)數(shù)據(jù)挖掘的可行性分析顯得尤為重要,而為數(shù)據(jù)挖掘可行性提供指導(dǎo)正是數(shù)據(jù)質(zhì)量評(píng)估的意義所在。2.2.2數(shù)據(jù)質(zhì)量評(píng)估的一般方法雖然數(shù)據(jù)質(zhì)量的評(píng)估方法會(huì)隨著其應(yīng)用背景的變化而變化,但拋開與應(yīng)用背景相關(guān)的內(nèi)容,可以從中抽取數(shù)據(jù)質(zhì)量評(píng)估的核心方法論,即數(shù)據(jù)質(zhì)量評(píng)估的一般方法。如果使用定性分析的方法,采用數(shù)據(jù)質(zhì)量的廣義概念,可以歸納出缺陷數(shù)據(jù)的兩個(gè)來源,一個(gè)是來源于面向?qū)嵺`的原因,另一個(gè)是面向結(jié)構(gòu)的原因,其中,前者源自用戶通過系統(tǒng)獲取或者操作了帶有缺陷的數(shù)據(jù),而后者的原因在于與用戶的需求和設(shè)計(jì)滿足需求的物理數(shù)據(jù)實(shí)施時(shí)產(chǎn)生了數(shù)據(jù)不匹配。因此,基于以上所述的兩個(gè)原因,現(xiàn)代數(shù)據(jù)質(zhì)量的一般概念主要包含兩個(gè)方面的內(nèi)容:一方面,要注重從面向?qū)嵺`方面來衡量數(shù)據(jù)質(zhì)量,即從數(shù)據(jù)的用戶的角度出發(fā),來判定數(shù)據(jù)質(zhì)量,強(qiáng)調(diào)用戶的滿意度,或者也可以站在數(shù)據(jù)的生產(chǎn)者和管理者的位置來考慮數(shù)據(jù)質(zhì)量問題;另一方面,要注重從面向系統(tǒng)的角度來評(píng)價(jià)數(shù)據(jù)質(zhì)量,因?yàn)閿?shù)據(jù)質(zhì)量是一個(gè)綜合性的概念,所以要建立一套行之有效的數(shù)據(jù)質(zhì)量管理體系,應(yīng)該從數(shù)據(jù)質(zhì)量的根本要素,如準(zhǔn)確性、適用性、完整性、一致性、可比性、適時(shí)性等多個(gè)不同的角度來評(píng)價(jià)數(shù)據(jù)質(zhì)量的優(yōu)劣。只有對(duì)信息系統(tǒng)的質(zhì)量水平有了正確的認(rèn)識(shí)并且了解問題產(chǎn)生的原因,才可以實(shí)質(zhì)性地提高數(shù)據(jù)生產(chǎn)質(zhì)量,在數(shù)據(jù)流動(dòng)的各個(gè)環(huán)節(jié)進(jìn)行質(zhì)量控制。在這種意義上,從數(shù)據(jù)的用戶或數(shù)據(jù)共享的角度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行描述,除去如準(zhǔn)確性等本征質(zhì)量指標(biāo)外,數(shù)據(jù)的可得性、是否表達(dá)得清晰易懂、滿足用戶要求的程度、動(dòng)態(tài)的數(shù)據(jù)質(zhì)量等也應(yīng)成為衡量數(shù)據(jù)質(zhì)量的重要方面。接近于用戶接近于體系結(jié)柚接近于用戶圖2-1數(shù)據(jù)質(zhì)量維度的層次關(guān)系有效的數(shù)據(jù)質(zhì)量工程依賴質(zhì)量措施確實(shí)定,在面向?qū)嵺`和面向結(jié)構(gòu)方面可以用四個(gè)維度來概括數(shù)據(jù)質(zhì)量評(píng)價(jià)的框架,這四個(gè)維度分別是:數(shù)據(jù)值質(zhì)量、數(shù)據(jù)表示質(zhì)量、數(shù)據(jù)模型質(zhì)量和數(shù)據(jù)體系質(zhì)量。注意,這里的數(shù)據(jù)質(zhì)量維度是指考察數(shù)據(jù)質(zhì)量的各個(gè)層次,而非前文中提到的考察數(shù)據(jù)質(zhì)量的指標(biāo),前者是層級(jí)關(guān)系,后者是并列關(guān)系,本小節(jié)之外提到的數(shù)據(jù)質(zhì)量維度均指的是后者。四個(gè)數(shù)據(jù)質(zhì)量維度的層次關(guān)系如圖2-1所示,數(shù)據(jù)質(zhì)量評(píng)估的一般方法就是從這四個(gè)數(shù)據(jù)質(zhì)量維度展開對(duì)數(shù)據(jù)質(zhì)量的全面評(píng)估。數(shù)據(jù)質(zhì)量維度把信息系統(tǒng)中存儲(chǔ)并加以維護(hù)的數(shù)據(jù)質(zhì)量作為事實(shí)結(jié)合體,由具體實(shí)體和一些屬性構(gòu)成。其中,數(shù)據(jù)表示質(zhì)量這一維度一般是面向數(shù)據(jù)的消費(fèi)用戶的,指的是存儲(chǔ)數(shù)據(jù)值的表示質(zhì)量;對(duì)數(shù)據(jù)消費(fèi)用戶而言,存儲(chǔ)于信息系統(tǒng)中準(zhǔn)確的數(shù)據(jù)值的不正確表示可能會(huì)導(dǎo)致數(shù)據(jù)的消費(fèi)擁護(hù)這一端的產(chǎn)生數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)值質(zhì)量指的是系統(tǒng)所存儲(chǔ)數(shù)據(jù)的實(shí)際的質(zhì)量,這個(gè)數(shù)據(jù)質(zhì)量維度是最為本質(zhì)的,該維度上的數(shù)據(jù)質(zhì)量問題必然涉及其它質(zhì)量維度。數(shù)據(jù)模型質(zhì)量維度關(guān)注的是數(shù)據(jù)模型是否合理,其邏輯上代表與數(shù)據(jù)實(shí)體、關(guān)聯(lián)屬性及兩者之間關(guān)系相關(guān)的用戶需求,數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)的質(zhì)量數(shù)據(jù)模型對(duì)于用戶和系統(tǒng)開發(fā)人員之間的溝通至關(guān)重要。數(shù)據(jù)體系結(jié)構(gòu)質(zhì)量這一維度是最靠近系統(tǒng)的體系結(jié)構(gòu)這一端的質(zhì)量維度,它解決的是數(shù)據(jù)的體系結(jié)構(gòu)問題,并對(duì)跨功能系統(tǒng)的開發(fā)和操作中涉及的數(shù)據(jù)管理活動(dòng)進(jìn)行協(xié)調(diào);該質(zhì)量維度的主要特點(diǎn)是站在系統(tǒng)整體框架的高度,提供在組織范圍內(nèi)的用戶對(duì)數(shù)據(jù)的需求和滿足這些需求的具體系統(tǒng)之間的有效聯(lián)系,從而實(shí)現(xiàn)系統(tǒng)間的數(shù)據(jù)共享。2.3電信數(shù)據(jù)挖掘中的數(shù)據(jù)質(zhì)量問題2.3.1欠費(fèi)挖掘中的非平衡問題電信企業(yè)擁有龐大的客戶數(shù)量,客戶群體的構(gòu)成較為復(fù)雜。費(fèi)和數(shù)據(jù)通信費(fèi)是電信企業(yè)最重要的收入來源,電信企業(yè)只有及時(shí)、足額地收取這些費(fèi)用,才能保證自身的正常運(yùn)營(yíng)。近幾年來,隨著電信行業(yè)內(nèi)壟斷格局的打破以及競(jìng)爭(zhēng)的加劇,各大運(yùn)營(yíng)商也紛紛開始降低開戶的門檻,以吸納更多的客戶;然而,門檻降低了,隨之而來的卻是客戶誠(chéng)信度的降低,客戶惡意拖欠話費(fèi)的現(xiàn)象日益增多,惡意欠費(fèi)的隊(duì)伍日益龐大,每年都會(huì)給電信運(yùn)營(yíng)商造成巨大的損失。惡意欠費(fèi)現(xiàn)象已經(jīng)成為電信企業(yè)開展的主要困擾,究其緣由,主要有以下幾方面的原因:第一,低廉的開戶費(fèi)是孕育惡意欠費(fèi)的溫床,尤其是2001年7月1日國(guó)家財(cái)政部、計(jì)委、信息產(chǎn)業(yè)部發(fā)文取消固定的初裝費(fèi),以及入網(wǎng)的零手續(xù)費(fèi)之后,電信開戶幾乎沒有手續(xù)費(fèi);第二,房屋、門市、鋪面的出租給伺機(jī)惡意欠費(fèi)者提供了方便,因?yàn)檫@些出租戶同時(shí)也會(huì)連同一起出租給住戶,而住戶那么會(huì)在搬遷之前的兩三個(gè)月大量消費(fèi)費(fèi),當(dāng)電信部門上門催繳時(shí),卻發(fā)現(xiàn)已經(jīng)人去樓空;第三,我國(guó)在參加WTO以后,電信業(yè)也要與國(guó)際接軌,電信效勞質(zhì)量也一直成為各大媒體關(guān)注的熱點(diǎn)和焦點(diǎn),于是,電信企業(yè)在欠費(fèi)問題的解決上慎之又慎,這也在一定程度上縱容了惡意欠費(fèi)行為;第四,新電信條例給蓄意欠費(fèi)者提供可乘之機(jī),2000年新公布的?中華人民共和國(guó)?規(guī)定,用戶欠費(fèi)在到達(dá)三個(gè)月前方可停機(jī),一些欠費(fèi)者抓住時(shí)機(jī),在三個(gè)月內(nèi)拼命消費(fèi),然后一走了之,留下巨額無法收回的欠款,電信條例實(shí)質(zhì)上便成為這些惡意欠費(fèi)者的“擋箭牌〃。就欠費(fèi)的治理來講,方法有很多,其中,如何根據(jù)電信客戶的歷史行為表現(xiàn)準(zhǔn)確地預(yù)測(cè)其將來的欠費(fèi)行為是比擬科學(xué)和有效地,因此這也是電信企業(yè)降低惡意欠費(fèi)率的關(guān)鍵任務(wù)。電信企業(yè)擁有大量珍貴的數(shù)據(jù)資源,其中包含了客戶的根本資料、行為信息、價(jià)值信息等數(shù)據(jù),因此,利用數(shù)據(jù)挖掘中的分類技術(shù),可以對(duì)客戶的欠費(fèi)行為做出預(yù)測(cè)。然而,欠費(fèi)挖掘不同于一般的分類問題,因?yàn)榍焚M(fèi)的客戶相對(duì)于全體客戶,畢竟只占很小的比例,所以欠費(fèi)挖掘?qū)儆诜瞧胶夥诸悊栴}。非平衡分類問題在實(shí)際問題中占有一定的比例,因此在這個(gè)領(lǐng)域已經(jīng)有一些研究成果,雖然這些研究成果缺乏以完全解決這個(gè)問題。所謂不平衡分類問題,是指訓(xùn)練樣本數(shù)量在類分布不平衡的模式分類問題。具體地說就是某些的樣本數(shù)量遠(yuǎn)遠(yuǎn)少于其它類。這里將具有少量樣本的那些類稱為正類,將具有大量樣本的那些類稱為負(fù)類。物以稀為貴,正類的信息、通常是人們關(guān)注的焦點(diǎn),因?yàn)樗巳藗兏信d趣的行為信息。在許多實(shí)際的模式分類問題中,同樣存在樣本數(shù)量稀少的類,它們雖然很重要,但是用傳統(tǒng)的分類方法,卻難以被正確分類。當(dāng)使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法來解決這些不平衡分類問題時(shí),往往會(huì)出現(xiàn)正類的預(yù)測(cè)準(zhǔn)確率大大低于負(fù)類,得到的分類器具有很大的偏向性,從而導(dǎo)致分類器性能的大幅度下降。因此,雖然總體的分類準(zhǔn)確率很高,很多本來屬于正類的樣本被錯(cuò)分到負(fù)類,加之正類樣本數(shù)本來就稀少,造成大局部的正類都被預(yù)測(cè)錯(cuò)誤,使得實(shí)際問題難以得到解決。在實(shí)際應(yīng)用中,非平衡問題很常見。非平衡問題有本質(zhì)非平衡和非本質(zhì)非平衡之分。對(duì)于本質(zhì)非平衡問題,其原始數(shù)據(jù)本身的分布就存在不平衡,例如對(duì)信用卡非法交易的檢測(cè),這些問題都以稀有類的信息、為關(guān)注的重點(diǎn),如在信用卡非法交易記錄的監(jiān)測(cè)問題中,非法交易記錄是監(jiān)測(cè)的目標(biāo),但訓(xùn)練數(shù)據(jù)中包含大量正常的信用卡交易記錄,只有很少的一局部屬于非法交易,使用普通的模式分類方法,非法交易記錄的檢測(cè)率很低。非本質(zhì)非平衡問題源自數(shù)據(jù)收集過程中因?yàn)槿藶橐蛩囟斐傻臄?shù)據(jù)不平衡現(xiàn)象,例如由于個(gè)人隱私或者高昂的數(shù)據(jù)采集代價(jià)等因素,某些類的樣本數(shù)量過少。除此之外,還有一些非平衡問題來自多類(Multi-Class)問題和多標(biāo)號(hào)(Multi-Label)問題的分解,這種分解事為了解決有些分類器,如支持向量機(jī)(SupportvectorMachine),無法直接解決多分類問題,必須將原始問題分解成一系列二分類問題才能夠間接地解決,這樣很容易導(dǎo)致原來平衡分類問題變得不平衡,原來非平衡分類問題變得更加不平衡,嚴(yán)重影響分類器的實(shí)際性能。對(duì)于非平衡問題,已有學(xué)者提出一些解決的策略,這些策略大致可以分為兩大類:一類是從訓(xùn)練集入手,通過改變訓(xùn)練集樣本分布,降低不平衡程度;另一類是從學(xué)習(xí)的算法入手,根據(jù)算法在解決不平衡問題時(shí)的缺陷,適當(dāng)?shù)貙?duì)算法加以改良,使之適應(yīng)不平衡分類問題。降低訓(xùn)練集非平衡程度的方法主要包括訓(xùn)練集重采樣方法和訓(xùn)練集劃分方法;學(xué)習(xí)算法改良層面的策略主要包括分類器集成、代價(jià)敏感學(xué)習(xí)和特征選擇的方法等。下面對(duì)這些方法做一簡(jiǎn)要介紹。 ⑴重采樣方法重采樣方法是解決非平衡分類最常用的方法。重采樣的根本思想是指通過增加正類訓(xùn)練樣本數(shù)的上采樣(Up-Sampling)和減少負(fù)類樣本數(shù)的下采樣(Down-sampling),使原來不平衡的樣本分布變得平衡或較原來平衡,從而提高分類器對(duì)稀有類的預(yù)測(cè)準(zhǔn)確率。最原始的上采樣方法是復(fù)制正類的樣本,但這樣做一方面容易導(dǎo)致過學(xué)習(xí),另一方面對(duì)提高正類的預(yù)測(cè)準(zhǔn)確率沒有太大的幫助。較為先進(jìn)一些的上采樣方法那么采用一些啟發(fā)式的技巧,有選擇地復(fù)制正類樣本,或者重新生成新的正類樣本;例如,Chawl等人提出的SMOTE算法就是一種簡(jiǎn)單有效的上采樣方法,該方法首先為每個(gè)正類樣本隨機(jī)選出幾個(gè)與其鄰近的樣本,并且在該樣本與這些鄰近樣本的連線上隨機(jī)取點(diǎn),從而生成沒有重復(fù)的新的正類合成樣本。下采樣通過舍棄局部負(fù)類樣本的方法來降低它的不平衡程度。例如,Kubat和Matwin采用單邊采樣方式,去除大類中的噪聲、邊界和冗余樣本。盡管重采樣的方法在一些數(shù)據(jù)集上的應(yīng)用效果不錯(cuò),但也存在一些本質(zhì)缺陷。上采樣的方法并不增加任何新的數(shù)據(jù)樣本,只是重復(fù)一些已有的數(shù)據(jù)樣本或增加一些人工生成的正類樣本,這樣做一方面增加了訓(xùn)練時(shí)間,另一方面,上采樣對(duì)某些正類樣本的復(fù)制,或在它周圍合成新的正類樣本,這會(huì)造成分類器過分注重這些正類樣本,導(dǎo)致過學(xué)習(xí)。上采樣不能從本質(zhì)上解決正類樣本的稀缺性和數(shù)據(jù)表示的不完備性,因而有人指出,它的性能表現(xiàn)較下采樣要差;但是同時(shí)也有學(xué)者指出,下采樣在去除負(fù)類樣本時(shí),容易去除負(fù)類樣本中包含的某些重要的信息,同樣存在很大的弊端,盡管存在“些啟發(fā)式的下采樣方法,能夠做到只去除冗余樣本和噪聲樣本,但在大多數(shù)情況下,這類樣本只占樣本總量的一小局部,因此,這種方法能夠調(diào)整的不平衡程度是十分有限的。(2)訓(xùn)練集劃分方法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行劃分,是另一類可以有效降低訓(xùn)練數(shù)據(jù)集非平衡程度方法。Chan和Stolfo首先根據(jù)代價(jià)敏感學(xué)習(xí)的需要,學(xué)習(xí)到一個(gè)合理的類別樣本分布比例;然后將負(fù)類樣本隨機(jī)劃分成一系列不相交子集,這些子集的大小由正類樣本集的數(shù)量和預(yù)先學(xué)習(xí)得到的樣本分布比例來決定;接下來分別將這些不相交的子集和正類樣本互相結(jié)合,由此組成一系列平衡的分類子問題,針對(duì)這些子問題單獨(dú)訓(xùn)練得到一系列子分類器;最后通過元學(xué)習(xí)(MetaLeaning),將這些子分類器的輸出進(jìn)一步學(xué)習(xí),從而得到組合分類器,以實(shí)現(xiàn)最終的分類。另外,Lu和Ito提出了最小最大模塊化(Min-MaxModular)神經(jīng)網(wǎng)絡(luò)模型,該模型利用最小最大化集成的規(guī)那么,可以有效將子分類器組合起來,使組合分類器容易實(shí)現(xiàn)并列學(xué)習(xí)和增量學(xué)習(xí)。在這之后,Lu等人將上述模型推廣到支持向量機(jī)(SupportVectorMachine),并提出了“局部對(duì)局部〃(Partvs.Part)任務(wù)分解策略,該種策略可以對(duì)不平衡二分類子問題進(jìn)行進(jìn)一步的分解,這種分解策略可以自由地事先對(duì)每個(gè)子問題的規(guī)模及平衡度的控制,并且可以依照先驗(yàn)知識(shí)和訓(xùn)練集樣本的分布特征,制定有效的分解規(guī)那么。已經(jīng)有實(shí)驗(yàn)結(jié)果說明,訓(xùn)練集劃分方法比重采樣方法和代價(jià)敏感學(xué)習(xí)方法能夠更有效地解決數(shù)據(jù)集的非平衡問題。分類器集成方法 前面提到,通過訓(xùn)練數(shù)據(jù)集的劃分而得到的子分類器,利用分類器集成的方法取得了良好的效果。Kotsiantis和Pintelas將習(xí)訓(xùn)練數(shù)據(jù)集重采樣后,用三種學(xué)習(xí)方法分別加以訓(xùn)練,然后采用多數(shù)投票的方式給出預(yù)測(cè)的類別;有實(shí)驗(yàn)結(jié)果說明,他們的方法能提高對(duì)正類樣本的預(yù)測(cè)準(zhǔn)確率。Estabrook等人經(jīng)過計(jì)算發(fā)現(xiàn),根據(jù)訓(xùn)練數(shù)據(jù)集的自然分布得到的分類器,其推廣能力不一定是最好的,由此,他們提出了通過對(duì)原不平衡分類問題進(jìn)行重采樣,從而構(gòu)建出多個(gè)平衡度不同的訓(xùn)練集,訓(xùn)練后采用分類器挑選和偏向正類的原那么將各個(gè)分類器綜合;實(shí)驗(yàn)結(jié)果說明,該方法比單純使用重采樣能夠獲得更好的預(yù)測(cè)準(zhǔn)確率和更優(yōu)的ROC(ReceiverOperatingCharacteristic)曲線。Chawla等人將boosting算法與SMOTE算法相結(jié)合,形成SMOTE-Boost算法,該算法的根本思想是迭代使用SMOTE算法生成新的樣本,取代原來AdaBoost算法中對(duì)樣本權(quán)值的調(diào)整,使得Boosting算法能夠?qū)W⒂谡愔休^難分類的樣本上。Zhou和Liu提出了代價(jià)敏感神經(jīng)網(wǎng)絡(luò)與分類器集成相結(jié)合的方法,他們?cè)诙鄠€(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn);通過實(shí)驗(yàn)發(fā)現(xiàn),分類器的集成不但對(duì)處理非平衡二分類問題十分有效,而且對(duì)非平衡多分類問題同樣具有較為理想的效果。代價(jià)敏感學(xué)習(xí)方法在絕大多數(shù)情況下,正類是非平衡分類問題中需要關(guān)注的重點(diǎn)。在這種情況下,正確識(shí)別出正類的樣本比識(shí)別負(fù)類的樣本更具有價(jià)值,換言之,對(duì)正類的樣本的錯(cuò)分需要較負(fù)類樣本付出更大的代價(jià)。代價(jià)敏感學(xué)習(xí)的根本思想是賦予各個(gè)類別不同的錯(cuò)分代價(jià),因此,它能夠很好地解決非平衡分類問題。以二分類問題為例,假設(shè)正類是稀有類,并具有更高的錯(cuò)分代價(jià),那么分類器在進(jìn)行訓(xùn)練時(shí),會(huì)對(duì)錯(cuò)分正類樣本的行為做出更大的懲罰,這樣就迫使最終得到的分類器對(duì)正類樣本具有更高的預(yù)測(cè)準(zhǔn)確率。已有一些學(xué)者提出了多種代價(jià)敏感學(xué)習(xí)方法。Domingos提出了一種Metacost方法,該方法的根本思想是通過估計(jì)訓(xùn)練樣本的后驗(yàn)概率密度,并結(jié)合代價(jià)矩陣(CostMatrix)計(jì)算每個(gè)訓(xùn)練樣本的理想類別,然后根據(jù)計(jì)算得出的理想類別修改原訓(xùn)練樣本的類別,得到新的訓(xùn)練集,最后使用基于錯(cuò)誤率的分類器對(duì)這個(gè)新的訓(xùn)練集進(jìn)行學(xué)習(xí);實(shí)驗(yàn)結(jié)果說明,與重采樣方法相比,Metacost獲得錯(cuò)誤代價(jià)更低。Mctacost的重要意義在于它能將普通的基于準(zhǔn)確率的學(xué)習(xí)方法較容易地改造成對(duì)錯(cuò)分代價(jià)敏感的學(xué)習(xí)方法。賦予不同的訓(xùn)練樣本以不同的權(quán)值也同樣能起到代價(jià)敏感學(xué)習(xí)的作用。Fan等人提出了一種AdaCost算法,該算法的根本思想是通過在Boosting算法的權(quán)值更新規(guī)那么中引入每個(gè)訓(xùn)練樣本的錯(cuò)分代價(jià),由此提高Boosting算法對(duì)正類樣本的查準(zhǔn)率和查全率。該算法的權(quán)值更新原那么如下:假設(shè)一個(gè)樣本的錯(cuò)分代價(jià)較大,且被弱分類器錯(cuò)分,那么其對(duì)應(yīng)的權(quán)值也會(huì)被“較大〃地增加;假設(shè)它被正確分類,那么它對(duì)應(yīng)的權(quán)值就會(huì)被“較小〃程度地減少。代價(jià)敏感學(xué)習(xí)雖然能夠有效地提高正類的預(yù)測(cè)準(zhǔn)確率,但也存在以下一些問題:一方面,在大多數(shù)情況下,很難對(duì)真實(shí)的錯(cuò)分代價(jià)做出準(zhǔn)確的估計(jì);另一方面,雖然存在多種分類器可以直接引入代價(jià)敏感這一學(xué)習(xí)機(jī)制,如支持向量機(jī)(supportvectorMachine)和決策樹(DecisionTree),但也有一些分類器不能直接使用代價(jià)敏感學(xué)習(xí)機(jī)制,只能通過調(diào)整正負(fù)樣本比例或決策閑值間接地進(jìn)行代價(jià)敏感學(xué)習(xí),這樣一來就無法保證代價(jià)敏感學(xué)習(xí)的效果。(5)特征選擇方法 樣本數(shù)量分布的高度不平衡會(huì)造成其特征分布的不平衡現(xiàn)象,尤其在文本分類問題當(dāng)中,負(fù)類記錄的某些特征,也許在正類里根本不會(huì)出現(xiàn)。正是基于這一點(diǎn)的考慮,才產(chǎn)生了特征選擇方法這一類解決非平衡分類問題的方法。所以,根據(jù)實(shí)際不平衡分類問題的特點(diǎn),選取其中最具區(qū)分能力的特征,有利于提高正類的預(yù)測(cè)準(zhǔn)確率。利用特征選擇的方法來解決不平衡分類問題的應(yīng)用實(shí)例主要集中于自然語(yǔ)言處理領(lǐng)域,如文本挖掘、Web挖掘等。Cardie和Howel提出了一種與測(cè)試樣本相關(guān)的動(dòng)態(tài)特征加權(quán)方法,該方法是以基于事例學(xué)習(xí)(Case-basedLeaning)的框架為根底的,其根本思想是先利用訓(xùn)練集得到?jīng)Q策樹,然后計(jì)算得到每個(gè)測(cè)試樣本在其測(cè)試路徑上的信息收益,并由此計(jì)算每個(gè)特征的權(quán)值,最后從訓(xùn)練集中挑選k個(gè)與測(cè)試樣本最為鄰近的樣本,并進(jìn)行類別投票;該方法的優(yōu)點(diǎn)是在提高正類樣本預(yù)測(cè)準(zhǔn)確率的同時(shí)也確保了總體的準(zhǔn)確率在一定的水平上。Zheng和Srihari針對(duì)文本問題中的非平衡分類問題,以來自經(jīng)驗(yàn)的樣本比例為依據(jù),分別挑選正負(fù)兩個(gè)樣本集,并從中選取最具代表性的特征集,然后將這些特征集合并,作為最終的候選特征集;在他們的實(shí)驗(yàn)中,對(duì)不同規(guī)模的特征集挑選其特征,實(shí)驗(yàn)結(jié)果說明,該特征挑選方法能夠提高文本分類的效果。2-1非平後林測(cè)矩陣預(yù)測(cè)正択實(shí)彌it盤7N非平衡分類的特殊性,決定了必須要有一套不同于一般平衡分類器的評(píng)價(jià)指標(biāo);正類和負(fù)類訓(xùn)練樣本數(shù)量的不均衡導(dǎo)致分類器對(duì)兩者預(yù)測(cè)精度的不均衡,因此,對(duì)非平衡分類器的性能評(píng)估應(yīng)充分考慮正類的精度。表2-1列出了分類的四種不同情況。F-measure法和ROC曲線法是評(píng)價(jià)非平衡分類器性能的常用方法。F-measure法通過計(jì)算正類的F-measure指標(biāo)來衡量分量精度。由定義2-1可知I,F-measure是查全率(Recall)和查準(zhǔn)率(Precision)的組合,兩者需要兼顧,因?yàn)橹挥挟?dāng)查全率和查準(zhǔn)率都較高的情況下,F(xiàn)-measure的值才會(huì)較大。定義2-1F-incasure定:心如下*刁、—nieasnie=vRecaff:*Pr (2-I)其中RyW=日、f{TP財(cái)=TV/(TP十ROC(ReceiverOperatingCharacteristic)曲線法分別將正類和負(fù)類的查全率定義為正類準(zhǔn)確率(TPR)和負(fù)類準(zhǔn)確率(FPR),并將兩者作為縱橫坐標(biāo),不斷改變其中一個(gè)坐標(biāo)的值,求取另一個(gè)坐標(biāo)的值,得到所有的點(diǎn),繪制ROC曲線,曲線越靠近左上角,分類器的性能越好。為了量化分類器的性能,常用曲線下的面積AUC(AreaUndertheCurve)作為評(píng)價(jià)指標(biāo)。為解決非平衡分類器對(duì)正類預(yù)測(cè)精度不理想的問題,常從兩方面入手。一是從數(shù)據(jù)本身入手,運(yùn)用抽樣技術(shù)改變類間的不平衡,例如SMOTE算法采用過采樣的方法,人為增多負(fù)類記錄的數(shù)量,削弱或消除數(shù)據(jù)的不平衡性;二是分類算法本身的改良,例如支持向量機(jī)算法的改良等。2.3.2缺失問題缺失問題屬于普遍性的數(shù)據(jù)質(zhì)量問題,存在于許多的研究領(lǐng)域與數(shù)據(jù)緊密相關(guān),如人工智能、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、模式識(shí)別等。在實(shí)際的工程應(yīng)用當(dāng)中,由于數(shù)據(jù)獲取的渠道以及對(duì)數(shù)據(jù)建模的差異等各方面的原因,所得的數(shù)據(jù)通常并不完全符合己經(jīng)預(yù)定義好的處理格式,這種不符合預(yù)定義格式的數(shù)據(jù)通常被標(biāo)記為空白、“未知〃或一些特殊標(biāo)志等符號(hào),代表位置的信息,因此,這種數(shù)據(jù)被稱為缺失數(shù)據(jù)(MissingData)或不完整數(shù)據(jù)(IncompleteData)。在現(xiàn)實(shí)的數(shù)據(jù)庫(kù)中,經(jīng)常會(huì)出現(xiàn)缺失值,例如醫(yī)用數(shù)據(jù)、各種調(diào)查統(tǒng)計(jì)表格,以及經(jīng)常被用于算法性能測(cè)試的局部UCI標(biāo)準(zhǔn)數(shù)據(jù)集。產(chǎn)生于實(shí)際應(yīng)用背景的真實(shí)數(shù)據(jù)集中,是不可能不存在數(shù)據(jù)缺失的,而且在大多數(shù)情況下,數(shù)據(jù)缺失會(huì)特別嚴(yán)重,例如本文基于的電信背景,由于其數(shù)據(jù)采集系統(tǒng)的不完備以及數(shù)據(jù)倉(cāng)庫(kù)集成方面的問題,導(dǎo)致數(shù)據(jù)的缺失。現(xiàn)實(shí)世界中多數(shù)的信息系統(tǒng)都是不完備的,或者說存在某種程度的不完備。造成數(shù)據(jù)缺失問題的原因有很多,歸納起來有主要有以下幾方面:(1) 信息暫時(shí)不能在給定的時(shí)間內(nèi)獲得;(2) 信息因被認(rèn)為是不重要的或數(shù)據(jù)理解錯(cuò)誤等原因而被人為遺漏;(3) 獲得信息的代價(jià)太大或無法獲得;(4) 多個(gè)數(shù)據(jù)源之間的不匹配、不兼容;(5) 數(shù)據(jù)采集、轉(zhuǎn)換、集成機(jī)制的不完備。實(shí)踐說明,數(shù)據(jù)挖掘的整個(gè)過程,其中包括問題理解、數(shù)據(jù)采集和理解、數(shù)據(jù)預(yù)處理、模型建立、模型評(píng)估和知識(shí)應(yīng)用等,20%的時(shí)間用于目標(biāo)識(shí)別,60%的時(shí)間用于數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理,真正的數(shù)據(jù)挖掘和知識(shí)分析只占其中的10%。從這一點(diǎn)也說明,現(xiàn)實(shí)世界雖然有著豐富的數(shù)據(jù)資源,但其質(zhì)量往往不高,不能直接用于數(shù)據(jù)挖掘,換言之,“數(shù)據(jù)豐富,知識(shí)貧乏〃。數(shù)據(jù)預(yù)處理所花的的時(shí)間之所以要占到投入到數(shù)據(jù)挖掘總時(shí)間的一半多,是因?yàn)檎鎸?shí)數(shù)據(jù)經(jīng)常出現(xiàn)缺失、冗余、不一致或者噪聲,對(duì)這些問題的處理會(huì)消耗大量時(shí)間,缺失問題是最常見的的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)缺失在許多研究領(lǐng)域都是一個(gè)復(fù)雜的問題。對(duì)數(shù)據(jù)挖掘來說,缺失值的存在,可能會(huì)造成以下影響:第一,系統(tǒng)可能已經(jīng)喪失大量的有用信息;第二,系統(tǒng)所表現(xiàn)出的不確定性可能更加顯著,系統(tǒng)所蘊(yùn)涵確實(shí)定性成分更難把握;第三,包含缺失值的數(shù)據(jù)會(huì)使挖掘過程陷入混亂,導(dǎo)致不可靠的輸出。缺失值對(duì)知識(shí)發(fā)現(xiàn)過程的影響取決于數(shù)據(jù)挖掘算法的方法選取,但無論什么挖掘算法,缺失比例越大,分類準(zhǔn)確率就一定越低;如果數(shù)據(jù)幾乎完全缺失,那么可以到達(dá)分類的零準(zhǔn)確率。所以在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中,為了能夠更加充分地利用已經(jīng)得到的數(shù)據(jù),對(duì)缺失數(shù)據(jù)進(jìn)行適當(dāng)處理是非常必要的。 目前,在統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域,處理不完備數(shù)據(jù)集的方法主要有以下三大類,即刪除元組、數(shù)據(jù)填充和不處理,下面分別對(duì)這三種缺失處理方法做一簡(jiǎn)要介紹。⑴刪除元組所謂刪除元組,就是將存在遺漏信息屬性值的對(duì)象、元組或記錄刪除,從而得到一個(gè)完備的、不包含缺失的信息表。這種方法簡(jiǎn)單易行,在對(duì)象有多個(gè)屬性缺失值、被刪除的包含缺失值的對(duì)象與信息表中的總數(shù)據(jù)量相比作戰(zhàn)比例非常小的情況下是非常有效的。然而,這種方法卻有很大的局限性。它是以減少歷史數(shù)據(jù)來?yè)Q取信息的完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏在對(duì)象中的信息,因?yàn)閷?shí)際的情況常常是一條記錄可能在少數(shù)幾個(gè)屬性上存在缺失,而在其它屬性上是有值的,所以如果將整條記錄刪除,就會(huì)將記錄中未缺失的屬性值也一起刪除掉,這樣做無疑是對(duì)信息的浪費(fèi),而且遇到像非平衡數(shù)據(jù)集那樣的情況,就更加不能采用刪除元組的方法。在信息表中本來包含的對(duì)象就很少的情況下,刪除少量對(duì)象就足以嚴(yán)重影響到信息表信息的客觀性和分析結(jié)果的正確性;當(dāng)每個(gè)屬性缺失值的百分比變化很大時(shí),它的性能便得非常差。因此,當(dāng)遺漏數(shù)據(jù)所占比例較大,特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時(shí)這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,對(duì)數(shù)據(jù)分析造成較大的干擾,從而產(chǎn)生錯(cuò)誤的結(jié)論。數(shù)據(jù)填充數(shù)據(jù)填充是處理缺失值最常用的一類方法。這類方法是用給定的值去填充缺失值,從而使信息表完備化。一般的做法是:針對(duì)某條記錄在某一屬性上的缺失,基于統(tǒng)計(jì)學(xué)的原理,根據(jù)其它未缺失的記錄在該屬性上的取值的分布情況對(duì)缺失值做出估計(jì)和填充,譬如用未缺失屬性的平均值來進(jìn)行補(bǔ)充等。目前在集中進(jìn)行缺失值填充的研究領(lǐng)域主要是機(jī)器學(xué)習(xí)領(lǐng)域和統(tǒng)計(jì)學(xué)領(lǐng)域。在機(jī)器學(xué)習(xí)領(lǐng)域,缺失值填充的主要方法主要有決策樹歸納法(DecisionTree)、人工神經(jīng)網(wǎng)絡(luò)法(AutoAssociativeNeuralNetwork)、刪除法(Case-wiseDeletion)、最近鄰法(NearestNeighbor)和動(dòng)態(tài)路徑生成法等(DynamicPathGeneration),但是這些方法都是不能完全令人滿足的方法,因?yàn)樗鼈冎荒芴幚黼x散值屬性,如果遇到連續(xù)型屬性,就要把連續(xù)型屬性離散化,離散化的過程一方面會(huì)損失數(shù)據(jù)本身的特性,另一方面在離散化的過程中可能將噪聲引入原始數(shù)據(jù),或者離散化原理本身就可能損失數(shù)據(jù)的表現(xiàn)能力。在機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘等領(lǐng)域中,最近鄰法和c4.5決策樹法使用最為廣泛,填充效果也最好。在統(tǒng)計(jì)學(xué)領(lǐng)域,缺失值填充的方法主要包括線性回歸、健壯貝葉斯估計(jì)、多重填補(bǔ)、參數(shù)回歸和非參數(shù)回歸、)等方法。但是,以上提到的這些方法也有一些缺點(diǎn):第一,統(tǒng)計(jì)方法在填充前需要事先知道數(shù)據(jù)的缺失機(jī)制,而在實(shí)際情況下,我們不可能得知數(shù)據(jù)缺失的機(jī)制,所以只能估計(jì),只要估計(jì)就會(huì)產(chǎn)生偏差;第二,這些方法的時(shí)間復(fù)雜度都較高,例如期望值最大化)算法的收斂速度是非常慢的,對(duì)于有些數(shù)據(jù)集來說,可能是指數(shù)級(jí)的時(shí)問復(fù)雜度;第三,統(tǒng)計(jì)學(xué)方法通常要求缺失的屬性是連續(xù)的,甚至要求理論上處理的所有屬性都是連續(xù)的,這顯然是很不現(xiàn)實(shí)的,因?yàn)楝F(xiàn)實(shí)數(shù)據(jù)集中存在大量離散化的屬性概念,它的取值一定是離散的,如性別、職業(yè)、血型等,而至于將離散的屬性連續(xù)化,還有待于進(jìn)一步研究,因此,無法直接處理離散值是統(tǒng)計(jì)方法的最大缺陷。綜上所述,要填充這些缺失數(shù)據(jù),用非參數(shù)方法較為適合。填充處理只是在數(shù)據(jù)集的缺失位置填補(bǔ)上我們的主觀估計(jì)值,與客觀事實(shí)是有一定偏差的。在對(duì)不完備信息進(jìn)行填補(bǔ)處理的同時(shí),我們或多或少地改變了原始的信息系統(tǒng),而且,對(duì)缺失值的不正確填充往往會(huì)向數(shù)據(jù)引入新的噪聲,使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果。目前國(guó)內(nèi)外的研究者還沒有真正把機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法統(tǒng)一起來,能夠同時(shí)有效地處理離散型和連續(xù)型的缺失數(shù)據(jù),因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息進(jìn)行處理,由此便引出了缺失值處理的第三類方法一一不處理。不處理 前兩類缺失值的處理方法雖然能夠改善數(shù)據(jù)的不良狀況,使之滿足數(shù)據(jù)挖掘的要求,但其副作用也是顯而易見的,那就是在處理過程中或多或少地破壞了數(shù)據(jù)的真實(shí)性和客觀性,額外地引入了噪聲。因此,在保持?jǐn)?shù)據(jù)原樣的根底上,改良挖掘算法,在算法中對(duì)數(shù)據(jù)作適當(dāng)?shù)奶幚恚苯釉诎笔е档脑紨?shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘是比擬符合客觀性原那么的。這類挖掘方法包括貝葉斯網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)等。但貝葉斯網(wǎng)絡(luò)的使用存在一個(gè)前提,那就是需要對(duì)領(lǐng)域知識(shí)具有一定了解,至少要對(duì)變量間的依賴關(guān)系較為清楚,才能夠正確地進(jìn)行挖掘,否那么直接從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu),不但復(fù)雜性較高,網(wǎng)絡(luò)的維護(hù)代價(jià)高昂,而且估計(jì)參數(shù)也比擬多,造成系統(tǒng)的高方差,影響了其預(yù)測(cè)精度,因此,當(dāng)任一對(duì)象中的缺失值數(shù)量很大時(shí),就會(huì)產(chǎn)生指數(shù)爆炸。人工神經(jīng)網(wǎng)絡(luò)可以對(duì)缺失值進(jìn)行有效地處理,但是人工神經(jīng)網(wǎng)絡(luò)在這方面的研究還比擬少,有待于進(jìn)一步深入地展開。雖然面對(duì)數(shù)據(jù)的缺失問題,存在很多處理的算法,但就缺失的本質(zhì)而言,缺失的數(shù)據(jù)是 無法百分之百地被準(zhǔn)確復(fù)原出來的,尤其當(dāng)缺失數(shù)據(jù)占到數(shù)據(jù)總量的一半以上時(shí),對(duì)缺失數(shù) 據(jù)的填充是沒有多大意義的,因?yàn)橐话愕奶畛浞椒ǘ夹枰獜默F(xiàn)有的數(shù)據(jù)中獲取某些統(tǒng)計(jì)規(guī) 律,以便對(duì)缺失數(shù)據(jù)做出合理估計(jì),而過多的缺失數(shù)據(jù)造成現(xiàn)有未缺失數(shù)據(jù)量的缺乏,從而 造成估計(jì)所依據(jù)的信息量的缺乏,因而無法對(duì)缺失數(shù)據(jù)做出較為準(zhǔn)確的估計(jì),而如果把這些 存在缺失的記錄刪除,那么會(huì)大大降低數(shù)據(jù)總量,在極端情況下,每一條記錄都存在某幾個(gè) 屬性上的缺失,那么刪除缺失數(shù)據(jù)也就刪除了所有的數(shù)據(jù),也就談不上數(shù)據(jù)挖掘了。實(shí)際上, 數(shù)據(jù)缺失并不可怕,因?yàn)閷?duì)于數(shù)據(jù)挖掘來說,都有一個(gè)主題,并非每個(gè)屬性對(duì)挖掘都是重要 的,如果數(shù)據(jù)缺失發(fā)生在非重要的屬性上,那么對(duì)挖掘結(jié)果的影響是微乎其微的,假設(shè)重要 屬性的缺失嚴(yán)重,那么對(duì)挖掘產(chǎn)生的影響就會(huì)比擬大。所以,將數(shù)據(jù)的缺失程度作為數(shù)據(jù)質(zhì) 量的一個(gè)方面進(jìn)行評(píng)估,是十分必要的。2.3.3離群?jiǎn)栴} 離群現(xiàn)象在數(shù)據(jù)挖掘中普遍存在,與其說離群是數(shù)據(jù)質(zhì)量問題,還不如說它是一種數(shù) 據(jù)現(xiàn)象。對(duì)數(shù)據(jù)挖掘來說,與數(shù)據(jù)的缺失問題的負(fù)面影響不同,離群現(xiàn)象有利有弊,需要具 體情況具體分析。離群點(diǎn)檢測(cè))是數(shù)據(jù)挖掘的根本任務(wù)之一,故也常被稱為離群點(diǎn)挖掘,其 目的是消除噪音或發(fā)現(xiàn)潛在的有意義的知識(shí)。對(duì)離群點(diǎn)挖掘的研究經(jīng)歷了幾次盛衰的更替, 近十年來又一次成為信息科學(xué)中一個(gè)較為活潑的研究分支,在數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、 機(jī)器學(xué)習(xí)等領(lǐng)域得到了廣泛的關(guān)注。離群點(diǎn)挖掘在實(shí)際中有著廣闊的應(yīng)用前景,如欺詐檢測(cè)、入侵檢測(cè)、故障檢測(cè)、生態(tài)系統(tǒng)失調(diào)、公共衛(wèi)生中的異常疾病的爆發(fā)、公共平安中的突發(fā)事件的發(fā)生、異常自然氣候的發(fā)現(xiàn)等。 離群點(diǎn)有多種別名,如孤立點(diǎn)、偏離點(diǎn)、異常點(diǎn)、新穎點(diǎn)、噪聲等,這里將其通稱為離 群點(diǎn)。引起離群現(xiàn)象的主要原因有以下三方面:第一,數(shù)據(jù)來源于異類,如疾病爆發(fā)、入侵、 不尋常的實(shí)驗(yàn)結(jié)果等,這類離群通常都是相對(duì)有趣的,并且是離群檢測(cè)的關(guān)注點(diǎn);第二,數(shù) 據(jù)測(cè)量和收集誤差,主要是由于人為引入的錯(cuò)誤、測(cè)量設(shè)備的故障或存在噪音,由于這類離 群不提供有趣的信息,相反只會(huì)降低數(shù)據(jù)的質(zhì)量,給數(shù)據(jù)分析造成干擾,因此針對(duì)這類離群 現(xiàn)象,離群檢測(cè)的目的是要將其消除;第三,數(shù)據(jù)變量固有變化引起,是自然發(fā)生的,反映 了數(shù)據(jù)集的數(shù)據(jù)分布特征,如顧客的新的購(gòu)置模式、氣候變化、基因突變等,這類離群點(diǎn)是有趣的,應(yīng)當(dāng)予以保存。 早期對(duì)離群點(diǎn)檢測(cè)方面展開研究的主要目的是為了消除離群點(diǎn),然而由于“一個(gè)人的噪音是另一個(gè)人的輸入信號(hào)〃,對(duì)離群點(diǎn)的含義不加區(qū)分而簡(jiǎn)單地將其剔除,極有可能會(huì)喪失重要信息,尤其在故障檢測(cè)、欺詐識(shí)別等應(yīng)用中。現(xiàn)在對(duì)離群點(diǎn)的研究主要是作為有意義的 輸入信號(hào),對(duì)其進(jìn)行有效挖掘,以便對(duì)其含義進(jìn)行進(jìn)一步的分析。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論