數(shù)據(jù)挖掘統(tǒng)計(jì)分析操作指引_第1頁(yè)
數(shù)據(jù)挖掘統(tǒng)計(jì)分析操作指引_第2頁(yè)
數(shù)據(jù)挖掘統(tǒng)計(jì)分析操作指引_第3頁(yè)
數(shù)據(jù)挖掘統(tǒng)計(jì)分析操作指引_第4頁(yè)
數(shù)據(jù)挖掘統(tǒng)計(jì)分析操作指引_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

球挖掘統(tǒng)計(jì)分析操作指引

在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什

么樣的目標(biāo)是必要的,有了好的計(jì)劃才能保證資料采礦有條不紊的實(shí)施并取得成

功。雖然我們把各個(gè)步驟按JII頁(yè)序排列,但要注意數(shù)據(jù)挖掘過(guò)程并不是線性的,要

取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。比如在“分析資料”時(shí)你可能覺(jué)得在建“

立數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)”時(shí)做的不夠好,要往里面添加一些新的資料等等。

數(shù)據(jù)挖掘過(guò)程主要包括以下幾個(gè)方面:

1、定義商業(yè)問(wèn)題

2、建立數(shù)據(jù)挖掘庫(kù)

3、分析數(shù)據(jù)

4、準(zhǔn)備數(shù)據(jù)

5、建立模型

6、模型評(píng)價(jià)

7、模型實(shí)施

其流程如下圖所示:

-定義商業(yè)問(wèn)題

首先確定數(shù)據(jù)挖掘主題的商業(yè)理解包括商業(yè)目標(biāo),成功評(píng)價(jià)標(biāo)準(zhǔn),挖掘主題

細(xì)分,挖掘模型成功評(píng)價(jià)標(biāo)準(zhǔn),術(shù)語(yǔ)定義,相關(guān)因素的商業(yè)定義和物理定義,資

源分析(數(shù)據(jù)和人力資源)。這些東西盡量在一個(gè)挖掘分析之前確定好,否則這

個(gè)挖掘項(xiàng)目不可能成功,就不在這里展開(kāi)了。

二、建立數(shù)據(jù)麒庫(kù)

這部分內(nèi)容我們已經(jīng)準(zhǔn)備好了,所以這里也不作詳細(xì)說(shuō)明了。

連同下面的兩個(gè)步驟,這三個(gè)步驟應(yīng)該是數(shù)據(jù)預(yù)處理的核心。這三部和在一

起所花的時(shí)間和精力可能比其他所有步驟總和還要多,這也足見(jiàn)這一步驟的重要

性。一旦你從數(shù)據(jù)挖掘的結(jié)果中學(xué)到一些什么東西之后,你很可能要修改覲居已

得到更好的結(jié)果,因此就需要I巴數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘不斷的反復(fù)進(jìn)行。數(shù)據(jù)準(zhǔn)備

工作大概要花去整個(gè)數(shù)據(jù)挖掘工作的50%-90%的時(shí)間和精力。

一般來(lái)說(shuō),應(yīng)該把要挖掘的數(shù)據(jù)都收集到一人數(shù)據(jù)庫(kù)中,如果總是在公司的

數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)挖掘是不太適合的,最好是建立一個(gè)獨(dú)立的數(shù)據(jù)集。這樣一方

面比較便于管理員對(duì)婁噩庫(kù)的管理;另一方面數(shù)據(jù)倉(cāng)庫(kù)可能不支持你所要進(jìn)行的

各種復(fù)雜分析所需的數(shù)據(jù)結(jié)構(gòu)。

可以把建立數(shù)據(jù)挖掘庫(kù)分成下面幾個(gè)部分:

I、轆U

確定要挖掘的數(shù)據(jù)源??赡芤恍┩獠繑?shù)據(jù)要通過(guò)其他渠道來(lái)獲得,這要看具

體情況進(jìn)行。

2、數(shù)據(jù)描述

描述每個(gè)文件和數(shù)據(jù)庫(kù)表的內(nèi)容。生成“數(shù)據(jù)描述報(bào)告”,其中要包括以下內(nèi)

容:字段/列數(shù)目、字段缺失值的數(shù)目、百分比/字段的名字;對(duì)于每個(gè)字段要有

下面這些內(nèi)容:數(shù)據(jù)類型、定義、描述、源、計(jì)量單位、所有不同值得個(gè)數(shù)、值

得列表、值的范圍、缺失值的百分比、收集信息(比如:怎么得到的、在哪、什

么情況下得到的)、其它需要說(shuō)明的信息。

3、蟠

選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)(源數(shù)據(jù)的子集)。這與又撤據(jù)進(jìn)行采樣和選擇預(yù)

測(cè)變量是不同的,這里只是粗略的吧一些冗余或元關(guān)的數(shù)據(jù)除去,或由于資源的

限制、數(shù)據(jù)使用的限制、質(zhì)量問(wèn)題而必須做出的選擇。

4、質(zhì)量評(píng)估和數(shù)據(jù)清理

要想得到好的模型必須使用好的數(shù)據(jù),這是很簡(jiǎn)單的道理。你不僅要保證數(shù)

據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件事情,有

各種各樣的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)域中可能包含了不正確的值,這些一般是錄入錯(cuò)

誤或其他機(jī)械錯(cuò)誤,這些值可能使結(jié)果產(chǎn)生極大的偏差。有時(shí)數(shù)據(jù)域中有值為空

的記錄,即缺失值,當(dāng)從多個(gè)不同的數(shù)據(jù)源整合數(shù)據(jù)時(shí)一定要注意不同源之間數(shù)

據(jù)的一致性。

缺失值是一個(gè)非常有害的問(wèn)題,如果只要有一個(gè)缺失值就將該條記錄刪除的

話,那么最后可能得到一個(gè)很小的數(shù)據(jù)庫(kù),同時(shí)你得到的這個(gè)數(shù)據(jù)庫(kù)很可能已經(jīng)

丟失了實(shí)際數(shù)據(jù)庫(kù)中蘊(yùn)含的一些重要信息,因?yàn)槟阋呀?jīng),改變數(shù)據(jù)的組成。缺失

值本身也是一個(gè)很重要的信息,比如:在調(diào)查居昆的消費(fèi)情況時(shí)得到的居民的收

入資料中,收入高的比收入中上的缺失值要多些。在處理的時(shí)候可以分別對(duì)含有

缺失值的記錄進(jìn)行分析和對(duì)缺失值進(jìn)行單獨(dú)分析。還有一種方法就是對(duì)缺失值進(jìn)

行替換。計(jì)算替代的常用方法有包括使用形式值(為名詞變量),中間值(為可

排序變量),平均值(為連續(xù)變量)。有一個(gè)不是很常用的方法就是按照數(shù)據(jù)庫(kù)中

值的分布規(guī)律值的字段添值。比如如果數(shù)據(jù)庫(kù)中包含40%的男性和60%的女性,

那么就在那些性別字段為空的記錄添加添值時(shí)也按這個(gè)比例隨機(jī)賦值。還有一種

方法就是為這個(gè)缺失值的字段用數(shù)據(jù)挖掘技術(shù)建立一個(gè)預(yù)測(cè)模型,然后按照這個(gè)

模型的預(yù)測(cè)結(jié)果添值,這種方法效果最好,當(dāng)然也最花時(shí)間。

當(dāng)然我們所進(jìn)行的這一步驟在下面的數(shù)據(jù)清洗、分析過(guò)程還會(huì)涉及,在這

里我們只能對(duì)數(shù)據(jù)進(jìn)行比較組略的整理和替換,后面會(huì)作進(jìn)一步的處理。

5、合并與整合

如果幸運(yùn)的話,建模所需要的所有數(shù)據(jù)都在同一個(gè)數(shù)據(jù)庫(kù)中,但是大部分情

況下這些數(shù)據(jù)是分布在不同的數(shù)據(jù)庫(kù)中。數(shù)據(jù)可能分布在公司不同的部門、不同

的應(yīng)用中,甚至在公司外面的數(shù)據(jù)庫(kù)中。

數(shù)據(jù)合并也整合把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)和并到同一個(gè)數(shù)據(jù)挖掘庫(kù)中,并且

要使那些本來(lái)存在沖突和不一致的數(shù)據(jù)一致化。不恰當(dāng)?shù)囊恢禄菙?shù)據(jù)質(zhì)量問(wèn)題

的一個(gè)主要來(lái)源。不同的數(shù)據(jù)庫(kù)建在數(shù)據(jù)定義和使用上通常都存在巨大的差異。

有些不一致問(wèn)題是容易解決的,但是有些問(wèn)題并不是很容易解決,但是無(wú)論解決

容易與否首先要注意數(shù)據(jù)整合的正確性和一致性.

6、構(gòu)建元數(shù)據(jù)

數(shù)據(jù)收集報(bào)告和數(shù)據(jù)描述報(bào)告是建立元數(shù)據(jù)的基礎(chǔ)。本質(zhì)上,這是一個(gè)描述

數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)。它用于建立實(shí)際的數(shù)據(jù)庫(kù)和為分析數(shù)據(jù)和建立模型提供輔助信

息。

7、力哺激據(jù)挖掘庫(kù)

大多數(shù)情況下,用于挖掘的數(shù)據(jù)應(yīng)該放到他豈己獨(dú)立的數(shù)據(jù)庫(kù)中。如果數(shù)據(jù)

量大并且復(fù)雜,那么它通常是一個(gè)RDMS,反之只是一個(gè)簡(jiǎn)單的平面文件即可。

經(jīng)過(guò)前面所有的搜集、整理之后,下載開(kāi)始把這些數(shù)據(jù)實(shí)際的加載過(guò)來(lái)。這一步

驟很是復(fù)雜,一般要這方面的專家輔助完成。

翔居挖掘庫(kù)一旦建好,就需要對(duì)他進(jìn)行維護(hù)。需要定期備份;監(jiān)視他的性能;

不時(shí)地增加存儲(chǔ)空間或提高性能。對(duì)存放在DBMS內(nèi)的復(fù)雜的挖掘庫(kù)來(lái)說(shuō),維

護(hù)他需要計(jì)算機(jī)專業(yè)人員來(lái)完成。

這些步驟并不需要一定要按部就班執(zhí)行,而是應(yīng)該按需要進(jìn)行。這一方面我

們一般都有做好的專門應(yīng)用的數(shù)據(jù)庫(kù),這里不再累書。

這是我們建模好壞的非常關(guān)鍵的一個(gè)步驟。我們對(duì)數(shù)據(jù)進(jìn)行分析應(yīng)從哪幾個(gè)

步驟入手呢?

當(dāng)我們有了數(shù)據(jù)寺辨數(shù)據(jù)庫(kù)之后,而對(duì)其中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí)我們應(yīng)該

從哪幾個(gè)方面入手呢?因?yàn)檫@后面的工作和前面的工作有所不同,前面工作的人

員要求對(duì)數(shù)據(jù)庫(kù)操作以及計(jì)算機(jī)方面的知識(shí)比較扎實(shí),而后面的部分要求操作人

員對(duì)數(shù)據(jù)分析有較強(qiáng)的分析能力。這樣就可能造成一個(gè)人很難從頭到尾的做完整

個(gè)工作。如何對(duì)數(shù)據(jù)進(jìn)行分析和探索以及建模的問(wèn)題對(duì)非專業(yè)的業(yè)務(wù)人員或其他

應(yīng)用人員來(lái)說(shuō)都是一個(gè)很困惑的事情?,F(xiàn)在在這里將這一部分的操作流程作一個(gè)

簡(jiǎn)單的介紹。

首先確定數(shù)據(jù)挖掘主題的商業(yè)理解包括商業(yè)目標(biāo),成功評(píng)價(jià)標(biāo)準(zhǔn),挖掘主

題細(xì)分,挖掘模型成功評(píng)價(jià)標(biāo)準(zhǔn),術(shù)語(yǔ)定義,相關(guān)因素的商業(yè)定義和物理定義,

資源分析(數(shù)據(jù)和人力資源)。這些東西已經(jīng)在一個(gè)挖掘分析之前確定好,現(xiàn)在

再拿來(lái)重溫一下。一方面可能前后工作可能并不是由同一個(gè)人做下來(lái),這樣可以

提供過(guò)程的銜接性。另一方面,再一次強(qiáng)調(diào)這部分內(nèi)容可以減少挖掘工作的盲目

性。

我們用各種方法搜集來(lái)的資料,一般是零散的,它只反映個(gè)別現(xiàn)象的個(gè)別特

征,必須經(jīng)過(guò)整理加工,使之系統(tǒng)化,才能計(jì)算統(tǒng)計(jì)指標(biāo),進(jìn)行統(tǒng)計(jì)分析,為進(jìn)

一步研究提供有用的信息,雖然我們前面在建立數(shù)據(jù)挖掘倉(cāng)庫(kù)時(shí)已經(jīng)對(duì)其進(jìn)行了

整合與整理,但是那些工作都是針對(duì)期居庫(kù)進(jìn)行的,是非常的粗糙的。在我們建

立模型前還需對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的清洗、整理、轉(zhuǎn)換、探索分析等工作。

1,獲取數(shù)據(jù)蹣項(xiàng)目相關(guān)方面的業(yè)務(wù)信息,

比如,做電信方面的項(xiàng)目,要對(duì)電信的業(yè)務(wù)有一定的了解。只有這樣才能挖

掘出真正有價(jià)值的東西。這一方面的資料可以通過(guò)很多途徑獲得,比如與業(yè)務(wù)人

員進(jìn)行溝通等等。

2,蹴各字段和各觀察■的取值進(jìn)行了解。

從而對(duì)數(shù)據(jù)的挖掘的方向和目標(biāo)從整體進(jìn)行把握.可以通過(guò)前端的展現(xiàn)工具

察看數(shù)據(jù)的字段和數(shù)據(jù)量的大小進(jìn)行了解。從而對(duì)數(shù)據(jù)得到一個(gè)初步的印象。

這一過(guò)程是很重要的,也是很難做的事情。它需要對(duì)業(yè)務(wù)進(jìn)行了解,同時(shí)要

清楚每個(gè)字段的實(shí)際意義和取值方法以及每個(gè)值所代表的含義。這個(gè)過(guò)程我們可

以通過(guò)平時(shí)對(duì)業(yè)務(wù)的了解和查看建立數(shù)據(jù)倉(cāng)庫(kù)的“數(shù)據(jù)描述報(bào)告”來(lái)了解。

3、雌50

前面在數(shù)據(jù)倉(cāng)庫(kù)建立的時(shí)候已經(jīng)做了此工作,但這是不完全相同的,前面主

要是針對(duì)數(shù)據(jù)庫(kù)中各個(gè)表之間進(jìn)行的整合與清洗。臟數(shù)據(jù)的普遍存在,使得在大

型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。在此部分我們

要是對(duì)數(shù)據(jù)各字段進(jìn)行處理,減少所用數(shù)據(jù)機(jī)械錯(cuò)誤的存在,而后對(duì)后面工作的

結(jié)果產(chǎn)生影響。此過(guò)程非常重要,是做好一個(gè)模型和整個(gè)數(shù)據(jù)挖掘工作的前提,

不可忽略。

臟數(shù)據(jù)形成的原因:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、

不同的習(xí)慣用語(yǔ)(如:ASAP對(duì)firstchance”)、重復(fù)記錄、丟失值、拼寫變化、

不同的計(jì)量單位、過(guò)時(shí)的編碼。

數(shù)據(jù)清理處理內(nèi)容:異常數(shù)據(jù)清除、格式標(biāo)準(zhǔn)化、錯(cuò)誤糾正和重復(fù)數(shù)據(jù)的清

除。

1)察數(shù)據(jù)的合理性。跟實(shí)際情況結(jié)合,觀察數(shù)據(jù)的可能取值??从袥](méi)有數(shù)據(jù)的

取值異常。對(duì)異常數(shù)據(jù)進(jìn)行分析,判斷數(shù)據(jù)的合理性和可利用價(jià)值。此過(guò)程可以

通過(guò)對(duì)數(shù)據(jù)的簡(jiǎn)單統(tǒng)計(jì)分析發(fā)現(xiàn),可以借助工具查看數(shù)據(jù)的缺失值、奇異值的情

況。

根據(jù)實(shí)際情況選擇適當(dāng)?shù)膶?duì)缺失值、奇異值的處理方法有替換、隔離、刪

除等處理。

缺失值會(huì)表現(xiàn)為以下問(wèn)題:

有缺失值的個(gè)案系統(tǒng),不同于完整的個(gè)案;

有缺失值的個(gè)案表明信息不完整;

標(biāo)準(zhǔn)統(tǒng)計(jì)方法只接受完整數(shù)據(jù)。

奇異值會(huì)表現(xiàn)為以下問(wèn)題:

個(gè)別字觀測(cè)值的取值太大或太小,很大程度上影響了整體的分布情況。

以上問(wèn)題意味著:

偏向:分析結(jié)果可能會(huì)有偏差;

無(wú)效:較少的有效個(gè)案導(dǎo)致估計(jì)精度下降;

一般來(lái)講奇異值可能是正常的值,也可能是由于某些錯(cuò)誤造成的。為了消

除個(gè)別特殊值對(duì)模型的影響,我們要對(duì)其進(jìn)行處理。

在此過(guò)程中如果數(shù)據(jù)中缺失值、奇異值的比例非常小的話,采用何種方法

處理對(duì)結(jié)果影響不會(huì)很大,T殳直接選擇缺失值、奇異值不參加建模就行了.如

果這些值的比重匕瞰大的話,這樣就對(duì)建模結(jié)果影響比較大,就必須采用一定的

方法對(duì)其值進(jìn)行替換。替換的方法主要有:用均值、眾數(shù)、中位數(shù)或某個(gè)特定的

值。具體操作時(shí)還要根據(jù)實(shí)際數(shù)據(jù)的情況選擇比較合理的方法。

2)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行處理

A、質(zhì)量問(wèn)題含義:正確性、一致性、完整性、可靠性

數(shù)據(jù)錯(cuò)誤不可避免性:數(shù)據(jù)輸入和獲得過(guò)程數(shù)據(jù)錯(cuò)誤的不可避免性,數(shù)據(jù)集

成所表現(xiàn)出來(lái)的錯(cuò)誤、數(shù)據(jù)傳輸過(guò)程所引入的錯(cuò)誤。

B、質(zhì)量問(wèn)題的分類:

單數(shù)據(jù)源(個(gè)別記錄合字段)問(wèn)題:模式相關(guān)(缺乏完整性約束,粗劣的模

式設(shè)計(jì)):非唯一值、數(shù)據(jù)不完整;實(shí)例相關(guān)(數(shù)據(jù)輸入錯(cuò)誤):拼寫錯(cuò)誤、

冗余/重復(fù)、矛盾的數(shù)據(jù)。

多數(shù)據(jù)源(數(shù)據(jù)集合的總體)問(wèn)題:模式相關(guān)(不同的數(shù)據(jù)模型和模式設(shè)

計(jì)):命名沖突、結(jié)構(gòu)沖突;實(shí)例相關(guān)(矛盾的或不一致的數(shù)據(jù))不一致的聚集

層次、不一致的時(shí)間點(diǎn)。

數(shù)據(jù)錯(cuò)誤的危害性:高昂的操作費(fèi)用、糟糕的決策制定、組織的不信任、分散管

理的注意力。

C、相關(guān)的工作:

合并/凈化問(wèn)題,比如:記錄聯(lián)接、語(yǔ)義集成、實(shí)例識(shí)別、對(duì)象識(shí)別問(wèn)題。

物居清理過(guò)程存在的問(wèn)題和困難:不確定性和風(fēng)險(xiǎn)性;很難確定兩個(gè)不完全相同

的記錄是否表示同一個(gè)實(shí)體,即使它們非常相近;結(jié)果的確認(rèn),很難找出真正的

重復(fù)記錄數(shù),這樣有效性的度量很難得到。清理算法的性能跟數(shù)據(jù)庫(kù)密切相關(guān)。

現(xiàn)存的數(shù)據(jù)清理方法:臟數(shù)據(jù)的預(yù)處理、排序鄰居方法、優(yōu)先排隊(duì)算法、多次遍

歷數(shù)據(jù)清理方法、增量數(shù)據(jù)清理、采用領(lǐng)域知識(shí)進(jìn)行清理、領(lǐng)域無(wú)關(guān)的數(shù)據(jù)清理

采用數(shù)據(jù)庫(kù)管理系統(tǒng)的集成數(shù)據(jù)清理、擴(kuò)展SQL進(jìn)行數(shù)據(jù)清理過(guò)程(方便用戶

的使用,存在優(yōu)化問(wèn)題)。

臟數(shù)據(jù)的預(yù)處理:先于數(shù)據(jù)清理過(guò)程、使數(shù)據(jù)更加規(guī)范化和一致,獲得更好

的結(jié)果、包含外部參考文件,如縮寫標(biāo)準(zhǔn)表。

排序鄰居方法方法包括三個(gè)步驟:

創(chuàng)建關(guān)鍵字:依賴于領(lǐng)域知識(shí)中的錯(cuò)誤模型;排序數(shù)據(jù);合并。

排序鄰居方法方法的缺點(diǎn):結(jié)果與所采取的關(guān)鍵字密切相關(guān)「Windowsize”問(wèn)

題。

優(yōu)先排隊(duì)算法:將各個(gè)記錄根據(jù)相似性程度歸入不同的隊(duì)列中。減少了比較

的次數(shù),照樣存在“Windowsize”問(wèn)題。

多次遍歷數(shù)據(jù)清理方法:每次排序選用不同的關(guān)鍵字。減少錯(cuò)過(guò)重復(fù)數(shù)據(jù)的機(jī)

會(huì),選擇關(guān)鍵字比較簡(jiǎn)單。

D、基于知識(shí)的方法進(jìn)行重復(fù)數(shù)據(jù)的消除

數(shù)據(jù)處理的三個(gè)階段:

預(yù)處理階段:數(shù)據(jù)類型檢查、數(shù)據(jù)格式規(guī)范化、不一致的縮寫;

處理階段:將預(yù)處理后的數(shù)據(jù)通過(guò)專家系統(tǒng)引擎和一系列的規(guī)則進(jìn)行處理;

人工檢驗(yàn)和確認(rèn)階段:處理規(guī)則無(wú)法處理的重復(fù)記錄。

規(guī)則的分類:重復(fù)識(shí)別規(guī)則(指定兩個(gè)兩個(gè)記錄為相似記錄的條件);合并/清

除規(guī)則(指定對(duì)兩個(gè)重復(fù)記錄如何進(jìn)行處理);更新規(guī)則(在特殊情況下更新數(shù)據(jù)

的方法);警報(bào)規(guī)則(當(dāng)一個(gè)特定的事件發(fā)生時(shí)發(fā)出警報(bào)),原因分析會(huì)的建議措

施、建議措施中每項(xiàng)活動(dòng)、預(yù)防缺陷信息必須管理和控制。

基于知識(shí)方法的好處:應(yīng)用商業(yè)規(guī)則進(jìn)行數(shù)據(jù)清理,這些規(guī)則相對(duì)比較穩(wěn)定

不需經(jīng)常變化和修改。

解決了recall-precision的矛盾

采用不確定因子減少false-positive錯(cuò)誤。

E、排序-鄰居方法:在數(shù)據(jù)中消除錯(cuò)誤和不一致,并解決對(duì)象識(shí)別問(wèn)題的過(guò)程。

對(duì)于合并/凈化問(wèn)題用基本的排序-鄰居方法進(jìn)行解決的過(guò)程。此數(shù)據(jù)清理的六個(gè)

步驟:

元素化、標(biāo)準(zhǔn)化、校驗(yàn)、匹配、是否為一家人、檔案化。

元素化:將數(shù)據(jù)形式整理成標(biāo)準(zhǔn)數(shù)據(jù)。

例如:

將RalphBandJulianneKimballTrusteesforKimballFredCSie.116

13150Hiway9Box1234BoulderCrkColo95006

進(jìn)行元素化其結(jié)果可能為:

AddresseeFirstNamc(l):Ralph

AddresseeMiddleInitial(l):B

AddresseeLastName(l):Kimball

AddresseeFirstName(2):Julianne

AddresseeLastName(2):Kimball

AddresseeRelationship:Trusteesfor

RelationshipPersonFirstName:Fred

RelationshipPersonMiddleName:C

RelationshipPersonLastName:Kimball

StreetAddressNumber:13150

StreetName:Hiway9

SuiteNumber:116

PostOfficeBoxNumber:1234

City:BoulderCrk

State:Colo

FiveDigitZip:95006

標(biāo)準(zhǔn)化:

將元素標(biāo)準(zhǔn)化,如在上例中將

?Ste變?yōu)閟uite

?Hiway變?yōu)镠ighway

?BoulderCrk變?yōu)锽oulderCreek

?Colo變?yōu)镃olorado

校驗(yàn):

對(duì)標(biāo)準(zhǔn)化的元素進(jìn)行一致性校驗(yàn),即在內(nèi)容上有什么錯(cuò)誤。如BoulderCreek

的郵政編碼95006是在California,而不是在Colorado。由于三個(gè)數(shù)據(jù)中有兩

個(gè)指向California,所以將州名改為Californiao不過(guò)應(yīng)該做上標(biāo)記以進(jìn)行進(jìn)一步

的校驗(yàn)。

匹配:

在其它客戶記錄中尋找RalphKimball或JulianneKimball以確保在所有的

記錄中的相應(yīng)地址是柜同的。但要注意:地址是否發(fā)生過(guò)改變,對(duì)以前的麻“當(dāng)

前的”地址指派單獨(dú)的元素。

是否為一家人:

同T主址,同一套住房里不同的房間。采用內(nèi)部或外部數(shù)據(jù)源的信息,如是

否存在婚姻關(guān)系

檔案化:

將前5個(gè)步驟的結(jié)果寫入元數(shù)據(jù)存儲(chǔ)中心。這樣可以更好地進(jìn)行后續(xù)的清理

過(guò)程,使得用戶容易理解數(shù)據(jù)庫(kù)以及更好地進(jìn)行切片、切塊等操作

3)數(shù)據(jù)進(jìn)行運(yùn)算,檢驗(yàn)數(shù)據(jù)之間的邏輯關(guān)系是否成立。來(lái)驗(yàn)證數(shù)據(jù)的準(zhǔn)確性。

本部分主要是檢查數(shù)據(jù)各字段之間的數(shù)量關(guān)系是否正確。比如:驗(yàn)證第一季度的

總量是否等于1、2、3月份的數(shù)量的總和。

4.觀察數(shù)據(jù)的分布情況,進(jìn)行初步分析。

其實(shí)這一步是上一步驟的深入。主要包括以下幾項(xiàng)內(nèi)容:

1)分析數(shù)據(jù)的各個(gè)字段取值分布情況,比如求得均值、方差、最大最小值

等??梢岳靡恍┕ぞ哕浖?,對(duì)各個(gè)字段的數(shù)據(jù)進(jìn)行基本的統(tǒng)計(jì)分析。得到各變

量的描述性分析結(jié)果。觀察各個(gè)字段的分布情況,來(lái)判斷我們的數(shù)據(jù)樣本的分布

情況是否是正態(tài)分布,來(lái)判斷能否直接運(yùn)用現(xiàn)有的理論進(jìn)行分析。

這時(shí)我們還可以通過(guò)工具軟件來(lái)展現(xiàn),做一些分布圖來(lái)了解情況。如條形圖、

箱型圖、并圖、直方圖等能更直觀更形象的從整體上了解數(shù)據(jù)的分布情況。

2)對(duì)數(shù)據(jù)分布異常的變量進(jìn)行進(jìn)一步的分析,判斷數(shù)據(jù)的合理性。如果數(shù)

據(jù)的分布是實(shí)際情況的正確描述,但分布不便于進(jìn)行分析時(shí),考慮對(duì)該變量進(jìn)行

轉(zhuǎn)換、變形處理。

3)初步對(duì)數(shù)據(jù)進(jìn)行整體的分析,觀察各字段間的邏輯關(guān)系,從而進(jìn)一步對(duì)

數(shù)據(jù)進(jìn)行分析,通過(guò)字段間的轉(zhuǎn)換、變形、運(yùn)算獲得新的變量,并對(duì)其進(jìn)行分析。

4)要注意所生成的新變量的合理性和可比性。以及各字段之間的量綱的統(tǒng)

一性,是否需要進(jìn)行標(biāo)準(zhǔn)化來(lái)統(tǒng)一量綱。

5、迸一^對(duì)鶴進(jìn)行分析。

尋找他們之間所存在的關(guān)系。本過(guò)程主要是進(jìn)行探索性分析,是整個(gè)過(guò)程較

煩瑣的一個(gè)步驟。此時(shí)對(duì)發(fā)現(xiàn)的問(wèn)題要及時(shí)的進(jìn)行記錄,以為后面的過(guò)程提供研

究方向。

四、準(zhǔn)備1噓及探索分析

這一過(guò)程是建模數(shù)據(jù)的準(zhǔn)備過(guò)程,與前面的數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)的準(zhǔn)備過(guò)程不同。

它包括:選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量、探索分析。

有人認(rèn)為將所有的變量都加入到模型中,讓模型自動(dòng)識(shí)別變量。實(shí)際工作上

并不是選擇全部變量,把他們輸入到數(shù)據(jù)挖掘工具中,讓他來(lái)幫你選擇哪些是最

好的預(yù)測(cè)變量。一方面是由于隨著變量個(gè)數(shù)的增加,模型的建立時(shí)間也隨之上升;

另一方面盲目的把所有的變量都加進(jìn)去會(huì)導(dǎo)致建立錯(cuò)誤的模型。利用你的領(lǐng)域知

識(shí),你會(huì)做出大部分正確的選擇。一般來(lái)說(shuō),在建模的時(shí)候我們要計(jì)算變量間的

相關(guān)系數(shù),選擇相關(guān)的(協(xié))變量,而忽略那些不相關(guān)的變量。這樣既可節(jié)省運(yùn)

算時(shí)間,又可以提高模型建立的合理性。

選擇變量的方法有:逐步法、向后法。

逐步法,

從模量中選擇變量,每當(dāng)一個(gè)變量進(jìn)入模型,就會(huì)重新計(jì)算不在模型中的剩

余變量得單變量卡方,同時(shí)計(jì)算模型中的預(yù)測(cè)因子的多變量卡方或遞增預(yù)測(cè)能力。

如果某個(gè)變量進(jìn)入模型中后,以后的變量再進(jìn)入模型后,模型效果都不再顯著,

則刪除該變量,此過(guò)程進(jìn)行直至所有變量。

向后法:

首先考慮模型中的所有變量,考慮某個(gè)變量與其他變量的關(guān)聯(lián)時(shí),每個(gè)變量

者陵計(jì)算多變量卡方和預(yù)測(cè)能力,然后依次刪除預(yù)測(cè)能力低的變量。刪除后上述

過(guò)程繼續(xù)進(jìn)行。直至找出所有的變量都具有多變量的顯著性。

2,

與選擇變量類似,你可能也想用你所有的資料行來(lái)建立模型,然而如果你的

資料量確實(shí)非常巨大的話,要么要花費(fèi)很長(zhǎng)的時(shí)間來(lái)建立這個(gè)模型,要么買一臺(tái)

計(jì)算能力非常強(qiáng)大的機(jī)器。

因此,如果資料量特別大,進(jìn)行抽樣就是一個(gè)很好的主意。抽樣的方法有以下幾

種:簡(jiǎn)單隨機(jī)抽樣、等距抽樣、起始順序抽樣、末尾順序抽樣、分層抽樣。如果

做的足夠仔細(xì),保證抽樣是按真正的隨機(jī)來(lái)進(jìn)行的,采樣對(duì)大部分商業(yè)問(wèn)題來(lái)說(shuō)

都不會(huì)丟失信息。你可以用所有的資料建立一個(gè)模型;你還可以用采樣的方法根

據(jù)不同得采樣方法建立幾個(gè)模型,然后評(píng)價(jià)這幾個(gè)模型選擇一個(gè)最好的。我們認(rèn)

為后面這種方法得到的方法更準(zhǔn)確、更健壯。

你可能選擇資料中明顯的異常資料刪除掉。然而在某些情況下,這些看來(lái)異常的

資料可能包含了你要建立模型的重要信息?;谀銓?duì)問(wèn)題的理解方式的不同,通

??梢园堰@些異常忽略掉。比如可以把異常認(rèn)為是人為的錄入錯(cuò)誤。有時(shí)也需

要向資料中添加一些新的資料(如,那些沒(méi)有做出購(gòu)買的客戶)。

3■創(chuàng)建新變?.

很多情況下需要從原始資料中衍生一些新的變量作為預(yù)測(cè)變量。比如,用負(fù)

債占收入百分比來(lái)預(yù)測(cè)信用風(fēng)險(xiǎn)比直接用負(fù)債和收入做預(yù)測(cè)變量更準(zhǔn)確一些,也

更容易理解一些。很多變量如果組合起來(lái)(力口、減、匕碎等)會(huì)比這些變量自身

影響力更大。一些變量如果擴(kuò)大它的范圍也會(huì)成為一個(gè)非常好的預(yù)測(cè)變量,比如

用一段時(shí)間內(nèi)收入變化情況代替一個(gè)單一的收入資料。同時(shí)我們可以通過(guò)時(shí)間序

列數(shù)據(jù)來(lái)建立趨勢(shì)數(shù)據(jù)字段,也可以通過(guò)計(jì)算等創(chuàng)建出涵蓋幾個(gè)信息的變量,

以減少變量的數(shù)量。而在實(shí)際的建模工作中,我們所用的最好的變量一般都是經(jīng)

過(guò)各種運(yùn)算或轉(zhuǎn)換所得到的派生變量。

4,

你所選擇的算法和工具決定了都要對(duì)資料做哪些轉(zhuǎn)換工作。如神經(jīng)網(wǎng)絡(luò)要求

所有的變量都在0-1之間,因此在這些資料被提交到算法之前就必須先對(duì)不在

內(nèi)的變量進(jìn)行映像。同樣一些決策樹(shù)算法不接受數(shù)值型變量作為輸入,在使

用他們之前也要把這些數(shù)值映像到“高、中、低”等。當(dāng)然你的轉(zhuǎn)換方式也在一定

程度上影響了模型的準(zhǔn)確度。

5,

在建立數(shù)據(jù)挖掘模型之前我們已經(jīng)對(duì)各個(gè)變量有了較為清楚的了解,但對(duì)數(shù)

據(jù)各字段還要有個(gè)全面的了解,它們之間數(shù)量關(guān)系和邏輯關(guān)系我們也要搞清楚,

這樣我們才能建立出有價(jià)值的模型。我們可以結(jié)合對(duì)業(yè)務(wù)的了解,借助工具軟件

來(lái)完成這一工作。比如可以隨機(jī)的抽取一部分?jǐn)?shù)據(jù)利用相關(guān)分析來(lái)查看各變量之

間是否存在相關(guān)性,他們的相關(guān)程度有多高,這樣就減少了我們?cè)谶x擇變量時(shí)的

盲目性。

我;n還要注意變量的多重共線性的問(wèn)題,多重共線性討論:

含義:存在高度關(guān)聯(lián)的預(yù)測(cè)因子

問(wèn)題:模型系數(shù)估計(jì)是否具有的可靠性和可解釋性

分析:1)增加了高共性變量系數(shù)樣本分布的標(biāo)準(zhǔn)誤差

2)但并沒(méi)有違背簡(jiǎn)單最小平方回歸的假設(shè)

3)兩個(gè)高度關(guān)聯(lián)的因子對(duì)應(yīng)的所有變量并非都完全一樣,刪除其中一個(gè)

反而會(huì)造成信息丟失

結(jié)論:高關(guān)聯(lián)變量不僅沒(méi)有壞處,而且如果刪除反而會(huì)造成預(yù)測(cè)能力的下降!

區(qū)建立模型

此過(guò)程是一個(gè)反復(fù)探索的過(guò)程,你需要仔細(xì)考察不同的模型以判斷哪個(gè)模型

對(duì)你的商業(yè)問(wèn)題最有用。你在尋找好的模型的過(guò)程中學(xué)到的的東西會(huì)啟發(fā)你修改

你的資料,甚至改變最初對(duì)問(wèn)題的定義。

一旦決定了預(yù)測(cè)的類型之后(分類還是回歸),就需要為這個(gè)預(yù)測(cè)選擇模型

的類型??赡苁且豢脹Q策樹(shù)、神經(jīng)網(wǎng)絡(luò)、甚至傳統(tǒng)的數(shù)學(xué)統(tǒng)計(jì)。選擇什么樣的模

型決定了你需對(duì)資料做哪些預(yù)處理工作。如神經(jīng)網(wǎng)絡(luò)需要做資料轉(zhuǎn)換,有些資料

采礦工具可能對(duì)輸入資料的格式有特定的限制,等。一旦所有的資料準(zhǔn)備好之后,

就可以開(kāi)始訓(xùn)練你的模型了。

為了保證得到的模型具有較好的精確度和健壯性,需要一個(gè)定義完善的訓(xùn)練

—驗(yàn)證協(xié)議。有時(shí)也稱此協(xié)議為帶指導(dǎo)的學(xué)習(xí)。他的主要思想就是先用一部分資

料建立模型,然后再用剩下的資料來(lái)測(cè)試和驗(yàn)證這個(gè)得到的模型。有時(shí)還有第三

個(gè)資料集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的影響,這時(shí)需要一個(gè)獨(dú)

立的資料集來(lái)驗(yàn)證模型的準(zhǔn)確性。

訓(xùn)I練和測(cè)試資料采礦模型需要把資料至少分成兩個(gè)部分:一個(gè)用于模型訓(xùn)練,

另一個(gè)用于模型測(cè)試。如果不使用不同的訓(xùn)練和測(cè)試集,那么模型的準(zhǔn)確度就很

難使人信服。用訓(xùn)練集把模型建立出來(lái)之后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論