版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
球挖掘統(tǒng)計(jì)分析操作指引
在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什
么樣的目標(biāo)是必要的,有了好的計(jì)劃才能保證資料采礦有條不紊的實(shí)施并取得成
功。雖然我們把各個(gè)步驟按JII頁(yè)序排列,但要注意數(shù)據(jù)挖掘過(guò)程并不是線性的,要
取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。比如在“分析資料”時(shí)你可能覺(jué)得在建“
立數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)”時(shí)做的不夠好,要往里面添加一些新的資料等等。
數(shù)據(jù)挖掘過(guò)程主要包括以下幾個(gè)方面:
1、定義商業(yè)問(wèn)題
2、建立數(shù)據(jù)挖掘庫(kù)
3、分析數(shù)據(jù)
4、準(zhǔn)備數(shù)據(jù)
5、建立模型
6、模型評(píng)價(jià)
7、模型實(shí)施
其流程如下圖所示:
-定義商業(yè)問(wèn)題
首先確定數(shù)據(jù)挖掘主題的商業(yè)理解包括商業(yè)目標(biāo),成功評(píng)價(jià)標(biāo)準(zhǔn),挖掘主題
細(xì)分,挖掘模型成功評(píng)價(jià)標(biāo)準(zhǔn),術(shù)語(yǔ)定義,相關(guān)因素的商業(yè)定義和物理定義,資
源分析(數(shù)據(jù)和人力資源)。這些東西盡量在一個(gè)挖掘分析之前確定好,否則這
個(gè)挖掘項(xiàng)目不可能成功,就不在這里展開(kāi)了。
二、建立數(shù)據(jù)麒庫(kù)
這部分內(nèi)容我們已經(jīng)準(zhǔn)備好了,所以這里也不作詳細(xì)說(shuō)明了。
連同下面的兩個(gè)步驟,這三個(gè)步驟應(yīng)該是數(shù)據(jù)預(yù)處理的核心。這三部和在一
起所花的時(shí)間和精力可能比其他所有步驟總和還要多,這也足見(jiàn)這一步驟的重要
性。一旦你從數(shù)據(jù)挖掘的結(jié)果中學(xué)到一些什么東西之后,你很可能要修改覲居已
得到更好的結(jié)果,因此就需要I巴數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘不斷的反復(fù)進(jìn)行。數(shù)據(jù)準(zhǔn)備
工作大概要花去整個(gè)數(shù)據(jù)挖掘工作的50%-90%的時(shí)間和精力。
一般來(lái)說(shuō),應(yīng)該把要挖掘的數(shù)據(jù)都收集到一人數(shù)據(jù)庫(kù)中,如果總是在公司的
數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)挖掘是不太適合的,最好是建立一個(gè)獨(dú)立的數(shù)據(jù)集。這樣一方
面比較便于管理員對(duì)婁噩庫(kù)的管理;另一方面數(shù)據(jù)倉(cāng)庫(kù)可能不支持你所要進(jìn)行的
各種復(fù)雜分析所需的數(shù)據(jù)結(jié)構(gòu)。
可以把建立數(shù)據(jù)挖掘庫(kù)分成下面幾個(gè)部分:
I、轆U
確定要挖掘的數(shù)據(jù)源??赡芤恍┩獠繑?shù)據(jù)要通過(guò)其他渠道來(lái)獲得,這要看具
體情況進(jìn)行。
2、數(shù)據(jù)描述
描述每個(gè)文件和數(shù)據(jù)庫(kù)表的內(nèi)容。生成“數(shù)據(jù)描述報(bào)告”,其中要包括以下內(nèi)
容:字段/列數(shù)目、字段缺失值的數(shù)目、百分比/字段的名字;對(duì)于每個(gè)字段要有
下面這些內(nèi)容:數(shù)據(jù)類型、定義、描述、源、計(jì)量單位、所有不同值得個(gè)數(shù)、值
得列表、值的范圍、缺失值的百分比、收集信息(比如:怎么得到的、在哪、什
么情況下得到的)、其它需要說(shuō)明的信息。
3、蟠
選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)(源數(shù)據(jù)的子集)。這與又撤據(jù)進(jìn)行采樣和選擇預(yù)
測(cè)變量是不同的,這里只是粗略的吧一些冗余或元關(guān)的數(shù)據(jù)除去,或由于資源的
限制、數(shù)據(jù)使用的限制、質(zhì)量問(wèn)題而必須做出的選擇。
4、質(zhì)量評(píng)估和數(shù)據(jù)清理
要想得到好的模型必須使用好的數(shù)據(jù),這是很簡(jiǎn)單的道理。你不僅要保證數(shù)
據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件事情,有
各種各樣的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)域中可能包含了不正確的值,這些一般是錄入錯(cuò)
誤或其他機(jī)械錯(cuò)誤,這些值可能使結(jié)果產(chǎn)生極大的偏差。有時(shí)數(shù)據(jù)域中有值為空
的記錄,即缺失值,當(dāng)從多個(gè)不同的數(shù)據(jù)源整合數(shù)據(jù)時(shí)一定要注意不同源之間數(shù)
據(jù)的一致性。
缺失值是一個(gè)非常有害的問(wèn)題,如果只要有一個(gè)缺失值就將該條記錄刪除的
話,那么最后可能得到一個(gè)很小的數(shù)據(jù)庫(kù),同時(shí)你得到的這個(gè)數(shù)據(jù)庫(kù)很可能已經(jīng)
丟失了實(shí)際數(shù)據(jù)庫(kù)中蘊(yùn)含的一些重要信息,因?yàn)槟阋呀?jīng),改變數(shù)據(jù)的組成。缺失
值本身也是一個(gè)很重要的信息,比如:在調(diào)查居昆的消費(fèi)情況時(shí)得到的居民的收
入資料中,收入高的比收入中上的缺失值要多些。在處理的時(shí)候可以分別對(duì)含有
缺失值的記錄進(jìn)行分析和對(duì)缺失值進(jìn)行單獨(dú)分析。還有一種方法就是對(duì)缺失值進(jìn)
行替換。計(jì)算替代的常用方法有包括使用形式值(為名詞變量),中間值(為可
排序變量),平均值(為連續(xù)變量)。有一個(gè)不是很常用的方法就是按照數(shù)據(jù)庫(kù)中
值的分布規(guī)律值的字段添值。比如如果數(shù)據(jù)庫(kù)中包含40%的男性和60%的女性,
那么就在那些性別字段為空的記錄添加添值時(shí)也按這個(gè)比例隨機(jī)賦值。還有一種
方法就是為這個(gè)缺失值的字段用數(shù)據(jù)挖掘技術(shù)建立一個(gè)預(yù)測(cè)模型,然后按照這個(gè)
模型的預(yù)測(cè)結(jié)果添值,這種方法效果最好,當(dāng)然也最花時(shí)間。
當(dāng)然我們所進(jìn)行的這一步驟在下面的數(shù)據(jù)清洗、分析過(guò)程還會(huì)涉及,在這
里我們只能對(duì)數(shù)據(jù)進(jìn)行比較組略的整理和替換,后面會(huì)作進(jìn)一步的處理。
5、合并與整合
如果幸運(yùn)的話,建模所需要的所有數(shù)據(jù)都在同一個(gè)數(shù)據(jù)庫(kù)中,但是大部分情
況下這些數(shù)據(jù)是分布在不同的數(shù)據(jù)庫(kù)中。數(shù)據(jù)可能分布在公司不同的部門、不同
的應(yīng)用中,甚至在公司外面的數(shù)據(jù)庫(kù)中。
數(shù)據(jù)合并也整合把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)和并到同一個(gè)數(shù)據(jù)挖掘庫(kù)中,并且
要使那些本來(lái)存在沖突和不一致的數(shù)據(jù)一致化。不恰當(dāng)?shù)囊恢禄菙?shù)據(jù)質(zhì)量問(wèn)題
的一個(gè)主要來(lái)源。不同的數(shù)據(jù)庫(kù)建在數(shù)據(jù)定義和使用上通常都存在巨大的差異。
有些不一致問(wèn)題是容易解決的,但是有些問(wèn)題并不是很容易解決,但是無(wú)論解決
容易與否首先要注意數(shù)據(jù)整合的正確性和一致性.
6、構(gòu)建元數(shù)據(jù)
數(shù)據(jù)收集報(bào)告和數(shù)據(jù)描述報(bào)告是建立元數(shù)據(jù)的基礎(chǔ)。本質(zhì)上,這是一個(gè)描述
數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)。它用于建立實(shí)際的數(shù)據(jù)庫(kù)和為分析數(shù)據(jù)和建立模型提供輔助信
息。
7、力哺激據(jù)挖掘庫(kù)
大多數(shù)情況下,用于挖掘的數(shù)據(jù)應(yīng)該放到他豈己獨(dú)立的數(shù)據(jù)庫(kù)中。如果數(shù)據(jù)
量大并且復(fù)雜,那么它通常是一個(gè)RDMS,反之只是一個(gè)簡(jiǎn)單的平面文件即可。
經(jīng)過(guò)前面所有的搜集、整理之后,下載開(kāi)始把這些數(shù)據(jù)實(shí)際的加載過(guò)來(lái)。這一步
驟很是復(fù)雜,一般要這方面的專家輔助完成。
翔居挖掘庫(kù)一旦建好,就需要對(duì)他進(jìn)行維護(hù)。需要定期備份;監(jiān)視他的性能;
不時(shí)地增加存儲(chǔ)空間或提高性能。對(duì)存放在DBMS內(nèi)的復(fù)雜的挖掘庫(kù)來(lái)說(shuō),維
護(hù)他需要計(jì)算機(jī)專業(yè)人員來(lái)完成。
這些步驟并不需要一定要按部就班執(zhí)行,而是應(yīng)該按需要進(jìn)行。這一方面我
們一般都有做好的專門應(yīng)用的數(shù)據(jù)庫(kù),這里不再累書。
這是我們建模好壞的非常關(guān)鍵的一個(gè)步驟。我們對(duì)數(shù)據(jù)進(jìn)行分析應(yīng)從哪幾個(gè)
步驟入手呢?
當(dāng)我們有了數(shù)據(jù)寺辨數(shù)據(jù)庫(kù)之后,而對(duì)其中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí)我們應(yīng)該
從哪幾個(gè)方面入手呢?因?yàn)檫@后面的工作和前面的工作有所不同,前面工作的人
員要求對(duì)數(shù)據(jù)庫(kù)操作以及計(jì)算機(jī)方面的知識(shí)比較扎實(shí),而后面的部分要求操作人
員對(duì)數(shù)據(jù)分析有較強(qiáng)的分析能力。這樣就可能造成一個(gè)人很難從頭到尾的做完整
個(gè)工作。如何對(duì)數(shù)據(jù)進(jìn)行分析和探索以及建模的問(wèn)題對(duì)非專業(yè)的業(yè)務(wù)人員或其他
應(yīng)用人員來(lái)說(shuō)都是一個(gè)很困惑的事情?,F(xiàn)在在這里將這一部分的操作流程作一個(gè)
簡(jiǎn)單的介紹。
首先確定數(shù)據(jù)挖掘主題的商業(yè)理解包括商業(yè)目標(biāo),成功評(píng)價(jià)標(biāo)準(zhǔn),挖掘主
題細(xì)分,挖掘模型成功評(píng)價(jià)標(biāo)準(zhǔn),術(shù)語(yǔ)定義,相關(guān)因素的商業(yè)定義和物理定義,
資源分析(數(shù)據(jù)和人力資源)。這些東西已經(jīng)在一個(gè)挖掘分析之前確定好,現(xiàn)在
再拿來(lái)重溫一下。一方面可能前后工作可能并不是由同一個(gè)人做下來(lái),這樣可以
提供過(guò)程的銜接性。另一方面,再一次強(qiáng)調(diào)這部分內(nèi)容可以減少挖掘工作的盲目
性。
我們用各種方法搜集來(lái)的資料,一般是零散的,它只反映個(gè)別現(xiàn)象的個(gè)別特
征,必須經(jīng)過(guò)整理加工,使之系統(tǒng)化,才能計(jì)算統(tǒng)計(jì)指標(biāo),進(jìn)行統(tǒng)計(jì)分析,為進(jìn)
一步研究提供有用的信息,雖然我們前面在建立數(shù)據(jù)挖掘倉(cāng)庫(kù)時(shí)已經(jīng)對(duì)其進(jìn)行了
整合與整理,但是那些工作都是針對(duì)期居庫(kù)進(jìn)行的,是非常的粗糙的。在我們建
立模型前還需對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的清洗、整理、轉(zhuǎn)換、探索分析等工作。
1,獲取數(shù)據(jù)蹣項(xiàng)目相關(guān)方面的業(yè)務(wù)信息,
比如,做電信方面的項(xiàng)目,要對(duì)電信的業(yè)務(wù)有一定的了解。只有這樣才能挖
掘出真正有價(jià)值的東西。這一方面的資料可以通過(guò)很多途徑獲得,比如與業(yè)務(wù)人
員進(jìn)行溝通等等。
2,蹴各字段和各觀察■的取值進(jìn)行了解。
從而對(duì)數(shù)據(jù)的挖掘的方向和目標(biāo)從整體進(jìn)行把握.可以通過(guò)前端的展現(xiàn)工具
察看數(shù)據(jù)的字段和數(shù)據(jù)量的大小進(jìn)行了解。從而對(duì)數(shù)據(jù)得到一個(gè)初步的印象。
這一過(guò)程是很重要的,也是很難做的事情。它需要對(duì)業(yè)務(wù)進(jìn)行了解,同時(shí)要
清楚每個(gè)字段的實(shí)際意義和取值方法以及每個(gè)值所代表的含義。這個(gè)過(guò)程我們可
以通過(guò)平時(shí)對(duì)業(yè)務(wù)的了解和查看建立數(shù)據(jù)倉(cāng)庫(kù)的“數(shù)據(jù)描述報(bào)告”來(lái)了解。
3、雌50
前面在數(shù)據(jù)倉(cāng)庫(kù)建立的時(shí)候已經(jīng)做了此工作,但這是不完全相同的,前面主
要是針對(duì)數(shù)據(jù)庫(kù)中各個(gè)表之間進(jìn)行的整合與清洗。臟數(shù)據(jù)的普遍存在,使得在大
型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。在此部分我們
要是對(duì)數(shù)據(jù)各字段進(jìn)行處理,減少所用數(shù)據(jù)機(jī)械錯(cuò)誤的存在,而后對(duì)后面工作的
結(jié)果產(chǎn)生影響。此過(guò)程非常重要,是做好一個(gè)模型和整個(gè)數(shù)據(jù)挖掘工作的前提,
不可忽略。
臟數(shù)據(jù)形成的原因:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、
不同的習(xí)慣用語(yǔ)(如:ASAP對(duì)firstchance”)、重復(fù)記錄、丟失值、拼寫變化、
不同的計(jì)量單位、過(guò)時(shí)的編碼。
數(shù)據(jù)清理處理內(nèi)容:異常數(shù)據(jù)清除、格式標(biāo)準(zhǔn)化、錯(cuò)誤糾正和重復(fù)數(shù)據(jù)的清
除。
1)察數(shù)據(jù)的合理性。跟實(shí)際情況結(jié)合,觀察數(shù)據(jù)的可能取值??从袥](méi)有數(shù)據(jù)的
取值異常。對(duì)異常數(shù)據(jù)進(jìn)行分析,判斷數(shù)據(jù)的合理性和可利用價(jià)值。此過(guò)程可以
通過(guò)對(duì)數(shù)據(jù)的簡(jiǎn)單統(tǒng)計(jì)分析發(fā)現(xiàn),可以借助工具查看數(shù)據(jù)的缺失值、奇異值的情
況。
根據(jù)實(shí)際情況選擇適當(dāng)?shù)膶?duì)缺失值、奇異值的處理方法有替換、隔離、刪
除等處理。
缺失值會(huì)表現(xiàn)為以下問(wèn)題:
有缺失值的個(gè)案系統(tǒng),不同于完整的個(gè)案;
有缺失值的個(gè)案表明信息不完整;
標(biāo)準(zhǔn)統(tǒng)計(jì)方法只接受完整數(shù)據(jù)。
奇異值會(huì)表現(xiàn)為以下問(wèn)題:
個(gè)別字觀測(cè)值的取值太大或太小,很大程度上影響了整體的分布情況。
以上問(wèn)題意味著:
偏向:分析結(jié)果可能會(huì)有偏差;
無(wú)效:較少的有效個(gè)案導(dǎo)致估計(jì)精度下降;
一般來(lái)講奇異值可能是正常的值,也可能是由于某些錯(cuò)誤造成的。為了消
除個(gè)別特殊值對(duì)模型的影響,我們要對(duì)其進(jìn)行處理。
在此過(guò)程中如果數(shù)據(jù)中缺失值、奇異值的比例非常小的話,采用何種方法
處理對(duì)結(jié)果影響不會(huì)很大,T殳直接選擇缺失值、奇異值不參加建模就行了.如
果這些值的比重匕瞰大的話,這樣就對(duì)建模結(jié)果影響比較大,就必須采用一定的
方法對(duì)其值進(jìn)行替換。替換的方法主要有:用均值、眾數(shù)、中位數(shù)或某個(gè)特定的
值。具體操作時(shí)還要根據(jù)實(shí)際數(shù)據(jù)的情況選擇比較合理的方法。
2)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行處理
A、質(zhì)量問(wèn)題含義:正確性、一致性、完整性、可靠性
數(shù)據(jù)錯(cuò)誤不可避免性:數(shù)據(jù)輸入和獲得過(guò)程數(shù)據(jù)錯(cuò)誤的不可避免性,數(shù)據(jù)集
成所表現(xiàn)出來(lái)的錯(cuò)誤、數(shù)據(jù)傳輸過(guò)程所引入的錯(cuò)誤。
B、質(zhì)量問(wèn)題的分類:
單數(shù)據(jù)源(個(gè)別記錄合字段)問(wèn)題:模式相關(guān)(缺乏完整性約束,粗劣的模
式設(shè)計(jì)):非唯一值、數(shù)據(jù)不完整;實(shí)例相關(guān)(數(shù)據(jù)輸入錯(cuò)誤):拼寫錯(cuò)誤、
冗余/重復(fù)、矛盾的數(shù)據(jù)。
多數(shù)據(jù)源(數(shù)據(jù)集合的總體)問(wèn)題:模式相關(guān)(不同的數(shù)據(jù)模型和模式設(shè)
計(jì)):命名沖突、結(jié)構(gòu)沖突;實(shí)例相關(guān)(矛盾的或不一致的數(shù)據(jù))不一致的聚集
層次、不一致的時(shí)間點(diǎn)。
數(shù)據(jù)錯(cuò)誤的危害性:高昂的操作費(fèi)用、糟糕的決策制定、組織的不信任、分散管
理的注意力。
C、相關(guān)的工作:
合并/凈化問(wèn)題,比如:記錄聯(lián)接、語(yǔ)義集成、實(shí)例識(shí)別、對(duì)象識(shí)別問(wèn)題。
物居清理過(guò)程存在的問(wèn)題和困難:不確定性和風(fēng)險(xiǎn)性;很難確定兩個(gè)不完全相同
的記錄是否表示同一個(gè)實(shí)體,即使它們非常相近;結(jié)果的確認(rèn),很難找出真正的
重復(fù)記錄數(shù),這樣有效性的度量很難得到。清理算法的性能跟數(shù)據(jù)庫(kù)密切相關(guān)。
現(xiàn)存的數(shù)據(jù)清理方法:臟數(shù)據(jù)的預(yù)處理、排序鄰居方法、優(yōu)先排隊(duì)算法、多次遍
歷數(shù)據(jù)清理方法、增量數(shù)據(jù)清理、采用領(lǐng)域知識(shí)進(jìn)行清理、領(lǐng)域無(wú)關(guān)的數(shù)據(jù)清理
采用數(shù)據(jù)庫(kù)管理系統(tǒng)的集成數(shù)據(jù)清理、擴(kuò)展SQL進(jìn)行數(shù)據(jù)清理過(guò)程(方便用戶
的使用,存在優(yōu)化問(wèn)題)。
臟數(shù)據(jù)的預(yù)處理:先于數(shù)據(jù)清理過(guò)程、使數(shù)據(jù)更加規(guī)范化和一致,獲得更好
的結(jié)果、包含外部參考文件,如縮寫標(biāo)準(zhǔn)表。
排序鄰居方法方法包括三個(gè)步驟:
創(chuàng)建關(guān)鍵字:依賴于領(lǐng)域知識(shí)中的錯(cuò)誤模型;排序數(shù)據(jù);合并。
排序鄰居方法方法的缺點(diǎn):結(jié)果與所采取的關(guān)鍵字密切相關(guān)「Windowsize”問(wèn)
題。
優(yōu)先排隊(duì)算法:將各個(gè)記錄根據(jù)相似性程度歸入不同的隊(duì)列中。減少了比較
的次數(shù),照樣存在“Windowsize”問(wèn)題。
多次遍歷數(shù)據(jù)清理方法:每次排序選用不同的關(guān)鍵字。減少錯(cuò)過(guò)重復(fù)數(shù)據(jù)的機(jī)
會(huì),選擇關(guān)鍵字比較簡(jiǎn)單。
D、基于知識(shí)的方法進(jìn)行重復(fù)數(shù)據(jù)的消除
數(shù)據(jù)處理的三個(gè)階段:
預(yù)處理階段:數(shù)據(jù)類型檢查、數(shù)據(jù)格式規(guī)范化、不一致的縮寫;
處理階段:將預(yù)處理后的數(shù)據(jù)通過(guò)專家系統(tǒng)引擎和一系列的規(guī)則進(jìn)行處理;
人工檢驗(yàn)和確認(rèn)階段:處理規(guī)則無(wú)法處理的重復(fù)記錄。
規(guī)則的分類:重復(fù)識(shí)別規(guī)則(指定兩個(gè)兩個(gè)記錄為相似記錄的條件);合并/清
除規(guī)則(指定對(duì)兩個(gè)重復(fù)記錄如何進(jìn)行處理);更新規(guī)則(在特殊情況下更新數(shù)據(jù)
的方法);警報(bào)規(guī)則(當(dāng)一個(gè)特定的事件發(fā)生時(shí)發(fā)出警報(bào)),原因分析會(huì)的建議措
施、建議措施中每項(xiàng)活動(dòng)、預(yù)防缺陷信息必須管理和控制。
基于知識(shí)方法的好處:應(yīng)用商業(yè)規(guī)則進(jìn)行數(shù)據(jù)清理,這些規(guī)則相對(duì)比較穩(wěn)定
不需經(jīng)常變化和修改。
解決了recall-precision的矛盾
采用不確定因子減少false-positive錯(cuò)誤。
E、排序-鄰居方法:在數(shù)據(jù)中消除錯(cuò)誤和不一致,并解決對(duì)象識(shí)別問(wèn)題的過(guò)程。
對(duì)于合并/凈化問(wèn)題用基本的排序-鄰居方法進(jìn)行解決的過(guò)程。此數(shù)據(jù)清理的六個(gè)
步驟:
元素化、標(biāo)準(zhǔn)化、校驗(yàn)、匹配、是否為一家人、檔案化。
元素化:將數(shù)據(jù)形式整理成標(biāo)準(zhǔn)數(shù)據(jù)。
例如:
將RalphBandJulianneKimballTrusteesforKimballFredCSie.116
13150Hiway9Box1234BoulderCrkColo95006
進(jìn)行元素化其結(jié)果可能為:
AddresseeFirstNamc(l):Ralph
AddresseeMiddleInitial(l):B
AddresseeLastName(l):Kimball
AddresseeFirstName(2):Julianne
AddresseeLastName(2):Kimball
AddresseeRelationship:Trusteesfor
RelationshipPersonFirstName:Fred
RelationshipPersonMiddleName:C
RelationshipPersonLastName:Kimball
StreetAddressNumber:13150
StreetName:Hiway9
SuiteNumber:116
PostOfficeBoxNumber:1234
City:BoulderCrk
State:Colo
FiveDigitZip:95006
標(biāo)準(zhǔn)化:
將元素標(biāo)準(zhǔn)化,如在上例中將
?Ste變?yōu)閟uite
?Hiway變?yōu)镠ighway
?BoulderCrk變?yōu)锽oulderCreek
?Colo變?yōu)镃olorado
校驗(yàn):
對(duì)標(biāo)準(zhǔn)化的元素進(jìn)行一致性校驗(yàn),即在內(nèi)容上有什么錯(cuò)誤。如BoulderCreek
的郵政編碼95006是在California,而不是在Colorado。由于三個(gè)數(shù)據(jù)中有兩
個(gè)指向California,所以將州名改為Californiao不過(guò)應(yīng)該做上標(biāo)記以進(jìn)行進(jìn)一步
的校驗(yàn)。
匹配:
在其它客戶記錄中尋找RalphKimball或JulianneKimball以確保在所有的
記錄中的相應(yīng)地址是柜同的。但要注意:地址是否發(fā)生過(guò)改變,對(duì)以前的麻“當(dāng)
前的”地址指派單獨(dú)的元素。
是否為一家人:
同T主址,同一套住房里不同的房間。采用內(nèi)部或外部數(shù)據(jù)源的信息,如是
否存在婚姻關(guān)系
檔案化:
將前5個(gè)步驟的結(jié)果寫入元數(shù)據(jù)存儲(chǔ)中心。這樣可以更好地進(jìn)行后續(xù)的清理
過(guò)程,使得用戶容易理解數(shù)據(jù)庫(kù)以及更好地進(jìn)行切片、切塊等操作
3)數(shù)據(jù)進(jìn)行運(yùn)算,檢驗(yàn)數(shù)據(jù)之間的邏輯關(guān)系是否成立。來(lái)驗(yàn)證數(shù)據(jù)的準(zhǔn)確性。
本部分主要是檢查數(shù)據(jù)各字段之間的數(shù)量關(guān)系是否正確。比如:驗(yàn)證第一季度的
總量是否等于1、2、3月份的數(shù)量的總和。
4.觀察數(shù)據(jù)的分布情況,進(jìn)行初步分析。
其實(shí)這一步是上一步驟的深入。主要包括以下幾項(xiàng)內(nèi)容:
1)分析數(shù)據(jù)的各個(gè)字段取值分布情況,比如求得均值、方差、最大最小值
等??梢岳靡恍┕ぞ哕浖?,對(duì)各個(gè)字段的數(shù)據(jù)進(jìn)行基本的統(tǒng)計(jì)分析。得到各變
量的描述性分析結(jié)果。觀察各個(gè)字段的分布情況,來(lái)判斷我們的數(shù)據(jù)樣本的分布
情況是否是正態(tài)分布,來(lái)判斷能否直接運(yùn)用現(xiàn)有的理論進(jìn)行分析。
這時(shí)我們還可以通過(guò)工具軟件來(lái)展現(xiàn),做一些分布圖來(lái)了解情況。如條形圖、
箱型圖、并圖、直方圖等能更直觀更形象的從整體上了解數(shù)據(jù)的分布情況。
2)對(duì)數(shù)據(jù)分布異常的變量進(jìn)行進(jìn)一步的分析,判斷數(shù)據(jù)的合理性。如果數(shù)
據(jù)的分布是實(shí)際情況的正確描述,但分布不便于進(jìn)行分析時(shí),考慮對(duì)該變量進(jìn)行
轉(zhuǎn)換、變形處理。
3)初步對(duì)數(shù)據(jù)進(jìn)行整體的分析,觀察各字段間的邏輯關(guān)系,從而進(jìn)一步對(duì)
數(shù)據(jù)進(jìn)行分析,通過(guò)字段間的轉(zhuǎn)換、變形、運(yùn)算獲得新的變量,并對(duì)其進(jìn)行分析。
4)要注意所生成的新變量的合理性和可比性。以及各字段之間的量綱的統(tǒng)
一性,是否需要進(jìn)行標(biāo)準(zhǔn)化來(lái)統(tǒng)一量綱。
5、迸一^對(duì)鶴進(jìn)行分析。
尋找他們之間所存在的關(guān)系。本過(guò)程主要是進(jìn)行探索性分析,是整個(gè)過(guò)程較
煩瑣的一個(gè)步驟。此時(shí)對(duì)發(fā)現(xiàn)的問(wèn)題要及時(shí)的進(jìn)行記錄,以為后面的過(guò)程提供研
究方向。
四、準(zhǔn)備1噓及探索分析
這一過(guò)程是建模數(shù)據(jù)的準(zhǔn)備過(guò)程,與前面的數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)的準(zhǔn)備過(guò)程不同。
它包括:選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量、探索分析。
有人認(rèn)為將所有的變量都加入到模型中,讓模型自動(dòng)識(shí)別變量。實(shí)際工作上
并不是選擇全部變量,把他們輸入到數(shù)據(jù)挖掘工具中,讓他來(lái)幫你選擇哪些是最
好的預(yù)測(cè)變量。一方面是由于隨著變量個(gè)數(shù)的增加,模型的建立時(shí)間也隨之上升;
另一方面盲目的把所有的變量都加進(jìn)去會(huì)導(dǎo)致建立錯(cuò)誤的模型。利用你的領(lǐng)域知
識(shí),你會(huì)做出大部分正確的選擇。一般來(lái)說(shuō),在建模的時(shí)候我們要計(jì)算變量間的
相關(guān)系數(shù),選擇相關(guān)的(協(xié))變量,而忽略那些不相關(guān)的變量。這樣既可節(jié)省運(yùn)
算時(shí)間,又可以提高模型建立的合理性。
選擇變量的方法有:逐步法、向后法。
逐步法,
從模量中選擇變量,每當(dāng)一個(gè)變量進(jìn)入模型,就會(huì)重新計(jì)算不在模型中的剩
余變量得單變量卡方,同時(shí)計(jì)算模型中的預(yù)測(cè)因子的多變量卡方或遞增預(yù)測(cè)能力。
如果某個(gè)變量進(jìn)入模型中后,以后的變量再進(jìn)入模型后,模型效果都不再顯著,
則刪除該變量,此過(guò)程進(jìn)行直至所有變量。
向后法:
首先考慮模型中的所有變量,考慮某個(gè)變量與其他變量的關(guān)聯(lián)時(shí),每個(gè)變量
者陵計(jì)算多變量卡方和預(yù)測(cè)能力,然后依次刪除預(yù)測(cè)能力低的變量。刪除后上述
過(guò)程繼續(xù)進(jìn)行。直至找出所有的變量都具有多變量的顯著性。
2,
與選擇變量類似,你可能也想用你所有的資料行來(lái)建立模型,然而如果你的
資料量確實(shí)非常巨大的話,要么要花費(fèi)很長(zhǎng)的時(shí)間來(lái)建立這個(gè)模型,要么買一臺(tái)
計(jì)算能力非常強(qiáng)大的機(jī)器。
因此,如果資料量特別大,進(jìn)行抽樣就是一個(gè)很好的主意。抽樣的方法有以下幾
種:簡(jiǎn)單隨機(jī)抽樣、等距抽樣、起始順序抽樣、末尾順序抽樣、分層抽樣。如果
做的足夠仔細(xì),保證抽樣是按真正的隨機(jī)來(lái)進(jìn)行的,采樣對(duì)大部分商業(yè)問(wèn)題來(lái)說(shuō)
都不會(huì)丟失信息。你可以用所有的資料建立一個(gè)模型;你還可以用采樣的方法根
據(jù)不同得采樣方法建立幾個(gè)模型,然后評(píng)價(jià)這幾個(gè)模型選擇一個(gè)最好的。我們認(rèn)
為后面這種方法得到的方法更準(zhǔn)確、更健壯。
你可能選擇資料中明顯的異常資料刪除掉。然而在某些情況下,這些看來(lái)異常的
資料可能包含了你要建立模型的重要信息?;谀銓?duì)問(wèn)題的理解方式的不同,通
??梢园堰@些異常忽略掉。比如可以把異常認(rèn)為是人為的錄入錯(cuò)誤。有時(shí)也需
要向資料中添加一些新的資料(如,那些沒(méi)有做出購(gòu)買的客戶)。
3■創(chuàng)建新變?.
很多情況下需要從原始資料中衍生一些新的變量作為預(yù)測(cè)變量。比如,用負(fù)
債占收入百分比來(lái)預(yù)測(cè)信用風(fēng)險(xiǎn)比直接用負(fù)債和收入做預(yù)測(cè)變量更準(zhǔn)確一些,也
更容易理解一些。很多變量如果組合起來(lái)(力口、減、匕碎等)會(huì)比這些變量自身
影響力更大。一些變量如果擴(kuò)大它的范圍也會(huì)成為一個(gè)非常好的預(yù)測(cè)變量,比如
用一段時(shí)間內(nèi)收入變化情況代替一個(gè)單一的收入資料。同時(shí)我們可以通過(guò)時(shí)間序
列數(shù)據(jù)來(lái)建立趨勢(shì)數(shù)據(jù)字段,也可以通過(guò)計(jì)算等創(chuàng)建出涵蓋幾個(gè)信息的變量,
以減少變量的數(shù)量。而在實(shí)際的建模工作中,我們所用的最好的變量一般都是經(jīng)
過(guò)各種運(yùn)算或轉(zhuǎn)換所得到的派生變量。
4,
你所選擇的算法和工具決定了都要對(duì)資料做哪些轉(zhuǎn)換工作。如神經(jīng)網(wǎng)絡(luò)要求
所有的變量都在0-1之間,因此在這些資料被提交到算法之前就必須先對(duì)不在
內(nèi)的變量進(jìn)行映像。同樣一些決策樹(shù)算法不接受數(shù)值型變量作為輸入,在使
用他們之前也要把這些數(shù)值映像到“高、中、低”等。當(dāng)然你的轉(zhuǎn)換方式也在一定
程度上影響了模型的準(zhǔn)確度。
5,
在建立數(shù)據(jù)挖掘模型之前我們已經(jīng)對(duì)各個(gè)變量有了較為清楚的了解,但對(duì)數(shù)
據(jù)各字段還要有個(gè)全面的了解,它們之間數(shù)量關(guān)系和邏輯關(guān)系我們也要搞清楚,
這樣我們才能建立出有價(jià)值的模型。我們可以結(jié)合對(duì)業(yè)務(wù)的了解,借助工具軟件
來(lái)完成這一工作。比如可以隨機(jī)的抽取一部分?jǐn)?shù)據(jù)利用相關(guān)分析來(lái)查看各變量之
間是否存在相關(guān)性,他們的相關(guān)程度有多高,這樣就減少了我們?cè)谶x擇變量時(shí)的
盲目性。
我;n還要注意變量的多重共線性的問(wèn)題,多重共線性討論:
含義:存在高度關(guān)聯(lián)的預(yù)測(cè)因子
問(wèn)題:模型系數(shù)估計(jì)是否具有的可靠性和可解釋性
分析:1)增加了高共性變量系數(shù)樣本分布的標(biāo)準(zhǔn)誤差
2)但并沒(méi)有違背簡(jiǎn)單最小平方回歸的假設(shè)
3)兩個(gè)高度關(guān)聯(lián)的因子對(duì)應(yīng)的所有變量并非都完全一樣,刪除其中一個(gè)
反而會(huì)造成信息丟失
結(jié)論:高關(guān)聯(lián)變量不僅沒(méi)有壞處,而且如果刪除反而會(huì)造成預(yù)測(cè)能力的下降!
區(qū)建立模型
此過(guò)程是一個(gè)反復(fù)探索的過(guò)程,你需要仔細(xì)考察不同的模型以判斷哪個(gè)模型
對(duì)你的商業(yè)問(wèn)題最有用。你在尋找好的模型的過(guò)程中學(xué)到的的東西會(huì)啟發(fā)你修改
你的資料,甚至改變最初對(duì)問(wèn)題的定義。
一旦決定了預(yù)測(cè)的類型之后(分類還是回歸),就需要為這個(gè)預(yù)測(cè)選擇模型
的類型??赡苁且豢脹Q策樹(shù)、神經(jīng)網(wǎng)絡(luò)、甚至傳統(tǒng)的數(shù)學(xué)統(tǒng)計(jì)。選擇什么樣的模
型決定了你需對(duì)資料做哪些預(yù)處理工作。如神經(jīng)網(wǎng)絡(luò)需要做資料轉(zhuǎn)換,有些資料
采礦工具可能對(duì)輸入資料的格式有特定的限制,等。一旦所有的資料準(zhǔn)備好之后,
就可以開(kāi)始訓(xùn)練你的模型了。
為了保證得到的模型具有較好的精確度和健壯性,需要一個(gè)定義完善的訓(xùn)練
—驗(yàn)證協(xié)議。有時(shí)也稱此協(xié)議為帶指導(dǎo)的學(xué)習(xí)。他的主要思想就是先用一部分資
料建立模型,然后再用剩下的資料來(lái)測(cè)試和驗(yàn)證這個(gè)得到的模型。有時(shí)還有第三
個(gè)資料集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的影響,這時(shí)需要一個(gè)獨(dú)
立的資料集來(lái)驗(yàn)證模型的準(zhǔn)確性。
訓(xùn)I練和測(cè)試資料采礦模型需要把資料至少分成兩個(gè)部分:一個(gè)用于模型訓(xùn)練,
另一個(gè)用于模型測(cè)試。如果不使用不同的訓(xùn)練和測(cè)試集,那么模型的準(zhǔn)確度就很
難使人信服。用訓(xùn)練集把模型建立出來(lái)之后
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人體胚胎發(fā)育:增強(qiáng)現(xiàn)實(shí)訓(xùn)練課件
- 評(píng)估報(bào)告內(nèi)部復(fù)審制度
- 要嚴(yán)守值班值守制度
- 2025年洛陽(yáng)中信醫(yī)院筆試及答案
- 2025年沈陽(yáng)醫(yī)院事業(yè)編5月考試及答案
- 2025年采編崗位筆試試題及答案
- 2025年城投造價(jià)崗位筆試及答案
- 2025年彭州市事業(yè)單位考試面試及答案
- 2025年教資不需要筆試的面試及答案
- 2025年獨(dú)山子石化筆試及答案
- 全球科普活動(dòng)現(xiàn)狀及發(fā)展趨勢(shì)
- 2024年重慶市中考語(yǔ)文考試說(shuō)明
- 2024版鋁錠采購(gòu)合同
- YYT 0644-2008 超聲外科手術(shù)系統(tǒng)基本輸出特性的測(cè)量和公布
- 建筑工程 施工組織設(shè)計(jì)范本
- 五筆打字簡(jiǎn)明教程
- 工廠產(chǎn)能計(jì)劃書
- 工程全過(guò)程造價(jià)咨詢服務(wù)方案
- 研學(xué)旅行概論 課件 第一章 研學(xué)旅行的起源與發(fā)展
- 第1課+古代亞非【中職專用】《世界歷史》(高教版2023基礎(chǔ)模塊)
- 社會(huì)調(diào)查研究方法課程教學(xué)設(shè)計(jì)實(shí)施方案
評(píng)論
0/150
提交評(píng)論