版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2023/1/6數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典元昌安主編鄧松李文敬劉海濤編著電子工業(yè)出版社2023/1/62
2023/1/63本章包括:數(shù)據(jù)挖掘項(xiàng)目實(shí)施步驟123數(shù)據(jù)挖掘項(xiàng)目周期單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容建立項(xiàng)目和報(bào)告處理缺失值導(dǎo)入和導(dǎo)出PMML模型3452023/1/6
23.1數(shù)據(jù)挖掘項(xiàng)目實(shí)施步驟
23.1.1一般實(shí)施步驟
一般而言,數(shù)據(jù)挖掘項(xiàng)目要經(jīng)歷的過(guò)程包括:?jiǎn)栴}理解和提出、
數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)整理
、建立模型、評(píng)價(jià)和解釋等一系列任務(wù),其流程如圖23-1所示。2023/1/623.1.2企業(yè)解決方案SEMMA模式2023/1/6
SPSS-5A模型
2023/1/6723.1.3標(biāo)準(zhǔn)過(guò)程模型
商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估模型發(fā)布2023/1/623.2數(shù)據(jù)挖掘項(xiàng)目周期2023/1/623.3建立項(xiàng)目和報(bào)告23.3.1項(xiàng)目概述表面上,Clementine項(xiàng)目只是一種組織輸出的簡(jiǎn)單方式,但實(shí)際上它能做更多的工作,主要包括以下工作:(1)注釋項(xiàng)目文件中的每個(gè)對(duì)象。(2)使用CRISP-DM方法指導(dǎo)數(shù)據(jù)挖掘工作。項(xiàng)目還包含CRISP-DM幫助系統(tǒng),該系統(tǒng)針對(duì)使用CRISP-DM進(jìn)行的數(shù)據(jù)挖掘提供詳細(xì)信息以及現(xiàn)實(shí)示例。(3)將非Clementine項(xiàng)目添加到Clementine項(xiàng)目,如用于展現(xiàn)數(shù)據(jù)挖掘目標(biāo)的PowerPoint幻燈片或與計(jì)劃使用的算法相關(guān)的文檔等。(4)根據(jù)注解生成全面更新報(bào)告和簡(jiǎn)單更新報(bào)告。為了便于在局域網(wǎng)上發(fā)布,可以用HTML的形式生成這些報(bào)告。2023/1/6CRISP-DM視圖2023/1/6類視圖2023/1/6
23.3.2建立項(xiàng)目
新建項(xiàng)目在Clementine窗口中新建項(xiàng)目非常簡(jiǎn)單??梢詮臉?gòu)建新項(xiàng)目開始(如果沒(méi)有項(xiàng)目打開),也可以關(guān)閉現(xiàn)有項(xiàng)目并重新開始。從流工作區(qū)菜單中,選擇“文件”→“工程”→“新建工程...”命令。2023/1/6
添加到項(xiàng)目
創(chuàng)建或打開項(xiàng)目后,便可以使用多種方法來(lái)添加對(duì)象,如數(shù)據(jù)流、節(jié)點(diǎn)和報(bào)告等。(1)用管理器添加對(duì)象使用Clementine窗口右上角的管理器,可以添加流或輸出。從其中一個(gè)管理器選項(xiàng)卡中選擇一個(gè)對(duì)象(如表或流)。右鍵單擊,然后選擇“添加到工程”命令。如果以前保存過(guò)該對(duì)象,則會(huì)自動(dòng)將它添加到適當(dāng)?shù)膶?duì)象文件夾(在類視圖中)或默認(rèn)的階段文件夾(在CRISP-DM視圖中)?;蛘?,可以將對(duì)象從管理器拖放到項(xiàng)目工作區(qū)中。將項(xiàng)目添加到項(xiàng)目工程中,如圖23-7從項(xiàng)目管理器中加入項(xiàng)目項(xiàng)到工程中所示。2023/1/6(2)從工作區(qū)添加節(jié)點(diǎn)可以使用“保存”對(duì)話框從流工作區(qū)添加單個(gè)節(jié)點(diǎn)。在工作區(qū)中選擇一個(gè)節(jié)點(diǎn)。單擊右鍵,然后選擇“保存節(jié)點(diǎn)”命令;或者,從菜單中選擇“編輯”→“節(jié)點(diǎn)”→“保存節(jié)點(diǎn)...”命令。在“保存”對(duì)話框中,選中“將文件添加到工程”命令。為節(jié)點(diǎn)創(chuàng)建名稱,然后單擊“保存”命令。從流工作區(qū)中加入節(jié)點(diǎn)的主要操作對(duì)話框如圖23-8從流工作區(qū)中加入節(jié)點(diǎn)所示,這樣會(huì)保存文件并將其添加到項(xiàng)目中,同時(shí)節(jié)點(diǎn)會(huì)被添加到類視圖中的Nodes文件夾以及CRISP-DM視圖中的默認(rèn)階段文件夾。2023/1/6(3)添加外部文件將外部文件添加到項(xiàng)目的一般步驟如下:Step1.將文件從桌面上直接拖到項(xiàng)目中;或右鍵單擊CRISP-DM視圖或類視圖中的目標(biāo)文件夾。Step2.從菜單中,選擇“添加到文件夾”命令。Step3.在對(duì)話框中選擇一個(gè)文件,然后單擊“打開”命令。這將會(huì)在Clementine項(xiàng)目?jī)?nèi)添加對(duì)所選對(duì)象的引用。2023/1/6
設(shè)置項(xiàng)目屬性
可以使用項(xiàng)目屬性對(duì)話框來(lái)自定義項(xiàng)目的內(nèi)容和文檔。要訪問(wèn)項(xiàng)目屬性,一般執(zhí)行以下操作:
Step1.右鍵單擊項(xiàng)目工具中的根文件夾,然后選擇“工程屬性”命令;或者右鍵單擊項(xiàng)目工具中的非根文件夾,然后選擇“工程”→“工程屬性”命令。工程選項(xiàng)卡對(duì)話框如圖23-9工程選項(xiàng)卡對(duì)話框所示。
Step2.單擊“工程”選項(xiàng)卡以指定項(xiàng)目的相關(guān)信息。
2023/1/6
在工程選項(xiàng)卡中包含下列信息,如圖23-9工程選項(xiàng)卡對(duì)話框所示。創(chuàng)建時(shí)間:顯示項(xiàng)目的創(chuàng)建時(shí)間(此項(xiàng)內(nèi)容不可編輯)。摘要:可以輸入將在項(xiàng)目報(bào)告中顯示的數(shù)據(jù)挖掘項(xiàng)目的摘要。內(nèi)容:列出項(xiàng)目文件引用的組成文件的類型和數(shù)量(此項(xiàng)內(nèi)容不可編輯)。將未保存的對(duì)象保另存為單選項(xiàng):指定是應(yīng)將未保存的對(duì)象保存到本地文件系統(tǒng)還是存儲(chǔ)在PredictiveEnterpriseRepository中。載入項(xiàng)目時(shí)更新對(duì)象引用復(fù)選框:選中此選項(xiàng)可更新項(xiàng)目對(duì)其組成文件的引用。2023/1/6
注解項(xiàng)目
項(xiàng)目工具提供了多種方式來(lái)注解數(shù)據(jù)挖掘工作。項(xiàng)目級(jí)注解常用于跟蹤宏觀目標(biāo)和決策,而文件夾或節(jié)點(diǎn)注解提供其他詳細(xì)信息?!白⒔狻边x項(xiàng)卡提供了足夠空間記錄項(xiàng)目級(jí)詳細(xì)信息,比如具有不可恢復(fù)丟失數(shù)據(jù)的數(shù)據(jù)排除、數(shù)據(jù)探索過(guò)程中形成的可能假設(shè)等。2023/1/6對(duì)象屬性可以查看對(duì)象屬性并選擇是否在項(xiàng)目報(bào)告中納入單個(gè)對(duì)象。要訪問(wèn)對(duì)象屬性,需要執(zhí)行以下操作:Step1.右鍵單擊項(xiàng)目窗口中的對(duì)象。Step2.從菜單中,選擇“對(duì)象屬性”命令。對(duì)象屬性的設(shè)置,如圖23-12對(duì)象屬性對(duì)話框所示。
2023/1/620
關(guān)閉項(xiàng)目
關(guān)閉項(xiàng)目文件的操作步驟一般如下:Step1.從“文件”菜單中,選擇關(guān)閉項(xiàng)目。Step2.如果系統(tǒng)詢問(wèn)是關(guān)閉所有與項(xiàng)目關(guān)聯(lián)的文件還是讓其保持打開,請(qǐng)單擊“保持打開”命令,將關(guān)閉工程文件(.cpj)本身而讓所有關(guān)聯(lián)文件(如流、節(jié)點(diǎn)或圖形等)保持打開。
2023/1/6
23.3.3建立報(bào)告
項(xiàng)目最有用的一項(xiàng)功能是能夠根據(jù)項(xiàng)目項(xiàng)和注解生成報(bào)告??梢灾苯由扇舾煞N文件類型的報(bào)告,也可以直接輸出到屏幕窗口以便立即查看。從輸出窗口中,可以打印、保存或查看Web瀏覽器中的報(bào)告。還可以將保存的報(bào)告分發(fā)給組織中的其他人。2023/1/6
設(shè)置報(bào)告選項(xiàng)
2023/1/6
生成報(bào)告
2023/1/6保存和輸出報(bào)告在屏幕上生成的報(bào)告顯示在新輸出窗口中,此報(bào)告中包括的所有圖形都會(huì)顯示為內(nèi)嵌圖像。保存報(bào)告的一般步驟如下:Step1.從“文件”菜單中,選擇“保存”命令。Step2.指定文件名。導(dǎo)出報(bào)告的一般步驟如下:Step1.從“文件”菜單中,選擇導(dǎo)出以及要導(dǎo)出為的文件類型。Step2.指定文件名??梢詫?bào)告導(dǎo)出為如下類型的文件:HTML文本MicrosoftWordMicrosoftExcelMicrosoftPowerPoint2023/1/6
23.4處理缺失值
23.4.1指定缺失值用戶可以用類型節(jié)點(diǎn)或者來(lái)源節(jié)點(diǎn)的類型選項(xiàng)卡來(lái)指定某個(gè)特定的值為缺失值,也可以決定是否把系統(tǒng)的缺失值或空白看作空格。在“缺失”欄上,從下拉菜單中選擇“指定…”來(lái)打開一個(gè)對(duì)話框,然后確定缺失值選項(xiàng)。如圖23-16確定連續(xù)變量的缺失值所示。2023/1/6圖23-16確定連續(xù)變量的缺失值2023/1/6
23.4.2處理缺失值
用戶應(yīng)根據(jù)所從事的專業(yè)領(lǐng)域知識(shí)來(lái)確定如何處理缺失值。為了減少訓(xùn)練時(shí)間以及提高精度,可能需要除去數(shù)據(jù)集中的空值。此外,空值的出現(xiàn)還可能會(huì)帶來(lái)新的業(yè)務(wù)機(jī)會(huì)或其他靈感。在Clementine中有許多技巧來(lái)處理缺失值,可以根據(jù)數(shù)據(jù)的以下特征來(lái)選擇最佳方法:數(shù)據(jù)集的大小包含空值的字段數(shù)缺失信息量一旦分析了上述因素,就可以選擇下述兩種方法來(lái)處理:忽略帶有缺失值的字段或記錄可以使用各種方法歸因、替換或強(qiáng)制賦值缺失值2023/1/6
處理帶缺失值的記錄
如果大部分缺失值都集中在少量記錄中,只需排除這些記錄即可。例如,銀行通常會(huì)保存詳細(xì)而完整的貸款客戶的記錄。但是,如果銀行在審批內(nèi)部職員的貸款時(shí)管制不嚴(yán),則所收集的員工貸款數(shù)據(jù)可能會(huì)存在空白字段。此種情況下,有兩種方法可以處理缺失值:可以使用選擇節(jié)點(diǎn)刪除員工記錄。如果數(shù)據(jù)集很大,使用者可以在一個(gè)選擇節(jié)點(diǎn)上,使用@BLANK和@NULL函數(shù)來(lái)剔除帶有空格的所有記錄。
2023/1/6處理帶缺失值的字段如大部分缺失值都集中在少量字段中,可通過(guò)字段而不是記錄查找這些缺失值。確定要采用的方法時(shí),還應(yīng)考慮帶有缺失值的字段類型。數(shù)值字段對(duì)于數(shù)值字段類型(如范圍),應(yīng)在構(gòu)建模型前清除所有非數(shù)字值,因?yàn)槿绻麛?shù)值字段中包含空值,很多模型將無(wú)效。分類字段對(duì)于分類字段(如集合和標(biāo)志),雖然不必更改缺失值,但更改后可以提高模型的精度。2023/1/6要篩選或刪除帶有大量缺失值的字段,可以采用以下幾種方法:使用數(shù)據(jù)審核節(jié)點(diǎn)根據(jù)質(zhì)量過(guò)濾字段??梢允褂锰卣鬟x擇節(jié)點(diǎn)來(lái)篩選缺失值超過(guò)指定百分比的字段,并根據(jù)相對(duì)于特定目標(biāo)的重要性來(lái)對(duì)字段進(jìn)行排序。除刪除字段以外,還可以使用類型節(jié)點(diǎn)將字段方向設(shè)置為無(wú)。此操作可將字段保留在數(shù)據(jù)集中,但不會(huì)對(duì)其進(jìn)行建模操作。2023/1/6
歸因或填充缺失值
在僅有少量缺失值的情況下,可以用插入值來(lái)替換空值。下列方法可用于輸入缺失值:替換為固定值(可以選用字段平均值、范圍中間值或者指定的常數(shù))。替換為基于正態(tài)分布或均勻分布產(chǎn)生的隨機(jī)值。用于指定定制表達(dá)式。例如,可以使用設(shè)置全局量節(jié)點(diǎn)創(chuàng)建的全局變量進(jìn)行替換?;贑&RT算法替換為模型預(yù)測(cè)的值。對(duì)于使用此方法輸入的每個(gè)字段,都會(huì)有一個(gè)單獨(dú)的C&RT模型,還有一個(gè)填充節(jié)點(diǎn)會(huì)使用該模型預(yù)測(cè)的值替換空白值和Null值。然后使用過(guò)濾節(jié)點(diǎn)刪除該模型生成的預(yù)測(cè)字段。如果還要為特定字段強(qiáng)制賦值,則可以使用類型節(jié)點(diǎn)來(lái)確保字段類型僅包含合法值,然后將需要替換空值字段的檢查列設(shè)置為強(qiáng)制。2023/1/6
23.4.3用CLEM函數(shù)處理缺失值
表達(dá)式操作語(yǔ)言CLEM全名為ClementineLanguageforExpressionManipulation,是在Clementine中執(zhí)行函數(shù)運(yùn)算時(shí)的專用語(yǔ)法,用于分析和操縱在Clementine流中流動(dòng)的數(shù)據(jù),是一個(gè)功能強(qiáng)大的語(yǔ)言。2023/1/6有多個(gè)CLEM函數(shù)可用于處理缺失值。選擇節(jié)點(diǎn)和填充節(jié)點(diǎn)中經(jīng)常會(huì)用以下函數(shù)來(lái)刪除或填充缺失值:count_nulls(LIST)@BLANK(FIELD)@NULL(FIELD)undef@函數(shù)可以與@FIELD函數(shù)一起使用,來(lái)識(shí)別一個(gè)或多個(gè)字段中是否存在空值或非Null值。當(dāng)出現(xiàn)空值或非Null值時(shí),一般會(huì)對(duì)此類字段進(jìn)行標(biāo)記,也可以用替換值填充或者在各種其他操作中使用此類字段。如下所示,可以計(jì)算字段列表中的非Null值的數(shù)量:count_nulls([‘cardtenure’‘card2tenure’‘card3tenure'])如果要使用接受輸入類型的字段列表的函數(shù),則可以使用特定的@FIELDS_BETWEEN和@FIELDS_MATCHING函數(shù),如下所示:count_nulls(@FIELDS_MATCHING(‘card*'))在選擇字段中用填充節(jié)點(diǎn)把缺失值替換成0,如圖23-18用填充節(jié)點(diǎn)將選定字段中的非Null值替換為0所示。
2023/1/6
23.5導(dǎo)入和導(dǎo)出PMML模型
PMML(predictivemodelmarkuplanguage,稱為預(yù)測(cè)模型標(biāo)記語(yǔ)言)是一個(gè)XML基礎(chǔ)的標(biāo)準(zhǔn),以XML文件類型定義DTD形式,用于描述數(shù)據(jù)挖掘和統(tǒng)計(jì)模型,包括模型的輸入、用于為數(shù)據(jù)挖掘準(zhǔn)備數(shù)據(jù)的變換、以及定義模型自身的參數(shù)。Clementine可導(dǎo)入和導(dǎo)出PMML模型,使其能夠與其他支持此格式的應(yīng)用程序(例如,SPSS、SPSSCategorize)共享模型。2023/1/623.5.1支持PMML的模型類型PMML3.1導(dǎo)入Clementine可以導(dǎo)入并評(píng)分由SPSS所有產(chǎn)品生成的PMML3.1模型,包括從Clementine導(dǎo)出的模型和由SPSS15.0生成的模型或變換PMML模型。實(shí)質(zhì)上,這包括了SPSSSmartscore組件可以評(píng)分的所有PMML模型,但以下幾種情況例外:(1)無(wú)法導(dǎo)入Apriori、CARMA及異常檢測(cè)模型。(2)將PMML模型導(dǎo)入到Clementine后,雖然可以對(duì)其進(jìn)行評(píng)分,但不能進(jìn)行瀏覽。(3)不能導(dǎo)入無(wú)法評(píng)分的模型。(4)以PMML格式導(dǎo)出的IBMIntelligentMiner模型,無(wú)法重新導(dǎo)入到Clementine中。2023/1/6
導(dǎo)入PMML的較早版本
對(duì)于從Clementine較早版本(11.0之前版本)中導(dǎo)出的遺存模型,只有某些模型類型(而不是所有類型)支持PMML導(dǎo)入,模型支持PMML導(dǎo)入關(guān)系如表23-1所示:模型類型PMML導(dǎo)入(2.1或3.0)神經(jīng)網(wǎng)絡(luò)不可用C&R樹是CHAID樹是QUEST樹是C5.0樹不可用規(guī)則集不可用Kohonen網(wǎng)絡(luò)不可用K-Means不可用兩步是線性回歸是Logistic回歸是因子/主成分分析不可用序列不可用CARMA不可用Apriori不可用文本提取不可用特征選擇不可用異常檢測(cè)不可用非精練(GRI,CEMI)不可用2023/1/6Clementine模型PMML導(dǎo)出Clementine中的所有模型,除了CHAID、Anomaly、GRI、Factor/PCA、特征選擇等少數(shù)幾個(gè)模型以外,都可以用PMML編碼的XML文件的方式輸出。對(duì)于PMML模型輸出,應(yīng)該選擇一個(gè)XML文件名。Clementine中的模型是否支持PMML輸出類型,模型支持PMML輸出關(guān)系如表23-2所示.模型類型支持PMML輸出類型神經(jīng)網(wǎng)絡(luò)是建立C5.0是Kohonen是線性回歸是GRI否Apriori是K-Means是邏輯回歸是兩步是分類和回歸
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北吳橋雜技藝術(shù)學(xué)校2026年度高層次人才選聘的備考題庫(kù)及答案詳解一套
- 3D打印導(dǎo)板在神經(jīng)外科手術(shù)中的精準(zhǔn)設(shè)計(jì)與精準(zhǔn)微創(chuàng)
- 簡(jiǎn)約高級(jí)漸變企業(yè)員工文化培訓(xùn)模板
- 2025無(wú)錫市梁溪科技城發(fā)展集團(tuán)有限公司公開招聘?jìng)淇碱}庫(kù)及參考答案詳解一套
- 2025年六盤水水礦醫(yī)院招聘工作人員95人備考題庫(kù)及1套參考答案詳解
- 2025年廣州星海音樂(lè)學(xué)院公開招聘工作人員15人備考題庫(kù)含答案詳解
- 《基于綠色建筑理念的校園建筑室內(nèi)空氣質(zhì)量研究》教學(xué)研究課題報(bào)告
- 2025年重慶醫(yī)科大學(xué)附屬北碚醫(yī)院重慶市第九人民醫(yī)院招聘非在編護(hù)理員備考題庫(kù)有答案詳解
- 2025年零售電商五年競(jìng)爭(zhēng):全渠道營(yíng)銷與供應(yīng)鏈優(yōu)化行業(yè)報(bào)告
- 2025年安徽理工大學(xué)科技園技術(shù)經(jīng)理人招募備考題庫(kù)及參考答案詳解1套
- 2025中原農(nóng)業(yè)保險(xiǎn)股份有限公司招聘67人筆試備考重點(diǎn)試題及答案解析
- 2025中原農(nóng)業(yè)保險(xiǎn)股份有限公司招聘67人備考考試試題及答案解析
- 2025年違紀(jì)違法典型案例個(gè)人學(xué)習(xí)心得體會(huì)
- 2025年度河北省機(jī)關(guān)事業(yè)單位技術(shù)工人晉升高級(jí)工考試練習(xí)題附正確答案
- 配電室高低壓設(shè)備操作規(guī)程
- GB/T 17981-2025空氣調(diào)節(jié)系統(tǒng)經(jīng)濟(jì)運(yùn)行
- 2025 年高職酒店管理與數(shù)字化運(yùn)營(yíng)(智能服務(wù))試題及答案
- 《公司治理》期末考試復(fù)習(xí)題庫(kù)(含答案)
- 藥物臨床試驗(yàn)質(zhì)量管理規(guī)范(GCP)培訓(xùn)班考核試卷及答案
- 快遞行業(yè)末端配送流程分析
- 四川專升本《軍事理論》核心知識(shí)點(diǎn)考試復(fù)習(xí)題庫(kù)(附答案)
評(píng)論
0/150
提交評(píng)論