版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、用 IBM SPSS Modeler 建立線性回歸預(yù)測模型Modeler 線性回歸模型示例線性回歸模型是一種常用的統(tǒng)計(jì)學(xué)模型。IBM SPSS Modeler 是一個(gè)強(qiáng)大的數(shù)據(jù)挖掘分析工具, 本文將介紹如何用它進(jìn)行線性回歸預(yù)測模型的建立和使用。 在本文中,將通過建立一個(gè)理賠欺詐檢測模型的實(shí)例來展示如何利用 IBM SPSS Modeler 建立線性回歸預(yù)測模型以及如何解釋及應(yīng)用該模型。1 評(píng)論:廖志剛, 軟件工程師, IBM陳剛, 軟件工程師, IBM楊家飛, 軟件工程師, IBM2011 年 10 月 27 日· 內(nèi)容簡介回歸分析(Regression Analysis)
2、是一種統(tǒng)計(jì)學(xué)上對(duì)數(shù)據(jù)進(jìn)行分析的方法, 主要是希望探討數(shù)據(jù)之間是否有一種特定關(guān)系。線性回歸分析是最常見的一種回歸分析, 它用線性函數(shù)來對(duì)因變量及自變量進(jìn)行建模(自變量和因變量都必須是連續(xù)型變量), 這種方式產(chǎn)生的模型稱為線性模型。線性回歸模型由于其運(yùn)算速度快、直觀性強(qiáng)以及參數(shù)易于確定等特點(diǎn), 在實(shí)踐中應(yīng)用最為廣泛,也是建立預(yù)測模型的重要手段之一。IBM SPSS Modeler 是一組數(shù)據(jù)挖掘工具,通過這些工具可以采用商業(yè)技術(shù)快速建立預(yù)測性模型, 并將其應(yīng)用于商業(yè)活動(dòng),從而改進(jìn)決策過程。在后面的文章中,將通過一個(gè)理賠欺詐檢測的實(shí)際 商業(yè)應(yīng)用來介紹如何用 IBM SPSS Modeler 建立、分
3、析及應(yīng)用線性回歸分析模型。用線性回歸建立理賠欺詐檢測模型在本例中,用于建立模型的數(shù)據(jù)存放在 InsClaim.dat 中,該文件是一個(gè) CSV 格式的數(shù)據(jù)文件, 存儲(chǔ)了某醫(yī)院以往醫(yī)療保險(xiǎn)理賠的歷史記錄。該文件共有 293 條記錄,每條記錄有 4 個(gè)字段, 分別是 ASG(疾病嚴(yán)重程度)、AGE(年齡)、LOS(住院天數(shù))和 CLAIM(索賠數(shù)額)。 圖 1 顯示了該數(shù)據(jù)的部分內(nèi)容。圖 1. 歷史理賠數(shù)據(jù)文件任務(wù)與計(jì)劃基于已有的數(shù)據(jù),我們的任務(wù)主要有如下內(nèi)容:· 建立理賠金額預(yù)測模型,該模型將基于病人的疾病嚴(yán)重程度、住院天數(shù)及年齡預(yù)測其索賠金額。· 假設(shè)模型匹配良好,分析那些
4、與預(yù)測誤差較大的病人資料。· 通過模型來進(jìn)行索賠欺詐預(yù)測。根據(jù)經(jīng)驗(yàn)及對(duì)數(shù)據(jù)進(jìn)行的初步分析(這個(gè)數(shù)據(jù)初步分析可以通過 IBM SPSS Modeler 的功能實(shí)現(xiàn),此處不是重點(diǎn), 故不做深入介紹),可以猜測理賠金額與疾病嚴(yán)重程度、住院天數(shù)以及年齡存在線性相關(guān)關(guān)系,因此我們將首先 選用線性回歸模型進(jìn)行建模,因此可以得到下面這樣一個(gè)初步計(jì)劃:· 應(yīng)用線性回歸分析來建立模型。· 如果模型匹配度不佳,則可能應(yīng)用更加復(fù)雜的模型,例如神經(jīng)網(wǎng)絡(luò)、規(guī)則推導(dǎo)等?;谏厦娴姆治?,我們?nèi)菀椎玫侥繕?biāo)模型的因變量為 CLAIM,自變量為 ASG、AGE 和 LOS。在建立模型之前,我們可以
5、對(duì)該模型進(jìn)行一些猜測,以下是根據(jù)經(jīng)驗(yàn)?zāi)芟氲降囊恍┘僭O(shè):· 隨著住院天數(shù)的增加,索賠金額增加· 隨著疾病嚴(yán)重程度的增加,索賠金額增加· 隨著年齡的增加,索賠金額增加在建立好模型后,我們會(huì)根據(jù)模型來驗(yàn)證或推翻這些假設(shè)。用 IBM SPSS Modeler 創(chuàng)建 stream 文件根據(jù)任務(wù)要求,我們在 IBM SPSS Modeler 中建立如圖 2 所示的 stream 文件。在該 stream 中,InsClaim.dat 作為數(shù)據(jù)源節(jié)點(diǎn), 它通過一個(gè)類型節(jié)點(diǎn)(type)進(jìn)行數(shù)據(jù)處理后輸入到模型節(jié)點(diǎn)(CLAIM),在本例中,輸出節(jié)點(diǎn)(table)作為一個(gè)測試節(jié) 點(diǎn),
6、可以用于查看類型節(jié)點(diǎn)處理后產(chǎn)生的數(shù)據(jù)。圖 2. 理賠預(yù)測模型 stream 示例圖設(shè)置類型(type)節(jié)點(diǎn)從前面的分析可見,CLAIM 是因變量,在類型節(jié)點(diǎn)中須作為目標(biāo)變量(Target),而其余三個(gè)字段(ASG、AGE 和 LOS) 則是自變量,在類型節(jié)點(diǎn)中須設(shè)置為輸入變量(Input)。需要注意的是,在線性回歸分析模型中,要求所有變量(包括自變量和因變量)都是連續(xù)類型。 如果數(shù)據(jù)中有非數(shù)字類型,比如 Category 或者 Flag,則需要預(yù)先轉(zhuǎn)換為數(shù)字型。圖 3 顯示了類型節(jié)點(diǎn)設(shè)置的具體情況。圖 3. 類型節(jié)點(diǎn)設(shè)置圖模型節(jié)點(diǎn)設(shè)置在設(shè)置好類型節(jié)點(diǎn)后,我們可以雙擊 CLAIM 節(jié)點(diǎn),對(duì)模型節(jié)
7、點(diǎn)進(jìn)行設(shè)置。首先設(shè)置 Model 標(biāo)簽頁中的選項(xiàng)。 從圖 4 可以看到設(shè)置的具體信息,Model Name 有自動(dòng)和定制兩種類型,在自動(dòng)方式下,模型名稱自動(dòng)設(shè)置 為目標(biāo)變量的名字(CLAIM)。本模型的輸入信息并沒有分組,因此 Use partitioned data 和 Build model for each split 的選擇與否并無關(guān)系。Method 選項(xiàng)將選擇輸入字段的選擇方式,由于本例中的輸入字段較少,可以使用默認(rèn)的 Enter 模式。 在字段較多的情況下,可以選擇 StepWise、Forward 和 Backward 中的一種,它們會(huì)采用不同的統(tǒng)計(jì)學(xué)方式對(duì)輸入字段進(jìn)行篩選。 I
8、nclude constant in equation 選項(xiàng)表示模型中是否包含常量(即截距),在本例中,由于每次理賠會(huì)有一個(gè)起始額度,因此選中該選項(xiàng)。圖 4. 模型節(jié)點(diǎn)的 Model 頁設(shè)置圖在 Expert 頁中可以設(shè)置一些模型的高級(jí)選項(xiàng)。在我們選擇了專家模式后,可以設(shè)置兩個(gè)選項(xiàng)內(nèi)容:· Missing Values 當(dāng)選中該選項(xiàng),會(huì)忽略那些含有 Missing Value 的記錄。 (默認(rèn)選項(xiàng),通常應(yīng)該使用這個(gè)選項(xiàng),除非你非常有經(jīng)驗(yàn),清楚知道 Missing Value 對(duì)該模型的影響)· Singularity tolerance 用來防止相關(guān)變量影響模型準(zhǔn)確度。 該
9、值越小,表示相似性越高,也就說明排除的可能性越低。有些統(tǒng)計(jì)師傾向于把 該值設(shè)置的稍大,比如 .05(在本例中是 .0001)在點(diǎn)擊 output 按鈕后還可以選擇輸出的選項(xiàng),這里不加以詳細(xì)描述。運(yùn)行模型在模型節(jié)點(diǎn)的編輯頁面中點(diǎn)擊 Run 按鈕即可運(yùn)行(也可以關(guān)閉設(shè)置后通過菜單和工具欄運(yùn)行), 運(yùn)行后將產(chǎn)生一個(gè) Nugget,Nugget 是 IBM SPSS Modeler 對(duì)生成模型的稱呼。雙擊該 Nugget 即可查看生 成模型的信息。圖 5 顯示了 stream 中產(chǎn)生的 Nugget 圖。圖 5. 運(yùn)行模型生成的 Nugget模型分析結(jié)果雙擊 Nugget 打開的生成模型信息中,首先查
10、看 Analysis Summary 窗口,這里可以看到模型的分析結(jié)果。 我們可以看到該模型的方程已經(jīng)建立。但是在關(guān)注模型方程之前,應(yīng)該首先看看該生成模型是否是統(tǒng)計(jì)學(xué)顯著的。 從該模型的顯著性分析可以看出(見圖 6),該模型的顯著幾率 < 0.0005,可以說非常顯著,因此生成的模型具有統(tǒng)計(jì)學(xué)意義。圖 6. 生成模型的顯著性結(jié)果讓我們回頭再看所生成的模型方程(見圖 7),可以看出理賠預(yù)測模型方程為:CLAIM(E) = ASG*417.2 - AGE*33.41 + LOS*1105.6 + 3026.8圖 7. 生成模型的模型方程模型解釋還記得我們在建模之前提出的假設(shè)么?讓我們對(duì)之一一
11、進(jìn)行驗(yàn)證:· 隨著住院天數(shù)的增加,索賠金額增加 - YES· 隨著疾病嚴(yán)重程度的增加,索賠金額增加 - YES· 隨著年齡的增加,索賠金額增加 - NO!從模型方程可以看出,索賠的金額隨著住院天數(shù)和疾病嚴(yán)重程度的增加會(huì)相應(yīng)增加,然而,當(dāng)年齡增加時(shí), 理賠金額反而會(huì)下降。可能的原因是:1)年齡越小,疾病越嚴(yán)重,因此理賠額越高;2)不同年齡段的醫(yī)療保 險(xiǎn)政策不同,年齡越長的客戶保險(xiǎn)公司給出的理賠金額越低。當(dāng)然,具體的真正原因,還要找領(lǐng)域?qū)<掖_定。預(yù)測因子之間的重要性也不盡相同,在統(tǒng)計(jì)學(xué)中,該重要性通過圖 8 中的 Beta 檢驗(yàn)值來確定,具體規(guī)則是, 根據(jù)
12、Beta 值的絕對(duì)值排序,值越大,越重要。由圖 8 中可見,在理賠金額中,最重要的因素是住院天數(shù),而 年齡因素的重要性最低。這也是符合一般的常識(shí)的。圖 8. 預(yù)測因子重要性及誤差區(qū)間另外一個(gè)需要考量的因素是誤差區(qū)間,該區(qū)間決定了應(yīng)該怎樣去預(yù)測未來的索賠金額是否合理。在圖 8 中的 Unstandardized Coefficients 的 B 和 Std. Error 兩列表示了一個(gè)預(yù)測區(qū)間,它的含義是 B-Std.Error, B+Std.Error 的區(qū)間具有 95% 的可信性。以住院天數(shù)(LOS)為例,它的 B 為 1105.646,Std. Error 為 103.6,這意味著如果住院
13、天數(shù)每增加一天,那么理賠增加的金額將落在 1105.646-103.6, 1105.646+103.6 區(qū)間上, 即增加約 1000 到 1200 元之間,其可信性度為 95%。反之,若碰到的客戶索賠增加的金額沒有落在這個(gè)區(qū)間之內(nèi),那么 這種客戶就有較大可能是索賠欺詐,那么工作人員就應(yīng)該仔細(xì)審查。在做完了這些之后,我們還可以對(duì)已有的歷史記錄進(jìn)行分析,找出以往數(shù)據(jù)中的奇異點(diǎn),以供領(lǐng)域?qū)<疫M(jìn)行分析。找出奇異點(diǎn)為了找出奇異點(diǎn),我們可以創(chuàng)建一個(gè) Derive 節(jié)點(diǎn),讓它的前向數(shù)據(jù)源為生成的 Nugget,它要衍生出來的字段名稱為 DIFF,其數(shù)據(jù)值為實(shí)際的理賠額和預(yù)測的理賠額之差,即:DIFF = C
14、LAIM - '$E-CLAIM'具體設(shè)置參見圖 9。圖 9. Derive 節(jié)點(diǎn)設(shè)置圖觀察 DIFF 數(shù)據(jù),可以找出奇異點(diǎn)的數(shù)據(jù),為了方便找出奇異點(diǎn),可以使用直方圖來幫助查找,從圖 10 中, 可以看出,實(shí)際理賠額處在 5000-7500 之間的數(shù)據(jù)為明顯奇異點(diǎn),應(yīng)找領(lǐng)域?qū)<襾韺?duì)這些數(shù)據(jù)進(jìn)行具體分析。圖 10. 用直方圖幫助查找奇異點(diǎn)回頁首結(jié)束語通過本文,您了解了如何通過 IBM SPSS Modeler 創(chuàng)建基于線性回歸分析的預(yù)測分析模型,并了解到如何設(shè)置、 創(chuàng)建、分析、理解和應(yīng)用模型。這樣,您就可以通過 IBM SPSS Modeler 簡易的數(shù)據(jù)流風(fēng)格方便快速地創(chuàng)建和應(yīng)
15、用一個(gè)模型。本文中的理賠欺詐預(yù)測模型示例,用一個(gè)完整的流文件演示了怎樣設(shè)置數(shù)據(jù)數(shù)據(jù);怎樣設(shè)置模型參數(shù); 怎樣通過 IBM SPSS Modeler 提供的數(shù)據(jù)分析和理解模型;并介紹了如何分析奇異點(diǎn)。通過此示例,您可以立刻就動(dòng)手創(chuàng)建自己的模型。IBM SPSS Statistics多變量預(yù)測建模2014-04-11 11:05來源:IBM 作者:焦龍 點(diǎn)擊:715次 我要評(píng)論 TAG標(biāo)簽: IBM SPSS Statistics 預(yù)測建模 多變量 1. 應(yīng)用背景 1.1 解決的問題 1)大型企業(yè)的 IT 系統(tǒng)對(duì)每一次應(yīng)用程序的升級(jí)都會(huì)預(yù)先在其測試環(huán)境上進(jìn)行測試。如何保證測試的有效性?如何通過測試
16、的結(jié)果推測其在生產(chǎn)環(huán)境上的表現(xiàn)? 2)隨著資源使用的增長,CPU、內(nèi)存、硬盤、I/O 等資源互相影響并存在潛在關(guān)聯(lián)。如何洞察其關(guān)聯(lián)來指導(dǎo)企業(yè)做出合理的容量規(guī)劃? 3)伴隨業(yè)務(wù)擴(kuò)展,企業(yè)生產(chǎn)環(huán)境的負(fù)載日益增加。 如何幫助企業(yè)通過對(duì)未來業(yè)務(wù)量和用戶量的增長預(yù)測而做出相應(yīng)的容量預(yù)估? 4)如何提供自動(dòng)化、自適應(yīng)的建模過程與預(yù)測分析,為企業(yè)用戶打造針對(duì)個(gè)性化場景自動(dòng)建立、自動(dòng)調(diào)整的預(yù)測模型來降低使用復(fù)雜度? 如何保證預(yù)測分析的有效性和準(zhǔn)確性? 1.2 商業(yè)價(jià)值 1)避免過多地投入測試資源,最大化測試資源價(jià)值,實(shí)現(xiàn)測試與生產(chǎn)的資源整合。 2)優(yōu)化企業(yè)數(shù)據(jù)中心資源利用率,各項(xiàng)資源合理配比,提供更精準(zhǔn)的性能
17、分析和容量規(guī)劃方案以節(jié)約成本。 3)合理預(yù)測業(yè)務(wù)增長,提高企業(yè)對(duì)未來業(yè)務(wù)的洞察力,幫助企業(yè)制定更完備的容量預(yù)估和應(yīng)急方案。 4)提升業(yè)務(wù)可持續(xù)性與用戶體驗(yàn),為企業(yè)提供基于源數(shù)據(jù)的自動(dòng)化選型、建模、調(diào)整、驗(yàn)證的全生命周期解決方案。 2. 數(shù)據(jù)準(zhǔn)備 應(yīng)用某網(wǎng)站在新業(yè)務(wù)上線前,通過測試環(huán)境的結(jié)果預(yù)測其生產(chǎn)環(huán)境上線后的資源利用率場景。從小范圍入手,首先針對(duì)一臺(tái)服務(wù)器,選取相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析與預(yù)測建模的研究。例如在眾多的服務(wù)器中,選取其中的一臺(tái) web 服務(wù)器(192.168.119.9)。對(duì)該臺(tái)服務(wù)器在 2013 年 1 月 1 日 00:0024:00 的各項(xiàng)指標(biāo),采集單位為分鐘,共 1440
18、 條數(shù)據(jù)進(jìn)行量化分析。 本文的主要目的是預(yù)測用戶訪問頻率 Frequency_User 的未來發(fā)展趨勢。因此,需要考慮用戶訪問頻率 Frequency_User、內(nèi)存利用率 MEM、硬盤利用率 DISK 與 CPU 利用率的關(guān)系。將數(shù)據(jù)文件的信息合并為一個(gè)新的數(shù)據(jù)文件,數(shù)據(jù)整理后的文件被保存成 IBM SPSS Statistics 的 SAV 格式的存儲(chǔ)文件,如圖 1 所示,其中包含以下字段:日期 DATE、時(shí)間 TIME(采集單位:分鐘)、用戶訪問頻率 Frequency_User(單位 : 次)、內(nèi)存利用率 MEM(單位:%)、硬盤利用率 DISK(單位:%)、用戶 CPU 利用率 CP
19、U(單位:%)。 圖 1. 數(shù)據(jù)文件變量 3. IBM SPSS Statistics 使用過程 3.1 多變量關(guān)聯(lián)分析 本文通過偏相關(guān)分析,判斷用戶訪問頻率 Frequency_User 與 CPU 利用率、內(nèi)存利用率 MEM、硬盤利用率 DISK 之間的關(guān)聯(lián)關(guān)系。偏相關(guān)分析是當(dāng)兩個(gè)變量同時(shí)與其他多個(gè)變量相關(guān)時(shí),將其他多個(gè)變量的影響剔除,只分析另外兩個(gè)變量之間相關(guān)程度的過程 。因此,針對(duì)于本文中包含的多個(gè)變量的關(guān)聯(lián)分析,可利用偏相關(guān)分析展開研究。例如分析其中的兩個(gè)變量訪問頻率 Frequency_User 與 CPU 利用率的關(guān)聯(lián)關(guān)系,需要剔除內(nèi)存利用率 MEM 與硬盤利用率 DISK 的影
20、響,只針對(duì)于訪問頻率 Frequency_User 與 CPU 利用率進(jìn)行偏相關(guān)分析。通過相關(guān)系數(shù) r,判斷 Frequency_User 與 CPU 是否線性相關(guān)。若線性相關(guān),則可得出關(guān)聯(lián)關(guān)系。若不線性相關(guān),則利用回歸判斷出目標(biāo)變量與其他多個(gè)變量間的影響關(guān)系,即判斷預(yù)測變量的重要性對(duì)于目標(biāo)變量。多變量關(guān)聯(lián)分析流程圖,如下圖 2 所示 。 圖 2. 多變量關(guān)聯(lián)分析流程圖 3.1.1 偏相關(guān)分析 1) 偏相關(guān)分析步驟 打開 IBM SPSS Statistics,在菜單中選擇:分析 > 相關(guān) > 偏相關(guān), 就進(jìn)入“偏相關(guān)” 模塊方法界面,如圖 3 所示。 圖 3. 偏相關(guān)分析界面 在
21、“偏相關(guān)”對(duì)話框中,選擇 Frequency_User 與 CPU 進(jìn)入“變量”框,選擇 MEM 與 DISK 進(jìn)入“控制”框。在“顯著性檢驗(yàn)”框中可選相關(guān)系數(shù)的單側(cè)(One-tailed)或雙側(cè)(Two-tailed)檢驗(yàn), 本文選雙側(cè)檢驗(yàn),如圖 4 所示。 圖 4. 選擇變量與參數(shù) 點(diǎn)擊“選項(xiàng)”按鈕彈出“偏相關(guān)性:選項(xiàng)”對(duì)話框,可設(shè)置相關(guān)統(tǒng)計(jì)量,如圖 5 所示。本文設(shè)置 Frequency_User、CPU、MEM 與 DISK 輸出“均數(shù)與標(biāo)準(zhǔn)差”以及“零階相關(guān)系數(shù)”,點(diǎn)擊“繼續(xù)”按鈕返回“偏相關(guān)”對(duì)話框。 圖 5. 偏相關(guān)性選項(xiàng) 2)結(jié)果描述 根據(jù)偏相關(guān)分析的結(jié)果,F(xiàn)requency_
22、User 的均值為 85778.15992,標(biāo)準(zhǔn)差為 43387.93355;CPU 的均值為 33.84895%,標(biāo)準(zhǔn)差為 9.304364;MEM 的均值為 36.93768%,標(biāo)準(zhǔn)差為 6.954192;DISK 的均值為 30.71943%,標(biāo)準(zhǔn)差為 13.372261,如圖 6 所示。 圖 6. 描述性統(tǒng)計(jì)量 以下展示了兩種偏相關(guān)關(guān)系的結(jié)果,如圖 7 所示。首先,在沒有控制變量的情況下,展示了 Frequency_User、CPU、MEM 與 DISK 兩兩對(duì)應(yīng)的相關(guān)系數(shù)、雙側(cè)檢驗(yàn)的概率與自由度。其次,在設(shè)定 MEM 與 DISK 為控制變量情況下,展示了 Frequency_Use
23、r 與 CPU 兩兩對(duì)應(yīng)的相關(guān)系數(shù)、雙側(cè)檢驗(yàn)的概率與自由度。根據(jù)兩種偏相關(guān)情況下的結(jié)果可以看出,若不剔除 MEM 與 DISK 對(duì) Frequency_User、CPU 的影響,F(xiàn)requency_User 與 CPU 的相關(guān)性系數(shù)為 0.622;若剔除 MEM 與 DISK 對(duì) Frequency_User、CPU 的影響,F(xiàn)requency_User 與 CPU 的相關(guān)性系數(shù)為 0.771。 圖 7. 相關(guān)性 其中,相關(guān)性的值為通常所指的相關(guān)系數(shù) r。相關(guān)系數(shù) r 較好地度量了兩變量間的線性相關(guān)程度,相關(guān)系數(shù) r 屬于 1,+1。若 0<r 1,表明變量之間存在正相關(guān)關(guān)系;若 1 r
24、<0,表明變量之間存在負(fù)相關(guān)關(guān)系。r 1 完全正相關(guān);r 1:完全負(fù)相關(guān);這兩種情況說明變量之間存在函數(shù)關(guān)系。r 0 無線性關(guān)系。|r|>0.8:強(qiáng)相關(guān);|r|<0.3:弱相關(guān),可視為不相關(guān)。本文中 Frequency_User 與 CPU 的相關(guān)性的值為 0.771,還需利用回歸分析進(jìn)一步研究。 3.1.2 回歸分析 1)回歸分析步驟 打開 IBM SPSS Statistics,在菜單中選擇:分析 > 回歸 > 自動(dòng)線性建模,就進(jìn)入“自動(dòng)線性 建模”模塊方法界面,如圖 8 所示。 圖 8. 自動(dòng)線性建模界面 在“自動(dòng)線性建?!睂?duì)話框中,選擇 Frequency
25、_User 為目標(biāo),CPU、DISK 與 MEM 為預(yù)測變量(輸入),進(jìn)行自動(dòng)線性建模,如圖 9 所示。 圖 9. 自動(dòng)線性建模界面 2)結(jié)果描述 根據(jù)預(yù)測變量的重要性,關(guān)聯(lián)分析出 CPU 對(duì) Frequency_User 的重要性達(dá)到 80% 以上,DISK 與 MEM 的重要性均沒有超過 20%,如圖 10 所示。充分表明 CPU 與 Frequency_User 的相關(guān)性最強(qiáng),對(duì)其的解釋能力最高。 圖 10. 預(yù)測變量重要性 3.2 預(yù)測建模 本文選取用戶訪問頻率 Frequency_User 進(jìn)行預(yù)測模型的研究。首先,判斷出目標(biāo)預(yù)測變量 Frequency_User 與其他多個(gè)變量 C
26、PU 利用率、內(nèi)存利用率 MEM、硬盤利用率 DISK 間的影響關(guān)系。根據(jù) 3.1 節(jié)中多變量關(guān)聯(lián)分析的結(jié)果,確定 Frequency_User 預(yù)測過程中的相關(guān)變量為 CPU 利用率。其次,篩選出最優(yōu)預(yù)測模型。利用專家預(yù)測模型與 ARIMA 預(yù)測模型進(jìn)行建模。再次,進(jìn)行模型參數(shù)調(diào)整。最后,根據(jù)預(yù)測結(jié)果,判斷用戶的滿意度。若用戶滿意預(yù)測結(jié)果,則選取此模型為最優(yōu)模型;若用戶不滿意預(yù)測結(jié)果,則將專家預(yù)測模型與 ARIMA 預(yù)測模型的所有參數(shù)提供給用戶,允許用戶進(jìn)行預(yù)測模型選擇及參數(shù)調(diào)整,不斷循環(huán)以上步驟,直到用戶對(duì)預(yù)測結(jié)果滿意為止。預(yù)測模型的建模流程圖,如圖 11 所示。 圖 11. 預(yù)測模型的建
27、模流程圖 篩選出最優(yōu)預(yù)測模型 1) 建模步驟 打開 IBM SPSS Statistics,在菜單中選擇:分析 > 預(yù)測 > 創(chuàng)建模型,就進(jìn)入 “時(shí)間序列建模器”模塊方法界面,如圖 12 所示。在“時(shí)間序列建模器”對(duì)話框中,選擇 Frequency_User 為因變量,CPU 為自變量,建立多種預(yù)測模型。 圖 12. 時(shí)間序列建模器 在“統(tǒng)計(jì)量”標(biāo)簽中選擇輸出的擬合度量指標(biāo),例如:R 方,均方根誤差,平均絕對(duì)誤差百分比。在“圖表”標(biāo)簽中選擇每張圖顯示的內(nèi)容為:觀察值,預(yù)測值和擬合值。在“保存”標(biāo)簽中,一方面,設(shè)置保存預(yù)測模型的預(yù)測結(jié)果在 SAV 文件中;另一方面,將預(yù)測模型保存為
28、xml 格式,當(dāng)有新的數(shù)據(jù)需要預(yù)測時(shí),可直接使用此保存結(jié)果,不用重新構(gòu)造模型,如圖 13 所示。在“選項(xiàng)”標(biāo)簽中指定未來希望預(yù)測到的時(shí)間點(diǎn),例如本文有 1 至 1440 分鐘的觀測值,指定預(yù)測值為 1500 分鐘即可獲得 1441 至 1500 分鐘的預(yù)測值。 圖 13. 保存預(yù)測模型 2)結(jié)果描述 根據(jù)擬合結(jié)果,選取最優(yōu)的 ARIMA(1,1,0)預(yù)測模型進(jìn)行建模,如圖 14 所示。 圖 14. 模型描述 輸出的擬合度量指標(biāo),例如:R 方,均方根誤差(RMSE),平均絕對(duì)誤差百分比(MAPE),如圖 15 所示。本文選取指標(biāo) R 方,RMSE,MAPE 對(duì)預(yù)測結(jié)果進(jìn)行評(píng)價(jià):R 方越接近于 1
29、,MAPE 越接近于 0 表明模型的擬合程度越好;均方根誤差說明了樣本的離散程度。 圖 15. 模型統(tǒng)計(jì)量 Frequency_User 的觀察值、預(yù)測值和擬合值,如圖 16 所示。其中,橫坐標(biāo)代表時(shí)間(間隔:分鐘),縱坐標(biāo)代表用戶訪問頻率 Frequency_User(單位:次)。 圖 16. 預(yù)測模型的預(yù)測結(jié)果 模型參數(shù)調(diào)整 在“時(shí)間序列建模器”對(duì)話框,點(diǎn)擊“條件”按鈕,如圖 17 所示。將進(jìn)行預(yù)測模型的參數(shù)調(diào)整。 圖 17. 模型參數(shù)調(diào)整 進(jìn)入“時(shí)間序列建模器:ARIMA 條件”。ARIMA(p,d,q)稱為差分自回歸移動(dòng)平均模型,AR 是自回歸,p 為自回歸項(xiàng);MA 為移動(dòng)平均,q 為
30、移動(dòng)平均項(xiàng)數(shù),d 為時(shí)間序列成為平穩(wěn)時(shí)所做的差分次數(shù)。 p、d、q 取值范圍一般均為 0,2,如圖 18 所示??稍O(shè)置不同的參數(shù)值進(jìn)行預(yù)測建模。 圖 18.ARIMA 預(yù)測模型的分類 結(jié)束語 智能容量規(guī)劃管理解決方案通過使用 IBM SPSS Statistics 中的分析功能,對(duì)用戶訪問頻率 Frequency_User 進(jìn)行預(yù)測。一方面,充分考慮了用戶訪問頻率 Frequency_User 與 CPU 利用率、內(nèi)存利用率 MEM、硬盤利用率 DISK 之間的影響,精確的分析出了用戶增長與資源之間的關(guān)聯(lián)關(guān)系,利用關(guān)聯(lián)關(guān)系來指導(dǎo)企業(yè)做出可靠的容量分析;另一方面,合理預(yù)測用戶訪問頻率 Frequ
31、ency_User 的業(yè)務(wù)發(fā)展趨勢,提高企業(yè)對(duì)未來業(yè)務(wù)的洞察力,幫助企業(yè)制定更完備的容量預(yù)估和應(yīng)急方案。IBM SPSS Modeler 在電力負(fù)荷預(yù)測中的應(yīng)用IBM SPSS Modeler 提供了強(qiáng)大的數(shù)據(jù)挖掘和預(yù)測分析算法與技術(shù),支持?jǐn)?shù)據(jù)挖掘的整個(gè)過程。將其用于電力負(fù)荷預(yù)測分析中,可以針對(duì)各種負(fù)荷預(yù)測類型選擇最優(yōu)的建模技術(shù),提高負(fù)荷預(yù)測的準(zhǔn)確性和時(shí)效性,也可以采用自動(dòng)建模技術(shù),建立具有廣泛適應(yīng)性的預(yù)測模型。1 評(píng)論:季 振峰, 軟件工程師, IBM薛 鵬, 軟件工程師, IBM孫 曉斌, 軟件開發(fā)經(jīng)理, IBM2013 年 8 月 15 日· 內(nèi)容電力負(fù)荷預(yù)測是電力系
32、統(tǒng)調(diào)度、用電、計(jì)劃、規(guī)劃等管理部門的重要工作之一。提高負(fù)荷預(yù)測水平,有利于計(jì)劃用電管理,有利于合理安排電網(wǎng)運(yùn)行方式和機(jī)組檢修計(jì)劃,有利于節(jié)煤、節(jié)油和降低發(fā)電成本,有利于制定合理的電網(wǎng)建設(shè)規(guī)劃,有利于提高電力系統(tǒng)的經(jīng)濟(jì)效益和社會(huì)效益。因此,負(fù)荷預(yù)測已成為實(shí)現(xiàn)電力系統(tǒng)管理和現(xiàn)代化的重要內(nèi)容之一。IBM SPSS Modeler 簡介IBM SPSS Modeler 是一組數(shù)據(jù)挖掘工具,通過這些工具可以采用計(jì)算機(jī)技術(shù)快速建立預(yù)測性模型,并將其應(yīng)用于商業(yè)活動(dòng),從而改進(jìn)決策過程。IBM SPSS Modeler 提供了各種借助機(jī)器學(xué)習(xí)、人工智能和統(tǒng)計(jì)學(xué)的建模方法。通過建模選項(xiàng)板中的方法,您可以根據(jù)數(shù)據(jù)生
33、成新的信息以及開發(fā)預(yù)測模型。每種方法各有所長,同時(shí)適用于解決特定類型的問題。CRISP-DM 過程模型IBM SPSS Modeler 參照行業(yè)標(biāo)準(zhǔn) CRISP-DM 模型設(shè)計(jì)而成,可支持從數(shù)據(jù)到更優(yōu)商業(yè)成果的整個(gè)數(shù)據(jù)挖掘過程。通用的 CRISP-DM 過程模型包括六個(gè)用來解決數(shù)據(jù)挖掘主要問題的階段。這六個(gè)階段擬合在一個(gè)為將數(shù)據(jù)挖掘應(yīng)用于較大業(yè)務(wù)實(shí)踐而設(shè)計(jì)的循環(huán)過程中。· 商業(yè)理解:確定業(yè)務(wù)對(duì)象、評(píng)估情況、確定數(shù)據(jù)挖掘目標(biāo)以及制訂工程計(jì)劃。· 數(shù)據(jù)理解:收集初始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)和驗(yàn)證數(shù)據(jù)質(zhì)量。· 數(shù)據(jù)準(zhǔn)備:選擇、清理、構(gòu)建、集成數(shù)據(jù)以及格式化數(shù)據(jù)。
34、3; 建模:選擇建模技術(shù)、生成測試設(shè)計(jì),以及構(gòu)建和評(píng)估模型。· 評(píng)估:評(píng)估結(jié)果、查看數(shù)據(jù)挖掘過程,以及確定后續(xù)步驟。· 部署:計(jì)劃部署、監(jiān)視和維護(hù)、生成最終報(bào)告,以及復(fù)查該工程。圖 1. CRISP-DM 模型IBM SPSS Modeler 豐富的模型為電力負(fù)荷預(yù)測提供支持IBM SPSS Modeler 數(shù)據(jù)挖掘工具,提供了多種數(shù)據(jù)挖掘算法,支持?jǐn)?shù)據(jù)挖掘的完整過程,將其用于電力負(fù)荷預(yù)測,可以有效地提高負(fù)荷預(yù)測的準(zhǔn)確性和時(shí)效性。時(shí)間序列模型時(shí)間序列是以規(guī)律的時(shí)間間隔采集的測量值的有序集合,例如,每日的股票價(jià)格或每周的銷售數(shù)據(jù)。時(shí)間序列建模方法假定歷史總會(huì)自我重演即使不是完
35、全一樣也會(huì)非常接近,足以通過研究過去對(duì)將來作出更好的決策。時(shí)間序列模型可以分為指數(shù)平滑模型和綜合自回歸移動(dòng)平均 (ARIMA) 。· 指數(shù)平滑模型:是一種使用以前的序列觀察的加權(quán)值來預(yù)測未來值的預(yù)測方法。因此,指數(shù)平滑不是以對(duì)數(shù)據(jù)的理論理解為基礎(chǔ)的。· ARIMA 模型:比起指數(shù)平滑模型在對(duì)趨勢和季節(jié)組件建模方面可提供更成熟的方法,特別是,增加了可在模型中包括自變量(預(yù)測變量)的優(yōu)勢。這包括明確指定自回歸階數(shù)和移動(dòng)平均階數(shù)以及差分次數(shù)??梢园A(yù)測變量并為任意或所有預(yù)測變量定義變換函數(shù)以及指定對(duì)離群值的自動(dòng)檢測或精確設(shè)置。神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)是神經(jīng)系統(tǒng)運(yùn)轉(zhuǎn)方式的簡單模型。其
36、基本單元是神經(jīng)元,通常將其組織到層中,如下面的圖所示。圖 2. 神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)是模擬人類大腦處理信息方式的簡化模型。此模型通過模擬大量類似于神經(jīng)元的抽象形式的互連處理單元而運(yùn)行。神經(jīng)網(wǎng)絡(luò)可以近似多種預(yù)測模型,而對(duì)模型結(jié)構(gòu)和假設(shè)只有最小需求,關(guān)系形式在學(xué)習(xí)過程中確定。如果目標(biāo)與預(yù)測變量間的線性關(guān)系適當(dāng),神經(jīng)網(wǎng)絡(luò)結(jié)果會(huì)非常接近傳統(tǒng)線性模型的結(jié)果。如果非線性關(guān)系更為適當(dāng),神經(jīng)網(wǎng)絡(luò)會(huì)自動(dòng)接近“正確”的模型結(jié)構(gòu)。自動(dòng)建模模型自動(dòng)建模模型估算和比較多個(gè)不同的建模方法,在一次建模運(yùn)行中即可嘗試各種方法??梢赃x擇所使用的建模算法,以及每個(gè)建模算法的具體選項(xiàng),包括可能互斥的組合。自動(dòng)建模模型研究選項(xiàng)的每個(gè)
37、可能組合,根據(jù)指定的測量為每個(gè)候選模型排序,并保存最佳模型用于評(píng)分或?qū)淼姆治?。IBM SPSS Modeler 在電力負(fù)荷預(yù)測中的應(yīng)用實(shí)例某電力公司希望通過歷史負(fù)荷數(shù)據(jù)和一些額外數(shù)據(jù)預(yù)測日最大負(fù)荷值。歷史數(shù)據(jù)包括一年內(nèi)每半小時(shí)的負(fù)荷數(shù)據(jù),當(dāng)天的平均氣溫,以及一年內(nèi)的假期時(shí)間,需要預(yù)測下一年 1 月份 31 天的最大負(fù)荷值。商業(yè)理解電力負(fù)荷預(yù)測是電力系統(tǒng)調(diào)度、用電、計(jì)劃、規(guī)劃等管理部門的重要工作之一。提高負(fù)荷預(yù)測水平,有利于計(jì)劃有點(diǎn)管理,有利于合理安排電網(wǎng)運(yùn)行方式和機(jī)組檢修計(jì)劃,有利于節(jié)煤、節(jié)油和降低發(fā)電成本,有利于制定合理的電源建設(shè)規(guī)劃,有利于提高電力系統(tǒng)的經(jīng)濟(jì)效益和社會(huì)效益。電力負(fù)荷按照用
38、電部門屬性通常可以分為工業(yè)用電、農(nóng)業(yè)用電、城市民用電、商業(yè)用電和交通運(yùn)輸用電;按照負(fù)荷的大小可以分為最大負(fù)荷、最小負(fù)荷和平均負(fù)荷等。電力負(fù)荷的預(yù)測通??梢愿鶕?jù)時(shí)間劃分為· 超短期負(fù)荷預(yù)測:未來 1 小時(shí)或一小時(shí)以內(nèi)的負(fù)荷預(yù)測。· 短期負(fù)荷預(yù)測:未來一天內(nèi)或者一天為單位的一周至一個(gè)月內(nèi)的負(fù)荷預(yù)測。· 中期負(fù)荷預(yù)測:未來 5 年左右以年為單位的負(fù)荷預(yù)測。· 長期負(fù)荷預(yù)測:未來 10 年以上以年為單位的負(fù)荷預(yù)測。影響電力負(fù)荷的因素有很多,比如說負(fù)荷類別、時(shí)間、氣候、政策法規(guī)、產(chǎn)業(yè)規(guī)劃、電價(jià)、活動(dòng)和事件等等,但進(jìn)行預(yù)測的時(shí)候通常沒有辦法獲取所有的相關(guān)數(shù)據(jù),同時(shí)過
39、多的相關(guān)因素也使得電力負(fù)荷預(yù)測更加的復(fù)雜,卻不一定會(huì)提高預(yù)測精度。根據(jù)給定的信息,可以知道需要解決的商業(yè)問題是短期電力負(fù)荷最大值預(yù)測,相關(guān)的因素有平均氣溫和假期信息。負(fù)荷預(yù)測的誤差通常要求不大于 5%,以此誤差值作為預(yù)測精度目標(biāo)。數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備在真實(shí)的數(shù)據(jù)挖掘項(xiàng)目中將占很大的比重。根據(jù) IBM SPSS 執(zhí)行數(shù)據(jù)挖掘項(xiàng)目的經(jīng)驗(yàn),這一工作在全部數(shù)據(jù)挖掘過程中常常要占到 6070% 的工作量。在此案例中,數(shù)據(jù)來源主要包括三個(gè)方面,負(fù)荷數(shù)據(jù)、平均氣溫?cái)?shù)據(jù)和假期數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)如下:表 1. 負(fù)荷數(shù)據(jù)字段名稱字段類型字段描述字段值域DatetimeString負(fù)荷數(shù)據(jù)采集時(shí)間Tot
40、al Load (KW)Float總負(fù)荷表 2. 平均氣溫字段名稱字段類型字段描述字段值域DateString日期TemperatureFloat平均氣溫表 3. 假期信息字段名稱字段類型字段描述字段值域HolidayString假期只包含是假期的日期數(shù)據(jù)準(zhǔn)備之前首先分析理解一下現(xiàn)有數(shù)據(jù),使用 IBM SPSS Modeler 對(duì)負(fù)荷數(shù)據(jù)和溫度數(shù)據(jù)分析的結(jié)果如下圖所示:圖 3. 2012 年日最大負(fù)荷曲線圖 4. 2012 年日平均溫度曲線圖 5. 2012 年 1 月份負(fù)荷曲線可以看出來負(fù)荷數(shù)據(jù)跟平均氣溫有明顯關(guān)系。從月負(fù)荷曲線也可以看出來負(fù)荷數(shù)據(jù)有明顯的周周期性。基于以上分析,可以按照以下
41、步驟進(jìn)行數(shù)據(jù)準(zhǔn)備:· 找出每天負(fù)荷最大值· 將 30 分鐘負(fù)荷數(shù)據(jù)過濾· 將溫度數(shù)據(jù)與負(fù)荷數(shù)據(jù)合并· 將假期數(shù)據(jù)與負(fù)荷數(shù)據(jù)合并· 增加一個(gè)字段表明是一周中的第幾天準(zhǔn)備好的數(shù)據(jù)如下圖所示:圖 6. 數(shù)據(jù)準(zhǔn)備結(jié)果建模時(shí)間序列和神經(jīng)網(wǎng)絡(luò)是常用的負(fù)荷預(yù)測算法,其它可用的算法包括回歸分析、決策樹等,IBM SPSS Modeler 支持自動(dòng)建模技術(shù),可以估算和比較多個(gè)不同的建模方法,在一次建模運(yùn)行中即可嘗試各種方法。時(shí)間序列模型首先基于時(shí)間序列模型建立預(yù)測工作流:圖 7. 時(shí)間序列模型工作流數(shù)據(jù)字段的類型設(shè)置如下圖所示:圖 8. 時(shí)間序列模型字段類型設(shè)置
42、模型參數(shù)設(shè)置如下圖所示:圖 9. 時(shí)間序列模型參數(shù)設(shè)置時(shí)間序列模型的預(yù)測結(jié)果如下圖所示:圖 10. 時(shí)間序列模型預(yù)測結(jié)果自動(dòng)建模模型下面基于自動(dòng)建模模型建立工作流,自動(dòng)建模模型可以同時(shí)指定多個(gè)模型。圖 11. 自動(dòng)建模模型工作流自動(dòng)建模節(jié)點(diǎn)的選項(xiàng)如下圖所示:圖 12. 自動(dòng)建模模型參數(shù)設(shè)置自動(dòng)建模模型根據(jù)用戶設(shè)置嘗試和比較多個(gè)模型,并返回指定個(gè)數(shù)的優(yōu)選模型,最終預(yù)測結(jié)果由三個(gè)模型的結(jié)果加權(quán)平均得到:圖 13. 自動(dòng)建模模型下圖是自動(dòng)建模模型的預(yù)測結(jié)果:圖 14. 自動(dòng)建模模型預(yù)測結(jié)果評(píng)估這個(gè)階段需要評(píng)估數(shù)據(jù)挖掘結(jié)果在多大程度上能實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。如果預(yù)測結(jié)果能夠幫助實(shí)現(xiàn)業(yè)務(wù)目標(biāo),則進(jìn)入部署階段,否
43、則需要重新評(píng)估商業(yè)理解,然后重新進(jìn)行 CRISP-DM 過程的其余部分。下面將建模階段兩種模型的預(yù)測值與 2003 年 1 月份實(shí)際負(fù)荷值做比較 , 結(jié)果下圖所示:圖 15. 模型預(yù)測結(jié)果評(píng)估預(yù)測精度如下圖所示:圖 16. 模型預(yù)測精度評(píng)估可以看出來總體來說時(shí)間序列的預(yù)測結(jié)果要好于自動(dòng)建模模型的預(yù)測結(jié)果,這在很大程度上是因?yàn)闀r(shí)間序列參數(shù)過仔細(xì)調(diào)整,而在自動(dòng)建模過程中用的都是默認(rèn)參數(shù),但是兩種模型的預(yù)測精度基本上都在 95% 以內(nèi),預(yù)測結(jié)果達(dá)到目標(biāo)要求。部署建立模型和評(píng)估模型并不是數(shù)據(jù)挖掘的目的。只有把模型發(fā)布到相關(guān)決策者手中,才能使我們通過數(shù)據(jù)挖掘提高企業(yè)利潤或降低企業(yè)成本。模型的部署包括兩個(gè)
44、方面:· 預(yù)測結(jié)果輸出:將負(fù)荷預(yù)測結(jié)果以報(bào)告、圖表、導(dǎo)入數(shù)據(jù)庫等方式輸出,作為電力運(yùn)營和調(diào)度等部門生成運(yùn)營的依據(jù)。· 部署與集成:與電力企業(yè)原有系統(tǒng)或者 IBM 解決方案集成,以便為電力負(fù)荷預(yù)測和生成運(yùn)營提供持續(xù)的支持。模型部署的意義絕不僅僅是把數(shù)據(jù)挖掘的方案放入一個(gè)計(jì)算機(jī)自動(dòng)化系統(tǒng)了事。在發(fā)布數(shù)據(jù)挖掘項(xiàng)目時(shí),最重要的一點(diǎn)是決策者如何根據(jù)數(shù)據(jù)挖掘產(chǎn)生的結(jié)果采取相應(yīng)的活動(dòng),從而使建立的模型得到充分的利用??偨Y(jié)電力負(fù)荷有多重分類,在時(shí)間和空間上呈現(xiàn)復(fù)雜的負(fù)荷特性,影響電力負(fù)荷變化的因素也很多,用單一模型來支持各種負(fù)荷預(yù)測是很難辦到的,通常需要針對(duì)不同的負(fù)荷預(yù)測類型建立不同的預(yù)測
45、模型;另一方面,隨著時(shí)間推移,負(fù)荷預(yù)測模型也需要根據(jù)實(shí)際數(shù)據(jù)更新,以保證預(yù)測精度能滿足實(shí)際業(yè)務(wù)需求。IBM SPSS Statistics 智能容量規(guī)劃解決方案,第二部分:多變量預(yù)測建模本文提出的智能容量規(guī)劃管理解決方案旨在幫助企業(yè)更精準(zhǔn)有效匹配測試和生產(chǎn)環(huán)境,尋找性能指標(biāo)的潛在關(guān)聯(lián),分析業(yè)務(wù)負(fù)載對(duì)容量的影響,建立預(yù)測模型,并進(jìn)行實(shí)時(shí)驗(yàn)證。使企業(yè)科學(xué)地實(shí)施容量改革,合理地規(guī)劃與配置資源,大量地節(jié)約企業(yè)成本,提高資源的可用性與可持續(xù)性。0 評(píng)論:焦 龍, 高級(jí)軟件工程師, IBM張 婧, 軟件工程師, IBM2014 年 4 月 10 日· 內(nèi)容1. 應(yīng)用背景1.1 解決的問
46、題1)大型企業(yè)的 IT 系統(tǒng)對(duì)每一次應(yīng)用程序的升級(jí)都會(huì)預(yù)先在其測試環(huán)境上進(jìn)行測試。如何保證測試的有效性?如何通過測試的結(jié)果推測其在生產(chǎn)環(huán)境上的表現(xiàn)?2)隨著資源使用的增長,CPU、內(nèi)存、硬盤、I/O 等資源互相影響并存在潛在關(guān)聯(lián)。如何洞察其關(guān)聯(lián)來指導(dǎo)企業(yè)做出合理的容量規(guī)劃?3)伴隨業(yè)務(wù)擴(kuò)展,企業(yè)生產(chǎn)環(huán)境的負(fù)載日益增加。 如何幫助企業(yè)通過對(duì)未來業(yè)務(wù)量和用戶量的增長預(yù)測而做出相應(yīng)的容量預(yù)估?4)如何提供自動(dòng)化、自適應(yīng)的建模過程與預(yù)測分析,為企業(yè)用戶打造針對(duì)個(gè)性化場景自動(dòng)建立、自動(dòng)調(diào)整的預(yù)測模型來降低使用復(fù)雜度? 如何保證預(yù)測分析的有效性和準(zhǔn)確性?1.2 商業(yè)價(jià)值1)避免過多地投入測試資源,最大化測
47、試資源價(jià)值,實(shí)現(xiàn)測試與生產(chǎn)的資源整合。2)優(yōu)化企業(yè)數(shù)據(jù)中心資源利用率,各項(xiàng)資源合理配比,提供更精準(zhǔn)的性能分析和容量規(guī)劃方案以節(jié)約成本。3)合理預(yù)測業(yè)務(wù)增長,提高企業(yè)對(duì)未來業(yè)務(wù)的洞察力,幫助企業(yè)制定更完備的容量預(yù)估和應(yīng)急方案。4)提升業(yè)務(wù)可持續(xù)性與用戶體驗(yàn),為企業(yè)提供基于源數(shù)據(jù)的自動(dòng)化選型、建模、調(diào)整、驗(yàn)證的全生命周期解決方案?;仨撌?. 數(shù)據(jù)準(zhǔn)備應(yīng)用某網(wǎng)站在新業(yè)務(wù)上線前,通過測試環(huán)境的結(jié)果預(yù)測其生產(chǎn)環(huán)境上線后的資源利用率場景。從小范圍入手,首先針對(duì)一臺(tái)服務(wù)器,選取相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析與預(yù)測建模的研究。例如在眾多的服務(wù)器中,選取其中的一臺(tái) web 服務(wù)器(192.168.119.9)。對(duì)該臺(tái)
48、服務(wù)器在 2013 年 1 月 1 日 00:0024:00 的各項(xiàng)指標(biāo),采集單位為分鐘,共 1440 條數(shù)據(jù)進(jìn)行量化分析。本文的主要目的是預(yù)測用戶訪問頻率 Frequency_User 的未來發(fā)展趨勢。因此,需要考慮用戶訪問頻率 Frequency_User、內(nèi)存利用率 MEM、硬盤利用率 DISK 與 CPU 利用率的關(guān)系。將數(shù)據(jù)文件的信息合并為一個(gè)新的數(shù)據(jù)文件,數(shù)據(jù)整理后的文件被保存成 IBM SPSS Statistics 的 SAV 格式的存儲(chǔ)文件,如圖 1 所示,其中包含以下字段:日期 DATE、時(shí)間 TIME(采集單位:分鐘)、用戶訪問頻率 Frequency_User(單位 :
49、 次)、內(nèi)存利用率 MEM(單位:%)、硬盤利用率 DISK(單位:%)、用戶 CPU 利用率 CPU(單位:%)。圖 1. 數(shù)據(jù)文件變量回頁首3. IBM SPSS Statistics 使用過程3.1 多變量關(guān)聯(lián)分析本文通過偏相關(guān)分析,判斷用戶訪問頻率 Frequency_User 與 CPU 利用率、內(nèi)存利用率 MEM、硬盤利用率 DISK 之間的關(guān)聯(lián)關(guān)系。偏相關(guān)分析是當(dāng)兩個(gè)變量同時(shí)與其他多個(gè)變量相關(guān)時(shí),將其他多個(gè)變量的影響剔除,只分析另外兩個(gè)變量之間相關(guān)程度的過程 。因此,針對(duì)于本文中包含的多個(gè)變量的關(guān)聯(lián)分析,可利用偏相關(guān)分析展開研究。例如分析其中的兩個(gè)變量訪問頻率 Freq
50、uency_User 與 CPU 利用率的關(guān)聯(lián)關(guān)系,需要剔除內(nèi)存利用率 MEM 與硬盤利用率 DISK 的影響,只針對(duì)于訪問頻率 Frequency_User 與 CPU 利用率進(jìn)行偏相關(guān)分析。通過相關(guān)系數(shù) r,判斷 Frequency_User 與 CPU 是否線性相關(guān)。若線性相關(guān),則可得出關(guān)聯(lián)關(guān)系。若不線性相關(guān),則利用回歸判斷出目標(biāo)變量與其他多個(gè)變量間的影響關(guān)系,即判斷預(yù)測變量的重要性對(duì)于目標(biāo)變量。多變量關(guān)聯(lián)分析流程圖,如下圖 2 所示 。圖 2. 多變量關(guān)聯(lián)分析流程圖3.1.1 偏相關(guān)分析1) 偏相關(guān)分析步驟打開 IBM SPSS Statistics,在菜單中選擇:分析 &g
51、t; 相關(guān) > 偏相關(guān), 就進(jìn)入“偏相關(guān)” 模塊方法界面,如圖 3 所示。圖 3. 偏相關(guān)分析界面在“偏相關(guān)”對(duì)話框中,選擇 Frequency_User 與 CPU 進(jìn)入“變量”框,選擇 MEM 與 DISK 進(jìn)入“控制”框。在“顯著性檢驗(yàn)”框中可選相關(guān)系數(shù)的單側(cè)(One-tailed)或雙側(cè)(Two-tailed)檢驗(yàn), 本文選雙側(cè)檢驗(yàn),如圖 4 所示。圖 4. 選擇變量與參數(shù)點(diǎn)擊“選項(xiàng)”按鈕彈出“偏相關(guān)性:選項(xiàng)”對(duì)話框,可設(shè)置相關(guān)統(tǒng)計(jì)量,如圖 5 所示。本文設(shè)置 Frequency_User、CPU、MEM 與 DISK 輸出“均數(shù)與標(biāo)準(zhǔn)差”以及“零階相關(guān)系數(shù)”,點(diǎn)擊“繼續(xù)”按鈕返
52、回“偏相關(guān)”對(duì)話框。圖 5. 偏相關(guān)性選項(xiàng)2)結(jié)果描述根據(jù)偏相關(guān)分析的結(jié)果,F(xiàn)requency_User 的均值為 85778.15992,標(biāo)準(zhǔn)差為 43387.93355;CPU 的均值為 33.84895%,標(biāo)準(zhǔn)差為 9.304364;MEM 的均值為 36.93768%,標(biāo)準(zhǔn)差為 6.954192;DISK 的均值為 30.71943%,標(biāo)準(zhǔn)差為 13.372261,如圖 6 所示。圖 6. 描述性統(tǒng)計(jì)量以下展示了兩種偏相關(guān)關(guān)系的結(jié)果,如圖 7 所示。首先,在沒有控制變量的情況下,展示了 Frequency_User、CPU、MEM 與 DISK 兩兩對(duì)應(yīng)的相關(guān)系數(shù)、雙側(cè)檢驗(yàn)的概率與自由
53、度。其次,在設(shè)定 MEM 與 DISK 為控制變量情況下,展示了 Frequency_User 與 CPU 兩兩對(duì)應(yīng)的相關(guān)系數(shù)、雙側(cè)檢驗(yàn)的概率與自由度。根據(jù)兩種偏相關(guān)情況下的結(jié)果可以看出,若不剔除 MEM 與 DISK 對(duì) Frequency_User、CPU 的影響,F(xiàn)requency_User 與 CPU 的相關(guān)性系數(shù)為 0.622;若剔除 MEM 與 DISK 對(duì) Frequency_User、CPU 的影響,F(xiàn)requency_User 與 CPU 的相關(guān)性系數(shù)為 0.771。圖 7. 相關(guān)性其中,相關(guān)性的值為通常所指的相關(guān)系數(shù) r。相關(guān)系數(shù) r 較好地度量了兩變量間的線性相關(guān)程度,相
54、關(guān)系數(shù) r 屬于 1,+1。若 0<r 1,表明變量之間存在正相關(guān)關(guān)系;若 1 r<0,表明變量之間存在負(fù)相關(guān)關(guān)系。r 1 完全正相關(guān);r 1:完全負(fù)相關(guān);這兩種情況說明變量之間存在函數(shù)關(guān)系。r 0 無線性關(guān)系。|r|>0.8:強(qiáng)相關(guān);|r|<0.3:弱相關(guān),可視為不相關(guān)。本文中 Frequency_User 與 CPU 的相關(guān)性的值為 0.771,還需利用回歸分析進(jìn)一步研究。3.1.2 回歸分析1)回歸分析步驟打開 IBM SPSS Statistics,在菜單中選擇:分析 > 回歸 > 自動(dòng)線性建模,就進(jìn)入“自動(dòng)線性 建模”模塊方法界面,如圖 8 所示。
55、圖 8. 自動(dòng)線性建模界面在“自動(dòng)線性建?!睂?duì)話框中,選擇 Frequency_User 為目標(biāo),CPU、DISK 與 MEM 為預(yù)測變量(輸入),進(jìn)行自動(dòng)線性建模,如圖 9 所示。圖 9. 自動(dòng)線性建模界面2)結(jié)果描述根據(jù)預(yù)測變量的重要性,關(guān)聯(lián)分析出 CPU 對(duì) Frequency_User 的重要性達(dá)到 80% 以上,DISK 與 MEM 的重要性均沒有超過 20%,如圖 10 所示。充分表明 CPU 與 Frequency_User 的相關(guān)性最強(qiáng),對(duì)其的解釋能力最高。圖 10. 預(yù)測變量重要性3.2 預(yù)測建模本文選取用戶訪問頻率 Frequency_User 進(jìn)行預(yù)測模型的研究。首先,判
56、斷出目標(biāo)預(yù)測變量 Frequency_User 與其他多個(gè)變量 CPU 利用率、內(nèi)存利用率 MEM、硬盤利用率 DISK 間的影響關(guān)系。根據(jù) 3.1 節(jié)中多變量關(guān)聯(lián)分析的結(jié)果,確定 Frequency_User 預(yù)測過程中的相關(guān)變量為 CPU 利用率。其次,篩選出最優(yōu)預(yù)測模型。利用專家預(yù)測模型與 ARIMA 預(yù)測模型進(jìn)行建模。再次,進(jìn)行模型參數(shù)調(diào)整。最后,根據(jù)預(yù)測結(jié)果,判斷用戶的滿意度。若用戶滿意預(yù)測結(jié)果,則選取此模型為最優(yōu)模型;若用戶不滿意預(yù)測結(jié)果,則將專家預(yù)測模型與 ARIMA 預(yù)測模型的所有參數(shù)提供給用戶,允許用戶進(jìn)行預(yù)測模型選擇及參數(shù)調(diào)整,不斷循環(huán)以上步驟,直到用戶對(duì)預(yù)測結(jié)果滿意為止。
57、預(yù)測模型的建模流程圖,如圖 11 所示。圖 11. 預(yù)測模型的建模流程圖篩選出最優(yōu)預(yù)測模型1) 建模步驟打開 IBM SPSS Statistics,在菜單中選擇:分析 > 預(yù)測 > 創(chuàng)建模型,就進(jìn)入 “時(shí)間序列建模器”模塊方法界面,如圖 12 所示。在“時(shí)間序列建模器”對(duì)話框中,選擇 Frequency_User 為因變量,CPU 為自變量,建立多種預(yù)測模型。圖 12. 時(shí)間序列建模器在“統(tǒng)計(jì)量”標(biāo)簽中選擇輸出的擬合度量指標(biāo),例如:R 方,均方根誤差,平均絕對(duì)誤差百分比。在“圖表”標(biāo)簽中選擇每張圖顯示的內(nèi)容為:觀察值,預(yù)測值和擬合值。在“保存”標(biāo)簽中,一方面,設(shè)置保存預(yù)測模型的預(yù)測結(jié)果在 SAV 文件中;另一方面,將預(yù)測模型保存為 xml 格式,當(dāng)有新的數(shù)據(jù)需要預(yù)測時(shí),可直接使用此保存結(jié)果,不用重新構(gòu)造模型,如圖 13 所示。在“選項(xiàng)”標(biāo)簽中指定未來希望預(yù)測到的時(shí)間點(diǎn),例如本文有 1 至 1440 分鐘的觀測值,指定預(yù)測值為 1500 分鐘即可獲得 1441 至 1500 分鐘的預(yù)測值。圖 13. 保存預(yù)測模型2)結(jié)果描述根據(jù)擬合結(jié)果,選取最優(yōu)的 ARIMA(1,1,0)預(yù)測模型進(jìn)行建模,如圖 14 所示。圖 14. 模型描述輸出的擬合度量指標(biāo),例如:R
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 地面材料選擇與施工方案
- 道路養(yǎng)護(hù)維修管理方案
- 生態(tài)墻體施工技術(shù)方案
- 裝修材料選擇與對(duì)比方案
- 大氣污染治理設(shè)施安裝方案
- 2026年建筑工程造價(jià)師考試預(yù)測模擬題
- 2026年醫(yī)學(xué)實(shí)驗(yàn)室操作規(guī)范練習(xí)題
- 2026年電子工程技術(shù)與產(chǎn)品設(shè)計(jì)規(guī)范題庫
- 2026年初級(jí)法律顧問職業(yè)資格考試模擬題
- 縣情介紹教學(xué)
- 2024年廣東省佛山市南海區(qū)道路建設(shè)管理處招聘公益一類事業(yè)編制人員3人歷年管理單位遴選500模擬題附帶答案詳解
- 動(dòng)物輔助療法行業(yè)研究報(bào)告
- 模塊化軟件質(zhì)量保證
- 人教版七年級(jí)語文上冊《課內(nèi)文言文基礎(chǔ)知識(shí) 》專項(xiàng)測試卷及答案
- 砌筑工中級(jí)理論考核試題題庫及答案
- 【關(guān)于構(gòu)建我國個(gè)人破產(chǎn)制度的探討(論文)16000字】
- DL∕T 1631-2016 并網(wǎng)風(fēng)電場繼電保護(hù)配置及整定技術(shù)規(guī)范
- JT-T-155-2021汽車舉升機(jī)行業(yè)標(biāo)準(zhǔn)
- 加固專業(yè)承包合同
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 5-01-05-01 中藥材種植員 人社廳發(fā)200994號(hào)
- 年終食堂工作總結(jié)
評(píng)論
0/150
提交評(píng)論