第八講預測與數(shù)據(jù)挖掘_第1頁
第八講預測與數(shù)據(jù)挖掘_第2頁
第八講預測與數(shù)據(jù)挖掘_第3頁
第八講預測與數(shù)據(jù)挖掘_第4頁
第八講預測與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

版權所有,2006上海財經(jīng)大學邵建利SAS軟件應用主講:上海財經(jīng)大學統(tǒng)計學系邵建利第八講SAS預測與數(shù)據(jù)挖掘預測是運用各種知識和科學手段,分析研究歷史資料和調(diào)研資料,對事物發(fā)展趨勢或可能的結果進行事先的推測和估計。人們對未來進行預測是為了探索預測對象發(fā)展的客觀規(guī)律,揭示其發(fā)展方向和趨勢,分析其發(fā)展的途徑和條件,為研究制定最佳方案提供依據(jù)。一、預測的概念SalesForecasting銷售預測美力特黃銅制品公司(MeritBrass)是一個家族所有的公司,供應管材、閥門及配件領域的上千種產(chǎn)品。1990年,公司提出了一個強調(diào)將管理科學方法應用于統(tǒng)計銷售預測和成品庫存管理(兩項十分關鍵的活動)的現(xiàn)代化項目。這個項目使得顧客服務(以產(chǎn)品可獲得率衡量)得到改進,同時費用大幅降低這不是我們所需要的嗎?SalesForecasting銷售預測西班牙電力企業(yè),Hidroeléctrica

Espa?ol,開發(fā)并采用了一套管理科學模型來輔助管理水力發(fā)電的水庫系統(tǒng)。這些模型是依靠對能源的需求(公司的銷售)和水庫流入量的預測來驅(qū)動的。一個復雜的統(tǒng)計預測模型被用來預測對能源的短期和長期的需求。一個水文預測模型提供了對水庫流入量的預測SalesForecasting銷售預測航空公司現(xiàn)在非常依賴于在收取不看重價格的商務人員旅行支付的高額票價的同時向其他人提供折扣票價以填滿座位。座位的數(shù)目在不同的運費等級上如何分配的決策對利潤最大化來說是關鍵的。美洲航空公司(AmericanAirlines)使用對每一種票價需求的統(tǒng)計預測來做出這項決策的SparePartsDemandForecasting備件需求的預測美洲航空公司(AmericanAirlines)使用一個基于計算機的稱為旋轉(zhuǎn)分配和計劃系統(tǒng)(RotatableAllocationandPlanningSystem,RAPS)的系統(tǒng)來預測對旋轉(zhuǎn)部件的需求,并幫助將這些部件分送到各個機場。這個統(tǒng)計預測使用了18個月的部件以及飛行小時的數(shù)據(jù),以計劃飛行小時為基礎提前進行項目編制。ForecastingProductionYields合格品率的預測艾爾巴古微電子公司(AlbuquerqueMicroelectronicsOperation)是一個固定散熱(radiation-Hardened)芯片的專業(yè)制造商。生產(chǎn)芯片的第一個步驟晶片制造,有一個連續(xù)但不穩(wěn)定的合格品率。對于一件產(chǎn)品其合格品率在最初的幾批中會很?。?到40%),以后會逐步上升到較高水平(35%到75%)。于是一種針對于這種上升趨勢的統(tǒng)計預測方法就被使用來預測合格品率ForecastingEconomicTrends經(jīng)濟趨勢預測美國勞工部(USDepartmentofLabor)與一家咨詢公司簽訂了一項協(xié)議,開發(fā)失業(yè)保險經(jīng)濟預測模型(UIEFM),這個模型現(xiàn)在已經(jīng)被全國各州的就業(yè)安全機構所使用。通過對基本經(jīng)濟因素如失業(yè)率、工資水平、失業(yè)保險所覆蓋的勞動力人數(shù)等的預計,UIEFM預測一個州要支付多少失業(yè)保險金。通過對州失業(yè)保險基金稅收收入的預計,UIEFM還能夠預測基金10年的收支ForecastingStaffingNeeds雇員需求預測聯(lián)合航空公司(UnitedAirlines)在它的11個預定處擁有超過4000名預定銷售代理及支持人員,在10個最大的機場有大約1000名顧客服務代理人,一個計算機化的計劃系統(tǒng)已被用來為這些雇員設計工作計劃。盡管一些其他的管理科學技術(包括線性規(guī)劃)也被應用于系統(tǒng)中,但是對雇員需求的統(tǒng)計預測仍是一個關鍵的部分。這個系統(tǒng)除了每年為公司節(jié)省超過600萬美元的開支以外,還改進了顧客服務,減少了對直接人員的需求ForecastingStaffingNeeds雇員需求預測L.L.Bean是一家高檔戶外用品及服飾的主要零售商。超過70%的銷售是通過在公司的呼叫中心下達訂單后完成的。呼叫中心提供了兩個800號碼,一個用于下達訂單,另一個用于詢問和反映問題。每個公司的代理人都為應答這兩個800電話中的一個而接受了訓練。因此,不同的統(tǒng)計預測模型被用于對兩個800號碼的人員周需求量進行預測。經(jīng)過精確改進的模型通過提高計劃有效性每年為L.L.Bean公司節(jié)約了30萬美元SomeApplicationsofForecastingMethods預測方法的一些應用組織 預測變量 Interfaces期號MeritBrassCo. 最終產(chǎn)品的銷售量 1993,1/2Hidroeléctrica

Espa?ol

能源需求 1990,1/2AmericanAirlines 不同等級座位的需求量 1992,1/2AmericanAirlines 維修飛機的備件需求量 1989,7/8AlbuquerqueMicroelectronics晶片的合格率 1994,3/4U.S.DepartmentofLabor失業(yè)保險支付額 1988,3/4UnitedAirlines 代理處和機場的需求 1986,1/2L.L.Bean 呼叫中心的人員需求 1995,11/12TypesofForecasts

預測的類型定性預測(Qualitative)屬于主觀判斷(Judgmental),基于估計和評價定量預測(Quantitative)時間序列分析(TimeSeriesAnalysis)因果分析(CausalRelationships)仿真模擬(Simulation)ComponentsofDemand

需求的構成WorthNotingTrends

值得注意的趨勢一段時期內(nèi)的平均需求(AverageDemand)需求趨勢(ATrend)季節(jié)因素(SeasonalElement)周期因素(CyclicalElement)隨機因素(RandVariation)自相關(Autocorrelation)QualitativeMethods

定性方法一般預測(GrassRoots)市場調(diào)研(MarketResearch)小組共識(PanelConsensus)歷史類比(HistoricalAnalogy)德爾菲法(DelphiMethod)DelphiMethod

德爾菲法選擇具有不同知識背景的參與專家.通過問卷調(diào)查(或電子郵件)從專家處獲得預測信息匯總調(diào)查結果,附加新的問題重新發(fā)給專家再次匯總,提煉預測結果和條件,再次形成新問題如有必要,重復前一步驟,將最終結果發(fā)給所有專家JudgmentalForecastingInFirms

公司中的主觀預測預測技術LowSales

HighSales<$100M>$500M經(jīng)理意見40.7%39.6%部門主管集體討論40.7%41.6%銷售人員意見匯集29.6%35.4%公司數(shù)目2748QuantitativeForecastingInFirms

公司中的定量預測預測技術LowSales

HighSales<$100M>$500M移動平均29.6%29.2%直線延展14.8%14.6%天真預測18.5%14.6%指數(shù)平滑14.8%20.8%回歸22.2%27.1%仿真3.7%10.4%經(jīng)典分解3.7%8.3%Box-Jenkins3.7%6.3%公司數(shù)目2748TimeSeriesAnalysis

時間序列分析企業(yè)選用哪一種預測模型取決于:預測的時間范圍能否獲得相關數(shù)據(jù)所需的預測精度預測預算的規(guī)模合適的預測人員企業(yè)的柔性程度SimpleMovingAverage

簡單移動平均Ft:對下一期的預測值N:移動平均的時期個數(shù)At-I:前I期的實際值SimpleMovingAverage

簡單移動平均SimpleMovingAverage

簡單移動平均WeightedMovingAverage

加權移動平均權重:t-1.5t-2 .3t-3.2在前三期需求值與各自權重的基礎上預測第四期的需求WeightedMovingAverage

加權移動平均ExponentialSmoothing

指數(shù)平滑假設:近期的數(shù)據(jù)比早期的數(shù)據(jù)更能夠準確地預測未,因此需要最近的數(shù)據(jù)的權重就要比以前的數(shù)據(jù)的權重要大Ft=Ft-1+a(At-1-Ft-1)ExponentialSmoothing

指數(shù)平滑用a=.10和a=.60.預測值求令F1=D1

ExponentialSmoothing

指數(shù)平滑EffectofaonForecast

a

對預測的影響ForecastErrors

預測誤差誤差分為偏移誤差和隨機誤差偏移誤差來源:未包含正確變量、變量間關系定義錯誤、趨勢曲線不正確、季節(jié)性需求偏離正常軌道、存在某些隱式趨勢隨機誤差是無法由預測模型解釋的誤差項功能:自動選擇預測模型,對數(shù)據(jù)建立最為適合的預測模型。SAS系統(tǒng)的時間序列分析模塊實驗六、長途客運客流量預測模型長途客運行業(yè)的發(fā)展依賴于合理科學的決策,而科學的決策,顯然離不開科學的預測??茖W的預測能使決策者了解未來,把對未來的不確定性通過定時、定性、定量的分析降到最低,為決策提供依據(jù)。客流量的預測具有對于客運行業(yè)的資源整合具有非常重要的意義:從宏觀層面上看,客流量預測是長途客運系統(tǒng)合理規(guī)劃的基礎,只有在對客流的流量、流向進行合理預測與分析的基礎之上,才能合理規(guī)劃未來長途客運系統(tǒng)的設施設備,合理安排運量,合理確定系統(tǒng)各階段的發(fā)展目標,從而使整個長途客運系統(tǒng)與社會經(jīng)濟發(fā)展、生產(chǎn)力布局相適應,確保國民經(jīng)濟的正常發(fā)展。從微觀層面看來,通過對各項客流預測結果的分析,可以合理確定研究線路近期、中期、遠期在路網(wǎng)中的功能和作用,為新線建設、舊線改造和相關客運場站技術設備修建與改造提供客觀的依據(jù);是編制長途客流計劃的基礎,準確的客流量預測有助于合理的調(diào)配運力,對于運輸資源的合理配置有著極其重要的現(xiàn)實意義。影響長途旅客運運輸量大小的因素很多,包括運價、旅客滿意度、班線情況以及站點的布局情況等等。通過對這些因素的分析,可以對長途旅客流量做出預測,但由于部分影響因素是定性的,不便于進行定量化分析,在實際預測中存在一定的困難,預測的結果也未必會很好,再者,各影響因素之間往往存在多重共線性,在一定程度上也會使客流量的預測產(chǎn)生誤差。但是,隨著長途客運信息平臺的運營,每天我們都可以從平臺上得到大量的實際客流量數(shù)據(jù),通過對這些數(shù)據(jù)進行分析,運用合理的統(tǒng)計方法,找出其發(fā)展規(guī)律,就可以較為準確的對客流量進行預測。1、數(shù)據(jù)來源:由上海市城市交通運輸管理局提供,上海市長途客運總站2006年2月15日-2006年3月25日,共34天,每天旅客發(fā)送量數(shù)據(jù)。2、數(shù)據(jù)變量說明date:日期(2006.2.15—2006.3.25)passenger:當日旅客發(fā)送量步驟一、導入數(shù)據(jù)

將EXCEL數(shù)據(jù)倒入SAS系統(tǒng)中,并取名為

FORECAST,放在WORK邏輯庫中,見程序chap3-8-1。/*chap3-8-1*/PROC

IMPORT

DATAFILE="C:\DATA\FORECAST.XLS"

OUT=FORECASTDBMS=EXCEL2000;RUN;步驟二、分析準備點擊Solutions(s)中的主菜單Analysis(s)中的TimeSeriesForecastingSystem(F),見圖3-13。啟動時間序列預測系統(tǒng)在彈出的時間序列預測的對話框中,點dataset一行的Browse按鈕,指明分析的數(shù)據(jù)集。在本實驗中,我們選中存放在work邏輯庫中的數(shù)據(jù)集forecast。系統(tǒng)自動將數(shù)據(jù)集中的日期變量date作為時序標志(timeid),見圖。圖參數(shù)設置在彈出對話框中,將選擇模型的標準(SelectionCriterion),改為R-Square。然后點擊

Run按鈕,讓系統(tǒng)自行按最優(yōu)的標準選則模型圖3-16選擇模型的標準步驟四、查看模型結果在完成了步驟三的操作以后,系統(tǒng)彈出自動生成模型結果(AutomaticModelFittingResults)的對話框,見圖3-17所示,系統(tǒng)自動擬合的模型為對數(shù)季節(jié)指數(shù)平滑模型(LogSeasonalExponentialSmoothing)。時間序列和模型的名稱,以及預測模型相關的統(tǒng)計量都已列在圖3-17中。點擊圖3-17右下方的Graph按鈕可查看關于該模型的圖形結果;點擊Stats按鈕可查看該模型的統(tǒng)計量結果。圖3-17生成模型結果1、模型結果從步驟四的圖我們可以看出,自動擬合的模型為

LogSeasonalExponentialSmoothing。=0.81447,均方誤差為351285。

按鈕后,其結果見圖3-18。點擊2、圖形結果模型結果按我們設立的選擇標準,系統(tǒng)給出了最優(yōu)模型:指數(shù)平滑法中的LogSeasonalExponentSmoothing。下圖為客運量的實際值和預測值之間的比較。藍線為模型預測線,黑點為實際值??梢钥闯瞿P偷臄M合效果還是不錯的。預測模型比較貼近實際值的周期性波動。

點擊按鈕后,結果如圖3-19所示,該圖為預測誤差圖。從圖中可以看出,預測值與實際值之間差值的情況。本模型的預測誤差在正負1500內(nèi),分布較為均勻。共有5個觀測值的預測誤差較大(大于1000),占樣本的14%。圖3-19預測誤差圖點擊按鈕后,結果如圖3-20所示。圖3-20自回歸相關和偏自相關分析結果圖3-20為預測誤差的自回歸相關和偏自相關分析結果,該圖可以看出,預測誤差序列基本穩(wěn)定。點擊按鈕后,結果如圖3-21所示:圖3-21模型預測的圖形結果藍色虛線以后的部分,是預測模型外推預測結果。什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘DM(DataMining)是從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對決策有潛在價值的知識和規(guī)則。這些規(guī)則蘊含了數(shù)據(jù)庫中一組對象之間的特定關系,揭示出一些有用的信息,為經(jīng)營決策、市場策劃、金融預測等提供依據(jù)。通過數(shù)據(jù)挖掘,有價值的知識、規(guī)則或高層次的信息能就從數(shù)據(jù)庫的相關數(shù)據(jù)集合中抽取出來,并從不同角度顯示,從而使大型數(shù)據(jù)庫作為一個豐富可靠的資源為知識管理服務。數(shù)據(jù)挖掘在一些文獻中也有其他名稱,如數(shù)據(jù)開采、知識挖掘、知識抽取、知識考察等。

數(shù)據(jù)挖掘是知識發(fā)現(xiàn)KDD的一個關鍵步驟,它包括特定的數(shù)據(jù)挖掘算法,具有可接受的計算效率,生成特殊的模式。

KDD是利用數(shù)據(jù)挖掘算法,按指定方式和閾值抽取有價值的知識,包括數(shù)據(jù)挖掘前對數(shù)據(jù)的預處理、抽樣及轉(zhuǎn)換和數(shù)據(jù)挖掘后對知識的評價解釋過程。

數(shù)據(jù)挖掘的特點

所處理的數(shù)據(jù)規(guī)模十分巨大。尋找決策所需的信息。數(shù)據(jù)挖掘既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護規(guī)則。數(shù)據(jù)挖掘中規(guī)則的發(fā)現(xiàn)主要基于大樣本的統(tǒng)計規(guī)律,發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),當達到某一閾值時便可認為有此規(guī)律。數(shù)據(jù)挖掘的分類根據(jù)所開采的數(shù)據(jù)庫類型、發(fā)現(xiàn)的知識類型、采用的技術類型,數(shù)據(jù)挖掘有不同的分類方法。(1)按數(shù)據(jù)庫類型分類從關系數(shù)據(jù)庫中發(fā)現(xiàn)知識;從面向?qū)ο髷?shù)據(jù)庫中發(fā)現(xiàn)知識;從多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、歷史數(shù)據(jù)庫、Web數(shù)據(jù)庫中發(fā)現(xiàn)知識。(2)按挖掘的知識類型分類

按挖掘的知識類型可分為關聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、偏差規(guī)則、聚集規(guī)則、判別式規(guī)則及時序規(guī)則等。

按知識的抽象層次可分為歸納知識、原始級知識、多層次知識。一個靈活的規(guī)則挖掘系統(tǒng)能夠在多個層次上發(fā)現(xiàn)知識。(3)按利用的技術類型分類

根據(jù)開采方法分為自發(fā)知識開采、數(shù)據(jù)驅(qū)動開采、查詢驅(qū)動開采和交互式數(shù)據(jù)開采。根據(jù)開采途徑分為基于歸納的開采、基于模式的開采、基于統(tǒng)計和數(shù)學理論的開采及集成開采等。(4)按挖掘的深度分類

在較淺的層次上,利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢/檢索及報表功能,與多維分析、統(tǒng)計分析方法相結合,進行OLAP,從而得出可供決策參考的統(tǒng)計分析數(shù)據(jù)。在深層次上,從數(shù)據(jù)庫中發(fā)現(xiàn)前所未知的、隱含的知識。OLAP的出現(xiàn)早于數(shù)據(jù)挖掘,兩者都是從數(shù)據(jù)庫中抽取有用信息的方法,就決策支持的需要而言兩者可以起到相輔相承的作用。OLAP可以作為一種廣義的數(shù)據(jù)挖掘方法,它旨在簡化和支持聯(lián)機分析,而數(shù)據(jù)挖掘的目的是使這一過程盡可能自動化。數(shù)據(jù)挖掘有兩種功能:(1)預測/驗證功能。用數(shù)據(jù)庫的若干已知字段預測或驗證其他未知字段值;(2)描述功能指找到描述數(shù)據(jù)的可理解模式。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系知識發(fā)現(xiàn)KDD(knowledgediscovery)是指識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的、最終可理解的、模式的、非平凡過程。

KDD的整個過程包括在指定的數(shù)據(jù)庫中用數(shù)據(jù)挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘進行的預處理和結果表達等一系列的計算步驟。盡管數(shù)據(jù)挖掘是整個過程的中心,但它通常只占整個過程15%~25%的工作量。知識發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而數(shù)據(jù)挖掘則是此全過程的一個特定的關鍵步驟

1、熟悉應用領域、背景知識及用戶的KDD任務性質(zhì);2、數(shù)據(jù)的選擇:確定與發(fā)現(xiàn)任務相關的數(shù)據(jù)集合;3、數(shù)據(jù)清理和預處理,包括除去錯誤和冗余數(shù)據(jù)、處理丟失數(shù)據(jù)、更新數(shù)據(jù)和時序信息并將其準備成數(shù)據(jù)挖掘工具所需的表達式;4、數(shù)據(jù)縮減和投影,尋找依賴于發(fā)現(xiàn)目標的、表達數(shù)據(jù)的有用特征,通過降低維數(shù)和數(shù)據(jù)轉(zhuǎn)換以縮減數(shù)據(jù)規(guī)模;降低數(shù)據(jù)復雜性;5、確定KDD目標,選擇合適的算法如聚集、分類、線性回歸等;KDD的步驟6、選擇數(shù)據(jù)挖掘算法,選擇適當?shù)哪P秃蛥?shù);

7、執(zhí)行數(shù)據(jù)挖掘過程,發(fā)現(xiàn)模式并表達成易理解的

形式如分類規(guī)則等;

8、評價和解釋發(fā)現(xiàn)的模式,必要時反復執(zhí)行步驟1到7;

9、將模式提交給用戶或應用到系統(tǒng)中。

KDD整個過程是一個以知識工作者為中心、人機交互的探索過程。

1生物醫(yī)學和DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘

人類有約10萬個基因。一個基因通常由成百個核苷按一定次序組織而成。核苷按不同的次序和序列可以形成不同的基因,幾乎是不計其數(shù)。

具有挑戰(zhàn)性的問題是從中找出導致各種疾病的特定基因序列模式。

由于在數(shù)據(jù)挖掘中己經(jīng)有許多有意義的序列模式分析和相似檢索技術,因此數(shù)據(jù)挖掘成為DNA分析中的強有力工具2針對金融數(shù)據(jù)分析的數(shù)據(jù)挖掘

(1)為銀行和金融數(shù)據(jù)構造其數(shù)據(jù)倉庫:多維數(shù)據(jù)分析用于分析這些數(shù)據(jù)的一般特性。例如,人們可能希望按月,按地區(qū),按部門,以及按其他因素,查看負債和收人的變化情況,同時希望能提供最大、最小、總和、平均和其他統(tǒng)計信息。數(shù)據(jù)倉庫,數(shù)據(jù)立方體,多特征和發(fā)現(xiàn)驅(qū)動數(shù)據(jù)立方體,特征和比較分析,以及孤立點分析等,都會在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。(2)貸款償還預測和客戶信用政策分析:

有很多因素會對貸款償還效能和客戶信用等級計算產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關性計算,有助于識別重要因素,剔除非相關因素。例如,與貸款償還風險相關的因素包括貸款率,貸款期限,負債率,收入比率,客戶收入水平,受教育水平,居住地區(qū),信用歷史,等等。

分析客戶償還的歷史信息,可以發(fā)現(xiàn),償還與收入比率可能是主導因素,而受教育水平和負債率則不是。銀行于是可以據(jù)此調(diào)整貸款發(fā)放政策,以便將貸款發(fā)放給那些以前曾被拒絕,但根據(jù)關鍵因素分析,其基本信息顯示是相對低風險的申請。

(3)對目標市場客戶的分類與聚類:

分類與聚類的方法可用于用戶群體的識別和目標市場分析。例如,通過多維聚類分析,可以將具有相同儲蓄和貸款償還行為的客戶分為一組。有效的聚類和協(xié)同過濾方法有助于識別客戶組,將新客戶關聯(lián)到適合的客戶組,以及推動目標市場。(4)金融犯罪的偵破:

把多個數(shù)據(jù)庫的信息(如銀行交易數(shù)據(jù)庫、聯(lián)邦或州的犯罪歷史數(shù)據(jù)庫等)集成起來。

然后可以采用多種數(shù)據(jù)分析工具來找出異常模式,如在某段時間內(nèi),通過某一組內(nèi)發(fā)生大量現(xiàn)金流量,等等。這些工具可以識別出一些重要的活動關系和模式,有助于調(diào)查人員聚焦可疑線索,做進一步的處理。

有用的工具包括:

數(shù)據(jù)可視化工具(用圖形方式按時間和一定人群顯示交易活動);

鏈接分析工具(識別不同人和活動之間的聯(lián)系),

分類工具(濾掉不相關的屬性,對高度相關屬性排級);

聚類分析工具(將不同案例分組);

孤立點分析工具(探測異常資金量的轉(zhuǎn)移或其他行為);

序列模式分析工具(分析異常訪問模式的特征)。實例數(shù)據(jù)特征對預測分類數(shù)據(jù)挖掘模型選擇的影響面對數(shù)據(jù)挖掘系統(tǒng)能夠建立大量的預測分類的數(shù)據(jù)挖掘模型,決策者希望能夠在選擇一種或幾種能得到最高正確率的預測分類模型來進行更為有效的數(shù)據(jù)挖掘。為了達到這個目的,需要研究能夠反映數(shù)據(jù)集結構的數(shù)據(jù)特征對預測分類的數(shù)據(jù)挖掘模型的影響。它一般是通過案例證明反映目標屬性數(shù)據(jù)特征的CI值等級(一個借鑒于產(chǎn)業(yè)經(jīng)濟學中的概念),并需要研究模型交互作用對預測分類的正確率是否顯著性影響。其目的是找到可以比較直觀地讓決策者從若干預測分類的數(shù)據(jù)挖掘模型中選擇出最合適模型一種方法?!緦嶒灁?shù)據(jù)】em.xls1、數(shù)據(jù)來源:案例所用的臨床數(shù)據(jù)集是由倫敦圣喬治醫(yī)院老年醫(yī)學部的臨床計算機系統(tǒng)收集的從1994年至1997年就診病人的觀測數(shù)據(jù),一共4722條病人記錄,每條記錄包括45條屬性值:病人的個人資料、入院、住院和離院時的詳細資料等。在這些屬性中,對于病人的住院時間起作用的有20個屬性,為病人的年齡、性別、婚姻狀況、入院原因(包括中風、跌傷、神志不清、尿失禁、便失禁、行動能力下降或其它原因)、Barthel指數(shù)(包括共10個具體指標)等。2、數(shù)據(jù)變量說明AGE:病人年齡SEX:病人性別ADMMTHD:入院方式ESPUR:住院時間DISCMON:住院月份DISCYR:住院年份OUTCOME:出院方式FIRSTADM:第一次入院的病因,具體病因(STROKEFALLCONFUSEDUIFIDOTHER)。BARSCO:Barthel指數(shù),由

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論