數(shù)據(jù)分析師level1基于spss cda初級課件_第1頁
數(shù)據(jù)分析師level1基于spss cda初級課件_第2頁
數(shù)據(jù)分析師level1基于spss cda初級課件_第3頁
數(shù)據(jù)分析師level1基于spss cda初級課件_第4頁
數(shù)據(jù)分析師level1基于spss cda初級課件_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

更新日期:2015-11-丁亞軍丁亞軍,數(shù)據(jù)分析總監(jiān),現(xiàn),中心數(shù)據(jù)分析顧問,SAS、 軟件講師、中國學習路徑圖國際中心技術(shù)顧問。曾參2012國家宏觀經(jīng)濟預(yù)測、中國城鎮(zhèn)居民家庭投資 經(jīng)濟 ——數(shù)據(jù)處理與分析 : CDA數(shù)據(jù)分析SPSS的介實例SPSS的特SPSS界面介SPSS數(shù)據(jù)變量詳SPSS外部數(shù)數(shù)據(jù)數(shù)據(jù)的選檢查異常缺失新變量生成描述統(tǒng)計分頻率過SPSS統(tǒng)計圖散點數(shù)據(jù)分析相關(guān)分簡單回歸分多元回歸分案例分析:商品韌性材料的影響因素及其預(yù)測分卡方分案例分析:商品因素分二分類案例分析:客戶違約信息預(yù)測主成分分析與聚類分主成分分析兩步聚類法RFM客戶價值模型第一部分SPSS SPSS的介實例演示。SPSS的特點SPSS界面介SPSS數(shù)據(jù)變量詳..1.1.SPSS的介實例演文件名:短期績效問題要求:a、將數(shù)據(jù)文件導入SPSSexcel數(shù)據(jù)處數(shù)據(jù)處1.數(shù)據(jù)收2.數(shù)據(jù)管3.數(shù)據(jù)預(yù)分4.數(shù)據(jù)分5.呈現(xiàn)圖板SPSS擁有市場研究80%的占有率;(StatisticaSciences2002正式將英文全稱更改為統(tǒng)計產(chǎn)品與服務(wù)解決方案(StatisticalProductandServiceSolutions,面向商業(yè)化,反映市場發(fā)展的新趨勢。2009年4月將軟件更名為PASW(Predictive yticsSoftware)。同年9月,被IBM收購,命名為IBMSPSSStatistics,現(xiàn)升級到22版a、base模塊:數(shù)據(jù)管理、描述、探索、報告、繪圖、交叉表、相關(guān)分析、回歸分析、b、回歸模塊:提供大量的非線性技術(shù),包括logistic模型、probit模型等,其優(yōu)點e、其他主要模塊:聯(lián)合分析、決策樹、直銷(Direct*---市場導向模塊--.等十多種模塊---

①數(shù)據(jù)庫功能完備,SPSS主體部分除了封裝好的菜單功能外(如,數(shù)據(jù)、轉(zhuǎn)換等SPSS軟件有一個完整的技術(shù)平臺,如咨詢、報告、管理等。②統(tǒng)計模型方面,軟件發(fā)展的40,這一塊已經(jīng)很成熟了,不過SPSS的主要的方向塊主要以中端企業(yè)服務(wù)為主,面向高端市場的數(shù)據(jù)挖掘和商業(yè)智能的軟件是modeler。合到一個技術(shù)平臺上,幫助企業(yè)建立統(tǒng)一的資源庫。件的支持,如文本、網(wǎng)頁、SAS、Excel等格式。③擴展性能好:可以直接調(diào)用R成版本7的格式,再打開。Spss13.0:具有“性”的版本,可以說確定了SPSS軟件的整體框架,并開始加:并入Spss21.0IBMcognos的接口。統(tǒng)計SPSS界面介紹(綜合設(shè)置、help幫助介紹文件名:短期績效→常規(guī):變量列表、windows、輸出(語言、用戶界面(語言→數(shù)據(jù):設(shè)置兩位數(shù)字表示年號。例如1943年-2042年,”10/12/80”mm/dd/yy*---spss15821014日午夜為基線 SPSS數(shù)據(jù)變量詳SPSS外部數(shù) 數(shù)據(jù)獲取與數(shù)據(jù)格式數(shù)據(jù)文件程序:COMPUTEID=$CASENUM.詳細說明請參閱:-1-格式。計算均以1582年10月14日午夜為基線。e、值:對數(shù)值加(120字節(jié)) 有關(guān)度量標準相關(guān)知識介 SPSS區(qū)分三種測量類型:名義測量、次序測量與標度測量(scalemeasurement。其中標度測量(scalemeasurement)包括間距測量與比率測量。a、名義測量(normialmeasurement)是最低的一種測量等級,也稱定名測度。其數(shù)2精致的發(fā)揮出來,否則我們一般常用logistic回歸分析。在此模型后,更進一步的是潛b、次序測量(ordinalmeasurement)的量化水平高于名義測度,用于的測量的數(shù)(1,2,3…標(gamma系數(shù)、kendall系數(shù)群,里面很多的算法都可以用,以秩和檢驗為代表。c、間距測量(intervalmeasurement)的量化程度更高一些,它的取值不再是類的為測度等級的變量所取的0值不是物理上的絕對0。比如考試成績的0。d、比率測量(ratiomeasurement)是的測量等級,他除了具有間距測度等級由于c、d這兩種測度在spss或其他統(tǒng)計軟件里均不做細致的區(qū)分,大部分的模型均 SPSS外部數(shù)文件名:出口商品金額CG_Ceo.xls*----無法識別日期,請調(diào)用文件日期運算.sps操作:文件→打開→數(shù)據(jù)導出數(shù)據(jù):另存為Excel格式、文本格式、Sav 數(shù)據(jù)的選檢查異常缺失新變量生成描述統(tǒng)計分頻率過SPSS統(tǒng)計圖散點 數(shù)據(jù)*---文件是關(guān)于員工適應(yīng)與工作情況的,長期績效.sav與此基本對應(yīng)---y。。 。 。。。。。。x。y。xy。。。 。。 。。。。。。 xy 。。。。。。 。。。。。。。。。。x驗證數(shù)據(jù)(單變量與多變量記為1.;統(tǒng)計統(tǒng)計有N缺0均中眾71方④與箱體(灰綠色)1.5倍即被視為異常值(用圓圈表示超過3倍的即被視為值(用星號表示。,②6點鐘方向:因變量只有一個,且為連續(xù)性變量,多個自變量使用主成分分析,對④9點鐘方向:因變量有多個,且為連續(xù)性變量,于此相對的也有多個自變量,常用多個自變11個(連續(xù)或離散多個自變11個(連續(xù)或離散因變量個數(shù)與類1個(連續(xù)或離散1因變量個數(shù)與類1個(連續(xù)或離散1c、多對等組:輸出id(1表示第一對等組)、size(組大小)、pctsize(占百分比)。var(變量、measure(向量長度,測量方式)、value(個案實際值)、殘差有沒有超出經(jīng)驗范圍(+3標準差,呈現(xiàn)什么分布等,另外對于整個模型而言,會有默認是10-1-1.htmlisig.avmssn(據(jù)).sav含有缺失值。文件描述:收集了40處交通樞紐處的車輛滯留情況。Group:1表示交通期,2產(chǎn)生9個缺失值(其中有一個是自定義的缺失值。e_flow:表示電動車在交通路口處的表示交通堵塞程度,其值越大表示交通越擁擠,并產(chǎn)生5個缺失值。完全隨機缺失檢驗MCAR假設(shè)不成立的方法有單變量t檢驗和little’sMCAR多變量檢驗。隨機缺失非隨機缺失系統(tǒng)缺失:使用S標記。用戶定義缺失值:使用A、B、C或D表示。分別表示超過四分位距上下1.5倍的個案。使用指示變量形成的分組進行t檢驗:使用指示變量標識為有缺失組和無缺失組,然后使用指示變量進行t檢驗。a_flowb_flow Little的MCAR檢驗的原假設(shè)是,缺失數(shù)據(jù)是完全隨機的,上表結(jié)果顯示不原(p=0.148原數(shù)據(jù)集回歸的結(jié)果(無缺使用回歸填補b、多重填補技術(shù)(Multiple例如:建立不同組的模型,比較模型優(yōu)度指標R新變量生成“/”表示除。邏輯表達式:“&”表示and|or~not。

b、轉(zhuǎn)換→重新編碼為不同變量(或相同變量重新編碼為其他變量主界 舊值與新值界例如:RECODE總分(Lowestthru99=1)(99thruHighest=2)INTOaa.EXECUTE.99Lowestthru99=1991,不會影響后續(xù)的編碼。數(shù)據(jù)文件名:短期員工績效算術(shù):Abs:取絕對值。Ln:取對數(shù),應(yīng)用:因變量非正太分布,經(jīng)常會取對數(shù)處理。Sqrt:返回平,經(jīng)常也用于轉(zhuǎn)換。EXP(num):返回e的num次冪。在廣義線性模型中有些系數(shù)通過exp轉(zhuǎn)換后,更便于理解。CDFCDF:CDF.NORMAL(quant,mean,stddev)返回正態(tài)分布下(指定指定于quant的累計概率。1CDF.NORMAL(quant,mean,stddev)顯著性:SIG.CHISQ(quant,df):返回卡方分布(df)quant的累計概率。SIG.F(quant,df1,df2):返回F分布(df1df2)quant的累計概提供頻率過照照照(觀測均值與假設(shè)值)與標準誤的比值超出[-22]的范圍,則可以斷定兩個值不同。最大值(無法獲得或很難獲得這部分數(shù)據(jù),如果選擇該選項可以估計原數(shù)據(jù)的中位數(shù)和圖表:條形圖、餅圖、直方圖(提供正態(tài)曲線使用SPSS繪制常用統(tǒng)計圖散點散點圖(交互式打開數(shù)據(jù)文件:出口商品金額.sav文件描述:將變量機械及設(shè)備進行1倍標準差的離散化,分3類用于演示。改為“標記”。元素類型其他選項是使用不同的圖形表示。,參數(shù)形式:Ey)非參形式:Ey)可加模型:Ey)

ff(x1)

f(x2f(x2

-1-注:可以提供每個變量的分布情況(圖形會根據(jù)刻度有所調(diào)整 數(shù)據(jù)分析相關(guān)分簡單回歸分多元回歸分案例分析:商品韌性材料的影響因素及其預(yù)測分卡方分案例分析:商品因素分分類因變量回二分類案例分析:客戶違約信息預(yù)測主成分分4.4.3兩步聚類RFM客戶價值模型 數(shù)據(jù)分析假設(shè)檢——C.R. COMPUTEnormal=RV.NORMAL(0,1). --setseedinputloop#lop=1toendcase.endendendinputprogram.圖50次循環(huán)產(chǎn)生的標準正態(tài)分 圖500次循環(huán)產(chǎn)生的標準正態(tài)分 圖5000次循環(huán)產(chǎn)生的標準正態(tài)分 圖50000次循環(huán)產(chǎn)生的標準正態(tài)分CDF.NORMAL(quant,mean,stddev)函數(shù)(cumulativedistribution——返回正態(tài)分布下指定均值與標準差的小于quantIDF.Normal(函數(shù)(Inversedistributionfunction)CDF(的反函數(shù),輸入累function相關(guān)分rxxyy的均值;r取值范圍[-11]H0:兩變量間無直線相關(guān)關(guān)系。③變量為連續(xù)變量(積差相關(guān)的條件0 1受教育程度分高低兩類,三種行為評價對應(yīng)Gbehavior三個變量。總擬 子擬效能要低于Pearson。相關(guān)與回歸間的關(guān)系:y。。。。。。。。。。xy 。。。。。xy。。。。。。。。。y。。。。。 。。。 。。 。。。。 。。。。 。xx 1 x1 lny 1ln 1 12(Y?(Y?2(YY )

所有Y值的總平方和,即算F算F MSRE (H bSEbβ是構(gòu)造t?~N[2(xx)2i使用?[1n2)]SSE為2 (xx)2i測定系數(shù)(R2(Y?Y ) 2 Y)d、正交假定:誤差項與自變量不相關(guān),其期望為0.相關(guān)系數(shù)與R

簡單線性回

相關(guān)系數(shù)R=相關(guān)系(Iversen,2012回歸模型表示為: 177.170+211.105x10.772x2c、WLS var(i)(xx)2*1 d??t?t??注 ?t

? 取值范圍[-11] ∴d的取值范圍[0?*---具體檢驗可以參考:主編.社會統(tǒng)計分析方法—SPSS軟件應(yīng)12注:Dependent:因變量;Zpred:標準化預(yù)測值 (xxSREiei/ h

n2(xix2n-1y?(i,刪除殘差=y(i)-y?(i。逐步回回歸預(yù)測與殘差分方差不齊與強影響點的處—異常案例診斷—WLS(權(quán)重估計) LAD(非線性方差不齊—最小二乘*---換,更一般的情況見box-cox變換。w1/2且2=kx2 般的形式可以表示為w1/xm,故當下需估計m的最優(yōu)取值。 權(quán)重變量xm。量。如WGT_1。并將WGT_1作為OLS估計的 強影響點—非線性過程—異常案例診斷(殘差圖與主成分圖#殘差y。。。。。。。。。。。x①②y。。。。。。。。。。。。xy。。。。。。。。。。x。③④y。。。。。。。。。。。x殘差探索異常觀測值:Cook'sDistance(cook距離)、StudentizedResidual(學生化殘差、CenteredLeverageValue(杠桿值e× i ×k 1ie/2表示標準化殘差,k表示自變量數(shù),ni

nk

,預(yù)示可能異常(注意樣本量較大的情況需要放寬繪制:Cook'sid1n x1n xixihi帽子值關(guān)心的是具體值偏離中心的程度(指的是自變量。參考界限大于hi平均數(shù)se(ise(iei ~se(i將該觀測值從殘差標準差中刪除。參考界限[-2#主成共線性的處理—嶺回歸 regression)等方法這種情況稱為非正定或奇異,這時的X'X就是奇異的。但如果將X'X加上正常數(shù)矩陣,奇異性就會得到有效改善,K就是該系數(shù)的估計值。Include"D:\LL\Samples\English\ridgeregression.sps"Ridgeregdep=raw/enterau1au22au33Include“spss\ridge/start=k/k=可以搜索的k解釋:根據(jù)KR2需最大的原則選擇最優(yōu)值。變化幅度較大,預(yù)示普通OLS估計會很差。注意問結(jié)構(gòu)方程模型:-1-3卡方,一般可以作為卡方分析原理H0:觀察頻數(shù)與期望頻數(shù)沒有差別。Pearson卡方計算公式:(( npii cWrriW單元格期望頻數(shù)小于5的過20%。Montecarlo(Mp值的無偏估計。MontecarloMontecarloMontecarlo,就相[0.40.750.4風險:OR(比數(shù)比)和RR(相對度,用于度量行列間的關(guān)聯(lián)強調(diào) 人數(shù))*--大于1表示試驗因素更容易導致結(jié)果為陽性--Cochran`sand rGamma指標,取值[-1Kendall′sTau-b指標,取值[-11]PQ/[n(n1)/Kendall′sTau-c dxy表示x為自變量,yPyyn表示總樣本,取值[01]PhiCramer′sV4格表里取值[01],而在其他列聯(lián)表里沒有上限。Cramer′sV是Phi的調(diào)整:取值在[01]。V1(c-fim是每一類x中,yFymy次數(shù)分布的眾數(shù)次數(shù)。取值介于[01],1表示自變量可以完全準確預(yù)測因變量,0表示自變量無法預(yù)測因變量。 二分類logistic案例分析:客戶違約信息研究,數(shù)據(jù)文件:①事件發(fā)生的概率:p0②事件不發(fā)生的概率:1③取odds=p/(1-p),并取自然對數(shù):logit(p)=ln[p/(1-④當P=0時,logit(p)=ln(0/1)取值負無窮大;當P=0.5logitp)=ln(0.5/0.50;當P=1時,logit(p)=ln(1/0)取值正無窮大。Ylogit(p)ln(p/1p)01X12X2LLpX 2LLpXb、logistic與probit②使用正態(tài)分布的累計概率probit模型相對“薄”尾,其殘差項服從正態(tài)分布。二元logistic擬然比檢驗:H0:兩種條件下對數(shù)擬然函數(shù)值無差別。Wald檢驗:用u檢驗或x2檢驗各個參數(shù)系數(shù)是否為0bjx2= bjj*--用于檢驗的統(tǒng)計量不是F檢驗,而是擬然比檢驗或Waldzp( Logit*(1-預(yù)測概率②1步驟塊 BExp步驟141111-1-1e-1111-1a.在步驟1中輸入的變量:age,ed,employ, e,debtinc,即,每增加1000元,違約的發(fā)生比是原來的1.553倍。Ed:Wals5.952p=0.203Ed(1),即Didnotcompletehighschool學歷相對Post-undergraduate注注與因變量的數(shù)量關(guān)系,這是個常量(類似于斜率。假如偏回歸系數(shù)隨該自變量單位改變量而發(fā)生變化的情況,即為非線性(常見是高階項;如果偏回歸系數(shù)不僅隨該自變量單用logistic。每個自變量作為因變量,其他自變量作為預(yù)測變量進行回歸,會得到一組R 自變量數(shù)。1-R2容差統(tǒng)計量,1/(1-R2VIF COOK距離=z2h1h);學生化殘差=d2COOK距j 偏離殘差difdev學生化殘差2,經(jīng)驗界值大于8異常

i主成分分。。。。。。。x→情況是形成一個 Z1a11

a21X

ap1X

X1=b11F1+b21F2+L+bm1Fm+Z2

X1+a22X

+L+ap2X

X2=b12F1+b22F2+L+bm2FmLLLLLLL

LLLLLLL2Z

X

X+L

Xp=b1pF1+b2pF2+L+bmpFm 1p

2

pX

Xa、特殊因子是一個不可觀測的假b、特殊因子 cd、bmp表示因子載荷,即公因子與原,a、KMO>0.9KMO>0.7KMO<0.6 KMOandBartlett's球形檢驗:KMOBartlett取樣足夠度的Kaiser-Meyer-Olkin度量

近似卡 Kaiser-Meyer-Olkin檢驗偏相關(guān)是否很小。Bartlett得分0,方差為估計因子得分和實際得分間相關(guān)的平方,因子得分Bartlett:因子得分均值為第一步:構(gòu)建聚類特征樹(clusterfeaturestree)將觀測值放在根節(jié)點處,然后使或*--有時指定了聚類數(shù),但觀測量較多,有可能使CFT長滿,而無法在生長。其他的噪聲 兩步算法,效果評 聚類觀測值數(shù)及其所占比IfA<BA=0thenB-A/B=1,IfA>BB=0thenB-A/A=1,變 在聚模 中的要 小排

RFM客戶價值模型RFM模型BultandWansbeek與1995年首次提出RFM,認為客戶行為三要素Recency(R),Frequency(F)與Monetary(M)構(gòu)成了潛力價值的組成部分。該模型經(jīng)常應(yīng)用于框架下的客戶行為分析,簡單、直接、效率也行可以更好的描述這個模型。ShanAli“Top”Customers–thetop1%ofactivecustomersintermsofRFM“Big”Customers–thenext4%ofactivecustomersintermsofRFM“Medium”Customers–thenext15%ofactivecustomersintermsofRFM“Small”Customers–theremaining80%ofactivecustomersintermsofRFMscore需要注意問題:定義R、F、M Monetary:客戶花了 ——R:R戶周期來定義R的分組問題,例如電視機的周期較長(如300天,分組區(qū)間最好大于周期,否則客戶價值無法體現(xiàn);——F:定義時間內(nèi),數(shù)量的多少。需要注意的是這里的數(shù)量,不一定是總數(shù),——M:定義時內(nèi),金額的多少。指標同F(xiàn)客戶行為框架中,R、F、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論