第01章 數(shù)據(jù)描述性分析.ppt_第1頁
第01章 數(shù)據(jù)描述性分析.ppt_第2頁
第01章 數(shù)據(jù)描述性分析.ppt_第3頁
第01章 數(shù)據(jù)描述性分析.ppt_第4頁
第01章 數(shù)據(jù)描述性分析.ppt_第5頁
已閱讀5頁,還剩150頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第一章是數(shù)據(jù)描述性分析,寧波大學(xué)商學(xué)院數(shù)據(jù)分析的基本內(nèi)容,數(shù)據(jù)描述性分析非參數(shù)方法回歸分析主成分分析判別分析聚類分析時間序列分析貝葉斯統(tǒng)計分析,SAS軟件引入科林,隨著信息技術(shù)的快速發(fā)展特別是數(shù)據(jù)倉庫技術(shù)的廣泛應(yīng)用,企業(yè)擁有的數(shù)據(jù)量以幾何級數(shù)急劇增加。在這大量的數(shù)據(jù)和信息中,隱藏著企業(yè)運營的優(yōu)勢和劣勢。如果我們能夠快速有效地分析和處理這些海量的數(shù)據(jù)和信息,我們就能夠發(fā)現(xiàn)規(guī)律和模式,獲取企業(yè)決策所需的知識,幫助企業(yè)做出快速有效的經(jīng)營決策。柯林,SAS軟件入門,由SAS研究院有限公司于1976年創(chuàng)建。在過去的27年中,SAS軟件研究院一直致力于為金融、制藥、R&D、保險、電信、制造、政府、科研和教

2、育等提供服務(wù)?;赟AS數(shù)據(jù)倉庫、統(tǒng)計分析、在線分析處理系統(tǒng)、數(shù)據(jù)挖掘、Intranet和各種瘦客戶端的核心產(chǎn)品和技術(shù)。為各類企業(yè)提供客戶關(guān)系管理、信用風險分析與管理、企業(yè)綜合風險管理、數(shù)據(jù)倉庫、協(xié)同商務(wù)智能、企業(yè)平衡計分卡、電子商務(wù)智能、供應(yīng)關(guān)系管理、財務(wù)分析與報告、人力資源管理等商務(wù)智能和決策支持系統(tǒng)(DSS)解決方案。SAS軟件,在數(shù)據(jù)處理和統(tǒng)計分析領(lǐng)域,SAS系統(tǒng)已經(jīng)成為國際流行的標準企業(yè)管理軟件。美國財富雜志評選的500家最大公司中,90%以上都在使用SAS軟件。在北美,SAS廣泛應(yīng)用于所有金融公司、醫(yī)藥研發(fā)機構(gòu)和政府調(diào)查與監(jiān)管部門。特別是在加拿大的金融中心多倫多,每年都需要大量熟練

3、掌握和使用SAS的科技人員。SAS軟件SAS是一個龐大的系統(tǒng),由幾個功能模塊組成,每個模塊分別執(zhí)行不同的功能。SAS最初是為專業(yè)統(tǒng)計人員設(shè)計的(這與SPSS正好相反),所以初學(xué)者很難掌握它,因為編程。SAS軟件,SAS公司的統(tǒng)計分析和完善的數(shù)據(jù)挖掘產(chǎn)品的強大優(yōu)勢可以幫助用戶:客戶細分-確定最有利可圖的客戶群,并揭示信用風險管理的特點-通過準確的信用評分提高客戶利潤率平衡記分卡-企業(yè)平衡評分管理欺詐檢測-欺詐檢測客戶保留-客戶流失管理交叉銷售-組合銷售和其他需求SAS的目的是為所有需要數(shù)據(jù)處理和數(shù)據(jù)分析的非計算機工作者提供一個易于學(xué)習(xí)、完整和可靠的軟件系統(tǒng)。SAS語言本身是一種非過程語言(第四代

4、語言),類似于C語言,集成了各種高級語言的功能和靈活的格式,集成了數(shù)據(jù)處理和統(tǒng)計分析。SAS系統(tǒng)啟動和退出,啟動1雙擊桌面圖標2開始菜單中的執(zhí)行程序菜單項,程序編輯窗口,F(xiàn)5,輸出窗口,F(xiàn)7,日志窗口,F(xiàn)6,顯示管理系統(tǒng)的基本窗口。在程序編輯窗口中,您可以1輸入、編輯和提交程序語句,2打開以前存儲的程序,3將程序保存到文件中,并顯示管理系統(tǒng)的基本窗口。在日志窗口中,您可以看到系統(tǒng)在執(zhí)行提交的程序時生成的一些信息。在輸出窗口中,您可以瀏覽當前SAS程序生成的輸出結(jié)果。SAS模塊,SAS8.2的完整版本包含以下幾十個模塊。base、graph、ETS、FSP、AF、OR、IML、SHARE、QC、

5、stat、insight、analyst、assist、CONNECT、CPE、LAB、EIS、WAREHOUSE、PC文件格式、GIS、SPECTRAVIEW、SHARE*NET、R/3、OnlineTutor: SAS編程、MDDB服務(wù)器、IT服務(wù)視覺客戶端、IntrNet計算服務(wù)、企業(yè)報告器、MDDB服務(wù)器公共產(chǎn)品、企業(yè)挖掘器、應(yīng)用開發(fā)工作室、集成技術(shù)和其他常用模塊,包括BASE、GRAPH、STAT、INSIGHT、ASSIST和ANALYST模塊,它們執(zhí)行基本數(shù)據(jù)處理、繪圖、統(tǒng)計SAS系統(tǒng)啟動和退出,退出1選擇關(guān)閉按鈕;2執(zhí)行菜單命令文件退出.;在命令框中執(zhí)行BYE或ENDSAS命令

6、,并描述性地分析數(shù)據(jù)。數(shù)據(jù)分析的研究對象是數(shù)據(jù),數(shù)據(jù)是一種觀察值。如果這個觀察值是要研究的整個對象,那么數(shù)據(jù)分析的任務(wù)就是提取數(shù)據(jù)中包含的有用信息。如果數(shù)據(jù)是從總體中抽取的樣本,則有必要分析和推斷樣本中包含的總體信息。、均值、方差等數(shù)字特征,一維數(shù)據(jù)的數(shù)字特征主要有以下幾種。讓一個觀察值稱為樣本容量。1平均值:即平均值:平均值表示數(shù)據(jù)的集中位置。(matlab均值函數(shù))、均值、方差等數(shù)字特征,2方差、標準差和變異系數(shù)方差是描述數(shù)據(jù)值離散度的一種度量,其維數(shù)是數(shù)據(jù)維數(shù)的平方。數(shù)字特征,如標準偏差、均值、方差、變異系數(shù):描述數(shù)據(jù)相對離差的一種度量,CV校正平方和CSS未校正平方和USS、均值、方差

7、等。3偏差和峰度偏差和峰度是描述數(shù)據(jù)偏度和尾重的度量。它們與數(shù)據(jù)的時刻有關(guān)。數(shù)據(jù)的矩分為原點矩和中心矩。k階原點矩k階中心矩、均值、方差和其他數(shù)字特征,偏斜度,其中s為標準差。偏斜度是描述數(shù)據(jù)對稱性的指標。成對數(shù)據(jù)的偏度為0,右側(cè)較分散數(shù)據(jù)的偏度為正,左側(cè)較分散數(shù)據(jù)的偏度為負。偏斜度、均值和方差、峰度等數(shù)字特征當數(shù)據(jù)總體分布正常時,峰度約為0;當分布比正態(tài)分布的尾部更分散時,峰度為正,否則為負。峰度為正值時,兩邊都有更多的極端數(shù)據(jù);峰度為負時,兩邊的極端數(shù)據(jù)都很少。假設(shè)觀測數(shù)據(jù)是取自X總體的樣本,且該總體的分布函數(shù)為f。當X為離散分布時,該總體的分布可用概率分布表來表征;當總體是連續(xù)分布時,總

8、體的分布可以用概率密度來表征。連續(xù)分布中最重要的是正態(tài)分布,其概率密度和分布函數(shù)分別是、總體的數(shù)據(jù)特征,正態(tài)分布的總體成為正態(tài)總體。與樣本數(shù)字特征相對應(yīng)的總體數(shù)據(jù)特征是總體數(shù)字特征、總體平均總體方差總體標準差、總體變異系數(shù)、總體數(shù)據(jù)特征、總體原點矩(k階)、總體中心矩(k階)、總體偏度和總體峰度均基于相同方差的正態(tài)分布,并對總體分布的尾部進行比較,細尾、負峰度、正態(tài)分布、總峰度為0、粗尾、正峰度、總體數(shù)字特征和樣本數(shù)字特征。根據(jù)統(tǒng)計結(jié)果,樣本數(shù)字特征是相應(yīng)總數(shù)字特征的矩估計。當總數(shù)字特征存在時,相應(yīng)的樣本數(shù)字特征是總數(shù)字特征的一致估計,因此當n較大時,存在總數(shù)字特征和樣本數(shù)字特征。當觀測數(shù)據(jù)是

9、整個研究對象時,數(shù)據(jù)分布就是總分布。我們認為同樣有可能獲得每一個觀察到的數(shù)據(jù),也就是說;總體分布是離散和均勻的:在這種情況下,數(shù)據(jù)的數(shù)字特征,即總體數(shù)字特征,讓數(shù)據(jù)說話。SAS系統(tǒng)的基本操作和概念,數(shù)據(jù)集和庫統(tǒng)計的操作都是針對數(shù)據(jù)的,SAS中包含數(shù)據(jù)的文件稱為數(shù)據(jù)集,數(shù)據(jù)集包含在不同的庫中。SAS中有兩種類型的庫:永久庫和臨時庫。顧名思義,永久庫中的數(shù)據(jù)集是永久的(只要您不刪除它),而臨時庫中的數(shù)據(jù)集在您退出SAS后會自動刪除。對于SAS中的庫的概念,最簡單的理解是一個目錄,一個存儲數(shù)據(jù)集的目錄。SAS系統(tǒng)基本操作和基本概念,SAS程序概述SAS程序包括多個步驟和一些控制語句,一般包括數(shù)據(jù)步驟

10、和過程步驟,一個或多個,數(shù)據(jù)步驟或過程步驟,它們之間的任何組合都可以成為一個SAS程序,只要它能完成一個完整的功能。一般來說,SAS程序還包括一些全程語句,以控制程序在整個SAS程序中運行的某些選項、變量或環(huán)境。SAS系統(tǒng)基本操作和基本概念,SAS程序概述SAS程序語句一般以關(guān)鍵字開始,以分號結(jié)束,一條語句可以占用多行SAS語句,對字母大小寫不敏感。你可以根據(jù)你的個人習(xí)慣來決定大寫或小寫字母。SAS語句有兩個重要特征:1 .它通常以SAS關(guān)鍵字開頭;2.它總是以分號開始;結(jié)束,SAS語句是自由格式的,也就是說,1它們可以在任何列開始和結(jié)束,2一個語句可以由幾行組成,3幾個語句可以由空格或同一行

11、中SAS語句中單詞之間的特殊符號分隔。為了保存數(shù)據(jù)和方便操作,我習(xí)慣于指定我自己的庫名和它的路徑(目錄),因為在SAS系統(tǒng)中現(xiàn)有的永久庫(SASUSER)太麻煩和不方便使用。程序中使用的所有數(shù)據(jù)都可以永久存儲在這個路徑中,以便將來可以重用。指定庫名的語句是一個完整的過程語句,其格式如下:庫名庫名路徑;例如,我們指定的庫名是“a”,路徑是“e:data”,SAS語句如下:庫名a e:data,SAS程序概述,數(shù)據(jù)步驟SAS的數(shù)據(jù)步驟以數(shù)據(jù)語句開始,用于創(chuàng)建和處理數(shù)據(jù)集。數(shù)據(jù)語句以關(guān)鍵字“數(shù)據(jù)”開頭,格式如下:數(shù)據(jù)數(shù)據(jù)集名稱;示例:數(shù)據(jù)a . case;將在庫a中創(chuàng)建名為case的SAS數(shù)據(jù)集。語

12、句執(zhí)行后,您可以在庫a對應(yīng)的目錄中看到新創(chuàng)建的數(shù)據(jù)集文件case.通常,由數(shù)據(jù)語句指定的數(shù)據(jù)集以“庫名”的格式出現(xiàn)。數(shù)據(jù)集名稱”,或者它可以作為單獨的“數(shù)據(jù)集名稱”出現(xiàn)。此時,數(shù)據(jù)集系統(tǒng)默認為臨時庫中的數(shù)據(jù)集,退出系統(tǒng)后將被刪除。數(shù)據(jù)語句有兩個重要功能,標記數(shù)據(jù)步驟的開始和命名要創(chuàng)建的SAS數(shù)據(jù)集。除了數(shù)據(jù)語句之外,數(shù)據(jù)步驟通常還包括infile語句、input語句和datalines語句。它們在不同的數(shù)據(jù)輸入模式中使用不同。SAS程序概述,SAS程序有兩種常用的數(shù)據(jù)輸入方法,即從外部文件讀取和直接輸入。(1)外部文件讀取方法如果數(shù)據(jù)已經(jīng)包含在外部文件(文本文件或數(shù)據(jù)文件)中,此方法可用于將數(shù)

13、據(jù)輸入到數(shù)據(jù)集文件中。在上面介紹的數(shù)據(jù)語句之后,寫下以下語句:插入外部文件的位置和名稱選項;輸入變量名1變量名2變量名n;Infile語句用于從外部文件讀取數(shù)據(jù),必須出現(xiàn)在輸入語句之前。它的功能是指定一個包含原始數(shù)據(jù)的外部文件。Input語句用于向系統(tǒng)顯示如何讀取每個數(shù)據(jù)記錄。它的主要功能是:讀取語句指定的數(shù)據(jù)列,為相應(yīng)的數(shù)據(jù)字段定義變量名,以及確定變量的讀取模式。變量的名稱,最長8個字符,第一個字符必須是字母或下劃線,不允許有空格。特殊字符(如$,#)也不允許在SAS名稱中使用。合法的變量名,如:A1 abc name age total SAS系統(tǒng)保留的特殊變量名,以下劃線開頭和結(jié)尾。例如

14、,_N_和_ERROR_。例如,libname a e:data數(shù)據(jù)a .學(xué)生;infile e : data student . txt;輸入姓名身高體重;上述程序?qū)⒛夸洝癳:data”下的文本文件“student.txt”中的數(shù)據(jù)輸入到存儲在目錄“e:data”中的學(xué)生數(shù)據(jù)集中。SAS程序概述,(2)當數(shù)據(jù)量很小時采用這種輸入方法,在數(shù)據(jù)語句后寫下以下語句:輸入變量名1變量名2變量名n;數(shù)據(jù)線;(以前版本的卡,但兩者都可以在新版本中使用)(數(shù)據(jù)線)(數(shù)據(jù)線)(數(shù)據(jù)線);例如,libname a e:data數(shù)據(jù)a .學(xué)生;輸入名稱$ height weight(名稱后的$符號表示變量名是字

15、符變量)數(shù)據(jù)行;琳達171 51瑪麗168 50塞琳娜169 49;上述程序?qū)⒅苯觿?chuàng)建數(shù)據(jù)集文件student,它存儲在目錄“e:data”中。MEANS過程,*,PROC MEANS選項(選項)VAR變量名表;通過變量名表指定需求計算的數(shù)值變量和順序;根據(jù)它們的值組成多個觀察組,然后計算相應(yīng)的描述性統(tǒng)計(按變量需要排序)類變量名表;與“按”相似,但沒有預(yù)先排序,結(jié)果作為FREQ變量名的單個表輸出;輸出輸出=輸入數(shù)據(jù)系列頻率表數(shù)據(jù)時,使用SAS數(shù)據(jù)集統(tǒng)計關(guān)鍵字變量名表;在SAS中可計算的描述性統(tǒng)計的一些關(guān)鍵字及其含義,在SAS中可計算的描述性統(tǒng)計的一些關(guān)鍵字及其含義,例1.1,從19個塔上的普通盤形絕緣子測得的電導(dǎo)率()數(shù)據(jù)如下:9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論