版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章
數(shù)據(jù)預(yù)處理章澤武博士副教授聯(lián)系:統(tǒng)計(jì)學(xué)原理中數(shù)據(jù)預(yù)處理的內(nèi)容:
數(shù)據(jù)預(yù)處理是在對(duì)數(shù)據(jù)分類或分組之前所做的必要處理,內(nèi)容包括:數(shù)據(jù)的審核、數(shù)據(jù)的篩選、數(shù)據(jù)的排序、數(shù)據(jù)透視表等內(nèi)容。本課程中數(shù)據(jù)預(yù)處理的內(nèi)容:SAS的編程根底SAS的數(shù)據(jù)處理對(duì)象數(shù)據(jù)預(yù)處理的根本方法:數(shù)據(jù)整理、數(shù)據(jù)的分拆與合并、數(shù)據(jù)清洗、數(shù)據(jù)變換1.SAS編程根底1.1.SAS編程語言的根本結(jié)構(gòu)在SAS中可以利用“Editor”或“ProgramEditor”窗口書寫程序SAS語言結(jié)構(gòu)比較簡(jiǎn)單,主要由DATAstep和PROCstep組成。程序的每一行以“;”表示結(jié)束。一些全局變量的設(shè)置語句應(yīng)放在DATA步之前。其根本命令有:title“…”;libname…;data…;run;proc…;run;根本運(yùn)算符號(hào):=<>≤≥≠EqltgtlegeneDATA步〔數(shù)據(jù)步〕是SAS進(jìn)行數(shù)據(jù)管理和操作的根本步驟,其主要功能包括:建立SAS數(shù)據(jù)集,導(dǎo)入外部數(shù)據(jù)文件,分割、修改、合并、更新現(xiàn)有的SAS數(shù)據(jù)集,分析、呈現(xiàn)和管理數(shù)據(jù),利用數(shù)據(jù)集中已有數(shù)據(jù)計(jì)算或生成新的變量主要命令有:infile語句:從外部文件獲取數(shù)據(jù)input語句:為讀入的數(shù)據(jù)指定變量名及格式cards語句:用于在SAS系統(tǒng)中直接輸入數(shù)據(jù)PROC步〔過程步〕主要進(jìn)行相應(yīng)的數(shù)據(jù)處理和分析活動(dòng)主要命令有:data語句表示該P(yáng)ROC步所處理的數(shù)據(jù)集var語句表示處理該數(shù)據(jù)集中的特定變量Where語句表示指定系統(tǒng)處理符合一定條件或表達(dá)式的眼本By語句表示指定系統(tǒng)按照所列示的變量進(jìn)行分組處理,使用該語句時(shí),必須先對(duì)該語句中指定的變量進(jìn)行排序此外,常見的PROC過程還有:PRINT顯示數(shù)據(jù)集的變量名及變量值SORT對(duì)指定變量進(jìn)行排序MEANS對(duì)數(shù)值型變量進(jìn)行描述統(tǒng)計(jì)分析UNIVARIATE對(duì)數(shù)值型變量進(jìn)行描述統(tǒng)計(jì)分析FREQ對(duì)定序變量進(jìn)行描述統(tǒng)計(jì)分析CHART對(duì)指定變量繪制文本形式的圖形GCHART在“Graph”窗口中對(duì)指定變量繪制圖形結(jié)構(gòu)化編程語言SAS結(jié)構(gòu)化編程語句主要有順序語句、條件語句和循環(huán)語句。這三種根本形式的語句均可在DATA不和PROC步中使用。條件語句例1.比較X和Y兩個(gè)變量的大小。如果X>Y,那么輸出“X>Y”;如果X<Y,那么輸出“X<Y”;如果X=Y(jié),那么輸出“X=Y(jié)”。假定X=10,Y=20。循環(huán)語句:計(jì)數(shù)循環(huán)、當(dāng)循環(huán)、直到循環(huán)計(jì)數(shù)循環(huán):data;dox=toby;end;Put“y=”y;run;例:計(jì)算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和當(dāng)循環(huán):data;dowhile(限定條件)end;put“y=”y;run;例:計(jì)算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和。直到循環(huán):dountil(限定條件〕例:計(jì)算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和。例:在1~100以內(nèi)計(jì)算50以內(nèi)的奇數(shù)自然數(shù)之和。
2.SAS的數(shù)據(jù)處理對(duì)象數(shù)據(jù)庫和SAS數(shù)據(jù)集SAS數(shù)據(jù)庫SAS數(shù)據(jù)庫具體是指存放SAS數(shù)據(jù)文件的文件夾,它與計(jì)算機(jī)中某個(gè)具體的文件夾相對(duì)應(yīng)。SAS數(shù)據(jù)庫的分類:臨時(shí)庫:只有一個(gè),名為Work。每次啟動(dòng)SAS時(shí)自動(dòng)生成,關(guān)閉SAS時(shí)自動(dòng)被去除。永久庫:可以有多個(gè)。用戶可以自己指定永久庫的庫標(biāo)記。每次啟動(dòng)SAS,有三個(gè)數(shù)據(jù)庫是不可少的:SASUSERSASHELPWORK
SAS永久數(shù)據(jù)庫的建立
通過工具欄建立:
通過菜單方式建立:
資源管理器/邏輯庫/文件選項(xiàng)中的新建
通過命令的方式建立:dmlibassign
通過編程的方式建立:Libname例:建立一個(gè)名為“test”的永久數(shù)據(jù)庫,該數(shù)據(jù)庫對(duì)應(yīng)的文件夾所在的位置為“D:\Statistics\sas\sas9.2”Libnametest“D:\Statistics\sas\sas9.2”SAS數(shù)據(jù)集與SAS數(shù)據(jù)庫類似,SAS數(shù)據(jù)集也可以分為臨時(shí)數(shù)據(jù)集和永久數(shù)據(jù)集。可以是不超過8個(gè)字符的字符串,但第一個(gè)字符必須是字母。每一個(gè)數(shù)據(jù)集都有一個(gè)二級(jí)名字。第一級(jí)是庫標(biāo)記,第二級(jí)是數(shù)據(jù)集名,中間用“.”格開。調(diào)用永久數(shù)據(jù)庫中數(shù)據(jù)集時(shí),應(yīng)當(dāng)指定該數(shù)據(jù)集對(duì)應(yīng)的庫標(biāo)記,而調(diào)用臨時(shí)數(shù)據(jù)庫的數(shù)據(jù)集時(shí),那么可以省略庫標(biāo)記,直接引用即可。數(shù)據(jù)集的建立SAS變量的根本類型:數(shù)值型、字符型。默認(rèn)長(zhǎng)度為8字節(jié),對(duì)于實(shí)際數(shù)據(jù)中遇到的缺失值,SAS系統(tǒng)通常用“.”表示。通過菜單建立SAS數(shù)據(jù)集:1.解決方案\分析\交互式數(shù)據(jù)分析\insightsolutions\Analysis\interactivdataanalysis\insight2.解決方案\分析\分析家通過命令建立SAS數(shù)據(jù)集(假設(shè)是非數(shù)值變量,必須在變量名稱后空一格打上$)DATAname;INPUTvariable;CARDS;Datalines;RUN;學(xué)
號(hào)12345678910姓名張三李四王二劉五張二李三劉大劉二劉三劉四成績(jī)語文89787990958789697570數(shù)學(xué)8790897687896988789210名學(xué)生的期末考試成績(jī)?cè)囉肧AS/insight模塊、Analyst和SAS編程在SASUSER永久庫中建立名為“score”的SAS數(shù)據(jù)集,并且該數(shù)據(jù)包含“ID”〔學(xué)號(hào)〕、”“name”(姓名〕、literature”(語文)、“math”〔數(shù)學(xué)〕3個(gè)變量和10個(gè)觀測(cè)值。用編程方式輸入:DataSASUSER.score;Inputidname$literaturemath@@;Labelid=“學(xué)號(hào)”name=“姓名”literature=“語文”math=“數(shù)學(xué)”;Cards;8987278903798949076595878789789698698897578107092;Run;輸入@@表示按照input定義的變量順序依次連續(xù)讀入數(shù)據(jù),無論數(shù)據(jù)多少行,遇到“;”那么停止讀入數(shù)據(jù)。如果沒有@@符號(hào),表示系統(tǒng)按照行讀入數(shù)據(jù)。如果讀入字符型變量,需要變量名后空一格加上$符號(hào)。在已有數(shù)據(jù)集的情況下可以利用set語句對(duì)數(shù)據(jù)集進(jìn)行復(fù)制如在臨時(shí)性數(shù)據(jù)庫中建立一個(gè)臨時(shí)性文件scoreDatascore;SetSASUSER.score;Run;各地區(qū)普通高中根本情況地區(qū)學(xué)校數(shù)招生數(shù)在校學(xué)生數(shù)畢業(yè)生數(shù)教職工數(shù)專任老師數(shù)北京33893519274803665567634718672天津23072335198537526355522313105河北814464146129388731871434468667536山西56022829264726116327318667436985內(nèi)蒙古37217912647356811752512127424593遼寧46425860968519916984818022535586吉林29616990745163710110712302222302黑龍江47920331554679313944118518432648上海344106474313811910177622217832江蘇844494692137346535317733048882855請(qǐng)將上述數(shù)據(jù)用SAS/insight模塊、Analyst和SAS編程方式在永久性數(shù)據(jù)庫中建立DQGZ數(shù)據(jù)集SAS系統(tǒng)的外部數(shù)據(jù)文件
利用SAS\Importdata菜單進(jìn)行數(shù)據(jù)導(dǎo)入:利用編程來實(shí)現(xiàn)數(shù)據(jù)的導(dǎo)入:procimportdatafile=“D:\Macroeconomy.xls”out=SASUSER.PerCapitaData;sheet=“economy”;run;利用SAS/importData菜單將儲(chǔ)存在Excel.1中的數(shù)據(jù)導(dǎo)入,在SASUSER永久數(shù)據(jù)庫中建立名為“PerCapitaData”的SAS數(shù)據(jù)集。利用SAS程序?qū)?chǔ)存在Excel.1中的數(shù)據(jù)導(dǎo)入,在SASUSER永久數(shù)據(jù)庫中建立名為“PerCapitaData2”的SAS數(shù)據(jù)集。3.數(shù)據(jù)預(yù)處理原理和根本方法在數(shù)據(jù)預(yù)處理過程中,通常根據(jù)其自身特點(diǎn)把數(shù)據(jù)劃分為臟數(shù)據(jù)和凈數(shù)據(jù)。從廣義上看。臟數(shù)據(jù)是指沒有經(jīng)過數(shù)據(jù)預(yù)處理而直接接受到的、處于原始狀態(tài)的數(shù)據(jù);凈數(shù)據(jù)是指經(jīng)過一定的選取、清洗、變換等數(shù)據(jù)預(yù)處理之后可以直接作為統(tǒng)計(jì)分析對(duì)象的數(shù)據(jù)。臟數(shù)據(jù)依據(jù)不同的分析目的具有不同的定義。如在常見的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)是指不完整、含噪音、不一致的數(shù)據(jù)。在問卷調(diào)查中,臟數(shù)據(jù)通常是指不符合問卷要求的數(shù)據(jù)。12345678910某咨詢公司受某品牌汽車的委托,對(duì)該品牌汽車的滿意度狀況進(jìn)行了調(diào)查。其中對(duì)購置了該品牌汽車的消費(fèi)者有以下幾個(gè)典型問題。A1.你是否擁有某品牌的汽車1.是2.否〔停止問卷調(diào)查〕Q1.您對(duì)某品牌汽車總體滿意程度如何?請(qǐng)打分〔滿意程度越高,得分越高,反之得分越低〕。B1.您去年的平均月收入是多少?請(qǐng)選擇。1、3000元以下2、3000~50003、5000~80004、8000元以上B2.您家庭去年的平均月收入是多少?請(qǐng)選擇。1、3000元以下2、3000~50003、5000~80004、8000元以上IDQ1B1B21733282331035494451043663372487449534101124數(shù)據(jù)錄入人員對(duì)10份問卷進(jìn)行了數(shù)據(jù)錄入,錄入結(jié)果見下表
請(qǐng)利用編程方式將上述數(shù)據(jù)儲(chǔ)存在SASUSER數(shù)據(jù)庫中的Car數(shù)據(jù)集中。1、請(qǐng)利用編程方式,把例題中的數(shù)據(jù)儲(chǔ)存在SASUSER數(shù)據(jù)庫中的Car數(shù)據(jù)集中。2、請(qǐng)利用菜單和編程兩種方式將B1變量進(jìn)行降序排列3、請(qǐng)利用菜單形式將Q1調(diào)整為第一個(gè)變量,以加強(qiáng)數(shù)據(jù)分析人員對(duì)汽車滿意度打分的重視程度,并且把問卷編號(hào)變量“ID”作為最后一個(gè)變量。4、請(qǐng)?jiān)O(shè)定變量B1對(duì)應(yīng)值1、2、3、4的標(biāo)簽5、請(qǐng)用菜單和編程兩種方式刪除問卷編號(hào)“ID”的變量6、請(qǐng)將總體數(shù)據(jù)按照個(gè)人收入變量,即“B1”變量分拆至高手入和低收入兩個(gè)數(shù)據(jù)集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電機(jī)與電氣控制技術(shù) 課件 項(xiàng)目6 CA6150型臥式車床電氣控制電路的檢修
- 《GBT 14786-2008農(nóng)林拖拉機(jī)和機(jī)械 驅(qū)動(dòng)車輪扭轉(zhuǎn)疲勞試驗(yàn)方法》專題研究報(bào)告
- 《GBT 15306.3-2008陶瓷可轉(zhuǎn)位刀片 第3部分:無孔刀片尺寸(U級(jí))》專題研究報(bào)告
- 道路安全事故教育課件
- 2026年貴州省貴陽市高職單招英語試題含答案
- 2025-2026年西師版八年級(jí)地理上冊(cè)期末題庫試題附答案
- 2025-2026年蘇教版初三化學(xué)上冊(cè)期末試題解析+答案
- 2026年廣東省中山市重點(diǎn)學(xué)校高一數(shù)學(xué)分班考試試題及答案
- 迪愛生安全培訓(xùn)課件
- 邊境漁業(yè)安全培訓(xùn)班課件
- 2026年共青團(tuán)中央所屬單位高校畢業(yè)生公開招聘66人備考題庫及參考答案詳解
- 2025內(nèi)蒙古鄂爾多斯市委政法委所屬事業(yè)單位引進(jìn)高層次人才3人考試題庫含答案解析(奪冠)
- 2025-2026學(xué)年外研版八年級(jí)上冊(cè)英語期末模擬考試題(含答案)
- 洗衣液宣傳課件
- “五個(gè)帶頭”方面對(duì)照發(fā)言材料二
- TTAF 241.1-2024 支持衛(wèi)星通信的移動(dòng)智能終端技術(shù)要求和測(cè)試方法 第1部分:多模天通衛(wèi)星終端
- 奶茶品牌2026年新品研發(fā)上市流程
- 日常飲食營(yíng)養(yǎng)搭配
- 上海醫(yī)療收費(fèi)目錄
- 操作系統(tǒng)安全基礎(chǔ)的課件
- 人教版(2024)八年級(jí)上冊(cè)物理期末復(fù)習(xí)全冊(cè)知識(shí)點(diǎn)提綱
評(píng)論
0/150
提交評(píng)論