版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
SPSSModeler軟件新工科建設之路·數(shù)據(jù)科學與大數(shù)據(jù)系列公安大數(shù)據(jù)應用基礎第二章01SPSSModeler軟件概述SPSSModeler界面SPSSModeler的操作與數(shù)據(jù)挖掘的一般流程吻合,SPSSModeler形象地將這些環(huán)節(jié)表示成若干節(jié)點,將數(shù)據(jù)挖掘過程看成數(shù)據(jù)在各個節(jié)點之間的流動,并通過一個圖形化的“數(shù)據(jù)流”直觀地表示整個數(shù)據(jù)挖掘的過程。SPSSModeler的操作目的就是要建立一條或多條數(shù)據(jù)流,不斷修改和調整數(shù)據(jù)流中的節(jié)點及參數(shù),最后執(zhí)行數(shù)據(jù)流,完成整個數(shù)據(jù)挖掘任務。SPSSModeler軟件概述成功安裝并啟動SPSSModeler后,會出現(xiàn)SPSSModeler主窗口,如圖2-1所示。SPSSModeler軟件概述01020304數(shù)據(jù)流編輯區(qū)域位于主窗口中間,是建立和編輯SPSS
Modeler數(shù)據(jù)流的區(qū)域。數(shù)據(jù)流編輯區(qū)域SPSSModeler數(shù)據(jù)流是由多個節(jié)點組成的。節(jié)點工具箱窗格多個節(jié)點依次連接就形成了數(shù)據(jù)流。流管理窗格項目管理窗格位于主窗口的右下方,用戶可控制其“可見”或“不可見”的狀態(tài)。項目管理窗格SPSSModeler軟件概述(4)字段選項:存放針對字段操作的節(jié)點。選擇和管理節(jié)點:(5)圖形:存放展示數(shù)據(jù)分布特征和變量關系規(guī)律的可視化圖形節(jié)點。(1)收藏夾:存放數(shù)據(jù)流建立過程中常用的節(jié)點。(2)源:存放將各種外部數(shù)據(jù)讀入SPSSModeler的節(jié)點。(3)記錄選項:存放針對記錄操作的節(jié)點。SPSSModeler軟件概述數(shù)據(jù)流的基本管理和執(zhí)行(6)建模:存放建立各種數(shù)據(jù)模型的節(jié)點。(7)輸出:存放展示數(shù)據(jù)和數(shù)據(jù)基本統(tǒng)計特征的節(jié)點。(8)導出:存放將數(shù)據(jù)轉換成其他格式保存的節(jié)點。SPSSModeler軟件概述當數(shù)據(jù)流編輯區(qū)域中有兩個節(jié)點A、B時,可通過有向線段實現(xiàn)節(jié)點A、B之間的連接。連接操作的實現(xiàn)方式很靈活,包括:節(jié)點連接和連接調整(1)在節(jié)點A處,單擊鼠標右鍵,選擇快捷菜單中的“連接”選項或按快捷鍵F2,指定將節(jié)點A、B相連;(2)按住Alt鍵,拖動光標從節(jié)點A指向節(jié)點B,實現(xiàn)節(jié)點A、B之間的連接。SPSSModeler軟件概述節(jié)點間連接的調整也是經(jīng)常用到的操作。(1)刪除節(jié)點A、B之間的連接;(2)在已連接的兩個節(jié)點A、B之間插入一個節(jié)點C;(3)在已建立的數(shù)據(jù)流“A—B—C”上刪除節(jié)點B而使節(jié)點A、C直接連接。SPSSModeler軟件概述緩存節(jié)點緩存節(jié)點,顧名思義,就是能夠起到數(shù)據(jù)緩存作用的節(jié)點。超節(jié)點所謂超節(jié)點,就是由多個節(jié)點集成在一個節(jié)點中而形成的節(jié)點,它便于數(shù)據(jù)流的瀏覽和管理。節(jié)點映射節(jié)點映射功能就是為實現(xiàn)這個目標而設計的,它可方便地用新數(shù)據(jù)替換當前數(shù)據(jù)流中的舊數(shù)據(jù),實現(xiàn)對新數(shù)據(jù)進行同樣的處理和分析?!啊盨PSSModeler軟件概述數(shù)據(jù)流的其他管理SPSSModeler的數(shù)據(jù)流是依據(jù)數(shù)據(jù)挖掘的思路而建立的。通常,數(shù)據(jù)挖掘的過程可歸納為圖2-6所示的過程。SPSSModeler軟件概述SPSSModeler應用案例01020304具體步驟如下:(1)讀入數(shù)據(jù)。(2)瀏覽數(shù)據(jù)內(nèi)容。(3)觀察各變量的數(shù)據(jù)分布特征。SPSSModeler軟件概述(4)觀察服用不同藥物的病人唾液中Na、K的含量。(5)觀察服用不同藥物病人唾液中Na、K的濃度比例。(6)同血壓特征病人的藥物選擇。(7)全面分析決定藥物選擇的其他影響因素。(8)模型評價。SPSSModeler軟件概述02SPSSModeler數(shù)據(jù)的讀入變量的類型從數(shù)據(jù)挖掘角度從數(shù)據(jù)挖掘角度看,變量的類型反映了其代表事物的某種特征的類型。大千世界,萬物多姿多彩,事物特征類型繁多。從計量層次歸納,變量通常包括以下類型:數(shù)值型、定類型和定序型,后兩種類型統(tǒng)稱為分類型。SPSSModeler數(shù)據(jù)的讀入01020304為更細致地反映事物類型,SPSSModeler將變量進一步細分為以下類型:(1)連續(xù)數(shù)值型(Range)。(2)離散數(shù)值型(Discrete)。(3)二分類型(Flag)。SPSSModeler數(shù)據(jù)的讀入01020304(4)多分類型(Set)。(5)定序型(OrderedSet)。(6)默認型(Default),是一種尚未明確的變量類型。(7)無類型型(Typeless)。SPSSModeler數(shù)據(jù)的讀入從數(shù)據(jù)存儲角度從數(shù)據(jù)存儲角度看,變量類型反映了數(shù)據(jù)在計算機中的存儲方式。通常,不同類型變量存儲時所占用的字節(jié)數(shù)是不同的。SPSSModeler數(shù)據(jù)的讀入讀數(shù)據(jù)的節(jié)點放置在節(jié)點工具箱窗格的“源”選項卡中,如圖2-17所示。SPSSModeler數(shù)據(jù)的讀入讀數(shù)據(jù)讀自由格式的文本文件在自由格式的文本文件中,通常一行數(shù)據(jù)為一個樣本;每行數(shù)據(jù)有相同的列,分別依次對應不同的變量;列之間以逗號等分隔符分隔;變量名一般存儲在文件的第一行上。讀自由格式的文本文件應通過“源”選項卡中的變量文件節(jié)點實現(xiàn)。讀Excel電子表格文件Excel電子表格是極常見的數(shù)據(jù)存儲格式,通過“源”選項卡中的Excel節(jié)點可實現(xiàn)Excel電子表格文件的讀入。SPSSModeler數(shù)據(jù)的讀入SPSSModeler是一個高品質的統(tǒng)計分析軟件,其數(shù)據(jù)文件的擴展名為“.sav”。通過“源”選項卡中的Statistics文件節(jié)點可實現(xiàn)SPSS文件的讀入。讀SPSS文件SPSSModeler數(shù)據(jù)的讀入SPSSModeler通過ODBC方式訪問數(shù)據(jù)庫,需經(jīng)過兩個步驟完成:讀數(shù)據(jù)庫文件第一步,建立數(shù)據(jù)源;第二步,通過數(shù)據(jù)源訪問數(shù)據(jù)庫。SPSSModeler數(shù)據(jù)的讀入生成實驗方案數(shù)據(jù)在數(shù)據(jù)挖掘實驗中,數(shù)據(jù)的規(guī)律性是影響實驗結果的決定性因素,也是數(shù)據(jù)挖掘的目標之一。在實驗中,希望考察的實驗條件稱為實驗因素,實驗因素的具體取值稱為水平;衡量實驗結果好壞程度的指標稱為實驗指標。SPSSModeler數(shù)據(jù)的讀入數(shù)據(jù)的縱向合并數(shù)據(jù)的縱向合并是在數(shù)據(jù)尾部不斷追加樣本的過程。SPSSModeler實現(xiàn)該功能的節(jié)點是“記錄選項”選項卡中的追加節(jié)點。數(shù)據(jù)的橫向合并數(shù)據(jù)的橫向合并是在數(shù)據(jù)的右側不斷添加變量的過程。SPSSModeler實現(xiàn)該功能的節(jié)點是“記錄選項”選項卡中的合并節(jié)點。SPSSModeler數(shù)據(jù)的讀入數(shù)據(jù)合并03SPSSModeler數(shù)據(jù)的基本分析數(shù)據(jù)基本分析相應的節(jié)點放置在節(jié)點工具箱窗格的“輸出”選項卡和“圖形”選項卡中,如圖2-37和圖2-38所示。SPSSModeler數(shù)據(jù)的基本分析數(shù)據(jù)挖掘的首要任務是對數(shù)據(jù)質量進行考察。高質量數(shù)據(jù)是數(shù)據(jù)挖掘的前提和分析結論可靠性的保障。SPSSModeler對數(shù)據(jù)質量的考察指標主要包括數(shù)據(jù)缺失、數(shù)據(jù)離群值和極值兩大方面,具體操作包括數(shù)據(jù)中有效樣本比例的計算、變量中用戶缺失值比例的計算和處理、數(shù)據(jù)中離群值的診斷和處理等。數(shù)據(jù)質量SPSSModeler數(shù)據(jù)的基本分析不修正。無用距離離群值或極值最近的正常數(shù)據(jù)替代它們。強制直接刪除離群值或極值。丟棄SPSSModeler數(shù)據(jù)的基本分析無效用系統(tǒng)缺失值$null$替代離群值或極值。強制替換離群值/丟棄極值按照“強制”方法修正離群值,刪除極值。強制替換離群值/使極值無效按照“強制”方法修正離群值,用系統(tǒng)缺失值$null$替代極值?!啊盨PSSModeler數(shù)據(jù)的基本分析空白值和空值:表示將對空白值和系統(tǒng)缺失值$null$進行插補。缺失值的插補:條件:表示將對滿足指定條件的變量值進行插補。從不:不插補。空白值:表示將對空白值進行插補。空值:表示將對系統(tǒng)缺失值$null$進行插補。SPSSModeler數(shù)據(jù)的基本分析基本描述分析數(shù)據(jù)分析通常是從基本描述統(tǒng)計量開始的。對數(shù)值型變量,應計算基本描述統(tǒng)計量,以準確把握變量的集中趨勢和離散程度。描述集中趨勢的基本描述統(tǒng)計量一般有平均值、中位數(shù)、眾數(shù)等,描述離散程度的基本描述統(tǒng)計量包括方差、標準差、極差等。為分析數(shù)值型變量之間的相關程度,還可以計算簡單相關系數(shù)或者繪制散點圖。SPSSModeler數(shù)據(jù)的基本分析計算基本描述統(tǒng)計量這里,對電信客戶數(shù)據(jù)進行分析,目標是計算開通月數(shù)、基本費用、免費部分、無線費用的基本描述統(tǒng)計量,并計算上述變量與年齡、收入、家庭人數(shù)之間的簡單相關系數(shù),以反映變量之間的相關性。繪制散點圖還可以通過繪制散點圖的方法來進行數(shù)值型變量之間相關性的分析。SPSSModeler數(shù)據(jù)的基本分析統(tǒng)計建模常常要求變量服從正態(tài)分布,如果變量不服從正態(tài)分布,應對變量進行適當?shù)霓D換處理。應該采用怎樣的轉換處理方式呢?這無疑需要反復測試,且這個過程會比較煩瑣。SPSSModeler提供了直觀的圖形方式用于變量的轉換,大大縮短了變量分布探索的時間。變量分布探索SPSSModeler數(shù)據(jù)的基本分析二分類型相關性研究對二分類型相關性進行研究具有重要意義。例如,基于電信客戶數(shù)據(jù),可分析客戶流失與套餐類型、婚姻狀況、電子支付等是否相關。二分類型相關性研究可以從圖形分析入手,然后采用數(shù)值方法進行分析。SPSSModeler數(shù)據(jù)的基本分析兩總體的平均值比較兩總體的平均值比較以兩組樣本的對比為基礎,最終目標是利用兩組樣本,對樣本來自的兩總體的平均值是否存在顯著差異進行檢驗。例如,分析保留客戶和流失客戶的各種費用、家庭月收入、年齡等是否存在顯著差異。SPSS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年夏季食品安全整治專項行動實施方案
- 2026年齊齊哈爾高等師范??茖W校單招職業(yè)傾向性考試題庫及參考答案詳解1套
- 2026年淮北市第一中學公開引進學科競賽教練員(合肥站)6名考試重點題庫及答案解析
- 2026年武漢警官職業(yè)學院單招職業(yè)適應性考試題庫及參考答案詳解
- 證券IT項目主管的常見面試問題及答案解析
- 2026年廣西制造工程職業(yè)技術學院單招職業(yè)傾向性考試題庫及完整答案詳解1套
- 2026年昆明衛(wèi)生職業(yè)學院單招綜合素質考試題庫含答案詳解
- 2026山西崇安能源發(fā)展有限公司招聘45人考試重點題庫及答案解析
- 2026年昆明衛(wèi)生職業(yè)學院單招職業(yè)適應性考試題庫附答案詳解
- 2026年鄂爾多斯生態(tài)環(huán)境職業(yè)學院單招職業(yè)傾向性考試題庫附答案詳解
- 2025下半年貴州遵義市市直事業(yè)單位選調56人參考筆試題庫附答案解析
- 【試卷】吉林省松原市2025-2026學年八年級上學期12月期末測試道德與法治試題
- 車子棚出租協(xié)議書
- 云南民族大學附屬高級中學2026屆高三聯(lián)考卷(四)語文+答案
- 期末綜合測試卷一(試卷)2025-2026學年二年級語文上冊(統(tǒng)編版)
- 2025山東青島上合控股發(fā)展集團有限公司社會招聘31人參考筆試試題及答案解析
- 2025年大學康復治療學(運動療法學)試題及答案
- 胎膜早破的診斷與處理指南
- 進出口貨物報關單的填制教案
- 2024年廣東省春季高考(學考)語文真題(試題+解析)
- 2025年紀檢監(jiān)察知識試題庫(含答案)
評論
0/150
提交評論