商務(wù)數(shù)據(jù)分析技術(shù) 課件 項目一 數(shù)據(jù)分析概述_第1頁
商務(wù)數(shù)據(jù)分析技術(shù) 課件 項目一 數(shù)據(jù)分析概述_第2頁
商務(wù)數(shù)據(jù)分析技術(shù) 課件 項目一 數(shù)據(jù)分析概述_第3頁
商務(wù)數(shù)據(jù)分析技術(shù) 課件 項目一 數(shù)據(jù)分析概述_第4頁
商務(wù)數(shù)據(jù)分析技術(shù) 課件 項目一 數(shù)據(jù)分析概述_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

項目一Excel數(shù)據(jù)分析實例無錫商業(yè)職業(yè)技術(shù)學(xué)院李富數(shù)據(jù)分析基本概念隨著信息技術(shù)的高速發(fā)展和大數(shù)據(jù)時代的到來,數(shù)據(jù)已成為一種可以被反復(fù)利用的生產(chǎn)資料。數(shù)據(jù)的形式多樣,相應(yīng)的分析方法也各異。實際應(yīng)用中,常需要通過一系列合理的處理和分析,才能把數(shù)據(jù)中蘊含的信息提取出來,進(jìn)而產(chǎn)生實際的應(yīng)用價值。項目一主要介紹各種常見的數(shù)據(jù)形式和分析方法、數(shù)據(jù)分析的一般流程,以及數(shù)據(jù)分析在電商、交通、文化傳媒、能源、金融等領(lǐng)域的一些典型應(yīng)用案例。概述學(xué)

習(xí)目

標(biāo)知識目標(biāo)01技能目標(biāo)02素質(zhì)目標(biāo)03熟悉數(shù)據(jù)分析的概念及分類;了解數(shù)據(jù)分析的方法及流程,了解數(shù)據(jù)分析的應(yīng)用。理解數(shù)據(jù)分析的基本工具。具有數(shù)據(jù)分析思維,具有較好計算機(jī)素養(yǎng),具有較高知識綜合運用能力。學(xué)習(xí)導(dǎo)圖任務(wù)一

數(shù)據(jù)分析概念01任務(wù)描述大數(shù)據(jù)時代背景下,數(shù)據(jù)無處不在,同時又形式多樣。數(shù)據(jù)成為推動社會前進(jìn)的動力之一,合理的數(shù)據(jù)分析,能夠幫助人們提取出數(shù)據(jù)中蘊含的有價值信息,輔助人們做出合理決策,還可以用于運營和指導(dǎo)決策。1.數(shù)據(jù)概念是指描述事物的符號記錄,是構(gòu)成信息和知識的原材料。實際應(yīng)用中數(shù)據(jù)的形式多種多樣,除了數(shù)字,還可以是具有一定意義的文字、圖像、聲音、影像等。隨著信息技術(shù)的高速發(fā)展和大數(shù)據(jù)時代的到來,數(shù)據(jù)不再是社會生產(chǎn)的“副產(chǎn)物”,而是已經(jīng)成為可以被二次乃至多次加工利用的生產(chǎn)資料。原始的數(shù)據(jù)通常是雜亂無章、毫無規(guī)律的。為了從數(shù)據(jù)(data)中挖掘出有價值的信息(information),進(jìn)而形成結(jié)論或知識(knowledge),并幫助人們在特定的場景下做出合理的決策(智慧,wisdom),需要進(jìn)行相應(yīng)的數(shù)據(jù)分析。這四者的關(guān)系可以用DIKW金字塔結(jié)構(gòu)進(jìn)行表示。DIKW金字塔結(jié)構(gòu)2.數(shù)據(jù)分析是指采用適當(dāng)?shù)姆椒ê图夹g(shù)對收集得到的數(shù)據(jù)進(jìn)行探索和分析以提取有價值的信息并形成結(jié)論或知識的一系列過程。其目的是把隱藏在一大批看起來雜亂無章的數(shù)據(jù)中的信息萃取和提煉出來,以找出所研究對象的內(nèi)在特性或規(guī)律。在實踐中,數(shù)據(jù)分析可幫助人們定量地做出判斷,以便采取適當(dāng)?shù)臎Q策和行動。數(shù)據(jù)分析類型數(shù)據(jù)挖掘(datamining)關(guān)注數(shù)據(jù)建模與知識發(fā)現(xiàn)的過程。商務(wù)智能(businessintelligence)聚焦商業(yè)信息的提取與利用,通過將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為信息和知識,幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策,以實現(xiàn)商業(yè)價值。文本分析(textanalytics)關(guān)注非結(jié)構(gòu)化的文本數(shù)據(jù),綜合應(yīng)用統(tǒng)計學(xué)、語言學(xué)和結(jié)構(gòu)化分析等技術(shù)對文本數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)分析類型數(shù)據(jù)挖掘(datamining)關(guān)注數(shù)據(jù)建模與知識發(fā)現(xiàn)的過程。商務(wù)智能(businessintelligence)聚焦商業(yè)信息的提取與利用,通過將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為信息和知識,幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策,以實現(xiàn)商業(yè)價值。文本分析(textanalytics)關(guān)注非結(jié)構(gòu)化的文本數(shù)據(jù),綜合應(yīng)用統(tǒng)計學(xué)、語言學(xué)和結(jié)構(gòu)化分析等技術(shù)對文本數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)分析的分類數(shù)據(jù)分類的定義

數(shù)據(jù)分類就是把具有某種共同屬性或特征的數(shù)據(jù)歸并在一起,通過其類別的屬性或特征來對數(shù)據(jù)進(jìn)行區(qū)別。數(shù)據(jù)分析的分類1.1

數(shù)據(jù)分類的原則

(1)穩(wěn)定性:依據(jù)分類的目的,選擇分類對象的最穩(wěn)定的本質(zhì)特性作為分類的基礎(chǔ)和依據(jù),以確保由此產(chǎn)生的分類結(jié)果最穩(wěn)定(2)系統(tǒng)性:將選定的分類對象的特征(或特性)按其內(nèi)在規(guī)律系統(tǒng)化進(jìn)行排列,形成一個邏輯層次清晰、結(jié)構(gòu)合理、類目明確的分類體系。

數(shù)據(jù)分析的分類(3)可擴(kuò)充性:在類目的設(shè)置或?qū)蛹壍膭澐稚?,留有適當(dāng)?shù)挠嗟?,以保證分類對象增加時,不會打亂已經(jīng)建立的分類體系。

(4)綜合實用性:從實際需求出發(fā),綜合各種因素來確定具體的分類原則,使得由此產(chǎn)生的分類結(jié)果總體是最優(yōu)、符合需求、綜合實用和便于操作的。(5)兼容性:有相關(guān)的國家標(biāo)準(zhǔn)則應(yīng)執(zhí)行國家標(biāo)準(zhǔn),若沒有相關(guān)的國家標(biāo)準(zhǔn),則執(zhí)行相關(guān)的行業(yè)標(biāo)準(zhǔn);若二者均不存在,則應(yīng)參照相關(guān)的國際標(biāo)準(zhǔn)。原始的數(shù)據(jù)通常是雜亂無章、毫無規(guī)律的。為了從數(shù)據(jù)(data)中挖掘出有價值的信息(information),進(jìn)而形成結(jié)論或知識(knowledge),并幫助人們在特定的場景下做出合理的決策(智慧,wisdom),需要進(jìn)行相應(yīng)的數(shù)據(jù)分析。這四者的關(guān)系可以用DIKW金字塔結(jié)構(gòu)進(jìn)行表示。1.2數(shù)據(jù)分類的方法(1)按照計量尺度分類

數(shù)值型數(shù)據(jù)是指按定距或定比尺度計量形成的數(shù)據(jù),例如身高、體重、人均收入等,一般用數(shù)字表示。分類數(shù)據(jù),按照事物的某種屬性對其進(jìn)行分類或分組而得到的反映事物類型的數(shù)據(jù)。一般用文字表示,例如人群按照性別可以分為男性和女性兩類。

順序數(shù)據(jù)是指按定序尺度計量形成的數(shù)據(jù),是一種有序類別的非數(shù)值型數(shù)據(jù),一般用文字表示。有序的、可比較的,例如成績評定中的優(yōu)、良、中、差。

分類數(shù)據(jù)和順序數(shù)據(jù)通常需要通過數(shù)據(jù)預(yù)處理將其轉(zhuǎn)化為數(shù)字代碼表示(2)按照時間特征分類

按照被描述對象與時間的關(guān)系,數(shù)據(jù)可以分為橫截面數(shù)據(jù)、時間序列和面板數(shù)據(jù)。

橫截面數(shù)據(jù)是指在同一時間(時期或時點)截面上反映一個總體的一批或全部個體的特征變量的觀測值。

時間序列是指按照時間順序記錄的同一個(或一組)變量的一系列觀測值。

面板數(shù)據(jù)是將橫截面數(shù)據(jù)和時間序列綜合起來的一種數(shù)據(jù)類型,也稱時間序列一橫截面數(shù)據(jù),其具有時間序列和橫截面兩個維度。(3)按照收集方法分類

按照收集方法的不同,數(shù)據(jù)可以分為觀測數(shù)據(jù)和實驗數(shù)據(jù)。

觀測數(shù)據(jù)是指在自然的未被控制的條件下通過調(diào)查或觀測而收集得到的數(shù)據(jù)。例如,GDP、降雨量等有關(guān)社會經(jīng)濟(jì)或自然現(xiàn)象的統(tǒng)計數(shù)據(jù)基本上都是觀測數(shù)據(jù)。

實驗數(shù)據(jù)是指通過在實驗中控制實驗對象及其所處的實驗環(huán)境而收集得到的數(shù)據(jù),例如醫(yī)藥實驗數(shù)據(jù)、化學(xué)實驗數(shù)據(jù)等。(4)按照數(shù)據(jù)來源分類

按照來源的不同,數(shù)據(jù)可以分為直接數(shù)據(jù)和間接數(shù)據(jù)。直接數(shù)據(jù)也稱一手?jǐn)?shù)據(jù),是指針對給定的問題或目的,通過直接觀測、調(diào)查或?qū)嶒灥玫降臄?shù)據(jù)。間接數(shù)據(jù)通常是已經(jīng)存在并被收集好的數(shù)據(jù),只需要對這些數(shù)據(jù)進(jìn)行重新加工和整理便可以得到人們需要的或是可以使用的數(shù)據(jù)。2

數(shù)據(jù)分析方法的分類2.1以數(shù)理統(tǒng)計為基礎(chǔ),可以分為描述性分析、探索性分析和推斷性分析三大類。

描述性分析是借助各種描述指標(biāo)對數(shù)據(jù)進(jìn)行概要分析,以獲得反映客觀現(xiàn)象整體的各種定量特征,主要包括集中趨勢分析、離中趨勢分析和分布形狀分析。

探索性分析是一種數(shù)據(jù)驅(qū)動的分析方法,完全從客觀數(shù)據(jù)出發(fā),通過圖、表等可視化方式探索數(shù)據(jù)內(nèi)在的規(guī)律和模式。探索性分析能夠幫助人們檢查數(shù)據(jù)預(yù)處理的結(jié)果,理解數(shù)據(jù),并提出合理的數(shù)據(jù)分布和模型假設(shè)。

推斷性分析是指根據(jù)帶有隨機(jī)性的(樣本)觀測數(shù)據(jù),基于合理的(模型)假設(shè),對未知事物(總體)做出推斷,主要包括參數(shù)估計、假設(shè)檢驗、方差分析等。2.2根據(jù)分析目的的不同,數(shù)據(jù)分析分法可以分為回顧性分析和預(yù)測性分析

回顧性分析是以現(xiàn)在為結(jié)果,回溯過去的分析方法?;仡櫺苑治鍪轻t(yī)學(xué)和心理學(xué)常用的數(shù)據(jù)分析方法。

預(yù)測性分析的本質(zhì)是根據(jù)事物的過去和現(xiàn)在預(yù)測未來,即根據(jù)已知預(yù)測未知,從而減少對未來事物認(rèn)識的不確定性,以指導(dǎo)我們的決策行動,減少決策的盲目性。常用的預(yù)測性分析方法有回歸分析、分類分析、時間序列預(yù)測等。2.3

根據(jù)數(shù)據(jù)類型和特性的不同,數(shù)據(jù)分析方法可以分為:

數(shù)值型數(shù)據(jù)分析、分類型數(shù)據(jù)分析、順序型數(shù)據(jù)分析;橫截面數(shù)據(jù)分析、時間序列分析、面板數(shù)據(jù)分析;文本分析、語音分析、圖像分析、視頻分析等。任務(wù)二數(shù)據(jù)分析步驟02任務(wù)描述

在實際應(yīng)用中,數(shù)據(jù)分析可以幫助人們做出正確的判斷和合理的決策,在產(chǎn)品研發(fā)、設(shè)計、推廣和售后的整個生命周期中,從市場調(diào)研到售后服務(wù)等各個環(huán)節(jié)都需要進(jìn)行數(shù)據(jù)分析,以實現(xiàn)對用戶群體和市場的全面刻畫。企業(yè)的管理者需要通過市場調(diào)查和相應(yīng)的數(shù)據(jù)分析來掌握市場動向,從而制定合適的生產(chǎn)和銷售計劃。一個完整的數(shù)據(jù)分析過程包含多個不同的環(huán)節(jié),每個環(huán)節(jié)的作用各不相同,但整體卻密不可分。一般而言,數(shù)據(jù)分析的基本流程主要包括以下步驟:問題定義與數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、描述性與探索性分析、推斷性分析、基于模型與算法的分析、數(shù)據(jù)分析報告與應(yīng)用等,其中問題定義與數(shù)據(jù)收集是前提,數(shù)據(jù)預(yù)處理和描述性與探索性分析是基礎(chǔ),推斷性分析和基于模型與算法的分析是核心,數(shù)據(jù)分析報告與應(yīng)用是結(jié)果。一問題定義與數(shù)據(jù)收集1.1

問題定義

是確保數(shù)據(jù)分析過程有效性的一個基礎(chǔ)環(huán)節(jié),主要包含兩部分內(nèi)容:確定目標(biāo)和劃定邊界。

數(shù)據(jù)分析師和實際決策者應(yīng)根據(jù)具體應(yīng)用和實際決策的需求,確定數(shù)據(jù)分析的目標(biāo),這是數(shù)據(jù)分析流程順利進(jìn)行的先決條件。在定義問題時需要做出取舍,通過邊界劃定確定需要考慮的主要相關(guān)因素,而忽略那些我們認(rèn)為(或假設(shè))不重要的因素。其次要對問題進(jìn)行明確的、可量化的描述,需要將非量化的描述詞匯轉(zhuǎn)化為具有確定標(biāo)準(zhǔn)的可量化指標(biāo)。1.2

數(shù)據(jù)收集的概述

數(shù)據(jù)可以從各種不同的來源進(jìn)行獲取??梢詮闹付ǖ膬?nèi)部數(shù)據(jù)庫中進(jìn)行采集,采用爬蟲技術(shù)從互聯(lián)網(wǎng)上進(jìn)行爬取,利用環(huán)境中的傳感器(如攝像機(jī)、GPS等)進(jìn)行收集,或通過訪談和問卷調(diào)查進(jìn)行獲取等。1.3

問題定義與數(shù)據(jù)收集的關(guān)系

通過問題定義能夠指導(dǎo)人們進(jìn)行數(shù)據(jù)收集,采用實驗與觀測等方法從物理世界中獲取問題分析與求解所需的數(shù)據(jù)。同時,通過數(shù)據(jù)收集可以幫助人們理解業(yè)務(wù)、驗證問題定義的合理性,并幫助人們修正和完善問題的定義。二

數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指綜合運用數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換等多種處理方法,將各種原始數(shù)據(jù)加工成人們需要的標(biāo)準(zhǔn)的、干凈的數(shù)據(jù)的過程。

面對類型不同、質(zhì)量各異的數(shù)據(jù),數(shù)據(jù)分析師難以或是無法直接進(jìn)行數(shù)據(jù)分析,需要通過數(shù)據(jù)預(yù)處理檢測并糾正數(shù)據(jù)中損壞的或不準(zhǔn)確的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行變換以達(dá)到適應(yīng)或匹配模型需求的目的。二

數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)清理2.1.1數(shù)據(jù)清理概念

數(shù)據(jù)清理是指對數(shù)據(jù)進(jìn)行重新審查和校驗的過程,其目的是檢測并糾正損壞的或不準(zhǔn)確的數(shù)據(jù),為后續(xù)的分析提供干凈的、一致的數(shù)據(jù)。數(shù)據(jù)清理主要包括缺失值處理、異常值處理、不一致性糾正等。2.1.2數(shù)據(jù)清理方法

數(shù)據(jù)缺失處理:通常會根據(jù)變量的分布特性和變量的重要性(信息量和預(yù)測能力)采用不同的處理方法。常用的缺失值處理方法包括變量刪除、樣本刪除、定值填充、統(tǒng)計量填充、插值法填充模型填充、啞變量填充等異常值處理:處理的目的是對異常數(shù)據(jù)進(jìn)行檢測并去除或修正。常用的異常值檢測方法有簡單統(tǒng)計法(如箱形圖法)、基于距離的方法、基于密度的方法和基于聚類的方法等。常用的異常值處理方法有簡單刪除、對數(shù)變換、平均值替換、中位數(shù)替換等。2.1

數(shù)據(jù)清理2.1.1

數(shù)據(jù)清理概念

數(shù)據(jù)清理是指對數(shù)據(jù)進(jìn)行重新審查和校驗的過程,其目的是檢測并糾正損壞的或不準(zhǔn)確的數(shù)據(jù),為后續(xù)的分析提供干凈的、一致的數(shù)據(jù)。數(shù)據(jù)清理主要包括缺失值處理、異常值處理、不一致性糾正等。不一致性是指原始數(shù)據(jù)中包含矛盾的或不相容的數(shù)據(jù)或信息。

造成數(shù)據(jù)不一致性的主要原因有數(shù)據(jù)冗余、并發(fā)控制不當(dāng)、各種故障或錯誤等??梢酝ㄟ^定義一致性約束來檢測數(shù)據(jù)中的不一致性,也可以根據(jù)每個變量的合理取值范圍和相互關(guān)系來檢查數(shù)據(jù)是否符合要求,進(jìn)而找出那些超出正常范圍、邏輯不合理或者相互矛盾的數(shù)據(jù)。邏輯不一致的數(shù)據(jù)可能以多種形式出現(xiàn)。針對不一致數(shù)據(jù),可以根據(jù)關(guān)聯(lián)數(shù)據(jù)結(jié)合領(lǐng)域知識進(jìn)行糾正,也可以把不一致數(shù)據(jù)當(dāng)作缺失數(shù)據(jù),并采用缺失值處理方法進(jìn)行處理。2.2數(shù)據(jù)集成2.2.1數(shù)據(jù)集成的概念

數(shù)據(jù)集成是指將不同來源的數(shù)據(jù)進(jìn)行合并,以得到一個完整的、一致的數(shù)據(jù)集。數(shù)據(jù)集成是后續(xù)數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)。2.2.2數(shù)據(jù)集成的方法

模式映射是指將來自不同數(shù)據(jù)源的表示相同含義的字段或?qū)傩杂成錇橥侄?。在?shù)據(jù)庫中,例如針對學(xué)生編號,有的數(shù)據(jù)庫用“學(xué)號”,而有的則用“學(xué)生ID”。實體對齊的目標(biāo)是把不同數(shù)據(jù)源中同一實體的不同記錄進(jìn)行匹配和對齊。當(dāng)存在統(tǒng)一的唯一標(biāo)識時,例如用戶身份證號,可以通過標(biāo)識匹配進(jìn)行實體對齊。2.3數(shù)據(jù)歸約2.3.1數(shù)據(jù)規(guī)約的概念

數(shù)據(jù)歸約是指在盡可能保留數(shù)據(jù)所包含的有用信息的前提下,最大限度地精簡數(shù)據(jù)量。數(shù)據(jù)歸約主要包括特征歸約和樣本歸約,分別針對原始數(shù)據(jù)集中的屬性和記錄進(jìn)行歸約。2.3.2數(shù)據(jù)規(guī)約的方法

特征歸約,也稱維度歸約,是指從原有的特征集中刪除冗余的或不相關(guān)的特征,或是通過對特征進(jìn)行重組來減少特征的個數(shù),進(jìn)而降低數(shù)據(jù)維度。樣本歸約是指從數(shù)據(jù)集中選出一個具有代表性的樣本子集。常用的樣本歸約方法包括隨機(jī)抽樣、分層抽樣、系統(tǒng)抽樣等。2.4數(shù)據(jù)變換2.4.1數(shù)據(jù)變換的概念

數(shù)據(jù)變換是指對數(shù)據(jù)進(jìn)行變形和轉(zhuǎn)換,使其適用于后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘。數(shù)據(jù)變換主要包括數(shù)據(jù)規(guī)范化、數(shù)據(jù)離散化和類別編碼。2.4.2數(shù)據(jù)變換的方法

數(shù)據(jù)規(guī)范化是指將數(shù)據(jù)平移并按比例進(jìn)行縮放,以使其落入一個特定的范圍或區(qū)域。通過數(shù)據(jù)規(guī)范化可以去除數(shù)據(jù)的量綱限制,以實現(xiàn)對不同量綱的特征或指標(biāo)進(jìn)行綜合比較和分析。常用的數(shù)據(jù)規(guī)范化方法包括最小一最大(min-max)歸一化和Z-score標(biāo)準(zhǔn)化,前者根據(jù)特征數(shù)據(jù)的極值將其歸一化到[0,1]范圍,后者則根據(jù)特征數(shù)據(jù)的均值和標(biāo)準(zhǔn)差將其分布標(biāo)準(zhǔn)化成均值為0和標(biāo)準(zhǔn)差為1的分布。數(shù)據(jù)離散化是指通過數(shù)據(jù)分段將數(shù)值型數(shù)據(jù)轉(zhuǎn)化為類別型或順序型數(shù)據(jù)的過程。

其基本思想是通過對連續(xù)的數(shù)值區(qū)間進(jìn)行分段,以得到少量的子區(qū)間,并將每個子區(qū)間內(nèi)的數(shù)值映射到一個離散符號,進(jìn)而將連續(xù)數(shù)值型特征的取值離散化。例如,根據(jù)年齡將用戶分為兒童、少年、青年、中年和老年。

常用的數(shù)據(jù)離散化方法有等寬法、等頻法、聚類法和有監(jiān)督學(xué)習(xí)法。有效的數(shù)據(jù)離散化不僅能夠降低后續(xù)分析算法的計算時間和空間開銷,還能提高模型對樣本的區(qū)分能力和抗噪能力。類別編碼是指通過編碼變換將離散的類別型數(shù)據(jù)轉(zhuǎn)化為數(shù)值表示。常用的類別編碼方法有虛擬變量(dummyvariable)編碼和獨熱(one-hot)編碼。

虛擬變量又稱啞變量,是用來反映類別屬性的人工變量,通常為二值變量,取值為0或1。例如,針對類別型變量“性別”,可以構(gòu)造一個虛擬變量“is_男性”進(jìn)行表示,相應(yīng)的“男性”取值為1,“女性”取值為0。

獨熱編碼又稱一位有效編碼,其基本思想是使用n位狀態(tài)寄存器對n個可能狀態(tài)進(jìn)行編碼,每個狀態(tài)都有獨立的寄存器位,并且在任意時刻其中只有一位有效。例如,針對類別型變量“性別”,可以構(gòu)造一個二維的二進(jìn)制向量進(jìn)行表示,第一位表示“is_男性”第二位表示“is_女性”,相應(yīng)的“男性”取值為(1,0),而“女性”取值則為(0.1)。

若是類別型變量的可能取值數(shù)量較多,則可根據(jù)頻數(shù)將出現(xiàn)次數(shù)較少的取值統(tǒng)一歸為一類“rare”。這種稀疏化處理既有利于后續(xù)分析模型的快速收斂,又能提升模型的抗噪能力。三描述性分析3.1描述性分析概念

描述性分析是一種利用少量的綜合性描述指標(biāo)來概括大量原始數(shù)據(jù)的統(tǒng)計分析方法。描述性分析的目的是用簡潔有效的方式描述復(fù)雜煩瑣的數(shù)據(jù),以此來幫助用戶快速了解數(shù)據(jù)的整體情況和特征,例如最大值、最小值、中位數(shù)、均值和方差等。常用的描述性分析方法有集中趨勢分析、離中趨勢分析和分布形狀分析。3.2描述性分析方法集中趨勢是指變量觀測值向中心集中的趨勢,集中趨勢指標(biāo)分為兩大類:數(shù)值平均數(shù)和位置平均數(shù)。離中趨勢是指一組數(shù)據(jù)中各觀測值以不同程度偏離其中心(平均數(shù))的趨勢,常用的離中趨勢指標(biāo)有極差、平均差、方差、標(biāo)準(zhǔn)差、異眾比率、四分位差等。四

探索性分析4.1探索性分析概述

探索性分析是一種數(shù)據(jù)驅(qū)動的分析方法,它不依賴于任何分布假設(shè)和復(fù)雜理論,完全從客觀數(shù)據(jù)出發(fā),通過可視化方法探索數(shù)據(jù)內(nèi)在的規(guī)律和特性。4.2探索性分析的目標(biāo)

探索性分析主要有以下三個目標(biāo):

檢驗數(shù)據(jù)預(yù)處理結(jié)果理解數(shù)據(jù)的內(nèi)在規(guī)律確定有效的指標(biāo)及模型五

推斷性分析推斷性分析是指根據(jù)已知的(少量)樣本觀測數(shù)據(jù)對未知的(大量)總體特征做出科學(xué)判斷的分析方法,其推斷結(jié)果通常以概率形式表述。

推斷性分析的目標(biāo)是在只能獲取研究對象部分個體信息的情況下,推斷總體的特征或規(guī)律。五

推斷性分析六

基于模型與算法的分析對于一些簡單的問題,例如營銷效果影響因素分析、商品受眾分析等,人工通過探索性分析、描述性分析或簡單的推斷性分析就可以解決。

但對于一些復(fù)雜的問題,例如垃圾郵件識別、信用風(fēng)險預(yù)測、股票價格走勢預(yù)測等,難以或是無法通過人工完成,則需要采用基于模型與算法的分析方法進(jìn)行自動學(xué)習(xí)和推理。七

數(shù)據(jù)分析報告數(shù)據(jù)分析報告是建立在前期數(shù)據(jù)分析的基礎(chǔ)上,給出明確的結(jié)論并提出合理的建議或解決方案的最終交付物。一份好的數(shù)據(jù)分析報告,應(yīng)該有一個好的組織框架,并且圖文并茂、層次清晰,能夠讓讀者一目了然。

一份完整的數(shù)據(jù)分析報告至少應(yīng)包含研究背景、問題定義、數(shù)據(jù)說明、分析方法、結(jié)果與結(jié)論、方案與建議等內(nèi)容。任務(wù)三數(shù)據(jù)分析軟件03任務(wù)描述

大數(shù)據(jù)時代背景下,數(shù)據(jù)無處不在,同時又形式多樣。數(shù)據(jù)成為推動社會前進(jìn)的動力之一,合理的數(shù)據(jù)分析,能夠幫助人們提取出數(shù)據(jù)中蘊含的有價值信息,輔助人們做出合理決策,還可以用于運營和指導(dǎo)決策。一

數(shù)據(jù)分析軟件的背景1.1數(shù)據(jù)分析的廣泛應(yīng)用1.2數(shù)據(jù)分析軟件的必備性數(shù)據(jù)分析軟件是數(shù)學(xué)與計算機(jī)科學(xué)相結(jié)合的產(chǎn)物。為提高處理數(shù)據(jù)的準(zhǔn)確度和可行性,數(shù)據(jù)分析軟件成了大家必不可少的實用工具。雖然數(shù)據(jù)分析的工具千萬種,但綜合起來萬變不離其宗,主要是數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)計算、數(shù)據(jù)分析、數(shù)據(jù)展示等方面。二熱門數(shù)據(jù)分析軟件盤點2.1入門級Excel2.1.1MicrosoftExcel2.1.2WPSExcel2.2

R語言R語言用于統(tǒng)計分析、繪圖的語言和操作環(huán)境,是一個免費、源代碼開放的軟件,是用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。2.2.1發(fā)展歷史R語言是誕生于1980年的S語言的一個分支,S語言是由AT&T貝爾實驗室(AT&TBellLaboratories〉開發(fā)的一種用來進(jìn)行數(shù)據(jù)探索、統(tǒng)計分析和作圖的解釋型語言。最初S語言的實現(xiàn)版本主要是S-PLUS。S-PLUS是一個商業(yè)軟件,它基于S語言,并由MathSoft公司的統(tǒng)計科學(xué)部進(jìn)一步完善。R語言可以看作貝爾實驗室開發(fā)的S語言的一種實現(xiàn)。兩者在程序語法上可以說是幾乎一樣的,只是在函數(shù)方面有細(xì)微差別。通常用S語言編寫的代碼都可以不作修改地在R環(huán)境下運行。2.2.2

R語言的特點(1)R語言是自由軟件。這意味著它是完全免費,開放源代碼的。(2)R語言是一種可編程的語言。(3)所有R語言的函數(shù)和數(shù)據(jù)集是保存在程序包里面的。(4)R語言具有很強(qiáng)的互動性。除了圖形輸出是在另外的窗口,它的輸入輸出窗口都是在同一個窗口進(jìn)行的。2.2.4功能

R語言的功能包括:數(shù)據(jù)存儲和處理;數(shù)組運算(其向量、矩陣運算方面尤其強(qiáng)大);統(tǒng)計分析﹔統(tǒng)計制圖;用戶用簡便而強(qiáng)大的編程語言可操縱數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),可自定義功能。2.3SPSSSPSS(StatisticalProductandServiceSolutions,統(tǒng)計產(chǎn)品與服務(wù)解決方案),最初軟件全稱為“社會科學(xué)統(tǒng)計軟件包”(SolutionsStatisticalPackagefortheSocialSciences),隨著SPSS產(chǎn)品服務(wù)領(lǐng)域的擴(kuò)大和服務(wù)深度的增加,SPSS公司已于2000年正式將英文全稱更改為“統(tǒng)計產(chǎn)品與服務(wù)解決方案”,這標(biāo)志著SPSS的戰(zhàn)略方向做出重大調(diào)整。SPSS為IBM公司推出的一系列用于統(tǒng)計學(xué)分析運算、數(shù)據(jù)挖掘、預(yù)測分析和決策支持任務(wù)的軟件產(chǎn)品及相關(guān)服務(wù)的總稱,有Windows和MacOSX等版本。2.3.1發(fā)展歷史

SPSS是世界上最早的統(tǒng)計分析軟件,由美國斯坦福大學(xué)的三位研究生NormanH.Nie、C.Hadlai(Tex)Hull和DaleH.Bent于1968年開發(fā),并成立了SPSS公司,于1975年成立法人組織、在芝加哥組建了SPSS總部。2009年7月28日,IBM公司宣布用12億美元現(xiàn)金收購統(tǒng)計分析軟件提供商SIRSS公司,將其更名為IBMSPSSStatistics。2.3.2軟件功能

SPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計軟件,它最突出的特點就是操作界面極為友好,輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來,用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能,用對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能,精通統(tǒng)計分析原理,就可以使用該軟件為特定的科研工作服務(wù)。SPSS采用類似Excel表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便地從其他數(shù)據(jù)庫中讀入數(shù)據(jù)。其統(tǒng)計過程包括常用的、較為成熟的統(tǒng)計過程,完全可以滿足非統(tǒng)計專業(yè)人士的工作需要。SPSSforWindows是一個組合式軟件包,它集數(shù)據(jù)錄人、整理、分析功能于一身。

SPSS統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應(yīng)等幾大類,每類中又分好幾個統(tǒng)計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權(quán)估計、兩階段最小二乘法、非線性回歸等多個統(tǒng)計過程,而且每個過程中又允許用戶選擇不同的方法及參數(shù)。

SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。2.4Python

2.4.1

發(fā)展歷程Python的創(chuàng)始人為荷蘭人吉多·范羅蘇姆(GuidovanRossum)。1989年圣誕節(jié)期間,吉多為了打發(fā)圣誕節(jié)的無趣,決心開發(fā)一個新的腳本解釋程序,作為ABC語言的一種繼承。之所以選中Python(大蟒蛇)作為該編程語言的名字,是取自英國20世紀(jì)70年代首播的電視喜劇片《蒙提·派森的飛行馬戲團(tuán)》(MontyPython'sFlyingCircus)。Python已經(jīng)成為最受歡迎的程序設(shè)計語言之一。十分經(jīng)典的3個科學(xué)計算擴(kuò)展庫:NumPy、SciPy和matplotlib,它們分別為Python提供了快速數(shù)組處理、數(shù)值運算以及繪圖功能。2.4.4應(yīng)用系統(tǒng)編程圖形處理文本處理數(shù)據(jù)庫編程網(wǎng)絡(luò)編程Web編程多媒體應(yīng)用PYMO引擎黑客編程2.5EViewsEViews是EconometricsViews的縮寫,通常稱為計量經(jīng)濟(jì)學(xué)軟件包,是專門為大型機(jī)構(gòu)開發(fā)的、用以處理時間序列數(shù)據(jù)的時間序列軟件包。核心是設(shè)計模型、收集資料、估計模型、檢驗?zāi)P?、?yīng)用模型(結(jié)構(gòu)分析、經(jīng)濟(jì)預(yù)測、政策評價)。EViews的前身是1981年第1版的MicroTSP。雖然EViews是經(jīng)濟(jì)學(xué)家開發(fā)的,而且主要用于經(jīng)濟(jì)學(xué)領(lǐng)域,但是從軟件包的設(shè)計來看,EViews的運用領(lǐng)域并不局限于處理經(jīng)濟(jì)時間序列。即使是跨部門的大型項目,也可以采用Eviews進(jìn)行處理。EView

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論