商務(wù)數(shù)據(jù)分析技術(shù) 課件全套 項(xiàng)目1-6 數(shù)據(jù)分析概述- 數(shù)據(jù)分析報(bào)告撰寫(xiě)_第1頁(yè)
商務(wù)數(shù)據(jù)分析技術(shù) 課件全套 項(xiàng)目1-6 數(shù)據(jù)分析概述- 數(shù)據(jù)分析報(bào)告撰寫(xiě)_第2頁(yè)
商務(wù)數(shù)據(jù)分析技術(shù) 課件全套 項(xiàng)目1-6 數(shù)據(jù)分析概述- 數(shù)據(jù)分析報(bào)告撰寫(xiě)_第3頁(yè)
商務(wù)數(shù)據(jù)分析技術(shù) 課件全套 項(xiàng)目1-6 數(shù)據(jù)分析概述- 數(shù)據(jù)分析報(bào)告撰寫(xiě)_第4頁(yè)
商務(wù)數(shù)據(jù)分析技術(shù) 課件全套 項(xiàng)目1-6 數(shù)據(jù)分析概述- 數(shù)據(jù)分析報(bào)告撰寫(xiě)_第5頁(yè)
已閱讀5頁(yè),還剩521頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目一Excel數(shù)據(jù)分析實(shí)例數(shù)據(jù)分析基本概念隨著信息技術(shù)的高速發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)已成為一種可以被反復(fù)利用的生產(chǎn)資料。數(shù)據(jù)的形式多樣,相應(yīng)的分析方法也各異。實(shí)際應(yīng)用中,常需要通過(guò)一系列合理的處理和分析,才能把數(shù)據(jù)中蘊(yùn)含的信息提取出來(lái),進(jìn)而產(chǎn)生實(shí)際的應(yīng)用價(jià)值。項(xiàng)目一主要介紹各種常見(jiàn)的數(shù)據(jù)形式和分析方法、數(shù)據(jù)分析的一般流程,以及數(shù)據(jù)分析在電商、交通、文化傳媒、能源、金融等領(lǐng)域的一些典型應(yīng)用案例。概述學(xué)

習(xí)目

標(biāo)知識(shí)目標(biāo)01技能目標(biāo)02素質(zhì)目標(biāo)03熟悉數(shù)據(jù)分析的概念及分類(lèi);了解數(shù)據(jù)分析的方法及流程,了解數(shù)據(jù)分析的應(yīng)用。理解數(shù)據(jù)分析的基本工具。具有數(shù)據(jù)分析思維,具有較好計(jì)算機(jī)素養(yǎng),具有較高知識(shí)綜合運(yùn)用能力。學(xué)習(xí)導(dǎo)圖任務(wù)一

數(shù)據(jù)分析概念01任務(wù)描述大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)無(wú)處不在,同時(shí)又形式多樣。數(shù)據(jù)成為推動(dòng)社會(huì)前進(jìn)的動(dòng)力之一,合理的數(shù)據(jù)分析,能夠幫助人們提取出數(shù)據(jù)中蘊(yùn)含的有價(jià)值信息,輔助人們做出合理決策,還可以用于運(yùn)營(yíng)和指導(dǎo)決策。1.數(shù)據(jù)概念是指描述事物的符號(hào)記錄,是構(gòu)成信息和知識(shí)的原材料。實(shí)際應(yīng)用中數(shù)據(jù)的形式多種多樣,除了數(shù)字,還可以是具有一定意義的文字、圖像、聲音、影像等。隨著信息技術(shù)的高速發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)不再是社會(huì)生產(chǎn)的“副產(chǎn)物”,而是已經(jīng)成為可以被二次乃至多次加工利用的生產(chǎn)資料。原始的數(shù)據(jù)通常是雜亂無(wú)章、毫無(wú)規(guī)律的。為了從數(shù)據(jù)(data)中挖掘出有價(jià)值的信息(information),進(jìn)而形成結(jié)論或知識(shí)(knowledge),并幫助人們?cè)谔囟ǖ膱?chǎng)景下做出合理的決策(智慧,wisdom),需要進(jìn)行相應(yīng)的數(shù)據(jù)分析。這四者的關(guān)系可以用DIKW金字塔結(jié)構(gòu)進(jìn)行表示。DIKW金字塔結(jié)構(gòu)2.數(shù)據(jù)分析是指采用適當(dāng)?shù)姆椒ê图夹g(shù)對(duì)收集得到的數(shù)據(jù)進(jìn)行探索和分析以提取有價(jià)值的信息并形成結(jié)論或知識(shí)的一系列過(guò)程。其目的是把隱藏在一大批看起來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息萃取和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在特性或規(guī)律。在實(shí)踐中,數(shù)據(jù)分析可幫助人們定量地做出判斷,以便采取適當(dāng)?shù)臎Q策和行動(dòng)。數(shù)據(jù)分析類(lèi)型數(shù)據(jù)挖掘(datamining)關(guān)注數(shù)據(jù)建模與知識(shí)發(fā)現(xiàn)的過(guò)程。商務(wù)智能(businessintelligence)聚焦商業(yè)信息的提取與利用,通過(guò)將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策,以實(shí)現(xiàn)商業(yè)價(jià)值。文本分析(textanalytics)關(guān)注非結(jié)構(gòu)化的文本數(shù)據(jù),綜合應(yīng)用統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)和結(jié)構(gòu)化分析等技術(shù)對(duì)文本數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)分析類(lèi)型數(shù)據(jù)挖掘(datamining)關(guān)注數(shù)據(jù)建模與知識(shí)發(fā)現(xiàn)的過(guò)程。商務(wù)智能(businessintelligence)聚焦商業(yè)信息的提取與利用,通過(guò)將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策,以實(shí)現(xiàn)商業(yè)價(jià)值。文本分析(textanalytics)關(guān)注非結(jié)構(gòu)化的文本數(shù)據(jù),綜合應(yīng)用統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)和結(jié)構(gòu)化分析等技術(shù)對(duì)文本數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)分析的分類(lèi)數(shù)據(jù)分類(lèi)的定義

數(shù)據(jù)分類(lèi)就是把具有某種共同屬性或特征的數(shù)據(jù)歸并在一起,通過(guò)其類(lèi)別的屬性或特征來(lái)對(duì)數(shù)據(jù)進(jìn)行區(qū)別。數(shù)據(jù)分析的分類(lèi)1.1

數(shù)據(jù)分類(lèi)的原則

(1)穩(wěn)定性:依據(jù)分類(lèi)的目的,選擇分類(lèi)對(duì)象的最穩(wěn)定的本質(zhì)特性作為分類(lèi)的基礎(chǔ)和依據(jù),以確保由此產(chǎn)生的分類(lèi)結(jié)果最穩(wěn)定(2)系統(tǒng)性:將選定的分類(lèi)對(duì)象的特征(或特性)按其內(nèi)在規(guī)律系統(tǒng)化進(jìn)行排列,形成一個(gè)邏輯層次清晰、結(jié)構(gòu)合理、類(lèi)目明確的分類(lèi)體系。

數(shù)據(jù)分析的分類(lèi)(3)可擴(kuò)充性:在類(lèi)目的設(shè)置或?qū)蛹?jí)的劃分上,留有適當(dāng)?shù)挠嗟兀员WC分類(lèi)對(duì)象增加時(shí),不會(huì)打亂已經(jīng)建立的分類(lèi)體系。

(4)綜合實(shí)用性:從實(shí)際需求出發(fā),綜合各種因素來(lái)確定具體的分類(lèi)原則,使得由此產(chǎn)生的分類(lèi)結(jié)果總體是最優(yōu)、符合需求、綜合實(shí)用和便于操作的。(5)兼容性:有相關(guān)的國(guó)家標(biāo)準(zhǔn)則應(yīng)執(zhí)行國(guó)家標(biāo)準(zhǔn),若沒(méi)有相關(guān)的國(guó)家標(biāo)準(zhǔn),則執(zhí)行相關(guān)的行業(yè)標(biāo)準(zhǔn);若二者均不存在,則應(yīng)參照相關(guān)的國(guó)際標(biāo)準(zhǔn)。原始的數(shù)據(jù)通常是雜亂無(wú)章、毫無(wú)規(guī)律的。為了從數(shù)據(jù)(data)中挖掘出有價(jià)值的信息(information),進(jìn)而形成結(jié)論或知識(shí)(knowledge),并幫助人們?cè)谔囟ǖ膱?chǎng)景下做出合理的決策(智慧,wisdom),需要進(jìn)行相應(yīng)的數(shù)據(jù)分析。這四者的關(guān)系可以用DIKW金字塔結(jié)構(gòu)進(jìn)行表示。1.2數(shù)據(jù)分類(lèi)的方法(1)按照計(jì)量尺度分類(lèi)

數(shù)值型數(shù)據(jù)是指按定距或定比尺度計(jì)量形成的數(shù)據(jù),例如身高、體重、人均收入等,一般用數(shù)字表示。分類(lèi)數(shù)據(jù),按照事物的某種屬性對(duì)其進(jìn)行分類(lèi)或分組而得到的反映事物類(lèi)型的數(shù)據(jù)。一般用文字表示,例如人群按照性別可以分為男性和女性兩類(lèi)。

順序數(shù)據(jù)是指按定序尺度計(jì)量形成的數(shù)據(jù),是一種有序類(lèi)別的非數(shù)值型數(shù)據(jù),一般用文字表示。有序的、可比較的,例如成績(jī)?cè)u(píng)定中的優(yōu)、良、中、差。

分類(lèi)數(shù)據(jù)和順序數(shù)據(jù)通常需要通過(guò)數(shù)據(jù)預(yù)處理將其轉(zhuǎn)化為數(shù)字代碼表示(2)按照時(shí)間特征分類(lèi)

按照被描述對(duì)象與時(shí)間的關(guān)系,數(shù)據(jù)可以分為橫截面數(shù)據(jù)、時(shí)間序列和面板數(shù)據(jù)。

橫截面數(shù)據(jù)是指在同一時(shí)間(時(shí)期或時(shí)點(diǎn))截面上反映一個(gè)總體的一批或全部個(gè)體的特征變量的觀測(cè)值。

時(shí)間序列是指按照時(shí)間順序記錄的同一個(gè)(或一組)變量的一系列觀測(cè)值。

面板數(shù)據(jù)是將橫截面數(shù)據(jù)和時(shí)間序列綜合起來(lái)的一種數(shù)據(jù)類(lèi)型,也稱時(shí)間序列一橫截面數(shù)據(jù),其具有時(shí)間序列和橫截面兩個(gè)維度。(3)按照收集方法分類(lèi)

按照收集方法的不同,數(shù)據(jù)可以分為觀測(cè)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)。

觀測(cè)數(shù)據(jù)是指在自然的未被控制的條件下通過(guò)調(diào)查或觀測(cè)而收集得到的數(shù)據(jù)。例如,GDP、降雨量等有關(guān)社會(huì)經(jīng)濟(jì)或自然現(xiàn)象的統(tǒng)計(jì)數(shù)據(jù)基本上都是觀測(cè)數(shù)據(jù)。

實(shí)驗(yàn)數(shù)據(jù)是指通過(guò)在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象及其所處的實(shí)驗(yàn)環(huán)境而收集得到的數(shù)據(jù),例如醫(yī)藥實(shí)驗(yàn)數(shù)據(jù)、化學(xué)實(shí)驗(yàn)數(shù)據(jù)等。(4)按照數(shù)據(jù)來(lái)源分類(lèi)

按照來(lái)源的不同,數(shù)據(jù)可以分為直接數(shù)據(jù)和間接數(shù)據(jù)。直接數(shù)據(jù)也稱一手?jǐn)?shù)據(jù),是指針對(duì)給定的問(wèn)題或目的,通過(guò)直接觀測(cè)、調(diào)查或?qū)嶒?yàn)得到的數(shù)據(jù)。間接數(shù)據(jù)通常是已經(jīng)存在并被收集好的數(shù)據(jù),只需要對(duì)這些數(shù)據(jù)進(jìn)行重新加工和整理便可以得到人們需要的或是可以使用的數(shù)據(jù)。2

數(shù)據(jù)分析方法的分類(lèi)2.1以數(shù)理統(tǒng)計(jì)為基礎(chǔ),可以分為描述性分析、探索性分析和推斷性分析三大類(lèi)。

描述性分析是借助各種描述指標(biāo)對(duì)數(shù)據(jù)進(jìn)行概要分析,以獲得反映客觀現(xiàn)象整體的各種定量特征,主要包括集中趨勢(shì)分析、離中趨勢(shì)分析和分布形狀分析。

探索性分析是一種數(shù)據(jù)驅(qū)動(dòng)的分析方法,完全從客觀數(shù)據(jù)出發(fā),通過(guò)圖、表等可視化方式探索數(shù)據(jù)內(nèi)在的規(guī)律和模式。探索性分析能夠幫助人們檢查數(shù)據(jù)預(yù)處理的結(jié)果,理解數(shù)據(jù),并提出合理的數(shù)據(jù)分布和模型假設(shè)。

推斷性分析是指根據(jù)帶有隨機(jī)性的(樣本)觀測(cè)數(shù)據(jù),基于合理的(模型)假設(shè),對(duì)未知事物(總體)做出推斷,主要包括參數(shù)估計(jì)、假設(shè)檢驗(yàn)、方差分析等。2.2根據(jù)分析目的的不同,數(shù)據(jù)分析分法可以分為回顧性分析和預(yù)測(cè)性分析

回顧性分析是以現(xiàn)在為結(jié)果,回溯過(guò)去的分析方法。回顧性分析是醫(yī)學(xué)和心理學(xué)常用的數(shù)據(jù)分析方法。

預(yù)測(cè)性分析的本質(zhì)是根據(jù)事物的過(guò)去和現(xiàn)在預(yù)測(cè)未來(lái),即根據(jù)已知預(yù)測(cè)未知,從而減少對(duì)未來(lái)事物認(rèn)識(shí)的不確定性,以指導(dǎo)我們的決策行動(dòng),減少?zèng)Q策的盲目性。常用的預(yù)測(cè)性分析方法有回歸分析、分類(lèi)分析、時(shí)間序列預(yù)測(cè)等。2.3

根據(jù)數(shù)據(jù)類(lèi)型和特性的不同,數(shù)據(jù)分析方法可以分為:

數(shù)值型數(shù)據(jù)分析、分類(lèi)型數(shù)據(jù)分析、順序型數(shù)據(jù)分析;橫截面數(shù)據(jù)分析、時(shí)間序列分析、面板數(shù)據(jù)分析;文本分析、語(yǔ)音分析、圖像分析、視頻分析等。任務(wù)二數(shù)據(jù)分析步驟02任務(wù)描述

在實(shí)際應(yīng)用中,數(shù)據(jù)分析可以幫助人們做出正確的判斷和合理的決策,在產(chǎn)品研發(fā)、設(shè)計(jì)、推廣和售后的整個(gè)生命周期中,從市場(chǎng)調(diào)研到售后服務(wù)等各個(gè)環(huán)節(jié)都需要進(jìn)行數(shù)據(jù)分析,以實(shí)現(xiàn)對(duì)用戶群體和市場(chǎng)的全面刻畫(huà)。企業(yè)的管理者需要通過(guò)市場(chǎng)調(diào)查和相應(yīng)的數(shù)據(jù)分析來(lái)掌握市場(chǎng)動(dòng)向,從而制定合適的生產(chǎn)和銷(xiāo)售計(jì)劃。一個(gè)完整的數(shù)據(jù)分析過(guò)程包含多個(gè)不同的環(huán)節(jié),每個(gè)環(huán)節(jié)的作用各不相同,但整體卻密不可分。一般而言,數(shù)據(jù)分析的基本流程主要包括以下步驟:?jiǎn)栴}定義與數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、描述性與探索性分析、推斷性分析、基于模型與算法的分析、數(shù)據(jù)分析報(bào)告與應(yīng)用等,其中問(wèn)題定義與數(shù)據(jù)收集是前提,數(shù)據(jù)預(yù)處理和描述性與探索性分析是基礎(chǔ),推斷性分析和基于模型與算法的分析是核心,數(shù)據(jù)分析報(bào)告與應(yīng)用是結(jié)果。一問(wèn)題定義與數(shù)據(jù)收集1.1

問(wèn)題定義

是確保數(shù)據(jù)分析過(guò)程有效性的一個(gè)基礎(chǔ)環(huán)節(jié),主要包含兩部分內(nèi)容:確定目標(biāo)和劃定邊界。

數(shù)據(jù)分析師和實(shí)際決策者應(yīng)根據(jù)具體應(yīng)用和實(shí)際決策的需求,確定數(shù)據(jù)分析的目標(biāo),這是數(shù)據(jù)分析流程順利進(jìn)行的先決條件。在定義問(wèn)題時(shí)需要做出取舍,通過(guò)邊界劃定確定需要考慮的主要相關(guān)因素,而忽略那些我們認(rèn)為(或假設(shè))不重要的因素。其次要對(duì)問(wèn)題進(jìn)行明確的、可量化的描述,需要將非量化的描述詞匯轉(zhuǎn)化為具有確定標(biāo)準(zhǔn)的可量化指標(biāo)。1.2

數(shù)據(jù)收集的概述

數(shù)據(jù)可以從各種不同的來(lái)源進(jìn)行獲取??梢詮闹付ǖ膬?nèi)部數(shù)據(jù)庫(kù)中進(jìn)行采集,采用爬蟲(chóng)技術(shù)從互聯(lián)網(wǎng)上進(jìn)行爬取,利用環(huán)境中的傳感器(如攝像機(jī)、GPS等)進(jìn)行收集,或通過(guò)訪談和問(wèn)卷調(diào)查進(jìn)行獲取等。1.3

問(wèn)題定義與數(shù)據(jù)收集的關(guān)系

通過(guò)問(wèn)題定義能夠指導(dǎo)人們進(jìn)行數(shù)據(jù)收集,采用實(shí)驗(yàn)與觀測(cè)等方法從物理世界中獲取問(wèn)題分析與求解所需的數(shù)據(jù)。同時(shí),通過(guò)數(shù)據(jù)收集可以幫助人們理解業(yè)務(wù)、驗(yàn)證問(wèn)題定義的合理性,并幫助人們修正和完善問(wèn)題的定義。二

數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指綜合運(yùn)用數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換等多種處理方法,將各種原始數(shù)據(jù)加工成人們需要的標(biāo)準(zhǔn)的、干凈的數(shù)據(jù)的過(guò)程。

面對(duì)類(lèi)型不同、質(zhì)量各異的數(shù)據(jù),數(shù)據(jù)分析師難以或是無(wú)法直接進(jìn)行數(shù)據(jù)分析,需要通過(guò)數(shù)據(jù)預(yù)處理檢測(cè)并糾正數(shù)據(jù)中損壞的或不準(zhǔn)確的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行變換以達(dá)到適應(yīng)或匹配模型需求的目的。二

數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)清理2.1.1數(shù)據(jù)清理概念

數(shù)據(jù)清理是指對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,其目的是檢測(cè)并糾正損壞的或不準(zhǔn)確的數(shù)據(jù),為后續(xù)的分析提供干凈的、一致的數(shù)據(jù)。數(shù)據(jù)清理主要包括缺失值處理、異常值處理、不一致性糾正等。2.1.2數(shù)據(jù)清理方法

數(shù)據(jù)缺失處理:通常會(huì)根據(jù)變量的分布特性和變量的重要性(信息量和預(yù)測(cè)能力)采用不同的處理方法。常用的缺失值處理方法包括變量刪除、樣本刪除、定值填充、統(tǒng)計(jì)量填充、插值法填充模型填充、啞變量填充等異常值處理:處理的目的是對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)并去除或修正。常用的異常值檢測(cè)方法有簡(jiǎn)單統(tǒng)計(jì)法(如箱形圖法)、基于距離的方法、基于密度的方法和基于聚類(lèi)的方法等。常用的異常值處理方法有簡(jiǎn)單刪除、對(duì)數(shù)變換、平均值替換、中位數(shù)替換等。2.1

數(shù)據(jù)清理2.1.1

數(shù)據(jù)清理概念

數(shù)據(jù)清理是指對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,其目的是檢測(cè)并糾正損壞的或不準(zhǔn)確的數(shù)據(jù),為后續(xù)的分析提供干凈的、一致的數(shù)據(jù)。數(shù)據(jù)清理主要包括缺失值處理、異常值處理、不一致性糾正等。不一致性是指原始數(shù)據(jù)中包含矛盾的或不相容的數(shù)據(jù)或信息。

造成數(shù)據(jù)不一致性的主要原因有數(shù)據(jù)冗余、并發(fā)控制不當(dāng)、各種故障或錯(cuò)誤等。可以通過(guò)定義一致性約束來(lái)檢測(cè)數(shù)據(jù)中的不一致性,也可以根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系來(lái)檢查數(shù)據(jù)是否符合要求,進(jìn)而找出那些超出正常范圍、邏輯不合理或者相互矛盾的數(shù)據(jù)。邏輯不一致的數(shù)據(jù)可能以多種形式出現(xiàn)。針對(duì)不一致數(shù)據(jù),可以根據(jù)關(guān)聯(lián)數(shù)據(jù)結(jié)合領(lǐng)域知識(shí)進(jìn)行糾正,也可以把不一致數(shù)據(jù)當(dāng)作缺失數(shù)據(jù),并采用缺失值處理方法進(jìn)行處理。2.2數(shù)據(jù)集成2.2.1數(shù)據(jù)集成的概念

數(shù)據(jù)集成是指將不同來(lái)源的數(shù)據(jù)進(jìn)行合并,以得到一個(gè)完整的、一致的數(shù)據(jù)集。數(shù)據(jù)集成是后續(xù)數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)。2.2.2數(shù)據(jù)集成的方法

模式映射是指將來(lái)自不同數(shù)據(jù)源的表示相同含義的字段或?qū)傩杂成錇橥侄?。在?shù)據(jù)庫(kù)中,例如針對(duì)學(xué)生編號(hào),有的數(shù)據(jù)庫(kù)用“學(xué)號(hào)”,而有的則用“學(xué)生ID”。實(shí)體對(duì)齊的目標(biāo)是把不同數(shù)據(jù)源中同一實(shí)體的不同記錄進(jìn)行匹配和對(duì)齊。當(dāng)存在統(tǒng)一的唯一標(biāo)識(shí)時(shí),例如用戶身份證號(hào),可以通過(guò)標(biāo)識(shí)匹配進(jìn)行實(shí)體對(duì)齊。2.3數(shù)據(jù)歸約2.3.1數(shù)據(jù)規(guī)約的概念

數(shù)據(jù)歸約是指在盡可能保留數(shù)據(jù)所包含的有用信息的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。數(shù)據(jù)歸約主要包括特征歸約和樣本歸約,分別針對(duì)原始數(shù)據(jù)集中的屬性和記錄進(jìn)行歸約。2.3.2數(shù)據(jù)規(guī)約的方法

特征歸約,也稱維度歸約,是指從原有的特征集中刪除冗余的或不相關(guān)的特征,或是通過(guò)對(duì)特征進(jìn)行重組來(lái)減少特征的個(gè)數(shù),進(jìn)而降低數(shù)據(jù)維度。樣本歸約是指從數(shù)據(jù)集中選出一個(gè)具有代表性的樣本子集。常用的樣本歸約方法包括隨機(jī)抽樣、分層抽樣、系統(tǒng)抽樣等。2.4數(shù)據(jù)變換2.4.1數(shù)據(jù)變換的概念

數(shù)據(jù)變換是指對(duì)數(shù)據(jù)進(jìn)行變形和轉(zhuǎn)換,使其適用于后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘。數(shù)據(jù)變換主要包括數(shù)據(jù)規(guī)范化、數(shù)據(jù)離散化和類(lèi)別編碼。2.4.2數(shù)據(jù)變換的方法

數(shù)據(jù)規(guī)范化是指將數(shù)據(jù)平移并按比例進(jìn)行縮放,以使其落入一個(gè)特定的范圍或區(qū)域。通過(guò)數(shù)據(jù)規(guī)范化可以去除數(shù)據(jù)的量綱限制,以實(shí)現(xiàn)對(duì)不同量綱的特征或指標(biāo)進(jìn)行綜合比較和分析。常用的數(shù)據(jù)規(guī)范化方法包括最小一最大(min-max)歸一化和Z-score標(biāo)準(zhǔn)化,前者根據(jù)特征數(shù)據(jù)的極值將其歸一化到[0,1]范圍,后者則根據(jù)特征數(shù)據(jù)的均值和標(biāo)準(zhǔn)差將其分布標(biāo)準(zhǔn)化成均值為0和標(biāo)準(zhǔn)差為1的分布。數(shù)據(jù)離散化是指通過(guò)數(shù)據(jù)分段將數(shù)值型數(shù)據(jù)轉(zhuǎn)化為類(lèi)別型或順序型數(shù)據(jù)的過(guò)程。

其基本思想是通過(guò)對(duì)連續(xù)的數(shù)值區(qū)間進(jìn)行分段,以得到少量的子區(qū)間,并將每個(gè)子區(qū)間內(nèi)的數(shù)值映射到一個(gè)離散符號(hào),進(jìn)而將連續(xù)數(shù)值型特征的取值離散化。例如,根據(jù)年齡將用戶分為兒童、少年、青年、中年和老年。

常用的數(shù)據(jù)離散化方法有等寬法、等頻法、聚類(lèi)法和有監(jiān)督學(xué)習(xí)法。有效的數(shù)據(jù)離散化不僅能夠降低后續(xù)分析算法的計(jì)算時(shí)間和空間開(kāi)銷(xiāo),還能提高模型對(duì)樣本的區(qū)分能力和抗噪能力。類(lèi)別編碼是指通過(guò)編碼變換將離散的類(lèi)別型數(shù)據(jù)轉(zhuǎn)化為數(shù)值表示。常用的類(lèi)別編碼方法有虛擬變量(dummyvariable)編碼和獨(dú)熱(one-hot)編碼。

虛擬變量又稱啞變量,是用來(lái)反映類(lèi)別屬性的人工變量,通常為二值變量,取值為0或1。例如,針對(duì)類(lèi)別型變量“性別”,可以構(gòu)造一個(gè)虛擬變量“is_男性”進(jìn)行表示,相應(yīng)的“男性”取值為1,“女性”取值為0。

獨(dú)熱編碼又稱一位有效編碼,其基本思想是使用n位狀態(tài)寄存器對(duì)n個(gè)可能狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有獨(dú)立的寄存器位,并且在任意時(shí)刻其中只有一位有效。例如,針對(duì)類(lèi)別型變量“性別”,可以構(gòu)造一個(gè)二維的二進(jìn)制向量進(jìn)行表示,第一位表示“is_男性”第二位表示“is_女性”,相應(yīng)的“男性”取值為(1,0),而“女性”取值則為(0.1)。

若是類(lèi)別型變量的可能取值數(shù)量較多,則可根據(jù)頻數(shù)將出現(xiàn)次數(shù)較少的取值統(tǒng)一歸為一類(lèi)“rare”。這種稀疏化處理既有利于后續(xù)分析模型的快速收斂,又能提升模型的抗噪能力。三描述性分析3.1描述性分析概念

描述性分析是一種利用少量的綜合性描述指標(biāo)來(lái)概括大量原始數(shù)據(jù)的統(tǒng)計(jì)分析方法。描述性分析的目的是用簡(jiǎn)潔有效的方式描述復(fù)雜煩瑣的數(shù)據(jù),以此來(lái)幫助用戶快速了解數(shù)據(jù)的整體情況和特征,例如最大值、最小值、中位數(shù)、均值和方差等。常用的描述性分析方法有集中趨勢(shì)分析、離中趨勢(shì)分析和分布形狀分析。3.2描述性分析方法集中趨勢(shì)是指變量觀測(cè)值向中心集中的趨勢(shì),集中趨勢(shì)指標(biāo)分為兩大類(lèi):數(shù)值平均數(shù)和位置平均數(shù)。離中趨勢(shì)是指一組數(shù)據(jù)中各觀測(cè)值以不同程度偏離其中心(平均數(shù))的趨勢(shì),常用的離中趨勢(shì)指標(biāo)有極差、平均差、方差、標(biāo)準(zhǔn)差、異眾比率、四分位差等。四

探索性分析4.1探索性分析概述

探索性分析是一種數(shù)據(jù)驅(qū)動(dòng)的分析方法,它不依賴于任何分布假設(shè)和復(fù)雜理論,完全從客觀數(shù)據(jù)出發(fā),通過(guò)可視化方法探索數(shù)據(jù)內(nèi)在的規(guī)律和特性。4.2探索性分析的目標(biāo)

探索性分析主要有以下三個(gè)目標(biāo):

檢驗(yàn)數(shù)據(jù)預(yù)處理結(jié)果理解數(shù)據(jù)的內(nèi)在規(guī)律確定有效的指標(biāo)及模型五

推斷性分析推斷性分析是指根據(jù)已知的(少量)樣本觀測(cè)數(shù)據(jù)對(duì)未知的(大量)總體特征做出科學(xué)判斷的分析方法,其推斷結(jié)果通常以概率形式表述。

推斷性分析的目標(biāo)是在只能獲取研究對(duì)象部分個(gè)體信息的情況下,推斷總體的特征或規(guī)律。五

推斷性分析六

基于模型與算法的分析對(duì)于一些簡(jiǎn)單的問(wèn)題,例如營(yíng)銷(xiāo)效果影響因素分析、商品受眾分析等,人工通過(guò)探索性分析、描述性分析或簡(jiǎn)單的推斷性分析就可以解決。

但對(duì)于一些復(fù)雜的問(wèn)題,例如垃圾郵件識(shí)別、信用風(fēng)險(xiǎn)預(yù)測(cè)、股票價(jià)格走勢(shì)預(yù)測(cè)等,難以或是無(wú)法通過(guò)人工完成,則需要采用基于模型與算法的分析方法進(jìn)行自動(dòng)學(xué)習(xí)和推理。七

數(shù)據(jù)分析報(bào)告數(shù)據(jù)分析報(bào)告是建立在前期數(shù)據(jù)分析的基礎(chǔ)上,給出明確的結(jié)論并提出合理的建議或解決方案的最終交付物。一份好的數(shù)據(jù)分析報(bào)告,應(yīng)該有一個(gè)好的組織框架,并且圖文并茂、層次清晰,能夠讓讀者一目了然。

一份完整的數(shù)據(jù)分析報(bào)告至少應(yīng)包含研究背景、問(wèn)題定義、數(shù)據(jù)說(shuō)明、分析方法、結(jié)果與結(jié)論、方案與建議等內(nèi)容。任務(wù)三數(shù)據(jù)分析軟件03任務(wù)描述

大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)無(wú)處不在,同時(shí)又形式多樣。數(shù)據(jù)成為推動(dòng)社會(huì)前進(jìn)的動(dòng)力之一,合理的數(shù)據(jù)分析,能夠幫助人們提取出數(shù)據(jù)中蘊(yùn)含的有價(jià)值信息,輔助人們做出合理決策,還可以用于運(yùn)營(yíng)和指導(dǎo)決策。一

數(shù)據(jù)分析軟件的背景1.1數(shù)據(jù)分析的廣泛應(yīng)用1.2數(shù)據(jù)分析軟件的必備性數(shù)據(jù)分析軟件是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。為提高處理數(shù)據(jù)的準(zhǔn)確度和可行性,數(shù)據(jù)分析軟件成了大家必不可少的實(shí)用工具。雖然數(shù)據(jù)分析的工具千萬(wàn)種,但綜合起來(lái)萬(wàn)變不離其宗,主要是數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)展示等方面。二熱門(mén)數(shù)據(jù)分析軟件盤(pán)點(diǎn)2.1入門(mén)級(jí)Excel2.1.1MicrosoftExcel2.1.2WPSExcel2.2

R語(yǔ)言R語(yǔ)言用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作環(huán)境,是一個(gè)免費(fèi)、源代碼開(kāi)放的軟件,是用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。2.2.1發(fā)展歷史R語(yǔ)言是誕生于1980年的S語(yǔ)言的一個(gè)分支,S語(yǔ)言是由AT&T貝爾實(shí)驗(yàn)室(AT&TBellLaboratories〉開(kāi)發(fā)的一種用來(lái)進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析和作圖的解釋型語(yǔ)言。最初S語(yǔ)言的實(shí)現(xiàn)版本主要是S-PLUS。S-PLUS是一個(gè)商業(yè)軟件,它基于S語(yǔ)言,并由MathSoft公司的統(tǒng)計(jì)科學(xué)部進(jìn)一步完善。R語(yǔ)言可以看作貝爾實(shí)驗(yàn)室開(kāi)發(fā)的S語(yǔ)言的一種實(shí)現(xiàn)。兩者在程序語(yǔ)法上可以說(shuō)是幾乎一樣的,只是在函數(shù)方面有細(xì)微差別。通常用S語(yǔ)言編寫(xiě)的代碼都可以不作修改地在R環(huán)境下運(yùn)行。2.2.2

R語(yǔ)言的特點(diǎn)(1)R語(yǔ)言是自由軟件。這意味著它是完全免費(fèi),開(kāi)放源代碼的。(2)R語(yǔ)言是一種可編程的語(yǔ)言。(3)所有R語(yǔ)言的函數(shù)和數(shù)據(jù)集是保存在程序包里面的。(4)R語(yǔ)言具有很強(qiáng)的互動(dòng)性。除了圖形輸出是在另外的窗口,它的輸入輸出窗口都是在同一個(gè)窗口進(jìn)行的。2.2.4功能

R語(yǔ)言的功能包括:數(shù)據(jù)存儲(chǔ)和處理;數(shù)組運(yùn)算(其向量、矩陣運(yùn)算方面尤其強(qiáng)大);統(tǒng)計(jì)分析﹔統(tǒng)計(jì)制圖;用戶用簡(jiǎn)便而強(qiáng)大的編程語(yǔ)言可操縱數(shù)據(jù)的輸入和輸出,可實(shí)現(xiàn)分支、循環(huán),可自定義功能。2.3SPSSSPSS(StatisticalProductandServiceSolutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案),最初軟件全稱為“社會(huì)科學(xué)統(tǒng)計(jì)軟件包”(SolutionsStatisticalPackagefortheSocialSciences),隨著SPSS產(chǎn)品服務(wù)領(lǐng)域的擴(kuò)大和服務(wù)深度的增加,SPSS公司已于2000年正式將英文全稱更改為“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”,這標(biāo)志著SPSS的戰(zhàn)略方向做出重大調(diào)整。SPSS為IBM公司推出的一系列用于統(tǒng)計(jì)學(xué)分析運(yùn)算、數(shù)據(jù)挖掘、預(yù)測(cè)分析和決策支持任務(wù)的軟件產(chǎn)品及相關(guān)服務(wù)的總稱,有Windows和MacOSX等版本。2.3.1發(fā)展歷史

SPSS是世界上最早的統(tǒng)計(jì)分析軟件,由美國(guó)斯坦福大學(xué)的三位研究生NormanH.Nie、C.Hadlai(Tex)Hull和DaleH.Bent于1968年開(kāi)發(fā),并成立了SPSS公司,于1975年成立法人組織、在芝加哥組建了SPSS總部。2009年7月28日,IBM公司宣布用12億美元現(xiàn)金收購(gòu)統(tǒng)計(jì)分析軟件提供商SIRSS公司,將其更名為IBMSPSSStatistics。2.3.2軟件功能

SPSS是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,它最突出的特點(diǎn)就是操作界面極為友好,輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來(lái),用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能,用對(duì)話框展示出各種功能選擇項(xiàng)。用戶只要掌握一定的Windows操作技能,精通統(tǒng)計(jì)分析原理,就可以使用該軟件為特定的科研工作服務(wù)。SPSS采用類(lèi)似Excel表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便地從其他數(shù)據(jù)庫(kù)中讀入數(shù)據(jù)。其統(tǒng)計(jì)過(guò)程包括常用的、較為成熟的統(tǒng)計(jì)過(guò)程,完全可以滿足非統(tǒng)計(jì)專(zhuān)業(yè)人士的工作需要。SPSSforWindows是一個(gè)組合式軟件包,它集數(shù)據(jù)錄人、整理、分析功能于一身。

SPSS統(tǒng)計(jì)分析過(guò)程包括描述性統(tǒng)計(jì)、均值比較、一般線性模型、相關(guān)分析、回歸分析、對(duì)數(shù)線性模型、聚類(lèi)分析、數(shù)據(jù)簡(jiǎn)化、生存分析、時(shí)間序列分析、多重響應(yīng)等幾大類(lèi),每類(lèi)中又分好幾個(gè)統(tǒng)計(jì)過(guò)程,比如回歸分析中又分線性回歸分析、曲線估計(jì)、Logistic回歸、Probit回歸、加權(quán)估計(jì)、兩階段最小二乘法、非線性回歸等多個(gè)統(tǒng)計(jì)過(guò)程,而且每個(gè)過(guò)程中又允許用戶選擇不同的方法及參數(shù)。

SPSS也有專(zhuān)門(mén)的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。2.4Python

2.4.1

發(fā)展歷程Python的創(chuàng)始人為荷蘭人吉多·范羅蘇姆(GuidovanRossum)。1989年圣誕節(jié)期間,吉多為了打發(fā)圣誕節(jié)的無(wú)趣,決心開(kāi)發(fā)一個(gè)新的腳本解釋程序,作為ABC語(yǔ)言的一種繼承。之所以選中Python(大蟒蛇)作為該編程語(yǔ)言的名字,是取自英國(guó)20世紀(jì)70年代首播的電視喜劇片《蒙提·派森的飛行馬戲團(tuán)》(MontyPython'sFlyingCircus)。Python已經(jīng)成為最受歡迎的程序設(shè)計(jì)語(yǔ)言之一。十分經(jīng)典的3個(gè)科學(xué)計(jì)算擴(kuò)展庫(kù):NumPy、SciPy和matplotlib,它們分別為Python提供了快速數(shù)組處理、數(shù)值運(yùn)算以及繪圖功能。2.4.4應(yīng)用系統(tǒng)編程圖形處理文本處理數(shù)據(jù)庫(kù)編程網(wǎng)絡(luò)編程Web編程多媒體應(yīng)用PYMO引擎黑客編程2.5EViewsEViews是EconometricsViews的縮寫(xiě),通常稱為計(jì)量經(jīng)濟(jì)學(xué)軟件包,是專(zhuān)門(mén)為大型機(jī)構(gòu)開(kāi)發(fā)的、用以處理時(shí)間序列數(shù)據(jù)的時(shí)間序列軟件包。核心是設(shè)計(jì)模型、收集資料、估計(jì)模型、檢驗(yàn)?zāi)P汀?yīng)用模型(結(jié)構(gòu)分析、經(jīng)濟(jì)預(yù)測(cè)、政策評(píng)價(jià))。EViews的前身是1981年第1版的MicroTSP。雖然EViews是經(jīng)濟(jì)學(xué)家開(kāi)發(fā)的,而且主要用于經(jīng)濟(jì)學(xué)領(lǐng)域,但是從軟件包的設(shè)計(jì)來(lái)看,EViews的運(yùn)用領(lǐng)域并不局限于處理經(jīng)濟(jì)時(shí)間序列。即使是跨部門(mén)的大型項(xiàng)目,也可以采用Eviews進(jìn)行處理。EViews的應(yīng)用領(lǐng)域涵蓋應(yīng)用經(jīng)濟(jì)計(jì)量學(xué)、總體經(jīng)濟(jì)的研究和預(yù)測(cè)、銷(xiāo)售預(yù)測(cè)、財(cái)務(wù)分析、成本分析和預(yù)測(cè)、蒙地卡羅模擬、經(jīng)濟(jì)模型的估計(jì)和仿真、利率與外匯預(yù)測(cè)等。任務(wù)四數(shù)據(jù)分析應(yīng)用04任務(wù)描述

對(duì)數(shù)據(jù)進(jìn)行合理的分析,能夠幫助人們挖掘出其中蘊(yùn)含的有價(jià)值信息,進(jìn)而輔助決策者做出高效、合理的決策。數(shù)據(jù)分析已廣泛應(yīng)用于電商、交通、文化傳媒、能源、金融等各個(gè)領(lǐng)域。電商數(shù)據(jù)分析一亞馬遜京東淘寶電子商務(wù)平臺(tái)在與用戶的交互過(guò)程中會(huì)累積海量的用戶行為數(shù)據(jù),包括點(diǎn)擊、瀏覽、購(gòu)買(mǎi)、評(píng)論等各種類(lèi)型的行為數(shù)據(jù)。通過(guò)分析這些數(shù)據(jù),可以對(duì)用戶進(jìn)行畫(huà)像,進(jìn)而幫助用戶從大量候選商品中快速地挑選出其需要且喜愛(ài)的商品,即實(shí)現(xiàn)“千人千面”的個(gè)性化推薦。個(gè)性化推薦已經(jīng)成為各種電商平臺(tái)的一種“標(biāo)配”,例如亞馬遜、京東、淘寶等。二

交通數(shù)據(jù)分析通過(guò)數(shù)據(jù)分析可以將各種類(lèi)型的交通數(shù)據(jù)進(jìn)行有效整合,以挖掘出各種數(shù)據(jù)之間的聯(lián)系,為用戶、交管部門(mén)和相關(guān)運(yùn)輸企業(yè)提供更及時(shí)、準(zhǔn)確的交通信息或服務(wù)。

車(chē)輛傳感器數(shù)據(jù)具有廣泛的應(yīng)用價(jià)值,可用于車(chē)險(xiǎn)、自動(dòng)駕駛、交通管理等不同領(lǐng)域。目前,基于數(shù)據(jù)分析的交通管理優(yōu)化、車(chē)輛和出行者的智能化服務(wù)已經(jīng)在交通應(yīng)急、安全保障和日常出行等場(chǎng)景中得到了實(shí)際應(yīng)用。能夠提高交通效率、解決交通擁堵、確保交通安全、減少環(huán)境污染。三

文化傳媒數(shù)據(jù)分析合理的數(shù)據(jù)分析能夠幫助人們進(jìn)行影視制作、文化宣傳、文案制作等,進(jìn)而推動(dòng)文化傳媒行業(yè)的轉(zhuǎn)型升級(jí)。

該系統(tǒng)基于用戶的視頻點(diǎn)播行為相關(guān)數(shù)據(jù),例如評(píng)分、播放、快進(jìn)、時(shí)間、地點(diǎn)、終端等,分析出用戶對(duì)影片的偏好,并為其提供個(gè)性化的推薦服務(wù)。四

能源數(shù)據(jù)分析合理的數(shù)據(jù)分析能夠幫助決策者優(yōu)化能源的生產(chǎn)、傳輸和利用等各個(gè)環(huán)節(jié),進(jìn)而提高能源的生產(chǎn)和使用效率,同時(shí)也能降低對(duì)環(huán)境的污染。

為了提高電能的利用效率,德國(guó)政府利用數(shù)據(jù)分析構(gòu)建了一套智能電網(wǎng)。通過(guò)電網(wǎng)系統(tǒng)每隔5分鐘或10分鐘收集一次數(shù)據(jù),并利用這些數(shù)據(jù)來(lái)預(yù)測(cè)客戶的用電習(xí)慣,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里整個(gè)電網(wǎng)大概需要多少電量?;趯?duì)用電量的預(yù)測(cè),可以更加高效地調(diào)整和優(yōu)化電力的生產(chǎn)調(diào)度,不僅可以降低用戶的用電成本,還能減少對(duì)能源的消耗和對(duì)環(huán)境的污染。五

金融數(shù)據(jù)分析合理的數(shù)據(jù)分析能夠輔助人們進(jìn)行金融投資決策,進(jìn)而獲得更高的投資收益。

量化投資就是一種基于數(shù)據(jù)分析和量化模型的投資方法。

數(shù)據(jù)分析還可以幫助金融機(jī)構(gòu)進(jìn)行風(fēng)險(xiǎn)管控和客戶關(guān)系管理。摩根大通銀行基于多方面的數(shù)據(jù),利用決策樹(shù)等數(shù)據(jù)分析技術(shù)對(duì)貸款客戶進(jìn)行建模和分析,有效降低了不良貸款率,并提高了提前還款的客戶率,感觀看謝數(shù)據(jù)分析指標(biāo)與模型

項(xiàng)目二Excel數(shù)據(jù)分析實(shí)例學(xué)習(xí)目標(biāo)知識(shí)目標(biāo)01技能目標(biāo)02素質(zhì)目標(biāo)03學(xué)習(xí)統(tǒng)計(jì)指標(biāo)、管理學(xué)模型、統(tǒng)計(jì)學(xué)模型進(jìn)行數(shù)據(jù)分析的思路。掌握數(shù)據(jù)分析的SPSS使用并可以自行構(gòu)建店鋪經(jīng)營(yíng)情況的評(píng)價(jià)指標(biāo)體系。促進(jìn)對(duì)數(shù)據(jù)倫理、精確性和客觀性的認(rèn)識(shí),強(qiáng)化對(duì)數(shù)據(jù)分析責(zé)任感的培養(yǎng)。學(xué)習(xí)導(dǎo)圖任務(wù)一統(tǒng)計(jì)指標(biāo)01任務(wù)目標(biāo)理解統(tǒng)計(jì)指數(shù)概念及其在社會(huì)經(jīng)濟(jì)分析中的應(yīng)用;掌握不同類(lèi)型的統(tǒng)計(jì)指數(shù)的計(jì)算方法;學(xué)會(huì)如何解讀和使用統(tǒng)計(jì)指數(shù)進(jìn)行定量分析。知識(shí)準(zhǔn)備1.熟悉基礎(chǔ)統(tǒng)計(jì)學(xué)基本概念。2.熟悉數(shù)據(jù)的分類(lèi)與類(lèi)型。一、數(shù)值平均數(shù)1.1

算數(shù)平均數(shù)算術(shù)平均數(shù)算術(shù)平均數(shù)(mean)也稱均值,記為,是反映集中趨勢(shì)最常用的指標(biāo),它反映一些數(shù)據(jù)必然性的特點(diǎn),包括簡(jiǎn)單算術(shù)平均數(shù)和加權(quán)算術(shù)平均數(shù)。算術(shù)平均數(shù)的基本計(jì)算是所有樣本數(shù)據(jù)之和除以樣本總數(shù),并日假設(shè)各樣本具有統(tǒng)一權(quán)重。其計(jì)算公式為:1.1

算數(shù)平均數(shù)(1)簡(jiǎn)單算數(shù)平均數(shù)n個(gè)測(cè)量值x1,x2,?,xn,集合的算術(shù)平均是測(cè)量值的平均值。一般用表示樣本均值(即n個(gè)測(cè)量值樣本的平均值),而希臘字母表示總體均值?!纠?-1】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月-11月的訪客數(shù)平均數(shù)為多少?解:在Excel中,我們可以使用“AVERAGE(B2:B184)”函數(shù),得出平均數(shù)為3400.448。1.1

算數(shù)平均數(shù)(2)加權(quán)算術(shù)平均數(shù)如果得到的是經(jīng)過(guò)整理后的分組頻數(shù)分布數(shù)據(jù),則應(yīng)使用加權(quán)算術(shù)平均數(shù)(weightedmean)來(lái)計(jì)算總體的均值。記,為第i組的組中值,為第i組的頻數(shù),則加權(quán)算術(shù)平均數(shù)的計(jì)算公式為【例1-2】某家淘寶店鋪一個(gè)月賣(mài)出的產(chǎn)品業(yè)績(jī)?nèi)绫硭荆瑔?wèn)該店鋪這個(gè)月賣(mài)出產(chǎn)品的平均價(jià)格為?產(chǎn)品價(jià)格/元銷(xiāo)量/件上衣15825褲子18010裙子64121.2

調(diào)和平均數(shù)(調(diào)和平均數(shù)(harmonicmean)也稱倒數(shù)平均數(shù),是總體各統(tǒng)計(jì)變量倒數(shù)的算術(shù)平均數(shù)的倒數(shù)。調(diào)和平均數(shù)是平均數(shù)的一種。調(diào)和平均數(shù)也有簡(jiǎn)單調(diào)和平均數(shù)和加權(quán)調(diào)和平均數(shù)兩種。(1)簡(jiǎn)單調(diào)和平均數(shù)簡(jiǎn)單調(diào)和平均數(shù)是簡(jiǎn)單算術(shù)平均數(shù)的變形。其計(jì)算公式為(2)加權(quán)調(diào)和平均數(shù)加權(quán)調(diào)和平均數(shù)是加權(quán)算術(shù)平均數(shù)的變形。它與加權(quán)算術(shù)平均數(shù)在實(shí)質(zhì)上是相同的,僅有形式上的區(qū)別,即表現(xiàn)為變量對(duì)稱的區(qū)別、權(quán)數(shù)對(duì)稱的區(qū)別和計(jì)算位置對(duì)稱的區(qū)別。其計(jì)算公式為在很多情況下,由于只掌握每組某個(gè)標(biāo)志的數(shù)值總和(m)而缺少總體單位數(shù)(f)的資料,不能直接計(jì)算加權(quán)算術(shù)平均數(shù),而改為計(jì)算加權(quán)調(diào)和平均數(shù)?!纠?-3】某淘寶店鋪進(jìn)購(gòu)了3批布匹,每批單價(jià)和采購(gòu)金額資料如表所示,求平均采購(gòu)價(jià)格。

單價(jià)/(元/千克)采購(gòu)金額/元布匹12010000布匹23012000布匹35020000合計(jì)

420001.3幾何平均數(shù)幾何平均數(shù)(geometricmean)是指n個(gè)觀測(cè)值連乘積的n次方根。根據(jù)資料的條件不同,幾何平均數(shù)有加權(quán)和不加權(quán)之分。當(dāng)某一事物的發(fā)展符合乘法原理時(shí),即一個(gè)變化是在前一個(gè)變化基礎(chǔ)上產(chǎn)生的,求其平均變化即可用此法。(1)簡(jiǎn)單幾何平均數(shù)簡(jiǎn)單幾何平均數(shù)公式為(2)加權(quán)幾何平均數(shù)

加權(quán)幾何平均數(shù)公式為例1-4】某店鋪?zhàn)罱?年的銷(xiāo)售額增長(zhǎng)率為1.5%、0.9%、0.7%、2.2%、1.7%,問(wèn)其年平均經(jīng)濟(jì)增長(zhǎng)率為多少?解:年平均增長(zhǎng)率為1.3幾何平均數(shù)(2)加權(quán)幾何平均數(shù)

加權(quán)幾何平均數(shù)公式為1.3幾何平均數(shù)【例1-4】某店鋪?zhàn)罱?年的銷(xiāo)售額增長(zhǎng)率為1.5%、0.9%、0.7%、2.2%、1.7%,問(wèn)其年平均經(jīng)濟(jì)增長(zhǎng)率為多少?解:年平均增長(zhǎng)率為二中位數(shù)中位數(shù)(median)是另外一種反映數(shù)據(jù)中心位置的指標(biāo),其確定方法是將各變量值由小到大順序排列,位于中間位置的變量值就是中位數(shù),通常記為M?!纠?-5】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月第一周的訪客數(shù)分別為1995、1316、1939、1911、1862、1925、1862,那么它們的中位數(shù)為多少?解:2023年6月第一周店鋪的訪客數(shù)從小到大排序?yàn)?316、1862、1862、1911、1925、1939、1995中位數(shù)為1911。三

四分位數(shù)四分位數(shù)是把變量值分成四部分的數(shù)值,它是一組變量值排序后處于25%和75%位置上的值。四分位數(shù)是通過(guò)3個(gè)點(diǎn)將全部變量值等分為4部分,其中每部分包含25%變量值個(gè)數(shù),顯然,中間的四分位數(shù)就是中位數(shù),因此,通常所說(shuō)的四分位數(shù)是指處在25%位置上的變量值(稱為下四分位數(shù))和處于75%位置上的變量值(稱為上四分位數(shù))。設(shè)下四分位數(shù)為Q,上四分位數(shù)為Q則四分位數(shù)的位置為【例1-6】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月-11月的訪客數(shù)中位數(shù)為多少?解:在Excel中,我們可以使用“QUARTILE(B2:B184,1)”函數(shù),得到下四分位數(shù)為1988,使用“QUARTILE(B2:B184,3)”函數(shù),得到上四分位數(shù)為4431。圖1-2Excel計(jì)算下四分位數(shù)圖1-3Excel計(jì)算上四分位數(shù)四眾數(shù)眾數(shù)(mode)是指總體中出現(xiàn)次數(shù)最多的變量值,它能明確反映數(shù)據(jù)分布的集中精勢(shì),通常用M0表示。眾數(shù)也是一種位置平均數(shù),不受極端變量值的影響。但并非所有變量值集合都有眾數(shù),也可能存在多個(gè)眾數(shù)?!纠?-7】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月-11月的訪客數(shù)眾數(shù)為多少?解:在Excel中,我們可以使用“MODE(B2:B184)”函數(shù),得出眾數(shù)為1953。圖1-4Excel計(jì)算眾數(shù)五

極差極差(range)也稱全距,是一組數(shù)據(jù)的最大值與最小值之差,通常記為R:其中,和分別為數(shù)據(jù)中的最大值和最小值。顯然,一組數(shù)據(jù)的差異越大,其極差也越大,它是數(shù)據(jù)離散或差異程度的最簡(jiǎn)單測(cè)度值【例1-8】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月-11月的訪客數(shù)極差為多少?六四分位差四分位差(quartiledeviation)也稱中點(diǎn)分布,是一組數(shù)據(jù)75%位置上的四分位數(shù)和25%位置上的四分位數(shù)的差,也就是上四分位數(shù)和下四分位數(shù)的差,記為Q,其計(jì)算公式為四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說(shuō)明中間的數(shù)據(jù)越集中;數(shù)值越大,說(shuō)明中間的數(shù)值越分散。四分位差測(cè)量的是中間50%數(shù)據(jù)的離散趨勢(shì),沒(méi)有考慮比Q1小、比Qu大的數(shù),所以不受極端值的影響。因此,四分位差的大小在一定程度上說(shuō)明了中位數(shù)對(duì)一組數(shù)據(jù)的代表程度?!纠?-9】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月-11月的訪客數(shù)中位數(shù)為多少?解:在【例1-6】Excel分析中,我們已經(jīng)使用“QUARTILE”函數(shù),得出下四分位數(shù)為1988,上四分位數(shù)為4431,所以四分位差為。七方差和標(biāo)準(zhǔn)差【例1-10】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月-11月的訪客數(shù)方差和標(biāo)準(zhǔn)差分別為多少?解:在Excel中,我們可以使用“VAR(B2:B184)”與“STDEV(B2:B184)”函數(shù),得出方差為2824621.96,標(biāo)準(zhǔn)差為1680.661。圖1-6Excel計(jì)算方差圖1-7Excel計(jì)算標(biāo)準(zhǔn)差八離散系數(shù)和異眾比率8.1

離散系數(shù)當(dāng)需要比較不同總體的離散程度時(shí),因使用的度量單位不同(如體重和身高),或它們的數(shù)量級(jí)相差很大(如大象和蜜蜂),用絕對(duì)值表示的標(biāo)準(zhǔn)差就缺乏可比性。因此,在對(duì)比分析中,不宜直接使用標(biāo)準(zhǔn)差來(lái)比較不同水平數(shù)列之間的標(biāo)志離散程度,必須用反映標(biāo)志變異程度的相對(duì)指標(biāo)來(lái)比較,即離散系數(shù)。離散系數(shù)(coefficientofvariation)也稱變異系數(shù)或標(biāo)準(zhǔn)差系數(shù),通常表示為,其計(jì)算公式為其中,為標(biāo)準(zhǔn)差,為算術(shù)平均數(shù)。【例1-11】以“2023版數(shù)據(jù)分析技術(shù)表.csv”為數(shù)據(jù),其中2023年6月-11月的訪客數(shù)離散系數(shù)為多少?解:在Excel中,我們可以使用“STDEV(B2:B184)/AVERAGE(B2:B184)”函數(shù),得出離散系數(shù)為0.494。圖1-6Excel計(jì)算方差圖1-8Excel計(jì)算離散系數(shù)8.2

異眾比率以上的變異指標(biāo)均只適用于定量數(shù)據(jù),對(duì)于定性數(shù)據(jù),可以計(jì)算異眾比率,來(lái)衡量集中趨勢(shì)值眾數(shù)的代表性。異眾比率是指非眾數(shù)值的次數(shù)之和在總次數(shù)中所占的比重,若用表示異眾比率,和分別表示眾數(shù)所在組的次數(shù)和總次數(shù),則異眾比率的計(jì)算公式為九偏度偏度是對(duì)數(shù)據(jù)對(duì)稱性的測(cè)度,測(cè)量偏度的統(tǒng)計(jì)量是偏度系數(shù)計(jì)算公式如下:其中,是樣本標(biāo)準(zhǔn)差的三次方。如果數(shù)據(jù)是對(duì)稱分布的,則偏度系數(shù)為0;如果偏度系數(shù)明顯不等于0,則數(shù)據(jù)是非對(duì)稱分布的;如果偏度系數(shù)大于1或者小于-1,則被稱為高度偏態(tài)分布。十峰態(tài)峰度是對(duì)數(shù)據(jù)分布平峰或尖峰程度的測(cè)量,測(cè)度峰度的統(tǒng)計(jì)量是峰度系數(shù),計(jì)算公式如下:峰度通常是與標(biāo)準(zhǔn)正態(tài)分布相比較的.任務(wù)二數(shù)據(jù)分析常用統(tǒng)計(jì)學(xué)模型02任務(wù)描述相關(guān)與回歸分析發(fā)展至今已有200多年的歷史,應(yīng)用范圍十分廣泛,尤其是在經(jīng)濟(jì)領(lǐng)域中得到了廣泛應(yīng)用?,F(xiàn)代經(jīng)濟(jì)學(xué)中影響最大的一門(mén)獨(dú)立科學(xué)是計(jì)量經(jīng)濟(jì)學(xué),諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者薩繆爾森曾這樣評(píng)價(jià)計(jì)量經(jīng)濟(jì)學(xué):二戰(zhàn)后的經(jīng)濟(jì)學(xué)是計(jì)量經(jīng)濟(jì)學(xué)的時(shí)代。本節(jié)我們將站在計(jì)量經(jīng)濟(jì)學(xué)的角度介紹數(shù)據(jù)分析常用的統(tǒng)計(jì)模型,為學(xué)生后期從事經(jīng)濟(jì)管理相關(guān)工作奠定基礎(chǔ)。任務(wù)目標(biāo)1.熟悉常見(jiàn)的數(shù)據(jù)分析統(tǒng)計(jì)學(xué)步驟。2.掌握數(shù)據(jù)的描述統(tǒng)計(jì)、聚類(lèi)統(tǒng)計(jì)、相關(guān)分析與回歸分析。知識(shí)準(zhǔn)備

1.具備平均值、方差、標(biāo)準(zhǔn)差等等相關(guān)統(tǒng)計(jì)專(zhuān)業(yè)知識(shí)。一相關(guān)分析3.1

相關(guān)關(guān)系類(lèi)型現(xiàn)象之間的相關(guān)關(guān)系錯(cuò)綜復(fù)雜,從不同的角度可以區(qū)分為不同類(lèi)型(1)按照相關(guān)關(guān)系涉及變量(或因素)的多少分為單相關(guān)、復(fù)相關(guān)和偏相關(guān)。單相關(guān),又稱一元相關(guān),是指兩個(gè)變量之間的相關(guān)關(guān)系。復(fù)相關(guān),又稱多元相關(guān),是指三個(gè)或三個(gè)以上變量之間的相關(guān)關(guān)系。偏相關(guān),是指在一個(gè)變量與兩個(gè)或兩個(gè)以上的變量相關(guān)的條件下,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量的相關(guān)關(guān)系。一相關(guān)分析3.1

相關(guān)關(guān)系類(lèi)型(2)按照相關(guān)形式不同分為線性相關(guān)和非線性相關(guān)線性相關(guān),又稱直線相關(guān),是指當(dāng)一個(gè)變量變動(dòng)時(shí),另一變量隨之發(fā)生大致均等的變動(dòng),從圖形上看,其觀察點(diǎn)的分布近似表現(xiàn)為一條直線。非線性相關(guān)是指一個(gè)變量變動(dòng)時(shí),另一變量也隨之發(fā)生變動(dòng),但這種變動(dòng)不是均等的,從圖形上看,其觀察點(diǎn)的分布近似表現(xiàn)為一條曲線。一相關(guān)分析3.1

相關(guān)關(guān)系類(lèi)型(3)按照相關(guān)現(xiàn)象變化的方向不同分為正相關(guān)和負(fù)相關(guān)正相關(guān)是指當(dāng)一個(gè)變量的值增加(減少)時(shí),另一個(gè)變量的值也隨之增加(減少),即相關(guān)的兩個(gè)變量發(fā)生同方向的變化。負(fù)相關(guān)是指當(dāng)一個(gè)變量的值增加(減少)時(shí),另一個(gè)變量的值反而減少(增加),即兩個(gè)變量發(fā)生反方向變化。一相關(guān)分析3.1

相關(guān)關(guān)系類(lèi)型(4)按相關(guān)程度分為完全相關(guān)、不相關(guān)、不完全相關(guān)完全相關(guān)是指當(dāng)一個(gè)變量的數(shù)量大小完全由另一個(gè)變量的數(shù)量變化所確定時(shí),兩者之間即為完全相關(guān)。不相關(guān),又稱零相關(guān),當(dāng)變量之間彼此互不影響,其數(shù)量變化各自獨(dú)立時(shí),則變量之間為不相關(guān)。如果兩個(gè)變量的關(guān)系介于完全相關(guān)和不相關(guān)之間,稱為不完全相關(guān)。3.2相關(guān)關(guān)系的測(cè)定要判斷現(xiàn)象之間有無(wú)相關(guān)關(guān)系,首先是定性分析,然后是定量分析(1)定性分析定性分析是依據(jù)研究者的理論知識(shí)、專(zhuān)業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn),對(duì)客觀現(xiàn)象之間是否存在相關(guān)關(guān)系,以及有何種相關(guān)關(guān)系做出判斷。只有在定性分析的基礎(chǔ)上,才能進(jìn)一步從數(shù)量上判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及大致的密切程度。定性分析是相關(guān)分析的重要前提。3.2相關(guān)關(guān)系的測(cè)定(2)定量分析:相關(guān)系數(shù)統(tǒng)計(jì)學(xué)家卡爾·皮爾遜設(shè)計(jì)了相關(guān)系數(shù)這一統(tǒng)計(jì)量。相關(guān)系數(shù)(correlationcoefficient)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)量依據(jù)相關(guān)現(xiàn)象之間的不同特征,其統(tǒng)計(jì)量的名稱有所不同。例如,將反映兩變量間線性相關(guān)關(guān)系的統(tǒng)計(jì)量稱為相關(guān)系數(shù)(相關(guān)系數(shù)的平方稱為判定系數(shù));將反映兩變量間曲線相關(guān)關(guān)系的統(tǒng)計(jì)量稱為非線性相關(guān)系數(shù)、非線性判定系數(shù),將反映多元線性相關(guān)關(guān)系的統(tǒng)計(jì)量稱為復(fù)相關(guān)系數(shù)、復(fù)判定系數(shù)等。本書(shū)只介紹兩變量間線性相關(guān)關(guān)系的相關(guān)系數(shù)。3.2相關(guān)關(guān)系的測(cè)定若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為;若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),記為γ。樣本相關(guān)系數(shù)的計(jì)算公式為為了根據(jù)原始數(shù)據(jù)計(jì)算γ,可由式7-3推導(dǎo)出下面的簡(jiǎn)捷計(jì)算公式

3.3相關(guān)關(guān)系的顯著性檢驗(yàn)總體相關(guān)系數(shù)通常是未知的,而且由樣本相關(guān)系數(shù)γ作為的近似估計(jì)值。但因?yàn)棣檬怯蓸颖緮?shù)據(jù)計(jì)算出來(lái)的,受到隨機(jī)因素的影響,γ本身是一個(gè)隨機(jī)變量。我們能否據(jù)樣本相關(guān)系數(shù)直接來(lái)說(shuō)明總體的相關(guān)程度?答案是否定的,還需要考察樣本相關(guān)系數(shù)阿靠性,也就是進(jìn)行顯著性檢驗(yàn)。通常采用費(fèi)希爾提出的t分布檢驗(yàn)來(lái)對(duì)γ進(jìn)行顯著性驗(yàn),該檢驗(yàn)既可以用于小樣本,也可以用于大樣本,檢驗(yàn)的具體步驟如下所述。3.3相關(guān)關(guān)系的顯著性檢驗(yàn)第1步:提出原假設(shè)和備擇假設(shè),得第2步:計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t的值,得第3步:做出決策。根據(jù)給定的顯著性水平α和自由度查書(shū)后附錄中的t布表,也可以由Excel中的【TINV】函數(shù)查出的臨界值。若,則拒原假設(shè),說(shuō)明總體的兩個(gè)變量之間有顯著的線性關(guān)系;如果用P值檢驗(yàn),則當(dāng)P<α?xí)r,則拒絕原假設(shè),說(shuō)明總體的兩個(gè)變量之間有顯著的線性關(guān)系。二回歸分析與相關(guān)分析不同,進(jìn)行回歸分析時(shí),首先需要確定出自變量和因變量。在回歸分析中,被預(yù)測(cè)或被解釋的變量,稱為因變量(dependentvariable),用y表示;用來(lái)預(yù)測(cè)或用來(lái)解釋因變量的一個(gè)或多個(gè)變量,稱為自變量(independentvariable),用x表示。若回歸分析只涉及一個(gè)自變量,稱為一元回歸,若因變量y與自變量x之間為線性關(guān)系時(shí)稱為一元線性回歸(simplelinearregression)。在回歸分析中,假定自變量x是可以控制的,而因變量y是隨機(jī)的。二回歸分析對(duì)于具有線性關(guān)系的兩個(gè)變量,可以用一個(gè)線性方程來(lái)描述它們之間的關(guān)系。描述因變量y如何依賴于自變量x和誤差項(xiàng)ε的方程,稱為回歸模型(rogresionmode)。對(duì)于只涉及一個(gè)自變量的一元線性回歸模型可表示為在一元線性回歸模型中,y是x的線性函數(shù)(部分)加上誤差項(xiàng)ε。反應(yīng)了由于x的變化而引起的y的線性變化;ε是被稱為誤差項(xiàng)的隨機(jī)量。它反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響,是不能由x和y之間的線性關(guān)系所解釋的變異性。式中的和為模型的兩個(gè)待定參數(shù)。將式稱為理論回歸模型,這一模型是建立在以下幾個(gè)主要假定基礎(chǔ)之上的。(1)兩變量之間具有線性關(guān)系(2)在重置抽樣過(guò)程中,自變量x的取值固定,即假定x不是隨機(jī)變量。二回歸分析在一元線性回歸模型中,y是x的線性函數(shù)(部分)加上誤差項(xiàng)ε。反應(yīng)了由于x的變化而引起的y的線性變化;ε是被稱為誤差項(xiàng)的隨機(jī)量。它反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響,是不能由x和y之間的線性關(guān)系所解釋的變異性。式中的和為模型的兩個(gè)待定參數(shù)。將

式稱為理論回歸模型,這一模型是建立在以下幾個(gè)主要假定基礎(chǔ)之上的。(1)兩變量之間具有線性關(guān)系(2)在重置抽樣過(guò)程中,自變量x的取值固定,即假定x不是隨機(jī)變量。二回歸分析根據(jù)回歸模型中的上述假定,ε的數(shù)學(xué)期望值等于0。因此,y的數(shù)學(xué)期望值,也就是說(shuō),y的期望值是x的線性函數(shù)。描述因變量y的期望值如何依賴于自變量x的方程,稱為回歸方程(regressionequation)。一元線性回歸方程式為三聚類(lèi)分析3.1

聚類(lèi)分析概述聚類(lèi)分析是一種建立分類(lèi)的多元統(tǒng)計(jì)分析方法,它的目的是把分類(lèi)的對(duì)象按照*似性的大小分成若干類(lèi)。在應(yīng)用中,它可以在沒(méi)有先驗(yàn)知識(shí)的條件下進(jìn)行自動(dòng)分類(lèi)分類(lèi)會(huì)根據(jù)數(shù)據(jù)本身的特點(diǎn)完成,在分類(lèi)結(jié)束后,我們會(huì)得到相似的對(duì)象聚在同類(lèi),而不相似的對(duì)象分散在不同的類(lèi)別的結(jié)果。三聚類(lèi)分析3.2

聚類(lèi)分析的基本原理在聚類(lèi)分析中,“相似性”極為重要,它是整個(gè)聚類(lèi)分析的基礎(chǔ)。如果沒(méi)有相似性的定義,樣本之間的差異就沒(méi)法比較,分類(lèi)也就不存在。在本節(jié)中,將介紹兩種刻畫(huà)相似性的指標(biāo)一一距離和相似系數(shù)。前者用來(lái)度量樣本之間的相似性,而后者則常用來(lái)衡量變量之間的相似性。3.2

聚類(lèi)分析的基本原理3.2.1距離為了方便說(shuō)明,假設(shè)我們考慮一個(gè)抽樣樣本,其變量有p個(gè),而其樣本有n個(gè),將得到的數(shù)據(jù)以數(shù)據(jù)表的形式展示,如表所示。為了定義個(gè)體之間的距離,可以將每個(gè)樣本的數(shù)據(jù)看成p維空間的一個(gè)點(diǎn),兩個(gè)樣本就是兩個(gè)點(diǎn),于是可以通過(guò)某種定義來(lái)決定兩個(gè)點(diǎn)之間的距離。距離越大說(shuō)明兩者的關(guān)系越疏遠(yuǎn),分類(lèi)時(shí)應(yīng)該劃分為不同的類(lèi)別,而距離越小則說(shuō)明兩者之間的相似度越高,分類(lèi)時(shí)應(yīng)該劃分為同一類(lèi)。3.2.2相似系數(shù)一般來(lái)說(shuō),相似系數(shù)的絕對(duì)值越大,相似性就越高,聚類(lèi)分析時(shí)將其劃分為一類(lèi):反之,相似系數(shù)的絕對(duì)值越小,則相似性就越小,聚類(lèi)分析時(shí)將其劃分為不同的類(lèi)別。定義的相關(guān)系數(shù)一般滿足兩個(gè)條件:一是相似系數(shù)在-1到1之間變化;二是對(duì)稱性。3.2.2相似系數(shù)運(yùn)用:不同的定義方法得到的結(jié)果也將不一樣,常用的主要有如下兩種:(1)夾角余弦(cosine),其數(shù)學(xué)表達(dá)式為:它是兩個(gè)變量的觀察值構(gòu)成的兩個(gè)向量之間夾角的余弦函數(shù)(2)相關(guān)系數(shù)(correlationcoefficient),其數(shù)學(xué)表達(dá)式為:SPSS提供了豐富的相似性度量指標(biāo),因此在開(kāi)始進(jìn)行聚類(lèi)分析的時(shí)候,可以采取多種相似性測(cè)度指標(biāo),分別進(jìn)行聚類(lèi)分析,然后再根據(jù)結(jié)果確定最優(yōu)的方式。3.3.3K-Means聚類(lèi)常見(jiàn)的聚類(lèi)分析方法有層次聚類(lèi)和K-Means聚類(lèi),雖然層次聚類(lèi)是聚類(lèi)分析中方法最多、理論最為完整的聚類(lèi)方法,其聚類(lèi)效果也比較好,可以清楚地了解聚類(lèi)的過(guò)程,但是它有一個(gè)很大的缺點(diǎn),就是計(jì)算速度較得不適合大型數(shù)據(jù)的聚類(lèi)分析。因此需要用動(dòng)態(tài)聚類(lèi)方法來(lái)彌補(bǔ)這一缺陷,而SPSS提供的動(dòng)態(tài)聚類(lèi)方法只有K-Means聚類(lèi)一種,因此本章以K-Means聚類(lèi)為主要介紹動(dòng)態(tài)類(lèi)的思想。3.3.3K-Means聚類(lèi)K-Means聚類(lèi)方法操作步驟如下:(1)選定分類(lèi)的數(shù)目,并指定每類(lèi)的中心(2)計(jì)算樣本到聚核的距離并進(jìn)行分類(lèi)(3)重新計(jì)算新的分類(lèi)聚核(4)判斷聚類(lèi)是否已滿足終止聚類(lèi)分析的條件四時(shí)間序列分析4.1

時(shí)間序列的預(yù)測(cè)程序一個(gè)時(shí)間序列可能只含有一種成分,也可能同時(shí)含有幾種成分。含有不同成分的時(shí)間序列所用的預(yù)測(cè)方法是不同的。因此,在對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)時(shí),通常包括以下四個(gè)步驟。(1)確定時(shí)間序列所向含的成分,即確定時(shí)間序列的類(lèi)型。(2)找出適合此類(lèi)時(shí)間序列的預(yù)測(cè)方法。(3)對(duì)可能的預(yù)測(cè)方法進(jìn)行評(píng)估,以確定最佳預(yù)測(cè)方案。(4)利用最佳預(yù)測(cè)方案進(jìn)行預(yù)測(cè)4.2平穩(wěn)序列的預(yù)測(cè)(1)移動(dòng)平均法通過(guò)對(duì)時(shí)間序列逐期遞移求得平均數(shù)作為預(yù)測(cè)值的一種預(yù)測(cè)方法,稱為移動(dòng)平均法movingaverage)。移動(dòng)平均是將最近的k期數(shù)據(jù)加以平均,作為下一期的預(yù)測(cè)值。設(shè)移動(dòng)間隔為k(1<k<t),則t期的移動(dòng)平均值為4.2平穩(wěn)序列的預(yù)測(cè)(2)簡(jiǎn)單指數(shù)平滑法一次指數(shù)平滑法也稱簡(jiǎn)單指數(shù)平滑(singleexponentialsmoothing),因?yàn)樗挥幸粋€(gè)平滑系數(shù),根據(jù)指數(shù)平滑法的基本思想,簡(jiǎn)單指數(shù)平滑的計(jì)算公式為式中:為(t+1)期的預(yù)測(cè)值;為t期的預(yù)測(cè)值;為t期的實(shí)際觀察值;α為平滑數(shù)(0<a<1)。可以看到,各期指數(shù)平滑值均是在上一期平滑值基礎(chǔ)上遞推得到的,具有遞推性質(zhì)也可將其寫(xiě)為五主成分分析5.1主成分分析概述在實(shí)際研究工作中,經(jīng)常遇到多指標(biāo)或多因素(多變量)測(cè)定或調(diào)查研究的問(wèn)題比如,豬的體型性狀有體重、體長(zhǎng)、體高、胸圍、腹圍等10多個(gè)指標(biāo),影響小麥產(chǎn)量的有抽穗期、株高、單株穗數(shù)、主穗長(zhǎng)、主穗粒數(shù)等指標(biāo)。這些不同指標(biāo)或因素之間往往存在一定的相關(guān)性,為了能夠正確整理這些錯(cuò)綜復(fù)雜的關(guān)系,可用多元統(tǒng)計(jì)的方法來(lái)處理這類(lèi)數(shù)據(jù),以便簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)。主成分分析就是研究如何用少數(shù)幾個(gè)綜合指標(biāo)或因素來(lái)代表眾多指標(biāo)或因素,綜合后的新指標(biāo)稱為原來(lái)指標(biāo)的主成分或主分量,這些主成分既彼此不相關(guān),又能綜合反映原來(lái)多個(gè)指標(biāo)的大部分信息,是原來(lái)多個(gè)指標(biāo)的線性組合這是一種“降維”的思想。自Hotelling于1933年首先提出該方法以來(lái),在社會(huì)科學(xué)、醫(yī)學(xué)、農(nóng)業(yè)等領(lǐng)域已得到較廣泛的研究和應(yīng)用。5.2主成分分析的基本步驟(1)計(jì)算相關(guān)系數(shù)(r)及相關(guān)矩陣(R);(2)應(yīng)用Jacbi法,根據(jù)相關(guān)矩陣(R)得到特征矩陣,解得m個(gè)特征值及與其對(duì)應(yīng)的特征向量;(3)計(jì)算主成分的貢獻(xiàn)率及前p個(gè)主成分的累計(jì)貢獻(xiàn)率;(4)如果的累計(jì)貢獻(xiàn)率已達(dá)到85%以上,則表示前p個(gè)主成分已能反映原有變量的絕大部分信息。任務(wù)三數(shù)據(jù)分析常用管理學(xué)模型03任務(wù)描述對(duì)于經(jīng)濟(jì)管理類(lèi)相關(guān)專(zhuān)業(yè)而言,管理學(xué)是一切的基礎(chǔ),本章節(jié)通過(guò)管理學(xué)模型,以定性分析為主進(jìn)行數(shù)據(jù)的分析。任務(wù)目標(biāo)1.知道常見(jiàn)的數(shù)據(jù)分析管理學(xué)模型有哪些。2.熟練掌握SWOT分析模型的分析步驟。知識(shí)準(zhǔn)備1.具備管理學(xué)基礎(chǔ)的相關(guān)專(zhuān)業(yè)知識(shí)。一SWOT分析模型SWOT(Strengths、Weaknesses、Opportunities、Threats)分析是一種用于評(píng)估組織內(nèi)部和外部環(huán)境的管理工具。在大數(shù)據(jù)分析中,SWOT分析模型可以幫助企業(yè)識(shí)別內(nèi)外部因素對(duì)業(yè)務(wù)的影響。通過(guò)對(duì)大數(shù)據(jù)的分析,企業(yè)可以了解到自身的優(yōu)勢(shì)、劣勢(shì),以及外部市場(chǎng)的機(jī)會(huì)和威脅。這樣可以幫助企業(yè)了解自身的競(jìng)爭(zhēng)優(yōu)勢(shì),進(jìn)而制定相應(yīng)的業(yè)務(wù)戰(zhàn)略。1.1概念含義1.1.1產(chǎn)生與發(fā)展SWOT分析法即強(qiáng)弱機(jī)危綜合分析法,也稱態(tài)勢(shì)分析法,又稱道斯矩陣。1965,倫德(Learned)就提出過(guò)SWOT分析中涉及到的內(nèi)部?jī)?yōu)勢(shì)和弱點(diǎn)、外部機(jī)會(huì)和威脅這些變化因素,但只是孤立地對(duì)它們加以分析。美國(guó)舊金山大學(xué)國(guó)際管理和行為科學(xué)教授海因茨·韋里克(HeinzWeihrich)在20世紀(jì)80年代初發(fā)展了SWOT分析提出TOWS分析法。SWOT四個(gè)英文字母分別代表:Strength--優(yōu)勢(shì)、Weakness--劣勢(shì)、Opportunity--機(jī)會(huì)、Threats--威脅。優(yōu)勢(shì)和劣勢(shì)是內(nèi)在要素,機(jī)會(huì)與威脅則是外在要素。1.1概念含義從整體上看,SWOT可以分為兩部分:第一部分為SW,主要用來(lái)分析內(nèi)部條件;第二部分為OT,主要用來(lái)分析外部條件。1.1.2優(yōu)勢(shì)與劣勢(shì)分析(SW)

優(yōu)勢(shì)(strength),是組織機(jī)構(gòu)的內(nèi)部因素,是指一個(gè)企業(yè)超越其競(jìng)爭(zhēng)對(duì)手的能力,或者指公司所特有的能提高公司競(jìng)爭(zhēng)力的東西。

競(jìng)爭(zhēng)優(yōu)勢(shì)可以是以下幾個(gè)方面:(1)技術(shù)技能優(yōu)勢(shì)(2)有形資產(chǎn)優(yōu)勢(shì)(3)無(wú)形資產(chǎn)優(yōu)勢(shì)

(4)人力資源優(yōu)勢(shì)(5)組織體系優(yōu)勢(shì)

(6)競(jìng)爭(zhēng)能力優(yōu)勢(shì)1.1.2優(yōu)勢(shì)與劣勢(shì)分析(SW)

劣勢(shì)(weakness),也是組織機(jī)構(gòu)的內(nèi)部因素,指某種公司缺少或做的不好的東西,或指某種會(huì)使公司處于劣勢(shì)的條件??赡軐?dǎo)致內(nèi)部劣勢(shì)的因素有:(1)缺乏具有競(jìng)爭(zhēng)意義的技能技術(shù);(2)缺乏有競(jìng)爭(zhēng)力的有形資產(chǎn)、無(wú)形資產(chǎn)、人力資源、組織資產(chǎn);(3)關(guān)鍵領(lǐng)域里的競(jìng)爭(zhēng)能力正在喪失。1.1.3機(jī)會(huì)與威脅分析(OT)

機(jī)會(huì)(opportunity),是組織機(jī)構(gòu)的外部因素,市場(chǎng)機(jī)會(huì)是影響公司戰(zhàn)略的重大因素。潛在的發(fā)展機(jī)會(huì)可能是:(1)客戶群的擴(kuò)大趨勢(shì)或產(chǎn)品細(xì)分市場(chǎng);(2)技能技術(shù)向新產(chǎn)品新業(yè)務(wù)轉(zhuǎn)移,為更大客戶群服務(wù);(3)前向或后向整合;(4)市場(chǎng)進(jìn)入壁壘降低;(5)獲得購(gòu)并競(jìng)爭(zhēng)對(duì)手的能力;(6)市場(chǎng)需求增長(zhǎng)強(qiáng)勁,可快速擴(kuò)張;(7)出現(xiàn)向其他地理區(qū)域擴(kuò)張,擴(kuò)大市場(chǎng)份額的機(jī)會(huì)。1.2

分析步驟WOT分析程序常與企業(yè)策略規(guī)劃程序相結(jié)合,其步驟如下:步驟一:進(jìn)行企業(yè)環(huán)境描述。步驟二:確認(rèn)影響企業(yè)的所有外部因素。步驟三:預(yù)測(cè)與評(píng)估未來(lái)外部因素之變化。步驟四:檢視企業(yè)內(nèi)部之強(qiáng)勢(shì)與弱勢(shì)。步驟五:根據(jù)企業(yè)資源組合情況,確認(rèn)企業(yè)的關(guān)鍵能力和關(guān)鍵限制。步驟六:利用SWOT分析構(gòu)造研擬可行策略。步驟七:將結(jié)果在SWOT分析圖上定位。步驟八:進(jìn)行策略選擇,制定行動(dòng)計(jì)劃1.3工具特點(diǎn)(1)系統(tǒng)性特征(2)主要優(yōu)勢(shì)SWOT作為企業(yè)戰(zhàn)略規(guī)劃中常用的方法,其主要優(yōu)勢(shì)在于:能夠系統(tǒng)全面地分析影響企業(yè)戰(zhàn)略的各種因素。制定戰(zhàn)略時(shí)企業(yè)決策者應(yīng)系統(tǒng)全面地考慮到企業(yè)內(nèi)部?jī)?yōu)勢(shì)、劣勢(shì)與外部機(jī)會(huì)、威脅這些變化因素。SWOT用系統(tǒng)的思想將這些似乎獨(dú)立的因素相互匹配而進(jìn)行綜合分析,從大方向上避免了遺漏上述某類(lèi)信息或孤立地對(duì)它們加以分析所可能產(chǎn)生的錯(cuò)誤,有利于對(duì)企業(yè)所處環(huán)境進(jìn)行全面、系統(tǒng)和準(zhǔn)確的分析。(3)局限性和很多其他的戰(zhàn)略模型一樣,帶有時(shí)代的局限性。以前的企業(yè)可能比較關(guān)注成本、質(zhì)量,現(xiàn)在的企業(yè)可能更強(qiáng)調(diào)組織流程。SWOT沒(méi)有考慮到企業(yè)改變現(xiàn)狀的主動(dòng)性,企業(yè)是可以通過(guò)尋找新的資源來(lái)創(chuàng)造企業(yè)所需要的優(yōu)勢(shì),從而達(dá)到過(guò)去無(wú)法達(dá)成的戰(zhàn)略目標(biāo)。二五力模型2.1概念含義波特五力模型是由哈佛大學(xué)教授邁克爾·波特提出的戰(zhàn)略分析工具,用于評(píng)估一個(gè)行業(yè)的競(jìng)爭(zhēng)力和吸引力。該模型通過(guò)分析五種力量,幫助企業(yè)理解行業(yè)競(jìng)爭(zhēng)的本質(zhì),從而制定更具競(jìng)爭(zhēng)力的戰(zhàn)略。五種力包括:(1)競(jìng)爭(zhēng)對(duì)手的威脅(競(jìng)爭(zhēng)者):衡量同一行業(yè)內(nèi)其他公司對(duì)企業(yè)的競(jìng)爭(zhēng)威脅程度。(2)顧客的議價(jià)能力:衡量顧客對(duì)產(chǎn)品或服務(wù)的需求程度以及他們對(duì)價(jià)格的敏感程度。(3)供應(yīng)商的議價(jià)能力:衡量供應(yīng)商對(duì)企業(yè)所需資源的控制程度以及他們對(duì)價(jià)格的影響力。(4)替代品的威脅:衡量替代品或服務(wù)對(duì)企業(yè)產(chǎn)品或服務(wù)的替代程度。新進(jìn)入者的威脅(市場(chǎng)進(jìn)入壁壘):衡量新公司或產(chǎn)品進(jìn)入行業(yè)的難易程度。2.2分析步驟步驟1:競(jìng)爭(zhēng)對(duì)手的威脅(競(jìng)爭(zhēng)者)分析,主要包括市場(chǎng)份額分析與競(jìng)爭(zhēng)者戰(zhàn)略分析。步驟2:顧客的議價(jià)能力分析包括市場(chǎng)調(diào)研與產(chǎn)品差異化。步驟3:供應(yīng)商的議價(jià)能力分析,主要包括供應(yīng)鏈分析與多元化供應(yīng)商。步驟4:替代品的威脅分析,主要包括替代品分析與品牌建設(shè)。步驟5:新進(jìn)入者的威脅(市場(chǎng)進(jìn)入壁壘)分析包括市場(chǎng)進(jìn)入壁壘分析與品牌建設(shè)和專(zhuān)利。三杜邦分析杜邦分析法,又稱杜邦財(cái)務(wù)分析體系,簡(jiǎn)稱杜邦體系,因美國(guó)杜邦公司成功應(yīng)用而得名。它是利用各主要財(cái)務(wù)比率之間的內(nèi)在聯(lián)系,對(duì)公司財(cái)務(wù)狀況和經(jīng)營(yíng)成果進(jìn)行綜合評(píng)價(jià)的系統(tǒng)方法。杜邦體系的核心是凈資產(chǎn)收益率,以總資產(chǎn)凈利率和權(quán)益乘數(shù)為分解因素,重點(diǎn)揭示公司獲利能力及杠桿水平對(duì)權(quán)益凈利率的影響,以及各相關(guān)指標(biāo)之間的關(guān)系。3.1核心比率凈資產(chǎn)收益率(ROE)是杜邦體系的核心比率,具有很高的可比性和綜合性,可以用于不同公司之間的比較。公司為了提高凈資產(chǎn)收益率,可以從如下三個(gè)分解指標(biāo)入手:3.1核心比率無(wú)論提高哪一個(gè)比率,凈資產(chǎn)收益率都會(huì)提高。其中,營(yíng)業(yè)凈利率是對(duì)利潤(rùn)表的一種概括,表示企業(yè)的經(jīng)營(yíng)成果;總資產(chǎn)周轉(zhuǎn)次數(shù)則把利潤(rùn)表和資產(chǎn)負(fù)債率聯(lián)系起來(lái),使凈資產(chǎn)收益率可以綜合分析評(píng)價(jià)整個(gè)企業(yè)的經(jīng)營(yíng)成果和財(cái)務(wù)狀況;權(quán)益乘數(shù)是對(duì)資產(chǎn)負(fù)債表的一種概括表述,反映企業(yè)最基本的財(cái)務(wù)狀況。換句話說(shuō),公司可以通過(guò)提升盈利能力、周轉(zhuǎn)效率以及合理配置杠桿來(lái)達(dá)到股東投資回報(bào)率最大化的目的。3.2基本框架杜邦分析法是一個(gè)多層次的財(cái)務(wù)比率分解體系,各項(xiàng)財(cái)務(wù)比率可以在每個(gè)層次與本公司歷史或同業(yè)財(cái)務(wù)比率進(jìn)行比較,然后逐級(jí)向下分解,覆蓋公司經(jīng)營(yíng)活動(dòng)的每個(gè)環(huán)節(jié),以實(shí)現(xiàn)系統(tǒng)、全面評(píng)價(jià)公司經(jīng)營(yíng)成果和財(cái)務(wù)狀況的目標(biāo)。這個(gè)模型能夠給出很好的啟示,公司在管理過(guò)程中,可以依據(jù)這種層層分解的方法來(lái)對(duì)各部分進(jìn)行分析,找到解決問(wèn)題的思路。四波士頓矩陣波士頓矩陣也叫做成長(zhǎng)共享矩陣,是戰(zhàn)略管理歷史上兩大最有用的工具之一。四波士頓矩陣(1)現(xiàn)金牛業(yè)務(wù)

現(xiàn)金牛類(lèi)業(yè)務(wù)是指在成熟市場(chǎng)中(市場(chǎng)增長(zhǎng)率低)擁有相對(duì)高的市場(chǎng)份額的業(yè)務(wù)單元。(2)明星類(lèi)業(yè)務(wù)

明星類(lèi)業(yè)務(wù)是指當(dāng)在高速增長(zhǎng)的市場(chǎng)中具有相對(duì)強(qiáng)勢(shì)的地位的業(yè)務(wù)。(3)瘦狗類(lèi)業(yè)務(wù)

瘦狗類(lèi)業(yè)務(wù)就像這個(gè)名字所暗示的,融合了兩個(gè)維度上最差的情況,盡管亨德森最開(kāi)始稱其為寵物類(lèi)業(yè)務(wù)。這類(lèi)業(yè)務(wù)在低增長(zhǎng)或者無(wú)增長(zhǎng)的市場(chǎng)細(xì)分中占據(jù)一個(gè)很差的位置,盡管它們不消耗太多的現(xiàn)金,但是它們也不再產(chǎn)生大量現(xiàn)金而且不太可能有利可圖。(4)問(wèn)題類(lèi)業(yè)務(wù)

問(wèn)題類(lèi)業(yè)務(wù)有時(shí)也叫做問(wèn)題兒童,問(wèn)題類(lèi)業(yè)務(wù)是公司處理的最復(fù)雜的業(yè)務(wù)單元它們?cè)谝粋€(gè)很有吸引力、增長(zhǎng)率的市場(chǎng)經(jīng)營(yíng),但是卻只有很少的市場(chǎng)份額。四波士頓矩陣結(jié)論:本章是幾個(gè)常用的管理學(xué)模型,在大數(shù)據(jù)分析中的應(yīng)用。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,管理學(xué)模型在大數(shù)據(jù)分析中的應(yīng)用會(huì)變得越來(lái)越重要。企業(yè)可以通過(guò)合理運(yùn)用管理學(xué)模型,從海量的數(shù)據(jù)中獲取有價(jià)值的信息,進(jìn)而做出明智的決策,提高競(jìng)爭(zhēng)力。任務(wù)四數(shù)據(jù)分析模型實(shí)現(xiàn)案例04任務(wù)描述SPSS對(duì)于數(shù)據(jù)的分析一般都是從基本的描述性統(tǒng)計(jì)分析開(kāi)始。通過(guò)描述性統(tǒng)計(jì)分析,使用者可以對(duì)數(shù)據(jù)的基本特征有所了解,然后進(jìn)一步判斷數(shù)據(jù)的總體分布形態(tài)。基本的描述性統(tǒng)計(jì)分析是為后續(xù)的數(shù)據(jù)處理打下基礎(chǔ),從而產(chǎn)生指導(dǎo)和參考。任務(wù)目標(biāo)1.熟悉SPSS的數(shù)據(jù)操作界面。2.掌握數(shù)據(jù)的描述性分析、相關(guān)分析與回歸分析SPSS操作。知識(shí)準(zhǔn)備1.理解數(shù)據(jù)的計(jì)量統(tǒng)計(jì)分析方法原理。一

描述性分析描述性分析是通過(guò)計(jì)算得出一系列描述性統(tǒng)計(jì)量指標(biāo)數(shù)據(jù)的過(guò)程。描述統(tǒng)計(jì)量主要包括均值、極差、標(biāo)準(zhǔn)差、方差、最大值和最小值等。1.1描述性分析的SPSS實(shí)現(xiàn)(1)打開(kāi)整理好的數(shù)據(jù),選擇菜單[分析/描述統(tǒng)計(jì)/描述],可得到圖4.1。(2)在變量窗口選取需要進(jìn)行描述性分析的變量,此處任意選取變量演示(3)點(diǎn)擊[選項(xiàng)(O)]按鈕,可得到圖4.2其中,根據(jù)需要在各選項(xiàng)前打鉤。顯示順序包括:變量列表、字母順序、按平均值的升序排序、按平均值的降序排序。(4)點(diǎn)擊[樣式(L)],通常選取默認(rèn)狀態(tài)。(5)點(diǎn)擊[Bootstrap],根據(jù)選擇樣本數(shù)量和要求,可選取是否Bootstrap抽樣。一

描述性分析一

描述性分析1.2描述性分析實(shí)例“2023版數(shù)據(jù)分析技術(shù)表.csv”為某淘寶店鋪2023年6月-11月的銷(xiāo)售情況,根據(jù)該數(shù)據(jù)對(duì)該店鋪的銷(xiāo)售情況進(jìn)行描述性統(tǒng)計(jì)分析,了解店鋪當(dāng)前經(jīng)營(yíng)狀況。1.2.1操作步驟

(1)打開(kāi)數(shù)據(jù)文件,選擇菜單[分析/描述統(tǒng)計(jì)/描述],可得到如圖4.3所示的“描述性”對(duì)話框。1.2.1操作步驟

(2)打開(kāi)對(duì)話框之后,需要選擇進(jìn)行描述性統(tǒng)計(jì)分析的變量。在窗口左側(cè)的變量列表中選擇“訪客數(shù)”、“商品瀏覽量”、“支付金額”、“直通車(chē)消耗”、“淘客傭金”添加到右側(cè)的變量列表中,結(jié)果如圖4.4所示。1.2.1操作步驟

(3)設(shè)置是否對(duì)該數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化(即將源數(shù)據(jù)序列的每個(gè)值減去該序列的均值,再除以標(biāo)準(zhǔn)差),這時(shí)會(huì)產(chǎn)生一個(gè)相對(duì)應(yīng)的新變量,變量名為相應(yīng)原變量名加綴Z,表示一個(gè)新的“商品瀏覽量”。若需要標(biāo)準(zhǔn)化的話則可在左下側(cè)“將標(biāo)準(zhǔn)化得分另存為變量”前面的方框里打勾,若不需要標(biāo)準(zhǔn)化則不需要打勾。(4)設(shè)置輸出的描述性統(tǒng)計(jì)量。點(diǎn)擊右側(cè)的[選項(xiàng)(O)],根據(jù)需要設(shè)置輸出的統(tǒng)計(jì)量,如圖4.5所示。設(shè)置完成后,單擊[繼續(xù)]按鈕返回。

(5)描述性統(tǒng)計(jì)一般采用默認(rèn)樣式,此處不需要進(jìn)行Bootstrap操作,故點(diǎn)擊[確定]按鈕即可得到結(jié)果1.2.2結(jié)果解讀進(jìn)行描述性統(tǒng)計(jì)分析的操作過(guò)程比較簡(jiǎn)單,輸出結(jié)果也只有一個(gè)描述性統(tǒng)計(jì)表如圖4.6所示。

1.2.2結(jié)果解讀根據(jù)描述性統(tǒng)計(jì)結(jié)果,樣本個(gè)數(shù)為182個(gè)。其中以“訪客數(shù)”為舉例,“訪客數(shù)”的極差為7662,最大值為8775,最小值為1113。同時(shí),我們還可從表中得到標(biāo)準(zhǔn)差、方差、偏度和峰度。(注:若使用SPSS版本不同則會(huì)顯示“標(biāo)準(zhǔn)錯(cuò)誤”而不是“標(biāo)準(zhǔn)誤差”,“標(biāo)準(zhǔn)錯(cuò)誤”其實(shí)就是“標(biāo)準(zhǔn)誤差”,這是不同版本的SPSS的統(tǒng)計(jì)名詞翻譯問(wèn)題)二相關(guān)分析2.1相關(guān)分析的SPSS實(shí)現(xiàn)相關(guān)分析可以通過(guò)SPSS軟件中的[分析/相關(guān)]命令來(lái)實(shí)現(xiàn)。該模塊給出相關(guān)分析的三個(gè)過(guò)程:雙變量分析、偏相關(guān)分析、距離分析。本節(jié)選擇雙變量分析過(guò)程來(lái)講解,具體操作步驟如下.2.1相關(guān)分析的SPSS實(shí)現(xiàn)第1步,選擇菜單[分析/相關(guān)/兩變量],即可彈出如圖4.7所示的窗口2.1相關(guān)分析的SPSS實(shí)現(xiàn)第2步,選擇變量。在圖4.7中,將參加計(jì)算相關(guān)系數(shù)的變量選到[變量(V)]框。第3步,在[相關(guān)系數(shù)]框中選擇計(jì)算哪種相關(guān)系數(shù)第4步,在[顯著性檢驗(yàn)]框中選擇輸出相關(guān)系數(shù)檢驗(yàn)的雙側(cè)概率,值還是單側(cè)概率力值。第5步,選中[標(biāo)記顯著性相關(guān)(F)],則會(huì)在輸出結(jié)果中標(biāo)記出有顯著意義的相關(guān)系數(shù)。如果相關(guān)系數(shù)的右上角有“*”,則代表顯著性水平為0.05;如果相關(guān)系數(shù)右上角有“**”,則代表顯著性水平為0.01。最后一步,點(diǎn)擊[選項(xiàng)(O)]按鈕,就會(huì)出現(xiàn)如圖4.8所示的窗口。在該窗口中可以選擇統(tǒng)計(jì)量的計(jì)算和缺失值的處理方式。2.1相關(guān)分析的SPSS實(shí)現(xiàn)其中,Statistics]框中選中[叉積偏差和協(xié)方差(C)]表示輸出各變量的離方差平方和、樣本方差、兩變量的叉積偏差和協(xié)方差;[缺失值]框中[按對(duì)排除個(gè)案(P)]選項(xiàng)表示在計(jì)算某個(gè)統(tǒng)計(jì)量時(shí),在該對(duì)變量中排除有缺省值的觀測(cè),為系統(tǒng)默認(rèn)選項(xiàng);:[缺失值]框中[按列表排除個(gè)案(L)]選項(xiàng)表示對(duì)任何分析,剔除所有含缺失值的觀測(cè)個(gè)案所有設(shè)置結(jié)束后,單擊[確定]按鈕,就可開(kāi)始進(jìn)行相關(guān)分析。2.2相關(guān)分析實(shí)例下面以一個(gè)實(shí)例講解簡(jiǎn)單相關(guān)分析的應(yīng)用及其結(jié)果的解讀。以數(shù)據(jù)文件“2023版數(shù)據(jù)分析技術(shù)表.csv”為例,我們想研究“支付金額”是否與“訪客數(shù)”與“直通車(chē)消耗”有關(guān)。2.2.1操作步驟(1)首先打開(kāi)數(shù)據(jù)文件“2023版數(shù)據(jù)分析技術(shù)表.csv”(2)選擇菜單[分析/相關(guān)/雙變量](3)將變量“支付金額”、“訪客數(shù)”和“直通車(chē)消耗”選入[變量(V)]框中。(4)單擊[選項(xiàng)(O)]按鈕,彈出如圖4.8所示的窗口,選擇[平均值和標(biāo)準(zhǔn)差(M)]復(fù)選框和[叉積偏差和協(xié)方差(C)]復(fù)選框,然后單擊[繼續(xù)]按鈕。(5)單擊[確定]按鈕執(zhí)行上述操作,開(kāi)始相關(guān)分析。2.2相關(guān)分析實(shí)例2.2.2結(jié)果解讀Spearman相關(guān)系數(shù)矩陣相關(guān)性2.2相關(guān)分析實(shí)例2.2.2結(jié)果解讀圖4.9和圖4.10分別是Pearson相關(guān)系數(shù)矩陣和Spearman相關(guān)系數(shù)矩陣。由圖4.9可知,“支付金額”與“訪客數(shù)”的簡(jiǎn)單相關(guān)系數(shù)為0.697,與“直通車(chē)消耗”的簡(jiǎn)單相關(guān)系數(shù)為0.400。它們的相關(guān)系數(shù)檢驗(yàn)的概率p值均<0.001,近似為0。因此,當(dāng)顯著性水平a為0.05或0.01時(shí),都應(yīng)拒絕相關(guān)系數(shù)檢驗(yàn)的零假設(shè),認(rèn)為兩總體存在線性關(guān)系。由圖4.10也可以得出相同的結(jié)論,盡管相關(guān)系數(shù)大小有差異。可見(jiàn),無(wú)論是Pearson相關(guān)系數(shù)檢驗(yàn)還是Spearman相關(guān)系數(shù)檢驗(yàn),都表明一個(gè)共同的結(jié)果,即在本淘寶店鋪中,訪客數(shù)越多,店鋪的支付金額越大;同時(shí),直通車(chē)消耗越多,店鋪的支付金額越大。在實(shí)證研究中,通常考察各變量之間的相關(guān)性時(shí),應(yīng)同時(shí)列示Pearson相關(guān)系數(shù)矩陣和Spearman相關(guān)系數(shù)矩陣。三回歸分析3.1回歸分析的SPSS實(shí)現(xiàn)三回歸分析3.1回歸分析的SPSS實(shí)現(xiàn)(4)在[方法(M)]列表框中可以選擇自變量的進(jìn)入方式。一共有以下五種方法:①輸入,表示所選變量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論