《商務(wù)數(shù)據(jù)分析》課件

上傳人：D*** IP屬地：廣東上傳時(shí)間：2025-08-04 格式：PPTX 頁(yè)數(shù)：308 大小：27.93MB 積分：8.4 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩303頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

商務(wù)數(shù)據(jù)分析商務(wù)數(shù)據(jù)分析基本概念與框架商務(wù)數(shù)據(jù)分析常用方法商業(yè)應(yīng)用大綱●

第一部分●

第二部分●

第三部分總總分第

一

部分商務(wù)數(shù)據(jù)分析基本概念與框架（

兩章）第一章

商務(wù)數(shù)據(jù)分析基本概念第二章

商務(wù)數(shù)據(jù)分析框架第

一

章

商務(wù)數(shù)據(jù)分析基本概念第

一

節(jié)

商務(wù)數(shù)據(jù)分析概述●

商務(wù)數(shù)據(jù)分析指的是為解決商務(wù)決策問(wèn)題

，

選擇恰當(dāng)方法和工具對(duì)收集的數(shù)據(jù)進(jìn)行分析

，

得到隱

含的

、

未知的

、

有潛在價(jià)值的關(guān)系

、模式和趨勢(shì)

。●

數(shù)據(jù)和分析是其中的核心組成部分

。1

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

、

半結(jié)構(gòu)化

、

非結(jié)構(gòu)化數(shù)據(jù)●結(jié)構(gòu)化數(shù)據(jù)●指可以用二維形式展現(xiàn)和存儲(chǔ)的

，

用統(tǒng)一整齊格式表示的數(shù)據(jù)

，

常

見(jiàn)的有數(shù)字

、

符號(hào)等

?！窠Y(jié)構(gòu)化數(shù)據(jù)用二維表結(jié)構(gòu)表示時(shí)

，

一般用一行數(shù)據(jù)刻畫一個(gè)實(shí)體

，

而每一列表示實(shí)體的某一個(gè)屬性特征

?！窠Y(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)

、

排列有規(guī)律

，

易于處理

。●在商務(wù)活動(dòng)中

，

典型的結(jié)構(gòu)化數(shù)據(jù)包括商品的價(jià)格

、

銷量等數(shù)值型1

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

、

半結(jié)構(gòu)化

、

非結(jié)構(gòu)化數(shù)據(jù)●半結(jié)構(gòu)化數(shù)據(jù)●

指并非二維表形式能夠存儲(chǔ)的

，

但是有基本固定結(jié)構(gòu)模式的數(shù)據(jù)

。●

屬于同一類的實(shí)體可以有不同的屬性

，

且屬性的順序也可以不同

?！?/p>

常見(jiàn)的半結(jié)構(gòu)化數(shù)據(jù)有XML

、HTML

、JSON等

?！?/p>

例如

在電展示的商品信息1

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

、

半結(jié)構(gòu)化

、

非結(jié)構(gòu)化數(shù)據(jù)●非結(jié)構(gòu)化數(shù)據(jù)●

指沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù)

，

如文檔

、

圖片

、視頻

、

音頻等數(shù)據(jù)

?！?/p>

對(duì)于非結(jié)構(gòu)化數(shù)據(jù)

，

一般存儲(chǔ)其二進(jìn)制的數(shù)據(jù)格式，●

例如商品的評(píng)論文本

、介紹圖片等

。1

數(shù)據(jù)類型●

(

)離散型

、

連續(xù)型數(shù)據(jù)●

離散型數(shù)據(jù)·是指數(shù)值只能用自然數(shù)或整數(shù)單位計(jì)算的數(shù)據(jù)·例如消費(fèi)者人數(shù)

、商品個(gè)數(shù)

、評(píng)論數(shù)量

、消費(fèi)者評(píng)論打分等

。

·這類數(shù)據(jù)一般由計(jì)數(shù)方法獲取

?！?/p>

連續(xù)型數(shù)據(jù)·

能夠在相應(yīng)范圍內(nèi)任意取值

，

例如消費(fèi)者購(gòu)買金額

、評(píng)論時(shí)間等

。2

數(shù)據(jù)分析類型●

)

描

述

型

分

析●在商務(wù)數(shù)據(jù)分析中

，描述型分析是將歷史數(shù)據(jù)進(jìn)行定性或定量的描述

，

得出諸如單

日平均銷量

、

月度銷量總和等匯總數(shù)據(jù)

?！窕诿枋鲂头治?/p>

，

可以比較不同時(shí)間

、不同地區(qū)的表現(xiàn)

?！?/p>

(

驗(yàn)

證

型

分

析●在商務(wù)數(shù)據(jù)分析中

，

驗(yàn)證型分析通常用來(lái)驗(yàn)證決策的后果

，

例如技術(shù)改進(jìn)

、策略變化、

產(chǎn)品升級(jí)等行為的發(fā)生是否達(dá)到預(yù)期目標(biāo)

?！?/p>

(

)

預(yù)

測(cè)

型

分

析●在商務(wù)數(shù)據(jù)分析中

，

預(yù)測(cè)型分析則是通過(guò)分析過(guò)去歷史數(shù)據(jù)和當(dāng)前相關(guān)的數(shù)據(jù)

，

對(duì)未

來(lái)可能出現(xiàn)的市場(chǎng)環(huán)境變化

、用戶痛點(diǎn)等關(guān)鍵問(wèn)題進(jìn)行預(yù)測(cè)

。3

數(shù)據(jù)分析方法●

(

)

描述統(tǒng)計(jì)●

描述統(tǒng)計(jì)是通過(guò)圖

、表等方式

，

對(duì)數(shù)據(jù)進(jìn)行整理

、分析

，

揭示數(shù)據(jù)的分布情況

、數(shù)字特征

、變量關(guān)系，

目

的是尋找數(shù)據(jù)中蘊(yùn)含的規(guī)律

。●

描述統(tǒng)計(jì)是最基礎(chǔ)的分析方法

，

它能夠讓我們對(duì)數(shù)據(jù)集有一個(gè)直觀的認(rèn)識(shí)

，

方便進(jìn)行后續(xù)的分析

?！癖热?/p>

，

客戶收入?yún)^(qū)間統(tǒng)計(jì)●

(

)

時(shí)間序列分析●

時(shí)間序列分析側(cè)重研究銷量

、價(jià)格等時(shí)間序列數(shù)據(jù)的互相依賴關(guān)系

?！?/p>

基本原理是：

事物發(fā)展有一定的延續(xù)性

，

利用過(guò)去的數(shù)據(jù)可以推測(cè)未來(lái)發(fā)展趨勢(shì)

?！癖热?/p>

，

預(yù)測(cè)價(jià)格和銷量3

數(shù)據(jù)分析方法●

(

)

回歸分析●

回歸分析是一種預(yù)測(cè)性的建模技術(shù)

，

它研究的是決策問(wèn)題和影響因素之間的關(guān)系

，

多用于預(yù)測(cè)分析

?！?/p>

相比于機(jī)器學(xué)習(xí)進(jìn)行預(yù)測(cè)的方法

，

回歸分析的優(yōu)勢(shì)在于可以定量地揭示某個(gè)影響因素對(duì)結(jié)果有多大的影

響

。●

例如

，

研究產(chǎn)品的受歡迎程度

。●

(

)

機(jī)器學(xué)習(xí)●

機(jī)器學(xué)習(xí)是一門交叉學(xué)科

，

涉及概率論

、

統(tǒng)計(jì)學(xué)

、算法等理論

?！?/p>

它的核心是使用算法解析數(shù)據(jù)

，

模擬人類的學(xué)習(xí)行為

，

對(duì)某件事情做出決定或預(yù)測(cè)

?！?/p>

例如

，

對(duì)用戶進(jìn)行細(xì)分

。3

數(shù)據(jù)分析方法●

(

)

社會(huì)網(wǎng)絡(luò)分析●

社會(huì)網(wǎng)絡(luò)是社會(huì)個(gè)體之間通過(guò)社會(huì)關(guān)系形成的網(wǎng)絡(luò)體系

?！?/p>

從分析對(duì)象來(lái)看

，

社會(huì)網(wǎng)絡(luò)分析既可分析網(wǎng)絡(luò)中單獨(dú)節(jié)點(diǎn)的特性（如重要性）

，

也可以分析整個(gè)網(wǎng)絡(luò)

的特性（如連通性）

等

。●

例如

，

用戶社區(qū)分析●

(

)

復(fù)雜數(shù)據(jù)分析●

復(fù)雜數(shù)據(jù)分析方法可以將文本

、

圖像

、視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為計(jì)算機(jī)可以理解和計(jì)算的數(shù)據(jù)

，

并參與

到建模中

。●

例如消費(fèi)者評(píng)論數(shù)據(jù)分析第二節(jié)

商務(wù)分析理論●

1.4P理論●

理論為我們?cè)谶M(jìn)行商務(wù)數(shù)據(jù)分析時(shí)如何確定分析對(duì)象和營(yíng)銷因素提供了重要的理論參考

?！?/p>

產(chǎn)品Product：

對(duì)產(chǎn)品進(jìn)行數(shù)據(jù)分析時(shí)

，

需要圍繞理論中對(duì)于產(chǎn)品特異性的要求

，

抓住產(chǎn)品的獨(dú)特

之處進(jìn)行著重分析

。●

價(jià)格Pr

ice

：

對(duì)于不同種類的產(chǎn)品

，

要根據(jù)產(chǎn)品特點(diǎn)

、

市場(chǎng)定位制定價(jià)格

。對(duì)顧客進(jìn)行數(shù)據(jù)分析時(shí)

，

需要圍繞各個(gè)屬性和行為特征

，

對(duì)顧客進(jìn)行類別劃分

，

從而為個(gè)性化定價(jià)和推廣提供依據(jù)

?！?/p>

渠道Place

：

建立恰當(dāng)?shù)姆咒N渠道

，

能夠增加企業(yè)利潤(rùn)

。渠道所產(chǎn)生的數(shù)據(jù)

，

例如經(jīng)營(yíng)平臺(tái)的廣告投

放

、銷售記錄

、訂單的密集程度等都是進(jìn)行商務(wù)數(shù)據(jù)分析時(shí)需要考量的因素

?！?/p>

促銷Promotion

：

企業(yè)注重通過(guò)銷售行為的改變來(lái)刺激消費(fèi)者

，

以短期的行為促成消費(fèi)的增長(zhǎng)

，

促

銷方式設(shè)計(jì)是商業(yè)數(shù)據(jù)分析的一個(gè)重要任務(wù)

。2

用戶畫像●

用戶畫像是一種根據(jù)用戶的個(gè)人屬性

、產(chǎn)品喜好

、

消費(fèi)特征等信息抽象出來(lái)的標(biāo)簽化模型

。

通過(guò)

用戶畫像

，

可以有效地將用戶抽象成一個(gè)標(biāo)簽集合

，

集合中的標(biāo)簽代表了用戶的各方面屬性

?！?/p>

構(gòu)建用戶畫像時(shí)首先需要收集數(shù)據(jù)

，

形成某些基礎(chǔ)數(shù)據(jù)標(biāo)簽；同時(shí)可以針對(duì)某一主題

，

建模分析

用戶大概率可能采取的行為

，

進(jìn)而根據(jù)行為特征為用戶構(gòu)建畫像；

還可以圍繞某一個(gè)決策

，

綜合

多個(gè)模型分析的結(jié)果

，

構(gòu)建畫像

。2

用戶畫像●

為了更加立體地反映用戶特征

，

在構(gòu)建用戶畫像的時(shí)候

，

可以分層次地建立多級(jí)指標(biāo)

。3

用戶點(diǎn)擊流分析●

用戶點(diǎn)擊流（Click

stream）

分析是指在獲得電商平臺(tái)用戶基本操作數(shù)據(jù)的情況下

，

對(duì)用戶的點(diǎn)擊

、

瀏覽

、加入購(gòu)物車

、購(gòu)買等行為進(jìn)行統(tǒng)計(jì)

、

分析

，

從中發(fā)現(xiàn)用戶行為規(guī)律

。●

這些規(guī)律首先可以對(duì)用戶的下一步行為進(jìn)行預(yù)測(cè)

，

然后

，

將這些規(guī)律與營(yíng)銷策略等相結(jié)合

，

可以

對(duì)用戶的行為進(jìn)行干預(yù)

?！?/p>

另外

，

用戶行為分析也可以幫助評(píng)價(jià)目前的網(wǎng)絡(luò)營(yíng)銷策略

，

指導(dǎo)未來(lái)營(yíng)銷活動(dòng)的制定

。4

顧客價(jià)值●

對(duì)企業(yè)而言

，

實(shí)現(xiàn)所有顧客的個(gè)性化產(chǎn)品或服務(wù)

，

其成本是無(wú)法承受的

。對(duì)顧客區(qū)分的主要依據(jù)

是顧客能夠?yàn)槠髽I(yè)提供的價(jià)值

。●

顧客當(dāng)前為企業(yè)貢獻(xiàn)的價(jià)值

，

根據(jù)銷量高低對(duì)顧客進(jìn)行排序

，

重點(diǎn)分析排名靠前的顧客特點(diǎn)

，

提

供相應(yīng)的服務(wù)產(chǎn)品

?！?/p>

通常這類顧客會(huì)服從80-20分布

。4

顧客價(jià)值●

顧客當(dāng)前價(jià)值和潛在價(jià)值兩個(gè)維度

，

在一個(gè)二維坐標(biāo)里可以將客戶分為四類：

I類

、II類

、

III

類和IV類

。●

企業(yè)針對(duì)四類顧客提供不同的服務(wù)

例如IV類客戶既有很高的當(dāng)前價(jià)值也有很大的潛在價(jià)值，是對(duì)企業(yè)最有價(jià)值的一類客戶

。4

顧客價(jià)值●

RFM理論●

R（rec

cy）

代表最近一次購(gòu)物距離當(dāng)前的時(shí)間長(zhǎng)短

，

F（Frequency）

代表一段時(shí)間內(nèi)的購(gòu)物頻

率

，

M（Monetary）

代表購(gòu)物金額

?！?/p>

根據(jù)顧客在這三個(gè)指標(biāo)上的綜合表現(xiàn)

，

對(duì)顧客進(jìn)行細(xì)分

。第三節(jié)

數(shù)據(jù)分析主要應(yīng)用●

在商務(wù)領(lǐng)域中

，

通過(guò)數(shù)據(jù)分析可以監(jiān)控和管理整個(gè)運(yùn)營(yíng)

，

可以通過(guò)數(shù)據(jù)了解用戶

、

改進(jìn)產(chǎn)品

服務(wù)

、

提高運(yùn)營(yíng)效率

、

降低成本

?！?/p>

數(shù)據(jù)分析在商務(wù)領(lǐng)域的應(yīng)用主要集中在以下幾大方面

。1

市場(chǎng)營(yíng)銷●

(

)

用戶細(xì)分●

客戶細(xì)分就是根據(jù)客戶的特征信息（年齡

、性別

、

收入

、

受教育程度

、購(gòu)買金額等）

將客戶劃分成不同

的群體

.●

每個(gè)群體中的客戶具有相同或相似的特征

，

特征相似的客戶群具有相似的潛在需求；

而不同群體之間的

客戶特征差異較大

?！裼纱丝梢葬槍?duì)不同群體的客戶提供有一定差異的營(yíng)銷策略和產(chǎn)品服務(wù)

提升客服和營(yíng)銷活動(dòng)效率

，

降低成

本

。1

市場(chǎng)營(yíng)銷●

(

)

用戶行為分析●

不同的用戶群體具有互不相同的行為習(xí)慣

，

精準(zhǔn)確定不同用戶群的行為特點(diǎn)

，

提供符合其特征的

個(gè)性化服務(wù)

。●

基于用戶行為分析

，

可以進(jìn)一步對(duì)用戶進(jìn)行流失分析

、

生命周期分析

、影響力分析

、

價(jià)值分析等

。1

市場(chǎng)營(yíng)銷●

(

)

銷量預(yù)測(cè)●

通過(guò)對(duì)銷量進(jìn)行預(yù)測(cè)

，

可以為商家提供參考

，

商家可以據(jù)此制定合理的采購(gòu)計(jì)劃

、

配置合適的庫(kù)存

，

在降低成本

的同時(shí)

，

提前對(duì)銷售變化做好準(zhǔn)備

?！?/p>

(

)行業(yè)競(jìng)爭(zhēng)和行情分析●

數(shù)據(jù)分析可以用來(lái)監(jiān)測(cè)和分析對(duì)手行業(yè)的產(chǎn)品特性和用戶反應(yīng)

?！?/p>

通過(guò)收集行業(yè)主要競(jìng)爭(zhēng)對(duì)手的銷售情況和銷售策略

，

以及當(dāng)前市場(chǎng)宏觀變量

，

可以有效地掌握當(dāng)前市場(chǎng)行情和未

來(lái)市場(chǎng)預(yù)期

。2

運(yùn)營(yíng)管理●

(

)

運(yùn)營(yíng)監(jiān)控●

(

)

決策支持●

(

)量化運(yùn)營(yíng)效能3

產(chǎn)品研發(fā)●

(

)

產(chǎn)品優(yōu)化支持●

企業(yè)可以在銷售之前就能夠獲取客戶反饋信息

，

獲得明確的用戶需求

，

實(shí)現(xiàn)了

“

Pull

”的方式

。●

還可以基于數(shù)據(jù)對(duì)相關(guān)業(yè)務(wù)線產(chǎn)品進(jìn)行全面的分析

，

包括用戶分析

、

營(yíng)收分析

、行為分析

、活動(dòng)效果

評(píng)估等

，

從而更加科學(xué)地為產(chǎn)品優(yōu)化和業(yè)務(wù)運(yùn)營(yíng)提供支持

?！?/p>

(

)新產(chǎn)品研發(fā)支持●

通過(guò)分析目標(biāo)用戶喜好

，

收集當(dāng)下熱門產(chǎn)品和功能

，

可以為新產(chǎn)品的開發(fā)提供決策依據(jù)和方向

，

以用

戶和市場(chǎng)真實(shí)需求為基礎(chǔ)

，

設(shè)計(jì)更加符合消費(fèi)喜好的產(chǎn)品

?！?/p>

還可以針對(duì)特定用戶群體

，

設(shè)計(jì)差異化產(chǎn)品

，

個(gè)性化地滿足不同用戶群的特殊需求

，

提高產(chǎn)品吸引力

的同時(shí)增加用戶滿意度和忠誠(chéng)度

。第

一

部分商務(wù)數(shù)據(jù)分析基本概念與框架（

兩章）第一章

商務(wù)數(shù)據(jù)分析基本概念第二章

商務(wù)數(shù)據(jù)分析框架第二章

商務(wù)數(shù)據(jù)分析框架商務(wù)數(shù)據(jù)分析框架●

商務(wù)數(shù)據(jù)分析框架分為六個(gè)模塊

，

分別為問(wèn)題明確

、

數(shù)據(jù)理解

、

數(shù)據(jù)預(yù)處理

、模型建立

、模型評(píng)

價(jià)和模型發(fā)布

。

這是一個(gè)明確商業(yè)目的

，

進(jìn)行數(shù)據(jù)的收集

、

整理

、加工和分析

，

提煉出有價(jià)值信

息的過(guò)程

。1

.問(wèn)題明確●

問(wèn)題明確是最開始同時(shí)也是最重要的一個(gè)環(huán)節(jié)

，

這一環(huán)節(jié)的確定嚴(yán)重影響著后續(xù)工作是否有意義

?！?/p>

在數(shù)據(jù)分析之前明確數(shù)據(jù)對(duì)象是誰(shuí)

，

數(shù)據(jù)分析的目

的是什么

，

解決什么樣的業(yè)務(wù)問(wèn)題

。2

數(shù)據(jù)理解●

數(shù)據(jù)理解包括數(shù)據(jù)收集和統(tǒng)計(jì)描述

?！?/p>

數(shù)據(jù)收集是按照第一環(huán)節(jié)的問(wèn)題和分析思路

，

有目的性地收集

、整合相關(guān)數(shù)據(jù)的過(guò)程

，

它是

數(shù)據(jù)分析的重要基礎(chǔ)

?！?/p>

常見(jiàn)的數(shù)據(jù)收集渠道有內(nèi)部渠道和外部渠道

。

數(shù)據(jù)規(guī)模和數(shù)據(jù)靈活性也在不斷變化

，

從簡(jiǎn)單

的數(shù)值數(shù)據(jù)到文本數(shù)據(jù)再到音頻

、視頻數(shù)據(jù)均可以收集到

?！?/p>

數(shù)據(jù)的統(tǒng)計(jì)描述主要是對(duì)數(shù)據(jù)繪制圖表進(jìn)行統(tǒng)計(jì)分析

，

簡(jiǎn)單地分析數(shù)據(jù)的數(shù)量和質(zhì)量

，

判斷

收集到的數(shù)據(jù)能否滿足問(wèn)題的分析目的

，

以及發(fā)現(xiàn)哪些數(shù)據(jù)值得進(jìn)一步分析

?！?/p>

雖然統(tǒng)計(jì)分析比較簡(jiǎn)單

，

但它可以實(shí)現(xiàn)很多功能

。3

數(shù)據(jù)預(yù)處理●

數(shù)據(jù)預(yù)處理是對(duì)收集到的數(shù)據(jù)繼續(xù)進(jìn)行加工

、

整理

，

以便開展后期的模型建立

，

它是數(shù)據(jù)分析必

不可少的階段

?！?/p>

這一階段是比較復(fù)雜同時(shí)也是較為占用時(shí)間的

，

但它必不可少

，

在一定程度上影響了數(shù)據(jù)質(zhì)量的

保證以及后期模型的表現(xiàn)

?！?/p>

數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗

、

數(shù)據(jù)變換

、

數(shù)據(jù)集成

、

數(shù)據(jù)規(guī)約和特征選擇等

。4

模型建立●

模型建立是數(shù)據(jù)分析的核心步驟

，

通過(guò)具體的模型

，

對(duì)數(shù)據(jù)進(jìn)行分析

，

發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律關(guān)

系和模式

?！?/p>

模型建立首先要進(jìn)行模型選擇

，

根據(jù)不同的業(yè)務(wù)問(wèn)題需求在眾多模型中選擇出最適合的模型

、

最

合適的參數(shù)配置

。●

建立模型實(shí)際上就是找到在這個(gè)模型的情境下輸入和輸出之間的關(guān)系模式

。

需要觀察已有的數(shù)據(jù)，

使用已有的一些常用關(guān)系模式對(duì)數(shù)據(jù)進(jìn)行擬合

，

建立模型

。4

模型建立●(1)數(shù)據(jù)集

、

訓(xùn)練集

、驗(yàn)證集

、

測(cè)試集●

數(shù)據(jù)集：

數(shù)據(jù)集合

，

模型的建立有兩方面的考慮：

其一是模型數(shù)據(jù)的維度

，

其二是數(shù)據(jù)的數(shù)量

。●

訓(xùn)練集：

用于建立模型的數(shù)據(jù)集

。●

驗(yàn)證集：

用于調(diào)整模型參數(shù)

、對(duì)模型的能力進(jìn)行初步評(píng)價(jià)的數(shù)據(jù)

?！?/p>

測(cè)試集：

用于評(píng)價(jià)已經(jīng)建立的模型的表現(xiàn)

。4

模型建立●(1)數(shù)據(jù)集

、

訓(xùn)練集

、驗(yàn)證集

、

測(cè)試集●

數(shù)據(jù)集：

數(shù)據(jù)集合

，

模型的建立有兩方面的考慮：

其一是模型數(shù)據(jù)的維度

，

其二是數(shù)據(jù)的數(shù)量

?！?/p>

訓(xùn)練集：

用于建立模型的數(shù)據(jù)集

。●

驗(yàn)證集：

用于調(diào)整模型參數(shù)

、對(duì)模型的能力進(jìn)行初步評(píng)價(jià)的數(shù)據(jù)

?！?/p>

測(cè)試集：

用于評(píng)價(jià)已經(jīng)建立的模型的表現(xiàn)

。4

模型建立●（2）

數(shù)據(jù)劃分方法●

根據(jù)樣本的大小不同可以做出不同的劃分選擇

，

但是測(cè)試集必須

保證未知并且保持與訓(xùn)練集

、驗(yàn)證集的獨(dú)立性

。4

模型建立●（2）

數(shù)據(jù)劃分方法

●留出法●

將所有數(shù)據(jù)按照一定比例分為互斥的兩部分●

在分割數(shù)據(jù)的時(shí)候

，

需要保證這兩部分的數(shù)據(jù)分布是盡可能一致的

?！?/p>

使用留出法時(shí)

，

一般需要進(jìn)行若干次隨機(jī)劃分并重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值

，

然后將其作為最

終的評(píng)估結(jié)果

。●

交叉驗(yàn)證法●

將數(shù)據(jù)均勻地分為大小相似且互斥的k份數(shù)據(jù)子集

，

在每次訓(xùn)練時(shí)

，

取其中的一份作為測(cè)試集其余

的k-1份作為訓(xùn)練集

。進(jìn)行k次訓(xùn)練和測(cè)試

，

得到k個(gè)測(cè)試結(jié)果

，

對(duì)這k個(gè)測(cè)試結(jié)果取平均

，

將其作

為最后的測(cè)試結(jié)果

?！?/p>

交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性在很大程度上與k有關(guān)

，

通常也叫作

“

k折交叉驗(yàn)證

”。4

模型建立●(

)

過(guò)擬合

、

欠擬合與調(diào)參

●

誤差●

在使用訓(xùn)練集擬合輸入和輸出之間的關(guān)系時(shí)

，

總會(huì)存在誤差

，

這種在訓(xùn)練模型時(shí)產(chǎn)生的誤差叫作

訓(xùn)練誤差或者經(jīng)驗(yàn)誤差

，

在訓(xùn)練集之外的測(cè)試數(shù)據(jù)上進(jìn)行預(yù)測(cè)產(chǎn)生的誤差叫作泛化誤差

?！?/p>

建模的最終目標(biāo)并不是使訓(xùn)練誤差小

，

而是使模型在測(cè)試數(shù)據(jù)上的泛化誤差更小

，

即建立一個(gè)可

以被廣泛應(yīng)用在其他數(shù)據(jù)集上的模型

?！?/p>

過(guò)擬合●

模型過(guò)多地學(xué)習(xí)到了僅存在于訓(xùn)練樣本中的關(guān)系

，

由于這些關(guān)系在其他樣本中可能是不存在的

，

模型在其他樣本上的表現(xiàn)將遠(yuǎn)不如在訓(xùn)練樣本上的表現(xiàn)

，

即泛化誤差大

。●

原因：

學(xué)習(xí)能力過(guò)于強(qiáng)大

，

建立了復(fù)雜度過(guò)高的模型

?！?/p>

解決方法：

在構(gòu)建模型時(shí)對(duì)模型進(jìn)行控制和修剪

●

欠擬合●

模型沒(méi)有表達(dá)出樣本中普遍存在的關(guān)鍵關(guān)系模式

，

導(dǎo)致在訓(xùn)練集上的訓(xùn)練誤差都較大

?！?/p>

原因：

學(xué)習(xí)能力過(guò)于低下

?！?/p>

解決方法：

通過(guò)增加訓(xùn)練迭代次數(shù)4

模型建立●(

)

過(guò)擬合

、

欠擬合與調(diào)參●

調(diào)參：

對(duì)模型進(jìn)行參數(shù)的配置●

在模型的訓(xùn)練過(guò)程中需要根據(jù)訓(xùn)練集進(jìn)行參數(shù)設(shè)置

，

這些在訓(xùn)練過(guò)程中確定的參數(shù)稱為普通參數(shù)

。模

型的有些參數(shù)需要人工設(shè)定

，

被稱為超參數(shù)

?！?/p>

一般調(diào)參和模型的選擇通常是在驗(yàn)證集上進(jìn)行的

，

多次使用驗(yàn)證集進(jìn)行不斷調(diào)參并監(jiān)控模型是否出現(xiàn)

過(guò)擬合的情況

，

最終得到表現(xiàn)最好的模型

，

用于測(cè)試集的評(píng)估

。4

模型建立●(

)有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)●

有監(jiān)督學(xué)習(xí)●

一些模型建立的目

的是給數(shù)據(jù)打上“

標(biāo)簽

”

，

當(dāng)構(gòu)建模型時(shí)使用的訓(xùn)練集必須要存在這樣的標(biāo)簽，

才能在特征和標(biāo)簽之間建立聯(lián)系

?！?/p>

學(xué)習(xí)時(shí)有

“

正確答案

”●

無(wú)監(jiān)督學(xué)習(xí)●

使用不帶標(biāo)簽的數(shù)據(jù)建立模型

，

得到了我們想要獲得的信息

，

這種學(xué)習(xí)任務(wù)稱為無(wú)監(jiān)督學(xué)習(xí)

。●

學(xué)習(xí)時(shí)無(wú)

“

正確答案

”5

模型評(píng)價(jià)●

模型評(píng)價(jià)主要是指對(duì)模型在測(cè)試集中的泛化性能進(jìn)行評(píng)估

。●

不同類型的模型使用不同的評(píng)價(jià)標(biāo)準(zhǔn)

?！?/p>

相同類型的模型在不同的評(píng)價(jià)標(biāo)準(zhǔn)上的表現(xiàn)可能不同

?！?/p>

在具體的研究中

，

要根據(jù)研究的問(wèn)題選擇合適的評(píng)價(jià)標(biāo)準(zhǔn)

。6

模型發(fā)布●

執(zhí)行完上述步驟之后

，

得到最終表現(xiàn)最好的模型和參數(shù)配置

，

將其應(yīng)用于后續(xù)未知數(shù)據(jù)的分

析中

?！?/p>

有時(shí)會(huì)根據(jù)其業(yè)務(wù)需求

，

將模型部署集成到相應(yīng)的系統(tǒng)中進(jìn)行使用

。商務(wù)數(shù)據(jù)分析整體框架第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計(jì)量模型第六章

數(shù)據(jù)挖掘分類預(yù)測(cè)模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會(huì)網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第三章數(shù)據(jù)獲取與數(shù)據(jù)理解第

一

節(jié)

數(shù)據(jù)獲取●

數(shù)據(jù)獲取主要有兩個(gè)渠道●

一個(gè)是直接獲取數(shù)據(jù)

，

即自

己在經(jīng)營(yíng)過(guò)程中累積的數(shù)據(jù)

，

或者通過(guò)實(shí)驗(yàn)或調(diào)查直接獲得的數(shù)據(jù)

，

這些數(shù)據(jù)被稱為一手?jǐn)?shù)據(jù)

.●

另一個(gè)是間接獲取數(shù)據(jù)

，

指的是數(shù)據(jù)是由其他人通過(guò)各種形式搜集的

，

使用者僅僅是找到這些數(shù)

據(jù)并加以加工和使用

，

間接地獲取了這些數(shù)據(jù)

，

這些數(shù)據(jù)通常被稱為二手?jǐn)?shù)據(jù)

。1

直接獲取●

(

)

經(jīng)營(yíng)數(shù)據(jù)●

企業(yè)在經(jīng)營(yíng)過(guò)程中積累了大量數(shù)據(jù)

，

包括運(yùn)營(yíng)

、人事

、財(cái)務(wù)

、供應(yīng)鏈

、客戶管理等

。這些數(shù)據(jù)通常

存儲(chǔ)在企業(yè)信息系統(tǒng)的數(shù)據(jù)庫(kù)中

，

是企業(yè)經(jīng)營(yíng)的真實(shí)反映

?！?/p>

獲取相對(duì)比較簡(jiǎn)單

，

但由于經(jīng)營(yíng)數(shù)據(jù)通常涉及企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)

，

所以企業(yè)外部人員甚至不同部門的

人員很難得到

?！?/p>

(

)

市場(chǎng)調(diào)查●

市場(chǎng)調(diào)查是指用科學(xué)的方法（引用正規(guī)）

，

有目

的

、

系統(tǒng)地搜集

、記錄

、整理和分析市場(chǎng)現(xiàn)狀的數(shù)

據(jù)獲取和分析方法

。

市場(chǎng)調(diào)查通常比較適用于社會(huì)問(wèn)題和企業(yè)經(jīng)濟(jì)問(wèn)題

。1

直接獲取●

(

)

試驗(yàn)●

在試驗(yàn)中

，

研究者圍繞想要解決的問(wèn)題

，

設(shè)定相應(yīng)情景

，

記錄不同條件下相應(yīng)的試驗(yàn)觀測(cè)結(jié)果

，

并

對(duì)試驗(yàn)結(jié)果展開分析

?！?/p>

(

)

爬蟲●

更多數(shù)據(jù)被保留在了各個(gè)網(wǎng)頁(yè)上

，

使用者可以針對(duì)自己的需要

，

利用爬

蟲技術(shù)自行對(duì)網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行爬取

。2

間接獲取●

從相關(guān)渠道獲取與研究?jī)?nèi)容有關(guān)的而且已經(jīng)存在的二手?jǐn)?shù)據(jù)

。●

二手?jǐn)?shù)據(jù)的優(yōu)勢(shì)：●

二手?jǐn)?shù)據(jù)獲取過(guò)程通常時(shí)間短

、成本低●

二手?jǐn)?shù)據(jù)除了可以用來(lái)分析研究問(wèn)題

，

還可以從中剖析研究問(wèn)題的背景

。●

二手?jǐn)?shù)據(jù)的局限性●

二手?jǐn)?shù)據(jù)通常不是為使用者想要進(jìn)行研究的問(wèn)題而收集的

，

所以與直接收集數(shù)據(jù)相比

，

在和研究問(wèn)題的

契合度上必定有所欠缺

?！?/p>

在使用二手?jǐn)?shù)據(jù)時(shí)

，

提前對(duì)數(shù)據(jù)進(jìn)行評(píng)估是非常必要的

?！?/p>

在使用二手?jǐn)?shù)據(jù)時(shí)

，

避免錯(cuò)用

、誤用

、濫用

。●

在引用二手?jǐn)?shù)據(jù)時(shí)

，

應(yīng)注明數(shù)據(jù)的來(lái)源

，

以尊重他人的勞動(dòng)成果

。2

間接獲取●

(1)

文獻(xiàn)●

相關(guān)專業(yè)期刊

、

學(xué)術(shù)會(huì)議

、專業(yè)圖書的文獻(xiàn)資料中提供了一些可供使用或參考的數(shù)據(jù)資料

。文獻(xiàn)中的數(shù)

據(jù)往往經(jīng)過(guò)了原作者的處理

，

對(duì)使用者來(lái)說(shuō)省去了數(shù)據(jù)處理的過(guò)程

，

但是文獻(xiàn)數(shù)據(jù)的計(jì)算口徑有時(shí)難以

獲知

，

適用性相對(duì)較弱

?！?/p>

(

)學(xué)術(shù)單位的數(shù)據(jù)庫(kù)●

為了研究需要

，

大學(xué)等學(xué)術(shù)單位提供了一些以數(shù)據(jù)庫(kù)為存儲(chǔ)形式的數(shù)據(jù)集

，

供公眾訪問(wèn)獲取

。這些數(shù)據(jù)

集來(lái)自實(shí)踐

，

體量通常比較大

，

涵蓋的范圍也比較廣

?；谶@些共同的數(shù)據(jù)集

，

研究者們可以更方便公

正地比較各自所提出的數(shù)據(jù)分析策略

、方法的優(yōu)劣

，

因此學(xué)術(shù)數(shù)據(jù)庫(kù)集被眾多研究者青睞

。2

間接獲取●

(

)

統(tǒng)計(jì)部門機(jī)構(gòu)●

統(tǒng)計(jì)部門和各級(jí)政府部門定期公布的有關(guān)資料中提供了宏觀統(tǒng)計(jì)數(shù)據(jù)

。對(duì)于使用者了解所感興趣的領(lǐng)域

的整體情況是有很大幫助的

，

但通常并不能用于解決具體的決策問(wèn)題

?！?/p>

(

)

第三方機(jī)構(gòu)●

具有數(shù)據(jù)資源優(yōu)勢(shì)的數(shù)據(jù)源提供商

、

咨詢機(jī)構(gòu)以及一些自身有數(shù)據(jù)積累的互聯(lián)網(wǎng)企業(yè)都已經(jīng)成為大數(shù)據(jù)

產(chǎn)業(yè)中能夠提供海量數(shù)據(jù)的中流砥柱

。在第三方機(jī)構(gòu)獲取的數(shù)據(jù)比較完整

，

有豐富的描述

，

通常需要付費(fèi)才能獲取

。●(

)

國(guó)內(nèi)外各類數(shù)據(jù)挖掘競(jìng)賽●

國(guó)內(nèi)外了各類數(shù)據(jù)挖掘競(jìng)賽中都提供了大量真實(shí)的數(shù)據(jù)集

，

這些數(shù)據(jù)通常有實(shí)際的應(yīng)用背景和明確的使

用目的

。第二節(jié)

數(shù)據(jù)描述●

也稱為描述性數(shù)據(jù)分析

，

通常指對(duì)數(shù)據(jù)的整體分布情況

、

數(shù)據(jù)各特征之間的關(guān)系進(jìn)行估計(jì)和

描述

，

從而有利于了解數(shù)據(jù)的整體情況

，

發(fā)現(xiàn)顯著特點(diǎn)

，

為進(jìn)一步的數(shù)據(jù)分析提供重要的思

路

?！?/p>

數(shù)據(jù)描述通?？梢詮娜齻€(gè)方面進(jìn)行：

集中趨勢(shì)分析

、

離散程度分析和分布形狀分析1

集中趨勢(shì)分析●

集中趨勢(shì)是指一組數(shù)據(jù)向某一中心值靠攏的程度

，

是對(duì)數(shù)據(jù)一般水平的概括性度量

，

它反映了

一

組數(shù)據(jù)中心點(diǎn)的位置所在

?！?/p>

(1)

均值●

是最常用的也是最有效的度量集中趨勢(shì)的指標(biāo)

。將一組數(shù)據(jù)的總和除以數(shù)據(jù)數(shù)量

，

便能得到均值

?！?/p>

在有些情況下

，

每個(gè)數(shù)據(jù)的重要程度或者意義可能不是相同的

，

這時(shí)候需要對(duì)不同的數(shù)據(jù)賦予不同的權(quán)

重

。這樣根據(jù)權(quán)重計(jì)算得到的平均數(shù)叫作加權(quán)平均數(shù)或加權(quán)算術(shù)均值

。●

均值能夠充分利用所有數(shù)據(jù)的信息

，

但也正是因?yàn)檫@種特性

，

均值非常容易受到極端值的影響

。1

集中趨勢(shì)分析●

(

)

中位數(shù)●

一組數(shù)據(jù)排序之后處于中間位置的值

，

它把數(shù)據(jù)較大的一半和較小的一半分開

。●

是一個(gè)由位置決定的值

，

因此即便數(shù)據(jù)中存在極端值

，

中間位置上的數(shù)值也不會(huì)受到影響

。對(duì)于存在極

值或非對(duì)稱數(shù)據(jù)的情況來(lái)說(shuō)

，

中位數(shù)是一個(gè)比均值更好的度量

。●

(

)

分位數(shù)●

分位數(shù)是將總體的全部數(shù)據(jù)遞增排列后

，

處于各等分位置的數(shù)據(jù)點(diǎn)

。

分位數(shù)將數(shù)據(jù)劃分為基本上規(guī)模相

等的區(qū)域

。●

如果分為四部分

，

則得到的數(shù)據(jù)點(diǎn)就是四分位數(shù)

。在各類分位數(shù)中

，

常用的是四分位數(shù)

。相比于中位數(shù)

只有一個(gè)

，

四分位數(shù)有兩個(gè)

，

能夠更充分地反映數(shù)據(jù)的集中程度

。1

集中趨勢(shì)分析●

(

)

眾數(shù)●

一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值

，

不會(huì)受到數(shù)據(jù)中極端值的影響

。●

一組數(shù)據(jù)可能各不相同

，

既可能不存在眾數(shù)

，

也可能存在多個(gè)眾數(shù)

。

一般來(lái)說(shuō)

，

數(shù)據(jù)量較大的時(shí)候眾數(shù)

才有意義

，

將眾數(shù)作為數(shù)據(jù)整體特征才有代表性

?！?/p>

對(duì)比前面的集中指標(biāo)

，

眾數(shù)不涉及數(shù)值計(jì)算

，

因此

，

對(duì)于類別數(shù)據(jù)

，

眾數(shù)是常用的集中程度測(cè)度

。2

離散程度分析●

離散程度指的是一組數(shù)據(jù)遠(yuǎn)離其中心值的程度

。

數(shù)據(jù)的離散程度分析主要是用來(lái)反映一組數(shù)據(jù)的

差異程度

?！?

)異眾比率（Variation

ratio）●

指的是非眾數(shù)數(shù)據(jù)的數(shù)量占數(shù)據(jù)總數(shù)的比例

。

異眾比率越小

，

表示眾數(shù)所占的比例越大

，

眾數(shù)對(duì)于數(shù)據(jù)

的代表程度越好

。●

(

)

極差（Range）●

也稱全距

，

指的是數(shù)據(jù)最大值與最小值之差

。

因?yàn)闃O差選取最值來(lái)進(jìn)行計(jì)算

，

所以必然會(huì)受到極端值的

影響

。此外

，

極差的計(jì)算只考慮了最大最小值

，

遺漏了中間部分的更多信息

，

換句話說(shuō)

，

只用兩個(gè)數(shù)據(jù)表示一組數(shù)據(jù)集合的特點(diǎn)

，

一般情況下不能準(zhǔn)確地描述

。2

離散程度分析●(

)四分位差（Quartile

deviation）●

指的是一組數(shù)據(jù)的上四位數(shù)和下四分位數(shù)之差

，

反映了數(shù)據(jù)分布的中心

、散布情況的特征

，

它表示的是

中間50%的數(shù)據(jù)的離散程度

，

因此也不會(huì)受到極端值的影響

。

四分位數(shù)越小

，

表示中間的一半數(shù)據(jù)越

集中

?！?

)平均差（Mean

deviation）●

指的是一組數(shù)據(jù)中各個(gè)值與其平均數(shù)的差的絕對(duì)值的平均數(shù)

。平均差越大

，

表明樣本值與均值差異越大，

數(shù)據(jù)的離散程度越大

。平均差充分運(yùn)用了數(shù)據(jù)中的每個(gè)樣本值

，

因此是一個(gè)能較全面反映數(shù)據(jù)離散程度

的指標(biāo)

。2

離散程度分析●(

)方差或標(biāo)準(zhǔn)差（Variance）●

指的是數(shù)據(jù)中各個(gè)值與其平均數(shù)離差的平方的平均數(shù)

。

能夠反映出數(shù)據(jù)偏離均值的程度

，

是衡量數(shù)據(jù)離

散程度最常用的指標(biāo)

。方差或標(biāo)準(zhǔn)差越小

，

表示數(shù)據(jù)越集中

，

數(shù)據(jù)的離散程度越小

。●(

)

變異系數(shù)（Coefficientofvariation）●

也叫作離散系數(shù)

，

它是標(biāo)準(zhǔn)差與均值之比

。變異系數(shù)可以用來(lái)比較不同數(shù)據(jù)集之間的離散程度

。變異系

數(shù)越小

，

表明數(shù)據(jù)的離散程度越小

。3

分布形狀分析●

離散程度和集中程度的度量方式選擇是否恰當(dāng)

，

與數(shù)據(jù)分布關(guān)系密切

。在分析之前首先觀察數(shù)據(jù)

的分布形狀

，

對(duì)于選擇合適的指標(biāo)對(duì)數(shù)據(jù)的整體情況進(jìn)行描述

，

避免產(chǎn)生錯(cuò)誤的分析結(jié)果很有必

要

?！?/p>

(

)偏態(tài)（Skewness）●

是對(duì)數(shù)據(jù)分布對(duì)稱性的一種度量

，

通過(guò)計(jì)算數(shù)據(jù)相對(duì)于中心點(diǎn)的傾斜方向以及程度

，

衡量數(shù)據(jù)分布的

對(duì)稱性

，

如果一組數(shù)據(jù)是對(duì)稱的

，

則偏態(tài)系數(shù)為0

?！?/p>

偏態(tài)系數(shù)的正負(fù)表明了數(shù)據(jù)分布是否對(duì)稱

，

以及傾斜的方向

，

而絕對(duì)值的大小表明了傾斜的程度

。3

分布形狀分析●

離散程度和集中程度的度量方式選擇是否恰當(dāng)

，

與數(shù)據(jù)分布關(guān)系密切

。在分析之前首先觀察數(shù)據(jù)

的分布形狀

，

對(duì)于選擇合適的指標(biāo)對(duì)數(shù)據(jù)的整體情況進(jìn)行描述

，

避免產(chǎn)生錯(cuò)誤的分析結(jié)果很有必

要

。●（2）

峰度（Kurt

is）●

是對(duì)數(shù)據(jù)分布峰部尖度的一種度量

，

峰度是和標(biāo)準(zhǔn)正態(tài)分布相比較而言的

?！?/p>

如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布

，

則峰度系數(shù)為0；當(dāng)峰度系數(shù)大于0時(shí)

，

表明數(shù)據(jù)的分布是尖峰分布

，

數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為集中；

當(dāng)峰度系數(shù)小于0時(shí)

，

表明數(shù)據(jù)的分布是扁平分布

，

數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為分散

。第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計(jì)量模型第六章

數(shù)據(jù)挖掘分類預(yù)測(cè)模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會(huì)網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第四章

數(shù)據(jù)預(yù)處理第

一

節(jié)

數(shù)據(jù)預(yù)處理●

各行各業(yè)每天的數(shù)據(jù)規(guī)模不斷增加

，

數(shù)據(jù)質(zhì)量成為重要問(wèn)題

?！?/p>

這些數(shù)據(jù)被獲取之后

，

往往不能直接拿來(lái)進(jìn)行分析

，

需要對(duì)數(shù)據(jù)的缺失

、

異常等情況進(jìn)行判斷處

理

，

并結(jié)合具體分析的需要對(duì)數(shù)據(jù)進(jìn)行變換

。1

數(shù)據(jù)預(yù)處理的目的●

我們實(shí)際搜集到的原始數(shù)據(jù)經(jīng)常是不完全的

、

有異常的

、

冗余的

、模糊的

，

甚至矛盾的

?！?/p>

導(dǎo)致這種結(jié)果的原因也有很多種：

收集數(shù)據(jù)的設(shè)備可能出現(xiàn)故障；當(dāng)用戶不希望提交個(gè)人信息時(shí)，

可能故意輸入錯(cuò)誤信息；

數(shù)據(jù)輸入

、傳輸時(shí)出現(xiàn)錯(cuò)誤；

不同數(shù)據(jù)源命名約定或者所用數(shù)據(jù)代碼不

一致等等

?！?/p>

在海量的實(shí)際數(shù)據(jù)中無(wú)意義的成分也很多

，

非常不利于后續(xù)的模型以及算法的訓(xùn)練

?！?/p>

預(yù)處理的目

的是為后續(xù)的模型提供滿足要求

、

更加具有針對(duì)性的數(shù)據(jù)

，

從而提高數(shù)據(jù)分析效率和

準(zhǔn)確率

。2

數(shù)據(jù)預(yù)處理的主要任務(wù)●

數(shù)據(jù)清洗●

對(duì)數(shù)據(jù)中的缺失值

、異常值

、不一致等情況進(jìn)行分析和處理●

數(shù)據(jù)集成●

為了滿足數(shù)據(jù)分析需要

，

合并來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)

，

并保證數(shù)據(jù)的一致性

?！?/p>

數(shù)據(jù)變換●

用各種方式變換數(shù)據(jù)原本的數(shù)值

，

使得數(shù)據(jù)集在不失真的情況下

，

更能滿足下一步處理的需要

，

主要包

括規(guī)范化

、

函數(shù)變化

、數(shù)據(jù)類型變化等

。●

數(shù)據(jù)規(guī)約●

產(chǎn)生更小但是能夠代表原有數(shù)據(jù)集合特點(diǎn)的新數(shù)據(jù)集

。主要有屬性規(guī)約

、數(shù)值規(guī)約等方法

。3

數(shù)據(jù)清洗●

(

)

缺失值分析●

缺失值是指在原始數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的某個(gè)或者某些屬性的值是不完全的

，

或者是不正

確的

。●

缺失值存在的原因常見(jiàn)的有：

信息暫時(shí)無(wú)法獲取或信息獲取的成本較高；

信息在儲(chǔ)存或傳輸過(guò)程中丟失；

屬性值不存在等

?！?2

)缺失值處理方法：

刪除●

方法簡(jiǎn)單易行

、非常有效

、迅速

，

但是它以減少數(shù)據(jù)量為代價(jià)來(lái)?yè)Q取信息的完備

，

這樣做可能會(huì)將有用

的信息一并刪除

。3

數(shù)據(jù)清洗●(

)

缺失值處理方法：

數(shù)據(jù)填充●

當(dāng)我們獲取的數(shù)據(jù)集較小時(shí)

，

更不能直接刪除數(shù)據(jù)

，

這時(shí)就需要對(duì)缺失值進(jìn)行插補(bǔ)

。●

①指定值填充●

將空值作為一種特殊的屬性值進(jìn)行處理

，

有可能在后期的數(shù)據(jù)分析過(guò)程中

，

算法誤以為它們有實(shí)際的意義

，

而導(dǎo)致模型的錯(cuò)誤

?！?/p>

②使用屬性的集中度量填充●

根據(jù)數(shù)據(jù)的集中分布來(lái)填補(bǔ)缺失值

，

方法缺乏理論依據(jù)●

③插值法填充●

插值法類似于函數(shù)擬合

，

利用在某段區(qū)間中已知的若干點(diǎn)的函數(shù)值

，

擬合出適當(dāng)?shù)暮瘮?shù)

，

那么在區(qū)間上所有

點(diǎn)的值都可以用這個(gè)函數(shù)來(lái)近似

，

這樣對(duì)于缺失記錄

，

就可以用函數(shù)計(jì)算出的結(jié)果對(duì)缺失值進(jìn)行填補(bǔ)

?！癯Ｒ?jiàn)的差值法有拉格朗日差值法和牛頓差值法

。3

數(shù)據(jù)清洗●(

)

缺失值處理方法：

數(shù)據(jù)填充●

④K最近鄰數(shù)據(jù)填充●

基本原理是根據(jù)與此實(shí)例相近的幾個(gè)實(shí)例的均值進(jìn)行填充

?！?/p>

此方法用相似實(shí)例取值的均值進(jìn)行插補(bǔ)

，

更加合理

。但是該方法引入了數(shù)據(jù)間的自相關(guān)

，

這可能會(huì)

給后期的模型分析造成一定的偏差

?！?/p>

⑤模型預(yù)測(cè)填充●

通過(guò)建模的方式

，

用已有值來(lái)建立變量間的模型關(guān)系

，

從而擬合出缺失值

。在這個(gè)情景下

，

數(shù)據(jù)完

整的記錄組成模型的訓(xùn)練集

，

而對(duì)缺失值的預(yù)測(cè)實(shí)際上是模型的應(yīng)用

?！?/p>

缺失值處理的方法有很多

，

各有優(yōu)劣

，

無(wú)論是以哪種方式填充

，

都無(wú)法避免對(duì)原數(shù)據(jù)的影響，

使得數(shù)據(jù)有偏

。3

數(shù)據(jù)清洗●

(

)

異常值分析●

異常值

，

也叫作離群點(diǎn)

、

噪聲點(diǎn)

，

指的是在數(shù)值

、

結(jié)構(gòu)

、特征等方面與大多數(shù)數(shù)據(jù)的表現(xiàn)顯

著不同的數(shù)據(jù)樣本

?！?/p>

產(chǎn)生異常值的常見(jiàn)原因：

信息錄入時(shí)出現(xiàn)人為錯(cuò)誤或系統(tǒng)誤差

，

有時(shí)候環(huán)境等因素也會(huì)帶來(lái)

數(shù)據(jù)的極端變化

?！?/p>

分析異常值的常用方法：

箱線圖●

箱線圖也稱盒形圖

，

在箱線圖中標(biāo)示了代表數(shù)據(jù)分布的下四分位數(shù)

、

中位數(shù)和上四分位數(shù)

?！?/p>

它相對(duì)穩(wěn)定

，

包含了數(shù)據(jù)集中50%的數(shù)值

，

不會(huì)受到異常值的影響

。●

根據(jù)偏離程度的不同

，

箱線圖分析中將異常值分為兩類：

偏離程度較小的定義為離群值

，

偏離程度

較大的定義為極端值

。偏離上、下四分位數(shù)的程度不及極端值，但

仍然有一定偏離程度的值被判定為離群值。比上四分位數(shù)高出某范圍或比下四分位數(shù)低某范圍的值被判定為極端值?！?/p>

(

)

異常值分析●

箱線圖3

數(shù)據(jù)清洗3

數(shù)據(jù)清洗●（5）

異常值處理●

需要分析異常值是不是人為錯(cuò)誤產(chǎn)生的

?！?/p>

如果是由于環(huán)境變化產(chǎn)生的

，

這些異常值中通常就含有有用的信息

，

可以進(jìn)行單獨(dú)建模等處

理

?！?/p>

對(duì)于人為錯(cuò)誤產(chǎn)生的異常值

，

可以采用如下方法處理：●

①直接刪除●

將含有異常值的記錄直接刪除

。

該方法操作簡(jiǎn)單

，

同直接刪除有缺失值的記錄一樣

，

一般適用于數(shù)

據(jù)集合較大

，

異常值占比較小的情形

。●

②用其他值替代異常值●

可以利用填補(bǔ)的方法

，

將異常值利用數(shù)據(jù)的平均值

、

中位數(shù)等進(jìn)行替換和修正

，

也可以通過(guò)前面介

紹的缺失值插補(bǔ)的其他方法對(duì)異常值進(jìn)行修正

。4

數(shù)據(jù)集成●

數(shù)據(jù)來(lái)自不同渠道并且用不同方式獲取時(shí)

，

有可能會(huì)導(dǎo)致對(duì)同一個(gè)對(duì)象的不同描述

?！?/p>

數(shù)據(jù)集成不僅將數(shù)據(jù)進(jìn)行簡(jiǎn)單合并

，

而且需要同時(shí)處理數(shù)據(jù)集的冗余和不一致

，

這對(duì)于后續(xù)的分

析過(guò)程的準(zhǔn)確性和速度有很大影響

?！?/p>

(

)

實(shí)體識(shí)別●

每個(gè)數(shù)據(jù)來(lái)源通常有各自的數(shù)據(jù)定義和組織方法

，

因此

，

數(shù)據(jù)集成中經(jīng)常會(huì)遇到實(shí)體識(shí)別的問(wèn)題

，

即

同一個(gè)對(duì)象實(shí)體在不同的數(shù)據(jù)集中有不同的名稱（異名同義）

或者同樣的名稱不對(duì)應(yīng)同一個(gè)實(shí)體（同名異義）

等

?！?/p>

在進(jìn)行數(shù)據(jù)實(shí)體識(shí)別時(shí)

，

不能被不規(guī)范的命名誤導(dǎo)

，

需要進(jìn)行業(yè)務(wù)調(diào)研

，

準(zhǔn)確地確認(rèn)個(gè)表中每個(gè)屬性

的實(shí)際含義

，

對(duì)數(shù)據(jù)表

、屬性字段等進(jìn)行統(tǒng)一的規(guī)范命名

，

完成對(duì)數(shù)據(jù)的集成

。4

數(shù)據(jù)集成●

(

)冗余和相關(guān)分析

●

冗余●

如果一個(gè)特征屬性可以由其他屬性導(dǎo)出或者計(jì)算得到

，

則這個(gè)特征屬性可以被認(rèn)定為冗余

?！?/p>

屬性冗余的判定依據(jù)是屬性之間是否存在較強(qiáng)的相關(guān)性

。通過(guò)檢測(cè)屬性之間的相關(guān)性

，

即進(jìn)行相關(guān)分析

就可以甄別出冗余屬性

。●

相關(guān)分析●

具體方法主要分為兩種：

)對(duì)于標(biāo)稱型數(shù)據(jù)

，

通常采用的方法為卡方檢驗(yàn)；

)對(duì)于數(shù)值型數(shù)據(jù)

，

可

以通過(guò)相關(guān)系數(shù)或者協(xié)方差來(lái)衡量屬性之間的相關(guān)性

。數(shù)據(jù)冗余有時(shí)會(huì)提高數(shù)據(jù)分析的效率

。4

數(shù)據(jù)集成●

(

)

實(shí)例重復(fù)●

實(shí)例重復(fù)：

給定的唯一的數(shù)據(jù)實(shí)體存在兩個(gè)或者多個(gè)相同的記錄實(shí)例

。重復(fù)數(shù)據(jù)會(huì)嚴(yán)重影響后續(xù)數(shù)據(jù)分

析的效果

?！?/p>

對(duì)于數(shù)據(jù)中實(shí)例重復(fù)的問(wèn)題

，

需要調(diào)查確定每個(gè)數(shù)據(jù)集的主鍵

，

對(duì)于沒(méi)有主鍵的數(shù)據(jù)表

，

需要確定合適

的主鍵

，

或者對(duì)數(shù)據(jù)表進(jìn)行拆分或整合

，

從而有效地解決實(shí)例重復(fù)的問(wèn)題

?！?/p>

(

)

數(shù)據(jù)沖突●

對(duì)于同一實(shí)體

，

來(lái)自不同數(shù)據(jù)源的相同的屬性值不同

。●

原因：

這可能是因?yàn)楂@取信息的時(shí)間點(diǎn)不同

，

屬性值發(fā)生了變化；

可能是因?yàn)樵诓煌臄?shù)據(jù)源中其表示

、

單位或者編碼不同；

相同的屬性可能抽象在不同的層次

。●

解決方法：

需要明確造成數(shù)據(jù)沖突的原因

，

如果是單位

、計(jì)量方法等不同

，

可以通過(guò)數(shù)據(jù)變換對(duì)數(shù)據(jù)進(jìn)

行變換整理；

如果數(shù)據(jù)沖突實(shí)在無(wú)法避免或者變換

，

就需要根據(jù)實(shí)際的業(yè)務(wù)需求考慮沖突數(shù)據(jù)

，

辨別出

正確的數(shù)值

。5

數(shù)據(jù)變換●

為了解決數(shù)據(jù)集成中的不一致問(wèn)題

，

以及更容易被后續(xù)模型處理

，

提高模型的擬合度

，

需要將原

有數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?/p>

?！?/p>

(

)

函數(shù)變換●

函數(shù)變換是指對(duì)樣本中的原始數(shù)據(jù)直接使用某些數(shù)學(xué)函數(shù)進(jìn)行變換

，

使得處理后的數(shù)據(jù)更適合模

型后續(xù)的處理

。●

選擇數(shù)據(jù)變換函數(shù)需要考量：●

變換后的數(shù)據(jù)要分布在合理的區(qū)間

，

或者說(shuō)變換后的數(shù)據(jù)符合對(duì)現(xiàn)實(shí)生活中分布的認(rèn)知

?！?/p>

變換后的數(shù)據(jù)的分布特征

、

正負(fù)性和平穩(wěn)性等都可能會(huì)發(fā)生改變

，

所以在進(jìn)行函數(shù)變換前

，

應(yīng)該預(yù)判變

換后是否會(huì)影響后續(xù)數(shù)據(jù)模型的建立和分析的有效性

。5

數(shù)據(jù)變換●

(

)

規(guī)范化●

數(shù)據(jù)規(guī)范化是指將原始數(shù)據(jù)按照一定的比例縮放

，

使其落入一個(gè)較小的特定區(qū)間

。●

一般來(lái)說(shuō)

，

通過(guò)數(shù)據(jù)的縮放能夠消除數(shù)據(jù)的量綱

，

消除度量單位引起的數(shù)值差異

，

即將屬性

數(shù)據(jù)縮放到一個(gè)特定區(qū)間

。●

①最小—最大規(guī)范化●

也稱為離散標(biāo)準(zhǔn)化

，

利用某屬性的最大值和最小值

，

將該屬性的取值映射到[0

1]之間

?！?/p>

優(yōu)點(diǎn)是算法操作簡(jiǎn)單

，

且保留了原始數(shù)據(jù)存在的關(guān)系●

缺點(diǎn)是規(guī)范值不穩(wěn)定

容易受極值的影響

，

方法適用于數(shù)據(jù)比較集中的情況

。5

數(shù)據(jù)變換●

(

)

規(guī)范化●

③小數(shù)定標(biāo)規(guī)范化●

通過(guò)移動(dòng)數(shù)據(jù)的小數(shù)位數(shù)

，

即除以10的某次方

，

將數(shù)據(jù)映射到[-1

1]之間

。

移動(dòng)的小數(shù)位數(shù)取決

于數(shù)據(jù)中最大絕對(duì)值的位數(shù)

。●

只是移動(dòng)小數(shù)點(diǎn)

，

不會(huì)破壞原始數(shù)據(jù)的分布結(jié)構(gòu)

，

當(dāng)然也會(huì)受到極值的影響

。5

數(shù)據(jù)變換●

(

)

離散化●

將數(shù)據(jù)從連續(xù)型數(shù)值數(shù)據(jù)轉(zhuǎn)換為離散型標(biāo)稱數(shù)據(jù)

?！?/p>

進(jìn)行數(shù)據(jù)離散化通常是為了滿足特定模型的需要

，

將數(shù)據(jù)類型從連續(xù)轉(zhuǎn)換到

，

或者在某些情況下將已有的離散型數(shù)

據(jù)進(jìn)行類別合并

，

減少類別數(shù)量

?！?/p>

①等寬離散化●將原始連續(xù)數(shù)據(jù)的區(qū)間劃分成具有相同寬度的子區(qū)間

，

比較簡(jiǎn)單

，

缺點(diǎn)在于沒(méi)有考慮實(shí)際數(shù)據(jù)的分布情況

，

可能會(huì)導(dǎo)致離

散化之后建立的數(shù)據(jù)模型樣本不均衡

?！?/p>

②等頻離散化●根據(jù)連續(xù)型數(shù)值數(shù)據(jù)的分布劃分類別

，

劃分后的各個(gè)區(qū)間包含的數(shù)據(jù)點(diǎn)的個(gè)數(shù)是相等的

，

為保證各個(gè)區(qū)間包含的實(shí)例個(gè)數(shù)

相等

，

可能會(huì)將原本相同的兩個(gè)數(shù)值劃分到不同類別中

，

從而影響了后續(xù)建立模型的準(zhǔn)確性

?！?/p>

③聚類離散化●用聚類算法

，

根據(jù)數(shù)據(jù)的相似性將原始數(shù)據(jù)分成多個(gè)類別

，

實(shí)現(xiàn)離散化

?！裥Ч^好的一類離散方法，●缺點(diǎn)：需要用戶自

己規(guī)定聚類個(gè)數(shù)

，

聚類的效果受到經(jīng)驗(yàn)的影響

。5

數(shù)據(jù)變換●(

)

獨(dú)熱編碼（One-hot

encoding

）●

在數(shù)據(jù)集中標(biāo)稱數(shù)據(jù)有兩種常見(jiàn)類型：

第

一

，

分類的取值有大小之分

，

直接用數(shù)值表示類別

，

不

需要進(jìn)行轉(zhuǎn)換；

第二

，

離散特征的取值之間沒(méi)有大小之分

，

無(wú)法直接比較類別的差異

，

此時(shí)就需

要對(duì)特征進(jìn)行獨(dú)熱編碼

?！?/p>

根據(jù)類別可能的數(shù)量設(shè)定位數(shù)N

，

建立N位編碼

，

每一個(gè)類別對(duì)應(yīng)一個(gè)位置

，

因?yàn)闃颖局荒軐儆?/p>

一個(gè)類別

，

所以N位獨(dú)熱編碼中只有一位有效

?！?/p>

離散特征進(jìn)行獨(dú)熱編碼之后

，

可以計(jì)算特征之間的距離或相似度

?！?/p>

如果某個(gè)類別有多個(gè)可能的取值

，

則編碼的位數(shù)會(huì)相應(yīng)地增加

，

有時(shí)會(huì)影響處理效率

。6

數(shù)據(jù)規(guī)約●

數(shù)據(jù)集可能規(guī)模較大

，

大幅度降低數(shù)據(jù)分析效率

。

數(shù)據(jù)規(guī)約就是能夠降低屬性維度

、減少樣本數(shù)量的

方法

?！?/p>

核心是要產(chǎn)生規(guī)模更小但能最大可能保持原始數(shù)據(jù)特點(diǎn)和完整性的新數(shù)據(jù)集

?！?/p>

(

)

屬性規(guī)約●

屬性規(guī)約通過(guò)減少屬性數(shù)量

，

達(dá)到減少數(shù)據(jù)集的目

的

?！?/p>

主成分分析（Principal

Component

Analysi

,PCA）

是屬性規(guī)約的主要方法

?！?/p>

基本思想是針對(duì)原始數(shù)據(jù)集

，

重新構(gòu)造一組有代表性的

、

互不相關(guān)的新特征

?！癫幌嚓P(guān)意味著這些新特征包含的信息彼此不重復(fù)

，

而有代表性則說(shuō)明

，

這些特征還能夠盡量多地涵蓋原始數(shù)

據(jù)的信息

。●

對(duì)于新特征互不相關(guān)的要求

，

可以利用正交基向量互不相關(guān)的性質(zhì)

，

通過(guò)構(gòu)造多維度正交基向量來(lái)保證；

而

對(duì)于包含盡量多的信息的要求

，

則通過(guò)樣本在新特征上取值的方差來(lái)衡量

，

方差越大

，

說(shuō)明數(shù)據(jù)在此新特征

上越分散

，

包含的信息也越多

?！?/p>

(

)

數(shù)值規(guī)約●

用部分或者較小規(guī)模的數(shù)據(jù)來(lái)替換原始數(shù)據(jù)

?！?/p>

①直方圖●

通過(guò)劃分子區(qū)間的方式減少原數(shù)據(jù)的屬性取值

?！?/p>

子區(qū)間的劃分可以是等寬的

，

也可以是等頻的

?！?/p>

②聚類●

利用聚類進(jìn)行數(shù)值規(guī)約

，

將數(shù)據(jù)分簇

，

使得同簇的對(duì)象相似

，

不同簇的對(duì)

表值來(lái)替換原始數(shù)據(jù)

。相異

用每個(gè)數(shù)據(jù)簇中的代6

數(shù)據(jù)規(guī)約6

數(shù)據(jù)規(guī)約●

(

)

數(shù)值規(guī)約

●

③抽樣●

基本思想是從原始數(shù)據(jù)集合中隨機(jī)抽取小得多的子集

，

用其代表原始數(shù)據(jù)集

。●

抽樣的方法主要包括簡(jiǎn)單隨機(jī)抽樣

、

分層抽樣

?！?/p>

簡(jiǎn)單隨機(jī)抽樣●

每條數(shù)據(jù)記錄以相同的概率被抽中

。

具體分為無(wú)放回和有放回兩種

。兩者的區(qū)別在于當(dāng)一個(gè)數(shù)據(jù)記

錄從原始數(shù)據(jù)集中被抽取之后

，

無(wú)放回抽樣將在剩余數(shù)據(jù)集中繼續(xù)抽取新數(shù)據(jù)；

而有放回抽樣會(huì)將

被抽取的數(shù)據(jù)放回原始數(shù)據(jù)集

，

下一次再次以同樣的概率被抽取

。

該方法主要適用于總體個(gè)數(shù)較小

且樣本類別分布均衡的情況

。●

分層抽樣●

先根據(jù)類別將原始數(shù)據(jù)集劃分為不同的層（或組）

，

層之間是互不相交的

，

然后對(duì)每一層各自進(jìn)行

抽樣

，

最后將各層抽樣的結(jié)果進(jìn)行整合

，

得到對(duì)于原始數(shù)據(jù)集的抽樣

。第二節(jié)

特征工程●

特征指的是對(duì)數(shù)據(jù)各方面的描述

，

是進(jìn)行分析和解決問(wèn)題的基礎(chǔ)

。●

好的數(shù)據(jù)和特征是所有模型和算法發(fā)揮到極致的前提

。

因此

，

需要圍繞分析的問(wèn)題

，

在原始數(shù)

據(jù)特征中找到既能盡量多地代表全部特征又能使算法模型達(dá)到最佳性能的特征子集

。●

特征工程包括三個(gè)方面：

特征構(gòu)建

、特征提取和特征選擇

。●

特征構(gòu)建●

是指圍繞需要解決的問(wèn)題

，

用人工方法從原始數(shù)據(jù)中找出一些有代表性的

、

能夠刻畫研究對(duì)象關(guān)鍵屬性的特征的過(guò)程

。●

特征提取●

通過(guò)特征轉(zhuǎn)換

，

依據(jù)屬性取值之間的相關(guān)關(guān)系

，

去除不重要以及冗余的特征

，

減少特征數(shù)量的過(guò)程

。第二節(jié)

特征工程●

數(shù)據(jù)樣本的屬性特征分類●

可以分為三種類型：●

對(duì)當(dāng)前的學(xué)習(xí)任務(wù)有用的屬性稱為

“

相關(guān)特征

”

，

可以提升模型的效果；●

對(duì)當(dāng)前的學(xué)習(xí)任務(wù)沒(méi)用的稱為

“

無(wú)用特征

”；●

“

冗余特征

”是指其特征包含的信息能夠從其他特征中計(jì)算或者推演出來(lái)

?！?/p>

特征選擇●

科學(xué)剔除不相關(guān)或者冗余特征的過(guò)程1

特征選擇的目的●

“

維數(shù)災(zāi)難

”就是當(dāng)數(shù)據(jù)的特征維度超過(guò)某個(gè)值之后

，

隨著特征數(shù)量的進(jìn)一步增加

，

模型訓(xùn)練的

效率會(huì)降低

，

同時(shí)訓(xùn)練出的模型準(zhǔn)確度反而會(huì)下降

。●

為了降低模型的復(fù)雜性

、

降低模型訓(xùn)練的時(shí)間

，

同時(shí)提高模型的效果

、

準(zhǔn)確率

，

我們需要進(jìn)行特

征選擇

。2

特征選擇的過(guò)程●

特征選擇的目標(biāo)就是從備選的特征子集中選擇出對(duì)算法模型表現(xiàn)最好的子集

。●

特征選擇的過(guò)程一般為特征子集搜索

、

構(gòu)建候選子集

、

利用評(píng)價(jià)函數(shù)對(duì)子集進(jìn)行評(píng)價(jià)

，

然后利用

停止規(guī)則

，

驗(yàn)證所得到的特征子集是否滿足要求

。3

子集搜索●

(

)

完全搜索●

基本思路是遍歷原始特征所組成的所有可能的特征子集

從中尋找最優(yōu)

?！?/p>

需要對(duì)所有可能的特征子集利用評(píng)價(jià)函數(shù)進(jìn)行計(jì)算比較

，

評(píng)價(jià)函數(shù)表現(xiàn)最好的特征子集為最終的

搜索結(jié)果

。●

避免了局部最優(yōu)解

，

但是遍歷會(huì)帶來(lái)很大的計(jì)算開銷

，

其復(fù)雜度是指數(shù)級(jí)別的

。3

子集搜索●

(

)

啟發(fā)式搜索●

從某一個(gè)候選特征子集出發(fā)

，

向其中不斷添加或者減少特征

，

不斷構(gòu)建出新的特征子集

，

并在改

變的過(guò)程中對(duì)候選子集進(jìn)行評(píng)價(jià)

?！?/p>

序列前向選擇（Sequential

Forward

Selection

SFS）

是不斷將新的特征添加到候選子集的方

法

。

該方法的搜索從空集開始

，

每次選擇一個(gè)特征加入當(dāng)前子集

，

加入的判斷標(biāo)準(zhǔn)是評(píng)價(jià)函數(shù)得

到了優(yōu)化

，

這個(gè)過(guò)程持續(xù)進(jìn)行

，

直到評(píng)價(jià)函數(shù)的值不能變得更優(yōu)時(shí)停止

?！?/p>

序列后向選擇（Sequential

Backward

election

SBS）

，

該方法以特征全集為初始的特征子

集

，

每次從特征子集中剔除一個(gè)特征

，

剔除的標(biāo)準(zhǔn)是剔除某特征后

，

評(píng)價(jià)函數(shù)值會(huì)變優(yōu)

。●

雙向搜索（BiDirectional

,BDS）

,將前面介紹的兩種方法結(jié)合起來(lái)進(jìn)行搜索

，

當(dāng)兩者達(dá)

到相同的特征子集時(shí)停止搜索

。3

子集搜索●

(

)

隨機(jī)搜索●

基本思想：

在啟發(fā)式算法中進(jìn)行更改

，

使之能夠在一定程度上跳出局部最優(yōu)值●

隨機(jī)產(chǎn)生序列選擇算法●

隨機(jī)產(chǎn)生一個(gè)特征子集

，

再在該特征子集上執(zhí)行前向搜索算法和后向搜索算法

。

多次進(jìn)行此過(guò)程后

，

找

到表現(xiàn)最優(yōu)的子集作為特征搜索的結(jié)果

。●

模擬退火算法●

核心思想是有一定隨機(jī)概率拒絕表現(xiàn)更優(yōu)的子集

，

防止陷入局部最優(yōu)

。4

子集評(píng)價(jià)●

依據(jù)評(píng)價(jià)函數(shù)對(duì)候選特征子集的優(yōu)劣進(jìn)行評(píng)價(jià)的過(guò)程

。●

一個(gè)特征子集的優(yōu)劣往往是對(duì)于特定的評(píng)價(jià)函數(shù)來(lái)說(shuō)的

，

對(duì)于不同問(wèn)題背景下的評(píng)價(jià)函數(shù)，

同一特征子集的優(yōu)劣可能表現(xiàn)得不同

。5．

特征選擇的方法?根據(jù)評(píng)價(jià)和搜索與后續(xù)模型算法的聯(lián)系的緊密程度，

特征選擇方法可以分為三類。5．

特征選擇的方法?

(

)

過(guò)濾式?

基本思想：

首先選擇出在特征評(píng)價(jià)指標(biāo)下表現(xiàn)較好的特征子集，

然后利用最終得到的最優(yōu)特征子集去訓(xùn)練模型。?

過(guò)濾式特征選擇的最大特點(diǎn)在于選擇特征子集的過(guò)程與模型的表現(xiàn)效果無(wú)關(guān)，兩者是獨(dú)立進(jìn)行的

。過(guò)濾式特征選擇對(duì)特征的評(píng)價(jià)與后續(xù)的模型算法無(wú)關(guān)，是基于數(shù)據(jù)特征本身的性質(zhì)進(jìn)行評(píng)價(jià)的。?

優(yōu)點(diǎn)：

通用性較強(qiáng)，

選擇的特征子集可以應(yīng)用于多個(gè)問(wèn)題背景；

算法在特征

選擇時(shí)不需要進(jìn)行模型訓(xùn)練優(yōu)化，

復(fù)雜性較低；

適用于大規(guī)模且需要高效率選擇特征的數(shù)據(jù)集。?

缺點(diǎn)：

所選擇的特征子集在模型準(zhǔn)確率上通常低于其他兩種特征選擇方法。5．

特征選擇的方法5．

特征選擇的方法?

(

)

過(guò)濾式?②依賴性度量?又稱為相關(guān)性度量，

基于的假設(shè)為：

特征子集所包含的特征應(yīng)該與目標(biāo)屬性的相關(guān)度較高，

而子集中特征之間的相關(guān)度較低。?

皮爾遜相關(guān)系數(shù)?

被廣泛應(yīng)用于對(duì)兩個(gè)連續(xù)型數(shù)據(jù)屬性取值之間的相關(guān)程度的度量。?

用協(xié)方差除以兩個(gè)變量的標(biāo)準(zhǔn)差得到，計(jì)算結(jié)果介于-1到1之間，度量的是兩個(gè)屬性之間是否存在線性關(guān)系。?

卡方檢驗(yàn)?

衡量?jī)蓚€(gè)離散屬性之間的相關(guān)程度。?

根本思想是：

首先假設(shè)某特征屬性和目標(biāo)屬性是獨(dú)立的，

也就是說(shuō)，特征屬性與目標(biāo)結(jié)果沒(méi)有相關(guān)性，那么在此特征的取值范圍上，

目標(biāo)屬性的分布理論上應(yīng)該是均勻的，通過(guò)比較理論值與實(shí)際值的吻合程度來(lái)確定原假設(shè)是否成立。5．

特征選擇的方法?

(

)

過(guò)濾式?

③信息增益度量?

信息增益的概念來(lái)自信息熵，

通過(guò)衡量按照某屬性取值劃分后數(shù)據(jù)集的“純度

”評(píng)價(jià)屬性的重要性。?

④一致性度量?

基于以下假設(shè)：

如果某特征對(duì)于研究目標(biāo)屬性是重要的，

那么對(duì)于任意兩個(gè)樣本來(lái)說(shuō)，

當(dāng)它們?cè)谔卣魃系娜≈迪嗤瑫r(shí)，

其在目標(biāo)屬性中的取值也應(yīng)該相同。?

一致性常用不一致率來(lái)衡量，

不一致率越小，

表示根據(jù)這一評(píng)價(jià)標(biāo)準(zhǔn)，

特征子集的表現(xiàn)越好。5．

特征選擇的方法?

(

)

包裹式?直接將后續(xù)要使用的模型性能的好壞作為特征選擇的評(píng)價(jià)標(biāo)準(zhǔn)，

選擇

使得后續(xù)模型表現(xiàn)最好的特征子集作為最優(yōu)子集

。包裹式特征選擇的結(jié)果不是普遍適用的，

是直接針對(duì)給定的模型來(lái)進(jìn)行特征選擇的。?優(yōu)點(diǎn)：

顯然從最終模型的性能、準(zhǔn)確率等表現(xiàn)來(lái)看，

包裹式特征選擇要優(yōu)于過(guò)濾式特征選擇。?缺點(diǎn)：

需要選擇不斷地訓(xùn)練模型，

以得到表現(xiàn)最好的特征子集，

所以

相對(duì)于過(guò)濾式特征選擇來(lái)說(shuō)，

其花費(fèi)的時(shí)間和成本都較大，

不適用于

較大規(guī)?；蛘邿o(wú)關(guān)特征較多的數(shù)據(jù)集。?

典型的包裹式特征選擇方法包括LVW（Las

Vegas

Wrapper）算法和遞

歸特征消除法RFE（recursive

feature

elimination）

。5．

特征選擇的方法?(

)

嵌入式?沒(méi)有專門的準(zhǔn)則對(duì)特征進(jìn)行評(píng)價(jià)，

而是將特征選擇的過(guò)程與模型

的訓(xùn)練過(guò)程完全融合在一起，在模型構(gòu)建訓(xùn)練的過(guò)程中自動(dòng)實(shí)現(xiàn)

了特征選擇。?常見(jiàn)的一種嵌入式特征選擇方式是進(jìn)行正則化，

把額外的懲罰項(xiàng)

加到原有模型的損失函數(shù)上，

通過(guò)最小化正則項(xiàng)，

使那些不重要

的特征所對(duì)應(yīng)的系數(shù)變成0，進(jìn)而實(shí)現(xiàn)特征選擇。?有些數(shù)據(jù)挖掘的算法在完成模型訓(xùn)練的同時(shí)，

自身就可以實(shí)現(xiàn)特

征選擇，

判斷哪些屬性對(duì)目標(biāo)屬性更重要

。在自身的訓(xùn)練過(guò)程中

完成了特征選擇，

也是一種嵌入式特征選擇方法。第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計(jì)量模型第六章

數(shù)據(jù)挖掘分類預(yù)測(cè)模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會(huì)網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第五章

計(jì)量模型第

一

節(jié)

時(shí)間序列分析●1

時(shí)間序列分析簡(jiǎn)介●（2）時(shí)間序列分析方法●

主要可以分為兩類：

描述性時(shí)序分析和統(tǒng)計(jì)時(shí)序分析

?！?/p>

描述性時(shí)序分析指的是

，

通過(guò)繪制時(shí)序圖等方式

，

比較

、觀察

、

發(fā)現(xiàn)時(shí)間序列中顯然存在的

一些變化趨勢(shì)

，

如數(shù)據(jù)逐漸增大或變小的趨勢(shì)性

，

或者數(shù)據(jù)變化呈現(xiàn)周期性等

。1

時(shí)間序列分析簡(jiǎn)介●（2）時(shí)間序列分析方法●

統(tǒng)計(jì)時(shí)序分析目前比較流行的方法是進(jìn)行時(shí)域分析

，

認(rèn)為時(shí)間序列的值之間存在有一定的相

關(guān)關(guān)系

，

而且這種相關(guān)關(guān)系通常具備某些統(tǒng)計(jì)規(guī)律

。●

時(shí)域分析就是利用模型刻畫時(shí)間序列的值中體現(xiàn)的關(guān)系的規(guī)律

。2

時(shí)間序列建模：

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《商務(wù)數(shù)據(jù)分析》課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔