《商務(wù)數(shù)據(jù)分析》課件_第1頁(yè)
《商務(wù)數(shù)據(jù)分析》課件_第2頁(yè)
《商務(wù)數(shù)據(jù)分析》課件_第3頁(yè)
《商務(wù)數(shù)據(jù)分析》課件_第4頁(yè)
《商務(wù)數(shù)據(jù)分析》課件_第5頁(yè)
已閱讀5頁(yè),還剩303頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

商務(wù)數(shù)據(jù)分析商務(wù)數(shù)據(jù)分析基本概念與框架商務(wù)數(shù)據(jù)分析常用方法商業(yè)應(yīng)用大綱●

第一部分●

第二部分●

第三部分總總分第

部分商務(wù)數(shù)據(jù)分析基本概念與框架(

兩章)第一章

商務(wù)數(shù)據(jù)分析基本概念第二章

商務(wù)數(shù)據(jù)分析框架第

商務(wù)數(shù)據(jù)分析基本概念第

節(jié)

商務(wù)數(shù)據(jù)分析概述●

商務(wù)數(shù)據(jù)分析指的是為解決商務(wù)決策問(wèn)題

,

選擇恰當(dāng)方法和工具對(duì)收集的數(shù)據(jù)進(jìn)行分析

得到隱

含的

、

未知的

、

有潛在價(jià)值的關(guān)系

、模式和趨勢(shì)

。●

數(shù)據(jù)和分析是其中的核心組成部分

。1

.

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

半結(jié)構(gòu)化

、

非結(jié)構(gòu)化數(shù)據(jù)●結(jié)構(gòu)化數(shù)據(jù)●指可以用二維形式展現(xiàn)和存儲(chǔ)的

,

用統(tǒng)一整齊格式表示的數(shù)據(jù)

見(jiàn)的有數(shù)字

、

符號(hào)等

?!窠Y(jié)構(gòu)化數(shù)據(jù)用二維表結(jié)構(gòu)表示時(shí)

,

一般用一行數(shù)據(jù)刻畫一個(gè)實(shí)體

而每一列表示實(shí)體的某一個(gè)屬性特征

?!窠Y(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)

、

排列有規(guī)律

,

易于處理

。●在商務(wù)活動(dòng)中

,

典型的結(jié)構(gòu)化數(shù)據(jù)包括商品的價(jià)格

銷量等數(shù)值型1

.

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

、

半結(jié)構(gòu)化

非結(jié)構(gòu)化數(shù)據(jù)●半結(jié)構(gòu)化數(shù)據(jù)●

指并非二維表形式能夠存儲(chǔ)的

,

但是有基本固定結(jié)構(gòu)模式的數(shù)據(jù)

。●

屬于同一類的實(shí)體可以有不同的屬性

,

且屬性的順序也可以不同

?!?/p>

常見(jiàn)的半結(jié)構(gòu)化數(shù)據(jù)有XML

、HTML

、JSON等

?!?/p>

例如

在電展示的商品信息1

.

數(shù)據(jù)類型●(1)結(jié)構(gòu)化

半結(jié)構(gòu)化

、

非結(jié)構(gòu)化數(shù)據(jù)●非結(jié)構(gòu)化數(shù)據(jù)●

指沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù)

如文檔

、

圖片

、視頻

、

音頻等數(shù)據(jù)

?!?/p>

對(duì)于非結(jié)構(gòu)化數(shù)據(jù)

,

一般存儲(chǔ)其二進(jìn)制的數(shù)據(jù)格式,●

例如商品的評(píng)論文本

、介紹圖片等

。1

.

數(shù)據(jù)類型●

(

2

)離散型

連續(xù)型數(shù)據(jù)●

離散型數(shù)據(jù)·是指數(shù)值只能用自然數(shù)或整數(shù)單位計(jì)算的數(shù)據(jù)·例如消費(fèi)者人數(shù)

、商品個(gè)數(shù)

、評(píng)論數(shù)量

、消費(fèi)者評(píng)論打分等

。

·這類數(shù)據(jù)一般由計(jì)數(shù)方法獲取

?!?/p>

連續(xù)型數(shù)據(jù)·

能夠在相應(yīng)范圍內(nèi)任意取值

,

例如消費(fèi)者購(gòu)買金額

、評(píng)論時(shí)間等

。2

.

數(shù)據(jù)分析類型●

(1

)

析●在商務(wù)數(shù)據(jù)分析中

,描述型分析是將歷史數(shù)據(jù)進(jìn)行定性或定量的描述

,

得出諸如單

日平均銷量

月度銷量總和等匯總數(shù)據(jù)

?!窕诿枋鲂头治?/p>

,

可以比較不同時(shí)間

、不同地區(qū)的表現(xiàn)

?!?/p>

(

2)

驗(yàn)

析●在商務(wù)數(shù)據(jù)分析中

驗(yàn)證型分析通常用來(lái)驗(yàn)證決策的后果

,

例如技術(shù)改進(jìn)

、策略變化、

產(chǎn)品升級(jí)等行為的發(fā)生是否達(dá)到預(yù)期目標(biāo)

?!?/p>

(

3

)

預(yù)

測(cè)

析●在商務(wù)數(shù)據(jù)分析中

,

預(yù)測(cè)型分析則是通過(guò)分析過(guò)去歷史數(shù)據(jù)和當(dāng)前相關(guān)的數(shù)據(jù)

,

對(duì)未

來(lái)可能出現(xiàn)的市場(chǎng)環(huán)境變化

、用戶痛點(diǎn)等關(guān)鍵問(wèn)題進(jìn)行預(yù)測(cè)

。3

.

數(shù)據(jù)分析方法●

(

1

)

描述統(tǒng)計(jì)●

描述統(tǒng)計(jì)是通過(guò)圖

、表等方式

對(duì)數(shù)據(jù)進(jìn)行整理

、分析

,

揭示數(shù)據(jù)的分布情況

、數(shù)字特征

、變量關(guān)系,

的是尋找數(shù)據(jù)中蘊(yùn)含的規(guī)律

。●

描述統(tǒng)計(jì)是最基礎(chǔ)的分析方法

,

它能夠讓我們對(duì)數(shù)據(jù)集有一個(gè)直觀的認(rèn)識(shí)

,

方便進(jìn)行后續(xù)的分析

?!癖热?/p>

,

客戶收入?yún)^(qū)間統(tǒng)計(jì)●

(

2

)

時(shí)間序列分析●

時(shí)間序列分析側(cè)重研究銷量

、價(jià)格等時(shí)間序列數(shù)據(jù)的互相依賴關(guān)系

?!?/p>

基本原理是:

事物發(fā)展有一定的延續(xù)性

,

利用過(guò)去的數(shù)據(jù)可以推測(cè)未來(lái)發(fā)展趨勢(shì)

?!癖热?/p>

,

預(yù)測(cè)價(jià)格和銷量3

.

數(shù)據(jù)分析方法●

(

3

)

回歸分析●

回歸分析是一種預(yù)測(cè)性的建模技術(shù)

,

它研究的是決策問(wèn)題和影響因素之間的關(guān)系

多用于預(yù)測(cè)分析

?!?/p>

相比于機(jī)器學(xué)習(xí)進(jìn)行預(yù)測(cè)的方法

,

回歸分析的優(yōu)勢(shì)在于可以定量地揭示某個(gè)影響因素對(duì)結(jié)果有多大的影

。●

例如

,

研究產(chǎn)品的受歡迎程度

。●

(

4

)

機(jī)器學(xué)習(xí)●

機(jī)器學(xué)習(xí)是一門交叉學(xué)科

,

涉及概率論

、

統(tǒng)計(jì)學(xué)

、算法等理論

?!?/p>

它的核心是使用算法解析數(shù)據(jù)

,

模擬人類的學(xué)習(xí)行為

,

對(duì)某件事情做出決定或預(yù)測(cè)

?!?/p>

例如

,

對(duì)用戶進(jìn)行細(xì)分

。3

.

數(shù)據(jù)分析方法●

(

5

)

社會(huì)網(wǎng)絡(luò)分析●

社會(huì)網(wǎng)絡(luò)是社會(huì)個(gè)體之間通過(guò)社會(huì)關(guān)系形成的網(wǎng)絡(luò)體系

?!?/p>

從分析對(duì)象來(lái)看

社會(huì)網(wǎng)絡(luò)分析既可分析網(wǎng)絡(luò)中單獨(dú)節(jié)點(diǎn)的特性(如重要性)

,

也可以分析整個(gè)網(wǎng)絡(luò)

的特性(如連通性)

。●

例如

,

用戶社區(qū)分析●

(

6

)

復(fù)雜數(shù)據(jù)分析●

復(fù)雜數(shù)據(jù)分析方法可以將文本

圖像

、視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為計(jì)算機(jī)可以理解和計(jì)算的數(shù)據(jù)

并參與

到建模中

。●

例如消費(fèi)者評(píng)論數(shù)據(jù)分析第二節(jié)

商務(wù)分析理論●

1.4P理論●

4

P

理論為我們?cè)谶M(jìn)行商務(wù)數(shù)據(jù)分析時(shí)如何確定分析對(duì)象和營(yíng)銷因素提供了重要的理論參考

?!?/p>

產(chǎn)品Product:

對(duì)產(chǎn)品進(jìn)行數(shù)據(jù)分析時(shí)

,

需要圍繞理論中對(duì)于產(chǎn)品特異性的要求

,

抓住產(chǎn)品的獨(dú)特

之處進(jìn)行著重分析

。●

價(jià)格Pr

ice

對(duì)于不同種類的產(chǎn)品

,

要根據(jù)產(chǎn)品特點(diǎn)

、

市場(chǎng)定位制定價(jià)格

。對(duì)顧客進(jìn)行數(shù)據(jù)分析時(shí)

,

需要圍繞各個(gè)屬性和行為特征

對(duì)顧客進(jìn)行類別劃分

,

從而為個(gè)性化定價(jià)和推廣提供依據(jù)

?!?/p>

渠道Place

建立恰當(dāng)?shù)姆咒N渠道

能夠增加企業(yè)利潤(rùn)

。渠道所產(chǎn)生的數(shù)據(jù)

例如經(jīng)營(yíng)平臺(tái)的廣告投

、銷售記錄

、訂單的密集程度等都是進(jìn)行商務(wù)數(shù)據(jù)分析時(shí)需要考量的因素

?!?/p>

促銷Promotion

企業(yè)注重通過(guò)銷售行為的改變來(lái)刺激消費(fèi)者

,

以短期的行為促成消費(fèi)的增長(zhǎng)

銷方式設(shè)計(jì)是商業(yè)數(shù)據(jù)分析的一個(gè)重要任務(wù)

。2

.

用戶畫像●

用戶畫像是一種根據(jù)用戶的個(gè)人屬性

、產(chǎn)品喜好

、

消費(fèi)特征等信息抽象出來(lái)的標(biāo)簽化模型

。

通過(guò)

用戶畫像

可以有效地將用戶抽象成一個(gè)標(biāo)簽集合

,

集合中的標(biāo)簽代表了用戶的各方面屬性

?!?/p>

構(gòu)建用戶畫像時(shí)首先需要收集數(shù)據(jù)

形成某些基礎(chǔ)數(shù)據(jù)標(biāo)簽;同時(shí)可以針對(duì)某一主題

建模分析

用戶大概率可能采取的行為

,

進(jìn)而根據(jù)行為特征為用戶構(gòu)建畫像;

還可以圍繞某一個(gè)決策

,

綜合

多個(gè)模型分析的結(jié)果

,

構(gòu)建畫像

。2

.

用戶畫像●

為了更加立體地反映用戶特征

,

在構(gòu)建用戶畫像的時(shí)候

可以分層次地建立多級(jí)指標(biāo)

。3

.

用戶點(diǎn)擊流分析●

用戶點(diǎn)擊流(Click

stream)

分析是指在獲得電商平臺(tái)用戶基本操作數(shù)據(jù)的情況下

對(duì)用戶的點(diǎn)擊

、

瀏覽

、加入購(gòu)物車

、購(gòu)買等行為進(jìn)行統(tǒng)計(jì)

分析

,

從中發(fā)現(xiàn)用戶行為規(guī)律

。●

這些規(guī)律首先可以對(duì)用戶的下一步行為進(jìn)行預(yù)測(cè)

然后

,

將這些規(guī)律與營(yíng)銷策略等相結(jié)合

,

可以

對(duì)用戶的行為進(jìn)行干預(yù)

?!?/p>

另外

,

用戶行為分析也可以幫助評(píng)價(jià)目前的網(wǎng)絡(luò)營(yíng)銷策略

指導(dǎo)未來(lái)營(yíng)銷活動(dòng)的制定

。4

.

顧客價(jià)值●

對(duì)企業(yè)而言

實(shí)現(xiàn)所有顧客的個(gè)性化產(chǎn)品或服務(wù)

,

其成本是無(wú)法承受的

。對(duì)顧客區(qū)分的主要依據(jù)

是顧客能夠?yàn)槠髽I(yè)提供的價(jià)值

。●

顧客當(dāng)前為企業(yè)貢獻(xiàn)的價(jià)值

,

根據(jù)銷量高低對(duì)顧客進(jìn)行排序

,

重點(diǎn)分析排名靠前的顧客特點(diǎn)

,

供相應(yīng)的服務(wù)產(chǎn)品

?!?/p>

通常這類顧客會(huì)服從80-20分布

。4

.

顧客價(jià)值●

顧客當(dāng)前價(jià)值和潛在價(jià)值兩個(gè)維度

,

在一個(gè)二維坐標(biāo)里可以將客戶分為四類:

I類

、II類

、

III

類和IV類

。●

企業(yè)針對(duì)四類顧客提供不同的服務(wù)

例如IV類客戶既有很高的當(dāng)前價(jià)值也有很大的潛在價(jià)值,是對(duì)企業(yè)最有價(jià)值的一類客戶

。4

.

顧客價(jià)值●

RFM理論●

R(rec

en

cy)

代表最近一次購(gòu)物距離當(dāng)前的時(shí)間長(zhǎng)短

F(Frequency)

代表一段時(shí)間內(nèi)的購(gòu)物頻

M(Monetary)

代表購(gòu)物金額

?!?/p>

根據(jù)顧客在這三個(gè)指標(biāo)上的綜合表現(xiàn)

,

對(duì)顧客進(jìn)行細(xì)分

。第三節(jié)

數(shù)據(jù)分析主要應(yīng)用●

在商務(wù)領(lǐng)域中

通過(guò)數(shù)據(jù)分析可以監(jiān)控和管理整個(gè)運(yùn)營(yíng)

可以通過(guò)數(shù)據(jù)了解用戶

、

改進(jìn)產(chǎn)品

服務(wù)

、

提高運(yùn)營(yíng)效率

、

降低成本

?!?/p>

數(shù)據(jù)分析在商務(wù)領(lǐng)域的應(yīng)用主要集中在以下幾大方面

。1

.

市場(chǎng)營(yíng)銷●

(

1

)

用戶細(xì)分●

客戶細(xì)分就是根據(jù)客戶的特征信息(年齡

、性別

、

收入

受教育程度

、購(gòu)買金額等)

將客戶劃分成不同

的群體

.●

每個(gè)群體中的客戶具有相同或相似的特征

特征相似的客戶群具有相似的潛在需求;

而不同群體之間的

客戶特征差異較大

?!裼纱丝梢葬槍?duì)不同群體的客戶提供有一定差異的營(yíng)銷策略和產(chǎn)品服務(wù)

提升客服和營(yíng)銷活動(dòng)效率

,

降低成

。1

.

市場(chǎng)營(yíng)銷●

(

2

)

用戶行為分析●

不同的用戶群體具有互不相同的行為習(xí)慣

精準(zhǔn)確定不同用戶群的行為特點(diǎn)

,

提供符合其特征的

個(gè)性化服務(wù)

。●

基于用戶行為分析

,

可以進(jìn)一步對(duì)用戶進(jìn)行流失分析

、

生命周期分析

、影響力分析

、

價(jià)值分析等

。1

.

市場(chǎng)營(yíng)銷●

(

3

)

銷量預(yù)測(cè)●

通過(guò)對(duì)銷量進(jìn)行預(yù)測(cè)

,

可以為商家提供參考

商家可以據(jù)此制定合理的采購(gòu)計(jì)劃

、

配置合適的庫(kù)存

,

在降低成本

的同時(shí)

提前對(duì)銷售變化做好準(zhǔn)備

?!?/p>

(

4

)行業(yè)競(jìng)爭(zhēng)和行情分析●

數(shù)據(jù)分析可以用來(lái)監(jiān)測(cè)和分析對(duì)手行業(yè)的產(chǎn)品特性和用戶反應(yīng)

?!?/p>

通過(guò)收集行業(yè)主要競(jìng)爭(zhēng)對(duì)手的銷售情況和銷售策略

,

以及當(dāng)前市場(chǎng)宏觀變量

可以有效地掌握當(dāng)前市場(chǎng)行情和未

來(lái)市場(chǎng)預(yù)期

。2

.

運(yùn)營(yíng)管理●

(

1

)

運(yùn)營(yíng)監(jiān)控●

(

2

)

決策支持●

(

3

)量化運(yùn)營(yíng)效能3

.

產(chǎn)品研發(fā)●

(

1

)

產(chǎn)品優(yōu)化支持●

企業(yè)可以在銷售之前就能夠獲取客戶反饋信息

,

獲得明確的用戶需求

,

實(shí)現(xiàn)了

Pull

”的方式

。●

還可以基于數(shù)據(jù)對(duì)相關(guān)業(yè)務(wù)線產(chǎn)品進(jìn)行全面的分析

,

包括用戶分析

營(yíng)收分析

、行為分析

、活動(dòng)效果

評(píng)估等

,

從而更加科學(xué)地為產(chǎn)品優(yōu)化和業(yè)務(wù)運(yùn)營(yíng)提供支持

?!?/p>

(

2

)新產(chǎn)品研發(fā)支持●

通過(guò)分析目標(biāo)用戶喜好

收集當(dāng)下熱門產(chǎn)品和功能

,

可以為新產(chǎn)品的開發(fā)提供決策依據(jù)和方向

以用

戶和市場(chǎng)真實(shí)需求為基礎(chǔ)

,

設(shè)計(jì)更加符合消費(fèi)喜好的產(chǎn)品

?!?/p>

還可以針對(duì)特定用戶群體

,

設(shè)計(jì)差異化產(chǎn)品

個(gè)性化地滿足不同用戶群的特殊需求

,

提高產(chǎn)品吸引力

的同時(shí)增加用戶滿意度和忠誠(chéng)度

。第

部分商務(wù)數(shù)據(jù)分析基本概念與框架(

兩章)第一章

商務(wù)數(shù)據(jù)分析基本概念第二章

商務(wù)數(shù)據(jù)分析框架第二章

商務(wù)數(shù)據(jù)分析框架商務(wù)數(shù)據(jù)分析框架●

商務(wù)數(shù)據(jù)分析框架分為六個(gè)模塊

,

分別為問(wèn)題明確

、

數(shù)據(jù)理解

數(shù)據(jù)預(yù)處理

、模型建立

、模型評(píng)

價(jià)和模型發(fā)布

。

這是一個(gè)明確商業(yè)目的

進(jìn)行數(shù)據(jù)的收集

、

整理

、加工和分析

,

提煉出有價(jià)值信

息的過(guò)程

。1

.問(wèn)題明確●

問(wèn)題明確是最開始同時(shí)也是最重要的一個(gè)環(huán)節(jié)

,

這一環(huán)節(jié)的確定嚴(yán)重影響著后續(xù)工作是否有意義

?!?/p>

在數(shù)據(jù)分析之前明確數(shù)據(jù)對(duì)象是誰(shuí)

數(shù)據(jù)分析的目

的是什么

解決什么樣的業(yè)務(wù)問(wèn)題

。2

.

數(shù)據(jù)理解●

數(shù)據(jù)理解包括數(shù)據(jù)收集和統(tǒng)計(jì)描述

?!?/p>

數(shù)據(jù)收集是按照第一環(huán)節(jié)的問(wèn)題和分析思路

,

有目的性地收集

、整合相關(guān)數(shù)據(jù)的過(guò)程

,

它是

數(shù)據(jù)分析的重要基礎(chǔ)

?!?/p>

常見(jiàn)的數(shù)據(jù)收集渠道有內(nèi)部渠道和外部渠道

數(shù)據(jù)規(guī)模和數(shù)據(jù)靈活性也在不斷變化

,

從簡(jiǎn)單

的數(shù)值數(shù)據(jù)到文本數(shù)據(jù)再到音頻

、視頻數(shù)據(jù)均可以收集到

?!?/p>

數(shù)據(jù)的統(tǒng)計(jì)描述主要是對(duì)數(shù)據(jù)繪制圖表進(jìn)行統(tǒng)計(jì)分析

簡(jiǎn)單地分析數(shù)據(jù)的數(shù)量和質(zhì)量

判斷

收集到的數(shù)據(jù)能否滿足問(wèn)題的分析目的

,

以及發(fā)現(xiàn)哪些數(shù)據(jù)值得進(jìn)一步分析

?!?/p>

雖然統(tǒng)計(jì)分析比較簡(jiǎn)單

,

但它可以實(shí)現(xiàn)很多功能

。3

.

數(shù)據(jù)預(yù)處理●

數(shù)據(jù)預(yù)處理是對(duì)收集到的數(shù)據(jù)繼續(xù)進(jìn)行加工

整理

,

以便開展后期的模型建立

,

它是數(shù)據(jù)分析必

不可少的階段

?!?/p>

這一階段是比較復(fù)雜同時(shí)也是較為占用時(shí)間的

但它必不可少

,

在一定程度上影響了數(shù)據(jù)質(zhì)量的

保證以及后期模型的表現(xiàn)

?!?/p>

數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗

、

數(shù)據(jù)變換

、

數(shù)據(jù)集成

數(shù)據(jù)規(guī)約和特征選擇等

。4

.

模型建立●

模型建立是數(shù)據(jù)分析的核心步驟

通過(guò)具體的模型

,

對(duì)數(shù)據(jù)進(jìn)行分析

發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律關(guān)

系和模式

?!?/p>

模型建立首先要進(jìn)行模型選擇

,

根據(jù)不同的業(yè)務(wù)問(wèn)題需求在眾多模型中選擇出最適合的模型

合適的參數(shù)配置

。●

建立模型實(shí)際上就是找到在這個(gè)模型的情境下輸入和輸出之間的關(guān)系模式

。

需要觀察已有的數(shù)據(jù),

使用已有的一些常用關(guān)系模式對(duì)數(shù)據(jù)進(jìn)行擬合

建立模型

。4

.

模型建立●(1)數(shù)據(jù)集

訓(xùn)練集

、驗(yàn)證集

測(cè)試集●

數(shù)據(jù)集:

數(shù)據(jù)集合

,

模型的建立有兩方面的考慮:

其一是模型數(shù)據(jù)的維度

其二是數(shù)據(jù)的數(shù)量

。●

訓(xùn)練集:

用于建立模型的數(shù)據(jù)集

。●

驗(yàn)證集:

用于調(diào)整模型參數(shù)

、對(duì)模型的能力進(jìn)行初步評(píng)價(jià)的數(shù)據(jù)

?!?/p>

測(cè)試集:

用于評(píng)價(jià)已經(jīng)建立的模型的表現(xiàn)

。4

.

模型建立●(1)數(shù)據(jù)集

、

訓(xùn)練集

、驗(yàn)證集

、

測(cè)試集●

數(shù)據(jù)集:

數(shù)據(jù)集合

模型的建立有兩方面的考慮:

其一是模型數(shù)據(jù)的維度

,

其二是數(shù)據(jù)的數(shù)量

?!?/p>

訓(xùn)練集:

用于建立模型的數(shù)據(jù)集

。●

驗(yàn)證集:

用于調(diào)整模型參數(shù)

、對(duì)模型的能力進(jìn)行初步評(píng)價(jià)的數(shù)據(jù)

?!?/p>

測(cè)試集:

用于評(píng)價(jià)已經(jīng)建立的模型的表現(xiàn)

。4

.

模型建立●(2)

數(shù)據(jù)劃分方法●

根據(jù)樣本的大小不同可以做出不同的劃分選擇

但是測(cè)試集必須

保證未知并且保持與訓(xùn)練集

、驗(yàn)證集的獨(dú)立性

。4

.

模型建立●(2)

數(shù)據(jù)劃分方法

●留出法●

將所有數(shù)據(jù)按照一定比例分為互斥的兩部分●

在分割數(shù)據(jù)的時(shí)候

,

需要保證這兩部分的數(shù)據(jù)分布是盡可能一致的

?!?/p>

使用留出法時(shí)

,

一般需要進(jìn)行若干次隨機(jī)劃分并重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值

然后將其作為最

終的評(píng)估結(jié)果

。●

交叉驗(yàn)證法●

將數(shù)據(jù)均勻地分為大小相似且互斥的k份數(shù)據(jù)子集

,

在每次訓(xùn)練時(shí)

取其中的一份作為測(cè)試集其余

的k-1份作為訓(xùn)練集

。進(jìn)行k次訓(xùn)練和測(cè)試

得到k個(gè)測(cè)試結(jié)果

,

對(duì)這k個(gè)測(cè)試結(jié)果取平均

,

將其作

為最后的測(cè)試結(jié)果

?!?/p>

交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性在很大程度上與k有關(guān)

通常也叫作

k折交叉驗(yàn)證

”。4

.

模型建立●(

3

)

過(guò)擬合

欠擬合與調(diào)參

誤差●

在使用訓(xùn)練集擬合輸入和輸出之間的關(guān)系時(shí)

,

總會(huì)存在誤差

這種在訓(xùn)練模型時(shí)產(chǎn)生的誤差叫作

訓(xùn)練誤差或者經(jīng)驗(yàn)誤差

,

在訓(xùn)練集之外的測(cè)試數(shù)據(jù)上進(jìn)行預(yù)測(cè)產(chǎn)生的誤差叫作泛化誤差

?!?/p>

建模的最終目標(biāo)并不是使訓(xùn)練誤差小

而是使模型在測(cè)試數(shù)據(jù)上的泛化誤差更小

,

即建立一個(gè)可

以被廣泛應(yīng)用在其他數(shù)據(jù)集上的模型

?!?/p>

過(guò)擬合●

模型過(guò)多地學(xué)習(xí)到了僅存在于訓(xùn)練樣本中的關(guān)系

由于這些關(guān)系在其他樣本中可能是不存在的

,

模型在其他樣本上的表現(xiàn)將遠(yuǎn)不如在訓(xùn)練樣本上的表現(xiàn)

即泛化誤差大

。●

原因:

學(xué)習(xí)能力過(guò)于強(qiáng)大

,

建立了復(fù)雜度過(guò)高的模型

?!?/p>

解決方法:

在構(gòu)建模型時(shí)對(duì)模型進(jìn)行控制和修剪

欠擬合●

模型沒(méi)有表達(dá)出樣本中普遍存在的關(guān)鍵關(guān)系模式

,

導(dǎo)致在訓(xùn)練集上的訓(xùn)練誤差都較大

?!?/p>

原因:

學(xué)習(xí)能力過(guò)于低下

?!?/p>

解決方法:

通過(guò)增加訓(xùn)練迭代次數(shù)4

.

模型建立●(

3

)

過(guò)擬合

欠擬合與調(diào)參●

調(diào)參:

對(duì)模型進(jìn)行參數(shù)的配置●

在模型的訓(xùn)練過(guò)程中需要根據(jù)訓(xùn)練集進(jìn)行參數(shù)設(shè)置

,

這些在訓(xùn)練過(guò)程中確定的參數(shù)稱為普通參數(shù)

。模

型的有些參數(shù)需要人工設(shè)定

,

被稱為超參數(shù)

?!?/p>

一般調(diào)參和模型的選擇通常是在驗(yàn)證集上進(jìn)行的

,

多次使用驗(yàn)證集進(jìn)行不斷調(diào)參并監(jiān)控模型是否出現(xiàn)

過(guò)擬合的情況

,

最終得到表現(xiàn)最好的模型

,

用于測(cè)試集的評(píng)估

。4

.

模型建立●(

4

)有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)●

有監(jiān)督學(xué)習(xí)●

一些模型建立的目

的是給數(shù)據(jù)打上“

標(biāo)簽

,

當(dāng)構(gòu)建模型時(shí)使用的訓(xùn)練集必須要存在這樣的標(biāo)簽,

才能在特征和標(biāo)簽之間建立聯(lián)系

?!?/p>

學(xué)習(xí)時(shí)有

正確答案

”●

無(wú)監(jiān)督學(xué)習(xí)●

使用不帶標(biāo)簽的數(shù)據(jù)建立模型

得到了我們想要獲得的信息

,

這種學(xué)習(xí)任務(wù)稱為無(wú)監(jiān)督學(xué)習(xí)

。●

學(xué)習(xí)時(shí)無(wú)

正確答案

”5

.

模型評(píng)價(jià)●

模型評(píng)價(jià)主要是指對(duì)模型在測(cè)試集中的泛化性能進(jìn)行評(píng)估

。●

不同類型的模型使用不同的評(píng)價(jià)標(biāo)準(zhǔn)

?!?/p>

相同類型的模型在不同的評(píng)價(jià)標(biāo)準(zhǔn)上的表現(xiàn)可能不同

?!?/p>

在具體的研究中

,

要根據(jù)研究的問(wèn)題選擇合適的評(píng)價(jià)標(biāo)準(zhǔn)

。6

.

模型發(fā)布●

執(zhí)行完上述步驟之后

,

得到最終表現(xiàn)最好的模型和參數(shù)配置

將其應(yīng)用于后續(xù)未知數(shù)據(jù)的分

析中

?!?/p>

有時(shí)會(huì)根據(jù)其業(yè)務(wù)需求

,

將模型部署集成到相應(yīng)的系統(tǒng)中進(jìn)行使用

。商務(wù)數(shù)據(jù)分析整體框架第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計(jì)量模型第六章

數(shù)據(jù)挖掘分類預(yù)測(cè)模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會(huì)網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第三章數(shù)據(jù)獲取與數(shù)據(jù)理解第

節(jié)

數(shù)據(jù)獲取●

數(shù)據(jù)獲取主要有兩個(gè)渠道●

一個(gè)是直接獲取數(shù)據(jù)

,

即自

己在經(jīng)營(yíng)過(guò)程中累積的數(shù)據(jù)

或者通過(guò)實(shí)驗(yàn)或調(diào)查直接獲得的數(shù)據(jù)

,

這些數(shù)據(jù)被稱為一手?jǐn)?shù)據(jù)

.●

另一個(gè)是間接獲取數(shù)據(jù)

,

指的是數(shù)據(jù)是由其他人通過(guò)各種形式搜集的

,

使用者僅僅是找到這些數(shù)

據(jù)并加以加工和使用

間接地獲取了這些數(shù)據(jù)

這些數(shù)據(jù)通常被稱為二手?jǐn)?shù)據(jù)

。1

.

直接獲取●

(

1

)

經(jīng)營(yíng)數(shù)據(jù)●

企業(yè)在經(jīng)營(yíng)過(guò)程中積累了大量數(shù)據(jù)

包括運(yùn)營(yíng)

、人事

、財(cái)務(wù)

、供應(yīng)鏈

、客戶管理等

。這些數(shù)據(jù)通常

存儲(chǔ)在企業(yè)信息系統(tǒng)的數(shù)據(jù)庫(kù)中

,

是企業(yè)經(jīng)營(yíng)的真實(shí)反映

?!?/p>

獲取相對(duì)比較簡(jiǎn)單

但由于經(jīng)營(yíng)數(shù)據(jù)通常涉及企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)

,

所以企業(yè)外部人員甚至不同部門的

人員很難得到

?!?/p>

(

2

)

市場(chǎng)調(diào)查●

市場(chǎng)調(diào)查是指用科學(xué)的方法(引用正規(guī))

有目

、

系統(tǒng)地搜集

、記錄

、整理和分析市場(chǎng)現(xiàn)狀的數(shù)

據(jù)獲取和分析方法

。

市場(chǎng)調(diào)查通常比較適用于社會(huì)問(wèn)題和企業(yè)經(jīng)濟(jì)問(wèn)題

。1

.

直接獲取●

(

3

)

試驗(yàn)●

在試驗(yàn)中

研究者圍繞想要解決的問(wèn)題

,

設(shè)定相應(yīng)情景

,

記錄不同條件下相應(yīng)的試驗(yàn)觀測(cè)結(jié)果

,

對(duì)試驗(yàn)結(jié)果展開分析

?!?/p>

(

4

)

爬蟲●

更多數(shù)據(jù)被保留在了各個(gè)網(wǎng)頁(yè)上

使用者可以針對(duì)自己的需要

,

利用爬

蟲技術(shù)自行對(duì)網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行爬取

。2

.

間接獲取●

從相關(guān)渠道獲取與研究?jī)?nèi)容有關(guān)的而且已經(jīng)存在的二手?jǐn)?shù)據(jù)

。●

二手?jǐn)?shù)據(jù)的優(yōu)勢(shì):●

二手?jǐn)?shù)據(jù)獲取過(guò)程通常時(shí)間短

、成本低●

二手?jǐn)?shù)據(jù)除了可以用來(lái)分析研究問(wèn)題

還可以從中剖析研究問(wèn)題的背景

。●

二手?jǐn)?shù)據(jù)的局限性●

二手?jǐn)?shù)據(jù)通常不是為使用者想要進(jìn)行研究的問(wèn)題而收集的

,

所以與直接收集數(shù)據(jù)相比

,

在和研究問(wèn)題的

契合度上必定有所欠缺

?!?/p>

在使用二手?jǐn)?shù)據(jù)時(shí)

,

提前對(duì)數(shù)據(jù)進(jìn)行評(píng)估是非常必要的

?!?/p>

在使用二手?jǐn)?shù)據(jù)時(shí)

避免錯(cuò)用

、誤用

、濫用

。●

在引用二手?jǐn)?shù)據(jù)時(shí)

,

應(yīng)注明數(shù)據(jù)的來(lái)源

以尊重他人的勞動(dòng)成果

。2

.

間接獲取●

(1)

文獻(xiàn)●

相關(guān)專業(yè)期刊

、

學(xué)術(shù)會(huì)議

、專業(yè)圖書的文獻(xiàn)資料中提供了一些可供使用或參考的數(shù)據(jù)資料

。文獻(xiàn)中的數(shù)

據(jù)往往經(jīng)過(guò)了原作者的處理

,

對(duì)使用者來(lái)說(shuō)省去了數(shù)據(jù)處理的過(guò)程

,

但是文獻(xiàn)數(shù)據(jù)的計(jì)算口徑有時(shí)難以

獲知

,

適用性相對(duì)較弱

?!?/p>

(

2

)學(xué)術(shù)單位的數(shù)據(jù)庫(kù)●

為了研究需要

大學(xué)等學(xué)術(shù)單位提供了一些以數(shù)據(jù)庫(kù)為存儲(chǔ)形式的數(shù)據(jù)集

,

供公眾訪問(wèn)獲取

。這些數(shù)據(jù)

集來(lái)自實(shí)踐

,

體量通常比較大

,

涵蓋的范圍也比較廣

?;谶@些共同的數(shù)據(jù)集

,

研究者們可以更方便公

正地比較各自所提出的數(shù)據(jù)分析策略

、方法的優(yōu)劣

因此學(xué)術(shù)數(shù)據(jù)庫(kù)集被眾多研究者青睞

。2

.

間接獲取●

(

3

)

統(tǒng)計(jì)部門機(jī)構(gòu)●

統(tǒng)計(jì)部門和各級(jí)政府部門定期公布的有關(guān)資料中提供了宏觀統(tǒng)計(jì)數(shù)據(jù)

。對(duì)于使用者了解所感興趣的領(lǐng)域

的整體情況是有很大幫助的

,

但通常并不能用于解決具體的決策問(wèn)題

?!?/p>

(

4

)

第三方機(jī)構(gòu)●

具有數(shù)據(jù)資源優(yōu)勢(shì)的數(shù)據(jù)源提供商

咨詢機(jī)構(gòu)以及一些自身有數(shù)據(jù)積累的互聯(lián)網(wǎng)企業(yè)都已經(jīng)成為大數(shù)據(jù)

產(chǎn)業(yè)中能夠提供海量數(shù)據(jù)的中流砥柱

。在第三方機(jī)構(gòu)獲取的數(shù)據(jù)比較完整

,

有豐富的描述

通常需要付費(fèi)才能獲取

。●(

5

)

國(guó)內(nèi)外各類數(shù)據(jù)挖掘競(jìng)賽●

國(guó)內(nèi)外了各類數(shù)據(jù)挖掘競(jìng)賽中都提供了大量真實(shí)的數(shù)據(jù)集

,

這些數(shù)據(jù)通常有實(shí)際的應(yīng)用背景和明確的使

用目的

。第二節(jié)

數(shù)據(jù)描述●

也稱為描述性數(shù)據(jù)分析

,

通常指對(duì)數(shù)據(jù)的整體分布情況

、

數(shù)據(jù)各特征之間的關(guān)系進(jìn)行估計(jì)和

描述

,

從而有利于了解數(shù)據(jù)的整體情況

,

發(fā)現(xiàn)顯著特點(diǎn)

為進(jìn)一步的數(shù)據(jù)分析提供重要的思

?!?/p>

數(shù)據(jù)描述通??梢詮娜齻€(gè)方面進(jìn)行:

集中趨勢(shì)分析

、

離散程度分析和分布形狀分析1

.

集中趨勢(shì)分析●

集中趨勢(shì)是指一組數(shù)據(jù)向某一中心值靠攏的程度

,

是對(duì)數(shù)據(jù)一般水平的概括性度量

,

它反映了

組數(shù)據(jù)中心點(diǎn)的位置所在

?!?/p>

(1)

均值●

是最常用的也是最有效的度量集中趨勢(shì)的指標(biāo)

。將一組數(shù)據(jù)的總和除以數(shù)據(jù)數(shù)量

,

便能得到均值

?!?/p>

在有些情況下

每個(gè)數(shù)據(jù)的重要程度或者意義可能不是相同的

,

這時(shí)候需要對(duì)不同的數(shù)據(jù)賦予不同的權(quán)

。這樣根據(jù)權(quán)重計(jì)算得到的平均數(shù)叫作加權(quán)平均數(shù)或加權(quán)算術(shù)均值

。●

均值能夠充分利用所有數(shù)據(jù)的信息

,

但也正是因?yàn)檫@種特性

均值非常容易受到極端值的影響

。1

.

集中趨勢(shì)分析●

(

2

)

中位數(shù)●

一組數(shù)據(jù)排序之后處于中間位置的值

它把數(shù)據(jù)較大的一半和較小的一半分開

。●

是一個(gè)由位置決定的值

,

因此即便數(shù)據(jù)中存在極端值

中間位置上的數(shù)值也不會(huì)受到影響

。對(duì)于存在極

值或非對(duì)稱數(shù)據(jù)的情況來(lái)說(shuō)

中位數(shù)是一個(gè)比均值更好的度量

。●

(

3

)

分位數(shù)●

分位數(shù)是將總體的全部數(shù)據(jù)遞增排列后

,

處于各等分位置的數(shù)據(jù)點(diǎn)

。

分位數(shù)將數(shù)據(jù)劃分為基本上規(guī)模相

等的區(qū)域

。●

如果分為四部分

,

則得到的數(shù)據(jù)點(diǎn)就是四分位數(shù)

。在各類分位數(shù)中

常用的是四分位數(shù)

。相比于中位數(shù)

只有一個(gè)

,

四分位數(shù)有兩個(gè)

,

能夠更充分地反映數(shù)據(jù)的集中程度

。1

.

集中趨勢(shì)分析●

(

4

)

眾數(shù)●

一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值

不會(huì)受到數(shù)據(jù)中極端值的影響

。●

一組數(shù)據(jù)可能各不相同

,

既可能不存在眾數(shù)

也可能存在多個(gè)眾數(shù)

。

一般來(lái)說(shuō)

數(shù)據(jù)量較大的時(shí)候眾數(shù)

才有意義

,

將眾數(shù)作為數(shù)據(jù)整體特征才有代表性

?!?/p>

對(duì)比前面的集中指標(biāo)

眾數(shù)不涉及數(shù)值計(jì)算

,

因此

對(duì)于類別數(shù)據(jù)

,

眾數(shù)是常用的集中程度測(cè)度

。2

.

離散程度分析●

離散程度指的是一組數(shù)據(jù)遠(yuǎn)離其中心值的程度

。

數(shù)據(jù)的離散程度分析主要是用來(lái)反映一組數(shù)據(jù)的

差異程度

?!?

1

)異眾比率(Variation

ratio)●

指的是非眾數(shù)數(shù)據(jù)的數(shù)量占數(shù)據(jù)總數(shù)的比例

異眾比率越小

,

表示眾數(shù)所占的比例越大

眾數(shù)對(duì)于數(shù)據(jù)

的代表程度越好

。●

(

2

)

極差(Range)●

也稱全距

,

指的是數(shù)據(jù)最大值與最小值之差

。

因?yàn)闃O差選取最值來(lái)進(jìn)行計(jì)算

,

所以必然會(huì)受到極端值的

影響

。此外

極差的計(jì)算只考慮了最大最小值

,

遺漏了中間部分的更多信息

,

換句話說(shuō)

只用兩個(gè)數(shù)據(jù)表示一組數(shù)據(jù)集合的特點(diǎn)

,

一般情況下不能準(zhǔn)確地描述

。2

.

離散程度分析●(

3

)四分位差(Quartile

deviation)●

指的是一組數(shù)據(jù)的上四位數(shù)和下四分位數(shù)之差

,

反映了數(shù)據(jù)分布的中心

、散布情況的特征

,

它表示的是

中間50%的數(shù)據(jù)的離散程度

因此也不會(huì)受到極端值的影響

。

四分位數(shù)越小

,

表示中間的一半數(shù)據(jù)越

集中

?!?

4

)平均差(Mean

deviation)●

指的是一組數(shù)據(jù)中各個(gè)值與其平均數(shù)的差的絕對(duì)值的平均數(shù)

。平均差越大

,

表明樣本值與均值差異越大,

數(shù)據(jù)的離散程度越大

。平均差充分運(yùn)用了數(shù)據(jù)中的每個(gè)樣本值

,

因此是一個(gè)能較全面反映數(shù)據(jù)離散程度

的指標(biāo)

。2

.

離散程度分析●(

5

)方差或標(biāo)準(zhǔn)差(Variance)●

指的是數(shù)據(jù)中各個(gè)值與其平均數(shù)離差的平方的平均數(shù)

能夠反映出數(shù)據(jù)偏離均值的程度

,

是衡量數(shù)據(jù)離

散程度最常用的指標(biāo)

。方差或標(biāo)準(zhǔn)差越小

,

表示數(shù)據(jù)越集中

數(shù)據(jù)的離散程度越小

。●(

6

)

變異系數(shù)(Coefficientofvariation)●

也叫作離散系數(shù)

,

它是標(biāo)準(zhǔn)差與均值之比

。變異系數(shù)可以用來(lái)比較不同數(shù)據(jù)集之間的離散程度

。變異系

數(shù)越小

,

表明數(shù)據(jù)的離散程度越小

。3

.

分布形狀分析●

離散程度和集中程度的度量方式選擇是否恰當(dāng)

與數(shù)據(jù)分布關(guān)系密切

。在分析之前首先觀察數(shù)據(jù)

的分布形狀

,

對(duì)于選擇合適的指標(biāo)對(duì)數(shù)據(jù)的整體情況進(jìn)行描述

,

避免產(chǎn)生錯(cuò)誤的分析結(jié)果很有必

?!?/p>

(

1

)偏態(tài)(Skewness)●

是對(duì)數(shù)據(jù)分布對(duì)稱性的一種度量

通過(guò)計(jì)算數(shù)據(jù)相對(duì)于中心點(diǎn)的傾斜方向以及程度

,

衡量數(shù)據(jù)分布的

對(duì)稱性

如果一組數(shù)據(jù)是對(duì)稱的

,

則偏態(tài)系數(shù)為0

?!?/p>

偏態(tài)系數(shù)的正負(fù)表明了數(shù)據(jù)分布是否對(duì)稱

以及傾斜的方向

,

而絕對(duì)值的大小表明了傾斜的程度

。3

.

分布形狀分析●

離散程度和集中程度的度量方式選擇是否恰當(dāng)

,

與數(shù)據(jù)分布關(guān)系密切

。在分析之前首先觀察數(shù)據(jù)

的分布形狀

,

對(duì)于選擇合適的指標(biāo)對(duì)數(shù)據(jù)的整體情況進(jìn)行描述

避免產(chǎn)生錯(cuò)誤的分析結(jié)果很有必

。●(2)

峰度(Kurt

os

is)●

是對(duì)數(shù)據(jù)分布峰部尖度的一種度量

,

峰度是和標(biāo)準(zhǔn)正態(tài)分布相比較而言的

?!?/p>

如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布

則峰度系數(shù)為0;當(dāng)峰度系數(shù)大于0時(shí)

表明數(shù)據(jù)的分布是尖峰分布

,

數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為集中;

當(dāng)峰度系數(shù)小于0時(shí)

,

表明數(shù)據(jù)的分布是扁平分布

,

數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為分散

。第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計(jì)量模型第六章

數(shù)據(jù)挖掘分類預(yù)測(cè)模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會(huì)網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第四章

數(shù)據(jù)預(yù)處理第

節(jié)

數(shù)據(jù)預(yù)處理●

各行各業(yè)每天的數(shù)據(jù)規(guī)模不斷增加

數(shù)據(jù)質(zhì)量成為重要問(wèn)題

?!?/p>

這些數(shù)據(jù)被獲取之后

,

往往不能直接拿來(lái)進(jìn)行分析

,

需要對(duì)數(shù)據(jù)的缺失

異常等情況進(jìn)行判斷處

,

并結(jié)合具體分析的需要對(duì)數(shù)據(jù)進(jìn)行變換

。1

.

數(shù)據(jù)預(yù)處理的目的●

我們實(shí)際搜集到的原始數(shù)據(jù)經(jīng)常是不完全的

、

有異常的

、

冗余的

、模糊的

,

甚至矛盾的

?!?/p>

導(dǎo)致這種結(jié)果的原因也有很多種:

收集數(shù)據(jù)的設(shè)備可能出現(xiàn)故障;當(dāng)用戶不希望提交個(gè)人信息時(shí),

可能故意輸入錯(cuò)誤信息;

數(shù)據(jù)輸入

、傳輸時(shí)出現(xiàn)錯(cuò)誤;

不同數(shù)據(jù)源命名約定或者所用數(shù)據(jù)代碼不

一致等等

?!?/p>

在海量的實(shí)際數(shù)據(jù)中無(wú)意義的成分也很多

非常不利于后續(xù)的模型以及算法的訓(xùn)練

?!?/p>

預(yù)處理的目

的是為后續(xù)的模型提供滿足要求

更加具有針對(duì)性的數(shù)據(jù)

,

從而提高數(shù)據(jù)分析效率和

準(zhǔn)確率

。2

.

數(shù)據(jù)預(yù)處理的主要任務(wù)●

數(shù)據(jù)清洗●

對(duì)數(shù)據(jù)中的缺失值

、異常值

、不一致等情況進(jìn)行分析和處理●

數(shù)據(jù)集成●

為了滿足數(shù)據(jù)分析需要

合并來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)

,

并保證數(shù)據(jù)的一致性

?!?/p>

數(shù)據(jù)變換●

用各種方式變換數(shù)據(jù)原本的數(shù)值

使得數(shù)據(jù)集在不失真的情況下

,

更能滿足下一步處理的需要

主要包

括規(guī)范化

、

函數(shù)變化

、數(shù)據(jù)類型變化等

。●

數(shù)據(jù)規(guī)約●

產(chǎn)生更小但是能夠代表原有數(shù)據(jù)集合特點(diǎn)的新數(shù)據(jù)集

。主要有屬性規(guī)約

、數(shù)值規(guī)約等方法

。3

.

數(shù)據(jù)清洗●

(

1

)

缺失值分析●

缺失值是指在原始數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的某個(gè)或者某些屬性的值是不完全的

或者是不正

確的

。●

缺失值存在的原因常見(jiàn)的有:

信息暫時(shí)無(wú)法獲取或信息獲取的成本較高;

信息在儲(chǔ)存或傳輸過(guò)程中丟失;

屬性值不存在等

?!?2

)缺失值處理方法:

刪除●

方法簡(jiǎn)單易行

、非常有效

、迅速

但是它以減少數(shù)據(jù)量為代價(jià)來(lái)?yè)Q取信息的完備

,

這樣做可能會(huì)將有用

的信息一并刪除

。3

.

數(shù)據(jù)清洗●(

3

)

缺失值處理方法:

數(shù)據(jù)填充●

當(dāng)我們獲取的數(shù)據(jù)集較小時(shí)

,

更不能直接刪除數(shù)據(jù)

,

這時(shí)就需要對(duì)缺失值進(jìn)行插補(bǔ)

。●

①指定值填充●

將空值作為一種特殊的屬性值進(jìn)行處理

,

有可能在后期的數(shù)據(jù)分析過(guò)程中

,

算法誤以為它們有實(shí)際的意義

而導(dǎo)致模型的錯(cuò)誤

?!?/p>

②使用屬性的集中度量填充●

根據(jù)數(shù)據(jù)的集中分布來(lái)填補(bǔ)缺失值

,

方法缺乏理論依據(jù)●

③插值法填充●

插值法類似于函數(shù)擬合

利用在某段區(qū)間中已知的若干點(diǎn)的函數(shù)值

,

擬合出適當(dāng)?shù)暮瘮?shù)

那么在區(qū)間上所有

點(diǎn)的值都可以用這個(gè)函數(shù)來(lái)近似

,

這樣對(duì)于缺失記錄

,

就可以用函數(shù)計(jì)算出的結(jié)果對(duì)缺失值進(jìn)行填補(bǔ)

?!癯R?jiàn)的差值法有拉格朗日差值法和牛頓差值法

。3

.

數(shù)據(jù)清洗●(

3

)

缺失值處理方法:

數(shù)據(jù)填充●

④K最近鄰數(shù)據(jù)填充●

基本原理是根據(jù)與此實(shí)例相近的幾個(gè)實(shí)例的均值進(jìn)行填充

?!?/p>

此方法用相似實(shí)例取值的均值進(jìn)行插補(bǔ)

更加合理

。但是該方法引入了數(shù)據(jù)間的自相關(guān)

這可能會(huì)

給后期的模型分析造成一定的偏差

?!?/p>

⑤模型預(yù)測(cè)填充●

通過(guò)建模的方式

用已有值來(lái)建立變量間的模型關(guān)系

,

從而擬合出缺失值

。在這個(gè)情景下

,

數(shù)據(jù)完

整的記錄組成模型的訓(xùn)練集

,

而對(duì)缺失值的預(yù)測(cè)實(shí)際上是模型的應(yīng)用

?!?/p>

缺失值處理的方法有很多

,

各有優(yōu)劣

,

無(wú)論是以哪種方式填充

都無(wú)法避免對(duì)原數(shù)據(jù)的影響,

使得數(shù)據(jù)有偏

。3

.

數(shù)據(jù)清洗●

(

4

)

異常值分析●

異常值

,

也叫作離群點(diǎn)

、

噪聲點(diǎn)

,

指的是在數(shù)值

結(jié)構(gòu)

、特征等方面與大多數(shù)數(shù)據(jù)的表現(xiàn)顯

著不同的數(shù)據(jù)樣本

?!?/p>

產(chǎn)生異常值的常見(jiàn)原因:

信息錄入時(shí)出現(xiàn)人為錯(cuò)誤或系統(tǒng)誤差

有時(shí)候環(huán)境等因素也會(huì)帶來(lái)

數(shù)據(jù)的極端變化

?!?/p>

分析異常值的常用方法:

箱線圖●

箱線圖也稱盒形圖

,

在箱線圖中標(biāo)示了代表數(shù)據(jù)分布的下四分位數(shù)

、

中位數(shù)和上四分位數(shù)

?!?/p>

它相對(duì)穩(wěn)定

包含了數(shù)據(jù)集中50%的數(shù)值

,

不會(huì)受到異常值的影響

。●

根據(jù)偏離程度的不同

,

箱線圖分析中將異常值分為兩類:

偏離程度較小的定義為離群值

偏離程度

較大的定義為極端值

。偏離上、下四分位數(shù)的程度不及極端值,但

仍然有一定偏離程度的值被判定為離群值。比上四分位數(shù)高出某范圍或比下四分位數(shù)低某范圍的值被判定為極端值?!?/p>

(

4

)

異常值分析●

箱線圖3

.

數(shù)據(jù)清洗3

.

數(shù)據(jù)清洗●(5)

異常值處理●

需要分析異常值是不是人為錯(cuò)誤產(chǎn)生的

?!?/p>

如果是由于環(huán)境變化產(chǎn)生的

,

這些異常值中通常就含有有用的信息

,

可以進(jìn)行單獨(dú)建模等處

?!?/p>

對(duì)于人為錯(cuò)誤產(chǎn)生的異常值

可以采用如下方法處理:●

①直接刪除●

將含有異常值的記錄直接刪除

。

該方法操作簡(jiǎn)單

同直接刪除有缺失值的記錄一樣

,

一般適用于數(shù)

據(jù)集合較大

異常值占比較小的情形

。●

②用其他值替代異常值●

可以利用填補(bǔ)的方法

,

將異常值利用數(shù)據(jù)的平均值

、

中位數(shù)等進(jìn)行替換和修正

,

也可以通過(guò)前面介

紹的缺失值插補(bǔ)的其他方法對(duì)異常值進(jìn)行修正

。4

.

數(shù)據(jù)集成●

數(shù)據(jù)來(lái)自不同渠道并且用不同方式獲取時(shí)

,

有可能會(huì)導(dǎo)致對(duì)同一個(gè)對(duì)象的不同描述

?!?/p>

數(shù)據(jù)集成不僅將數(shù)據(jù)進(jìn)行簡(jiǎn)單合并

而且需要同時(shí)處理數(shù)據(jù)集的冗余和不一致

,

這對(duì)于后續(xù)的分

析過(guò)程的準(zhǔn)確性和速度有很大影響

?!?/p>

(

1

)

實(shí)體識(shí)別●

每個(gè)數(shù)據(jù)來(lái)源通常有各自的數(shù)據(jù)定義和組織方法

因此

,

數(shù)據(jù)集成中經(jīng)常會(huì)遇到實(shí)體識(shí)別的問(wèn)題

同一個(gè)對(duì)象實(shí)體在不同的數(shù)據(jù)集中有不同的名稱(異名同義)

或者同樣的名稱不對(duì)應(yīng)同一個(gè)實(shí)體(同名異義)

?!?/p>

在進(jìn)行數(shù)據(jù)實(shí)體識(shí)別時(shí)

,

不能被不規(guī)范的命名誤導(dǎo)

,

需要進(jìn)行業(yè)務(wù)調(diào)研

,

準(zhǔn)確地確認(rèn)個(gè)表中每個(gè)屬性

的實(shí)際含義

對(duì)數(shù)據(jù)表

、屬性字段等進(jìn)行統(tǒng)一的規(guī)范命名

,

完成對(duì)數(shù)據(jù)的集成

。4

.

數(shù)據(jù)集成●

(

2

)冗余和相關(guān)分析

冗余●

如果一個(gè)特征屬性可以由其他屬性導(dǎo)出或者計(jì)算得到

,

則這個(gè)特征屬性可以被認(rèn)定為冗余

?!?/p>

屬性冗余的判定依據(jù)是屬性之間是否存在較強(qiáng)的相關(guān)性

。通過(guò)檢測(cè)屬性之間的相關(guān)性

即進(jìn)行相關(guān)分析

就可以甄別出冗余屬性

。●

相關(guān)分析●

具體方法主要分為兩種:

1

)對(duì)于標(biāo)稱型數(shù)據(jù)

通常采用的方法為卡方檢驗(yàn);

2

)對(duì)于數(shù)值型數(shù)據(jù)

,

以通過(guò)相關(guān)系數(shù)或者協(xié)方差來(lái)衡量屬性之間的相關(guān)性

。數(shù)據(jù)冗余有時(shí)會(huì)提高數(shù)據(jù)分析的效率

。4

.

數(shù)據(jù)集成●

(

3

)

實(shí)例重復(fù)●

實(shí)例重復(fù):

給定的唯一的數(shù)據(jù)實(shí)體存在兩個(gè)或者多個(gè)相同的記錄實(shí)例

。重復(fù)數(shù)據(jù)會(huì)嚴(yán)重影響后續(xù)數(shù)據(jù)分

析的效果

?!?/p>

對(duì)于數(shù)據(jù)中實(shí)例重復(fù)的問(wèn)題

,

需要調(diào)查確定每個(gè)數(shù)據(jù)集的主鍵

對(duì)于沒(méi)有主鍵的數(shù)據(jù)表

,

需要確定合適

的主鍵

或者對(duì)數(shù)據(jù)表進(jìn)行拆分或整合

,

從而有效地解決實(shí)例重復(fù)的問(wèn)題

?!?/p>

(

4

)

數(shù)據(jù)沖突●

對(duì)于同一實(shí)體

來(lái)自不同數(shù)據(jù)源的相同的屬性值不同

。●

原因:

這可能是因?yàn)楂@取信息的時(shí)間點(diǎn)不同

,

屬性值發(fā)生了變化;

可能是因?yàn)樵诓煌臄?shù)據(jù)源中其表示

單位或者編碼不同;

相同的屬性可能抽象在不同的層次

。●

解決方法:

需要明確造成數(shù)據(jù)沖突的原因

,

如果是單位

、計(jì)量方法等不同

可以通過(guò)數(shù)據(jù)變換對(duì)數(shù)據(jù)進(jìn)

行變換整理;

如果數(shù)據(jù)沖突實(shí)在無(wú)法避免或者變換

,

就需要根據(jù)實(shí)際的業(yè)務(wù)需求考慮沖突數(shù)據(jù)

,

辨別出

正確的數(shù)值

。5

.

數(shù)據(jù)變換●

為了解決數(shù)據(jù)集成中的不一致問(wèn)題

,

以及更容易被后續(xù)模型處理

,

提高模型的擬合度

需要將原

有數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?/p>

?!?/p>

(

1

)

函數(shù)變換●

函數(shù)變換是指對(duì)樣本中的原始數(shù)據(jù)直接使用某些數(shù)學(xué)函數(shù)進(jìn)行變換

,

使得處理后的數(shù)據(jù)更適合模

型后續(xù)的處理

。●

選擇數(shù)據(jù)變換函數(shù)需要考量:●

變換后的數(shù)據(jù)要分布在合理的區(qū)間

,

或者說(shuō)變換后的數(shù)據(jù)符合對(duì)現(xiàn)實(shí)生活中分布的認(rèn)知

?!?/p>

變換后的數(shù)據(jù)的分布特征

正負(fù)性和平穩(wěn)性等都可能會(huì)發(fā)生改變

,

所以在進(jìn)行函數(shù)變換前

應(yīng)該預(yù)判變

換后是否會(huì)影響后續(xù)數(shù)據(jù)模型的建立和分析的有效性

。5

.

數(shù)據(jù)變換●

(

2

)

規(guī)范化●

數(shù)據(jù)規(guī)范化是指將原始數(shù)據(jù)按照一定的比例縮放

使其落入一個(gè)較小的特定區(qū)間

。●

一般來(lái)說(shuō)

,

通過(guò)數(shù)據(jù)的縮放能夠消除數(shù)據(jù)的量綱

,

消除度量單位引起的數(shù)值差異

即將屬性

數(shù)據(jù)縮放到一個(gè)特定區(qū)間

。●

①最小—最大規(guī)范化●

也稱為離散標(biāo)準(zhǔn)化

,

利用某屬性的最大值和最小值

,

將該屬性的取值映射到[0

,

1]之間

?!?/p>

優(yōu)點(diǎn)是算法操作簡(jiǎn)單

,

且保留了原始數(shù)據(jù)存在的關(guān)系●

缺點(diǎn)是規(guī)范值不穩(wěn)定

,

容易受極值的影響

方法適用于數(shù)據(jù)比較集中的情況

。5

.

數(shù)據(jù)變換●

(

2

)

規(guī)范化●

③小數(shù)定標(biāo)規(guī)范化●

通過(guò)移動(dòng)數(shù)據(jù)的小數(shù)位數(shù)

即除以10的某次方

,

將數(shù)據(jù)映射到[-1

,

1]之間

。

移動(dòng)的小數(shù)位數(shù)取決

于數(shù)據(jù)中最大絕對(duì)值的位數(shù)

。●

只是移動(dòng)小數(shù)點(diǎn)

,

不會(huì)破壞原始數(shù)據(jù)的分布結(jié)構(gòu)

當(dāng)然也會(huì)受到極值的影響

。5

.

數(shù)據(jù)變換●

(

3

)

離散化●

將數(shù)據(jù)從連續(xù)型數(shù)值數(shù)據(jù)轉(zhuǎn)換為離散型標(biāo)稱數(shù)據(jù)

?!?/p>

進(jìn)行數(shù)據(jù)離散化通常是為了滿足特定模型的需要

,

將數(shù)據(jù)類型從連續(xù)轉(zhuǎn)換到

或者在某些情況下將已有的離散型數(shù)

據(jù)進(jìn)行類別合并

,

減少類別數(shù)量

?!?/p>

①等寬離散化●將原始連續(xù)數(shù)據(jù)的區(qū)間劃分成具有相同寬度的子區(qū)間

比較簡(jiǎn)單

,

缺點(diǎn)在于沒(méi)有考慮實(shí)際數(shù)據(jù)的分布情況

,

可能會(huì)導(dǎo)致離

散化之后建立的數(shù)據(jù)模型樣本不均衡

?!?/p>

②等頻離散化●根據(jù)連續(xù)型數(shù)值數(shù)據(jù)的分布劃分類別

劃分后的各個(gè)區(qū)間包含的數(shù)據(jù)點(diǎn)的個(gè)數(shù)是相等的

,

為保證各個(gè)區(qū)間包含的實(shí)例個(gè)數(shù)

相等

,

可能會(huì)將原本相同的兩個(gè)數(shù)值劃分到不同類別中

,

從而影響了后續(xù)建立模型的準(zhǔn)確性

?!?/p>

③聚類離散化●用聚類算法

根據(jù)數(shù)據(jù)的相似性將原始數(shù)據(jù)分成多個(gè)類別

,

實(shí)現(xiàn)離散化

?!裥Ч^好的一類離散方法,●缺點(diǎn):需要用戶自

己規(guī)定聚類個(gè)數(shù)

聚類的效果受到經(jīng)驗(yàn)的影響

。5

.

數(shù)據(jù)變換●(

4

)

獨(dú)熱編碼(One-hot

encoding

)●

在數(shù)據(jù)集中標(biāo)稱數(shù)據(jù)有兩種常見(jiàn)類型:

分類的取值有大小之分

,

直接用數(shù)值表示類別

,

需要進(jìn)行轉(zhuǎn)換;

第二

,

離散特征的取值之間沒(méi)有大小之分

,

無(wú)法直接比較類別的差異

,

此時(shí)就需

要對(duì)特征進(jìn)行獨(dú)熱編碼

?!?/p>

根據(jù)類別可能的數(shù)量設(shè)定位數(shù)N

建立N位編碼

,

每一個(gè)類別對(duì)應(yīng)一個(gè)位置

因?yàn)闃颖局荒軐儆?/p>

一個(gè)類別

,

所以N位獨(dú)熱編碼中只有一位有效

?!?/p>

離散特征進(jìn)行獨(dú)熱編碼之后

,

可以計(jì)算特征之間的距離或相似度

?!?/p>

如果某個(gè)類別有多個(gè)可能的取值

則編碼的位數(shù)會(huì)相應(yīng)地增加

,

有時(shí)會(huì)影響處理效率

。6

.

數(shù)據(jù)規(guī)約●

數(shù)據(jù)集可能規(guī)模較大

,

大幅度降低數(shù)據(jù)分析效率

數(shù)據(jù)規(guī)約就是能夠降低屬性維度

、減少樣本數(shù)量的

方法

?!?/p>

核心是要產(chǎn)生規(guī)模更小但能最大可能保持原始數(shù)據(jù)特點(diǎn)和完整性的新數(shù)據(jù)集

?!?/p>

(

1

)

屬性規(guī)約●

屬性規(guī)約通過(guò)減少屬性數(shù)量

,

達(dá)到減少數(shù)據(jù)集的目

?!?/p>

主成分分析(Principal

Component

Analysi

s

,PCA)

是屬性規(guī)約的主要方法

?!?/p>

基本思想是針對(duì)原始數(shù)據(jù)集

重新構(gòu)造一組有代表性的

、

互不相關(guān)的新特征

?!癫幌嚓P(guān)意味著這些新特征包含的信息彼此不重復(fù)

,

而有代表性則說(shuō)明

這些特征還能夠盡量多地涵蓋原始數(shù)

據(jù)的信息

。●

對(duì)于新特征互不相關(guān)的要求

,

可以利用正交基向量互不相關(guān)的性質(zhì)

通過(guò)構(gòu)造多維度正交基向量來(lái)保證;

對(duì)于包含盡量多的信息的要求

則通過(guò)樣本在新特征上取值的方差來(lái)衡量

,

方差越大

,

說(shuō)明數(shù)據(jù)在此新特征

上越分散

包含的信息也越多

?!?/p>

(

2

)

數(shù)值規(guī)約●

用部分或者較小規(guī)模的數(shù)據(jù)來(lái)替換原始數(shù)據(jù)

?!?/p>

①直方圖●

通過(guò)劃分子區(qū)間的方式減少原數(shù)據(jù)的屬性取值

?!?/p>

子區(qū)間的劃分可以是等寬的

,

也可以是等頻的

?!?/p>

②聚類●

利用聚類進(jìn)行數(shù)值規(guī)約

將數(shù)據(jù)分簇

,

使得同簇的對(duì)象相似

不同簇的對(duì)

表值來(lái)替換原始數(shù)據(jù)

。相異

用每個(gè)數(shù)據(jù)簇中的代6

.

數(shù)據(jù)規(guī)約6

.

數(shù)據(jù)規(guī)約●

(

2

)

數(shù)值規(guī)約

③抽樣●

基本思想是從原始數(shù)據(jù)集合中隨機(jī)抽取小得多的子集

用其代表原始數(shù)據(jù)集

。●

抽樣的方法主要包括簡(jiǎn)單隨機(jī)抽樣

、

分層抽樣

?!?/p>

簡(jiǎn)單隨機(jī)抽樣●

每條數(shù)據(jù)記錄以相同的概率被抽中

。

具體分為無(wú)放回和有放回兩種

。兩者的區(qū)別在于當(dāng)一個(gè)數(shù)據(jù)記

錄從原始數(shù)據(jù)集中被抽取之后

,

無(wú)放回抽樣將在剩余數(shù)據(jù)集中繼續(xù)抽取新數(shù)據(jù);

而有放回抽樣會(huì)將

被抽取的數(shù)據(jù)放回原始數(shù)據(jù)集

下一次再次以同樣的概率被抽取

。

該方法主要適用于總體個(gè)數(shù)較小

且樣本類別分布均衡的情況

。●

分層抽樣●

先根據(jù)類別將原始數(shù)據(jù)集劃分為不同的層(或組)

,

層之間是互不相交的

然后對(duì)每一層各自進(jìn)行

抽樣

,

最后將各層抽樣的結(jié)果進(jìn)行整合

得到對(duì)于原始數(shù)據(jù)集的抽樣

。第二節(jié)

特征工程●

特征指的是對(duì)數(shù)據(jù)各方面的描述

是進(jìn)行分析和解決問(wèn)題的基礎(chǔ)

。●

好的數(shù)據(jù)和特征是所有模型和算法發(fā)揮到極致的前提

。

因此

,

需要圍繞分析的問(wèn)題

,

在原始數(shù)

據(jù)特征中找到既能盡量多地代表全部特征又能使算法模型達(dá)到最佳性能的特征子集

。●

特征工程包括三個(gè)方面:

特征構(gòu)建

、特征提取和特征選擇

。●

特征構(gòu)建●

是指圍繞需要解決的問(wèn)題

,

用人工方法從原始數(shù)據(jù)中找出一些有代表性的

能夠刻畫研究對(duì)象關(guān)鍵屬性的特征的過(guò)程

。●

特征提取●

通過(guò)特征轉(zhuǎn)換

,

依據(jù)屬性取值之間的相關(guān)關(guān)系

去除不重要以及冗余的特征

,

減少特征數(shù)量的過(guò)程

。第二節(jié)

特征工程●

數(shù)據(jù)樣本的屬性特征分類●

可以分為三種類型:●

對(duì)當(dāng)前的學(xué)習(xí)任務(wù)有用的屬性稱為

相關(guān)特征

,

可以提升模型的效果;●

對(duì)當(dāng)前的學(xué)習(xí)任務(wù)沒(méi)用的稱為

無(wú)用特征

”;●

冗余特征

”是指其特征包含的信息能夠從其他特征中計(jì)算或者推演出來(lái)

?!?/p>

特征選擇●

科學(xué)剔除不相關(guān)或者冗余特征的過(guò)程1

.

特征選擇的目的●

維數(shù)災(zāi)難

”就是當(dāng)數(shù)據(jù)的特征維度超過(guò)某個(gè)值之后

隨著特征數(shù)量的進(jìn)一步增加

,

模型訓(xùn)練的

效率會(huì)降低

同時(shí)訓(xùn)練出的模型準(zhǔn)確度反而會(huì)下降

。●

為了降低模型的復(fù)雜性

、

降低模型訓(xùn)練的時(shí)間

同時(shí)提高模型的效果

、

準(zhǔn)確率

,

我們需要進(jìn)行特

征選擇

。2

.

特征選擇的過(guò)程●

特征選擇的目標(biāo)就是從備選的特征子集中選擇出對(duì)算法模型表現(xiàn)最好的子集

。●

特征選擇的過(guò)程一般為特征子集搜索

、

構(gòu)建候選子集

利用評(píng)價(jià)函數(shù)對(duì)子集進(jìn)行評(píng)價(jià)

,

然后利用

停止規(guī)則

驗(yàn)證所得到的特征子集是否滿足要求

。3

.

子集搜索●

(

1

)

完全搜索●

基本思路是遍歷原始特征所組成的所有可能的特征子集

從中尋找最優(yōu)

?!?/p>

需要對(duì)所有可能的特征子集利用評(píng)價(jià)函數(shù)進(jìn)行計(jì)算比較

評(píng)價(jià)函數(shù)表現(xiàn)最好的特征子集為最終的

搜索結(jié)果

。●

避免了局部最優(yōu)解

,

但是遍歷會(huì)帶來(lái)很大的計(jì)算開銷

其復(fù)雜度是指數(shù)級(jí)別的

。3

.

子集搜索●

(

2

)

啟發(fā)式搜索●

從某一個(gè)候選特征子集出發(fā)

向其中不斷添加或者減少特征

,

不斷構(gòu)建出新的特征子集

,

并在改

變的過(guò)程中對(duì)候選子集進(jìn)行評(píng)價(jià)

?!?/p>

序列前向選擇(Sequential

Forward

Selection

,

SFS)

,

是不斷將新的特征添加到候選子集的方

該方法的搜索從空集開始

,

每次選擇一個(gè)特征加入當(dāng)前子集

加入的判斷標(biāo)準(zhǔn)是評(píng)價(jià)函數(shù)得

到了優(yōu)化

,

這個(gè)過(guò)程持續(xù)進(jìn)行

,

直到評(píng)價(jià)函數(shù)的值不能變得更優(yōu)時(shí)停止

?!?/p>

序列后向選擇(Sequential

Backward

S

election

,

SBS)

,

該方法以特征全集為初始的特征子

每次從特征子集中剔除一個(gè)特征

,

剔除的標(biāo)準(zhǔn)是剔除某特征后

評(píng)價(jià)函數(shù)值會(huì)變優(yōu)

。●

雙向搜索(BiDirectional

Search

,BDS)

,將前面介紹的兩種方法結(jié)合起來(lái)進(jìn)行搜索

,

當(dāng)兩者達(dá)

到相同的特征子集時(shí)停止搜索

。3

.

子集搜索●

(

3

)

隨機(jī)搜索●

基本思想:

在啟發(fā)式算法中進(jìn)行更改

使之能夠在一定程度上跳出局部最優(yōu)值●

隨機(jī)產(chǎn)生序列選擇算法●

隨機(jī)產(chǎn)生一個(gè)特征子集

,

再在該特征子集上執(zhí)行前向搜索算法和后向搜索算法

。

多次進(jìn)行此過(guò)程后

到表現(xiàn)最優(yōu)的子集作為特征搜索的結(jié)果

。●

模擬退火算法●

核心思想是有一定隨機(jī)概率拒絕表現(xiàn)更優(yōu)的子集

,

防止陷入局部最優(yōu)

。4

.

子集評(píng)價(jià)●

依據(jù)評(píng)價(jià)函數(shù)對(duì)候選特征子集的優(yōu)劣進(jìn)行評(píng)價(jià)的過(guò)程

。●

一個(gè)特征子集的優(yōu)劣往往是對(duì)于特定的評(píng)價(jià)函數(shù)來(lái)說(shuō)的

,

對(duì)于不同問(wèn)題背景下的評(píng)價(jià)函數(shù),

同一特征子集的優(yōu)劣可能表現(xiàn)得不同

。5.

特征選擇的方法?根據(jù)評(píng)價(jià)和搜索與后續(xù)模型算法的聯(lián)系的緊密程度,

特征選擇方法可以分為三類。5.

特征選擇的方法?

(

1

)

過(guò)濾式?

基本思想:

首先選擇出在特征評(píng)價(jià)指標(biāo)下表現(xiàn)較好的特征子集,

然后利用最終得到的最優(yōu)特征子集去訓(xùn)練模型。?

過(guò)濾式特征選擇的最大特點(diǎn)在于選擇特征子集的過(guò)程與模型的表現(xiàn)效果無(wú)關(guān),兩者是獨(dú)立進(jìn)行的

。過(guò)濾式特征選擇對(duì)特征的評(píng)價(jià)與后續(xù)的模型算法無(wú)關(guān),是基于數(shù)據(jù)特征本身的性質(zhì)進(jìn)行評(píng)價(jià)的。?

優(yōu)點(diǎn):

通用性較強(qiáng),

選擇的特征子集可以應(yīng)用于多個(gè)問(wèn)題背景;

算法在特征

選擇時(shí)不需要進(jìn)行模型訓(xùn)練優(yōu)化,

復(fù)雜性較低;

適用于大規(guī)模且需要高效率選擇特征的數(shù)據(jù)集。?

缺點(diǎn):

所選擇的特征子集在模型準(zhǔn)確率上通常低于其他兩種特征選擇方法。5.

特征選擇的方法5.

特征選擇的方法?

(

1

)

過(guò)濾式?②依賴性度量?又稱為相關(guān)性度量,

基于的假設(shè)為:

特征子集所包含的特征應(yīng)該與目標(biāo)屬性的相關(guān)度較高,

而子集中特征之間的相關(guān)度較低。?

皮爾遜相關(guān)系數(shù)?

被廣泛應(yīng)用于對(duì)兩個(gè)連續(xù)型數(shù)據(jù)屬性取值之間的相關(guān)程度的度量。?

用協(xié)方差除以兩個(gè)變量的標(biāo)準(zhǔn)差得到,計(jì)算結(jié)果介于-1到1之間,度量的是兩個(gè)屬性之間是否存在線性關(guān)系。?

卡方檢驗(yàn)?

衡量?jī)蓚€(gè)離散屬性之間的相關(guān)程度。?

根本思想是:

首先假設(shè)某特征屬性和目標(biāo)屬性是獨(dú)立的,

也就是說(shuō),特征屬性與目標(biāo)結(jié)果沒(méi)有相關(guān)性,那么在此特征的取值范圍上,

目標(biāo)屬性的分布理論上應(yīng)該是均勻的,通過(guò)比較理論值與實(shí)際值的吻合程度來(lái)確定原假設(shè)是否成立。5.

特征選擇的方法?

(

1

)

過(guò)濾式?

③信息增益度量?

信息增益的概念來(lái)自信息熵,

通過(guò)衡量按照某屬性取值劃分后數(shù)據(jù)集的“純度

”評(píng)價(jià)屬性的重要性。?

④一致性度量?

基于以下假設(shè):

如果某特征對(duì)于研究目標(biāo)屬性是重要的,

那么對(duì)于任意兩個(gè)樣本來(lái)說(shuō),

當(dāng)它們?cè)谔卣魃系娜≈迪嗤瑫r(shí),

其在目標(biāo)屬性中的取值也應(yīng)該相同。?

一致性常用不一致率來(lái)衡量,

不一致率越小,

表示根據(jù)這一評(píng)價(jià)標(biāo)準(zhǔn),

特征子集的表現(xiàn)越好。5.

特征選擇的方法?

(

2

)

包裹式?直接將后續(xù)要使用的模型性能的好壞作為特征選擇的評(píng)價(jià)標(biāo)準(zhǔn),

選擇

使得后續(xù)模型表現(xiàn)最好的特征子集作為最優(yōu)子集

。包裹式特征選擇的結(jié)果不是普遍適用的,

是直接針對(duì)給定的模型來(lái)進(jìn)行特征選擇的。?優(yōu)點(diǎn):

顯然從最終模型的性能、準(zhǔn)確率等表現(xiàn)來(lái)看,

包裹式特征選擇要優(yōu)于過(guò)濾式特征選擇。?缺點(diǎn):

需要選擇不斷地訓(xùn)練模型,

以得到表現(xiàn)最好的特征子集,

所以

相對(duì)于過(guò)濾式特征選擇來(lái)說(shuō),

其花費(fèi)的時(shí)間和成本都較大,

不適用于

較大規(guī)?;蛘邿o(wú)關(guān)特征較多的數(shù)據(jù)集。?

典型的包裹式特征選擇方法包括LVW(Las

Vegas

Wrapper)算法和遞

歸特征消除法RFE(recursive

feature

elimination)

。5.

特征選擇的方法?(

3

)

嵌入式?沒(méi)有專門的準(zhǔn)則對(duì)特征進(jìn)行評(píng)價(jià),

而是將特征選擇的過(guò)程與模型

的訓(xùn)練過(guò)程完全融合在一起,在模型構(gòu)建訓(xùn)練的過(guò)程中自動(dòng)實(shí)現(xiàn)

了特征選擇。?常見(jiàn)的一種嵌入式特征選擇方式是進(jìn)行正則化,

把額外的懲罰項(xiàng)

加到原有模型的損失函數(shù)上,

通過(guò)最小化正則項(xiàng),

使那些不重要

的特征所對(duì)應(yīng)的系數(shù)變成0,進(jìn)而實(shí)現(xiàn)特征選擇。?有些數(shù)據(jù)挖掘的算法在完成模型訓(xùn)練的同時(shí),

自身就可以實(shí)現(xiàn)特

征選擇,

判斷哪些屬性對(duì)目標(biāo)屬性更重要

。在自身的訓(xùn)練過(guò)程中

完成了特征選擇,

也是一種嵌入式特征選擇方法。第三章

數(shù)據(jù)獲取與數(shù)據(jù)理解第四章

數(shù)據(jù)預(yù)處理第五章

計(jì)量模型第六章

數(shù)據(jù)挖掘分類預(yù)測(cè)模型第七章

數(shù)據(jù)挖掘聚類與關(guān)聯(lián)規(guī)則模型第八章

社會(huì)網(wǎng)絡(luò)分析模型第九章

復(fù)雜數(shù)據(jù)分析方法第十章

數(shù)據(jù)可視化第二部分商務(wù)數(shù)據(jù)分析

常用方法第五章

計(jì)量模型第

節(jié)

時(shí)間序列分析●1

.

時(shí)間序列分析簡(jiǎn)介●(2)時(shí)間序列分析方法●

主要可以分為兩類:

描述性時(shí)序分析和統(tǒng)計(jì)時(shí)序分析

?!?/p>

描述性時(shí)序分析指的是

通過(guò)繪制時(shí)序圖等方式

,

比較

、觀察

、

發(fā)現(xiàn)時(shí)間序列中顯然存在的

一些變化趨勢(shì)

如數(shù)據(jù)逐漸增大或變小的趨勢(shì)性

,

或者數(shù)據(jù)變化呈現(xiàn)周期性等

。1

.

時(shí)間序列分析簡(jiǎn)介●(2)時(shí)間序列分析方法●

統(tǒng)計(jì)時(shí)序分析目前比較流行的方法是進(jìn)行時(shí)域分析

,

認(rèn)為時(shí)間序列的值之間存在有一定的相

關(guān)關(guān)系

,

而且這種相關(guān)關(guān)系通常具備某些統(tǒng)計(jì)規(guī)律

。●

時(shí)域分析就是利用模型刻畫時(shí)間序列的值中體現(xiàn)的關(guān)系的規(guī)律

。2

.

時(shí)間序列建模:

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論