數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第6章-大數(shù)據(jù)分析方法_第1頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第6章-大數(shù)據(jù)分析方法_第2頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第6章-大數(shù)據(jù)分析方法_第3頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第6章-大數(shù)據(jù)分析方法_第4頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第6章-大數(shù)據(jù)分析方法_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章大數(shù)據(jù)分析方法主編:王道平數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論本章教學(xué)要點(diǎn)本章主要介紹大數(shù)據(jù)分析方法的類型與步驟、數(shù)據(jù)挖掘的主要方法、時(shí)間序列分析和人工神經(jīng)網(wǎng)絡(luò)。其中需掌握關(guān)聯(lián)規(guī)則、預(yù)測(cè)與分類、聚類以及確定性時(shí)間序列的相關(guān)知識(shí)點(diǎn);熟悉大數(shù)據(jù)分析方法的步驟、隨機(jī)性時(shí)間序列分析和人工神經(jīng)網(wǎng)絡(luò)模型的內(nèi)容;了解大數(shù)據(jù)分析方法的類型、時(shí)間序列分析概述、人工神經(jīng)網(wǎng)絡(luò)概述和梯度下降法的內(nèi)容。目錄大數(shù)據(jù)分析方法概述6.16.2數(shù)據(jù)挖掘的主要方法6.3時(shí)間序列分析6.4人工神經(jīng)網(wǎng)絡(luò)01大數(shù)據(jù)分析方法概述PART

ONE6.1.1大數(shù)據(jù)分析方法的類型大數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)采集的大量數(shù)據(jù)進(jìn)行分析,并將這些數(shù)據(jù)加以匯總、理解和消化,提取有用信息和形成結(jié)論,以求最大化的開發(fā)數(shù)據(jù)的功能和發(fā)揮數(shù)據(jù)的作用。6.1.1大數(shù)據(jù)分析方法的類型依據(jù)任務(wù)難度和產(chǎn)生價(jià)值兩個(gè)維度,大數(shù)據(jù)分析方法可以劃分為描述分析、診斷分析、預(yù)測(cè)分析和規(guī)范分析4個(gè)層次。任務(wù)難度產(chǎn)生價(jià)值描述分析診斷分析預(yù)測(cè)分析規(guī)范分析6.1.1大數(shù)據(jù)分析方法的類型診斷分析診斷分析用來分析事情發(fā)生的原因,是通過采集的數(shù)據(jù)說明事件發(fā)生的原因。它的任務(wù)難度和產(chǎn)生的價(jià)值比描述分析高。描述分析描述分析用來描述事情發(fā)生的結(jié)果,是通過歷史數(shù)據(jù)來說明發(fā)生的事件。它的任務(wù)難度和產(chǎn)生的價(jià)值都是相對(duì)比較低的。(1)(2)6.1.1大數(shù)據(jù)分析方法的類型規(guī)范分析規(guī)范分析用來控制事情發(fā)生的軌跡,用于決策制定以及提高分析效率。它的任務(wù)難度和產(chǎn)生價(jià)值是這4個(gè)層次中最高的。預(yù)測(cè)分析預(yù)測(cè)分析用來預(yù)測(cè)未來事件的演化趨勢(shì)和發(fā)生的概率,它的任務(wù)難度和產(chǎn)生價(jià)值相對(duì)于描述分析和診斷分析來說更高。通過預(yù)測(cè)分析,將學(xué)習(xí)到的知識(shí)和規(guī)律應(yīng)用到未來,可以更好的對(duì)未來的情況進(jìn)行判斷。(3)(4)6.1.1大數(shù)據(jù)分析方法的類型按統(tǒng)計(jì)學(xué)領(lǐng)域劃分,可分為描述性分析、探索性分析和驗(yàn)證性分析。描述性分析用來說明發(fā)生的事件;探索性分析致力于找出事物內(nèi)在的本質(zhì)結(jié)構(gòu);驗(yàn)證性分析主要檢驗(yàn)已知的特定結(jié)構(gòu)是否按照預(yù)期的方式發(fā)揮作用。如果分析者沒有堅(jiān)實(shí)的理論基礎(chǔ)來支撐有關(guān)觀測(cè)變量?jī)?nèi)部結(jié)構(gòu)的假定,通常先用探索性分析,然后在探索性分析產(chǎn)生結(jié)果的基礎(chǔ)上用驗(yàn)證分析。6.1.1大數(shù)據(jù)分析方法的類型描述性分析指通過圖表形式加工處理和顯示采集的數(shù)據(jù),進(jìn)而綜合概括和分析出反應(yīng)客觀現(xiàn)象的規(guī)律,即描繪或總結(jié)所采集到的數(shù)據(jù)。描述數(shù)據(jù)的指標(biāo)包括描述數(shù)據(jù)集中趨勢(shì)和描述數(shù)據(jù)離中趨勢(shì)。6.1.1大數(shù)據(jù)分析方法的類型描述數(shù)據(jù)集中趨勢(shì)的指標(biāo)有平均數(shù)、中位數(shù)、眾數(shù)。(1)容易受極端值的影響。(2)具有唯一性。(3)是一個(gè)“虛擬”的數(shù),通過計(jì)算得出,不是數(shù)據(jù)中的原始數(shù)據(jù)。(1)中位數(shù)適用于對(duì)定量數(shù)據(jù)的集中趨勢(shì)分析。(2)不適用于分類數(shù)據(jù)。(3)不受極端值的影響。(1)眾數(shù)是是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù),主要用于描述分類數(shù)據(jù)的特點(diǎn)。(2)一般在數(shù)據(jù)量較大的情況下才有意義。(3)不受極端值的影響,但是可能存在多個(gè)眾數(shù)或者沒有眾數(shù)的情況。中位數(shù)眾數(shù)平均數(shù)6.1.1大數(shù)據(jù)分析方法的類型描述數(shù)據(jù)離中趨勢(shì)的指標(biāo)有極差、分位距、平均差、標(biāo)準(zhǔn)差、離散系數(shù)。極差(全距)說明了數(shù)據(jù)值的最大變動(dòng)范圍,但沒有考慮到中間值的變動(dòng)情況,受極端數(shù)值影響。分位距從一組數(shù)據(jù)中剔除了一部分極端值后重新計(jì)算的類似于全距的指標(biāo),如四分位距。平均差反映數(shù)據(jù)組中各項(xiàng)數(shù)據(jù)與算術(shù)平均數(shù)之間的平均差異。缺點(diǎn):用絕對(duì)值的形式消除各標(biāo)志值與算術(shù)平均數(shù)離差的正負(fù)值問題,不便于作數(shù)學(xué)處理和參與統(tǒng)計(jì)分析運(yùn)算。6.1.1大數(shù)據(jù)分析方法的類型標(biāo)準(zhǔn)差離散系數(shù)比較數(shù)據(jù)平均水平不同的兩組數(shù)據(jù)離中程度的大小,即相對(duì)離中程度。是一個(gè)無量綱的指標(biāo),因此在比較量綱不同或均值不同的兩組數(shù)據(jù)時(shí),應(yīng)該采用離散系數(shù)而非標(biāo)準(zhǔn)差作為參考指標(biāo)。標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量。標(biāo)準(zhǔn)差較大,代表大部分?jǐn)?shù)值和其平均值之間差異較大;標(biāo)準(zhǔn)差較小,代表這些數(shù)值較接近平均值。6.1.1大數(shù)據(jù)分析方法的類型探索性分析是在20世紀(jì)60年代由美國(guó)著名統(tǒng)計(jì)學(xué)家約翰˙圖基提出的,它是指在盡量少的先驗(yàn)假設(shè)下對(duì)已有的原始數(shù)據(jù)進(jìn)行探索性分析,通過作圖、制表、方程擬合和計(jì)算特征量等手段研究數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。探索性分析主要有3個(gè)特點(diǎn):在分析思路上探索數(shù)據(jù)的內(nèi)在規(guī)律,不局限于某種數(shù)據(jù)的假設(shè);采用的方法靈活多樣;選用的工具簡(jiǎn)單直觀、易于普及。6.1.1大數(shù)據(jù)分析方法的類型探索性分析和傳統(tǒng)估計(jì)方法的特點(diǎn)對(duì)比如下表所示。探索性分析傳統(tǒng)統(tǒng)計(jì)方法探索數(shù)據(jù)內(nèi)在規(guī)律,不進(jìn)行數(shù)據(jù)假設(shè)先假定一個(gè)模型,后使用適合此模型的方法進(jìn)行擬合、分析和預(yù)測(cè)采用的方法靈活多樣,分析者能夠一目了然的看出數(shù)據(jù)中隱含的有價(jià)值的信息以概率論為基礎(chǔ),使用假設(shè)檢驗(yàn)和置信區(qū)間等處理工具選用的工具簡(jiǎn)單直觀、更易于普及,強(qiáng)調(diào)數(shù)據(jù)可視化比較抽象和深?yuàn)W6.1.1大數(shù)據(jù)分析方法的類型驗(yàn)證性分析是指運(yùn)用各種定性或定量的分析方法和理論,對(duì)事物未來發(fā)展的趨勢(shì)進(jìn)行判斷和推測(cè),并且構(gòu)建出相應(yīng)的模型;然后通過已有的數(shù)據(jù)驗(yàn)證所提出的模型。驗(yàn)證性分析的具體步驟如右圖所示。構(gòu)建因子模型收集觀測(cè)值獲得相關(guān)系數(shù)矩陣根據(jù)數(shù)據(jù)擬合模型評(píng)價(jià)模型是否合理6.1.1大數(shù)據(jù)分析方法的類型依據(jù)探索自然的過程,可以劃分為定性分析和定量分析。定性分析側(cè)重于物理模型的建立和數(shù)據(jù)意義的闡述;定量分析為信息研究提供數(shù)量依據(jù),側(cè)重于數(shù)學(xué)模型的建立和求解。定性分析和定量分析是相互補(bǔ)充的,定性分析是定量分析的前提,定量分析使定性分析更加科學(xué)準(zhǔn)確。定性分析定量分析樣本無代表性的小樣本有代表性的大樣本分析方法非統(tǒng)計(jì)方法統(tǒng)計(jì)方法優(yōu)點(diǎn)操作簡(jiǎn)便結(jié)果直觀簡(jiǎn)潔、應(yīng)用效果好缺點(diǎn)主觀性強(qiáng)、應(yīng)用效果不好操作空難6.1.1大數(shù)據(jù)分析方法的類型根據(jù)數(shù)據(jù)分析的實(shí)時(shí)性劃分,大數(shù)據(jù)分析方法的類型可以劃分為在線數(shù)據(jù)分析和離線數(shù)據(jù)分析兩種。離線數(shù)據(jù)分析和在線數(shù)據(jù)分析的區(qū)別如下表所示。在線數(shù)據(jù)分析離線數(shù)據(jù)分析實(shí)時(shí)處理用戶請(qǐng)求不能實(shí)時(shí)處理用戶請(qǐng)求允許用戶隨時(shí)更改分析的約束和限制條件用戶不可隨時(shí)更改分析的約束、限制條件處理的數(shù)據(jù)量少處理的數(shù)據(jù)量大要求數(shù)秒內(nèi)返回準(zhǔn)確的分析結(jié)果對(duì)反饋時(shí)間要求不嚴(yán)格6.1.2大數(shù)據(jù)分析方法的步驟處在大數(shù)據(jù)時(shí)代,如何有效的從海量的數(shù)據(jù)中獲取有價(jià)值的信息對(duì)企業(yè)和科研人員來說至關(guān)重要。大數(shù)據(jù)分析方法有很多種,不同的分析方法具有不同的分析步驟,但是右圖的5個(gè)步驟是每種大數(shù)據(jù)分析方法必不可少的。數(shù)據(jù)獲取和儲(chǔ)存數(shù)據(jù)信息抽取和無用信息清洗數(shù)據(jù)整合和表述數(shù)據(jù)模型的建立和結(jié)果分析結(jié)果闡述6.1.2大數(shù)據(jù)分析方法的步驟采集數(shù)據(jù)1)采集過程中,應(yīng)該將識(shí)別的需求轉(zhuǎn)化為具體的要求;明確數(shù)據(jù)采集的方法、渠道、采集者以及采集時(shí)間和地點(diǎn);采取一定的措施防止數(shù)據(jù)丟失和虛假數(shù)據(jù)的情況發(fā)生。2)常用的采集數(shù)據(jù)的方法有DPI采集法、系統(tǒng)日志采集法和網(wǎng)絡(luò)數(shù)據(jù)采集法。識(shí)別信息需求1)識(shí)別信息需求是確保數(shù)據(jù)分析過程有效性的首要條件,可以為收集數(shù)據(jù)、分析數(shù)據(jù)提供清晰的目標(biāo)。2)識(shí)別信息需求是數(shù)據(jù)分析師的職責(zé),數(shù)據(jù)分析師應(yīng)該根據(jù)決策和過程控制的需求,提出對(duì)信息的需求。(1)(2)6.1.2大數(shù)據(jù)分析方法的步驟數(shù)據(jù)分析1)數(shù)據(jù)分析是將預(yù)處理后的數(shù)據(jù)進(jìn)行加工處理、分析整理,讓其轉(zhuǎn)化為有價(jià)值的信息。2)數(shù)據(jù)分析主要依靠的技術(shù)有統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和可視化分析。3)常用的工具有調(diào)查表、排列圖、控制圖、分層法、系統(tǒng)圖、矩陣數(shù)據(jù)圖、關(guān)聯(lián)圖、矩陣圖等。數(shù)據(jù)預(yù)處理1)最初收集到的數(shù)據(jù)可能是雜亂無章、高度冗余的,看不出規(guī)律。如若直接對(duì)這些數(shù)據(jù)進(jìn)行分析,則會(huì)產(chǎn)生耗費(fèi)時(shí)間、分析結(jié)果不準(zhǔn)確的情況發(fā)生。2)常用的數(shù)據(jù)預(yù)處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約、數(shù)據(jù)去冗余。(3)(4)6.1.2大數(shù)據(jù)分析方法的步驟評(píng)價(jià)并且改進(jìn)數(shù)據(jù)分析的有效性1)數(shù)據(jù)采集的目的是否明確、數(shù)據(jù)是否完備和有效、采集信息的渠道和方法是否恰當(dāng)。2)數(shù)據(jù)分析的方法是否合理。3)數(shù)據(jù)分析需要的資源能否提供。4)提供給決策者的信息是否完整可信、是否存在因信息不完整、不準(zhǔn)確而導(dǎo)致決策失誤。5)最終分析得到的結(jié)果是否與期望值一樣、是否能夠在產(chǎn)品實(shí)現(xiàn)過程中有效運(yùn)用。(5)02數(shù)據(jù)挖掘的主要方法PART

TWO6.2.1關(guān)聯(lián)規(guī)則1993年,美國(guó)學(xué)者安格沃爾首次提出了關(guān)聯(lián)規(guī)則的概念。關(guān)聯(lián)規(guī)則最初提出的動(dòng)機(jī)是針對(duì)超市購(gòu)物籃分析提出的,初次出現(xiàn)在超市的條形碼掃描器收集消費(fèi)者的交易數(shù)據(jù)。通過這些數(shù)據(jù),超市管理人員從中分析出顧客類型和購(gòu)買產(chǎn)品的分類等,進(jìn)而改善超市布局,提高顧客滿意度。6.2.1關(guān)聯(lián)規(guī)則相關(guān)概念:關(guān)系關(guān)系是指人與人之間、人與事務(wù)之間、事物與事物之間的相互聯(lián)系。關(guān)聯(lián)分析關(guān)聯(lián)分析是指從大量數(shù)據(jù)中找出數(shù)據(jù)項(xiàng)之間潛在的、有用的依賴關(guān)系。關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是指兩種物品之間可能存在的較強(qiáng)的關(guān)系。6.2.1關(guān)聯(lián)規(guī)則支持度(Support)支持度是指數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。例如,數(shù)據(jù)集{A,B}的支持度,表示同時(shí)包含A和B的記錄占所有記錄的比例。如果用P(A)表示項(xiàng)A的比例,那么數(shù)據(jù)集{A,B}的支持度就是P(A&B)。置信度(Confidence)對(duì)于數(shù)據(jù)集{A,B},置信度是指包含項(xiàng)A的記錄中同時(shí)包含項(xiàng)B的比例,即同時(shí)包含項(xiàng)A和B的記錄占所有包含項(xiàng)A記錄的比例,即:P(A&B)/P(A)。頻繁項(xiàng)集滿足最小支持度的項(xiàng)集為頻繁項(xiàng)集。6.2.1關(guān)聯(lián)規(guī)則假設(shè)某超市的部分購(gòu)物記錄如下表所示。則{牛奶}和{牛奶,尿布}的支持度分別為4/5、3/5。規(guī)則{尿布}→{啤酒}的置信度定義為“支持度({尿布,啤酒})/支持度({尿布})”。由于{尿布,啤酒}、{尿布}的支持度分別為3/5、4/5,所以規(guī)則“{尿布}→{啤酒}”的置信度為3/4。即該規(guī)則適用于75%包含“尿布”的記錄。交易號(hào)碼商品0牛奶、面包1面包、尿布、啤酒、香腸2牛奶、尿布、啤酒、可樂3面包、牛奶、尿布、啤酒、4面包、牛奶、尿布、可樂6.2.1關(guān)聯(lián)規(guī)則01(1)依據(jù)規(guī)則涉及的數(shù)據(jù)維數(shù),分為單維的和多維的關(guān)聯(lián)規(guī)則。(2)單維關(guān)聯(lián)規(guī)則只處理數(shù)據(jù)的一個(gè)維數(shù),而多維關(guān)聯(lián)規(guī)則處理多個(gè)維數(shù)的數(shù)據(jù)。02(1)從規(guī)則抽象層次可分為單層和多層關(guān)聯(lián)規(guī)則。(2)單層關(guān)聯(lián)規(guī)則忽略了所有變量在現(xiàn)實(shí)數(shù)據(jù)上具有多層次性;而多層關(guān)聯(lián)規(guī)則充分考慮了數(shù)據(jù)的多層次性。03(1)從規(guī)劃中處理變量的類別可以分為布爾型和數(shù)值型。(2)布爾型處理的值都是種類化的、離散的;數(shù)值型對(duì)數(shù)值型字段進(jìn)行處理,多層關(guān)聯(lián)規(guī)則或多維關(guān)聯(lián)結(jié)合起來。根據(jù)不同的劃分標(biāo)準(zhǔn),關(guān)聯(lián)規(guī)則可以分為以下幾種。6.2.1關(guān)聯(lián)規(guī)則Apriori算法的基本思想是使用候選項(xiàng)集查找頻繁項(xiàng)集,采用逐層搜索的迭代方法,即k-項(xiàng)集用于搜索(k+1)-項(xiàng)集。主要思路:先找到頻繁1-項(xiàng)集集合L1,然后用L1找到頻繁2-項(xiàng)集集合L2,接著用L2找L3,直到找不到頻繁k-項(xiàng)集,找每個(gè)Lk需要一次數(shù)據(jù)庫掃描。主要原理:頻繁項(xiàng)集的所有非空子集也必須都是頻繁的。若一個(gè)項(xiàng)集是非頻繁的,則其所有超集也一定是非頻繁的。并可對(duì)其立即剪枝,這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝。6.2.1關(guān)聯(lián)規(guī)則Apriori算法步驟Apriori算法由連接和剪枝兩個(gè)步驟組成。連接:Lk-1與自己連接產(chǎn)生候選k-項(xiàng)集的集合Ck。剪枝:掃描數(shù)據(jù)庫,確定Ck中每個(gè)候選項(xiàng)集的計(jì)數(shù),數(shù)值不小于最小支持度計(jì)數(shù)的所有候選集都是頻繁的,從而得到Lk。如果一個(gè)候選k-項(xiàng)集的(k-1)-子集不在Lk-1中,則該候選項(xiàng)集也不可能是頻繁的,從而可以從Ck中刪除。6.2.1關(guān)聯(lián)規(guī)則圖中的數(shù)據(jù)庫為超市中顧客的購(gòu)物交易數(shù)據(jù)庫。6.2.1關(guān)聯(lián)規(guī)則美國(guó)伊利諾伊大學(xué)教授韓嘉煒等人在2000年提出了FP-Growth算法。FP-Growth算法將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹,但仍保留項(xiàng)集的所有關(guān)聯(lián)信息。FP-Growth算法減少了掃描次數(shù),不使用候選集,并且只需對(duì)數(shù)據(jù)庫進(jìn)行2次掃描,就能夠?qū)?shù)據(jù)庫壓縮成一個(gè)頻繁模式樹(FP-Tree,F(xiàn)PT),并且直接從該結(jié)構(gòu)中提取頻繁項(xiàng)集,最后通過這棵樹生成關(guān)聯(lián)規(guī)則。FP樹是一種輸入數(shù)據(jù)的壓縮表示,它通過逐個(gè)讀入事務(wù),把每個(gè)事務(wù)映射到FP樹中的一條路徑來構(gòu)造。由于不同的事務(wù)可能會(huì)有若干個(gè)相同的項(xiàng),因此它們的路徑可能部分重疊,路徑相互重疊越多,使用FP樹結(jié)構(gòu)獲得的壓縮效果越好。6.2.1關(guān)聯(lián)規(guī)則按照從下到上的順序找到每個(gè)元素的條件模式基,遞歸調(diào)用樹狀結(jié)構(gòu),刪除小于最小支持度的節(jié)點(diǎn)。若呈現(xiàn)單一路徑的樹狀結(jié)構(gòu),則列舉所有組合;若呈現(xiàn)的是非單一路徑的樹狀結(jié)構(gòu),則繼續(xù)調(diào)用樹狀結(jié)構(gòu),直到形成單一路徑。掃描一次數(shù)據(jù)集,確定每個(gè)項(xiàng)的支持度計(jì)數(shù)。舍棄非頻繁項(xiàng),將頻繁項(xiàng)按照支持度的大小進(jìn)行遞減排序。(1)(3)(2)FP-Growth算法的過程如下:第二次掃描數(shù)據(jù)庫,構(gòu)建FP樹和創(chuàng)建項(xiàng)頭表。6.2.1關(guān)聯(lián)規(guī)則下面的例子說明了FP-Growth算法的過程。數(shù)據(jù)庫記錄表如下表所示,最小支持度為20%。編號(hào)項(xiàng)集編號(hào)項(xiàng)集1I1,I2,I56I2,I32I2,I47I1,I33I2,I38I1,I2,I3,I54I1,I2,I49I1,I2,I35I1,I3

6.2.1關(guān)聯(lián)規(guī)則(1)掃描數(shù)據(jù)庫,對(duì)每個(gè)元素進(jìn)行計(jì)數(shù),刪除小于最小支持度的項(xiàng)集,并且按照降序重新排列元素,然后按照元素出現(xiàn)次數(shù)重新調(diào)整數(shù)據(jù)庫中的記錄,如右表所示。編號(hào)項(xiàng)集1I2,I1,I52I2,I43I2,I34I2,I1,I45I1,I36I2,I37I1,I38I2,I1,I3,I59I2,I1,I36.2.1關(guān)聯(lián)規(guī)則(2)再次掃描數(shù)據(jù)庫,創(chuàng)建項(xiàng)頭表和頻繁模式樹。1)建立一個(gè)根結(jié)點(diǎn),標(biāo)記為null。對(duì)于第一條記錄{I2,I1,I5},新建一個(gè){I2}結(jié)點(diǎn),將其插入到根結(jié)點(diǎn)下,并設(shè)次數(shù)為1,再新建一個(gè){I1}結(jié)點(diǎn),插入到{I2}結(jié)點(diǎn)下面,最后新建一個(gè){I5}結(jié)點(diǎn),插入到{I1}結(jié)點(diǎn)下面,插入后如下圖所示。6.2.1關(guān)聯(lián)規(guī)則2)對(duì)于第二條記錄{I2,I4},發(fā)現(xiàn)根結(jié)點(diǎn)有兒子{I2},因此不需要新建結(jié)點(diǎn),只需將原來的{I2}結(jié)點(diǎn)的次數(shù)加1即可,隨后新建{I4}結(jié)點(diǎn)插入到{I2}結(jié)點(diǎn)下面,插入后如下圖所示。6.2.1關(guān)聯(lián)規(guī)則3)以此類推,再分析第五條記錄{I1,I3},發(fā)現(xiàn)根結(jié)點(diǎn)沒有兒子{I1},因此新建一個(gè){I1}結(jié)點(diǎn),并設(shè)次數(shù)為1,插在根結(jié)點(diǎn)下面。隨后新建結(jié)點(diǎn){I3}插入到{I1}結(jié)點(diǎn)下面,插入后如下圖所示。6.2.1關(guān)聯(lián)規(guī)則4)按照以上步驟以此類推,得到項(xiàng)頭表和頻繁模式樹,如下圖所示。(3)按照從下到上的順序,得到條件模式基,遞歸調(diào)用樹狀結(jié)構(gòu),刪除小于最小支持度的節(jié)點(diǎn),從而找到頻繁項(xiàng)集。6.2.2分類與預(yù)測(cè)分類:是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類的學(xué)習(xí)過程中,用于預(yù)測(cè)數(shù)據(jù)對(duì)象的分類標(biāo)號(hào)或者離散值。分類和預(yù)測(cè)可以用來提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來的數(shù)據(jù)趨勢(shì)。預(yù)測(cè):是指用于預(yù)測(cè)數(shù)據(jù)對(duì)象的連續(xù)性取值。區(qū)別:分類用于預(yù)測(cè)數(shù)據(jù)對(duì)象的類標(biāo)記,而預(yù)測(cè)則是估計(jì)某些空缺或未知值。6.2.2分類與預(yù)測(cè)決策樹(DecisionTree,DT)是一種歸納分類算法,它通過對(duì)訓(xùn)練集的學(xué)習(xí),挖掘出有用的規(guī)則,用于對(duì)新集進(jìn)行預(yù)測(cè)。每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)屬性上的測(cè)試;每個(gè)分支代表測(cè)試的結(jié)果;每個(gè)葉節(jié)點(diǎn)代表一個(gè)類標(biāo)簽或者類標(biāo)簽的概率分?jǐn)?shù)。6.2.2分類與預(yù)測(cè)決策樹的適用條件:實(shí)例是由“屬性-值”對(duì)應(yīng)表示;目標(biāo)函數(shù)具有離散的輸出值;輸入值可以是連續(xù)的也可以是離散的;輸出是用來描述決策流程的樹狀模型;葉子節(jié)點(diǎn)返回的是類標(biāo)簽或者類標(biāo)簽的概率分?jǐn)?shù)。6.2.2分類與預(yù)測(cè)決策樹的生成過程如下:剪樹枝在決策樹構(gòu)造時(shí),許多分支可能反映的是訓(xùn)練數(shù)據(jù)中的噪聲或孤立點(diǎn),剪枝就是識(shí)別并消除這類分支,以提高在未知數(shù)據(jù)上分類的準(zhǔn)確性。樹的建立將所有訓(xùn)練樣本都放在根結(jié)點(diǎn),依據(jù)所選的屬性循環(huán)地劃分樣本。(1)(2)6.2.2分類與預(yù)測(cè)01易于理解和實(shí)現(xiàn),不需要了解很多背景知識(shí),只需理解決策樹表達(dá)的意思即可。02(1)易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度。(2)如果給定一個(gè)觀察的模型,根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。03可以處理連續(xù)和種類字段,計(jì)算量相對(duì)較小。決策樹的優(yōu)點(diǎn)有以下幾個(gè)方面。04可以清晰的顯示哪些字段比較重要。6.2.2分類與預(yù)測(cè)決策樹的缺點(diǎn)有以下幾個(gè)方面。有時(shí)間順序的數(shù)據(jù),需很多預(yù)處理的工作。對(duì)連續(xù)性的字段比較難預(yù)測(cè)。(1)(2)一般算法分類時(shí),只根據(jù)一個(gè)字段來分類。當(dāng)類別太多時(shí),錯(cuò)誤可能會(huì)增加的比較快。(3)(4)6.2.2分類與預(yù)測(cè)基于ID3算法的決策樹構(gòu)建,其選擇特征的準(zhǔn)則是信息增益。信息增益表示已知類別X的信息而使得類Y的信息的不確定性減少的程度。信息增益越大,通過類別X,就越能夠準(zhǔn)確地將樣本進(jìn)行分類;信息增益越少,越無法準(zhǔn)確進(jìn)行分類。信息增益的定義集合D的信息熵與類別a給定條件下的信息熵之差為:G(D,a)=E(D)-E(D|a)其中類別a將數(shù)據(jù)集劃分為:D1,D2,……,Dv,類別a給定條件下的信息熵為:6.2.2分類與預(yù)測(cè)用打網(wǎng)球與天氣情況的數(shù)據(jù)集來說明利用ID3算法構(gòu)造決策樹的過程。打網(wǎng)球與天氣情況的數(shù)據(jù)集,如右表所示。OutlookTemperatureHumidityWindyClassSunnyHotHighWeakNoSunnyHotHighStrongNoOvercastHotHighWeakYesRainMildHighWeakYesRainCoolNormalWeakNoRainCoolNormalStrongNoOvercastCoolNormalStrongYesSunnyMildHighWeakYesSunnyCoolNormalWeakYesRainMildNormalWeakYesSunnyMildNormalStrongYesOvercastMildHighStrongYesOvercastHotNormalWeakYesRainMildHighStrongNo6.2.2分類與預(yù)測(cè)(1)計(jì)算未分區(qū)前類別屬性(天氣)的信息熵。數(shù)據(jù)集中共有14個(gè)實(shí)例,其中9個(gè)實(shí)例屬于yes類(適合打網(wǎng)球的),5個(gè)實(shí)例屬于no類(不適合打網(wǎng)球的),因此分區(qū)前類別屬性的信息熵為:6.2.2分類與預(yù)測(cè)(2)非類別屬性信息熵的計(jì)算。先選擇Outlook屬性。(3)Outlook屬性的信息增益為。6.2.2分類與預(yù)測(cè)(4)同理計(jì)算出其他3個(gè)非類別屬性的信息增益,取最大的屬性作為分裂節(jié)點(diǎn),此例中最大的是Outlook,如右圖所示。6.2.2分類與預(yù)測(cè)(5)針對(duì)Sunny中的子數(shù)據(jù)集分支,有兩個(gè)類別,該分支下有2個(gè)實(shí)例屬于no類,3個(gè)實(shí)例屬于yes類,其類別屬性新的信息熵為:(6)再分別求3個(gè)非類別屬性的信息熵,同時(shí)求出各屬性的信息增益,選出信息增益最大的屬性Humidity。(7)同理可得,rain子數(shù)據(jù)集下信息增益最大的是Temperature。6.2.2分類與預(yù)測(cè)(8)在rain子數(shù)據(jù)集中,cool對(duì)應(yīng)的數(shù)據(jù)子集都是no,所以直接寫no,無需分裂。mild對(duì)應(yīng)的數(shù)據(jù)子集,Humidity和Windy的信息增益相同。因?yàn)樵谠摲纸M中,yes元組的比例比no元組的大,所以直接寫yes。最終結(jié)果如下圖所示。6.2.3聚類聚類分析(ClusterAnalysis,CA)簡(jiǎn)稱為聚類,是指把數(shù)據(jù)對(duì)象劃分為子集的過程,每一個(gè)子集稱為一個(gè)簇(Cluster),同一個(gè)簇中的數(shù)據(jù)之間存在最大的相似性,而不同簇之間的數(shù)據(jù)存在最大的相異性。聚類是一種無監(jiān)督學(xué)習(xí),即在事先不知道分類標(biāo)簽的情況下,根據(jù)信息相似度原則進(jìn)行數(shù)據(jù)分類。6.2.3聚類從數(shù)據(jù)挖掘的角度來看,聚類分析可以分為以下4種。劃分聚類1)劃分聚類是指給定一個(gè)N對(duì)象的集合,劃分方法構(gòu)建數(shù)據(jù)的K個(gè)分區(qū),其中每個(gè)分區(qū)表示一個(gè)簇。2)大部分的劃分聚類是基于距離的,根據(jù)構(gòu)建的K個(gè)分區(qū)數(shù),首先創(chuàng)建一個(gè)初始劃分,然后用一種迭代的重定位技術(shù)將各個(gè)樣本重定位,直到滿足條件為止。3)劃分準(zhǔn)則:在同一個(gè)簇中的對(duì)象盡可能相似,不同簇中的對(duì)象則盡可能相異。(1)6.2.3聚類層次聚類1)層次聚類是指對(duì)給定的數(shù)據(jù)進(jìn)行層次分解,直到某種條件滿足為止。該方法首先將數(shù)據(jù)對(duì)象組成聚類樹,然后根據(jù)層次,自底向上或自頂向下分解。2)自底向上的層次聚類就是初始時(shí)每個(gè)對(duì)象都被看成是單獨(dú)的簇,然后逐步的合并相似的對(duì)象或簇,每個(gè)對(duì)象都從一個(gè)單點(diǎn)簇變?yōu)閷儆谧罱K的某個(gè)簇,或者達(dá)到某個(gè)終止條件為止。3)自頂向下的層次聚類是指初始時(shí)將所有的對(duì)象置于一個(gè)簇內(nèi),然后逐漸細(xì)分為更小的簇,直到最終每個(gè)對(duì)象都在單獨(dú)的一個(gè)簇中,或者達(dá)到某個(gè)終止條件為止,例如達(dá)到了某個(gè)希望的簇的數(shù)目,或者兩個(gè)最近的簇之間的距離超過了每個(gè)閾值。(2)6.2.3聚類基于密度的聚類1)由于劃分聚類和層次聚類往往只能發(fā)現(xiàn)凸形的聚類簇,為了彌補(bǔ)這一缺陷,發(fā)現(xiàn)各種任意形狀的聚類簇,人們開發(fā)了基于密度的聚類。2)該類算法從對(duì)象分布區(qū)域的密度著手,對(duì)于給定類中的數(shù)據(jù)點(diǎn),如果在給定范圍的區(qū)域中,對(duì)象或數(shù)據(jù)點(diǎn)的密度超過某一閾值就繼續(xù)聚類。通過連接密度較大的區(qū)域,就能形成不同形狀的聚類,而且還可以消除孤立點(diǎn)和噪聲對(duì)聚類質(zhì)量的影響。(3)6.2.3聚類基于網(wǎng)絡(luò)的聚類1)基于網(wǎng)格的聚類將數(shù)據(jù)空間劃分成有限個(gè)單元的網(wǎng)格結(jié)構(gòu),所有對(duì)數(shù)據(jù)的處理都是以單個(gè)單元為對(duì)象。2)優(yōu)點(diǎn):處理速度快;聚類的精度取決于單元的大小。3)缺點(diǎn):只能發(fā)現(xiàn)邊界是水平或垂直的簇,而不能檢測(cè)到斜邊界。(4)6.2.3聚類k-means算法也稱為k-均值聚類算法,是一種基于樣本間相似性度量的聚類方法。這種算法以k為參數(shù),把n個(gè)對(duì)象分為k個(gè)簇,使得簇內(nèi)對(duì)象間的相似度較高,而簇間對(duì)象的相似度較低。6.2.3聚類k-means算法的過程分為以下幾個(gè)步驟。隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的質(zhì)心對(duì)于其余的每一個(gè)對(duì)象,根據(jù)該對(duì)象與各簇質(zhì)心之間的距離,將其分配到與之最相似的簇中計(jì)算每個(gè)簇的新質(zhì)心重復(fù)上述過程,直至簇不發(fā)生變化或達(dá)到最大迭代次數(shù)為止6.2.3聚類k-means算法的優(yōu)點(diǎn)和缺點(diǎn)如下表所示。優(yōu)點(diǎn)缺點(diǎn)解決聚類問題的經(jīng)典算法,簡(jiǎn)單快速需要預(yù)先給定k值處理大數(shù)據(jù)集時(shí),該算法效率高不能處理非球形、不同尺寸或不同密度的簇能找出使平方誤差函數(shù)值最小的k個(gè)劃分可能收斂于局部最小值易于實(shí)現(xiàn)數(shù)據(jù)規(guī)模較大時(shí)收斂速度慢6.2.3聚類如左圖,對(duì)象個(gè)數(shù)為10,簇的個(gè)數(shù)為2。首先隨機(jī)選擇2個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的質(zhì)心。對(duì)于其余的每一個(gè)對(duì)象,根據(jù)該對(duì)象與各個(gè)簇質(zhì)心之間的距離,把它分配到與之最相似的簇中。然后計(jì)算每個(gè)簇的新質(zhì)心。重復(fù)上述過程,直到簇的質(zhì)心不發(fā)生變化。6.2.3聚類k-中心聚類是對(duì)k-means算法的改進(jìn)和優(yōu)化。在k-means算法中,異常數(shù)據(jù)會(huì)對(duì)算法過程產(chǎn)生很大的影響,如果某些異常點(diǎn)距離質(zhì)心相對(duì)較大,很可能導(dǎo)致重新計(jì)算得到的質(zhì)心偏離了聚簇的真實(shí)中心。而k-中心聚類算法剛好可以彌補(bǔ)這一點(diǎn)。k-中心聚類算法重復(fù)迭代,直至每個(gè)代表對(duì)象都成為它的簇的實(shí)際中心點(diǎn),聚類結(jié)果的質(zhì)量用代價(jià)函數(shù)評(píng)估,該函數(shù)用來度量對(duì)象與其簇的代表對(duì)象之間的平均相異度。6.2.3聚類k-中心聚類算法的步驟為以下5步。確定聚類結(jié)果簇的個(gè)數(shù)k在所有數(shù)據(jù)集合中選擇k個(gè)點(diǎn)作為各個(gè)簇的中心點(diǎn)計(jì)算其余所有點(diǎn)到k個(gè)中心點(diǎn)的距離,并把每個(gè)點(diǎn)到k個(gè)中心點(diǎn)最短的聚簇作為自己所屬的聚簇在每個(gè)聚簇中按順序依次選取點(diǎn),計(jì)算該點(diǎn)到當(dāng)前聚簇中所有點(diǎn)距離之和,最終距離最小的點(diǎn),視為新的中心點(diǎn)重復(fù)(2)、(3)步驟,直到各個(gè)聚簇的中心點(diǎn)不再改變6.2.3聚類k-中心聚類的基本思想:選用簇中位置最中心的對(duì)象,對(duì)n個(gè)對(duì)象給出k個(gè)劃分,代表對(duì)象也被稱為中心點(diǎn),其他對(duì)象被稱為非代表對(duì)象。k-中心聚類的缺點(diǎn):在聚類過程中耗時(shí)性高。k-中心聚類的優(yōu)點(diǎn):(1)對(duì)噪聲點(diǎn)(孤立點(diǎn))不敏感,具有較強(qiáng)的數(shù)據(jù)魯棒性。(2)聚類結(jié)果與數(shù)據(jù)對(duì)象點(diǎn)輸入順序無關(guān)。(3)聚類結(jié)果具有數(shù)據(jù)對(duì)象平移和正交變換的不變性。03時(shí)間序列分析PART

THREE6.3.1時(shí)間序列分析概述時(shí)間序列是指將某一指標(biāo)在不同時(shí)間上的數(shù)值,按照時(shí)間的先后順序排列而成的數(shù)列。時(shí)間序列的概念要點(diǎn)有以下3個(gè)。是同一現(xiàn)象在不同時(shí)間上的相繼觀察值排列而成的數(shù)列。形式上由現(xiàn)象所屬的時(shí)間和現(xiàn)象在不同時(shí)間上的觀察值兩部分組成。排列的時(shí)間可以是年份、季度、月份或其他任何時(shí)間形式。(2)(3)(1)6.3.1時(shí)間序列分析概述時(shí)間序列是指將某一指標(biāo)在不同時(shí)間上的數(shù)值,按照時(shí)間的先后順序排列而成的數(shù)列。時(shí)間序列的概念要點(diǎn)有以下3個(gè)。趨勢(shì)性周期性季節(jié)性變化不規(guī)則變化現(xiàn)象隨時(shí)間推移朝著一定方向呈現(xiàn)出持續(xù)漸進(jìn)地上升、下降或平穩(wěn)的變化或移動(dòng)。時(shí)間序列表現(xiàn)為循環(huán)于趨勢(shì)線上方和下方的點(diǎn)序列并持續(xù)年以上的有規(guī)則變動(dòng)?,F(xiàn)象受季節(jié)性影響,按一固定周期呈現(xiàn)出的周期波動(dòng)變化?,F(xiàn)象受偶然因素影響而呈現(xiàn)出不規(guī)則波動(dòng)。不規(guī)則因素是由短期未被預(yù)測(cè)到的以及不重復(fù)發(fā)現(xiàn)的那些影響時(shí)間序列的因素引起的。6.3.1時(shí)間序列分析概述按指標(biāo)形式劃分1)絕對(duì)數(shù)序列是時(shí)間序列中最基本的表現(xiàn)形式,它是由一系列絕對(duì)數(shù)按時(shí)間順序排列而成的序列,反映現(xiàn)象在不同時(shí)間上所達(dá)到的絕對(duì)水平。2)相對(duì)數(shù)時(shí)間序列是指一系列相對(duì)數(shù)按時(shí)間順序排列而成的序列。3)平均數(shù)時(shí)間序列是指一系列平均數(shù)按時(shí)間順序排列而成的序列。(1)根據(jù)劃分標(biāo)準(zhǔn)的不同,時(shí)間序列有不同的分類。6.3.1時(shí)間序列分析概述絕對(duì)數(shù)序列又分為時(shí)期序列和時(shí)點(diǎn)序列。兩者的區(qū)別如下表所示。時(shí)期序列是由時(shí)期絕對(duì)數(shù)數(shù)據(jù)所構(gòu)成的時(shí)間序列,其中的每一個(gè)數(shù)值反映現(xiàn)象在一段時(shí)間內(nèi)發(fā)展過程的總量。時(shí)點(diǎn)序列是由時(shí)點(diǎn)絕對(duì)數(shù)數(shù)據(jù)構(gòu)成的時(shí)間序列,其中每個(gè)數(shù)值反映現(xiàn)象在某一時(shí)點(diǎn)上說達(dá)到的水平。項(xiàng)目時(shí)期序列時(shí)點(diǎn)序列定義統(tǒng)計(jì)數(shù)據(jù)是時(shí)期數(shù)統(tǒng)計(jì)數(shù)據(jù)是時(shí)點(diǎn)數(shù)各項(xiàng)數(shù)據(jù)相加是否有實(shí)際意義有無統(tǒng)計(jì)數(shù)據(jù)的大小與時(shí)期長(zhǎng)短有無關(guān)系有無數(shù)據(jù)的取得方式連續(xù)登記間斷登記6.3.1時(shí)間序列分析概述按指標(biāo)變量的性質(zhì)劃分1)按指標(biāo)變量的性質(zhì)劃分,可以分為平穩(wěn)序列和非平穩(wěn)序列。2)非平穩(wěn)序列可以分為有趨勢(shì)序列和復(fù)合型序列。非平穩(wěn)序列是指包含趨勢(shì)、季節(jié)性或周期性的序列,它可能只含有其中的一種成分,也可能是幾種成分的組合。3)平穩(wěn)序列基本上不存在趨勢(shì)的序列,各個(gè)觀察值基本上在某個(gè)固定的水平上波動(dòng),或雖有波動(dòng),但并不存在某種規(guī)律,而其波動(dòng)可以看成是隨機(jī)的。(2)6.3.1時(shí)間序列分析概述時(shí)間序列分析是指利用預(yù)測(cè)目標(biāo)的歷史時(shí)間數(shù)據(jù),通過統(tǒng)計(jì)分析研究其發(fā)展變化規(guī)律,建立數(shù)學(xué)模型,據(jù)此進(jìn)行預(yù)測(cè)目標(biāo)的一種定量預(yù)測(cè)方法。時(shí)間序列分析的邏輯圖如下圖所示。6.3.1時(shí)間序列分析概述時(shí)間序列分析方法的分類如下。隨機(jī)性時(shí)間序列分析1)基本思想:通過分析不同時(shí)刻變量的相關(guān)關(guān)系,揭示其相關(guān)結(jié)構(gòu),利用這種相關(guān)結(jié)構(gòu)建立模型對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)。2)分類:一元/多元時(shí)序分析、可控/不可控時(shí)序分析、馬爾可夫分析、貝葉斯分析。確定性時(shí)間序列分析1)基本思想:用一個(gè)確定的時(shí)間函數(shù)來擬合時(shí)間序列,不同的變化采取不同的函數(shù)形式來描述,不同變化的疊加采用不同的函數(shù)疊加來描述。2)分類:周期波動(dòng)分析、趨勢(shì)變動(dòng)分析、發(fā)展水平分析、趨勢(shì)加周期波動(dòng)分析。(1)(2)6.3.2確定性時(shí)間序列分析時(shí)間序列雖然或多或少受不規(guī)則變動(dòng)的影響,但是若其在未來的發(fā)展情況能與過去一段時(shí)期的平均狀況大致相同,則可以采用歷史數(shù)據(jù)的平均值進(jìn)行預(yù)測(cè)。建立在平均值基礎(chǔ)上的預(yù)測(cè)方法適用于基本在水平方向波動(dòng)同時(shí)沒有明顯周期變化和變化趨勢(shì)的序列。6.3.2確定性時(shí)間序列分析簡(jiǎn)單移動(dòng)平均法時(shí)間序列n期的資料為Y1,Y2,…,Yn,選擇平均期數(shù)為T,則第T+1期的預(yù)測(cè)值為:(1)

若預(yù)測(cè)第T+2期,則其預(yù)測(cè)值為:

6.3.2確定性時(shí)間序列分析簡(jiǎn)單移動(dòng)平均法是利用時(shí)序前T期的平均值作為下一期預(yù)測(cè)值的方法。T是平均的期數(shù),即為移動(dòng)步長(zhǎng),其作用為平滑數(shù)據(jù),其大小決定了數(shù)據(jù)平滑的程度。一般來說,若序列變動(dòng)比較劇烈,T宜選取比較小的值;若序列變化較為平緩,則T可以取較大的值。優(yōu)點(diǎn):通過誤差不斷修正得到新的預(yù)測(cè)值。缺點(diǎn):往往存在滯后問題,即實(shí)際序列已經(jīng)發(fā)生大的波動(dòng),而預(yù)測(cè)結(jié)果卻不能立即反映。6.3.2確定性時(shí)間序列分析下表為某農(nóng)機(jī)公司某年1月到12月某種農(nóng)具的銷售量進(jìn)行的預(yù)測(cè)。通過表格可以看出選取移動(dòng)步長(zhǎng)為5時(shí)進(jìn)行預(yù)測(cè)更加科學(xué)準(zhǔn)確。月份實(shí)際銷售量(件)移動(dòng)步長(zhǎng)為3移動(dòng)步長(zhǎng)為5預(yù)測(cè)銷售(件)誤差平方預(yù)測(cè)銷售量(件)誤差平方1423————————2358————————3434————————44454051600————552741213225————6429469160043764742646716814391698502461168145225009480452784466196103844697225473792111427455784446361124464302564444

419

448

總和

28836

112156.3.2確定性時(shí)間序列分析一次指數(shù)平滑法一次指數(shù)平滑法也稱為單指數(shù)平滑法。令移動(dòng)步長(zhǎng)N為T,t為任意時(shí)刻,則:(2)

令a=1/N,顯然,0<a<1。平滑值記為St,則上式可寫為:

6.3.2確定性時(shí)間序列分析一次指數(shù)平滑法的局限性有以下3個(gè)方面。預(yù)測(cè)值不能反映趨勢(shì)變動(dòng)、季節(jié)波動(dòng)等有規(guī)律的變動(dòng)。該方法多適用于短期預(yù)測(cè),不適合用于中長(zhǎng)期預(yù)測(cè)。由于預(yù)測(cè)值是歷史數(shù)據(jù)的均值,所以與實(shí)際序列變化相比有滯后現(xiàn)象。(2)(3)(1)6.3.2確定性時(shí)間序列分析季節(jié)指數(shù)法1)季節(jié)指數(shù)法是根據(jù)呈現(xiàn)季節(jié)變動(dòng)的時(shí)間序列列資料,使用求算數(shù)平均值的方法直接計(jì)算各月或者各季的季節(jié)指數(shù),從而達(dá)到預(yù)測(cè)目的的一種方法。2)當(dāng)時(shí)間序列沒有明顯的趨勢(shì)變動(dòng),而主要受季節(jié)變化和不規(guī)則變動(dòng)影響時(shí),可用季節(jié)性水平模型進(jìn)行預(yù)測(cè)。(3)6.3.3隨機(jī)性時(shí)間序列分析在預(yù)測(cè)中,對(duì)于平穩(wěn)的時(shí)間序列,可用自回歸移動(dòng)平均模型、移動(dòng)平均模型等來擬合,預(yù)測(cè)該時(shí)間序列的未來值,但在實(shí)際的經(jīng)濟(jì)預(yù)測(cè)中,隨機(jī)數(shù)據(jù)序列往往都是非平穩(wěn)的,此時(shí)就需要對(duì)該隨機(jī)數(shù)據(jù)序列進(jìn)行差分運(yùn)算,即差分自回歸滑動(dòng)平均模型(AutoregressiveIntegrated-MovingAverageModels,ARIMA)。6.3.3隨機(jī)性時(shí)間序列分析ARIMA建模包括3個(gè)階段,即模型識(shí)別階段、參數(shù)估計(jì)和檢驗(yàn)階段、預(yù)測(cè)應(yīng)用階段。其中前兩個(gè)階段可能需要反復(fù)進(jìn)行。ARIMA模型的識(shí)別就是判斷p,d,q的階,主要依靠自相關(guān)函數(shù)和偏自相關(guān)函數(shù)圖來初步判斷和估計(jì)。一個(gè)識(shí)別良好的模型應(yīng)該有兩個(gè)要素:一是模型的殘差為白噪聲序列,需要通過殘差白噪聲檢驗(yàn),二是模型參數(shù)的簡(jiǎn)約性和擬合優(yōu)度指標(biāo)的優(yōu)良性方面取得平衡,還有一點(diǎn)需要注意的是,模型的形式易于理解。04人工神經(jīng)網(wǎng)絡(luò)PART

FOUR6.4.1人工神經(jīng)網(wǎng)絡(luò)概述人工神經(jīng)網(wǎng)絡(luò)是采用物理可實(shí)現(xiàn)的系統(tǒng)來模擬人腦神經(jīng)細(xì)胞的結(jié)構(gòu)和功能的系統(tǒng)。研究人工神經(jīng)網(wǎng)絡(luò)的目的是為了用計(jì)算機(jī)代替人的腦力勞動(dòng)。人工神經(jīng)網(wǎng)絡(luò)由大量模擬的神經(jīng)元組成。當(dāng)它用于預(yù)測(cè)技術(shù)時(shí),可能有一個(gè)或多個(gè)相關(guān)變量,這些變量相對(duì)于最后一級(jí)的某個(gè)節(jié)點(diǎn),預(yù)測(cè)性的人工神經(jīng)網(wǎng)絡(luò)稱為有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),描述性的人工神經(jīng)網(wǎng)絡(luò)稱為無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)。6.4.1人工神經(jīng)網(wǎng)絡(luò)概述人工神經(jīng)網(wǎng)絡(luò)包含以下3個(gè)層次。(1)目的:接收每個(gè)觀測(cè)值的解釋屬性。(2)輸入節(jié)點(diǎn)的數(shù)量等于解釋變量的個(gè)數(shù)。輸入層的節(jié)點(diǎn)是被動(dòng)的,它們不會(huì)改變數(shù)據(jù)。(3)節(jié)點(diǎn)從輸入層收到一個(gè)值,并且將其復(fù)制到眾多輸出中。(1)隱藏層將給定的轉(zhuǎn)換應(yīng)用于網(wǎng)絡(luò)內(nèi)的輸出值。(2)每個(gè)節(jié)點(diǎn)連接到從其他隱藏節(jié)點(diǎn)或者輸入節(jié)點(diǎn)發(fā)出的入弧,并用出弧與輸出節(jié)點(diǎn)或者其他隱藏節(jié)點(diǎn)相連。輸出層接收來自隱藏層或者輸入層的連接,并返回對(duì)應(yīng)于響應(yīng)變量預(yù)測(cè)的輸出值。在分類問題中,通常只有一個(gè)輸出節(jié)點(diǎn)。隱藏層輸出層輸入層6.4.1人工神經(jīng)網(wǎng)絡(luò)概述右圖的連通圖就是一個(gè)簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)。在這個(gè)圖中,人工神經(jīng)網(wǎng)絡(luò)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論