下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
學(xué)問(wèn)點(diǎn)一數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù),存放在全都的模式下,并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)倉(cāng)庫(kù)通過(guò)數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷來(lái)構(gòu)造。數(shù)據(jù)倉(cāng)庫(kù)圍繞主題組織數(shù)據(jù)倉(cāng)庫(kù)基于歷史數(shù)據(jù)供給消息,是匯總的。數(shù)據(jù)倉(cāng)庫(kù)用稱(chēng)作數(shù)據(jù)立方體的多維數(shù)據(jù)構(gòu)造建模,每一個(gè)維對(duì)應(yīng)于模式中的一個(gè)或者一組屬性,每一個(gè)單元存放某種聚攏的度量值數(shù)據(jù)立方體供給數(shù)據(jù)的多維視圖,并允許估量算和快速訪問(wèn)匯總數(shù)據(jù)供給供給多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的估量算,數(shù)據(jù)倉(cāng)庫(kù)格外適合聯(lián)機(jī)分析處理,允許在不同的抽象層供給數(shù)據(jù),這種操作適合不同的用戶(hù)角度OLAP例子包括下鉆和上卷,允許用戶(hù)在不同的匯總級(jí)別上觀看數(shù)據(jù)多維數(shù)據(jù)挖掘又叫做探究式多維數(shù)據(jù)挖掘OLAP風(fēng)格在多維空間進(jìn)展數(shù)據(jù)挖掘,允許在各種粒度進(jìn)展多維組合探查,因此更有可能代表學(xué)問(wèn)的好玩模式。學(xué)問(wèn)點(diǎn)二可以挖掘什么數(shù)據(jù)大量的數(shù)據(jù)挖掘功能,包括特征化和區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性分析挖掘、分類(lèi)和回歸、聚類(lèi)分析、離群點(diǎn)分析大量的數(shù)據(jù)挖掘功能,包括特征化和區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性分析挖掘、分類(lèi)和回歸、聚類(lèi)分析、離群點(diǎn)分析數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)覺(jué)察的模式,分為描述性和推測(cè)性描述性挖掘任務(wù)刻畫(huà)目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì)推測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)展歸納,以便做出推測(cè)用匯總、簡(jiǎn)潔、準(zhǔn)確的表達(dá)描述類(lèi)和概念,稱(chēng)為類(lèi)/概念描述用匯總、簡(jiǎn)潔、準(zhǔn)確的表達(dá)描述類(lèi)和概念,稱(chēng)為類(lèi)/概念描述描述的方法有數(shù)據(jù)特征化〔針對(duì)目標(biāo)類(lèi)、數(shù)據(jù)區(qū)分〔針對(duì)比照類(lèi)、數(shù)據(jù)特征化和區(qū)分?jǐn)?shù)據(jù)特征化用來(lái)查詢(xún)用戶(hù)指定的數(shù)據(jù),上卷操作用來(lái)執(zhí)行用戶(hù)掌握的、沿著指定維的數(shù)系或者規(guī)章〔也叫特征規(guī)章〕供給。用規(guī)章表示的區(qū)分描述叫做區(qū)分規(guī)章。數(shù)據(jù)頻繁消滅的模式叫做頻繁模式,類(lèi)型包括頻繁項(xiàng)集、頻繁子項(xiàng)集〔又叫頻繁序列、頻繁子構(gòu)造。頻繁項(xiàng)集一般指頻繁地在事務(wù)數(shù)據(jù)中一起消滅的商品的集合頻繁子序列就是一個(gè)頻繁序列模式子構(gòu)造涉及不同的構(gòu)造,可以與項(xiàng)集和子項(xiàng)集一起消滅挖掘頻繁模式導(dǎo)致覺(jué)察數(shù)據(jù)中好玩的關(guān)聯(lián)和相關(guān)性包含單個(gè)謂詞的關(guān)聯(lián)規(guī)章稱(chēng)作單維關(guān)聯(lián)規(guī)章。多個(gè)謂詞的關(guān)聯(lián)規(guī)章叫做多維關(guān)聯(lián)規(guī)章。假設(shè)不能同時(shí)滿(mǎn)足最小支持度閾值和最小置信度閾值是無(wú)趣的關(guān)聯(lián)規(guī)章。頻繁模式挖掘的根底是頻繁項(xiàng)集挖掘分類(lèi)找出描述和區(qū)分?jǐn)?shù)據(jù)類(lèi)或概念的模型或者函數(shù)來(lái)推測(cè)類(lèi)標(biāo)號(hào)未知對(duì)象的類(lèi)標(biāo)號(hào)。導(dǎo)出模型是基于訓(xùn)練數(shù)據(jù)集的分析,推測(cè)類(lèi)標(biāo)號(hào)未知對(duì)象的類(lèi)標(biāo)號(hào)。形式有分類(lèi)規(guī)章、決策樹(shù)、數(shù)學(xué)公式或者神經(jīng)網(wǎng)絡(luò)決策樹(shù)類(lèi)似流程圖的樹(shù)構(gòu)造,每一個(gè)結(jié)點(diǎn)代表一個(gè)屬性上的測(cè)試,每一個(gè)分支代表測(cè)試的一個(gè)結(jié)果,樹(shù)葉代表類(lèi)或者類(lèi)分布。分類(lèi)時(shí),神經(jīng)網(wǎng)絡(luò)類(lèi)似于神經(jīng)處理單元,單元之間加權(quán)連接。構(gòu)造分類(lèi)模型的方法還有樸實(shí)貝葉斯分類(lèi)、支持向量機(jī)、K最近鄰分類(lèi)。分類(lèi)推測(cè)類(lèi)別〔離散的、無(wú)序的〕標(biāo)號(hào),回歸建立連續(xù)值函數(shù)模型來(lái)推測(cè)缺失的、難以獲得的數(shù)據(jù)數(shù)據(jù)值術(shù)語(yǔ)推測(cè)指數(shù)值推測(cè)和類(lèi)標(biāo)號(hào)推測(cè)回歸也包含基于可用數(shù)據(jù)的分布趨勢(shì)識(shí)別相關(guān)分析在分類(lèi)和回歸之前進(jìn)展,試圖識(shí)別與分類(lèi)和回歸過(guò)程顯著相關(guān)的屬性織成分層構(gòu)造,把類(lèi)似的大事組織在一起織成分層構(gòu)造,把類(lèi)似的大事組織在一起離群點(diǎn)指與數(shù)據(jù)的一般行為或模型不全都的數(shù)據(jù)對(duì)象,視為噪聲或者特別舍棄。離群點(diǎn)數(shù)據(jù)分析也叫離群點(diǎn)分析或特別挖掘,用統(tǒng)計(jì)監(jiān)測(cè)或者距離度量、基于密度方法識(shí)別好玩的模式指易于被人理解、在某種確信度上對(duì)于的或檢驗(yàn)數(shù)據(jù)是有效的、潛在有用的、穎的模式。好玩的模式代表學(xué)問(wèn)。模式興趣的度量包括客觀度量和反映特特定用戶(hù)需要和興趣的主觀度量??陀^度量基于〔也叫可行動(dòng)的〕依據(jù)用戶(hù)供給的約束和興趣度度量對(duì)搜尋聚焦,對(duì)某些任務(wù)而言能夠保證算法的完全性模式興趣度量依據(jù)模式的興趣度對(duì)所覺(jué)察的模式進(jìn)展排位,可以通過(guò)減去模式空間中不滿(mǎn)足預(yù)先設(shè)定的興趣度約束的子集來(lái)指導(dǎo)和約束覺(jué)察過(guò)程。學(xué)問(wèn)點(diǎn)三數(shù)據(jù)對(duì)象與數(shù)據(jù)屬性數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成,一個(gè)對(duì)象代表一個(gè)實(shí)體。數(shù)據(jù)對(duì)象用屬性描述,又叫樣本、實(shí)例、數(shù)據(jù)點(diǎn)或?qū)ο?。存放在?shù)據(jù)庫(kù)中的數(shù)據(jù)對(duì)象叫做數(shù)據(jù)元組。屬性是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征,也叫維、特征、變量。用來(lái)描述一個(gè)給定對(duì)象的一組屬性叫做屬性向量〔或者特征向量。涉及一個(gè)屬性的叫做單變量、兩個(gè)屬性的叫做雙變量一個(gè)屬性的類(lèi)型由該屬性可能具有的值的集合打算,分為標(biāo)稱(chēng)的、二元的、序數(shù)的、數(shù)值的標(biāo)稱(chēng)屬性的值是一些符號(hào)或者事物的名稱(chēng),每一個(gè)值代表某種類(lèi)別、編碼或者狀態(tài),被看做是分類(lèi)或者枚舉的,不必具有有意義的序二元屬性是一種標(biāo)稱(chēng)屬性,又叫布爾屬性,只有兩個(gè)狀態(tài):0或者1,0代表不消滅,1代表消滅。假設(shè)兩種狀態(tài)具體同等價(jià)值并且攜帶一樣的權(quán)重,那二元屬性是對(duì)稱(chēng)的。序數(shù)屬性可能的值之間具有有意義的序或秩評(píng)定,相繼之間的差是未知的,通常用于等級(jí)評(píng)定調(diào)查。數(shù)值屬性用整數(shù)或者實(shí)數(shù)值表示,可以是區(qū)間標(biāo)度或者比率標(biāo)度的。區(qū)間標(biāo)度屬性用相同的單位尺度度量,有序,可以為負(fù)、零、正,允許比較和度量評(píng)估值之間的值。比率標(biāo)度是具有固定零點(diǎn)的數(shù)值屬性,可以說(shuō)一個(gè)數(shù)是另一個(gè)數(shù)的倍數(shù)機(jī)器學(xué)習(xí)領(lǐng)域開(kāi)發(fā)的分類(lèi)算法通常把屬性分為離散的、連續(xù)的。離散屬性具有有限或者位數(shù)字表示。學(xué)問(wèn)點(diǎn)四數(shù)據(jù)的根本描述統(tǒng)計(jì)中心趨勢(shì)度量數(shù)據(jù)分布的中部或者中心位置,包括均值、中位數(shù)、眾數(shù)、中列數(shù)數(shù)據(jù)的分散度量包括極差、四分位數(shù)、四分位數(shù)極差、五數(shù)概括和和盒圖差圖形可視化打量數(shù)據(jù),包括條圖、餅圖、線圖為了抵消少數(shù)極端值的影響,使用截尾均值來(lái)凹凸極端值后的均值。具有一個(gè)、兩個(gè)、三個(gè)眾數(shù)的數(shù)據(jù)集合叫做單峰、雙峰、三峰值分位數(shù)是取自數(shù)據(jù)分布的每隔肯定間隔上的點(diǎn)合。識(shí)別可疑的離群點(diǎn)選擇落在第三個(gè)四分位數(shù)之上或者第一個(gè)四分位數(shù)之下至少1.5*IQR〔四分?jǐn)?shù)極差〕處的值。五數(shù)概括包括中位值、四分位數(shù)Q1、四分位數(shù)Q3、最小和最大觀測(cè)值組成盒圖。學(xué)問(wèn)點(diǎn)五度量數(shù)據(jù)的相像性和相異性簇是數(shù)據(jù)對(duì)象的集合,使得每一個(gè)簇中的元素相互相像,與其他簇中的對(duì)象相異。〔存放數(shù)據(jù)對(duì)象〔存放數(shù)據(jù)對(duì)象對(duì)的相異性值〕鄰近性指相異性和相像性數(shù)據(jù)矩陣也叫二模矩陣,相異矩陣只包含一種實(shí)體,稱(chēng)為單模矩陣歐幾里得距離和曼哈頓距離滿(mǎn)足:非負(fù)性、同一性、對(duì)稱(chēng)性、三角不等式,滿(mǎn)足條件的測(cè)度叫做度量。上確界距離是兩個(gè)對(duì)象的最大值差學(xué)問(wèn)點(diǎn)六數(shù)據(jù)預(yù)處理概述數(shù)據(jù)質(zhì)量包括預(yù)備性、完整性、全都性、時(shí)效性、可信性、可解釋性。質(zhì)量基于數(shù)據(jù)的應(yīng)用目的。數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換數(shù)據(jù)清理是為了填補(bǔ)缺失的值、光滑噪聲數(shù)據(jù)、識(shí)別和刪除離群點(diǎn)、訂正數(shù)據(jù)的不全都性。這是一個(gè)兩步的迭代的過(guò)程,分為偏差檢測(cè)和數(shù)據(jù)變換數(shù)據(jù)集成涉及集成多個(gè)文件、數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體,整合成全都的數(shù)據(jù)存儲(chǔ)。語(yǔ)義異種性的解決、元數(shù)據(jù)、相關(guān)分析、元組重復(fù)檢測(cè)和數(shù)據(jù)沖突檢測(cè)都有助于數(shù)據(jù)的集成。數(shù)據(jù)歸約得到數(shù)據(jù)集的簡(jiǎn)化表示,使信息內(nèi)容的損失最小化。策略包括維歸約和數(shù)值歸分析、屬性子集選擇和屬性創(chuàng)立。數(shù)值歸約歸約中,使用參數(shù)模型和非參數(shù)模型屬性的原始值被區(qū)間或者叫高層的概念所取代可以承受離散化和概念分層產(chǎn)生的方法,使得數(shù)據(jù)在多個(gè)抽象層上進(jìn)展。數(shù)據(jù)變換包括標(biāo)準(zhǔn)化、數(shù)據(jù)離散化、概念分層產(chǎn)生冗余數(shù)據(jù)的刪除既是數(shù)據(jù)清理也是數(shù)據(jù)歸約〔中位數(shù)或者均值、使用給定元組屬性的同一類(lèi)的全部樣本的屬性均值或者中位數(shù)、使用最可能的值〔使用回歸或者貝葉斯推理得到〕噪聲是被測(cè)量的變量的隨機(jī)誤差或者方差識(shí)別噪聲的方法有根本統(tǒng)計(jì)描述技術(shù)和數(shù)據(jù)可視化方法數(shù)據(jù)光滑技術(shù)有分箱、回歸、離群點(diǎn)分析分箱通過(guò)考察數(shù)據(jù)的近鄰來(lái)光滑有序數(shù)據(jù)值,這些有序的值被安排到一些桶或箱中。分箱考察近鄰的值,它是局部光滑對(duì)于用箱均值光滑,全部值都被替換成均值;用箱中位數(shù)光滑,每一個(gè)數(shù)都替換成中位數(shù);用箱邊界光滑,每一個(gè)數(shù)字都替換成最近的邊界值,寬度越大代表光滑效果越好數(shù)據(jù)變換指數(shù)據(jù)被變換或者統(tǒng)一成適合挖掘的形式,策略包括光滑、屬性構(gòu)造、聚攏、離散化、由標(biāo)稱(chēng)數(shù)據(jù)產(chǎn)生概念分層。光滑指去掉數(shù)據(jù)中的噪聲,技術(shù)包括分箱、回歸、聚類(lèi);屬性構(gòu)造通過(guò)屬性產(chǎn)生的屬性添加到屬性集中;聚類(lèi)對(duì)數(shù)據(jù)的匯總和聚攏;概念分層將屬性泛化到較高的概念層離散化技術(shù)依據(jù)如何離散化加以分類(lèi),比方自頂向下的分類(lèi)或者離散化。使用類(lèi)信息叫做監(jiān)視的離散化。離散化和概念分層也是數(shù)據(jù)歸約的形式,原始數(shù)據(jù)被曲建或者標(biāo)簽取代。用較小的單位表示屬性將導(dǎo)致該屬性有較大值域,因此傾向于使這樣的屬性具有較大的影響或者較高的權(quán)重標(biāo)準(zhǔn)化或標(biāo)準(zhǔn)化的目的是避開(kāi)對(duì)度量單位選擇的依靠性,標(biāo)準(zhǔn)化數(shù)據(jù)試圖賜予全部屬性相等的權(quán)重。方法有最小-最大標(biāo)準(zhǔn)化、z分?jǐn)?shù)標(biāo)準(zhǔn)化和按小數(shù)定標(biāo)標(biāo)準(zhǔn)化最小v-〕-〔-zv均值方差按小數(shù)定標(biāo)標(biāo)準(zhǔn)化:全部除以一個(gè)數(shù)字的離散化技術(shù),對(duì)用戶(hù)指定的箱個(gè)數(shù)敏感,簡(jiǎn)潔受離群點(diǎn)的影響直方圖是一種非監(jiān)視的離散化方法,將屬性A的值劃分為不相交的區(qū)間,叫做桶或者預(yù)先設(shè)定的概念層數(shù),過(guò)程終止。對(duì)每一層使用最小區(qū)間長(zhǎng)度來(lái)掌握遞歸。聚類(lèi)將屬性A劃分為簇或組來(lái)離散化屬性A合并策略產(chǎn)生概念分層,其中每一個(gè)簇形成的概念分層的一個(gè)結(jié)點(diǎn)。決策樹(shù)承受自頂向下的方式,是監(jiān)視的離散化方法,使用了類(lèi)標(biāo)號(hào)。的相像性就可以合并他們。ChiMerge把數(shù)值屬性A的每一個(gè)不同看做是一個(gè)區(qū)間,對(duì)每一個(gè)相鄰區(qū)間進(jìn)展檢驗(yàn),具有最小卡方檢驗(yàn)值的說(shuō)明有相像的類(lèi)分布。合并過(guò)程遞歸地進(jìn)展,直至滿(mǎn)足定義的條件為止。構(gòu)造的一局部、說(shuō)明屬性集但不說(shuō)明它們的偏序、只說(shuō)明局部屬性集。學(xué)問(wèn)七數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理信息處理供給支持。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面對(duì)主題的〔排解決策無(wú)用的數(shù)據(jù)、集成的〔來(lái)源于多個(gè)數(shù)據(jù)源、時(shí)變的〔隱式或顯式地包含時(shí)間元素、非易失的〔物理地分別存放數(shù)據(jù)〕數(shù)據(jù)集合,支持治理者的決策過(guò)程個(gè)數(shù)據(jù)訪問(wèn)操作數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建過(guò)程需要數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)一從異構(gòu)數(shù)據(jù)庫(kù)集成看,組織由多個(gè)異構(gòu)的、自治的和分布的數(shù)據(jù)源維護(hù)大型數(shù)據(jù)庫(kù)。傳統(tǒng)的數(shù)據(jù)庫(kù)集成建立一個(gè)包裝程序和一個(gè)集成程序的站點(diǎn)返回不一樣的結(jié)果被集成為全局答復(fù)處理,并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源數(shù)據(jù)倉(cāng)庫(kù)使用更驅(qū)動(dòng)的方法,將多個(gè)數(shù)據(jù)源的信息預(yù)先集成存在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢(xún)和分析。聯(lián)機(jī)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢(xún)處理和系統(tǒng)的面對(duì)性、數(shù)據(jù)內(nèi)容、數(shù)據(jù)庫(kù)設(shè)計(jì)、視圖、訪問(wèn)模式。用戶(hù)和系統(tǒng)的面對(duì)性:聯(lián)機(jī)事務(wù)處理面對(duì)顧客,數(shù)據(jù)倉(cāng)庫(kù)面對(duì)市場(chǎng)的數(shù)據(jù)內(nèi)容:聯(lián)機(jī)事務(wù)處理治理當(dāng)前數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)治理大量的歷史數(shù)據(jù)ER,后者是星形或者雪花模型和面對(duì)主題的本,處理不同單位的數(shù)據(jù),數(shù)據(jù)量大,存放在多個(gè)介質(zhì)上。訪問(wèn)模式:前者由短的原子事務(wù)組成,需要并發(fā)、恢復(fù)機(jī)制來(lái)保證全都性和事務(wù)的魯棒性。后者只需要訪問(wèn)操作。其他區(qū)分包括數(shù)據(jù)庫(kù)大小、操作頻繁程度、性能度量等織、存取方法和實(shí)現(xiàn)方法。其次是訪問(wèn)模式的不同。第三是兩者的功能和數(shù)據(jù)不同。的應(yīng)用程序。這一層包括元數(shù)據(jù)庫(kù),存放關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和它的內(nèi)容的信息。中間是OLAP效勞器。頂層是前端客戶(hù)層,包括查詢(xún)和報(bào)告的工具、分析工具/數(shù)據(jù)挖掘工具。從構(gòu)造看,有三種數(shù)據(jù)倉(cāng)庫(kù)模型:倉(cāng)庫(kù)企業(yè)、數(shù)據(jù)集市、虛擬倉(cāng)庫(kù)倉(cāng)庫(kù)企業(yè):搜集了關(guān)于主題的全部信息,跨越整個(gè)企業(yè)個(gè)特定部門(mén)或者地區(qū)局部產(chǎn)生的數(shù)據(jù)。依靠數(shù)據(jù)集市直接來(lái)源于數(shù)據(jù)倉(cāng)庫(kù)虛擬倉(cāng)庫(kù)是操作數(shù)據(jù)上的視圖的集合,只有一些可能的匯總視圖被物化庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)使用的工具有數(shù)據(jù)提取、變換、裝入數(shù)據(jù)提?。河啥鄠€(gè)異構(gòu)的外部數(shù)據(jù)源搜集數(shù)據(jù)數(shù)據(jù)清理:檢測(cè)數(shù)據(jù)中的錯(cuò)誤,可能時(shí)訂正它們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式裝入:排序、匯總、合并、計(jì)算視圖、檢查完整性、建立索引和劃分刷:傳播由數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的更數(shù)據(jù)清理和數(shù)據(jù)變換的目的是提高數(shù)據(jù)質(zhì)量述、用于匯總的算法、由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射、關(guān)于系統(tǒng)性能的數(shù)據(jù)、商務(wù)元數(shù)據(jù)。多維數(shù)據(jù)模型有星形模式、雪花模式、事實(shí)星座模式。星形模式:一個(gè)大的中心表〔包含大批數(shù)據(jù)不冗余,一組小的附屬表〔每維一個(gè)雪花模式:數(shù)據(jù)進(jìn)一步分解到附加的表中事實(shí)星座模式:多個(gè)事實(shí)表共享維表-值對(duì)聚焦數(shù)據(jù)計(jì)算該點(diǎn)的度量值。度量分為三類(lèi):分布、代數(shù)avg、整體的。學(xué)問(wèn)點(diǎn)八頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)章強(qiáng)規(guī)章同時(shí)滿(mǎn)足最小置信度閾值和最小支持度閾值。項(xiàng)的集合稱(chēng)為項(xiàng)集,包含K個(gè)項(xiàng)的項(xiàng)集叫做k項(xiàng)集。項(xiàng)集的消滅頻度是包含項(xiàng)集的事務(wù)數(shù),稱(chēng)為頻度、支持度計(jì)數(shù)或者計(jì)數(shù)。YYXD中具有一樣的支持度計(jì)數(shù),該項(xiàng)集在數(shù)據(jù)集中是閉的,叫做閉頻繁項(xiàng)集。假設(shè)X是頻繁的,并且不存在超項(xiàng)集Y使得Y包含X并且YD中是頻繁的,那么X是極大頻繁項(xiàng)集。Apriori算法:通過(guò)限制候選碼產(chǎn)生頻繁項(xiàng)集。先驗(yàn)性質(zhì):頻繁項(xiàng)集的全部非空子集也肯定劃分、抽樣、動(dòng)態(tài)項(xiàng)集,即削減掃描事務(wù)數(shù)據(jù)庫(kù)的次數(shù)、削減候選項(xiàng)集的數(shù)量、候選項(xiàng)支持度計(jì)算的簡(jiǎn)化。FP-tree算法:將代表頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵頻繁模式樹(shù),保存項(xiàng)集的關(guān)聯(lián)信息。把每一個(gè)條件數(shù)據(jù)庫(kù),顯著地壓縮被搜尋的數(shù)據(jù)集的大小。反單調(diào)性指一個(gè)結(jié)合不能通過(guò)測(cè)試,它的全部超集也不能通過(guò)一樣的測(cè)試強(qiáng)規(guī)章不肯定是好玩的。用相關(guān)性度量拓展支持度-lift(A,B)=P(A∪B)/P(A)P(B)1表示一個(gè)消滅另一個(gè)肯定消滅,等于1=∑〔觀測(cè)值-期望值〕的平方/1,實(shí)際值小于觀測(cè)值說(shuō)明是負(fù)相關(guān)的。四種評(píng)估模式度量:全置信度、最大置信度、Kulczynski和余弦全置信度稱(chēng)為最小置信度;Kulczynski是兩個(gè)置信度的平均值;余弦看做是調(diào)和提升度量。提升度和卡方值識(shí)別事務(wù)數(shù)據(jù)集中的模式關(guān)聯(lián)關(guān)系的力量差由于不是零不變度量一種度量大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)模式的重要性質(zhì)。不平衡比評(píng)估規(guī)章蘊(yùn)含式中兩個(gè)項(xiàng)集AB的不平衡程度。學(xué)問(wèn)點(diǎn)九分類(lèi)分類(lèi)構(gòu)造一個(gè)模型或者分類(lèi)器來(lái)推測(cè)類(lèi)標(biāo)號(hào)序值。推測(cè)回歸的兩種主要類(lèi)型是分類(lèi)和回歸。數(shù)據(jù)分類(lèi)包含學(xué)習(xí)階段〔構(gòu)造分類(lèi)模型〕和分類(lèi)階段〔使用模型推測(cè)給定數(shù)據(jù)的類(lèi)標(biāo)號(hào)。第一階段建立描述預(yù)先定義的數(shù)據(jù)類(lèi)或概念集的分類(lèi)器,其中分類(lèi)算法通過(guò)分析或從了數(shù)據(jù)的壓縮表示,它是監(jiān)視學(xué)習(xí)。訓(xùn)練集由數(shù)據(jù)庫(kù)元組和與他們相關(guān)聯(lián)的類(lèi)標(biāo)號(hào)組成類(lèi)標(biāo)號(hào)屬性是離散和無(wú)序的,是分類(lèi)的〔標(biāo)稱(chēng),由于每一個(gè)值充當(dāng)一個(gè)類(lèi)別或者類(lèi)例、數(shù)據(jù)點(diǎn)或者對(duì)象訓(xùn)練元組,指不使用它們構(gòu)建分類(lèi)器。分類(lèi)器在給定檢驗(yàn)集上的準(zhǔn)確率是分類(lèi)器正確分類(lèi)的檢驗(yàn)元組所占的百分比驗(yàn)元組的類(lèi)標(biāo)號(hào)與學(xué)習(xí)模型對(duì)該元組的類(lèi)推測(cè)進(jìn)展比較。學(xué)問(wèn)點(diǎn)十決策樹(shù)歸納決策樹(shù)歸納指從有類(lèi)標(biāo)號(hào)的訓(xùn)練元組中學(xué)習(xí)決策樹(shù)類(lèi)標(biāo)號(hào),最頂層是根結(jié)點(diǎn)。給定一個(gè)類(lèi)標(biāo)號(hào)未知的元組X,在決策樹(shù)上測(cè)試該元組的屬性值。跟蹤一條從根到葉結(jié)點(diǎn)的路徑,該葉結(jié)點(diǎn)就存放著該元組的推測(cè),決策樹(shù)簡(jiǎn)潔轉(zhuǎn)換為分類(lèi)規(guī)章。據(jù)在決策樹(shù)構(gòu)建的時(shí)候,使用屬性選擇度量來(lái)選擇將元組最好地劃分為不同的類(lèi)的屬性開(kāi)頭構(gòu)建決策樹(shù)。隨著構(gòu)建,訓(xùn)練集漸漸被劃分為較小的子集決策樹(shù)算法的策略:用三個(gè)參數(shù)D,attribute_list和attribution_selection_method調(diào)用該算法。該過(guò)程使用一種屬性選擇度量,比方信息增量、基尼指數(shù),它打算了樹(shù)是否為嚴(yán)格的二叉樹(shù)Ps:D代表數(shù)據(jù)分區(qū),是訓(xùn)練元組和它們相應(yīng)類(lèi)標(biāo)號(hào)的完全集Attribute_list描述元組屬性的列表attribution_selection_method指定選擇屬性的啟發(fā)式過(guò)程,用來(lái)選擇可以按類(lèi)最好地區(qū)分給定元組的屬性。樹(shù)從單個(gè)結(jié)點(diǎn)N開(kāi)頭,ND中的訓(xùn)練元組假設(shè)D中的元組都為同一類(lèi),結(jié)點(diǎn) N變成樹(shù)葉,并用類(lèi)標(biāo)記它。否則,調(diào)用attribution_selection_method確定分類(lèi)準(zhǔn)則。分類(lèi)準(zhǔn)則確定把D中的元組劃分為個(gè)體類(lèi)的最好方法在結(jié)點(diǎn)N上對(duì)哪一個(gè)屬性進(jìn)展測(cè)試對(duì)于選擇的測(cè)試從結(jié)點(diǎn)N生長(zhǎng)出哪些分支。分類(lèi)準(zhǔn)則指定分裂屬性,指出分裂點(diǎn)或者分裂子集,使得每個(gè)分支的屬性盡量純。結(jié)點(diǎn)N用分裂準(zhǔn)則作為結(jié)點(diǎn)的測(cè)試。終止原則:分區(qū)D中的全部元組都是一個(gè)類(lèi)型的;沒(méi)有剩余的屬性可以連續(xù)劃分;給定的分支沒(méi)有元組O(n*|D|*log(|D|)),|D|D中的訓(xùn)練元組屬性選擇度量是一種選擇分裂準(zhǔn)則,把給定類(lèi)標(biāo)號(hào)的元組的數(shù)據(jù)分區(qū)D最好地劃分為子集必需作為分裂準(zhǔn)則的一局部返回。為分區(qū)D構(gòu)建的樹(shù)結(jié)點(diǎn)用分類(lèi)準(zhǔn)則標(biāo)記,從準(zhǔn)則的每一個(gè)輸誕生長(zhǎng)出分支,并且相應(yīng)地劃分元組。主要有信息增量、基尼指數(shù)、增益率方法。選擇具有最高信息增益的屬性作為結(jié)點(diǎn)N的分裂屬性,使結(jié)果分區(qū)中對(duì)元組分類(lèi)所需望測(cè)試數(shù)目最小,并確保找到一顆簡(jiǎn)潔的樹(shù)?;嶂笖?shù)度量數(shù)據(jù)分區(qū)或者訓(xùn)練元組集D的不純度導(dǎo)致相等大小的分區(qū)和純度?;谧钚∶枋鲩L(zhǎng)度〔MDL〕二進(jìn)制的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中職第二學(xué)年(畜牧獸醫(yī))動(dòng)物疫病防治2026年階段測(cè)試題及答案
- 2025年大學(xué)地理信息科學(xué)(地理信息系統(tǒng)設(shè)計(jì))試題及答案
- 2025年高職導(dǎo)游服務(wù)(應(yīng)急事件處理)試題及答案
- 高二地理(人口城市)2025-2026年上學(xué)期期末測(cè)試卷
- 高職第一學(xué)年(機(jī)械設(shè)計(jì)制造及其自動(dòng)化)機(jī)械設(shè)計(jì)基礎(chǔ)2026年階段測(cè)試題
- 深度解析(2026)《GBT 18227-2000航空貨運(yùn)集裝板 技術(shù)條件和試驗(yàn)方法》(2026年)深度解析
- 深度解析(2026)《GBT 18114.3-2010稀土精礦化學(xué)分析方法 第3部分:氧化鈣量的測(cè)定》
- 深度解析(2026)《GBT 17546.1-1998信息技術(shù) 開(kāi)放系統(tǒng)互連 無(wú)連接表示協(xié)議 第1部分協(xié)議規(guī)范》(2026年)深度解析
- 鋼筋混凝土結(jié)構(gòu)耐久性檢測(cè)規(guī)范
- 河北科技學(xué)院《機(jī)械精度設(shè)計(jì)》2025-2026學(xué)年第一學(xué)期期末試卷
- 城市綠化生態(tài)修復(fù)項(xiàng)目實(shí)施方案
- 西藏酥油茶的課件
- 安裝預(yù)制檢查井施工方案
- 急性心肌梗死治療課件
- 樹(shù)木砍伐安全培訓(xùn)課件
- 風(fēng)電場(chǎng)冬季防火知識(shí)培訓(xùn)課件
- 中國(guó)郵政2025南通市秋招綜合管理職能類(lèi)崗位面試模擬題及答案
- 源網(wǎng)荷儲(chǔ)一體化項(xiàng)目并網(wǎng)調(diào)試實(shí)施方案
- 《〈京津冀建設(shè)工程計(jì)價(jià)依據(jù)-預(yù)算消耗量定額〉城市地下綜合管廊工程》第一冊(cè)土建工程
- UPS不間斷電源課件教學(xué)
- 2025年低碳杯試題及答案
評(píng)論
0/150
提交評(píng)論