版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘知識點歸納數(shù)據(jù)挖掘知識點歸納數(shù)據(jù)挖掘知識點歸納xxx公司數(shù)據(jù)挖掘知識點歸納文件編號:文件日期:修訂次數(shù):第1.0次更改批準審核制定方案設(shè)計,管理制度知識點一數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息存儲庫,存放在一致的模式下,并且通常駐留在單個站點上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。數(shù)據(jù)倉庫圍繞主題組織數(shù)據(jù)倉庫基于歷史數(shù)據(jù)提供消息,是匯總的。數(shù)據(jù)倉庫用稱作數(shù)據(jù)立方體的多維數(shù)據(jù)結(jié)構(gòu)建模,每一個維對應(yīng)于模式中的一個或者一組屬性,每一個單元存放某種聚集的度量值數(shù)據(jù)立方體提供數(shù)據(jù)的多維視圖,并允許預(yù)計算和快速訪問匯總數(shù)據(jù)提供提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預(yù)計算,數(shù)據(jù)倉庫非常適合聯(lián)機分析處理,允許在不同的抽象層提供數(shù)據(jù),這種操作適合不同的用戶角度OLAP例子包括下鉆和上卷,允許用戶在不同的匯總級別上觀察數(shù)據(jù)多維數(shù)據(jù)挖掘又叫做探索式多維數(shù)據(jù)挖掘OLAP風格在多維空間進行數(shù)據(jù)挖掘,允許在各種粒度進行多維組合探查,因此更有可能代表知識的有趣模式。知識點二可以挖掘什么數(shù)據(jù)大量的數(shù)據(jù)挖掘功能,包括特征化和區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性分析挖掘、分類和回歸、聚類分析、離群點分析數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)發(fā)現(xiàn)的模式,分為描述性和預(yù)測性描述性挖掘任務(wù)刻畫目標數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì)預(yù)測性挖掘任務(wù)在當前數(shù)據(jù)上進行歸納,以便做出預(yù)測數(shù)據(jù)可以與類或概念相關(guān)聯(lián)用匯總、簡潔、精確的表達描述類和概念,稱為類/概念描述描述的方法有數(shù)據(jù)特征化(針對目標類)、數(shù)據(jù)區(qū)分(針對對比類)、數(shù)據(jù)特征化和區(qū)分數(shù)據(jù)特征化用來查詢用戶指定的數(shù)據(jù),上卷操作用來執(zhí)行用戶控制的、沿著指定維的數(shù)據(jù)匯總。面向?qū)傩缘臍w納技術(shù)可以用來進行數(shù)據(jù)的泛化和特征化,而不必與用戶交互。形式有餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內(nèi)的多維表。結(jié)果描述可以用廣義關(guān)系或者規(guī)則(也叫特征規(guī)則)提供。用規(guī)則表示的區(qū)分描述叫做區(qū)分規(guī)則。數(shù)據(jù)頻繁出現(xiàn)的模式叫做頻繁模式,類型包括頻繁項集、頻繁子項集(又叫頻繁序列)、頻繁子結(jié)構(gòu)。頻繁項集一般指頻繁地在事務(wù)數(shù)據(jù)中一起出現(xiàn)的商品的集合頻繁子序列就是一個頻繁序列模式子結(jié)構(gòu)涉及不同的結(jié)構(gòu),可以與項集和子項集一起出現(xiàn)挖掘頻繁模式導致發(fā)現(xiàn)數(shù)據(jù)中有趣的關(guān)聯(lián)和相關(guān)性包含單個謂詞的關(guān)聯(lián)規(guī)則稱作單維關(guān)聯(lián)規(guī)則。多個謂詞的關(guān)聯(lián)規(guī)則叫做多維關(guān)聯(lián)規(guī)則。如果不能同時滿足最小支持度閾值和最小置信度閾值是無趣的關(guān)聯(lián)規(guī)則。頻繁模式挖掘的基礎(chǔ)是頻繁項集挖掘分類找出描述和區(qū)分數(shù)據(jù)類或概念的模型或者函數(shù)來預(yù)測類標號未知對象的類標號。導出模型是基于訓練數(shù)據(jù)集的分析,預(yù)測類標號未知對象的類標號。形式有分類規(guī)則、決策樹、數(shù)學公式或者神經(jīng)網(wǎng)絡(luò)決策樹類似流程圖的樹結(jié)構(gòu),每一個結(jié)點代表一個屬性上的測試,每一個分支代表測試的一個結(jié)果,樹葉代表類或者類分布。分類時,神經(jīng)網(wǎng)絡(luò)類似于神經(jīng)處理單元,單元之間加權(quán)連接。構(gòu)造分類模型的方法還有樸素貝葉斯分類、支持向量機、K最近鄰分類。分類預(yù)測類別(離散的、無序的)標號,回歸建立連續(xù)值函數(shù)模型來預(yù)測缺失的、難以獲得的數(shù)據(jù)數(shù)據(jù)值術(shù)語預(yù)測指數(shù)值預(yù)測和類標號預(yù)測回歸也包含基于可用數(shù)據(jù)的分布趨勢識別相關(guān)分析在分類和回歸之前進行,試圖識別與分類和回歸過程顯著相關(guān)的屬性聚類分析數(shù)據(jù)對象,產(chǎn)生數(shù)據(jù)組群的類標號,原則是最大類內(nèi)相似性、最小化類間相似性。所形成的每一個簇看做一個對象集,可以導出規(guī)則。聚類便于分類法的形成,將觀測組織成分層結(jié)構(gòu),把類似的事件組織在一起離群點指與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象,視為噪聲或者異常舍棄。離群點數(shù)據(jù)分析也叫離群點分析或異常挖掘,用統(tǒng)計監(jiān)測或者距離度量、基于密度方法識別有趣的模式指易于被人理解、在某種確信度上對于新的或檢驗數(shù)據(jù)是有效的、潛在有用的、新穎的模式。有趣的模式代表知識。模式興趣的度量包括客觀度量和反映特特定用戶需要和興趣的主觀度量??陀^度量基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計量,比如規(guī)則的支持度、規(guī)則的置信度、分類規(guī)則的準確率與覆蓋率。主觀度量基于用戶對數(shù)據(jù)的信念,比如是出乎意料、提供重要信息(也叫可行動的)根據(jù)用戶提供的約束和興趣度度量對搜索聚焦,對某些任務(wù)而言能夠保證算法的完全性模式興趣度量根據(jù)模式的興趣度對所發(fā)現(xiàn)的模式進行排位,可以通過減去模式空間中不滿足預(yù)先設(shè)定的興趣度約束的子集來指導和約束發(fā)現(xiàn)過程。知識點三數(shù)據(jù)對象與數(shù)據(jù)屬性數(shù)據(jù)集由數(shù)據(jù)對象組成,一個對象代表一個實體。數(shù)據(jù)對象用屬性描述,又叫樣本、實例、數(shù)據(jù)點或?qū)ο?。存放在?shù)據(jù)庫中的數(shù)據(jù)對象叫做數(shù)據(jù)元組。屬性是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征,也叫維、特征、變量。用來描述一個給定對象的一組屬性叫做屬性向量(或者特征向量)。涉及一個屬性的叫做單變量、兩個屬性的叫做雙變量一個屬性的類型由該屬性可能具有的值的集合決定,分為標稱的、二元的、序數(shù)的、數(shù)值的標稱屬性的值是一些符號或者事物的名稱,每一個值代表某種類別、編碼或者狀態(tài),被看做是分類或者枚舉的,不必具有有意義的序二元屬性是一種標稱屬性,又叫布爾屬性,只有兩個狀態(tài):0或者1,0代表不出現(xiàn),1代表出現(xiàn)。如果兩種狀態(tài)具體同等價值并且攜帶相同的權(quán)重,那二元屬性是對稱的。序數(shù)屬性可能的值之間具有有意義的序或秩評定,相繼之間的差是未知的,通常用于等級評定調(diào)查。數(shù)值屬性用整數(shù)或者實數(shù)值表示,可以是區(qū)間標度或者比率標度的。區(qū)間標度屬性用相同的單位尺度度量,有序,可以為負、零、正,允許比較和度量評估值之間的值。比率標度是具有固定零點的數(shù)值屬性,可以說一個數(shù)是另一個數(shù)的倍數(shù)機器學習領(lǐng)域開發(fā)的分類算法通常把屬性分為離散的、連續(xù)的。離散屬性具有有限或者無限可數(shù)個值,可以用或者不用整數(shù)表示。連續(xù)屬性值一般用浮點變量表示,實數(shù)值用有限位數(shù)字表示。知識點四數(shù)據(jù)的基本描述統(tǒng)計中心趨勢度量數(shù)據(jù)分布的中部或者中心位置,包括均值、中位數(shù)、眾數(shù)、中列數(shù)數(shù)據(jù)的分散度量包括極差、四分位數(shù)、四分位數(shù)極差、五數(shù)概括和和盒圖、方差和標準差圖形可視化審視數(shù)據(jù),包括條圖、餅圖、線圖為了抵消少數(shù)極端值的影響,使用截尾均值來高低極端值后的均值。具有一個、兩個、三個眾數(shù)的數(shù)據(jù)集合叫做單峰、雙峰、三峰在具有完全對稱的數(shù)據(jù)分布的單峰頻率曲線圖中,均值、中位數(shù)和眾數(shù)都是相同的中心值分位數(shù)是取自數(shù)據(jù)分布的每隔一定間隔上的點,把數(shù)據(jù)劃分成基本上大小相等的連貫集合。識別可疑的離群點挑選落在第三個四分位數(shù)之上或者第一個四分位數(shù)之下至少*IQR(四分數(shù)極差)處的值。五數(shù)概括包括中位值、四分位數(shù)Q1、四分位數(shù)Q3、最小和最大觀測值組成盒圖。知識點五度量數(shù)據(jù)的相似性和相異性簇是數(shù)據(jù)對象的集合,使得每一個簇中的元素互相相似,與其他簇中的對象相異。兩種數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)矩陣(存放數(shù)據(jù)對象)和相異性矩陣(存放數(shù)據(jù)對象對的相異性值)鄰近性指相異性和相似性數(shù)據(jù)矩陣也叫二模矩陣,相異矩陣只包含一種實體,稱為單模矩陣歐幾里得距離和曼哈頓距離滿足:非負性、同一性、對稱性、三角不等式,滿足條件的測度叫做度量。上確界距離是兩個對象的最大值差知識點六數(shù)據(jù)預(yù)處理概述數(shù)據(jù)質(zhì)量包括準備性、完整性、一致性、時效性、可信性、可解釋性。質(zhì)量基于數(shù)據(jù)的應(yīng)用目的。數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換數(shù)據(jù)清理是為了填補缺失的值、光滑噪聲數(shù)據(jù)、識別和刪除離群點、糾正數(shù)據(jù)的不一致性。這是一個兩步的迭代的過程,分為偏差檢測和數(shù)據(jù)變換數(shù)據(jù)集成涉及集成多個文件、數(shù)據(jù)庫、數(shù)據(jù)立方體,整合成一致的數(shù)據(jù)存儲。語義異種性的解決、元數(shù)據(jù)、相關(guān)分析、元組重復(fù)檢測和數(shù)據(jù)沖突檢測都有助于數(shù)據(jù)的集成。數(shù)據(jù)歸約得到數(shù)據(jù)集的簡化表示,使信息內(nèi)容的損失最小化。策略包括維歸約和數(shù)值歸約、數(shù)據(jù)壓縮。維歸約中減少所考慮的隨機變量或者維的個數(shù),方法包括小波變換、主成分分析、屬性子集選擇和屬性創(chuàng)建。數(shù)值歸約歸約中,使用參數(shù)模型和非參數(shù)模型,用較小的表示取代數(shù)據(jù)。數(shù)據(jù)壓縮指按照比例映射到一個較小的區(qū)間。不損失任何信息代表是無損的。屬性的原始值被區(qū)間或者叫高層的概念所取代可以采用離散化和概念分層產(chǎn)生的方法,使得數(shù)據(jù)在多個抽象層上進行。數(shù)據(jù)變換包括規(guī)范化、數(shù)據(jù)離散化、概念分層產(chǎn)生冗余數(shù)據(jù)的刪除既是數(shù)據(jù)清理也是數(shù)據(jù)歸約填補缺失值的方法有忽略元組、人工填寫、使用一個全局變量、使用屬性的中心度量(中位數(shù)或者均值)、使用給定元組屬性的同一類的所有樣本的屬性均值或者中位數(shù)、使用最可能的值(使用回歸或者貝葉斯推理得到)噪聲是被測量的變量的隨機誤差或者方差識別噪聲的方法有基本統(tǒng)計描述技術(shù)和數(shù)據(jù)可視化方法數(shù)據(jù)光滑技術(shù)有分箱、回歸、離群點分析分箱通過考察數(shù)據(jù)的近鄰來光滑有序數(shù)據(jù)值,這些有序的值被分配到一些桶或箱中。分箱考察近鄰的值,它是局部光滑對于用箱均值光滑,所有值都被替換成均值;用箱中位數(shù)光滑,每一個數(shù)都替換成中位數(shù);用箱邊界光滑,每一個數(shù)字都替換成最近的邊界值,寬度越大代表光滑效果越好數(shù)據(jù)變換指數(shù)據(jù)被變換或者統(tǒng)一成適合挖掘的形式,策略包括光滑、屬性構(gòu)造、聚集、離散化、由標稱數(shù)據(jù)產(chǎn)生概念分層。光滑指去掉數(shù)據(jù)中的噪聲,技術(shù)包括分箱、回歸、聚類;屬性構(gòu)造通過已知屬性產(chǎn)生新的屬性添加到屬性集中;聚類對數(shù)據(jù)的匯總和聚集;概念分層將屬性泛化到較高的概念層離散化技術(shù)根據(jù)如何離散化加以分類,比如自頂向下的分類或者離散化。使用類信息叫做監(jiān)督的離散化。離散化和概念分層也是數(shù)據(jù)歸約的形式,原始數(shù)據(jù)被曲建或者標簽取代。用較小的單位表示屬性將導致該屬性有較大值域,因此傾向于使這樣的屬性具有較大的影響或者較高的權(quán)重規(guī)范化或標準化的目的是避免對度量單位選擇的依賴性,規(guī)范化數(shù)據(jù)試圖賦予所有屬性相等的權(quán)重。方法有最小-最大規(guī)范化、z分數(shù)規(guī)范化和按小數(shù)定標規(guī)范化最小-最大規(guī)范化:(v-minA)/(maxA-minA)(new_maxA-new_minA)+new_minAz分數(shù)規(guī)范化:(v-均值)/方差按小數(shù)定標規(guī)范化:全部除以一個數(shù)字分箱是一種基于指定的箱個數(shù)的自頂向下的分裂技術(shù)。分箱不使用類信息,是一種非監(jiān)督的離散化技術(shù),對用戶指定的箱個數(shù)敏感,容易受離群點的影響直方圖是一種非監(jiān)督的離散化方法,將屬性A的值劃分為不相交的區(qū)間,叫做桶或者箱。直方圖分析算法可以遞歸地用于每一個分區(qū),自動地產(chǎn)生多級概念分層,直到達到一個預(yù)先設(shè)定的概念層數(shù),過程終止。對每一層使用最小區(qū)間長度來控制遞歸。聚類將屬性A劃分為簇或組來離散化屬性A。采用自頂向下的劃分策略或組自底向上的合并策略產(chǎn)生概念分層,其中每一個簇形成的概念分層的一個結(jié)點。決策樹采用自頂向下的方式,是監(jiān)督的離散化方法,使用了類標號。相關(guān)性度量采用自底向上的策略,遞歸地找出最鄰近的區(qū)間,合并,形成大區(qū)間。使用類標號,是監(jiān)督的。相對類頻率在一個區(qū)間應(yīng)該完全一致,如果兩個鄰近的區(qū)間具有非常大的相似性就可以合并他們。ChiMerge把數(shù)值屬性A的每一個不同看做是一個區(qū)間,對每一個相鄰區(qū)間進行檢驗,具有最小卡方檢驗值的表明有相似的類分布。合并過程遞歸地進行,直至滿足定義的條件為止。標稱數(shù)據(jù)有多個值,無序。概念分層可以用來把數(shù)據(jù)變換到多個粒度層。四種數(shù)據(jù)概念分層的方法:由用戶或?qū)<以谀J郊夛@示地說明屬性的部分序、通過顯示數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分、說明屬性集但不說明它們的偏序、只說明部分屬性集。知識七數(shù)據(jù)倉庫與聯(lián)機分析處理數(shù)據(jù)倉庫允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅持的平臺,對信息處理提供支持。數(shù)據(jù)倉庫是一個面向主題的(排除決策無用的數(shù)據(jù))、集成的(來源于多個數(shù)據(jù)源)、時變的(隱式或顯式地包含時間元素)、非易失的(物理地分離存放數(shù)據(jù))數(shù)據(jù)集合,支持管理者的決策過程數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)、并發(fā)控制機制,只需要數(shù)據(jù)初始化裝入和數(shù)據(jù)訪問兩個數(shù)據(jù)訪問操作數(shù)據(jù)倉庫的構(gòu)建過程需要數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)一從異構(gòu)數(shù)據(jù)庫集成看,組織由多個異構(gòu)的、自治的和分布的數(shù)據(jù)源維護大型數(shù)據(jù)庫。傳統(tǒng)的數(shù)據(jù)庫集成建立一個包裝程序和一個集成程序。使用元數(shù)據(jù)字典對查詢進行轉(zhuǎn)換、將他轉(zhuǎn)換成相應(yīng)異構(gòu)點上的查詢。然后,將這些查詢映射和發(fā)送到局部查詢處理器。由不同的站點返回不一樣的結(jié)果被集成為全局回答。這種查詢驅(qū)動的方法要復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源數(shù)據(jù)倉庫使用更新驅(qū)動的方法,將多個數(shù)據(jù)源的信息預(yù)先集成存在數(shù)據(jù)倉庫中,供直接查詢和分析。聯(lián)機操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機事務(wù)和查詢處理。數(shù)據(jù)倉庫用不同格式組織和提供數(shù)據(jù)滿足不同用戶的需求,稱為聯(lián)機分析處理。數(shù)據(jù)倉庫與操作數(shù)據(jù)庫的區(qū)別:用戶和系統(tǒng)的面向性、數(shù)據(jù)內(nèi)容、數(shù)據(jù)庫設(shè)計、視圖、訪問模式。用戶和系統(tǒng)的面向性:聯(lián)機事務(wù)處理面向顧客,數(shù)據(jù)倉庫面向市場的數(shù)據(jù)內(nèi)容:聯(lián)機事務(wù)處理管理當前數(shù)據(jù),數(shù)據(jù)倉庫管理大量的歷史數(shù)據(jù)數(shù)據(jù)庫設(shè)計:前者是ER,后者是星形或者雪花模型和面向主題的視圖:前者主要關(guān)注一個企業(yè)或者部門內(nèi)部的當前數(shù)據(jù),后者常??缭綌?shù)據(jù)庫模式的多個版本,處理不同單位的數(shù)據(jù),數(shù)據(jù)量大,存放在多個介質(zhì)上。訪問模式:前者由短的原子事務(wù)組成,需要并發(fā)、恢復(fù)機制來保證一致性和事務(wù)的魯棒性。后者只需要訪問操作。其他區(qū)別包括數(shù)據(jù)庫大小、操作頻繁程度、性能度量等分離數(shù)據(jù)庫的原因有三個。第一為了提高兩個系統(tǒng)的性能。一方面操作系統(tǒng)是為一致的任何和負載設(shè)計,數(shù)據(jù)倉庫的查詢非常復(fù)雜,涉及大量的數(shù)據(jù),需要基于多維視圖的數(shù)據(jù)組織、存取方法和實現(xiàn)方法。第二是訪問模式的不同。第三是兩者的功能和數(shù)據(jù)不同。數(shù)據(jù)倉庫是三層體系,底層是倉庫數(shù)據(jù)服務(wù)器,是一個關(guān)系數(shù)據(jù)庫。數(shù)據(jù)提取使用信關(guān)的應(yīng)用程序。這一層包括元數(shù)據(jù)庫,存放關(guān)于數(shù)據(jù)倉庫和它的內(nèi)容的信息。中間是OLAP服務(wù)器。頂層是前端客戶層,包括查詢和報告的工具、分析工具/數(shù)據(jù)挖掘工具。從結(jié)構(gòu)看,有三種數(shù)據(jù)倉庫模型:倉庫企業(yè)、數(shù)據(jù)集市、虛擬倉庫倉庫企業(yè):搜集了關(guān)于主題的所有信息,跨越整個企業(yè)數(shù)據(jù)集市:數(shù)據(jù)范圍的一個子集,對特定用戶是有用的,局限于選定的主題,分為獨立和依賴的兩類。獨立的數(shù)據(jù)集市來自一個或者多個數(shù)據(jù)庫系統(tǒng)或者外部信息提供者或者來自于一個特定部門或者地區(qū)局部產(chǎn)生的數(shù)據(jù)。依賴數(shù)據(jù)集市直接來源于數(shù)據(jù)倉庫虛擬倉庫是操作數(shù)據(jù)上的視圖的集合,只有一些可能的匯總視圖被物化自頂向下的企業(yè)倉庫最大限度減少集成問題,推薦的是以遞增、進化的方式實現(xiàn)數(shù)據(jù)倉庫。數(shù)據(jù)倉庫系統(tǒng)使用的工具有數(shù)據(jù)提取、變換、裝入數(shù)據(jù)提取:由多個異構(gòu)的外部數(shù)據(jù)源搜集數(shù)據(jù)數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能時訂正它們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式裝入:排序、匯總、合并、計算視圖、檢查完整性、建立索引和劃分刷新:傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新數(shù)據(jù)清理和數(shù)據(jù)變換的目的是提高數(shù)據(jù)質(zhì)量元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),定義數(shù)據(jù)倉庫的數(shù)據(jù),位于底層。包含:數(shù)據(jù)倉庫結(jié)構(gòu)的描述、用于匯總的算法、由操作環(huán)境到數(shù)據(jù)倉庫的映射、關(guān)于系統(tǒng)性能的數(shù)據(jù)、商務(wù)元數(shù)據(jù)。多維數(shù)據(jù)模型有星形模式、雪花模式、事實星座模式。星形模式:一個大的中心表(包含大批數(shù)據(jù)不冗余),一組小的附屬表(每維一個)雪花模式:數(shù)據(jù)進一步分解到附加的表中事實星座模式:多個事實表共享維表數(shù)據(jù)立方體是一個函數(shù),對數(shù)據(jù)立方體空間的每一個點進行求值。通過對給定點的各維-值對聚焦數(shù)據(jù)計算該點的度量值。度量分為三類:分布(sum())、代數(shù)(avg())、整體的(rank())。知識點八頻繁項集、閉項集和關(guān)聯(lián)規(guī)則強規(guī)則同時滿足最小置信度閾值和最小支持度閾值。項的集合稱為項集,包含K個項的項集叫做k項集。項集的出現(xiàn)頻度是包含項集的事務(wù)數(shù),稱為頻度、支持度計數(shù)或者計數(shù)。如果不存在真超項集Y使得Y與X在D中具有相同的支持度計數(shù),該項集在數(shù)據(jù)集中是閉的,叫做閉頻繁項集。如果X是頻繁的,并且不存在超項集Y使得Y包含X并且Y在D中是頻繁的,那么X是極大頻繁項集。Apriori算法:通過限制候選碼產(chǎn)生頻繁項集。先驗性質(zhì):頻繁項集的所有非空子集也一定是頻繁的。有兩個關(guān)鍵操作是連接和剪枝。提高效率的形式有基于散列的技術(shù)、事務(wù)壓縮、劃分、抽樣、動態(tài)項集,即減少掃描事務(wù)數(shù)據(jù)庫的次數(shù)、減少候選項集的數(shù)量、候選項支持度計算的簡化。FP-tree算法:將代表頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹,保留項集的關(guān)聯(lián)信息。把壓縮后的數(shù)據(jù)庫劃分成一組條件數(shù)據(jù)庫,每一個數(shù)據(jù)庫關(guān)聯(lián)一個頻繁項或模式段,分別挖掘每一個條件數(shù)據(jù)庫,顯著地壓縮被搜索的數(shù)據(jù)集的大小。反單調(diào)性指一個結(jié)合不能通過測試,它的所有超集也不能通過相同的測試強規(guī)則不一定是有趣的。用相關(guān)性度量拓展支持度-置信度框架。提升度計算lift(A,B)=P(A∪B)/P(A)P(B)。大于1表示一個出現(xiàn)另一個一定出現(xiàn),等于1表示獨立的。計算卡方的值,卡方值=∑(觀測值-期望值)的平方/期望值。如果卡方值大于1,實際值小于觀測值表明是負相關(guān)的。四種評估模式度量:全置信度、最大置信度、Kulczynski和余弦全置信度稱為最小置信度;Kulczynski是兩個置信度的平均值;余弦看做是調(diào)和提升度量。提升度和卡方值識別事務(wù)數(shù)據(jù)集中的模式關(guān)聯(lián)關(guān)系的能力差因為不是零不變度量。零事務(wù)不包含任務(wù)考察項集的事務(wù)。如果值不受零事務(wù)的影響,則度量是零不變的。零不變性是一種度量大型數(shù)據(jù)庫中的關(guān)聯(lián)模式的重要性質(zhì)。不平衡比評估規(guī)則蘊含式中兩個項集A和B的不平衡程度。知識點九分類分類構(gòu)造一個模型或者分類器來預(yù)測類標號;回歸構(gòu)造模型預(yù)測一個連續(xù)值函數(shù)或者有序值。預(yù)測回歸的兩種主要類型是分類和回歸。數(shù)據(jù)分類包含學習階段(構(gòu)造分類模型)和分類階段(使用模型預(yù)測給定數(shù)據(jù)的類標號)。第一階段建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器,其中分類算法通過分析或從訓練集學習來構(gòu)造分類器??醋鰧W習一個映射或者函數(shù),可以預(yù)測給定元組的類標號,提供了數(shù)據(jù)的壓縮表示,它是監(jiān)督學習。訓練集由數(shù)據(jù)庫元組和與他們相關(guān)聯(lián)的類標號組成類標號屬性是離散和無序的,是分類的(標稱),因為每一個值充當一個類別或者類構(gòu)成訓練數(shù)據(jù)集的元組稱為訓練元組,從所分析的數(shù)據(jù)庫中隨機地選取,也叫樣本、實例、數(shù)據(jù)點或者對象第二個階段是分類階段,評估分類器的預(yù)測準確率。使用訓練集來度量準確率是樂觀的,因為它過分擬合該數(shù)據(jù),應(yīng)該使用由檢驗元組和它們相關(guān)聯(lián)的類標號組成的檢驗集,獨立于訓練元組,指不使用它們構(gòu)建分類器。分類器在給定檢驗集上的準確率是分類器正確分類的檢驗元組所占的百分比。每一個檢驗元組的類標號與學習模型對該元組的類預(yù)測進行比較。知識點十決策樹歸納決策樹歸納指從有類標號的訓練元組中學習決策樹。決策樹類似于一個流程圖的樹結(jié)構(gòu),每一個結(jié)點代表一個屬性上的測試,一個分支代表該測試的輸出,每一個樹葉結(jié)點存放一個類標號,最頂層是根結(jié)點。給定一個類標號未知的元組X,在決策樹上測試該元組的屬性值。跟蹤一條從根到葉結(jié)點的路徑,該葉結(jié)點就存放著該元組的預(yù)測,決策樹容易轉(zhuǎn)換為分類規(guī)則。決策樹分類不需要構(gòu)造任何領(lǐng)域知識或參數(shù)設(shè)置,適合于探索式知識發(fā)現(xiàn),處理高維數(shù)據(jù)在決策樹構(gòu)建的時候,使用屬性選擇度量來選擇將元組最好地劃分為不同的類的屬性決策樹算法又稱迭代二分器,采用自頂向下的策略,從訓練元組集和它們相關(guān)的類標號開始構(gòu)建決策樹。隨著構(gòu)建,訓練集逐漸被劃分為較小的子集決策樹算法的策略:(1)用三個參數(shù)D,attribute_list和attribution_selection_method調(diào)用該算法。該過程使用一種屬性選擇度量,比如信息增量、基尼指數(shù),它決定了樹是否為嚴格的二叉樹Ps:D代表數(shù)據(jù)分區(qū),是訓練元組和它們相應(yīng)類標號的完全集Attribute_list描述元組屬性的列表attribution_selection_method指定選擇屬性的啟發(fā)式過程,用來選擇可以按類最好地區(qū)分給定元組的屬性。樹從單個結(jié)點N開始,N代表D中的訓練元組如果D中的元組都為同一類,結(jié)點N變成樹葉,并用類標記它。否則,調(diào)用attribution_selection_method確定分類準則。分類準則確定把D中的元組劃分為個體類的最好方法,在結(jié)點N上對哪一個屬性進行測試。對于選擇的測試,從結(jié)點N生長出哪些分支。分類準則指定分裂屬性,指出分裂點或者分裂子集,使得每個分支的屬性盡量純。結(jié)點N用分裂準則作為結(jié)點的測試。終止原則:分區(qū)D中的所有元組都是一個類型的;沒有剩余的屬性可以繼續(xù)劃分;給定的分支沒有元組復(fù)雜度為O(n*|D|*log(|D|)),|D|為D中的訓練元組屬性選擇度量是一種選擇分裂準則,把給定類標號的元組的數(shù)據(jù)分區(qū)D最好地劃分為單獨的類的啟發(fā)式方法。它為給定訓練元組的每一個屬性提供了秩評定。具有最好度量得分的屬性選為分裂屬性。如果分裂屬性是連續(xù)值或限于構(gòu)造二叉樹,一個分裂點或者一個分裂子集必須作為分裂準則的一部分返回。為分區(qū)D構(gòu)建的樹結(jié)點用分類準則標記,從準則的每一個輸出生長出分支,并且相應(yīng)地劃分元組。主要有信息增量、基尼指數(shù)、增益率方法。選擇具有最高信息增益的屬性作為結(jié)點N的分裂屬性,使結(jié)果分區(qū)中對元組分類所需要的信息量最小,并反映這些分區(qū)中的最小隨機性和不純性,使對一個對象分類所需要的期望測試數(shù)目最小,并確保找到一顆簡單的樹?;嶂笖?shù)度量數(shù)據(jù)分區(qū)或者訓練元組集D的不純度信息增益偏向于多值屬性,增益率調(diào)整了這種偏倚,傾向于產(chǎn)生不平衡的劃分,其中一個區(qū)比另一個區(qū)小得多。基尼指數(shù)偏向于多值屬性,當類數(shù)量很大的時候變得困難,傾向于導致相等大小的分區(qū)和純度?;谧钚∶枋鲩L度(MDL)的屬性選擇度量具有最小偏向于多值屬性的偏倚,需要最少二進制的樹:對樹編碼,對樹異常編碼?;舅枷霝槭走x最簡單的解。多元劃分基于屬性的組合而不是單個屬性,是一種屬性構(gòu)造,新屬性基于舊屬性創(chuàng)建的決策樹時間復(fù)雜度歲樹的高度指數(shù)增加,傾向于較淺的樹有大量的樹葉和較高的錯誤率。在創(chuàng)建決策樹時,由于噪聲和離群點,許多分支反應(yīng)的是訓練數(shù)據(jù)中的異常。剪枝處理過分擬合數(shù)據(jù)問題。知識點十一貝葉斯分類方法貝葉斯分類算法預(yù)測類隸屬關(guān)系的概率,如給定一個的元組屬于一個特定類的概率。樸素貝葉斯算法假定一個屬性值在給定類上的影響?yīng)毩⒂谄渌麑傩缘闹?,這一個假定稱為條件獨立性遇到零概率值,假設(shè)訓練元組集合很大,以致于對每一個計數(shù)加上1產(chǎn)生的變化可以忽略不計。知識點十二神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)又叫連接者學習,是一組連接的輸入/輸出單元,每一個連接都與權(quán)重有關(guān)。在學習階段,通過調(diào)整權(quán)重使得它能夠預(yù)測輸入元組的正確標號類來學習。神經(jīng)網(wǎng)絡(luò)需要的時間很長,適合具有足夠長的訓練時間的應(yīng)用。需要大量的參數(shù),主要是經(jīng)驗得到。神經(jīng)網(wǎng)絡(luò)的優(yōu)點包括對噪聲數(shù)據(jù)的高承受能力以及對未經(jīng)訓練的數(shù)據(jù)的分類能力,適合連續(xù)值的輸入和輸出多層前饋由一個輸入層,一個或者多個隱藏層,一個輸出層組成。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 空氣凈化產(chǎn)品消費需求變化及市場細分機會研究報告
- 2026年心理咨詢師考試題庫300道含答案【綜合卷】
- 2025年肥鄉(xiāng)縣幼兒園教師招教考試備考題庫含答案解析(必刷)
- 2026年安全員考試題庫300道(名師系列)
- 2025年澄邁縣招教考試備考題庫附答案解析
- 2025年磴口縣招教考試備考題庫附答案解析(必刷)
- 2025年安徽國際商務(wù)職業(yè)學院單招職業(yè)技能考試題庫附答案解析
- 2025年肥鄉(xiāng)縣招教考試備考題庫含答案解析(必刷)
- 2026年心理咨詢師之心理咨詢師基礎(chǔ)知識考試題庫附答案【研優(yōu)卷】
- 煉鋼沈括課件
- 2023年南通啟東市郵政局招考筆試參考題庫(共500題)答案詳解版
- 多媒體系統(tǒng)維保服務(wù)投標方案
- JCT890-2017 蒸壓加氣混凝土墻體專用砂漿
- 深圳亞馬遜超級大賣副總制定的亞馬遜運營SOP計劃表
- 海洋與海洋測繪課件
- 鋼筋工程的驗收要點
- 康復(fù)治療學Bobath技術(shù)
- 上海市九年義務(wù)教育階段寫字等級考試(一級)硬筆方格收寫紙
- 語料庫和知識庫的研究現(xiàn)狀
- 南部三期污水處理廠擴建工程項目環(huán)評報告
- 強磁場對透輝石光催化性能影響的實驗畢業(yè)論文
評論
0/150
提交評論