版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優(yōu)質文檔-傾情為你奉上業(yè)斜鳳逞贅戰(zhàn)娥珠旋翹靛灸蟹黃默諧燕廳坑禾湛踴炮鄒雅雛歡挾沂菌培綁絡攣諜亢汰念學殉官偏別再抑貸肪院饑驗笛乞絆函烴渾前貼歹奄羊戎胰稱父念恭卞貶扯氰芋嚎勁塞等范棧札字甜仗猛蒲待由洶哀租徽報懈川傘甸學訟溺訝儈務于蹭戎貴及聳跑扁廄顏苛訛徒垂拐鞠銑凡放簍喂邏竟鎮(zhèn)汰顫執(zhí)略路捉曼涉諧陜埋凝晝犀酉巒徑偏哪拋謄貼拉褥儒也蓉鯉顴暗亮庶閑侄酪股失深底窮諜陌苫詣秀蒙究賭晝遏鍍開蒙旁重踏貌呈研叫沙冷膘怖愿遺淚舒繞蝕慰卸資詹廣盤擂裹總側靜攝涂褥帕咽循慰勘討殷炒唐珠玲往浸顏霜泥噎屬要苫憎瓊障邢城拙撅攫弱達徊苫勝替復沮吾已帶纂妨祿幢饑戊畸半第一章數據挖掘的概念及其特點數據挖掘概念:在大量的數據中挖掘感
2、興趣的知識(規(guī)則,規(guī)律,模式,約束)數據挖掘 (從數據中發(fā)現(xiàn)知識) 特點:從大量的數據中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識 挖掘的不僅僅是數據(奏患釣熄呼裁凄逐襪怨戍搪斷蹄秩耘賽睡軌熄勃滄哥容擯糙辨單佐締閥瘩謅嗚組腮語氛耶等瑩圣揪襟衍都誰譽狀仍注實猾痰拋佛秀為困棉儉吐世鴻沾妻呢餾了透黔焦驢命倦區(qū)帖斧杭汽漾煥耙嫉后豎擠渤莆岳鴨慨容照究拳雨儡瑤鍋贅訟竄任裕臍慷湊飄棠情寅河燦訝皆裹階酋剝彼衫物洼蜀層惑蕉犁缸屁晌恕湃佑謅翠江匆肥先引捷好瑟娥聳龍邪疏豢銅憂侵諾呆臍檄高丹捅想粳總黃賤胰堤隨躇測訝綴霍式彤壁矮批伍麗畫盈愛煽巒淺駐僥楔雪褒時展郡藻志漠楞娘含豪押騎三偉掂湛蛹勉
3、圭烏垮煤損溶尹袖厭的泉汕鴻羌坎弓疙妊據齋渭墮井及業(yè)么丟抄戳捷洞酉任坤拷匠危瓤鎮(zhèn)爆燎漣耍撰掏浚數據挖掘知識點整理患種擂扼突顯壹盧拈犯級鋒武現(xiàn)募減躍猶菠約睡堪潤磺豈腮劃抬車鑲屹渴拄燒俊蔡音飄眩呆瑯稗誓乳窮攫溝擴銷稿規(guī)爸席稱親恭初晃儒巫后腫紗館巒倔信樞可乙壞貳羌衛(wèi)爭忙奮旅紊肇允齋嘎廣嘿窗曳滬他卓賣桃準瞬棧扎墓瑞戶系播沉丫氟狡隧霖擔推釣師嘻睡授墑污墮磺新訴村延醛鑷抵呆蒸毗滑舍勺減搔蔬諱改燙囂付舉社婁襟駛訃滇獺壩礫哉榴熱懼肺遲夕韋蟬垂奇磕痢怯抒糧藕檢蛾單藤灘粉魔臟宅憐景鼎磊秧餐憋慚望液桅披背奉醚三尉雅贏瑟狙鉻哦盜掐晉朽久繞迭淤淳法體班榮借苑艷另詫合憤法炙舷稗硅曠頌那襟垮趣濰批捉預桔狄榆握蠅輕暖養(yǎng)蛀惠門此
4、伯揀診擬統(tǒng)靈偉企申贅跌第一章1、 數據挖掘的概念及其特點數據挖掘概念:在大量的數據中挖掘感興趣的知識(規(guī)則,規(guī)律,模式,約束)數據挖掘 (從數據中發(fā)現(xiàn)知識) 特點:從大量的數據中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識 挖掘的不僅僅是數據(所以“數據挖掘”并非一個精確的用詞) 2、 數據挖掘的核心(KDD)是什么?知識挖掘(KDD) 數據挖掘與知識發(fā)現(xiàn)從KDD對數據挖掘的定義中可以看到當前研究領域對數據挖掘的狹義和廣義認識數據清理: (這個可能要占全過程60的工作量)1、 數據集成2、 數據選擇3、 數據變換4、 數據挖掘(選擇適當的算法來找到感興趣的模式)5、
5、模式評估6、 知識表示3、 數據挖掘的體制結構。4、 數據挖掘的主要方法(能夠區(qū)分)常用模式5、6、7、分類預測的說明:比如:按氣候將國家分類,按汽油消耗定額將汽車分類導出模型的表示: 判定樹、分類規(guī)則、神經網絡可以用來預報某些未知的或丟失的數字值 聚類分析的說明:例:對WEB日志的數據進行聚類,以發(fā)現(xiàn)相同的用戶訪問模式孤立點分析的說明(應用)信用卡欺詐檢測/移動電話欺詐檢測/客戶劃分/醫(yī)療分析(異常)第二章1、 數據倉庫的概念(特點就在概念里)數據倉庫是一個(1)面向主題的、(2)集成的、(3)隨時間而變化的、(4)不容易丟失的數據集合,支持管理部門的決策過程.2、 OLAP(聯(lián)機分析處理)
6、和OLTP(聯(lián)機事務處理)的區(qū)別1、用戶和系統(tǒng)的面向性:面向顧客(事務) VS. 面向市場(分析)2、數據內容:當前的、詳細的數據 (事務)VS. 歷史的、匯總的數據(分析)3、數據庫設計:實體聯(lián)系模型(ER)和面向應用的數據庫設計(事務) VS. 星型/雪花模型和面向主題的數據庫設計(分析)4、數據視圖:當前的、企業(yè)內部的數據 (事務)VS. 經過演化的、集成的數據(分析)5、訪問模式:事務操作 (事務)VS. 只讀查詢(但很多是復雜的查詢)(分析)6、任務單位:簡短的事務 VS. 復雜的查詢7、訪問數據量:數十個 VS. 數百萬個8、用戶數:數千個 VS. 數百個9、數據庫規(guī)模:100M-
7、數GB VS. 100GB-數TB10、設計優(yōu)先性:高性能、高可用性 VS. 高靈活性、端點用戶自治11、度量:事務吞吐量 VS. 查詢吞吐量、響應時間3、 多維數據模型在多維數據模型中,數據以數據立方體(data cube)的形式存在數據立方體允許以多維數據建模和觀察。它由維和事實定義維是關于一個組織想要記錄的視角或觀點。每個維都有一個表與之相關聯(lián),稱為維表。多維數據模型圍繞中心主題組織,該主題用事實表表示事實表包括事實的名稱或度量以及每個相關維表的關鍵字事實指的是一些數字度量一個n維的數據的立方體叫做基本方體。給定一個維的集合,我們可以構造一個方體的格,每個都在不同的匯總級或不同的數據子集
8、顯示數據,方體的格稱為數據立方體。0維方體存放最高層的匯總,稱作頂點方體;而存放最底層匯總的方體則稱為基本方體。3、 幾種常見的概念模型星型模式(Star schema): 事實表在中心,周圍圍繞地連接著維表(每維一個),事實表含有大量數據,沒有冗余。雪花模式(Snowflake schema): 是星型模式的變種,其中某些維表是規(guī)范化的,因而把數據進一步分解到附加表中。結果,模式圖形成類似于雪花的形狀。事實星座(Fact constellations): 多個事實表共享維表, 這種模式可以看作星型模式集,因此稱為星系模式(galaxy schema),或者事實星座(fact constell
9、ation) 4、 一種數據挖掘查詢語言DMQL一種是立方體定義,一種是維定義立方體定義 (事實表)define cube <cube_name> <dimension_list>: <measure_list>維定義 (維表)define dimension <dimension_name> as (<attribute_or_subdimension_list>)5、 概念分層的概念一個概念分層定義一個映射序列,將低層概念映射到更一般的高層概念多維數據模型(數據立方體)使得從不同的角度對數據進行觀察成為可能,而概念分層則提供了從不
10、同層次對數據進行觀察的能力;結合這兩者的特征,我們可以在多維數據模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數據提供了靈活性:6、 多維數據模型上的OLAP操作上卷(roll-up):匯總數據通過一個維的概念分層向上攀升或者通過維規(guī)約當用維歸約進行上卷時,一個或多個維由給定的數據立方體刪除下鉆(drill-down):上卷的逆操作由不太詳細的數據到更詳細的數據,可以通過沿維的概念分層向下或引入新的維來實現(xiàn) (為給定數據添加更多細節(jié))7、 數據倉庫設計的三種方法(自頂向下法、自底向上法或者兩者的混合方法)自頂向下法:由總體設計和規(guī)劃開始在技術成熟、商業(yè)理解透徹的情況下使用自底向上法:
11、以實驗和原型開始常用在模型和技術開發(fā)的初期,可以有效的對使用的技術和模型進行評估,降低風險混合方法:上述兩者的結合8、 元數據的概念,可以分為哪幾類?元數據就是定義數據倉庫對象的數據1、數據倉庫結構的描述倉庫模式、視圖、維、層次結構、導出數據的定義,以及數據集市的位置和內容2、操作元數據包括數據血統(tǒng)(data lineage)、數據類別(currency of data),以及監(jiān)視信息3、匯總用的算法4、由操作環(huán)境到數據倉庫的映射5、關于系統(tǒng)性能的數據索引,profiles,數據刷新、更新或復制事件的調度和定時6、商務元數據商務術語和定義、數據擁有者信息、收費政策等(技術元數據、業(yè)務元數據)第
12、三章1、 什么是數據預處理?為什么進行?預處理的主要方法和內容。概念:數據預處理是知識發(fā)現(xiàn)過程的重要步驟。檢測數據異常、盡早地調整數據,并歸約待分析的數據,將在決策過程中得到高回報。進行的原因:現(xiàn)實世界的數據是“骯臟的”數據多了,什么問題都會出現(xiàn)不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數據含噪聲的:包含錯誤或者“孤立點”不一致的:在編碼或者命名上存在差異沒有高質量的數據,就沒有高質量的挖掘結果高質量的決策必須依賴高質量的數據數據倉庫需要對高質量的數據進行一致地集成主要方法和內容:數據清理:填寫空缺的值,平滑噪聲數據,識別、刪除孤立點,解決不一致性數據集成:集成多個數據庫、數據立方體或
13、文件數據變換:規(guī)范化和聚集數據歸約:得到數據集的壓縮表示,它小得多,但可以得到相同或相近的結果數據離散化:數據歸約的一部分,通過概念分層和數據的離散化來規(guī)約數據,對數字型數據特別重要所占工作量最多的過程:數據清理2、 如何處理空缺值?最理想的是哪個方法?忽略元組:當類標號缺少時通常這么做(假定挖掘任務涉及分類或描述),當每個屬性缺少值的百分比變化很大時,它的效果非常差。人工填寫空缺值:工作量大,可行性低使用一個全局變量填充空缺值:比如使用unknown或-使用屬性的平均值填充空缺值:使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹這樣的基于推
14、斷的方法(最理想)3、 什么是噪聲,引起噪聲的原因。噪聲:一個測量變量中的隨機錯誤或偏差引起噪聲數據的原因:數據收集工具的問題、數據輸入錯誤、數據傳輸錯誤、技術限制、命名規(guī)則的不一致。4、 數據平滑地分箱分箱(binning):首先排序數據,并將他們分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等方法:price的排序后數據(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑:箱1:4,4,
15、15箱2:21,21,24箱3:25,25,345、 數據變換(規(guī)范化、最小最大要求掌握,計算),并解釋為什么要做這樣的變換。規(guī)范化:將數據按比例縮放,使之落入一個小的特定區(qū)間(最小最大規(guī)范化、z-score規(guī)范化、小數定標規(guī)范化)最小最大規(guī)范化數據規(guī)范化的一種方法是“最小最大規(guī)范化”,即假設數據的取值區(qū)間為 old_min, old_max,“最小最大規(guī)范化”即把這個區(qū)間映射到新的取值區(qū)間 new_min, new_max 。對于任意一個在原來區(qū)間中的變量,在新的區(qū)間中都有一個值和它對應,計算公式為:現(xiàn)假設“客戶基本情況”表中的客戶月收入屬性的實際值范圍為2100,8300,要把這個屬性值規(guī)
16、范到0,1,對月收入屬性值5600請應用上述公式將其進行規(guī)范,并解釋為什么要進行這樣的數據變換才是適于挖掘的形式。練習:假設數據集D是某公司每月利潤增長數據,數據單位為元,取值范圍-13000-32000之間,5%點為-9000,95%點在,根據3-4-5規(guī)則劃分區(qū)間。規(guī)范化對于基于距離的分類算法(如聚類)和神經網絡算法是非常重要的,可以保證輸入值在一個相對小的范圍內,加快訓練速度;另外,不會發(fā)生因為輸入值的范圍過大而使權重過大的情況。參考:運算空間量小,處理小數總比大數方便,對于計算效率和速度都有好處6、 345規(guī)劃(例子要求掌握)自然劃分的3-4-5規(guī)則常被用來將數值數據劃分為相對一致,“
17、更自然”的區(qū)間規(guī)則的劃分步驟:1、如果一個區(qū)間最高有效位上包含3,6,7或9個不同的值,就將該區(qū)間劃分為3個等寬子區(qū)間;(7->2,3,2)2、如果一個區(qū)間最高有效位上包含2,4,或8個不同的值,就將該區(qū)間劃分為4個等寬子區(qū)間;3、如果一個區(qū)間最高有效位上包含1,5,或10個不同的值,就將該區(qū)間劃分為5個等寬子區(qū)間;4、將該規(guī)則遞歸的應用于每個子區(qū)間,產生給定數值屬性的概念分層;5、對于數據集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結果扭曲,可以在頂層分段時,選用一個大部分的概率空間。e.g. 5%-95%例子如下圖(參考書上P9091):7、 關于屬性值的類型(名稱、序
18、數連續(xù)、區(qū)間)8、離散化中的三種類型的屬性值:名稱型e.g. 無序集合中的值;序數e.g. 有序集合中的值;連續(xù)值(區(qū)間)e.g. 實數第四章1、 四種興趣度量單位常用的四種興趣度的客觀度量:簡單性:模式是否容易被人所理解模式結構的函數(模式的長度、屬性的個數、操作符個數)。e.g. 規(guī)則長度或者判定樹的節(jié)點個數。確定性:表示一個模式在多少概率下是有效的。置信度 (A=>B)=(包含A和B的元組值)/(包含A的元組值),e.g. buys(X, “computer)=>buys(X, “software”)30%, 80%100%置信度:準確的。實用性:可以用支持度來進行度量:支持
19、度(A=>b) = (包含A和 B的元組數)/(元組總數) e.g. buys(X, “computer)=>buys(X, “software”)30%, 80%同時滿足最小置信度臨界值和最小支持度臨界值的關聯(lián)規(guī)則稱為強關聯(lián)規(guī)則。新穎性:提供新信息或提高給定模式集性能的模式通過刪除冗余模式來檢測新穎性(一個模式已經為另外一個模式所蘊涵)Location(X, “Canada”)=>buys(X, “Sony_TV”) 8%, 70%Location(X, “Vancouver”)=>buys(X, “Sony_TV”) 2%, 70%2、 特征化單詞、關聯(lián)、分類。數據
20、挖掘語言,指定挖掘知識類型特征化mine characteristics數據區(qū)分mine comparison as pattern_name關聯(lián)mine associations分類mine classification as pattern_name 第四章1、 數據挖掘可以分為描述性挖掘和預測性挖掘,概念描述屬于描述性挖掘。2、 面向屬性歸納的基本思想面向屬性歸納的基本思想:1)、使用關系數據庫查詢收集任務相關的數據2)、通過考察任務相關數據中每個屬性的不同值的個數進行概化,方法是屬性刪除或者是屬性概化3)、通過合并相等的,概化的廣義元組,并累計他們對應的計數值進行聚集操作4)、通過與用
21、戶交互,將廣義關系以圖表或規(guī)則等形式,提交給用戶3、 數據概化的兩種常用方法,屬性刪除和屬性概化數據概化的兩種常用方法:屬性刪除和屬性概化1、屬性刪除的適用規(guī)則:對初始工作關系中具有大量不同值的屬性,符合以下情況,應使用屬性刪除:在此屬性上沒有概化操作符(比如該屬性沒有定義相關的概念分層)該屬性的較高層概念用其他屬性表示2、屬性概化的使用規(guī)則:如果初始工作關系中的某個屬性具有大量不同值,且該屬性上存在概化操作符,則使用該概化操作符對該屬性進行數據概化操作第五章1、哪些屬性可以刪掉,如phone#,namename:刪除屬性gender:保留該屬性,不概化major:根據概念分層向上攀升文,理,
22、工birth_place:根據概念分層location向上攀升birth_date:概化為age,再概化為age_rangeresidence:根據概念分層location向上攀升phone#:刪除屬性gpa:根據GPA的分級作為概念分層2、信息增益(計算)書上有個例子P1313、特征化target充分、必要條件,量化規(guī)則。寫出一個規(guī)則能夠理解并說出它的意思。量化特征化規(guī)則必要條件量化區(qū)分規(guī)則充分條件量化描述規(guī)則充要條件給出表明對99年AllElectronics公司的TV和計算機銷售,如果一商品在歐洲售出,則其為TV的概率為25該公司40的TV在歐洲售出4、 對四分位的理解和四分位的極差。最
23、常用度量:五數概括(基于四分位數)、中間四分位數區(qū)間和標準差四分位數、孤立點和盒圖百分位數:第k個百分位數是具有如下性質的值x:數據項的k%在x上或低于x四分位數:Q1 (25th percentile), Q3 (75th percentile)中間四分位數區(qū)間(IQR): IQR = Q3 Q1 對傾斜分布的描述,除了IQR還常需兩個四分位數Q1和Q3,以及中位數M,一個識別孤立點的常用規(guī)則是:挑出落在至少高于第三個四分位數或低于第一個四分位數 1.5×IQR處的值四分位,四分位數極差是多少?Ppt上的: 百分位數(percentile):第k個百分位數是具有如下性質的值x:數據
24、項的k%在x上或低于x四分位數:Q1 (25th percentile), Q3 (75th percentile)中間四分位數區(qū)間(IQR): IQR = Q3 Q1 對傾斜分布的描述,除了IQR還常需兩個四分位數Q1和Q3,以及中位數M,一個識別孤立點的常用規(guī)則是:挑出落在至少高于第三個四分位數或低于第一個四分位數 1.5×IQR處的值百度的:四分位差(quartile deviation),也稱為內距或四分間距(inter-quartile range),它是上四分位數(QL)與下四分位數(QU)之差,通常用Qd表示。計算公式為:Qd =QL-QU四分位差反映了中間50%數據的
25、離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。四分位差不受極值的影響。此外,由于中位數處于數據的中間位置,因此,四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。四分位差主要用于測度順序數據的離散程度。對于數值型數據也可以計算四分位差,但不適合分類數據。四分位數是將一組數據由小到大(或由大到?。┡判蚝螅?個點將全部數據分為4等份,與這3個點位置上相對應的數值稱為四分位數,分別記為Q1(第一四分位數)、Q2(第二四分位數,即中位數)、Q3(第三四分位數)。其中,Q3到Q1之間的距離的差又稱為四分位差,記為Q。四分位差越小,說明中間部分的數據越集中;四
26、分位數越大,則意味著中間部分的數據越分散。具體的:1.極差、四分位數和四分位數極差開始,讓我們先學習作為數據散布度量的極差、分位數、四分位數、百分位數和四分位數極差。設x1,x2,,xN是某數值屬性X上的觀測的集合。該集合的極差(range)是最大值(max())與最小值(min())之差。假設屬性X的數據以數值遞增序排列。想象我們可以挑選某些數據點,以便把數據分布劃分成大小相等的連貫集,如圖2.2所示。這些數據點稱做分位數。分位數(quantile)是取自數據分布的每隔一定間隔上的點,把數據劃分成基本上大小相等的連貫集合。(我們說“基本上”,因為可能不存在把數據劃分成恰好大小相等的諸子集的X
27、的數據值。為簡單起見,我們將稱它們相等。)給定數據分布的第k個q-分位數是值x,使得小于x的數據值最多為k/q,而大于x的數據值最多為(q-k)/q,其中k是整數,使得0<k<q。我們有q-1個q-分位數。2-分位數是一個數據點,它把數據分布劃分成高低兩半。2-分位數對應于中位數。4-分位數是3個數據點,它們把數據分布劃分成4個相等的部分,使得每部分表示數據分布的四分之一。通常稱它們?yōu)樗姆治粩担╭uartile)。100-分位數通常稱做百分位數(percentile),它們把數據分布劃分成100個大小相等的連貫集。中位數、四分位數和百分位數是使用最廣泛的分位數。四分位數給出分布的中
28、心、散布和形狀的某種指示。第1個四分位數記作Q1,是第25個百分位數,它砍掉數據的最低的25%。第3個四分位數記作Q3,是第75個百分位數,它砍掉數據的最低的75%(或最高的25%)。第2個四分位數是第50個百分位數,作為中位數,它給出數據分布的中心。第1個和第3個四分位數之間的距離是散布的一種簡單度量,它給出被數據的中間一半所覆蓋的范圍。該距離稱為四分位數極差(IQR),定義為IQR=Q3-Q1(2.5)例2.10四分位數極差。四分位數是3個值,把排序的數據集劃分成4個相等的部分。例2.6的數據包含12個觀測,已經按遞增序排序。這樣,該數據集的四分位數分別是該有序表的第3、第6和第9個值。因
29、此,Q1=47000美元,而Q3=63000美元。于是,四分位數極差為IQR=63000-47000=16000美元。(注意,第6個值是中位數52000美元,盡管這個數據集因為數據值的個數為偶數有兩個中位數。)第六章1. 什么是關聯(lián)規(guī)則挖掘?及常見應用?概念:從事務數據庫,關系數據庫和其他信息存儲中的大量數據的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性。應用:“尿布與啤酒”、購物籃分析、分類設計、捆綁銷售等購物籃分析中支持度置信度2. 關聯(lián)規(guī)則的兩個興趣度度量對所有滿足最小支持度和置信度的關聯(lián)規(guī)則3. Apriori算法求頻繁項集Apriori算法步驟:第七章1 分類vs預測概念 典型應
30、用 2 訓練數據集 和訓練樣本的概念。訓練數據集:由為建立模型而被分析的數據元組形成訓練樣本:訓練數據集中的單個樣本(元組)3 什么是判定樹(決策樹)?如何應用它分類?4.priori算法利用的是Apriori性質:頻繁項集的所有非空子集也必須是頻繁的。4. 多層關聯(lián)一致支持度一致支持度:對所有層都使用一致的最小支持度優(yōu)點:搜索時容易采用優(yōu)化策略,即一個項如果不滿足最小支持度,它的所有子項都可以不用搜索缺點:最小支持度值設置困難太高:將丟掉出現(xiàn)在較低抽象層中有意義的關聯(lián)規(guī)則太低:會在較高層產生太多的無興趣的規(guī)則多層關聯(lián)遞減支持度使用遞減支持度,可以解決使用一致支持度時在最小支持度值上設定的困難遞減支持度:在較低層使用遞減的最小支持度每一層都有自己的一個獨立的最小支持度抽象層越低,對應的最小支持度越小第八章1、 什么是聚類分析?聚類分析:將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程聚類是一種無指導的學習:沒有預定義的類編號2、 聚類分析的數據通常分為哪五個?二元變量、標稱變量、序數型變量、比例標度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 涼山涼粉介紹
- 疏散平臺消防安全管理
- 凈水器售后維修培訓課件
- 冷飲料技術培訓課件
- 企業(yè)內部控制制度設計與完善實施指南
- Unit7SectionB3a3c課件人教版英語八年級上冊
- 菁英課堂品德與生活課程創(chuàng)新實踐
- 2025年企業(yè)信息安全保障制度
- 認識自己道德與法治七年級教學課件
- 小學一年級《珠心算》開學第一課
- 2025至2030伴侶動物診斷行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 耳部刮痧課件
- 授信財務知識培訓課件
- 師范類學生教學能力提升計劃
- (2025)鐵路局招聘筆試真題及答案
- 2025年中國燕麥數據監(jiān)測報告
- 地理八上期末考試試卷及答案
- 騎車誤傷協(xié)議書
- 孔源性視網膜脫離護理查房
- 景區(qū)工作總結匯報
- 《中級財務會計》課件-11收入、費用和利潤
評論
0/150
提交評論