版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用,東華理工大學(xué) 理學(xué)院 劉愛華,目錄,數(shù)據(jù)倉庫基礎(chǔ) 7. 分類和預(yù)測 數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn) 8. 關(guān)聯(lián)分析 數(shù)據(jù)倉庫實(shí)例 9. Web挖掘 OLAP和OLAM 10. 數(shù)據(jù)挖掘?qū)嵗?5 . 數(shù)據(jù)挖掘基礎(chǔ) 11. 知識 聚類分析 12. 語義網(wǎng)和本體,1 數(shù)據(jù)倉庫基礎(chǔ),1.1 引言 1.2 體系結(jié)構(gòu) 1.3 組成 1.4 元數(shù)據(jù) 1.5 數(shù)據(jù)粒度 1.6 數(shù)據(jù)模型 1.7 ETL,1.1 引言,數(shù)據(jù)倉庫定義 數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。 此定義由最為權(quán)威的、被稱為“數(shù)據(jù)倉庫之父”的William H. Inmon 先
2、生給出。,面向主題的 是相對于傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用而言的。所謂面向應(yīng)用,指的是系統(tǒng)實(shí)現(xiàn)過程中主要圍繞著一些應(yīng)用或功能。而面向主題則考慮一個(gè)個(gè)的問題域,對問題域涉及到的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。 典型的主題領(lǐng)域 顧客、產(chǎn)品、事務(wù)或活動、保險(xiǎn)單、索賠和賬目。,1.1 引言,集成的 數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個(gè)不同的數(shù)據(jù)源(操作數(shù)據(jù)庫)。由于歷史的原因,各操作數(shù)據(jù)庫的組織結(jié)構(gòu)往往是不同的,在這些異構(gòu)數(shù)據(jù)輸入到數(shù)據(jù)倉庫之前,必須經(jīng)歷一個(gè)集成過程。,1.1 引言,集成的 最重要的特點(diǎn)。應(yīng)用問題的設(shè)計(jì)人員制定出不同的設(shè)計(jì)決策,且表示方法不同。例如編碼、命名習(xí)慣、實(shí)際屬性和屬性度量等方面不一致。
3、 數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時(shí),需要消除各種不一致性。例如,數(shù)據(jù)倉庫中顧客“性別”的編碼,可采用“男/女”或“m/f”,采用哪種方式并不重要,重要的是在數(shù)據(jù)倉庫中應(yīng)該統(tǒng)一編碼。如果應(yīng)用數(shù)據(jù)編碼為“X/Y”,則進(jìn)入數(shù)據(jù)倉庫時(shí)需要進(jìn)行轉(zhuǎn)換。 此外,對所有應(yīng)用所涉及的問題都要考慮一致性。例如命名習(xí)慣、鍵碼結(jié)構(gòu)、屬性度量以及數(shù)據(jù)特點(diǎn)等。,1.1 引言,與時(shí)間相關(guān)的 數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進(jìn)行組織,時(shí)間維是數(shù)據(jù)倉庫中很重要的一個(gè)維度。并且數(shù)據(jù)倉庫中的數(shù)據(jù)時(shí)間跨度大,從幾年甚至到幾十年,稱為歷史數(shù)據(jù)。,1.1 引言,不可修改的 面向應(yīng)用的事務(wù)數(shù)據(jù)庫需要對數(shù)據(jù)進(jìn)行頻繁的插入、更新操作,而對于數(shù)據(jù)倉庫中數(shù)據(jù)的操作僅限
4、于數(shù)據(jù)的初始導(dǎo)入和記錄查詢。 操作型數(shù)據(jù)是一次訪問和處理一個(gè)記錄,可以對操作型數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行更新。但數(shù)據(jù)倉庫中的數(shù)據(jù)則不同,通常是一起載入與訪問的,在數(shù)據(jù)倉庫環(huán)境中并不進(jìn)行一般意義上的數(shù)據(jù)更新。,1.1 引言,1.2 體系結(jié)構(gòu),二層體系結(jié)構(gòu),1.2 體系結(jié)構(gòu),三層體系結(jié)構(gòu),1.3 數(shù)據(jù)倉庫組成,一個(gè)數(shù)據(jù)倉庫的大小一般都是在100GB以上 通常,數(shù)據(jù)倉庫系統(tǒng)應(yīng)該包含下列程序: (1)抽取數(shù)據(jù)與加載數(shù)據(jù) (2)整理并轉(zhuǎn)換數(shù)據(jù)(采用一種數(shù)據(jù)倉庫適用的數(shù)據(jù)格式) (3)備份與備存數(shù)據(jù) (4)管理所有查詢(即將查詢導(dǎo)向適當(dāng)?shù)臄?shù)據(jù)源 ),1.3 數(shù)據(jù)倉庫組成,1.4 元數(shù)據(jù),定義 元數(shù)據(jù)(Metada
5、ta)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。 在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫開發(fā)人員非常方便地找到他們所需的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫中數(shù)據(jù)結(jié)構(gòu)和構(gòu)建方法的數(shù)據(jù)。,1.4 元數(shù)據(jù),分類 按照用途的不同分為技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)兩大類。 技術(shù)元數(shù)據(jù)存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它保證了數(shù)據(jù)倉庫系統(tǒng)的正常運(yùn)行; 業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),它提供介于使用者和實(shí)際系統(tǒng)之間的語義層,使得數(shù)據(jù)倉庫使用人員能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。,1.5 數(shù)據(jù)粒度,定義 粒度是
6、指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度級就越??;相反,細(xì)化程度越低,粒度級就越大。 粒度深深地影響存放在數(shù)據(jù)倉庫中數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型。 在數(shù)據(jù)倉庫中的數(shù)據(jù)粒度與查詢的詳細(xì)程度之間要做出權(quán)衡。,1.5 數(shù)據(jù)粒度,當(dāng)提高粒度級別時(shí),數(shù)據(jù)所能回答查詢的能力會隨之降低。換言之,在一個(gè)很低的粒度級別上,幾乎可以回答任何問題,但在高粒度級別上,數(shù)據(jù)所能處理的問題的數(shù)量是有限的。,1.6 數(shù)據(jù)模型,數(shù)據(jù)模型是對現(xiàn)實(shí)世界的一種抽象,根據(jù)抽象程度的不同,可形成不同抽象層次上的數(shù)據(jù)模型。與數(shù)據(jù)庫的數(shù)據(jù)模型相類似,數(shù)據(jù)倉庫的數(shù)據(jù)模型也分為三個(gè)層次: 概
7、念模型 邏輯模型 物理模型,數(shù)據(jù)倉庫的數(shù)據(jù)模型 星型結(jié)構(gòu) 雪花型結(jié)構(gòu) 星型雪花型結(jié)構(gòu) 數(shù)據(jù)倉庫的數(shù)據(jù)事實(shí)數(shù)據(jù)維度數(shù)據(jù) 不論是星型、雪花型或者是星型雪花型結(jié)構(gòu)都是以事實(shí)表為中心。不同點(diǎn)只是在外圍維度表相互之間的關(guān)系不同而已。,1.6 數(shù)據(jù)模型,將原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫所在的中心存儲庫的過程稱為ETL (Extraction, Transformation and Loading)過程,制定這個(gè)過程的策略稱之為ETL策略,而完成ETL過程的工具則是ETL工具。相對于數(shù)據(jù)倉庫中的表而言,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的表稱為源表,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫稱為源數(shù)據(jù)庫,數(shù)據(jù)倉庫中所有的數(shù)據(jù)都來自于業(yè)
8、務(wù)系統(tǒng)數(shù)據(jù)庫。在打造一個(gè)數(shù)據(jù)倉庫的過程中,ETL的實(shí)施是一項(xiàng)繁瑣、冗長而艱巨的任務(wù),因?yàn)樗P(guān)系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量問題,如果導(dǎo)入的數(shù)據(jù)漏洞百出,對決策者來說無疑是個(gè)噩耗。 ETL過程是搭建“數(shù)據(jù)倉庫”時(shí)最重要的和最易誤解的步驟之一。,1.7 ETL,ETL過程不僅僅是數(shù)據(jù)的遷移(Migration)或凈化(Cleansing),也應(yīng)該是企業(yè)數(shù)據(jù)管理策略中不可缺少的一部分。 ETL過程的功能是:發(fā)現(xiàn)數(shù)據(jù)倉庫需要的數(shù)據(jù),將其從源系統(tǒng)中抽取出來,并進(jìn)行一定的處理,然后裝載到數(shù)據(jù)倉庫中去。,1.7 ETL,提高數(shù)據(jù)質(zhì)量 提供一種統(tǒng)一的、跨平臺的存取數(shù)據(jù)方法 將數(shù)據(jù)“信息化”,為企業(yè)決策者的經(jīng)營分析提
9、供信息來源,1.7 ETL,2 數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn),2.1 數(shù)據(jù)倉庫設(shè)計(jì) 2.2 ETL設(shè)計(jì) 2.3 數(shù)據(jù)倉庫實(shí)現(xiàn),(1)確定數(shù)據(jù)倉庫的主題 根據(jù)電信業(yè)務(wù)和電信運(yùn)營的需求,電信公司涉及的最主要的三個(gè)主題是: 客戶發(fā)展 收益分析 呼叫特性分析,2.1 數(shù)據(jù)倉庫設(shè)計(jì),(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)可用的數(shù)據(jù) 例如,要完成客戶發(fā)展、收益分析、呼叫特性分析三個(gè)主題,下列三部分信息是必要的,即: 客戶的基本信息表 客戶的賬單信息表 客戶的呼叫信息表,2.1 數(shù)據(jù)倉庫設(shè)計(jì),(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)粒度的確定 在數(shù)據(jù)倉庫設(shè)計(jì)中,最重要的步驟是確定數(shù)據(jù)的粒度。 單一粒度 對于客戶基本信息表,由于它屬于增長較為緩慢的
10、信息(隨著客戶數(shù)量的增長,客戶業(yè)務(wù)信息的變更表會增長),可以使用單一的數(shù)據(jù)粒度。,2.1 數(shù)據(jù)倉庫設(shè)計(jì),(2)數(shù)據(jù)倉庫模型的設(shè)計(jì) OLAP模型的設(shè)計(jì) 針對每一個(gè)主題確定其需要的維度和度量變量,然后為每一個(gè)主題定義關(guān)系模式,從而形成一個(gè)星型結(jié)構(gòu),在這個(gè)星型結(jié)構(gòu)的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫。 以客戶信息主題為例,客戶信息主題的維度設(shè)計(jì)書如下:,2.1 數(shù)據(jù)倉庫設(shè)計(jì),數(shù)據(jù)提取轉(zhuǎn)換加載隨著應(yīng)用和系統(tǒng)環(huán)境的不同而具有不同的特點(diǎn)。一般而言,總包括下面的處理過程: a.預(yù)處理 正式開始作業(yè)之前的準(zhǔn)備工作,包括清空工作區(qū)、檢查過渡準(zhǔn)備區(qū)。如果需要直接訪問操作型數(shù)據(jù)源系統(tǒng)時(shí),要檢查遠(yuǎn)程數(shù)據(jù)庫服務(wù)
11、器狀態(tài),并核對目標(biāo)區(qū)數(shù)據(jù)加載狀態(tài),以核算出加載作業(yè)的參數(shù),如加載數(shù)據(jù)的時(shí)間間隔和范圍(24小時(shí)的數(shù)據(jù),還是前3天的數(shù)據(jù))。,2.2 ETL設(shè)計(jì),b.啟動數(shù)據(jù)加載的批作業(yè) c.因?yàn)榫S度表有事實(shí)表所參照的主鍵,所以要先完成對維表的加載,生成維表主鍵,并作為以后加載事實(shí)表所需要的外鍵。在加載維表中,有時(shí)要處理好緩慢變化的維的問題,并可能涉及到版號的處理問題。,2.2 ETL設(shè)計(jì),d. 加載事實(shí)表 這中間也涉及到鍵查找的問題,即從有關(guān)維表中找到相應(yīng)的主鍵,并以此作事實(shí)表的外鍵。 e.事實(shí)表加載完成后,再對總計(jì)方陣體系進(jìn)行刷新,以保障總計(jì)方陣與它的基礎(chǔ)數(shù)據(jù)同步。 f.設(shè)計(jì)具有完善的出錯(cuò)處理機(jī)制和作業(yè)控制
12、日志系統(tǒng),用以監(jiān)測和協(xié)調(diào)整個(gè)加載的過程。,2.2 ETL設(shè)計(jì),加載數(shù)據(jù)到數(shù)據(jù)倉庫的具體步驟 設(shè)定數(shù)據(jù)庫和數(shù)據(jù)源 建立多維數(shù)據(jù)集 設(shè)計(jì)存儲和處理多維數(shù)據(jù)集 為多維數(shù)據(jù)集創(chuàng)立分區(qū),2.3 數(shù)據(jù)倉庫實(shí)現(xiàn),企業(yè)級數(shù)據(jù)倉庫的實(shí)現(xiàn)途徑 從建造某個(gè)部門特定的數(shù)據(jù)集市開始,逐步擴(kuò)充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個(gè)能夠完全反映企業(yè)全貌的企業(yè)級數(shù)據(jù)倉庫; 從一開始就從企業(yè)的整體來考慮數(shù)據(jù)倉庫的主題和實(shí)施。,2.3 數(shù)據(jù)倉庫實(shí)現(xiàn),第一種方法類似于軟件工程中“自底向上”的方法,投資少、周期短且易于見到成果,但由于該設(shè)計(jì)開始時(shí)是以特定的部門級主題為框架的,向其他的主題和部門擴(kuò)充往往比較困難; 第二種方法與第一種
13、相反,即“自頂向下”的方法,投資大、周期長。實(shí)際中大多采用第一種方法。,2.3 數(shù)據(jù)倉庫實(shí)現(xiàn),3 數(shù)據(jù)倉庫實(shí)例,3.1 實(shí)例一 3.2 實(shí)例二,4 OLAP和OLAM,4.1 OLAP 4.2 OLAM,OLAP定義 60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理 (OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。 1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端客戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫的簡單查詢也不能滿足終端客戶分析的要求。客戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能獲得結(jié)果,而查詢的結(jié)果并不能滿足決策者提出
14、的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。,4.1 OLAP,OLAP(On-Line Analysis Processing)定義 是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上。 OLAP的主要特點(diǎn) 一是在線性(On Line),體現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作; 二是多維分析(Multi_Analysis),這是OLAP技術(shù)的核心所在。,4.1 OLAP,根據(jù)對數(shù)據(jù)的組織方式的不同,OLAP分為兩種: 基于多維數(shù)據(jù)庫的OLAP(MD-OLAP) 基于關(guān)系數(shù)據(jù)庫的OLAP(ROLAP) 前者響應(yīng)速度快、執(zhí)行效率高,但源于結(jié)構(gòu)的局限,靈活性不
15、高。 與之相比,后者由于建立在大量現(xiàn)有數(shù)據(jù)庫(數(shù)據(jù)倉庫)的基礎(chǔ)上,靈活性、擴(kuò)展性要高的多,并且支持大數(shù)據(jù)量和較多維數(shù)的能力也要強(qiáng)于前者。因此,雖然在響應(yīng)速度、執(zhí)行效率上差一點(diǎn),仍然得到了廣泛應(yīng)用。現(xiàn)有的OLAP工具大多基于后者。,4.1 OLAP,將OLAP與數(shù)據(jù)挖掘結(jié)合起來,發(fā)展出一種為數(shù)據(jù)挖掘服務(wù)的具有新型OLAP的數(shù)據(jù)倉庫,將更能適應(yīng)實(shí)際的需要。 OLAM(On Line Analytical Mining,聯(lián)機(jī)分析挖掘)正是這種結(jié)合的產(chǎn)物。,4.2 OLAM,5 數(shù)據(jù)挖掘基礎(chǔ),5.1 概述 5.2 實(shí)現(xiàn) 5.3 工具,二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長據(jù)估計(jì),每二十個(gè)月將增
16、加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。,5.1 概述,數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。它是一個(gè)新興的,面向商業(yè)應(yīng)用的AI研究。 1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)這一術(shù)
17、語。 隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識表示、知識運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟,其后逐漸演變成KDD的同義詞。,5.1 概述,現(xiàn)在,人們往往不加區(qū)別地使用兩者。KDD常常被稱為數(shù)據(jù)挖掘(Data Mining),實(shí)際兩者是有區(qū)別的。一般將KDD中進(jìn)行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘(Data Mining),數(shù)據(jù)挖掘是KDD中一個(gè)非常重要的處理步驟。 數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理(Customer Relationship Management,
18、 CRM)、商業(yè)智能(Business Intelligence, BI)等熱點(diǎn)領(lǐng)域的核心技術(shù)之一。,5.1 概述,數(shù)據(jù)準(zhǔn)備 KDD的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識挖掘,需要做一些準(zhǔn)備工作,也就數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇(選擇相關(guān)數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推測(推算缺值數(shù)據(jù))、轉(zhuǎn)換(離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。 數(shù)據(jù)準(zhǔn)備是KDD的第一個(gè)步驟,也是比較重要的一個(gè)步驟。數(shù)據(jù)準(zhǔn)備得好壞將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。,5.2 實(shí)現(xiàn),數(shù)據(jù)挖掘 數(shù)據(jù)
19、挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。,5.2 實(shí)現(xiàn),模式的評估、解釋 通過上面步驟所得到的模式,有可能是沒有意義或沒有實(shí)用價(jià)值的,因此需要評估,確定那些是有效的、有用的模式。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。,5.2 實(shí)現(xiàn),知識運(yùn)用 發(fā)現(xiàn)知識是為了運(yùn)用,如何使知識能被運(yùn)用也是KDD的步驟之一。運(yùn)用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就可以對決策提供支持;另一種是要求對新
20、的數(shù)據(jù)運(yùn)用知識,由此可能產(chǎn)生新的問題,而需要對知識做進(jìn)一步的優(yōu)化。 KDD過程可能需要多次的循環(huán)反復(fù),每一個(gè)步驟一旦與預(yù)期目標(biāo)不符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。,5.2 實(shí)現(xiàn),一般而言,一個(gè)企業(yè)實(shí)施數(shù)據(jù)挖掘項(xiàng)目有三種方式可供選擇: 購買成熟的模型 購買一般性數(shù)據(jù)挖掘系統(tǒng)軟件 構(gòu)建數(shù)據(jù)挖掘系統(tǒng),5.2 實(shí)現(xiàn),目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)包括: Enterprise Miner( SAS公司) Intelligent Miner( IBM公司) SetMiner( SGI公司) Clementine( SPSS公司) Warehouse Studio( Sybase公司)
21、See5( RuleQuest Research公司) CoverStory EXPLORA Knowledge Discovery Workbench DBMiner Quest等,5.3 工具,6 聚類分析,6.1 硬聚類 6.2 模糊聚類 6.3 評價(jià),聚類分析 從紛繁復(fù)雜的數(shù)據(jù)中,根據(jù)最大化類內(nèi)相似性、最小化類間相似性的原則進(jìn)行聚類或分組。 即使得在一個(gè)簇內(nèi)的對象具有高相似性,而不同簇間的對象具有低相似性的過程。,6.1 硬聚類,6.1 硬聚類,基于劃分的聚類方法 基于層次的聚類方法 基于密度的聚類方法 基于網(wǎng)格的聚類方法 基于模型的聚類方法,6.2 模糊聚類,模糊聚類(Fuzzy C
22、lustering Analysis,F(xiàn)CA)是指一個(gè)對象以不同程度屬于多個(gè)類,各個(gè)類之間的界限是不確定的。其本質(zhì)是不僅要考慮對象是否屬于該類,而且要考慮屬于該類的程度如何。模糊聚類完全不同于所謂的硬聚類,即類別之間的界限是明確而嚴(yán)格的。 聚類有效性對聚類分析具有重要意義,被認(rèn)為是聚類分析的一個(gè)瓶頸。對于相同的數(shù)據(jù)集合,采用不同的聚類方法,可能得到不同的聚類結(jié)果。 即便是采用同一種聚類方法,若選擇不同的初始參數(shù)(如聚類數(shù)、聚類中心等)也可能會得到不同的聚類結(jié)果。,6.3 評價(jià),可伸縮性 即算法中模式數(shù)發(fā)生變化的情況。有些算法在模式數(shù)小的條件下,算法的性能很好,但是模式數(shù)增大后,算法性能下降。如
23、PAM算法是一種k-中心點(diǎn)算法,它對小的數(shù)據(jù)集合非常有效,但對大的數(shù)據(jù)集合則沒有良好的可伸縮性。 高維性 即算法中模式屬性個(gè)數(shù)發(fā)生變化的情況。同樣,有些算法只擅長處理低維數(shù)據(jù)。在高維空間中聚類是一個(gè)挑戰(zhàn),特別是數(shù)據(jù)有可能非常稀疏和偏斜。,6.3 評價(jià),發(fā)現(xiàn)任意形狀的聚類 一個(gè)簇可能是任意形狀的,但一般的聚類算法是基于歐氏距離和曼哈頓距離度量實(shí)現(xiàn)聚類,更趨于發(fā)現(xiàn)球狀簇。在這方面,基于密度的聚類方法較好。 處理噪聲數(shù)據(jù)的能力 噪聲數(shù)據(jù)可能是數(shù)據(jù)本身不完整,也可能是孤立點(diǎn)數(shù)據(jù)(Outlier)。有些算法不擅于處理孤立點(diǎn)數(shù)據(jù),因此還專門出現(xiàn)了發(fā)現(xiàn)孤立點(diǎn)數(shù)據(jù)的算法。,6.3 評價(jià),用于決定輸入?yún)?shù)的領(lǐng)域
24、知識最小化和輸入記錄順序敏感性 一方面要求降低算法對輸入?yún)?shù)的敏感程度,另一方面要求輸入記錄順序?qū)λ惴ǖ慕Y(jié)果影響小。如經(jīng)典的k-均值算法,需要預(yù)先給出簇的數(shù)目。在一些知識發(fā)現(xiàn)應(yīng)用中,這一參數(shù)非常影響聚類的質(zhì)量。這常常是高效率算法的弱點(diǎn)。,6.3 評價(jià),可解釋性和可用性 知識發(fā)現(xiàn)過程中,聚類結(jié)果總是表現(xiàn)為一定的知識,這就要求聚類結(jié)果可解釋、易理解。這與可視化密切相關(guān),同時(shí)也與實(shí)際應(yīng)用有關(guān)。如SOM(Self Organization Mapping)算法用于文本聚類可以產(chǎn)生知識地圖,表現(xiàn)了良好的可視化性能。,7 分類和預(yù)測,7.1 概述 7.2 神經(jīng)網(wǎng)絡(luò) 7.3 決策樹 7.4 實(shí)現(xiàn)過程,7.1
25、 概述,分類是數(shù)據(jù)挖掘中的一個(gè)重要課題。 分類的目的是獲得一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某一個(gè)給定類別。 分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。,分類方法的評價(jià)標(biāo)準(zhǔn),預(yù)測的正確性 時(shí)間 構(gòu)建模型的時(shí)間 使用模型所需的時(shí)間 健壯性 處理噪聲及缺失值的能力 可擴(kuò)展性 可操作性 規(guī)則的優(yōu)化 決策樹的大小 分類規(guī)則的簡潔性,7.1 概述,常見的分類方法 決策樹分類 決策樹歸納是一種經(jīng)典的分類算法。它采用自頂向下、遞歸的、各個(gè)擊破的方式構(gòu)造決策樹。樹的每一個(gè)結(jié)點(diǎn)上使用信息增益度量選擇屬性,可以從所生成的決策樹中提取出分類規(guī)則。,7.1 概述
26、,KNN分類 即K最近鄰法,最初由Cover和Hart于1968年提出的,是一個(gè)理論上比較成熟的方法。該方法的思路非常簡單直觀:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。該方法在分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分類樣本所屬的類別。 該算法較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。,7.1 概述,SVM分類方法 即支持向量機(jī)(Support Vector Machine)法,由Vapnik等人于1995年提出,具有相對優(yōu)良的性能指標(biāo)。該方法是建立在統(tǒng)計(jì)學(xué)
27、習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。通過學(xué)習(xí),SVM可以自動尋找出那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔,因而有較好的適應(yīng)能力和較高的分準(zhǔn)率。該方法只需要由各類域的邊界樣本的類別來決定最后的分類結(jié)果。 SVM法對小樣本情況下的自動分類有著較好的分類結(jié)果。,7.1 概述,VSM分類方法 即向量空間模型(Vector Space Model)法,由Salton等人于60年代末提出。這是最早也是最著名的信息檢索方面的數(shù)學(xué)模型。其基本思想是將文檔表示為加權(quán)的特征向量:D=D(T1,W1;T2,W2;Tn,Wn),然后通過計(jì)算文本相似度的方法來確定待分類樣本的類別。當(dāng)文本被
28、表示為空間向量模型的時(shí)候,文本的相似度就可以借助特征向量之間的內(nèi)積來表示。 VSM法相對其他分類方法而言,更適合于專業(yè)文獻(xiàn)的分類。,人工神經(jīng)網(wǎng)絡(luò)(ANN)預(yù)測方法 目前應(yīng)用最廣泛的短期預(yù)測方法。它是一種通用的非線性自適應(yīng)函數(shù)估計(jì)器,通過對研究目標(biāo)的歷史數(shù)據(jù)訓(xùn)練,建立起復(fù)雜的非線性映射模型。它不依賴于輸入變量和預(yù)測目標(biāo)之間明確的表達(dá)式,輸入變量和預(yù)測目標(biāo)之間的關(guān)系通過訓(xùn)練過程來形成,避免了建模過程的困難;另一顯著特征是它的自適應(yīng)算法,在每一時(shí)刻都可以選擇新的訓(xùn)練樣本來估計(jì)和調(diào)整系統(tǒng)參數(shù),得到預(yù)測值?,F(xiàn)在多采用誤差反向傳播(BP)算法和徑向基函數(shù)(RBF)方法。但是,它的隱層神經(jīng)元個(gè)數(shù)不易確定,易
29、陷入局部最優(yōu)點(diǎn),需要大量訓(xùn)練樣本且訓(xùn)練時(shí)間較長。,7.1 概述,專家系統(tǒng)預(yù)測方法 基于知識建立起來的計(jì)算機(jī)系統(tǒng),它擁有某個(gè)領(lǐng)域內(nèi)專家們的知識和經(jīng)驗(yàn),能像專家們那樣運(yùn)用這些知識,通過推理作出決策。實(shí)踐證明,專家系統(tǒng)預(yù)測不僅需要新技術(shù)的支持,同時(shí)也需要融合人類自身的經(jīng)驗(yàn)和智慧。因此,需要專家系統(tǒng)的相關(guān)技術(shù)。但是,知識獲取的“瓶頸”問題妨礙了專家系統(tǒng)的快速開發(fā)。,7.1 概述,模糊預(yù)測方法 建立在模糊數(shù)學(xué)理論上的一種預(yù)測新技術(shù),模糊數(shù)學(xué)是用數(shù)學(xué)方法來研究和處理具有“模糊性”的現(xiàn)象。所謂模糊性主要是指有關(guān)事物差異的中間過渡中的不分明性,如溫度值的“高與低”等,這些模糊現(xiàn)象很難明確劃分其界限。,7.1
30、概述,小波分析預(yù)測方法 20世紀(jì)數(shù)學(xué)研究成果中最杰出的代表。它是一種時(shí)域頻域分析方法,在時(shí)域和頻域上同時(shí)具有良好的局部化性質(zhì)。,7.1 概述,優(yōu)選組合預(yù)測方法(兩種) 一是指將幾種預(yù)測方法所得預(yù)測結(jié)果,選取適當(dāng)權(quán)重進(jìn)行加權(quán)平均; 二是指將幾種預(yù)測方法進(jìn)行比較,選擇擬合優(yōu)度最佳或標(biāo)準(zhǔn)離差最小的預(yù)測模型作為最優(yōu)模型進(jìn)行預(yù)測。 組合預(yù)測方法是建立在信息利用最大化的基礎(chǔ)上,它集結(jié)多種單一模型所包含的信息,進(jìn)行最優(yōu)組合。因此,在大多數(shù)情況下,通過組合預(yù)測可以達(dá)到改善預(yù)測結(jié)果的目的。,7.1 概述,7.2 神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)(Artificial Neural Network,ANN)是20世紀(jì)80年代
31、后期迅速發(fā)展起來的人工智能技術(shù),它對噪聲數(shù)據(jù)具有很高的承受能力,對未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類模擬的能力,因此在網(wǎng)站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領(lǐng)域得到了越來越廣泛的應(yīng)用。在多種ANN模型中,反向傳播(Back Propagation,BP)網(wǎng)絡(luò)是應(yīng)用最廣的一種。,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,訓(xùn)練的終止條件 獲得一組權(quán)重值,使得訓(xùn)練集中幾乎所有樣本都分類正確 訓(xùn)練步驟 利用隨機(jī)值對權(quán)值進(jìn)行初始化 將訓(xùn)練樣本逐一地輸入給神經(jīng)網(wǎng)絡(luò),進(jìn)行訓(xùn)練 對于每個(gè)神經(jīng)元 將其所有的輸入值進(jìn)行線性求和計(jì)算得到總的輸入 利用激勵(lì)函數(shù)計(jì)算其輸出值 計(jì)算誤差 修正網(wǎng)絡(luò)權(quán)值和閾值(偏差),7.3 決策樹,決策樹分類是用屬性值對
32、樣本集逐級劃分,直到一個(gè)節(jié)點(diǎn)僅含有同一類的樣本為止。 決策樹首先起源于Hunt等人提出的概念學(xué)習(xí)系統(tǒng)(Concept Learning System,CLS),然后發(fā)展到Quinlan的ID3算法,最后演化為能處理連續(xù)屬性值的C45算法。,7.3 決策樹,決策樹的輸入 一組帶有類別標(biāo)記的樣本 決策樹的輸出 一棵二叉或多叉樹。 二叉樹的內(nèi)部節(jié)點(diǎn)(非葉子節(jié)點(diǎn))一般表示為一個(gè)邏輯判斷,如形式為(ai=vi)的邏輯判斷,其中ai是屬性,vi是該屬性的某個(gè)屬性值;樹的邊是邏輯判斷的分支結(jié)果。 多叉樹(ID3)的內(nèi)部節(jié)點(diǎn)是屬性,邊是該屬性的所有取值,有幾個(gè)屬性值,就有幾條邊。樹的葉子節(jié)點(diǎn)則是類別標(biāo)記。,7
33、.3 決策樹,決策樹的構(gòu)造 采用自上而下的遞歸構(gòu)造。 以多叉樹為例,其構(gòu)造思路是:如果訓(xùn)練樣本集中所有樣本是同類的,則將它作為葉子節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容即是該類別標(biāo)記;否則,根據(jù)某種策略選擇一個(gè)屬性,按照屬性的不同取值,將樣本集劃分為若干子集,使得每個(gè)子集上的所有樣本在該屬性上具有同樣的屬性值。然后再依次處理各個(gè)子集。實(shí)際上就是“分而治之”(divide-and-conquer)的策略。二叉樹同理,差別僅在于要選擇一個(gè)好的邏輯判斷。,7.3 決策樹,決策樹構(gòu)造的條件 構(gòu)造好的決策樹的關(guān)鍵是:如何選擇好的邏輯判斷或?qū)傩浴τ谕瑯右唤M樣本,可以有很多決策樹能符合這組樣本。研究表明,一般情況下,樹越小則樹的
34、預(yù)測能力越強(qiáng)。要構(gòu)造盡可能小的決策樹,關(guān)鍵在于選擇恰當(dāng)?shù)倪壿嬇袛嗷驅(qū)傩?。由于?gòu)造最小的樹是NP問題,因此只能采用啟發(fā)式策略選擇好的邏輯判斷或?qū)傩浴?7.3 決策樹,剪枝技術(shù) 是一種克服噪聲的技術(shù),同時(shí)它也能使樹得到簡化而變得更容易理解。 剪枝的類型 - 向前剪枝(forward pruning)在生成樹的同時(shí)決定是繼續(xù)對不純的訓(xùn)練子集進(jìn)行劃分還是停機(jī)。 - 向后剪枝(backward pruning)是一種兩階段法:擬合化簡(fitting-and-simplifying),首先生成與訓(xùn)練數(shù)據(jù)完全擬合的一棵決策樹,然后從樹的葉子開始剪枝,逐步向根的方向剪。,7.3 決策樹,剪枝的局限性 剪枝并
35、不是對所有的數(shù)據(jù)集都好,就象最小樹并不是最好(具有最大的預(yù)測率)的樹。當(dāng)數(shù)據(jù)稀疏時(shí),要防止過分剪枝(over-pruning)。從某種意義上而言,剪枝也是一種偏向(bias),對有些數(shù)據(jù)效果好而有些數(shù)據(jù)則效果差。,構(gòu)建模型:預(yù)設(shè)分類類別 對每個(gè)樣本進(jìn)行類別標(biāo)記 訓(xùn)練集構(gòu)成分類模型 分類模型可表示為:分類規(guī)則、決策樹或數(shù)學(xué)公式 使用模型:識別未知對象的所屬類別 模型正確性的評價(jià) 已標(biāo)記分類的測試樣本與模型的實(shí)際分類結(jié)果進(jìn)行比較 模型的正確率是指測試集中被正確分類的樣本數(shù)與樣本總數(shù)的百分比。測試集與訓(xùn)練集相分離,否則將出現(xiàn)過擬合( over-fitting )現(xiàn)象。,7.4 實(shí)現(xiàn)過程,8 關(guān)聯(lián)分析
36、,8.1 概述 8.2 Apriori 8.3 FPGrowth,8.1 概述,Apriori算法的基本流程 使用逐層搜索的迭代方法,通過對數(shù)據(jù)庫的多次掃描發(fā)現(xiàn)所有的頻繁項(xiàng)集。在每一趟掃描中只考慮具有同一長度k(即為項(xiàng)集中所含項(xiàng)目的個(gè)數(shù))的所有項(xiàng)集。算法的第一次掃描僅僅計(jì)算每個(gè)項(xiàng)目的具體支持度,以確定長度為1的頻繁項(xiàng)集。在后繼的每一次掃描中,首先使用在前一次獲得的頻繁項(xiàng)集Lk-1和Apriori-gen函數(shù)產(chǎn)生的候選項(xiàng)集q,接著掃描數(shù)據(jù)庫,計(jì)算Ck中候選項(xiàng)的支持度,最后確定候選項(xiàng)集中哪些真正成為頻繁項(xiàng)集。重復(fù)上述過程直到再也發(fā)現(xiàn)不了新的頻繁項(xiàng)集為止。,8.2 Apriori算法算法,Aprio
37、ri 算法的局限性 由于依賴于候選項(xiàng)集產(chǎn)生頻繁項(xiàng)集的理論(Apriori類算法)所開發(fā)的算法具有先天的弱點(diǎn),使得在基于Apriori算法開發(fā)的應(yīng)用沒有實(shí)質(zhì)性突破。 Han等提出的一種新的算法理論,用一種壓縮的數(shù)據(jù)結(jié)構(gòu)(FP-tree)存儲關(guān)聯(lián)規(guī)則挖掘所需的全部數(shù)據(jù)信息,通過對源數(shù)據(jù)的兩次掃描,將數(shù)據(jù)信息存到這種結(jié)構(gòu)里,避開了產(chǎn)生候選項(xiàng)集的步驟,極大地減少了數(shù)據(jù)交換和頻繁匹配的開銷。這就是所謂無候選項(xiàng)集產(chǎn)生的算法(Frequent Patterns Growth, FP-growth)。,8.3 FP-Grpwth算法,改進(jìn)的算法FP-growth (1)它構(gòu)造了一種新穎的、緊湊的數(shù)據(jù)結(jié)構(gòu)FP-
38、tree。它是一種擴(kuò)展的前綴樹結(jié)構(gòu),存儲了關(guān)于頻繁模式數(shù)量的重要信息。 (2)開發(fā)了基于FP-tree的模式片斷成長算法,它從長度為1的頻繁模式開始,只檢查它的條件模式構(gòu)建它的條件模式樹,并且在這個(gè)樹上遞歸地進(jìn)行挖掘。模式的成長通過聯(lián)合條件模式樹新產(chǎn)生的后綴模式實(shí)現(xiàn)。 (3)挖掘過程中采用的搜索技術(shù)是基于分區(qū)的,通過分割再解決的方法,而不是Apriori類算法的自下向上產(chǎn)生頻繁模式的集合。,FP-growth算法的主要思想 該算法主要是為了克服類Apriori算法的產(chǎn)生候選項(xiàng)集的缺點(diǎn),通過采用一種新的數(shù)據(jù)結(jié)構(gòu)FP-tree來達(dá)到目的。 優(yōu)點(diǎn):只掃描數(shù)據(jù)庫二次,并且不用產(chǎn)生候選項(xiàng)集,提高了效率。
39、,8.3 FP-Grpwth算法,9 Web挖掘,9.1 概述 9.2 Web文檔抽取和表示 9.3 特征抽取 9.4 Web聚類 9.5 Web分類,9.1 概述,定義 描述性的定義 Web挖掘是指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘是一項(xiàng)綜合技術(shù),覆蓋了多個(gè)研究領(lǐng)域,包括Web技術(shù)、數(shù)據(jù)庫、數(shù)據(jù)挖掘、計(jì)算機(jī)語言學(xué)、信息獲取、統(tǒng)計(jì)學(xué)以及人工智能等。 抽象化的定義 一般地,Web挖掘是指從大量Web集合中發(fā)現(xiàn)隱含的模式。如果將看作輸入,將看作輸出,則Web挖掘就是一個(gè)從輸入到輸出的映射,即:。,9.1 概述,定義 概括性的定義 Web挖掘是從與WWW相關(guān)的資源
40、和行為中抽取感興趣的、潛在的有用的模式和隱含信息。 Web挖掘可在很多方面發(fā)揮作用,如搜索引擎結(jié)構(gòu)挖掘、確定權(quán)威頁面、Web文檔分類、Web日志挖掘和智能檢索等。,9.2 Web文檔抽取和表示,Web表示模型 布爾模型 概率模型 向量空間模型,9.3 特征抽取,Web表示模型 統(tǒng)計(jì) TFIDF 互信息,9.4 Web聚類,實(shí)現(xiàn)步驟 模式表示,包括特征抽取以及把Web文檔表示成可計(jì)算的形式; 根據(jù)領(lǐng)域知識定義模式之間的距離測度公式; 聚類或者分組; 評價(jià)輸出結(jié)果。,9.4 Web聚類,主要困難 一個(gè)Web文檔可能包含多個(gè)主題,允許屬于不同主題的文檔歸入多個(gè)不同的簇。 高維詛咒問題,即由于文檔特征
41、項(xiàng)維度眾多而造成處理效率嚴(yán)重降低。 海量文檔的處理效率。 聚類效果評價(jià)。,9.5 Web分類,10 數(shù)據(jù)挖掘?qū)嵗?10.1 客戶細(xì)分 10.2 重入網(wǎng)識別 10.3 WAP日志挖掘,10.1 客戶細(xì)分,客戶群價(jià)值分布,10.1 客戶細(xì)分,客戶消費(fèi)行為的聚類結(jié)果,10.1 客戶細(xì)分,客戶通話行為的聚類結(jié)果,10.2 重入網(wǎng)識別,識別過程 確定待匹配用戶和新入網(wǎng)用戶清單。 呼叫指紋識別需要建立新入網(wǎng)用戶群和待匹配用戶群兩個(gè)數(shù)據(jù)集。 選擇特征變量和數(shù)據(jù)清洗 建立呼叫指紋庫 設(shè)定呼叫指紋相似度閾值,大于該閾值的匹配用戶對可界定為疑似重入網(wǎng)用戶。 驗(yàn)證,10.3 WAP日志挖掘,分析過程 數(shù)據(jù)整合 聚類
42、 結(jié)果展示 解釋和評價(jià),11 知識,11.1 概述 11.2 知識分類 11.3 知識表示 11.4 知識管理,11.1 概述,信息 是事物運(yùn)動的狀態(tài)和狀態(tài)變化的方式。 數(shù)據(jù) 指一個(gè)有關(guān)事實(shí)F的集合(如學(xué)生檔案數(shù)據(jù)庫中有關(guān)學(xué)生基本情況的各條記錄),用來描述事物有關(guān)方面的信息。一般而言,這些數(shù)據(jù)都是準(zhǔn)確無誤的。 數(shù)據(jù)可能存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他信息資料庫中。,11.1 概述,知識 人們實(shí)踐經(jīng)驗(yàn)的結(jié)晶且為新的實(shí)踐所證實(shí)的;是關(guān)于事物運(yùn)動的狀態(tài)和狀態(tài)變化的規(guī)律;是對信息加工提煉所獲得的抽象化產(chǎn)物。 知識的形式可能是模式、關(guān)聯(lián)、變化、異常以及其他有意義的結(jié)構(gòu)。,11.1 概述,模式 對于集合F中的
43、數(shù)據(jù),我們可以用語言L來描述其中數(shù)據(jù)的特性,得出一個(gè)表達(dá)式E,E所描述的數(shù)據(jù)是集合F的一個(gè)子集FE。只有當(dāng)表達(dá)式E比列舉所有FE中元素的描述方法更為簡單時(shí),我們才可稱之為模式。如:“如果成績在81-90之間,則成績優(yōu)良”可稱為一個(gè)模式,而“如果成績?yōu)?1、82、83、84、85、86、87、88、89或90,則成績優(yōu)良”則不能稱之為一個(gè)模式。,11.2 知識分類,顯性知識 可以通過正常的語言方式傳播的知識,典型的顯性知識主要是指以專利、科學(xué)發(fā)明和特殊技術(shù)等形式存在的知識,存儲在書本、計(jì)算機(jī)數(shù)據(jù)庫、CD ROM中。顯性知識是可以表達(dá)的、有物質(zhì)載體的和可確知的。在OECD所劃分的四類知識中,關(guān)于K
44、now-what和Know-why的知識基本屬于顯性知識。 隱性知識或稱為隱含經(jīng)驗(yàn)類知識(Tacit Knowledge) 個(gè)人或組織經(jīng)過長期積累而擁有的知識,通常不易用言語表達(dá),也不可能傳播給別人或傳播起來非常困難。例如技術(shù)高超的廚師或藝術(shù)家可能達(dá)到世界水平,卻很難將自己的技術(shù)或技巧表達(dá)出來從而將其傳播給別人或共享。隱性知識對應(yīng)的是OECD分類中Know-how和Know-who的知識,其特點(diǎn)是不易被認(rèn)識到、不易衡量其價(jià)值、不易被其他人所理解和掌握。,11.3 知識表示,11.3 知識表示,產(chǎn)生式系統(tǒng) 自然界的各種知識單元之間存在著大量的因果關(guān)系,這些因果關(guān)系或者前提與結(jié)論的關(guān)系,采用產(chǎn)生式
45、(或稱規(guī)則)表示是非常方便的。實(shí)際上,謂詞公式的蘊(yùn)含關(guān)系就是產(chǎn)生式的特例,如“天下雨,地上濕了”。,11.3 知識表示,語義網(wǎng)絡(luò) 語義網(wǎng)絡(luò)是對對象及其屬性分類知識編碼的圖形結(jié)構(gòu)。語義網(wǎng)絡(luò)是一種由節(jié)點(diǎn)及節(jié)點(diǎn)間帶標(biāo)記的連接弧組成的有向圖,其中節(jié)點(diǎn)表示事物、對象、狀態(tài)和概念等,有兩類;連接弧表示節(jié)點(diǎn)間的關(guān)系,有三類,可用標(biāo)記說明具體的語義關(guān)系。,11.3 知識表示,概念圖 概念圖以圖形表示就是一種有向連通圖,包括概念結(jié)點(diǎn)和概念關(guān)系結(jié)點(diǎn)兩種。弧的方向代表概念結(jié)點(diǎn)和概念關(guān)系結(jié)點(diǎn)之間的聯(lián)系。概念結(jié)點(diǎn)表示問題領(lǐng)域中的一個(gè)具體的或抽象的實(shí)體,概念關(guān)系結(jié)點(diǎn)表示概念結(jié)點(diǎn)之間的聯(lián)系。,11.3 知識表示,框架 框架
46、通常由描述事物的各個(gè)方面的槽組成,每個(gè)槽可以有若干個(gè)側(cè)面,而每個(gè)側(cè)面又可以有若干個(gè)值。 框架是一種通用的知識表達(dá)方法,對于如何運(yùn)用框架還沒有一種統(tǒng)一的形式,常常由各種問題的不同需要決定。,11.4 知識管理,目標(biāo) 知識的發(fā)布,以使一個(gè)組織內(nèi)的所有成員都能應(yīng)用知識; 確保知識在需要時(shí)是可得的; 推進(jìn)新知識的有效開發(fā); 支持從外部獲取知識; 確保知識、新知識在組織的擴(kuò)散; 確保組織內(nèi)部的人知道所需知識在何處。,11.4 知識管理,框架 框架通常由描述事物的各個(gè)方面的槽組成,每個(gè)槽可以有若干個(gè)側(cè)面,而每個(gè)側(cè)面又可以有若干個(gè)值。 框架是一種通用的知識表達(dá)方法,對于如何運(yùn)用框架還沒有一種統(tǒng)一的形式,常常由各種問題的不同需要決定。,12 語義網(wǎng)和本體,12.1 語義網(wǎng) 12.2 本體,12.1 語義網(wǎng),層次結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 租賃廠房安全管理制度模板(3篇)
- 墻夯施工方案(3篇)
- 現(xiàn)代醫(yī)院管理制度整改報(bào)告(3篇)
- 2015促銷活動策劃方案(3篇)
- 理發(fā)店充值管理制度(3篇)
- 2026廣東佛山市南海區(qū)人民醫(yī)院招聘事業(yè)聘用制(編制)人員5人(第一批)備考考試試題及答案解析
- 2026年合肥燃?xì)夤?yīng)服務(wù)員、安裝工招聘22名筆試備考試題及答案解析
- 2026年上半年云南省科學(xué)技術(shù)廳直屬事業(yè)單位公開招聘人員(8人)備考考試題庫及答案解析
- 護(hù)理業(yè)務(wù)查房案例分享
- 2026年監(jiān)利市事業(yè)單位人才引進(jìn)64人備考考試試題及答案解析
- 2026云南文山州教育體育局所屬事業(yè)單位選調(diào)37人備考題庫(2026年第1號)參考答案詳解
- 2025年考愛情的測試題及答案
- 2026四川成都錦江投資發(fā)展集團(tuán)有限責(zé)任公司招聘18人備考題庫及答案詳解一套
- 橋式起重機(jī)培訓(xùn)課件
- 聚丙烯酰胺裝置操作工崗前規(guī)程考核試卷含答案
- 2026廣東廣州開發(fā)區(qū)統(tǒng)計(jì)局(廣州市黃埔區(qū)統(tǒng)計(jì)局)招聘市商業(yè)調(diào)查隊(duì)隊(duì)員1人考試備考試題及答案解析
- 《汽車保險(xiǎn)與理賠》課件-項(xiàng)目三學(xué)習(xí)任務(wù)一、認(rèn)識汽車保險(xiǎn)理賠
- 假釋前評估表(家屬)
- 關(guān)于提高護(hù)士輸液時(shí)PDA的掃描率的品管圈PPT
- 針入度指數(shù)計(jì)算表公式和程序
- XGDT-06型脈動真空滅菌柜4#性能確認(rèn)方案
評論
0/150
提交評論