數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》演示稿第6章_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》演示稿第6章_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》演示稿第6章_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》演示稿第6章_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》演示稿第6章_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1,復(fù)旦大學(xué)軟件學(xué)院2004.04,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(第6章),2,第6章數(shù)據(jù)挖掘的基本概念與常用方法,主要內(nèi)容從OLTP到數(shù)據(jù)挖掘聯(lián)機(jī)分析處理(OLAP)數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘的常用方法數(shù)據(jù)挖掘的類型,3,從OLTP到數(shù)據(jù)挖掘,數(shù)據(jù)庫應(yīng)用的規(guī)模和深度點(diǎn)線面互聯(lián)網(wǎng)在線分析處理(OLAP)在線事務(wù)處理決策支持(DS)(OLTP)數(shù)據(jù)挖掘(DataMining),4,事務(wù)型處理與分析型處理,事務(wù)型處理:即操作型處理,是指對數(shù)據(jù)庫的聯(lián)機(jī)操作處理。事務(wù)型處理是用來協(xié)助企業(yè)對響應(yīng)事件或事務(wù)的日常商務(wù)活動進(jìn)行處理。它是事件驅(qū)動、面向應(yīng)用的,通常是對一個或一組紀(jì)錄的增、刪、改以及簡單查詢等。事務(wù)型處理的應(yīng)用程序和數(shù)據(jù)是緊緊圍繞著所管理的事件來構(gòu)造的。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫要求能支持日常事務(wù)中的大量事務(wù),用戶對數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。,5,分析型處理,分析型處理:用于管理人員的決策分析,例如DSS、EIS、和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。在分析型處理中,并不是對從事務(wù)型處理環(huán)境中得到的細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。細(xì)節(jié)數(shù)據(jù)量太大,會嚴(yán)重影響分析的效率,而且太多的細(xì)節(jié)數(shù)據(jù)不利于分析人員將注意力集中于有用的信息。分析型處理過程中經(jīng)常用到外部數(shù)據(jù),這部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的,而是來自于其他外部數(shù)據(jù)源。,6,事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別,事務(wù)型處理數(shù)據(jù)分析型處理數(shù)據(jù)細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不可更新,只讀的操作需求事先可知道操作需求事先不知生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時(shí)刻操作一個單元一個時(shí)刻操作一個事務(wù)驅(qū)動分析驅(qū)動面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求,7,數(shù)據(jù)庫系統(tǒng)的局限性,E-R模型適于描述高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù),而決策型數(shù)據(jù)多為歷史性、匯總性或計(jì)算性數(shù)據(jù),多表現(xiàn)為靜態(tài)數(shù)據(jù),不需直接更新,但可周期性刷新。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復(fù)雜。在事務(wù)處理環(huán)境中,決策者可能并不關(guān)心具體的細(xì)節(jié)信息,在決策分析環(huán)境中,如果這些細(xì)節(jié)數(shù)據(jù)量太大一方面會嚴(yán)重影響分析效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會分散決策者的注意力。,8,數(shù)據(jù)庫系統(tǒng)的局限性,當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個數(shù)據(jù)庫系統(tǒng)中,事務(wù)型處理對數(shù)據(jù)的存取操作頻率高,操作處理的時(shí)間短,而分析型處理可能需要連續(xù)運(yùn)行幾個小時(shí),從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來自企業(yè)內(nèi)部的,也有來自企業(yè)外部的。來自企業(yè)外部的數(shù)據(jù)又可能來自不同的數(shù)據(jù)庫系統(tǒng),在分析時(shí)如果直接對這些數(shù)據(jù)操作會造成分析的混亂。對于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)常常是無能為力的。,9,多庫系統(tǒng)的限制,可用性:源站點(diǎn)或通信網(wǎng)絡(luò)故障將導(dǎo)致系統(tǒng)癱瘓,源站點(diǎn)不能通過網(wǎng)絡(luò)在線聯(lián)入多庫系統(tǒng);響應(yīng)速度:全局查詢多級轉(zhuǎn)換和通信傳輸,延遲和低層效率影響響應(yīng)速度;系統(tǒng)性能:總體性能取決于源站點(diǎn)中性能最低的系統(tǒng),影響系統(tǒng)性能的發(fā)揮;系統(tǒng)開銷:每次查詢要啟動多個局部系統(tǒng),通信和運(yùn)行開銷大,10,數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu),最終用戶,可視化工具,數(shù)據(jù)挖掘工具,多維分析工具,多維數(shù)據(jù),數(shù)據(jù)倉庫工具層,數(shù)據(jù)倉庫層,11,數(shù)據(jù)倉庫工具查詢型工具:對分析結(jié)果(發(fā)展趨勢或模式總結(jié))的查詢簡單的多維查詢+查詢報(bào)告工具+RBDMS驗(yàn)證型工具:用戶提出假設(shè),利用各種工具,通過反復(fù),遞歸的檢索查詢以驗(yàn)證或否定自己的假設(shè),從數(shù)據(jù)倉庫中發(fā)現(xiàn)事實(shí)多維分析工具(OLAP):可為查詢,報(bào)告,圖形以及基本的多維操作提提供接口挖掘型工具:從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式,預(yù)測趨勢和行為的數(shù)據(jù)挖掘工具,12,聯(lián)機(jī)分析處理(On-LineAnalyticalProcessing,OLAP),OLAP的概念:是一類軟件技術(shù),它針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析,可使決策者通過對信息的多種觀察角度進(jìn)行快速、一致和交互的存取,以獲得對信息的深入理解。,通過對信息的多種觀察形式進(jìn)行交互存取。OLAP的特點(diǎn):在線:快速響應(yīng)、交互操作(可由C/S結(jié)構(gòu)實(shí)現(xiàn))多維:信息已變換,以在不同維觀察數(shù)據(jù),13,聯(lián)機(jī)分析處理,絕對模型:靜態(tài)數(shù)據(jù)分析,比較歷史數(shù)據(jù)或行為描述過去的事實(shí),一般查詢表格工具。解釋模型:靜態(tài)數(shù)據(jù)分析,利用系統(tǒng)已有的多層次的綜合路徑,(需臨時(shí)建立多維視圖)找出事實(shí)發(fā)生的原因,工具漸多。思考模型:動態(tài)數(shù)據(jù)分析,說明在一維或多維上引入變量或參數(shù),將會發(fā)生什么變化,支持工具較少。動態(tài)模型:高級動態(tài)數(shù)據(jù)分析,用以表示在多維上需要引用哪些變量或參數(shù),以及引入后產(chǎn)生的結(jié)果,支持工具較少。,14,聯(lián)機(jī)分析處理的基本概念概念,變量:數(shù)值度量指標(biāo)維:觀察數(shù)據(jù)的角度維的層次:一個維內(nèi)部數(shù)據(jù)的概括程度維成員:維的一個取值(多層)多維數(shù)組:(維1,維2,維n,變量)數(shù)據(jù)單元:多維數(shù)組的取值(維成員1,維成員2,維成員n,變量值),15,多維分析的基本操作,切片(Slice):選定多維數(shù)據(jù)集的一個維的成員。如:(地區(qū),時(shí)間,產(chǎn)品)(地區(qū),時(shí)間,服裝)切塊(Dice):選定多維數(shù)據(jù)集的兩個或兩個以上維的成員。如:(地區(qū),時(shí)間,產(chǎn)品)(上海,時(shí)間,服裝)旋轉(zhuǎn)(Rotate):改變多維數(shù)據(jù)集顯示的維方向其他操作:鉆過(Drill-across)、鉆透(Drill-through)以及統(tǒng)計(jì)類計(jì)算,16,OLAP的準(zhǔn)則(E.F.Codd1993),準(zhǔn)則1:OLAP模型必須提供多維概念視圖準(zhǔn)則2:透明性準(zhǔn)則分析工具位置對用戶透明準(zhǔn)則3:存取能力準(zhǔn)則開放、高效、異構(gòu)準(zhǔn)則4:穩(wěn)定的報(bào)表功能報(bào)表能力和響應(yīng)速度不應(yīng)有明顯降低準(zhǔn)則5:客戶/服務(wù)器體系結(jié)構(gòu)兩層或三層C/S結(jié)構(gòu),智能化服務(wù)準(zhǔn)則6:維的等同性準(zhǔn)則每一維在結(jié)構(gòu)和操作功能上等同,17,OLAP的準(zhǔn)則(E.F.Codd1993),準(zhǔn)則7:動態(tài)的稀疏矩陣處理準(zhǔn)則OLAP服務(wù)器的物理結(jié)構(gòu)適用于特定的發(fā)現(xiàn)模式,能提供優(yōu)化的稀疏矩陣處理(有效存儲數(shù)據(jù))準(zhǔn)則8:多用戶支持能力準(zhǔn)則并發(fā)訪問、數(shù)據(jù)完整性、安全性準(zhǔn)則9:非受限的跨維操作所有維的生成、處理平等,能處理維間相關(guān)計(jì)算準(zhǔn)則10:直觀的數(shù)據(jù)操縱數(shù)據(jù)操作直觀易懂準(zhǔn)則11:靈活的報(bào)表生成操作、分析、綜合、查看數(shù)據(jù)按需要依次排列準(zhǔn)則12:不受限維與聚集層次通用分析模型至少15個維,任意定義聚集和聚集層次,18,基于多維數(shù)據(jù)庫(MDDB)的OLAPMOLAPOLAP服務(wù)器:存儲OLAP服務(wù)軟件和多維數(shù)據(jù)庫MDDB存儲:采用“超立方體”形式MDDB存取:多維操作,DB,DW,多維視圖,基礎(chǔ)數(shù)據(jù)計(jì)算結(jié)果,多維數(shù)據(jù)庫引擎,客戶,多維存取,19,基于多維數(shù)據(jù)庫(MDDB)的OLAPMOLAP的功能,對查詢的快速響應(yīng)與多維數(shù)據(jù)庫交互挖掘各維數(shù)據(jù)間的聯(lián)系計(jì)算引擎和比較分析交叉維計(jì)算綜合統(tǒng)計(jì)和財(cái)務(wù)計(jì)算計(jì)時(shí)功能(年、月、日、時(shí)分、財(cái)務(wù)日歷等)查詢數(shù)據(jù)倉庫底層細(xì)節(jié)數(shù)據(jù)導(dǎo)航功能,20,基于關(guān)系數(shù)據(jù)庫的OLAPROLAP用關(guān)系表達(dá)式描述多維概念大量的關(guān)系表用星型模型、雪花模型構(gòu)造維模型,DB,DW,基礎(chǔ)數(shù)據(jù)元數(shù)據(jù)計(jì)算結(jié)果,多維綜合引擎,多維視圖,SQL,存取,多維存取,RDBMS服務(wù)器,關(guān)系型OLAP服務(wù)器客戶,ROLAP結(jié)構(gòu)簡圖,21,MOLAP與ROLAP比較,22,數(shù)據(jù)挖掘,數(shù)據(jù)挖掘(ataMining):又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是基于、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動化地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉庫或數(shù)據(jù)庫中提取可信的、新穎的、有效的、人們感興趣的、能別人理解的知識的高級處理過程。這些知識是隱含的、事先未知的有用信息,提取的知識表現(xiàn)為概念、規(guī)則、模式、規(guī)律等形式,以幫助管理者作出正確的決策。模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含的信息更抽象的描述。模式按功能可以分為預(yù)測型模式和描述型模式。在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。,23,數(shù)據(jù)挖掘的發(fā)展,“從數(shù)據(jù)中發(fā)現(xiàn)有用模式”歷來有很多稱法,如:數(shù)據(jù)挖掘(datamining)知識提取(knowledgeextraction)信息發(fā)現(xiàn)(informationdiscovery)信息收獲(informationharvesting)數(shù)據(jù)考古(dataarchaeology)數(shù)據(jù)模式處理(datapatternprocessing)“數(shù)據(jù)挖掘”的稱法大部分是由統(tǒng)計(jì)學(xué)家,數(shù)據(jù)分析學(xué)家和MIS團(tuán)體使用的,在數(shù)據(jù)庫領(lǐng)域也得到了廣泛接受。,24,數(shù)據(jù)挖掘的發(fā)展,7080年代:知識發(fā)現(xiàn)與數(shù)據(jù)挖掘結(jié)合1989年6月:在美國底特律舉行了第一屆“從數(shù)據(jù)庫中知識發(fā)現(xiàn)”的國際學(xué)術(shù)會議,在這次會議中第一次使用了KDD這個詞來強(qiáng)調(diào)“知識”是數(shù)據(jù)驅(qū)動(data-driven)發(fā)現(xiàn)的最終結(jié)果。1995:加拿大召開第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議,25,歷屆有關(guān)KDD的學(xué)術(shù)會議,26,數(shù)據(jù)挖掘的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用開發(fā)在國外已經(jīng)迅速發(fā)展,許多大公司(如Informix,Oracle,IBM等)都投入了巨資對其進(jìn)行研究,并開發(fā)出了一些產(chǎn)品和原型,如DBMiner、Quest、EXPLORA等。第一本關(guān)于數(shù)據(jù)挖掘的國際學(xué)術(shù)雜志DataMiningandKnowledgeDiscovery于1997年3月創(chuàng)刊。國內(nèi)在這方面的研究起步比較晚,早期研究的方向多集中于關(guān)聯(lián)規(guī)則的挖掘,近來關(guān)于時(shí)序模式、分類、聚類、WEB數(shù)據(jù)挖掘等的研究也日益受到重視,并取得了不少可喜的成果,一些原型系統(tǒng)或數(shù)據(jù)挖掘工具已經(jīng)研制成功并在不斷完善中。,27,DM系統(tǒng)的體系結(jié)構(gòu)(1)DW的步驟:數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)集成數(shù)據(jù)選擇預(yù)分析挖掘表述評價(jià)(2)DW系統(tǒng)的結(jié)構(gòu):,用戶界面,結(jié)果輸出,數(shù)據(jù)挖掘核心,知識庫,數(shù)據(jù)倉庫,數(shù)據(jù)庫,文件系統(tǒng),其他數(shù)據(jù)源,ODBC或其他專用數(shù)據(jù)庫接口,28,數(shù)據(jù)準(zhǔn)備階段:經(jīng)過處理過的數(shù)據(jù)一般存儲在數(shù)據(jù)倉庫中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。包括:數(shù)據(jù)的選擇:選擇相關(guān)的數(shù)據(jù)數(shù)據(jù)的凈化:消除噪音、冗余數(shù)據(jù)數(shù)據(jù)的推測:推算缺失數(shù)據(jù)數(shù)據(jù)的轉(zhuǎn)化:離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類、數(shù)據(jù)項(xiàng)之間的計(jì)算組合等數(shù)據(jù)的縮減:減少數(shù)據(jù)量,數(shù)據(jù)挖掘的過程,29,數(shù)據(jù)挖掘的過程,挖掘階段:該階段是數(shù)據(jù)挖掘的核心步驟,也是技術(shù)難點(diǎn)所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過可視化工具表述所獲得的模式或規(guī)則。,30,數(shù)據(jù)挖掘的過程,評價(jià)階段:在數(shù)據(jù)挖掘中得到的模式可能是沒有實(shí)際意義或沒有使用價(jià)值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此需要評估,確定哪些是有效的、有用的模式。評估可以根據(jù)用戶多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來檢驗(yàn)其準(zhǔn)確性。,31,數(shù)據(jù)挖掘的過程,鞏固和運(yùn)用階段:用戶理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式形成了知識。同時(shí)還要對知識進(jìn)行一致性檢查,解決與以前得到的知識互相沖突、矛盾的地方,使知識得到鞏固。運(yùn)用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就可以對決策提供支持;另一種是要求運(yùn)用知識對新的數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問題,而需要對知識作進(jìn)一步的優(yōu)化。,32,數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu),數(shù)據(jù)挖掘系統(tǒng)可以采用三層的C/S結(jié)構(gòu):第一層:為圖形用戶界面,位于系統(tǒng)的客戶端;第二層:為數(shù)據(jù)挖掘引擎,它是數(shù)據(jù)挖掘系統(tǒng)的核心,位于系統(tǒng)的應(yīng)用服務(wù)器端;第三層:為數(shù)據(jù)庫與數(shù)據(jù)倉庫,位于數(shù)據(jù)服務(wù)器端。,33,數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)圖形用戶界面,該模塊實(shí)現(xiàn)用戶與數(shù)據(jù)挖掘系統(tǒng)之間的通信,允許用戶與系統(tǒng)交互。用戶可以通過圖形化界面指定數(shù)據(jù)挖掘任務(wù)、輸入有關(guān)信息,根據(jù)系統(tǒng)以可視化形式輸出的數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。此外,該模塊還提供用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu)、評價(jià)數(shù)據(jù)挖掘的模式等功能。,34,數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)挖掘引擎,數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)最基本、最重要的部分,是數(shù)據(jù)挖掘系統(tǒng)的核心。該部分由一系列功能模塊組成,分別用于關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、時(shí)序與序列數(shù)據(jù)挖掘和WEB數(shù)據(jù)挖掘等。,35,數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)庫與數(shù)據(jù)倉庫,該部分位于數(shù)據(jù)服務(wù)器端,包括數(shù)據(jù)庫、知識庫、文件系統(tǒng)、其他數(shù)據(jù)源以及存放經(jīng)過數(shù)據(jù)準(zhǔn)備提取和集成后數(shù)據(jù)的數(shù)據(jù)倉庫。在知識庫中存放領(lǐng)域知識,用于搜索和對模式進(jìn)行評價(jià)。數(shù)據(jù)庫與數(shù)據(jù)倉庫服務(wù)器的功能是根據(jù)用戶的數(shù)據(jù)挖掘請求,提取相應(yīng)的數(shù)據(jù)供數(shù)據(jù)挖掘引擎使用。,36,數(shù)據(jù)挖掘常用技術(shù),生物學(xué)方法人工神經(jīng)網(wǎng)絡(luò)遺傳算法信息論方法決策樹集合論方法約略集模糊集最鄰近技術(shù)統(tǒng)計(jì)學(xué)方法可視化技術(shù),37,生物學(xué)方法神經(jīng)網(wǎng)絡(luò)方法,神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個重要的分支。采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的系統(tǒng)模擬人腦的結(jié)構(gòu),而與傳統(tǒng)的系統(tǒng)截然不同。由醫(yī)學(xué)可知,人的大腦中有幾十億個大腦細(xì)胞(稱為神經(jīng)元),這些神經(jīng)元通過神經(jīng)中樞的導(dǎo)電神經(jīng)纖維互相連接,從而形成一個復(fù)雜的腦神經(jīng)網(wǎng)絡(luò)。人在學(xué)習(xí)某一件事的時(shí)候,某些神經(jīng)元的連接得到強(qiáng)化。在人工神經(jīng)網(wǎng)絡(luò)中,用計(jì)算機(jī)處理單元來模擬人腦的神經(jīng)元,并將這些處理單元象人腦的神經(jīng)元那樣互相連接起來,構(gòu)成一個網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)并非使用編程的方式讓計(jì)算機(jī)去做某項(xiàng)工作,而是采用所謂“訓(xùn)練”的方法讓神經(jīng)網(wǎng)絡(luò)進(jìn)行“學(xué)習(xí)”。完成某項(xiàng)工作的正確動作,使得神經(jīng)網(wǎng)絡(luò)的某些連接或模式得到強(qiáng)化;而錯誤的動作則使神經(jīng)網(wǎng)絡(luò)的相應(yīng)連接或模式不被強(qiáng)化。從而讓神經(jīng)網(wǎng)絡(luò)“學(xué)會”如何去做這項(xiàng)工作。,38,生物學(xué)方法神經(jīng)網(wǎng)絡(luò)方法,神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型,一般可對隱類型進(jìn)行分類,用于非線性的,復(fù)雜的數(shù)據(jù)。它通過模擬人腦神經(jīng)元結(jié)構(gòu)進(jìn)行數(shù)據(jù)挖掘。以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測、模式識別等方面。反饋式網(wǎng)絡(luò):以Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計(jì)算。自組織網(wǎng)絡(luò):以ART模型、Koholon模型為代表,用于聚類。,39,生物學(xué)方法遺傳算法,遺傳算法(GeneticAlgorithms,簡記為GI):是一種借鑒生物界自然選擇和進(jìn)化機(jī)制發(fā)展起來的高度并行、隨機(jī)、自適應(yīng)搜索算法。遺傳算法的研究歷史比較短,是從20世紀(jì)60年代末期到70年代初才開始的,當(dāng)時(shí)的一些學(xué)者從試圖解釋自然界中生物的復(fù)雜適應(yīng)過程入手,模擬生物進(jìn)化的機(jī)制來建立人工系統(tǒng)的模型。經(jīng)過近30的發(fā)展,現(xiàn)已取得了理論研究的進(jìn)展和豐碩的應(yīng)用成果。目前,以遺傳算法為核心的進(jìn)化算法已與模糊系統(tǒng)理論、人工神經(jīng)網(wǎng)絡(luò)等一起成為人工智能研究中的熱點(diǎn),受到許多學(xué)科的共同關(guān)注。,40,生物學(xué)方法遺傳算法,遺傳算法的研究與生物進(jìn)化理論和遺傳學(xué)密切相關(guān)。生命的基本特征包括生長、繁殖、新陳代謝和遺傳與變異。生命是進(jìn)化的產(chǎn)物,現(xiàn)代的生物是在長期的進(jìn)化過程中發(fā)展起來的。達(dá)爾文提出了用自然選擇來解釋生物的進(jìn)化過程,該學(xué)說包括遺傳、變異、生存斗爭和適者生存三個方面。生物進(jìn)化是非常復(fù)雜的,它將涉及諸如染色體、脫氧核糖核酸、遺傳因子、種群、基因、進(jìn)化、選擇、復(fù)制、交叉、變異、編碼與解碼等許多名詞術(shù)語,而且許多現(xiàn)象尚無法用現(xiàn)有的進(jìn)化理論來解釋。,41,生物學(xué)方法遺傳算法,遺傳算法的基本思想:從代表問題的可能潛在解集的一個種群開始,一個種群是由經(jīng)過基因編碼的一定數(shù)量的個體組成,每個個體是染色體帶有特征的實(shí)體,染色體是多個基因的集合,它決定了個體的形狀和外部表現(xiàn);通過模擬基因編碼形成初代種群,然后按照適者生存和優(yōu)勝劣汰的原則逐代演化產(chǎn)生出越來越好的近似解;在每一代,根據(jù)問題域中個體的適應(yīng)度大小進(jìn)行選擇,并借助遺傳算子進(jìn)行組合交叉和變異,從而產(chǎn)生出代表新的解集的種群;以上過程將導(dǎo)致種群象自然進(jìn)化一樣的后代種群比前代種群更加適用于環(huán)境,末代種群中的最優(yōu)個體經(jīng)過解碼可以作為問題的最優(yōu)近似解。,42,生物學(xué)方法遺傳算法,遺傳算法中的三個基本操作:選擇:即通過適應(yīng)度的計(jì)算確定重組或交叉的個體,并確定被選個體將產(chǎn)生多少個子代個體。交叉:又稱為基因重組,即結(jié)合來自父代種群中的信息產(chǎn)生新的個體。變異:即交叉之后子代的基因按小概率擾動所產(chǎn)生的變化。遺傳算法可起到產(chǎn)生優(yōu)良后代的作用。這些后代需滿足適應(yīng)值,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問題的通用框架,它不依賴于問題的具體領(lǐng)域,因此可以應(yīng)用于函數(shù)優(yōu)化、組合優(yōu)化、生產(chǎn)調(diào)度、自動控制、機(jī)器人智能控制、圖像處理、模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等眾多領(lǐng)域。,43,信息論方法,信息論是研究信息的測度及其性質(zhì)、信息傳輸和信息處理系統(tǒng)的一般規(guī)律的學(xué)科分支。其研究內(nèi)容主要包括:以編碼理論為中心的所謂狹義信息論,它研究信息的測度、信息的容量、信源特性、信源編碼、信道和信息系統(tǒng)模型等;信號處理技術(shù),它研究信號和噪音分析、信號的過濾與檢測,以及有關(guān)理論;以計(jì)算機(jī)為中心的信息處理技術(shù)與理論,例如模式識別、自學(xué)習(xí)理論、自動機(jī)器翻譯等。在數(shù)據(jù)挖掘中,決策樹(decisiontree)是一種廣泛使用的圖解法決策分析工具,它把影響各行動的有關(guān)因素(自然狀態(tài)、概率、損益值等)用樹型圖表示,可直觀形象地表示出各條件和所允許的行動以及各種結(jié)果中間的關(guān)系。,44,決策樹方法,決策樹:用樹結(jié)構(gòu)表示決策集,這些決策產(chǎn)生規(guī)則,用于對數(shù)據(jù)集進(jìn)行分類。決策樹的建立:利用訓(xùn)練集生成一個測試函數(shù),根據(jù)不同取值建立樹的分支,再在每個分支子集中重復(fù)建樹的分支的過程,即可建立決策樹。然后對決策樹進(jìn)行剪枝處理,即可得到規(guī)則。典型的決策樹方法:ID3、分類回歸樹(CART)、C4.5等。,45,集合論方法約略集,約略集(RoughSet)又稱為粗糙集和粗集,是由波蘭華沙理工大學(xué)Z.Pawlak教授等提出的研究不完整數(shù)據(jù)、不精確知識的表達(dá)、學(xué)習(xí)和歸納的理論與方法。約略集方法與使用統(tǒng)計(jì)學(xué)方法或模糊集合論方法處理不精確數(shù)據(jù)的方法不同,它是以對觀察和測量所得數(shù)據(jù)進(jìn)行分類的能力為基礎(chǔ)的,為智能信息處理提供了有效的理論基礎(chǔ)和處理技術(shù)。,46,集合論方法約略集,約略集理論是Z.Pawlak于1982年在計(jì)算機(jī)與信息科學(xué)國際雜志上發(fā)表的論文“RoughSets”中首先提出的一個分析數(shù)據(jù)的數(shù)學(xué)理論。在分類的意義下,這個理論定義了模糊性與不確定性的概念,由于最初的研究大多是用波蘭文發(fā)表的,因此,這項(xiàng)研究在當(dāng)時(shí)并未引起國際計(jì)算機(jī)學(xué)界的重視,研究地域局限在東歐各國。到了80年代末,這個理論引起了世界各國學(xué)者的注意,人們對約略集理論的主要興趣在于它恰好反映了人們以不完全信息或知識去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進(jìn)行分類數(shù)據(jù)的能力。如醫(yī)學(xué)、藥學(xué)、工業(yè)、工程技術(shù)、控制系統(tǒng)、社會科學(xué)、地球科學(xué)、開關(guān)電路、圖象處理和其他許多方面都已經(jīng)成功地實(shí)現(xiàn)了它的應(yīng)用。,47,集合論方法約略集,國際上關(guān)于約略集理論和知識發(fā)現(xiàn)的會議:1993年在Banff,Alberta,Canada舉行的TheIntlWorkshoponRoughSetsandKnowledgeDiscovery1996年在UniversityofTokyo舉行的TheFourthIntlWorkshoponRoughSets,FuzzySets,andMachineDiscovery研究集中在約略集理論的數(shù)學(xué)性質(zhì)、拓廣、與其他不確定方法的關(guān)系和互補(bǔ),以及有效算法等方面?;赗ough集方法的數(shù)據(jù)挖掘工具:如ProbRough、TRANCE、KDD-R、LERS、DataLogic/R等。,48,精確集與約略集,令U是全域,XU,若X是任意基本集的并,則X是R(區(qū)分關(guān)系)可定義的,否則是R不可定義的;R可定義集也稱作R精確集(RExactSets),它在U的知識庫中可以被定義,而R不可定義集不能在該知識庫中定義,稱為R非精確集(RInexactSets)或R約略集(RRoughSets)。,49,約略集上近似與下近似,約略集的基本觀點(diǎn):用一個二元關(guān)系來建構(gòu)集合的近似。信息系統(tǒng)S=(U,T,V,)的不可區(qū)分集合RB(x)(在約略集理論中即等價(jià)類xB)是用來近似任何子集XU的基石。如果用屬性B不能精確地定義集合X,這時(shí)可以考慮用等價(jià)關(guān)系B導(dǎo)出的等價(jià)類近似地定義集合X,給出集合X的下近似和上近似的定義。根據(jù)X的上下近似,可以將U分為三個區(qū)域:正區(qū)域,負(fù)區(qū)域和邊界區(qū)域。,50,概念X的上下近似圖解,51,集合論方法約略集,約略集理論用于分類規(guī)則挖掘:發(fā)現(xiàn)不精確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。其基本思想是建立樣本數(shù)據(jù)內(nèi)部的等價(jià)類,而這些等價(jià)類是按照下近似和上近似“約略地”定義的。對于每一個等價(jià)類可以產(chǎn)生相應(yīng)的判定規(guī)則,對于下近似可建立確定性規(guī)則,對于上近似可建立不確定性規(guī)則(含可信度),并用判定表表示這些規(guī)則。約略集理論用于特征歸約和相關(guān)分析:找出描述給定數(shù)據(jù)集中所有概念的最小屬性子集。約略集理論用于屬性化簡及其規(guī)則篩選:減少數(shù)據(jù)庫系統(tǒng)中的冗余屬性,提高數(shù)據(jù)庫中所隱含知識的可理解性。,52,集合論方法模糊集方法,模糊性是客觀存在的,系統(tǒng)的復(fù)雜性越高,精確化能力就越低,也就意味著模糊性越強(qiáng)。在進(jìn)行分類規(guī)則挖掘時(shí),如果采用精確值作為閾值或邊界是比較苛刻的,引入模糊集的隸屬函數(shù)后可以使分類更加接近于現(xiàn)實(shí)?;谀:碚摰姆诸惙椒ㄍǔP枰獙傩灾缔D(zhuǎn)換為模糊值,然后使用模糊規(guī)則對給定樣本數(shù)據(jù)進(jìn)行分類。模糊集合理論還可以用于對實(shí)際問題進(jìn)行模糊評判、模糊決策、模糊模式識別和模糊聚類分析等。,53,統(tǒng)計(jì)學(xué)分析方法,在數(shù)據(jù)挖掘中,統(tǒng)計(jì)學(xué)可應(yīng)用于預(yù)測、聚類規(guī)則挖掘和時(shí)序數(shù)據(jù)的趨勢分析等。預(yù)測是數(shù)據(jù)分析的一種重要形式,通過建立連續(xù)值函數(shù)模型,可以預(yù)測數(shù)據(jù)的未來變化趨勢。連續(xù)值的預(yù)測可以使用統(tǒng)計(jì)學(xué)中的回歸統(tǒng)計(jì)技術(shù)建模,如線性回歸、多元回歸、非線性回歸、廣義線性回歸(對數(shù)回歸、泊松回歸等)。許多問題可以用線性回歸方法解決,而更多的問題則可以對變量進(jìn)行變換,使得非線性的問題轉(zhuǎn)換為線性的問題加以處理。,54,統(tǒng)計(jì)學(xué)分析方法預(yù)測,在數(shù)據(jù)屬性之間存在兩種關(guān)系:函數(shù)關(guān)系:能用函數(shù)公式表示的確定性關(guān)系,可以采用回歸分析的方法;相關(guān)關(guān)系:不能用函數(shù)公式表示,但仍是相關(guān)確定的關(guān)系,可以采用相關(guān)分析和主成分分析等方法。,55,統(tǒng)計(jì)學(xué)分析方法聚類分析,統(tǒng)計(jì)學(xué)方法還可以應(yīng)用于基于模型的聚類分析。例如,概念聚類是一種基于模型的聚類方法,它對于一組為標(biāo)記的對象,產(chǎn)生一個分類模式。這種聚類不僅能夠確定相似對象的分組,還可以發(fā)現(xiàn)每一個分組的特征描述,即每一個分組代表了一個概念或類。概念聚類的大多數(shù)方法采用了統(tǒng)計(jì)學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論