版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目錄 第 1 章 數(shù)據(jù)挖掘基本理論.1 1.1 數(shù)據(jù)挖掘的產(chǎn)生.1 1.2 數(shù)據(jù)挖掘的概念.2 1.3 數(shù)據(jù)挖掘的步驟.3 第 2 章 系統(tǒng)分析.3 2.1 系統(tǒng)用戶分析.3 2.2 系統(tǒng)功能分析.4 2.3 系統(tǒng)算法分析.4 第 3 章 數(shù)據(jù)管理.5 3.1 數(shù)據(jù)管理的方法.5 第 4 章 數(shù)據(jù)采集.6 4.1 數(shù)據(jù)采集的方法.6 第 5 章 數(shù)據(jù)預(yù)處理.6 5.1 數(shù)據(jù)預(yù)處理的方法.6 第 6 章 數(shù)據(jù)挖掘.6 6.1 算法描述與流程圖.6 6.1.1 算法描述.6 6.1.2 算法流程圖.8 第 7 章 結(jié)果顯示與解釋評(píng)估.8 7.1 結(jié)果顯示界面的具體實(shí)現(xiàn).8 7.1.1 系統(tǒng)主界面的
2、具體實(shí)現(xiàn).9 7.1.2 超市銷售記錄界面的具體實(shí)現(xiàn).9 7.1.3 數(shù)據(jù)采集界面的具體實(shí)現(xiàn).10 7.1.4 挖掘條件界面的具體實(shí)現(xiàn).11 7.1.5 數(shù)據(jù)挖掘界面的具體實(shí)現(xiàn).12 7.1.6 幫助界面的具體實(shí)現(xiàn).13 7.1.7 系統(tǒng)主界面運(yùn)行后顯示的結(jié)果.13 學(xué)習(xí)體會(huì).14 參考文獻(xiàn).15 第 1 章 數(shù)據(jù)挖掘基本理論 1.1 數(shù)據(jù)挖掘的產(chǎn)生 隨著計(jì)算機(jī)硬件和軟件的飛速發(fā)展,尤其是數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用的日益普及, 人們面臨著快速擴(kuò)張的數(shù)據(jù)海洋,如何有效利用這一豐富數(shù)據(jù)海洋的寶藏為人 類服務(wù)業(yè)已成為廣大信息技術(shù)工作者的所重點(diǎn)關(guān)注的焦點(diǎn)之一。與日趨成熟的 數(shù)據(jù)管理術(shù)與軟件工具相比,人們所依賴的
3、數(shù)據(jù)分析工具功能,卻無(wú)法有效地 為決策者提其決策支持所需要的相關(guān)知識(shí),從而形成了一種獨(dú)特的現(xiàn)象“豐富 的數(shù)據(jù),貧乏知識(shí)” 。為有效解決這一問題,自二十世紀(jì)年代開始,數(shù)據(jù)挖掘技 術(shù)逐步發(fā)展來(lái),數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,得益于目前全世界所擁有的巨大數(shù) 據(jù)資源以及對(duì)這些數(shù)據(jù)資源轉(zhuǎn)換為信息和知識(shí)資源的巨大需求,對(duì)信息和知識(shí) 的需求來(lái)自各行業(yè),從商業(yè)管理、生產(chǎn)控制、市場(chǎng)分析到工程設(shè)計(jì)、科學(xué)探索 等。數(shù)據(jù)挖掘可以為是數(shù)據(jù)管理與分析技術(shù)的自然進(jìn)化產(chǎn)物,如圖 1.1 所示。 自八十年到中期開始,關(guān)系數(shù)據(jù)庫(kù)技術(shù)被普遍采用,新一輪研究與開發(fā)新 型強(qiáng)大的數(shù)據(jù)庫(kù)喜用悄然興起,并提出了許多先進(jìn)的數(shù)據(jù)模型:擴(kuò)展關(guān)系模型、
4、面向?qū)ο竽P汀⒀堇[模型等;以及應(yīng)用數(shù)據(jù)庫(kù)系統(tǒng):空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、 多媒體數(shù)據(jù)庫(kù)等;日前異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)和基于互聯(lián)網(wǎng)的全球信息系統(tǒng)也已開始 出現(xiàn)并在信息工業(yè)中開始扮演重要角色。 數(shù)數(shù)據(jù)據(jù)收收集集與與數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)創(chuàng)創(chuàng)建建 (60年代或更早) 基礎(chǔ)文件處理 新新一一代代信信息息系系統(tǒng)統(tǒng) (2000年之后) 數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)管管理理系系統(tǒng)統(tǒng) (70年代) 網(wǎng)絡(luò)和關(guān)系數(shù)據(jù)庫(kù)系統(tǒng) 數(shù)據(jù)建模工具 索引和數(shù)據(jù)組織技術(shù) 查詢語(yǔ)言和查詢處理 用戶界面和優(yōu)化方法 在線事務(wù)處理 先先進(jìn)進(jìn)數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)系系統(tǒng)統(tǒng) (80年代中期至今) 先進(jìn)數(shù)據(jù)模型 (擴(kuò)展關(guān)系、面向?qū)ο?、?duì)象關(guān)系) 面向應(yīng)用(空間、時(shí)間、多媒 體、知識(shí)庫(kù))
5、 數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)和和數(shù)數(shù)據(jù)據(jù)挖挖掘掘 (80年代后期至今) 先進(jìn)數(shù)據(jù)模型 (擴(kuò)展關(guān)系、面向?qū)ο?、?duì)象關(guān)系) 面向應(yīng)用(空間、時(shí)間、多媒 體、知識(shí)庫(kù)) 圖 1-1 數(shù)據(jù)挖掘進(jìn)化過(guò)程示意描述 1.2 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱 DM) ,簡(jiǎn)單地講就是從大量數(shù)據(jù)中挖掘或抽 取出知識(shí),數(shù)據(jù)挖掘概念的定義描述有若干版本,一下給出一個(gè)被普遍采用的 定義描述: 數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery from Database,簡(jiǎn)稱 KDD) ,它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模 式或規(guī)律等知識(shí)的復(fù)雜過(guò)程。 1.3 數(shù)據(jù)挖掘的步驟
6、 整個(gè)知識(shí)挖掘(KDD)過(guò)程是有若干挖掘步驟組成的,而數(shù)據(jù)挖掘近視其中 的一個(gè)主要步驟。整個(gè)知識(shí)挖掘的主要步驟有: 數(shù)據(jù)清洗(data clearning) ,其作用就是清除數(shù)據(jù)噪聲和與挖掘主題明顯 無(wú)關(guān)的數(shù)據(jù); 數(shù)據(jù)集成(data integration) ,其作用就是將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù) 組合到一起; 數(shù)據(jù)轉(zhuǎn)換(data transformation) ,其作用就是將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù) 據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式; 數(shù)據(jù)挖掘(data mining) ,它是知識(shí)挖掘的一個(gè)基本步驟,其作用就是利 用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識(shí); 模式評(píng)估(pattern evaluation) ,其作用
7、就是根據(jù)一定評(píng)估標(biāo)準(zhǔn) (interesting measures)從挖掘結(jié)果篩選出有意義的模式知識(shí); 知識(shí)表示(knowledge presentation) ,其作用就是利用可視化和知識(shí)表達(dá) 技術(shù),向用戶展示所挖掘出的相關(guān)知識(shí)。 盡管數(shù)據(jù)挖掘僅僅是整個(gè)知識(shí)挖掘過(guò)程中的一個(gè)重要步驟,但由于目前工 業(yè) 界、媒體、數(shù)據(jù)庫(kù)研究領(lǐng)域中, “數(shù)據(jù)挖掘”一詞已被廣泛使用并被普遍接受, 因此本書也廣義地使用“數(shù)據(jù)挖掘”一詞來(lái)表示整個(gè)知識(shí)挖掘過(guò)程,即數(shù)據(jù)挖 掘就是一個(gè)從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息資源庫(kù)的大量數(shù)據(jù)中發(fā)掘出有趣的 知識(shí)。 第 2 章 系統(tǒng)分析 2.1 系統(tǒng)用戶分析 利用數(shù)據(jù)挖掘技術(shù)可以幫助獲得決策
8、所需的多種知識(shí)。在許多情況下,用 戶并不知道數(shù)據(jù)存在哪些有價(jià)值的信息知識(shí),因此對(duì)于一個(gè)數(shù)據(jù)挖掘系統(tǒng)而言, 它應(yīng)該能夠同時(shí)搜索發(fā)現(xiàn)多種模式的知識(shí),以滿足用戶的期望和實(shí)際需要。此 外數(shù)據(jù)挖掘系統(tǒng)還應(yīng)能夠挖掘出多種層次(抽象水平)的模式知識(shí)。數(shù)據(jù)挖掘 系統(tǒng)還應(yīng)容許用戶指導(dǎo)挖掘搜索有價(jià)值的模式知識(shí)。比如:作為一個(gè)商場(chǎng)主管, 肯定想要知道商場(chǎng)顧客的購(gòu)物習(xí)慣;尤其是希望了解在(一次)購(gòu)物過(guò)程中, 那些商品會(huì)在一起被(顧客所)購(gòu)買。為幫助回答這一問題,就需要進(jìn)行市場(chǎng) 購(gòu)物分析,即對(duì)顧客在商場(chǎng)購(gòu)物交易記錄數(shù)據(jù)進(jìn)行分析。所分析的結(jié)果將幫助 商場(chǎng)主管制定有針對(duì)性的市場(chǎng)營(yíng)銷和廣告宣傳計(jì)劃,以及編撰合適的商品目錄。
9、比如:市場(chǎng)購(gòu)物分析結(jié)果將幫助商家對(duì)商場(chǎng)內(nèi)商品應(yīng)如何合理擺放進(jìn)行規(guī)劃設(shè) 計(jì)。其中一種策略就是將常常一起購(gòu)買的商品擺放在相鄰近的位置,以方便顧 客同時(shí)購(gòu)買這兩件商品;如:如果顧客購(gòu)買電腦的同時(shí)常也會(huì)購(gòu)買一些金融管 理類軟件,那么將電腦軟件擺放在電腦硬件附近顯然將有助于促進(jìn)這兩種商品 的銷售;而另一種策略則是將電腦軟件與電腦硬件分別擺放在商場(chǎng)的兩端,這 就會(huì)促使顧客在購(gòu)買兩種商品時(shí),走更多的路從而達(dá)到誘導(dǎo)他們購(gòu)買更多商品 的目的。比如:顧客在決定購(gòu)買一臺(tái)昂貴電腦之后,在去購(gòu)買相應(yīng)金融管理軟 件的路上可能會(huì)看到安全系統(tǒng)軟件,這時(shí)他就有可能購(gòu)買這一類軟件。市場(chǎng)購(gòu) 物分析可以幫助商場(chǎng)主管確定那些物品可以進(jìn)
10、行捆綁減價(jià)銷售,如一個(gè)購(gòu)買電 腦的顧客很有可能購(gòu)買一個(gè)捆綁減價(jià)銷售的打印機(jī)。 2.2 系統(tǒng)功能分析 我們組所開發(fā)的超市銷售記錄數(shù)據(jù)挖掘系統(tǒng)是采用關(guān)聯(lián)規(guī)則挖掘的方法來(lái) 挖掘出商家希望得到的銷售信息。關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有 價(jià)值描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識(shí)。我們開發(fā)的超市銷售記錄數(shù)據(jù)挖掘 系統(tǒng)主要應(yīng)用就是市場(chǎng)購(gòu)物分析。根據(jù)被放到一個(gè)購(gòu)物袋的(購(gòu)物)內(nèi)容記錄 數(shù)據(jù)而發(fā)現(xiàn)的不同(被購(gòu)買)商品之間所存在的關(guān)聯(lián)知識(shí)無(wú)疑將會(huì)幫助商家分 析顧客的購(gòu)買習(xí)慣。如圖- 所示。發(fā)現(xiàn)常在一起被購(gòu)買的商品(關(guān)聯(lián)知識(shí))將 幫助商家制定有針對(duì)性的市場(chǎng)營(yíng)銷策略。比如:顧客在購(gòu)買牛奶時(shí),是否也可 能同時(shí)購(gòu)買面
11、包或會(huì)購(gòu)買哪個(gè)牌子的面包,顯然能夠回答這些問題的有關(guān)信息 肯定會(huì)有效地幫助商家進(jìn)行有針對(duì)性的促銷,以及進(jìn)行合適的貨架商品擺放。 如可以將牛奶和面包放在相近的地方或許會(huì)促進(jìn)這兩個(gè)商品的銷售。 將商場(chǎng)所有銷售商品設(shè)為一個(gè)集合,每個(gè)商品(item)均為一個(gè)取布爾值 (真/假)的變量以描述相應(yīng)商品是否被(一個(gè))顧客購(gòu)買。因此每個(gè)顧客購(gòu)物 (袋)就可以用一個(gè)布爾向量來(lái)表示。分析相應(yīng)布爾向量就可獲得那些商品是 在一起被購(gòu)買(關(guān)聯(lián))的購(gòu)物模式。如顧客購(gòu)買電腦的同時(shí)也會(huì)購(gòu)買金融管理 軟件的購(gòu)物模式就可以用以下的關(guān)聯(lián)規(guī)則來(lái)描述: computer=financial_management_softwaresup
12、port=2%,confidence=60% 關(guān)聯(lián)規(guī)則的支持度(support)和信任度(confidence)是兩個(gè)度量有關(guān)規(guī) 則趣味性的方法。它們分別描述了一個(gè)被挖掘出的關(guān)聯(lián)規(guī)則的有用性和確定性。 規(guī)則的支持度為 2%,就表示所分析的交易記錄數(shù)據(jù)中有交易記錄同時(shí)包含電腦 和金融管理軟件(即在一起被購(gòu)買) 。規(guī)則的 60%信任度則表示有 60%的顧客在 購(gòu)買電腦的同時(shí)還會(huì)購(gòu)買金融管理軟件。通常如果一個(gè)關(guān)聯(lián)規(guī)則滿足最小支持 度閾值(minimum support threshold)和最小信任度閾值(minimum confidence threshole) ,那么就認(rèn)為該關(guān)聯(lián)規(guī)則是有意義的;
13、而用戶或?qū)<铱?以設(shè)置最小支持度閾值和最小信任度閾值。 2.3 系統(tǒng)算法分析 設(shè) I=i1,i2,im為數(shù)據(jù)項(xiàng)集合;設(shè)為與任務(wù)相關(guān)的數(shù)據(jù)集合,也就是 一個(gè)交易數(shù)據(jù)庫(kù);其中的每個(gè)交易 T 是一個(gè)數(shù)據(jù)項(xiàng)子集,即 T 包含于 I;每個(gè) 交易均包含一個(gè)識(shí)別編號(hào) TID。設(shè) A 為一個(gè)數(shù)據(jù)項(xiàng)集合,當(dāng)且僅當(dāng) A 包含于 T 時(shí)就稱交易 T 包含 A。一個(gè)關(guān)聯(lián)規(guī)則就是具有“A=B”形式的蘊(yùn)含式;其中有 A 包含于 I,B 包含于 I 且 AB =UNLL。規(guī)則 A=B 在交易數(shù)據(jù)集 D 中成立,且 具有 s 支持度和 c 信任度。這也就意味著交易數(shù)據(jù)集 D 中有 s 比例的交易 T 包 含 AB 數(shù)據(jù)項(xiàng);且
14、交易數(shù)據(jù)集 D 中有 c 比例的交易 T 滿足“若包含 A 就包含 B 條件” 。具體描述就是: support(A=B)=P(AB) confidence(A=B)=P(B|A) 滿足最小支持度閾值和最小信任度閾值的關(guān)聯(lián)規(guī)則就稱為強(qiáng)規(guī)則(strong) 。 通常為方便起見,都將最小支持度閾值簡(jiǎn)寫為 min_sup;最小信任度閾值簡(jiǎn)寫 為 min_conf。這兩個(gè)閾值均在 0%到 100%之間,而不是 0 到 1 之間。 一個(gè)數(shù)據(jù)項(xiàng)的集合就稱為項(xiàng)集(itemset) ;一個(gè)包含 k 個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集就 稱為 k-項(xiàng)集。因此集合computer,financial_management_softw
15、are,就是一 個(gè) 2-項(xiàng)集。一個(gè)項(xiàng)集的出現(xiàn)頻度就是整個(gè)交易數(shù)據(jù)集 D 中包含該項(xiàng)集的交易記 錄數(shù);這也稱為是該項(xiàng)集的支持度(support count) 。而若一個(gè)項(xiàng)集的出現(xiàn)頻 度大于最小支持度閾值乘以交易記錄集 D 中記錄數(shù),那么就稱該項(xiàng)集滿足最小 支持度閾值;而滿足最小支持度閾值所對(duì)應(yīng)的交易記錄數(shù)就稱為最小支持頻度 (minmum support count) 。滿足最小支持閾值的項(xiàng)集就稱為頻繁項(xiàng)集 (frequent itemset) 。所有頻繁 k-項(xiàng)集的集合就記為 Lk 挖掘關(guān)聯(lián)規(guī)則主要包含以下二個(gè)步驟: 步驟一:發(fā)現(xiàn)所有的頻繁項(xiàng)集,根據(jù)定義,這些項(xiàng)集的頻度至少應(yīng)等于 (預(yù)先設(shè)置的
16、)最小支持頻度; 步驟二:根據(jù)所獲得的頻繁項(xiàng)集,產(chǎn)生相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義這些 規(guī)則必須滿足最小信任度閾值。 此外還可利用有趣性度量標(biāo)準(zhǔn)來(lái)幫助挖掘有價(jià)值的關(guān)聯(lián)規(guī)則知識(shí)。由于步 驟二中的相應(yīng)操作極為簡(jiǎn)單,因此挖掘關(guān)聯(lián)規(guī)則的整個(gè)性能就是由步驟一中的 操作處理所決定。 第 3 章 數(shù)據(jù)管理 3.1 數(shù)據(jù)管理的方法 軟件的開發(fā)是離不開數(shù)據(jù)庫(kù)的,本次超市銷售記錄數(shù)據(jù)挖掘系統(tǒng)共使用到 了 14 張數(shù)據(jù)表來(lái)存儲(chǔ)數(shù)據(jù)幫助軟件完成相關(guān)的功能。如:銷售記錄,數(shù)據(jù)采集, 數(shù)據(jù)預(yù)處理,挖掘條件,一元頻繁項(xiàng)集,二元頻繁項(xiàng)集等等。對(duì)數(shù)據(jù)的管理主 要有對(duì)數(shù)據(jù)表的增、刪、改和對(duì)各個(gè)數(shù)據(jù)表數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)以及對(duì)內(nèi)容的增、 刪
17、、改操作,當(dāng)然具體到每一個(gè)數(shù)據(jù)表時(shí)管理辦法略有區(qū)別。 第 4 章 數(shù)據(jù)采集 4.1 數(shù)據(jù)采集的方法 本軟件在開發(fā)中,數(shù)據(jù)采集主要是借用程序和人工來(lái)實(shí)現(xiàn)的。通過(guò)人工的 錄入來(lái)輸入超市的銷售記錄數(shù)據(jù),然后再借用所編寫的程序來(lái)篩選出所要挖掘 的銷售物品的信息,以備后期數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘所使用。 第 5 章 數(shù)據(jù)預(yù)處理 5.1 數(shù)據(jù)預(yù)處理的方法 本軟件在開發(fā)中,數(shù)據(jù)預(yù)處理主要是借用程序和人工來(lái)實(shí)現(xiàn)的。通過(guò)人工 的錄入來(lái)檢查超市的銷售記錄數(shù)據(jù),去除或者修改錯(cuò)誤數(shù)據(jù)(物品名) ,實(shí)現(xiàn)數(shù) 據(jù)的完整性、一致性、正確性。然后再借用所編寫的程序來(lái)轉(zhuǎn)換成滿足軟件挖 掘的數(shù)據(jù)形式或類型,以備后期數(shù)據(jù)挖掘所使用。 第
18、 6 章 數(shù)據(jù)挖掘 6.1 算法描述與流程圖 6.1.1 算法描述 Apriori 算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法;它也是 一個(gè)很有影響的關(guān)聯(lián)規(guī)則挖掘算法。Apriori 算法就是根據(jù)有關(guān)頻繁項(xiàng)集特性 的先驗(yàn)知識(shí)(prior knowledge)而命名的。該算法利用了一個(gè)層次順序搜索的 循環(huán)方法來(lái)完成頻繁項(xiàng)集的挖掘工作。這一循環(huán)方法就是利用 k-項(xiàng)集來(lái)產(chǎn)生 (k+1)-項(xiàng)集。具體做法就是:首先找出頻繁 1-項(xiàng)集,記為 L1;然后利用 L1 來(lái) 挖掘 L2,即頻繁 2-項(xiàng)集;不斷如此循環(huán)下去直到無(wú)法發(fā)現(xiàn)更多的頻繁 k-項(xiàng)集 為止。每挖掘一層 Lk 就需要掃描整個(gè)數(shù)據(jù)庫(kù)一遍。為提
19、高按層次搜索并產(chǎn)生相 應(yīng)頻繁項(xiàng)集的處理效率。Apriori 算法利用了一個(gè)重要性質(zhì),又稱為 Apriori 性質(zhì)來(lái)幫助有效縮小頻繁項(xiàng)集的搜索空間。 Apriori 性質(zhì):一個(gè)頻繁項(xiàng)集中任一子集也應(yīng)是頻繁項(xiàng)集。 Apriori 性質(zhì)是根據(jù)以下觀察而得出結(jié)論。根據(jù)定義:若一個(gè)項(xiàng)集 I 不滿 足最小支持度閾值 s,那么該項(xiàng)集 I 就不是頻繁項(xiàng)集,即 P(I)s;若增加一個(gè) 項(xiàng) A 到項(xiàng)集 I 中,那么所獲得的新項(xiàng)集 IA 在整個(gè)交易數(shù)據(jù)庫(kù)所出現(xiàn)的次數(shù)也 不可能多原項(xiàng)集 I 出現(xiàn)的次數(shù),因此 IA 也不可能是頻繁的,即 P(IA)s。 這樣就可以根據(jù)逆反公理:即若一個(gè)集合不能通過(guò)測(cè)試,該集合所有超集也
20、不 能通過(guò)同樣的測(cè)試。因此很容易確定 Apriori 性質(zhì)成立。 為了解釋清楚 Apriori 性質(zhì)是如何應(yīng)用到頻繁項(xiàng)集的挖掘中的,這里就以 用 Lk-1 來(lái)產(chǎn)生 Lk 為例來(lái)說(shuō)明具體應(yīng)用方法。利用 Lk-1 來(lái)獲得 Lk 主要包含兩 個(gè)處理步驟,即連接和刪除操作步驟。 (1) 連接步驟。為發(fā)現(xiàn) Lk,可以將 Lk-1 中兩個(gè)項(xiàng)集相連接以獲得一個(gè) Lk 的候選集合 Ck。設(shè) l1 和 l2 為 Lk-1 中的兩個(gè)項(xiàng)集(元素) ,記號(hào)表示 lij 中的第 j 個(gè)項(xiàng);如 lik-2就表示 li 中的倒數(shù)第二項(xiàng)。為方便起見,假設(shè)交易 數(shù)據(jù)庫(kù)中各交易記錄中各項(xiàng)均已按字典排序。若 Lk-1 的連接操作記
21、為 Lk- 1Lk-1 ,它表示若 l1 和 l2 中的前(k-2)項(xiàng)是相同的,也就是說(shuō)若有(l11 =l21)(l1k-2=l2k-2) (l1k-1l2k-1),則 Lk-1 中 l1 和 l2 的內(nèi)容就可以連接到一起。而條件(l1k-1B)=P(B|A)=support_count(AB)/support_count(A)來(lái)計(jì) 算所獲關(guān)聯(lián)規(guī)則的信任度。其中 support_count(AB)為包含項(xiàng)集 AB 的交易 記錄數(shù)目;support_count(A)為包含項(xiàng)集 A 的交易記錄數(shù)目;基于上述公式, 具體產(chǎn)生關(guān)聯(lián)規(guī)則的操作說(shuō)明如下: (1) 對(duì)于每個(gè)頻繁項(xiàng)集 l,產(chǎn)生 l 的所有非空
22、子集; (2) 對(duì)于每個(gè) l 的非空子集 s,若 support_count(l)/ support_count(s) =min_conf; 則產(chǎn)生一個(gè)關(guān)聯(lián)規(guī)則 s=(l-s);其中 min_conf 為最 小信任度閾值。 由于規(guī)則是通過(guò)頻繁項(xiàng)集直接產(chǎn)生的,因此關(guān)聯(lián)規(guī)則所涉及的所有項(xiàng)集均 滿足最小支持度閾值。 6.1.2 算法流程圖 數(shù)據(jù)采集 開始 count值? 數(shù)據(jù)預(yù)處理 讀取挖掘條件 count:=1; 1 統(tǒng)計(jì)數(shù)據(jù) 預(yù)處理中 各個(gè)一元 項(xiàng)的支持 度 取一元頻 繁項(xiàng)集 存儲(chǔ)一元 頻繁項(xiàng)集 顯示一元 頻繁項(xiàng)集 信息 一元頻繁 項(xiàng)連接生 成二元項(xiàng) 集 統(tǒng)計(jì)所有 二元項(xiàng)的 支持度、 置信度 滿
23、足挖 掘條件 存儲(chǔ)二元 頻繁項(xiàng)集 顯示二元 頻繁項(xiàng)集 信息 取二元頻 繁項(xiàng)集 二元頻繁 項(xiàng)連接生 成三元項(xiàng) 集 統(tǒng)計(jì)所有 三元項(xiàng)的 支持度、 置信度 存儲(chǔ)三元 頻繁項(xiàng)集 顯示三元 頻繁項(xiàng)集 信息 取三元頻 繁項(xiàng)集 三元頻繁 項(xiàng)連接生 成四元項(xiàng) 集 統(tǒng)計(jì)所有 四元項(xiàng)的 支持度、 置信度 存儲(chǔ)四元 頻繁項(xiàng)集 顯示四元 頻繁項(xiàng)集 信息 取四元頻 繁項(xiàng)集 四元頻繁 項(xiàng)連接生 成五元項(xiàng) 集 統(tǒng)計(jì)所有 五元項(xiàng)的 支持度、 置信度 存儲(chǔ)五元 頻繁項(xiàng)集 顯示五元 頻繁項(xiàng)集 信息 取五元頻 繁項(xiàng)集 五元頻繁 項(xiàng)連接生 成六元項(xiàng) 集 統(tǒng)計(jì)所有 六元項(xiàng)的 支持度、 置信度 存儲(chǔ)六元 頻繁項(xiàng)集 顯示六元 頻繁項(xiàng)集 信
24、息 取元 頻繁項(xiàng)集 六元頻繁 項(xiàng)連接生 成元 項(xiàng)集 統(tǒng)計(jì)所 有元項(xiàng) 支持度、 置信度 存儲(chǔ) 元頻繁項(xiàng) 顯示 元頻繁項(xiàng) 集信息 取k-3元頻 繁項(xiàng)集 k-3元頻繁 項(xiàng)連接生 成k-2元項(xiàng) 集 統(tǒng)計(jì)所有 k-2元項(xiàng)的 支持度、 置信度 存儲(chǔ)k-2元 頻繁項(xiàng)集 顯示k-2元 頻繁項(xiàng)集 信息 取k-2元頻 繁項(xiàng)集 k-2元頻繁 項(xiàng)連接生 成k-1元項(xiàng) 集 統(tǒng)計(jì)所有 k-1元項(xiàng)的 支持度、 置信度 存儲(chǔ)k-1元 頻繁項(xiàng)集 顯示k-1元 頻繁項(xiàng)集 信息 取k-1元頻 繁項(xiàng)集 k-1元頻繁 項(xiàng)連接生 成k元項(xiàng)集 統(tǒng)計(jì)所有k 元項(xiàng)的支 持度、置 信度 存儲(chǔ)k元頻 繁項(xiàng)集 顯示k元頻 繁項(xiàng)集信 息 結(jié)束 234
25、56k-2k-1k N YYYYY Y YYYY 滿足挖 掘條件 滿足挖 掘條件 滿足挖 掘條件 滿足挖 掘條件 滿足挖 掘條件 滿足挖 掘條件 滿足挖 掘條件 滿足挖 掘條件 滿足挖 掘條件 Y count:=count+1; 繼續(xù)? 圖 6-1 算法流程 第 7 章 結(jié)果顯示與解釋評(píng)估 7.1 結(jié)果顯示界面的具體實(shí)現(xiàn) 7.1.1 系統(tǒng)主界面的具體實(shí)現(xiàn) 圖 7-1 系統(tǒng)主界面具體實(shí)現(xiàn)圖 系統(tǒng)主界面主要使用的組件有:Mainmenu,XPManifest,Button. 各個(gè)組件的功能: Mainmenu 的功能是創(chuàng)建超市商品銷售數(shù)據(jù)挖掘系統(tǒng)的各個(gè)菜單; XPManifest 的功能是在軟件運(yùn)
26、行后美化界面; Button(退出)的功能是執(zhí)行退出挖掘系統(tǒng)的命令。 7.1.2 超市銷售記錄界面的具體實(shí)現(xiàn) 圖 7-2 超市銷售記錄界面具體實(shí)現(xiàn)圖 超市銷售記錄界面主要使用的組件有:ADOConnection, ADOQuery, DataSource, DBGrid, Button. 各個(gè)組件的功能: ADOConnection 的功能是建立與數(shù)據(jù)庫(kù)的連接; ADOQuery 的功能是用于檢索和操作由合法的 SQL 語(yǔ)句產(chǎn)生的數(shù)據(jù)集,也可 以執(zhí)行一條 SQL 命令; DataSource 的功能是作為數(shù)據(jù)控制組件 DBGrid,DBEdit 的數(shù)據(jù)傳送通道; DBGrid 的功能是為前端應(yīng)
27、用程序提供瀏覽數(shù)據(jù)庫(kù)數(shù)據(jù)的表格,這些表格操 作者編輯數(shù)據(jù); Button(顯示銷售記錄)的功能是執(zhí)行輸出銷售記錄表 XSJL 中數(shù)據(jù)的命令; Button(關(guān)閉)的功能是執(zhí)行關(guān)閉當(dāng)前窗口的命令。 7.1.3 數(shù)據(jù)采集界面的具體實(shí)現(xiàn) 圖 7-3 數(shù)據(jù)采集界面具體實(shí)現(xiàn)圖 數(shù)據(jù)采集界面主要使用的組件有:ADOConnection, ADOQuery, DataSource, DBGrid, Button. 各個(gè)組件的功能: ADOConnection 的功能是建立與數(shù)據(jù)庫(kù)的連接; ADOQuery 的功能是用于檢索和操作由合法的 SQL 語(yǔ)句產(chǎn)生的數(shù)據(jù)集,也可 以執(zhí)行一條 SQL 命令; DataS
28、ource 的功能是作為數(shù)據(jù)控制組件 DBGrid,DBEdit 的數(shù)據(jù)傳送通道; DBGrid 的功能是為前端應(yīng)用程序提供瀏覽數(shù)據(jù)庫(kù)數(shù)據(jù)的表格,這些表格操 作者編輯數(shù)據(jù); Button(數(shù)據(jù)采集)的功能是執(zhí)行輸出銷售記錄表 SJCJ 中的數(shù)據(jù)的命令; Button(關(guān)閉)的功能是執(zhí)行關(guān)閉當(dāng)前窗口的命令。 7.1.4 挖掘條件界面的具體實(shí)現(xiàn) 圖 7-4 挖掘條件界面具體實(shí)現(xiàn)圖 挖掘條件界面主要使用的組件有:ADOConnection, ADOQuery, DataSource, Label,edit,GroupBox,ListBox,Button。 各個(gè)組件的功能: ADOConnection
29、 的功能是建立與數(shù)據(jù)庫(kù)的連接; ADOQuery 的功能是用于檢索和操作由合法的 SQL 語(yǔ)句產(chǎn)生的數(shù)據(jù)集,也可 以執(zhí)行一條 SQL 命令; DataSource 的功能是作為數(shù)據(jù)控制組件 DBGrid,DBEdit 的數(shù)據(jù)傳送通道; Label(支持度閾值,置信度閾值,%)的功能是顯示文字符號(hào)作為標(biāo)簽使 用; Edit 的功能是顯示、修改數(shù)據(jù)庫(kù)表中當(dāng)前記錄的字段數(shù)據(jù); GroupBox 的功能是組合框,把一些相關(guān)組件組合一起; ListBox 顯示數(shù)據(jù)庫(kù)表中一個(gè)指定字段的數(shù)據(jù); Button(確定)的功能是執(zhí)行輸入數(shù)據(jù)支持度閾值和置信度閾值到 WJTJ 表 中; Button(關(guān)閉)的功能是執(zhí)行關(guān)閉當(dāng)前界面命令。 7.1.5 數(shù)據(jù)挖掘界面的具體實(shí)現(xiàn) 圖 7-5 數(shù)據(jù)挖掘界面具體實(shí)現(xiàn)圖 數(shù)據(jù)挖掘界面主要使用的組件有:ADOConnection, ADOQuery, DataSource, Label,GroupBox,Button. 各個(gè)組件的功能: ADOConnection 的功能是建立與數(shù)據(jù)庫(kù)的連接; ADOQuery 的功能是用于檢索和操作由合法的 SQL 語(yǔ)句產(chǎn)生的數(shù)據(jù)集,也可 以執(zhí)行一條 SQL 命令; DataSour
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中國(guó)鋁業(yè)股份有限公司貴州分公司招聘?jìng)淇碱}庫(kù)及完整答案詳解一套
- 2025年鎮(zhèn)坪縣公開招聘城鎮(zhèn)社區(qū)專職工作人員備考題庫(kù)及答案詳解1套
- 2025年“才聚齊魯成就未來(lái)”山東黃河生態(tài)發(fā)展集團(tuán)有限公司招聘?jìng)淇碱}庫(kù)及答案詳解參考
- 2025年濰坊市濰城區(qū)人民醫(yī)院公開招聘專業(yè)技術(shù)人員(第二批次)備考題庫(kù)及一套答案詳解
- 2026年云南盈江縣中醫(yī)醫(yī)院公開招聘編外聘用人員5人備考題庫(kù)及1套完整答案詳解
- 2025年度弋陽(yáng)縣專業(yè)森林消防大隊(duì)公開招聘消防隊(duì)員備考題庫(kù)附答案詳解
- 2026年中國(guó)安能集團(tuán)第一工程局有限公司南寧分公司招聘?jìng)淇碱}庫(kù)及答案詳解1套
- 2026年富源縣第七中學(xué)招聘臨聘教師備考題庫(kù)附答案詳解
- 2026年廊坊文安縣中醫(yī)院面向社會(huì)招聘臨時(shí)工作人員備考題庫(kù)完整答案詳解
- 2026年中山市教體系統(tǒng)第一期公開招聘事業(yè)單位人員備考題庫(kù)(中山市濠頭中學(xué))及參考答案詳解1套
- 啟動(dòng)子在農(nóng)業(yè)生產(chǎn)中的應(yīng)用
- 五年級(jí)上冊(cè)小數(shù)除法豎式計(jì)算練習(xí)練習(xí)300題及答案
- 礦山項(xiàng)目的投資與融資策略
- 2024年內(nèi)蒙古能源集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 《半導(dǎo)體器件物理》復(fù)習(xí)題2012
- 眾辰變頻器z2400t-15gy-1說(shuō)明書
- 非電量保護(hù)裝置技術(shù)說(shuō)明書
- 全國(guó)行政區(qū)劃代碼
- 新華書店先進(jìn)事跡匯報(bào)
- 船體振動(dòng)的衡準(zhǔn)及減振方法
- 刑事偵查卷宗
評(píng)論
0/150
提交評(píng)論