下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1數據挖掘的基本概念隨著數據庫技術的不斷發(fā)展及數據庫管理系統的廣泛應用,數據庫中存儲的數據量急劇增 大,在大量數據背后隱藏著許多重要的信息,如 果能把這些信息從數據庫中抽取出來,將為公司 創(chuàng)造很多潛在的利潤。這種從海量數據庫中挖掘 信息的技術,就稱之為數據挖掘技術。美國SA S 軟件研究所將數據挖掘定義為:“按照既定的業(yè) 務目標,對大量的企業(yè)數據進行探索、揭示隱藏 其中的規(guī)律性并進一步模型化的先進、有效的方 法口 ”數據挖掘能夠對將來的趨勢和行為進行預 測,從而很好地支持人們的決策。比如,通過對 公司整個數據庫系統的分析,數據挖掘可以回答 諸如“哪些客戶最有可能購買我們公司的什么產 品,為什么
2、? ”等類似問題。數據挖掘還能夠解 決一些很消耗人工時間的傳統問題,因為它們能 夠快速地瀏覽整個數據庫,找出一些專家們不易 察覺的極有用的信息。數據挖掘的一般步驟如 下:問題理解和提出T數據準備T數據整理T建 立模型T評價和解釋。(1)問題理解和提出:在開始數據挖掘之前 最基礎的就是理解數據和實際的業(yè)務問題,在這 個基礎之上提出問題,對目標有明確的定義。(2)數據準備:獲取原始的數據,并從中抽取一 定數量的子集,建立數據挖掘庫,其中一個問題 是,如果企業(yè)原來的數據倉庫滿足數據挖掘的要 求,就可以將數據倉庫作為數據挖掘庫。(3) 數據整理:由于數據可能是不完全的、有噪聲的、隨機的,有復雜的數據結
3、構,就要對數據進 行初步的整理,清洗不完全的數據,做初步的描 述分析,選擇與數據挖掘有關的變量,或者轉變 變量。(4)建立模型:根據數據挖掘的目標和 數據的特征,選擇合適的模型。(5)評價和解 釋:對數據挖掘的結果進行評價,選擇最優(yōu)的模 型,作出評價,運用于實際問題,并且要和專業(yè) 知識結合對結果進行解釋。以上的步驟不是一次完成的,可能其中某些 或者全部要反復進行。2粗糙集的基本概念1982年,波蘭學者Z.Pawlak提出了粗糙集理論,它是一種刻劃不完整性和不確定性的數學工具,能有效地分析不精確、不一致(inconsistent)、不完整(incom plete)等各種不完備 的信息,還可以對數
4、據進行分析和推理,從中發(fā)現隱含的知識,揭示潛在的規(guī)律2。粗糙集 理論是建立在分類機制基礎上的,它將分類理解為在特定空間 上的等價關系,而等價關系構成了對該空間的劃 分。粗糙集理論將知識理解為對數據的劃分,每 一被劃分的集合稱為概念。粗糙集理論的主要思 想是利用已知的知識庫,將不精確或不確定的知 識用已知知識庫中的知識來(近似)刻畫。該理 論與其他處理不確定和不精確問題理論的最顯著 的區(qū)別是它無需提供問題所需處理的數據集合之 外的任何先驗信息,所以對問題的不確定性的描 述或處理可以說是比較客觀的。定義1信息系統S可表示為S = (U ,A ,V ,f), 其中U是對象的非空有限集合,稱為論域;A
5、 是屬性的非空有限集合;V =UaeA V a,V a是屬 性A的值域,f:UxA tV是一個信息函數,它 為每個對象的每個屬性賦予一個信息值。如果屬 性集A可以分為條件屬性集C和決策屬性集D, 即CUD = A,CCD=,則該信息系統稱為決 策系統或決策表,其中D 一般只含有一個屬性。定義2在知識表達系統S中,對于一屬性集PeA,對象x,yeU,二元等價關系IN D (P)= (x,y) e U xU | 所有的ae P,f(x,a)= f(y,a)稱 為S的不可分辨關系。不可分辨關系是一個等價 關系,通過一個不可分辨關系,可以得到一個決 策系統的劃分。定義3給定信息系統S = (U ,A
6、),B eA,對B中的屬性a,如果IN D (B )尹IN D (B - a) ,則稱屬性a是必要的(Indispensable),否則稱a 是不必要的(D ispensable)。3粗糙集在數據挖掘中的應用近年來,粗糙集理論在數據挖掘中的應用取得了較大的進展,基于粗糙集理論的方法逐漸成 為數據挖掘主流方法之一。基于粗糙集理論的數 據挖掘系統一般都由數據預處理、基于粗糙集理 論或其擴展理論的數據約簡、決策算法等組成。其大概思想是:首先通過粗糙集對信息表中的數 據缺損進行處理;然后根據已定義的可辯識距 陣,通過屬性簡約算法對信息表中的數據進行屬 性簡約和知識發(fā)現;最后根據值約簡等減少屬性 和個體
7、數目,最終提取規(guī)則并將之應用于新對象 的分類。(1)數據預處理在現實世界的很多情況下,我們拿到的第一手數據都會存在噪音數據、 空缺數據和不一致性數據等我們不希望出現的數 據,甚至因為數據庫過于強大,這樣的數據多達 數千兆字節(jié)。因此,不得不去想一個問題:“怎 樣處理數據才能提高數據的質量,從而提高數據 挖掘結果的質量呢? ”現今已經存在的數據預處 理技術有很多,常用的有數據清理、數據集成、 數據歸約等。其中數據清理可以去掉數據中的噪 音,糾正不一致。數據集成可以將數據由多個源 合并成一致的數據存儲。數據歸約可以通過聚 集、刪除冗余特性或者聚類等方法來壓縮數據3。 這些數據處理技術在數據挖掘之前使
8、用,可以大 大提高數據挖掘的模型,降低實際挖掘所需要的 時間。(2)屬性約簡和屬性值約簡在一個決策系 統中,各個條件屬性之間往往存在著某些程度上 的依賴或關聯,約簡可以理解為在不丟失信息的 前提下,最簡單地表示決策系統的結論屬性對條 件屬性集合的依賴和關聯。屬性簡約算法如下: 步驟1:計算屬性表的可辯識矩陣。步驟2:對可辨識矩陣中的所有取值為非空 集合的元素Cij建立相應的析取邏輯表達式。 步驟3:將所有析取邏輯表達式進行合取運 算,得到一個合取范式。步驟4:將合取范式轉換為析取范式形式。步驟5:輸出屬性約簡結果,其中析取范式中 的每個合取項對應一個屬性約簡的結果,每個合取 項中所包含的屬性組
9、成約簡后的條件屬性集合。 值約簡的目的是為了提取決策規(guī)則,將缺失 的屬性值約簡掉。和屬性約簡不同,值約簡是針 對每一個對象而言的。雖然對整個決策表來說沒 有冗余的屬性,但對于每一個對象來說,仍然存 在著屬性冗余,去掉這些屬性對決策規(guī)則的提 取、規(guī)則的簡化有重要的作用。根據定義一般值 約簡算法基本描述如下:對于規(guī)則集合中的每條 規(guī)則,對于該規(guī)則中的任意條件屬性,如果去掉 該屬性,該規(guī)則不和集合中的其他規(guī)則沖突,則 可以從該規(guī)則中去掉該條件屬性。(3)決策規(guī)則提取對進行屬性約簡和值約 簡后的信息表,就可以進行規(guī)則的獲取,使用一 個約簡集R ED從決策系統S=(U ,A )中產生規(guī)則的 過程相當直接
10、。直觀地,將每個約簡用在決策表 的每個對象上,只要簡單地從表中讀出適當的屬 性值來形成決策規(guī)則。用類似邏輯語言中a-B的形式表示決策規(guī)則,a和B分別稱為決策 規(guī)則的前件和后件,a代表條件屬性值的組合。4數據挖掘應用實例現在商場對銷售數據和客戶信息的處理一般還停留在簡單的數據備份和查詢階段,而把基于 粗糙集的數據挖掘方法引入到對銷售數據的分析 中,可以找到影響銷售額的真實原因,有利于有 針對性地提高商場的銷售業(yè)績。經過數據收集和 結語粗糙集理論是一種處理不確定和不精確問題的新型數學工具,為數據挖掘提供了一條嶄新的 途徑。粗糙集理論在數據挖掘中的應用研究目前 正成為信息科學中的一個研究熱點2.在數據挖掘中,直接在海量高維數據集上進行挖掘得到的規(guī)則往往數目眾多、規(guī)則長度長, 用于決策分析的有效性低?;谶@一發(fā)現,本文利用粗糙集理論,提出了一種粗糙集屬性選 擇量度,該量度從提高分類正確性和子數據庫純度的角度著手選擇屬性用于分類,進而利用 該量度提出了一種數據表分解方法。本文詳細分析了數據庫分解方法的信息論性質,證明利 用粗糙集信息量度選擇出的屬性集是原始決策系統的一個約簡,且該分解方法的計算時間復 雜度遠小于經典粗糙集約簡算法的計算時間復雜度,在提高計算速度的同時不會損失信息 量。3.針對海量高維數掘庫建立分類模型是很困難的,計算時間復雜度高,得到的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年民生銀行蘭州分行社會招聘備考題庫含答案詳解
- 2025年防城港市生態(tài)環(huán)境局招聘備考題庫及參考答案詳解
- 2025年能源產業(yè)十年分析:風能利用與能源存儲報告
- 2025年陶瓷釉料五年藝術裝飾專利分析報告
- 成都農商銀行關于2025年產業(yè)金融崗社會招聘的備考題庫及答案詳解參考
- 2026四川廣元市昭化區(qū)元壩鎮(zhèn)人民政府招聘城鎮(zhèn)公益性崗位人員23人模擬筆試試題及答案解析
- 2025年北京協和醫(yī)院心內科合同制科研助理招聘備考題庫及一套答案詳解
- 2025鞍山臺安縣教育系統面向師范類院校應屆畢業(yè)生校園招聘13人筆試重點題庫及答案解析
- 2025山東勞動職業(yè)技術學院招聘8人筆試重點試題及答案解析
- 2025年光澤縣縣屬國有企業(yè)專崗招聘退役軍人2人考試核心試題及答案解析
- 2025團員教育評議大會
- 汽車金融公司培訓
- 一套近乎完美的公司財務流程(包括崗位設置)
- 2025發(fā)電企業(yè)投資管理信息系統
- 水土保持與灌溉水質監(jiān)測方案
- 2025年建筑設計師《建筑設計原理》備考題庫及答案解析
- 《醫(yī)療機構工作人員廉潔從業(yè)九項準則實施細則(試行)》解讀學習
- 護理質量敏感指標計算及數據采集
- 勞動仲裁培訓授課
- 技術研發(fā)團隊介紹
- 非營利組織財務管理制度及規(guī)范
評論
0/150
提交評論