粗糙集基本概念_第1頁
粗糙集基本概念_第2頁
粗糙集基本概念_第3頁
粗糙集基本概念_第4頁
粗糙集基本概念_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、一種對集合A的劃分就對應(yīng)著關(guān)于A中元素的一個知識面對日益增長的數(shù)據(jù)庫,人們將如何從這些浩瀚的數(shù)據(jù)中找出有用的知識?我們?nèi)绾螌⑺鶎W(xué)到的知識去粗取精?什么是對事物的粗線條描述什么是細(xì)線條描述?粗糙集合論回答了上面的這些問題。要想了解粗糙集合論的思想,我們先要了解一下什么叫做知識?假設(shè)有8個積木構(gòu)成了一個集合A,我們記:A=x1,x2,x3,x4,x5,x6,x7,x8,每個積木塊都有顏色屬性,按照顏色的不同,我們能夠把這堆積木分成R1=紅,黃,蘭三個大類,那么所有紅顏色的積木構(gòu)成集合X1=x1,x2,x6,黃顏色的積木構(gòu)成集合X2=x3,x4,蘭顏色的積木構(gòu)成集合X3=x5,x7,x8。按照顏色這

2、個屬性我們就把積木集合A進(jìn)行了一個劃分(所謂A的劃分就是指對于A中的任意一個元素必然屬于且僅屬于一個分類),那么我們就說顏色屬性就是一種知識。在這個例子中我們不難看到,一種對集合A的劃分就對應(yīng)著關(guān)于A中元素的一個知識,假如還有其他的屬性,比如還有形狀R2=三角,方塊,圓形,大小R3=大,中,小,這樣加上R1屬性對A構(gòu)成的劃分分別為:A/R1=X1,X2,X3=x1,x2,x6,x3,x4,x5,x7,x8(顏色分類)A/R2=Y1,Y2,Y3=x1,x2,x5,x8,x3,x4,x6,x7(形狀分類)A/R3=Z1,Z2,Z3=x1,x2,x5,x6,x8,x3,x4,x7(大小分類)上面這些

3、所有的分類合在一起就形成了一個基本的知識庫。那么這個基本知識庫能表示什么概念呢?除了紅的x1,x2,x6、大的x1,x2,x5、三角形的x1,x2這樣的概念以外還可以表達(dá)例如大的且是三角形的x1,x2,x5x1,x2=x1,x2,大三角x1,x2,x5x1,x2=x1,x2,蘭色的小的圓形(x5,x7,x8x3,x4,x7x3,x4,x6,x7=x7,蘭色的或者中的積木x5,x7,x8x6,x8=x5,x6,x7,x8。而類似這樣的概念可以通過求交運(yùn)算得到,比如X1與Y1的交就表示紅色的三角形。所有的這些能夠用交、并表示的概念以及加上上面的三個基本知識(A/R1,A/R2.A/R3)一起就構(gòu)成

4、了一個知識系統(tǒng)記為R=R1R2R3,它所決定的所有知識是A/R=x1,x2,x3,x4,x5,x6,x7,x8以及A/R中集合的并。下面考慮近似這個概念。假設(shè)給定了一個A上的子集合X=x2,x5,x7,那么用我們的知識庫中的知識應(yīng)該怎樣描述它呢?紅色的三角?*的大圓?都不是,無論是單屬性知識還是由幾個知識進(jìn)行交、并運(yùn)算合成的知識,都不能得到這個新的集合X,于是我們只好用我們已有的知識去近似它。也就是在所有的現(xiàn)有知識里面找出跟他最像的兩個一個作為下近似,一個作為上近似。于是我們選擇了“蘭色的大方塊或者蘭色的小圓形”這個概念:x5,x7作為X的下近似。選擇“三角形或者蘭色的”x1,x2,x5,x7

5、,x8作為它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知識庫中的集合中求并得到的,而上近似則是將那些包含X的知識庫中的集合求并得到的。一般的,我們可以用下面的圖來表示上、下近似的概念。這其中藍(lán)色曲線圍的區(qū)域是X的區(qū)域,紫色曲線圍的部分是內(nèi)部參考消息,是下近似,紅色曲線圍的內(nèi)部部分就是上近似集。其中各個小方塊可以被看成是論域上的知識系統(tǒng)所構(gòu)成的所有劃分。整個粗集理論的核心就是上面說的有關(guān)知識、集合的劃分、近似集合等等概念。下面我們討論一下關(guān)于粗糙集在數(shù)據(jù)庫中數(shù)據(jù)挖掘的應(yīng)用問題??紤]一個數(shù)據(jù)庫中的二維表如下:可以看出,這個表就是上面的那個例子的二維表格體現(xiàn),而最后一列是我們的決策屬性

6、,也就是說評價(jià)什么樣的積木穩(wěn)定。這個表中的每一行表示了類似這樣的信息:紅色的大三角積木穩(wěn)定,*的小圓形不穩(wěn)定等等。我們可以把所有的記錄看成是論域A=x1,x2,x3,x4,x5,x6,x7,x8,任意一個列表示一個屬性構(gòu)成了對論域的元素上的一個劃分,在劃分的每一個類中都具有相同的屬性。而屬性可以分成兩大類,一類叫做條件屬性:顏色、形狀、大小都是,另一類叫做決策屬性:最后一列的是否穩(wěn)定?下面我們考慮,對于決策屬性來說是否所有的條件屬性都是有用的呢?考慮所有決策屬性是“穩(wěn)定”的集合x1,x2,x5,它在知識系統(tǒng)A/R中的上、下近似都是x1,x2,x5本身,“不穩(wěn)定”的集合x3,x4,x6,x7,x

7、8,在知識系統(tǒng)A/R中的上、下近似也都是x3,x4,x6,x7,x8它本身。說明該知識庫能夠?qū)@個概念進(jìn)行很好的描述。下面考慮是否所有的基本知識:顏色、形狀、大小都是必要的?如果我們把這個集合在知識系統(tǒng)中去掉顏色這個基本知識,那么知識系統(tǒng)變成A/(R-R1)=x1,x2,x3,x4,x7,x5,x6,x8以及這些子集的并集。如果用這個新的知識系統(tǒng)表達(dá)“穩(wěn)定”概念得到上下近似仍舊都是:x1,x2,x5,“不穩(wěn)定”概念的上下近似也還是x3,x4,x6,x7,x8,由此看出去掉顏色屬性我們表達(dá)穩(wěn)定性的知識不會有變化,所以說顏色屬性是多余的可以刪除。如果再考慮是否能去掉大小屬性呢?這個時候知識系統(tǒng)就變

8、為:A/(R-R1-R3)=A/R2=x1,x2,x5,x8,x3,x4,x6,x7。同樣考慮“穩(wěn)定”在知識系統(tǒng)A/R2中的上下近似分別為:x1,x2和x1,x2,x5,x8,已經(jīng)和原來知識系統(tǒng)中的上下近似不一樣了,同樣考慮“不穩(wěn)定”的近似表示也變化了,所以刪除屬性“大小”是對知識表示有影響的故而不能去掉。同樣的討論對于“形狀”屬性也一樣,它是不能去掉的。最后我們得到化簡后的知識庫R2,R3,從而能得到下面的決策規(guī)則:大三角-穩(wěn)定,大方塊-穩(wěn)定,小圓-不穩(wěn)定,中圓-不穩(wěn)定,中方塊-不穩(wěn)定,利用粗集的理論還可以對這些規(guī)則進(jìn)一步化簡得到:大-穩(wěn)定,圓-不穩(wěn)定,中方塊-不穩(wěn)定。這就是上面這個數(shù)據(jù)表所包含的真正有用的知識,而這些知識都是從數(shù)據(jù)庫有粗糙集方法自動學(xué)習(xí)得到的。因此,粗糙集是數(shù)據(jù)庫中數(shù)據(jù)挖掘的有效方法。從上面這個例子中我們不難看出,實(shí)際上我們只要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論