版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、2020年8月3日星期一,第七章,粗集理論與概率統(tǒng)計(jì)方法,2020年8月3日星期一,粗集理論和概率統(tǒng)計(jì)方法在從數(shù)據(jù)中研究知識表達(dá)和決策規(guī)則推理時,都假定研究的對象可以由某些特征(屬性和屬性值)來特性化,如何選取有效的特征對于智能系統(tǒng)設(shè)計(jì)是至關(guān)重要的。但這兩者的研究方法似乎完全不同,是否可以在選取關(guān)鍵特征的準(zhǔn)則下達(dá)到統(tǒng)一?而且,前面介紹的粗集理論模型主要考慮確定性分類問題,是否可以將概率統(tǒng)計(jì)方法和粗集理論相結(jié)合,為確定性和不確定性知識表達(dá)系統(tǒng)提供一個統(tǒng)計(jì)粗集模型? 本章首先簡要回顧一下信息理論中不確定信息的基本概念,介紹在推理學(xué)習(xí)中選取有效特征的概率統(tǒng)計(jì)方法,討論粗集理論方法和概率統(tǒng)計(jì)方法的統(tǒng)一
2、性,然后提出統(tǒng)計(jì)粗集模型的概念,最后將確定性粗集模型和統(tǒng)計(jì)粗集模型進(jìn)行比較。,2020年8月3日星期一,7.1 不確定信息的測度與推理學(xué)習(xí)的概率統(tǒng)計(jì)方法,假定一個可能事件集合,其事件出現(xiàn)的概率為p1,p2,p3,p4.,pn,能否找到一個對結(jié)果不確定程度的測度,它應(yīng)滿足下列要求: (1)測度函數(shù)應(yīng)該在pi上連續(xù) (2)如果所有pi都相等即pi=1/n,則測度函數(shù)應(yīng)是n的單調(diào)遞增函數(shù),當(dāng)存在更多的可能事件時,對于同樣的事件存在更多的選擇和不確定性。,2020年8月3日星期一,(3)如果一個選擇分為兩種選擇,原來的測度函數(shù)應(yīng)是每個測度函數(shù)值的加權(quán)和。 基于上述要求,我們采用shannon提出的熵的
3、概念作為不確定信息的統(tǒng)計(jì)測度,即,這里k是一個常數(shù),pi是系統(tǒng)在它的第i個定量狀態(tài)時的概率。 如果一個系統(tǒng)被分成k1個子系統(tǒng),H的期望值可以表達(dá)為,2020年8月3日星期一,例7.1 一個知識表達(dá)系統(tǒng)給出表格表達(dá)形式,,2020年8月3日星期一,在表7.1中,“+”類對象出現(xiàn)的概率p+=3/8,-”類對象出現(xiàn)的概率p-=5/8,則初始熵Hi=-(3/8log3/8+5/8log5/8)=0.954. HI度量了系統(tǒng)在初始狀態(tài)時的信息不確定性 為了對由屬性和屬性值特性化的對象選出合適的屬性子集,我們通過最小化系統(tǒng)的熵值以減小信息的不確定性,為此,我們先考察各屬性值對對減小信息不確定性的情況。例如
4、,對于表7.1我們可以根據(jù)頭發(fā)屬性的值,把集合U劃分稱一些不相連的等價類,如圖,2020年8月3日星期一,頭發(fā),p黑色=3/8,e1 - e2 - e3 -,p紅色=1/8,e4 +,e5 + e6 - e7 + e8 -,p黃色=4/8,2020年8月3日星期一,根據(jù)圖7.1所示的劃分系統(tǒng)的頭發(fā)的熵H頭發(fā)可以表達(dá)為 H頭發(fā)=p黑H黑+p紅H紅+p黃H黃其中 p黑=3/8,p紅=1/8,p黃=4/8 劃分后相應(yīng)子系統(tǒng)的熵為,2020年8月3日星期一,由此我們得到H頭發(fā)=4/8(-1log1/2)=0.1515 這表明基于屬性頭發(fā)的屬性值對U進(jìn)行分類可以減少信息的不確定性,即 頭發(fā)=Hi-H頭發(fā)
5、=0.954-0.1515=0.8025 類似的有眼睛=0.347,高度=0.003 對于由特征特征化的對象的分類規(guī)則可以用決策樹的形式表達(dá),即選擇最高值的屬性為樹的根,樹的每一分支對應(yīng)根屬性的一個等價類,對這些包含不同專家類的對象的分支節(jié)點(diǎn)要進(jìn)一步分類,對每一分支,通過在屬性的可用集合中選取最好的屬性,進(jìn)行同樣的過程,已經(jīng)被用在現(xiàn)行分支的屬性不再包含在內(nèi)。例如,在我們的例子中,因頭發(fā)為最大值,屬性頭發(fā)被選作樹的根。在圖7.1中,分支節(jié)點(diǎn)黃色包含“+”和“-”兩個專家類,這就意味著需要對對象的這個子集作進(jìn)一步分類,這個子系統(tǒng)的初始熵為1,對于其余的每一個屬性,我們可以計(jì)算其熵值的減小,,202
6、0年8月3日星期一,頭發(fā),黑色,紅色,黃色,e1 - e2 - e3 -,e4 +,眼睛,藍(lán)色,e5 + e7 +,棕色,e6 - e8 -,2020年8月3日星期一,7.2粗集方法與概率統(tǒng)計(jì)方法的比較,例7.2考慮下面一個知識表達(dá)系統(tǒng),2020年8月3日星期一,根據(jù)重量的屬性值,把U分成不相連的子集如下圖所示,重量,重,中等,輕,e1 + e2 +,e3 + e4 +,e5 + e6 - e7 - e8 - e9 - e10 -,2020年8月3日星期一,系統(tǒng)的熵值為,2020年8月3日星期一,2020年8月3日星期一,命題1 一個知識表達(dá)系統(tǒng)S=(U,C,D,V,F),令T=y1,y2,.
7、,y10是U上的一個劃分,每一個yi代表一個概念,且,2020年8月3日星期一,例7.3考慮一個類似與表7.2所示的知識表達(dá)系統(tǒng),2020年8月3日星期一,根據(jù)“重量”的屬性值,我們把7.3中的對象分成三個不相聯(lián)的子集如下圖,重 量,重,中等,輕,e1 + e2 +,e3 - e4 -,e5 + e7 + e6 + e8 - e9 - e10 -,2020年8月3日星期一,Hi=1,H重=0,H中等=0,H輕=1 p重=2/10,p中等=2/10,p輕=6/10, 故 重量=Hi-H重量=1-6/10=0.4,2020年8月3日星期一,2020年8月3日星期一,7.3 統(tǒng)計(jì)粗集模型,給定一個有
8、限對象集合U和U上的等價關(guān)系R,假定U的子集上定義的概率測度p,定義概率近似空間Ap=,U的每一子集對應(yīng)代表一定有用概率的隨機(jī)事件。令P(Yxi)表示在xi條件下Y出現(xiàn)的概率,根據(jù)這些條件概率,我們可以定義概率近似空間中Y的概率上近似和概率下近似分別為,2020年8月3日星期一,2020年8月3日星期一,由此可見,當(dāng)一個對象屬于posAP(Y)或negAP(Y)時,我們可以從概率的意義上肯定這個對象滿足Y的程度,但我們不能肯定邊界中研究對象是否匹配概率Y.因此,A-P(Y)-A-P(Y)時我們稱Y在概率近似空間中是統(tǒng)計(jì)可定義的。否則是不可定義的。統(tǒng)計(jì)可定義的集合可以由AP中的基本集合完全特性化
9、,統(tǒng)計(jì)不可定義的集合稱為統(tǒng)計(jì)粗集,它可以分為下列幾類,2020年8月3日星期一,2020年8月3日星期一,假定存在U上的子空間定義的概率測度p,U上的任意劃分為隨機(jī)變量,則X*=(x1,x2,.,xn)和Y*=(y1,y2,y3,.,ym) 分別為表示U上的等價關(guān)系X和Y導(dǎo)出的劃分,并定義歸一化條件熵函數(shù)為 H(Y*X*)=,2020年8月3日星期一,2020年8月3日星期一,2020年8月3日星期一,例7.4分析下列知識表達(dá)系統(tǒng)的屬性集合C對與D的信息依賴性一個小汽車知識表達(dá)系統(tǒng),2020年8月3日星期一,考察條件屬性C=(a,b,c)和決策屬性D=(d,e)之間的信息依賴性,根據(jù) 歸一化條
10、件熵函數(shù)可得H(D*|C*)=0.125,這表明C與D之間有很強(qiáng)的依賴關(guān)系。,2020年8月3日星期一,2020年8月3日星期一,如果H(C*|(C-(c)*)=H(C*|c*),屬性c稱為C中統(tǒng)計(jì)可省略的,否則c稱為C統(tǒng)計(jì)中不可省略的。 統(tǒng)計(jì)核是所有統(tǒng)計(jì)不可省略條件屬性的集合,是C的全體統(tǒng)計(jì)簡化的交,2020年8月3日星期一,相對核是相對于D的所有統(tǒng)計(jì)不可省略條件屬性的集合,是所有相對統(tǒng)計(jì)簡化的交,即,2020年8月3日星期一,2020年8月3日星期一,7.4統(tǒng)計(jì)粗集模型和確定性粗集模型的比較,在信息和智能系統(tǒng)中,知識表達(dá)和處理主要是利用論語U中的基本概念x1,x2,x3,.,xn來特性化概
11、念,這里一般有兩種情況 (1)已知論域U中全部研究對象的描述 (2)已知論域U中一個子集對象的描述。 決策表知識表達(dá)和處理就是第一種情況,它包含了全部條件屬性和結(jié)果屬性。在這里論域中的全部研究對象都是已知的,2020年8月3日星期一,2020年8月3日星期一,2020年8月3日星期一,如在例7.4中根據(jù)“類型”的屬性值特性化結(jié)果概念“加速好”,容易得到,由屬性“類型”導(dǎo)出的概念“加速好”的正域和負(fù)域在近似的空間上都是空集,故 類型:中不確定 類型:小不確定 類型:大不確定 這表明確定粗集沒有獲得和利用邊界區(qū)域中提供的統(tǒng)計(jì)信息,而統(tǒng)計(jì)粗集模型利用了邊界區(qū)域中的統(tǒng)計(jì)信息,提供了概念Y的一個更完整的
12、特性化。,2020年8月3日星期一,在統(tǒng)計(jì)粗集方法中,關(guān)于概念Y的決策規(guī)則為 (1)如果p(Y|xi)0.5,des(xi)des(y) (2)如果p(Y|XI)0.5,des(xi)非des(Y) (3)如果p(Y|xi)=0.5,des(xi)不確定 這里,確定性因子C可以定義為c=maxp(Y|xi) 可以看出,能用確定性粗集方法做出的決策,用統(tǒng)計(jì)性粗集方法可以得到同樣的決策結(jié)果。反之不然,當(dāng)所有概率規(guī)則的確定性因子c1時,確定性粗集中都判為不確定,但統(tǒng)計(jì)粗集方法都能做出決策。,2020年8月3日星期一,小結(jié) 在智能信息處理中重要的問題在于,我們是否可以根據(jù)獲得的符號知識(例如屬性、屬性值)對給定的一組對象進(jìn)行專家分類和推理決策,這里包括我們知道論域U中全部研究對象的描述(確定性知識)和僅知道論域U中一個隨機(jī)抽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030葡萄酒釀造技術(shù)應(yīng)用行業(yè)供需現(xiàn)狀創(chuàng)新投入投資布局規(guī)劃
- 2025-2030葡萄牙酒莊行業(yè)市場需供矛盾分析投資發(fā)展?jié)摿σ?guī)劃分析研究
- 2025-2030葡萄牙葡萄酒產(chǎn)業(yè)發(fā)展現(xiàn)狀與品牌建設(shè)評估規(guī)劃分析報告
- 安川L7變頻器調(diào)試手冊
- 2024年村衛(wèi)生室工作總結(jié)范本(4篇)
- 2025年村年度工作總結(jié)情況匯模版(二篇)
- ZR-3260自動煙塵煙氣綜合測試儀期間核查方案(試行)
- 2026年工商管理中級資格認(rèn)證筆試題目
- 2026年計(jì)算機(jī)專業(yè)從業(yè)考試復(fù)習(xí)資料信息技術(shù)安全與法規(guī)框架
- 2026年軟件測試工程師中級考試模擬題
- 2026貴州省省、市兩級機(jī)關(guān)遴選公務(wù)員357人考試備考題庫及答案解析
- 兒童心律失常診療指南(2025年版)
- 北京通州產(chǎn)業(yè)服務(wù)有限公司招聘備考題庫必考題
- 2026年基金從業(yè)資格證考試題庫500道含答案(完整版)
- 2025年中國礦產(chǎn)資源集團(tuán)所屬單位招聘筆試參考題庫附帶答案詳解(3卷)
- 氣體滅火系統(tǒng)維護(hù)與保養(yǎng)方案
- GB/T 10922-202555°非密封管螺紋量規(guī)
- ESD護(hù)理教學(xué)查房
- 內(nèi)窺鏡護(hù)理不良事件分析與防范措施
- 2025年《電信業(yè)務(wù)投訴處理》知識考試題庫及答案解析
- 82-2手榴彈使用課件
評論
0/150
提交評論