版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
前言選題背景及研究意義伴隨著我們?nèi)斯ぶ悄艿募夹g(shù)和AI的技術(shù)的快速發(fā)展流行,大數(shù)據(jù)成為了當今社會共同關(guān)注的話題,對數(shù)據(jù)之間關(guān)系的深層次探究成為我們更好的利用大數(shù)據(jù)來方便我們生活的前提.銀行針對貸款客戶做的風險評估、企業(yè)計劃的項目投入資金、學(xué)校擬定的招生人數(shù)等等,都需要我們對原有的數(shù)據(jù)進行分析,探求之間的聯(lián)系.例如:銀行對貸款客戶的職業(yè)、年齡、收入、信譽等條件作為參考,分析上述條件與償還能力的關(guān)系,最終確定是否給予貸款資格以及貸款額度.這就需要我們對條件和最后的結(jié)果之間的聯(lián)系做出相應(yīng)的分析,探尋其中的規(guī)律.那么如何才能更加準確的描述出貸款客戶的條件和償還能力之間的關(guān)系就成為了大家心中普遍關(guān)注的問題.我們把影響最終結(jié)果的條件稱為“因”,將最終所得稱為“果”,所以探尋因與果之間的關(guān)系的這個過程被我們稱之為“因果分析”,因果分析也就是為了要確定引起某一現(xiàn)象變化的原因的主要分析,主要是要解決這個“為什么”的最大的問題.因果分析的目的也就是在研究對象的主要先行情況中,把作為它的最主要的原因現(xiàn)象與其他那種非現(xiàn)象的事物情況區(qū)別開來,或是在我們所要研究對象的其中的后行情況中,把作為它的結(jié)果的現(xiàn)象與其他現(xiàn)象區(qū)分開來.因果性是自然界現(xiàn)象之間普遍的和基本的聯(lián)系.雖然在宇觀世界、宏觀世界和微觀世界,因果律的表現(xiàn)形式各異,所以我們現(xiàn)在再說的因果之間的規(guī)律的存在那可肯定是確定無疑的.在原始的古典的歸納邏輯中的“求因果聯(lián)系的五法”那就是就是分析因果聯(lián)系中的最簡單模式.在當今社會中因果律的存在也是毋庸置疑的,例如:我們將貸款客戶的職業(yè)、年齡、收入、信譽等作為因,客戶的償還能力作為果,當我們客戶的職業(yè)、年齡、收入、信譽等因達到一定的要求時,我們償還能力這個果就相對較強,銀行可以針對償還能力的強弱決定是否向客戶放貸以及放貸的金額.所以因果分析在當今社會的評估中起到了重大作用.如何更加準確、細致、方便的刻畫出因果之間的聯(lián)系成為我們不斷追求的事業(yè).如今任何的問題都是不能離開對因素的研究與分析,事物已是矛盾的主要交叉,因素又是矛盾的程序編碼、成就世間事物的內(nèi)在基因,是我們?nèi)祟愃季S所必須依賴、求索的最關(guān)鍵的一點,只有抓住這個關(guān)鍵,認識論如何描述問題才能迎刃而解.認識這是一個綜合分析的過程.因素這個提出的概念是如今我們要重點去分析的非常重要的重點要素之一,給一切的事物去想方設(shè)法的提供一種讓我們是可以去映射的具體的維度并且為為所提供的他為其命名.例如人的性格、人的職業(yè)、客戶安全性、數(shù)據(jù)穩(wěn)定性、客戶信譽可靠度、客戶的的身高、天氣的溫度、人的籍貫、人的年齡、客戶的滿意度等等都是因素,也都是維名.上面找到自己那個的投射點每一事物都可以在各種有關(guān)因素軸中做到的,進行綜合分析然后再,交叉式地支撐起來用每一個維度,一個坐標架是被一個事物的描述形成了,現(xiàn)在這種使因素為軸的這個坐標空間就叫我們所稱的因素空間.正在不斷的提出理論支持與改進因素空間方法[9-13]。在于1982年這個因素空間理論被正式提出,,跨越式這是中國智能科學(xué)方面的重大事件的發(fā)展,尤其是即將的到來而準備的一項非常重要的智能科學(xué)為面對大數(shù)據(jù)時代在數(shù)學(xué)上的準備.在現(xiàn)如今我們?nèi)粘I钪校鎸χ笮∈录l(fā)生著不斷地改變這樣那樣的,人們經(jīng)常都會問:為什么這個事件剛剛會發(fā)生?著里面有哪些因素更重要?從什么角度來分析我們目前發(fā)生的這個難以解決的事件?什么才是人們從早到晚都在進行著的因循思維活動.面對這些問題,數(shù)學(xué)怎樣來刻畫?引發(fā)什么樣的新的事件由這個事件的發(fā)生又會...?剛剛發(fā)生了什么事件?是在這個情況中都有哪些因素影響和制約著這個事件?(2)國內(nèi)外研究現(xiàn)狀現(xiàn)實生活中排隊現(xiàn)象處處可見,排隊論適用于一切服務(wù)系統(tǒng);尤其在電話系統(tǒng)、車流量、生產(chǎn)線等方面應(yīng)用得最廣泛,排隊論是由20世紀丹麥數(shù)學(xué)家、電氣工程師A.K.Erlang[1]研究電話通話問題開創(chuàng)的一門應(yīng)用數(shù)學(xué)的科目,并且愛爾朗還為這門學(xué)科建立許多基本理論原則;20世紀30年代中期,當W.Feller引進了生滅過程[2]時,排隊論才被數(shù)學(xué)界承認為一門重要的學(xué)科;20世紀50年代初,D.G.Kendall對排隊論作了系統(tǒng)的研究,他用嵌入A.A.Markov鏈[3]方法研究排隊論,使排隊論得到了進一步的發(fā)展;然而隨著經(jīng)濟的進一步發(fā)展,各行各業(yè)都面臨大量顧客,并且顧客到達的時間間隔越來越小,到達服務(wù)區(qū)的速率也越來越大,于是就將以前離散的顧客可以近似看成流體,而流體隊列是輸入--輸出根據(jù)隨機變化的速率,連續(xù)流體進出稱為緩沖器的儲存裝置的系統(tǒng),受潛在隨機環(huán)境(或背景)的影響,這類模型的動機是近似于離散排隊系統(tǒng),因此流體排隊已被公認為一種有用的數(shù)學(xué)建模工具;而排隊系統(tǒng)的初衷是為了給顧客提供快速和優(yōu)質(zhì)服務(wù)的前提上,還使系統(tǒng)管理者獲得一定收益,于是很多學(xué)者又對流體排隊模型展開了經(jīng)濟分析,其中,Naor[4]最先在排隊模型中引入博弈論觀點,并提出顧客到達系統(tǒng)時會根據(jù)一個簡單的線性“收益-損失”函數(shù)來決定是否系統(tǒng),Li[5]研究了由M/g/1流體隊列中緩沖液含量的平穩(wěn)概率分布,Mitra[6]認為流體緩沖液含量的穩(wěn)態(tài)密度滿足具有有限多狀態(tài)隨機環(huán)境的流體排隊,此方法被廣泛應(yīng)用于求解這些方程的解,Malhotra[7]考慮了反饋的流動隊列在實際問題中;然而決策者為了最大限度利用、維護系統(tǒng),并不會滿足顧客可無限的假設(shè),且不會始終以一定的速率進行服務(wù),而是限制系統(tǒng)內(nèi)顧客的數(shù)目,并適當?shù)卣{(diào)整其服務(wù)率,若不限制系統(tǒng)內(nèi)顧客數(shù),系統(tǒng)必然會引起擁擠,甚至引發(fā)顧客的不滿,于是考慮帶門限機制的流體排隊,門限機制是優(yōu)化保護運行系統(tǒng)的一種有效策略,在此機制下,系統(tǒng)內(nèi)的顧客數(shù)不會超過事先設(shè)定的門限,若系統(tǒng)停止工作進入空閑期,就可降低系統(tǒng)能耗,當系統(tǒng)恢復(fù)工作則可保證系統(tǒng)內(nèi)的顧客事實接受服務(wù),這種機制下的排隊模型既減少了服務(wù)臺的工作壓力,又有效避免了系統(tǒng)擁擠,排隊論學(xué)科中,門限機制和策略有一定相似之處,Liu[8]等研究了休假排隊模型中完全可視和部分可視以及完全不可視,Yang和Tian[9]將策略排隊模型與工作休假結(jié)合在一起研究,Luo和Zhu[10]將負顧客和策略引入工作休假排隊模型,Liu,Ma和Li[11]分析了具有策略和工作休假的M/M/1排隊模型,隨后,Wang和Mao[12]研究了M/M/1假期驅(qū)動的串聯(lián)流體模型排隊,Mao、Wang和Tian[13]分析了M/g/1隊列驅(qū)動的多指數(shù)休假流體模型,目前只有一些研究涉及多服務(wù)器隊列驅(qū)動的流動隊列,Xu[14]等對M/M/工作休假驅(qū)動的流體模型展開了穩(wěn)態(tài)分析,Anjuka[15]對M/M/1驅(qū)動的工作休假流體排隊模型展開研究,Xu[16]等研究了PH/M/1排隊系統(tǒng)驅(qū)動的流模型并給出穩(wěn)態(tài)性能指標,Economou和Manou[17]對可視情況下具有不同服務(wù)狀態(tài)的流體排隊模型中的行為策略進行了分析,Hu[18]等在排隊論基礎(chǔ)上對經(jīng)濟的利益做出了研究,Zhou和Su[19]等研究了增量效益成本比率,以此來求得效益函數(shù),周崇華、周九州[20]等人研究了增量效益成本在過收費站的配置的研究,李曉雷[21]研究了排隊論的理論以及理論的相關(guān)的研究,張剛剛、張接心、于勇強[22]等人研究了排隊論在存取策略的研究,萬圓圓[23]研究了基于排隊論的公共自行車的研究,楊喜絹、李中學(xué)、黎鎖平[24]等人研究了帶啟動時間的M/M/的排隊的分析,陳茂林、崔雅紅、張磊[25]等人對基于流體力學(xué)和排隊論在收費站時車輛耽誤的時間進行了分析,李燕、王輝、陳小書[26]等人研究了基于流體排隊的收費站種類,李景枝、馬氏霞[27]等人研究了帶擾動的流體排隊的模型,楊碩、郭飛躍[28]等人研究了流體力學(xué)的排隊模型以及流體排隊模型的應(yīng)用,呂文、袁成桂、張漢君[29]研究了流體排隊模型中的具有兩個工作站的穩(wěn)定性,胡才俊、李樂名[30]等人對流體留法分析在圖像、通話等多個通信中的排隊性能進行了分析.本文主要研究內(nèi)容提高因果分析的準確率以及可實施性是目前大數(shù)據(jù)時代對數(shù)據(jù)分析的深層要求,研究逆向因果分析方法開辟了因果分析的新道路,解決在正向因果分析中存留的問題,可以提高因果分析準確性以及可實性,到更好的更多的分析規(guī)則有助于匹配更多的實際問題。利用因素空間的基本理論,將其應(yīng)用到逆向因果論支持下先進行逆向因果分析方法的推導(dǎo),然后使用算例運用已得到的方法進行逆向因果分析,解決正向因果分析中結(jié)果不準確、規(guī)則較少的問題.在正向因果分析果分析得到可匹配的規(guī)則較少也成為了如今的問題.針對正向因果分析的缺點及其不足之處,結(jié)合因素空間理論研究向因果分析算法,將正向因果分析的不足之處作出改進并且應(yīng)用算例行檢驗,得出準確性、可實施性高于正向因果分析的算法.解決在正向因果分析中由于影響因素的影響程度出現(xiàn)跳動所帶來的不準確性,以及解決正向因果分析得到的規(guī)則較少的問題分析找到更好的方向.第一:解決正向因果分析因素影響程度變動所帶來的誤差問題.第二:解決正向因果分析中所得到的可匹配規(guī)則較少的問題.論文內(nèi)容的組織結(jié)構(gòu)本文一共分四個章節(jié)因素空間基本理論本文主要在因素空間的理論下進行對正向因果分析法的研究,并且對其進行改進,所以在第一章中介紹關(guān)于本文所涉及的因素空間的基本理論.因素空間中正向因果分析法介紹正向因果分析的推理原則并演示推理過程,在推理的過程中針對正向分析的不足之處進行改進.因素空間中逆向因果分析法根據(jù)正向因果分析中的不足之處,在逆向因果分析中進行優(yōu)化,建立逆向因果分析方法,并對其進行算例的檢驗.第5章結(jié)論與展望1因素空間基本理論1.1問題定義1.1.1因素與因素方法論在現(xiàn)在的數(shù)上,因素是被定義成為了映射,它這個概念把事物都映射成為了屬性狀態(tài)或其它的方式的信息,的,概念它是思維的基本單元。生物的專家們是要作對比,先看他們存在的基因,它是引差異的主要的重要的原因,它是進對比的基準,應(yīng)當抓住事物屬性劃分其中的基因.因為溫度上的變從而生出冷熱,因身高的變化而分出來了高矮,天氣的溫度和人的這個身高就是事物屬性的基因.一般而言,因其變化而改變事物屬性的東西叫因素,例如人的性格、人職業(yè)、客戶安全性、數(shù)據(jù)穩(wěn)定性、客戶信譽可靠度、客戶的身高、天氣的溫度、人的籍貫、人的年齡、客戶的滿意度等等都是因素,因素乃是屬性劃分的基因因素的提取是一個分析的過程,因素是我們探究因果分析的角度,它把事物抽象到同一維度上進行劃分,因素就分析維度的維名.給定因素,他所對應(yīng)的維度形成一個集合,叫做的值域,記作.有兩種形態(tài):是這個實空間的其中一個子集,此時,叫做定量值域;,其中是有語義的詞或其他代表符號,此時,叫做定性值域這個通常的一個因素都是兼有了兩種值域.例如,溫度可以有定量值域,也可以具有定性的值域.中值叫的做點,中的值也會叫做團?;?qū)傩?,團粒是的子這個集或這個模糊子集,比高一個層次.注意這個中的這個單點集是粒而不是點,不應(yīng)混淆.在這個概念分析中,要用定性值說出這個內(nèi)涵,但往往是先有定量值域,再由它定性化.量與質(zhì)是對立的統(tǒng)一,采用值域的二元論,與兼顧,統(tǒng)稱為性態(tài)空間[2].這個理論中因素是一個映射,其定義域是論域,包含給定問題所討論的這個全體對象.定量映射把對象映射到數(shù)量值,定性映射把對象映射到屬性,因素是這一串屬性的串名.以兩個定性值為值域的這個因素叫二態(tài)因素.例如性別,只有雌、雄,可分別用符號記之.有一類二態(tài)因素的定性值可用“有、無”二態(tài),在這種場合,因素名和屬性名最容易混淆.再次強調(diào)一下因素與屬性的區(qū)別:界定1因素這是對這個事物的分類結(jié)果的內(nèi)涵上的描述,藉以進行對比,劃分出這個一串屬性并命其這個串名.界定2屬性,是這個分析的事物的要素一串屬性來自于得到一項劃分,其中一個簡單的因素把這個事物抽象到一個單一的維度的并命為其名,她們由是這個一個因素統(tǒng)領(lǐng).與屬性相比,不能把因素和性混為一談.因素是這個提綱挈領(lǐng)的概念.現(xiàn)存的描述中,有把因素叫做屬性而將屬性叫做屬值的.可以繼續(xù)沿襲這個的已經(jīng)存在的的叫法,但必須是要避免將這個屬性與這個屬性值那個不清的情況.定義1-1叫做上的一個劃分,如果且對任意,若,則.1.1.2因素空間的定義的主要思想是將給定數(shù)據(jù)集中的數(shù)據(jù)根據(jù)似程度分到不同的類或者簇,所以同一個類或者簇中的數(shù)據(jù)集應(yīng)具有極高的相似性.同時聚類分析是一種循序漸進的探索式分析方法,即事先不需要定分類的標準,該方能自動的依據(jù)給定數(shù)據(jù)集來給出分類結(jié)果.由于聚類算法的這一特性,導(dǎo)致在研究中通常存在因使用方法的分支不同而得到大同小異的分類結(jié)果.也就是說不同的聚類分析算法對同一數(shù)據(jù)集的處理結(jié)果也許未必是一致的.從數(shù)據(jù)集樣本規(guī)模和需要指定聚類中心點的需求出發(fā),本文使用K-means聚類算法,它的算法如下.設(shè)因素集為,對于的任意一個子集來說,這個因素是個映射,它們分別將中的對象映射到個不同值域上.這些值域的笛卡爾乘積是.由這個產(chǎn)生的一個笛卡爾乘積映射,滿足。將這個笛卡爾乘積映射[]看作是一個新因素,記為叫做的合因素.了與中子集的并運算相對應(yīng),只能記,而不能記為,從概念的屬性不是從概念的外延來說又只能叫合因素而不叫析因素.所以,對格運算符號與究竟誰是析是合取的叫法上,本文傳統(tǒng)的叫法正好是相反的.記為所有中因素及所合成的因素集,若再數(shù)學(xué)地定義一個零因素0取值域為,則共有個因素,它與的冪集同構(gòu).在中的并運算對應(yīng)于因素的合取,交運算則取名為析取,記作,例如,<色香><香味>=<香>,<色味><香味>=<味>.合取運算使因素從簡單到綜合析取運算使素從綜合到簡單.類似定余運算,全體因素按、、三種運算形成一個布爾代數(shù).于是,從數(shù)學(xué)上就可定義一個系統(tǒng),叫做因素空間.定義1-2稱集合族為上的一個因素空間,如果滿足公理:指標集是一個完全的布爾代數(shù);;對任意,若,則;,都有一個映射叫做因素集,其最大、最小元1,0分別叫做全因素和零因素,叫做性態(tài)空間.因素空間就是以因素標號的一束性態(tài)空間,做正則因素空間,如果對所有,都有.定義1-3引自文獻[10],但略作修改,增加了(4).定義1-4叫做一個背景,它是的一個子集.若,它又叫做間的一個背景關(guān)系:定義1-5因素與叫做現(xiàn)實獨立,如果.相對而言,如果,則因素與叫做泛獨立.泛獨立不一定現(xiàn)實獨立,不是現(xiàn)實獨立的因素之間呈現(xiàn)各種關(guān)系.在事物的相互作用中,因素又是因果關(guān)系的分析要素.合因素[6]是事物描述的廣義標目前名稱,定義的因素空間中為客觀事物的描寫給予提供了一個普適的坐標架.見圖1-1.張個人就成為了全性態(tài)空間的一個點.如果其中的全因素足夠全,任意不同的二個人都有著不同的性態(tài)用來區(qū)別,則這個全性態(tài)空就可以取代生活中的實際事物,因素就是描述事物構(gòu)成的一個基本要素.圖1-1人的因素空間性態(tài)表達定義5背景又叫做的表現(xiàn)的域,相對而言叫做原論域或反饋論域.概念在中的這個外延叫原外延或者是反饋的外延,叫做在中的這個表現(xiàn)外延.外延的與內(nèi)的是這個相對的,表現(xiàn)外延是這個原外延的一個內(nèi)涵,念在析因素定性性態(tài)空間中的這個表現(xiàn)外延要就是它在的合因素性態(tài)空間中表現(xiàn)的外延的內(nèi)涵.定義6就因素而言,若有使有,則叫做一個概念,叫做它的外延,叫做它的內(nèi)涵.1.2背景關(guān)系和背景基我們考慮這樣的一個問題氣溫和降雨量這樣的兩個因素,其中高氣溫不能與低雨量搭配,而寒冷不能與高雨搭配.相關(guān)因素的性狀搭配其實并不是自由的,搭配值是不可能充滿整個笛卡爾乘積空間,由此引出了背景關(guān)系的概念.定義1-6給定因素空間,設(shè)是定性的信息空間,記叫做因素之間的背景關(guān)系,也叫做F的背景集.R中的任何一個信息顆粒都叫做一個原子內(nèi)涵.如果R=I,則之間的搭配可以遍及整個I。當這些因素是彼此獨立的時候就會出現(xiàn)這種情況。如果RI,則這些因素之間不能自由地進行搭配,它們之間必定存在著相互聯(lián)系,這恰恰是因素空間所要描述的內(nèi)容。背景關(guān)系能反映因素之間的相互關(guān)系。對于R之外的任何一個信息顆粒a,因不存在dD使F(d)=a而被認為虛幻(相對于D而言),應(yīng)當從I中除去,所剩下的背景集才可被視為實際存在的笛卡爾乘積空間,其中的任何一個信息顆粒都是實際存在的內(nèi)涵描述.定義1-7若背景關(guān)系R[2]在信息空間I或托架空間中是凸集,記R的所有頂點所成之集為B=B(R)={P|P是R的頂點},叫做背景基.設(shè)S是R的樣本點集,S的所有頂點所成之集為B(S)={P|P是S的頂點}叫做樣本背景基.背景基是可以生成背景關(guān)系,它是背景關(guān)系的無信息損失的一種壓縮,對因素庫的實際應(yīng)用具有重要的意義.因素空間的大數(shù)據(jù)觀是把數(shù)據(jù)看做塑造記憶和知識的原料,由于背景基是生成背景,背景又能生成知識,所以,知識的有形體也就是背景基。當數(shù)據(jù)不足的時候,樣本基是要發(fā)生改變的,它無法代表真的知識,但速趨向背景關(guān)系而穩(wěn)定,有關(guān)的知識和記憶也就能成型.因此,在大數(shù)據(jù)的處理就是一個樣本基的修正和調(diào)整的過程.無論數(shù)據(jù)有多大,樣本背景基的數(shù)量也是會始終保持在一個低維度上.背景關(guān)系就是我們的因素空間這個理論的一個核心概念,它既可以是決定概念的自動生成,又決定了這個概念之間的一切的推理,由它我們可以張開知識描述大數(shù)的確定性理據(jù)使樣本基迅論框架.但現(xiàn)實中的背景關(guān)系多帶有不確定性。原因具有有二:一是性狀粒度往往過大,說一個人的性狀容易,說一群人的性狀就不確定了,存在著抽樣的隨機性;二是定性相的劃分不明確,例如年齡這個因素,究竟怎樣劃分青年、中年和老年?存在著模糊性,為此,要引入背景分布和模糊背景關(guān)系的概念.1.3背景分布按照這個的上文的敘述,所謂的因素空間中的的背景關(guān)系是指:這里的這個論域代表一個上位概念的這個外延.例如取是特定的人群.任何一張這個因素庫表中所出現(xiàn)的這個數(shù)據(jù)都是的一個有限樣本.由本所確定的這個背景關(guān)系只能是背景關(guān)系的一種近似.可以想見,背景關(guān)系是所有樣本關(guān)系的并:只要表這個的頭完全一樣,兩個或多個的樣本,就可以是合并的,不同的對象就加上不同的行,但不同的行可能會出現(xiàn)相同的相.于是,相的出現(xiàn)頻率就各不相同.設(shè)是一個這個定性因加.造成這種情況的因素主要素的空間,記為其這個背景的關(guān)系.稱為相可測空間,其中是的冪集,即是由的一切子集所構(gòu)成的這個集合.注意是從到的滿射,即對任意,都有使有,按照映射在中建立等價關(guān)系:當且僅當.是按此等價關(guān)系分類所形成的這個商空間.是和之間的同構(gòu).由此又誘導(dǎo)出和之間的同構(gòu).注意,是先有因素空間和背景關(guān)系才有的,故須對所得的可恐織活動在近年來變得愈發(fā)頻繁,而令人談之色變的自殺式襲擊也在迅速增有兩方面:一是自“9·11”事件發(fā)生以來,許多恐怖組織被激活,紛紛對其跟風效仿.二是隨著時間的推移和事物的發(fā)展,恐怖組織也變得越來越高級,對內(nèi)部人員長期的洗腦和教唆測和這個概率結(jié)構(gòu)特別加以定義.定義1-8稱為這個因素空間上所定義的可測的空間,簡稱這個因素可測空間,對于定義于其上的概率測度,稱為因素空間上所定義的基本概率場,簡稱因素基本概率場[12].若為一個這個因素基本概率場,則對任意,必有對應(yīng)的,令,則也是一個概率場,叫做這個因素相概率場.定義1-9給定因素的相概率場,對任意原子內(nèi)涵,記,稱為因素基本的概率場的背這個景分布.定義1-10在大小為m的樣本中,若相出現(xiàn)了次,則稱為相出現(xiàn)的頻數(shù)而稱為相出現(xiàn)的頻率。稱為的背景頻率分布.背景的分布的頻率是這個因素的背景的分布的一種隨機實現(xiàn).我們現(xiàn)在很難知道這個因素背景的分布,卻可以通過背景頻率的分布來逼近是它.例1(選自決策樹在網(wǎng)上公開的演示文檔[13])某公司對顧客購買情況的數(shù)據(jù)列表如下:年齡收入學(xué)生信譽購買頻數(shù)中高否良買128老平否良買60老低是良買64中低是優(yōu)買64青低是良買64老平是良買132青平是優(yōu)買64中平否優(yōu)買32中高是良買32青高否良不買64青高否優(yōu)不買64老低是優(yōu)不買64青平否良不買128老平否優(yōu)不買64表1-1某公司對顧客購買情況的數(shù)據(jù)列表如果不考慮頻數(shù),這就是一張因素分析表其中,有4個條件因素:年齡,具有定性相空間={青,中,老}={1,2,3};收入,具有定性相空間={低,平,高}={1,2,3};‘是否是學(xué)生?’,具有定性相空間={是,否}={1,0};信譽,具有定性相空間={差,良,優(yōu)}={1,2,3};有一個結(jié)果因素g=購買,具有定性相空間={買,不買}={1,0}.表的每一行應(yīng)當代表一個對象.但上表沒有給出對象足碼而是給出相頻數(shù),說明此表不是以對象為行而是以同相的類為行。故本例的論域不是而是它的商空間.樣本的大小m=1024,將頻數(shù)除以m得到各個相的頻率.只考慮條件因素,得到背景的分布為(按頻率遞降排列):(老的平的是的良)=132/1024=0.134;(中的高的否的良)=(青的平的否的良)=128/1024=0.124;(老的低的是的良)=(中的低的是的優(yōu))=(青的低的是的良)=(青的平的是的優(yōu)的)=(青的高的否的良的)=(青的高的否的優(yōu)的)=(老的低的是的優(yōu)的)=(老平否優(yōu))=64/1024=0.062;(老的平的否的良)=60/1024=0.060;(中的平的否的優(yōu))=(中的高的是的良的)=32/1024=0.031;背景分布是一個聯(lián)合概率分布,它是一個高維矩陣,一般在紙上寫不出來。但由于例1的稀疏性,具有非零概率的項只有14項.按Zadeh記法可以寫為=0.134/(3212)+0.124/(2302,1202)+0.062/(3112,2113,1112,1213,1302,1303,3113,3203)+0.060/(3202)+0.031/(2203,2312).其中,‘分子’表頻率,‘分母’表相。顯然有定義1-11對于給定的因素稱為因素的邊緣相分布.顯然有.各因素的邊緣分布可以分別計算如下:1)年齡=(青)=(青低是良)+(青平是優(yōu))+(青高否良)+(青高否優(yōu))+(青平否良)=0.062+0.062+0.062+0.062+0.124=0.372.=(中)=(中高否良)+(中低是優(yōu))+(中平否優(yōu))+(中高是良)=0.124+0.062+0.031+0.031=0.248.=(老)=(老平是良)+(老低是良)+(老低是優(yōu))+(老平否優(yōu))+(老平否良)=0.134+0.062+0.062+0.062+0.060=0.380.因素年齡的邊緣分布是=(0.372,0.248,0.380).2)收入=(低)=(老低是良)+(中低是優(yōu))+(青低是良)+(老低是優(yōu))=0.062+0.062+0.062+0.062=0.248=(平)=(老平是良)+(青平否良)+(青平是優(yōu))+(老平否優(yōu))+(老平否良)+(老平否良)+(中平否優(yōu))=0.134+0.124+0.062+0.062+0.060+0.031=0.473=(高)=(中高否良)+(青高否良)+(青高否優(yōu))+(中高是良)=0.124+0.062+0.062+0.031=0.279因素收入的邊緣分布是=(0.248,0.473,0.279)3)‘是否是學(xué)生?’=(是)=(老平是良)+(老低是良)+(中低是優(yōu))+(青低是良)+(青平是優(yōu))+(老低是優(yōu))+(中高是良)=0.134+0.062+0.062+0.062+0.062+0.062+0.031=0.475=(否)=(中高否良)+(青平否良)+(青高否良)+(青高否優(yōu))+(老平否優(yōu))+(老平否良)+(中平否優(yōu))=0.124+0.124+0.062+0.062+0.062+0.060+0.061=0.525因素收入的邊緣分布是=(0.475,0.525)4)信譽=(差)=0=(良)=(老平是良)+(中高否良)+(青平否良)+(老低是良)+(青低是良)+(青高否良)+(老平否良)+(中高是良)=0.134+0.124+0.124+0.062+0.062+0.062+0.060+0.061=0.659=(優(yōu))=(中低的是的優(yōu))+(青的平是的優(yōu))+(青的高的否優(yōu))+(老低是優(yōu))+(老平否優(yōu))+(中平否優(yōu))=0.062+0.062+0.062+0.062+0.062+0.031=0.341因素信譽的邊緣分布是=(0,0.659,0.341)若將結(jié)果=購買也考慮進來,則有=(買)=(中高的否良)+(老平的否的良)+(老低的是良)+(中低的是的優(yōu))+(青低是的良)+(老平的是良)+(青平的是的優(yōu))+(中平否的優(yōu))+(中高是良)=0.124+0.060+0.062+0.062+0.062+0.134+0.062+0.031+0.031=0.628.=(不買)=(青高否的良)+(青的高否的優(yōu))+(老的低是優(yōu))+(老的平否優(yōu))+(青平的否的良)=0.062+0.062+0.062+0.062+0.124=0.372.結(jié)果因素的邊緣分布是=(0.628,0.372).給定因素空間上的一個背景分布.記定義1-12記叫做因素空間上的由背景分布所決定的一個模糊背景關(guān)系,又叫背景可能性分布.是一個高維稀疏矩陣,在紙上很難寫出,可用Zadeh的模糊集表示方法[11].將條件因素和結(jié)果因素一起考慮,因=0.134,得到模糊背景分布[13]為:=1/(32121)+0.92/(23021,12020)+0.46/(31121,21131,11121,12131,13020,13030,31130,32030)+0.45/(32021)0.23/(22031,23121).定義1-13給定上的模糊背景分布,對中任意兩因素及,記稱是向及的投影分布.考慮兩個因素年齡和購買.=max{(11121),(12131)}=max{0.46,0.46}=0.46.=max{(23021),(21131),(22031),(23121)}=max{0.92,0.46,0.23,0.23}=0.92.=max{(32121),(31121),(32021),}=max{1,0.46,0.45}=1.=max{(12020),(13020),(13030),}=max{0.92,0.46,0.46}=0.92.=max{}=0.=max{(31130),(32030)}=max{0.46,0.46}=0.46.1.4因果提枝定義1-14因素空間(D,F={f1,…,fn;g})叫做一個因果空間,f1,…,fn叫做條件因素,g叫做結(jié)果因素。因果空間被稱簡單,如果I(g)={1,0}.背景關(guān)系不僅決定概念的自動生成,也決定因果推理[3].基本定理給定因素空間(D,F={f;g}),設(shè)R是F的背景關(guān)系,又設(shè)I(f)=X,I(g)=Y,又設(shè)A和B分別是X和Y中的子集,則A(x)B(y)是恒真句當且僅當(AY)R(XB)R證明謂詞A(x)真當且僅當xA,這又當且僅當(x,y)AY,謂詞B(y)真當且僅當yB,這又當且僅當(x,y)XB,故推理句A(x)B(y)恒真當且僅當(AY)(XB).在笛卡爾乘積空間中,最后的這一包含式是不可能成立的.但是,因素空間理論強調(diào)背景關(guān)系R才是實際有效的笛卡爾空間,所以只要包含式在R內(nèi)成立就行,于是,A(x)B(y)恒真當且僅當(AY)R(XB)R式成立.證畢YYXABR圖1-2背景關(guān)系這個定理說明,兩因素之間的推理規(guī)則,可以完全由兩因素之間的背景關(guān)系R來決定,其具體方法是:任給X的子集A,由A沿Y的方向作柱體擴張,得到(AY)R,再向Y中投影,得到Y(jié)的子集B*,只要B*B,便可保證若A則B的推理是一個恒真句.這個定理不僅對兩個因素成立,對于多個因素也照樣成立.定義1-15給定因果空間(D,F={f1,…,fn;g}),一個以D中對象為行,以條件因素為列,最右一列為結(jié)果因素的表叫做一張因果分析表,其中第i行第j列元素是第i對象在第j因素下的相值,表頭記為(d,f1,…,fn,g).一張因果分析表舍棄對象列叫做隱私表,它在信息空間中給出了背景集R的一組樣本點.若將背景集換為背景分布r或模糊背景集R,則在普通的因果分析表頭右邊再加上背景分布r或模糊背景集R,記為(d,f1,…,fn,g;r或R,)叫做隨機或模糊的因果分析表.隱私因果分析表的每一行是一個對象在信息空間中的坐標;一張因果分析表就是由有限個對象在因果空間中所形成的一個背景樣本S,對任意條件因素f{f1,…,fn}在D中形成劃分H(D,f),其中的類記作cf.它的表現(xiàn)論域記為A=f{d|dcf}。結(jié)果因素也在其論域D中形成劃分H(D,g),其中的類叫結(jié)果類,記作cg,它的表現(xiàn)論域記為B=g{d|dcg}.命題1-1A(x)B(y)是恒真句當且僅當相應(yīng)的條件類cf鉆入結(jié)果類cf,亦即cfcg.證明用基本定理來證明.取X=I(f).Y=I(g)。如果f={f1,…,fn},則XY就是信息空間I.否則,它只是I的一個降維的子空間.此時,我們把背景關(guān)系R理解為它在此降維空間中的截集。這并不影響我們的證明.按照(AY)R(XB)R,A(x)B(y)是恒真句當且僅當(AY)R(XB)R。注意A=f(cf),(AY)R=F(cf),B=g(cg),(XB)R=F(cg),又注意F在H(D,F)和R之間是一一對應(yīng)的,故(AY)R(XB)R當且僅當cfcg.證畢定義2.15給定因果分析表(普通,隨機或模糊),若將cf行(對象在cf中的行)從表中刪除而建立一條規(guī)則A(x)B(y).稱此動作為因果提枝。A(x)叫做枝節(jié),B(y)叫做枝葉.命題1-1證明了規(guī)則提枝的合理性.規(guī)則提枝是規(guī)則提取的基本單元,是學(xué)習(xí)歸納的基本動作,反映了人腦思維的邏輯性.因果分析就要對事物的因果關(guān)系進行分析,這樣定義是太寬泛了。有了定義2.15,我們便可對因果分析的內(nèi)容作如下比較準確的解釋:因果分析是以決策為目的而啟動的以因果提枝為構(gòu)件的學(xué)習(xí)、歸納、概念劃分與推理的交替活動.用少量的條件因素來確定類別,用簡捷的推理來刻畫概念,用少量的基點或參數(shù)來劃分疆域,用剪枝來消除噪音.通俗地說,因素分析如決策樹那樣是把因果提枝連成樹來進行決策.這里,決策是目標,最直接的目標是要區(qū)分好壞(概念劃分),為了劃分概念,就需要提取劃分的規(guī)則,這就需要對有指導(dǎo)的數(shù)據(jù)進行學(xué)習(xí),學(xué)習(xí)的結(jié)果要靠歸納.有了概念劃分,面對新的對象,要問它屬于哪個類別還要進行推理.概念與推理是互動的.有概念才有有推理,有推理才有有更深的概念(用推理句才能描述清楚的概念).所以,要強調(diào)過程的交替性.因果分析有四個重點內(nèi)容:1)用少量的條件因素來搞分類.怎樣才能做到少量二字呢?就是要區(qū)分條件因素對結(jié)果因素的影響程度.2)類別概念用簡練的推理句來描述.3)用少量的基點或參數(shù)來劃分疆域,這兩點都是決策樹所沒有涉及的.4)用剪枝來消除噪音。這是決策樹所亟待解決的實際問題.2因素空間中正向因果分析法2.1正向因果分析法原理及應(yīng)用因果分析有兩種不同的方相,第一個是從因到果的正向分析:內(nèi)涵由淺入深,外延從D到單個對象。每提取一枚枝葉,都要把枝節(jié)行(對象在枝節(jié)中的行)從表中去掉,把D換為余集或余集的某個子類.不斷地提枝直到換空.能夠換空的充分必要條件是:表中不存在條件相同而結(jié)果不同的兩行,叫做相容性條件.現(xiàn)在決策樹所走的都是這個方向.我們以上文中“表1某公司對顧客購買情況的數(shù)據(jù)列表”為例進行正向因果分析構(gòu)造正向因果決策樹.(1)從數(shù)據(jù)集中選擇k個點;(2)創(chuàng)建k個聚類,每個聚類將一個初始點作為它的中心聚類點;(3)對數(shù)據(jù)集中沒有作為中心聚類點的每個點x:首先找到和x最接近的中心k,然后將x添加到這個中心的聚類中,最后對這個聚類重新計算中心點.根據(jù)得到的權(quán)重為這五個恐怖組織計算唯一標識的特征值v,并與各自的單次襲擊危害性評估數(shù)值f組成特征向量(v,f)如表3-5所示.h(年齡)>h(收入)>h(學(xué)生)>h(信譽)由于年齡的決定度最大,先按它的決定類來進行因果提枝:年齡_中購買_買,將這個前件類從表中去掉,重新計算決定度年齡收入學(xué)生信譽購買頻數(shù)老平否良買60老低是良買64老平否優(yōu)不買64老平是良買132老低是優(yōu)不買64青低是良買64青平是優(yōu)買64青高否良不買64青高否優(yōu)不買64青平否良不買128表2-1表1-1刪除前件類2)比較收入與購買兩行,低、平所對的都又買有賣,都不是決定類;高字所對的全是買,是一個決定類,故只有一個決定類收入的決定度為:h(收入)=3/103)比較學(xué)生與購買兩行,是、否二字所對的都又買有賣,都不是決定類,‘學(xué)生’的決定度為:h(學(xué)生)=1/24)比較信譽與購買兩行,良、優(yōu)二字所對的都又買有賣,都不是決定類,‘信譽’的決定度為:h(信譽)=1/2h(信譽)=h(學(xué)生)>h(收入)由于收入的決定度最大,先按它的決定類來進行因果提枝:年齡_老且信譽_良購買_買;年齡_老且信譽_優(yōu)購買_不買;年齡_青且學(xué)生_是購買_買;年齡_青且學(xué)生_否購買_不買;刪去決定域,論域空,因果提枝的過程完畢。學(xué)習(xí)的結(jié)果是一組推理規(guī)則。這是一個學(xué)習(xí)歸納過程,最后畫出決策樹:圖2-1某公司對顧客購買情況正向因果樹有了這棵樹,就可以對新來的對象做出判斷推理和決策.這就是決策樹的方法,也就是正向因果分析法.2.2特點分析決策樹采用的是信息增益決定度.從理論上來說,這是衡量因素之間影響程度的最合理的測度.但是不能把它絕對化.如果我們不用鉆入決定度來排序,改用信息增益來排序,這個次序和決定度的排序截然不同.從表中可以看出收入對結(jié)果有重要影響,但其增益決定度卻很?。@是為什么呢?首先是因為樣本太小不能反映出熵的概率特征.其次,決定度是條件類鉆入結(jié)果類的入口量,誰鉆得快誰就排先.總之,不同的決定度適用于不同場合,不能一概而論.同時在我們進行節(jié)點分支時默認為下一個節(jié)點要在前一個節(jié)點完成后才能進行決策,這顯然是不符合常理的,所以,決策樹的節(jié)點的順序要在同時進行中體現(xiàn)先后順序亦決定度的強弱,其次決策樹只能反映因果之間聯(lián)系的規(guī)則,并不能體現(xiàn)規(guī)則的強弱,這就是我們所糾結(jié)的隨機性和模糊性的問題,在上文的正向因果分析中背景關(guān)系只是樣本的背景關(guān)系,并不能反映事件的全體,所以,因果分析中背景關(guān)系的隨機性和模糊性仍是我們要解決的問題.最后我們得到的正向因果樹中因果之間聯(lián)系的規(guī)則只有5條,因果之間聯(lián)系的規(guī)則較少導(dǎo)致并不能滿足實際工作的需要.所以對于正向因果分析還要有進一步的優(yōu)化.3因素空間中逆向因果分析法3.1逆向因果分析法理論建立為了優(yōu)化正向因果分析中的不足之處提出利用逆向因果分析來探究因果之間的聯(lián)系首先逆向連接是先用結(jié)果來分類,在每一類中分析條件的邏輯結(jié)構(gòu).給定因果分析表。它的每一行都是一個因果句,對每一行都可以作一個因果提枝.從結(jié)果反觀條件,把具有相同葉片的枝葉連接在一起形成一顆反向樹,這每一棵反向樹都在說明為了獲得某個結(jié)果所應(yīng)滿足什么條件,所寫出來的是一個析取范式.按邏輯學(xué)的最小化方法,可進行壓縮,最后所形成的每一個素蘊涵式就對應(yīng)一條因果取枝的規(guī)則.例2設(shè)因果分析表如表年齡職業(yè)還貸收入評價老中青中老老青青中教師教師學(xué)生雇主雇主雇主學(xué)生學(xué)生教師可佳中可中中下下佳中中低中低高高低高差好好好差好差差好表3-1因果分析表把所有相域中的相并成一個邏輯系統(tǒng)的字集:{A1,A2,A3,B1,B2,B3,C1,C2,C3,C4,D1,D2,D3},其中A1=青年,A2=中年,A3=老年,B1=學(xué)生,B2=教師,B3=雇主,C1=信譽壞,C2=信譽差,C3=信譽中,C4=信譽好,D1=低收入,D2=中收入,D3=高收入,G1=購買力好,G2=購買力差.按結(jié)果將樣本點按好差分為G1,G2兩類,每類可寫成析取范式(A2B2C4D2表示四字的和取,用+表示析?。篏1=A2B2C4D2+A1B1C3D1+A2B3C2D2+A3B3C3D3+A2B2C4D3G2=A3B2C2D2+A3B3C3D1+A1B1C1D3+A1B1C1D1R=G1+G2G2所含有的單字集合是:{A1,A3,B1,B2,B3,C1,C2,C3,D1,D2,D3},缺少A2和C4,故A2和C4是G1的素蘊涵項,將它們代入G1,并去掉蘊涵它們的項,得到G1=A2+A1B1C3D1+A3B3C3D3+C4繼續(xù)從第二項求簡化,從它中尋找在G2中不存在的二字組,A1B1C3D1的二字組有{A1B1,A1C3,A1D1,B1C3,B1D1,C3D1},其中A1C3和B1C3不在G2中出現(xiàn),故知道它們都是G1的素蘊涵項,將它們代入G1并去掉蘊涵它們的項,得到G1=A2+A1C3+B1C3+A3B3C3D3+C4繼續(xù)從第四項求簡化,從它中尋找在G2中不存在的二字組,A3B3C3D3的二字組有{A3B3,A3C3,A3D3,B3C3,B3D3,C3D3},A3D3,C3D3和B3D3在G2中不出現(xiàn),它們都是G1的素蘊涵項,將它們代入G1并去掉蘊涵它們的項,得到最小式G1=A2+A1C3+B1C3+A3D3+C3D3+B3D3+C4按照例2的方法對例1進行整理化簡,求其最小式即因果之間的聯(lián)系規(guī)則.3.2算例分析在例1中,把所有相域中的相并成一個邏輯系統(tǒng)的字集:{A1,A2,A3,B1,B2,B3,C1,C2,D1,D2,D3},其中A1=青年,A2=中年,A3=老年,B1=高收入,B2=平收入,B3=低收入,C1=是學(xué)生,C2=否學(xué)生,D1=差,D2=良,D3=優(yōu).按結(jié)果將樣本點按好差分為:G1=買,G2=不買,兩類,每類可寫成析取范式(A2B2C4D2表示四字的和取,用+表示析?。篏1=A2B1C2D2+A3B2C2D2+A3B3C1D2+A2B3C1D3+A1B3C1D2+A3B2C1D2+A1B2C1D3+A2B2C2D3+A2B1C1D2G2=A1B1C2D2+A1B1C2D3+A3B3C1D3+A1B2C2D2+A3B2C2D3R=G1+G2G2所含有的單字集合是:{A1,A3,B1,B2,B3,C1,C2,D2,D3},缺少A2和D1,故A2和D1是G1的素蘊涵項,將它們代入G1,并去掉蘊涵它們的項,得到G1=A2+A3B2C2D2+A3B3C1D2+A1B3C1D2+A3B2C1D2+A1B2C1D3繼續(xù)從第二項求簡化,從它中尋找在G2中不存在的二字組,A3B2C2D2的二字組有{A3B2,A3C2,A3D2,B2C2,B2D2,C2D2},其中A3D2不在G2中出現(xiàn),故知道它是G1的素蘊涵項,將它們代入G1并去掉蘊涵它們的項,得到G1=A2+A3D2+A3B3+C1D2+A1B3C1D2+A3B2C1D2+A1B2C1D3A3B3C1D2的二字組有{A3B3,A3C1,A3D2,B3C1,B3D2,C1D2},其中A3D2、B3D2和C1D2不在G2中出現(xiàn),故知道它們是G1的素蘊涵項,將它們代入G1并去掉蘊涵它們的項,得到G1=A2+A3D2+B3D2+C1D2+A1B3C1D2+A3B2C1D2+A1B2C1D3A1B3C1D2的二字組有{A1B3,A1C1,A1D2,B3C1,B3D2,C1D2},其中A1B3、A1C1、B3D2和C1D2不在G2中出現(xiàn),故知道它們是G1的素蘊涵項,將它們代入G1并去掉蘊涵它們的項,得到G1=A2+A3D2+B3D2+C1D2+A1B3+A1C1+B3D2+A3B2C1D2+A1B2C1D3A3B2C1D2的二字組有{A3B2,A3C1,A3D2,B2C1,B2D2,C1D2},其中B2C1和C1D2不在G2中出現(xiàn),故知道它們是G1的素蘊涵項,將它們代入G1并去掉蘊涵它們的項,得到G1=A2+A3D2+B3D2+C1D2+A1B3+A1C1+B2C1+A1B2C1D3A1B2C1D3的二字組有{A1B2,A1C1,A1D3,B2C1,B2D3,C1D3},其中A1C1和B2C1不在G2中出現(xiàn),故知道它們是G1的素蘊涵項,將它們代入G1并去掉蘊涵它們的項,得到最小式:G1=A2+A3D2+B3D2+C1D2+A1B3+A1C1+B2C1同理用類似的方法也可求到G2的最小式.G1所含有的單字集合是:{A1,A2,A3,B1,B2,B3,C1,C2,D2,D3},缺少D1故D1是G1的素蘊涵項,將它代入G2,在G2中也不存在D1,所以G2不變,得到G2=A1B1C2D2+A1B1C2D3+A3B3C1D3+A1B2C2D2+A3B2C2D3繼續(xù)簡化,從它中尋找在G1中不存在的二字組,A1B1C2D2的二字組有{A1B1,A1C2,A1D2,B1C2,B1D2,C2D2},其中A1B1和A1C2不在G1中出現(xiàn),故知道它們都是G2的素蘊涵項,將它們代入G2并去掉蘊涵它們的項,得到G2=A1B1+A1C2+A1B1C2D3+A3B3C1D3+A1B2C2D2+A3B2C2D3A1B1C2D3的二字組有{A1B1,A1C2,A1D3,B1C2,B1D3,C2D3},其中B1D3不在G1中出現(xiàn),故知道它是G2的素蘊涵項,將它代入G2并去掉蘊涵它的項,得到G2=A1B1+A1C2+B1D3+A3B3C1D3+A1B2C2D2+A3B2C2D3A3B3C1D3的二字組有{A3B3,A3C1,A3D3,B3C1,B3D3,C1D3},其中A3D3不在G1中出現(xiàn),故知道它是G2的素蘊涵項,將它代入G2并去掉蘊涵它的項,得到G2=A1B1+A1C2+B1D3+A3D3+A1B2C2D2+A3B2C2D3A1B2C2D2的二字組有{A1B2,A1C2,A1D2,B2C2,B2D2,C2D2},其中A1C2不在G1中出現(xiàn),故知道它是G2的素蘊涵項,將它代入G2并去掉蘊涵它的項,得到G2=A1B1+A1C2+B1D3+A3D3+A3B2C2D3A3B2C2D3的二字組有{A3B2,A3C2,A3D3,B2C2,B2D3,C2D3},其中A3D3不在G1中出現(xiàn),故知道它是G2的素蘊涵項,將它代入G2并去掉蘊涵它的項,得到G2的最小式:G2=A1B1+A1C2+B1D3+A3D3我們得到關(guān)于G1和G2的最小式為:G1=A2+A3D2+C1D2+A1B3+A1C1+B3D2+B2C1G2=A1B1+A1C2+B1D3+A3D3把最小式轉(zhuǎn)化為取枝規(guī)則很簡單,每一項都是一個規(guī)則的前件.例如,G1的第一項是A2,以A2作前件就得到一條規(guī)則:A2G1(若中年則購買)。這樣光是買的規(guī)則就有7條.比前面的正向因果分析法多了2條.這說明用正向因果分析法所提取的規(guī)則是不完全的.而當時,強調(diào)的不是完全性而是決策樹的簡捷性.為了迅速決策,越快分到葉子越好.所以,各有優(yōu)點.我們利用逆向分析優(yōu)化了正向分析時規(guī)則少的情況,之后我們要解決背景關(guān)系隨機性和模糊性的問題,背景關(guān)系決定了因果推理.如今背景關(guān)系只是樣本的背景關(guān)系,并不能概括整個事件的情況,所以引入背景分布理論將樣本視為抽樣的一種形式,考慮其的概率分布.根據(jù)例2(續(xù)前)只考慮條件因素,得到的背景分布(按頻率遞降排列):(老平是良)=132/1024=0.134;(中高否良)=(青平否良)=128/1024=0.124;(老低是良)=(中低是優(yōu))=(青低是良)=(青平是優(yōu))=(青高否良)=(青高否優(yōu))=(老低是優(yōu))=(老平否優(yōu))=64/1024=0.062;(老平否良)=60/1024=0.060;(中平否優(yōu))=(中高是良)=32/1024=0.031;將所有相域中的相并成一個邏輯系統(tǒng)的字集:{A1,A2,A3,B1,B2,B3,C1,C2,D1,D2,D3},帶入可得;(A3B2C1D2)=132/1024=0.134;(A2B1C2D2)=(A1B2C2D2)=128/1024=0.124;(A3B3C1D2)=(A2B3C1D3)=(A1B3C1D2)=(A1B2C1D3)=(A1B1C2D2)=(A1B1C2D3)=(A3B3C1D3)=(A3B2C2D3)=64/1024=0.062;(A3B2C2D2)=60/1024=0.060;(A2B2C2D3)=(A2B1C1D2)=32/1024=0.031;將各屬性的背景分布帶入的析取范式中可得:G1=0.124(A2B1C2D2)+0.060(A3B2C2D2)+0.062(A3B3C1D2)+0.062(A2B3C1D3)+0.062(A1B3C1D2)+0.134(A3B2C1D2)+0.062(A1B2C1D3)+0.031(A2B2C2D3)+0.031(A2B1C1D2)G2=0.062(A1B1C2D2)+0.062(A1B1C2D3)+0.062(A3B3C1D3+0.062(A1B2C2D2+0.124(A3B2C2D3)按照逆向因果分析提取結(jié)果相的最小式:G1=0.248(A2)+0.256(A3D2)+0.124(B3D2)+0.289(C1D2)+0.062(A1B3)+0.124(A1C1)+0.196(B2C1)G2=0.124(A1B1)+0.248(A1C2)+0.062(B1D3)+0.124(A3D3)規(guī)則對應(yīng)的概率分布為G1:A2=0.248/(0.248+0.256+0.289+0.062+0.124+0.124+0.196)=0.19A3D2=0.256/(0.248+0.256+0.289+0.062+0.124+0.124+0.196)=0.20C1D2=0.289/(0.248+0.256+0.289+0.062+0.124+0.124+0.196)=0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年上海交通大學(xué)集成電路學(xué)院射頻異質(zhì)異構(gòu)集成全國重點實驗室招聘行政崗位備考題庫及一套答案詳解
- 2026年廈門高新人才開發(fā)有限公司招聘備考題庫及1套參考答案詳解
- 2026年中化學(xué)科學(xué)技術(shù)研究有限公司招聘備考題庫及參考答案詳解1套
- 2026年湖北省黃石市單招職業(yè)傾向性測試題庫必考題
- 2026年東莞厚街湖景中學(xué)招聘臨時代課教師備考題庫及一套參考答案詳解
- 2026年泰山科技學(xué)院單招綜合素質(zhì)考試題庫必考題
- 2026年山西豐樂鑫農(nóng)種業(yè)有限公司招聘備考題庫及1套參考答案詳解
- 2026年河北省邯鄲市單招職業(yè)傾向性測試模擬測試卷新版
- 2025年盤州市劉官街道衛(wèi)生服務(wù)中心招聘備考題庫及1套完整答案詳解
- 2026年湖南有色金屬職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性考試題庫新版
- 綠色工廠課件
- 眼鏡驗光師試題(及答案)
- 選人用人方面存在的問題及改進措施
- 項目管理流程標準作業(yè)程序手冊
- 自我介紹禮儀課件
- 衛(wèi)生院孕優(yōu)知識培訓(xùn)課件
- 2025-2030工業(yè)窯爐煙氣多污染物協(xié)同控制技術(shù)
- 培訓(xùn)機構(gòu)臺賬
- 電商預(yù)算表格財務(wù)模板全年計劃表格-做賬實操
- 泵車日常管理辦法
- 骨科術(shù)后疼痛評估與護理查房
評論
0/150
提交評論