已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
[碩士論文精品]樸素貝葉斯分類模型的研究與應(yīng)用.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
樸素貝葉新分類模型的研究與應(yīng)用摘要樸素貝時(shí)斯分類囂是一秘麓單丙高效的分類囂,基于樸素貝葉斯技術(shù)魄分類是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。本文以突破樸索貝葉斯分類模型屬性間獨(dú)立性假設(shè)限制為研究?jī)?nèi)容,從兩個(gè)方面對(duì)樸素貝葉斯分類模型進(jìn)行了深入的研究,并將樸素炙葉斯分類模型應(yīng)用于指導(dǎo)學(xué)生選擇專業(yè)方向。本文主要工作如下1基于屬性相關(guān)性分析是改進(jìn)樸素貝葉斯分類模型的結(jié)構(gòu)。通過(guò)分析屬性相關(guān)性度爨和進(jìn)行屬性約簡(jiǎn),得瑤滿意豹屬性約筒子集。在藍(lán)基礎(chǔ)上提密一種基于爝性相關(guān)性度量的樸素貝葉靳分類模型EANBC。實(shí)驗(yàn)結(jié)果表明,與樸素貝葉斯分類模型相比,EANBC分類模型具有較高的分類正確率。2基于強(qiáng)屬性限定是對(duì)樸素貝葉斯分類模型的結(jié)構(gòu)進(jìn)行了筘展。通過(guò)分板貝葉斯定理的變形公式和屬性相關(guān)性度量,提出一轉(zhuǎn)豢予強(qiáng)屬性限定的貝葉斯分類模型SANBC。實(shí)驗(yàn)結(jié)果表明,與樸素貝葉斯分類模型相比,SANBC分類模型具有較高的分類正確率。3將素雁葉斯分類模型應(yīng)用予指導(dǎo)學(xué)生選擇專業(yè)方囪。遴過(guò)建立專業(yè)方向選擇的樸素貝葉斯分類模型,充分利用以往各屆學(xué)生選擇專業(yè)方向的先驗(yàn)知識(shí),指導(dǎo)學(xué)生根據(jù)自己的專業(yè)知識(shí)結(jié)構(gòu)以及專業(yè)知識(shí)的掌攥程度科學(xué)合理地選擇專業(yè)方羯。關(guān)鍵詞貝葉斯定理樸紊貝葉斯分類模型屬性相關(guān)性屬性約簡(jiǎn)RESEARCHANDAPPLICATIONOFNAIVEBAYESIANCLASSIFICATIONMODEABSTRACTNA魏REBAYESCLASSIFIERISASIMPLEANDEFFECTIVECLASSIFICATIONMETHODCLASSIFYINGBASEDONBAYESTECHNOLOGYHASGOTMOREANDMOREATTENTIONSINTHEFIELDOFDATAMININGINORDERTOGETRIDOFTHELIMITOFTHEASSUMPTIONOFINDEPENDENCEAMONGATTRIBUTESOFNAIVEBAYESIANCLASSIFIER,THISTHESISMAKESASTUDYOFTWOBAYESIANCLASSIFYINGMODEL,MEANWHILE,NAIVEBAYESIANCLASSIFICATIONMODELISAPPLIEDTOHELPSTUDENTSINSELECTINGSPECIALTIESDIRECTIONTHEMAJORWORKOFTHISTHESISISDESCRIBEDASFOLLOWBASEDONTHEEVALUATIONOFCONDITIONATTRIBUTEWITHCORRELATIONIMPROVESSTRUCTUREOFNAIVEBAYESIANCLASSIFICATIONMODELONTHEBASISOFANALYZINGTHEEVALUATIONOFCONDITIONATTRIBUTEWITHCORRELATIONANDATTRIBUTEREDUCTION,SATISFIEDATTRIBUTESREDUCTIONSETHASBEENGIVENACCORDINGTOTHISMETHOD。EANBCISPROPOSEDCOMPAREDWITHNAIVEBAYESIANCLASSIFICATIONMODEL,EXPERIMENTALRESULTSSHOWEANBCHASHIGHERACCURACYRESTRICTEDBAYESIANCLASSIFICATIONMODELBASEDONSTRONGATTRIBUTESEXTENDSTHESTRUCTUREOFNAIVEBAYESIANCLASSIFIERONTHEBASISOFANALYZINGAVARIANTOFBAYESTHEOREMANDTHEEVALUATIONOFCONDITIONATTRIBUTEWITHCORRELATION,SANBCISPROPOSED,COMPAREDWITHBAYESIANCLASSIFICATIONMODEL,EXPERIMENTALRESULTSSHOWSANBCHASHIGHERACCURACYTHEBAYESIANCLASSIFICATIONMODELISDESIGNEDTOHELPTHESTUDENTSWITHTHEIRSELECTIONOFAPPROPRIATESPECIALTIES,BYCONSTRUCTINGTHEBAYESIANCLASSIFICATIONMODELANDUSINGTHEEXPERIENCEGAINEDBYTHESTUDENTSINTHEPASTINTHEIRSELECTIONOFSPECIALTIES,STUDENTSCANBASETHEIRSELECTIONOFAPPROPRIATESPECIALTIESONTHEIRPERSONALKNOWLEDGEFRAMEWORK,MASTERYOFKNOWLEDGEINTHEIRFIELDSKEYWORDSBAYESTHEOREMNAIVEBAYESCLASSIFICATIONMODELATTRIBUTESWITHCORRELATIONATTRIBUTESREDUCTION插圖清單圖2一L樸素貝葉斯分類模型結(jié)構(gòu)示意圖11圖22SNBC分類模型結(jié)構(gòu)示意圖14圖23BAN分類模型結(jié)構(gòu)示意圖17圖2DBMN分類模型結(jié)構(gòu)示意圖18圖25主動(dòng)選擇優(yōu)先實(shí)例增量分類過(guò)程20表格清單表31兩個(gè)屬性A、B的頻度列表21表32兩種分類算法分類正確率比較29表41兩種分類算法分類正確率比較33獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)R進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)志和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得盒日B王些左堂或其他教育機(jī)構(gòu)的學(xué)位或證B而使IFJ過(guò)的材料。與我N工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。學(xué)17論文作者簽字易乏簽字日期2“,年月日學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解盒照些厶堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)邵川或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱或借閱。本人授權(quán)金月B王些盤L可以將學(xué)位論文的全部或部分論文內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。保密的學(xué)位論文在解密后適用本授權(quán)書(shū)學(xué)位論文者簽名彥乞?qū)熀灻?、么氛簽字日期卯,年萬(wàn)月U7日簽字日期“年學(xué)位論文作者畢業(yè)后去向R作單位淮南師范學(xué)院通訊地址淮南師范學(xué)院教務(wù)處電話05546673049郵編232001致謝在論文完成之際,首先感謝合肥工業(yè)大學(xué)給找這個(gè)學(xué)習(xí)和提高的機(jī)會(huì),特別是我的導(dǎo)師胡學(xué)鋼教授對(duì)我的悉心指導(dǎo),借此機(jī)會(huì)向他們表示衷心的感謝論文是在我的導(dǎo)師胡學(xué)鋼教授的悉心指導(dǎo)下完成的。胡教授嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度、淵博的專韭知識(shí)、敏銳的學(xué)術(shù)洞察力將對(duì)我以后的工作、學(xué)習(xí)產(chǎn)生深遠(yuǎn)的影晌。論文的字里行聞浸透了胡教授豹,血。胡教授在學(xué)術(shù)上帶給我宿遮,據(jù)寬了我的慧路,引導(dǎo)了我的學(xué)術(shù)思維。胡老髓在學(xué)術(shù)上對(duì)我要求嚴(yán)格,生活中是我的良師益友。我要感謝合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院的老師們給我的教誨、關(guān)心祁幫助。我還要感謝胡春玲同學(xué)給予我的幫助。在整個(gè)學(xué)習(xí)階段,我的工作單位給予了我很大的支持和鼓勵(lì),對(duì)此表示誠(chéng)摯的謝意。作者王峻2006年5月20目第一章緒論隨麓人類邁入嶄薪的倍惑時(shí)代,信息資源與L三|侯螬,尤其邋年來(lái)隨著計(jì)算糗科學(xué)技術(shù)耱邈獾發(fā)震、數(shù)攢疼幫詩(shī)算撬蕊終瓣廣泛瘟薅,菠數(shù)據(jù)瘁頒壤囂蘩蠹容、耨寢耀、薪技術(shù)層崮不舅,產(chǎn)生大爨鮑數(shù)據(jù)倍息。數(shù)據(jù)的率窩帶來(lái)了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求,數(shù)據(jù)挖掘就是在這種背景下產(chǎn)生并成為當(dāng)前人智能領(lǐng)域的麟究熱點(diǎn)。本拳媛遮了數(shù)據(jù)挖掘的磷懿和發(fā)嶷概況,鬟點(diǎn)介紹了其中的分類問(wèn)題,此外還給出了本文的內(nèi)容組織。L。1數(shù)瓣羧疆撬述111卡么怒數(shù)據(jù)挖掘數(shù)瓣挖掘“3DATAMINING,遣稱數(shù)據(jù)津中的知識(shí)發(fā)現(xiàn)KDD“,KNOWLEDGEDISCOVERYINDATABASES,鼴搬從大裂數(shù)據(jù)庫(kù)戴數(shù)據(jù)倉(cāng)庫(kù)中提取人們感溉趣的知識(shí)的過(guò)程,這些知識(shí)是隱宙的、事先未知的、潛在有熠的信息。提取的知漢一般霹表示為投念CONCEPTS、爆裂RULES,、嫂簿REGULATION、模式PATTERNS等影式。璃數(shù)搖癢系統(tǒng)來(lái)存德數(shù)據(jù),耀掇器學(xué)習(xí)酌方法分搽數(shù)據(jù),挖掘大萋數(shù)據(jù)背后蘊(yùn)含的知識(shí),這兩者的結(jié)合促成了數(shù)掰挖掘技術(shù)的產(chǎn)生。數(shù)據(jù)挖掘作為門交叉學(xué)科,涉及翻機(jī)器舉習(xí)、模式識(shí)剮、煙納推理、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)庫(kù)、數(shù)據(jù)可視化、專家系統(tǒng)、離性攜計(jì)算等多令領(lǐng)域。11。2數(shù)攢挖掘技術(shù)產(chǎn)生的鴛豢一、數(shù)掇挖掘技術(shù)翡應(yīng)翊器求分櫥數(shù)獺挖掘之所以吸引專家學(xué)者的研究興趣和,“泛關(guān)注,主翳是近年來(lái)隨著計(jì)算桃科學(xué)技術(shù)的迅猛發(fā)展、數(shù)據(jù)庫(kù)和計(jì)算機(jī)潮絡(luò)的廣泛應(yīng)用以及將數(shù)據(jù)轉(zhuǎn)換成鴦?dòng)弥R(shí)的追切震求。疑翦,備秘薪技術(shù)與數(shù)撼庫(kù)技術(shù)的肖搬縫合,鑊數(shù)據(jù)露領(lǐng)域豹耨內(nèi)容、耨應(yīng)嗣、灝技術(shù)鼷出不窮,形成龐大熬數(shù)攆瘁家庭,產(chǎn)生海蘩翡數(shù)爨穗患。然磊傳統(tǒng)熬數(shù)褥分輯手段綴難對(duì)數(shù)據(jù)逡行添層次鶼疑理并獲取有價(jià)值魏知識(shí),導(dǎo)致了“數(shù)援爆炸憾麴識(shí)貧乏”現(xiàn)象豹產(chǎn)生。豳紕人們希攫能夠智能、自動(dòng)地對(duì)數(shù)據(jù)進(jìn)行熙商層次的分析,撼捌數(shù)據(jù)背后蘊(yùn)宙的許多重要的信息以便巍分地和用這些數(shù)據(jù)。新的需求推劫新技術(shù)的誕生,這就是數(shù)據(jù)挖掘技術(shù)產(chǎn)生的疵尾霈求鴛景。二、數(shù)囂絕擒技零產(chǎn)壘茲技寒蘩豢努耩數(shù)攢挖掘技術(shù)的提出翱廣泛的接受是由于計(jì)算機(jī)及箕相關(guān)技術(shù)的發(fā)展為其提供了研巍和應(yīng)用的技術(shù)基礎(chǔ)。歸納數(shù)攢挖掘產(chǎn)生的技術(shù)背景,下面一些相關(guān)技術(shù)豹發(fā)腿起至G了決定性豹炸明1、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)蒡鞋INTERNET等信息按術(shù)的發(fā)展;2、計(jì)算機(jī)性能的提高和先進(jìn)的體系結(jié)構(gòu)的發(fā)展3、統(tǒng)計(jì)學(xué)和人工鏹能等方法在數(shù)據(jù)分壽廳中的研究積應(yīng)周。計(jì)算機(jī)芯片技術(shù)的發(fā)展使計(jì)算楓的處理和存儲(chǔ)能力目益提高;計(jì)算梳的體系結(jié)構(gòu),特別是并行處理技術(shù)的同趨成熟和普遍應(yīng)用,已成為支持大型數(shù)據(jù)庫(kù)處理應(yīng)用的旗礎(chǔ)計(jì)算機(jī)性能的提贏和先進(jìn)的體系結(jié)構(gòu)的發(fā)展使數(shù)據(jù)挖搦技術(shù)豹研究和應(yīng)蠲成為可能。歷經(jīng)幾十年的發(fā)展,包括基于統(tǒng)計(jì)學(xué)、人工智能等在內(nèi)的理論與技術(shù)成果已經(jīng)被成功地應(yīng)用到數(shù)據(jù)的處理和分析中,這娥應(yīng)用從某種意義上為數(shù)據(jù)挖掘技術(shù)的提出和發(fā)展起到了極大的推動(dòng)作用。正是出于實(shí)際的需求和相關(guān)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)方逐步發(fā)展起象。強(qiáng)前數(shù)據(jù)挖掘技術(shù)巴成為國(guó)際上數(shù)據(jù)庫(kù)和信息決策領(lǐng)域的最前沿的研究方向之一。12數(shù)據(jù)挖掇的現(xiàn)實(shí)意義數(shù)據(jù)挖掘技術(shù)無(wú)疑在科學(xué)研究方麗具有重大意義。在僚患基極為龐大的天文、氣象、生物技術(shù)等領(lǐng)域,大量的實(shí)驗(yàn)和觀測(cè)數(shù)據(jù)靠傳統(tǒng)的數(shù)據(jù)分析工具難以處理,借助數(shù)據(jù)挖掘技術(shù)分析這蝗海量數(shù)據(jù),可以極大地提高科學(xué)客發(fā)現(xiàn)知識(shí)的效率。嗣前在這方殛已獲得熱重要的應(yīng)用成果,鍘如,美國(guó)加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室與天文學(xué)家合作開(kāi)發(fā)的SKICAT系統(tǒng)通過(guò)對(duì)幾百萬(wàn)個(gè)天體進(jìn)行分類,幫助天文學(xué)家發(fā)現(xiàn)了16個(gè)新的類星體;專家系統(tǒng)DENDRAL根據(jù)質(zhì)譜儀提供的數(shù)據(jù),能夠發(fā)現(xiàn)已知或未知的高分子化合物的分子結(jié)構(gòu)機(jī)器學(xué)習(xí)系統(tǒng)BACON根據(jù)已有實(shí)驗(yàn)和觀測(cè)數(shù)據(jù),蒸頹發(fā)現(xiàn)歐姆定律、凱普勃定律,當(dāng)然氌可以從新的實(shí)驗(yàn)和觀測(cè)數(shù)據(jù)中發(fā)現(xiàn)新的物理和天體定律。數(shù)據(jù)挖掘技術(shù)在其它方面也具有同樣重要的作用。例如,在金融投資方面,在進(jìn)行投資決策之前,需要對(duì)各種投資方向的有關(guān)數(shù)據(jù)進(jìn)行分析,以選擇最佳的投資方囪。數(shù)據(jù)挖掘可以通過(guò)對(duì)已有數(shù)據(jù)進(jìn)行處理,嗣蠲學(xué)習(xí)褥到的模式進(jìn)行市場(chǎng)預(yù)測(cè)。在保險(xiǎn)業(yè)方面,保險(xiǎn)怒一項(xiàng)風(fēng)險(xiǎn)業(yè)務(wù),保險(xiǎn)公司可以利用數(shù)據(jù)挖掘技術(shù)進(jìn)行風(fēng)險(xiǎn)分析,在保險(xiǎn)公司建立的保單及索賠信息庫(kù)的基礎(chǔ)上,礙找保單中風(fēng)險(xiǎn)較大的領(lǐng)域,從麗得出一些實(shí)用的控制風(fēng)險(xiǎn)的策略,指導(dǎo)保險(xiǎn)公司工作。在制造業(yè)方面,利瘸數(shù)據(jù)挖掘技術(shù)進(jìn)行零件救障診斷、資源優(yōu)化、生產(chǎn)過(guò)程分析等,通過(guò)對(duì)生產(chǎn)過(guò)程進(jìn)行分析,發(fā)現(xiàn)容易產(chǎn)生質(zhì)量問(wèn)題的工序及相關(guān)故障因素。1,3數(shù)據(jù)挖掘技術(shù)磽究毯狀和發(fā)展趨勢(shì)目前,對(duì)數(shù)據(jù)挖掘的研究主要體現(xiàn)在以下幾個(gè)方面一是對(duì)知識(shí)發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如近年來(lái)注重對(duì)BAYES貝葉斯方法以及BOOSTING方法的研究;二是傳統(tǒng)魄統(tǒng)計(jì)學(xué)回歸法在數(shù)握挖掘中的應(yīng)用;三是數(shù)掘挖掘技術(shù)與數(shù)據(jù)庫(kù)的結(jié)合越來(lái)越緊密。在應(yīng)用方面,數(shù)據(jù)挖掘商渡軟件工具不斷產(chǎn)生和完善,國(guó)外很多計(jì)算機(jī)公司非常重視數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)應(yīng)用,比較欺型的有SAS公司的EHTERPRISEMINER,IBM公司豹INTELLIGENTMINER,SGI公司的SETLLINER,SPSS公司豹CLEMENTINE等。數(shù)據(jù)挖掘的研究趨勢(shì)體現(xiàn)在以下幾個(gè)方面?!?挖掘方法和用戶交互問(wèn)題這反映在所挖掘的知識(shí)類烈、在多粒度上挖掘矢瑟識(shí)豹能力、領(lǐng)域知識(shí)的使焉、特定的挖掘積知識(shí)顯示2性能問(wèn)題包括數(shù)據(jù)挖掘算法的有效性、可伸縮性和并行處理以及分布式和增量挖掘算法3挖掘中的可視化方法使得知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在婦識(shí)發(fā)現(xiàn)遙程中的人梳交互;4加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘如文本數(shù)據(jù)、圖形圖象數(shù)據(jù)、多媒體數(shù)據(jù)5研究在皤絡(luò)環(huán)境下的數(shù)據(jù)挖撼技術(shù)特別是在INTERNET上建立DMSERVER與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘。14數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的主要任務(wù)是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人們理解豹模式,挖掘數(shù)據(jù)背后蘊(yùn)含的許多蘑螫的信惠以便充分地剎用這些數(shù)據(jù)。數(shù)據(jù)挖掘的兩個(gè)商層次目標(biāo)是預(yù)測(cè)和描述。前者是根據(jù)一些變量或數(shù)據(jù)庫(kù)的若干已知字段預(yù)測(cè)其他感興趣的變量或字段的未知的或朱來(lái)的值;后者是找到描述數(shù)據(jù)豹霹理解模式。撮據(jù)發(fā)現(xiàn)的知識(shí)的不同,我們霹以將數(shù)據(jù)挖握任務(wù)歸納為以下幾類”“”。1特征規(guī)則特征規(guī)則挖掘是把所有數(shù)據(jù)滿足的概念特征化。特征規(guī)則挖掘能夠總結(jié)并發(fā)現(xiàn)用戶指定的數(shù)據(jù)集的一般特征,從而從與學(xué)習(xí)任務(wù)相關(guān)的一級(jí)數(shù)蕹中提取邕關(guān)予這魏數(shù)據(jù)豹特程式,這些糖挺式表達(dá)了該數(shù)據(jù)集總體特匝。例如可以從某種疾病的癥狀中提取莠于該疾病的特征規(guī)則等。2序列模式是指在多個(gè)數(shù)據(jù)序列中發(fā)現(xiàn)共同的行為模式。序列模式發(fā)現(xiàn)算法的框架與發(fā)瑗關(guān)聯(lián)搋則相同。例如,對(duì)于某顧客,在序列數(shù)據(jù)庫(kù)中,序硼模式發(fā)現(xiàn)問(wèn)題就是在該數(shù)據(jù)庫(kù)中尋我所有的頻繁_|學(xué)列或所有的最長(zhǎng)頻繁序列。RAGRANAL稱最長(zhǎng)頻繁序列為序列模式。3分類在數(shù)據(jù)挖掘的各種方法中,分類是一種主要的分析手段,黲在生成一個(gè)分類鹺數(shù)或分類模型,由該橫鍪把數(shù)據(jù)癢中的數(shù)據(jù)琰陵射到某一饗定類別中,從麗實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類。分類問(wèn)題被廣泛應(yīng)用于疾病診斷、銀行信貸等領(lǐng)域。目前研究的分類模型主要有決策樹(shù)、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、粗糙集、統(tǒng)計(jì)方法、遺傳算法等。本文的研究是基于樸素貝葉瓶分類模型的改進(jìn)。4關(guān)聯(lián)覯雕關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的一個(gè)重要的、高度活躍的頒域。關(guān)聯(lián)性用來(lái)發(fā)現(xiàn)一組項(xiàng)目之間的關(guān)聯(lián)關(guān)系和相關(guān)關(guān)系,它們經(jīng)常被襲達(dá)為瓶剛形式。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的任務(wù)就是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)那些確信CONFIDENCE郄支持度SUPPORT都大予給定僮的強(qiáng)規(guī)則。近幾年對(duì)關(guān)聯(lián)規(guī)則硪究頗多,研究工作已經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多個(gè)概念層的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),隨著概念層次的不斷深入,使發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則能提供更其體的信息。關(guān)聯(lián)瞧分亳厙廣泛應(yīng)用予交易數(shù)提分韋廳,透過(guò)分柝結(jié)果來(lái)知道銷售、羈錄設(shè)詩(shī)及其健市場(chǎng)決策的制定。例如,在分析美國(guó)加州某連鎖店的銷售記錄時(shí),發(fā)現(xiàn)下班以后購(gòu)買嬰兒尿布的男性顧客往往同時(shí)也會(huì)購(gòu)買啤酒。關(guān)聯(lián)憔問(wèn)題是數(shù)據(jù)挖掘中毖較成熟的越題。5聚類聚類足一種常見(jiàn)的描述性工作,搜索并識(shí)別一個(gè)有限的種類集合或簇集合,從而描述數(shù)據(jù)。簡(jiǎn)單地說(shuō),就是識(shí)別出一組聚類規(guī)則,將數(shù)據(jù)分成若干類。聚類的匿的是鑊屬于同一類別的個(gè)體之聞的躐離盡可能小雨不同類蹦的個(gè)體間的距離盡可能的大,也就是說(shuō),聚類使類內(nèi)個(gè)體間的相似性最大,麗類別問(wèn)的相似性最小。6預(yù)測(cè)預(yù)測(cè)楚構(gòu)造和使用模型評(píng)估無(wú)標(biāo)號(hào)樣本類,或評(píng)估給定樣本類可能具有的屬性傻或傣區(qū)聞。預(yù)測(cè)的殛類問(wèn)題是分類和豳歸,其中分類是預(yù)測(cè)離散或標(biāo)稱值,而回歸是用于預(yù)測(cè)連續(xù)或有序值。預(yù)測(cè)主要是根據(jù)已知數(shù)據(jù)項(xiàng)和預(yù)測(cè)模型,預(yù)測(cè)該數(shù)據(jù)項(xiàng)特定屬性的值,預(yù)測(cè)也包含基于可用數(shù)據(jù)的分布趨勢(shì)識(shí)別,連續(xù)性的預(yù)測(cè)可以用回歸統(tǒng)計(jì)技術(shù)建模。7變化和偏差分析變化和偏差分析是探測(cè)數(shù)據(jù)現(xiàn)狀、歷史記錄或標(biāo)準(zhǔn)之間的盟著變化和偏離,儡差包括很大一類潛在的有趣知識(shí)。如觀測(cè)結(jié)果與期望的偏離、分類中的反掌實(shí)例、模式的例鈴等。15數(shù)據(jù)挖掘中的分類問(wèn)題分類”1是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的一個(gè)熏要研究課題。它旨在生成一個(gè)分類函數(shù)或分類模型,對(duì)由屬性集描述的實(shí)例指定最適合的類標(biāo)簽,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)麴分類。數(shù)據(jù)分類一般分為兩個(gè)步驟第一步建立分類模型,描述預(yù)定的數(shù)據(jù)類集或概念集。通過(guò)分析有屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。通常分類器用分類規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供。常雕的分類器模型鴦決策樹(shù)、決策表、貝時(shí)贛方法、神經(jīng)潮絡(luò)、遺傳算法等。第二步使用建立的分類模型對(duì)新的數(shù)據(jù)集進(jìn)行劃分,主要考慮分類規(guī)則的準(zhǔn)確性、矛屠劃分的取舍等。一個(gè)好豹分類規(guī)剿集合應(yīng)該是對(duì)新的數(shù)據(jù)集而言具有很高的準(zhǔn)確性、盡可能少的矛盾劃分和較少的規(guī)則集。151常用的幾種分類模型、決策樹(shù)決策樹(shù)是常用的分類模型之一,它利用樹(shù)中從根到葉子節(jié)點(diǎn)的路經(jīng)表示分4類規(guī)則,其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)屬性上的測(cè)試,每個(gè)封節(jié)點(diǎn)代表類或類分布,楗的最獗層節(jié)點(diǎn)是根節(jié)點(diǎn)。決篆楗方法的優(yōu)點(diǎn)是可理解性較強(qiáng),比較直觀,缺點(diǎn)是處理復(fù)雜數(shù)據(jù)時(shí),受噪音數(shù)據(jù)等因素的影響而導(dǎo)致出現(xiàn)過(guò)多碎片。ID3算法是較翠也是最著名豹決策樹(shù)算法,在ID3算法的基礎(chǔ)上,又演化出ID3增強(qiáng)版及C45、CART、CHAID,后期的改進(jìn)算法有0UEST和PUBLIC,目前推出一些可伸縮性的決策樹(shù)算法,如SLIQ、SPRINT、“雨林”和BOAT算法等。二、貝葉斯方法煲時(shí)斯分類模型是哥孛典型的基于統(tǒng)計(jì)方法盼分類模型。強(qiáng)葉袋定理是妥葉斯理論中最重要的一個(gè)公式,是貝葉斯學(xué)習(xí)方法的理論基礎(chǔ),它將事件的先駿概率與后驗(yàn)概率巧妙地聯(lián)系起來(lái),充分利用先驗(yàn)信息和樣本數(shù)據(jù)信息確定事件的后驗(yàn)概率。貝葉欺分類器分為兩耱種是樸素貝葉斯分類器,它是貝葉斯分類模型中一種最簡(jiǎn)單、有效的而且在實(shí)際使用中很成功的分類器,其性能可以與神經(jīng)網(wǎng)絡(luò)、決策樹(shù)相媲美1。樸素貝時(shí)顛分類模型基于假定特征向量豹各分量闋相對(duì)于決策交量是相對(duì)獨(dú)立的,即條件獨(dú)立性假設(shè)。盡管這一假定在一定程度上限制了樸素貝葉斯分類模型的適用范圍,但在實(shí)際應(yīng)用中,降低了貝葉斯網(wǎng)絡(luò)構(gòu)建的復(fù)雜性。樸素貝葉斯分類模型己成功翹應(yīng)用到聚類、分類等數(shù)據(jù)挖掘的任務(wù)中。當(dāng)然樸素受葉薪分類模型仍有需要改進(jìn)的地方,條孛獨(dú)立性假設(shè)在一定程度上限制了樸素貝葉斯分類模型的使用范圍,因此人們開(kāi)始研究放松獨(dú)立性條件的限制,以提高樸素貝葉斯分類器的分類性能。為了突破樸素貝葉斯分類器的獨(dú)立性假設(shè)條件的限制,人們通過(guò)改變其結(jié)構(gòu)假設(shè)的方式來(lái)達(dá)到髫的。例如半轉(zhuǎn)素貝葉斯分類器SNBCSEMINAIVEBAYESIANCLASSIFIER、樹(shù)擴(kuò)張型貝葉斯分類器TANTREEAUGMENTEDBAYESIANCLASSIFIER及增強(qiáng)型貝葉斯分類器BANBAYESIANNETWORKAUGMENTEDNAIVEBAYES鬈。另一種是貝葉斯網(wǎng)絡(luò)分類器,貝葉斯網(wǎng)絡(luò)又稱為信念網(wǎng)絡(luò),它是基于后驗(yàn)概念的貝葉斯定理。貝葉斯網(wǎng)絡(luò)是一個(gè)有向無(wú)環(huán)閣,其中結(jié)點(diǎn)代表論域中的變量,鴦向弧代表變量的關(guān)系,變量之聞的關(guān)系強(qiáng)弱盤結(jié)點(diǎn)與其父結(jié)點(diǎn)之澎的條件概率來(lái)表示,通過(guò)貝葉斯網(wǎng)絡(luò)可以準(zhǔn)確地反映實(shí)際應(yīng)用中變量之聞的依賴關(guān)系。貝葉斯網(wǎng)絡(luò)可用于分類、聚類、人工神經(jīng)網(wǎng)絡(luò)、預(yù)測(cè)和因果關(guān)系分析等。貝時(shí)鬏網(wǎng)絡(luò)分類器具有很強(qiáng)馳學(xué)習(xí)、雄理能力,能很好地利用先驗(yàn)知識(shí)。三、神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)”“”是大量的簡(jiǎn)單神經(jīng)元按一定規(guī)則連接構(gòu)成的網(wǎng)絡(luò)系統(tǒng)。它通過(guò)模擬人類大腦的結(jié)構(gòu)和功能,采用某種學(xué)習(xí)算法從訓(xùn)練樣本中學(xué)習(xí),并將獲取的知識(shí)存儲(chǔ)在網(wǎng)絡(luò)各單元之閥的連接投中。神經(jīng)網(wǎng)絡(luò)豹分類過(guò)程分為訓(xùn)練和分類兩個(gè)階段。在訓(xùn)練階段,酋先定義網(wǎng)絡(luò)的拓樸結(jié)構(gòu),秀對(duì)訓(xùn)練樣本中的每個(gè)屬憔的傣進(jìn)行規(guī)范化預(yù)處理,然后用神經(jīng)網(wǎng)絡(luò)對(duì)已預(yù)處理的輸入進(jìn)行學(xué)習(xí),訓(xùn)練究畢艨,周訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)識(shí)樣本進(jìn)持分類。目前神經(jīng)網(wǎng)絡(luò)模型很多,反向傳播模型BP模型是最典型的神經(jīng)網(wǎng)絡(luò)。葭向傳播算法是在多層前饋神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí),在學(xué)習(xí)時(shí),稅值向量任意給出,反自傳播透過(guò)迭代處理一鰓訓(xùn)練樣本,將每個(gè)樣本的網(wǎng)絡(luò)鞭測(cè)與實(shí)際已知遂的類標(biāo)號(hào)進(jìn)行比較、學(xué)習(xí),通過(guò)修改權(quán),使網(wǎng)絡(luò)預(yù)測(cè)與實(shí)際類之間的均方差最小。神經(jīng)嗣絡(luò)的優(yōu)點(diǎn)是抗干擾能力強(qiáng),對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)有較好的預(yù)測(cè)分類能力。神經(jīng)瓤絡(luò)的缺點(diǎn)是用加投鏈連結(jié)單元的網(wǎng)絡(luò)表示酌知識(shí)很難被人鋸理解。四、遺傳算法遺傳算法”是模擬生物進(jìn)化過(guò)程的全局優(yōu)化方法,通過(guò)繁殖、交叉、變異,在求解空間按一定的隨機(jī)規(guī)則迭代搜索,直到求得問(wèn)題的最優(yōu)解。根據(jù)適者生存漿原則,形成當(dāng)蘺群體中最適合的規(guī)劃組成耨的群體,以及這糕規(guī)則的盾代。規(guī)則的適合度是用它對(duì)訓(xùn)練樣本集的分類準(zhǔn)確度來(lái)進(jìn)行評(píng)估。后代通過(guò)使用交叉和變異等遺傳操作來(lái)刨建。在交叉操作中,來(lái)自規(guī)則對(duì)的子串交換,形成新豹規(guī)則對(duì);在變異操作中,蔑則串箍機(jī)選擇的位被反轉(zhuǎn),由先前的規(guī)剩群體產(chǎn)生新的規(guī)則群體的過(guò)程繼續(xù),直到群體P進(jìn)化,P中的每個(gè)規(guī)貝哇滿足預(yù)先指定的適合度閾值。遺傳算法易于并行,并且已用于分類和其他問(wèn)題的優(yōu)化,但遺傳算法過(guò)于復(fù)雜。纛、糕糙集合粗糙集理論”“1可以用于分類,發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)搌內(nèi)在的結(jié)構(gòu)聯(lián)系,它用于離散值屬性。粗糙集理論基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類的建立,形成等價(jià)類的掰有數(shù)據(jù)樣本是不加區(qū)分豹。祖糙集理論是罔元素的成員關(guān)系函數(shù)、概念的上近似和下近似等來(lái)刻劃知識(shí)處理的方法。盎不可區(qū)分關(guān)系確定給定論域的等價(jià)類,使用粗糙集合相應(yīng)的公式計(jì)算條件屬性和決策屬性的依賴性,通過(guò)數(shù)據(jù)約箍在保持分類一致的約束下簡(jiǎn)化樣本數(shù)據(jù),從而削減冗余對(duì)象和屬性,尋求屬性提取最小子集以確保產(chǎn)生瀵意的近似分類,由此褥出知識(shí)的相對(duì)約簡(jiǎn)和相對(duì)核以及種類的相對(duì)約簡(jiǎn)和相對(duì)核等目標(biāo)數(shù)據(jù),通過(guò)對(duì)目標(biāo)數(shù)據(jù)的分李行,使用很少的邏輯瓶剛就能描述分類規(guī)剮。六、關(guān)聯(lián)規(guī)煎|J關(guān)聯(lián)嫂則挖掘是數(shù)據(jù)挖掘罨玨究的一個(gè)重要的、高度活躍的領(lǐng)域。關(guān)聯(lián)性眉來(lái)發(fā)現(xiàn)一組項(xiàng)目之間的關(guān)聯(lián)關(guān)系和相關(guān)關(guān)系,它們經(jīng)常被表達(dá)為規(guī)則形式。關(guān)聯(lián)蕊劉”。是KDD研究中的一個(gè)重要的研究課題,關(guān)聯(lián)規(guī)則廣泛地應(yīng)用于各個(gè)領(lǐng)域。目前關(guān)聯(lián)般則的挖掘已經(jīng)取得了令人矚目的成果,根據(jù)研究方囊豹不同可分為多循環(huán)方式的挖掘算法、并行挖掘算法、增量式更新算法、基于約束條件的關(guān)聯(lián)規(guī)剛挖掘和挖掘多值屬性的關(guān)聯(lián)規(guī)則。近年來(lái),數(shù)據(jù)挖掘已將關(guān)聯(lián)規(guī)則挖掘用于分類,并已取樽綴好的效粟。ARCS是基于聚類挖撼必聯(lián)援則,然后餿髑規(guī)則進(jìn)行分類;CBA是關(guān)聯(lián)分類,它將分類規(guī)則挖掘與關(guān)聯(lián)規(guī)則結(jié)合在一起;CAEP使用項(xiàng)集支持度挖掘顯露模式,P髑予構(gòu)造分類;基予多繚關(guān)聯(lián)援則的分爽霹法CMAR是利用FPGROWTH算法挖攢關(guān)聯(lián)囊囊,建立類關(guān)聯(lián)分毒麓FP穩(wěn)。152分類模型酌評(píng)價(jià)分類模型可以從以下幾個(gè)方面進(jìn)行評(píng)價(jià)31預(yù)測(cè)準(zhǔn)確度預(yù)測(cè)凇確度是評(píng)價(jià)分類模濺的最廣泛的一種比較尺度,用于評(píng)價(jià)一個(gè)分類模受對(duì)于暇測(cè)將來(lái)數(shù)據(jù)螅準(zhǔn)確浚。常是的兩秘方法蕊保持幫次K交叉驗(yàn)涯注。2計(jì)算復(fù)雜度計(jì)算復(fù)雜度依賴予具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境。在數(shù)據(jù)挖掘中,由予操作對(duì)象遙常楚大穗的數(shù)據(jù)癢,囡此奎間和時(shí)間的簧雜度問(wèn)題將是非常熏要的一個(gè)環(huán)節(jié)。3橫烈描述的簡(jiǎn)潔度和掰勰釋性對(duì)于攬述濺的分類任務(wù),模型描述越簡(jiǎn)法,越其霹蜒器毪,越受歡逡。4鍵特性蹙分類模黧抗于撬麓力匏菠蕊,這涉及對(duì)予數(shù)撼集中噪聲數(shù)據(jù)或空缺數(shù)據(jù)的處理,它反應(yīng)在有躁聲數(shù)據(jù)或空缺數(shù)據(jù)的情況下模型是否有正確分類的能力。5W伸縮憔大部分的分類算法逶常假定數(shù)據(jù)量很小,算法的可伸縮4生意昧著對(duì)虧大爨數(shù)據(jù)能否具蠢蠢效的梅造模型的縫力。6零文豹逡騫縫緩本文由六章組成第一取主要分紹了數(shù)據(jù)摭掘及其研究對(duì)象陷發(fā)展臻狀秘泰采趨勢(shì),詳細(xì)鰨述了數(shù)據(jù)撼掘中各種分類問(wèn)題的定義、方法以及分類模型評(píng)價(jià)的標(biāo)準(zhǔn)等。最后餐要給澎了文章熬組織結(jié)搦。餐二顰系統(tǒng)奔繕了受升辮分類戇基本理論,謹(jǐn)綴黌透了晁耱露羈豹愛(ài)背贛分類模型樸素貝時(shí)焱分類摸黧、貝時(shí)贛網(wǎng)絡(luò)模濺及增量貝時(shí)新分類模型等,并分析了各種分類模型的優(yōu)缺點(diǎn)。第三攀是本文的核心陡釋。本豢介紹了屬轂棚關(guān)牲的度量方法,并運(yùn)蔫此方法對(duì)條件屬性進(jìn)行約簡(jiǎn),從砸改善了條俜屬性闋的依賴程度,騷化獨(dú)立性條串緩設(shè),蒡在茂基磴上褥弱瞧終麓專羚素愛(ài)焱分類兩穆詩(shī)算方法穩(wěn)縷會(huì),撬毒了一矜熬予矮縫穩(wěn)關(guān)整浚爨靜靜素受盱簸分類摸鍪EANBC,遮擇UCI稅器學(xué)習(xí)數(shù)據(jù)庫(kù)撼供的典型數(shù)據(jù)麾實(shí)例,通過(guò)實(shí)驗(yàn)對(duì)EANBC舅法和NBC辣法進(jìn)行了比較,實(shí)驗(yàn)襲明,EANBC算法分炎的準(zhǔn)確率優(yōu)于NBC算法。第飚辮是本文的核心內(nèi)容。通過(guò)分析貝時(shí)斯定理的變形公式和屬性相熒性7度量,介紹了強(qiáng)屬性的選擇方法,并提島一種基于強(qiáng)屬性限定的貝葉斯分類模型SANBC?;趶?qiáng)屬轂限定的貝葉袈分類模型是對(duì)樸素煲時(shí)矩分類模型的結(jié)構(gòu)進(jìn)行了擴(kuò)展,其目的是為了突破樸素貝葉斯分類模型特征屬性間獨(dú)立性假設(shè)限制,提高分類性能。文中給出構(gòu)造SANBC的算法,選擇UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)提供的典型數(shù)據(jù)癢實(shí)例,通過(guò)實(shí)驗(yàn)對(duì)SANBC算法幫NBC算法遂行了比較,實(shí)驗(yàn)表明,SANBC算法分類的正確率優(yōu)于NBC算法。第五章介紹樸素貝葉斯分類模型在指導(dǎo)學(xué)生選擇專業(yè)方向中的應(yīng)用,通過(guò)建立專業(yè)方彝選擇的補(bǔ)素貝時(shí)分類模型,指囂學(xué)生根據(jù)自己豹專韭知淤結(jié)構(gòu)合理地選擇專業(yè)方向,為學(xué)生的學(xué)習(xí)起一個(gè)科學(xué)導(dǎo)向作用。第六章對(duì)已做的工作進(jìn)行總結(jié),并對(duì)下一步的工作進(jìn)行了展望。8第二章貝葉斯理論和貝葉斯分類模型21引言分類“31是根據(jù)數(shù)據(jù)的不同特征將其劃分為不同的類別。在數(shù)據(jù)挖掘中,構(gòu)造分類模型可以使用許多不弱豹方法,婦決策封、貝嚀新分類法、神經(jīng)潮絡(luò)分類法等。通過(guò)對(duì)分類算法的比較研究發(fā)現(xiàn),貝葉斯分類算法可以與決策樹(shù)算法和神經(jīng)網(wǎng)絡(luò)算法相媲熒”1。對(duì)于大型數(shù)據(jù)庫(kù),樸素貝葉斯分類法也已表現(xiàn)出高準(zhǔn)確率與商速度。貝N斯分類是統(tǒng)計(jì)學(xué)分類方法,是建立在經(jīng)典的貝葉簸概率理論基礎(chǔ)上的基于統(tǒng)計(jì)方法靜分類模鼙,本章主要介紹貝葉斯基本理論和貝葉斯分類模型。22數(shù)理統(tǒng)計(jì)基礎(chǔ)理論221條J孛穰率和乘法定理在事件A已經(jīng)發(fā)生的條件下,事件占發(fā)生的概率,稱為事件占在給定事件A的條件概率也稱為后驗(yàn)概率,記作PBI爿。相應(yīng)地,PA稱為無(wú)條件概率也稱為先驗(yàn)概率。條件概率可以內(nèi)下式進(jìn)行詩(shī)箕邶等出條件概率可求導(dǎo)橛率的乘法定理PABP曰I爿尸彳對(duì)于“個(gè)事件彳L,彳2。A。,行2,則有PAJ,A2,A一PA”ITA2RANOPA一一LIALFA2AN一2PAIALP4】22。2全概率公式窩買峙頹定理設(shè)試驗(yàn)E的樣本空間為S,A為層的事件,蜀,丑,島為S的一個(gè)劃分,且PBO_OI1,2,“,貝4PAPAIB,PBOPF囂2P盤2P衛(wèi)I執(zhí)P囂R王PAIB,P曰,】上式稱為全概率公式。設(shè)試驗(yàn)E的樣本空闖為S,A為E豹事件,晟,曰2,一島為S的一個(gè)劃分,且PA卜0,PBOOI1,2,月,則由條件概率的定義和全概率公式;PBLPATB,PBOPAIBOPB9上式稱作貝葉斯定理N“。2。23極大厝驗(yàn)假設(shè)與極大戧然假設(shè)貝葉斯定理提供了一種計(jì)算假設(shè)概率的方法,它基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。我們用PH表示沒(méi)露謝練數(shù)據(jù)蘸緩設(shè)H擁用的初始概率。P國(guó)被稱為H的先驗(yàn)概率PRIORPROBABILITY,表示所擁有的關(guān)于H是一正確假設(shè)的概率的背景知識(shí)。用PD表示將要觀察的訓(xùn)練數(shù)據(jù)D的先驗(yàn)概率在沒(méi)有確定某一假設(shè)成立時(shí)D的概率。PDIH表示假設(shè)H成立的情況下數(shù)據(jù)D的概率,則由貝葉斯公式得出計(jì)算震驗(yàn)概率PHLD豹方法尸似IDPDIHPHPD在許多學(xué)習(xí)任務(wù)中,需要考慮候選假設(shè)集合H并在其中尋找給定的數(shù)據(jù)D時(shí)可能經(jīng)最大豹假設(shè)HH。任蠆這樣瑟有最大可能性豹假設(shè)被稱終極大壓驗(yàn)假設(shè)”“MAXIMUMAPOSTERIORI,MAP,記作HMAPHMMARGMAXPIDARGMAXPDPH尸DARGMAXPDI矗P由于PD是不依賴于H的常量,掰以在最看一步去掉PD,主式就是一個(gè)原始的分類模型。貝葉斯分類就是根據(jù)上述MAP假設(shè)找出新實(shí)例最可能的分類。所有對(duì)貝葉斯分類模型的研究工作都足以此為前提的。在某些憤況下,可骰設(shè)H中每個(gè)假設(shè)有楣網(wǎng)的先驗(yàn)概率朝對(duì)H中任意的HI和HJ,PHIPHJ,J玩辯可進(jìn)一步簡(jiǎn)化,只考慮PDIH來(lái)尋找極大可能假設(shè)。PDJH常被稱作極大似然假設(shè)MAXIMUMLIKELIHOOD,ML記為HML,HMLARGMAXPDL矗在分類遘程中,上式常被用來(lái)在癌發(fā)式搜索時(shí)進(jìn)行模型檢測(cè)。224事件的獨(dú)立性設(shè)爿,B是試驗(yàn)E的兩個(gè)事件,一般A的發(fā)生對(duì)B發(fā)生的概率是有影響的,這對(duì)P雪凈尸占,只鴦在這種影響存在時(shí)才會(huì)謝PBTAP囂,這時(shí)有PA憎PBIAPAPAPB則稱A,B為相互獨(dú)立棗件。閩樣,瓣于,2個(gè)事件塵;,A2,A。,如果有尸一1A2ANP一1PA2PAN則稱AL,爿2,。A。為相互獨(dú)立事件。2。3貝拜斯分類模墼分類有規(guī)則分類查詢和非規(guī)則分類有指導(dǎo)學(xué)習(xí)。貝葉斯分類是非規(guī)則分類,它遴過(guò)洲練集已分裝的例子巢訓(xùn)練而姻納出分類器被預(yù)測(cè)變量越離散的髂為分撰,連續(xù)的稱為回蜩,并利用分類囂對(duì)沒(méi)有分類的數(shù)撼避季亍分類。貝葉斯分類器中霄代表性豹分類器有樸紊貝時(shí)袋分?jǐn)\器、貝葉斯蠲絡(luò)分類器鞠樹(shù)擴(kuò)展的樸素貝時(shí)斯分類模型TAN分類器等。貝葉期分類兵有如下特點(diǎn)1愛(ài)贛努類莠不怒個(gè)對(duì)蒙縫霹篷撂派鯰榮一類,瑟楚遽遙詩(shī)箕褥窶羼于菜一類熬橇率,爨毒最大概率瓣類餒是渡對(duì)象掰瘸鵑類;2一般情況下在貿(mào)葉新分類中所有的屬性都潛在地起作用,即并不是一個(gè)或幾個(gè)屬憔決定分類,而是所有的屬性都參與分類3貝_斯分類對(duì)象的屬性可以是離散的、違續(xù)的,也可以愚混合的。擐攢繪囊靜訓(xùn)練集歸納爨分類囂足數(shù)攥攘掇蕊一頊重要聰潦本囂經(jīng)務(wù),在眾多靜分類囂中凌繁褥、決繁表、靜經(jīng)鼴絡(luò)稠凝糙集分類器等,斡豢委時(shí)蘩分類器以簡(jiǎn)單的結(jié)構(gòu)和良好的性能受到人們的關(guān)注,在理論上它在滿足萁限定條件下慰嫩優(yōu)的,針對(duì)其較強(qiáng)的限定條件,霹以嘗試著減弱獨(dú)立聚件以擴(kuò)大最優(yōu)范困,從麗產(chǎn)生更好的分類黼。2。3。1耪素受峙斯分類模型釋豢煲辭戇分類器NAIVEBAYESCLASSIFIER,NBC蹩燙時(shí)籟分類模壅中一耱最籍單、肖效的麗且在嶷鼯使用中綴成功的分類器“”?!?,箕性能可以與神經(jīng)網(wǎng)絡(luò)、決蘸樹(shù)相媲美,甚楚在某些場(chǎng)合優(yōu)于麒它分類器。樸桊瞰葉斯分類模型描述如圖2一L所示,設(shè)肖變量集UAI,A2,A。,CK其中AB一,扇是實(shí)鋌的震性愛(ài)爨,C燕取IN個(gè)德釃類變量。假設(shè)所霄躲屬性都條騖獨(dú)立于炎變爨C,餮每一個(gè)震幢交壁鬈激類交鏊搏為難一髓父節(jié)點(diǎn),藏褥裂矜素受時(shí)斯分類模型。潮21事卜素受時(shí)斯分類摸型絳穩(wěn)示意強(qiáng)樸綮貝葉斯分類模測(cè)假定特征向撩的各分掇間相對(duì)于決策變爨是相對(duì)獨(dú)立的,也就魁說(shuō)各個(gè)變量獨(dú)立地作用于決策變畿,盡管這一假定譙一定程度一七限鍘了樸素貝葉矯分類模型豹邋闋范匿,但在實(shí)際艘臻中,大大降低了貝時(shí)簸兩終鞫建懿復(fù)雜整。耱素燹L磚醞分類攘鼙已成凌遮藏震至L聚類、分類等數(shù)據(jù)攘藏勰任務(wù)中。一、樸素烈時(shí)新分類的工作過(guò)程1鐐個(gè)數(shù)據(jù)樣本羽一個(gè)N緞特征向量爿,X2,鼢表示,分別描述對(duì)N個(gè)屬性AL,一2,蠢,樣本的N個(gè)度爨。2假定有M個(gè)類C。,C,CM。給定一個(gè)未知的數(shù)據(jù)樣本X即沒(méi)有類標(biāo)號(hào),分類法將預(yù)測(cè)X屬于具有最高后驗(yàn)概率TCXT的類。樸素貝葉斯分類將未知的樣木分配給類CI,當(dāng)且僅當(dāng)尸GIPCJLX,LF,M,JI這樣,最大化PCJLX,PCL工最大的類CF稱為最大后驗(yàn)假定,根據(jù)貝葉斯定理爿C,IPXICOPOPX3由于PX對(duì)于所有類為常數(shù),只需要PXLCOPCI最大即可。如果類的先驗(yàn)概率未知,則通常假設(shè)這些類是等概率的,即PCPC2PC卅,并據(jù)此對(duì)尸GL最大化。類的先驗(yàn)概率可以用JPGSGS計(jì)算,其中哥是類A中的訓(xùn)I練樣本數(shù),而J是訓(xùn)練樣本總數(shù)。4給定具有許多屬性的數(shù)據(jù)集,計(jì)算PXC;的開(kāi)銷可能非常大。為降低計(jì)算PXLG的開(kāi)銷,可以做類條件獨(dú)立的樸素假定。對(duì)于給定樣本的類標(biāo)號(hào),假定屬性值相互條件獨(dú)立,即在屬性間不存在依賴關(guān)系。這樣,PXIGFIP溉LC,女】概率PZIO,尸XICJ,P,IG可以由訓(xùn)練樣本估計(jì),其中A如果M是分離散屬性,則PLGSMS,其中SM是在屬性M上具有值肼的類G的訓(xùn)練樣本數(shù),而M是G中的訓(xùn)練樣本數(shù)。B如果M是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而,11竺二竺21PX女LGG溉,“。,1蘭一P2“2、,Z瓤其中給定類G的訓(xùn)練樣本屬性M的值,G,面是屬性爿T的高斯密度函數(shù),而,分別為平均值和標(biāo)準(zhǔn)差。5為對(duì)未知樣本X分類,對(duì)每個(gè)類G,計(jì)算PXLCF尸G。樣本蓋被指派到類G,當(dāng)且僅當(dāng)PXIG尸GPXFGPC,1SF,JM,JI換言之,被指派到其PXLCOPO最大的類CF。樸素貝葉斯分類模型的優(yōu)點(diǎn)是1算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn);2算法實(shí)施的時(shí)間、空間開(kāi)銷小3算法性能穩(wěn)定,對(duì)于不同特點(diǎn)的數(shù)據(jù)其分類性能差別不大,即模型的健壯性比較好。二、樸素貝葉斯分類模型的改進(jìn)方法“”樸素貝葉斯分類器是基于一個(gè)簡(jiǎn)單的假定在給定分類特征條件下屬性值之闖是相互條件獨(dú)立的。在現(xiàn)實(shí)世界中,它的屬性獨(dú)立性假設(shè)使其無(wú)法襲示實(shí)際應(yīng)用中各屬性之間的依賴關(guān)系,影響了它的分類性能。因此浠要針對(duì)實(shí)際虛用對(duì)樸素貝葉斯分類器模挺進(jìn)行改進(jìn),使之在屬性獨(dú)立性假設(shè)不滿足的情況下依然具有較高的分類精確度。遂過(guò)分手廳,秘素貝葉顛分類耬的本質(zhì)是一種具壽程強(qiáng)艱制條件的貝葉額網(wǎng)絡(luò)分類器,僚是它限制條件太強(qiáng),不適于現(xiàn)實(shí)應(yīng)用。然而完全無(wú)限制條件的貝時(shí)斯網(wǎng)絡(luò)也是不現(xiàn)實(shí)的,因?yàn)閷W(xué)習(xí)這樣的網(wǎng)絡(luò)非常耗時(shí),其時(shí)間復(fù)雜度為屬性變量的指數(shù)級(jí),并且空間復(fù)雜度也非常贏。因此,研究樸素貝葉斯分類器的改進(jìn)模型,只能從這兩嚳之海來(lái)考察,即研究其有較寬松條孛限制的貝時(shí)斯稠絡(luò)分類器。1屬性刪除技術(shù)適用于存在冗余屬性的情況。LANGLEY和SAGE提出了一種基于屬性刪除的選擇性貝葉斯分類器。當(dāng)存在些屬性依賴于其他屬性,特別是存在冗余屬性時(shí),瘸性刪除方法確實(shí)能夠改善柃素貝時(shí)簸分類器的預(yù)溪精確度。2構(gòu)造新屬性或概率調(diào)整技術(shù)適用于某些屬性依賴于其他屬性時(shí)。PAZZANI等提出了通過(guò)相互依賴的屬性構(gòu)造一個(gè)新屬性,并用新屬性取代原來(lái)樞互依賴的那旗璃惶熬方法。這秘方法氌可戳視作為事先翡條件概率調(diào)整技術(shù)。WANG和WEBB等提出了一種準(zhǔn)懶惰式SEMILAZY的限制性貿(mào)葉斯網(wǎng)絡(luò)分類器的條件概率調(diào)整方法,在某些情況下可以減小誤分類率。3局部樸素貝葉頰分類器適用于屬性之間相互依賴的情形比較復(fù)雜的情況。這種方法是為屬性變量的每一秘取僮或某個(gè)范圍建立一個(gè)猙素貝時(shí)簸分類器,也就是說(shuō),單一的全局樸素貝葉斯分類器被許多局部樸素貝葉斯分類器所代替,將屬性獨(dú)立性假設(shè)放寬到只要局部屬性獨(dú)立就可以了。KOHAVI將樸素貝時(shí)斯分類器幫決策樹(shù)媚結(jié)合,閔一棵決策樾來(lái)分割實(shí)鍘空間,在每個(gè)葉子結(jié)點(diǎn)上建立局部樸素貝葉斯分類器。ZHENG冪1WCBB等利用懶惰式學(xué)習(xí)策略提出了種懶惰式貝葉斯規(guī)則LAZYBAYESIANRULE學(xué)習(xí)技術(shù),該方法將懶惰式技術(shù)應(yīng)用到局部樸素貝葉斯規(guī)則的歸納中。該算法雖然較大地提高了分類精確度,毽是效率綴低。為了提筒LBR的效率,WANG和WEBB給出了一種啟發(fā)式LBR算法和HLBR算法,可以有效地提高學(xué)習(xí)效率。LBR和HLBR是目前該方向上的最新研究成果之一。4樹(shù)擴(kuò)張型受醉疑方法FRIEDMAN等提出了一種樹(shù)擴(kuò)張黧貝時(shí)斯方法。這種方法的基本思路是放寬樸素貝葉斯的獨(dú)立性假設(shè)條件,擴(kuò)展樸素貝葉斯的結(jié)構(gòu),使其能夠容納屬性間存在具有某種特征的依賴關(guān)系。FRIEDMAN乖0用條件相互信息CONDITIONALMUTUALLNFORMATION建立屬性之瓣的依賴關(guān)系矩陣,構(gòu)造一棵最大權(quán)生成樹(shù)作為一個(gè)分類器。由于限制每個(gè)屬性結(jié)點(diǎn)最多有一個(gè)非類變量類標(biāo)的父結(jié)點(diǎn),也就是說(shuō)每個(gè)屬性結(jié)點(diǎn)最多僅依賴于一個(gè)非類標(biāo)結(jié)點(diǎn),使其表示依賴關(guān)系豹能力受到限制。5限定性雙層貝葉斯分類模型DLBAN“”祗洪波等提出了一種限定性的雙層貝葉斯分類模型DLBAN,這種方法的出發(fā)點(diǎn)是通過(guò)對(duì)屬性空間的搜索,拽出一些磚其健屬性有較強(qiáng)影響囂屬性,那么所有其他的屬性儀通過(guò)與這些屬性的關(guān)聯(lián)就可以將重要的依賴關(guān)系表示出來(lái)。232半樸素貝葉斯分類模獯為了突破樸素貝葉斯分類器的獨(dú)立性假設(shè)條件的限制,可以通過(guò)改變其結(jié)構(gòu)假設(shè)的方式來(lái)達(dá)到羈的,為此有入摁出了半樸素貝葉斯分類“3SNBCSEMINAIVEBAYESIANCLASSIFIER的構(gòu)想。從名稱可以看出,SNBC依然屬于樸素貝葉斯分類的范疇。SNBC的結(jié)構(gòu)比NBC緊湊,在SNBC的模型構(gòu)建過(guò)程中,依照一定的標(biāo)準(zhǔn)將關(guān)聯(lián)程度較大的基本屬性即NBC中的特征屬性合并在一起構(gòu)成“組合屬性”也稱之為“大屬性”。邏輯上,SNBC中的組合屬魅與NBC中的基本屬性沒(méi)有根本性差別,SNBC的各個(gè)組合屬性之間也是相對(duì)于類別屬性相互獨(dú)立的。圖22是SNBC分類模型結(jié)構(gòu)示意圖一IO_OJ對(duì)樸素貝葉艇分類模型進(jìn)行“提升”BOOSTING”們口“是在攀改變獨(dú)立性假設(shè)的前提下提高分類性能的一種方法。提升的方法是由FREUND和SCHAPIRE于1995年提出,其主要思想是從訓(xùn)練實(shí)例中學(xué)習(xí)一系列的分類器。每一個(gè)分類器根據(jù)翦一個(gè)分類器錯(cuò)誤分類豹實(shí)倒,對(duì)訓(xùn)練例的權(quán)重遽行修正,再學(xué)習(xí)新的分類器。例如,學(xué)習(xí)得到分類器HK后,增加了由HK導(dǎo)致分類錯(cuò)誤的訓(xùn)練實(shí)例的權(quán)值,并且通過(guò)重新對(duì)訓(xùn)練實(shí)例計(jì)算權(quán)值,再學(xué)習(xí)下一個(gè)分類器HK1。這個(gè)過(guò)程熏復(fù)T次,從這個(gè)系列的分類器中可以綜合得出最終的分類器。FREUND和SCBAPIRE給出的ADABOOST算法實(shí)現(xiàn)了提丹算法對(duì)分類問(wèn)題的處理,具體算法如下“14INPUTN個(gè)訓(xùn)練實(shí)例DXI,CI,O”,C”以及待分類實(shí)鍘僥易包聯(lián)十N個(gè)訓(xùn)練實(shí)例上的分布DW,WP,J訓(xùn)練實(shí)例的權(quán)向爨。T訓(xùn)練重復(fù)的趟數(shù)。UTPUTHX鶘MAX。109方PC加吐其中ICO是示意函數(shù),當(dāng)03T時(shí)109L,秀則LCO20步驟初始化訓(xùn)練實(shí)例的權(quán)向量,WI1N,I1A,;FOR仁LTOT給定權(quán)僮默。1季尋到一個(gè)骰設(shè)封“X斗C估計(jì)假設(shè)搿的總體誤差,EI墨;WI2LC擴(kuò)O計(jì)算E”1一F計(jì)算下一輪樣本的權(quán)值W,W,廣。一26“。7”正規(guī)化W,“”,使其總和為1ENDFOR假設(shè)每一個(gè)分類爨都是實(shí)際有用的,GO0對(duì),鞭,氬磚;巍石00時(shí),凡廬,隧此,黼數(shù)就定義TTAN92時(shí)新潮絡(luò)。給定屬性結(jié)點(diǎn)之間的條件互信息函數(shù)爭(zhēng)X,RTZ。PX,Y,ZLOG蘭芝粵羔其肖簸大戳然的TAN受甘斯麗絡(luò)褐透過(guò)程辯下1通過(guò)訓(xùn)練集計(jì)算屬性對(duì)之間的條件甄信息,“彳。西IC。2建立一個(gè)潑7“。西|E秀孤熊投曩的翔投寵壘無(wú)商鏊。3建立個(gè)最大枚震跨度樹(shù)。4選擇個(gè)鬏繚點(diǎn),凌鬟贛翥透戇方囊是囊凝結(jié)點(diǎn)蠢姊,戇囂潤(rùn)瓣轉(zhuǎn)換為有向樹(shù)。5增趣個(gè)類變爨蘸點(diǎn)及類變爨結(jié)點(diǎn)與震毪結(jié)點(diǎn)之越瓣弧。建立最大權(quán)重跨鷹樹(shù)的方法是首先把邊按權(quán)黧由大到小排序,之后遵照被選擇的逑不能橡成回鼴的原則,按照迭的權(quán)霪由大到小的蹶廖選攆邊,這櫸出所選擇的邊稿成的樹(shù)橙麓最大權(quán)重跨腹穗。貝時(shí)袋閼絳分類器TAN怒辯樸素貝時(shí)精瓣終分類器避行京效改進(jìn)的分類器,它溉有樸素貝盱新分類囂的簡(jiǎn)單往,又有磁猙索受葉漸分類器更好韻分類性能,巋然,還可以對(duì)貝葉斯網(wǎng)絡(luò)分類器TAN進(jìn)行有效的改進(jìn)。2。3。5委睜贛掰貉分類摸激貝畦斯網(wǎng)絡(luò)“小23“”1是一個(gè)有商冤;|圈,其中結(jié)點(diǎn)代表諗域中盼變鬟,有嗣孤代寢變鼴的關(guān)系,變量之間的關(guān)系強(qiáng)弱由結(jié)點(diǎn)與其父結(jié)點(diǎn)之間的條件概率柬表示。通過(guò)貝葉斯嬲絡(luò)可以準(zhǔn)確媳反映實(shí)際應(yīng)用中變量之瓣的鍬賴關(guān)系。當(dāng)把霹繕中代表癸鬟交爨的節(jié)患侔為裰節(jié)點(diǎn),其余變爨俸勢(shì)它懿予節(jié)點(diǎn)對(duì),受野斯網(wǎng)絡(luò)就成為了貝葉新網(wǎng)絡(luò)分類器。妥盱裁靄絡(luò)叉稱麓臻念鄹絡(luò),蔻瓣圖麓譴麴模登,筏夠霾彩純蘧表示一組變量潤(rùn)的聯(lián)合概率分布溺數(shù)。個(gè)孤時(shí)簸網(wǎng)絡(luò)熊旗了一個(gè)緒棗勾模型和與之穗關(guān)熬一綴條終檄率分鴦羲數(shù)。結(jié)鞫穰型是一令囊嶷囂環(huán)圖,其中黲繁點(diǎn)表示了隨機(jī)變繳,是對(duì)于過(guò)程、事件、狀態(tài)簿實(shí)體的某一特性的描述;邊表示變凰間媳掇率依賴關(guān)系,圖中戇每個(gè)節(jié)點(diǎn)都鴦一個(gè)繪定其父節(jié)點(diǎn)壤毽下該節(jié)點(diǎn)懿條搏攘率分布函數(shù)。這樣一個(gè)貝辭斯網(wǎng)絡(luò)就甭強(qiáng)掰化的形式表示了如穩(wěn)將與系列節(jié)點(diǎn)相關(guān)的象傳概率函數(shù)組臺(tái)成為一個(gè)整體游聯(lián)合概率分麓|滋數(shù)。一、增強(qiáng)型樸素風(fēng)葉斯分類模型BAN增強(qiáng)毒豢分類摸囊的方式是使黧性瘸關(guān)系不只鼴限予櫞澎,瓤是經(jīng)豢豹員時(shí)薪網(wǎng)絡(luò),這樣的分類器稱律BANBAYESIANNETWORKAUGMENTEDNAIVEBAYES。6BAN結(jié)構(gòu)迸一步擴(kuò)震了TAN的結(jié)構(gòu),允許璃性之間形成任意的有內(nèi)圈BAN分類模型結(jié)聾承意圖如圖23所示。構(gòu)建“個(gè)BAN分類器分為三步I針對(duì)屬性變蹙,按貝葉斯網(wǎng)絡(luò)的建立方法,構(gòu)建一個(gè)貝葉斯網(wǎng)絡(luò);2搬入分類交曩,褥它俸為所有屬性交餐節(jié)點(diǎn)靜父節(jié)點(diǎn)3學(xué)習(xí)分類器夔條釋裰窶分褒。圈23BAN分類模型結(jié)構(gòu)示意圖二、遴用炎竹斯網(wǎng)絡(luò)分類囂GBN該分類器楚將類節(jié)患秘耩瞧節(jié)點(diǎn)俘先瓣等邈位懿薅終節(jié)患,粳據(jù)數(shù)撂集中懿數(shù)據(jù)芬L|練密袋磚贛羽終,蠢羧終為分類器懿。這釋結(jié)構(gòu)學(xué)習(xí)囂黌獲褥一令寵整的貝時(shí)新網(wǎng)絡(luò),雨分類問(wèn)題研以當(dāng)作一種特殊的接理過(guò)程或決策聞?lì)}。貝葉斯隧絡(luò)豹結(jié)栩?qū)W習(xí)可以分為耀葶中形式一是找出煅適合數(shù)據(jù)集的黼絡(luò)結(jié)構(gòu),稱為模型選擇MODELSELECTI012二是選蹬一組網(wǎng)絡(luò)絳螽,代表所有的網(wǎng)絡(luò),揀為模型平均MODELAVERAGIRIG,般采用蘺者作為最終嘲絡(luò)的獲取方法。模型選擇可勢(shì)為囂類一秘霆基于資分爨數(shù)SOORINGFUNCTION懿學(xué)習(xí),弱耱是基予獨(dú)立經(jīng)測(cè)試CONDITIONALINDEPENDENCETEST,CTT漿學(xué)習(xí)?;谠u(píng)分函數(shù)的學(xué)習(xí)燒用一個(gè)預(yù)定義好的函數(shù)作為評(píng)分標(biāo)凇,對(duì)模型結(jié)構(gòu)空間中所簿的模蝥進(jìn)行評(píng)分,潦出分值最大者所對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)作為壕終網(wǎng)絡(luò)縫構(gòu)。常蹦的評(píng)分函數(shù)膏鏊予貝時(shí)額統(tǒng)詩(shī)的BDE、最小搓透長(zhǎng)澎鼢L秘貝時(shí)斯傍息揀礁BIC?;咳混途薮蟀昝臻犞凶髦`囂搜索,簧褥到最終熬瓣絡(luò)結(jié)梅是穩(wěn)當(dāng)爨戇斡,馥藹鬻采瘸貪,玉策略、模接退犬、袋撬蕞先等算法避行援索。基予獨(dú)立牲測(cè)試靜學(xué)習(xí)怒通蓮度量瘸檻之瓣豹獨(dú)立洼關(guān)系,確定貝時(shí)薪瓣絡(luò)結(jié)構(gòu)的方法。建立通用貝葉搟網(wǎng)絡(luò)分類器一般采用此方法。用貝葉斯網(wǎng)絡(luò)分類器進(jìn)行分類的過(guò)程,實(shí)際上就是將屬性帶點(diǎn)作為證據(jù)節(jié)點(diǎn)引入劐貝時(shí)斯網(wǎng)終中,求褥類節(jié)點(diǎn)蜃驗(yàn)概奉的過(guò)程。警屠駿概率最大對(duì),類爨節(jié)點(diǎn)穗瘦豹敬毽舔終燙分類款結(jié)萊。在羹時(shí)斯網(wǎng)絡(luò)中,把菜節(jié)點(diǎn)的父節(jié)點(diǎn)、子節(jié)點(diǎn)及子節(jié)點(diǎn)的父節(jié)點(diǎn)稱為該節(jié)點(diǎn)的馬爾霹夫覆蓋。壤攢有商國(guó)爾可夫性愛(ài),菜節(jié)點(diǎn)取僮的概率只受熊馬爾可夫覆蓋節(jié)點(diǎn)的影響,麗與其余節(jié)點(diǎn)無(wú)關(guān)。這樣一些W能對(duì)分類有整要意義的變量,出于被歸于瑪爾可走覆蕷,而影響不到分類節(jié)點(diǎn)。三、貝時(shí)新多網(wǎng)分類囂BMN貝時(shí)新多網(wǎng)分類囂實(shí)際上是BAN分類囂豹擴(kuò)展,它是由多個(gè)予貝時(shí)顴網(wǎng)絡(luò)分類器綴成。對(duì)于類別交爨所有取德,BAN分炎器使屬性變璧之間保持糨同的關(guān)系,兩摶MN分類器屬性嶷爨之間的關(guān)系卻隨類變量取值的不嗣覆不同。一個(gè)籬單瓣愛(ài)時(shí)袋多瓣分類囂轉(zhuǎn)MN分類橫鍪績(jī)鞫忝意囂魏鋈24掰示A圈24BMN分類模型結(jié)構(gòu)示意鶩放縫秘上看,BMN縭褥躉燕洼,囂為BMN審煞每個(gè)子瓣癱熬囂幫凌BAN麓蕈。建立一個(gè)BMN分類器的步驟如下1將訓(xùn)練數(shù)據(jù)集根據(jù)炎變量取慎的不周作相應(yīng)的劃分;2對(duì)麟個(gè)劃分好的數(shù)據(jù)糶,饜三階段法避行學(xué)習(xí)3學(xué)習(xí)每個(gè)局部掰絡(luò)靜
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 我國(guó)行政處罰聽(tīng)證法律制度的困境與突破:基于理論與實(shí)踐的雙重視角
- 2026年藥店培訓(xùn)追溯碼試題及答案
- 2026年高考數(shù)學(xué)線性規(guī)劃解題技巧試卷
- 小學(xué)一年級(jí)數(shù)學(xué)(人教版)《5以內(nèi)數(shù)的認(rèn)識(shí)和加減法》大單元設(shè)計(jì)
- 早教中心規(guī)范化管理制度
- 后廚上下班制度規(guī)范要求
- 放射診斷規(guī)范及審核制度
- 估價(jià)報(bào)告檔案管理制度
- 三級(jí)檔案管理制度體系
- 制氧站人員定級(jí)制度規(guī)范
- 胸部損傷的處理和護(hù)理
- 科技招商合同協(xié)議書(shū)范本
- 國(guó)家電網(wǎng)有限公司輸變電工程通 用設(shè)計(jì)(330~750kV輸電線路絕緣子金具串通 用設(shè)計(jì)分冊(cè))2024版
- 欠債抵房屋協(xié)議合同
- TSG R0004-2025固定式壓力容器安全技術(shù)監(jiān)察規(guī)程
- 大學(xué)勞動(dòng)教育(第二版)課件 第二章 勞動(dòng)價(jià)值觀與勞動(dòng)素養(yǎng)
- DBJ50T-240-2016 蒸壓加氣混凝土精確砌塊自承重墻體工程應(yīng)用技術(shù)規(guī)程
- 重難點(diǎn)08滑塊-滑板模型專題高一物理題組法突破重難點(diǎn)(原卷版)
- 2024鐵路營(yíng)業(yè)線作業(yè)人員北斗安全預(yù)警防護(hù)系統(tǒng)技術(shù)條件
- 《東北解放區(qū)工業(yè)戲劇研究(1945-1949年)》
- 新版中國(guó)食物成分表
評(píng)論
0/150
提交評(píng)論