版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
千里之行,始于足下讓知識帶有溫度。第第2頁/共2頁精品文檔推薦決策樹算法分析報告
Abstract
WiththerapiddevelopmentofInformationTechnology,peoplearefacingmuchmoreworkloadindealingwiththeaccumulatedmassdata.
Dataminingtechnologyisalsocalledtheknowledgediscoveryindatabase,datafromalargedatabaseofeffectively,implicit,previouslyunknownandpotentiallyusevalueofinformationprocess.Algorithmofdecisiontreeindataminingisanimportantmethodofclassificationbasedondecisiontreealgorithms,inexecutionspeed,scalability,outputresultcomprehensibility,classificationaccuracy,eachhasitsownmerits.,extensiveapplicationinvariousfieldsandhavemanymaturesystem,suchasspeechrecognition,patternrecognitionandexpertsystemandsoon.Thispaperstudiesandcomparesseveralkindsoftypicaldecisiontreealgorithm,andthealgorithmofdecisiontreeapplicationexamples.
Keywords:Datamining;decisiontree;Compare
名目
第一章緒論4其次章文獻綜述4
2.1數(shù)據(jù)挖掘簡述4
2.2決策樹算法背景學問及討論現(xiàn)狀5
2.2.1決策樹算法描述5
2.2.2關聯(lián)分析決策樹算法討論現(xiàn)狀6第三章決策樹算法6
3.1CLS算法6
3.2ID3算法8
3.2.1信息量大小的度量8
3.2.2ID3決策樹應用舉例9
3.3C
4.5算法11
3.3.1用信息增益率挑選屬性12
3.3.2處理延續(xù)屬性值12
3.3樹剪枝13
3.4weka平臺的簡述13第四章決策樹在同學成果中的應用...錯誤!未定義書簽。
4.1數(shù)據(jù)的預處理錯誤!未定義書簽。
4.2數(shù)據(jù)的訓練集處理錯誤!未定義書簽。
4.3數(shù)據(jù)的校驗和成果分析錯誤!未定義書簽。第五章結論14
第一章緒論
無論在企業(yè)應用領域,還是在科學領域,數(shù)據(jù)挖掘技術有著廣泛的應用價值。
在企業(yè)應用領域,用于制定好的市場策略以及企業(yè)的關鍵性決策。在商業(yè)面,數(shù)據(jù)挖掘技術可以增加企業(yè)的競爭優(yōu)勢,縮短銷售周期,降低生產成本,有助制定市場方案和銷售策略,并已經(jīng)成為電子商務中的關鍵技術。
近年來,隨著我國高等教導的飛快進展,大學的教學管理信息不斷增多。教學工作信息化有了很大的長進,好多大學在管理同學和老師信息方面有了很好的方式。比如我校的教務系統(tǒng),這些系統(tǒng)為教師和同學提供了很好的協(xié)助。這些系統(tǒng)中堆積了大量的數(shù)據(jù)。目前的這些數(shù)據(jù)庫系統(tǒng)雖然基本上都可以實現(xiàn)數(shù)據(jù)的錄入、修改、統(tǒng)計、查詢等功能,但是這些數(shù)據(jù)所躲藏的價值并沒有被充分的挖掘和利用,信息資源的鋪張還是比較嚴峻的。
為了提高教學質量,將數(shù)據(jù)挖掘技術引入到大學同學成果分析中,對這些數(shù)據(jù)舉行深化的挖掘和合理的分析,從而挖掘出傳統(tǒng)的分析辦法所無法得出的結論。進而利用分析結果引導教學的開展,從而有利于提高教學質量。
其次章文獻綜述
數(shù)據(jù)挖掘作為一個新興的多學科交錯應用領域,正在各行各業(yè)的決策支持活動飾演著越來越重要的角色。
2.1數(shù)據(jù)挖掘簡述
數(shù)據(jù)挖掘(英語:Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫學問發(fā)覺(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘普通是指從大量的數(shù)據(jù)中自動搜尋躲藏于其中的有著特別關系性(屬于Associationrulelearning)的信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依賴過去的閱歷法則)和模式識別等諸多辦法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋覓其邏輯的技術,主要有數(shù)據(jù)預備、邏輯尋覓和邏輯表示3個步驟。數(shù)據(jù)預備是從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;邏輯尋覓是用某種辦法將數(shù)據(jù)集所含的邏輯找出來;邏輯表示是盡可能以用戶可理解的方式(如可視化)將找出的邏輯表示出來。
決策樹是判定給定樣本與某種屬性相關聯(lián)的決策過程的一種表示辦法,從數(shù)據(jù)中生成分類器的一個特殊有效的辦法是生成一棵決策樹,該辦法廣泛應用與數(shù)據(jù)挖掘和機器學習等領域,用來解釋用分類相關的問題,決策樹表示法是應用最廣泛的規(guī)律辦法之一。目前生成決策樹辦法的算法主要有三種:CART算法、ID3算法和C4.5算法。其中C4.5算法具有分類速度快且精度高的特點,是進展比較完美的一種決策樹算法。
2.2決策樹算法背景學問及討論現(xiàn)狀
2.2.1決策樹算法描述
決策樹,顧名思義就是一個類似于流程圖的樹型結構。—個決策樹由根結點、分支和葉結點構成。樹的最高層節(jié)點稱為根結點,是囫圇決策樹的開頭。與根結點相連的不同分支,對應這個屬性的不同取值,按照不同的回答轉向相應的分支,在新到達的結點處做同樣的分支推斷,持續(xù)這一過程直到到達某個葉結點。在決策樹中,每個部結點表示一個測試,該結點的每個分支表示該測試的一個結果,每個葉結點表示一個類別。例如公司需要預測某位客人是否要買計算機,圖2.1就是為了解決這個問題而建立的一顆決策樹,從中可以看到?jīng)Q策樹的基本組成部分:根結點、分支和葉結點。
圖2.1決策樹
2.2.2關聯(lián)分析決策樹算法討論現(xiàn)狀
決策樹算法廣泛應用于各個領域,已經(jīng)有了廣泛的應用并且有許多成熟的系統(tǒng),如語音識別、醫(yī)療診斷、模式識別和專家系統(tǒng)等。
目前,決策樹技術面臨的挑戰(zhàn)表現(xiàn)在以下幾個方面:
(1)可擴展性亟待提高。在大型數(shù)據(jù)集中,能從中迅速而精確?????地發(fā)覺躲藏于其中的主要分類規(guī)章,即認為算法具有良好的可擴展性。數(shù)據(jù)挖掘面臨的數(shù)據(jù)往往是海量的,對實時性要求較高的決策場所,數(shù)據(jù)挖掘辦法的主動性和迅速性顯得日益重要。
(2)適應多數(shù)據(jù)類型和容噪性。隨著計算機網(wǎng)絡和信息的社會化,數(shù)據(jù)挖掘的對象已不單是關系數(shù)據(jù)庫模型,而是分布、異構的多類型數(shù)據(jù)庫,數(shù)據(jù)的非結構化程度、噪聲等現(xiàn)象越來越突出,這也是決策樹技術面臨的困難問題。
(3)決策樹辦法的遞增性。數(shù)據(jù)挖掘出來的學問,只是相對于某一時光的某些數(shù)據(jù),新的數(shù)據(jù)可能使發(fā)覺的新學問與本來的學問矛盾。因此,設計具有遞增性決策樹挖掘辦法,也是有用化的基本要求之一。
第三章決策樹算法
3.1CLS算法
CLS算法是早期的決策樹學習算法,是許多決策樹學習算法的基礎。
CLS基本思想:從一棵空決策樹開頭,挑選某一屬性作為測試屬性。該測試屬性對應決策樹中的決策結點。按照該屬性的值的不同,可將訓練樣本分成相應的子集,假如該子集為空,或該子集中的樣本屬于同一個類,則該子集為葉結點,否則該子集對應于決策樹的部結點,即測試結點,需要挑選一個新的分類屬性對該子集舉行劃分,直到全部的子集都為空或者屬于同一類。
例1:如表3.1所示為人員眼睛、頭發(fā)色彩與所屬人種之間的關系:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年黑龍江旅游職業(yè)技術學院單招綜合素質筆試模擬試題含詳細答案解析
- 2026年漳州職業(yè)技術學院單招職業(yè)技能考試備考題庫含詳細答案解析
- 2026年江西建設職業(yè)技術學院單招職業(yè)技能考試參考題庫含詳細答案解析
- 2026年山西電力職業(yè)技術學院單招職業(yè)技能考試模擬試題含詳細答案解析
- 2026年安徽工業(yè)經(jīng)濟職業(yè)技術學院單招綜合素質考試模擬試題含詳細答案解析
- 2026年江蘇航運職業(yè)技術學院單招職業(yè)技能考試參考題庫含詳細答案解析
- 2026年閩西職業(yè)技術學院單招職業(yè)技能考試備考試題含詳細答案解析
- 2026年中山職業(yè)技術學院單招綜合素質考試模擬試題含詳細答案解析
- 2026廣東佛山市公共交通管理有限公司招聘1人考試重點題庫及答案解析
- 2026年廣西科技師范學院高職單招職業(yè)適應性測試備考題庫及答案詳細解析
- GB/T 46886-2025智能檢測裝備通用技術要求
- 護理護理科研與論文寫作
- 2025年健康體檢中心服務與質量管理手冊
- 2025-2030中國駱駝市場前景規(guī)劃與投資運作模式分析研究報告
- 2026中國電信四川公用信息產業(yè)有限責任公司社會成熟人才招聘備考題庫及完整答案詳解一套
- 鋼結構玻璃雨棚安裝施工方案
- 鄂爾多斯輔警考試題型及答案
- 《中華人民共和國危險化學品安全法》全套解讀
- 房建工程電氣安裝施工方案
- 同等學力申碩公共管理真題及答案
- 2025初三英語中考英語滿分作文
評論
0/150
提交評論