版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘WEKA試驗報告優(yōu)秀課程設(shè)計
數(shù)據(jù)挖掘-WAKA試驗報告數(shù)據(jù)挖掘-WAKA試驗報告
數(shù)據(jù)挖掘-WAKA試驗報告一、WEKA軟件簡介
在我所從事的證券行業(yè)中,存在著海量的信息和數(shù)據(jù),但是這些數(shù)據(jù)日常知識發(fā)揮了一小部分的作用,其包含了大量的隱性的信息并不為所用,但是卻可以為一些公司的決策和對客戶的服務(wù)提供不小的價值。因此,我們可以通過一些數(shù)據(jù)采集、數(shù)據(jù)挖掘來獲得潛在的有價值的信息。
數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。在數(shù)據(jù)挖掘中計算機以電子化的形式存儲數(shù)據(jù),并且能自動的查詢數(shù)據(jù),通過關(guān)聯(lián)規(guī)則、分類于回歸、聚類分析等算法對數(shù)據(jù)進行一系列的處理,尋覓和描述數(shù)據(jù)里的結(jié)構(gòu)模式,進而挖掘出潛在的有用的信息。數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。WEKA的出現(xiàn)讓我們把數(shù)據(jù)挖掘無需編程即可輕松搞定。
WEKA是由新西蘭懷卡托大學(xué)開發(fā)的開源項目,全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是由JAVA編寫的,它的源代碼可通過http://.cs.waikato.ac.nz/ml/WEKA得到,并且限制在GBU通用公眾證書的條件下發(fā)布,可以運行在所有的操作系統(tǒng)中。是一款免費的,非商業(yè)化的機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件
WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承受數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。假使想自己實現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實現(xiàn)可視化工具并不是件很困難的事情。
安裝WEKA也十分簡單,首相要下載安裝JDK環(huán)境,JDK在這個頁面可以找到它的下載/javase/downloads/index.jsp。點擊JDK6之后的
Download按鈕,轉(zhuǎn)到下載頁面。選擇Accepct,過一會兒頁面會刷新。我們需要的是這個WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe53.16MB,點擊它下載。也可以右鍵點擊它上面的鏈接,在Flashget等工具中下載。安裝它和一般軟件沒什么區(qū)別。不過中間會中斷一下提醒你安裝JRE,一并裝上即可。之后就是安裝WEKA軟件,這個在網(wǎng)上好多地方都有。同樣簡單地按默認(rèn)方法安裝后即可使用。
點擊啟動運行WEKA軟件后,我門發(fā)現(xiàn)WEKA存儲數(shù)據(jù)的格式是ARFF數(shù)據(jù)挖掘-WAKA試驗報告
(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。我們?nèi)鐖D1通過軟件的Tools菜單進入ArffViewer可以在安裝目錄下查看軟件自帶的幾個ARFF文件。圖1圖2
數(shù)據(jù)挖掘-WAKA試驗報告
如圖2,開啟文件后選擇data自目錄下的任意一張表,我們都可以看到如圖3所示的二維表格存儲在如下的ARFF文件中。這也就是WEKA自帶的
“contact-lenses.arff〞文件。這里我們要介紹一下WEKA中的術(shù)語。表格里的一個橫行稱作一個實例(Instance),相當(dāng)于統(tǒng)計學(xué)中的一個樣本,或者數(shù)據(jù)庫中的一條記錄。豎行稱作一個屬性(Attrbute),相當(dāng)于統(tǒng)計學(xué)中的一個變量,或者數(shù)據(jù)庫中的一個字段。這樣一個表格,或者叫數(shù)據(jù)集,在WEKA看來,浮現(xiàn)了屬性之間的一種關(guān)系(Relation)。圖1中一共有22個實例,5個屬性,關(guān)系名稱為“contact-lenses〞。
除了ARFF格式,WEKA還支持另外一種常見格式,CSV格式。CSV同樣是一種二進制保存的文本格式,我們可以在WEKA中直接開啟CSV格式的文件,并
保存為ARFF格式。這樣就給我提供了把常見的數(shù)據(jù)格式轉(zhuǎn)換為ARFF格式的方法,如對于Excel文件,我們可以通過把每張表保存為CSV格式,進而保存為ARFF格式,與此同時,我們可以利用filter對數(shù)據(jù)進行相應(yīng)的預(yù)處理。而對于Matlab格式的數(shù)據(jù),我們可以通過命令csvwrite把數(shù)據(jù)轉(zhuǎn)化成CSV格式的文件,進而轉(zhuǎn)化為ARFF格式文件。對于海量數(shù)據(jù),一般保存在數(shù)據(jù)庫中,WEKA同時支持JDBC訪問數(shù)據(jù)庫。圖3
數(shù)據(jù)挖掘-WAKA試驗報告
開啟WEKA,首先出現(xiàn)一個命令行窗口。原以為要在這個命令行下寫java語句呢,不過稍等一秒,WEKAGUIChooser的出現(xiàn)了。這是一個很簡單的窗體,提供四個按鈕:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。SimpleCLI應(yīng)當(dāng)是一個使用命令行的界面,有點像SAS的編輯器;Explorer是則是視窗模式下的數(shù)據(jù)挖掘工具;Experimenter和KnowledgeFlow的使用有待進一步摸索圖4
(1)Explorer
使用WEKA摸索數(shù)據(jù)的環(huán)境。在這個環(huán)境中,WEKA提供了數(shù)據(jù)的預(yù)處理,數(shù)據(jù)格式的轉(zhuǎn)化(從CSV格式到ARFF格式的轉(zhuǎn)化),各種數(shù)據(jù)挖掘算法(包括分類與回歸算法,聚類算法,關(guān)聯(lián)規(guī)則等),并提供了結(jié)果的可視化工具。對于一個數(shù)據(jù)集,通過簡單的數(shù)據(jù)的預(yù)處理,并對數(shù)據(jù)挖掘算法進行選擇(在
WEKA3.5版本之后,參與了算法的過濾功能,可以過濾掉那些不適合當(dāng)前數(shù)據(jù)集類型的算法),接著通過窗口界面對算法的參數(shù)進行配置。可視化工具分為對
數(shù)據(jù)集的可視化和對部分結(jié)果的可視化,并且我們可以通過屬性選擇工具(SelectAttribute),通過探尋數(shù)據(jù)集中所有屬性的可能組合,找出預(yù)計效果最好的那一組屬性。
Explorer是普通用戶最常用的一個界面。用戶可以從ARFF文件(Weka使用的一種文本文件格式)、網(wǎng)頁或數(shù)據(jù)庫中讀取數(shù)據(jù)集。開啟數(shù)據(jù)文件后,可以選擇算法對數(shù)據(jù)進行預(yù)處理。這時窗體上給出了這個數(shù)據(jù)集的一些基本特征,如含有多少屬性,各屬性的一些簡單統(tǒng)計量,右下方還給出一些可視化效果圖。這些都是比較直觀的分析,假使想發(fā)現(xiàn)隱蔽在數(shù)據(jù)集背后的關(guān)系,還需要選擇
Weka
數(shù)據(jù)挖掘-WAKA試驗報告
提供的各種分類、聚類或關(guān)聯(lián)規(guī)則的算法。所有設(shè)置完成后,點擊Start按鈕,就可以安心地等待weka帶來最終的結(jié)果。哪些結(jié)果是真正有用的還要靠經(jīng)驗來判斷。
(2)Experimenter
運行算法試驗、管理算法方案之間的統(tǒng)計檢驗的環(huán)境。Experiment環(huán)境可以讓用戶創(chuàng)立,運行,修改和分析算法試驗,這可能比單獨的分析各個算法更加便利。例如,用戶可創(chuàng)立一次試驗,在一系列數(shù)據(jù)集上運行多個算法(schemes),然后分析結(jié)果以判斷是否某個算法比其他算法(在統(tǒng)計意義下)更好。
Explorermenter主要包括簡單模式,繁雜模式和遠程模式。繁雜模式是對簡單模式的基本功能的擴展,而遠程模式允許我們通過分布式的方法進行試驗。就功能模塊而言,分為設(shè)置模塊,運行模塊和分析模塊。在設(shè)置模塊中我們可以自定義試驗,參與多個算法和多方的源數(shù)據(jù)(支持ARFF文件,CSV文件和數(shù)據(jù)庫),在運行模塊中我們可以運行我們的試驗,而在分析模塊中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重慶市潼南區(qū)202-2026學(xué)年九年級上學(xué)期期末語文試題(含答案)(含解析)
- 2026福建福州市水路運輸應(yīng)急保障中心編外人員招聘1人備考題庫及答案詳解1套
- 2026浙江紹興市產(chǎn)融科技服務(wù)有限公司項目制人員招聘2人備考題庫及完整答案詳解一套
- 畜禽幼崽保育與飼養(yǎng)技術(shù)手冊
- 2026西北工業(yè)大學(xué)計算機學(xué)院計算與藝術(shù)交叉研究中心非事業(yè)編制人員招聘1人備考題庫(陜西)附答案詳解
- 2026海南海口市龍華區(qū)公費師范生招聘2人備考題庫參考答案詳解
- 2026年影視后期剪輯特效制作課程
- 2026年1月浙江省高考(首考)化學(xué)試題(含標(biāo)準(zhǔn)答案及解析)
- 超重失重課件
- 職業(yè)噪聲暴露的健康管理路徑
- 四川省遂寧市2026屆高三上學(xué)期一診考試英語試卷(含答案無聽力音頻有聽力原文)
- 福建省寧德市2025-2026學(xué)年高三上學(xué)期期末考試語文試題(含答案)
- 建筑施工行業(yè)2026年春節(jié)節(jié)前全員安全教育培訓(xùn)
- 2026屆高考語文復(fù)習(xí):小說人物形象復(fù)習(xí)
- 2026年山東省煙草專賣局(公司)高校畢業(yè)生招聘流程筆試備考試題及答案解析
- 八年級下冊《昆蟲記》核心閱讀思考題(附答案解析)
- 2025年中職藝術(shù)設(shè)計(設(shè)計理論)試題及答案
- 鐵路交通法律法規(guī)課件
- 2025年體育行業(yè)專家聘用合同范本
- 對于尼龍件用水煮的原因分析
- ECMO患者血糖控制與胰島素泵管理方案
評論
0/150
提交評論