數(shù)據(jù)挖掘工具的選擇、分析、比較與展望_第1頁
數(shù)據(jù)挖掘工具的選擇、分析、比較與展望_第2頁
數(shù)據(jù)挖掘工具的選擇、分析、比較與展望_第3頁
數(shù)據(jù)挖掘工具的選擇、分析、比較與展望_第4頁
數(shù)據(jù)挖掘工具的選擇、分析、比較與展望_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘工具的 選擇、 分析、比較與展望 高春華 (南京大學(xué)計(jì)算機(jī)科學(xué) 與技術(shù)系,南京, 210093) 210093) As a of in in we a of so it is us to In to of At it of of It as a to do it M. it of of 要: 數(shù)據(jù)挖掘作為一項(xiàng)從海量數(shù)據(jù)中提取知識的信息技術(shù)引起了國內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,它在商業(yè)方面的 成功 應(yīng)用使得軟件開發(fā)商不斷開發(fā)新的數(shù)據(jù)挖掘工具,改進(jìn)現(xiàn)有的數(shù)據(jù)挖掘工具,一時(shí)之間數(shù)據(jù) 挖掘工具可謂琳瑯滿目,于是出現(xiàn)了如何合理選擇挖掘工具的問題。鑒此,本文提出并討論了 幾 點(diǎn)關(guān)于 理選擇數(shù)據(jù)挖掘工具的技巧。 同時(shí),就現(xiàn)有的幾個(gè)著名挖掘工具,介紹各自的特點(diǎn),以及相互的優(yōu)缺點(diǎn)。然后,選用 種挖掘工具進(jìn)行實(shí)際操作, 并且具體介紹它與 M 之間 的優(yōu) 缺 點(diǎn)。最后,展望一下,未來數(shù)據(jù) 挖掘工具的特點(diǎn)與新功能。 關(guān)鍵詞 :數(shù)據(jù)挖掘、 具使用、工具比較、展望 前言: 隨著 信息時(shí)代的到來,信息利用的重要性日漸突出,因此數(shù)據(jù)庫和計(jì)算機(jī)網(wǎng)絡(luò)隨之應(yīng)運(yùn)而生。如今 數(shù)據(jù)庫和計(jì)算機(jī)網(wǎng)絡(luò) 被 廣泛應(yīng)用,加上先進(jìn)的數(shù)據(jù)自動(dòng)生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大。然而數(shù)據(jù)的極速增長與數(shù)據(jù)分析方法的改進(jìn)并不成正比,一方面人們希望在已有的大量數(shù)據(jù)的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策、企業(yè)管理,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對數(shù)據(jù)進(jìn)行深層次的處理,這樣二者之間的矛盾日益突出,正是 在這種狀況下,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。數(shù)據(jù)挖掘作為一項(xiàng)從海量數(shù)據(jù)中提取知識的信息技術(shù)是一個(gè) 以發(fā)現(xiàn)為驅(qū)動(dòng) 的過程,已經(jīng)引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大重視。特別是從 1989年 8月在美國底特律召開的第 11 屆國際人工智能聯(lián)合會(huì)議上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)概念以來,數(shù)據(jù)挖掘在國際國內(nèi)都受到了前所未有的重視,目前數(shù)據(jù)挖掘廣泛應(yīng)用于各個(gè)領(lǐng)域,如地理學(xué)、地質(zhì)學(xué)、生物醫(yī)學(xué)等等,總之?dāng)?shù)據(jù)挖掘的出現(xiàn) _ 作者簡介:高春華 (1988-),男,江蘇海門人,大學(xué)本科生,主要研究領(lǐng)域?yàn)檐浖こ蹋?數(shù)據(jù)庫技 術(shù)進(jìn)入了一個(gè)更高級的階段,不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,促進(jìn)信息的傳播。 1. 數(shù)據(jù)挖掘定義 數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)中提取模式的過程,是一個(gè)受多個(gè)學(xué)科影響的交叉領(lǐng)域 ,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)等;數(shù)據(jù)挖掘反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型,是一種決策支持過程。通過預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。由于傳統(tǒng)的事物型工具(如查詢工具、報(bào)表工具)無法回答事先未定義的綜合性問題或跨部門 /機(jī)構(gòu)的 問題,因此其用戶必須清楚地了解問題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問題或跨部門 /機(jī)構(gòu)的問題,挖掘潛在的模式并預(yù)測未來的趨勢,用戶不必提出確切的問題,而且模糊問題更有利于發(fā)現(xiàn)未知的事實(shí)。 數(shù)據(jù)挖掘工具利用各種已知數(shù)據(jù)分析方法,使分析員和決策者脫離浩如煙海的繁雜的數(shù)據(jù),使其更快更有效的得到其所需要的結(jié)果。 數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。 專用數(shù)據(jù)挖掘工具是針對某個(gè)特定領(lǐng)域的問題提供解決方案, 在涉及算法的時(shí)候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對任何領(lǐng)域,都可以開發(fā)特定的數(shù)據(jù)挖掘工具。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍π詮?qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識可靠度也比較高。 通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇 。 一般我們見到的數(shù)據(jù)挖掘工具都是通用型的。 具簡介 : 隨著 數(shù)據(jù)信息量的不斷增大,數(shù)據(jù)利用的重要性日益突出, 數(shù)據(jù)挖掘工具 也隨之不斷推陳出行,各式各樣的工具可謂是琳瑯滿目。但最常見也最常用的還屬那幾種,如: 司 究中心開發(fā)的 統(tǒng), 司開發(fā)的拿大 美國 美國 立大學(xué)開發(fā)的統(tǒng)計(jì)分析軟件 開放源碼的數(shù)據(jù)挖掘 軟件 美國 斯坦福 大學(xué)研制的 及 各類 數(shù)據(jù)庫廠商集成的挖掘工具 。 這里主要介紹 一款免費(fèi)的,非商業(yè)化的,基于 境下 開源 的 機(jī)器學(xué)習(xí) ( 及數(shù)據(jù)挖掘( 件。 為一個(gè)公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類, 回歸 、 聚類 、 關(guān)聯(lián)規(guī)則 以及在新的交互式界面上的可視化。而開發(fā)者則可使用 用 一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。它由數(shù)十個(gè)專用模塊構(gòu)成,功能包括數(shù)據(jù) 訪問、數(shù)據(jù)儲存及管理、應(yīng)用開發(fā)、圖形處理、數(shù)據(jù)分析、報(bào)告編制、運(yùn)籌學(xué)方法、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測等等。 據(jù)訪問;數(shù)式的支持極其數(shù)據(jù)倉庫設(shè)計(jì)。是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路部門在春運(yùn)客運(yùn)研究中的應(yīng)用。 一種通用的數(shù)據(jù)挖掘工具,按照 抽樣 的方法進(jìn)行數(shù)據(jù)挖掘??梢耘c據(jù)倉庫和 成,實(shí)現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的 端到端 知識發(fā)現(xiàn)。 一個(gè)開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國 新獎(jiǎng),它不但支持整個(gè)數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn) 可視化數(shù)據(jù)挖掘使得 思路 分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術(shù)性工作(比如編寫代碼)。提供了多種圖形化技術(shù) ,有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決辦法。 而且獲得最高的 of 注意,這里說的是 不等同于 出在于統(tǒng)計(jì)或數(shù)字計(jì)算分析功能,而 注于數(shù)據(jù)挖掘,可以做神經(jīng)網(wǎng)絡(luò)、決策樹之類的分析,制圖 功能更完整。所以, 適用于數(shù)據(jù)挖掘。前者,只是簡單統(tǒng)計(jì)分析。 用 這里選用 版本為 為數(shù)據(jù)挖掘 工具 進(jìn)行 使用介紹。 界面: 域 1 數(shù)據(jù)流設(shè)計(jì)區(qū) : 主要的工作區(qū)域,如下圖即知。 有向的箭頭指明了數(shù)據(jù)的流向。 如下圖的 流 1和 流 2。通過在管理區(qū)的 流 欄中點(diǎn)擊切換不同的數(shù)量流。 流 1: 流 2: 域 2 管理區(qū): 包括 流 、 輸出 、 模型 三欄。 流 : 上面已經(jīng)說過了,是管理數(shù)據(jù)流的。 輸出 : 不要跟工具欄中的輸出搞混 (將在下面介紹) ,這里的 輸出 是圖形、輸出這類工具產(chǎn)生的分析結(jié)果。 模型: 經(jīng)過訓(xùn)練的模型會(huì)出 現(xiàn)在這一欄中,這就像是真表( 概念那樣,訓(xùn)練過的模型可以加入的數(shù)據(jù)流中用于預(yù)測和打分。 域 3 項(xiàng)目區(qū): 顧名思義,是對項(xiàng)目的管理,提供了兩種視圖。其中 據(jù)挖掘跨行業(yè)標(biāo)準(zhǔn)流程)是由 姆勒克萊斯勒,汽車公司)、 是那個(gè)擁有同提出的。 通過組織 成項(xiàng)目。在項(xiàng)目中可以加入流、節(jié)點(diǎn)、輸出、模型等 。 域 4 工具欄: 工具欄總包括了 據(jù)分析、挖掘模型工具,工具可以加入到數(shù)據(jù)流設(shè)計(jì)區(qū)中, 類工具 : 數(shù)據(jù)源、記錄選項(xiàng)、字段選項(xiàng)、圖形、建模、輸出、導(dǎo)出。 每一個(gè)項(xiàng)目( 含了一系列相關(guān)的節(jié)點(diǎn)用于一個(gè)數(shù)據(jù)流( 作的不同階段,例如: 數(shù)據(jù)源( 用來將資料讀進(jìn)系統(tǒng)的節(jié)點(diǎn)。 記錄選項(xiàng)( 用來在資料記錄上進(jìn)行操作的節(jié)點(diǎn),例如選擇、合并和增加。 字段選項(xiàng)( 用來在數(shù)據(jù)域位上進(jìn)行操作的節(jié)點(diǎn),例如過濾、導(dǎo)出新字段和確定給出字段的數(shù)據(jù)類型。 圖:在建模之前和之后用來可視化資料的節(jié)點(diǎn)。圖包括點(diǎn)圖、直方圖、 點(diǎn)和評估圖表。 建模:在 統(tǒng)中可用的代表有效建模算法的節(jié)點(diǎn),例如類神經(jīng)網(wǎng)絡(luò)、決策樹、聚類算法和資料排序。 收藏夾:在工具欄上的收藏夾項(xiàng)目能夠被定義成包含使用者對 統(tǒng)的習(xí)慣用法。例如,如果使用者經(jīng)常分析一個(gè)數(shù)據(jù)庫中的時(shí)間序列資料,就可能想確保數(shù)據(jù)庫來源節(jié)點(diǎn)和序列建模節(jié)點(diǎn)這兩個(gè)都可 以從收藏夾 項(xiàng)目中獲得。 據(jù)源 : 數(shù)據(jù)源節(jié)點(diǎn)包括: 數(shù)據(jù)庫 用于通過 入資料。 變量文件 用于無限制字段的 料。 固定文件 用于固定字段的 料。 件 用于導(dǎo)入 文件。 件用于導(dǎo)入 用于導(dǎo)入 文件 件 用于導(dǎo)入 式的檔。 使用者輸入 用于替代已存在的來源節(jié)點(diǎn),也可通過在已存在節(jié)點(diǎn) 點(diǎn)擊鼠標(biāo)右鍵的方式使用該 節(jié)點(diǎn)。用戶可根據(jù)不同格式的數(shù)據(jù)文件選擇相對應(yīng)的數(shù)據(jù)源節(jié)點(diǎn)。 錄選項(xiàng) 記錄操作節(jié)點(diǎn)用于在記錄層次修改資料集。這些操作在資料采礦的資料理解和資料準(zhǔn)備階段很重要。 記錄操作選項(xiàng)板包括以下節(jié)點(diǎn): 選擇( 抽樣( 平衡( 匯總( 排序( 合并( 附加( 區(qū)分( 選擇節(jié)點(diǎn): 使用者可以使用選擇節(jié)點(diǎn)根據(jù)具體條件從資料流程中選擇或排除某一記錄子集,如符合 ” 條件 的記錄子集。 選擇節(jié)點(diǎn)也用于選擇一定比例的記錄,使用者可以使用選擇節(jié)點(diǎn)來創(chuàng)建自己的條件。例如,使用者可以創(chuàng)建如下條件: 0)2000 在 達(dá)式中,可以將多個(gè)函數(shù)合并起來: *1,行順序分別為: 函數(shù)參數(shù)、函數(shù)調(diào)用、 / + -、 = 選項(xiàng)卡中點(diǎn)擊 載數(shù)據(jù)源,如下圖: 跟很多電子表格或數(shù)據(jù)分析軟件一樣, 處理的數(shù)據(jù)集是那一個(gè)二維的表格 。 件,這是一種 可以又一般的 事本就可打開。同時(shí), 這種格式是被很多其他軟件所支持的。此外, 問數(shù)據(jù)庫的功能。 比 :首先, 一個(gè)基于 開源軟件,也是開源軟件的一個(gè)優(yōu)秀成果,而 從性能上看, 比就稍顯遜色了。首先, 視化程度沒有。 完全可視化界面,用戶友好性高,只要推動(dòng)、連接幾個(gè)節(jié)點(diǎn)就開完成一系列復(fù)雜的挖掘工作。其次, 數(shù)據(jù)載入格式?jīng)]有如, 一個(gè) 對于 須先要把 載入 為數(shù)據(jù)源。而對于 要雙擊一下 件節(jié)點(diǎn)即可。從易操作性看,顯而易見,可視化程度極高的以,縱觀全局, ,當(dāng)然這可能是因?yàn)?商業(yè)軟件。 作為智能型的數(shù)據(jù)挖掘集成工具, M 的圖形化界面、可視化操作可引導(dǎo)用戶(即使是數(shù)理統(tǒng)計(jì)經(jīng)驗(yàn)不太多的用戶)按 戶只要將數(shù)據(jù)輸入,經(jīng)過 M 運(yùn)行, 即可得到一些分析結(jié)果。有經(jīng)驗(yàn)的專家還可通過修改數(shù)據(jù)調(diào)整分析處理過程。 務(wù)智能及報(bào)表工具的無縫集成,它內(nèi)含完整的數(shù)據(jù)獲取工具、數(shù)據(jù)取樣工具、數(shù)據(jù)篩選工具、數(shù)據(jù)變量轉(zhuǎn)換工具、數(shù)據(jù)挖掘數(shù)據(jù)庫、數(shù)據(jù)挖掘過程以及數(shù)據(jù)挖掘評價(jià)工具。 M 主界面: 同為商業(yè)軟件的數(shù)據(jù)挖掘工具, 且 在 客戶數(shù)據(jù)挖掘工具評估中,僅 這 兩家廠商被列為領(lǐng)導(dǎo)者 。其中 得了最高to 分,代表著 市場執(zhí)行 、推廣、認(rèn)知方面有最佳表現(xiàn);而 得了最高的 of 明 技術(shù)創(chuàng)新方面遙遙領(lǐng)先 ,可謂兩者不分伯仲之間。但從細(xì)節(jié)方面來看, 有 M 支持的數(shù)據(jù)格式要比 ,比如 M 能支持 了常見的直方圖、散點(diǎn)圖,更有 3高線 圖,而 做不到 。在幫組文檔方面, M 的幫助文檔非常全面和系統(tǒng),并且還有各種數(shù)據(jù)挖掘算法的細(xì) 節(jié),而 對各種數(shù)據(jù)挖掘算法的介紹很少,這不利于分析人員用好數(shù)據(jù)挖掘工具。 隨著當(dāng)今信息時(shí)代數(shù)據(jù)的爆炸性增長,只是簡單人工方式的分析和處理數(shù)據(jù)已然成為不現(xiàn)實(shí),數(shù)據(jù)挖掘?qū)⒊蔀楫?dāng)今以至未來的主 流,數(shù)據(jù)挖掘工程師這個(gè)職業(yè)需求也會(huì)越來越多 。通過自動(dòng)化大規(guī)模數(shù)據(jù)分析技術(shù),數(shù)據(jù)的收集,數(shù)據(jù)庫存儲,數(shù)據(jù)分析和挖掘,數(shù)據(jù)挖掘技術(shù)正無處不在的發(fā)揮其巨大的作用。在科學(xué)領(lǐng)域,科學(xué)仿真 ,遙感 , 生物信息學(xué);在商業(yè)領(lǐng)域,電子商務(wù),股票分析, 索;在社會(huì)學(xué)方面,人口普查,新聞制作,都蘊(yùn)含著數(shù)據(jù)挖掘技術(shù)的身影。 但如今數(shù)據(jù)挖掘仍有很多不足之處: 數(shù)據(jù)挖掘的 60作量花在數(shù)據(jù)準(zhǔn)備階段 , 在建模過程也是需要大量的手工勞動(dòng)的。目前的數(shù)據(jù)挖掘軟件工具中,各算法采用默認(rèn)的參數(shù)設(shè)置并不總是最合理的,不能得到最佳的預(yù)測模型的,因此對于每個(gè)業(yè)務(wù)新問題,都要重新探索數(shù)據(jù)的相關(guān)性,進(jìn)行算法參數(shù)的重新調(diào)整和配置,以得到優(yōu)化的模型 。 但是,由于現(xiàn)實(shí)問題太復(fù)雜,已有的原理并不能始終指導(dǎo)模型的調(diào)優(yōu)方向,更多的時(shí)候還是依賴大量的數(shù)據(jù)試驗(yàn)摸索前進(jìn),因此建模的過程也是漫長痛苦的?,F(xiàn)有 的很多數(shù)據(jù)挖掘工具并不支持復(fù)雜調(diào)優(yōu)過程的自動(dòng)化。 事實(shí)上,數(shù)據(jù)準(zhǔn)備過程(或者歸于挖掘建模的數(shù)據(jù)探索過程)也飽含不確定性,對于究竟應(yīng)該選用哪些因素(字段)來建立模型,以及因素的粒度應(yīng)該多大,目前缺乏足夠的判斷依據(jù),只能按照慣例、業(yè)務(wù)直覺和猜測來進(jìn)行確定。 但在未來, 挖掘工具 會(huì) 越來越強(qiáng)大,匯合的算法越來越多,預(yù)測類算法將吸納頗具新意的算法(支持向量機(jī)、粗糙集、云模型、遺傳算法等),并將實(shí)現(xiàn)算法的自動(dòng)選擇和參數(shù)自動(dòng)調(diào)優(yōu)。遺傳編程( 歸納邏輯編程( 算法的巨大潛力將得到充分發(fā)揮。 這個(gè)時(shí)候,數(shù)據(jù)挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論