版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)應(yīng)用與發(fā)展摘要:云計(jì)算作為當(dāng)前大數(shù)據(jù)背景下的核心技術(shù)之一,在各個(gè)方面都得到了充分的應(yīng)用。在數(shù)據(jù)挖掘技術(shù)中,可以充分利用云計(jì)算的各項(xiàng)技術(shù),例如分布式存儲(chǔ)技術(shù),有效解決數(shù)據(jù)處理對(duì)服務(wù)器的高要求。同時(shí)MapReduce計(jì)算機(jī)模型能夠讓數(shù)據(jù)挖掘系統(tǒng)實(shí)現(xiàn)同時(shí)滿足多個(gè)用戶的多種需求。文章主要闡述了基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的應(yīng)用及發(fā)展。關(guān)鍵詞:云計(jì)算;數(shù)據(jù)挖掘;MapReduce;分布式基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的特征與內(nèi)涵所謂數(shù)據(jù)挖掘技術(shù)是指采用一定的算法,對(duì)數(shù)據(jù)中信息進(jìn)行采集、提取、分析,進(jìn)而進(jìn)一步進(jìn)行整理和匯總。數(shù)據(jù)挖掘技術(shù)是對(duì)數(shù)據(jù)的一次有效整理,對(duì)數(shù)據(jù)應(yīng)用、共享、存儲(chǔ)或具體應(yīng)用
2、提供的一種技術(shù),可以在看似沒(méi)有任何關(guān)聯(lián)的數(shù)據(jù)中找出數(shù)據(jù)的分類(lèi),并對(duì)分類(lèi)的數(shù)據(jù)進(jìn)行分析,從而得出一定的結(jié)論。云計(jì)算是指基于互聯(lián)網(wǎng)的一種服務(wù)模式,最為顯著的特點(diǎn)就是資源虛擬化,使用數(shù)據(jù)的用戶并不知道數(shù)據(jù)的存儲(chǔ)地,而且數(shù)據(jù)多以分布方式存儲(chǔ)。云計(jì)算要求服務(wù)器規(guī)模大,并能提供安全、可靠的服務(wù),云計(jì)算的服務(wù)模式為存儲(chǔ)和使用大量的數(shù)據(jù)提供了可靠的保障,并提供了數(shù)據(jù)的擴(kuò)展性?;谠朴?jì)算的數(shù)據(jù)挖掘系統(tǒng)相對(duì)于一般的數(shù)據(jù)挖掘系統(tǒng)來(lái)說(shuō)具有較為明顯的優(yōu)勢(shì)。一個(gè)原因是數(shù)據(jù)挖掘技術(shù)本身就是對(duì)大量數(shù)據(jù)的處理,數(shù)據(jù)量越大其復(fù)雜程度越高,所以,借助云計(jì)算可以和數(shù)據(jù)挖掘技術(shù)深度融合,有效提高數(shù)據(jù)挖掘和數(shù)據(jù)處理的能力1。另一個(gè)原因是
3、利用云計(jì)算技術(shù)所支持的分布式存儲(chǔ)技術(shù),數(shù)據(jù)挖掘可以降低對(duì)服務(wù)器性能高標(biāo)準(zhǔn)的要求。所以云計(jì)算環(huán)境給數(shù)據(jù)挖掘技術(shù)提供了大量的數(shù)據(jù)源,同時(shí),也給數(shù)據(jù)挖掘在分布式處理方式上提供了方便,使得數(shù)據(jù)挖掘技術(shù)在同等條件下可以更方便地處理多種數(shù)據(jù)。云計(jì)算視域下數(shù)據(jù)挖掘技術(shù)應(yīng)用探究算法云計(jì)算環(huán)境下,數(shù)據(jù)類(lèi)型繁多,數(shù)據(jù)形式多樣,數(shù)據(jù)規(guī)模也不斷地?cái)U(kuò)大。要想將這些數(shù)據(jù)進(jìn)行整理分析,深度挖掘數(shù)據(jù)之間的關(guān)聯(lián),并將結(jié)果給用戶合理使用,算法成了關(guān)鍵技術(shù)和重要工具。在云計(jì)算環(huán)境下,數(shù)據(jù)量的大小很難精確估計(jì),依賴(lài)于小規(guī)模分布式計(jì)算機(jī)的集群來(lái)實(shí)現(xiàn)大批量的數(shù)據(jù)處理是遠(yuǎn)遠(yuǎn)不夠的,最為關(guān)鍵的是運(yùn)算部署難度系數(shù)大,成本投放擴(kuò)大。在這種情況下
4、,把云計(jì)算技術(shù)運(yùn)用到數(shù)據(jù)挖掘中,能夠發(fā)揮一定效率。構(gòu)建一個(gè)基于Hadoop的開(kāi)源并行數(shù)據(jù)挖掘平臺(tái),利用MapReduce框架,來(lái)實(shí)現(xiàn)數(shù)據(jù)處理。數(shù)據(jù)挖掘技術(shù)從產(chǎn)生以來(lái),涉及多種多樣的算法,不同的算法具有不同的使用環(huán)境和范圍,也會(huì)產(chǎn)生不同的效果。用戶可以根據(jù)數(shù)據(jù)的情況和自己的需求來(lái)選擇算法,也可以對(duì)算法進(jìn)行轉(zhuǎn)化,充分利用云計(jì)算技術(shù)對(duì)算法的幫助來(lái)提高數(shù)據(jù)挖掘的能力和水平,將數(shù)據(jù)挖掘算法和功能展示出來(lái),為達(dá)到用戶最終的數(shù)據(jù)挖掘目標(biāo)而工作。基于云計(jì)算的數(shù)據(jù)挖掘算法,往往會(huì)和其他領(lǐng)域的算法結(jié)合起來(lái),比如人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)可以應(yīng)用于基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)中來(lái),實(shí)現(xiàn)對(duì)超多數(shù)據(jù)的處理分析。深度學(xué)習(xí)算法可以對(duì)大批
5、量的數(shù)據(jù)進(jìn)行處理,同時(shí),可以通過(guò)樣本集的訓(xùn)練,讓算法進(jìn)行自動(dòng)的數(shù)據(jù)處理和挖掘。遺傳算法在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用也非常廣泛,通過(guò)可視化技術(shù)作為輔助手段,依靠動(dòng)畫(huà)、影像技術(shù)實(shí)現(xiàn)形象化的可視化展現(xiàn),給用戶更好的體驗(yàn)。豐富了信息技術(shù)的展示模式,有助于更好地推廣應(yīng)用。用戶數(shù)據(jù)處理對(duì)于要處理的數(shù)據(jù)源,用戶要根據(jù)自己的需要合理地安排數(shù)據(jù)的來(lái)源。有些是需要購(gòu)買(mǎi)新的需求數(shù)據(jù),當(dāng)用戶取得所需數(shù)據(jù)后,可以借助云計(jì)算的DaaS服務(wù)模式對(duì)數(shù)據(jù)進(jìn)行管理。用戶通過(guò)數(shù)據(jù)挖掘系統(tǒng),可以快速而準(zhǔn)確地找到自己需要處理的數(shù)據(jù),然后開(kāi)始對(duì)數(shù)據(jù)進(jìn)行處理。用戶也可以把自己的數(shù)據(jù)在系統(tǒng)中進(jìn)行共享,用來(lái)給其他的用戶進(jìn)行處理,兩個(gè)不同用戶對(duì)數(shù)據(jù)處
6、理的結(jié)果互不影響,只會(huì)得出自己處理數(shù)據(jù)的結(jié)論2。也可以通過(guò)數(shù)據(jù)挖掘系統(tǒng)中的分類(lèi)聚類(lèi)功能,對(duì)用戶的數(shù)據(jù)進(jìn)行科學(xué)地劃分,從而實(shí)現(xiàn)對(duì)用戶數(shù)據(jù)的動(dòng)態(tài)管理。對(duì)數(shù)據(jù)的處理有一個(gè)原則,就是只利用算法對(duì)數(shù)據(jù)進(jìn)行處理,不改變?cè)瓟?shù)據(jù)的相關(guān)屬性。因此,數(shù)據(jù)可以多次重復(fù)利用。MapReduce模型常用的基于云計(jì)算的數(shù)據(jù)挖掘的并行計(jì)算模型主要是MapReduce,所謂MapReduce,是一種基于大數(shù)據(jù)的Hadoop下的并行核算框架,該框架不僅有較強(qiáng)的容錯(cuò)特性,還能夠?qū)?shù)據(jù)進(jìn)行傳遞,讓大批量的數(shù)據(jù)都能夠得到高效的運(yùn)算3。一般來(lái)說(shuō),MapReduce的并行計(jì)算可以分為兩種任務(wù),一種是Map任務(wù),一種是Reduce任務(wù),在
7、這兩個(gè)任務(wù)執(zhí)行的過(guò)程中,數(shù)據(jù)挖掘系統(tǒng)會(huì)自動(dòng)將獲得的數(shù)據(jù)劃分為多個(gè)獨(dú)立的小模塊。然后將這些小模塊分布到Datanode的各個(gè)節(jié)點(diǎn)中,并進(jìn)行統(tǒng)一的核算處理。這種方法可以讓數(shù)據(jù)得到分布式的核算,加快數(shù)據(jù)處理的速度,減小服務(wù)器集中處理數(shù)據(jù)的負(fù)載,提高效率。在進(jìn)行海量數(shù)據(jù)處理的時(shí)候,可以借助MapReduce的任務(wù)分配功能框架去設(shè)定Datanode各節(jié)點(diǎn),并把處理階段和核算節(jié)點(diǎn)進(jìn)行統(tǒng)一分布式管理,這樣能夠便于處理Hadoop數(shù)據(jù)處理過(guò)程的各種問(wèn)題。云計(jì)算數(shù)據(jù)挖掘模型基于云計(jì)算的數(shù)據(jù)挖掘模型可以分為3層:用戶層、服務(wù)層和處理層。用戶層主要用來(lái)接收并執(zhí)行用戶的各種指令;服務(wù)層主要用來(lái)進(jìn)行數(shù)據(jù)的處理和保存,處
8、理層主要包含多種數(shù)據(jù)處理算法及數(shù)據(jù)預(yù)處理4。用戶層用戶層處于基于云計(jì)算的數(shù)據(jù)挖掘的最頂層,它主要的作用是能夠完成用戶發(fā)出的各種指令,并將這些指令傳遞到處理層,以便于向用戶展現(xiàn)對(duì)大批量數(shù)據(jù)處理的結(jié)果。用戶能夠利用各種界面的形式對(duì)指令執(zhí)行的結(jié)果進(jìn)行審查或追蹤。在該層中,用戶可以借助系統(tǒng)中的用戶輸入模板,將要處理的數(shù)據(jù)挖掘指令傳遞到系統(tǒng)中,系統(tǒng)會(huì)依據(jù)用戶所提交的申請(qǐng),對(duì)數(shù)據(jù)進(jìn)行處理。在數(shù)據(jù)處理的過(guò)程中,系統(tǒng)會(huì)利用相關(guān)的數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)處理,同時(shí),也會(huì)對(duì)即將要處理的數(shù)據(jù)進(jìn)行各種調(diào)配,將數(shù)據(jù)傳入到MapReduce平臺(tái),通過(guò)這個(gè)平臺(tái),將模塊化的數(shù)據(jù)分布到各個(gè)節(jié)點(diǎn),最后再將處理后結(jié)果傳遞給用戶5服務(wù)層
9、服務(wù)層處于基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)中的最低層,它的主要作用是對(duì)MapReduce平臺(tái)上分布到各節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行處理,同時(shí),對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行保存。此層可以保存數(shù)據(jù)的分類(lèi)聚類(lèi)效果,也可以按照用戶的要求進(jìn)行保存,所以此層在處理數(shù)據(jù)的時(shí)候不但要考慮數(shù)據(jù)處理時(shí)的性能問(wèn)題,還要考慮數(shù)據(jù)保存時(shí)的安全性、平穩(wěn)性、便捷性等。在云言十算模式下,通過(guò)分布式云計(jì)算技術(shù),能夠?qū)Υ笈康臄?shù)據(jù)進(jìn)行統(tǒng)一保存。在保存數(shù)據(jù)的時(shí)候能夠按照用戶的要求,對(duì)要保存的數(shù)據(jù)進(jìn)行備份保存,有效增加數(shù)據(jù)的安全性6。目前云計(jì)算海量數(shù)據(jù)保存技術(shù)通常涉及了開(kāi)源的HDF酸非開(kāi)源的GFS兩種,非開(kāi)源的GFS是由Google公司開(kāi)發(fā)的,而開(kāi)源的HDFSW是由H
10、adoop團(tuán)隊(duì)研制開(kāi)發(fā)的。在云計(jì)算的平臺(tái)下,可以通過(guò)并行的應(yīng)用工作方式來(lái)響應(yīng)多用戶同時(shí)發(fā)送的請(qǐng)求,并為其提供針對(duì)性服務(wù)。處理層處理層處于用戶層和服務(wù)層的中間,它包含了大批量數(shù)據(jù)處理算法及對(duì)數(shù)據(jù)預(yù)處理功能。對(duì)大數(shù)據(jù)的預(yù)處理功能中,可以對(duì)不規(guī)則的海量數(shù)據(jù)進(jìn)行處理,如果處理的結(jié)果達(dá)不到用戶的要求,在云計(jì)算技術(shù)的支持下,MapReduce可以得到由處理層處理過(guò)的、統(tǒng)一結(jié)構(gòu)的、規(guī)則的數(shù)據(jù)應(yīng)用。因此,在數(shù)據(jù)挖掘系統(tǒng)對(duì)數(shù)據(jù)真正處理之前,都要用處理層對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)一結(jié)構(gòu)的數(shù)據(jù)類(lèi)型。這種數(shù)據(jù)處理方式主要包括數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換、數(shù)據(jù)的特征抽取、數(shù)據(jù)集的清洗及集成等。通過(guò)預(yù)處理,不但能夠有效地提升數(shù)據(jù)挖掘的質(zhì)
11、量及效果,而且也大大提高了數(shù)據(jù)挖掘的效率。這種在處理層的并行處理(數(shù)據(jù)處理和數(shù)據(jù)預(yù)處理)方式,在云計(jì)算模式下主要應(yīng)用平臺(tái)還是MapReduce計(jì)算模型,采用并行分類(lèi)算法、并行關(guān)聯(lián)規(guī)則算法、并行聚類(lèi)算法等方式,能夠根據(jù)應(yīng)用的模型類(lèi)型實(shí)現(xiàn)大批量數(shù)據(jù)的處理,以促進(jìn)大數(shù)據(jù)挖掘時(shí)效性的提升。結(jié)語(yǔ)數(shù)據(jù)挖掘技術(shù)作為對(duì)海量數(shù)據(jù)處理的有效方法,越來(lái)越得到重用。云計(jì)算在數(shù)據(jù)挖掘上有比較大的優(yōu)勢(shì)其分布式存儲(chǔ)和云計(jì)算的MapReduce計(jì)算模型都給數(shù)據(jù)挖掘提供了便捷的數(shù)據(jù)處理途徑,可以有效提高數(shù)據(jù)挖掘的效率和數(shù)據(jù)處理質(zhì)量。參考文獻(xiàn)楊繼武.云計(jì)算視域下數(shù)據(jù)挖掘技術(shù)J.電子技術(shù)與軟件工程,2019(5):151.雷晨.基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái)建設(shè)研究J.信息記錄材料,2019(3):4-5.王曉雨.基于云計(jì)算的非連續(xù)層次數(shù)據(jù)挖掘方法探討J.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 天津市紅橋區(qū)2025-2026學(xué)年高三上學(xué)期期末語(yǔ)文試卷(含答案)
- 化工企業(yè)維修工培訓(xùn)課件
- 化工企業(yè)不安全行為培訓(xùn)課件
- 化工儀表工培訓(xùn)課件
- 鋼結(jié)構(gòu)焊后熱處理技術(shù)要點(diǎn)
- 2026年菏澤單縣事業(yè)單位公開(kāi)招聘初級(jí)綜合類(lèi)崗位人員(26人)備考考試試題及答案解析
- 2026湖南株洲市國(guó)資委選聘市屬監(jiān)管企業(yè)專(zhuān)職外部董事考試參考題庫(kù)及答案解析
- 2026年度煙臺(tái)市福山區(qū)事業(yè)單位公開(kāi)招聘工作人員(68人)考試備考試題及答案解析
- 2026北京航空航天大學(xué)計(jì)算機(jī)學(xué)院聘用編高級(jí)研發(fā)工程師F崗招聘1人備考考試題庫(kù)及答案解析
- 養(yǎng)生有關(guān)活動(dòng)策劃方案(3篇)
- 2025年廣東省生態(tài)環(huán)境廳下屬事業(yè)單位考試真題附答案
- 2026年安徽省公務(wù)員考試招錄7195名備考題庫(kù)完整參考答案詳解
- 【地理】期末模擬測(cè)試卷-2025-2026學(xué)年七年級(jí)地理上學(xué)期(人教版2024)
- 統(tǒng)籌發(fā)展與安全課件
- 弱電項(xiàng)目實(shí)施管理方案
- 2025年山西省公務(wù)員考試《申論》試題及答案解析(縣鄉(xiāng)卷)
- 2025年法考客觀題真題回憶版(含答案)
- 2026年鐵嶺衛(wèi)生職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)附答案詳解
- 操作系統(tǒng)安裝與配置標(biāo)準(zhǔn)
- 精益生產(chǎn)工作規(guī)劃
- 二級(jí)注冊(cè)計(jì)量師2025年全真模擬測(cè)試卷(含答案)
評(píng)論
0/150
提交評(píng)論