大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 1-3《項(xiàng)目一 認(rèn)知大數(shù)據(jù)系統(tǒng)》 大數(shù)據(jù)技術(shù)及大數(shù)據(jù)處理流程、實(shí)訓(xùn)三 大數(shù)據(jù)分析、挖掘與可視化工具比對_第1頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 1-3《項(xiàng)目一 認(rèn)知大數(shù)據(jù)系統(tǒng)》 大數(shù)據(jù)技術(shù)及大數(shù)據(jù)處理流程、實(shí)訓(xùn)三 大數(shù)據(jù)分析、挖掘與可視化工具比對_第2頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 1-3《項(xiàng)目一 認(rèn)知大數(shù)據(jù)系統(tǒng)》 大數(shù)據(jù)技術(shù)及大數(shù)據(jù)處理流程、實(shí)訓(xùn)三 大數(shù)據(jù)分析、挖掘與可視化工具比對_第3頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 1-3《項(xiàng)目一 認(rèn)知大數(shù)據(jù)系統(tǒng)》 大數(shù)據(jù)技術(shù)及大數(shù)據(jù)處理流程、實(shí)訓(xùn)三 大數(shù)據(jù)分析、挖掘與可視化工具比對_第4頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 1-3《項(xiàng)目一 認(rèn)知大數(shù)據(jù)系統(tǒng)》 大數(shù)據(jù)技術(shù)及大數(shù)據(jù)處理流程、實(shí)訓(xùn)三 大數(shù)據(jù)分析、挖掘與可視化工具比對_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)應(yīng)用基礎(chǔ)信息學(xué)院認(rèn)知大數(shù)據(jù)系統(tǒng)1.3大數(shù)據(jù)技術(shù)及大數(shù)據(jù)處理流程01認(rèn)知大數(shù)據(jù)系統(tǒng)大數(shù)據(jù)相關(guān)技術(shù)01大數(shù)據(jù)處理流程02大數(shù)據(jù)工具比較03一、大數(shù)據(jù)相關(guān)技術(shù)

大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。近年來,大數(shù)據(jù)相關(guān)技術(shù)和應(yīng)用引起了從研究人員到商業(yè)人士越來越廣泛的關(guān)注。

云計(jì)算、物聯(lián)網(wǎng)、人工智能等技術(shù)基礎(chǔ)的發(fā)展極大地推動了大數(shù)據(jù)服務(wù)的發(fā)展。云存儲:是一種網(wǎng)上在線存儲(英語:Cloudstorage)的模式,即把數(shù)據(jù)存放在通常由第三方托管的多臺虛擬服務(wù)器上。使用者可以在任何時(shí)間、任何地方,透過任何可連網(wǎng)的裝置連接到云上方便地存取數(shù)據(jù)。云計(jì)算:云計(jì)算(cloudcomputing)是分布式計(jì)算的一種,指的是通過網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計(jì)算處理程序分解成無數(shù)個(gè)小程序,然后,通過多部服務(wù)器組成的系統(tǒng)進(jìn)行處理和分析這些小程序得到結(jié)果并返回給用戶。一、大數(shù)據(jù)技術(shù)物聯(lián)網(wǎng):物聯(lián)網(wǎng)是新一代信息技術(shù)的重要組成部分,也是"信息化"時(shí)代的重要發(fā)展階段。其英文名稱是:"Internetofthings(IoT)"。顧名思義,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)。它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實(shí)現(xiàn)信息化、遠(yuǎn)程管理控制和智能化的網(wǎng)絡(luò)。物聯(lián)網(wǎng)是互聯(lián)網(wǎng)的延伸。一、大數(shù)據(jù)技術(shù)人工智能:人工智能(ArtificialIntelligence,縮寫為AI)亦稱智械、機(jī)器智能,指由人制造出來的機(jī)器所表現(xiàn)出來的智能。通常人工智能是指通過普通計(jì)算機(jī)程序來呈現(xiàn)人類智能的技術(shù)。例如:在線客服、虛擬個(gè)人助理(Siri)、面部識別、可穿戴設(shè)備……一、大數(shù)據(jù)技術(shù)歷程從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化等幾個(gè)層面的內(nèi)容。第二階段:數(shù)據(jù)存儲與管理第四階段:數(shù)據(jù)可視化第一階段:數(shù)據(jù)采集與預(yù)處理二、大數(shù)據(jù)處理流程第三階段:數(shù)據(jù)處理與分析2.1數(shù)據(jù)采集與預(yù)處理

數(shù)據(jù)無處不在,網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、生產(chǎn)系統(tǒng)、監(jiān)控?cái)z像頭、傳感器等,每時(shí)每刻都在不斷產(chǎn)生數(shù)據(jù),需要相應(yīng)的設(shè)備或軟件進(jìn)行采集。采集到的數(shù)據(jù)由于來源眾多、類型多樣,數(shù)據(jù)缺失和語義模糊等問題不可避免,所以必須采用“數(shù)據(jù)預(yù)處理”把數(shù)據(jù)變成可用的狀態(tài)。2.1數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是利用各種技術(shù)手段,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。被采集的數(shù)據(jù)類型復(fù)雜多樣,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù):就是保存在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù):是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,包括所有格式的傳感器數(shù)據(jù)、辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻、視頻等信息。半結(jié)構(gòu)化數(shù)據(jù):就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層。因此,它也被稱為自描述的結(jié)構(gòu),包括日志文件、XML文檔、JSON文檔、Email等。2.1數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)預(yù)處理是指對所收集數(shù)據(jù)進(jìn)行分類或分組前所做的審核、篩選、排序等必要的處理,主要采用數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約的方法來完成數(shù)據(jù)的預(yù)處理任務(wù)。數(shù)據(jù)清洗:是指將大量原始數(shù)據(jù)中的“臟”數(shù)據(jù)“洗掉”,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。需要清洗的數(shù)據(jù)主要類型包括:殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重要數(shù)據(jù)。數(shù)據(jù)清洗的內(nèi)容主要包括:一致性查檢查、無效值和缺失值的處理。數(shù)據(jù)集成:是將不同應(yīng)用系統(tǒng)、不同數(shù)據(jù)形式,在原應(yīng)用系統(tǒng)不做任何改變的條件下,進(jìn)行數(shù)據(jù)采集、轉(zhuǎn)換好儲存的數(shù)據(jù)整合過程。通常采用聯(lián)邦式、基于中間件模型和數(shù)據(jù)倉庫等方法來構(gòu)造集成的系統(tǒng)。

數(shù)據(jù)轉(zhuǎn)換:采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維的數(shù)據(jù),消除它們在時(shí)間、空間、屬性及精度等特征表現(xiàn)方面的差異。

數(shù)據(jù)規(guī)約:是指盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量保持?jǐn)?shù)據(jù)的原始狀態(tài)。數(shù)據(jù)規(guī)約可以分為3類,分別是特征規(guī)約、樣本規(guī)約、特征值規(guī)約。2.2數(shù)據(jù)存儲與管理大數(shù)據(jù)時(shí)代必須解決海量數(shù)據(jù)的高效存儲問題,為了應(yīng)對大數(shù)據(jù)對存儲系統(tǒng)的挑戰(zhàn),數(shù)據(jù)存儲系統(tǒng)必須提升3個(gè)方面的問題:提升系統(tǒng)的存儲容量、提升系統(tǒng)的吞吐量、提升系統(tǒng)的容錯(cuò)性。當(dāng)前主流大數(shù)據(jù)存儲方式為分布式系統(tǒng)、NoSQL數(shù)據(jù)庫和云存儲技術(shù)。分布式文件系統(tǒng)(DistributedFileSystem,DFS):分布式文件系統(tǒng)通過網(wǎng)絡(luò)將大量零散的計(jì)算機(jī)連接在一起,形成一個(gè)巨大的計(jì)算機(jī)集群,使各主機(jī)均可以充分發(fā)揮其價(jià)值。此外,集群之外的計(jì)算機(jī)只需要經(jīng)過簡單的配置就可以加入到分布式文件系統(tǒng)中,具有極強(qiáng)的可擴(kuò)展能力。NoSQL數(shù)據(jù)庫(NotOnlySQL):泛指非關(guān)系型的數(shù)據(jù)庫,區(qū)別于關(guān)系數(shù)據(jù)庫,它們不保證關(guān)系數(shù)據(jù)的ACID特性。NoSQL有如下優(yōu)點(diǎn):易擴(kuò)展,NoSQL數(shù)據(jù)庫種類繁多,但是一個(gè)共同的特點(diǎn)都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性。數(shù)據(jù)之間無關(guān)系,這樣就非常容易擴(kuò)展。無形之間也在架構(gòu)的層面上帶來了可擴(kuò)展的能力。云存儲(Cloudstorage)技術(shù):是一種網(wǎng)上在線存儲的模式,即把數(shù)據(jù)存放在通常由第三方托管的多臺虛擬服務(wù)器,而非專屬的服務(wù)器上。托管公司運(yùn)營大型的數(shù)據(jù)中心,需要數(shù)據(jù)存儲托管的人,則透過向其購買或租賃存儲空間的方式,來滿足數(shù)據(jù)存儲的需求。數(shù)據(jù)備份、歸檔和災(zāi)難恢復(fù)是云存儲可能的3個(gè)用途。2.3數(shù)據(jù)處理與分析數(shù)據(jù)分析是指收集、處理數(shù)據(jù)并獲取數(shù)據(jù)中隱含的信息的過程。具體地說,數(shù)據(jù)分析就是建立數(shù)據(jù)分析模型,對數(shù)據(jù)進(jìn)行核對、篩查、復(fù)算、判斷等操作,將目標(biāo)數(shù)據(jù)的實(shí)際情況與理想情況進(jìn)行對比分析,從而發(fā)現(xiàn)審計(jì)線索,搜集審計(jì)證據(jù)的過程。推測或解釋數(shù)據(jù)并確定如何使用數(shù)據(jù)。檢查數(shù)據(jù)是否合法。給決策制定合理建議。診斷或推斷錯(cuò)誤原因。預(yù)測未來將要發(fā)生的事情。2.3數(shù)據(jù)處理與分析數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于數(shù)據(jù)中的信息的過程。數(shù)據(jù)挖掘算法包括分類、聚類、回歸分析和關(guān)聯(lián)規(guī)則等。分類:分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。聚類分析:聚類是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低?;貧w分析:回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。特征分析:特征分析是指從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征,這些特征即為此數(shù)據(jù)庫的總體特征。2.4數(shù)據(jù)可視化數(shù)據(jù)可視化概念。是指將大型數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。具體指利用圖形、圖像處理、計(jì)算機(jī)視覺以及用戶界面,通過表達(dá)、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。觀測、跟蹤數(shù)據(jù)。利用變化的數(shù)據(jù)生成實(shí)時(shí)變化的可視化圖表,可以讓人們一看出各種參數(shù)的態(tài)變化過程,有效地跟蹤各種參數(shù)值。分析數(shù)據(jù)。利用可視化技術(shù),實(shí)時(shí)呈現(xiàn)當(dāng)前分析結(jié)果,引導(dǎo)用戶參與分析過程,根據(jù)用戶反反饋信息執(zhí)行后續(xù)分析操作,完成用戶與分析算法的全程交互,實(shí)現(xiàn)數(shù)據(jù)分析算法與用戶領(lǐng)域知識結(jié)合。輔助理解數(shù)據(jù)。幫助普通用戶更快、更準(zhǔn)確地理解數(shù)據(jù)背后的含義,如用不同的顏色區(qū)分不同對象、用動畫顯示變化過程、用圖結(jié)構(gòu)展示對象之間的復(fù)雜關(guān)系等。增強(qiáng)數(shù)據(jù)吸引力??菰锏臄?shù)據(jù)被制作成具有強(qiáng)大視覺沖擊力和說服力的圖像,可以增強(qiáng)讀者的閱讀興趣。實(shí)訓(xùn)三:大數(shù)據(jù)分析、挖掘與可視化工具比對02實(shí)訓(xùn)三:大數(shù)據(jù)分析、挖掘與可視化工具比對背景:為了高效進(jìn)行數(shù)據(jù)分析與數(shù)據(jù)呈現(xiàn),請你查閱國內(nèi)外主流的大數(shù)據(jù)分析與可視化呈現(xiàn)工具,并對比分析工具。實(shí)訓(xùn)三大數(shù)據(jù)分析、挖掘與可視化工具比對任務(wù)一:查詢國外常用的數(shù)據(jù)分析工具【任務(wù)描述】搜索查閱對比Python程序與R語言相關(guān)內(nèi)容,對比兩個(gè)系統(tǒng)的特點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論