版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄項目一大數(shù)據(jù)概述項目二大數(shù)據(jù)思維項目三數(shù)據(jù)庫基礎知識項目四大數(shù)據(jù)分析技術及相關應用項目五數(shù)據(jù)可視化概論項目六大數(shù)據(jù)安全項目七大數(shù)據(jù)與新一代信息技術的融合應用項目四大數(shù)據(jù)分析技術及相關應用
1大數(shù)據(jù)分析技術之初體驗
2大數(shù)據(jù)分析生命周期
3大數(shù)據(jù)處理和分析工具
4大數(shù)據(jù)實際使用案例任務2大數(shù)據(jù)分析生命周期
大數(shù)據(jù)分析的生命周期可以分為以下七個階段:1)明確目的;2)數(shù)據(jù)獲取;3)數(shù)據(jù)存儲;4)數(shù)據(jù)處理;5)數(shù)據(jù)分析;6)數(shù)據(jù)可視化;7)報告撰寫大數(shù)據(jù)分析的生命周期的不同階段所需的大數(shù)據(jù)技術也不盡相同,從數(shù)據(jù)分析的生命周期角度看:大數(shù)據(jù)技術主要包括數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化任務2大數(shù)據(jù)分析生命周期數(shù)據(jù)收集是在明確數(shù)據(jù)分析的目的之后,獲取數(shù)據(jù)的過程,可以為數(shù)據(jù)分析提供直接的素材和依據(jù)。在收集數(shù)據(jù)時,數(shù)據(jù)來源包含兩種方式。第一種方式是直接來源,通過直接來源獲取的數(shù)據(jù)是第一手數(shù)據(jù),這類數(shù)據(jù)主要來源于直接的調查或實驗的結果。第二種方式是間接數(shù)據(jù),也稱為第二手數(shù)據(jù),第二手數(shù)據(jù)一般來源于他人的調查或實驗,是對結果進行加工整理后的數(shù)據(jù)。
一、數(shù)據(jù)收集任務2大數(shù)據(jù)分析生命周期在實際工作中,獲取數(shù)據(jù)的方式有很多種,包括:數(shù)據(jù)庫、公開出版物、統(tǒng)計工具、市場調查。1.數(shù)據(jù)庫現(xiàn)代企業(yè)都有自己的業(yè)務數(shù)據(jù)庫,用來存放公司自成立以來的相關的業(yè)務數(shù)據(jù)。(1)網(wǎng)站用戶數(shù)據(jù):包括注冊時間、用戶性別、所屬地域、來訪次數(shù)、停留時間等。(2)訂單數(shù)據(jù):包括下單時間、訂單數(shù)量、商品品類、訂單金額、訂購頻次等。(3)反饋數(shù)據(jù);包括客戶評價、退貨換貨、客戶投訴等。
數(shù)據(jù)收集任務2大數(shù)據(jù)分析生命周期2.公開出版物在數(shù)據(jù)分析中,有時會需要一些比較專業(yè)的數(shù)據(jù),這些數(shù)據(jù)可以通過公開出版物獲取,比如,中國統(tǒng)計網(wǎng),各行各業(yè)發(fā)展報告等。3.統(tǒng)計工具的數(shù)據(jù)專業(yè)的網(wǎng)站統(tǒng)計工具有很多,國內常用的網(wǎng)站統(tǒng)計工具有百度統(tǒng)計和CNZZ(現(xiàn)已改名為友盟+)等。通過這些統(tǒng)計工具可以獲取訪客來自哪些地域、訪客來自哪些網(wǎng)站、訪客來自哪些搜索詞、訪客測覽了哪些頁面等數(shù)據(jù)信息,并且會根據(jù)需要進行廣告跟蹤等。
數(shù)據(jù)收集任務2大數(shù)據(jù)分析生命周期4.市場調查市場調查就是用科學的方法,有目的、系統(tǒng)地搜集、記錄、整理和分析市場情況,了解市場的現(xiàn)狀以及發(fā)展趨勢,為企業(yè)的決策者進行市場預測、做出經(jīng)營決策制訂計劃提供客觀、正確的依據(jù)。市場調查的常用方法有:觀察法、實驗法、訪問法、問卷法等。
數(shù)據(jù)收集任務2大數(shù)據(jù)分析生命周期數(shù)據(jù)的有效存儲是大數(shù)據(jù)技術的基礎,數(shù)據(jù)存儲技術的發(fā)展主要經(jīng)歷了以下階段。
二、數(shù)據(jù)存儲1.關系型數(shù)據(jù)庫傳統(tǒng)的數(shù)據(jù)處理技術以關系型數(shù)據(jù)庫作為基本的存儲方式,在關系型數(shù)據(jù)庫中,通常要把待分析的數(shù)據(jù)處理成一張表的形式,表的每一行稱為一個實例、對象或樣本,表的每一列稱為屬性、特征或變量。關系型數(shù)據(jù)庫強調的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,而不同系統(tǒng)產(chǎn)生的業(yè)務數(shù)據(jù)存放于分散、異構的環(huán)境中,不易統(tǒng)一查詢訪問,因而在針對支持決策而進行的數(shù)據(jù)分析處理上難以滿足多樣化的需求。任務2大數(shù)據(jù)分析生命周期
2.數(shù)據(jù)倉庫為了將大量的業(yè)務數(shù)據(jù)用于分析和統(tǒng)計,人們提出了數(shù)據(jù)倉庫的概念。一個完整的數(shù)據(jù)倉庫主要由四部分構成:數(shù)據(jù)源、數(shù)據(jù)倉庫和數(shù)據(jù)集市、OLAP服務器,以及前臺分析工具。數(shù)據(jù)倉庫中的數(shù)據(jù)源包括聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、歷史業(yè)務數(shù)據(jù)集等,前臺分析工具主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具,以及各種基于數(shù)據(jù)倉庫和數(shù)據(jù)集市的應用開發(fā)工具等。任務2大數(shù)據(jù)分析生命周期
3.非關系型數(shù)據(jù)庫和分布式文件系統(tǒng)在Web2.0時代,互聯(lián)網(wǎng)更加注重用戶交互,網(wǎng)站信息的提供者由傳統(tǒng)網(wǎng)站管理員變成了普通用戶。用戶提供的信息是海量的,從航班預定、股票交易到通信、購物、娛樂、社交,數(shù)據(jù)量從TB級升至PB級,并仍在持續(xù)爆炸式地增長。為了應對大數(shù)據(jù)時代海量互聯(lián)網(wǎng)數(shù)據(jù)的存能和管理,非關系型數(shù)據(jù)庫和分布式文件系統(tǒng)應送而生,非關系型數(shù)據(jù)庫和分布式文件系統(tǒng)使得數(shù)據(jù)的存儲可以發(fā)展到數(shù)以千計的節(jié)點上,具有更高的可用性和可擴展性。任務2大數(shù)據(jù)分析生命周期三、數(shù)據(jù)處理
在數(shù)據(jù)分析師獲取的大量數(shù)據(jù)中,并不是所有的數(shù)據(jù)都具有價值,這時就需要數(shù)據(jù)分析師對數(shù)據(jù)進行處理加工提取有價值的數(shù)據(jù)。在數(shù)據(jù)分析中,數(shù)據(jù)處理是必不可少的一個環(huán)節(jié),主要包括數(shù)據(jù)清理、數(shù)據(jù)轉換、數(shù)據(jù)提取、數(shù)據(jù)匯總、數(shù)據(jù)計算等數(shù)據(jù)處理這些方法。任務2大數(shù)據(jù)分析生命周期四、數(shù)據(jù)分析
數(shù)據(jù)分析師對處理過的數(shù)據(jù)進行分析,通過合適的方法及工具,從中推導出有價值的信息并形成有效結論的過程。在確定數(shù)據(jù)分析思路的階段,同時應根據(jù)分析內容確定合適的分析方法,這樣才能從容地對數(shù)據(jù)進行分析研究。目前數(shù)據(jù)分析多是通過軟件來完成的,簡單實用的軟件有人們比較熟悉的Excel,專業(yè)高端的分析軟件有SPSS(統(tǒng)計產(chǎn)品與解決方案軟件)和SAS(統(tǒng)計分析軟件)等。另外,在電商數(shù)據(jù)分析中還需要使用生意參謀等專門的數(shù)據(jù)分析工具。任務2大數(shù)據(jù)分析生命周期五、數(shù)據(jù)可視化
數(shù)據(jù)可視化是將數(shù)據(jù)分析結果通過直觀的方式(表格、圖形等)呈現(xiàn)出來。通過數(shù)據(jù)展現(xiàn)可以讓決策者更好地理解數(shù)據(jù)分析結果。通常情況下,表格和圖形是展現(xiàn)數(shù)據(jù)的最好的方式。常用的數(shù)據(jù)圖表包括條形圖、柱形圖、餅圖、折線圖、散點圖、雷達圖等。根據(jù)需求,數(shù)據(jù)分析師可以將分析完成的數(shù)據(jù)進一步整理成相應的圖表,如漏斗圖、矩陣圖、金字塔圖等,因為圖形能夠更直觀、有效地將數(shù)據(jù)分析師的結論和觀點表達出來,所以人們更樂于接受用圖形展現(xiàn)數(shù)據(jù)的方式。任務2大數(shù)據(jù)分析生命周期【素質拓展】數(shù)據(jù)挖掘與數(shù)據(jù)分析的區(qū)別
數(shù)據(jù)分析一般都是得到一個指標統(tǒng)計量結果,比如總和、平均值等,這些指標數(shù)據(jù)都需要與業(yè)務結合進行解讀,才能發(fā)揮數(shù)據(jù)的價值與作用。
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年西安交通大學能動學院管理輔助工作人員招聘備考題庫及完整答案詳解1套
- 2026年浙江長興空域產(chǎn)業(yè)發(fā)展有限公司公開招聘職業(yè)經(jīng)理人備考題庫及參考答案詳解1套
- 企業(yè)薪酬福利管理制度
- 2026年武漢市武昌區(qū)南湖第一小學招聘備考題庫及答案詳解1套
- 中學班主任工作考核制度
- 養(yǎng)老院入住老人醫(yī)療護理技能培訓制度
- 2026年濟南北山糧庫有限公司公開招聘勞務派遣工作人員崗位備考題庫及1套參考答案詳解
- 2026年隆回縣人民醫(yī)院公開招聘編制外專業(yè)技術人員備考題庫附答案詳解
- 企業(yè)內部保密工作規(guī)劃制度
- 養(yǎng)老院老人入住簽字制度
- 內鏡中心年終總結
- 碎石技術供應保障方案
- 園林苗木容器育苗技術
- 23秋國家開放大學《機電一體化系統(tǒng)設計基礎》形考作業(yè)1-3+專題報告參考答案
- 2023年工裝夾具設計工程師年終總結及下一年計劃
- 第七章腭裂課件
- 兒科學熱性驚厥課件
- 嗶哩嗶哩認證公函
- GB/T 985.1-2008氣焊、焊條電弧焊、氣體保護焊和高能束焊的推薦坡口
- GB/T 26480-2011閥門的檢驗和試驗
- GB/T 25684.13-2021土方機械安全第13部分:壓路機的要求
評論
0/150
提交評論