下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用模塊模塊9數(shù)據(jù)分析與可視化綜合實(shí)戰(zhàn)【學(xué)習(xí)與訓(xùn)練】9.1數(shù)據(jù)分析的過程數(shù)據(jù)分析可以概括為明確目的與問題定義、數(shù)據(jù)收集與提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)展示與探索、預(yù)測模型創(chuàng)建和選擇、評估模型和部署與應(yīng)用幾個(gè)階段。1.明確目的與問題定義在數(shù)據(jù)分析前,首先需要明確數(shù)據(jù)分析的目標(biāo),即本次數(shù)據(jù)分析要研究的主要問題和預(yù)期的分析目標(biāo)等,這稱為問題定義。只有弄清楚了分析的目的是什么,才能提出有價(jià)值的問題,提供清晰的指引方向。數(shù)據(jù)分析總是始于要解決的問題,而這個(gè)問題需要事先定義。問題定義這一步及產(chǎn)生的相關(guān)文檔,將決定整個(gè)數(shù)據(jù)分析所遵循的指導(dǎo)方針。2.?dāng)?shù)據(jù)收集與提取經(jīng)過問題定義階段后,在分析數(shù)據(jù)之前,首先要做的就是獲取數(shù)據(jù)。數(shù)據(jù)收集對數(shù)據(jù)分析的成功起著至關(guān)重要的作用,所采集的樣本數(shù)據(jù)應(yīng)盡可能多地反映實(shí)際情況,即能夠描述系統(tǒng)對來自現(xiàn)實(shí)真實(shí)的反應(yīng)。如果收集了不合適的數(shù)據(jù),或者對不能很好地代表系統(tǒng)的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析,得到的模型將會(huì)偏離作為研究對象的系統(tǒng)數(shù)據(jù)提取是將數(shù)據(jù)取出的過程,數(shù)據(jù)提取的核心環(huán)節(jié)是從哪取、何時(shí)取、如何取。?從哪取,數(shù)據(jù)來源——不同的數(shù)據(jù)源得到的數(shù)據(jù)結(jié)果未必一致。?何時(shí)取,提取時(shí)間——不同時(shí)間取出來的數(shù)據(jù)結(jié)果未必一致。?如何取,提取規(guī)則——不同提取規(guī)則下的數(shù)據(jù)結(jié)果很難一致。3.?dāng)?shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指對收集到的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)加工,主要包括數(shù)據(jù)清洗、數(shù)據(jù)合并、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約等處理方法,即將各種原始數(shù)據(jù)加工成為符合準(zhǔn)確、完整、簡潔等標(biāo)準(zhǔn)的高質(zhì)量數(shù)據(jù),保證該數(shù)據(jù)能更好地服務(wù)于數(shù)據(jù)分析工作。(1)數(shù)據(jù)清理數(shù)據(jù)清理主要是將“臟”數(shù)據(jù)變成“干凈”數(shù)據(jù)的過程,通過一系列的方法對“臟”數(shù)據(jù)進(jìn)行處理,包括刪除重復(fù)數(shù)據(jù)、填充缺失數(shù)據(jù)、檢測異常數(shù)據(jù)等,以達(dá)到清除冗余數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)的目的。(2)數(shù)據(jù)合并數(shù)據(jù)集成主要是把多個(gè)數(shù)據(jù)源合并成一個(gè)數(shù)據(jù)集,以達(dá)到增大數(shù)據(jù)量的目的。(3)數(shù)據(jù)變換數(shù)據(jù)變換主要是將數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问剑越档蛿?shù)據(jù)的復(fù)雜度。(4)數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約主是是在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量,包括除低數(shù)據(jù)的維度、刪除與數(shù)據(jù)分析主題無關(guān)的多余數(shù)據(jù)等。4.?dāng)?shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對準(zhǔn)備好的數(shù)據(jù)進(jìn)行探索分析,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和隱藏的規(guī)律性,為科學(xué)決策提供參考。數(shù)據(jù)預(yù)處理完畢,就要對數(shù)據(jù)進(jìn)行綜合分析和相關(guān)分析,需要對產(chǎn)品、業(yè)務(wù)、技術(shù)等了如指掌才行,需要熟悉數(shù)據(jù)分析原理和方法,常用的數(shù)據(jù)分析方法包括分類、聚類、關(guān)聯(lián)和預(yù)測等。也需熟悉專業(yè)數(shù)據(jù)分析工具,Excel是最簡單的數(shù)據(jù)分析工具,專業(yè)數(shù)據(jù)分析工具有Python、FineBI等。5.?dāng)?shù)據(jù)展示和探索數(shù)據(jù)可視化是獲得信息的最佳方式之一,通過可視化呈現(xiàn)數(shù)據(jù)的方式,不僅能快速抓住要點(diǎn)信息,而且,還可以揭示通過簡單統(tǒng)計(jì)不能觀察到的模式和結(jié)論。數(shù)據(jù)展示最佳方式是圖表,能用圖說明問題的就不用表格,能用表說明問題的就不用文字。因?yàn)榻柚鷶?shù)據(jù)可視化圖表,能有效直觀地表述想要呈現(xiàn)的信息、觀點(diǎn)和建議,同時(shí)也可以使用報(bào)告等形式與他人交流。一般情況下,數(shù)據(jù)是通過表格和圖形的方式來呈現(xiàn)的。常用的數(shù)據(jù)圖表包括餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點(diǎn)圖、雷達(dá)圖等。進(jìn)一步加工整理變成我們需要的圖形,例如金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6.預(yù)測模型創(chuàng)建和選擇預(yù)測模型是指用于預(yù)測的、用數(shù)學(xué)語言或公式來描述的事物間的數(shù)量關(guān)系。它在一定程度上揭示了事物間的內(nèi)在規(guī)律性,預(yù)測時(shí)把它作為計(jì)算預(yù)測值的直接依據(jù)。在數(shù)據(jù)分析的預(yù)測模型的創(chuàng)建和選擇階段,要?jiǎng)?chuàng)建或選擇合適的統(tǒng)計(jì)模型來預(yù)測某一個(gè)結(jié)果的概率。根據(jù)輸出結(jié)果的類型,模型可分為以下3種。①分類模型:模型輸出結(jié)果為類別型數(shù)據(jù)。②回歸模型:模型輸出結(jié)果為數(shù)值型數(shù)據(jù)。③聚類模型:模型輸出結(jié)果為描述型數(shù)據(jù)。創(chuàng)建或選擇合適的統(tǒng)計(jì)模型來預(yù)測某一個(gè)結(jié)果的概率。7.模型評估模型評估階段也就是測試階段,該階段是從整個(gè)數(shù)據(jù)分析的原始數(shù)據(jù)集中抽取出一部分用作驗(yàn)證集,并用驗(yàn)證集去評估使用先前采集的數(shù)據(jù)所創(chuàng)建的模型是否有效。8.部署與應(yīng)用數(shù)據(jù)分析的最后一步是部署與應(yīng)用,部署過程基本上就是把數(shù)據(jù)分析得到的結(jié)果應(yīng)用到實(shí)踐中去,數(shù)據(jù)應(yīng)用是數(shù)據(jù)具有落地價(jià)值的直接體現(xiàn)。數(shù)據(jù)分析的結(jié)果有多種部署方案,通常這個(gè)階段也稱為數(shù)據(jù)報(bào)告的撰寫。數(shù)據(jù)報(bào)告的撰寫應(yīng)詳細(xì)描述以下幾點(diǎn):結(jié)果分析、決策部署、風(fēng)險(xiǎn)分析、評估商業(yè)影響。9.2基于互聯(lián)網(wǎng)的數(shù)據(jù)分析的專業(yè)術(shù)語解釋基于互聯(lián)網(wǎng)的數(shù)據(jù)分析過程中,例如電子商務(wù)用戶行為分析,經(jīng)常會(huì)涉及轉(zhuǎn)化率、跳出率、有效用戶、活躍用戶、流失用戶、核心用戶、用戶流失率等專業(yè)術(shù)語。對這些術(shù)語的解釋如下所示。1.轉(zhuǎn)化率用戶執(zhí)行了期盼動(dòng)作的比重,計(jì)算公式為:進(jìn)行了相應(yīng)動(dòng)作的訪問量/總訪問量。2.跳出率代表訪問者在某一頁面立即關(guān)閉網(wǎng)站或App的比例,計(jì)算公式為:當(dāng)前頁面退出產(chǎn)品的訪問量/當(dāng)前頁面的總訪問量。3.有效用戶當(dāng)前產(chǎn)品注冊用戶并在當(dāng)前產(chǎn)品中發(fā)生過行為的用戶。4.活躍用戶打開產(chǎn)品并且每天在在當(dāng)前產(chǎn)品中發(fā)生過行為的用戶。5.流失用戶曾經(jīng)打開產(chǎn)品或注冊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GB-T 40604-2021新能源場站調(diào)度運(yùn)行信息交換技術(shù)要求》專題研究報(bào)告
- 《GBT 35796-2017 養(yǎng)老機(jī)構(gòu)服務(wù)質(zhì)量基本規(guī)范》專題研究報(bào)告
- 《GB-T 17215.941-2012電測量設(shè)備 可信性 第41部分:可靠性預(yù)測》專題研究報(bào)告
- 2026年河南省駐馬店地區(qū)單招職業(yè)傾向性考試題庫及參考答案詳解一套
- 云計(jì)算信息服務(wù)合同
- 智能電網(wǎng)工程師崗位招聘考試試卷及答案
- 2025年休閑健身服務(wù)項(xiàng)目發(fā)展計(jì)劃
- 排尿異常護(hù)理查房
- 遼寧省2025秋九年級英語全冊Unit5Whataretheshirtsmadeof課時(shí)1SectionA(1a-2d)課件新版人教新目標(biāo)版
- 員工成長路徑
- DB32T 5124.3-2025 臨床護(hù)理技術(shù)規(guī)范 第3部分:成人危重癥患者有創(chuàng)動(dòng)脈血壓監(jiān)測
- 松陵一中分班試卷及答案
- 《小米廣告宣傳冊》課件
- 勞務(wù)派遣公司工作方案
- 物理趣味題目試題及答案
- 華師大版數(shù)學(xué)七年級上冊《4.3 立體圖形的表面展開圖》聽評課記錄
- 2023-2024學(xué)年四川省成都市高二上學(xué)期期末調(diào)研考試地理試題(解析版)
- 陜西單招數(shù)學(xué)試題及答案
- 應(yīng)收賬款債權(quán)轉(zhuǎn)讓協(xié)議
- 四川省宜賓市長寧縣2024-2025學(xué)年九年級上學(xué)期期末化學(xué)試題(含答案)
- 可行性報(bào)告商業(yè)計(jì)劃書
評論
0/150
提交評論