版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
專題04數(shù)據(jù)處理與應(yīng)用
【學(xué)習(xí)目標(biāo)】
令理解數(shù)據(jù)處理的重要性:使學(xué)生能夠理解數(shù)據(jù)在現(xiàn)代信息社會(huì)中的應(yīng)用價(jià)值,
以及準(zhǔn)確處理數(shù)據(jù)對(duì)于數(shù)據(jù)分析結(jié)果的影響。
令掌握基本的數(shù)據(jù)整理技巧:教授學(xué)生如何識(shí)別和處理數(shù)據(jù)缺失、重復(fù)、異常、
邏輯錯(cuò)誤和格式不一致等問(wèn)題,確保數(shù)據(jù)的質(zhì)量和可用性。
令熟悉常用數(shù)據(jù)處理工具:介紹Excel等常用數(shù)據(jù)處理軟件的基本操作,包括
公式的應(yīng)用、單元格引用、算術(shù)及文本運(yùn)算符的使用,以及函數(shù)的應(yīng)用等。
【思維導(dǎo)圖】
mimpy、/做事的篌■性和處理目的
/N"失
pandas—/\
1/敦雪處理的鐫見(jiàn)向遇弋一99
ma*plo,l'bPythonaMHR?n?*Kffilfl、/
S?>?劉UrtaFramea種的*ffi方法\
/>嬉程處喇5據(jù)-
H用matploHibBH迸圖展示敵!6分析結(jié)黑//\1/Z效富整理的目的和方法
\1//-3?aWH*?nSWK?H
\1//ate馥失問(wèn)?及如建方法<—M框“18關(guān)聯(lián)住估計(jì)嫌失侵
用£提取/使用手均0.中間(891斷itfSUIJtM失信
文本內(nèi)容的處電諼程、
fflg分折,/\\//7一
結(jié)果矍觀/\\____________________//敢81整理<——V
\Z、,/\、、-合并*事除**改隹的票理方式
中文的拉木及1?法分類泗一,文本效搟處理-T數(shù)據(jù)處理與應(yīng)用概覽
/、一__________Z\\/?栓窩字段中&■性有救敗盤£的網(wǎng)
將liMl的方法曷諄估造款的應(yīng)用,1
/、、SW?a^?KT-BS)?</?KtIR8S£K>n8t
WSS-J
/1、、?1HB”快的心,住與方法(-£*&住W杓it**住的*發(fā)
>-文本款身分析的其里應(yīng)用,
情B分析—/1、-St-標(biāo)*化表達(dá)不同東方相同丁住安定:
大做盤的WASH建筑求、/|x■??開(kāi)*.?B.豳it.■元18引用*0通)|楊姬僦的公K種圍
H對(duì)EW在大政*處理中的座用示例-A
Bt*理計(jì)口號(hào)海計(jì)身的區(qū)別:SW用場(chǎng)?一》大斂據(jù)處理-
?!斑xM的獻(xiàn)《::
MapRe4"&?UI?S!的W押W&用tXM
K?n85ftH8Bea9S91??r/I/,Enel中99公式便用技巧<V\
/^木運(yùn)*苻m比較適復(fù)用的使用
\數(shù)客計(jì)nJy-文*廖我逅*相?4?的應(yīng)用
\、*用由效的使用電注
\/?3?fii8ns?ss
、0據(jù)圖表呈&<利用Ml創(chuàng)建S1*井邊行取!8分析*示
、~險(xiǎn)查困*的正修隹和冕S!隹
【知識(shí)梳理】
知識(shí)點(diǎn)一:數(shù)據(jù)整理
1.常見(jiàn)的數(shù)據(jù)問(wèn)題及其處理方法:
(1)數(shù)據(jù)缺失:數(shù)據(jù)集中普遍存在的問(wèn)題,一般可能是數(shù)據(jù)丟失或數(shù)據(jù)本身不
完整
處理方法:忽略或采用平均值、中間值或概率統(tǒng)計(jì)值填充。
(2)數(shù)據(jù)重復(fù):在多數(shù)據(jù)源合并時(shí)經(jīng)常出現(xiàn),導(dǎo)致資源冗余和浪費(fèi)。
處理方法:進(jìn)一步審核的基礎(chǔ)上進(jìn)行合并或刪除。
(3)異常數(shù)據(jù):數(shù)據(jù)集中的某些數(shù)據(jù)不符合一般規(guī)律,例:健康系統(tǒng)顯示體溫
到達(dá)50攝氏度。
處理方法:這些有可能是要去掉的噪聲,也有可能是含有重要信息的數(shù)據(jù)對(duì)象。
(4)邏輯錯(cuò)誤:屬性與實(shí)際不符,違背業(yè)務(wù)規(guī)則或邏輯,例:某人的生日為13
月40日
處理方法:對(duì)應(yīng)的字段需要設(shè)置取值范圍判斷。
(5)格式不一致:多出現(xiàn)在數(shù)據(jù)來(lái)源多樣的系統(tǒng)中
處理方法:將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式后再進(jìn)行處理。
2.常用的數(shù)據(jù)處理和統(tǒng)計(jì)分析工具有Excel、SPSS、SAS、MATLAB等軟件,
也可以通過(guò)R、Python、Java等計(jì)算機(jī)語(yǔ)言編程進(jìn)行數(shù)據(jù)處理。
3.常見(jiàn)的圖表類型有:柱形圖、折線圖、餅圖、雷達(dá)圖、散點(diǎn)圖、氣泡圖等。
知識(shí)點(diǎn)二:大數(shù)據(jù)處理
L大數(shù)據(jù)處理的基本思想:"分治思想",即將一個(gè)復(fù)雜的問(wèn)題拆分成兩個(gè)或多
個(gè)相同或相似的子問(wèn)題,找到求這幾個(gè)問(wèn)題的解法之后,再找出合適的方法把它
們組合成求整個(gè)問(wèn)題的解法。
2.大數(shù)據(jù)處理的數(shù)據(jù)類型:
(1)靜態(tài)數(shù)據(jù):在處理時(shí)已經(jīng)收集完成、在計(jì)算時(shí)不會(huì)發(fā)生改變的數(shù)據(jù)
處理方法:批處理
(2)流數(shù)據(jù):不間斷地、持續(xù)地到達(dá)的實(shí)時(shí)數(shù)據(jù)。流數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的
流逝降低。
處理方法:流計(jì)算或?qū)崟r(shí)分析計(jì)算
(3)圖數(shù)據(jù):現(xiàn)實(shí)世界中以圖形式展現(xiàn)的數(shù)據(jù)。如社交網(wǎng)絡(luò)、道路交通等
處理方法:圖計(jì)算
3批處理
Hadoop是一個(gè)可運(yùn)行于大規(guī)模計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于
靜態(tài)數(shù)據(jù)的批量計(jì)算。Hadoop計(jì)算平臺(tái)主要包括Common公共庫(kù)、分布式文
件系統(tǒng)HDFS、分布式數(shù)據(jù)庫(kù)HBase、分布式并行計(jì)算模型MapReduce等多
個(gè)模塊。
(1)分布式文件系統(tǒng)(HDFS):將大規(guī)模海量數(shù)據(jù)以文件的形式、用多個(gè)副
本保存在不同的存A儲(chǔ)節(jié)點(diǎn)中,并用分布式系統(tǒng)管理。HDFS是一個(gè)高度容錯(cuò)性
的文件系統(tǒng),云盤、網(wǎng)盤的底層一般采用HDFS實(shí)現(xiàn)。
(2)分布式數(shù)據(jù)庫(kù)(HBase):HBase建立在HDFS提供的底層存儲(chǔ)基礎(chǔ)上,
采用基于列的存儲(chǔ)方式,主要存儲(chǔ)韭結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),具有良好的橫向
擴(kuò)展能力。
(3)分布式并行計(jì)算模型(MapReduce):MapReduce是一種分布式并行
編程模型,能夠進(jìn)行大規(guī)模的并行計(jì)算。其核心處理思想是將任務(wù)分解并分發(fā)到
多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理,最后匯總輸出。
4.流計(jì)算
流計(jì)算主要用于處理流數(shù)據(jù),如大型購(gòu)物網(wǎng)絡(luò)的廣告推薦、社交網(wǎng)絡(luò)的個(gè)性化推
薦等。處理流數(shù)據(jù)的軟件主要有TwitterStorm,Heron,Yahoo!S4等。Storm
和S4是目前較為流行的開(kāi)源分布式實(shí)時(shí)計(jì)算系統(tǒng)。
5.圖計(jì)算
現(xiàn)實(shí)世界中的很多數(shù)據(jù)以圖的形式呈現(xiàn),或者是需要轉(zhuǎn)換為圖后才能分析。目前
圖處理的軟件主要分為兩類:圖數(shù)據(jù)庫(kù)和并行圖處理系統(tǒng)。
知識(shí)點(diǎn)三:編程處理數(shù)據(jù)
1.利用pandas模塊處理數(shù)據(jù)
2.利用matplotlib模塊繪圖
3.利用pathon分析數(shù)據(jù)實(shí)踐
知識(shí)點(diǎn)四:編程處理數(shù)據(jù)
L文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報(bào)分析、自動(dòng)摘要、自動(dòng)校對(duì)、論文查
重、文本分類、
垃圾郵件過(guò)濾、機(jī)器翻譯、自動(dòng)應(yīng)答等方面。
2.典型的文本處理過(guò)程主要包括分詞、特征提取、數(shù)據(jù)分析、結(jié)果呈現(xiàn)等。
3.中文分詞方法
(1)基于詞典的分詞方法用詞典中的詞語(yǔ)進(jìn)行比對(duì)。案例:Python中的jieba
庫(kù)
(2)基于統(tǒng)計(jì)的分詞方法:根據(jù)上下文相鄰字出現(xiàn)的頻率統(tǒng)計(jì)。
(3)基于規(guī)則的分詞方法:根據(jù)現(xiàn)有資料和規(guī)律學(xué)習(xí)實(shí)現(xiàn)分詞。
4.特征提取方法
(1)根據(jù)專家知識(shí)挑選有價(jià)值的特征。(約等于人工分析)
(2)用數(shù)學(xué)建模的方法構(gòu)造評(píng)估函數(shù)自動(dòng)選取特征。(目前大多采用)
5.結(jié)果呈現(xiàn)方式:
(1)標(biāo)簽云:用文字大小形式表現(xiàn)詞語(yǔ)的重要性
(2)文本情感分析:根據(jù)分析顆粒度可以分為詞語(yǔ)級(jí)、語(yǔ)句級(jí)、整篇文章級(jí)三
類。
知識(shí)點(diǎn)五:數(shù)據(jù)可視化
1,數(shù)據(jù)可視化是將數(shù)據(jù)以圖形、圖像等形式表示、直接呈現(xiàn)數(shù)據(jù)中蘊(yùn)含信息的
處理過(guò)程。
2,可視化的作用:快速觀察與追蹤數(shù)據(jù)、實(shí)時(shí)分析數(shù)據(jù)、增強(qiáng)數(shù)據(jù)的解釋力和
吸引力等。
3.可視化的基本方法
(1)有關(guān)時(shí)間趨勢(shì)的可視化:展示隨時(shí)間的推移而變化的數(shù)據(jù),可采用柱形圖、
折線圖等。
(2)有關(guān)比例的可視化:展示各部分的大小及其占總體比例關(guān)系的數(shù)據(jù),可以
采用餅圖、環(huán)形圖(也稱面包圈圖)等。
(3)有關(guān)關(guān)系的可視化:探究具有關(guān)聯(lián)性數(shù)據(jù)的分布關(guān)系,可以使用散點(diǎn)圖、
氣泡圖等。
(4)有關(guān)差異的可視化:包含多種變量的對(duì)象與同類之間的差異和聯(lián)系,可以
采用雷達(dá)圖。
(5)有關(guān)空間關(guān)系的可視化:地理數(shù)據(jù)或者基于地理數(shù)據(jù)的分析結(jié)果可以運(yùn)用
不同顏色或圖表
直接在地圖上進(jìn)行展示。
知識(shí)點(diǎn)六:大數(shù)據(jù)的典型應(yīng)用
L大數(shù)據(jù)應(yīng)用領(lǐng)域:隨著大數(shù)據(jù)在各行業(yè)的應(yīng)用,數(shù)據(jù)成為核心資產(chǎn)。目前,大
數(shù)據(jù)廣泛應(yīng)用于著
金融、交通、環(huán)境、醫(yī)療、能源、農(nóng)業(yè)等領(lǐng)域,極大地促進(jìn)了各行業(yè)的發(fā)展。
2.大數(shù)據(jù)在電子商務(wù)方面的應(yīng)用;精準(zhǔn)營(yíng)銷基于用戶購(gòu)買行為挖掘用戶偏好;倉(cāng)
儲(chǔ)管理實(shí)現(xiàn)商品
自動(dòng)補(bǔ)貨;供應(yīng)鏈管理實(shí)現(xiàn)最優(yōu)配送路徑;智能網(wǎng)站分析用戶后向用戶智能推薦
商品。
【題型精講】
例L
在數(shù)據(jù)處理與應(yīng)用中,數(shù)據(jù)整理的目的是什么?
A.提高數(shù)據(jù)存儲(chǔ)量
B.檢測(cè)和修正錯(cuò)漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量
C.加快數(shù)據(jù)處理速度
D.擴(kuò)大數(shù)據(jù)來(lái)源
【答案】B
【講解】數(shù)據(jù)整理的目的是為了確保數(shù)據(jù)的準(zhǔn)確性和可用性具體包括以下幾點(diǎn):
檢測(cè)和修正錯(cuò)漏的數(shù)據(jù):在數(shù)據(jù)收集過(guò)程中,可能會(huì)出現(xiàn)輸入錯(cuò)誤、遺漏或其他
形式的誤差,數(shù)據(jù)整理有助于發(fā)現(xiàn)并修正這些錯(cuò)誤,提高數(shù)據(jù)的準(zhǔn)確性。
整合數(shù)據(jù)資源:當(dāng)數(shù)據(jù)來(lái)自不同的來(lái)源時(shí),數(shù)據(jù)整理可以幫助合并這些數(shù)據(jù),確
保數(shù)據(jù)的一致性和完整性,便于后續(xù)分析。
規(guī)整數(shù)據(jù)格式:不同來(lái)源的數(shù)據(jù)可能有不同的格式,數(shù)據(jù)整理可以將這些數(shù)據(jù)轉(zhuǎn)
換為統(tǒng)一的格式,便于處理和分析。
提高數(shù)據(jù)質(zhì)量:通過(guò)上述步驟,數(shù)據(jù)整理最終可以提高數(shù)據(jù)的整體質(zhì)量,為后續(xù)
的數(shù)據(jù)分析和決策提供堅(jiān)實(shí)的基礎(chǔ)。
臃
在Excel軟件中,如何進(jìn)行數(shù)據(jù)的計(jì)算?
A.使用文本連接運(yùn)算符
B.使用算術(shù)運(yùn)算符如人、*、/等
C.使用函數(shù)如SUM、AVERAGE等
D.所有以上都包括
【答案】D
【講解】在Excel軟件中進(jìn)行數(shù)據(jù)計(jì)算,可以使用多種方法,包括但不限于:
使用算術(shù)運(yùn)算符:Excel支持使用常見(jiàn)的算術(shù)運(yùn)算符進(jìn)行基本的數(shù)學(xué)運(yùn)算,如加
(+)、減(-)、乘(*)、除(/)以及乘方(人)等。
使用函數(shù):Excel提供了大量的內(nèi)置函數(shù),如SUM用于求和、AVERAGE用于計(jì)
算平均值、MIN和MAX用于查找最小值和最大值等,這些函數(shù)可以進(jìn)行更復(fù)雜
的數(shù)學(xué)和統(tǒng)計(jì)計(jì)算。
使用文本連接運(yùn)算符"&":雖然主要用于文本處理,但運(yùn)算符也可以用來(lái)組
合文本字符串,有時(shí)在處理包含數(shù)字的文本數(shù)據(jù)時(shí)會(huì)用到。
【強(qiáng)化訓(xùn)練】
L大數(shù)據(jù)處理的分治思想主要解決什么問(wèn)題?
A.數(shù)據(jù)存儲(chǔ)空間不足
B.網(wǎng)絡(luò)傳輸帶寬瓶頸
C.計(jì)算資源分配不均
D.機(jī)器故障和網(wǎng)絡(luò)故障風(fēng)險(xiǎn)
2.在智能交通系統(tǒng)中,哪個(gè)子系統(tǒng)負(fù)責(zé)實(shí)時(shí)向交通參與者提供道路交通等信息?
A.交通信息服務(wù)系統(tǒng)
B.交通管理系統(tǒng)
C.電子收費(fèi)系統(tǒng)
D.公共交通系統(tǒng)
3.Python編程在數(shù)據(jù)處理中的應(yīng)用示例是什么?
A.wordcount={"word":"word","frequency":"1"}
B.forwordinopen(filename,T).read():wordcount[word]+=1
C.wordcount[word]=1000M+wordcount[word]
D.wordcount={};wordcount[word]+=filename[word]
4.Tableau工具主要用于什么類型的可視化分析?
A.實(shí)時(shí)數(shù)據(jù)分析
B.靜態(tài)數(shù)據(jù)批處理計(jì)算
C.流
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商場(chǎng)培訓(xùn)管理制度
- 培訓(xùn)教學(xué)管理基本制度
- 藥房職工培訓(xùn)教育制度
- 烹飪培訓(xùn)管理制度
- 培訓(xùn)課上課制度
- 診所防控培訓(xùn)制度
- 綠化公司員工培訓(xùn)制度
- 社區(qū)物業(yè)培訓(xùn)考核制度
- 連鎖藥店培訓(xùn)考核制度
- 新軍士培訓(xùn)制度
- 2025年福建閩投永安抽水蓄能有限公司聯(lián)合招聘17人筆試參考題庫(kù)附帶答案詳解
- 充電站安全培訓(xùn)課件
- 《機(jī)器學(xué)習(xí)》課件-第7章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
- 2025-2030中國(guó)智能家居系統(tǒng)配置服務(wù)技術(shù)人才缺口評(píng)估報(bào)告
- 護(hù)士肺功能室進(jìn)修匯報(bào)
- 物業(yè)工程維修培訓(xùn)內(nèi)容
- 神經(jīng)外科規(guī)培結(jié)業(yè)考試題庫(kù)及答案
- 靜脈輸液十二種并發(fā)癥及防治措施
- 廣東省領(lǐng)航高中聯(lián)盟2024-2025學(xué)年高一下學(xué)期第一次聯(lián)合考試語(yǔ)文試卷(含答案)
- 肺栓塞的急救處理
- T/CCAS 007-2019水泥產(chǎn)能核定標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論