2024-2025學(xué)年浙教版高中信息技術(shù)一輪復(fù)習(xí) 數(shù)據(jù)處理與應(yīng)用 知識(shí)清單_第1頁(yè)
2024-2025學(xué)年浙教版高中信息技術(shù)一輪復(fù)習(xí) 數(shù)據(jù)處理與應(yīng)用 知識(shí)清單_第2頁(yè)
2024-2025學(xué)年浙教版高中信息技術(shù)一輪復(fù)習(xí) 數(shù)據(jù)處理與應(yīng)用 知識(shí)清單_第3頁(yè)
2024-2025學(xué)年浙教版高中信息技術(shù)一輪復(fù)習(xí) 數(shù)據(jù)處理與應(yīng)用 知識(shí)清單_第4頁(yè)
2024-2025學(xué)年浙教版高中信息技術(shù)一輪復(fù)習(xí) 數(shù)據(jù)處理與應(yīng)用 知識(shí)清單_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

專題04數(shù)據(jù)處理與應(yīng)用

【學(xué)習(xí)目標(biāo)】

令理解數(shù)據(jù)處理的重要性:使學(xué)生能夠理解數(shù)據(jù)在現(xiàn)代信息社會(huì)中的應(yīng)用價(jià)值,

以及準(zhǔn)確處理數(shù)據(jù)對(duì)于數(shù)據(jù)分析結(jié)果的影響。

令掌握基本的數(shù)據(jù)整理技巧:教授學(xué)生如何識(shí)別和處理數(shù)據(jù)缺失、重復(fù)、異常、

邏輯錯(cuò)誤和格式不一致等問(wèn)題,確保數(shù)據(jù)的質(zhì)量和可用性。

令熟悉常用數(shù)據(jù)處理工具:介紹Excel等常用數(shù)據(jù)處理軟件的基本操作,包括

公式的應(yīng)用、單元格引用、算術(shù)及文本運(yùn)算符的使用,以及函數(shù)的應(yīng)用等。

【思維導(dǎo)圖】

mimpy、/做事的篌■性和處理目的

/N"失

pandas—/\

1/敦雪處理的鐫見(jiàn)向遇弋一99

ma*plo,l'bPythonaMHR?n?*Kffilfl、/

S?>?劉UrtaFramea種的*ffi方法\

/>嬉程處喇5據(jù)-

H用matploHibBH迸圖展示敵!6分析結(jié)黑//\1/Z效富整理的目的和方法

\1//-3?aWH*?nSWK?H

\1//ate馥失問(wèn)?及如建方法<—M框“18關(guān)聯(lián)住估計(jì)嫌失侵

用£提取/使用手均0.中間(891斷itfSUIJtM失信

文本內(nèi)容的處電諼程、

fflg分折,/\\//7一

結(jié)果矍觀/\\____________________//敢81整理<——V

\Z、,/\、、-合并*事除**改隹的票理方式

中文的拉木及1?法分類泗一,文本效搟處理-T數(shù)據(jù)處理與應(yīng)用概覽

/、一__________Z\\/?栓窩字段中&■性有救敗盤£的網(wǎng)

將liMl的方法曷諄估造款的應(yīng)用,1

/、、SW?a^?KT-BS)?</?KtIR8S£K>n8t

WSS-J

/1、、?1HB”快的心,住與方法(-£*&住W杓it**住的*發(fā)

>-文本款身分析的其里應(yīng)用,

情B分析—/1、-St-標(biāo)*化表達(dá)不同東方相同丁住安定:

大做盤的WASH建筑求、/|x■??開(kāi)*.?B.豳it.■元18引用*0通)|楊姬僦的公K種圍

H對(duì)EW在大政*處理中的座用示例-A

Bt*理計(jì)口號(hào)海計(jì)身的區(qū)別:SW用場(chǎng)?一》大斂據(jù)處理-

?!斑xM的獻(xiàn)《::

MapRe4"&?UI?S!的W押W&用tXM

K?n85ftH8Bea9S91??r/I/,Enel中99公式便用技巧<V\

/^木運(yùn)*苻m比較適復(fù)用的使用

\數(shù)客計(jì)nJy-文*廖我逅*相?4?的應(yīng)用

\、*用由效的使用電注

\/?3?fii8ns?ss

、0據(jù)圖表呈&<利用Ml創(chuàng)建S1*井邊行取!8分析*示

、~險(xiǎn)查困*的正修隹和冕S!隹

【知識(shí)梳理】

知識(shí)點(diǎn)一:數(shù)據(jù)整理

1.常見(jiàn)的數(shù)據(jù)問(wèn)題及其處理方法:

(1)數(shù)據(jù)缺失:數(shù)據(jù)集中普遍存在的問(wèn)題,一般可能是數(shù)據(jù)丟失或數(shù)據(jù)本身不

完整

處理方法:忽略或采用平均值、中間值或概率統(tǒng)計(jì)值填充。

(2)數(shù)據(jù)重復(fù):在多數(shù)據(jù)源合并時(shí)經(jīng)常出現(xiàn),導(dǎo)致資源冗余和浪費(fèi)。

處理方法:進(jìn)一步審核的基礎(chǔ)上進(jìn)行合并或刪除。

(3)異常數(shù)據(jù):數(shù)據(jù)集中的某些數(shù)據(jù)不符合一般規(guī)律,例:健康系統(tǒng)顯示體溫

到達(dá)50攝氏度。

處理方法:這些有可能是要去掉的噪聲,也有可能是含有重要信息的數(shù)據(jù)對(duì)象。

(4)邏輯錯(cuò)誤:屬性與實(shí)際不符,違背業(yè)務(wù)規(guī)則或邏輯,例:某人的生日為13

月40日

處理方法:對(duì)應(yīng)的字段需要設(shè)置取值范圍判斷。

(5)格式不一致:多出現(xiàn)在數(shù)據(jù)來(lái)源多樣的系統(tǒng)中

處理方法:將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式后再進(jìn)行處理。

2.常用的數(shù)據(jù)處理和統(tǒng)計(jì)分析工具有Excel、SPSS、SAS、MATLAB等軟件,

也可以通過(guò)R、Python、Java等計(jì)算機(jī)語(yǔ)言編程進(jìn)行數(shù)據(jù)處理。

3.常見(jiàn)的圖表類型有:柱形圖、折線圖、餅圖、雷達(dá)圖、散點(diǎn)圖、氣泡圖等。

知識(shí)點(diǎn)二:大數(shù)據(jù)處理

L大數(shù)據(jù)處理的基本思想:"分治思想",即將一個(gè)復(fù)雜的問(wèn)題拆分成兩個(gè)或多

個(gè)相同或相似的子問(wèn)題,找到求這幾個(gè)問(wèn)題的解法之后,再找出合適的方法把它

們組合成求整個(gè)問(wèn)題的解法。

2.大數(shù)據(jù)處理的數(shù)據(jù)類型:

(1)靜態(tài)數(shù)據(jù):在處理時(shí)已經(jīng)收集完成、在計(jì)算時(shí)不會(huì)發(fā)生改變的數(shù)據(jù)

處理方法:批處理

(2)流數(shù)據(jù):不間斷地、持續(xù)地到達(dá)的實(shí)時(shí)數(shù)據(jù)。流數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的

流逝降低。

處理方法:流計(jì)算或?qū)崟r(shí)分析計(jì)算

(3)圖數(shù)據(jù):現(xiàn)實(shí)世界中以圖形式展現(xiàn)的數(shù)據(jù)。如社交網(wǎng)絡(luò)、道路交通等

處理方法:圖計(jì)算

3批處理

Hadoop是一個(gè)可運(yùn)行于大規(guī)模計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于

靜態(tài)數(shù)據(jù)的批量計(jì)算。Hadoop計(jì)算平臺(tái)主要包括Common公共庫(kù)、分布式文

件系統(tǒng)HDFS、分布式數(shù)據(jù)庫(kù)HBase、分布式并行計(jì)算模型MapReduce等多

個(gè)模塊。

(1)分布式文件系統(tǒng)(HDFS):將大規(guī)模海量數(shù)據(jù)以文件的形式、用多個(gè)副

本保存在不同的存A儲(chǔ)節(jié)點(diǎn)中,并用分布式系統(tǒng)管理。HDFS是一個(gè)高度容錯(cuò)性

的文件系統(tǒng),云盤、網(wǎng)盤的底層一般采用HDFS實(shí)現(xiàn)。

(2)分布式數(shù)據(jù)庫(kù)(HBase):HBase建立在HDFS提供的底層存儲(chǔ)基礎(chǔ)上,

采用基于列的存儲(chǔ)方式,主要存儲(chǔ)韭結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),具有良好的橫向

擴(kuò)展能力。

(3)分布式并行計(jì)算模型(MapReduce):MapReduce是一種分布式并行

編程模型,能夠進(jìn)行大規(guī)模的并行計(jì)算。其核心處理思想是將任務(wù)分解并分發(fā)到

多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理,最后匯總輸出。

4.流計(jì)算

流計(jì)算主要用于處理流數(shù)據(jù),如大型購(gòu)物網(wǎng)絡(luò)的廣告推薦、社交網(wǎng)絡(luò)的個(gè)性化推

薦等。處理流數(shù)據(jù)的軟件主要有TwitterStorm,Heron,Yahoo!S4等。Storm

和S4是目前較為流行的開(kāi)源分布式實(shí)時(shí)計(jì)算系統(tǒng)。

5.圖計(jì)算

現(xiàn)實(shí)世界中的很多數(shù)據(jù)以圖的形式呈現(xiàn),或者是需要轉(zhuǎn)換為圖后才能分析。目前

圖處理的軟件主要分為兩類:圖數(shù)據(jù)庫(kù)和并行圖處理系統(tǒng)。

知識(shí)點(diǎn)三:編程處理數(shù)據(jù)

1.利用pandas模塊處理數(shù)據(jù)

2.利用matplotlib模塊繪圖

3.利用pathon分析數(shù)據(jù)實(shí)踐

知識(shí)點(diǎn)四:編程處理數(shù)據(jù)

L文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報(bào)分析、自動(dòng)摘要、自動(dòng)校對(duì)、論文查

重、文本分類、

垃圾郵件過(guò)濾、機(jī)器翻譯、自動(dòng)應(yīng)答等方面。

2.典型的文本處理過(guò)程主要包括分詞、特征提取、數(shù)據(jù)分析、結(jié)果呈現(xiàn)等。

3.中文分詞方法

(1)基于詞典的分詞方法用詞典中的詞語(yǔ)進(jìn)行比對(duì)。案例:Python中的jieba

庫(kù)

(2)基于統(tǒng)計(jì)的分詞方法:根據(jù)上下文相鄰字出現(xiàn)的頻率統(tǒng)計(jì)。

(3)基于規(guī)則的分詞方法:根據(jù)現(xiàn)有資料和規(guī)律學(xué)習(xí)實(shí)現(xiàn)分詞。

4.特征提取方法

(1)根據(jù)專家知識(shí)挑選有價(jià)值的特征。(約等于人工分析)

(2)用數(shù)學(xué)建模的方法構(gòu)造評(píng)估函數(shù)自動(dòng)選取特征。(目前大多采用)

5.結(jié)果呈現(xiàn)方式:

(1)標(biāo)簽云:用文字大小形式表現(xiàn)詞語(yǔ)的重要性

(2)文本情感分析:根據(jù)分析顆粒度可以分為詞語(yǔ)級(jí)、語(yǔ)句級(jí)、整篇文章級(jí)三

類。

知識(shí)點(diǎn)五:數(shù)據(jù)可視化

1,數(shù)據(jù)可視化是將數(shù)據(jù)以圖形、圖像等形式表示、直接呈現(xiàn)數(shù)據(jù)中蘊(yùn)含信息的

處理過(guò)程。

2,可視化的作用:快速觀察與追蹤數(shù)據(jù)、實(shí)時(shí)分析數(shù)據(jù)、增強(qiáng)數(shù)據(jù)的解釋力和

吸引力等。

3.可視化的基本方法

(1)有關(guān)時(shí)間趨勢(shì)的可視化:展示隨時(shí)間的推移而變化的數(shù)據(jù),可采用柱形圖、

折線圖等。

(2)有關(guān)比例的可視化:展示各部分的大小及其占總體比例關(guān)系的數(shù)據(jù),可以

采用餅圖、環(huán)形圖(也稱面包圈圖)等。

(3)有關(guān)關(guān)系的可視化:探究具有關(guān)聯(lián)性數(shù)據(jù)的分布關(guān)系,可以使用散點(diǎn)圖、

氣泡圖等。

(4)有關(guān)差異的可視化:包含多種變量的對(duì)象與同類之間的差異和聯(lián)系,可以

采用雷達(dá)圖。

(5)有關(guān)空間關(guān)系的可視化:地理數(shù)據(jù)或者基于地理數(shù)據(jù)的分析結(jié)果可以運(yùn)用

不同顏色或圖表

直接在地圖上進(jìn)行展示。

知識(shí)點(diǎn)六:大數(shù)據(jù)的典型應(yīng)用

L大數(shù)據(jù)應(yīng)用領(lǐng)域:隨著大數(shù)據(jù)在各行業(yè)的應(yīng)用,數(shù)據(jù)成為核心資產(chǎn)。目前,大

數(shù)據(jù)廣泛應(yīng)用于著

金融、交通、環(huán)境、醫(yī)療、能源、農(nóng)業(yè)等領(lǐng)域,極大地促進(jìn)了各行業(yè)的發(fā)展。

2.大數(shù)據(jù)在電子商務(wù)方面的應(yīng)用;精準(zhǔn)營(yíng)銷基于用戶購(gòu)買行為挖掘用戶偏好;倉(cāng)

儲(chǔ)管理實(shí)現(xiàn)商品

自動(dòng)補(bǔ)貨;供應(yīng)鏈管理實(shí)現(xiàn)最優(yōu)配送路徑;智能網(wǎng)站分析用戶后向用戶智能推薦

商品。

【題型精講】

例L

在數(shù)據(jù)處理與應(yīng)用中,數(shù)據(jù)整理的目的是什么?

A.提高數(shù)據(jù)存儲(chǔ)量

B.檢測(cè)和修正錯(cuò)漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量

C.加快數(shù)據(jù)處理速度

D.擴(kuò)大數(shù)據(jù)來(lái)源

【答案】B

【講解】數(shù)據(jù)整理的目的是為了確保數(shù)據(jù)的準(zhǔn)確性和可用性具體包括以下幾點(diǎn):

檢測(cè)和修正錯(cuò)漏的數(shù)據(jù):在數(shù)據(jù)收集過(guò)程中,可能會(huì)出現(xiàn)輸入錯(cuò)誤、遺漏或其他

形式的誤差,數(shù)據(jù)整理有助于發(fā)現(xiàn)并修正這些錯(cuò)誤,提高數(shù)據(jù)的準(zhǔn)確性。

整合數(shù)據(jù)資源:當(dāng)數(shù)據(jù)來(lái)自不同的來(lái)源時(shí),數(shù)據(jù)整理可以幫助合并這些數(shù)據(jù),確

保數(shù)據(jù)的一致性和完整性,便于后續(xù)分析。

規(guī)整數(shù)據(jù)格式:不同來(lái)源的數(shù)據(jù)可能有不同的格式,數(shù)據(jù)整理可以將這些數(shù)據(jù)轉(zhuǎn)

換為統(tǒng)一的格式,便于處理和分析。

提高數(shù)據(jù)質(zhì)量:通過(guò)上述步驟,數(shù)據(jù)整理最終可以提高數(shù)據(jù)的整體質(zhì)量,為后續(xù)

的數(shù)據(jù)分析和決策提供堅(jiān)實(shí)的基礎(chǔ)。

在Excel軟件中,如何進(jìn)行數(shù)據(jù)的計(jì)算?

A.使用文本連接運(yùn)算符

B.使用算術(shù)運(yùn)算符如人、*、/等

C.使用函數(shù)如SUM、AVERAGE等

D.所有以上都包括

【答案】D

【講解】在Excel軟件中進(jìn)行數(shù)據(jù)計(jì)算,可以使用多種方法,包括但不限于:

使用算術(shù)運(yùn)算符:Excel支持使用常見(jiàn)的算術(shù)運(yùn)算符進(jìn)行基本的數(shù)學(xué)運(yùn)算,如加

(+)、減(-)、乘(*)、除(/)以及乘方(人)等。

使用函數(shù):Excel提供了大量的內(nèi)置函數(shù),如SUM用于求和、AVERAGE用于計(jì)

算平均值、MIN和MAX用于查找最小值和最大值等,這些函數(shù)可以進(jìn)行更復(fù)雜

的數(shù)學(xué)和統(tǒng)計(jì)計(jì)算。

使用文本連接運(yùn)算符"&":雖然主要用于文本處理,但運(yùn)算符也可以用來(lái)組

合文本字符串,有時(shí)在處理包含數(shù)字的文本數(shù)據(jù)時(shí)會(huì)用到。

【強(qiáng)化訓(xùn)練】

L大數(shù)據(jù)處理的分治思想主要解決什么問(wèn)題?

A.數(shù)據(jù)存儲(chǔ)空間不足

B.網(wǎng)絡(luò)傳輸帶寬瓶頸

C.計(jì)算資源分配不均

D.機(jī)器故障和網(wǎng)絡(luò)故障風(fēng)險(xiǎn)

2.在智能交通系統(tǒng)中,哪個(gè)子系統(tǒng)負(fù)責(zé)實(shí)時(shí)向交通參與者提供道路交通等信息?

A.交通信息服務(wù)系統(tǒng)

B.交通管理系統(tǒng)

C.電子收費(fèi)系統(tǒng)

D.公共交通系統(tǒng)

3.Python編程在數(shù)據(jù)處理中的應(yīng)用示例是什么?

A.wordcount={"word":"word","frequency":"1"}

B.forwordinopen(filename,T).read():wordcount[word]+=1

C.wordcount[word]=1000M+wordcount[word]

D.wordcount={};wordcount[word]+=filename[word]

4.Tableau工具主要用于什么類型的可視化分析?

A.實(shí)時(shí)數(shù)據(jù)分析

B.靜態(tài)數(shù)據(jù)批處理計(jì)算

C.流

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論