第五章+數(shù)據(jù)處理和可視化表達(dá)課件-2025-2026學(xué)年粵教版高中信息技術(shù)必修一_第1頁
第五章+數(shù)據(jù)處理和可視化表達(dá)課件-2025-2026學(xué)年粵教版高中信息技術(shù)必修一_第2頁
第五章+數(shù)據(jù)處理和可視化表達(dá)課件-2025-2026學(xué)年粵教版高中信息技術(shù)必修一_第3頁
第五章+數(shù)據(jù)處理和可視化表達(dá)課件-2025-2026學(xué)年粵教版高中信息技術(shù)必修一_第4頁
第五章+數(shù)據(jù)處理和可視化表達(dá)課件-2025-2026學(xué)年粵教版高中信息技術(shù)必修一_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)處理和可視化表達(dá)第五章必修一《數(shù)據(jù)與計算》大數(shù)據(jù)1

大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行高效捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的特征1大量

Volume數(shù)據(jù)體量巨大TB→PB變化速度快高速Velocity價值密度低低價值密度Value數(shù)據(jù)種類繁多多樣Variety4V大數(shù)據(jù)的特征1從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來看:1.淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約500TB;總存儲量400EB。2.在醫(yī)院,一個病人的CT數(shù)據(jù)量達(dá)幾十GB,每年需要保存的數(shù)據(jù)達(dá)100EB。1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB大量

Volume大數(shù)據(jù)的特征1從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來看:多樣Variety數(shù)據(jù)類型繁多大數(shù)據(jù)的特征1從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來看:低價值密度Value例如:通過監(jiān)控視頻尋找犯罪分子,可能只有幾秒鐘的有效時間大數(shù)據(jù)的特征1從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來看:高速Velocity變化速度快,通常以秒為單位快速變化剛剛過去的一分鐘:Email:2億+封被發(fā)出12306:2000+張車票被賣出大數(shù)據(jù)對日常生活的影響1方便看病與診病方便出行方便支付方便購物與產(chǎn)品推介優(yōu)點(diǎn):使人們的日常生活更為便捷。大數(shù)據(jù)對日常生活的影響1信息傷害與詐騙個人信息泄露缺點(diǎn):對人們?nèi)粘I町a(chǎn)生的負(fù)面影響。數(shù)據(jù)采集的工具和方法2系統(tǒng)日志采集法系統(tǒng)日志是記錄系統(tǒng)中硬件、軟件和系統(tǒng)問題的信息文件,包括操作系統(tǒng)日志、應(yīng)用程序日志和安全日志。系統(tǒng)日志采集數(shù)據(jù)就是利用程序,將目標(biāo)主機(jī)中的日志信息定向推送到服務(wù)器進(jìn)行存儲、監(jiān)控和管理。數(shù)據(jù)采集的工具和方法2網(wǎng)絡(luò)數(shù)據(jù)采集法網(wǎng)絡(luò)數(shù)據(jù)采集是通過網(wǎng)絡(luò)爬蟲或者網(wǎng)站公開API(應(yīng)用程序接口)等方式從網(wǎng)站上獲取數(shù)據(jù)信息。網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的URL,可將數(shù)據(jù)從網(wǎng)頁中抽取出來,存儲為統(tǒng)一的本地數(shù)據(jù)文件,支持多形式并可關(guān)聯(lián)。數(shù)據(jù)采集的工具和方法2其他數(shù)據(jù)采集法對于保密性較高的數(shù)據(jù),可通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式收集數(shù)據(jù)??茖W(xué)研究的數(shù)據(jù)多為科學(xué)實(shí)驗(yàn)的各種傳感器采集,并傳輸?shù)綌?shù)據(jù)庫管理系統(tǒng)中。數(shù)據(jù)采集的工具和方法2常見的普通數(shù)據(jù)(非大數(shù)據(jù))采集方法:問卷調(diào)查法問答訪談法數(shù)據(jù)表統(tǒng)計法常見傳感工具測量法(如:體溫計、溫度計、重量秤等)數(shù)據(jù)的存儲和保護(hù)3數(shù)據(jù)的存儲:①數(shù)據(jù)保存在本地(磁盤、硬盤等存儲器,服務(wù)器等)②數(shù)據(jù)保存在第三方數(shù)據(jù)庫(云存儲)數(shù)據(jù)的存儲和保護(hù)3云存儲的數(shù)據(jù)是真的保存在“云”上嗎?當(dāng)然不是,云存儲的物理空間依然是服務(wù)器,只是由供應(yīng)商擁有并管理的服務(wù)器,在用戶遠(yuǎn)不可及的地方。數(shù)據(jù)的存儲和保護(hù)3數(shù)據(jù)的保護(hù):①數(shù)據(jù)安全保護(hù)技術(shù)——保護(hù)數(shù)據(jù)不被破壞、更改、泄露或丟失。數(shù)據(jù)保護(hù)中有一種叫數(shù)據(jù)加密技術(shù),分為對稱式加密和非對稱式加密兩大類,其區(qū)別就是加密和解密是否使用同一個密鑰。數(shù)據(jù)的存儲和保護(hù)3數(shù)據(jù)的保護(hù):②數(shù)據(jù)的隱私保護(hù)隱私泄露問題不是大數(shù)據(jù)時代特有的。解決方法有三:一是技術(shù)手段(如:精度處理、訪問控制、人工加擾、匿名等);二是提高自身保護(hù)意識;三是道德與法律的約束。數(shù)據(jù)的分析4為什么要數(shù)據(jù)分析?李海青水資源分布現(xiàn)狀過去旅游業(yè)的發(fā)展情況了解事物的現(xiàn)狀診斷過去的發(fā)展歷程預(yù)測房價走向預(yù)測未來的走向數(shù)據(jù)的分析4特征探索對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù),繪制直方圖,觀察分析數(shù)據(jù)的分布特征。數(shù)據(jù)的分析4關(guān)聯(lián)分析分析并發(fā)現(xiàn)大量數(shù)據(jù)之間的關(guān)聯(lián)性和相關(guān)性,從而描述一個事物中某些熟悉感同時出現(xiàn)的規(guī)律和模式。數(shù)據(jù)的分析4聚類分析從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。數(shù)據(jù)的分析4數(shù)據(jù)分類數(shù)據(jù)分析處理中最基本的方法。基于樣本數(shù)據(jù)訓(xùn)練構(gòu)建分類函數(shù)或分類模型,根據(jù)分類準(zhǔn)則自動給出對位置數(shù)據(jù)的推廣描述。數(shù)據(jù)的可視化表達(dá)5數(shù)據(jù)可視化:指以圖形、圖像、地圖、動畫等生動、易于理解的方式展示數(shù)據(jù)和詮釋數(shù)據(jù)之間的關(guān)系、趨勢與規(guī)律等,以便更好地理解數(shù)據(jù)。數(shù)據(jù)的可視化表達(dá)5作用:把枯燥乏味的海量數(shù)據(jù)以豐富的視覺效果呈現(xiàn)數(shù)據(jù)所反映的本質(zhì)問題,提升數(shù)據(jù)分析的效率。數(shù)據(jù)可視化表達(dá)的方式5數(shù)據(jù)可視化表達(dá)的方式5柱形圖:是用長方形的長度來表示數(shù)值大小的圖表。它特別適合用來比較不同類別之間的數(shù)據(jù)。比如,比較我們班和隔壁班在月考中語文、數(shù)學(xué)、英語的平均分,用柱形圖就非常直觀。它可以橫向排列,也可以用多維的方式表達(dá)更復(fù)雜的數(shù)據(jù)。數(shù)據(jù)可視化的表達(dá)方式5折線圖:非常適合用來顯示數(shù)據(jù)隨時間變化的趨勢。因?yàn)樗芮逦乇磉_(dá)出數(shù)據(jù)的連續(xù)性和發(fā)展方向。比如,用來展示我們城市過去一年每月的平均氣溫變化,或者展示一款新手機(jī)發(fā)布后每周的銷量走勢。數(shù)據(jù)可視化表達(dá)的方式5餅圖:顯示一個整體中各個組成部分所占的比例。比如,展示我們班同學(xué)課余時間分配的總體情況:用于運(yùn)動的時間占百分之幾,用于閱讀的時間占百分之幾。數(shù)據(jù)可視化表達(dá)的方式5散點(diǎn)圖:主要用于觀察兩個變量之間是否存在某種關(guān)聯(lián)或趨勢。比如,我們想研究“每天學(xué)習(xí)時間”和“數(shù)學(xué)成績”之間有沒有關(guān)系,就可以把每個同學(xué)的數(shù)據(jù)作為一個點(diǎn)畫在圖上。如果點(diǎn)分布呈現(xiàn)出從左下到右上的趨勢,那就說明它們可能存在正相關(guān)。數(shù)據(jù)可視化表達(dá)的方式5詞云圖:特別適合處理文本數(shù)據(jù)的可視化方式。它可以把一段文字(比如一篇演講稿、一份調(diào)查報告)中出現(xiàn)頻率最高的詞語,用更大的字體突出顯示出來。過去很難分析的文本,現(xiàn)在通過詞云圖,可以輕松實(shí)現(xiàn)可視化挖掘。數(shù)據(jù)可視化表達(dá)的工具5Python語言因其開源和包容的特性,嵌入了大量數(shù)據(jù)可視化的工具,深受大家的喜愛。在Python中,除我們經(jīng)常用到的繪圖工具模塊Matplotlib外,專業(yè)的數(shù)據(jù)可視化工具模塊還包括Seaborn和Bokeh等。數(shù)據(jù)可視化表達(dá)的工具5Seaborn主要關(guān)注統(tǒng)計模型的可視化。例如,直方圖既可以總結(jié)數(shù)據(jù),也可以描繪總體分布。Seaborn基于且高度依賴于Matplot

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論