4.2大數(shù)據(jù)處理 第2課時(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計算_第1頁
4.2大數(shù)據(jù)處理 第2課時(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計算_第2頁
4.2大數(shù)據(jù)處理 第2課時(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計算_第3頁
4.2大數(shù)據(jù)處理 第2課時(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計算_第4頁
4.2大數(shù)據(jù)處理 第2課時(分層作業(yè))-高中信息技術(shù)浙教版2019 必修1 數(shù)據(jù)與計算_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

4.2大數(shù)據(jù)處理第2課時(分層作業(yè))【夯實基礎(chǔ)】大數(shù)據(jù)的特征可以用被總結(jié)為4V特征,以下哪個不屬于大數(shù)據(jù)的4V特征()A.種類多(Variety) B.體量大(Volume)C.風險大(Venture) D.速度快(Velocity)下列數(shù)據(jù)處理中,不屬于文本數(shù)據(jù)處理的是()A.將中文翻譯成其他國家的文字B.輸入姓名、單位等信息,制作通訊錄C.檢測的論文內(nèi)容與對比庫中的資料進行對比,檢測論文可信度D.解析大量合同文檔,有效監(jiān)控風險條款,節(jié)省人力和時間成本大數(shù)據(jù)領(lǐng)域中,為了提高數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)計算的復雜度、提升數(shù)據(jù)處理的準確性。常用的技術(shù)是()A.預處理技術(shù) B.存儲技術(shù) C.管理技術(shù) D.挖掘技術(shù)數(shù)據(jù)處理的一般過程是()。A.采集—分析—整理—可視化表達 B.采集—整理—可視化表達-分析C.采集—整理—分析-可視化表達 D.采集—可視化表達—整理-分析

下列關(guān)于大數(shù)據(jù)的描述中,不正確的是()A.大數(shù)據(jù)專指Excel軟件收集、加工的數(shù)據(jù)B.物聯(lián)網(wǎng)、云計算、手機、電腦都是數(shù)據(jù)的來源C.互聯(lián)網(wǎng)生成的數(shù)據(jù)量正以爆發(fā)性的速度不斷增長D.在科學實驗中,各種傳感器每時每刻的速度不斷增長下列關(guān)于大數(shù)據(jù)的說法,正確的是()A.大數(shù)據(jù)要分析的是全體數(shù)據(jù),而不是抽樣數(shù)據(jù),且要求數(shù)據(jù)必須是精確無誤的B.處理大數(shù)據(jù)時,一般采用分治思想C.處理大數(shù)據(jù)時,更注重事物的因果關(guān)系而不是相關(guān)性D.實現(xiàn)對實時數(shù)據(jù)的獲取、傳輸和存儲可以采用分布式系統(tǒng)完成下列關(guān)于大數(shù)據(jù)處理的描述中,不正確的是()A.處理大數(shù)據(jù)時,一般采用分治思想B.Hadoop是一個可運行于大規(guī)模計算機集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于處理實時數(shù)據(jù)C.HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上,云盤、網(wǎng)盤的底層一般采用HDFS實現(xiàn)D.MapReduce是一種分布式并行編程模型,主要由Map(映射)和Reduce(歸納)2個函數(shù)構(gòu)成下列對大數(shù)據(jù)的理解錯誤的是()。A.從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來看,大數(shù)據(jù)具有“4V”特征,分別是大量(Volume),多樣(Variety),低價值密度(Value),高速(Velocity)。B.從互聯(lián)網(wǎng)思維的角度來看,大數(shù)據(jù)具有三個特征:樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果。C.從大數(shù)據(jù)存儲與計算的角度來看,大數(shù)據(jù)具有兩個特征:分布式存儲和分布式并行計算。D.以上都不對【鞏固提升】下列描述的場景與處理方法使用不恰當?shù)氖?)A.分析前一年的高鐵客流數(shù)據(jù)優(yōu)化高鐵運行采用批處理計算B.京東網(wǎng)雙12通過實時分析用戶行為實現(xiàn)商品的推薦采用流計算C.圖計算為騰訊超大規(guī)模社交網(wǎng)絡圖數(shù)據(jù)的各類計算提供支撐D.分析近五年的信息技術(shù)選考試卷梳理高頻考點采用流計算某超市曾經(jīng)研究銷售數(shù)據(jù),發(fā)現(xiàn)買商品A的人購買商品B的概率很大,這種屬于數(shù)據(jù)的()A.聚類分析 B.關(guān)聯(lián)分析 C.分類分析 D.回歸分析下列數(shù)據(jù)處理中,不屬于文本數(shù)據(jù)處理的是()A.根據(jù)白名單和黑名單機制,進行垃圾郵件的識別B.在線客服通過自動應答技術(shù)回答問題C.實時監(jiān)測景區(qū)的人流數(shù)據(jù),控制過多的游客進入景區(qū)D.分析消費者的意見數(shù)據(jù),挖掘用戶觀點,輔助運營決策居民身份證號碼可以反映出常住戶口所在地的行政區(qū)劃、出生日期和性別等信息,這主要體現(xiàn)了數(shù)據(jù)是()。計算工具識別、存儲和加工的對象 B.信息的載體 C.可處理的 D.可加工的【拓展應用】(簡答題)請寫出大數(shù)據(jù)處理流程四步驟。

近年來,很多網(wǎng)絡平臺會在年底為用戶生成專屬的個人報表,顯示一年內(nèi)該用戶在該平臺上的各種使用行為數(shù)據(jù)。(1)這類個人報表是利用大數(shù)據(jù)技術(shù)收集用戶的個人行為數(shù)據(jù),并通過分類和計算獲得。由此可見()A.大數(shù)據(jù)采集的數(shù)據(jù)必須準確無誤B.大數(shù)據(jù)的數(shù)據(jù)采集主要還是人工方式C.大數(shù)據(jù)分析的是抽樣數(shù)據(jù)D.大數(shù)據(jù)分析能發(fā)現(xiàn)數(shù)據(jù)間的相關(guān)性(2)某數(shù)據(jù)公司統(tǒng)計了2016-2020年全球每年產(chǎn)生的數(shù)據(jù)量及其增速,結(jié)果如圖。此統(tǒng)計主要采用的數(shù)據(jù)分析方法是(),使用了()和()兩種圖表來組合進行可視化呈現(xiàn)。()A.聚類分析、餅圖、條形圖B.對比分析、折線圖、柱形圖C.結(jié)構(gòu)分析、餅圖、條形圖D.平均分析、折線圖、柱形圖(3)該網(wǎng)站可實現(xiàn)對數(shù)據(jù)的加密解密,界面如圖。該應用服務架構(gòu)體系屬于()A.B/SB.P2PC.C/SD.B/C(4)此網(wǎng)站的加密功能是對輸入的明文(由字母、數(shù)字或其他字符組成的字符串)中的每個字符進行處理。算法規(guī)則如下:①將明文中所有的小寫字母轉(zhuǎn)換為大寫字母,例如:a→A;②將明文中所有的數(shù)字加上1變成另一個數(shù)字,例如0→1,9→0;③明文中除了小寫字母和數(shù)字字符外均不進行轉(zhuǎn)換;④將加密后的數(shù)據(jù)倒序輸出,例如“abc”→“cba”,即為該明文的密文。那么,明文為“An95”得到的密文為()A.59nAB.69nAC.60NAD.60nA(5)以上加密算法,如果用Python語言實現(xiàn),為方便處理,明文和密文一般都被抽象為()數(shù)據(jù)類型的數(shù)據(jù)。A.數(shù)值B.字符串C.列表D.元組參考答案:【夯實基礎(chǔ)】1.C【詳解】[詳解]:本題主要考查大數(shù)據(jù)特征。大數(shù)據(jù)的4V特征分別是Volume(大量性)、Velocity(高速性)、Variety(多樣性)、Value(價值性),故本題選C選項。2.B【詳解】本題考查的是文本數(shù)據(jù)處理。制作通訊錄的材料是結(jié)構(gòu)化數(shù)據(jù),選項B符合題意。3.A【詳解】本題考查大數(shù)據(jù)技術(shù)相關(guān)內(nèi)容。大數(shù)據(jù)預處理技術(shù)是指在進行大數(shù)據(jù)分析之前,對原始的大量數(shù)據(jù)進行清洗、轉(zhuǎn)換、集成和規(guī)范化等一系列操作,以提高數(shù)據(jù)的質(zhì)量、可用性和可操作性。故本題答案是A選項。4.C【詳解】本題主要考查數(shù)據(jù)處理。數(shù)據(jù)處理的一般過程是采集一分析一整理可視化表達,故本題選C選項。5.A【詳解】本題主要考查大數(shù)據(jù)的描述。大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行高效捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更佳的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn);物聯(lián)網(wǎng)、云計算、手機、電腦都是數(shù)據(jù)的來源;互聯(lián)網(wǎng)生成的數(shù)據(jù)量正以爆發(fā)性的速度不斷增長;在科學實驗中,各種傳感器每時每刻的速度不斷增長,故本題選A選項。6.B【詳解】本題考查大數(shù)據(jù)相關(guān)內(nèi)容。A選項,大數(shù)據(jù)要分析的是全體數(shù)據(jù),不是抽樣數(shù)據(jù),大數(shù)據(jù)具有低價值密度性,所以大數(shù)據(jù)無需每個數(shù)據(jù)都準確無誤,選項錯誤。B選項,處理大數(shù)據(jù)時,一般采用分治思想(把最初的問題分解成若干子問題,然后,在逐個解決各個子問題的基礎(chǔ)上得到原始問題的解),選項正確。C選項,處理大數(shù)據(jù)時,更注重事物的相關(guān)性而不是因果關(guān)系,選項錯誤。D選項,實現(xiàn)對實時數(shù)據(jù)的獲取、傳輸和存儲可以采用Flink完成。Flink是一個開源的流處理框架,支持窗口操作、聚合操作、連接操作等復雜計算。Flink還提供了容錯機制,可以在數(shù)據(jù)處理過程中實時修復錯誤,并可以通過Checkpoint機制實現(xiàn)數(shù)據(jù)的容錯。Flink的優(yōu)點是支持流式計算,可以處理大規(guī)模的數(shù)據(jù)流,適用于處理實時數(shù)據(jù)。選項錯誤。故本題答案是B選項。7.B【詳解】本題主要考查大數(shù)據(jù)處理。hadoop指一個用于大數(shù)據(jù)分布式存儲(HDFS),分布式計算(MapReduce)和資源調(diào)度(YARN)的平臺,Hadoop適用于靜態(tài)數(shù)據(jù)的批處理計算,不適用于夂處理實時數(shù)據(jù),故本題選B選項。項。8.D【詳解】本題主要考查大數(shù)據(jù)的相關(guān)知識。大數(shù)據(jù)具有“4V”特征,分別是大量(Volume),多樣(Variety),高速(Velocity)、低價值密度(Value),因此A選項正確;從互聯(lián)網(wǎng)思維白的角度來看,大數(shù)據(jù)具有三個特征:樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果。因此B選項正確;人從大數(shù)據(jù)存儲與計算的角度來看,大數(shù)據(jù)具有兩個特征:分布式存儲和分布式并行計算。因此C選項正確;由上可知D選項不符合題意?!眷柟烫嵘緿【詳解】本題考查的是對不同數(shù)據(jù)的不同處理方法。一般靜態(tài)數(shù)據(jù)用批處理計算,流數(shù)據(jù)用流計算,圖數(shù)據(jù)用圖計算等。近五年的信息技術(shù)選考試卷梳理高頻考點應該屬于靜態(tài)數(shù)據(jù),應采用批處理計算。故選項D正確。B【詳解】本題考查的是數(shù)據(jù)分析。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā)、自動進行分類。關(guān)聯(lián)分析就是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。數(shù)據(jù)分類是數(shù)據(jù)分析處理中最基本的方法。數(shù)據(jù)分類通常的做法是,基于樣本數(shù)據(jù)先訓練構(gòu)建分類函數(shù)或者分類模型(也稱為分類器),該分類器具有將分類數(shù)據(jù)項映射到某一特點類別的功能?;貧w分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。某超市曾經(jīng)研究銷售數(shù)據(jù),發(fā)現(xiàn)買商品A的人購買商品B的概率很大,這種屬于數(shù)據(jù)的關(guān)聯(lián)分析。故選項B正確。C【詳解】本題考查的是數(shù)據(jù)處理。C選項只是掌握游客數(shù)量,沒有進行分詞等文本操作。C【詳解】本題主要考查數(shù)據(jù)處理。數(shù)據(jù)處理的基本目的是從大量的、雜亂無章的、難以理解的數(shù)據(jù)中抽取出相對有價值、有意義的數(shù)據(jù),故居民身份證號碼可以反映出常住戶口所在地的行政區(qū)劃、出生日期和性別等信息,這主要體現(xiàn)了數(shù)據(jù)是可處理的,故本題選C選項?!就卣箲谩俊敬鸢浮看髷?shù)據(jù)處理流程主要包括四個關(guān)鍵步驟:數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲與分析以及數(shù)據(jù)可視化。(1)數(shù)據(jù)采集是大數(shù)據(jù)處理流程的第一步,也是至關(guān)重要的一步。數(shù)據(jù)采集的主要目的是從各種數(shù)據(jù)源中收集、識別和記錄數(shù)據(jù)。在數(shù)據(jù)采集階段,需要使用各種不同的技術(shù)和工具,例如ETL(提取、轉(zhuǎn)換、加載)工具、數(shù)據(jù)清洗工具、數(shù)據(jù)庫管理系統(tǒng)等等。(2)數(shù)據(jù)預處理是大數(shù)據(jù)處理流程的第二步,其主要目的是對數(shù)據(jù)進行清洗、整合和變換,以提高數(shù)據(jù)的質(zhì)量和可用性。在這個階段,需要使用各種數(shù)據(jù)處理技術(shù)和工具,例如數(shù)據(jù)去重、數(shù)據(jù)填補、數(shù)據(jù)規(guī)范化等等。(3)數(shù)據(jù)存儲與分析是大數(shù)據(jù)處理流程的第三步,其主要目的是對數(shù)據(jù)進行存儲和管理,并通過對數(shù)據(jù)的分析來獲得有用的信息。在這個階段,需要使用各種數(shù)據(jù)存儲技術(shù)和工具,例如分布式文件系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)等等。(4)數(shù)據(jù)可視化是大數(shù)據(jù)處理流程的最后一步,其主要目的是將數(shù)據(jù)處理的結(jié)果以可視化的方式呈現(xiàn)出來,以便更加直觀地展示數(shù)據(jù)的特征和規(guī)律。在這個階段,需要使用各種數(shù)據(jù)可視化技術(shù)和工具,例如表格、圖表、地理信息系統(tǒng)等等。大數(shù)據(jù)處理流程的四大步驟是相互聯(lián)系、相互影響的。通過這四個步驟的執(zhí)行,可以有效地優(yōu)化數(shù)據(jù),充分挖掘數(shù)據(jù)的潛在價值,為決策和業(yè)務運營提供有力支持。同時,隨著技術(shù)的不斷發(fā)展和進步,大數(shù)據(jù)處理的流程和方式也將不斷改變和優(yōu)化,以更好地適應時代的需求和發(fā)展。【詳解】本題考查大數(shù)據(jù)處理流程相關(guān)內(nèi)容。大數(shù)據(jù)處理流程主要包括四個關(guān)鍵步驟:數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲與分析以及數(shù)據(jù)可視化?;卮鸪鲆c即可。【答案】DBACB【詳解】本題考查數(shù)據(jù)與大數(shù)據(jù)相關(guān)內(nèi)容。結(jié)合題目內(nèi)容可知:(1)這類個人報表是利用大數(shù)據(jù)技術(shù)收集用戶的個人行為數(shù)據(jù),并通過分類和計算獲得,說明大數(shù)據(jù)分析能發(fā)現(xiàn)數(shù)據(jù)間的相關(guān)性。故本題答案是:D。(2)①聚類分析就是將研究對象根據(jù)一些特征指標,把比較相似的研究對象,按一定的方式歸為同類。②對比分析法是指將兩個或兩個以上的數(shù)據(jù)進行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事物發(fā)展變化情況和規(guī)律性,對比分析可分為靜態(tài)比較和動態(tài)比較兩大類:靜態(tài)比較也叫橫向?qū)Ρ龋峭粫r間下對不同指標的對比;動態(tài)比較也叫縱向?qū)Ρ?,是同一總體條件對不同時期指標數(shù)值的比較。③結(jié)構(gòu)分析法指分析總體內(nèi)的各部分與總體之間進行對比的分析方法及總體內(nèi)各部分占總體的比例,屬于相對指標,一般某部分的比例越大,說明其重要程度越高,對總體的影響越大。④平均分析法是運用計算平均數(shù)的方法來反映總體在一定時間/地點條件下某一數(shù)量特征的一般水平,平均

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論