(2025年)國家開放大學(xué)期末統(tǒng)一考試大數(shù)據(jù)技術(shù)概論試題及答案_第1頁
(2025年)國家開放大學(xué)期末統(tǒng)一考試大數(shù)據(jù)技術(shù)概論試題及答案_第2頁
(2025年)國家開放大學(xué)期末統(tǒng)一考試大數(shù)據(jù)技術(shù)概論試題及答案_第3頁
(2025年)國家開放大學(xué)期末統(tǒng)一考試大數(shù)據(jù)技術(shù)概論試題及答案_第4頁
(2025年)國家開放大學(xué)期末統(tǒng)一考試大數(shù)據(jù)技術(shù)概論試題及答案_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(2025年)國家開放大學(xué)期末統(tǒng)一考試大數(shù)據(jù)技術(shù)概論試題及答案一、單項選擇題(每題2分,共30分)1.下列關(guān)于大數(shù)據(jù)5V特征的描述中,錯誤的是()A.Volume(海量性):數(shù)據(jù)規(guī)模通常達(dá)到PB級以上B.Velocity(高速性):數(shù)據(jù)產(chǎn)生和處理速度快,需實時分析C.Variety(多樣性):僅包括結(jié)構(gòu)化數(shù)據(jù)D.Value(低價值密度):需通過挖掘提取有效信息2.以下不屬于分布式文件系統(tǒng)的是()A.HDFSB.GFSC.NTFSD.Ceph3.Spark中用于緩存數(shù)據(jù)的核心抽象是()A.DataFrameB.DatasetC.RDDD.DStream4.數(shù)據(jù)清洗過程中,處理“年齡字段出現(xiàn)-5”的問題屬于()A.缺失值處理B.異常值處理C.重復(fù)值處理D.格式標(biāo)準(zhǔn)化5.下列技術(shù)中,主要用于實時流數(shù)據(jù)處理的是()A.HadoopMapReduceB.ApacheFlinkC.HiveD.Pig6.數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉庫(DataWarehouse)的核心區(qū)別在于()A.數(shù)據(jù)湖僅存儲結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉庫存儲非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖在存儲時不定義模式(Schema-on-Read),數(shù)據(jù)倉庫在存儲前定義模式(Schema-on-Write)C.數(shù)據(jù)湖用于歷史數(shù)據(jù)分析,數(shù)據(jù)倉庫用于實時分析D.數(shù)據(jù)湖的存儲成本高于數(shù)據(jù)倉庫7.以下不屬于NoSQL數(shù)據(jù)庫類型的是()A.鍵值存儲(如Redis)B.列族存儲(如HBase)C.關(guān)系型數(shù)據(jù)庫(如MySQL)D.文檔存儲(如MongoDB)8.大數(shù)據(jù)分析中,用于發(fā)現(xiàn)數(shù)據(jù)中隱含關(guān)聯(lián)規(guī)則的算法是()A.K-meansB.AprioriC.SVMD.決策樹9.分布式計算框架中,HadoopYARN的核心功能是()A.資源管理與任務(wù)調(diào)度B.分布式存儲C.實時流處理D.數(shù)據(jù)清洗10.隱私計算技術(shù)中,聯(lián)邦學(xué)習(xí)(FederatedLearning)的主要目標(biāo)是()A.在不共享原始數(shù)據(jù)的前提下聯(lián)合訓(xùn)練模型B.加密所有數(shù)據(jù)傳輸過程C.完全隔離不同機(jī)構(gòu)的數(shù)據(jù)存儲D.提高數(shù)據(jù)壓縮率11.以下關(guān)于HDFS的描述,錯誤的是()A.適合存儲大文件(GB級以上)B.默認(rèn)塊大小為128MBC.支持低延遲的大量小文件隨機(jī)訪問D.采用主從架構(gòu)(NameNode+DataNode)12.數(shù)據(jù)可視化工具Tableau的主要特點是()A.適合編程實現(xiàn)復(fù)雜可視化B.支持拖拽式操作,易用性高C.僅用于實時流數(shù)據(jù)展示D.依賴Hadoop集群運(yùn)行13.大數(shù)據(jù)平臺架構(gòu)中,位于最底層的是()A.數(shù)據(jù)存儲層B.數(shù)據(jù)處理層C.數(shù)據(jù)采集層D.應(yīng)用服務(wù)層14.下列指標(biāo)中,用于衡量分類模型準(zhǔn)確率的是()A.均方誤差(MSE)B.精確率(Precision)C.余弦相似度D.困惑度(Perplexity)15.邊緣計算(EdgeComputing)在大數(shù)據(jù)場景中的主要作用是()A.將所有數(shù)據(jù)集中到云端處理B.減少數(shù)據(jù)傳輸延遲,降低云端壓力C.替代傳統(tǒng)分布式計算框架D.僅處理結(jié)構(gòu)化數(shù)據(jù)二、填空題(每空2分,共20分)1.大數(shù)據(jù)技術(shù)的核心是通過______、存儲、處理和分析技術(shù),從海量數(shù)據(jù)中提取價值。2.Hadoop生態(tài)中,用于結(jié)構(gòu)化數(shù)據(jù)查詢的工具是______(填英文縮寫)。3.Spark的計算模式是基于內(nèi)存的______計算,相比HadoopMapReduce更適合迭代計算。4.數(shù)據(jù)倉庫的典型架構(gòu)包括操作型數(shù)據(jù)存儲(ODS)、______、數(shù)據(jù)集市(DataMart)等層次。5.NoSQL數(shù)據(jù)庫中,HBase基于______模型存儲數(shù)據(jù)(填“列族”“鍵值”或“文檔”)。6.流數(shù)據(jù)處理的兩種模式是______(如SparkStreaming)和嚴(yán)格一次處理(如Flink)。7.數(shù)據(jù)挖掘的主要任務(wù)包括分類、聚類、關(guān)聯(lián)規(guī)則挖掘、______等。8.分布式系統(tǒng)中,CAP定理指的是一致性(Consistency)、可用性(Availability)和______三者不可兼得。9.隱私計算的常見技術(shù)包括聯(lián)邦學(xué)習(xí)、安全多方計算(MPC)和______(如差分隱私)。10.大數(shù)據(jù)平臺的可擴(kuò)展性分為水平擴(kuò)展(ScaleOut)和______(ScaleUp)兩種方式。三、簡答題(每題8分,共40分)1.簡述HadoopHDFS的讀寫流程,并說明其適合處理的場景。2.對比分析批處理(BatchProcessing)與流處理(StreamProcessing)的差異,各舉一個典型技術(shù)框架。3.數(shù)據(jù)清洗的主要步驟有哪些?請結(jié)合具體案例說明異常值處理的方法。4.什么是數(shù)據(jù)湖?它與傳統(tǒng)數(shù)據(jù)倉庫的主要區(qū)別體現(xiàn)在哪些方面?5.大數(shù)據(jù)安全面臨的主要挑戰(zhàn)有哪些?可采取哪些應(yīng)對措施?四、綜合分析題(每題15分,共30分)1.某電商企業(yè)計劃構(gòu)建用戶行為分析系統(tǒng),需處理來自APP端的點擊、購買、加購等實時流數(shù)據(jù)(日均數(shù)據(jù)量約500GB),并支持歷史數(shù)據(jù)的離線分析(如用戶畫像、銷售趨勢預(yù)測)。請設(shè)計該系統(tǒng)的大數(shù)據(jù)處理架構(gòu),要求包含數(shù)據(jù)采集、存儲、處理、分析四個層次,并說明各層次的技術(shù)選型及原因。2.某金融機(jī)構(gòu)需聯(lián)合多家醫(yī)院在不共享患者原始數(shù)據(jù)的前提下,共同訓(xùn)練一個“糖尿病并發(fā)癥預(yù)測模型”。請結(jié)合隱私計算技術(shù),設(shè)計具體的實現(xiàn)方案,說明關(guān)鍵步驟及所需技術(shù)(如聯(lián)邦學(xué)習(xí)的類型、數(shù)據(jù)預(yù)處理要求、模型評估方法等)。參考答案一、單項選擇題1.C2.C3.C4.B5.B6.B7.C8.B9.A10.A11.C12.B13.C14.B15.B二、填空題1.采集2.Hive3.迭代式4.數(shù)據(jù)倉庫(DW)5.列族6.微批處理7.預(yù)測8.分區(qū)容錯性(PartitionTolerance)9.同態(tài)加密10.垂直擴(kuò)展三、簡答題1.HDFS讀寫流程:-寫流程:客戶端向NameNode請求創(chuàng)建文件,NameNode驗證權(quán)限并分配DataNode塊位置;客戶端將數(shù)據(jù)分塊(默認(rèn)128MB),通過Pipeline依次寫入目標(biāo)DataNode,完成后通知NameNode更新元數(shù)據(jù)。-讀流程:客戶端向NameNode請求文件元數(shù)據(jù)(塊位置),根據(jù)就近原則連接DataNode讀取數(shù)據(jù)塊,合并后返回。適合場景:大文件存儲(GB-TB級)、一次寫入多次讀取、高吞吐量(如日志存儲、海量數(shù)據(jù)備份)。2.批處理與流處理差異:-數(shù)據(jù)處理方式:批處理將數(shù)據(jù)劃分為固定大小的批次(如每天處理一次),流處理實時處理連續(xù)數(shù)據(jù)流(如每秒處理)。-延遲:批處理延遲較高(分鐘級以上),流處理延遲低(毫秒級)。-典型場景:批處理用于歷史報表提供(如HadoopMapReduce),流處理用于實時推薦、監(jiān)控告警(如ApacheFlink)。3.數(shù)據(jù)清洗步驟:缺失值處理、異常值處理、重復(fù)值處理、格式標(biāo)準(zhǔn)化、不一致數(shù)據(jù)修正。案例:某用戶年齡字段出現(xiàn)“150歲”,屬于異常值。處理方法:①檢查數(shù)據(jù)錄入錯誤(如多輸一個0),修正為“50歲”;②若無法確認(rèn),用字段均值(如該群體平均年齡35歲)填充;③或標(biāo)記為缺失值,后續(xù)建模時排除。4.數(shù)據(jù)湖是存儲結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的集中式存儲庫,支持Schema-on-Read(讀取時定義模式)。與數(shù)據(jù)倉庫的區(qū)別:-數(shù)據(jù)類型:數(shù)據(jù)湖支持全類型數(shù)據(jù),數(shù)據(jù)倉庫僅結(jié)構(gòu)化;-模式定義:數(shù)據(jù)湖存儲時無固定模式,數(shù)據(jù)倉庫需提前定義(Schema-on-Write);-應(yīng)用場景:數(shù)據(jù)湖支持探索性分析、機(jī)器學(xué)習(xí),數(shù)據(jù)倉庫支持確定性業(yè)務(wù)查詢(如OLAP);-成本:數(shù)據(jù)湖存儲成本更低(使用對象存儲),數(shù)據(jù)倉庫需ETL預(yù)處理,成本較高。5.安全挑戰(zhàn):-數(shù)據(jù)泄露風(fēng)險(如敏感信息存儲、傳輸未加密);-分布式系統(tǒng)的脆弱性(如NameNode單點故障、集群權(quán)限管理復(fù)雜);-隱私保護(hù)需求(如GDPR、個人信息保護(hù)法要求);-惡意攻擊(如DDoS攻擊、數(shù)據(jù)篡改)。應(yīng)對措施:-加密技術(shù)(傳輸層TLS、存儲層AES加密);-訪問控制(RBAC角色權(quán)限管理、細(xì)粒度數(shù)據(jù)脫敏);-聯(lián)邦學(xué)習(xí)、差分隱私等隱私計算技術(shù);-監(jiān)控與審計(實時日志分析、異常操作預(yù)警)。四、綜合分析題1.電商用戶行為分析系統(tǒng)架構(gòu)設(shè)計:-數(shù)據(jù)采集層:使用Flume(日志文件)+Kafka(實時流數(shù)據(jù))。Flume適合從服務(wù)器收集APP日志(如點擊事件),Kafka作為消息隊列緩沖實時數(shù)據(jù)流(如購買事件),支持高吞吐和削峰填谷。-數(shù)據(jù)存儲層:實時數(shù)據(jù)存儲于HBase(列式存儲,支持快速隨機(jī)讀寫),歷史數(shù)據(jù)存儲于HDFS(海量存儲)+Hive(結(jié)構(gòu)化數(shù)據(jù)倉庫)。冷數(shù)據(jù)歸檔至對象存儲(如Ceph)降低成本。-數(shù)據(jù)處理層:實時處理用Flink(低延遲、精確一次處理)計算實時指標(biāo)(如當(dāng)前小時轉(zhuǎn)化率);離線處理用Spark(內(nèi)存計算,適合用戶畫像等復(fù)雜迭代任務(wù))。-分析應(yīng)用層:Tableau/QuickBI做可視化報表(如銷售趨勢),機(jī)器學(xué)習(xí)平臺(如SparkMLlib)訓(xùn)練預(yù)測模型(如用戶復(fù)購率預(yù)測),結(jié)果輸出至APP推薦系統(tǒng)。2.金融-醫(yī)院聯(lián)合建模方案(基于聯(lián)邦學(xué)習(xí)):-技術(shù)選型:選擇橫向聯(lián)邦學(xué)習(xí)(各參與方特征相同,樣本不同,如醫(yī)院的患者特征字段一致)。-關(guān)鍵步驟:①數(shù)據(jù)預(yù)處理:各醫(yī)院對患者數(shù)據(jù)脫敏(去除姓名、身份證號),標(biāo)準(zhǔn)化特征(如年齡分桶、血糖值歸一化),確保特征空間一致。②模型初始化:中心服務(wù)器發(fā)布初始模型(如邏輯回歸或XGBoost),各醫(yī)院用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論