大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷含答案_第1頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷含答案_第2頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷含答案_第3頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷含答案_第4頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷含答案_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第頁大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷含答案1.某工廠共有100名員工,他們的月工資方差是s,現(xiàn)在給每個員工的月工資增加3000元,那么他們的新工資的方差()。A、為s+3000B、小了C、大了D、不變【正確答案】:D解析:

方差用來計(jì)算每一個變量(觀察值)與總體均數(shù)之間的差異。2.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程J=7.19x+73.93,據(jù)此可以預(yù)測這個孩子10歲時的身高,則下列敘述正確的是(A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:

回歸直線方程預(yù)測時,出現(xiàn)的誤差方向不能確定。3.表示數(shù)據(jù)分布是否為對稱性的統(tǒng)計(jì)量是()。A、方差B、中位數(shù)C、偏態(tài)D、峰態(tài)【正確答案】:C解析:

偏態(tài)(Skewness)描述數(shù)據(jù)分布的對稱性,當(dāng)偏態(tài)系數(shù)等于0時,對應(yīng)數(shù)據(jù)的分布為對稱;否則分布為非對稱。峰態(tài)(Kurtosis)描述數(shù)據(jù)分布的平峰或尖峰程度,當(dāng)峰態(tài)系數(shù)等于0時,數(shù)據(jù)分布為標(biāo)準(zhǔn)正態(tài)分布;否則比正態(tài)分布更平或更尖。4.對于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3,2,得出以下結(jié)論:①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的眾數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等。其中結(jié)論正確的個數(shù)為()。A、1B、2C、3D、4【正確答案】:B解析:

眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)最多的變量值;中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值;均值是各數(shù)值加總求和再除以總的個數(shù)。此題中眾數(shù)為3,中位數(shù)為3,平均值為4,故①和③正確。5.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺上打開顯示不同C、可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲數(shù)據(jù)的量無限制【正確答案】:C解析:

Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺上打開顯示相同,Excel存儲數(shù)據(jù)的量在Excel2007及以后版本,一個工作表最多可有1048576行、16384列。6.大數(shù)據(jù)的“4V”特性不包括()。A、VolumeB、VelocityC、VisualD、Variety【正確答案】:C解析:

通常,用“4V”來表示大數(shù)據(jù)的基本特征:Volume(數(shù)據(jù)量大)、Variety(類型多)、Value(價值高)、Velocity(速度快)。7.DIKW金字塔模型中,頂層與底層的名稱分別為()。A、智慧與數(shù)據(jù)B、知識與數(shù)據(jù)C、智慧與數(shù)值D、知識與數(shù)值【正確答案】:A解析:

DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識、智慧。8.數(shù)據(jù)可視化的本質(zhì)是()。A、將數(shù)據(jù)轉(zhuǎn)換為知識B、將知識轉(zhuǎn)換為數(shù)據(jù)C、將數(shù)據(jù)轉(zhuǎn)換為信息D、將信息轉(zhuǎn)換為智慧【正確答案】:A解析:

可視化分析學(xué)模型認(rèn)為,數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識,而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上,并提出從數(shù)據(jù)到知識的轉(zhuǎn)換途徑有可視化分析和自動化建模2個。9.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追究效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)【正確答案】:B解析:

本次分析主要分析了大風(fēng)和洋流可能發(fā)生的地與安全航路的相關(guān)性。10.大數(shù)據(jù)應(yīng)用需依托的新技術(shù)有()。A、大規(guī)模并行處理B、數(shù)據(jù)分析處理C、智能化D、三個選項(xiàng)都是【正確答案】:D解析:

適用于大數(shù)據(jù)的技術(shù)包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)、智能化相術(shù)等。11.利用到每個聚類中心和的遠(yuǎn)近判斷離群值的方法,可以基于的算法為()。A、K-meansB、KNNC、SVMD、LinearRegression【正確答案】:A解析:

K-means算法又名K均值算法。其算法思想大致為先從樣本集中隨機(jī)選取K個樣本作為簇中心,并計(jì)算所有樣本與這K個簇中心的距離,對于每一個樣本,將其劃分到與其距離最近的簇中心所在的簇中,對于新的簇計(jì)算各個簇的新的簇中心。12.下列描述中不屬于數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)“三同步”原則的是()。A、同步規(guī)劃B、同步建設(shè)C、同步使用D、同步運(yùn)維【正確答案】:D解析:

數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)劃、同步建設(shè)、同步使用三項(xiàng)原則。13.數(shù)據(jù)可視化的方法論基礎(chǔ)是()。A、統(tǒng)計(jì)圖表B、視覺編碼C、圖論D、圖形符號學(xué)【正確答案】:B解析:

數(shù)據(jù)可視化方法體系的方法論基礎(chǔ)主要是指視覺編碼。視覺編碼為其他數(shù)據(jù)可視化方法提供了方法論基礎(chǔ),奠定了數(shù)據(jù)可視化方法體系的根基。14.下列描述中不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗:去噪聲和無關(guān)數(shù)據(jù)B、數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存在一個一致的數(shù)據(jù)存儲中C、數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式D、數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)【正確答案】:D解析:

數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別[男,女]分別轉(zhuǎn)換為[0,1]。15.PagcRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實(shí)數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:

PageRank認(rèn)為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,根據(jù)這些鏈接的價值加權(quán)越高,那搜索引擎就會判斷這樣的頁面更為重要。16.下列不屬于可視化視覺下的數(shù)據(jù)類型的是()。A、定類數(shù)據(jù)B、定序數(shù)據(jù)C、定寬數(shù)據(jù)D、定比數(shù)據(jù)【正確答案】:C解析:

從可視化處理視角看,可以將數(shù)據(jù)分為定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù)4個類型,并采用不同的視覺映射方法。在可視化領(lǐng)域,對數(shù)據(jù)進(jìn)行分類分析是由于不同類型的數(shù)據(jù)可支持的操作類型不同。17.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:

大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開。18.下列不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計(jì)【正確答案】:D解析:

數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。19.()是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。A、數(shù)據(jù)管理B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)規(guī)劃【正確答案】:C解析:

從DMM模型可以看出,數(shù)據(jù)治理是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理指通過管理數(shù)據(jù)實(shí)現(xiàn)組織機(jī)構(gòu)的某種業(yè)務(wù)目的。然而,數(shù)據(jù)治理則指如何確保數(shù)據(jù)管理順利、有效、科學(xué)地完成。20.下列不屬于數(shù)據(jù)科學(xué)跨平臺基礎(chǔ)設(shè)施和分析工具的是()。A、微軟AzureB、Google云平臺C、阿里云D、Adobephotoshop【正確答案】:D解析:

Adobephotoshop軟件一般不作為數(shù)據(jù)分析工具。21.下列情景中不屬于數(shù)據(jù)故事化的是()。A、還原情景B、統(tǒng)計(jì)情景C、移植情景D、虛構(gòu)情景【正確答案】:B解析:

數(shù)據(jù)的故事化描述(Storytelling)是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。由此可見,數(shù)據(jù)故事化也是數(shù)據(jù)轉(zhuǎn)換的表現(xiàn)形式之一,其本質(zhì)是以故事講述的方式展現(xiàn)數(shù)據(jù)的內(nèi)容。數(shù)據(jù)故事化中的情景,可以是:①還原情景:還原數(shù)據(jù)所計(jì)量和記錄信息時的原始情景;②移植情景:并非對應(yīng)信息的原始情景,而是將數(shù)據(jù)移植到另一個真實(shí)發(fā)生的情景(如目標(biāo)用戶比較熟悉的情景)之中;③虛構(gòu)情景:數(shù)據(jù)的故事化描述中所選擇的情景并非為真實(shí)存在的情景,而是根據(jù)講述人的想象力設(shè)計(jì)出來的虛構(gòu)情景。22.BASE原則的含義不包括()。A、基本可用B、柔性狀態(tài)C、最終一致D、基礎(chǔ)條件【正確答案】:D解析:

BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventallyConsistent(最終--致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時一致,系統(tǒng)在某一個時刻后達(dá)到一致性要求即可。23.下列不屬于臟數(shù)據(jù)的是()。A、含有缺失數(shù)據(jù)B、冗余數(shù)據(jù)C、噪聲數(shù)據(jù)D、不規(guī)則形態(tài)數(shù)據(jù)【正確答案】:D解析:

在數(shù)據(jù)庫技術(shù)中,臟數(shù)據(jù)在臨時更新(臟讀)中產(chǎn)生。事務(wù)A更新了某個數(shù)據(jù)項(xiàng)X,但是由于某種原因,事務(wù)A出現(xiàn)了問題,于是要把A回滾。但是在回滾之前,另一個事務(wù)B讀取了數(shù)據(jù)項(xiàng)X的值(A更新后),A回滾了事務(wù),數(shù)據(jù)項(xiàng)恢復(fù)了原值。事務(wù)B讀取的是臟數(shù)據(jù)。24.下列屬于NoSQL數(shù)據(jù)庫中Key-Value缺點(diǎn)的是()。A、不記錄結(jié)構(gòu)信息B、查詢性能不高,缺乏統(tǒng)一查詢語法C、功能相對有限D(zhuǎn)、功能相對有限,不易于做分布式集群【正確答案】:A解析:

Key-Value型數(shù)據(jù)通常Key與Value之間采用某種方法(如哈希表)建立KValue映射,其缺點(diǎn)是不記錄結(jié)構(gòu)信息,無法建立索引。25.下列關(guān)于數(shù)據(jù)產(chǎn)品的說法錯誤的是()。A、數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B、與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類用戶,還可以是計(jì)算機(jī)以及其他軟硬件系統(tǒng)C、數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項(xiàng)目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D、數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項(xiàng)目流程的全部活動【正確答案】:A解析:

數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。

26.()是指理解挖掘項(xiàng)目的目標(biāo)業(yè)務(wù)需求。A、業(yè)務(wù)理解B、數(shù)據(jù)理解C、數(shù)據(jù)準(zhǔn)備D、數(shù)據(jù)建?!菊_答案】:A解析:

根據(jù)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(cross-industrystandardprocessfordatamining,CRISP-DM)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項(xiàng)目的要求和最終目的,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。27.下列關(guān)于基本元數(shù)據(jù)描述正確的是()。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:

基本元數(shù)據(jù)(Metadata)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。28.下列不屬于大數(shù)據(jù)平臺安全管理組件提供的功能的是()。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】:D解析:

接口可以對用戶的身份和請求的參數(shù)進(jìn)行驗(yàn)證,以保證接口的安全。通過添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。29.下列關(guān)于OLAP的特性的描述:①快速性;②可分析性;③多維性;④信息性;⑤共享性。正確的是()。A、①②③B、②③④C、①②③④D、①②③④⑤【正確答案】:D解析:

OLAP具有快速性、可分析性、多維性、信息性、共享性等特性。30.圖靈獎獲得者JimGray提出的科學(xué)研究第四范式的全稱為()。A、數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)B、以數(shù)據(jù)為中心的科學(xué)發(fā)現(xiàn)C、數(shù)據(jù)驅(qū)動型的科學(xué)發(fā)現(xiàn)D、大數(shù)據(jù)科學(xué)研究【正確答案】:A解析:

2007年,圖靈獎獲得者JimGray提出了科學(xué)研究的第四范式-數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)。在他看來,人類科學(xué)研究活動已經(jīng)歷過三種不同范式的演變過程(原始社會的實(shí)驗(yàn)科學(xué)范式、以模型和歸納為特征的理論科學(xué)范式和以模擬仿真為特征的計(jì)算科學(xué)范式),目前正在從計(jì)算科學(xué)范式轉(zhuǎn)向數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式。31.數(shù)據(jù)產(chǎn)品的定義是()。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場,被人們使用和消費(fèi),并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要,通過科技發(fā)明或經(jīng)驗(yàn)總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學(xué)的結(jié)果,創(chuàng)造了新的實(shí)物形態(tài)和使用價值的產(chǎn)品【正確答案】:B解析:

數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產(chǎn)品形式。32.下列不屬于數(shù)據(jù)科學(xué)項(xiàng)目主要角色的是()。A、項(xiàng)目發(fā)起人B、項(xiàng)目經(jīng)理C、操作員D、驗(yàn)收人員【正確答案】:D解析:

數(shù)據(jù)科學(xué)項(xiàng)目涉及的主要角色有項(xiàng)目發(fā)起人(ProjectSponsor)、項(xiàng)目經(jīng)理(ProjecManager)、客戶(Client)、數(shù)據(jù)科學(xué)家(DataScientist)、數(shù)據(jù)工程師(DataEngineer)、操作員(Operations)等。33.下列關(guān)于計(jì)算機(jī)存儲容量單位的說法錯誤的是()。A、1kBB、基本單位是字節(jié)(Byte)C、一個漢字需要一個字節(jié)的存儲空間D、一個字節(jié)能夠容納一個英文字符【正確答案】:C解析:

通常,一個漢字需要兩個字節(jié)的存儲空間。34.從復(fù)雜度及價值高低兩個維度,可以將數(shù)據(jù)分析分為()。A、描述性分析、診斷性分析、預(yù)測性分析、探索性分析B、探索性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析C、探索性分析、描述性分析、預(yù)測性分析、規(guī)范性分析D、描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析【正確答案】:D解析:

大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過去的經(jīng)驗(yàn)或者直覺。根據(jù)分析結(jié)果的不同,我們大致可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析四類,不同的分析類型將需要不同的技術(shù)和分析算法。35.下列關(guān)于可視化方法體系的說法不正確的是()。A、通常采用視覺圖形元素和視覺通道兩個維度進(jìn)行視覺編碼B、常用的共性方法有統(tǒng)計(jì)圖表、圖論方法、視覺隱喻和圖形符號學(xué)等C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)【正確答案】:C解析:

領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。36.()是指針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。A、數(shù)據(jù)服務(wù)B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)應(yīng)用【正確答案】:A解析:

數(shù)據(jù)服務(wù)指針對用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價值最重要也是最直接的發(fā)現(xiàn)方式。37.在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是()。A、有放回的簡單隨機(jī)抽樣B、無放回的簡單隨機(jī)抽樣C、分層抽樣D、漸進(jìn)抽樣【正確答案】:D解析:

略。38.數(shù)據(jù)的故事化描述是指為了提升數(shù)據(jù)的(),將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。A、可理解性、可記憶性、可體驗(yàn)性B、可接受性、可記憶性、可體驗(yàn)性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】:A解析:

數(shù)據(jù)的故事化描述(Storytelling)是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。39.有研究發(fā)現(xiàn)“頁面的顯示速度每延遲1s,網(wǎng)站訪問量就會降低11%,從而導(dǎo)致營業(yè)額或者注冊量減少7%,顧客滿意度下降16%”。該項(xiàng)研究表明了在數(shù)據(jù)產(chǎn)品開發(fā)中更加重要的是()。A、查全率B、用戶體驗(yàn)C、數(shù)據(jù)可視化D、查準(zhǔn)率【正確答案】:B解析:

在大數(shù)據(jù)時代,用戶體驗(yàn)更加重要。40.目前,多數(shù)NoSQL數(shù)據(jù)庫是針對特定應(yīng)用場景研發(fā)出來的,其設(shè)計(jì)遵循()原則,更強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴(kuò)展性。A、EASYB、READC、BASED、BASIC【正確答案】:C解析:

BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時一致,系統(tǒng)在某一個時刻后達(dá)到一致性要求即可。41.數(shù)據(jù)安全不只是技術(shù)問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導(dǎo)問題【正確答案】:B解析:

數(shù)據(jù)安全不只是技術(shù)問題,還涉及管理問題。42.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù),但不影響大數(shù)據(jù)的可信數(shù)據(jù),是大數(shù)據(jù)的()的表現(xiàn)形式。A、價值涌現(xiàn)B、隱私涌現(xiàn)C、質(zhì)量涌現(xiàn)D、安全涌現(xiàn)【正確答案】:C解析:

大數(shù)據(jù)的質(zhì)量涌現(xiàn)是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問題(不可信的數(shù)據(jù)),如缺失、冗余、垃圾數(shù)據(jù)的存在,但不影響大數(shù)據(jù)的質(zhì)量(可信的數(shù)據(jù))。43.()是指對于數(shù)據(jù)局部不良行為的非敏感性,是探索性分析追求的主要目標(biāo)之一。A、魯棒性B、穩(wěn)定性C、可靠性D、耐抗性【正確答案】:D解析:

耐抗性(Resistance)為探索性數(shù)據(jù)分析的四個指標(biāo)之一,是指對于數(shù)據(jù)的局部不良行為的非敏感性,是探索性分析追求的主要目標(biāo)之一。對于具有耐抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時,即使它們與原來的數(shù)值差別很大,分析結(jié)果也只會有輕微的改變。44.下列關(guān)于線性回歸分析中的殘差的說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】:A解析:

線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會得到殘差和為零,即殘差均值為零。45.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評估D、過程質(zhì)量保障【正確答案】:A解析:

數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。46.下列關(guān)于數(shù)據(jù)重組的說法錯誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新【正確答案】:A解析:

數(shù)據(jù)重組將數(shù)據(jù)庫內(nèi)各數(shù)據(jù)的相關(guān)信息重新組織。47.數(shù)據(jù)集成的基本類型是()。A、內(nèi)容集成、結(jié)構(gòu)集成B、內(nèi)容集成、規(guī)約集成C、規(guī)約集成、結(jié)構(gòu)集成D、模式集成、結(jié)構(gòu)集成【正確答案】:A解析:

數(shù)據(jù)集成是指通過應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表間結(jié)構(gòu)、表間關(guān)系、編碼的含義等。48.在數(shù)據(jù)科學(xué)中,通常下載R的包的服務(wù)器是()。A、PIPB、CRANC、RstudioD、PyP1【正確答案】:B解析:

CRAN的全稱為TheComprehensiveRArchivcNetwork,在R編程中通常從該服務(wù)器下載所需包。49.下列關(guān)于缺失值的說法錯誤的是()。A、可以利用統(tǒng)計(jì)量對缺失值進(jìn)行填補(bǔ)B、可以利用K近鄰值對缺失值進(jìn)行填補(bǔ)C、只要有缺失值就必須把對應(yīng)記錄刪除D、對于缺失值較多的屬性可以考慮刪除【正確答案】:C解析:

缺失值可以通過刪除、填補(bǔ)等方法進(jìn)行處理。50.一般將原始業(yè)務(wù)數(shù)據(jù)分為多個部分,用于構(gòu)建模型的是()。A、訓(xùn)練集B、測試集C、驗(yàn)證集D、全部數(shù)據(jù)【正確答案】:A解析:

訓(xùn)練集、測試集和驗(yàn)證集的功能分別為訓(xùn)練(構(gòu)建)模型、測試模型以及模型選擇與超級參數(shù)的調(diào)優(yōu)。51.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動地為文檔集合中的每個文檔確定一個類別B、文本分類系統(tǒng)大致可分為基于知識工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個步驟【正確答案】:C解析:

詞袋模型沒有考慮文本詞語的原本行文順序。52.下列關(guān)于描述性分析與探索性分析的描述正確的是()。A、描述性分析是相對于驗(yàn)證性分析的一種提法B、探索性分析是驗(yàn)證性分析的基礎(chǔ)C、探索性分析是相對于驗(yàn)證性分析的一種提法D、探索性分析是數(shù)據(jù)分析的第一步【正確答案】:C解析:

描述性分析與探索性分析兩者的區(qū)別:

(1)描述性分析(DescriptiveAnalytics)是相對于診斷性分析、預(yù)測性分析和規(guī)范性分析的一種提法,主要指的是對一組數(shù)據(jù)的各種統(tǒng)計(jì)特征(如平均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、頻數(shù)分布、正態(tài)或偏態(tài)程度等)進(jìn)行分析,以便描述測量樣本的各種特征及其所對應(yīng)總體的特征。

(2)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)是相對于驗(yàn)證性分析的一種提法,主要指的是指在盡量少的先驗(yàn)假定下,對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))進(jìn)行探索,并通過作圖、制表、方程擬合、計(jì)算特征量等較為簡單的方法,探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。53.探索性分析與驗(yàn)證性分析的不同點(diǎn)是()。A、探索性分析需要事先假設(shè)B、探索性分析比驗(yàn)證性分析復(fù)雜C、探索性分析在前D、驗(yàn)證性分析在前【正確答案】:C解析:

驗(yàn)證性分析需要事先假設(shè),因數(shù)據(jù)不同復(fù)雜程度也不同,探索性分析一般在前,為驗(yàn)證性分析提供參考。54.下列屬于無監(jiān)督學(xué)習(xí)的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:

K-means是一個將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過程,這是一個典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無監(jiān)督學(xué)習(xí)。55.下列關(guān)于特征編碼的敘述不正確的是()。A、特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法B、數(shù)字編碼與特征的排序無關(guān)C、One-Hot編碼中,原始特征有n種取值,轉(zhuǎn)換后就會產(chǎn)生n列新特征D、啞變量編碼解決了One-Hot編碼中存在線性關(guān)系的問題【正確答案】:B解析:

數(shù)字編碼與特征的排序有關(guān),先出現(xiàn)的優(yōu)先排序。56.下列描述中不屬于向量空間模型缺陷的是()。A、維度災(zāi)難B、模型稀疏性C、語義信息缺失D、無法計(jì)算文本相似度【正確答案】:D解析:

無法計(jì)算文本相似度的原因有出現(xiàn)新詞在向量模型中沒有該詞匯或分詞工具對于詞匯切分與上次不同等其他原因。57.根據(jù)數(shù)據(jù)管理計(jì)劃,設(shè)計(jì)或選擇具體方法實(shí)行計(jì)劃中的工作內(nèi)容,屬于數(shù)據(jù)治理的()過程。A、計(jì)劃B、執(zhí)行C、檢查D、改進(jìn)【正確答案】:B解析:

數(shù)據(jù)治理并不是一次性工作,而是一種循序漸進(jìn)的過程,主要包含計(jì)劃、執(zhí)行、檢查和改進(jìn)等基本活動,即數(shù)據(jù)治理的PDCA模型,其中:①計(jì)劃(Plan):數(shù)據(jù)管理方針和目標(biāo)的確定,明確組織機(jī)構(gòu)的數(shù)據(jù)管理的目的、邊界和工作內(nèi)容;②執(zhí)行(Do):根據(jù)數(shù)據(jù)管理計(jì)劃,設(shè)計(jì)或選擇具體的方法、技術(shù)、工具等解決方案,實(shí)現(xiàn)計(jì)劃中的工作內(nèi)容;③檢查(Check):定期檢查執(zhí)行效果,進(jìn)行績效評估,并發(fā)現(xiàn)存在問題與潛在風(fēng)險;④改進(jìn)(Action):根據(jù)檢查結(jié)果中發(fā)現(xiàn)的問題與風(fēng)險,進(jìn)一步改進(jìn)自己的數(shù)據(jù)管理工作。58.下列判斷錯誤的是()。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:B解析:

JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。59.下列關(guān)于數(shù)據(jù)倉庫最終目的的描述正確的是()。A、收集業(yè)務(wù)需求B、建立數(shù)據(jù)倉庫邏輯模型C、開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析D、為用戶和業(yè)務(wù)部門提供決策支持【正確答案】:D解析:

數(shù)據(jù)倉庫的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。60.下列不屬于大數(shù)據(jù)重要意義的是()。A、大數(shù)據(jù)成為推動經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動力B、大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機(jī)遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會增加經(jīng)濟(jì)發(fā)展的成本【正確答案】:D解析:

大數(shù)據(jù)可以促進(jìn)經(jīng)濟(jì)的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)決策、降低運(yùn)營成本、精準(zhǔn)市場的營銷方面都能發(fā)揮作用,進(jìn)一步提升企業(yè)競爭力。61.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述錯誤的是()。A、數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B、對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析D、數(shù)據(jù)可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象【正確答案】:B解析:

對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)。62.已知一組數(shù)據(jù)的協(xié)方差矩陣,下列關(guān)于主分量說法的錯誤的是()。A、主分量分析的最佳準(zhǔn)則是對一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計(jì)算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】:C解析:

K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。63.()認(rèn)為,大數(shù)據(jù)時代的數(shù)據(jù)管理目標(biāo)不一定理想和完美,一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。A、CAP理論BASE原則C、數(shù)據(jù)一致性理論D、大數(shù)據(jù)法則【正確答案】:A解析:

CAP理論認(rèn)為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(PartitionTolcrancc)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。64.下列關(guān)于數(shù)據(jù)的描述錯誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個不同概念B、數(shù)據(jù)與數(shù)值是一個概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個不同的概念D、數(shù)據(jù)和信息是兩個不同的概念【正確答案】:B解析:

除了數(shù)值,數(shù)據(jù)科學(xué)中的數(shù)據(jù)還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型。65.下列不是開源工具特點(diǎn)的是()。A、免費(fèi)B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說明用于自己的軟件中D、開源工具一樣具有版權(quán)【正確答案】:C解析:

延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議、商標(biāo)、專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。66.數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照()的原則,落實(shí)安全與保密責(zé)任。A、誰經(jīng)手,誰使用,誰負(fù)責(zé)B、誰主管,誰負(fù)責(zé)C、誰使用,誰主管,誰負(fù)責(zé)D、誰錄入,誰使用,誰負(fù)責(zé)【正確答案】:A解析:

數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照誰經(jīng)手,誰使用,誰負(fù)責(zé)的原則,落實(shí)安全與保密責(zé)任。67.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()。A、可關(guān)聯(lián)性B、可溯源性C、可理解性D、可復(fù)制性【正確答案】:A解析:

數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險??坍嫈?shù)據(jù)連續(xù)性的特點(diǎn)描述如下:①可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險。②可溯源性是在時間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個數(shù)據(jù)對象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評估以及預(yù)測分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的“失信”風(fēng)險。③可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險。68.下列關(guān)于數(shù)據(jù)倉庫開發(fā)特點(diǎn)的描述不正確的是()。A、數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B、數(shù)據(jù)倉庫使用的需求在開發(fā)初期就要明確C、數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D、在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式【正確答案】:A解析:

數(shù)據(jù)倉庫開發(fā)要從需求出發(fā)。69.下列關(guān)于缺失值填補(bǔ)的說法不正確的是()。A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來填補(bǔ)缺失值C、用平均值填補(bǔ)會引入相關(guān)D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理【正確答案】:B解析:

Pandas.dropna可以用來刪除缺失值。70.()是數(shù)據(jù)庫管理系統(tǒng)運(yùn)行的基本工作單位。A、事務(wù)B、數(shù)據(jù)倉庫C、數(shù)據(jù)單元D、數(shù)據(jù)分析【正確答案】:A解析:

在關(guān)系數(shù)據(jù)庫中,事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段,可以幫助用戶維護(hù)數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個數(shù)據(jù)庫操作序列,這些操作要么全做,要么全不做,是一個不可分割的工作單位。71.數(shù)據(jù)變換的策略包括()。A、平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B、平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化C、平滑處理、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化D、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化【正確答案】:A解析:

數(shù)據(jù)變換的策略不包括審計(jì)。72.()的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。A、數(shù)據(jù)處理B、數(shù)據(jù)計(jì)算C、數(shù)據(jù)加工D、整齊數(shù)據(jù)【正確答案】:C解析:

數(shù)據(jù)加工(DataWrangling或DataMunging)的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。從加工程度看,數(shù)據(jù)可以分為零次、一次、二次、三次數(shù)據(jù)。73.下列關(guān)于數(shù)據(jù)整合和分組的說法不正確的是()。A、數(shù)據(jù)連接可以用concat或merge函數(shù)B、axiis=11表示軸向連接C、數(shù)據(jù)分組可以使用mean函數(shù)D、使用agg可以自定義多個聚合函數(shù)【正確答案】:C解析:

數(shù)據(jù)分組不可以使用mcan函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。74.下列基本活動中不屬于數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的是()。A、創(chuàng)造性設(shè)計(jì)B、數(shù)據(jù)洞見C、虛擬化D、個性化描述【正確答案】:D解析:

數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設(shè)計(jì)、數(shù)據(jù)洞見、虛擬化等基本活動。75.下列不屬于大數(shù)據(jù)在社會活動中的典型應(yīng)用的是()。A、美團(tuán)實(shí)現(xiàn)了快速精準(zhǔn)的送餐服務(wù)B、共享單車、滴滴打車方便了人們的日常出行C、快遞實(shí)現(xiàn)了訂單的實(shí)時跟蹤D、供電公司提供電費(fèi)賬單查詢【正確答案】:D解析:

電費(fèi)賬單查詢屬于簡單報(bào)表查詢,用電情況分析、竊電行為分析、基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣、基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度、基于搜索引擎的搜索關(guān)鍵詞分析社會熱點(diǎn)等屬于大數(shù)據(jù)應(yīng)用。76.將觀測值分為相同數(shù)目的兩部分,當(dāng)統(tǒng)計(jì)結(jié)果為非對稱分布時經(jīng)常使用的是()。A、眾數(shù)B、標(biāo)準(zhǔn)差C、中位數(shù)D、均值【正確答案】:C解析:

中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。77.下列關(guān)于數(shù)據(jù)倉庫隨時間變化的描述不正確的是()。A、數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B、捕捉到的新數(shù)據(jù)會覆蓋原來的快照C、數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容D、數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合【正確答案】:C解析:

一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。78.數(shù)據(jù)管理成熟度模型中成熟度等級最高的是()。A、已優(yōu)化級B、已測量級C、已定義級D、已管理級【正確答案】:A解析:

已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級。79.下列關(guān)于數(shù)據(jù)產(chǎn)品開發(fā)關(guān)鍵環(huán)節(jié)的描述正確的是()。A、數(shù)據(jù)收集B、數(shù)據(jù)預(yù)處理C、數(shù)據(jù)學(xué)習(xí)D、數(shù)據(jù)加工【正確答案】:D解析:

數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)。80.下列不屬于視覺通道表現(xiàn)力評價指標(biāo)的是()。A、精確性B、可辨認(rèn)性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:

在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道表現(xiàn)力的評價指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。81.下列不能作為數(shù)據(jù)科學(xué)數(shù)據(jù)源的是()。A、醫(yī)院里的病歷、檢查、診斷等與健康相關(guān)的數(shù)據(jù)B、物聯(lián)網(wǎng)中涉及設(shè)備運(yùn)行情況的日志數(shù)據(jù)C、金融領(lǐng)域客戶的借款記錄以及信用情況D、個人電腦中用于備忘的日記【正確答案】:D解析:

數(shù)據(jù)科學(xué)數(shù)據(jù)源的前提條件是數(shù)據(jù)需要具備規(guī)律性、周期性等特征,個人電腦中用于備忘的日記一般不具備規(guī)律性。82.()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高。A、規(guī)模B、靈活性C、關(guān)聯(lián)度D、顆粒度【正確答案】:D解析:

顆粒度反映的是數(shù)據(jù)的精細(xì)化程度。83.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行()等處理的過程。A、更正B、刪除C、補(bǔ)充錄入D、以上答案都正確【正確答案】:D解析:

數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過程。84.下列關(guān)于等距離散化和等頻離散化的敘述不正確的是()。A、等距離散化是將連續(xù)型特征的取值區(qū)間均勻地劃分成多個區(qū)間段B、等距離散化對數(shù)據(jù)離群值不敏感C、等頻離散化考慮了區(qū)間段中的樣本個數(shù),使每個區(qū)間段的樣本數(shù)相同D、等頻離散化會將相似的樣本劃分到不同的區(qū)間【正確答案】:B解析:

等距離散化對數(shù)據(jù)離群值敏感。85.下列關(guān)于大數(shù)據(jù)的分析理念的說法錯誤的是()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追求效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)【正確答案】:D解析:

在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對數(shù)據(jù)而不是相對數(shù)據(jù)。86.數(shù)據(jù)使用環(huán)節(jié)的安全技術(shù)措施除防火墻、()、防病毒、防DDOS、漏洞檢測等網(wǎng)絡(luò)安全防護(hù)技術(shù)措施外,還需實(shí)現(xiàn)以下安全技術(shù)能力:賬號權(quán)限管理、數(shù)據(jù)安全域、數(shù)據(jù)脫敏、日志管理和審計(jì)、異常行為實(shí)時監(jiān)控和終端數(shù)據(jù)防泄漏。A、入侵檢測B、病毒檢測C、程序檢測D、進(jìn)程檢測【正確答案】:A解析:

數(shù)據(jù)使用環(huán)節(jié)的安全技術(shù)措施除防火墻、入侵檢測、防病毒、防DDOS、漏洞檢測等網(wǎng)絡(luò)安全防護(hù)技術(shù)措施外,還需實(shí)現(xiàn)以下安全技術(shù)能力:賬號權(quán)限管理、數(shù)據(jù)安全域、數(shù)據(jù)脫敏、日志管理和審計(jì)、異常行為實(shí)時監(jiān)控和終端數(shù)據(jù)防泄漏。87.下列關(guān)于數(shù)據(jù)創(chuàng)新的說法正確的是()。A、多個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加B、由于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、相同數(shù)據(jù)多次用于相同或類似用途,其有效性會降低D、數(shù)據(jù)只有開放價值才可以得到真正釋放【正確答案】:D解析:

略。88.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進(jìn)行預(yù)測,并且把這些算法的結(jié)果集成起來進(jìn)行最后的預(yù)測(集成學(xué)習(xí)),下列關(guān)于集成學(xué)習(xí)的說法正確的是()。A、單個模型之間具有高相關(guān)性B、單個模型之間具有低相關(guān)性C、在集成學(xué)習(xí)中使用平均權(quán)重而不是投票會比較好D、單個模型都用同一個算法【正確答案】:B解析:

集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型以期得到一個更好、更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個弱模型得到了錯誤的預(yù)測,其他的弱模型也可以將錯誤

糾正回來。某一個弱模型要有一定的準(zhǔn)確性,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個體學(xué)習(xí)器間具有差異。集成中既可包含同種類型的弱模型,也可包含不同類型的弱模型。89.2003年,Tableau在斯坦福大學(xué)誕生,它起源于一種改變數(shù)據(jù)使用方式的新技術(shù),即()A、VizQL語言B、SQL語言C、XSQL語言D、NewSQL語言【正確答案】:A解析:

VizQL是一種可視化查詢語言,可將拖放動作轉(zhuǎn)化為數(shù)據(jù)查詢,然后以可視化的形式表達(dá)數(shù)據(jù),是Tableau的起源。90.決定事務(wù)對數(shù)據(jù)對象加鎖后擁有何種控制權(quán)的是鎖的()。A、狀態(tài)B、類型C、數(shù)量D、屬性【正確答案】:B解析:

在2PL中,鎖的類型分為排他鎖和共享鎖等。91.從行為目的與思維方式看,下列屬于描述性統(tǒng)計(jì)分析的是()。A、線性回歸B、參數(shù)估計(jì)C、相關(guān)分析D、主成分分析【正確答案】:C解析:

描述性統(tǒng)計(jì)是指運(yùn)用制表和分類、圖形以及計(jì)算概括性數(shù)據(jù)來描述數(shù)據(jù)特征的各項(xiàng)活動。描述性統(tǒng)計(jì)分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析、分布、相關(guān)分析以及一些基本的統(tǒng)計(jì)圖形。92.常用的數(shù)據(jù)歸約方法可以分為()。A、維歸約、數(shù)據(jù)壓縮B、維歸約、參數(shù)歸約C、維歸約、值歸約D、數(shù)據(jù)壓縮、值歸約【正確答案】:C解析:

常用的數(shù)據(jù)歸約方法有維歸約和值歸約兩種。93.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)區(qū)別的是(A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問題,超出了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識,它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)中的計(jì)算一樣,僅僅是加減乘除【正確答案】:D解析:

數(shù)據(jù)科學(xué)中的計(jì)算并不僅僅是加/減/乘/除等數(shù)學(xué)計(jì)算,而是包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型的計(jì)算。94.下列關(guān)于數(shù)據(jù)交易市場的說法錯誤的是()。A、數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物B、商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場C、數(shù)據(jù)交易市場通過生產(chǎn)、研發(fā)和分析數(shù)據(jù),為數(shù)據(jù)交易提供幫助D、數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物【正確答案】:C解析:

數(shù)據(jù)交易市場不生產(chǎn)數(shù)據(jù)。95.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C、OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的【正確答案】:C解析:

OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時的增、刪、改、查,比如在銀行存取一筆款,就是一個事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的核心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動態(tài)報(bào)表系統(tǒng)。96.下列關(guān)于數(shù)據(jù)相關(guān)性的說法錯誤的是()。A、相關(guān)性體現(xiàn)了大數(shù)據(jù)的靈魂B、相關(guān)性思維實(shí)現(xiàn)了從“為什么”到“是什么”的思維轉(zhuǎn)變C、相關(guān)性關(guān)注事物的因果關(guān)系D、相關(guān)性關(guān)注事物的相關(guān)關(guān)系【正確答案】:C解析:

相關(guān)性是指兩個變量的關(guān)聯(lián)程度,可以有正相關(guān)、負(fù)相關(guān)、不相關(guān)。97.數(shù)據(jù)科學(xué)處于()三大領(lǐng)域的重疊之處。A、數(shù)學(xué)與統(tǒng)計(jì)知識、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識B、數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識C、數(shù)學(xué)與統(tǒng)計(jì)知識、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識D、數(shù)學(xué)與統(tǒng)計(jì)知識、黑客精神與技能、數(shù)據(jù)挖掘【正確答案】:A解析:

根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖(DataScienceVennDiagram),數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計(jì)知識、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識等三大領(lǐng)域的交叉之處。98.集群的最主要“瓶頸”通常是()。A、CPUB、網(wǎng)絡(luò)C、磁盤I/OD、內(nèi)存【正確答案】:C解析:

磁盤I/O是不可擴(kuò)充的,其他的可以擴(kuò)充。99.異常檢測中,檢測一元正態(tài)分布中的離群點(diǎn)基于的技術(shù)是()。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】:A解析:

略。100.下列描述中不屬于規(guī)整數(shù)據(jù)(TidyData)三個基本原則的是()。A、每一類觀察單元構(gòu)成一個關(guān)系(表)B、每個觀察占且僅占一行C、每個變量占且僅占一列D、每個觀察占且僅占一個關(guān)系(表)【正確答案】:D解析:

tidyData原則為每列代表一個單獨(dú)變量、每行代表單個觀察值、每種觀察形成一個表格。1.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的有()。A、深度優(yōu)先遇歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略E、大站優(yōu)先策略【正確答案】:AB解析:

在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。2.以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)方面有()。A、數(shù)據(jù)驅(qū)動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:

以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的以數(shù)據(jù)中心的特征不僅體現(xiàn)在以數(shù)據(jù)為核心生產(chǎn)要素,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動、數(shù)據(jù)密集和數(shù)據(jù)范式。3.下列關(guān)于單樣本:檢驗(yàn)的說法錯誤的有()。A、當(dāng)單樣本t檢驗(yàn)的自由度越來越大時,正態(tài)分布越來越趨向于t分布B、單樣本t檢驗(yàn)適用于樣本量比較多(n>30)的情況C、t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量比較小D、單樣本t檢驗(yàn)通常也被叫作學(xué)生t檢驗(yàn)【正確答案】:ABC解析:

t檢驗(yàn),也稱studentt檢驗(yàn)(Student'sttest),主要用于樣本含量較?。ɡ鏽<30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布。t檢驗(yàn)是用1分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。4.下列關(guān)于隨機(jī)變量及其概率分布的說法正確的有()。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個隨機(jī)變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:

扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。5.在數(shù)據(jù)科學(xué)中,通??梢圆捎茫ǎ┯行П苊鈹?shù)據(jù)加工和數(shù)據(jù)備份的偏見。A/B測試B、訓(xùn)練集和測試集的劃分C、測試集和驗(yàn)證集的劃分D、圖靈測試【正確答案】:A解析:

A/B測試是一種對比試驗(yàn),準(zhǔn)確說是一種分離式組間試驗(yàn),在試驗(yàn)過程中,我們從總體中隨機(jī)抽取一些樣本進(jìn)行數(shù)據(jù)統(tǒng)計(jì),進(jìn)而得出對總體參數(shù)的多個評估。A/B測試能有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見,對算法/模型選擇偏見具有重要借鑒意義。6.下列關(guān)于總體和樣本的說法正確的有()。A、總體也就是研究對象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機(jī)抽樣D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級的100名學(xué)生【正確答案】:ABC解析:

小學(xué)包括多個年級,樣本沒有代表性。7.完整性約束通常包括()。.A、實(shí)體完整性B、域完整性C、參照完整性D、用戶定義完整性【正確答案】:ABCD解析:

在關(guān)系數(shù)據(jù)庫中,完整性約束通常包括:①實(shí)體完整性:規(guī)定表的每一行在關(guān)系表中是唯一的實(shí)體。②域完整性:指關(guān)系表中的列必須滿足某種特定的數(shù)據(jù)類型約束,其中約束又包括取值范圍、精度等規(guī)定。③參照完整性:指兩個關(guān)系表的主關(guān)鍵字和外關(guān)鍵字的數(shù)據(jù)應(yīng)一致,保證了表之間的數(shù)據(jù)的一致性,防止了數(shù)據(jù)丟失或無意義的數(shù)據(jù)在數(shù)據(jù)庫中擴(kuò)散。④用戶定義的完整性:不同的關(guān)系數(shù)據(jù)庫系統(tǒng)根據(jù)其應(yīng)用環(huán)境的不同,往往還需要一些特殊的約束條件。用戶定義的完整性即針對某個特定關(guān)系數(shù)據(jù)庫的約束條件,它反映某一具體應(yīng)用必須滿足的語義要求。8.噪聲是指測量變量中的隨機(jī)錯誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)形式有()。A、錯誤數(shù)據(jù)B、假數(shù)據(jù)C、異常數(shù)據(jù)D、僵尸數(shù)據(jù)【正確答案】:ABC解析:

錯誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測量變量中多被定義為噪聲。9.下列屬于大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)的方面有()。A、具有勞動增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權(quán)屬、具有財(cái)務(wù)價值、涉及道德與倫理。10.下列說法中正確的有()。A、云計(jì)算的主要特點(diǎn)是非常昂貴B、大數(shù)據(jù)是多源、異構(gòu)、動態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對象之一D、MapReduce是采用云計(jì)算這種新的計(jì)算模式研發(fā)出的具體工具軟件(或算法)【正確答案】:BCD解析:

云計(jì)算的一個重要優(yōu)勢在于其經(jīng)濟(jì)性。與其他計(jì)算模式不同的是,云計(jì)算的出發(fā)點(diǎn)是如何使用成本低的商用機(jī)(而不是成本很高的高性能服務(wù)器)實(shí)現(xiàn)強(qiáng)大的計(jì)算能力。11.主要面向或關(guān)注過去的數(shù)據(jù)分析過程有()。A、描述性分析B、診斷性分析C、預(yù)測性分析D、規(guī)范性分析【正確答案】:AB解析:

Gartner分析學(xué)價值扶梯模型認(rèn)為,從復(fù)雜度及價值高低兩個維度,可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析四種,其中描述性分析和診斷性分析關(guān)注和面向的是過去的時間點(diǎn)。12.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:

數(shù)據(jù)的全壽命周期有獲?。óa(chǎn)生)、存儲、共享、維護(hù)、應(yīng)用(使用)、消亡(銷毀),在以上這些過程都會有數(shù)據(jù)傳輸過程。13.下列屬于卷積神經(jīng)網(wǎng)絡(luò)組成部分的有()。A、卷積層B、中間層C、池化層D、全連接層【正確答案】:ACD解析:

卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。14.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說法正確的有()。A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對比B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點(diǎn)圖、箱型圖等C、在探索型數(shù)據(jù)分析時應(yīng)該盡量避免使用餅圖,然而在數(shù)據(jù)報(bào)告中可以使用餅圖達(dá)到更加美觀的效果D、直方圖和箱型圖都可以用來展示數(shù)據(jù)的分布情況【正確答案】:BCD解析:

數(shù)據(jù)之間的特征和對比使用條形圖可更加直觀地展示數(shù)據(jù)。15.下列為傳統(tǒng)RDBMS缺點(diǎn)的有()。A、表結(jié)構(gòu)schema擴(kuò)展不方便B、全文搜索功能較弱C、大數(shù)據(jù)場景下I/O較高D、存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱【正確答案】:ABCD解析:

傳統(tǒng)RDBMS的缺點(diǎn)包括表結(jié)構(gòu)schema擴(kuò)展不方便、全文搜索功能較弱、大數(shù)據(jù)場景下I/O較高、存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱。16.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)算法有()。A、k近鄰B、邏輯回歸C、決策樹D、線性回歸【正確答案】:AC解析:

邏輯回歸只用于分類,線性回歸只用于回歸。17.在建立模型時,需要用到的數(shù)據(jù)有()。A、訓(xùn)練數(shù)據(jù)B、測試數(shù)據(jù)C、原始數(shù)據(jù)D、驗(yàn)證數(shù)據(jù)【正確答案】:ABD解析:

在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測試集和驗(yàn)證集。18.ETL包含的過程有()。A、數(shù)據(jù)抽取B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)加載D、數(shù)據(jù)展現(xiàn)【正確答案】:ABC解析:

ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取tract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。19.下列描述中正確的有()。A、統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語言是統(tǒng)計(jì)學(xué)家發(fā)明的語言C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個分支領(lǐng)域(子學(xué)科)【正確答案】:AC解析:

Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計(jì)學(xué)家;數(shù)據(jù)科學(xué)是一門獨(dú)立學(xué)科,已經(jīng)超出了統(tǒng)計(jì)學(xué)一個學(xué)科的研究范疇,并非為統(tǒng)計(jì)學(xué)的一個分支。20.區(qū)塊鏈?zhǔn)牵ǎ┑扔?jì)算機(jī)技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲B、點(diǎn)對點(diǎn)傳輸C、共識機(jī)制D、加密算法【正確答案】:ABCD解析:

區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲、點(diǎn)對點(diǎn)傳輸、共識機(jī)制、加密算法等計(jì)算機(jī)技術(shù)的新型應(yīng)用模式。21.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點(diǎn)包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡單處理的效率高D、產(chǎn)品成熟度高【正確答案】:ABD解析:

略。22.數(shù)據(jù)科學(xué)以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對象,主要研究內(nèi)容包括()。A、數(shù)據(jù)加工B、數(shù)據(jù)管理C、數(shù)據(jù)計(jì)算D、數(shù)據(jù)產(chǎn)品開發(fā)【正確答案】:ABCD解析:

數(shù)據(jù)科學(xué)是一門以數(shù)據(jù),尤其是大數(shù)據(jù)為研究對象,并以數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等為理論基礎(chǔ),主要研究數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算、數(shù)據(jù)產(chǎn)品開發(fā)等活動的交叉性學(xué)科。23.下列關(guān)于CAP理論說法正確的有()。A、一個分布式系統(tǒng)不能同時滿足一致性、可用性和分區(qū)容錯性等需求B、一致性主要指強(qiáng)一致性C、一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭取)可能導(dǎo)致另一特征的損失(放棄)D、可用性指每個操作總是在給定時間之內(nèi)得到返回所需要的結(jié)果【正確答案】:ABCD解析:

CAP理論認(rèn)為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用(Availability)和分區(qū)容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭取)可能導(dǎo)致另一個特征的損失(放棄)。24.常用的數(shù)據(jù)審計(jì)方法可以分為()。A、預(yù)定義審計(jì)B、自定義審計(jì)C、可視化審計(jì)D、結(jié)構(gòu)化審計(jì)【正確答案】:ABC解析:

常用的數(shù)據(jù)審計(jì)方法有預(yù)定義審計(jì)、自定義審計(jì)和可視化審計(jì)三種。25.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為偽,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、a錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:

a錯誤(棄真錯誤):當(dāng)原假設(shè)為真時,但我們錯誤地認(rèn)為“原偶的”,進(jìn)而導(dǎo)致拒絕這個正確假設(shè);β錯誤(取偽錯誤):當(dāng)原假設(shè)為假時,但我們錯誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯誤假設(shè)。26.可視分析學(xué)的特點(diǎn)包含()。A、強(qiáng)調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程B、強(qiáng)調(diào)可視化分析與自動化建模之間的相互作用C、強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強(qiáng)調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、強(qiáng)調(diào)人機(jī)交互的重要性【正確答案】:ABCDE解析:

從可視分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點(diǎn):①強(qiáng)調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程??梢暬治鰧W(xué)中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化-數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識,而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識的轉(zhuǎn)換途徑有可視化分析和自動化建模兩種。②強(qiáng)調(diào)可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進(jìn)的依據(jù);另一方面,數(shù)據(jù)建模也可以支持?jǐn)?shù)據(jù)可視化活動,為更好地實(shí)現(xiàn)用戶交互提供參考。③強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識轉(zhuǎn)換的兩種途徑-可視化分析與自動化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實(shí)現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實(shí)現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯誤,進(jìn)而提升可視化操作的信度與效度。④強(qiáng)調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進(jìn)行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動的質(zhì)量將影響數(shù)據(jù)可視化效果。⑤強(qiáng)調(diào)人機(jī)交互的重要性。可視化過程往往涉及人機(jī)交互操作,需要重視人與計(jì)算機(jī)在數(shù)據(jù)可視化工作中的互補(bǔ)性優(yōu)勢。因此,人機(jī)交互以及人機(jī)協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實(shí)踐的重要手段。27.Analytics1.0的主要特點(diǎn)有()。A、分析活動滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】:ABCD解析:

著名管理學(xué)家Thomas·H·Davemport于2013年在《哈佛商業(yè)論壇(HarvaBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的法、技術(shù)和工具-分析學(xué)(Analytics)分為三個不同時代-商務(wù)智能時代、大數(shù)據(jù)時代數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商智能時代(1950~2000年),Analytics1.0中常用的工具軟件為數(shù)據(jù)倉庫及商務(wù)智能類軟件,般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點(diǎn)有分析活動滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。28.數(shù)據(jù)科學(xué)項(xiàng)目主要涉及的活動包括()。A、模式/模型的應(yīng)用及維護(hù)B、模式/模型的洞見C、結(jié)果的可視化與文檔化D、模式/模型的驗(yàn)證和優(yōu)化【正確答案】:ABCD解析:

數(shù)據(jù)科學(xué)項(xiàng)目是由從項(xiàng)目目標(biāo)的定義到模式/模型的應(yīng)用及維護(hù)的一系列雙向互聯(lián)的互動鏈條組成的循序漸進(jìn)的過程,主要涉及的活動包括項(xiàng)目目標(biāo)的定義、數(shù)據(jù)的獲得與管理、模式/模型29.下列描述中屬于Analytics2.0主要特點(diǎn)的有()。A、側(cè)重嵌入式分析B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析C、以決策支持為主要目的D、注重解釋性分析和預(yù)測性分析【正確答案】:BCD解析:

著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具-分析學(xué)(Analytics)分為三個不同時代-商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics2.0的主要特點(diǎn)有分析活動與數(shù)據(jù)的生成幾乎同步,強(qiáng)調(diào)數(shù)據(jù)分析的實(shí)時性;重視非結(jié)構(gòu)化數(shù)據(jù)的分析;以決策支持為主要目的;注重解釋性分析和預(yù)測性分析。30.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包含的元素有()。A、關(guān)鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成。31.下列關(guān)于數(shù)據(jù)科學(xué)中常用統(tǒng)計(jì)學(xué)知識的說法錯誤的有()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)C、描述統(tǒng)計(jì)可分為集中趨勢分析、離散趨勢分析、參數(shù)估計(jì)和假設(shè)檢驗(yàn)D、推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:

從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法包括描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計(jì)可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面內(nèi)容。32.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化-從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:

Goolge于2003~2008年間發(fā)表的3篇論文在云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,被稱為Google云計(jì)算三大技術(shù)或三大論文:①GFS論文--GhemawatS,GobiofH.LeungST.TheGooglefilesystem[C].ACMSIGOPSoperatingsystemsreview.ACM,2003,37(5);29-43.;②MapReduce論文DeanJ,GhemawatS.MapReduce:simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113.;③Bigtable論文--ChangF.DeanJ,GhemawatS,etal.Bigtable:Adistributedstoragesystemforstructureddata[].ACMTransactionsonComputerSystems(TOCS),2008,26(2):4.。33.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運(yùn)用()等技術(shù)等多個學(xué)科領(lǐng)域的知識,以實(shí)現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的的分析推理學(xué)科。A、物理學(xué)B、圖形學(xué)C、數(shù)據(jù)挖掘D、人機(jī)交互【正確答案】:BCD解析:

可視分析學(xué)(VisualAnalytics);科學(xué)可視化和信息可視化理論的進(jìn)一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中,通常采用數(shù)據(jù)可視化的廣義定義方法,并以可視分析學(xué)為主要理論基礎(chǔ)。34.NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲【正確答案】:ABCD解析:

NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、存儲。35.大數(shù)據(jù)偏見包括()。A、數(shù)據(jù)源的選擇偏見B、算法與模型偏見C、結(jié)果解讀方法的偏見D、數(shù)據(jù)呈現(xiàn)方式的偏見【正確答案】:ABCD解析:

大數(shù)據(jù)偏見是數(shù)據(jù)科學(xué)項(xiàng)目中必須關(guān)注和加以避免的問題,上述四個活動中均可能出現(xiàn)偏見。36.算法“歧視”現(xiàn)象可能出現(xiàn)的過程有()。A、算法設(shè)計(jì)B、算法實(shí)現(xiàn)C、算法投入使用D、算法驗(yàn)證【正確答案】:ABC解析:

算法歧視是指算法設(shè)計(jì)、實(shí)現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。37.數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括()。A、精確性B、可辨認(rèn)性C、可分離性D、視覺突出性【正確答案】:ABCD解析:

在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。評價指標(biāo)描述如下:①精確性代表的是人類感知系統(tǒng)對于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性。②可辨認(rèn)性是指視覺通道的可辨認(rèn)度。③可分離性是指同一個視覺圖形元素的不同視覺通道的表現(xiàn)力之間應(yīng)具備一定的獨(dú)立性。④視覺突出性是指視覺編碼結(jié)果能否在很短的時間內(nèi)(如毫秒級)能夠迅速準(zhǔn)確表達(dá)出可視化編碼的主要意圖。38.特征工程一般需要做的工作包含()。A、正則化B、標(biāo)準(zhǔn)化C、特征處理D、特征選擇【正確答案】:CD解析:

特征工程包括特征選擇、特征處理、特征變換、特征衍生等。39.分布式列式存儲的功能有()。A、支持在線快速讀寫B(tài)、支持線性擴(kuò)展C、具備節(jié)點(diǎn)監(jiān)控管理D、數(shù)據(jù)同源不壓縮【正確答案】:ABC解析:

分布式列式存儲的功能包括數(shù)據(jù)壓縮。40.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:

DGI(TheDataGovemanceInstitute)認(rèn)為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。41.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠()。A、直觀反映成對數(shù)據(jù)之間的空間關(guān)系B、直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、靜態(tài)演化事物的變化及變化的規(guī)律D、動態(tài)演化事物的變化及變化的規(guī)律E、提供高性能并行計(jì)算技術(shù)的強(qiáng)力支撐【正確答案】:BD解析:

可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動態(tài)演化事物的變化及變化的規(guī)律。42.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),下列關(guān)于零假設(shè)和備擇假設(shè)的描述正確的有()。A、零假設(shè)是只有出現(xiàn)的概率大于閾值才會被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率大于閾值才會被承認(rèn)的B、零假設(shè)是希望推翻的結(jié)論;備擇假設(shè)是希望證明的結(jié)論C、零假設(shè)是只有出現(xiàn)的概率小于閾值才會被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率小于閾值才會被承認(rèn)的D、零假設(shè)是希望證明的結(jié)論;備擇假設(shè)是希望推翻的結(jié)論【正確答案】:BC解析:

略43.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則有()。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:

數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗(yàn)式講述原則、個性化定制原則、有效性利用原則、3C精神原則。44.下列關(guān)于數(shù)據(jù)產(chǎn)品研發(fā)的說法錯誤的有()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題C、二次數(shù)據(jù)是對一次數(shù)據(jù)進(jìn)行深度處理或分析后得到的增值數(shù)據(jù)D、三次數(shù)據(jù)是對二次數(shù)據(jù)進(jìn)行洞察與分析后得到的、可以直接用于決策支持的洞見數(shù)據(jù)【正確答案】:ABD解析:

二次數(shù)據(jù)是一種按照信息的生產(chǎn)過程和加工深度進(jìn)行對信息進(jìn)行分類的,是指根據(jù)特定的需求,對一次信息進(jìn)行加工、分析、改編、重組、綜合概括生成的信息。45.大數(shù)據(jù)處理流程可以概括為()。A、數(shù)據(jù)分析與挖掘B、數(shù)據(jù)采集C、數(shù)據(jù)儲存D、結(jié)果展示【正確答案】:ABCD解析:

算法歧視是指算法設(shè)計(jì)、實(shí)現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。

6.?dāng)?shù)據(jù)增值存在的過程有()。

A.數(shù)據(jù)對象的封裝

B.數(shù)據(jù)系統(tǒng)的研發(fā)

C.數(shù)據(jù)的集成應(yīng)用

D.基于數(shù)據(jù)的創(chuàng)新

參考【正確答案】:ABCD

解析:數(shù)據(jù)對象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進(jìn)行數(shù)據(jù)增值。

7.大數(shù)據(jù)參考架構(gòu)的三個層次包含()。

A.角色

B.活動

C.邏輯構(gòu)件

D.功能組件

參考【正確答案】:ABD

解析:GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系。

8.分布式列式存儲的功能有()。

A.支持在線快速讀寫

B.支持線性擴(kuò)展

C.具備節(jié)點(diǎn)監(jiān)控管理

D.數(shù)據(jù)同源不壓縮

參考【正確答案】:ABC

解析:分布式列式存儲的功能包括數(shù)據(jù)壓縮。

9.下列關(guān)于現(xiàn)階段大數(shù)據(jù)46.參數(shù)估計(jì)可以分為()。A、點(diǎn)估計(jì)B、一致估計(jì)C、區(qū)間估計(jì)D、無偏估計(jì)【正確答案】:AC解析:

參數(shù)估計(jì)可以分為點(diǎn)估計(jì)、區(qū)間估計(jì)。47.下列關(guān)于單樣本Z檢驗(yàn)的說法正確的有()。A、在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp()實(shí)現(xiàn)B、單樣本Z檢驗(yàn)適用于樣本量較大的情況C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個常量【正確答案】:BCD解析:

在Python中,單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。48.假設(shè)一個隨機(jī)變量服從正態(tài)分布,則與隨機(jī)變量的概率分布有關(guān)的有()。A、眾數(shù)B、頻數(shù)C、平均值D、方差【正確答案】:CD解析:

正態(tài)分布一般用均值和方差來刻畫。49.使用極大似然估計(jì)的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集C、提前已知某先驗(yàn)概率D、數(shù)據(jù)集各個屬性相對獨(dú)立【正確答案】:AB解析:

極大似然估計(jì)(MLE)要求樣本獨(dú)立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實(shí)的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。50.異常值的檢測方法有()。A、直接通過數(shù)據(jù)可視化進(jìn)行觀察B、通過統(tǒng)計(jì)分布進(jìn)行判斷C、通過相對距離進(jìn)行度量D、通過相對密度進(jìn)行度量【正確答案】:ABCD解析:

異常值的檢測方法有直接通過數(shù)據(jù)可視化進(jìn)行觀察、通過統(tǒng)計(jì)分布進(jìn)行判斷、通過相對距離進(jìn)行度量、通過相對密度進(jìn)行度量。51.下列為離散型變量的有()。A、示波器B、心電圖及腦動電圖掃描器對腦電波的測量C、過去數(shù)月的總銷售額D、公司每年的紅利【正確答案】:CD解析:

在統(tǒng)計(jì)學(xué)中,變量按其數(shù)值表現(xiàn)是否連續(xù),分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量,如職工人數(shù)、工廠數(shù)、機(jī)器臺數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值,即可以把它們當(dāng)做離散變量來看待。例如年齡、評定成績等雖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論