大數(shù)據(jù)理論考試復(fù)習(xí)題庫大全-下(多選、判斷題部分)_第1頁
大數(shù)據(jù)理論考試復(fù)習(xí)題庫大全-下(多選、判斷題部分)_第2頁
大數(shù)據(jù)理論考試復(fù)習(xí)題庫大全-下(多選、判斷題部分)_第3頁
大數(shù)據(jù)理論考試復(fù)習(xí)題庫大全-下(多選、判斷題部分)_第4頁
大數(shù)據(jù)理論考試復(fù)習(xí)題庫大全-下(多選、判斷題部分)_第5頁
已閱讀5頁,還剩173頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PAGEPAGE1大數(shù)據(jù)理論考試復(fù)習(xí)題庫大全-下(多選、判斷題部分)多選題1.下列關(guān)于PCA說法正確的是()。A、在使用PC之前,我們必須標(biāo)準化數(shù)據(jù)B、應(yīng)該選擇具有最大方差的主成分C、應(yīng)該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)答案:ABD解析:PCA對數(shù)據(jù)中變量的尺度非常敏感,因此需要對各個變量進行標(biāo)準化。方差越大,說明在該特征上分布越廣泛,說明該特征越有用,影響越大。PCA有時在較低維度上繪制數(shù)據(jù)是非常有用,可以提取前2個主要組成部分,在二維平面上使用散點圖可視化數(shù)據(jù)。2.以下有關(guān)特征數(shù)據(jù)歸一化的說法正確的是()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處答案:ABD解析:歸一化方法比較適用在數(shù)值比較集中的情況。這種方法有個缺陷,如果max和min不穩(wěn)定,很容易使得歸一化結(jié)果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實際使用中可以用經(jīng)驗常量值來替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小。3.Spark的部署模式包括()。A、本地模式B、standalone模式C、SparkonyarnD、mesos模式答案:ABCD解析:spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置standalone模式運行。4.RNN在NLP領(lǐng)域的應(yīng)用包括(__)。A、語言模型與文本生成B、機器翻譯C、語音識別D、圖像描述生答案:ABCD解析:語言模型與文本生成;機器翻譯;語音識別;圖像描述生成;情感分析;對話系統(tǒng)等。5.假設(shè)檢驗中,首先需要提出零假設(shè)和備擇假設(shè),零假設(shè)是(),備擇假設(shè)是()。A、只有出現(xiàn)的概率大于閾值才會被拒絕的,只有零假設(shè)出現(xiàn)的概率大于閾值才會被承認的B、希望推翻的結(jié)論,希望證明的結(jié)論C、只有出現(xiàn)的概率小于閾值才會被拒絕的,只有零假設(shè)出現(xiàn)的概率小于閾值才會被承認的D、希望證明的結(jié)論,希望推翻的結(jié)論答案:BC解析:略6.以下屬于頻率域圖像濾波的方法有()。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾答案:CD解析:頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。7.關(guān)于總體和樣本的說法,正確的是:A、總體也就是研究對象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10秒抽取的產(chǎn)品C、樣本是從總體的隨機抽樣D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級的100名學(xué)生答案:ABC解析:小學(xué)包括多個年級,樣本沒有代表性。8.以下選項中,屬于MapReduce特征的有()。A、以主從結(jié)構(gòu)的形式運行B、容錯機制的復(fù)雜性C、任務(wù)備份機制的必要性D、數(shù)據(jù)存儲位置固定答案:ABC解析:數(shù)據(jù)存儲位置具有多樣性,并非固定,所以D錯。9.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關(guān)模式D、對異常數(shù)據(jù)項敏答案:AD解析:非頻繁模式,是一個項集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及到數(shù)據(jù)中的負相關(guān)時。它對異常數(shù)據(jù)項敏感。10.下面對LDA判別分析的思想描述正確的是()。A、同類樣例的投影點盡可能近B、異類樣例的投影點盡可能遠C、同類樣例的投影點盡可能遠D、異類樣例的投影點盡可能答案:AB解析:LDA的思想非常樸素:給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據(jù)投影點的位置來確定新樣本的類別。11.以下關(guān)于MapReduce1.0版本說法正確的是()。A、擴展性差B、可靠性差C、資源利用率低D、無法支持多種計算框答案:ABCD解析:MRv1存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架12.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面作()。A、能夠直觀反映成對數(shù)據(jù)之間的空間關(guān)系B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、能夠靜態(tài)演化事物的變化及變化的規(guī)律D、能夠動態(tài)演化事物的變化及變化的規(guī)律E、提供高性能并行計算技術(shù)的強力支撐答案:BD解析:可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,動態(tài)演化事物的變化及變化的規(guī)律。13.下列關(guān)于EM算法描述正確的是(__)。A、EM算法是常用的估計參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學(xué)習(xí)高斯混合模型的參數(shù)D、EM算法是一種迭代式的方答案:ABCD解析:EM算法即是期望最大化算法,是迭代式的方法,是估計參數(shù)隱變量的利器,常被用來學(xué)習(xí)高斯混合模型的參數(shù)。14.屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強模型的泛化能力答案:BCD解析:特征選擇無法克服模型自身的缺陷,二者是獨立的。15.下面哪些是spark比Mapreduce計算快的原因()。A、基于內(nèi)存的計算;B、基于DAG的調(diào)度框架;C、基于Lineage的容錯機制;D、基于分布式計算的框架;答案:ABC解析:Spark比Mapreduce計算快的原因包括基于內(nèi)存計算;使用基于Lineage的容錯機制和基于DAG的調(diào)度框架。16.回歸分析有很多種類,常見的有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回答案:ACD解析:常見的回歸分析有線性回歸,邏輯回歸和曲線回歸。17.算法“歧視”現(xiàn)象可能出現(xiàn)在()。A、算法設(shè)計B、算法實現(xiàn)C、算法投入使用D、算法驗證答案:ABC解析:算法歧視是指算法設(shè)計、實現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。18.在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此剔除的異常值和缺失值,要采用合理的方法進行填補,常用的方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計E、多重插補法答案:ABCDE解析:在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此剔除的異常值和缺失值,要采用合理的方法進行填補,常用的方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計、多重插補法。19.數(shù)據(jù)管理指對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進行()等一系列管理活動,并通過改善和提高組織的管理水平是的數(shù)據(jù)質(zhì)量獲得進一步提高。A、識別B、度量C、監(jiān)控D、預(yù)答案:ABCD解析:數(shù)據(jù)管理是指對數(shù)據(jù)進行識別,度量,監(jiān)控以及預(yù)警的一系列管理活動。20.在數(shù)據(jù)科學(xué)中,通??梢圆捎茫ǎ┓椒ㄓ行П苊鈹?shù)據(jù)加工和數(shù)據(jù)備份的偏見。A、B測試B、訓(xùn)練集和測試集的劃分C、測試集和驗證集的劃分D、圖靈測答案:A解析:A/B測試是一種對比試驗,準確說是一種分離式組間試驗,在試驗過程中,我們從總體中隨機抽取一些樣本進行數(shù)據(jù)統(tǒng)計,進而得出對總體參數(shù)的多個評估。A/B測試有效避免數(shù)據(jù)加工和準備偏見以及算法/模型選擇偏見具有重要借鑒意義。21.以下哪些濾波器能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點的系數(shù)降至0附近()。A、同態(tài)濾波B、高斯濾波C、巴特沃斯濾波D、中值濾答案:BC解析:圖像處理基礎(chǔ)知識。22.下列關(guān)于AUC面積描述正確的是()。A、C被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AU于0.5時,則真實性最低,無應(yīng)用價值D、AUC越接近1.0,檢測方法真實性越答案:ACD解析:AUC面積的值小于等于1。23.關(guān)于數(shù)據(jù)流轉(zhuǎn)和應(yīng)用,以下說法正確的是()。A、數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確??勺匪?、可復(fù)查B、前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實、完整C、前序環(huán)節(jié)應(yīng)及時傳遞到后序環(huán)節(jié)D、前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致答案:ABCD解析:數(shù)據(jù)流轉(zhuǎn)和應(yīng)用主要包括可追溯、復(fù)查,數(shù)據(jù)真實、完整,環(huán)節(jié)銜接完整,環(huán)節(jié)銜接數(shù)據(jù)一致。24.Analytics1.0的主要特點有()。A、分析活動滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析答案:ABCD解析:著名管理學(xué)家ThomasH.Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具——分析學(xué)(Analytics)分為三個不同時代——商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0.其中,Analytics1.0:商務(wù)智能時代(1950~2000)的主要數(shù)據(jù)分析技術(shù)、方法和工具。Analytics1.0中常用的工具軟件為數(shù)據(jù)倉庫及商務(wù)智能類軟件,一般由數(shù)據(jù)分析師或商務(wù)智能分析師負責(zé)完成。Analytics1.0的主要特點有:分析活動滯后于數(shù)據(jù)的生成;重視結(jié)構(gòu)化數(shù)據(jù)的分析;以對歷史數(shù)據(jù)的理解;重視描述性分析。25.Hadoop組件Flume三層架構(gòu)包括()。A、entB、GossipC、llectorD、Storage答案:ACD解析:Flume采用了三層架構(gòu),分別為agent,collector和storage,每一層均可以水平擴展。agent用于采集數(shù)據(jù),agent是flume中存儲數(shù)據(jù)流的地方,同時agent會將產(chǎn)生的數(shù)據(jù)傳輸?shù)絚ollector;Collector的作用是堅多個agent的數(shù)據(jù)匯總后,加載到storage中,多個collector之間遵循負載均衡規(guī)則;Storage是存儲系統(tǒng),可以是一個普通file,也可以是HDFS,HIVE,Hbase等。26.決策樹()情況下會導(dǎo)致遞歸返回。A、當(dāng)前節(jié)點包含的樣本全屬于同一類B、當(dāng)前屬性集為空C、當(dāng)前節(jié)點包含的樣本集合為空D、所有樣本在所有屬性上取值相答案:ABCD解析:決策樹的生成是一個遞歸過程.在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:(1)當(dāng)前結(jié)點包含的樣本全屬于同一類別,無需劃分;(2)當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;(3)當(dāng)前結(jié)點包含的樣本集合為空,不能劃分.27.特征選擇的目的:()。A、減少特征數(shù)量、降維B、使模型泛化能力更強C、增強模型擬合能力D、減少過擬合答案:ABD解析:特征選擇的主要目的是:減少特征的數(shù)量,降低特征維度,使模型泛化能力更強,減少過擬合。28.下面對范數(shù)規(guī)則化描述正確的是()。A、L0是指向量中0的元素的個數(shù)B、L1范數(shù)是指向量中各個元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、L0是指向量中非0的元素的個答案:BCD解析:L0是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。29.Spark容錯性的方式有哪些()。A、數(shù)據(jù)檢查點;B、存儲原始數(shù)據(jù);C、記錄數(shù)據(jù)的更新;D、自建數(shù)據(jù)版本;答案:AC解析:Spark容錯性有兩種方式數(shù)據(jù)檢查點和記錄數(shù)據(jù)的更新。30.以下屬于關(guān)鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LD答案:ABCD解析:關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。31.Hadoop生態(tài)系統(tǒng)中,核心是()。A、FlumeB、MapReduceC、PigD、HS答案:BD解析:Hadoop的框架最核心的設(shè)計就是HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。32.使用極大似然估計的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分數(shù)據(jù)集C、提前已知某先驗概率D、數(shù)據(jù)集各個屬性相對獨立答案:AB解析:樣本獨立同分布否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。33.常見的聚類性能度量外部指標(biāo)有()。A、Jaccard系數(shù)B、D數(shù)C、FM指數(shù)D、以上答案都正答案:AC解析:聚類常用的外部指標(biāo)包括:Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括:DB指數(shù)、Dunn指數(shù)。34.大數(shù)據(jù)偏見包括()A、數(shù)據(jù)源的選擇偏見B、算法與模型偏見C、結(jié)果解讀方法的偏見D、數(shù)據(jù)呈現(xiàn)方式的偏答案:ABCD解析:大數(shù)據(jù)偏見是數(shù)據(jù)科學(xué)項目中必須關(guān)注和加以避免的問題,上述四個活動中均可能出現(xiàn)偏見。35.Flume特點包括()。A、分布式B、高可靠C、高容錯D、易于定制和擴展答案:ABCD解析:Flume的特點包括分布式、高可靠、高容錯、易于定制和擴展。36.關(guān)于Pig的說法正確的是()。A、Pig的主要目的是彌補MapReduce編程的復(fù)雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結(jié)構(gòu)適合于串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部答案:ABD解析:Pig程序的結(jié)構(gòu)適合于并行處理。37.下列關(guān)于詞袋模型說法正確的是()。A、詞袋模型可以忽略每個詞出現(xiàn)的順序B、詞袋模型不可以忽略每個詞出現(xiàn)的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關(guān)答案:AC解析:詞袋模型的缺點之一就是不考慮詞語的順序關(guān)系,因此AC錯誤。38.語音識別的方法包括()。A、聲道模型方法B、模板匹配的方法C、利用仍神經(jīng)網(wǎng)絡(luò)的方法D、語音知識方答案:ABCD解析:一般來說,語音識別的方法有:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。39.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力,如下屬于分布式存儲組件的有()。A、MRB、SparkC、HDFSD、Hbas答案:CD解析:MR和Spark的核心功能是分布式計算。40.在正則化公式中,λ為正則化參數(shù),關(guān)于λ描述正確的是()。A、若正則化參數(shù)λ過大,可能會導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若λ的值太大,則梯度下降可能不收斂C、取一個合理的λ值,可以更好的應(yīng)用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小答案:ABCD解析:正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。41.隨機森林的隨機性主要體現(xiàn)在()。A、決策樹選擇的隨機性B、數(shù)據(jù)集的隨機性C、待選特征的隨機性D、參數(shù)選擇的隨機性答案:BC解析:隨機森林算法的隨機性主要體現(xiàn)在以下兩個方面:子模型的訓(xùn)練樣本是隨機抽取的、子模型的特征變量也是隨機抽取的。42.Apriori算法的計算復(fù)雜度受()影響。A、支持度閥值B、項數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬答案:ABCD解析:Apriori算法的計算復(fù)雜度受A.支持度閥值、項數(shù)(維度)、事務(wù)數(shù)、事務(wù)平均寬度影響。43.在建立模型時,需要用到()。A、訓(xùn)練數(shù)據(jù)B、測試數(shù)據(jù)C、原始數(shù)據(jù)D、驗證數(shù)據(jù)答案:ABD解析:在機器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測試集和驗證集。44.數(shù)據(jù)增值存在于哪些過程中()。A、數(shù)據(jù)對象的封裝B、數(shù)據(jù)系統(tǒng)的研發(fā)C、數(shù)據(jù)的集成應(yīng)用D、基于數(shù)據(jù)的創(chuàng)新答案:ABCD解析:數(shù)據(jù)對象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進行數(shù)據(jù)增值。45.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分。A、卷積層B、中間層C、池化層D、全連接層答案:ACD解析:卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。46.下列關(guān)于Ridge回歸,說法正確的是()A、若λ=0,則等價于一般的線性回歸B、若λ=0,則不等價于一般的線性回歸C、若λ=+∞,則得到的權(quán)重系數(shù)很小,接近于零D、若λ=+∞,則得到的權(quán)重系數(shù)很大,接近與無窮答案:AC解析:Ridge回歸中,若λ=0,則等價于一般的線性回歸,若λ=+∞,則得到的權(quán)重系數(shù)很小,接近于零。47.圖像識別的精度會受到以下那些因素的影響()。A、數(shù)據(jù)類別數(shù)量不平衡B、輸入圖像尺寸不同C、圖像中存在類標(biāo)之外的環(huán)境干擾D、圖像中存在隨機噪答案:ACD解析:圖像識別中若圖像存在隨機噪聲,一是噪聲影響較小,二是可以有預(yù)處理解決噪聲問題,并不會影響圖像識別精度。48.Client端上傳文件的時候下列哪項正確()。A、數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB、Client端將文件切分為ock,依次上傳C、ient只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責(zé)Block復(fù)制D、Client如果上傳的時候沒有上傳成功指定的副本數(shù),則整次上傳不成答案:BD解析:Client端在上傳文件的時候,請求是由NameNode響應(yīng),傳輸數(shù)據(jù)時Client直接與DataNode通信,并非先把數(shù)據(jù)傳輸?shù)絅ameNode再傳送到DataNode,否則會極大的增加NameNode節(jié)點的負擔(dān),因此A、C錯誤。49.圖像識別的一般步驟包括()。A、預(yù)處理B、特征提取C、超像素生成D、識別分答案:ABD解析:圖像識別中的一般步驟包括預(yù)處理、特征提取和識別分類。超像素生成并非必要步驟。50.Spark提交工作的方式()。A、lientB、lusterC、tandaloneD、arn答案:AB解析:spark提交作業(yè)的方式是client和cluster。51.下列關(guān)于情感分析的說法正確的是()。A、簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程B、情感分析的發(fā)展得益于社交媒體的興起C、按照處理文本的粒度不同,情感分析大致可分為詞語級,句子級、篇章級三個D、情感分析可以應(yīng)用于文本挖答案:ABCD解析:情感分析的定義即對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程,它得益于社交媒體的興起,從而能收集大量信息進行分析。其分析力度包括詞語級、句子級和篇章級。情感分析可用于文本挖掘。52.下面關(guān)于單樣本t檢驗的說法,錯誤的是()。A、當(dāng)單樣本t檢驗的自由度越來越大時,正態(tài)分布越來越趨向于t分布B、單樣本t檢驗適用于樣本量比較多(n>30)的情況C、t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量比較小D、單樣本t檢驗通常也被叫做學(xué)生t檢驗答案:ABC解析:t檢驗,亦稱studentt檢驗(Student'sttest),主要用于樣本含量較?。ɡ鏽<30),總體標(biāo)準差σ未知的正態(tài)分布。t檢驗是用t分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。53.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)在()方面。A、數(shù)據(jù)驅(qū)動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化答案:ABC解析:“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的“以數(shù)據(jù)中心”的特征不僅體現(xiàn)在“以數(shù)據(jù)為核心生產(chǎn)要素”,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動、數(shù)據(jù)密集和數(shù)據(jù)范式。54.下列不屬于聚類性能度量內(nèi)部指標(biāo)的是()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系答案:AB解析:聚類常用的外部指標(biāo)包括:Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括:DB指數(shù)、Dunn指數(shù)。55.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說法,正確的有:A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對比B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點圖、箱型圖等C、在探索型數(shù)據(jù)分析時應(yīng)該盡量避免使用餅圖,然而在數(shù)據(jù)報告中可以使用餅圖達到更加美觀的效果D、直方圖和箱型圖都可以用來展示數(shù)據(jù)的分布情況答案:BCD解析:數(shù)據(jù)之間的特征和對比使用條形圖可更加直觀的展示數(shù)據(jù)。56.下面屬于詞袋模型的缺點的是()。A、詞匯表的詞匯需要經(jīng)過精心設(shè)計B、表示具有稀疏性C、丟失詞序忽略了上下文D、模型復(fù)雜,不利于實施答案:ABC解析:詞袋模型簡單易理解,并不復(fù)雜,也利于實施,但需要精心設(shè)計,具有稀疏性,詞序忽略了上下文。57.下面關(guān)于機器學(xué)習(xí)的理解正確的是()。A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽C、強化學(xué)習(xí)以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)答案:BCD解析:非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是不要求帶標(biāo)簽的,監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的。58.集成學(xué)習(xí)中多樣性的增強有哪些()A、數(shù)據(jù)樣本擾動B、輸入屬性擾動C、輸出表示擾動D、算法參數(shù)擾答案:ABCD解析:集成學(xué)習(xí)中增強多樣性的常見做法主要是:是對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進行擾動。59.常用的代價函數(shù)有()。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵答案:ABCD解析:上述均是事常用的代價函數(shù)。60.關(guān)于HadoopMapReduce,以下描述中正確的是()。A、reduce()函數(shù)的輸入是value集B、reduce()函數(shù)將最終結(jié)果寫到HDFS系統(tǒng)中C、用戶可以自己定義reduce()函數(shù)D、reduce()函數(shù)的輸入數(shù)據(jù)是經(jīng)過map()函數(shù)處理之后的數(shù)答案:BCD解析:reduce()函數(shù)的輸入是key-value集。61.下列屬于CNN關(guān)鍵層的是(__)。A、輸入層B、卷積層C、激活層D、池化答案:ABCD解析:其關(guān)鍵層有:1、輸入層,對數(shù)據(jù)去均值,做dataaugmentation等工作2、卷積層,局部關(guān)聯(lián)抽取feature3、激活層,非線性變化4、池化層,下采樣5、全連接層,增加模型非線性6、高速通道,快速連接7、BN層,緩解梯度彌散62.直方圖修正法包括()。A、直方圖統(tǒng)計B、直方圖均衡C、直方圖過濾D、直方圖規(guī)定化答案:BD解析:直方圖統(tǒng)計是對圖像特征值的統(tǒng)計;直方圖過濾屬于圖像處理技術(shù)。63.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題。Flume的主要設(shè)計目的和特征是()。A、高可靠性B、可拓展C、管理復(fù)雜D、不支持用戶自定義答案:AB解析:Flume的主要設(shè)計目的和特征包括高可靠性、可擴展性、支持方便管理、支持用戶自定義。64.以下說法正確的是()。A、負梯度方向是使函數(shù)值下降最快的方向B、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時,梯度下降法的解是全局最優(yōu)解C、梯度下降法比牛頓法收斂速度快D、擬牛頓法不需要計算Hesse矩陣答案:ABD解析:牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。65.ETL技術(shù)主要涉及()操作。A、抽取B、轉(zhuǎn)換C、加載D、分析答案:ABC解析:抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)66.噪聲數(shù)據(jù)的產(chǎn)生原因主要有()。A、數(shù)據(jù)采集設(shè)備有問題B、在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤C、數(shù)據(jù)傳輸過程中發(fā)生錯誤D、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致答案:ABCD解析:噪聲數(shù)據(jù)的產(chǎn)生原因主要有數(shù)據(jù)采集設(shè)備有問題、在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤、數(shù)據(jù)傳輸過程中發(fā)生錯誤、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。67.MapReduce與HBase的關(guān)系,哪些描述是正確的()。A、兩者不可或缺,MapReduce是HBse可以正常運行的保證B、兩者不是強關(guān)聯(lián)關(guān)系,沒有MapReduce,Hse可以正常運行C、MapReduce可以直接訪問HbaseD、它們之間沒有任何關(guān)系答案:BC解析:Hbase是Hadoopdatabase,即Hadoop數(shù)據(jù)庫。它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫,與MapReduce并無強關(guān)聯(lián)關(guān)系,HadoopMapReduce為HBase提供了高性能的計算能力,可直接訪問Hbase68.關(guān)于HDFS的文件寫入,正確的是()。A、不支持多用戶對同一文件的寫操作;B、用戶不可以在文件任意位置進行修改;C、默認將文件復(fù)制成三份存放;D、復(fù)制的文件塊默認不存在同一機架上;答案:ABCD解析:根據(jù)HDFS定義,以上答案都為正確選項。69.數(shù)據(jù)再利用的意義在于()A、挖掘數(shù)據(jù)的潛在價值B、提高社會效益,優(yōu)化社會管理C、實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D、優(yōu)化存儲設(shè)備,降低設(shè)備成本E、利用數(shù)據(jù)可拓展性拓寬業(yè)務(wù)領(lǐng)答案:ACE解析:數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價值,實現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價值,并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域70.統(tǒng)計模式分類問題中,當(dāng)先驗概率未知時,可以使用()。A、最小最大損失準則B、最小誤判概率準則C、最小損失準則D、N-P判答案:AD解析:統(tǒng)計模式分類問題中,當(dāng)先驗概率未知時,可以使用最小最大損失準則和最小損失準則。71.HBase中KeyValue數(shù)據(jù)的存儲格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT答案:A解析:HBase中KeyValue數(shù)據(jù)的存儲格式是HFile。72.HadoopMapReduce是MapReduce的具體實現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個獨立的實體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HS答案:ABCD解析:可以將MapReduce的工作流程概括為4個獨立的實體①客戶端,用來提交MapReduce的作業(yè)。編寫MapReduce程序,配置作業(yè),提交作業(yè),程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運行。與TaskTracker通信,協(xié)調(diào)整個作業(yè)的執(zhí)行③TaskTracker,用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個很重要方面,就是在執(zhí)行任務(wù)時候TaskTracker可以有n多個,JobTracker則只會有一個④HDFS,用來在其他實體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等等,最后的結(jié)果也是保存在hdfs上面。73.哪些項不屬于使用池化層相比于相同步長的卷積層的優(yōu)勢()A、參數(shù)更少B、可以獲得更大下采樣C、速度更快D、有助于提升精答案:BCD解析:池化層公式與卷積一樣,只是不需要參數(shù)。74.關(guān)于神經(jīng)網(wǎng)絡(luò),下列說法正確的是()A、增加網(wǎng)絡(luò)層數(shù),可能會增加測試集分類錯誤率B、增加網(wǎng)絡(luò)層數(shù),一定會增加訓(xùn)練集分類錯誤率C、減少網(wǎng)絡(luò)層數(shù),可能會減少測試集分類錯誤率D、減少網(wǎng)絡(luò)層數(shù),一定會減少訓(xùn)練集分類錯誤答案:AC解析:增加網(wǎng)絡(luò)層數(shù)可能造成訓(xùn)練誤差和測試誤差減小,但神經(jīng)網(wǎng)絡(luò)層數(shù)過多容易造成過擬合,訓(xùn)練誤差小,但是測試誤差很大。75."噪聲"是指測量變量中的隨機錯誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)有那幾種形式()A、錯誤數(shù)據(jù)B、假數(shù)據(jù)C、異常數(shù)據(jù)D、僵尸數(shù)據(jù)答案:ABC解析:錯誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測量變量中多被定義為噪聲。76.區(qū)塊鏈是()等計算機技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲B、點對點傳輸C、共識機制D、加密算法答案:ABCD解析:區(qū)塊鏈是分布式數(shù)據(jù)存儲、點對點傳輸、共識機制、加密算法等計算機技術(shù)的新型應(yīng)用模式。77.HBase性能優(yōu)化包含下面的哪些選項()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化答案:ABCD解析:HBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。78.MapReduce對map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及哪些操作()。A、合并B、排序C、分區(qū)D、抽樣答案:ABC解析:分別涉及Shuffle(排序)、biner(合并)和partition(分區(qū))操作。79.請問下面哪些是離散型變量()。A、示波器B、心電圖及腦動電圖掃描器對腦電波的測量C、過去數(shù)月的總銷售額D、公司每年的紅利答案:CD解析:在統(tǒng)計學(xué)中,變量按其數(shù)值表現(xiàn)是否連續(xù),分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量。如職工人數(shù)、工廠數(shù)、機器臺數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值,即可以把它們當(dāng)做離散變量來看待。例如年齡、評定成績等雖屬連續(xù)變量,但一般按整數(shù)計算,按離散變量來處理。離散變量的數(shù)值用計數(shù)的方法取得。80.以下屬于自然語言處理范疇的是()。A、情感傾向分析B、評論觀點抽取C、文章分類D、新聞?wù)榇鸢福篈BCD解析:自然語言處理涉及的內(nèi)容較多,主要技術(shù)范疇包括、語音合成、語音識別、中文自動、詞性標(biāo)注、句法分析、文本分類、文本挖掘、信息抽取、問答系統(tǒng)、機器翻譯、文本情感分析、自動摘要、文字蘊涵等。81.可作為決策樹選擇劃分屬性的參數(shù)是()。A、信息增益B、增益率C、基尼指數(shù)D、密度函答案:ABC解析:特征選擇的準則主要有三種:信息增益,信息增益率,基尼指數(shù)。82.在數(shù)據(jù)科學(xué)中,計算模式發(fā)生了根本性的變化——從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲系統(tǒng)C、MaoRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫答案:BCD解析:Goolge于2003~2008年間發(fā)表的3篇論文在云計算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠影響,被稱之為Google三大技術(shù)或三大論文:GFS論文——GhemawatS,GobioffH,LeungST.TheGooglefilesystem[C].ACMSIGOPSoperatingsystemsreview.ACM,2003,37(5):29-43;MapReduce論文——DeanJ,GhemawatS.MapReduce:simplifieddataprocessingonlargeclusters[J].municationsoftheACM,2008,51(1):107-113.Bigtable論文——ChangF,DeanJ,GhemawatS,etal.Bigtable:Adistributedstoragesystemforstructureddata[J].ACMTransactionsonputerSystems(TOCS),2008,26(2):4.83.下列哪些是RDBMS中事務(wù)遵循的原則()A、原子性(omicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(rability)答案:ABCD解析:關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。84.圖像壓縮是建立在圖像存在()幾種冗余之上。A、編程冗余B、像素間冗余C、心理視覺冗余D、計算資源冗答案:ABC解析:圖像壓縮是通過算法的改進,對重復(fù)像素用壓縮算法減少儲存空間和并行算法達到的。85.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計學(xué)知識說法錯誤的是()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計的數(shù)據(jù)分析方法又可分為描述統(tǒng)計和推斷統(tǒng)計C、描述統(tǒng)計可分為集中趨勢分析、離中趨勢分析、參數(shù)估計和假設(shè)檢驗D、推斷統(tǒng)計包括采樣分布和相關(guān)分析答案:ABCD解析:從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法包括描述統(tǒng)計、假設(shè)檢驗、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計包括兩方面的內(nèi)容:總體參數(shù)估計和假設(shè)檢驗。86.我們想要減少數(shù)據(jù)集中的特征數(shù),即降維.選擇以下適合的方案:()。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用,去訓(xùn)練一個模型,得到測試集上的表現(xiàn).然后我們?nèi)サ粢粋€特征,再去訓(xùn)練,用交叉驗證看看測試集上的表現(xiàn).如果表現(xiàn)比原來還要好,我們可以去除這個特征D、查看相關(guān)性表,去除相關(guān)性最高的一些特答案:ABCD解析:前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不適用,可以用這里C中方法。用相關(guān)性的度量去刪除多余特征,也是一個可行的方法。87.特征工程一般需要做哪些工作()。A、正則化B、標(biāo)準化C、特征處理D、特征選擇答案:CD解析:特征工程包括特征選擇、特征處理、特征變換、特征衍生等。88.以下關(guān)于降維方法,敘述正確的是()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓撲流形概念的降維方法D、度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學(xué)答案:CD解析:本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非的線性降維方法。89.下面關(guān)于單樣本Z檢驗的說法,正確的是()。A、在Python中,單樣本Z檢驗可以使用scipy.stats.ttest_1samp()實現(xiàn)B、單樣本Z檢驗適用于樣本量較大的情況C、單樣本Z檢驗假設(shè)要檢驗的統(tǒng)計量(近似)滿足正態(tài)分布D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量答案:BCD解析:在Python中,單樣本Z檢驗可以使用statsmodels.stats.weightstats.ztest實現(xiàn)。90.已測量級(MeasuredLevel)的主要特點包括()。A、已構(gòu)建了關(guān)鍵過程矩陣。B、已定義了變革管理的正式流程。C、已實現(xiàn)用定量化方式計算關(guān)鍵過程的質(zhì)量和效率。D、關(guān)鍵過程的質(zhì)量和效率的管理涉及整個生命周期答案:ABCD解析:DMM的已測量級(MeasuredLevel):組織機構(gòu)已用“定量化”的方式管理其關(guān)鍵過程的執(zhí)行過程。主要特點如下:1)已構(gòu)建了關(guān)鍵過程矩陣;2)已定義了變革管理的正式流程;3)已實現(xiàn)用定量化方式計算關(guān)鍵過程的質(zhì)量和效率;4)關(guān)鍵過程的質(zhì)量和效率的管理涉及其全生命周91.下列跟人工智能場景相關(guān)的是()。A、圖像識別B、人臉識別C、語音識別D、語義分答案:ABCD解析:人工智能的概念很廣義,圖像識別,人臉識別,語音識別,語義分析都屬于人工智能的應(yīng)用場景。92.循環(huán)神經(jīng)網(wǎng)絡(luò)主要被應(yīng)用于哪些場景(__)。A、語音識別B、語音建模C、機器翻譯D、圖像識答案:ABC解析:圖像識別用CNN。93.以下()屬于數(shù)據(jù)統(tǒng)計分析工具。A、WekaB、SASC、SPSSD、Matlab答案:ABCD解析:常用統(tǒng)計軟件的種類,包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Statistica、Eviews。94.HIS表色系的三屬性包含:()。A、色調(diào)B、色飽和度C、亮度D、色答案:ABC解析:HIS表色系包含色調(diào),色飽和度和亮度。95.下列既可以用于分類,又可以用于回歸的機器學(xué)習(xí)算法有:A、k近鄰B、邏輯回歸C、決策樹D、線性回歸答案:AC解析:邏輯回歸只用于分類,線性回歸只用于回歸。96.對于決策樹的優(yōu)點描述正確的是()。A、可讀性強B、分類速度快C、只用于回歸問題D、是無監(jiān)督學(xué)習(xí)答案:AB解析:決策樹也可用于回歸,屬于有監(jiān)督的機器學(xué)習(xí)算法。97.特征向量的缺失值處理:缺失值較多,直接將該特征舍棄掉,否則可能反倒會帶入較大的noise,對結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),我們可以采取很多的方式來處理:()。A、把NaN直接作為一個特征,假設(shè)用0表示B、用均值填充C、用隨機森林等算法預(yù)測填充D、以上答案都不正答案:ABC解析:缺失值較少的處理方法:1、把NAN直接作為一個特征,假設(shè)用0表示;2、用均值填充;3、用隨機森林等算法預(yù)測填充;4、用插值法填充。98.大數(shù)據(jù)處理流程可以概括為以下哪幾步()。A、數(shù)據(jù)分析與挖掘B、數(shù)據(jù)采集C、數(shù)據(jù)儲存D、結(jié)果展示答案:ABCD解析:參考答案:ABCD99.聚類性能度量外部指標(biāo)包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)答案:ABD解析:常用的聚類性能度量外部指標(biāo):Jaccard系數(shù),F(xiàn)M指數(shù),Rand指數(shù)。100.下列關(guān)于自然語言處理中的關(guān)鍵詞提取的說法正確的是()。A、關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D、這個問題設(shè)計數(shù)據(jù)挖掘,文本處理,信息檢索等領(lǐng)答案:BD解析:關(guān)鍵詞提取旨在自動化;出現(xiàn)次數(shù)最多可能為無用詞。101.下列哪些項屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)()A、上一時刻的網(wǎng)絡(luò)狀態(tài)信息將會作用于下一時刻的網(wǎng)絡(luò)狀態(tài)B、并行處理序列中所有信息C、容易梯度爆炸/消失D、易于搭答案:AC解析:循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進方向進行遞歸(recursion)且所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork)。循環(huán)神經(jīng)網(wǎng)絡(luò)在誤差梯度在經(jīng)過多個時間步的反向傳播后容易導(dǎo)致極端的非線性行為,包括梯度消失(gradientvanishing)和梯度爆炸(gradientexplosion)。實踐中,梯度爆炸雖然對學(xué)習(xí)有明顯的影響,但較少出現(xiàn),使用梯度截斷可以解決。梯度消失是更常見的問題且不易察覺,發(fā)生梯度消失時,循環(huán)神經(jīng)網(wǎng)絡(luò)在多個時間步后的輸出幾乎不與序列的初始值有關(guān),因此無法模擬序列的長距離依賴(long-termdependency)。在數(shù)值試驗中,SRN對時間步跨度超過20的長距離依賴進行成功學(xué)習(xí)的概率接近于0。恰當(dāng)?shù)臋?quán)重初始化(weightinitialization),或使用非監(jiān)督學(xué)習(xí)策略例如神經(jīng)歷史壓縮器(NHC)可提升循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)長距離依賴的能力,但對更一般的情形,循環(huán)神經(jīng)網(wǎng)絡(luò)發(fā)展了一系列優(yōu)化策略,其中有很多涉及網(wǎng)絡(luò)結(jié)構(gòu)的改變和算法的改進。102.RDD具有()和()特征。A、可容錯性;B、簡潔性;C、并行數(shù)據(jù)結(jié)構(gòu);D、結(jié)構(gòu)化;答案:AC解析:RDD是一個容錯的、并行的數(shù)據(jù)結(jié)構(gòu)。103.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括()。A、最大池化函數(shù)B、L2范數(shù)C、相鄰矩形區(qū)域內(nèi)的平均值D、基于據(jù)中心像素距離的加權(quán)平均函答案:ABCD解析:最大池化函數(shù);L2范數(shù);相鄰矩形區(qū)域內(nèi)的平均值;基于據(jù)中心像素距離的加權(quán)平均函數(shù);重疊池化;空金字塔池化。104.訓(xùn)練CNN時,GPU顯存溢出,此時可以采取什么辦法()A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函答案:ABC解析:D:反而會加重負擔(dān)。105.常見的核函數(shù)主要包括()。A、多項式核B、高斯核C、線性核D、拉普拉斯核E、Sigmoid答案:ABCDE解析:上述都是常見的核函數(shù)。106.下列關(guān)于密度聚類說法錯誤的是(__)。A、DBSC是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴展聚類簇易獲得最終的聚類結(jié)果D、密度直達關(guān)系通常滿足對稱答案:BCD解析:密度聚類從樣本密度的角度出來,來考查樣本之間的可連接性;密度聚類基于可連接樣本不斷擴展聚類簇,以獲得最終的聚類結(jié)果;密度直達關(guān)系通常不滿足對稱性;密度可達關(guān)系滿足直遞性,但不滿足對稱性;密度相連關(guān)系滿足對稱性。107.文本分類過程包括()。A、選擇訓(xùn)練文本B、選擇文本特征C、建立文本表示模型D、選擇分類方答案:ABCD解析:文本分類過程包括:(1)選擇訓(xùn)練文本;(2)選擇文本特征;(3)建立文本表示模型;(4)選擇分類方法;(5)分類結(jié)果的評估。108.數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括()。A、精確性B、可辨認性C、可分離性D、視覺突出性答案:ABCD解析:在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括精確性、可辨認性、可分離性和視覺突出性。1)精確性代表的是人類感知系統(tǒng)對于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性2)可辨認性是指視覺通道的可辨認度。3)可分離性是指同一個視覺圖形元素的不同視覺通道的表現(xiàn)力之間應(yīng)具備一定的獨立性。4)視覺突出性是指視覺編碼結(jié)果能否在很短的時間內(nèi)(如毫秒級)能夠迅速準確表達出可視化編碼的主要意圖。109.下列關(guān)于RNN、LSTM、GRU說法正確的是(__)。A、RNN引入了循環(huán)的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的變體D、RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡(luò)的不同說法,沒有區(qū)答案:ABCD解析:RNN:循環(huán)神經(jīng)網(wǎng)絡(luò),是非線性動態(tài)系統(tǒng),將序列映射到序列;LSTM:LSTM通過刻意的設(shè)計來避免長期依賴問題。記住長期的信息在實踐中是LSTM的默認行為,而非需要付出很大代價才能獲得的能力;GRU:LSTM有很多變體,其中較大改動的是GatedRecurrentUnit(GRU),它將忘記門和輸入門合成了一個單一的更新門。同樣還混合了細胞狀態(tài)和隱藏狀態(tài),和其他一些改動。最終的模型比標(biāo)準的LSTM模型要簡單。效果和LSTM差不多,但是參數(shù)少了1/3,不容易過擬合。110.在數(shù)據(jù)科學(xué)中,計算模式發(fā)生了根本性的變化——從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術(shù),這三大技術(shù)包括()。A、HadoopYN資源管理器B、GFS分布式存儲系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫答案:BCD解析:google云計算的三大核心技術(shù)為GFS,MapReduce,BigTable。HadoopYARN資源管理器屬于Hadoop。111.我們想要訓(xùn)練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),如何有效地訓(xùn)練模型()A、對訓(xùn)練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機器學(xué)習(xí)算法C、使用P算法減少特征維答案:ABC解析:大數(shù)據(jù)可以采用對訓(xùn)練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型,嘗試使用在線機器學(xué)習(xí)算法,使用PCA算法減少特征維度。112.線性模型的基本形式有()。A、線性回歸B、對數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學(xué)答案:ABCD解析:線性模型的經(jīng)典模型有:線性回歸,對數(shù)幾率回歸(二分類問題),線性判別分析(Fisher判別分析),多分類學(xué)習(xí)。113.以下跟圖像處理相關(guān)的是()。A、圖像識別B、人臉識別C、視頻分析D、nl答案:ABCD解析:圖像識別(包括人臉識別),視頻分析,npl都與圖像處理相關(guān)。114.實時計算類應(yīng)用主要通過()來實現(xiàn)。A、流計算組件B、內(nèi)存計算組件C、MPP數(shù)據(jù)庫D、Hadoop的后臺定時分析計算任務(wù)答案:AB解析:實時計算類應(yīng)用主要通過流計算組件、內(nèi)存計算組件來實現(xiàn)。115.下列哪些是TF-IDF的缺點()。A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞C、只考慮特征詞和文本之間的關(guān)系,忽略了一個特征項在不同類別間的分布情況D、沒有考慮特征詞的位置因素對文本的區(qū)分答案:BCD解析:低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。116.空間域濾波是直接以圖像中的像素操作為基礎(chǔ)的濾波,空間濾波器有時也可稱為()。A、空間掩模B、核C、模板D、窗答案:ABCD解析:空間濾波器也可稱為空間掩模,核,模板和窗口等。117.以下算法中可以應(yīng)用于圖像分割的是()。A、邊緣檢測技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長方答案:ABCD解析:邊緣檢測技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長方法均是圖像分割技術(shù)。118.常見的圖像降噪方式包括()。A、中值濾波B、均值濾波C、平均濾波D、加權(quán)平均濾答案:ABCD解析:常見的圖像降噪方式包括中值濾波,均值濾波,平均濾波和加權(quán)平均濾波等。119.數(shù)據(jù)科學(xué)項目主要涉及的活動包括()。A、模式/模型的應(yīng)用及維護B、模式/模型的洞見C、結(jié)果的可視化與文檔化D、模式/模型的驗證和優(yōu)化答案:ABCD解析:數(shù)據(jù)科學(xué)項目是由從“項目目標(biāo)的定義”到“模式/模型的應(yīng)用及維護”的一系列雙向互聯(lián)的互動鏈條組成的循序漸進的過程,主要涉及的活動包括:項目目標(biāo)的定義、數(shù)據(jù)的獲得與管理、模式/模型的洞見、模式/模型的驗證和優(yōu)化和模式/模型的應(yīng)用及維護120.關(guān)于CAP理論說法正確的是()。A、一個分布式系統(tǒng)不能同時滿足一致性、可用性和分區(qū)容錯性等需求B、一致性主要指強一致性C、一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)D、可用性指每個操作總是在“給定時間”之內(nèi)得到返回“所需要的結(jié)果”。答案:ABCD解析:CAP理論認為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的——一致性[[1]]、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。121.下面關(guān)于隨機變量及其概率分布的說法,正確的是()。A、隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為5的概率是最大的答案:ABC解析:扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為5的概率不是最大的。122.以下關(guān)于集成學(xué)習(xí)的說法正確的是:()。A、隨機森林是減少模型的方差,而GBDT是減少模型的偏差B、組成隨機森林的樹可以并行生成,而GT是串行生成C、隨機森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵樹累加之答案:ABC解析:RF與GBDT之間的區(qū)別:組成隨機森林的樹可以分類樹也可以是回歸樹,而GBDT只由回歸樹組成。組成隨機森林的樹可以并行生成,而GBDT是串行生成隨機森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵樹累加之和。隨機森林對異常值不敏感,而GBDT對異常值比較敏感。隨機森林是通過減少模型的方差來提高性能,而GBDT是減少模型的偏差來提高性能的。隨機森林不需要進行數(shù)據(jù)預(yù)處理,即特征歸一化。而GBDT則需要進行特征歸一化.123.卷積神經(jīng)網(wǎng)絡(luò)通過哪些措施來保證圖像對位移、縮放、扭曲的魯棒性(__)。A、局部感受野B、共享權(quán)值C、池采樣D、正則答案:ABC解析:正則化是為了減少泛化誤差。124.圖像數(shù)字化應(yīng)該包括哪些過程()。A、采樣B、模糊C、量化D、統(tǒng)答案:AC解析:自然界的圖像轉(zhuǎn)化為數(shù)字圖像首先包括連續(xù)空間到離散空間的采樣,其次是色彩域的數(shù)值化處理。125.關(guān)于神經(jīng)元的敘述,哪些是正確的()A、每個神經(jīng)元可以有一個輸入和一個輸出B、每個神經(jīng)元可以有多個輸入和一個輸出C、每個神經(jīng)元可以有多個輸入和多個輸出D、每個神經(jīng)元可以有多個輸出和一個輸答案:ABCD解析:神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識。126.下列關(guān)于spark中的RDD描述正確的有()。A、RDD(ResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是spark中最基本的數(shù)據(jù)抽象;B、Resilient:表示彈性的;C、Destributed:分布式,可以并行在集群計算;D、taset:就是一個集合,用于存放數(shù)據(jù)的;答案:ABCD解析:關(guān)于spark中的RDD描述正確的有RDD(ResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是spark中最基本的數(shù)據(jù)抽象;Resilient:表示彈性的;Destributed:分布式,可以并行在集群計算;Dataset:就是一個集合,用于存放數(shù)據(jù)的。127.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)答案:ABC解析:字典可以表示二維以上的高維數(shù)據(jù)。128.對于不同場景內(nèi)容,一般數(shù)字圖像可以分為()。A、二值圖像B、灰度圖像C、彩色圖像D、深度圖答案:ABC解析:深度圖像中深度通道為描述距離,一般對其進行采樣或數(shù)值離散化。129.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運用()等技術(shù)等多個學(xué)科領(lǐng)域的知識,以實現(xiàn)人機協(xié)同完成可視化任務(wù)為主要目的分析推理學(xué)科。A、物理學(xué)B、圖形學(xué)C、數(shù)據(jù)挖掘D、人機交互答案:BCD解析:可視分析學(xué)(VisualAnalytics):科學(xué)可視化和信息可視化理論的進一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中,通常采用數(shù)據(jù)可視化的廣義定義方法,并以可視分析學(xué)為主要理論基礎(chǔ)。130.分布式列式存儲的功能有()。A、支持在線快速讀寫B(tài)、支持線性擴展C、具備節(jié)點監(jiān)控管理D、數(shù)據(jù)同源不壓縮答案:ABC解析:分布式列式存儲的功能包括數(shù)據(jù)壓縮。131.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題答案:BCD解析:DGI(TheDataGover略ceInstitute)認為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。132.數(shù)據(jù)從產(chǎn)生到終結(jié)共有()環(huán)節(jié)。A、數(shù)據(jù)產(chǎn)生環(huán)節(jié)B、數(shù)據(jù)傳輸環(huán)節(jié)C、數(shù)據(jù)使用環(huán)節(jié)D、數(shù)據(jù)共享環(huán)節(jié)E、數(shù)據(jù)銷毀環(huán)答案:ABCDE解析:數(shù)據(jù)的全生命周期有:獲?。óa(chǎn)生)、存儲、共享、維護、應(yīng)用(使用)、消亡(銷毀),在以上這些過程都會有數(shù)據(jù)傳輸過程。133.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計學(xué)的驗證性分析方法的區(qū)別有()。A、ED要事先提出假設(shè),而驗證性分析不需要B、EDA中采用的方法往往比驗證性分析簡單C、在一般數(shù)據(jù)科學(xué)項目中,探索性分析在先,驗證性分析在后D、E更為簡單、易學(xué)和易用答案:BCD解析:在一般數(shù)據(jù)科學(xué)項目中,探索性分析在先,驗證性分析在后,EDA中采用的方法往往比驗證性分析簡單。134.處理圖像平滑處理的濾波有()。A、盒式濾波B、均值濾波C、高斯濾波D、中值濾答案:ABCD解析:處理圖像平滑處理的濾波包含盒式濾波,均值濾波,高斯濾波和中值濾波等。135.下列哪些指標(biāo)可以用來評估線性回歸模型()A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MA答案:ABCD解析:R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標(biāo)均可以評估線性回歸模型。136.數(shù)據(jù)挖掘的挖掘方法包括()。A、聚類分析B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹算答案:ABCD解析:利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等.分類方法有決策樹、KNN法(K-NearestNeighbor)、SVM法、VSM法、Bayes法、神經(jīng)網(wǎng)絡(luò)等。聚類算法分為:基于密度,基于層次,基于模型,基于網(wǎng)格等。關(guān)聯(lián)規(guī)則算法有:Apriori算法,F(xiàn)P-Growth算法137.關(guān)于TF-IDF模型描述正確的有()。A、TF意思是詞頻B、IDF是逆文本頻率C、該模型基于統(tǒng)計方法D、在信息檢索中應(yīng)用較答案:ABC解析:TF-IDF算法應(yīng)用較為廣泛,在信息檢索中也常用。138.()是指幾組不同的數(shù)據(jù)中均存在一種趨勢,但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢消失或反轉(zhuǎn)。A、辛普森悖論B、大數(shù)據(jù)悖論C、大數(shù)據(jù)偏見D、幸存者偏答案:A解析:辛普森悖論是概率和統(tǒng)計學(xué)中的一種現(xiàn)象,即幾組不同的數(shù)據(jù)中均存在一種趨勢,但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢消失或反轉(zhuǎn)。例如,在腎結(jié)石治療數(shù)據(jù)分析中,比較了兩種腎結(jié)石治療的成功率。139.深度學(xué)習(xí)的實質(zhì)及其與淺層學(xué)習(xí)的說法正確的是(__)。A、DL強調(diào)模型深度B、DL突出特征學(xué)習(xí)的重要性.特征變換+非人工C、沒有區(qū)別D、以上答案都不正答案:AB解析:深度模型是手段,特征學(xué)習(xí)是目的。140.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及()等方面。A、挖掘頻繁模式B、分類和預(yù)測C、機器學(xué)習(xí)分析D、偏差分答案:ABCD解析:數(shù)據(jù)挖掘的主要功能包括概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。141.許多功能更為強大的非線性模型可在線性模型基礎(chǔ)上通過引入()和()而得。A、層級結(jié)構(gòu)B、高維映射C、降維D、分答案:AB解析:許多功能更為強大的非線性模型可在線性模型基礎(chǔ)上通過引入層級結(jié)構(gòu)和高維映射而得。142.對于主成分分析方法,降維后低維空間的維數(shù)d可以通過()方法確定。A、由用戶事先指定B、通過在d值不同的低維空間中對開銷較小的學(xué)習(xí)器進行交叉驗證來選取C、可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值D、隨機設(shè)答案:ABC解析:降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d值不同的低維空間中對k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進行交叉驗證來選取較好的d值。從重構(gòu)的角度還可以設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值。143.決策樹遞歸停止的條件為()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失答案:BC解析:決策樹的生成是一個遞歸過程.在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:(1)當(dāng)前結(jié)點包含的樣本全屬于同一類別,無需劃分;(2)當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;(3)當(dāng)前結(jié)點包含的樣本集合為空,不能劃分.144.假設(shè)一個隨機變量服從正態(tài)分布,則隨機變量的概率分布跟其()和()有關(guān)。A、眾數(shù)B、頻數(shù)C、平均值D、方差答案:CD解析:正態(tài)分布一般用均值和方差來刻畫。145.下面關(guān)于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法,正確的是。A、“一個客服一天可能接聽到多少個電話”是一個連續(xù)型隨機變量B、正態(tài)分布是一種連續(xù)型隨機變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1答案:BCD解析:“一個客服一天可能接聽到多少個電話”是一個離散型隨機變量。146.SparkRDD的依賴機制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴答案:AD解析:RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。147.以下屬于圖像分割的算法的是:()。A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長細分(regionalgrowthsegmentation)C、邊緣檢測分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于CNN中弱監(jiān)督學(xué)習(xí)的分答案:ABCDE解析:以下方法均屬于圖像分割。148.下列有關(guān)MapReduce計算框架的描述正確的是()。A、MapReduce可以計算任務(wù)的劃分和調(diào)度;B、MapReduce可完成數(shù)據(jù)的分布存儲和劃分;C、MapReduce可以實現(xiàn)處理系統(tǒng)節(jié)點出錯檢測和失效恢復(fù);D、MapReduce可實現(xiàn)處理數(shù)據(jù)與計算任務(wù)的同步;答案:ABCD解析:根據(jù)MapReduce定義可得,A、B、C、D都可以實現(xiàn)。149.機器學(xué)習(xí)的三個關(guān)鍵組成要素是()。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗來源答案:ABD解析:機器學(xué)習(xí)的三個關(guān)鍵組成要素是任務(wù)T、性能指標(biāo)P、經(jīng)驗來源E。150.K均值聚類和層次聚類在一些方面有重大差異。以下哪些說法是正確的()A、在K均值聚類中,必須在運行算法前選定想要的簇的個數(shù)B、在k均值聚類中,可以在運行算法后選定想要的簇的個數(shù)C、在層次聚類中,可以在運行算法后選定想要的簇的個數(shù)D、k均值聚類算法所需的計算量比層次聚類算法小得答案:ACD解析:在k均值聚類中,需要在運行算法前確定想要的簇的個數(shù)k。151.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡單處理的效率高D、產(chǎn)品成熟度高答案:ABD解析:在關(guān)系數(shù)據(jù)庫中,SQL語言編寫的查詢語句需要完成解析處理才能進行。因此,當(dāng)數(shù)據(jù)操作非常簡單時,也需要進行解析、加鎖、解鎖等操作,導(dǎo)致關(guān)系數(shù)據(jù)庫對數(shù)據(jù)的簡單處理效率較低。152.如將A、B、C三個分類器的PR曲線畫在一個圖中,其中A、B的PR曲線可以完全包含住C的PR曲線,A與B的PR曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,以下說法中正確的是()。A、學(xué)習(xí)器性能優(yōu)于學(xué)習(xí)器CB、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器BC、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器CD、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器答案:ABC解析:若一個學(xué)習(xí)器的P-R曲線被另一個學(xué)習(xí)器的曲線完全包住,則可斷言后者的性能優(yōu)于前者,如果兩個學(xué)習(xí)器的P-R曲線發(fā)生了交叉,則可用平衡點度量。153.大數(shù)據(jù)的參考架構(gòu)分為哪三個層次()A、角色B、活動C、邏輯構(gòu)件D、功能組件答案:ABD解析:《GB/T35589-2017信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系154.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準確度,那么下面說法正確的是:()。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問答案:AC解析:精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。155.下列哪些是特征選擇方法()。A、C赤池信息準則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過濾式特征選擇方答案:BCD解析:AIC赤池信息準則是常用的模型選擇方法。156.下列說法中正確的是()。A、云計算的主要特點是非常昂貴。B、大數(shù)據(jù)是多源、異構(gòu)、動態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對象之一D、MapReduce是采用云計算這種新的計算模式研發(fā)出的具體工具軟件(或算法)答案:BCD解析:云計算的一個重要優(yōu)勢在于其經(jīng)濟性。與其他計算模式不同的是,云計算的出發(fā)點是如何使用成本低的商用機(而不是成本很高的高性能服務(wù)器)實現(xiàn)強大的計算能力157.下列屬于數(shù)值優(yōu)化算法的是()。A、梯度下降法B、牛頓法C、極大似然法D、邏輯回答案:AB解析:在機器學(xué)習(xí)的優(yōu)化問題中,梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法,他們都是為了求得目標(biāo)函數(shù)的近似解。極大似然法是一種應(yīng)用非常廣泛的參數(shù)估計方法。邏輯回歸是一種廣義的線性回歸分析模型,常用于分類問題。158.關(guān)于梯度消失和梯度消失,以下說法正確的是:(__)。A、根據(jù)鏈式法則,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個結(jié)果是0.99,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于0B、可以采用ReLU激活函數(shù)有效的解決梯度消失的情況C、根據(jù)鏈式法則,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都大于1的話,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于無窮大D、可以通過減小初始權(quán)重矩陣的值來緩解梯度爆答案:ABCD解析:使用標(biāo)準化初始w,那么各個層次的相乘都是0-1之間的小數(shù),而激活函數(shù)f的導(dǎo)數(shù)也是0-1之間的數(shù),其連乘后,結(jié)果會變的很小,導(dǎo)致梯度消失。若我們初始化的w是很大的數(shù),w大到乘以激活函數(shù)的導(dǎo)數(shù)都大于1,那么連乘后,可能會導(dǎo)致求導(dǎo)的結(jié)果很大,形成梯度爆炸。159.以下關(guān)于Hbase說法正確的是()。A、面向列的數(shù)據(jù)庫B、非結(jié)構(gòu)化的數(shù)據(jù)庫C、支持大規(guī)模的隨機、實時讀寫D、采用松散數(shù)據(jù)模答案:ABCD解析:HBase是非結(jié)構(gòu)化的、多版本的、面向列和開源的數(shù)據(jù)庫;HBase提供了對大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問;從存儲模型看,HBase采用的是松散數(shù)據(jù)模型。160.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化答案:ABD解析:RDD不可修改。161.以下屬于規(guī)則的分詞方法的是()。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機答案:ABC解析:條件隨機場是一種鑒別式機率模型,常用于標(biāo)注或分析序列資料。162.Spark有哪些缺陷()。A、于內(nèi)存的計算B、持Schema信息C、支持增量迭代計算D、支持細粒度更新操作答案:CD解析:不支持細粒度的寫和更新操作,Spark寫數(shù)據(jù)是粗粒度的,即為了提高效率批量寫入數(shù)據(jù)。Spark讀數(shù)據(jù)是細粒度的,即一條一條讀的,C對;Spark不支持增量迭代計算,F(xiàn)link支持增量迭代計算,D對。163.以下描述中正確的是()。A、統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語言是統(tǒng)計學(xué)家發(fā)明的語言C、機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計學(xué)的一個分支領(lǐng)域(子學(xué)科)答案:AC解析:Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計學(xué)家;數(shù)據(jù)科學(xué)是一門獨立學(xué)科,已經(jīng)超出了統(tǒng)計學(xué)一個學(xué)科的研究范疇,并非為統(tǒng)計學(xué)的一個分支。164.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較,說法正確的是()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要隱式的先驗知識D、訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗答案:ABCD解析:分析學(xué)習(xí)是相對于歸納學(xué)習(xí)的一種提法,其特點是使用先驗知識來分析或解釋每個訓(xùn)練樣本,以推理出樣本的哪些特征與目標(biāo)函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機器學(xué)習(xí)系統(tǒng)比單獨依靠數(shù)據(jù)進行泛化有更高的精度。分析學(xué)習(xí)使用先驗知識來減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機器學(xué)習(xí)系統(tǒng)的泛化精度??梢?,分析學(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點在一定程度上具有互補性;分析學(xué)習(xí)方法優(yōu)點在于可用先驗知識從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當(dāng)先驗知識不正確或不足時,分析學(xué)習(xí)的缺點也會被凸現(xiàn);歸納學(xué)習(xí)具有的優(yōu)點是不需要顯式的先驗知識,并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時它能會失敗,并且會被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過程。因此,我們可以考慮如何將二者結(jié)合成一個單獨的算法,以獲得它們各自的優(yōu)點。165.完整性約束通常包括()A、實體完整性B、域完整性C、參照完整性D、用戶定義完整性答案:ABCD解析:在關(guān)系數(shù)據(jù)庫中,1)實體完整性:規(guī)定表的每一行在關(guān)系表中是惟一的實體。2)域完整性:是指關(guān)系表中的列必須滿足某種特定的數(shù)據(jù)類型約束,其中約束又包括取值范圍、精度等規(guī)定。3)參照完整性:是指兩個關(guān)系表的主關(guān)鍵字和外關(guān)鍵字的數(shù)據(jù)應(yīng)一致,保證了表之間的數(shù)據(jù)的一致性,防止了數(shù)據(jù)丟失或無意義的數(shù)據(jù)在數(shù)據(jù)庫中擴散。4)用戶定義的完整性:不同的關(guān)系數(shù)據(jù)庫系統(tǒng)根據(jù)其應(yīng)用環(huán)境的不同,往往還需要一些特殊的約束條件。用戶定義的完整性即是針對某個特定關(guān)系數(shù)據(jù)庫的約束條件,它反映某一具體應(yīng)用必須滿足的語義要求。166.關(guān)于數(shù)據(jù)產(chǎn)品研發(fā),下列說法錯誤的是()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題C、二次數(shù)據(jù)是對一次數(shù)據(jù)進行深度處理或分析后得到的“增值數(shù)據(jù)”D、三次數(shù)據(jù)是對二次數(shù)據(jù)進行洞察與分析后得到的、可以直接用于決策支持的“洞見數(shù)據(jù)”答案:ABD解析:二次數(shù)據(jù)是一種按照信息的生產(chǎn)過程和加工深度進行對信息進行分類的,是指根據(jù)特定的需求,對進行加工、分析、改編、重組、綜合概括生成的信息。167.一個監(jiān)督觀測值集合會被劃分為()。A、訓(xùn)練集B、驗證集C、測試集D、預(yù)處理答案:ABC解析:一個監(jiān)督觀測值集合會被劃分為訓(xùn)練集、測試集、預(yù)測集。其中測試集來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。168.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包括()等元素A、行鍵B、時間戳C、列簇D、數(shù)據(jù)類答案:ABC解析:BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成169.下列關(guān)于特征的稀疏性說法正確的是()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計算開銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲方答案:ABC解析:在一個矩陣中,若非零元素的個數(shù)遠遠小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。170.下面哪些是Spark的組件()。A、SparkStreamingB、MLibC、GraphXD、SparkR答案:ABC解析:Spark的組件包括SparkSQL,SparkStreaming,MLid,GraphX。171.在支持向量機中,參數(shù)的選取會影響擬合的結(jié)果,如果出現(xiàn)過擬合的現(xiàn)象,則導(dǎo)致該結(jié)果的原因有可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論