版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
人工智能訓練師技能競賽考試題(附答案)單選題1.裝袋通過降低弱分類器的(),改善了整體的()A、預測方差,泛化性能B、整體方差,泛化性能C、泛化性能,預測方差D、預測均值,預測結果參考答案:A2.指標用來描述業(yè)務行為結果的好壞程度,但是對于指標值的觀測應在一定條件下進行,以下選項中不屬于觀測指標值好壞程度的前提條件的是()A、相同時間內(nèi)B、相同條件下C、相同維度下D、相同觀測者參考答案:D3.支持向量是指()A、遠離決策平面的數(shù)據(jù)點B、靠近決策平面的數(shù)據(jù)點C、支持分類結果的數(shù)據(jù)點D、不支持分類結果的數(shù)據(jù)點參考答案:B4.在神經(jīng)網(wǎng)絡中引人了非線性的是()。A、隨機梯度下降B、修正線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確參考答案:B5.在大型數(shù)據(jù)集上訓練決策樹時,為了花費更少的時間來訓練這個模型,下列做法正確的是()。A、增加樹的深度B、增加學習率C、減小樹的深度D、減少樹的數(shù)量參考答案:C6.在scikit-learn包里,如果想要把字符串類型的類別特征轉換成數(shù)值型,符合邏輯回歸的要求,需要使用()進行轉換。A、EncoderB、LabelC、to_floatD、LabelEncoder參考答案:D7.在Linux下預裝了Python2、Python3且默認Python版本為Python3,則下列描述可以正確啟動Python的是()A、在Linux應用程序Terminal,打開一個終端窗口,輸入whichPythonB、在Linux應用程序Terminal,打開一個終端窗口,輸入Python2或Python3C、在Linux應用程序Terminal,打開一個終端窗口,輸入whichPython3D、在Linux應用程序Terminal,打開一個終端窗口,輸入whichPython2參考答案:B8.有一個28x28的圖片,并使用輸入深度為3和輸出深度為8在上面運行一個3x3的卷積神經(jīng)網(wǎng)絡。注意,步幅是1,你正在使用相同的填充(padding)當使用給定的參數(shù)時,輸出特征圖的尺寸是多少?()A、13寬、13高、8深B、28寬、28高、8深C、13寬、28高、8深D、28寬、13高、8深參考答案:B9.有個袋子裝有2個紅球,2個藍球,1個黃球,取出球以后不再放回,請問取兩次出來的球是相同顏色的概率是多少?A、3333B、25C、2D、1667參考答案:C10.以下的場景中,適合使用聚類算法的是:A、根據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習慣等相關信息,預測顧客的消費額B、據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習慣等相關信息,預測顧客是否會重復購買C、根據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習慣等相關信息,把顧客分成不同顧客群體,針對不同的顧客群體采取針對性強的產(chǎn)品推廣方法D、據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習慣等相關信息,給顧客推薦不同的商品參考答案:C11.一個分布式應用程序協(xié)調服務,分布式應用程序可以基于它實現(xiàn)同步服務,配置維護和命名服務等的工具有A、FlumeB、ZookeeperC、StormD、Sparkstreaming參考答案:B12.一幅灰度級均勻分布的圖象,其灰度范圍在[0,255],則該圖象的信息量為A、0B、255C、6D、8參考答案:D13.一般來說,下列哪種方法常用來預測連續(xù)獨立變量A、線性回歸B、邏輯回顧C、線性回歸和邏輯回歸都行D、以上說法都不對參考答案:A14.下面哪句話是正確的?A、機器學習模型的精準度越高,則模型的性能越好B、增加模型的復雜度,總能減小測試樣本誤差C、增加模型的復雜度,總能減小訓練樣本誤差D、以上說法都不對參考答案:C15.下面哪個超參數(shù)的增加可能會造成隨機森林過擬合()A、隨機種子數(shù)B、學習速率C、樹的深度D、樹的數(shù)量參考答案:C16.下面哪個不是RDD的特點A、可分區(qū)B、可序列化C、可修改D、可持久化參考答案:C17.下面關于隨機變量的說法,正確的有()A、投擲100次6面骰子,"得到的點數(shù)為1的次數(shù)"這個隨機變量的取值范圍是20到100B、隨機變量是一次隨機事件得到的結果C、投擲一次6面骰子得到的點數(shù)是一個隨機變量,取值范圍是1,2,3,4,5,6D、隨機變量是隨機而定的變量參考答案:C18.下面關于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法,錯誤的是()A、可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分布B、正態(tài)分布是一種連續(xù)型隨機變量的概率分布C、"一個客服一天可能接聽到多少個電話"是一個連續(xù)型隨機變量D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1參考答案:C19.下面關于回歸的說法,錯誤的是()A、線性回歸是一種經(jīng)典的回歸分析方法B、回歸用于分析自變量和應變量之間的關系C、自變量X(也就是特征)往往包含多個特征D、在回歸中,建立應變量關于自變量的函數(shù),自變量是應變量在函數(shù)上的映射參考答案:D20.下列演示方式中,不屬于傳統(tǒng)統(tǒng)計圖方式的是()A、柱狀圖B、餅狀圖C、曲線圖D、網(wǎng)絡圖參考答案:D21.下列關于支持向量機優(yōu)化性問題形式的說法正確的是()。A、它是一個凸二次規(guī)劃問題B、它是一個凸一次規(guī)劃問題C、它是一個凹二次規(guī)劃問題D、它是一個凹一次規(guī)劃問題參考答案:A22.下列關于數(shù)據(jù)整合和分組的說法不正確的是()。A、數(shù)據(jù)連接可以用concat或merge函數(shù)B、axis=1表示軸向連接C、數(shù)據(jù)分組可以使用mean函數(shù)D、使用agg可以自定義多個聚合函數(shù)參考答案:C23.下列關于數(shù)據(jù)交易市場的說法錯誤的是()。A、數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物B、商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場C、數(shù)據(jù)交易市場通過生產(chǎn)、研發(fā)和分析數(shù)據(jù),為數(shù)據(jù)交易提供幫助D、數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物參考答案:C24.下列關于深度神經(jīng)網(wǎng)絡的說法正確的是()。A、增加神經(jīng)網(wǎng)絡層數(shù),可能會增加測試數(shù)據(jù)集的分類錯誤率B、減少神經(jīng)網(wǎng)絡層數(shù),總是能減小測試數(shù)據(jù)集的分類錯誤率C、增加神經(jīng)網(wǎng)絡層數(shù),總是能減小訓練數(shù)據(jù)集的分類錯誤率D、A、B都對參考答案:A25.下列關于計算機存儲容量單位的說法錯誤的是()。A、1kB<1MB<1GBB、基本單位是字節(jié)(Byte)C、一個漢字需要一個字節(jié)的存儲間D、一個字節(jié)能夠容納一個英文字符參考答案:C26.下列關于計算機編程語言的說法錯誤的是()A、編程語言是用于書寫計算機程序的語言B、計算機語言可分為機器語言、匯編語言、高級語言C、計算機能識別和執(zhí)行所有編程語言寫的程序D、C/C=++pascal、java、Python都屬于高級編程語言參考答案:C27.下列關于分類算法的準確率、召回率、F1值的描述錯誤的是()。A、準確率是檢索出相關文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準率B、召回率是指檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率C、正確率、召回率和F1值取值都在0和1之間,數(shù)值越接近0,查準率或查全率就越高D、為了解決準確率和召回率沖突問題,引入了F1分數(shù)參考答案:C28.下列關于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應用程序不同B、與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務C、OLAP的特點在于事務量大,但事務內(nèi)容比較簡單且重復率高D、OLAP是以數(shù)據(jù)倉庫為基礎的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的參考答案:C29.下列關于MapReduce計算框架中生成鍵值對的說法正確的是()。A、可以有相同的鍵,值必須唯一B、可以有相同的值,鍵必須唯一C、可以有相同的鍵,也可以有相同的值D、鍵和值都必須唯一參考答案:C30.下列關于L1正則化與L2正則化的描述錯誤的是()。A、L1范數(shù)正則化有助于降低過擬合風險B、L2范數(shù)正則化有助于降低過擬合風險C、L1范數(shù)正則化比L2范數(shù)正則化更易于獲得稀疏解D、L2范數(shù)正則化比L1范數(shù)正則化更易于獲得稀疏解參考答案:D31.下列關于L1、L2正則化的說法正確的是()。A、L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B、L2正則化技術又稱為LassoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏參考答案:C32.下列關于DBSCAN算法的說法,正確的是:A、DBSCAN算法根據(jù)?和min_samples把樣本點分成Core,outlier兩類B、如果以一個樣本點為中心,以?為半徑的范圍內(nèi)的樣本點總數(shù)小于min_samples,那么此樣本點就會被認為是異常點C、如果以一個樣本點為中心,在以?為半徑的范圍內(nèi)有大于或等于min_samples的樣本點,則這個樣本點屬于Reachable類D、DBSCAN算法根據(jù)?和min_samples把樣本點分成Core,Reachable,outlier三類參考答案:D33.下列方法中屬于映射數(shù)據(jù)到新的間的是()。A、傅里葉變換B、特征加權C、漸進抽樣D、維歸約參考答案:A34.下列處理方法能獲得像素級標注的是()。A、圖像分類B、物體檢測C、圖像去噪D、語義分割參考答案:D35.下列不屬于數(shù)據(jù)科學與統(tǒng)計學區(qū)別的是()。A、數(shù)據(jù)科學中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學關注的不僅僅是"單一學科"問題,超出了數(shù)學、統(tǒng)計學、計算機科學等單一學科的范疇C、數(shù)據(jù)科學不僅僅是理論研究,也不是純領城實務知識,它關注和強調的是二者的結合D、數(shù)據(jù)科學和統(tǒng)計學中的計算一樣,僅僅是加減乘除參考答案:D36.下列不適合使用機器學習方法解決的是()。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環(huán)C、判斷是否給指定用戶辦理信用卡D、對滴滴拼車乘客分簇參考答案:B37.數(shù)據(jù)資產(chǎn)需求是指滿足公司()所需要的數(shù)據(jù)。A、業(yè)務發(fā)展B、經(jīng)營管理C、數(shù)據(jù)資產(chǎn)應用D、以上都選參考答案:D38.數(shù)據(jù)資產(chǎn)生成是指數(shù)據(jù)在業(yè)務信息系統(tǒng)中通過自動采集或()創(chuàng)建的過程。A、人工錄入B、自動錄入C、人工編輯D、自動生成參考答案:A39.數(shù)據(jù)資產(chǎn)規(guī)劃與計劃管理是指制定數(shù)據(jù)資產(chǎn)()并組織實施。A、發(fā)展戰(zhàn)略B、規(guī)劃C、年度計劃D、以上都選參考答案:D40.數(shù)據(jù)資產(chǎn)管理()制定公司數(shù)據(jù)資產(chǎn)標準規(guī)范,業(yè)務部門按照規(guī)范制定本專業(yè)數(shù)據(jù)資產(chǎn)標準,跨專業(yè)、跨部門的數(shù)據(jù)資產(chǎn)標準應充分考慮后序使用環(huán)節(jié)的要求。A、歸口部門B、上級部門C、管理部門D、業(yè)務部門參考答案:A41.數(shù)據(jù)支撐單位要加強對所屬()的管理,相關人員及變動情況要在所服務的運監(jiān)中心登記備案。A、工作人員B、數(shù)據(jù)支撐人員C、數(shù)據(jù)管理人員D、所有人員參考答案:B42.輸人圖像已被轉換為大小為28×28的矩陣和大小為7×7的步幅為1的核心/濾波器,則卷積矩陣的大小是()。A、22×22B、21×21C、28×28D、7×7參考答案:A43.設計為8層的卷積神經(jīng)網(wǎng)絡AlexNet網(wǎng)絡成功使用(),其效果遠遠地超過了Sigmoid兩數(shù)。A、ReLU函數(shù)B、sigmoid函數(shù)C、tanh函數(shù)D、sin函數(shù)參考答案:A44.設計分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時,為取樣更高效,一般可以對表中的連續(xù)字段進行什么操作。A、分桶B、分區(qū)C、索引D、分表參考答案:A45.若有33個長度不等的初始歸并段,做7路平衡歸并排序,為組織最佳歸并樹,應增加長度為0的初始歸并段的個數(shù)是________。A、0B、2C、4D、6參考答案:C46.若三階矩陣A的行列式|A|=8,已知A有2個特征值,4和-1,則它的另一特征值為A、2B、-2C、5D、-5參考答案:B47.若N=100,如何將后面的N個字節(jié)讀入字符串中錯誤的是?A、open('file').readlines()B、open('file').read(N)C、線性降維方法目標是要保證降維到的超平面能更好地表示原始數(shù)據(jù)D、核線性降維方法目標是通過核函數(shù)和核方法來避免采樣間投影到高維間再降維之后的低維結構丟失參考答案:A48.如何調用Scikit-learn中的數(shù)據(jù)劃分模塊?A、fromsklearn.model_selectionimporttrain_test_splitB、fromsklearn.datasetsimporttrain_test_splitC、fromsklearn.datasetsimportsplit參考答案:A49.如果說線性回歸模型完美地擬合了訓練樣本(訓練樣本誤差為零),則下列說法正確的是()。A、測試樣本誤差始終為零B、測試樣本誤差不可能為零C、測試樣本誤差不一定為零D、以上答案都不對參考答案:C50.哪個不是DDL(數(shù)據(jù)庫定義語言)語句?A、ALTERB、CREATEC、dropD、GRANT參考答案:D51.目前,我國在大數(shù)據(jù)發(fā)展和應用方面已具備一定基礎,擁有市場優(yōu)勢和()。A、發(fā)展優(yōu)勢B、發(fā)展能力C、發(fā)展?jié)摿、穩(wěn)定發(fā)展參考答案:C52.卡方檢驗是用途非常廣的一種假設檢驗方法,卡方檢驗中將任意兩行互換則卡方值()A、變大B、變小C、不變D、不確定參考答案:C53.假設正在訓練一個LSTM網(wǎng)絡,有一個10000詞的詞匯表,并且使用一個激活值維度為100的LSTM塊,在每一個時間步中,Tu的維度是()。A、1B、100C、300D、10000參考答案:B54.假設有一個如下定義的神經(jīng)網(wǎng)絡,如果去掉ReLU層,這個神經(jīng)網(wǎng)絡仍能處理非線性函數(shù),這種說法是()A、正確的B、錯誤的C、兩者并沒有關系D、以上都不對參考答案:A55.假設precision=TP/(TP+FP),recall=TP/(TP+FN),則在二分類問題中,當測試集的正例和負例數(shù)量不均衡時,下列評價方案中相對不合理的是()。A、Accuracy:(TP+TN)/allB、F-value:2*recall*precision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲線下面積參考答案:A56.假如使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸人特征有100個(X1,X2,…,X100)?,F(xiàn)在,把其中一個特征的值擴大10倍(如特征X1),然后用相同的正則化參數(shù)對Lasso回歸進行修正。那么下列說法正確的是()。A、特征X1很可能被排除在模型之外B、特征X1很可能還包含在模型之中C、無法確定特征X1是否被舍D、以上答案都不正確參考答案:B57.計算機顯示器主要采用哪一種彩色模型A、RGBB、CMY或CMYKC、CMY或CMYKD、HSV參考答案:A58.極大似然估計與最大后驗估計的思想來自于()A、兩種參數(shù)估計方法都來自于頻率派B、極大似然估計來自于貝葉斯學派,最大后驗估計來自于頻率派C、極大似然估計來自于頻率派,最大后驗估計來自于貝葉斯學派D、兩種參數(shù)估計方法都來自于貝葉斯學派參考答案:C59.機器學習的應用包括哪方面()A、數(shù)據(jù)挖掘B、自然語言處理C、計算機視覺D、以上皆是參考答案:D60.回歸方程判定系數(shù)的計算公式R2=SSR/SST=1-SSE/SST,對判定系數(shù)描述錯誤的是()。A、SSE指殘差平方和B、SSR指總離差平方和C、判定系數(shù)用來衡量回歸方程的擾合優(yōu)度D、判定系數(shù)R2等于相關系數(shù)的平方參考答案:B61.過濾式特征選擇、包裹式特征選擇與學習器的關系分別是()。A、相關,相關B、相關,不相關C、不相關,相關D、不相關,不相關參考答案:C62.關于HDFS的文件寫入,正確的是A、支持多用戶對同一文件的寫操作B、用戶可以在文件任意位置進行修改C、默認將文件塊復制成三份存放D、復制的文件塊默認都存在同一機架上參考答案:C63.構建一個神經(jīng)網(wǎng)絡,將前-層的輸出和它自身作為輸人,則有反饋連接的是()。A、循環(huán)神經(jīng)網(wǎng)絡B、卷積神經(jīng)網(wǎng)絡C、限制玻爾茲曼機D、都不是參考答案:A64.根據(jù)不同的業(yè)務需求來建立數(shù)據(jù)模型,抽取最有意義的向量,決定選取哪種方法的數(shù)據(jù)分析角色人員是()A、數(shù)據(jù)管理人員B、數(shù)據(jù)分析員C、研究科學家D、軟件開發(fā)工程師參考答案:C65.各單位應深入分析數(shù)據(jù)資產(chǎn)質量問題產(chǎn)生的原因,以"()"為基本策略,制定數(shù)據(jù)資產(chǎn)質量提升措施,從數(shù)據(jù)源頭解決數(shù)據(jù)資產(chǎn)質量問題。A、控制存量、消除增量B、控制增量、消除存量C、控制增量、消除增量D、控制存量、消除存量參考答案:B66.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉移函數(shù)加上一常數(shù)量以便引入一些低頻分量。這樣的濾波器叫A、巴特沃斯高通濾波器B、高頻提升濾波器C、高頻加強濾波器D、理想高通濾波器參考答案:B67.對于SQL語句select*fromtwherea=100andb=200,哪個索引可以使用到?A、索引idx_b(b)B、索引idx_b_a(b,a)C、索引idx_a_b(a,b)D、都可以參考答案:D68.對一幅100x100像元的圖象,若每像元用8bit表示其灰度值,經(jīng)霍夫曼編碼后壓縮圖象的數(shù)據(jù)量為40000bit,則圖象的壓縮比為A、084028B、125694C、167361D、043056參考答案:C69.對特征進行標準化,以下說法不正確的是()A、可以使所有特征數(shù)據(jù)處于相同的大小維度B、可以加快梯度下降的收斂速度C、會使模型出現(xiàn)過擬合D、避免了模型對數(shù)據(jù)偏差處理參考答案:C70.對參數(shù)進行L2正則,是機器學習常用的防止過擬合的方法。對參數(shù)做L2正則時,()是對參數(shù)本身做先驗分布假設。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勾分布參考答案:A71.點擊率的預測是--個數(shù)據(jù)比例不平衡問題(如訓練集中樣本呈陰性的比例為99%,陽性的比例是1%),如果用這種數(shù)據(jù)建立模型并使得訓練集的準確率高達99%。則可以得出結論是()。A、模型的準確率非常高,我們不需要進一步探索B、模型不好,我們應建一個更好的模型C、無法評價模型D、以上答案都不正確參考答案:C72.大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用()。A、所有數(shù)據(jù)B、部分數(shù)據(jù)C、少量數(shù)據(jù)D、抽樣數(shù)據(jù)參考答案:A73.大數(shù)據(jù)的特點不包括下面哪一項A、巨大的數(shù)據(jù)量B、多結構化數(shù)據(jù)C、增長速度快D、價值密度高參考答案:D74.從數(shù)字集合{1,2,3,4,…,20}中選出4個數(shù)字的子集,如果不允許兩個相連的數(shù)字出現(xiàn)在同一集合中,那么能夠形成多少個這種子集?A、2380B、816C、330D、1220參考答案:A75.常用的圖像去噪方法包括()。A、高斯濾波B、中值濾波C、P-M方程去噪D、以上答案都正確參考答案:D76.采用冪次變換進行灰度變換時,當冪次取大于1時,該變換是針對如下哪一類圖像進行增強A、圖像整體偏暗B、圖像整體偏亮C、圖像細節(jié)淹沒在暗背景中D、圖像同時存在過亮和過暗背景參考答案:B77.不屬于Mayer-SchonbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革的是()。A、不是隨機樣本,而是全體數(shù)據(jù)B、不是精確性,而是混雜性C、不是描述性分析,而是預測性分析D、不是因果關系,而是相關關系參考答案:C78.表t1中有id,name,salary三列,如果t1是一個論壇的發(fā)帖信息表,id是發(fā)帖人的編號,name是帖子的標題,salary是每次發(fā)帖論壇獎勵的分數(shù)。表示更新t1表中字段內(nèi)容的語句是()A、createtablet1(idint,namechar(30),salaryint)B、droptablet1C、createviewv_t1asselectid,namefromt1D、updatet1setname='lixiaoming'whereid=100參考答案:D79.Stage的Task的數(shù)量由什么決定A、PartitionB、JobC、StageD、TaskScheduler參考答案:A80.Spark支持的分布式部署方式中哪個是錯誤的A、standaloneB、sparkonmesosC、sparkonYARND、Sparkonlocal參考答案:D81.plt.boxplotA、繪制餅圖B、繪制折線圖C、繪制直方圖D、繪制箱線圖參考答案:D82.LSM結構的數(shù)據(jù)首先存儲在A、硬盤上B、內(nèi)存中C、磁盤陣列中D、閃存中參考答案:B83.LLE適用于以下哪種數(shù)據(jù)()A、非閉合的球面B、稀疏數(shù)據(jù)C、分布不均的數(shù)據(jù)D、以上都適合參考答案:A84.hive的元數(shù)據(jù)存儲在derby和MySQL中有什么區(qū)別A、沒區(qū)別B、多會話C、支持網(wǎng)絡環(huán)境D、數(shù)據(jù)庫的區(qū)別參考答案:B85.HFile數(shù)據(jù)格式中的MetaIndex字段用于()A、Meta塊的長度B、Meta塊的結束點C、Meta塊數(shù)據(jù)內(nèi)容D、Meta塊的起始點參考答案:D86.HFile數(shù)據(jù)格式中的Magic字段用于A、存儲隨機數(shù),防止數(shù)據(jù)損壞B、存儲數(shù)據(jù)的起點C、存儲數(shù)據(jù)塊的起點D、指定字段的長度參考答案:A87.HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可行的改進策略不包括A、利用SequenceFile、MapFile、Har等方式歸檔小文件B、多Master設計C、Block大小適當調小D、調大namenode內(nèi)存或將文件系統(tǒng)元數(shù)據(jù)存到硬盤里參考答案:D88.HBase依賴()提供強大的計算能力A、ZookeeperB、ChubbyC、RPCD、MapReduce參考答案:D89.HBase分布式模式最好需要()個節(jié)點A、1B、2C、3D、4參考答案:C90.Hadoop中,Reducer的三個步驟是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shufle-Reduce參考答案:A91.Hadoop的作者是下面哪一位A、MartinFowlerB、DougcuttingC、KentBeckD、GraceHopper參考答案:B92.DBSCAN算法可以適用于以下哪種數(shù)據(jù)()A、有噪聲的數(shù)據(jù)集B、稠密數(shù)據(jù)集C、非凸數(shù)據(jù)集D、以上都適用參考答案:D93.()認為,大數(shù)據(jù)時代的數(shù)據(jù)管理目標不一定理想和完美,一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐е铝硪粋€特征的損失(放棄)。A、CAP理論B、BASE原則C、數(shù)據(jù)一致性理論D、大數(shù)據(jù)法則參考答案:A94.()能使圖像亮度得到平緩漸變,減小突變梯度,改善圖像質量。A、圖像平滑B、圖像分類C、圖像識別D、圖像分割參考答案:A多選題1.在有關數(shù)據(jù)倉庫測試,下列說法正確的是()A、在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.B、當數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試.C、系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試.D、在測試之前沒必要制定詳細的測試計劃.參考答案:ABC2.在數(shù)據(jù)庫的SQL語言開發(fā)中,下述關于Union和Unionall的描述哪些是正確的:A、使用Union或Unionall組合查詢的數(shù)據(jù)集,需滿足兩個條件:列數(shù)和列的順序必須相同;數(shù)據(jù)類型必須兼容B、Union在進行表鏈接后會篩選掉重復的記錄,所以在表鏈接后會對所產(chǎn)生的結果集進行排序運算,刪除重復的記錄再返回結果。C、Unionall返回的結果集就會包含重復的數(shù)據(jù)了,如果表數(shù)據(jù)量大的話可能會導致用磁盤進行排序。因此,從效率上說,union要比unionall快很多D、如果可以確認合并的兩個結果集中不包含重復的數(shù)據(jù)的話,那么就建議使用Unionall參考答案:ABD3.在梳理抽象業(yè)務線索及需求到具體數(shù)據(jù)時常用到5W2H模型,那么通過5W2H模型整理數(shù)據(jù)的思維步驟包括哪些()A、將業(yè)務場景進行5W2H的概括總結B、將5W2H總結內(nèi)容梳理為業(yè)務維度C、將業(yè)務維度梳理為數(shù)據(jù)表D、將數(shù)據(jù)表展開到字段參考答案:ABCD4.在分析人員向決策者提交業(yè)務分析報告匯報分析成果時,業(yè)務分析報告的文字信息應盡量避免()A、對圖表信息重復描述B、過多主觀推測性結論C、對圖表信息進行總結D、對論據(jù)進行片面解讀參考答案:ABD5.在"人貨場"的業(yè)務模塊下,有可能成為描述"場"的情況的相關數(shù)據(jù)表是()A、訂單表B、訂單詳情表C、客戶詳情表D、區(qū)域表參考答案:AB6.用于分類的指標是()。A、rocB、f1C、R^2D、precision參考答案:ABD7.以下說法正確的是()。A、聚類是監(jiān)督學習B、聚類是非監(jiān)督學習C、分類是非監(jiān)督學習D、分類是監(jiān)督學習參考答案:BD8.以下哪種是數(shù)據(jù)標準化方法A、向量歸一化B、平均值法C、最大值法D、線性比例變換法參考答案:ABD9.以下哪種方法能夠防止過擬合()A、增加訓練次數(shù)B、正則化C、數(shù)據(jù)集擴增D、dropout參考答案:BCD10.以下關于損失函數(shù)說法正確的是()A、損失函數(shù)可以用于評價模型的擬合效果B、損失函數(shù)的選取是固定的C、可以通過損失函數(shù)構造優(yōu)化目標D、線性回歸模型常用mse作為損失函數(shù)參考答案:ACD11.以下關于數(shù)據(jù)分析類型的說法正確的是()A、探索型數(shù)據(jù)分析指的是在盡量少的假設和猜想下對已有的數(shù)據(jù)進行探索,通常通過圖形展示數(shù)據(jù)的真實分布,發(fā)現(xiàn)數(shù)據(jù)具有的特性B、驗證型的數(shù)據(jù)分析主要通過統(tǒng)計學里的假設檢驗方法,驗證假設是否成立C、預測型數(shù)據(jù)分析主要通過統(tǒng)計學習、機器學習等的一些方法對已有的數(shù)據(jù)進行分析得出模型,利用模型對未知的數(shù)據(jù)進行預測D、數(shù)據(jù)分析主要指的是探索型數(shù)據(jù)分析參考答案:ABC12.下面關于隨機森林和集成學習的說法,正確的是:A、隨機森林只能用于解決分類問題B、隨機森林由隨機數(shù)量的決策樹組成C、集成學習通過構建多個模型,并將各個模型的結果使用求平均數(shù)的方法集成起來,作為最終的預測結果,提高分類問題的準確率D、隨機森林的弱分類器(基分類器)的特征選擇是隨機的參考答案:CD13.下面關于隨機變量的說法,正確的有:A、投擲一次6面骰子得到的點數(shù)是一個隨機變量,取值范圍是1,2,3,4,5,6B、隨機變量是一次隨機事件得到的結果C、隨機變量是隨機而定的變量D、投擲100次6面骰子,"得到的點數(shù)為1的次數(shù)"這個隨機變量的取值范圍是0到100參考答案:AD14.下面關于邏輯回歸的說法,正確的是:A、邏輯回歸主要應用于二分類問題B、邏輯回歸使用LogisticFunction后得到的數(shù)值在-1到1之間C、把邏輯回歸應用于多分類問題時,需要使用Onevs.Rest方法D、邏輯回歸得到的數(shù)值可以看作屬于類別1的概率參考答案:ACD15.下面關于回歸的說法,正確的是:A、自變量X(也就是特征)往往包含多個特征B、回歸用于分析自變量和應變量之間的關系C、線性回歸是一種經(jīng)典的回歸分析方法D、在回歸中,建立應變量關于自變量的函數(shù),應變量是自變量在函數(shù)上的映射參考答案:ABCD16.下面關于TRUNCATE和DELETE的說法正確的是A、TRUNCATE屬于DDL,而DELETE屬于DMLB、TRUNCATE與DELETE均能夠刪除表中的指定記錄C、TRUNCATE不能刪除表中指定的記錄,而DELETE能夠刪除表中的指定記錄D、在清表記錄的操作時,TRUNCATE的執(zhí)行效率比DELETE高參考答案:CD17.下面關于k近鄰的說法,正確的是:A、根據(jù)特征向量X計算樣本之間的相似性,選擇離中心點最相似的k個樣本B、k近鄰既可以用于分類,也可以用于回歸C、k近鄰用于分類時,對于新的樣本,計算離其最近的k個樣本的平均值,作為新樣本的預測值D、k近鄰用于分類時,對于新的樣本,根據(jù)其k個最近鄰樣本的類別,通過多數(shù)表決的方式預測新樣本的類別參考答案:BD18.下列說法正確的是()A、cookielib庫提供可存儲cookie的對象,以便于與urllirequest庫配合使用來進行訪問B、過于頻繁的爬蟲不會帶給網(wǎng)站額外的壓力C、使用.split()可以進行字符串的拆分D、正則表達式可以實現(xiàn)對爬取信息的快速過濾參考答案:ACD19.下列說法錯誤的有()。A、列表是有序的B、集合是有序的C、元組是有序的D、字典是有序的參考答案:BD20.下列關于總體和樣本的說法正確的有()。A、總體也就是研究對象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機抽樣D、如果總體是某一小學的1000名學生,那么樣本可以是一年級的100名學生參考答案:ABC21.下列關于字典的遍歷的描述正確的有()A、forin變量i,字典:使用i遍歷所有的鍵,有鍵就可以通過變量訪問其值B、fbr變量iin字典:使用i遍歷所有的鍵,有鍵就可以通過變量訪問其值C、fbr變量i,變量jin字典items):使用變量i遍歷所有鍵,通過變量j遍歷所有值D、forin變量i,變量j字典items):使用變量i遍歷所有鍵,通過變量j遍歷所有值參考答案:BC22.下列關于表連接的說法,錯誤的是()A、rightjoin連接的左表和右表,即使右表沒有對應匹配的記錄,也會返回左表所有記錄B、innerjoin用來連接一張表中某一字段在另一張表中對應字段相匹配的值C、leftjoin連接的左表和右表,即使左表沒有對應匹配的記錄,也會返回右表所有記錄D、連接table1和table2兩張表時,table1innerjointable2后面指定兩個表之間連接的字段,字段可以不用完全引用表名參考答案:ACD23.下列關于MySQL表的數(shù)據(jù)類型,說法正確的是()A、使用HeidiSQL導入數(shù)據(jù)表中的數(shù)據(jù),在設置字段的時候需要注意數(shù)據(jù)表中對應字段的數(shù)據(jù)類型B、數(shù)據(jù)類型CHAR和VARCHAR的區(qū)別是CHAR指定定長字符串類型,并且必須在圓括號內(nèi)用一個大小修飾符來定義,VARCHAR指定可變長度字符串類型C、明確指定數(shù)據(jù)類型可以保證插入數(shù)據(jù)的數(shù)據(jù)類型的一致性,還可以優(yōu)化存儲D、MySQL中的數(shù)據(jù)類型主要包括數(shù)值類型、字符串類型、運算符號類型參考答案:ABC24.下列關于json數(shù)據(jù)格式的說法正確的有()A、jsonloads栽入json格式數(shù)據(jù)后會用類似數(shù)組的方式把數(shù)據(jù)轉換成數(shù)據(jù)表B、具有數(shù)據(jù)結構緊湊可讀性強的優(yōu)點C、Python中可以使用json模塊把json格式字符串解碼轉換成Python對象D、網(wǎng)絡中交換數(shù)據(jù)最常見的格式之一參考答案:BCD25.下列關于HDFS文件寫人的描述正確的有()。A、不支持多用戶對同一文件的寫操作B、用戶不可以在文件任意位置進行修改C、默認將文件復制成三份存放D、復制的文件塊默認不存在同一機架上參考答案:ABCD26.圖象增強按增強處理所在間不同分為A、頻率B、域C、峰值D、頻域參考答案:BD27.數(shù)據(jù)資產(chǎn)維護是指為保證數(shù)據(jù)質量,對數(shù)據(jù)進行()錄入等處理的過程。A、更正B、刪除C、補充D、保存參考答案:ABC28.數(shù)據(jù)預處理的方法有()。A、標準化B、訓練模型C、歸一化D、填充缺失值參考答案:ACD29.數(shù)據(jù)流轉和應用過程中應確保(),前序環(huán)節(jié)應保證數(shù)據(jù)的真實、完整并及時傳遞到后序環(huán)節(jié),前后環(huán)節(jié)數(shù)據(jù)應保持銜接一致。A、可追溯B、可復查C、可交換D、可更改參考答案:AB30.數(shù)據(jù)計算之后持久化緩存A、checkpointB、MemoryC、persistD、Add參考答案:AC31.確定數(shù)據(jù)分析的問題可以從以下哪些方面進行:A、問題的挑戰(zhàn)性,即對于該問題其他人無法得出有效結論B、問題的可行性,即問題是否可以量化以及是否有數(shù)據(jù)支持C、問題的新穎性,即該問題是否已有人涉及D、問題的重要性,即該問題解決以后是否可以產(chǎn)生實際作用和效益參考答案:ABCD32.你所理解的Spark的shuffle過程A、shuffle過程的劃分B、shuffle的中間結果如何存儲C、shuffle的數(shù)據(jù)如何拉取過來D、shuffle的數(shù)據(jù)處理參考答案:ABC33.堅持創(chuàng)新驅動發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應用,已成為()和推動政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇。A、穩(wěn)增長B、促改革C、調結構D、惠民生參考答案:ABCD34.假定存在t=(1,2,3),如何轉化為listA、t[0:-1]B、t[0:len(t)]C、t.convert()D、list(t)參考答案:ABC35.歸集數(shù)據(jù)資產(chǎn)應用成果,評估數(shù)據(jù)資產(chǎn)應用成效,加強成果(),促進共享和應用。A、統(tǒng)一管理B、專業(yè)管理C、管理應用D、統(tǒng)一應用參考答案:BCD36.觀察樣本次數(shù)如何影響過擬合?注意:所有情況的參數(shù)都保持一致A、觀察次數(shù)少,容易發(fā)生過擬合B、觀察次數(shù)少,不容易發(fā)生過擬合C、觀察次數(shù)多,容易發(fā)生過擬合D、觀察次數(shù)多,不容易發(fā)生過擬合參考答案:AD37.關于特征向量的缺失值處理方式如下:缺失值較多,直接將該特征舍棄掉,否則可能會帶人較大的noise,對結果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),可以采取的處理方式有()。A、把NaN直接作為一個特征,假設用0表示B、用均值填充C、用隨機森林等算法預測填充D、以上選項都不正確參考答案:ABC38.關于算法的描述,以下選項中正確的是A、算法是指解題方案的準確而完整的描述B、算法的復雜度主要包括時間復雜度和數(shù)據(jù)復雜度C、算法具有可行性、確定性、有窮性的基本特征D、算法的基本要素包括數(shù)據(jù)對象的運算和操作及算法的控制結構參考答案:ACD39.關于數(shù)據(jù)結構的描述,以下選項中錯誤的是A、數(shù)據(jù)結構指相互有關聯(lián)的數(shù)據(jù)元素的集合B、數(shù)據(jù)的存儲結構是指反映數(shù)據(jù)元素之間邏輯關系的數(shù)據(jù)結構C、數(shù)據(jù)結構不可以直觀地用圖形表示D、數(shù)據(jù)的邏輯結構有順序、鏈接、索引等存儲方式參考答案:BCD40.關于數(shù)據(jù)分析流程,下列說法正確的是:A、探索型數(shù)據(jù)分析發(fā)現(xiàn)的數(shù)據(jù)特征可以很好地指導后續(xù)預測型數(shù)據(jù)分析,但是對驗證型數(shù)據(jù)分析指導作用不大B、在預測型數(shù)據(jù)分析之前必須進行驗證型數(shù)據(jù)分析C、探索型數(shù)據(jù)分析和數(shù)據(jù)清理是相輔相成的,通過探索型數(shù)據(jù)分析可以發(fā)現(xiàn)數(shù)據(jù)異常值,從而指導數(shù)據(jù)清理D、預測型數(shù)據(jù)分析結果可以生成數(shù)據(jù)分析報告,從而指導決策參考答案:CD41.關于服務器-客戶端型數(shù)據(jù)庫和文件型數(shù)據(jù)庫的區(qū)別,以下哪些說法是正確的:A、關于前者,數(shù)據(jù)庫是安裝在數(shù)據(jù)庫服務器上的,客戶端需要通過網(wǎng)絡連接來進行訪問B、文件型數(shù)據(jù)庫是存儲在本地的,一些瀏覽器會傾向于使用這一類的數(shù)據(jù)庫存儲一些用戶記錄C、關于前者,任何一個機器都可以通過IP進行對數(shù)據(jù)庫服務器的訪問,但是會受到賬戶密碼的權限限制D、前者相對后者而言,更輕量級參考答案:ABC42.關于NoSQL型數(shù)據(jù)庫和SQL型數(shù)據(jù)庫之間的差別,以下哪些說法是正確的:A、MongoDBCassandra是非關系型數(shù)據(jù)庫B、Oracle,MSSQLServer,MySQL,SQLite都是關系型數(shù)據(jù)庫C、NoSQL數(shù)據(jù)庫不可以使用SQL語言進行查詢D、相比較非關系型數(shù)據(jù)庫而言,關系型數(shù)據(jù)庫在分布式的場合使用較多參考答案:ABC43.分類模型包括哪些?A、主成分分析B、lasso回歸C、邏輯回歸D、決策樹參考答案:CD44.二維數(shù)組切片時,a[b:c]中b和c分別代表的是()。A、b為行B、c為行C、c為列D、b為列參考答案:AC45.低通濾波法是使()受到抑制而讓()順利通過,從而實現(xiàn)圖像平滑的順序為A、高頻成分B、低頻成分C、中頻成分D、超頻成分參考答案:AC46.大數(shù)據(jù)關鍵技術及產(chǎn)品研發(fā)與產(chǎn)業(yè)化工程主要包括哪些()?A、網(wǎng)絡和大數(shù)據(jù)安全支撐體系建設B、加強大數(shù)據(jù)基礎研究C、大數(shù)據(jù)技術產(chǎn)品研發(fā)D、提升大數(shù)據(jù)技術服務能力參考答案:BCD47.測得某個采用按需調頁策略的計算機系統(tǒng)部分狀態(tài)數(shù)據(jù)為:CPU利用率5%,用于交換間的磁盤利用率95%,其他I/O設備利用率5%。試問,這種情況下()能提高CPU的利用率。A、增大內(nèi)存的容量B、增大磁盤交換區(qū)的容量C、減少多道程序的度數(shù)D、使用更快速的磁盤交換區(qū)參考答案:AC48.Svm適用于以下哪種數(shù)據(jù)集()A、的數(shù)據(jù)集B、含有很多噪聲和重疊的數(shù)據(jù)C、經(jīng)過清洗較為干凈的數(shù)據(jù)D、以上數(shù)據(jù)都適用參考答案:ACD49.spark中master管理什么?A、管理集群B、節(jié)點C、計算節(jié)點D、組件參考答案:AB50.Knn算法的優(yōu)點包括以下哪項()A、精度高B、計算復雜度低C、對異常值不敏感D、無數(shù)據(jù)輸入假定參考答案:ACD51.Hadoop組件的核心功能包括A、分布式數(shù)據(jù)存儲B、分析C、挖掘D、分布式計算參考答案:AD52.excel工作簿a中有兩列id、age,工作簿b中有一列id,需要找到工作薄b中id對應的age,可用的函數(shù)包括A、index+matchB、vlookupC、hlookupD、find參考答案:AB判斷題1.字典中可以添加新的鍵-值A、正確B、錯誤參考答案:A2.在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)已成為國家重要的基礎性戰(zhàn)略資源,正引領新一輪科技創(chuàng)新。A、正確B、錯誤參考答案:A3.在scikit-learn中DBSCAN算法對于n_jobs參數(shù)值的選擇非常敏感A、正確B、錯誤參考答案:B4.在GradientBoostingTrees中可以生成并行樹,因為它們是相互獨立的A、正確B、錯誤參考答案:B5.一個對象的離群點得分是該對象周圍密度的逆。這是基于概率的離群點定義。A、正確B、錯誤參考答案:B6.圖像取反操作適用于增強圖像主體灰度偏亮的圖像A、正確B、錯誤參考答案:B7.通過郵件內(nèi)容來檢測該郵件是否為垃圾郵件,這是一個回歸問題A、正確B、錯誤參考答案:A8.提升電網(wǎng)運行效率可以實現(xiàn)先于用戶報修之前,生成主動搶修工單開展自動派發(fā)。A、正確B、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 超市商品管理及驗收制度
- 濟寧模特禮儀培訓
- 右江區(qū)四塘鎮(zhèn)里蘭鄉(xiāng)村振興光伏發(fā)電項目(重大變動)環(huán)境影響報告表
- 流行病學課件報告
- 樹狀圖求概率教學課件
- 2024-2025學年山西省臨汾市部分學校高二下學期期中考試歷史試題(C卷)(解析版)
- 2024-2025學年江蘇省鹽城市七校聯(lián)考高二上學期期中考試歷史試題(解析版)
- 2026年工程建造師專業(yè)技術課程測試模擬題及答案
- 2026年銀行從業(yè)者金融產(chǎn)品與服務知識考試題目及答案詳解
- 2026年軟件測試工程師面試題測試用例設計與執(zhí)行
- JT-T-325-2018營運客運類型劃分及等級評定
- 地球物理勘探與軍事勘察技術研究
- DL-T5440-2020重覆冰架空輸電線路設計技術規(guī)程
- (高清版)DZT 0216-2020 煤層氣儲量估算規(guī)范
- 浙江華港染織集團有限公司技改年產(chǎn)針織印染面料16860噸、機織印染面料13600萬米高檔印染面料項目環(huán)境影響報告
- 商業(yè)地產(chǎn)-天津津灣廣場一期都市綜合體業(yè)態(tài)配比方案方案-30-11月
- 中國機器人可靠性信息報告 2022
- 堇青蜂窩陶瓷微觀結構及熱膨脹系數(shù)的研究
- 電梯維修保養(yǎng)組織方案
- GB/T 9115-2010對焊鋼制管法蘭
- GB/T 22271.2-2021塑料聚甲醛(POM)模塑和擠出材料第2部分:試樣制備和性能測定
評論
0/150
提交評論