版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)工程技術(shù)人員初級[復(fù)制]判斷題
(×)1.切片是指維的位置互換。
(×)2.旋轉(zhuǎn)是指選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析。
(√)3.RFM模型的F值越大表示客戶交易越頻繁。
(√)4.多維數(shù)據(jù)模型是從多角度多層次進(jìn)行數(shù)據(jù)查詢和分析的的數(shù)據(jù)庫模型。
(√)5.RFM模型是根據(jù)客戶活躍程度和交易金額的貢獻(xiàn),進(jìn)行客戶價(jià)值細(xì)分的方法。
(√)6.數(shù)據(jù)可視化的本質(zhì)就是借助于圖形等各種手段,清晰有效地傳達(dá)與溝通信息。
(×)7.在可視化圖形中,應(yīng)該盡量使用3D圖形,因?yàn)楦恿Ⅲw好看!
(×)8.數(shù)據(jù)墨水比的比值越低,說明圖表中越多的視覺編碼被用于傳遞真正的信息,而不是出現(xiàn)冗余,或者用于描述一些其他的東西。
(√)9.格式塔原則的核心是整體決定部分的性質(zhì),部分依從于整體?
(√)10.本質(zhì)上,可視化是一個抽象的過程,是把數(shù)據(jù)映射到了幾何圖形和顏色上。從技術(shù)角度看,這很容易做到。難點(diǎn)在于,要知道什么形狀和顏色是最合適的、畫在哪里以及畫多大。
(√)11.數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。
(√)12.MAP軟件和Tableau軟件,都屬于無需編程語言的可視化工具。
(√)13.散點(diǎn)圖既可以展示數(shù)值分布又可以表示數(shù)據(jù)之間的關(guān)聯(lián)。()
(√)14.箱線圖中箱子的上下限,分別是數(shù)據(jù)的上四分位數(shù)和下四分位數(shù)。這意味著箱子包含了50%的數(shù)據(jù)。
(×)15.餅圖不足在于分類過多,則扇形越大,無法展現(xiàn)圖表
(√)16.熱力圖,也可以稱為熱圖、熱量表、密度表,主要用于展示數(shù)據(jù)的分布情況。
(√)17.柱狀圖的局限在于它僅適用于中小規(guī)模的數(shù)據(jù)集,當(dāng)數(shù)據(jù)較多時(shí)就不易分辨。
(√)18.方差是總體各標(biāo)志值與其算數(shù)平均數(shù)的離差的平方和的算數(shù)平均數(shù)。
(×)19.方差和標(biāo)準(zhǔn)差在離散趨勢中表達(dá)的內(nèi)容完全相同。
(√)20.分位數(shù)可以用來描述離散程度,最常用的是四分位數(shù)。
單項(xiàng)選擇題1.大數(shù)據(jù)的本質(zhì)是()。[單選題]*A.洞察B.搜集C.聯(lián)系D.挖掘(正確答案)2.網(wǎng)絡(luò)安全與信息化領(lǐng)導(dǎo)小組成立的時(shí)間是:()[單選題]*A.2015B.2012C.2013D.2014(正確答案)3.智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了()的數(shù)據(jù)采集技術(shù)的應(yīng)用。[單選題]*A.統(tǒng)計(jì)報(bào)表B.網(wǎng)絡(luò)爬蟲C.API接口D.傳感器(正確答案)4.分析顧客消費(fèi)行業(yè),以便有針對性的向其推薦感興趣的服務(wù),屬于()問題。[單選題]*A.關(guān)聯(lián)規(guī)則挖掘(正確答案)B.分類與回歸C.聚類分析D.時(shí)序預(yù)測5.企業(yè)在面向客戶制定運(yùn)營策略和營銷策略時(shí),希望能針對不同客戶推行不同策略,即希望對客戶群體進(jìn)行細(xì)分,這個問題屬于()[單選題]*A.關(guān)聯(lián)規(guī)則挖掘B.回歸問題C.聚類分析(正確答案)D.時(shí)序預(yù)測6.對本月股票走勢進(jìn)行預(yù)測,屬于()[單選題]*A.關(guān)聯(lián)規(guī)則挖掘B.回歸問題C.聚類分析D.時(shí)序預(yù)測(正確答案)7.如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為()。[單選題]*A.無序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則(正確答案)D.有序規(guī)則8.支撐大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)是()。[單選題]*A.數(shù)據(jù)科學(xué)B.數(shù)據(jù)應(yīng)用C.數(shù)據(jù)硬件D.數(shù)據(jù)人才(正確答案)9.以下關(guān)于Python用于數(shù)據(jù)分析的包,說法錯誤的是()[單選題]*A.seaborn是用于作統(tǒng)計(jì)圖的包B.sklearn是用于進(jìn)行機(jī)器學(xué)習(xí)的包C.Tensorflow是進(jìn)行深度學(xué)習(xí)的包D.numpy是python環(huán)境自帶的包,不需要用pip命令安裝(正確答案)10.以下關(guān)于數(shù)據(jù)分析平臺,說法正確的是()[單選題]*A.Python常用的數(shù)據(jù)分析平臺是JupyterNotebook.B.Python環(huán)境下安裝外來包的命令是install(正確答案)C.JupyterNotebook是一個交互式的數(shù)據(jù)分析平臺。D.JupyterNotebook是一個基于解釋器的運(yùn)行環(huán)境。11.以下不屬于數(shù)據(jù)分析任務(wù)的是()[單選題]*A.用網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)B.用一個特定值將數(shù)據(jù)集中的缺失數(shù)據(jù)填充C.清理電腦里的垃圾數(shù)據(jù)(正確答案)D.作圖探索和選擇合適的數(shù)據(jù)分析方法12.下列國家的大數(shù)據(jù)發(fā)展行動中,集中體現(xiàn)“重視基礎(chǔ)、首都先行”的國家是()。[單選題]*A.美國B.日本C.中國D.韓國(正確答案)13.關(guān)于相關(guān)分析,以下說法錯誤的是()[單選題]*A.相關(guān)系數(shù)的取值在-1到+1之間。B.相關(guān)系數(shù)取值為負(fù)數(shù),表示兩列數(shù)據(jù)之間不相關(guān)。(正確答案)C.相關(guān)系數(shù)取值為0,表示兩列數(shù)據(jù)之間不相關(guān)。D.可以用熱圖來表現(xiàn)數(shù)據(jù)集的相關(guān)系數(shù)矩陣。14.一般情況下,()越高,說明有更多的正類樣本被模型預(yù)測正確,模型的效果越好。[單選題]*A.查準(zhǔn)率B.錯誤發(fā)現(xiàn)率C.召回率Truepositiverate(TPR,Recall)(正確答案)D.陰性預(yù)測值15.數(shù)據(jù)倉庫的最終目的是()。[單選題]*A.收集業(yè)務(wù)需求B.建立數(shù)學(xué)模型的需要C.改寫各種算法的需要D.為用戶和業(yè)務(wù)部門提供決策支持(正確答案)16.數(shù)據(jù)挖掘常見的工具或算法,不包括()。[單選題]*A.聚類B.分類C.排序(正確答案)D.預(yù)測17.衡量某一關(guān)聯(lián)規(guī)則有兩個指標(biāo):關(guān)聯(lián)規(guī)則的支持度(support)和()。[單選題]*A.準(zhǔn)確度B.精密度C.置信度(正確答案)D.精確度18.()是均方誤差的算術(shù)平方根。[單選題]*A.標(biāo)準(zhǔn)差(SD,StandardDeviation)B.平均絕對誤差(MAE,MeanAbsoluteError)C.均方根誤差(RMSE,RootMeanSquareError)(正確答案)D.均方誤差(MSE,MeanSquaredError)19.在()關(guān)聯(lián)規(guī)則中,只涉及數(shù)據(jù)的一個維度,即處理單個屬性中的關(guān)系。[單選題]*A.單維(正確答案)B.多維C.單因素D.多因素20.云計(jì)算是對()技術(shù)的發(fā)展與運(yùn)用[單選題]*A.并行計(jì)算B.網(wǎng)絡(luò)計(jì)算C.分布式計(jì)算D.三個選項(xiàng)都是(正確答案)21.以下做法錯誤的是:()[單選題]*A.涉密存儲介質(zhì)淘汰、報(bào)廢時(shí),可以當(dāng)作廢品出售(正確答案)B.從互聯(lián)網(wǎng)上下載資料應(yīng)采用單向?qū)敕绞揭源_保安全C.用于聯(lián)接互聯(lián)網(wǎng)的計(jì)算機(jī),任何情況下不得處理涉密信息D.嚴(yán)禁在聯(lián)接互聯(lián)網(wǎng)計(jì)算機(jī)與內(nèi)部計(jì)算機(jī)之間混用優(yōu)盤等移動存儲介質(zhì)22.國務(wù)院辦公廳是在()印發(fā)的《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》?[單選題]*A.2014年B.2015年C.2013年D.2016年(正確答案)23.數(shù)據(jù)清洗的方法不包括()。[單選題]*A.缺失值處理B.噪聲數(shù)據(jù)清除C.一致性檢查D.重復(fù)數(shù)據(jù)記錄處理(正確答案)24.關(guān)于人工神經(jīng)網(wǎng)絡(luò),以下說法錯誤的是()[單選題]*A.人工神經(jīng)元是人工神經(jīng)網(wǎng)絡(luò)處理信息的基本單元。B.Relu是一種激活函數(shù)C.人工神經(jīng)網(wǎng)絡(luò)是解決聚類問題的算法。(正確答案)D.BP算法是一種典型的人工神經(jīng)網(wǎng)絡(luò)算法。25.可以用來表示時(shí)間變化趨勢的可視化手段是()[單選題]*A.折線圖(正確答案)B.餅圖C.條形圖D.馬賽克圖26.()是在沒有給定劃分類的情況下,根據(jù)信息相似度進(jìn)行操作的一種方法,因此又稱為無指導(dǎo)的學(xué)習(xí)。[單選題]*A.回歸B.聚類(正確答案)C.分類D.關(guān)聯(lián)規(guī)則27.下列關(guān)于計(jì)算機(jī)存儲容量單位的說法中,錯誤的是()。[單選題]*A.1KB<1MB<1GBB.基本單位是字節(jié)(Byte)C.一個漢字需要一個字節(jié)的存儲空間(正確答案)D.一個字節(jié)能夠容納一個英文字符28.以下關(guān)于回歸分析,說法正確的是()[單選題]*A.線性回歸也叫作Logistic回歸。B.回歸和分類問題是同一類問題,預(yù)測的結(jié)果都是離散值。C.回歸診斷的作用是幫助評價(jià)回歸模型的好壞。(正確答案)D.回歸屬于無監(jiān)督學(xué)習(xí)算法。29.下列關(guān)于箱線圖的描述中,正確的是()[單選題]*A.箱線圖是用來表現(xiàn)離散數(shù)據(jù)分布的統(tǒng)計(jì)圖。B.箱線圖中可以反映出一組數(shù)據(jù)的平均數(shù)。C.箱線圖中可以表現(xiàn)出缺失值。D.箱線圖中可以表現(xiàn)數(shù)據(jù)的分布狀況。(正確答案)30.根據(jù)資料顯示,以下哪項(xiàng)不屬于數(shù)據(jù)挖掘的內(nèi)容()?[單選題]*A.建立道路擁堵概率與擁堵趨勢變化模型B.多維分析統(tǒng)計(jì)用戶出行規(guī)律C.微軟開發(fā)的Windows10操作系統(tǒng)(正確答案)D.補(bǔ)充與完善路網(wǎng)屬性31.阿蘭?圖靈在哪一年提出圖靈測試的概念()。[單選題]*A.1952年B.1954年C.1950年(正確答案)D.1955年32.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為()。[單選題]*A.0.821B.1.22C.1.58D.0.716(正確答案)33.關(guān)于回歸分析,以下說法錯誤的是()[單選題]*A.邏輯回歸是線性回歸的加強(qiáng)版本,一定能夠改進(jìn)線性回歸的性能。B.回歸診斷不是回歸分析必須進(jìn)行的工作。C.回歸分析可以用來進(jìn)行預(yù)測新的數(shù)據(jù)。(正確答案)D.邏輯回歸的輸出結(jié)果是一個連續(xù)數(shù)據(jù)。34.ARIMA(p,d,q)稱為差分自回歸移動平均模型,P是()。[單選題]*A.自回歸項(xiàng)(正確答案)B.移動平均C.時(shí)間序列成為平穩(wěn)時(shí)所做的差分次數(shù)D.移動平均項(xiàng)數(shù)35.下列錯誤的是()。[單選題]*A.由于網(wǎng)絡(luò)是虛擬世界,所以在網(wǎng)上不需要保護(hù)個人的隱私(正確答案)B.雖然網(wǎng)絡(luò)世界不同于現(xiàn)實(shí)世界,但也需要保護(hù)個人隱私C.網(wǎng)絡(luò)時(shí)代,隱私權(quán)的保護(hù)受到較大沖擊D.可以借助法律來保護(hù)網(wǎng)絡(luò)隱私權(quán)36.在保護(hù)個人隱私方面,吳軍博士并沒有提到以下哪種方法()?[單選題]*A.法律的方法B.技術(shù)的方法C.文化的方法(正確答案)D.雙向監(jiān)督的方法37.下列關(guān)于舍恩伯格對大數(shù)據(jù)特點(diǎn)的說法中,錯誤的是()。[單選題]*A.數(shù)據(jù)規(guī)模大B.數(shù)據(jù)類型多樣C.數(shù)據(jù)處理速度快D.數(shù)據(jù)價(jià)值密度高(正確答案)38.假設(shè)12個銷售價(jià)格記錄組已經(jīng)排序如下5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時(shí),15在第幾個箱子內(nèi)()。[單選題]*A.第一個B.第二個(正確答案)C.第三個D.第四個39.2012年全國各城市支付寶人均支出排名中,位居第一位的是()[單選題]*A.嘉興市B.杭州市C.嘉義市(正確答案)D.高雄市40.以下大數(shù)據(jù)分析的實(shí)際問題,能夠應(yīng)用聚類方法建模的是()[單選題]*A.財(cái)政收入影響因素分析B.航空公司客戶價(jià)值分析(正確答案)C.商品零售購物籃分析D.門禁的人臉識別系統(tǒng)41.如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為()。[單選題]*A.無序規(guī)則B.窮舉規(guī)則(正確答案)C.互斥規(guī)則D.有序規(guī)則42.關(guān)于大數(shù)據(jù)在社會綜合治理中的作用,以下理解不正確的是()。[單選題]*A.大數(shù)據(jù)的運(yùn)用有利于走群眾路線B.大數(shù)據(jù)的運(yùn)用能夠維護(hù)社會治安C.大數(shù)據(jù)的運(yùn)用能夠杜絕抗生素的濫用(正確答案)D.大數(shù)據(jù)的運(yùn)用能夠加強(qiáng)交通管理43.標(biāo)準(zhǔn)偏差(SD,StandardDeviation)越小,這些值偏離平均值就越少。所以,標(biāo)準(zhǔn)差能反映一個數(shù)據(jù)集的()。[單選題]*A.平穩(wěn)程度B.變化程度C.精密程度D.離散程度(正確答案)44.概念分層圖是()圖。[單選題]*A.無向無環(huán)B.有向無環(huán)(正確答案)C.有向有環(huán)D.無向有環(huán)45.在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那么它的類型是()。[單選題]*A.基于圖的凝聚度B.基于原型的凝聚度C.基于原型的分離度(正確答案)D.基于圖的凝聚度和分離度46.活字印刷術(shù)是由()發(fā)明的。[單選題]*A.商鞅B.魯班C.蔡倫D.畢昇(正確答案)47.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)()?[單選題]*A.探索性數(shù)據(jù)分析(正確答案)B.建模描述C.預(yù)測建模D.尋找模式和規(guī)則48.()年,部分計(jì)算機(jī)專家首次提出大數(shù)據(jù)概念。[單選題]*A.2010B.2011C.2006D.2008(正確答案)49.算法不屬于聚類算法的是()。[單選題]*A.K-Means算法B.K-中心算法C.Apriori算法(正確答案)D.CLIOUE算法50.習(xí)近平總書記曾指出,沒有()就沒有國家安全,沒有信息化就沒有現(xiàn)代化。[單選題]*A.網(wǎng)絡(luò)安全(正確答案)B.信息安全C.基礎(chǔ)網(wǎng)絡(luò)D.互聯(lián)網(wǎng)51.“()大數(shù)據(jù)交易所”2015年4月14日正式運(yùn)營,目前,交易所已有包括京東、華為、阿里巴巴等超過300家會員企業(yè),交易總金額突破6000萬元。[單選題]*A.貴陽(正確答案)B.遵義C.畢節(jié)D.安順52.ABC分類中暢銷的、庫存周轉(zhuǎn)率高的高價(jià)值商品為()[單選題]*A.B類B.C類C.A類(正確答案)D.都不屬于53.下列關(guān)于網(wǎng)絡(luò)用戶行為的說法中,錯誤的是()。[單選題]*A.網(wǎng)絡(luò)公司能夠捕捉到用戶在其網(wǎng)站上的所有行為B.用戶離散的交互痕跡能夠?yàn)槠髽I(yè)提升服務(wù)質(zhì)量提供參考C.數(shù)字軌跡用完即自動刪除(正確答案)D.用戶的隱私安全很難得以規(guī)范保護(hù)54.一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維中的()。[單選題]*A.定量思維B.相關(guān)思維(正確答案)C.因果思維D.實(shí)驗(yàn)思維55.以下指標(biāo)和分類算法性能無關(guān)的是()。[單選題]*A.平均絕對誤差MAE(正確答案)B.均方誤差MSEC.殘差ResidualD.均方根誤差RMSE56.可視化模型有助于理解可視化的具體過程,常用的可視化模型不包括()。[單選題]*A.循環(huán)模型B.分析模型C.遞進(jìn)模型(正確答案)D.順序模型57.數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗(yàn)”最主要是應(yīng)用了()數(shù)據(jù)挖掘方法。[單選題]*A.分類B.預(yù)測C.關(guān)聯(lián)規(guī)則(正確答案)D.聚類58.下面關(guān)于Jarvis-Patrick(JP)聚類算法的說法不正確的是()。[單選題]*A.JP聚類擅長處理噪聲和離群點(diǎn),并且能夠處理不同大小、形狀和密度的簇。B.JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強(qiáng)相關(guān)對象的緊致簇。C.JP聚類是基于SNN相似度的概念。D.JP聚類的基本時(shí)間復(fù)雜度為O(m)。(正確答案)59.數(shù)據(jù)挖掘是一個交叉學(xué)科,但是,下列哪一個領(lǐng)域的研究成果和學(xué)術(shù)思想,不是數(shù)據(jù)挖掘的主要學(xué)科來源()。[單選題]*A.統(tǒng)計(jì)分析B.人應(yīng)工程(正確答案)C.機(jī)器學(xué)習(xí)D.人工智能60.商品分析中的重點(diǎn)商品選擇可以借助()方法[單選題]*A.回歸分析B.相關(guān)分析C.漏斗分析D.ABC分類(正確答案)61.大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、()后獲取最大的數(shù)據(jù)價(jià)值[單選題]*A.算法共享B.應(yīng)用共享C.平臺共享D.交叉復(fù)用(正確答案)62.下列國家的大數(shù)據(jù)發(fā)展行動中,集中體現(xiàn)“重視基礎(chǔ)、首都先行”的國家是()。[單選題]*A.美國B.日本C.中國D.韓國(正確答案)63.根據(jù)數(shù)據(jù)專家所講,高德交通報(bào)告針對全國()個城市交通狀態(tài)進(jìn)行挖掘分析。[單選題]*A.21B.30C.25D.38(正確答案)64.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是()。[單選題]*A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別B.數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高(正確答案)D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量65.平均停留時(shí)長和跳失率都是()的分析內(nèi)容[單選題]*A.交易分析B.流量分析(正確答案)C.訪客分析D.商品分析66.目前有多種成熟的知識可視化工具,下面()不屬于這類可視化工具。[單選題]*A.概念圖B.思維導(dǎo)圖C.認(rèn)知地圖D.趨勢圖(正確答案)67.雷達(dá)圖適用于()數(shù)據(jù),且每個維度必須可以排序。[單選題]*A.一維B.二維C.三維D.多維(正確答案)68.下列四項(xiàng)中,不屬于數(shù)據(jù)庫特點(diǎn)的是()。[單選題]*A.數(shù)據(jù)共享B.數(shù)據(jù)完整性C.數(shù)據(jù)冗余很高(正確答案)D.數(shù)據(jù)獨(dú)立性高69.()是位于用戶與操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件,它屬于系統(tǒng)軟件,它為用戶或應(yīng)用程序提供訪問數(shù)據(jù)庫的方法。數(shù)據(jù)庫在建立、使用和維護(hù)時(shí)由其統(tǒng)一管理、統(tǒng)一控制。[單選題]*A.DBMS(正確答案)B.DBC.DBSD.DBA70.在SQL中,建立表用的命令是()。[單選題]*A.CREATE?SCHEMAB.CREATE?TABLE(正確答案)C.CREATE?VIEWD.CREATE?INDEX71.SQL的視圖是從()中導(dǎo)出的。[單選題]*A.基本表B.視圖C.基本表或視圖(正確答案)D.數(shù)據(jù)庫72.下列哪個不是sql數(shù)據(jù)庫文件的后綴()。[單選題]*A..mdfB..ldfC..tif(正確答案)D..ndf73.數(shù)據(jù)定義語言的縮寫詞為()。[單選題]*A.DDL(正確答案)B.DCLC.DMLD.DBL74.目前()數(shù)據(jù)庫系統(tǒng)已逐漸淘汰了網(wǎng)狀數(shù)據(jù)庫和層次數(shù)據(jù)庫,成為當(dāng)今最為流行的商用數(shù)據(jù)庫系統(tǒng)。[單選題]*A.關(guān)系(正確答案)B.面向?qū)ο驝.分布D.面向應(yīng)用75.下列關(guān)于舍恩伯格對大數(shù)據(jù)特點(diǎn)的說法中,錯誤的是()。[單選題]*A.數(shù)據(jù)規(guī)模大B.數(shù)據(jù)類型多樣C.數(shù)據(jù)處理速度快D.數(shù)據(jù)價(jià)值密度高(正確答案)76.流量質(zhì)量評估采用()作為衡量流量有效性的宏觀指標(biāo)[單選題]*A.訪客數(shù)B.轉(zhuǎn)化率(正確答案)C.瀏覽量D.瀏覽時(shí)長77.據(jù)WardMO(2010)的研究,超過()的人腦功能用于視覺信息的處理,視覺信息處理是人腦的最主要功能之一。[單選題]*A.30%B.50%(正確答案)C.70%D.40%78.當(dāng)前,市場上已經(jīng)出現(xiàn)了眾多的數(shù)據(jù)可視化軟件和工具,下面工具不是大數(shù)據(jù)可視化工具的是(
)。[單選題]*A.TableauB.DatawatchC.PlatforaD.Photoshop(正確答案)79.數(shù)據(jù)挖掘常見的工具或算法,不包括()。[單選題]*A.聚類B.分類C.排序(正確答案)D.預(yù)測80.從宏觀角度看,數(shù)據(jù)可視化的功能不包括()。[單選題]*A.信息記錄B.信息的推理分析C.信息清洗(正確答案)D.信息傳播1.切片是指維的位置互換。[判斷題]*對錯(正確答案)2.旋轉(zhuǎn)是指選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析。[判斷題]*對錯(正確答案)3.RFM模型的F值越大表示客戶交易越頻繁。[判斷題]*對(正確答案)錯4.多維數(shù)據(jù)模型是從多角度多層次進(jìn)行數(shù)據(jù)查詢和分析的的數(shù)據(jù)庫模型。[判斷題]*對(正確答案)錯5.RFM模型是根據(jù)客戶活躍程度和交易金額的貢獻(xiàn),進(jìn)行客戶價(jià)值細(xì)分的方法。[判斷題]*對(正確答案)錯6.數(shù)據(jù)可視化的本質(zhì)就是借助于圖形等各種手段,清晰有效地傳達(dá)與溝通信息。[判斷題]*對(正確答案)錯7.在可視化圖形中,應(yīng)該盡量使用3D圖形,因?yàn)楦恿Ⅲw好看![判斷題]*對錯(正確答案)8.數(shù)據(jù)墨水比的比值越低,說明圖表中越多的視覺編碼被用于傳遞真正的信息,而不是出現(xiàn)冗余,或者用于描述一些其他的東西[判斷題]*對錯(正確答案)9.格式塔原則的核心是整體決定部分的性質(zhì),部分依從于整體?[判斷題]*對(正確答案)錯10.本質(zhì)上,可視化是一個抽象的過程,是把數(shù)據(jù)映射到了幾何圖形和顏色上。從技術(shù)角度看,這很容易做到。難點(diǎn)在于,要知道什么形狀和顏色是最合適的、畫在哪里以及畫多大。[判斷題]*對(正確答案)錯11.數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。[判斷題]*對(正確答案)錯12.MAP軟件和Tableau軟件,都屬于無需編程語言的可視化工具。[判斷題]*對(正確答案)錯標(biāo)題[判斷題]*對(正確答案)錯13.散點(diǎn)圖既可以展示數(shù)值分布又可以表示數(shù)據(jù)之間的關(guān)聯(lián)。[判斷題]*對(正確答案)錯14.箱線圖中箱子的上下限,分別是數(shù)據(jù)的上四分位數(shù)和下四分位數(shù)。這意味著箱子包含了50%的數(shù)據(jù)。[判斷題]*對(正確答案)錯15.餅圖不足在于分類過多,則扇形越大,無法展現(xiàn)圖表[判斷題]*對錯(正確答案)16.熱力圖,也可以稱為熱圖、熱量表、密度表,主要用于展示數(shù)據(jù)的分布情況。[判斷題]*對(正確答案)錯17.柱狀圖的局限在于它僅適用于中小規(guī)模的數(shù)據(jù)集,當(dāng)數(shù)據(jù)較多時(shí)就不易分辨。[判斷題]*對(正確答案)錯18.方差是總體各標(biāo)志值與其算數(shù)平均數(shù)的離差的平方和的算數(shù)平均數(shù)。[判斷題]*對(正確答案)錯19.方差和標(biāo)準(zhǔn)差在離散趨勢中表達(dá)的內(nèi)容完全相同。[判斷題]*對錯(正確答案)20.分位數(shù)可以用來描述離散程度,最常用的是四分位數(shù)。[判斷題]*對(正確答案)錯1、根據(jù)大數(shù)據(jù)分析與挖掘課程數(shù)據(jù)中的數(shù)據(jù)探索性分析,請使用合適工具,合適方法完成下述分析內(nèi)容:[填空題]*_________________________________答案解析:(1)簡述數(shù)據(jù)探索性分析的基本步驟。
數(shù)據(jù)探索性分析,首先需要確定數(shù)據(jù)的類別,是數(shù)值型數(shù)據(jù)還是類別數(shù)據(jù)。
對于類別數(shù)據(jù),一般需要看類別數(shù)據(jù)各取值的頻數(shù)分布,可以采用直方圖或者餅圖。
對于數(shù)值型數(shù)據(jù),如果需要看數(shù)據(jù)的分布,可以采用箱線圖、直方圖;如果需要看數(shù)據(jù)兩兩之間的相關(guān)性,可以采用相關(guān)函數(shù)corr(),用熱圖展現(xiàn)兩兩之間的相關(guān)系數(shù),或者用散點(diǎn)圖矩陣展現(xiàn)兩兩之間的相關(guān)性。
對于時(shí)間序列數(shù)據(jù),可以用折線圖展現(xiàn)數(shù)據(jù)隨時(shí)間而變化的趨勢。
(2)至少羅列三種常用可視化分析工具,并說明個工具使用場合。
條形圖:用于展現(xiàn)類別數(shù)據(jù)的頻數(shù)分布。
餅圖:用于展現(xiàn)類別數(shù)據(jù)的頻數(shù)分布。
直方圖:用于展現(xiàn)數(shù)值數(shù)據(jù)的分布情況。
散點(diǎn)圖:用于展現(xiàn)兩列數(shù)值數(shù)據(jù)的分布情況和關(guān)聯(lián)情況。
折線圖:用于展現(xiàn)時(shí)間序列數(shù)據(jù)隨時(shí)間變化的趨勢。
(3)對上述三種工具列出關(guān)鍵代碼?
條形圖:plt.bar(x,y)
餅圖:plt.pie(x)
直方圖:plt.hist(x)
散點(diǎn)圖:plt.scatter(x,y)
折線圖:plt.plot(x,y)2、什么異常值分析?箱形圖在識別異常值方面有什么優(yōu)越性?[填空題]*_________________________________答案解析:1)異常值是指樣本中的個別值,其數(shù)值明顯偏離其余的觀測值。異常值也稱為離群點(diǎn),異常值的分析也稱為離群點(diǎn)的分析。
2)異常值分析是檢驗(yàn)數(shù)據(jù)是否有異常值。忽視異常值的存在是十分危險(xiǎn)的,不加剔除地把異常值包括進(jìn)數(shù)據(jù)的計(jì)算分析過程中,對結(jié)果會帶來不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問題進(jìn)而改進(jìn)決策的契機(jī)。
3)箱形圖依據(jù)實(shí)際數(shù)據(jù)繪制,不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實(shí)直觀地表現(xiàn)數(shù)據(jù)分布的本來面貌;另一方面,箱形圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的魯棒性:多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會很大地?cái)_動四分位數(shù),所以異常值不能對這個標(biāo)準(zhǔn)施加影響,箱形圖識別異常值的結(jié)果比較客觀。由此可見,箱形圖在識別異常值方面有一定的優(yōu)越性。3、某公司采用信息化系統(tǒng)對經(jīng)營活動進(jìn)行管理,建立如下數(shù)據(jù)表的語句如下:
dropdatabaseifexistsemps;
createdatabaseemps;
useemps;
createtableemp(
EMPNOINT,--員工號
ENAMEVARCHAR(10),--員工姓名
JOBVARCHAR(9),--工作崗位
MGRint,--經(jīng)理的員工號,外鍵
HIREDATEdate,--入職時(shí)間
SALdouble,--底薪
COMMdouble,--提成
DEPTNOint,--部門編號
primarykey(EMPNO)
);
CREATETABLEdept(
DEPTNOint,--部門編號
DNAMEvar
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年滁州城市職業(yè)學(xué)院單招綜合素質(zhì)考試題庫附答案
- 2026年平頂山工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試題庫附答案
- 2026安徽馬鞍山市疾病預(yù)防控制中心(馬鞍山市衛(wèi)生監(jiān)督所)招聘博士研究生1人筆試參考題庫及答案解析
- 2026重慶望江中學(xué)校近期招聘教師6人筆試備考試題及答案解析
- 2026班瑪縣教育局面向社會招聘工作人員招聘40人筆試備考題庫及答案解析
- 2025年下半年大慶市紅崗區(qū)機(jī)關(guān)事業(yè)單位人才引進(jìn)10人備考題庫附答案
- 2026西藏那曲市申扎縣消防救援大隊(duì)面向社會招錄政府專職消防員3人筆試模擬試題及答案解析
- 2025廣東佛山市南海區(qū)委黨校選調(diào)5名事業(yè)編制人員備考題庫附答案
- 2026山東濟(jì)寧市東方圣地人力資源開發(fā)有限公司招聘勞務(wù)派遣工作人員1人筆試參考題庫及答案解析
- 2025年11月四川省西南醫(yī)科大學(xué)招聘專職輔導(dǎo)員15人(公共基礎(chǔ)知識)綜合能力測試題附答案
- 《糖尿病合并高血壓患者管理指南(2025版)》解讀
- 職業(yè)暴露考試試題及答案
- DB61-T 1843-2024 酸棗種植技術(shù)規(guī)范
- 機(jī)械密封安裝及維護(hù)培訓(xùn)
- 古建筑修繕加固施工方案
- DG-TJ08-19-2023園林綠化養(yǎng)護(hù)標(biāo)準(zhǔn)
- 上海市2024-2025學(xué)年高二上學(xué)期期末考試英語試題(含答案無聽力原文及音頻)
- 實(shí)驗(yàn)室評審不符合項(xiàng)原因及整改機(jī)制分析
- 農(nóng)貿(mào)市場攤位布局措施
- 一列腸ESD個案護(hù)理
- 污水泵站自動化控制方案
評論
0/150
提交評論