版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2025年統(tǒng)計數(shù)據(jù)庫考試題及答案一、單項選擇題(每題2分,共20分)1.在統(tǒng)計數(shù)據(jù)庫中,若某列數(shù)據(jù)類型定義為DECIMAL(10,3),則該列能存儲的最大正數(shù)是()A.9999999.999B.99999999.999C.999999999.999D.9999999999.9992.以下哪種索引類型最適合優(yōu)化“查詢某時間段內(nèi)溫度值大于30℃的記錄數(shù)”這類統(tǒng)計查詢?()A.B+樹索引B.哈希索引C.位圖索引D.全文索引3.若某統(tǒng)計數(shù)據(jù)庫采用星型模型設計,其中“銷售事實表”與“時間維度表”“產(chǎn)品維度表”“區(qū)域維度表”建立關聯(lián),則維度表的主鍵通常采用()A.自增整數(shù)B.業(yè)務自然鍵C.UUIDD.復合鍵4.在計算一組樣本數(shù)據(jù)的偏度時,若偏度系數(shù)為-1.2,說明數(shù)據(jù)分布()A.左偏且尾部較長B.右偏且尾部較長C.對稱分布D.均勻分布5.統(tǒng)計數(shù)據(jù)庫中處理缺失值時,若某字段“用戶年齡”的缺失率為40%且缺失模式與“用戶職業(yè)”高度相關,最合理的處理方法是()A.直接刪除缺失行B.用全局均值填充C.按職業(yè)分組填充均值D.用回歸模型預測填充6.以下關于OLAP(聯(lián)機分析處理)的描述,錯誤的是()A.支持復雜的多維查詢B.數(shù)據(jù)更新頻率高C.數(shù)據(jù)量通常較大D.關注歷史數(shù)據(jù)的統(tǒng)計分析7.在Hive統(tǒng)計數(shù)據(jù)庫中,若表存儲格式為ORC,且設置“press=SNAPPY”,則主要優(yōu)化的是()A.數(shù)據(jù)查詢速度B.數(shù)據(jù)存儲成本C.數(shù)據(jù)寫入并發(fā)D.數(shù)據(jù)一致性8.某企業(yè)統(tǒng)計數(shù)據(jù)庫中,“訂單表”包含字段(訂單ID,用戶ID,下單時間,金額,商品ID),要統(tǒng)計“2024年各季度不同用戶等級的平均客單價”,需額外關聯(lián)的表是()A.商品分類表B.用戶等級表C.物流信息表D.供應商表9.計算兩個分類變量的相關性時,若變量均為無序分類,最適合的統(tǒng)計量是()A.Pearson相關系數(shù)B.Spearman秩相關系數(shù)C.卡方統(tǒng)計量D.協(xié)方差10.在分布式統(tǒng)計數(shù)據(jù)庫中,若某查詢需要掃描多個節(jié)點的數(shù)據(jù),為減少網(wǎng)絡傳輸開銷,通常采用的優(yōu)化策略是()A.數(shù)據(jù)分片B.本地計算C.索引下推D.預聚合二、填空題(每空1分,共20分)1.統(tǒng)計數(shù)據(jù)庫中,衡量數(shù)據(jù)離散程度的常用指標除方差外,還有______和______。2.關系型統(tǒng)計數(shù)據(jù)庫的三大完整性約束是______、______和______。3.主成分分析的核心目標是通過線性變換將多個相關變量轉(zhuǎn)換為少數(shù)幾個______的綜合變量,其中第一個主成分的方差______。4.在SQL中,計算某列非空值數(shù)量的函數(shù)是______,計算分組內(nèi)累計和的窗口函數(shù)是______。5.時間序列分析中,ARIMA模型的三個參數(shù)分別代表______、______和______。6.統(tǒng)計數(shù)據(jù)庫設計時,若需支持高頻次、小批量的數(shù)據(jù)寫入,應優(yōu)先選擇______(行/列)式存儲;若需支持復雜的聚合查詢,應優(yōu)先選擇______(行/列)式存儲。7.處理數(shù)據(jù)傾斜問題時,常用的方法包括______、______和______(列舉三種)。8.卡方檢驗的自由度計算公式為______(假設R行C列的列聯(lián)表)。三、簡答題(每題6分,共30分)1.簡述統(tǒng)計數(shù)據(jù)庫中“事實表”與“維度表”的區(qū)別,并舉例說明星型模型的結構。2.數(shù)據(jù)清洗的主要步驟包括哪些?針對“銷售數(shù)量”字段中存在的“-5”“10000”(明顯異常值),應如何處理?3.比較B樹索引與B+樹索引在統(tǒng)計數(shù)據(jù)庫中的適用場景,說明為什么大多數(shù)關系型數(shù)據(jù)庫選擇B+樹作為索引結構。4.什么是統(tǒng)計量的抽樣分布?以樣本均值為例,說明中心極限定理對抽樣分布的影響。5.分布式統(tǒng)計數(shù)據(jù)庫中,數(shù)據(jù)分片(Sharding)的常見策略有哪些?每種策略的優(yōu)缺點是什么?四、應用題(每題10分,共30分)1.某電商統(tǒng)計數(shù)據(jù)庫包含以下表結構:用戶表(用戶ID,注冊時間,性別,年齡,所在城市)訂單表(訂單ID,用戶ID,下單時間,支付金額,商品ID,支付狀態(tài))商品表(商品ID,商品類別,成本價,售價)要求編寫SQL語句,計算2024年1-6月各商品類別的“銷售額”“銷售數(shù)量”“毛利率”(毛利率=(售價-成本價)/售價×100%),并按銷售額降序排序(假設支付狀態(tài)為“已支付”時計為有效訂單)。2.某企業(yè)2024年1-12月的月銷售額數(shù)據(jù)如下(單位:萬元):1月:852月:923月:884月:955月:1026月:1087月:1158月:1209月:11810月:12511月:13012月:135(1)計算該時間序列的季節(jié)指數(shù)(假設無明顯季節(jié)波動,需用移動平均法計算趨勢值);(2)預測2025年1月的銷售額(采用線性趨勢預測法)。3.某統(tǒng)計數(shù)據(jù)庫中,“用戶行為日志表”存在以下問題:約15%的記錄缺失“用戶ID”字段;“訪問時長”字段存在大量0值(實際應為正數(shù));同一用戶同一天的多條記錄存在重復。請設計具體的數(shù)據(jù)清洗方案,包括缺失值處理、異常值處理和重復值處理的步驟,并說明選擇該方法的理由。五、綜合分析題(20分)某連鎖超市計劃構建統(tǒng)計數(shù)據(jù)庫以支持運營分析,業(yè)務需求如下:跟蹤每日各門店的銷售額、客流量、客單價(銷售額/客流量);分析不同商品類別(一級分類、二級分類)的銷售占比及毛利率;監(jiān)控促銷活動(如滿減、折扣)對銷售額的提升效果;支持按區(qū)域(省、市、區(qū))、時間(日、周、月、季度)的多維交叉分析。請完成以下任務:(1)設計數(shù)據(jù)庫的概念模型(畫出E-R圖的關鍵實體及關系);(2)設計事實表的核心字段(至少包含5個度量值和3個維度外鍵);(3)針對“分析促銷活動對銷售額的提升效果”需求,提出數(shù)據(jù)采集的擴展字段建議;(4)說明為優(yōu)化多維查詢性能可采取的數(shù)據(jù)庫設計策略(至少3種)。答案--一、單項選擇題1.A2.C3.A4.A5.C6.B7.B8.B9.C10.B二、填空題1.標準差;四分位距(或極差)2.實體完整性;參照完整性;用戶定義完整性3.互不相關;最大4.COUNT();SUM()OVER(ORDERBY...ROWSBETWEENUNBOUNDEDPRECEDINGANDCURRENTROW)5.自回歸階數(shù);差分階數(shù);移動平均階數(shù)6.行;列7.增加隨機鹽值;調(diào)整分片鍵;預聚合8.(R-1)(C-1)三、簡答題1.區(qū)別:事實表存儲量化的業(yè)務事件(如銷售額、數(shù)量),是度量值的載體;維度表存儲描述性信息(如時間、產(chǎn)品、區(qū)域),用于對事實表進行分類和過濾。星型模型結構:中心是事實表,周圍通過外鍵連接多個維度表(如時間維度、產(chǎn)品維度、門店維度),無維度表之間的關聯(lián)。2.主要步驟:識別缺失值、處理缺失值;識別異常值、處理異常值;糾正數(shù)據(jù)不一致;刪除重復數(shù)據(jù)。處理“銷售數(shù)量”異常值:首先通過箱線圖或Z-score法確定正常范圍(如Q1-1.5IQR到Q3+1.5IQR),“-5”為邏輯錯誤(數(shù)量不能為負),應檢查原始記錄或標記為缺失;“10000”若遠超業(yè)務合理范圍(如日常最大銷量為1000),可視為異常,采用該商品歷史均值或同類別均值替換。3.B樹所有節(jié)點都存儲數(shù)據(jù),B+樹僅葉子節(jié)點存儲數(shù)據(jù)且通過鏈表連接。適用場景:B樹適合隨機查找(如單行查詢),B+樹適合范圍查詢和統(tǒng)計(如區(qū)間掃描)。關系型數(shù)據(jù)庫選B+樹的原因:①葉子節(jié)點鏈表結構支持高效范圍查詢;②非葉子節(jié)點僅存索引鍵,可容納更多索引項,減少I/O次數(shù);③所有查詢最終到葉子節(jié)點,路徑長度一致,查詢更穩(wěn)定。4.抽樣分布是指統(tǒng)計量在所有可能樣本中的概率分布。中心極限定理指出,當樣本量足夠大時,無論總體分布如何,樣本均值的抽樣分布近似服從正態(tài)分布,均值等于總體均值,方差等于總體方差除以樣本量。這為基于樣本均值的假設檢驗和區(qū)間估計提供了理論依據(jù)。5.分片策略:①范圍分片(按字段范圍劃分,如時間):優(yōu)點是范圍查詢高效;缺點是可能數(shù)據(jù)傾斜(如熱點時間)。②哈希分片(對分片鍵哈希取模):優(yōu)點是數(shù)據(jù)分布均勻;缺點是范圍查詢需跨節(jié)點。③列表分片(按預定義列表劃分,如區(qū)域):優(yōu)點是符合業(yè)務邏輯;缺點是擴展時需重新分片。四、應用題1.SQL語句:SELECTg.商品類別,SUM(o.支付金額)AS銷售額,COUNT(o.訂單ID)AS銷售數(shù)量,ROUND(SUM((g.售價g.成本價)o.支付金額/g.售價)/SUM(o.支付金額)100,2)AS毛利率FROM訂單表oJOIN商品表gONo.商品ID=g.商品IDWHEREo.支付狀態(tài)='已支付'ANDo.下單時間BETWEEN'2024-01-01'AND'2024-06-30'GROUPBYg.商品類別ORDERBY銷售額DESC;2.(1)季節(jié)指數(shù)計算(假設無季節(jié)波動,季節(jié)指數(shù)均為1);(2)線性趨勢預測:設時間t=1到12,銷售額y,計算得趨勢方程y=80+4.5t(計算過程:∑t=78,∑y=1213,∑ty=8×85+…+12×135=10365,b=(12×10365-78×1213)/(12×650-782)=4.5,a=(1213-4.5×78)/12=80),2025年1月t=13,預測值=80+4.5×13=138.5萬元。3.清洗方案:缺失值處理:“用戶ID”缺失15%,若缺失與“訪問來源”相關(如匿名訪問),則新增“是否匿名”標識字段,缺失的用戶ID填充為“匿名用戶”;若無關,刪除缺失行(因缺失率未超20%)。異常值處理:“訪問時長”0值可能是記錄錯誤(如未正確統(tǒng)計),用同頁面/同用戶的平均時長替換(需先按“頁面ID”“用戶ID”分組計算均值)。重復值處理:按“用戶ID”“訪問時間”“頁面ID”標識重復記錄,保留第一條或按“訪問深度”保留更詳細的記錄。五、綜合分析題(1)E-R圖關鍵實體:門店(門店ID,名稱,區(qū)域)、商品(商品ID,一級分類,二級分類)、時間(時間ID,日期,周,月)、促銷活動(活動ID,類型,時間范圍);事實表(訂單ID,門店ID,商品ID,時間ID,活動ID,銷售額,客流量,客單價,成本,毛利)。(2)事實表核心字段:度量值:銷售額、客流量、客單價、銷售成本、毛利;維度外鍵:門店ID、商品ID、時間ID
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水源地保護執(zhí)法培訓課件
- 數(shù)控機床維修操作考試題及答案
- 腎臟影像診斷試題及答案
- 軟件工程師試題及答案
- 水污染防治培訓課件
- 廣西來賓市象州縣2024-2025學年八年級上學期期末地理試題(含答案)
- 糖尿病足部護理新技術應用
- 2026 年初中英語《音標》專項練習與答案 (100 題)
- 2026年深圳中考語文易混考點辨析試卷(附答案可下載)
- 2026年深圳中考英語三模仿真模擬試卷(附答案可下載)
- 道路清掃保潔、垃圾收運及綠化服務方案投標文件(技術標)
- 合成藥物催化技術
- 河南省三門峽市2024-2025學年高二上學期期末調(diào)研考試英語試卷(含答案無聽力音頻及聽力原文)
- 【語文】福建省福州市烏山小學小學三年級上冊期末試題(含答案)
- 建立鄉(xiāng)鎮(zhèn)衛(wèi)生院孕情第一時間發(fā)現(xiàn)制度或流程
- 睡眠科普課課件
- 2025年中級衛(wèi)生職稱-主治醫(yī)師-放射醫(yī)學(中級)代碼:344歷年參考題庫含答案解析(5卷)
- 2025年中國民航科學技術研究院招聘考試筆試試題(含答案)
- eol物料管理辦法
- 總公司對子公司管理制度
- 臨沂公車租賃管理辦法
評論
0/150
提交評論