版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
2025年數(shù)據(jù)分析師筆試高頻考點預(yù)測一、選擇題(每題2分,共20題)1.以下哪種統(tǒng)計方法最適合用于分析連續(xù)型數(shù)據(jù)的分布特征?A.等距法B.分類匯總C.相關(guān)性分析D.回歸分析2.在數(shù)據(jù)清洗過程中,處理缺失值最常用的方法是?A.刪除包含缺失值的記錄B.使用均值/中位數(shù)/眾數(shù)填充C.插值法D.以上都是3.SQL中用于連接兩個表的語句是?A.`JOIN`B.`GROUPBY`C.`WHERE`D.`ORDERBY`4.以下哪個指標(biāo)最適合衡量數(shù)據(jù)離散程度?A.均值B.方差C.標(biāo)準(zhǔn)差D.偏度5.在數(shù)據(jù)可視化中,最適合展示時間序列數(shù)據(jù)的圖表是?A.餅圖B.散點圖C.折線圖D.條形圖6.以下哪種算法屬于監(jiān)督學(xué)習(xí)?A.K-means聚類B.決策樹C.主成分分析D.Apriori關(guān)聯(lián)規(guī)則7.數(shù)據(jù)庫中,保證數(shù)據(jù)一致性的完整性約束是?A.主鍵約束B.外鍵約束C.唯一約束D.非空約束8.以下哪種方法能有效處理數(shù)據(jù)中的異常值?A.標(biāo)準(zhǔn)化B.箱線圖分析C.奇異值檢測D.以上都是9.在數(shù)據(jù)倉庫中,F(xiàn)act表通常存儲?A.維度信息B.事實度量值C.外部數(shù)據(jù)D.指標(biāo)計算10.以下哪個工具最適合用于交互式數(shù)據(jù)探索?A.ExcelB.PythonC.TableauD.SQL二、填空題(每空1分,共10空)1.在進行假設(shè)檢驗時,第一類錯誤的概率通常用______表示。2.數(shù)據(jù)分析中,常用的數(shù)據(jù)預(yù)處理步驟包括______、缺失值處理、數(shù)據(jù)轉(zhuǎn)換等。3.SQL中,用于對數(shù)據(jù)進行排序的語句是______。4.在散點圖中,如果數(shù)據(jù)點呈現(xiàn)線性關(guān)系,則相關(guān)系數(shù)的絕對值接近______。5.數(shù)據(jù)倉庫的三層架構(gòu)通常包括ODS、______和報表層。6.交叉表(PivotTable)主要用于分析兩個或多個維度的______。7.在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則挖掘的常用算法是______。8.時間序列分析中,ARIMA模型通常包含______、差分和移動平均三個部分。9.數(shù)據(jù)庫索引的類型主要有______和哈希索引。10.機器學(xué)習(xí)中的過擬合現(xiàn)象通??梢酝ㄟ^______方法緩解。三、簡答題(每題5分,共4題)1.簡述數(shù)據(jù)清洗的主要步驟及其目的。2.解釋什么是數(shù)據(jù)標(biāo)準(zhǔn)化,并說明其作用。3.比較SQL和Python在數(shù)據(jù)分析中的優(yōu)缺點。4.描述K-means聚類算法的基本原理及其適用場景。四、計算題(每題10分,共2題)1.已知某城市過去10年的GDP數(shù)據(jù)如下:[1.2,1.5,1.8,2.1,2.4,2.7,3.0,3.3,3.6,4.0]。計算其均值、中位數(shù)、方差和標(biāo)準(zhǔn)差。2.某電商平臺的用戶購買行為數(shù)據(jù)如下表,請用SQL語句查詢每個用戶的總購買金額,并按金額降序排列。|用戶ID|商品ID|金額||--|--|||1|A|100||1|B|200||2|A|150||2|C|300||3|B|250|五、編程題(每題15分,共2題)1.使用Python的Pandas庫,讀取以下JSON數(shù)據(jù),計算每個部門的平均薪資,并繪制條形圖展示結(jié)果。json[{"部門":"技術(shù)部","薪資":8000},{"部門":"市場部","薪資":7500},{"部門":"銷售部","薪資":7000},{"部門":"技術(shù)部","薪資":8500},{"部門":"市場部","薪資":8000}]2.編寫SQL語句,實現(xiàn)以下需求:-從訂單表(Orders)中篩選出2023年12月的訂單。-按月和產(chǎn)品類別分組,統(tǒng)計每個類別的訂單數(shù)量。-結(jié)果中需包含月份數(shù)、產(chǎn)品類別和訂單數(shù)量三列。答案一、選擇題答案1.A2.D3.A4.C5.C6.B7.B8.D9.B10.C二、填空題答案1.α2.數(shù)據(jù)整合3.`ORDERBY`4.15.DW6.關(guān)聯(lián)關(guān)系7.Apriori8.自回歸項9.B-Tree索引10.正則化三、簡答題答案1.數(shù)據(jù)清洗的主要步驟及其目的-缺失值處理:通過刪除、填充等方法解決數(shù)據(jù)缺失問題,保證數(shù)據(jù)完整性。-異常值檢測:識別并處理異常數(shù)據(jù),避免對分析結(jié)果造成誤導(dǎo)。-數(shù)據(jù)轉(zhuǎn)換:統(tǒng)一數(shù)據(jù)格式(如日期、數(shù)值類型),便于后續(xù)分析。-重復(fù)值處理:去除重復(fù)記錄,避免統(tǒng)計偏差。-數(shù)據(jù)整合:合并來自不同源的數(shù)據(jù),形成統(tǒng)一分析視圖。2.數(shù)據(jù)標(biāo)準(zhǔn)化及其作用標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到特定范圍(如[0,1]或均值為0、標(biāo)準(zhǔn)差為1),常用公式為:\[z=\frac{x-\mu}{\sigma}\]作用:消除不同量綱的影響,提高算法收斂速度,適用于距離計算和機器學(xué)習(xí)模型。3.SQL與Python在數(shù)據(jù)分析中的優(yōu)缺點-SQL:優(yōu)點:高效處理結(jié)構(gòu)化數(shù)據(jù),適合多表關(guān)聯(lián)查詢。缺點:靈活性差,復(fù)雜分析需編寫復(fù)雜語句。-Python:優(yōu)點:功能豐富(Pandas、NumPy等庫),適合數(shù)據(jù)挖掘和可視化。缺點:執(zhí)行效率低于SQL,適合小數(shù)據(jù)量分析。4.K-means聚類算法原理及適用場景原理:將數(shù)據(jù)點劃分為K個簇,使簇內(nèi)距離最小化。步驟:1.隨機選擇K個初始質(zhì)心。2.將每個點分配到最近的質(zhì)心。3.重新計算質(zhì)心。4.重復(fù)步驟2-3直至收斂。適用場景:客戶細(xì)分、圖像壓縮等,要求數(shù)據(jù)呈球狀分布。四、計算題答案1.GDP數(shù)據(jù)統(tǒng)計-均值:\(\frac{1.2+1.5+...+4.0}{10}=2.7\)-中位數(shù):排序后第5和第6個數(shù)的平均:\(\frac{2.4+2.7}{2}=2.55\)-方差:\(\frac{(1.2-2.7)^2+...+(4.0-2.7)^2}{10}=0.499\)-標(biāo)準(zhǔn)差:\(\sqrt{0.499}\approx0.707\)2.SQL查詢語句sqlSELECT用戶ID,SUM(金額)AS總金額FROM訂單表WHEREYEAR(日期)=2023ANDMONTH(日期)=12GROUPBY用戶IDORDERBY總金額DESC五、編程題答案1.Python代碼pythonimportpandasaspdimportmatplotlib.pyplotaspltdata=[{"部門":"技術(shù)部","薪資":8000},{"部門":"市場部","薪資":7500},{"部門":"銷售部","薪資":7000},{"部門":"技術(shù)部","薪資":8500},{"部門":"市場部","薪資":8000}]df=pd.DataFrame(data)avg_salary=df.groupby("部門")["薪資"].mean()avg_salary.plot(kind="bar")plt.t
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 毛皮制品制作工安全生產(chǎn)意識競賽考核試卷含答案
- 船舶涂裝工安全生產(chǎn)基礎(chǔ)知識能力考核試卷含答案
- 模鍛工操作規(guī)程水平考核試卷含答案
- 2025年雄激素及同化激素合作協(xié)議書
- 消防保衛(wèi)方案及保證措施
- 選礦工年度考核試卷及答案
- 名師工作室成員的個人工作總結(jié)
- 土方場地平整及道路施工方案
- 2025年衛(wèi)生高級職稱考試(疼痛學(xué)-正高)歷年參考題庫含答案詳解
- 地質(zhì)與礦業(yè)工程基礎(chǔ)真題及答案
- 物理學(xué)科組長年終工作總結(jié)
- 子宮肌瘤超聲表現(xiàn)課件
- 2025年公安招聘輔警考試筆試題庫(含答案)
- 山東省濰坊市部分縣市2024-2025學(xué)年高一下學(xué)期期中質(zhì)量監(jiān)測歷史試題(解析版)
- 2025至2030中國HPLC系統(tǒng)和配件行業(yè)項目調(diào)研及市場前景預(yù)測評估報告
- GB 46034-2025公眾聚集場所投入使用營業(yè)消防安全檢查規(guī)則
- 監(jiān)理歸檔資料培訓(xùn)課件
- 消防監(jiān)督檢查課件
- 2025年保安服務(wù)行業(yè)研究報告及未來發(fā)展趨勢預(yù)測
- GB/T 9754-2025色漆和清漆20°、60°和85°光澤的測定
- 運輸合同轉(zhuǎn)包協(xié)議書范本
評論
0/150
提交評論