版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2026年數(shù)據(jù)分析師招聘筆試試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.某電商公司2025年12月訂單表包含字段order_id、user_id、sku_id、price、qty、order_date。現(xiàn)需計(jì)算當(dāng)月“人均消費(fèi)件單價(jià)”,下列SQL寫法正確的是A.SELECTSUM(priceqty)/COUNT(DISTINCTuser_id)FROMordersB.SELECTAVG(priceqty)FROMordersC.SELECTSUM(priceqty)/COUNT()FROMordersD.SELECTAVG(price)FROMorders答案:A解析:人均消費(fèi)件單價(jià)=總銷售額/去重用戶數(shù),需先求priceqty再聚合。2.在Python中,對(duì)DataFramedf按列A分組后求列B的Top3頻次值,正確寫法是A.df.groupby('A')['B'].value_counts().groupby(level=0).head(3)B.df.groupby('A')['B'].apply(lambdax:x.value_counts().head(3))C.df.groupby('A')['B'].agg(lambdax:x.value_counts().head(3))D.df.groupby('A')['B'].nlargest(3)答案:B解析:先按A分組,再對(duì)每組B做value_counts,取每組Top3,返回多級(jí)Series。3.某模型在訓(xùn)練集AUC=0.98,驗(yàn)證集AUC=0.72,測(cè)試集AUC=0.71,最可能的問(wèn)題是A.特征泄露B.欠擬合C.樣本不平衡D.標(biāo)簽錯(cuò)誤答案:A解析:訓(xùn)練集遠(yuǎn)高于驗(yàn)證/測(cè)試,且差距巨大,典型特征泄露。4.時(shí)間序列數(shù)據(jù)呈現(xiàn)“趨勢(shì)+季節(jié)+噪聲”,使用STL分解后,欲對(duì)季節(jié)項(xiàng)做預(yù)測(cè),最佳方法是A.季節(jié)Na?veB.Holt-Winters乘法C.SARIMAD.Prophet答案:C解析:STL已將季節(jié)項(xiàng)單獨(dú)剝離,SARIMA可對(duì)剝離后的季節(jié)項(xiàng)建模并外推。5.在AB實(shí)驗(yàn)中,若檢驗(yàn)指標(biāo)為連續(xù)型,樣本量計(jì)算公式中不影響最小樣本量的是A.顯著性水平αB.檢驗(yàn)效能1-βC.指標(biāo)方差D.實(shí)驗(yàn)周期答案:D解析:周期長(zhǎng)短影響收集速度,但不進(jìn)入樣本量公式。6.使用LightGBM時(shí),為了抑制過(guò)擬合,下列參數(shù)組合最合理的是A.max_depth=15,num_leaves=400,min_data_in_leaf=1B.max_depth=6,num_leaves=50,min_data_in_leaf=20,reg_lambda=1C.learning_rate=0.9,n_estimators=10D.subsample=0.1,colsample_bytree=0.1答案:B解析:降低樹復(fù)雜度、增加葉節(jié)點(diǎn)最小樣本、加正則,均為抑制過(guò)擬合手段。7.某日志表每日增量約200GB,需按user_id做近30天去重統(tǒng)計(jì),最節(jié)省資源的方案是A.每日全表掃描后去重B.使用Bitmap精確去重C.使用HyperLogLog近似去重D.使用布隆過(guò)濾器+每日merge答案:C解析:HyperLogLog誤差可控,內(nèi)存占用極低,適合大數(shù)據(jù)量近似去重。8.在Tableau中,將日期字段拖至列功能區(qū)后默認(rèn)聚合為“年”,若需展示連續(xù)日,應(yīng)A.右鍵→精確日期B.右鍵→離散日期C.拖至詳細(xì)信息D.改為字符串答案:A解析:精確日期為連續(xù)型,可形成連續(xù)軸。9.某標(biāo)簽體系將用戶分為高、中、低價(jià)值,若用聚類實(shí)現(xiàn),最需先處理的步驟是A.變量標(biāo)準(zhǔn)化B.變量離散化C.變量降維D.缺失值插補(bǔ)答案:A解析:K-means等算法對(duì)量綱敏感,需先標(biāo)準(zhǔn)化。10.數(shù)據(jù)倉(cāng)庫(kù)中,SlowlyChangingDimensionType2的做法是A.直接更新原行B.新增一行并標(biāo)記舊行失效C.新增一列保存歷史值D.新建歷史表答案:B解析:Type2通過(guò)新增行保留歷史快照,并加生效時(shí)間戳。二、多項(xiàng)選擇題(每題3分,共15分)11.下列屬于特征選擇過(guò)濾法的是A.方差選擇B.卡方檢驗(yàn)C.L1正則D.互信息E.遞歸特征消除答案:ABD解析:C、E為嵌入法與包裹法。12.關(guān)于HiveSQL優(yōu)化,正確的有A.分區(qū)裁剪可減小掃描量B.小文件過(guò)多會(huì)降低NameNode壓力C.開(kāi)啟MapJoin可避免數(shù)據(jù)傾斜D.使用ORC+SNAPPY可減少磁盤IOE.使用count(1)比count()更快答案:ACD解析:B應(yīng)為增加NameNode壓力;count(1)與count()在Hive無(wú)差異。13.以下Python代碼可正確實(shí)現(xiàn)“對(duì)df按user_id分組后計(jì)算列C的累計(jì)百分位”的是A.df.groupby('user_id')['C'].expanding().quantile(0.9)B.df.groupby('user_id')['C'].rolling(window=len(df),min_periods=1).quantile(0.9)C.df.groupby('user_id').apply(lambdax:x['C'].expanding().quantile(0.9))D.df.groupby('user_id')['C'].cumsum()/df.groupby('user_id')['C'].transform('sum')E.df.groupby('user_id')['C'].transform(lambdax:x.expanding().quantile(0.9))答案:ACE解析:B窗口固定;D為累計(jì)占比而非百分位。14.在構(gòu)建用戶流失模型時(shí),可用于定義“流失”的口徑有A.近30天無(wú)登錄B.近7天無(wú)支付且近14天無(wú)瀏覽C.距離上次登錄超過(guò)90百分位D.客服標(biāo)記“流失”標(biāo)簽E.歷史最大間隔+3σ答案:ABCE解析:D為主觀標(biāo)簽,需驗(yàn)證一致性。15.關(guān)于數(shù)據(jù)可視化原則,正確的有A.餅圖類別不宜超過(guò)5個(gè)B.折線圖縱軸必須從0開(kāi)始C.熱力圖適合展示矩陣型數(shù)據(jù)D.箱線圖可識(shí)別異常值E.3D柱狀圖可增強(qiáng)表達(dá)力答案:ACD解析:B不一定;E常造成遮擋。三、填空題(每空2分,共20分)16.在MySQL中,查看某表索引使用情況的命令是______。答案:SHOWINDEXFROM表名17.若隨機(jī)變量X~N(μ,σ2),則P(μ-1.96σ≤X≤μ+1.96σ)=______。答案:0.9518.在Python中,使用pandas將字符串'2026-03-01'轉(zhuǎn)為datetime64[ns]的代碼為_(kāi)_____。答案:pd.to_datetime('2026-03-01')19.某電商首頁(yè)UV轉(zhuǎn)化率=支付成功UV/首頁(yè)UV,若某日首頁(yè)UV=5×10?,支付成功UV=2×10?,則轉(zhuǎn)化率為_(kāi)_____%。答案:420.在Linux中,將文件file.csv按第2列數(shù)值降序排序并取前100行的命令是______。答案:sort-t,-k2,2nrfile.csv|head-n10021.在Spark中,RDD的______操作會(huì)觸發(fā)實(shí)際計(jì)算。答案:action22.若某模型F1-score=0.8,precision=0.9,則recall=______。答案:0.72解析:F1=2PR/(P+R)→R=0.7223.在Excel中,計(jì)算一列數(shù)據(jù)的中位數(shù)函數(shù)為_(kāi)_____。答案:MEDIAN24.使用Pythonseaborn繪制兩變量散點(diǎn)圖并加回歸線,函數(shù)名為_(kāi)_____。答案:sns.regplot25.數(shù)據(jù)治理元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)與______元數(shù)據(jù)。答案:管理四、判斷題(每題1分,共10分)26.在顯著性水平α=0.05下,若p值=0.04,則原假設(shè)一定錯(cuò)誤。答案:×解析:僅說(shuō)明拒絕原假設(shè),但仍有4%可能犯第一類錯(cuò)誤。27.使用Z-score標(biāo)準(zhǔn)化后,新變量均值為0,方差為1。答案:√28.在Hive中,LEFTSEMIJOIN返回左表全部記錄。答案:×解析:僅返回左表能與右表匹配的行。29.數(shù)據(jù)倉(cāng)庫(kù)分層中,DWD層保存的是經(jīng)過(guò)清洗的明細(xì)數(shù)據(jù)。答案:√30.在Python中,list的append操作時(shí)間復(fù)雜度為O(n)。答案:×解析:平均O(1),擴(kuò)容時(shí)才O(n)。31.使用PCA降維后,主成分之間相關(guān)系數(shù)為0。答案:√32.在Tableau中,計(jì)算字段無(wú)法使用表計(jì)算函數(shù)。答案:×解析:可使用WINDOW、RUNNING等表計(jì)算函數(shù)。33.在AB實(shí)驗(yàn)里,若指標(biāo)服從二項(xiàng)分布,可用Z檢驗(yàn)近似。答案:√34.使用K-fold交叉驗(yàn)證時(shí),k越大,偏差越小,方差越大。答案:√35.在Linux中,awk默認(rèn)分隔符為空格。答案:√五、簡(jiǎn)答題(每題8分,共24分)36.描述一次完整的數(shù)據(jù)埋點(diǎn)治理流程,并說(shuō)明如何驗(yàn)證埋點(diǎn)質(zhì)量。答案:1.需求評(píng)審:產(chǎn)品、數(shù)據(jù)、開(kāi)發(fā)三方對(duì)齊指標(biāo)定義與口徑。2.埋點(diǎn)設(shè)計(jì):輸出埋點(diǎn)文檔,含事件名、屬性、觸發(fā)時(shí)機(jī)、上報(bào)格式。3.開(kāi)發(fā)聯(lián)調(diào):開(kāi)發(fā)在測(cè)試環(huán)境觸發(fā)事件,數(shù)據(jù)組使用抓包工具驗(yàn)證字段完整性。4.測(cè)試驗(yàn)收:構(gòu)造邊界場(chǎng)景,校驗(yàn)屬性缺失率、空值率、枚舉值一致性。5.灰度監(jiān)控:上線后對(duì)比日志與ODS表,T+1跑校驗(yàn)SQL,核心維度差異>1%觸發(fā)告警。6.質(zhì)量輸出缺失率、延遲率、重復(fù)率、錯(cuò)誤率四指標(biāo),持續(xù)三周達(dá)標(biāo)后結(jié)項(xiàng)。驗(yàn)證方法:a.對(duì)比日志與數(shù)據(jù)庫(kù),計(jì)算接收率=DB條數(shù)/日志條數(shù);b.使用唯一標(biāo)識(shí)去重,計(jì)算重復(fù)率;c.對(duì)枚舉值字段做白名單匹配,計(jì)算錯(cuò)誤率;d.延遲監(jiān)控:事件產(chǎn)生到入庫(kù)延遲>5min占比。37.解釋“數(shù)據(jù)傾斜”在SparkSQL中的成因、現(xiàn)象及四種以上解決方案。答案:成因:key分布極不均勻,導(dǎo)致某分區(qū)數(shù)據(jù)量遠(yuǎn)大于平均,引發(fā)長(zhǎng)尾Task?,F(xiàn)象:Stage頁(yè)面大部分Task秒級(jí)完成,個(gè)別Task耗時(shí)數(shù)十分鐘甚至OOM。解決方案:1.加鹽打散:對(duì)熱點(diǎn)key拼接隨機(jī)前綴,聚合后二次匯總。2.兩階段聚合:先局部聚合,再全局聚合,減少Shuffle量。3.廣播Join:當(dāng)小表<10MB,使用broadcasthint避免Shuffle。4.自定義分區(qū):實(shí)現(xiàn)Partitioner,將熱點(diǎn)key均勻拆分到多分區(qū)。5.過(guò)濾傾斜key:若熱點(diǎn)key對(duì)結(jié)果無(wú)意義,可先行過(guò)濾。6.增加并行度:提高spark.sql.shuffle.partitions,使大分區(qū)變細(xì)。38.說(shuō)明如何構(gòu)建“用戶商品偏好得分”特征,并給出特征工程細(xì)節(jié)與上線流程。答案:步驟:1.樣本抽取:取近90天有過(guò)交互(瀏覽/加購(gòu)/支付)的(user,sku)對(duì),正負(fù)采樣1:3。2.標(biāo)簽定義:支付=1,瀏覽未支付=0。3.特征構(gòu)造:a.用戶側(cè):近30天支付次數(shù)、客單價(jià)、類目多樣性、活躍度。b.商品側(cè):銷量、庫(kù)存、折扣率、評(píng)分、上新天數(shù)。c.交叉?zhèn)龋河脩粼谠擃惸肯轮Ц墩急?、用戶?duì)該品牌復(fù)購(gòu)周期、用戶-商品瀏覽天數(shù)序列(取最近7天均值、標(biāo)準(zhǔn)差、衰減加權(quán))。4.特征處理:a.缺失值:數(shù)值型用中位數(shù),類別型用“未知”。b.標(biāo)準(zhǔn)化:RobustScaler抑制異常值。c.降維:對(duì)高維類目one-hot使用PCA壓縮至20維。5.模型訓(xùn)練:使用XGBoost,調(diào)參后AUC=0.87,TOP1%召回率65%。6.上線流程:a.訓(xùn)練后導(dǎo)出PMML,通過(guò)Airflow每日晨跑批預(yù)測(cè),輸出(user_id,sku_id,score)落Hive表。b.提供REST接口,業(yè)務(wù)方傳入user_id,返回TOP100商品,RT<50ms。c.監(jiān)控:每日對(duì)比預(yù)測(cè)分與真實(shí)支付率,PSI>0.2觸發(fā)重訓(xùn)。六、計(jì)算題(共21分)39.某短視頻App進(jìn)行Push文案AB實(shí)驗(yàn),對(duì)照組曝光100萬(wàn),點(diǎn)擊2萬(wàn),實(shí)驗(yàn)組曝光110萬(wàn),點(diǎn)擊2.7萬(wàn)。(1)計(jì)算兩組點(diǎn)擊率及相對(duì)提升率。(4分)(2)使用Two-proportionZ-test檢驗(yàn)差異是否顯著(α=0.05)。(7分)(3)若次日留存提升0.3pp,實(shí)驗(yàn)組留存率6.2%,對(duì)照組5.9%,求需多少樣本才能80%檢出該差異。(10分)答案:(1)對(duì)照CTR=20000/1000000=2.00%實(shí)驗(yàn)CTR=27000/1100000≈2.45%相對(duì)提升=(2.45%-2.00%)/2.00%=22.5%(2)p1=0.02,n1=1e6,p2=0.0245,n2=1.1e6P_pool=(20000+27000)/(1e6+1.1e6)=0.0226Z=(p2-p1)/√[P_pool(1-P_pool)(1/n1+1/n2)]=0.0045/√[0.0226×0.9774×(1e-6+0.909e-6)]=0.0045/0.000206≈21.821.8>1.96,拒絕原假設(shè),差異顯著。(3)留存差異δ=0.003,基線p=0.059合并p=0.0605Zα=1.96,Zβ=0.84n=[Zα√(2p(1-p))+Zβ√(p1(1-p1)+p2(1-p2))]2/δ2≈[1.96√(2×0.0605×0.9395)+0.84√(0.059×0.941+0.062×0.938)]2/0.0032≈[1.96×0.338+0.84×0.344]2/0.000009≈(0.662+0.289)2/0.000009≈0.9512/0.000009≈100500每組需約10萬(wàn)樣本。七、編程題(共30分)40.現(xiàn)有用戶行為日志behavior.csv,字段:user_id,item_id,cate,behavior_type,ts。behavior_type含pv、buy、cart、fav。請(qǐng)完成:(1)使用Pythonpandas統(tǒng)計(jì)每個(gè)用戶近7天購(gòu)買類目多樣性(購(gòu)買過(guò)的不同類目數(shù)),并輸出前10名用戶。(10分)(2)使用PySpark實(shí)現(xiàn)相同邏輯,并緩存中間結(jié)果,要求運(yùn)行時(shí)間<2min(集群3節(jié)點(diǎn),共24核)。(20分)答案:(1)importpandasaspd,datetimeasdtdf=pd.read_csv('behavior.csv',parse_dates=['ts'])cutoff=df.ts.max()-pd.Timedelta(days=7)sub=df[(df.behavior_type=='buy')&(df.ts>=cutoff)]result=sub.groupby('user_id')['cate'].nun
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 妊娠期心臟病產(chǎn)后抗凝時(shí)機(jī)的個(gè)體化策略
- 管道潛水員考試題及答案
- 倉(cāng)儲(chǔ)賬務(wù)考核試題及答案
- 妊娠合并Rett綜合征的疼痛管理策略
- 妊娠合并BV的孕期管理風(fēng)險(xiǎn)分層策略
- 婦女保健數(shù)據(jù)隱私與質(zhì)量平衡策略
- 女性特殊工種生殖健康防護(hù)指南
- 物理考試原理題及答案
- 前端考試題及答案
- 2025年中職外科護(hù)理學(xué)(外科感染護(hù)理)試題及答案
- 2025福建福州工業(yè)園區(qū)開(kāi)發(fā)集團(tuán)有限公司招聘4人考試備考題庫(kù)及答案解析
- 公司一把手講安全課件
- 2025~2026學(xué)年天津市和平區(qū)八年級(jí)上學(xué)期期中考試英語(yǔ)試卷
- 制冷作業(yè)人員操作證考試試卷
- 康復(fù)醫(yī)療服務(wù)的質(zhì)量與運(yùn)營(yíng)效率平衡方案
- 《SBT 10428-2007初級(jí)生鮮食品配送良好操作規(guī)范》(2026年)實(shí)施指南
- 2025年河南省公務(wù)員省考《行測(cè)》聯(lián)考真題(含答案)
- 2025年10月自考13140財(cái)務(wù)會(huì)計(jì)中級(jí)試題及答案
- 2025年國(guó)考(國(guó)家礦山安全監(jiān)察局)面試模擬題及參考解析(一)
- 2026年包頭輕工職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)附答案
- 中藥學(xué)職業(yè)發(fā)展規(guī)劃
評(píng)論
0/150
提交評(píng)論