2026統(tǒng)計與編程試題及答案_第1頁
2026統(tǒng)計與編程試題及答案_第2頁
2026統(tǒng)計與編程試題及答案_第3頁
2026統(tǒng)計與編程試題及答案_第4頁
2026統(tǒng)計與編程試題及答案_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2026統(tǒng)計與編程試題及答案1.單選題(每題2分,共20分)1.1在R語言中,若向量x<c(1,2,3,NA,5),則sum(x,na.rm=TRUE)的返回值是A.11?B.NA?C.10?D.9答案:C解析:na.rm=TRUE表示先剔除缺失值,剩余元素1+2+3+5=10。1.2某電商2026年1月訂單量服從λ=1200的泊松分布,若用正態(tài)近似計算P(X≤1250),所需連續(xù)性修正后的標準化統(tǒng)計量為A.(1250.5?1200)/√1200?B.(1250?1200)/1200?C.(1250?1200)/√1200?D.(1249.5?1200)/√1200答案:A解析:泊松近似正態(tài)時,均值與方差均為λ,連續(xù)性修正需加0.5。1.3Python代碼片段importnumpyasnpa=np.arange(12).reshape(3,4)b=a.sum(axis=0)print(b.shape)輸出為A.(3,)?B.(4,)?C.(12,)?D.(3,4)答案:B解析:axis=0對行求和,3行4列矩陣按列求和后得到長度為4的向量。1.4在SQL中,下列語句能正確返回“每個品類銷售額占比”的是A.SELECTcategory,SUM(sales)/SUM(sales)OVER()FROMtGROUPBYcategory;B.SELECTcategory,sales/SUM(sales)FROMt;C.SELECTcategory,sales/(SELECTSUM(sales)FROMt)FROMtGROUPBYcategory;D.SELECTcategory,RATIO_TO_REPORT(sales)FROMt;答案:A解析:窗口函數(shù)SUM(sales)OVER()計算全局總和,再按品類分組即可得占比。1.5對線性回歸y=Xβ+ε,若設(shè)計矩陣X列滿秩,則β的最小二乘估計方差協(xié)方差矩陣為A.σ2(X?X)?1?B.σ2X?1?C.σ2I?D.σ2X?X答案:A解析:經(jīng)典結(jié)論,Var(β?)=σ2(X?X)?1。1.6在Git中,將當前分支dev的修改暫存并切換到main,最合適的序列是A.gitstash;gitcheckoutmainB.gitcommit;gitcheckoutmainC.gitpush;gitcheckoutmainD.gitmerge;gitcheckoutmain答案:A解析:stash可保存工作區(qū)與暫存區(qū)改動,checkout切換分支無沖突。1.7若隨機變量T服從自由度為n的t分布,則E(T2)等于A.n/(n?2)?B.1?C.0?D.n答案:A解析:t分布方差為n/(n?2),而E(T)=0,故E(T2)=Var(T)=n/(n?2)。1.8在PyTorch中,張量x.requires_grad_(True)后執(zhí)行y=x**2;z=y.mean();z.backward(),則x.grad等于A.2x?B.2x/n?C.x?D.0答案:B解析:鏈式法則,dz/dx=2x/n,其中n為x元素個數(shù),mean()導致除以n。1.9對時間序列{y_t}建立ARIMA(1,1,1)模型,(1??B)(1?B)y_t=(1+θB)ε_t,其特征方程1??λ=0的根的模大于1,說明A.模型非平穩(wěn)?B.模型平穩(wěn)?C.差分階數(shù)不足?D.移動平均部分可逆答案:B解析:AR部分特征根在單位圓外,表明差分后序列平穩(wěn)。1.10在Excel365中,動態(tài)數(shù)組公式=UNIQUE(A1:A100,,FALSE)的第二個參數(shù)FALSE表示A.按行返回唯一值?B.按列返回唯一值?C.返回整行唯一?D.返回整列唯一答案:B解析:第二參數(shù)為FALSE表示按列比較,返回列方向唯一值。2.多選題(每題3分,共15分,多選少選均不得分)2.1下列哪些方法可以減弱線性回歸中的多重共線性A.嶺回歸?B.Lasso?C.主成分回歸?D.增加樣本量?E.方差膨脹因子篩選變量答案:ABCE解析:增加樣本量無法降低變量間線性相關(guān)性,其余均可。2.2關(guān)于Python裝飾器,說法正確的是A.本質(zhì)上是高階函數(shù)?B.使用@符號語法糖?C.一定返回原函數(shù)對象?D.可疊加多個?E.可帶參數(shù)答案:ABDE解析:裝飾器可返回新函數(shù),不一定返回原函數(shù)對象。2.3在假設(shè)檢驗中,增大樣本量會導致A.第一類錯誤概率α不變?B.第二類錯誤概率β減小?C.檢驗功效1?β增大?D.p值一定減小?E.置信區(qū)間變寬答案:ABC解析:α由研究者預設(shè)不變;β減小、功效增大;p值趨勢減小但非“一定”;樣本增大置信區(qū)間變窄。2.4使用K-means聚類時,可能遇到A.簇形狀假設(shè)為球形?B.對異常值敏感?C.需要預設(shè)簇數(shù)k?D.對特征量綱敏感?E.保證全局最優(yōu)答案:ABCD解析:K-means迭代算法僅得局部最優(yōu)。2.5關(guān)于隨機森林,下列正確的是A.可自然處理缺失值?B.可評估變量重要性?C.樹之間獨立同分布?D.能降低過擬合風險?E.對異常值不敏感答案:BDE解析:傳統(tǒng)實現(xiàn)需先處理缺失;樹之間bootstrap樣本相關(guān);隨機森林通過平均降低方差,抗異常值。3.填空題(每空2分,共20分)3.1在R語言data.table包中,按id分組求val最大行所在整行的語法為DT[,.SD[which.max(val)],by=id]答案:.SD[which.max(val)]3.2若X~N(μ,σ2),則其矩生成函數(shù)M_X(t)=exp(μt+?σ2t2)答案:exp(μt+?σ2t2)3.3Python列表推導式生成九九乘法表二維列表的代碼為[[i*jforjinrange(1,10)]foriinrange(1,10)]答案:[[i*jforjinrange(1,10)]foriinrange(1,10)]3.4在Linuxshell中,將file.csv按第二列數(shù)值降序排序并取前10行的命令sort-t,-k2,2nrfile.csv|head-n10答案:sort-t,-k2,2nrfile.csv|head-n103.5若logistic回歸系數(shù)β?=0.8,則優(yōu)勢比OR=e^0.8≈2.2255答案:2.22553.6在PostgreSQL中,實現(xiàn)“累計和”窗口函數(shù)的表達式為SUM(amount)OVER(ORDERBYdateROWSUNBOUNDEDPRECEDING)答案:SUM(amount)OVER(ORDERBYdateROWSUNBOUNDEDPRECEDING)3.7當卷積神經(jīng)網(wǎng)絡(luò)使用same填充且步長為1時,輸出特征圖尺寸等于輸入尺寸答案:等于輸入尺寸3.8若隨機變量U~Uniform(0,1),則?ln(U)服從參數(shù)為1的指數(shù)分布答案:指數(shù)分布3.9在Excel中,計算一列幾何平均數(shù)的數(shù)組公式為=GEOMEAN(A1:A100)答案:=GEOMEAN(A1:A100)3.10對稀疏矩陣存儲,CSR格式中的indptr數(shù)組長度為行數(shù)+1答案:行數(shù)+14.綜合題(共45分)4.1數(shù)據(jù)清洗與可視化(10分)某CSV文件sales.csv包含字段date、store_id、product_id、units、revenue,其中存在以下質(zhì)量問題:1.date列混合格式“2026/3/15”與“15-Mar-2026”;2.store_id含前導零,被Excel解析為數(shù)值后丟失;3.少量revenue為負。要求:(1)用Pythonpandas寫出清洗代碼,統(tǒng)一日期格式為%Y-%m-%d,store_id補零至4位,剔除revenue≤0的行;(2)用seaborn畫出各門店月度營收折線圖,其中門店數(shù)>50,需分面展示。答案與解析:```pythonimportpandasaspdimportseabornassnsimportmatplotlib.pyplotasplt讀取df=pd.read_csv('sales.csv',dtype={'store_id':str})統(tǒng)一日期df['date']=pd.to_datetime(df['date'],errors='coerce')補零df['store_id']=df['store_id'].str.zfill(4)清洗df=df[df['revenue']>0].dropna(subset=['date'])加年月df['year_month']=df['date'].dt.to_period('M')聚合month_rev=df.groupby(['year_month','store_id'])['revenue'].sum().reset_index()繪圖g=sns.FacetGrid(month_rev,col='store_id',col_wrap=10,sharey=False,height=2)g.map(plt.plot,'year_month','revenue',marker='.')plt.show()```解析:to_datetime自動識別多種格式;str.zfill保證前導零;分面圖避免線條重疊。4.2統(tǒng)計建模(10分)研究人員收集2026年第二季度的日度氣溫T與冰淇淋銷量S,擬建立多項式回歸S=β?+β?T+β?T2+ε,但擔心異方差。(1)寫出R代碼,使用Breusch-Pagan檢驗判斷是否存在異方差;(2)若存在,采用加權(quán)最小二乘(WLS)估計,權(quán)重為擬合值平方的倒數(shù),給出代碼。答案:```r擬合OLSmodel<lm(S~poly(T,2),data=df)BP檢驗library(lmtest)bptest(model)若p值<0.05則異方差w<1/fitted(model)^2model_wls<lm(S~poly(T,2),data=df,weights=w)summary(model_wls)```解析:poly(T,2)生成正交多項式避免多重共線;weights參數(shù)實現(xiàn)WLS。4.3機器學習(10分)訓練集含特征矩陣X_train(20000×100),標簽y_train為二分類。采用PythonLightGBM,需在驗證集上搜索最優(yōu)樹深度max_depth∈{3,5,7,9}與學習率eta∈{0.01,0.05,0.1},評估指標AUC。要求使用BayesSearchCV,限定迭代30次,給出完整代碼并輸出最優(yōu)參數(shù)與驗證AUC。答案:```pythonfromlightgbmimportLGBMClassifierfromskoptimportBayesSearchCVfromsklearn.model_selectionimportStratifiedKFoldfromsklearn.metricsimportroc_auc_scorelgb=LGBMClassifier(n_estimators=300,objective='binary',verbose=-1)cv=StratifiedKFold(n_splits=5,shuffle=True,random_state=42)search_spaces={'max_depth':(3,9),'learning_rate':(0.01,0.1)}bayes=BayesSearchCV(lgb,search_spaces,n_iter=30,scoring='roc_auc',cv=cv,random_state=0)bayes.fit(X_train,y_train)print("bestparams:",bayes.best_params_)print("bestAUC:",bayes.best_score_)```解析:BayesSearchCV基于高斯過程代理模型,迭代次數(shù)少而精;StratifiedKFold保證類別比例。4.4算法設(shè)計(10分)給定長度為n的整數(shù)數(shù)組a,允許最多k次交換相鄰元素,求可獲得的字典序最小序列。設(shè)計O(nlogn)算法并給出Python實現(xiàn)。答案:```pythonimportheapqdefmin_lex_with_k(a,k):n=len(a)res=[]使用最小堆維護當前窗口h=[]foriinrange(n):heapq.heappush(h,(a[i],i))當堆頂元素下標滿足可移動到當前首位whilehandh[0][1]<=ik:heapq.heappop(h)選出最小val,pos=heapq.heappop(h)res.append(val)剩余k減少移動步數(shù)k-=(posi)刪除已用元素,后續(xù)元素前移a.pop(pos)重新插入堆中剩余元素h=[(v,j)forj,vinenumerate(a[i:])]heapq.heapify(h)returnres優(yōu)化版:使用線段樹或樹狀數(shù)組求區(qū)間最小值下標,真O(nlogn)以下給出樹狀數(shù)組解法框架classFenwick:def__init__(self,n):self.n=nself.bit=[0]*(n+1)defupdate(self,idx,delta=1):whileidx<=self.n:self.bit[idx]+=deltaidx+=idx&-idxdefquery(self,idx):s=0whileidx:s+=self.bit[idx]idx-=idx&-idxreturns完整優(yōu)化代碼略,核心思想:離散化后樹狀數(shù)組維護可用位置,RMQ求區(qū)間最小值。```解析:暴力堆解法易寫但最壞O(n2);樹狀數(shù)組+線段樹可降至O(nlogn)。4.5分布式計算(5分)用PySpark計算大型CSV文件的各列缺失率,并輸出JSON格式結(jié)果。文件存儲于HDFS路徑/data/2026/big.csv,首行為列名。答案:```pythonfrompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,sum,countimportjsonspark=SparkSession.builder.appName("missing_rate").getOrCreate()df=spark.read.option("header","true").csv("hdfs:///data/2026/big.csv")total=df.count()miss=df.select([(sum(col(c).isNull().cast("int"))/total).alias(c)forcindf.columns])result=miss.first().asDict()print(json.dumps(result,ensure_ascii=False,indent=2))spark.stop()```解析:sum(isNull)/total直接得缺失率;collect_as_dict即可序列化JSON。5.編程實戰(zhàn)(附加題,滿分10分,計入總分)5.1實現(xiàn)一個線程安全的單例模式Logger類,支持日志級別DEBUG/INFO/WARN/ERROR,日志寫入文件并輪轉(zhuǎn),每天一個文件,保留30天。語言不限,給出完整源碼。答案:```pythonimportloggingimportosfromlogging.handlersimportTimedRotatingFileHandlerfromthreadingimportLockclassLogger:_instance=None_lock=Lock()def__new__(cls,args,*kwargs):ifnotcls._instance:withcls._lock:ifnotcls._instance:cls._instance=super().__new__(cls)returncls._instan

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論