2026年數(shù)學(xué)建模與數(shù)據(jù)分析應(yīng)用實踐題庫_第1頁
2026年數(shù)學(xué)建模與數(shù)據(jù)分析應(yīng)用實踐題庫_第2頁
2026年數(shù)學(xué)建模與數(shù)據(jù)分析應(yīng)用實踐題庫_第3頁
2026年數(shù)學(xué)建模與數(shù)據(jù)分析應(yīng)用實踐題庫_第4頁
2026年數(shù)學(xué)建模與數(shù)據(jù)分析應(yīng)用實踐題庫_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2026年數(shù)學(xué)建模與數(shù)據(jù)分析應(yīng)用實踐題庫一、數(shù)據(jù)分析與處理題(共3題,每題15分)1.題目:某城市交通管理局收集了2020-2023年每日早晚高峰時段主要路段的擁堵指數(shù)數(shù)據(jù),數(shù)據(jù)存儲在CSV文件中。請用Python或R語言進行數(shù)據(jù)清洗,處理缺失值(采用均值填充),并繪制時間序列圖,分析擁堵指數(shù)的變化趨勢及周期性特征。最后,計算各路段擁堵指數(shù)的年度均值和標準差,并標注顯著性差異(α=0.05)。數(shù)據(jù)集包含“日期”、“路段”、“擁堵指數(shù)”三列,假設(shè)數(shù)據(jù)集名為`traffic_data.csv`。2.題目:某電商平臺銷售部門收集了2022年1-12月的商品銷售數(shù)據(jù),包含“商品類別”、“銷售額”、“促銷活動標識(是/否)”、“用戶地區(qū)”四列。請用SQL或Pandas進行數(shù)據(jù)透視分析,計算各地區(qū)的商品總銷售額及促銷活動對銷售額的影響(對比促銷期與非促銷期)。要求:(1)生成各地區(qū)的銷售額排名表;(2)用箱線圖展示不同商品類別的銷售額分布,并標注異常值。數(shù)據(jù)集名為`sales_data.csv`。3.題目:某醫(yī)院記錄了2021-2025年每日的門診量數(shù)據(jù),包含“日期”、“科室”、“門診量”三列。請用Excel或Python實現(xiàn)以下任務(wù):(1)計算每周的門診總量,并繪制柱狀圖;(2)用時間序列分解法(加法模型)分析門診量的趨勢、季節(jié)性和隨機波動;(3)預(yù)測2026年1-3月的門診量,并說明模型選擇理由。數(shù)據(jù)集名為`hospital_data.xlsx`。二、統(tǒng)計建模題(共2題,每題20分)1.題目:某農(nóng)業(yè)研究機構(gòu)在山東地區(qū)種植三種小麥品種(A、B、C),記錄了不同施肥量(低、中、高)下的畝產(chǎn)量數(shù)據(jù)(單位:kg/畝)。請用SPSS或R語言進行雙因素方差分析(ANOVA),檢驗品種和施肥量對畝產(chǎn)量是否存在顯著影響(α=0.05),并繪制交互作用圖。假設(shè)數(shù)據(jù)集名為`wheat_data.csv`,列名分別為“品種”、“施肥量”、“畝產(chǎn)量”。2.題目:某銀行收集了1000名客戶的信用數(shù)據(jù),包含“年齡”、“收入”、“逾期天數(shù)”、“貸款金額”四列。請用線性回歸模型分析逾期天數(shù)與年齡、收入、貸款金額的關(guān)系,并解釋模型的擬合優(yōu)度(R2)和系數(shù)顯著性(t檢驗)。要求:(1)預(yù)測收入為50000元、年齡為35歲的客戶逾期天數(shù)的概率;(2)用殘差圖檢驗?zāi)P偷募僭O(shè)是否成立。數(shù)據(jù)集名為`credit_data.csv`。三、機器學(xué)習(xí)應(yīng)用題(共3題,每題15分)1.題目:某電商平臺希望預(yù)測用戶是否會購買某一商品,收集了用戶的瀏覽歷史、購買行為、性別、年齡等數(shù)據(jù)。請用Python的Scikit-learn庫實現(xiàn)邏輯回歸分類模型,并評估模型的準確率、召回率和F1分數(shù)。數(shù)據(jù)集名為`purchase_data.csv`,目標變量為“是否購買(1/0)”。2.題目:某城市氣象局收集了每日的氣溫、濕度、風(fēng)速和降雨量數(shù)據(jù),并標注了是否出現(xiàn)霧霾(1=是,0=否)。請用隨機森林模型預(yù)測未來3天的霧霾概率,并繪制特征重要性圖。數(shù)據(jù)集名為`weather_data.csv`。3.題目:某電商平臺希望對用戶進行精準推薦,收集了用戶的購買記錄和商品相似度矩陣。請用K-means聚類算法將用戶分為三類,并分析每類用戶的消費特征。要求:(1)計算輪廓系數(shù)評估聚類效果;(2)為聚類中心排名靠前的用戶推薦相似商品。數(shù)據(jù)集名為`user_cluster.csv`。四、數(shù)據(jù)挖掘與可視化題(共2題,每題25分)1.題目:某電商平臺的用戶行為數(shù)據(jù)包含“點擊商品ID”、“停留時間”、“購買轉(zhuǎn)化率”等列。請用關(guān)聯(lián)規(guī)則挖掘算法(如Apriori)分析用戶的購物籃數(shù)據(jù),找出頻繁項集和強關(guān)聯(lián)規(guī)則(支持度≥0.05,置信度≥0.7)。要求:(1)生成關(guān)聯(lián)規(guī)則表;(2)用網(wǎng)絡(luò)圖可視化關(guān)聯(lián)規(guī)則強度。數(shù)據(jù)集名為`basket_data.csv`。2.題目:某共享單車公司收集了每日的騎行數(shù)據(jù),包含“騎行起點”、“騎行終點”、“騎行時間”、“天氣狀況”等列。請用地理信息系統(tǒng)(GIS)數(shù)據(jù)可視化工具(如ArcGIS或Python的Folium庫)繪制騎行熱力圖,并分析高峰時段的騎行區(qū)域分布。要求:(1)標注主要騎行走廊;(2)結(jié)合天氣狀況分析騎行量變化。數(shù)據(jù)集名為`bike_data.csv`。答案與解析一、數(shù)據(jù)分析與處理題1.答案:(1)數(shù)據(jù)清洗:pythonimportpandasaspdimportmatplotlib.pyplotaspltdata=pd.read_csv("traffic_data.csv")data.fillna(data["擁堵指數(shù)"].mean(),inplace=True)data["日期"]=pd.to_datetime(data["日期"])data.set_index("日期",inplace=True)繪制時間序列圖plt.figure(figsize=(12,6))plt.plot(data["擁堵指數(shù)"],label="擁堵指數(shù)")plt.title("主要路段擁堵指數(shù)時間序列")plt.legend()plt.show()(2)年度統(tǒng)計:pythondata["年份"]=data.index.yeargrouped=data.groupby("年份")["擁堵指數(shù)"].agg(["mean","std"])print(grouped)(3)顯著性檢驗:pythonfromscipy.statsimportttest_indgroup1=data[data["路段"]=="路段1"]["擁堵指數(shù)"]group2=data[data["路段"]=="路段2"]["擁堵指數(shù)"]t_stat,p_value=ttest_ind(group1,group2)print(f"P-value:{p_value}")2.答案:(1)SQL實現(xiàn):sqlSELECT地區(qū),SUM(銷售額)AS總銷售額,AVG(CASEWHEN促銷活動='是'THEN銷售額ELSE0END)AS促銷銷售額FROMsales_dataGROUPBY地區(qū)ORDERBY總銷售額DESC;(2)Pandas實現(xiàn):pythonimportpandasaspdimportseabornassnsdata=pd.read_csv("sales_data.csv")data["促銷期"]=data["促銷活動標識"]=="是"pivot_table=data.pivot_table(values="銷售額",index="商品類別",columns="促銷期",aggfunc="sum")pivot_table.plot(kind="bar")plt.show()sns.boxplot(x="商品類別",y="銷售額",data=data)plt.show()3.答案:(1)Excel實現(xiàn):使用數(shù)據(jù)透視表計算每周門診總量,插入柱狀圖。(2)Python實現(xiàn):pythonfromstatsmodels.tsa.seasonalimportseasonal_decomposedata=pd.read_excel("hospital_data.xlsx")data.set_index("日期",inplace=True)result=seasonal_decompose(data["門診量"],model="additive",period=7)result.plot()plt.show()(3)預(yù)測:使用ARIMA模型進行預(yù)測。二、統(tǒng)計建模題1.答案:rlibrary(aov)model=aov(畝產(chǎn)量~品種施肥量,data=wheat_data)summary(model)plot(model)2.答案:pythonimportstatsmodels.apiassmX=credit_data[["年齡","收入","貸款金額"]]X=sm.add_constant(X)y=credit_data["逾期天數(shù)"]model=sm.OLS(y,X).fit()print(model.summary())三、機器學(xué)習(xí)應(yīng)用題1.答案:pythonfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportaccuracy_scoreX=purchase_data.drop("是否購買",axis=1)y=purchase_data["是否購買"]model=LogisticRegression()model.fit(X,y)y_pred=model.predict(X)print(accuracy_score(y,y_pred))2.答案:pythonfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsimportclassification_reportX=weather_data.drop("是否霧霾",axis=1)y=weather_data["是否霧霾"]model=RandomForestClassifier()model.fit(X,y)print(classification_report(y,model.predict(X)))3.答案:pythonfromsklearn.clusterimportKMeansfromsklearn.metricsimportsilhouette_scorekmeans=KMeans(n_clusters=3)labels=kmeans.fit_predict(user_cluster)print(silhouette_score(user_cluster,labels))四、數(shù)據(jù)挖掘與可視化題1.答案:pythonfrommlxtend.frequent_patternsimportapriori,association_rulesbasket=pd.read_csv("basket_data.csv")frequent_items=apriori(basket,min_support=0.05,use_colnames=True)rules=association_rules(frequent_items,metric="confidence",min_threshold=0.7)print(rules)2.答案:pythonimportfoliumfromfolium.pluginsimportHeatMapbike_data["經(jīng)緯度"]=bike_data["騎行終點"].apply(lambdax:x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論