數據分析師編程能力面試題及代碼示例含答案

上傳人：1*** IP屬地：福建上傳時間：2025-12-31 格式：DOCX 頁數：21 大?。?2.18KB 積分：18 舉報 版權申訴

已閱讀5頁，還剩16頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

2026年數據分析師編程能力面試題及代碼示例含答案題型一：Python基礎與數據處理（共5題，每題10分，總分50分）題目1：請編寫Python代碼，讀取`data.csv`文件中的數據，篩選出`銷售額`大于10000的記錄，并按`日期`字段升序排序，最后輸出前10條記錄的`客戶名稱`和`銷售額`字段。假設`data.csv`文件包含`日期`、`客戶名稱`、`銷售額`三列，字段分隔符為`,`。代碼示例：pythonimportpandasaspd讀取CSV文件data=pd.read_csv('data.csv',delimiter=',',parse_dates=['日期'])篩選銷售額大于10000的記錄filtered_data=data[data['銷售額']>10000]按日期升序排序sorted_data=filtered_data.sort_values(by='日期',ascending=True)輸出前10條記錄的客戶名稱和銷售額result=sorted_data[['客戶名稱','銷售額']].head(10)print(result)答案與解析：1.代碼解析：-`pd.read_csv`讀取CSV文件，`delimiter=','`指定字段分隔符為逗號，`parse_dates=['日期']`將`日期`列解析為日期格式。-`data['銷售額']>10000`篩選出銷售額大于10000的記錄。-`sort_values(by='日期',ascending=True)`按`日期`升序排序。-`head(10)`輸出前10條記錄，`[['客戶名稱','銷售額']]`選擇指定字段。2.關鍵點：-CSV文件讀取時注意字段分隔符和日期解析。-篩選和排序操作需結合實際業(yè)務需求調整。題目2：請編寫Python代碼，使用`numpy`庫計算一個3x3矩陣的跡（主對角線元素之和）。假設矩陣存儲在變量`matrix`中。代碼示例：pythonimportnumpyasnp定義3x3矩陣matrix=np.array([[1,2,3],[4,5,6],[7,8,9]])計算矩陣的跡trace=np.trace(matrix)print(f"矩陣的跡為：{trace}")答案與解析：1.代碼解析：-`np.array`創(chuàng)建3x3矩陣。-`np.trace(matrix)`計算主對角線元素之和（1+5+9=15）。2.關鍵點：-矩陣操作需使用`numpy`庫。-跡的計算僅針對方陣（行數等于列數）。題目3：請編寫Python代碼，使用`collections`庫統(tǒng)計一個字符串中每個字符的出現次數，并按出現次數降序排列。假設字符串存儲在變量`s`中。代碼示例：pythonfromcollectionsimportCounter定義字符串s="abracadabra"統(tǒng)計字符出現次數counter=Counter(s)按出現次數降序排列sorted_counter=counter.most_common()print(sorted_counter)答案與解析：1.代碼解析：-`Counter(s)`統(tǒng)計字符出現次數（`{'a':5,'b':2,'r':2,'c':1,'d':1}`）。-`most_common()`按出現次數降序排列。2.關鍵點：-`Counter`是統(tǒng)計高頻元素的高效工具。-結果為列表，每個元素為`(字符,次數)`元組。題目4：請編寫Python代碼，使用`datetime`庫計算當前時間距離2026年1月1日還有多少天。假設當前時間為2025年12月31日。代碼示例：pythonfromdatetimeimportdatetime定義當前時間和目標時間current_time=datetime(2025,12,31)target_time=datetime(2026,1,1)計算差值delta=target_time-current_time輸出天數print(f"距離2026年1月1日還有：{delta.days}天")答案與解析：1.代碼解析：-`datetime(2025,12,31)`創(chuàng)建當前時間。-`target_time`為目標時間。-`delta.days`計算日期差值（1天）。2.關鍵點：-日期計算需使用`datetime`庫。-結果為整數天數。題目5：請編寫Python代碼，使用`itertools`庫生成0到9的所有排列組合，并輸出前10個結果。假設使用`itertools.permutations`函數。代碼示例：pythonfromitertoolsimportpermutations生成0到9的排列組合perm=permutations(range(10),2)輸出前10個結果fori,pinenumerate(perm):print(f"{i+1}:{p}")答案與解析：1.代碼解析：-`permutations(range(10),2)`生成0到9的2長度排列（如`(0,1)`,`(0,2)`等）。-`enumerate`用于遍歷并計數。2.關鍵點：-`itertools.permutations`生成有序排列。-結果為元組列表，需指定長度（如2表示每組2個元素）。題型二：SQL查詢與數據庫操作（共5題，每題10分，總分50分）題目6：請編寫SQL查詢，從`sales`表（包含`id`、`product_name`、`region`、`sales_amount`字段）中篩選出`region`為"華東"且`sales_amount`大于5000的記錄，并按`sales_amount`降序排列。代碼示例：sqlSELECTid,product_name,region,sales_amountFROMsalesWHEREregion='華東'ANDsales_amount>5000ORDERBYsales_amountDESC;答案與解析：1.代碼解析：-`WHEREregion='華東'ANDsales_amount>5000`篩選條件。-`ORDERBYsales_amountDESC`按銷售額降序排列。2.關鍵點：-篩選條件需區(qū)分字段和值（如`region`是字符串需加引號）。-降序排列使用`DESC`。題目7：請編寫SQL查詢，從`employees`表（包含`id`、`name`、`department`、`salary`字段）中計算每個部門的平均工資，并按平均工資降序排列。代碼示例：sqlSELECTdepartment,AVG(salary)ASavg_salaryFROMemployeesGROUPBYdepartmentORDERBYavg_salaryDESC;答案與解析：1.代碼解析：-`AVG(salary)`計算平均工資。-`GROUPBYdepartment`按部門分組。-`ORDERBYavg_salaryDESC`按平均工資降序排列。2.關鍵點：-分組查詢需使用`GROUPBY`。-別名`avg_salary`使結果更清晰。題目8：請編寫SQL查詢，從`orders`表（包含`order_id`、`customer_id`、`order_date`、`total_amount`字段）中查詢2025年每個客戶的訂單總數和總金額，并按總金額降序排列。代碼示例：sqlSELECTcustomer_id,COUNT(order_id)AStotal_orders,SUM(total_amount)AStotal_amountFROMordersWHEREorder_dateBETWEEN'2025-01-01'AND'2025-12-31'GROUPBYcustomer_idORDERBYtotal_amountDESC;答案與解析：1.代碼解析：-`WHEREorder_dateBETWEEN'2025-01-01'AND'2025-12-31'`篩選2025年訂單。-`COUNT(order_id)`統(tǒng)計訂單總數。-`SUM(total_amount)`計算總金額。-`GROUPBYcustomer_id`按客戶分組。2.關鍵點：-日期范圍查詢使用`BETWEEN`。-多聚合函數需分組。題目9：請編寫SQL查詢，從`products`表（包含`product_id`、`product_name`、`category`、`price`字段）中查詢每個類別的最貴產品名稱和價格，并按價格降序排列。代碼示例：sqlSELECTcategory,product_name,priceFROMproductsp1WHEREprice=(SELECTMAX(price)FROMproductsp2WHEREp1.category=p2.category)ORDERBYpriceDESC;答案與解析：1.代碼解析：-子查詢`SELECTMAX(price)FROMproductsp2WHEREp1.category=p2.category`查找每個類別的最高價格。-主查詢匹配最高價格的產品。2.關鍵點：-子查詢需關聯主查詢的`category`字段。-結果為每個類別的最貴產品。題目10：請編寫SQL查詢，從`employees`表（包含`id`、`name`、`department`、`salary`字段）中刪除`salary`低于平均工資的員工記錄。代碼示例：sqlDELETEFROMemployeesWHEREsalary<(SELECTAVG(salary)FROMemployees);答案與解析：1.代碼解析：-子查詢`SELECTAVG(salary)`計算平均工資。-`DELETE`刪除低于平均工資的記錄。2.關鍵點：-刪除操作需謹慎，建議先測試子查詢結果。-子查詢必須返回單個值。題型三：機器學習與數據分析（共5題，每題10分，總分50分）題目11：請使用Python的`scikit-learn`庫，對`diabetes.csv`數據集進行線性回歸分析，并輸出模型的系數和截距。假設數據集包含`age`、`weight`、`blood_pressure`等特征和`diabetes_score`目標變量。代碼示例：pythonimportpandasaspdfromsklearn.linear_modelimportLinearRegression讀取數據data=pd.read_csv('diabetes.csv')特征和目標變量X=data[['age','weight','blood_pressure']]y=data['diabetes_score']線性回歸模型model=LinearRegression()model.fit(X,y)輸出系數和截距print(f"系數：{model.coef_}")print(f"截距：{ercept_}")答案與解析：1.代碼解析：-`pd.read_csv`讀取數據。-`X`為特征列，`y`為目標列。-`LinearRegression`創(chuàng)建模型并擬合數據。-`coef_`為特征系數，`intercept_`為截距。2.關鍵點：-特征和目標變量需分離。-線性回歸適用于連續(xù)目標變量。題目12：請使用Python的`scikit-learn`庫，對`iris.csv`數據集進行K-means聚類分析，并輸出每個樣本的聚類標簽和聚類中心。假設數據集包含`sepal_length`、`sepal_width`等特征。代碼示例：pythonimportpandasaspdfromsklearn.clusterimportKMeans讀取數據data=pd.read_csv('iris.csv')特征X=data[['sepal_length','sepal_width']]K-means聚類（假設聚類數為3）kmeans=KMeans(n_clusters=3,random_state=42)kmeans.fit(X)輸出聚類標簽和中心print(f"聚類標簽：{kmeans.labels_}")print(f"聚類中心：{kmeans.cluster_centers_}")答案與解析：1.代碼解析：-`KMeans(n_clusters=3)`創(chuàng)建聚類模型。-`fit(X)`擬合數據。-`labels_`為樣本聚類標簽，`cluster_centers_`為聚類中心。2.關鍵點：-聚類數需根據業(yè)務調整（如鳶尾花數據通常為3）。-聚類結果需解釋業(yè)務含義。題目13：請使用Python的`pandas`庫，對`sales.csv`數據集進行時間序列分析，計算每月銷售額的滾動平均值（窗口大小為3個月）。假設數據集包含`date`（日期）和`sales_amount`（銷售額）字段。代碼示例：pythonimportpandasaspd讀取數據data=pd.read_csv('sales.csv',parse_dates=['date'])設置日期為索引data.set_index('date',inplace=True)計算滾動平均值rolling_avg=data['sales_amount'].rolling(window=3).mean()print(rolling_avg)答案與解析：1.代碼解析：-`parse_dates`將日期列解析為日期格式。-`set_index`將日期列設為索引。-`rolling(window=3).mean()`計算3個月滾動平均值。2.關鍵點：-時間序列分析需設置時間索引。-滾動窗口大小需根據業(yè)務調整。題目14：請使用Python的`matplotlib`庫，繪制`sales.csv`數據集的銷售額時間序列圖，并標注每月最高銷售額點。假設數據集包含`date`（日期）和`sales_amount`（銷售額）字段。代碼示例：pythonimportpandasaspdimportmatplotlib.pyplotasplt讀取數據data=pd.read_csv('sales.csv',parse_dates=['date'])設置日期為索引data.set_index('date',inplace=True)繪制時間序列圖plt.figure(figsize=(10,6))plt.plot(data['sales_amount'],label='MonthlySales')標注最高銷售額點max_sales=data['sales_amount'].idxmax()plt.scatter(max_sales,data.loc[max_sales,'sales_amount'],color='red')plt.text(max_sales,data.loc[max_sales,'sales_amount'],f"Max:{data.loc[max_sales,'sales_amount']}",fontsize=12)plt.xlabel('Date')plt.ylabel('SalesAmount')plt.title('MonthlySalesTimeSeries')plt.legend()plt.show()答案與解析：1.代碼解析：-`plt.plot`繪制時間序列圖。-`idxmax()`查找最高銷售額日期。-`plt.scatter`和`plt.text`標注最高點。2.關鍵點：-時間序列圖需標注關鍵點。-`matplotlib`可自定義樣式。題目15：請使用Python的`seaborn`庫，對`tips.csv`數據集繪制箱線圖，比較不同`day`（星期幾）的`total_bill`（總賬單）分布。假設數據集包含`day`和`total_bill`字段。代碼示例：pythonimportpandasaspdimportseabornassns讀取數據data=pd.read_csv('tips.csv')繪制

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數據分析師編程能力面試題及代碼示例含答案

文檔簡介

溫馨提示

最新文檔

評論

數據分析師編程能力面試題及代碼示例含答案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔