Python商務(wù)數(shù)據(jù)分析與應(yīng)用(AIGC版 微課版)實訓(xùn)手冊_第1頁
Python商務(wù)數(shù)據(jù)分析與應(yīng)用(AIGC版 微課版)實訓(xùn)手冊_第2頁
Python商務(wù)數(shù)據(jù)分析與應(yīng)用(AIGC版 微課版)實訓(xùn)手冊_第3頁
Python商務(wù)數(shù)據(jù)分析與應(yīng)用(AIGC版 微課版)實訓(xùn)手冊_第4頁
Python商務(wù)數(shù)據(jù)分析與應(yīng)用(AIGC版 微課版)實訓(xùn)手冊_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

實訓(xùn)1.請使用本章介紹的知識按以下步驟編寫相應(yīng)代碼并進行基本分析。步驟一:生成并操作數(shù)據(jù)(1)創(chuàng)建一個包含10個隨機整數(shù)(范圍從1到100)的列表,模擬實驗數(shù)據(jù)。(2)計算并輸出該列表的最大值、最小值和平均值。Deepseek指令如下:結(jié)果:步驟二:數(shù)據(jù)分類和統(tǒng)計1、將步驟一生成的數(shù)據(jù)分為大于50和小于等于50的兩個列表。2、分別計算這兩個列表的平均值并輸出。Deepseek指令如下:結(jié)果:步驟三:數(shù)據(jù)存儲和檢索1、創(chuàng)建一個字典,其中包含大于50和小于等于50的列表及其平均值。2、打印字典內(nèi)容,并根據(jù)鍵值檢索大于50的列表及其平均值。Deepseek指令如下:結(jié)果:實訓(xùn)請使用本章介紹的基礎(chǔ)模塊知識按以下步驟編寫相應(yīng)代碼生成模擬實驗數(shù)據(jù),并進行基本分析。(1)步驟一:生成實驗數(shù)據(jù)使用random模塊生成50個介于0到1之間的隨機浮點數(shù),模擬實驗中的測量誤差。使用math模塊計算這些隨機數(shù)的算術(shù)平均值、中位數(shù)和標準差。Deepseek指令如下:結(jié)果:、(2)步驟二:數(shù)據(jù)的正則表達式匹配編寫一個正則表達式,匹配字符串“Themeasurementerrorsare0.1,1.2,0.65and3.27.”中所有滿足實驗條件的數(shù)據(jù)。Deepseek指令如下:結(jié)果:(3)步驟三:數(shù)據(jù)的異常檢測檢測并輸出所有高于平均值20%的數(shù)據(jù)。Deepseek指令如下:結(jié)果:實訓(xùn)請使用本章介紹的知識按以下步驟編寫相應(yīng)代碼并進行基本分析。生成PandasDataFrame數(shù)據(jù)Deepseek指令如下:創(chuàng)建一個包含學生成績數(shù)據(jù)的PandasDataFrame,數(shù)據(jù)如下所示:student_data={'姓名':['小明','小紅','小剛','小美','小軍'],'數(shù)學成績':[88,92,78,89,84],'英語成績':[85,95,91,87,78],'科學成績':[90,85,88,82,87]}結(jié)果:對生成的數(shù)據(jù)進行描述性統(tǒng)計:Deepseek指令如下:使用Pandas對學生數(shù)據(jù)進行基本的統(tǒng)計分析,包括每門課程的平均成績、最高成績和最低成績結(jié)果:對生成的數(shù)據(jù)進行可視化分析Deepseek指令如下:使用Matplotlib創(chuàng)建以下兩個圖表:(1)一個條形圖,顯示每位學生的總成績(數(shù)學成績+英語成績+科學成績)。(2)一個折線圖,顯示每門課程的平均成績隨時間的變化趨勢。結(jié)果:實訓(xùn)淘寶用戶行為數(shù)據(jù)集`taobao.csv`,該數(shù)據(jù)集記錄了用戶每天的多種指標信息,包括日期、瀏覽量、訪客數(shù)、人均瀏覽量、平均停留時間、跳失率、成交用戶數(shù)、成交單量、成交金額、客單價、成交商品數(shù)、成交轉(zhuǎn)化率等。請運用上文提到的數(shù)據(jù)分析方法和指標對數(shù)據(jù)集`taobao.csv`進行研究。步驟一:導(dǎo)入必要的Python庫在Python數(shù)據(jù)分析中,導(dǎo)入`Pandas`和`numpy`這兩個常用的庫。`Pandas`主要用于數(shù)據(jù)的讀取、處理和分析,它提供了`DataFrame`等數(shù)據(jù)結(jié)構(gòu)來方便地操作表格型數(shù)據(jù);`numpy`則主要用于數(shù)值計算,提供了高效的數(shù)組操作和數(shù)學函數(shù)等。DeepSeek指令如下:結(jié)果:步驟二:讀取數(shù)據(jù)并且進行描述性統(tǒng)計分析1.使用`DataFrame`對象的`head()`方法,默認查看前5行數(shù)據(jù)。這可以快速了解數(shù)據(jù)的大致結(jié)構(gòu)和內(nèi)容,確認數(shù)據(jù)是否正確讀取以及各列的數(shù)據(jù)類型和格式等。2.通過`DataFrame`對象的`info()`方法,獲取數(shù)據(jù)的基本信息,包括列名、每列的數(shù)據(jù)類型、非空值的數(shù)量等。這有助于了解數(shù)據(jù)是否存在缺失值等問題,以便后續(xù)決定是否需要進行數(shù)據(jù)清洗等操作。利用`DataFrame`對象的’describe()`方法,計算數(shù)據(jù)集中數(shù)值型列(如瀏覽量、訪客數(shù)、人均瀏覽量等)的描述性統(tǒng)計信息,包括均值、標準差、最小值、最大值、25%分位數(shù)、50%分位數(shù)(中位數(shù))、75%分位數(shù)等。這些統(tǒng)計量可以幫助我們了解數(shù)據(jù)的集中趨勢、離散程度等特征。DeepSeek指令如下:結(jié)果:步驟三:獲取有用的指標1.數(shù)據(jù)集中已經(jīng)有“訪客數(shù)”這一列,直接從`data`這個`DataFrame`對象中提取該列數(shù)據(jù)即可。在Python中,通過`data['訪客數(shù)']`的方式獲取“訪客數(shù)”列的數(shù)據(jù)。2.同理,數(shù)據(jù)集中有“瀏覽量”列,通過`data['瀏覽量']`的方式獲取該列數(shù)據(jù)。3.計算每周轉(zhuǎn)化率。首先讀取數(shù)據(jù)并將日期列轉(zhuǎn)換為日期時間類型,接著添加了周數(shù)列,然后通過groupby()方法按周數(shù)分組,對“成交用戶數(shù)”和“訪客數(shù)”求和后計算出每周的轉(zhuǎn)化率,并最終打印輸出包含周數(shù)和每周轉(zhuǎn)化率的結(jié)果。DeepSeek指令如下:結(jié)果:實訓(xùn)假設(shè)你是一名市場營銷專員,請根據(jù)文中5.2的數(shù)據(jù)使用RFM模型進行分析。 1.對數(shù)據(jù)集應(yīng)用RFM模型:根據(jù)用戶的最近一次消費時間(Recency)、消費頻率(Frequency)和消費總金額(MonetaryValue)三個指標對用戶進行分類。計算每個用戶的RFM得分,并根據(jù)得分將用戶劃分為不同的價值段Deepseek指令如下:

結(jié)果:2.分析RFM模型結(jié)果。可以從以下角度分析:(1)分析不同用戶價值段的特征,如消費習慣、偏好等(2)識別高價值用戶群和流失風險用戶群(3)找出各個用戶價值段的共性和差異Deepseek指令如下:結(jié)果:3.提出營銷建議:針對不同用戶價值段提出針對性的營銷策略(1)對高價值用戶提供更優(yōu)質(zhì)的服務(wù),維護和提升用戶粘性(2)對中低價值用戶采取差異化營銷,如提供優(yōu)惠活動、交叉銷售等(3)針對流失風險用戶制定挽留策略,如進行針對性溝通、提供更好的體驗等(4)根據(jù)RFM分析結(jié)果優(yōu)化現(xiàn)有營銷活動,提高營銷效率Deepseek指令如下:結(jié)果:實訓(xùn)請結(jié)合聚類模型,利用raw_sample.csv、user_profile.csv、ad_feature.csv文件數(shù)據(jù),分析淘寶網(wǎng)站的廣告數(shù)據(jù)集不同用戶群體與點擊率的關(guān)系。(1)步驟一:數(shù)據(jù)預(yù)處理①讀取數(shù)據(jù)集,使用merge函數(shù)將raw_sample.csv、user_profile.csv、ad_feature.csv文件數(shù)據(jù)集合并。對數(shù)據(jù)進行清洗,查詢并處理缺失值、重復(fù)值。DeepSeek指令如下:結(jié)果:②采用特征工程提取和轉(zhuǎn)換數(shù)據(jù)形式。選取幾個分析維度創(chuàng)建分類變量,例如對clk(點擊與否)、age_level(年齡層)、final_gender_code(性別)和shopping_level(購物層次)、price(價格水平)等分析維度創(chuàng)建新的分類變量,并轉(zhuǎn)換數(shù)據(jù)類型為字符串類型。刪除無用的原始列。DeepSeek指令如下:結(jié)果:③將分析變量拆分為數(shù)值變量和分類變量。對于數(shù)值列,使用MinMaxScaler對數(shù)值列進行最小-最大歸一化處理;對于分類列,使用OneHotEncoder對分類列進行獨熱編碼,把數(shù)據(jù)轉(zhuǎn)換成適合機器學習模型處理的格式。DeepSeek指令如下:結(jié)果:(2)步驟二:K-Means聚類分析①使用K-Means和MiniBatchKMeans進行聚類,并計算對應(yīng)的輪廓系數(shù)以確定最優(yōu)的聚類數(shù)量。DeepSeek指令如下:結(jié)果:K值圖:最佳聚類數(shù)為5。②完成K-Means聚類后,計算每個類別數(shù)值特征的平均值和類別特征的眾數(shù),利用雷達圖可視化呈現(xiàn)每類群體的特征分布情況。DeepSeek指令如下:結(jié)果:示例結(jié)果:繪制的雷達圖可以滑動查看每類群體的特征數(shù)值,上圖以群體3為例展示。③依據(jù)繪制的雷達圖,分析不同用戶群體特征(如年齡、購物層次、價格偏好等)與點擊率的關(guān)系。群體1的購物平均價格較低,年齡層次和購物深度均為3,屬于中等水平。點擊率也處于中等水平,表明這個群體對廣告的關(guān)注度一般,可能是因為他們的購買力和對廣告的興趣都處于中等水平。群體2的購物平均價格略低于群體1,點擊率稍高,年齡層次和購物深度相同。這表明群體2可能對廣告有一定的興趣,但由于購買力相對較低,可能更傾向于點擊但不一定購買。群體3的購物平均價格最高,年齡層次最高,點擊率也最高。這表明這個群體為年紀最大,購買能力最強,對廣告的點擊率也最高,可能是因為他們有更多的可支配收入和對廣告內(nèi)容的興趣。群體4的購物平均價格最低,年齡層次最低,點擊率處于中等水平。這表明這個群體可能是年輕人,購買力較低,對廣告有一定的興趣但購買行為較少。群體5的購物平均價格較高,年齡層次較高,點擊率也較高。這表明這個群體可能有一定的購買力和對廣告的興趣,但不如群體3那么高,可能是因為他們的購買力和廣告興趣都處于中等偏上的水平。從以上分析可以看出,年齡層次和購買力(平均價格)對點擊率有一定的影響。年紀較大、購買力較強的群體(如群體3和群體5)通常有更高的點擊率,可能是因為他們有更多的可支配收入和對廣告內(nèi)容的興趣。而年紀較輕、購買力較低的群體(如群體4)則點擊率較低,可能是因為他們的購買力和對廣告的興趣都較低。實訓(xùn)利用阿里云天池的淘寶用戶行為數(shù)據(jù)集,分析不同統(tǒng)計周期(日、周、月等)的用戶留存率,并探討不同周期對用戶留存行為的影響。步驟一:數(shù)據(jù)準備。使用阿里云天池提供的淘寶用戶行為數(shù)據(jù)集UserBehavior,篩選出用戶行為相關(guān)的數(shù)據(jù),包括但不限于用戶的瀏覽、收藏、購買等行為記錄。DeepSeek指令如下:結(jié)果:(2)步驟二:留存率計算。計算不同的統(tǒng)計周期(如日、周、月等)的留存率。①日留存率:統(tǒng)計用戶在首次訪問后的每一天是否再次訪問的數(shù)據(jù),日留存率=第1天活躍并在第2天仍然活躍的用戶數(shù)/第1天活躍的用戶總數(shù)×100%DeepSeek指令如下:結(jié)果:=②周留存率:統(tǒng)計用戶在首次訪問后的每一周是否再次訪問的數(shù)據(jù),周留存率=第1周活躍并在第2周仍然活躍的用戶數(shù)/第1周活躍的用戶總數(shù)×100%周留存率DeepSeek指令如下:結(jié)果:③月留存率:統(tǒng)計用戶在首次訪問后的每一月是否再次訪問的數(shù)據(jù),月留存率=第1個月活躍并在第2個月仍然活躍的用戶數(shù)/第1個月活躍的用戶總數(shù)×100%月留存率DeepSeek指令如下:結(jié)果:(3)步驟三:留存率分析①使用統(tǒng)計學方法(如生存分析)來分析不同周期的留存率。②繪制留存曲線,比較不同統(tǒng)計周期的留存率變化趨勢。③探討不同周期對用戶留存行為的影響,分析留存率變化的可能原因。DeepSeek指令如下:結(jié)果:(4)步驟四:異常檢測①檢測并輸出留存率異常的數(shù)據(jù)點,例如,某個周期的留存率遠高于或低于其他周期。②分析異常留存率的可能原因,如特殊促銷活動、節(jié)假日影響等。DeepSeek指令如下:結(jié)果:實訓(xùn)請基于本章配套的小紅書數(shù)據(jù)集,使用線性回歸模型,完成用戶購買行為預(yù)測,并根據(jù)代碼結(jié)果給出相應(yīng)的商務(wù)活動建議。1.數(shù)據(jù)預(yù)處理針對小紅書數(shù)據(jù)集,進行缺失值處理、編碼分類變量、特征縮放和數(shù)據(jù)分割處理,主要包括以下步驟:(1)使用fillna函數(shù)處理數(shù)據(jù)集中數(shù)值列的缺失值,可以用均值填充;(2)將用戶前30天是否參加重點活動(engaged_last_30)列轉(zhuǎn)換為數(shù)值類型,以便后續(xù)進行建模;(3)使用LabelEncoder函數(shù)對性別(gender)和用戶生命周期(lifecycle)兩個分類變量進行編碼;(4)使用StandardScaler函數(shù)對特征進行標準化處理,以確保所有特征在相同的規(guī)模上。(5)按照80%訓(xùn)練集和20%測試集的比例,使用train_test_split()函數(shù)將數(shù)據(jù)集分割為訓(xùn)練集和測試集。Deepseek指令:結(jié)果:Deepseek指令:結(jié)果:2.訓(xùn)練預(yù)測(1)基于處理好的數(shù)據(jù)集,定義模型的特征和目標變量,然后使用LinearRegression類初始化一個線性回歸模型;(2)使用linear_regressor.fit函數(shù)在訓(xùn)練集上擬合線性回歸模型,學習數(shù)據(jù)中的模式,并使用linear_regressor.predict函數(shù)在訓(xùn)練好的模型上對測試集進行預(yù)測。Deepseek指令:結(jié)果:實訓(xùn)請使用本章介紹的知識按以下步驟編寫相應(yīng)代碼并進行基本分析。描述性分析,查看各情況下流失用戶占比。第一步:上傳csv數(shù)據(jù)集,并使用python讀取。Deepseek指令如下:使用pandas庫讀取csv格式的數(shù)據(jù)集。結(jié)果:第二步:根據(jù)讀取數(shù)據(jù)集使用Pandas庫計算用戶流失的總?cè)藬?shù)和各個城市級別、婚姻狀況下的用戶流失比例。DeepSeek指令如下:根據(jù)讀取數(shù)據(jù)集使用Pandas庫計算用戶流失的總?cè)藬?shù)和各個城市級別、婚姻狀況下的用戶流失比例。結(jié)果:可視化分析Deepseek不能直接輸出可視化結(jié)果,但根據(jù)其提供的可視化代碼可以進行可視化。將程序放入已導(dǎo)入Matplotlib庫的python中實現(xiàn)可視化。(1)DeepSeek指令如下:繪制用戶流失情況的分布圖(如條形圖或餅圖),直觀展示不同城市級別和婚姻狀況下的用戶流失情況。結(jié)果:(2)DeepSeek指令如下:利用boxplot圖展示不同城市級別和婚姻狀況下的用戶流失比例,幫助識別潛在的趨勢。結(jié)果:回歸分析DeepSeek指令如下:通過構(gòu)建Logistic回歸模型,探討城市級別和婚姻狀況對用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論