《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目七 市場(chǎng)分析工程實(shí)踐案例_第1頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目七 市場(chǎng)分析工程實(shí)踐案例_第2頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目七 市場(chǎng)分析工程實(shí)踐案例_第3頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目七 市場(chǎng)分析工程實(shí)踐案例_第4頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目七 市場(chǎng)分析工程實(shí)踐案例_第5頁(yè)
已閱讀5頁(yè),還剩81頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目七市場(chǎng)分析工程實(shí)踐案例《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》模塊一

市場(chǎng)數(shù)據(jù)采集與預(yù)處理核心目標(biāo)職業(yè)能力1.運(yùn)用網(wǎng)絡(luò)爬蟲采集數(shù)據(jù),并對(duì)臟數(shù)據(jù)進(jìn)行清洗;2.能對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析與可視化分析;3.了解相關(guān)模型的建立與求解;4.獨(dú)立完成數(shù)據(jù)分析報(bào)告。職業(yè)素養(yǎng)1.養(yǎng)成敏銳洞察數(shù)據(jù)與處理數(shù)據(jù)的能力;2.養(yǎng)成數(shù)據(jù)分析思維,用數(shù)據(jù)客觀看待市場(chǎng),把握市場(chǎng)方向。知識(shí)圖譜項(xiàng)目背景小張平時(shí)喜歡飲茶,經(jīng)常聯(lián)想到目前的茶葉市場(chǎng)規(guī)模,經(jīng)過(guò)Python的初步學(xué)習(xí)后,計(jì)劃做一期市場(chǎng)分析為自己解惑,于是在市場(chǎng)中選取了上市茶企業(yè)A公司作為研究對(duì)象,對(duì)相關(guān)數(shù)據(jù)進(jìn)行采集、分析與建模,通過(guò)所學(xué)知識(shí)對(duì)市場(chǎng)現(xiàn)狀進(jìn)行分析并對(duì)市場(chǎng)前景進(jìn)行合理預(yù)測(cè)。01采集市場(chǎng)數(shù)據(jù)02數(shù)據(jù)預(yù)處理問(wèn)題引入選取合適的數(shù)據(jù)網(wǎng)站采集A公司的財(cái)務(wù)指標(biāo),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,用于后續(xù)更加深入的分析挖掘等。通過(guò)查找資料,小張確定了合適的網(wǎng)站,準(zhǔn)備利用已學(xué)的網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行數(shù)據(jù)抓取,并利用Python第三方庫(kù)pandas、numpy對(duì)數(shù)據(jù)進(jìn)行初步清洗。之后,小張又通過(guò)年報(bào)與查找資料,獲取A公司2018年的財(cái)務(wù)數(shù)據(jù)與2018年~2022年的銷量數(shù)據(jù),通過(guò)讀取Excel數(shù)據(jù)與初步清洗數(shù)據(jù)進(jìn)行合并預(yù)處理。認(rèn)知實(shí)踐項(xiàng)目所使用數(shù)據(jù)均來(lái)自網(wǎng)絡(luò)爬蟲與所提供的數(shù)據(jù)文檔,如圖7-1所示。A企業(yè)經(jīng)營(yíng)情況數(shù)據(jù)集為爬蟲所爬取的目標(biāo)頁(yè)面,通過(guò)requests進(jìn)行訪問(wèn),xpath方式進(jìn)行解析,鏈接為:33:8082/fstmicd/index.aspx?pintkey=ODI=,數(shù)據(jù)情況如圖7-2所示。圖7-1平臺(tái)數(shù)據(jù)圖7-2爬蟲網(wǎng)頁(yè)一、數(shù)據(jù)源認(rèn)知實(shí)踐A企業(yè)2018年財(cái)務(wù)數(shù)據(jù)、A企業(yè)2018-2022年銷量數(shù)據(jù)則均為excel文件,通過(guò)讀取后直接使用,數(shù)據(jù)如圖7-3、7-4所示。圖7-32018年財(cái)務(wù)數(shù)據(jù)(節(jié)選)圖7-42018~2022年銷量數(shù)據(jù)一、數(shù)據(jù)源認(rèn)知實(shí)踐請(qǐng)求頭由關(guān)鍵字/值對(duì)組成,每行一對(duì),關(guān)鍵字和值用英文冒號(hào)“:”分隔,請(qǐng)求頭通知服務(wù)器有關(guān)于客戶端請(qǐng)求的信息,典型的請(qǐng)求頭有:二、Http請(qǐng)求頭爬蟲中請(qǐng)求頭的作用:在網(wǎng)站使用反爬機(jī)制之后,可以在程序中添加請(qǐng)求頭來(lái)實(shí)現(xiàn)反反爬,達(dá)到偽裝成瀏覽器的目的,從而實(shí)現(xiàn)反反爬機(jī)制。產(chǎn)生請(qǐng)求的瀏覽器類型;User-AgentAcceptHost客戶端可識(shí)別的內(nèi)容類型列表;請(qǐng)求的主機(jī)名,允許多個(gè)域名同處一個(gè)IP地址,即虛擬主機(jī)。認(rèn)知實(shí)踐以需要爬取的網(wǎng)頁(yè)為例,通過(guò)查看頁(yè)面源代碼(快捷鍵F12),點(diǎn)擊選項(xiàng)卡中“網(wǎng)絡(luò)選項(xiàng)”,找到對(duì)應(yīng)選項(xiàng),根據(jù)需要的請(qǐng)求頭數(shù)據(jù)進(jìn)行復(fù)制。二、Http請(qǐng)求頭圖7-5網(wǎng)頁(yè)請(qǐng)求頭采集市場(chǎng)數(shù)據(jù)01一、采集市場(chǎng)數(shù)據(jù)(一)導(dǎo)入第三方庫(kù)提前安裝好第三方庫(kù),在數(shù)據(jù)采集前進(jìn)行導(dǎo)入。importrequestsfromlxmlimportetreeimportpandasaspd代碼7-1-1一、采集市場(chǎng)數(shù)據(jù)(二)數(shù)據(jù)抓取設(shè)置請(qǐng)求頭,訪問(wèn)需要采集數(shù)據(jù)的網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)抓取。#輸入網(wǎng)址與請(qǐng)求頭并訪問(wèn)url='33:8082/fstmicd/index.aspx?pintkey=ODI='headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/Safari/537.36Edg/110.0.1587.57','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7'}rsp=requests.get(url=url,headers=headers)#解析字符串格式的HTML文檔對(duì)象,將傳進(jìn)去的字符串轉(zhuǎn)變成Element對(duì)象。tree=etree.HTML(rsp.text)#使用xpath方法進(jìn)行解析tr_tags=tree.xpath('/html/body/form/div[3]/div[2]/div[2]/div[2]/div[3]/table/tr')#將需要抓取的數(shù)據(jù)進(jìn)行解析并存入列表datalist=[]fortdintr_tags:t1=td.xpath('./th/text()')t2=td.xpath('./td/text()')datalist.append(t1)datalist.append(t2)代碼續(xù)7-1-1一、采集市場(chǎng)數(shù)據(jù)(三)數(shù)據(jù)存儲(chǔ)對(duì)采集的數(shù)據(jù)進(jìn)行提取,在樣本缺失值處添加“年份”字樣,并儲(chǔ)存在csv中供后續(xù)使用,完成數(shù)據(jù)采集工作。#刪除所抓取數(shù)據(jù)中的空列表list_save=[dfordindatalistifd!=[]]#利用切片將類似‘2020年年報(bào)’字樣修改為‘2020年’i=0forlinlist_save[0]:list_save[0][i]=l[0:5]i+=1#插入‘年份’字樣,打印數(shù)據(jù)list_save[0].insert(0,'年份')#將采集的數(shù)據(jù)轉(zhuǎn)化為dataframe,并以第一個(gè)列表作為列名df=pd.DataFrame(list_save,columns=list_save[0])#存入csvdf.to_csv('C:/下載/原始數(shù)據(jù).csv')代碼續(xù)7-1-1一、采集市場(chǎng)數(shù)據(jù)(三)數(shù)據(jù)存儲(chǔ)輸出結(jié)果(如圖7-6所示)7-6爬蟲所得數(shù)據(jù)數(shù)據(jù)預(yù)處理02二、數(shù)據(jù)預(yù)處理(一)導(dǎo)入第三方庫(kù)importpandasaspdimportnumpyasnp代碼7-1-2二、數(shù)據(jù)預(yù)處理(二)成本數(shù)據(jù)預(yù)處理#讀取數(shù)據(jù)df=pd.read_csv('C:/下載/原始數(shù)據(jù).csv')#按行索引取特定行df0=df.iloc[[10,13,20,21,22,23,24]]#按列名取特定列(剔除第一列)df1=df0[['2022年','2021年','2020年','2019年']]#給行索引重命名df1.index=['營(yíng)業(yè)成本(元)','研發(fā)費(fèi)用(元)','營(yíng)業(yè)稅金及附加(元)','銷售費(fèi)用(元)','管理費(fèi)用(元)','財(cái)務(wù)費(fèi)用(元)','資產(chǎn)減值損失(元)']讀取已存儲(chǔ)的數(shù)據(jù)集,按索引及列名獲取新的數(shù)據(jù)集,同時(shí)重命名索引。代碼續(xù)7-1-2二、數(shù)據(jù)預(yù)處理(二)成本數(shù)據(jù)預(yù)處理#將字符串轉(zhuǎn)化為數(shù)值類型df1[['2022年','2021年','2020年','2019年']]=df1[['2022年','2021年','2020年','2019年']].apply(pd.to_numeric)#將所需數(shù)據(jù)轉(zhuǎn)化為整型并賦值給一個(gè)新的數(shù)據(jù)集df_cost=df1[['2022年','2021年','2020年','2019年']].astype('int')#讀取excel文件中的數(shù)據(jù)并將指定列數(shù)據(jù)轉(zhuǎn)化為列表df_2018=pd.read_excel('C:/下載/2018年A企業(yè)財(cái)報(bào)數(shù)據(jù)(節(jié)選).xlsx')data_2018=df_2018['金額(元)'].tolist()#用切片提取列表中所需數(shù)據(jù),插入到df_cost數(shù)據(jù)集合并data_cost_2018=data_2018[3:]df_cost.insert(loc=len(df_cost.columns),column='2018年',value=data_cost_2018)#存入csvdf_cost.to_csv('C:/下載/成本數(shù)據(jù).csv')由于采集的數(shù)據(jù)是字符串形式,所以需要數(shù)據(jù)類型,最后加入2018年數(shù)據(jù)合并代碼續(xù)7-1-2二、數(shù)據(jù)預(yù)處理(二)成本數(shù)據(jù)預(yù)處理輸出結(jié)果(如圖7-7所示)圖7-7成本數(shù)據(jù)集二、數(shù)據(jù)預(yù)處理(三)其他財(cái)務(wù)指標(biāo)預(yù)處理取出數(shù)據(jù)集中需要的行與列,重命名索引與數(shù)據(jù)格式轉(zhuǎn)換。代碼續(xù)7-1-2#根據(jù)索引提取特定數(shù)據(jù),并重命名行索引df2=df.iloc[[2,9,21,32]][['2022年','2021年','2020年','2019年']]df2.index=['營(yíng)業(yè)總收入(元)','營(yíng)業(yè)總成本(元)','銷售費(fèi)用(元)','營(yíng)業(yè)利潤(rùn)(元)']#數(shù)據(jù)類型轉(zhuǎn)換df2[['2022年','2021年','2020年','2019年']]=df2[['2022年','2021年','2020年','2019年']].apply(pd.to_numeric)df3=df2[['2022年','2021年','2020年','2019年']].astype('int')二、數(shù)據(jù)預(yù)處理(三)其他財(cái)務(wù)指標(biāo)預(yù)處理加入2018年財(cái)務(wù)指標(biāo),并合并銷量數(shù)據(jù),形成最終的數(shù)據(jù)集。#提取2018年財(cái)務(wù)指標(biāo)data_2018_else=[data_2018[0],data_2018[2],data_2018[6],data_2018[1]]#讀取近五年銷量數(shù)據(jù)表,指定列數(shù)據(jù)轉(zhuǎn)化為列表df_sale=pd.read_excel('C:/下載/2018-2022年銷量數(shù)據(jù)(按年份).xlsx')data_sale=df_sale['銷量(噸)'].tolist()#反轉(zhuǎn)數(shù)據(jù)列表data_sale.reverse()#合并財(cái)務(wù)數(shù)據(jù)df3.insert(loc=len(df3.columns),column='2018年',value=data_2018_else)#加入提取的銷量數(shù)據(jù)df4=pd.DataFrame(np.insert(df3.values,len(df3.index),values=data_sale,axis=0))#重命名索引df4.columns=df3.columnsdf4.index=['營(yíng)業(yè)總收入(元)','營(yíng)業(yè)總成本(元)','銷售費(fèi)用(元)','營(yíng)業(yè)利潤(rùn)(元)','銷量(噸)']#轉(zhuǎn)置并存入csvdf_final=df4.Tdf_final.to_csv('C:/下載/財(cái)務(wù)數(shù)據(jù).csv')代碼續(xù)7-1-2二、數(shù)據(jù)預(yù)處理(三)其他財(cái)務(wù)指標(biāo)預(yù)處理輸出結(jié)果(如圖7-8所示)圖7-8財(cái)務(wù)數(shù)據(jù)集探討實(shí)踐小張?jiān)谧x取excel數(shù)據(jù)后,通過(guò)直接將數(shù)據(jù)插入原始數(shù)據(jù)集來(lái)合并數(shù)據(jù),通過(guò)思考與學(xué)習(xí),他認(rèn)為也可以直接通過(guò)合并數(shù)據(jù)集的方式來(lái)合并數(shù)據(jù),嘗試通過(guò)pd.merge()和pd.concat()方式進(jìn)行數(shù)據(jù)合并形成需要的數(shù)據(jù)集。拓展訓(xùn)練小張?jiān)诰帉懢W(wǎng)絡(luò)爬蟲代碼時(shí),通過(guò)xpath進(jìn)行解析后進(jìn)行數(shù)據(jù)爬取,返回的對(duì)象都是空列表,即爬取不到所需數(shù)據(jù)。他寫的代碼如下,請(qǐng)你指出運(yùn)行結(jié)果總是返回空列表的原因,應(yīng)如何改正?代碼importrequestsfromlxmlimportetree#輸入網(wǎng)址與請(qǐng)求頭并訪問(wèn)url='33:8082/fstmicd/index.aspx?pintkey=ODI='headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/Safari/537.36Edg/110.0.1587.57','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7'}rsp=requests.get(url=url,headers=headers)#解析字符串格式的HTML文檔對(duì)象,將傳進(jìn)去的字符串轉(zhuǎn)變成Element對(duì)象。tree=etree.HTML(rsp.text)#使用xpath方法進(jìn)行解析tr_tags=tree.xpath('/html/body/form/div[3]/div[2]/div[2]/div[2]/div[3]/table/tbody/tr')print(tr_tags)謝謝觀看項(xiàng)目七市場(chǎng)分析工程實(shí)踐案例《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》模塊二

市場(chǎng)數(shù)據(jù)建模與可視化核心目標(biāo)職業(yè)能力1.運(yùn)用網(wǎng)絡(luò)爬蟲采集數(shù)據(jù),并對(duì)臟數(shù)據(jù)進(jìn)行清洗;2.能對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析與可視化分析;3.了解相關(guān)模型的建立與求解;4.獨(dú)立完成數(shù)據(jù)分析報(bào)告。職業(yè)素養(yǎng)1.養(yǎng)成敏銳洞察數(shù)據(jù)與處理數(shù)據(jù)的能力;2.養(yǎng)成數(shù)據(jù)分析思維,用數(shù)據(jù)客觀看待市場(chǎng),把握市場(chǎng)方向。知識(shí)圖譜項(xiàng)目背景小張平時(shí)喜歡飲茶,經(jīng)常聯(lián)想到目前的茶葉市場(chǎng)規(guī)模,經(jīng)過(guò)Python的初步學(xué)習(xí)后,計(jì)劃做一期市場(chǎng)分析為自己解惑,于是在市場(chǎng)中選取了上市茶企業(yè)A公司作為研究對(duì)象,對(duì)相關(guān)數(shù)據(jù)進(jìn)行采集、分析與建模,通過(guò)所學(xué)知識(shí)對(duì)市場(chǎng)現(xiàn)狀進(jìn)行分析并對(duì)市場(chǎng)前景進(jìn)行合理預(yù)測(cè)。01統(tǒng)計(jì)分析03數(shù)據(jù)可視化02數(shù)據(jù)建模問(wèn)題引入小張將采集的樣本數(shù)據(jù)進(jìn)行清洗后,還想對(duì)茶葉的銷量變化進(jìn)行研究,于是從企業(yè)每年在銷售上的投入著手,研究銷量是如何被企業(yè)策略所影響,再通過(guò)數(shù)據(jù)可視化的方式直觀描述成本、收入等指標(biāo)的關(guān)系,進(jìn)一步了解市場(chǎng)情況。認(rèn)知實(shí)踐pandas模塊為用戶提供了非常多的描述性統(tǒng)計(jì)分析的指標(biāo)函數(shù),如總和、均值、最小值、最大值等,通過(guò)下表具體認(rèn)識(shí)這些函數(shù):一、pandas庫(kù)常用統(tǒng)計(jì)分析函數(shù)方法說(shuō)明.count()非空元素?cái)?shù)量計(jì)算.min()最小值.max()最大值.idxmin()最小值的位置.idxmax()最大值的位置.quantile(0.1)10%分位數(shù).sum()求和.mean()均值.median()中位數(shù).mode()眾數(shù).var()方差.std()標(biāo)準(zhǔn)差.mad()平均絕對(duì)偏差.skew()偏度.kurt()峰度.describe()一次性輸出多個(gè)描述性統(tǒng)計(jì)指標(biāo)表7-1統(tǒng)計(jì)分析函數(shù)認(rèn)知實(shí)踐seaborn是基于matplotlib的數(shù)據(jù)集分布可視化庫(kù),在matplotlib的基礎(chǔ)上進(jìn)行了更高級(jí)的封裝,從而使得繪圖更加容易,不需要經(jīng)過(guò)大量的調(diào)整,就能使圖像變得精致,同時(shí)還能能高度兼容numpy與pandas數(shù)據(jù)結(jié)構(gòu)以及scipy與statsmodels等統(tǒng)計(jì)模式。二、Seaborn庫(kù)代碼importnumpyasnpimportpandasaspdimportseabornassnsimportmatplotlib.pyplotaspltfromscipyimportstats,integrate認(rèn)知實(shí)踐seaborn多數(shù)圖表具有統(tǒng)計(jì)學(xué)含義,例如分布、關(guān)系、統(tǒng)計(jì)、回歸等,繪圖接口也更加集成,可以通過(guò)少量的參數(shù)設(shè)置實(shí)現(xiàn)大量封裝繪圖,常用參數(shù)如下:二、Seaborn庫(kù)參數(shù)說(shuō)明x,y,hue數(shù)據(jù)集變量(變量名)data數(shù)據(jù)集row,col更多分類變量進(jìn)行平鋪顯示(變量名)col_wrap每行的最高平鋪數(shù)estimator在每個(gè)分類中進(jìn)行矢量到標(biāo)量的映射ci置信區(qū)間n_boot計(jì)算置信區(qū)間時(shí)使用的引導(dǎo)迭代次數(shù)units采樣單元的標(biāo)識(shí)符,用于執(zhí)行多級(jí)引導(dǎo)和重復(fù)測(cè)量設(shè)計(jì)Order,row_order對(duì)應(yīng)排序列表hue_order,col_order字符串列表kind圖像類型,其中point為默認(rèn),bar為柱形圖,count為頻次,box為箱線圖,violin為提琴圖,strip為散點(diǎn)圖,swarm為分散點(diǎn)size每個(gè)面的高度aspect縱橫比orient方向color顏色palette調(diào)色板legend是否展示hue的信息面板legend_out是否擴(kuò)展圖形,并將信息框繪制在中心右邊share{x,y}是否共享軸線表7-2seaborn相關(guān)參數(shù)認(rèn)知實(shí)踐研究的線性函數(shù)只包含一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可以用一條直線刻畫時(shí),這種回歸就是一元線性回歸,可以用著名的最小二乘法來(lái)求解,主要思想就是選擇未知參數(shù),使得理論值與觀測(cè)值之差的平方和達(dá)到最小。三、一元線性回歸擬合如圖7-9所示:最小二乘法就是試圖尋找一條直線,求出模型中未知參數(shù),使得樣本點(diǎn)和擬合線的總誤差最小,這個(gè)誤差(距離)可以直接相減,但是直接相減會(huì)有正有負(fù),相互抵消了,所以就用差的平方來(lái)表示。圖7-9最小二乘法圖解統(tǒng)計(jì)分析01一、統(tǒng)計(jì)分析對(duì)經(jīng)過(guò)清洗的數(shù)據(jù)做統(tǒng)計(jì)分析,并將結(jié)果輸出為數(shù)據(jù)集。importpandasaspd#導(dǎo)入數(shù)據(jù)df_final=pd.read_csv('C:/下載/財(cái)務(wù)數(shù)據(jù).csv',index_col=0)df_cost=pd.read_csv('C:/下載/成本數(shù)據(jù).csv',index_col=0)#定義函數(shù),輸入數(shù)據(jù)集即可輸出統(tǒng)計(jì)分析結(jié)果defstatus(x):returnpd.DataFrame([x.count(),x.min(),x.idxmin(),x.quantile(.25),x.median(),x.quantile(.75),x.mean(),x.max(),x.idxmax(),x.mad(),x.var(),x.std(),x.skew(),x.kurt()],index=['總數(shù)','最小值','最小值位置','25%分位數(shù)','中位數(shù)','75%分位數(shù)','均值','最大值','最大值位數(shù)','平均絕對(duì)偏差','方差','標(biāo)準(zhǔn)差','偏度','峰度'])#輸出不同數(shù)據(jù)集統(tǒng)計(jì)分析結(jié)果des_final=status(df_final)des_cost=status(df_cost.T)print(des_final)print(des_cost)代碼7-2-1一、統(tǒng)計(jì)分析輸出結(jié)果(如圖7-10、7-11所示)圖7-10財(cái)務(wù)數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果圖7-11成本數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果說(shuō)明:輸出結(jié)果為數(shù)據(jù)集,為了方便展示將數(shù)據(jù)保存進(jìn)本地生成圖片展示,可以較直觀觀察統(tǒng)計(jì)分析結(jié)果。數(shù)據(jù)建模02二、數(shù)據(jù)建模要研究銷售費(fèi)用對(duì)銷量的影響,即兩種變量間相互依賴的定量關(guān)系,可以選擇一元線性回歸模型,在建模過(guò)程中必須同時(shí)具備自變量和因變量。對(duì)此,將銷量數(shù)據(jù)作為因變量y,銷售費(fèi)用則作為自變量x進(jìn)行建模。將所需數(shù)據(jù)從已清洗的數(shù)據(jù)集中取出,同時(shí)將銷售費(fèi)用單位轉(zhuǎn)化為萬(wàn)元,得到新的數(shù)據(jù)集。(一)模型確定與數(shù)據(jù)選取代碼7-2-2importpandasaspd#導(dǎo)入數(shù)據(jù)集df_final=pd.read_csv('C:/下載/財(cái)務(wù)數(shù)據(jù).csv',index_col=0)#根據(jù)列名提取數(shù)據(jù)賦予新數(shù)據(jù)集data_regress=df_final[['銷售費(fèi)用(元)','銷量(噸)']]#單位轉(zhuǎn)換data_regress['銷售費(fèi)用(元)']=data_regress['銷售費(fèi)用(元)']/10000data_regress=data_regress.rename(columns={'銷售費(fèi)用(元)':'銷售費(fèi)用(萬(wàn)元)'})二、數(shù)據(jù)建模一元線性回歸模型也被稱為簡(jiǎn)單線性回歸模型,模型中只含有一個(gè)自變量和一個(gè)因變量,數(shù)學(xué)公式如下:(二)模型建立a為模型的截距項(xiàng)b為模型的斜率項(xiàng)ε為模型的誤差項(xiàng)a和b統(tǒng)稱為回歸系數(shù),誤差項(xiàng)的存在主要是為了平衡等號(hào)兩邊的值,通常被稱為模型無(wú)法解釋的部分。

二、數(shù)據(jù)建模#導(dǎo)包importmatplotlib.pyplotaspltimportseabornassns#設(shè)置字體樣式plt.rcParams['font.family']=['ArialUnicodeMS','MicrosoftYahei','SimHei','sans-serif']#解決matplotlib無(wú)法顯示中文和負(fù)號(hào)的問(wèn)題plt.rcParams['axes.unicode_minus']=False#指定數(shù)據(jù)集繪制回歸圖像,置信區(qū)間為0.95,縱橫比1.5,參數(shù)可調(diào)整sns.lmplot(x='銷售費(fèi)用(萬(wàn)元)',y='銷量(噸)',data=data_regress,ci=0.95,aspect=1.5)#圖像展示plt.show()(二)模型建立通過(guò)Seaborn,畫出樣本對(duì)應(yīng)散點(diǎn)并繪制一元線性擬合圖像,代碼如下。代碼續(xù)7-2-2二、數(shù)據(jù)建模(二)模型建立圖7-12線性回歸圖像圓點(diǎn)代表樣本數(shù)據(jù),斜線是關(guān)于散點(diǎn)的線性回歸擬合線。如果擬合線能夠精確地捕捉到每一個(gè)點(diǎn)(即所有散點(diǎn)全部落在擬合線上),對(duì)應(yīng)的誤差項(xiàng)應(yīng)該為0。模型擬合的越好,誤差項(xiàng)相應(yīng)地應(yīng)該越小,進(jìn)而可以理解為:求解參數(shù)便是求解誤差平方和最小的問(wèn)題(誤差項(xiàng)可能為負(fù))。輸出結(jié)果(如圖7-12所示)二、數(shù)據(jù)建模(三)模型求解將模型的數(shù)學(xué)公式進(jìn)行移項(xiàng)后計(jì)算,得到誤差平方和公式為:要使誤差即改目標(biāo)函數(shù)最小,最終可以得到參數(shù)解:二、數(shù)據(jù)建模(三)模型求解利用Python將數(shù)據(jù)集代入,得到最終結(jié)果,解出參數(shù)值。#點(diǎn)數(shù)n=data_regress.shape[0]#銷售費(fèi)用求和sum_x=data_regress['銷售費(fèi)用(萬(wàn)元)'].sum()#銷量求和sum_y=data_regress['銷量(噸)'].sum()#銷售費(fèi)用平方和sum_x2=data_regress['銷售費(fèi)用(萬(wàn)元)'].pow(2).sum()#銷售費(fèi)用與銷量乘積xy=data_regress['銷售費(fèi)用(萬(wàn)元)']*data_regress['銷量(噸)']#銷售費(fèi)用與銷量乘積再求和sum_xy=xy.sum()#根據(jù)公式計(jì)算參數(shù)b=(n*sum_xy-sum_x*sum_y)/(n*sum_x2-sum_x**2)a=data_regress['銷量(噸)'].mean()-b*data_regress['銷售費(fèi)用(萬(wàn)元)'].mean()#輸出結(jié)果print('截距a的值為:',a)print('斜率b的值為:',b)代碼續(xù)7-2-2二、數(shù)據(jù)建模(三)模型求解利用Python將數(shù)據(jù)集代入,得到最終結(jié)果,解出參數(shù)值。輸出結(jié)果截距a的值為:522.6140828346515斜率b的值為:2.0875149826444677數(shù)據(jù)可視化03三、數(shù)據(jù)可視化(一)財(cái)務(wù)指標(biāo)分析繪制組合圖對(duì)比企業(yè)的收入與利潤(rùn)和成本的關(guān)系,見(jiàn)代碼7-2-3。三、數(shù)據(jù)可視化(一)財(cái)務(wù)指標(biāo)分析輸出結(jié)果(如圖7-13所示)圖7-13組合圖左圖是總成本的柱狀圖與總收入的折線圖組成的組合圖右邊為總成本的柱狀圖和利潤(rùn)額折線圖組成的組合圖三、數(shù)據(jù)可視化(二)成本數(shù)據(jù)分析從數(shù)據(jù)可以直觀看出,在營(yíng)業(yè)總成本中,營(yíng)業(yè)成本占了大部分,將其剔除后,通過(guò)繪制餅圖探究每一年其他成本的占比。代碼續(xù)7-2-3#定義繪制餅圖的函數(shù),以便多次使用時(shí)調(diào)用,避免代碼重復(fù)編寫defdraw_pie(x):labels=[str(i)foriinnp.array(x.index)]sizes=[iforiinnp.array(x)]plt.pie(sizes,labels=labels,autopct='%1.2f%%',shadow=True)#提取要繪制圖像的數(shù)據(jù)df_pie=df_cost.iloc[list(range(1,7))]#構(gòu)建畫布plt.figure(figsize=(16,10))#調(diào)用定義的函數(shù),畫布劃分為2行3列,在指定位置繪圖plt.subplot(231)draw_pie(df_pie['2018年'])plt.title('2018年其他成本費(fèi)用占比',fontsize=15)plt.subplot(232)draw_pie(df_pie['2019年'])plt.title('2019年其他成本費(fèi)用占比',fontsize=15)plt.subplot(233)draw_pie(df_pie['2020年'])plt.title('2020年其他成本費(fèi)用占比',fontsize=15)plt.subplot(234)draw_pie(df_pie['2021年'])plt.title('2021年其他成本費(fèi)用占比',fontsize=15)plt.subplot(235)draw_pie(df_pie['2022年'])plt.title('2022年其他成本費(fèi)用占比',fontsize=15)#展示plt.show()三、數(shù)據(jù)可視化(二)成本數(shù)據(jù)分析輸出結(jié)果(如圖7-14所示)圖7-14餅圖探討實(shí)踐小張還想將營(yíng)業(yè)總收入與營(yíng)業(yè)利潤(rùn)的折線圖進(jìn)行組合,繪制在同一個(gè)圖像中,應(yīng)該如何繪制?拓展訓(xùn)練小張想一次性輸出描述性統(tǒng)計(jì)的結(jié)果,編寫了以下程序,卻無(wú)法運(yùn)行得到結(jié)果,請(qǐng)指出其中的錯(cuò)誤并改正。代碼importpandasaspddf_final=pd.read_csv('C:/下載/財(cái)務(wù)數(shù)據(jù).csv',index_col=0)des_final=pd.describe(df_final)print(des_final)謝謝觀看項(xiàng)目七市場(chǎng)分析工程實(shí)踐案例《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》模塊三

市場(chǎng)前景預(yù)測(cè)分析核心目標(biāo)職業(yè)能力1.運(yùn)用網(wǎng)絡(luò)爬蟲采集數(shù)據(jù),并對(duì)臟數(shù)據(jù)進(jìn)行清洗;2.能對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析與可視化分析;3.了解相關(guān)模型的建立與求解;4.獨(dú)立完成數(shù)據(jù)分析報(bào)告。職業(yè)素養(yǎng)1.養(yǎng)成敏銳洞察數(shù)據(jù)與處理數(shù)據(jù)的能力;2.養(yǎng)成數(shù)據(jù)分析思維,用數(shù)據(jù)客觀看待市場(chǎng),把握市場(chǎng)方向。知識(shí)圖譜項(xiàng)目背景小張平時(shí)喜歡飲茶,經(jīng)常聯(lián)想到目前的茶葉市場(chǎng)規(guī)模,經(jīng)過(guò)Python的初步學(xué)習(xí)后,計(jì)劃做一期市場(chǎng)分析為自己解惑,于是在市場(chǎng)中選取了上市茶企業(yè)A公司作為研究對(duì)象,對(duì)相關(guān)數(shù)據(jù)進(jìn)行采集、分析與建模,通過(guò)所學(xué)知識(shí)對(duì)市場(chǎng)現(xiàn)狀進(jìn)行分析并對(duì)市場(chǎng)前景進(jìn)行合理預(yù)測(cè)。01市場(chǎng)前景預(yù)測(cè)02數(shù)據(jù)分析報(bào)告問(wèn)題引入對(duì)市場(chǎng)有了初步了解后,小張想通過(guò)建立的線性回歸模型預(yù)測(cè)未來(lái)銷量數(shù)據(jù)。經(jīng)過(guò)了解,A公司計(jì)劃在未來(lái)五年加大在銷售費(fèi)用的投入,預(yù)計(jì)在2023年開(kāi)始投入400萬(wàn)元,并逐年增加30萬(wàn)元,小張通過(guò)已掌握的數(shù)據(jù)和模型,進(jìn)一步預(yù)測(cè)未來(lái)五年A公司的銷量變化。最后,對(duì)以上工作進(jìn)行匯總分析,總結(jié)市場(chǎng)情況。認(rèn)知實(shí)踐通過(guò)對(duì)項(xiàng)目數(shù)據(jù)全方位的科學(xué)分析來(lái)評(píng)估項(xiàng)目的可行性,為投資方?jīng)Q策項(xiàng)目提供科學(xué)、嚴(yán)謹(jǐn)?shù)囊罁?jù),降低項(xiàng)目投資的風(fēng)險(xiǎn)。一、為什么需要數(shù)據(jù)分析報(bào)告把隱藏在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中和提煉出來(lái),從而找出所研究對(duì)象的內(nèi)在規(guī)律。主要目的在于將分析結(jié)果、可行性建議以及其他價(jià)值的信息傳遞出來(lái)。概念目的數(shù)據(jù)分析報(bào)告認(rèn)知實(shí)踐通過(guò)對(duì)收集的相關(guān)數(shù)據(jù)進(jìn)行全方位科學(xué)分析后形成的可行性研究報(bào)告,可以為企業(yè)的投資、經(jīng)營(yíng)、戰(zhàn)略等決策提供科學(xué)、嚴(yán)謹(jǐn)?shù)囊罁?jù),降低企業(yè)投資或經(jīng)營(yíng)的風(fēng)險(xiǎn)。一、為什么需要數(shù)據(jù)分析報(bào)告三個(gè)方面作用展示分析結(jié)果驗(yàn)證分析質(zhì)量為決策者提供參考依據(jù)數(shù)據(jù)分析報(bào)告認(rèn)知實(shí)踐一、為什么需要數(shù)據(jù)分析報(bào)告數(shù)據(jù)分析報(bào)告應(yīng)當(dāng)圍繞目標(biāo)確定范圍,遵循一定的前提和原則,系統(tǒng)地反映存在的問(wèn)題及原因,從而進(jìn)一步找出解決問(wèn)題的方法。完整的數(shù)據(jù)分析報(bào)告認(rèn)知實(shí)踐二、數(shù)據(jù)分析報(bào)告需要有什么數(shù)據(jù)報(bào)告中的數(shù)據(jù)需要嚴(yán)格遵循幾點(diǎn)要求:客觀性、邏輯性、可解釋性,同時(shí)做到重點(diǎn)突出。內(nèi)容完整的報(bào)告內(nèi)容應(yīng)該圍繞目標(biāo),遵循一定的前提和原則,系統(tǒng)的反映行業(yè)分析的全貌,從而推動(dòng)該行業(yè)的進(jìn)一步發(fā)展。需要通過(guò)展開(kāi)論題,對(duì)論點(diǎn)進(jìn)行分析論證,表達(dá)報(bào)告撰寫者的見(jiàn)解和研究成果的核心部分,把數(shù)據(jù)能解決什么問(wèn)題,怎么解決問(wèn)題,解決之后帶來(lái)哪些結(jié)論或影響描述清楚。認(rèn)知實(shí)踐二、數(shù)據(jù)分析報(bào)告需要有什么觀點(diǎn)應(yīng)該對(duì)前文進(jìn)行直接表達(dá)出報(bào)告內(nèi)容所支撐的結(jié)論與觀點(diǎn)。對(duì)于好的結(jié)論描述如何做的更好或者保持,對(duì)于不好的結(jié)論則提出如何改進(jìn)。在此基礎(chǔ)上,也可另外寫出其他相關(guān)的建議,總之,要有明確的觀點(diǎn)或結(jié)論輸出,構(gòu)成一份完整的數(shù)據(jù)分析報(bào)告。市場(chǎng)前景預(yù)測(cè)01一、市場(chǎng)前景預(yù)測(cè)(一)銷售費(fèi)用投入計(jì)算根據(jù)了解到的信息,計(jì)算未來(lái)五年A公司在銷售費(fèi)用上的投入,代碼如下7-3-1。代碼7-3-1#初始值x0=400#未來(lái)五年銷售費(fèi)用x=[x0+i*30foriinrange(5)]print(x)輸出結(jié)果[400,430,460,490,520]一、市場(chǎng)前景預(yù)測(cè)(二)銷量預(yù)測(cè)根據(jù)以上通過(guò)計(jì)算得到的線性回歸方程及銷售費(fèi)用,預(yù)測(cè)2023年~2027年A公司的銷量變化。代碼續(xù)7-3-1a=522.6140828346515b=2.0875149826444677#定義回歸函數(shù),返回銷量值defpredict_sale(x):y=float(a)+float(b)*xreturnint(y)#輸出預(yù)測(cè)銷量data_predict=[predict_sale(x[i])foriinrange(5)]print('2023~2027年銷量數(shù)據(jù)預(yù)測(cè)值為:',data_predict)輸出結(jié)果2023~2027年銷量數(shù)據(jù)預(yù)測(cè)值為:[1357,1420,1482,1545,1608]一、市場(chǎng)前景預(yù)測(cè)(三)繪制圖像合并真實(shí)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)繪制2018年~2027年的銷量數(shù)據(jù)變化圖。代碼續(xù)7-3-1#得到做回歸的數(shù)據(jù)集importpandasaspddf_final=pd.read_csv('C:/下載/財(cái)務(wù)數(shù)據(jù).csv',index_col=0)data_regress=df_final[['銷售費(fèi)用(元)','銷量(噸)']]data_regress['銷售費(fèi)用(元)']=data_regress['銷售費(fèi)用(元)']/10000data_regress=data_regress.rename(columns={'銷售費(fèi)用(元)':'銷售費(fèi)用(萬(wàn)元)'})#2018年~2022年數(shù)據(jù)df_real=pd.DataFrame(data_regress['銷量(噸)']).iloc[::-1]#2023年~2027年數(shù)據(jù)df_predict=pd.DataFrame(data_predict)df_predict=df_predict.rename(columns={0:'銷量(噸)'})df_predict.index=['2023年','2024年','2025年','2026年','2027年']#合并數(shù)據(jù)集dfs=pd.concat([df_real,df_predict])#繪制圖像并展示importmatplotlib.pyplotaspltplt.rcParams['font.family']=['ArialUnicodeMS','MicrosoftYahei','SimHei','sans-serif']plt.rcParams['axes.unicode_minus']=Falsedfs.plot()plt.show()一、市場(chǎng)前景預(yù)測(cè)(三)繪制圖像輸出結(jié)果(如圖7-15所示)圖7-15實(shí)際銷量與預(yù)測(cè)銷量折線圖前五個(gè)點(diǎn)連成的折線為實(shí)際銷量后五個(gè)點(diǎn)連成的折線為預(yù)測(cè)的未來(lái)五年銷量整條折線代表該企業(yè)2018年到2017年的銷量變化,包括實(shí)際與預(yù)測(cè),整體呈現(xiàn)上升趨勢(shì)。數(shù)據(jù)分析報(bào)告02二、數(shù)據(jù)分析報(bào)告(一)市場(chǎng)背景茶葉作為一種天然的健康飲品,種類繁多,具有悠久的消費(fèi)歷史和廣大的消費(fèi)群體,我國(guó)茶葉種植及茶葉產(chǎn)銷量也均位列世界第一。二、數(shù)據(jù)分析報(bào)告(一)市場(chǎng)背景從我國(guó)產(chǎn)業(yè)內(nèi)銷情況來(lái)看,茶葉被越來(lái)越多的消費(fèi)者所青睞,隨著產(chǎn)生許多衍生產(chǎn)品如各種果茶等茶飲料,同時(shí)也帶來(lái)新生代消費(fèi)群體。

二、數(shù)據(jù)分析報(bào)告(一)市場(chǎng)背景因此,茶葉行業(yè)將加快自主品牌建設(shè),優(yōu)化品牌商品供給來(lái)獲取競(jìng)爭(zhēng)優(yōu)勢(shì),隨著頭部茶葉企業(yè)品牌建設(shè)的不斷完善,通過(guò)市場(chǎng)競(jìng)爭(zhēng)實(shí)現(xiàn)優(yōu)勝劣汰,未來(lái)茶葉行業(yè)的市場(chǎng)集中度也有望進(jìn)一步提升。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論