Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 第11章 地鐵站點(diǎn)日客流量預(yù)測(cè)_第1頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 第11章 地鐵站點(diǎn)日客流量預(yù)測(cè)_第2頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 第11章 地鐵站點(diǎn)日客流量預(yù)測(cè)_第3頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 第11章 地鐵站點(diǎn)日客流量預(yù)測(cè)_第4頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 第11章 地鐵站點(diǎn)日客流量預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第11章地鐵站點(diǎn)日客流量預(yù)測(cè)數(shù)據(jù)獲取及探索指標(biāo)計(jì)算數(shù)據(jù)可視化因素分析神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)獲取及探索第11章

引例1:本案例是以2015年8月—11月鄭州市地鐵客流量數(shù)據(jù)為例進(jìn)行的交通-地鐵日客流量預(yù)測(cè)。以下數(shù)據(jù)給出了部分?jǐn)?shù)據(jù)的截圖,根據(jù)數(shù)據(jù)預(yù)測(cè)的需要,需要從數(shù)據(jù)中篩選出站點(diǎn)、刷卡日期、進(jìn)站和出站狀態(tài)下的數(shù)據(jù)。注:數(shù)據(jù)來(lái)源于2019年廣西大學(xué)生人工智能大賽第六賽道。數(shù)據(jù)獲取及探索第11章

案例考慮采用日客流量數(shù)據(jù)進(jìn)行分析,提取每個(gè)月各個(gè)站點(diǎn)的進(jìn)站和出站的日客流量,對(duì)提取的數(shù)據(jù)進(jìn)行可視化分析,對(duì)數(shù)據(jù)進(jìn)行匯總,采用時(shí)間序列、神經(jīng)網(wǎng)絡(luò)回歸模型進(jìn)行預(yù)測(cè)日客流量的數(shù)據(jù),基本的實(shí)現(xiàn)思路如圖所示。數(shù)據(jù)獲取及探索第11章

二分法查找思想二分法(BisectionMethod)實(shí)際上就是把數(shù)據(jù)一分為二的方法。主要思路如下(設(shè)查找的數(shù)組區(qū)間為array[low,high]):(1)確定該區(qū)間的中間位置k。(2)將查找的值T與array[k]比較。若相等,查找成功返回此位置;否則確定新的查找區(qū)域,繼續(xù)二分查找。區(qū)域確定如下:array[k]>T由數(shù)組的有序性可知array[k,k+1,…,high]>T,故新的區(qū)間為array[low,…,k–1];array[k]<T類(lèi)似上面查找區(qū)間為array[k+1,…,high]。每一次查找與中間值比較,可確定是否查找成功,不成功則當(dāng)前查找區(qū)間將縮小一半,遞歸查找即可。數(shù)據(jù)獲取及探索第11章

每日數(shù)據(jù)索引范圍提取利用二分法查找函數(shù)find_index(),按時(shí)間排序好的2015年8月全刷卡數(shù)據(jù)中查找得到每日數(shù)據(jù)的結(jié)束索引,可快速獲得每日的刷卡數(shù)據(jù),進(jìn)而計(jì)算得到每日各個(gè)站點(diǎn)的地鐵客流量數(shù)據(jù)。查找每日數(shù)據(jù)的結(jié)束索引的示例結(jié)果如圖所示。指標(biāo)計(jì)算第11章

指標(biāo)設(shè)計(jì)與計(jì)算分析原始數(shù)據(jù)。提取5個(gè)關(guān)于影響地鐵日客流量的指標(biāo),并對(duì)其進(jìn)行字段的標(biāo)簽化處理,如表所示。考慮進(jìn)站人數(shù)的統(tǒng)計(jì)。根據(jù)顧客在同一天內(nèi)在每個(gè)站點(diǎn)的刷卡類(lèi)型進(jìn)行統(tǒng)計(jì),進(jìn)站人數(shù)用C1表示,出站人數(shù)用C2表示,利用C1、C2的數(shù)據(jù)再進(jìn)行每天數(shù)據(jù)的求和C=C1+C2,得出日客流量的數(shù)據(jù)標(biāo)簽指標(biāo)Ad站點(diǎn)C1進(jìn)站人數(shù)C2出站人數(shù)day日期C總客流量指標(biāo)計(jì)算第11章

程序?qū)崿F(xiàn)C1、C2、C的計(jì)算。對(duì)站點(diǎn)、日期、進(jìn)站和出站客流量進(jìn)行提取,C1表示同一天同一站點(diǎn)的進(jìn)站人數(shù)的統(tǒng)計(jì)累加,C2表示同一天同一站點(diǎn)的出站人數(shù)的統(tǒng)計(jì)累加,C1和C2分別提取1日—31日的出站客流量。C表示日客流量,即同一天同一站點(diǎn)的進(jìn)站和出站人數(shù)之和C=C1+C2。以提取2015年8月數(shù)據(jù)為例,所有指標(biāo)計(jì)算執(zhí)行結(jié)果(部分)如圖所示。數(shù)據(jù)可視化第11章

以8月數(shù)據(jù)為例,對(duì)數(shù)據(jù)進(jìn)行可視化分析,并依次給出9月—11月的地鐵客流量走勢(shì)圖。由客流量走勢(shì)圖可得,節(jié)假日的客流量同工作日相比,峰值點(diǎn)偏高,需要考慮節(jié)假日、周末和工作日對(duì)日客流量的影響,確保數(shù)據(jù)的有效性和準(zhǔn)

確性。因素分析第11章

時(shí)間序列客流量預(yù)測(cè)方法的基本思路根據(jù)提供的歷史客流量數(shù)據(jù)中的隨機(jī)成分及變化的規(guī)律來(lái)預(yù)測(cè),使用數(shù)據(jù)篩選提取2015年8月—11月各天的總客流量進(jìn)行指數(shù)平滑預(yù)測(cè)(本節(jié)以121站點(diǎn)數(shù)據(jù)為例)。對(duì)篩選的數(shù)據(jù)進(jìn)行分析,中秋、國(guó)慶等節(jié)假日和周末出行人數(shù)明顯偏多,故本模型分為兩部分進(jìn)行預(yù)測(cè):一是利用非節(jié)假日的各站點(diǎn)的客流量數(shù)據(jù)預(yù)測(cè)12月1日—7日的客流量數(shù)據(jù);二是考慮非節(jié)假日與非周末(工作日)的各站點(diǎn)客流量對(duì)2015年12月1日—7日客流量的預(yù)測(cè)。進(jìn)而分析節(jié)假日和周末是否能成為地鐵日客流量的影響因素,確保數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性。因素分析第11章

一、非節(jié)假日——三次指數(shù)平滑(一)數(shù)據(jù)清洗與劃分把2015年8月—11月數(shù)據(jù)匯總,并篩選出121站點(diǎn)的數(shù)據(jù)。由中國(guó)日歷表把節(jié)假日日期數(shù)據(jù)的剔除并存放在數(shù)據(jù)框,為了方便數(shù)據(jù)的使用,并把日期所在的列數(shù)據(jù)作為索引,放在數(shù)據(jù)框內(nèi)。(二)三次指數(shù)平滑模型的構(gòu)建在三次指數(shù)平滑函數(shù)ExponentialSmoothing中,則需要考慮數(shù)據(jù)的趨勢(shì)性參數(shù)trend='add',則說(shuō)明考慮帶趨勢(shì)的數(shù)據(jù),trend=None,則是無(wú)趨勢(shì)。seasonal_periods:季度數(shù)據(jù)為4,月度數(shù)據(jù)的為12,周期數(shù)據(jù)為7。則根據(jù)可視化數(shù)據(jù)結(jié)果,選取trend='add',seasonal_periods=7作為參數(shù)進(jìn)行分析。因素分析第11章

一、非節(jié)假日——三次指數(shù)平滑(三)利用時(shí)間序列模型預(yù)測(cè)#Holt-Winters三次指數(shù)平滑模擬過(guò)程train=d121_1.iloc[:105,:]##選擇訓(xùn)練集和測(cè)試集test=d121_1.iloc[105:,:]bonus_hw=hw.ExponentialSmoothing(train['C'],trend='add',seasonal='add',seasonal_periods=7)hw_fit=bonus_hw.fit()hw_fit.summary()train['yuce']=hw_fit.fittedvalues##模擬值#預(yù)測(cè)11-24—30號(hào)的數(shù)據(jù)結(jié)果保存到test數(shù)據(jù)框內(nèi)test['yece']=hw_fit.forecast(7).values因素分析第11章

一、非節(jié)假日——三次指數(shù)平滑(三)利用時(shí)間序列模型預(yù)測(cè)根據(jù)指數(shù)平滑函數(shù)得出d121_1數(shù)據(jù)集地鐵日客流量預(yù)測(cè)數(shù)據(jù)如圖11-12所示。再利用函數(shù)對(duì)數(shù)據(jù)進(jìn)行2015年12月1—7日的預(yù)測(cè),代碼如下。rq=['2015-12-01','2015-12-02','2015-12-03','2015-12-04','2015-12-05','2015-12-06','2015-12-07']hw_fit_1=ExponentialSmoothing(d121_1['C'],trend="add",seasonal="add",seasonal_periods=7).fit()hw_fit_1.summary()d121_1['yuce']=hw_fit_1.fittedvalues##預(yù)測(cè)未來(lái)7天數(shù)據(jù)pred1=pd.DataFrame(hw_fit_1.forecast(7).values,columns=['C'],index=rq)因素分析第11章

二、工作日——三次指數(shù)平滑模型的構(gòu)建與預(yù)測(cè)與非節(jié)假日——三次指數(shù)平滑過(guò)程類(lèi)似,在此不重復(fù)贅述。通過(guò)構(gòu)建訓(xùn)練集和測(cè)試集進(jìn)行數(shù)據(jù)的擬合,計(jì)算出真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)的誤差,展示模型預(yù)測(cè)結(jié)果和實(shí)測(cè)值和預(yù)測(cè)值進(jìn)行可視化對(duì)比。因素分析第11章

三、因素分析結(jié)果案例需要考慮節(jié)假日和周末兩因素對(duì)客流量的影響,且在時(shí)間序列預(yù)測(cè)模型中也構(gòu)成一個(gè)必要的因素,代碼如下所示。importdatetimefromchinese_calendarimportis_workday,is_holidayriqi=datazsj.iloc[:,2]l=[]foriinriqi:time2=datetime.datetime.strptime(i,'%Y-%m-%d')ifis_workday(time2):l.append(0)##工作日

elifis_holiday(time2):l.append(1)##休息日周末datazsj['日期類(lèi)別']=l#完成日期的工作日和休息日的劃分datazsj=datazsj.iloc[:,1:]datazsj.to_excel('總數(shù)據(jù)預(yù)測(cè)數(shù)據(jù).xlsx')神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的建立第11章

神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的訓(xùn)練以121站點(diǎn)客流量的預(yù)測(cè)為例。importpandasaspddata=pd.read_excel('總數(shù)據(jù)測(cè)試.xlsx')x=data.iloc[:,:5]y=data.iloc[:,5]fromsklearn.neural_networkimportMLPRegressorclf=MLPRegressor(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=8,random_state=1)clf.fit(x,y);rv=clf.score(x,y)print(rv)importnumpyasnp#121站點(diǎn)給出實(shí)測(cè)值x11=np.array([121,11407,11265,20151201,0]).reshape(1,5)x12=np.array([121,12655,13553,20151202,0]).reshape(1,5)x13=np.array([121,13978,11538,20151203,0]).reshape(1,5)x14=np.array([121,11468,8543,20151204,0]).reshape(1,5)x15=np.array([121,17612,14650,20151205,1]).reshape(1,5)x16=np.array([121,24541,18215,20151206,1]).reshape(1,5)x17=np.array([121,13578,11005,20151207,0]).reshape(1,5)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的建立第11章

神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的預(yù)測(cè)以121站點(diǎn)客流量的預(yù)測(cè)為例。#預(yù)測(cè)R11=clf.predict(x11)R12=clf.predict(x12)R13=clf.predict(x13)R14=clf.predict(x14)R15=clf.predict(x15)R16=clf.predict(x16)R17=clf.predict(x17)##字典連接D1={'20151201':

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論