數(shù)據(jù)挖掘技術及應用_第1頁
數(shù)據(jù)挖掘技術及應用_第2頁
數(shù)據(jù)挖掘技術及應用_第3頁
數(shù)據(jù)挖掘技術及應用_第4頁
數(shù)據(jù)挖掘技術及應用_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘技術及應用 廣州從興電子開發(fā)有限公司 2009.10 張良均 內 容 數(shù)據(jù)挖掘 FAQ 數(shù)據(jù)挖掘過程 應用案例 總結 數(shù)據(jù)挖掘 FAQ What? Why? How? Which? Who? 數(shù)據(jù)挖掘 FAQ What 是一個選擇、探索和建模的過程 按既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律性,從而帶來業(yè)務價值 數(shù)據(jù)挖掘 FAQ Why 從數(shù)據(jù)中淘金 從數(shù)據(jù)中獲取智能 數(shù)據(jù)挖掘 FAQ Why 原始 數(shù)據(jù) 清洗后 的數(shù)據(jù) 標準 報表 即席查詢 &OLAP 解釋性模型 預測性模型 優(yōu)化 分析決策 能力 投資回報分析 (ROI) 信息 數(shù)據(jù) 知識 智能 發(fā)生了什么? 為什么發(fā)生? 將會發(fā)生什么? 希望發(fā)生什么? 數(shù)據(jù)挖掘 FAQ Which 客戶生命周期管理 起始(客戶獲取:對新的品牌缺乏了解,處于觀望,忠誠度低) 發(fā)展(客戶激活:使用頻率低,想嘗試其它產品) 成熟(客戶流失預測) 終止 CRM客戶關系管理 更多的錢包份額 (Wallet Share) 客戶獲取 (Acquisition) 客戶保持 (Retention) 預防欺詐 (Frand) WAR/F:幫你打贏這場戰(zhàn)爭 數(shù)據(jù)挖掘 FAQ Which 請大家列舉幾個 工作中數(shù)據(jù)挖掘應用的例子? ?數(shù)據(jù)挖掘 FAQ Which 預測性模型 分類 數(shù)值預測 聚類 關聯(lián)規(guī)則 時間序列預測 1、偷竊漏電預測 2、客戶信用風險預測 1、售電量預測 2、絕緣子漏電量預測 3、負荷預測 1、電力用戶分類 2、電力變壓器狀態(tài)評價 1、分時電價與售電量分析 1、負荷預測 2、線損預測 數(shù)據(jù)挖掘 FAQ Which 預測性模型 分類 數(shù)值預測 聚類 關聯(lián)分析 時間序列預測 1、概率回歸 2、對數(shù)回歸 3、決策樹模型 4、 MLP/RBF神經網絡 1、線性回歸 2、非線性回歸 3、決策樹模型 4、 MLP/RBF神經網絡 1、 K均值法 2、 SOM/KOHONEN神經網絡 3、系統(tǒng)聚類法 1、關聯(lián)模式 2、序列模式 3、鏈接分析 4、相似時間序列 1、 ARIMA模型 2、支持向量機 3、灰色理論 4、移動平均 數(shù)據(jù)挖掘 FAQ Who 高級業(yè)務分析人員 領導決策者 數(shù)據(jù)挖掘 FAQ How ? 內 容 數(shù)據(jù)挖掘 FAQ 數(shù)據(jù)挖掘過程 應用案例 總結 數(shù)據(jù)挖掘過程 數(shù)據(jù)挖掘過程 數(shù)據(jù)取樣 從企業(yè)數(shù)據(jù)中精選用于數(shù)據(jù)挖掘的樣本 數(shù)據(jù)取樣時要嚴把質量關 抽樣數(shù)據(jù)必須在足夠范圍內有代表性 數(shù)據(jù)常分為訓練、測試和驗證數(shù)據(jù)集 數(shù)據(jù)挖掘過程 數(shù)據(jù)探索 抽樣數(shù)據(jù)是否達到設想要求 ? 有沒有什么明顯的規(guī)律和趨勢 ? 有沒有出現(xiàn)從未設想過的數(shù)據(jù)狀態(tài) ? 因素之間有什么相關性 ? 是否有明顯的組差別 ? 數(shù)據(jù)挖掘過程 模式發(fā)現(xiàn) 對問題解決的要求需進一步量化 過濾不需要的記錄知識的發(fā)現(xiàn) 數(shù)據(jù)結構和內容進一步調整 數(shù)據(jù)挖掘過程 預測建模 數(shù)據(jù)挖掘的核心環(huán)節(jié) 根據(jù)數(shù)據(jù)集的特征和要實現(xiàn)的目標 ,選擇合適的數(shù)據(jù)挖掘方法 嘗試不同的建模技術,精煉模型 數(shù)據(jù)挖掘過程 模型評估 從多個模型中尋找最優(yōu)模型 模型評價方法: 建模數(shù)據(jù)進行檢驗 另找一批數(shù)據(jù)進行檢驗 發(fā)布有效的挖掘模型 內 容 數(shù)據(jù)挖掘 FAQ 數(shù)據(jù)挖掘過程 應用案例 總結 應用案例 案例分析 在進行電力規(guī)劃時,無論電源的建設,還是輸電,配電網的建設,需要負荷預測這一基礎數(shù)據(jù); 在組織電力生產時,購置多少燃料 (水,煤等 ),外部電網供應多少,需要知道未來的負荷需求; 在每天的電力運行調度過程中,安排每日的機組發(fā)電計劃,電網的運行方式,也要提前知道負荷的大小 。 應用案例 案例分析 超短期負荷預測:一小時以內的負荷預測,用于安全監(jiān)視、預防性控制和緊急狀態(tài)處理。 短期負荷預測:對未來一天 24 小時到未來幾天的負荷預測,確定燃料的供應計劃,對運行中的電廠出力要求提出預告。 中長期負荷預測:預測未來幾個月到未來幾年負荷的變化,主要確定電網的運行方式和設備大修計劃等。 應用案例 案例分析 負荷預測的方法很多,并且隨著這一領域研究的不斷深化,新的負荷預測方法不斷涌現(xiàn)。 傳統(tǒng)預測方法的基礎是傳統(tǒng)數(shù)學工具,代表性的方法有回歸模型法、時間序列法、趨勢外推法等?,F(xiàn)代預測方法是隨著人工智能研究領域的興起而出現(xiàn)的,它結合了人工智能領域的神經網絡、小波分析、模糊數(shù)學等學科的最新研究成果,這是負荷預測方法發(fā)展歷史中一個里程碑。 由于影響負荷變化的因素有很多,且關系錯綜復雜,尋常的模型如狀態(tài)估計和多元回歸等方法難于把握其影響因素和負荷變化之間的非線性函數(shù)關系,因此需要一種具有高度非線性函數(shù)映射關系的模型來進行模擬,神經元網絡模型就具有這樣的優(yōu)點和特性,事實上正是因為它的發(fā)展才使得高精度的負荷預測成為可能。 負荷預測 數(shù)據(jù)取樣 實時負荷數(shù)據(jù) 每日最高氣溫 是否節(jié)假日 突發(fā)事件 負荷預測 數(shù)據(jù)探索 樣本數(shù)據(jù)是否按時間順序排列? 不同時間粒度 (年、月、日 )數(shù)據(jù)是否存在明顯分組? 抽樣數(shù)據(jù)是否存在明顯的規(guī)律和趨勢? 負荷值與哪些因素存在關聯(lián)? 趨勢成分:顯示一個時間序列在較長時期的變化趨勢 季節(jié)成分:反映時間序列在一年中有規(guī)律的變化 循環(huán)成分:反映時間序列在超過一年的時間內有規(guī)律的變化 不規(guī)則成分:不能歸因于上述三種成分的時間序列的變化 4050607080901001101201301 2 3 4 5 6 7 8 9 10 11 12月銷量無趨勢 60657075808590951001051 3 5 7 9 11 13 15 17 19 21 23月銷量線性趨勢 901001101201301401501601701 3 5 7 9 11 13 15 17 19 21 23月銷量非線性趨勢 0204060801001 2 3 4 5 6 7 8 9 10 11 12月銷售額第一年第二年季節(jié)成分 負荷預測 數(shù)據(jù)探索 負荷預測 模式發(fā)現(xiàn) 明確預測目標: 短期負荷預測? 中期負荷預測? 長期負荷預測? 數(shù)據(jù)分組:實時負荷、日負荷、月負荷 數(shù)據(jù)結構和內容調整 負荷預測 模式發(fā)現(xiàn) 負荷預測 預測建模 外推法:找出時間序列觀測值中的變化規(guī)律與趨勢,然后通過對這些規(guī)律或趨勢的外推來確定未來的預測值,包括: 移動平均法 (時間序列沒有趨勢和季節(jié)成分 ) 指數(shù)平滑法 (時間序列沒有趨勢和季節(jié)成分 ) 趨勢預測法 (時間序列含有趨勢成分 ) 季節(jié)指數(shù)法 (時間序列含有季節(jié)成分 ) 因果法:尋找時間序列因變量觀測值與自變量觀測值之間的依賴關系,然后利用這種依賴關系和自變量的預計值來確定因變量的預測值。 回歸預測法 神經網絡預測 適用于圍繞一個穩(wěn)定水平上下波動的時間序列。 利用平均使各個時間點上的觀測值中的隨機因素互相抵消掉,以獲得關于穩(wěn)定水平的預測。 將包括當前時刻在內的 N個時間點上的觀測值的平均值作為對于下一時刻的預測值( N應選擇得使 MSE極小化)。 負荷預測 移動平均模型 負荷預測 移動平均模型 改進移動平均預測模型,將計算平均值對于不同時期觀測值的權數(shù)設置得不同:近期的權數(shù)較大,遠期的權數(shù)較小。 負荷預測 指數(shù)平滑模型 指數(shù)平滑的疊代算法。 負荷預測 指數(shù)平滑模型 負荷預測 指數(shù)平滑模型 當電力負荷依時間變化呈現(xiàn)某種上升或下降的趨勢,并且無明顯的季節(jié)波動,又能找到一條合適的函數(shù)曲線反映這種變化趨勢時,就可以用時間 t為自變量,時序數(shù)值 y為因變量,建立趨勢模型 y f(t)。賦予變量 t所需要的值,可以得到相應時刻的時間序列未來值。這就是趨勢外推法。 線性趨勢預測法、對數(shù)趨勢預測法、二次曲線趨勢預測法、指數(shù)曲線趨勢預測法。 負荷預測 趨勢預測模型 負荷預測 趨勢預測模型 對于既含有線性 (非線性 )趨勢成分又含有季節(jié)成分的時間序列,可對其成分進行分解,這種分解建立在以下乘法模型的基礎上: 其中, Tt表示趨勢成分, St表示季節(jié)成分,It表示不規(guī)則成分。由于不規(guī)則成分的不可預測,因此預測值就可表示為趨勢成分和季節(jié)成分的乘積。 負荷預測 季節(jié)指數(shù)模型 建立季節(jié)指數(shù)模型的一般步驟如下: 第一步,計算每一季(每季度,每月等等)的季節(jié)指數(shù) St 。 第二步,用時間序列的每一個觀測值除以適當?shù)募竟?jié)指數(shù),消除季節(jié)影響。 第三步,為消除了季節(jié)影響的時間序列建立適當?shù)内厔菽P筒⒂眠@個模型進行預測。 第四步,用預測值乘以季節(jié)指數(shù),計算出最終的帶季節(jié)影響的預測值。 負荷預測 季節(jié)指數(shù)模型 灰色預測是一種對含有不確定因素的系統(tǒng)進行預測的方法。 把一切隨機過程看作是在一定范圍內變化的、與時間有關的灰色過程,可在數(shù)據(jù)不多的情況下找出某個時期內起作用的規(guī)律,建立電量和負荷預測的模型。 負荷預測 灰色預測法 從因果關系出發(fā),利用數(shù)理統(tǒng)計學中的回歸分析來找出事物變化的規(guī)律,從而進行預測。分為簡單線性回歸分析,多元線性回歸分析,非線性回歸分析。 回歸分析主要體現(xiàn): 判別自變量是否能解釋因變量的顯著變化 -關系是否存在; 判別自變量能夠在多大程度上解釋因變量 -關系的強度; 判別關系的結構或形式 -反映因變量和自變量之間相關的數(shù)學表達式; 預測自變量的值; 當評價一個特殊變量或一組變量對因變量的貢獻時,對其自變量進行控制。 負荷預測 回歸分析 傳統(tǒng)的預測模型是用顯式的數(shù)學表達式加以描述,這就決定了它的局限性。 由于影響負荷變化的因素有很多,且關系錯綜復雜,尋常的模型如狀態(tài)估計和多元回歸等方法難于把握其影響因素和負荷變化之間的非線性函數(shù)關系,因此需要一種具有非線性函數(shù)映射關系的模型來進行模擬。 神經元網絡模型就具有這樣的優(yōu)點和特性,事實上正是因為它的發(fā)展才使得高精度的負荷預測成為可能。 負荷預測 神經網絡 負荷預測 神經網絡 評價模型準確性 均方誤差( MSE) 平均絕對誤差( MAE) 平方和誤差( SSE) 平均相對誤差( MAPE) 負荷預測 模型評估 內 容 數(shù)據(jù)挖掘 FAQ 數(shù)據(jù)挖掘過程 應用案例 總結 總結 課程總結 數(shù)據(jù)挖掘能使企業(yè)的商務智能流程真正形成閉環(huán)。它幫助企業(yè)不斷了解自身運作中的各種問題、發(fā)現(xiàn)新的市場機會,并適時調整企業(yè)經營的策略,從而螺旋式地提高企業(yè)的經營情況和管理水平。 總結 電力數(shù)據(jù)挖掘技術應用展望 對于電力系統(tǒng)這個存在著大量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論