版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
摘要:隨著條形碼、二維碼、RFID、工業(yè)傳感器、自動控制系統(tǒng)、工業(yè)互聯(lián)網(wǎng)、ERPCAD/CAM/CAE等信息技術(shù)在工業(yè)領(lǐng)域的廣泛應(yīng)用,大量與工業(yè)生產(chǎn)活動相關(guān)的數(shù)據(jù)被實時采集并存儲到企業(yè)的信息系統(tǒng)中。對這些數(shù)據(jù)進行分析,有助于改進生產(chǎn)工藝、提高生產(chǎn)效率、降低生產(chǎn)成本,為實現(xiàn)智能制造奠定基礎(chǔ)。因此,工業(yè)大數(shù)據(jù)分析引起了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。模型和算法是大數(shù)據(jù)分析理論和技術(shù)中的兩個核心問題。介紹了工業(yè)大數(shù)據(jù)分析的基本概念,綜述了幾種流行的工業(yè)大數(shù)據(jù)分析模型在工業(yè)大數(shù)據(jù)分析領(lǐng)域的應(yīng)用情況以及相應(yīng)求解算法方面的研究成果,并探索了大數(shù)據(jù)分析模型和算法的未來研究方向。關(guān)鍵詞:工業(yè)大數(shù)據(jù);大數(shù)據(jù)分析;模型;算法;智能制造1引言當(dāng)今時代,信息化和工業(yè)化的融合已經(jīng)成為發(fā)展趨勢,《中國制造2025》指出:“新一代信息技術(shù)與制造業(yè)深度融合,正在引發(fā)影響深遠的產(chǎn)業(yè)變革,形成新的生產(chǎn)方式、產(chǎn)業(yè)形態(tài)、商業(yè)模式和經(jīng)濟增長點”。工業(yè)大數(shù)據(jù)在兩化融合過程中起著至關(guān)重要的作用,國務(wù)院頒發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》把發(fā)展工業(yè)大數(shù)據(jù)列為主要任務(wù)之一:“推動大數(shù)據(jù)在工業(yè)研發(fā)設(shè)計、生產(chǎn)制造、經(jīng)營管理、市場營銷、售后服務(wù)等產(chǎn)品全生命周期、產(chǎn)業(yè)鏈全流程各環(huán)節(jié)的應(yīng)用,分析感知用戶需求,提升產(chǎn)品附加價值,打造智能工廠。建立面向不同行業(yè)、不同環(huán)節(jié)的工業(yè)大數(shù)據(jù)資源聚合和分析應(yīng)用平臺”。工業(yè)大數(shù)據(jù)是指在工業(yè)領(lǐng)域中產(chǎn)生的大數(shù)據(jù)。隨著信息化與工業(yè)化的深度融合,信息技術(shù)滲透到了工業(yè)企業(yè)產(chǎn)業(yè)鏈的各個環(huán)節(jié),條形碼、二維碼、射頻識別(radiofrequencyidentification,RFID)、工業(yè)傳感器、工業(yè)自動控制系統(tǒng)、工業(yè)互聯(lián)網(wǎng)、企業(yè)資源計劃(enterpriseresourceplanning,ERP)、計算機輔助設(shè)計(computeraideddesign,CAD)、計算機輔助制造(computeraidedmanufacturing,CAM)、計算機輔助工程(computeraidedengineering,CAE)等技術(shù)在工業(yè)企業(yè)中得到廣泛應(yīng)用?;ヂ?lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新一代信息技術(shù)在工業(yè)領(lǐng)域的應(yīng)用使得工業(yè)企業(yè)也進入新的發(fā)展階段,其擁有的數(shù)據(jù)也日益豐富。尤其是制造企業(yè)中生產(chǎn)線處于高速運轉(zhuǎn)的狀態(tài),工業(yè)設(shè)備上產(chǎn)生了大量數(shù)據(jù),同時,企業(yè)中人和計算機也產(chǎn)生了大規(guī)模數(shù)據(jù)。例如,通用電氣公司(GE)能源監(jiān)測和診斷中心每天從客戶那里收集10GB的數(shù)據(jù)[1],長虹集團有限公司等離子顯示板生產(chǎn)流程數(shù)據(jù)涉及超過10000個參數(shù),每天產(chǎn)生3000萬條記錄,數(shù)據(jù)量大約為10GB[2]。杭州西奧電梯有限公司的數(shù)字化車間監(jiān)控超過500個參數(shù),每天產(chǎn)生約50萬條記錄;浙江雅瑩服裝有限公司數(shù)字化生產(chǎn)線由15個子系統(tǒng)組成,每天產(chǎn)生約80萬條記錄,數(shù)據(jù)量大約為1GB。模型和算法是大數(shù)據(jù)分析中的兩個核心問題。大數(shù)據(jù)分析模型的研究可以分為3個層次,即描述分析、預(yù)測分析和規(guī)范分析。描述分析探索歷史數(shù)據(jù),并描述發(fā)生了什么,這一層次包括發(fā)現(xiàn)數(shù)據(jù)規(guī)律的聚類[3]、相關(guān)規(guī)則挖掘[4]、模式發(fā)現(xiàn)[5]和描述數(shù)據(jù)規(guī)律的可視化分析[6];預(yù)測分析用于預(yù)測未來的概率和趨勢,例如基于邏輯回歸的預(yù)測[7]、基于分類器的預(yù)測[8]等;規(guī)范分析根據(jù)期望的結(jié)果、特定場景、資源以及對過去和當(dāng)前事件的了解對未來的決策給出建議,例如基于模擬的復(fù)雜系統(tǒng)分析[9]和基于給定約束的優(yōu)化解生成[10]。大數(shù)據(jù)分析算法的研究則針對特定的分析模型設(shè)計高效的算法,并研究如何提高算法的可擴展性、實時性等。工業(yè)大數(shù)據(jù)除了具有大數(shù)據(jù)的5V(volume、velocity>variety>value、veracity)特征,還具有諸多與工業(yè)生產(chǎn)特性密切相關(guān)的特征,如數(shù)據(jù)來源多樣、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)蘊含信息復(fù)雜、耦合不確定、數(shù)據(jù)實時性高等,這使得工業(yè)大數(shù)據(jù)分析的模型更加復(fù)雜多樣,對算法的實時性要求更高。目前,工業(yè)大數(shù)據(jù)分析的理論和技術(shù)研究仍處于起步階段,分析模型以簡單的單一模型為主,分析算法主要是通用的數(shù)據(jù)挖掘算法。本文對工業(yè)大數(shù)據(jù)分析模型和算法的研究現(xiàn)狀進行了綜述,總結(jié)了大數(shù)據(jù)分析模型在工業(yè)場景中的應(yīng)用,并對工業(yè)大數(shù)據(jù)分析模型的常用求解算法進行概述和評價。2大數(shù)據(jù)分析模型在工業(yè)中的應(yīng)用大數(shù)據(jù)分析模型按照輸入輸出的形式,主要有關(guān)聯(lián)規(guī)則分析、分類分析、回歸分析和聚類分析,這些分析模型以及它們的組合被應(yīng)用于多種實際工業(yè)場景的分析任務(wù)中,如工藝參數(shù)優(yōu)化、產(chǎn)量預(yù)測、故障檢測和診斷、客戶需求分析和服務(wù)類型識別等。2.1關(guān)聯(lián)規(guī)則分析模型關(guān)聯(lián)規(guī)則挖掘是針對購物籃分析的問題提出的,其最初的目的是挖掘交易數(shù)據(jù)庫中不同商品間存在的關(guān)聯(lián)關(guān)系,以此得到顧客購買模式的一般性規(guī)則,并用這些規(guī)則指導(dǎo)商家進行合理的貨架設(shè)計。在實際工業(yè)過程中,許多場景可以用類似的關(guān)聯(lián)關(guān)系建模,用頻繁項集挖掘的方法來獲取隱含規(guī)則,用數(shù)據(jù)和知識驅(qū)動的方式來代替?zhèn)鹘y(tǒng)的大量依靠經(jīng)驗的決策方式。在工藝參數(shù)優(yōu)化方面,參考文獻[12]針對鋼鐵制造工藝,用關(guān)聯(lián)規(guī)則分析制造過程中的化學(xué)成分(如碳、錳、磷、硫等)的含量、出鋼溫度和軋制速度對產(chǎn)品機械性能的影響。在能耗優(yōu)化方面,參考文獻[13]用關(guān)聯(lián)規(guī)則分析從大量歷史能耗數(shù)據(jù)中獲取生產(chǎn)參數(shù)對能耗影響的規(guī)則,以此來指導(dǎo)企業(yè)改進生產(chǎn)參數(shù),優(yōu)化能耗。在工藝標準優(yōu)化方面,參考文獻[14]用關(guān)聯(lián)規(guī)則分析服裝款式、材料、年齡對實際工時與標準工時差異的影響程度,作為標準工時優(yōu)化的依據(jù);參考文獻[15]用關(guān)聯(lián)規(guī)則模型評估導(dǎo)致標準工時不合理的影響因素;參考文獻[16]用關(guān)聯(lián)規(guī)則挖掘模具企業(yè)計算機輔助工藝過程設(shè)計(computeraidedprocessplanning,CAPP)改模知識庫,以此指導(dǎo)工藝設(shè)計,提高改模工藝繼承性與重用性,促進改模工藝標準化。在產(chǎn)品質(zhì)量優(yōu)化方面,參考文獻[17]關(guān)注裝配順序?qū)Ξa(chǎn)品質(zhì)量的影響。首先用關(guān)聯(lián)規(guī)則的方法從歷史數(shù)據(jù)中抽取規(guī)則,再經(jīng)人工整理,獲得簡潔有效的裝配知識和規(guī)則,以此指導(dǎo)產(chǎn)品按合理順序裝配。在企業(yè)的供應(yīng)鏈管理方面,參考文獻[18]用關(guān)聯(lián)規(guī)則分析機械制造企業(yè)外購件間的隱含關(guān)系,指導(dǎo)企業(yè)制定采購計劃;參考文獻[19]用關(guān)聯(lián)規(guī)則模型分析汽車企業(yè)產(chǎn)品價格、供應(yīng)商評價、退貨原因間的關(guān)聯(lián)關(guān)系,以此建立采購決策支持系統(tǒng);參考文獻[20]用關(guān)聯(lián)規(guī)則模型評價和選擇供應(yīng)商。在銷售和售后方面,參考文獻[21]從卡車制造商的角度出發(fā),用關(guān)聯(lián)規(guī)則分析經(jīng)銷商訂購車型間的關(guān)系,以進行品牌推廣;參考文獻[22]將關(guān)聯(lián)規(guī)則運用到筆記本電腦接單制造(buildtoorder,BTO)生產(chǎn)計劃中,挖掘用戶配置選擇的關(guān)聯(lián)關(guān)系,從用戶和市場需求的角度出發(fā),為生產(chǎn)計劃制定提供合理依據(jù);參考文獻[23]用關(guān)聯(lián)規(guī)則對鐘表企業(yè)物料清單中的歷史數(shù)據(jù)建模,分析不同零部件組合的產(chǎn)品的客戶認可度和盈利能力,以此為基礎(chǔ)制定營銷策略;參考文獻[24]在客戶關(guān)系管理(customerrelationshipmanagement,CRM)中運用關(guān)聯(lián)規(guī)則來預(yù)測客戶行為;參考文獻[25]用關(guān)聯(lián)規(guī)則分析通信設(shè)備制造業(yè)不同地區(qū)的銷售特征,預(yù)測流失客戶。
除了直接用關(guān)聯(lián)規(guī)則模型進行工業(yè)大數(shù)據(jù)分析之外,也有研究者用關(guān)聯(lián)規(guī)則對工業(yè)數(shù)據(jù)進行預(yù)處理,再結(jié)合其他方法對處理過的數(shù)據(jù)進行分析。參考文獻[26]針對半導(dǎo)體制造工藝過程中機器故障由多因素引起、因素間非線性的特點,提出了RMI(rootcausemachineidentifier)綜合處理程序。其關(guān)鍵步驟之一就是用關(guān)聯(lián)規(guī)則模型對數(shù)據(jù)進行處理,得到候選集,再在候選集上進行計算來定位和發(fā)現(xiàn)機器缺陷;參考文獻[27]用關(guān)聯(lián)規(guī)則對毛毯制造數(shù)據(jù)進行降維,找到關(guān)鍵屬性集,再利用關(guān)鍵屬性集分析毛毯制造過程中出現(xiàn)故障的原因和相應(yīng)的規(guī)則,幫助識別和定位故障。除了直接用關(guān)聯(lián)規(guī)則模型進行工業(yè)大數(shù)據(jù)分析之外,也有研究者用關(guān)聯(lián)規(guī)則對工業(yè)數(shù)2.2分類模型和回歸模型分類模型和回歸模型在基于大數(shù)據(jù)的分析、判斷和預(yù)測領(lǐng)域具有廣泛應(yīng)用。其中,分類模型主要針對離散屬性值的判斷和預(yù)測,如故障檢測和診斷、客戶細分;而回歸模型主要針對連續(xù)屬性值,如產(chǎn)品的產(chǎn)量、銷量。決策樹模型和神經(jīng)網(wǎng)絡(luò)模型是基于工業(yè)大數(shù)據(jù)的分類和回歸分析中的主要模型。決策樹是一種樹形結(jié)構(gòu),用來表征對象屬性與對象值之間的映射關(guān)系。決策樹模型簡單直觀、可解釋性強,具有良好的分析和預(yù)測能力,適用于工業(yè)大數(shù)據(jù)分析的諸多場景。在工藝參數(shù)優(yōu)化方面,參考文獻[28]用分類決策樹對玻璃鍍膜工藝建模,根據(jù)給定的工藝參數(shù)預(yù)測產(chǎn)品質(zhì)量,從而幫助企業(yè)快速確定符合預(yù)期質(zhì)量產(chǎn)品的工藝參數(shù)。在成本優(yōu)化方面,參考文獻[29]用決策樹模型篩選對工藝成本影響最大的工序,通過控制和改進篩選出的工序優(yōu)化整個工藝路線的成本。在工藝標準優(yōu)化方面,參考文獻[14]用決策樹模型對服裝標準工時系統(tǒng)的數(shù)據(jù)進行分類,再在每一類數(shù)據(jù)上進行挖掘。在產(chǎn)品質(zhì)量監(jiān)控方面,針對傳統(tǒng)冷軋產(chǎn)品缺陷檢測方法和檢測標準不一、漏洞和誤判多的問題,參考文獻[30]使用生產(chǎn)數(shù)據(jù)訓(xùn)練二分類和多分類決策樹,挖掘出定位產(chǎn)品缺陷的規(guī)則,以此幫助企業(yè)快速準確地檢測出生產(chǎn)產(chǎn)品的缺陷。類似地,在故障檢測方面,參考文獻[27]用毛毯制造數(shù)據(jù)訓(xùn)練決策樹模型,得到導(dǎo)致生產(chǎn)線故障的規(guī)則,并用這些規(guī)則指導(dǎo)相關(guān)人員識別和定位生產(chǎn)線故障,大大提高了毛毯生產(chǎn)的效率;參考文獻[31]用提升機各系統(tǒng)的監(jiān)測數(shù)據(jù)訓(xùn)練決策樹,表征故障隱患。在生產(chǎn)調(diào)度方面,決策樹模型受到了廣泛關(guān)注。參考文獻[32]針對離散制造業(yè)靜態(tài)JobShop調(diào)度問題,用決策樹模型提取調(diào)度知識,優(yōu)化調(diào)度方案;參考文獻[33]將工單數(shù)據(jù)和機器加工數(shù)據(jù)作為歷史數(shù)據(jù)訓(xùn)練決策樹模型,并用訓(xùn)練好的模型實時為工件安排機器進行加工,充分利用生產(chǎn)資源,實現(xiàn)智能化生產(chǎn);參考文獻[34]用決策樹模型分析機器細小位置移動次數(shù)和機器效率對停止次數(shù)的影響規(guī)律,作為機器調(diào)整和檢測的依據(jù),有助于車間設(shè)備、人員的調(diào)配。在采購方面,參考文獻[35]用決策樹模型挖掘汽車產(chǎn)品銷售數(shù)據(jù),指導(dǎo)管理者制定合理的采購計劃。在客戶關(guān)系管理方面,決策樹模型被廣泛用于客戶的評價、細分和預(yù)測。參考文獻[21]用決策樹模型分析卡車經(jīng)銷商的重要程度;參考文獻[36]用決策樹模型將已有客戶群按其忠誠度分類;參考文獻[37]則用決策樹模型來預(yù)測客戶的忠誠度,以幫助企業(yè)發(fā)掘潛在客戶;參考文獻[24]用決策樹模型挖掘客戶潛在服務(wù)需求,幫助企業(yè)從被動服務(wù)模式向主動服務(wù)模式進化;參考文獻[38]用決策樹模型分析客戶評價,以此衡量產(chǎn)品的滿意度指標;參考文獻[39]用決策樹模型預(yù)測潛在流失客戶,指導(dǎo)企業(yè)維系客戶關(guān)系。此外,在制造業(yè)企業(yè)的管理流程優(yōu)化方面,參考文獻[40]對機械制造企業(yè)的信息管理系統(tǒng)建立處理部門歸屬決策樹模型,以規(guī)范管理流程,提高企業(yè)各部門間的協(xié)調(diào)運作效率。神經(jīng)網(wǎng)絡(luò)模型能夠表征復(fù)雜的非線性函數(shù),在分類和回歸任務(wù)上具有良好的表現(xiàn)。實際工業(yè)場景(如電網(wǎng)、生產(chǎn)線和大型制造設(shè)備等)的工藝過程、產(chǎn)品質(zhì)量、能耗、故障等均受眾多因素影響,影響過程非線性,且影響因素間往往存在著耦合關(guān)系。利用這些過程產(chǎn)生的大數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以有效地表征這些復(fù)雜過程,實現(xiàn)工藝流程優(yōu)化、質(zhì)量管理監(jiān)控、能耗優(yōu)化、故障檢測預(yù)警等。在工藝流程優(yōu)化方面,參考文獻[28]對玻璃鍍膜工藝建立神經(jīng)網(wǎng)絡(luò)模型,根據(jù)給定參數(shù)預(yù)測產(chǎn)品質(zhì)量,再以產(chǎn)品質(zhì)量為指標優(yōu)化工藝參數(shù);參考文獻[41]用動態(tài)神經(jīng)網(wǎng)絡(luò)模型分析發(fā)動機缸蓋機加工參數(shù)、模具狀態(tài)和成品缸蓋燃燒室容積間的關(guān)系,指導(dǎo)加工參數(shù)的選取;參考文獻[42]用前饋神經(jīng)網(wǎng)絡(luò)模型對退火數(shù)據(jù)建模,模型可根據(jù)當(dāng)前數(shù)據(jù)預(yù)測退火工序的運行情況,為相關(guān)人員優(yōu)化退火工藝參數(shù)提供合理依據(jù);類似地,參考文獻[43]用前饋神經(jīng)網(wǎng)絡(luò)來量化表征樹脂中間體和印刷電路板制造流程中各因素間的非線性因果關(guān)系,幫助相關(guān)人員更好地認識工藝流程運行情況。此外,參考文獻[15]基于神經(jīng)網(wǎng)絡(luò)預(yù)測生產(chǎn)工時,分析出影響因素及其影響程度。在能耗的管理方面,參考文獻[44]對煙草企業(yè)能源管理系統(tǒng)運用附加動量的前饋神經(jīng)網(wǎng)絡(luò)模型,監(jiān)控和預(yù)測企業(yè)的能耗,保障企業(yè)的用能安全和效率;參考文獻[45]利用造紙業(yè)電耗、氣耗等4類能耗的重要影響因素建立神經(jīng)網(wǎng)絡(luò)模型,預(yù)測造紙過程中各工序的能耗,為企業(yè)的能耗管理提供決策依據(jù)。在故障檢測方面,參考文獻[46]用模塊化的神經(jīng)網(wǎng)絡(luò)模型結(jié)合故障檢測理論,實現(xiàn)快速定位故障部件;參考文獻[47]用神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)倉庫的數(shù)據(jù)進行建模,分析汽車售后的潛在故障;參考文獻[48]基于模糊神經(jīng)網(wǎng)絡(luò)實現(xiàn)起重車遠程實時故障診斷;參考文獻[49]用神經(jīng)網(wǎng)絡(luò)模型解決設(shè)備實時故障數(shù)據(jù)庫中隱形故障這類不確定性較多的非線性問題。在采購和庫存管理方面,參考文獻[50]用神經(jīng)網(wǎng)絡(luò)模型預(yù)測大型制造企業(yè)庫存安全水平;參考文獻[51]用神經(jīng)網(wǎng)絡(luò)模型預(yù)測服裝企業(yè)庫存量;參考文獻[52]用神經(jīng)網(wǎng)絡(luò)模型預(yù)測采購價格。這些預(yù)測結(jié)果為合理制定采購計劃、節(jié)約成本、優(yōu)化庫存提供了依據(jù)。此外,參考文獻[53]用神經(jīng)網(wǎng)絡(luò)模型對制造企業(yè)的庫存管理系統(tǒng)進行優(yōu)化。神經(jīng)網(wǎng)絡(luò)模型還被用作產(chǎn)量、銷量預(yù)測及客戶需求發(fā)現(xiàn)。在產(chǎn)量預(yù)測方面,參考文獻[54]用神經(jīng)網(wǎng)絡(luò)模型預(yù)測攀枝花市的鋼產(chǎn)量;在銷量預(yù)測方面,參考文獻[55]以電機企業(yè)的月份因子及月銷售量作為輸入,建立神經(jīng)網(wǎng)絡(luò)模型,較好地預(yù)測出了5種電機產(chǎn)品的銷售量;在客戶需求發(fā)現(xiàn)方面,參考文獻[21]從卡車制造商的角度出發(fā),用神經(jīng)網(wǎng)絡(luò)模型綜合分析經(jīng)銷商的價值。還有研究將神經(jīng)網(wǎng)絡(luò)模型運用到工業(yè)產(chǎn)品的輔助設(shè)計中,如參考文獻[56]用神經(jīng)網(wǎng)絡(luò)模型分類并輔助檢索摩托車總體設(shè)計方案實例庫中的設(shè)計實例,有助于提高摩托車總體方案設(shè)計的效率。此外,統(tǒng)計分析中的回歸模型在工業(yè)大數(shù)據(jù)分析和預(yù)測上依然發(fā)揮著重要作用。參考文獻[57]針對傳統(tǒng)的基于伸縮探針檢測半導(dǎo)體質(zhì)量時,伸縮探針老化影響檢測結(jié)果的問題,用線性回歸結(jié)合分類模型對伸縮探針的狀態(tài)建模,掌握探針的老化程度,從而減少由于探針老化引起的產(chǎn)品質(zhì)量檢測錯誤,提高檢測準確率;參考文獻[58]基于動態(tài)改進多元線性回歸模型預(yù)測航空制造企業(yè)的次年產(chǎn)量;參考文獻[59]用回歸模型挖掘制造業(yè)集群規(guī)模和創(chuàng)新能力與服務(wù)需求之間的關(guān)系;參考文獻[60]用時間序列分析模型預(yù)測流行飾品在不同區(qū)域的未來直銷趨勢。2.3聚類分析模型聚類分析模型能夠?qū)⒕哂邢嗨颇J降膶ο髿w納為一簇,是一種典型的無監(jiān)督學(xué)習(xí)模型。聚類分析模型擅于從看似關(guān)系復(fù)雜、未知的對象中提取出內(nèi)在聯(lián)系。因此,在工業(yè)大數(shù)據(jù)分析中,聚類分析模型被用于分析復(fù)雜參數(shù)間的關(guān)系、細分客戶群等。在生產(chǎn)優(yōu)化方面,參考文獻[61]用聚類分析模型分析煉鋼廠脫硫數(shù)據(jù),得到不同鐵水條件下的脫硫劑消耗,以此為依據(jù)確定不同鐵水條件下脫硫效果最好的脫硫劑;參考文獻[13]用聚類分析方法從大量歷史煉鋼數(shù)據(jù)中挖掘隱含的模式,指導(dǎo)煉鋼企業(yè)改進生產(chǎn)參數(shù),降低能耗;參考文獻[62]用多元統(tǒng)計技術(shù)和聚類分析方法對車間歷史數(shù)據(jù)進行分析,得到了工藝參數(shù)與能耗間的影響規(guī)律;參考文獻[63]用聚類模型挖掘釀酒數(shù)據(jù)中隱含的模式,分析結(jié)果可以幫助研究人員在釀酒過程中提前檢測出產(chǎn)品質(zhì)量是否合格,減少由于成品質(zhì)量問題帶來的損失。在異常檢測方面,參考文獻[64]提出將聚類分析模型應(yīng)用到鋼鐵等冶金行業(yè),分析并找出生產(chǎn)數(shù)據(jù)中的異常點,為進一步發(fā)現(xiàn)生產(chǎn)過程中的異常狀況或根據(jù)正確數(shù)據(jù)進行更深層次的分析奠定基礎(chǔ);參考文獻[65]將聚類和關(guān)聯(lián)規(guī)則模型結(jié)合,基于大量數(shù)據(jù)預(yù)測挖掘機的故障;參考文獻[47]用聚類模型分析汽車售后的潛在故障。在供應(yīng)鏈管理方面,參考文獻[50]用灰色聚類法對庫存中的產(chǎn)品和原材料按重要性進行劃分,指導(dǎo)企業(yè)控制和優(yōu)化庫存;參考文獻[21]從卡車制造商的角度出發(fā),用聚類模型對經(jīng)銷商進行細分;參考文獻[36]對煙草企業(yè)客戶按價值度聚類,以此劃分營銷等級,實現(xiàn)精準營銷;參考文獻[66]從客戶的盈利能力角度出發(fā),用聚類模型分析客戶盈利數(shù)據(jù),并預(yù)測其未來盈利能力,決策者參考預(yù)測結(jié)果,將有限的資源投入能為公司創(chuàng)造更大利潤的客戶上。在售后服務(wù)方面,參考文獻[24]提出用聚類模型挖掘客戶對服務(wù)的潛在需求,以客戶需求為導(dǎo)向制定合理的服務(wù)策略;參考文獻[39]用聚類模型結(jié)合決策樹模型預(yù)測潛在流失客戶,幫助企業(yè)及時制定挽留策略。3大數(shù)據(jù)分析算法研究成果工業(yè)大數(shù)據(jù)分析算法是對特定分析模型的求解方法。如第2節(jié)所述,目前工業(yè)大數(shù)據(jù)分析中的模型以通用模型為主,因此,求解這些模型的算法主要是經(jīng)典的大數(shù)據(jù)分析算法及其改進算法。本節(jié)對關(guān)聯(lián)規(guī)則分析、決策樹分析、神經(jīng)網(wǎng)絡(luò)和聚類分析的有關(guān)算法方面的主要研究成果進行整理和評價。3.1關(guān)聯(lián)規(guī)則分析算法關(guān)聯(lián)規(guī)則分析中最經(jīng)典的算法是Apriori算法和FP-Growth算法。Apriori算法[67]的理論依據(jù)是頻繁項集的兩個重要性質(zhì),即一個頻繁項集的任意子集是頻繁的,且一個非頻繁項集的任意超集是非頻繁的。其算法思想是首先掃描1次數(shù)據(jù)集,得到1-頻繁項集,然后通過迭代逐層由(k1)-頻繁項集得到k-候選集,并利用頻繁項集的性質(zhì)從k-候選集中篩選k-頻繁項集,直到?jīng)]有新的頻繁項集產(chǎn)生為止。得益于頻繁項集的性質(zhì),Apriori算法相較于蠻力法,大大提高了計算效率,且算法的思想簡單,因而在關(guān)聯(lián)規(guī)則分析領(lǐng)域得到了廣泛應(yīng)用。然而,經(jīng)典的Apriori算法存在兩個主要問題:其一是當(dāng)數(shù)據(jù)量很大時,算法會產(chǎn)生大量的候選集;其二是算法需要多次掃描數(shù)據(jù)集,具有很大的I/O開銷。針對Apriori算法存在的問題,許多研究者提出了優(yōu)化和改進的方法。MannilaH等人[68]提出剪枝技術(shù),利用“一個項集是頻繁項集,當(dāng)且僅當(dāng)它的所有子集都是頻繁項集”這一充分必要條件,排除那些存在不頻繁子集的候選集,大大減少了候選集的規(guī)模;ParkJS等人[69]提出了用散列的方法計算支持度計數(shù)的DHP算法,以空間開銷換取時間開銷;SavasereA等人[70]提出了基于劃分的算法,將數(shù)據(jù)庫劃分為幾個不相交的子庫,分別將這些子庫讀入內(nèi)存并計算頻繁項集,再將計算結(jié)果合并,這樣,每個子數(shù)據(jù)庫只需要被掃描一次,減少了I/O開銷;MannilaH等人[68]還提出了采樣的思想;ToivonenH[71]設(shè)計了基于采樣思想的算法,在數(shù)據(jù)庫中抽取樣本,并在樣本上挖掘關(guān)聯(lián)規(guī)則,再在剩余數(shù)據(jù)中驗證這些規(guī)則,基于采樣的算法大大提高了運行效率,但產(chǎn)生的結(jié)果不精確,存在“數(shù)據(jù)扭曲”的問題。此外,許多算法在Apriori算法的基礎(chǔ)上實現(xiàn)了并行化,如AgrawalR等人[72]提出的CD算法、DD算法、CaD算法及ParkJS等人[69]提出的PDM算法。關(guān)聯(lián)規(guī)則分析中另一個經(jīng)典的算法是HanJ等人[73]提出的FP-Growth算法。算法基于FP-tree的數(shù)據(jù)結(jié)構(gòu)來壓縮和表示數(shù)據(jù),因而不需要產(chǎn)生候選集。算法首先掃描兩次數(shù)據(jù)集,構(gòu)造FP-tree,再利用分治的思想,在構(gòu)造好的FP-tree上進行挖掘,不需要多次掃描數(shù)據(jù)集。當(dāng)數(shù)據(jù)集中的事務(wù)在FP-tree上構(gòu)成的重疊路徑較多、FP-tree的規(guī)模足夠小時,F(xiàn)PGrowth算法的運行效率比Apriori算法提高幾個數(shù)量級。3.2決策樹算法決策樹算法的核心是在決策樹的每個節(jié)點上選取合適的測試屬性,并按照測試屬性將數(shù)據(jù)集進行劃分,以此構(gòu)造出完整的決策樹。最早的決策樹算法是ID3算法[74]oID3算法將信息熵理論引入決策樹學(xué)習(xí)中,以信息增益為標準選取樹節(jié)點的測試屬性,遞歸地構(gòu)造決策樹。ID3算法思想簡單,且具有較強的學(xué)習(xí)能力。不過,由于ID3算法偏向于處理具有較多值的屬性,因而存在過擬合的問題;算法對噪聲數(shù)據(jù)敏感,且算法只能處理離散值,無法對連續(xù)屬性值進行處理。在ID3算法的基礎(chǔ)上,QuinlanJR[75]提出了C4.5算法。C4.5算法的核心是在選擇測試屬性時,用信息增益率來替代信息增益,作為屬性選取的標準。這一改進措施有效地克服了ID3算法具有的偏袒屬性問題。在決策樹構(gòu)造過程中,C4.5算法引入了剪枝的策略,以此來避免數(shù)據(jù)過擬合。此外,C4.5算法增加了對連續(xù)屬性離散化的處理,使得算法能夠處理連續(xù)屬性值。然而,算法在處理連續(xù)屬性值時,需要對數(shù)據(jù)進行掃描和排序,影響了算法執(zhí)行效率,且算法只能對內(nèi)存中的數(shù)據(jù)進行處理。另一個經(jīng)典的決策樹算法是CART算法[76]。CART算法采用代表數(shù)據(jù)不純度的GINI系數(shù)作為屬性劃分的標準。相較于ID3算法和C4.5算法基于信息熵來計算測試屬性,基于GINI系數(shù)的方法計算更加簡便,且具有很好的近似精度。此外,CART算法用二分遞歸的方法進一步簡化了GINI系數(shù)的計算,并得到更加簡單直觀的二叉決策樹模型。CART算法采用類似C4.5算法的思想將連續(xù)屬性離散化,因而能夠處理連續(xù)屬性值。不過,當(dāng)屬性類別過多、決策樹的復(fù)雜度較高時,CART算法的誤差較大。3.3神經(jīng)網(wǎng)絡(luò)算法神經(jīng)網(wǎng)絡(luò)算法的核心是訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,即根據(jù)訓(xùn)練數(shù)據(jù)調(diào)整神經(jīng)網(wǎng)絡(luò)模型的參數(shù),以使模型的表征能力達到最優(yōu)。最早的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法是感知器訓(xùn)練法則[77],該法則根據(jù)訓(xùn)練樣例的目標輸出和實際輸出的差值來調(diào)整網(wǎng)絡(luò)連接權(quán),直至感知器能正確分類所有的訓(xùn)練數(shù)據(jù)。感知器訓(xùn)練法則對于線性可分的訓(xùn)練數(shù)據(jù)是收斂的[78],但對于線性不可分的訓(xùn)練數(shù)據(jù)來說,它將無法收斂。針對線性不可分的訓(xùn)練樣本,WidrowB等人[79]提出了最小均方誤差(leastmeansquare,LMS)算法。算法的核心思想是最小化輸出誤差的平方和,從而得到最優(yōu)近似解。算法采用梯度下降的搜索策略,迭代地沿誤差梯度的反方向更新網(wǎng)絡(luò)連接的權(quán)值,直至收斂到穩(wěn)定狀態(tài)。WerbosP[80]提出了將LMS算法推廣到由非線性可微神經(jīng)元組成的多層前饋神經(jīng)網(wǎng)絡(luò)的思想。RumelhartDE等人[81]提出了基于同樣思想的誤差反向傳播(errorbackpropagation,BP)算法。BP算法是目前應(yīng)用最為廣泛、最具代表性的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。除了前饋神經(jīng)網(wǎng)絡(luò)模型,徑向基函數(shù)(radicalbasisfunction,RBF)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等大部分神經(jīng)網(wǎng)絡(luò)模型也可以采用BP算法進行訓(xùn)練。盡管BP算法具有強大的學(xué)習(xí)和表征能力及廣泛的適用性,但標準的BP算法也存在著許多缺陷和不足。首先,由于算法的學(xué)習(xí)能力過于強大,其在網(wǎng)絡(luò)訓(xùn)練中會出現(xiàn)“過擬合”現(xiàn)象;其次,算法有一定概率陷入局部極小,無法收斂于全局最優(yōu)解;此外,算法的收斂速度受到學(xué)習(xí)率、初始條件等多個因素的影響,收斂速度較慢。針對BP算法存在的問題,研究者探索了許多改進方法。對于“過擬合”問題,一個經(jīng)典的解決方法是將數(shù)據(jù)劃分為訓(xùn)練集和測試集,當(dāng)模型在測試集合上的誤差達到最小時即停止迭代[82];BarronAR[83]提出了正則化的方法,在網(wǎng)絡(luò)的誤差目標函數(shù)中引入懲罰項,從而使網(wǎng)絡(luò)模型盡可能精簡。對于算法會收斂于局部極小的問題,采用在梯度更新法則中引入沖量、使用隨機梯度下降或使用不同初始值初始化多個網(wǎng)絡(luò)并最終合并訓(xùn)練結(jié)果的方法,能夠在一定程度上避免陷入局部極?。?2];AartsEH等人[84]提出用模擬退火技術(shù)來優(yōu)化BP算法,使算法在每一次迭代中都以一定概率接受次優(yōu)解,從而跳出局部極?。淮送?,利用遺傳算法等進化算法[85]結(jié)合BP算法訓(xùn)練神經(jīng)網(wǎng)絡(luò),也可以使網(wǎng)絡(luò)更好地接近全局最優(yōu)。對于BP算法訓(xùn)練速度緩慢的問題,JacobsRA[86]提出自適應(yīng)學(xué)習(xí)率的改進策略,加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;引入沖量的策略也可以加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度[82]。除了BP算法外,還有諸多針對特定網(wǎng)絡(luò)模型的算法。有代表性的算法包括自組織映射(selforganizingmap,SOM)算法[87]、自適應(yīng)諧振理論(adaptiveresonancetheory,ART)網(wǎng)絡(luò)學(xué)習(xí)算法[88]和訓(xùn)練受限玻爾茲曼機的CD算法[89]等。3.4聚類分析算法按照算法的基本思想,聚類分析算法主要分為層次聚類、基于劃分的聚類、基于密度的聚類和基于網(wǎng)格的聚類。層次聚類算法的基本思想是逐層將數(shù)據(jù)分組,形成一個層級式的樹狀圖結(jié)構(gòu)的聚類結(jié)果。根據(jù)構(gòu)造方式的不同,層次聚類可分為兩大類:聚合層次聚類和分解層次聚類。聚合層次聚類采用自底向上的方式,初始時將每個個體看作一類,再逐層合并這些類;分解層次聚類則采用自頂向下的方式,初始時將所有個體看作一類,再逐層分割這些類。早期的較為著名的層次聚類算法是ZhangT等人[90]提出的BIRCH算法。算法的核心思想是建立一個聚類特征樹(CFTree),并在聚類特征樹上執(zhí)行聚類分析。由于只需要掃描一次數(shù)據(jù)集,且聚類過程在內(nèi)存中完成,因此BIRCH算法具有很高的執(zhí)行效率。不過,BIRCH對于非凸的數(shù)據(jù)集分布簇的聚類效果并不理想。為了處理海量數(shù)據(jù),識別不同形狀和大小的聚類,GuhaS等人[91]提出了CURE算法。該算法使用數(shù)據(jù)空間中的多個點表示一個簇,以此過濾孤立點,并能更好地識別非球狀、大小不一的簇。此外,算法采用隨機抽樣和分區(qū)的策略處理大規(guī)模數(shù)據(jù),以此獲得更好的時間效率。ROCK算法[92]是對CURE算法的改進。ROCK算法在CURE算法的基礎(chǔ)上,增加了對類別屬性的識別,并通過考察數(shù)據(jù)點間的相似性和共同鄰居數(shù)量來提高算法的頑健性。此外,KarypisG等人[93]提出了Chameleon算法。該算法采用動態(tài)建模技術(shù),將數(shù)據(jù)集構(gòu)造成k最近鄰圖,并用圖劃分算法將其劃分為若干子圖,再利用層次聚類算法合并這些子圖,得到聚類結(jié)果。該算法能夠處理復(fù)雜形狀的簇?;趧澐值木垲愃惴ㄊ紫刃枰付ㄒ粋€聚類數(shù)目,算法通過迭代來逐步優(yōu)化一個目標函數(shù),最終得到指定數(shù)目的結(jié)果簇。K-means算法[94]是典型的基于劃分的聚類算法。算法用每個類別中全部數(shù)據(jù)的均值,即聚類中心來表示這個類。算法從k個隨機的聚類中心開始,迭代地將距離聚類中心最近的點劃分為一類,直至聚類中心點達到收斂。該算法簡潔高效,時間和空間復(fù)雜度低,因而在聚類分析中有著十分廣泛的應(yīng)用。然而,K-means算法存在許多不足。K-means算法只能處理數(shù)值型的數(shù)據(jù),且算法對非標準正態(tài)分布和非均勻樣本集的聚類效果較差;算法對初始值的設(shè)置很敏感,初始聚類中心將對聚類結(jié)果產(chǎn)生很大影響;此外,算法對異常值數(shù)據(jù)和離群點很敏感。為了克服K-means算法的不足,研究者對其進行了諸多改進。針對K-means算法只能處理數(shù)值型數(shù)據(jù)的問題,HuangZ[95]提出了K-modes算法,將K-means算法擴展到能夠處理分類屬性,并將K-means算法和K-modes算法結(jié)合,提出了能夠處理混合屬性的K-Prototype算法。針對K-means算法對非標準正態(tài)分布和非均勻樣本處理效果差的問題,GirolamiM[96]提出了基于核函數(shù)的算法,將數(shù)據(jù)映射到高維空間中進行處理;針對K-means算法對初始值敏感的問題,ArthurD等人[97]提出了改進的K-means++算法,算法的核心思想是選取k個相距較遠的點作為聚類中心,K-means++算法選取聚類中心的思想形象直觀,且行之有效;針對K-means算法對離群點和異常點敏感的問題,KaufmanL等人[98]提出了K-medoids算法,用簇中的某個點而非所有點的平均值來代替這個類,由此實現(xiàn)了對異常值的有效處理。因而能夠處理任意形基于密度的聚類算法將具有一定稠密程度的數(shù)據(jù)劃分為一個簇,狀的聚類,并有效排除稀疏的異常點。DBSCAN算法[99]是經(jīng)典的基于密度的聚類算法。DBSCAN算法從任意未標記點出發(fā),將密度相連的最大點集作為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物資管理制度
- 客戶回訪管理制度
- 技術(shù)要領(lǐng):數(shù)據(jù)庫優(yōu)化方法探討
- 2026年英語聽力與口語表達能力進階測試題
- 2026年工業(yè)產(chǎn)品設(shè)計及創(chuàng)新應(yīng)用測試題
- 2026年網(wǎng)絡(luò)安全工程師初級練習(xí)題
- 2026年法律常識考試題集及答案解析
- 2026年新型科技公司稅收管理及申報考核練習(xí)題
- 2026年法律行業(yè)高級職業(yè)資格測試題集及答案詳解
- 2026年能源行業(yè)專業(yè)知識筆試題目及答案詳解
- 八年級地理上冊《中國的氣候》探究式教學(xué)設(shè)計
- 重慶市2026年高一(上)期末聯(lián)合檢測(康德卷)化學(xué)+答案
- 2026年湖南郴州市百福控股集團有限公司招聘9人備考考試題庫及答案解析
- QC/T 476-2025客車防雨密封性要求及試驗方法
- 2025+CACA子宮內(nèi)膜癌診療指南解讀
- 2022變壓器油枕技術(shù)培訓(xùn)
- 電力工程施工規(guī)范
- 配套課件-《中文版AutoCAD-2017基礎(chǔ)教程》
- DL∕T 1522-2016 發(fā)電機定子繞組內(nèi)冷水系統(tǒng)水流量 超聲波測量方法及評定導(dǎo)則
- 意識障礙的判斷及護理
- DZ∕T 0213-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 石灰?guī)r、水泥配料類(正式版)
評論
0/150
提交評論