《工業(yè)大數(shù)據(jù)與人工智能》 課件 第三章概述_第1頁
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第三章概述_第2頁
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第三章概述_第3頁
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第三章概述_第4頁
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第三章概述_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

工業(yè)大數(shù)據(jù)與人工智能2024年8月15日HFUT主編:汪萌1匯報人:徐娟2第三章

機器學習基礎

典型機器學習算法強化學習可信人工智能常用機器學習框架面向特定任務的機器學習深度學習3典型機器學習算法114機器學習算法基礎

5機器學習算法基礎

6線性模型

線性模型(LinearModel)是一種用來預測結果的簡單方法,它通過對屬性的線性組合來建立預測函數(shù)。

線性模型簡單易懂并有良好的可解釋性,同時包含著機器學習中重要的基本思想。它直觀地展現(xiàn)了各因素在預測過程中的影響力大小。例如若在預測設備產(chǎn)量問題中學得“

”,就可以用來預測設備在不同工作時間和年齡下的產(chǎn)量,幫助工廠進行生產(chǎn)計劃和設備維護安排。7決策樹算法決策樹通過把數(shù)據(jù)樣本分配到某個葉子結點來確定數(shù)據(jù)集中樣本所屬的分類。決策樹由決策結點、分支和葉子結點組成:1.決策結點表示在樣本的一個屬性上進行的劃分。2.分支表示對于決策結點進行劃分的輸出。3.葉結點代表經(jīng)過分支到達的類。

從決策樹根結點出發(fā),自頂向下移動,在每個決策結點都會進行次劃分,通過劃分的結果將樣本進行分類,導致不同的分支,最后到達個葉子結點,這個過程就是利用決策樹進行分類的過程。8決策樹算法

建立決策樹時,選擇哪個屬性作為分類依據(jù)是關鍵的一步。根據(jù)不同的目標函數(shù),決策樹的構建主要有以下三種算法:1.ID3(IterativeDichotomiser3):信息增益:ID3通過計算信息增益來選擇分類屬性。信息增益越大,表示這個屬性更能有效地將數(shù)據(jù)分類。傾向取值多的屬性:由于取值多的屬性更容易使數(shù)據(jù)純度更高,其信息增益也更大。但這種方式可能導致過度擬合,生成龐大但深度較淺的決策樹,這在實際應用中是不合理的。2.C4.5:信息增益率:C4.5是ID3的改進版,它使用信息增益率來選擇分類屬性,避免了ID3中偏向取值多的屬性的問題。剪枝處理:C4.5通過剪枝技術來減少樹的復雜度,避免過度擬合,使得模型更具通用性。9決策樹算法3.CART(ClassificationandRegressionTree):基尼指數(shù):CART使用基尼指數(shù)來選擇分類屬性。基尼指數(shù)越小,表示數(shù)據(jù)集的純度越高。二元分割:與ID3和C4.5不同,CART生成的決策樹每個節(jié)點都是二元分割,這意味著每次分割只會將數(shù)據(jù)集分成兩部分。分類與回歸:CART不僅可以用于分類任務,也可以用于回歸任務。它通過最小化基尼指數(shù)(或其他目標函數(shù))來選擇最佳分割點。10支持向量機

支持向量機(SupportVectorMachine,SVM)屬于有監(jiān)督學習模型,主要用于解決數(shù)據(jù)分類問題。

通常SVM用于二元分類問題,對于多元分類可將其分解為多個二元分類問題,再進行分類。SVM的主要思想:(1)支持向量機在高維或無限維空間中構造超平面或超平面集合,將原有限維空間映射到維數(shù)高得多的空間中,在該空間中進行分離可能會更容易。(2)它基于結構風險最小化理論之上在特征空間中建構最優(yōu)分割超平面,使得學習器得到全局最優(yōu)化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。11集成學習集成學習(EnsembleLearning)是一種通過結合多個學習器來完成學習任務的方法。這種方法通常能夠超越單一模型的表現(xiàn),顯著提升泛化能力。集成學習的核心理念:集合多個模型的智慧,共同優(yōu)化預測的準確度與韌性。集成學習有兩種主要類型:同質(zhì)集成和異質(zhì)集成。個體學習器通常由一個現(xiàn)有的學習算法從訓練數(shù)據(jù)產(chǎn)生,同質(zhì)集成中的個體學習器都屬于同一種類型,比如全部由決策樹或神經(jīng)網(wǎng)絡構成,這些基礎單元又被稱作“基學習器”(BaseLearner),相應的學習算法稱為“基學習算法”(BaseLearningAlgorithm)。這種集成方法的典型代表是Bagging和Boosting。異質(zhì)集成中的個體學習器則可以是不同類型的,例如既包含決策樹又包含神經(jīng)網(wǎng)絡,常稱為“組件學習器"(ComponentLearner)。這種集成方法的典型代表是隨機森林。隨機森林(RandomForest)是異質(zhì)集成的一個典型代表,展示了如何整合多種模型,實現(xiàn)更高級別的預測效能。12聚類算法

聚類算法是“無監(jiān)督學習”(UnsupervisedLearning)的重要分支,“無監(jiān)督學習"中的特點在于其處理的數(shù)據(jù)樣本并不附帶標記信息。該類算法的根本目標是將一組未被分類的數(shù)據(jù)集分割成多個子群體,這些子群體被稱為“簇”。在理想的聚類結果中,每個簇內(nèi)部的數(shù)據(jù)點表現(xiàn)出高度的相似性,而不同簇之間的數(shù)據(jù)點則呈現(xiàn)出較低的相似度,以此實現(xiàn)數(shù)據(jù)的有效分群。但是,聚類算法只是能自動形成簇結構,簇所對應的概念需對于算法來說依然是未知的,這需要使用者來命名。

K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。13維數(shù)災難維數(shù)災難(CurseofDimensionality)是指在高維空間中面臨的數(shù)據(jù)分布變得稀疏、距離計算變得困難、數(shù)據(jù)點間距離差異性減小等問題,進而影響了數(shù)據(jù)分析、模式識別、機器學習等領域的效率和準確性。降維可以緩解這些問題,降維是將高維數(shù)據(jù)轉換為低維數(shù)據(jù)的過程,同時盡可能保留數(shù)據(jù)的主要信息。常用的方法有:主成分分析(PCA):通過線性變換將數(shù)據(jù)投影到一個新的坐標系中,選擇前幾個主成分(這些主成分解釋了數(shù)據(jù)中最大方差)作為新的特征表示。線性判別分析(LDA):通過尋找能夠最大化類間差異和最小化類內(nèi)差異的投影方向來減少維度,主要用于分類問題。t-SNE和UMAP:用于非線性降維,通過將數(shù)據(jù)投影到二維或三維空間,特別適用于數(shù)據(jù)可視化。14深度學習1215神經(jīng)網(wǎng)絡

人工神經(jīng)網(wǎng)絡主要由大量的神經(jīng)元以及它們之間的有向連接構成。有三個重要影響因素:

神經(jīng)元的激活規(guī)則:主要是指神經(jīng)元輸入到輸出之間的映射關系,一般為非線性函數(shù)。

網(wǎng)絡的拓撲結構:不同神經(jīng)元之間的連接關系。

學習算法:通過訓練數(shù)據(jù)來學習神經(jīng)網(wǎng)絡的參數(shù)。

人工神經(jīng)網(wǎng)絡由神經(jīng)元模型構成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡具有并行分布結構。16卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks,CNN)是一種專門設計用于處理具有局部相關性和空間結構的數(shù)據(jù)的深度學習模型,在圖像識別、視頻分析和語音識別等領域表現(xiàn)出色。CNN的核心特點在于其利用卷積操作來提取輸入數(shù)據(jù)(如圖像)的特征,而不是傳統(tǒng)的全連接神經(jīng)網(wǎng)絡中的矩陣乘法。17循環(huán)神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡(RNN)通過使用帶自反饋的神經(jīng)元,能夠處理任意長度的序列,比前饋神經(jīng)網(wǎng)絡更加符合生物神經(jīng)網(wǎng)絡的結構,已經(jīng)被廣泛應用在語音識別、語言模型以及自然語言生成等任務上。

在RNN中,信息不僅沿著網(wǎng)絡的層級流動,而且在網(wǎng)絡的循環(huán)結構中沿時間維度傳遞,即每個時間步(Timestep)的輸出不僅取決于當前時刻的輸入,還依賴于過去時刻的狀態(tài)。

RNN的特點是其內(nèi)部包含一個循環(huán)單元,該單元在處理序列數(shù)據(jù)時能夠維持一個內(nèi)部狀態(tài)(HiddenState),并在處理序列中的每一個元素時更新這個狀態(tài)。這個狀態(tài)就像是網(wǎng)絡的記憶,能夠捕捉到先前輸入的信息,并將其用于后續(xù)時刻的計算。因此,RNN擅長于捕捉時間域上的局部和長期依賴關系,可以靈活地處理不同長度的序列數(shù)據(jù),包括處理長度可變的序列輸入。例如,RNN可以用于文本生成,其中過去的詞匯會影響接下來預測的詞匯;也可以用于語音識別,其中連續(xù)的音頻片段共同決定了最終的識別結果。18循環(huán)神經(jīng)網(wǎng)絡狀態(tài)更新:19生成對抗網(wǎng)絡生成對抗網(wǎng)絡(GenerativeAdversarialNetworks,GAN)是由IanGoodfellow等人在2014年提出的一種深度學習框架,特別適用于無監(jiān)督學習中的生成任務。GAN的基礎理念源自博弈論中的二人零和博弈概念,由兩個核心部分組成:用于根據(jù)某些輸入生成對象的生成網(wǎng)絡,以及緊接生成網(wǎng)絡的用于判斷生成對象真實與否的判別網(wǎng)絡。在訓練過程中,這兩個網(wǎng)絡形成了一種動態(tài)博弈關系,生成器的目標是生成越來越真實的樣本,以欺騙判別器;判別器則極力區(qū)分真實數(shù)據(jù)與生成器生成的偽造數(shù)據(jù)。在每一輪迭代中,會先固定生成器的參數(shù)并更新判別器的參數(shù)以提高其區(qū)分能力,然后固定判別器的參數(shù),更新生成器的參數(shù)使其生成的樣本更難被判別器識別為偽造數(shù)據(jù)。20生成對抗網(wǎng)絡21強化學習1322強化學習概念

強化學習(ReinforcementLearning)是一種機器學習方法,強化學習的基本思想是通過智能體(Agent)與環(huán)境(Environment)的交互來學習如何做出決策以達到最大化累積獎勵的目標。

獎勵函數(shù)是強化學習中的重要組成部分,它根據(jù)智能體的動作和環(huán)境的狀態(tài)給出獎勵或懲罰。動作集合描述了所有可能的動作,智能體會不斷嘗試不同的行為,并根據(jù)環(huán)境反饋的獎勵信號(RewardSignal)調(diào)整自己的行為策略。23不同強化學習算法之間的關系24可信人工智能1425可信人工智能的幾個方面人工智能的應用不斷深入改變生產(chǎn)生活,成為了信息基礎設施的重要組成部分。但在人工智能推動社會發(fā)展和提高工作效率的同時,也暴露出一些風險隱患。因此,發(fā)展可信人工智能已成當務之急。所謂可信人工智能,是指能夠在法律、倫理和社會規(guī)范框架內(nèi)運作,同時能夠贏得用戶和公眾信任的人工智能系統(tǒng),這需要抵抗多個方面的風險。安全風險:深度學習算法可能存在設計缺陷,易受外部攻擊,例如對抗樣本攻擊可以誤導模型做出錯誤的決策。隱私風險:在大規(guī)模數(shù)據(jù)驅動的人工智能應用中,數(shù)據(jù)的采集、存儲和使用過程中,如果不加以適當管理,很容易造成個人隱私的泄露。公平風險:人工智能系統(tǒng)在學習和決策過程中可能復制并放大社會偏見,導致不公平的對待某些人群??山忉岋L險:復雜的深度學習模型往往被視為“黑箱”,其決策過程難以被人理解,這不僅影響公眾對人工智能的信任,也制約了其在監(jiān)管嚴格的行業(yè)中的應用。26可信人工智能框架27面向特定任務的機器學習1528面向特定任務的機器學習

工業(yè)人工智能在現(xiàn)代工業(yè)系統(tǒng)中廣泛發(fā)揮作用,在諸多細分應用場景都有其運用,極大地提升了生產(chǎn)效率、產(chǎn)品質(zhì)量和資源利用率。參考美國國家標準與技術研究院(NIST)對智能制造的劃分標準,工業(yè)智能應用場景可以按產(chǎn)品、生產(chǎn)、商業(yè)三個維度來劃分,這三個維度指向三類問題:第一類是對產(chǎn)品庫存、成本的計算管理,這類問題機理清晰、經(jīng)驗主導、計算需求相對較低,一般用專家系統(tǒng)來解決。第二類是生產(chǎn)中的流程優(yōu)化、故障檢測,需要對數(shù)據(jù)進行統(tǒng)計分析但不需要推理,這類問題則引入機器學習技術。第三類是對市場需求、商業(yè)風險的預測推理,這類問題計算復雜度高但是其問題原理或是不同對象間的關系相對清晰,一般使用深度學習和知識圖譜技術來解決。29常用機器學習框架1130常用機器學習框架機器學習框架是用于構建、訓練、評估和部署各種機器學習模型的工具集。1.TensorFlow:特點:TensorFlow是一個開源的深度學習框架,支持從研究到生產(chǎn)的全流程。它使用數(shù)據(jù)流圖的方式來表示計算任務,可以在不同的硬件(如CPU、GPU、TPU)上高效運行。TensorFlow不僅適用于構建深度學習模型,還可以用于機器學習和數(shù)據(jù)處理任務。它擁有豐富的工具和庫,支持分布式計算、模型部署和優(yōu)化,是業(yè)界廣泛使用的框架之一。生態(tài)系統(tǒng):TensorFlow擁有龐大的生態(tài)系統(tǒng),包括Keras、TensorBoard(可視化工具)、TensorFlowLite(移動端優(yōu)化)、TensorFlowServing(模型部署)等組件,使開發(fā)者能夠快速構建、訓練、優(yōu)化和部署模型。31常用機器學習框架2.PyTorch:特點:PyTorch以動態(tài)計算圖和易用性著稱。與TensorFlow的靜態(tài)計算圖不同,PyTorch采用動態(tài)計算圖機制,使得開發(fā)者能夠更靈活地調(diào)試和調(diào)整模型。PyTorch還集成了大量的神經(jīng)網(wǎng)絡模塊,支持自動微分和GPU加速,非常適合研究人員和開發(fā)者快速進行實驗和模型迭代。應用:PyTorch在研究領域和學術界非常流行,許多前沿的深度學習研究都基于PyTorch進行開發(fā)。此外,PyTorch也逐漸在工業(yè)界獲得廣泛應用,特別是在需要快速迭代和試驗的場景中。32

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論