大數(shù)據(jù)財務(wù)分析與決策 課件 第1章 大數(shù)據(jù)財務(wù)分析與決策概述_第1頁
大數(shù)據(jù)財務(wù)分析與決策 課件 第1章 大數(shù)據(jù)財務(wù)分析與決策概述_第2頁
大數(shù)據(jù)財務(wù)分析與決策 課件 第1章 大數(shù)據(jù)財務(wù)分析與決策概述_第3頁
大數(shù)據(jù)財務(wù)分析與決策 課件 第1章 大數(shù)據(jù)財務(wù)分析與決策概述_第4頁
大數(shù)據(jù)財務(wù)分析與決策 課件 第1章 大數(shù)據(jù)財務(wù)分析與決策概述_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第1章

大數(shù)據(jù)財務(wù)分析與決策概述學(xué)校名xx老師本章內(nèi)容1.1大數(shù)據(jù)背景下的財務(wù)管理變革1.2大數(shù)據(jù)方法的體系構(gòu)建1.3機器學(xué)習(xí)技術(shù)1.4多模態(tài)數(shù)據(jù)分析1.5常用科學(xué)決策方法01大數(shù)據(jù)背景下的財務(wù)管理變革1.1大數(shù)據(jù)背景下的財務(wù)管理變革財務(wù)管理是一門涉及大量復(fù)雜數(shù)據(jù)的運算、分析和預(yù)測的學(xué)科。自從計算機技術(shù)被用于傳統(tǒng)財務(wù)管理工作的信息處理過程中以來,財務(wù)管理先后經(jīng)歷了電算化、信息化和智能化的發(fā)展階段。財務(wù)管理的定義大數(shù)據(jù)的4V特征

數(shù)據(jù)規(guī)模極其龐大,遠超傳統(tǒng)數(shù)據(jù)處理軟件的承受能力,通常以TB、PB甚至EB為單位計量。體量大(Volume)數(shù)據(jù)生成和處理的速度極高,要求具備近乎實時的響應(yīng)能力,以捕捉稍縱即逝的價值。速度快(Velocity)數(shù)據(jù)類型繁多復(fù)雜,既包含結(jié)構(gòu)化數(shù)據(jù),也涵蓋文本、音視頻及網(wǎng)絡(luò)日志等各式非結(jié)構(gòu)化數(shù)據(jù)。多樣化(Variety)數(shù)據(jù)的質(zhì)量和準(zhǔn)確性至關(guān)重要,確保數(shù)據(jù)來源的可靠性是深度分析和產(chǎn)生有價值洞察的基礎(chǔ)。真實性(Veracity)1.1大數(shù)據(jù)背景下的財務(wù)管理變革財務(wù)管理的發(fā)展階段大數(shù)據(jù)和人工智能(artificialintelligence,AI)技術(shù)的崛起助力財務(wù)管理進入了智能化階段,為財務(wù)管理的很多問題帶來了新的解決辦法。在智能化階段,財務(wù)管理的變革不再局限于流程和內(nèi)容,而是體現(xiàn)在財務(wù)管理理念和財務(wù)決策模式的創(chuàng)新。電算化階段的財務(wù)管理依托于電子數(shù)字計算機等信息技術(shù),其特點是使用關(guān)系型數(shù)據(jù)庫系統(tǒng),對會計核算中相對簡單、重復(fù)的工作進行程序設(shè)計。然而,電算化并未從本質(zhì)上改變財務(wù)管理的流程和內(nèi)容。信息化階段的財務(wù)管理以ERP(enterpriseresourceplanning,企業(yè)資源計劃)系統(tǒng)和計算機網(wǎng)絡(luò)技術(shù)的誕生為標(biāo)志。這一時期的財務(wù)管理已從單純的賬務(wù)處理過渡到財務(wù)信息的加工和處理,財務(wù)管理的流程和內(nèi)容都有了革命性的變化。信息化智能化電算化1.1大數(shù)據(jù)背景下的財務(wù)管理變革大數(shù)據(jù)和人工智能技術(shù)給財務(wù)管理帶來的影響信息是進行財務(wù)分析和決策的依據(jù)。大數(shù)據(jù)技術(shù)可以對海量數(shù)據(jù)進行處理,也可以對復(fù)雜的非結(jié)構(gòu)化信息進行量化,形成信息量大、多源異構(gòu)、高速流動、高度共享的數(shù)據(jù),為財務(wù)分析與決策提供了更為充分和及時的信息投入。1.信息搜集的全面性大數(shù)據(jù)技術(shù)可以實現(xiàn)對企業(yè)內(nèi)外部大量信息的共享獲取,而人工智能技術(shù)通過深度挖掘數(shù)據(jù)規(guī)律,能夠快速發(fā)掘潛在的風(fēng)險因素、發(fā)出預(yù)警并自動反饋處理方案,提升風(fēng)險管理的時效性。3.風(fēng)險監(jiān)控的及時性在進行具體的決策時,讓人工智能模擬經(jīng)營管理者的思維,提供不同方案下的成本、收益等信息,為決策者快速找到最合理的方案。2.決策過程的科學(xué)性日益復(fù)雜的商業(yè)環(huán)境以及大數(shù)據(jù)時代的海量信息使得財務(wù)核算、資金管理、成本管理等基礎(chǔ)性財務(wù)工作的復(fù)雜程度迅速提高,優(yōu)化人力資源配置,實現(xiàn)更高效的財務(wù)管理。4.財務(wù)管理的高效性1.1大數(shù)據(jù)背景下的財務(wù)管理變革大數(shù)據(jù)和人工智能技術(shù)給財務(wù)管理帶來的挑戰(zhàn)盡管向更為動態(tài)和前瞻的智能化財務(wù)管理轉(zhuǎn)型已成為企業(yè)的必修課,但目前許多企業(yè)的財務(wù)管理仍保留著依賴歷史財務(wù)數(shù)據(jù)和周期性財務(wù)報表的靜態(tài)管理模式,已然難以適應(yīng)快速變化的市場環(huán)境。這是因為,大數(shù)據(jù)和人工智能技術(shù)在帶給企業(yè)機遇的同時,也帶來了諸多挑戰(zhàn)。因此,智能財務(wù)轉(zhuǎn)型要求管理層具備足夠的改革決心和創(chuàng)新意識。02大數(shù)據(jù)方法的體系構(gòu)建1.2.1大數(shù)據(jù)處理流程1.2.2數(shù)據(jù)采集1.2.3數(shù)據(jù)倉儲1.2.4數(shù)據(jù)預(yù)處理1.2.5數(shù)據(jù)可視化學(xué)習(xí)目標(biāo)通過本節(jié)的學(xué)習(xí),將掌握大數(shù)據(jù)方法的體系構(gòu)建掌握數(shù)據(jù)采集掌握數(shù)據(jù)倉儲掌握數(shù)據(jù)預(yù)處理理解數(shù)據(jù)可視化1.2.1大數(shù)據(jù)處理流程流程示意圖1.2.1大數(shù)據(jù)處理流程各個流程環(huán)節(jié)之間既緊密相連:數(shù)據(jù)采集:提供基礎(chǔ)數(shù)據(jù)數(shù)據(jù)倉儲:提供數(shù)據(jù)存儲和管理的平臺數(shù)據(jù)預(yù)處理:幫助分析師直觀理解數(shù)據(jù),提供分析依據(jù)和思路數(shù)據(jù)建模分析:對數(shù)據(jù)的深度鉆取和價值提取,形成支持企業(yè)決策的關(guān)鍵性結(jié)果各個流程環(huán)節(jié)之間也存在一定的相互作用,例如:數(shù)據(jù)倉儲之前,往往需要進行數(shù)據(jù)清洗和預(yù)處理,使數(shù)據(jù)具備存儲所需的規(guī)范性數(shù)據(jù)建模分析之后,往往需要進行數(shù)據(jù)結(jié)果可視化,直觀呈現(xiàn)模型結(jié)果各個流程的關(guān)系1.2.2數(shù)據(jù)采集作為大數(shù)據(jù)處理流程的起始環(huán)節(jié),數(shù)據(jù)采集具有戰(zhàn)略意義,主要指從各種數(shù)據(jù)源中獲取大量原始數(shù)據(jù),為后續(xù)數(shù)據(jù)處理和分析奠定基礎(chǔ)。數(shù)據(jù)采集的意義數(shù)據(jù)采集的流程01明確數(shù)據(jù)需求數(shù)據(jù)的類型、范圍、時間維度等02選擇合適數(shù)據(jù)源企業(yè)內(nèi)部的數(shù)據(jù)庫、文件系統(tǒng),外部的互聯(lián)網(wǎng)、行業(yè)數(shù)據(jù)庫等03制定具體可行的采集計劃采集的方法、工具、時間安排等,常運用各種技術(shù)和工具獲取數(shù)據(jù),如網(wǎng)絡(luò)爬蟲、數(shù)據(jù)庫查詢、傳感器邊緣數(shù)據(jù)采集等04對采集到的數(shù)據(jù)進行質(zhì)量檢查確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性等,以評價數(shù)據(jù)可用性1.2.2數(shù)據(jù)采集網(wǎng)絡(luò)爬蟲可以快速、自動地從海量的數(shù)據(jù)源采集數(shù)據(jù)。具體地,它模擬人類訪問瀏覽器網(wǎng)頁鏈接(URL)的行為,按照預(yù)設(shè)的規(guī)則和算法,從網(wǎng)絡(luò)中抓取網(wǎng)頁文本、圖片、視頻等數(shù)據(jù),為企業(yè)提供豐富、全面的數(shù)據(jù)支持。一種常用的大數(shù)據(jù)采集方法:網(wǎng)絡(luò)爬蟲1.2.3數(shù)據(jù)倉儲數(shù)據(jù)倉儲是大數(shù)據(jù)處理中的關(guān)鍵環(huán)節(jié),承擔(dān)著對采集到的數(shù)據(jù)進行有效存儲和管理的重要職責(zé)。在實際應(yīng)用場景中,通常將財務(wù)報表、憑證、審計報告等存儲在本地系統(tǒng)或云空間,對數(shù)據(jù)進行分類、索引和備份,使數(shù)據(jù)的查詢和使用更加便捷和高效。數(shù)據(jù)倉儲的意義數(shù)據(jù)倉儲的流程數(shù)據(jù)管理數(shù)據(jù)的備份、恢復(fù)、權(quán)限管理等,確保數(shù)據(jù)的安全存儲與高效復(fù)用03數(shù)據(jù)清洗去除噪聲和錯誤數(shù)據(jù),確保數(shù)據(jù)的質(zhì)量01數(shù)據(jù)存儲將清洗后的數(shù)據(jù)按照一定的規(guī)則和標(biāo)準(zhǔn)進行存儲,通常采用關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫等021.2.3數(shù)據(jù)倉儲SQL是一種常用的數(shù)據(jù)庫管理語言,能對數(shù)據(jù)進行高效的增添、修改、刪除和查詢,讓數(shù)據(jù)使用者輕松地從數(shù)據(jù)庫中調(diào)取所需數(shù)據(jù),進行各種統(tǒng)計分析和報表生成。三類常用的數(shù)據(jù)庫一種常用的數(shù)據(jù)庫語法:SQL非關(guān)系型數(shù)據(jù)庫MongoDB、HBase等,具有高擴展性、高性能的特點,適用于存儲文本、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)關(guān)系型數(shù)據(jù)庫MySQL、Oracle等,具有數(shù)據(jù)結(jié)構(gòu)清晰、數(shù)據(jù)一致性強的特點,適用于存儲結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)倉庫采用分層架構(gòu),將來自多個數(shù)據(jù)源的數(shù)據(jù)整合和匯總,形成統(tǒng)一數(shù)據(jù)視圖,服務(wù)于后續(xù)對數(shù)據(jù)進行深度挖掘與深入分析1.2.3數(shù)據(jù)倉儲大數(shù)據(jù)倉儲示意圖1.2.4數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理中不可或缺的環(huán)節(jié),有效的數(shù)據(jù)預(yù)處理可以提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,為后續(xù)的數(shù)據(jù)可視化和建模分析賦予可行性。在財會審管場景中,數(shù)據(jù)預(yù)處理能夠去除數(shù)據(jù)中的噪聲和異常值,避免數(shù)據(jù)分析結(jié)果受到干擾,導(dǎo)致錯誤決策。數(shù)據(jù)預(yù)處理的意義數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理去除噪聲和異常數(shù)據(jù),常用的有刪除重復(fù)值、填充缺失值、糾正錯誤數(shù)據(jù)等。例如,在處理客戶數(shù)據(jù)時,可能會出現(xiàn)重復(fù)記錄,通過刪除重復(fù)數(shù)據(jù),可以減少數(shù)據(jù)冗余,提高數(shù)據(jù)分析效率數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換將數(shù)據(jù)從一種格式轉(zhuǎn)換為另一種格式,便于數(shù)據(jù)的計算和利用。例如,將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值數(shù)據(jù),或?qū)⒉煌瑔挝坏臄?shù)據(jù)進行統(tǒng)一轉(zhuǎn)換數(shù)據(jù)規(guī)范化將數(shù)據(jù)調(diào)整到同一尺度或范圍內(nèi),以消除數(shù)據(jù)量綱或數(shù)據(jù)偏斜的影響,常用方法包括包括標(biāo)準(zhǔn)化(使數(shù)據(jù)滿足正態(tài)分布)和歸一化(使數(shù)據(jù)映射到[0,1]范圍)數(shù)據(jù)整合將分散在不同數(shù)據(jù)源的數(shù)據(jù)進行分類匯總或橫縱向合并,形成一個完整數(shù)據(jù)集,有助于全面了解企業(yè)的財務(wù)和業(yè)務(wù)情況,為決策提供更具綜合性的信息支持1.2.4數(shù)據(jù)預(yù)處理與傳統(tǒng)的數(shù)據(jù)預(yù)處理方法相比,大數(shù)據(jù)方法在數(shù)據(jù)預(yù)處理的承載量、效率和規(guī)范程度方面存在顯著優(yōu)勢。在數(shù)據(jù)清洗方面,利用分布式計算和數(shù)據(jù)挖掘技術(shù)可以自動識別和去除噪聲和異常數(shù)據(jù);在數(shù)據(jù)轉(zhuǎn)換和整合方面,借助先進的數(shù)據(jù)集成平臺和數(shù)據(jù)治理工具能夠快速、高效且可復(fù)制地進行數(shù)據(jù)預(yù)處理,不僅減少了人工干預(yù),也提高了數(shù)據(jù)處理的效率和質(zhì)量。大數(shù)據(jù)預(yù)處理的優(yōu)勢1.2.5數(shù)據(jù)可視化數(shù)據(jù)可視化是大數(shù)據(jù)處理中的重要環(huán)節(jié),其任務(wù)主要是將經(jīng)過處理的數(shù)據(jù)轉(zhuǎn)化為易于理解的圖像和表格,以直觀、形象的方式呈現(xiàn)數(shù)據(jù)分布,助力數(shù)據(jù)使用者洞悉數(shù)據(jù)的內(nèi)涵與趨勢,挖掘數(shù)據(jù)的潛在規(guī)律和價值,為決策提供思路指引。數(shù)據(jù)可視化的重要性特征傳統(tǒng)可視化工具大數(shù)據(jù)可視化工具代表以Excel為代表以PowerBI、Python第三方包為代表流程基礎(chǔ)制圖:柱狀圖、折線圖等數(shù)據(jù)透視:單一維度篩選交互式洞察:多維度下鉆探索算法挖掘:機器學(xué)習(xí)發(fā)現(xiàn)規(guī)律實時看板:自動化監(jiān)控與預(yù)警優(yōu)點上手簡單、普及度高大規(guī)模、多維度、高效率、自動化、深度交互、智能化、支持實時決策與預(yù)警缺點信息量有限、分析能力弱、復(fù)用性差、效率低學(xué)習(xí)曲線較陡、技術(shù)門檻更高數(shù)據(jù)可視化的類別1.2.5數(shù)據(jù)可視化數(shù)據(jù)可視化示意圖(PowerBI看板)本章小節(jié)本節(jié)主要闡述了:大數(shù)據(jù)方法的體系的內(nèi)容數(shù)據(jù)采集的內(nèi)容及方法數(shù)據(jù)倉儲的內(nèi)容及方法數(shù)據(jù)預(yù)處理的內(nèi)容及方法數(shù)據(jù)可視化的內(nèi)容及方法03機器學(xué)習(xí)技術(shù)1.3.1機器學(xué)習(xí)原理1.3.2有監(jiān)督學(xué)習(xí)1.3.3無監(jiān)督學(xué)習(xí)1.3.4深度學(xué)習(xí)1.3.5時間序列預(yù)測學(xué)習(xí)目標(biāo)通過本節(jié)的學(xué)習(xí),將了解機器學(xué)習(xí)原理掌握有監(jiān)督學(xué)習(xí)類別掌握無監(jiān)督學(xué)習(xí)類別1.3.1機器學(xué)習(xí)原理機器學(xué)習(xí)(MachineLearning,ML)是人工智能學(xué)科的一個重要分支,使計算機能夠從數(shù)據(jù)中自動學(xué)習(xí)并改進算法,無需顯式編程即可完成任務(wù)。與傳統(tǒng)分析方法相比,機器學(xué)習(xí)在處理高維度、非線性關(guān)系及大規(guī)模數(shù)據(jù)集時顯示出無可比擬的優(yōu)勢。機器學(xué)習(xí)的基本原理是通過算法和模型從數(shù)據(jù)中不斷學(xué)習(xí)真正的模式。學(xué)習(xí)過程涉及算法根據(jù)訓(xùn)練數(shù)據(jù)調(diào)整自身的參數(shù),以最小化預(yù)測錯誤。一旦訓(xùn)練完成,模型就可以用來對新的、未見過的數(shù)據(jù)進行預(yù)測或決策。機器學(xué)習(xí)的定義1.3.1機器學(xué)習(xí)原理訓(xùn)練集:用于訓(xùn)練模型,讓模型學(xué)習(xí)數(shù)據(jù)中的規(guī)律和特征,是模型學(xué)習(xí)的“教材”驗證集:用于在訓(xùn)練過程中評估模型性能,幫助選擇超參數(shù)和調(diào)整模型結(jié)構(gòu),是模型調(diào)優(yōu)的“練習(xí)題”測試集:用于在模型訓(xùn)練完成后評估最終性能,反映模型對新數(shù)據(jù)的泛化能力,是模型的“期末考試”其中,訓(xùn)練集和測試集是必須的,因為無“訓(xùn)練”就無法建立模型,無“測試”就無法客觀評價其效果;而驗證集在某些情況下可以省略,例如當(dāng)不涉及超參數(shù)調(diào)優(yōu)或使用交叉驗證時,模型可以直接用訓(xùn)練集調(diào)參、用測試集評估訓(xùn)練集、驗證集和測試集1.3.1機器學(xué)習(xí)原理欠擬合和過擬合理想的機器學(xué)習(xí)應(yīng)當(dāng)盡量規(guī)避欠擬合或過擬合現(xiàn)象。為了保證模型的有效性,往往需要采用交叉驗證(將數(shù)據(jù)多次劃分為訓(xùn)練集和驗證集并重復(fù)訓(xùn)練與評估,以獲取最優(yōu)模型參數(shù))等技術(shù)來防止過擬合,并確保模型能夠很好地泛化到新的數(shù)據(jù)上。欠擬合欠擬合模型未能在訓(xùn)練數(shù)據(jù)上充分學(xué)習(xí)到數(shù)據(jù)的模式,即模型在訓(xùn)練數(shù)據(jù)上的預(yù)測性能差,這種情況通常是由于模型過于簡單或訓(xùn)練數(shù)據(jù)不夠充足所致過擬合模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)過于優(yōu)異,不僅學(xué)習(xí)了數(shù)據(jù)中的有用模式,還學(xué)習(xí)了其中的噪聲或異常,導(dǎo)致模型在新數(shù)據(jù)上的泛化能力減弱1.3.1機器學(xué)習(xí)原理機器學(xué)習(xí)的流程根據(jù)研究目的和數(shù)據(jù)特征,明確待解決的問題屬于什么類型的任務(wù),并選擇合適的模型01使用訓(xùn)練數(shù)據(jù)對選定模型進行訓(xùn)練,這是一個通過反復(fù)迭代來優(yōu)化模型參數(shù)的過程,旨在讓模型學(xué)習(xí)數(shù)據(jù)中的規(guī)律與模式02模型評估指標(biāo)的選擇也非常重要,直接影響著是否能夠?qū)δP托阅茏龀鰷?zhǔn)確的衡量,以及模型最終的優(yōu)化方向031.3.1機器學(xué)習(xí)原理機器學(xué)習(xí)的任務(wù)1.3.1機器學(xué)習(xí)原理機器學(xué)習(xí)的常用評估指標(biāo)任務(wù)類型指標(biāo)計算原理標(biāo)準(zhǔn)用途優(yōu)勢分類準(zhǔn)確率(Accuracy)模型正確預(yù)測的樣本數(shù)除以總樣本數(shù)越大越好衡量模型整體預(yù)測正確率直觀易懂,適合正負樣本比例接近的情況精確率(Precision)真正例(模型正確預(yù)測為正例的樣本數(shù))除以預(yù)測為正例的樣本數(shù)越大越好衡量模型預(yù)測正例的準(zhǔn)確性對于正例誤報成本高的場景尤為重要召回率(Recall)真正例(模型正確預(yù)測為正例的樣本數(shù))除以實際為正例的樣本數(shù)越大越好衡量模型識別正例的能力對于正例漏報成本高的場景尤為重要F1分?jǐn)?shù)精確率和召回率的調(diào)和平均值越大越好綜合評價精確率和召回率適合正負樣本不平衡的情況AUCROC曲線下的面積計算值,ROC曲線以真陽性率(即召回率)為縱軸,假陽性率(模型錯誤判斷為正例的樣本數(shù)除以實際為負例的樣本數(shù))為橫軸越大越好綜合評價模型區(qū)分正負樣本的能力分類模型最常用指標(biāo),不受閾值選擇的影響,適合比較不同模型1.3.1機器學(xué)習(xí)原理任務(wù)類型指標(biāo)計算原理標(biāo)準(zhǔn)用途優(yōu)勢回歸1減去殘差平方和與總平方和的比值越大越好衡量模型解釋的方差占總方差的比例回歸模型最常用指標(biāo),直觀反映模型擬合程度均方根誤差(MSE)預(yù)測值與真實值差值平方的平均數(shù)的平方根越小越好衡量模型預(yù)測值與實際值之間的差異程度對較大誤差敏感,適合衡量極端誤差的影響平均絕對誤差(MAE)預(yù)測值與真實值差值絕對值的平均數(shù)越小越好衡量模型預(yù)測值與實際值之間的平均差異對異常值的敏感度低,適合穩(wěn)健性要求高的場景聚類輪廓系數(shù)(SC)每個樣本與其所在簇內(nèi)其他樣本的平均距離與最近的其他簇樣本平均距離之差,再除以二者中的較大值越大越好衡量單個樣本在聚類中的匹配度同時考慮簇內(nèi)緊密度和簇間分離度Davies-Bouldin指數(shù)(DB)簇間最大相似度與簇內(nèi)最小相似度之比的平均值越小越好衡量聚類結(jié)果的緊湊性和分離性簡單易用,適合比較不同聚類結(jié)果Calinski-Harabaz指數(shù)(CH)簇間散布矩陣與簇內(nèi)散布矩陣之比越大越好衡量聚類結(jié)果的緊湊性和分離性反映聚類結(jié)果的整體質(zhì)量,適合評估不同數(shù)量的簇機器學(xué)習(xí)的常用評估指標(biāo)1.3.1機器學(xué)習(xí)原理機器學(xué)習(xí)的可視化評估工具:混淆矩陣和ROC曲線真正例(TruePositive,TP):模型正確地將正類預(yù)測為正類的數(shù)量假正例(FalsePositive,F(xiàn)P):模型錯誤地將負類預(yù)測為正類的數(shù)量真負例(TrueNegative,TN):模型正確地將負類預(yù)測為負類的數(shù)量假負例(FalseNegative,F(xiàn)N):模型錯誤地將正類預(yù)測為負類的數(shù)量1.3.1機器學(xué)習(xí)原理按照學(xué)習(xí)方式,可以將機器學(xué)習(xí)劃分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)等類型。其中,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是最基本的形式有監(jiān)督學(xué)習(xí):使用帶有標(biāo)簽(因變量)的數(shù)據(jù)來訓(xùn)練模型無監(jiān)督學(xué)習(xí):使用無標(biāo)簽的數(shù)據(jù)來訓(xùn)練模型機器學(xué)習(xí)的類別有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)1.3.1機器學(xué)習(xí)原理深度學(xué)習(xí):核心是神經(jīng)網(wǎng)絡(luò),常由輸入層、隱藏層和輸出層三種層結(jié)構(gòu)組成輸入層:負責(zé)接收和傳遞輸入數(shù)據(jù)隱藏層:通過非線性變換提取特征和學(xué)習(xí)數(shù)據(jù)模式輸出層:生成最終預(yù)測或分類結(jié)果時間序列預(yù)測:通過洞察歷史數(shù)據(jù)的規(guī)律,預(yù)測未來新的數(shù)據(jù),如存貨消耗量預(yù)測、股票收盤價預(yù)測..機器學(xué)習(xí)的類別輸入層隱藏層輸出層真實值預(yù)測值1.3.1機器學(xué)習(xí)原理強化學(xué)習(xí):一種通過與環(huán)境交互進行學(xué)習(xí)的機器學(xué)習(xí)算法?;疽兀翰呗?,獎勵,價值,環(huán)境機器學(xué)習(xí)的類別1.3.1機器學(xué)習(xí)原理機器學(xué)習(xí)的常用算法1.3.2有監(jiān)督學(xué)習(xí)基本思想:根據(jù)待分類樣本與已知類別的樣本之間的距離(如歐氏距離),將這K個樣本中多數(shù)所屬的類別作為待分類樣本的預(yù)測類別。K近鄰算法K=3時,選擇與其距離最近3個訓(xùn)練樣本作為最近鄰居,當(dāng)最近鄰居中淺藍色正方形較多時,將待預(yù)測圓形認(rèn)為和淺藍色正方形是一類,即為B類;反之亦然。1.3.2有監(jiān)督學(xué)習(xí)基本思想:根據(jù)待分類樣本與已知類別的樣本之間的距離(如歐氏距離),將這K個樣本中多數(shù)所屬的類別作為待分類樣本的預(yù)測類別。線性回歸

1.3.2有監(jiān)督學(xué)習(xí)邏輯回歸基本思想:盡管名稱中帶有“回歸”,但實際上邏輯回歸是一種分類方法,而非回歸方法,通常用于預(yù)測一個事件發(fā)生的概率。最經(jīng)典的應(yīng)用是二分類問題。

1.3.2有監(jiān)督學(xué)習(xí)支持向量機(SVM)基本思想:找到一個最優(yōu)的超平面,能夠最大程度地區(qū)分不同類別的樣本,并且使得距離超平面最近的樣本點(即支持向量)到超平面的間隔最大。高維空間低維數(shù)據(jù)投射1.3.2有監(jiān)督學(xué)習(xí)支持向量機(SVM)二維空間SVM模型三維空間SVM模型1.3.2有監(jiān)督學(xué)習(xí)基本思想:基于樹狀圖結(jié)構(gòu),對數(shù)據(jù)集中的特征進行分割,使得每個節(jié)點代表一個分類或回歸的決策規(guī)則。決策樹決策樹通過樹結(jié)構(gòu)進行分類1.3.2有監(jiān)督學(xué)習(xí)決策樹的常用標(biāo)準(zhǔn)信息增益(InformationGain):用熵(Entropy)來衡量數(shù)據(jù)的“混亂程度”,看劃分前后熵減少了多少。信息增益即減少的混亂程度,越大,分類效果越好pi?:某一類在數(shù)據(jù)中所占的比例舉例:如果全是紅球(p(紅)=1),熵=0(最有序);如果紅藍各一半,熵≈1(最混亂)劃分后要按樣本數(shù)量加權(quán)平均,比如左邊5個樣本,右邊15個,則按1:3比例算1.3.2有監(jiān)督學(xué)習(xí)決策樹的常用標(biāo)準(zhǔn)基尼系數(shù)(GiniImpurity):衡量“從當(dāng)前數(shù)據(jù)中隨機抽取兩個樣本,它們類別不同的概率”。這個概率越低,即基尼系數(shù)越小,數(shù)據(jù)越純凈,分類效果越好pi?:某一類在數(shù)據(jù)中所占的比例舉例:全是紅球→

p(紅)=1,Gini=1-12=0(最純);紅藍各一半→Gini=1-(0.52+0.52)=0.5同樣經(jīng)過特定的加權(quán)平均,取讓劃分后Gini更小的特征作為分類依據(jù)1.3.2有監(jiān)督學(xué)習(xí)決策樹預(yù)測泰坦尼克號人員生存概率1.3.2有監(jiān)督學(xué)習(xí)隨機森林基本思想:回歸或分類模型,集成學(xué)習(xí)方法,由多個決策樹組成,每個決策樹都在隨機的子樣本和隨機的特征集上進行訓(xùn)練決策樹1決策樹2決策樹n通過多個決策樹進行預(yù)測,并對結(jié)果進行投票盡管每個決策樹可能會犯不同的錯誤,但取平均時,最終得到的決策邊界卻能夠比任何單一決策樹的決策邊界都更加優(yōu)秀。1.3.2有監(jiān)督學(xué)習(xí)隨機森林1.3.2有監(jiān)督學(xué)習(xí)GBDT基本思想:同樣是集成學(xué)習(xí),由多個決策樹組成,但其每個決策樹基于前一棵樹的殘差進行迭代訓(xùn)練,通過加權(quán)累加所有樹的預(yù)測結(jié)果提升整體精度從平均值開始:模型一開始不做復(fù)雜預(yù)測,先用所有樣本的平均值作為初始猜測一步步糾錯:每一輪訓(xùn)練一棵新決策樹,專門去學(xué)習(xí)上一輪預(yù)測“錯了多少”(即殘差)每棵樹只學(xué)一點:新樹的目標(biāo)不是完全糾正錯誤,而只修正一小部分(通過學(xué)習(xí)率控制),避免學(xué)過頭多個弱樹串聯(lián)→強模型:所有樹的預(yù)測結(jié)果加起來,形成最終預(yù)測。前面的樹抓大方向,后面的樹補小細節(jié),一步步“精修”預(yù)測結(jié)果1.3.2有監(jiān)督學(xué)習(xí)XGBoost基本思想:提升式的集成學(xué)習(xí)方法,依次構(gòu)建決策樹,后一棵樹不斷修正前一棵樹的錯誤來逐步提升模型性能,能夠高效處理大規(guī)模、稀疏數(shù)據(jù)集常被譽為“機器學(xué)習(xí)競賽的勝利女神”,是一種在無頭緒時值得優(yōu)先嘗試的方法技術(shù)特點:使用一階導(dǎo)數(shù)Gj和二階導(dǎo)數(shù)Hj,共同確定最優(yōu)的樹結(jié)構(gòu)使用葉節(jié)點數(shù)量的懲罰項γ和葉節(jié)點權(quán)重的平方和的懲罰項λ,對模型的復(fù)雜度進行約束1.3.2有監(jiān)督學(xué)習(xí)LightGBM基本思想:同樣是提升式集成學(xué)習(xí)方法,采用基于直方圖的高效決策樹構(gòu)建策略,引入按葉生長和單邊梯度采樣等技術(shù),能在極短時間內(nèi)處理大規(guī)模、高維數(shù)據(jù),比XGBoost更高效按葉生長(Leaf-wiseGrowth)+直方圖加速(Histogram-based):不逐個特征遍歷找最佳分裂點,而是先把特征值離散成直方圖,再用梯度信息篩選重要樣本(GOSS),快速找到最優(yōu)分裂方向,以大幅減少計算量,實現(xiàn)高效訓(xùn)練1.3.3無監(jiān)督學(xué)習(xí)K均值聚類(K-means)基本思想:一種最常用的聚類算法,把一組數(shù)據(jù)按照相似性分成不同的組,讓同組內(nèi)的數(shù)據(jù)盡量相似,不同組間的數(shù)據(jù)盡量不同1.3.3無監(jiān)督學(xué)習(xí)K均值聚類(K-means)隨機初始化K個簇的中心點將所有數(shù)據(jù)點分到距離最近的簇,計算每個簇的平均位置將中心點移至平均位置,再將所有數(shù)據(jù)點分到距離最近的新的簇重復(fù)步驟②、③,直至形成穩(wěn)定的聚類分組實現(xiàn)過程:1.3.3無監(jiān)督學(xué)習(xí)DBSCAN基本思想:一種基于密度的聚類算法,通過識別高密度區(qū)域及其邊界將數(shù)據(jù)分組,發(fā)現(xiàn)任意形狀的簇,一定程度上自動排除噪聲點通過“密度”來發(fā)現(xiàn)數(shù)據(jù)中的簇:只要一個點周圍足夠近的范圍內(nèi)有足夠多的鄰居,它就是核心點,簇就從這里向外生長所有在一定半徑內(nèi)能被核心點連通的點都屬于同一個簇,而孤零零的點則被當(dāng)作噪聲剔除1.3.3無監(jiān)督學(xué)習(xí)分層聚類分析(HCA)基本思想:一種分層聚類算法,通過逐步合并相近的簇(或分割大簇)構(gòu)建樹狀的聚類結(jié)構(gòu),既能發(fā)現(xiàn)數(shù)據(jù)的層次關(guān)系,又能根據(jù)需要得到不同粒度的分組結(jié)果分層聚類有兩種方式:凝聚法(AGNES):自下而上,每個點先自成一簇,再逐步合并最相似的簇,最終歸為一簇,適合中小數(shù)據(jù),結(jié)果細致穩(wěn)健分裂法(DIANA):自上而下,所有點先歸為一簇,再逐步拆分差異最大的簇,適合大數(shù)據(jù),計算更快但較粗略1.3.3無監(jiān)督學(xué)習(xí)主成分分析(PCA)基本思想:一種很常用的降維算法,通過找到數(shù)據(jù)方差最大的方向,通過線性變換,將高維數(shù)據(jù)投影到低維空間,保留最主要的信息,同時減少數(shù)據(jù)的復(fù)雜度實現(xiàn)過程:將原始數(shù)據(jù)標(biāo)準(zhǔn)化計算數(shù)據(jù)的協(xié)方差矩陣,找到數(shù)據(jù)中各項特征間的線性相關(guān)性和方差求解協(xié)方差矩陣的特征值和特征向量,確定主成分的方向和重要性1.3.4深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)基本思想:通過多層線性、非線性變換來學(xué)習(xí)數(shù)據(jù)的復(fù)雜特征,最主要的求解目標(biāo)在于通過最小化損失函數(shù)來優(yōu)化模型參數(shù),使模型的預(yù)測值盡可能接近真實值示例:深度學(xué)習(xí)模型如何分辨貓和狗從輸入層傳遞到隱藏層,再到輸出層1.3.4深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)元:神經(jīng)網(wǎng)絡(luò)由多個神經(jīng)元(或稱節(jié)點)組成的層次結(jié)構(gòu)構(gòu)成,每個神經(jīng)元接收輸入并產(chǎn)生輸出,神經(jīng)元之間通過權(quán)重連接進行信息傳遞神經(jīng)網(wǎng)絡(luò)中,每個神經(jīng)元進行線性、非線性轉(zhuǎn)換1.3.4深度學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)基本原理:一種多層神經(jīng)網(wǎng)絡(luò)模型,通過前向傳播計算預(yù)測結(jié)果,再利用反向傳播根據(jù)誤差逐層調(diào)整權(quán)重,實現(xiàn)對復(fù)雜非線性關(guān)系的學(xué)習(xí)28*28=784頭部形狀四肢形狀尾巴形狀……是狗1.3.4深度學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)基本原理:一種專門處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),通過在前向傳播中保留上一時刻的隱藏狀態(tài),來實現(xiàn)對時間序列或文本等有序信息的記憶與動態(tài)建模循環(huán)神經(jīng)網(wǎng)絡(luò)的亮點在于有長期記憶力,但容易出現(xiàn)梯度消失或梯度爆炸問題,即在反向傳播過程中,這些梯度的連乘導(dǎo)致梯度值急劇增大,變得非常大,甚至超過計算機能表示的范圍,致使模型參數(shù)更新失控,訓(xùn)練無法收斂1.3.4深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)基本原理:一種專門處理網(wǎng)格狀數(shù)據(jù)(如圖像)的神經(jīng)網(wǎng)絡(luò),通過卷積層自動提取局部特征,再結(jié)合池化降低數(shù)據(jù)維度,最終實現(xiàn)對圖像等數(shù)據(jù)的高效識別與分類關(guān)鍵概念:卷積層:通過滑動小濾波器(卷積核)掃描圖像,自動提取邊緣、紋理等局部特征。池化層:對特征圖進行下采樣(如取最大值或平均值),減小數(shù)據(jù)量,并保留主要信息,增強模型魯棒性。全連接層:將前層提取的特征展平后,連接所有神經(jīng)元,用于整合信息并輸出最終結(jié)果(如分類概率)。1.3.4深度學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)基本原理:一種專門處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),通過聚合節(jié)點的鄰居信息來學(xué)習(xí)節(jié)點或整個圖的表示,從而捕捉實體之間的復(fù)雜關(guān)系節(jié)點之間通過邊進行信息交換,再通過聚合函數(shù)(如求和、平均值或最大值)整合來自不同節(jié)點信息1.3.5時間序列預(yù)測ARIMA基本原理:一種廣泛應(yīng)用于時間序列分析的機器學(xué)習(xí)算法,能夠同時處理時間序列中的趨勢、季節(jié)性和隨機波動ARIMA=AR(自回歸)+I(差分)+MA(滑動平均)其中,AR(p):利用過去p個時間點的數(shù)據(jù)值來預(yù)測當(dāng)前時間點的數(shù)據(jù)I(d):消除時間序列中的趨勢和季節(jié)性成分MA(q):利用過去q個時間點的誤差項來預(yù)測當(dāng)前時間點的數(shù)據(jù)1.3.5時間序列預(yù)測LSTM基本原理:一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),引入了記憶單元(即細胞狀態(tài))和門控機制,專門用于處理和預(yù)測時間序列數(shù)據(jù)中的長期依賴關(guān)系和非線性模式,還可以處理多維輸入數(shù)據(jù)其中,細胞狀態(tài):LSTM的核心,用于長時間存儲網(wǎng)絡(luò)信息,信息傳遞的主線,由各門控單元控制其流動與更新門控機制:第一關(guān):遺忘門,決定前一時刻細胞狀態(tài)保留比例第二關(guān):輸入門,決定新信息的寫入強度第三關(guān):輸出門,生成新的隱藏狀態(tài)和輸出結(jié)果1.3.5時間序列預(yù)測GRU基本原理:一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),通過重置門和更新門,直接在隱藏狀態(tài)中控制信息的保留與更新,簡化了LSTM的門控結(jié)構(gòu),既有效捕捉長期依賴關(guān)系,又具有較高的計算效率

04多模態(tài)數(shù)據(jù)分析1.4.1多模態(tài)數(shù)據(jù)介紹1.4.2自然語言處理(NLP)1.4.3計算機視覺(CV)學(xué)習(xí)目標(biāo)通過本節(jié)的學(xué)習(xí),將掌握多模態(tài)數(shù)據(jù)的內(nèi)容及種類掌握自然語言處理的常用方法掌握計算機視覺的常用方法1.4.1多模態(tài)數(shù)據(jù)介紹多模態(tài)數(shù)據(jù)的定義多模態(tài)數(shù)據(jù)是指包含多種信息表現(xiàn)形式或類型的數(shù)據(jù),例如文本、圖像、音頻和視頻等。示例:文本+圖像的多模態(tài)深度學(xué)習(xí)模型CLIP1.4.1多模態(tài)數(shù)據(jù)介紹多模態(tài)數(shù)據(jù)的形式數(shù)據(jù)類型數(shù)據(jù)內(nèi)容主流技術(shù)技術(shù)應(yīng)用文本數(shù)據(jù)年報附注,招股說明書,分析師報告,政策文件、社交媒體評論等自然語言處理(NLP),如情感分析、主題建模、實體識別等輿情監(jiān)控、風(fēng)險預(yù)警、智能審計等圖像數(shù)據(jù)財務(wù)圖表、資產(chǎn)照片等計算機視覺(CV),如OCR、圖像識別、邊緣檢測等自動讀取報表、資產(chǎn)管理、庫存盤點等音頻數(shù)據(jù)電話錄音、會議音頻等語音識別、聲紋識別、語音轉(zhuǎn)文本等客服自動化、會議摘要、情緒分析等視頻數(shù)據(jù)監(jiān)控錄像、視頻報告等視頻分析、智能監(jiān)控、多模態(tài)融合等內(nèi)部控制、欺詐防范、投資者溝通等1.4.2自然語言處理自然語言處理(NaturalLanguageProcessing,NLP):一個包絡(luò)了語言學(xué)、計算機科學(xué)、人工智能等諸多學(xué)科的技術(shù)領(lǐng)域,旨在讓計算機能夠處理、理解和生成人類語言?,F(xiàn)階段在財會審管領(lǐng)域應(yīng)用最為廣泛和成熟文本預(yù)處理:在進行文本分析前,通常還需要對文本數(shù)據(jù)進行一系列文本預(yù)處理步驟,包括文本清洗、分詞、去除停用詞、詞干提取和詞形還原等,旨在消除文本噪聲、規(guī)范文本格式文本分析任務(wù):情感分析、主題分析、命名實體識別和句法依存分析等自然語言處理的定義1.4.2自然語言處理步驟核心目標(biāo)方法與原理主要作用常用工具分詞將連續(xù)的文本切分成獨立的詞匯單元(Token)方法1:基于規(guī)則,使用預(yù)定義詞典和規(guī)則方法2:基于模型,訓(xùn)練模型學(xué)習(xí)分詞邊界NLP處理的基礎(chǔ),為后續(xù)分析提供基本單位jieba

(中文),NLTK,spaCy詞性標(biāo)注為每個詞匯單元賦予其對應(yīng)的詞性標(biāo)簽(如名詞、動詞)使用統(tǒng)計模型(如HMM,CRF)基于已標(biāo)注的語料庫進行訓(xùn)練,學(xué)習(xí)詞性規(guī)律理解句子的語法結(jié)構(gòu),為句法分析和語義理解提供支持jieba

(中文),NLTK,spaCy詞頻統(tǒng)計統(tǒng)計各個詞匯在文本中出現(xiàn)的次數(shù)遍歷文本,使用字典(哈希表)進行計數(shù),構(gòu)建詞頻字典快速識別文本中的高頻詞和低頻詞,初步把握文本主題和關(guān)鍵信息Python基礎(chǔ)編程(collections.Counter等第三方庫)TF-IDF評估一個詞匯在特定文檔和整個語料庫中的重要性TF(詞頻)×IDF(逆文檔頻率)。高TF和高IDF意味著該詞在本文檔中重要且獨特提取代表文檔主題的關(guān)鍵詞,超越簡單的詞頻,用于信息檢索和文本分類Scikit-learn庫(TfidfVectorizer)詞向量(Word2Vec)將詞匯映射到高維度的數(shù)值向量,使其能夠被計算機處理使用淺層神經(jīng)網(wǎng)絡(luò)模型(CBOW/Skip-gram)學(xué)習(xí)詞匯的上下文關(guān)系捕捉詞匯間的語義關(guān)系(如相似、類比),讓模型理解詞匯的深層含義Gensim文本預(yù)處理的技術(shù)1.4.2自然語言處理TF-IDF(TermFrequency-InverseDocumentFrequency)核心思想:如果一個詞在當(dāng)前文檔中頻繁出現(xiàn)(TF高),但在其他文檔中很少出現(xiàn)(IDF高),那么這個詞對當(dāng)前文檔就非常重要,很可能是該文檔的關(guān)鍵詞

1.4.2自然語言處理詞向量(Word2Vec)核心思想:一個詞的語義由其上下文決定(DistributionalHypothesis)。通過淺層神經(jīng)網(wǎng)絡(luò)訓(xùn)練,Word2Vec能初步捕捉詞語間的語義關(guān)系(如“國王-男人+女人≈王后”)兩種可選模型:CBOW:通過上下文的多個詞來預(yù)測中間的目標(biāo)詞,適合學(xué)習(xí)常見詞匯的穩(wěn)定表示,訓(xùn)練速度快,對小數(shù)據(jù)集友好Skip-gram:通過一個目標(biāo)詞來預(yù)測其周圍的上下文詞,更擅長捕捉稀有詞的語義關(guān)系,學(xué)習(xí)到的向量更具區(qū)分性,但計算開銷較大1.4.2自然語言處理情感分析核心思想:對文本中的情感傾向進行分析和判斷,既可以將文本情感劃分為積極、消極和中性這三類基本情感,也可以將文本情感進一步劃分為樂、好、怒、哀、懼、惡、驚這七大類情感和快樂、相信、失望、恐懼等二十小類情感常見方法:基于詞典的方法:哈工大詞典、HowNet等基于調(diào)包的方法:Python的SnowNLP庫等機器學(xué)習(xí)方法:支持向量機(SVM)、隨機森林、深度學(xué)習(xí)(RNN、LSTM..)將文檔分成三類情感1.4.2自然語言處理LDA:一種經(jīng)典的主題分析方法,屬于無監(jiān)督學(xué)習(xí),假設(shè)文本數(shù)據(jù)由多個主題混合而成,每個主題分別服從不同的狄利克雷分布,通過最大似然估計(MLE)來自動計算“文檔-主題”和“主題-詞匯”兩種概率分布主題分析文本集合主題模型主題-詞匯分布文檔-主題分布1.4.2自然語言處理命名實體識別核心思想:從文本中識別出命名實體的過程,即識別人名(PER)、地名(LOC)、組織名(ORG)、時間(TIME)、日期(DATE)等具有特定意義的實體等具有特定意義的實體常用方法:規(guī)則提取;機器學(xué)習(xí)(條件隨機場CRF、最大熵模型MaxEnt);深度學(xué)習(xí)(BiLSTM+CRF、Transformer)1.4.2自然語言處理句法依存分析核心思想:對文本中的句子進行句法分析,確定句子中各個詞語在語法結(jié)構(gòu)上的聯(lián)系,如主謂關(guān)系、動賓關(guān)系、并列關(guān)系、從屬關(guān)系等,這些關(guān)系可以通過句法依存樹(DependencyTree)來直觀呈現(xiàn)常用方法:規(guī)則提取、機器學(xué)習(xí)、深度學(xué)習(xí)(RNN變體)計算機視覺(ComputerVision,CV):一門研究如何讓計算機“看懂”世界的科學(xué),主要涉及對圖像和視頻等視覺信息的處理、理解和生成,幫助計算機高效識別和解析圖像中復(fù)雜特征,如紋理、形狀、顏色和畫面結(jié)構(gòu)等,從中提取出深層次的信息和知識圖像預(yù)處理:在進行圖像分析前,通常也需進行一系列預(yù)處理操作,如圖像讀取、數(shù)據(jù)增強、圖像規(guī)范化、特征提取等文本分析任務(wù):圖像分類、目標(biāo)檢測、語義分割等1.4.3計算機視覺(CV)計算機視覺的定義1.4.3計算機視覺(CV)圖像預(yù)處理的技術(shù)步驟核心目標(biāo)方法與原理主要作用常用工具/技術(shù)圖像讀取將圖像文件加載到內(nèi)存,并轉(zhuǎn)換為計算機可處理的像素矩陣將圖像文件解析為多維數(shù)組(如RGB三通道),像素值通常為0-255所有圖像處理的

起點,為后續(xù)分析提供原始數(shù)據(jù)OpenCV、Pillow(PIL)數(shù)據(jù)增強在不引入新圖像的情況下,擴充訓(xùn)練數(shù)據(jù)集

的數(shù)量和多樣性通過幾何變換(翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪)或像素變換(加噪聲、調(diào)亮度)生成新樣本提升模型的

泛化能力

魯棒性,有效防止過擬合PyTorch(torchvision)、TensorFlow(Keras)圖像規(guī)范化將像素值調(diào)整到統(tǒng)一的范圍或分布,以消除尺度差異歸一化

(Normalization):將像素值映射到[0,1]區(qū)間標(biāo)準(zhǔn)化

(Standardization):使像素值滿足均值為0,標(biāo)準(zhǔn)差為1的分布消除

因光照、設(shè)備差異帶來的影響,加速模型收斂OpenCV、Numpy特征提取從原始像素中提煉出有代表性、可區(qū)分的信息(特征)傳統(tǒng)方法:SIFT,HOG等人工設(shè)計的特征算子深度學(xué)習(xí):使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)自動學(xué)習(xí)從低級到高級的層次化特征將圖像轉(zhuǎn)換為

模型易于理解

的緊湊表示,是圖像分類、目標(biāo)檢測等任務(wù)的

核心基礎(chǔ)OpenCV(傳統(tǒng))、PyTorch,

TensorFlow(深度學(xué)習(xí))1.4.3計算機視覺(CV)數(shù)據(jù)增強的常用方法1.4.3計算機視覺(CV)圖像分類核心思想:根據(jù)圖像特征對不同類別的圖像進行區(qū)分,將給定的圖像分配到一個或多個預(yù)定義的類別中,通常是確定圖像整體內(nèi)容的所屬類別,例如判斷一張圖像是否屬于某種動物、植物或交通工具的圖像常用方法:卷積神經(jīng)網(wǎng)絡(luò)(CNN)1.4.3計算機視覺(CV)目標(biāo)檢測核心思想:在圖像中確定特定目標(biāo)的位置,以邊界框的形式來表示目標(biāo)所處的范圍,不僅要識別出圖像中存在哪些目標(biāo)物體,還要計算出每個目標(biāo)物體在圖像中的具體坐標(biāo)區(qū)間常用方法:基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)1.4.3計算機視覺(CV)語義分割核心思想:將圖像中的每個像素分配到特定類別中,實現(xiàn)像素級的分類,既能描繪每類物體在圖像中的具體位置和形態(tài)輪廓,還能夠區(qū)分圖像中的主體與客體、前景與背景等板塊,有助于在不同語義情境下給各個板塊分配不同的重要性常用方法:全卷積神經(jīng)網(wǎng)絡(luò)(FCN)1.4.3計算機視覺(CV)視頻分析1視頻情感分析從視頻中提取情感信息,判斷視頻所傳達的情感傾向,如積極、消極或中性。這項任務(wù)不僅識別人物的面部表情,還綜合考慮人物動作、畫面色彩、場景氛圍和背景音樂等多源信息。常用技術(shù):注意力機制(Attention)2視頻內(nèi)容解析對視頻中的各種元素及構(gòu)成的情節(jié)進行識別與理解,包括人物、物體、場景、動作和事件等。這項任務(wù)旨在從視頻這種非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化信息,以便進一步分析和應(yīng)用。常用技術(shù):3D-CNN、R-CNN、YOLO等視頻面部表情識別05常用科學(xué)決策方法1.5.1風(fēng)險決策方法1.5.2多屬性決策方法學(xué)習(xí)目標(biāo)通過本節(jié)的學(xué)習(xí),將掌握風(fēng)險決策方法掌握多屬性決策方法1.5.1風(fēng)險決策方法決策即個體為了實現(xiàn)特定目標(biāo),在充分掌握信息并對相關(guān)情況進行全面分析的基礎(chǔ)上,運用科學(xué)方法制定和評估各種方案,并最終篩選出最優(yōu)方案的過程。本節(jié)內(nèi)容主要聚焦于介紹在面臨風(fēng)險決策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論