金融監(jiān)管科技 課件 第5、6章 云計(jì)算技術(shù)、人工智能技術(shù)_第1頁
金融監(jiān)管科技 課件 第5、6章 云計(jì)算技術(shù)、人工智能技術(shù)_第2頁
金融監(jiān)管科技 課件 第5、6章 云計(jì)算技術(shù)、人工智能技術(shù)_第3頁
金融監(jiān)管科技 課件 第5、6章 云計(jì)算技術(shù)、人工智能技術(shù)_第4頁
金融監(jiān)管科技 課件 第5、6章 云計(jì)算技術(shù)、人工智能技術(shù)_第5頁
已閱讀5頁,還剩122頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章

云計(jì)算技術(shù)Outline云計(jì)算技術(shù)概述云計(jì)算的關(guān)鍵技術(shù)云計(jì)算技術(shù)與金融監(jiān)管2云計(jì)算技術(shù)概述011.1云計(jì)算技術(shù)的概念云計(jì)算是一種按需提供計(jì)算資源(服務(wù)器、存儲(chǔ)、數(shù)據(jù)庫、網(wǎng)絡(luò)、軟件等)的服務(wù)模式,用戶通過互聯(lián)網(wǎng)靈活訪問,并按實(shí)際使用量付費(fèi)。按需服務(wù)彈性伸縮成本優(yōu)化用戶可根據(jù)需求靈活獲取計(jì)算資源,無需大量前期投資按量付費(fèi)模式,有效降低IT基礎(chǔ)設(shè)施成本資源可快速部署和調(diào)整,適應(yīng)業(yè)務(wù)變化需求優(yōu)點(diǎn):為金融監(jiān)管帶來的價(jià)值靈活性可靠性低成本41.2云計(jì)算技術(shù)的發(fā)展歷史1961JohnMcCarthy提出云計(jì)算構(gòu)想1998VMware成立虛擬化技術(shù)突破2005亞馬遜推出商業(yè)化云服務(wù)2006Google推廣云計(jì)算概念今天5G時(shí)代數(shù)字基礎(chǔ)設(shè)施云計(jì)算的崛起是數(shù)十年計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)技術(shù)不斷積累的必然結(jié)果,如今已成為數(shù)字時(shí)代不可或缺的基礎(chǔ)設(shè)施。2007IBM明確定義云計(jì)算51.3云計(jì)算技術(shù)在中國金融監(jiān)管領(lǐng)域的應(yīng)用歷史2015國務(wù)院發(fā)布《關(guān)于促進(jìn)云計(jì)算創(chuàng)新發(fā)展培育信息產(chǎn)業(yè)新業(yè)態(tài)的意見》

明確支持金融行業(yè)在云計(jì)算應(yīng)用模式下健康發(fā)展2017中國人民銀行發(fā)布《金融業(yè)信息技術(shù)"十三五"發(fā)展規(guī)劃》

提出穩(wěn)步推進(jìn)金融業(yè)云計(jì)算技術(shù)應(yīng)用研究,制定相關(guān)標(biāo)準(zhǔn)2018云計(jì)算技術(shù)金融應(yīng)用規(guī)范正式發(fā)布

包含"技術(shù)架構(gòu)"、"安全技術(shù)要求"和"容災(zāi)"三項(xiàng)金融行業(yè)標(biāo)準(zhǔn)政策引導(dǎo)為金融行業(yè)云計(jì)算應(yīng)用提供了堅(jiān)實(shí)的制度保障金融云計(jì)算政策演進(jìn)61.3云計(jì)算技術(shù)在中國金融監(jiān)管領(lǐng)域的應(yīng)用歷史2000年初,金融機(jī)構(gòu)開始探索虛擬化技術(shù),旨在提升數(shù)據(jù)中心的運(yùn)作效率和靈活性

單個(gè)物理服務(wù)器運(yùn)行多個(gè)虛擬機(jī),各虛擬機(jī)獨(dú)立運(yùn)行不同操作系統(tǒng)和應(yīng)用程序。顯著提升服務(wù)器利用率降低能源消耗簡化IT基礎(chǔ)設(shè)施管理提升數(shù)據(jù)中心運(yùn)作效率和靈活性虛擬化技術(shù)的成熟為云計(jì)算的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)公有云:

按需付費(fèi)模式,降低初始投資成本,

支持非核心業(yè)務(wù)發(fā)展私有云:

處理敏感數(shù)據(jù),滿足金融監(jiān)管合規(guī)要求混合云:

結(jié)合兩者優(yōu)勢,提供全面靈活的解決方案通過互聯(lián)網(wǎng)訪問遠(yuǎn)程數(shù)據(jù)中心資源根據(jù)業(yè)務(wù)需求快速調(diào)整IT資源規(guī)模實(shí)現(xiàn)成本效益與運(yùn)營效率最大化技術(shù)演進(jìn):從虛擬化到云計(jì)算71.3云計(jì)算技術(shù)在中國金融監(jiān)管領(lǐng)域的應(yīng)用歷史云原生技術(shù)興起與國內(nèi)金融行業(yè)探索容器化與微服務(wù)架構(gòu)普及,提升金融服務(wù)敏捷性服務(wù)以更小、更靈活的組件運(yùn)行Kubernetes等容器編排工具推動(dòng)行業(yè)廣泛應(yīng)用加快新服務(wù)部署速度,增強(qiáng)市場響應(yīng)能力四大銀行數(shù)據(jù)大集中工作民生銀行大數(shù)據(jù)平臺(tái)建設(shè)大連銀行"云服務(wù)"五年計(jì)劃國內(nèi)典型實(shí)踐案例云計(jì)算與大數(shù)據(jù)技術(shù)已成為推動(dòng)金融服務(wù)創(chuàng)新、提升效率、降低成本、增強(qiáng)數(shù)據(jù)安全的重要力量技術(shù)演進(jìn):從虛擬化到云計(jì)算8云計(jì)算的關(guān)鍵技術(shù)02從MapReduce到Flink的技術(shù)演進(jìn)2.1分布式計(jì)算框架原理將復(fù)雜、需要巨大計(jì)算力的問題分解為多個(gè)小子問題子問題分配給多臺(tái)獨(dú)立計(jì)算機(jī)并行處理匯總各計(jì)算機(jī)結(jié)果,得出最終答案

批處理,Map/Reduce兩階段MapReduceTezSparkFlink支持DAG,流程更靈活內(nèi)存計(jì)算,支持流處理批流一體,低延遲高可靠解決單機(jī)無法承載的龐大計(jì)算挑戰(zhàn)10第一代·MapReduce2.1分布式計(jì)算框架Map階段:將輸入數(shù)據(jù)分片,并發(fā)處理Reduce階段:對(duì)中間結(jié)果合并、排序,輸出最終結(jié)果優(yōu)點(diǎn):支持多語言(Java、Python、C++)可用廉價(jià)商用服務(wù)器構(gòu)建用于大規(guī)模數(shù)據(jù)集(特別是非結(jié)構(gòu)化數(shù)據(jù))的并行處理任務(wù)分解為兩個(gè)主要步驟:Map和Reduce局限:中間結(jié)果必須寫磁盤,IO開銷大不支持實(shí)時(shí)計(jì)算、流處理、有向無環(huán)圖(DAG)11MapReduce運(yùn)行架構(gòu)2.1分布式計(jì)算框架AM:負(fù)責(zé)所有MR任務(wù)的提交、啟動(dòng)和監(jiān)控。Schedule:將系統(tǒng)資源分配給MR任務(wù)ResourceManager:調(diào)度節(jié)點(diǎn)MRAppMaster:負(fù)責(zé)一個(gè)MR任務(wù)的調(diào)度和協(xié)調(diào);MapTask:在一個(gè)數(shù)據(jù)分片上執(zhí)行Map任務(wù);ReduceTask:執(zhí)行Reduce任務(wù)。NodeManager:執(zhí)行節(jié)點(diǎn)12MapReduce的任務(wù)運(yùn)行2.1分布式計(jì)算框架步驟1:將輸入數(shù)據(jù)按key值分割為多個(gè)分片。步驟2:對(duì)每個(gè)分片執(zhí)行map方法,處理數(shù)據(jù),并輸出結(jié)果。Map階段步驟1:將map輸出結(jié)果按key值分區(qū)。步驟2:對(duì)分區(qū)數(shù)據(jù)按key值排序。步驟3:對(duì)數(shù)據(jù)分組,相同key值的數(shù)據(jù)放入一個(gè)集合中。Shuffle階段步驟1:將Shuffle的結(jié)果執(zhí)行reduce方法。步驟2:reduce的結(jié)果寫入外部存儲(chǔ)。Reduce階段13第二代·Tez2.1分布式計(jì)算框架局限:未引入內(nèi)存計(jì)算,性能提升有限缺乏流計(jì)算、圖計(jì)算、機(jī)器學(xué)習(xí)支持應(yīng)用場景有限,未廣泛普及優(yōu)點(diǎn):支持DAG,可定義復(fù)雜數(shù)據(jù)處理流程允許多個(gè)Map和Reduce階段支持動(dòng)態(tài)修改執(zhí)行計(jì)劃14第二代·Tez2.1分布式計(jì)算框架Tez完整流程Client解析查詢語句生成執(zhí)行計(jì)劃構(gòu)建DAG并提交ResourceManager接收應(yīng)用請(qǐng)求分配容器資源啟動(dòng)TezAM調(diào)度中心解析DAG依賴調(diào)度Vertex執(zhí)行監(jiān)控任務(wù)狀態(tài)Container讀取輸入數(shù)據(jù)執(zhí)行處理邏輯傳輸中間結(jié)果Output寫入HDFS釋放容器資源通知客戶端完成客戶端YARNTezAMTask執(zhí)行輸出結(jié)果Tez支持容器復(fù)用,中間數(shù)據(jù)可內(nèi)存?zhèn)鬟f,與相比MapReduce顯著提升性能15第三代·Spark2.1分布式計(jì)算框架核心優(yōu)勢:基于彈性分布式數(shù)據(jù)集的內(nèi)存計(jì)算能力比MapReduce快10-100倍,尤其是在需要頻繁進(jìn)行讀寫操作的場景中。生態(tài)圈子項(xiàng)目:SparkCore—核心功能SparkSQL—結(jié)構(gòu)化數(shù)據(jù)處理SparkStreaming—流式計(jì)算MLlib—機(jī)器學(xué)習(xí)GraphX—圖計(jì)算專為處理大規(guī)模數(shù)據(jù)集而設(shè)計(jì)支持語言:Scala、Java、Python、R16Spark的數(shù)據(jù)抽象2.1分布式計(jì)算框架1.外部持續(xù)輸入的數(shù)據(jù)流按時(shí)間間隔切割為片段;

2.數(shù)據(jù)片段封裝映射為內(nèi)存中的RDD;3.以RDD為單位通過算子處理數(shù)據(jù);4.批流一體:當(dāng)時(shí)間間隔較大時(shí)可視為批處理,當(dāng)時(shí)間間隔低于1秒時(shí)可視為準(zhǔn)實(shí)時(shí)處理。17SparkVsMapReduce2.1分布式計(jì)算框架SparkMapReduce適用場景迭代計(jì)算、交互式計(jì)算、流計(jì)算數(shù)據(jù)批處理編程方式RDD組成DAG,API較為頂層,適用方便Map+Reduce,API較為底層,使用較復(fù)雜數(shù)據(jù)存儲(chǔ)方法中間結(jié)果存儲(chǔ)在內(nèi)存,計(jì)算延時(shí)小中間結(jié)果存儲(chǔ)在磁盤,計(jì)算延時(shí)大任務(wù)運(yùn)行方式以線程方式運(yùn)行

,啟動(dòng)快以進(jìn)程方式運(yùn)行,啟動(dòng)慢硬件需求要求服務(wù)器配置高內(nèi)存,成本較高對(duì)服務(wù)器配置要求低,成本較低18第四代·Flink2.1分布式計(jì)算框架高吞吐、低延遲、高性能流處理靈活的窗口操作強(qiáng)大的數(shù)據(jù)容錯(cuò)機(jī)制為流式數(shù)據(jù)處理和事件驅(qū)動(dòng)應(yīng)用而設(shè)計(jì)的分布式計(jì)算框架典型應(yīng)用:

金融監(jiān)管物聯(lián)網(wǎng)實(shí)時(shí)推薦系統(tǒng)批處理視為流計(jì)算的特例,真正實(shí)現(xiàn)"批流一體"19Flink的任務(wù)執(zhí)行流程2.1分布式計(jì)算框架1.根據(jù)程序代碼自動(dòng)生成DAG(有向無環(huán)圖)。2.ActorSystem將DAG發(fā)送給JobManager。3.JobManager在TaskManager上調(diào)度執(zhí)行Task。4.JobManager與TaskManager保持通信,獲取心跳、狀態(tài)和結(jié)果。5.Task之間也保持通信,傳輸數(shù)據(jù)。20Flink的數(shù)據(jù)流2.1分布式計(jì)算框架1.Flink程序在執(zhí)行時(shí),被映射為一個(gè)數(shù)據(jù)流(StreamingDataflow)。2.數(shù)據(jù)流的起始節(jié)點(diǎn)是一個(gè)或多個(gè)Source,從Source持續(xù)接收外部數(shù)據(jù)(例如kafka),中間經(jīng)由多個(gè)TransformationOperator處理,結(jié)束于一個(gè)或多個(gè)Sink,Sink將結(jié)果輸出到外部系統(tǒng)(例如es)。3.Flink程序是并行和分布式執(zhí)行的,無論Source、Operator或Sink都可以在多個(gè)節(jié)點(diǎn)上并行執(zhí)行。211.2數(shù)據(jù)與算力、算法的關(guān)系2.2分布式文件系統(tǒng)云計(jì)算環(huán)境下的金融數(shù)據(jù)存儲(chǔ)技術(shù)將數(shù)據(jù)分散存儲(chǔ)在多個(gè)物理位置提高數(shù)據(jù)冗余性和訪問速度三種常見技術(shù):HDFS、GFS、GlusterFS分布式數(shù)據(jù)存儲(chǔ)技術(shù)是確保金融數(shù)據(jù)高可用、高可靠和經(jīng)濟(jì)性的關(guān)鍵分布式文件系統(tǒng)的核心特性高可用性:任一節(jié)點(diǎn)故障不影響整體服務(wù)容錯(cuò)機(jī)制:多副本存儲(chǔ),自動(dòng)故障恢復(fù)彈性擴(kuò)展:按需增加存儲(chǔ)節(jié)點(diǎn),線性擴(kuò)容負(fù)載均衡:智能分配讀寫請(qǐng)求,優(yōu)化性能金融領(lǐng)域應(yīng)用價(jià)值為金融監(jiān)管提供

強(qiáng)大數(shù)據(jù)支持靈活高效處理和

存儲(chǔ)海量金融交易數(shù)據(jù)確保數(shù)據(jù)安全性和合規(guī)性22Hadoop分布式文件系統(tǒng)(HDFS)2.2分布式文件系統(tǒng)Hadoop項(xiàng)目核心組件適用于TB級(jí)、PB級(jí)海量數(shù)據(jù)存儲(chǔ)特點(diǎn):多臺(tái)計(jì)算機(jī)存儲(chǔ),統(tǒng)一訪問接口,像訪問普通文件系統(tǒng)一樣使用架構(gòu)類型:主/從(Master/Slave)體系HDFS的體系結(jié)構(gòu)圖NameNode:管理文件系統(tǒng)元數(shù)據(jù)

及數(shù)據(jù)塊信息DataNode:管理用戶文件數(shù)據(jù)塊,支持多副本存儲(chǔ)SecondaryNameNode:監(jiān)控HDFS狀態(tài),定期獲取元數(shù)據(jù)快照備份23HDFS的特性2.2分布式文件系統(tǒng)主從架構(gòu):管理節(jié)點(diǎn)(NameNode)和數(shù)據(jù)節(jié)點(diǎn)(DataNode)共同完成分布式文件的讀寫服務(wù)。NameNode存儲(chǔ)文件的元數(shù)據(jù)(包括命名空間和分塊位置信息),DataNode存儲(chǔ)文件的分塊。分塊存儲(chǔ):文件內(nèi)容以塊(block)為單位,物理上是分布式存儲(chǔ),即一個(gè)文件的多個(gè)塊可能分布于多個(gè)物理服務(wù)器的磁盤上,而非連續(xù)分布。命名空間:支持層次性文件組織結(jié)構(gòu),類似文件目錄,文件的塊可存儲(chǔ)于目錄下。多副本機(jī)制:文件的每個(gè)塊都以多副本方式存儲(chǔ),并且通常存儲(chǔ)于不同機(jī)架、不同網(wǎng)段、不同機(jī)房的物理服務(wù)器上,以增強(qiáng)冗余性。一次寫入,多次讀出:HDFS適用于數(shù)據(jù)一次寫入,多次讀出的場景,數(shù)據(jù)批量寫入后,不支持修改,這是它與文件隨機(jī)讀寫系統(tǒng)的本質(zhì)區(qū)別,目的是最大化批量寫入和分布式讀取的I/O效率。24Google文件系統(tǒng)(GFS)2.2分布式文件系統(tǒng)專為大規(guī)模數(shù)據(jù)集設(shè)計(jì)的高效且可擴(kuò)展的分布式文件系統(tǒng)可在低成本商用服務(wù)器上運(yùn)行內(nèi)置強(qiáng)大容錯(cuò)機(jī)制,確保高可用性文件劃分為數(shù)據(jù)塊,分布式存儲(chǔ),支持并行處理,提升I/O性能GFS架構(gòu):主服務(wù)器:管理文件系統(tǒng)元數(shù)據(jù)塊服務(wù)器:存儲(chǔ)實(shí)際數(shù)據(jù)塊為眾多客戶端應(yīng)用提供穩(wěn)定文件服務(wù)GFS的體系結(jié)構(gòu)圖25GlusterFS文件系統(tǒng)2.2分布式文件系統(tǒng)先進(jìn)的開源分布式文件系統(tǒng)消除傳統(tǒng)元數(shù)據(jù)節(jié)點(diǎn),簡化架構(gòu)BrickServer:存儲(chǔ)服務(wù)器客戶端NFS/Samba存儲(chǔ)網(wǎng)關(guān)優(yōu)勢:降低構(gòu)建復(fù)雜性,簡化實(shí)現(xiàn)過程模塊化設(shè)計(jì),支持個(gè)性化配置多物理設(shè)備融合為統(tǒng)一存儲(chǔ)池,支持PB級(jí)存儲(chǔ)261.2數(shù)據(jù)與算力、算法的關(guān)系2.3虛擬化技術(shù)優(yōu)點(diǎn):實(shí)現(xiàn)資源統(tǒng)一訪問,簡化管理和訪問虛擬化對(duì)象與分類技術(shù)定義與原理定義:將計(jì)算機(jī)物理資源抽象化,使資源的使用和分配不再受限于物理形態(tài)。實(shí)現(xiàn)用戶與物理資源之間的解耦應(yīng)用程序以統(tǒng)一方式訪問資源,不受底層物理變化影響簡化資源管理,保持用戶體驗(yàn)一致性硬件資源虛擬化:

內(nèi)存、存儲(chǔ)、CPU軟件資源虛擬化:

操作系統(tǒng)、文件系統(tǒng)、應(yīng)用程序虛擬化技術(shù)起源于20世紀(jì)50年代,隨云計(jì)算興起再度成為熱點(diǎn),是金融監(jiān)管領(lǐng)域?qū)崿F(xiàn)高效資源管理與性能優(yōu)化的關(guān)鍵技術(shù)支撐。272.3虛擬化技術(shù)基礎(chǔ)設(shè)施虛擬化網(wǎng)絡(luò)虛擬化整合網(wǎng)絡(luò)硬件和軟件資源,創(chuàng)建多個(gè)虛擬網(wǎng)絡(luò)(如

VLAN和VPN):VLAN:將物理局域網(wǎng)劃分為多個(gè)虛擬網(wǎng)絡(luò),提高資源使用效率VPN:在公用網(wǎng)絡(luò)建立安全隧道,實(shí)現(xiàn)加密傳輸和遠(yuǎn)程安全訪問存儲(chǔ)虛擬化抽象物理存儲(chǔ)設(shè)備差異,提供統(tǒng)一邏輯存儲(chǔ)視圖技術(shù)示例:獨(dú)立磁盤冗余陣列(RAID)提升讀寫性能和可靠性。其他技術(shù):網(wǎng)絡(luò)附加存儲(chǔ)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)通過主機(jī)或網(wǎng)絡(luò)實(shí)現(xiàn)管理兩者共同目標(biāo):降低硬件依賴、提高資源利用率、簡化運(yùn)維管理、支撐云計(jì)算彈性擴(kuò)展282.3虛擬化技術(shù)分層架構(gòu)虛擬網(wǎng)絡(luò)層vSwitch·vRouter·vFirewall·虛擬網(wǎng)卡↑抽象封裝↑控制平面SDNController·策略管理·流表下發(fā)↑解耦分離↑數(shù)據(jù)平面VXLAN隧道·GRE封裝·Overlay網(wǎng)絡(luò)↑承載運(yùn)行↑物理網(wǎng)絡(luò)層交換機(jī)·路由器·物理網(wǎng)卡·線纜核心技術(shù)SDN軟件定義網(wǎng)絡(luò)控制與轉(zhuǎn)發(fā)分離,集中式控制器統(tǒng)一管理網(wǎng)絡(luò)策略和流量轉(zhuǎn)發(fā)NFV網(wǎng)絡(luò)功能虛擬化將網(wǎng)絡(luò)設(shè)備功能軟件化,運(yùn)行在通用服務(wù)器上VXLAN虛擬擴(kuò)展LANL2overL3隧道技術(shù),突破VLAN4096限制,支持千萬級(jí)租戶vSwitch虛擬交換機(jī)軟件實(shí)現(xiàn)二層交換,連接虛擬機(jī)與物理網(wǎng)絡(luò)(OVS)核心特性??多租戶隔離?彈性擴(kuò)展??自動(dòng)化運(yùn)維??流量可視化網(wǎng)絡(luò)虛擬化通過軟件抽象物理網(wǎng)絡(luò)資源,實(shí)現(xiàn)網(wǎng)絡(luò)資源的按需分配、靈活調(diào)度和集中管控網(wǎng)絡(luò)虛擬化原理292.3虛擬化技術(shù)分層架構(gòu)應(yīng)用訪問層VM·容器·數(shù)據(jù)庫·文件系統(tǒng)↑統(tǒng)一接口↑虛擬化層存儲(chǔ)池化·LUN映射·卷管理·快照↑抽象聚合↑存儲(chǔ)協(xié)議層iSCSI·FC·NFS·CIFS·S3↑協(xié)議轉(zhuǎn)換↑物理存儲(chǔ)層SSD·HDD·磁盤陣列·磁帶庫核心技術(shù)SAN存儲(chǔ)區(qū)域網(wǎng)絡(luò)塊級(jí)存儲(chǔ)訪問,高性能低延遲,適用于數(shù)據(jù)庫和關(guān)鍵業(yè)務(wù)NAS網(wǎng)絡(luò)附加存儲(chǔ)文件級(jí)共享訪問,支持NFS/CIFS協(xié)議,易于管理SDS軟件定義存儲(chǔ)控制與數(shù)據(jù)分離,通用硬件,彈性擴(kuò)展(Ceph/GlusterFS)對(duì)象存儲(chǔ)ObjectStorage扁平化命名空間,元數(shù)據(jù)豐富,海量非結(jié)構(gòu)化數(shù)據(jù)核心特性???資源池化??快照克隆??數(shù)據(jù)遷移??自動(dòng)分層存儲(chǔ)虛擬化將異構(gòu)物理存儲(chǔ)整合為統(tǒng)一資源池,實(shí)現(xiàn)存儲(chǔ)資源的動(dòng)態(tài)分配、透明遷移和集中管理存儲(chǔ)虛擬化原理302.3虛擬化技術(shù)核心概念:將物理計(jì)算機(jī)轉(zhuǎn)換為多個(gè)獨(dú)立虛擬機(jī)(VMs)虛擬機(jī)監(jiān)控器(VMM)的作用:負(fù)責(zé)虛擬機(jī)的安全訪問、資源分配、調(diào)度和管理。好處:確保虛擬機(jī)高效運(yùn)行,保持獨(dú)立性和穩(wěn)定性,支持多任務(wù)環(huán)境。每個(gè)VM擁有完整虛擬硬件,可運(yùn)行不同操作系統(tǒng),解決應(yīng)用程序兼容性問題。增強(qiáng)計(jì)算環(huán)境的適應(yīng)性和可擴(kuò)展性。系統(tǒng)虛擬化31技術(shù)優(yōu)勢啟動(dòng)速度快資源占用少顯著提升部署效率與系統(tǒng)密度適合敏捷開發(fā)和持續(xù)交付場景核心原理通過操作系統(tǒng)級(jí)隔離,將應(yīng)用及依賴打包為獨(dú)立運(yùn)行單元,共享宿主內(nèi)核,實(shí)現(xiàn)輕量級(jí)虛擬化。典型應(yīng)用廣泛用于微服務(wù)架構(gòu)中,支持金融監(jiān)管系統(tǒng)模塊化構(gòu)建,增強(qiáng)服務(wù)可維護(hù)性與彈性擴(kuò)展能力。容器虛擬化322.3虛擬化技術(shù)軟件虛擬化虛擬層封裝通過虛擬層封裝應(yīng)用核心組件,實(shí)現(xiàn)運(yùn)行環(huán)境的隔離,減少對(duì)操作系統(tǒng)的直接依賴。應(yīng)用程序無需安裝即可在不同平臺(tái)上運(yùn)行,提升部署靈活性和使用便捷性。輕量級(jí)執(zhí)行依托服務(wù)器支持,形成即用即走的執(zhí)行模式,降低本地資源占用和管理負(fù)擔(dān)。免安裝部署省去傳統(tǒng)軟件安裝流程,避免注冊(cè)表和系統(tǒng)文件的修改,減少系統(tǒng)沖突風(fēng)險(xiǎn)。高效分發(fā)管理提升軟件分發(fā)效率,便于集中管理和版本控制,適合大規(guī)??焖俨渴饒鼍啊=鹑诤弦?guī)應(yīng)用適用于監(jiān)管測試環(huán)境,可快速啟用合規(guī)工具與報(bào)表系統(tǒng),增強(qiáng)審計(jì)響應(yīng)能力??缙脚_(tái)運(yùn)行也稱應(yīng)用程序虛擬化,是一種旨在簡化軟件管理流程,減少應(yīng)用程序與操作系統(tǒng)及物理硬件之間的耦合度的技術(shù)。332.3虛擬化技術(shù)2.3

虛擬化技術(shù)服務(wù)器虛擬化是一種允許多個(gè)虛擬機(jī)在單個(gè)物理服務(wù)器上同時(shí)運(yùn)行,每個(gè)虛擬機(jī)都有操作系統(tǒng)和應(yīng)用程序的完整鏡像的技術(shù)。核心機(jī)制通過Hypervisor層實(shí)現(xiàn)物理資源抽象,將單臺(tái)服務(wù)器虛擬為多個(gè)獨(dú)立運(yùn)行的虛擬機(jī),支持異構(gòu)操作系統(tǒng)共存。CPU虛擬化利用硬件輔助虛擬化技術(shù)(如IntelVT-x)調(diào)度CPU時(shí)間片,確保各虛擬機(jī)公平、隔離地訪問計(jì)算資源。內(nèi)存虛擬化建立虛擬內(nèi)存地址到物理內(nèi)存的映射機(jī)制,動(dòng)態(tài)分配與回收內(nèi)存,提升整體利用率并保障運(yùn)行穩(wěn)定性。I/O虛擬化通過虛擬交換機(jī)和設(shè)備模擬實(shí)現(xiàn)網(wǎng)絡(luò)與存儲(chǔ)I/O資源共享,優(yōu)化數(shù)據(jù)傳輸路徑,降低硬件依賴性。34資源監(jiān)控:對(duì)云環(huán)境中各種資源的使用情況進(jìn)行實(shí)時(shí)監(jiān)控、測量和管理的過程。云資源監(jiān)控系統(tǒng)是實(shí)現(xiàn)資源負(fù)載均衡、資源優(yōu)化、部署和調(diào)整的關(guān)鍵基礎(chǔ),由數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)管理、預(yù)警、系統(tǒng)管理以及監(jiān)控代理與服務(wù)器組成。資源監(jiān)控2.4資源管理技術(shù)資源調(diào)度資源監(jiān)控:在有限資源環(huán)境中,根據(jù)預(yù)定規(guī)則和策略,在不同用戶之間合理分配和動(dòng)態(tài)調(diào)整資源的過程。調(diào)度策略:非智能的傳統(tǒng)資源調(diào)度策略:基于預(yù)設(shè)規(guī)則進(jìn)行簡單分配,易于部署但可能導(dǎo)致負(fù)載不均衡。智能化的啟發(fā)式資源調(diào)度策略:通過復(fù)雜算法實(shí)現(xiàn)任務(wù)合理分配,更精確地滿足負(fù)載均衡需求。35資源管理與調(diào)度流程范例2.4資源管理技術(shù)數(shù)據(jù)采集監(jiān)控通過采集CPU、內(nèi)存、I/O等資源數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)監(jiān)控。結(jié)合輕量級(jí)代理部署于物理機(jī)與虛擬機(jī)中,支持全??梢暬?。傳輸管理預(yù)警數(shù)據(jù)經(jīng)高效傳輸進(jìn)入管理系統(tǒng),觸發(fā)異常預(yù)警機(jī)制。保障系統(tǒng)穩(wěn)定性與響應(yīng)及時(shí)性。細(xì)粒度可視化提供低延遲、高精度的資源使用視圖。幫助運(yùn)維人員全面掌握系統(tǒng)運(yùn)行狀態(tài)。支持多維度數(shù)據(jù)分析展示。智能調(diào)度策略突破傳統(tǒng)輪詢與優(yōu)先級(jí)規(guī)則限制。采用啟發(fā)式算法動(dòng)態(tài)調(diào)整任務(wù)分配。提升調(diào)度靈活性與適應(yīng)性。遺傳算法優(yōu)化利用遺傳算法搜索最優(yōu)資源分配方案。通過迭代進(jìn)化提高全局尋優(yōu)能力。增強(qiáng)復(fù)雜環(huán)境下的調(diào)度效率。強(qiáng)化學(xué)習(xí)決策引入強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)動(dòng)態(tài)任務(wù)調(diào)度。根據(jù)實(shí)時(shí)反饋持續(xù)優(yōu)化策略。支撐高效、自主的調(diào)控決策過程。36PaaS(平臺(tái)即服務(wù))把服務(wù)器、中間件平臺(tái)或開發(fā)環(huán)境作為一種服務(wù)提供給使用者。主要服務(wù):容器服務(wù)、數(shù)據(jù)庫服務(wù)、軟件開發(fā)環(huán)境。IaaS(基礎(chǔ)設(shè)施即服務(wù))通過互聯(lián)網(wǎng)即可獲得完善的計(jì)算機(jī)基礎(chǔ)設(shè)施服務(wù)?;A(chǔ)設(shè)施的管理工作由IaaS服務(wù)商來處理。亞馬遜、微軟、阿里、騰訊、華為都是主要的IaaS服務(wù)提供商。SaaS(軟件即服務(wù))通過互聯(lián)網(wǎng)提供軟件應(yīng)用程序,用戶無需在本地計(jì)算機(jī)或服務(wù)器上安裝和運(yùn)行軟件,通過網(wǎng)絡(luò)即可訪問和使用這些應(yīng)用程序。特點(diǎn):永遠(yuǎn)在線、隨處訪問、支持公開協(xié)議、安全保障和多租戶機(jī)制。2.5云計(jì)算服務(wù)云計(jì)算服務(wù)的類型372.5云計(jì)算服務(wù)IaaS的資源虛擬化架構(gòu)基于服務(wù)器虛擬化技術(shù)實(shí)現(xiàn)物理資源到邏輯資源的映射,支撐彈性伸縮與資源隔離。01虛擬資源池化通過Hypervisor層整合計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)資源。形成統(tǒng)一的虛擬資源池,支持動(dòng)態(tài)調(diào)配與按需分配。實(shí)現(xiàn)資源的彈性伸縮與高效利用。02按需彈性伸縮根據(jù)業(yè)務(wù)負(fù)載自動(dòng)增減虛擬機(jī)實(shí)例。保障服務(wù)穩(wěn)定性的同時(shí)優(yōu)化資源成本。提升系統(tǒng)應(yīng)對(duì)流量波動(dòng)的能力。03強(qiáng)邏輯隔離各虛擬機(jī)間具備嚴(yán)格的邏輯隔離機(jī)制。有效防止越權(quán)訪問與資源沖突。滿足金融級(jí)安全與合規(guī)要求。04資源利用率提升通過抽象與共享物理資源,減少資源閑置。提高服務(wù)器整體利用率。降低基礎(chǔ)設(shè)施投入成本。05安全保障機(jī)制隔離策略與訪問控制保障系統(tǒng)安全。防止橫向滲透與數(shù)據(jù)泄露風(fēng)險(xiǎn)。符合高標(biāo)準(zhǔn)安全合規(guī)規(guī)范。06統(tǒng)一資源管理將多類資源集中納管于虛擬化平臺(tái)。實(shí)現(xiàn)自動(dòng)化調(diào)度與統(tǒng)一監(jiān)控。簡化運(yùn)維流程并提升管理效率。382.5云計(jì)算服務(wù)IaaS的資源監(jiān)控體系由數(shù)據(jù)采集、傳輸、管理與預(yù)警模塊構(gòu)成,是實(shí)現(xiàn)負(fù)載均衡與動(dòng)態(tài)調(diào)度的基礎(chǔ)支撐。監(jiān)控系統(tǒng)數(shù)據(jù)采集CPU使用率監(jiān)控,實(shí)時(shí)獲取處理器負(fù)載情況。內(nèi)存占用采集,跟蹤運(yùn)行時(shí)內(nèi)存消耗變化。存儲(chǔ)空間監(jiān)測,記錄磁盤讀寫與可用容量。數(shù)據(jù)傳輸安全通信協(xié)議,保障監(jiān)控?cái)?shù)據(jù)在傳輸中的完整性與機(jī)密性。高效傳輸機(jī)制,降低帶寬占用并提升傳輸可靠性。集中管理海量數(shù)據(jù)匯聚,統(tǒng)一接入來自多節(jié)點(diǎn)的監(jiān)控信息。數(shù)據(jù)分類存儲(chǔ),按資源類型與時(shí)序組織存儲(chǔ)結(jié)構(gòu)。元數(shù)據(jù)索引,加速后續(xù)查詢與分析效率。數(shù)據(jù)分析歷史趨勢分析,識(shí)別資源使用長期變化規(guī)律。性能評(píng)估建模,量化系統(tǒng)運(yùn)行健康度指標(biāo)。異常檢測閾值告警機(jī)制,當(dāng)資源超限時(shí)自動(dòng)觸發(fā)通知。智能算法識(shí)別,發(fā)現(xiàn)非顯性但潛在的風(fēng)險(xiǎn)模式??梢暬尸F(xiàn)儀表盤展示,直觀呈現(xiàn)關(guān)鍵性能指標(biāo)狀態(tài)。動(dòng)態(tài)圖表更新,支持實(shí)時(shí)刷新與交互式瀏覽。392.5云計(jì)算服務(wù)PaaS容器虛擬化原理及優(yōu)勢以Docker和Kubernetes為代表的技術(shù)重塑應(yīng)用部署與運(yùn)維模式容器化賦能Docker將應(yīng)用及依賴打包為輕量鏡像,實(shí)現(xiàn)環(huán)境一致性,提升部署效率與可移植性。微服務(wù)解耦應(yīng)用拆分為獨(dú)立服務(wù)單元,通過API協(xié)作,增強(qiáng)系統(tǒng)靈活性、可維護(hù)性與可擴(kuò)展性。編排自動(dòng)化Kubernetes實(shí)現(xiàn)容器的自動(dòng)部署、伸縮與故障恢復(fù),保障服務(wù)高可用與資源高效利用。DevOps融合PaaS集成CI/CD流水線,支持快速迭代與自動(dòng)化運(yùn)維,加速金融應(yīng)用交付周期。輕量啟動(dòng)容器共享宿主內(nèi)核,無需啟動(dòng)完整操作系統(tǒng),秒級(jí)創(chuàng)建與銷毀,大幅提升應(yīng)用響應(yīng)速度與部署效率。低資源開銷相比虛擬機(jī),容器無冗余系統(tǒng)層,資源占用減少70%以上,單機(jī)可承載更多實(shí)例,提升資源利用率。高可移植性鏡像封裝應(yīng)用及依賴,實(shí)現(xiàn)“一次構(gòu)建,隨處運(yùn)行”,完美支持跨環(huán)境遷移與混合云部署需求。原理優(yōu)勢402.5云計(jì)算服務(wù)SaaS的永遠(yuǎn)在線特性與安全保障體系安全保障體系:涵蓋身份認(rèn)證、訪問控制、數(shù)據(jù)加密與合規(guī)審計(jì),滿足企業(yè)級(jí)安全要求。永遠(yuǎn)在線特性:保障服務(wù)的持續(xù)可用性與跨平臺(tái)互操作能力。高可用架構(gòu)通過高可用架構(gòu)保障系統(tǒng)穩(wěn)定運(yùn)行。實(shí)現(xiàn)7×24小時(shí)不間斷服務(wù)。確保業(yè)務(wù)連續(xù)性與隨時(shí)訪問能力。全球遠(yuǎn)程接入依托互聯(lián)網(wǎng)覆蓋全球用戶。支持遠(yuǎn)程隨時(shí)隨地接入。提升服務(wù)的可及性與便捷性。多端無縫協(xié)作兼容多種終端設(shè)備接入。實(shí)現(xiàn)數(shù)據(jù)同步與操作協(xié)同。提升用戶工作效率與體驗(yàn)。標(biāo)準(zhǔn)化協(xié)議采用通用通信協(xié)議。保障系統(tǒng)間互聯(lián)互通。增強(qiáng)跨平臺(tái)兼容性??缙脚_(tái)互聯(lián)打破平臺(tái)壁壘。實(shí)現(xiàn)不同系統(tǒng)間數(shù)據(jù)交互。提升整體協(xié)作能力。服務(wù)靈活性靈活響應(yīng)用戶需求變化。支持動(dòng)態(tài)擴(kuò)展與調(diào)整。適應(yīng)多樣化使用場景。數(shù)據(jù)交互能力強(qiáng)化系統(tǒng)間數(shù)據(jù)流通。確保信息實(shí)時(shí)準(zhǔn)確傳遞。提高服務(wù)響應(yīng)效率。用戶體驗(yàn)優(yōu)化簡化操作流程。提升界面友好性與響應(yīng)速度。全面改善用戶使用感受。身份認(rèn)證采用多因素認(rèn)證與單點(diǎn)登錄技術(shù),確保用戶身份真實(shí)可信,防止未授權(quán)訪問。訪問控制基于角色的權(quán)限管理精確分配操作權(quán)限,實(shí)現(xiàn)細(xì)粒度資源隔離與行為管控。數(shù)據(jù)加密支持傳輸與存儲(chǔ)全過程加密,并通過密鑰自主管理保障敏感信息的機(jī)密性與完整性。41云計(jì)算技術(shù)與金融監(jiān)管033云計(jì)算技術(shù)與金融監(jiān)管按使用付費(fèi)模式:主要的云部署模式是追求云計(jì)算所帶來的靈活性、可擴(kuò)展性、實(shí)用性、高性能以及成本效益的用戶企業(yè)的首選部署模式。

與公有云相比,私有云具有更強(qiáng)的隱秘性,更適用于金融監(jiān)管。

兼具公有云的靈活性和私有云的安全性。公有云私有云混合云43公有云的特性3.1基于公有云的監(jiān)測技術(shù)公有云的定義及特性是由第三方服務(wù)提供商所托管和運(yùn)營的云計(jì)算服務(wù),面向廣大公眾開放,允許任何個(gè)體或組織通過互聯(lián)網(wǎng)進(jìn)行訪問。彈性擴(kuò)展能力公有云支持資源動(dòng)態(tài)伸縮,可根據(jù)監(jiān)管任務(wù)負(fù)載自動(dòng)增減計(jì)算實(shí)例,高效應(yīng)對(duì)突發(fā)性數(shù)據(jù)處理需求。按需付費(fèi)模式用戶僅需為實(shí)際使用的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源付費(fèi),顯著降低非核心業(yè)務(wù)系統(tǒng)的初始投入與運(yùn)維成本。合規(guī)前提下應(yīng)用在滿足數(shù)據(jù)脫敏、加密傳輸與訪問控制等安全要求下,公有云適用于第三方協(xié)同分析與非敏感金融監(jiān)測場景。44在金融監(jiān)管的背景下,公有云的應(yīng)用必須嚴(yán)格遵循數(shù)據(jù)安全、隱私保護(hù)和合規(guī)性要求。應(yīng)用優(yōu)勢:簡化服務(wù)商的技術(shù)準(zhǔn)備工作。實(shí)際應(yīng)用案例:3.1基于公有云的監(jiān)測技術(shù)使用公有云的情形金融服務(wù)的公司組織生產(chǎn)力和合作英杰華和怡寶銷售和服務(wù)安盛、CenturyPayments、埃森哲、Rdt和Figdo核心流程和效率Nvoicepay、Mysis和Temenos風(fēng)險(xiǎn)分析和報(bào)告RiskMetrics集團(tuán)、OpenText和Kynetix數(shù)據(jù)洞察和貨幣化Alteryx和Xignite公有云對(duì)金融監(jiān)管的作用45定義:一種專為特定企業(yè)或組織量身定制的網(wǎng)絡(luò)解決方案,通常部署在企業(yè)內(nèi)部或通過專用網(wǎng)絡(luò)基礎(chǔ)設(shè)施實(shí)現(xiàn)。部署形式本地私有云(場內(nèi)私有云)、外部托管的私有云(場外私有云)。3.2基于私有云的監(jiān)測技術(shù)私有云的定義及特性專有資源隔離私有云為金融機(jī)構(gòu)提供獨(dú)享的計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)資源,實(shí)現(xiàn)物理或邏輯層面的完全隔離,杜絕多租戶風(fēng)險(xiǎn),確保關(guān)鍵業(yè)務(wù)穩(wěn)定運(yùn)行。定制化安全策略支持深度定制防火墻、訪問控制、加密機(jī)制與審計(jì)策略,滿足金融監(jiān)管對(duì)數(shù)據(jù)隱私、合規(guī)留存和操作可追溯性的嚴(yán)格要求。數(shù)據(jù)主權(quán)保障數(shù)據(jù)全程駐留在機(jī)構(gòu)可控環(huán)境中,結(jié)合本地化部署與自主運(yùn)維,有效掌控?cái)?shù)據(jù)生命周期,強(qiáng)化對(duì)核心資產(chǎn)的主權(quán)管理能力。46在金融領(lǐng)域,私有云主要承擔(dān)著關(guān)鍵業(yè)務(wù)系統(tǒng)的運(yùn)行和敏感數(shù)據(jù)的存儲(chǔ)任務(wù)。3.2基于私有云的監(jiān)測技術(shù)金融服務(wù)機(jī)構(gòu)私有云職能勞合社全球唯一的專業(yè)保險(xiǎn)市場,使用虛擬環(huán)境以減少運(yùn)營支出、提高資源利用,利用新的數(shù)據(jù)中心挪威銀行挪威最大的金融服務(wù)集團(tuán),信用卡評(píng)估流程的新平臺(tái)奧地利事故保險(xiǎn)總公司奧地利最大的社保和應(yīng)急醫(yī)療保險(xiǎn)的供應(yīng)商。通過虛擬,將服務(wù)可用性最大化巴西中央銀行虛擬化方案幫助巴西中央銀行削減20%的能源成本,生產(chǎn)效率提高20%,處理速度提高50%盧森堡銀行私有銀行,將數(shù)據(jù)中心虛擬化,獲取ICT、業(yè)務(wù)和環(huán)境效益夏威夷銀行該銀行將其關(guān)鍵運(yùn)營集團(tuán)的老舊環(huán)境進(jìn)行升級(jí),同時(shí)降低了業(yè)務(wù)中斷的風(fēng)險(xiǎn)私有云對(duì)金融監(jiān)管的作用邊界外私有云邊界內(nèi)私有云47混合云的特性3.3基于混合云的監(jiān)測技術(shù)混合云的定義及特性是一種云計(jì)算模型,它結(jié)合了私有云和公有云的特點(diǎn),使組織能夠利用兩種環(huán)境的優(yōu)勢?;旌显萍軜?gòu)私有云管理本地?cái)?shù)據(jù)存儲(chǔ),確保敏感信息不出內(nèi)網(wǎng)。核心業(yè)務(wù)運(yùn)行,處理日常金融交易與服務(wù)。監(jiān)管數(shù)據(jù)留存,滿足合規(guī)與審計(jì)要求。公有云協(xié)同彈性資源擴(kuò)展,應(yīng)對(duì)突發(fā)流量與計(jì)算需求。高峰算力補(bǔ)充,支持壓力測試與報(bào)送任務(wù)。外網(wǎng)計(jì)算支撐,僅用于非敏感數(shù)據(jù)處理。數(shù)據(jù)流動(dòng)控制跨云數(shù)據(jù)同步,保障應(yīng)用在多環(huán)境間連續(xù)性。安全傳輸機(jī)制,防止數(shù)據(jù)在遷移中被泄露。安全合規(guī)保障數(shù)據(jù)主權(quán)保護(hù),明確數(shù)據(jù)歸屬與訪問權(quán)限。審計(jì)日志記錄,追蹤所有跨云操作行為。應(yīng)用無縫遷移工作負(fù)載調(diào)度,根據(jù)負(fù)載自動(dòng)切換運(yùn)行環(huán)境。統(tǒng)一接口管理,簡化多云應(yīng)用部署流程。資源協(xié)同優(yōu)化成本效率平衡,按需使用公有云降低開支。性能動(dòng)態(tài)調(diào)整,提升整體系統(tǒng)響應(yīng)能力。48解決金融企業(yè)在網(wǎng)絡(luò)監(jiān)控方面的實(shí)際挑戰(zhàn),提供一站式的運(yùn)維和安全平臺(tái)規(guī)劃,避免資源重復(fù)投入。增強(qiáng)處理能力和響應(yīng)速度,顯著提升客戶體驗(yàn)。融合了公有云的靈活性與私有云的安全性,為金融監(jiān)管提供了均衡的解決方案。實(shí)現(xiàn)了安全性、可擴(kuò)展性和成本效益的最佳平衡。3.3基于混合云的監(jiān)測技術(shù)混合云對(duì)金融監(jiān)管的作用49本章小結(jié)1、總結(jié)云計(jì)算的核心技術(shù)。2、闡述云計(jì)算在金融監(jiān)管中的主要作用。3、結(jié)合本章案例或其他案例,探討未來云計(jì)算技術(shù)在金融監(jiān)管領(lǐng)域應(yīng)用的趨勢。THANKS第六章

人工智能監(jiān)管技術(shù)Outline人工智能技術(shù)概述人工智能的關(guān)鍵技術(shù)人工智能技術(shù)與金融監(jiān)管53人工智能技術(shù)概述01人工智能的定義智能體應(yīng)用人工智能是機(jī)器創(chuàng)造出的一種智能形式,旨在模擬人類的思考和行為過程。在計(jì)算機(jī)科學(xué)領(lǐng)域,人工智能被定義為對(duì)智能體的研究,目的是模擬人類的智能行為。智能體是指能夠模擬人類智能的計(jì)算機(jī)系統(tǒng),能夠進(jìn)行自主學(xué)習(xí)、推理、理解自然語言等復(fù)雜任務(wù)。在金融監(jiān)管領(lǐng)域,通過模式識(shí)別和機(jī)器學(xué)習(xí)等技術(shù),人工智能可以自動(dòng)化地識(shí)別和防范金融欺詐和風(fēng)險(xiǎn),為金融監(jiān)管提供強(qiáng)大的技術(shù)支持。1.1人工智能概念55起步發(fā)展期:1955年—20世紀(jì)60年代初。人工智能概念提出后,相繼取得了一批令人矚目的研究成果,如機(jī)器定理證明、跳棋程序等,掀起人工智能發(fā)展的第一個(gè)高潮。反思發(fā)展期:20世紀(jì)60年代末—70年代初。接二連三的失敗和預(yù)期目標(biāo)的落空(例如,無法用機(jī)器證明兩個(gè)連續(xù)函數(shù)之和還是連續(xù)函數(shù)、機(jī)器翻譯鬧出笑話等),人工智能的發(fā)展走入低谷。

應(yīng)用發(fā)展期:20世紀(jì)70年代初—80年代中。20世紀(jì)70年代出現(xiàn)的專家系統(tǒng)模擬人類專家的知識(shí)和經(jīng)驗(yàn)解決特定領(lǐng)域的問題,實(shí)現(xiàn)理論到應(yīng)用的突破,在醫(yī)療、化學(xué)等領(lǐng)域取得成功,推動(dòng)人工智能走入應(yīng)用發(fā)展的新高潮。人工智能的歷史進(jìn)程1.2人工智能技術(shù)的發(fā)展歷史56人工智能的歷史進(jìn)程1.2人工智能技術(shù)的發(fā)展歷史低迷發(fā)展期:20世紀(jì)80年代中—90年代中。隨著人工智能應(yīng)用規(guī)模擴(kuò)大,專家系統(tǒng)存在的應(yīng)用領(lǐng)域狹窄、缺乏常識(shí)性知識(shí)、知識(shí)獲取困難、推理方法單一、缺乏分布式功能、難以與現(xiàn)有數(shù)據(jù)庫兼容等問題逐漸暴露出來。穩(wěn)步發(fā)展期:20世紀(jì)90年代中—2010年。網(wǎng)絡(luò)及互聯(lián)網(wǎng)技術(shù)的發(fā)展加速了人工智能的創(chuàng)新研究,推動(dòng)技術(shù)加速走向?qū)嵱没I钏{(lán)超級(jí)計(jì)算機(jī)戰(zhàn)勝國際象棋世界冠軍、“智慧地球”概念提出等事件,都是這一時(shí)期的標(biāo)志性事件。蓬勃發(fā)展期:2011年至今。大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)與圖形處理器等計(jì)算平臺(tái)的發(fā)展,推動(dòng)了以深度神經(jīng)網(wǎng)絡(luò)為核心的人工智能技術(shù)飛速發(fā)展,跨越了科學(xué)與應(yīng)用的技術(shù)鴻溝;圖像分類、語音識(shí)別、無人駕駛等技術(shù)實(shí)現(xiàn)了從“不能用、不好用”到“可以用”。57人工智能在金融監(jiān)管中的應(yīng)用集中于識(shí)別異常交易和風(fēng)險(xiǎn)主體。

檢測和預(yù)測市場波動(dòng)、流動(dòng)性風(fēng)險(xiǎn)、金融壓力、房價(jià)、工業(yè)生產(chǎn)、GDP以及失業(yè)率等,抓住可能對(duì)金融穩(wěn)定造成的威脅。澳大利亞證券及投資委員會(huì)(ASIC)、新加坡貨幣管理局(MASP)、美國證券交易委員會(huì)(SEC)等國際監(jiān)管機(jī)構(gòu),正用人工智能開展可疑交易識(shí)別。具體通過從證據(jù)文件中識(shí)別提取利益主體,分析用戶交易軌跡、行為特征及關(guān)聯(lián)信息,更高效準(zhǔn)確打擊地下洗錢等犯罪活動(dòng)。國際金融行業(yè)應(yīng)用1.3人工智能技術(shù)在金融監(jiān)管領(lǐng)域的應(yīng)用歷史58國內(nèi)人工智能在風(fēng)險(xiǎn)控制和管理上的應(yīng)用主要包括以下三個(gè)方面:一是數(shù)據(jù)收集和處理;二是風(fēng)險(xiǎn)控制和預(yù)測模型;三是信用評(píng)級(jí)和風(fēng)險(xiǎn)定價(jià)。案例:中國銀行推出貿(mào)易融資業(yè)務(wù)反洗錢核查項(xiàng)目,運(yùn)用圖像識(shí)別、機(jī)器學(xué)習(xí)等人工智能技術(shù),審核效率與質(zhì)量得到極大提升,銀行人工成本大幅降低。國內(nèi)金融行業(yè)應(yīng)用1.3人工智能技術(shù)在金融監(jiān)管領(lǐng)域的應(yīng)用歷史59人工智能的關(guān)鍵技術(shù)02聚類邏輯回歸支持向量機(jī)貝葉斯分類決策樹集成學(xué)習(xí)2.1機(jī)器學(xué)習(xí)常用算法61在“無監(jiān)督學(xué)習(xí)”任務(wù)中研究最多、應(yīng)用最廣。聚類目標(biāo):將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常不相交的子集(“簇”,cluster)。聚類既可以作為一個(gè)單獨(dú)過程(用于找尋數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)),也可作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過程。2.1機(jī)器學(xué)習(xí)聚類62

假定樣本集

,包含m個(gè)無標(biāo)記樣本,每個(gè)樣本是一個(gè)n維的特征向量,聚類算法將樣本集D劃分成k個(gè)不相交的簇

。其中,

,且

相應(yīng)地,用

表示樣本

的“簇標(biāo)記”(即clusterlabel),即

。于是,聚類的結(jié)果可用包含m個(gè)元素的簇標(biāo)記向量

表示。聚類:形式化描述2.1機(jī)器學(xué)習(xí)632.1機(jī)器學(xué)習(xí)聚類性能度量,亦稱為聚類“有效性指標(biāo)”(validityindex)。直觀來講:

我們希望“物以類聚”,即同一簇的樣本盡可能彼此相似,不同簇的樣本盡可能不同。換言之,聚類結(jié)果的“簇內(nèi)相似度”(intra-clustersimilarity)高,且“簇間相似度”(inter-clustersimilarity)低,這樣的聚類效果較好。關(guān)鍵在于定義“相似性度量”(如歐氏距離、余弦相似度等)和“聚類數(shù)量確定方法”(如肘部法則、輪廓系數(shù))。聚類:性能度量642.1機(jī)器學(xué)習(xí)常見算法有K-Means、DBSCAN、層次聚類等,其中K-Means因簡單高效應(yīng)用最廣,通過迭代更新簇中心來實(shí)現(xiàn)聚類。給定數(shù)據(jù)集 ,

k均值算法針對(duì)聚類所得簇劃分

最小化平方誤差

其中,是簇的均值向量。值在一定程度上刻畫了簇內(nèi)樣本圍繞簇均值向量的緊密程度,值越小,則簇內(nèi)樣本相似度越高。算法流程(迭代優(yōu)化):初始化每個(gè)簇的均值向量repeat

1.(更新)簇劃分;

2.計(jì)算每個(gè)簇的均值向量until當(dāng)前均值向量均未更新聚類:K-Means聚類65商業(yè)客戶分群電商平臺(tái)根據(jù)用戶的購買頻率、消費(fèi)金額、瀏覽偏好等數(shù)據(jù),將用戶聚類為“高價(jià)值忠誠客戶”“價(jià)格敏感型客戶”“新用戶潛力群”等,針對(duì)不同群體制定差異化的營銷策略,如對(duì)高價(jià)值客戶推送專屬優(yōu)惠,對(duì)新用戶發(fā)放新人券。圖像分割在計(jì)算機(jī)視覺中,聚類可用于圖像分割,將圖像中像素值相似的區(qū)域劃分為同一簇,實(shí)現(xiàn)前景與背景分離或目標(biāo)區(qū)域提取。比如在醫(yī)學(xué)影像處理中,分割出CT圖像中的腫瘤區(qū)域。2.1機(jī)器學(xué)習(xí)聚類:表現(xiàn)形式662.1機(jī)器學(xué)習(xí)邏輯回歸是用于分類的統(tǒng)計(jì)學(xué)方法,主要思想是:根據(jù)現(xiàn)有數(shù)據(jù)對(duì)分類邊界線建立回歸公式,以此對(duì)數(shù)據(jù)進(jìn)行分類。常用于邏輯回歸的分類函數(shù)有Sigmoid函數(shù),而使用梯度上升法可以尋找到最佳參數(shù)。通常用于對(duì)數(shù)據(jù)進(jìn)行二分法分類,應(yīng)用于金融領(lǐng)域的多個(gè)方向,特別是風(fēng)控和用戶畫像,如識(shí)別正常/異常操作,活躍用戶/沉默用戶等。67

通過一個(gè)函數(shù)g(??),將?(??)映射至[0,1]的范圍。由此,便得到了邏輯回歸中的預(yù)測模型:常用于邏輯回歸的分類函數(shù)有Sigmoid函數(shù)。2.1機(jī)器學(xué)習(xí)邏輯回歸682.1機(jī)器學(xué)習(xí)當(dāng)建立好模型之后,需要找到一種方法來求解模型中的未知參數(shù)。同線性回歸一樣,此時(shí)也需要通過一種間接的方式,即通過目標(biāo)函數(shù)來刻畫預(yù)測標(biāo)簽(Label)與真實(shí)標(biāo)簽之間的差距。通過最小化目標(biāo)函數(shù)后,便能得到需要求解的參數(shù)。

邏輯回歸692.1機(jī)器學(xué)習(xí)線性模型:在樣本空間中尋找一個(gè)超平面,將不同類別的樣本分開。Q:將訓(xùn)練樣本分開的超平面可能有很多,選哪一個(gè)好呢?A:應(yīng)選擇”正中間“,容忍性好,

魯棒性高,

泛化能力最強(qiáng)。支持向量機(jī)70基本思想:在樣本空間中找到一個(gè)正確劃分訓(xùn)練數(shù)據(jù)集并且集合間隔最大的超平面。高如果數(shù)據(jù)在低維空間中無法線性分隔,就通過核函數(shù)將其映射到高維空間,使其變得可分。支持向量就是離分隔超平面最近的那些點(diǎn)。2.1機(jī)器學(xué)習(xí)超平面方程:支持向量機(jī)(SVM):核心思想71

2.1機(jī)器學(xué)習(xí)支持向量機(jī)(SVM):數(shù)學(xué)形式72貝葉斯決策論(Bayesiandecisiontheory)是在概率框架下實(shí)施決策的基本方法。在分類問題情況下,在所有相關(guān)概率都已知的理想情形下,貝葉斯決策考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標(biāo)記。假設(shè)有種可能的類別標(biāo)記,即,,是將一個(gè)真實(shí)標(biāo)記為的樣本誤分類為所產(chǎn)生的損失?;诤篁?yàn)概率可獲得將樣本分類為所產(chǎn)生的期望損失(expectedloss),即在樣本上的“條件風(fēng)險(xiǎn)”(conditionalrisk):目的是尋找一個(gè)判定準(zhǔn)則以最小化總體風(fēng)險(xiǎn):2.1機(jī)器學(xué)習(xí)貝葉斯分類:背景73貝葉斯分類是在貝葉斯決策論框架下設(shè)計(jì)的具體分類算法,直接利用貝葉斯公式進(jìn)行分類,是解決分類問題的一種經(jīng)典方法。2.1機(jī)器學(xué)習(xí)貝葉斯分類的基本思想:充分利用先驗(yàn)信息,將先驗(yàn)分布和抽樣分布整合成后驗(yàn)分布,從而利用后驗(yàn)分布進(jìn)行決策。如果有新的信息,則更新后驗(yàn)分布,實(shí)現(xiàn)遞歸決策方案得到最優(yōu)策略,使決策風(fēng)險(xiǎn)盡可能低。貝葉斯分類好比根據(jù)經(jīng)驗(yàn)和新證據(jù)來判斷事情的概率。比如你一開始覺得今天下雨的概率是30%(先驗(yàn)概率),出門看到烏云密布(新證據(jù)),根據(jù)“烏云密布時(shí)下雨的概率”(似然概率),更新下雨的概率為70%(后驗(yàn)概率)。它基于貝葉斯定理,核心是“特征條件獨(dú)立假設(shè)”。核心要點(diǎn):對(duì)每個(gè)樣本,計(jì)算后驗(yàn)概率,選擇能使后驗(yàn)概率最大的類別標(biāo)記。貝葉斯分類74文本分類與過濾:樸素貝葉斯是文本分類的經(jīng)典算法,如垃圾郵件過濾、新聞分類等。在垃圾郵件過濾中,計(jì)算郵件中出現(xiàn)“中獎(jiǎng)”“匯款”等關(guān)鍵詞在垃圾郵件和正常郵件中的條件概率,進(jìn)而判斷郵件類別。它訓(xùn)練速度快,適合處理大量文本數(shù)據(jù)。推薦系統(tǒng):基于用戶的歷史行為數(shù)據(jù)(如購買記錄、瀏覽記錄),貝葉斯分類可預(yù)測用戶對(duì)物品的偏好。例如根據(jù)用戶過去購買的圖書類別,預(yù)測其可能喜歡的新圖書類別。醫(yī)療診斷:結(jié)合患者的癥狀特征和疾病的先驗(yàn)概率,貝葉斯分類可輔助醫(yī)生進(jìn)行疾病診斷。比如根據(jù)患者的年齡、癥狀、病史等,計(jì)算患不同疾病的后驗(yàn)概率,為診斷提供參考。貝葉斯分類:應(yīng)用2.1機(jī)器學(xué)習(xí)752.1機(jī)器學(xué)習(xí)基于“樹”的結(jié)構(gòu)進(jìn)行決策,是樹形結(jié)構(gòu)的監(jiān)督學(xué)習(xí)算法:每個(gè)“內(nèi)部結(jié)點(diǎn)”對(duì)應(yīng)于某個(gè)屬性上的“測試”(test)每個(gè)分支對(duì)應(yīng)于該測試的一種可能結(jié)果(即該屬性的某個(gè)取值)每個(gè)“葉結(jié)點(diǎn)”對(duì)應(yīng)于一個(gè)“預(yù)測結(jié)果”學(xué)習(xí)過程:通過對(duì)訓(xùn)練樣本的分析來確定“劃分屬性”(即內(nèi)部結(jié)點(diǎn)所對(duì)應(yīng)的屬性)預(yù)測過程:將測試示例從根結(jié)點(diǎn)開始,沿著劃分屬性所構(gòu)成的“判定測試序列”下行,直到葉結(jié)點(diǎn)西瓜問題的一顆決策樹決策樹762.1機(jī)器學(xué)習(xí)策略:“分而治之”(divide-and-conquer)自根至葉的遞歸過程在每個(gè)中間結(jié)點(diǎn)尋找一個(gè)“劃分”(splitortest)屬性構(gòu)建決策樹的關(guān)鍵是選擇最優(yōu)的特征進(jìn)行節(jié)點(diǎn)分裂,常用的分裂準(zhǔn)則有信息增益、信息增益比、基尼系數(shù)。三種停止條件:(1)當(dāng)前結(jié)點(diǎn)包含的樣本全屬于同一類別,無需劃分;(2)當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;(3)當(dāng)前結(jié)點(diǎn)包含的樣本集合為空,不能劃分。決策樹77集成學(xué)習(xí)(ensemblelearning)通過融合多個(gè)基礎(chǔ)模型(弱學(xué)習(xí)器)的預(yù)測結(jié)果,構(gòu)建出一個(gè)性能更優(yōu)越的集成模型(強(qiáng)學(xué)習(xí)器)。這種方法通過集合多個(gè)模型的優(yōu)勢,有效減少了單一模型可能出現(xiàn)的偏差和方差,從而提升了整體的預(yù)測準(zhǔn)確性。2.1機(jī)器學(xué)習(xí)2.1機(jī)器學(xué)習(xí)集成學(xué)習(xí)78考慮一個(gè)簡單的例子,在二分類問題中,假定3個(gè)分類器在三個(gè)樣本中的表現(xiàn)如下圖所示,其中√表示分類正確,X號(hào)表示分類錯(cuò)誤,集成的結(jié)果通過投票產(chǎn)生。2.1機(jī)器學(xué)習(xí)2.1機(jī)器學(xué)習(xí)集成個(gè)體應(yīng)該好而不同。集成學(xué)習(xí)792.1機(jī)器學(xué)習(xí)2.1機(jī)器學(xué)習(xí)個(gè)體學(xué)習(xí)器存在強(qiáng)依賴關(guān)系,串行生成每次調(diào)整訓(xùn)練數(shù)據(jù)的樣本分布主要分為兩類:一類是序列化方法,如AdaBoost,GradientBoosting,XGBoost等。Boosting家族的關(guān)鍵:串行訓(xùn)練,每個(gè)新模型都聚焦于前一個(gè)模型的錯(cuò)誤樣本,通過調(diào)整樣本權(quán)重或殘差來逐步優(yōu)化。集成學(xué)習(xí)方法802.1機(jī)器學(xué)習(xí)2.1機(jī)器學(xué)習(xí)個(gè)體學(xué)習(xí)器不存在強(qiáng)依賴關(guān)系并行化生成自助采樣法另一類是并行化方法,如Bagging和隨機(jī)森林。核心思想:獨(dú)立并行訓(xùn)練多個(gè)模型,用投票/平均降低方差。通過并行生成多個(gè)弱學(xué)習(xí)器來提高模型的穩(wěn)定性和準(zhǔn)確性。集成學(xué)習(xí)方法81深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,它基于人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,特別是具有多層(深層)結(jié)構(gòu)的網(wǎng)絡(luò)。這些網(wǎng)絡(luò)能夠從有限的數(shù)據(jù)中捕捉并歸納出普遍適用的模式,并將這些模式應(yīng)用于新的、未知的數(shù)據(jù)集。深度學(xué)習(xí)模型的復(fù)雜性主要體現(xiàn)在其多層的架構(gòu)上每一層都由眾多神經(jīng)元構(gòu)成,這些神經(jīng)元通過線性或非線性的轉(zhuǎn)換來處理輸入的信息。隨著信息在網(wǎng)絡(luò)中的逐層傳遞,每個(gè)神經(jīng)元都會(huì)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的處理,共同塑造最終的輸出結(jié)果。2.2深度學(xué)習(xí)822.2深度學(xué)習(xí)理想激活函數(shù)是階躍函數(shù),0表示抑制神經(jīng)元而1表示激活神經(jīng)元階躍函數(shù)具有不連續(xù)、不光滑等不好的性質(zhì),常用的是Sigmoid函數(shù)激活函數(shù)83

M-P神經(jīng)元模型2.2深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一個(gè)具有適應(yīng)性的簡單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界物體所作出的交互反應(yīng)。84

感知機(jī)感知機(jī)是神經(jīng)網(wǎng)絡(luò)最基礎(chǔ)的形式,由兩層神經(jīng)元構(gòu)成:輸入層和輸出層,無隱藏層。輸入層負(fù)責(zé)接收外部原始信號(hào),直接傳遞給輸出層;輸出層由MP神經(jīng)元構(gòu)成,是唯一具備功能性的層級(jí)。局限:僅輸出層有激活函數(shù),本質(zhì)是單層功能性神經(jīng)元,無法解決非線性問題(如“異或”任務(wù))。深層神經(jīng)網(wǎng)絡(luò)(DNNs)是一種包含多個(gè)隱藏層的人工神經(jīng)網(wǎng)絡(luò)。這些隱藏層可以學(xué)習(xí)和表征數(shù)據(jù)中的復(fù)雜模式和高級(jí)特征。2.2深度學(xué)習(xí)深層神經(jīng)網(wǎng)絡(luò)85前饋神經(jīng)網(wǎng)絡(luò)之所以稱為“網(wǎng)絡(luò)”,是因?yàn)樗鼈兺ㄟ^復(fù)合多個(gè)不同的函數(shù)來構(gòu)建復(fù)雜的表示能力。2.2深度學(xué)習(xí)深層神經(jīng)網(wǎng)絡(luò)

86工作原理關(guān)鍵點(diǎn)梯度(偏導(dǎo)數(shù))決定權(quán)重更新方向與幅度通過多次迭代訓(xùn)練,優(yōu)化網(wǎng)絡(luò)權(quán)重優(yōu)勢在于能有效提升模型的預(yù)測能力與泛化能力2.2深度學(xué)習(xí)概念每層輸出作為下一層輸入計(jì)算網(wǎng)絡(luò)輸出與目標(biāo)輸出的誤差誤差從輸出層逆向傳播到網(wǎng)絡(luò)的每一層,逐層計(jì)算誤差利用梯度更新每層權(quán)重用于訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)的算法通過梯度計(jì)算更新權(quán)重和偏置通常與梯度下降等優(yōu)化算法結(jié)合使用反向傳播(BackPropagation,BP)算法是一種高效地在所有參數(shù)上使用梯度下降算法的方法。87反向傳播算法2.2深度學(xué)習(xí)學(xué)習(xí)流程:未訓(xùn)練初始狀態(tài)→輸入樣本→預(yù)測輸出→誤差計(jì)算→權(quán)重優(yōu)化關(guān)鍵指標(biāo):均方誤差:反向傳播學(xué)習(xí)規(guī)則主要基于梯度下降法,首先權(quán)值被隨機(jī)初始化,然后向誤差減小的方向調(diào)整為:

隱藏層到輸出層的權(quán)值更新:88反向傳播算法——網(wǎng)絡(luò)學(xué)習(xí)W1x+b1z=σ(W1x+b1)W2z+b2?=σ(W2z+b2)Loss(?,y)xWb前向傳播反向傳播計(jì)算總誤差:隱藏層→輸出層的權(quán)值更新:示例:前向傳播:輸入層→隱藏層:W1x+b1,激活函數(shù):z=σ(W1x+b1)隱藏層→輸出層:W2z+b2,激活函數(shù):?=σ(W2z+b2)損失函數(shù):L(y,?)=-ylog?

-(1-y)log(1-?)Etotal=L(y,?)輸入層→隱藏層的權(quán)值更新:核心目標(biāo):通過最小化損失,不斷調(diào)整權(quán)值,直至得到最優(yōu)參數(shù)89反向傳播算法——網(wǎng)絡(luò)學(xué)習(xí)2.2深度學(xué)習(xí)梯度下降法是指沿著函數(shù)值下降變化最快的方向,改變?chǔ)榷@得更小的f(θ)的技術(shù)尋找最陡峭的方向也就是負(fù)梯度方向下降最快的地方,梯度下降法的數(shù)學(xué)定義——通過導(dǎo)數(shù)概念理解:以f(θ)=θ2為例對(duì)于θ>0,存在f'(θ)>0,因此可以向左移動(dòng)來減小f(θ)。對(duì)于θ<0,存在f'(θ)<0,因此可以向右移動(dòng)來減小f(θ)。對(duì)于θ=0,存在f'(θ)=0,出現(xiàn)全局最小點(diǎn),梯度下降到這里停止。直觀理解:90反向傳播算法——訓(xùn)練協(xié)議2.2深度學(xué)習(xí)SGD在每次迭代時(shí),隨機(jī)選擇一個(gè)訓(xùn)練樣本計(jì)算梯度。這意味著每次參數(shù)更新都是基于單個(gè)樣本的信息隨機(jī)梯度下降(SGD):快速但可能不穩(wěn)定的方法每次使用單個(gè)樣本由于每次只計(jì)算一個(gè)樣本的梯度,SGD的計(jì)算速度非??欤梢栽诰€學(xué)習(xí),即在數(shù)據(jù)流式輸入時(shí)進(jìn)行模型更新。優(yōu)點(diǎn):速度快、在線學(xué)習(xí)由于每次只使用一個(gè)樣本,SGD的梯度估計(jì)受噪聲影響,導(dǎo)致收斂過程波動(dòng)很大可能難以收斂到全局最小值。缺點(diǎn):波動(dòng)大、不穩(wěn)定912.2深度學(xué)習(xí)反向傳播算法——訓(xùn)練協(xié)議BGD在每次迭代時(shí),使用所有訓(xùn)練樣本計(jì)算梯度。這意味著每次參數(shù)更新都是基于全局信息的。批量梯度下降(BGD):穩(wěn)扎穩(wěn)打的策略使用所有樣本由于使用了所有樣本,BGD能夠更準(zhǔn)確地估計(jì)梯度,因此收斂過程相對(duì)穩(wěn)定,更容易收斂到全局最小值。優(yōu)點(diǎn):精確、穩(wěn)定由于需要計(jì)算所有樣本的梯度,BGD的計(jì)算量非常大,尤其是在處理大規(guī)模數(shù)據(jù)集時(shí),速度會(huì)非常慢。缺點(diǎn):計(jì)算量大、速度慢922.2深度學(xué)習(xí)反向傳播算法——訓(xùn)練協(xié)議MBGD每次使用小批量樣本計(jì)算梯度,平衡BGD的穩(wěn)定性和SGD的速度,降低噪聲同時(shí)保持高效更新。小批量梯度下降(MBGD):兼顧效率與穩(wěn)定性的方案使用當(dāng)前小批量的全部樣本由于更高的更新頻率,模型收斂所需epoch數(shù)減少。訓(xùn)練進(jìn)程更加高效。小批量提供更準(zhǔn)確的梯度估計(jì)。有效抑制噪聲,提升訓(xùn)練的穩(wěn)定性優(yōu)點(diǎn):兼顧效率與穩(wěn)定性批量大小選擇敏感,仍存在內(nèi)存占用較高問題,對(duì)非平穩(wěn)目標(biāo)函數(shù)響應(yīng)滯后,可能陷入局部平坦區(qū)域。缺點(diǎn):易受批次大小影響932.2深度學(xué)習(xí)反向傳播算法——訓(xùn)練協(xié)議類型描述優(yōu)點(diǎn)缺點(diǎn)批量梯度下降(BGD)使用所有訓(xùn)練樣本計(jì)算梯度精確,穩(wěn)定計(jì)算量大,速度慢隨機(jī)梯度下降(SGD)每次使用單個(gè)樣本更新參數(shù)速度快,可以在線學(xué)習(xí)波動(dòng)大,不穩(wěn)定小批量梯度下降(MBGD)每次僅用小批量數(shù)據(jù)更新參數(shù)增強(qiáng)訓(xùn)練穩(wěn)定、訓(xùn)練高效批量大小選擇敏感,內(nèi)存壓力顯著,對(duì)非平穩(wěn)目標(biāo)函數(shù)響應(yīng)滯后SGDBGDOGD942.2深度學(xué)習(xí)反向傳播算法——訓(xùn)練協(xié)議學(xué)習(xí)曲線是描述神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中性能變化的重要工具。學(xué)習(xí)曲線通常包含兩條曲線:訓(xùn)練曲線——表示模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn),如訓(xùn)練損失下降、訓(xùn)練準(zhǔn)確率上升等。橙色線驗(yàn)證曲線——表示模型在驗(yàn)證數(shù)據(jù)上的表現(xiàn),用于判斷模型是否有良好的泛化能力。藍(lán)色線學(xué)習(xí)曲線最常見的兩種:損失曲線——展示模型在訓(xùn)練過程中損失值隨訓(xùn)練輪數(shù)的變化,用于判斷模型是否收斂準(zhǔn)確率曲線——展示模型在訓(xùn)練過程中準(zhǔn)確率隨訓(xùn)練輪數(shù)的變化,用于評(píng)估模型性能是否提升趨勢:隨著訓(xùn)練輪數(shù)增加,損失曲線“先降后平穩(wěn)”;準(zhǔn)確率曲線“先升后平穩(wěn)”。正常的訓(xùn)練效果952.2深度學(xué)習(xí)反向傳播算法——學(xué)習(xí)曲線與自動(dòng)微分常見“非理想”曲線表現(xiàn):ValLoss曲線上下抖動(dòng)劇烈;ValAccuracy跳來跳去原因:學(xué)習(xí)率太大(比如0.001在小模型中可能不穩(wěn)定)小批量樣本不均衡模型太小難以學(xué)到有效表示應(yīng)對(duì):減小學(xué)習(xí)率;增加batchsize;使用更穩(wěn)定的優(yōu)化器;添加BatchNorm層??情況1:驗(yàn)證損失波動(dòng)很大(訓(xùn)練不穩(wěn)定)抖動(dòng)劇烈最優(yōu)點(diǎn)大學(xué)習(xí)率小學(xué)習(xí)率962.2深度學(xué)習(xí)反向傳播算法——學(xué)習(xí)曲線與自動(dòng)微分??情況2:驗(yàn)證損失下降后開始上升(過擬合)表現(xiàn):TrainLoss持續(xù)下降;ValLoss在某個(gè)點(diǎn)開始上升;ValAccuracy停滯或下降原因:模型學(xué)會(huì)了訓(xùn)練集的細(xì)節(jié),無法泛化新數(shù)據(jù)訓(xùn)練時(shí)間太長,參數(shù)擬合了噪聲應(yīng)對(duì):正則化(Dropout/L2);數(shù)據(jù)增強(qiáng);減小模型容量;加EarlyStopping策略表現(xiàn):TrainAcc→很高(>90%);ValAcc→停留在某個(gè)值(<70%)原因:模型復(fù)雜,學(xué)習(xí)了訓(xùn)練集的細(xì)節(jié)但不能泛化數(shù)據(jù)集太小/不平衡應(yīng)對(duì):Dropout或L2正則;增加訓(xùn)練數(shù)據(jù)或數(shù)據(jù)增強(qiáng);降低模型復(fù)雜度表現(xiàn):TrainLoss不下降或下降極慢;Acc都停在低值原因:模型太簡單;學(xué)習(xí)率太小;輸入數(shù)據(jù)未標(biāo)準(zhǔn)化應(yīng)對(duì):用更深的模型;增大學(xué)習(xí)率(但別太大);檢查特征是否規(guī)范化(標(biāo)準(zhǔn)化輸入特征)??情況4:訓(xùn)練和驗(yàn)證都不收斂(欠擬合)??情況3:訓(xùn)練準(zhǔn)確率高但驗(yàn)證準(zhǔn)確率低(過擬合)972.2深度學(xué)習(xí)反向傳播算法——學(xué)習(xí)曲線與自動(dòng)微分自動(dòng)微分是描述神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中性能變化的重要工具。介于數(shù)值微分和符號(hào)微分之間的方法,采用類似有向圖的方式來求解梯度,常用的鏈?zhǔn)角髮?dǎo)法則:1.所有數(shù)值計(jì)算都由有限的基本運(yùn)算組成2.基本運(yùn)算的導(dǎo)數(shù)表達(dá)式都是已知的3.通過鏈?zhǔn)角髮?dǎo)法則將數(shù)值計(jì)算各部分組合成整體優(yōu)點(diǎn):梯度結(jié)果數(shù)值精確;能夠?qū)τ脩綦[藏求解過程;不會(huì)產(chǎn)生“表達(dá)式膨脹”問題;可以靈活結(jié)合編程語言中的循環(huán)結(jié)構(gòu)、條件結(jié)構(gòu)來使用。缺點(diǎn):由于自動(dòng)微分計(jì)算過程中需要存儲(chǔ)一些中間求導(dǎo)結(jié)果,因此會(huì)增加內(nèi)存占用。982.2深度學(xué)習(xí)反向傳播算法——學(xué)習(xí)曲線與自動(dòng)微分2.3大模型風(fēng)險(xiǎn)識(shí)別:分析多源異構(gòu)數(shù)據(jù),精準(zhǔn)識(shí)別潛在風(fēng)險(xiǎn)點(diǎn),提升監(jiān)管前瞻性。合規(guī)審查:自動(dòng)化處理監(jiān)管文檔,顯著提升審查效率,降低人工成本與操作風(fēng)險(xiǎn)。市場穩(wěn)定:輔助監(jiān)管機(jī)構(gòu)實(shí)時(shí)決策支持,維護(hù)金融市場秩序與系統(tǒng)性穩(wěn)定。應(yīng)用價(jià)值大模型(LargeLanguageModels,LLMs)指通過大規(guī)模數(shù)據(jù)訓(xùn)練構(gòu)建的、具備超大規(guī)模參數(shù)量、高度復(fù)雜性且對(duì)計(jì)算資源需求極高的深度學(xué)習(xí)模型,其參數(shù)量通常達(dá)數(shù)十億至數(shù)千億級(jí)別,對(duì)算力資源要求極高。基于深度學(xué)習(xí)算法,憑借海量參數(shù)規(guī)模、卓越的特征表征能力、強(qiáng)大的泛化性能,以及在生成式任務(wù)中展現(xiàn)的自適應(yīng)性與創(chuàng)新性,成為監(jiān)管科技的核心驅(qū)動(dòng)力。定義992.3.1大模型基礎(chǔ)架構(gòu)

定位:現(xiàn)代大語言模型(LLMs)的核心架構(gòu),憑借自注意力機(jī)制,已成為自然語言處理(NLP)領(lǐng)域的標(biāo)準(zhǔn)范式,支撐BERT、GPT等主流模型的實(shí)現(xiàn)。核心組件:編碼器-解碼器結(jié)構(gòu):由多層堆疊的Transformer模塊構(gòu)成,實(shí)現(xiàn)輸入序列的層次化特征編碼與輸出序列的精準(zhǔn)解碼。多頭自注意力機(jī)制:通過并行計(jì)算多組注意力頭,高效捕捉序列中長距離依賴關(guān)系及多維度語義關(guān)聯(lián)。位置編碼:基于正弦/余弦函數(shù)生成周期性向量,為輸入序列注入位置信息,彌補(bǔ)模型對(duì)序列順序的敏感性缺失。優(yōu)勢:支持高度并行化計(jì)算,突破循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的時(shí)間步約束,顯著提升長序列數(shù)據(jù)的處理效率與建模精度。Transformer1002.3.2大模型三大主流框架對(duì)比大模型框架結(jié)構(gòu)操作適用任務(wù)應(yīng)用代表Encoder-Only(掩碼語言模型)僅編碼器結(jié)構(gòu)(雙向上下文建模)對(duì)輸入編碼與處理文本分類、情感分析等判別式任務(wù)BERT、RoBERT、ALBERTEncoder-Decoder(序列到序列)編碼器-解碼器架構(gòu)(序列轉(zhuǎn)換建模)最大化目標(biāo)序列概率機(jī)器翻譯、對(duì)話生成GoogleT5,BARTDecoder-Only(自回歸語言模型)僅解碼器結(jié)構(gòu)(自回歸生成機(jī)制)預(yù)測序列下一個(gè)詞的條件概率文本生成、代碼生成GPT系列,Llama系列,Claude1012.3.3預(yù)訓(xùn)練目標(biāo):讓模型學(xué)習(xí)數(shù)據(jù)的統(tǒng)計(jì)規(guī)律和語義信息(詞匯、句法、上下文關(guān)系)。數(shù)據(jù)要求:海量無標(biāo)注數(shù)據(jù)(金融監(jiān)管場景:新聞、財(cái)報(bào)、會(huì)議記錄、社交媒體帖子)。數(shù)據(jù)特點(diǎn):多樣性豐富,常涉及多種話題、多種數(shù)據(jù)來源、多種語言等,需清洗整理。

預(yù)訓(xùn)練是大模型能力的基石,通過無監(jiān)督學(xué)習(xí)從海量數(shù)據(jù)中提取通用知識(shí)。1022.3.4指令微調(diào)目標(biāo):通過有監(jiān)督指令學(xué)習(xí),使模型精準(zhǔn)解析并執(zhí)行人類指令,實(shí)現(xiàn)任務(wù)導(dǎo)向的輸出生成與意圖對(duì)齊。關(guān)鍵技術(shù):參數(shù)高效微調(diào)(PEFT)核心思想:最小化可訓(xùn)練參數(shù)量,顯著降低計(jì)算開銷與存儲(chǔ)需求,適配資源受限場景。大模型的PEFT方法主要分為三種范式:1.添加式方法:引入小型神經(jīng)模塊,僅調(diào)模塊參數(shù)(如適配器微調(diào))2.指定式方法:選擇部分模型參數(shù)作為可訓(xùn)練參數(shù)3.重參數(shù)化方法:參數(shù)映射到低維空間,減少計(jì)算量訓(xùn)練方式:基于高質(zhì)量指令-響應(yīng)對(duì)數(shù)據(jù)集,對(duì)預(yù)訓(xùn)練模型進(jìn)行監(jiān)督微調(diào)。指令微調(diào)通過有監(jiān)督學(xué)習(xí)實(shí)現(xiàn)高效任務(wù)適配,是大模型落地金融監(jiān)管場景的關(guān)鍵橋梁。1032.3.5對(duì)齊微調(diào)關(guān)鍵技術(shù):基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)步驟(以金融大模型FinGPT為例):有監(jiān)督微調(diào):利用高質(zhì)量指令數(shù)據(jù)集進(jìn)行初步對(duì)齊;訓(xùn)練獎(jiǎng)勵(lì)模型:基于人類偏好數(shù)據(jù)構(gòu)建獎(jiǎng)勵(lì)函數(shù);強(qiáng)化學(xué)習(xí)微調(diào):應(yīng)用PPO算法優(yōu)化策略,最大化獎(jiǎng)勵(lì)信號(hào)。目標(biāo):確保模型輸出嚴(yán)格遵循人類價(jià)值觀與安全規(guī)范,有效抑制幻覺現(xiàn)象及有害內(nèi)容生成,提升模型的可信度與合規(guī)性。監(jiān)管應(yīng)用價(jià)值:使模型更好地理解和適應(yīng)投資者的偏好,進(jìn)一步提升模型的實(shí)用性和安全性。1042.3.6提示學(xué)習(xí)

通過結(jié)構(gòu)化提示文本設(shè)計(jì),精準(zhǔn)激活大模型的預(yù)訓(xùn)練知識(shí)與推理能力。無需修改模型參數(shù),僅通過輸入形式優(yōu)化實(shí)現(xiàn)任務(wù)適配。讓下游任務(wù)看起來更像模型預(yù)訓(xùn)練時(shí)的任務(wù)。四種主要形式零樣本提示(Zero-shot):不使用任何示例數(shù)據(jù),僅依賴結(jié)構(gòu)化提示調(diào)用模型內(nèi)在知識(shí)完成任務(wù)。少樣本提示(Few-shot):在提示中嵌入少量任務(wù)示例,增強(qiáng)模型對(duì)特定場景的理解與執(zhí)行精度。上下文學(xué)習(xí)(ICL):模型根據(jù)輸入中的前幾個(gè)示例直接生成答案,而無需額外的訓(xùn)練。思維鏈(CoT):通過分步推理提示,引導(dǎo)模型展示邏輯推導(dǎo)過程,優(yōu)化復(fù)雜任務(wù)解決能力。提示學(xué)習(xí)的作用1052.3.7工具學(xué)習(xí)環(huán)境感知與交互接口大模型需要一個(gè)能感知并調(diào)用外部工具的接口。包括API調(diào)用、系統(tǒng)命令執(zhí)行、通過預(yù)定義的交互協(xié)議與外部數(shù)據(jù)庫、軟件工具直接交流的能力。讓模型“走出”純文本的世界,與現(xiàn)實(shí)世界的數(shù)據(jù)和服務(wù)連接。指令理解與生成大模型需掌握如何構(gòu)造合適的指令或查詢語句來與工具交互。模型不僅要理解用戶請(qǐng)求的深層意圖,還要將其轉(zhuǎn)換成工具可以理解并執(zhí)行的形式。涉及自然語言到機(jī)器指令的翻譯能力。結(jié)果解釋與融合大模型需能夠理解工具執(zhí)行后返回的結(jié)果,并將其融合到后續(xù)的對(duì)話或報(bào)告中,以人類友好的方式呈現(xiàn)出來??简?yàn)?zāi)P偷慕忉屇芰蜕舷挛睦斫饽芰Α7答佈h(huán)與學(xué)習(xí)通過實(shí)際使用中的成功和失敗案例,大模型可以不斷優(yōu)化其與工具交互的能力。涉及到基于強(qiáng)化學(xué)習(xí)的方法,即根據(jù)工具使用后的結(jié)果質(zhì)量給予獎(jiǎng)勵(lì)或懲罰信號(hào),促使模型調(diào)整其行為策略。意義:為大模型補(bǔ)充信息與專業(yè)技能。1062.4知識(shí)圖譜知識(shí)圖譜也被稱為科學(xué)知識(shí)圖譜,以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其之間的關(guān)系,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的方式。知識(shí)圖譜由節(jié)點(diǎn)和邊組成,每個(gè)節(jié)點(diǎn)表示一個(gè)實(shí)體,每條邊表示一種關(guān)系,可以理解為以圖結(jié)構(gòu)存儲(chǔ)的語義網(wǎng)絡(luò)。知識(shí)圖譜的兩種主要圖數(shù)據(jù)模型——以主謂賓三元組形式描述知識(shí)的資源描述框架(RDF)和由頂點(diǎn)表示實(shí)體,邊表示實(shí)體間的關(guān)系,屬性作為一個(gè)鍵值對(duì),頂點(diǎn)和邊都支持屬性的屬性圖。107啟蒙期11950年-1977年是知識(shí)圖譜的啟蒙期。這一時(shí)期文獻(xiàn)索引的符號(hào)邏輯被提出,并逐漸成為研究當(dāng)代科學(xué)發(fā)展脈絡(luò)的常用方法。22.4知識(shí)圖譜成長期3繁榮期1977年-2012年是知識(shí)圖譜的成長期,語義網(wǎng)絡(luò)得到快速發(fā)展,知識(shí)本體的研究成為計(jì)算機(jī)科學(xué)的重要領(lǐng)域。出現(xiàn)了例如WordNet、Cyc、Hownet等大規(guī)模的人工知識(shí)庫。2012年-至今是知識(shí)圖譜的繁榮期。2012年Google公司率先提出知識(shí)圖譜概念,谷歌公司通過知識(shí)圖譜技術(shù),改善了搜索引擎性能,增強(qiáng)了用戶搜索體驗(yàn),同時(shí)也拉開了現(xiàn)代知識(shí)圖譜的篇章。108面向通用領(lǐng)域的結(jié)構(gòu)化的百科知識(shí):(1)包含了許許多多現(xiàn)實(shí)世界中的常識(shí)性知識(shí);(2)涵蓋的領(lǐng)域也非常廣。通用知識(shí)圖譜主要強(qiáng)調(diào)知識(shí)的廣度,通常運(yùn)用百科數(shù)據(jù)進(jìn)行自底向上的方法進(jìn)行構(gòu)建。通用知識(shí)圖譜強(qiáng)調(diào)廣度,因而強(qiáng)調(diào)更多的是實(shí)體,很難做到生成完整全局性的本體層的統(tǒng)一管理。通用知識(shí)圖譜特定領(lǐng)域知識(shí)圖譜經(jīng)常是用來幫助輔助各種比較復(fù)雜的分析應(yīng)用以及決策支持。在不同領(lǐng)域的構(gòu)建方案與應(yīng)用形式則有所不同。

例如:在金融領(lǐng)域中,知識(shí)圖譜提供金融知識(shí)的提取、融合、分析、推斷、決策等功能,通過數(shù)據(jù)抽取、信息提取、語義消歧、知識(shí)融合、知識(shí)加工等技術(shù),構(gòu)建金融知識(shí)圖譜,實(shí)現(xiàn)信用卡反欺詐、風(fēng)險(xiǎn)預(yù)測、智能營銷等應(yīng)用。特定領(lǐng)域知識(shí)圖譜2.4知識(shí)圖譜知識(shí)圖譜的分類方式很多,例如可以通過知識(shí)種類、構(gòu)建方法等劃分。從領(lǐng)域上來說,知識(shí)圖譜通常分為兩種:通用知識(shí)圖譜、特定領(lǐng)域知識(shí)圖譜。109明確數(shù)據(jù)源類型,,補(bǔ)充數(shù)據(jù)預(yù)處理步驟(去重、脫敏、格式標(biāo)準(zhǔn)化,如統(tǒng)一企業(yè)名稱、身份證號(hào)格式)。細(xì)化本體設(shè)計(jì)方法(如本體和關(guān)系定義),使用本體構(gòu)建工具(如Protégé、Neo4jBloom)。補(bǔ)充具體技術(shù)工具(實(shí)體識(shí)別用BERT微調(diào)模型,關(guān)系抽取用Few-Shot學(xué)習(xí),知識(shí)融合用實(shí)體鏈接工具Disambiguation)數(shù)據(jù)層知識(shí)獲取層應(yīng)用層2.4知識(shí)圖譜知識(shí)圖譜的具體構(gòu)建流程模式層明確部署架構(gòu)(離線構(gòu)建+實(shí)時(shí)更新,可以采用圖數(shù)據(jù)庫Neo4j+SparkGraphX分布式處理)。1102.4知識(shí)圖譜知識(shí)表示與知識(shí)獲取知識(shí)獲取知識(shí)表示定義:將現(xiàn)實(shí)世界復(fù)雜知識(shí)轉(zhuǎn)換為計(jì)算機(jī)可理解處理的格式,是機(jī)器智能的基礎(chǔ)(需海量常識(shí)知識(shí)支撐)。關(guān)鍵進(jìn)展:基于深度學(xué)習(xí)的表示學(xué)習(xí)(知識(shí)圖譜實(shí)體/關(guān)系映射為低維稠密向量,實(shí)現(xiàn)分布式表征)。核心價(jià)值:支撐知識(shí)圖譜語義鏈接預(yù)測、知識(shí)補(bǔ)全。實(shí)體識(shí)別是文本分析基礎(chǔ),能識(shí)別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論