高教社2026人工智能經(jīng)濟(jì)學(xué)教學(xué)課件Ch3.機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)_第1頁(yè)
高教社2026人工智能經(jīng)濟(jì)學(xué)教學(xué)課件Ch3.機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)_第2頁(yè)
高教社2026人工智能經(jīng)濟(jì)學(xué)教學(xué)課件Ch3.機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)_第3頁(yè)
高教社2026人工智能經(jīng)濟(jì)學(xué)教學(xué)課件Ch3.機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)_第4頁(yè)
高教社2026人工智能經(jīng)濟(jì)學(xué)教學(xué)課件Ch3.機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)03-16人工智能經(jīng)濟(jì)學(xué)20xx年技術(shù)分析基礎(chǔ)人工智能理論概念、發(fā)展歷程與應(yīng)用場(chǎng)景分析人工智能的經(jīng)

濟(jì)學(xué)工具機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)治理治理監(jiān)管人工智能的治理與監(jiān)管人工智能

政策制定人工智能與宏觀經(jīng)濟(jì)政策微觀經(jīng)濟(jì)人工智能的

微觀經(jīng)濟(jì)基礎(chǔ)人工智能

與市場(chǎng)競(jìng)爭(zhēng)人工智能

與要素市場(chǎng)產(chǎn)業(yè)經(jīng)濟(jì)人工智能

產(chǎn)業(yè)發(fā)展產(chǎn)業(yè)智能化:內(nèi)涵、機(jī)制與影響開放經(jīng)濟(jì)人工智能與

全球價(jià)值鏈人工智能的國(guó)際投資宏觀經(jīng)濟(jì)人工智能與經(jīng)濟(jì)增長(zhǎng)人工智能與經(jīng)濟(jì)周期框架模塊章節(jié)課程結(jié)構(gòu)人工智能與

經(jīng)濟(jì)社會(huì)發(fā)展經(jīng)濟(jì)機(jī)器學(xué)習(xí)概述明晰機(jī)器學(xué)習(xí)的概念與發(fā)展歷程理解機(jī)器學(xué)習(xí)操作的一般流程與常用方法機(jī)

學(xué)

習(xí)

經(jīng)理

機(jī)

器學(xué)習(xí)

經(jīng)

濟(jì)

學(xué)中

應(yīng)

用濟(jì)

學(xué)

應(yīng)

用主

經(jīng)

濟(jì)

預(yù)

測(cè)

析、

風(fēng)

險(xiǎn)

評(píng)

語(yǔ)

型的

標(biāo)

構(gòu)

建對(duì)于經(jīng)濟(jì)學(xué)研

究方法的影響明晰機(jī)器學(xué)習(xí)對(duì)經(jīng)濟(jì)學(xué)研究方法的改進(jìn)主要包括數(shù)據(jù)處理與分析能力、因果推斷與關(guān)系識(shí)別以及模型構(gòu)建與優(yōu)化掌握機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)廣泛應(yīng)用的阻礙與應(yīng)對(duì)策略主要包括數(shù)據(jù)質(zhì)量與可靠性問題、模型解釋性與可理解性以及倫理與法律問題3本講內(nèi)容應(yīng)用于經(jīng)濟(jì)學(xué)

的挑戰(zhàn)與應(yīng)對(duì)02理解機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)領(lǐng)域中的主流應(yīng)用04學(xué)會(huì)運(yùn)用機(jī)器學(xué)習(xí)的算法與技術(shù)

挖掘各類經(jīng)濟(jì)數(shù)據(jù)01理解機(jī)器學(xué)習(xí)的基本原理、

學(xué)習(xí)范式和主要流程03掌握機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)相互結(jié)合涉及的理論與技術(shù)要點(diǎn)本章學(xué)習(xí)要點(diǎn)3.1機(jī)器學(xué)習(xí)概述理解機(jī)器學(xué)習(xí)的基本原理、學(xué)習(xí)范式和主要流程機(jī)器學(xué)習(xí)的分類監(jiān)督學(xué)習(xí)(Supervised

Learning).

過已有標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)輸入與輸出之間的映射關(guān)系.

新郵件分類;檢測(cè)障礙物無監(jiān)督學(xué)習(xí)(Unsupervised

Learning).

側(cè)重于在未標(biāo)記數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和模式.

劃分客戶群體以制定個(gè)性化營(yíng)銷策略強(qiáng)化學(xué)習(xí)(Reinforcement

Learning).

通過智能體在環(huán)境中不斷試錯(cuò)并根據(jù)獎(jiǎng)勵(lì)反饋來學(xué)習(xí)最優(yōu)策略,也被視為機(jī)器的“條件反射”過程.

例子:掃地機(jī)器人的路徑規(guī)劃;AlphaGo

圍棋深度學(xué)習(xí)(Deep

Learning).利

用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)提取數(shù)據(jù)的高級(jí)特征.語(yǔ)音識(shí)別、自然語(yǔ)言處理;遷移學(xué)習(xí)、對(duì)抗學(xué)習(xí)待處理郵件正常郵件分類算法識(shí)別垃圾郵件分類模型一、機(jī)器學(xué)習(xí)的定義與概念·

機(jī)器學(xué)習(xí)(Machine

Learning)是人工智能的核心分支,致力于讓計(jì)算機(jī)系統(tǒng)具備像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí)的能力·

其本質(zhì)是讓計(jì)算機(jī)通過數(shù)據(jù)自動(dòng)發(fā)現(xiàn)規(guī)律,而非依賴顯式編程一

個(gè)

簡(jiǎn)

:垃圾郵件分類模型的訓(xùn)練與應(yīng)用批量已分類郵件分類算法訓(xùn)練數(shù)據(jù)數(shù)據(jù)是機(jī)器學(xué)習(xí)得以開展的根

基,是機(jī)器學(xué)習(xí)的“養(yǎng)料”、“燃料”結(jié)構(gòu)化數(shù)據(jù).具有明確的格式和組織方式,常見于數(shù)據(jù)庫(kù)中的表格形式(如Excel).一張典型的個(gè)人信息表(員工姓名、年齡、性別、職位等)非結(jié)構(gòu)化數(shù)據(jù).沒有明顯固定結(jié)構(gòu)的數(shù)據(jù),如文本文件、圖像、音頻和視頻等.

在機(jī)器學(xué)習(xí)中,大量的非結(jié)構(gòu)化數(shù)據(jù)能夠?yàn)闄C(jī)器提供充足的“學(xué)習(xí)素材”,使其能夠更全面、深入地挖掘出數(shù)據(jù)背后隱藏的各種模式和規(guī)律半結(jié)構(gòu)化數(shù)據(jù).

于結(jié)構(gòu)化與非結(jié)構(gòu)化之間,具有

一定的結(jié)構(gòu),但并不遵循固定的格式(如XML、JSON)結(jié)合了結(jié)構(gòu)化數(shù)據(jù)的組織性和非結(jié)構(gòu)化數(shù)據(jù)的靈活性,能夠承載多種類型的信息,更容易在不同系統(tǒng)和應(yīng)用之間集成和轉(zhuǎn)換筆記內(nèi)容非結(jié)構(gòu)化的文本用戶標(biāo)簽半結(jié)構(gòu)化的信息發(fā)布時(shí)間結(jié)構(gòu)化的時(shí)間戳中財(cái)小糯米中央財(cái)經(jīng)大學(xué)攻略之喵咪篇總

在中財(cái)大,有這么

群小精靈無論淑女風(fēng)度還是暴躁脾氣,平易近人還是高貴

冷艷,它們無意間能讓時(shí)間放慢,甚至可愛到讓

你傾盡溫柔……在期末之際,ta們變身“期末好

運(yùn)貓”、“學(xué)術(shù)貓”、“學(xué)霸貓”,給cufer

們帶來好運(yùn)!讓我們一起走進(jìn)它們的世界吧+怒

校園里的流浪貓未接種狂犬疫苗,小心被抓

傷!記住這些小知識(shí),讓我們更好地與貓咪相處!

養(yǎng)成正確的擼貓習(xí)慣,既能保護(hù)自己,也能保護(hù)

小可愛們的健康。快分享給身邊的cufer們,讓更

多人了解這些重要信息吧!#科普教育#貓咪小貼

士#安全擼貓希望這些小知識(shí)能幫到大家,祝大家在校園里與

小貓咪們愉快相處!#中央財(cái)經(jīng)大學(xué)#日常增貓合集

中財(cái)大校園攻略機(jī)器學(xué)習(xí)的關(guān)鍵要素·

機(jī)器學(xué)習(xí)的關(guān)鍵構(gòu)成要素包括:數(shù)據(jù)、模型、訓(xùn)練與測(cè)試·

在監(jiān)督學(xué)習(xí)這一類型的機(jī)器學(xué)習(xí)中,特征和標(biāo)簽也成為額外的關(guān)鍵要素模型模型是機(jī)器學(xué)習(xí)的核心組件,也被視為機(jī)器學(xué)習(xí)的“大腦”

基于各種數(shù)學(xué)和統(tǒng)計(jì)學(xué)原理構(gòu)建而成的一種抽象結(jié)構(gòu),通

過特定的算法來確定其內(nèi)部的參數(shù)和運(yùn)作方式線性回歸.最基礎(chǔ)、常用的算法模型.房屋租賃或買賣軟件,學(xué)習(xí)大量已知房屋價(jià)格與特征的數(shù)據(jù)確定每個(gè)特征對(duì)應(yīng)的系數(shù),從而構(gòu)建出一個(gè)具有預(yù)測(cè)能

力的線性方程決策樹(DecisionTree)常用的模型,是一種監(jiān)督學(xué)習(xí)方法,它的結(jié)構(gòu)和邏輯與人

類思考問題的方式更加類似形似一棵倒立的樹,通過對(duì)數(shù)據(jù)特征的層層劃分和判斷來做出決策或分類根節(jié)點(diǎn)人分支條件判斷葉節(jié)點(diǎn)(決策)某動(dòng)物體溫恒定溫血?jiǎng)游锾ド?/p>

卵生哺乳動(dòng)物

非哺乳動(dòng)物居室3室2廳2衛(wèi)·

房屋面積

188·

樓層信息3

10裝修類型(選填)m2總層數(shù)毛坯豪華裝簡(jiǎn)裝戶型朝向(選填)繼續(xù)填寫,估價(jià)更精確16:39

幢←房屋估價(jià)結(jié)合房屋情況、行情等提供估價(jià)參考機(jī)器學(xué)習(xí)的關(guān)鍵要素填寫房屋信息

估價(jià)歷史》城市

北京保存本次估價(jià)記錄,便于后續(xù)查看貝殼找房軟件的房?jī)r(jià)預(yù)測(cè)決

樹8體溫不恒定冷血?jiǎng)游锓种l件判斷葉節(jié)點(diǎn)(決策)精裝非哺乳動(dòng)物·

小區(qū)

萬柳書院測(cè)試是對(duì)訓(xùn)練完成的模型性能進(jìn)行評(píng)估與驗(yàn)證使用與訓(xùn)練數(shù)據(jù)不同的測(cè)試數(shù)據(jù),將其輸入到已訓(xùn)練完成的模型中,觀察模型的輸出結(jié)果并與真實(shí)標(biāo)簽或結(jié)果進(jìn)行對(duì)比評(píng)估指標(biāo).

準(zhǔn)確率(Accuracy):預(yù)測(cè)正確的結(jié)果占總樣本的百分比,代表整體(包括正樣本和負(fù)樣本)的預(yù)測(cè)準(zhǔn)確程度精確率(Precision):在被預(yù)測(cè)為正的樣本中實(shí)際為正樣本的概率,代表

對(duì)正樣本結(jié)果的預(yù)測(cè)準(zhǔn)確程度召回率(Recall):在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率F1值:精確率和召回率的調(diào)和平均數(shù),F(xiàn)1=2*

精確率*召回率/(精確率+召

回率),0表示最差性能,1表示最佳性能過擬合問題.

:模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在測(cè)試數(shù)據(jù)上卻出現(xiàn)了較大偏差

.模型過度地適應(yīng)了訓(xùn)練數(shù)據(jù)的特點(diǎn),缺乏對(duì)新數(shù)據(jù)的適應(yīng)性和泛化能力訓(xùn)練是機(jī)器學(xué)習(xí)模型不斷優(yōu)化和學(xué)習(xí)的過程基本邏輯.

計(jì)算機(jī)將大量的訓(xùn)練數(shù)據(jù)輸入到選定的模型中,模型根據(jù)預(yù)先

設(shè)定的算法和目標(biāo)函數(shù),對(duì)數(shù)據(jù)進(jìn)行分析和處理并不斷調(diào)整自

身參數(shù),以使模型對(duì)訓(xùn)練數(shù)據(jù)的擬合程度越來越好圖像分類模型的訓(xùn)練.將大量已標(biāo)注好類別的圖像數(shù)據(jù)(蛋糕和非蛋糕的照片)輸入

模型.

模型通過計(jì)算圖像特征與類別之間的關(guān)系,逐步調(diào)整內(nèi)部參數(shù)

.

最終獲得能夠準(zhǔn)確判斷出訓(xùn)練集中圖像所屬類別的能力機(jī)器學(xué)習(xí)的關(guān)鍵要素9機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的關(guān)鍵要素監(jiān)督學(xué)習(xí)就是讓模型通過對(duì)大量包含特征和標(biāo)簽的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),從而建立起特征與標(biāo)簽之間的映射關(guān)系或函數(shù)模型·當(dāng)模型學(xué)習(xí)完成后,對(duì)于新的只包含特征的數(shù)據(jù)實(shí)例,模型就能夠依據(jù)所學(xué)的關(guān)系預(yù)測(cè)出相應(yīng)的標(biāo)簽值·當(dāng)輸入一組新的股票特征數(shù)據(jù)或宏觀經(jīng)濟(jì)數(shù)據(jù)時(shí),模型就能夠預(yù)測(cè)出這只股票未來的價(jià)格走向或未來一段時(shí)期的GDP

增速,特征用來描述數(shù)據(jù)實(shí)例的各種屬性或變量所有特征共同構(gòu)成了對(duì)所研究問題在某一時(shí)刻狀態(tài)的描述,是模型進(jìn)行學(xué)習(xí)和預(yù)測(cè)的依據(jù)預(yù)測(cè)股票價(jià)格走勢(shì):股票的開盤價(jià)、收盤價(jià)、最高價(jià)、

最低價(jià)、成交量、市盈率和市凈率等可以作為特征預(yù)測(cè)經(jīng)濟(jì)增長(zhǎng)速度:居民消費(fèi)、企業(yè)投資意愿、資本

市場(chǎng)表現(xiàn)、出口規(guī)模等可以作為特征標(biāo)簽訓(xùn)練者期望模型能夠預(yù)測(cè)出來的目標(biāo)結(jié)果.預(yù)測(cè)股票價(jià)格走勢(shì):未來某一天的股票價(jià)格就是標(biāo)簽.預(yù)測(cè)經(jīng)濟(jì)增長(zhǎng)速度:

一季度或一年的GDP

增速就是標(biāo)簽Supervised

Learning

10從而為投資者或經(jīng)濟(jì)政策制定者提供決策參考二、機(jī)器學(xué)習(xí)的發(fā)展歷程·機(jī)器學(xué)習(xí)起源于數(shù)學(xué)與計(jì)算機(jī)科學(xué),歷經(jīng)符號(hào)主義(感知機(jī))到聯(lián)結(jié)主義(深度學(xué)習(xí))的演變·

由于具備數(shù)據(jù)驅(qū)動(dòng)、算法自適應(yīng)迭代等特點(diǎn),

ML

廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理及自主系統(tǒng)領(lǐng)域

起源與早期探索(18世紀(jì)-20世紀(jì)中葉)早期數(shù)學(xué)領(lǐng)域的研究為機(jī)器學(xué)習(xí)的發(fā)展奠定了基礎(chǔ)貝葉斯定理(Bayes

Theorem,18世

紀(jì)

).依據(jù)已有的知識(shí)或經(jīng)驗(yàn)(先驗(yàn)概率),結(jié)合新的數(shù)據(jù)信息

(條件概率),對(duì)未知情況進(jìn)行概率推斷,為預(yù)測(cè)分析提供

了理論基礎(chǔ)(先驗(yàn)+條件=預(yù)測(cè))最小二乘法(OLS,1806

年).

主要用于回歸分析,其核心是通過最小化誤差的平方和找到數(shù)據(jù)的最佳擬合直線或曲線.

在預(yù)測(cè)任務(wù)中,最小二乘法能確定一個(gè)合適的線性模型,使

得預(yù)測(cè)值與真實(shí)值之間的誤差平方和最小人工神經(jīng)元模型(1943年).

沃倫·麥卡洛克和沃爾特·皮茨發(fā)表提出人工神經(jīng)元模型從神經(jīng)生理學(xué)角度出發(fā),展示了神經(jīng)元如何通過“興奮”和“抑制”的狀態(tài)來處理信息,以及多個(gè)神經(jīng)元如何組合起來

進(jìn)行邏輯運(yùn)算為神經(jīng)網(wǎng)絡(luò)的概念奠定了理論基礎(chǔ)圖靈測(cè)試(1950年)艾倫

·

圖靈提出圖靈測(cè)試來判斷計(jì)算機(jī)是否具有智能,為機(jī)器學(xué)習(xí)的發(fā)展提供了重要理論基礎(chǔ),啟發(fā)了之后的研究者沿

著機(jī)器學(xué)習(xí)這一技術(shù)路徑開發(fā)人工智能技術(shù)數(shù)學(xué)領(lǐng)域

神經(jīng)生理學(xué)與計(jì)算機(jī)科學(xué)111957年由康奈爾大學(xué)的弗蘭克·

羅森布拉特教授提出.

一種簡(jiǎn)單的前向人工神經(jīng)網(wǎng)絡(luò),能夠通過迭代試錯(cuò)解決二元線性分類問題意

義:.

開創(chuàng)了監(jiān)督學(xué)習(xí)的先河,標(biāo)志著神經(jīng)網(wǎng)絡(luò)研究的起點(diǎn).

通過自動(dòng)調(diào)整權(quán)重來讓機(jī)器學(xué)會(huì)分類任務(wù)的可能性.

輸入層、輸出層和連接它們的權(quán)重組成(與神經(jīng)元類似)工作原理:將輸入數(shù)據(jù)與對(duì)應(yīng)的權(quán)重相乘后求

和,得到一個(gè)加權(quán)和的值,然后通過一個(gè)激活函數(shù)產(chǎn)生輸出例如:加權(quán)和大于閾值,輸出為1,

表示屬于某一類別;加權(quán)和小于閾

值,輸出為0,則表示屬于另一類別感知機(jī)(Perceptron)感知機(jī)是可以模擬人類感知能力的機(jī)器提

出:

結(jié)

構(gòu):輸入1輸入2激活函數(shù)f

輸出權(quán)重3輸入3權(quán)重4輸入4初步發(fā)展階段(20世紀(jì)50-70年代)突觸軸突軸突末梢輸入層

隱藏層

輸出層感知機(jī)的原理輸出層

(

)大腦神經(jīng)元細(xì)胞體細(xì)胞核隱

層(

細(xì)

)輸入層(

)權(quán)重2加權(quán)

∑權(quán)重1樹突12對(duì)特征空間進(jìn)行劃分提

出:.

Cover

&Hart,1967.

測(cè)量不同樣本特征之間的距離,找到訓(xùn)練集中與測(cè)試數(shù)

據(jù)最為相似的前K個(gè)數(shù)據(jù),進(jìn)而確定測(cè)試數(shù)據(jù)的類別意

義:.

原理簡(jiǎn)單,不需要進(jìn)行大量的數(shù)學(xué)推導(dǎo)和模型訓(xùn)練

.

只需要計(jì)算距離、選擇鄰居和進(jìn)行投票等簡(jiǎn)單操作

.

得到了廣泛應(yīng)用應(yīng)用場(chǎng)景:商品推薦:通過用戶歷史行為數(shù)據(jù)構(gòu)建高維空間,尋找相似用戶群體的偏好(如"購(gòu)買了X

商品的用戶也喜歡Y")

癌癥亞型分類:基于基因表達(dá)譜數(shù)據(jù),通過KNN

聚類發(fā)

現(xiàn)與已知判

:A

點(diǎn)屬于哪一類?計(jì)算A點(diǎn)到每個(gè)已知類別的點(diǎn)的距離,然后對(duì)所有已知點(diǎn)進(jìn)行排序,選取前K個(gè)最

近的點(diǎn),最后通過設(shè)定K值就可以確定A

點(diǎn)屬于哪一類K=3時(shí),A

屬于種類2(六邊形)K=5時(shí),A

屬于種類1(方塊)工作原理:如果一個(gè)樣本附近的K個(gè)最近樣本的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別(物以類聚)K-近鄰算法(K-NearestNeighbors,KNN)初步發(fā)展階段(20世紀(jì)50-70年代)13卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural

Network,CNN)提

出:1989年,楊立昆(Yann

LeCun)提出完備的卷積神經(jīng)網(wǎng)絡(luò)(CNN)計(jì)算模型,并推導(dǎo)出基于反向傳播

(Error

Back

Propagation,BP)算法的高效訓(xùn)練方法結(jié)

構(gòu)

理:.

卷積層:通過卷積核自動(dòng)提取輸入數(shù)據(jù)的特征,網(wǎng)絡(luò)層數(shù)的增加,提取的特征也越來越抽象

.

池化層:減少數(shù)據(jù)的維度,在保留特征信息的同時(shí)有效減少數(shù)據(jù)量.

全連接層:利用提取的特征進(jìn)行分類或回歸意

義:.

專門為處理具有網(wǎng)格結(jié)構(gòu)的

數(shù)據(jù)(如圖像、音頻)而設(shè)

計(jì)的深度學(xué)習(xí)模型應(yīng)

:人臉識(shí)別、醫(yī)學(xué)影像輸入

輸出卷積層

池化層

全連接層14卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別結(jié)構(gòu)過程Hopfield神經(jīng)網(wǎng)絡(luò)提

出:.

1982年,美國(guó)生物物理學(xué)家約翰

·霍普菲爾德與合作者結(jié)

構(gòu)

理:.

全連接:每個(gè)神經(jīng)元與其他所有神經(jīng)元相連,無輸入

輸出層之分意

義:.

神經(jīng)元之間相互連接形成循環(huán)結(jié)構(gòu),打破了傳統(tǒng)神經(jīng)

網(wǎng)絡(luò)的局限,賦予了網(wǎng)絡(luò)處理信息的新方式與新能力.

為循環(huán)神經(jīng)網(wǎng)絡(luò)的奠定基礎(chǔ)技術(shù)突破階段(20世紀(jì)80年代-21世紀(jì)初)Hopfield神經(jīng)網(wǎng)絡(luò)的循環(huán)結(jié)構(gòu)XGBoost(eXtreme

GradientBoosting)結(jié)構(gòu)與原理:.

基于隨機(jī)森林進(jìn)一步優(yōu)化,采用梯度提升框架,通過不斷迭代地?cái)M合殘差來提升模型的準(zhǔn)確性意

義:.

預(yù)測(cè)精度高.

應(yīng)用:金融領(lǐng)域的風(fēng)險(xiǎn)評(píng)估、電商領(lǐng)域的推薦系統(tǒng)15技術(shù)突破階段(20世紀(jì)80年代-21世紀(jì)初)·

21世紀(jì)初,作為機(jī)器學(xué)習(xí)的一種核心方法論,集成學(xué)習(xí)(Ensemble

Learning)受到廣泛關(guān)注:結(jié)合多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果,顯著提升模型的泛化能力和魯棒性·

集成學(xué)習(xí)的核心思想是“群體智慧優(yōu)于個(gè)體”,廣泛應(yīng)用于分類、回歸和異常檢測(cè)等任務(wù)

特征隨機(jī)森林XGBoost集成類型并行(Bagging)串行(Boosting)基學(xué)習(xí)器(Base

Learners)多顆獨(dú)立決策樹多顆弱相關(guān)決策樹樣本處理有放回采樣(Bootstrap)全樣本訓(xùn)練樹間關(guān)系獨(dú)立強(qiáng)依賴并行性天然支持并行單顆樹內(nèi)部節(jié)點(diǎn)可并行,整體串行隨

機(jī)

林(RandomForest)結(jié)構(gòu)與原理:.

通過構(gòu)建多個(gè)決策樹并集成其結(jié)果,提供了較高的準(zhǔn)確率和穩(wěn)健性意

義:.

抗過擬合能力強(qiáng)訓(xùn)練快、易并行深度信念網(wǎng)絡(luò)(DeepBelief

Networks,DBN)提

出:2006年,“神經(jīng)網(wǎng)絡(luò)之父”杰弗里

·辛頓結(jié)構(gòu)與原理:采用逐層訓(xùn)練的方式,解決了深層次神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題通過逐層訓(xùn)練為整個(gè)網(wǎng)絡(luò)賦予了較好的初始權(quán)值,使得網(wǎng)絡(luò)只要經(jīng)過微調(diào)就可以達(dá)到最優(yōu)解,從而為深度學(xué)習(xí)提供了一個(gè)基礎(chǔ)性模型意

義:.

為深度學(xué)習(xí)的發(fā)展奠定基礎(chǔ)一個(gè)四層結(jié)構(gòu)的DBN

結(jié)構(gòu)深度學(xué)習(xí)技術(shù)應(yīng)用廣泛深度學(xué)習(xí)通過構(gòu)建深層次的神經(jīng)網(wǎng)絡(luò),能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)的層次化特征表示,在圖像識(shí)別、語(yǔ)音識(shí)別等任務(wù)上取得了突破性成果.

計(jì)算機(jī)視覺:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法(如YOLO).

自然語(yǔ)言處理:Transformer架構(gòu)及其衍生模型(如BERT和GPT系列)

.

語(yǔ)音助手應(yīng)用:蘋果的Siri、亞馬遜的Alexa、華為的小藝深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí):.

圍棋:AlphaGo.

電子游戲:吃豆人,OpenAIFiveDota2機(jī)器人:宇樹科技的機(jī)器人集成了深度學(xué)習(xí)(環(huán)境感知、自主決策)

與強(qiáng)化學(xué)習(xí)(運(yùn)動(dòng)控制、能耗優(yōu)化)技術(shù),在實(shí)時(shí)性、輕量化部署和

動(dòng)態(tài)場(chǎng)景適應(yīng)能力上展現(xiàn)了顯著優(yōu)勢(shì)自動(dòng)駕駛:特斯拉的Autopilot系統(tǒng)、華為智駕ADS3.0等系統(tǒng)16深度學(xué)習(xí)浪潮(2006年后)模型評(píng)估與調(diào)優(yōu)模型評(píng)估使用測(cè)試數(shù)據(jù)評(píng)估訓(xùn)練好的模型·

測(cè)試數(shù)據(jù):獨(dú)立于訓(xùn)練數(shù)據(jù)的

另一部分?jǐn)?shù)據(jù)模型調(diào)優(yōu)通過評(píng)估指標(biāo)判斷模型在新數(shù)據(jù)上

的表現(xiàn),若模型不理想則需要調(diào)優(yōu)·調(diào)整模型超參數(shù):決策樹的深

度、支持向量機(jī)的核函數(shù)參數(shù)·

采用集成學(xué)習(xí)的方法,將多個(gè)

模型組合以提高模型整體性能:

隨機(jī)森林模型選擇與訓(xùn)練模型選擇依據(jù)問題類型和數(shù)據(jù)特點(diǎn)·

預(yù)測(cè)數(shù)值型變量且數(shù)據(jù)呈現(xiàn)線

性關(guān)系:線性回歸模型·

分類問題且數(shù)據(jù)特征復(fù)雜:決策樹或支持向量機(jī)(SupportVector

Machine,SVM)模型訓(xùn)練·

使用預(yù)訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行

訓(xùn)練,使用驗(yàn)證數(shù)據(jù)集調(diào)整模

型參數(shù)·

使用評(píng)估指標(biāo)衡量模型性能:均方誤差(MSE)、

準(zhǔn)確率等模型部署與應(yīng)用模型部署·

經(jīng)過評(píng)估和調(diào)優(yōu)后的模型達(dá)到

令人滿意了的性能,就可以將

其部署到實(shí)際應(yīng)用環(huán)境中應(yīng)用考量·

需要考慮模型的可擴(kuò)展性、穩(wěn)

定性、與現(xiàn)有系統(tǒng)的兼容性·

因?yàn)殡S著時(shí)間推移,現(xiàn)有模型

可能不再能夠進(jìn)行有效預(yù)測(cè),

需要訓(xùn)練新的模型進(jìn)行替代數(shù)據(jù)收集與預(yù)處理收集到的原始數(shù)據(jù)存在問題·缺失值:均值填充、中位數(shù)填

充或插值方法·異常值:根據(jù)數(shù)據(jù)的分布和業(yè)

務(wù)知識(shí)進(jìn)行識(shí)別與修正·特征工程:格式統(tǒng)一轉(zhuǎn)換,如

將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)不同渠道收集的數(shù)據(jù)·

需要清洗與整合,以形成能夠用于后續(xù)模型訓(xùn)練的數(shù)據(jù)集三、機(jī)器學(xué)習(xí)的一般流程機(jī)器學(xué)習(xí)通過迭代優(yōu)化模型參數(shù),最終實(shí)現(xiàn)對(duì)新數(shù)據(jù)的預(yù)測(cè)或決策17數(shù)據(jù)收集與預(yù)處理數(shù)據(jù)收集·

收集大量數(shù)據(jù):產(chǎn)品類別、價(jià)

格、歷史銷售數(shù)據(jù)、促銷活動(dòng)記錄以及用戶評(píng)價(jià)數(shù)據(jù)預(yù)處理·

采用均值填充處理缺失的銷售

數(shù)據(jù)·

利用文本清洗工具去除用戶評(píng)

價(jià)中的噪聲信息(無用的標(biāo)點(diǎn)

符號(hào)和錯(cuò)別字)·

將文本轉(zhuǎn)化為可供分析的結(jié)構(gòu)

化數(shù)據(jù)·

對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使不

同特征的數(shù)據(jù)具有相似的尺度模型選擇與訓(xùn)練模型選擇·

選用隨機(jī)森林回歸模型——處

理具有復(fù)雜特征關(guān)系的數(shù)據(jù)時(shí)

表現(xiàn)良好,能夠避免過擬合模型訓(xùn)練·

將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練

集和驗(yàn)證集,利用訓(xùn)練集對(duì)隨

機(jī)森林模型進(jìn)行訓(xùn)練·

模型根據(jù)數(shù)據(jù)中的特征(價(jià)格、歷史銷量等)學(xué)習(xí)預(yù)測(cè)銷量·

模型不斷調(diào)整內(nèi)部參數(shù),以最

小化預(yù)測(cè)值與訓(xùn)練集中實(shí)際銷

量值之間的誤差·通過多次迭代逐漸優(yōu)化模型模型評(píng)估與調(diào)優(yōu)模型評(píng)估·

使用驗(yàn)證集對(duì)訓(xùn)練好的隨機(jī)森

林模型進(jìn)行評(píng)估·

初次評(píng)估結(jié)果顯示,模型的預(yù)

測(cè)誤差有優(yōu)化空間模型調(diào)優(yōu)·

調(diào)整隨機(jī)森林中樹的數(shù)量、樹

的深度等超參數(shù)·

通過網(wǎng)格搜索方法,對(duì)不同超

參數(shù)組合進(jìn)行測(cè)試,找到使模

型在驗(yàn)證集上評(píng)估指標(biāo)最優(yōu)的

超參數(shù)設(shè)置·

調(diào)優(yōu)后,模型的均方誤差顯著

降低,預(yù)測(cè)準(zhǔn)確性得到提高模型部署與應(yīng)用模型部署·

電商平臺(tái)A

將其部署到自身的運(yùn)

營(yíng)系統(tǒng)中模型應(yīng)用·

有新產(chǎn)品上架或者產(chǎn)品數(shù)據(jù)有

更新時(shí),模型會(huì)自動(dòng)獲取相關(guān)

數(shù)據(jù)并進(jìn)行銷量預(yù)測(cè)·

庫(kù)存管理部門依據(jù)預(yù)測(cè)結(jié)果提

前規(guī)劃庫(kù)存(促銷活動(dòng)前提前

增加熱門產(chǎn)品的庫(kù)存;減少銷

量不佳產(chǎn)品的庫(kù)存積壓)·

提高了平臺(tái)A

的整體運(yùn)營(yíng)效率和

利潤(rùn)案例1:電商平臺(tái)A利用機(jī)器學(xué)習(xí)預(yù)測(cè)產(chǎn)品銷量,以優(yōu)化庫(kù)存管理18非線性回歸多項(xiàng)式回歸多項(xiàng)式回歸可以擬合多項(xiàng)式函數(shù)形式的經(jīng)濟(jì)關(guān)系,例如在分析稅收與經(jīng)濟(jì)增長(zhǎng)的關(guān)系時(shí),多項(xiàng)式回歸就可以捕

捉到稅收在不同階段對(duì)經(jīng)濟(jì)增長(zhǎng)的不同影響支持向量回歸(Support

Vector

Regression,SVR).一種基于支持向量機(jī)(SVM)

的回歸方法.可以很好地處理小樣本、高維經(jīng)濟(jì)數(shù)據(jù).分析新興產(chǎn)業(yè)的企業(yè)財(cái)務(wù)數(shù)據(jù)與市場(chǎng)估值的關(guān)系時(shí),支

持向量回歸能夠挖掘出復(fù)雜的非線性模式,提供更準(zhǔn)確

的預(yù)測(cè)線性回歸嶺回歸(Ridge

Regression)拉索回歸(Lasso

Regression).

研究多個(gè)經(jīng)濟(jì)變量(如各種經(jīng)濟(jì)指標(biāo)對(duì)GDP

的影響)之間的關(guān)系時(shí),由于這些變量可能高度相關(guān),因此普通的線

性回歸估計(jì)會(huì)變得不穩(wěn)定嶺回歸和拉索回歸是線性回歸的變體,處理經(jīng)濟(jì)學(xué)數(shù)據(jù)時(shí)可以應(yīng)對(duì)多重共線性問題通過在損失函數(shù)中加入懲罰項(xiàng),能夠收縮系數(shù),使得模型

更加穩(wěn)健,并且可以自動(dòng)進(jìn)行變量選擇,從而從眾多經(jīng)濟(jì)

變量中篩選出對(duì)結(jié)果有重要影響的因素四、機(jī)器學(xué)習(xí)的常用方法回歸分析19輸入決策樹2輸出隨機(jī)森林分類器.隨機(jī)森林是基于決策樹的集成學(xué)習(xí)算法.

理復(fù)雜的分類問題:如經(jīng)濟(jì)危機(jī)的預(yù)警分類,可將經(jīng)濟(jì)狀態(tài)分為正常、危機(jī)前兆、危機(jī)爆發(fā)等類別.減少單個(gè)決策樹的過擬合問題,提高分類的準(zhǔn)確性和穩(wěn)

定性評(píng)估每個(gè)特征在分類過程中的重要性,識(shí)別出關(guān)鍵因素決策樹分類器決策樹清晰地展示出經(jīng)濟(jì)決策的過程和依據(jù)處理離散型經(jīng)濟(jì)變量的分類問題:企業(yè)的行業(yè)類別、產(chǎn)品

的市場(chǎng)定位、個(gè)人的工作類型批

準(zhǔn)是是×否×否是分類算法:優(yōu)化經(jīng)濟(jì)決策是否有房產(chǎn)是是否有貸款輸入否是否老年是X銀行貸款審批的決策樹評(píng)估模型是否隨機(jī)森林模型否

批準(zhǔn)是

準(zhǔn)決策樹3決策樹1批

準(zhǔn)否否20K-

類(K-means

Clustering).聚類分析是一種無監(jiān)督學(xué)習(xí)方法K-均值聚類以樣本間距離為基礎(chǔ),將所有的觀測(cè)劃分到K

個(gè)群體,使得群體和群體之間的距離盡量大,同時(shí)群體內(nèi)

部的觀測(cè)之間的“距離和”最小在經(jīng)濟(jì)學(xué)中,

K-均值聚類可以用于劃分經(jīng)濟(jì)主體的群體。例如,在市場(chǎng)細(xì)分方面,可以根據(jù)消費(fèi)者的消費(fèi)行為(如

購(gòu)買頻率、購(gòu)買金額、品牌偏好等)將消費(fèi)者劃分為不同

的群體層

類(HierarchicalClustering)也稱系統(tǒng)聚類,根據(jù)個(gè)體間距離將個(gè)體向上兩兩聚

合,再將聚合的小群體兩兩聚合,

一直到聚合為一

個(gè)整體在經(jīng)濟(jì)學(xué)中,層次聚類多用于宏觀綜合評(píng)價(jià)。例如,

在研究產(chǎn)業(yè)集群?jiǎn)栴}時(shí),層次聚類可以根據(jù)企業(yè)的

產(chǎn)業(yè)關(guān)聯(lián)度、地理位置、技術(shù)水平等因素,逐步將

企業(yè)劃分到不同層次的集群中聚類分析:洞察群體特征層次聚類示意圖21典型的K-均值聚類模型3.2機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中的應(yīng)用理解機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)領(lǐng)域中的主流應(yīng)用研究發(fā)現(xiàn)提高了對(duì)宏觀經(jīng)濟(jì)的預(yù)測(cè)精度(GouletCoulombe

et

al.,2020)在機(jī)器學(xué)習(xí)用于宏觀經(jīng)濟(jì)預(yù)測(cè)的過程中,

非線性特征是核心,通過模型與非線性函數(shù)結(jié)合(如經(jīng)主成分分析獲取因子后與非

線性函數(shù)結(jié)合)可以顯著提升預(yù)測(cè)準(zhǔn)確性為

度GDP

走勢(shì)預(yù)測(cè)創(chuàng)新研究帶來突破

(何強(qiáng)和董志勇,2020).

基于機(jī)器學(xué)習(xí)模型,對(duì)中國(guó)2011-2018年

季度GDP增速進(jìn)行預(yù)測(cè)分析對(duì)解釋變量集添加懲罰約束,可以有效處

理大數(shù)據(jù)維度較高的問題預(yù)測(cè)季度GDP增速的最優(yōu)大數(shù)據(jù)解釋變量

集的穩(wěn)定性較高,補(bǔ)充現(xiàn)有宏觀經(jīng)濟(jì)預(yù)測(cè)應(yīng)用動(dòng)機(jī)數(shù)據(jù)驅(qū)動(dòng)傳統(tǒng)經(jīng)濟(jì)學(xué)研究多基于理論假設(shè)構(gòu)建

模型,然而現(xiàn)實(shí)經(jīng)濟(jì)現(xiàn)象復(fù)雜多變機(jī)器學(xué)習(xí)借助現(xiàn)代信息技術(shù),能夠處

理海量、高維度的經(jīng)濟(jì)數(shù)據(jù)例如:在分析消費(fèi)者行為時(shí),不再局限于傳統(tǒng)的收入、價(jià)格等變量,還可納入消費(fèi)者的瀏覽歷史、購(gòu)買頻率、

社交網(wǎng)絡(luò)行為等多源數(shù)據(jù)經(jīng)濟(jì)理論的指導(dǎo)作用數(shù)據(jù)驅(qū)動(dòng)與理論導(dǎo)向相結(jié)合,使機(jī)器學(xué)習(xí)既能捕捉數(shù)據(jù)中的隱藏信息,又

能保持預(yù)測(cè)結(jié)果的經(jīng)濟(jì)合理性研究過程五大步驟.

問題定義與數(shù)據(jù)收集.

數(shù)據(jù)預(yù)處理.

模型選擇與訓(xùn)練.

評(píng)

優(yōu)

化.

預(yù)測(cè)與結(jié)果分析在整個(gè)預(yù)測(cè)分析過程中高度依賴經(jīng)濟(jì)學(xué)理論,而不是完全由數(shù)據(jù)

導(dǎo)一、經(jīng)濟(jì)預(yù)測(cè)分析·機(jī)器學(xué)習(xí)在預(yù)測(cè)分析性的研究工作中效果顯著,為經(jīng)濟(jì)學(xué)的理論探索與政策研究提供了強(qiáng)大的技術(shù)支持23問題定義·

問題:提前預(yù)測(cè)失業(yè)率變

化,為制定就業(yè)政策與宏觀經(jīng)濟(jì)政策提供支撐數(shù)據(jù)收集·

宏觀經(jīng)濟(jì)數(shù)據(jù)(統(tǒng)計(jì)局、

)

:

GDP增長(zhǎng)率、通

貨膨脹率·

勞動(dòng)力市場(chǎng)數(shù)據(jù)(統(tǒng)

計(jì)

)

:勞動(dòng)力參與率、新

增就業(yè)崗位數(shù)·

行業(yè)數(shù)據(jù)(統(tǒng)計(jì)部門、行

業(yè)協(xié)會(huì)):制造業(yè)訂單量缺失值處理·GDP增長(zhǎng)率:線性插值法(根據(jù)前后時(shí)間點(diǎn)估算)·

新增就業(yè)崗位數(shù)量:利用

其他行業(yè)新增就業(yè)數(shù)據(jù)及

行業(yè)間就業(yè)比例關(guān)系填補(bǔ)異常值處理·

如果不是真實(shí)情況,則采

用穩(wěn)健統(tǒng)計(jì)方法(將異常

值替換為基于四分位數(shù)間距計(jì)算的合理邊界值)特征工程·

特征縮放:將所有不同量級(jí)的數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)

分布(均值0,標(biāo)準(zhǔn)差1)·

特征構(gòu)造:就業(yè)彈性系數(shù)模型選擇·

涉及多個(gè)經(jīng)濟(jì)變量的復(fù)雜

關(guān)系,選用隨機(jī)森林模型·

將處理后的數(shù)據(jù)集劃分為

訓(xùn)練集(70%)、驗(yàn)證集

(15%)和測(cè)試集(15%)模型訓(xùn)練·使用訓(xùn)練集數(shù)據(jù),學(xué)習(xí)

GDP增長(zhǎng)率、通貨膨脹率、

勞動(dòng)力參與率等特征與失

業(yè)率的關(guān)系·

不斷調(diào)整決策樹的參數(shù),

如樹的深度、節(jié)點(diǎn)最小樣

本數(shù)等,以最小化預(yù)測(cè)值

與實(shí)際失業(yè)率之間的誤差模型評(píng)估模型評(píng)估·

使用測(cè)試集數(shù)據(jù)輸入模型,

計(jì)算MSE和MAE值模型優(yōu)化·

于驗(yàn)證集結(jié)果調(diào)整模型

參數(shù)。經(jīng)過多次試驗(yàn),找

到使驗(yàn)證集MSE和MAE

小的最優(yōu)參數(shù)組合·

對(duì)模型使用的特征進(jìn)行篩

選。發(fā)現(xiàn)某些行業(yè)數(shù)據(jù)可

能對(duì)失業(yè)率預(yù)測(cè)的貢獻(xiàn)較

小,就可以將其從特征集

中剔除,以簡(jiǎn)化模型,同

時(shí)提升模型的泛化能力預(yù)測(cè)與結(jié)果分析預(yù)測(cè)誤差·

將最新處理過的數(shù)據(jù)輸入

優(yōu)化后的模型,得到下季

度失業(yè)率預(yù)測(cè)值·

與實(shí)際值相比計(jì)算預(yù)測(cè)誤差,分析誤差產(chǎn)生的原因,

是未考慮突發(fā)經(jīng)濟(jì)事件

(如貿(mào)易摩擦),還是未

捕捉到數(shù)據(jù)新的變化趨勢(shì)結(jié)果分析·

盡管存在預(yù)測(cè)誤差,但預(yù)

測(cè)結(jié)果仍可為作為參考·

政府可依據(jù)預(yù)測(cè)結(jié)果提前

規(guī)劃就業(yè)政策,企業(yè)可據(jù)

此調(diào)整人力資源策略·

誤差分析也為進(jìn)一步改進(jìn)

模型提供方向案例2:B國(guó)經(jīng)濟(jì)政策部門希望提前預(yù)測(cè)失業(yè)率,為政策制定提供依據(jù)問題定義

數(shù)據(jù)收集模型選擇

與訓(xùn)練數(shù)據(jù)

預(yù)處理(就業(yè)增長(zhǎng)率/經(jīng)濟(jì)增長(zhǎng)率)24應(yīng)用契機(jī)評(píng)估效果傳統(tǒng)評(píng)估方法指標(biāo)上優(yōu)于傳統(tǒng)模型.

評(píng)

型:依據(jù)借款人的信用歷史、負(fù)債水平、還款記錄等關(guān)鍵要素賦予量化分?jǐn)?shù).

財(cái)務(wù)比率分析:從財(cái)務(wù)報(bào)表中提煉衡量企業(yè)信用品質(zhì)的指標(biāo),如企業(yè)償債能力(如資產(chǎn)負(fù)債率)、盈利能力(如資產(chǎn)凈利率)

和營(yíng)運(yùn)能力(如應(yīng)收賬款周轉(zhuǎn)率).統(tǒng)計(jì)技術(shù):基于用戶的個(gè)人信息與數(shù)據(jù),借助邏輯回歸等方法構(gòu)建預(yù)測(cè)模型,剖析借款人特征與違約風(fēng)險(xiǎn)之間的潛在關(guān)聯(lián)傳統(tǒng)方法的局限性.

評(píng)估易受人為判斷偏差干擾.

數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)覆蓋不全面、歷史數(shù)據(jù)滯后性

.

傳統(tǒng)統(tǒng)計(jì)模型的預(yù)測(cè)能力弱,靈活性差在準(zhǔn)確率上,機(jī)器學(xué)習(xí)模型可以靈活捕捉復(fù)雜的非線性關(guān)系,精準(zhǔn)判別風(fēng)險(xiǎn)客戶,

提升分類準(zhǔn)確性;精確率與召回率的改善,相應(yīng)地提升了F1值與AUC-ROC

指標(biāo),能更有效地區(qū)分風(fēng)

險(xiǎn)類別優(yōu)化決策挑戰(zhàn).

機(jī)器學(xué)習(xí)模型的“黑箱”決策難以被解釋.

為平衡準(zhǔn)確性與可解釋性,可以適當(dāng)簡(jiǎn)化模型,融合傳統(tǒng)評(píng)估方法與機(jī)器學(xué)習(xí)模型,或采用Shapley值、局部可解釋性模型等方法嘗試闡釋預(yù)測(cè)新趨勢(shì).

可解釋人工智能(Explainable

Artificial

Intelligence,XAI):借助一系列方法

提升模型透明度,增進(jìn)理解信任.

聯(lián)邦學(xué)習(xí)(FederatedLearning,FL):利用分布式計(jì)算技術(shù),不共享原始數(shù)據(jù),

保障數(shù)據(jù)隱私安全,允許多機(jī)構(gòu)協(xié)同訓(xùn)練模型,提升模型性能.

集成方法:融合多模型優(yōu)勢(shì),強(qiáng)化預(yù)測(cè)準(zhǔn)確性與穩(wěn)健性25.

實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測(cè):借流數(shù)據(jù)處理框架與動(dòng)態(tài)模型,實(shí)現(xiàn)即時(shí)風(fēng)險(xiǎn)評(píng)估輔助決策二、信用風(fēng)險(xiǎn)評(píng)估·近年來傳統(tǒng)信用評(píng)估手段漸顯局限·機(jī)器學(xué)習(xí)算法在挖掘數(shù)據(jù)模式、提升預(yù)測(cè)精度等方面潛力巨大,對(duì)金融發(fā)展意義深遠(yuǎn)(Bello

et

al.,2024)做法與優(yōu)勢(shì)·機(jī)器學(xué)習(xí)賦予算法自主從海量數(shù)據(jù)中學(xué)習(xí)規(guī)律、預(yù)測(cè)趨勢(shì)的能力,無須依賴預(yù)設(shè)規(guī)則的精確編程監(jiān)督學(xué)習(xí)算法憑借標(biāo)注完備的歷史數(shù)據(jù),可以精準(zhǔn)學(xué)習(xí)輸入特征(借款人年齡、收入、資產(chǎn)規(guī)模、信用歷史細(xì)節(jié))與輸出標(biāo)簽(是否違約)之間的映射模式.邏輯回歸以數(shù)學(xué)形式量化特征與違約概率間的線性關(guān)聯(lián);決策樹

構(gòu)建層次決策規(guī)則,直觀地展示風(fēng)險(xiǎn)判定邏輯;支持向量機(jī)尋找最優(yōu)

決策邊界最大化類別間隔,提升分類的準(zhǔn)確性無監(jiān)督學(xué)習(xí)算法.聚焦于挖掘無標(biāo)簽數(shù)據(jù)蘊(yùn)含的潛在模式與結(jié)構(gòu)聚類算法依據(jù)借款人特征相似性將其劃分為不同的風(fēng)險(xiǎn)群組,發(fā)現(xiàn)潛在風(fēng)險(xiǎn)聚集現(xiàn)象;異常檢測(cè)技術(shù)可以敏銳捕捉偏離常態(tài)的數(shù)據(jù)點(diǎn),及時(shí)甄別高風(fēng)險(xiǎn)的異常個(gè)體深度學(xué)習(xí)算法.依托多層神經(jīng)網(wǎng)絡(luò)架構(gòu),自動(dòng)學(xué)習(xí)數(shù)據(jù)的層級(jí)特征表示,擅長(zhǎng)處理大規(guī)模復(fù)雜信用數(shù)據(jù)(如融合多渠道金融數(shù)據(jù)、交易行為軌跡等),

尤其適用于欺詐行為識(shí)別、復(fù)雜風(fēng)險(xiǎn)模式預(yù)測(cè)等精細(xì)化任務(wù)“芝麻信用“從身份特征、信用歷史、履約能力等方面進(jìn)行綜合評(píng)分,通過深度學(xué)習(xí)精確評(píng)估出用戶在不同商業(yè)場(chǎng)景的守約行為,成

為“共享衣櫥”買賣雙方建立信任的重要紐帶26研究方法基本方法.采用大語(yǔ)言模型工具,對(duì)盈利電話、會(huì)議記錄、媒體報(bào)道等文本進(jìn)行深入分析,構(gòu)建企業(yè)在政治、氣候及人工智能相關(guān)風(fēng)險(xiǎn)暴露度指標(biāo).

針對(duì)各風(fēng)險(xiǎn)類型,生成兩種輸出形式:風(fēng)險(xiǎn)摘要聚焦文本內(nèi)容重組,評(píng)估結(jié)果融合文檔語(yǔ)境與模型知識(shí).風(fēng)險(xiǎn)暴露程度:以摘要或評(píng)估文本長(zhǎng)度與會(huì)議記錄長(zhǎng)度之比衡量,用以多維度捕捉企業(yè)風(fēng)險(xiǎn)信息Kimetal.(2023)使用2018年1月-2023年3月期間美國(guó)公司盈利電話會(huì)議記錄,將之轉(zhuǎn)化為文本后“喂”給GPT3.5,讓大語(yǔ)言模型基于文本判斷企業(yè)風(fēng)險(xiǎn)情況數(shù)據(jù)集:資本市場(chǎng)變量選取隱含波動(dòng)率和異常波動(dòng)率,經(jīng)濟(jì)變量包括資本投資、游說活動(dòng)、綠色經(jīng)濟(jì)指標(biāo)與人工智能相關(guān)專利指標(biāo)研究結(jié)果:大語(yǔ)言模型在企業(yè)面臨風(fēng)險(xiǎn)上的判斷具有相當(dāng)強(qiáng)的真實(shí)性,能夠豐富企業(yè)風(fēng)險(xiǎn)研究的指標(biāo)選擇.

各風(fēng)險(xiǎn)指標(biāo)相關(guān)性復(fù)雜,不同行業(yè)風(fēng)險(xiǎn)各異:煙草行業(yè)政治風(fēng)險(xiǎn)更高、煤炭行業(yè)氣候風(fēng)險(xiǎn)更高、商業(yè)服務(wù)行業(yè)的人工智能風(fēng)險(xiǎn)更高.

業(yè)風(fēng)險(xiǎn)的暴露度與事件關(guān)聯(lián)緊密,各家企業(yè)面臨的政治風(fēng)險(xiǎn)均于2020年(新冠疫情與美國(guó)大選)、2022年(俄烏沖突)后上升,氣候風(fēng)

險(xiǎn)受氣候峰會(huì)和災(zāi)害影響波動(dòng),人工智能技術(shù)風(fēng)險(xiǎn)近年來隨技術(shù)發(fā)展攀升,這些趨勢(shì)都符合現(xiàn)實(shí)邏輯三、基于大語(yǔ)言模型的指標(biāo)構(gòu)建·

基于字典的文本分析方法依賴于預(yù)先構(gòu)建的字典,語(yǔ)義變化適應(yīng)性差,難以適應(yīng)當(dāng)前的宏觀背景·大語(yǔ)言模型能從非結(jié)構(gòu)化的文本資料中提取有價(jià)值的風(fēng)險(xiǎn)信息27研究?jī)r(jià)值為人工智能技術(shù)賦能金融風(fēng)險(xiǎn)分析提供了新的研究思路.

Kim

et

al.

(2023)之后,大批學(xué)者開始嘗試?yán)么笳Z(yǔ)言模型構(gòu)建非傳統(tǒng)的文本指標(biāo),豐富了經(jīng)濟(jì)學(xué)的實(shí)證研究方法.研究拓展了企業(yè)風(fēng)險(xiǎn)測(cè)度理論方法的體系邊界,以人工智能技術(shù)優(yōu)勢(shì)彌補(bǔ)了傳統(tǒng)方法短板,補(bǔ)充了在企業(yè)風(fēng)險(xiǎn)

測(cè)度相關(guān)領(lǐng)域應(yīng)用人工智能技術(shù)的空白,確立了大模型具備的通用知識(shí)價(jià)值,可以幫助投資者低成本地洞察企

業(yè)可能存在的風(fēng)險(xiǎn)面臨新的挑戰(zhàn)與要求基于大模型的風(fēng)險(xiǎn)評(píng)估表現(xiàn)對(duì)選取的提示詞(Prompt)高度敏感:.使用錯(cuò)誤或者不準(zhǔn)確的提示詞,訓(xùn)練過程中可能會(huì)出現(xiàn)判斷錯(cuò)誤或“幻覺”現(xiàn)象,干擾最終形成的指標(biāo)與判斷的準(zhǔn)確性(GIGO)對(duì)研究者利用大語(yǔ)言模型構(gòu)建經(jīng)濟(jì)指標(biāo)的過程提出新的要求.在使用大模型進(jìn)行分析和預(yù)測(cè)時(shí),應(yīng)與源文件充分比對(duì),及時(shí)發(fā)現(xiàn)可能存在的錯(cuò)誤判斷.對(duì)于大模型生成的各種內(nèi)容,應(yīng)小心識(shí)別、慎重應(yīng)用,避免因盲目依賴或過度信任導(dǎo)致“盡信書不如無書”283.3機(jī)器學(xué)習(xí)對(duì)經(jīng)濟(jì)學(xué)研究方法的影響掌握機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)相互結(jié)合涉及的理論與技術(shù)要點(diǎn)一、數(shù)據(jù)處理與分析能力的革新(1)海量數(shù)據(jù)的高效整合數(shù)據(jù)是經(jīng)濟(jì)學(xué)研究的實(shí)證基礎(chǔ),但傳統(tǒng)的數(shù)據(jù)收集和整合方法面臨巨大挑戰(zhàn).

數(shù)據(jù)來源廣泛:宏觀經(jīng)濟(jì)數(shù)據(jù)(如各國(guó)GDP、通貨膨脹率、失業(yè)率等)、金融市場(chǎng)數(shù)據(jù)(股票價(jià)格、債券收益率、

匯率等)、企業(yè)微觀數(shù)據(jù)(財(cái)務(wù)報(bào)表、生產(chǎn)銷售數(shù)據(jù)等)、消費(fèi)者行為數(shù)據(jù)(消費(fèi)記錄、偏好調(diào)查等)與各種特

殊數(shù)據(jù).數(shù)據(jù)結(jié)構(gòu)分散:來自不同的機(jī)構(gòu)、部門、數(shù)據(jù)庫(kù),不同的文件格式機(jī)器學(xué)習(xí)能夠更有效地收集、整合海量數(shù)據(jù).通過自動(dòng)化的數(shù)據(jù)采集工具和算法,快速地從多個(gè)數(shù)據(jù)源收集數(shù)據(jù)(爬蟲技術(shù)可以從政府統(tǒng)計(jì)網(wǎng)站等抓取經(jīng)濟(jì)數(shù)據(jù)

)可以將不同格式的數(shù)據(jù)(如結(jié)構(gòu)化的數(shù)據(jù)庫(kù)數(shù)據(jù)、半結(jié)構(gòu)化的XML數(shù)據(jù)和非結(jié)構(gòu)化的文本數(shù)據(jù))統(tǒng)一轉(zhuǎn)換為適合分析的格式30現(xiàn)實(shí)中數(shù)據(jù)缺失、異常值等問題不可避免,但傳統(tǒng)方法在面對(duì)大規(guī)模數(shù)據(jù)時(shí)效率低下、極易出錯(cuò).傳統(tǒng)的數(shù)據(jù)清洗主要依賴人工檢查和簡(jiǎn)單的統(tǒng)計(jì)規(guī)則機(jī)器學(xué)習(xí)為數(shù)據(jù)清洗提供了更智能的解決方案,顯著提升數(shù)據(jù)質(zhì)量與可用性.

值:機(jī)器學(xué)習(xí)可以根據(jù)數(shù)據(jù)的分布特征和其他相關(guān)變量的關(guān)系來推測(cè)缺失值。例如,在處理消費(fèi)者收入

數(shù)據(jù)缺失時(shí),它可以通過分析消費(fèi)者的年齡、職業(yè)、消費(fèi)層次等其他已知信息來預(yù)測(cè)收入的可能值.

值:機(jī)器學(xué)習(xí)可以通過聚類分析識(shí)別出那些與大部分?jǐn)?shù)據(jù)點(diǎn)明顯不同的數(shù)據(jù)點(diǎn)。通過識(shí)別和判斷這些異

常值究竟是錄入錯(cuò)誤,或是特殊經(jīng)濟(jì)事件,可以避免它們對(duì)后續(xù)經(jīng)濟(jì)分析產(chǎn)生誤導(dǎo),提升數(shù)據(jù)的質(zhì)量一、數(shù)據(jù)處理與分析能力的革新(2)數(shù)據(jù)清洗與質(zhì)量提升31特征工程技術(shù)能夠從原始數(shù)據(jù)中提取出最有價(jià)值的變量THT?

俱口.原理:深入理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu)與業(yè)務(wù)邏輯,運(yùn)用多種手段對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、篩選與組合.對(duì)于數(shù)值型數(shù)據(jù):可通過歸一化、標(biāo)準(zhǔn)化處理,使不同量級(jí)的數(shù)據(jù)統(tǒng)一于同一尺度,便于模型訓(xùn)練時(shí)權(quán)重的合理分配

.

對(duì)

于分類數(shù)據(jù):可以進(jìn)行獨(dú)熱編碼(One-Hot

Encoding),將其轉(zhuǎn)化為數(shù)值形式便于計(jì)算.優(yōu)點(diǎn):通過提煉特征變量,機(jī)器學(xué)習(xí)能夠挖掘出傳統(tǒng)經(jīng)濟(jì)學(xué)研究中可能被忽視的變量之間的關(guān)系,為模型構(gòu)建提供更豐富的變量選擇應(yīng)用:利用機(jī)器學(xué)習(xí)分析企業(yè)績(jī)效與市場(chǎng)環(huán)境的關(guān)系時(shí),可以從企業(yè)的財(cái)務(wù)報(bào)表、市場(chǎng)份額數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手信息等多種原始數(shù)據(jù)

中提取出新的特征變量,如市場(chǎng)競(jìng)爭(zhēng)力指數(shù)、創(chuàng)新能力指標(biāo)等Features

Modelling

InsightsEngineering(3)特征工程與變量挖掘經(jīng)濟(jì)數(shù)據(jù)中包含眾多變量.并非所有變量都對(duì)研究問題有直接幫助.

有些潛在的重要變量可能隱藏在原始數(shù)據(jù)之中未被識(shí)別一、數(shù)據(jù)處理與分析能力的革新32一、數(shù)據(jù)處理與分析能力的革新(4)高維數(shù)據(jù)的降維處理隨著經(jīng)濟(jì)數(shù)據(jù)的日益豐富,數(shù)據(jù)的維度在不斷增加,也給經(jīng)濟(jì)學(xué)研究帶來了

“維度災(zāi)難”(Curse

of

Dimensionality)問題傳統(tǒng)的理論和簡(jiǎn)單的數(shù)據(jù)分析方法難以處理如此高維的數(shù)據(jù),更復(fù)雜的模型又容易陷入過擬合和計(jì)算困境,機(jī)器學(xué)習(xí)提供了多種有效的降維方法來解決這個(gè)問題.

析(PCA)

將高維數(shù)據(jù)投影到低維空間,同時(shí)盡可能保留原始數(shù)據(jù)的方差信息。例如,在分析多個(gè)宏觀經(jīng)濟(jì)指標(biāo)對(duì)投資組合的影響時(shí),主成分分析可以將眾多相關(guān)的經(jīng)濟(jì)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),這些綜合指標(biāo)能夠代表原始數(shù)據(jù)的主要信息

.降維處理使我們可以在低維空間中更直觀地分析數(shù)據(jù)之間的關(guān)系,降低計(jì)算成本,避免模型過度擬合.就像將一張高像素圖像轉(zhuǎn)換為素描畫,雖然細(xì)節(jié)減少了,但關(guān)鍵的輪廓和特征卻更加清晰隨著數(shù)據(jù)維度的增加,數(shù)據(jù)空間的體積呈指數(shù)級(jí)增長(zhǎng),導(dǎo)致數(shù)據(jù)變得極為稀疏數(shù)據(jù)點(diǎn)之間的距離難以準(zhǔn)確度量,基于距離的算法(如K-近鄰算法)的性能大幅

下降(在高維下,幾乎所有的數(shù)據(jù)點(diǎn)都彼此遠(yuǎn)離,難以尋找真正有意義的近鄰)高維數(shù)據(jù)還容易引發(fā)過擬合現(xiàn)象,模型可能會(huì)過度學(xué)習(xí)數(shù)據(jù)中的噪聲和細(xì)微變化,

而忽略數(shù)據(jù)的整體趨勢(shì)和內(nèi)在規(guī)律1D鄰居n2Dn=8

n=26維度數(shù)量D33.機(jī)器學(xué)習(xí)通過數(shù)據(jù)驅(qū)動(dòng)的方式,能夠更有效地模擬反事實(shí)場(chǎng)景.利用生成式對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarial

Networks,GAN)或變分自編碼器(VariationalAuto-Encoders,VAE)等技術(shù),可以根據(jù)現(xiàn)有數(shù)據(jù)生成與實(shí)際情況相似但缺少處理變量影響的反事實(shí)數(shù)據(jù)在政策評(píng)估方面,基于機(jī)器學(xué)習(xí)的反事實(shí)框架能夠發(fā)揮重要作用.例如,評(píng)估一項(xiàng)稅收優(yōu)惠政策對(duì)企業(yè)投資的影響。機(jī)器學(xué)習(xí)可以根據(jù)沒有享受稅收優(yōu)惠政策的企業(yè)數(shù)據(jù)(對(duì)照組)與享受稅收優(yōu)惠政策的企業(yè)數(shù)據(jù)(處理組),通過模擬反事實(shí)場(chǎng)景,估計(jì)如果沒有該優(yōu)惠政策,享受該政策的企業(yè)投資行為會(huì)如何變化,從而

推斷出政策的因果效應(yīng)就像是為經(jīng)濟(jì)實(shí)驗(yàn)創(chuàng)造了一個(gè)虛擬的“平行時(shí)空”,在這個(gè)時(shí)空里可以觀察到?jīng)]有政策干預(yù)時(shí)的經(jīng)濟(jì)狀態(tài),進(jìn)而對(duì)比出政策真正的作用I(1)構(gòu)建反事實(shí)框架依據(jù)傳統(tǒng)方法構(gòu)建反事實(shí)場(chǎng)景比較困難

Ie

Y

Ie.需要假設(shè)在沒有某個(gè)因素(處理變量)干預(yù)的非現(xiàn)實(shí)情況下,經(jīng)濟(jì)主體的行為或經(jīng)濟(jì)結(jié)果會(huì)是什么樣的二、因果推斷與關(guān)系識(shí)別的新路徑IY*Yeffect34(2)解決內(nèi)生性問題內(nèi)生性是經(jīng)濟(jì)學(xué)研究中的一個(gè)關(guān)鍵難題,傳統(tǒng)的選取工具變量法比較主觀.

內(nèi)

性問題:解釋變量與誤差項(xiàng)相關(guān),導(dǎo)致估計(jì)結(jié)果有偏.

尋找合適的工具變量是一個(gè)復(fù)雜且主觀的過程,經(jīng)濟(jì)學(xué)家需要憑借豐富的經(jīng)驗(yàn)和理論知識(shí),基于相關(guān)經(jīng)濟(jì)學(xué)理論尋找、從數(shù)據(jù)的

生成過程尋找,以及利用歷史事件或自然實(shí)驗(yàn)等方法尋找工具變量機(jī)器學(xué)習(xí)為工具變量的選擇提供了一種更為客觀的數(shù)據(jù)驅(qū)動(dòng)方法.通過拉索回歸(Lasso

Regression)等技術(shù),可以在大量潛在的變量中自動(dòng)篩選出與內(nèi)生解釋變量高度相關(guān)、但與誤差項(xiàng)不相關(guān)的工具變量.這種自動(dòng)化的篩選過程減少了人為選擇的主觀性,提高了工具變量選擇的準(zhǔn)確性二、因果推斷與關(guān)系識(shí)別的新路徑35機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法)能夠很好地應(yīng)對(duì)負(fù)責(zé)情況,提高了關(guān)系識(shí)別的精度與準(zhǔn)度場(chǎng)景.基于深度學(xué)習(xí)構(gòu)建的神經(jīng)網(wǎng)絡(luò)具有多個(gè)隱藏層,可以自動(dòng)學(xué)習(xí)變量之間的復(fù)雜函數(shù)關(guān)系.應(yīng)用:在研究消費(fèi)者購(gòu)買決策與產(chǎn)品價(jià)格、廣告投入、消費(fèi)者收入等多個(gè)因素的關(guān)系時(shí),神經(jīng)網(wǎng)絡(luò)可以捕捉這些

因素之間的非線性交互作用。比如,廣告投入在一定范圍內(nèi)可能會(huì)隨著商品價(jià)格的降低而對(duì)購(gòu)買決策產(chǎn)生更大的

正向影響,而超過某個(gè)閾值后這種影響可能會(huì)減弱。神經(jīng)網(wǎng)絡(luò)通過對(duì)大量消費(fèi)者購(gòu)買數(shù)據(jù)的學(xué)習(xí),能夠準(zhǔn)確識(shí)別

這種復(fù)雜的關(guān)系模式(3)捕捉復(fù)雜的非線性關(guān)系傳統(tǒng)的線性回歸模型等方法在處理復(fù)雜關(guān)系時(shí)存在局限性.經(jīng)濟(jì)現(xiàn)象中的個(gè)體和變量之間往往存在復(fù)雜的交互作用和非線.傳統(tǒng)方法可能會(huì)忽略重要的經(jīng)濟(jì)規(guī)律二、因果推斷與關(guān)系識(shí)別的新路徑r0.33

:0.16r-0.996。0.87r-0.010.5r0.02

0.81r0.9920.89r0.896;0.57r-0.0150.44r0.01。0.7636二、因果推斷與關(guān)系識(shí)別的新路徑(4)雙重機(jī)器學(xué)習(xí)(Double

Machine

Learning,DML)基本概念.雙重機(jī)器學(xué)習(xí)結(jié)合傳統(tǒng)回歸分析與現(xiàn)代機(jī)器學(xué)習(xí)方法,在存在大量控制變量或高維數(shù)據(jù)的情況下,聚焦于通過機(jī)器學(xué)習(xí)來改善模型的預(yù)測(cè)準(zhǔn)確性,提供更加穩(wěn)健和無偏的因果效應(yīng)估計(jì)核心思想將因果推理問題分解為兩個(gè)獨(dú)立的預(yù)測(cè)步驟,利用機(jī)器學(xué)習(xí)算法來提高因果效應(yīng)估計(jì)的準(zhǔn)確性和穩(wěn)健性.使用控制變量集結(jié)合機(jī)器學(xué)習(xí)方法,預(yù)測(cè)結(jié)果變量Y,得到預(yù)測(cè)殘差,去除由控制變量解釋的部分.使用同樣的控制變量集,預(yù)測(cè)處理變量X,得到其殘差,去除控制變量的影響.

通過回歸分析上述兩個(gè)殘差,估計(jì)處理變量對(duì)結(jié)果變量的因果效應(yīng)優(yōu)勢(shì).在處理高維數(shù)據(jù)和復(fù)雜模型時(shí),能夠更好地?cái)M合數(shù)據(jù),減少由模型錯(cuò)誤指定引入的偏差.

操作簡(jiǎn)潔、易于掌握37三、經(jīng)濟(jì)學(xué)模型構(gòu)建與優(yōu)化的變革(1)數(shù)據(jù)驅(qū)動(dòng)的模型構(gòu)建方式傳統(tǒng)經(jīng)濟(jì)學(xué)模型的基本假設(shè)過于理想.傳統(tǒng)經(jīng)濟(jì)學(xué)模型構(gòu)建多基于先驗(yàn)理論假設(shè),例如經(jīng)典的線性回歸模型假設(shè)變量間呈線性關(guān)系且誤差項(xiàng)滿足特定分布

.現(xiàn)實(shí)經(jīng)濟(jì)系統(tǒng)極為復(fù)雜,這種強(qiáng)假設(shè)常導(dǎo)致模型對(duì)實(shí)際情況的擬合不佳基于機(jī)器學(xué)習(xí)構(gòu)建的模型對(duì)于基本假設(shè)的要求更低.采用數(shù)據(jù)驅(qū)動(dòng)的方式,無需事先設(shè)定嚴(yán)格的函數(shù)形式.深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法,其結(jié)構(gòu)可依據(jù)數(shù)據(jù)特征自動(dòng)調(diào)整.分析股票市場(chǎng)時(shí),神經(jīng)網(wǎng)絡(luò)算法能根據(jù)海量的股票價(jià)格、成交量、宏觀經(jīng)濟(jì)指標(biāo)等數(shù)據(jù),自主確定各變量間復(fù)雜的交互關(guān)系,構(gòu)

建出適應(yīng)性強(qiáng)的模型,不再局限于傳統(tǒng)線性或特定函數(shù)形式的束縛,從而更精準(zhǔn)地捕捉經(jīng)濟(jì)變量間真實(shí)的關(guān)聯(lián)模式基于機(jī)器學(xué)習(xí)構(gòu)建的模型在應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)經(jīng)濟(jì)方面具有顯著優(yōu)勢(shì).經(jīng)濟(jì)環(huán)境處于不斷變化之中,新的經(jīng)濟(jì)現(xiàn)象、政策沖擊和市場(chǎng)趨勢(shì)持續(xù)涌現(xiàn).機(jī)器學(xué)習(xí)模型能實(shí)時(shí)吸納新數(shù)據(jù),動(dòng)態(tài)調(diào)整自身結(jié)構(gòu)與參數(shù)(例如,機(jī)器學(xué)習(xí)模型可依據(jù)新的消費(fèi)數(shù)據(jù)迅速更新,及時(shí)反映消費(fèi)

市場(chǎng)的變化)傳統(tǒng)經(jīng)濟(jì)學(xué)模型需要較長(zhǎng)時(shí)間進(jìn)行理論修正與參數(shù)重新估計(jì),難以快速適應(yīng)這種動(dòng)態(tài)性

38三、經(jīng)濟(jì)學(xué)模型構(gòu)建與優(yōu)化的變革(2)優(yōu)化模型參數(shù)估計(jì)傳統(tǒng)參數(shù)估計(jì)方法比較低效.參數(shù)估計(jì)的準(zhǔn)確性對(duì)模型性能至關(guān)重要.最大似然估計(jì)在處理大規(guī)模、高維數(shù)據(jù)時(shí)效率較低,且可能陷入局部最優(yōu)解基于機(jī)器學(xué)習(xí)進(jìn)行的參數(shù)搜索更高效.機(jī)器學(xué)習(xí)提供了隨機(jī)梯度下降(SGD)

等先進(jìn)算法,提高了參數(shù)估計(jì)的效率與準(zhǔn)確性,使模型能更好地?cái)M合經(jīng)濟(jì)數(shù)據(jù),提升預(yù)測(cè)

和分析能力以構(gòu)建宏觀經(jīng)濟(jì)預(yù)測(cè)模型為例,模型中包含眾多宏觀變量參數(shù),隨機(jī)梯度下降算法可從隨機(jī)選取的初始參數(shù)開始,沿著數(shù)據(jù)損失

函數(shù)梯度的反方向逐步迭代更新參數(shù),在大規(guī)模經(jīng)濟(jì)數(shù)據(jù)集中快速收斂到較優(yōu)解基于機(jī)器學(xué)習(xí)構(gòu)建的模型更新能力更強(qiáng).隨著時(shí)間推移,經(jīng)濟(jì)數(shù)據(jù)不斷積累,經(jīng)濟(jì)結(jié)構(gòu)和規(guī)律也在悄然改變.機(jī)器學(xué)習(xí)模型能夠依據(jù)新數(shù)據(jù)持續(xù)更新參數(shù)與結(jié)構(gòu)(例如,在國(guó)際貿(mào)易模型中,機(jī)器學(xué)習(xí)模型可利用新增的貿(mào)易數(shù)據(jù)實(shí)時(shí)調(diào)整模

型中關(guān)于貿(mào)易成本、市場(chǎng)份額、產(chǎn)品競(jìng)爭(zhēng)力等參數(shù)的估計(jì),確保模型始終與當(dāng)前經(jīng)濟(jì)狀況緊密契合),當(dāng)然也帶來模型維度問題

傳統(tǒng)經(jīng)濟(jì)學(xué)模型一旦構(gòu)建完成,其更新與調(diào)整就相對(duì)滯后且繁瑣39.例子:索洛經(jīng)濟(jì)增長(zhǎng)模型只適用于給出儲(chǔ)蓄率不變時(shí)的經(jīng)濟(jì)增長(zhǎng)解釋基于機(jī)器學(xué)習(xí)構(gòu)建的模型可以實(shí)現(xiàn)模型的優(yōu)勢(shì)互補(bǔ).采用機(jī)器學(xué)習(xí)中的模型融合與集成策略可將多個(gè)不同類型的模型組合起來.可以將決策樹、支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)等模型集成用于經(jīng)濟(jì)風(fēng)險(xiǎn)評(píng)估(

決策樹模型易于理解和解釋數(shù)據(jù)特征,支持向量機(jī)在處理小樣本、高維數(shù)據(jù)時(shí)有獨(dú)特優(yōu)勢(shì),神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)處理復(fù)雜非線性關(guān)系)通過集成這些模型,綜合它們的預(yù)測(cè)結(jié)果,能更全面、準(zhǔn)確地評(píng)估經(jīng)濟(jì)風(fēng)險(xiǎn),彌補(bǔ)單一模型的不足,進(jìn)而提供更穩(wěn)健可靠的經(jīng)濟(jì)分析結(jié)論三、經(jīng)濟(jì)學(xué)模型構(gòu)建與優(yōu)化的變革Encoding

FusionClassification(3)模型融合與集成策略傳統(tǒng)經(jīng)濟(jì)學(xué)模型比較單一.單一的經(jīng)濟(jì)學(xué)模型只能捕捉經(jīng)濟(jì)現(xiàn)象的某一方面特征或適用于特定情境Unimodal

model1Unimodal

model2Unimodalmodel3Input

1Input2Input3Classification

networkFusionmodulePrediction403.4機(jī)器學(xué)習(xí)應(yīng)用于經(jīng)濟(jì)學(xué)的

挑戰(zhàn)與應(yīng)對(duì)掌握機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中廣泛應(yīng)用的阻礙與應(yīng)對(duì)應(yīng)對(duì)方法解決數(shù)據(jù)質(zhì)量問題.需要進(jìn)行嚴(yán)格的數(shù)據(jù)清洗.處理缺失值:可以采用均值、中位數(shù)填充或者基于模

型的填充方法.處理異常值:可以通過統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論