版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)03-16人工智能經(jīng)濟(jì)學(xué)20xx年技術(shù)分析基礎(chǔ)人工智能理論概念、發(fā)展歷程與應(yīng)用場(chǎng)景分析人工智能的經(jīng)
濟(jì)學(xué)工具機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)治理治理監(jiān)管人工智能的治理與監(jiān)管人工智能
政策制定人工智能與宏觀經(jīng)濟(jì)政策微觀經(jīng)濟(jì)人工智能的
微觀經(jīng)濟(jì)基礎(chǔ)人工智能
與市場(chǎng)競(jìng)爭(zhēng)人工智能
與要素市場(chǎng)產(chǎn)業(yè)經(jīng)濟(jì)人工智能
產(chǎn)業(yè)發(fā)展產(chǎn)業(yè)智能化:內(nèi)涵、機(jī)制與影響開放經(jīng)濟(jì)人工智能與
全球價(jià)值鏈人工智能的國(guó)際投資宏觀經(jīng)濟(jì)人工智能與經(jīng)濟(jì)增長(zhǎng)人工智能與經(jīng)濟(jì)周期框架模塊章節(jié)課程結(jié)構(gòu)人工智能與
經(jīng)濟(jì)社會(huì)發(fā)展經(jīng)濟(jì)機(jī)器學(xué)習(xí)概述明晰機(jī)器學(xué)習(xí)的概念與發(fā)展歷程理解機(jī)器學(xué)習(xí)操作的一般流程與常用方法機(jī)
器
學(xué)
習(xí)
在
經(jīng)理
解
機(jī)
器學(xué)習(xí)
在
經(jīng)
濟(jì)
學(xué)中
的
主
流
應(yīng)
用濟(jì)
學(xué)
中
的
應(yīng)
用主
要
包
括
經(jīng)
濟(jì)
預(yù)
測(cè)
分
析、
信
用
風(fēng)
險(xiǎn)
評(píng)
估
和
基
于
大
語(yǔ)
言
模
型的
指
標(biāo)
構(gòu)
建對(duì)于經(jīng)濟(jì)學(xué)研
究方法的影響明晰機(jī)器學(xué)習(xí)對(duì)經(jīng)濟(jì)學(xué)研究方法的改進(jìn)主要包括數(shù)據(jù)處理與分析能力、因果推斷與關(guān)系識(shí)別以及模型構(gòu)建與優(yōu)化掌握機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)廣泛應(yīng)用的阻礙與應(yīng)對(duì)策略主要包括數(shù)據(jù)質(zhì)量與可靠性問題、模型解釋性與可理解性以及倫理與法律問題3本講內(nèi)容應(yīng)用于經(jīng)濟(jì)學(xué)
的挑戰(zhàn)與應(yīng)對(duì)02理解機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)領(lǐng)域中的主流應(yīng)用04學(xué)會(huì)運(yùn)用機(jī)器學(xué)習(xí)的算法與技術(shù)
挖掘各類經(jīng)濟(jì)數(shù)據(jù)01理解機(jī)器學(xué)習(xí)的基本原理、
學(xué)習(xí)范式和主要流程03掌握機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)相互結(jié)合涉及的理論與技術(shù)要點(diǎn)本章學(xué)習(xí)要點(diǎn)3.1機(jī)器學(xué)習(xí)概述理解機(jī)器學(xué)習(xí)的基本原理、學(xué)習(xí)范式和主要流程機(jī)器學(xué)習(xí)的分類監(jiān)督學(xué)習(xí)(Supervised
Learning).
通
過已有標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)輸入與輸出之間的映射關(guān)系.
新郵件分類;檢測(cè)障礙物無監(jiān)督學(xué)習(xí)(Unsupervised
Learning).
側(cè)重于在未標(biāo)記數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和模式.
劃分客戶群體以制定個(gè)性化營(yíng)銷策略強(qiáng)化學(xué)習(xí)(Reinforcement
Learning).
通過智能體在環(huán)境中不斷試錯(cuò)并根據(jù)獎(jiǎng)勵(lì)反饋來學(xué)習(xí)最優(yōu)策略,也被視為機(jī)器的“條件反射”過程.
例子:掃地機(jī)器人的路徑規(guī)劃;AlphaGo
圍棋深度學(xué)習(xí)(Deep
Learning).利
用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)提取數(shù)據(jù)的高級(jí)特征.語(yǔ)音識(shí)別、自然語(yǔ)言處理;遷移學(xué)習(xí)、對(duì)抗學(xué)習(xí)待處理郵件正常郵件分類算法識(shí)別垃圾郵件分類模型一、機(jī)器學(xué)習(xí)的定義與概念·
機(jī)器學(xué)習(xí)(Machine
Learning)是人工智能的核心分支,致力于讓計(jì)算機(jī)系統(tǒng)具備像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí)的能力·
其本質(zhì)是讓計(jì)算機(jī)通過數(shù)據(jù)自動(dòng)發(fā)現(xiàn)規(guī)律,而非依賴顯式編程一
個(gè)
簡(jiǎn)
單
的
例
子
:垃圾郵件分類模型的訓(xùn)練與應(yīng)用批量已分類郵件分類算法訓(xùn)練數(shù)據(jù)數(shù)據(jù)是機(jī)器學(xué)習(xí)得以開展的根
基,是機(jī)器學(xué)習(xí)的“養(yǎng)料”、“燃料”結(jié)構(gòu)化數(shù)據(jù).具有明確的格式和組織方式,常見于數(shù)據(jù)庫(kù)中的表格形式(如Excel).一張典型的個(gè)人信息表(員工姓名、年齡、性別、職位等)非結(jié)構(gòu)化數(shù)據(jù).沒有明顯固定結(jié)構(gòu)的數(shù)據(jù),如文本文件、圖像、音頻和視頻等.
在機(jī)器學(xué)習(xí)中,大量的非結(jié)構(gòu)化數(shù)據(jù)能夠?yàn)闄C(jī)器提供充足的“學(xué)習(xí)素材”,使其能夠更全面、深入地挖掘出數(shù)據(jù)背后隱藏的各種模式和規(guī)律半結(jié)構(gòu)化數(shù)據(jù).
處
于結(jié)構(gòu)化與非結(jié)構(gòu)化之間,具有
一定的結(jié)構(gòu),但并不遵循固定的格式(如XML、JSON)結(jié)合了結(jié)構(gòu)化數(shù)據(jù)的組織性和非結(jié)構(gòu)化數(shù)據(jù)的靈活性,能夠承載多種類型的信息,更容易在不同系統(tǒng)和應(yīng)用之間集成和轉(zhuǎn)換筆記內(nèi)容非結(jié)構(gòu)化的文本用戶標(biāo)簽半結(jié)構(gòu)化的信息發(fā)布時(shí)間結(jié)構(gòu)化的時(shí)間戳中財(cái)小糯米中央財(cái)經(jīng)大學(xué)攻略之喵咪篇總
在中財(cái)大,有這么
一
群小精靈無論淑女風(fēng)度還是暴躁脾氣,平易近人還是高貴
冷艷,它們無意間能讓時(shí)間放慢,甚至可愛到讓
你傾盡溫柔……在期末之際,ta們變身“期末好
運(yùn)貓”、“學(xué)術(shù)貓”、“學(xué)霸貓”,給cufer
們帶來好運(yùn)!讓我們一起走進(jìn)它們的世界吧+怒
校園里的流浪貓未接種狂犬疫苗,小心被抓
傷!記住這些小知識(shí),讓我們更好地與貓咪相處!
養(yǎng)成正確的擼貓習(xí)慣,既能保護(hù)自己,也能保護(hù)
小可愛們的健康。快分享給身邊的cufer們,讓更
多人了解這些重要信息吧!#科普教育#貓咪小貼
士#安全擼貓希望這些小知識(shí)能幫到大家,祝大家在校園里與
小貓咪們愉快相處!#中央財(cái)經(jīng)大學(xué)#日常增貓合集
中財(cái)大校園攻略機(jī)器學(xué)習(xí)的關(guān)鍵要素·
機(jī)器學(xué)習(xí)的關(guān)鍵構(gòu)成要素包括:數(shù)據(jù)、模型、訓(xùn)練與測(cè)試·
在監(jiān)督學(xué)習(xí)這一類型的機(jī)器學(xué)習(xí)中,特征和標(biāo)簽也成為額外的關(guān)鍵要素模型模型是機(jī)器學(xué)習(xí)的核心組件,也被視為機(jī)器學(xué)習(xí)的“大腦”
基于各種數(shù)學(xué)和統(tǒng)計(jì)學(xué)原理構(gòu)建而成的一種抽象結(jié)構(gòu),通
過特定的算法來確定其內(nèi)部的參數(shù)和運(yùn)作方式線性回歸.最基礎(chǔ)、常用的算法模型.房屋租賃或買賣軟件,學(xué)習(xí)大量已知房屋價(jià)格與特征的數(shù)據(jù)確定每個(gè)特征對(duì)應(yīng)的系數(shù),從而構(gòu)建出一個(gè)具有預(yù)測(cè)能
力的線性方程決策樹(DecisionTree)常用的模型,是一種監(jiān)督學(xué)習(xí)方法,它的結(jié)構(gòu)和邏輯與人
類思考問題的方式更加類似形似一棵倒立的樹,通過對(duì)數(shù)據(jù)特征的層層劃分和判斷來做出決策或分類根節(jié)點(diǎn)人分支條件判斷葉節(jié)點(diǎn)(決策)某動(dòng)物體溫恒定溫血?jiǎng)游锾ド?/p>
卵生哺乳動(dòng)物
非哺乳動(dòng)物居室3室2廳2衛(wèi)·
房屋面積
188·
樓層信息3
層
10裝修類型(選填)m2總層數(shù)毛坯豪華裝簡(jiǎn)裝戶型朝向(選填)繼續(xù)填寫,估價(jià)更精確16:39
⑨
啟
多
象
幢←房屋估價(jià)結(jié)合房屋情況、行情等提供估價(jià)參考機(jī)器學(xué)習(xí)的關(guān)鍵要素填寫房屋信息
估價(jià)歷史》城市
北京保存本次估價(jià)記錄,便于后續(xù)查看貝殼找房軟件的房?jī)r(jià)預(yù)測(cè)決
策
樹8體溫不恒定冷血?jiǎng)游锓种l件判斷葉節(jié)點(diǎn)(決策)精裝非哺乳動(dòng)物·
小區(qū)
萬柳書院測(cè)試是對(duì)訓(xùn)練完成的模型性能進(jìn)行評(píng)估與驗(yàn)證使用與訓(xùn)練數(shù)據(jù)不同的測(cè)試數(shù)據(jù),將其輸入到已訓(xùn)練完成的模型中,觀察模型的輸出結(jié)果并與真實(shí)標(biāo)簽或結(jié)果進(jìn)行對(duì)比評(píng)估指標(biāo).
準(zhǔn)確率(Accuracy):預(yù)測(cè)正確的結(jié)果占總樣本的百分比,代表整體(包括正樣本和負(fù)樣本)的預(yù)測(cè)準(zhǔn)確程度精確率(Precision):在被預(yù)測(cè)為正的樣本中實(shí)際為正樣本的概率,代表
對(duì)正樣本結(jié)果的預(yù)測(cè)準(zhǔn)確程度召回率(Recall):在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率F1值:精確率和召回率的調(diào)和平均數(shù),F(xiàn)1=2*
精確率*召回率/(精確率+召
回率),0表示最差性能,1表示最佳性能過擬合問題.
定
義
:模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在測(cè)試數(shù)據(jù)上卻出現(xiàn)了較大偏差
.模型過度地適應(yīng)了訓(xùn)練數(shù)據(jù)的特點(diǎn),缺乏對(duì)新數(shù)據(jù)的適應(yīng)性和泛化能力訓(xùn)練是機(jī)器學(xué)習(xí)模型不斷優(yōu)化和學(xué)習(xí)的過程基本邏輯.
計(jì)算機(jī)將大量的訓(xùn)練數(shù)據(jù)輸入到選定的模型中,模型根據(jù)預(yù)先
設(shè)定的算法和目標(biāo)函數(shù),對(duì)數(shù)據(jù)進(jìn)行分析和處理并不斷調(diào)整自
身參數(shù),以使模型對(duì)訓(xùn)練數(shù)據(jù)的擬合程度越來越好圖像分類模型的訓(xùn)練.將大量已標(biāo)注好類別的圖像數(shù)據(jù)(蛋糕和非蛋糕的照片)輸入
模型.
模型通過計(jì)算圖像特征與類別之間的關(guān)系,逐步調(diào)整內(nèi)部參數(shù)
.
最終獲得能夠準(zhǔn)確判斷出訓(xùn)練集中圖像所屬類別的能力機(jī)器學(xué)習(xí)的關(guān)鍵要素9機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的關(guān)鍵要素監(jiān)督學(xué)習(xí)就是讓模型通過對(duì)大量包含特征和標(biāo)簽的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),從而建立起特征與標(biāo)簽之間的映射關(guān)系或函數(shù)模型·當(dāng)模型學(xué)習(xí)完成后,對(duì)于新的只包含特征的數(shù)據(jù)實(shí)例,模型就能夠依據(jù)所學(xué)的關(guān)系預(yù)測(cè)出相應(yīng)的標(biāo)簽值·當(dāng)輸入一組新的股票特征數(shù)據(jù)或宏觀經(jīng)濟(jì)數(shù)據(jù)時(shí),模型就能夠預(yù)測(cè)出這只股票未來的價(jià)格走向或未來一段時(shí)期的GDP
增速,特征用來描述數(shù)據(jù)實(shí)例的各種屬性或變量所有特征共同構(gòu)成了對(duì)所研究問題在某一時(shí)刻狀態(tài)的描述,是模型進(jìn)行學(xué)習(xí)和預(yù)測(cè)的依據(jù)預(yù)測(cè)股票價(jià)格走勢(shì):股票的開盤價(jià)、收盤價(jià)、最高價(jià)、
最低價(jià)、成交量、市盈率和市凈率等可以作為特征預(yù)測(cè)經(jīng)濟(jì)增長(zhǎng)速度:居民消費(fèi)、企業(yè)投資意愿、資本
市場(chǎng)表現(xiàn)、出口規(guī)模等可以作為特征標(biāo)簽訓(xùn)練者期望模型能夠預(yù)測(cè)出來的目標(biāo)結(jié)果.預(yù)測(cè)股票價(jià)格走勢(shì):未來某一天的股票價(jià)格就是標(biāo)簽.預(yù)測(cè)經(jīng)濟(jì)增長(zhǎng)速度:
一季度或一年的GDP
增速就是標(biāo)簽Supervised
Learning
10從而為投資者或經(jīng)濟(jì)政策制定者提供決策參考二、機(jī)器學(xué)習(xí)的發(fā)展歷程·機(jī)器學(xué)習(xí)起源于數(shù)學(xué)與計(jì)算機(jī)科學(xué),歷經(jīng)符號(hào)主義(感知機(jī))到聯(lián)結(jié)主義(深度學(xué)習(xí))的演變·
由于具備數(shù)據(jù)驅(qū)動(dòng)、算法自適應(yīng)迭代等特點(diǎn),
ML
廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理及自主系統(tǒng)領(lǐng)域
起源與早期探索(18世紀(jì)-20世紀(jì)中葉)早期數(shù)學(xué)領(lǐng)域的研究為機(jī)器學(xué)習(xí)的發(fā)展奠定了基礎(chǔ)貝葉斯定理(Bayes
Theorem,18世
紀(jì)
).依據(jù)已有的知識(shí)或經(jīng)驗(yàn)(先驗(yàn)概率),結(jié)合新的數(shù)據(jù)信息
(條件概率),對(duì)未知情況進(jìn)行概率推斷,為預(yù)測(cè)分析提供
了理論基礎(chǔ)(先驗(yàn)+條件=預(yù)測(cè))最小二乘法(OLS,1806
年).
主要用于回歸分析,其核心是通過最小化誤差的平方和找到數(shù)據(jù)的最佳擬合直線或曲線.
在預(yù)測(cè)任務(wù)中,最小二乘法能確定一個(gè)合適的線性模型,使
得預(yù)測(cè)值與真實(shí)值之間的誤差平方和最小人工神經(jīng)元模型(1943年).
沃倫·麥卡洛克和沃爾特·皮茨發(fā)表提出人工神經(jīng)元模型從神經(jīng)生理學(xué)角度出發(fā),展示了神經(jīng)元如何通過“興奮”和“抑制”的狀態(tài)來處理信息,以及多個(gè)神經(jīng)元如何組合起來
進(jìn)行邏輯運(yùn)算為神經(jīng)網(wǎng)絡(luò)的概念奠定了理論基礎(chǔ)圖靈測(cè)試(1950年)艾倫
·
圖靈提出圖靈測(cè)試來判斷計(jì)算機(jī)是否具有智能,為機(jī)器學(xué)習(xí)的發(fā)展提供了重要理論基礎(chǔ),啟發(fā)了之后的研究者沿
著機(jī)器學(xué)習(xí)這一技術(shù)路徑開發(fā)人工智能技術(shù)數(shù)學(xué)領(lǐng)域
神經(jīng)生理學(xué)與計(jì)算機(jī)科學(xué)111957年由康奈爾大學(xué)的弗蘭克·
羅森布拉特教授提出.
一種簡(jiǎn)單的前向人工神經(jīng)網(wǎng)絡(luò),能夠通過迭代試錯(cuò)解決二元線性分類問題意
義:.
開創(chuàng)了監(jiān)督學(xué)習(xí)的先河,標(biāo)志著神經(jīng)網(wǎng)絡(luò)研究的起點(diǎn).
通過自動(dòng)調(diào)整權(quán)重來讓機(jī)器學(xué)會(huì)分類任務(wù)的可能性.
輸入層、輸出層和連接它們的權(quán)重組成(與神經(jīng)元類似)工作原理:將輸入數(shù)據(jù)與對(duì)應(yīng)的權(quán)重相乘后求
和,得到一個(gè)加權(quán)和的值,然后通過一個(gè)激活函數(shù)產(chǎn)生輸出例如:加權(quán)和大于閾值,輸出為1,
表示屬于某一類別;加權(quán)和小于閾
值,輸出為0,則表示屬于另一類別感知機(jī)(Perceptron)感知機(jī)是可以模擬人類感知能力的機(jī)器提
出:
結(jié)
構(gòu):輸入1輸入2激活函數(shù)f
輸出權(quán)重3輸入3權(quán)重4輸入4初步發(fā)展階段(20世紀(jì)50-70年代)突觸軸突軸突末梢輸入層
隱藏層
輸出層感知機(jī)的原理輸出層
(
軸
突
)大腦神經(jīng)元細(xì)胞體細(xì)胞核隱
藏
層(
細(xì)
胞
體
)輸入層(
樹
突
)權(quán)重2加權(quán)
∑權(quán)重1樹突12對(duì)特征空間進(jìn)行劃分提
出:.
Cover
&Hart,1967.
測(cè)量不同樣本特征之間的距離,找到訓(xùn)練集中與測(cè)試數(shù)
據(jù)最為相似的前K個(gè)數(shù)據(jù),進(jìn)而確定測(cè)試數(shù)據(jù)的類別意
義:.
原理簡(jiǎn)單,不需要進(jìn)行大量的數(shù)學(xué)推導(dǎo)和模型訓(xùn)練
.
只需要計(jì)算距離、選擇鄰居和進(jìn)行投票等簡(jiǎn)單操作
.
得到了廣泛應(yīng)用應(yīng)用場(chǎng)景:商品推薦:通過用戶歷史行為數(shù)據(jù)構(gòu)建高維空間,尋找相似用戶群體的偏好(如"購(gòu)買了X
商品的用戶也喜歡Y")
癌癥亞型分類:基于基因表達(dá)譜數(shù)據(jù),通過KNN
聚類發(fā)
現(xiàn)與已知判
斷
:A
點(diǎn)屬于哪一類?計(jì)算A點(diǎn)到每個(gè)已知類別的點(diǎn)的距離,然后對(duì)所有已知點(diǎn)進(jìn)行排序,選取前K個(gè)最
近的點(diǎn),最后通過設(shè)定K值就可以確定A
點(diǎn)屬于哪一類K=3時(shí),A
屬于種類2(六邊形)K=5時(shí),A
屬于種類1(方塊)工作原理:如果一個(gè)樣本附近的K個(gè)最近樣本的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別(物以類聚)K-近鄰算法(K-NearestNeighbors,KNN)初步發(fā)展階段(20世紀(jì)50-70年代)13卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural
Network,CNN)提
出:1989年,楊立昆(Yann
LeCun)提出完備的卷積神經(jīng)網(wǎng)絡(luò)(CNN)計(jì)算模型,并推導(dǎo)出基于反向傳播
(Error
Back
Propagation,BP)算法的高效訓(xùn)練方法結(jié)
構(gòu)
與
原
理:.
卷積層:通過卷積核自動(dòng)提取輸入數(shù)據(jù)的特征,網(wǎng)絡(luò)層數(shù)的增加,提取的特征也越來越抽象
.
池化層:減少數(shù)據(jù)的維度,在保留特征信息的同時(shí)有效減少數(shù)據(jù)量.
全連接層:利用提取的特征進(jìn)行分類或回歸意
義:.
專門為處理具有網(wǎng)格結(jié)構(gòu)的
數(shù)據(jù)(如圖像、音頻)而設(shè)
計(jì)的深度學(xué)習(xí)模型應(yīng)
用
:人臉識(shí)別、醫(yī)學(xué)影像輸入
輸出卷積層
池化層
全連接層14卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別結(jié)構(gòu)過程Hopfield神經(jīng)網(wǎng)絡(luò)提
出:.
1982年,美國(guó)生物物理學(xué)家約翰
·霍普菲爾德與合作者結(jié)
構(gòu)
與
原
理:.
全連接:每個(gè)神經(jīng)元與其他所有神經(jīng)元相連,無輸入
輸出層之分意
義:.
神經(jīng)元之間相互連接形成循環(huán)結(jié)構(gòu),打破了傳統(tǒng)神經(jīng)
網(wǎng)絡(luò)的局限,賦予了網(wǎng)絡(luò)處理信息的新方式與新能力.
為循環(huán)神經(jīng)網(wǎng)絡(luò)的奠定基礎(chǔ)技術(shù)突破階段(20世紀(jì)80年代-21世紀(jì)初)Hopfield神經(jīng)網(wǎng)絡(luò)的循環(huán)結(jié)構(gòu)XGBoost(eXtreme
GradientBoosting)結(jié)構(gòu)與原理:.
基于隨機(jī)森林進(jìn)一步優(yōu)化,采用梯度提升框架,通過不斷迭代地?cái)M合殘差來提升模型的準(zhǔn)確性意
義:.
預(yù)測(cè)精度高.
應(yīng)用:金融領(lǐng)域的風(fēng)險(xiǎn)評(píng)估、電商領(lǐng)域的推薦系統(tǒng)15技術(shù)突破階段(20世紀(jì)80年代-21世紀(jì)初)·
21世紀(jì)初,作為機(jī)器學(xué)習(xí)的一種核心方法論,集成學(xué)習(xí)(Ensemble
Learning)受到廣泛關(guān)注:結(jié)合多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果,顯著提升模型的泛化能力和魯棒性·
集成學(xué)習(xí)的核心思想是“群體智慧優(yōu)于個(gè)體”,廣泛應(yīng)用于分類、回歸和異常檢測(cè)等任務(wù)
特征隨機(jī)森林XGBoost集成類型并行(Bagging)串行(Boosting)基學(xué)習(xí)器(Base
Learners)多顆獨(dú)立決策樹多顆弱相關(guān)決策樹樣本處理有放回采樣(Bootstrap)全樣本訓(xùn)練樹間關(guān)系獨(dú)立強(qiáng)依賴并行性天然支持并行單顆樹內(nèi)部節(jié)點(diǎn)可并行,整體串行隨
機(jī)
森
林(RandomForest)結(jié)構(gòu)與原理:.
通過構(gòu)建多個(gè)決策樹并集成其結(jié)果,提供了較高的準(zhǔn)確率和穩(wěn)健性意
義:.
抗過擬合能力強(qiáng)訓(xùn)練快、易并行深度信念網(wǎng)絡(luò)(DeepBelief
Networks,DBN)提
出:2006年,“神經(jīng)網(wǎng)絡(luò)之父”杰弗里
·辛頓結(jié)構(gòu)與原理:采用逐層訓(xùn)練的方式,解決了深層次神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題通過逐層訓(xùn)練為整個(gè)網(wǎng)絡(luò)賦予了較好的初始權(quán)值,使得網(wǎng)絡(luò)只要經(jīng)過微調(diào)就可以達(dá)到最優(yōu)解,從而為深度學(xué)習(xí)提供了一個(gè)基礎(chǔ)性模型意
義:.
為深度學(xué)習(xí)的發(fā)展奠定基礎(chǔ)一個(gè)四層結(jié)構(gòu)的DBN
結(jié)構(gòu)深度學(xué)習(xí)技術(shù)應(yīng)用廣泛深度學(xué)習(xí)通過構(gòu)建深層次的神經(jīng)網(wǎng)絡(luò),能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)的層次化特征表示,在圖像識(shí)別、語(yǔ)音識(shí)別等任務(wù)上取得了突破性成果.
計(jì)算機(jī)視覺:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法(如YOLO).
自然語(yǔ)言處理:Transformer架構(gòu)及其衍生模型(如BERT和GPT系列)
.
語(yǔ)音助手應(yīng)用:蘋果的Siri、亞馬遜的Alexa、華為的小藝深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí):.
圍棋:AlphaGo.
電子游戲:吃豆人,OpenAIFiveDota2機(jī)器人:宇樹科技的機(jī)器人集成了深度學(xué)習(xí)(環(huán)境感知、自主決策)
與強(qiáng)化學(xué)習(xí)(運(yùn)動(dòng)控制、能耗優(yōu)化)技術(shù),在實(shí)時(shí)性、輕量化部署和
動(dòng)態(tài)場(chǎng)景適應(yīng)能力上展現(xiàn)了顯著優(yōu)勢(shì)自動(dòng)駕駛:特斯拉的Autopilot系統(tǒng)、華為智駕ADS3.0等系統(tǒng)16深度學(xué)習(xí)浪潮(2006年后)模型評(píng)估與調(diào)優(yōu)模型評(píng)估使用測(cè)試數(shù)據(jù)評(píng)估訓(xùn)練好的模型·
測(cè)試數(shù)據(jù):獨(dú)立于訓(xùn)練數(shù)據(jù)的
另一部分?jǐn)?shù)據(jù)模型調(diào)優(yōu)通過評(píng)估指標(biāo)判斷模型在新數(shù)據(jù)上
的表現(xiàn),若模型不理想則需要調(diào)優(yōu)·調(diào)整模型超參數(shù):決策樹的深
度、支持向量機(jī)的核函數(shù)參數(shù)·
采用集成學(xué)習(xí)的方法,將多個(gè)
模型組合以提高模型整體性能:
隨機(jī)森林模型選擇與訓(xùn)練模型選擇依據(jù)問題類型和數(shù)據(jù)特點(diǎn)·
預(yù)測(cè)數(shù)值型變量且數(shù)據(jù)呈現(xiàn)線
性關(guān)系:線性回歸模型·
分類問題且數(shù)據(jù)特征復(fù)雜:決策樹或支持向量機(jī)(SupportVector
Machine,SVM)模型訓(xùn)練·
使用預(yù)訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行
訓(xùn)練,使用驗(yàn)證數(shù)據(jù)集調(diào)整模
型參數(shù)·
使用評(píng)估指標(biāo)衡量模型性能:均方誤差(MSE)、
準(zhǔn)確率等模型部署與應(yīng)用模型部署·
經(jīng)過評(píng)估和調(diào)優(yōu)后的模型達(dá)到
令人滿意了的性能,就可以將
其部署到實(shí)際應(yīng)用環(huán)境中應(yīng)用考量·
需要考慮模型的可擴(kuò)展性、穩(wěn)
定性、與現(xiàn)有系統(tǒng)的兼容性·
因?yàn)殡S著時(shí)間推移,現(xiàn)有模型
可能不再能夠進(jìn)行有效預(yù)測(cè),
需要訓(xùn)練新的模型進(jìn)行替代數(shù)據(jù)收集與預(yù)處理收集到的原始數(shù)據(jù)存在問題·缺失值:均值填充、中位數(shù)填
充或插值方法·異常值:根據(jù)數(shù)據(jù)的分布和業(yè)
務(wù)知識(shí)進(jìn)行識(shí)別與修正·特征工程:格式統(tǒng)一轉(zhuǎn)換,如
將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)不同渠道收集的數(shù)據(jù)·
需要清洗與整合,以形成能夠用于后續(xù)模型訓(xùn)練的數(shù)據(jù)集三、機(jī)器學(xué)習(xí)的一般流程機(jī)器學(xué)習(xí)通過迭代優(yōu)化模型參數(shù),最終實(shí)現(xiàn)對(duì)新數(shù)據(jù)的預(yù)測(cè)或決策17數(shù)據(jù)收集與預(yù)處理數(shù)據(jù)收集·
收集大量數(shù)據(jù):產(chǎn)品類別、價(jià)
格、歷史銷售數(shù)據(jù)、促銷活動(dòng)記錄以及用戶評(píng)價(jià)數(shù)據(jù)預(yù)處理·
采用均值填充處理缺失的銷售
數(shù)據(jù)·
利用文本清洗工具去除用戶評(píng)
價(jià)中的噪聲信息(無用的標(biāo)點(diǎn)
符號(hào)和錯(cuò)別字)·
將文本轉(zhuǎn)化為可供分析的結(jié)構(gòu)
化數(shù)據(jù)·
對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使不
同特征的數(shù)據(jù)具有相似的尺度模型選擇與訓(xùn)練模型選擇·
選用隨機(jī)森林回歸模型——處
理具有復(fù)雜特征關(guān)系的數(shù)據(jù)時(shí)
表現(xiàn)良好,能夠避免過擬合模型訓(xùn)練·
將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練
集和驗(yàn)證集,利用訓(xùn)練集對(duì)隨
機(jī)森林模型進(jìn)行訓(xùn)練·
模型根據(jù)數(shù)據(jù)中的特征(價(jià)格、歷史銷量等)學(xué)習(xí)預(yù)測(cè)銷量·
模型不斷調(diào)整內(nèi)部參數(shù),以最
小化預(yù)測(cè)值與訓(xùn)練集中實(shí)際銷
量值之間的誤差·通過多次迭代逐漸優(yōu)化模型模型評(píng)估與調(diào)優(yōu)模型評(píng)估·
使用驗(yàn)證集對(duì)訓(xùn)練好的隨機(jī)森
林模型進(jìn)行評(píng)估·
初次評(píng)估結(jié)果顯示,模型的預(yù)
測(cè)誤差有優(yōu)化空間模型調(diào)優(yōu)·
調(diào)整隨機(jī)森林中樹的數(shù)量、樹
的深度等超參數(shù)·
通過網(wǎng)格搜索方法,對(duì)不同超
參數(shù)組合進(jìn)行測(cè)試,找到使模
型在驗(yàn)證集上評(píng)估指標(biāo)最優(yōu)的
超參數(shù)設(shè)置·
調(diào)優(yōu)后,模型的均方誤差顯著
降低,預(yù)測(cè)準(zhǔn)確性得到提高模型部署與應(yīng)用模型部署·
電商平臺(tái)A
將其部署到自身的運(yùn)
營(yíng)系統(tǒng)中模型應(yīng)用·
有新產(chǎn)品上架或者產(chǎn)品數(shù)據(jù)有
更新時(shí),模型會(huì)自動(dòng)獲取相關(guān)
數(shù)據(jù)并進(jìn)行銷量預(yù)測(cè)·
庫(kù)存管理部門依據(jù)預(yù)測(cè)結(jié)果提
前規(guī)劃庫(kù)存(促銷活動(dòng)前提前
增加熱門產(chǎn)品的庫(kù)存;減少銷
量不佳產(chǎn)品的庫(kù)存積壓)·
提高了平臺(tái)A
的整體運(yùn)營(yíng)效率和
利潤(rùn)案例1:電商平臺(tái)A利用機(jī)器學(xué)習(xí)預(yù)測(cè)產(chǎn)品銷量,以優(yōu)化庫(kù)存管理18非線性回歸多項(xiàng)式回歸多項(xiàng)式回歸可以擬合多項(xiàng)式函數(shù)形式的經(jīng)濟(jì)關(guān)系,例如在分析稅收與經(jīng)濟(jì)增長(zhǎng)的關(guān)系時(shí),多項(xiàng)式回歸就可以捕
捉到稅收在不同階段對(duì)經(jīng)濟(jì)增長(zhǎng)的不同影響支持向量回歸(Support
Vector
Regression,SVR).一種基于支持向量機(jī)(SVM)
的回歸方法.可以很好地處理小樣本、高維經(jīng)濟(jì)數(shù)據(jù).分析新興產(chǎn)業(yè)的企業(yè)財(cái)務(wù)數(shù)據(jù)與市場(chǎng)估值的關(guān)系時(shí),支
持向量回歸能夠挖掘出復(fù)雜的非線性模式,提供更準(zhǔn)確
的預(yù)測(cè)線性回歸嶺回歸(Ridge
Regression)拉索回歸(Lasso
Regression).
研究多個(gè)經(jīng)濟(jì)變量(如各種經(jīng)濟(jì)指標(biāo)對(duì)GDP
的影響)之間的關(guān)系時(shí),由于這些變量可能高度相關(guān),因此普通的線
性回歸估計(jì)會(huì)變得不穩(wěn)定嶺回歸和拉索回歸是線性回歸的變體,處理經(jīng)濟(jì)學(xué)數(shù)據(jù)時(shí)可以應(yīng)對(duì)多重共線性問題通過在損失函數(shù)中加入懲罰項(xiàng),能夠收縮系數(shù),使得模型
更加穩(wěn)健,并且可以自動(dòng)進(jìn)行變量選擇,從而從眾多經(jīng)濟(jì)
變量中篩選出對(duì)結(jié)果有重要影響的因素四、機(jī)器學(xué)習(xí)的常用方法回歸分析19輸入決策樹2輸出隨機(jī)森林分類器.隨機(jī)森林是基于決策樹的集成學(xué)習(xí)算法.
處
理復(fù)雜的分類問題:如經(jīng)濟(jì)危機(jī)的預(yù)警分類,可將經(jīng)濟(jì)狀態(tài)分為正常、危機(jī)前兆、危機(jī)爆發(fā)等類別.減少單個(gè)決策樹的過擬合問題,提高分類的準(zhǔn)確性和穩(wěn)
定性評(píng)估每個(gè)特征在分類過程中的重要性,識(shí)別出關(guān)鍵因素決策樹分類器決策樹清晰地展示出經(jīng)濟(jì)決策的過程和依據(jù)處理離散型經(jīng)濟(jì)變量的分類問題:企業(yè)的行業(yè)類別、產(chǎn)品
的市場(chǎng)定位、個(gè)人的工作類型批
準(zhǔn)是是×否×否是分類算法:優(yōu)化經(jīng)濟(jì)決策是否有房產(chǎn)是是否有貸款輸入否是否老年是X銀行貸款審批的決策樹評(píng)估模型是否隨機(jī)森林模型否
批準(zhǔn)是
批
準(zhǔn)決策樹3決策樹1批
準(zhǔn)否否20K-
均
值
聚
類(K-means
Clustering).聚類分析是一種無監(jiān)督學(xué)習(xí)方法K-均值聚類以樣本間距離為基礎(chǔ),將所有的觀測(cè)劃分到K
個(gè)群體,使得群體和群體之間的距離盡量大,同時(shí)群體內(nèi)
部的觀測(cè)之間的“距離和”最小在經(jīng)濟(jì)學(xué)中,
K-均值聚類可以用于劃分經(jīng)濟(jì)主體的群體。例如,在市場(chǎng)細(xì)分方面,可以根據(jù)消費(fèi)者的消費(fèi)行為(如
購(gòu)買頻率、購(gòu)買金額、品牌偏好等)將消費(fèi)者劃分為不同
的群體層
次
聚
類(HierarchicalClustering)也稱系統(tǒng)聚類,根據(jù)個(gè)體間距離將個(gè)體向上兩兩聚
合,再將聚合的小群體兩兩聚合,
一直到聚合為一
個(gè)整體在經(jīng)濟(jì)學(xué)中,層次聚類多用于宏觀綜合評(píng)價(jià)。例如,
在研究產(chǎn)業(yè)集群?jiǎn)栴}時(shí),層次聚類可以根據(jù)企業(yè)的
產(chǎn)業(yè)關(guān)聯(lián)度、地理位置、技術(shù)水平等因素,逐步將
企業(yè)劃分到不同層次的集群中聚類分析:洞察群體特征層次聚類示意圖21典型的K-均值聚類模型3.2機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中的應(yīng)用理解機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)領(lǐng)域中的主流應(yīng)用研究發(fā)現(xiàn)提高了對(duì)宏觀經(jīng)濟(jì)的預(yù)測(cè)精度(GouletCoulombe
et
al.,2020)在機(jī)器學(xué)習(xí)用于宏觀經(jīng)濟(jì)預(yù)測(cè)的過程中,
非線性特征是核心,通過模型與非線性函數(shù)結(jié)合(如經(jīng)主成分分析獲取因子后與非
線性函數(shù)結(jié)合)可以顯著提升預(yù)測(cè)準(zhǔn)確性為
季
度GDP
走勢(shì)預(yù)測(cè)創(chuàng)新研究帶來突破
(何強(qiáng)和董志勇,2020).
基于機(jī)器學(xué)習(xí)模型,對(duì)中國(guó)2011-2018年
季度GDP增速進(jìn)行預(yù)測(cè)分析對(duì)解釋變量集添加懲罰約束,可以有效處
理大數(shù)據(jù)維度較高的問題預(yù)測(cè)季度GDP增速的最優(yōu)大數(shù)據(jù)解釋變量
集的穩(wěn)定性較高,補(bǔ)充現(xiàn)有宏觀經(jīng)濟(jì)預(yù)測(cè)應(yīng)用動(dòng)機(jī)數(shù)據(jù)驅(qū)動(dòng)傳統(tǒng)經(jīng)濟(jì)學(xué)研究多基于理論假設(shè)構(gòu)建
模型,然而現(xiàn)實(shí)經(jīng)濟(jì)現(xiàn)象復(fù)雜多變機(jī)器學(xué)習(xí)借助現(xiàn)代信息技術(shù),能夠處
理海量、高維度的經(jīng)濟(jì)數(shù)據(jù)例如:在分析消費(fèi)者行為時(shí),不再局限于傳統(tǒng)的收入、價(jià)格等變量,還可納入消費(fèi)者的瀏覽歷史、購(gòu)買頻率、
社交網(wǎng)絡(luò)行為等多源數(shù)據(jù)經(jīng)濟(jì)理論的指導(dǎo)作用數(shù)據(jù)驅(qū)動(dòng)與理論導(dǎo)向相結(jié)合,使機(jī)器學(xué)習(xí)既能捕捉數(shù)據(jù)中的隱藏信息,又
能保持預(yù)測(cè)結(jié)果的經(jīng)濟(jì)合理性研究過程五大步驟.
問題定義與數(shù)據(jù)收集.
數(shù)據(jù)預(yù)處理.
模型選擇與訓(xùn)練.
模
型
評(píng)
估
與
優(yōu)
化.
預(yù)測(cè)與結(jié)果分析在整個(gè)預(yù)測(cè)分析過程中高度依賴經(jīng)濟(jì)學(xué)理論,而不是完全由數(shù)據(jù)
主
導(dǎo)一、經(jīng)濟(jì)預(yù)測(cè)分析·機(jī)器學(xué)習(xí)在預(yù)測(cè)分析性的研究工作中效果顯著,為經(jīng)濟(jì)學(xué)的理論探索與政策研究提供了強(qiáng)大的技術(shù)支持23問題定義·
問題:提前預(yù)測(cè)失業(yè)率變
化,為制定就業(yè)政策與宏觀經(jīng)濟(jì)政策提供支撐數(shù)據(jù)收集·
宏觀經(jīng)濟(jì)數(shù)據(jù)(統(tǒng)計(jì)局、
央
行
)
:
GDP增長(zhǎng)率、通
貨膨脹率·
勞動(dòng)力市場(chǎng)數(shù)據(jù)(統(tǒng)
計(jì)
局
)
:勞動(dòng)力參與率、新
增就業(yè)崗位數(shù)·
行業(yè)數(shù)據(jù)(統(tǒng)計(jì)部門、行
業(yè)協(xié)會(huì)):制造業(yè)訂單量缺失值處理·GDP增長(zhǎng)率:線性插值法(根據(jù)前后時(shí)間點(diǎn)估算)·
新增就業(yè)崗位數(shù)量:利用
其他行業(yè)新增就業(yè)數(shù)據(jù)及
行業(yè)間就業(yè)比例關(guān)系填補(bǔ)異常值處理·
如果不是真實(shí)情況,則采
用穩(wěn)健統(tǒng)計(jì)方法(將異常
值替換為基于四分位數(shù)間距計(jì)算的合理邊界值)特征工程·
特征縮放:將所有不同量級(jí)的數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)
分布(均值0,標(biāo)準(zhǔn)差1)·
特征構(gòu)造:就業(yè)彈性系數(shù)模型選擇·
涉及多個(gè)經(jīng)濟(jì)變量的復(fù)雜
關(guān)系,選用隨機(jī)森林模型·
將處理后的數(shù)據(jù)集劃分為
訓(xùn)練集(70%)、驗(yàn)證集
(15%)和測(cè)試集(15%)模型訓(xùn)練·使用訓(xùn)練集數(shù)據(jù),學(xué)習(xí)
GDP增長(zhǎng)率、通貨膨脹率、
勞動(dòng)力參與率等特征與失
業(yè)率的關(guān)系·
不斷調(diào)整決策樹的參數(shù),
如樹的深度、節(jié)點(diǎn)最小樣
本數(shù)等,以最小化預(yù)測(cè)值
與實(shí)際失業(yè)率之間的誤差模型評(píng)估模型評(píng)估·
使用測(cè)試集數(shù)據(jù)輸入模型,
計(jì)算MSE和MAE值模型優(yōu)化·
基
于驗(yàn)證集結(jié)果調(diào)整模型
參數(shù)。經(jīng)過多次試驗(yàn),找
到使驗(yàn)證集MSE和MAE
最
小的最優(yōu)參數(shù)組合·
對(duì)模型使用的特征進(jìn)行篩
選。發(fā)現(xiàn)某些行業(yè)數(shù)據(jù)可
能對(duì)失業(yè)率預(yù)測(cè)的貢獻(xiàn)較
小,就可以將其從特征集
中剔除,以簡(jiǎn)化模型,同
時(shí)提升模型的泛化能力預(yù)測(cè)與結(jié)果分析預(yù)測(cè)誤差·
將最新處理過的數(shù)據(jù)輸入
優(yōu)化后的模型,得到下季
度失業(yè)率預(yù)測(cè)值·
與實(shí)際值相比計(jì)算預(yù)測(cè)誤差,分析誤差產(chǎn)生的原因,
是未考慮突發(fā)經(jīng)濟(jì)事件
(如貿(mào)易摩擦),還是未
捕捉到數(shù)據(jù)新的變化趨勢(shì)結(jié)果分析·
盡管存在預(yù)測(cè)誤差,但預(yù)
測(cè)結(jié)果仍可為作為參考·
政府可依據(jù)預(yù)測(cè)結(jié)果提前
規(guī)劃就業(yè)政策,企業(yè)可據(jù)
此調(diào)整人力資源策略·
誤差分析也為進(jìn)一步改進(jìn)
模型提供方向案例2:B國(guó)經(jīng)濟(jì)政策部門希望提前預(yù)測(cè)失業(yè)率,為政策制定提供依據(jù)問題定義
數(shù)據(jù)收集模型選擇
與訓(xùn)練數(shù)據(jù)
預(yù)處理(就業(yè)增長(zhǎng)率/經(jīng)濟(jì)增長(zhǎng)率)24應(yīng)用契機(jī)評(píng)估效果傳統(tǒng)評(píng)估方法指標(biāo)上優(yōu)于傳統(tǒng)模型.
信
用
評(píng)
分
模
型:依據(jù)借款人的信用歷史、負(fù)債水平、還款記錄等關(guān)鍵要素賦予量化分?jǐn)?shù).
財(cái)務(wù)比率分析:從財(cái)務(wù)報(bào)表中提煉衡量企業(yè)信用品質(zhì)的指標(biāo),如企業(yè)償債能力(如資產(chǎn)負(fù)債率)、盈利能力(如資產(chǎn)凈利率)
和營(yíng)運(yùn)能力(如應(yīng)收賬款周轉(zhuǎn)率).統(tǒng)計(jì)技術(shù):基于用戶的個(gè)人信息與數(shù)據(jù),借助邏輯回歸等方法構(gòu)建預(yù)測(cè)模型,剖析借款人特征與違約風(fēng)險(xiǎn)之間的潛在關(guān)聯(lián)傳統(tǒng)方法的局限性.
評(píng)估易受人為判斷偏差干擾.
數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)覆蓋不全面、歷史數(shù)據(jù)滯后性
.
傳統(tǒng)統(tǒng)計(jì)模型的預(yù)測(cè)能力弱,靈活性差在準(zhǔn)確率上,機(jī)器學(xué)習(xí)模型可以靈活捕捉復(fù)雜的非線性關(guān)系,精準(zhǔn)判別風(fēng)險(xiǎn)客戶,
提升分類準(zhǔn)確性;精確率與召回率的改善,相應(yīng)地提升了F1值與AUC-ROC
指標(biāo),能更有效地區(qū)分風(fēng)
險(xiǎn)類別優(yōu)化決策挑戰(zhàn).
機(jī)器學(xué)習(xí)模型的“黑箱”決策難以被解釋.
為平衡準(zhǔn)確性與可解釋性,可以適當(dāng)簡(jiǎn)化模型,融合傳統(tǒng)評(píng)估方法與機(jī)器學(xué)習(xí)模型,或采用Shapley值、局部可解釋性模型等方法嘗試闡釋預(yù)測(cè)新趨勢(shì).
可解釋人工智能(Explainable
Artificial
Intelligence,XAI):借助一系列方法
提升模型透明度,增進(jìn)理解信任.
聯(lián)邦學(xué)習(xí)(FederatedLearning,FL):利用分布式計(jì)算技術(shù),不共享原始數(shù)據(jù),
保障數(shù)據(jù)隱私安全,允許多機(jī)構(gòu)協(xié)同訓(xùn)練模型,提升模型性能.
集成方法:融合多模型優(yōu)勢(shì),強(qiáng)化預(yù)測(cè)準(zhǔn)確性與穩(wěn)健性25.
實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測(cè):借流數(shù)據(jù)處理框架與動(dòng)態(tài)模型,實(shí)現(xiàn)即時(shí)風(fēng)險(xiǎn)評(píng)估輔助決策二、信用風(fēng)險(xiǎn)評(píng)估·近年來傳統(tǒng)信用評(píng)估手段漸顯局限·機(jī)器學(xué)習(xí)算法在挖掘數(shù)據(jù)模式、提升預(yù)測(cè)精度等方面潛力巨大,對(duì)金融發(fā)展意義深遠(yuǎn)(Bello
et
al.,2024)做法與優(yōu)勢(shì)·機(jī)器學(xué)習(xí)賦予算法自主從海量數(shù)據(jù)中學(xué)習(xí)規(guī)律、預(yù)測(cè)趨勢(shì)的能力,無須依賴預(yù)設(shè)規(guī)則的精確編程監(jiān)督學(xué)習(xí)算法憑借標(biāo)注完備的歷史數(shù)據(jù),可以精準(zhǔn)學(xué)習(xí)輸入特征(借款人年齡、收入、資產(chǎn)規(guī)模、信用歷史細(xì)節(jié))與輸出標(biāo)簽(是否違約)之間的映射模式.邏輯回歸以數(shù)學(xué)形式量化特征與違約概率間的線性關(guān)聯(lián);決策樹
構(gòu)建層次決策規(guī)則,直觀地展示風(fēng)險(xiǎn)判定邏輯;支持向量機(jī)尋找最優(yōu)
決策邊界最大化類別間隔,提升分類的準(zhǔn)確性無監(jiān)督學(xué)習(xí)算法.聚焦于挖掘無標(biāo)簽數(shù)據(jù)蘊(yùn)含的潛在模式與結(jié)構(gòu)聚類算法依據(jù)借款人特征相似性將其劃分為不同的風(fēng)險(xiǎn)群組,發(fā)現(xiàn)潛在風(fēng)險(xiǎn)聚集現(xiàn)象;異常檢測(cè)技術(shù)可以敏銳捕捉偏離常態(tài)的數(shù)據(jù)點(diǎn),及時(shí)甄別高風(fēng)險(xiǎn)的異常個(gè)體深度學(xué)習(xí)算法.依托多層神經(jīng)網(wǎng)絡(luò)架構(gòu),自動(dòng)學(xué)習(xí)數(shù)據(jù)的層級(jí)特征表示,擅長(zhǎng)處理大規(guī)模復(fù)雜信用數(shù)據(jù)(如融合多渠道金融數(shù)據(jù)、交易行為軌跡等),
尤其適用于欺詐行為識(shí)別、復(fù)雜風(fēng)險(xiǎn)模式預(yù)測(cè)等精細(xì)化任務(wù)“芝麻信用“從身份特征、信用歷史、履約能力等方面進(jìn)行綜合評(píng)分,通過深度學(xué)習(xí)精確評(píng)估出用戶在不同商業(yè)場(chǎng)景的守約行為,成
為“共享衣櫥”買賣雙方建立信任的重要紐帶26研究方法基本方法.采用大語(yǔ)言模型工具,對(duì)盈利電話、會(huì)議記錄、媒體報(bào)道等文本進(jìn)行深入分析,構(gòu)建企業(yè)在政治、氣候及人工智能相關(guān)風(fēng)險(xiǎn)暴露度指標(biāo).
針對(duì)各風(fēng)險(xiǎn)類型,生成兩種輸出形式:風(fēng)險(xiǎn)摘要聚焦文本內(nèi)容重組,評(píng)估結(jié)果融合文檔語(yǔ)境與模型知識(shí).風(fēng)險(xiǎn)暴露程度:以摘要或評(píng)估文本長(zhǎng)度與會(huì)議記錄長(zhǎng)度之比衡量,用以多維度捕捉企業(yè)風(fēng)險(xiǎn)信息Kimetal.(2023)使用2018年1月-2023年3月期間美國(guó)公司盈利電話會(huì)議記錄,將之轉(zhuǎn)化為文本后“喂”給GPT3.5,讓大語(yǔ)言模型基于文本判斷企業(yè)風(fēng)險(xiǎn)情況數(shù)據(jù)集:資本市場(chǎng)變量選取隱含波動(dòng)率和異常波動(dòng)率,經(jīng)濟(jì)變量包括資本投資、游說活動(dòng)、綠色經(jīng)濟(jì)指標(biāo)與人工智能相關(guān)專利指標(biāo)研究結(jié)果:大語(yǔ)言模型在企業(yè)面臨風(fēng)險(xiǎn)上的判斷具有相當(dāng)強(qiáng)的真實(shí)性,能夠豐富企業(yè)風(fēng)險(xiǎn)研究的指標(biāo)選擇.
各風(fēng)險(xiǎn)指標(biāo)相關(guān)性復(fù)雜,不同行業(yè)風(fēng)險(xiǎn)各異:煙草行業(yè)政治風(fēng)險(xiǎn)更高、煤炭行業(yè)氣候風(fēng)險(xiǎn)更高、商業(yè)服務(wù)行業(yè)的人工智能風(fēng)險(xiǎn)更高.
企
業(yè)風(fēng)險(xiǎn)的暴露度與事件關(guān)聯(lián)緊密,各家企業(yè)面臨的政治風(fēng)險(xiǎn)均于2020年(新冠疫情與美國(guó)大選)、2022年(俄烏沖突)后上升,氣候風(fēng)
險(xiǎn)受氣候峰會(huì)和災(zāi)害影響波動(dòng),人工智能技術(shù)風(fēng)險(xiǎn)近年來隨技術(shù)發(fā)展攀升,這些趨勢(shì)都符合現(xiàn)實(shí)邏輯三、基于大語(yǔ)言模型的指標(biāo)構(gòu)建·
基于字典的文本分析方法依賴于預(yù)先構(gòu)建的字典,語(yǔ)義變化適應(yīng)性差,難以適應(yīng)當(dāng)前的宏觀背景·大語(yǔ)言模型能從非結(jié)構(gòu)化的文本資料中提取有價(jià)值的風(fēng)險(xiǎn)信息27研究?jī)r(jià)值為人工智能技術(shù)賦能金融風(fēng)險(xiǎn)分析提供了新的研究思路.
Kim
et
al.
(2023)之后,大批學(xué)者開始嘗試?yán)么笳Z(yǔ)言模型構(gòu)建非傳統(tǒng)的文本指標(biāo),豐富了經(jīng)濟(jì)學(xué)的實(shí)證研究方法.研究拓展了企業(yè)風(fēng)險(xiǎn)測(cè)度理論方法的體系邊界,以人工智能技術(shù)優(yōu)勢(shì)彌補(bǔ)了傳統(tǒng)方法短板,補(bǔ)充了在企業(yè)風(fēng)險(xiǎn)
測(cè)度相關(guān)領(lǐng)域應(yīng)用人工智能技術(shù)的空白,確立了大模型具備的通用知識(shí)價(jià)值,可以幫助投資者低成本地洞察企
業(yè)可能存在的風(fēng)險(xiǎn)面臨新的挑戰(zhàn)與要求基于大模型的風(fēng)險(xiǎn)評(píng)估表現(xiàn)對(duì)選取的提示詞(Prompt)高度敏感:.使用錯(cuò)誤或者不準(zhǔn)確的提示詞,訓(xùn)練過程中可能會(huì)出現(xiàn)判斷錯(cuò)誤或“幻覺”現(xiàn)象,干擾最終形成的指標(biāo)與判斷的準(zhǔn)確性(GIGO)對(duì)研究者利用大語(yǔ)言模型構(gòu)建經(jīng)濟(jì)指標(biāo)的過程提出新的要求.在使用大模型進(jìn)行分析和預(yù)測(cè)時(shí),應(yīng)與源文件充分比對(duì),及時(shí)發(fā)現(xiàn)可能存在的錯(cuò)誤判斷.對(duì)于大模型生成的各種內(nèi)容,應(yīng)小心識(shí)別、慎重應(yīng)用,避免因盲目依賴或過度信任導(dǎo)致“盡信書不如無書”283.3機(jī)器學(xué)習(xí)對(duì)經(jīng)濟(jì)學(xué)研究方法的影響掌握機(jī)器學(xué)習(xí)與經(jīng)濟(jì)學(xué)相互結(jié)合涉及的理論與技術(shù)要點(diǎn)一、數(shù)據(jù)處理與分析能力的革新(1)海量數(shù)據(jù)的高效整合數(shù)據(jù)是經(jīng)濟(jì)學(xué)研究的實(shí)證基礎(chǔ),但傳統(tǒng)的數(shù)據(jù)收集和整合方法面臨巨大挑戰(zhàn).
數(shù)據(jù)來源廣泛:宏觀經(jīng)濟(jì)數(shù)據(jù)(如各國(guó)GDP、通貨膨脹率、失業(yè)率等)、金融市場(chǎng)數(shù)據(jù)(股票價(jià)格、債券收益率、
匯率等)、企業(yè)微觀數(shù)據(jù)(財(cái)務(wù)報(bào)表、生產(chǎn)銷售數(shù)據(jù)等)、消費(fèi)者行為數(shù)據(jù)(消費(fèi)記錄、偏好調(diào)查等)與各種特
殊數(shù)據(jù).數(shù)據(jù)結(jié)構(gòu)分散:來自不同的機(jī)構(gòu)、部門、數(shù)據(jù)庫(kù),不同的文件格式機(jī)器學(xué)習(xí)能夠更有效地收集、整合海量數(shù)據(jù).通過自動(dòng)化的數(shù)據(jù)采集工具和算法,快速地從多個(gè)數(shù)據(jù)源收集數(shù)據(jù)(爬蟲技術(shù)可以從政府統(tǒng)計(jì)網(wǎng)站等抓取經(jīng)濟(jì)數(shù)據(jù)
)可以將不同格式的數(shù)據(jù)(如結(jié)構(gòu)化的數(shù)據(jù)庫(kù)數(shù)據(jù)、半結(jié)構(gòu)化的XML數(shù)據(jù)和非結(jié)構(gòu)化的文本數(shù)據(jù))統(tǒng)一轉(zhuǎn)換為適合分析的格式30現(xiàn)實(shí)中數(shù)據(jù)缺失、異常值等問題不可避免,但傳統(tǒng)方法在面對(duì)大規(guī)模數(shù)據(jù)時(shí)效率低下、極易出錯(cuò).傳統(tǒng)的數(shù)據(jù)清洗主要依賴人工檢查和簡(jiǎn)單的統(tǒng)計(jì)規(guī)則機(jī)器學(xué)習(xí)為數(shù)據(jù)清洗提供了更智能的解決方案,顯著提升數(shù)據(jù)質(zhì)量與可用性.
處
理
缺
失
值:機(jī)器學(xué)習(xí)可以根據(jù)數(shù)據(jù)的分布特征和其他相關(guān)變量的關(guān)系來推測(cè)缺失值。例如,在處理消費(fèi)者收入
數(shù)據(jù)缺失時(shí),它可以通過分析消費(fèi)者的年齡、職業(yè)、消費(fèi)層次等其他已知信息來預(yù)測(cè)收入的可能值.
處
理
異
常
值:機(jī)器學(xué)習(xí)可以通過聚類分析識(shí)別出那些與大部分?jǐn)?shù)據(jù)點(diǎn)明顯不同的數(shù)據(jù)點(diǎn)。通過識(shí)別和判斷這些異
常值究竟是錄入錯(cuò)誤,或是特殊經(jīng)濟(jì)事件,可以避免它們對(duì)后續(xù)經(jīng)濟(jì)分析產(chǎn)生誤導(dǎo),提升數(shù)據(jù)的質(zhì)量一、數(shù)據(jù)處理與分析能力的革新(2)數(shù)據(jù)清洗與質(zhì)量提升31特征工程技術(shù)能夠從原始數(shù)據(jù)中提取出最有價(jià)值的變量THT?
俱口.原理:深入理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu)與業(yè)務(wù)邏輯,運(yùn)用多種手段對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、篩選與組合.對(duì)于數(shù)值型數(shù)據(jù):可通過歸一化、標(biāo)準(zhǔn)化處理,使不同量級(jí)的數(shù)據(jù)統(tǒng)一于同一尺度,便于模型訓(xùn)練時(shí)權(quán)重的合理分配
.
對(duì)
于分類數(shù)據(jù):可以進(jìn)行獨(dú)熱編碼(One-Hot
Encoding),將其轉(zhuǎn)化為數(shù)值形式便于計(jì)算.優(yōu)點(diǎn):通過提煉特征變量,機(jī)器學(xué)習(xí)能夠挖掘出傳統(tǒng)經(jīng)濟(jì)學(xué)研究中可能被忽視的變量之間的關(guān)系,為模型構(gòu)建提供更豐富的變量選擇應(yīng)用:利用機(jī)器學(xué)習(xí)分析企業(yè)績(jī)效與市場(chǎng)環(huán)境的關(guān)系時(shí),可以從企業(yè)的財(cái)務(wù)報(bào)表、市場(chǎng)份額數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手信息等多種原始數(shù)據(jù)
中提取出新的特征變量,如市場(chǎng)競(jìng)爭(zhēng)力指數(shù)、創(chuàng)新能力指標(biāo)等Features
Modelling
InsightsEngineering(3)特征工程與變量挖掘經(jīng)濟(jì)數(shù)據(jù)中包含眾多變量.并非所有變量都對(duì)研究問題有直接幫助.
有些潛在的重要變量可能隱藏在原始數(shù)據(jù)之中未被識(shí)別一、數(shù)據(jù)處理與分析能力的革新32一、數(shù)據(jù)處理與分析能力的革新(4)高維數(shù)據(jù)的降維處理隨著經(jīng)濟(jì)數(shù)據(jù)的日益豐富,數(shù)據(jù)的維度在不斷增加,也給經(jīng)濟(jì)學(xué)研究帶來了
“維度災(zāi)難”(Curse
of
Dimensionality)問題傳統(tǒng)的理論和簡(jiǎn)單的數(shù)據(jù)分析方法難以處理如此高維的數(shù)據(jù),更復(fù)雜的模型又容易陷入過擬合和計(jì)算困境,機(jī)器學(xué)習(xí)提供了多種有效的降維方法來解決這個(gè)問題.
主
成
分
分
析(PCA)
將高維數(shù)據(jù)投影到低維空間,同時(shí)盡可能保留原始數(shù)據(jù)的方差信息。例如,在分析多個(gè)宏觀經(jīng)濟(jì)指標(biāo)對(duì)投資組合的影響時(shí),主成分分析可以將眾多相關(guān)的經(jīng)濟(jì)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),這些綜合指標(biāo)能夠代表原始數(shù)據(jù)的主要信息
.降維處理使我們可以在低維空間中更直觀地分析數(shù)據(jù)之間的關(guān)系,降低計(jì)算成本,避免模型過度擬合.就像將一張高像素圖像轉(zhuǎn)換為素描畫,雖然細(xì)節(jié)減少了,但關(guān)鍵的輪廓和特征卻更加清晰隨著數(shù)據(jù)維度的增加,數(shù)據(jù)空間的體積呈指數(shù)級(jí)增長(zhǎng),導(dǎo)致數(shù)據(jù)變得極為稀疏數(shù)據(jù)點(diǎn)之間的距離難以準(zhǔn)確度量,基于距離的算法(如K-近鄰算法)的性能大幅
下降(在高維下,幾乎所有的數(shù)據(jù)點(diǎn)都彼此遠(yuǎn)離,難以尋找真正有意義的近鄰)高維數(shù)據(jù)還容易引發(fā)過擬合現(xiàn)象,模型可能會(huì)過度學(xué)習(xí)數(shù)據(jù)中的噪聲和細(xì)微變化,
而忽略數(shù)據(jù)的整體趨勢(shì)和內(nèi)在規(guī)律1D鄰居n2Dn=8
n=26維度數(shù)量D33.機(jī)器學(xué)習(xí)通過數(shù)據(jù)驅(qū)動(dòng)的方式,能夠更有效地模擬反事實(shí)場(chǎng)景.利用生成式對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarial
Networks,GAN)或變分自編碼器(VariationalAuto-Encoders,VAE)等技術(shù),可以根據(jù)現(xiàn)有數(shù)據(jù)生成與實(shí)際情況相似但缺少處理變量影響的反事實(shí)數(shù)據(jù)在政策評(píng)估方面,基于機(jī)器學(xué)習(xí)的反事實(shí)框架能夠發(fā)揮重要作用.例如,評(píng)估一項(xiàng)稅收優(yōu)惠政策對(duì)企業(yè)投資的影響。機(jī)器學(xué)習(xí)可以根據(jù)沒有享受稅收優(yōu)惠政策的企業(yè)數(shù)據(jù)(對(duì)照組)與享受稅收優(yōu)惠政策的企業(yè)數(shù)據(jù)(處理組),通過模擬反事實(shí)場(chǎng)景,估計(jì)如果沒有該優(yōu)惠政策,享受該政策的企業(yè)投資行為會(huì)如何變化,從而
推斷出政策的因果效應(yīng)就像是為經(jīng)濟(jì)實(shí)驗(yàn)創(chuàng)造了一個(gè)虛擬的“平行時(shí)空”,在這個(gè)時(shí)空里可以觀察到?jīng)]有政策干預(yù)時(shí)的經(jīng)濟(jì)狀態(tài),進(jìn)而對(duì)比出政策真正的作用I(1)構(gòu)建反事實(shí)框架依據(jù)傳統(tǒng)方法構(gòu)建反事實(shí)場(chǎng)景比較困難
Ie
Y
Ie.需要假設(shè)在沒有某個(gè)因素(處理變量)干預(yù)的非現(xiàn)實(shí)情況下,經(jīng)濟(jì)主體的行為或經(jīng)濟(jì)結(jié)果會(huì)是什么樣的二、因果推斷與關(guān)系識(shí)別的新路徑IY*Yeffect34(2)解決內(nèi)生性問題內(nèi)生性是經(jīng)濟(jì)學(xué)研究中的一個(gè)關(guān)鍵難題,傳統(tǒng)的選取工具變量法比較主觀.
內(nèi)
生
性問題:解釋變量與誤差項(xiàng)相關(guān),導(dǎo)致估計(jì)結(jié)果有偏.
尋找合適的工具變量是一個(gè)復(fù)雜且主觀的過程,經(jīng)濟(jì)學(xué)家需要憑借豐富的經(jīng)驗(yàn)和理論知識(shí),基于相關(guān)經(jīng)濟(jì)學(xué)理論尋找、從數(shù)據(jù)的
生成過程尋找,以及利用歷史事件或自然實(shí)驗(yàn)等方法尋找工具變量機(jī)器學(xué)習(xí)為工具變量的選擇提供了一種更為客觀的數(shù)據(jù)驅(qū)動(dòng)方法.通過拉索回歸(Lasso
Regression)等技術(shù),可以在大量潛在的變量中自動(dòng)篩選出與內(nèi)生解釋變量高度相關(guān)、但與誤差項(xiàng)不相關(guān)的工具變量.這種自動(dòng)化的篩選過程減少了人為選擇的主觀性,提高了工具變量選擇的準(zhǔn)確性二、因果推斷與關(guān)系識(shí)別的新路徑35機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法)能夠很好地應(yīng)對(duì)負(fù)責(zé)情況,提高了關(guān)系識(shí)別的精度與準(zhǔn)度場(chǎng)景.基于深度學(xué)習(xí)構(gòu)建的神經(jīng)網(wǎng)絡(luò)具有多個(gè)隱藏層,可以自動(dòng)學(xué)習(xí)變量之間的復(fù)雜函數(shù)關(guān)系.應(yīng)用:在研究消費(fèi)者購(gòu)買決策與產(chǎn)品價(jià)格、廣告投入、消費(fèi)者收入等多個(gè)因素的關(guān)系時(shí),神經(jīng)網(wǎng)絡(luò)可以捕捉這些
因素之間的非線性交互作用。比如,廣告投入在一定范圍內(nèi)可能會(huì)隨著商品價(jià)格的降低而對(duì)購(gòu)買決策產(chǎn)生更大的
正向影響,而超過某個(gè)閾值后這種影響可能會(huì)減弱。神經(jīng)網(wǎng)絡(luò)通過對(duì)大量消費(fèi)者購(gòu)買數(shù)據(jù)的學(xué)習(xí),能夠準(zhǔn)確識(shí)別
這種復(fù)雜的關(guān)系模式(3)捕捉復(fù)雜的非線性關(guān)系傳統(tǒng)的線性回歸模型等方法在處理復(fù)雜關(guān)系時(shí)存在局限性.經(jīng)濟(jì)現(xiàn)象中的個(gè)體和變量之間往往存在復(fù)雜的交互作用和非線.傳統(tǒng)方法可能會(huì)忽略重要的經(jīng)濟(jì)規(guī)律二、因果推斷與關(guān)系識(shí)別的新路徑r0.33
:0.16r-0.996。0.87r-0.010.5r0.02
0.81r0.9920.89r0.896;0.57r-0.0150.44r0.01。0.7636二、因果推斷與關(guān)系識(shí)別的新路徑(4)雙重機(jī)器學(xué)習(xí)(Double
Machine
Learning,DML)基本概念.雙重機(jī)器學(xué)習(xí)結(jié)合傳統(tǒng)回歸分析與現(xiàn)代機(jī)器學(xué)習(xí)方法,在存在大量控制變量或高維數(shù)據(jù)的情況下,聚焦于通過機(jī)器學(xué)習(xí)來改善模型的預(yù)測(cè)準(zhǔn)確性,提供更加穩(wěn)健和無偏的因果效應(yīng)估計(jì)核心思想將因果推理問題分解為兩個(gè)獨(dú)立的預(yù)測(cè)步驟,利用機(jī)器學(xué)習(xí)算法來提高因果效應(yīng)估計(jì)的準(zhǔn)確性和穩(wěn)健性.使用控制變量集結(jié)合機(jī)器學(xué)習(xí)方法,預(yù)測(cè)結(jié)果變量Y,得到預(yù)測(cè)殘差,去除由控制變量解釋的部分.使用同樣的控制變量集,預(yù)測(cè)處理變量X,得到其殘差,去除控制變量的影響.
通過回歸分析上述兩個(gè)殘差,估計(jì)處理變量對(duì)結(jié)果變量的因果效應(yīng)優(yōu)勢(shì).在處理高維數(shù)據(jù)和復(fù)雜模型時(shí),能夠更好地?cái)M合數(shù)據(jù),減少由模型錯(cuò)誤指定引入的偏差.
操作簡(jiǎn)潔、易于掌握37三、經(jīng)濟(jì)學(xué)模型構(gòu)建與優(yōu)化的變革(1)數(shù)據(jù)驅(qū)動(dòng)的模型構(gòu)建方式傳統(tǒng)經(jīng)濟(jì)學(xué)模型的基本假設(shè)過于理想.傳統(tǒng)經(jīng)濟(jì)學(xué)模型構(gòu)建多基于先驗(yàn)理論假設(shè),例如經(jīng)典的線性回歸模型假設(shè)變量間呈線性關(guān)系且誤差項(xiàng)滿足特定分布
.現(xiàn)實(shí)經(jīng)濟(jì)系統(tǒng)極為復(fù)雜,這種強(qiáng)假設(shè)常導(dǎo)致模型對(duì)實(shí)際情況的擬合不佳基于機(jī)器學(xué)習(xí)構(gòu)建的模型對(duì)于基本假設(shè)的要求更低.采用數(shù)據(jù)驅(qū)動(dòng)的方式,無需事先設(shè)定嚴(yán)格的函數(shù)形式.深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法,其結(jié)構(gòu)可依據(jù)數(shù)據(jù)特征自動(dòng)調(diào)整.分析股票市場(chǎng)時(shí),神經(jīng)網(wǎng)絡(luò)算法能根據(jù)海量的股票價(jià)格、成交量、宏觀經(jīng)濟(jì)指標(biāo)等數(shù)據(jù),自主確定各變量間復(fù)雜的交互關(guān)系,構(gòu)
建出適應(yīng)性強(qiáng)的模型,不再局限于傳統(tǒng)線性或特定函數(shù)形式的束縛,從而更精準(zhǔn)地捕捉經(jīng)濟(jì)變量間真實(shí)的關(guān)聯(lián)模式基于機(jī)器學(xué)習(xí)構(gòu)建的模型在應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)經(jīng)濟(jì)方面具有顯著優(yōu)勢(shì).經(jīng)濟(jì)環(huán)境處于不斷變化之中,新的經(jīng)濟(jì)現(xiàn)象、政策沖擊和市場(chǎng)趨勢(shì)持續(xù)涌現(xiàn).機(jī)器學(xué)習(xí)模型能實(shí)時(shí)吸納新數(shù)據(jù),動(dòng)態(tài)調(diào)整自身結(jié)構(gòu)與參數(shù)(例如,機(jī)器學(xué)習(xí)模型可依據(jù)新的消費(fèi)數(shù)據(jù)迅速更新,及時(shí)反映消費(fèi)
市場(chǎng)的變化)傳統(tǒng)經(jīng)濟(jì)學(xué)模型需要較長(zhǎng)時(shí)間進(jìn)行理論修正與參數(shù)重新估計(jì),難以快速適應(yīng)這種動(dòng)態(tài)性
38三、經(jīng)濟(jì)學(xué)模型構(gòu)建與優(yōu)化的變革(2)優(yōu)化模型參數(shù)估計(jì)傳統(tǒng)參數(shù)估計(jì)方法比較低效.參數(shù)估計(jì)的準(zhǔn)確性對(duì)模型性能至關(guān)重要.最大似然估計(jì)在處理大規(guī)模、高維數(shù)據(jù)時(shí)效率較低,且可能陷入局部最優(yōu)解基于機(jī)器學(xué)習(xí)進(jìn)行的參數(shù)搜索更高效.機(jī)器學(xué)習(xí)提供了隨機(jī)梯度下降(SGD)
等先進(jìn)算法,提高了參數(shù)估計(jì)的效率與準(zhǔn)確性,使模型能更好地?cái)M合經(jīng)濟(jì)數(shù)據(jù),提升預(yù)測(cè)
和分析能力以構(gòu)建宏觀經(jīng)濟(jì)預(yù)測(cè)模型為例,模型中包含眾多宏觀變量參數(shù),隨機(jī)梯度下降算法可從隨機(jī)選取的初始參數(shù)開始,沿著數(shù)據(jù)損失
函數(shù)梯度的反方向逐步迭代更新參數(shù),在大規(guī)模經(jīng)濟(jì)數(shù)據(jù)集中快速收斂到較優(yōu)解基于機(jī)器學(xué)習(xí)構(gòu)建的模型更新能力更強(qiáng).隨著時(shí)間推移,經(jīng)濟(jì)數(shù)據(jù)不斷積累,經(jīng)濟(jì)結(jié)構(gòu)和規(guī)律也在悄然改變.機(jī)器學(xué)習(xí)模型能夠依據(jù)新數(shù)據(jù)持續(xù)更新參數(shù)與結(jié)構(gòu)(例如,在國(guó)際貿(mào)易模型中,機(jī)器學(xué)習(xí)模型可利用新增的貿(mào)易數(shù)據(jù)實(shí)時(shí)調(diào)整模
型中關(guān)于貿(mào)易成本、市場(chǎng)份額、產(chǎn)品競(jìng)爭(zhēng)力等參數(shù)的估計(jì),確保模型始終與當(dāng)前經(jīng)濟(jì)狀況緊密契合),當(dāng)然也帶來模型維度問題
傳統(tǒng)經(jīng)濟(jì)學(xué)模型一旦構(gòu)建完成,其更新與調(diào)整就相對(duì)滯后且繁瑣39.例子:索洛經(jīng)濟(jì)增長(zhǎng)模型只適用于給出儲(chǔ)蓄率不變時(shí)的經(jīng)濟(jì)增長(zhǎng)解釋基于機(jī)器學(xué)習(xí)構(gòu)建的模型可以實(shí)現(xiàn)模型的優(yōu)勢(shì)互補(bǔ).采用機(jī)器學(xué)習(xí)中的模型融合與集成策略可將多個(gè)不同類型的模型組合起來.可以將決策樹、支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)等模型集成用于經(jīng)濟(jì)風(fēng)險(xiǎn)評(píng)估(
決策樹模型易于理解和解釋數(shù)據(jù)特征,支持向量機(jī)在處理小樣本、高維數(shù)據(jù)時(shí)有獨(dú)特優(yōu)勢(shì),神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)處理復(fù)雜非線性關(guān)系)通過集成這些模型,綜合它們的預(yù)測(cè)結(jié)果,能更全面、準(zhǔn)確地評(píng)估經(jīng)濟(jì)風(fēng)險(xiǎn),彌補(bǔ)單一模型的不足,進(jìn)而提供更穩(wěn)健可靠的經(jīng)濟(jì)分析結(jié)論三、經(jīng)濟(jì)學(xué)模型構(gòu)建與優(yōu)化的變革Encoding
FusionClassification(3)模型融合與集成策略傳統(tǒng)經(jīng)濟(jì)學(xué)模型比較單一.單一的經(jīng)濟(jì)學(xué)模型只能捕捉經(jīng)濟(jì)現(xiàn)象的某一方面特征或適用于特定情境Unimodal
model1Unimodal
model2Unimodalmodel3Input
1Input2Input3Classification
networkFusionmodulePrediction403.4機(jī)器學(xué)習(xí)應(yīng)用于經(jīng)濟(jì)學(xué)的
挑戰(zhàn)與應(yīng)對(duì)掌握機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中廣泛應(yīng)用的阻礙與應(yīng)對(duì)應(yīng)對(duì)方法解決數(shù)據(jù)質(zhì)量問題.需要進(jìn)行嚴(yán)格的數(shù)據(jù)清洗.處理缺失值:可以采用均值、中位數(shù)填充或者基于模
型的填充方法.處理異常值:可以通過統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年電氣傳動(dòng)技術(shù)在水處理中的應(yīng)用
- 2026年建筑電氣設(shè)計(jì)中的綠色能源應(yīng)用
- 2026年G技術(shù)在房地產(chǎn)中的創(chuàng)新應(yīng)用前景
- 貨運(yùn)駕駛員行車安全培訓(xùn)課件
- 檢驗(yàn)醫(yī)學(xué)新技術(shù)與應(yīng)用
- 婦產(chǎn)科護(hù)理要點(diǎn)與急救技術(shù)
- 醫(yī)療機(jī)器人輔助手術(shù)的挑戰(zhàn)與機(jī)遇
- 2026年廣州城市職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能筆試備考試題帶答案解析
- 2026年廣州體育職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試參考題庫(kù)帶答案解析
- 生物醫(yī)學(xué)光子學(xué)在疾病診斷中的應(yīng)用
- 全國(guó)中醫(yī)護(hù)理骨干人才培訓(xùn)匯報(bào)
- 胸腔鏡手術(shù)配合及護(hù)理
- 《浙江市政預(yù)算定額(2018版)》(第七冊(cè)-第九冊(cè))
- 軍隊(duì)功勛榮譽(yù)表彰登記(報(bào)告)表
- 戶外探險(xiǎn)俱樂部領(lǐng)隊(duì)管理制度
- 移動(dòng)通信基站天線基礎(chǔ)知識(shí)專題培訓(xùn)課件
- 《軍隊(duì)政治工作手冊(cè)》出版
- 電子商務(wù)專業(yè)教師教學(xué)創(chuàng)新團(tuán)隊(duì)建設(shè)方案
- 2023年中國(guó)海洋大學(xué)環(huán)科院研究生培養(yǎng)方案
- GB/T 16927.1-2011高電壓試驗(yàn)技術(shù)第1部分:一般定義及試驗(yàn)要求
- DB32∕T 4107-2021 民用建筑節(jié)能工程熱工性能現(xiàn)場(chǎng)檢測(cè)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論