下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
金融科技科技金融實(shí)習(xí)生實(shí)習(xí)報(bào)告一、摘要
2023年7月1日至2023年8月31日,我在一家金融科技公司擔(dān)任科技金融實(shí)習(xí)生,負(fù)責(zé)數(shù)據(jù)分析與模型測(cè)試。通過處理約5000條交易數(shù)據(jù),我優(yōu)化了風(fēng)險(xiǎn)評(píng)估算法,使模型準(zhǔn)確率提升12%,回測(cè)結(jié)果顯示年化收益提高8.3%。核心工作包括使用Python(Pandas、Scikitlearn)進(jìn)行數(shù)據(jù)清洗、特征工程,并搭建機(jī)器學(xué)習(xí)模型驗(yàn)證框架。期間,我運(yùn)用了A/B測(cè)試方法,對(duì)比傳統(tǒng)邏輯回歸與集成學(xué)習(xí)的表現(xiàn),最終采用XGBoost模型并完成10次迭代優(yōu)化。這項(xiàng)工作驗(yàn)證了深度學(xué)習(xí)在信用評(píng)分中的有效性,形成的標(biāo)準(zhǔn)化數(shù)據(jù)處理流程可應(yīng)用于其他金融場(chǎng)景。
二、實(shí)習(xí)內(nèi)容及過程
2023年7月1日至8月31日,我在一家做消費(fèi)信貸風(fēng)控的金融科技公司實(shí)習(xí)。公司主要用大數(shù)據(jù)和AI技術(shù)做用戶信用評(píng)估,我跟著團(tuán)隊(duì)做模型迭代和數(shù)據(jù)分析。
實(shí)習(xí)初期,我負(fù)責(zé)整理歷史交易數(shù)據(jù),用Python清洗了3000多條缺失值較多的樣本,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題直接影響特征工程效果。有個(gè)具體案例是用戶行為特征中的空值率高達(dá)28%,我建議用KNN填充結(jié)合業(yè)務(wù)規(guī)則修正,導(dǎo)師采納后特征完整性提升至92%,后續(xù)模型訓(xùn)練的RMSE值從0.35降到0.29。
中期參與實(shí)時(shí)反欺詐系統(tǒng)優(yōu)化,團(tuán)隊(duì)用Flink處理流數(shù)據(jù),但我對(duì)窗口函數(shù)計(jì)算不熟,導(dǎo)致分析延遲超預(yù)期。為了趕進(jìn)度,我自己補(bǔ)了SparkStreaming課程,把每小時(shí)粒度調(diào)整為5分鐘,讓異常檢測(cè)提前10分鐘左右觸發(fā)預(yù)警。這個(gè)調(diào)整讓某類欺詐交易攔截率從32%提高到38%。
遇到最大困難是模型上線前的A/B測(cè)試設(shè)計(jì),原始方案把用戶隨機(jī)分成兩半,但后來發(fā)現(xiàn)控制組有30%是高價(jià)值客戶,導(dǎo)致樣本偏差。我花了兩天研究分層抽樣,重新劃分了5000個(gè)樣本,確保兩組用戶在年齡、負(fù)債率等維度重合度超過95%,這才讓模型效果驗(yàn)證通過。
做完這些事,我明顯感覺到業(yè)務(wù)邏輯和工程實(shí)踐的結(jié)合有多重要。以前只懂紙上談兵,現(xiàn)在知道怎么用交叉驗(yàn)證避免過擬合,怎么調(diào)參平衡準(zhǔn)確率和召回率。但公司培訓(xùn)偏重技術(shù),業(yè)務(wù)培訓(xùn)少,比如風(fēng)控指標(biāo)的具體業(yè)務(wù)含義講得不夠透。建議多組織業(yè)務(wù)部門跟技術(shù)團(tuán)隊(duì)的交流會(huì),比如每周三下午搞個(gè)案例分享會(huì),把模型效果跟催收實(shí)際表現(xiàn)對(duì)應(yīng)起來。另外崗位匹配上,初期我負(fù)責(zé)的數(shù)據(jù)標(biāo)注任務(wù)重復(fù)度太高,可以讓我接觸更多模型調(diào)優(yōu)工作。這段經(jīng)歷讓我更清楚想進(jìn)科技公司做金融,得既懂業(yè)務(wù)又會(huì)用分布式計(jì)算,這直接改變了我下學(xué)期選課方向。
三、總結(jié)與體會(huì)
這8周,我從一個(gè)只會(huì)背書的學(xué)生,變成了能摸著數(shù)據(jù)跟機(jī)器對(duì)話的準(zhǔn)職場(chǎng)人。7月10號(hào)剛接手反欺詐項(xiàng)目時(shí),面對(duì)幾百個(gè)特征跑出來的模型,參數(shù)調(diào)來調(diào)去效果都不好,急得不行。后來導(dǎo)師提醒我看看特征之間的VIF值,我才明白多重共線性是主因,把冗余特征精簡(jiǎn)到50個(gè),模型AUC從0.75直接飆到0.82,那一刻真有被數(shù)據(jù)打臉的感覺。這種用真數(shù)據(jù)反復(fù)試錯(cuò)的經(jīng)歷,比上十門課都管用。
實(shí)習(xí)最大的收獲是搞懂了風(fēng)控里“精準(zhǔn)”的代價(jià)。比如我們做的某類小微貸模型,雖然最終評(píng)分卡通過率從85%壓到60%,但違約率降了70%,這意味著每服務(wù)1000個(gè)客戶,能少壞賬70個(gè),這比單純追求用戶量要有意義得多?,F(xiàn)在再看行業(yè)新聞,能更快抓住“LGD(損失給定違約概率)優(yōu)化”這類關(guān)鍵詞背后的商業(yè)邏輯。
行業(yè)趨勢(shì)上,我注意到現(xiàn)在做信貸的都卷到用圖計(jì)算了,但公司用的還是傳統(tǒng)樹模型,可能成本控制是原因。我私下研究過PyTorchGeometric,發(fā)現(xiàn)用知識(shí)圖譜分析用戶關(guān)系能再提升5%的欺詐識(shí)別能力。下學(xué)期我打算啃完這門課的課設(shè),順便考個(gè)CFA一級(jí),把金融知識(shí)補(bǔ)全。畢竟金融科技不是光會(huì)寫代碼就行,懂宏觀政策比什么都強(qiáng)。
最大的轉(zhuǎn)變是抗壓能力吧。記得8月15號(hào)半夜被拉去復(fù)盤一筆爆雷案例,當(dāng)時(shí)模型明明給了高分,后來發(fā)現(xiàn)用戶填的地址IP屬地是國(guó)外。這件事讓我明白,模型再強(qiáng)也得跟業(yè)務(wù)邏輯死磕,這比單純追求技術(shù)指標(biāo)重要?,F(xiàn)在寫論文都敢大膽假設(shè),因?yàn)橹罃?shù)據(jù)不會(huì)撒謊。這段經(jīng)歷讓我確認(rèn)了職業(yè)方向,以后求職肯定先找能接觸真實(shí)業(yè)務(wù)場(chǎng)景的崗位,哪怕起薪低點(diǎn)也行。畢竟現(xiàn)在市場(chǎng)缺的不是會(huì)調(diào)參的,而是能看懂業(yè)務(wù)痛點(diǎn)的技術(shù)民工。
四、致謝
感謝公司給我這個(gè)機(jī)會(huì),讓我在實(shí)習(xí)期間接觸到了真實(shí)的金融科技項(xiàng)目。特別感謝我的導(dǎo)師,在模型搭建和數(shù)據(jù)處理上給了我很多具體指導(dǎo),比如那個(gè)關(guān)于特征交叉的討論,幫我打開了思路。團(tuán)隊(duì)里幾位同事也幫了我不少忙,有次調(diào)試API接口花了兩天沒解決,小王主動(dòng)幫我看了日志,最后發(fā)現(xiàn)是緩存問題。還有一次參加業(yè)務(wù)周會(huì),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廣東科學(xué)技術(shù)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試模擬試題及答案詳細(xì)解析
- 2026福建省晉融投資控股有限公司及權(quán)屬子公司招聘工作人員6人參考考試試題及答案解析
- 2026年淮南聯(lián)合大學(xué)單招綜合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026年重慶財(cái)經(jīng)職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試備考試題含詳細(xì)答案解析
- 2026年安徽職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試參考題庫含詳細(xì)答案解析
- 2026年貴州食品工程職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026年河南應(yīng)用技術(shù)職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試備考試題含詳細(xì)答案解析
- 2026年重慶電力高等專科學(xué)校單招綜合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年桂林電子科技大學(xué)高職單招職業(yè)適應(yīng)性測(cè)試備考題庫及答案詳細(xì)解析
- 質(zhì)檢員職業(yè)規(guī)劃
- 生產(chǎn)現(xiàn)場(chǎng)資產(chǎn)管理制度
- 起重設(shè)備安全使用指導(dǎo)方案
- 江蘇省揚(yáng)州市區(qū)2025-2026學(xué)年五年級(jí)上學(xué)期數(shù)學(xué)期末試題一(有答案)
- 建筑與市政工程地下水控制技術(shù)規(guī)范
- “黨的二十屆四中全會(huì)精神”專題題庫及答案
- 2025年天翼云解決方案架構(gòu)師認(rèn)證考試模擬題庫(200題)答案及解析
- 2026年西藏自治區(qū)政府部門所屬事業(yè)單位人才引進(jìn)(130人)筆試備考試題及答案解析
- 油氣開采畢業(yè)論文
- 血凝d-二聚體和fdp課件
- 2026-2031中國(guó)房地產(chǎn)估價(jià)市場(chǎng)分析預(yù)測(cè)研究報(bào)告
- 天津市和平區(qū)2025年高二化學(xué)第一學(xué)期期末監(jiān)測(cè)試題含解析
評(píng)論
0/150
提交評(píng)論