下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)科學(xué)金融科技數(shù)據(jù)分析實(shí)習(xí)生實(shí)習(xí)報(bào)告一、摘要2023年7月1日至2023年8月31日,我在一家金融科技公司擔(dān)任數(shù)據(jù)分析實(shí)習(xí)生。核心工作成果包括完成股票市場(chǎng)情緒分析報(bào)告,通過(guò)自然語(yǔ)言處理技術(shù)處理1.2萬(wàn)條新聞數(shù)據(jù),準(zhǔn)確率達(dá)87%;構(gòu)建并優(yōu)化信貸風(fēng)險(xiǎn)評(píng)估模型,使用邏輯回歸與決策樹(shù)算法,將模型AUC值從0.72提升至0.85。應(yīng)用Python進(jìn)行數(shù)據(jù)清洗與可視化,使用Pandas處理每日交易數(shù)據(jù)量達(dá)500GB,Matplotlib生成20+張洞察性圖表。提煉出可復(fù)用的數(shù)據(jù)清洗三步法:標(biāo)準(zhǔn)化缺失值、去重異常值、特征工程降維,該方法在后續(xù)項(xiàng)目中將異常值識(shí)別率提高12%。二、實(shí)習(xí)內(nèi)容及過(guò)程實(shí)習(xí)目的主要是把學(xué)校學(xué)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)理論用上,看看金融科技行業(yè)里數(shù)據(jù)能具體怎么干活,怎么幫業(yè)務(wù)解決問(wèn)題。實(shí)習(xí)單位是做智能投顧和信貸風(fēng)控的,主要就是用數(shù)據(jù)給客戶(hù)推薦產(chǎn)品,還有評(píng)估借錢(qián)的人會(huì)不會(huì)賴(lài)賬。第3周開(kāi)始接觸第一個(gè)項(xiàng)目,是幫投資部門(mén)做市場(chǎng)情緒分析。我負(fù)責(zé)處理每天財(cái)經(jīng)新聞和社交媒體的文本數(shù)據(jù)。那段時(shí)間每天得清洗大概5000條原始記錄,有些數(shù)據(jù)得手動(dòng)標(biāo)記情感傾向,挺花時(shí)間的。我用了BERT模型來(lái)做情感分類(lèi),調(diào)了挺久參數(shù),準(zhǔn)確率最高到87%,比之前用的傳統(tǒng)方法好點(diǎn)。后來(lái)又把結(jié)果喂給LSTM模型,看能不能預(yù)測(cè)短期股價(jià)波動(dòng),但效果一般,AUC也就0.68,最后報(bào)告里主要還是聚焦在情緒指數(shù)構(gòu)建上。第6周參與了一個(gè)信貸模型優(yōu)化項(xiàng)目,帶我的老師讓我重點(diǎn)看歷史違約數(shù)據(jù)。那批數(shù)據(jù)有2萬(wàn)條記錄,字段足有30個(gè)。我發(fā)現(xiàn)有個(gè)叫“征信查詢(xún)次數(shù)”的特征特別重要,直接決定了模型評(píng)分。當(dāng)時(shí)手頭數(shù)據(jù)質(zhì)量不太好,很多空值,我就用KNN算法去填充,還試了特征交叉,最后模型AUC從0.72提到了0.85,老師挺滿(mǎn)意的。不過(guò)中間踩了不少坑,比如一開(kāi)始用決策樹(shù)直接建模,結(jié)果過(guò)擬合得厲害,特征重要度排序跟業(yè)務(wù)預(yù)期對(duì)不上,后來(lái)改用XGBoost跑了好幾版參數(shù)才好點(diǎn)。遇到的最大困難是第4周做用戶(hù)行為分析時(shí),數(shù)據(jù)口徑特別亂。不同業(yè)務(wù)線(xiàn)統(tǒng)計(jì)的標(biāo)準(zhǔn)都不一樣,有些指標(biāo)連著好幾個(gè)月都是0,我懷疑是不是統(tǒng)計(jì)口徑變了。我就去問(wèn)了數(shù)據(jù)組同事,他們給我看了之前的規(guī)范文檔,還教我怎么看ETL日志,才知道是某個(gè)上游系統(tǒng)出了問(wèn)題。最后我手動(dòng)整理了三個(gè)月的數(shù)據(jù),用Python重構(gòu)了統(tǒng)計(jì)腳本,總算能跑出統(tǒng)一的報(bào)表了。這讓我明白做數(shù)據(jù)得特別懂業(yè)務(wù),光會(huì)模型沒(méi)用。實(shí)習(xí)成果最直觀(guān)的是那個(gè)情緒分析系統(tǒng),現(xiàn)在投資部門(mén)每周都在用,幫他們省了不少看新聞的時(shí)間。還有那個(gè)信貸模型,雖然只是輔助風(fēng)控,但能幫業(yè)務(wù)部門(mén)把審批通過(guò)率提一點(diǎn)點(diǎn),我覺(jué)得挺有價(jià)值的。這段時(shí)間最大的收獲是認(rèn)識(shí)到數(shù)據(jù)工作其實(shí)是個(gè)挺講究溝通的工作,光埋頭寫(xiě)代碼解決不了問(wèn)題。之前我以為只要算法好就行,現(xiàn)在覺(jué)得怎么把技術(shù)語(yǔ)言翻譯成業(yè)務(wù)語(yǔ)言,怎么讓業(yè)務(wù)愿意用你的結(jié)果,才是更重要的能力。單位里管理方面吧,我感覺(jué)培訓(xùn)機(jī)制有點(diǎn)弱,新來(lái)的實(shí)習(xí)生基本靠自學(xué),雖然資源不少,但沒(méi)人手把手帶感覺(jué)挺慢的。建議可以搞個(gè)新人培養(yǎng)計(jì)劃,比如每周固定讓老師傅講半小時(shí)業(yè)務(wù)背景,或者搞個(gè)內(nèi)部數(shù)據(jù)工具庫(kù)分享會(huì)啥的。另外我的崗位匹配度其實(shí)70%左右,有些金融知識(shí)得現(xiàn)學(xué),要是實(shí)習(xí)前能多接觸點(diǎn)行研報(bào)告,效率會(huì)高很多。三、總結(jié)與體會(huì)這8周在金融科技公司的經(jīng)歷,讓我感覺(jué)像是把課本里的知識(shí)真正變成了能拿得出手的工具。從7月1號(hào)到8月31號(hào),每天面對(duì)真實(shí)業(yè)務(wù)場(chǎng)景的數(shù)據(jù),那種感覺(jué)跟在學(xué)校做作業(yè)完全不一樣。比如在8月中旬做的信貸風(fēng)險(xiǎn)評(píng)估模型優(yōu)化項(xiàng)目,最終將模型AUC從0.72提升到0.85,雖然只是個(gè)微小的提升,但那是我結(jié)合業(yè)務(wù)需求反復(fù)調(diào)參得來(lái)的,每0.01的進(jìn)步都挺實(shí)在的。這段經(jīng)歷讓我真切體會(huì)到數(shù)據(jù)工作不是光會(huì)寫(xiě)代碼就行,理解業(yè)務(wù)邏輯、跟團(tuán)隊(duì)有效溝通同樣重要。這次實(shí)習(xí)讓我更清楚自己未來(lái)想走的方向。我之前覺(jué)得機(jī)器學(xué)習(xí)就是調(diào)參數(shù),現(xiàn)在明白在金融領(lǐng)域,模型不僅要準(zhǔn),還要能解釋得通,還得考慮合規(guī)風(fēng)險(xiǎn)。比如那個(gè)市場(chǎng)情緒分析報(bào)告,雖然最終準(zhǔn)確率87%,但投資部門(mén)更看重的是能幫他們快速發(fā)現(xiàn)潛在機(jī)會(huì)的信號(hào),而不是單純做預(yù)測(cè)。這讓我意識(shí)到,做數(shù)據(jù)分析師得既懂技術(shù),又懂市場(chǎng),這種復(fù)合能力可能是未來(lái)核心競(jìng)爭(zhēng)力。下學(xué)期我打算系統(tǒng)補(bǔ)一下金融衍生品和監(jiān)管政策這塊,看看能不能考個(gè)CFA一級(jí)先積累點(diǎn)行業(yè)知識(shí)。從學(xué)生到職場(chǎng)人的轉(zhuǎn)變挺明顯的。以前遇到問(wèn)題就想去查資料,現(xiàn)在會(huì)先思考有沒(méi)有更高效的解決方式。比如7月底那段時(shí)間,處理500GB交易數(shù)據(jù)時(shí)內(nèi)存老爆,我花兩天時(shí)間研究分布式處理框架,最后用Spark跑通了腳本,雖然慢點(diǎn)但總算能用了。這種動(dòng)手解決問(wèn)題的能力,我覺(jué)得比單純會(huì)幾個(gè)算法更重要??箟耗芰ι弦灿刑嵘?,以前遇到代碼跑不通就急得不行,現(xiàn)在會(huì)先分析錯(cuò)誤日志,一步步排查。行業(yè)里我感覺(jué)最火的是風(fēng)險(xiǎn)控制和智能投顧,但數(shù)據(jù)治理這塊好像挺被忽視。我觀(guān)察到好幾個(gè)業(yè)務(wù)線(xiàn)的數(shù)據(jù)標(biāo)準(zhǔn)都不統(tǒng)一,導(dǎo)致分析結(jié)果經(jīng)常打架。這讓我覺(jué)得,未來(lái)數(shù)據(jù)工程師和數(shù)據(jù)治理專(zhuān)家可能會(huì)更搶手。下個(gè)實(shí)習(xí)或者工作,我希望能接觸更多底層數(shù)據(jù)架構(gòu)的東西,看看能不能幫公司理順數(shù)據(jù)流程。金融行業(yè)對(duì)數(shù)據(jù)質(zhì)量要求那么高,這塊兒肯定大有可為。四、致謝在此期間,衷心感謝公司提供寶貴的實(shí)習(xí)機(jī)會(huì)。特別感謝我的實(shí)習(xí)導(dǎo)師,在實(shí)習(xí)期間給予悉心指導(dǎo)和耐心解答,讓我對(duì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生院兩慢獎(jiǎng)懲制度
- 遠(yuǎn)程會(huì)診護(hù)理的遠(yuǎn)程手術(shù)支持
- 肝腎綜合征在中毒性肝病中的防治
- 衛(wèi)生院一票否決制度
- 聯(lián)合用藥靶向調(diào)控耐藥網(wǎng)絡(luò)的策略
- 江蘇連云港市2025-2026學(xué)年高一上學(xué)期期末考試歷史試題(含答案)
- GPS知識(shí)及應(yīng)用教學(xué)課件
- 職業(yè)病防治法下鉛中毒監(jiān)管要點(diǎn)
- 中行面試技巧培訓(xùn)
- 公安網(wǎng)格員培訓(xùn)課件
- 安全附件管理制度規(guī)范
- 工程轉(zhuǎn)接合同協(xié)議
- 人教版(2024)七年級(jí)上冊(cè)數(shù)學(xué)期末綜合檢測(cè)試卷 3套(含答案)
- GB/T 16770.1-2025整體硬質(zhì)合金直柄立銑刀第1部分:型式與尺寸
- 2025年風(fēng)險(xiǎn)管理自查報(bào)告
- 2026年中國(guó)煤炭資源行業(yè)投資前景分析研究報(bào)告
- 項(xiàng)目成本控制動(dòng)態(tài)監(jiān)測(cè)表模板
- DBJ46-074-2025 海南省市政道路瀝青路面建設(shè)技術(shù)標(biāo)準(zhǔn)
- 幼兒園小班語(yǔ)言《大一歲了》課件
- GB/T 14071-2025林木品種審定規(guī)范
- 移風(fēng)易俗問(wèn)答題目及答案
評(píng)論
0/150
提交評(píng)論