互聯(lián)網(wǎng)金融公司風(fēng)控實習(xí)生報告_第1頁
互聯(lián)網(wǎng)金融公司風(fēng)控實習(xí)生報告_第2頁
互聯(lián)網(wǎng)金融公司風(fēng)控實習(xí)生報告_第3頁
互聯(lián)網(wǎng)金融公司風(fēng)控實習(xí)生報告_第4頁
互聯(lián)網(wǎng)金融公司風(fēng)控實習(xí)生報告_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

互聯(lián)網(wǎng)金融公司風(fēng)控實習(xí)生報告一、摘要

2023年7月1日至2023年8月31日,我在一家互聯(lián)網(wǎng)金融公司擔(dān)任風(fēng)控實習(xí)生。核心工作成果包括參與構(gòu)建信用評分模型,通過分析用戶歷史數(shù)據(jù)、交易行為及設(shè)備信息,將模型準確率從82%提升至89%,覆蓋用戶樣本量達10萬。運用Python進行數(shù)據(jù)清洗和特征工程,處理的數(shù)據(jù)量日均約1.2GB,有效降低模型訓(xùn)練時間20%。通過機器學(xué)習(xí)算法優(yōu)化,對高風(fēng)險用戶的識別準確率提高15%,直接支持業(yè)務(wù)部門減少約3%的壞賬損失。提煉出的特征篩選方法論,將模型迭代效率提升30%,該方法已應(yīng)用于后續(xù)項目。

二、實習(xí)內(nèi)容及過程

實習(xí)目的呢,主要是想看看風(fēng)控這塊具體是啥樣,學(xué)點真本事,為以后搞點事情打基礎(chǔ)。單位嘛,就是一家做在線貸款的,搞P2P后來轉(zhuǎn)型做平臺,規(guī)模不小,用戶量上千萬。我實習(xí)那段時間,正好趕上他們優(yōu)化用戶準入端的策略,所以主要就是跟著做模型和數(shù)據(jù)分析這塊兒。

實習(xí)內(nèi)容具體說說,7月10號開始接觸項目,第一個月主要是熟悉業(yè)務(wù)和數(shù)據(jù)處理。他們那個系統(tǒng)挺老的,數(shù)據(jù)接口不太規(guī)范,很多字段缺失,得手動匹配好幾次。我每天花大半天時間在清洗用戶的基礎(chǔ)信息、行為日志,用Python寫腳本,一天能處理大概五六百條記錄,雖然慢但挺扎實。后來接觸到他們的評分卡模型,用的是邏輯回歸,但參數(shù)調(diào)得有點離譜,準分子數(shù)不高。導(dǎo)師讓我?guī)兔?yōu)化,我就重新做了特征工程,篩選了三十多個變量,用了Lasso回歸做降維,跑了兩天數(shù)據(jù),準確率從原來的68%提到了72%,雖然不算天才,但導(dǎo)師還是挺滿意的。這個過程中,我第一次完整地經(jīng)歷了從數(shù)據(jù)拿到模型輸出的全過程,明白了特征重要性排序是怎么來的,哪些指標(biāo)對預(yù)測影響大。

第二個月開始上手項目,參與了一個新用戶的反欺詐模型搭建。8月5號接到任務(wù),要求一周內(nèi)出個初版模型。用戶行為數(shù)據(jù)太散了,有些用戶的注冊信息都不全,一開始想用XGBoost,但樣本不均衡,模型總偏向多數(shù)類。后來學(xué)了一個新東西,叫SMOTE,過采樣處理了一下負樣本,再跑模型,AUC從0.65提升到0.78。雖然最后沒上線,但這個方法我記住了。期間還遇到過服務(wù)器跑模型卡死的問題,因為數(shù)據(jù)量太大,本地電腦處理不了。我學(xué)了怎么用Spark分塊處理,把內(nèi)存優(yōu)化了一下,總算跑完了。這個過程讓我意識到,搞風(fēng)控不能光會算法,還得懂點工程,不然想法再好也實現(xiàn)不了。

實習(xí)成果最明顯的,就是參與的那個特征工程優(yōu)化,直接讓部門后續(xù)的模型迭代時間縮短了快一半。他們之前每個模型都得重新跑一遍變量,我整理的那個特征庫,只要數(shù)據(jù)格式對,直接套就能用。雖然聽起來小事,但能省不少功夫。最大的收獲是,風(fēng)控不是閉門造車,得結(jié)合業(yè)務(wù),比如某個特征的異常值可能不是壞數(shù)據(jù),而是用戶特殊行為的體現(xiàn),得具體分析。之前我總想著用數(shù)據(jù)說話,現(xiàn)在明白了,有時候業(yè)務(wù)邏輯更重要。

遇到的困難有倆。第一個是數(shù)據(jù)質(zhì)量問題,有些接口返回的是空值,得跟業(yè)務(wù)部門磨嘴皮子才肯改。第二個是模型解釋性,領(lǐng)導(dǎo)要模型能解釋為啥拒貸,我用了SHAP值可視化,但太復(fù)雜了,最后還是導(dǎo)師教了我用決策樹規(guī)則簡化,把關(guān)鍵原因列出來,這樣業(yè)務(wù)部門才好懂。

這個實習(xí)讓我看清了,想做好風(fēng)控,得既懂技術(shù)又懂業(yè)務(wù),還得會溝通?,F(xiàn)在覺得,職業(yè)規(guī)劃上可能要往數(shù)據(jù)分析師方向發(fā)展,風(fēng)控雖然好,但分析的角色更吸引我。單位的管理嘛,感覺挺混亂的,不同部門數(shù)據(jù)不共享,我跑了仨星期才拼湊完整數(shù)據(jù)集。培訓(xùn)機制也不太行,就給我扔了個手冊,沒人帶。崗位匹配度上,感覺我學(xué)的理論用得挺多,但實踐技能還是差得遠,比如SQL寫復(fù)雜查詢就卡殼。要是能早接觸點數(shù)據(jù)庫操作就好了。建議他們搞個新人培訓(xùn)計劃,至少每周安排個導(dǎo)師帶一下,再就是把數(shù)據(jù)平臺開放點,別那么死板。

三、總結(jié)與體會

這八周,從7月1號到8月31號,感覺像是從理論世界猛地闖進了實踐現(xiàn)場。一開始去的時候,心里挺沒底的,就想著多看多學(xué),結(jié)果真被現(xiàn)實教育了。最大的價值閉環(huán),就是當(dāng)初學(xué)的邏輯回歸、決策樹這些,真到了手里面處理數(shù)據(jù),寫代碼,最后看到準確率從78%提升到82%,那種感覺太不一樣了。以前覺得模型就是書本上的公式,現(xiàn)在明白,得跟用戶行為數(shù)據(jù)真刀真槍地打交道,哪個特征重要,哪個閾值合適,都得反復(fù)試。這段經(jīng)歷讓我知道,學(xué)的東西能不能用,關(guān)鍵看能不能解決實際問題。

對我職業(yè)規(guī)劃的影響挺大的。以前覺得數(shù)據(jù)分析師和風(fēng)控工程師差不多,現(xiàn)在看,風(fēng)控更考驗綜合能力,不僅要懂算法,還得懂業(yè)務(wù),還得能跟人打交道。這次實習(xí)讓我確定了方向,以后想往數(shù)據(jù)分析師這條路走,但得先把SQL學(xué)扎實,現(xiàn)在寫查詢語句還老出錯,太耽誤事了。而且,風(fēng)控那邊用的反欺詐模型,像圖計算、深度學(xué)習(xí)這些,我都沒接觸過,看來接下來得重點補補這些課。如果有機會,真想考個相關(guān)的數(shù)據(jù)分析師證書,把技能再系統(tǒng)化一下。

看著公司那些系統(tǒng),覺得互聯(lián)網(wǎng)金融的風(fēng)控未來還得在數(shù)據(jù)整合和模型實時性上下功夫?,F(xiàn)在數(shù)據(jù)源太分散了,用戶在哪個APP操作,哪個設(shè)備登錄,得串起來分析才準。而且隨著AI發(fā)展,模型自動迭代、在線學(xué)習(xí)這些肯定成趨勢了。這次實習(xí)讓我覺得,學(xué)校里學(xué)的只是基礎(chǔ),行業(yè)里每天都在變化,不持續(xù)學(xué)習(xí)真的會被淘汰。心態(tài)上最大的轉(zhuǎn)變,就是責(zé)任感吧。以前做作業(yè)對錯無所謂,現(xiàn)在寫個代碼,處理的數(shù)據(jù)涉及用戶貸款,稍微有點問題就可能導(dǎo)致?lián)p失,壓力是真的大。這種壓力其實挺好的,逼自己把每一步都做得更仔細。

以后啊,打算把這次實習(xí)沒做好的地方補上,特別是數(shù)據(jù)庫和復(fù)雜模型這塊。手頭那仨星期的數(shù)據(jù)處理腳本,還得再優(yōu)化,效率上還能提高。感覺這次實習(xí)最大的收獲,不是學(xué)到了多少新技能,而是明白了從學(xué)生到職場人,得有啥叫擔(dān)當(dāng),得學(xué)會跟各種人打交道,還得有抗壓能力。這些比單純會幾個算法重要多了。

致謝

在這次為期八周的實習(xí)中,從7月1號到8月31號,得到了很多幫助。感謝單位提供了這個平臺,讓我能接觸到真實的業(yè)務(wù)和風(fēng)控場景。導(dǎo)師在項目上給了我很多指導(dǎo),尤其是在特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論