研發(fā)工程師科技公司研發(fā)工程師實(shí)習(xí)報(bào)告_第1頁(yè)
研發(fā)工程師科技公司研發(fā)工程師實(shí)習(xí)報(bào)告_第2頁(yè)
研發(fā)工程師科技公司研發(fā)工程師實(shí)習(xí)報(bào)告_第3頁(yè)
研發(fā)工程師科技公司研發(fā)工程師實(shí)習(xí)報(bào)告_第4頁(yè)
研發(fā)工程師科技公司研發(fā)工程師實(shí)習(xí)報(bào)告_第5頁(yè)
全文預(yù)覽已結(jié)束

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

研發(fā)工程師科技公司研發(fā)工程師實(shí)習(xí)報(bào)告一、摘要2023年6月5日至8月22日,我在一家科技公司的研發(fā)工程師崗位實(shí)習(xí),負(fù)責(zé)智能算法模塊的開(kāi)發(fā)與優(yōu)化。通過(guò)參與3個(gè)具體項(xiàng)目,我主導(dǎo)完成了其中1個(gè)項(xiàng)目的核心功能,使系統(tǒng)響應(yīng)速度提升40%,錯(cuò)誤率降低25%。在實(shí)習(xí)期間,我熟練運(yùn)用Python和C++進(jìn)行數(shù)據(jù)處理與模型訓(xùn)練,使用Git進(jìn)行版本控制,并運(yùn)用Agile開(kāi)發(fā)流程提升團(tuán)隊(duì)協(xié)作效率。此外,我總結(jié)了自動(dòng)化測(cè)試腳本編寫(xiě)的方法,將測(cè)試時(shí)間縮短了30%,這些方法論可直接應(yīng)用于后續(xù)的團(tuán)隊(duì)開(kāi)發(fā)中。實(shí)習(xí)期間積累的量化數(shù)據(jù)與優(yōu)化案例,為后續(xù)技術(shù)決策提供了可靠依據(jù)。二、實(shí)習(xí)內(nèi)容及過(guò)程2023年6月5日到8月22日,我在一家做智能推薦系統(tǒng)的公司實(shí)習(xí),崗位是研發(fā)工程師。實(shí)習(xí)目標(biāo)是把課堂上學(xué)到的機(jī)器學(xué)習(xí)算法落地,了解真實(shí)工業(yè)環(huán)境的項(xiàng)目開(kāi)發(fā)流程。公司主要做電商領(lǐng)域的用戶行為分析,系統(tǒng)每天處理超過(guò)500萬(wàn)條點(diǎn)擊日志,用的是Hadoop和Spark做大數(shù)據(jù)處理。我跟著團(tuán)隊(duì)做了兩個(gè)項(xiàng)目,一個(gè)是優(yōu)化首頁(yè)信息流的排序算法,一個(gè)是開(kāi)發(fā)新的用戶畫(huà)像標(biāo)簽系統(tǒng)。排序算法項(xiàng)目里,我負(fù)責(zé)特征工程部分。原始數(shù)據(jù)有10個(gè)維度,包括用戶歷史行為、商品屬性等。我發(fā)現(xiàn)有些特征跟最終點(diǎn)擊率關(guān)聯(lián)不強(qiáng),就用了Lasso回歸篩選,把特征數(shù)量從10減到6。用LR模型訓(xùn)練后,AUC從0.78提升到0.82,但線上A/B測(cè)試只看到5%的CTR提升,因?yàn)闃I(yè)務(wù)側(cè)對(duì)冷門(mén)商品的推薦有額外要求。我花了兩周跟業(yè)務(wù)溝通,調(diào)整了損失函數(shù)的權(quán)重,最終線上上線后CTR提升了9%,雖然不算特別高,但冷門(mén)商品的曝光率確實(shí)增加了。標(biāo)簽系統(tǒng)開(kāi)發(fā)時(shí)遇到的最大問(wèn)題是數(shù)據(jù)稀疏性。用戶行為數(shù)據(jù)只有1%能用來(lái)做標(biāo)簽聚類,我嘗試過(guò)MiniBatchKMeans,但效果不好。后來(lái)導(dǎo)師建議用圖嵌入的方法,用Node2Vec學(xué)習(xí)用戶和商品的嵌入表示,再用KNN聚類。這個(gè)過(guò)程花了我一周,主要是調(diào)試參數(shù)。最終得到的標(biāo)簽系統(tǒng)覆蓋了80%的用戶,召回率比原來(lái)的規(guī)則系統(tǒng)高出一倍。實(shí)習(xí)里最大的挑戰(zhàn)是需求快速變更。有時(shí)候產(chǎn)品半夜打電話說(shuō)要加個(gè)功能,早上就要看到原型。我學(xué)會(huì)用Jira看板管理任務(wù),把大需求拆成小任務(wù),每個(gè)任務(wù)不超過(guò)4小時(shí)。還學(xué)會(huì)了用Docker快速部署環(huán)境,避免"在我機(jī)器上能跑"的坑。公司的培訓(xùn)機(jī)制其實(shí)挺水的,主要是靠導(dǎo)師帶。有時(shí)候?qū)熋?,我就自己找資料學(xué)。比如分布式訓(xùn)練那部分,公司用的Spark版本太老了,我就自己搭建了最新版的集群練手。崗位匹配度上,我寫(xiě)代碼還行,但需求溝通和方案設(shè)計(jì)還是菜。比如有次要設(shè)計(jì)一個(gè)實(shí)時(shí)推薦系統(tǒng),我一開(kāi)始想用離線特征,后來(lái)發(fā)現(xiàn)業(yè)務(wù)要秒級(jí)響應(yīng),就臨時(shí)改成流式特征,過(guò)程挺狼狽的。我覺(jué)得公司管理可以改進(jìn),比如需求評(píng)審會(huì)經(jīng)常跑題,要是能提前把PPT發(fā)給每個(gè)人看,效率會(huì)高很多。培訓(xùn)方面,可以搞個(gè)內(nèi)部技術(shù)分享會(huì),讓老員工講講Spark調(diào)優(yōu)這種實(shí)戰(zhàn)經(jīng)驗(yàn)。崗位匹配上,希望能給新實(shí)習(xí)生配個(gè)專門(mén)帶需求的導(dǎo)師,我現(xiàn)在還不太會(huì)跟產(chǎn)品聊業(yè)務(wù)細(xì)節(jié)。這次實(shí)習(xí)讓我明白,做算法不能光會(huì)調(diào)參數(shù),還得懂業(yè)務(wù)。以前覺(jué)得模型效果不好就是數(shù)據(jù)差,現(xiàn)在知道可能是特征沒(méi)設(shè)計(jì)好。下次要是再實(shí)習(xí),我打算先主動(dòng)去業(yè)務(wù)部門(mén)轉(zhuǎn)兩天,早點(diǎn)摸清他們的痛點(diǎn)。三、總結(jié)與體會(huì)這8周,從2023年6月5日到8月22日,像是在我學(xué)習(xí)生涯里打通了一條任督二脈。以前覺(jué)得機(jī)器學(xué)習(xí)就是調(diào)參數(shù),現(xiàn)在才懂工業(yè)界的數(shù)據(jù)臟、需求雜,模型上線是場(chǎng)硬仗。比如那個(gè)首頁(yè)排序項(xiàng)目,最后CTR只提升9%,但業(yè)務(wù)說(shuō)解決了冷門(mén)商品曝光問(wèn)題,這就是真實(shí)世界的權(quán)衡。我主導(dǎo)的那個(gè)用戶畫(huà)像系統(tǒng),用Node2Vec把召回率翻倍,導(dǎo)師說(shuō)"沒(méi)想到你會(huì)用圖嵌入解決稀疏性",現(xiàn)在想起調(diào)試那兩周,睡眠質(zhì)量確實(shí)下降了,但每次看到Jira上綠色的完成標(biāo)記,就覺(jué)得值了。實(shí)習(xí)最大的收獲是搞懂了"價(jià)值閉環(huán)"。以前做實(shí)驗(yàn)光看AUC,現(xiàn)在明白要追著業(yè)務(wù)問(wèn)"這0.02的AUC提升能帶來(lái)多少營(yíng)收?"那個(gè)A/B測(cè)試跑了兩周,最后發(fā)現(xiàn)是因?yàn)榫€下參數(shù)調(diào)得太理想化,線上要給業(yè)務(wù)留出降權(quán)空間。這種教訓(xùn)比課本有用多了。對(duì)我職業(yè)規(guī)劃的影響是具體的。原來(lái)想當(dāng)算法研究員,現(xiàn)在覺(jué)得做工程化落地更帶勁。公司用的Docker、Jira、GitLab,這些我都熟練了,下學(xué)期打算考取AWS認(rèn)證,順便把學(xué)校那個(gè)分布式系統(tǒng)課程設(shè)計(jì)做得像點(diǎn)樣。導(dǎo)師說(shuō)的"技術(shù)要為業(yè)務(wù)服務(wù)"這句話,我現(xiàn)在腦子里循環(huán)播放。行業(yè)趨勢(shì)這塊,我發(fā)現(xiàn)現(xiàn)在做推薦系統(tǒng)都卷Embedding了,但沒(méi)人講如何處理Embedding爆炸的問(wèn)題。下個(gè)實(shí)習(xí)如果再碰這個(gè)方向,我準(zhǔn)備先研究下HierarchicalSoftmax和AttentionMechanism的工程化實(shí)現(xiàn)。感覺(jué)這個(gè)行業(yè)就像跑馬拉松,別人都在比誰(shuí)跑得快,我倒想琢磨琢磨怎么跑得久。從學(xué)生到職場(chǎng)人的轉(zhuǎn)變,就是從"我學(xué)會(huì)了"變成"我能搞定",責(zé)任感這種東西,現(xiàn)在寫(xiě)代碼會(huì)下意識(shí)考慮健壯性,比如給每個(gè)特征加缺失值處理,以前根本不會(huì)想。抗壓能力也肉眼可見(jiàn)地變強(qiáng)了,改需求到凌晨2點(diǎn),第二天還能正常開(kāi)會(huì),這以前想都不敢想。最大的不足是溝通能力,有時(shí)候技術(shù)方案想明白了,但跟產(chǎn)品說(shuō)半天也說(shuō)不通,下回得練練用"用戶每天打開(kāi)App的次數(shù)"這種業(yè)務(wù)語(yǔ)言。改進(jìn)建議是學(xué)校能不能多搞點(diǎn)這種企業(yè)真實(shí)項(xiàng)目的模擬訓(xùn)練,別光讓我們做競(jìng)賽題?,F(xiàn)在腦子里總想著導(dǎo)師說(shuō)的那句話:"算法不是數(shù)學(xué)題,是生意題。"這句話會(huì)一直提醒我,別把技術(shù)搞成了象牙塔里的東西。這8周像開(kāi)了竅,感覺(jué)后面的路清晰多了。四、致謝2023年6月5日至8月22日的實(shí)習(xí)期間,我在此向給予我?guī)椭拿總€(gè)人表達(dá)謝意。感謝公司提供的實(shí)習(xí)平臺(tái),讓我有機(jī)會(huì)接觸真實(shí)的研發(fā)項(xiàng)目。特別感謝我的導(dǎo)師,在項(xiàng)目開(kāi)發(fā)中給予的悉心指導(dǎo),尤其是在處理用戶畫(huà)像數(shù)據(jù)稀疏性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論