人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告

上傳人：1*** IP屬地：未知上傳時(shí)間：2026-02-07 格式：DOCX 頁數(shù)：4 大?。?4.44KB 積分：7.19 舉報(bào) 版權(quán)申訴

人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告_第2頁

人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告_第3頁

人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告_第4頁

全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告一、摘要2023年6月5日至8月23日，我在一家人工智能公司擔(dān)任機(jī)器學(xué)習(xí)工程師實(shí)習(xí)生。核心工作成果包括開發(fā)并部署一個(gè)基于深度學(xué)習(xí)的圖像識(shí)別模型，準(zhǔn)確率達(dá)到92.3%，處理并分析了超過10萬條用戶行為數(shù)據(jù)，優(yōu)化了推薦算法的點(diǎn)擊率提升15.7%。期間應(yīng)用了Python、TensorFlow和PyTorch進(jìn)行模型訓(xùn)練與調(diào)優(yōu)，通過網(wǎng)格搜索和交叉驗(yàn)證確定了最優(yōu)超參數(shù)組合，并使用Git進(jìn)行版本控制。提煉出可復(fù)用的特征工程方法論，包括數(shù)據(jù)清洗、標(biāo)準(zhǔn)化和特征選擇流程，有效提升了模型泛化能力。二、實(shí)習(xí)內(nèi)容及過程2023年6月5日到8月23日，我在一家人工智能公司實(shí)習(xí)，崗位是機(jī)器學(xué)習(xí)工程師。剛?cè)サ臅r(shí)候主要是熟悉業(yè)務(wù)和團(tuán)隊(duì)項(xiàng)目，跟著導(dǎo)師看了幾個(gè)現(xiàn)有模型，包括一個(gè)用CNN做圖像分類的，數(shù)據(jù)集有5萬張標(biāo)注圖，準(zhǔn)確率89%。第3周開始參與新項(xiàng)目，是優(yōu)化用戶推薦系統(tǒng)。原始數(shù)據(jù)是用戶點(diǎn)擊流，時(shí)間跨度一年，量超過200GB。我負(fù)責(zé)用PyTorch重寫特征提取部分，發(fā)現(xiàn)原有模型把用戶歷史行為直接onehot編碼效果不好，轉(zhuǎn)而用了嵌入向量，把用戶和商品都映射到低維空間。調(diào)了兩個(gè)星期，最終模型AUC從0.68提到0.75，線上A/B測(cè)試顯示點(diǎn)擊率多了1.2%。遇到的第一個(gè)坎是特征工程，初期試了多項(xiàng)式特征組合，訓(xùn)練集上效果還行，但測(cè)試集表現(xiàn)差很多。后來發(fā)現(xiàn)是數(shù)據(jù)分布問題，線上用戶行為有季節(jié)性，我花了兩天補(bǔ)了時(shí)序特征，模型泛化能力直接翻倍。第二個(gè)難的是GPU資源，有時(shí)候訓(xùn)練要等隊(duì)里其他項(xiàng)目，我學(xué)會(huì)了用混合精度訓(xùn)練，把顯存省了一半，跑完模型再批量推理。團(tuán)隊(duì)每周有技術(shù)分享，有次討論過ResNet和ViT的結(jié)構(gòu)對(duì)比，我回去就扒了論文代碼，對(duì)比了不同層級(jí)的特征傳播路徑。雖然沒直接用到項(xiàng)目中，但感覺對(duì)深度學(xué)習(xí)框架理解深了。公司用的JupyterHub環(huán)境，但版本有點(diǎn)舊，好幾次跑實(shí)驗(yàn)要手動(dòng)裝包，有點(diǎn)煩。印象最深的是導(dǎo)師說的，模型好跟搭樂高似的，光塊兒硬沒用，得會(huì)搭?，F(xiàn)在回頭看，最值的是把理論落地過程摸透了，知道怎么根據(jù)數(shù)據(jù)情況選模型，這點(diǎn)學(xué)校里光看書學(xué)不到。三、總結(jié)與體會(huì)這8周實(shí)習(xí)像給我打開了一扇窗，以前覺得機(jī)器學(xué)習(xí)就是調(diào)參數(shù)，現(xiàn)在才明白從數(shù)據(jù)到部署全流程有多復(fù)雜。2023年6月到8月，跟著團(tuán)隊(duì)把推薦系統(tǒng)AUC從0.68提到0.75，多出7個(gè)百分點(diǎn)的背后是無數(shù)個(gè)晚上的debug。記得有一次凌晨三點(diǎn)還在處理內(nèi)存溢出，對(duì)著爆棧信息啃論文到天亮，第二天導(dǎo)師說"這點(diǎn)抗造勁兒是以后搞研究的底子"。最讓我震撼的是真實(shí)業(yè)務(wù)場(chǎng)景對(duì)技術(shù)的苛刻。學(xué)校里0.9以上的準(zhǔn)確率是目標(biāo)，但公司要求模型必須滿足實(shí)時(shí)性要求，有次優(yōu)化時(shí)我不得不在精度和推理速度間做取舍，最后用知識(shí)蒸餾把模型壓縮了60%但效果只降了2%。這種取舍能力是在做畢業(yè)設(shè)計(jì)時(shí)完全沒體會(huì)到的。這次經(jīng)歷讓我突然懂了導(dǎo)師說的"模型要接地氣"。現(xiàn)在再看論文，會(huì)直接想這個(gè)方法怎么落地，比如最近看的Transformer論文，會(huì)關(guān)注它在推薦場(chǎng)景的注意力機(jī)制改怎么適配長尾問題。實(shí)習(xí)最后做的復(fù)盤報(bào)告里，我把用到的交叉驗(yàn)證、超參數(shù)網(wǎng)格搜索都整理成方法論，現(xiàn)在做課程設(shè)計(jì)直接套用，效率高了不少。公司那種"算力即正義"的調(diào)優(yōu)文化也改變了我。以前覺得模型好就是參數(shù)好，現(xiàn)在知道有時(shí)候跑個(gè)百億參數(shù)模型不如把數(shù)據(jù)清洗做透。這點(diǎn)讓我反思下學(xué)期要重點(diǎn)補(bǔ)數(shù)據(jù)挖掘這塊短板，打算報(bào)名個(gè)CPRE證書，把Python的Pandas和Spark學(xué)深。離職時(shí)HR跟我說"你這個(gè)調(diào)參日志比很多正式員工做得細(xì)"，當(dāng)時(shí)心里挺怪怪的，現(xiàn)在想通了學(xué)生時(shí)代最寶貴的就是敢試敢錯(cuò)的資本。這段經(jīng)歷讓我突然明白為啥大廠都喜歡招應(yīng)屆生，因?yàn)檫@種"用數(shù)據(jù)說話"的直覺，是泡在實(shí)驗(yàn)室里永遠(yuǎn)學(xué)不來的。四、致謝感謝這次實(shí)習(xí)機(jī)會(huì)，讓我知道理論怎么變成生產(chǎn)力。感謝導(dǎo)師，帶我熟悉項(xiàng)目流

人人文庫> 全部分類> 應(yīng)用文書 > 工作計(jì)劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔