人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告_第1頁
人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告_第2頁
人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告_第3頁
人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告一、摘要2023年6月5日至8月23日,我在一家人工智能公司擔(dān)任機(jī)器學(xué)習(xí)工程師實(shí)習(xí)生。核心工作成果包括開發(fā)并部署一個(gè)基于深度學(xué)習(xí)的圖像識(shí)別模型,準(zhǔn)確率達(dá)到92.3%,處理并分析了超過10萬條用戶行為數(shù)據(jù),優(yōu)化了推薦算法的點(diǎn)擊率提升15.7%。期間應(yīng)用了Python、TensorFlow和PyTorch進(jìn)行模型訓(xùn)練與調(diào)優(yōu),通過網(wǎng)格搜索和交叉驗(yàn)證確定了最優(yōu)超參數(shù)組合,并使用Git進(jìn)行版本控制。提煉出可復(fù)用的特征工程方法論,包括數(shù)據(jù)清洗、標(biāo)準(zhǔn)化和特征選擇流程,有效提升了模型泛化能力。二、實(shí)習(xí)內(nèi)容及過程2023年6月5日到8月23日,我在一家人工智能公司實(shí)習(xí),崗位是機(jī)器學(xué)習(xí)工程師。剛?cè)サ臅r(shí)候主要是熟悉業(yè)務(wù)和團(tuán)隊(duì)項(xiàng)目,跟著導(dǎo)師看了幾個(gè)現(xiàn)有模型,包括一個(gè)用CNN做圖像分類的,數(shù)據(jù)集有5萬張標(biāo)注圖,準(zhǔn)確率89%。第3周開始參與新項(xiàng)目,是優(yōu)化用戶推薦系統(tǒng)。原始數(shù)據(jù)是用戶點(diǎn)擊流,時(shí)間跨度一年,量超過200GB。我負(fù)責(zé)用PyTorch重寫特征提取部分,發(fā)現(xiàn)原有模型把用戶歷史行為直接onehot編碼效果不好,轉(zhuǎn)而用了嵌入向量,把用戶和商品都映射到低維空間。調(diào)了兩個(gè)星期,最終模型AUC從0.68提到0.75,線上A/B測(cè)試顯示點(diǎn)擊率多了1.2%。遇到的第一個(gè)坎是特征工程,初期試了多項(xiàng)式特征組合,訓(xùn)練集上效果還行,但測(cè)試集表現(xiàn)差很多。后來發(fā)現(xiàn)是數(shù)據(jù)分布問題,線上用戶行為有季節(jié)性,我花了兩天補(bǔ)了時(shí)序特征,模型泛化能力直接翻倍。第二個(gè)難的是GPU資源,有時(shí)候訓(xùn)練要等隊(duì)里其他項(xiàng)目,我學(xué)會(huì)了用混合精度訓(xùn)練,把顯存省了一半,跑完模型再批量推理。團(tuán)隊(duì)每周有技術(shù)分享,有次討論過ResNet和ViT的結(jié)構(gòu)對(duì)比,我回去就扒了論文代碼,對(duì)比了不同層級(jí)的特征傳播路徑。雖然沒直接用到項(xiàng)目中,但感覺對(duì)深度學(xué)習(xí)框架理解深了。公司用的JupyterHub環(huán)境,但版本有點(diǎn)舊,好幾次跑實(shí)驗(yàn)要手動(dòng)裝包,有點(diǎn)煩。印象最深的是導(dǎo)師說的,模型好跟搭樂高似的,光塊兒硬沒用,得會(huì)搭?,F(xiàn)在回頭看,最值的是把理論落地過程摸透了,知道怎么根據(jù)數(shù)據(jù)情況選模型,這點(diǎn)學(xué)校里光看書學(xué)不到。三、總結(jié)與體會(huì)這8周實(shí)習(xí)像給我打開了一扇窗,以前覺得機(jī)器學(xué)習(xí)就是調(diào)參數(shù),現(xiàn)在才明白從數(shù)據(jù)到部署全流程有多復(fù)雜。2023年6月到8月,跟著團(tuán)隊(duì)把推薦系統(tǒng)AUC從0.68提到0.75,多出7個(gè)百分點(diǎn)的背后是無數(shù)個(gè)晚上的debug。記得有一次凌晨三點(diǎn)還在處理內(nèi)存溢出,對(duì)著爆棧信息啃論文到天亮,第二天導(dǎo)師說"這點(diǎn)抗造勁兒是以后搞研究的底子"。最讓我震撼的是真實(shí)業(yè)務(wù)場(chǎng)景對(duì)技術(shù)的苛刻。學(xué)校里0.9以上的準(zhǔn)確率是目標(biāo),但公司要求模型必須滿足實(shí)時(shí)性要求,有次優(yōu)化時(shí)我不得不在精度和推理速度間做取舍,最后用知識(shí)蒸餾把模型壓縮了60%但效果只降了2%。這種取舍能力是在做畢業(yè)設(shè)計(jì)時(shí)完全沒體會(huì)到的。這次經(jīng)歷讓我突然懂了導(dǎo)師說的"模型要接地氣"。現(xiàn)在再看論文,會(huì)直接想這個(gè)方法怎么落地,比如最近看的Transformer論文,會(huì)關(guān)注它在推薦場(chǎng)景的注意力機(jī)制改怎么適配長尾問題。實(shí)習(xí)最后做的復(fù)盤報(bào)告里,我把用到的交叉驗(yàn)證、超參數(shù)網(wǎng)格搜索都整理成方法論,現(xiàn)在做課程設(shè)計(jì)直接套用,效率高了不少。公司那種"算力即正義"的調(diào)優(yōu)文化也改變了我。以前覺得模型好就是參數(shù)好,現(xiàn)在知道有時(shí)候跑個(gè)百億參數(shù)模型不如把數(shù)據(jù)清洗做透。這點(diǎn)讓我反思下學(xué)期要重點(diǎn)補(bǔ)數(shù)據(jù)挖掘這塊短板,打算報(bào)名個(gè)CPRE證書,把Python的Pandas和Spark學(xué)深。離職時(shí)HR跟我說"你這個(gè)調(diào)參日志比很多正式員工做得細(xì)",當(dāng)時(shí)心里挺怪怪的,現(xiàn)在想通了學(xué)生時(shí)代最寶貴的就是敢試敢錯(cuò)的資本。這段經(jīng)歷讓我突然明白為啥大廠都喜歡招應(yīng)屆生,因?yàn)檫@種"用數(shù)據(jù)說話"的直覺,是泡在實(shí)驗(yàn)室里永遠(yuǎn)學(xué)不來的。四、致謝感謝這次實(shí)習(xí)機(jī)會(huì),讓我知道理論怎么變成生產(chǎn)力。感謝導(dǎo)師,帶我熟悉項(xiàng)目流

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論