下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能人工智能公司機(jī)器學(xué)習(xí)工程師實(shí)習(xí)報(bào)告一、摘要2023年6月5日至8月23日,我在一家人工智能公司擔(dān)任機(jī)器學(xué)習(xí)工程師實(shí)習(xí)生。核心工作成果包括開發(fā)并部署一個(gè)基于深度學(xué)習(xí)的圖像識(shí)別模型,準(zhǔn)確率達(dá)到92.3%,處理并分析了超過10萬條用戶行為數(shù)據(jù),優(yōu)化了推薦算法的點(diǎn)擊率提升15.7%。期間應(yīng)用了Python、TensorFlow和PyTorch進(jìn)行模型訓(xùn)練與調(diào)優(yōu),通過網(wǎng)格搜索和交叉驗(yàn)證確定了最優(yōu)超參數(shù)組合,并使用Git進(jìn)行版本控制。提煉出可復(fù)用的特征工程方法論,包括數(shù)據(jù)清洗、標(biāo)準(zhǔn)化和特征選擇流程,有效提升了模型泛化能力。二、實(shí)習(xí)內(nèi)容及過程2023年6月5日到8月23日,我在一家人工智能公司實(shí)習(xí),崗位是機(jī)器學(xué)習(xí)工程師。剛?cè)サ臅r(shí)候主要是熟悉業(yè)務(wù)和團(tuán)隊(duì)項(xiàng)目,跟著導(dǎo)師看了幾個(gè)現(xiàn)有模型,包括一個(gè)用CNN做圖像分類的,數(shù)據(jù)集有5萬張標(biāo)注圖,準(zhǔn)確率89%。第3周開始參與新項(xiàng)目,是優(yōu)化用戶推薦系統(tǒng)。原始數(shù)據(jù)是用戶點(diǎn)擊流,時(shí)間跨度一年,量超過200GB。我負(fù)責(zé)用PyTorch重寫特征提取部分,發(fā)現(xiàn)原有模型把用戶歷史行為直接onehot編碼效果不好,轉(zhuǎn)而用了嵌入向量,把用戶和商品都映射到低維空間。調(diào)了兩個(gè)星期,最終模型AUC從0.68提到0.75,線上A/B測(cè)試顯示點(diǎn)擊率多了1.2%。遇到的第一個(gè)坎是特征工程,初期試了多項(xiàng)式特征組合,訓(xùn)練集上效果還行,但測(cè)試集表現(xiàn)差很多。后來發(fā)現(xiàn)是數(shù)據(jù)分布問題,線上用戶行為有季節(jié)性,我花了兩天補(bǔ)了時(shí)序特征,模型泛化能力直接翻倍。第二個(gè)難的是GPU資源,有時(shí)候訓(xùn)練要等隊(duì)里其他項(xiàng)目,我學(xué)會(huì)了用混合精度訓(xùn)練,把顯存省了一半,跑完模型再批量推理。團(tuán)隊(duì)每周有技術(shù)分享,有次討論過ResNet和ViT的結(jié)構(gòu)對(duì)比,我回去就扒了論文代碼,對(duì)比了不同層級(jí)的特征傳播路徑。雖然沒直接用到項(xiàng)目中,但感覺對(duì)深度學(xué)習(xí)框架理解深了。公司用的JupyterHub環(huán)境,但版本有點(diǎn)舊,好幾次跑實(shí)驗(yàn)要手動(dòng)裝包,有點(diǎn)煩。印象最深的是導(dǎo)師說的,模型好跟搭樂高似的,光塊兒硬沒用,得會(huì)搭?,F(xiàn)在回頭看,最值的是把理論落地過程摸透了,知道怎么根據(jù)數(shù)據(jù)情況選模型,這點(diǎn)學(xué)校里光看書學(xué)不到。三、總結(jié)與體會(huì)這8周實(shí)習(xí)像給我打開了一扇窗,以前覺得機(jī)器學(xué)習(xí)就是調(diào)參數(shù),現(xiàn)在才明白從數(shù)據(jù)到部署全流程有多復(fù)雜。2023年6月到8月,跟著團(tuán)隊(duì)把推薦系統(tǒng)AUC從0.68提到0.75,多出7個(gè)百分點(diǎn)的背后是無數(shù)個(gè)晚上的debug。記得有一次凌晨三點(diǎn)還在處理內(nèi)存溢出,對(duì)著爆棧信息啃論文到天亮,第二天導(dǎo)師說"這點(diǎn)抗造勁兒是以后搞研究的底子"。最讓我震撼的是真實(shí)業(yè)務(wù)場(chǎng)景對(duì)技術(shù)的苛刻。學(xué)校里0.9以上的準(zhǔn)確率是目標(biāo),但公司要求模型必須滿足實(shí)時(shí)性要求,有次優(yōu)化時(shí)我不得不在精度和推理速度間做取舍,最后用知識(shí)蒸餾把模型壓縮了60%但效果只降了2%。這種取舍能力是在做畢業(yè)設(shè)計(jì)時(shí)完全沒體會(huì)到的。這次經(jīng)歷讓我突然懂了導(dǎo)師說的"模型要接地氣"。現(xiàn)在再看論文,會(huì)直接想這個(gè)方法怎么落地,比如最近看的Transformer論文,會(huì)關(guān)注它在推薦場(chǎng)景的注意力機(jī)制改怎么適配長尾問題。實(shí)習(xí)最后做的復(fù)盤報(bào)告里,我把用到的交叉驗(yàn)證、超參數(shù)網(wǎng)格搜索都整理成方法論,現(xiàn)在做課程設(shè)計(jì)直接套用,效率高了不少。公司那種"算力即正義"的調(diào)優(yōu)文化也改變了我。以前覺得模型好就是參數(shù)好,現(xiàn)在知道有時(shí)候跑個(gè)百億參數(shù)模型不如把數(shù)據(jù)清洗做透。這點(diǎn)讓我反思下學(xué)期要重點(diǎn)補(bǔ)數(shù)據(jù)挖掘這塊短板,打算報(bào)名個(gè)CPRE證書,把Python的Pandas和Spark學(xué)深。離職時(shí)HR跟我說"你這個(gè)調(diào)參日志比很多正式員工做得細(xì)",當(dāng)時(shí)心里挺怪怪的,現(xiàn)在想通了學(xué)生時(shí)代最寶貴的就是敢試敢錯(cuò)的資本。這段經(jīng)歷讓我突然明白為啥大廠都喜歡招應(yīng)屆生,因?yàn)檫@種"用數(shù)據(jù)說話"的直覺,是泡在實(shí)驗(yàn)室里永遠(yuǎn)學(xué)不來的。四、致謝感謝這次實(shí)習(xí)機(jī)會(huì),讓我知道理論怎么變成生產(chǎn)力。感謝導(dǎo)師,帶我熟悉項(xiàng)目流
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)蒙古建立特種設(shè)備安全技術(shù)指導(dǎo)員制度
- 北京工業(yè)大學(xué)耿丹學(xué)院《政府預(yù)算與決算》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南外國語職業(yè)學(xué)院《鋼琴演奏三》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南汽車工程職業(yè)學(xué)院《平法圖集與鋼筋算量》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東科技大學(xué)《電子工藝實(shí)訓(xùn)B》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南中醫(yī)藥高等??茖W(xué)校《管理統(tǒng)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川航天職業(yè)技術(shù)學(xué)院《政務(wù)傳播》2023-2024學(xué)年第二學(xué)期期末試卷
- 贛西科技職業(yè)學(xué)院《檢測(cè)技術(shù)及系統(tǒng)B》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東省外語藝術(shù)職業(yè)學(xué)院《繼電保護(hù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 吐魯番職業(yè)技術(shù)學(xué)院《農(nóng)藥化學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 應(yīng)急測(cè)繪服務(wù)方案(3篇)
- 2025至2030年中國移動(dòng)充電車行業(yè)市場(chǎng)全景評(píng)估及發(fā)展策略分析報(bào)告
- 2025年湖南省長沙市長郡教育集團(tuán)中考三模道德與法治試題
- 南京市五校聯(lián)盟2024-2025學(xué)年高二上學(xué)期期末考試英語試卷(含答案詳解)
- 云南省昆明市五華區(qū)2024-2025學(xué)年高一上學(xué)期1月期末考試地理試題(解析版)
- 人教部編版五年級(jí)語文上冊(cè)1-8單元習(xí)作作文范文 寫作指導(dǎo)
- (人教版)地理七年級(jí)下冊(cè)填圖訓(xùn)練及重點(diǎn)知識(shí)
- 二十四點(diǎn)大全
- TB-T 3263.1-2023 動(dòng)車組座椅 第1部分:一等座椅和二等座椅
- 《研學(xué)旅行課程設(shè)計(jì)》課件-理解研學(xué)課程設(shè)計(jì)內(nèi)涵
- AQT 1089-2020 煤礦加固煤巖體用高分子材料
評(píng)論
0/150
提交評(píng)論