工程師個(gè)人年底工作總結(jié)_第1頁
工程師個(gè)人年底工作總結(jié)_第2頁
工程師個(gè)人年底工作總結(jié)_第3頁
工程師個(gè)人年底工作總結(jié)_第4頁
工程師個(gè)人年底工作總結(jié)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

工程師個(gè)人年底工作總結(jié)2023財(cái)年,公司把“極致降本、極致提效、極致可靠”寫進(jìn)經(jīng)營(yíng)紅線,部門據(jù)此拆解出“單位算力成本下降18%、核心系統(tǒng)全年可用性≥99.95%、新業(yè)務(wù)上線周期壓縮30%”三大硬指標(biāo)。我作為云原生平臺(tái)組的資深開發(fā)工程師,全年OKR直接錨定這三條紅線,用312個(gè)工作日、4次大版本、187次灰度迭代,把“技術(shù)杠桿”變成“財(cái)務(wù)杠桿”,讓代碼真正變成了資產(chǎn)負(fù)債表上的現(xiàn)金流。一、量化成果與目標(biāo)價(jià)值閉環(huán)1.成本維度?離線混部項(xiàng)目:通過自研YunColocation調(diào)度器,把42%的離線作業(yè)填充到在線空閑時(shí)段,CPU平均利用率從18%提到47%,直接釋放1.38億元CAPEX預(yù)算。該數(shù)字經(jīng)財(cái)務(wù)與審計(jì)雙重核驗(yàn),已體現(xiàn)在Q4財(cái)報(bào)“固定資產(chǎn)優(yōu)化”科目。?對(duì)象存儲(chǔ)分層:基于訪問熱度模型把82%冷數(shù)據(jù)降冷到阿里云OSSIA,單GB月成本下降0.021元,全年節(jié)省967萬元,超額9.4%完成部門“單位算力成本下降18%”的子指標(biāo)。2.效率維度?發(fā)布流水線3.0:把“代碼合并—鏡像構(gòu)建—灰度—全量”從94min壓縮到27min,新業(yè)務(wù)上線周期由14.5天縮短到9.8天,降幅32%,超額2個(gè)百分點(diǎn)完成“壓縮30%”目標(biāo);全年支撐9條新業(yè)務(wù)線提前搶灘618與雙11流量窗口,帶來增量GMV3.4億元。?環(huán)境即代碼(EaC)體系:用1.2萬行Terraform模板把7套中間件集群的創(chuàng)建時(shí)間從3人·日降到0.5人·時(shí),研發(fā)自助率93%,全年減少1860個(gè)人·時(shí),折合人力成本167萬元。3.可靠性維度?可用性:核心交易鏈路全年實(shí)際可用性99.967%,高于目標(biāo)99.95%;全年P(guān)0故障0起,P1故障2起,MTTR11min,較去年縮短58%。?混沌工程:在4次大型軍演中注入312種故障,提前發(fā)現(xiàn)47個(gè)隱患,其中3個(gè)為可觸發(fā)30分鐘級(jí)全局宕機(jī)的“核彈級(jí)”缺陷,修復(fù)后對(duì)應(yīng)故障域可用性提升0.8個(gè)百分點(diǎn)。4.組織影響力?技術(shù)專利:提交6篇專利申請(qǐng)(已受理4篇),其中《一種基于反饋控制的離線混部調(diào)度方法》已拿到國(guó)家知識(shí)產(chǎn)權(quán)局“一通回執(zhí)”,預(yù)計(jì)2025年授權(quán)后可對(duì)外許可收費(fèi)。?人才梯隊(duì):作為導(dǎo)師結(jié)對(duì)3名新人,其中2人已能獨(dú)立owner模塊,1人晉升P7;組內(nèi)技術(shù)分享12次,覆蓋186人次,NPS評(píng)分94。二、具體問題與主客觀歸因1.成本黑洞:離線作業(yè)“峰谷錯(cuò)位”現(xiàn)象:Q1末利用率曲線顯示,凌晨06點(diǎn)在線業(yè)務(wù)低峰期CPU利用率僅12%,但離線批處理因SLA限制被迫白天搶資源,導(dǎo)致白天峰值飆到87%,形成“雙高峰”畸形曲線。主觀:早期調(diào)度器只考慮資源申請(qǐng)量,未刻畫“時(shí)間成本”二維效用;我個(gè)人對(duì)財(cái)務(wù)ROI模型理解不足,未把“折舊攤銷”量化進(jìn)調(diào)度策略??陀^:離線作業(yè)多為Hive/Spark,容器化比例僅35%,資源畫像缺失;底層BIOS電源策略保守,單核功耗下降空間11%但需廠商微碼升級(jí),涉及外部依賴。2.效率堵點(diǎn):配置漂移現(xiàn)象:Q2一次線上訂購(gòu)鏈路超時(shí)突增,排查發(fā)現(xiàn)是Redis版本在灰度和全量環(huán)境不一致,導(dǎo)致Lua腳本兼容性問題,回滾耗時(shí)47min。主觀:我負(fù)責(zé)的配置中心2.0只覆蓋80%中間件,存在“兜底盲區(qū)”;對(duì)“環(huán)境一致性”認(rèn)知停留在IaaS層,未上升到應(yīng)用層??陀^:歷史包袱7套環(huán)境、4套部署工具(Helm、Ansible、Rundeck、人工),缺少統(tǒng)一基線;業(yè)務(wù)方深夜緊急hotfix直接登錄機(jī)器改配置,流程缺口。3.可靠性隱憂:監(jiān)控“假飽和”現(xiàn)象:Q3大促壓測(cè)期間,消息隊(duì)列TPS到達(dá)28萬時(shí)監(jiān)控面板“一切正?!保M(fèi)者延遲突刺到4s,實(shí)際已觸發(fā)降級(jí),監(jiān)控指標(biāo)因采樣周期60s錯(cuò)過毛刺。主觀:我設(shè)計(jì)的指標(biāo)聚合窗口過大,錯(cuò)誤地把“均值”當(dāng)“分位”;對(duì)“毛刺檢測(cè)”算法研究不深入。客觀:Prometheus單實(shí)例瓶頸,remotewrite丟點(diǎn)率0.3%;業(yè)務(wù)側(cè)自定義指標(biāo)濫用Counter重置,導(dǎo)致rate()函數(shù)漂移。4.個(gè)人成長(zhǎng):技術(shù)廣度有余、深度不足現(xiàn)象:在架構(gòu)評(píng)審中,對(duì)Linuxcgroupv2的memory.high細(xì)節(jié)掌握不牢,被內(nèi)核組同事挑戰(zhàn)時(shí)無法給出“為什么不用memory.low”的量化對(duì)比。主觀:過去12個(gè)月聚焦“交付”,把70%時(shí)間用在寫CRD控制器與業(yè)務(wù)需求,閱讀內(nèi)核源碼時(shí)間僅42小時(shí)??陀^:云原生迭代太快,社區(qū)2023年發(fā)布37個(gè)CNCF項(xiàng)目,信息過載導(dǎo)致“學(xué)習(xí)實(shí)踐”循環(huán)被打斷。三、2024財(cái)年個(gè)人目標(biāo)(SMART)S:Specific——聚焦“成本、效率、可靠性”三條紅線,做深“混部調(diào)度、可觀測(cè)、內(nèi)核性能”三個(gè)技術(shù)棧。M:Measurable——①單位算力成本再降12%,對(duì)應(yīng)2024下半年CAPEX節(jié)省8000萬元;②新業(yè)務(wù)上線周期≤7天,較2023再降28%;③核心系統(tǒng)可用性≥99.99%,全年P(guān)0故障0起,P1≤1起,MTTR≤10min;④個(gè)人技術(shù)影響力:晉升P8,輸出3篇國(guó)內(nèi)A類論文、2次國(guó)際會(huì)議演講。A:Achievable——基于2023已落地的混部框架與可觀測(cè)基線,再投入2臺(tái)128Core裸金屬做驗(yàn)證即可,不額外申請(qǐng)千萬級(jí)預(yù)算。R:Relevant——全部指標(biāo)直接對(duì)齊公司“降本、提效、可靠”戰(zhàn)略,財(cái)務(wù)ROI模型已獲CFO辦公室認(rèn)可。T:Timebound——分四階段,20240115前完成藍(lán)圖評(píng)審,20240630前達(dá)成60%量化指標(biāo),20240930前完成90%,20241215前收官并輸出白皮書。四、分階段可落地任務(wù)階段1:藍(lán)圖與立項(xiàng)(20240102至20240115)動(dòng)作1:組織“成本性能可靠性”三角約束評(píng)審會(huì),輸出《2024技術(shù)地圖V1.0》。衡量:評(píng)審會(huì)NPS≥85,地圖中技術(shù)條目?jī)?yōu)先級(jí)與CFO給出的ROI排序誤差≤5%。截止:20240115。階段2:混部2.0&內(nèi)核優(yōu)化(20240116至20240630)動(dòng)作2.1:基于cgroupv2與memory.high機(jī)制,重寫YunColocation的memory驅(qū)逐器,把OOMKill率降到<0.1%。衡量:灰度集群2000節(jié)點(diǎn)連續(xù)30天OOM次數(shù)≤2;對(duì)比組memory利用率提升15%。截止:20240430。動(dòng)作2.2:引入IntelSPR微碼,開啟HardwarePState,單核功耗下降811%,整機(jī)TCO下降5%。衡量:在50臺(tái)裸金屬對(duì)比測(cè)試,功耗計(jì)采樣誤差<±2%,財(cái)務(wù)確認(rèn)單節(jié)點(diǎn)三年TCO節(jié)省1.2萬元。截止:20240531。動(dòng)作2.3:發(fā)布《混部2.0白皮書》,開源調(diào)度器插件至GitHub,Star≥500。截止:20240630。階段3:可觀測(cè)3.0&發(fā)布提速(20240701至20240930)動(dòng)作3.1:基于eBPF+OpenTelemetry構(gòu)建1ms級(jí)細(xì)粒度采集,埋點(diǎn)覆蓋90%關(guān)鍵路徑;丟點(diǎn)率<0.1%。衡量:壓測(cè)30萬TPS場(chǎng)景下,P99延遲毛刺檢測(cè)準(zhǔn)確率≥95%,誤報(bào)率≤3%。截止:20240815。動(dòng)作3.2:把鏡像構(gòu)建從Dockerfile遷移到BuildKit并啟用并行編譯,CI時(shí)長(zhǎng)再降35%;配合CRD實(shí)現(xiàn)環(huán)境一鍵復(fù)制,7天內(nèi)完成新業(yè)務(wù)上線。衡量:9條新業(yè)務(wù)線平均上線日歷天數(shù)≤7,CI失敗率≤2%。截止:20240930。階段4:可靠性收官&影響力升維(20241001至20241215)動(dòng)作4.1:基于“故障注入模型預(yù)測(cè)自動(dòng)修復(fù)”閉環(huán),構(gòu)建AIOps平臺(tái),全年P(guān)00起、P1≤1起。衡量:平臺(tái)在4次軍演中提前5min發(fā)現(xiàn)風(fēng)險(xiǎn)并自動(dòng)修復(fù),人工干預(yù)次數(shù)0。截止:20241130。動(dòng)作4.2:輸出3篇論文(《IEEETSC》《計(jì)算機(jī)學(xué)報(bào)》《軟件學(xué)報(bào)》),申請(qǐng)4件專利;KubeCon歐洲與北美各1場(chǎng)演講,CFP接收率≥50%。截止:20241215。五、資源需求與風(fēng)險(xiǎn)應(yīng)對(duì)1.人力資源:申請(qǐng)1名eBPF專家、1名AIOps算法工程師加入虛擬戰(zhàn)隊(duì),HC已和HRBP預(yù)溝通,納入2024Q1headcount。2.預(yù)算資源:申請(qǐng)80萬元用于購(gòu)買IntelSPR裸金屬50臺(tái)、功耗計(jì)10套、論文版面與會(huì)議差旅,預(yù)算已寫入部門FY24Capex清單。3.技術(shù)依賴:?內(nèi)核升級(jí)至5.15LTS,需基礎(chǔ)架構(gòu)部配合定制rpm,風(fēng)險(xiǎn)為第三方驅(qū)動(dòng)兼容;應(yīng)對(duì):提前2個(gè)月啟動(dòng)灰度,回滾策略雙系統(tǒng)啟動(dòng)。?開源社區(qū)變動(dòng):Kubernetes1.30可能廢棄FlowSchemaAPI,影響混部插件;應(yīng)對(duì):訂閱社區(qū)郵件列表,已預(yù)留15人·日做接口適配。4.業(yè)務(wù)沖突:大促窗口與軍演重疊;應(yīng)對(duì):把軍演拆成2次小流量演練,采用影子流量方案,對(duì)GMV零影響。5.個(gè)人健康:長(zhǎng)期夜間灰度導(dǎo)致作息紊亂;應(yīng)對(duì):推行“灰度白名單”機(jī)制,關(guān)鍵變更放在周三白天,采用藍(lán)綠+金絲雀降低熬夜頻次,全年夜間加班≤20次。六、能力提升保障措施1.深度研究:每周三上午固定“內(nèi)核源碼閱讀”2小時(shí),全年完成200小時(shí);輸出48篇內(nèi)核筆記,組內(nèi)分享12次。2.學(xué)術(shù)網(wǎng)絡(luò):與中科院計(jì)算所簽署“云原生聯(lián)合課題”,已拿到1名博士后入站名額,2024年共同申請(qǐng)國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目。3.英語輸出:參加“技術(shù)英語打卡營(yíng)”,每周1篇英文博客,全年50篇,GoogleAnalytics累計(jì)PV≥10萬。4.身體基線:把VO2max從42提到48,體脂降到15%,用運(yùn)動(dòng)手環(huán)量化;若連續(xù)2周睡眠不足6小時(shí),自動(dòng)觸發(fā)休假機(jī)制。七、總結(jié)計(jì)劃呼應(yīng)2023年我把“代碼”變成“現(xiàn)金流”,讓財(cái)務(wù)賬本里多出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。