版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
AI大模型驅(qū)動算法評測的“效能革命”陳曦文目錄1
背景2評測全流程的效能革命3應(yīng)用案例4
挑戰(zhàn)與展望01
背景
傳統(tǒng)算法評測痛點(diǎn)1.數(shù)據(jù)收集:依賴真實場景數(shù)據(jù),成本高、樣本不足,難以覆蓋邊緣案例2.離線評測:人工標(biāo)注耗時長,小模型泛化能力差,
問題歸因依賴專家經(jīng)驗3.業(yè)務(wù)上線:多輪人工審核導(dǎo)致流程冗長,用戶體驗差(如廣告/電商生成圖審核周期長)4.線上巡檢:人工回流數(shù)據(jù)耗時,問題歸因不系統(tǒng),
報告生成效率低背景
現(xiàn)狀當(dāng)前支付寶各業(yè)務(wù)線DAU較大,傳統(tǒng)依賴人工質(zhì)檢與小模型的評測方式已難以應(yīng)對當(dāng)前海量數(shù)據(jù)的實時性與精準(zhǔn)性要求。VGG
LLM1.0小模型時代2.0大模型時代MLLMAI時代變革
Claude
LLaMA
Midjourney從此進(jìn)入AI大模型時代,實現(xiàn)從“專用模型”到“通用智能”的跨越。Transformer問世ResNet
CLIPDeepSeekQwen-VLGeminiDALL-EChatGPTAlexNetBERTGANAI
1.0?
定義:數(shù)據(jù)驅(qū)動下的技術(shù)架構(gòu)與智能化范式。?典型場景:圖像識別、語音識別、自然語言處理等。?
應(yīng)用范式:基于領(lǐng)域內(nèi)數(shù)據(jù)構(gòu)建判別式AI小模型,完美展現(xiàn)專家經(jīng)驗。?
局限性:需要大量標(biāo)注數(shù)據(jù),泛化能力弱,可解釋性差。核心轉(zhuǎn)變:不再依賴于專家邏輯,
把理解、知識和邏輯推理交給AI。AI
2.0?
定義:利用大模型的生成能力和推理能力,帶來新的應(yīng)用范式。?典型場景:ChatGPT、
Copilot等。?
應(yīng)用范式:訓(xùn)練一個巨大的生成式大模型,大模型驅(qū)動業(yè)務(wù)決策?
局限性:訓(xùn)練資源消耗巨大,存在不當(dāng)使用和模型偏見問題。通過預(yù)訓(xùn)練+微調(diào)范式,輕量化訓(xùn)練業(yè)務(wù)大模型算法評測的變革核心02
評測全流程的效能革命一、數(shù)據(jù)集構(gòu)建傳統(tǒng)方式:依賴于開源數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、或真實場景采集,成本高、樣本有限,難以覆蓋極端案例AI注入:基于sd模型或虛擬仿真技術(shù),生成“不存在的badcase”
,低成本構(gòu)建海量樣本。不再局限于真實場景及傳統(tǒng)的數(shù)據(jù)增強(qiáng)方式,提升覆蓋度的同時,極大地降本增效二、離線評測人審提效70%,全流程耗時降至小時級,助力用戶體驗與業(yè)務(wù)效率雙提升三、業(yè)務(wù)上線四、線上日常巡檢03
應(yīng)用案例廣告AIGC場景應(yīng)用—評測難點(diǎn)與挑戰(zhàn)AIGC產(chǎn)物新問題點(diǎn):廣告場景下:
現(xiàn)實世界不存在或不常見【異常】
主體生成前后改變【一致性】
與用戶意愿不相符【一致性】
與客觀事實不符【美學(xué)】
主觀感受不佳【美學(xué)】
主背景不協(xié)調(diào)【美學(xué)】?建設(shè)思路:“魔法打魔法”的思路,用大模型測大模型?測評大模型:基于CLIP(ViT)、
LLaVA等業(yè)界前沿的大模型訓(xùn)練框架和底座
,結(jié)合開源數(shù)據(jù)集以及支付寶自營業(yè)務(wù)場景標(biāo)注數(shù)據(jù)
,訓(xùn)練一套螞蟻自己的AIGC生圖測評大模型VQAGPT
,對AIGC生圖產(chǎn)物進(jìn)行自動化評測質(zhì)檢。VQA-GPT:VisualQualityAssessmentGeneral
Pretrained-models廣告AIGC場景應(yīng)用—大模型思路
判斷生成前后商品主體是否一致
可視化問題區(qū)域,提高模型對特定問題發(fā)現(xiàn)的辨識度線上攔截商品主體出現(xiàn)異常突變的生成圖,
攔截準(zhǔn)確率90%+大模型思路VQA-GPT一致性判斷訓(xùn)練集:開源+業(yè)務(wù)美學(xué)標(biāo)注數(shù)據(jù)規(guī)模10w+大模型思路VQA-GPT美學(xué)判斷在算法上線前充分驗證機(jī)審能力,上線后持續(xù)優(yōu)化,實現(xiàn)高效可靠的AIGC圖像質(zhì)量檢測體系,為人審提效20%+。廣告AIGC場景應(yīng)用—業(yè)務(wù)效果功能4:任務(wù)中心提供多種檢索方式,用戶可查看所有上傳圖的評測結(jié)果功能2:圖文一致性檢測,用戶可以上傳圖片和對應(yīng)文本,來實現(xiàn)檢測功能1:美學(xué)異常檢測,用戶可以上傳單/多張圖片(url)
,來實現(xiàn)檢測功能3:圖圖一致性檢測,用戶可以上傳圖片-圖片對,來實現(xiàn)檢測自動化評測平臺質(zhì)量評測平臺(VQA
GPT)功能5:統(tǒng)計中心為用戶提供各指標(biāo)的分級統(tǒng)計結(jié)果,如異常率的高/中/低分級、一致率的優(yōu)/中/差分級等自動化評測平臺功能6:評測樣本集管理評測集開源主流AIGC開源&增強(qiáng)評測集AIGC線上算法評測結(jié)果庫重部署標(biāo)準(zhǔn)流程是否通過數(shù)據(jù)預(yù)處理是否通過的標(biāo)準(zhǔn):1、文生圖各大指標(biāo)準(zhǔn)出標(biāo)準(zhǔn);2、
圖生圖各大指標(biāo)準(zhǔn)出標(biāo)準(zhǔn)。自動化算法服務(wù)效果評測是否劣化1.模型更新2.代碼更新3.模型+代碼更新調(diào)用新算法服務(wù)驗證效果
&工程AITestOpsAIGC算法服務(wù)庫線上效果監(jiān)控Auto-Eval
Pipeline工程部署火花平臺透出線上回流仿真開源評測集模型訓(xùn)練模型評估算法離線優(yōu)化流程是是否04
挑戰(zhàn)與展望
技術(shù)深化1.輕量化模型:邊緣計算部署(如移動端實時質(zhì)檢)2.多模態(tài)融合:文本、語音與圖像的聯(lián)合評測3.應(yīng)用拓展:助力AI評測能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全腦開發(fā)合作協(xié)議書
- 2025年生物生化藥品合作協(xié)議書
- 2025年鹵代烴合作協(xié)議書
- 2025年健腹椅項目合作計劃書
- 慢性便秘的營養(yǎng)治療
- 緩解壓力的飲食建議
- 2025年雞舍正壓過濾(FAPP)通風(fēng)設(shè)備項目合作計劃書
- 血液透析中的抗凝管理
- 腦挫傷并發(fā)癥的預(yù)防與護(hù)理
- 腹脹患者的心理調(diào)適
- MOOC 物理與藝術(shù)-南京航空航天大學(xué) 中國大學(xué)慕課答案
- 銀行案件復(fù)盤分析報告
- 分析方法轉(zhuǎn)移方案課件
- 無創(chuàng)呼吸機(jī)面部壓瘡預(yù)防措施
- 全國高校黃大年式教師團(tuán)隊推薦匯總表
- 員工管理規(guī)章制度實施細(xì)則
- 社會心理學(xué)(西安交通大學(xué))知到章節(jié)答案智慧樹2023年
- 《安井食品價值鏈成本控制研究案例(論文)9000字》
- GB/T 4135-2016銀錠
- GB/T 33084-2016大型合金結(jié)構(gòu)鋼鍛件技術(shù)條件
- 關(guān)節(jié)鏡肘關(guān)節(jié)檢查法
評論
0/150
提交評論