版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
多模態(tài)預(yù)訓(xùn)練模型在OPPO端云場景的落地實踐陳宸-OPPO研究院-高級算法工程師DataFunCon
#
2023Contents目錄端側(cè)圖文檢索技術(shù)研究文圖生成模型的端側(cè)輕量化圖文生成&理解模型的應(yīng)用優(yōu)化端側(cè)圖文檢索技術(shù)研究端側(cè)圖文檢索技術(shù)研究——解決了什么問題?端側(cè)檢索demoquery1:
和女朋友去迪士尼query2:山頂婚紗照實現(xiàn)端側(cè)智慧搜索的關(guān)鍵因素:其一,“人話”解讀能力。智慧搜圖不僅能單獨搜詞,也能放一起搜,實現(xiàn)真正的口語化表達搜索,所想即所得,如“去年在動物園拍的老虎”等。因此需要類似多模態(tài)大模型
CLIP(OpenAI)的圖文理解能力。其二,高效搜索速度。相比動輒翻上十幾分鐘半個小時的相冊,現(xiàn)在無論從桌面下拉智慧搜索、打開相冊、或是用語音助手,都只需要一句話就能搜到想要的圖片,系統(tǒng)級地提升了找信息的效率。因此如何實現(xiàn)大模型在端側(cè)的輕量化部署有重大的意義。大模型輕量化端側(cè)技術(shù)落地的難點:1.
壓縮多模態(tài)大模型并確保精度。這并非簡單用剪枝或量化等方法,直接壓縮幾倍模型大小就能搞定。畢竟對于端側(cè)而言,算力有限的情況下,能部署的模型大小是往往只能達到大模型的幾十分之一。2.
與算法模型升級相對應(yīng)的,需要在端側(cè)實現(xiàn)一個性能魯棒的向量檢索引擎,保證大模型下端的工程性能一句話搜索的意義:大模型輕量端側(cè)化的技術(shù)意義:1.
成本節(jié)約:將云側(cè)大模型才能體驗的效果搬向到端側(cè),大幅節(jié)約計算資源;2.隱私保護:直接在端側(cè)處理用戶的私人照片,無需上傳到云端,保護用戶隱私;用戶體驗:真正解決用戶想什么就能搜什么的痛點,“智慧搜圖,搜你所想”。依托于大模型預(yù)訓(xùn)練技術(shù),不再依賴于標(biāo)簽的迭代和擴展/s?id=1770368479239959275&wfr=spider&for=pc端側(cè)圖文檢索技術(shù)研究——算法優(yōu)化ALBEF單流模型CLIP雙塔模型單雙流多教師蒸餾架構(gòu)損失函數(shù)檢索引擎的計算分位兩部分:1.
離線部分:掃描相冊所有圖片,通過圖片編碼器將所有圖片轉(zhuǎn)成向量;并經(jīng)過fp16量化存儲成Nx200的fp矩陣2.
在線部分:每次輸入query,通過文本編碼器將query轉(zhuǎn)成向量;并經(jīng)過fp16量化降低計算內(nèi)存;最后通過矩陣相乘計算query向量跟所有圖片的相似分數(shù),并通過排序輸出一個有序列表。Lei,Youbo,
et
al.
"MCAD:
Multi-teacher
Cross-modal
AlignmentDistillation
for
efficient
image-textretrieval."
arXivpreprintarXiv:2310.19654
(2023).端側(cè)圖文檢索技術(shù)研究——學(xué)術(shù)集效果各種蒸餾方法的效果對比大小模型的性能對比Modelnameimagemodeltext
modelfusionmodelimageencoding
retrieval
timetimeparameternumbertestsetfilckr5Kfilckr5Kfilckr5Kfilckr5KplatformCLIPVIT-L/1412-layertransformerdotproduct11.0ms32.5ms427.62MV100
GPUV100
GPUV100
GPUMTKDX3ALBEFVIT-B/166-layertransformer6-layertransformer7.6ms265ms(k=16)1945ms(k=128)
419.12M3865ms
(k=256)自研小模型
mobileVitV
4-layer2-1.5
TinyBertdocproductdocproduct3.8
ms17.3
ms14.1
ms25.9
M自研小模型
mobileVitV
4-layer2-1.5
TinyBert14.6
ms25.9
M端側(cè)圖文檢索技術(shù)研究——真實場景效果數(shù)據(jù)量:11個用戶真實相冊共2萬+圖片,手寫5400+query數(shù)據(jù)分布:測試集01R@1R@5R@100.74950.82510.61080.73890.79520.75MRmAP0.47280.49560.40190.45320.58430.53230.350.6710.63110.69290.52640.62560.71080.65590.49610.76390.66670.66090.69610.60800.53060.48890.60480.64280.58900.47710.59430.56220.54410.6336020.758030.56650.68470.7530405060.68550.52940.80830.68420.70590.7418070.60880.84170.71930.76470.781080.64170.59650.51210.5654091011平均0.4848
0.6768
0.7360
0.6325
0.5840端側(cè)圖文檢索技術(shù)研究——細粒度優(yōu)化細粒度屬性詞替換+hard
negativesampling+LwF抗遺忘算法Doveh,Sivan,
etal."Teaching
structuredvision
&language
conceptstovision
&language
models."Proceedings
oftheIEEE/CVF
Conference
on
Computer
Vision
and
PatternRecognition.
2023.文圖生成&理解態(tài)模型的應(yīng)用優(yōu)化圖文生成&理解模型的應(yīng)用優(yōu)化——中文文生圖大模型繼續(xù)預(yù)訓(xùn)練???如何做高質(zhì)量低成本的繼續(xù)預(yù)訓(xùn)練如何對齊中文的語言文化如何提升生成圖像的細節(jié)質(zhì)量Orthogonal
FinetuningParameter
efficient
adapterQiu,Zeju,
etal."Controlling
text-to-image
diffusion
by
orthogonalfinetuning."Thirty-seventh
Conference
onNeuralInformationProcessing
Systems.2023.圖文生成&理解模型的應(yīng)用優(yōu)化——中文文生圖大模型繼續(xù)預(yù)訓(xùn)練中文語境遷移效果收斂速度圖文生成&理解模型的應(yīng)用優(yōu)化——中文文生圖大模型繼續(xù)預(yù)訓(xùn)練一個漂亮的亞洲女孩,電影燈光西湖,塔和瀑布,日出Finetune模型江南,夏日湖畔的一個村莊3D電影,4k,高度細致,男人坐在馬桶上讀報LoRA帶著墨鏡的貓咪手里拿著劍,在惡魔城堡里,仙劍奇?zhèn)b風(fēng)格鴛鴦雙棲蝶雙飛,滿園春色惹人醉ControlnetLatentCM一只超級可愛的兔子穿著僧侶服裝,肖像照,皮克斯動畫青花瓷版的恐龍在長椅上SSD1.3B小模型SDXLinpainting圖文生成&理解模型的應(yīng)用優(yōu)化——通用優(yōu)化應(yīng)用壁紙生成春節(jié)檔熱度top1春節(jié)檔熱度top3文生圖模型+超分辨率生成2k高清壁紙圖文生成&理解模型的應(yīng)用優(yōu)化——通用優(yōu)化應(yīng)用鎖屏雜志生成文生圖模型+微調(diào)LLAVA+LLM
生成圖文并茂的雜志Liu,Haotian,etal.
"Visualinstructiontuning."arXivpreprintarXiv:2304.08485
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——通用優(yōu)化應(yīng)用Internlm-xcomposer訓(xùn)練框架Zhang,
Pan,etal."Internlm-xcomposer:
Avision-languagelargemodel
for
advanced
text-imagecomprehension
and
composition."
arXivpreprintarXiv:2309.15112
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化-人像垂域AI模型畫人的幾個問題:1.
人臉人手等身體部位的崩壞。2.
過于精致標(biāo)準(zhǔn),渲染過度光滑,在質(zhì)感上失真。3.
細粒度屬性和文本描述的不對齊。圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化-人像垂域構(gòu)建細粒度的人像屬性數(shù)據(jù)圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化-人像垂域U-Net中模塊與圖像中特征的對應(yīng)關(guān)系,可用于指導(dǎo)LoRA微調(diào)的參數(shù)選擇厚嘴唇薄嘴唇圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化-人像垂域小鼻子大鼻子圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化-人像垂域細眉毛粗眉毛圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化-人像垂域垂域微調(diào)經(jīng)驗:1.大量數(shù)據(jù)粗調(diào),增加模型對新概念的泛化能力2.少量高質(zhì)量數(shù)據(jù)精調(diào),提升模型的圖片生成質(zhì)量人臉修復(fù)邏輯:穿著華麗盔甲的玄幻戰(zhàn)士與巨龍激戰(zhàn),雷霆與火焰交織在一起。(隨機6張,無cherry-pick)圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化-古風(fēng)人像效果樹叢中,翩翩少女,紅衣綠裙,手提花傘,踏泥尋徑,仿佛踏入了一幅畫卷(隨機6張,無cherry-pick)古道邊一騎紅塵客正巍然馬背,身披白色斗篷,踏寂靜落阿葉(隨機6張,無cherry-pick)圖文生成&理解模型的應(yīng)用優(yōu)化——垂域優(yōu)化應(yīng)用廣告營銷工具(內(nèi)測版)圖文生成&理解模型的應(yīng)用優(yōu)化——文字渲染-問題定義如何在文生圖模型中渲染出正確的文字?Ma,Jian,etal."GlyphDraw:
Learningto
DrawChineseCharactersin
Image
Synthesis
Models
Coherently."
arXivpreprintarXiv:2303.17870
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——文字渲染-算法GlyphDraw數(shù)據(jù)集構(gòu)建數(shù)據(jù)集圖文對數(shù)量792k文字數(shù)量3.3M字中文數(shù)據(jù)集英文數(shù)據(jù)集1.9M2.3MwordsGlyphDraw訓(xùn)練框架GlyphDraw推理框架Ma,Jian,etal."GlyphDraw:
Learningto
DrawChineseCharactersin
Image
Synthesis
Models
Coherently."
arXivpreprintarXiv:2303.17870
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——文字渲染-客觀效果Ma,Jian,etal."GlyphDraw:
Learningto
DrawChineseCharactersin
Image
Synthesis
Models
Coherently."
arXivpreprintarXiv:2303.17870
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——文字渲染-主觀效果Ma,Jian,etal."GlyphDraw:
Learningto
DrawChineseCharactersin
Image
Synthesis
Models
Coherently."
arXivpreprintarXiv:2303.17870
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-問題定義如何使用一張參考圖像快速生成新圖片并平衡保真度和泛化性?Ma,Jian,etal."Subject-diffusion:
Open
domain
personalizedtext-to-image
generation
without
test-time
fine-tuning."arXivpreprintarXiv:2307.11410
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-數(shù)據(jù)集SDD數(shù)據(jù)集統(tǒng)計數(shù)據(jù)SDD數(shù)據(jù)集詞云Ma,Jian,etal."Subject-diffusion:
Open
domain
personalizedtext-to-image
generation
without
test-time
fine-tuning."arXivpreprintarXiv:2307.11410
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-算法Ma,Jian,etal."Subject-diffusion:
Open
domain
personalizedtext-to-image
generation
without
test-time
fine-tuning."arXivpreprintarXiv:2307.11410
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-效果雙實體生成與各種方法的對比單實體生成與各種方法的對比Ma,Jian,etal."Subject-diffusion:
Open
domain
personalizedtext-to-image
generation
without
test-time
fine-tuning."arXivpreprintarXiv:2307.11410
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-效果Ma,Jian,etal."Subject-diffusion:
Open
domain
personalizedtext-to-image
generation
without
test-time
fine-tuning."arXivpreprintarXiv:2307.11410
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-效果Ma,Jian,etal."Subject-diffusion:
Open
domain
personalizedtext-to-image
generation
without
test-time
fine-tuning."arXivpreprintarXiv:2307.11410
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-效果Ma,Jian,etal."Subject-diffusion:
Open
domain
personalizedtext-to-image
generation
without
test-time
fine-tuning."arXivpreprintarXiv:2307.11410
(2023).圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成應(yīng)用廣告營銷工具產(chǎn)品外觀設(shè)計(從0-1設(shè)計)產(chǎn)品效果圖生成(工作室拍攝的效果圖)產(chǎn)品營銷素材生成(海報/banner)Ayellow
hat產(chǎn)品外觀描述生成Agirlwearing
thehat
and
facing
forest選擇生成【海報】效果圖描述生成素材布局生成外觀多角度生成設(shè)計草圖生圖品牌調(diào)性干預(yù)參照物干預(yù)營銷文案&圖片生根據(jù)參照圖生成成品牌調(diào)性/風(fēng)格干布局描述生成預(yù)根據(jù)參考素材生成根據(jù)品牌VI,歷史產(chǎn)品調(diào)性生成產(chǎn)品設(shè)計圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-應(yīng)用商品設(shè)計個性化圖片生成海報設(shè)計圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-應(yīng)用Subject-diffusion的個性化生成圖文生成&理解模型的應(yīng)用優(yōu)化——個性化生成-應(yīng)用Stable-diffusion的outpainting文圖生成模型的端側(cè)輕量化文圖生成模型的端側(cè)輕量化——技術(shù)路線-模型結(jié)構(gòu)優(yōu)化Unet結(jié)構(gòu)示意圖不同剪枝模型在V100上測試結(jié)果模型采樣時間(DPMsolver++25步)運行內(nèi)存UNet參數(shù)量SD1.51.34s0.9s4105M3458M859.52M579.38MSDbase-2mSDsmall-2m0.83s0.76s3287M2979M482.35M323.38M刪除某個模塊之后的效果和參數(shù)量波動分析SDtiny-2mSDsmallSDtiny0.88s0.75s3477M3043M579.38M323.38M文圖生成模型的端側(cè)輕量化——技術(shù)路線-模型結(jié)構(gòu)優(yōu)化采用SDXL蒸餾SDsmall模型文圖生成模型的端側(cè)輕量化——技術(shù)路線-采樣加速ProgressivedistillationClassifier-free
guidance
distillation將兩次forward的CFG蒸餾成一次forward,即將scale用fourier
embedding編碼,類似于timestep一樣嵌入unet中。Salimans,
Tim,
and
Jonathan
H
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 船舶服務(wù)員考試題及答案
- 樂山市衛(wèi)生健康委員會2025年下半年公開選調(diào)事業(yè)單位工作人員備考題庫附答案
- 北京師大附中金鵬科技團專職教師招聘備考題庫必考題
- 南昌市勞動保障事務(wù)代理中心招聘4名項目外包服務(wù)人員參考題庫必考題
- 廣安市廣安區(qū)石筍鎮(zhèn)人民政府關(guān)于2025年選用片區(qū)紀(jì)檢監(jiān)督員的備考題庫附答案
- 招23人!高中可報、2025年茫崖市公安局面向社會公開招聘警務(wù)輔助人員備考題庫必考題
- 江投國華信豐發(fā)電有限責(zé)任公司公開招聘勞務(wù)派遣制工作人員 備考題庫必考題
- 輔警78名!2025年海南州公安局面向社會公開招聘警務(wù)輔助人員參考題庫附答案
- 雅安中學(xué)2025年公開選調(diào)事業(yè)人員的考試備考題庫附答案
- 安全生產(chǎn)執(zhí)法提示講解
- 2025年湖北能源集團股份有限公司招聘筆試真題
- ARK+Invest+年度旗艦報告《Big+Ideas+2026》重磅發(fā)布
- 2026山西臨汾市大寧縣招聘第四次全國農(nóng)業(yè)普查辦公室人員8人備考題庫及一套完整答案詳解
- 2026年及未來5年中國激光干涉儀行業(yè)市場前景預(yù)測及投資戰(zhàn)略研究報告
- 禮品卡使用規(guī)范與制度
- 2026年廈門市外事辦公室翻譯崗位遴選專業(yè)能力測試含答案
- 2025年總經(jīng)理安全生產(chǎn)責(zé)任書
- DB42∕T 2390-2025 城市更新規(guī)劃編制技術(shù)規(guī)程
- 殘疾人職業(yè)技能培訓(xùn)方案
- T-CFIAS 3037-2025 飼料添加劑 蛋白鋅
- 眼鏡銷售培訓(xùn)課程
評論
0/150
提交評論