3.講義-人工智能輔助設計與繪圖技術(shù)實務-基礎學習班-張海平-第三章 文生圖_第1頁
3.講義-人工智能輔助設計與繪圖技術(shù)實務-基礎學習班-張海平-第三章 文生圖_第2頁
3.講義-人工智能輔助設計與繪圖技術(shù)實務-基礎學習班-張海平-第三章 文生圖_第3頁
3.講義-人工智能輔助設計與繪圖技術(shù)實務-基礎學習班-張海平-第三章 文生圖_第4頁
3.講義-人工智能輔助設計與繪圖技術(shù)實務-基礎學習班-張海平-第三章 文生圖_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

自考輔導《人工智能輔助設計與繪圖技術(shù)實務》第三章文生圖第1頁第三章文生圖第01講文生圖基本步驟

01文生圖基本步驟文生圖基本步驟

第02講文生圖常用設置方法.mp4

02常用設置方法

給定提示詞

輸入提示詞:一個可愛的卡通女孩,穿著粉色上衣,在海邊玩耍,特寫,上半身照,看著鏡頭,微笑,喜悅

采樣方法設置

在文生圖技術(shù)中,“采樣方式”的選擇對于生成圖像的質(zhì)量和風格具有重要影響。在哩布哩布網(wǎng)站的“在線生成”選項中,采樣方法在如紅框所示的位置

在相同參數(shù)與提示詞的情況下,不同的“采樣方法”生成的圖像也有著很大的差距,其中LMS、DPMfast的采樣方式都出現(xiàn)了一些畫面上的崩壞,這可能是因為迭代步數(shù)不夠或提示詞引導系數(shù)不合適導致的。

采樣方式參數(shù)我們可以比喻為不同的化妝師用相同的材料去化妝,每個人多少會有一些差距,采樣方法中大部分帶“++”字符的采樣方式其實都是升級迭代過后的,所以生成的圖像細節(jié)和對提示詞的理解程度都會優(yōu)秀一些。

可以看到不同的采樣方式在生成圖像時的各有優(yōu)劣。在實際應用中,用戶可根據(jù)實際的需求進行選擇,以獲得最佳的生成效果。同時,也建議用戶在實踐中不斷嘗試和調(diào)整參數(shù),以找到最適合自己的采樣方式和參數(shù)設置。

迭代步數(shù)設置

在文生圖的過程中,“迭代步數(shù)”是一個關鍵參數(shù),決定了模型的計算次數(shù)和圖像的精細度。迭代的步數(shù)越多,模型對輸入提示詞的解析就越深入,圖像就越接近所描述內(nèi)容,但同時也會增加計算時間和資源。打開哩布哩布網(wǎng)站的“在線生成”選項,可以在文生圖標簽下找到“迭代步數(shù)”參數(shù)

圖片尺寸設置

在文生圖過程中,圖片尺寸也是一個至關重要的設置參數(shù),決定了所生成圖像的分辨率和輸出的大小。圖片尺寸不僅影響著圖像的清晰度和細節(jié)展現(xiàn),還會影響計算資源和生成時間。打開哩布哩布網(wǎng)站的“在線生成”選項,可以在文生圖標簽下找到圖片尺寸設置

生成批次設置

在文生圖生成過程中,通常會遇到兩個關于批次的參數(shù):“總批次數(shù)”和“單批次數(shù)”。打開StableDiffusion之后在文生圖標簽下找到生成批次設置

在哩布哩布網(wǎng)站中只有一個總的圖片數(shù)量

圖片數(shù)量設置越多,代表著模型一次要生成的圖像數(shù)量越多,同時時間也會更長,默認是1,也就是代表著當單擊“開始生成”后,會生成一張圖像;當將其改為2的時候,單擊“開始生成”后,就會同時生成兩張圖像。

提示詞引導系數(shù)設置

StableDiffusion模型的CFG提示詞引導系數(shù)也是一個關鍵參數(shù)。它的值決定了生成的圖像與輸入提示詞之間的匹配度和創(chuàng)造性。打開哩布哩布網(wǎng)站的“在線生成”選項,可以在文生圖標簽下找到“提示詞引導系數(shù)(CFGScale)”

隨機數(shù)種子設置

在文生圖生成過程中,“隨機數(shù)種子”也是一個重要的參數(shù)。它能提供一個固定的起始點,確保在相同的設置和參數(shù)下,每次使用相同的“隨機數(shù)種子”都會得到相同的生成結(jié)果。使用“隨機數(shù)種子”,可以在多次生成過程中獲得一樣的結(jié)果,對于比較不同參數(shù)或設置的效果非常有用。

打開哩布哩布網(wǎng)站的“在線生成”選項,可以在文生圖標簽下找到“隨機數(shù)種子”

“隨機數(shù)種子”的默認值為“-1”,代表隨機的意思,即在其他所有的參數(shù)都是固定不變時,每次單擊“開始生成”后生成的圖片具有的隨機性,風格等可能存在差異。其具體隨機數(shù)種子值可以在圖下方信息中找到標簽為seed,其后跟著的值為“隨機數(shù)種子”

可以在“隨機數(shù)種子”參數(shù)的輸入框內(nèi)輸入任何正整數(shù)。在其他參數(shù)也相同的情況下,生成的圖像完全一致。

第03講實操:生成一張跑車圖片

03實操:生成一張跑車圖片

實操:生成一張跑車圖片

第一步:打開哩布哩布網(wǎng)址:https://www.liblib.art/。

第二步:點擊“在線生成”,如下圖紅框所示。

第三步:點擊“文生圖”

第四步:在提示詞框里輸入如下提示詞:

一輛液態(tài)金屬紅超跑(法拉利SF90/未來概念車型)在霓虹藍調(diào)山道(或賽博都市街道)高速漂移,碳纖維尾翼劃出光軌,20英寸渦輪輪轂濺起虹色火星,琥珀色漸變車漆映射環(huán)境光斑,搭配動態(tài)模糊與無人機追焦視角,采用賽博朋克混合寫實風格(可切換低多邊形建模),4K級細節(jié)呈現(xiàn)雨夜倒影/干燥揚塵特效,Octane光線追蹤引擎渲染電影級景深,背景可拓展為沙漠公路或海底隧道超現(xiàn)實場景。

第五步:在負向提示詞框里輸入如下提示詞(避免一些現(xiàn)象的出現(xiàn)):

超級糟糕的畫質(zhì),灰白的色彩。

第六步:選擇采樣方法:Euler。

額外練習:請同學們嘗試在其他參數(shù)不變的情況下選不同的方法生成圖,找到最符合要求的。

第七步:設置迭代步數(shù):40。

額外練習:請同學們嘗試在其他參數(shù)不變的情況下選不同的迭代步數(shù)生成圖,找到最符合要求的。

第八步:設置圖片尺寸:512×512。

額外練習:請同學們嘗試在其他參數(shù)不變的情況下選不同的圖片尺寸生成圖,找到最符合要求的。

第九步:選擇圖片數(shù)量:2。

額外練習:請同學們嘗試在其他參數(shù)不變的情況下選不同的數(shù)量生成圖。

第十步:設置提示詞引導系數(shù):10。

額外練習:請同學們嘗試在其他參數(shù)不變的情況下選不同的提示詞引導系數(shù)生成圖,分析異同。

第十一步:設置隨機數(shù)種子:11234222。

額外練習:請同學們嘗試在其他參數(shù)不變的情況下選不同的隨機數(shù)種子生成圖,分析異同。

第十二步:選擇模型:在CKECKPOINT下拉框選“基礎算法_v2.1safetensors”模型,如下圖所示。

額外練習:請同學們嘗試在其他參數(shù)不變的情況下選不同的模型生成圖,分析異同。

第十三步:點擊“開始生圖”,生成兩張圖片。

第十四步:保存圖片:按如下步驟,分別將兩張圖片保存到本地

第04講StableDiffusion系列深度解析

04技術(shù)拓展技術(shù)拓展

模型對比與選擇

主流模型架構(gòu)

?StableDiffusion系列

?DALL·E系列

?MidJourney系列

?StableDiffusion系列深度解析

√SD2.1模型

√SDXL模型

√SD3模型

?StableDiffusion系列深度解析

◆SD2.1vsSDXL

①參數(shù)量對比

·SD2.1:860M參數(shù),基于U-Net的擴散模型,專注于512×512分辨率生成。

·SDXL:3.5B參數(shù),引入更大規(guī)模U-Net與跨模態(tài)注意力層,支持1024×1024高清生成。

·性能影響:

a.SDXL相比于SD2.1模型容量提升4倍,細節(jié)刻畫能力顯著增強(如毛發(fā)、紋理)。

b.SDXL相比于SD2.1顯存需求從8GB(SD2.1)升至16GB(SDXL),需RTX3090以上顯卡。

?StableDiffusion系列深度解析

◆SD2.1vsSDXL

②訓練數(shù)據(jù)對比

·SD2.1的數(shù)據(jù)局限:

a.基于LAION-5B的子集(5億圖文對),存在低質(zhì)量/版權(quán)爭議內(nèi)容。

b.審美評分機制簡單(僅依賴CLIP相似度),導致生成風格單一。

·SDXL的數(shù)據(jù)革新:

c.精選數(shù)據(jù)集:

a)從LAION-5B篩選出1.3億高質(zhì)量圖文對,增加藝術(shù)平臺數(shù)據(jù)(如ArtStation、Behance)。

b)引入人工標注的審美評分(0-10分),過濾低分內(nèi)容(如模糊、構(gòu)圖混亂的圖像)。

d.多尺度訓練:

同時訓練512px和1024px模型,提升跨分辨率生成一致性。

?StableDiffusion系列深度解析

◆SD2.1vsSDXL

③生成質(zhì)量對比

?StableDiffusion系列深度解析

◆StableDiffusion3(SD3)

①混合架構(gòu)設計

·DiffusionTransformer(DiT):

a.替代傳統(tǒng)U-Net,采用純Transformer結(jié)構(gòu),提升長程語義關聯(lián)能力。

b.優(yōu)勢:對復雜提示詞(如“交織的藤蔓與機械齒輪”)的理解更精準。

·流匹配(FlowMatching):

c.引入連續(xù)時間擴散理論,優(yōu)化噪聲到圖像的映射路徑。

d.結(jié)果:生成速度提升20%,且圖像邏輯更連貫(如肢體與背景的合理互動)。

·多模態(tài)協(xié)同:

文本編碼器升級為CLIPViT-L/14+MT5,支持中/日/韓等多語言提示詞。

?StableDiffusion系列深度解析

◆StableDiffusion3(SD3)

②文本渲染突破

·可讀文字生成:

a.傳統(tǒng)缺陷:SDXL生成的文字多為亂碼(如“Adidas”→“A#di@da”)。

b.SD3解決方案:

a)字形注意力層:將字符輪廓編碼為空間約束條件。

b)合成數(shù)據(jù)增強:用程序生成100萬張“文本-背景”配對圖像進行微調(diào)。

c.應用案例:

a)廣告標語生成:“SummerSale50%Off”可直接渲染到海報中。

b)書籍封面設計:作者名與標題自動排版。

?StableDiffusion系列深度解析

◆StableDiffusion3(SD3)

②文本渲染突破

·多語言支持:

a.中文/日文生成示例:

提示詞:“日本居酒屋招牌「焼き鳥一番」”→正確生成漢字與假名。

b.技術(shù)原理:

將Unicode字符映射為字形圖像,聯(lián)合訓練文本-圖像對齊損失。

?StableDiffusion系列深度解析

◆SDXL與SD3生成質(zhì)量對比?StableDiffusion系列深度解析

◆SDXL與SD3行業(yè)應用場景對比

①SDXL的商用價值

·影視行業(yè):

a.概念設計:生成4K分鏡圖,直接用于Previs預演。

b.虛擬制片:實時生成背景替換素材,降低綠幕拍攝成本。

·電商領域:

c.產(chǎn)品換裝:輸入“模特穿紅色毛衣”,生成100組角度/光照變體。

d.A/B測試:快速生成不同風格的廣告圖,優(yōu)化點擊率。

?StableDiffusion系列深度解析

◆SDXL與SD3行業(yè)應用場景對比

②SD3的創(chuàng)新潛力

·教育出版:

a.自動生成插圖:輸入教科書段落,輸出匹配的示意圖(如細胞結(jié)構(gòu))。

b.多語言教材:同一場景匹配不同語言文本(如中文“火山噴發(fā)”→阿拉伯文標注)。

·AR/VR領域:

實時環(huán)境生成:結(jié)合擴散模型與NeRF,從文本生成3D可探索空間。

第05講DALL·E3模型詳探究

?DALL·E3模型詳探①核心架構(gòu)設計

·多模態(tài)擴散模型框架

DALL·E3基于改進的擴散模型,但引入以下關鍵創(chuàng)新:

a.HierarchicalDiffusion(層級擴散):

a)多尺度生成:分階段生成低分辨率草圖(64×64)→中分辨率細節(jié)(256×256)→最終高清圖像(1024×1024)。

b)級聯(lián)訓練:每個階段使用獨立擴散模型,通過條件控制傳遞上下文信息。

c)優(yōu)勢:降低計算成本,同時提升復雜場景的生成穩(wěn)定性。

b.視覺-語言聯(lián)合嵌入空間:

a)CLIP-ViT-G:升級版CLIP模型,支持圖像與文本的細粒度對齊(如局部特征匹配)。

b)動態(tài)路由機制:根據(jù)文本復雜度自動選擇嵌入維度(低維→全局風格,高維→細節(jié)控制)。

·擴散過程優(yōu)化

a.自適應噪聲調(diào)度器:

a)根據(jù)圖像內(nèi)容復雜度動態(tài)調(diào)整噪聲添加步長(如人臉區(qū)域步長更小以保留細節(jié))。

b)數(shù)學表達:

b.語義引導去噪:在U-Net中嵌入文本條件注意力層(Text-ConditionalAttention):

1)文本嵌入向量與圖像特征圖通過交叉注意力交互。

2)動態(tài)權(quán)重機制:對關鍵詞(如“發(fā)光”“機械”)分配更高注意力權(quán)重。

②與ChatGPT的深度集成

·對話式提示詞優(yōu)化

a.語義補全機制:

a)用戶輸入模糊描述(如“一只帥氣的狗”)→ChatGPT自動擴展為:

“AmajesticSiberianHuskywithglowingblueeyes,wearingafuturisticarmor,standingonasnow-coveredcliffunderauroraborealis,8kcinematiclighting.”

b)技術(shù)實現(xiàn):基于RLHF(人類反饋強化學習)優(yōu)化提示詞改寫策略。

b.多輪迭代生成:

a)支持上下文感知修改(例:“把背景換成火星”→“給狗添加噴氣背包”)。

b)記憶機制:通過鍵值緩存(KVCache)保留前序?qū)υ挼囊曈X特征。

·聯(lián)合訓練框架

共享嵌入空間:

a)ChatGPT的文本編碼器與DALL·E3的CLIP編碼器共享部分參數(shù),確保語義一致性。

b)訓練目標:最小化文本-圖像對的對比損失(ContrastiveLoss)與擴散損失(DenoisingLoss)。

③訓練策略與數(shù)據(jù)優(yōu)化

·訓練數(shù)據(jù)優(yōu)化

a.數(shù)據(jù)源:

a)精選數(shù)據(jù)集:從LAION-5B篩選出2億高質(zhì)量圖文對,人工標注審美評分(≥7分)。

b)合成數(shù)據(jù):利用GLIDE生成1億對“文本-圖像”數(shù)據(jù),補充長尾概念(如冷門歷史事件)。

b.對抗性訓練:

a)引入對抗樣本(如錯誤關聯(lián)的圖文對)提升魯棒性。

b)案例:強制模型區(qū)分“熊貓吃竹子”與“竹子圖案的熊貓玩偶”。

·訓練流程優(yōu)化(多階段)

a.預訓練階段:

使用256×256分辨率圖像訓練基礎擴散模型(耗時1個月,4096張A100)。

b.對齊微調(diào):

通過人類標注員對50萬組生成結(jié)果進行偏好評分,優(yōu)化模型(PPO算法)。

c.安全對齊:

注入安全樣本(如暴力/侵權(quán)內(nèi)容)訓練拒絕生成能力。

④安全策略

·多層內(nèi)容過濾

a.預生成過濾層:

a)文本黑名單:包含50萬條敏感詞(暴力、種族歧視、版權(quán)關鍵詞)。

b)語義檢測模型:基于RoBERTa-large的分類器(準確率99.1%)。

b.后生成過濾層:

多模型校驗:

·版權(quán)保護技術(shù)

a.訓練數(shù)據(jù)清洗:

a)移除所有已知版權(quán)內(nèi)容(如迪士尼角色、明星照片)。

b)使用哈希黑名單匹配LAION數(shù)據(jù)集中的爭議圖像。

b.溯源水?。?/p>

a)隱形水?。和ㄟ^離散余弦變換(DCT)嵌入不可見標識。

b)顯性水?。嚎蛇x在圖像角落添加“AIGenerated”標簽。

⑤性能和局限性

·性能優(yōu)勢

a.生成質(zhì)量:

a)在COCO數(shù)據(jù)集上的FID分數(shù)為3.1(對比SDXL的4.8)。

b)對復雜提示詞的理解能力提升40%(基于人工評估)。

b.推理速度:

50步采樣僅需4.2秒(A100GPU),比DALL·E2快2.3倍。

·當前局限

a.長尾概念缺失:

對冷門文化符號(如非洲傳統(tǒng)服飾)生成質(zhì)量不穩(wěn)定。

b.過度安全限制:

誤攔截合理請求(如醫(yī)學教材中的解剖圖)。

c.3D一致性不足:

生成多視角圖像時可能出現(xiàn)物體形變。

第06講MidJourney模型詳探

?MidJourney模型詳探

①核心架構(gòu)設計

·基于擴散模型的混合架構(gòu)

a.改進的擴散框架

MidJourney底層仍基于擴散模型(DiffusionModels),但引入了多項定制化優(yōu)化:

a)漸進式超分辨率生成:

分階段生成低分辨率草圖(256×256)→中分辨率(512×512)→最終高清圖像(1024×1024),每階段使用專用子模型,降低計算復雜度。

b)動態(tài)噪聲調(diào)度:

根據(jù)圖像內(nèi)容復雜度調(diào)整噪聲添加策略(如人物面部區(qū)域采用更精細的噪聲控制)。

b.風格增強模塊

a)藝術(shù)風格嵌入層:

在U-Net中集成風格特征庫(如油畫、賽博朋克、水墨畫),通過注意力機制動態(tài)融合風格向量。

b)風格遷移損失函數(shù):

訓練時引入Gram矩陣損失,強制生成圖像與目標風格的藝術(shù)品在紋理分布上對齊。

·多模態(tài)文本理解

a.專用文本編碼器

a)不同于開源模型依賴CLIP,MidJourney可能采用混合編碼器:

1)語義解析層:類似GPT-3的Transformer,理解復雜描述(如隱喻、抽象概念)。

2)風格關鍵詞提取器:自動識別并強化“trendingonArtStation”“cinematiclighting”等藝術(shù)導向詞匯。

b)長文本支持:支持超長提示詞(最高750字符),通過分段注意力機制捕捉全局語義。

②訓練策略與數(shù)據(jù)優(yōu)化

·數(shù)據(jù)篩選與優(yōu)化

a.高質(zhì)量藝術(shù)數(shù)據(jù)集:

a)核心數(shù)據(jù)源:從ArtStation、Behance等藝術(shù)平臺精選數(shù)百萬高質(zhì)量圖像-文本對,人工標注審美評分(避免LAION-5B中的低質(zhì)內(nèi)容)。

b)風格標簽系統(tǒng):每張圖像標記風格標簽(如“印象派”“科幻”),訓練時作為附加條件輸入。

b.合成數(shù)據(jù)增強:

使用早期版本模型生成多樣化圖像,結(jié)合人工篩選擴充訓練集,覆蓋長尾場景(如“蒸汽朋克蝴蝶”“中世紀太空站”)。

·強化學習與人類反饋(RLHF)

a.用戶偏好優(yōu)化:

a)收集用戶對生成結(jié)果的投票(??/??),訓練獎勵模型(RewardModel)預測人類審美偏好。

b)通過PPO(近端策略優(yōu)化)算法微調(diào)生成模型,最大化獎勵得分。

c)案例:V5→V6版本迭代中,手部細節(jié)和透視準確性的顯著提升即源于此機制。

③生成優(yōu)化技術(shù)

·藝術(shù)化后處理管道

a.風格化超分辨率:

a)最終階段使用GAN-BasedUpscaler(如ESRGAN變體),在放大分辨率時增強紋理細節(jié)(如筆觸、材質(zhì))。

b)可選風格濾鏡:用戶可選擇“--style4a”(寫實)或“--style4b”(抽象)等參數(shù),激活不同的后處理網(wǎng)絡。

·動態(tài)控制機制

a.隱式控制模塊:

a)類似ControlNet的功能,但無需用戶輸入控制圖,而是通過提示詞解析自動生成約束(如“對稱構(gòu)圖”“黃金分割比例”)。

b)示例:輸入“俯瞰視角的魔法城堡”會自動應用透視變形與景深模糊。

b.多提示詞混合:

支持::分隔符混合多概念(如cyberpunkdragon::3||medievalpainting::1),通過權(quán)重調(diào)整風格強度。

④性能和優(yōu)勢

·生成質(zhì)量對比

·閉源生態(tài)優(yōu)勢

a.端到端優(yōu)化:

從硬件到算法的全棧優(yōu)化,實現(xiàn)高推理效率(1024×1024圖像生成僅需20秒)。

b.版權(quán)合規(guī):

內(nèi)置版權(quán)過濾系統(tǒng),拒絕生成迪士尼角色等受保護IP內(nèi)容(基于合作版權(quán)庫)。

⑤技術(shù)局限性

a.可控性不足:

缺乏類似ControlNet的精準控制接口,依賴提示詞調(diào)整生成細節(jié)。

b.長尾概念偏差

對冷門文化元素(如非洲傳統(tǒng)服飾)生成效果不穩(wěn)定。

c.閉源限制:

無法本地部署或定制微調(diào),依賴官方API更新。

第07講模型對比與選擇依據(jù)

?三種模型性能對比?三種模型選擇依據(jù)

①根據(jù)適用場景選擇模型場景MidJourneyV6游戲概念設計、插畫、社交媒體藝術(shù)創(chuàng)作、非商業(yè)性藝術(shù)表達StableDiffusion3工業(yè)設計、科研實驗、定制化需求、本地化部署DALL·E3

企業(yè)廣告設計、教育出版、醫(yī)療/金融等合規(guī)敏感行業(yè)。②根據(jù)技術(shù)能力與資源選擇資源/能力MidJourneyV6StableDiffusion3DALL·E3技術(shù)門檻低(僅需提示詞)高(需本地部署/調(diào)參)中(依賴API交互)硬件需求云端(無需硬件)需高性能GPU(16GB+顯存)云端(API調(diào)用)定制化能力弱(僅風格參數(shù))極強(開源代碼+插件)弱(官方控制)數(shù)據(jù)隱私中(依賴平臺)高(本地數(shù)據(jù)不外傳)低(數(shù)據(jù)經(jīng)云端)③根據(jù)預算與成本選擇成本維度MidJourneyV6StableDiffusion3DALL·E3初始成本10?10?120/月(訂閱制)免費(本地)或云服務成本0.02?0.02?0.08/圖(按量計費)隱性成本風格擴展依賴官方更新需技術(shù)團隊維護/開發(fā)企業(yè)級合規(guī)成本低長期性價比適合高頻低精度需求適合低頻高定制需求適合中頻合規(guī)需求

第08講提示詞使用指南

生成控制的高級技巧

?提示詞工程

提示詞工程(PromptEngineering)在人工智能繪圖的應用中扮演著至關重要的角色。它的核心在于通過精心設計輸入提示(Prompt),以高效、精準地引導模型輸出符合需求的回答。

①提示詞的重要性

1.決定模型輸出的質(zhì)量

a.精準度:模糊或錯誤的提示詞可能導致模型生成無關、錯誤甚至有害的內(nèi)容。例如,提問“怎么寫文章?”可能得到泛泛而談的回答,而“如何寫一篇關于氣候變化的學術(shù)論文?”會引導模型提供更具體的結(jié)構(gòu)和方法。

b.相關性:好的提示詞能約束模型的輸出范圍,避免“答非所問”。例如,在客服場景中,“請用中文簡短回答用戶關于退貨政策的問題”比“解釋政策”更有效。

2.提升效率,降低成本

a.減少迭代次數(shù):精準的提示詞能一次性獲得可用結(jié)果,避免反復調(diào)試。例如,在代碼生成中,明確需求(如“用Python生成一個快速排序函數(shù),附帶時間復雜度的注釋”)比籠統(tǒng)提問更高效。

b.節(jié)省計算資源:復雜的任務通過分步提示(Chain-of-Thought)拆解,可降低模型的計算負擔。

3.適應不同場景的靈活性

a.角色扮演:通過提示詞讓模型扮演特定角色(如“你是一位經(jīng)驗豐富的醫(yī)生”),可提升回答的專業(yè)性。

b.多模態(tài)任務:在圖像生成(如DALL·E、MidJourney)中,提示詞的細節(jié)(“賽博朋克風格,霓虹燈光,雨天街道”)直接影響生成效果。

4.推動AI的可解釋性與安全性

a.透明化:通過分析提示詞與輸出的關聯(lián),可部分解釋模型行為。

b.倫理控制:例如,添加“請以無害且包容的方式回答”可減少有害內(nèi)容生成。

第09講提示詞重要性

②提示詞使用指南

1.權(quán)重語法深度解析

a.動態(tài)調(diào)節(jié)機制:(關鍵詞:數(shù)值)通過數(shù)值系數(shù)控制元素表現(xiàn)強度

a)1.5-2.5:顯著增強存在感

b)0.3-0.7:弱化非核心元素

c)多級嵌套示例:(cyberpunkcityscape:1.3)(neonlights:1.7)(raineffect:0.8)

b.疊加效應:可使用多重括號增強效果,如(((detailedtexture)))≈1.3倍權(quán)重

c.空間權(quán)重分配:通過[前景:背景]格式實現(xiàn)層次控制,如(characterdesign:1.6)[background:0.9]

2.負提示詞高級技巧

a.分層排除系統(tǒng):

a)基礎層:lowresolution,deformedanatomy,extrafingers

b)風格層:watercolor(當需要寫實效果時),3Drender(需要手繪質(zhì)感時)

c)內(nèi)容層:textoverlay,signature,frameborder

b.反向加權(quán):對負面元素也可施加權(quán)重,如(blurry:1.8)加強模糊排除力度

c.情境化屏蔽:通過場景描述自動排除矛盾元素,如指定"白天"自動屏蔽moonlight

3.參數(shù)協(xié)同優(yōu)化

a.溫度系數(shù):0.3-0.7配合精確提示詞

b.迭代步數(shù):復雜提示建議40+steps

c.采樣器選擇:DDIM適合概念設計,Eulera適合快速迭代

③提示詞實踐建議

1.明確意圖:定義清晰的目標和約束條件。

2.分步引導:復雜任務拆解為多輪提問(如“先列出大綱,再展開每部分”)。

3.持續(xù)迭代:通過測試反饋優(yōu)化提示詞,利用A/B測試對比效果。

4.結(jié)合領域知識:專業(yè)領域需融入術(shù)語和上下文。

第10講精細化控制技術(shù)

?精細化控制技術(shù)①ControlNet全解析

a.8種控制模式對比

b.實戰(zhàn)案例:線稿→上色圖

a)用Procreate繪制線稿并導出PNG

b)在StableDiffusion中加載CannyEdgeControlNet

c)輸入提示詞“賽博朋克城市,霓虹燈光,雨夜”

d)調(diào)整ControlNet權(quán)重(0.6-0.8平衡控制力與創(chuàng)意)

②風格遷移與微調(diào)技術(shù)

a.LoRA(Low-RankAdaptation)

a)原理:通過低秩矩陣更新適配模型(僅訓練0.1%參數(shù))

b)訓練流程:

1.準備20-50張目標風格圖片(如浮世繪)

2.使用Dreambooth工具微調(diào)2小時(RTX3090)

3.生成時觸發(fā)詞:<lora:ukiyoe:0.7>

b.StyleGAN混合控制

將StyleGAN的潛空間與擴散模型結(jié)合,實現(xiàn)發(fā)型/妝容分離控制

第11講游戲行業(yè)應用

應用與倫理——行業(yè)落地案例

一.游戲行業(yè):AI賦能美術(shù)創(chuàng)作

①《逆水寒》AI美術(shù)應用

·《逆水寒》使用StableDiffusion等AI工具,批量生成角色服飾紋理和場景原畫,極大提升美術(shù)生產(chǎn)效率,傳統(tǒng)人工繪制角色服飾紋理需2周,而AI生成加人工優(yōu)化僅需3天,顯著縮短開發(fā)周期。

·《逆水寒》AI美術(shù)應用不僅提高了生產(chǎn)效率,還降低了成本。AI工具能夠快速生成高質(zhì)量的美術(shù)資源,減少了對大量專業(yè)美術(shù)人員的依賴,降低了人力成本。同時,AI生成的資源可以快速迭代和優(yōu)化,進一步提高了美術(shù)資源的利用率和質(zhì)量。

②角色概念圖迭代過程

·AI生成角色概念圖從文字描述開始,生成多版草圖供美術(shù)師篩選,最終選定滿意方案,加速創(chuàng)意落地。這種迭代過程使美術(shù)師能快速探索不同設計方向,提高角色設計的多樣性和創(chuàng)新性。例如,美術(shù)師可以根據(jù)AI生成的草圖進行修改和優(yōu)化,快速調(diào)整角色的外觀和風格,以滿足游戲設計的需求。

·AI在角色概念圖迭代過程中還能夠提供豐富的創(chuàng)意靈感。通過分析大量的美術(shù)作品和數(shù)據(jù),AI可以生成具有獨特風格和創(chuàng)意的角色概念圖,為美術(shù)師提供更多的設計思路和參考。這有助于激發(fā)美術(shù)師的創(chuàng)造力,推動角色設計的創(chuàng)新和發(fā)展。

③游戲行業(yè)應用趨勢

·程序化生成與AI輔助的工業(yè)化管線成為游戲行業(yè)發(fā)展趨勢,提升美術(shù)資源生產(chǎn)效率和質(zhì)量。例如,通過AI生成基礎場景元素,再由美術(shù)師進行優(yōu)化和整合,實現(xiàn)高效且個性化的游戲美術(shù)制作。這種模式不僅提高了美術(shù)資源的生產(chǎn)效率,還能夠保證資源的質(zhì)量和一致性,為游戲開發(fā)提供了有力支持。

·游戲行業(yè)對AI技術(shù)的應用不僅局限于美術(shù)創(chuàng)作,還逐漸擴展到游戲設計、劇情生成、玩家行為分析等多個領域。AI技術(shù)的廣泛應用將推動游戲行業(yè)的智能化發(fā)展,為玩家?guī)砀迂S富和個性化的游戲體驗。例如,AI可以根據(jù)玩家的游戲行為和偏好,自動生成個性化的游戲劇情和任務,提高玩家的參與度和滿意度。

第12講廣告設計應用

二.廣告設計:AI助力創(chuàng)意升級

①可口可樂AIGC廣告案例

·可口可樂“Masterpiece”Campaign使用DALL·E生成數(shù)百版初稿,設計師篩選融合,提升創(chuàng)意效率。該廣告制作周期縮短60%,成本降低45%,AI為廣告設計帶來顯著效益。AI工具能夠快速生成大量的設計初稿,為設計師提供了更多的選擇和創(chuàng)意靈感,幫助設計師快速找到最佳的設計方案。

·AI在廣告設計中的應用還能夠提高廣告的吸引力和影響力。通過分析大量的廣告數(shù)據(jù)和用戶行為,AI可以生成符合目標受眾喜好的廣告內(nèi)容,提高廣告的點擊率和轉(zhuǎn)化率。例如,AI可以根據(jù)不同地區(qū)、不同年齡層次的受眾特點,生成個性化的廣告文案和圖像,使廣告更具針對性和吸引力。

②AI生成的超現(xiàn)實主義元素

·AI生成的超現(xiàn)實主義元素將古典畫風與現(xiàn)代產(chǎn)品巧妙結(jié)合,創(chuàng)造出獨特的視覺效果,吸引消費者關注。例如,將文藝復興時期的繪畫風格應用于現(xiàn)代產(chǎn)品廣告,形成強烈的視覺沖擊,提升廣告吸引力。這種獨特的視覺效果能夠吸引消費者的注意力,激發(fā)他們的購買欲望。

·AI生成的超現(xiàn)實主義元素不僅具有視覺沖擊力,還能夠傳達出獨特的品牌價值和文化內(nèi)涵。通過將古典藝術(shù)與現(xiàn)代產(chǎn)品相結(jié)合,廣告可以展現(xiàn)出品牌的深厚文化底蘊和創(chuàng)新精神,提升品牌的形象和競爭力。例如,可口可樂在廣告中融入古典畫風元素,不僅吸引了消費者的關注,還傳遞出品牌的歷史傳承和文化魅力。

③廣告行業(yè)新范式

·廣告行業(yè)出現(xiàn)創(chuàng)意總監(jiān)向AI提示詞工程師的角色轉(zhuǎn)變,提示詞設計成為關鍵技能,推動行業(yè)創(chuàng)新。設計師需掌握AI工具,通過精準提示詞引導AI生成符合創(chuàng)意需求的設計方案,提升廣告創(chuàng)意水平。這種角色轉(zhuǎn)變要求設計師具備更高的技術(shù)素養(yǎng)和創(chuàng)新能力,能夠熟練運用AI工具進行廣告設計。

·AI技術(shù)的應用還推動了廣告行業(yè)的工作流程變革。傳統(tǒng)的廣告設計流程需要經(jīng)過多個環(huán)節(jié)和大量的時間,而AI技術(shù)的應用可以實現(xiàn)快速設計和優(yōu)化,提高工作效率。例如,AI可以根據(jù)廣告主的需求快速生成廣告創(chuàng)意,設計師只需進行簡單的調(diào)整和優(yōu)化,即可完成廣告設計,大大縮短了設計周期。

第13講影視分鏡應用

三.影視分鏡:AI優(yōu)化制作流程

①NetflixAI工具測試

·Netflix測試AI工具RunwayML,將劇本段落轉(zhuǎn)化為分鏡畫面,實現(xiàn)從劇本到分鏡草圖的自動化流程。該工具通過文本理解生成基礎分鏡,為影視制作提供快速高效的前期方案,節(jié)省時間和人力成本。RunwayML能夠快速生成分鏡畫面,為導演和制片人提供直觀的視覺參考,幫助他們更好地規(guī)劃拍攝工作。

·AI工具在影視分鏡制作中的應用還能夠提高分鏡的質(zhì)量和準確性。通過分析大量的影視作品和劇本數(shù)據(jù),AI可以生成符合影視制作規(guī)范和藝術(shù)要求的分鏡畫面,為影視制作提供高質(zhì)量的前期方案。例如,AI可以根據(jù)劇本中的場景描述和鏡頭要求,自動生成詳細的分鏡畫面,包括鏡頭角度、鏡頭運動、畫面構(gòu)圖等,為拍攝提供詳細的指導。

②AI生成的動態(tài)分鏡

·AI生成的動態(tài)分鏡包含基礎運鏡提示,為導演和攝影師提供初步視覺參考,輔助拍攝規(guī)劃。例如,AI根據(jù)劇本描述生成帶有鏡頭運動軌跡的分鏡,幫助團隊提前預覽拍攝效果,優(yōu)化拍攝方案。動態(tài)分鏡能夠更加直觀地展示鏡頭的運動和變化,幫助導演和攝影師更好地理解和規(guī)劃拍攝工作。

·AI生成的動態(tài)分鏡還能夠提供實時的反饋和調(diào)整。在拍攝過程中,導演和攝影師可以根據(jù)實際拍攝情況進行調(diào)整和優(yōu)化,AI可以根據(jù)這些調(diào)整實時更新分鏡畫面,為拍攝提供更加準確的指導。這種實時反饋和調(diào)整功能能夠提高拍攝的效率和質(zhì)量,減少拍攝過程中的錯誤和失誤。

③局限性與人工把控

·盡管AI在分鏡生成方面取得進展,但鏡頭語言的專業(yè)性仍需人工把控,以確保影視作品的藝術(shù)效果和敘事連貫性。導演和攝影師需對AI生成的分鏡進行調(diào)整和優(yōu)化,融入專業(yè)創(chuàng)意和藝術(shù)理念,提升作品質(zhì)量。AI生成的分鏡雖然能夠提供基本的視覺參考,但無法完全替代人類的專業(yè)判斷和創(chuàng)意。

·AI在影視分鏡制作中的應用還需要考慮版權(quán)和法律問題。AI生成的分鏡畫面可能涉及到版權(quán)保護和知識產(chǎn)權(quán)問題,需要在使用過程中嚴格遵守相關法律法規(guī)。同時,AI生成的內(nèi)容需要經(jīng)過人工審核和修改,以確保其符合影視制作的規(guī)范和要求。

第14講倫理與法律挑戰(zhàn)

應用與倫理——倫理與法律挑戰(zhàn)

一.版權(quán)爭議

①訓練數(shù)據(jù)來源問題

·LAION-5B數(shù)據(jù)集包含未經(jīng)授權(quán)的Pinterest藝術(shù)家作品,引發(fā)版權(quán)爭議,凸顯數(shù)據(jù)來源合法性問題。藝術(shù)家集體訴訟案例,如SarahAndersen等訴StabilityAI案,促使行業(yè)重視數(shù)據(jù)使用規(guī)范。這些案例表明,AI訓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論