人工智能通識教程課件 ch08 圖像生成應用與實踐

上傳人：h*** IP屬地：山東上傳時間：2025-09-17 格式：PPTX 頁數(shù)：35 大?。?.90MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩30頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

圖像生成應用與實踐人工智能通識教程第八章+圖像生成的基礎認知01圖像生成的核心任務類型0102文本到圖像生成（Text-to-ImageGeneration）給定文本描述（如“一只在草原上奔跑的獅子”），模型需將文字語義轉化為匹配的視覺圖像。其技術核心是融合自然語言處理（NLP）與計算機視覺（CV）能力：文本編碼器先將描述轉化為特征向量，生成器再基于向量生成視覺內(nèi)容，既要保證圖像逼真度，又要精準還原文本細節(jié)（如“草原”的環(huán)境特征、“奔跑”的動態(tài)感）。無條件圖像生成（UnconditionalImageGeneration）與文本引導生成不同，該任務中的模型在無任何輸入提示時自主創(chuàng)作圖像，側重探索創(chuàng)造力與隨機性（如生成風格各異的抽象畫、無明確主題的風景等）。其技術難點在于平衡多樣性與質量—需在無外部約束下生成符合人類審美的內(nèi)容，考驗模型對色彩、構圖、紋理等視覺本質特征的深層理解。03圖像到圖像轉換（Image-to-ImageTranslation）該任務以原始圖像為輸入，實現(xiàn)風格遷移、內(nèi)容修改等轉換（如將普通風景轉為梵高畫風、給黑白照片上色）。與文本到圖像生成的核心差異在于，其輸入為圖像特征，模型需學習不同視覺風格/場景的映射關系，而非從文本語義起步。文生圖技術的核心組件與常見工具01核心組件及其協(xié)同工作流程?（1）文本編碼器文本編碼器作為系統(tǒng)的“語義理解與翻譯器”，是整個生成過程的起點，也是實現(xiàn)“文本語義精準轉化”的核心保障。它的核心功能是打破自然語言與機器語言的壁壘，將用戶輸入的自然語言描述（如“一只戴帽子的狗”）轉化為機器可理解的高維特征向量。在當前主流工具中，多采用對比語言-圖像預訓練模型承擔這一角色，該模型通過在海量圖文配對數(shù)據(jù)上進行大規(guī)模對比學習訓練，構建了文本與圖像特征的精準映射關系，能夠實現(xiàn)兩者在語義空間的高度對齊。文生圖技術的核心組件與常見工具01核心組件及其協(xié)同工作流程?（2）擴散模型擴散模型中的去噪網(wǎng)絡（通常采用U-Net結構）扮演著系統(tǒng)“核心生成引擎”的角色，是承接文本編碼器輸出條件信號并進行創(chuàng)造性轉換的關鍵環(huán)節(jié)，決定著生成內(nèi)容的創(chuàng)新性與準確性。它在低維潛在空間中執(zhí)行“去噪生成”的核心工作：以一段隨機噪聲為初始輸入，同時將文本編碼器提供的特征向量作為條件約束融入每一步迭代，通過數(shù)十至數(shù)百步的精細化操作—每一步都精準預測當前圖像中的噪聲成分并去除部分噪聲，逐步將無序的噪聲調整為符合文本描述的清晰潛在表示（即低維圖像特征）。（3）變分自編碼器（VAE）VAE解碼器則作為系統(tǒng)的“圖像渲染器”，處于生成鏈路的終點，是將抽象特征轉化為具象視覺成果的關鍵一環(huán)。文生圖技術的核心組件與常見工具02常見文生圖工具Midjourney是一款以高質量圖像生成能力著稱的文本到圖像生成工具，其技術核心基于先進的擴散模型（DiffusionModel）架構。它通過海量高質量圖像數(shù)據(jù)訓練，實現(xiàn)了從文本描述到視覺圖像的精準轉換。它的核心優(yōu)勢在于生成圖像的藝術表現(xiàn)力與風格多樣性，能夠覆蓋從超寫實攝影到抽象藝術的全風格光譜，滿足創(chuàng)意設計、藝術創(chuàng)作等場景的高階需求。?（1）MidjourneyStableDiffusion是開源文生圖工具的代表，其技術架構完全基于前文所述的“文本編碼→潛在空間擴散→圖像解碼”三階鏈路，采用對比語言-圖像預訓練模型作為文本編碼器實現(xiàn)語義轉換，以潛在擴散模型（LDM）為核心生成引擎，搭配VAE解碼器完成圖像渲染，開源特性使其成為技術研究與個性化定制的首選工具。相較于閉源工具，它的核心優(yōu)勢體現(xiàn)在靈活性與可擴展性上，支持用戶通過模型微調、插件開發(fā)實現(xiàn)功能定制，適合從個人創(chuàng)作到商業(yè)應用的全場景需求。（2）StableDiffusion

文生圖技術的核心組件與常見工具02常見文生圖工具文心一格是由百度推出的一款基于人工智能技術的圖片生成工具，旨在通過自然語言描述快速生成高質量的圖像或畫作。它以百度文心大模型為技術基礎，依托深度學習和海量藝術作品數(shù)據(jù)訓練，具備強大的跨模態(tài)生成能力—其核心模型ERNIE-ViLG是全球規(guī)模領先的中文跨模態(tài)生成模型（參數(shù)規(guī)模達100億個），首次通過自回歸算法將圖像生成與文本生成統(tǒng)一建模，大幅增強了跨模態(tài)創(chuàng)作的精準度。（3）文心一格和百度畫一畫+使用文生圖工具創(chuàng)建圖像02線上文生圖工具—百度畫一畫當需要一個插圖、創(chuàng)意圖片的時候，百度畫一畫是最方便的工具?？梢酝ㄟ^兩種方式進入百度畫一畫：一種是通過百度圖片搜索頁面上的“圖片創(chuàng)作”鏈接進入，此時界面會顯示一組“太空朋克女孩”的創(chuàng)作樣板圖片，如圖8-5所示；另一種是直接輸入百度畫一畫的網(wǎng)址進入，此時打開的界面里沒有案例圖片，如圖8-6所示。進入百度畫一畫后，可以看到其界面布局十分清晰。左側為AI生圖展示區(qū)，默認一次生成4?張圖像；右側從上到下依次為提示詞輸入?yún)^(qū)、創(chuàng)作模型、清晰度（標清/高清）、創(chuàng)作風格（智能推薦/二次元/水彩畫風等）及畫面比例，整體操作簡潔易用。若對提示詞輸入不熟悉，百度畫一畫提供“咒語書”功能輔助創(chuàng)作。點擊“咒語書”選項，打開“全部描述詞”對話框，可查看人物、動物、物品等分類的關鍵描述詞，如圖8-7所示，可根據(jù)需要選擇所需詞匯。此外，系統(tǒng)還提供“幫我潤色”功能對提示詞進行優(yōu)化，提升生成效果與文本的匹配度。線上文生圖工具—百度畫一畫【實踐任務一】繪制中秋節(jié)招貼畫。要求：畫面包含中秋節(jié)主要元素，體現(xiàn)中國特色人文氛圍與節(jié)日特色，畫面比例為1∶1。生成結果如圖8-8所示。線上文生圖工具—百度畫一畫【實踐任務二】繪制江南水鄉(xiāng)風景畫。要求：水墨畫風格，畫面比例為4∶3。生成結果如圖8-9所示。線上文生圖工具—百度畫一畫【實踐任務三】繪制科幻畫。要求：寫實風格，畫面比例為4∶3。生成結果如圖8-10所示。線上人工智能繪圖平臺—哩布哩布AI01模型選擇：零門檻調用優(yōu)質資源平臺內(nèi)置按風格、功能分類的模型庫，涵蓋寫實、二次元、國風等主流基礎模型，以及角色、場景、藝術風格類LoRA模型。用戶無須手動下載或配置文件，在生圖界面的“模型設置”面板中即可完成操作。基礎模型是圖像生成的“基底風格”，用戶可直接勾選目標風格模型，比如SDXL1.0寫實模型或AnimeDiffusion二次元模型，不同基礎模型對應不同創(chuàng)作場景，例如SD3.0適合高精度寫實，F(xiàn)lux.1擅長快速生成創(chuàng)意草圖。在輔助模型方面，通過“VAE適配”功能可自動匹配當前基礎模型的最優(yōu)VAE解碼器，比如寫實模型搭配“PhotorealVAE”優(yōu)化膚色質感，用戶也可手動選擇第三方VAE調整畫面色彩飽和度與細節(jié)銳度，但需注意VAE需與基礎模型風格匹配，避免因跨類型混用導致畫面失真。LoRA模型則在“微調模型”欄加載，比如“國風服飾”“賽博朋克場景”等，加載后可通過滑塊調節(jié)其對生成結果的影響權重（范圍在0~1之間），權重越高，LoRA特征（如服飾紋樣、場景氛圍）越突出，建議新手從0.5~0.7權重開始測試。線上人工智能繪圖平臺—哩布哩布AI02特色功能：在線定制專屬LoRA模型哩布哩布AI的核心優(yōu)勢之一是支持輕量化在線訓練LoRA模型（見圖8-11），無須本地高性能顯卡即可實現(xiàn)個性化創(chuàng)作。在訓練流程上，用戶需上傳15～20張以上的目標素材，比如特定人物、產(chǎn)品或風格圖片，且需保證素材清晰度一致、光線統(tǒng)一。訓練LoRA模型時，素材質量直接影響效果：需保證素材主體清晰、光線一致（避免強光/逆光混雜），背景簡單（減少無關干擾）。例如訓練人物LoRA模型時，應包含正面、側面、不同姿態(tài)的照片，避免全是同一角度；訓練風格LoRA模型時，需保證80%以上素材符合目標風格（如“國風”需包含傳統(tǒng)服飾、古建筑等元素）。線上人工智能繪圖平臺—哩布哩布AI03提示詞與控制：平臺化的交互設計（1）提示詞輸入與優(yōu)化界面采用雙欄設計，清晰區(qū)分“正向提示詞”（描述希望出現(xiàn)的內(nèi)容）和“反向提示詞”（描述希望避免的內(nèi)容）。例如生成“國風少女”時，正向提示詞可輸入“Chinesestylegirl,hanfu,cherryblossombackground,softlight,8K”，反向提示詞可輸入“blurry,deformed,lowres,text”。平臺支持中英文輸入，其中英文提示詞對模型的細節(jié)解析更精準?！爸湔Z書”功能是新手的實用工具，點擊按鈕可打開關鍵詞庫，內(nèi)置“人物特征”（如“精致五官”“長發(fā)飄逸”）、“環(huán)境場景”（如“星空夜景”“古風庭院”）、“畫風質感”（如“水彩風格”“超寫實紋理”）等分類的大量優(yōu)質關鍵詞，用戶只需點擊即可添加，極大降低了“寫不出關鍵詞”的學習成本。輸入提示詞后，還可通過“一鍵潤色”功能對文本進行自動優(yōu)化，例如將“好看的貓”優(yōu)化為“acutecatwithfluffyfur,brighteyes,softlighting,highdetail”，使其更符合模型的理解習慣，從而提高生成質量與文本的匹配度。線上人工智能繪圖平臺—哩布哩布AI03提示詞與控制：平臺化的交互設計（2）參數(shù)調節(jié)：圖形化滑塊核心生成參數(shù)均采用圖形化滑塊設計，直觀易懂。采樣步數(shù)（Steps）通常設置在20～30步即可在質量和速度間取得良好平衡。無分類引導尺度（CFGScale，即引導系數(shù)）控制生成結果對提示詞的遵從程度，推薦值范圍為7~10，值過低則模型自由發(fā)揮易偏離需求，值過高則圖像僵硬、色彩過飽和。生成數(shù)量（BatchCount）決定單次任務產(chǎn)生的圖片數(shù)量，可用于快速“抽卡”篩選創(chuàng)意，不過受免費額度限制，建議新手單次生成2～4張以平衡效率與資源。提示詞權重（PromptWeighting）是精細控制生圖效果的核心功能，平臺通過格式提示簡化了權重調節(jié)邏輯：未用特殊格式時，提示詞權重受位置影響，句首最高、句尾次之、句中較低，且數(shù)量過多時模型可能自動忽略部分中間位置的提示詞。若需精準控制，可通過“（關鍵詞：權重值）”格式設置，例如“(hanfudetails:1.2)”表示強化漢服細節(jié)，“(background:0.7)”表示弱化背景復雜度，權重值默認為1.0，范圍可調整為0.1～2.0。實際應用中，若想生成“戴紅色帽子的白貓”且突出帽子顏色，可寫“awhitecatwith(redhat:1.3)”；若想弱化背景干擾，可寫“awhitecat,(background:0.5)”。需注意，權重過高（如超過1.5）可能導致畫面局部過度突出，建議新手優(yōu)先通過位置調整（核心詞放句首）配合輕度權重強化（1.1～1.3）。線上人工智能繪圖平臺—哩布哩布AI03提示詞與控制：平臺化的交互設計（3）預設樣式保存用戶可將當前調試滿意的提示詞、模型組合（如“SDXL+國風LoRA”）和參數(shù)配置保存為自定義預設（見圖8-12），下次需要生成類似風格的圖像時直接調用。這一功能尤其適合需要批量生成同風格內(nèi)容的場景，如電商商品圖、系列插畫，能有效減少重復調試成本。圖?8-12哩布哩布AI在線生圖的預設樣式存儲操作按鈕線上人工智能繪圖平臺—哩布哩布AI04高級功能與輸出設置（1）（2）高分辨率修復(Hires.fix)這是生成高清大圖的推薦工作流，作用是先以低分辨率快速生成一張構圖良好的圖片，再對其進行放大和細節(jié)重塑，避免直接生成高分辨率圖像時可能出現(xiàn)的肢體畸形、畫面混亂等問題。面部修復（FaceRestoration）這是一個簡單的復選框功能，對于生成的人物肖像，啟用后會自動嘗試修復因分辨率過低導致的面部模糊或畸形問題，尤其對寫實風格圖像效果顯著，不過二次元風格可按需關閉，避免過度修復丟失畫風。（3）平鋪圖（Tiling）啟用此功能可生成無縫紋理貼圖，輸出圖像的上下左右邊緣均可完美拼接，適用于紡織品圖案、網(wǎng)頁背景、游戲紋理等設計場景，除設計場景外，還可用于生成無縫表情包邊框、重復圖案的手機殼圖案等。線上人工智能繪圖平臺—哩布哩布AI05哩布哩布AI操作方法與實踐步驟1：選擇與配置模型模型是生成圖像風格與質量的基礎，需根據(jù)目標風格（如毛絨玩具）匹配對應的模型組合。①進入模型廣場。②搜索目標LoRA模型。③收藏與加載模型。④配置基礎模型。⑤應用LoRA模型。線上人工智能繪圖平臺—哩布哩布AI05哩布哩布AI操作方法與實踐步驟2：輸入文本提示詞提示詞是指導AI生成的核心指令，直接決定畫面內(nèi)容、風格與細節(jié)，需精準描述目標元素。在工作界面的“正向提示詞”和“反向提示詞”輸入框中分別填寫正向和反向提示詞，如圖8-15所示。正向提示詞（描述希望生成的內(nèi)容）：反向提示詞（描述希望避免的內(nèi)容）：此外，平臺支持“翻譯為英文”按鈕，可將中文提示詞自動轉換為英文。由于多數(shù)模型對英文指令的理解更精準，建議優(yōu)先使用英文或通過翻譯功能優(yōu)化提示詞。線上人工智能繪圖平臺—哩布哩布AI05哩布哩布AI操作方法與實踐步驟3：調整生成參數(shù)合理的參數(shù)配置能平衡生成質量、速度與風格還原度，新手可參考以下推薦參數(shù)，如表8-1所示。設置“生圖”區(qū)參數(shù)，其效果如圖8-16所示。線上人工智能繪圖平臺—哩布哩布AI05哩布哩布AI操作方法與實踐步驟4：生成與優(yōu)化圖像完成模型、提示詞和參數(shù)配置后，即可啟動生成并根據(jù)結果進行迭代優(yōu)化。①啟動生成。②結果評估與優(yōu)化。步驟5：預設保存與復用（高效創(chuàng)作技巧，進階功能）若本次參數(shù)組合生成效果理想，可通過“預設保存”功能避免重復調試，尤其適合批量生成同風格內(nèi)容（如系列毛絨玩具圖、品牌標準化圖像）。①保存預設。②預設復用。③批量生成。④社區(qū)參考。+圖像編輯與修復技術03圖像編輯技術在圖像編輯中，人工智能技術能幫助用戶快速實現(xiàn)多種效果，背景替換便是典型應用。傳統(tǒng)方法需手動選擇和摳圖，而基于人工智能的工具可通過模型自動識別主體與背景，實現(xiàn)無縫替換。例如，AdobePhotoshop2024及以上版本的“選擇主體”功能，能依托深度學習技術快速準確地分離主體與背景，如圖8-17所示。1.背景替換（BackgroundReplacement）另一常見的圖像編輯任務是圖像風格轉換。通過訓練模型學習不同風格的映射關系，用戶可將普通照片轉換為梵高風格等不同藝術效果（注：黑白照片上色屬于色彩修復，與風格轉換同屬圖像編輯但技術路徑不同）。2.圖像風格轉換（ImageStyleTransfer）圖像修復技術在圖像修復領域，人工智能技術同樣取得顯著進展。當照片存在劃痕、污漬或缺失部分時，傳統(tǒng)方法需手動修復，而?AI?修復工具能通過模型自動填補缺失內(nèi)容，這種技術被稱為圖像修復技術。百度AI圖片助手提供的“AI去水印”、“涂抹消除”及“老照片修復”等功能，均依托于上述先進的圖像修復技術。其實際修復效果顯著，能夠有效清除瑕疵、填補缺失，使老舊或受損的照片煥然一新。使用百度AI“老照片修復”功能修復老照片，修復前后對比圖，如圖8-20所示。圖像編輯與修復技術實踐01電商商品圖的制作（1）商品原圖準備首先用手機、照相機等設備拍攝一幅商品圖片，如圖8-21所示。（2）上傳圖片到“百度?AI?圖片助手”打開“百度?AI?圖片助手”網(wǎng)址，點擊“圖片編輯”鏈接，進入后上傳準備好的圖片，其工作界面如圖?8-22?所示。圖像編輯與修復技術實踐02老照片修復練習（1）打開“百度AI圖片助手”，上傳需要修復的老照片。（2）單擊“AI去水印”按鈕，用適當大小的畫筆涂抹照片中的污損部分（注意盡量保留原圖細節(jié)），如圖8-25所示，點擊“立即生成”按鈕。（3）觀察生成的結果，如果還有污損，繼續(xù)重復步驟（2）的操作，直到滿意。（4）進行“AI重繪”以增強效果：點擊“AI重繪”按鈕，將重繪程度調至最低（注：重繪程度過高可能導致結果偏離原圖），點擊“立即生成”按鈕，人工智能會在修復基礎上優(yōu)化畫面細節(jié)，如圖8-26所示。放大后可觀察到臉部細節(jié)更細膩。若需進一步提升畫質，可使用“變清晰”功能；若圖像分辨率已達人工智能處理上限，則會提示無法繼續(xù)操作。+圖像生成中的版權問題與治理04圖像生成中的版權問題01風格模仿侵權：視覺特征的實質性相似若人工智能生成圖像在筆觸（如某畫家的標志性點彩技法）、構圖邏輯（如某電影海報的人物站位與光影對比）、核心視覺符號（如某品牌Logo的圖形設計）上與版權作品高度重合，即便未直接復制內(nèi)容，仍可能構成侵權。（1）風險場景在人工智能圖像生成的相關判定中，用戶對生成過程的獨創(chuàng)性投入是關鍵邊界之一。（2）判定邊界圖像生成中的版權問題02訓練數(shù)據(jù)版權爭議：視覺特征的未授權提取模型通過學習版權圖像的像素分布、色彩搭配、物體形態(tài)等視覺特征形成生成能力。（1）爭議核心目前對“視覺特征提取是否侵權”存在分歧—模型方主張學習的是“通用視覺規(guī)律”（如“天空通常為藍色”），而創(chuàng)作者認為，未經(jīng)授權使用其獨特構圖、光影等智力成果，實質是“免費占用創(chuàng)作價值”。（2）行業(yè)困境03權利歸屬的實操原則針對圖像生成的特殊性，權利歸屬判定需緊扣“視覺獨創(chuàng)性”。若用戶通過精細化提示詞（如“將水墨畫風格與賽博朋克融合，添加機械仙鶴元素”）、二次編輯（如局部調整色彩、重構背景）賦予圖像獨特視覺表達，則用戶通常為權利主體；若僅依賴模型默認風格生成（如直接輸入“風景”且未做調整），因缺乏獨創(chuàng)性，可能無法獲得版權保護，且需承擔風格模仿的侵權風險。深度偽造圖像的傳播風險01視覺逼真性導致的識別門檻提高深度偽造圖像通過像素級細節(jié)模擬（如場景光影的自然過渡、物體紋理的精細還原），可精準復刻真實圖像的視覺特征。02視覺逼真性導致的識別門檻提高圖像作為“直觀證據(jù)”的傳統(tǒng)認知，使得深度偽造內(nèi)容易借助社交網(wǎng)絡的“信任背書”擴散：若虛假圖像由具有一定影響力的賬號發(fā)布（如偽裝成“權威媒體”“知情人士”），其傳播速度與范圍將顯著擴大；熟人圈層的轉發(fā)行為會進一步降低受眾的警惕性，例如偽造的“名人不當行為”照片經(jīng)親友轉發(fā)后，更易引發(fā)負

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能通識教程課件 ch08 圖像生成應用與實踐

文檔簡介

溫馨提示

最新文檔

評論

人工智能通識教程 課件 ch08 圖像生成應用與實踐

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

人工智能通識教程課件 ch08 圖像生成應用與實踐