人工智能基礎(chǔ) 課件第8章 AI輔助影音處理

上傳人：h*** IP屬地：山東上傳時(shí)間：2025-10-21 格式：PPTX 頁(yè)數(shù)：25 大?。?.16MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩20頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第8章AI輔助影音處理學(xué)習(xí)目標(biāo)掌握使用常見AI工具進(jìn)行基礎(chǔ)的圖片生成、音頻處理和視頻創(chuàng)作的操作。理解圖片生成、音頻處理和視頻創(chuàng)作的技術(shù)邏輯及關(guān)鍵步驟。了解AI輔助影音處理技術(shù)在影視制作、廣告創(chuàng)意、教育等領(lǐng)域的典型應(yīng)用案例。content目錄AI輔助影音處理概述0102AI輔助圖片生成03AI輔助圖片處理04AI輔助音頻處理05AI輔助視頻創(chuàng)作AI輔助影音處理概述011.1AI輔助影音處理技術(shù)簡(jiǎn)介

1．圖片生成與處理技術(shù)

圖片生成與處理技術(shù)的核心目標(biāo)是利用人工智能生成或優(yōu)化視覺內(nèi)容。這一技術(shù)包括兩個(gè)主要方面：圖片生成和圖像處理。

圖像生成是指通過算法從零開始生成一張全新的圖片，圖像處理則是對(duì)已有圖片進(jìn)行修改或增強(qiáng)，圖像處理技術(shù)還包括風(fēng)格遷移、圖像修復(fù)和超分辨率增強(qiáng)等。風(fēng)格遷移技術(shù)可以將普通照片轉(zhuǎn)換為特定藝術(shù)風(fēng)格的作品，圖像修復(fù)技術(shù)則能夠去除劃痕、修復(fù)破損照片，使其煥然一新。

這些技術(shù)廣泛應(yīng)用于影視特效、廣告設(shè)計(jì)和虛擬現(xiàn)實(shí)等領(lǐng)域。1.1AI輔助影音處理技術(shù)簡(jiǎn)介

2．音頻合成與處理技術(shù)

音頻合成與處理技術(shù)的核心目標(biāo)是生成自然語(yǔ)音或音樂，并對(duì)音頻進(jìn)行編輯和優(yōu)化。這一技術(shù)不僅包括文本到語(yǔ)音的生成，還涵蓋語(yǔ)音轉(zhuǎn)文字的技術(shù)應(yīng)用。

文本到語(yǔ)音是音頻合成中最常見的技術(shù)之一，它通過深度學(xué)習(xí)模型將文本轉(zhuǎn)化為語(yǔ)音；語(yǔ)音轉(zhuǎn)文字技術(shù)是一種將語(yǔ)音信號(hào)轉(zhuǎn)換為可讀文本的技術(shù)，廣泛應(yīng)用于語(yǔ)音識(shí)別、會(huì)議記錄、字幕生成等領(lǐng)域。

除了音頻合成，AI還可以用于音樂創(chuàng)作，例如通過分析旋律和節(jié)奏生成新的樂曲片段。音頻處理技術(shù)則包括降噪、混響調(diào)整和音效添加等，這些技術(shù)可以幫助用戶提高音頻質(zhì)量，提升聽覺體驗(yàn)。音頻合成與處理技術(shù)在虛擬助手、有聲讀物、游戲配音和音樂制作等領(lǐng)域具有廣泛應(yīng)用。1.1AI輔助影音處理技術(shù)簡(jiǎn)介

3．視頻生成與編輯技術(shù)視頻生成與編輯技術(shù)是AI輔助影音處理技術(shù)的另一個(gè)重要分支，其核心目標(biāo)是利用文本或其他輸入形式生成動(dòng)態(tài)畫面，并對(duì)其進(jìn)行剪輯和優(yōu)化。文本到視頻技術(shù)允許用戶通過輸入文本描述直接生成動(dòng)態(tài)畫面，大大降低了視頻制作的門檻。此外，AI還能夠通過動(dòng)作捕捉技術(shù)生成虛擬角色的動(dòng)作軌跡，從而實(shí)現(xiàn)高度真實(shí)的動(dòng)畫效果。視頻編輯技術(shù)則包括轉(zhuǎn)場(chǎng)效果、字幕添加和濾鏡應(yīng)用等，這些技術(shù)可以幫助用戶提升視頻的專業(yè)性和觀賞性。視頻生成與編輯技術(shù)在影視制作、廣告創(chuàng)意和教育視頻等領(lǐng)域具有廣泛的應(yīng)用場(chǎng)景。1.2AI在影音處理領(lǐng)域的應(yīng)用現(xiàn)狀

1）影視制作AI在影視制作中的應(yīng)用主要體現(xiàn)在特效生成、虛擬角色創(chuàng)建和場(chǎng)景建模等方面，顯著提升了制作效率和視覺效果

2）廣告創(chuàng)意

廣告行業(yè)對(duì)內(nèi)容生產(chǎn)的速度和質(zhì)量要求極高，AI在廣告創(chuàng)意中的應(yīng)用主要體現(xiàn)在自動(dòng)化生成內(nèi)容和個(gè)性化推薦兩個(gè)方面。AI可以通過文本到圖像、文本到視頻等技術(shù)快速生成高質(zhì)量的圖片、音頻和視頻作為廣告素材。3）教育與虛擬現(xiàn)實(shí)AI在教育領(lǐng)域的應(yīng)用主要集中在教學(xué)資源生成和沉浸式學(xué)習(xí)環(huán)境的創(chuàng)建上，為學(xué)生提供了更豐富、互動(dòng)性更高的學(xué)習(xí)體驗(yàn)。4）其他領(lǐng)域AI輔助影音處理技術(shù)還在游戲開發(fā)、醫(yī)療、音樂、新聞報(bào)道等領(lǐng)域發(fā)揮著重要作用AI輔助圖片生成與處理022.1圖片生成方式

主題挖掘熱點(diǎn)事件趨勢(shì)分析情緒分析信息分布1．文生圖

文生圖是AIGC圖片生成中最常見的形式之一，其核心目標(biāo)是通過輸入自然語(yǔ)言描述（Prompt）生成對(duì)應(yīng)的圖像。2．圖生圖圖生圖是指基于現(xiàn)有圖像生成新的圖像或?qū)D像進(jìn)行編輯，是一種更注重圖像處理的圖片生成方式。3．視頻幀生成

視頻幀生成是從視頻中提取關(guān)鍵幀或生成連續(xù)動(dòng)態(tài)畫面的一種技術(shù)方式。4．?dāng)?shù)據(jù)驅(qū)動(dòng)生成數(shù)據(jù)驅(qū)動(dòng)生成是一種基于大規(guī)模數(shù)據(jù)集訓(xùn)練模型，生成符合特定分布圖像的方式。

5．交互式生成交互式生成允許用戶通過與系統(tǒng)的實(shí)時(shí)交互逐步生成或優(yōu)化圖像，是一種更加靈活的生成方式。

2.2圖片生成工具

2.3圖片生成實(shí)操

1登錄可靈大模型官網(wǎng)：/，本案例以Web端體驗(yàn)為例展開，注冊(cè)賬號(hào)后登錄，可以看到界面如圖所示，選擇“AI圖片”。2輸入提示詞。在“創(chuàng)意描述”模塊中輸入任意文本，平臺(tái)目前支持中/英文輸入，但是需要注意將字?jǐn)?shù)限制在500字以內(nèi)。下圖中展示的創(chuàng)意描述為單擊“萌寵”后自動(dòng)生成的文字。2.3圖片生成實(shí)操

3參數(shù)設(shè)置：在使用文本生成圖片的過程中，可以使用“墊圖”功能。墊圖功能是指在文生圖的基礎(chǔ)上上傳參考圖作為新增參數(shù)，最終生成與參考圖內(nèi)容相關(guān)的圖片結(jié)果。單擊“上傳參考考圖”按鈕即可從本地或者平臺(tái)歷史生成結(jié)果中選取圖片。此外，在“參數(shù)設(shè)置”模塊中可以靈活設(shè)置生成圖片的尺寸和數(shù)量。平臺(tái)目前支持8種圖片尺寸，一次最多可以生成9張圖片。參數(shù)設(shè)置界面如右圖所示。2.3圖片生成實(shí)操

4生成與保存。單擊“立即生成”按鈕，等待工具完成圖像生成，本例生成圖像如圖8-4所示。生成完成后，將圖像保存到本地并進(jìn)行后期處理。還可以對(duì)生成圖像進(jìn)行反饋或二次創(chuàng)作，比如可以通過“贊”或“踩”表示對(duì)本次生成結(jié)果的反饋；“墊圖”表示可以將該生成結(jié)果用作參考圖；“生成視頻”則可以將生成結(jié)果轉(zhuǎn)換成視頻。AI輔助圖片處理033.1風(fēng)格遷移

騰訊元寶是一款基于騰訊自研混元大模型的多模態(tài)AI助手，強(qiáng)大的AI畫圖功能是其亮點(diǎn)之一。在圖像處理方面，騰訊元寶支持多種藝術(shù)風(fēng)格圖像的生成，包括寫實(shí)、卡通、抽象、印象派等。用戶可以通過指定風(fēng)格參數(shù)或直接在描述中加入風(fēng)格要求（如“梵高風(fēng)格的星空”）獲得符合預(yù)期的藝術(shù)作品。右圖展示了騰訊元寶的“梵高星空”風(fēng)格遷移效果，其原始圖片為上一頁(yè)P(yáng)PT圖中的右下圖。3.1風(fēng)格遷移

通義萬(wàn)相作為阿里巴巴通義實(shí)驗(yàn)室推出的AI圖像生成工具，不僅支持從文本描述生成圖像，還提供了許多高級(jí)圖像處理功能，如相似圖生成和風(fēng)格遷移。通過風(fēng)格遷移功能，用戶可以將自己的照片或設(shè)計(jì)稿轉(zhuǎn)換成特定的藝術(shù)風(fēng)格，例如梵高、莫奈的印象派畫風(fēng)，甚至是現(xiàn)代抽象藝術(shù)。下圖展示了通義萬(wàn)相圖像風(fēng)格遷移功能的應(yīng)用效果，圖中左側(cè)兩張圖分別為風(fēng)格圖及原圖，右側(cè)四張圖為風(fēng)格遷移后的效果。3.2圖像修復(fù)技術(shù)

騰訊ARC（AIRepairCenter，人工智能修復(fù)中心）是騰訊公司推出的一項(xiàng)基于人工智能技術(shù)的圖像修復(fù)解決方案。騰訊ARC旨在通過深度學(xué)習(xí)和計(jì)算機(jī)視覺算法對(duì)受損、模糊或低質(zhì)量的圖像和視頻進(jìn)行高質(zhì)量的修復(fù)和增強(qiáng)，從而恢復(fù)其原始細(xì)節(jié)或提升視覺效果。作為騰訊在數(shù)字內(nèi)容處理領(lǐng)域的重要布局之一，騰訊ARC廣泛應(yīng)用于老照片修復(fù)、影視資料修復(fù)、文化遺產(chǎn)保護(hù)以及數(shù)字娛樂等多個(gè)場(chǎng)景。用戶可以直接訪問ARC網(wǎng)頁(yè)端或微信小程序使用人像修復(fù)、人像摳圖等功能。右圖所示為騰訊ARC人像修復(fù)前后效果對(duì)比。AI輔助音頻處理044.1音頻處理工具介紹

1．訊飛聽見訊飛聽見是由科大訊飛推出的一款專注于語(yǔ)音轉(zhuǎn)文字和音視頻處理的智能工具，提供免費(fèi)在線錄音轉(zhuǎn)文字、語(yǔ)音轉(zhuǎn)文字、錄音整理等功能。訊飛聽見以其高精度的語(yǔ)音識(shí)別技術(shù)和豐富的應(yīng)用場(chǎng)景而聞名，作為國(guó)內(nèi)語(yǔ)音技術(shù)領(lǐng)域的領(lǐng)先品牌，訊飛聽見廣泛應(yīng)用于會(huì)議記錄、課堂筆記、采訪整理等多個(gè)場(chǎng)景，深受職場(chǎng)人士、學(xué)生及媒體從業(yè)者的青睞。2．通義聽悟通義聽悟是阿里云推出的一款專注于音視頻內(nèi)容處理的AI工具，旨在通過先進(jìn)的語(yǔ)音識(shí)別、自然語(yǔ)言處理以及多模態(tài)模型技術(shù)，為用戶提供高效、智能的音視頻內(nèi)容管理解決方案。作為通義家族的一員，依托通義千問大語(yǔ)言模型和音視頻AI模型能力，通義聽悟不僅能夠?qū)崿F(xiàn)音視頻內(nèi)容的精準(zhǔn)轉(zhuǎn)寫，還具備強(qiáng)大的信息提煉與分析功能，幫助用戶從海量音視頻數(shù)據(jù)中挖掘價(jià)值。4.2音頻處理實(shí)操

例【8-2】使用通義聽悟進(jìn)行課堂筆記整理。（1）錄音轉(zhuǎn)文字：用戶在課上打開手機(jī)中的通義聽悟應(yīng)用，開始錄制教師的講課內(nèi)容。下課后，將錄音上傳至通義聽悟云端進(jìn)行自動(dòng)轉(zhuǎn)寫。（2）生成摘要：通義聽悟會(huì)自動(dòng)生成一份詳細(xì)的課堂筆記，并提供全文概要。（3）關(guān)鍵詞提?。合到y(tǒng)還會(huì)自動(dòng)提煉出本次課程的關(guān)鍵術(shù)語(yǔ)和技術(shù)點(diǎn)，便于復(fù)習(xí)時(shí)查找相關(guān)信息。（4）編輯與分享：用戶可以對(duì)生成的文稿進(jìn)行簡(jiǎn)單的編輯，去除冗余信息，然后導(dǎo)出為PDF格式與其他人共享。

通過上述方式，用戶不僅可以節(jié)省大量的手寫筆記時(shí)間，而且能夠更加專注于課堂討論和互動(dòng)。此外，生成的結(jié)構(gòu)化筆記也更便于用戶復(fù)習(xí)復(fù)雜的理論知識(shí)。【例8-3】使用通義聽悟進(jìn)行學(xué)術(shù)資料整理。（1）錄制講座：對(duì)于一些重要的線上或線下學(xué)術(shù)講座，同樣可以選擇用通義聽悟記錄整個(gè)過程。（2）批量轉(zhuǎn)寫：錄制完成后將所有相關(guān)音頻文件上傳至平臺(tái)，一次性完成多段音視頻的轉(zhuǎn)寫工作。（3）智能檢索：利用通義聽悟內(nèi)置的強(qiáng)大搜索功能，用戶可以根據(jù)特定主題快速定位到相關(guān)的講座片段及其對(duì)應(yīng)的文本內(nèi)容。（4）PPT總結(jié)：如果講座中包含PPT展示，通義聽悟還能識(shí)別并提取其中的重要信息，生成簡(jiǎn)化的PPT文檔供后續(xù)使用。

上述方法可以提高用戶處理海量學(xué)術(shù)資料的能力及效率，使其能夠在較短時(shí)間內(nèi)掌握大量專業(yè)知識(shí)，同時(shí)也能培養(yǎng)其信息篩選能力和批判性思維。AI輔助視頻創(chuàng)作055.1視頻創(chuàng)作工具

1．度加

度加是百度公司推出的一款A(yù)I驅(qū)動(dòng)的視頻創(chuàng)作工具，專注于短視頻制作與內(nèi)容優(yōu)化。

2．剪映

剪映由字節(jié)跳動(dòng)開發(fā)，是一款面向大眾的全能型視頻編輯軟件，分為移動(dòng)端與桌面端版本，該工具以操作簡(jiǎn)易、模板豐富著稱。3．清影清影是一款輕量級(jí)在線視頻編輯工具，主打便捷性與協(xié)作性。用戶無(wú)須下載客戶端即可通過瀏覽器完成基礎(chǔ)剪輯、字幕添加、畫面裁剪等操作。4．騰訊智影騰訊智影是騰訊云推出的智能化視頻生產(chǎn)平臺(tái)，深度融合AI技術(shù)與云端協(xié)作能力，其核心優(yōu)勢(shì)體現(xiàn)在智能配音、數(shù)字人播報(bào)、AI繪畫生成等創(chuàng)新功能上。5.2視頻創(chuàng)作實(shí)操：使用豆包+度加為河南文旅制作一個(gè)短視頻。

（1）文案創(chuàng)作：在豆包對(duì)話框中輸入提示詞“請(qǐng)你現(xiàn)在扮演短視頻文案專家，幫忙撰寫一篇爆款短視頻文案，文案內(nèi)容介紹河南5個(gè)著名旅游景點(diǎn)，讓讀者看過就有去河南旅游的沖動(dòng)，字?jǐn)?shù)在500字左右，其中一個(gè)景點(diǎn)為嵩山少林寺，請(qǐng)以爆款短視頻文案的格式輸出。”豆包輸出方案如下圖所示。

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能基礎(chǔ) 課件第8章 AI輔助影音處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工智能基礎(chǔ) 課件 第8章 AI輔助影音處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

人工智能基礎(chǔ) 課件第8章 AI輔助影音處理