版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《人工智能基礎(chǔ)與應(yīng)用》課程教案課題:培養(yǎng)具備AI素養(yǎng)的技術(shù)技能人才教學(xué)目的:了解AI的定義、術(shù)語(yǔ)和分類。掌握AI的技術(shù)架構(gòu)及其主要組成部分。理解機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和知識(shí)圖譜等關(guān)鍵技術(shù)的基本原理和應(yīng)用。熟悉常用的AI大模型,如盤古大模型、豆包大模型、訊飛星火認(rèn)知大模型、文心大模型和DeepSeek大模型。認(rèn)識(shí)AI的發(fā)展歷程,以及我國(guó)在AI領(lǐng)域的發(fā)展現(xiàn)狀。了解AI倫理治理的基本概念和重要性。課型:新授課課時(shí):本章安排8個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):掌握AI的技術(shù)架構(gòu)及其主要組成部分。教學(xué)難點(diǎn):難點(diǎn):認(rèn)識(shí)AI的發(fā)展歷程,以及我國(guó)在AI領(lǐng)域的發(fā)展現(xiàn)狀。教學(xué)過(guò)程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題培養(yǎng)具備AI素養(yǎng)的技術(shù)技能人才課次4授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排8學(xué)分共2分授課對(duì)象普通高等院校學(xué)生任課教師教材及參考資料1.《人工智能基礎(chǔ)與應(yīng)用》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入在AI技術(shù)飛速發(fā)展的今天,教育領(lǐng)域正經(jīng)歷著前所未有的變革。面對(duì)這一挑戰(zhàn)與機(jī)遇并存的時(shí)代,我們的使命是激發(fā)學(xué)生的潛能,培養(yǎng)他們解決問(wèn)題的能力,塑造具有創(chuàng)新精神和責(zé)任感的新一代。為實(shí)現(xiàn)這一目標(biāo),我們需要培養(yǎng)學(xué)生具備AI素養(yǎng)、創(chuàng)造力、適應(yīng)力、倫理意識(shí)、批判性思維、情緒智力和社交技能等多方面的能力。通過(guò)學(xué)習(xí)必要的知識(shí)和技能,希望學(xué)生能夠靈活應(yīng)對(duì)未來(lái)社會(huì)和職場(chǎng)的變化,同時(shí)實(shí)現(xiàn)個(gè)人成長(zhǎng)和社會(huì)發(fā)展的雙重目標(biāo)。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式任務(wù)1.1認(rèn)識(shí)AI隨著科技的發(fā)展,AI已經(jīng)從科幻小說(shuō)走入我們的日常生活。從智能手機(jī)的語(yǔ)音助手到自動(dòng)駕駛汽車,AI的應(yīng)用越來(lái)越廣泛。然而,對(duì)大多數(shù)人來(lái)說(shuō),AI仍然是一個(gè)模糊的概念。1.1.1AI的定義AI(ArtificialIntelligence,人工智能)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門技術(shù)科學(xué)。AI是計(jì)算機(jī)科學(xué)的一個(gè)分支,試圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以與人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器學(xué)習(xí)、語(yǔ)音識(shí)別、視覺(jué)識(shí)別、運(yùn)動(dòng)控制、自然語(yǔ)言處理和專家系統(tǒng)等,如圖1-1所示。AI從誕生以來(lái),理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也在不斷擴(kuò)大,可以設(shè)想,未來(lái)以AI技術(shù)為基礎(chǔ)的科技產(chǎn)品,將會(huì)是人類智慧的“容器”。AI可以對(duì)人的意識(shí)、思維的信息過(guò)程進(jìn)行模擬。AI不是人的智能,但能像人一樣思考,也可能超過(guò)人的智能。AI在計(jì)算機(jī)上的實(shí)現(xiàn)方式有兩種。一種是采用傳統(tǒng)的編程技術(shù)。另一種是模擬法。1.1.2AI的術(shù)語(yǔ)AI智能體、AI和AIGC(AI-GeneratedContent,人工智能生成內(nèi)容)這些術(shù)語(yǔ),雖然在表面上看似相近,但它們各自有著不同的側(cè)重點(diǎn)和應(yīng)用范疇。1.AI智能體2.AI3.AIGC的應(yīng)用前景,能夠大大提高內(nèi)容創(chuàng)作的效率和質(zhì)量。1.1.3AI的分類AI可以根據(jù)功能和工作原理分為多種不同的類型,這種分類方式有助于讀者理解AI的不同應(yīng)用場(chǎng)景和技術(shù)特點(diǎn)。1.按工作原理劃分(1)符號(hào)主義AI(2)連接主義AI(3)進(jìn)化計(jì)算2.按用途劃分(1)決策式AI(2)生成式AI3.按學(xué)習(xí)能力劃分(1)監(jiān)督學(xué)習(xí)(2)無(wú)監(jiān)督學(xué)習(xí)(3)半監(jiān)督學(xué)習(xí)(4)強(qiáng)化學(xué)習(xí)4.按智能水平劃分(1)弱AI(窄AI)(2)強(qiáng)AI(通用AI)1.1.4AI的特點(diǎn)AI具有智能化、學(xué)習(xí)能力、自主性等特點(diǎn),隨著技術(shù)的不斷創(chuàng)新和發(fā)展,AI的特點(diǎn)將會(huì)得到進(jìn)一步拓展和完善。1.智能化AI的主要特點(diǎn)在于它的智能化程度。通過(guò)模擬人類的思考過(guò)程和決策能力,AI能夠以與人類智能類似的方式分析和解決問(wèn)題。以機(jī)器學(xué)習(xí)為例,通過(guò)大數(shù)據(jù)和算法的應(yīng)用,AI可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí),不斷提升自身的智能水平。這種智能化使得AI在多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景。2.學(xué)習(xí)能力AI的學(xué)習(xí)能力是其另一個(gè)重要特點(diǎn)。通過(guò)不斷地接收和處理新的信息,AI可以從中獲取知識(shí)和經(jīng)驗(yàn),并運(yùn)用于問(wèn)題的解決方案中。不僅如此,AI還能夠通過(guò)與環(huán)境的交互,實(shí)現(xiàn)學(xué)習(xí)和進(jìn)化。通過(guò)反饋機(jī)制和自我調(diào)整算法,AI可以根據(jù)實(shí)際情況進(jìn)行優(yōu)化和改進(jìn),不斷提高自身的性能和準(zhǔn)確性。3.自主性AI的自主性是指其獨(dú)立進(jìn)行決策和行動(dòng)的能力。相對(duì)于傳統(tǒng)的預(yù)設(shè)規(guī)則和指令,AI能夠根據(jù)自身的智能和學(xué)習(xí)能力,主動(dòng)進(jìn)行決策和行動(dòng),而無(wú)須人為干預(yù)。1.1.5AI的技術(shù)架構(gòu)AI的技術(shù)架構(gòu)通常由應(yīng)用層、技術(shù)層和基礎(chǔ)層構(gòu)成,如圖1-2所示。1.應(yīng)用層2.技術(shù)層3.基礎(chǔ)層這三個(gè)層次共同構(gòu)成了AI的技術(shù)架構(gòu),從底層的數(shù)據(jù)收集和處理,到中層的算法和框架,再到頂層的具體應(yīng)用,形成了一個(gè)完整的生態(tài)系統(tǒng)。這種架構(gòu)不僅確保了AI技術(shù)的高效運(yùn)行,也為未來(lái)的技術(shù)創(chuàng)新和應(yīng)用拓展提供了廣闊的空間。任務(wù)1.2AI技術(shù)基礎(chǔ)AI的核心目標(biāo)是使機(jī)器能夠執(zhí)行通常需要人類智能才能完成的任務(wù),如學(xué)習(xí)、理解語(yǔ)言、識(shí)別圖像、解決問(wèn)題等。AI的發(fā)展經(jīng)歷了多個(gè)階段,從早期的規(guī)則引擎到現(xiàn)在的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法,AI技術(shù)不斷進(jìn)步,應(yīng)用范圍也在不斷擴(kuò)大。1.2.1機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)(MachineLearning)是AI的核心領(lǐng)域之一。它通過(guò)讓計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新知識(shí)和技能,并不斷改善自身性能。機(jī)器學(xué)習(xí)是一門涉及統(tǒng)計(jì)學(xué)、系統(tǒng)辨識(shí)、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計(jì)算機(jī)科學(xué)、腦科學(xué)等諸多領(lǐng)域的交叉學(xué)科,旨在研究如何讓計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能。重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能,是AI技術(shù)的核心?;跀?shù)據(jù)的機(jī)器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方法之一。該方法聚焦于從觀測(cè)數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,并利用所發(fā)現(xiàn)的規(guī)律對(duì)未來(lái)數(shù)據(jù)或無(wú)法直接觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。機(jī)器學(xué)習(xí)強(qiáng)調(diào)三個(gè)關(guān)鍵詞:算法、經(jīng)驗(yàn)、性能。其處理過(guò)程如圖1-3所示。在數(shù)據(jù)的基礎(chǔ)上,通過(guò)算法構(gòu)建出模型并對(duì)模型進(jìn)行評(píng)估。評(píng)估的性能如果達(dá)到要求,就用該模型來(lái)測(cè)試其他的數(shù)據(jù);如果達(dá)不到要求,就要調(diào)整算法重新建立模型,再次進(jìn)行評(píng)估。如此循環(huán)往復(fù),直到獲得滿意的模型來(lái)處理其他數(shù)據(jù)。機(jī)器學(xué)習(xí)技術(shù)和方法已經(jīng)被成功應(yīng)用到多個(gè)領(lǐng)域,如個(gè)性推薦系統(tǒng)、金融反欺詐、語(yǔ)音識(shí)別、自然語(yǔ)言處理、機(jī)器翻譯、模式識(shí)別、智能控制等。1.2.2深度學(xué)習(xí)深度學(xué)習(xí)的核心在于使用多層神經(jīng)網(wǎng)絡(luò)來(lái)模擬人腦處理信息的方式,從而能夠自動(dòng)從數(shù)據(jù)中提取和學(xué)習(xí)復(fù)雜的特征。深度學(xué)習(xí)的基本原理是通過(guò)構(gòu)建深層的、多級(jí)別的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得機(jī)器能夠從原始數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)、學(xué)習(xí)和組合特征,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的高層次理解。這種學(xué)習(xí)方法在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得了顯著的成果,因?yàn)樗軌蛱幚泶罅康姆墙Y(jié)構(gòu)化數(shù)據(jù),如圖像和聲音等。1.2.3計(jì)算機(jī)視覺(jué)計(jì)算機(jī)視覺(jué)是AI領(lǐng)域的一個(gè)重要分支。它能夠使機(jī)器解釋和理解視覺(jué)世界。計(jì)算機(jī)視覺(jué)致力于使計(jì)算機(jī)能夠像人類一樣“看”,即通過(guò)攝像頭、圖像傳感器等設(shè)備捕捉圖像,并從中提取信息。計(jì)算機(jī)視覺(jué)的發(fā)展經(jīng)歷了從簡(jiǎn)單的圖像處理到復(fù)雜的圖像理解的過(guò)程,目前深度學(xué)習(xí)技術(shù)對(duì)其發(fā)展產(chǎn)生了重大影響。計(jì)算機(jī)視覺(jué)涉及的技術(shù)包括人臉識(shí)別、圖像識(shí)別、圖像分類、對(duì)象檢測(cè)、場(chǎng)景重建等。其中,人臉識(shí)別、圖像識(shí)別(包括靜態(tài)和動(dòng)態(tài)信息)是目前的主要應(yīng)用方向。計(jì)算機(jī)視覺(jué)廣泛應(yīng)用于多個(gè)領(lǐng)域,如自動(dòng)駕駛、醫(yī)療圖像分析、安防監(jiān)控、工業(yè)自動(dòng)化等。vivo公司在計(jì)算機(jī)視覺(jué)領(lǐng)域的創(chuàng)新包括AI拍照、屏下指紋識(shí)別、人臉識(shí)別等技術(shù)。1.2.4自然語(yǔ)言處理自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)是AI領(lǐng)域的一個(gè)重要分支,專注于使計(jì)算機(jī)能夠理解和處理人類語(yǔ)言。自然語(yǔ)言處理是一門通過(guò)建立計(jì)算機(jī)模型來(lái)理解和處理自然語(yǔ)言的學(xué)科,是用計(jì)算機(jī)對(duì)自然語(yǔ)言的形、音、義等信息進(jìn)行處理并識(shí)別的應(yīng)用,涉及機(jī)器翻譯、自動(dòng)提取文本摘要、文本分類、語(yǔ)音合成、情感分析等領(lǐng)域。自然語(yǔ)言處理的應(yīng)用場(chǎng)景豐富多樣,涵蓋機(jī)器翻譯、手寫體和印刷體字符識(shí)別、語(yǔ)音識(shí)別、信息檢索、信息抽取與過(guò)濾、文本分類與聚類、輿情分析和觀點(diǎn)挖掘等。從技術(shù)交叉維度看,它既涉及與語(yǔ)言處理相關(guān)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)獲取、知識(shí)工程、AI研究,也涵蓋與語(yǔ)言計(jì)算相關(guān)的語(yǔ)言學(xué)研究。1.2.5知識(shí)圖譜知識(shí)圖譜本質(zhì)上是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),是一種由節(jié)點(diǎn)和邊組成的圖數(shù)據(jù)結(jié)構(gòu),以符號(hào)形式描述物理世界中的概念及其相互關(guān)系。其基本組成單位是“實(shí)體—關(guān)系—實(shí)體”三元組,以及實(shí)體及其相關(guān)的“屬性/值”對(duì)。不同實(shí)體之間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。知識(shí)圖譜可用于反欺詐、不一致性驗(yàn)證、組團(tuán)欺詐等公共安全保障領(lǐng)域,需要用到異常分析、靜態(tài)分析、動(dòng)態(tài)分析等數(shù)據(jù)挖掘方法。特別地,知識(shí)圖譜在搜索引擎、可視化展示和精準(zhǔn)營(yíng)銷方面具有很大的優(yōu)勢(shì),已成為業(yè)界的熱門工具。但是,知識(shí)圖譜的發(fā)展還存在很大的挑戰(zhàn),如數(shù)據(jù)的噪聲問(wèn)題,即數(shù)據(jù)有錯(cuò)誤或者數(shù)據(jù)存在冗余。隨著知識(shí)圖譜應(yīng)用的不斷深入,還有一系列關(guān)鍵技術(shù)需要突破。任務(wù)1.3AI大模型AI大模型是指擁有超大規(guī)模參數(shù)(通常在十億個(gè)以上)、復(fù)雜計(jì)算結(jié)構(gòu)的機(jī)器學(xué)習(xí)模型。它通常能夠處理海量數(shù)據(jù),完成各種復(fù)雜任務(wù),如自然語(yǔ)言處理、圖像識(shí)別等。隨著計(jì)算機(jī)硬件性能的不斷提升,以及深度學(xué)習(xí)算法的快速優(yōu)化,大模型的發(fā)展日新月異。一系列基于大模型的AI應(yīng)用相繼問(wèn)世,下面介紹幾款常用大模型。1.3.1盤古大模型盤古大模型是華為旗下的盤古系列AI大模型,包括NLP大模型、CV大模型、氣象大模型等。1.3.2豆包大模型豆包大模型,原名“云雀”,是字節(jié)跳動(dòng)發(fā)布的大模型。2024年5月15日,在火山引擎原動(dòng)力大會(huì)上字節(jié)跳動(dòng)豆包大模型被正式發(fā)布。字節(jié)跳動(dòng)的豆包大模型家族包含下面幾種模型。(1)豆包通用模型。(2)豆包通用模型Lite。(3)豆包·角色扮演模型。(4)豆包·語(yǔ)音合成模型。(5)豆包·聲音復(fù)刻模型。(6)豆包·語(yǔ)音識(shí)別模型。(7)豆包·文生圖模型。(8)豆包·Functioncall模型。(9)豆包·向量化模型。1.3.3訊飛星火認(rèn)知大模型訊飛星火認(rèn)知大模型是一款集成多種先進(jìn)AI技術(shù)的認(rèn)知智能系統(tǒng)。其核心能力涵蓋文本生成、語(yǔ)言理解與知識(shí)問(wèn)答、邏輯推理與科研輔助、數(shù)學(xué)問(wèn)題解決、編程支持和多模態(tài)交互體驗(yàn)等方面。下面進(jìn)行具體介紹。1.文本生成文本生成是訊飛星火認(rèn)知大模型的一項(xiàng)核心能力。它能夠通過(guò)自然語(yǔ)言處理技術(shù),自動(dòng)產(chǎn)生高質(zhì)量的文本內(nèi)容。這一功能在多個(gè)應(yīng)用場(chǎng)景中展現(xiàn)出了巨大的價(jià)值,包括文檔創(chuàng)作、多語(yǔ)種支持、圖文匹配及演講準(zhǔn)備等。(1)文檔一鍵生成。(2)AI撰寫助手。(3)多語(yǔ)種文檔生成。(4)自動(dòng)配圖。(5)模板選擇。(6)演講備注。2.語(yǔ)言理解與知識(shí)問(wèn)答3.邏輯推理與科研輔助4.?dāng)?shù)學(xué)問(wèn)題解決5.編程支持6.多模態(tài)交互體驗(yàn)(1)圖像識(shí)別與描述(2)基于圖像的內(nèi)容問(wèn)答(3)音/視頻生成1.3.4文心大模型文心大模型是百度推出的自然語(yǔ)言處理預(yù)訓(xùn)練模型。它有多個(gè)版本,每個(gè)版本都在前一個(gè)版本的基礎(chǔ)上進(jìn)行了改進(jìn)和優(yōu)化。1.文心大模型3.52.文心大模型4.03.文心大模型4.0Turbo1.3.5DeepSeek大模型DeepSeek是一款由深度求索(北京)科技有限公司開發(fā)的AI模型。它可以讀作“深度”(Deep)和“探索”(Seek),寓意通過(guò)深度學(xué)習(xí)技術(shù)探索未知的領(lǐng)域。這款基于Transformer架構(gòu)的AI助手,具備自然語(yǔ)言理解與生成、多輪對(duì)話管理、跨領(lǐng)域知識(shí)整合及代碼處理等核心能力,依托大規(guī)模預(yù)訓(xùn)練和持續(xù)學(xué)習(xí)機(jī)制,支持中英文等語(yǔ)言交互,能夠在信息檢索、學(xué)習(xí)研究、創(chuàng)意生成等場(chǎng)景中提供輔助。DeepSeek的第一個(gè)開源模型于2023年11月被發(fā)布,隨后DeepSeek-V3和DeepSeek-R1模型被相繼發(fā)布。1.DeepSeek-V32.DeepSeek-R1任務(wù)1.4AI現(xiàn)狀A(yù)I作為當(dāng)今科技領(lǐng)域熱門的話題之一,其發(fā)展現(xiàn)狀可謂蓬勃向上,日新月異。從基礎(chǔ)研究到應(yīng)用實(shí)踐,從政策支持到產(chǎn)業(yè)布局,AI正以前所未有的速度改變著我們的生活和工作方式。1.4.1AI的發(fā)展歷程從始至此,AI在充滿未知的道路上探索,曲折起伏,這段發(fā)展歷程大致可劃分為五個(gè)階段。第一個(gè)階段:起步發(fā)展期(20世紀(jì)40年代~60年代)第二個(gè)階段:低谷反思期(20世紀(jì)70年代)第三個(gè)階段:應(yīng)用發(fā)展期(20世紀(jì)80年代)第四個(gè)階段:平穩(wěn)發(fā)展期(20世紀(jì)90年代~21世紀(jì)10年代)第五個(gè)階段:蓬勃發(fā)展期(2011年至今)1.4.2我國(guó)在AI領(lǐng)域的發(fā)展現(xiàn)狀隨著中國(guó)社會(huì)經(jīng)濟(jì)的發(fā)展,勞動(dòng)力紅利逐漸消失,老齡化社會(huì)的到來(lái)及精英人才需求的不斷增加,關(guān)鍵技術(shù)的開發(fā)成為亟待解決的問(wèn)題。在這種背景下,發(fā)展AI和智能機(jī)器不僅能夠?qū)崿F(xiàn)“機(jī)器換人”,推動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),還能為解決現(xiàn)有的經(jīng)濟(jì)問(wèn)題和社會(huì)問(wèn)題創(chuàng)造良機(jī)?!癆I+X”將成為萬(wàn)眾創(chuàng)新的新時(shí)尚和新潮流。1.4.3AI發(fā)展的啟示AI的目標(biāo)是模擬、延伸和擴(kuò)展人類智能,探尋智能本質(zhì),發(fā)展類人智能機(jī)器。其探索之路充滿未知且曲折起伏。通過(guò)總結(jié)AI發(fā)展歷程中的經(jīng)驗(yàn)和教訓(xùn),可以得到以下啟示。1.尊重發(fā)展規(guī)律是推動(dòng)學(xué)科健康發(fā)展的前提2.基礎(chǔ)研究是學(xué)科可持續(xù)發(fā)展的基石3.應(yīng)用需求是科技創(chuàng)新的不竭之源4.學(xué)科交叉是創(chuàng)新突破的“捷徑”5.寬容失敗是支持創(chuàng)新的題中應(yīng)有之義6.實(shí)事求是設(shè)定發(fā)展目標(biāo)是制訂學(xué)科發(fā)展規(guī)劃的基本原則1.4.4AI倫理治理盡管AI帶來(lái)了諸多機(jī)遇,但也存在數(shù)據(jù)安全、隱私保護(hù)等方面的風(fēng)險(xiǎn)。因此,在推進(jìn)AI產(chǎn)業(yè)發(fā)展的同時(shí),必須建立健全相關(guān)法律法規(guī)框架,確保個(gè)人信息不受侵害,并加強(qiáng)對(duì)算法透明度及公平性的監(jiān)管,進(jìn)行AI倫理治理。安全、倫理和隱私問(wèn)題是AI發(fā)展面臨的挑戰(zhàn)。安全問(wèn)題是讓技術(shù)能夠持續(xù)發(fā)展的前提。技術(shù)的發(fā)展給社會(huì)信任帶來(lái)了風(fēng)險(xiǎn),如何增加社會(huì)信任,讓技術(shù)發(fā)展遵循倫理要求,特別是保障隱私不被侵犯是亟須解決的問(wèn)題。為此,制定合理的政策、法律、標(biāo)準(zhǔn)基礎(chǔ),并與國(guó)際社會(huì)協(xié)作,建立一個(gè)令A(yù)I技術(shù)造福于社會(huì)、保護(hù)公眾利益的政策、法律和標(biāo)準(zhǔn)化環(huán)境,是AI技術(shù)持續(xù)、健康發(fā)展的重要前提。1.機(jī)器人準(zhǔn)則所有科學(xué)家和工程師都面臨倫理考量:哪些項(xiàng)目應(yīng)該做,哪些項(xiàng)目不應(yīng)該做,以及如何確保項(xiàng)目執(zhí)行是安全且有益的。2010年,英國(guó)工程和物理科學(xué)研究委員會(huì)制定了一系列機(jī)器人準(zhǔn)則。之后,其他政府機(jī)構(gòu)、非營(yíng)利組織及各公司紛紛建立了類似的準(zhǔn)則。常用的準(zhǔn)則如下:(1)阿西莫夫機(jī)器人三定律(1942)(2)歐盟《人工智能倫理準(zhǔn)則》(2019)。(3)IEEE《倫理對(duì)齊設(shè)計(jì)》(2019)。(4)聯(lián)合國(guó)教科文組織《人工智能倫理建議書》(2021)。(5)中國(guó)《新一代人工智能倫理規(guī)范》(2021)。2.倫理要求AI作為人類智能和價(jià)值系統(tǒng)的延伸,在發(fā)展過(guò)程中必須考慮倫理價(jià)值。設(shè)定AI技術(shù)的倫理要求需要社會(huì)和公眾的深入思考與廣泛共識(shí),并遵循以下共識(shí)原則。(1)人類利益原則(2)責(zé)任原則3.保護(hù)個(gè)人隱私政策隱私設(shè)計(jì)原則強(qiáng)調(diào)在產(chǎn)品和服務(wù)的設(shè)計(jì)階段就融入隱私保護(hù)措施。通過(guò)默認(rèn)隱私設(shè)置、最小化數(shù)據(jù)收集和使用,以及增強(qiáng)用戶控制權(quán)等方式,確保技術(shù)發(fā)展與個(gè)人隱私保護(hù)相協(xié)調(diào),從而減少隱私侵犯的風(fēng)險(xiǎn)。1.4.5中高職學(xué)生應(yīng)具備的AI素養(yǎng)在當(dāng)今AI快速發(fā)展的時(shí)代,中高職學(xué)生作為未來(lái)技術(shù)領(lǐng)域的重要力量,應(yīng)具備相應(yīng)的AI素養(yǎng)。1.體系化知識(shí)2.構(gòu)建式能力3.創(chuàng)造性價(jià)值4.人本型倫理1.4.6AI應(yīng)用AI與行業(yè)領(lǐng)域的深度融合將改變甚至重新塑造傳統(tǒng)行業(yè)。AI已經(jīng)廣泛應(yīng)用于金融、家居、交通、醫(yī)療、教育等多個(gè)領(lǐng)域,對(duì)人類社會(huì)的生產(chǎn)和生活產(chǎn)生了深遠(yuǎn)的影響。1.金融2.家居3.交通4.醫(yī)療5.教育1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解培養(yǎng)具備AI素養(yǎng)的技術(shù)技能人才的內(nèi)容。2.整個(gè)教學(xué)過(guò)程中,各教學(xué)點(diǎn)可根據(jù)實(shí)際情況,進(jìn)行拓展知識(shí)的講解。本章小結(jié):本章圍繞“培養(yǎng)具備AI素養(yǎng)的技術(shù)技能人才”核心,系統(tǒng)介紹了AI的基礎(chǔ)認(rèn)知、技術(shù)架構(gòu)、關(guān)鍵技術(shù)、主流大模型、發(fā)展現(xiàn)狀及倫理治理等內(nèi)容。從AI的定義、術(shù)語(yǔ)與分類,到機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等核心技術(shù),再到盤古、豆包等常用大模型,清晰勾勒出AI的技術(shù)體系與應(yīng)用場(chǎng)景。同時(shí),梳理了AI發(fā)展歷程與我國(guó)發(fā)展現(xiàn)狀,強(qiáng)調(diào)了倫理治理的重要性,明確了中高職學(xué)生應(yīng)具備的體系化知識(shí)、構(gòu)建式能力等AI素養(yǎng)。整體內(nèi)容兼具理論性與實(shí)用性,為培養(yǎng)適應(yīng)AI時(shí)代的技術(shù)技能人才奠定了基礎(chǔ)?!度斯ぶ悄芑A(chǔ)與應(yīng)用》課程教案課題:探索視覺(jué)智能新境界:AI生成圖像技術(shù)的基本應(yīng)用教學(xué)目的:理解AI生成圖像技術(shù)的發(fā)展歷程。掌握不同AI生成圖像技術(shù)的特點(diǎn),以及面臨的難題和挑戰(zhàn)。掌握訊飛星火、文心一言、ChatGPT等AI生成圖像工具的使用方法。了解Midjourney繪圖工具的特點(diǎn)和使用方法。課型:新授課課時(shí):本章安排8個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):理解AI生成圖像技術(shù)的發(fā)展歷程教學(xué)難點(diǎn):難點(diǎn):掌握訊飛星火、文心一言、ChatGPT等AI生成圖像工具的使用方法。教學(xué)過(guò)程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題探索視覺(jué)智能新境界:AI生成圖像技術(shù)的基本應(yīng)用課次4授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排8學(xué)分共2分授課對(duì)象普通高等院校學(xué)生任課教師教材及參考資料1.《人工智能基礎(chǔ)與應(yīng)用》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入隨著AI的快速發(fā)展,AI生成圖像技術(shù)變得越來(lái)越流行,正在改變著人們對(duì)視覺(jué)藝術(shù)的認(rèn)知和創(chuàng)作方式。本項(xiàng)目通過(guò)深入介紹AI生成圖像技術(shù)的發(fā)展、特點(diǎn)、挑戰(zhàn)及多種實(shí)用工具,幫助讀者掌握這一前沿技術(shù)。通過(guò)本項(xiàng)目的學(xué)習(xí),讀者不僅能夠獲得關(guān)于AI生成圖像技術(shù)的理論知識(shí),還將具備實(shí)際操作能力,從而將學(xué)到的技術(shù)應(yīng)用到實(shí)際創(chuàng)作中。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式
任務(wù)2.1AI生成圖像技術(shù)隨著社交媒體、廣告、游戲、電影等行業(yè)的快速發(fā)展,其對(duì)高質(zhì)量、個(gè)性化、快速生成圖像的需求日益增長(zhǎng)。Al生成圖像技術(shù)以高效、靈活、創(chuàng)意無(wú)限的特點(diǎn),正逐步成為滿足這些需求的重要工具。2.1.1AI生成圖像技術(shù)的發(fā)展AI生成圖像技術(shù)的快速發(fā)展得益于深度學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等多個(gè)領(lǐng)域的突破性進(jìn)展。了解前沿動(dòng)態(tài),有助于我們及時(shí)捕捉這些領(lǐng)域的最新技術(shù)成果,并將其應(yīng)用于文生圖任務(wù)中,從而推動(dòng)技術(shù)創(chuàng)新和進(jìn)步。1.AARON系統(tǒng)計(jì)算機(jī)生成圖像的早期探索可追溯至20世紀(jì)70年代,藝術(shù)家哈羅德?科恩(HaroldCohen)在這一時(shí)期開發(fā)了AARON系統(tǒng)。這個(gè)系統(tǒng)可以通過(guò)機(jī)械臂輸出繪畫,如圖2-1所示。AARON系統(tǒng)的特點(diǎn)是使用機(jī)械臂和計(jì)算機(jī)程序進(jìn)行創(chuàng)作。這類基于規(guī)則的圖像生成技術(shù),為后續(xù)AI生成圖像技術(shù)奠定了概念基礎(chǔ)。2.基于深度神經(jīng)網(wǎng)絡(luò)的現(xiàn)代模型隨著時(shí)間的推移,AI生成圖像技術(shù)逐漸從基于規(guī)則的算法發(fā)展到基于深度神經(jīng)網(wǎng)絡(luò)的現(xiàn)代模型。2012年,谷歌的吳恩達(dá)和JeffDean使用深度學(xué)習(xí)模型,基于大量貓臉圖片訓(xùn)練出了一個(gè)能夠生成模糊貓臉的模型,如圖2-2所示。這一成果為后續(xù)生成模型的算法優(yōu)化和算力部署提供了重要參考,間接推動(dòng)了生成式AI技術(shù)的發(fā)展。2015年,谷歌推出了“深夢(mèng)”(DeepDream)圖像生成工具,其生成圖像的效果如圖2-3所示,盡管它更像是一個(gè)高級(jí)濾鏡,但它標(biāo)志著AI繪畫技術(shù)的進(jìn)步。此后,AI生成圖像技術(shù)不斷進(jìn)步,出現(xiàn)了諸如DALL-E、CLIP和StableDiffusion等先進(jìn)的模型,這些模型能夠根據(jù)輸入的文本生成高度復(fù)雜和逼真的圖像。3.DALL-E模型2021年,OpenAI推出了DALL-E模型,這是一個(gè)深度學(xué)習(xí)算法模型,能夠直接根據(jù)提示詞“按需創(chuàng)造”風(fēng)格多樣的圖像,如圖2-4所示,其生成了風(fēng)格多樣的牛油果形狀的椅子。DALL-E的出現(xiàn)極大地?cái)U(kuò)展了AI生成圖像技術(shù)的應(yīng)用范圍,使其在設(shè)計(jì)、廣告、藝術(shù)創(chuàng)作等領(lǐng)域發(fā)揮了重要作用。近年來(lái),擴(kuò)散模型成為AI生成圖像技術(shù)的一個(gè)重要發(fā)展方向。擴(kuò)散模型的原理借鑒了物理學(xué)上的擴(kuò)散現(xiàn)象,通過(guò)向訓(xùn)練圖像中不斷加入噪聲,然后通過(guò)AI預(yù)測(cè)并逐步減少噪聲,最終生成新的圖像。這種技術(shù)不僅提升了生成圖像的質(zhì)量,也使得AI生成圖像技術(shù)更加靈活和強(qiáng)大。2.1.2AI生成圖像技術(shù)面臨的難題和挑戰(zhàn)隨著AIGC技術(shù)的快速發(fā)展,特別是AI生成圖像技術(shù)的進(jìn)步,我們正見(jiàn)證著一個(gè)前所未有的視覺(jué)創(chuàng)作新時(shí)代的到來(lái)。然而,在AI生成圖像技術(shù)帶來(lái)無(wú)限可能性的同時(shí),也面臨著諸多難題和挑戰(zhàn)。1.?dāng)?shù)據(jù)質(zhì)量問(wèn)題高質(zhì)量、多樣化的數(shù)據(jù)集是訓(xùn)練有效模型的基礎(chǔ),但獲取這樣的數(shù)據(jù)集往往成本高昂且耗時(shí),不充分或偏差的數(shù)據(jù)可能導(dǎo)致生成圖像存在偏差或者缺乏真實(shí)性。2.計(jì)算資源需求當(dāng)前先進(jìn)的圖像生成算法通常需要借助大量的GPU加速處理能力才能高效運(yùn)行,高昂的硬件成本制約了個(gè)人用戶及小型企業(yè)的技術(shù)參與度,同時(shí)增加了環(huán)境負(fù)擔(dān)。3.創(chuàng)意控制難題盡管AI模型已經(jīng)能夠在一定程度上理解文本描述并生成相應(yīng)的圖像,但要想實(shí)現(xiàn)文本與圖像的精準(zhǔn)映射,以及對(duì)生成風(fēng)格或特征的精確控制,仍然是一個(gè)巨大的挑戰(zhàn)。輸入方式的局限性制約了非專業(yè)人士的創(chuàng)作參與。此外,模型在生成圖像時(shí)也容易陷入局部最優(yōu)解,導(dǎo)致生成的圖像缺乏新穎性和驚喜感。4.倫理道德考量隨著AI生成圖像技術(shù)的普及和應(yīng)用,版權(quán)和倫理問(wèn)題也日益凸顯。濫用AI生成圖像技術(shù)可能引發(fā)版權(quán)爭(zhēng)議、隱私泄露等問(wèn)題,相關(guān)部門必須建立健全的法律法規(guī)來(lái)規(guī)范其應(yīng)用范圍,以保障創(chuàng)作者權(quán)益和個(gè)人信息安全。因此,在推動(dòng)AI生成圖像技術(shù)發(fā)展的同時(shí),相關(guān)部門也需要關(guān)注并解決這些問(wèn)題。5.技術(shù)門檻與資源消耗AI生成圖像技術(shù)涉及多個(gè)領(lǐng)域的復(fù)雜技術(shù),包括深度學(xué)習(xí)、自然語(yǔ)言處理等,對(duì)開發(fā)者的技術(shù)水平提出了較高的要求。這意味著只有具備深厚技術(shù)背景和豐富經(jīng)驗(yàn)的團(tuán)隊(duì)才能在這個(gè)領(lǐng)域取得突破。另外,由于技術(shù)門檻較高,因此許多小型團(tuán)隊(duì)或個(gè)人無(wú)法承擔(dān)高昂的研發(fā)成本,也難以承受相應(yīng)風(fēng)險(xiǎn)。這一現(xiàn)狀使其在AI生成圖像領(lǐng)域的參與度受到明顯限制。2.1.3AI生成圖像技術(shù)的特點(diǎn)AI生成圖像利用深度學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò)等技術(shù),通過(guò)已有的數(shù)據(jù)集學(xué)習(xí)和理解繪畫的特征、風(fēng)格和規(guī)律,從而創(chuàng)作出獨(dú)特的藝術(shù)作品。AI生成圖像技術(shù)以創(chuàng)新性、多樣性、高效性等特點(diǎn),正在成為藝術(shù)創(chuàng)作領(lǐng)域的重要工具。1.創(chuàng)新性2.多樣性3.高效性4.可定制性5.交互性6.跨平臺(tái)性7.學(xué)習(xí)性8.輔助性2.1.4AI生成圖像提示詞AI生成圖像提示詞(Prompt)也被稱為AI繪畫指令或提示短語(yǔ),是用戶向AI生成圖像工具或軟件提供的具體指令,用于指導(dǎo)AI生成符合用戶需求的圖像。這些提示詞對(duì)AI生成圖像工具來(lái)說(shuō)至關(guān)重要,因?yàn)樗鼈冎苯記Q定了生成圖像的風(fēng)格、內(nèi)容、色彩、構(gòu)圖等多個(gè)方面。通過(guò)合理運(yùn)用提示詞的語(yǔ)法規(guī)則,可以提高生成內(nèi)容的質(zhì)量和相關(guān)性。1.提示詞的語(yǔ)法規(guī)則提示詞的語(yǔ)法規(guī)則包括基本語(yǔ)法規(guī)則、權(quán)重調(diào)整及特殊語(yǔ)法。提示詞通常由內(nèi)容型提示詞和標(biāo)準(zhǔn)化提示詞構(gòu)成,它們共同作用以引導(dǎo)AI生成用戶期望的內(nèi)容。下面將具體介紹提示詞的語(yǔ)法規(guī)則。(1)基本語(yǔ)法規(guī)則。(2)權(quán)重調(diào)整。(3)特殊語(yǔ)法。2.提示詞分類(1)主題與風(fēng)格。(2)色彩與光影。(3)構(gòu)圖與細(xì)節(jié)。(4)情感與氛圍。(5)元素與對(duì)象。(6)其他。2.1.5AI圖像編輯在ChatGPT中,用戶不僅可以基于新的提示詞對(duì)現(xiàn)有圖像進(jìn)行編輯,從而修改圖像的內(nèi)容或風(fēng)格,還可以通過(guò)這種方式探索無(wú)限的創(chuàng)意可能性。這種交互式的編輯功能為用戶提供了極大的靈活性和創(chuàng)造力,使得每個(gè)人都能成為藝術(shù)作品的創(chuàng)作者。1.內(nèi)容編輯2.風(fēng)格轉(zhuǎn)換3.情感與氛圍調(diào)整4.跨領(lǐng)域應(yīng)用總之,ChatGPT中的這一功能打開了創(chuàng)意表達(dá)的新大門,讓每個(gè)人都能利用AI探索和實(shí)現(xiàn)自己的藝術(shù)愿景。隨著技術(shù)的不斷進(jìn)步和完善,相信未來(lái)將會(huì)有更多激動(dòng)人心的應(yīng)用出現(xiàn)。任務(wù)2.2訊飛星火AI生成圖像訊飛星火中包含基于AI技術(shù)的生成圖像工具,它可以幫助用戶快速生成各種風(fēng)格的藝術(shù)作品。訊飛星火中的AI生成圖像工具包括圖像生成、一鍵生同款和繪圖智能體等,通過(guò)深度學(xué)習(xí)算法和大數(shù)據(jù)分析,訊飛星火AI生成圖像工具可以模擬出各種繪畫風(fēng)格,如水墨畫、水彩畫、國(guó)畫等,讓用戶輕松創(chuàng)作出具有藝術(shù)感的作品。2.2.1訊飛星火概述訊飛星火是由科大訊飛推出的AI對(duì)話工具,整合了文本生成、語(yǔ)言理解、知識(shí)問(wèn)答等多種功能。訊飛星火V4.0版本在多項(xiàng)國(guó)際評(píng)測(cè)中表現(xiàn)優(yōu)異,部分測(cè)試集綜合得分超越GPT-4Turbo并位居首位。基于領(lǐng)先的自然語(yǔ)言處理與認(rèn)知智能能力,該模型為用戶提供了智能批閱機(jī)、訊飛曉醫(yī)App等個(gè)性化解決方案。訊飛星火AI生成圖像工具是科大訊飛基于先進(jìn)的AI技術(shù)研發(fā)的一項(xiàng)創(chuàng)新服務(wù),旨在通過(guò)智能算法將文本描述轉(zhuǎn)化為生動(dòng)、具體的圖像。這一工具融合了深度學(xué)習(xí)、圖像處理和自然語(yǔ)言理解等前沿技術(shù),能夠高效解析用戶輸入的文本信息,并快速生成符合描述的高質(zhì)量圖像。進(jìn)入訊飛星火官方網(wǎng)站首頁(yè),如圖2-5所示,單擊“開始對(duì)話”按鈕,打開登錄界面,如圖2-6所示。可以使用手機(jī)號(hào)、微信或賬號(hào)密碼進(jìn)行登錄。下面以手機(jī)號(hào)登錄為例介紹如何登錄訊飛星火。輸入手機(jī)號(hào),并單擊“獲取驗(yàn)證碼”按鈕發(fā)送驗(yàn)證碼,當(dāng)手機(jī)收到驗(yàn)證碼后,在該界面的“驗(yàn)證碼”文本框中輸入驗(yàn)證碼,并勾選下面的復(fù)選框,單擊“登錄”按鈕,即可進(jìn)入訊飛星火用戶使用界面,如圖2-7所示。2.2.2圖像生成打開訊飛星火網(wǎng)頁(yè)版,選擇左側(cè)的“圖像生成”選項(xiàng),進(jìn)入“圖像生成”界面,如圖2-8所示。在“圖像生成”界面的文本框中輸入要生成圖像的描述內(nèi)容(也就是提示詞)并單擊按鈕即可使用圖像生成功能。1.文本生成圖像文本生成圖像是指用戶輸入一段文本描述,由計(jì)算機(jī)生成一張或多張與描述相關(guān)的圖像。1)提示詞輸入(1)打開“圖像生成”界面,輸入提示詞,如“一個(gè)荷包蛋”,單擊按鈕,訊飛星火將在打開的界面中根據(jù)輸入的提示詞自動(dòng)編寫一個(gè)問(wèn)題“畫一張‘一個(gè)荷包蛋’的圖片給我。”,并在下面自動(dòng)生成一張圖像,如圖2-9所示。(2)打開“圖像生成”界面,輸入提示詞,如“一只可愛(ài)的拉布拉多犬住在一個(gè)用壽司做的房子里”,單擊按鈕,訊飛星火將在打開的界面中根據(jù)輸入的提示詞自動(dòng)編寫一個(gè)問(wèn)題“畫一張‘一只可愛(ài)的拉布拉多犬住在一個(gè)用壽司做的房子里’的圖片給我?!?,并在下面自動(dòng)生成一張圖像,如圖2-10所示。2)智能體對(duì)話“智能體”是指訊飛星火AI平臺(tái)提供的一種智能對(duì)話服務(wù)。它可以根據(jù)用戶的需求進(jìn)行自然語(yǔ)言處理和圖像生成,幫助用戶解決各種問(wèn)題。(1)選擇圖2-9所示圖像下方的“問(wèn)問(wèn)智能體(2)選擇圖像下方的“退出智能體”選項(xiàng),返回圖2-11所示的界面。此時(shí),界面中不顯示生成圖像的過(guò)程圖。3)隨機(jī)生成圖像4)提示詞效果(1)面部、頭發(fā)、頭飾提示詞(2)表情提示詞(3)繪畫風(fēng)格提示詞(4)畫面效果提示詞(5)構(gòu)圖形式提示詞(6)構(gòu)圖視角提示詞(7)鏡頭效果提示詞2.圖像風(fēng)格背景設(shè)置在“圖像生成”界面的文本框中單擊,自動(dòng)添加“圖像生成”選項(xiàng)組,其用于創(chuàng)建、修改或增強(qiáng)圖像,其中包括“背景”和“風(fēng)格”設(shè)置選項(xiàng),如圖2-20所示。背景:選擇或更改圖像的背景顏色、紋理或圖案。可選項(xiàng)包括森林、城市、海邊、夕陽(yáng)、田園、沙漠、草原、雨天。風(fēng)格:提供了一系列的預(yù)設(shè)樣式,如水彩畫、水墨畫、賽博朋克、簡(jiǎn)筆漫畫、3D卡通、皮克斯、迪士尼、國(guó)畫,用戶可以通過(guò)選擇這些樣式來(lái)改變圖像的整體外觀和風(fēng)格。1)背景設(shè)置2)風(fēng)格設(shè)置2.2.3一鍵生同款2.2.4繪圖智能體訊飛星火的智能體不僅支持結(jié)構(gòu)化指令助手、編排助手和輕應(yīng)用,還包含滿足用戶繪圖需求的工具。在訊飛星火用戶使用界面中,選擇左側(cè)的“我的智能體”→“更多智能體”選項(xiàng),在右側(cè)“我的智能體”界面下顯示已經(jīng)驗(yàn)證的應(yīng)用工具,如圖2-36所示。1.繪畫大師2.頭像生成3.漫畫繪本4.個(gè)性化助手任務(wù)2.3文心一言AI生成圖像在數(shù)字化時(shí)代,AI技術(shù)的應(yīng)用已經(jīng)滲透到各個(gè)領(lǐng)域,特別是在藝術(shù)創(chuàng)作領(lǐng)域。文心一言AI生成圖像功能作為其中的佼佼者,為用戶提供了兩種強(qiáng)大的圖像生成方法:文生圖和圖生圖。這兩種方法各有特色,極大地豐富了用戶的創(chuàng)意表達(dá)方式。2.3.1文心一言概述文心一言通過(guò)圖片檢索增強(qiáng)技術(shù),可以使用用戶上傳的參考圖進(jìn)行繪畫,實(shí)現(xiàn)豐富多樣的風(fēng)格和畫面內(nèi)容。文心一言在繪圖領(lǐng)域的應(yīng)用非常廣泛,包括但不限于平面設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、服裝設(shè)計(jì)、動(dòng)畫制作等。其還可以應(yīng)用于藝術(shù)創(chuàng)作、圖像處理、教育等多個(gè)領(lǐng)域,為設(shè)計(jì)師、藝術(shù)家、教學(xué)者等提供強(qiáng)大的輔助工具。2.3.2文生圖文心一言同樣支持文生圖功能,根據(jù)用戶輸入的描述性文本,即可生成圖像。這種方法的優(yōu)勢(shì)在于具備高度的靈活性和定制化創(chuàng)作能力。用戶可以根據(jù)自己的需求,詳細(xì)描述圖像的每個(gè)元素,從色彩、形狀到場(chǎng)景布局,文心一言將根據(jù)這些描述生成符合預(yù)期的圖像。這種方法適用于那些對(duì)圖像有具體構(gòu)想,但缺乏繪畫技能的用戶。(1)單擊“重新生成”按鈕,直接在界面中輸出新圖像,如圖2-52所示。這種方法雖然簡(jiǎn)單直接,但存在一些潛在的局限性和使用時(shí)需考慮的因素。(2)嘗試結(jié)合不同的提示詞來(lái)創(chuàng)造出獨(dú)特的視覺(jué)效果。2.3.3圖生圖圖生圖方法為用戶提供了一種全新的創(chuàng)作體驗(yàn)。用戶只需上傳一張圖像,文心一言即可根據(jù)這張圖像的風(fēng)格和特征生成新的圖像。這種方法的優(yōu)勢(shì)在于具備快速性和高效性,特別適合需要生成大量相似風(fēng)格圖像的用戶使用。同時(shí),圖生圖方法也為設(shè)計(jì)師和藝術(shù)家提供了靈感來(lái)源,可以幫助他們?cè)诂F(xiàn)有作品的基礎(chǔ)上進(jìn)行創(chuàng)新和拓展。2.3.4智慧繪圖文心一言中的智慧繪圖是一種基于AI和深度學(xué)習(xí)技術(shù)的圖形生成功能,它能夠根據(jù)用戶輸入的文本描述自動(dòng)生成符合要求的圖形或圖像,已在多個(gè)領(lǐng)域發(fā)揮重要作用。在文心一言用戶使用界面的文本框上方單擊“智慧繪圖”按鈕,打開“智慧繪圖”編輯界面,如圖2-56所示。其中包含“文字生圖”和“圖片重繪”兩大功能。下面介紹“文字生圖”功能。任務(wù)2.4ChatGPTAI生成圖像ChatGPT通過(guò)DALL-E模型,為用戶提供了強(qiáng)大的圖像生成功能。DALL-E模型是OpenAI推出的一種從深度學(xué)習(xí)文本到圖像的潛在擴(kuò)散模型(LDM),它使用來(lái)自LAION-5B開源數(shù)據(jù)庫(kù)子集的512像素×512像素的圖像進(jìn)行訓(xùn)練。該模型通過(guò)引入隱向量空間來(lái)解決Diffusion速度瓶頸問(wèn)題,不僅可以實(shí)現(xiàn)文生圖,還可以實(shí)現(xiàn)圖生圖、特定角色刻畫,甚至是超分或上色。2.4.1ChatGPT概述ChatGPT(ChatGenerativePre-trainedTransformer)基于GPT大模型構(gòu)建,由OpenAI采用“從人類反饋中強(qiáng)化學(xué)習(xí)”(RLHF)訓(xùn)練方式打造而成。其本質(zhì)是輔助人類進(jìn)行信息收集、整理、分析等的智能工具,可為各類場(chǎng)景提供豐富、精準(zhǔn)的內(nèi)容生成方案或數(shù)據(jù)支持。2.4.2直接生成圖像用戶可以通過(guò)輸入提示詞來(lái)生成原始圖像,生成圖像的尺寸可以是256像素×256像素、512像素×512像素或1024像素×1024像素,其中,較小尺寸圖像的生成速度更快。在文本框中輸入提示詞“創(chuàng)作一張圖像一只小鳥”,單擊按鈕,ChatGPT將在打開的界面中根據(jù)輸入的提示詞生成一張圖像,如圖2-63所示。2.4.3繪圖應(yīng)用工具在ChatGPT用戶使用界面左側(cè)列表框中選擇“GPT”選項(xiàng),在右側(cè)界面中打開“精選推薦”選項(xiàng)卡,用戶可以瀏覽和選擇不同的GPT模型和功能,體驗(yàn)不同的對(duì)話風(fēng)格和應(yīng)用,如圖2-67所示。其中,“Trending”選項(xiàng)組下顯示了專門用于生成和優(yōu)化圖像的工具,包括imagegenerator、imagegeneratorpro等,如圖2-68所示。選擇用于圖像生成的工具“imagegenerator”,進(jìn)入“imagegenerator”繪畫模式,在文本框中輸入“一只小鳥”,imagegenerator就會(huì)自動(dòng)為用戶生成一張圖像,如圖2-69所示。(4)場(chǎng)景一變換(上傳場(chǎng)景一的圖像)為場(chǎng)景三,如圖2-73所示。(5)場(chǎng)景二變換(上傳場(chǎng)景二的圖像)為場(chǎng)景四,如圖2-74所示。任務(wù)2.5亦心AI生成圖像隨著科技的不斷發(fā)展,AI逐漸成為人們生活的一部分。如今,AI不僅在智能手機(jī)、智能家居等領(lǐng)域發(fā)揮重要作用,還開始涉足室內(nèi)設(shè)計(jì)行業(yè)。AI室內(nèi)設(shè)計(jì)通過(guò)運(yùn)用智能算法和大數(shù)據(jù)分析,可以為用戶提供個(gè)性化的家居設(shè)計(jì)方案。生成式AI技術(shù)高速演進(jìn),顛覆式的產(chǎn)品和商業(yè)模式正在涌現(xiàn)。作為國(guó)內(nèi)專業(yè)圖像處理領(lǐng)域的領(lǐng)軍企業(yè),亦心科技基于自身的海量大數(shù)據(jù)和AI算法技術(shù)積累,推出全新AI創(chuàng)意工具,即亦心AI和AI閃繪。2.5.1亦心AI概述亦心AI是亦心科技全力打造的核心技術(shù)。它就如同一個(gè)超級(jí)智能大腦,具備極為強(qiáng)大的從文本到圖像的轉(zhuǎn)化能力。讀者可以把它想象成一個(gè)神奇的畫師,只需用文本描述出腦海中的畫面,無(wú)論是夢(mèng)幻的童話場(chǎng)景,還是充滿科技感的未來(lái)城市,亦心AI都可將這些文本轉(zhuǎn)化為逼真的圖像。悟空?qǐng)D像是一款專注于圖像處理的AI軟件,在專業(yè)領(lǐng)域有著廣泛的應(yīng)用。它集成了多種強(qiáng)大的功能,旨在幫助用戶高效地處理圖像,實(shí)現(xiàn)創(chuàng)意設(shè)計(jì)。亦心AI就像是悟空?qǐng)D像的“心臟”,為悟空?qǐng)D像提供了最核心的技術(shù)支持。悟空?qǐng)D像則是亦心AI技術(shù)的實(shí)際應(yīng)用載體,將亦心AI強(qiáng)大的從文本到圖像的轉(zhuǎn)化能力,以及其他相關(guān)AI能力呈現(xiàn)給廣大用戶。2.5.2亦心AI亦心AI是一款專業(yè)的AI創(chuàng)作工具,根據(jù)用戶輸入的文本(中英文均可)和設(shè)置的參數(shù),即可生成豐富的圖像。單擊悟空?qǐng)D像操作界面右上角的“亦心
AI”按鈕,如果處于未登錄狀態(tài),則會(huì)彈出登錄界面,勾選“登錄即表明同意《悟空?qǐng)D像用戶協(xié)議》”復(fù)選框,并使用微信掃碼登錄或手機(jī)號(hào)登錄,或者單擊“切換為使用密碼登錄”方式,使用賬號(hào)密碼登錄,登錄后即可進(jìn)入“亦心AI”界面,如圖2-78所示。1.文生圖2.圖生圖2.5.3AI閃繪AI閃繪是國(guó)內(nèi)首款專業(yè)AI實(shí)時(shí)渲染創(chuàng)新應(yīng)用,支持實(shí)時(shí)生成、實(shí)時(shí)預(yù)覽,憑借卓越的交互體驗(yàn)、超低使用門檻、超強(qiáng)實(shí)時(shí)生成能力、多模態(tài)生成能力,在設(shè)計(jì)、影視、游戲等行業(yè)及廣泛用戶群體中具有廣闊的應(yīng)用空間和巨大的開發(fā)潛力。用戶只需畫出草圖,AI閃繪即可實(shí)時(shí)生成完整效果圖。單擊悟空?qǐng)D像操作界面右上角的“AI閃繪”按鈕,如果處于未登錄狀態(tài),則會(huì)彈出登錄界面,勾選“登錄即表明同意《悟空?qǐng)D像用戶協(xié)議》”復(fù)選框,并使用微信掃碼登錄或手機(jī)號(hào)登錄,或者單擊“切換為使用密碼登錄”方式,使用賬號(hào)密碼登錄,登錄后即可進(jìn)入“AI閃繪”界面。在“AI閃繪”界面中,單擊工具欄中的“畫筆”按鈕,在右側(cè)調(diào)板窗的“基本設(shè)置”中,設(shè)置筆刷大小、顏色和樣式,繪制草圖,如圖2-82所示。輸入提示詞“哪吒”,設(shè)置變化幅度為“50”,單擊“閃繪輸入欄”中的“生成”按鈕,生成效果圖,如圖2-83所示。任務(wù)2.6Midjourney繪圖Midjourney是一款由舊金山獨(dú)立研究實(shí)驗(yàn)室Midjourney,Inc.創(chuàng)建并托管的生成式AI服務(wù)。它利用先進(jìn)的深度學(xué)習(xí)技術(shù),根據(jù)用戶輸入的提示詞生成逼真的圖像。Midjourney被廣泛應(yīng)用于創(chuàng)意設(shè)計(jì)、廣告制作、游戲開發(fā)等領(lǐng)域。例如,廣告公司使用Midjourney生成廣告海報(bào)和產(chǎn)品圖片,游戲開發(fā)者利用其生成游戲角色和場(chǎng)景等元素,顯著提高了創(chuàng)作效率和質(zhì)量。2.6.1Midjourney概述Midjourney
是一款功能強(qiáng)大的
AI生成圖像工具,以獨(dú)特的特點(diǎn)和優(yōu)勢(shì)在創(chuàng)意產(chǎn)業(yè)中脫穎而出。無(wú)論是專業(yè)設(shè)計(jì)師、藝術(shù)家,還是普通愛(ài)好者,都可以通過(guò)Midjourney輕松生成高質(zhì)量的數(shù)字藝術(shù)作品、插畫或概念設(shè)計(jì)。1.Midjourney的特點(diǎn)1)高度智能化2)豐富的藝術(shù)風(fēng)格3)靈活的創(chuàng)作控制4)高效的生成流程5)社區(qū)與協(xié)作生態(tài)2.Midjourney網(wǎng)頁(yè)版界面2.6.2文生圖Midjourney的核心功能之一是通過(guò)提示詞生成獨(dú)特的視覺(jué)圖像。用戶只需清晰描述期望的畫面內(nèi)容、風(fēng)格及其他相關(guān)要素,Midjourney即可將其轉(zhuǎn)化為相應(yīng)的圖像。1.界面基本操作成功登錄Midjourney網(wǎng)頁(yè)版后,在界面頂部通常會(huì)有一個(gè)醒目的文本框,用于輸入提示詞,Midjourney一般支持輸入英文提示詞,如圖2-86所示。2.生成參數(shù)設(shè)置若需要對(duì)圖像生成過(guò)程進(jìn)行更精細(xì)的控制,則可以單擊提示詞文本框右側(cè)的“Settings”(設(shè)置)按鈕,展開一個(gè)參數(shù)設(shè)置下拉面板,以調(diào)整多種生成參數(shù),如圖2-88所示。再次單擊按鈕,即可隱藏該面板。下面介紹下拉面板中的主要參數(shù)選項(xiàng)。(1)ImageSize(圖像大?。┻x項(xiàng)(2)Aesthetics(美學(xué)參數(shù))選項(xiàng)(3)Model(模型)選項(xiàng)(4)MoreOptions(更多選項(xiàng))Relax(--relax)Fast(--fast)Turbo(--turbo)3.提示詞結(jié)構(gòu)提示詞是最基本的部分,用于描述想要生成的圖像內(nèi)容,明確想要生成的主體是什么,如動(dòng)物、人物、地點(diǎn)或物體。一個(gè)基本的Midjourney提示詞既可以是一個(gè)單詞或短語(yǔ),也可以是一個(gè)包含描述性文本、風(fēng)格和參數(shù)設(shè)置的組合。1)主要素(1)角色(2)角色+動(dòng)作(3)角色+動(dòng)作+背景2)圖像變體(1)VarySubtle(2)VaryStrong4.圖像再創(chuàng)作5.風(fēng)格1)藝術(shù)風(fēng)格2)構(gòu)圖3)光照環(huán)境6.后綴參數(shù)設(shè)置2.6.3圖生圖在Midjourney中,除了輸入提示詞,用戶還可以利用一張或多張現(xiàn)有圖像作為“墊圖”或“參考圖”來(lái)引導(dǎo)和影響AI的圖像生成過(guò)程。這種技術(shù)通常被稱為“圖生圖”,它可在已有視覺(jué)元素的基礎(chǔ)上進(jìn)行迭代和創(chuàng)新,極大地?cái)U(kuò)展了創(chuàng)作的可能性。1.參考圖分類在Midjourney中使用圖像作為輸入時(shí),“參考圖”根據(jù)其作用和影響方式,分為以下三種。(1)ImagePrompts(圖像提示)。這是最基礎(chǔ)也是最常見(jiàn)的參考圖方式。用戶提供一張或多張圖像作為提示詞的一部分。Midjourney嘗試?yán)斫膺@些圖像中的整體構(gòu)圖、顏色、物體形狀、氛圍和大致內(nèi)容,并將這些視覺(jué)元素與用戶提供的提示詞相結(jié)合,共同指導(dǎo)最終圖像的生成。(2)StyleReferences(風(fēng)格參考)。命令為--sref。這種方式更側(cè)重于提取和遷移所提供參考圖的“藝術(shù)風(fēng)格”或“美學(xué)特征”,而不是其具體內(nèi)容或構(gòu)圖。Midjourney會(huì)分析參考圖的色彩搭配、筆觸、紋理、光影處理、整體氛圍等風(fēng)格要素,并將這些風(fēng)格應(yīng)用到基于用戶提供的提示詞生成的新圖像上。(3)CharacterReferences(角色參考)。命令為--cref。這是Midjourney較新的功能,可以在不同圖像中保持角色外觀的一致性。用戶提供一張包含清晰角色特征的圖像作為參考,Midjourney在新生成的圖像中復(fù)制該角色的面部特征、發(fā)型、服裝(在一定程度上)等關(guān)鍵視覺(jué)元素,即使提示詞描述了不同的場(chǎng)景或動(dòng)作。2.上傳參考圖(ImagePrompts)(1)單擊文本框左側(cè)的按鈕,在彈出的下拉列表中選擇“ImagePrompts”選項(xiàng),如圖2-99所示,單擊左側(cè)的按鈕,彈出“打開”對(duì)話框,選擇本地圖像,如圖2-100所示。(2)單擊“打開”按鈕,在Midjourney中顯示上傳的圖像,如圖2-101所示。3.提示詞在使用圖像作為生成基礎(chǔ)(即“參考圖”)時(shí),提示詞扮演著至關(guān)重要的角色。它不僅是對(duì)參考圖內(nèi)容的補(bǔ)充和引導(dǎo),更是實(shí)現(xiàn)創(chuàng)意構(gòu)想、控制生成方向的關(guān)鍵。根據(jù)參考圖的不同作用方式,提示詞的側(cè)重點(diǎn)和寫法也有所不同。(1)配合ImagePrompts時(shí)的提示詞。(2)配合StyleReferences時(shí)的提示詞。(3)配合CharacterReferences時(shí)的提示詞。(3)場(chǎng)景二:喙尖初現(xiàn)(見(jiàn)圖2-107)。(4)場(chǎng)景三:小雞露頭(見(jiàn)圖2-108)。(5)場(chǎng)景四:小雞出殼(見(jiàn)圖2-109)。1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解探索視覺(jué)智能新境界:AI生成圖像技術(shù)的基本應(yīng)用的內(nèi)容。2.整個(gè)教學(xué)過(guò)程中,各教學(xué)點(diǎn)可根據(jù)實(shí)際情況,進(jìn)行拓展知識(shí)的講解。本章小結(jié):本章圍繞“AI生成圖像技術(shù)的基本應(yīng)用”展開,系統(tǒng)梳理了該技術(shù)的發(fā)展脈絡(luò)、核心特點(diǎn)與現(xiàn)實(shí)挑戰(zhàn),詳解了多款主流工具的使用方法。從技術(shù)層面,追溯了從AARON系統(tǒng)到擴(kuò)散模型的演進(jìn),分析了創(chuàng)新性、高效性等核心特征,以及數(shù)據(jù)質(zhì)量、倫理規(guī)范等面臨的難題;從工具應(yīng)用來(lái)看,涵蓋訊飛星火、文心一言、ChatGPT、亦心AI及Midjourney,分別介紹了其文生圖、圖生圖、風(fēng)格定制等核心功能與實(shí)操流程,包括提示詞設(shè)計(jì)、參數(shù)調(diào)整、智能體協(xié)作等關(guān)鍵技巧。通過(guò)實(shí)訓(xùn)任務(wù)與案例演示,展現(xiàn)了AI生成圖像在海報(bào)設(shè)計(jì)、藝術(shù)創(chuàng)作、場(chǎng)景還原等場(chǎng)景的實(shí)用價(jià)值。整體內(nèi)容兼顧理論深度與實(shí)踐指導(dǎo)性,幫助讀者掌握技術(shù)原理,提升工具應(yīng)用能力,同時(shí)強(qiáng)調(diào)了倫理合規(guī)與版權(quán)保護(hù)的重要性,為靈活運(yùn)用AI生成圖像技術(shù)開展創(chuàng)意實(shí)踐奠定基礎(chǔ)?!度斯ぶ悄芑A(chǔ)與應(yīng)用》課程教案課題:動(dòng)態(tài)視界:AI生成視頻技術(shù)的創(chuàng)新與應(yīng)用教學(xué)目的:理解AI生成視頻技術(shù)的發(fā)展和基本原理。掌握不同AI生成視頻工具的特點(diǎn)和應(yīng)用方法,如Midjourney、Pika和Sora。了解可靈AI的功能和技術(shù)特點(diǎn)。學(xué)習(xí)如何利用AI技術(shù)進(jìn)行視頻的生成、編輯和續(xù)寫。課型:新授課課時(shí):本章安排8個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):理解AI生成視頻技術(shù)的發(fā)展和基本原理。教學(xué)難點(diǎn):難點(diǎn):掌握不同AI生成視頻工具的特點(diǎn)和應(yīng)用方法,如Midjourney、Pika和Sora。教學(xué)過(guò)程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題動(dòng)態(tài)視界:AI生成視頻技術(shù)的創(chuàng)新與應(yīng)用課次4授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排8學(xué)分共2分授課對(duì)象普通高等院校學(xué)生任課教師教材及參考資料1.《人工智能基礎(chǔ)與應(yīng)用》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入AI正在深刻改變視頻制作行業(yè),從創(chuàng)作、編輯到后期處理的每個(gè)環(huán)節(jié)都能看到AI技術(shù)的應(yīng)用。本項(xiàng)目從AI生成視頻技術(shù)的發(fā)展和基本原理出發(fā),深入探討Midjourney、Pika、Sora等前沿工具的應(yīng)用,以及可靈AI的創(chuàng)新功能。通過(guò)實(shí)踐操作,讀者將掌握如何利用AI技術(shù)進(jìn)行視頻生成、編輯和續(xù)寫。AI在視頻制作中的應(yīng)用不僅提高了生產(chǎn)效率和質(zhì)量,還為創(chuàng)作者提供了更多的創(chuàng)意空間和創(chuàng)作可能性。隨著技術(shù)的不斷進(jìn)步和完善,未來(lái),AI將在視頻制作領(lǐng)域發(fā)揮更加重要的作用。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式
任務(wù)3.1AI生成視頻技術(shù)AI生成視頻技術(shù)是一種利用AI算法自動(dòng)創(chuàng)建視頻的技術(shù)。這項(xiàng)技術(shù)通過(guò)分析大量數(shù)據(jù),學(xué)習(xí)視頻制作的規(guī)律和模式,并根據(jù)用戶輸入的文本、圖像或其他形式的指令,自動(dòng)生成具有特定主題、風(fēng)格或情感的視頻。3.1.1AI生成視頻技術(shù)的發(fā)展AI生成視頻技術(shù)的發(fā)展是一個(gè)理論演進(jìn)與技術(shù)創(chuàng)新并行的過(guò)程,從早期的簡(jiǎn)單AI動(dòng)畫生成,逐步發(fā)展到現(xiàn)在高度復(fù)雜和逼真的視頻生成。1.早期實(shí)驗(yàn)與基礎(chǔ)研究(1950—1999年)2.深度學(xué)習(xí)的崛起(2006年至今)3.生成對(duì)抗網(wǎng)絡(luò)的應(yīng)用(2014年至今)4.大規(guī)模預(yù)訓(xùn)練模型與多模態(tài)學(xué)習(xí)(2018年至今)2018年后,多模態(tài)學(xué)習(xí)興起,其結(jié)合文本、音頻和圖像等多種模態(tài)的數(shù)據(jù)進(jìn)行訓(xùn)練,使得AI能夠生成更加豐富和多樣化的內(nèi)容。例如,DALL-E和CLIP等模型實(shí)現(xiàn)了將文本描述轉(zhuǎn)化為圖像或視頻。隨著技術(shù)的不斷進(jìn)步,AI生成視頻技術(shù)將在質(zhì)量和逼真度上得到進(jìn)一步提升。未來(lái)的AI生成視頻系統(tǒng)將具備更強(qiáng)的交互能力,能夠更好地理解和響應(yīng)用戶的需求,提供更加個(gè)性化的服務(wù)。3.1.2AI生成視頻技術(shù)的基本原理AI生成視頻技術(shù)的原理主要依賴于深度學(xué)習(xí)模型,特別是生成對(duì)抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)等技術(shù)。這些模型能夠從大量數(shù)據(jù)中學(xué)習(xí)視頻生成的規(guī)律,并通過(guò)用戶輸入的文本或圖像來(lái)生成相應(yīng)的視頻。AI生成視頻技術(shù)的應(yīng)用場(chǎng)景包括廣告制作、電影預(yù)告片生成、教育課程視頻制作等,能夠顯著提高視頻創(chuàng)作的效率和多樣性。通過(guò)AI生成視頻技術(shù),用戶可以輕松地將創(chuàng)意轉(zhuǎn)化為生動(dòng)的視頻,滿足不同的創(chuàng)作需求。AI生成視頻技術(shù)的基本原理涉及多個(gè)復(fù)雜的步驟和算法,主要包括以下幾方面。1.?dāng)?shù)據(jù)收集與預(yù)處理首先,需要收集大量的視頻數(shù)據(jù),這些數(shù)據(jù)可以來(lái)自公開的視頻庫(kù)、社交媒體平臺(tái)或?qū)iT拍攝的素材。收集到的數(shù)據(jù)需要進(jìn)行預(yù)處理,包括清洗、標(biāo)注和格式化等,以便后續(xù)的訓(xùn)練和使用。2.特征提取使用深度學(xué)習(xí)模型(如卷積神經(jīng)網(wǎng)絡(luò)模型)從視頻幀中提取關(guān)鍵特征。這些特征可能包括顏色、紋理、形狀、運(yùn)動(dòng)軌跡等,它們對(duì)于AI理解和生成視頻至關(guān)重要。3.序列建模視頻是由一系列連續(xù)的幀組成的,因此需要對(duì)視頻序列進(jìn)行建模。這通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或其變體(如LSTM、GRU),它們能夠處理序列數(shù)據(jù)并捕捉時(shí)間上的依賴關(guān)系。4.生成模型常用的生成模型是生成對(duì)抗網(wǎng)絡(luò)(GAN),它由一個(gè)生成器和一個(gè)判別器組成。生成器負(fù)責(zé)創(chuàng)建新的視頻幀,而判別器則負(fù)責(zé)評(píng)估這些幀的真實(shí)性。通過(guò)不斷的訓(xùn)練和對(duì)抗學(xué)習(xí),生成器逐漸學(xué)會(huì)生成逼真的視頻。5.自然語(yǔ)言處理(NLP)如果視頻包含字幕或?qū)υ?,則可以使用NLP技術(shù),其可以理解和生成自然語(yǔ)言文本。這有助于提升視頻的可訪問(wèn)性和互動(dòng)性。6.語(yǔ)音合成對(duì)于有聲視頻,語(yǔ)音合成技術(shù)可以將文本轉(zhuǎn)換為自然流暢的語(yǔ)音。這在生成帶有解說(shuō)或?qū)υ挼囊曨l時(shí)非常有用。7.圖像識(shí)別與跟蹤計(jì)算機(jī)視覺(jué)技術(shù)用于識(shí)別與跟蹤視頻中的物體、人物和場(chǎng)景。這對(duì)于創(chuàng)建連貫且邏輯性強(qiáng)的視頻非常重要。8.個(gè)性化推薦基于用戶的歷史行為和偏好,AI可以生成個(gè)性化的視頻推薦。這通常涉及協(xié)同過(guò)濾、內(nèi)容基于推薦或混合推薦系統(tǒng)等算法。9.實(shí)時(shí)渲染與特效AI可以實(shí)現(xiàn)實(shí)時(shí)視頻編輯和特效添加,這通常依賴于高效的圖形處理單元(GPU)和優(yōu)化的算法來(lái)實(shí)現(xiàn)快速渲染。10.倫理與隱私保護(hù)在生成視頻的過(guò)程中,需要確保遵守相關(guān)的倫理和隱私法規(guī)。例如,在使用真實(shí)的人臉或聲音時(shí)需要獲得授權(quán),避免侵犯他人的肖像權(quán)或隱私權(quán)。AI生成視頻技術(shù)是一個(gè)多學(xué)科交叉領(lǐng)域,它結(jié)合了深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等多個(gè)領(lǐng)域的最新研究成果,旨在生成高質(zhì)量的視頻。隨著技術(shù)的不斷進(jìn)步和完善,未來(lái)將會(huì)有更多創(chuàng)新的應(yīng)用出現(xiàn)。3.1.3AI生成視頻技術(shù)的應(yīng)用領(lǐng)域AI生成視頻技術(shù)在娛樂(lè)、廣告、教育等領(lǐng)域具有廣泛的應(yīng)用前景。例如,在娛樂(lè)領(lǐng)域,AI可以自動(dòng)生成電影預(yù)告片、音樂(lè)視頻等;在廣告領(lǐng)域,AI可以生成個(gè)性化的廣告視頻等;在教育領(lǐng)域,AI可以生成教學(xué)視頻、實(shí)驗(yàn)演示等。然而,AI生成視頻技術(shù)也面臨著一些挑戰(zhàn),例如,如何保證生成視頻的真實(shí)性和可信度,如何處理版權(quán)問(wèn)題等。1.娛樂(lè)(電影、動(dòng)畫制作)AI可以自動(dòng)生成劇本、場(chǎng)景描述甚至整個(gè)故事線,從而為編劇和導(dǎo)演提供靈感。例如,通過(guò)分析大量成功電影的劇本結(jié)構(gòu),AI能夠預(yù)測(cè)哪些情節(jié)轉(zhuǎn)折最吸引觀眾,從而輔助編劇創(chuàng)作出更受歡迎的劇本。(1)角色設(shè)計(jì)與動(dòng)畫制作。(2)特效與后期處理。2.廣告AI可以根據(jù)用戶的瀏覽歷史、購(gòu)買記錄等信息,生成高度個(gè)性化的廣告視頻,從而提高點(diǎn)擊率和轉(zhuǎn)化率。例如,電商平臺(tái)可以利用AI生成針對(duì)特定用戶的商品推薦視頻。(1)社交媒體短視頻制作。(2)市場(chǎng)趨勢(shì)分析。3.教育AI生成視頻技術(shù)在教育領(lǐng)域的應(yīng)用已經(jīng)取得了顯著進(jìn)展,特別是在提供個(gè)性化學(xué)習(xí)體驗(yàn)和虛擬實(shí)驗(yàn)室方面。通過(guò)提供定制化學(xué)習(xí)材料和安全的實(shí)踐環(huán)境,AI不僅提高了學(xué)生的學(xué)習(xí)效率,還為他們提供了更多的探索機(jī)會(huì)。(1)定制化學(xué)習(xí)材料。(2)虛擬實(shí)驗(yàn)室與模擬訓(xùn)練。(3)語(yǔ)言學(xué)習(xí)與文化交流。4.游戲開發(fā)AI生成視頻技術(shù)在游戲開發(fā)中的基礎(chǔ)應(yīng)用主要體現(xiàn)在劇情與任務(wù)生成、NPC行為與對(duì)話、測(cè)試與優(yōu)化方面,通過(guò)動(dòng)態(tài)生成獨(dú)特的游戲體驗(yàn)和提供更深入的互動(dòng),AI不僅增加了游戲的可玩性,還為開發(fā)者提供了有效的工具來(lái)優(yōu)化游戲質(zhì)量。(1)劇情與任務(wù)生成。(2)NPC行為與對(duì)話。(3)測(cè)試與優(yōu)化。5.虛擬助手與交互式媒體通過(guò)生成生動(dòng)有趣的虛擬助手形象、提供逼真的三維模型和場(chǎng)景,以及創(chuàng)造全新的交互式媒體形式,AI不僅提升了用戶體驗(yàn),還為多個(gè)行業(yè)帶來(lái)了創(chuàng)新的解決方案。(1)智能客服。(2)增強(qiáng)現(xiàn)實(shí)(AR)與虛擬現(xiàn)實(shí)(VR)體驗(yàn)。(3)交互式故事講述。任務(wù)3.2Midjourney視頻Midjourney結(jié)合Pika實(shí)現(xiàn)了AI生成視頻功能,可以通過(guò)文本和圖像生成視頻、更改視頻,還可以切換視頻風(fēng)格。其顛覆了傳統(tǒng)視頻制作方式,讓“每一個(gè)普通人都能成為電影導(dǎo)演”變成現(xiàn)實(shí)。3.2.1Pika概述Pika是一款利用生成式AI技術(shù)生成和編輯多種風(fēng)格視頻的工具。它支持生成3D動(dòng)畫、動(dòng)漫、卡通和電影等風(fēng)格的視頻,并提供了視頻局部編輯和擴(kuò)充功能。3.2.2機(jī)器人服務(wù)器Pika在Midjourney中,通過(guò)邀請(qǐng)機(jī)器人服務(wù)器Pika,可以使用戶通過(guò)動(dòng)態(tài)視頻將想法變?yōu)楝F(xiàn)實(shí),而無(wú)須高級(jí)視頻編輯技能或訪問(wèn)復(fù)雜的視頻制作資源。這對(duì)內(nèi)容創(chuàng)作者、營(yíng)銷人員、教育工作者,以及任何希望以更具互動(dòng)性和視覺(jué)吸引力的方式傳達(dá)信息或故事的人來(lái)說(shuō)特別有用。1.邀請(qǐng)加入(1)打開Midjourney用戶服務(wù)器,在下方命令框中輸入Pika網(wǎng)址。(2)按回車鍵,將網(wǎng)址發(fā)送到服務(wù)器中,在服務(wù)器中添加機(jī)器人服務(wù)器Pika,如圖3-1所示。(3)單擊“已加入”按鈕,進(jìn)入機(jī)器人服務(wù)器Pika界面,左側(cè)顯示頻道列表,右側(cè)顯示Pika服務(wù)器指南,如圖3-2所示。2.選擇頻道進(jìn)入機(jī)器人服務(wù)器Pika界面后,左側(cè)“Pika”列表中顯示了不同的頻道,任意選擇一個(gè),如“generate-1”,進(jìn)入指定頻道公共區(qū)域界面,如圖3-3所示。由于進(jìn)入的是公共區(qū)域,因此我們生成的視頻,可以被所有人看到。同樣,我們也可以看到其他人生成的視頻。3.2.3Pika命令參數(shù)進(jìn)入Pika指定頻道公共區(qū)域界面后,可以在右側(cè)下方的命令框中輸入命令或上傳圖像,進(jìn)行視頻生成操作。在命令框中輸入“/”,彈出命令列表,如圖3-4所示。列表左側(cè)顯示了常用的官方服務(wù)器,不同的服務(wù)器中包含不同的命令。:MidjourneyBot服務(wù)器,用于AI繪圖。:Nekotina服務(wù)器,主要用于定制歡迎、告別和提示消息,以及提供多種角色扮演命令和表情包。:Picsart服務(wù)器,主要用于進(jìn)行圖像編輯處理。:Pika服務(wù)器:用于生成AI視頻。單擊“Pika服務(wù)器”按鈕,打開服務(wù)器列表,顯示Pika服務(wù)器命令,如圖3-5所示。(1)/animate:創(chuàng)建、編輯或播放動(dòng)畫,包括幀動(dòng)畫、骨骼動(dòng)畫、粒子效果等。(2)/create:這是一個(gè)通用的創(chuàng)建動(dòng)畫命令。(3)/encrypt_image:圖像加密命令。其通過(guò)一個(gè)特定的算法或工具,對(duì)圖像進(jìn)行加密,以保護(hù)其內(nèi)容不被未經(jīng)授權(quán)的人訪問(wèn)。(4)/encrypt_text:類似于/encrypt_image,用于文本內(nèi)容的加密。它可以確保敏感信息(如密碼、個(gè)人數(shù)據(jù)等)在傳輸或存儲(chǔ)時(shí)的安全性。在利用AI生成視頻時(shí),不同的命令會(huì)生成不同風(fēng)格和效果的視頻。例如,使用/create命令生成的視頻往往偏向于現(xiàn)實(shí)風(fēng)格,而使用/animate命令生成的視頻則偏向于動(dòng)畫風(fēng)格。3.2.4使用/create命令生成視頻Pika通過(guò)/create命令生成的視頻通常具有更高的真實(shí)感,適用于需要呈現(xiàn)逼真場(chǎng)景的應(yīng)用,如紀(jì)錄片片段、新聞報(bào)道或教育視頻。這類視頻在細(xì)節(jié)處理上更加精細(xì),能夠更好地還原現(xiàn)實(shí)世界的物體和環(huán)境。1.輸入提示詞一般情況下,在命令框中輸入“/create”命令后,界面將顯示prompt(提示詞)參數(shù),可在其后面輸入提示詞,一般為英文提示詞,如圖3-6所示。在利用AI生成視頻時(shí),應(yīng)該盡量使用簡(jiǎn)短的提示詞,避免復(fù)雜的句子結(jié)構(gòu),這樣可以降低畫面變形的概率。清晰的主體描述加上相關(guān)的標(biāo)簽通常足夠生成滿意的視頻。1)靜態(tài)對(duì)象視頻2)添加動(dòng)作提示詞2.視頻設(shè)置可以發(fā)現(xiàn),Pika生成視頻后,在視頻下方顯示五個(gè)按鈕。這些按鈕的設(shè)計(jì)旨在為用戶提供多樣化的操作選項(xiàng),從而增強(qiáng)用戶體驗(yàn)和互動(dòng)性。(1)贊(2)倒贊(3)循環(huán)(4)交叉(5)刪除3.提示詞加圖像(1)在命令框中輸入“/create”命令,單擊“增加1”按鈕,打開“選項(xiàng)”面板,選擇“image”(圖像)選項(xiàng),顯示圖像文件預(yù)覽框,將圖像拖曳到該框中,完成圖像的添加,并輸入提示詞“MakethebutterflyStirringwings”(讓蝴蝶扇動(dòng)翅膀)。(2)在第一次生成的視頻中,蝴蝶的翅膀是靜止不動(dòng)的。然而,當(dāng)我們單擊“循環(huán)”按鈕重新生成視頻時(shí),蝴蝶翅膀有了輕微的煽動(dòng)。這一變化表明,通過(guò)多次嘗試和迭代,視頻生成技術(shù)在不斷改進(jìn)和優(yōu)化,使得細(xì)節(jié)表現(xiàn)更加生動(dòng)和真實(shí)。這體現(xiàn)了在生成視頻過(guò)程中進(jìn)行多次嘗試的重要性,這樣做可以確保最終結(jié)果達(dá)到更高的質(zhì)量和逼真度。3.2.5使用/animate命令生成視頻Midjourney中的“/animate”命令能夠以用戶上傳的圖像和提示詞作為參考生成視頻,增強(qiáng)視頻與特定圖像內(nèi)容的關(guān)聯(lián)性。在命令框中輸入“/animate”命令,顯示圖像文件預(yù)覽框,如圖3-12所示。單擊“上傳”按鈕,彈出“打開”對(duì)話框,選擇參考圖,單擊“打開”按鈕,上傳參考圖,如圖3-13所示。此時(shí),命令框的image參數(shù)右側(cè)將顯示圖像地址。之后使用上傳的圖像作為底圖,底圖是視頻的第一幀。在命令框中輸入提示詞,描述附加圖像的主題和背景,以及具體的動(dòng)作,但無(wú)法進(jìn)行較大的更改。例如,輸入“ancatyawns”(貓打哈欠),如圖3-14所示。按回車鍵,生成視頻,結(jié)果如圖3-15所示。從圖3-15中可以得知,通過(guò)貓坐著張嘴打哈欠的圖像,可以得到貓從張大嘴到合上嘴打哈欠的動(dòng)態(tài)過(guò)程。然而,無(wú)法從貓坐著的狀態(tài)生成它站起來(lái)的視頻。這表明當(dāng)前的技術(shù)在生成特定動(dòng)作的連續(xù)性方面存在一定的局限性,需要進(jìn)一步優(yōu)化和改進(jìn),以實(shí)現(xiàn)更復(fù)雜的動(dòng)態(tài)轉(zhuǎn)換。任務(wù)3.3Sora生成視頻Sora的推出標(biāo)志著OpenAI在視頻生成領(lǐng)域取得了革命性的進(jìn)步。這種結(jié)合了擴(kuò)散模型和大語(yǔ)言模型技術(shù)的視頻生成系統(tǒng),為從文本到視頻的轉(zhuǎn)換提供了一種全新的方法。Sora不僅能夠生成高質(zhì)量的視頻,還能夠根據(jù)用戶的文本描述生成與之匹配的視頻,這為內(nèi)容創(chuàng)作者和開發(fā)者提供了前所未有的創(chuàng)作自由度和靈活性。3.3.1Sora概述Sora是由美國(guó)AI研究公司OpenAI推出的一款先進(jìn)的AI生成視頻大模型。它在OpenAI的文本到圖像生成模型DALL-E的基礎(chǔ)上發(fā)展而來(lái)。Sora為藝術(shù)家、電影制片人及學(xué)生等需要制作視頻的用戶帶來(lái)了無(wú)限的可能性。1.Sora基本原理Sora的工作原理基于擴(kuò)散模型,其核心是通過(guò)反向擴(kuò)散過(guò)程從隨機(jī)噪聲中生成視頻。具體來(lái)說(shuō),Sora從純隨機(jī)噪聲起步,經(jīng)多階段計(jì)算逐步提煉出結(jié)構(gòu)化信息,將無(wú)序的像素分布轉(zhuǎn)化為連貫的圖像序列。憑借擴(kuò)散模型的長(zhǎng)時(shí)序建模能力,Sora可生成最長(zhǎng)一分鐘的視頻,支持寫實(shí)、動(dòng)畫等多種視頻風(fēng)格,以及1024像素×1024像素等標(biāo)準(zhǔn)分辨率。(1)擴(kuò)散模型是一種生成模型,通過(guò)模擬數(shù)據(jù)分布的逐漸變化過(guò)程來(lái)生成新數(shù)據(jù)。在視頻生成中,這個(gè)過(guò)程通常從一個(gè)隨機(jī)噪聲信號(hào)開始,通過(guò)逐步添加細(xì)節(jié)和結(jié)構(gòu),最終形成完整的視頻幀。這種方法的優(yōu)勢(shì)在于它能夠捕捉到數(shù)據(jù)分布的細(xì)微變化,從而生成高度逼真的視頻。(2)Sora不僅依賴于擴(kuò)散模型,還受到了大語(yǔ)言模型的啟發(fā)。通過(guò)集成大語(yǔ)言模型技術(shù),Sora能夠更好地理解和處理文本輸入,并將其轉(zhuǎn)化為對(duì)應(yīng)的視頻。這種結(jié)合使得Sora在處理復(fù)雜場(chǎng)景和多樣化內(nèi)容時(shí)表現(xiàn)出色。2.Sora技術(shù)架構(gòu)Sora采用了一種結(jié)合變換器(Transformer)主干的擴(kuò)散模型架構(gòu)。這種架構(gòu)包括以下幾個(gè)關(guān)鍵組件。(1)變分自編碼器(VAE):用于將輸入視頻壓縮成一個(gè)潛在空間表示。這個(gè)潛在空間表示保留了視頻的主要特征,同時(shí)去除了冗余信息,從而提高了模型的效率和生成能力。(2)視覺(jué)變換器(ViT):用于處理壓縮后的潛在空間表示。ViT通過(guò)注意力機(jī)制來(lái)捕捉視頻幀之間的時(shí)空關(guān)系,從而提高生成視頻的連貫性和一致性。(3)去噪擴(kuò)散概率模型(DDPM):這是擴(kuò)散模型的核心部分,負(fù)責(zé)逐步去噪并生成最終的視頻幀。DDPM通過(guò)多個(gè)步驟逐步去除潛在空間表示中的噪聲,每一步都使生成的視頻更加接近真實(shí)的場(chǎng)景。3.Sora技術(shù)特點(diǎn)憑借先進(jìn)的深度學(xué)習(xí)框架、高度可定制性和可擴(kuò)展性、文本到視頻的轉(zhuǎn)換能力、創(chuàng)新性與多樣性、強(qiáng)大的物理世界模擬能力及高效的訓(xùn)練流程等特點(diǎn),Sora在AI生成視頻領(lǐng)域展現(xiàn)出卓越的性能和廣泛的應(yīng)用潛力。Sora技術(shù)特點(diǎn)主要體現(xiàn)在以下幾方面。(1)先進(jìn)的深度學(xué)習(xí)框架。(2)高度可定制性和可擴(kuò)展性。(3)文本到視頻的轉(zhuǎn)換能力。(4)創(chuàng)新性與多樣性。(5)強(qiáng)大的物理世界模擬能力。(6)高效的訓(xùn)練流程。4.Sora界面使用Sora模型從文本生成高質(zhì)量的視頻,這一過(guò)程不僅提高了視頻創(chuàng)作的效率,還為用戶提供了更多的創(chuàng)意空間和創(chuàng)作可能性。Sora被設(shè)計(jì)為一個(gè)獨(dú)立產(chǎn)品,在S上提供服務(wù),首批開放給Plus和Pro用戶使用。這個(gè)平臺(tái)提供了一個(gè)全新的用戶界面。在OpenAI官方網(wǎng)站上注冊(cè)一個(gè)賬號(hào),即可直接登錄Sora網(wǎng)頁(yè)版,其界面如圖3-24所示。(1)“Explore”窗口(2)“Images”窗口(3)“Videos”窗口(4)“Top”窗口(5)“Likes”窗口(6)“Mymedia”窗口3.3.2文生視頻Sora文生視頻提示詞在視頻創(chuàng)作中發(fā)揮著至關(guān)重要的作用。它們不僅可以幫助創(chuàng)作者明確創(chuàng)作意圖和控制視頻風(fēng)格,還可以優(yōu)化生成過(guò)程、提高創(chuàng)作效率,并促進(jìn)創(chuàng)意表達(dá)。通過(guò)合理使用提示詞,創(chuàng)作者可以創(chuàng)作出高質(zhì)量、有趣且符合預(yù)期的視頻。1)指導(dǎo)視頻內(nèi)容2)控制視頻風(fēng)格3.3.3圖生視頻Sora還具備根據(jù)靜態(tài)圖像生成視頻的能力,能夠讓圖像內(nèi)容“動(dòng)”起來(lái),同時(shí)關(guān)注細(xì)節(jié)呈現(xiàn)——通過(guò)添加動(dòng)畫效果、過(guò)渡場(chǎng)景和動(dòng)態(tài)元素來(lái)增強(qiáng)視覺(jué)吸引力,使得生成的視頻更加生動(dòng)逼真。圖生視頻功能在動(dòng)畫制作、廣告設(shè)計(jì)等領(lǐng)域具有廣泛的應(yīng)用前景。1.生成視頻(1)在Sora網(wǎng)頁(yè)版界面的提示詞文本框左側(cè)單擊“+”按鈕,彈出下拉列表,如圖3-30所示。選擇“Uploadfromdevice”(從設(shè)備上傳)選項(xiàng),彈出“Mediauploadagreement”(視頻上傳協(xié)議)界面,如圖3-31所示,需要勾選下面所有的復(fù)選框,同意不上傳包含暴力或明確主題的視頻等,才可激活“Accept”(接受)按鈕。(2)單擊“Accept”(接受)按鈕,彈出“打開”對(duì)話框,在該對(duì)話框中選擇靜態(tài)圖像,如圖3-32所示。(3)導(dǎo)入靜態(tài)圖像后,在圖像下的提示詞文本框中輸入提示詞(4)單擊按鈕,Sora會(huì)根據(jù)這個(gè)提示詞生成兩段視頻,如圖3-34所示。①在生成的第一段視頻中,綠色的卡通人物并沒(méi)有按照預(yù)期執(zhí)行原地轉(zhuǎn)圈的動(dòng)作,而是變成了一個(gè)球體,并在地面上滾動(dòng)。這一變化展示了Sora在理解和執(zhí)行提示詞時(shí)的創(chuàng)造性和靈活性。盡管這與原始提示詞有所偏離,但它提供了一個(gè)有趣且獨(dú)特的視覺(jué)效果。②在生成的第二段視頻中,綠色的卡通人物確實(shí)執(zhí)行了原地轉(zhuǎn)圈的動(dòng)作。然而,這個(gè)動(dòng)作是通過(guò)轉(zhuǎn)換鏡頭角度來(lái)實(shí)現(xiàn)的,而不是人物自身在移動(dòng)。這種方法創(chuàng)造了一種視覺(jué)上的旋轉(zhuǎn)效果,使觀眾感覺(jué)人物正在快速轉(zhuǎn)動(dòng)。使用鏡頭轉(zhuǎn)換來(lái)模擬旋轉(zhuǎn)效果是一種巧妙的技術(shù)手段,避免了復(fù)雜的動(dòng)畫制作過(guò)程,同時(shí)達(dá)到了預(yù)期的視覺(jué)效果。2.編輯提示詞(1)為了使Sora更準(zhǔn)確地理解和執(zhí)行用戶的意圖,從而生成符合預(yù)期的視頻,打開第一段視頻,在視頻下方單擊“Editprompt”(編輯提示詞)按鈕,進(jìn)入編輯界面,輸入更具體的提示詞“Thecharacterrotatesonce”(人物自轉(zhuǎn)一圈),如圖3-35所示。(2)單擊按鈕,Sora會(huì)根據(jù)修改后的提示詞生成兩段視頻,如圖3-36所示??梢园l(fā)現(xiàn),重新生成的兩段視頻更貼近提示詞“Characterrotatesinplace”(人物原地轉(zhuǎn)圈),成功描繪了人物自轉(zhuǎn)的動(dòng)態(tài)效果。①在生成的第一段視頻中,綠色卡通人物確實(shí)執(zhí)行了原地轉(zhuǎn)圈的動(dòng)作,但與預(yù)期不同的是,這個(gè)動(dòng)作是在人物緊縮身體變成球的狀態(tài)下完成的。這種變化雖然有趣,但偏離了最初提示詞“Characterrotatesinplace”(人物原地轉(zhuǎn)圈)的直接要求。②在生成的第二段視頻中,綠色卡通人物成功執(zhí)行了原地轉(zhuǎn)圈的動(dòng)作,雖然在旋轉(zhuǎn)過(guò)程中人物身體發(fā)生了變形,但基本實(shí)現(xiàn)了預(yù)期的效果。此外,該動(dòng)作表現(xiàn)得非常流暢和自然,充分展示了Sora在動(dòng)畫制作方面的高超技藝。(3)盡管這兩段視頻都展示了Sora的能力,但結(jié)果仍有改進(jìn)空間。3.3.4視頻生成視頻Sora具備將現(xiàn)有視頻轉(zhuǎn)換為新風(fēng)格的能力,但有時(shí)效果可能不如預(yù)期。這表明該功能需要進(jìn)一步優(yōu)化。即使重復(fù)生成,也可能無(wú)法達(dá)到預(yù)期效果,這就需要使用視頻生成視頻技術(shù)來(lái)提升轉(zhuǎn)換質(zhì)量和準(zhǔn)確性。Sora的視頻生成視頻技術(shù)不僅具備將現(xiàn)有視頻轉(zhuǎn)換為新風(fēng)格的能力,還提供了多種高級(jí)功能來(lái)增強(qiáng)和定制視頻內(nèi)容。1.導(dǎo)入基礎(chǔ)視頻在Sora網(wǎng)頁(yè)版界面的提示詞文本框左側(cè)單擊“+”按鈕,顯示兩種導(dǎo)入視頻的方法。(1)選擇“Uploadfromdevice”(從設(shè)備上傳)選項(xiàng),彈出“打開”對(duì)話框,在該對(duì)話框中可以選擇基礎(chǔ)視頻,如圖3-37所示。(2)選擇“Choosefromlibrary”(從庫(kù)中選擇)選項(xiàng),打開視頻選擇界面,從用戶視頻庫(kù)中選擇視頻,如圖3-38所示。2.Remix(重新混音)(1)在Sora的AI視頻生成器中,Remix是一個(gè)重要的功能,它允許用戶調(diào)整生成視頻的多個(gè)方面,以優(yōu)化最終的輸出效果。借助Remix功能,用戶能夠使用自然語(yǔ)言描述來(lái)對(duì)視頻元素進(jìn)行替換、移除或重構(gòu)。(2)導(dǎo)入視頻后,單擊右下角的“Remix”(重新混音)按鈕,進(jìn)入視頻混音編輯界面,如圖3-39所示。在該編輯界面中,激活提示詞功能,通過(guò)在提示詞文本框中輸入提示詞來(lái)描述想要實(shí)現(xiàn)的視頻內(nèi)容修改。Sora的AI技術(shù)將根據(jù)這些提示詞智能地對(duì)視頻進(jìn)行相應(yīng)的調(diào)整和創(chuàng)新,從而以全新的視角重塑視頻內(nèi)容。(3)在提示詞文本框中輸入提示詞,通過(guò)文本描述修改視頻內(nèi)容。例如,輸入提示詞“Addingtreesinthebackground”(在背景中添加樹木)。(4)單擊“Remix”(重新混音)按鈕,啟動(dòng)視頻的生成過(guò)程,效果如圖3-40所示。根據(jù)基礎(chǔ)視頻與提示詞描述,想得到一段以一頭大象為主體的視頻,并在背景中添加樹木。通過(guò)圖3-40可以看出,生成的視頻中樹木的效果并不如預(yù)期那樣明顯。這可能是因?yàn)闃淠镜募?xì)節(jié)沒(méi)有被充分地捕捉和渲染。(5)為了改善該效果,再次單擊“Remix”(重新混音)按鈕,進(jìn)行第二次視頻生成,如圖3-41所示。通過(guò)圖3-41可以發(fā)現(xiàn),樹木變得更加明顯和生動(dòng),但效果仍不是太滿意。這可能是由于AI在解析和執(zhí)行文本描述時(shí)存在一定的局限性,此時(shí)可以稍微調(diào)整提示詞的描述。(6)再次單擊“Remix”(重新混音)按鈕,進(jìn)行第三次視頻生成。(7)除了修改提示詞,通過(guò)設(shè)置混音強(qiáng)度參數(shù)也可以調(diào)整視頻生成效果,生成視頻下方包含四種混音強(qiáng)度參數(shù),如圖3-43所示。這些參數(shù)可以實(shí)現(xiàn)不同級(jí)別的創(chuàng)意控制,允許用戶根據(jù)需要選擇適當(dāng)?shù)膹?qiáng)度。3.Blend(混合)(1)Blend(混合)功能是Sora視頻生成器中一個(gè)強(qiáng)大的特性,允許用戶將兩段視頻無(wú)縫結(jié)合,創(chuàng)造出獨(dú)特且具有視覺(jué)吸引力的短片。這種混合并不是簡(jiǎn)單的拼接,而是通過(guò)高級(jí)智能算法確保兩段視頻之間的過(guò)渡自然流暢,仿佛它們?cè)揪褪且粋€(gè)整體。需要注意的是,要使用Blend功能,需要先準(zhǔn)備兩段視頻。(2)導(dǎo)入第一段視頻到Sora平臺(tái)后,單擊界面右下角的“Blend”(混合)按鈕,激活該功能,如圖3-44所示。此時(shí),可以單擊“Uploadvideo”(上傳視頻)或“Choosefromlibrary”(從庫(kù)中選擇)選項(xiàng)。這里選擇“Uploadvideo”(上傳視頻)選項(xiàng),彈出“打開”對(duì)話框,選擇第二段視頻。(3)成功導(dǎo)入兩段視頻之后,進(jìn)入Sora的Blend功能編輯界面,如圖3-45所示。這個(gè)界面提供了一個(gè)直觀且功能強(qiáng)大的平臺(tái),使用戶可以精確調(diào)整兩段視頻的混合方式。(4)在Blend功能編輯界面中,可以選擇手動(dòng)調(diào)整混合區(qū)域和影響曲線,以實(shí)現(xiàn)更精確的控制。當(dāng)對(duì)自動(dòng)生成的結(jié)果不完全滿意時(shí),這種手動(dòng)調(diào)整功能特別有用。(5)此外,Sora還提供了幾種預(yù)設(shè)的混合效果參數(shù),如圖3-46所示。單擊“Blend”(混合)按鈕,并選中相應(yīng)的混合效果參數(shù),生成混合視頻,實(shí)現(xiàn)特定的視覺(jué)效果,如圖3-47所示。(6)Sora的這種混合技術(shù)特別適合制作音樂(lè)視頻、短片或任何需要進(jìn)行動(dòng)態(tài)視覺(jué)表現(xiàn)的項(xiàng)目。通過(guò)Blend功能,可以探索無(wú)限的創(chuàng)意可能性,并制作出真正反映藝術(shù)視角的視頻。4.Loop(循環(huán))(1)Loop功能允許用戶在時(shí)間軸上截取鏡頭,并制作無(wú)縫循環(huán)的視頻片段。這對(duì)于創(chuàng)建背景音樂(lè)視頻、動(dòng)態(tài)壁紙或社交媒體上吸引眼球的內(nèi)容非常有用。(2)導(dǎo)入視頻到Sora平臺(tái)后,單擊界面右下角的“Loop”(循環(huán))按鈕,進(jìn)入Sora的Loop功能編輯界面,如圖3-48所
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 海外物資設(shè)備管理培訓(xùn)
- 氣焊工測(cè)試驗(yàn)證模擬考核試卷含答案
- 冷拉絲工操作評(píng)估考核試卷含答案
- 熱縮材料制造工安全培訓(xùn)知識(shí)考核試卷含答案
- 中藥藥劑員誠(chéng)信強(qiáng)化考核試卷含答案
- 藥品購(gòu)銷員安全技能競(jìng)賽考核試卷含答案
- 酒店員工培訓(xùn)與職業(yè)生涯規(guī)劃制度
- 酒店服務(wù)質(zhì)量監(jiān)督評(píng)價(jià)制度
- 財(cái)務(wù)費(fèi)用報(bào)銷與審批制度
- 土壤及動(dòng)植物樣本檢測(cè)擴(kuò)建項(xiàng)目環(huán)境影響報(bào)告表
- 2026中考英語(yǔ)時(shí)文熱點(diǎn):跨學(xué)科融合閱讀 練習(xí)(含解析)
- 《筑牢安全防線 歡度平安寒假》2026年寒假安全教育主題班會(huì)課件
- 2026國(guó)家國(guó)防科技工業(yè)局所屬事業(yè)單位第一批招聘62人備考題庫(kù)及答案詳解(新)
- 信息技術(shù)應(yīng)用創(chuàng)新軟件適配測(cè)評(píng)技術(shù)規(guī)范
- 2026版安全隱患排查治理
- 道路施工安全管理課件
- (2025年)吉林事業(yè)單位考試真題附答案
- 肉瘤的課件教學(xué)課件
- 《患者身份識(shí)別管理標(biāo)準(zhǔn)》測(cè)試題及答案
- VTE患者并發(fā)癥預(yù)防與處理
- 車輛救援合同協(xié)議書
評(píng)論
0/150
提交評(píng)論