版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
E-mail:ziyulin@林子雨
副教授廈門大學(xué)人工智能通識——零基礎(chǔ)學(xué)AI主講教師和作者林子雨簡介廈門大學(xué)計算機科學(xué)與技術(shù)系副教授以第一作者編著20本大數(shù)據(jù)與人工智能教材被國內(nèi)1000余所高校采用榮獲“2022年福建省高等教育教學(xué)成果獎特等獎(個人排名第一)”入選“2021年高校計算機專業(yè)優(yōu)秀教師獎勵計劃”2018年國家精品在線開放課程(獨立主講)2020年國家級線上一流本科課程(獨立主講)2021年國家級線上一流本科課程(獨立主講)入選“2023年教育部國家智慧教育公共服務(wù)平臺應(yīng)用典型案例”《人工智能通識——零基礎(chǔ)學(xué)AI》教材《人工智能通識——零基礎(chǔ)學(xué)AI》林子雨
編著人民郵電出版社2025年12月第1版ISBN:978-7-115-68594-0定價:49.8元教材官網(wǎng)提供詳細(xì)信息和樣書申請官網(wǎng):/post/ai-basic/掃碼訪問教材官網(wǎng)了解詳情、獲取資源、申請樣書教材官網(wǎng)提供配套教學(xué)資源:教學(xué)大綱、講義PPT、上機實驗手冊、案例視頻、MOOC視頻、大模型科普講座PPT、大模型講座視頻和1000道題庫等第10章AIGC應(yīng)用與實踐01AIGC概述目錄02文本類AIGC應(yīng)用實踐03圖片類AIGC應(yīng)用實踐04語音類AIGC應(yīng)用實踐05視頻類AIGC應(yīng)用實踐06AIGC技術(shù)在輔助編程中的應(yīng)用07AI搜索01AIGC概述PartoneAIGC的全稱為“ArtificialIntelligenceGeneratedContent”,中文翻譯為“人工智能生成內(nèi)容”。這是一種新的創(chuàng)作方式,利用人工智能技術(shù)來生成各種形式的內(nèi)容,包括文字、音樂、圖像、視頻等。AIGC是人工智能進(jìn)入全新發(fā)展時期的重要標(biāo)志,其核心技術(shù)包括生成對抗網(wǎng)絡(luò)(GAN,GenerativeAdversarialNetworks)、大型預(yù)訓(xùn)練模型、多模態(tài)技術(shù)等。概念與核心技術(shù)AIGC的核心思想是利用人工智能算法生成具有一定創(chuàng)意和質(zhì)量的內(nèi)容。通過訓(xùn)練模型和大量數(shù)據(jù)的學(xué)習(xí),AIGC可以根據(jù)輸入的條件或指導(dǎo),生成與之相關(guān)的內(nèi)容。例如,通過輸入關(guān)鍵詞、描述或樣本,AIGC可以生成與之相匹配的文章、圖像、音頻、視頻等。核心思想AIGC技術(shù)不僅可以提高內(nèi)容生產(chǎn)的效率和質(zhì)量,還可以為創(chuàng)作者提供更多的靈感和支持。在文學(xué)創(chuàng)作、藝術(shù)設(shè)計、游戲開發(fā)、影視制作等領(lǐng)域,AIGC可以自動創(chuàng)作出高質(zhì)量的文本、圖像、音頻、視頻等內(nèi)容。同時,AIGC也可以應(yīng)用于媒體、教育、娛樂、營銷、科研等領(lǐng)域,為用戶提供高質(zhì)量、高效率、高個性化的內(nèi)容服務(wù)。應(yīng)用10.1.1什么是AIGC大模型與AIGC之間的關(guān)系可以說是相輔相成、相互促進(jìn)的。大模型為AIGC提供了強大的技術(shù)基礎(chǔ)和支撐,而AIGC則進(jìn)一步推動了大模型的發(fā)展和應(yīng)用,具體如下:大模型為AIGC提供了豐富的數(shù)據(jù)資源和強大的計算能力AIGC的需求也推動了大模型的發(fā)展大模型和AIGC的結(jié)合,也帶來了廣泛的應(yīng)用前景02010310.1.2AIGC與大模型的關(guān)系A(chǔ)IGC的發(fā)展歷程可以分成三個階段:早期萌芽階段、沉淀累積階段和快速發(fā)展階段,具體如下:由于技術(shù)限制,AIGC僅限于小范圍實驗和應(yīng)用,例如,1957年出現(xiàn)了首支電腦創(chuàng)作的音樂作品《依利亞克組曲》。然而,在上世紀(jì)80年代末至90年代中期,由于高成本和難以商業(yè)化,AIGC的資本投入有限,因此,未能取得許多顯著進(jìn)展。早期萌芽階段(上世紀(jì)50年代至90年代中期)AIGC逐漸從實驗性轉(zhuǎn)向?qū)嵱眯裕?006年深度學(xué)習(xí)算法取得進(jìn)展,同時,GPU和CPU等算力設(shè)備日益精進(jìn),互聯(lián)網(wǎng)快速發(fā)展,為各類人工智能算法提供了海量數(shù)據(jù)進(jìn)行訓(xùn)練。2007年出版了首部由AIGC創(chuàng)作的小說《在路上》,2012年微軟展示了全自動同聲傳譯系統(tǒng),主要基于深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetworks,DNN),自動將英文講話內(nèi)容通過語音識別等技術(shù)生成中文。沉淀累積階段(上世紀(jì)90年代至本世紀(jì)10年代中期)2014年深度學(xué)習(xí)算法“生成式對抗網(wǎng)絡(luò)”(GenerativeAdversarialNetwork,GAN)推出并迭代更新,助力AIGC實現(xiàn)新發(fā)展。2017年微軟人工智能少年“小冰”推出世界首部由人工智能寫作的詩集《陽光失了玻璃窗》,2018年NVIDIA(英偉達(dá))發(fā)布StyleGAN模型可自動生成圖片,2019年DeepMind發(fā)布DVD-GAN模型可生成連續(xù)視頻。2021年OpenAI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、圖像的交互生成內(nèi)容。2024年2月16日,OpenAI再次震撼全球科技界,發(fā)布了名為Sora的文本生成視頻大模型,只需輸入文本就能自動生成視頻。2024年5月14日,OpenAI公司推出一款名為GPT-4o的大模型,具備“聽、看、說”的出色本領(lǐng)。目前,AIGC基本上都采用了大模型技術(shù)??焖侔l(fā)展階段(本世紀(jì)10年代中期至今)10.1.3AIGC的發(fā)展歷程AIGC可以應(yīng)用于各行各業(yè),主要包括但不限于生成文字、圖像、音頻、視頻等,具體如下:生成商品標(biāo)題、描述、廣告文案和廣告圖電商寫周報日報,寫方案,寫運營活動,制作PPT,寫讀后感,寫代碼辦公生成場景原畫,生成角色形象,生成世界觀,生成數(shù)值,生成3D模型,生成NPC對話,音效生成游戲頭像生成,照片修復(fù),圖像生成,音樂生成娛樂生成分鏡頭腳本,生成劇本腳本,臺詞潤色,生成推廣宣傳物料,音樂生成影視10.1.4常見的AIGC應(yīng)用場景原畫繪制,動畫生成,分鏡生成,音樂生成動漫寫詩,寫小說,生成藝術(shù)創(chuàng)作品,草圖生成,藝術(shù)風(fēng)格轉(zhuǎn)換,音樂創(chuàng)作藝術(shù)批改試卷,試卷創(chuàng)建,搜題答題,課程設(shè)計,課程總結(jié),虛擬講師教育UI設(shè)計,美術(shù)設(shè)計,插畫設(shè)計,建筑設(shè)計設(shè)計軟文撰寫,大綱提煉,熱點撰寫媒體制定學(xué)習(xí)計劃,做旅游規(guī)劃生活10.1.4常見的AIGC應(yīng)用場景AIGC技術(shù)對行業(yè)發(fā)展的影響深遠(yuǎn)且廣泛,主要體現(xiàn)在以下幾個方面:AIGC技術(shù)能夠自動生成高質(zhì)量的文本、圖像、音頻和視頻等內(nèi)容,極大地提高了內(nèi)容創(chuàng)作的效率。在新聞、廣告、自媒體等領(lǐng)域,AIGC已經(jīng)實現(xiàn)了廣泛應(yīng)用,幫助創(chuàng)作者快速生成多樣化、個性化的內(nèi)容,滿足市場需求。這種技術(shù)革新不僅降低了內(nèi)容創(chuàng)作的成本,還激發(fā)了創(chuàng)作者的創(chuàng)新靈感,推動了內(nèi)容產(chǎn)業(yè)的繁榮發(fā)展。內(nèi)容創(chuàng)作領(lǐng)域的革新AIGC技術(shù)在多個行業(yè)中展現(xiàn)了其提升生產(chǎn)力和降低成本的潛力。例如,在游戲開發(fā)領(lǐng)域,AIGC技術(shù)可以用于場景構(gòu)建、角色互動等,減少人工制作的工作量,提高開發(fā)效率。在制造業(yè)中,AIGC技術(shù)可以輔助設(shè)計、優(yōu)化生產(chǎn)流程,降低生產(chǎn)成本。這些應(yīng)用使得企業(yè)能夠更快地響應(yīng)市場變化,提升競爭力。生產(chǎn)力提升與成本降低AIGC技術(shù)通過提供個性化、定制化的內(nèi)容和服務(wù),顯著提升了用戶體驗。在智能客服、在線教育等領(lǐng)域,AIGC技術(shù)可以根據(jù)用戶的需求和偏好提供精準(zhǔn)的服務(wù),滿足用戶的個性化需求。這種以用戶為中心的服務(wù)模式不僅增強了用戶的滿意度和忠誠度,還為企業(yè)帶來了更多的商業(yè)機會。用戶體驗的升級AIGC技術(shù)的快速發(fā)展為傳統(tǒng)行業(yè)帶來了轉(zhuǎn)型升級的契機。通過與AIGC技術(shù)的深度融合,傳統(tǒng)行業(yè)可以探索新的商業(yè)模式和服務(wù)模式,實現(xiàn)創(chuàng)新發(fā)展。例如,在零售業(yè)中,AIGC技術(shù)可以用于智能推薦、虛擬試衣等場景,提升購物體驗并促進(jìn)銷售增長。在金融領(lǐng)域,AIGC技術(shù)可以應(yīng)用于投資策略優(yōu)化、風(fēng)險管理等方面,提高金融機構(gòu)的決策效率和準(zhǔn)確性。推動行業(yè)創(chuàng)新與轉(zhuǎn)型10.1.5AIGC技術(shù)對行業(yè)發(fā)展的影響AIGC技術(shù)對職業(yè)發(fā)展產(chǎn)生了深遠(yuǎn)的影響,主要體現(xiàn)在以下幾個方面:傳統(tǒng)職業(yè)的轉(zhuǎn)型升級新興職業(yè)的出現(xiàn)隨著AIGC技術(shù)的快速發(fā)展,一系列與該技術(shù)相關(guān)的新興職業(yè)應(yīng)運而生。例如,AI訓(xùn)練師、機器學(xué)習(xí)工程師、數(shù)據(jù)標(biāo)注員等職業(yè)需求激增。這些新興職業(yè)不僅要求從業(yè)者具備扎實的技術(shù)基礎(chǔ),還需要不斷學(xué)習(xí)和掌握最新的AIGC技術(shù)動態(tài)。AIGC技術(shù)也為傳統(tǒng)職業(yè)的轉(zhuǎn)型升級提供了契機。許多傳統(tǒng)職業(yè)如編輯、設(shè)計師、教師等,在AIGC技術(shù)的輔助下,工作效率和創(chuàng)作質(zhì)量得到了顯著提升。同時,這些職業(yè)也需要從業(yè)者不斷適應(yīng)技術(shù)變革,掌握新的技能和工具,以適應(yīng)市場需求的變化。工作方式的變革AIGC技術(shù)改變了傳統(tǒng)的工作方式,使得遠(yuǎn)程工作、靈活辦公成為可能。許多企業(yè)開始采用AIGC技術(shù)來優(yōu)化工作流程,減少人力成本,提高工作效率。這種變革不僅為員工提供了更加靈活的工作方式,也為企業(yè)帶來了更大的經(jīng)濟效益。持續(xù)學(xué)習(xí)與技能提升職業(yè)發(fā)展路徑的多樣化AIGC技術(shù)的發(fā)展為職業(yè)發(fā)展路徑提供了更多的可能性。從業(yè)者可以根據(jù)自己的興趣和特長,選擇適合自己的職業(yè)發(fā)展方向。例如,一些對AI技術(shù)感興趣的從業(yè)者可以選擇成為AI訓(xùn)練師或機器學(xué)習(xí)工程師,而一些具有創(chuàng)意和設(shè)計才能的從業(yè)者則可以利用AIGC技術(shù)來提升自己的創(chuàng)作能力。面對AIGC技術(shù)的快速發(fā)展,從業(yè)者需要不斷學(xué)習(xí)和提升自己的技能水平。通過參加培訓(xùn)課程、閱讀專業(yè)書籍、參與技術(shù)論壇等方式,從業(yè)者可以緊跟技術(shù)前沿,保持自己的競爭力。10.1.6AIGC技術(shù)對職業(yè)發(fā)展的影響常見的AIGC大模型工具包括:OpenAI的ChatGPT百度的文心一言科大訊飛的訊飛星火阿里的通義千問華為盤古字節(jié)跳動豆包Kimi這些工具基于大規(guī)模語言模型技術(shù),具備文本生成、語言理解、知識問答、邏輯推理等多種能力,可廣泛應(yīng)用于寫作輔助、內(nèi)容創(chuàng)作、智能客服等多個領(lǐng)域。通過不斷迭代和優(yōu)化,為用戶提供更加智能、高效的內(nèi)容生成解決方案10.1.7常見的AIGC大模型工具AIGC大模型的提示詞(Prompt)是指用戶向大模型輸入的文本內(nèi)容,用于觸發(fā)大模型的響應(yīng)并指導(dǎo)其如何生成或回應(yīng)這些提示詞可以是一個問題、一段描述、一個指令,甚至是一個帶有詳細(xì)參數(shù)的文字描述。它們?yōu)榇竽P吞峁┝松蓪?yīng)文本、圖片、音頻、視頻等內(nèi)容的基礎(chǔ)信息和指導(dǎo)方向。提示詞的重要作用如下:提高準(zhǔn)確性引導(dǎo)生成增強交互性10.1.8AIGC大模型的提示詞使用提示詞需要注意一些技巧,這樣可以從大模型獲得更加符合我們預(yù)期要求的結(jié)果,主要技巧如下:簡潔明確考慮受眾分解復(fù)雜任務(wù)使用肯定性指令示例驅(qū)動明確角色遵守規(guī)則自然語言回答10.1.8AIGC大模型的提示詞02文本類AIGC應(yīng)用實踐Parttwo文本類AIGC利用先進(jìn)的機器學(xué)習(xí)和深度學(xué)習(xí)算法,通過對大量文本數(shù)據(jù)的分析和學(xué)習(xí),自動產(chǎn)生具有創(chuàng)意和質(zhì)量的文本內(nèi)容。這些內(nèi)容包括但不限于新聞報道、廣告文案、社交媒體帖子、教材資料、小說故事等。文本類AIGC能夠模仿人類寫作風(fēng)格,實現(xiàn)高效、多樣、持續(xù)的內(nèi)容創(chuàng)作,為內(nèi)容生產(chǎn)領(lǐng)域帶來了革命性的變化10.2
文本類AIGC應(yīng)用實踐文本類AIGC已經(jīng)在多個領(lǐng)域得到了廣泛應(yīng)用,主要包括:人工智能寫作技術(shù)能夠快速生成新聞報道,尤其是在突發(fā)事件中,能夠迅速整合信息并生成初步報道,為傳統(tǒng)新聞機構(gòu)提供有力支持。新聞報道廣告商利用AI技術(shù)快速生成針對不同受眾群體的個性化文案,以提高廣告效果。AI寫作程序能夠分析用戶數(shù)據(jù),生成符合用戶興趣和需求的廣告內(nèi)容。廣告文案企業(yè)和個人利用AI寫作程序快速創(chuàng)建高質(zhì)量的社交媒體內(nèi)容,以提升品牌影響力和用戶粘性。社交媒體內(nèi)容創(chuàng)作智能文本生成還廣泛應(yīng)用于電子商務(wù)、人機交互、電子政務(wù)、智慧教育、智慧醫(yī)療、智慧司法等多個行業(yè)和領(lǐng)域。例如,在電子商務(wù)中,AI可以生成產(chǎn)品描述、促銷信息等;在智慧醫(yī)療中,AI可以輔助醫(yī)生撰寫病歷、診斷報告等。其他行業(yè)AI在文學(xué)創(chuàng)作領(lǐng)域也展現(xiàn)出一定潛力。通過深度學(xué)習(xí)算法,AI可以學(xué)習(xí)并分析大量文學(xué)作品,生成具有一定文學(xué)價值的文本內(nèi)容。雖然目前AI創(chuàng)作的文學(xué)作品還難以完全替代人類創(chuàng)作,但其獨特的創(chuàng)作風(fēng)格和視角為文學(xué)創(chuàng)作帶來了新的可能性。文學(xué)創(chuàng)作10.2.1文本類AIGC應(yīng)用場景10.2.2文本類AIGC工具基礎(chǔ)知識大模型的“幻覺”問題大模型的溫度參數(shù)上下文窗口大小多輪對話10.2.2文本類AIGC工具基礎(chǔ)知識1.大模型的“幻覺”問題當(dāng)我們使用文本類AIGC工具(比如DeepSeek、百度文心一言、豆包等大模型)生成文本內(nèi)容時,一定要注意大模型的“幻覺”問題。因為,大模型是基于概率的模型,而不是基于事實的模型。這里給出一個實例介紹“基于概率的模式”和“基于事實的模型”的區(qū)別。廈門大學(xué)官網(wǎng)()就是一個基于事實的模型,官網(wǎng)里面的每個頁面的內(nèi)容,都是經(jīng)過人工校對,是真實可靠的。10.2.2文本類AIGC工具基礎(chǔ)知識但是,當(dāng)我們使用大語言模型(比如豆包)時,當(dāng)我們輸入提示詞“請你介紹一下廈門大學(xué)”時,實際上,大模型并不是到服務(wù)器里面讀取一個廈門大學(xué)簡介的文件發(fā)送給你,大模型的服務(wù)器上并不保存關(guān)于廈門大學(xué)的簡介內(nèi)容當(dāng)我們向大模型發(fā)起提問“請你介紹一下廈門大學(xué)”時,大模型是根據(jù)概率分布,臨時“拼裝”出一個關(guān)于廈門大學(xué)的簡介呈現(xiàn)給你(如圖所示)1.大模型的“幻覺”問題10.2.2文本類AIGC工具基礎(chǔ)知識綜上所述,大模型是基于概率的模型,所以,它通過“臨時拼裝”生成的內(nèi)容就有可能不符合客觀事實,所以,大模型生成的內(nèi)容是不可靠的,一定要經(jīng)過人工校對以后再使用10.2.2文本類AIGC工具基礎(chǔ)知識2.大模型的溫度參數(shù)使用各種大語言模型時,基本都會有一個可以調(diào)整的參數(shù)——溫度,溫度參數(shù)在大語言模型中起著關(guān)鍵的調(diào)節(jié)作用,對生成文本的特性有著重要的影響在大模型中,溫度參數(shù)對模型生成文本時的概率分布起著關(guān)鍵的調(diào)整作用。大型語言模型在預(yù)測下一個詞時,實際上是在計算一個概率分布,這個分布覆蓋了詞匯表中的每一個詞10.2.2文本類AIGC工具基礎(chǔ)知識溫度是一個用于調(diào)整模型生成文本時創(chuàng)造性和多樣性的超參數(shù)。溫度是一個大于0的數(shù)值,通常在0到1之間(也可能大于1)。它影響模型生成文本時采樣預(yù)測詞匯的概率分布。1當(dāng)模型的溫度較高時(如0.8、1或更高),模型會更傾向于從較多樣且不同的詞匯中選擇,這使得生成的文本風(fēng)險性更高、創(chuàng)意性更強,但也可能產(chǎn)生更多的錯誤和不連貫之處。2當(dāng)溫度較低時(如0.1、0.2、0.3等),模型主要會從具有較高概率的詞匯中選擇,從而產(chǎn)生更平穩(wěn)、更連貫的文本。但此時,生成的文本可能會顯得過于保守和重復(fù)。3因此,在實際應(yīng)用中,需要根據(jù)具體需求來權(quán)衡選擇合適的溫度值。410.2.2文本類AIGC工具基礎(chǔ)知識這里給出一個實例,假設(shè)大模型必須完成句子“一只狗正在____”。下一個字具有以下標(biāo)記概率:玩(0.5)、睡(0.25)、吃(0.15)、駕(0.05)、飛(0.05)。不同溫度會呈現(xiàn)出以下效果:AI模型變得更加專注和確定性,選擇概率最高的標(biāo)記,例如“玩”低溫(例如0.2)AI模型在創(chuàng)造力和專注度之間保持平衡,根據(jù)概率選擇標(biāo)記,沒有明顯的偏見,例如“玩”、“睡”或“吃”中溫(例如1.0)AI模型變得更加冒險,增加了選擇不太可能的標(biāo)記的機會,例如“駕”和“飛”高溫(例如2.0)10.2.2文本類AIGC工具基礎(chǔ)知識管理大模型的溫度是一種微妙的平衡行為。設(shè)置得太高,模型可能會產(chǎn)生無意義的或不相關(guān)的反應(yīng)。設(shè)置得太低,模型的輸出可能會顯得過于機械化或缺乏多樣性。因此,溫度參數(shù)在將人工智能的性能微調(diào)到最佳水平方面起著關(guān)鍵的作用。一般而言,當(dāng)我們寫小說、散文和詩歌時,建議把溫度設(shè)置得高一些,當(dāng)我們寫論文、寫公文、寫新聞稿或進(jìn)行數(shù)學(xué)推理時,建議把溫度設(shè)置得低一些。這里給出在DeepSeek的提示詞中設(shè)置溫度參數(shù)的幾個實例:
提示詞實例1:“請以溫度0.7生成一段科幻故事開頭,要求200字左右”;
提示詞實例2:“用溫度0.5生成一份簡潔的會議紀(jì)要,需包含時間地點和決議項”;
提示詞實例3:"直接給出答案:北京到上海的直線距離是多少?(溫度0.3)";
提示詞實例4:"以溫度1.2創(chuàng)作三句關(guān)于夏天的俳句,每句需包含'蟬鳴'意象"。10.2.2文本類AIGC工具基礎(chǔ)知識3.上下文窗口大小上下文窗口是模型能夠記住的輸入范圍,超出這個范圍的內(nèi)容,模型將無法直接關(guān)聯(lián)。傳統(tǒng)的語言模型上下文窗口較小,比如只有幾百到幾千個標(biāo)記?,F(xiàn)在的大模型,通常具有較大的上下文窗口,比如,DeepSeekR1的上下文窗口是64K,也就是可以容納64000個Token,這大大提高了模型處理長文檔的能力。2025年3月26日谷歌發(fā)布的Gemini2.5Pro,支持100萬Token的上下文窗口。10.2.2文本類AIGC工具基礎(chǔ)知識在實際使用中,具備較大上下文窗口的大模型,在面對大量文本時,仍然能夠保持邏輯一致、上下文連貫的輸出。支持32K上下文的大模型,可以幫助用戶編輯長達(dá)數(shù)萬字的文檔,而不需要用戶反復(fù)地提醒模型前面的內(nèi)容,因為模型能夠記住整個文檔的結(jié)構(gòu)和細(xì)節(jié)。在具體的應(yīng)用場景中,這種上下文處理能力有著廣泛的應(yīng)用。一個典型的例子是復(fù)雜的法律文本處理。在法律領(lǐng)域,合同和法規(guī)的長度通常相當(dāng)龐大,而這些文檔中的條款和細(xì)節(jié)往往需要通過跨章節(jié)的引用和解釋才能理解。如果使用支持32K上下文的GPT模型,整個法律文檔可以作為一個整體輸入,模型將能夠處理和分析整個文檔,不僅可以總結(jié)關(guān)鍵點,還能準(zhǔn)確生成依據(jù)上下文的解釋和建議。但是,也有一些挑戰(zhàn)需要考慮。首先,隨著上下文窗口的增加,模型的計算資源需求也顯著上升。此外,盡管上下文窗口增大了,但模型并不一定總能在非常長的文本中保持高效的記憶。因此,在某些應(yīng)用場景下,需要對上下文進(jìn)行合理的選擇,確保輸入的信息都是與任務(wù)高度相關(guān)的。由于每個大模型都存在著上下文窗口大小的限制,所以,在使用大模型時,一定不要超出上下文窗口大小的限制。10.2.2文本類AIGC工具基礎(chǔ)知識4.多輪對話多輪對話的基本原理在使用DeepSeek和豆包等大模型工具時,當(dāng)用戶開啟一個新的聊天時,應(yīng)用程序后端會為該對話創(chuàng)建一個獨立的會話,并分配一個唯一的會話ID,這就確保了每個對話都是獨立的,防止不同對話之間的混淆。在新會話的開始,系統(tǒng)會向大模型提供一段隱藏的系統(tǒng)提示詞。這段提示詞用于設(shè)定模型在整個對話中的角色、語氣和行為準(zhǔn)則。例如:
角色設(shè)定:讓模型扮演助理、教師、技術(shù)專家等特定身份。
語言風(fēng)格:規(guī)定回復(fù)使用正式、友好、幽默等特定語氣。
行為準(zhǔn)則:避免生成不適當(dāng)內(nèi)容,遵守倫理規(guī)范。系統(tǒng)提示詞對用戶是不可見的,但對大模型的回復(fù)有著深遠(yuǎn)影響,它確保了大模型在整個對話過程中保持一致的行為。隨著用戶與模型的交互進(jìn)行,系統(tǒng)會將每一次的用戶輸入和模型回復(fù)按照時間順序累積,形成當(dāng)前會話的消息隊列。這使得模型在生成回復(fù)時,可以參考之前的對話內(nèi)容,保持連貫性和一致性。10.2.2文本類AIGC工具基礎(chǔ)知識多輪對話的基本原理大型語言模型在處理輸入時,有一個固定的上下文窗口,表示模型一次能處理的最大文本長度。例如,DeepSeekR1的上下文窗口為64000個Token。當(dāng)對話長度超過上下文窗口時,系統(tǒng)需要對輸入進(jìn)行截斷。為了確保模型繼續(xù)遵循最初的系統(tǒng)提示,應(yīng)用程序會:
優(yōu)先保留系統(tǒng)提示詞:系統(tǒng)提示詞始終位于輸入的開頭,不被截斷。
截斷早期對話:從最早的用戶和模型對話開始移除,保留最近的交互內(nèi)容。在生成回復(fù)時,應(yīng)用程序會將以下內(nèi)容按順序拼接,形成當(dāng)前的輸入上下文:
系統(tǒng)提示:設(shè)定模型行為的隱藏指令。
重要信息:用戶提供的關(guān)鍵數(shù)據(jù)或參數(shù)(如果有)。
最近的對話歷史:包括最近幾輪的用戶輸入和模型回復(fù)。通過這種方式,模型能夠在一次交互中獲得必要的上下文信息,生成符合預(yù)期的回復(fù)。10.2.2文本類AIGC工具基礎(chǔ)知識多輪對話的實例演示這里通過一個使用豆包聊天的具體實例來演示大模型中的多輪對話。在自己的本地電腦中打開豆包網(wǎng)頁版(),進(jìn)行多輪對話。10.2.3案例1:與DeepSeek進(jìn)行對話1.快速體驗DeepSeek訪問DeepSeek官網(wǎng)(/),會出現(xiàn)如圖所示對話界面,在提示詞輸入框的底部,有兩個按鈕,即“深度思考(R1)”和“聯(lián)網(wǎng)搜索”,可以用鼠標(biāo)點擊來選中或取消,默認(rèn)情況下,“深度思考(R1)”按鈕是處于選中狀態(tài),“聯(lián)網(wǎng)搜索”則處于未選中狀態(tài)。兩個按鈕的功能如下:(1)深度思考(R1)。表示觸發(fā)更復(fù)雜的多步推理能力,適合需要邏輯鏈分析的場景,典型使用場景包括數(shù)學(xué)題/物理題推導(dǎo)、文學(xué)作品的隱喻分析、編程問題的架構(gòu)設(shè)計、需要分步驟解釋的操作指南等。(2)聯(lián)網(wǎng)搜索。表示實時獲取最新網(wǎng)絡(luò)信息,適合時效性強的查詢,典型使用場景包括查詢實時股價/匯率、驗證最新科研成果、獲取突發(fā)事件進(jìn)展、檢索特定網(wǎng)頁內(nèi)容等。10.2.3案例1:與DeepSeek進(jìn)行對話在提示詞輸入框中輸入“請模仿李白的《望廬山瀑布》做一首詩,題目是《看廈門鼓浪嶼》”,然后回車,或者用鼠標(biāo)點擊提示詞輸入框右側(cè)的箭頭按鈕,向DeepSeek發(fā)起提問。DeepSeek給出的回答如圖所示,需要注意的是,大模型屬于概率模型,每次生成的回答內(nèi)容可能不完全相同。1.快速體驗DeepSeek10.2.3案例1:與DeepSeek進(jìn)行對話2.DeepSeek的基本用法(1)基本原則:簡單直接,自然表達(dá)。①無需復(fù)雜結(jié)構(gòu)。直接描述需求即可,無需添加“角色扮演”(如“假設(shè)你是專家”)或復(fù)雜指令(如“用學(xué)術(shù)語言分三點回答”)。比如,你可以直接向DeepSeek提問“什么是光合作用?”、“如何用Python寫一個計算器程序?”,而不建議使用提示詞“請以生物學(xué)教授的身份,用三個段落解釋光合作用,每段不超過100字”。②多輪對話優(yōu)化結(jié)果。如果首次回答不完整,可通過追問補充細(xì)節(jié),無需一次性給出完美提示。比如,第一輪提問“寫一首關(guān)于秋天的詩”,第二輪提問“加入一些悲傷的情緒”,第三輪提問“把‘落葉’換成比喻句”。(2)不同場景的提問技巧(非必需,但可提升效率)。雖然簡單提問即可滿足大多數(shù)需求,但在復(fù)雜任務(wù)中,適當(dāng)提供背景信息或明確需求會讓結(jié)果更精準(zhǔn),具體技巧包括:①知識類問題。比如,基礎(chǔ)提問是“量子力學(xué)的基本原理是什么?”,優(yōu)化后的提問是“用通俗易懂的語言解釋量子糾纏,適合高中生理解”,②
創(chuàng)作類任務(wù)(寫作、編程等)。比如,基礎(chǔ)提問是“寫一個關(guān)于人工智能的科幻短篇故事”,優(yōu)化后的提問是“寫一個反烏托邦主題的科幻故事,主角是女性工程師,結(jié)局有反轉(zhuǎn)”。③實用建議(學(xué)習(xí)、工作等)。比如,基礎(chǔ)提問是“如何提高英語聽力?”,優(yōu)化后的提問是“我每天只有30分鐘學(xué)習(xí)時間,有哪些高效的英語聽力練習(xí)方法?”。④復(fù)雜任務(wù)(數(shù)據(jù)分析、代碼調(diào)試)。比如,基礎(chǔ)提問是“這段Python代碼報錯了,幫我看看問題”,優(yōu)化后的提問是“我的代碼目標(biāo)是爬取網(wǎng)頁數(shù)據(jù),但遇到SSL證書錯誤。報錯信息如下:[粘貼代碼]”。(3)需要避免的提問方式。雖然DeepSeek容錯性較強,但以下方式可能影響效率:①過度模糊:比如,提問“告訴我一些知識”,范圍太廣,無法聚焦,應(yīng)該提問“介紹一下區(qū)塊鏈技術(shù)的主要應(yīng)用場景”,這樣會更加有焦點。②多重需求混雜。比如,提問“寫一篇環(huán)保演講稿,再幫我總結(jié)成PPT大綱,最后翻譯成英文”,這里包含了生成演講稿、做PPT和翻譯成英文3個不同的需求,應(yīng)該把這3個需求分成3次提問。③矛盾指令。比如,提問“用100字以內(nèi)詳細(xì)解釋相對論”,這里面“詳細(xì)”與“100字”是沖突的。10.2.3案例1:與DeepSeek進(jìn)行對話作為初學(xué)者,DeepSeek的一些“魔法”指令也很有用,比如,你可以輸入“/步驟如何??機拍攝旅游照?”,DeepSeek返回的回答結(jié)果就會按照步驟詳細(xì)給出拍攝旅游照片的說明,再比如,你可以輸入“請解釋量?計算,然后/簡化”,它就會返回比較簡明扼要的回答。2.DeepSeek的基本用法表DeepSeek的“魔法”指令指令功能/續(xù)寫當(dāng)回答中斷時?動繼續(xù)?成/簡化將復(fù)雜內(nèi)容轉(zhuǎn)換成??話/?例要求展?實際案例(特別是寫代碼時)/步驟讓AI分步驟指導(dǎo)操作流程/檢查幫你發(fā)現(xiàn)?檔中的錯誤10.2.3案例1:與DeepSeek進(jìn)行對話3.使用DeepSeek處理文檔點擊DeepSeek界面中的「回形針」圖標(biāo)上傳?件,支持的文件類型包括文本類(PDF、DOCX、TXT、Markdown)、數(shù)據(jù)類(CSV、XLSX)和圖像類(JPG、PNG)。然后,就可以在對話框中輸入提示詞,比如,可以輸入“總結(jié)這份年報的三個核?要點”、“提取合同中的責(zé)任條款制成表格”、“對??檔A和?檔B的市場策略差異”、“從實驗報告中整理所有溫度數(shù)據(jù)”、“請識別圖片中的文字”等。也可以使用一些指令來處理文檔,如表7-2所示。表
用于文檔處理的DeepSeek指令功能指令模板應(yīng)用場景內(nèi)容摘要/總結(jié)[文件名]生成500字摘要快速把握長篇文檔核心內(nèi)容問答提取/問答[文件名]第三章提到的技術(shù)參數(shù)是?精準(zhǔn)定位特定信息數(shù)據(jù)可視化/可視化[文件名]將銷售數(shù)據(jù)生成折線圖轉(zhuǎn)化表格數(shù)據(jù)為圖形分析跨文檔對比/對比文件Avs文件B的政策差異合同/論文查重對比還可以要求DeepSeek對回答結(jié)果進(jìn)行結(jié)構(gòu)化輸出,比如,可以輸入如下提示詞:/解析文件
年度報告.docx輸出要求:
1.按"營收/利潤/成本"分類
2.用Markdown表格對比近三年數(shù)據(jù)
3.關(guān)鍵增長點用?標(biāo)注(1)告訴文心一言你要的風(fēng)格在輸入提示詞時,明確指定你希望生成的文本內(nèi)容的風(fēng)格。這樣,文心一言在理解并處理你的請求時,會更有針對性地調(diào)整其生成內(nèi)容的風(fēng)格,以滿足你的具體需求。比如,可以使用提示詞:請按照要求寫一篇200字左右關(guān)于云計算的介紹。注意事項:文章的受眾是中學(xué)生,需要通俗易懂,語言風(fēng)格需要幽默、風(fēng)趣一些想要生成不同語氣風(fēng)格的文字,可以在問題描述中加入你想要的語氣風(fēng)格作為限定條件,提示文心一言按照你的要求去輸出。比如,如果你需要正式語氣,可以在提示詞中加入“請采用正式的詞匯和語法結(jié)構(gòu),使內(nèi)容顯得莊重、嚴(yán)肅和專業(yè)”;如果你需要抒情語氣,請在提示詞中加入“請使用富有感情和表達(dá)感情的詞匯,使內(nèi)容產(chǎn)生共鳴和情緒共振”;如果你需要口語化語氣,請在提示詞中加入“請運用口語化的表達(dá)方式,例如俚語、俗語和口頭禪,使內(nèi)容更加輕松和親切”。10.2.4案例2:與百度文心一言進(jìn)行對話(2)告訴文心一言你要的結(jié)構(gòu)在構(gòu)建提示詞時,應(yīng)明確指定期望的輸出結(jié)構(gòu)。比如,如果是要求生成一篇文章,可以在提示詞中明確指出“請按照引言-正文-結(jié)論的結(jié)構(gòu)來撰寫”。這樣,文心一言在生成內(nèi)容時,會遵循這一結(jié)構(gòu)框架,使得輸出更加條理清晰、邏輯嚴(yán)密。再比如,如果要撰寫給上級領(lǐng)導(dǎo)的方案、報告、總結(jié)時,可以使用提示詞:請按照【現(xiàn)狀/問題/解決方案,數(shù)據(jù)洞察/問題概覽/調(diào)研方向,數(shù)據(jù)/亮點/問題/經(jīng)驗】這個結(jié)構(gòu)撰寫一份關(guān)于我國芯片行業(yè)的總結(jié)報告10.2.4案例2:與百度文心一言進(jìn)行對話(3)告訴文心一言你要的角色在提示詞中可以設(shè)定具體的角色或視角。例如,在要求創(chuàng)作故事時,可以明確指定“以一位勇敢探險家的視角講述這段經(jīng)歷”。這樣的提示能引導(dǎo)文心一言在生成內(nèi)容時,從特定角色的角度出發(fā),賦予文本獨特的情感色彩和敘事風(fēng)格。此技巧有助于增強生成內(nèi)容的代入感和故事性,使內(nèi)容更加豐富和引人入勝。下面是一段提示詞實例:請你作為一個小紅書文案撰寫高手,為我生成一篇爆款小紅書文案,要求:突出酒店的特色,包括海景房、豪華單間、最新裝修、免費早餐、無線上網(wǎng)等下面是另一段提示詞實例:我希望你能扮演記者的角色,按照我的要求撰寫一份新聞?wù){(diào)查,要求:調(diào)查中小學(xué)校外輔導(dǎo)機構(gòu)的發(fā)展現(xiàn)狀,要給出政府教育主管部門的態(tài)度10.2.4案例2:與百度文心一言進(jìn)行對話(4)告訴文心一言你的內(nèi)容要求可以通過詳細(xì)具體的提示詞明確表達(dá)內(nèi)容要求。無論是希望生成的文章主題、關(guān)鍵詞匯,還是期望涵蓋的信息點、情感傾向,都應(yīng)在提示詞中清晰呈現(xiàn)。這樣做能讓文心一言更準(zhǔn)確地理解用戶需求,生成更符合期望的內(nèi)容。比如,可以通過如下提示詞表達(dá)自己的內(nèi)容要求:在6G專利申請方面,中國已經(jīng)遙遙領(lǐng)先。2021年的數(shù)據(jù)顯示,中國的6G專利申請量占比高達(dá)40.3%,穩(wěn)坐世界第一的寶座。請把上面的數(shù)據(jù)更新到目前最新的數(shù)據(jù)10.2.4案例2:與百度文心一言進(jìn)行對話(4)告訴文心一言你的內(nèi)容要求如果對輸出的內(nèi)容有比較多的要求或限制,不妨在輸入框中將這些內(nèi)容要求一條一條明確告訴文心一言,比如,可以采用類似如下的提示詞:請以小紅書的風(fēng)格,按照以下要求幫我為“海景美食餐廳”寫一篇小紅書種草文案;內(nèi)容要求:(1)要有標(biāo)題、正文(2)標(biāo)題字?jǐn)?shù):不超過20個字;盡量簡短精煉,要足夠吸引眼球,用詞浮夸(3)正文分段,層次分明,每段最少100字(4)要用“首先、其次、最后”這種模式(5)整篇文案不要超過1000個字10.2.4案例2:與百度文心一言進(jìn)行對話(5)告訴文心一言你想寫的文體明確指定文體,如散文、小說、詩歌、科技文等,讓大模型理解并模擬該文體的語言特點、結(jié)構(gòu)安排和表達(dá)習(xí)慣,從而輸出更具針對性的文本。比如,可以采用提示詞“請寫一段[中秋賞月]的朋友圈文案,需要采用藏頭詩的形式”10.2.4案例2:與百度文心一言進(jìn)行對話(6)指導(dǎo)文心一言分步解決問題將復(fù)雜問題拆解成多個簡單、具體的步驟,作為提示詞輸入給文心一言。這樣不僅能降低問題的處理難度,使文心一言更容易理解和響應(yīng),還能確保解決問題的過程更加系統(tǒng)、有條理。通過逐步引導(dǎo),可以逐步逼近問題的解決方案,提高答案的準(zhǔn)確性和實用性。比如,如果想讓文心一言幫你制定一份旅行規(guī)劃,可以使用類似如下的提示詞:請為我規(guī)劃一次為期一周的廈門自由行;(1)第1步:列出必去的景點,如廈門大學(xué)、鼓浪嶼、環(huán)島路、五緣灣、曾厝垵;(2)第2步:根據(jù)景點位置安排每日行程,確保交通便利;(3)第3步:推薦幾家當(dāng)?shù)氐奶厣蛷d,包括早餐、午餐和晚餐;(4)第4步:提供一家性價比高的酒店住宿建議,并考慮其位置是否便于游覽。10.2.4案例2:與百度文心一言進(jìn)行對話(7)告訴文心一言你要的示例明確溝通意圖,通過具體示例引導(dǎo)大模型理解你的需求。這有助于文心一言更準(zhǔn)確地捕捉你的思維框架和期望結(jié)果,減少誤解。比如,可以使用類似如下的提示詞:我是一位高校教師,請幫我寫一份工作周報,內(nèi)容盡量簡潔精煉,下面是我本周的工作內(nèi)容:(1)完成了5個本科生畢業(yè)論文修改(2)撰寫了教材的一個章節(jié)“云計算與大數(shù)據(jù)”輸出要求示例:【本周工作周報】【本周工作進(jìn)展】本周做了哪些事,產(chǎn)生了哪些結(jié)果【下周工作安排】基于本周的結(jié)果下周要推進(jìn)哪些事【思考總結(jié)】簡要說說本周的收獲和反思10.2.4案例2:與百度文心一言進(jìn)行對話(8)告訴文心一言你要的場景在輸入提示詞時,應(yīng)明確描述所需的上下文或環(huán)境背景,如“在科幻電影中描述一個未來城市的景象”或“請撰寫一封給朋友的生日祝福信,場景設(shè)定在海邊日落時”。這樣做有助于文心一言更好地理解你的需求,生成更符合場景氛圍和情境的內(nèi)容,從而提升輸出內(nèi)容的貼切性和情感共鳴。10.2.4案例2:與百度文心一言進(jìn)行對話Kimi是北京月之暗面科技有限公司推出的智能助手,它是全球首個支持輸入20萬漢字的智能助手產(chǎn)品。主要功能有長文總結(jié)和生成、聯(lián)網(wǎng)搜索、數(shù)據(jù)處理等,適用于專業(yè)學(xué)術(shù)論文翻譯、法律問題分析等場景。這里使用Kimi的“PPT助手”功能制作PPT。步驟1:登錄KIMI平臺。在瀏覽器地址欄中輸入“/”網(wǎng)址,進(jìn)入“KIMI平臺”(如圖10-5所示),并完成登錄。登錄成功后,點擊平臺左側(cè)的“kimi+”按鈕,進(jìn)入“Kimi+”功能界面(如圖10-6所示),點擊“PPT助手”,進(jìn)入PPT助手界面(如圖10-7所示)。10.2.5案例3:使用Kimi制作PPT10.2.5案例3:使用Kimi制作PPT圖10-5Kimi官網(wǎng)首頁面圖10-6Kimi+的頁面10.2.5案例3:使用Kimi制作PPT圖10-7
KIMI平臺PPT助手功能界面步驟2:上傳文檔。在PPT助手對話界面中(如圖10-8)所示,點擊回形針按鈕,上傳一個文件,比如,這里上傳“微軟藍(lán)屏.pdf”(可以從教材官網(wǎng)下載)。10.2.5案例3:使用Kimi制作PPT步驟3:生成PPT大綱。文檔上傳完成以后,如圖10-9所示,點擊“提交”按鈕(即箭頭按鈕),然后,Kimi就開始根據(jù)PDF文件來生成PPT大綱(如圖10-10所示)。大綱生成以后,可以對其進(jìn)行編輯修改。10.2.5案例3:使用Kimi制作PPT圖10-9根據(jù)文檔制作PPT10.2.5案例3:使用Kimi制作PPT圖10-10生成PPT大綱
步驟4:生成PPT。確定PPT大綱以后,可以點擊界面底部的“經(jīng)典模式生成”(如圖10-11所示)。10.2.5案例3:使用Kimi制作PPT步驟5:選擇模板并一鍵生成PPT。如圖10-12所示,根據(jù)自己的喜好,選擇一個模板,然后點擊“一鍵生成PPT”。10.2.5案例3:使用Kimi制作PPT步驟6:下載PPT。PPT生成后,可以對自動生成的PPT進(jìn)行個性化編輯和調(diào)整,編輯完成后,確認(rèn)無誤,可以點擊右上角的“下載”按鈕(如圖10-13所示),將生成的PPT保存到本地。10.2.5案例3:使用Kimi制作PPT步驟1:登錄DeepSeek平臺。請確保計算機已連接到互聯(lián)網(wǎng),并打開一個常用的網(wǎng)頁瀏覽器(如Chrome)。在瀏覽器地址欄中輸入“/”網(wǎng)址,進(jìn)入“DeepSeek”平臺,點擊頁面的“開始對話”,進(jìn)入對話頁面10.2.6案例4:使用DeepSeek和轉(zhuǎn)換工具生成WORD文檔步驟2:生成包含表格的內(nèi)容。在DeepSeek對話框中輸入提示詞“請對大模型和小模型進(jìn)行對比,列出表格”,然后點擊“提交”按鈕??梢钥吹剑ㄈ鐖D所示),DeepSeek會生成包含表格的內(nèi)容。但是,這些內(nèi)容如果直接復(fù)制粘貼到WORD文檔中,并不會以表格的形式呈現(xiàn),因此,需要特殊的處理技巧。10.2.6案例4:使用DeepSeek和轉(zhuǎn)換工具生成WORD文檔步驟3:復(fù)制DeepSeek生成的內(nèi)容到文件中。如圖所示,點擊“復(fù)制”按鈕復(fù)制DeepSeek生成的內(nèi)容。新建一個記事本文件,把剛才復(fù)制的內(nèi)容粘貼到記事本文件中,然后,把記事本文件名修改為“1.md”。10.2.6案例4:使用DeepSeek和轉(zhuǎn)換工具生成WORD文檔步驟4:使用工具轉(zhuǎn)換生成WORD文檔。打開在線轉(zhuǎn)換工具“易轉(zhuǎn)換”(工具地址是/markdown-to-word/,可以從教材官網(wǎng)查看工具的地址),點擊“添加文件”按鈕(如圖10-16所示),把剛才得到的“1.md”文件添加進(jìn)來,然后,如圖10-17所示,點擊“智能轉(zhuǎn)換”按鈕。轉(zhuǎn)換完成以后,如圖10-18所示,點擊“下載”按鈕,把文件下載到本地。下載以后,可以得到一個名稱為“1.docx.zip”的壓縮文件,打開這個壓縮文件,可以看到一個名稱為“1.docx”的WORD文件,打開這個WORD文件,就可以看到規(guī)范的表格效果了。10.2.6案例4:使用DeepSeek和轉(zhuǎn)換工具生成WORD文檔圖10-1610.2.6案例4:使用DeepSeek和轉(zhuǎn)換工具生成WORD文檔圖10-17圖10-1803圖片類AIGC應(yīng)用實踐Partthree10.3圖片類AIGC應(yīng)用實踐圖片類AIGC應(yīng)用場景案例5:創(chuàng)意圖片生成案例6:AI修圖與老照片修復(fù)案例7:圖片擴展與高清化案例8:智能摳圖與圖片融合案例9:涂抹消除與局部重繪案例10:AI繪畫藝術(shù)創(chuàng)作案例11:真實照片轉(zhuǎn)成二次元風(fēng)格10.3.1圖片類AIGC應(yīng)用場景圖像識別圖像增強圖像修復(fù)?圖像生成?10.3.2案例5:創(chuàng)意圖片生成這里使用AIGC工具即夢AI,根據(jù)給定的主題或描述生成具有創(chuàng)意和藝術(shù)感的圖片,并探索不同提示詞對生成結(jié)果的影響。步驟1:打開一站式AI創(chuàng)作平臺即夢AI。在瀏覽器中打開網(wǎng)址/ai-tool/home,進(jìn)入如圖10-19所示的頁面,該平臺是一款面向所有用戶,滿足日常需求的國內(nèi)領(lǐng)先的AIGC綜合平臺。注冊并登錄后,進(jìn)入如圖10-20所示界面。圖10-1910.3.2案例5:創(chuàng)意圖片生成圖10-2010.3.2案例5:創(chuàng)意圖片生成步驟2:確定主題與提示詞。首先選擇一個主題,例如“夢幻森林中的精靈聚會”。然后,編寫不同詳細(xì)程度的提示詞,比如,可以使用提示詞“一片充滿神秘氣息的夢幻森林,樹木高大且閃爍著奇異光芒,精靈們身著華麗服飾在森林空地上舉辦熱鬧聚會,有魔法元素環(huán)繞”,或者也可以使用比較簡單的提示詞“夢幻森林,精靈聚會”。步驟3:生成圖片操作。在提示詞文本框中描述想要生成的圖片,首先輸入簡略提示詞“夢幻森林,精靈聚會”,設(shè)置生圖模型為“圖片3.1”,清晰度為標(biāo)清1K”,圖片比例為“16:9”,如圖10-21所示。10.3.2案例5:創(chuàng)意圖片生成然后點擊“箭頭”按鈕,稍等片刻后,在頁面右方的圖片生成區(qū)就可以看到新生成的4張圖,如圖所示。圖
簡略提示詞生成的圖片10.3.2案例5:創(chuàng)意圖片生成接下來,更換為較為詳細(xì)的提示詞:“一片充滿神秘氣息的夢幻森林,樹木高大且閃爍著奇異光芒,精靈們身著華麗服飾在森林空地上舉辦熱鬧聚會,有魔法元素環(huán)繞”,重復(fù)上述生成步驟,其他參數(shù)保持一致,可以看到生成了4張新圖,如圖所示。圖
較為詳細(xì)提示詞生成的圖片10.3.2案例5:創(chuàng)意圖片生成更換為更加詳細(xì)的提示詞,具體如下:在一片彌漫著古老魔法與無盡神秘氣息的夢幻森林深處,高聳入云的樹木仿佛直插天際,它們的樹干上纏繞著散發(fā)著柔和藍(lán)光的藤蔓,樹葉則在微風(fēng)中輕輕搖曳,閃爍著翠綠與銀白交織的奇異光芒。月光透過稀疏的樹冠,灑下斑駁陸離的光影,為這片森林增添了幾分幽靜與奇幻。森林的中心地帶,一塊被精心清理過的空地上,正舉辦著一場熱鬧非凡的精靈聚會。精靈們身著用自然界最絢爛色彩編織而成的華麗服飾,有的裙擺輕拂過地面,如同綻放的花朵;有的則佩戴著由露珠和星辰碎片制成的飾品,在燈光下熠熠生輝。他們的笑聲清脆悅耳,與遠(yuǎn)處小溪潺潺的水聲交織成一首動人的樂章。聚會中,各式各樣的魔法元素?zé)o處不在。空中漂浮著幾個小巧的魔法燈籠,它們自動排列成各種圖案,為聚會提供柔和而神秘的光源。一些精靈手持魔法杖,輕輕一揮便能召喚出絢爛的煙花或是讓周圍的花朵瞬間綻放。更有精通音律的精靈,以魔法為弦,彈奏出能觸動心靈深處的旋律,讓整個森林都為之動容。10.3.2案例5:創(chuàng)意圖片生成重復(fù)上述生成步驟,其他參數(shù)保持一致,生成結(jié)果如圖所示。圖
更加詳細(xì)提示詞生成的圖片10.3.3案例6:AI修圖與老照片修復(fù)這里使用百度AI圖片助手,對一張普通照片進(jìn)行修圖優(yōu)化,并對一張有損壞的褪色的老照片進(jìn)行修復(fù),對比修圖前后效果并分析不同修復(fù)策略。步驟1:打開百度AI圖片助手。在瀏覽器中打開網(wǎng)址/,進(jìn)入百度AI圖片助手頁面,如圖所示。10.3.3案例6:AI修圖與老照片修復(fù)點擊右上角的“登錄”按鈕,注冊登錄成功后,點擊搜索框下方的AI創(chuàng)作工具區(qū)域,比如“變清晰”,即可進(jìn)入百度AI圖片助手頁面,如圖所示。10.3.3案例6:AI修圖與老照片修復(fù)步驟2:上傳照片。點擊中間的“上傳圖片”按鈕,上傳一張普通人物照片“普通人物照片.jpg”(可以從教材官網(wǎng)下載),照片存在光線較暗、清晰度不夠等問題,如圖所示。10.3.3案例6:AI修圖與老照片修復(fù)步驟3:普通照片修圖操作。上傳完畢后,AI圖片助手默認(rèn)使用“變清晰”功能,自動生成了效果圖,如圖所示。10.3.3案例6:AI修圖與老照片修復(fù)步驟4:保存圖片。畫質(zhì)增強后,照片提高了亮度使人物面部更清晰,增加了色彩飽和度,使用細(xì)節(jié)增強算法突出了頭發(fā)和眼睛等部位的細(xì)節(jié)。如果覺得效果滿意,點擊右下方的“下載”圖標(biāo)即可進(jìn)行保存,修圖效果如圖所示。10.3.3案例6:AI修圖與老照片修復(fù)步驟5:打開佐糖AI的黑白照片上色功能。打開網(wǎng)址“/photo-colorizer”,注冊并登錄進(jìn)入如圖所示頁面。10.3.3案例6:AI修圖與老照片修復(fù)步驟6:上傳老照片。點擊頁面上的“上傳圖片”按鈕,開始上傳圖片,上傳一張黑白老照片“黑白老照片.png”(可以從教材官網(wǎng)下載,如圖所示),要對其進(jìn)行修復(fù)上色。10.3.3案例6:AI修圖與老照片修復(fù)步驟6:老照片修復(fù)。上傳圖片后,可以看到照片在色彩方面的變化,打開功能“照片變清晰”后,可以看到照片在去噪方面的變化,如圖所示。10.3.3案例6:AI修圖與老照片修復(fù)步驟7:保存圖片。重新上色、去噪和色彩增強后,照片色彩更加生動,同時AI算法突出了面容、服飾等部位的細(xì)節(jié)。如果覺得效果滿意,點擊效果圖右上角的“下載”圖標(biāo)即可進(jìn)行保存。10.3.4案例7:圖片擴展與高清化這里使用百度AI圖片助手,對一張尺寸較小且分辨率較低的圖片進(jìn)行擴展放大并提升清晰度。步驟1:打開百度AI圖片助手。如之前實驗操作一樣,導(dǎo)入一張300×200像素的小尺寸山區(qū)風(fēng)景圖“低分辨率山區(qū)風(fēng)景圖.png”(可以從教材官網(wǎng)下載),圖片存在模糊和鋸齒現(xiàn)象,如圖所示。10.3.4案例7:圖片擴展與高清化步驟2:圖片擴展操作。上傳完圖片后,圖片助手默認(rèn)進(jìn)行了一次“清晰化”操作,我們可以看到圖片效果變清晰了,選擇右側(cè)的編輯方式為“AI擴圖”,選擇拓展比例為“1:1”,如圖所示。10.3.4案例7:圖片擴展與高清化步驟3:保存圖片。點擊右下方的“立即生成”按鈕,稍等片刻后,點擊“下載”,得到一張1024×1024像素的AI擴展圖,如圖所示。10.3.5案例8:智能摳圖與圖片融合這里使用即夢AI,對兩張圖片分別進(jìn)行智能摳圖,然后將摳出的主體進(jìn)行創(chuàng)意疊加合成,探索不同疊加方式和摳圖精度對合成效果的影響。步驟1:打開即夢AI的智能畫布頁面。在瀏覽器中打開網(wǎng)址/ai-tool/image-edit,進(jìn)入如圖所示的頁面。10.3.5案例8:智能摳圖與圖片融合步驟2:上傳人物圖片。點擊左側(cè)的“上傳圖片”按鈕,上傳需要去除背景的圖片,筆者選擇了一張小女孩騎單車的照片“小女孩騎單車.png”(可以從教材官網(wǎng)下載),如圖所示。10.3.5案例8:智能摳圖與圖片融合步驟3:摳圖操作。照片導(dǎo)入后,點擊照片上方的“摳圖”按鈕,智能畫布將自動識別人像主體區(qū)域,然后,點擊下方的“摳圖”按鈕,即可實現(xiàn)智能摳圖,如圖所示。10.3.5案例8:智能摳圖與圖片融合步驟4:保存圖片。可以觀察工具自動識別并摳取人物主體的效果(如圖所示),通過縮放圖片來檢查人物邊緣是否存在毛邊或誤摳現(xiàn)象,比如,這里可以看到小女孩的頭發(fā)并沒有被完整摳取,可以選擇圖片上方功能區(qū)的“畫筆”、“橡皮擦”等功能進(jìn)行調(diào)整,如果對摳圖效果滿意,可以點擊“完成編輯”按鈕,再點擊右上角的“導(dǎo)出”按鈕保存圖片。10.3.5案例8:智能摳圖與圖片融合步驟5:上傳風(fēng)景圖片。點擊左側(cè)的“上傳照片”按鈕,上傳需要作為背景的圖片,這里選擇了一張日落沙灘的照片“日落沙灘.png”(可以從教材官網(wǎng)下載),如圖所示。10.3.5案例8:智能摳圖與圖片融合步驟6:調(diào)整圖層。首先,選中“圖層2”后,點擊上方功能區(qū)的“畫板適應(yīng)內(nèi)容”圖標(biāo)。然后,拖動右側(cè)圖層區(qū)域中的“圖層1”到“圖層2”之上,使人物在風(fēng)景之上,通過縮放人物大小,使其和背景盡量比例協(xié)調(diào),如圖所示。10.3.5案例8:智能摳圖與圖片融合步驟7:下載圖片。如圖10-41所示,點擊界面右上角的“導(dǎo)出”按鈕,在“導(dǎo)出設(shè)置”的界面中,把“導(dǎo)出內(nèi)容”設(shè)置為“當(dāng)前畫板”,最后點擊“下載”按鈕,就可以把圖片下載到本地計算機中,下載后的圖片效果如圖10-42所示。圖10-41導(dǎo)出圖片圖10-42
圖片效果10.3.6案例9:涂抹消除與局部重繪這里使用即夢AI,對一張有瑕疵和不需要元素的圖片進(jìn)行涂抹消除,并利用局部重繪功能對圖片特定區(qū)域進(jìn)行創(chuàng)意修改,觀察不同涂抹參數(shù)和編輯策略對圖片效果的影響。步驟1: 打開即夢AI智能畫布。在瀏覽器中打開網(wǎng)址/ai-tool/image-edit/,如之前實驗操作一樣,導(dǎo)入一張有背景污漬、小動物和水印的產(chǎn)品圖片“待處理的產(chǎn)品照片.png”(可以從教材官網(wǎng)下載),如圖所示。10.3.6案例9:涂抹消除與局部重繪點擊上方功能區(qū)的“畫板適應(yīng)內(nèi)容”按鈕,使產(chǎn)品圖片鋪滿整個畫布,如圖所示。10.3.6案例9:涂抹消除與局部重繪步驟2: 涂抹消除操作。選擇圖片上方功能區(qū)的“消除筆”圖標(biāo),設(shè)置涂抹畫筆大小為“30”左右。在圖片上對右下角的水印文字進(jìn)行涂抹,然后,點擊下方的藍(lán)色按鈕“消除”,如圖所示。10.3.6案例9:涂抹消除與局部重繪繼續(xù)使用畫筆,涂抹圖片里闖入的小貓和背景墻面上的污漬進(jìn)行消除,如圖所示。10.3.6案例9:涂抹消除與局部重繪點擊“細(xì)節(jié)修復(fù)”和“HD超清”功能(如下圖所示),最終得到涂抹消除雜物的圖片(如圖所示)。需要注意的是,“細(xì)節(jié)修復(fù)”功能會改變物體原貌,請酌情使用。10.3.6案例9:涂抹消除與局部重繪步驟3:局部重繪操作。點擊上方功能區(qū)中的“局部重繪”圖標(biāo),默認(rèn)選擇是一個畫筆樣式,可以在圖片中用畫筆勾畫出需要重繪的區(qū)域,也可以點擊“快速選擇”功能圖標(biāo)后,點擊圖片中的背景墻區(qū)域,將自動選取整個背景墻作為重繪區(qū)域,接下來就可以發(fā)揮自己的創(chuàng)意,在下方的文字輸入框中輸入“花朵隨風(fēng)飄落”,描述想要重新繪制的內(nèi)容,還可以通過嘗試修改輸入框右側(cè)的“重繪程度”,觀察不同編輯策略對圖片整體視覺焦點和氛圍營造的作用,如圖所示。10.3.6案例9:涂抹消除與局部重繪輸入“花朵隨風(fēng)飄落”,系統(tǒng)會智能生成四張效果圖,如圖所示。10.3.6案例9:涂抹消除與局部重繪步驟4:優(yōu)化處理。這里可以選擇上一頁中的第4張圖,但圖中的分界線太明顯,不太美觀,可以繼續(xù)對該圖進(jìn)行了“涂抹消除”,還可以使用“細(xì)節(jié)重制”和“HD超清”功能對圖片進(jìn)行優(yōu)化處理。原圖和經(jīng)過AI涂抹消除、局部重繪的效果對比,如圖所示。10.3.7案例10:AI繪畫藝術(shù)創(chuàng)作這里利用豆包平臺的AI繪畫功能,以“水鄉(xiāng)小鎮(zhèn)的日常生活”為主題,創(chuàng)作四種風(fēng)格的藝術(shù)作品。通過輸入具體提示詞和調(diào)整繪畫風(fēng)格,探索AI在表現(xiàn)真實生活細(xì)節(jié)和文化氛圍中的潛力。具體風(fēng)格包括:寫實風(fēng)格、中國工筆畫風(fēng)格、攝影風(fēng)格和動漫風(fēng)格。步驟1:打開豆包平臺“圖像生成”功能模塊。在瀏覽器中打開網(wǎng)址/chat/create-image,進(jìn)入如圖所示的頁面。10.3.7案例10:AI繪畫藝術(shù)創(chuàng)作步驟2:生成寫實風(fēng)格的作品。在提示詞輸入框中輸入提示詞“江南水鄉(xiāng)的小鎮(zhèn),清晨薄霧籠罩,小橋流水,白墻黛瓦的房屋倒映在河面上,居民劃著小船,街邊有小販叫賣,畫面真實而富有生活氣息。寫實風(fēng)格,細(xì)節(jié)級別高,中等色彩飽和度?!保c擊輸入框右側(cè)“發(fā)送”按鈕,等待作品生成,系統(tǒng)會自動生成四張效果圖,如圖所示。10.3.7案例10:AI繪畫藝術(shù)創(chuàng)作步驟3:生成中國工筆畫風(fēng)格的作品。在提示詞輸入框中輸入提示詞“江南水鄉(xiāng),小橋流水人家,白墻黛瓦,居民劃著烏篷船,畫面線條細(xì)膩,色彩淡雅,展現(xiàn)傳統(tǒng)水鄉(xiāng)之美。中國傳統(tǒng)工筆畫風(fēng)格,線條精細(xì)度高,色彩層次清新淡雅。”,點擊輸入框右側(cè)“發(fā)送”按鈕,等待作品生成,系統(tǒng)會自動生成4張效果圖,如圖所示。10.3.7案例10:AI繪畫藝術(shù)創(chuàng)作步驟4:生成攝影風(fēng)格的作品。在提示詞輸入框中輸入提示詞“江南水鄉(xiāng)小鎮(zhèn),清晨薄霧中,小橋流水,居民劃船而過,街巷安靜,小販開始擺攤,場景如同攝影作品般真實。攝影風(fēng)格,光影效果:晨光柔和,細(xì)節(jié)刻畫:真實細(xì)膩,畫面比例:16:9(增強攝影感)?!保c擊輸入框右側(cè)“發(fā)送”按鈕,等待作品生成,系統(tǒng)會自動生成4張效果圖,如圖所示。10.3.7案例10:AI繪畫藝術(shù)創(chuàng)作步驟5:生成動漫風(fēng)格的作品。在提示詞輸入框中輸入提示詞“江南水鄉(xiāng)的小鎮(zhèn),小橋流水,烏篷船輕輕劃過河面,居民與小販互動,場景色彩明亮,線條簡潔,畫面具有卡通感和故事性,適合用作插圖。線條風(fēng)格:清晰明快,色彩飽和度:高,氛圍效果:輕松生動,畫面比例:4:3”,點擊輸入框右側(cè)“發(fā)送”按鈕,等待作品生成,系統(tǒng)會自動生成4張效果圖,如圖所示。10.3.8案例11:真實照片轉(zhuǎn)成二次元風(fēng)格這里利用豆包平臺的圖像生成功能,將上傳的一張真實照片,通過選擇二次元風(fēng)格轉(zhuǎn)換選項,生成對應(yīng)的二次元風(fēng)格照片。步驟1:打開豆包平臺“圖像生成”功能模塊。在瀏覽器中打開網(wǎng)址/chat/create-image,進(jìn)入圖像生成功能頁面。步驟2:上傳人物攝影照片。點擊提示詞輸入框左下的“參考圖”圖標(biāo),開始上傳一張人物攝影照片“人物攝影照片.jpg”(可以從教材官網(wǎng)下載),如圖所示。10.3.8案例11:真實照片轉(zhuǎn)成二次元風(fēng)格步驟3:選擇風(fēng)格并補充提示詞。上傳完畢后,點擊提示詞輸入框下方的“風(fēng)格”圖標(biāo),在彈出的風(fēng)格選項中選擇“二次元”,還可以在輸入框里補充更多的提示詞,比如“喝咖啡的少女,超高畫質(zhì),多重細(xì)節(jié),比例9:16”(如圖所示)。10.3.8案例11:真實照片轉(zhuǎn)成二次元風(fēng)格點擊輸入框右側(cè)“發(fā)送”按鈕,等待作品生成,最終生成了4張效果圖,如圖所示。04語音類AIGC應(yīng)用實踐Partfour10.4語音類AIGC應(yīng)用實踐語音類AIGC應(yīng)用場景案例12:豆包大模型的語音類功能用法案例13:使用喜馬拉雅音頻大模型進(jìn)行文本配音案例14:使用米可智能進(jìn)行語音克隆10.4.1語音類AIGC應(yīng)用場景語音類AIGC的應(yīng)用場景非常豐富:應(yīng)用場景01智能語音助手07智能駕駛艙與車載語音助手02智能客服06語音分析與情感識別03語音合成與轉(zhuǎn)換05語音翻譯04虛擬人物與數(shù)字人10.4.2案例12:豆包大模型的語音類功能用法一般情況下,普通用戶在手機上使用語音類AIGC大模型的場景比較多,因此,這里介紹手機版豆包的使用方法。在智能手機上下載并安裝“豆包APP”。啟動進(jìn)入豆包APP,會出現(xiàn)如圖所示的對話界面,按住“語音按鈕”(圖中箭頭指向的位置)不要松開,然后就可以對著手機說話,把自己的需求說出來,比如,可以說“請介紹一下廈門大學(xué)”,然后松開“語音按鈕”,豆包就可以立即開始回答你提出的問題。豆包可以支持實時翻譯,你可以語音輸入“廈門大學(xué)的英文名稱是什么”,豆包會馬上給出翻譯結(jié)果。10.4.2案例12:豆包大模型的語音類功能用法豆包不僅支持語音輸入,也可以支持文字輸入,只要在文字輸入框內(nèi)輸入提示詞,豆包就會給出回答。在豆包的對話界面底部,點擊“打電話”按鈕,進(jìn)入如圖所示對話界面,就可以與豆包進(jìn)行實時對話。你可以對豆包說“豆包,你可以用英語和我對話嗎”,豆包馬上會進(jìn)入英語模式和你對話,你就可以用豆包練習(xí)英語口語對話。點擊圖中的“視頻通話”按鈕(界面底部從左到右第3個按鈕),就可以開啟視頻通話功能,這時,手機屏幕會顯示攝像頭看到的實時畫面,豆包大模型也可以實時看到屏幕中的這些視頻畫面內(nèi)容,你可以針對畫面內(nèi)容向豆包發(fā)起各種提問,豆包會實時回答你的問題,比如,你把手機對著一瓶礦泉水拍攝,你可以問豆包“豆包,你告訴我這瓶礦泉水是什么品牌?是哪個廠家生產(chǎn)的?”,豆包馬上會用語音告訴你答案。10.4.3案例13:使用喜馬拉雅音頻大模型進(jìn)行文本配音步驟1:登錄喜馬拉雅平臺。請確保計算機已連接到互聯(lián)網(wǎng),并打開一個常用的網(wǎng)頁瀏覽器(如Chrome)。在瀏覽器地址欄中輸入網(wǎng)址“/”,進(jìn)入“喜馬拉雅音頻大模型”平臺,如圖所示。如果已有喜馬拉雅賬號,請點擊頁面頂部的“登錄”按鈕,輸入用戶名和密碼進(jìn)行登錄,或者使用第三方賬號(如微信、QQ等)掃碼登錄。若尚未注冊,請選擇“注冊”并按照提示完成賬號創(chuàng)建。圖喜馬拉雅音頻大模型登錄界面10.4.3案例13:使用喜馬拉雅音頻大模型進(jìn)行文本配音步驟2:
輸入文本內(nèi)容。登錄后,在平臺的首頁,找到“創(chuàng)作音頻”的工具入口,如圖10-63所示。點擊“去創(chuàng)作音頻”,開始一個文本轉(zhuǎn)音頻的任務(wù)。在頁面中,有一個文本輸入框,如圖10-64所示,在此處粘貼或輸入你想要轉(zhuǎn)換成音頻的文本內(nèi)容,要確保文本內(nèi)容清晰、準(zhǔn)確,符合創(chuàng)作需求。圖10-63喜馬拉雅音頻大模型創(chuàng)作音頻入口10.4.3案例13:使用喜馬拉雅音頻大模型進(jìn)行文本配音圖10-64音頻創(chuàng)作文本輸入10.4.3案例13:使用喜馬拉雅音頻大模型進(jìn)行文本配音步驟3:
選擇音頻風(fēng)格。在文本輸入完成后,在左側(cè)可以看到不同音頻風(fēng)格可供選擇,包括但不限于標(biāo)準(zhǔn)男聲、標(biāo)準(zhǔn)女聲、情感朗讀、新聞播報、賽事解說等。點擊每種風(fēng)格旁邊的試聽按鈕,聆聽不同風(fēng)格的音頻樣本,根據(jù)需求選擇最合適的音頻風(fēng)格,如圖所示。同時,可以根據(jù)需要調(diào)整局部變速、停頓、多音字等參數(shù),以滿足個性化需求。圖選擇音頻風(fēng)格10.4.3案例13:使用喜馬拉雅音頻大模型進(jìn)行文本配音步驟4:
生成并下載音頻。選擇好音頻風(fēng)格并調(diào)整完參數(shù)后,點擊“合成音頻”按鈕。系統(tǒng)開始利用大模型將文本轉(zhuǎn)換為音頻。處理時間長短取決于文本長度和系統(tǒng)負(fù)載,請耐心等待。音頻生成完成后,點擊“下載”按鈕,可下載MP3格式的音頻文件,如圖所示。最后,播放生成的音頻文件,檢查音質(zhì)和內(nèi)容是否符合預(yù)期。如有需要,可以根據(jù)反饋調(diào)整文本或音頻風(fēng)格,重新生成。圖下載生成的音頻文件10.4.4案例14:使用米可智能進(jìn)行語音克隆這里使用米可智能AI創(chuàng)作工具,實現(xiàn)聲音克隆,定制專屬音色,并使用定制音色將文本內(nèi)容自動轉(zhuǎn)換為高質(zhì)量的音頻輸出。步驟1:登錄米可智能平臺。在瀏覽器地址欄中輸入網(wǎng)址“/”,進(jìn)入“米可智能”平臺,如圖所示。點擊“登錄/注冊”,可使用微信掃碼登錄或手機號登錄,任選一種方式登錄即可,登錄成功后,點擊“免費試用”按鈕,進(jìn)入“AI創(chuàng)作音視頻”功能界面。10.4.4案例14:使用米可智能進(jìn)行語音克隆步驟2:上傳音頻素材。進(jìn)入“AI創(chuàng)作音視頻”功能界面后,在功能界面找到“聲音克隆”的工具入口,如圖10-68所示,點擊“聲音克隆”,開始定制個性化的音色。在頁面中(如圖10-69所示),選擇“即時克隆”,在“音色名稱”下方文本框中輸入音色名稱,然后,上傳音視頻或直接錄音,要確保只包含1個目標(biāo)音色,發(fā)音清晰、流暢;針對有背景音的文件,AI將智能去除背景音、并進(jìn)行降噪處理,所以,并不需要單獨去消除背景音。圖10-68圖10-6910.4.4案例14:使用米可智能進(jìn)行語音克隆需要特別說明的是,如果是選擇上傳音視頻的方式,上傳的音視頻文件大小不要超過100MB,可以上傳主流的音視頻格式文件,如mp3、wav、m4a、mp4等;如果是選擇上傳錄音的方式,需要根據(jù)例句進(jìn)行朗讀,朗讀5-10秒,平臺會根據(jù)真人音色,對情感、語調(diào)進(jìn)行克隆。這里采用上傳音頻的方式定制音色,請?zhí)崆皩浿坪玫囊纛l保存到本地(可以從教材官網(wǎng)下載音頻文件“史鐵生《我與地壇》-音頻.m4a”),方便直接上傳。上傳后,如圖所示,選擇源文件語言“漢語”,然后點擊提交。10.4.4案例14:使用米可智能進(jìn)行語音克隆步驟3:提交并完成音色克隆。提交后,任務(wù)將在云端后臺自動執(zhí)行,無需停留等待,僅需半分鐘左右即可完成音色的克隆??寺∫羯卜Q為聲音克隆或語音合成定制,是一種深度學(xué)習(xí)算法,它能夠接收個人的語音記錄,并合成一段與源說話人非常相似的語音,用戶只需要提供一段清晰的錄音,就可以克隆出自己的聲音??寺⊥瓿傻囊羯稍凇拔业囊羯表撁孢M(jìn)行查看和管理,如圖所示。10.4.4案例14:使用米可智能進(jìn)行語音克隆步驟4:使用克隆音色為文本配音??寺〕晒Φ囊羯芍苯討?yīng)用于“視頻翻譯”和“AI配音”,每個克隆的音色都能支持15種國際主流語言。在平臺左側(cè)工具欄,選擇“創(chuàng)作空間”,進(jìn)入主功能界面,點擊“AI配音”工具(如圖10-72所示),進(jìn)入AI配音頁面(如圖10-73所示),選擇“發(fā)音人”和“發(fā)音語言”,并輸入“文本內(nèi)容”,為文本配音,這里選擇“發(fā)音人”為定制音色,“發(fā)音語言”為漢語,并輸入你想要配音的文本。圖10-72圖10-7310.4.4案例14:使用米可智能進(jìn)行語音克隆步驟5:生成并下載音頻。輸入需要配音的文本后,點擊“提交”按鈕,即可完成音頻的生成。音頻生成完成后,如圖所示,可以點擊“下載”按鈕,下載MP3格式的音頻文件,也可以點擊“分享”按鈕,分享配音音頻。最后,播放生成的音頻文件,檢查音質(zhì)和內(nèi)容是否符合預(yù)期。如有需要,可以根據(jù)反饋調(diào)整文本或音色,重新生成。05視頻類AIGC應(yīng)用實踐Partfive10.5視頻類AIGC應(yīng)用實踐視頻類AIGC應(yīng)用場景代表性視頻類AIGC大模型案例15:使用可靈AI實現(xiàn)文生視頻案例16:使用即夢AI實現(xiàn)圖生視頻案例17:使用即夢AI制作數(shù)字人視頻類AIGC是指利用人工智能技術(shù),特別是深度學(xué)習(xí)、機器學(xué)習(xí)等算法,自動創(chuàng)建或處理視頻內(nèi)容的技術(shù)。它能夠根據(jù)給定的文本、圖像或其他數(shù)據(jù),自動生成符合描述的視頻內(nèi)容,涵蓋文生視頻、圖生視頻、視頻風(fēng)格化、人物動態(tài)化等多個方向。這一技術(shù)在創(chuàng)意設(shè)計、影視制作等領(lǐng)域展現(xiàn)出巨大潛力,極大地提升了視頻內(nèi)容的生產(chǎn)效率和質(zhì)量。10.5.1視頻類AIGC應(yīng)用場景視頻類AIGC在多個領(lǐng)域擁有廣泛的應(yīng)用場景,以下是一些主要的應(yīng)用方向:影視制作與后期制作AIGC可以生成影片、動畫、短視頻等,具備專業(yè)級的畫面效果和劇情呈現(xiàn),為影視行業(yè)提供多樣化的創(chuàng)意內(nèi)容。在影視作品的后期制作中,AIGC技術(shù)可以協(xié)助進(jìn)行視頻剪輯、特效合成等工作,提升制作效率和質(zhì)量。短視頻與直播基于用戶輸入的文本或圖像,AIGC可以快速生成符合需求的短視頻內(nèi)容,滿足短視頻平臺的多樣化需求。在直播過程中,AIGC技術(shù)可以用于生成虛擬主播、背景、道具等,為直播增添趣味性和互動性。廣告與營銷AIGC可以根據(jù)廣告需求生成創(chuàng)意視頻,幫助廣告主快速制作高質(zhì)量的廣告內(nèi)容。在電商領(lǐng)域,AIGC可以生成產(chǎn)品展示視頻,以更直觀的方式向消費者展示產(chǎn)品特點和使用效果。教育與培訓(xùn)AIGC可以生成教學(xué)視頻,幫助教育機構(gòu)和個人教師快速制作在線課程內(nèi)容。在理工科教育中,AIGC可以生成虛擬實驗視頻,讓學(xué)生在虛擬環(huán)境中進(jìn)行案例操作,提高教學(xué)效果。虛擬現(xiàn)實與增強現(xiàn)實AIGC技術(shù)可以生成虛擬現(xiàn)實和增強現(xiàn)實內(nèi)容,為用戶提供沉浸式的視覺體驗。在游戲開發(fā)中,AIGC可以生成游戲關(guān)卡、角色、道具、故事情節(jié)等,為游戲行業(yè)帶來創(chuàng)新和多樣性。新聞傳播與媒體融合AIGC可以根據(jù)新聞事件自動生成新聞稿件,提高新聞資訊的時效性和傳播效率。在新聞傳播領(lǐng)域,AIGC可以生成AI合成主播進(jìn)行新聞播報,為觀眾提供更加生動、形象的新聞信息。其他領(lǐng)域AIGC可以用于智能導(dǎo)游、虛擬現(xiàn)實體驗等場景,提升旅游體驗和游客滿意度。在工業(yè)領(lǐng)域,AIGC可以生成產(chǎn)品演示視頻、操作指南等內(nèi)容,幫助企業(yè)員工更好地理解和掌握產(chǎn)品知識。10.5.2代表性的視頻類AIGC大模型視頻類AIGC大模型發(fā)端于Sora。2024年2月,美國的OpenAI發(fā)布了全球第一款文生視頻大模型Sora(這里的“文生視頻”是指由輸入的文本內(nèi)容生成相應(yīng)的視頻),迅速引起了業(yè)界的廣泛關(guān)注和討論,因其能夠快速生成高質(zhì)量的廣告宣傳視頻及商品演示視頻,從而大幅降低廣告相關(guān)內(nèi)容的制作成本及時間。我國的視頻類AIGC大模型主要包括:生數(shù)科技聯(lián)合清華大學(xué)發(fā)布,是中國首個長時長、高一致性、高動態(tài)性視頻大模型,支持一鍵生成16秒高清視頻,性能對標(biāo)國際頂尖水平。由快手推出,被譽為中國版Sora,視頻生成時長可達(dá)120秒,支持文生視頻、圖生視頻、視頻續(xù)寫、鏡頭控制等功能,表現(xiàn)出色??伸`Vidu由上海人工智能實驗室研發(fā),可生成分鐘級視頻,已用于央視AI動畫片《千秋詩頌》的制作,具備中國元素和高清畫質(zhì)。書生·筑夢即夢AI是字節(jié)跳動旗下的產(chǎn)品,它是一個生成式人工智能創(chuàng)作平臺,支持通過自然語言及圖片輸入,生成高質(zhì)量的圖像及視頻。提供智能畫布、故事創(chuàng)作模式、以及首尾幀、對口型、運鏡控制、速度控制等AI編輯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 手機掛粉協(xié)議書
- 熱菜供應(yīng)合同范本
- 苗圃苗木協(xié)議書
- 蒙特列爾協(xié)議書
- 融資合同范協(xié)議
- 解除合同免責(zé)協(xié)議
- 認(rèn)購協(xié)議沒合同
- 設(shè)備續(xù)費協(xié)議書
- 說媒贍養(yǎng)協(xié)議書
- 2025廣東廣州市勞動人事爭議仲裁委員會招聘兼職仲裁員備考筆試試題及答案解析
- 2026年度安全教育培訓(xùn)計劃培訓(xùn)記錄(1-12個月附每月內(nèi)容模板)
- 廣東省深圳市寶安區(qū)2024-2025學(xué)年八年級上學(xué)期1月期末考試數(shù)學(xué)試題
- 2023電氣裝置安裝工程盤、柜及二次回路接線施工及驗收規(guī)范
- 大量不保留灌腸
- 2025年江蘇省安全員C2本考試題庫+解析及答案
- 物業(yè)經(jīng)理競聘管理思路
- 臨床營養(yǎng)管理制度匯編
- 購銷合同電子模板下載(3篇)
- 防洪評價進(jìn)度安排方案(3篇)
- 胃腸減壓技術(shù)操作并發(fā)癥
- 院感職業(yè)防護(hù)教學(xué)課件
評論
0/150
提交評論