版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章AIGC與應(yīng)用《人工智能通識(shí)教程》配套課件《人工智能通識(shí)》教研組本章概述本章介紹生成式人工智能(GAI)及其在AIGC中的核心技術(shù)與應(yīng)用,涵蓋發(fā)展歷程、生成模型原理、表示學(xué)習(xí)及實(shí)際案例,揭示智能內(nèi)容創(chuàng)作的未來潛力。主要講述的內(nèi)容如下:(1)生成式人工智能(GAI)的定義及其與AIGC的關(guān)系。(2)AIGC的關(guān)鍵概念,包括內(nèi)容孿生、內(nèi)容編輯與生成、內(nèi)容理解。(3)AIGC的發(fā)展歷程及生成技術(shù),涵蓋語言、視覺和多模態(tài)生成。(4)生成模型與判別模型的區(qū)別,生成模型的框架、概率表示及目標(biāo)函數(shù)。(5)表示學(xué)習(xí)的基本概念、常用方式及其與特征工程的區(qū)別。(6)AIGC的實(shí)際應(yīng)用案例,展示智能內(nèi)容創(chuàng)作和課件制作價(jià)值。本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.1生成式人工智能(GAI)GAI(GenerativeArtificialIntelligence,生成式人工智能)以機(jī)器學(xué)習(xí)生成文本、圖像、音頻等新內(nèi)容,強(qiáng)調(diào)創(chuàng)造性;AIGC是其落地產(chǎn)物,即AI自動(dòng)生成的具體作品。GAI提供技術(shù)基礎(chǔ),AIGC呈現(xiàn)實(shí)際價(jià)值,二者協(xié)同推動(dòng)創(chuàng)作創(chuàng)新與應(yīng)用發(fā)展。7.1生成式人工智能(GAI)GAI以機(jī)器學(xué)習(xí)生成文本、圖像、音頻、視頻等新內(nèi)容,重在創(chuàng)造而非分類。通過學(xué)習(xí)數(shù)據(jù)模式,利用VAE、GAN、Transformer等模型在NLP與多媒體領(lǐng)域?qū)崿F(xiàn)生成應(yīng)用。1.GAI的基本原理GAI通過學(xué)習(xí)海量數(shù)據(jù)模式,模擬創(chuàng)造性思維,生成全新內(nèi)容;不同于判別式算法的分類識(shí)別,側(cè)重創(chuàng)造未見實(shí)例。GAI通常采用以下幾種深度學(xué)習(xí)模型來達(dá)成其目標(biāo):(1)變分自編碼器(VAEs,VariationalAutoencoders):VAEs通過編碼器將輸入數(shù)據(jù)壓縮成潛在空間表示,然后通過解碼器從這個(gè)表示中重構(gòu)數(shù)據(jù),從而生成新內(nèi)容。(2)生成對(duì)抗網(wǎng)絡(luò)(GANs,GenerativeAdversarialNetworks):GANs由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成,一個(gè)生成器和一個(gè)判別器。生成器負(fù)責(zé)創(chuàng)建新數(shù)據(jù),而判別器則嘗試判斷生成的數(shù)據(jù)是否與真實(shí)數(shù)據(jù)相匹配,這種對(duì)抗過程使得生成器逐漸提高生成內(nèi)容的質(zhì)量。(3)Transformer模型(例如ChatGPT):利用這種模型,通過自注意力機(jī)制,GAI能夠理解和生成文本,模擬復(fù)雜的語言結(jié)構(gòu)和上下文關(guān)系。7.1.1GAI概述7.1生成式人工智能(GAI)2.GAI的關(guān)鍵特性GAI的關(guān)鍵特性主要包括以下幾個(gè)方面:(1)內(nèi)容生成能力GAI能夠基于輸入的提示或上下文生成高質(zhì)量的內(nèi)容,涵蓋文本、圖像、音頻、視頻等多種形式,且內(nèi)容具有較強(qiáng)的連貫性和創(chuàng)造性。(2)大規(guī)模預(yù)訓(xùn)練模型通?;诖笠?guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,具備豐富的知識(shí)儲(chǔ)備和語言或視覺理解能力,從而支持多樣化的生成任務(wù)。(3)上下文理解與響應(yīng)能夠理解上下文信息,針對(duì)用戶輸入生成相關(guān)且合適的輸出,實(shí)現(xiàn)人與人工智能的自然交互體驗(yàn)。7.1生成式人工智能(GAI)(4)多模態(tài)生成部分GAI系統(tǒng)支持跨模態(tài)的內(nèi)容生成,如文本生成圖像、圖像生成文本,增強(qiáng)了智能體的表現(xiàn)力和應(yīng)用范圍。(5)自適應(yīng)和可定制性可以通過微調(diào)(fine-tuning)或條件控制,使生成結(jié)果滿足特定風(fēng)格、領(lǐng)域或用戶需求,提升生成內(nèi)容的實(shí)用性。(6)泛化能力強(qiáng)能夠遷移到多種任務(wù)和領(lǐng)域,實(shí)現(xiàn)從文章創(chuàng)作、代碼生成到藝術(shù)設(shè)計(jì)等多樣化應(yīng)用。(7)實(shí)時(shí)交互性具備快速響應(yīng)能力,支持實(shí)時(shí)對(duì)話、內(nèi)容生成和輔助決策等,即時(shí)滿足用戶需求。7.1生成式人工智能(GAI)3.GAI的主要應(yīng)用場(chǎng)景GAI的主要應(yīng)用場(chǎng)景如下。(1)文本生成文本生成是GAI最廣泛的應(yīng)用之一。它利用深度學(xué)習(xí)模型,能夠創(chuàng)建多種類型的文本內(nèi)容。具體應(yīng)用包括:新聞報(bào)道:GAI可以根據(jù)最新事件的事實(shí)數(shù)據(jù)自動(dòng)撰寫新聞稿件,迅速生成準(zhǔn)確、專業(yè)的報(bào)道。這為新聞機(jī)構(gòu)節(jié)省了時(shí)間,提高了采編效率,尤其在突發(fā)事件報(bào)道中顯得尤為重要。小說創(chuàng)作:作家可以使用GAI工具獲取靈感,生成情節(jié)大綱、角色背景和對(duì)話,幫助他們打破創(chuàng)作瓶頸。這種協(xié)作方式使全新的故事和風(fēng)格得以探索。詩歌創(chuàng)作:GAI可以根據(jù)特定主題或風(fēng)格生成詩歌,通過學(xué)習(xí)不同風(fēng)格的詩作,展現(xiàn)出獨(dú)特的藝術(shù)表現(xiàn)力。這種技術(shù)的應(yīng)用鼓勵(lì)創(chuàng)意表達(dá)和文化互動(dòng)。商業(yè)寫作:在市場(chǎng)營(yíng)銷和廣告方面,GAI可以為產(chǎn)品說明書、推廣文案、社交媒體帖子等生成高質(zhì)量文本。這種自動(dòng)化可以幫助企業(yè)快速響應(yīng)市場(chǎng)變化并優(yōu)化營(yíng)銷策略。人機(jī)互動(dòng):如對(duì)話型AI生成個(gè)性化的回應(yīng),在客戶服務(wù)中幫助人們解決問題,提高交互體驗(yàn)。7.1生成式人工智能(GAI)(2)圖像生成圖像生成是GAI在視覺藝術(shù)和設(shè)計(jì)領(lǐng)域的重要應(yīng)用。它能夠根據(jù)用戶的描述、情感或主題來生成圖像,具體表現(xiàn)為:基于文本的圖像生成:用戶輸入描述后,GAI能夠創(chuàng)作出符合描述的圖像。例如,通過描述一幅景觀圖像,生成的軟件可以準(zhǔn)確呈現(xiàn)出圖像中的元素及其特征。設(shè)計(jì)輔助:在平面設(shè)計(jì)、服裝設(shè)計(jì)和產(chǎn)品原型制作等方面,GAI不僅能生成初步草圖,也能基于用戶偏好提供不同風(fēng)格和色調(diào)的設(shè)計(jì)方案,縮短設(shè)計(jì)周期。藝術(shù)創(chuàng)作:藝術(shù)家可以利用GAI生成具有獨(dú)特風(fēng)格的作品,探索新的藝術(shù)創(chuàng)作方法。通過調(diào)整參數(shù),藝術(shù)家可以生成不同畫風(fēng)的作品,從而豐富他們的作品集。虛擬現(xiàn)實(shí)和游戲開發(fā):GAI可以創(chuàng)造游戲中的素材,如角色模型、背景環(huán)境等,減少設(shè)計(jì)師的工作量,并提升創(chuàng)作效率,以應(yīng)對(duì)快速變化的市場(chǎng)需求。7.1生成式人工智能(GAI)(3)音頻合成音頻合成利用GAI生成各種聲音和音樂,具有重要的商業(yè)和藝術(shù)應(yīng)用。具體包括:語音合成:GAI能夠生成高度逼真的計(jì)算機(jī)合成語音,應(yīng)用于語音助手、導(dǎo)航系統(tǒng)和客戶服務(wù)。這種技術(shù)可為不同語言和方言提供自然流暢的語音。音樂創(chuàng)作:通過分析音樂數(shù)據(jù),GAI可以生成旋律、和聲及節(jié)奏,幫助音樂創(chuàng)作者尋找新的靈感。音樂制作人可以使用這些生成的音軌作為基礎(chǔ),進(jìn)行后期創(chuàng)作。音效生成:在游戲和電影制作中,GAI能夠生成背景音樂和音效,增強(qiáng)觀眾的沉浸感。此技術(shù)能夠根據(jù)情節(jié)變化實(shí)時(shí)生成合適的音效。實(shí)驗(yàn)音樂:音樂家和實(shí)驗(yàn)者可以利用GAI探索和創(chuàng)作前所未有的聲音和音樂形式,從而推動(dòng)音樂創(chuàng)作的邊界。7.1生成式人工智能(GAI)聲紋識(shí)別與合成:GAI也可用于生成特定作者的獨(dú)特聲音,應(yīng)用于個(gè)人化的語音助手或有聲閱讀,這為用戶提供個(gè)性化的聽覺體驗(yàn)。GAI在文本生成、圖像生成和音頻合成等領(lǐng)域的廣泛應(yīng)用極大地推動(dòng)了多個(gè)行業(yè)的創(chuàng)新與效率提升。這一技術(shù)的進(jìn)步不僅為內(nèi)容創(chuàng)作者、設(shè)計(jì)師和音樂家提供了強(qiáng)有力的工具,也開啟了各種創(chuàng)意表達(dá)的新途徑。隨著GAI不斷發(fā)展,未來其應(yīng)用場(chǎng)景將會(huì)愈加豐富,影響到更多行業(yè)和生活的各個(gè)方面。7.1生成式人工智能(GAI)4.面臨的挑戰(zhàn)與倫理問題盡管GAI帶來了諸多機(jī)遇,但也面臨一些挑戰(zhàn)和倫理問題:(1)內(nèi)容審核與質(zhì)量控制:由于GAI能夠生成信息量巨大的內(nèi)容,確保生成內(nèi)容的合法性、準(zhǔn)確性和道德性變得極為重要。因此,需要建立有效的審核機(jī)制來管理AI生成的材料。(2)版權(quán)與知識(shí)產(chǎn)權(quán):GAI生成的內(nèi)容可能涉及到原創(chuàng)作品的模仿或復(fù)制,因此必須討論如何保護(hù)知識(shí)產(chǎn)權(quán),以防止版權(quán)侵犯。(3)濫用與惡意應(yīng)用:GAI有可能被用于生成虛假信息、仇恨言論或其他惡意用途,技術(shù)監(jiān)管和法律限制將是防范此類濫用的重要手段。(4)公眾教育與認(rèn)知:隨著GAI技術(shù)的普及,提高大眾對(duì)GAI及其潛在影響的認(rèn)知,將有助于減少誤解和恐慌,同時(shí)促進(jìn)負(fù)責(zé)任的使用。7.1生成式人工智能(GAI)GAI與AIGC是密切相關(guān)的兩個(gè)概念??梢哉f,AIGC是GAI的一個(gè)具體應(yīng)用方向。GAI提供生成式能力與技術(shù)框架,AIGC是其應(yīng)用成果,體現(xiàn)具體作品與社會(huì)價(jià)值。二者從技術(shù)到產(chǎn)品相銜接,共促創(chuàng)意表達(dá)與普及。(1)核心差異GAI側(cè)重創(chuàng)造、預(yù)測(cè)、轉(zhuǎn)換、補(bǔ)全等生成能力;AIGC強(qiáng)調(diào)由此產(chǎn)生的具體內(nèi)容產(chǎn)出,如文本、圖像、音樂、視頻等實(shí)際作品。(2)邏輯聯(lián)系GAI是底層方法與模型基礎(chǔ),AIGC是落地形態(tài)與產(chǎn)品表現(xiàn)。技術(shù)演進(jìn)驅(qū)動(dòng)內(nèi)容形態(tài)多樣化,加速規(guī)模化應(yīng)用與行業(yè)融合。7.1.2GAI與AIGC的關(guān)系7.1生成式人工智能(GAI)(3)應(yīng)用示例AIGC涵蓋文案寫作、圖像合成、音樂生成、視頻剪輯、代碼輔助等;依托GAI模型能力,面向創(chuàng)作、營(yíng)銷、教育與娛樂場(chǎng)景。(4)名稱混用在部分語境中,AIGC被用作GAI的代稱,因其直觀呈現(xiàn)技術(shù)成果;但嚴(yán)格區(qū)分有助于討論技術(shù)機(jī)制與產(chǎn)品價(jià)值。本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.2AIGC內(nèi)容孿生、編輯與理解內(nèi)容創(chuàng)作由UGC到PGC再到AIGC演進(jìn)。AIGC依托深度學(xué)習(xí)、NLP與視覺生成文本圖像音頻,涵蓋內(nèi)容孿生、編輯與生成、理解,提升效率與規(guī)模。挑戰(zhàn)在于深層語義理解與類人認(rèn)知以改進(jìn)決策。AIGC與人工智能技術(shù)譜系如圖7-1所示。圖7-1AIGC與人工智能技術(shù)譜系A(chǔ)IGC內(nèi)容創(chuàng)作的形式主要有內(nèi)容孿生、內(nèi)容編輯和生成、內(nèi)容理解等。7.2AIGC內(nèi)容孿生、編輯與理解內(nèi)容孿生含內(nèi)容增強(qiáng)與轉(zhuǎn)譯:增強(qiáng)指修復(fù)、去噪、超分放大與細(xì)節(jié)提升、老照片修復(fù);轉(zhuǎn)譯實(shí)現(xiàn)跨模態(tài),如音頻轉(zhuǎn)字幕、文本轉(zhuǎn)語音,強(qiáng)化現(xiàn)實(shí)與數(shù)字映射與多模態(tài)效果。內(nèi)容孿生的應(yīng)用范圍廣泛,主要包括:(1)語音轉(zhuǎn)字幕:將錄音內(nèi)容轉(zhuǎn)換為可讀的文本,提高信息的可訪問性。(2)文本轉(zhuǎn)語音:將書面文本自動(dòng)轉(zhuǎn)換為語音,使得文字信息更具互動(dòng)性和傳播性。(3)圖像超分辨率:利用光學(xué)及相關(guān)知識(shí),根據(jù)已知的圖像信息恢復(fù)圖像細(xì)節(jié)和其他數(shù)據(jù)信息。簡(jiǎn)單來說,就是增大圖像的分辨率,以防止圖像質(zhì)量下降。這些技術(shù)不僅提升了信息傳遞的效率,還增強(qiáng)了用戶體驗(yàn),使得現(xiàn)實(shí)內(nèi)容能夠在數(shù)字化轉(zhuǎn)化過程中獲得更高的質(zhì)量和可用性。7.2.1內(nèi)容孿生7.2AIGC內(nèi)容孿生、編輯與理解內(nèi)容編輯基于對(duì)數(shù)字內(nèi)容的理解,實(shí)現(xiàn)修改和屬性控制,如視頻剪輯、虛擬試衣和音頻分離。內(nèi)容生成通過學(xué)習(xí)海量數(shù)據(jù),創(chuàng)造新內(nèi)容,涵蓋繪畫、文本、音樂及跨模態(tài)圖像生成,表現(xiàn)出多樣化創(chuàng)新能力。1.內(nèi)容編輯基于對(duì)內(nèi)容與屬性的理解進(jìn)行修改:視覺中實(shí)現(xiàn)多場(chǎng)景視頻剪輯;虛擬試衣通過人體檢測(cè)與衣物變形精準(zhǔn)覆蓋;語音處理中分離人聲與背景聲。核心在于對(duì)數(shù)字內(nèi)容的深度語義理解與可控編輯。2.內(nèi)容生成從海量數(shù)據(jù)學(xué)習(xí)抽象概念并組合創(chuàng)作新內(nèi)容:AI繪畫融匯筆法與風(fēng)格再創(chuàng)造;文本、音樂、詩詞生成表現(xiàn)出色;跨模態(tài)文本生成圖像,控制主體數(shù)量、形狀、顏色、動(dòng)作及關(guān)系等屬性。7.2.2內(nèi)容編輯和生成7.2AIGC內(nèi)容孿生、編輯與理解人工智能從形式化學(xué)習(xí)走向內(nèi)容理解仍待突破。深度學(xué)習(xí)擅長(zhǎng)模式與關(guān)聯(lián),卻難grasp深層語義與因果。唯有實(shí)現(xiàn)對(duì)內(nèi)容本質(zhì)的理解,方能提升決策智能。(1)局限本質(zhì)現(xiàn)有模型依賴大數(shù)據(jù)與統(tǒng)計(jì)相關(guān)性,難以把握概念內(nèi)涵與背景知識(shí),缺乏可解釋性與穩(wěn)健性,易在分布外場(chǎng)景失靈。(2)理解缺口識(shí)別會(huì)“看見”對(duì)象名,卻不理解對(duì)象屬性、關(guān)系、功能與因果機(jī)制;僅停留在表征相似性,難以支撐復(fù)雜推理與常識(shí)。(3)關(guān)鍵挑戰(zhàn)需從相關(guān)性邁向因果性,引入可組合表征、結(jié)構(gòu)化知識(shí)與世界模型,實(shí)現(xiàn)跨模態(tài)對(duì)齊與語義一致,提升泛化與穩(wěn)健。7.2.3內(nèi)容理解7.2AIGC內(nèi)容孿生、編輯與理解(4)技術(shù)路徑結(jié)合符號(hào)推理與神經(jīng)網(wǎng)絡(luò),構(gòu)建可解釋中間表征;引入生成式世界模型、場(chǎng)景圖與程序化監(jiān)督,增強(qiáng)因果推理能力。(5)評(píng)測(cè)與安全建立面向語義理解與因果推理的基準(zhǔn);強(qiáng)調(diào)對(duì)抗魯棒、溯源可解釋與不確定性估計(jì),確保在高風(fēng)險(xiǎn)決策中的可靠性。本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.3AIGC發(fā)展歷程AIGC從規(guī)則與概率起步,經(jīng)VAE、GAN到Transformer與擴(kuò)散模型迭代,融合多模態(tài)技術(shù),推動(dòng)文本與視覺生成躍升,走向規(guī)?;c智能化應(yīng)用。(1)早期階段基于規(guī)則與概率模型,依賴人工設(shè)計(jì)與先驗(yàn)分布,任務(wù)定制強(qiáng)但泛化弱,生成多樣性、自然性與可擴(kuò)展性受限。(2)深度學(xué)習(xí)突破VAE等模型學(xué)習(xí)潛在空間,提升高維數(shù)據(jù)建模與多樣生成;GAN引入對(duì)抗訓(xùn)練,顯著增強(qiáng)樣本真實(shí)性與視覺質(zhì)量。(3)Transformer里程碑自注意力強(qiáng)化長(zhǎng)程依賴建模;GPT通過大規(guī)模預(yù)訓(xùn)練與微調(diào),提升文本流暢性與語義一致性,催生對(duì)話式應(yīng)用普及。7.3AIGC發(fā)展歷程(4)擴(kuò)散模型崛起逐噪與逆擴(kuò)散生成高質(zhì)圖像,訓(xùn)練更穩(wěn)定、細(xì)節(jié)更佳;StableDiffusion推動(dòng)開源生態(tài)與可控生成,重塑視覺工作流。(5)多模態(tài)融合GAN、Transformer、擴(kuò)散等技術(shù)組合,覆蓋文本、圖像、音頻、視頻與多模態(tài)生成,擴(kuò)展AIGC邊界與應(yīng)用廣度。(6)應(yīng)用與展望在創(chuàng)作、媒體、游戲與助手等領(lǐng)域提效增質(zhì);未來隨算法優(yōu)化、算力與數(shù)據(jù)增強(qiáng),走向更精細(xì)、個(gè)性化與創(chuàng)造性。7.3AIGC發(fā)展歷程AIGC相關(guān)技術(shù)的發(fā)展歷程如圖7-2所示。圖7-2AIGC相關(guān)技術(shù)的發(fā)展歷程本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.4AIGC生成技術(shù)語言生成技術(shù)包括遮掩語言模型(如BERT)和自回歸語言模型(如GPT),分別擅長(zhǎng)理解與生成文本。視覺生成技術(shù)通過CNN、GAN和擴(kuò)散模型提升圖像質(zhì)量。多模態(tài)技術(shù)融合文本、圖像、音頻等,實(shí)現(xiàn)跨模態(tài)生成與交互,推動(dòng)智能創(chuàng)作和應(yīng)用創(chuàng)新,代表如DALL·E和StableDiffusion。7.4AIGC生成技術(shù)遮掩語言模型(MLM)通過預(yù)測(cè)被遮掩詞匯,利用雙向上下文提升語言理解能力,代表如BERT,適用于文本分類等任務(wù);自回歸語言模型(ALM)基于歷史詞語逐步生成文本,代表如GPT,擅長(zhǎng)文本續(xù)寫和生成,二者在自然語言處理領(lǐng)域各有優(yōu)勢(shì)并互補(bǔ)。1.遮掩語言模型(MLM)通過在輸入句子中隨機(jī)遮掩詞或字符,用特殊標(biāo)記(如[MASK])替換,被訓(xùn)練去根據(jù)上下文預(yù)測(cè)缺失詞。其訓(xùn)練可聯(lián)合利用雙向上下文,充分捕捉跨位置依賴與語義信息,顯著強(qiáng)化語言理解與句法把握。BERT為代表模型,在大規(guī)模語料上以MLM預(yù)訓(xùn)練,獲得強(qiáng)表征,廣泛作為下游任務(wù)(分類、問答、情感、實(shí)體識(shí)別等)的基礎(chǔ)。7.4.1語言生成方面的技術(shù)7.4AIGC生成技術(shù)2.自回歸語言模型(ALM)基于前文條件逐步生成后續(xù)詞,通常按左到右計(jì)算條件概率并依次采樣,生成過程每步依賴已生成內(nèi)容,確保連貫與語義一致。相比偏理解的MLM,ALM專注生成任務(wù),如續(xù)寫、對(duì)話、故事創(chuàng)作。代表為GPT,采用Transformer解碼器架構(gòu),結(jié)合大規(guī)模預(yù)訓(xùn)練學(xué)習(xí)語義與句法模式,能生成內(nèi)容豐富、邏輯清晰文本,應(yīng)用于寫作、問答、代碼生成等。7.4AIGC生成技術(shù)計(jì)算機(jī)視覺(ComputerVision,CV)由規(guī)則驅(qū)動(dòng)到深度學(xué)習(xí)躍遷,CNN奠基,VAE/GAN與擴(kuò)散模型提升生成質(zhì)量,Transformer體系在分類與檢測(cè)分割等全面突破。1. 傳統(tǒng)方法演進(jìn)紋理合成與映射依賴人工特征與規(guī)則,能擬局部結(jié)構(gòu)卻難捕捉全局語義與細(xì)節(jié),生成復(fù)雜度、多樣性與質(zhì)量受限。2. CNN奠基卷積網(wǎng)絡(luò)提取多尺度特征,顯著提升識(shí)別與生成能力,成為CV核心范式,推動(dòng)圖像生成與理解的整體進(jìn)步。7.4.2視覺生成方面的技術(shù)7.4AIGC生成技術(shù)3. VAE與GANVAE引入潛變量學(xué)習(xí),GAN以對(duì)抗訓(xùn)練提升逼真度與多樣性,廣泛用于合成、修復(fù)與風(fēng)格遷移,改寫生成技術(shù)版圖。4. 擴(kuò)散模型崛起DDPM、DALL·E、StableDiffusion以逐噪與逆擴(kuò)散實(shí)現(xiàn)細(xì)粒度控制,生成質(zhì)量與細(xì)節(jié)表現(xiàn)優(yōu)異,多樣性顯著提升。5. 視覺TransformerViT以圖像塊序列化做分類,性能媲美乃至超越CNN;Swin引入層級(jí)與滑窗,強(qiáng)勢(shì)覆蓋檢測(cè)與分割等下游任務(wù)。7.4AIGC生成技術(shù)AIGC多模態(tài)生成技術(shù)是指具備處理、理解和生成多種數(shù)據(jù)模態(tài)(例如文本、圖像、音頻、視頻等)能力的先進(jìn)人工智能技術(shù)。多模態(tài)生成技術(shù)通過整合和學(xué)習(xí)各種模態(tài)的特征與語義關(guān)系,使得模型能夠在一種模態(tài)的信息提示下生成另一種模態(tài)的內(nèi)容。例如:(1)文本生成圖像:人工智能繪畫技術(shù)根據(jù)文本描述(如關(guān)鍵詞、風(fēng)格要求)自動(dòng)創(chuàng)作具有特定風(fēng)格和細(xì)節(jié)的圖像,代表案例包括DALL·E和StableDiffusion。(2)文本生成音頻:基于文本提示生成符合特定情緒、場(chǎng)景或風(fēng)格的音樂作品或語音內(nèi)容,推動(dòng)了智能作曲和語音合成的發(fā)展。(3)文本生成視頻:利用描述性文本自動(dòng)生成與語義相符的視頻片段,結(jié)合圖形、語音和動(dòng)畫,為影視制作和內(nèi)容創(chuàng)作提供全新工具。7.4.3多模態(tài)方面的技術(shù)7.4AIGC生成技術(shù)(4)圖像生成文本:模型能夠根據(jù)圖像內(nèi)容自動(dòng)生成標(biāo)題、描述甚至故事,幫助提升視覺內(nèi)容的理解與傳播效率。(5)圖像生成視頻:基于靜態(tài)圖像生成動(dòng)態(tài)視頻內(nèi)容,實(shí)現(xiàn)視覺表現(xiàn)的多樣化和生動(dòng)化。7.4AIGC生成技術(shù)多模態(tài)生成處理示意如圖7-3所示。圖3-3多模態(tài)生成處理示意7.4AIGC生成技術(shù)多模態(tài)生成技術(shù)的關(guān)鍵技術(shù)點(diǎn)如下。(1)多模態(tài)嵌入將不同模態(tài)映射到統(tǒng)一向量空間,捕捉跨模態(tài)關(guān)聯(lián),為檢索、生成與對(duì)齊奠定表征基礎(chǔ)。(2)跨模態(tài)交互學(xué)習(xí)聯(lián)合訓(xùn)練建模模態(tài)間相互影響,提升相關(guān)性與一致性,如依據(jù)文本生成匹配圖像或視頻。(3)多任務(wù)學(xué)習(xí)單模型并行多生成任務(wù),跨模態(tài)共享知識(shí)與表征,緩解數(shù)據(jù)稀缺并整體提升性能。(4)注意力與Transformer注意力聚焦關(guān)鍵信息與對(duì)齊關(guān)系,Transformer高效融合多模態(tài),提高生成質(zhì)量與準(zhǔn)確性。多模態(tài)生成技術(shù)的應(yīng)用實(shí)例如下。7.4AIGC生成技術(shù)(1)文本到圖像生成:如DALL-E系列模型,用戶輸入文本描述,模型能生成與之匹配的圖像,這在設(shè)計(jì)、藝術(shù)、廣告等行業(yè)有廣泛的應(yīng)用。DALL-E繪畫示例如圖7-4所示。圖7-4DALL-E繪畫示例7.4AIGC生成技術(shù)(2)視頻生成:基于腳本或簡(jiǎn)短描述生成完整視頻片段,可用于進(jìn)行快速內(nèi)容創(chuàng)作,生成新聞?wù)?、個(gè)性化視頻廣告等。(3)語音合成與翻譯:將文本轉(zhuǎn)化為自然流暢的語音,或者在不同語言之間進(jìn)行語音翻譯,提高多語言內(nèi)容的可達(dá)性和交互性。(4)虛擬助理與客戶服務(wù):結(jié)合語音識(shí)別、語義理解與生成回答,創(chuàng)建更加智能和人性化的客服系統(tǒng),提升用戶體驗(yàn)。(5)教育內(nèi)容創(chuàng)作:生成包含圖像、聲音、文字等多種元素的互動(dòng)教學(xué)材料,適應(yīng)不同學(xué)習(xí)風(fēng)格,提升教育效果。(6)娛樂與游戲:生成動(dòng)態(tài)游戲場(chǎng)景、角色對(duì)話、背景音樂等,豐富游戲內(nèi)容和用戶體驗(yàn)。(7)無障礙服務(wù):為視障人士將圖像轉(zhuǎn)化為詳細(xì)的文字描述,或?yàn)槁犝先耸繉⒄Z音轉(zhuǎn)化為字幕,增強(qiáng)信息的可訪問性。7.4AIGC生成技術(shù)生成模型在不同領(lǐng)域的發(fā)展遵循不同的路徑,但最終出現(xiàn)了交集-Transformer模型。CLIP、DALL·E、StableDiffusion等模型為多模態(tài)模型,如圖7-5所示。這些模型將Transformer模型與視覺組件相結(jié)合,允許在大量文本和圖像數(shù)據(jù)上進(jìn)行訓(xùn)練。由于在預(yù)訓(xùn)練中結(jié)合了視覺和語言知識(shí),可以說,Transformer的出現(xiàn)讓圖像生成變得更具想象力。圖7-5AIGC中的多模態(tài)模型本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.5生成模型與判別模型生成模型和判別模型在機(jī)器學(xué)習(xí)中具有不同的功能和目標(biāo)。生成模型旨在還原訓(xùn)練樣本并創(chuàng)造新內(nèi)容,如生成與輸入相似的圖像或文本摘要。其輸出是對(duì)觀察數(shù)據(jù)分布的估計(jì),通常表示為高斯混合模型。7.5生成模型與判別模型一個(gè)好的生成模型應(yīng)該能實(shí)現(xiàn)以下兩個(gè)目標(biāo)。(1)基本功能:能夠還原參與訓(xùn)練的樣本,實(shí)現(xiàn)模仿功能。(2)創(chuàng)新功能:如果輸入為圖像,通過生成模型,能夠生成原數(shù)據(jù)沒有但與輸入圖像相似的圖像;如果輸入為語句,通過生成模型,能夠生成輸入語句的摘要或?qū)Υ鸲陶Z等信息。生成模型的架構(gòu)圖如圖7-6所示。7.5.1生成模型圖7-6生成模型的架構(gòu)圖7.5生成模型與判別模型生成模型的數(shù)學(xué)表示如下:7.5生成模型與判別模型判別模型與機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)相似,輸入數(shù)據(jù)除圖像外,還需要對(duì)應(yīng)圖像的類別標(biāo)簽,如圖7-7所示。7.5.2判別模型圖7-7判別模型的架構(gòu)圖7.5生成模型與判別模型判別模型的數(shù)學(xué)表示如下:本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.6生成模型的原理生成模型是一種用于生成新樣本的模型,可以模擬給定輸入數(shù)據(jù)的概率分布。生成模型的框架、概率表示和目標(biāo)函數(shù)等方面進(jìn)行說明。假設(shè)有一組觀察數(shù)據(jù),這組觀察數(shù)據(jù)通過一個(gè)規(guī)則來生成,這個(gè)規(guī)則不妨稱為,圖7-8左邊為數(shù)據(jù)分布樣本點(diǎn),圖7-8右邊為由隨機(jī)采樣得到的分布曲線。7.6.1生成模型的框架7.6生成模型的原理一般情況下,生成觀察數(shù)據(jù)的規(guī)則(即分布函數(shù))是未知的,我們只能看到一組觀察數(shù)據(jù),如一組樣本,這些樣本可以是一組樣本點(diǎn)或一組圖像等。圖8-9RoboticTransformer-1的網(wǎng)絡(luò)結(jié)構(gòu)7.6生成模型的原理如何從一組觀察數(shù)據(jù)中學(xué)到符合要求的模型?模型可看作一條曲線,如圖7-5右圖所示。神經(jīng)網(wǎng)絡(luò)可以擬合任何一條曲線,為此我們可以通過神經(jīng)網(wǎng)絡(luò)來構(gòu)建模型假設(shè)一組樣本構(gòu)成的數(shù)據(jù)集為,神經(jīng)網(wǎng)絡(luò)的參數(shù)集為(如可表示神經(jīng)網(wǎng)絡(luò)中權(quán)重參數(shù)及偏置等),要求的分布函數(shù)可表示為:7.6.2生成模型的概率表示7.6生成模型的原理參數(shù)化建模的目標(biāo)就是找到最合理的參數(shù),最大化數(shù)據(jù)集觀測(cè)值的似然性。這種參數(shù)估計(jì)的方法稱為極大似然估計(jì)。7.6.3生成模型的目標(biāo)函數(shù)7.6生成模型的原理生成模型面臨的挑戰(zhàn)主要包括以下幾個(gè)方面:(1)語言的多樣性和復(fù)雜性使模型生成準(zhǔn)確、流暢的語句變得困難。(2)生成模型往往需要處理長(zhǎng)期依賴性,避免產(chǎn)生不連貫或重復(fù)的內(nèi)容。(3)生成模型需要具備一定的語義理解和推理能力,以便生成合理、具有邏輯的輸出(4)生成模型還需要解決數(shù)據(jù)稀缺性的問題,因?yàn)楦哔|(zhì)量的訓(xùn)練數(shù)據(jù)往往難以獲取。(5)在實(shí)際應(yīng)用中,生成模型需要平衡生成新穎、有創(chuàng)造力的內(nèi)容與符合客戶需求的準(zhǔn)確性和可解釋性之間的關(guān)系。解決這些挑戰(zhàn)的方法具體如下。7.6.4生成模型的挑戰(zhàn)及解決方法7.6生成模型的原理1.生成模型的選擇GAN以對(duì)抗訓(xùn)練生成逼真樣本,擅長(zhǎng)圖像等高維數(shù)據(jù);VAE以潛變量建模多樣性更佳。權(quán)衡真實(shí)性、穩(wěn)定性與可控性,依任務(wù)與數(shù)據(jù)選型。2.使用流形學(xué)習(xí)以t-SNE、UMAP等非線性降維揭示局部與全局結(jié)構(gòu),將高維映射至低維流形,助生成模型在緊致空間高效搜索代表性樣本,改善質(zhì)量與多樣性。3.數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)做旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、加噪等擴(kuò)充分布支持,緩解過擬合,提升泛化與魯棒性,使模型學(xué)習(xí)更全面表征,增強(qiáng)對(duì)未見樣本的生成能力。4.引入先驗(yàn)知識(shí)融入領(lǐng)域與結(jié)構(gòu)先驗(yàn),如醫(yī)學(xué)圖像中的解剖約束,規(guī)范生成空間與損失設(shè)計(jì),引導(dǎo)模型遵循規(guī)則,提升準(zhǔn)確性、可控性與實(shí)際可用性。7.6生成模型的原理5.優(yōu)化模型結(jié)構(gòu)和參數(shù)采用深層CNN、殘差等強(qiáng)化表征,配合Adam、RMSprop等優(yōu)化器與正則化、學(xué)習(xí)率調(diào)度,提升收斂速度、穩(wěn)定性與樣本質(zhì)量。6.采樣策略避免單純隨機(jī)采樣覆蓋不足,采用重要性采樣、MCMC或退火等策略,促進(jìn)空間有效探索與模式多樣性,更充分刻畫目標(biāo)分布。本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.7表示學(xué)習(xí)表示學(xué)習(xí)(RepresentationLearning)的原理涉及數(shù)據(jù)的降維、特征提取和重構(gòu)等技術(shù)。通過降維,可以將高維數(shù)據(jù)映射到一個(gè)更低維的空間,同時(shí)保留最重要的信息。特征提取則是指從原始數(shù)據(jù)中提取有意義的特征或表示,使得數(shù)據(jù)更容易被分類或聚類。重構(gòu)是指從學(xué)習(xí)到的表示還原出原始數(shù)據(jù),以確保學(xué)到的表示包含足夠的信息。7.7表示學(xué)習(xí)表示學(xué)習(xí)一般指模型自動(dòng)從數(shù)據(jù)中抽取特征或者表示的方法,是模型自動(dòng)學(xué)習(xí)的過程。表示學(xué)習(xí)的重點(diǎn)是自動(dòng)學(xué)習(xí),它與傳統(tǒng)機(jī)器學(xué)習(xí)中的特征工程(FeatureEngineering)不同,特征工程主要指對(duì)于數(shù)據(jù)的人為處理提取,如處理缺失值、特征選擇、類型轉(zhuǎn)換、維度壓縮等預(yù)處理手段。7.7.1表示學(xué)習(xí)的直觀理解7.7表示學(xué)習(xí)表示學(xué)習(xí)與特征工程的區(qū)別如圖7-9所示。圖7-9表示學(xué)習(xí)與特征工程的區(qū)別7.7表示學(xué)習(xí)表示學(xué)習(xí)是對(duì)輸入數(shù)據(jù)的簡(jiǎn)明表達(dá),其目的就是方便后續(xù)任務(wù)。人類的表示學(xué)習(xí)處處都存在,如圖7-10所示,“你找小張去火車站接小劉”這個(gè)過程就是一個(gè)典型的表示學(xué)習(xí)過程,同時(shí)說明了表示學(xué)習(xí)的主要目的。圖7-10表示學(xué)習(xí)的直觀理解7.7表示學(xué)習(xí)你向小張描述小劉的主要特征,而小張基于你的描述,在腦海中想象小劉的樣子,最后在火車站找到小張,從維度角度來看,就是一個(gè)高維到低維再到高維的過程。這個(gè)模型架構(gòu)就是典型的自編碼器的架構(gòu),很多生成模型(如AE、VAE、Transformer、Diffusion等)都采用類似的架構(gòu)。自編碼器的架構(gòu)如圖7-11所示。圖7-11自編碼器的架構(gòu)7.7表示學(xué)習(xí)表示學(xué)習(xí)面向圖片、文本、音頻等高維且含噪數(shù)據(jù),旨在學(xué)習(xí)更有意義的低維表征,便于計(jì)算與泛化。常見方式含:監(jiān)督/自監(jiān)督、生成式(VAE/GAN)、對(duì)比學(xué)習(xí)、字典學(xué)習(xí)、圖嵌入與多模態(tài)表示等。1.整數(shù)表示將類別映射為整數(shù),如紅=0、藍(lán)=1。實(shí)現(xiàn)簡(jiǎn)單但引入虛假順序與距離,易誤導(dǎo)模型,適用于確有序關(guān)系或作中間編碼。2.獨(dú)熱編碼表示為每類別分配唯一二進(jìn)制向量,單一位置為1其余為0。避免序關(guān)系,線性可分性好,但維度隨類別數(shù)增長(zhǎng)、稀疏且難表語義相似。7.7.2表示學(xué)習(xí)的常用方式7.7表示學(xué)習(xí)3.分布式表示以分布參數(shù)表征數(shù)據(jù),如高斯的均值與方差,或用概率密度/累計(jì)分布描述。可表達(dá)不確定性與群體結(jié)構(gòu),便于貝葉斯推斷。4.連續(xù)表示用連續(xù)實(shí)向量表示樣本,構(gòu)成流形使相似樣本相近。便于梯度優(yōu)化與泛化,深度網(wǎng)絡(luò)廣用;但需正則化避免過擬合與漂移。5.詞嵌入表示將詞映射低維實(shí)向量,保留語義與上下文,相似詞相近,能捕獲線性類比。支撐NLP任務(wù),但需處理多義、領(lǐng)域遷移與偏見。7.7表示學(xué)習(xí)表示學(xué)習(xí)和特征工程是機(jī)器學(xué)習(xí)中兩個(gè)相關(guān)但又有所不同的概念。它們之間的區(qū)別可從以下3個(gè)方面進(jìn)行說明。1.定義表示學(xué)習(xí)是一種自動(dòng)學(xué)習(xí)數(shù)據(jù)的優(yōu)質(zhì)表示或特征的方法,它通過學(xué)習(xí)數(shù)據(jù)本身的表征來提取更有意義、更高層次的特征。這些表示可以是低維的、稠密的向量,能夠捕捉到數(shù)據(jù)中的有用信息,為后續(xù)的學(xué)習(xí)任務(wù)打好基礎(chǔ)。特征工程是指通過人為的方式對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換和提取,以生成更有信息量和判別性的特征。特征工程依賴于人類領(lǐng)域知識(shí)和直覺,目的是將數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法更容易理解和處理的形式。7.7.3表示學(xué)習(xí)與特征工程的區(qū)別7.7表示學(xué)習(xí)2.目標(biāo)表示學(xué)習(xí)的目標(biāo)是學(xué)習(xí)到數(shù)據(jù)的最佳表示或特征,以便為后續(xù)的機(jī)器學(xué)習(xí)任務(wù)提供更好的輸入,同時(shí)通過自動(dòng)學(xué)習(xí)提取到的特征來捕捉數(shù)據(jù)中的潛在結(jié)構(gòu)和關(guān)系。特征工程的目標(biāo)是基于領(lǐng)域知識(shí)和對(duì)問題的理解,通過人為構(gòu)造和選擇特征來提高機(jī)器學(xué)習(xí)模型的準(zhǔn)確性和泛化能力,從而改善算法的性能。3.自動(dòng)化表示學(xué)習(xí)是一種自動(dòng)學(xué)習(xí)方法,它可以通過訓(xùn)練算法來自動(dòng)地學(xué)習(xí)數(shù)據(jù)的最佳表示。表示學(xué)習(xí)算法能夠自主提取和學(xué)習(xí)特征,不需要人為設(shè)定和構(gòu)造特征,從而減少了人工干預(yù)和依賴。特征工程需要人為地根據(jù)問題和數(shù)據(jù)的特點(diǎn)進(jìn)行特征的構(gòu)造和選擇。特征工程的過程需要人們運(yùn)用領(lǐng)域知識(shí)和經(jīng)驗(yàn)來判斷哪些特征是有用的,以及如何將原始數(shù)據(jù)轉(zhuǎn)換為特征。7.7表示學(xué)習(xí)圖像的表示學(xué)習(xí)是指通過機(jī)器學(xué)習(xí)方法,將圖像轉(zhuǎn)換成更有意義、更高層次的特征表示的過程。在圖像的表示學(xué)習(xí)中,主要包括以下3個(gè)方面的內(nèi)容:輸入、使用方法和輸出。1.輸入圖像表示學(xué)習(xí)的輸入通常是一張或一批圖像,這些圖像可以是彩色圖像(RGB格式)或灰度圖像。每張圖像由像素組成,每個(gè)像素代表圖像的一個(gè)點(diǎn),而彩色圖像由紅、綠、藍(lán)三個(gè)通道的像素值組成。因此,對(duì)于彩色圖像,其輸入數(shù)據(jù)通常是一個(gè)三維數(shù)組,而對(duì)于灰度圖像,輸入數(shù)據(jù)是一個(gè)二維數(shù)組。7.7.4圖像的表示學(xué)習(xí)7.7表示學(xué)習(xí)2.使用方法圖像的表示學(xué)習(xí)有多種方法,常見的方法如下。(1)卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是一類特別適用于圖像處理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過多層卷積和池化層來逐步提取圖像的特征表示。(2)自編碼器。自編碼器是一種無監(jiān)督學(xué)習(xí)方法,通過學(xué)習(xí)將輸入圖像編碼成低維表示,再將其解碼還原成原始圖像,以促使模型學(xué)習(xí)到更有意義的特征表示。(3)生成對(duì)抗網(wǎng)絡(luò)。生成對(duì)抗網(wǎng)絡(luò)是一種通過兩個(gè)對(duì)抗性的神經(jīng)網(wǎng)絡(luò)(生成器和判別器)共同學(xué)習(xí),使得生成器可以生成逼真圖像的方法。其中,生成器也可以用來提取圖像特征。(4)預(yù)訓(xùn)練模型。在大規(guī)模圖像數(shù)據(jù)上預(yù)訓(xùn)練好的模型,如ImageNet數(shù)據(jù)集上訓(xùn)練的模型,可以遷移學(xué)習(xí)到其他任務(wù)或數(shù)據(jù)集上,從而得到更好的圖像特征表示。7.7表示學(xué)習(xí)3.輸出圖像表示學(xué)習(xí)的輸出是經(jīng)過學(xué)習(xí)得到的圖像特征表示,通常是一個(gè)向量或矩陣。這些特征表示在機(jī)器學(xué)習(xí)任務(wù)中可以作為輸入,用于分類、目標(biāo)檢測(cè)、圖像生成等任務(wù)。通過圖像表示學(xué)習(xí),模型可以學(xué)習(xí)到更加抽象和語義豐富的特征,從而提高了圖像處理任務(wù)的性能。7.7表示學(xué)習(xí)文本的表示學(xué)習(xí)是指通過機(jī)器學(xué)習(xí)方法,將文本數(shù)據(jù)轉(zhuǎn)換成更有意義、更高層次的特征表示的過程。在文本的表示學(xué)習(xí)中,主要包括3個(gè)方面的內(nèi)容:輸入、使用方法和輸出。1.輸入文本表示學(xué)習(xí)的輸入通常是一段或一批文本,比如一句話、一篇文章或一個(gè)文本文檔。在處理文本時(shí),首先需要將文本轉(zhuǎn)換成計(jì)算機(jī)可以理解的形式,即將文本轉(zhuǎn)換成數(shù)值向量。這個(gè)轉(zhuǎn)換過程被稱為文本嵌入(TextEmbedding)。通常,可以將文本表示為詞嵌入序列或句子嵌入(SentenceEmbedding)向量。(1)詞嵌入:將文本中的每個(gè)詞映射到一個(gè)固定維度的向量,每個(gè)維度表示一個(gè)語義特征。常見的詞嵌入模型包括Word2Vec、GloVe(GlobalVectorsforwordrepresentation)和FastText等。7.7.5文本的表示學(xué)習(xí)7.7表示學(xué)習(xí)(2)句子嵌入:將整個(gè)句子映射到一個(gè)向量,表示整個(gè)句子的語義信息。句子嵌入可以通過詞嵌入的組合、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)、Transformer等方法得到。2.使用方法文本的表示學(xué)習(xí)有多種方法,其中一些常見的方法如下。(1)Bag-of-Words(詞袋模型):將文本看作詞的無序集合,將每個(gè)詞表示為一個(gè)獨(dú)熱向量,文本向量為所有詞向量的加和。這種方法忽略了詞序信息,適用于簡(jiǎn)單的文本分類任務(wù)。(2)Word2Vec:通過訓(xùn)練神經(jīng)網(wǎng)絡(luò),將每個(gè)詞映射為一個(gè)稠密的向量,捕捉詞之間的語義關(guān)系。Word2Vec適用于詞的相似度計(jì)算、詞的聚類和文本分類等任務(wù)。(3)RNN和LSTM:通過循環(huán)神經(jīng)網(wǎng)絡(luò)或長(zhǎng)短期記憶網(wǎng)絡(luò),對(duì)整個(gè)句子進(jìn)行建模,并得到句子嵌入。這些方法可以處理變長(zhǎng)的文本輸入,適用于文本分類、情感分析等任務(wù)。(4)Transformer:使用自注意力機(jī)制,能夠并行處理文本序列,捕捉全局依賴關(guān)系,適用于各種文本任務(wù),在機(jī)器翻譯領(lǐng)域表現(xiàn)尤為出色。7.7表示學(xué)習(xí)3.輸出文本表示學(xué)習(xí)的輸出是經(jīng)過學(xué)習(xí)得到的文本特征表示,通常是一個(gè)向量或矩陣。這些特征表示在機(jī)器學(xué)習(xí)任務(wù)中可以作為輸入,用于文本分類、情感分析、機(jī)器翻譯、問答系統(tǒng)等各種NLP任務(wù)。通過文本表示學(xué)習(xí),模型可以學(xué)習(xí)到更加抽象和語義豐富的文本特征,從而提高了文本處理任務(wù)的性能。7.7表示學(xué)習(xí)單模態(tài)的表示學(xué)習(xí)負(fù)責(zé)將信息表示為計(jì)算機(jī)可以處理的數(shù)值向量或者進(jìn)一步抽象為更高層的特征向量;而多模態(tài)表示學(xué)習(xí)利用多模態(tài)之間的互補(bǔ)性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征。聯(lián)合表示(JointRepresentation):將多個(gè)模態(tài)的信息一起映射到一個(gè)統(tǒng)一的多模態(tài)向量空間。CLIP和DALL·E使用簡(jiǎn)單的聯(lián)合表示,如圖1-10左圖所示。協(xié)同表示(CoordinatedRepresentations):將多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束(例如遷移學(xué)習(xí)使用協(xié)同表示),如圖7-12右圖所示。7.7.6多模態(tài)的表示學(xué)習(xí)7.7表示學(xué)習(xí)圖7-12多模態(tài)中的表示學(xué)習(xí)7.7表示學(xué)習(xí)在概率模型中,好的表示可以捕捉所觀察到的輸入數(shù)據(jù)的潛在變量的后驗(yàn)分布(可表示為,其中為輸入數(shù)據(jù),為潛在變量),也可以作為有監(jiān)督預(yù)測(cè)器的輸入。表示學(xué)習(xí)實(shí)現(xiàn)了對(duì)實(shí)體和關(guān)系的分布式表示,具有顯著提升計(jì)算效率、有效緩解數(shù)據(jù)稀疏、實(shí)現(xiàn)異質(zhì)信息融合三大優(yōu)勢(shì),對(duì)于知識(shí)庫的構(gòu)建、推理和應(yīng)用具有重要意義。7.7表示學(xué)習(xí)表示學(xué)習(xí)中融合技術(shù)的應(yīng)用非常廣泛,如Transformer模型中的輸入嵌入與位置編碼的融合、ResNet模型中的殘差連接、DenseNet網(wǎng)絡(luò)中的拼接、StableDiffusion模型使用的圖像嵌入與單詞嵌入的融合等。在表示學(xué)習(xí)中,表示融合是指將來自不同模態(tài)的特征進(jìn)行整合,生成一個(gè)共享的表示空間。表示融合的目標(biāo)是融合不同模態(tài)的信息,使融合后的表示能夠更好地表達(dá)和處理跨模態(tài)的任務(wù)。下面介紹幾種常見的表示融合方法以及它們的原理、優(yōu)缺點(diǎn)。7.7.7表示學(xué)習(xí)的融合技術(shù)1.串行融合原理:將不同模態(tài)的特征串行連接在一起,形成一個(gè)長(zhǎng)向量作為輸入。優(yōu)點(diǎn):簡(jiǎn)單、易實(shí)現(xiàn),適用于特征維度較低的情況。缺點(diǎn):丟失了不同模態(tài)之間的交互信息,忽略了模態(tài)之間的關(guān)聯(lián)及依賴性,性能可能受限。7.7表示學(xué)習(xí)2.并行融合原理:將不同模態(tài)的特征分別處理后,再進(jìn)行融合。在Transformer中,詞嵌入與位置編碼以并行方式融合。輸入符號(hào)先經(jīng)嵌入層映射到dmodeldmodel維空間,捕捉語義與語法特征。該嵌入對(duì)序列各位置可并行計(jì)算,避免循環(huán)依賴,充分發(fā)揮GPU的向量化與批處理優(yōu)勢(shì),提升吞吐與訓(xùn)練穩(wěn)定性與可擴(kuò)展性。位置編碼器提供相對(duì)或絕對(duì)的位置信息,常見有正弦余弦固定編碼與可學(xué)習(xí)編碼。實(shí)現(xiàn)上將位置向量與詞嵌入逐元素相加:X=Emb(tokens)+PE(positions)。這一步同樣可一次性對(duì)整個(gè)序列并行完成,使模型在無遞歸結(jié)構(gòu)下獲得順序線索,彌補(bǔ)自注意力的置換不變性。并行融合后,表示進(jìn)入多頭自注意力與前饋網(wǎng)絡(luò),形成上下文感知特征。位置信息引導(dǎo)注意力分配,改善對(duì)局部與長(zhǎng)距離依賴的建模,提升翻譯、摘要與生成質(zhì)量。該機(jī)制降低訓(xùn)練時(shí)間、便于擴(kuò)展序列長(zhǎng)度與模型規(guī)模,成為現(xiàn)代NLP與多模態(tài)任務(wù)的基礎(chǔ)組件。7.7表示學(xué)習(xí)優(yōu)點(diǎn):可以同時(shí)利用不同模態(tài)的信息,能夠更好地保留不同模態(tài)的關(guān)鍵特征。缺點(diǎn):可能存在信息冗余和模態(tài)依賴的問題,需要依靠特征選擇或注意力機(jī)制進(jìn)行調(diào)整。3.加權(quán)融合原理:給不同模態(tài)的特征賦予權(quán)重,使用一組權(quán)重對(duì)特征進(jìn)行加權(quán)融合。優(yōu)點(diǎn):可以靈活地控制不同模態(tài)在融合后的表示中的貢獻(xiàn)度。缺點(diǎn):需要提前設(shè)定權(quán)重,如果權(quán)重設(shè)置不合理,可能會(huì)導(dǎo)致信息不平衡或丟失關(guān)鍵特征。7.7表示學(xué)習(xí)4.共享融合原理:通過共享網(wǎng)絡(luò)層或參數(shù),將不同模態(tài)的特征提取器和融合器整合到一個(gè)統(tǒng)一的模型中。優(yōu)點(diǎn):能夠充分利用不同模態(tài)之間的交互和關(guān)聯(lián),學(xué)習(xí)到更豐富的表示。缺點(diǎn):模型復(fù)雜度較高,容易受到過擬合的影響,需要更多的計(jì)算資源和訓(xùn)練數(shù)據(jù)。5.注意力融合原理:通過注意力機(jī)制,在融合過程中對(duì)不同模態(tài)特征賦予不同的權(quán)重,根據(jù)其重要性動(dòng)態(tài)調(diào)整融合程度。優(yōu)點(diǎn):能夠自動(dòng)學(xué)習(xí)不同模態(tài)特征的關(guān)注程度,提高模型對(duì)關(guān)鍵信息的捕捉能力。缺點(diǎn):需要額外的計(jì)算開銷,模型復(fù)雜度較高。每種表示融合方法都有其獨(dú)特的優(yōu)勢(shì)和限制,選取哪種方法取決于具體的任務(wù)需求和數(shù)據(jù)特點(diǎn)。在實(shí)際應(yīng)用中,常常需要根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行模型選擇和調(diào)整,以獲得最佳的表示融合效果。7.7表示學(xué)習(xí)表示學(xué)習(xí)是從原始數(shù)據(jù)中自動(dòng)地學(xué)習(xí)到高層次的抽象表示。這些抽象表示可以捕捉到數(shù)據(jù)的關(guān)鍵特征和結(jié)構(gòu),從而為后續(xù)的機(jī)器學(xué)習(xí)任務(wù)提供更好的支持。表示學(xué)習(xí)的優(yōu)劣可以通過以下指標(biāo)進(jìn)行衡量。(1)可解釋性。好的表示應(yīng)該能夠提供對(duì)數(shù)據(jù)的有意義的解釋和理解,使得人們能夠更好地理解數(shù)據(jù)內(nèi)在的規(guī)律和含義。(2)可區(qū)分性。好的表示應(yīng)該能夠?qū)⑼悢?shù)據(jù)樣本聚集在一起,并將不同類數(shù)據(jù)樣本區(qū)分開來,從而更好地支持分類和聚類等任務(wù)。(3)可擴(kuò)展性。好的表示應(yīng)該適用于不同類型的數(shù)據(jù)和不同規(guī)模的數(shù)據(jù)集,并能夠從大量的數(shù)據(jù)樣本中學(xué)習(xí)到具有普遍性的表示。(4)適應(yīng)性。好的表示應(yīng)該能夠在新的任務(wù)和數(shù)據(jù)下保持良好的泛化能力,即使只有少量的新數(shù)據(jù)樣本。7.7.8如何衡量表示學(xué)習(xí)的優(yōu)劣7.7表示學(xué)習(xí)如何學(xué)習(xí)到好的表示?可以采取以下方法。(1)監(jiān)督學(xué)習(xí)。使用帶有標(biāo)簽的數(shù)據(jù)來訓(xùn)練模型,例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。(2)無監(jiān)督學(xué)習(xí)。利用無標(biāo)簽的數(shù)據(jù)進(jìn)行模型訓(xùn)練,例如自編碼器和變分自編碼器等。(3)半監(jiān)督學(xué)習(xí)。同時(shí)使用有標(biāo)簽和無標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,結(jié)合有監(jiān)督和無監(jiān)督方法。(4)遷移學(xué)習(xí)。利用已有領(lǐng)域的知識(shí)來幫助表示學(xué)習(xí),例如使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征提取。(5)強(qiáng)化學(xué)習(xí)。通過與環(huán)境的交互及試錯(cuò)來逐步優(yōu)化表示學(xué)習(xí)。在實(shí)際應(yīng)用中,根據(jù)具體任務(wù)和數(shù)據(jù)特點(diǎn)選擇合適的表示學(xué)習(xí)方法和評(píng)價(jià)指標(biāo),可以更好地學(xué)習(xí)到好的表示。本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.8表示學(xué)習(xí)的逆過程在深度學(xué)習(xí)中,表示學(xué)習(xí)通常采用分布式表示或嵌入方式。分布式表示是指將輸入數(shù)據(jù)轉(zhuǎn)化為高維空間中的向量表示,這些向量捕捉了數(shù)據(jù)的語義信息。嵌入方式是指通過學(xué)習(xí),將高維的離散數(shù)據(jù)映射到低維的連續(xù)向量空間中。表示學(xué)習(xí)的逆嵌入(De-Embedding)是指將嵌入向量轉(zhuǎn)化回原始離散數(shù)據(jù)的過程。在深度學(xué)習(xí)中,可以使用逆映射函數(shù)來實(shí)現(xiàn)表示學(xué)習(xí)的逆過程。逆映射函數(shù)通常是一個(gè)神經(jīng)網(wǎng)絡(luò)模型,將嵌入向量作為輸入,輸出對(duì)應(yīng)的原始離散數(shù)據(jù),分類任務(wù)的嵌入與逆嵌入示意如圖7-13所示。7.8表示學(xué)習(xí)的逆過程圖7-13分類任務(wù)的嵌入與逆嵌入示意7.8表示學(xué)習(xí)的逆過程在訓(xùn)練中同時(shí)學(xué)習(xí)嵌入與逆映射:用重構(gòu)與對(duì)比等損失約束嵌入與原樣本關(guān)系,使低維表示保留判別與生成信息,優(yōu)化后可近似還原輸入。Transformer輸入經(jīng)嵌入層:將離散符號(hào)與位置編碼映射為連續(xù)向量,進(jìn)入多頭注意力與前饋網(wǎng)絡(luò),獲得豐富上下文依賴與層級(jí)表征,用于下游任務(wù)。逆過程為解碼映射:將連續(xù)表征投影回離散符號(hào),常用共享詞表矩陣與softmax得到分布;生成時(shí)自回歸采樣,分類取argmax,序列標(biāo)注取逐位標(biāo)簽。對(duì)于常見的序列到序列任務(wù)(如機(jī)器翻譯或文本生成),Transformer模型通常會(huì)在輸出端引入softmax層。softmax函數(shù)可以將連續(xù)向量轉(zhuǎn)換成概率分布,使得每個(gè)位置的輸出可以解釋為對(duì)應(yīng)詞匯表中不同符號(hào)的概率。然后,根據(jù)概率分布來生成最終的輸出符號(hào)序列,詳細(xì)轉(zhuǎn)換過程如圖7-14所示。7.8表示學(xué)習(xí)的逆過程圖7-14利用Transformer模型進(jìn)行中文翻譯成英文的流程7.8表示學(xué)習(xí)的逆過程在訓(xùn)練中以交叉熵最小化真實(shí)目標(biāo)與預(yù)測(cè)分布差異;推理用貪婪或束搜索按概率選符號(hào)生成序列。若是回歸任務(wù),逆嵌入不必執(zhí)行,直接輸出連續(xù)向量即可。注意訓(xùn)練推理策略差異會(huì)影響性能。表示學(xué)習(xí)追求從原始數(shù)據(jù)中學(xué)習(xí)通用有用特征,可服務(wù)分類、聚類、檢索、生成等多任務(wù)。它不限定模型結(jié)構(gòu),目標(biāo)是獲得遷移性與可分離性好的表示,常結(jié)合自監(jiān)督或?qū)Ρ葘W(xué)習(xí)以增強(qiáng)泛化。編碼器是表示學(xué)習(xí)的一種具體實(shí)現(xiàn),負(fù)責(zé)將輸入映射到高維潛表示。常見形式含Transformer、CNN、RNN、自編碼器編碼端等;表示學(xué)習(xí)還涵蓋降維、GAN、對(duì)比學(xué)習(xí)和掩碼建模等更廣方法。本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.9AIGC的應(yīng)用場(chǎng)景AIGC的應(yīng)用場(chǎng)景廣泛且多樣,覆蓋了多個(gè)行業(yè)和領(lǐng)域,AIGC產(chǎn)業(yè)生態(tài)體系的三層架構(gòu)如圖7-15所示。它的典型應(yīng)用場(chǎng)景可以分為文本生成、音頻生成、圖像生成、視頻生成、多模態(tài)生成5個(gè)方面。7.9AIGC的應(yīng)用場(chǎng)景圖7-15AIGC產(chǎn)業(yè)生態(tài)體系的三層架構(gòu)7.9AIGC的應(yīng)用場(chǎng)景AIGC技術(shù)具有強(qiáng)大的創(chuàng)造性和自動(dòng)化能力,其主要應(yīng)用場(chǎng)景如下。(1)文本生成覆蓋摘要、標(biāo)題、風(fēng)格遷移、長(zhǎng)文創(chuàng)作與對(duì)話等。助力多主題多體裁產(chǎn)出,顯著提效并提升多樣性,支撐自動(dòng)化文案與互動(dòng)創(chuàng)作。(2)音頻生成可生成音樂、音效、播客與合成語音,支持語音克隆與場(chǎng)景化播報(bào)。依據(jù)文本或圖像生成情境音樂,提供個(gè)性化、沉浸式聽覺體驗(yàn)。(3)圖像生成支持自生成與編輯:超分辨率、修復(fù)、替換、風(fēng)格化等。借助StableDiffusion、Midjourney實(shí)現(xiàn)藝術(shù)與設(shè)計(jì)加速,強(qiáng)化個(gè)性化定制。(4)視頻生成涵蓋自動(dòng)剪輯、修復(fù)、超分辨率與文生視頻??蓳?jù)文本或參考圖生成短片、廣告、預(yù)告,通過編排與特效提效影視創(chuàng)作流程。7.9AIGC的應(yīng)用場(chǎng)景(5)代碼生成依據(jù)需求自動(dòng)生成與優(yōu)化代碼,進(jìn)行審查與錯(cuò)誤檢測(cè),降低復(fù)雜度與缺陷率。加速開發(fā)迭代,使團(tuán)隊(duì)聚焦創(chuàng)新與功能擴(kuò)展。(6)游戲開發(fā)用于角色與場(chǎng)景生成、道具創(chuàng)建、自動(dòng)化測(cè)試,提升NPC智能與交互自然度。減少重復(fù)勞動(dòng),增強(qiáng)創(chuàng)意與靈活性,促進(jìn)持續(xù)創(chuàng)新。(7)教育與培訓(xùn)按需生成課程、練習(xí)與互動(dòng)體驗(yàn),支持自適應(yīng)學(xué)習(xí)與智能輔導(dǎo)。提供評(píng)測(cè)與反饋,提升教學(xué)效率與公平性,增強(qiáng)學(xué)習(xí)動(dòng)力。本章目錄7.1生成式人工智能(GAI)7.2AIGC內(nèi)容孿生、編輯與理解7.6生成模型的原理7.5生成模型與判別模型7.4AIGC生成技術(shù)7.3AIGC發(fā)展歷程7.7表示學(xué)習(xí)7.8表示學(xué)習(xí)的逆過程7.9AIGC的應(yīng)用場(chǎng)景7.10AIGC應(yīng)用實(shí)例7.10AIGC應(yīng)用實(shí)例天源迪科AIGC智能內(nèi)容創(chuàng)作與數(shù)字人企業(yè)內(nèi)訓(xùn)平臺(tái)(V1.0)是一款基于人工智能技術(shù)的綜合性企業(yè)培訓(xùn)與內(nèi)容創(chuàng)作工具。該平臺(tái)集成了豐富的功能,旨在通過智能化手段簡(jiǎn)化內(nèi)容的制作與發(fā)布過程,提高企業(yè)內(nèi)訓(xùn)及教育領(lǐng)域的效率與質(zhì)量。本節(jié)將講述該平臺(tái)的功能、特點(diǎn)以及應(yīng)用場(chǎng)景。7.10.1天源迪科AIGC智能內(nèi)容創(chuàng)作與數(shù)字人企業(yè)內(nèi)訓(xùn)平臺(tái)介紹本節(jié)以天源迪科AIGC智能內(nèi)容創(chuàng)作與數(shù)字人企業(yè)內(nèi)訓(xùn)平臺(tái)為例講述AIGC的應(yīng)用實(shí)例。7.10AIGC應(yīng)用實(shí)例1.主要功能(1)PPT資料轉(zhuǎn)視頻該平臺(tái)支持用戶將PPT及PDF等格式的文件直接轉(zhuǎn)化為視頻,操作簡(jiǎn)便。具體步驟如下:上傳資料:用戶可以通過點(diǎn)擊上傳按鈕或拖放文件到指定區(qū)域?qū)PT或PDF文件上傳至平臺(tái),單個(gè)文件大小不超過10MB。選擇模板:在上傳完成后,用戶可以選擇適合的模板風(fēng)格,點(diǎn)擊繼續(xù)生成視頻??诓?nèi)容生成:平臺(tái)利用大模型對(duì)每一頁的文字內(nèi)容進(jìn)行分析與優(yōu)化,生成流暢、口語化的講解字幕和音頻。視頻生成:用戶確認(rèn)后,平臺(tái)將根據(jù)設(shè)定完成視頻的生成。(2)文本資料轉(zhuǎn)視頻除了PPT外,用戶也可以直接上傳文本文件(如docx、txt等)進(jìn)行視頻轉(zhuǎn)換。平臺(tái)會(huì)自動(dòng)分析文本內(nèi)容,生成相應(yīng)的圖文并茂的演示文稿。操作步驟包括:7.10AIGC應(yīng)用實(shí)例上傳文檔:用戶拖放文檔至指定區(qū)域,即可啟動(dòng)上傳程序。AI生成內(nèi)容:在上傳過程中,平臺(tái)將自動(dòng)理解文檔,并拆分為清晰的段落和章節(jié),添加適合的配圖。視頻展示:用戶可以通過選擇模板和布局,快速生成所需視頻。(3)智能視頻創(chuàng)作平臺(tái)的智能視頻創(chuàng)作功能允許用戶通過數(shù)字人講解的形式,提升課程的趣味性與互動(dòng)性。數(shù)字人的聲音由系統(tǒng)自動(dòng)生成,用戶可進(jìn)行以下操作:口音和語調(diào)優(yōu)化:系統(tǒng)支持多音字和數(shù)字的發(fā)音選擇,確保講話內(nèi)容的準(zhǔn)確性。內(nèi)容修改:如需調(diào)整語調(diào)或添加停頓,用戶可以指定位置進(jìn)行編輯,選擇所需的停頓時(shí)長(zhǎng)。7.10AIGC應(yīng)用實(shí)例(4)試題自動(dòng)生成該平臺(tái)的AI出題功能使得教師可根據(jù)教學(xué)內(nèi)容自動(dòng)生成試題。用戶可以選擇所需的題型(單選題、多選題、判斷題),并設(shè)置生成數(shù)量,具體步驟如下:輸入知識(shí)點(diǎn):用戶在文本框中輸入相關(guān)學(xué)科領(lǐng)域或知識(shí)點(diǎn)描述,如“有關(guān)文學(xué)常識(shí)的試題”。生成試題:點(diǎn)擊“生成試題”,系統(tǒng)會(huì)實(shí)時(shí)輸出生成的題目,并在識(shí)別區(qū)內(nèi)查看生成情況。(5)實(shí)時(shí)編輯與修改用戶可以在生成試題后,直接在輸入?yún)^(qū)進(jìn)行修改,平臺(tái)獲取修改后可自動(dòng)同步。此功能確保教師能夠快速調(diào)整試題內(nèi)容,以滿足教學(xué)需求。7.10AIGC應(yīng)用實(shí)例2.特點(diǎn)與優(yōu)勢(shì)(1)用戶友好界面界面直觀、操作簡(jiǎn)便,無需專業(yè)技術(shù)即可上手,適合企業(yè)培訓(xùn)、教師授課與普通用戶,顯著降低培訓(xùn)與使用門檻。(2)高效內(nèi)容創(chuàng)作能力上傳PPT、文檔或關(guān)鍵詞即可自動(dòng)生成PPT、試題、數(shù)字人視頻,邏輯清晰、質(zhì)量穩(wěn)定,大幅節(jié)省時(shí)間成本,實(shí)現(xiàn)高效創(chuàng)意轉(zhuǎn)化。(3)多功能集成集成視頻生成與試題生成/修改,配合數(shù)字人講解增強(qiáng)吸引力,覆蓋多樣教學(xué)場(chǎng)景,支持內(nèi)容制作到講解的一體化流程。(4)自動(dòng)化與智能化基于深度學(xué)習(xí)持續(xù)優(yōu)化內(nèi)容與出題準(zhǔn)確性,自動(dòng)化流程減少人工干預(yù),提升一致性與效率,顯著改善整體用戶體驗(yàn)。7.10AIGC應(yīng)用實(shí)例3.應(yīng)用場(chǎng)景(1)企業(yè)內(nèi)訓(xùn)天源迪科AIGC平臺(tái)可以幫助企業(yè)快速制作培訓(xùn)課程和學(xué)習(xí)材料,用于新員工培訓(xùn)、產(chǎn)品認(rèn)知、技能提升等多種目的。通過視頻化的培訓(xùn)材料,員工更容易理解和吸收。(2)在線教育教育機(jī)構(gòu)能利用該平臺(tái)為學(xué)生提供生動(dòng)的在線課程,與傳統(tǒng)的課堂教學(xué)相比,視頻教學(xué)能夠更好地吸引學(xué)生注意力,提高學(xué)習(xí)效果。(3)市場(chǎng)營(yíng)銷企業(yè)可以制作產(chǎn)品介紹視頻、促銷活動(dòng)宣傳片等,利用智能化平臺(tái)快速生成相關(guān)營(yíng)銷資料,提升市場(chǎng)推廣效率。(4)個(gè)人學(xué)習(xí)與提升個(gè)人用戶可根據(jù)自己的學(xué)習(xí)需求,快速生成課程資料和試題,自主學(xué)習(xí)和提升各類技能,增強(qiáng)學(xué)習(xí)的主動(dòng)性與趣味性。7.10AIGC應(yīng)用實(shí)例1.生成docx或pdf文檔首先通過DeepSeek寫一篇AIGC(生成式人工智能)概述。提示詞:寫一篇AIGC概述。主要內(nèi)容包括產(chǎn)生、功能、特點(diǎn)、采用的大模型和應(yīng)用場(chǎng)景等。1000字。DeepSeek回復(fù):AIGC(生成式人工智能)概述7.10.2PPT課件和視頻課件制作實(shí)例7.10AIGC應(yīng)用實(shí)例1.產(chǎn)生背景AIGC(ArtificialIntelligenceGeneratedContent,生成式人工智能)是近年來人工智能領(lǐng)域的重要突破之一。其發(fā)展得益于深度學(xué)習(xí)技術(shù)的進(jìn)步,尤其是生成對(duì)抗網(wǎng)絡(luò)(GANs)、變分自編碼器(VAEs)和Transformer架構(gòu)的廣泛應(yīng)用。2014年,GANs的提出為生成式模型奠定了基礎(chǔ);2017年,Transformer架構(gòu)的出現(xiàn)進(jìn)一步推動(dòng)了自然語言處理(NLP)和圖像生成領(lǐng)域的發(fā)展。隨著算力的提升和大規(guī)模數(shù)據(jù)集的積累,AIGC逐漸從理論研究走向?qū)嶋H應(yīng)用,成為推動(dòng)內(nèi)容創(chuàng)作、自動(dòng)化生產(chǎn)和社會(huì)變革的重要技術(shù)。7.10AIGC應(yīng)用實(shí)例2.功能AIGC的核心功能是通過學(xué)習(xí)海量數(shù)據(jù)生成新的內(nèi)容,包括但不限于:文本生成:如文章寫作、代碼生成、對(duì)話回復(fù)等。圖像生成:如藝術(shù)創(chuàng)作、設(shè)計(jì)草圖、照片修復(fù)等。音頻生成:如語音合成、音樂創(chuàng)作、音效設(shè)計(jì)等。視頻生成:如動(dòng)態(tài)場(chǎng)景合成、視頻剪輯、虛擬人物動(dòng)畫等。多模態(tài)生成:結(jié)合文本、圖像、音頻等多種形式的內(nèi)容生成。7.10AIGC應(yīng)用實(shí)例3.特點(diǎn)AIGC具有以下顯著特點(diǎn):高度自動(dòng)化:能夠根據(jù)用戶輸入或預(yù)設(shè)條件自動(dòng)生成內(nèi)容,減少人工干預(yù)。創(chuàng)造性:通過學(xué)習(xí)人類創(chuàng)作模式,生成具有新穎性和多樣性的內(nèi)容??蓴U(kuò)展性:適用于多種領(lǐng)域和任務(wù),從娛
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療器械相關(guān)不良事件協(xié)同管理
- 醫(yī)患溝通中法律風(fēng)險(xiǎn)防范的培訓(xùn)實(shí)踐
- 醫(yī)學(xué)統(tǒng)計(jì)學(xué)研究生生存分析
- 醫(yī)學(xué)影像AI模型的輕量化部署策略
- (新教材)2026年北師大版一年級(jí)上冊(cè)數(shù)學(xué) 5.1 認(rèn)識(shí)圖形 課件
- 靶向治療在腫瘤異質(zhì)性中的適應(yīng)性分析-洞察及研究
- 高比能鋰離子電池研究-洞察及研究
- 河車大造臨床應(yīng)用優(yōu)化-洞察及研究
- 汽零部件質(zhì)量檢測(cè)技術(shù)-洞察及研究
- 高健康價(jià)值功能性茶飲料研究-洞察及研究
- 土木工程科學(xué)數(shù)據(jù)分析方法 課件 第3章 試驗(yàn)數(shù)據(jù)誤差及處理 -
- 1807《經(jīng)濟(jì)學(xué)(本)》國(guó)家開放大學(xué)期末考試題庫
- 2025年北京航空航天大學(xué)馬克思主義基本原理概論期末考試模擬題帶答案解析(必刷)
- 2026年演出經(jīng)紀(jì)人考試題庫附參考答案(完整版)
- 高一物理(人教版)試題 必修二 階段質(zhì)量檢測(cè)(一) 拋體運(yùn)動(dòng)
- 美團(tuán)代運(yùn)營(yíng)服務(wù)合同協(xié)議模板2025
- 2025-2026學(xué)年人教版七年級(jí)生物上冊(cè)知識(shí)點(diǎn)梳理總結(jié)
- 2025年新修訂版《森林草原防滅火條例》全文+修訂宣貫解讀課件(原創(chuàng))
- 2025年秋魯教版(新教材)小學(xué)信息科技三年級(jí)上冊(cè)期末綜合測(cè)試卷及答案(三套)
- 工業(yè)設(shè)計(jì)工作流程及標(biāo)準(zhǔn)教程
- 2025年放射技師考試真題及答案
評(píng)論
0/150
提交評(píng)論