生成式AI與AI Agent 技術(shù)：革新與實(shí)踐指南

上傳人：1*** IP屬地：河北上傳時(shí)間：2025-08-12 格式：DOCX 頁數(shù)：208 大?。?.95MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩203頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

掃碼關(guān)注公眾號(hào)頁碼：掃碼關(guān)注公眾號(hào)頁碼：1/134免費(fèi)下載資料免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：1/134AIGC在螞蟻保保險(xiǎn)領(lǐng)域的應(yīng)用探索 2甘啟-Soul基于AIGC的實(shí)踐與探索 9實(shí)時(shí)語音交互的游戲隊(duì)友——網(wǎng)易伏羲AIAgent創(chuàng)新應(yīng)用 28開源框架ModelScope-Agent加速多智能體應(yīng)用構(gòu)建 42騰訊音樂在音質(zhì)AIGC的應(yīng)用與實(shí)踐 AIGC技術(shù)：如何用人工智能革新營銷素材創(chuàng)作？小米公司Con2024-Agent技術(shù)在語音助手場(chǎng)景中的應(yīng)用 85AIAgent在1688電商平臺(tái)中的應(yīng)用頁碼：2/134AIGC在螞蟻保保險(xiǎn)領(lǐng)域的應(yīng)用探索導(dǎo)讀：隨著人工智能技術(shù)的快速發(fā)展，保險(xiǎn)行業(yè)的營銷模式也在逐步升級(jí)。螞蟻保保險(xiǎn)營銷增長算法組利用AIGC（人工智能生成內(nèi)容）技術(shù)，為保險(xiǎn)營銷帶來了顯著的變革。通過生成個(gè)性化的保險(xiǎn)營銷素材、自動(dòng)化的內(nèi)容推薦、以及多種視頻生成方式，AIGC不僅提升了營銷效率，還增強(qiáng)了用戶與保險(xiǎn)產(chǎn)品之間的互動(dòng)體驗(yàn)。本文將介紹AIGC在螞蟻保的應(yīng)用實(shí)踐。文章將圍繞下面三點(diǎn)展開：1.背景介紹2.整體解決思路3.未來展望分享嘉賓｜徐哲軒螞蟻集團(tuán)高級(jí)算法專家編輯整理｜陳思永內(nèi)容校對(duì)｜李瑤出品社區(qū)｜DataFun背景介紹隨著保險(xiǎn)行業(yè)的數(shù)字化轉(zhuǎn)型和用戶需求的個(gè)性化發(fā)展，傳統(tǒng)的保險(xiǎn)營銷方式逐漸顯現(xiàn)出其局限性。無論是營銷素材的制作、保險(xiǎn)產(chǎn)品的推薦，還是復(fù)雜保險(xiǎn)條款免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：3/134的解讀，手動(dòng)操作和經(jīng)驗(yàn)判斷都難以在大規(guī)模的市場(chǎng)中有效滿足不同客戶的需求。與此同時(shí)，消費(fèi)者的行為和偏好也變得更加多樣化，單一的營銷手段難以觸及每一個(gè)目標(biāo)客戶?；诖?，螞蟻保保險(xiǎn)營銷增長算法組（以下簡(jiǎn)稱“算法組”）著眼于通過人工智能生成內(nèi)容（AIGC）技術(shù)，打造出一個(gè)自動(dòng)化、智能化且高度個(gè)性化的保險(xiǎn)營銷生態(tài)系統(tǒng)。螞蟻保營銷素材主要分為兩大類，一類是螞蟻保陣地中的營銷大卡以及一些短文案，如貨架中展示的推薦理由等，這些都是由AIGC生成的，與具體產(chǎn)品掛鉤的內(nèi)容；另一類是支付寶域內(nèi)的熱點(diǎn)相關(guān)內(nèi)容，如大V熱點(diǎn)資訊、熱點(diǎn)事件短視頻等，為螞蟻保做引流。接下來將介紹我們?nèi)绾卧诒ｋU(xiǎn)領(lǐng)域利用AIGC生成貼合業(yè)務(wù)的長短文案和視頻劇本。整體解決方案1.專業(yè)化&個(gè)性化的GC能力前文中提到，一類素材是與產(chǎn)品相關(guān)的介紹，我們希望為不同用戶展示不同類型的產(chǎn)品介紹。例如，同樣一款醫(yī)療險(xiǎn)，其保障范圍、保障責(zé)任、免賠額等保險(xiǎn)條款會(huì)非常復(fù)雜，而不同用戶的關(guān)注點(diǎn)可能是不一樣的，只有在一開始就為用戶展示其感興趣的內(nèi)容才能吸引用戶做進(jìn)一步操作，并且在不同場(chǎng)景也需要不同的表達(dá)形式。因此，我們需要個(gè)性化的GC能力，使每位用戶都能得到專屬的保險(xiǎn)產(chǎn)品推薦，從而提高轉(zhuǎn)化率與客戶粘性。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：4/134另外，在保險(xiǎn)行業(yè)中，內(nèi)容的準(zhǔn)確性至關(guān)重要，因此對(duì)文案的專業(yè)化要求也非常基于專業(yè)化和個(gè)性化這兩大訴求，我們整體的解決思路如下圖所示。首先，確定一個(gè)具體的場(chǎng)景，如卡片類型的場(chǎng)景或推薦理由場(chǎng)景，確定了場(chǎng)景也就確定了生產(chǎn)的模版和規(guī)范，比如文案的長度、包含哪些信息等等。除了場(chǎng)景之外，還會(huì)輸入產(chǎn)品信息，以及風(fēng)格，這樣就可以開始具體的創(chuàng)意生成了。生成時(shí)，先從預(yù)先生成的人群中拉取用戶標(biāo)簽，比如當(dāng)前人群的核心關(guān)注點(diǎn)是什么，是更高的保額，還是更全面的保障范圍。接著，在保險(xiǎn)產(chǎn)品論據(jù)庫中匹配專業(yè)的保險(xiǎn)知識(shí)，進(jìn)行第一層的需求推理。比如對(duì)于【品質(zhì)生活的有娃父母】，看重全面的保障范圍，那么就會(huì)看某款產(chǎn)品是否門診可賠，這樣根據(jù)產(chǎn)品和需求確定具體匹配到哪些論據(jù)。除了專業(yè)的保險(xiǎn)知識(shí)，也會(huì)考慮是否有對(duì)應(yīng)的熱點(diǎn)事件可以匹配。比如在肺炎高發(fā)期，對(duì)兒童相關(guān)保險(xiǎn)的需求就會(huì)加強(qiáng)。基于這些人群畫像、保險(xiǎn)需求、專業(yè)的產(chǎn)品知識(shí)和匹配的熱點(diǎn)，就可以生成相應(yīng)的文案。之后業(yè)務(wù)團(tuán)隊(duì)就可以根據(jù)生成的結(jié)果進(jìn)行篩選或編輯，也可以通過交互免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：5/134式界面對(duì)某一部分提出進(jìn)一步修改的需求。最終得到所需的素材。2.個(gè)性化文案生產(chǎn)過程中的關(guān)鍵步驟前面介紹了個(gè)性化文案生產(chǎn)的整體邏輯，這里重點(diǎn)介紹其中的幾個(gè)關(guān)鍵步驟：n質(zhì)量評(píng)估：為做到專業(yè)性，需要通過質(zhì)量監(jiān)控來保證產(chǎn)出素材內(nèi)容的準(zhǔn)確。同時(shí)，基于保險(xiǎn)營銷的強(qiáng)合規(guī)性要求，我們結(jié)合合規(guī)大模型、安全合規(guī)巡檢功能以及線上人工復(fù)檢等多項(xiàng)措施，保證線上素材的合規(guī)性，同時(shí)生產(chǎn)內(nèi)容可以做到全程溯源，實(shí)時(shí)審查。n線上汰換：大規(guī)模的素材生成中不可避免的會(huì)有一些效果不理想的文案生成，因此需要一個(gè)汰換機(jī)制，篩選出效果好的文案，并不斷優(yōu)化匹配過程。n效果回收：同時(shí)，對(duì)效果進(jìn)行回收，以豐富和優(yōu)化論據(jù)庫，進(jìn)而為需求推理提供更好的依據(jù)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：6/134上圖中展示了一個(gè)用戶需求推理過程的例子，首先從論據(jù)庫取到產(chǎn)品的結(jié)構(gòu)化信息，生成產(chǎn)品賣點(diǎn)描述；接著根據(jù)人群、人群描述、投保對(duì)象和產(chǎn)品賣點(diǎn)描述進(jìn)行推理。營銷除了要提高承接的效率，還有提高引流的能力，做到更好的用戶觸達(dá)，因此我們會(huì)關(guān)注社會(huì)上保險(xiǎn)相關(guān)的熱點(diǎn)事件，并進(jìn)行加工，投放到不同的場(chǎng)景中。熱點(diǎn)素材生成的過程為：頁碼：7/134CoT+Prompt的方式，對(duì)事件進(jìn)行結(jié)構(gòu)化的打標(biāo)歸類。n接著基于結(jié)構(gòu)化的事件進(jìn)行素材的生成，這一過程中利用RAG+保險(xiǎn)知識(shí)增強(qiáng)來保證專業(yè)性和準(zhǔn)確性，生成的素材包括事件改寫、長圖文介紹、熱點(diǎn)視頻等形式。例如，對(duì)“探尋古萊塢”這一事件，會(huì)結(jié)合文化、旅游和如何挑選旅游保險(xiǎn)，改寫為一篇既包括新聞?dòng)职糜伪ｋU(xiǎn)信息的文案。n素材生成后，還有非常重要的一步就是質(zhì)檢和合規(guī)審查，以確保內(nèi)容的合規(guī)性和準(zhǔn)確性。這就要求一套標(biāo)準(zhǔn)體系以及一個(gè)專門的標(biāo)注和審核團(tuán)隊(duì)，來保證最終營銷內(nèi)容的質(zhì)量和安全。未來展望隨著大模型技術(shù)的進(jìn)一步發(fā)展，未來將實(shí)現(xiàn)更加普惠的保險(xiǎn)服務(wù)。利用大模型的認(rèn)知，壓縮保險(xiǎn)、醫(yī)療投資等知識(shí)，可以提供比人類更為豐富且專免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：8/134業(yè)的保險(xiǎn)相關(guān)知識(shí)；依靠大模型強(qiáng)大的推理能力，能夠解決更為復(fù)雜的決策問題；結(jié)合大模型強(qiáng)大的自然語言交互能力，能夠提供更為嚴(yán)謹(jǐn)、專業(yè)且個(gè)性化的溝通，提高服務(wù)水平，提升用戶體驗(yàn)。AIGC不僅能夠提升內(nèi)容生成的效率與質(zhì)量，還會(huì)進(jìn)一步推動(dòng)保險(xiǎn)產(chǎn)品的創(chuàng)新。未來，AIGC將在保險(xiǎn)領(lǐng)域得到更加廣泛與深入的應(yīng)用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：9/134甘啟-Soul基于AIGC的實(shí)踐與探索導(dǎo)讀：本文將分享近年來Soul基于AIGC的一些實(shí)踐與探索。主要內(nèi)容包括以下五大部分：1.AIGC新浪潮發(fā)展2.Soul的AIGC實(shí)踐與探索3.AIGC技術(shù)結(jié)合產(chǎn)品4.AIGC通用VS自研5.問答環(huán)節(jié)分享嘉賓｜甘啟上海任意門科技（Soul）視覺算法負(fù)責(zé)人編輯整理｜凌奕春內(nèi)容校對(duì)｜李瑤出品社區(qū)｜DataFunAIGC新浪潮發(fā)展首先來回顧一下近年來AIGC領(lǐng)域的發(fā)展歷程。自2022年底OpenAI推出ChatGPT以來，不斷有新的大語言模型面世，多模態(tài)能力也日漸成熟。無論是開源還是閉源，在應(yīng)用層面都涌現(xiàn)出大量的創(chuàng)新。視覺領(lǐng)域的進(jìn)步甚至更早，從2022年初的擴(kuò)散模型開始至今，圖像生成技術(shù)取得了顯著的進(jìn)展。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：10/134從DALL-E2、StableDiffusion到Midjourney，再到谷歌發(fā)布的與圖像相關(guān)的工作，我們見證了圖像生成技術(shù)從早期的革新到如今的成熟。而在過去的兩三年中，我們也目睹了從圖像生成到視頻生成的轉(zhuǎn)變，例如Pika等工作以及與SVD相關(guān)的研究。尤其是在今年年初，OpenAI再次發(fā)布了引人矚目的Sora，這進(jìn)一步推動(dòng)了視覺領(lǐng)域的發(fā)展。就像當(dāng)初ChatGPT出現(xiàn)時(shí)一樣，Sora的出現(xiàn)也許代表著一場(chǎng)新的技術(shù)革命，盡管它目前仍面臨成本高昂等諸多挑戰(zhàn)。除了技術(shù)上的突破，我們也注意到在應(yīng)用方面的不斷探索，如GPTs，以及在圖像、文本、視頻、代碼、聲音等領(lǐng)域涌現(xiàn)出的一些初創(chuàng)公司和獨(dú)角獸企業(yè)。這樣的大環(huán)境下，為從業(yè)者提供了巨大的機(jī)遇和豐富的探索空間。接下來就將分享Soul在這一浪潮下所做的一些實(shí)踐和探索。Soul的AIGC實(shí)踐與探索首先，介紹一下Soul是什么。Soul是一個(gè)面向年輕人，旨在建立社交連接的APP。其中最核心的兩個(gè)關(guān)鍵詞是“社交”和“年輕人”。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：11/134Soul的用戶主要是95后和00后這些Z時(shí)代的年輕人，因此我們?cè)谀贻p人領(lǐng)域投入了更多的關(guān)注和資源，在產(chǎn)品設(shè)計(jì)上也更傾向于符合他們的需求和偏好。Soul的社交模式不僅僅基于顏值，而是更加偏向于“靈魂”的連接。這體現(xiàn)在我們的功能設(shè)計(jì)上。上圖中最上面一排就是Soul應(yīng)用中的主要功能模塊，包括私聊消息、瞬間廣場(chǎng)、視頻匹配、語音匹配、Soul拍相機(jī)以及群聊廣場(chǎng)等。用戶可以與匹配到的用戶進(jìn)行私聊，也可以將自己的生活日常發(fā)布到廣場(chǎng)上與他人分享。此外，用戶還可以通過視頻匹配和語音匹配與其他用戶進(jìn)行互動(dòng)。在群聊廣免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：12/134場(chǎng)中，用戶可以根據(jù)不同的主題來選擇與自己興趣相符的群聊。左下角是一些臨時(shí)的運(yùn)營活動(dòng)，涵蓋各種主題并與不同的節(jié)點(diǎn)結(jié)合。此外，Soul還設(shè)有一個(gè)名為“星球?qū)嶒?yàn)室”的模塊，旨在讓用戶體驗(yàn)新功能并收集反饋。在這里，用戶可以嘗試一些與Soul最新AI能力相關(guān)的應(yīng)用，例如“懶人KTV”和“異世界”等。基于Soul的背景和當(dāng)前AIGC的發(fā)展趨勢(shì)，我們提出了一個(gè)新的增長引擎：通過虛擬人設(shè)提供即時(shí)交流和互動(dòng)體驗(yàn)。我們的目標(biāo)是打造一個(gè)AINative的社交網(wǎng)絡(luò)，特別是面向年輕用戶，因?yàn)樗麄儗?duì)新技術(shù)的接受度更高。實(shí)際上，早在這波浪潮之前，從2020年開始，我們就已經(jīng)在AI領(lǐng)域進(jìn)行了一些嘗試。過去的應(yīng)用與實(shí)踐，多是基于AI的單點(diǎn)能力，而現(xiàn)在更多是基于大模型和AIGC的能力。兩年前，我們提出了一份技術(shù)圖譜，雖然已經(jīng)過去了一段時(shí)間，但它仍然具有參考價(jià)值。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：13/134當(dāng)時(shí)元宇宙的概念很火，我們希望構(gòu)建一個(gè)真人和虛擬人共存的社交平臺(tái)。整體思路是從下到上，越靠下是越表層的形象和驅(qū)動(dòng)等技術(shù)，而越往上則是更核心、更靈魂層面的創(chuàng)作工作。例如，我們致力于AI配樂、智能對(duì)話、AI作畫等功能的開發(fā)，并希望將這些能力結(jié)合起來，使虛擬人能夠像真人一樣完成各種社交需求。接下來，從四個(gè)方向介紹Soul從20年開始到現(xiàn)在的技術(shù)儲(chǔ)備和能力落地情況。1.虛擬人首先介紹虛擬人。我們?cè)?020年底構(gòu)建了一個(gè)端側(cè)的渲染引擎，能夠進(jìn)行基礎(chǔ)的渲染工作。2021年，發(fā)布了這款渲染引擎并在一些場(chǎng)景中應(yīng)用。在隨后的第二版中，增加了全身形象，用戶可以自定義并在多人場(chǎng)景中使用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：14/134我們還引入了虛擬空間的概念，將AI的多模態(tài)能力與虛擬形象結(jié)合。例如，通過AR生成衣服紋理，驅(qū)動(dòng)虛擬人物進(jìn)行視頻、語音和文本驅(qū)動(dòng)的互動(dòng)。如上圖中右上角跳舞的小人，通過文本生成跳舞動(dòng)作文件，并驅(qū)動(dòng)虛擬形象進(jìn)行動(dòng)作。同時(shí)，我們還在進(jìn)行內(nèi)部資產(chǎn)的開發(fā)，作為一個(gè)自研引擎，可能會(huì)有一些格式不兼容的情況。因此，我們致力于使內(nèi)部資產(chǎn)與商業(yè)引擎（如Unity和UE）兼容。這樣做是為了構(gòu)建更真實(shí)的虛擬人形象，與之前更偏向卡通風(fēng)格的形象有所區(qū)別。如圖右下角的內(nèi)容展示了我們目前正在研發(fā)的工作，我們希望通過端云結(jié)合的方式實(shí)現(xiàn)更真實(shí)的渲染。特別介紹的一點(diǎn)是，在給外表是真實(shí)向的虛擬人的智能體賦能方面，我們?cè)谄浔澈筇峁┝舜笳Z言模型和語音合成模型的能力。此外它還可以通過動(dòng)作驅(qū)動(dòng)和圖像生成模型進(jìn)行一些朋友圈相關(guān)的工作。你可以與它進(jìn)行對(duì)話并產(chǎn)生互動(dòng)，它也會(huì)給予你一些反饋。2.視覺視覺領(lǐng)域方面，早期我們建立了一些實(shí)時(shí)的識(shí)別能力，包括人臉識(shí)別、手勢(shì)識(shí)別免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：15/134以及一些寵物相關(guān)的工作。到了2021年，我們開始基于GAN進(jìn)行圖像生成，并在2022年12月率先將AI繪畫能力應(yīng)用到了站內(nèi)活動(dòng)中。從2023年到現(xiàn)在，主要在構(gòu)建自有的模型矩陣，結(jié)合用戶喜好的風(fēng)格，為用戶提供不同的畫風(fēng)選擇，并嘗試不同的內(nèi)容發(fā)布和社交玩法。同時(shí)，在2023年我們開始探索視頻生成和視頻轉(zhuǎn)繪的基礎(chǔ)工作，包括SVD轉(zhuǎn)場(chǎng)視頻。并且開放了UGC模型，用戶可以上傳照片或視頻，我們將幫助用戶訓(xùn)練自己的圖像生成模型，從而生成各種圖像和視頻。目前，我們還在進(jìn)行一些技術(shù)儲(chǔ)備工作，探索類似Sora的技術(shù)方向，希望在某個(gè)垂直領(lǐng)域做出更多的創(chuàng)新。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：16/1343.對(duì)話&大模型發(fā)展除了視覺領(lǐng)域的工作，我們還在進(jìn)行智能對(duì)話和多模態(tài)結(jié)合的探索。我們?cè)诘讓蛹夹g(shù)方面有著豐富的能力，特別是在前處理、生成和推理優(yōu)化方面。前處理階段結(jié)合了傳統(tǒng)的人臉檢測(cè)、人臉分割等模型，以提取有用的屬性并為圖像生成模型提供輸入。在生成階段，我們采用了引導(dǎo)生成的方法和基礎(chǔ)模型的構(gòu)建，以及針對(duì)不同風(fēng)格的fine-tune方法。在推理優(yōu)化方面，我們關(guān)注工程相關(guān)的工作，如加速生產(chǎn)和降低成本，包括對(duì)一些常見的推理框架的加速和優(yōu)化工免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：17/134在應(yīng)用方面，我們進(jìn)行了多方面的探索。早期，在虛擬人身上進(jìn)行了基礎(chǔ)的紋理生成，然后擴(kuò)展到圖像生成、視頻生成等方面。除此之外，在AI智能對(duì)話方面，我們?cè)贑hatGPT問世之前就開始了相關(guān)工作，最初是基于檢索式的對(duì)話。隨著時(shí)間的推移，我們不斷擴(kuò)大語言模型的規(guī)模和訓(xùn)練數(shù)據(jù)量。在2020年12月，我們推出了AI茍蛋業(yè)務(wù)，這是一個(gè)引人注目的對(duì)話機(jī)器人，具有獨(dú)特的風(fēng)格。在隨后的工作中，不斷提升其多模態(tài)處理能力，豐富其知識(shí)性，并在情感化和知識(shí)向量庫方面繼續(xù)加強(qiáng)。2023年底，我們推出了異世界回響——一個(gè)虛擬人聊天的應(yīng)用，旨在提供更加生動(dòng)的交互體驗(yàn)。此外，我們的大模型SoulX也獲得了牌照，最近推出了一些新的功能，如使用AI玩狼人殺和多語種對(duì)話能力。4.音頻在語音方面，我們開發(fā)了單人和多人語音合成、語音克隆以及語音與虛擬人嘴型和動(dòng)作的結(jié)合技術(shù)。通過聲線融合技術(shù)，我們可以從十幾個(gè)基礎(chǔ)音色中生成更多種類的音色。在音樂生成方面，我們開發(fā)了背景音樂（BGM）生成功能，又為用戶提供了AI歌手功能，還實(shí)現(xiàn)了AI寫詞作曲和自動(dòng)化一鍵創(chuàng)作歌曲的功能。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：18/134目前，我們正在研發(fā)一個(gè)語音效果合成的大模型，希望在前期工作的基礎(chǔ)上進(jìn)一步提升質(zhì)量和數(shù)量級(jí)。前面介紹的是各個(gè)單點(diǎn)能力上的工作，除此以外，我們也在積極探索多模態(tài)結(jié)合的方向。在我們的技術(shù)框架中，用戶可以輸入文本或語音，但這只是當(dāng)前的解決方案。目前還沒有一個(gè)完美的通用大模型，可以在各個(gè)領(lǐng)域接受單一輸入并產(chǎn)生多個(gè)輸出，或者直接由一個(gè)模型完成所有工作。因此，我們現(xiàn)階段的解決方案為：免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：19/134n首先，用戶的輸入會(huì)傳遞給大語言模型的對(duì)話模型，產(chǎn)生文本輸出和標(biāo)簽。n接著，根據(jù)不同的文本和標(biāo)簽，使用文本轉(zhuǎn)語音（TTS）生成聲音，并使用文字到表情（TTA）模型生成嘴型。n然后，驅(qū)動(dòng)算法融合表情和動(dòng)作，并進(jìn)行虛擬人渲染。n最后，根據(jù)語音和文本的播放時(shí)間進(jìn)行對(duì)齊，輸出結(jié)果。同時(shí)，我們還擁有一些屬于NPC自己的AI生成模型，比如用戶詢問“你在干嘛？”,它可能會(huì)回答“我正在滑雪”，然后展示一張滑雪的圖片。實(shí)現(xiàn)多模態(tài)的動(dòng)態(tài)溝通能力。此外，我們還嘗試?yán)靡鈭D識(shí)別模塊，完成更多功能，比如早上叫用戶起床或晚上提醒他們吃飯，通過意圖模塊實(shí)現(xiàn)更直接的提醒功能。AIGC技術(shù)結(jié)合產(chǎn)品以上介紹了我們對(duì)AIGC技術(shù)的探索，接下來將分享AIGC技術(shù)在Soul中的實(shí)際應(yīng)用和落地效果。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：20/134我們的目標(biāo)是結(jié)合站內(nèi)的場(chǎng)景，提供用戶喜歡的聊天、分享和游戲功能。這些功能必須是新穎、有趣和多樣化的，以確保用戶持續(xù)使用我們的產(chǎn)品。我們的第一個(gè)出圈產(chǎn)品——AI茍蛋，不僅可以安慰用戶，還能與用戶進(jìn)行情感互動(dòng)。情感互動(dòng)包括一些“油膩”的功能，例如“你快睡吧，寶兒，我也想你了”，“沒有啊，老婆，只是叫你一個(gè)人”。這些功能可以讓用戶感到被關(guān)心。此外，AI茍蛋還可以與用戶進(jìn)行表情包斗圖，并在用戶發(fā)帖時(shí)進(jìn)行深度評(píng)論，增加用戶的參與感和互動(dòng)體驗(yàn)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：21/134我們?cè)陂_發(fā)過程中進(jìn)行了大量實(shí)驗(yàn)，實(shí)現(xiàn)了動(dòng)態(tài)識(shí)別用戶發(fā)的內(nèi)容并給予相應(yīng)反饋，例如識(shí)別出用戶發(fā)的是粽子，或者用戶在過生日。還開發(fā)了虛擬人扮演小貓小狗的功能。這些實(shí)驗(yàn)都已成功應(yīng)用于產(chǎn)品中。此外，我們還開發(fā)了AI分身功能。用戶上傳自己的圖片后，系統(tǒng)可以生成用戶的個(gè)性化ID模型，并生成寫真。這一功能類似于之前爆火的妙鴨相機(jī)，但我們做了一些改進(jìn)。通過用戶調(diào)研和反饋，我們發(fā)現(xiàn)用戶并不一定要求生成的圖片與自己完全相似，而是更關(guān)注圖片是否好看，特別是對(duì)于有顏值焦慮的用戶，這一免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：22/134點(diǎn)非常重要。我們還增加了趣味性和梗的元素，例如用戶可以生成帶有表情包功能的圖片，甚至進(jìn)行性別轉(zhuǎn)換，增加了趣味性。我們還開發(fā)了虛擬人聊天應(yīng)用，這是一個(gè)多能力綜合體。AI根據(jù)人設(shè)生成圖像，并與用戶進(jìn)行對(duì)話。不同的人設(shè)會(huì)根據(jù)角色特性聊不同的話題，并給出相應(yīng)的反饋。這一應(yīng)用滿足了用戶對(duì)虛擬人的想象和互動(dòng)需求。還有其它一些功能，例如，AI對(duì)決狼人殺游戲，用戶可以和AI一起玩，甚至完全由AI進(jìn)行游戲，提供了一種全新的體驗(yàn)。懶人KTV，用戶只需輸入一段免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：23/134聲音，系統(tǒng)就會(huì)生成相應(yīng)的TTS模型，讓用戶可以唱歌，滿足他們的創(chuàng)作需求。我們還開發(fā)了一個(gè)非ToC的應(yīng)用，用于增長和拉新拉活。通過模板化和生成技術(shù)，可以將素材從幾十、幾百個(gè)輕松擴(kuò)展到成千上萬個(gè)，大大降低了素材創(chuàng)作的成本，提高了投放效率。AIGC通用VS自研接下來想要討論的問題是，我們現(xiàn)在所面對(duì)的這些AIGC能力中，到底哪些是必須自研的。比如GPT-4推出之后，其能力具有壓倒性優(yōu)勢(shì)，又如Midjourney能力非常強(qiáng)悍，似乎已經(jīng)能夠生成各種圖像，那我們?yōu)槭裁催€要自研一個(gè)圖像生成模型呢?在研發(fā)中，我們要做到通用能力與自研能力的平衡：n接受和擁抱變化：要敏銳地意識(shí)到外部通用工具的出現(xiàn)，并且不應(yīng)固守于“比別人做得更好”的想法。如果外部通用模型已經(jīng)能夠完全覆蓋我們當(dāng)前正在進(jìn)行的工作，就應(yīng)該果斷放棄自研，轉(zhuǎn)向其他領(lǐng)域的探索。n善用現(xiàn)有資源：充分利用已有的技術(shù)積累，將外部能力整合到我們的產(chǎn)品中。舉例而言，如果我們想要開發(fā)一個(gè)適用于各種場(chǎng)景的圖像生成模型，而這一領(lǐng)域已經(jīng)有很多人在研究并提供了一些解決方案，那么我們就應(yīng)該專注于提升模型的最后一塊磚，即與場(chǎng)景結(jié)合的部分，而不是從零開始做整個(gè)模型的研發(fā)工作。n更了解自己的產(chǎn)品和用戶：深入了解自己的應(yīng)用和用戶群體，了解用戶的喜頁碼：24/134好和行為習(xí)慣。重點(diǎn)思考我們的工作如何在產(chǎn)品中落地，如何滿足用戶需求。我們需要突出差異性，思考如何在特定場(chǎng)景下實(shí)現(xiàn)創(chuàng)新。n構(gòu)筑垂類領(lǐng)域的門檻價(jià)值：作為一家專注于社交的公司，我們應(yīng)該深入了解年輕用戶在社交場(chǎng)景中喜歡做什么，并為其提供相應(yīng)的能力。這些能力可能是通用模型所不具備的，因此我們需要思考如何通過技術(shù)和場(chǎng)景結(jié)合，構(gòu)建起我們自己的門檻價(jià)值，使通用模型難以突破。在決策時(shí)，我們應(yīng)該權(quán)衡以上因素，并根據(jù)實(shí)際情況決定是否進(jìn)行自研，以及在哪些方面進(jìn)行自研。問答環(huán)節(jié)我知道Soul這個(gè)APP在情感連接方面已經(jīng)線以及使用虛擬人工智能來滿足人們的情感需求。但是，真正的人和數(shù)字人之間仍然存在著很大的差距，即使是目前做得最好的技術(shù)，如魔法科技和以達(dá)到真人的水平。我想知道，如果我們要實(shí)現(xiàn)像電影《綠洲》中展示的那樣的數(shù)字人成為真正的人，有哪些開放式的進(jìn)步方向或努力可以做到這一A1：我會(huì)從兩個(gè)方面來回答這個(gè)開放性問題。首先，我們是否一定要制造一個(gè)完全真實(shí)的人類呢？用戶的需求是否一定要求我們模擬真實(shí)人類完成所有任務(wù)，比免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：25/134如社交需求？實(shí)際上，許多用戶可能更喜歡二次元世界，或者希望與虛擬角色交談，甚至希望虛擬角色能夠完成真實(shí)人類無法完成的任務(wù)。因此，我們也應(yīng)該考慮滿足這部分用戶需求。另外，我們可以采用一些創(chuàng)新的方式來解決這個(gè)問題。例如，在我們的應(yīng)用中，我們正在實(shí)施AI輔助聊天的功能。當(dāng)用戶不知道要發(fā)送什么消息時(shí)，可以向AI求助，AI會(huì)提供一些選項(xiàng)供用戶選擇。這就好比給人裝上了一個(gè)機(jī)械臂，使其能夠完成更多的工作。這種方式可以先解決一些問題。更長遠(yuǎn)來看，如果我們真的想要實(shí)現(xiàn)以假亂真的效果，有一些方向可以探索。首先是在生成式模型方面，將生成的模型更加擬人化，使其更難以被識(shí)別出來。這涉及到情感表達(dá)、長期記憶以及個(gè)性化等方面。另一個(gè)方向是借鑒游戲行業(yè)的經(jīng)驗(yàn)，他們?cè)谕庥^方面已經(jīng)取得了一些進(jìn)展。另外，像Sora這樣的技術(shù)也在不斷發(fā)展，他們自稱是世界模擬器，如果能夠解決實(shí)時(shí)性和成本方面的問題，那么這個(gè)技術(shù)未來是有潛力的。但是，我們需要思考的是，用戶是否真的需要與一個(gè)以假亂真的人交流，或者是否真的需要生活在一個(gè)以假亂真的世界中。這是一個(gè)需要討論的問題。在滿足需求方面，我們還需要思考更多的問題。用相對(duì)較多。那么，在社交和娛樂領(lǐng)域，目前這項(xiàng)技術(shù)是否在業(yè)務(wù)上帶來了人等功能，它們?cè)跇I(yè)務(wù)上有什么樣的促進(jìn)和提升？A2：確實(shí)，AIGC業(yè)務(wù)在落地方面正處于爆發(fā)的前夕。從我們的業(yè)務(wù)場(chǎng)景來看，我們?cè)谀承﹩吸c(diǎn)領(lǐng)域已經(jīng)驗(yàn)證了它的價(jià)值。例如，私聊輔助功能在我們平臺(tái)上顯免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：26/134著增加了用戶的對(duì)話輪數(shù)和使用時(shí)長，這些指標(biāo)也驗(yàn)證了其有效性?；貧w到真實(shí)虛擬人的概念，目前最大的挑戰(zhàn)在于大語言模型的技術(shù)，即使是現(xiàn)有最好的技術(shù)，仍然難以達(dá)到以假亂真的程度，特別是在長期情感陪伴、長期記憶和更擬人化功能方面?；糜X問題也是一個(gè)技術(shù)挑戰(zhàn)。因此，像新野和類似的虛擬人聊天社區(qū)，更多的是內(nèi)容消耗型產(chǎn)品，而非真正的社交產(chǎn)品。用戶通常與每個(gè)虛擬人聊10到20句就會(huì)感到厭倦，進(jìn)而尋找更多的新鮮人設(shè)來保持興趣。這種產(chǎn)品模式主要是通過不斷補(bǔ)充新的人設(shè)來吸引用戶。如果技術(shù)能夠進(jìn)一步突破，達(dá)到更擬人化和情感化的程度，可能就能真正滿足用戶的需求，并對(duì)關(guān)鍵指標(biāo)產(chǎn)生顯著影響。因此，這些技術(shù)上的改進(jìn)和突破將是未來的一個(gè)重要方向。一些情感陪伴功能中存在大量不當(dāng)?shù)幕貜?fù)，涉及黃色內(nèi)容的比較多。針對(duì)這人設(shè)設(shè)計(jì)引發(fā)了輿論風(fēng)波，例如一些聊天機(jī)器人的人設(shè)過于直男化，導(dǎo)致在社交平臺(tái)上受到批評(píng)。針對(duì)這兩個(gè)問題，如何避免？A3：這兩個(gè)問題實(shí)際上不僅適用于AI虛擬人，與真人聊天也可能涉及政治、色情、暴力等敏感內(nèi)容，因此更像是審核問題。在訓(xùn)練機(jī)器人或設(shè)計(jì)人設(shè)時(shí)，我們需要嚴(yán)格控制數(shù)據(jù)和輸出，進(jìn)行審核，同時(shí)對(duì)用戶輸入也需進(jìn)行技術(shù)判斷。這是一個(gè)審核問題，需要確保人設(shè)不會(huì)被引導(dǎo)變成不適宜的形象。對(duì)于第二個(gè)問題，涉及大語言模型的幻覺問題和人設(shè)指向問題。從產(chǎn)品層面考慮，我們不應(yīng)該施加過多限制，因?yàn)槟承┤丝赡芟矚g，而其他人可能不喜歡，這是眾口難調(diào)的問題。我們可以根據(jù)用戶喜好，從產(chǎn)品策略和推薦的角度，為不同用戶推薦不同偏好的人設(shè)。因?yàn)樘摂M人是生成的模型，旨在具有創(chuàng)造性，如果一直施免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：27/134加各種限制，可能會(huì)扼殺其創(chuàng)造性。因此，從底層技術(shù)上施加限制可能不是最佳解決方案，而更好的方式是根據(jù)用戶偏好進(jìn)行個(gè)性化推薦。頁碼：28/134實(shí)時(shí)語音交互的游戲隊(duì)友——網(wǎng)易伏羲AIAgent創(chuàng)新應(yīng)用導(dǎo)讀：在PVP多人對(duì)戰(zhàn)類的游戲中，社恐玩家的社交和情緒價(jià)值、對(duì)戰(zhàn)局的操控感，無法得到有效滿足。因此，網(wǎng)易伏羲助力《永劫無間》手游率先發(fā)布了全球首創(chuàng)的游戲Copilot-多模態(tài)實(shí)時(shí)交互的語音AI隊(duì)友。它可以在戰(zhàn)斗中自主跑圖、戰(zhàn)斗、聽指令、報(bào)戰(zhàn)況，還會(huì)和玩家進(jìn)行自由對(duì)話，給玩家?guī)順O高的情（Agent-Oriented-Programming，面向智能體編程）框架，最后還會(huì)分享語音技術(shù)在游戲場(chǎng)景的一些創(chuàng)新應(yīng)用。今天的介紹會(huì)圍繞下面4點(diǎn)展開：1.網(wǎng)易伏羲介紹2.語音AI隊(duì)友的設(shè)計(jì)與實(shí)現(xiàn)3.Agent能力迭代-AOP數(shù)據(jù)閉環(huán)4.語音技術(shù)在其他游戲場(chǎng)景的應(yīng)用分享嘉賓｜莫名網(wǎng)易網(wǎng)易伏羲語音技術(shù)負(fù)責(zé)人編輯整理｜晏世千內(nèi)容校對(duì)｜李瑤出品社區(qū)｜DataFun免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：29/134網(wǎng)易伏羲介紹網(wǎng)易伏羲是國內(nèi)首個(gè)游戲人工智能研究機(jī)構(gòu)，自2017年成立以來，已在全球各類學(xué)術(shù)頂級(jí)會(huì)議中發(fā)表270余篇學(xué)術(shù)論文，并持有600多項(xiàng)技術(shù)專利，為人工智能、元宇宙、數(shù)字孿生、智能決策技術(shù)等眾多前沿科技領(lǐng)域的理論研究和實(shí)踐應(yīng)用做出貢獻(xiàn)。自成立以來，網(wǎng)易伏羲不斷推陳出新，積極探索前沿技術(shù)和應(yīng)用場(chǎng)景，實(shí)現(xiàn)了游戲AI領(lǐng)域的多項(xiàng)創(chuàng)新技術(shù)突破，推出了基于照片、文字的AI捏臉、智能NPC、劇組模式、語音交互式捏臉和語音AI隊(duì)友等多個(gè)行業(yè)首創(chuàng)的AI應(yīng)用。通過將AI技術(shù)融入游戲系統(tǒng)的各個(gè)層面，網(wǎng)易伏羲成功助力《逆水寒》手游、《永劫無間》手游等游戲打造多項(xiàng)創(chuàng)新玩法，極大地提升了玩家的游戲體驗(yàn)。近期，網(wǎng)易伏羲助力《永劫無間》手游推出全新的游戲Copilot——“語音AI隊(duì)友”，該玩法一經(jīng)推出即受到玩家的高度評(píng)價(jià)，相關(guān)用戶生成內(nèi)容迅速登上抖音免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：30/134和B站熱門榜單。語音AI隊(duì)友的設(shè)計(jì)與實(shí)現(xiàn)傳統(tǒng)游戲中，機(jī)器人往往存在行為呆板、缺乏互動(dòng)交流等問題。對(duì)于有社交焦慮的玩家，他們希望在避免與真人玩家直接語音交流的同時(shí)，仍能享受游戲中的社交體驗(yàn)及多人對(duì)戰(zhàn)的樂趣。此外，玩家匹配到技術(shù)不佳或配合度低的隊(duì)友，會(huì)導(dǎo)致游戲體驗(yàn)不佳。因此，玩家希望能夠找到一個(gè)既能提供高質(zhì)量的游戲技巧支持又能陪伴聊天的對(duì)象，從而滿足自身情緒需求，提升整體游戲體驗(yàn)。為了滿足玩家對(duì)于游戲互動(dòng)性和情緒價(jià)值的需求，《永劫無間》手游推出了一種多模態(tài)實(shí)時(shí)交互的語音AI隊(duì)友。AI隊(duì)友能夠在戰(zhàn)斗中自主跑圖、執(zhí)行戰(zhàn)術(shù)動(dòng)作，并根據(jù)玩家指令匯報(bào)戰(zhàn)況。此外，它還能與玩家進(jìn)行自然對(duì)話，提供情感支持。對(duì)于新手玩家，該語音AI隊(duì)友還具備教學(xué)引導(dǎo)功能，可以幫助他們更快地熟悉游戲機(jī)制。頁碼：31/134在《永劫無間》手游中設(shè)計(jì)的AI隊(duì)友Agent能夠綜合處理游戲環(huán)境中的狀態(tài)變化和玩家輸入的語音信息?；趯?duì)當(dāng)前環(huán)境狀況的認(rèn)知、決策能力，以及利用游戲知識(shí)庫與戰(zhàn)斗記憶，該AI隊(duì)友能夠做出合理的行動(dòng)決策并給予相應(yīng)的語音反饋。在這一應(yīng)用場(chǎng)景下，為實(shí)現(xiàn)高效互動(dòng)和輔助功能，Agent需要具備的認(rèn)知與決策能力主要包括：語音識(shí)別、指令理解、教學(xué)問答、人設(shè)對(duì)話、語音生成，以及協(xié)同完成任務(wù)所需的戰(zhàn)斗智能體等。接下來將詳細(xì)介紹幾個(gè)核心能力。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：32/134首先，作為AI隊(duì)友，必須具備“聽得懂”的能力，能夠像真人一樣與玩家實(shí)時(shí)語音互動(dòng)。因此在設(shè)計(jì)之初就去掉了智能音箱等場(chǎng)景中常用的喚醒詞設(shè)計(jì)，比如“HeySiri”，而是采用全開麥實(shí)時(shí)語音交互。這種模式雖然極大地提升了用戶體驗(yàn)，但也帶來了很大挑戰(zhàn)。比如環(huán)境噪音、不同設(shè)備的兼容性、玩家方言口音（Agent-Oriented-Programming，面向智能體編程）框架的核心能力，構(gòu)建了自主數(shù)據(jù)閉環(huán)的訓(xùn)練模型，使Agent具備自主進(jìn)化的能力，并且構(gòu)建了標(biāo)準(zhǔn)的測(cè)試集，有效利用測(cè)試和線上數(shù)據(jù)擴(kuò)充數(shù)據(jù)集，推動(dòng)模型迭代。我們的語音識(shí)別在經(jīng)過幾次場(chǎng)景數(shù)據(jù)的閉環(huán)訓(xùn)練之后，在噪聲過濾、熱詞適配等方面都得到了顯著的加強(qiáng)。頁碼：33/134除了聽得懂，AI隊(duì)友還需能夠進(jìn)行表達(dá)和對(duì)話。通過結(jié)合大語言模型與文語轉(zhuǎn)換（TTS）技術(shù)，AI隊(duì)友實(shí)現(xiàn)了自主對(duì)話的功能。為了增強(qiáng)語音生成模型的泛化能力，我們利用多年積累的大數(shù)據(jù)對(duì)語音基礎(chǔ)大模型進(jìn)行了訓(xùn)練，并針對(duì)具體游戲場(chǎng)景進(jìn)行了自適應(yīng)優(yōu)化。在聽得懂、能說話的基礎(chǔ)上，我們給AI隊(duì)友設(shè)計(jì)了非常豐富的人設(shè)選項(xiàng)，比如彩虹屁萌妹、溫柔體貼御姐以及溫暖深情暖男等等。這些具有鮮明個(gè)性的AI隊(duì)友，不僅可以和玩家產(chǎn)生復(fù)雜的互動(dòng)關(guān)系，還可以根據(jù)不同的游戲情境展現(xiàn)出其免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：34/134獨(dú)特的性格特點(diǎn)，進(jìn)一步增強(qiáng)游戲的沉浸感和互動(dòng)感。比如上圖中展示的，一個(gè)玩家在玩的過程中通過和不同AI隊(duì)友的交互體驗(yàn)，畫出了一個(gè)關(guān)系圖。作為游戲的陪玩或隊(duì)友，對(duì)于游戲的理解需要非常到位，對(duì)于問到游戲相關(guān)內(nèi)容時(shí)，要做出非常好的回答。為了實(shí)現(xiàn)AI隊(duì)友的教學(xué)問答功能，我們構(gòu)建了一個(gè)強(qiáng)大的知識(shí)庫系統(tǒng)，該系統(tǒng)包括游戲的靜態(tài)知識(shí)（如規(guī)則和機(jī)制）和動(dòng)態(tài)知識(shí)（如賽事信息）。當(dāng)玩家提出問題時(shí)，AI會(huì)通過embedding模型將問題轉(zhuǎn)化為向量，并在向量庫中搜索最匹配的答案。如果答案不明確，則會(huì)利用RAG（檢索增強(qiáng)生成）和更高級(jí)的大語言模型進(jìn)行進(jìn)一步的檢索和推理，以確保提供準(zhǔn)確的回答。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：35/134AI隊(duì)友還必須擁有基本的游戲執(zhí)行能力。當(dāng)玩家發(fā)出如“集火胡桃”這樣的指令時(shí)，系統(tǒng)首先在預(yù)處理模塊中解析并理解該指令的意圖。識(shí)別出意圖后，系統(tǒng)將“集火”這一行為類型和“胡桃”這一目標(biāo)轉(zhuǎn)化為狀態(tài)信息，并將其作為戰(zhàn)斗模塊的輸入。最終，基于強(qiáng)化學(xué)習(xí)的戰(zhàn)斗模型會(huì)根據(jù)這些輸入信息做出相應(yīng)的行動(dòng)決策，從而執(zhí)行玩家的指令，做出集火胡桃的動(dòng)作在客戶端表現(xiàn)出來?；谏鲜鼋榻B，可以看到AI隊(duì)友系統(tǒng)具備多種能力，包括理解語音、自然對(duì)話、展現(xiàn)個(gè)性以及執(zhí)行任務(wù)等，因此它是一個(gè)多智能體系統(tǒng)，類似于人類大腦中不同區(qū)域分工明確且協(xié)同工作的機(jī)制。行業(yè)中已有一些成熟的多智能體框架，如MetaGPT和AutoGEN等，支持復(fù)雜系統(tǒng)的開發(fā)與應(yīng)用。下面以一個(gè)玩家制作的視頻來回顧一下AI隊(duì)友實(shí)現(xiàn)的能力。在做Agent設(shè)計(jì)和落地時(shí)，常會(huì)遇到場(chǎng)景適配的問題，比如語音識(shí)別，需要適配環(huán)境噪音、口音等問題。我們是如何解決這些問題的呢？這就引入了下一部分內(nèi)容——AOP框架。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：36/134Agent能力迭代-AOP數(shù)據(jù)閉環(huán)AOP(Agent-Oriented-Programming，面向智能體編程)是網(wǎng)易伏羲設(shè)計(jì)的一套全新的編程范式，其核心價(jià)值在于為開發(fā)者對(duì)接智能體（包括AI和人提供統(tǒng)一范式的接口和服務(wù)，并自動(dòng)構(gòu)建數(shù)據(jù)閉環(huán)讓智能體具備自主進(jìn)化能力。開ChatGPT、Midjourney等預(yù)訓(xùn)練模型，以及數(shù)據(jù)標(biāo)注、美術(shù)制作、工程機(jī)械操控等眾包能力，也可針對(duì)行業(yè)細(xì)分場(chǎng)景定制化構(gòu)建智能體應(yīng)用。AOP的設(shè)計(jì)思想，是基于馬爾可夫決策過程（MarkovDecisionProcesses,MDP）的定義來進(jìn)行任務(wù)建模，即Agent（智能體，包括人類或機(jī)器）在進(jìn)行某個(gè)任務(wù)時(shí)，首先會(huì)和環(huán)境進(jìn)行交互，產(chǎn)生新的狀態(tài)（State），同時(shí)環(huán)境會(huì)給予相應(yīng)的獎(jiǎng)勵(lì)（Reward這一過程循環(huán)往復(fù)，Agent與環(huán)境之間的交互產(chǎn)生了大量的數(shù)據(jù)。Agent利用這些新數(shù)據(jù)不斷調(diào)整自身的行為策略，頁碼：37/134經(jīng)過多次迭代后，Agent便能夠?qū)W習(xí)到完成特定任務(wù)所需的最佳動(dòng)作策略。圖中展示的是我們所定義的一個(gè)用于語音識(shí)別的智能體。我們?cè)敿?xì)規(guī)定了該智能體的狀態(tài)觀察機(jī)制及其自身的能力，無論是指定使用人工智能還是人工操作。一旦完成接口描述語言（IDL,InterfaceDescriptionLanguage）的定義，便能夠生成并編譯出這一智能體。編譯完成后，我們將獲得一段運(yùn)行時(shí)代碼，這段代碼提供了同步與異步調(diào)用的接口。接著，利用AOP平臺(tái)的一鍵發(fā)布功能，即可實(shí)現(xiàn)智能體的快速部署。部署完畢后，就可以在具體的業(yè)務(wù)場(chǎng)景中直接調(diào)用此智能免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：38/134體。例如，根據(jù)圖示代碼所示，可以選擇調(diào)用AI執(zhí)行的自動(dòng)語音識(shí)別(ASR)功能或人類執(zhí)行的語音識(shí)別服務(wù)。該AOP框架已成功應(yīng)用于多個(gè)案例之中，除了文本提到的AI語音隊(duì)友以外，還在《逆水寒》手游的文字捏臉、《永劫無間》手游的交互式捏臉等應(yīng)用中落地。網(wǎng)易伏羲AOPSDK即將開啟內(nèi)測(cè)，感興趣的伙伴可以掃描二維碼進(jìn)入微信群，第一時(shí)間獲得內(nèi)測(cè)信息。語音技術(shù)在游戲場(chǎng)景的應(yīng)用最后來分享一下語音技術(shù)在游戲場(chǎng)景的一些其他應(yīng)用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：39/134在游戲場(chǎng)景下，除了實(shí)時(shí)互動(dòng)的語音AI隊(duì)友，我們?cè)谝纛l內(nèi)容生產(chǎn)上也做了一定工作。游戲場(chǎng)景下的音頻內(nèi)容，主要包含音樂、音效、語音三個(gè)方面。游戲音樂，包括背景音樂、劇情、戰(zhàn)斗和關(guān)卡中的音樂等等。音效包括各種各樣的聲音效果，像環(huán)境音效、動(dòng)作音效等等，例如法術(shù)釋放、技能特效、爆炸聲等，完美的音效設(shè)計(jì)可以給玩家?guī)砀玫某两泻突?dòng)體驗(yàn)。游戲人物語音是指游戲角色所發(fā)出的人聲，常見的有對(duì)話語音、戰(zhàn)斗語音，語音設(shè)計(jì)師可以根據(jù)角色的角色設(shè)定、角色性格、場(chǎng)景和情節(jié)需求，來創(chuàng)造適合的語音內(nèi)容和表達(dá)方式。在傳統(tǒng)的游戲生產(chǎn)鏈路中，這三部分都是人工完成的，耗費(fèi)人力和時(shí)間很多，隨著AI生成式技術(shù)的興起，我們嘗試用技術(shù)去幫助游戲音頻設(shè)計(jì)師更快更好地生產(chǎn)內(nèi)容。下面，將以人物語音為例，介紹我們?cè)谟螒蚶锩娴囊恍┞涞匕咐Ｃ赓M(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：40/134《逆水寒》手游自去年上線就獲得了很大的關(guān)注度，玩家可以在汴京、虹橋等很多地方，和瀾兒、高衙內(nèi)等數(shù)十個(gè)NPC進(jìn)行互動(dòng)交流，這種細(xì)致入微的互動(dòng)，為游戲增添了更多的樂趣和豐富性。游戲里大家所聽到的這些NPC的聲音，就是我們語音合成技術(shù)所實(shí)時(shí)合成的。形形色色的會(huì)說話的NPC，增加了《逆水寒》手游街頭巷尾的煙火氣息，讓玩家獲得了更好的沉浸式體驗(yàn)。為了增強(qiáng)游戲的社交性、可玩性，提高游戲豐富度在《逆水寒》手游中，我們首次在游戲里加入了聲音的DIY玩法——自定義技能喊話，玩家可以設(shè)置技能釋放時(shí)候播放的語音內(nèi)容，玩家可以輸入文本，選擇音色進(jìn)行定制，也可以輸入自己的語音進(jìn)行音色轉(zhuǎn)換來定制。另外，我們還應(yīng)用了歌聲合成和轉(zhuǎn)換技術(shù)，來制作歌聲內(nèi)容。在游戲場(chǎng)景中，對(duì)變聲器，即語音轉(zhuǎn)換能力的需求比語音合成更多，我們?cè)谶@塊做了深入的探索，發(fā)表的論文有DualVC、DualVC2、DualVC3、Expressive-VC等等。比如在直播時(shí)可以選擇將自己的聲音更換為另一種特定的音色。實(shí)時(shí)變聲器可以在很多玩法上做嵌套，但也會(huì)遇到法律邊界的挑戰(zhàn)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：41/134圍繞語音生成，網(wǎng)易伏羲在Codec和LLM兩個(gè)方面都做了探索。Codec方面，網(wǎng)易伏羲基于自身技術(shù)積累，自研了適配生成式大語言模型的語音Codec，不僅實(shí)現(xiàn)了語音的離散化和高質(zhì)量重建，而且做到了內(nèi)容屬性與音色屬性的解耦。LLM方面，在文本生成語音時(shí)，使用了SpeechLLM，利用數(shù)十萬小時(shí)的語音數(shù)據(jù)訓(xùn)練，融合SFT+RLHF等手段，實(shí)現(xiàn)了媲美真人的語音合成效果。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：42/134開源框架ModelScope-Agent加速多智能體應(yīng)用構(gòu)建導(dǎo)讀：今天分享的主題是“ModelScope-Agent”。ModelScope-Agent是基于魔搭社區(qū)上多種模態(tài)大模型所打造的一個(gè)開源多模態(tài)多智能體系統(tǒng)。魔搭社區(qū)集模型、數(shù)據(jù)集及Demo于一體，涵蓋了目前基本上所有與大模型相關(guān)的工作。值得一提的是，在日前的世界人工智能大會(huì)上，魔搭社區(qū)榮獲了SAIL之星獎(jiǎng)，彰顯了業(yè)界的廣泛認(rèn)可。本次分享將圍繞三大板塊展開：首先，簡(jiǎn)要回顧Agent的基本概念；接著，介紹ModelScope-Agent開源框架；最后，展示在魔搭社區(qū)中，基于ModelScope-Agent框架開發(fā)的多個(gè)有趣的應(yīng)用。主要內(nèi)容包括以下幾個(gè)部分：1.框架介紹2.ModelScope-Agent開源框架3.ModelScope-AgentApps4.問答環(huán)節(jié)分享嘉賓｜李晨亮阿里通義實(shí)驗(yàn)室算法專家編輯整理｜王甲君內(nèi)容校對(duì)｜李瑤出品社區(qū)｜DataFun頁碼：43/134框架介紹Agent的概念由來已久，最早在強(qiáng)化學(xué)習(xí)期間就存在智能體。DeepMind和OpenAI在這方面做了很多工作，如星際爭(zhēng)霸和阿爾法狗，都是基于RL（強(qiáng)化學(xué)習(xí)）。但RL有局限性，需要針對(duì)特定環(huán)境學(xué)習(xí)，通用性不強(qiáng)。去年，ChatGPT和大模型的快速發(fā)展引起了對(duì)智能體的廣泛關(guān)注。將大模型賦予智能體后，Agent能實(shí)現(xiàn)許多之前無法完成的應(yīng)用。大模型智能體比傳統(tǒng)智能體更有前途，主要因?yàn)槠鋼碛泻Ａ恐R(shí)，不需針對(duì)特定環(huán)境優(yōu)化；強(qiáng)大的指令跟隨能力、工具調(diào)用能力（如代碼生成和信息檢索）也提升了其可行性和應(yīng)用性。什么是智能體？按照現(xiàn)在大家比較認(rèn)可的一些定義來看，智能體需具備以下幾個(gè)能力：一是對(duì)外界環(huán)境的感知能力，無論是文本、多模態(tài)、具身或3D；二是能夠在感知環(huán)境狀態(tài)后進(jìn)行規(guī)劃（Planning）和記憶（Memory像人類一樣思考；三是能基于當(dāng)前環(huán)境和智能體的思考做出有效決策。上圖是現(xiàn)在比較公認(rèn)的免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：44/134一個(gè)類似于人的智能體結(jié)構(gòu)。智能體中一個(gè)關(guān)鍵問題是工具調(diào)用。工具調(diào)用分為兩類：一類是偏向工具的調(diào)用，如信息檢索和外部工具；另一類是直接調(diào)用模型，如生成圖片和執(zhí)行多模態(tài)任務(wù)，包括理解和生成，這需要調(diào)用許多AI模型。ModelScope-Agent開源框架免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：45/134ModelScope-Agent是魔搭社區(qū)開發(fā)的開源框架，適用于單智能體和多智能體的應(yīng)用。ModelScope-Agent有如下特點(diǎn)：n它是一個(gè)可定制且功能全面的框架，提供數(shù)據(jù)集收集、工具檢索與注冊(cè)、存儲(chǔ)處理、定制模型訓(xùn)練和應(yīng)用開發(fā)等功能，可以快速應(yīng)用于實(shí)際場(chǎng)景。n以開源的LLM為核心組件，支持阿里的通義千問以及國內(nèi)外常用的文本或多模態(tài)大模型。n支持多樣化且全面的API開發(fā)。后續(xù)會(huì)介紹一些針對(duì)魔搭開發(fā)的有趣應(yīng)用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：46/134魔搭ModelScope-Agent框架的工作原理是基于開源的LLM進(jìn)行規(guī)劃調(diào)度，調(diào)用對(duì)應(yīng)的API。ModelScope-Agent能執(zhí)行API，并將結(jié)果返回給LLM，最后由LLM做出回復(fù)。比如在魔搭GPT上的一個(gè)案例：寫一個(gè)簡(jiǎn)短的故事并用女聲朗讀。首先用工具檢索與語音相關(guān)的TTS（從文本到語音）工具，再用LLM生成故事，最后用TTS進(jìn)行朗讀。下面具體介紹每一塊的工作。第一步是魔搭ModelScope-Agent注冊(cè)新工具。在實(shí)際應(yīng)用中，我們需要許多工具，包括外部通用工具（如檢索和代碼工具）、自制工具和AI模型。我們提供了一個(gè)工具基類，只需配置工具的描述、參數(shù)和調(diào)用，即可完成新工具的注冊(cè)。第二步是將新注冊(cè)的工具集成到Agent中，使模型具備判斷力，選擇需要調(diào)用的具體工具。上圖中右邊展示了如何用代碼形式完成整個(gè)注冊(cè)工具流程。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：47/134魔搭開源Agent相關(guān)數(shù)據(jù)集有兩個(gè)：一個(gè)是工具調(diào)用數(shù)據(jù)集MSAgent-Bench，MSAgent-MultiRole。后面會(huì)展示我們?yōu)榱奶焓遗渲玫亩嘀悄荏w應(yīng)用。若對(duì)這兩個(gè)數(shù)據(jù)集感興趣，可以在魔搭上下載。ModelScope-AgentApps免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：48/134下面介紹基于ModelScope-Agent能做哪些應(yīng)用。首先要介紹的是魔搭GPT，它是基于ModelScope做大小模型協(xié)同的Agent系統(tǒng)，其中LLM作為規(guī)劃中樞模型，可以調(diào)用多個(gè)小模型作為工具。其次，它能加速大模型的應(yīng)用，自動(dòng)構(gòu)建大小模型協(xié)同鏈路，解決業(yè)務(wù)場(chǎng)景中的問題?；诎⒗镌频乃懔Φ鬃?，大小模型協(xié)同的Agent系統(tǒng)能解決現(xiàn)實(shí)中許多場(chǎng)景的鏈路問題。這是在魔搭GPT上展示的一個(gè)案例：生成一個(gè)24字的微信介紹，并用女生朗讀。在單輪多API調(diào)用中，關(guān)鍵在于工具調(diào)用和Query問題拆解。調(diào)用的模免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：49/134型一種是基于LLM大模型進(jìn)行文案創(chuàng)作；另外需調(diào)用語音生成API，以及調(diào)用視頻生成API，這些模型都是魔搭相關(guān)模型。接下來展示的是多輪多API調(diào)用的應(yīng)用。以大模型為中樞，和用戶多輪對(duì)話，涉及到創(chuàng)作生成和多個(gè)工具的調(diào)用能力。多輪調(diào)用的難點(diǎn)在于需要結(jié)合前一輪的歷史記錄。以上就是我們基于ModelScope-Agent開發(fā)的第一個(gè)應(yīng)用——魔搭GPT，支持單輪或多輪多API調(diào)用。頁碼：50/134魔搭GPT囊括了眾多小模型，包括NLP、語音、圖像、多模態(tài)等能力。它整本地調(diào)用和本地部署模型，同時(shí)支持ModelScopetoken免費(fèi)調(diào)用API。在ModelScope上搭建魔搭GPT非常簡(jiǎn)單。獲取ModelScope代碼并安裝依賴，然后加載需要的文本模型，只需通過魔搭cloneLLM即可；配置config文件，并設(shè)置ModelScope的token和API工具?；贛odelScope-Agent，就能快速搭建魔搭GPT。魔搭GPT的優(yōu)點(diǎn)是能利用魔搭社區(qū)里已有的模型能力，快速開發(fā)有趣的應(yīng)用。魔搭社區(qū)涵蓋了AI各方向模型，如語音、NLP、多模態(tài)、CV等。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：51/134第二個(gè)工作是針對(duì)單智能體開發(fā)的Story-Agent，用于交互式故事繪本創(chuàng)作。這款產(chǎn)品剛剛在世界人工智能大會(huì)上發(fā)布，它可為自閉癥兒童構(gòu)建故事繪本。該系統(tǒng)基于ModelScope-Agent，通過配置不同的Prompt，模型實(shí)現(xiàn)交互式創(chuàng)作，并復(fù)用已有的圖片生成工具。在生成過程中，可以展示圖片和故事應(yīng)用的工具。另一項(xiàng)工作是Facechain-Agent，可以生成個(gè)性化證件照和圖片。這個(gè)過程也可以通過交互式方式進(jìn)行。例如，用戶上傳一張圖片后，可以修改其風(fēng)格，比如想要牛仔風(fēng)，那么魔搭后端的Facechain模型就會(huì)進(jìn)行個(gè)性化的Lora訓(xùn)練。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：52/134還可以通過交互方式修改不同的個(gè)性化生成風(fēng)格，比如將其轉(zhuǎn)變?yōu)楣ぷ黠L(fēng)。上圖中展示了通過交互式方式進(jìn)行個(gè)性化人臉寫真訓(xùn)練和推理的方式。多角色扮演MultiAgent聊天室是基于ModelScope-Agent的另一個(gè)應(yīng)用。和文中介紹的其它應(yīng)用一樣，其Demo都已在魔搭社區(qū)上開放，大家可以去體驗(yàn)和試用。我們搭建的其中一個(gè)多角色扮演是被美女包圍，其中的六個(gè)角色都配置到了不同的Agent。此外，還配置了一個(gè)小米SU7的Agent，大家也可以去試用。設(shè)置每個(gè)角色時(shí)，只需配置其角色profile（如年齡信息、知識(shí)背景）?；谶@個(gè)智能體，我們還有一個(gè)通義星塵的產(chǎn)品，這是一個(gè)個(gè)性化角色扮演平臺(tái)，用戶可以自定義自己感興趣的角色和個(gè)性化助理。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：53/134我們提到的MultiAgent框架實(shí)際上是基于最近的α-UMi協(xié)同框架。這是為了解決單智能體面臨的問題，即當(dāng)操作過于復(fù)雜或工具鏈過長時(shí)，模型的效果會(huì)受到影響。長序列問題無論對(duì)文本大模型還是多模態(tài)大模型來說，都是一個(gè)待解決的問題。因此，我們將其拆解為MultiAgent框架，包含了Planner、Caller和Summarizer等部分。在使用過程中，可以對(duì)每一步進(jìn)行任務(wù)拆解，這是MultiAgent的好處。與單智能體相比，無論效率還是效果，都能得到進(jìn)一步提升。這個(gè)工作已開源，并在魔搭上提供了相關(guān)內(nèi)容。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：54/134前文中提到的故事繪本不僅限于單張圖片的生成，還包括故事繪本的視頻生成。整體框架基于一個(gè)LLM，先生成故事的大綱，再生成每一頁的具體內(nèi)容。完成后，每頁內(nèi)容會(huì)調(diào)用StoryDiffusion，以確保圖片的一致性，這是視頻生成的關(guān)鍵。音效方面，使用AudioLDM生成對(duì)應(yīng)的音效。整個(gè)過程包括為每個(gè)片段生成故事，并通過Filtering和Transform，使其與圖片生成或TTS更加匹配。用戶可以選擇繪本或漫畫的風(fēng)格，針對(duì)不同年齡段（如0-3歲，3-6歲或6歲以上）提供了不同風(fēng)格的繪本，并支持自定義故事主題和人物角色profile。該應(yīng)用也已在魔搭上開源，如果感興趣可以到魔搭上體驗(yàn)故事繪本視頻的生成?，F(xiàn)在生成的效果分為兩個(gè)版本，一個(gè)是偏故事繪本，另一個(gè)是偏漫畫。大家可以到魔搭上親身體驗(yàn)其出色的TTS效果，除了圖片能隨著鏡頭變化并保持一致性外，TTS也是關(guān)鍵。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：55/134最后介紹一下整個(gè)ModelScope-Agent的規(guī)劃。目前視頻生成Demo和ModelScope開源項(xiàng)目，已在Github上開源。未來目標(biāo)是打造最好用的開源文本、語音、視頻合成的內(nèi)容創(chuàng)作Agent。依托通義千問大模型的文本創(chuàng)作，結(jié)合不同場(chǎng)景的智能體，提供了配音、背景音樂、音效等API工具，并且有大量文本到視頻、圖片到視頻的應(yīng)用。在此也希望更多開發(fā)者和使用者加入ModelScope-Agent，探索更有趣的場(chǎng)景，激發(fā)更多創(chuàng)新應(yīng)用。今天的分享就到這里，謝謝大家。問答環(huán)節(jié)時(shí)同步，有時(shí)異步。根據(jù)我的經(jīng)驗(yàn)，依賴大模型進(jìn)行工具調(diào)度決策可能不太可靠，對(duì)用戶而言也很黑盒?？煞窠榻B一下您們?cè)趦?yōu)化這方面的工作，或未來展望，如讓用戶自定義配置工具調(diào)用邏輯，或在平臺(tái)側(cè)進(jìn)行相關(guān)模型優(yōu)化免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：56/134A1：這是一個(gè)很好的問題，要分為幾個(gè)方面。首先大模型的基礎(chǔ)能力提升，您提到的不可控或效果問題，確實(shí)是大模型需要改進(jìn)的地方，包括工具調(diào)用和作為Agent的能力。其次是可控性，目前通過人工交互的方式效果不錯(cuò)。實(shí)際應(yīng)用中，業(yè)務(wù)方反饋需要多種人工交互方式，包括工程或規(guī)則層面，以及通過大模型判斷在何種場(chǎng)景下需要與人工交互。交互獲取一些具體的信息嗎？追A1：是的，大模型本身可以判斷是否需要交互，或者以什么樣的方式進(jìn)行交Q2：Agent是今后發(fā)展的趨勢(shì)，但是現(xiàn)在可能Agent開發(fā)還比較少，可能在各行業(yè)沒那么普及。能說一下您的理解及原因嗎？A2：整體來說，Agent發(fā)展很快。在DataFun的眾多與Agent相關(guān)的主題，說明Agent已在各行各業(yè)中得到應(yīng)用。與以往人為定義好的Pipeline不同，現(xiàn)在的大模型具備一定的規(guī)劃、記憶和反思能力，能實(shí)現(xiàn)一些更加高級(jí)的應(yīng)用?？梢哉fAgent的潛力尚未完全開發(fā)，還有許多有趣的應(yīng)用場(chǎng)景，比如手機(jī)操作智能體。否有較大的改進(jìn)計(jì)劃或方向？追A2：決策只是單Agent，提升Agent還包括多個(gè)方面。首先，基礎(chǔ)模型的長指令跟隨能力是關(guān)鍵，確保Agent能理解并執(zhí)行復(fù)雜指令，從而改善決策和規(guī)劃。其次是工具調(diào)用能力，這也與大模型的基礎(chǔ)能力相關(guān)。模型需要豐富的知免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：57/134識(shí)儲(chǔ)備和強(qiáng)大的長指令跟隨能力，才能準(zhǔn)確調(diào)用用戶指定的工具和指令。雖然GPT-4已經(jīng)取得顯著進(jìn)展，但其他模型仍需努力提升這些核心能力。通過提煉知識(shí)，既能使信息更精煉，也能提高準(zhǔn)確性。在提升大模型準(zhǔn)確率上，您們有沒有結(jié)合知識(shí)圖譜方面的工作，或分享一些心得？追A2：現(xiàn)在很多方案都基于知識(shí)圖譜，比如RAG方案，本質(zhì)上依賴于知識(shí)。此外，操作過程中需要的說明書（如CoT過程）本質(zhì)上也屬于知識(shí)。知識(shí)的問題仍繞不開LLM的基本能力，LLM需要能夠理解并基于這些知識(shí)進(jìn)行推理和規(guī)劃。這兩者相輔相成。RAG工作的目標(biāo)是提供更準(zhǔn)確或更簡(jiǎn)潔的知識(shí)，以便LLM更好地理解。從LLM的角度看，它應(yīng)能夠更好地理解和應(yīng)用更多知識(shí)，二者并不矛盾。我們團(tuán)隊(duì)沒有做與Graph(圖譜)相關(guān)的工作，我們通過加入更多的圖片信息以及更準(zhǔn)確的指令提示來幫助實(shí)現(xiàn)目標(biāo)。Q3：通義模型后面用的是ModelScope-Agent的能力嗎？開始講到有一個(gè)開源數(shù)據(jù)集，與通義的AgentA3：這個(gè)問題有點(diǎn)混淆。通義對(duì)外的API是基礎(chǔ)模型，而ModelScope-Agent是基于LLM開發(fā)Agent，不是基于Agent開發(fā)API。剛剛提到的數(shù)據(jù)集與通義的Agent能力有關(guān)系，開源數(shù)據(jù)集分成兩塊：一個(gè)是評(píng)測(cè)工具調(diào)用的，Agent在有了LLM后，需要評(píng)測(cè)其能力并標(biāo)記特定Query應(yīng)調(diào)用的工具；另一個(gè)是多角色的角色扮演，評(píng)測(cè)在不同場(chǎng)景中的表現(xiàn)。兩個(gè)數(shù)據(jù)集分別用于這兩個(gè)場(chǎng)景，且在魔搭上開源了。Q4：魔搭的ModelScope-Agent和最近流行的可視化工作流配置是否屬免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：58/134于同類產(chǎn)品？可視化配置更容易上手，非開發(fā)人員用起來更簡(jiǎn)單。那么，魔搭的ModelScope-Agent優(yōu)勢(shì)是什么？還是說它們其實(shí)不是同一類型產(chǎn)A4：魔搭整體定位不是一個(gè)產(chǎn)品，而是一個(gè)開源社區(qū)，提供整套的Pipeline和已發(fā)布的代碼，大家可以基于這些進(jìn)行二次開發(fā)和應(yīng)用開發(fā)。①從定位看，魔搭的ModelScope-Agent不是產(chǎn)品或應(yīng)用，而是圍繞魔搭社區(qū)，致力于建立一個(gè)中文開源社區(qū)。②我們整體是基于開源框架，而不是可視化界面。我們內(nèi)部討論過這個(gè)問題，可能還是定位不同。基于Flow的工作流方式是提供更可用的工具，而魔搭是建立一個(gè)吸引更多開發(fā)者參與的開源社區(qū)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：59/134騰訊音樂在音質(zhì)AIGC的應(yīng)用與實(shí)踐導(dǎo)讀：本次分享內(nèi)容為騰訊音樂天琴實(shí)驗(yàn)室在音質(zhì)AIGC方面的應(yīng)用與實(shí)踐。主要包括以下幾大部分：1.背景介紹2.音樂分離3.音樂超分4.臻品母帶5.問答環(huán)節(jié)分享嘉賓｜何禮騰訊音樂高級(jí)研究員編輯整理｜張少華內(nèi)容校對(duì)｜李瑤出品社區(qū)｜DataFun背景介紹QQ音樂在12.0時(shí)，完善了音樂音質(zhì)音效體系。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：60/134AppleMusic的立體聲空間音頻。此外，還成為了國內(nèi)首家引入杜比全景聲的音樂流媒體平臺(tái)。AIGC的應(yīng)用主要聚焦在用戶聽歌“聽得舒心”的場(chǎng)景。QQ音樂多年來一直致力于音質(zhì)的優(yōu)化，包括算法、檢測(cè)、標(biāo)準(zhǔn)制定、客戶端的播放等各個(gè)方面。音樂AIGC的主要場(chǎng)景包括音樂分離、音樂超分和臻品母帶。接下來分別進(jìn)行介紹。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：61/134音樂分離音樂分離是音樂領(lǐng)域的一個(gè)主流的研究方向。從早期18年的語音分離技術(shù)Conv-TasNet、20年的PG頻域Spleeter，到21年字節(jié)提出的ResUNetDecouple+，用更深的網(wǎng)絡(luò)進(jìn)行人聲分離，再到22年Meta提出的HybridDemucs成為MDX2021的冠軍。2023年QQ音樂與AIlab合作推出了一個(gè)子帶分離模型BSRNN，其基本原理包括兩個(gè)方面，首先是對(duì)整個(gè)信號(hào)的一個(gè)頻域進(jìn)行子帶的切分，切分之后從時(shí)域幀間序列建模，再對(duì)頻域子帶進(jìn)行序列建模。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：62/134preprintarXiv:2209.15174,2這里的核心思想是音樂信號(hào)除了在時(shí)間上存在著很強(qiáng)的相互關(guān)系，同時(shí)在頻域上也存在著很強(qiáng)的關(guān)系，BSRNN從音樂信號(hào)的本質(zhì)考慮分離任務(wù)，相比于之前直接用更深的網(wǎng)絡(luò)，或者從CV等其他領(lǐng)域去遷移到音頻領(lǐng)域的方式，對(duì)音樂領(lǐng)域可能具有更強(qiáng)的適配性。音樂分離技術(shù)的第一個(gè)應(yīng)用場(chǎng)景是臻品全景聲，其基本原理是參考杜比全景聲的免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：63/134制作流程，將音樂分離出多個(gè)軌道信號(hào)，再利用全景聲的空間混音技術(shù)，獲得有空間感的臻品全景聲。另外一些應(yīng)用場(chǎng)景包括，TME聚星平臺(tái)、TMEStudio和啟明星，直接面向用戶提供音樂分離服務(wù)，包括聲伴分離，6軌分離，大家可以到官網(wǎng)體驗(yàn)。除了在QQ音樂上應(yīng)用音樂分離，在全民K歌上也有很多應(yīng)用場(chǎng)景，比如全民K歌臨境音效，作為VIP用戶的核心權(quán)益，用戶可以DIY音效，在分離之后，用戶可以根據(jù)自己的喜好去設(shè)置樂器的不同擺放方位，獲得實(shí)時(shí)空間感的體驗(yàn)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：64/134此外，音樂分離還可以用于全民K歌五維打分模板的制作，以及全民K歌伴奏庫，幫助實(shí)現(xiàn)伴奏分離，補(bǔ)充全民K歌伴奏庫。另外，音樂分離還應(yīng)用在懶人聽書，比如長音頻消伴場(chǎng)景。因?yàn)橛行╅L音頻，會(huì)存在背景音樂或噪聲，而用戶可能只關(guān)注于內(nèi)容本身，這時(shí)可以通過干聲分離技術(shù)為用戶提供純凈版的音頻，也就是更優(yōu)質(zhì)的音質(zhì)選項(xiàng)。音樂分離技術(shù)還應(yīng)用到了AIGC-X，通過干聲分離將歌曲人聲分離出來，然后通過模型去判斷這個(gè)人聲是否是AI生成的。另一應(yīng)用場(chǎng)景是啟明星音色試唱，通過聲伴分離，干聲音色轉(zhuǎn)換，再與伴奏mix，生成一個(gè)新的試聽Demo。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：65/134音樂分離還會(huì)用在低頻公益，這是專門針對(duì)聽障人士的歌曲增強(qiáng)與補(bǔ)償。還會(huì)有一些ToB的應(yīng)用場(chǎng)景。整體來講，BSRNN技術(shù)的基本原理是基于頻域切分子帶的思路，切分后對(duì)時(shí)域和頻域進(jìn)行序列建模，從而更加適用于音樂任務(wù)。分離業(yè)務(wù)包括三類，一類是作為一個(gè)子模塊支持各個(gè)業(yè)務(wù)，另一類是ToC的應(yīng)用，直接提供給用戶，最后一類是一些ToB的商務(wù)合作。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：66/134音樂超分音樂超分主要應(yīng)用在臻品音質(zhì)2.0，可以在端上對(duì)CD或者M(jìn)P3的品質(zhì)進(jìn)行實(shí)時(shí)處理，能夠達(dá)到96kHz/24bit的Hi-Res音質(zhì)。臻品母帶接下來介紹行業(yè)首創(chuàng)的一個(gè)功能，臻品母帶。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：67/134什么是母帶？回顧歌曲的整個(gè)制作流程，歌曲創(chuàng)作的時(shí)候包括作曲、編曲，在錄制和混音之后，形成最終的母帶，通常在流媒體下發(fā)的時(shí)候，會(huì)編碼成各種不同的碼率進(jìn)行流媒體播放。母帶可以認(rèn)為是最原始的一個(gè)音質(zhì)品質(zhì)，通常至少會(huì)有192kHz/24bit。SQ品質(zhì)，標(biāo)準(zhǔn)可能最高會(huì)達(dá)到48kHz/24bit。實(shí)際上從右下圖不同品質(zhì)的頻響曲線可以看到，通過一些有損或無損編碼，SQ跟母帶主要差異集中在一些高頻的部分，低頻部分實(shí)際上是一致的。對(duì)于有損編碼，主要涉及到MP3這類的編碼方式，通常為了極限的壓縮空間，除了高頻與母帶有差異，它的低頻可能會(huì)有一些丟失，因?yàn)樗鼘?duì)體系要求會(huì)更高一些。因此這里的母帶可能需要對(duì)低頻進(jìn)行修復(fù)，對(duì)高頻進(jìn)行還原。QQ音樂臻品母帶功能，實(shí)現(xiàn)了統(tǒng)一進(jìn)行低頻修復(fù)和高頻還原，實(shí)現(xiàn)了更佳的優(yōu)化效果，同時(shí)大幅減少了推理耗時(shí)，降低了計(jì)算成本。頁碼：68/134最新的臻品母帶2.0版本于2023年7月上線之后，業(yè)務(wù)指標(biāo)有了明顯的增總結(jié)一下這一部分的內(nèi)容，首先，母帶是一個(gè)歌曲制作完成后的最初版本，它的格式能達(dá)到192kHz/24bit。端側(cè)模型，與1.0相比，2.0采用了統(tǒng)一的模型進(jìn)行低頻修復(fù)和高頻還原，主客觀指標(biāo)和推理耗時(shí)顯著優(yōu)于1.0。在業(yè)務(wù)上線之后，PU、UV、人均時(shí)長等指標(biāo)，以及口碑都有著比較明顯的提升。以上就是本次分享的內(nèi)容，謝謝大家。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：69/134問答環(huán)節(jié)Q：可以分離一段音頻的不同人聲嗎？A：不同人聲可能有兩種情況，一種是類似于合唱的情況，另一種是和聲。合唱是A和B都會(huì)唱。和聲的情況更常見，一般歌曲都有和聲。QQ音樂是可以將和聲分離出來的。頁碼：70/134AIGC技術(shù)：如何用人工智能革新營銷素材創(chuàng)作？導(dǎo)讀：本文將分享數(shù)禾科技在AIGC輔助營銷素材生成方面的工作。主要包括以下五大部分：1.背景介紹2.面臨挑戰(zhàn)3.解決思路4.未來展望分享嘉賓｜周偉鵬上海數(shù)禾信息科技有限公司算法專家編輯整理｜王麗燕內(nèi)容校對(duì)｜李瑤出品社區(qū)｜DataFun背景介紹免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：71/134數(shù)禾科技是一家互聯(lián)網(wǎng)金融科技公司，廣告營銷投放渠道主要依賴各大社交媒體，比如騰訊微信朋友圈、抖音信息流，或者公眾號(hào)中視頻和圖片的版位。上圖是投放的素材樣例，左圖是圖片的素材樣例，大多會(huì)投在公眾號(hào)文章中間的位置，右圖是日常在投的動(dòng)畫類的視頻素材的樣例。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：72/134面臨挑戰(zhàn)接下來介紹在上述營銷場(chǎng)景中面臨的挑戰(zhàn)。在騰訊微信朋友圈、抖音、百度、快手等眾多投放渠道中，每個(gè)月單渠道投放的視頻素材量會(huì)超過5000條，即每天需要產(chǎn)出170多條視頻素材去做投放；同時(shí)圖片會(huì)有7000多條，大多投放在朋友圈或者公眾號(hào)，并不是所有渠道都會(huì)有。這就帶來了一些問題，首先是如何產(chǎn)出足夠數(shù)量的素材，另一方面是當(dāng)素材多了之后，媒體方會(huì)對(duì)素材有一些要求，比如新鮮度足夠高、不能過多地重復(fù)、能夠吸引人，因?yàn)槊襟w側(cè)平臺(tái)不希望自身平臺(tái)是一個(gè)純廣告分發(fā)平臺(tái)，這樣就會(huì)失去對(duì)用戶的吸引力。所以素材如何能夠在足夠數(shù)量的情況下，又保證質(zhì)量過關(guān)，是我們主要面臨的挑戰(zhàn)。解決思路接下來從圖片素材和視頻素材兩個(gè)方面來分別介紹我們的解決方案。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：73/1341.圖片素材針對(duì)圖片素材的處理相對(duì)比較簡(jiǎn)單，上圖是兩個(gè)圖片素材樣例，會(huì)有文案或者其他一些固定存在的元素，比如logo、警示語等。AIGC能做的主要是生成文案和圖片。圖片元素像左邊素材中間點(diǎn)綴型的logo，可以通過AIGC的方式去生成，并且不斷地變化。右圖這一類版式素材，主要是背景生成，系統(tǒng)流程示意圖如下：在系統(tǒng)里，素材生成部分的輸入是提示詞，提示詞來源于負(fù)責(zé)素材生成的人和定頁碼：74/134期調(diào)度的產(chǎn)出提示詞的任務(wù)，輸入提示詞后由大模型去做優(yōu)化，優(yōu)化后進(jìn)入模型產(chǎn)出一張?jiān)紙D片，然后把原始圖片通過U2-Net摳圖模型，將圖片變成一個(gè)圖標(biāo)，再把圖標(biāo)放到對(duì)應(yīng)的素材上面。如果是背景，最開始會(huì)設(shè)置好各種尺寸。這類素材我們做了幾十個(gè)不同的圖片的版式，并沒有完全由AIGC來生成，中間會(huì)有各個(gè)文案、圖標(biāo)、背景的流控，每一類的版式在生成的時(shí)候都會(huì)去調(diào)對(duì)應(yīng)的AIGC素材生成服務(wù)，比如文案，信用分，圖標(biāo)或者背景等，由AIGC模型生成并做一些后處理，應(yīng)用到不同的模板上。2.視頻素材免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：75/134視頻是流量最大的一部分素材，包括動(dòng)畫類、街頭采訪類、單人口播類和情景劇類，我們針對(duì)每一類采用不同的方案去逐個(gè)做解決。（1）動(dòng)畫上圖是對(duì)動(dòng)畫類的視頻抽幀、拆解后的示意圖，基本上我們?cè)谕兜拇蟛糠值囊曨l都可以拆解為4段：前貼、中段、后段和尾幀，每一段關(guān)注點(diǎn)不一樣。前貼更多展示的是容易吸睛的部分，比如熱點(diǎn)視頻、獵奇類的圖片，或其他容易吸引人看下去的內(nèi)容；中段主要的作用是直接地表達(dá)廣告主題；后段以引導(dǎo)為主，更多免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：76/134地是給用戶一些更直觀的刺激，引導(dǎo)用戶去做對(duì)應(yīng)的動(dòng)作；尾幀是一個(gè)固定的部分，會(huì)有一些做好的文案、提醒和類似品牌廣告類的內(nèi)容。①前貼前貼的目標(biāo)是吸睛，是AIGC能夠發(fā)揮比較大價(jià)值的地方。前貼制作流程是從提示詞開始，由大模型做簡(jiǎn)單的提示詞優(yōu)化之后，進(jìn)到SD模型產(chǎn)出初版原始圖片，然后根據(jù)不同的業(yè)務(wù)場(chǎng)景加上不同的蒙版，蒙版是比如把它加到微信朋友圈，或轉(zhuǎn)賬界面、聊天記錄的背景，最后再加上各種動(dòng)效，就變成了前貼的片段。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：77/134上圖是系統(tǒng)里SD模型生成的原始圖片截圖，我們內(nèi)部素材使用者可以去圈選想要的質(zhì)量高且符合投放場(chǎng)景的圖片。上圖是一些蒙版的示例，現(xiàn)金交易的場(chǎng)景會(huì)比較多，比如結(jié)賬、日常轉(zhuǎn)賬、借款等場(chǎng)景的蒙版，對(duì)目標(biāo)用戶可能會(huì)更有吸引力。②中后段中后段部分放在一起處理，雖然各自負(fù)責(zé)內(nèi)容不太一樣，但表現(xiàn)形式差不多。核心點(diǎn)在于布局，要把最高額度、優(yōu)惠條件和其他轉(zhuǎn)化引導(dǎo)的內(nèi)容加上去。但是中后段內(nèi)容又不能都很一致，不然會(huì)影響到在媒體側(cè)的投放。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：78/134我們使用LayoutDM模型去做布局生成，根據(jù)我們要用到的文案的內(nèi)容，生成圖標(biāo)的大小尺寸，以及不同的關(guān)注點(diǎn)去做布局，每個(gè)前段、中段和后段可能展示的利益點(diǎn)不同，有的可能關(guān)注利率，有的關(guān)注額度、免息等等，文案內(nèi)容長短和整體的占位也不一樣，所以我們圍繞這些去生成很多布局格式，根據(jù)生成的布局，最終生成中后段內(nèi)容。LayoutDM布局模型在生成的美感上會(huì)有一些不適合，因此我們對(duì)模型單獨(dú)做了一些定制，在此不做展開介紹。上圖示例是最后生成的中后段的效果圖，這里面的文案基本不會(huì)用大模型生成，免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：79/134因?yàn)檫@一行業(yè)的文案很重要，基本上都是由運(yùn)營同學(xué)審核過的確保沒問題的幾類文案或者不同的幾種表述形式，存在庫中供選擇。圖標(biāo)之類的會(huì)由AIGC模型生成，最后再加一些特效組成最終的視頻。（2）真人街坊這部分目前還沒有特別好地應(yīng)用AIGC，當(dāng)前主要采用混剪的形式，涉及到的算法并不多，主要涉及到場(chǎng)景的識(shí)別，把所有采訪類的素材，按照不同的場(chǎng)景做拆分，最后拼接時(shí)有一個(gè)素材選擇的模型，把在語義上比較相近的素材篩選出來，最后拼接成一整段采訪素材。采訪素材前貼有一部分是由AIGC生成，也有一部分是從線上跑量素材的前貼中篩選出來，最后生成一個(gè)完整的混剪素材。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼：80/134口播目前都是采用數(shù)字人的方案，基本的流程圖如上圖所示，先由代理產(chǎn)生口播稿，再通過TTS模型生成音頻，最后通過定制的數(shù)字形象口播出來。我們采用SyncTalk模型,它是基于NeRF的數(shù)字人生成模型,由它來生成一段數(shù)字人口播的視頻，再給這段視頻做一些后處理，

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生成式AI與AI Agent 技術(shù)：革新與實(shí)踐指南

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔