生成式AI與AI Agent 技術(shù):革新與實(shí)踐指南_第1頁
生成式AI與AI Agent 技術(shù):革新與實(shí)踐指南_第2頁
生成式AI與AI Agent 技術(shù):革新與實(shí)踐指南_第3頁
生成式AI與AI Agent 技術(shù):革新與實(shí)踐指南_第4頁
生成式AI與AI Agent 技術(shù):革新與實(shí)踐指南_第5頁
已閱讀5頁,還剩203頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

掃碼關(guān)注公眾號(hào)頁碼:掃碼關(guān)注公眾號(hào)頁碼:1/134免費(fèi)下載資料免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:1/134AIGC在螞蟻保保險(xiǎn)領(lǐng)域的應(yīng)用探索 2甘啟-Soul基于AIGC的實(shí)踐與探索 9實(shí)時(shí)語音交互的游戲隊(duì)友——網(wǎng)易伏羲AIAgent創(chuàng)新應(yīng)用 28開源框架ModelScope-Agent加速多智能體應(yīng)用構(gòu)建 42騰訊音樂在音質(zhì)AIGC的應(yīng)用與實(shí)踐 AIGC技術(shù):如何用人工智能革新營銷素材創(chuàng)作? 小米公司Con2024-Agent技術(shù)在語音助手場(chǎng)景中的應(yīng)用 85AIAgent在1688電商平臺(tái)中的應(yīng)用 頁碼:2/134AIGC在螞蟻保保險(xiǎn)領(lǐng)域的應(yīng)用探索導(dǎo)讀:隨著人工智能技術(shù)的快速發(fā)展,保險(xiǎn)行業(yè)的營銷模式也在逐步升級(jí)。螞蟻保保險(xiǎn)營銷增長算法組利用AIGC(人工智能生成內(nèi)容)技術(shù),為保險(xiǎn)營銷帶來了顯著的變革。通過生成個(gè)性化的保險(xiǎn)營銷素材、自動(dòng)化的內(nèi)容推薦、以及多種視頻生成方式,AIGC不僅提升了營銷效率,還增強(qiáng)了用戶與保險(xiǎn)產(chǎn)品之間的互動(dòng)體驗(yàn)。本文將介紹AIGC在螞蟻保的應(yīng)用實(shí)踐。文章將圍繞下面三點(diǎn)展開:1.背景介紹2.整體解決思路3.未來展望分享嘉賓|徐哲軒螞蟻集團(tuán)高級(jí)算法專家編輯整理|陳思永內(nèi)容校對(duì)|李瑤出品社區(qū)|DataFun背景介紹隨著保險(xiǎn)行業(yè)的數(shù)字化轉(zhuǎn)型和用戶需求的個(gè)性化發(fā)展,傳統(tǒng)的保險(xiǎn)營銷方式逐漸顯現(xiàn)出其局限性。無論是營銷素材的制作、保險(xiǎn)產(chǎn)品的推薦,還是復(fù)雜保險(xiǎn)條款免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:3/134的解讀,手動(dòng)操作和經(jīng)驗(yàn)判斷都難以在大規(guī)模的市場(chǎng)中有效滿足不同客戶的需求。與此同時(shí),消費(fèi)者的行為和偏好也變得更加多樣化,單一的營銷手段難以觸及每一個(gè)目標(biāo)客戶?;诖?,螞蟻保保險(xiǎn)營銷增長算法組(以下簡(jiǎn)稱“算法組”)著眼于通過人工智能生成內(nèi)容(AIGC)技術(shù),打造出一個(gè)自動(dòng)化、智能化且高度個(gè)性化的保險(xiǎn)營銷生態(tài)系統(tǒng)。螞蟻保營銷素材主要分為兩大類,一類是螞蟻保陣地中的營銷大卡以及一些短文案,如貨架中展示的推薦理由等,這些都是由AIGC生成的,與具體產(chǎn)品掛鉤的內(nèi)容;另一類是支付寶域內(nèi)的熱點(diǎn)相關(guān)內(nèi)容,如大V熱點(diǎn)資訊、熱點(diǎn)事件短視頻等,為螞蟻保做引流。接下來將介紹我們?nèi)绾卧诒kU(xiǎn)領(lǐng)域利用AIGC生成貼合業(yè)務(wù)的長短文案和視頻劇本。整體解決方案1.專業(yè)化&個(gè)性化的GC能力前文中提到,一類素材是與產(chǎn)品相關(guān)的介紹,我們希望為不同用戶展示不同類型的產(chǎn)品介紹。例如,同樣一款醫(yī)療險(xiǎn),其保障范圍、保障責(zé)任、免賠額等保險(xiǎn)條款會(huì)非常復(fù)雜,而不同用戶的關(guān)注點(diǎn)可能是不一樣的,只有在一開始就為用戶展示其感興趣的內(nèi)容才能吸引用戶做進(jìn)一步操作,并且在不同場(chǎng)景也需要不同的表達(dá)形式。因此,我們需要個(gè)性化的GC能力,使每位用戶都能得到專屬的保險(xiǎn)產(chǎn)品推薦,從而提高轉(zhuǎn)化率與客戶粘性。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:4/134另外,在保險(xiǎn)行業(yè)中,內(nèi)容的準(zhǔn)確性至關(guān)重要,因此對(duì)文案的專業(yè)化要求也非常基于專業(yè)化和個(gè)性化這兩大訴求,我們整體的解決思路如下圖所示。首先,確定一個(gè)具體的場(chǎng)景,如卡片類型的場(chǎng)景或推薦理由場(chǎng)景,確定了場(chǎng)景也就確定了生產(chǎn)的模版和規(guī)范,比如文案的長度、包含哪些信息等等。除了場(chǎng)景之外,還會(huì)輸入產(chǎn)品信息,以及風(fēng)格,這樣就可以開始具體的創(chuàng)意生成了。生成時(shí),先從預(yù)先生成的人群中拉取用戶標(biāo)簽,比如當(dāng)前人群的核心關(guān)注點(diǎn)是什么,是更高的保額,還是更全面的保障范圍。接著,在保險(xiǎn)產(chǎn)品論據(jù)庫中匹配專業(yè)的保險(xiǎn)知識(shí),進(jìn)行第一層的需求推理。比如對(duì)于【品質(zhì)生活的有娃父母】,看重全面的保障范圍,那么就會(huì)看某款產(chǎn)品是否門診可賠,這樣根據(jù)產(chǎn)品和需求確定具體匹配到哪些論據(jù)。除了專業(yè)的保險(xiǎn)知識(shí),也會(huì)考慮是否有對(duì)應(yīng)的熱點(diǎn)事件可以匹配。比如在肺炎高發(fā)期,對(duì)兒童相關(guān)保險(xiǎn)的需求就會(huì)加強(qiáng)。基于這些人群畫像、保險(xiǎn)需求、專業(yè)的產(chǎn)品知識(shí)和匹配的熱點(diǎn),就可以生成相應(yīng)的文案。之后業(yè)務(wù)團(tuán)隊(duì)就可以根據(jù)生成的結(jié)果進(jìn)行篩選或編輯,也可以通過交互免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:5/134式界面對(duì)某一部分提出進(jìn)一步修改的需求。最終得到所需的素材。2.個(gè)性化文案生產(chǎn)過程中的關(guān)鍵步驟前面介紹了個(gè)性化文案生產(chǎn)的整體邏輯,這里重點(diǎn)介紹其中的幾個(gè)關(guān)鍵步驟:n質(zhì)量評(píng)估:為做到專業(yè)性,需要通過質(zhì)量監(jiān)控來保證產(chǎn)出素材內(nèi)容的準(zhǔn)確。同時(shí),基于保險(xiǎn)營銷的強(qiáng)合規(guī)性要求,我們結(jié)合合規(guī)大模型、安全合規(guī)巡檢功能以及線上人工復(fù)檢等多項(xiàng)措施,保證線上素材的合規(guī)性,同時(shí)生產(chǎn)內(nèi)容可以做到全程溯源,實(shí)時(shí)審查。n線上汰換:大規(guī)模的素材生成中不可避免的會(huì)有一些效果不理想的文案生成,因此需要一個(gè)汰換機(jī)制,篩選出效果好的文案,并不斷優(yōu)化匹配過程。n效果回收:同時(shí),對(duì)效果進(jìn)行回收,以豐富和優(yōu)化論據(jù)庫,進(jìn)而為需求推理提供更好的依據(jù)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:6/134上圖中展示了一個(gè)用戶需求推理過程的例子,首先從論據(jù)庫取到產(chǎn)品的結(jié)構(gòu)化信息,生成產(chǎn)品賣點(diǎn)描述;接著根據(jù)人群、人群描述、投保對(duì)象和產(chǎn)品賣點(diǎn)描述進(jìn)行推理。營銷除了要提高承接的效率,還有提高引流的能力,做到更好的用戶觸達(dá),因此我們會(huì)關(guān)注社會(huì)上保險(xiǎn)相關(guān)的熱點(diǎn)事件,并進(jìn)行加工,投放到不同的場(chǎng)景中。熱點(diǎn)素材生成的過程為:頁碼:7/134CoT+Prompt的方式,對(duì)事件進(jìn)行結(jié)構(gòu)化的打標(biāo)歸類。n接著基于結(jié)構(gòu)化的事件進(jìn)行素材的生成,這一過程中利用RAG+保險(xiǎn)知識(shí)增強(qiáng)來保證專業(yè)性和準(zhǔn)確性,生成的素材包括事件改寫、長圖文介紹、熱點(diǎn)視頻等形式。例如,對(duì)“探尋古萊塢”這一事件,會(huì)結(jié)合文化、旅游和如何挑選旅游保險(xiǎn),改寫為一篇既包括新聞?dòng)职糜伪kU(xiǎn)信息的文案。n素材生成后,還有非常重要的一步就是質(zhì)檢和合規(guī)審查,以確保內(nèi)容的合規(guī)性和準(zhǔn)確性。這就要求一套標(biāo)準(zhǔn)體系以及一個(gè)專門的標(biāo)注和審核團(tuán)隊(duì),來保證最終營銷內(nèi)容的質(zhì)量和安全。未來展望隨著大模型技術(shù)的進(jìn)一步發(fā)展,未來將實(shí)現(xiàn)更加普惠的保險(xiǎn)服務(wù)。利用大模型的認(rèn)知,壓縮保險(xiǎn)、醫(yī)療投資等知識(shí),可以提供比人類更為豐富且專免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:8/134業(yè)的保險(xiǎn)相關(guān)知識(shí);依靠大模型強(qiáng)大的推理能力,能夠解決更為復(fù)雜的決策問題;結(jié)合大模型強(qiáng)大的自然語言交互能力,能夠提供更為嚴(yán)謹(jǐn)、專業(yè)且個(gè)性化的溝通,提高服務(wù)水平,提升用戶體驗(yàn)。AIGC不僅能夠提升內(nèi)容生成的效率與質(zhì)量,還會(huì)進(jìn)一步推動(dòng)保險(xiǎn)產(chǎn)品的創(chuàng)新。未來,AIGC將在保險(xiǎn)領(lǐng)域得到更加廣泛與深入的應(yīng)用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:9/134甘啟-Soul基于AIGC的實(shí)踐與探索導(dǎo)讀:本文將分享近年來Soul基于AIGC的一些實(shí)踐與探索。主要內(nèi)容包括以下五大部分:1.AIGC新浪潮發(fā)展2.Soul的AIGC實(shí)踐與探索3.AIGC技術(shù)結(jié)合產(chǎn)品4.AIGC通用VS自研5.問答環(huán)節(jié)分享嘉賓|甘啟上海任意門科技(Soul)視覺算法負(fù)責(zé)人編輯整理|凌奕春內(nèi)容校對(duì)|李瑤出品社區(qū)|DataFunAIGC新浪潮發(fā)展首先來回顧一下近年來AIGC領(lǐng)域的發(fā)展歷程。自2022年底OpenAI推出ChatGPT以來,不斷有新的大語言模型面世,多模態(tài)能力也日漸成熟。無論是開源還是閉源,在應(yīng)用層面都涌現(xiàn)出大量的創(chuàng)新。視覺領(lǐng)域的進(jìn)步甚至更早,從2022年初的擴(kuò)散模型開始至今,圖像生成技術(shù)取得了顯著的進(jìn)展。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:10/134從DALL-E2、StableDiffusion到Midjourney,再到谷歌發(fā)布的與圖像相關(guān)的工作,我們見證了圖像生成技術(shù)從早期的革新到如今的成熟。而在過去的兩三年中,我們也目睹了從圖像生成到視頻生成的轉(zhuǎn)變,例如Pika等工作以及與SVD相關(guān)的研究。尤其是在今年年初,OpenAI再次發(fā)布了引人矚目的Sora,這進(jìn)一步推動(dòng)了視覺領(lǐng)域的發(fā)展。就像當(dāng)初ChatGPT出現(xiàn)時(shí)一樣,Sora的出現(xiàn)也許代表著一場(chǎng)新的技術(shù)革命,盡管它目前仍面臨成本高昂等諸多挑戰(zhàn)。除了技術(shù)上的突破,我們也注意到在應(yīng)用方面的不斷探索,如GPTs,以及在圖像、文本、視頻、代碼、聲音等領(lǐng)域涌現(xiàn)出的一些初創(chuàng)公司和獨(dú)角獸企業(yè)。這樣的大環(huán)境下,為從業(yè)者提供了巨大的機(jī)遇和豐富的探索空間。接下來就將分享Soul在這一浪潮下所做的一些實(shí)踐和探索。Soul的AIGC實(shí)踐與探索首先,介紹一下Soul是什么。Soul是一個(gè)面向年輕人,旨在建立社交連接的APP。其中最核心的兩個(gè)關(guān)鍵詞是“社交”和“年輕人”。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:11/134Soul的用戶主要是95后和00后這些Z時(shí)代的年輕人,因此我們?cè)谀贻p人領(lǐng)域投入了更多的關(guān)注和資源,在產(chǎn)品設(shè)計(jì)上也更傾向于符合他們的需求和偏好。Soul的社交模式不僅僅基于顏值,而是更加偏向于“靈魂”的連接。這體現(xiàn)在我們的功能設(shè)計(jì)上。上圖中最上面一排就是Soul應(yīng)用中的主要功能模塊,包括私聊消息、瞬間廣場(chǎng)、視頻匹配、語音匹配、Soul拍相機(jī)以及群聊廣場(chǎng)等。用戶可以與匹配到的用戶進(jìn)行私聊,也可以將自己的生活日常發(fā)布到廣場(chǎng)上與他人分享。此外,用戶還可以通過視頻匹配和語音匹配與其他用戶進(jìn)行互動(dòng)。在群聊廣免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:12/134場(chǎng)中,用戶可以根據(jù)不同的主題來選擇與自己興趣相符的群聊。左下角是一些臨時(shí)的運(yùn)營活動(dòng),涵蓋各種主題并與不同的節(jié)點(diǎn)結(jié)合。此外,Soul還設(shè)有一個(gè)名為“星球?qū)嶒?yàn)室”的模塊,旨在讓用戶體驗(yàn)新功能并收集反饋。在這里,用戶可以嘗試一些與Soul最新AI能力相關(guān)的應(yīng)用,例如“懶人KTV”和“異世界”等。基于Soul的背景和當(dāng)前AIGC的發(fā)展趨勢(shì),我們提出了一個(gè)新的增長引擎:通過虛擬人設(shè)提供即時(shí)交流和互動(dòng)體驗(yàn)。我們的目標(biāo)是打造一個(gè)AINative的社交網(wǎng)絡(luò),特別是面向年輕用戶,因?yàn)樗麄儗?duì)新技術(shù)的接受度更高。實(shí)際上,早在這波浪潮之前,從2020年開始,我們就已經(jīng)在AI領(lǐng)域進(jìn)行了一些嘗試。過去的應(yīng)用與實(shí)踐,多是基于AI的單點(diǎn)能力,而現(xiàn)在更多是基于大模型和AIGC的能力。兩年前,我們提出了一份技術(shù)圖譜,雖然已經(jīng)過去了一段時(shí)間,但它仍然具有參考價(jià)值。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:13/134當(dāng)時(shí)元宇宙的概念很火,我們希望構(gòu)建一個(gè)真人和虛擬人共存的社交平臺(tái)。整體思路是從下到上,越靠下是越表層的形象和驅(qū)動(dòng)等技術(shù),而越往上則是更核心、更靈魂層面的創(chuàng)作工作。例如,我們致力于AI配樂、智能對(duì)話、AI作畫等功能的開發(fā),并希望將這些能力結(jié)合起來,使虛擬人能夠像真人一樣完成各種社交需求。接下來,從四個(gè)方向介紹Soul從20年開始到現(xiàn)在的技術(shù)儲(chǔ)備和能力落地情況。1.虛擬人首先介紹虛擬人。我們?cè)?020年底構(gòu)建了一個(gè)端側(cè)的渲染引擎,能夠進(jìn)行基礎(chǔ)的渲染工作。2021年,發(fā)布了這款渲染引擎并在一些場(chǎng)景中應(yīng)用。在隨后的第二版中,增加了全身形象,用戶可以自定義并在多人場(chǎng)景中使用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:14/134我們還引入了虛擬空間的概念,將AI的多模態(tài)能力與虛擬形象結(jié)合。例如,通過AR生成衣服紋理,驅(qū)動(dòng)虛擬人物進(jìn)行視頻、語音和文本驅(qū)動(dòng)的互動(dòng)。如上圖中右上角跳舞的小人,通過文本生成跳舞動(dòng)作文件,并驅(qū)動(dòng)虛擬形象進(jìn)行動(dòng)作。同時(shí),我們還在進(jìn)行內(nèi)部資產(chǎn)的開發(fā),作為一個(gè)自研引擎,可能會(huì)有一些格式不兼容的情況。因此,我們致力于使內(nèi)部資產(chǎn)與商業(yè)引擎(如Unity和UE)兼容。這樣做是為了構(gòu)建更真實(shí)的虛擬人形象,與之前更偏向卡通風(fēng)格的形象有所區(qū)別。如圖右下角的內(nèi)容展示了我們目前正在研發(fā)的工作,我們希望通過端云結(jié)合的方式實(shí)現(xiàn)更真實(shí)的渲染。特別介紹的一點(diǎn)是,在給外表是真實(shí)向的虛擬人的智能體賦能方面,我們?cè)谄浔澈筇峁┝舜笳Z言模型和語音合成模型的能力。此外它還可以通過動(dòng)作驅(qū)動(dòng)和圖像生成模型進(jìn)行一些朋友圈相關(guān)的工作。你可以與它進(jìn)行對(duì)話并產(chǎn)生互動(dòng),它也會(huì)給予你一些反饋。2.視覺視覺領(lǐng)域方面,早期我們建立了一些實(shí)時(shí)的識(shí)別能力,包括人臉識(shí)別、手勢(shì)識(shí)別免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:15/134以及一些寵物相關(guān)的工作。到了2021年,我們開始基于GAN進(jìn)行圖像生成,并在2022年12月率先將AI繪畫能力應(yīng)用到了站內(nèi)活動(dòng)中。從2023年到現(xiàn)在,主要在構(gòu)建自有的模型矩陣,結(jié)合用戶喜好的風(fēng)格,為用戶提供不同的畫風(fēng)選擇,并嘗試不同的內(nèi)容發(fā)布和社交玩法。同時(shí),在2023年我們開始探索視頻生成和視頻轉(zhuǎn)繪的基礎(chǔ)工作,包括SVD轉(zhuǎn)場(chǎng)視頻。并且開放了UGC模型,用戶可以上傳照片或視頻,我們將幫助用戶訓(xùn)練自己的圖像生成模型,從而生成各種圖像和視頻。目前,我們還在進(jìn)行一些技術(shù)儲(chǔ)備工作,探索類似Sora的技術(shù)方向,希望在某個(gè)垂直領(lǐng)域做出更多的創(chuàng)新。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:16/1343.對(duì)話&大模型發(fā)展除了視覺領(lǐng)域的工作,我們還在進(jìn)行智能對(duì)話和多模態(tài)結(jié)合的探索。我們?cè)诘讓蛹夹g(shù)方面有著豐富的能力,特別是在前處理、生成和推理優(yōu)化方面。前處理階段結(jié)合了傳統(tǒng)的人臉檢測(cè)、人臉分割等模型,以提取有用的屬性并為圖像生成模型提供輸入。在生成階段,我們采用了引導(dǎo)生成的方法和基礎(chǔ)模型的構(gòu)建,以及針對(duì)不同風(fēng)格的fine-tune方法。在推理優(yōu)化方面,我們關(guān)注工程相關(guān)的工作,如加速生產(chǎn)和降低成本,包括對(duì)一些常見的推理框架的加速和優(yōu)化工免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:17/134在應(yīng)用方面,我們進(jìn)行了多方面的探索。早期,在虛擬人身上進(jìn)行了基礎(chǔ)的紋理生成,然后擴(kuò)展到圖像生成、視頻生成等方面。除此之外,在AI智能對(duì)話方面,我們?cè)贑hatGPT問世之前就開始了相關(guān)工作,最初是基于檢索式的對(duì)話。隨著時(shí)間的推移,我們不斷擴(kuò)大語言模型的規(guī)模和訓(xùn)練數(shù)據(jù)量。在2020年12月,我們推出了AI茍蛋業(yè)務(wù),這是一個(gè)引人注目的對(duì)話機(jī)器人,具有獨(dú)特的風(fēng)格。在隨后的工作中,不斷提升其多模態(tài)處理能力,豐富其知識(shí)性,并在情感化和知識(shí)向量庫方面繼續(xù)加強(qiáng)。2023年底,我們推出了異世界回響——一個(gè)虛擬人聊天的應(yīng)用,旨在提供更加生動(dòng)的交互體驗(yàn)。此外,我們的大模型SoulX也獲得了牌照,最近推出了一些新的功能,如使用AI玩狼人殺和多語種對(duì)話能力。4.音頻在語音方面,我們開發(fā)了單人和多人語音合成、語音克隆以及語音與虛擬人嘴型和動(dòng)作的結(jié)合技術(shù)。通過聲線融合技術(shù),我們可以從十幾個(gè)基礎(chǔ)音色中生成更多種類的音色。在音樂生成方面,我們開發(fā)了背景音樂(BGM)生成功能,又為用戶提供了AI歌手功能,還實(shí)現(xiàn)了AI寫詞作曲和自動(dòng)化一鍵創(chuàng)作歌曲的功能。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:18/134目前,我們正在研發(fā)一個(gè)語音效果合成的大模型,希望在前期工作的基礎(chǔ)上進(jìn)一步提升質(zhì)量和數(shù)量級(jí)。前面介紹的是各個(gè)單點(diǎn)能力上的工作,除此以外,我們也在積極探索多模態(tài)結(jié)合的方向。在我們的技術(shù)框架中,用戶可以輸入文本或語音,但這只是當(dāng)前的解決方案。目前還沒有一個(gè)完美的通用大模型,可以在各個(gè)領(lǐng)域接受單一輸入并產(chǎn)生多個(gè)輸出,或者直接由一個(gè)模型完成所有工作。因此,我們現(xiàn)階段的解決方案為:免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:19/134n首先,用戶的輸入會(huì)傳遞給大語言模型的對(duì)話模型,產(chǎn)生文本輸出和標(biāo)簽。n接著,根據(jù)不同的文本和標(biāo)簽,使用文本轉(zhuǎn)語音(TTS)生成聲音,并使用文字到表情(TTA)模型生成嘴型。n然后,驅(qū)動(dòng)算法融合表情和動(dòng)作,并進(jìn)行虛擬人渲染。n最后,根據(jù)語音和文本的播放時(shí)間進(jìn)行對(duì)齊,輸出結(jié)果。同時(shí),我們還擁有一些屬于NPC自己的AI生成模型,比如用戶詢問“你在干嘛?”,它可能會(huì)回答“我正在滑雪”,然后展示一張滑雪的圖片。實(shí)現(xiàn)多模態(tài)的動(dòng)態(tài)溝通能力。此外,我們還嘗試?yán)靡鈭D識(shí)別模塊,完成更多功能,比如早上叫用戶起床或晚上提醒他們吃飯,通過意圖模塊實(shí)現(xiàn)更直接的提醒功能。AIGC技術(shù)結(jié)合產(chǎn)品以上介紹了我們對(duì)AIGC技術(shù)的探索,接下來將分享AIGC技術(shù)在Soul中的實(shí)際應(yīng)用和落地效果。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:20/134我們的目標(biāo)是結(jié)合站內(nèi)的場(chǎng)景,提供用戶喜歡的聊天、分享和游戲功能。這些功能必須是新穎、有趣和多樣化的,以確保用戶持續(xù)使用我們的產(chǎn)品。我們的第一個(gè)出圈產(chǎn)品——AI茍蛋,不僅可以安慰用戶,還能與用戶進(jìn)行情感互動(dòng)。情感互動(dòng)包括一些“油膩”的功能,例如“你快睡吧,寶兒,我也想你了”,“沒有啊,老婆,只是叫你一個(gè)人”。這些功能可以讓用戶感到被關(guān)心。此外,AI茍蛋還可以與用戶進(jìn)行表情包斗圖,并在用戶發(fā)帖時(shí)進(jìn)行深度評(píng)論,增加用戶的參與感和互動(dòng)體驗(yàn)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:21/134我們?cè)陂_發(fā)過程中進(jìn)行了大量實(shí)驗(yàn),實(shí)現(xiàn)了動(dòng)態(tài)識(shí)別用戶發(fā)的內(nèi)容并給予相應(yīng)反饋,例如識(shí)別出用戶發(fā)的是粽子,或者用戶在過生日。還開發(fā)了虛擬人扮演小貓小狗的功能。這些實(shí)驗(yàn)都已成功應(yīng)用于產(chǎn)品中。此外,我們還開發(fā)了AI分身功能。用戶上傳自己的圖片后,系統(tǒng)可以生成用戶的個(gè)性化ID模型,并生成寫真。這一功能類似于之前爆火的妙鴨相機(jī),但我們做了一些改進(jìn)。通過用戶調(diào)研和反饋,我們發(fā)現(xiàn)用戶并不一定要求生成的圖片與自己完全相似,而是更關(guān)注圖片是否好看,特別是對(duì)于有顏值焦慮的用戶,這一免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:22/134點(diǎn)非常重要。我們還增加了趣味性和梗的元素,例如用戶可以生成帶有表情包功能的圖片,甚至進(jìn)行性別轉(zhuǎn)換,增加了趣味性。我們還開發(fā)了虛擬人聊天應(yīng)用,這是一個(gè)多能力綜合體。AI根據(jù)人設(shè)生成圖像,并與用戶進(jìn)行對(duì)話。不同的人設(shè)會(huì)根據(jù)角色特性聊不同的話題,并給出相應(yīng)的反饋。這一應(yīng)用滿足了用戶對(duì)虛擬人的想象和互動(dòng)需求。還有其它一些功能,例如,AI對(duì)決狼人殺游戲,用戶可以和AI一起玩,甚至完全由AI進(jìn)行游戲,提供了一種全新的體驗(yàn)。懶人KTV,用戶只需輸入一段免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:23/134聲音,系統(tǒng)就會(huì)生成相應(yīng)的TTS模型,讓用戶可以唱歌,滿足他們的創(chuàng)作需求。我們還開發(fā)了一個(gè)非ToC的應(yīng)用,用于增長和拉新拉活。通過模板化和生成技術(shù),可以將素材從幾十、幾百個(gè)輕松擴(kuò)展到成千上萬個(gè),大大降低了素材創(chuàng)作的成本,提高了投放效率。AIGC通用VS自研接下來想要討論的問題是,我們現(xiàn)在所面對(duì)的這些AIGC能力中,到底哪些是必須自研的。比如GPT-4推出之后,其能力具有壓倒性優(yōu)勢(shì),又如Midjourney能力非常強(qiáng)悍,似乎已經(jīng)能夠生成各種圖像,那我們?yōu)槭裁催€要自研一個(gè)圖像生成模型呢?在研發(fā)中,我們要做到通用能力與自研能力的平衡:n接受和擁抱變化:要敏銳地意識(shí)到外部通用工具的出現(xiàn),并且不應(yīng)固守于“比別人做得更好”的想法。如果外部通用模型已經(jīng)能夠完全覆蓋我們當(dāng)前正在進(jìn)行的工作,就應(yīng)該果斷放棄自研,轉(zhuǎn)向其他領(lǐng)域的探索。n善用現(xiàn)有資源:充分利用已有的技術(shù)積累,將外部能力整合到我們的產(chǎn)品中。舉例而言,如果我們想要開發(fā)一個(gè)適用于各種場(chǎng)景的圖像生成模型,而這一領(lǐng)域已經(jīng)有很多人在研究并提供了一些解決方案,那么我們就應(yīng)該專注于提升模型的最后一塊磚,即與場(chǎng)景結(jié)合的部分,而不是從零開始做整個(gè)模型的研發(fā)工作。n更了解自己的產(chǎn)品和用戶:深入了解自己的應(yīng)用和用戶群體,了解用戶的喜頁碼:24/134好和行為習(xí)慣。重點(diǎn)思考我們的工作如何在產(chǎn)品中落地,如何滿足用戶需求。我們需要突出差異性,思考如何在特定場(chǎng)景下實(shí)現(xiàn)創(chuàng)新。n構(gòu)筑垂類領(lǐng)域的門檻價(jià)值:作為一家專注于社交的公司,我們應(yīng)該深入了解年輕用戶在社交場(chǎng)景中喜歡做什么,并為其提供相應(yīng)的能力。這些能力可能是通用模型所不具備的,因此我們需要思考如何通過技術(shù)和場(chǎng)景結(jié)合,構(gòu)建起我們自己的門檻價(jià)值,使通用模型難以突破。在決策時(shí),我們應(yīng)該權(quán)衡以上因素,并根據(jù)實(shí)際情況決定是否進(jìn)行自研,以及在哪些方面進(jìn)行自研。問答環(huán)節(jié)我知道Soul這個(gè)APP在情感連接方面已經(jīng)線以及使用虛擬人工智能來滿足人們的情感需求。但是,真正的人和數(shù)字人之間仍然存在著很大的差距,即使是目前做得最好的技術(shù),如魔法科技和以達(dá)到真人的水平。我想知道,如果我們要實(shí)現(xiàn)像電影《綠洲》中展示的那樣的數(shù)字人成為真正的人,有哪些開放式的進(jìn)步方向或努力可以做到這一A1:我會(huì)從兩個(gè)方面來回答這個(gè)開放性問題。首先,我們是否一定要制造一個(gè)完全真實(shí)的人類呢?用戶的需求是否一定要求我們模擬真實(shí)人類完成所有任務(wù),比免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:25/134如社交需求?實(shí)際上,許多用戶可能更喜歡二次元世界,或者希望與虛擬角色交談,甚至希望虛擬角色能夠完成真實(shí)人類無法完成的任務(wù)。因此,我們也應(yīng)該考慮滿足這部分用戶需求。另外,我們可以采用一些創(chuàng)新的方式來解決這個(gè)問題。例如,在我們的應(yīng)用中,我們正在實(shí)施AI輔助聊天的功能。當(dāng)用戶不知道要發(fā)送什么消息時(shí),可以向AI求助,AI會(huì)提供一些選項(xiàng)供用戶選擇。這就好比給人裝上了一個(gè)機(jī)械臂,使其能夠完成更多的工作。這種方式可以先解決一些問題。更長遠(yuǎn)來看,如果我們真的想要實(shí)現(xiàn)以假亂真的效果,有一些方向可以探索。首先是在生成式模型方面,將生成的模型更加擬人化,使其更難以被識(shí)別出來。這涉及到情感表達(dá)、長期記憶以及個(gè)性化等方面。另一個(gè)方向是借鑒游戲行業(yè)的經(jīng)驗(yàn),他們?cè)谕庥^方面已經(jīng)取得了一些進(jìn)展。另外,像Sora這樣的技術(shù)也在不斷發(fā)展,他們自稱是世界模擬器,如果能夠解決實(shí)時(shí)性和成本方面的問題,那么這個(gè)技術(shù)未來是有潛力的。但是,我們需要思考的是,用戶是否真的需要與一個(gè)以假亂真的人交流,或者是否真的需要生活在一個(gè)以假亂真的世界中。這是一個(gè)需要討論的問題。在滿足需求方面,我們還需要思考更多的問題。用相對(duì)較多。那么,在社交和娛樂領(lǐng)域,目前這項(xiàng)技術(shù)是否在業(yè)務(wù)上帶來了人等功能,它們?cè)跇I(yè)務(wù)上有什么樣的促進(jìn)和提升?A2:確實(shí),AIGC業(yè)務(wù)在落地方面正處于爆發(fā)的前夕。從我們的業(yè)務(wù)場(chǎng)景來看,我們?cè)谀承﹩吸c(diǎn)領(lǐng)域已經(jīng)驗(yàn)證了它的價(jià)值。例如,私聊輔助功能在我們平臺(tái)上顯免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:26/134著增加了用戶的對(duì)話輪數(shù)和使用時(shí)長,這些指標(biāo)也驗(yàn)證了其有效性?;貧w到真實(shí)虛擬人的概念,目前最大的挑戰(zhàn)在于大語言模型的技術(shù),即使是現(xiàn)有最好的技術(shù),仍然難以達(dá)到以假亂真的程度,特別是在長期情感陪伴、長期記憶和更擬人化功能方面?;糜X問題也是一個(gè)技術(shù)挑戰(zhàn)。因此,像新野和類似的虛擬人聊天社區(qū),更多的是內(nèi)容消耗型產(chǎn)品,而非真正的社交產(chǎn)品。用戶通常與每個(gè)虛擬人聊10到20句就會(huì)感到厭倦,進(jìn)而尋找更多的新鮮人設(shè)來保持興趣。這種產(chǎn)品模式主要是通過不斷補(bǔ)充新的人設(shè)來吸引用戶。如果技術(shù)能夠進(jìn)一步突破,達(dá)到更擬人化和情感化的程度,可能就能真正滿足用戶的需求,并對(duì)關(guān)鍵指標(biāo)產(chǎn)生顯著影響。因此,這些技術(shù)上的改進(jìn)和突破將是未來的一個(gè)重要方向。一些情感陪伴功能中存在大量不當(dāng)?shù)幕貜?fù),涉及黃色內(nèi)容的比較多。針對(duì)這人設(shè)設(shè)計(jì)引發(fā)了輿論風(fēng)波,例如一些聊天機(jī)器人的人設(shè)過于直男化,導(dǎo)致在社交平臺(tái)上受到批評(píng)。針對(duì)這兩個(gè)問題,如何避免?A3:這兩個(gè)問題實(shí)際上不僅適用于AI虛擬人,與真人聊天也可能涉及政治、色情、暴力等敏感內(nèi)容,因此更像是審核問題。在訓(xùn)練機(jī)器人或設(shè)計(jì)人設(shè)時(shí),我們需要嚴(yán)格控制數(shù)據(jù)和輸出,進(jìn)行審核,同時(shí)對(duì)用戶輸入也需進(jìn)行技術(shù)判斷。這是一個(gè)審核問題,需要確保人設(shè)不會(huì)被引導(dǎo)變成不適宜的形象。對(duì)于第二個(gè)問題,涉及大語言模型的幻覺問題和人設(shè)指向問題。從產(chǎn)品層面考慮,我們不應(yīng)該施加過多限制,因?yàn)槟承┤丝赡芟矚g,而其他人可能不喜歡,這是眾口難調(diào)的問題。我們可以根據(jù)用戶喜好,從產(chǎn)品策略和推薦的角度,為不同用戶推薦不同偏好的人設(shè)。因?yàn)樘摂M人是生成的模型,旨在具有創(chuàng)造性,如果一直施免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:27/134加各種限制,可能會(huì)扼殺其創(chuàng)造性。因此,從底層技術(shù)上施加限制可能不是最佳解決方案,而更好的方式是根據(jù)用戶偏好進(jìn)行個(gè)性化推薦。頁碼:28/134實(shí)時(shí)語音交互的游戲隊(duì)友——網(wǎng)易伏羲AIAgent創(chuàng)新應(yīng)用導(dǎo)讀:在PVP多人對(duì)戰(zhàn)類的游戲中,社恐玩家的社交和情緒價(jià)值、對(duì)戰(zhàn)局的操控感,無法得到有效滿足。因此,網(wǎng)易伏羲助力《永劫無間》手游率先發(fā)布了全球首創(chuàng)的游戲Copilot-多模態(tài)實(shí)時(shí)交互的語音AI隊(duì)友。它可以在戰(zhàn)斗中自主跑圖、戰(zhàn)斗、聽指令、報(bào)戰(zhàn)況,還會(huì)和玩家進(jìn)行自由對(duì)話,給玩家?guī)順O高的情(Agent-Oriented-Programming,面向智能體編程)框架,最后還會(huì)分享語音技術(shù)在游戲場(chǎng)景的一些創(chuàng)新應(yīng)用。今天的介紹會(huì)圍繞下面4點(diǎn)展開:1.網(wǎng)易伏羲介紹2.語音AI隊(duì)友的設(shè)計(jì)與實(shí)現(xiàn)3.Agent能力迭代-AOP數(shù)據(jù)閉環(huán)4.語音技術(shù)在其他游戲場(chǎng)景的應(yīng)用分享嘉賓|莫名網(wǎng)易網(wǎng)易伏羲語音技術(shù)負(fù)責(zé)人編輯整理|晏世千內(nèi)容校對(duì)|李瑤出品社區(qū)|DataFun免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:29/134網(wǎng)易伏羲介紹網(wǎng)易伏羲是國內(nèi)首個(gè)游戲人工智能研究機(jī)構(gòu),自2017年成立以來,已在全球各類學(xué)術(shù)頂級(jí)會(huì)議中發(fā)表270余篇學(xué)術(shù)論文,并持有600多項(xiàng)技術(shù)專利,為人工智能、元宇宙、數(shù)字孿生、智能決策技術(shù)等眾多前沿科技領(lǐng)域的理論研究和實(shí)踐應(yīng)用做出貢獻(xiàn)。自成立以來,網(wǎng)易伏羲不斷推陳出新,積極探索前沿技術(shù)和應(yīng)用場(chǎng)景,實(shí)現(xiàn)了游戲AI領(lǐng)域的多項(xiàng)創(chuàng)新技術(shù)突破,推出了基于照片、文字的AI捏臉、智能NPC、劇組模式、語音交互式捏臉和語音AI隊(duì)友等多個(gè)行業(yè)首創(chuàng)的AI應(yīng)用。通過將AI技術(shù)融入游戲系統(tǒng)的各個(gè)層面,網(wǎng)易伏羲成功助力《逆水寒》手游、《永劫無間》手游等游戲打造多項(xiàng)創(chuàng)新玩法,極大地提升了玩家的游戲體驗(yàn)。近期,網(wǎng)易伏羲助力《永劫無間》手游推出全新的游戲Copilot——“語音AI隊(duì)友”,該玩法一經(jīng)推出即受到玩家的高度評(píng)價(jià),相關(guān)用戶生成內(nèi)容迅速登上抖音免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:30/134和B站熱門榜單。語音AI隊(duì)友的設(shè)計(jì)與實(shí)現(xiàn)傳統(tǒng)游戲中,機(jī)器人往往存在行為呆板、缺乏互動(dòng)交流等問題。對(duì)于有社交焦慮的玩家,他們希望在避免與真人玩家直接語音交流的同時(shí),仍能享受游戲中的社交體驗(yàn)及多人對(duì)戰(zhàn)的樂趣。此外,玩家匹配到技術(shù)不佳或配合度低的隊(duì)友,會(huì)導(dǎo)致游戲體驗(yàn)不佳。因此,玩家希望能夠找到一個(gè)既能提供高質(zhì)量的游戲技巧支持又能陪伴聊天的對(duì)象,從而滿足自身情緒需求,提升整體游戲體驗(yàn)。為了滿足玩家對(duì)于游戲互動(dòng)性和情緒價(jià)值的需求,《永劫無間》手游推出了一種多模態(tài)實(shí)時(shí)交互的語音AI隊(duì)友。AI隊(duì)友能夠在戰(zhàn)斗中自主跑圖、執(zhí)行戰(zhàn)術(shù)動(dòng)作,并根據(jù)玩家指令匯報(bào)戰(zhàn)況。此外,它還能與玩家進(jìn)行自然對(duì)話,提供情感支持。對(duì)于新手玩家,該語音AI隊(duì)友還具備教學(xué)引導(dǎo)功能,可以幫助他們更快地熟悉游戲機(jī)制。頁碼:31/134在《永劫無間》手游中設(shè)計(jì)的AI隊(duì)友Agent能夠綜合處理游戲環(huán)境中的狀態(tài)變化和玩家輸入的語音信息?;趯?duì)當(dāng)前環(huán)境狀況的認(rèn)知、決策能力,以及利用游戲知識(shí)庫與戰(zhàn)斗記憶,該AI隊(duì)友能夠做出合理的行動(dòng)決策并給予相應(yīng)的語音反饋。在這一應(yīng)用場(chǎng)景下,為實(shí)現(xiàn)高效互動(dòng)和輔助功能,Agent需要具備的認(rèn)知與決策能力主要包括:語音識(shí)別、指令理解、教學(xué)問答、人設(shè)對(duì)話、語音生成,以及協(xié)同完成任務(wù)所需的戰(zhàn)斗智能體等。接下來將詳細(xì)介紹幾個(gè)核心能力。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:32/134首先,作為AI隊(duì)友,必須具備“聽得懂”的能力,能夠像真人一樣與玩家實(shí)時(shí)語音互動(dòng)。因此在設(shè)計(jì)之初就去掉了智能音箱等場(chǎng)景中常用的喚醒詞設(shè)計(jì),比如“HeySiri”,而是采用全開麥實(shí)時(shí)語音交互。這種模式雖然極大地提升了用戶體驗(yàn),但也帶來了很大挑戰(zhàn)。比如環(huán)境噪音、不同設(shè)備的兼容性、玩家方言口音(Agent-Oriented-Programming,面向智能體編程)框架的核心能力,構(gòu)建了自主數(shù)據(jù)閉環(huán)的訓(xùn)練模型,使Agent具備自主進(jìn)化的能力,并且構(gòu)建了標(biāo)準(zhǔn)的測(cè)試集,有效利用測(cè)試和線上數(shù)據(jù)擴(kuò)充數(shù)據(jù)集,推動(dòng)模型迭代。我們的語音識(shí)別在經(jīng)過幾次場(chǎng)景數(shù)據(jù)的閉環(huán)訓(xùn)練之后,在噪聲過濾、熱詞適配等方面都得到了顯著的加強(qiáng)。頁碼:33/134除了聽得懂,AI隊(duì)友還需能夠進(jìn)行表達(dá)和對(duì)話。通過結(jié)合大語言模型與文語轉(zhuǎn)換(TTS)技術(shù),AI隊(duì)友實(shí)現(xiàn)了自主對(duì)話的功能。為了增強(qiáng)語音生成模型的泛化能力,我們利用多年積累的大數(shù)據(jù)對(duì)語音基礎(chǔ)大模型進(jìn)行了訓(xùn)練,并針對(duì)具體游戲場(chǎng)景進(jìn)行了自適應(yīng)優(yōu)化。在聽得懂、能說話的基礎(chǔ)上,我們給AI隊(duì)友設(shè)計(jì)了非常豐富的人設(shè)選項(xiàng),比如彩虹屁萌妹、溫柔體貼御姐以及溫暖深情暖男等等。這些具有鮮明個(gè)性的AI隊(duì)友,不僅可以和玩家產(chǎn)生復(fù)雜的互動(dòng)關(guān)系,還可以根據(jù)不同的游戲情境展現(xiàn)出其免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:34/134獨(dú)特的性格特點(diǎn),進(jìn)一步增強(qiáng)游戲的沉浸感和互動(dòng)感。比如上圖中展示的,一個(gè)玩家在玩的過程中通過和不同AI隊(duì)友的交互體驗(yàn),畫出了一個(gè)關(guān)系圖。作為游戲的陪玩或隊(duì)友,對(duì)于游戲的理解需要非常到位,對(duì)于問到游戲相關(guān)內(nèi)容時(shí),要做出非常好的回答。為了實(shí)現(xiàn)AI隊(duì)友的教學(xué)問答功能,我們構(gòu)建了一個(gè)強(qiáng)大的知識(shí)庫系統(tǒng),該系統(tǒng)包括游戲的靜態(tài)知識(shí)(如規(guī)則和機(jī)制)和動(dòng)態(tài)知識(shí)(如賽事信息)。當(dāng)玩家提出問題時(shí),AI會(huì)通過embedding模型將問題轉(zhuǎn)化為向量,并在向量庫中搜索最匹配的答案。如果答案不明確,則會(huì)利用RAG(檢索增強(qiáng)生成)和更高級(jí)的大語言模型進(jìn)行進(jìn)一步的檢索和推理,以確保提供準(zhǔn)確的回答。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:35/134AI隊(duì)友還必須擁有基本的游戲執(zhí)行能力。當(dāng)玩家發(fā)出如“集火胡桃”這樣的指令時(shí),系統(tǒng)首先在預(yù)處理模塊中解析并理解該指令的意圖。識(shí)別出意圖后,系統(tǒng)將“集火”這一行為類型和“胡桃”這一目標(biāo)轉(zhuǎn)化為狀態(tài)信息,并將其作為戰(zhàn)斗模塊的輸入。最終,基于強(qiáng)化學(xué)習(xí)的戰(zhàn)斗模型會(huì)根據(jù)這些輸入信息做出相應(yīng)的行動(dòng)決策,從而執(zhí)行玩家的指令,做出集火胡桃的動(dòng)作在客戶端表現(xiàn)出來?;谏鲜鼋榻B,可以看到AI隊(duì)友系統(tǒng)具備多種能力,包括理解語音、自然對(duì)話、展現(xiàn)個(gè)性以及執(zhí)行任務(wù)等,因此它是一個(gè)多智能體系統(tǒng),類似于人類大腦中不同區(qū)域分工明確且協(xié)同工作的機(jī)制。行業(yè)中已有一些成熟的多智能體框架,如MetaGPT和AutoGEN等,支持復(fù)雜系統(tǒng)的開發(fā)與應(yīng)用。下面以一個(gè)玩家制作的視頻來回顧一下AI隊(duì)友實(shí)現(xiàn)的能力。在做Agent設(shè)計(jì)和落地時(shí),常會(huì)遇到場(chǎng)景適配的問題,比如語音識(shí)別,需要適配環(huán)境噪音、口音等問題。我們是如何解決這些問題的呢?這就引入了下一部分內(nèi)容——AOP框架。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:36/134Agent能力迭代-AOP數(shù)據(jù)閉環(huán)AOP(Agent-Oriented-Programming,面向智能體編程)是網(wǎng)易伏羲設(shè)計(jì)的一套全新的編程范式,其核心價(jià)值在于為開發(fā)者對(duì)接智能體(包括AI和人提供統(tǒng)一范式的接口和服務(wù),并自動(dòng)構(gòu)建數(shù)據(jù)閉環(huán)讓智能體具備自主進(jìn)化能力。開ChatGPT、Midjourney等預(yù)訓(xùn)練模型,以及數(shù)據(jù)標(biāo)注、美術(shù)制作、工程機(jī)械操控等眾包能力,也可針對(duì)行業(yè)細(xì)分場(chǎng)景定制化構(gòu)建智能體應(yīng)用。AOP的設(shè)計(jì)思想,是基于馬爾可夫決策過程(MarkovDecisionProcesses,MDP)的定義來進(jìn)行任務(wù)建模,即Agent(智能體,包括人類或機(jī)器)在進(jìn)行某個(gè)任務(wù)時(shí),首先會(huì)和環(huán)境進(jìn)行交互,產(chǎn)生新的狀態(tài)(State),同時(shí)環(huán)境會(huì)給予相應(yīng)的獎(jiǎng)勵(lì)(Reward這一過程循環(huán)往復(fù),Agent與環(huán)境之間的交互產(chǎn)生了大量的數(shù)據(jù)。Agent利用這些新數(shù)據(jù)不斷調(diào)整自身的行為策略,頁碼:37/134經(jīng)過多次迭代后,Agent便能夠?qū)W習(xí)到完成特定任務(wù)所需的最佳動(dòng)作策略。圖中展示的是我們所定義的一個(gè)用于語音識(shí)別的智能體。我們?cè)敿?xì)規(guī)定了該智能體的狀態(tài)觀察機(jī)制及其自身的能力,無論是指定使用人工智能還是人工操作。一旦完成接口描述語言(IDL,InterfaceDescriptionLanguage)的定義,便能夠生成并編譯出這一智能體。編譯完成后,我們將獲得一段運(yùn)行時(shí)代碼,這段代碼提供了同步與異步調(diào)用的接口。接著,利用AOP平臺(tái)的一鍵發(fā)布功能,即可實(shí)現(xiàn)智能體的快速部署。部署完畢后,就可以在具體的業(yè)務(wù)場(chǎng)景中直接調(diào)用此智能免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:38/134體。例如,根據(jù)圖示代碼所示,可以選擇調(diào)用AI執(zhí)行的自動(dòng)語音識(shí)別(ASR)功能或人類執(zhí)行的語音識(shí)別服務(wù)。該AOP框架已成功應(yīng)用于多個(gè)案例之中,除了文本提到的AI語音隊(duì)友以外,還在《逆水寒》手游的文字捏臉、《永劫無間》手游的交互式捏臉等應(yīng)用中落地。網(wǎng)易伏羲AOPSDK即將開啟內(nèi)測(cè),感興趣的伙伴可以掃描二維碼進(jìn)入微信群,第一時(shí)間獲得內(nèi)測(cè)信息。語音技術(shù)在游戲場(chǎng)景的應(yīng)用最后來分享一下語音技術(shù)在游戲場(chǎng)景的一些其他應(yīng)用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:39/134在游戲場(chǎng)景下,除了實(shí)時(shí)互動(dòng)的語音AI隊(duì)友,我們?cè)谝纛l內(nèi)容生產(chǎn)上也做了一定工作。游戲場(chǎng)景下的音頻內(nèi)容,主要包含音樂、音效、語音三個(gè)方面。游戲音樂,包括背景音樂、劇情、戰(zhàn)斗和關(guān)卡中的音樂等等。音效包括各種各樣的聲音效果,像環(huán)境音效、動(dòng)作音效等等,例如法術(shù)釋放、技能特效、爆炸聲等,完美的音效設(shè)計(jì)可以給玩家?guī)砀玫某两泻突?dòng)體驗(yàn)。游戲人物語音是指游戲角色所發(fā)出的人聲,常見的有對(duì)話語音、戰(zhàn)斗語音,語音設(shè)計(jì)師可以根據(jù)角色的角色設(shè)定、角色性格、場(chǎng)景和情節(jié)需求,來創(chuàng)造適合的語音內(nèi)容和表達(dá)方式。在傳統(tǒng)的游戲生產(chǎn)鏈路中,這三部分都是人工完成的,耗費(fèi)人力和時(shí)間很多,隨著AI生成式技術(shù)的興起,我們嘗試用技術(shù)去幫助游戲音頻設(shè)計(jì)師更快更好地生產(chǎn)內(nèi)容。下面,將以人物語音為例,介紹我們?cè)谟螒蚶锩娴囊恍┞涞匕咐C赓M(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:40/134《逆水寒》手游自去年上線就獲得了很大的關(guān)注度,玩家可以在汴京、虹橋等很多地方,和瀾兒、高衙內(nèi)等數(shù)十個(gè)NPC進(jìn)行互動(dòng)交流,這種細(xì)致入微的互動(dòng),為游戲增添了更多的樂趣和豐富性。游戲里大家所聽到的這些NPC的聲音,就是我們語音合成技術(shù)所實(shí)時(shí)合成的。形形色色的會(huì)說話的NPC,增加了《逆水寒》手游街頭巷尾的煙火氣息,讓玩家獲得了更好的沉浸式體驗(yàn)。為了增強(qiáng)游戲的社交性、可玩性,提高游戲豐富度在《逆水寒》手游中,我們首次在游戲里加入了聲音的DIY玩法——自定義技能喊話,玩家可以設(shè)置技能釋放時(shí)候播放的語音內(nèi)容,玩家可以輸入文本,選擇音色進(jìn)行定制,也可以輸入自己的語音進(jìn)行音色轉(zhuǎn)換來定制。另外,我們還應(yīng)用了歌聲合成和轉(zhuǎn)換技術(shù),來制作歌聲內(nèi)容。在游戲場(chǎng)景中,對(duì)變聲器,即語音轉(zhuǎn)換能力的需求比語音合成更多,我們?cè)谶@塊做了深入的探索,發(fā)表的論文有DualVC、DualVC2、DualVC3、Expressive-VC等等。比如在直播時(shí)可以選擇將自己的聲音更換為另一種特定的音色。實(shí)時(shí)變聲器可以在很多玩法上做嵌套,但也會(huì)遇到法律邊界的挑戰(zhàn)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:41/134圍繞語音生成,網(wǎng)易伏羲在Codec和LLM兩個(gè)方面都做了探索。Codec方面,網(wǎng)易伏羲基于自身技術(shù)積累,自研了適配生成式大語言模型的語音Codec,不僅實(shí)現(xiàn)了語音的離散化和高質(zhì)量重建,而且做到了內(nèi)容屬性與音色屬性的解耦。LLM方面,在文本生成語音時(shí),使用了SpeechLLM,利用數(shù)十萬小時(shí)的語音數(shù)據(jù)訓(xùn)練,融合SFT+RLHF等手段,實(shí)現(xiàn)了媲美真人的語音合成效果。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:42/134開源框架ModelScope-Agent加速多智能體應(yīng)用構(gòu)建導(dǎo)讀:今天分享的主題是“ModelScope-Agent”。ModelScope-Agent是基于魔搭社區(qū)上多種模態(tài)大模型所打造的一個(gè)開源多模態(tài)多智能體系統(tǒng)。魔搭社區(qū)集模型、數(shù)據(jù)集及Demo于一體,涵蓋了目前基本上所有與大模型相關(guān)的工作。值得一提的是,在日前的世界人工智能大會(huì)上,魔搭社區(qū)榮獲了SAIL之星獎(jiǎng),彰顯了業(yè)界的廣泛認(rèn)可。本次分享將圍繞三大板塊展開:首先,簡(jiǎn)要回顧Agent的基本概念;接著,介紹ModelScope-Agent開源框架;最后,展示在魔搭社區(qū)中,基于ModelScope-Agent框架開發(fā)的多個(gè)有趣的應(yīng)用。主要內(nèi)容包括以下幾個(gè)部分:1.框架介紹2.ModelScope-Agent開源框架3.ModelScope-AgentApps4.問答環(huán)節(jié)分享嘉賓|李晨亮阿里通義實(shí)驗(yàn)室算法專家編輯整理|王甲君內(nèi)容校對(duì)|李瑤出品社區(qū)|DataFun頁碼:43/134框架介紹Agent的概念由來已久,最早在強(qiáng)化學(xué)習(xí)期間就存在智能體。DeepMind和OpenAI在這方面做了很多工作,如星際爭(zhēng)霸和阿爾法狗,都是基于RL(強(qiáng)化學(xué)習(xí))。但RL有局限性,需要針對(duì)特定環(huán)境學(xué)習(xí),通用性不強(qiáng)。去年,ChatGPT和大模型的快速發(fā)展引起了對(duì)智能體的廣泛關(guān)注。將大模型賦予智能體后,Agent能實(shí)現(xiàn)許多之前無法完成的應(yīng)用。大模型智能體比傳統(tǒng)智能體更有前途,主要因?yàn)槠鋼碛泻A恐R(shí),不需針對(duì)特定環(huán)境優(yōu)化;強(qiáng)大的指令跟隨能力、工具調(diào)用能力(如代碼生成和信息檢索)也提升了其可行性和應(yīng)用性。什么是智能體?按照現(xiàn)在大家比較認(rèn)可的一些定義來看,智能體需具備以下幾個(gè)能力:一是對(duì)外界環(huán)境的感知能力,無論是文本、多模態(tài)、具身或3D;二是能夠在感知環(huán)境狀態(tài)后進(jìn)行規(guī)劃(Planning)和記憶(Memory像人類一樣思考;三是能基于當(dāng)前環(huán)境和智能體的思考做出有效決策。上圖是現(xiàn)在比較公認(rèn)的免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:44/134一個(gè)類似于人的智能體結(jié)構(gòu)。智能體中一個(gè)關(guān)鍵問題是工具調(diào)用。工具調(diào)用分為兩類:一類是偏向工具的調(diào)用,如信息檢索和外部工具;另一類是直接調(diào)用模型,如生成圖片和執(zhí)行多模態(tài)任務(wù),包括理解和生成,這需要調(diào)用許多AI模型。ModelScope-Agent開源框架免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:45/134ModelScope-Agent是魔搭社區(qū)開發(fā)的開源框架,適用于單智能體和多智能體的應(yīng)用。ModelScope-Agent有如下特點(diǎn):n它是一個(gè)可定制且功能全面的框架,提供數(shù)據(jù)集收集、工具檢索與注冊(cè)、存儲(chǔ)處理、定制模型訓(xùn)練和應(yīng)用開發(fā)等功能,可以快速應(yīng)用于實(shí)際場(chǎng)景。n以開源的LLM為核心組件,支持阿里的通義千問以及國內(nèi)外常用的文本或多模態(tài)大模型。n支持多樣化且全面的API開發(fā)。后續(xù)會(huì)介紹一些針對(duì)魔搭開發(fā)的有趣應(yīng)用。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:46/134魔搭ModelScope-Agent框架的工作原理是基于開源的LLM進(jìn)行規(guī)劃調(diào)度,調(diào)用對(duì)應(yīng)的API。ModelScope-Agent能執(zhí)行API,并將結(jié)果返回給LLM,最后由LLM做出回復(fù)。比如在魔搭GPT上的一個(gè)案例:寫一個(gè)簡(jiǎn)短的故事并用女聲朗讀。首先用工具檢索與語音相關(guān)的TTS(從文本到語音)工具,再用LLM生成故事,最后用TTS進(jìn)行朗讀。下面具體介紹每一塊的工作。第一步是魔搭ModelScope-Agent注冊(cè)新工具。在實(shí)際應(yīng)用中,我們需要許多工具,包括外部通用工具(如檢索和代碼工具)、自制工具和AI模型。我們提供了一個(gè)工具基類,只需配置工具的描述、參數(shù)和調(diào)用,即可完成新工具的注冊(cè)。第二步是將新注冊(cè)的工具集成到Agent中,使模型具備判斷力,選擇需要調(diào)用的具體工具。上圖中右邊展示了如何用代碼形式完成整個(gè)注冊(cè)工具流程。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:47/134魔搭開源Agent相關(guān)數(shù)據(jù)集有兩個(gè):一個(gè)是工具調(diào)用數(shù)據(jù)集MSAgent-Bench,MSAgent-MultiRole。后面會(huì)展示我們?yōu)榱奶焓遗渲玫亩嘀悄荏w應(yīng)用。若對(duì)這兩個(gè)數(shù)據(jù)集感興趣,可以在魔搭上下載。ModelScope-AgentApps免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:48/134下面介紹基于ModelScope-Agent能做哪些應(yīng)用。首先要介紹的是魔搭GPT,它是基于ModelScope做大小模型協(xié)同的Agent系統(tǒng),其中LLM作為規(guī)劃中樞模型,可以調(diào)用多個(gè)小模型作為工具。其次,它能加速大模型的應(yīng)用,自動(dòng)構(gòu)建大小模型協(xié)同鏈路,解決業(yè)務(wù)場(chǎng)景中的問題?;诎⒗镌频乃懔Φ鬃?,大小模型協(xié)同的Agent系統(tǒng)能解決現(xiàn)實(shí)中許多場(chǎng)景的鏈路問題。這是在魔搭GPT上展示的一個(gè)案例:生成一個(gè)24字的微信介紹,并用女生朗讀。在單輪多API調(diào)用中,關(guān)鍵在于工具調(diào)用和Query問題拆解。調(diào)用的模免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:49/134型一種是基于LLM大模型進(jìn)行文案創(chuàng)作;另外需調(diào)用語音生成API,以及調(diào)用視頻生成API,這些模型都是魔搭相關(guān)模型。接下來展示的是多輪多API調(diào)用的應(yīng)用。以大模型為中樞,和用戶多輪對(duì)話,涉及到創(chuàng)作生成和多個(gè)工具的調(diào)用能力。多輪調(diào)用的難點(diǎn)在于需要結(jié)合前一輪的歷史記錄。以上就是我們基于ModelScope-Agent開發(fā)的第一個(gè)應(yīng)用——魔搭GPT,支持單輪或多輪多API調(diào)用。頁碼:50/134魔搭GPT囊括了眾多小模型,包括NLP、語音、圖像、多模態(tài)等能力。它整本地調(diào)用和本地部署模型,同時(shí)支持ModelScopetoken免費(fèi)調(diào)用API。在ModelScope上搭建魔搭GPT非常簡(jiǎn)單。獲取ModelScope代碼并安裝依賴,然后加載需要的文本模型,只需通過魔搭cloneLLM即可;配置config文件,并設(shè)置ModelScope的token和API工具?;贛odelScope-Agent,就能快速搭建魔搭GPT。魔搭GPT的優(yōu)點(diǎn)是能利用魔搭社區(qū)里已有的模型能力,快速開發(fā)有趣的應(yīng)用。魔搭社區(qū)涵蓋了AI各方向模型,如語音、NLP、多模態(tài)、CV等。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:51/134第二個(gè)工作是針對(duì)單智能體開發(fā)的Story-Agent,用于交互式故事繪本創(chuàng)作。這款產(chǎn)品剛剛在世界人工智能大會(huì)上發(fā)布,它可為自閉癥兒童構(gòu)建故事繪本。該系統(tǒng)基于ModelScope-Agent,通過配置不同的Prompt,模型實(shí)現(xiàn)交互式創(chuàng)作,并復(fù)用已有的圖片生成工具。在生成過程中,可以展示圖片和故事應(yīng)用的工具。另一項(xiàng)工作是Facechain-Agent,可以生成個(gè)性化證件照和圖片。這個(gè)過程也可以通過交互式方式進(jìn)行。例如,用戶上傳一張圖片后,可以修改其風(fēng)格,比如想要牛仔風(fēng),那么魔搭后端的Facechain模型就會(huì)進(jìn)行個(gè)性化的Lora訓(xùn)練。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:52/134還可以通過交互方式修改不同的個(gè)性化生成風(fēng)格,比如將其轉(zhuǎn)變?yōu)楣ぷ黠L(fēng)。上圖中展示了通過交互式方式進(jìn)行個(gè)性化人臉寫真訓(xùn)練和推理的方式。多角色扮演MultiAgent聊天室是基于ModelScope-Agent的另一個(gè)應(yīng)用。和文中介紹的其它應(yīng)用一樣,其Demo都已在魔搭社區(qū)上開放,大家可以去體驗(yàn)和試用。我們搭建的其中一個(gè)多角色扮演是被美女包圍,其中的六個(gè)角色都配置到了不同的Agent。此外,還配置了一個(gè)小米SU7的Agent,大家也可以去試用。設(shè)置每個(gè)角色時(shí),只需配置其角色profile(如年齡信息、知識(shí)背景)?;谶@個(gè)智能體,我們還有一個(gè)通義星塵的產(chǎn)品,這是一個(gè)個(gè)性化角色扮演平臺(tái),用戶可以自定義自己感興趣的角色和個(gè)性化助理。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:53/134我們提到的MultiAgent框架實(shí)際上是基于最近的α-UMi協(xié)同框架。這是為了解決單智能體面臨的問題,即當(dāng)操作過于復(fù)雜或工具鏈過長時(shí),模型的效果會(huì)受到影響。長序列問題無論對(duì)文本大模型還是多模態(tài)大模型來說,都是一個(gè)待解決的問題。因此,我們將其拆解為MultiAgent框架,包含了Planner、Caller和Summarizer等部分。在使用過程中,可以對(duì)每一步進(jìn)行任務(wù)拆解,這是MultiAgent的好處。與單智能體相比,無論效率還是效果,都能得到進(jìn)一步提升。這個(gè)工作已開源,并在魔搭上提供了相關(guān)內(nèi)容。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:54/134前文中提到的故事繪本不僅限于單張圖片的生成,還包括故事繪本的視頻生成。整體框架基于一個(gè)LLM,先生成故事的大綱,再生成每一頁的具體內(nèi)容。完成后,每頁內(nèi)容會(huì)調(diào)用StoryDiffusion,以確保圖片的一致性,這是視頻生成的關(guān)鍵。音效方面,使用AudioLDM生成對(duì)應(yīng)的音效。整個(gè)過程包括為每個(gè)片段生成故事,并通過Filtering和Transform,使其與圖片生成或TTS更加匹配。用戶可以選擇繪本或漫畫的風(fēng)格,針對(duì)不同年齡段(如0-3歲,3-6歲或6歲以上)提供了不同風(fēng)格的繪本,并支持自定義故事主題和人物角色profile。該應(yīng)用也已在魔搭上開源,如果感興趣可以到魔搭上體驗(yàn)故事繪本視頻的生成?,F(xiàn)在生成的效果分為兩個(gè)版本,一個(gè)是偏故事繪本,另一個(gè)是偏漫畫。大家可以到魔搭上親身體驗(yàn)其出色的TTS效果,除了圖片能隨著鏡頭變化并保持一致性外,TTS也是關(guān)鍵。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:55/134最后介紹一下整個(gè)ModelScope-Agent的規(guī)劃。目前視頻生成Demo和ModelScope開源項(xiàng)目,已在Github上開源。未來目標(biāo)是打造最好用的開源文本、語音、視頻合成的內(nèi)容創(chuàng)作Agent。依托通義千問大模型的文本創(chuàng)作,結(jié)合不同場(chǎng)景的智能體,提供了配音、背景音樂、音效等API工具,并且有大量文本到視頻、圖片到視頻的應(yīng)用。在此也希望更多開發(fā)者和使用者加入ModelScope-Agent,探索更有趣的場(chǎng)景,激發(fā)更多創(chuàng)新應(yīng)用。今天的分享就到這里,謝謝大家。問答環(huán)節(jié)時(shí)同步,有時(shí)異步。根據(jù)我的經(jīng)驗(yàn),依賴大模型進(jìn)行工具調(diào)度決策可能不太可靠,對(duì)用戶而言也很黑盒??煞窠榻B一下您們?cè)趦?yōu)化這方面的工作,或未來展望,如讓用戶自定義配置工具調(diào)用邏輯,或在平臺(tái)側(cè)進(jìn)行相關(guān)模型優(yōu)化免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:56/134A1:這是一個(gè)很好的問題,要分為幾個(gè)方面。首先大模型的基礎(chǔ)能力提升,您提到的不可控或效果問題,確實(shí)是大模型需要改進(jìn)的地方,包括工具調(diào)用和作為Agent的能力。其次是可控性,目前通過人工交互的方式效果不錯(cuò)。實(shí)際應(yīng)用中,業(yè)務(wù)方反饋需要多種人工交互方式,包括工程或規(guī)則層面,以及通過大模型判斷在何種場(chǎng)景下需要與人工交互。交互獲取一些具體的信息嗎?追A1:是的,大模型本身可以判斷是否需要交互,或者以什么樣的方式進(jìn)行交Q2:Agent是今后發(fā)展的趨勢(shì),但是現(xiàn)在可能Agent開發(fā)還比較少,可能在各行業(yè)沒那么普及。能說一下您的理解及原因嗎?A2:整體來說,Agent發(fā)展很快。在DataFun的眾多與Agent相關(guān)的主題,說明Agent已在各行各業(yè)中得到應(yīng)用。與以往人為定義好的Pipeline不同,現(xiàn)在的大模型具備一定的規(guī)劃、記憶和反思能力,能實(shí)現(xiàn)一些更加高級(jí)的應(yīng)用??梢哉fAgent的潛力尚未完全開發(fā),還有許多有趣的應(yīng)用場(chǎng)景,比如手機(jī)操作智能體。否有較大的改進(jìn)計(jì)劃或方向?追A2:決策只是單Agent,提升Agent還包括多個(gè)方面。首先,基礎(chǔ)模型的長指令跟隨能力是關(guān)鍵,確保Agent能理解并執(zhí)行復(fù)雜指令,從而改善決策和規(guī)劃。其次是工具調(diào)用能力,這也與大模型的基礎(chǔ)能力相關(guān)。模型需要豐富的知免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:57/134識(shí)儲(chǔ)備和強(qiáng)大的長指令跟隨能力,才能準(zhǔn)確調(diào)用用戶指定的工具和指令。雖然GPT-4已經(jīng)取得顯著進(jìn)展,但其他模型仍需努力提升這些核心能力。通過提煉知識(shí),既能使信息更精煉,也能提高準(zhǔn)確性。在提升大模型準(zhǔn)確率上,您們有沒有結(jié)合知識(shí)圖譜方面的工作,或分享一些心得?追A2:現(xiàn)在很多方案都基于知識(shí)圖譜,比如RAG方案,本質(zhì)上依賴于知識(shí)。此外,操作過程中需要的說明書(如CoT過程)本質(zhì)上也屬于知識(shí)。知識(shí)的問題仍繞不開LLM的基本能力,LLM需要能夠理解并基于這些知識(shí)進(jìn)行推理和規(guī)劃。這兩者相輔相成。RAG工作的目標(biāo)是提供更準(zhǔn)確或更簡(jiǎn)潔的知識(shí),以便LLM更好地理解。從LLM的角度看,它應(yīng)能夠更好地理解和應(yīng)用更多知識(shí),二者并不矛盾。我們團(tuán)隊(duì)沒有做與Graph(圖譜)相關(guān)的工作,我們通過加入更多的圖片信息以及更準(zhǔn)確的指令提示來幫助實(shí)現(xiàn)目標(biāo)。Q3:通義模型后面用的是ModelScope-Agent的能力嗎?開始講到有一個(gè)開源數(shù)據(jù)集,與通義的AgentA3:這個(gè)問題有點(diǎn)混淆。通義對(duì)外的API是基礎(chǔ)模型,而ModelScope-Agent是基于LLM開發(fā)Agent,不是基于Agent開發(fā)API。剛剛提到的數(shù)據(jù)集與通義的Agent能力有關(guān)系,開源數(shù)據(jù)集分成兩塊:一個(gè)是評(píng)測(cè)工具調(diào)用的,Agent在有了LLM后,需要評(píng)測(cè)其能力并標(biāo)記特定Query應(yīng)調(diào)用的工具;另一個(gè)是多角色的角色扮演,評(píng)測(cè)在不同場(chǎng)景中的表現(xiàn)。兩個(gè)數(shù)據(jù)集分別用于這兩個(gè)場(chǎng)景,且在魔搭上開源了。Q4:魔搭的ModelScope-Agent和最近流行的可視化工作流配置是否屬免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:58/134于同類產(chǎn)品?可視化配置更容易上手,非開發(fā)人員用起來更簡(jiǎn)單。那么,魔搭的ModelScope-Agent優(yōu)勢(shì)是什么?還是說它們其實(shí)不是同一類型產(chǎn)A4:魔搭整體定位不是一個(gè)產(chǎn)品,而是一個(gè)開源社區(qū),提供整套的Pipeline和已發(fā)布的代碼,大家可以基于這些進(jìn)行二次開發(fā)和應(yīng)用開發(fā)。①從定位看,魔搭的ModelScope-Agent不是產(chǎn)品或應(yīng)用,而是圍繞魔搭社區(qū),致力于建立一個(gè)中文開源社區(qū)。②我們整體是基于開源框架,而不是可視化界面。我們內(nèi)部討論過這個(gè)問題,可能還是定位不同。基于Flow的工作流方式是提供更可用的工具,而魔搭是建立一個(gè)吸引更多開發(fā)者參與的開源社區(qū)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:59/134騰訊音樂在音質(zhì)AIGC的應(yīng)用與實(shí)踐導(dǎo)讀:本次分享內(nèi)容為騰訊音樂天琴實(shí)驗(yàn)室在音質(zhì)AIGC方面的應(yīng)用與實(shí)踐。主要包括以下幾大部分:1.背景介紹2.音樂分離3.音樂超分4.臻品母帶5.問答環(huán)節(jié)分享嘉賓|何禮騰訊音樂高級(jí)研究員編輯整理|張少華內(nèi)容校對(duì)|李瑤出品社區(qū)|DataFun背景介紹QQ音樂在12.0時(shí),完善了音樂音質(zhì)音效體系。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:60/134AppleMusic的立體聲空間音頻。此外,還成為了國內(nèi)首家引入杜比全景聲的音樂流媒體平臺(tái)。AIGC的應(yīng)用主要聚焦在用戶聽歌“聽得舒心”的場(chǎng)景。QQ音樂多年來一直致力于音質(zhì)的優(yōu)化,包括算法、檢測(cè)、標(biāo)準(zhǔn)制定、客戶端的播放等各個(gè)方面。音樂AIGC的主要場(chǎng)景包括音樂分離、音樂超分和臻品母帶。接下來分別進(jìn)行介紹。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:61/134音樂分離音樂分離是音樂領(lǐng)域的一個(gè)主流的研究方向。從早期18年的語音分離技術(shù)Conv-TasNet、20年的PG頻域Spleeter,到21年字節(jié)提出的ResUNetDecouple+,用更深的網(wǎng)絡(luò)進(jìn)行人聲分離,再到22年Meta提出的HybridDemucs成為MDX2021的冠軍。2023年QQ音樂與AIlab合作推出了一個(gè)子帶分離模型BSRNN,其基本原理包括兩個(gè)方面,首先是對(duì)整個(gè)信號(hào)的一個(gè)頻域進(jìn)行子帶的切分,切分之后從時(shí)域幀間序列建模,再對(duì)頻域子帶進(jìn)行序列建模。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:62/134preprintarXiv:2209.15174,2這里的核心思想是音樂信號(hào)除了在時(shí)間上存在著很強(qiáng)的相互關(guān)系,同時(shí)在頻域上也存在著很強(qiáng)的關(guān)系,BSRNN從音樂信號(hào)的本質(zhì)考慮分離任務(wù),相比于之前直接用更深的網(wǎng)絡(luò),或者從CV等其他領(lǐng)域去遷移到音頻領(lǐng)域的方式,對(duì)音樂領(lǐng)域可能具有更強(qiáng)的適配性。音樂分離技術(shù)的第一個(gè)應(yīng)用場(chǎng)景是臻品全景聲,其基本原理是參考杜比全景聲的免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:63/134制作流程,將音樂分離出多個(gè)軌道信號(hào),再利用全景聲的空間混音技術(shù),獲得有空間感的臻品全景聲。另外一些應(yīng)用場(chǎng)景包括,TME聚星平臺(tái)、TMEStudio和啟明星,直接面向用戶提供音樂分離服務(wù),包括聲伴分離,6軌分離,大家可以到官網(wǎng)體驗(yàn)。除了在QQ音樂上應(yīng)用音樂分離,在全民K歌上也有很多應(yīng)用場(chǎng)景,比如全民K歌臨境音效,作為VIP用戶的核心權(quán)益,用戶可以DIY音效,在分離之后,用戶可以根據(jù)自己的喜好去設(shè)置樂器的不同擺放方位,獲得實(shí)時(shí)空間感的體驗(yàn)。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:64/134此外,音樂分離還可以用于全民K歌五維打分模板的制作,以及全民K歌伴奏庫,幫助實(shí)現(xiàn)伴奏分離,補(bǔ)充全民K歌伴奏庫。另外,音樂分離還應(yīng)用在懶人聽書,比如長音頻消伴場(chǎng)景。因?yàn)橛行╅L音頻,會(huì)存在背景音樂或噪聲,而用戶可能只關(guān)注于內(nèi)容本身,這時(shí)可以通過干聲分離技術(shù)為用戶提供純凈版的音頻,也就是更優(yōu)質(zhì)的音質(zhì)選項(xiàng)。音樂分離技術(shù)還應(yīng)用到了AIGC-X,通過干聲分離將歌曲人聲分離出來,然后通過模型去判斷這個(gè)人聲是否是AI生成的。另一應(yīng)用場(chǎng)景是啟明星音色試唱,通過聲伴分離,干聲音色轉(zhuǎn)換,再與伴奏mix,生成一個(gè)新的試聽Demo。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:65/134音樂分離還會(huì)用在低頻公益,這是專門針對(duì)聽障人士的歌曲增強(qiáng)與補(bǔ)償。還會(huì)有一些ToB的應(yīng)用場(chǎng)景。整體來講,BSRNN技術(shù)的基本原理是基于頻域切分子帶的思路,切分后對(duì)時(shí)域和頻域進(jìn)行序列建模,從而更加適用于音樂任務(wù)。分離業(yè)務(wù)包括三類,一類是作為一個(gè)子模塊支持各個(gè)業(yè)務(wù),另一類是ToC的應(yīng)用,直接提供給用戶,最后一類是一些ToB的商務(wù)合作。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:66/134音樂超分音樂超分主要應(yīng)用在臻品音質(zhì)2.0,可以在端上對(duì)CD或者M(jìn)P3的品質(zhì)進(jìn)行實(shí)時(shí)處理,能夠達(dá)到96kHz/24bit的Hi-Res音質(zhì)。臻品母帶接下來介紹行業(yè)首創(chuàng)的一個(gè)功能,臻品母帶。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:67/134什么是母帶?回顧歌曲的整個(gè)制作流程,歌曲創(chuàng)作的時(shí)候包括作曲、編曲,在錄制和混音之后,形成最終的母帶,通常在流媒體下發(fā)的時(shí)候,會(huì)編碼成各種不同的碼率進(jìn)行流媒體播放。母帶可以認(rèn)為是最原始的一個(gè)音質(zhì)品質(zhì),通常至少會(huì)有192kHz/24bit。SQ品質(zhì),標(biāo)準(zhǔn)可能最高會(huì)達(dá)到48kHz/24bit。實(shí)際上從右下圖不同品質(zhì)的頻響曲線可以看到,通過一些有損或無損編碼,SQ跟母帶主要差異集中在一些高頻的部分,低頻部分實(shí)際上是一致的。對(duì)于有損編碼,主要涉及到MP3這類的編碼方式,通常為了極限的壓縮空間,除了高頻與母帶有差異,它的低頻可能會(huì)有一些丟失,因?yàn)樗鼘?duì)體系要求會(huì)更高一些。因此這里的母帶可能需要對(duì)低頻進(jìn)行修復(fù),對(duì)高頻進(jìn)行還原。QQ音樂臻品母帶功能,實(shí)現(xiàn)了統(tǒng)一進(jìn)行低頻修復(fù)和高頻還原,實(shí)現(xiàn)了更佳的優(yōu)化效果,同時(shí)大幅減少了推理耗時(shí),降低了計(jì)算成本。頁碼:68/134最新的臻品母帶2.0版本于2023年7月上線之后,業(yè)務(wù)指標(biāo)有了明顯的增總結(jié)一下這一部分的內(nèi)容,首先,母帶是一個(gè)歌曲制作完成后的最初版本,它的格式能達(dá)到192kHz/24bit。端側(cè)模型,與1.0相比,2.0采用了統(tǒng)一的模型進(jìn)行低頻修復(fù)和高頻還原,主客觀指標(biāo)和推理耗時(shí)顯著優(yōu)于1.0。在業(yè)務(wù)上線之后,PU、UV、人均時(shí)長等指標(biāo),以及口碑都有著比較明顯的提升。以上就是本次分享的內(nèi)容,謝謝大家。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:69/134問答環(huán)節(jié)Q:可以分離一段音頻的不同人聲嗎?A:不同人聲可能有兩種情況,一種是類似于合唱的情況,另一種是和聲。合唱是A和B都會(huì)唱。和聲的情況更常見,一般歌曲都有和聲。QQ音樂是可以將和聲分離出來的。頁碼:70/134AIGC技術(shù):如何用人工智能革新營銷素材創(chuàng)作?導(dǎo)讀:本文將分享數(shù)禾科技在AIGC輔助營銷素材生成方面的工作。主要包括以下五大部分:1.背景介紹2.面臨挑戰(zhàn)3.解決思路4.未來展望分享嘉賓|周偉鵬上海數(shù)禾信息科技有限公司算法專家編輯整理|王麗燕內(nèi)容校對(duì)|李瑤出品社區(qū)|DataFun背景介紹免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:71/134數(shù)禾科技是一家互聯(lián)網(wǎng)金融科技公司,廣告營銷投放渠道主要依賴各大社交媒體,比如騰訊微信朋友圈、抖音信息流,或者公眾號(hào)中視頻和圖片的版位。上圖是投放的素材樣例,左圖是圖片的素材樣例,大多會(huì)投在公眾號(hào)文章中間的位置,右圖是日常在投的動(dòng)畫類的視頻素材的樣例。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:72/134面臨挑戰(zhàn)接下來介紹在上述營銷場(chǎng)景中面臨的挑戰(zhàn)。在騰訊微信朋友圈、抖音、百度、快手等眾多投放渠道中,每個(gè)月單渠道投放的視頻素材量會(huì)超過5000條,即每天需要產(chǎn)出170多條視頻素材去做投放;同時(shí)圖片會(huì)有7000多條,大多投放在朋友圈或者公眾號(hào),并不是所有渠道都會(huì)有。這就帶來了一些問題,首先是如何產(chǎn)出足夠數(shù)量的素材,另一方面是當(dāng)素材多了之后,媒體方會(huì)對(duì)素材有一些要求,比如新鮮度足夠高、不能過多地重復(fù)、能夠吸引人,因?yàn)槊襟w側(cè)平臺(tái)不希望自身平臺(tái)是一個(gè)純廣告分發(fā)平臺(tái),這樣就會(huì)失去對(duì)用戶的吸引力。所以素材如何能夠在足夠數(shù)量的情況下,又保證質(zhì)量過關(guān),是我們主要面臨的挑戰(zhàn)。解決思路接下來從圖片素材和視頻素材兩個(gè)方面來分別介紹我們的解決方案。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:73/1341.圖片素材針對(duì)圖片素材的處理相對(duì)比較簡(jiǎn)單,上圖是兩個(gè)圖片素材樣例,會(huì)有文案或者其他一些固定存在的元素,比如logo、警示語等。AIGC能做的主要是生成文案和圖片。圖片元素像左邊素材中間點(diǎn)綴型的logo,可以通過AIGC的方式去生成,并且不斷地變化。右圖這一類版式素材,主要是背景生成,系統(tǒng)流程示意圖如下:在系統(tǒng)里,素材生成部分的輸入是提示詞,提示詞來源于負(fù)責(zé)素材生成的人和定頁碼:74/134期調(diào)度的產(chǎn)出提示詞的任務(wù),輸入提示詞后由大模型去做優(yōu)化,優(yōu)化后進(jìn)入模型產(chǎn)出一張?jiān)紙D片,然后把原始圖片通過U2-Net摳圖模型,將圖片變成一個(gè)圖標(biāo),再把圖標(biāo)放到對(duì)應(yīng)的素材上面。如果是背景,最開始會(huì)設(shè)置好各種尺寸。這類素材我們做了幾十個(gè)不同的圖片的版式,并沒有完全由AIGC來生成,中間會(huì)有各個(gè)文案、圖標(biāo)、背景的流控,每一類的版式在生成的時(shí)候都會(huì)去調(diào)對(duì)應(yīng)的AIGC素材生成服務(wù),比如文案,信用分,圖標(biāo)或者背景等,由AIGC模型生成并做一些后處理,應(yīng)用到不同的模板上。2.視頻素材免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:75/134視頻是流量最大的一部分素材,包括動(dòng)畫類、街頭采訪類、單人口播類和情景劇類,我們針對(duì)每一類采用不同的方案去逐個(gè)做解決。(1)動(dòng)畫上圖是對(duì)動(dòng)畫類的視頻抽幀、拆解后的示意圖,基本上我們?cè)谕兜拇蟛糠值囊曨l都可以拆解為4段:前貼、中段、后段和尾幀,每一段關(guān)注點(diǎn)不一樣。前貼更多展示的是容易吸睛的部分,比如熱點(diǎn)視頻、獵奇類的圖片,或其他容易吸引人看下去的內(nèi)容;中段主要的作用是直接地表達(dá)廣告主題;后段以引導(dǎo)為主,更多免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:76/134地是給用戶一些更直觀的刺激,引導(dǎo)用戶去做對(duì)應(yīng)的動(dòng)作;尾幀是一個(gè)固定的部分,會(huì)有一些做好的文案、提醒和類似品牌廣告類的內(nèi)容。①前貼前貼的目標(biāo)是吸睛,是AIGC能夠發(fā)揮比較大價(jià)值的地方。前貼制作流程是從提示詞開始,由大模型做簡(jiǎn)單的提示詞優(yōu)化之后,進(jìn)到SD模型產(chǎn)出初版原始圖片,然后根據(jù)不同的業(yè)務(wù)場(chǎng)景加上不同的蒙版,蒙版是比如把它加到微信朋友圈,或轉(zhuǎn)賬界面、聊天記錄的背景,最后再加上各種動(dòng)效,就變成了前貼的片段。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:77/134上圖是系統(tǒng)里SD模型生成的原始圖片截圖,我們內(nèi)部素材使用者可以去圈選想要的質(zhì)量高且符合投放場(chǎng)景的圖片。上圖是一些蒙版的示例,現(xiàn)金交易的場(chǎng)景會(huì)比較多,比如結(jié)賬、日常轉(zhuǎn)賬、借款等場(chǎng)景的蒙版,對(duì)目標(biāo)用戶可能會(huì)更有吸引力。②中后段中后段部分放在一起處理,雖然各自負(fù)責(zé)內(nèi)容不太一樣,但表現(xiàn)形式差不多。核心點(diǎn)在于布局,要把最高額度、優(yōu)惠條件和其他轉(zhuǎn)化引導(dǎo)的內(nèi)容加上去。但是中后段內(nèi)容又不能都很一致,不然會(huì)影響到在媒體側(cè)的投放。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:78/134我們使用LayoutDM模型去做布局生成,根據(jù)我們要用到的文案的內(nèi)容,生成圖標(biāo)的大小尺寸,以及不同的關(guān)注點(diǎn)去做布局,每個(gè)前段、中段和后段可能展示的利益點(diǎn)不同,有的可能關(guān)注利率,有的關(guān)注額度、免息等等,文案內(nèi)容長短和整體的占位也不一樣,所以我們圍繞這些去生成很多布局格式,根據(jù)生成的布局,最終生成中后段內(nèi)容。LayoutDM布局模型在生成的美感上會(huì)有一些不適合,因此我們對(duì)模型單獨(dú)做了一些定制,在此不做展開介紹。上圖示例是最后生成的中后段的效果圖,這里面的文案基本不會(huì)用大模型生成,免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:79/134因?yàn)檫@一行業(yè)的文案很重要,基本上都是由運(yùn)營同學(xué)審核過的確保沒問題的幾類文案或者不同的幾種表述形式,存在庫中供選擇。圖標(biāo)之類的會(huì)由AIGC模型生成,最后再加一些特效組成最終的視頻。(2)真人街坊這部分目前還沒有特別好地應(yīng)用AIGC,當(dāng)前主要采用混剪的形式,涉及到的算法并不多,主要涉及到場(chǎng)景的識(shí)別,把所有采訪類的素材,按照不同的場(chǎng)景做拆分,最后拼接時(shí)有一個(gè)素材選擇的模型,把在語義上比較相近的素材篩選出來,最后拼接成一整段采訪素材。采訪素材前貼有一部分是由AIGC生成,也有一部分是從線上跑量素材的前貼中篩選出來,最后生成一個(gè)完整的混剪素材。免費(fèi)下載資料掃碼關(guān)注公眾號(hào)免費(fèi)下載資料頁碼:80/134口播目前都是采用數(shù)字人的方案,基本的流程圖如上圖所示,先由代理產(chǎn)生口播稿,再通過TTS模型生成音頻,最后通過定制的數(shù)字形象口播出來。我們采用SyncTalk模型,它是基于NeRF的數(shù)字人生成模型,由它來生成一段數(shù)字人口播的視頻,再給這段視頻做一些后處理,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論