2022生成式人工智能概述_第1頁
2022生成式人工智能概述_第2頁
2022生成式人工智能概述_第3頁
2022生成式人工智能概述_第4頁
2022生成式人工智能概述_第5頁
已閱讀5頁,還剩98頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

目錄TOC\o"1-3"\h\u15852第一 初識生成式人工智 33471縱觀AI 427340聚焦AIGC 1128437生成式AI 1619692里程碑式的存在—— 1930532第二 2724784 283558Transformer和ChatGPT 337975Diffusion 3824778第三 4316091 4429224 473186 562801 5910642互動娛樂:游戲中的生成式AI 6214528第四 6823989 6931824生產(chǎn)制造:“L4 7510559 8013473 835790 8629740第五 主動還是被動?決勝 9224865展望未來:AIGC 936361智能并非萬能:AIGC 951943 99第一 初識生成式人工智縱觀AI圖1-1從產(chǎn)業(yè)的視角來看,人工智能包括基礎層、技術層和應用層。其中,基礎層是人工智能產(chǎn)業(yè)的基礎,為人工智能提供數(shù)據(jù)及算力支撐;技術層是人工智能產(chǎn)業(yè)的核心,主要包括各類模型和算法的研發(fā)和升級;應用層則是人工智能面向特定場景需求而形成的軟硬件產(chǎn)品或解決方D的報告中預測,世界的人工智能產(chǎn)業(yè)規(guī)模會從年的億美元增長至年的億美元,年的復合增長率將達到,整體呈現(xiàn)出飛速攀升的趨勢。另外,人工智能近幾年成了各個行業(yè)在進行投資的熱門選擇。人工智能完全稱得上是風頭正勁,受萬人追捧,為經(jīng)濟帶來了十分顯著的增量。層次地改變?nèi)祟惖纳睢榱诉M一步了解產(chǎn)業(yè)版圖,下面我們從兩種不同的和生成式談起。圖1-2表1-1AI和生成式AI我們來舉一些生活中的例子,以更深入地了解兩者在日常生活中的應用。喜歡購物的讀者都知道,你在購買某一類產(chǎn)品后,購物平臺會自動給你呈現(xiàn)諸多同類或相關商品。這件事的背后就是,電商平臺會根據(jù)用戶??吹纳唐罚饰鲇脩艉蜕唐返年P聯(lián),從而有針對性地為用戶推薦內(nèi)容,而這項功能就應用了決策式技術。從地降低用戶的搜索次數(shù),并因此增加產(chǎn)品的銷售額。由此你可能會發(fā)現(xiàn),平臺似乎比你更清楚你需要什么,自然而然,自己的消費額也跟著上去了。平臺也憑借這個功能,讓更多用戶心甘情愿地掏了腰包,來獲取更廣闊的商業(yè)價值。對于生成式,的出現(xiàn)讓我們對其有了沖擊式的關注和理解。因生成式功能強大、應用范圍廣泛,文字、圖片、音視頻內(nèi)容相關的從業(yè)者在面對“強大助手”上線時,也會感覺到焦慮,恐被其取代。從可能性來講,它可以進行文字生成語音、圖像智能編輯、視頻智能剪輯、文字續(xù)寫或糾錯等十分多樣的工作,讓大家擺脫機械勞動,把時間花在創(chuàng)意性工作上,給文字作者、翻譯人員、插畫師、視頻剪輯師等帶來極大的支持。不僅如此,生成式還能勝任部分由設計師、程序員甚至專業(yè)工程師從事的設計與編程類工作,在提升工作效率的同時讓這些專業(yè)人士更能發(fā)揮所長,減少在初級工作上的時間投入。與此同時,生成式對于從業(yè)人員的素質(zhì)和技能,也提出了新的要求??偟膩碚f,決策式和生成式均可以幫助用戶推進部分工作,如事件決策、創(chuàng)作內(nèi)容等??梢哉f,人工智能的合理利用有助于提升客戶體驗,幫助企業(yè)降本增效,并抓住新的商業(yè)機會。對于大數(shù)據(jù),大眾已經(jīng)比較熟悉。顧名思義,大數(shù)據(jù)指的是海量的數(shù)據(jù),但大數(shù)據(jù)并沒有看上去這么簡單,它還有多樣性和高速增長的特性。圖展示了從年到年全球數(shù)據(jù)總量的增長趨勢及預測情況。收集、存儲、處理和分析各種形式和來源的大數(shù)據(jù),可以幫助企業(yè)和組織迅速獲得有價值的信息,并做出正確的決策,它還可以用于商業(yè)活動的改善,如此能提升工作效率,降低工作成本,并推動企業(yè)實現(xiàn)更大的增長。就如人類通過經(jīng)歷各類事件來積累經(jīng)驗一般,在人工智能領域,我們通過大量的數(shù)據(jù)來訓練模型。圖1-32017—2025年全球數(shù)據(jù)總量增長趨勢及預測情況而隨著深度學習的落地和發(fā)展,模型本身所需的存儲空間在近年有了顯著增長,最初的就有億個參數(shù),有億個參數(shù),最新的參數(shù)數(shù)量更多,有報道稱可能達到(即億),但公司其實并沒有公布具體的參數(shù)數(shù)量,這些擁有海量參數(shù)的模型都被稱為“大模型”。如圖,它展示了大模型參數(shù)數(shù)量變化趨勢。這里我們提到了深度學習,這是一種受人腦的生物神經(jīng)網(wǎng)絡機制它大規(guī)模地應用于自然語言處理、計算機視覺、機器翻譯等領域。深度學習的出現(xiàn),為很多領域的工作帶來了前所未有的精度和效率。人工智能行業(yè)也因深度學習收獲了前所未有的發(fā)展速度,整個人工智能領域的發(fā)展都曾被它帶動。圖1-4(年不到)。年月,紅杉資本官網(wǎng)發(fā)布的文章《生成式:充滿創(chuàng)造力的新世界》預測,生成式將產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。據(jù)預測,年,國內(nèi)生成式應用規(guī)模有望突破億元,國內(nèi)傳媒領域應用空間超億元。而且,生成式“八面玲瓏”,它的應用場景十分廣泛,目前不僅應用于文本、圖片、音視頻、游戲等數(shù)字媒體,還可以應用于制造業(yè)、建筑業(yè)等實體行業(yè)。視頻生成也是生成式的重要應用,它可以幫助使用者生成高質(zhì)量的視頻,如檢測和刪除特定片段、跟蹤剪輯、生成特效、合成視頻等。另外,大火的數(shù)字人也是它的“拿手絕活”。在李安執(zhí)導的《雙子殺手》中,工作人員就用創(chuàng)造了一個數(shù)字人物小克。威爾技術的幫助下同時出演了歲特工亨利和歲特工小克,該片實現(xiàn)了真實明星“年輕版”的數(shù)字化制作。在跨模態(tài)生成中,生成式能夠根據(jù)文字生成創(chuàng)意圖片、根據(jù)圖片生成視頻、根據(jù)文字生成視頻,或根據(jù)圖片或視頻生成文字。對想象力豐富的朋友,或者影視行業(yè)從業(yè)者來說,這稱得上是“工作神器”。圖就是一個根據(jù)文字“anae”(穿著宇航服的熊貓)生成圖片的例子。在游戲方面,生成式可以用于游戲開發(fā),實現(xiàn)自動化的游戲設計,同時能夠?qū)崿F(xiàn)更好的游戲體驗,如人工智能(非玩家控制角色)等,說不定以后你玩的游戲就有人工智能的深度參與。圖1-5pandainaspacesuit生成式不光在這些數(shù)字經(jīng)濟領域廣泛應用,在實體領域的潛力也非常大,如在建筑業(yè)等巨型垂直實體領域中,生成式再僅局限于圖片和文字,而是進入了信息形式更為豐富的D(三維)設計領域。例如構(gòu)建數(shù)字建筑模型時,生成式能幫助建筑師們產(chǎn)出D建筑模型,讓他們更好地理解項目。建筑師們能夠使用筑設計方案,線圖,讓人工智能來生成對應的建筑實景圖。我們可以想象,隨著手繪信息的增加,生成式輸出的實景圖也越來越穩(wěn)定。圖所示的就是利用圖像生成工具生成的建筑設計圖。圖1-6AI聚焦AIGC當下,世人的目光被、這些深深吸引。而在清楚地認識這些新事物之前,我們需要梳理一下它們的歷史脈絡,其實在數(shù)年硝煙彌漫的“內(nèi)容大戰(zhàn)”中,我們已經(jīng)悄然經(jīng)歷了多種內(nèi)容形式的迭代:l d 、rd和yt。即“專業(yè)生產(chǎn)內(nèi)容”,主要指具備專業(yè)背景的內(nèi)容生產(chǎn)者所創(chuàng)造的內(nèi)容;則為“用戶生產(chǎn)內(nèi)容”,其內(nèi)容的源頭更偏大眾化,人人都可作為用戶進行內(nèi)容生產(chǎn);則為人工智能與的結(jié)合,人工智能參與到了用戶創(chuàng)作內(nèi)容的過程中。如今,在三度更迭之后,正式來襲。與、和不同的是,在的概念中,“無生命圖1-7開啟了新一輪的內(nèi)容生產(chǎn)革命,它在多樣性、質(zhì)量、效率三個方面推動了內(nèi)容生產(chǎn)大踏步前進。的出現(xiàn),既可以滿足消費型內(nèi)容亟待擴充的需求,也可以快速產(chǎn)出多樣化的內(nèi)容形態(tài),迎合多種細分場景,以某張圖片、某段視頻就是作者的“作品”,而我們卻不自知。的“學名”是生成式預訓練模型eg,這是一種用來分析和預測語言的人工智能模型,它可以幫助我們進行自然語言處理,例如機器翻譯、自動文摘和快速問答。的厲害之處是,它可以在文本中自動學習概念性內(nèi)容,并自動預測下一段內(nèi)容。也就是說,它可以根據(jù)上下文記住概念,并能夠在短時間內(nèi)直接輸出相關內(nèi)容。的發(fā)展目前經(jīng)歷了、、、和幾個階段。對于模型,我們可以這么理解:先使用海量沒有進行標注的語料,預訓練出一個語言模型,而后對語言模型進行微調(diào),使之應用于特定的語言任務中。則在的基礎上進行了多任務的訓練,使用了更大的數(shù)據(jù)集,提升了語言處理能力。務。推出的是的延伸,這是一款聊天機器人程序,能通過學習和理解人類的語言與人類對話,還能實現(xiàn)視頻腳本撰多關于“替代人類”的相關討論。律、數(shù)學、物理和程序設計等不同領域表現(xiàn)出很高的熟練程度,各方面能力已全面超越。不僅如此,它還能夠?qū)⒍鄠€領域的概念和技能統(tǒng)一起來,并能夠理解一些復雜概念。在官網(wǎng)上演示了這樣一個示例:向展示一張圖片(圖),并詢問圖中有什么有趣的地方。而的回答相當精妙:這幅圖的有趣之處在于,把一個大而過時的(視頻圖形陣列)接口插入一個小而現(xiàn)代化的智能手機充電端口,這是十分荒謬的。儼然擁有一個普通人的正常思維。要想深刻了解文本生成的公司位于美國加利福尼亞州,通過其產(chǎn)品的文本生成功能,用戶可以輕松完成生成(照片墻)標題,編寫(抖音國際版)視頻腳本、廣告營銷文本、電子郵件內(nèi)容等略顯燒腦的重復性工作。文本生成功能一經(jīng)推出,便給社交媒體、跨境電商、視頻制作等多個新興行業(yè)帶來了巨大的顛覆力量。圖1-8除了以外,更是近期談論時不可繞過的熱門企業(yè)。是一家研究公司,成立于年,它旨在促進人工智能的安全可控發(fā)展。我們前文中提到的這類卓越的自然語言處理模型,就是首創(chuàng)推出的,這也使得一躍成為行業(yè)的佼佼者。在自己進行技術創(chuàng)新之外,也通過與微軟等行業(yè)巨頭的合作,將的應用推向更高的層次,這也將為人類的日常生活帶來豐富的可能性。智能研究院和清華大學研究團隊就合作推出了中文預訓練模型——清源CPM(ChinesePretrainedModels),我們也有了自主研發(fā)的類似于模型來進行技術支撐的。D模型是一種新興的技術,它的靈感來源于物理學中的擴散現(xiàn)象:通過對圖片不斷加入噪聲來生成一張模糊的圖片,這個過程類似于墨水滴入水池的擴散過程;再通過深度神經(jīng)網(wǎng)絡學習模糊的圖片并還原成原始圖片的逆擴散過程,實現(xiàn)生成圖片的功能。目前,D模型在視覺藝術和設計相關領域非常受歡迎。y 是一家全球領先的研究型企業(yè),致力于開發(fā)前沿的人工智能模型。年,由該公司與另外兩家初創(chuàng)公司共同研發(fā)的eD模型發(fā)布,可以真正實現(xiàn)“一秒出圖”,這個“一秒”不是夸張的代指,而是真正的事實。這就意味著你可以借助,實現(xiàn)自己瑰麗的夢境,復原宏大的想象,也可以為自己的小說配上極富幻想感的插圖,不論它們有多超現(xiàn)實,你都可以通過把它們呈現(xiàn)在大家的眼前,讓想象不再孤獨。年,繪圖突然大熱,隨著D、eD、等圖像生成領域現(xiàn)象級應用的紛紛興起,繪畫就像一陣旋風,首先在國外引起了不小的風浪,社交平臺上出現(xiàn)了大量的繪畫相關嘗試和討論。很快這場旋風就從國外刮到國內(nèi),引起了國內(nèi)用戶的廣泛關注。這些應用到底有著怎樣驚奇的功能,而它們背后又有哪些企業(yè)在推動這場繪畫“旋風”呢?毫不夸張地說,StableDiffusion模型是掀起AI繪畫熱潮的源頭之一,StableDiffusion本身及基于它開發(fā)的繪畫工具,讓AI繪畫引爆了輿論熱潮。而其背后的公司StabilityAI在AI繪畫模型爆火前的估值為1億美元,爆火后的估值則為10億美元,狂漲10倍,足見AI技術產(chǎn)出的大眾詞,將提示詞復制到Midjourney、StableDiffusion等AI繪畫平臺,可以實現(xiàn)精準快速的圖像生成,讓用戶在探索提示詞上少走彎路。在視頻生成技術逐漸成熟后,不少新興科技公司也開始使用人工智能技術來進行影視制作,傳統(tǒng)的影視制作方法與人工智能技術強本。影視制作的案例頗多,如電腦藝術家格倫馬歇爾的人工智能電影《烏鴉》e就獲得了年戛納短片電影節(jié)評審團獎?!稙貘f》的基礎是視頻網(wǎng)站上的短片,馬歇爾將其輸入創(chuàng)建的神經(jīng)網(wǎng)絡中,然后指導另一個模型生成圖像,這樣就生成了一段關于“荒涼風景中的烏鴉”的視頻。在電影《速度與激情》中,劇組將虛擬演員“放置”到視頻中,實現(xiàn)虛擬與現(xiàn)實的完美融合,減輕人物和場景的限制,實現(xiàn)更多可能。這種效果是怎樣實現(xiàn)的呢?這涉及多重技術支持:首先從之前的鏡頭中選擇拍攝所需的動作和表情,建立數(shù)字成像模型,再渲染出虛擬的人物;在替身演員拍攝完肢體動作后,還會對臉部進行替代。通過這種方式,逝去的保羅在視頻制作賽道同樣有很多“明星企業(yè)”。年月日,人工智能初創(chuàng)公司官網(wǎng)宣布推出視頻生成模型,給競爭已十分激烈的賽道又添了一把熊熊烈火。究竟有什么令人驚嘆之處呢?它采用了最新的深度學習編碼技術,可以將數(shù)據(jù)轉(zhuǎn)化為精美的D圖像和視頻,還能根據(jù)文字腳本、圖片、視頻剪輯等進行自動內(nèi)容生成,創(chuàng)造出真實感十足的D場景,幫助使用者體驗真實世界中所不能觸及的情景,比如現(xiàn)在無法實現(xiàn)的太空旅行、歷史重現(xiàn)等,小說中的“穿越”情節(jié)可以在現(xiàn)實中上演,給生活帶來了無盡想象和無限可除行業(yè)新秀外,谷歌也推出了ImagenVideo與Phenaki兩款視頻制作工具。其中,ImagenVideo能夠生成高清以及具有藝術風格的視頻Meta(臉書部分品牌更名而來)推出的則是MakeA-Video,借助這款工具,可以生成非常富有想象力的奇趣視頻(圖1-10)。圖1-10Make-A-Video生成視頻示例除了在內(nèi)容生成中的多角度應用,根據(jù)這項技術所延展的內(nèi)容工具還能“互通有無”。不同內(nèi)容形式的模型之間并沒有壁壘,而是可以聯(lián)合使用,實現(xiàn)跨模態(tài)的內(nèi)容生成。例如將、eD一起使用,可以實現(xiàn)流暢的修圖功能,讓修圖不再費時費力,美工不再被甲方的需求折磨。這個功能為什么可以實現(xiàn)呢?如圖,我們給定一個輸入圖像和一個編輯圖像的文本指令,這樣它就能遵循我們給出的描述性指令來進行圖片的加工編輯了。這聽起來很智能,但實現(xiàn)此類功能的前提是要精細化地了解的話術并正確使用有效的提示詞。如果沒有正確使用提示詞,很容易雞同鴨講。通過給但從產(chǎn)業(yè)發(fā)展上看,的技術革新已經(jīng)滲透到人類的日常生活,下沉為人人皆可使用的技術工具,這是非??上驳淖兓??;趲淼膫惱砗偷赖聠栴},或許會有一段時間的過渡期,我們須等待相關制度和規(guī)則的完善。但勢如破竹地闖入了人類的領地,從此與人類相伴相生。生成式AI和決策式簡單來說就是,決策式擅長的是對新的場景進行分析、判斷和預測,主要應用在人臉識別、推薦系統(tǒng)、風控系統(tǒng)、精準營銷、機器人、自動駕駛等;生成式主要擅長自動生成全新內(nèi)容,主流的內(nèi)容形式它基本都能生成,包含文本、圖片、音頻和視頻等。二者在技術路徑、成熟程度、應用方向上都有諸多不同。而在下文中,我們將聚焦生成式,圍繞其核心價值來展開論述。你或許想不到,決策式和生成式不但名稱不同,從認識論的角度看,二者聚焦的認知層面也不相同。何為認識論呢?認識論即為與知識來源和知識判斷相關的理論。如圖知識、邏輯向形而上的哲學、信仰邁進,所認識內(nèi)容的顆粒度和結(jié)構(gòu)深度也會隨之不斷改變。圖1-12AI和決策式AI圖1-13AI如在藝術創(chuàng)作領域,繪畫已然不再能難倒生成式了。年月,我國誕生了首部生成的完整情節(jié)漫畫。藝術家王睿利用,以小說《元宇宙》為藍本,通過加噪點、去噪點、復原圖片、作畫這幾個步驟,將文字轉(zhuǎn)化成了可視化的內(nèi)容,畫面線條流暢、色彩絢爛,給人以強烈的視覺沖擊,也在中國的科技藝術發(fā)展史上留下了濃墨重彩的一筆。創(chuàng)作的繪畫作品甚至都進入了拍賣領域。年2月,山水畫的首次拍賣落下帷幕,成交價為萬元。該畫作是百度文心一格和畫家樂震文續(xù)畫的陸小曼未完成的畫稿《未完都知道,中國的山水畫注重寫意,很難模仿到神韻,而文心一格將陸小曼存世的畫稿、書法作品等作為得的創(chuàng)作頗具陸小曼畫作的靈性,到了以假亂真的地步。喜歡看視頻的朋友也離不開的幫助。谷歌研究院最近就發(fā)表了一篇論文,致力于將文本條件的視頻擴散模型on,D應用于視頻編輯,這個視頻編輯框架可以創(chuàng)建動態(tài)相機運動、為圖像中的事物設置動畫等,未來大家也有機會利用這項技術制作自己的個性化電影。網(wǎng)飛發(fā)布的動畫短片《犬與少年》也與有關。這個短片由動畫短片,人工智能小冰在這部動畫里就利用自己的技術繪制了完整的畫面和場景,讓人類創(chuàng)作者有時間回歸到更根本的創(chuàng)意性工作中去。在設計性工作領域,更是大展拳腳,平面設計、D設計、服裝設計、環(huán)境藝術設計等統(tǒng)統(tǒng)不在話下。有了在繪畫創(chuàng)作中的先例,我們就不難看出它在平面設計中也必然很出色。在等繪圖軟件中,只需要標明是恤設計、絲巾設計還是插畫設計、角色設計,就可以得到可投入使用的設計稿,獨幅圖案抑或是連續(xù)紋樣,它都能輕松搞定。建模,然后進階優(yōu)化為更高分辨率。的DmF更是不需要照片就能生成D模型,把“無中生有”玩得透徹,現(xiàn)在,生成船、花瓶、公共汽車、食物、家具等的模型都不在話下。利用生成D模型的技術,未來,游戲、電影、虛擬現(xiàn)實等領域都不再需要工作人員手動進行D建模了,方便、高效了許多。你是不是也好奇是怎么在服裝領域應用的?D衣物建模是其背后的一項核心技術,隨著技術的發(fā)展,甚至還能做到D衣物重建和可控衣物編輯。國外的t是谷歌與電商合作,利用谷歌深度學習框架打造的服裝設計師。其所構(gòu)建的神經(jīng)網(wǎng)絡融合了超過名時裝設計師的風格和多種設計元素,只需用戶輸入性別、喜好、情緒等信息,它就能設計出一套獨特的時裝。雖然在與服裝結(jié)合的道路上,我們還需要摸索進行高水準的設計,但在服裝設計的產(chǎn)業(yè)布局中,將是不可缺少的一環(huán)。在你生活的城市中,說不定已經(jīng)在進行市區(qū)的環(huán)境藝術設計工作了。谷歌發(fā)布過一款能幫助城市進行綠化工作的工具,人類能借助和航拍,繪制一張城市的“綠化地圖”,并據(jù)此來生成綠化建議,用以解決全球變暖造成的極端高溫天氣問題。這款規(guī)劃并推動實施的,你會生活在一個由進行科學規(guī)劃后建設的綠色城市。生活在這里,你應該也會被隨處可見的植物治愈吧。在家裝方面,“I+家裝”產(chǎn)業(yè)也發(fā)展得如火如荼。服務智能化和精準化,推動“I裝商家和用戶更為及時和全面地追蹤服務進度,能進一步幫助平臺打造更加開放的家裝內(nèi)容和服務生態(tài),提升家裝體驗。國內(nèi)的一家科技企業(yè)群核科技成立了實驗室,旨在拓展全空間領域,進行家居家裝、商業(yè)空間、地產(chǎn)建筑等空間領域的設計生成和迭代創(chuàng)作。說不定以后為我們進行家居裝修的都是設計師。說了這么多,你可能會認為,無非就是被“喂”了足夠多的人類創(chuàng)作的內(nèi)容,模仿大于創(chuàng)造。其實并不是“怪”,它還能從事非常需要邏輯思維的工作,像寫代碼這種專業(yè)工作它也能做??梢詭腿藢懘a想必大家都已經(jīng)知道了,但可以做到什么程度,大家可能并不太了解。現(xiàn)實中可能已經(jīng)有讀者用它解決過不少代碼難題。除了知名度頗高的,公司推出的r 也的代表,在年月首次開放了代碼生成模型的(應用程序編程接口),讓更多使用者能夠利用人工智能提升軟件開發(fā)的質(zhì)量和代碼撰寫的效率,極大地提升應用程序的推進速度。從寫代碼這點來說,通過分析大量開源項目的代碼,學習語言特征,動態(tài)生成新的代碼,能夠?qū)Σ煌愋偷娜蝿崭屿`活、快速地進行開發(fā)。除了上文提到的眾多領域,人工智能還進軍醫(yī)藥領域。對此,“生物版”有話說。“生物版”的任務是生成蛋白質(zhì)。在產(chǎn)業(yè)落地應用的場景中,許多從業(yè)者最關心的問題之一就是大分子藥物,尤其是抗體等蛋白質(zhì)類藥物能不能使用“一鍵生成”。藥企晶泰科技是藥物研發(fā)的先行者,其自主研發(fā)了大分子藥物設計平臺,這個平臺包括許多大分子藥物從頭設計的策略,其中有一款策略被稱作“”。如此命名的原因是的技術路線與相似,可以一鍵生成符合要求的蛋白質(zhì)類藥物設計。目前,已經(jīng)被正式應用于晶泰科技的各類大分子藥物項目中,表現(xiàn)得非常好。里程碑式的存在——近幾年,人工智能技術領域高潮迭出,給我們引爆了一輪又一輪技術熱潮,而剛進入。它最近肯定在大家面前瘋狂刷屏,大家即使不了解它,也早就對這個名字耳熟能詳了。那么它到底是什么呢?其實是一個由公司推出的大型語言模型ee,,它能幫助開發(fā)人員使用自然語言理解來增強聊天機器人和智能應用程序的功能,可以處理各種任務,如撰寫文章、提供建議、回答問題等。繞進去,很快就得出了答案;有人讓它寫一篇關于“秦始皇摸電門,贏麻了”的文章,它寫得有模有樣,并沒有對這個離譜的主題提出質(zhì)疑;有人讓它寫社交平臺上的宣發(fā)文案,它連圖形符號都用得難辨真假;甚至有網(wǎng)友訓練它說北京話,在一來一回的對話訓練中,它很快就學會了據(jù)美國雜志報道,谷歌曾經(jīng)給提供了面試程序員的問題,結(jié)果它不僅沒被難倒,甚至還被判定為具備三級軟件工程師的水準,簡直讓人瞠目。目前,已經(jīng)開始入侵職場,根據(jù)職業(yè)咨詢平臺的最新報告,在家企業(yè)調(diào)查樣本中,的企業(yè)目前正在使用,主要應用在協(xié)助招聘、編寫編碼等工作中。報告還稱,從年月上線后,不少企業(yè)已經(jīng)將投入了應用,在這之中,有的企業(yè)開始利用代替員工工作,的企業(yè)已經(jīng)通過節(jié)約了美元以上的成本,這簡直給部分崗位的工作者帶來了失業(yè)的隱患!如前所述,生成式通過學習數(shù)據(jù)中的聯(lián)合概率分布,對已有的數(shù)據(jù)進行總結(jié)歸納,再創(chuàng)作出新的內(nèi)容。作為一款自然語言處理模型,通過學習語料中詞匯之間的組合規(guī)律和邏輯,生成合理的接續(xù),實現(xiàn)內(nèi)容的創(chuàng)作。這類似一個“接龍”的過程,并生成下一個詞,然后繼續(xù)生成下面的詞,從而完成一句話或者長文,也就是“自回歸生成”。因此,雖然訓練的已經(jīng)被創(chuàng)作出來的,但是其創(chuàng)作內(nèi)容不是“抄襲”,不是簡單的復制和粘貼,而是在現(xiàn)有語料的基礎上學習詞與詞之間的邏輯,創(chuàng)作出新的內(nèi)容。年,谷歌大腦團隊在神經(jīng)信息處理系統(tǒng)大會發(fā)表了一篇名為《注意力是你所需要的全部》nslu的論文。這篇論文的作者在文章中第一次提出了一個基于注意力機制的模型,并且把這個模型首次用在理解人類的語言上,這就是自然語言處理。谷歌大腦團隊利用非常多已經(jīng)公開的語言數(shù)據(jù)集來訓練這個最初的模型,而這個模型包括萬個可調(diào)參數(shù)。而模型從誕生之時,也極為深刻地影響了后續(xù)人工智能技術的發(fā)展道路。僅幾年內(nèi),這個模型的影響力就已經(jīng)滲透到人工智能的各個領域,包括多種形式的自然語言模型,以及預測蛋白質(zhì)結(jié)構(gòu)的Fd模型等。也就是說,它就是后續(xù)許多功能強大的模型的源頭。在模型爆火后,有許多團隊都在跟進研究這一模型,推出的公司也是專注于研究模型的其中一家公司。在模型被推出還不足一年的年,公司有了自己的技術突破,他們發(fā)表了論文《用生成式預訓練提高模型的語言理解力》gegyee,還推出了具備億個參數(shù)的模型。模型是一個基于結(jié)構(gòu)的模型,但訓練它的數(shù)據(jù)集更為龐大。公司利用一款經(jīng)典的大型書籍文本數(shù)據(jù)集對模型進行了模型預訓練,這個數(shù)據(jù)集包括多本未出版的圖書,并涵蓋多種類型,如言情、冒險、恐怖、奇幻等。在對模型進行預訓練后,還在四種不同的語言場景下,利用多種相異的特定數(shù)據(jù)集對模型做了進一步的訓練。而最終訓練出的模型了比基礎模型更好的結(jié)果,因此也取代模型,搖身一變成為新的業(yè)內(nèi)龍頭。在年,公司再接再厲,推出了取代的億個參數(shù)。模型的架構(gòu)也與它的“前任”沒有本質(zhì)區(qū)別,只是規(guī)模更大了。當然,的訓練集比前兩個模型要大得多:它包含兩個相異的書籍數(shù)據(jù)集(一共億詞符)、已經(jīng)過基礎過濾的全網(wǎng)頁爬蟲數(shù)據(jù)集(億詞符)、維基百科文章(億詞符)。在年神經(jīng)信息處理系統(tǒng)大會中,公司再次向大家宣布了它的新突破,它又推出了全新的大型語言預訓練模型:。是的前身,也是對模型進行微調(diào)后開發(fā)出來的模型,在誕生后,才橫空出世。至此,我們所講述的主角誕生,也是目前使用最為廣泛的一款自然語言處理程序,簡直稱得上是“界的頂流”了!面對熱烈的市場反響,國內(nèi)的各大科技企業(yè)也紛紛入局,將“產(chǎn)業(yè)觸手”深入人工智能這片藍海,例如百度、阿里巴巴、等國內(nèi)科技巨頭都先后發(fā)布類產(chǎn)品,以期搶占“中國版”的市場先機。而另一頭,海外的科技巨頭如大家熟知的微軟、谷歌等企業(yè),也都加速了在方面的相關布局。我們首先來看看國內(nèi)一些科技巨頭在相關產(chǎn)業(yè)的發(fā)展情況。近日有消息稱,阿里達摩院正在研發(fā)類似階段,而且阿里巴巴還可能結(jié)合大模型技術與釘釘生產(chǎn)力工具,將二者的深度應用方式挖掘出來。關于在中國的布局,百度的被關注度也很高。百度作為國內(nèi)領先的技術公司,發(fā)布了中國的類應用“文心一言”,其多答案回復、智能生成等相關功能,會漸漸在百度的搜索引擎內(nèi)上線或內(nèi)測,由此可以看出,百度對、等技術已經(jīng)開始積極布局了。無論是阿里還是百度,目前國內(nèi)科技巨頭的技術發(fā)展方向都是將相關技術融入自己已有的主要產(chǎn)業(yè)模塊,以此謀求深度的商業(yè)增長。讓我們把目光投向美國,美國的微軟是與及其母公司關系最密切的科技巨頭之一。在年月,微軟就推出了最新版本的搜索引擎(必應)和瀏覽器,二者均由進行支持。更新的搜索將會以類似的方法,來對已有大量上下文的問題進行回答。而正是在同一個月,微軟還宣布了企業(yè)中的所有產(chǎn)品會全面與進行整合,這些產(chǎn)品包括云服務、聊天程序、搜索引擎,以及囊括、、的“全家桶”等。目前,已被內(nèi)置于新版搜索引擎中,這也代表著微軟開始與谷歌這個全球搜索引擎的巨頭進行對抗。其實在這之前,微軟就和的母公司深度擴展了合作關系,計劃擴大投資只是一個基礎,還會使用微軟的云計算服務來更快地推動人工智能的突破。面對微軟強勢的競爭,谷歌也不甘示弱,推出了對話系統(tǒng)。與微軟采取的方式類似,谷歌也會把對話系統(tǒng)與谷歌的搜索引擎相結(jié)合。谷歌的云計算部門e開始與打擂臺,宣布與的競爭對手推進全新的合作關系,而也已經(jīng)把谷歌云當作自己的首選云提供商。在年月,也推出了一款全新的聊天機器人產(chǎn)品,這款產(chǎn)品基于其自研架構(gòu),被認為是一個強有力的競爭對手。老牌巨頭英偉達與的關系也不淺,在進行模型訓練時,至少導入了顆英偉達高端。亞馬遜、等科技巨頭的高管,也都表示想對、相關技術或產(chǎn)業(yè)進行積極布局。在領域,各個企業(yè)的市場競爭才剛剛開始。快速閱讀和總結(jié):制并粘貼到的聊天框中,并要求它為你總結(jié)文件中最重要的內(nèi)容(圖)。這項工作已經(jīng)駕輕就熟了,你有機會就可以嘗試一下??蛻舴蘸椭С郑耗軌蛞约磿r聊天或電子郵件的方式與客戶進行交互,來解決客戶的問題和疑慮,并同時提供支持和指導(圖-)。面對時,你只需給它一個非常簡單的提示,比如“寫一封給客戶的問候郵件”,就會給出它生成的例子。你對輸出的結(jié)果不滿意也不要緊,只需要略微改動一下提示再來一遍,就可以得到完全不一樣的內(nèi)容,幾乎不會給你兩遍相同的內(nèi)容。交互問答:能夠作為一種在線學習平臺,在交互中回答問題,并提供相應的幫助。比如你花費一個周末的時間學習了古羅馬歷史,現(xiàn)在你想對自己的知識儲備進行測試??梢暂p而易舉地給你提供個關于歷史的問題(圖),還能對你已經(jīng)寫下的試題答案進行糾正。圖1-14ChatGPT圖1-15ChatGPT圖1-16ChatGPT醫(yī)療保?。耗軌?qū)颊哧P于疾病和治療的問題進行回答,還能以此為基礎提供一些康復和營養(yǎng)建議。比如你家的小朋友突然胃口不好,你也不知道為什么,這時候就可以問問,它有強大的整合能力,會把孩子胃口不好的原因條分縷析地全部列出來(圖),你還可以問它該怎么辦,讓它充當你的“私人健康調(diào)理師”。圖1-17ChatGPT圖1-18ChatGPT圖1-19ChatGPT年月,宣布正式上線了插件系統(tǒng)。表示,現(xiàn)在的語言模型雖然在各類任務中都能有所表現(xiàn),但有的時候結(jié)果還不盡如人意。而通過加入更多數(shù)據(jù)進行訓練,則可以不斷提升模型效果。將插件形象地比喻成“眼睛和耳朵”,新上線的插件系統(tǒng)能與開發(fā)人員定義的進行交互,從而將與第三方應用程序?qū)?,這樣模型可以獲取更多、更新或其他未被包含在訓練數(shù)據(jù)內(nèi)的信息。插件執(zhí)行安全、受控的操作,提高了整個系統(tǒng)的實用性,所能適用執(zhí)行的范圍也變得更為廣泛。第二 現(xiàn)在你應該了解我們廣泛使用的生成式是何方神圣了。在本章,我們將更加深入,從底層技術邏輯,也就是“用什么去生成”的角度,繼續(xù)剖析生成式,讓它的“骨骼”和“脈絡”展現(xiàn)出來。本章的內(nèi)容包含生成式的基礎模型,包括模型、模型和D模型。你可能會覺得這些看起來有點難度,但讀完了這一章,你就能理解這些模型的運行邏輯,如此才能更好地應用生成式為自己服務。人工智能領域經(jīng)過最近十多年的發(fā)展達到目前的高度,技術上最大的功臣無疑是深度學習。而深度學習的爆發(fā)式增長狀態(tài)得益于海量的數(shù)據(jù)、圖形處理器帶來的強大算力以及模型的持續(xù)改進。年,計算機科學家、認知心理學家杰弗里辛頓yH首次提出了“深度信念網(wǎng)絡”。與傳統(tǒng)的訓練方式不同,深度信念網(wǎng)絡有一個“預訓練”的過程,可以方便地讓神經(jīng)網(wǎng)絡中的權(quán)值找到一個接近最優(yōu)解的值,之后再使用“微調(diào)”來對整個網(wǎng)絡進行優(yōu)化訓練。這種分階段的訓練方法大幅度減少了訓練深度學習模型的時間。毫無疑問,前文中我們提到的、、D等生成式模型都屬于深度學習模型。那么,什么是深度學習,它和機器學習又有什么關系?有哪些經(jīng)典的深度學習模型對我們理解最新的生成式有幫助?本節(jié)將為你回答這些問題。種。如圖所示,人工智能是一個范圍很大的概念,其中包括了機器學習。機器學習是人工智能提升性能的重要途徑,而深度學習又是機器深度學習又是如何發(fā)展起來的呢?圖2-1深度學習的概念最初起源于人工神經(jīng)網(wǎng)絡ll??茖W家發(fā)現(xiàn)人的大腦中含有大約億個神經(jīng)元,大腦平時所進行的思考、記憶等工作,其實都是依靠神經(jīng)元彼此連接而形成的神經(jīng)網(wǎng)絡來進行的。人工神經(jīng)網(wǎng)絡是一種模仿人類神經(jīng)網(wǎng)絡來進行信息處理的模型,它具有自主學習和自適應的能力。年,數(shù)學家皮茨和麥卡洛克建立了第一個神經(jīng)網(wǎng)絡模型模型,能夠進行邏輯運算,為神經(jīng)網(wǎng)絡的發(fā)展奠定了基礎。生物神經(jīng)元一共由四個部分組成:細胞體、樹突、軸突和軸突末梢。模型其實是對生物神經(jīng)元結(jié)構(gòu)的模仿,如圖,左邊是生物神經(jīng)元的示意圖,右邊是模型的示意圖。為了建模更加方便簡單,模型將神經(jīng)元中的樹突、細胞體等接收到的信號都看作輸入值,軸突末梢發(fā)出的信號視作輸出值。年,計算機科學家羅森布拉特發(fā)明了感知機,它分為三個部分:輸入層、輸出層和隱含層。感知機能夠進行一些簡單的模式識別和聯(lián)想記憶,是人工神經(jīng)網(wǎng)絡的一大突破,但這個感知機存在一個問題,就是無法對復雜的函數(shù)進行預測。世紀年代,人工智能科學家拉姆梅爾哈特、威廉斯、辛頓、楊立昆n等人發(fā)明的多層感知機解決了這個問題,推動了人工神經(jīng)網(wǎng)絡的進一步發(fā)展。世紀年代,諾貝爾獎獲得者埃德爾曼提出D模型并建立了一種神經(jīng)網(wǎng)絡系統(tǒng)理論。他從達爾文的自然選擇理論中獲得啟發(fā),將其與大腦的思維方式聯(lián)系在了一起,認為“面對未知的未來,成功適應的基本要求是預先存在的多樣性”,這與我們現(xiàn)在談論較多的模型訓練和預測方式相契合,對年代神經(jīng)網(wǎng)絡的發(fā)展產(chǎn)生了重大意義。圖2-2M-P在這之后,神經(jīng)網(wǎng)絡技術再也沒有出現(xiàn)過突破性的發(fā)展。直到通過無監(jiān)督學習和有監(jiān)督學習相結(jié)合的方式可以對現(xiàn)有的模型進行優(yōu)化。這一觀點的提出在人工智能領域引起了很大反響,許多像斯坦福大學這樣的著名高校的學者紛紛開始研究深度學習。年被稱為“深度學習元年”,深度學習從這一年開始迎來了一個爆發(fā)式的發(fā)展。9年,深度學習應用于語音識別領域。年,深度學習模型在圖像識別大賽中拔得頭籌,深度學習開始被視為神經(jīng)網(wǎng)絡的代名詞。同樣是在這一年,人工智能領域權(quán)威學者吳恩達教授開發(fā)的深度神經(jīng)網(wǎng)絡將圖像識別的錯誤率從降低到了,這是人工智能在圖像識別領域的一大進步。年,臉書開發(fā)的深度學習項目DF在識別人臉方面的準確率達到了以上。年,基于深度學習的大眾熟知。年,深度學習開始在各個領域展開應用,如城市安防、醫(yī)學影像、金融風控、課堂教學等,一直到最近的現(xiàn)象級產(chǎn)品,它在不知不覺中已經(jīng)滲透到我們的生活中。的全稱是ll,也就是卷積神經(jīng)網(wǎng)絡。對卷積神經(jīng)網(wǎng)絡的研究出現(xiàn)于世紀至年代,到了世紀,隨著科學家們對深度學習的深入研究,卷積神經(jīng)網(wǎng)絡也得到了飛速的發(fā)展,該網(wǎng)絡經(jīng)常用于圖像識別領域。如圖,卷積神經(jīng)網(wǎng)絡共分為以下幾個層級部分:輸入層t、卷積層n、池化層g、全連接層yd。圖2-3像特征連接組合起來,如圖中,將提取到的小狗的頭、身體、腿等局部特征組合起來,形成一個完整的包含小狗的特征向量,然后識別出類別。這就是卷積神經(jīng)網(wǎng)絡進行圖像識別的全過程。練,已經(jīng)能夠識別出小狗,那這些神經(jīng)元也可以應用于識別其他任何圖像中的相似物體;第三,雖然圖像特征的維度降低了,但是由于保留了圖像的主要特征,所以并不影響圖像識別,反而減少了識別圖像需要處理的數(shù)據(jù)量。這三個特性決定了卷積神經(jīng)網(wǎng)絡非常適合用于圖像識別。例如由牛津大學開發(fā)的它在年競賽定位任務中獲得了第一名。圖2-4人工神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡在深度學習領域都占有一席之地,但它們識別的都是獨立的事件。比如卷積神經(jīng)網(wǎng)絡非常擅長識別獨立的圖像,如果讓它識別一百張照片,輸出的結(jié)果互相不受任何影響,但是讓它識別或者預測一句連續(xù)的話,比如理解一個寓言故事或者翻譯一段英RNN的全稱是recurrentneuralnetwork,也就是循環(huán)神經(jīng)網(wǎng)絡。對循環(huán)神經(jīng)網(wǎng)絡的研究最早出現(xiàn)于20世紀80年代末,由幾位神經(jīng)網(wǎng)絡據(jù)記憶的長短,從第一層開始,將激活傳遞到下一層,以此類推,最后得到輸出結(jié)果。圖表示的就是一個循環(huán)神經(jīng)網(wǎng)絡的示意圖,它由輸環(huán)的預測,這個預測既與新輸入的數(shù)據(jù)有關,也取決于每一次循環(huán)的輸入。圖2-5的全稱是el,即生成式對抗網(wǎng)絡,由伊恩古德費洛n等人在年提出,此后各種花式變體,如、等層出不窮,在“換臉”“換衣”等場景下生成的圖片和視頻足以以假亂真。年,實現(xiàn)的表情遷移模型能用一張照片生成一段唱歌視頻,使“螞蟻呀嘿”等各種搞笑視頻火遍全網(wǎng)。學習,這兩個神經(jīng)網(wǎng)絡一個是生成網(wǎng)絡,另一個是判別網(wǎng)絡。生成網(wǎng)絡從潛在空間中隨機取樣作為輸入,如圖所示,生成網(wǎng)絡接收噪聲向到生成網(wǎng)絡的輸出結(jié)果與真實樣本無二。圖2-6GAN了解了的基本原理,我們看一下的應用領域。第一,條件生成??梢曰谝欢挝淖稚梢粡垐D片,或者基于一段文字生成一段視頻。第二,數(shù)據(jù)增強。風格遷移??梢詫⒁粡垐D片的風格轉(zhuǎn)移到另外一張圖片上,這一應用可以被認為是把“風格圖片”的風格加入到“內(nèi)容圖片”里,N能夠很好地從圖片中學習到畫家的真正風格特征(圖)。圖2-7GAN助工具,深度學習已經(jīng)成為現(xiàn)在和未來的必然發(fā)展趨勢。本節(jié)介紹的、和都是深度學習模型的典型代表,后續(xù)我們在介紹各類生成式模型的時候會再次提及它們。Transformer和ChatGPTDeepMind公司就應用Transformer構(gòu)建了蛋白質(zhì)結(jié)構(gòu)預測模型AlphaFold2,現(xiàn)在Transformer也進入了計算機視覺領域,在許多復雜任務序列到序列提到,大家肯定首先想到的就是“”這個詞,也就是“轉(zhuǎn)換”的意思。而顧名思義,也就是“轉(zhuǎn)換器”的意思。為什么一個技術模型要叫“轉(zhuǎn)換器”呢?其實,這也正是很多人肯定對“序列”這個詞感到疑惑,實際上它是由英文單詞“”翻譯過來的。序列,指的是文本數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)在這一時刻的內(nèi)容,往往與前幾個時刻的內(nèi)容相關,同樣也會影響著后續(xù)時刻的內(nèi)容。種問題稱為序列到序列問題,也是的核心、深度學習最令人著迷的領域之一。表中列舉了一些序列到序列問題,包括其任務類型、輸入內(nèi)容和輸出內(nèi)容。表2-1深度神經(jīng)網(wǎng)絡在解決輸入和輸出是固定長度的向量問題時,如圖像識別,表現(xiàn)還是很優(yōu)秀的,如果長度有一點變化,它也會靈活采用補零等手段來解決問題。但是對于機器翻譯、語音識別、智能對話等問題,即將文本表示成序列后,事先并不知道輸入輸出長度,深度神經(jīng)網(wǎng)絡的處理效果就不盡如人意了。因此,如何讓深度神經(jīng)網(wǎng)絡能夠處理這些不定長度的序列問題,自型也就在此基礎上誕生了。序列到序列模型一般是由編碼器和解碼器組成的。圖是一張標準的編解碼機制結(jié)構(gòu)圖,其工作流程可以簡單描述英場景為例,編碼器側(cè)對應的輸入是一段中文序列,解碼器側(cè)對應的輸出就是翻譯出來的英文序列。圖2-8在實際應用過程中,序列到序列模型的輸入輸出數(shù)據(jù)可以是不同形式的數(shù)據(jù),對應的編碼器側(cè)和解碼器側(cè)采用的模型結(jié)構(gòu)可以是不同的。例如,可以輸入一張圖片,輸出針對圖片的一段描述,實現(xiàn)“看圖說話”的功能,這時候編碼器側(cè)可以采用模型,而解碼器側(cè)可以采用自注意力機制是注意力機制的一種變體。它減少了對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關性。例如這樣一句英文:“Hettsteede”(在舉起這個背包之前,他覺得它是輕的。)這里“”的意思是“燈”還是“輕的”呢?這就需要我們聯(lián)系上下文來理解。我們在看到“”之后就應該知道,這里的“”很大概率指的是“輕的”。自注意力機制會計算每個單詞與其他所有單詞之間的關聯(lián),在這句話里,當翻譯“”一詞時,“”一詞就有較高的相關性權(quán)重。通序列到序列模型。就是通過結(jié)合多個自注意力機制,來學習內(nèi)容在不同空間表示里面的特征,從而將“無意”序列轉(zhuǎn)換為“有意”序列。)。它同時也在輸入編碼和自注意力方面做了優(yōu)化,例如采用多頭注意力機制、引入位置編碼機制等等,能夠識別更復雜的語言情況,從而能夠處理更為復雜的任務。注意力方面,采用的是多頭注意力d。簡單點說,不同標記相互之間的注意力通過多個注意力頭來實現(xiàn),而多個注意力頭針對標記之間的相關性來計算注意力權(quán)重(圖)。如在一個句子中,某個注意力頭主要關注上一個單詞和下一個單詞的關系,而另一個注意力頭就會把關注點放在句子中動詞和其對應賓語的關系上。而在實際操作中,這些注意力頭的計算都是同步進行的,這樣整體反應速度就會加快。這些注意力頭的計算完成以后會被拼接在一起,由最終的前饋神經(jīng)網(wǎng)絡層進行處理后輸出。為了便于理解,我們來看這樣一個例子:“eyeeaydts”(猴子快速地吃了香蕉,它看起來很餓。)這句話中的“”指的是什么?是“”還是“”?這對人類來說是一個簡單的問題,但對模型來說卻沒有那么簡單,即便使用了自注意力機制,也無法避免誤差,但是引入多頭注意力機制就能很好地解決這個問題。圖2-11位置編碼l機制也是特有的。在輸入的時候,加上位置編碼的作用在于計算時不但要知道注意力聚焦在哪個單詞上面,還需要知道單詞之間的相對位置關系。例如:“etakda”(她買了書和筆。)這句話中的兩個“”修飾的是什么?是“”還是“”?意思是“一本”還是“一支”?這對人類來說也是一個簡單的問題,但對模型來說卻比較困難,如果只使用自注意力機制,可能會忽略兩個“”和它們后面名詞之間的關系,而只關注“”和其他單詞之間的相關性。引入位置編碼就能很好地解決這個問題。通過加入位置編碼信息,每個單詞都會被加上一個表示它在序列中位置的向量。這樣,在計算相關性時,模型不僅能夠考慮單詞之間的語義相關性,還能夠考慮單詞之間的位置相關性,也就能夠更準確地理解句子中每個單詞所指代或修飾的對象。的訓練方式是,模型參數(shù)不再是隨機初始化的,而是使用大量通用數(shù)據(jù)進行“預訓練”,得到一套模型參數(shù);然后用這套參系列的模型結(jié)構(gòu)秉承了不斷堆疊的思想,將作為特征抽取器,使用超大的訓練語料庫、超多的模型參數(shù)以及超強的計算資源來進行訓練,并通過不斷提升訓練語料的規(guī)模和質(zhì)量,提升網(wǎng)絡的參數(shù)數(shù)量,完成迭代更新。模型的更新迭代也證明了,通過不斷提升模型容量和語料規(guī)模,模型的能力是可以不斷完善的。圖2-12ChatGPT就是經(jīng)過這樣一步步的訓練,逐漸成形,一經(jīng)問世,其優(yōu)秀的自然語言處理能力就獲得了全世界的矚目。年月發(fā)布了更為強大的,但在自然語言處理領域依然具有里程碑式的意義。我們已對的實現(xiàn)原理及核心技術有了一定了解,相信在不久的將來,這一最新成果將會為的應用創(chuàng)造出更多的可能。Diffusion據(jù)“cowboyskiing,oilpainting”(牛仔在滑雪,油畫風格)生成的圖像。圖2-13DALL·E2了廣泛的關注。2022年8月,由StabilityAI公司開發(fā)的另一款文本生成圖像產(chǎn)品——StableDiffusion,同樣基于Diffusion模型實現(xiàn)。之后一什么是事實上,在D模型出現(xiàn)之前,以(生成對抗網(wǎng)絡)模型為基礎的圖像生成模型還一直是研究的主流,但是存在一些已知的缺陷。它可能不能學習完整的概率分布,比如用各種動物的圖像訓練的一些技術問題。而D模型利用最新的訓練技術,跨越了模型調(diào)優(yōu)的階段,可以直接用來做特定領域的任務,能實現(xiàn)令人震驚的生成效果,這也使得D模型領域的研究呈現(xiàn)出百花齊放的狀態(tài)。D在中文中被譯為“擴散”。擴散是一種物理學現(xiàn)象,指的是一種基于分子熱運動的輸運現(xiàn)象,是分子通過布朗運動從高濃度區(qū)域向低濃度區(qū)域轉(zhuǎn)移的過程。它是趨向于熱平衡態(tài)的過程,也是熵驅(qū)動的過程。這是一個常見的例子:一滴墨水擴散到整個盛水的容器中。在這個擴散過程中,嘗試計算容器的某個小體積內(nèi)墨水分子的分布情況,是非常困難的,因為這種分布很復雜,也很難取樣。但是,墨水最終會完全擴散到水中,這時候就可以直接用數(shù)學表達式來描述這種均勻且簡單的分子概率分布。統(tǒng)計熱力學可以描述擴散過程中每一時刻的概率分D模型亦即擴散模型,最早是Dpdggm論文中提出的。作者受統(tǒng)計熱力學的啟發(fā),開發(fā)了一種新的生成模型。想法其實很簡單:首先向訓練數(shù)據(jù)集中的圖像不斷加入噪聲,使之最終變成一張模糊的圖像,這個過程就類似于向水中加入一滴墨水,墨水擴散,水變成淡藍色,然后教模型學習如何逆轉(zhuǎn)這一過程,將噪聲轉(zhuǎn)化為圖像。下面我們詳細介紹一下這個過程是如何進行的。如圖到圖像變得完全無法識別。正如圖而這個隨機過程中的每一個狀態(tài)概率分布,只能由其前一個狀態(tài)決定,與其他狀態(tài)無關。對應地,我們可以把整個正向擴散過程的每一張圖片定義為一個狀態(tài),那每一張圖片是什么樣子只跟它的上一張圖片有關,并且遵循一定的概率分布。如此我們首先得到了一個定義明確的正向過程。圖2-14通過正向擴散和逆向擴散兩個過程,擴散模型就能實現(xiàn)以一張原始圖像為基礎,生成一張全新的圖像。這大大降低了模型訓練過程中數(shù)據(jù)處理的難度,相當于用一個新的數(shù)學范式,從另一個角度定義“生成”過程。和數(shù)簡單,而且不需要訓練別的網(wǎng)絡,實現(xiàn)了易用性的極大增強。擴散模型在提出之初并沒有受到很大的關注。這一方面是因為當時模型大行其道,研究人員的研究重心依然圍繞在基礎上的優(yōu)以獲得比較好的效果,這導致了樣本生成很慢。正如前述論文作者回憶時稱的,“當時,這個模型并不令人驚喜”。圖2-15圖2-16openai式,也成為后來圖像生成類模型所采用的典型模式,DALL·E后續(xù)的升級版本DALL·E2,以及StableDiffusion、Midjourney等模型都是這種類型的。接下來我們以StableDiffusion為例,細說“字”是怎么變成“畫”的。StableStableDiffusion是由StabilityAI主導開發(fā)的文本生成圖像模型,其交互簡單,生成速度快,在極大地降低了使用門檻的同時還保持了令圖2-17StableDiffusion從圖可以看到,eD內(nèi)部可以分為兩個部分,即文本編碼器和圖像生成器。eD的工作原理就是通過文本編碼器將語義轉(zhuǎn)化為計算機可以處理的語言,也就是將文本編碼成計算機能理解的數(shù)學表示,之后將這些編碼后的結(jié)果通過圖像生成器轉(zhuǎn)換為符合語義要求的圖像。首先來看文本編碼器部分。計算機本身無法理解人類語言,需要使用一種文本編碼的技術,即模型。模型是由開源的深度學習領域的一個多模態(tài)模型。全稱為ee,即基于對比學習的大規(guī)模圖文預訓練模型。模型不僅有著語義理解的功能,還有將文本信息和圖像信息結(jié)合,并通過注意力機制進行耦合的功能。模型在eD是怎么被訓練并在文圖轉(zhuǎn)換中發(fā)揮作用的呢?模型由一個圖像編碼器和一個文本編碼器構(gòu)成。模型的訓練過程如圖所示。首先從積累的數(shù)據(jù)集中隨機抽取出一張圖片和一段文字,在這里,文字和圖片不一定是匹配的。抽取出的圖片和文字會通過圖像編碼器和文本編碼器被編碼成兩個向量。模型的任務就是確保圖文匹配,并在此基礎上進行訓練,最終得到兩個編碼器各自最優(yōu)的參數(shù)。圖2-18CLIP圖2-19CLIP文字生成圖像的秘密所在??梢哉f,CLIP模型在StableDiffusion的文本編碼器部分發(fā)揮了最核心的作用。說完StableDiffusion的文本編碼器部分,我們再來看圖像生成器部分。這部分由兩個階段構(gòu)成,一個是圖像信息生成階段,一個是圖像在圖像信息生成階段,擴散模型首先利用隨機數(shù)生成函數(shù)生成一個隨機噪聲,之后與文本編碼器部分利用模型生成的編碼信息結(jié)合,生成一個包含噪聲的語義編碼信息。然后這個語義編碼信息又生成較低維度的圖像信息,也就是所謂的隱空間信息nft,代表著這個圖像存在著隱變量。這也是eD較之前擴散模型在處理速度和資源利用上更勝一籌的原因。一般的擴散模型在這個階段都是直接生成圖像,所以生成的信息更多,處理難度也更大。但是eD先生成隱變量,所以需要處理的信息更少,負荷也更小。從技術上來說,eD是怎么做到的呢?其實是由一個深度學習分割網(wǎng)絡和一個調(diào)度算法共同完成的。調(diào)度算法控制生成的進度,就具體去一步一步地執(zhí)行生成的過程。在這個過程中,整個的生成迭代過程要重復次,隱變量的質(zhì)量也在這個迭代的過程中變得更好。圖2-20我們總結(jié)一下,eD首先通過模型對輸入提示詞進行語義理解,將其轉(zhuǎn)換成與圖像編碼接近的編碼信息,在后續(xù)模塊看來,一段文字已經(jīng)變成一張相似語義的圖片了;然后在圖像生成器模塊中,完成完整的擴散、去噪、圖像生成過程,生成一張符合提示詞要求的圖片。最終,通過文本編碼器和圖像生成器的共同作用,“字”變成“畫”、“文字變圖片”這種看似神奇的事就發(fā)生了。無論是eD、D還是,通過擴散模型、模型或其他深度學習模型組合實現(xiàn)的繪畫工具的出現(xiàn),都讓我們意識到人工智能領域的技術發(fā)展速度已經(jīng)超出了預期。而在領域,繪畫技術的進步毋庸置疑地吹響了指示設計領域未來發(fā)展方向的號角。在技術的催生下,數(shù)字內(nèi)容生產(chǎn)方式將在最大范圍內(nèi)發(fā)生最大可能的變革已經(jīng)是不爭的事實。而身處其中的我們,準備好迎接這一場未知的革命了嗎?第三 在了解了的產(chǎn)業(yè)發(fā)展和底層邏輯后,我們就可以從應用層面去認識這類重要的模型了。其實想象不到的地方,都已經(jīng)得到了應用。在本章我們會從數(shù)字媒體,也就是“生成什么”的角度,分別探討文字、圖像、音頻、視頻、游戲的生成。我們會見證在的助力下,內(nèi)容是如何被制造出來并呈現(xiàn)至我們面前的。相信在讀完這一章后,你也會躍躍欲試地應用工具去生成內(nèi)容,體會的便利之處。在前文中,我們介紹了的一系列強大功能,包括生成文本、圖像、視頻等等,揭開了生成文字這項基本功能進行延展,讓大家了解人工智能究竟能生成何種類別的文字,又是如何在我們的生活中被實際應用的。生成文字的秘密是什么?這離不開之前介紹的各項技術的支持:深度神經(jīng)網(wǎng)絡、、大規(guī)模預訓練模型等。選,這一步是為了確保信息的準確性和客觀性。在面對海量信息時,新聞撰寫者需要對各種信息進行比較,有時還需要進行深入的調(diào)查和研還需要對詞匯和語法進行仔細推敲,來保證內(nèi)容的準確性和易讀性。第四步就到了編輯校對,一篇新聞稿件需要編輯人員進行多次編輯和校對一問世,新聞行業(yè)就驚呼快要被顛覆,有些人已經(jīng)想要積極擁抱技術也就不再難以理解了。現(xiàn)實中,在人工智能已經(jīng)可為新聞行業(yè)賦能的當下,不少企業(yè)都紛紛試水,開始在新聞行業(yè)“大展拳腳”。d就是一家以新聞自動化生成技術而被市場熟知的企業(yè)。d旗下的產(chǎn)品早就開始在美聯(lián)社使用,它會在每個季度生成0篇新聞報道,而且這些生成的報道,出現(xiàn)的錯誤也少于人工撰寫的新聞稿。如今,d的自然語言生成技術不僅用于新聞內(nèi)容的生成,還被各類企業(yè)爭相購買,用來根據(jù)相關數(shù)據(jù)生成企業(yè)內(nèi)部報告。這項創(chuàng)舉節(jié)約了企業(yè)的大量人工成本,還能讓撰稿人、公司內(nèi)部的分析師等人有時間去做更加有意義的工作。對于帶來的便利,國內(nèi)的企業(yè)也多有嘗試。早在年月,騰訊財經(jīng)就推出了自主研發(fā)的自動寫稿機器人D。封面新聞則擁有自主開發(fā)的機器人“小封”,“小封”除了能快速生成新聞稿,還能和用戶進行語音互動。新華社除了擁有主要報道體育和財經(jīng)新聞的新聞機器人“快筆小新”,還有一款叫作“媒體大腦”的平臺,在年全國兩會的報道中,“媒體大腦”在對年來政府工作報告的異同進行收集、分析和對比后,推出《一杯茶的工夫讀完年政府工作報告,看出了啥奧妙》這篇文章。由此可見,已然越來越廣泛地應用在新聞生成中,并產(chǎn)生了深刻的影響。年月日,《人民日報》發(fā)布了由百度提供技術支持的“創(chuàng)作大腦”,以此來為智能編輯部建設助力,這也拉開了國內(nèi)智能媒體新時代的帷幕?!度嗣袢請蟆返倪@個“創(chuàng)作大腦”可以給媒體機構(gòu)提供覆蓋全媒體生態(tài)的智能解決方案,并具備了實時新聞監(jiān)測、智能寫作、新聞轉(zhuǎn)視頻、圖片智能處理、智能字幕制作、直播智能拆條、在線視頻快編、可視化大數(shù)據(jù)等式智能創(chuàng)作平臺。為這個“創(chuàng)作大腦”提供技術支持的是百度智能云的“云”技術,該技術主要來自百度大腦智能創(chuàng)作平臺。百度大腦智能創(chuàng)作平臺為創(chuàng)作者解決了多項問題,并深度參與新聞生產(chǎn)的策、采、編、審、發(fā)全過程,能全面提升新聞行業(yè)的內(nèi)容生產(chǎn)效率。隨著的發(fā)布,依靠其強大的文字創(chuàng)作能力,可幫助編輯人員快速完成新聞內(nèi)容的編寫,這無疑會給新聞創(chuàng)作領域帶來全新的變革。鑒于這種情況,以為支撐的智能投研就派上了大用場。智能投研是人工智能在投資研究領域的一項重要應用,利用人工智能來自動致。年月日,推特員工們經(jīng)歷了一波大裁員,幾乎波及了所有部門,導致了大約的員工失業(yè),在安全審查團隊中,的員工離開了公司。雖然我們難以獲知這輪裁員的所有決策因素,但有一點可以肯定,與在工作場景下越來越廣泛的應用有一定的關系。在C代碼能自動生成的時代,我們是否還需要這么多程序員呢?我們把目光放在當前在程序生成中的應用上。作為全球最大的代碼托管平臺,H在年月聯(lián)合,推出了Hb預覽版。這款應用能夠從已經(jīng)命名或者正在編輯的代碼出發(fā),根據(jù)上下文為開發(fā)者提出代碼上的建議,被親切地稱為“你的結(jié)對程序員”。Hb使用的是的模型,這個模型能夠把自然語言轉(zhuǎn)換成代碼。在使用這個模型后,Hb就能從注釋和代碼里提取上下文,從而提示程序員接下來應該編寫的代碼是什么樣的。其實是的一個版本,這個版本的模型專門針對編程任務進行了微調(diào)。根據(jù)H官方的介紹,已然經(jīng)過了數(shù)十億行代碼的訓練,而且Hb不但可以理解英語,還能理解其他的語言,這一功能對于母語非英語的程序員可以說是非常有幫助的。Hb還能夠把注釋轉(zhuǎn)換為代碼,開發(fā)人員只需要寫出一段內(nèi)容描述自己想要的代碼,它就能自動“理解”并給出相應的代碼,甚至能實現(xiàn)自動聯(lián)想和糾錯。另外,它在編寫單元測試用例方面也很擅長。經(jīng)過幾個月的短暫測試后,H還全新升級了個人版和企業(yè)版。升級后,Hb具備了更強大的代碼生成功能,響應速度也更快了。從官方數(shù)據(jù)中我們得知,在眾多使用Hb的開發(fā)人員中,有的人表示能更迅速地完成任務,的人表示能夠節(jié)省大量精力,還有的人表示使用時感覺非常有成就感,能夠更加專注于工作。如圖,只要編寫簡單的提示詞,就能直接聯(lián)想出整個函數(shù)的實現(xiàn)。盡管如此,如果我們認為當下已經(jīng)能夠完全取代程序員,就失之偏頗了。正如它的名字一般,目前還只是一種輔助工具,并不能完全取代程序員,但隨著時間的推移,取代程序員也并非天方夜譚。圖3-1GitHubCopilot程序生成在國外掀起熱潮,國內(nèi)的各大企業(yè)也并未落后。硅心科技在年月推出了國內(nèi)第一個基于深度學習的支持方r。這款模型可以在同一時間理解人類語言和編程語言,還能基于自然語言功能的描述,一鍵產(chǎn)出完整的程序代碼。如今利用簡單的和工具,開發(fā)人員就可以輕松體驗r代碼生成模型的方便之處??赐炅伺c文字“相依相伴”的精彩故事,你應該對與其他內(nèi)容形式結(jié)合的表現(xiàn)也產(chǎn)生好奇了吧?最近風靡各大社交平臺的“I繪畫”就是與圖像相結(jié)合的內(nèi)容產(chǎn)出形式,用戶們也都積極嘗試繪畫,利用它去實現(xiàn)自己天馬行空的想法,迸射出了更多的靈感和火花。年杰森艾倫提交的一幅繪畫作品,名為《太空歌劇院》(圖)繪畫作品獲獎,才使得繪畫走入人們的視野,開始真正火爆起來。圖3-2StableDiffusion一經(jīng)推出就由于其強大的圖像生成功能受到廣大網(wǎng)友的喜愛。它操作簡單,出圖速度快。每一次使用這些應用生成圖像就如OpenAI的DALL·E等,都可以生成與真實照片十分相似的繪畫作品。而由StabilityAI推出的應用程序StableDiffusion,則可以稱為AI繪圖領以StableDiffusion為例,用戶在使用其圖像生成功能時,有不同的選項可以進行設置,比如可以設置生成圖像步驟的數(shù)量,還能設置隨機種子,或者單次生成的圖像數(shù)量(1~10之間)。用戶在使用StableDiffusion時還可以創(chuàng)建各種格式的圖像,其圖像的橫版分辨率最大可達圖3-3StableDiffusion2022年底上線的StableDiffusion2.0具有更強大的能力。這次的StableDiffusion2.0版本具有強大的“文本到圖像”模型。這個模型由D是由推出的繪畫產(chǎn)品。利用D,用戶能夠使用“文本到圖像”和“文本引導的圖像到圖像”生成算法實現(xiàn)圖像生成功能。如果想使用“文本引導的圖像到圖像”生成算法,用戶可以先上傳圖像,D會把用戶所上傳的圖像作為初始圖,并根據(jù)用戶的提示來作圖。更方便的是,它還有“編輯生成的圖像”功能,通過使用“文本引導的圖像到圖像”生成算法,用戶能夠在已生成圖像的基礎上生成另一個圖像,來對原生成圖像進行擴展,或者補全有部分遮擋的圖像。D生成的圖像的分辨率都是的固定大小,也可以用于任何合法目的,包括商業(yè)目的(圖)。圖3-4DALL·E2由勢,使得AI繪畫在各圈層里都形成了聲勢。國內(nèi)比較火的AI繪畫小程序“造夢日記”,就在StableDiffusion的技術基礎上進行了改進。研發(fā)團隊對StableDiffusion的模型進行了本土化改造,并利用自己寫的“followinstruction”(按照指令)方式針對模型進行訓練,還加入了海繪畫的“活動范圍”不止停留在平面上,D繪圖它也能輕松駕馭。雖然還處于初期階段,目前市場上已經(jīng)有一些開發(fā)者開始利用人工智能實現(xiàn)D內(nèi)容的生成。如eF、DAD、F等工具,都能利用技術,實現(xiàn)自動化的圖像內(nèi)容生成。D可以把平面圖像處理為逼真的D模型。為了生成訓練數(shù)據(jù)集,可以從多種不同角度描繪同一個物體,就像攝影師繞著一個房子轉(zhuǎn)圈拍攝一樣,這些多角度的圖像會被插入逆圖形的渲染框架。逆圖形就是從D圖像推斷出D網(wǎng)格模型的過程,當完成多視圖圖像訓練后,僅僅需要一個D圖像,D就能生成D網(wǎng)格模型并進行渲染。除了生成富有真實感的圖片,繪畫還可以進行風格性圖片的創(chuàng)作,如繪圖界的“霸王”eD就擁有龐大的藝術風格庫。在這個風格庫里,賽博朋克風、水墨風、日漫風等應有盡有,油畫、素描、水彩等畫作形式也能盡情選擇。下面我們通過案例來看看它強大的圖像生成功能。我們先來看看StableDiffusion生成的肖像畫。StableDiffusion可以游刃有余地進行肖像畫生成,不管是動漫、水彩等手繪而抽象的風 Diffusion可以生成名人照片,比如在程序中輸入科學家愛因斯坦的名字,StableDiffusion就可以準確生成相應的照片(圖3-6)。圖3-6StableDiffusion圖3-7StableDiffusion圖3-8StableDiffusion模仿不同繪畫大師的風格也不在話下。我們讓StableDiffusion分別模仿畢加索和梵高為一位老奶奶畫一幅肖像畫,兩位大師的繪畫風格迥異,StableDiffusion生成的圖像與各自的畫風驚人地一致,圖3-9中,左圖為以畢加索風格“所作”,右圖則為以梵高風格“所作”。圖3-9StableDiffusion你甚至可以隨意指定藝術風格,讓StableDiffusion根據(jù)你想要的風格進行繪制,例如生成文藝復興時期的水彩畫——威尼斯水城(圖3-圖3-10StableDiffusion圖3-11StableDiffusion我們先來說說國外的幾個繪圖程序。F是一個在線圖片編輯網(wǎng)站,在全世界已經(jīng)有上百萬的“粉絲”,雖說它的“主業(yè)”是在線圖片編輯,但是它也支持圖像生成。這款應用的使用方式也非常簡單,用戶只需要輸入文字提示,然后去查看F的輸出內(nèi)容即可,用戶每天能獲得次免費生成圖像的機會。用戶可以利用它體驗從文本到圖像、從圖像到圖像、快速圖像生成等等不同的轉(zhuǎn)換模式。F支持D畫、動漫角色繪畫、逼真圖像生成等等,功能很是強大。也是市面上受歡迎程度最高的圖像生成軟件之一,用戶每天有次免費生成圖像的機會。它的使用也非常方便,除了能實現(xiàn)換。樣式轉(zhuǎn)換就是用戶把圖像上傳到,它就能夠把這張圖像變成名畫風格。的運作基于信用系統(tǒng),用戶手里擁有的積分越多,可以生成的圖像就越多。D(夢境生成器)是由加拿大的一家創(chuàng)業(yè)公司創(chuàng)建的,這款軟件被許多人認為是最好用的全能圖像生成軟件。Dm的使用過程與很像,在里面輸入一句話,選定一種藝術風格,就能生成圖像。它有一個極大的優(yōu)勢,即用戶可以上傳圖像作為參考,由此生成更符合用戶想法的圖像。它的風格庫里也有多種藝術風格供用戶選擇,能夠免費進行不限數(shù)量的圖像生成。Craiyon也是一款便捷的圖像生成軟件。它的曾用名為DALL·Emini,是由谷歌和HuggingFace共同推出的。用戶同樣只需要輸入文字說還有一款產(chǎn)品叫DeepDream,它的特別之處在于附帶了創(chuàng)建視覺內(nèi)容的人工智能工具。DeepDream能夠以文本提示為基礎,生成逼真另一款繪圖應用天工巧繪是昆侖萬維公司旗下模型,這家公司是當下國內(nèi)在領域發(fā)展最為全面的公司之一,同時也是國內(nèi)首個全面發(fā)展開源社區(qū)的公司。其旗下的產(chǎn)品包括文本、圖像、音樂、編程等多種形式的內(nèi)容生成工具。天工巧繪可以生成具有現(xiàn)代藝術風格的高分辨率圖像,還支持eD模型以及相關微調(diào)模型的英文提示詞,也就是說,eD適用的提示詞在這里也是可以使用的。在本節(jié)中,我們從繪畫這項技術延展開來,介紹了當下生成圖像最新的突破,以及最熱門的應用??赡芎芏嗳诉€未能玩轉(zhuǎn)繪圖,甚術,掃描大腦中的特定部位獲取信號,就能重建我們眼里看到的圖像。雖然目前僅僅復制了“眼睛”所觀察到的東西,但會不會有那么一天,可以根據(jù)人大腦中的思維、記憶構(gòu)建出圖像或文字?當那一天真的到來的時候,人類豈不是就變成“三體人”了?無論怎樣,“潘多拉魔盒”是否已經(jīng)打開,需要思考的永遠不是技術,而是在背后操縱它的人。作為人類,與共行的時刻,我們也將會面臨無數(shù)拷問。音頻是一段隨著時間變化的聲音序列,每個細節(jié)都非常生動。下面我們從音樂生成、語音克隆、跨模態(tài)生成三個方面,看看在音頻領域與人類協(xié)同工作的過程。在我們傳統(tǒng)的認知中,音樂是很受人歡迎的藝術形態(tài),也均由人創(chuàng)作,一段樂曲中會蘊含創(chuàng)作者的主觀情感,很難想象機器可以參與到音樂的創(chuàng)作過程中,但是讓不可能變成了可能!一款名為的模型就可以輕松地進行音樂生成(圖)。由發(fā)布,屬于音樂創(chuàng)作的深度神經(jīng)網(wǎng)絡。它十分“全能”,可以模仿可以基于自己想要的風格,生成約分鐘的音樂作品。圖3-12MuseNet并不是依托人類已有的音樂創(chuàng)作方法對音樂進行編程,而是在學習了現(xiàn)有音樂的和聲、節(jié)奏和風格,有了一定了解后才開始創(chuàng)作。背后的工作人員會從各種渠道收集訓練數(shù)據(jù),如數(shù)據(jù)集、音樂網(wǎng)站等,還會從其他渠道收集爵士樂、流行音樂等風格的音樂。在訓練的過程中,工作人員共利用了數(shù)十萬個音樂文件。在了解不同的音樂風格后,就可以混合生成新的音樂了。如果你向機器提供了肖邦夜曲的前幾個音符,給的樂音,機器就會根據(jù)你的需求,生成你想要的音樂。也很能“整活”,在上舉辦了一場實驗音樂會,還推出共同作曲家d,這樣我們普羅大眾也能用它來創(chuàng)作自己想要的音樂了。共同作曲家有兩種模式:簡單模式和高級模式。在簡單模式下,用戶首先會聽到現(xiàn)有的隨機樣本,在選擇某個作曲家或某種音樂風格后,就可以生成自己想要的音樂了;在高級模式下,用戶有更多的選擇,可以隨意選擇樂器等,生成更具個性化的音樂作品。但這個版本的還有一定的局限性,由于它是通過計算可能的音符和樂器的概率來進行作曲的,所以會生成不太和諧的內(nèi)容,比如把肖邦風格配上低音鼓,音樂聽起來有割裂感。在樂壇,儼然成了人氣越來越旺的“新星”,除了,其他應用也大放異彩,許多歌手都和聯(lián)手推出歌曲。美國歌手泰琳薩頓n就曾和共同推出世界首張作曲專輯IM(《我是人工智能》)。索尼Fw與歲的法國作曲家伯努瓦·卡雷t合作,發(fā)布了索尼Fw的首張專輯Ho(《你好,世界》),這張專輯里囊括了首參與創(chuàng)作的歌曲,聽起來毫無違和感。曾經(jīng)在名噪一時的單曲“D’s”(《爸爸的車》),就是由索尼的應用推出的。谷歌為了慶祝音樂家巴赫的生日,在主頁上放置了一個小游戲,只要用戶確定好音符和節(jié)奏,它就會用巴赫的風格彈奏出用戶的作品。e c也推出了谷歌g制作器(圖),這款作曲工具主要以可視化的方式幫人類理解音樂。此外,谷歌還利用神經(jīng)網(wǎng)絡音頻合成技術,推出了神經(jīng)網(wǎng)絡音頻合成器,在瀏覽器上即可使用,用戶可以在主界面中切換音色,并通過滾動條調(diào)節(jié)音色偏向,這對于想即興創(chuàng)作的用戶來說非常方便。圖3-13SongMaker在國內(nèi),各類音樂應用也層出不窮。目前“虛擬歌手”大熱,“歌嘰歌嘰”“虛擬歌姬”等都受到了年輕人的歡迎。這類p可以在用戶的音色基礎上制作歌手,很多用戶也在社交網(wǎng)站上產(chǎn)出了大量“用自己的聲音做虛擬歌手”的教學視頻。這類除了生成“虛擬歌手”的功能外,還有“一鍵寫歌”“硬核原創(chuàng)”等功能,也就是說,每個人都可以拿它創(chuàng)作自己的歌曲,門檻極低。例如,使用“一鍵寫歌”功能,只需輸入關鍵詞與自己的生日,就可以快速生成一段約中?!坝埠嗽瓌?chuàng)”的功能也十分簡單,系統(tǒng)會提供一部分音符,只要用戶隨意選擇,就能在音符基礎上形成一段簡單的旋律,然后填詞就可以完成創(chuàng)作。在創(chuàng)作完成后,可以選擇人聲進行試聽,欣賞一下自己的作品。另外,網(wǎng)易云音樂、騰訊、阿里等平臺也都推出了有作曲、作詞功能的應用。其實在你無所知覺的時候,“C其實對于來說,音樂合成只是很好實現(xiàn)的一個功能,除此之外,語音克隆也很值得拿出來講一講。語音克隆涉及語音合成技術,語想要克隆出一個人的聲音,通常需要采集說話人的聲音數(shù)據(jù),以數(shù)據(jù)去訓練一個語音合成模型。我們來看一下系統(tǒng)是如何工作的。當我們有了上面說的句大概訓練個性化的聲學模型。有了這個聲學模型之后,對于任意一段文本信息,會先預處理成一段字符和音素序列,再經(jīng)由這個聲學模型轉(zhuǎn)換成一段具有說話人音色特點的聲譜圖。這個聲譜圖并不能直接發(fā)出聲音,最后還需要一個聲碼器來將聲譜圖轉(zhuǎn)換成聲音波形。如此,也就完成至于語音克隆的代表性應用,當首推。這是一款由H博主推出的語音克隆模型,這個模型的神奇之處在于,它可以在幾秒鐘之內(nèi)克隆出任意一條中文語音,還能用那條語音的音色合成新的內(nèi)容。如果用戶需要克隆的是秒以內(nèi)的樣本,配合個字的語音文出現(xiàn)問題??吹奖竟?jié)的標題或許你會問,聲音也會有跨模態(tài)玩法嗎?當然有了!音頻的跨模態(tài)生成現(xiàn)在有好幾種玩法,如文本生成音頻、圖像生成音頻、視頻生成音頻等。當下非常熱門的模型就是一個例子(圖)。模型是由北京大學和浙江大學聯(lián)合火山語音推出的一款應用,只需用戶在應用中輸入文本、圖片或視頻,它們就能生成逼真音效。用戶既可以輸入鳥、鐘表、汽車等圖片,也可以輸入一段煙花、狂風、閃電等的視頻,對n來說,生成這些內(nèi)容的音效都不在話下。的音效合成技術,或?qū)淖円曨l制作的未來。圖3-14Make-An-Audio實現(xiàn)跨模態(tài)音頻合成這款“網(wǎng)紅”模型的內(nèi)在技術原理究竟是什么?在以視覺輸入的音頻合成方面,利用文本編碼器,并使用其圖像—這款模型能夠合成高質(zhì)量、高可控性的音頻,其提出的“oyt”(不遺漏任何一種模態(tài))理念更能解鎖任意模態(tài)輸入的音頻合成。我們可以預見的是,音頻合成技術將會在未來的電影配音、短視頻創(chuàng)作等領域發(fā)揮重要作用,而借助等模型,或許人人都可以變成專業(yè)的音效師,都能夠借助文本、圖片、視頻在任意時間、任意地點,合成生動的音頻和音效。在現(xiàn)階段,o也并不是完美無缺的,由于其多樣的數(shù)據(jù)來源,還有難以避免的樣本質(zhì)量問題,模型在訓練過程中會產(chǎn)生一些副作用,比如生成不符合文字內(nèi)容的音頻等,但可以肯定的是,在音頻領域的進展確實令人驚喜。進入音頻領域,同樣施展了它的“魔法”,在音樂生成、語音克隆和跨模態(tài)生成中發(fā)展得都極快,為用戶帶來了更多的方便,也使可生成舞蹈!可能在今后,還可以利用音樂的節(jié)奏、風格等對舞蹈動作進行拆分和組合,生成個性化的舞蹈供用戶學習,線下的練舞室可能會迎來真正的挑戰(zhàn)。在一種產(chǎn)業(yè)發(fā)展的同時,與之對應的另一種產(chǎn)業(yè)必然會隨之發(fā)生變化,我們也期待未來在音頻領域為我們帶來的更多可能。如果你是個電影迷,應該能切實感受到日新月異的新技術正在改變電影行業(yè),像新型D技術、無人機拍攝、虛擬現(xiàn)實和增強現(xiàn)實等,都和現(xiàn)在的電影制作密不可分,而是其中影響極大、令人印象極為深刻的技術。在電影創(chuàng)作的每個環(huán)節(jié),人工智能都有發(fā)揮作用的空間。對于觀眾而言,觀看一部由人工智能編寫劇本、設計視聽效果、制作特效、剪輯,乃至參與表演的電影,已經(jīng)不再是想象,而是成了現(xiàn)實。都在慢慢改由人工智能完成,因此電影行業(yè)內(nèi)的許多工作正變得越來越自動化和智能化。本節(jié)我們就帶大家看看在影視領域做出了什么貢獻。之前我們講到過在文本創(chuàng)作領域的突出能力,劇本是文本的一種,進行劇本創(chuàng)作自然也不在話下。其實傳統(tǒng)劇本創(chuàng)作存在諸多不一致,都會致使項目中斷。在這種情況下,的使用就非常有必要了,它可以大大提升劇本創(chuàng)作的速度,縮短創(chuàng)作周期,給其他工作留出時間。既然在劇本創(chuàng)作中如此重要,現(xiàn)在其市場應用情況如何呢?谷歌旗下的公司D就發(fā)布了寫作模型D,它可以生成人物描述、位置描述、情節(jié)點和對話等內(nèi)容。人類作家可以編輯D寫出的內(nèi)容,將它調(diào)整為適當?shù)哪_本。我們可以把它想象成“劇本界的”,只不過它輸出的內(nèi)容可以編輯為電影腳本,有用戶已經(jīng)開始用它來為戲劇和電影創(chuàng)建連貫的劇本了。如果你想使用D創(chuàng)作劇本,只需要在應用中輸入故事的一句話梗概,然后D就會自動生成劇本標題、人物設定、場景設定、細節(jié)和對話。D分層連貫的故事生成方式還有這樣的作用:生成的人物角色可以被用作提示,在故事情節(jié)中生成場景摘要,隨后還能為每個獨特的地點生成描述。最后,這些元素都會被結(jié)合起來,為每個場景生成對話。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論