人工智能技術(shù)導(dǎo)論 課件 05 自然語(yǔ)言處理與AIGC_第1頁(yè)
人工智能技術(shù)導(dǎo)論 課件 05 自然語(yǔ)言處理與AIGC_第2頁(yè)
人工智能技術(shù)導(dǎo)論 課件 05 自然語(yǔ)言處理與AIGC_第3頁(yè)
人工智能技術(shù)導(dǎo)論 課件 05 自然語(yǔ)言處理與AIGC_第4頁(yè)
人工智能技術(shù)導(dǎo)論 課件 05 自然語(yǔ)言處理與AIGC_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章

自然語(yǔ)言處理與AIGC本章目標(biāo)了解自然語(yǔ)言處理的基本概念和典型應(yīng)用

了解AIGC的定義和關(guān)鍵技術(shù)熟悉AIGC的典型應(yīng)用熟悉國(guó)內(nèi)外主流AI大模型了解AIGC倫理與安全問(wèn)題能使用提示詞工程技巧進(jìn)行創(chuàng)作5.1自然語(yǔ)言處理簡(jiǎn)介自然語(yǔ)言處理被譽(yù)為“人工智能技術(shù)皇冠上的明珠”,一方面表明了它的重要性,另一方面也顯現(xiàn)出了它的技術(shù)難度。自然語(yǔ)言處理就是讓計(jì)算機(jī)理解人類語(yǔ)言,并進(jìn)行相應(yīng)的分析。我們所熟知的蘋果Siri、微軟小冰,就是自然語(yǔ)言處理的典型的應(yīng)用,他們不僅能夠理解我們所說(shuō)的話,還能夠針對(duì)性地做出反饋。5.1.1自然語(yǔ)言處理定義

自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法,讓計(jì)算機(jī)能夠理解、處理和生成自然語(yǔ)言,使計(jì)算機(jī)具有類似人類的語(yǔ)言交互和文本理解能力。它是計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)等學(xué)科交叉的前沿領(lǐng)域。NLP與前面章節(jié)學(xué)習(xí)的語(yǔ)音識(shí)別、語(yǔ)音合成都是人工智能中與語(yǔ)音相關(guān)的重要領(lǐng)域,目標(biāo)都是讓計(jì)算機(jī)能夠理解并以與人類幾乎無(wú)異的方式生成語(yǔ)言。5.1.2自然語(yǔ)言處理發(fā)展

自然語(yǔ)言處理發(fā)展到現(xiàn)在,主要經(jīng)歷了三個(gè)階段:

第一階段是基于規(guī)則的方法,由于其過(guò)度依賴人力,發(fā)展緩慢。第二階段是基于統(tǒng)計(jì)的方法,放棄讓機(jī)器模仿人類智能的思路,這一階段在自然語(yǔ)言處理領(lǐng)域的很多任務(wù)上都有不小的突破。第三個(gè)階段則是基于深度學(xué)習(xí)的方法,受益于越來(lái)越強(qiáng)大的圖形處理器(GPU)的應(yīng)用以及互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),深度學(xué)習(xí)方法迅速席卷了自然語(yǔ)言處理領(lǐng)域,并持續(xù)高速發(fā)展。5.1.3自然語(yǔ)言處理基本任務(wù)

自然語(yǔ)言處理要解決的是人類和機(jī)器的溝通障礙,那它就需要達(dá)成兩個(gè)目標(biāo):其一,讓計(jì)算機(jī)聽(tīng)得懂“人話”——即NLU自然語(yǔ)言理解,讓計(jì)算機(jī)具備人類的語(yǔ)言理解能力;其二,讓計(jì)算機(jī)能夠“講人話”——即NLG自然語(yǔ)言生成,讓計(jì)算機(jī)能夠生成人類理解的語(yǔ)言和文本,比如文章、報(bào)告、圖表等等。5.1.3自然語(yǔ)言處理基本任務(wù)把人類的文本拆解來(lái)看,可以理解為詞、句、關(guān)系的組合,要讓機(jī)器理解人類語(yǔ)言和文本,首先要讓機(jī)器對(duì)文本進(jìn)行拆解分析。自然語(yǔ)言處理基本任務(wù)包括:1.詞法分析2.自動(dòng)分詞3.文本組塊分析4.句法及語(yǔ)義結(jié)構(gòu)分析5.語(yǔ)義分析5.1.4自然語(yǔ)言處理流程邏輯與實(shí)現(xiàn)方法自然語(yǔ)言處理的流程邏輯通常包括以下幾個(gè)步驟:1.數(shù)據(jù)收集和預(yù)處理:獲取和清洗原始語(yǔ)言數(shù)據(jù),包括文本、語(yǔ)料庫(kù)或語(yǔ)音數(shù)據(jù);2.分詞和詞法分析:將原始文本數(shù)據(jù)轉(zhuǎn)換為適合模型輸入的格式,如分詞、去除停用詞、詞干提取等。3.特征提?。簩⑽谋巨D(zhuǎn)換為計(jì)算機(jī)可以處理的向量形式,如詞向量表示、句子向量表示等。常用的特征提取方法包括詞袋模型、TF-IDF、詞嵌入等。4.模型訓(xùn)練:利用訓(xùn)練數(shù)據(jù)集,采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法訓(xùn)練自然語(yǔ)言處理模型。5.模型評(píng)估:使用驗(yàn)證數(shù)據(jù)集評(píng)估模型的性能,如準(zhǔn)確率、召回率、F1值等指標(biāo)。6.模型應(yīng)用:將訓(xùn)練好的模型應(yīng)用于實(shí)際問(wèn)題,如文本分類、情感分析、機(jī)器翻譯等任務(wù)。5.1.4自然語(yǔ)言處理流程邏輯與實(shí)現(xiàn)方法

在實(shí)現(xiàn)自然語(yǔ)言處理時(shí),首先需要考慮數(shù)據(jù)集的選擇和預(yù)處理。數(shù)據(jù)集的選擇和質(zhì)量對(duì)于自然語(yǔ)言處理的效果有著很大的影響,因此需要選擇合適的數(shù)據(jù)集,并進(jìn)行數(shù)據(jù)清洗和預(yù)處理。其次還需要采用一些自然語(yǔ)言處理工具和技術(shù)。常用的自然語(yǔ)言處理工具包括NLTK、spaCy、StanfordCoreNLP等。這些工具包提供了很多自然語(yǔ)言處理的功能,如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、句法分析等。最后,還需要選擇合適的算法和模型。常用的算法包括樸素貝葉斯、支持向量機(jī)、決策樹(shù)、隨機(jī)森林等。同時(shí),深度學(xué)習(xí)也成為自然語(yǔ)言處理中的主流技術(shù),常用的模型包括卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和Transformer等。5.1.5自然語(yǔ)言處理應(yīng)用領(lǐng)域

當(dāng)NLP技術(shù)對(duì)文本的處理應(yīng)用綜合在一起,就能幫助解決人們?cè)诠ぷ骱蜕顖?chǎng)景中的實(shí)際問(wèn)題,現(xiàn)階段主要的應(yīng)用領(lǐng)域包括:機(jī)器翻譯文本摘要問(wèn)答系統(tǒng)文本分類等。5.2AIGC簡(jiǎn)介2022年11月,OpenAI推出大語(yǔ)言模型ChatGPT,掀起了生成式人工智能的熱潮。短短4天時(shí)間,其用戶量到達(dá)百萬(wàn)級(jí),注冊(cè)用戶之多導(dǎo)致服務(wù)器一度爆滿。ChatGPT的功能是如此強(qiáng)大,以此連馬斯克都認(rèn)為“我們離強(qiáng)大到危險(xiǎn)的AI不遠(yuǎn)了”。生成式人工智能AIGC(ArtificialIntelligenceGeneratedContent)是人工智能1.0時(shí)代進(jìn)入2.0時(shí)代的重要標(biāo)志。奧爾特曼做客蓋茨節(jié)目奧爾特曼被譽(yù)為“ChatGPT之父”。5.2.1AIGC的定義

生成式人工智能(AIGC),全稱ArtificialIntelligenceGeneratedContent,是一種人工智能技術(shù),用于自動(dòng)生成內(nèi)容,該內(nèi)容在很大程度上類似于通過(guò)訓(xùn)練數(shù)據(jù)學(xué)到的內(nèi)容分布。與傳統(tǒng)的人工智能主要關(guān)注數(shù)據(jù)模式的識(shí)別和預(yù)測(cè)不同,AIGC專注于創(chuàng)造新的、富有創(chuàng)意的數(shù)據(jù)。其核心原理在于通過(guò)學(xué)習(xí)和理解數(shù)據(jù)分布,進(jìn)而生成具有相似特征的新數(shù)據(jù)。5.2.2AIGC的奧秘AIGC的關(guān)鍵技術(shù)生成算法的不斷創(chuàng)新使得AI能夠生成多種類型的內(nèi)容,如文本、代碼、圖像、語(yǔ)音、視頻等。預(yù)訓(xùn)練模型,即大型模型,極大地提高了AIGC技術(shù)的通用性和工業(yè)化水平。多模態(tài)技術(shù)使AIGC模型能夠融合處理多種數(shù)據(jù)類型,將文本轉(zhuǎn)化為圖像、視頻等,從而進(jìn)一步增強(qiáng)了AIGC模型的通用性。AIGC的迅速發(fā)展得益于三個(gè)關(guān)鍵領(lǐng)域的人工智能技術(shù):5.2.2AIGC的奧秘

大語(yǔ)言模型大型語(yǔ)言模型(LargeLanguageModels,LLMs),是一種基于機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的模型,它通過(guò)對(duì)大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,來(lái)學(xué)習(xí)服務(wù)人類語(yǔ)言理解和生成的能力。LLM的核心思想是通過(guò)大規(guī)模的無(wú)監(jiān)督訓(xùn)練來(lái)學(xué)習(xí)自然語(yǔ)言的模式和語(yǔ)言結(jié)構(gòu),這在一定程度上能夠模擬人類的語(yǔ)言認(rèn)知和生成過(guò)程。與傳統(tǒng)的自然語(yǔ)言處理模型(NLP模型)相比,LLM能夠更好地理解和生成自然文本,同時(shí)還能夠表現(xiàn)出一定的邏輯思維和推理能力。5.2.2AIGC的奧秘

提示詞工程提示詞(prompt)是指在人工智能場(chǎng)景下給模型的一個(gè)初始輸入或提示,用于引導(dǎo)模型生成特定的輸出。提示詞工程(PromptEngineering,PE)是一種人工智能技術(shù),它通過(guò)設(shè)計(jì)和改進(jìn)AI的prompt來(lái)提高AI的表現(xiàn)。PE的目標(biāo)是創(chuàng)建高度有效和可控的AI系統(tǒng),使其能夠準(zhǔn)確、可靠地執(zhí)行特定任務(wù)。5.2.3AIGC產(chǎn)業(yè)生態(tài)體系5.2.4AIGC典型應(yīng)用現(xiàn)階段國(guó)內(nèi)AIGC多以單模型應(yīng)用的形式出現(xiàn),主要分為文本生成、圖像生成、視頻生成、音頻生成,其中文本生成成為其他內(nèi)容生成的基礎(chǔ)。5.2.4AIGC典型應(yīng)用文本生成人工智能文本生成是使用人工智能(AI)算法和模型文本生成(AITextGeneration)來(lái)生成模仿人類書寫內(nèi)容的文本。它涉及在現(xiàn)有文本的大型數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)模型,以生成在風(fēng)格、語(yǔ)氣和內(nèi)容上與輸入數(shù)據(jù)相似的新文本。

文本生成5.2.4AIGC典型應(yīng)用圖像生成(AlImageGeneration),人工智能(Al)可用于生成非人類藝術(shù)家作品的圖像。這種類型的圖像被稱為“人工智能生成的圖像”。人工智能圖像可以是現(xiàn)實(shí)的或抽象的,也可以傳達(dá)特定的主題或信息。

圖像生成這里區(qū)別于搜索(搜索是別人傳上來(lái),檢索圖片,這里是咒語(yǔ)生成,即使相同咒語(yǔ)生成的也不一樣,是獨(dú)一無(wú)二的)文生圖圖生圖5.2.4AIGC典型應(yīng)用語(yǔ)音生成(AIAudioGeneration),AIGC的音頻生成技術(shù)可以分為兩類,分別是文本到語(yǔ)音合成和語(yǔ)音克隆。

語(yǔ)音生成5.2.4AIGC典型應(yīng)用視頻生成(AIVideoGeneration),AIGC已被用于視頻剪輯處理以生成預(yù)告片和宣傳視頻。工作流程類似于圖像生成,視頻的每一幀都在幀級(jí)別進(jìn)行處理,然后利用AI算法檢測(cè)視頻片段。AIGC生成引人入勝且高效的宣傳視頻的能力是通過(guò)結(jié)合不同的AI算法實(shí)現(xiàn)的。憑借其先進(jìn)的功能和日益普及,AIGC可能會(huì)繼續(xù)革新視頻內(nèi)容的創(chuàng)建和營(yíng)銷方式。

視頻生成Meta公司在2022年9月推出的Make-A-Video,網(wǎng)頁(yè)地址:https://makeavideo.studio一只穿著紅色斗篷超級(jí)英雄服裝的狗,在天空中飛翔。5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場(chǎng)景5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場(chǎng)景5.3國(guó)內(nèi)外主流AI大模型5.3.1OpenAI的GPT大模型ChatGPT(全名:ChatGenerativePre-trainedTransformer),美國(guó)OpenAI研發(fā)的聊天機(jī)器人程序,于2022年11月30日發(fā)布。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具,它能夠通過(guò)理解和學(xué)習(xí)人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來(lái)聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù)。GPT大模型主要產(chǎn)品包括GPT-1、GPT-2、GPT-3和GPT-4。這些產(chǎn)品都是OpenAI公司研發(fā)的大型預(yù)訓(xùn)練語(yǔ)言模型,被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。GPT-1和GPT-2主要用于文本生成和對(duì)話系統(tǒng),而GPT-3和GPT-4則可以應(yīng)用于更加廣泛的領(lǐng)域,包括醫(yī)療、金融、法律等。5.3.2百度的文心大模型百度文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),是產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型。文心大模型的一大特色是“知識(shí)增強(qiáng)”,即引入知識(shí)圖譜,將數(shù)據(jù)與知識(shí)融合,提升了學(xué)習(xí)效率及可解釋性。文心ERNIE自2019年誕生至今,在語(yǔ)言理解、文本生成、跨模態(tài)語(yǔ)義理解等領(lǐng)域取得多項(xiàng)技術(shù)突破文心一言(英文名:ERNIEBot)是百度全新一代知識(shí)增強(qiáng)大語(yǔ)言模型,文心大模型家族的新成員,能夠與人對(duì)話互動(dòng)、回答問(wèn)題、協(xié)助創(chuàng)作,高效便捷地幫助人們獲取信息、知識(shí)和靈感。文心一言從數(shù)萬(wàn)億數(shù)據(jù)和數(shù)千億知識(shí)中融合學(xué)習(xí),得到預(yù)訓(xùn)練大模型,在此基礎(chǔ)上采用有監(jiān)督精調(diào)、人類反饋強(qiáng)化學(xué)習(xí)、提示等技術(shù),具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)優(yōu)勢(shì)。5.3.3科大訊飛的訊飛星?認(rèn)知大模型科?訊?的星?是新一代認(rèn)知智能大模型,擁有跨領(lǐng)域知識(shí)和語(yǔ)言理解能力,能夠基于自然對(duì)話方式理解與執(zhí)行任務(wù)。5.3.4阿?云的通義大模型阿里通義大模型是阿里云推出的一個(gè)超大規(guī)模的語(yǔ)言模型,功能包括多輪對(duì)話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語(yǔ)言支持。能夠跟人類進(jìn)行多輪的交互,也融入了多模態(tài)的知識(shí)理解,且有文案創(chuàng)作能力,能夠續(xù)寫小說(shuō),編寫郵件等。5.4AIGC倫理與安全AIGC是人工智能1.0時(shí)代進(jìn)入2.0時(shí)代的重要標(biāo)志。AIGC對(duì)于人類社會(huì)、人工智能的意義是里程碑式的。短期來(lái)看AIGC改變了基礎(chǔ)的生產(chǎn)力工具,中期來(lái)看會(huì)改變社會(huì)的生產(chǎn)關(guān)系,長(zhǎng)期來(lái)看促使整個(gè)社會(huì)生產(chǎn)力發(fā)生質(zhì)的突破,在這樣的生產(chǎn)力工具、生產(chǎn)關(guān)系、生產(chǎn)力變革中,生產(chǎn)要素——數(shù)據(jù)價(jià)值被極度放大。5.4.1AIGC社會(huì)影響近年來(lái)在創(chuàng)新發(fā)展驅(qū)動(dòng)下,AIGC開(kāi)始在新聞、影視、娛樂(lè)等多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的潛力,并逐漸成為內(nèi)容生產(chǎn)的新范式。

1、內(nèi)容生產(chǎn)去中心化2、內(nèi)容消費(fèi)升級(jí)3、商業(yè)模式創(chuàng)新總之,AIGC技術(shù)的出現(xiàn),對(duì)于內(nèi)容生產(chǎn)和消費(fèi)、商業(yè)模式等方面都產(chǎn)生了深遠(yuǎn)的影響。未來(lái)隨著技術(shù)的不斷發(fā)展,AIGC將會(huì)在更多領(lǐng)域發(fā)揮出更大的潛力,推動(dòng)整個(gè)社會(huì)的進(jìn)步和發(fā)展。5.4.2AIGC倫理與安全問(wèn)題日益復(fù)雜的生成式人工智能技術(shù)的應(yīng)用將引發(fā)更多的倫理與安全問(wèn)題。

1、法律法規(guī)完善程度低

2、數(shù)據(jù)要素問(wèn)題突出

3、技術(shù)保密性問(wèn)題

4、教育問(wèn)題5.4.2AIGC倫理與安全問(wèn)題思政小課堂:國(guó)內(nèi)AI文生圖著作權(quán)侵權(quán)第一案2023年2月24日,原告李某使用AI圖片生成軟件“StableDiffusion”通過(guò)輸入提示詞的方式生成古裝少女的圖片,后將該圖片以“春風(fēng)送來(lái)了溫柔”為名發(fā)布在小紅書平臺(tái),并標(biāo)注為“AI插畫”。但在3月2日,原告發(fā)現(xiàn)被告劉某通過(guò)百家號(hào)賬號(hào)發(fā)布名為《三月的愛(ài)情,在桃花里》的文章,文章里使用了自己先前生成的圖片作為插圖,并且去除了該圖片原有的水印。隨后,李某以侵害作品署名權(quán)和信息網(wǎng)絡(luò)傳播權(quán)為由將劉某起訴到北京互聯(lián)網(wǎng)法院,要求被告賠償其經(jīng)濟(jì)損失5000元,并賠禮道歉。該案主要涉及三大爭(zhēng)議點(diǎn):一是“春風(fēng)送來(lái)了溫柔”圖片是否構(gòu)成作品,構(gòu)成何種類型作品;二是原告是否享有涉案圖片的著作權(quán);三是被訴行為是否構(gòu)成侵權(quán)行為,被告是否應(yīng)當(dāng)承擔(dān)法律責(zé)任。在經(jīng)過(guò)了三個(gè)多月的等待后,11月27日北京互聯(lián)網(wǎng)法院對(duì)上述案件做出一審判決。法院在判決中認(rèn)定案涉圖片是原告在AI生成圖片初稿基礎(chǔ)上,通過(guò)增加提示詞、調(diào)整參數(shù)等方式,經(jīng)過(guò)智力投入后,產(chǎn)出的“智力成果”,該創(chuàng)作過(guò)程本質(zhì)為人利用工具進(jìn)行創(chuàng)作。同時(shí),案件中涉及的圖片是原告通過(guò)增加提示詞設(shè)計(jì)出人物和畫面元素,并通過(guò)參數(shù)設(shè)置方式對(duì)畫面不斷調(diào)整、優(yōu)化,此過(guò)程可以體現(xiàn)出原告的審美選擇與個(gè)性判斷,具備“獨(dú)創(chuàng)性”。此外,涉案圖片顯然屬于藝術(shù)領(lǐng)域且具有一定表現(xiàn)形式。因此,法院認(rèn)定案件中涉及的滿足“作品”構(gòu)成的四要件,是著作權(quán)法意義上的“作品”??紤]到案件具體情況和侵權(quán)情節(jié),法院最終判決被告向原告賠禮道歉,并向原告賠償經(jīng)濟(jì)損失500元。5.4.2AIGC倫理與安全問(wèn)題5.5AIGC體驗(yàn)1、推文的編寫:本案例使用文心一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論