人工智能基礎 課件 第4、5 章 自然語言處理基礎、人工智能工具應用基礎_第1頁
人工智能基礎 課件 第4、5 章 自然語言處理基礎、人工智能工具應用基礎_第2頁
人工智能基礎 課件 第4、5 章 自然語言處理基礎、人工智能工具應用基礎_第3頁
人工智能基礎 課件 第4、5 章 自然語言處理基礎、人工智能工具應用基礎_第4頁
人工智能基礎 課件 第4、5 章 自然語言處理基礎、人工智能工具應用基礎_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第4章自然語言處理基礎學習目標

理解文本預處理技術及其應用方法

理解分詞技術及其應用方法

了解自然語言處理的基本模型content目錄自然語言處理簡介0102常見模型自然語言處理簡介01簡介

自然語言交互是人機交互中的重要技術之一。包含兩個方面:自然語言處理以及自然語言生成。NLP可以被應用于很多領域,通常包含以下七種通用的應用:機器翻譯:計算機具備將一種語言翻譯成另一種語言的能力。情感分析:計算能夠判斷用戶評論是否積極。智能問答:計算機能夠正確回答輸入的問題。文摘生成:計算機能夠準確歸納、總結并產生文本摘要。文本分類:計算機能夠采集各種文章,進行主題分析,從而進行自動分類。輿論分析:計算機能夠判斷目前輿論的導向。知識圖譜:知識點相互連接而成的語義網(wǎng)絡。應用領域基于規(guī)則的方法:通過總結規(guī)律來判斷自然語言的意圖,常?的?法有:CFG(下文無關文法)、JSGF(JSpeechGrammarFormat)等;基于統(tǒng)計的方法:對語言信息進行統(tǒng)計和分析,并從中挖掘出語義特征,常?的方法有:SVM(支持向量機)、HMM(隱馬爾科夫模型)、MEMM(最大熵馬爾可夫模型)、CRF(條件隨機場)等。基于深度學習的?法:CNN(卷積神經網(wǎng)絡),RNN(循環(huán)神經網(wǎng)絡),LSTM(長短期記憶網(wǎng)絡),Transformer等。自然語言處理發(fā)展的三個階段自然語言處理的模型02簡介

語言模型是自然語言處理(NLP)領域的一個核心概念,它主要用于預測自然語言中下一個詞或者序列的概率分布。主要分為基于統(tǒng)計的模型和基于深度學習的模型兩大類。n-gram

模型是一種基于統(tǒng)計的語言模型。它的基本思想是通過統(tǒng)計文本中連續(xù)的n個單詞(或字符)出現(xiàn)的頻率,來預測下一個單詞(或字符)出現(xiàn)的概率。其中,分子表示單詞序列w1,w2,...,wn-1,wn在文本中出現(xiàn)的次數(shù),而分母表示前面n-1個單詞序列出現(xiàn)的次數(shù)。根據(jù)單詞個數(shù)的不同后續(xù)出現(xiàn)了unigram(元模型)、bigram(二元模型)

和trigram(三元模型)等模型。1、基于統(tǒng)計的N-gram模型

詞袋模型(BagofWords,BOW)遞歸神經網(wǎng)絡(RecurrentNeuralNetwork,RNN)長短時記憶網(wǎng)絡(LongShort-TermMemory,LSTM)支持向量機(SupportVectorMachine,SVM)卷積神經網(wǎng)絡(ConvolutionalNeuralNetwork,CNN)生成對抗網(wǎng)絡(GenerativeAdversarialNetwork,GAN)轉換器模型(Transformer)BERT(BidirectionalEncoderRepresentationsfromTransformers)GPT(GenerativePre-trainedTransformer)ELMO(EmbeddingsfromLanguageModels)2.基于深度學習和預訓練的模型大語言模型是在大量數(shù)據(jù)上訓練的大規(guī)模神經網(wǎng)絡,通常具有數(shù)億甚至數(shù)千億的參數(shù)。這些參數(shù)使模型具備了處理語言復雜性的能力,并能在沒有明確規(guī)則的情況下生成具有連貫性和語義合理性的文本。3.大語言模型(LargeLanguageModel,LLM)文本預處理技術02技術簡介

文本預處理是將原始文本數(shù)據(jù)轉換為符合模型輸入要求的格式的過程。它涉及多個環(huán)節(jié),包括數(shù)據(jù)清洗、文本標準化、分詞、文本向量化等,旨在將原始、無結構化的文本數(shù)據(jù)轉換為結構化的、數(shù)值化的形式,以便機器學習模型能夠理解和處理。1.文本預處理的主要環(huán)節(jié)

(1)數(shù)據(jù)清洗①去除噪聲:刪除與文本分析任務無關的信息,如HTML標簽、URL鏈接、特殊符號等。②處理缺失值:對于缺失或不完整的數(shù)據(jù),可以選擇填充(如使用特定標記、平均值或算法預測的值)或刪除。糾正文本錯誤:發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤等。中文糾錯相對復雜,可以利用開源工具或自己訓練模型進行1.文本預處理的主要環(huán)節(jié)

(2)文本標準化①轉換為小寫:將所有文本轉換為小寫,以減少詞匯的多樣性。②去除停用詞:刪除常見的但對文本意義貢獻不大的詞,如中文中的“的”、“是”、“在”等,英文中的“the”、“is”、“in”等。1.文本預處理的主要環(huán)節(jié)

(3)分詞①中文分詞:中文沒有單詞的分割符號,因此需要復雜的分詞模型進行分析。常用的中文分詞工具包有jieba、THULAC、NLPIR等。特定領域的分詞可以加入自己詞庫進行分詞,如果分詞誤差比較大,可以重新訓練自己的分詞模型。②英文分詞:英文單詞之間有分隔符,通常不需要分詞,但在處理縮寫、復合詞等情況下仍需要詞語切分。1.文本預處理的主要環(huán)節(jié)

(4)詞干提取和詞形還原①詞干提取:找到單詞的基本形式(詞干),以減少詞匯的復雜性。英文中常用的詞干提取工具有PorterStemmer、LancasterStemmer和SnowballStemmer等。②詞形還原:將屈折變化的詞還原為原形(詞形還原),進一步提高語義的理解。英文中常用的詞形還原工具有WordNetLemmatizer等。1.文本預處理的主要環(huán)節(jié)

(5)文本向量化①對于需要考慮詞序的模型(如RNN、LSTM、Transformer),保持文本的序列信息很重要。這可以通過將文本轉換為整數(shù)序列(每個整數(shù)代表一個單詞在詞匯表中的索引)來實現(xiàn)。②可以使用one-hot編碼、Word2vec、WordEmbedding等方法進行文本向量化。2.文本預處理的作用

規(guī)范化文本數(shù)據(jù):原始文本數(shù)據(jù)通常包含各種噪聲,如拼寫錯誤、無關字符、格式不一致等。文本預處理可以去除這些噪聲,使文本數(shù)據(jù)更加規(guī)范。降低處理難度:原始文本數(shù)據(jù)可能包含大量詞匯和復雜語法結構,直接處理會很困難。預處理可以通過簡化文本(如分詞、去除停用詞、詞干提取等)來降低后續(xù)處理的難度。提高模型性能:通過科學的文本預處理,可以更有效地指導模型超參數(shù)的選擇,進而提升模型的評估指標和整體性能。適應模型輸入要求:不同的機器學習模型對輸入數(shù)據(jù)有不同的要求。文本預處理可以將文本轉換成模型所需的格式,如將文本轉換為張量、規(guī)范張量的尺寸等。3.應用場景

文本預處理技術廣泛應用于各種NLP任務中,如智能助手、翻譯、情感分析、命名實體識別、關系抽取、機器翻譯、對話系統(tǒng)等。通過預處理技術,可以更有效地提取文本中的關鍵信息,提高模型的準確性和效率。綜上所述,文本預處理技術是自然語言處理中的一項重要技術,它對于提高模型的性能和準確性具有至關重要的作用。在實際應用中,需要根據(jù)具體的任務和數(shù)據(jù)特點選擇合適的預處理方法和工具。小結分詞技術及實戰(zhàn)案例031.分詞技術原理

依據(jù)語言學的規(guī)則和字典來進行分詞。利用語料庫中詞語出現(xiàn)的統(tǒng)計信息來進行分詞。常見的有隱馬爾可夫模型(HMM)。2.分詞技術主要方法1

最大匹配法:

優(yōu)點在于程序簡單易行,開發(fā)周期短,且大多數(shù)情況下適用。缺點在于切分歧義消除的能力差。最少分詞法:其優(yōu)缺點與最大匹配法類似。最大概率法2.分詞技術主要方法2

基于互現(xiàn)信息的分詞方法基于字符標注的分詞法基于實例的漢語分詞方法3.分詞技術的優(yōu)缺點

(1)優(yōu)點分詞技術能夠顯著提高NLP任務的準確性和效率。對于一些具有明確語法規(guī)則的文本,分詞技術能夠取得較好的效果。(2)缺點規(guī)則的制定依賴于人工,對于復雜的語言現(xiàn)象(如歧義、新詞等)處理能力有限?;诮y(tǒng)計的分詞方法需要大量的訓練數(shù)據(jù)來估計概率模型,且模型相對復雜,訓練和推理的時間成本較高。4.分詞技術的應用場景

搜索引擎:幫助系統(tǒng)快速理解用戶的查詢意圖,從而提供更加精準的搜索結果。機器翻譯:可以更好地理解句子的結構和語義,從而生成更準確的翻譯結果。情感分析:可以幫助系統(tǒng)識別和分析文本中的情感傾向,了解用戶的喜好、需求和意見。智能客服:幫助機器人更好地理解用戶的問題,從而給出恰當?shù)幕卮?,提高客服效率和用戶體驗。輿情分析:通過對海量文本數(shù)據(jù)進行分詞和語義分析,可以及時了解公眾對某一事件或話題的看法和態(tài)度。5.自然語言處理實戰(zhàn)

1.注冊百度AI平臺賬號在百度AI平臺(/)注冊一個賬號,并創(chuàng)建相應的應用以獲取APIKey和SecretKey。2.安裝百度AIPythonSDK在python環(huán)境中,使用pip安裝百度AI的PythonSDK。pipinstallbaidu-aip!注:在Windows11環(huán)境中,使用管理員身份打開命令窗口,安裝python環(huán)境,會自帶pip.可輸入python-version查看是否具有python環(huán)境,沒有系統(tǒng)會提示進行安裝。5.自然語言處理實戰(zhàn)

3.創(chuàng)建應用在百度控制臺創(chuàng)建一個應用,如下圖所示,獲取應用的標號為1-3所示的ID、Key,并開放如標號4所示相應權限。12436.案例1-實現(xiàn)分詞

fromaipimportAipNlp#調用時必須更換為你自己的APP_IDy、API_KEY和SECRET_KEYAPP_ID='117213607'API_KEY='4wq3eBJkHiG0Ybps6jpLkMhA'SECRET_KEY='llF9wfL2T3kjsE47JyWR0lLcLtXglhfW'#初始化AipNlp對象client=AipNlp(APP_ID,API_KEY,SECRET_KEY)text="我愛自然語言處理"result=client.lexer(text)forwordinresult['items']: #print(f'詞:{word['item']},詞性:{word['part_of_speech']}') print(f'詞:{word['item']}')6.案例2-情感分析的實現(xiàn)

fromaipimportAipNlp#調用時必須更換為你自己的APP_IDy、API_KEY和SECRET_KEYAPP_ID='117213607'API_KEY='4wq3eBJkHiG0Ybps6jpLkMhA'SECRET_KEY='llF9wfL2T3kjsE47JyWR0lLcLtXglhfW'#初始化AipNlp對象client=AipNlp(APP_ID,API_KEY,SECRET_KEY)text="我今天心情很好!"result=client.sentimentClassify(text)print(f"情感傾向:{result['items'][0]['sentiment']}")6.案例3-對話管理的實現(xiàn)

defsimple_dialog(user_input):#假設我們有一個簡單的對話規(guī)則if"你好"inuser_input:return"你好!歡迎使用自然語言交互系統(tǒng)。"elif"天氣"inuser_input:#這里可以調用天氣API來獲取天氣信息#為了簡化,我們直接返回模擬的天氣信息return"今天是晴天,氣溫適宜。"else:return"我不太明白你的意思,請再說一遍。"#調用示例user_input="你好,今天天氣怎么樣?"response=simple_dialog(user_input)print(response)第5章人工智能工具應用基礎學習目標掌握操作提示詞工程、智能文檔處理、AI輔助PPT制作、AI輔助影音編輯及AI編程工具,具備跨場景的實踐能力。理解AI工具的技術邏輯,如提示詞與模型輸出的關聯(lián)性、NLP文檔處理原理、統(tǒng)計模型在數(shù)據(jù)分析中的應用邊界,以及生成式AI的局限性。了解AI工具生態(tài)分類、版權與隱私風險、行業(yè)創(chuàng)新案例及低代碼化、多模態(tài)融合等技術趨勢。content目錄人工智能工具簡介0102提示詞工程人工智能工具簡介015.1.1文本生成工具

openAIGoogle字節(jié)跳動(豆包)百度深度求索5.1.2PPT生成工具beautiful.aislidebeancanvapresentationWPSAI國產5.1.3圖表生成工具Infogramcharticulatordatawrapper億圖AI5.1.4音視頻生成工具Lumen5descriptmagisto可靈快手公司5.1.5代碼生成工具Copilottabnine阿里智譜AI小結人工智能工具在文本生成、PPT生成、圖表生成、音視頻生成及代碼生成等領域的廣泛應用,不僅展示了AI技術的強大潛力,也深刻改變了我們的工作方式、學習模式和內容創(chuàng)作手段。提示詞工程02chatGPT什么是優(yōu)質的提示詞

A:如何學習人工智能?

B:假如你現(xiàn)在是一名人工智能領域的專家,

請幫我制定一份為期3個月的人工智能通識學習計劃,

按周制定,包含學習主題、學習內容、實踐項目等。籠統(tǒng),主要介紹了內容,有幫助但似乎作用不大按周制定學習主題、內容等,更明確有效一個通用的AI提示詞公式角色任務要求背景賦予AI一個身份強調擅長的能力向AI明確要完成的任務事項給出具體的要求

清晰、結構化、易于理解向AI提供真實信息

避免完全胡編亂造請你扮演一位{角色},擅長{具備的能力},基于我發(fā)送你的內容,幫我{具體的任務},要求如下:1、{要求1}2、{要求2}3、{要求3}……我的內容是:{具體內容}七八十分更高分不斷提問chatGPT文字生成(工作總結、演講稿、方案等)角色任務要求背景你是一位大學的信息管理辦公室負責人,擅長組織協(xié)調、項目管理和團隊領導,基于我發(fā)送給你的內容,幫我撰寫一份工作總結,要求如下:1、包括年度工作回顧、成績亮點、問題與挑戰(zhàn)、改進措施及未來規(guī)劃等,確保內容完整結構清晰。2、語言簡練、條理分明,避免使用過于夸張或模糊的表達,確保內容客觀、準確。3、字數(shù)2000

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論