版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
自然語言處理本課程旨在介紹大模型與通用人工智能的基本概念、原理和應(yīng)用。通過理論授課、實(shí)踐案例分析和討論,學(xué)生將獲得對(duì)大模型和通用人工智能領(lǐng)域的全面了解,培養(yǎng)相關(guān)技能和知識(shí),為未來在該領(lǐng)域的研究和應(yīng)用工作打下堅(jiān)實(shí)基礎(chǔ)。課程簡(jiǎn)介課程類型:專業(yè)方向課學(xué)分:3課時(shí):17周,1次課/周,3學(xué)時(shí)/1次課,共51學(xué)時(shí)教材:自編教材,《自然語言處理:大模型理論與實(shí)踐》先修課程:概率論與數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)等課程信息一·緒論二·詞向量三·統(tǒng)計(jì)語言模型四·神經(jīng)語言模型六·大語言模型架構(gòu)八·大模型預(yù)訓(xùn)練七·多模態(tài)大模型框架九·大模型微調(diào)授課安排33333333十·提示工程十一·涌現(xiàn)十二·大模型評(píng)估十三·探討十五·基于大模型的應(yīng)用開發(fā)十四·大模型本地開發(fā)33333五·預(yù)訓(xùn)練語言模型33平時(shí)成績(jī)考勤、課堂表現(xiàn)和平時(shí)作業(yè)(20%)+課程大實(shí)驗(yàn)(30%)考核方式(暫定):平時(shí)成績(jī)(50%)+期末閉卷考試(50%)考核方式預(yù)備知識(shí)A.1概率論基本概念
A.1.1概率和概率分布A.1.2貝葉斯法則A.2信息論基本概念A(yù).2.1熵A.2.2聯(lián)合熵和條件熵A.2.3互信息A.2.4相對(duì)熵與交叉熵A.3機(jī)器學(xué)習(xí)的基本概念
A.3.1訓(xùn)練方式
A.3.2常用算法和模型A.4強(qiáng)化學(xué)習(xí)基本概念A(yù).4.1馬爾可夫過程決策
A.4.2策略迭代A.4.3重要性采樣A.4.4近端策略優(yōu)化算法
相關(guān)學(xué)術(shù)會(huì)議與學(xué)術(shù)組織NLP領(lǐng)域主要學(xué)術(shù)會(huì)議:
AssociationforComputationalLinguistics(ACL)
CCF
A
ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP)CCF
B
NorthAmericanChapteroftheAssociationforComputationalLinguistics(NAACL)
CCF
B
InternationalConferenceonComputationalLinguistics(COLING)CCF
B
TheChinaNationalConferenceonComputationalLinguistics(CCL)
ConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics(EACL)NLP領(lǐng)域?qū)W術(shù)組織:ACL、國(guó)際計(jì)算語言學(xué)委員會(huì)(ICCL)、中國(guó)人工智能學(xué)會(huì)自然語言理解專委會(huì)、中國(guó)中文信息處理學(xué)會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)自然語言處理專委會(huì)
第一章
緒論通用人工智能與金融創(chuàng)新團(tuán)隊(duì)1.1自然語言處理概述
1.2自然語言處理簡(jiǎn)史
1.3自然語言處理傳統(tǒng)研究?jī)?nèi)容
1.3.1傳統(tǒng)基礎(chǔ)技術(shù)
1.3.2實(shí)際應(yīng)用
1.4自然語言處理與大模型發(fā)展現(xiàn)狀目錄1.1自然語言處理概述自然語言處理被譽(yù)為人工智能皇冠上的明珠。 ——無名氏運(yùn)算智能感知智能認(rèn)知智能創(chuàng)造智能記憶存儲(chǔ)、計(jì)算能力,機(jī)器早已經(jīng)超過人類。(超級(jí)計(jì)算機(jī))自然語言處理被譽(yù)為人工智能皇冠上的明珠。 ——無名氏運(yùn)算智能感知智能認(rèn)知智能創(chuàng)造智能包括聽覺、視覺、觸覺;隨著深度學(xué)習(xí)的引入,大幅度提高語音識(shí)別和圖像識(shí)別的識(shí)別率,計(jì)算機(jī)在感知智能層面已經(jīng)做得相當(dāng)不錯(cuò),在一些典型的測(cè)試題下,達(dá)到或者超過了人類的平均水平(語音識(shí)別、圖像識(shí)別)1.1自然語言處理概述自然語言處理被譽(yù)為人工智能皇冠上的明珠。 ——無名氏運(yùn)算智能感知智能認(rèn)知智能創(chuàng)造智能理解、運(yùn)用語言的能力,掌握知識(shí)、運(yùn)用知識(shí)的能力,以及在語言和知識(shí)基礎(chǔ)上的推理能力。認(rèn)知智能主要集中在語言智能,即自然語言處理,它簡(jiǎn)單理解了句子、篇章,實(shí)現(xiàn)了幫助搜索引擎、仿照系統(tǒng)提供一些基本的功能、提供一些簡(jiǎn)單的對(duì)話翻譯。(自然語言處理)1.1自然語言處理概述自然語言處理被譽(yù)為人工智能皇冠上的明珠。 ——無名氏1.1自然語言處理概述運(yùn)算智能感知智能認(rèn)知智能創(chuàng)造智能人們利用已有的條件,利用一些想象力甚至有一些是臆斷、夢(mèng)想,想象一些不存在的事情包括理論、方法、技術(shù),通過實(shí)驗(yàn)加以驗(yàn)證,然后提出新的理論,指導(dǎo)更多實(shí)踐,最后產(chǎn)生很好的作品或產(chǎn)品。(創(chuàng)造力)2022年8月,一幅名為《空間歌劇院》的美術(shù)作品在美國(guó)科羅拉多州博覽會(huì)上獲得一等獎(jiǎng)。1.2自然語言處理簡(jiǎn)史自然語言處理技術(shù)的發(fā)展可以追溯到20實(shí)際50年代初,經(jīng)歷了若干重要階段和關(guān)鍵突破。其發(fā)展歷程如下:1950-1960早期階段1970-1980基于規(guī)則和知識(shí)1990-2000統(tǒng)計(jì)方法2018-至今預(yù)訓(xùn)練模型與大模型2010-至今神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)1.3傳統(tǒng)研究?jī)?nèi)容1.3.1傳統(tǒng)基礎(chǔ)技術(shù)1自動(dòng)分詞2命名實(shí)體識(shí)別3詞性標(biāo)注4
句法分析5
語義分析6
篇章分析1.3.2實(shí)際應(yīng)用1機(jī)器翻譯2文本分類與情感分類3信息抽取與自動(dòng)文摘4
信息檢索與問答系統(tǒng)5
對(duì)話系統(tǒng)6閱讀理解1.3傳統(tǒng)研究?jī)?nèi)容語義分析句法分析篇章分析自動(dòng)分詞對(duì)話系統(tǒng)閱讀理解(摘要生成)自動(dòng)實(shí)體識(shí)別詞性標(biāo)注機(jī)器翻譯信息抽取文本分類(情感分類)信息檢索問答系統(tǒng)1.3傳統(tǒng)研究?jī)?nèi)容自然語言處理傳統(tǒng)基礎(chǔ)技術(shù)實(shí)際應(yīng)用機(jī)器翻譯信息抽取文本分類信息檢索與問答系統(tǒng)對(duì)話系統(tǒng)閱讀理解系統(tǒng)自動(dòng)分詞命名實(shí)體標(biāo)注詞性標(biāo)注句法分析語義分析篇章分析文本詞法層句法層語義層篇章層1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞詞是自然語言處理的基本單位。屈折語系:Wearegoodfriends.(英語)
Somosbuenosamigos.(西班牙語)
孤立語系:我們是好朋友。(漢語)私たちはいい友達(dá)だよ。(日語)有空格分隔和詞形變化無明顯分隔標(biāo)記我們是好朋友。我們?cè)?jīng)是好朋友。我們現(xiàn)在是好朋友。無詞形變化,用詞語來表示時(shí)態(tài)1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞從斷句看分詞,信息“無損”傳遞:明日逢春好不晦氣終年倒運(yùn)少有余財(cái)斷句1:明日逢春,好不晦氣;終年倒運(yùn),少有余財(cái)。斷句2:明日逢春好,不晦氣;終年倒運(yùn)少,有余財(cái)。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞自動(dòng)分詞(Automaticwordsegmentation):是指讓計(jì)算機(jī)系統(tǒng)將連續(xù)的文本流切分成獨(dú)立的、有意義的詞語單元的過程。示例:人們/穿行在/重慶市/解放碑/步行街自動(dòng)分詞面臨的問題:1.分詞規(guī)范:確定詞語邊界的規(guī)則或指導(dǎo)原則。
不規(guī)范劃分:火車/穿過/南京/市長(zhǎng)/江大橋
符合規(guī)范劃分:火車/穿過/南京市/長(zhǎng)江大橋2.歧義切分:不同切分方式帶來的語義的曲解。示例:拍/電影的人
拍電影的/人3.未登錄詞識(shí)別:文本中沒有出現(xiàn)在預(yù)定義詞典或訓(xùn)練語料庫(kù)中的詞語,即一些新出現(xiàn)的詞匯,如“栓Q”、“凡爾賽”。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞自動(dòng)分詞方法:1.最大匹配法(MaximumMatching,MM):分為FMM(正向)、BMM(逆向)1.詞典是指經(jīng)過處理和統(tǒng)計(jì)的詞庫(kù)(語料庫(kù))。核心原理:通過從左到右(FMM)或從右到左(BMM)掃描待分詞文本,配合預(yù)定義的詞典1來找出最長(zhǎng)的匹配詞。
“他很早開始學(xué)習(xí)中國(guó)舞”①取字符序列②在詞典中查找找到否yes③切割,繼續(xù)掃描文本③去掉最右詞:“他很早開始”no1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞假設(shè)詞典中包含單詞有“自然語言處理”、“計(jì)算機(jī)科學(xué)”和“一個(gè)分支”,且最長(zhǎng)單詞的字?jǐn)?shù)為8。輸入字串:自然語言處理是計(jì)算機(jī)科學(xué)的一個(gè)分支。切分過程:876自然語言處理/是計(jì)算機(jī)科學(xué)的一個(gè)分支。876……FMM最終切分結(jié)果:自然語言處理/是/計(jì)算機(jī)科學(xué)/的/一個(gè)分支。例詞典…自然語言處理…計(jì)算機(jī)科學(xué)一個(gè)分支…詞典中有該詞,可以切分1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞自動(dòng)分詞方法:2.基于語言模型的分詞方法:建立n元語言模型,計(jì)算每個(gè)詞在給定上下文中出現(xiàn)的條件概率;構(gòu)造n元的切分詞圖,圖中的結(jié)點(diǎn)表示可能的詞候選,邊表示路徑,計(jì)算詞在當(dāng)前位置的前n?1個(gè)詞的下的條件概率表示代價(jià);利用相關(guān)搜索算法找到圖中代價(jià)最小的路徑作為分詞結(jié)果輸出。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞假設(shè)有一個(gè)簡(jiǎn)短的中文文本:“我喜歡蘋果”,并且有一個(gè)包含“我”、“喜歡”和“蘋果”的詞典。使用二元語言模型進(jìn)行分詞。最終切分結(jié)果:我/喜歡/蘋果。建立切分詞圖后,應(yīng)用相關(guān)搜索算法(如動(dòng)態(tài)規(guī)劃)來找到圖中代價(jià)最小的路徑。
例
我喜
歡蘋果
喜歡
蘋果
自動(dòng)分詞方法:3.基于最短路徑的分詞方法通過構(gòu)建分詞圖,利用最短路徑算法來找到最佳的分詞序列,從而實(shí)現(xiàn)自動(dòng)分詞。能夠充分考慮詞語之間的連貫性和上下文信息。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞與基于語言模型的分詞技術(shù)相似。不同之處在于,節(jié)點(diǎn)間的權(quán)重并非基于條件概率,而是根據(jù)詞頻或詞語概率確定,有時(shí)為簡(jiǎn)化處理,所有權(quán)重也可能統(tǒng)一設(shè)定為1。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞最終切分結(jié)果:我/喜歡/蘋果。例
我喜歡蘋果
喜歡蘋果假設(shè)權(quán)重統(tǒng)一設(shè)定為1,則最短路徑為節(jié)點(diǎn)最少的分詞路徑。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞擴(kuò)展自動(dòng)分詞方法(大語言模型—提示學(xué)習(xí)法)所以標(biāo)點(diǎn)放在不同的地方文章就會(huì)有不同的意思!正如韓愈在《師說》中所說的:“彼童子之師,授之書而習(xí)其句讀者?!耙虼斯糯臄嗑?,大多是老師教的,老師專門講解文章,告訴學(xué)生在哪個(gè)地方應(yīng)該斷,教會(huì)之后學(xué)生再讀書時(shí)完全就可以憑借自己以前學(xué)過的斷句來理解了。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞擴(kuò)展自動(dòng)分詞方法(大語言模型—提示學(xué)習(xí)法)1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞擴(kuò)展自動(dòng)分詞方法(大語言模型—提示學(xué)習(xí)法)結(jié)果評(píng)估:準(zhǔn)確率:P=系統(tǒng)輸出中正確的結(jié)果個(gè)數(shù)/系統(tǒng)所有輸出結(jié)果個(gè)數(shù)召回率:R=系統(tǒng)輸出中正確的結(jié)果個(gè)數(shù)/測(cè)試集中正確的答案?jìng)€(gè)數(shù)測(cè)度值:F=2*PR/(P+R)1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞1.3.1傳統(tǒng)基礎(chǔ)技術(shù):自動(dòng)分詞假設(shè)有一個(gè)漢語分詞系統(tǒng),該系統(tǒng)在一個(gè)測(cè)試集上有2230個(gè)分詞結(jié)果,而標(biāo)準(zhǔn)答案是1980個(gè)詞語。對(duì)比發(fā)現(xiàn),系統(tǒng)切分出來的結(jié)果中有1872個(gè)是正確的。那么它的評(píng)價(jià)指標(biāo)分別是多少?例
命名實(shí)體識(shí)別(NamedEntityTagging,NER):是指識(shí)別文本中具有特定意義的實(shí)體并將其分類為預(yù)定義的類別。命名實(shí)體人名(中國(guó)人名和外國(guó)譯名)地名組織機(jī)構(gòu)名數(shù)字日期貨幣數(shù)量其他1.3.1傳統(tǒng)基礎(chǔ)技術(shù):命名實(shí)體識(shí)別核心目標(biāo):是從非結(jié)構(gòu)化文本中準(zhǔn)確識(shí)別和分類具有特定語義價(jià)值的實(shí)體,并將它們歸類到預(yù)先定義的類別中。示例:命名實(shí)體識(shí)別方法
1.基于規(guī)則的方法:根據(jù)人工編寫的基于模式或基于上下文的規(guī)則進(jìn)行識(shí)別。
2.基于統(tǒng)計(jì)的方法:其思想是利用人工標(biāo)注的語料進(jìn)行訓(xùn)練,通過對(duì)訓(xùn)練語料所包含的語言信息進(jìn)行統(tǒng)計(jì)和分析,從訓(xùn)練語料中挖掘出特征。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):命名實(shí)體識(shí)別示例:包含“省”、“市”、“縣”等關(guān)鍵字的字符串一般是地名命名實(shí)體識(shí)別方法
3.基于深度學(xué)習(xí)的方法:其思想是利用深度學(xué)習(xí)非線性的特點(diǎn),建立從輸入到輸出非線性的映射,學(xué)習(xí)得到更加復(fù)雜精致的特征,從而選擇概率最大的實(shí)體。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):命名實(shí)體識(shí)別將輸入文本轉(zhuǎn)換為分布式表示形式學(xué)習(xí)輸入文本的語義編碼根據(jù)編碼層的輸出來預(yù)測(cè)每個(gè)輸入單元的標(biāo)簽實(shí)體標(biāo)注方法:BIO標(biāo)注BIO標(biāo)注是序列標(biāo)注的常見方法。通過標(biāo)記來捕捉邊界和命名實(shí)體類型,從而將命名實(shí)體識(shí)別看作一個(gè)逐字逐句序列標(biāo)注的任務(wù)。B-X:X類型實(shí)體的開頭。
I-X:X類型實(shí)體的中后部分。O:不屬于命名實(shí)體的詞。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):命名實(shí)體識(shí)別人名地名時(shí)間1.3.1傳統(tǒng)基礎(chǔ)技術(shù):命名實(shí)體識(shí)別擴(kuò)展命名實(shí)體識(shí)別方法(大語言模型—提示學(xué)習(xí)法)詞性是詞匯基本的語法屬性。Youranswerisexactlyright.你的回答完全正確。
“right”是一個(gè)形容詞,用來描述“answer”“right”是一個(gè)名詞,指的是一種權(quán)利1.3.1傳統(tǒng)基礎(chǔ)技術(shù):詞性標(biāo)注Everyonehasarighttoafairtrial.每個(gè)人都有權(quán)獲得公正的審判。每個(gè)詞性都有一些通用的特點(diǎn)和用法,這些特點(diǎn)和用法決定了它們?cè)诰渥又械奈恢谩⒆饔靡约霸谡Z言理解和表達(dá)中的重要性??梢愿鶕?jù)詞性猜測(cè)用法。詞性標(biāo)注(Parts-Of-Speechtagging):目標(biāo)是為給定句子中的每個(gè)單詞分配一個(gè)適當(dāng)?shù)脑~性標(biāo)簽,從而明確其在句子中的語法角色和功能。詞性標(biāo)注是為了消除歧義,確定詞語在句中所表達(dá)的含義,如確定單詞“book”是動(dòng)詞還是名詞。詞性標(biāo)注集:描述詞性的集合,用于在自然語言處理中對(duì)單詞進(jìn)行標(biāo)記和分類,如UPenn
Treebank、ICTCLAS。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):詞性標(biāo)注HanLP詞性標(biāo)注系統(tǒng):Part-of-SpeechTagging|Demo()詞性標(biāo)注集詞性標(biāo)注方法:1.基于規(guī)則的方法:根據(jù)已有的語法知識(shí)和語言規(guī)律人工設(shè)計(jì)規(guī)則,完成詞性標(biāo)注。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):詞性標(biāo)注(SCONJ):Weknowthatitisbad.(ADV):Itisnotthatbad.that具有多種詞性,比如可以做從屬連詞(SCONJ),副詞(ADV)編寫消歧規(guī)則選擇詞性進(jìn)行標(biāo)注例詞性標(biāo)注方法:2.基于統(tǒng)計(jì)模型的詞性標(biāo)注方法:從大量已標(biāo)注文本中學(xué)習(xí)詞語和詞性之間的關(guān)聯(lián),常見模型如HMM、CRF。3.基于規(guī)則與統(tǒng)計(jì)結(jié)合的方法:將人工設(shè)計(jì)的規(guī)則和統(tǒng)計(jì)方法相結(jié)合,利用規(guī)則對(duì)一些特殊情況進(jìn)行標(biāo)注,然后利用統(tǒng)計(jì)方法對(duì)其他情況進(jìn)行標(biāo)注。特殊情況采用基于規(guī)則的方法,一般情況采用基于統(tǒng)計(jì)模型的方法。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):詞性標(biāo)注1.3.1傳統(tǒng)基礎(chǔ)技術(shù):詞性標(biāo)注擴(kuò)展詞性標(biāo)注方法(大語言模型—提示學(xué)習(xí)法)語法結(jié)構(gòu)是語言意義的重要組成部分。他昨天在圖書館里讀了一本有趣的書。
1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析通過分析語法結(jié)構(gòu),可以清晰地理解這個(gè)句子的意思。主語時(shí)間狀語地點(diǎn)狀語謂語賓語陳述對(duì)象動(dòng)作發(fā)生的時(shí)間動(dòng)作發(fā)生的地點(diǎn)動(dòng)作的承受者陳述動(dòng)作行為句法分析(SyntaxParsing):過對(duì)句子的語法結(jié)構(gòu)進(jìn)行分析,確定句子中各個(gè)詞語之間的語法關(guān)系,例如主謂關(guān)系、賓語關(guān)系、定語關(guān)系等,進(jìn)而推斷句子的含義。兩種類型短語結(jié)構(gòu)分析(又稱句法結(jié)構(gòu)分析)依存句法分析1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析短語結(jié)構(gòu)分析:識(shí)別句子中的短語、子句等,并表示出它們之間的語法關(guān)系,如主謂關(guān)系等,通常使用上下文無關(guān)文法(Context-FreeGrammar,CFG)來描述句子的語法結(jié)構(gòu)。上下文無關(guān)文法(Context-FreeGrammar,CFG)四元組G={N,Σ,S,P}N:非終結(jié)符的有限集合,如NP、VPΣ:終結(jié)符的有限集合:?jiǎn)卧~,符號(hào)S:句子符或初始符P:是一組產(chǎn)生式規(guī)則的有限集合,如NP→DetNominal1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析產(chǎn)生式規(guī)則將句子分成分句或短語,如名詞短語和動(dòng)詞短語,并定義了如何將非終結(jié)符替換為終結(jié)符或者其他非終結(jié)符。如何理解文法?1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析成都是四川的省會(huì)。
<名詞短語><動(dòng)詞><名詞短語><句號(hào)>
<名詞短語><動(dòng)詞短語><句號(hào)>歸納以上3個(gè)句子,可以得到它們的主體結(jié)構(gòu)此外,<動(dòng)詞短語>=<動(dòng)詞><形容詞短語>|<動(dòng)詞><名詞短語>四川位于中國(guó)西南地區(qū)。
<名詞短語><動(dòng)詞><名詞短語><句號(hào)>
<名詞短語><動(dòng)詞短語><句號(hào)>熊貓是非??蓯鄣?。
<名詞短語><動(dòng)詞><形容詞短語><句號(hào)>
<名詞短語><動(dòng)詞短語><句號(hào)>句子
<名詞短語><動(dòng)詞短語><句號(hào)>產(chǎn)生式規(guī)則如何理解文法?1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析此外,產(chǎn)生式還有<動(dòng)詞短語>=<動(dòng)詞><形容詞短語>|<動(dòng)詞><名詞短語><動(dòng)詞>={是,位于}<形容詞短語>={非??蓯鄣模?lt;名詞短語>={成都,四川,熊貓,四川的省會(huì),中國(guó)西南地區(qū)}<句號(hào)>={。}集合中的詞語僅表示自身,稱為終結(jié)符代表一個(gè)語法范疇,是非終結(jié)符1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析分析句子“Thecatchasedthemouse.(貓追逐老鼠)”。使用CFG來表示句子的語法結(jié)構(gòu),并生成相應(yīng)的句法樹。例首先,需要定義一些基本的產(chǎn)生式規(guī)則:1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析分析句子“Thecatchasedthemouse.(貓追逐老鼠)”。使用CFG來表示句子的語法結(jié)構(gòu),并生成相應(yīng)的句法樹。例從開始符號(hào)S出發(fā),應(yīng)用規(guī)則“S→NPVP”S→NPVP1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析分析句子“Thecatchasedthemouse.(貓追逐老鼠)”。使用CFG來表示句子的語法結(jié)構(gòu),并生成相應(yīng)的句法樹。例繼續(xù)應(yīng)用規(guī)則S→NPVP→DetNVP1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析分析句子“Thecatchasedthemouse.(貓追逐老鼠)”。使用CFG來表示句子的語法結(jié)構(gòu),并生成相應(yīng)的句法樹。例S→NPVP→
DetNVP→DetNVNP→DetNVDetN
→
“the”NVDetN→
“the”“cat”
VDetN→
“the”“cat”
“chased”
DetN→
“the”“cat”
“chased”
“the”N→
“the”“cat”
“chased”
“the”“mouse”2.結(jié)構(gòu)歧義問題:結(jié)構(gòu)歧義是指一個(gè)句子可能有不同的語法解析或句法結(jié)構(gòu),產(chǎn)生不同的分析結(jié)果。Isawthemanwiththe
telescope:附著歧義oldmenandwomen:并列歧義1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析Isawtheman(whohad)withthetelescope.Isawtheman(using)withthetelescope.old(menandwomen).(oldmen)andwomen.3.句法分析方法:CKY(Cocke-Kasami-Younger)算法:基于動(dòng)態(tài)規(guī)劃的思想,用一個(gè)二維表格來存儲(chǔ)可能的短語結(jié)構(gòu),最后生成句法樹。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析
1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析采用CKY算法分析句子“Thecatchasedthemouse.(貓追逐老鼠)”。例輸入句子:Thecatchasedthemouse.詞性標(biāo)注:DetNVDetN.依存句法分析:旨在分析句子中詞匯之間的依存關(guān)系,句法結(jié)構(gòu)完全通過單詞或詞語之間的有向二元語法關(guān)系(依賴詞—>中心詞)來描述。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析帶有方向的弧來表示兩個(gè)成分之間的依存關(guān)系,支配者在有向弧的發(fā)出端,被支配者在箭頭端,通常說被支配者依存于支配者。依存樹3.依存句法分析方法:決策式依存句法分析:基于移進(jìn)-歸約(shift-reduce)算法。該算法使用分析棧和輸入緩沖區(qū)來管理分析過程,并定義一組預(yù)定義的轉(zhuǎn)移操作:移動(dòng)(Shift)、左?。↙eft-Arc)和右?。≧ight-Arc)等?;趫D的依存句法分析:基于圖的分析器構(gòu)建一個(gè)圖結(jié)構(gòu)來表示句子中的依存關(guān)系,它對(duì)長(zhǎng)句子的解析更加準(zhǔn)確。分析器在句子的所有可能樹結(jié)構(gòu)中尋找一個(gè)(或多個(gè))得分最高的樹結(jié)構(gòu),通過將搜索空間編碼為有向圖,采用圖論的方法來尋找空間中的最優(yōu)解。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析采用決策式依存句法分析方法分析句子“Thecatchasedthemouse.(貓追逐老鼠)”。例兩種句法分析的關(guān)系和區(qū)別表示方式表示目標(biāo)應(yīng)用短語結(jié)構(gòu)分析樹狀結(jié)構(gòu)嵌套和組合關(guān)系句法關(guān)系語法分析、句法分析、句法樹生依存句法分析有向圖直接依存關(guān)系依存關(guān)系關(guān)系抽取、語義分析、機(jī)器翻譯1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析1.3.1傳統(tǒng)基礎(chǔ)技術(shù):句法分析擴(kuò)展句法分析方法(大語言模型—提示學(xué)習(xí)法)語義分析:對(duì)句子所表達(dá)的語義進(jìn)行分析和解釋,讓計(jì)算機(jī)理解文本所傳達(dá)的真正含義、推斷用戶的意圖、理解文本中實(shí)體之間的關(guān)系。語義表示:用形式化的結(jié)構(gòu)表示自然語言表達(dá)的含義意義表示語言:一階邏輯(First-OrderLogic,F(xiàn)OL)常量:指代某個(gè)特定對(duì)象,如Car、Restaurant函數(shù):所屬格概念,如“Chengdu’slocation”表示為L(zhǎng)ocationOf(Chengdu)變量:表示特定未知事物,或某個(gè)分類中的一切事物示例:“IlikeappleandIdon’tlikepear.”
Like(Speaker,Apple)∧?Like(Speaker,Pear)1.3.1傳統(tǒng)基礎(chǔ)技術(shù):語義分析詞義消歧:為單詞選擇符合上下文語境的正確詞義。詞義消歧算法:簡(jiǎn)單最近鄰算法計(jì)算待消歧的單詞和詞匯庫(kù)中的每個(gè)已知含義單詞的相似性得分。通過得分比較,選擇最佳的詞義,完成詞義消歧?;谔卣鞯腤SD算法
將待消歧的單詞放置在上下文中,并提取與該單詞相關(guān)的特征,然后通過訓(xùn)練一個(gè)分類器(如SVM分類器)來確定最適合的詞義。Lesk算法
計(jì)算目標(biāo)單詞的字典注釋與鄰近單詞的交集,并選交集最大的詞義作為目標(biāo)單詞的正確詞義。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):語義分析語義角色標(biāo)注:是指給句子的成分分配語義角色標(biāo)簽的任務(wù)。以謂詞為核心,分析句子中的其他成分與謂詞之間的關(guān)系。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):語義分析1.3.1傳統(tǒng)基礎(chǔ)技術(shù):語義分析擴(kuò)展語義分析方法(大語言模型—提示學(xué)習(xí)法)1.3.1傳統(tǒng)基礎(chǔ)技術(shù):篇章分析篇章是由一組有結(jié)構(gòu)、有組織的相鄰句子構(gòu)成的自然語言文本。悟空撩衣上前,摸了一把,乃是一根鐵柱子,約有斗來粗,二丈有余長(zhǎng)。他盡力兩手撾過道:“忒粗忒長(zhǎng)些!再短細(xì)些方可用。”說畢,那寶貝就短了幾尺,細(xì)了一圍。悟空又顛一顛道:“再細(xì)些更好!”那寶貝真?zhèn)€又細(xì)了幾分。悟空十分歡喜,拿出海藏看時(shí),原來兩頭是兩個(gè)金箍,中間乃一段烏鐵;緊挨箍有鐫成的一行字,喚做“如意金箍棒”,重一萬三千五百斤。心中暗喜道:“想必這寶貝如人意!”一邊走,一邊心思口念,手顛著道:“再短細(xì)些更妙!”拿出外面,只有二丈長(zhǎng)短,碗口粗細(xì)。----------摘自《西游記》篇章分析:衡量文本質(zhì)量,分析語篇結(jié)構(gòu),監(jiān)測(cè)語篇的連貫性。語篇連貫性:1.3.1傳統(tǒng)基礎(chǔ)技術(shù):篇章分析關(guān)系不連貫:曉晴從上海坐飛機(jī)到成都。她每天鍛煉一個(gè)小時(shí)。關(guān)系連貫:曉晴從上海坐飛機(jī)到成都。她要參加一項(xiàng)運(yùn)動(dòng)比賽。修辭結(jié)構(gòu)理論:(RhetoricalStructureTheory,RST)用核心(Nucleus)和衛(wèi)星(Satellite)定義兩個(gè)文本區(qū)間之間的關(guān)系。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):篇章分析李華想來成都看大熊貓。李華已經(jīng)到四川了。他的IP地址顯示為四川省。指代消解:就是將文本中指代同一話語實(shí)體的用語鏈接起來,形成一組指代鏈。1.3.1傳統(tǒng)基礎(chǔ)技術(shù):篇章分析示例:魯迅原名周樹人,字豫才。他是浙江紹興人。“他”和“魯迅”指代同一個(gè)話語實(shí)體“魯迅”。共指示例:Maryhasadog.Itisveryfriendly.回指示例:Ifyouwantsome,there’scoffeeinthepot.預(yù)指先行語照應(yīng)語指代消解需要進(jìn)行指代識(shí)別,即找出句子中所有的指代。然后進(jìn)行指代消解,確定這些指代與其先行語之間的關(guān)系,從而實(shí)現(xiàn)對(duì)文本的深層理解。指代識(shí)別上下文建模特征提取指代消解決策生成或更新指代關(guān)系1.3.1傳統(tǒng)基礎(chǔ)技術(shù):篇章分析1.3.1傳統(tǒng)基礎(chǔ)技術(shù):篇章分析擴(kuò)展篇章分析方法(大語言模型—提示學(xué)習(xí)法)1.3.2實(shí)際應(yīng)用:機(jī)器翻譯機(jī)器翻譯(MachineTranslation,MT):機(jī)器翻譯是利用計(jì)算機(jī)將一種語言的文本翻譯成另一種語言的技術(shù)語言差異:
SVO(中、英、法)、SOV(日語)VSO(阿拉伯語)編碼器-解碼器網(wǎng)絡(luò):編碼器接受輸入序列并創(chuàng)建其上下文h。然后,將該上下文h傳遞給解碼器,解碼器生成目標(biāo)語言的輸出序列。結(jié)果測(cè)評(píng):準(zhǔn)確性、流暢性基于字符或詞匯重疊、基于嵌入相似性1.3.2實(shí)際應(yīng)用:機(jī)器翻譯機(jī)器翻譯方法(大語言模型—提示學(xué)習(xí)法)1.3.2實(shí)際應(yīng)用:文本分類與情感分類文本分類(textclassification):旨在將給定的文本分類為預(yù)定義的類別中的一個(gè),常見類別包括情感、主題、語言和其他自定義類別。文本分類可形式化表示為如下數(shù)學(xué)函數(shù):其中,f表示分類函數(shù),接受文本作為輸入,test是待分類的文本數(shù)據(jù),category是將文本被分類到的一個(gè)或多個(gè)類別標(biāo)簽。樸素貝葉斯分類(NaiveBayesClassifiers):給定一個(gè)未標(biāo)注的文本,樸素貝葉斯方法計(jì)算該文本屬于每個(gè)類別的后驗(yàn)概率,并選擇具有最高概率的類別作為分類結(jié)果。1.3.2實(shí)際應(yīng)用:文本分類與情感分類文本分類方法:經(jīng)典的文本分類方法包括基于特征工程和淺層學(xué)習(xí)。在不考慮訓(xùn)練集的情況下,一個(gè)文本分類系統(tǒng)可以被拆分為特征工程和分類器兩個(gè)主要部分。系統(tǒng)流程如下所示:其中,文本表示的任務(wù)是將非結(jié)構(gòu)化信息轉(zhuǎn)化為計(jì)算機(jī)可以理解的結(jié)構(gòu)化信息。情感分析:情感分析是一種常見的文本分類任務(wù),即分析文本表達(dá)的情感傾向,是積極還是消極的態(tài)度。舉例以大模型進(jìn)行情感分析:1.3.2實(shí)際應(yīng)用:文本分類與情感分類其他分類任務(wù):垃圾郵件過濾、新聞分類、法律文書歸檔、醫(yī)學(xué)文獻(xiàn)識(shí)別以及在線廣告定位等。1.3.2實(shí)際應(yīng)用:信息抽取與自動(dòng)文摘信息抽取(InformationExtraction):從非結(jié)構(gòu)化的文本數(shù)據(jù)中抽取出特定的實(shí)體、關(guān)系和事件等重要信息,并將其轉(zhuǎn)化為結(jié)構(gòu)化的形式(如數(shù)據(jù)庫(kù))關(guān)系抽取(RelationExtraction):識(shí)別文本中實(shí)體之間的關(guān)系或關(guān)聯(lián),如雇傭關(guān)系。事件抽?。‥ventExtraction):識(shí)別文本中的事件、觸發(fā)詞、參與者、時(shí)間等信息。1.3.2實(shí)際應(yīng)用:信息抽取與自動(dòng)文摘自動(dòng)文摘技術(shù):自動(dòng)文摘技術(shù)是自然語言處理領(lǐng)域中的一個(gè)重要研究方向,其核心目標(biāo)是通過算法和技術(shù),從大量文本中提取關(guān)鍵信息和主要觀點(diǎn),生成簡(jiǎn)潔、凝練且信息豐富的摘要。其系統(tǒng)流程如下圖所示:
√
文本分析:分詞、詞性標(biāo)注、命名實(shí)體識(shí)別;
√句子或段落提取與泛化:代表性句子、段落或信息塊1.3.2實(shí)際應(yīng)用:信息抽取與自動(dòng)文摘信息抽取方法(大語言模型—提示學(xué)習(xí)法)1.3.2實(shí)際應(yīng)用:信息檢索與問答系統(tǒng)信息檢索(InformationRetrieval,IR):信息檢索是一門研究如何從大量文本集合中有效獲取與用戶查詢相關(guān)信息的技術(shù)。1.3.2實(shí)際應(yīng)用:信息檢索與問答系統(tǒng)關(guān)鍵技術(shù)1.3.2實(shí)際應(yīng)用:信息檢索與問答系統(tǒng)問答系統(tǒng)(QuestionAnsweringSystem):?jiǎn)柎鹣到y(tǒng)是一種旨在自動(dòng)回答用戶提出的自然語言問題人工智能應(yīng)用。主要以事實(shí)型問答為主。1.3.2實(shí)際應(yīng)用:信息檢索與問答系統(tǒng)基于信息檢索的問答系統(tǒng)
第一階段:檢索“檢索和閱讀”模型
第二階段:閱讀理解遍歷每個(gè)段落基于生成的問答系統(tǒng)不僅從已知信息中檢索答案,還能根據(jù)問題的語義和上下文生成全新的答案。1.3.2實(shí)際應(yīng)用:信息檢索與問答系統(tǒng)評(píng)估:平均倒數(shù)排名(meanreciprocalrank,MRR),其計(jì)算公式如下:其中,Q是測(cè)試集中問題的總數(shù),ranki是第i個(gè)問題的正確答案的排名。問答系統(tǒng)(大語言模型—提示學(xué)習(xí)法)1.3.2實(shí)際應(yīng)用:對(duì)話系統(tǒng)對(duì)話系統(tǒng)(DialogueSystems):對(duì)話系統(tǒng)旨在模擬人類的對(duì)話行為并與用戶進(jìn)行自然語言交流。1.3.2實(shí)際應(yīng)用:對(duì)話系統(tǒng)對(duì)話系統(tǒng)分類1.3.2實(shí)際應(yīng)用:對(duì)話系統(tǒng)對(duì)話系統(tǒng)(大語言模型—提示學(xué)習(xí)法)1.4NLP和大模型發(fā)展現(xiàn)狀資料來源:Dynabench:Rethinking
Benchmarkingin
NLP,
Scholar,
indigox.me,公司官網(wǎng)前神經(jīng)網(wǎng)絡(luò)概率推論神經(jīng)網(wǎng)絡(luò)大規(guī)模模型專家系統(tǒng)基礎(chǔ)模型決策式/分析式
NLP系統(tǒng)生成式
NLP時(shí)代1956感知器模型1980sProlog&Lisp1990s機(jī)器學(xué)習(xí)算法2011大數(shù)據(jù)AI學(xué)科成立機(jī)器語言翻譯專家系統(tǒng)解答特定領(lǐng)域的問題1994GroupLens首個(gè)自動(dòng)化推薦系統(tǒng)推薦算法IBM沃森益智問答打敗人類2012DNNs物體識(shí)別自動(dòng)駕駛2014GAN生成圖像但分辨率不高20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 稅務(wù)師事務(wù)所審計(jì)崗位面試題集
- 電氣自動(dòng)化專業(yè)高級(jí)工程師招聘面試題集
- 金融行業(yè)面試題信貸評(píng)估經(jīng)理選拔指南
- 酒店管理崗面試常見問題及答案參考
- 美容行業(yè)店長(zhǎng)面試題庫(kù)及答案參考
- 2025年海洋旅游項(xiàng)目開發(fā)與管理可行性研究報(bào)告
- 2025年農(nóng)業(yè)科技金融服務(wù)平臺(tái)可行性研究報(bào)告
- 2025年海洋資源開發(fā)與利用研究可行性報(bào)告
- 2025年供應(yīng)鏈金融創(chuàng)新服務(wù)項(xiàng)目可行性研究報(bào)告
- 2025年區(qū)塊鏈技術(shù)在金融領(lǐng)域應(yīng)用可行性研究報(bào)告
- 阻火器培訓(xùn)課件
- 學(xué)校宿舍家具采購(gòu)?fù)稑?biāo)方案技術(shù)標(biāo)
- GB 42301-2022口岸公共衛(wèi)生核心能力建設(shè)技術(shù)規(guī)范
- 第15課《誡子書》知識(shí)點(diǎn)梳理語文七年級(jí)上冊(cè)
- 萬物皆有歡喜時(shí)李漢榮散文集
- 顱頜面骨異常整形術(shù)后護(hù)理查房
- 兒童繪畫與心理治療課件
- 特種設(shè)備安全管理培訓(xùn)(培訓(xùn)材料)課件
- 流程設(shè)計(jì)與優(yōu)化培訓(xùn)課件
- 《鄉(xiāng)土中國(guó)》讀書分享讀書感悟讀后感圖文課件
- 高位截癱患者的麻醉演示文稿
評(píng)論
0/150
提交評(píng)論