版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
自然語(yǔ)言處理的定義和發(fā)展歷程自然語(yǔ)言處理的研究?jī)?nèi)容和研究方法自然語(yǔ)言處理的應(yīng)用和前景自然語(yǔ)言處理的開(kāi)發(fā)環(huán)境第1章緒論主要內(nèi)容:全套可編輯PPT課件
本課件是可編輯的正常PPT課件1.1自然語(yǔ)言處理的定義和發(fā)展歷程自然語(yǔ)言處理的定義:
自然語(yǔ)言處理處于計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)領(lǐng)域的交叉點(diǎn),是致力于使計(jì)算機(jī)獲得能夠理解、處理、生成及模仿人類(lèi)語(yǔ)言的能力。自然語(yǔ)言處理的目標(biāo)是實(shí)現(xiàn)計(jì)算機(jī)與人類(lèi)間的自然對(duì)話(huà),即讓機(jī)器能夠像人一樣流暢地使用語(yǔ)言進(jìn)行交流。本課件是可編輯的正常PPT課件1.1自然語(yǔ)言處理的定義和發(fā)展歷程自然語(yǔ)言處理的發(fā)展歷程:萌芽期(1960年以前)發(fā)展期(1960—1999年)繁榮期(2000年至今)本課件是可編輯的正常PPT課件1.2自然語(yǔ)言處理的研究?jī)?nèi)容和研究方法研究?jī)?nèi)容:語(yǔ)義網(wǎng)
知識(shí)表示語(yǔ)義角色標(biāo)注
問(wèn)答系統(tǒng)語(yǔ)言模型
機(jī)器翻譯語(yǔ)音識(shí)別
語(yǔ)音合成語(yǔ)篇分析
輿情分析研究方法:貝葉斯分類(lèi)器循環(huán)神經(jīng)網(wǎng)絡(luò)支持向量機(jī)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)決策樹(shù)卷積神經(jīng)網(wǎng)絡(luò)隨機(jī)森林邏輯回歸本課件是可編輯的正常PPT課件1.3自然語(yǔ)言處理的應(yīng)用和前景自然語(yǔ)言處理已經(jīng)深入到許多領(lǐng)域中,如在線(xiàn)客服、智能搜索和內(nèi)容推薦等。隨著深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)的進(jìn)步,自然語(yǔ)言處理的應(yīng)用將更加廣泛和深入。具體來(lái)說(shuō),文本領(lǐng)域的搜索引擎、信息檢索、機(jī)器翻譯、自動(dòng)摘要、文本分類(lèi)、意見(jiàn)挖掘、輿情分析、信息過(guò)濾和垃圾郵件處理等眾多類(lèi)型智能應(yīng)用需要自然語(yǔ)言處理幫助其實(shí)現(xiàn)智能化。未來(lái),隨著人工智能的深入發(fā)展,自然語(yǔ)言處理的需求將會(huì)不斷提升。大語(yǔ)言模型是深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的一個(gè)應(yīng)用,這些模型的目標(biāo)是理解和生成人類(lèi)語(yǔ)言。為了實(shí)現(xiàn)這個(gè)目標(biāo),模型需要在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,以學(xué)習(xí)語(yǔ)言的各種模式和結(jié)構(gòu)。例如,ChatGPT就是一個(gè)大語(yǔ)言模型的例子??偟膩?lái)說(shuō),自然語(yǔ)言處理的發(fā)展前景廣闊,有著無(wú)限的可能。本課件是可編輯的正常PPT課件1.4自然語(yǔ)言處理的開(kāi)發(fā)環(huán)境第1步,進(jìn)入Anaconda官網(wǎng)主頁(yè),如圖1.1所示。單擊“Download”按鈕,默認(rèn)下載的是Windows版本軟件。還可以在“Download”按鈕的下方找到對(duì)應(yīng)的Mac或Linux操作系統(tǒng)版本軟件。第2步,啟動(dòng)軟件的安裝程序,安裝界面如圖1.2所示,選擇默認(rèn)的選項(xiàng)進(jìn)行安裝即可。本課件是可編輯的正常PPT課件文本清洗和去噪詞法分析句法分析語(yǔ)義分析第2章文本預(yù)處理主要內(nèi)容:本課件是可編輯的正常PPT課件學(xué)習(xí)目標(biāo):(1)深入領(lǐng)會(huì)文本預(yù)處理的核心意義及關(guān)鍵步驟,并明晰其在自然語(yǔ)言處理流程中不可或缺的步驟。(2)熟練掌握詞法分析的基礎(chǔ)理念與技術(shù)手段,深化理解中文分詞的內(nèi)在機(jī)制與實(shí)施方法,并能熟練運(yùn)用詞性標(biāo)注工具對(duì)文本進(jìn)行精確的詞性標(biāo)注。(3)全面掌握句法分析庫(kù)的相關(guān)知識(shí)與評(píng)估方法,能夠熟練操作依存句法分析工具,對(duì)文本進(jìn)行精準(zhǔn)的句法結(jié)構(gòu)分析。(4)精通詞義消歧的技術(shù)方法,并掌握語(yǔ)義角色標(biāo)注的核心理念與操作技巧,以實(shí)現(xiàn)對(duì)文本深層語(yǔ)義的準(zhǔn)確解析與標(biāo)注。本課件是可編輯的正常PPT課件2.1文本清洗和去噪文本清洗和去噪是自然語(yǔ)言處理中至關(guān)重要的步驟,旨在剔除文本中的噪聲和冗余信息,從而顯著提升文本的質(zhì)量。這一過(guò)程主要包括去除文本中的無(wú)用部分、停用詞,并將繁體轉(zhuǎn)為簡(jiǎn)體、全角字符轉(zhuǎn)為半角字符、剔除數(shù)字和特殊字符,以及去除空白行和空行等。本課件是可編輯的正常PPT課件常用的文本清洗和去噪的代碼:importredeftext_cleaning(text):
text=re.sub(r'[^\w\s]','',text)stopwords=['的','是','在’]text=''.join([wordforwordintext.split()ifwordnotinstopwords])text=text.replace('繁體','簡(jiǎn)體')text=''.join([chr(ord(c)-65248)if65281<=ord(c)<=65374elsecforcintext])text=re.sub(r'\d+','',text)text=''.join([lineforlineintext.split('')ifline.strip()])returntexttext="我們來(lái)測(cè)試下列文本。在這個(gè)文本中包含了一些特殊符號(hào)!@#¥%……&*()——+【】{}|;':\"<>?,./。"cleaned_text=text_cleaning(text)print(cleaned_text)本課件是可編輯的正常PPT課件2.2詞法分析詞法分析作為自然語(yǔ)言處理領(lǐng)域中的基石,扮演著至關(guān)重要的角色。其核心任務(wù)是將輸入的字符串切分為獨(dú)立的詞或標(biāo)記,這些詞或標(biāo)記構(gòu)成了自然語(yǔ)言處理的基本單元。在中文詞法分析領(lǐng)域,主要存在3種方法。(1)基于規(guī)則的方法,它依賴(lài)預(yù)設(shè)的語(yǔ)法規(guī)則進(jìn)行切分。(2)基于統(tǒng)計(jì)的方法,它利用語(yǔ)料庫(kù)中的統(tǒng)計(jì)信息來(lái)識(shí)別詞邊界。(3)基于規(guī)則與統(tǒng)計(jì)的混合方法,它結(jié)合了前兩者的優(yōu)勢(shì),以提高詞法分析的準(zhǔn)確性和效率。本課件是可編輯的正常PPT課件2.2.1中文分詞現(xiàn)有的中文分詞算法大致可以分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法?;谧址ヅ涞姆衷~方法:正向最大匹配法逆向最大匹配法雙向最大匹配法本課件是可編輯的正常PPT課件正向最大匹配法正向最大匹配法是一種基于詞典的分詞方法,其基本思想是:假定詞典(或稱(chēng)機(jī)器詞典)中最長(zhǎng)詞條的長(zhǎng)度為L(zhǎng),則用被處理文檔當(dāng)前字符串序列中的前L個(gè)字符作為一個(gè)詞,與詞典中的詞條進(jìn)行匹配。若詞典中存在這樣一個(gè)詞條,則該詞匹配成功(識(shí)別出一個(gè)詞)。此時(shí),將匹配成功的這個(gè)詞從字符串序列中刪去,然后繼續(xù)用下一個(gè)長(zhǎng)度為L(zhǎng)的字符串進(jìn)行匹配;若詞典中不存在這樣一個(gè)詞,則匹配失敗,此時(shí)將匹配字符串的最后一個(gè)字去掉,對(duì)剩下的字符串重新進(jìn)行匹配。如此進(jìn)行下去,直到整個(gè)字符串序列中的字全部處理完畢。本課件是可編輯的正常PPT課件第1步,假定分詞詞典中最長(zhǎng)詞有i個(gè)漢字字符,使用被處理的當(dāng)前字串中的前i個(gè)字符作為匹配字段,查找字典。第2步,若在詞典中找到了這樣一個(gè)i個(gè)字符的詞,則認(rèn)為匹配成功;否則,將匹配字段中的最后一個(gè)字符去掉,對(duì)剩下的字符串重復(fù)上述過(guò)程。第3步,這個(gè)過(guò)程會(huì)持續(xù)進(jìn)行,直到句子掃描完畢,也就是說(shuō),會(huì)盡可能多地從句子中切分出詞典中的詞語(yǔ)。具體步驟如下:本課件是可編輯的正常PPT課件例:我愛(ài)黃河母親河第1步,選取窗口。窗口大小為3(因?yàn)樵~典中最長(zhǎng)的長(zhǎng)度為3的詞為“母親河”)。第2步,向前匹配。每次匹配時(shí),將匹配字段的前k個(gè)字符去掉,k取決于詞典中的詞長(zhǎng)。第一次匹配“母親河”→命中{'母親河'},第二次匹配“愛(ài)黃河”→無(wú),第三次匹配“黃河”→命中{'母親河','黃河'}。第3步,得出結(jié)果。最終分詞結(jié)果為“我”“愛(ài)”“黃河”“母親河”。本課件是可編輯的正常PPT課件163逆向最大匹配法逆向最大匹配法的原理與正向最大匹配法的原理基本相同,不同的是分詞切分的方向相反,而且使用的分詞詞典也不同。由于漢語(yǔ)中主語(yǔ)和謂語(yǔ)的結(jié)構(gòu)特點(diǎn),逆向匹配對(duì)歧義字段的分詞很有效。統(tǒng)計(jì)結(jié)果表明,逆向最大匹配法的分詞精度略高于正向最大匹配法。本課件是可編輯的正常PPT課件例:我愛(ài)黃河母親河第1步,假定分詞詞典中的最長(zhǎng)詞有3個(gè)漢字字符,從文檔末端開(kāi)始匹配掃描,每次取最末端的3個(gè)字符作為匹配字段,即“我愛(ài)黃河母親河”→“母親河”。第2步,在詞典中查找“母親河”,如果找到,則匹配成功,分詞結(jié)果為“我愛(ài)”“黃河”“母親河”。第3步,如果沒(méi)找到,將匹配字段中最前面的一個(gè)字符去掉,即去掉“母”,得到新的匹配字段“親河”,繼續(xù)在詞典中查找“親河”。第4步,如果找到,則匹配成功,分詞結(jié)果為“我愛(ài)”“黃河”“母親河”。第5步,如果還沒(méi)找到,則繼續(xù)重復(fù)上述步驟,直到句子被掃描完為止。
本課件是可編輯的正常PPT課件雙向最大匹配法雙向最大匹配法是一種綜合了正向最大匹配法和逆向最大匹配法的分詞方法。在雙向最大匹配法中,首先根據(jù)標(biāo)點(diǎn)對(duì)文檔進(jìn)行粗切分,把文檔分解成若干個(gè)句子,然后再對(duì)這些句子用正向最大匹配法和逆向最大匹配法進(jìn)行掃描切分。對(duì)于每個(gè)句子,雙向最大匹配法會(huì)分別使用正向最大匹配法和逆向最大匹配法進(jìn)行分詞處理,得到兩種可能的分詞結(jié)果。然后,根據(jù)“大顆粒度詞越多越好,非詞典詞和單字詞越少越好”的原則,選取其中一種分詞結(jié)果作為最終的輸出。這種方法有效地結(jié)合了正向最大匹配法和逆向最大匹配法的優(yōu)點(diǎn),能夠在不同的語(yǔ)境和語(yǔ)序中都得到較好的分詞結(jié)果。
本課件是可編輯的正常PPT課件例:我愛(ài)黃河母親河第1步,使用標(biāo)點(diǎn)符號(hào)對(duì)句子進(jìn)行粗切分,得到兩個(gè)句子:“我愛(ài)黃河母親河”“?!?。第2步,對(duì)于第一個(gè)句子“我愛(ài)黃河母親河”,會(huì)分別使用正向最大匹配法和逆向最大匹配法進(jìn)行掃描切分。
如果使用正向最大匹配法,會(huì)先將“我”作為一個(gè)詞,然后在詞典中查找,發(fā)現(xiàn)不存在,于是去掉“我”,將“愛(ài)黃”作為新的詞進(jìn)行查找,發(fā)現(xiàn)存在,于是識(shí)別出一個(gè)詞“愛(ài)黃”。然后繼續(xù)處理剩下的字符串“河母親河?!?,以此類(lèi)推。如果使用逆向最大匹配法,會(huì)先將“愛(ài)黃河母親河”作為一個(gè)詞,然后在詞典中查找,發(fā)現(xiàn)不存在,于是去掉最后一個(gè)字“河”,將“愛(ài)黃”作為新的詞進(jìn)行查找,發(fā)現(xiàn)存在,于是識(shí)別出一個(gè)詞“愛(ài)黃”。然后繼續(xù)處理剩下的字符串“河母親河?!?,以此類(lèi)推。第3步,根據(jù)“大顆粒度詞越多越好,非詞典詞和單字詞越少越好”的原則,選取其中一種分詞結(jié)果作為最終的輸出。
本課件是可編輯的正常PPT課件
基于理解的分詞方法基于理解的分詞方法是一種通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,從而達(dá)到識(shí)別詞的效果的分詞方法。這種方法的基本思想是在分詞的同時(shí)進(jìn)行語(yǔ)法、語(yǔ)義分析,利用分析結(jié)果解決分詞中的歧義問(wèn)題。它通常包括分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)和總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息,進(jìn)而對(duì)分詞歧義進(jìn)行判斷。這種分詞方法模擬了人對(duì)句子的理解過(guò)程,但需要使用大量的語(yǔ)言知識(shí)和信息進(jìn)行訓(xùn)練。本課件是可編輯的正常PPT課件
基于統(tǒng)計(jì)的分詞方法基于統(tǒng)計(jì)的分詞方法是目前應(yīng)用最廣泛的分詞方法之一。它結(jié)合統(tǒng)計(jì)學(xué)原理,利用大量語(yǔ)料庫(kù)進(jìn)行訓(xùn)練和學(xué)習(xí),從而實(shí)現(xiàn)對(duì)文本的分詞。該方法不依賴(lài)預(yù)先編制好的詞典,而是通過(guò)對(duì)文本中相鄰字同時(shí)出現(xiàn)的頻率的統(tǒng)計(jì)信息進(jìn)行分析,找出詞與詞之間的邊界。基于統(tǒng)計(jì)的分詞方法的核心思想是相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此,通過(guò)對(duì)訓(xùn)練文本中相鄰的各字的組合頻率進(jìn)行分析,可以計(jì)算出字與字之間的互現(xiàn)信息,進(jìn)而反映成詞的可信度。當(dāng)這種互現(xiàn)信息的緊密程度超過(guò)某個(gè)閾值時(shí),就可以認(rèn)為這些字構(gòu)成了一個(gè)詞。本課件是可編輯的正常PPT課件步驟:第1步,需要構(gòu)建一個(gè)語(yǔ)言模型,這通常是利用大量語(yǔ)料庫(kù)進(jìn)行訓(xùn)練得到的。第2步,對(duì)輸入的句子進(jìn)行單詞劃分,這個(gè)過(guò)程可以通過(guò)一些統(tǒng)計(jì)方法來(lái)實(shí)現(xiàn),如隱馬爾可夫模型或條件隨機(jī)場(chǎng)等。第3步,根據(jù)統(tǒng)計(jì)結(jié)果,選擇概率最大的分詞方式作為輸出結(jié)果。
本課件是可編輯的正常PPT課件1.N-gram語(yǔ)言模型的分詞方法
N-gram語(yǔ)言模型是一種基于N個(gè)連續(xù)字母或單獨(dú)字母的組合來(lái)進(jìn)行分詞的方法,它通過(guò)計(jì)算字符串中每種劃分的概率來(lái)確定最佳的分詞方式。在這種方法中,假設(shè)一個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān)。具體來(lái)說(shuō),設(shè)S為一個(gè)自然句子,w1,w2,…,wn
為構(gòu)成S的詞,句子S出現(xiàn)的概率為p(S),這種分詞方法會(huì)選取概率最大的分詞結(jié)果作為最終結(jié)果。p(S)的計(jì)算方法如式(2.1)所示。
p(S)=p(w1,w2,…,wn)
(2.1)
假設(shè)每一個(gè)詞wi都要受到第一個(gè)詞w1到它之前一個(gè)詞wi-1的影響,則由條件概率,S出現(xiàn)的概率等于每個(gè)詞出現(xiàn)的概率乘積,如公式(2.2)所示。p(S)=p(w1,w2,?,wn)=p(w1)p(w2|w1)?p(wn|wn-1?w2
w1)(2.2)
本課件是可編輯的正常PPT課件
本課件是可編輯的正常PPT課件N-gram語(yǔ)言模型的具體步驟如下:第1步,數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是分詞過(guò)程中的重要環(huán)節(jié),旨在去除文本中的標(biāo)點(diǎn)符號(hào)、停用詞和特殊字符等冗余信息,以便更準(zhǔn)確地識(shí)別文本中的語(yǔ)義信息。預(yù)處理過(guò)程中,需要使用各種技術(shù)手段,如正則表達(dá)式、字符串替換等,以高效處理大量文本數(shù)據(jù)。第2步,構(gòu)建N-gram語(yǔ)言模型。根據(jù)預(yù)處理后的文本,將文本切分成若干個(gè)字母或字的組合,其中,N表示每個(gè)組合的長(zhǎng)度。在構(gòu)建N-gram語(yǔ)言模型時(shí),需要對(duì)預(yù)處理后的文本進(jìn)行切分,形成一系列N-gram序列。第3步,計(jì)算頻率和概率。這一步是分詞過(guò)程中的重要環(huán)節(jié)。通過(guò)統(tǒng)計(jì)N-gram序列中每個(gè)組合的出現(xiàn)次數(shù),計(jì)算出它們的頻率和概率。這些信息對(duì)于后續(xù)的分詞結(jié)果選擇具有重要的參考價(jià)值。第4步,分詞結(jié)果。通過(guò)比較N-gram序列的頻率和概率,選擇出現(xiàn)次數(shù)最高的組合作為分詞結(jié)果。這種方法可以有效提高分詞的準(zhǔn)確性和效率。最終的分詞結(jié)果將作為后續(xù)自然語(yǔ)言處理任務(wù)的輸入,對(duì)于后續(xù)任務(wù)的效果至關(guān)重要
本課件是可編輯的正常PPT課件例如,對(duì)字符串“我喜歡吃蘋(píng)果,因?yàn)樘O(píng)果很好吃。我也喜歡吃香蕉,因?yàn)橄憬逗芴稹!边M(jìn)行分詞.fromcollectionsimportdefaultdictdeftrain_ngram_model(text,n):tokens=nltk.word_tokenize(text)model=defaultdict(lambda:defaultdict(lambda:0))foriinrange(len(tokens)-n+1):ngram=tuple(tokens[i:i+n])next_word=tokens[i+n]model[ngram][next_word]+=1forngraminmodel:total_count=float(sum(model[ngram].values()))forwordinmodel[ngram]:model[ngram][word]/=total_countreturnmodel
本課件是可編輯的正常PPT課件defgenerate_text(model,n,start_sequence,num_words):
current_sequence=list(start_sequence)output_text="".join(current_sequence)for_inrange(num_words):iflen(current_sequence)<n:ngram=tuple(current_sequence)else: ngram=tuple(current_sequence[-n+1:])next_word_probs=model[ngram]
next_word=max(next_word_probs,key=next_word_probs.get)
current_sequence.append(next_word)output_text+=""+next_wordreturnoutput_texttext="我喜歡吃蘋(píng)果,因?yàn)樘O(píng)果很好吃。我也喜歡吃香蕉,因?yàn)橄憬逗芴稹?n=2start_sequence=("我","喜歡")num_words=5model=train_ngram_model(text,n)generated_text=generate_text(model,n,start_sequence,num_words)print(generated_text)
本課件是可編輯的正常PPT課件2.隱馬爾可夫模型的分詞方法隱馬爾可夫模型是自然語(yǔ)言處理領(lǐng)域備受關(guān)注的一種模型,是一種概率模型,也是一種有向圖模型,用于解決序列預(yù)測(cè)問(wèn)題,可以對(duì)序列數(shù)據(jù)中的上下文信息進(jìn)行建模。隱馬爾可夫模型主要用于描述包含隱含未知參數(shù)的馬爾可夫過(guò)程。在隱馬爾可夫模型中,存在兩種類(lèi)型的節(jié)點(diǎn),分別是觀(guān)測(cè)序列和狀態(tài)序列。狀態(tài)序列是不可見(jiàn)的,它們的值需要通過(guò)對(duì)觀(guān)測(cè)序列進(jìn)行推斷來(lái)獲得。許多現(xiàn)實(shí)應(yīng)用可以抽象為狀態(tài)序列,如語(yǔ)音識(shí)別、自然語(yǔ)言處理中的分詞和詞性標(biāo)注等。隱馬爾可夫模型結(jié)構(gòu)如圖2.1所示。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件例如,對(duì)句子“我喜歡吃蘋(píng)果和香蕉”利用隱馬爾可夫模型進(jìn)行分詞,假設(shè)有一個(gè)簡(jiǎn)單的語(yǔ)料庫(kù),包含三個(gè)詞性:名詞(N)、動(dòng)詞(V)和連詞(C)。使用這個(gè)語(yǔ)料庫(kù)訓(xùn)練一個(gè)隱馬爾可夫模型,然后使用該模型對(duì)新的句子進(jìn)行分詞。importnumpyasnpfromhmmlearnimporthmm#語(yǔ)料庫(kù)corpus=[('我','N'),('喜歡','V'),('吃','V'),('蘋(píng)果','N'),('和','C'),('香蕉','N')]defextract_features(word):return{'length':len(word)}X=np.array([[extract_features(word)['length']]forword,_incorpus])model=hmm.GaussianHMM(n_components=2,covariance_type="diag",n_iter=1000)model.fit(X)new_sentence='我喜歡吃蘋(píng)果和香蕉’words=new_sentence.split()new_X=np.array([[extract_features(word)['length']]forwordinwords])predicted_states=model.predict(new_X)fori,wordinenumerate(words):print(f"{word}:{corpus[predicted_states[i]][1]}")
本課件是可編輯的正常PPT課件3.條件隨機(jī)場(chǎng)的分詞方法條件隨機(jī)場(chǎng)是Lafferty等人于2001年提出的,結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),是一種判別式模型。條件隨機(jī)場(chǎng)用于建模輸出隨機(jī)變量在給定一組輸入隨機(jī)變量條件下的條件概率分布。它的特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾可夫隨機(jī)場(chǎng)。條件隨機(jī)場(chǎng)可以用于不同的預(yù)測(cè)問(wèn)題。生成式模型是直接對(duì)聯(lián)合分布進(jìn)行建模的,而判別式模型則是對(duì)條件分布進(jìn)行建模的,隱馬爾可夫模型是生成式模型,條件隨機(jī)場(chǎng)是判別式模型。條件隨機(jī)場(chǎng)常用于標(biāo)注或分析序列資料,如自然語(yǔ)言文字或生物序列。近年來(lái),條件隨機(jī)場(chǎng)在分詞、詞形標(biāo)注和命名實(shí)體識(shí)別等序列標(biāo)注中取得了很好的效果。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件第1步,準(zhǔn)備訓(xùn)練數(shù)據(jù)。收集大量帶標(biāo)簽的文本數(shù)據(jù),其中每個(gè)文本都被分成若干個(gè)詞語(yǔ),每個(gè)詞語(yǔ)都有一個(gè)對(duì)應(yīng)的標(biāo)簽??梢允褂瞄_(kāi)源的中文分詞數(shù)據(jù)集訓(xùn)練數(shù)據(jù),如PKU、MSRA等。第2步,構(gòu)建特征函數(shù)。根據(jù)問(wèn)題的特點(diǎn),設(shè)計(jì)合適的特征函數(shù)。例如,可以使用字符級(jí)別的特征、詞性特征、上下文特征等。字符級(jí)別的特征:當(dāng)前字符是否為漢字、是否為標(biāo)點(diǎn)符號(hào)等。詞性特征:當(dāng)前詞是否為名詞、動(dòng)詞等。上下文特征:當(dāng)前詞的前一個(gè)詞和后一個(gè)詞是否相同、當(dāng)前詞是否在一個(gè)固定的詞組中等。第3步,訓(xùn)練條件隨機(jī)場(chǎng)模型。使用訓(xùn)練數(shù)據(jù)和特征函數(shù),訓(xùn)練一個(gè)條件隨機(jī)場(chǎng)模型。可以使用現(xiàn)有的庫(kù),如Python的sklearn-crfsuite庫(kù)。以“我愛(ài)黃河母親河”為例。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件2.2.2詞性標(biāo)注詞性是詞語(yǔ)的固有屬性,它依據(jù)詞語(yǔ)在句子中扮演的語(yǔ)法角色及與周?chē)~語(yǔ)的相互關(guān)系進(jìn)行分類(lèi)。詞性標(biāo)注,亦稱(chēng)語(yǔ)法標(biāo)注或詞類(lèi)辨析,是語(yǔ)料庫(kù)語(yǔ)言學(xué)中一項(xiàng)關(guān)鍵的文本數(shù)據(jù)處理技術(shù)。該技術(shù)旨在根據(jù)詞語(yǔ)的含義及上下文內(nèi)容,為語(yǔ)料庫(kù)中的每個(gè)詞語(yǔ)標(biāo)注詞性。簡(jiǎn)而言之,詞性標(biāo)注就是在特定的語(yǔ)境中,確定句子中各詞語(yǔ)的詞性歸屬。作為自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)性且至關(guān)重要的任務(wù),詞性標(biāo)注對(duì)于句法分析、信息抽取等后續(xù)工作具有舉足輕重的意義,它為這些更為復(fù)雜的自然語(yǔ)言處理任務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ)。本課件是可編輯的正常PPT課件
中文分詞的分類(lèi)及作用在漢語(yǔ)中,詞作為能夠完整表達(dá)語(yǔ)義的最小單位,扮演著不可或缺的角色。漢語(yǔ)的詞語(yǔ)可以被清晰地劃分為實(shí)詞和虛詞兩大類(lèi)。實(shí)詞是指那些能夠獨(dú)立作為句子成分的詞,它們不僅具備豐富的詞匯意義,同時(shí)也承載著重要的語(yǔ)法功能。具體來(lái)說(shuō),實(shí)詞涵蓋了名詞、動(dòng)詞、形容詞、數(shù)詞、量詞及代詞等多種類(lèi)型,在漢語(yǔ)中發(fā)揮著至關(guān)重要的作用,共同構(gòu)建了漢語(yǔ)的豐富表達(dá)體系。
本課件是可編輯的正常PPT課件表2.1列舉了實(shí)詞中關(guān)于名詞和動(dòng)詞的分類(lèi)及意義,為深入理解這兩類(lèi)實(shí)詞提供了清晰的框架。
本課件是可編輯的正常PPT課件虛詞虛詞在漢語(yǔ)中雖然不承載具體的詞匯意義,卻扮演著連接、修飾或強(qiáng)調(diào)其他詞語(yǔ)的關(guān)鍵角色。它們種類(lèi)繁多,包括介詞、連詞、助詞、副詞和感嘆詞等。
本課件是可編輯的正常PPT課件
詞性標(biāo)注的困難中文分詞工具種類(lèi)繁多。其中,jieba分詞、HanLP和FoolNLTK等都是備受推崇的工具。這些分詞工具各有特色,運(yùn)用了不同的分詞算法來(lái)實(shí)現(xiàn)文本的切分,包括最短路徑分詞、N元語(yǔ)法分詞、由字構(gòu)詞分詞、循環(huán)神經(jīng)網(wǎng)絡(luò)分詞及Transformer分詞等。盡管這些工具在標(biāo)注體系上存在差異,但它們的詞性標(biāo)注類(lèi)別大致相似,這為文本分析和處理提供了便利。
本課件是可編輯的正常PPT課件在進(jìn)行關(guān)鍵詞的選擇時(shí),詞性是一個(gè)重要的考慮因素。特別是名詞或名詞性詞組,它們往往承載著文本的核心信息,對(duì)于抽取關(guān)鍵內(nèi)容具有重要意義。jieba分詞詞性標(biāo)注規(guī)范如表2.2所示。
標(biāo)記名稱(chēng)標(biāo)記名稱(chēng)標(biāo)記名稱(chēng)a形容詞l習(xí)用語(yǔ)t時(shí)間詞ad副形詞m數(shù)詞tg時(shí)語(yǔ)素ag形語(yǔ)素mq數(shù)量詞u助詞al形慣用語(yǔ)n名詞ud結(jié)構(gòu)助詞得an名形詞ng名語(yǔ)素ug時(shí)態(tài)助詞b區(qū)別詞nr人名uj結(jié)構(gòu)助詞的bl區(qū)慣用語(yǔ)ns地名ul時(shí)態(tài)助詞了c連詞nt機(jī)構(gòu)團(tuán)體名uv結(jié)構(gòu)助詞地cc并列連詞nx字母專(zhuān)名uz時(shí)態(tài)助詞著d副詞nz其他專(zhuān)名v動(dòng)詞dg副語(yǔ)素o擬聲詞vd副動(dòng)詞e嘆詞p介詞vg動(dòng)語(yǔ)素f方位詞q量詞vi不及物動(dòng)詞g語(yǔ)素r代詞vn名動(dòng)詞h前接成分rg代語(yǔ)素x非語(yǔ)素i成語(yǔ)rr人稱(chēng)代詞y語(yǔ)氣詞j簡(jiǎn)稱(chēng)略語(yǔ)rz指示代詞z狀態(tài)詞k后接成分s處所詞表2.2jieba分詞詞性標(biāo)注規(guī)范本課件是可編輯的正常PPT課件
詞性標(biāo)注的挑戰(zhàn)詞性標(biāo)注作為自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)任務(wù),雖然取得了顯著的進(jìn)展,但仍然面臨一些挑戰(zhàn)。
首先,詞性標(biāo)注的挑戰(zhàn)之一是歧義問(wèn)題。
其次,低頻詞和未登錄詞的判斷也是一個(gè)挑戰(zhàn)。
最后,不同語(yǔ)言的特性也給詞性標(biāo)注帶來(lái)了不同的挑戰(zhàn)。
為了解決這些挑戰(zhàn),學(xué)者們正在不斷探索新的方法和技術(shù)。例如,基于深度學(xué)習(xí)的詞性標(biāo)注方法正在逐漸成為主流,它們能夠自動(dòng)學(xué)習(xí)和抽取語(yǔ)言的特征,從而提高詞性標(biāo)注的準(zhǔn)確率。同時(shí),對(duì)于低頻詞和未登錄詞,也可以通過(guò)一些技術(shù)手段進(jìn)行處理,如利用上下文信息、構(gòu)建更大的詞匯表等。
本課件是可編輯的正常PPT課件2.3句法分析句法分析是對(duì)輸入的句子進(jìn)行分析,以獲取其句法結(jié)構(gòu),這也是自然語(yǔ)言處理領(lǐng)域中的經(jīng)典任務(wù)之一。許多自然語(yǔ)言處理任務(wù),如機(jī)器翻譯、信息抽取和自動(dòng)摘要等,都需要依賴(lài)句法分析的準(zhǔn)確結(jié)果才能獲得令人滿(mǎn)意的解決方案。更為重要的是,語(yǔ)言是人類(lèi)思維的載體,對(duì)自然語(yǔ)言句法分析的研究不僅有助于更深刻地理解人類(lèi)思維的本質(zhì),更承載著重要的理論意義和實(shí)際價(jià)值,以及深遠(yuǎn)的哲學(xué)意義。
本課件是可編輯的正常PPT課件2.3.1句法分析的概念句法分析是根據(jù)給定的文法自動(dòng)識(shí)別句子所包含的句法單位,以及這些句法單位之間的關(guān)系。常見(jiàn)的句法分析形式包括成分句法分析和依存句法分析。成分句法分析的目標(biāo)是發(fā)現(xiàn)句子中的短語(yǔ)及短語(yǔ)之間的層次組合結(jié)構(gòu),而依存句法分析則是要發(fā)現(xiàn)句中單詞之間的二元依存關(guān)系。句法分析的結(jié)果一般用樹(shù)狀數(shù)據(jù)結(jié)構(gòu)表示,通常稱(chēng)為句法分析樹(shù),簡(jiǎn)稱(chēng)分析樹(shù)。一般而言,句法分析有3個(gè)任務(wù)。(1)判斷輸入的字符串是否屬于某種語(yǔ)言。(2)消除輸入句子中詞法和結(jié)構(gòu)等方面的歧義。(3)對(duì)輸入句子進(jìn)行深入分析,包括成分構(gòu)成、上下文關(guān)系等內(nèi)部結(jié)構(gòu)信息。本課件是可編輯的正常PPT課件1.基于規(guī)則的分析方法基于規(guī)則的分析方法是一種傳統(tǒng)的自然語(yǔ)言處理方法,它通過(guò)人工制定語(yǔ)法規(guī)則來(lái)對(duì)輸入的句子進(jìn)行分析。這種方法需要專(zhuān)家手動(dòng)制定規(guī)則,因此對(duì)于復(fù)雜的語(yǔ)言現(xiàn)象其處理效果可能不盡如人意?;谝?guī)則的分析方法是一種傳統(tǒng)的自然語(yǔ)言處理方法,它通過(guò)人工制定語(yǔ)法規(guī)則來(lái)對(duì)輸入的句子進(jìn)行分析。這種方法需要專(zhuān)家手動(dòng)制定規(guī)則,因此對(duì)于復(fù)雜的語(yǔ)言現(xiàn)象其處理效果可能不盡如人意。
第1步,定義語(yǔ)法規(guī)則。根據(jù)語(yǔ)言學(xué)知識(shí),定義句子的語(yǔ)法規(guī)則,包括詞匯、短語(yǔ)和句子之間的依存關(guān)系等。第2步,建立語(yǔ)法知識(shí)庫(kù)。將定義好的語(yǔ)法規(guī)則存儲(chǔ)在語(yǔ)法知識(shí)庫(kù)中,以供后續(xù)使用。第3步,進(jìn)行句法分析。對(duì)輸入的句子進(jìn)行句法分析,根據(jù)語(yǔ)法知識(shí)庫(kù)中的規(guī)則來(lái)判斷句子是否符合語(yǔ)法規(guī)范。第4步,輸出分析結(jié)果。將分析結(jié)果輸出給用戶(hù)或用于后續(xù)的自然語(yǔ)言處理任務(wù)。
本課件是可編輯的正常PPT課件2.基于統(tǒng)計(jì)的分析方法基于統(tǒng)計(jì)的分析方法是一種現(xiàn)代的自然語(yǔ)言處理方法,它通過(guò)機(jī)器學(xué)習(xí)技術(shù)從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)獲取語(yǔ)言規(guī)律,并用于對(duì)輸入句子進(jìn)行分析。這種方法不需要人工制定規(guī)則,可以自動(dòng)適應(yīng)復(fù)雜多變的語(yǔ)言環(huán)境,但需要大量語(yǔ)料庫(kù)支持?;诮y(tǒng)計(jì)的分析方法的具體步驟如下。第1步,準(zhǔn)備語(yǔ)料庫(kù)。收集和整理大規(guī)模語(yǔ)料庫(kù),包括各種類(lèi)型和風(fēng)格的文本數(shù)據(jù)。第2步,特征提取。從語(yǔ)料庫(kù)中提取有用的特征信息,如詞性、短語(yǔ)結(jié)構(gòu)等。第3步,訓(xùn)練模型。使用機(jī)器學(xué)習(xí)算法(如隱馬爾可夫模型、條件隨機(jī)場(chǎng)等)對(duì)提取的特征進(jìn)行訓(xùn)練,得到句法分析模型。第4步,進(jìn)行句法分析。對(duì)輸入的句子進(jìn)行句法分析,根據(jù)訓(xùn)練好的模型來(lái)判斷句子是否符合語(yǔ)法規(guī)范。第5步,輸出分析結(jié)果。將分析結(jié)果輸出給用戶(hù)或用于后續(xù)的自然語(yǔ)言處理任務(wù)。
本課件是可編輯的正常PPT課件2.3.2句法分析樹(shù)庫(kù)及其評(píng)測(cè)方法句法分析樹(shù)庫(kù)及其評(píng)測(cè)方法是一種用于評(píng)估自然語(yǔ)言處理系統(tǒng)中句法分析算法性能的工具。為了確定句子中詞匯之間的語(yǔ)法關(guān)系,需要構(gòu)建一個(gè)包含大量句子及其對(duì)應(yīng)的正確句法分析樹(shù)的數(shù)據(jù)集,即句法分析樹(shù)庫(kù)。同時(shí),他們還需要設(shè)計(jì)一種方法來(lái)評(píng)估不同句法分析算法在這個(gè)數(shù)據(jù)集上的性能。
本課件是可編輯的正常PPT課件
句法分析樹(shù)庫(kù)句法分析樹(shù)庫(kù)涉及不同語(yǔ)言的句法分析樹(shù)庫(kù),包括中文和英文。句法分析的數(shù)據(jù)集是一種樹(shù)形的標(biāo)注結(jié)構(gòu)。對(duì)于英文,最常用的是賓州樹(shù)庫(kù),這是由賓夕法尼亞大學(xué)開(kāi)發(fā)的樹(shù)庫(kù),其前身是ATIS樹(shù)庫(kù)和WSJ樹(shù)庫(kù),具有較高的一致性和標(biāo)注準(zhǔn)確率。對(duì)于中文,比較著名的有賓州中文樹(shù)庫(kù)、清華漢語(yǔ)樹(shù)庫(kù)等。其中,清華漢語(yǔ)樹(shù)庫(kù)是按照CoNLL格式組織的,包含大量中文依存句法分析語(yǔ)料。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件構(gòu)建句法分析樹(shù)庫(kù)的幾個(gè)關(guān)鍵步驟。
第1步,樹(shù)庫(kù)設(shè)計(jì)。需要明確“句”和“組塊”的界定與表示。
第2步,數(shù)據(jù)收集與標(biāo)注。
第3步,句法樹(shù)構(gòu)建。
第4步,特征提取與模型訓(xùn)練。
第5步,樹(shù)庫(kù)質(zhì)量評(píng)估與優(yōu)化。
第6步,應(yīng)用與測(cè)試。
本課件是可編輯的正常PPT課件
評(píng)測(cè)方法句法分析樹(shù)庫(kù)的評(píng)測(cè)方法主要關(guān)注由句法分析器生成的樹(shù)結(jié)構(gòu)與人工標(biāo)注的樹(shù)結(jié)構(gòu)之間的匹配程度,以此來(lái)評(píng)估句法分析器的性能。評(píng)測(cè)句法分析器性能的方法通常包括以下幾個(gè)方面。
(1)精確率。
(2)召回率。
(3)F1值。
(4)交叉括號(hào)數(shù)。
本課件是可編輯的正常PPT課件2.3.3依存句法分析依存句法分析是基于句子中詞語(yǔ)之間的依存關(guān)系來(lái)分析句子結(jié)構(gòu)的方法。這種方法利用句子中詞語(yǔ)之間的依存關(guān)系來(lái)表示詞語(yǔ)的句法結(jié)構(gòu)信息,如主謂、動(dòng)賓、定中等依存關(guān)系。這種分析方法將句子視為一個(gè)有向圖,其中,節(jié)點(diǎn)表示單詞,邊表示單詞之間的依存關(guān)系。依存句法分析的目標(biāo)是找出句子中每個(gè)詞語(yǔ)之間的直接依存關(guān)系,從而揭示句子的結(jié)構(gòu)和意義。在自然語(yǔ)言處理中,依存句法分析被廣泛應(yīng)用于問(wèn)答系統(tǒng)、信息抽取、機(jī)器翻譯等領(lǐng)域。常見(jiàn)的依存句法分析方法包括基于圖模型的依存句法分析、基于轉(zhuǎn)移模型方法的依存句法分析。
本課件是可編輯的正常PPT課件
基于圖模型的依存句法分析本課件是可編輯的正常PPT課件
基于轉(zhuǎn)移模型方法的依存句法分析基于轉(zhuǎn)移模型方法的依存句法分析是自然語(yǔ)言處理中的一種關(guān)鍵技術(shù),它的目標(biāo)是分析句子的語(yǔ)法結(jié)構(gòu)并將其表示為容易理解的結(jié)構(gòu),通常是樹(shù)形結(jié)構(gòu)。在生成依存句法樹(shù)時(shí),先從空狀態(tài)開(kāi)始,通過(guò)動(dòng)作轉(zhuǎn)移到下一個(gè)狀態(tài),一步一步生成依存句法樹(shù),最后生成一棵完整的依存句法樹(shù),具體過(guò)程如下。
第1步,定義一個(gè)轉(zhuǎn)移概率模型,該模型描述了在給定當(dāng)前詞語(yǔ)的情況下,下一個(gè)詞語(yǔ)可能的依存關(guān)系的概率分布。這個(gè)模型通過(guò)大規(guī)模的語(yǔ)料庫(kù)數(shù)據(jù)訓(xùn)練得到。第2步,從句子的起始位置開(kāi)始,選擇一個(gè)詞語(yǔ)作為當(dāng)前詞語(yǔ),并對(duì)其進(jìn)行標(biāo)注。第3步,根據(jù)當(dāng)前的標(biāo)注結(jié)果和轉(zhuǎn)移概率模型,計(jì)算出所有可能出現(xiàn)的下一個(gè)詞語(yǔ)及其對(duì)應(yīng)的依存關(guān)系的概率。第4步,選擇概率最高的下一個(gè)詞語(yǔ)作為當(dāng)前詞語(yǔ)的后續(xù)詞語(yǔ),并將其添加到當(dāng)前標(biāo)注的結(jié)果中。第5步,重復(fù)上述步驟,直到遍歷整個(gè)句子。第6步,根據(jù)最終的標(biāo)注結(jié)果,構(gòu)建出句子的依存句法樹(shù)。
本課件是可編輯的正常PPT課件2.3.4依存句法分析工具中文句法分析工具主要包括以下幾種。(1)語(yǔ)言技術(shù)平臺(tái)。
(2)DDParser。
(3)TexSmart。
(4)THULAC。
(5)StanfordCoreNLP。
以“小明喜歡吃蘋(píng)果”為例,可以將其分解為以下依存句法結(jié)構(gòu)。1ROOT2└─[HED]喜歡3├─[SBV]小明4├─[VOB]吃5│└─[VOB]蘋(píng)果6└─[MT]這里的依存關(guān)系標(biāo)簽解釋如下。SBV:主謂關(guān)系是指主語(yǔ)與謂語(yǔ)間的關(guān)系。VOB:動(dòng)賓關(guān)系是指賓語(yǔ)與謂語(yǔ)間的關(guān)系。HED:核心關(guān)系是指整個(gè)句子的核心。
本課件是可編輯的正常PPT課件2.4語(yǔ)義分析語(yǔ)義分析是一種通過(guò)計(jì)算機(jī)程序來(lái)理解和解釋人類(lèi)語(yǔ)言的技術(shù)。它的目標(biāo)是理解文本內(nèi)在的含義,而不僅僅是字面意思。語(yǔ)義分析在多個(gè)領(lǐng)域均有廣泛應(yīng)用,如自然語(yǔ)言處理、信息檢索、機(jī)器翻譯及問(wèn)答系統(tǒng)等,為這些領(lǐng)域的發(fā)展注入了強(qiáng)大的動(dòng)力。
本課件是可編輯的正常PPT課件2.4.1語(yǔ)義消岐在自然語(yǔ)言中,詞匯往往具有多重含義,而詞義消歧就是要明確一個(gè)詞在特定上下文中的精確意義。以單詞“play”為例,它既可以作為動(dòng)詞,表達(dá)玩耍、演出、投機(jī)等概念;也可以作為名詞,表示劇本、作用、玩笑等意義。同樣,漢字“長(zhǎng)”在“長(zhǎng)度”一詞中作為名詞,代表距離的大?。欢凇伴L(zhǎng)大”中“長(zhǎng)”則作為動(dòng)詞,描述生長(zhǎng)的過(guò)程。因此,詞義消歧的任務(wù)便是依據(jù)詞語(yǔ)所處的上下文環(huán)境,判斷其確切含義。在實(shí)現(xiàn)詞義消歧的過(guò)程中,常采用多種方法,如基于規(guī)則的方法、基于統(tǒng)計(jì)的方法及基于知識(shí)的方法等。這些方法有助于精準(zhǔn)地理解詞匯在特定語(yǔ)境中的含義。
本課件是可編輯的正常PPT課件
基于規(guī)則的方法此方法通常包括以下步驟:第1步,確定目標(biāo)詞匯。在確定目標(biāo)詞匯階段,要清晰地指出需要進(jìn)行詞義消歧的目標(biāo)詞匯,這將作為制定和應(yīng)用規(guī)則的出發(fā)點(diǎn)和依據(jù)。第2步,制定規(guī)則。制定規(guī)則是詞義消歧的關(guān)鍵步驟。需要根據(jù)目標(biāo)詞匯制定一系列詳盡、明確的規(guī)則。這些規(guī)則應(yīng)具有明確的指導(dǎo)性,以便計(jì)算機(jī)程序能夠準(zhǔn)確地判斷和選擇詞匯在特定上下文中的具體含義。第3步,應(yīng)用規(guī)則。在應(yīng)用階段,需將已制定的規(guī)則應(yīng)用于實(shí)際的文本數(shù)據(jù)中。這一過(guò)程往往要求開(kāi)發(fā)一個(gè)計(jì)算機(jī)程序,該程序能夠讀取并解析輸入文本,利用預(yù)設(shè)的規(guī)則對(duì)詞義進(jìn)行判定,并輸出判定結(jié)果。第4步,檢查結(jié)果。在檢查階段,需要對(duì)詞義判斷的結(jié)果進(jìn)行仔細(xì)核查,確保結(jié)果符合預(yù)期。一旦發(fā)現(xiàn)結(jié)果與預(yù)期不同,就要對(duì)已制定的規(guī)則進(jìn)行調(diào)整或修正。
本課件是可編輯的正常PPT課件例如,假設(shè)有以下句子。句子1:小明喜歡吃蘋(píng)果。句子2:小明買(mǎi)了一部蘋(píng)果手機(jī)。在這個(gè)例子中,“蘋(píng)果”這個(gè)詞有兩個(gè)可能的含義:一種水果或一個(gè)手機(jī)品牌。為了確定“蘋(píng)果”在這兩個(gè)句子中的確切含義,可以使用基于規(guī)則的方法。首先,需要定義一些規(guī)則來(lái)區(qū)分這兩種含義。例如,可以定義以下規(guī)則。規(guī)則1:如果“蘋(píng)果”前面跟著“吃”,那么它表示水果。規(guī)則2:如果“蘋(píng)果”后面跟著“手機(jī)”,那么它表示手機(jī)品牌。然后,可以根據(jù)這些規(guī)則判斷“蘋(píng)果”在每個(gè)句子中的詞義。對(duì)于第一個(gè)句子,因?yàn)椤疤O(píng)果”前面跟著“吃”,所以它的詞義是水果。對(duì)于第二個(gè)句子,因?yàn)椤疤O(píng)果”后面跟著“手機(jī)”,所以它的詞義是手機(jī)品牌。
本課件是可編輯的正常PPT課件
基于統(tǒng)計(jì)的方法基于統(tǒng)計(jì)的方法主要分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩大類(lèi)。在有監(jiān)督學(xué)習(xí)中,如貝葉斯分類(lèi)法,它利用已知的上下文與詞義之間的對(duì)應(yīng)關(guān)系,來(lái)預(yù)測(cè)未知的上下文對(duì)應(yīng)的詞義。相對(duì)而言,無(wú)監(jiān)督學(xué)習(xí)則更多地依賴(lài)詞頻的統(tǒng)計(jì)、詞典資源及語(yǔ)言學(xué)知識(shí)等信息來(lái)進(jìn)行詞義消歧。此外,基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)方法,如采用BP神經(jīng)網(wǎng)絡(luò)的模型,也被廣泛應(yīng)用于詞義消歧,它通過(guò)模擬人類(lèi)大腦神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程來(lái)推斷詞義。接下來(lái),將詳細(xì)介紹貝葉斯分類(lèi)方法。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件
基于知識(shí)的方法基于知識(shí)的方法在詞義消歧中主要依賴(lài)對(duì)領(lǐng)域知識(shí)和上下文語(yǔ)境的深入理解。近年來(lái),許多研究開(kāi)始嘗試將領(lǐng)域知識(shí)融入詞義消歧中。
先從同一篇文章中篩選出包含相同歧義詞的句子,這些句子在主題上與歧義句子相關(guān)聯(lián),因此可以作為其上下文語(yǔ)境,為消歧提供必要的背景知識(shí)。然后,深入挖掘領(lǐng)域知識(shí),為目標(biāo)領(lǐng)域收集相關(guān)的文本領(lǐng)域關(guān)聯(lián)詞,以此作為文本領(lǐng)域知識(shí)。同時(shí),為目標(biāo)歧義詞的各詞義獲取詞義領(lǐng)域標(biāo)注,以此作為詞義領(lǐng)域知識(shí)。利用這些文本領(lǐng)域關(guān)聯(lián)詞和句子上下文詞,構(gòu)建一個(gè)消歧圖,并根據(jù)詞義領(lǐng)域知識(shí)對(duì)其進(jìn)行相應(yīng)的調(diào)整。為了評(píng)估消歧圖中各詞義節(jié)點(diǎn)的重要性,采用改進(jìn)的圖評(píng)分方法對(duì)其進(jìn)行評(píng)分,從而選擇出正確的詞義。此外,還結(jié)合無(wú)標(biāo)注文本構(gòu)建了詞向量模型,并融入了特定領(lǐng)域的關(guān)鍵詞信息,提出了一種創(chuàng)新的詞義消歧方法。通過(guò)引入多元化的領(lǐng)域知識(shí),這種方法不僅在特定領(lǐng)域的文本消歧任務(wù)中表現(xiàn)出色,同時(shí)也證明了基于知識(shí)的方法在其他領(lǐng)域同樣具有廣泛的應(yīng)用前景和有效性。
本課件是可編輯的正常PPT課件
基于知識(shí)的方法Lesk算法由邁克·E.萊斯克(MichaelE.Lesk)于1986年提出,是一種基于詞典資源進(jìn)行詞義消歧的有效方法。該算法的核心原理在于,一個(gè)詞在詞典中的定義與其所在句子的含義具有某種相似性。為了量化這種相似性,Lesk算法通過(guò)比較詞典中的詞義解釋與句子中的含義,尋找兩者的詞匯交集,并以交集中單詞的數(shù)量作為相似度的衡量標(biāo)準(zhǔn)。例如,若“cone”和“pine”在詞典中的解釋分別包含兩個(gè)相同的單詞,則它們的相似度被計(jì)為2。在實(shí)際應(yīng)用中,Lesk算法會(huì)針對(duì)某個(gè)具有多重含義的詞匯構(gòu)建不同的詞義語(yǔ)料庫(kù)。隨后,Lesk算法會(huì)計(jì)算待判斷句子中目標(biāo)詞匯與各詞義語(yǔ)料庫(kù)之間的詞匯重合度。最終,選擇重合度最高的詞義作為該詞在特定上下文中的確切含義。這種方法雖然直觀(guān)且實(shí)用,但其效果在很大程度上受所用詞典的詳盡程度和語(yǔ)境復(fù)雜性的影響。
本課件是可編輯的正常PPT課件2.4.2語(yǔ)義角色標(biāo)注語(yǔ)義角色標(biāo)注是自然語(yǔ)言處理中的一個(gè)重要任務(wù),它的目標(biāo)是識(shí)別句子中的謂語(yǔ)(動(dòng)作或狀態(tài))及與該謂語(yǔ)相關(guān)的各成分,并用語(yǔ)義角色來(lái)描述這些成分與謂語(yǔ)之間的關(guān)系。這個(gè)過(guò)程有助于深入理解句子的含義。在語(yǔ)義角色標(biāo)注中,一個(gè)句子的核心是謂語(yǔ),它描述了句子中的主要?jiǎng)幼骰驙顟B(tài)。與謂語(yǔ)相關(guān)的成分包括施事者(執(zhí)行動(dòng)作的實(shí)體)、受事者(動(dòng)作的接收者或受影響者)、工具、時(shí)間、場(chǎng)所等,這些成分在句子中擔(dān)任特定的語(yǔ)義角色。例如,在句子“小明昨天在公園遇到了小紅”中,“遇到”是謂語(yǔ),“小明”是施事者,“小紅”是受事者,“昨天”是時(shí)間,“公園”是場(chǎng)所。語(yǔ)義角色標(biāo)注的理論基礎(chǔ)源于Fillmore于1968年提出的格語(yǔ)法。這里介紹兩種比較常用的語(yǔ)義角色標(biāo)注方法:格語(yǔ)法和句法樹(shù)。
本課件是可編輯的正常PPT課件
格語(yǔ)法格語(yǔ)法是一種語(yǔ)言學(xué)理論,最初由查爾斯·菲爾墨提出,旨在深入研究句子成分之間的關(guān)系。這一理論主要基于這樣的觀(guān)點(diǎn):句子中的動(dòng)詞是核心,與各種名詞短語(yǔ)存在特定的關(guān)系,這些關(guān)系被定義為不同的“格”。在格語(yǔ)法中,每個(gè)動(dòng)詞都被認(rèn)為支配著一定數(shù)量的格,這些格描述動(dòng)詞與周?chē)~短語(yǔ)之間的語(yǔ)義關(guān)系。菲爾墨建議使用9個(gè)格,分別為施事格、受事格、對(duì)象格、工具格、來(lái)源格、目的格、場(chǎng)所格、時(shí)間格和路徑格。其中,受事格是不可缺少的;施事格、場(chǎng)所格、時(shí)間格和工具格是可有可無(wú)的,沒(méi)有這些格,句子的含義不會(huì)受到影響。
例如,在句子“小明用錘子打破了窗戶(hù)”中,“小明”是施事格,“錘子”是工具格,“窗戶(hù)”是受事格,“打破”是動(dòng)詞。這些格的標(biāo)識(shí)有助于理解句子中各成分的作用及它們是如何關(guān)聯(lián)的。
本課件是可編輯的正常PPT課件
句樹(shù)法句法樹(shù)的語(yǔ)義標(biāo)注內(nèi)容主要包括識(shí)別詞匯間的從屬、并列和遞進(jìn)等關(guān)系,以獲得較深層的語(yǔ)義信息。在句法樹(shù)中,不同的詞語(yǔ)和短語(yǔ)按照語(yǔ)法規(guī)則連接起來(lái),形成一個(gè)層次化的樹(shù)狀結(jié)構(gòu)。這個(gè)結(jié)構(gòu)有助于更好地理解句子的語(yǔ)法結(jié)構(gòu)和含義,包括基于成分結(jié)構(gòu)的語(yǔ)義角色標(biāo)注和基于依存結(jié)構(gòu)的語(yǔ)義角色標(biāo)注兩大類(lèi)。
本課件是可編輯的正常PPT課件1.基于成分結(jié)構(gòu)的語(yǔ)義角色標(biāo)注基于成分結(jié)構(gòu)的語(yǔ)義角色標(biāo)注的基本任務(wù)是找出句子中謂語(yǔ)的相應(yīng)語(yǔ)義角色成分,并用語(yǔ)義角色來(lái)描述它們之間的關(guān)系。這種語(yǔ)義角色標(biāo)注的方法并不對(duì)句子包含的所有語(yǔ)義信息進(jìn)行深入分析,而是專(zhuān)注于句子中各成分與謂語(yǔ)之間的關(guān)系。例如,標(biāo)注出句子中的施事、受事、時(shí)間和場(chǎng)所等元素及其與核心謂語(yǔ)的關(guān)系。本課件是可編輯的正常PPT課件例如,以句子“中國(guó)波司登公司正在生產(chǎn)羽絨外套?!北菊n件是可編輯的正常PPT課件基于成分句法樹(shù)的語(yǔ)義角色標(biāo)注算法通過(guò)對(duì)成分句法樹(shù)進(jìn)行剪枝,初步識(shí)別句子中的候選論元,以供后續(xù)的論元識(shí)別和分類(lèi)步驟使用。成分句法分析的主要任務(wù)是檢查與謂語(yǔ)短語(yǔ)并列的成分,并篩選符合條件的句子成分作為候選論元。具體而言,該方法從成分句法樹(shù)的謂語(yǔ)節(jié)點(diǎn)開(kāi)始,考查該節(jié)點(diǎn)的每個(gè)兄弟節(jié)點(diǎn);如果兄弟節(jié)點(diǎn)和該節(jié)點(diǎn)在句法結(jié)構(gòu)上不是并列關(guān)系,則將兄弟節(jié)點(diǎn)加入候選論元集合;如果兄弟節(jié)點(diǎn)是介詞短語(yǔ)(PP),則將兄弟節(jié)點(diǎn)的全體子節(jié)點(diǎn)加入候選論元集合。依次對(duì)謂語(yǔ)節(jié)點(diǎn)的父節(jié)點(diǎn)等每個(gè)祖先節(jié)點(diǎn)執(zhí)行上述過(guò)程,直至到達(dá)根節(jié)點(diǎn)。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件2.3基于依存結(jié)構(gòu)的語(yǔ)義角色標(biāo)注基于依存結(jié)構(gòu)的語(yǔ)義角色標(biāo)注主要用于確定句子中詞語(yǔ)之間的語(yǔ)義關(guān)系。這種標(biāo)注方法主要依賴(lài)句子的句法結(jié)構(gòu),即詞語(yǔ)之間的依存關(guān)系。通過(guò)分析這些依存關(guān)系,可以推斷出詞語(yǔ)在句子中的語(yǔ)義角色,如施事者、受事者、時(shí)間和場(chǎng)所等。
圖2.5給出了句子“中國(guó)波司登公司正在生產(chǎn)羽絨外套?!钡囊来婢浞?shù),圖2.5中標(biāo)注了謂語(yǔ)-論元關(guān)系,表明了謂語(yǔ)與論元中心詞之間的語(yǔ)法關(guān)系。在依存句法樹(shù)中,每個(gè)論元自身內(nèi)部的語(yǔ)法結(jié)構(gòu)都由依存關(guān)系展示,而論元與謂語(yǔ)之間的語(yǔ)法關(guān)系則體現(xiàn)為論元中心詞與謂語(yǔ)之間的依存關(guān)系。論元“羽絨外套”和謂語(yǔ)“生產(chǎn)”之間的語(yǔ)法關(guān)系,通過(guò)從“生產(chǎn)”指向“外套”的邊體現(xiàn)為賓語(yǔ)(OBJ)關(guān)系。
本課件是可編輯的正常PPT課件上一部分的候選論元篩選過(guò)程可以移植到依存句法樹(shù)上,得到依存句法樹(shù)的語(yǔ)義角色標(biāo)注算法。首先,從謂語(yǔ)節(jié)點(diǎn)開(kāi)始,將當(dāng)前節(jié)點(diǎn)的全體子節(jié)點(diǎn)加入候選元集合;然后,將當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),重復(fù)上述過(guò)程,逐次考查謂語(yǔ)節(jié)點(diǎn)的祖先節(jié)點(diǎn),直至將當(dāng)前節(jié)點(diǎn)作為句子的根節(jié)點(diǎn)。在圖2.6中,謂語(yǔ)“生產(chǎn)”分別指向“公司”、“正在”、“外套”和“?!?,對(duì)應(yīng)的論元“中國(guó)波司登公司”、“正在”和“羽絨外套”將被識(shí)別為候選論元。
針對(duì)后續(xù)的論元識(shí)別、論元分類(lèi)步驟,基于依存句法樹(shù)的語(yǔ)義角色標(biāo)注將其建模為判斷謂語(yǔ)與論元中心詞之間語(yǔ)義關(guān)系的任務(wù),并建立分類(lèi)模型來(lái)解決問(wèn)題。
本課件是可編輯的正常PPT課件2.4.3語(yǔ)義分析面臨的挑戰(zhàn)語(yǔ)義分析面臨的挑戰(zhàn)主要包括數(shù)據(jù)不足、語(yǔ)言復(fù)雜性和語(yǔ)境敏感性等,具體如下。(1)數(shù)據(jù)不足是語(yǔ)義分析的一大難題。(2)語(yǔ)言復(fù)雜性也給語(yǔ)義分析帶來(lái)了很大的困難。
(3)語(yǔ)境敏感性也是語(yǔ)義分析需要解決的難題。(4)數(shù)據(jù)隱私和安全性也是語(yǔ)義分析面臨的挑戰(zhàn)之一。(5)深層結(jié)構(gòu)化語(yǔ)義分析的性能問(wèn)題也是一個(gè)重要的挑戰(zhàn)。總的來(lái)說(shuō),語(yǔ)義分析是一個(gè)復(fù)雜且重要的研究領(lǐng)域,它在許多領(lǐng)域都有廣泛的應(yīng)用。盡管面臨許多挑戰(zhàn)和問(wèn)題,但是隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,語(yǔ)義分析技術(shù)已經(jīng)展現(xiàn)出了巨大的潛力和應(yīng)用前景,我們有理由相信語(yǔ)義分析的未來(lái)會(huì)更加光明。
本課件是可編輯的正常PPT課件One-Hot編碼詞袋模型TF-IDF方法Word2Vec方法分布式表示方法詞嵌入第3章文本表示方法主要內(nèi)容:本課件是可編輯的正常PPT課件學(xué)習(xí)目標(biāo):(1)深入了解文本表示方法的核心價(jià)值及其在不同場(chǎng)景下的應(yīng)用,熟練掌握One-Hot編碼的內(nèi)在邏輯,全面理解詞袋模型,并能熟練運(yùn)用TF-IDF方法來(lái)有效表示文本數(shù)據(jù)。(2)深刻領(lǐng)會(huì)連續(xù)詞袋模型和Skip-gram模型的基本原理,能夠熟練訓(xùn)練并運(yùn)用Word2Vec方法來(lái)實(shí)現(xiàn)文本的向量表示,同時(shí)掌握Word2Vec方法在多種自然語(yǔ)言處理任務(wù)中的實(shí)際應(yīng)用技巧。(3)清晰理解分布式語(yǔ)義假設(shè)的核心理念,學(xué)會(huì)運(yùn)用奇異值分解技術(shù)高效地進(jìn)行文本數(shù)據(jù)的向量化表示。(4)充分認(rèn)識(shí)詞嵌入在自然語(yǔ)言處理中的關(guān)鍵作用,并能夠靈活運(yùn)用各種主流的詞嵌入模型,如Word2Vec方法、GloVe、FastText等,以實(shí)現(xiàn)高質(zhì)量的文本表示。
本課件是可編輯的正常PPT課件3.1One-Hot編碼One-Hot編碼(One-Hot-Encoding),又稱(chēng)獨(dú)熱編碼或一位有效編碼,其方法是使用N位狀態(tài)寄存器對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都被表示為一個(gè)只有一個(gè)元素為1、其他元素都為0的向量,且每個(gè)元素都有其獨(dú)立的寄存器位,在任意時(shí)候,只有其中一位有效。以下是One-Hot編碼的案例。
例3.1假設(shè)有3個(gè)不同顏色的變量:紅色、藍(lán)色和綠色。在機(jī)器學(xué)習(xí)中,不能直接將3個(gè)變量輸入模型,因?yàn)樗鼈兪欠菙?shù)值數(shù)據(jù)。為了解決這個(gè)問(wèn)題,可以使用One-Hot編碼來(lái)轉(zhuǎn)換這些變量。對(duì)于這3個(gè)變量,可以創(chuàng)建3個(gè)新的二進(jìn)制列,每個(gè)二進(jìn)制列代表一個(gè)可能的取值。然后,對(duì)于原始數(shù)據(jù)中的每個(gè)取值,將二進(jìn)制列相應(yīng)位置的0改為1,其他列不變。將這些顏色轉(zhuǎn)換為以下二進(jìn)制向量。紅色:[1,0,0]藍(lán)色:[0,1,0]綠色:[0,0,1]這樣,原始數(shù)據(jù)中的每個(gè)取值共同組成了一個(gè)二進(jìn)制向量,其中只有一個(gè)元素為1,其余元素為0。
本課件是可編輯的正常PPT課件例3.2運(yùn)用One-Hot編碼將以下兩個(gè)句子轉(zhuǎn)換為二進(jìn)制向量。
(1)我愛(ài)黃河母親河。(2)我愛(ài)自然語(yǔ)言處理。
第1步,分詞。使用分詞工具對(duì)這兩句話(huà)進(jìn)行分詞,得到:“我”“愛(ài)”“黃河”“母親河”“自然語(yǔ)言處理”“?!?。第2步,給詞匯分配索引。我→0;愛(ài)→1;黃河→2;母親河→3;自然語(yǔ)言處理→4;?!?第3步,根據(jù)這些索引為每個(gè)詞生成一個(gè)One-Hot編碼。每個(gè)詞的One-Hot編碼是有6個(gè)元素的向量,其中只有一個(gè)元素為1,其余元素為0。對(duì)“我愛(ài)黃河母親河。”這句話(huà)進(jìn)行One-Hot編碼。我→[1,0,0,0,0,0];愛(ài)→[0,1,0,0,0,0];黃河→[0,0,1,0,0,0];母親河→[0,0,0,1,0,0];?!鶾0,0,0,0,0,1]所以,“我愛(ài)黃河母親河?!钡腛ne-Hot編碼序列為:[1,0,0,0,0,0],[0,1,0,0,0,0],[0,0,1,0,0,0],[0,0,0,1,0,0],[0,0,0,0,0,1]對(duì)“我愛(ài)自然語(yǔ)言處理。”這句話(huà)進(jìn)行One-Hot編碼。我→[1,0,0,0,0,0];愛(ài)→[0,1,0,0,0,0];自然語(yǔ)言處理→[0,0,0,0,1,0];。→[0,0,0,0,0,1]所以,“我愛(ài)自然語(yǔ)言處理。”的One-Hot編碼序列為:[1,0,0,0,0,0],[0,1,0,0,0,0],[0,0,0,0,1,0],[0,0,0,0,0,1]
本課件是可編輯的正常PPT課件3.2詞袋模型詞袋(BagofWordsModel,BoW)模型是一種將文本轉(zhuǎn)化為數(shù)值型向量的方法。詞袋模型將一段文本(如一個(gè)句子或一個(gè)文檔)表示為一個(gè)詞的集合,忽略語(yǔ)法和單詞的順序,但是保留該詞語(yǔ)出現(xiàn)的頻率。這種方法假設(shè)文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的,不考慮它們之間的語(yǔ)法關(guān)系或上下文關(guān)系。具體步驟如下。第1步,文本預(yù)處理,包括分詞(將文本拆分為單詞或標(biāo)記)、去除停用詞(如“和”“是”“在”等常用但對(duì)文本意義不大的詞)、詞干抽取或詞形還原(將單詞轉(zhuǎn)換為其基本形式)等。第2步,構(gòu)建詞匯表。從預(yù)處理后的文本數(shù)據(jù)中抽取所有獨(dú)特的單詞,構(gòu)成詞匯表。每個(gè)單詞在詞匯表中都有一個(gè)唯一的索引。第3步,統(tǒng)計(jì)詞頻。對(duì)于每個(gè)文檔,統(tǒng)計(jì)其中每個(gè)詞語(yǔ)的出現(xiàn)次數(shù),得到一個(gè)詞頻向量。第4步,向量化。將每個(gè)詞頻向量映射到一個(gè)固定長(zhǎng)度的向量空間中,得到最終的文本向量表示。本課件是可編輯的正常PPT課件例3.3假設(shè)有以下兩個(gè)句子。
句子1:我喜歡吃蘋(píng)果。句子2:蘋(píng)果手機(jī)很好用。
第1步,文本預(yù)處理。對(duì)這兩個(gè)句子進(jìn)行分詞,得到以下詞語(yǔ)列表。
句子1:我/喜歡/吃/蘋(píng)果。句子2:蘋(píng)果/手機(jī)/很/好用。
第2步,構(gòu)建詞匯表。將{我,喜歡,喜歡,蘋(píng)果,手機(jī),很,好用}中的每個(gè)詞語(yǔ)用1和0標(biāo)記是否出現(xiàn)在句子中,這樣,就得到了句子轉(zhuǎn)換為向量的表示,如下表所示。
第3步,文本向量化。根據(jù)詞匯表,將每個(gè)句子轉(zhuǎn)換為一個(gè)向量,其中向量的每個(gè)元素對(duì)應(yīng)詞匯表中的一個(gè)詞,元素的值是該詞在句子中出現(xiàn)的次數(shù)。
句子1對(duì)應(yīng)的向量為:[1111000];
句子2對(duì)應(yīng)的向量為:[0001111]
序號(hào)1234667詞匯我喜歡吃蘋(píng)果手機(jī)很好用句子11111000句子20001111本課件是可編輯的正常PPT課件詞袋模型的主要優(yōu)點(diǎn)是簡(jiǎn)單易懂,實(shí)現(xiàn)方便。由于詞袋模型能夠?qū)⑽谋巨D(zhuǎn)化為向量表示,因此可以用于各種機(jī)器學(xué)習(xí)算法,如文本分類(lèi)、情感分析等。在一些具體的應(yīng)用中,如SLAM研究中的閉環(huán)檢測(cè),基于詞袋模型的系統(tǒng)具有良好的實(shí)時(shí)性和重定位準(zhǔn)確性。然而,詞袋模型的缺點(diǎn)也是顯而易見(jiàn)的。最明顯的一點(diǎn)是,它忽略了詞語(yǔ)之間的順序和語(yǔ)法結(jié)構(gòu),這可能會(huì)導(dǎo)致一些重要信息的丟失。此外,當(dāng)詞匯表非常大時(shí),詞袋模型可能會(huì)產(chǎn)生維度非常高的向量,這不僅會(huì)增加存儲(chǔ)和計(jì)算成本,還可能導(dǎo)致所謂的“維度災(zāi)難”問(wèn)題。綜上所述,詞袋模型是一種簡(jiǎn)單有效的文本向量化方法,適用于一些簡(jiǎn)單的文本分類(lèi)和聚類(lèi)任務(wù)。但對(duì)于一些復(fù)雜的自然語(yǔ)言處理任務(wù),可能需要使用更加高級(jí)的向量化方法來(lái)獲取更好的效果。
本課件是可編輯的正常PPT課件3.3TF-IDF方法本課件是可編輯的正常PPT課件例3.4假設(shè)有以下3個(gè)句子,求每個(gè)詞的TF值。
句子1:我喜歡吃蘋(píng)果。句子2:蘋(píng)果手機(jī)很好用。句子3:我喜歡吃香蕉。
(1)對(duì)這3個(gè)句子進(jìn)行分詞,得到以下詞語(yǔ)列表。句子1:我/喜歡/吃/蘋(píng)果。句子2:蘋(píng)果/手機(jī)/很/好用。句子3:我/喜歡/吃/香蕉。(2)統(tǒng)計(jì)每個(gè)詞語(yǔ)在所有句子中的出現(xiàn)次數(shù),得到以下頻率。蘋(píng)果:1/2/0喜歡:2/0/1吃:2/1/1香蕉:1/0/1(3)計(jì)算TF值,將每個(gè)評(píng)論中的詞頻除以相應(yīng)句子中詞的總數(shù),得到詞語(yǔ)的TF值,如下表所示。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件例3.6計(jì)算例3.4中3個(gè)句子中各詞的TF-IDF值。
以句子1中的“我”為例,計(jì)算TF-IDF值:
TF-IDF(我,句子1)=TF(我,句子1)×IDF(我)=1/4×0.352=0.088
同樣的方法計(jì)算所有詞的TF-IDF值,如表3.4所示。本課件是可編輯的正常PPT課件語(yǔ)料庫(kù)中詞的TF-IDF值越高說(shuō)明詞越重要,得分越低說(shuō)明詞的重要性越低。TF-IDF考慮了詞頻和逆向文檔頻率兩個(gè)因素,能有效反映單詞在文檔中的重要性,且算法簡(jiǎn)單高效,易于理解和實(shí)現(xiàn),可以用于初期的文本數(shù)據(jù)清洗,有助于后續(xù)處理。但是僅以詞頻度量詞的重要性,無(wú)法全面反映單詞的特性。而且在構(gòu)造文檔的特征值序列時(shí),詞項(xiàng)之間是獨(dú)立的,因此無(wú)法捕捉到序列中的相關(guān)信息。同時(shí),該方法容易受數(shù)據(jù)集的影響,不同的數(shù)據(jù)集可能會(huì)產(chǎn)生截然不同的結(jié)果。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件3.2Word2Vec方法Word2Vec方法是一種基于神經(jīng)網(wǎng)絡(luò)的詞嵌入方法,它可以將每個(gè)單詞轉(zhuǎn)化為高維空間中的向量,這些向量可以捕捉單詞之間的語(yǔ)義和語(yǔ)法關(guān)系,使得語(yǔ)義上相似的詞在向量空間中的距離相近,如同義詞和反義詞,Word2Vec方法有兩種主要的訓(xùn)練模型:連續(xù)詞袋模型和Skip-gram模型。
本課件是可編輯的正常PPT課件3.4.1連續(xù)詞袋模型連續(xù)詞袋(ContinuousBagofWords,CBOW)模型是一種用于生成詞向量的神經(jīng)網(wǎng)絡(luò)模型,由TomasMikolov等人于2013年提出。CBOW模型的基本思想是,給定一個(gè)單詞的上下文(窗口內(nèi)的其他單詞),模型需要預(yù)測(cè)出這個(gè)詞是什么。這里的“上下文”可以看作一個(gè)詞袋,即不考慮詞序,只考慮哪些詞出現(xiàn)在中心詞的上下文窗口中。例如,對(duì)于句子“我想看電影”,如果窗口大小為5,當(dāng)中心單詞為“看”時(shí),上下文單詞為“我”“想”“電”“影”。CBOW模型會(huì)要求根據(jù)這4個(gè)上下文單詞,計(jì)算出“看”的概率分布。CBOW模型的核心是一個(gè)3層的前饋神經(jīng)網(wǎng)絡(luò),輸入層、隱藏層和輸出層。其中,輸入層表示上下文中所有單詞的特征向量,由單詞的One-Hot編碼組成。隱藏層是N維向量,隱藏層的節(jié)點(diǎn)數(shù)通常比輸入層和輸出層的節(jié)點(diǎn)數(shù)少得多,One-Hot編碼的輸入向量通過(guò)V×N的權(quán)重矩陣W與隱藏層連接,隱藏層通過(guò)N×V的權(quán)重矩陣W′與輸出層連接。輸出層表示目標(biāo)單詞的One-Hot編碼。在訓(xùn)練過(guò)程中,模型的權(quán)重會(huì)進(jìn)行調(diào)整,以便最小化預(yù)測(cè)中心詞時(shí)的誤差。訓(xùn)練完成后,隱藏層的權(quán)重矩陣就是所求的詞向量,其中每行對(duì)應(yīng)一個(gè)詞的向量表示。句子“我想看電影”的CBOW模型圖如圖3.1所示。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件例3.7假設(shè)有以下訓(xùn)練樣本:Ilovemachinelearning.Machinelearningisfun.IenjoycodinginPython.Pythonisapopularprogramminglanguage.Iliketosolveproblemsusingalgorithms.Algorithmsareessentialforcomputerscience.Iamlearningnaturallanguageprocessing.Naturallanguageprocessingisfascinating.IwanttoworkinAIresearchaftergraduation.AIresearchischallengingbutrewarding.如果想要預(yù)測(cè)第6個(gè)句子中的詞匯“algorithms”,首先需要選擇一個(gè)窗口大小(如5),然后從窗口中取出對(duì)應(yīng)的詞匯作為正樣本,其他詞匯作為負(fù)樣本。在這個(gè)例子中,正樣本是["I","like","to","solve","problems"],負(fù)樣本是["love","is","fun","enjoy","coding","a","popular","programming","language","want","work","challenging","but","rewarding"]。本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件3.4.2Skip-gram模型Skip-gram模型與CBOW模型相反,Skip-gram模型是通過(guò)給定中心詞,預(yù)測(cè)該詞在窗口內(nèi)的上下文。例如,對(duì)于詞“看”,Skip-gram模型會(huì)嘗試預(yù)測(cè)與其相關(guān)的上下文單詞,如“想”和“電”。在訓(xùn)練過(guò)程中,模型會(huì)學(xué)習(xí)與給定單詞相關(guān)的上下文的詞向量表示。輸入層:給定一個(gè)中心詞,將其詞向量作為輸入。隱藏層:實(shí)際上,隱藏層在Skip-gram模型中的存在并不明顯,因?yàn)槟P褪侵苯訌妮斎雽佑成涞捷敵鰧拥摹]敵鰧樱菏褂胹oftmax函數(shù)計(jì)算詞匯表中每個(gè)詞作為上下文詞的概率。例如,“我想看電影”的Skip-gram模型圖如圖3.2所示。
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件3.4.3Word2Vec的應(yīng)用Word2Vec模型通過(guò)將單詞映射到向量空間,生成的詞向量可以捕獲單詞之間的語(yǔ)義和語(yǔ)法關(guān)系。因此,Word2Vec模型具有衡量單詞之間相似度及進(jìn)行類(lèi)比推理的能力。對(duì)于相似度的計(jì)算,主要利用向量空間中的距離或角度來(lái)衡量。例如,可以使用余弦相似度公式來(lái)計(jì)算兩個(gè)單詞的相似度:如果兩個(gè)單詞的向量表示越接近,那么它們的余弦相似度就越高,意味著它們的含義就更接近,余弦相似度的計(jì)算公式如式(3.3)所示。
其中,UV,是兩個(gè)單詞的詞向量,余弦值越接近1,說(shuō)明兩個(gè)單詞的向量越相似,即夾角越趨近于0度;相反,余弦值越接近0,夾角越接近90度,說(shuō)明兩個(gè)單詞的向量越不相似。本課件是可編輯的正常PPT課件通過(guò)計(jì)算詞向量相似度,可以量化地描述數(shù)據(jù)樣本之間的相似或相異程度,這在自然語(yǔ)言處理的許多應(yīng)用中都是非常重要的基礎(chǔ)。
本課件是可編輯的正常PPT課件2.類(lèi)比推理類(lèi)比推理是根據(jù)兩個(gè)或多個(gè)事物之間在某些屬性上的相似性,來(lái)推斷它們?cè)谄渌麑傩陨弦部赡芟嗨频姆椒?。如果兩個(gè)詞在語(yǔ)義上相似,那么它們的詞向量差值就能捕捉這種關(guān)系。這個(gè)差值可以被用來(lái)找到一個(gè)詞的對(duì)應(yīng)詞,這種關(guān)系在另一個(gè)詞對(duì)上也應(yīng)該成立。詞匯類(lèi)比任務(wù)是評(píng)價(jià)詞嵌入質(zhì)量的一種重要方法,例如:第1步,如果想知道中國(guó)的首都是哪個(gè)城市,可以通過(guò)詞向量運(yùn)算“中國(guó)”+“首都”=“北京”推理,可得知中國(guó)的首都是北京。
第2步,如果想要知道“king”對(duì)于“queen”的關(guān)系,可以嘗試找到“man”對(duì)應(yīng)的詞,使得這種關(guān)系在“man”和未知詞之間也成立。數(shù)學(xué)上,這可以表示為尋找一個(gè)詞向量w,使得vec(“queen”)-vec(“king”)=vec(w)-vec(“man”)其中,vec(x)表示詞x的詞向量。
通過(guò)推理,可知“w”為“woman”,“queen”應(yīng)該對(duì)應(yīng)“woman”,詞向量類(lèi)比推理示意圖如圖3.4所示。
本課件是可編輯的正常PPT課件具體來(lái)說(shuō),Word2Vec的訓(xùn)練過(guò)程如下。第1步,初始化參數(shù)。需要初始化一些參數(shù),包括詞匯表大小、隱藏層大小和學(xué)習(xí)率等。第2步,構(gòu)建神經(jīng)網(wǎng)絡(luò)。Word2Vec使用兩層神經(jīng)網(wǎng)絡(luò)來(lái)表示詞向量。第一層是輸入層,將每個(gè)單詞映射到一個(gè)固定長(zhǎng)度的向量中;第二層是輸出層,將輸入層的向量映射到另一個(gè)固定長(zhǎng)度的向量中。第3步,訓(xùn)練數(shù)據(jù)預(yù)處理。將原始文本數(shù)據(jù)進(jìn)行分詞、去除停用詞等處理,得到一組訓(xùn)練數(shù)據(jù)。第4步,訓(xùn)練網(wǎng)絡(luò)。使用隨機(jī)梯度下降法(StochasticGradientDescent,SGD)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,優(yōu)化損失函數(shù)。在訓(xùn)練過(guò)程中,需要不斷更新神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置項(xiàng)。第5步,生成詞向量。訓(xùn)練完成后,可以通過(guò)查詢(xún)神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣來(lái)獲取每個(gè)單詞對(duì)應(yīng)的詞向量。
本課件是可編輯的正常PPT課件例3.10假設(shè)有以下3個(gè)句子。句子1:我喜歡吃蘋(píng)果。句子2:蘋(píng)果手機(jī)很好用。句子3:我喜歡吃香蕉??梢詫⑦@些句子作為訓(xùn)練數(shù)據(jù),訓(xùn)練一個(gè)Word2Vec模型。訓(xùn)練完成后,可以得到以下詞向量表示。蘋(píng)果:[0.1,0.2,0.3,…]喜歡:[0.4,0.5,0.6,…]吃:[0.7,0.8,0.9,…]手機(jī):[1.0,1.1,1.2,…]好用:[1.3,1.4,1.5,…]香蕉:[1.6,1.7,1.8,…]
本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件Word2Vec是一種非常流行的詞向量模型,它的優(yōu)點(diǎn)如下。(1)高效性:Word2Vec的訓(xùn)練速度非???,可以處理大規(guī)模文本數(shù)據(jù)。(2)可解釋性:Word2Vec生成的詞向量具有很好的可解釋性,可以通過(guò)查看詞向量之間的距離和方向來(lái)判斷單詞之間的語(yǔ)義關(guān)系。Word2Vec能夠捕捉單詞的上下文信息,從而更好地表示單詞的含義。(3)廣泛性。Word2Vec可以應(yīng)用于多種自然語(yǔ)言處理任務(wù),如文本分類(lèi)、情感分析和機(jī)器翻譯等。
Word2Vec的缺點(diǎn)如下。(1)無(wú)法處理未登錄詞:Word2Vec只能處理訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)過(guò)的單詞,對(duì)于未登錄詞無(wú)法進(jìn)行有效的表示。
(2)對(duì)多義詞的處理不夠好:由于Word2Vec是基于局部上下文進(jìn)行訓(xùn)練的,因此對(duì)于多義詞的處理不夠好,容易產(chǎn)生歧義。(3)需要大量數(shù)據(jù):為了獲得較好的效果,Word2Vec需要大量訓(xùn)練數(shù)據(jù),并且需要花費(fèi)較長(zhǎng)時(shí)間進(jìn)行訓(xùn)練。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 啤酒店活動(dòng)方案策劃(3篇)
- 建筑工程木工施工合同范本
- 原木產(chǎn)品營(yíng)銷(xiāo)方案(3篇)
- 兒童商品營(yíng)銷(xiāo)方案(3篇)
- 餐飲營(yíng)銷(xiāo)蛋方案(3篇)
- 小升初語(yǔ)文模擬試卷匯編及解析
- 員工宿舍轉(zhuǎn)租合同規(guī)范解析
- 水產(chǎn)批發(fā)營(yíng)銷(xiāo)方案(3篇)
- 2025年學(xué)校食品安全自查報(bào)告
- 2025年醫(yī)院依法執(zhí)業(yè)情況自查報(bào)告范文
- 針刀微創(chuàng)技術(shù)培訓(xùn)課件
- 2025年河北省公務(wù)員考試筆試真題及答案
- 2025年高考數(shù)學(xué)全國(guó)一卷19題說(shuō)題比賽
- 2025年公共管理碩士入學(xué)考試題及答案
- 農(nóng)險(xiǎn)知識(shí)及理賠實(shí)務(wù)培訓(xùn)課件
- 2025至2030中國(guó)冬蟲(chóng)夏草行業(yè)市場(chǎng)深度分析及有效策略與實(shí)施路徑評(píng)估報(bào)告
- 企業(yè)員工心理健康自測(cè)表及干預(yù)指引
- 零星工程管理知識(shí)培訓(xùn)課件
- 配電線(xiàn)路及設(shè)備運(yùn)檢課件
- 2025秋教科版(2024)小學(xué)科學(xué)二年級(jí)上冊(cè)(全冊(cè))課時(shí)練習(xí)及答案(附目錄)
- FZ-T70018-2023針織服裝理化性能的要求
評(píng)論
0/150
提交評(píng)論