《自然語言處理入門與實(shí)戰(zhàn)》課件 第1-4章 導(dǎo)論- 新聞類型自動分類_第1頁
《自然語言處理入門與實(shí)戰(zhàn)》課件 第1-4章 導(dǎo)論- 新聞類型自動分類_第2頁
《自然語言處理入門與實(shí)戰(zhàn)》課件 第1-4章 導(dǎo)論- 新聞類型自動分類_第3頁
《自然語言處理入門與實(shí)戰(zhàn)》課件 第1-4章 導(dǎo)論- 新聞類型自動分類_第4頁
《自然語言處理入門與實(shí)戰(zhàn)》課件 第1-4章 導(dǎo)論- 新聞類型自動分類_第5頁
已閱讀5頁,還剩175頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

導(dǎo)論自然語言處理概述NLP的開發(fā)環(huán)境自然語言與大預(yù)言模型發(fā)展過程及未來展望發(fā)展歷程回顧NLP發(fā)展經(jīng)歷了從1950年的早期語法分析和機(jī)器翻譯,到80年代統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)的突破,再到近年來深度學(xué)習(xí)和預(yù)訓(xùn)練模型的革新,技術(shù)不斷演進(jìn)并取得顯著進(jìn)展。未來挑戰(zhàn)與機(jī)遇未來NLP仍面臨語義理解、常識推理等復(fù)雜問題,需在多語言處理、跨領(lǐng)域應(yīng)用和語音對話系統(tǒng)等方面持續(xù)創(chuàng)新,有望在自動化客服、智能助手、智能翻譯等領(lǐng)域發(fā)揮更重要作用。機(jī)器翻譯是利用計(jì)算機(jī)將一種自然語言轉(zhuǎn)換為另一種自然語言的過程,作為計(jì)算語言學(xué)的分支和人工智能的重要研究方向,具有重大科學(xué)價(jià)值和廣泛應(yīng)用前景。基于統(tǒng)計(jì)的機(jī)器翻譯:通過分析大量雙語平行語料庫學(xué)習(xí)翻譯規(guī)律,包含詞對齊和短語翻譯等統(tǒng)計(jì)模型?;谏窠?jīng)網(wǎng)絡(luò)的機(jī)器翻譯:采用編碼器-解碼器結(jié)構(gòu),利用循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制對整個句子進(jìn)行直接翻譯。應(yīng)用場景多樣化:文字翻譯、文檔翻譯、語音翻譯、拍照翻譯、同傳翻譯、網(wǎng)站翻譯和掃描翻譯等領(lǐng)域。研究內(nèi)容與常見應(yīng)用1.機(jī)器翻譯研究內(nèi)容與常見應(yīng)用2.信息檢索信息檢索又稱情報(bào)檢索,是指利用計(jì)算機(jī)系統(tǒng)從海量文檔中找到符合用戶需要的相關(guān)信息。狹義的信息檢索僅指信息查詢,廣義的信息檢索是指將信息按一定的方式進(jìn)行加工、整理、組織并存儲起來,再根據(jù)用戶特定的需要將相關(guān)信息準(zhǔn)確查找出來的過程。信息檢索處理的對象是非結(jié)構(gòu)化數(shù)據(jù),包括文本數(shù)據(jù)、網(wǎng)頁、多媒體數(shù)據(jù)等。研究內(nèi)容與常見應(yīng)用信息抽取是從文本中抽取出特定的事件或事實(shí)信息的過程,它能夠識別和提取文本中的結(jié)構(gòu)化數(shù)據(jù),如時(shí)間、地點(diǎn)、人物等關(guān)鍵元素。信息抽取技術(shù)在處理大量非結(jié)構(gòu)化文本數(shù)據(jù)時(shí)具有重要價(jià)值,能夠?qū)㈦[藏在文本中的有價(jià)值信息轉(zhuǎn)化為可分析的結(jié)構(gòu)化數(shù)據(jù)。抽取對象:主要針對特定事件或事實(shí)信息,如新聞報(bào)道中的時(shí)間、地點(diǎn)、事件制造者等基本要素,將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。與信息檢索的關(guān)系:信息抽取系統(tǒng)通常以信息檢索系統(tǒng)的輸出作為輸入,同時(shí)信息抽取技術(shù)也可以用于提高信息檢索的性能,兩者形成互補(bǔ)關(guān)系。3.信息抽取研究內(nèi)容與常見應(yīng)用文本分類又稱文檔分類或信息分類,其目的是利用計(jì)算機(jī)系統(tǒng)對大量的文檔按照一定的標(biāo)準(zhǔn)進(jìn)行分類。文本分類技術(shù)擁有廣泛的用途,如公司可以利用該技術(shù)了解用戶對產(chǎn)品的評價(jià)等。4.文本分類研究內(nèi)容與常見應(yīng)用5.智能問答智能問答是指問答系統(tǒng)能以一問一答的形式,正確回答用戶提出的問題。智能問答可以精確定位用戶所提問的知識,通過與用戶進(jìn)行交互,為用戶提供個性化的信息服務(wù)。研究內(nèi)容與常見應(yīng)用信息過濾是現(xiàn)代數(shù)字化時(shí)代處理海量信息的核心技術(shù),通過智能篩選幫助用戶獲取有價(jià)值內(nèi)容。根據(jù)特定規(guī)則和算法篩選信息:運(yùn)用預(yù)設(shè)條件對大量數(shù)據(jù)進(jìn)行自動化分類和過濾處理滿足用戶個性化需求和偏好:精準(zhǔn)匹配用戶興趣點(diǎn),提供定制化信息服務(wù)體驗(yàn)廣泛應(yīng)用于多個數(shù)字平臺:覆蓋互聯(lián)網(wǎng)、社交媒體、郵件和新聞廣告等領(lǐng)域6.信息過濾研究內(nèi)容與常見應(yīng)用7.自動摘要自動摘要是利用計(jì)算機(jī)程序從文本中自動提取關(guān)鍵信息生成簡潔摘要的技術(shù),旨在幫助用戶快速了解文本主要內(nèi)容,提高信息獲取效率。算法驅(qū)動的智能提?。夯谧匀徽Z言處理和機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)文本關(guān)鍵信息的自動識別和提取廣泛應(yīng)用覆蓋:在信息檢索、新聞?wù)⑽谋咎幚淼榷鄠€領(lǐng)域發(fā)揮重要作用研究內(nèi)容與常見應(yīng)用語音識別是將語音信號轉(zhuǎn)換為書面語言的技術(shù),也稱為自動語音識別。該技術(shù)能夠使計(jì)算機(jī)理解并處理人類的語音輸入,將其轉(zhuǎn)化為可讀的文本形式,實(shí)現(xiàn)人機(jī)交互的重要方式。技術(shù)定義:指對輸入計(jì)算機(jī)的語音信號進(jìn)行識別并將其轉(zhuǎn)換成書面語言表示的過程,是人機(jī)交互的重要技術(shù)基礎(chǔ)。涉及領(lǐng)域:包括信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理等多個學(xué)科的交叉知識。8.語音識別研究內(nèi)容與常見應(yīng)用9.自動校對自動校對是對文字拼寫、用詞、語法或文檔格式等進(jìn)行自動檢查、校對和編排的過程。電子信息的形成有多種途徑,最常見的是用鍵盤輸入,這難免會造成一些輸入錯誤,由此產(chǎn)生了利用計(jì)算機(jī)進(jìn)行文本自動校對的研究。自動校對系統(tǒng)可應(yīng)用于報(bào)刊、圖書等需要進(jìn)行文本校對的行業(yè)。NLP基本流程1.語料獲取在進(jìn)行NLP處理之前,關(guān)鍵步驟是得到文本語料。文本語料的獲取一般有以下幾種方法。利用已經(jīng)建好的數(shù)據(jù)集或第三方語料庫,此方法可以省去很多處理成本。獲取網(wǎng)絡(luò)數(shù)據(jù)。很多時(shí)候要解決的是某種特定領(lǐng)域的應(yīng)用,僅靠開放語料庫無法滿足需求,這時(shí)可以通過爬蟲技術(shù)獲取需要的信息。制定數(shù)據(jù)搜集策略搜集數(shù)據(jù)??梢酝ㄟ^制定數(shù)據(jù)搜集策略,從業(yè)務(wù)的角度搜集所需要的數(shù)據(jù)。與第三方合作獲取數(shù)據(jù)。通過購買的方式獲取需要的文本數(shù)據(jù)。NLP基本流程2.語料預(yù)處理語料預(yù)處理包括語料清洗、分詞、詞性標(biāo)注、去停用詞等。語料預(yù)處理為后續(xù)模型的構(gòu)建和訓(xùn)練提供了高質(zhì)量的語料數(shù)據(jù),是保證自然語言處理任務(wù)完成的基礎(chǔ)。常見的語料預(yù)處理有語料清洗、中文分詞、詞性標(biāo)注、去停用詞NLP基本流程文本數(shù)據(jù)經(jīng)過預(yù)處理后,需要通過向量化技術(shù)轉(zhuǎn)換為數(shù)值形式供算法處理。文本向量化是自然語言處理的關(guān)鍵步驟,將文本轉(zhuǎn)化為特征向量,使計(jì)算機(jī)能夠理解和分析文本內(nèi)容,為后續(xù)的文本分析任務(wù)奠定基礎(chǔ)。3.文本向量化NLP基本流程4.模型構(gòu)建文本向量化完成后,需要根據(jù)具體的文本分析需求和目標(biāo)來選擇最適合的模型進(jìn)行構(gòu)建。選擇模型時(shí)應(yīng)遵循適度原則,避免盲目追求復(fù)雜度。復(fù)雜度與效率平衡:過于復(fù)雜的模型訓(xùn)練時(shí)間更長,但精度未必優(yōu)于簡單模型機(jī)器學(xué)習(xí)模型應(yīng)用:包括樸素貝葉斯、決策樹、支持向量機(jī)、K-means等經(jīng)典算法深度學(xué)習(xí)模型選擇:涵蓋CNN、RNN、注意力機(jī)制、Transformer等先進(jìn)架構(gòu)NLP基本流程5.模型訓(xùn)練模型訓(xùn)練是讓模型理解和處理文本數(shù)據(jù)的關(guān)鍵步驟,可先使用小批量數(shù)據(jù)進(jìn)行試驗(yàn),避免訓(xùn)練時(shí)間過長。訓(xùn)練過程中需重點(diǎn)關(guān)注兩個常見問題在訓(xùn)練集表現(xiàn)良好但測試集表現(xiàn)差的過擬合問題,以及模型無法很好擬合數(shù)據(jù)的欠擬合問題。模型訓(xùn)練往往需要多次迭代調(diào)優(yōu),這是一個復(fù)雜而冗長的過程,需要不斷修正參數(shù)并權(quán)衡模型精度與泛用性。隨著時(shí)間推移,當(dāng)模型在新數(shù)據(jù)上表現(xiàn)下降時(shí),還需要進(jìn)行重新訓(xùn)練以適應(yīng)數(shù)據(jù)分布的變化。NLP基本流程6.模型評價(jià)模型評價(jià)是訓(xùn)練完成后的關(guān)鍵步驟,旨在了解模型在實(shí)際應(yīng)用中的表現(xiàn)效果,為后續(xù)優(yōu)化提供依據(jù)。不同類型的模型可能需要使用不同的評價(jià)指標(biāo),而評價(jià)的側(cè)重點(diǎn)也會根據(jù)業(yè)務(wù)場景的需求而有所差異。評價(jià)指標(biāo)多樣化:常用指標(biāo)包括準(zhǔn)確率、精確率、召回率、F1值、ROC曲線及AUC曲線等,針對分類模型常用準(zhǔn)確率、精確率和AUC曲線進(jìn)行評估。業(yè)務(wù)場景決定評價(jià)重點(diǎn):在實(shí)際生產(chǎn)環(huán)境中,不同業(yè)務(wù)對模型性能要求各異,如可能造成經(jīng)濟(jì)損失的預(yù)測結(jié)果會要求模型具備更高的精度。自然語言處理概述NLP的開發(fā)環(huán)境自然語言與大預(yù)言模型Python在自然語言處理中的優(yōu)勢Python作為編程語言在自然語言處理應(yīng)用開發(fā)中具有顯著優(yōu)勢,使其成為該領(lǐng)域的首選工具。以下是Python在NLP中的兩大核心優(yōu)勢。豐富的開源庫和工具:NLTK、spaCy、gensim等優(yōu)秀工具庫助力開發(fā)者快速構(gòu)建NLP應(yīng)用,無需從零開始編寫復(fù)雜算法。簡潔易學(xué)的語法特性:Python語言簡單易學(xué),語法清晰,代碼可讀性強(qiáng),大幅降低了NLP應(yīng)用開發(fā)的入門門檻。Python的可擴(kuò)展性優(yōu)勢Python在自然語言處理領(lǐng)域的另一個顯著優(yōu)勢是其強(qiáng)大的可擴(kuò)展性,這使得開發(fā)者能夠構(gòu)建更加靈活和高效的NLP應(yīng)用。與多種編程語言集成:可與Java、C++、R等語言無縫對接,實(shí)現(xiàn)功能互補(bǔ)和性能優(yōu)化。支持多種技術(shù)框架:能夠與Hadoop等大數(shù)據(jù)處理平臺集成,增強(qiáng)數(shù)據(jù)處理能力和應(yīng)用規(guī)模。NLP開發(fā)環(huán)境配置Anaconda是開源Python發(fā)行版,包含180多個科學(xué)包及依賴項(xiàng),conda環(huán)境管理器可在同一計(jì)算機(jī)上管理不同版本軟件包并在環(huán)境間切換。跨平臺兼容性:支持Windows、Linux、macOS多種操作系統(tǒng)Python版本管理:同時(shí)管理Python2和Python3不同版本環(huán)境環(huán)境變量配置:可選擇添加到系統(tǒng)PATH便于后續(xù)使用1.Anaconda安裝NLP開發(fā)環(huán)境配置2.Anaconda應(yīng)用介紹(1)AnacondaNavigatorAnacondaNavigator作為Anaconda提供的桌面圖形界面,讓用戶無需使用命令行即可便捷地管理各種數(shù)據(jù)科學(xué)工具和環(huán)境。通過其直觀的操作界面,用戶可以輕松啟動應(yīng)用程序、管理conda包和環(huán)境。圖形化操作界面:無需命令行即可完成conda包管理、環(huán)境配置和應(yīng)用啟動,適合不熟悉命令行的用戶使用。內(nèi)置應(yīng)用程序:包含CMD.exePrompt、Datalore、IBMWatsonStudioCloud、JupyterLab、JupyterNotebook和PowershellPrompt等多種應(yīng)用,只需點(diǎn)擊Launch按鈕即可啟動。NLP開發(fā)環(huán)境配置AnacondaPrompt是已經(jīng)配置好環(huán)境變量的命令提示符窗口,可以直接運(yùn)行Python程序和管理包。預(yù)配置環(huán)境變量:無需手動設(shè)置,安裝后即可直接使用Python和conda命令包管理和更新:使用condaupdate命令可以更新較舊的包,解決兼容性問題2.Anaconda應(yīng)用介紹(2)AnacondaPromptNLP開發(fā)環(huán)境配置JupyterNotebook是一個基于瀏覽器的交互式代碼編輯器,能夠?qū)⒋a與文字結(jié)合展示,特別適合數(shù)據(jù)科學(xué)領(lǐng)域工作者使用。它允許用戶在編寫代碼的同時(shí)添加解釋說明,極大地提升了文檔的可讀性和交互性。對于機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等工作,JupyterNotebook提供了一個理想的環(huán)境,使得復(fù)雜的代碼邏輯可以被清晰地呈現(xiàn)和理解,便于知識的傳遞與分享。2.Anaconda應(yīng)用介紹(3)JupyterNotebookNLP開發(fā)環(huán)境配置打開JupyterNotebook有3種方式。第一種方式是直接在開始菜單欄中單擊Anaconda下的“JupyterNotebook”;第二種方式是在AnacondaPrompt中執(zhí)行“jupyternotebook”命令,瀏覽器會自動打開并且顯示當(dāng)前的目錄;2.Anaconda應(yīng)用介紹(3)JupyterNotebookNLP開發(fā)環(huán)境配置第三種打開JupyterNote的方式首先進(jìn)入某個文件夾,然后按住“Shift”鍵并單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇“在此處打開Powershell窗口”命令這時(shí)會彈出命令窗口,接著執(zhí)行“jupyternotebook”命令即可.待JupyterNotebook打開后,單擊右上角的“New”→“Python3”,便可創(chuàng)建新筆記,如圖所示NLP開發(fā)環(huán)境配置JupyterNotebook提供了兩種基本輸入模式來滿足不同的操作需求。這兩種模式通過不同的邊框顏色進(jìn)行區(qū)分,并且可以通過特定的快捷鍵進(jìn)行切換。在使用過程中,所有內(nèi)容都以cell為基本單位進(jìn)行組織,cell可以包含代碼或文本。編輯完成后,可以執(zhí)行代碼并將文檔保存為多種格式。2.Anaconda應(yīng)用介紹(3)JupyterNotebook類型說明code表示內(nèi)容可以運(yùn)行heading表示此單元框的內(nèi)容是標(biāo)題(如一級、二級、三級標(biāo)題)markdown表示可以用markdown的語法編輯文本NLP開發(fā)環(huán)境配置Spyder界面可分為菜單欄、查看欄、輸出欄、狀態(tài)欄及工作區(qū)等,菜單欄下一欄被稱為工具欄。各個區(qū)域的功能介紹如下表所示。2.Anaconda應(yīng)用介紹(4)Spyde界面功能

菜單欄

放置所有功能和命令

工具欄

放置快捷菜單并可通過菜單欄的View→Toolbars進(jìn)行選擇

工作區(qū)

編寫代碼的區(qū)域

查看欄

可查看文件、調(diào)試時(shí)的對象及變量

輸出欄

可查看程序的輸出信息并可作為Shell終端輸入Python語句

狀態(tài)欄

用于顯示當(dāng)前文件權(quán)限、編碼、光標(biāo)位置和系統(tǒng)內(nèi)存等信息NLP開發(fā)環(huán)境配置2.Anaconda應(yīng)用介紹(4)Spyde菜單欄的常用命令與說明如下表所示。命令說明File

文件的新建、打開、保存、關(guān)閉操作Edit

文件內(nèi)容的編輯,如撤銷、重復(fù)、復(fù)制、剪切等操作Run

運(yùn)行,可選擇分塊運(yùn)行或整個文件的運(yùn)行Consoles

可打開新的輸出欄Tools→Preferences→IPythonconsole

“Display”選項(xiàng)卡用于調(diào)整字號和背景顏色;在“Graphic”選項(xiàng)

卡勾選“AutomaticalloadPylabandNumPymodules”復(fù)選框后可在

IPython界面直接編寫plot()作圖;在“Startup”選項(xiàng)卡可設(shè)置啟動

執(zhí)行的腳本,寫入要導(dǎo)入的程序包Tools→Preferences→Editor

“Display”選項(xiàng)卡主要用于設(shè)置背景、行號、高亮等;“CodeAnalysis”可以用于設(shè)置代碼提示自然語言處理概述NLP的開發(fā)環(huán)境自然語言與大預(yù)言模型大語言模型的主要特點(diǎn)核心優(yōu)勢大語言模型通過超大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練,相較于傳統(tǒng)機(jī)器學(xué)習(xí)模型展現(xiàn)出顯著優(yōu)勢,主要體現(xiàn)在以下四個核心方面。豐富的世界知識:通過超大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練,掌握廣泛世界知識通用任務(wù)解決能力:通過預(yù)測下一詞元訓(xùn)練,具備情感分類、數(shù)值計(jì)算等多任務(wù)能力復(fù)雜任務(wù)推理能力:在復(fù)雜推理問題和數(shù)學(xué)題目中表現(xiàn)優(yōu)異的推理性能大語言模型的關(guān)鍵能力拓展人類對齊與工具使用大語言模型除了基礎(chǔ)的文本處理能力外,還發(fā)展出兩項(xiàng)關(guān)鍵能力以增強(qiáng)其實(shí)用性和安全性。人類對齊能力通過基于人類反饋的強(qiáng)化學(xué)習(xí)等技術(shù),使模型能夠更好地遵循人類期望的行為規(guī)范,減少錯誤行為的發(fā)生。而工具使用能力則彌補(bǔ)了模型在時(shí)間敏感問題和數(shù)值計(jì)算等方面的局限性,先進(jìn)模型已能熟練調(diào)用搜索引擎、計(jì)算器等外部工具,通過微調(diào)或上下文學(xué)習(xí)掌握工具使用方法,極大提升了任務(wù)解決的效率和效果。這些能力的發(fā)展使大語言模型在各類應(yīng)用場景中表現(xiàn)出更強(qiáng)的適應(yīng)性和實(shí)用價(jià)值。大語言模型的常見應(yīng)用場景應(yīng)用場景描述文本生成大語言模型有強(qiáng)大的上下文理解能力、多樣性和創(chuàng)造性、自然性和流暢度,以及對不同風(fēng)格和主題的適應(yīng)能力。因此,大語言模型可以用于自動撰寫文章、生成摘要、續(xù)寫故事等機(jī)器翻譯在多語言翻譯任務(wù)中,大語言模型能夠提供更流暢、更自然的翻譯結(jié)果智能問答在智能問答系統(tǒng)中,大語言模型能夠理解和回答用戶的自然語言問題對話系統(tǒng)在聊天機(jī)器人和虛擬助手中,大語言模型能夠進(jìn)行更自然、更復(fù)雜的對話文本摘要大語言模型可以更廣泛的理解上下文、可以從長篇文章中提取關(guān)鍵信息,從而可以生成多樣化的摘要情感分析分析文本中的情感傾向,幫助企業(yè)理解客戶反饋或社交媒體上的公眾情緒。大語言模型通過大規(guī)模數(shù)據(jù)的訓(xùn)練,可以更好地捕捉語言使用的模式和規(guī)律,從而提高情感分析的準(zhǔn)確性語言理解任務(wù)如命名實(shí)體識別、關(guān)系抽取等,大語言模型在這些任務(wù)上通常能夠取得較好的性能代碼生成在編程領(lǐng)域,大語言模型可以輔助開發(fā)者生成代碼片段文本基礎(chǔ)處理文本數(shù)據(jù)源簡介語料庫中文分詞詞性標(biāo)注與命名實(shí)體識別關(guān)鍵詞提取文本數(shù)據(jù)源簡介文本數(shù)據(jù)源在各個領(lǐng)域中起著至關(guān)重要的作用,提供了豐富的信息和知識,是自然語言處理和機(jī)器學(xué)習(xí)重要的訓(xùn)練和測試數(shù)據(jù)來源。通過使用這些數(shù)據(jù)源,可以訓(xùn)練模型來執(zhí)行文本分類、情感分析、機(jī)器翻譯等任務(wù),同時(shí)也為決策和創(chuàng)新提供了有價(jià)值的信息和見解。文本數(shù)據(jù)源在文本分析和處理中扮演著關(guān)鍵的角色,它提供了獲取、存儲、分析文本數(shù)據(jù)等基礎(chǔ)功能。文本數(shù)據(jù)源簡介文本數(shù)據(jù)源簡介網(wǎng)絡(luò)文本互聯(lián)網(wǎng)上的各種文本資源,如網(wǎng)頁、博客、新聞文章等。這些數(shù)據(jù)源可以用于社交媒體挖掘、信息檢索等領(lǐng)域?qū)W術(shù)文獻(xiàn)已發(fā)布的各類學(xué)術(shù)文獻(xiàn),包括學(xué)術(shù)期刊、會議論文、學(xué)位論文等。學(xué)術(shù)文獻(xiàn)是研究領(lǐng)域的重要數(shù)據(jù)源,可以用于文獻(xiàn)綜述、學(xué)術(shù)研究、科學(xué)發(fā)現(xiàn)等企業(yè)數(shù)據(jù)企業(yè)內(nèi)部的各種文本數(shù)據(jù),如公司內(nèi)部文件、報(bào)告、郵件、客戶反饋等。這些數(shù)據(jù)可以用于業(yè)務(wù)分析、市場調(diào)研、客戶關(guān)系管理等政府?dāng)?shù)據(jù)政府發(fā)布的各種文本數(shù)據(jù),如政策文件、統(tǒng)計(jì)數(shù)據(jù)、報(bào)告等。政府?dāng)?shù)據(jù)可以用于政策研究、公共管理、社會分析等社交媒體數(shù)據(jù)用戶發(fā)布在社交媒體上的各類文本數(shù)據(jù),包括微博、微信、陌陌等社交媒體平臺上的文本數(shù)據(jù),如用戶發(fā)布的帖子、評論等。這些數(shù)據(jù)可以用于社交網(wǎng)絡(luò)分析、用戶行為分析等自然語言處理數(shù)據(jù)集為了促進(jìn)自然語言處理算法的研究和評估,研究人員構(gòu)建了各種文本數(shù)據(jù)集,如問答數(shù)據(jù)集、情感分析數(shù)據(jù)集、機(jī)器翻譯數(shù)據(jù)集等文本數(shù)據(jù)源簡介語料庫中文分詞詞性標(biāo)注與命名實(shí)體識別關(guān)鍵詞提取語料庫文本數(shù)據(jù)源和語料庫都是與文本數(shù)據(jù)相關(guān)的概念,文本數(shù)據(jù)源是原始的、未經(jīng)處理的文本集合,而語料庫是經(jīng)過預(yù)處理和整理的、用于特定目的的文本集合。語料庫指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫,語料庫是為某一個或多個應(yīng)用而專門收集的,有一定結(jié)構(gòu)的、有代表性的、可以被計(jì)算機(jī)程序檢索的、具有一定規(guī)模的語料集合。語料庫有以下3個基本特征。語料庫中存放的是真實(shí)出現(xiàn)過的語言材料。語料庫是以計(jì)算機(jī)為載體,承載語言知識的基礎(chǔ)資源。語料庫是對真實(shí)語料進(jìn)行加工、分析和處理的資源。語料庫不僅僅是原始語料的集合,而且是有結(jié)構(gòu)的并且標(biāo)注了語法、語義、語音、語用等語言信息的語料集合。語料庫的類型將語料庫以語料庫結(jié)構(gòu)進(jìn)行劃分可分為平衡結(jié)構(gòu)語料庫與自然隨機(jī)結(jié)構(gòu)語料庫。將語料庫以語料庫用途進(jìn)行劃分可分為通用語料庫與專用語料庫。將語料庫以語料選取時(shí)間進(jìn)行劃分可分為共時(shí)語料庫與歷時(shí)語料庫。語料庫的類型1.平衡結(jié)構(gòu)語料庫與自然隨機(jī)結(jié)構(gòu)語料庫平衡結(jié)構(gòu)語料庫的著重點(diǎn)是語料的代表性和平衡性,需要預(yù)先設(shè)定語料庫中語料的類型,定義好每種類型語料所占的比例并按這種比例去采集語料。例如,歷史上第一個機(jī)讀語料庫——布朗語料庫就是一個平衡結(jié)構(gòu)語料庫的典型代表,它的語料按3層分類,嚴(yán)格設(shè)計(jì)了每一類語料所占的比例。自然隨機(jī)結(jié)構(gòu)語料庫則按照某個原則隨機(jī)去收集語料。語料庫的類型2.通用語料庫與專用語料庫通用語料庫與專用語料庫是從不同的用途角度看問題得來的結(jié)果。通用語料庫不做特殊限定,而專用語料庫的選材可以只限于某一領(lǐng)域,為了達(dá)到某種專門的目的而采集。只采集某一特定領(lǐng)域、特定地區(qū)、特定時(shí)間、特定類型的語料所構(gòu)成的語料庫即為專用語料庫,如新聞?wù)Z料庫、科技語料庫、中小學(xué)語料庫、北京口語語料庫等。通用領(lǐng)域與專用領(lǐng)域只是相對的概念。語料庫的類型3.共時(shí)語料庫與歷時(shí)語料庫共時(shí)語料庫是為了對語言進(jìn)行共時(shí)研究而建立的語料庫,即無論所采集語料的時(shí)間段有多長,只要研究的是一個時(shí)間平面上的元素或元素的關(guān)系,就是共時(shí)研究。共時(shí)研究所建立的語料庫就是共時(shí)語料庫,如中文地區(qū)漢語共時(shí)語料庫,采用共時(shí)性視窗模式,剖析來自中文地區(qū)有代表性的定量中文媒體語料,是一個典型的共時(shí)語料庫。所謂的歷時(shí)語料庫是為了對語言進(jìn)行歷時(shí)研究而建立的語料庫,即研究一個歷時(shí)切面中元素與元素關(guān)系的演化。根據(jù)歷時(shí)語料庫得到的統(tǒng)計(jì)結(jié)果是依據(jù)時(shí)間軸的等距離抽樣得到的若干頻次變化形成的走勢圖。語料庫的用途1.用于語言研究語料庫為語言學(xué)研究提供了豐富的真實(shí)語言數(shù)據(jù),用于分析語言結(jié)構(gòu)、語義關(guān)系、語言規(guī)律等。通過語料庫,研究人員可以進(jìn)行詞匯統(tǒng)計(jì)、語法分析、語義角色標(biāo)注等研究工作,從中挖掘出語言的規(guī)律和特點(diǎn)。語料庫的用途2.用于編纂工具參考書籍語料庫為編纂工具參考書籍提供了準(zhǔn)確可靠的語言數(shù)據(jù)。例如,詞典編纂者可以通過語料庫來驗(yàn)證詞語的用法、搭配和語義信息,確保編纂的詞典具有真實(shí)的語言基礎(chǔ)。翻譯工具的開發(fā)也可以從語料庫中提取翻譯記憶和短語對齊等信息,提高翻譯的質(zhì)量和效率。語料庫的用途3.用于語言教學(xué)語料庫對語言教學(xué)有重要的影響。教師可以從語料庫中搜索和選取真實(shí)語言材料,用于教學(xué)教材的編寫和課堂實(shí)踐。學(xué)習(xí)者可以通過接觸真實(shí)語料庫,了解語言的應(yīng)用環(huán)境、上下文用法和典型表達(dá),提高語言理解和實(shí)際運(yùn)用的能力。語料庫的用途4.用于自然語言處理語料庫是訓(xùn)練和評估NLP模型的重要資源。通過對大規(guī)模語料庫的學(xué)習(xí),可以訓(xùn)練出語言模型、詞向量模型、語法和語義模型等,用于自然語言理解和生成的任務(wù)。同時(shí),語料庫也可以用于訓(xùn)練序列標(biāo)注模型、機(jī)器翻譯模型、問答系統(tǒng)等NLP應(yīng)用模型,提高它們的性能和準(zhǔn)確度。語料庫的構(gòu)建與獲取1.語料庫的構(gòu)建原則代表性:在一定的抽樣框架范圍內(nèi)采集的樣本語料盡可能多地反映真實(shí)語言現(xiàn)象和特征。結(jié)構(gòu)性:收集的語料必須是計(jì)算機(jī)可讀的電子文本形式的語料集合。語料集合結(jié)構(gòu)包括語料庫中語料記錄的代碼、元數(shù)據(jù)項(xiàng)、數(shù)據(jù)類型、數(shù)據(jù)寬度、取值范圍、完整性約束等。規(guī)模性:大規(guī)模的語料庫對于語言研究,特別是對NLP研究具有不可替代的作用。但隨著語料庫的增大,“垃圾”語料帶來的統(tǒng)計(jì)垃圾問題也越來越嚴(yán)重。平衡性:平衡性是指語料庫中的語料要考慮不同內(nèi)容或指標(biāo)的平衡性,如學(xué)科、年代、文體、地域,使用者的年齡、性別、文化背景、閱歷,語料的用途(公函、私信、廣告)等指標(biāo)。一般建立語料庫時(shí),需要根據(jù)實(shí)際情況選取其中的一個或者幾個重要的指標(biāo)作為平衡因子。語料庫的構(gòu)建與獲取2.語料庫的構(gòu)建數(shù)據(jù)收集:在構(gòu)建語料庫之前,首先需要收集相關(guān)的文本數(shù)據(jù)??梢酝ㄟ^爬蟲程序從互聯(lián)網(wǎng)上抓取網(wǎng)頁數(shù)據(jù)、利用API獲取特定領(lǐng)域的數(shù)據(jù)、使用公開可用的數(shù)據(jù)集等方式收集文本數(shù)據(jù)作為語料庫的數(shù)據(jù)。數(shù)據(jù)清洗和預(yù)處理:收集到的文本數(shù)據(jù)通常需要進(jìn)行清洗和預(yù)處理,以去除無用的信息、噪聲和非文本內(nèi)容。這包括去除HTML標(biāo)簽、處理特殊字符、進(jìn)行文本歸一化等操作。標(biāo)注和注釋:標(biāo)注和注釋是為了給文本數(shù)據(jù)添加額外的信息,如詞性標(biāo)注、命名實(shí)體標(biāo)注、情感標(biāo)注等。這些標(biāo)注和注釋的目的是為了提供更多的語義和語法信息,以便后續(xù)的自然語言處理任務(wù)能夠更準(zhǔn)確地進(jìn)行。語料庫的構(gòu)建與獲取3.語料庫的獲取目前除了自行構(gòu)建語料庫,也可以通過一些手段獲取現(xiàn)成的語料庫。常見的語料庫獲取途徑有網(wǎng)絡(luò)抓取、開放數(shù)據(jù)集、數(shù)據(jù)庫訪問、問卷調(diào)查、文本挖掘工具和API等。NTLK是獲取語料庫的一個常用工具,NLTK中集成了多個文本語料庫,包含古騰堡項(xiàng)目(數(shù)字圖書館)電子文本檔案的一部分文本、網(wǎng)絡(luò)和聊天文本、標(biāo)注文本語料庫等。語料庫的構(gòu)建與獲取3.語料庫的獲取函數(shù)或方法說明fileids()返回語料庫中的文件categories()列出語料庫包含的類別categories([fileids])根據(jù)文件返回語料庫的類別raw()顯示語料庫的原始內(nèi)容raw([fileids=[f1,f2,f3])顯示指定文件的原始內(nèi)容raw(categories=[c1,c2])顯示指定類別的原始內(nèi)容words()顯示整個語料庫中的單詞words(fileids=[f1,f2,f3])顯示指定文件包含的單詞NLTK中定義了許多基本語料庫函數(shù)或方法,可以通過調(diào)用函數(shù)或方法獲取文本文件。函數(shù)或方法說明words(categories=[c1,c2])顯示指定類別包含的單詞sents()顯示整個語料庫包含的句子sents(fileids=[f1,f2,f3])顯示指定文件包含的句子sents(categories=[c1,c2])顯示指定類別包含的句子abspath(fileid)顯示指定文件的存儲路徑encoding(fileid)顯示文件編碼open(fileid)建立讀取語料庫文件的字符流root()顯示本地安裝的語料庫的根目錄readme()顯示語料庫的README文件的內(nèi)容文本數(shù)據(jù)源簡介語料庫中文分詞詞性標(biāo)注與命名實(shí)體識別關(guān)鍵詞提取常見中文分詞方法1.基于規(guī)則的分詞(1)正向最大匹配法正向最大匹配法的流程圖如圖。假設(shè)有一個待分詞中文文本和一個分詞詞典,詞典中最長的字符串長度為L,從左至右切分待分詞文本的前L個字符,得到一個字符串,然后在詞典中查找是否有相同的字符串。若匹配失敗,則刪去該字符串的最后一個字符,僅留下前L-1個字符,繼續(xù)匹配這個字符串,以此類推。若匹配成功,則將被切分下來的第二個文本作為新的待分詞文本,重復(fù)以上操作直至匹配完畢。如果一個字符串全部匹配失敗,那么逐次刪去第一個字符,并重復(fù)上述操作。常見中文分詞方法1.基于規(guī)則的分詞(2)逆向最大匹配法。逆向最大匹配法與正向最大匹配法原理相似,其流程圖如圖。逆向最大匹配法從右至左匹配待分詞文本的后L個字符,得到一個字符串,然后在詞典中查找是否有相同字符串。若匹配失敗,僅留下待分詞文本的后L-1個字符,繼續(xù)匹配該字符串,以此類推。若匹配成功,則將被切分下來的第一個文本作為新的待分詞文本,重復(fù)以上操作直至匹配完畢。如果一個字符串全部匹配失敗,那么逐次刪去最后一個字符,并重復(fù)上述操作。常見中文分詞方法1.基于規(guī)則的分詞(3)雙向最大匹配法。雙向最大匹配法是一種結(jié)合了正向最大匹配法和逆向最大匹配法的分詞方法。雙向最大匹配法基本思想是將正向最大匹配法和逆向最大匹配法的結(jié)果進(jìn)行對比,選取兩種方法中切分次數(shù)較少的方法的結(jié)果作為切分結(jié)果。當(dāng)切分次數(shù)相同時(shí),選取切分結(jié)果中存在單字?jǐn)?shù)較少的為切分結(jié)果。研究表明,利用正向最大匹配法和逆向最大匹配法分詞,有大約90%的句子完全重合且正確,有9%左右的句子得到的結(jié)果不一樣,但其中有一個是正確的。剩下大約1%的句子使用兩種方法進(jìn)行分詞的結(jié)果都是錯誤的。因而,雙向最大匹配法在中文分詞領(lǐng)域中得到了廣泛運(yùn)用。常見中文分詞方法1.基于規(guī)則的分詞(4)最少切分法。最少切分法是一種基于規(guī)則的分詞方法,它是通過遍歷待分詞文本,對文本進(jìn)行逐字掃描,并根據(jù)預(yù)先設(shè)定的詞典和分詞規(guī)則,尋找最大匹配詞語來進(jìn)行分詞。假設(shè)有一個待分詞中文文本和一個分詞詞典,從待分詞文本的首字開始進(jìn)行遍歷,以當(dāng)前位置為起點(diǎn),向后查找所有可能的詞語,并將找到的詞語與詞典進(jìn)行匹配。若找到匹配的詞語,則將其作為一個分詞結(jié)果,并將位置指針向后移動到詞語的末尾。若未找到匹配的詞語,則將當(dāng)前位置的字符作為一個單字分詞結(jié)果,并將位置指針向后移動一位。重復(fù)以上操作直到遍歷完整個待分詞文本。常見中文分詞方法2.基于統(tǒng)計(jì)的分詞(1)隱馬爾可夫模型。隱馬爾可夫模型是一種概率模型,用于解決序列預(yù)測問題,可以對序列數(shù)據(jù)中的上下文信息進(jìn)行建模。隱馬爾可夫模型用于描述含有隱含未知參數(shù)的馬爾可夫過程。在隱馬爾可夫模型中,有兩種類型的節(jié)點(diǎn),分別為觀測序列與狀態(tài)序列。狀態(tài)序列是不可見的,它們的值需要通過從觀測序列進(jìn)行推斷而得到。很多現(xiàn)實(shí)問題可以抽象為此類問題,如語音識別、NLP中的分詞、詞性標(biāo)注、計(jì)算機(jī)視覺中的動作識別等。2.基于統(tǒng)計(jì)的分詞常見中文分詞方法得到了這個標(biāo)注結(jié)果后,即可得到分詞結(jié)果,句子“科技是第一生產(chǎn)力”的分詞結(jié)果為“科技/是/第一/生產(chǎn)力”,分詞過程如圖所示。(1)隱馬爾可夫模型。對于句子“科技是第一生產(chǎn)力”,在這里觀測序列O為“科技是第一生產(chǎn)力”,每個字為每個時(shí)刻的觀測值。狀態(tài)序列為標(biāo)注的結(jié)果,每個時(shí)刻的狀態(tài)值有4種情況{B,M,E,S},其中B代表起始位置的字,M代表中間位置的字,E代表末尾位置的字,S代表能夠單獨(dú)成詞的字。對待分詞語句進(jìn)行序列標(biāo)注,如果得到狀態(tài)序列Q為{B,E,S,B,E,B,M,E},則有“科/B技/E是/S第/B一/E生/B產(chǎn)/M力/E”。常見中文分詞方法2.基于統(tǒng)計(jì)的分詞(2)條件隨機(jī)場條件隨機(jī)場是一種用于序列標(biāo)注問題的統(tǒng)計(jì)模型。在自然語言處理中,條件隨機(jī)場常用于詞性標(biāo)注、命名實(shí)體識別、句法分析等任務(wù)。條件隨機(jī)場基于概率圖模型,它能夠建模輸入序列和輸出標(biāo)簽之間的條件概率關(guān)系。具體而言,條件隨機(jī)場將每個輸入序列和相應(yīng)的輸出標(biāo)簽作為一個聯(lián)合隨機(jī)變量,通過最大化條件概率來找到最優(yōu)的輸出序列。常見中文分詞方法2.基于統(tǒng)計(jì)的分詞(2)條件隨機(jī)場條件隨機(jī)場對句子“弘揚(yáng)中華民族優(yōu)秀傳統(tǒng)文化”的分詞過程如圖。常見中文分詞方法2.基于統(tǒng)計(jì)的分詞(3)基于詞頻統(tǒng)計(jì)方法基于詞頻統(tǒng)計(jì)方法是一種簡單直接的方法。它根據(jù)詞頻統(tǒng)計(jì)的結(jié)果來進(jìn)行文本分析和處理?;谠~頻的方法可以通過統(tǒng)計(jì)每個詞在文本中出現(xiàn)的頻率,來進(jìn)行關(guān)鍵詞提取、文本分類等任務(wù)。通過統(tǒng)計(jì)詞語在語料中的出現(xiàn)頻次,可以確定一些常見詞語的邊界位置。基于詞頻統(tǒng)計(jì)方法不考慮上下文信息和標(biāo)簽之間的關(guān)系,相對簡單快速,但是它可能忽略了詞語之間的依賴關(guān)系和語義信息?;趈ieba庫的中文分詞1.jieba分詞的基本模式精確模式(默認(rèn)模式):盡量將句子切分成最精確的詞語,適用于文本分析。全模式:將句子中所有可能的詞語都切分出來,可能會有冗余,適用于構(gòu)建詞語模型。搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,適用于搜索引擎分詞?;趈ieba庫的中文分詞2.cut()方法和cut_for_search()方法常用參數(shù)jieba.cut(sentence,cut_all,HMM,enable_paddle)jieba.cut_for_search(sentence,HMM)參數(shù)名稱說明sentence接收str。表示待分詞文本。無默認(rèn)值cut_all接收bool。表示是否采用全模式。默認(rèn)為FalseHMM接收bool。表示是否使用隱馬爾可夫模型。默認(rèn)為Trueuse_paddle接收bool。表示是否使用paddle模式下的分詞模式。默認(rèn)為False實(shí)現(xiàn)精確模式和全模式的分詞實(shí)現(xiàn)搜索引擎模式的分詞基于jieba庫的中文分詞3.jieba庫常用分詞方法方法描述jieba.cut(txt)精確模式,返回一個可迭代的數(shù)據(jù)類型jieba.lcut(txt)精確模式,返回一個列表類型jieba.cut(txt,cut_all=True)全模式,輸出文本txt中所有可能單詞jieba.lcut(txt,cut_all=True)全模式,返回一個列表類型jieba.cut_for_search(txt)搜索引擎模式j(luò)ieba.lcut_for_search(txt)搜索引擎模式,返回一個列表類型jieba.add_word(txt)向分詞詞典中增加新詞文本數(shù)據(jù)源簡介語料庫中文分詞詞性標(biāo)注與命名實(shí)體識別關(guān)鍵詞提取詞性標(biāo)注簡介與規(guī)范1.詞性標(biāo)注簡介詞性標(biāo)注是自然語言處理中的一項(xiàng)關(guān)鍵任務(wù),其目標(biāo)是為文本中的每個詞語標(biāo)注一個詞性。詞性標(biāo)注主要有基于規(guī)則和基于統(tǒng)計(jì)兩種標(biāo)注方法?;谝?guī)則的標(biāo)注方法是較早的一種詞性標(biāo)注方法,這種方法需要獲取能表達(dá)一定的上下文關(guān)系及其相關(guān)語境的規(guī)則庫?;诮y(tǒng)計(jì)的標(biāo)注方法能夠抑制小概率事件的發(fā)生,但會受到長距離搭配上下文的限制,有時(shí)基于規(guī)則的標(biāo)注方法更容易實(shí)現(xiàn)。詞性標(biāo)注可以幫助人們更好地理解和處理自然語言文本。詞性標(biāo)注的任務(wù)是將句子中的每個詞或者短語標(biāo)注為其所屬的詞性類別,常見的詞性類別包括名詞、動詞、形容詞、副詞、介詞、連詞等。不同的詞性類別可以反映出詞語在句子中的語法作用和語義含義,對于詞義消歧、句法分析、機(jī)器翻譯等任務(wù)都具有重要意義。詞性標(biāo)注簡介與規(guī)范2.詞性標(biāo)注規(guī)范詞可分為實(shí)詞和虛詞,共有12種詞性。使用較為廣泛的北大詞性標(biāo)注部分規(guī)范如表。編碼詞性名稱注釋Ag形語素形容詞性語素。形容詞編碼為a,語素編碼g前面置以Aa形容詞取英語形容詞(adjective)的第1個字母ad副形詞直接作狀語的形容詞。形容詞編碼a和副詞編碼d并在一起an名形詞具有名詞功能的形容詞。形容詞編碼a和名詞編碼n并在一起b區(qū)別詞取漢字“別”的聲母c連詞取英語連詞(conjunction)的第1個字母Dg副語素副詞性語素。副詞編碼為d,語素編碼g前面置以Dd副詞取英語副詞(adverb)的第2個字母,因其第1個字母已用于形容詞e嘆詞取英語嘆詞(exclamation)的第1個字母命名實(shí)體識別簡介與常用算法1.命名實(shí)體識別簡介命名實(shí)體識別是指在文檔集合中識別出特定類型的事物名稱或符號的過程。其目標(biāo)是從文本中識別出具有特定意義的命名實(shí)體,如人名、地名、組織機(jī)構(gòu)名等。命名實(shí)體識別是NLP中一項(xiàng)非常基礎(chǔ)的任務(wù),是信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯等眾多NLP任務(wù)的重要基礎(chǔ)工具。從自然語言處理的流程來看,命名實(shí)體識別可以看作詞法分析中未登錄詞識別的一種,是未登錄詞中數(shù)量最多、識別難度最大、對分詞效果影響最大的問題。同時(shí)命名實(shí)體識別也是關(guān)系抽取、事件抽取、知識圖譜、機(jī)器翻譯、問答系統(tǒng)等諸多NLP任務(wù)的基礎(chǔ)。2.命名實(shí)體識別常用算法命名實(shí)體識別簡介與常用算法正則表達(dá)式由這些包含字母和符號的特定字符組合形成,以表達(dá)字符串或文本的過濾邏輯。字典由實(shí)體集合建立,一般采用的方法是從已有的知識庫、詞典、語料庫等數(shù)據(jù)源中構(gòu)建,根據(jù)標(biāo)注好的樣本文本,設(shè)計(jì)一些匹配規(guī)則,匹配規(guī)則可以基于詞語、詞性、上下文信息等。(1)基于規(guī)則的方法?;谝?guī)則的方法是一種簡單而直接的方法,通過手動定義模式或規(guī)則來識別命名實(shí)體。基于規(guī)則的方法具有簡單易用、可解釋性強(qiáng)、適用范圍廣的優(yōu)點(diǎn)?;谝?guī)則的方法根據(jù)一些預(yù)設(shè)的匹配規(guī)則從文本中選擇匹配的實(shí)體,這些規(guī)則主要基于正則表達(dá)式或字典。2.命名實(shí)體識別常用算法(2)基于統(tǒng)計(jì)的方法?;诮y(tǒng)計(jì)模型的方法通過構(gòu)建概率模型來預(yù)測文本中每個詞的實(shí)體標(biāo)記,將命名實(shí)體識別問題轉(zhuǎn)換為序列標(biāo)注問題。經(jīng)典的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)模型已成功用于命名實(shí)體識別任務(wù)中,這些模型通常使用基于特征工程的方法來提取特征,然后通過訓(xùn)練學(xué)習(xí)到的模型來預(yù)測命名實(shí)體。常用的機(jī)器學(xué)習(xí)方法包括隱馬爾可夫模型、條件隨機(jī)場模型、最大嫡模型、支持向量機(jī)等。使用基于統(tǒng)計(jì)的方法來識別人名時(shí),可以根據(jù)右圖所示的流程進(jìn)行訓(xùn)練和預(yù)測。命名實(shí)體識別簡介與常用算法(3)基于深度學(xué)習(xí)的方法。深度學(xué)習(xí)方法在圖像識別、語音識別和自然語言處理領(lǐng)域中廣泛應(yīng)用?;谏疃葘W(xué)習(xí)的方法在中文命名實(shí)體識別研究中具有準(zhǔn)確性高、魯棒性強(qiáng)、可解釋性強(qiáng)以及處理效率高等優(yōu)點(diǎn),深度學(xué)習(xí)的方法通過大量的訓(xùn)練提取上下文信息之間的語義聯(lián)系,可以解決語義多樣化問題,結(jié)合分詞工具、長短期神經(jīng)網(wǎng)絡(luò)等方法能夠解決詞邊界劃分問題,對提高自然語言處理的水平和應(yīng)用場景的廣泛性具有重要的作用。基于深度學(xué)習(xí)的命名實(shí)體流程如右圖所示。命名實(shí)體識別簡介與常用算法2.命名實(shí)體識別常用算法基于jieba庫的詞性標(biāo)注與命名實(shí)體識別jieba詞性標(biāo)注是基于規(guī)則與統(tǒng)計(jì)相結(jié)合的詞性標(biāo)注方法。jieba詞性標(biāo)注是利用詞典匹配與隱馬爾可夫模型共同合作實(shí)現(xiàn)。jieba詞性標(biāo)注流程主要包括以下兩個步驟。通過正則表達(dá)式判斷是否為漢字。若是漢字,則進(jìn)入步驟二;若果不是漢字,則標(biāo)注為其他類型,其中“m”表示數(shù)字,“eng”表示英文詞,“x”表示未知詞性?;谇熬Y詞典構(gòu)建有向無環(huán)圖,對有向無環(huán)圖計(jì)算最大概率路徑,同時(shí)在前綴字典中查找所分詞的詞性;若果前綴詞典中包含該詞,則標(biāo)注為詞典中的詞性;若沒有找到,則將其標(biāo)注為未知“x”;若在標(biāo)注過程中標(biāo)注為未知,并且該詞為未登錄詞,則通過隱馬爾可夫模型進(jìn)行詞性標(biāo)注?;趈ieba庫的詞性標(biāo)注與命名實(shí)體識別1.lcut()方法常用的參數(shù)jieba.posseg.lcut(sentence,cut_all=False,HMM=True)調(diào)用posseg模塊的lcut()方法實(shí)現(xiàn)詞性標(biāo)注。參數(shù)名稱說明sentence接收str。表示待標(biāo)注文本。無默認(rèn)值cut_all接收bool。表示是否采用全模式。默認(rèn)為FalseHMM接收bool。表示是否使用隱馬爾可夫模型進(jìn)行標(biāo)注。默認(rèn)為True文本數(shù)據(jù)源簡介語料庫中文分詞詞性標(biāo)注與命名實(shí)體識別關(guān)鍵詞提取關(guān)鍵詞提取關(guān)鍵詞是能夠反映文本主題或內(nèi)容的詞語。關(guān)鍵詞這個概念隨著信息檢索學(xué)科的出現(xiàn)而被提出,它是從單個文本或一個語料庫中,根據(jù)核心詞語的統(tǒng)計(jì)和語義分析,選擇適當(dāng)?shù)?、能夠完整表達(dá)主題內(nèi)容的特征項(xiàng)的過程。關(guān)鍵詞提取技術(shù)的應(yīng)用非常廣泛,主要應(yīng)用對象可以分為人類用戶和機(jī)器用戶。在面向讀者的應(yīng)用中,要求所提取的關(guān)鍵詞具有很高的可讀性、信息性和簡約性。關(guān)鍵詞提取技術(shù)主要應(yīng)用于新聞閱讀、廣告推薦、歷史文化研究、論文索引等領(lǐng)域。在NLP中,關(guān)鍵詞作為中間產(chǎn)物,應(yīng)用也非常廣泛,主要應(yīng)用于文本聚類、文本分類、機(jī)器翻譯、語音識別等領(lǐng)域。常見關(guān)鍵詞提取算法1.TF-IDF算法TF-IDF是關(guān)鍵詞提取中比較基本和簡單易懂的方法。判斷一個詞在一篇文章中是否重要,一個容易想到的衡量指標(biāo)就是詞頻,重要的詞往往在文章中出現(xiàn)的頻率也非常高;但另一方面,不是出現(xiàn)次數(shù)越多的詞就一定重要,因?yàn)橛行┰~在各種文章中都頻繁出現(xiàn),那它的重要性又不如那些只在某篇文章中頻繁出現(xiàn)的詞重要性強(qiáng)。TF-IDF算法的主要思想是字詞的重要性隨著它在文檔中出現(xiàn)次數(shù)的增加而上升,并隨著它在語料庫中出現(xiàn)頻率的升高而下降。TF-IDF算法是計(jì)算文檔中每個詞的TF(詞頻)和IDF(逆文檔頻率)值,然后根據(jù)設(shè)定的閾值選擇具有較高TF-IDF值的詞作為關(guān)鍵詞。它是通過將一個詞在文檔中的頻率與在整個文檔集合中的重要性相乘,得到一個詞在文檔中的TF-IDF值。TF-IDF算法可以用來衡量一個詞在文檔中的關(guān)鍵程度。常見關(guān)鍵詞提取算法1.TF-IDF算法TF-IDF算法的流程如圖。TF、IDF和TF-IDF值的計(jì)算公式如式所示。常見關(guān)鍵詞提取算法2.TextRank算法TextRank算法是一種基于圖的文本排序算法,它可以用于自動摘要和提取關(guān)鍵詞。它不需要依靠現(xiàn)有的文檔集提取關(guān)鍵詞,只需利用局部詞匯之間的關(guān)系對后續(xù)關(guān)鍵詞進(jìn)行排序,隨后從文本中提取詞或句子,實(shí)現(xiàn)提取關(guān)鍵詞和自動摘要。TextRank從詞圖模型的角度尋找文章的關(guān)鍵詞,它的基本思想主要來源于PageRank算法,PageRank算法是整個Google搜索的核心算法,通過網(wǎng)頁之間的鏈接計(jì)算網(wǎng)頁的重要性。PageRank算法將整個互聯(lián)網(wǎng)看作一張有向圖,網(wǎng)頁是圖中的節(jié)點(diǎn),而網(wǎng)頁之間的鏈接就是途中的邊。根據(jù)重要性傳遞的思想,如果一個網(wǎng)頁A含有一個指向網(wǎng)頁B的鏈接,那么網(wǎng)頁B的重要性排名會根據(jù)A的重要性來提升。常見關(guān)鍵詞提取算法2.TextRank算法TextRank算法的流程如圖。TextRank算法的計(jì)算公式如式所示。上式中為的入鏈集合,為的出鏈集合,是出鏈的數(shù)量,為貢獻(xiàn)給的分?jǐn)?shù),d為阻尼系數(shù),默認(rèn)取0.85。常見關(guān)鍵詞提取算法3.主題模型算法主題模型是自然語言處理中的一種常用模型,它用于從大量文檔中自動提取主題信息。主題模型的核心思想是每篇文檔都可以看作多個主題的混合,而每個主題則由一組詞構(gòu)成。主題模型通過對文本數(shù)據(jù)進(jìn)行建模和分析,可以提取出潛在的主題信息,而關(guān)鍵詞則是在每個主題下具有高權(quán)重的詞語,可以代表該主題的重要特征。常見的主題模型算法主要有LSA、概率潛在語義分析(ProbabilisticLatentSemanticAnalysis,PLSA)、LDA,以及基于深度學(xué)習(xí)的LDA2vec等。主題模型算法的流程如圖。提取文本的關(guān)鍵詞關(guān)鍵詞提取是文本分析的重要步驟,通過系統(tǒng)化流程可以從文本中獲取核心信息,為后續(xù)分析奠定基礎(chǔ)。以下是關(guān)鍵詞提取的主要步驟。文本預(yù)處理:對原始文本進(jìn)行清洗,包括分詞、去除停用詞和詞干化等操作,有效減少噪音并提取文本主題信息。特征提?。簭念A(yù)處理后的文本中提取有價(jià)值的特征,識別文本中最能代表主題和內(nèi)容的關(guān)鍵詞和短語。關(guān)鍵詞篩選與排序:根據(jù)詞頻、重要性得分等指標(biāo)對候選關(guān)鍵詞進(jìn)行篩選和排序,選出最具代表性的關(guān)鍵詞集合。提取文本的關(guān)鍵詞1.使用TF-IDF算法提取關(guān)鍵詞使用TF-IDF算法對關(guān)鍵詞進(jìn)行提取的常用方法有兩種,一種是從jieba庫的analyse模塊中調(diào)用extract_tags函數(shù)實(shí)現(xiàn),語法格式如下。jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPOS=())extract_tags函數(shù)常用的參數(shù)如表。參數(shù)名稱說明sentence接收str。表示待提取關(guān)鍵詞的文本。無默認(rèn)值topk接收int。表示返回的關(guān)鍵詞數(shù)量。默認(rèn)為20withWeight接收bool。表示是否返回關(guān)鍵詞的權(quán)重值。默認(rèn)為FalseallowPOS接收str。表示返回指定詞性的詞。無默認(rèn)值提取文本的關(guān)鍵詞1.使用TF-IDF算法提取關(guān)鍵詞使用TF-IDF算法對關(guān)鍵詞進(jìn)行提取的另外一種方法是通過調(diào)用sklearn庫中的TfidfVectorizer類實(shí)現(xiàn),語法格式如下。TfidfVectorizer(*,input='content',encoding='utf-8',decode_error='strict',strip_accents=None,lowercase=True,preprocessor=None,tokenizer=None,analyzer='word',stop_words=None)提取文本的關(guān)鍵詞1.使用TF-IDF算法提取關(guān)鍵詞TfidfVectorizer類常用的參數(shù)如表。參數(shù)名稱說明input接收str。表示指定輸入的文本數(shù)據(jù)。無默認(rèn)值encoding接收str。表示指定輸入數(shù)據(jù)的編碼方式。默認(rèn)為utf-8decode_error接收str。表示字節(jié)序列。無默認(rèn)值strip_accents接收str。表示字符規(guī)范化。默認(rèn)為Nonelowercase接收bool。表示是否將文本轉(zhuǎn)換為小寫。默認(rèn)為Truepreprocessor接收str。表示覆蓋預(yù)處理階段。默認(rèn)為Nonetokenizer接收str。表示覆蓋字符串標(biāo)記化步驟。默認(rèn)為Noneanalyzer接收str。表示特征是否由單詞或字符組成。無默認(rèn)值stop_words接收str。表示停用詞。默認(rèn)為None提取文本的關(guān)鍵詞2.使用TextRank算法提取關(guān)鍵詞使用TextRank算法提取關(guān)鍵詞可以從jieba庫的analyse模塊中調(diào)用textrank函數(shù)實(shí)現(xiàn),語法格式如下。jieba.analyse.textrank(sentence,topK=20,withWeight=False,allowPOS=())textrank函數(shù)常用的參數(shù)如表。參數(shù)名稱說明sentence接收str。表示待提取關(guān)鍵詞的文本。無默認(rèn)值topk接收int。表示返回的關(guān)鍵詞數(shù)量。默認(rèn)為20withWeight接收bool。表示是否返回關(guān)鍵詞的權(quán)重值。默認(rèn)為FalseallowPOS接收str。表示返回指定詞性的詞。無默認(rèn)值提取文本的關(guān)鍵詞3.使用主題模型算法提取關(guān)鍵詞使用主題模型算法提取關(guān)鍵詞可以從gensim庫的models模塊中調(diào)用LdaModel類實(shí)現(xiàn),語法格式如下。gensim.models.LdaModel(corpus=None,num_topics=100,id2word=None,distributed=False,chunksize=2000,passes=1,update_every=1,alpha='symmetric',eta=None)提取文本的關(guān)鍵詞3.使用主題模型算法提取關(guān)鍵詞LdaModel類常用的參數(shù)如表。參數(shù)名稱說明corpus接收str。表示待提取關(guān)鍵詞的文本。無默認(rèn)值num_topics接收int。表示主題的數(shù)量。無默認(rèn)值id2word接收str。表示將詞語與其對應(yīng)的編號進(jìn)行映射。默認(rèn)為dictionarydistributed接收bool。表示是否使用分布式計(jì)算。默認(rèn)為Falsepasses接收int。表示通過語料庫的次數(shù)。無默認(rèn)值alpha接收str。表示控制文檔-主題分布的稀疏性。無默認(rèn)值eta接收str。表示控制主題-詞分布的稀疏性。默認(rèn)為None文本預(yù)處理與分析文本向量化與相似度文本分析簡介文本分析常用算法文本向量化與相似度文本向量化是文本相關(guān)機(jī)器學(xué)習(xí)的重要前置操作,根據(jù)映射方法可分為離散表示和分布式表示兩種類型。在自然語言處理領(lǐng)域,測量文本間相似度是核心問題,特別在對話系統(tǒng)和信息檢索等應(yīng)用場景中,準(zhǔn)確度量句子或短語之間的相似度具有重要意義。這些技術(shù)為文本處理和分析提供了基礎(chǔ)支持。文本向量化與相似度簡介1.文本向量化文本向量化是指將文本表示成一系列能夠表達(dá)文本語義的機(jī)讀向量,它是文本表示的一種重要方式。在NLP中,文本向量化是一個重要環(huán)節(jié),其產(chǎn)出的向量質(zhì)量將直接影響后續(xù)模型的表現(xiàn)。文本向量化按照向量化的粒度不同可以將其分為以字為單位、以詞為單位和以句子為單位的向量表達(dá),需根據(jù)不同的情景選擇不同的向量表達(dá)方法和處理方式。目前對文本向量化的大部分研究都是通過以詞為單位的向量化。隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,基于神經(jīng)網(wǎng)絡(luò)的文本向量化已經(jīng)成為NLP領(lǐng)域的研究熱點(diǎn),尤其是以詞為單位的向量化研究。Word2Vec是目前以詞為單位的向量化研究中最典型的生成詞向量的工具,其特點(diǎn)是將所有的詞向量化,這樣即可度量詞與詞之間的關(guān)系、挖掘詞之間的聯(lián)系。也有一部分研究將句子作為文本處理的基本單元,于是產(chǎn)生了Doc2Vec和Str2Vec等技術(shù)。文本向量化與相似度簡介2.文本相似度文本相似度指標(biāo)在文本檢索、文本分類、文檔聚類、主題分析、機(jī)器翻譯、文本摘要等任務(wù)中的研究和應(yīng)用越來越重要。詞與詞之間的相似性是文本相似性的重要組成部分,它是句子、段落和文檔相似性的基礎(chǔ)。文本相似度是衡量兩個文本在語義上的相似程度,具體可理解為兩個文本之間的語義距離。文本相似度的定義如式所示。相似度一般可以用[0,1]中的實(shí)數(shù)表示,該實(shí)數(shù)可通過語義距離計(jì)算獲得。相似度與語義距離呈負(fù)相關(guān),語義距離越小,相似度越高;語義距離越大則相似度越低。通常用下式表示相似度與語義距離的關(guān)系。其中,表示文本A、B之間的非負(fù)語義距離,α為調(diào)節(jié)因子,保證當(dāng)語義距離為0時(shí)上式具有意義。常見文本向量化方法1.文本離散化表示離散表示是一種基于規(guī)則和統(tǒng)計(jì)的向量化方式,常用的方法有詞集(Set-Of-Word,SOW)模型和詞袋(Bag-Of-Word,BOW)模型,這兩類模型都以詞之間保持獨(dú)立性、沒有關(guān)聯(lián)為前提,以所有文本中的詞形成一個字典,然后根據(jù)字典統(tǒng)計(jì)詞的出現(xiàn)頻數(shù)。但這兩類模型也存在不同之處。如SOW模型中的獨(dú)熱表示,只要單個文本中的詞出現(xiàn)在字典中,就將其置為1,不管出現(xiàn)多少次。BOW模型只要文本中一個詞出現(xiàn)在字典中,就將其向量值加1,出現(xiàn)多少次就加多少次。文本離散表示的特點(diǎn)是忽略文本信息中的語序信息和語境信息,僅將其反映為若干維度的獨(dú)立概念。這類模型由于本身原因存在無法解決的問題,如主語和賓語的順序問題,會導(dǎo)致無法理解文本的原意,如“我為你鼓掌”和“你為我鼓掌”兩個語句之間的區(qū)別。常見文本向量化方法1.文本離散化表示(1)獨(dú)熱表示獨(dú)熱表示(One-HotEncoding)是指用一個長的向量表示字典中的一個詞,向量長度為字典的長度,每個向量只有一個維度為1,其余維度全部為0,向量中維度為1的位置表示該詞語在字典中的位置。詞語獨(dú)熱向量表示建設(shè)[1,0,0,0,0,0,0]農(nóng)業(yè)[0,1,0,0,0,0,0]強(qiáng)國[0,0,1,0,0,0,0]詞語獨(dú)熱向量表示利器[0,0,0,1,0,0,0]在[0,0,0,0,1,0,0]科技[0,0,0,0,0,1,0]助力[0,0,0,0,0,0,1]常見文本向量化方法1.文本離散化表示(2)BOW模型BOW模型使用一個向量表示一句話或一個文檔。BOW模型忽略文檔的詞語順序、語法、句法等要素,將文檔看作若干個詞匯的集合,文檔中每個詞都是獨(dú)立的。文本BOW向量化表示建設(shè)農(nóng)業(yè)強(qiáng)國,利器在科技[1,1,1,1,1,1,0]農(nóng)業(yè)強(qiáng)國,科技助力[1,1,1,0,0,0,1]常見文本向量化方法1.文本離散化表示(3)TF-IDF表示TF-IDF表示與BOW模型類似,它是在BOW的基礎(chǔ)上對詞出現(xiàn)的頻次賦予TF-IDF權(quán)值,對BOW模型進(jìn)行修正,進(jìn)而表示該詞在文檔集合中的重要程度。如“建設(shè)農(nóng)業(yè)強(qiáng)國,利器在科技”和“農(nóng)業(yè)強(qiáng)國,科技助力”。首先將所有文本分詞后得到詞匯表即{農(nóng)業(yè),強(qiáng)國,科技,建設(shè),利器,在,助力}。然后計(jì)算每個詞的TF-IDF值,其中“建設(shè)農(nóng)業(yè)強(qiáng)國,利器在科技”句子中“科技”的TF-IDF值的具體計(jì)算過程如式所示。常見文本向量化方法1.文本離散化表示(3)TF-IDF表示“建設(shè)農(nóng)業(yè)強(qiáng)國,利器在科技”中所有詞的TF-IDF值如表所示?!稗r(nóng)業(yè)強(qiáng)國,科技助力”中所有詞的TF-IDF值如表所示。建設(shè)農(nóng)業(yè)強(qiáng)國,利器在科技TF-IDF建設(shè)0農(nóng)業(yè)-0.0294強(qiáng)國-0.0294利器0在0科技-0.0294農(nóng)業(yè)強(qiáng)國,科技助力TF-IDF農(nóng)業(yè)-0.0440強(qiáng)國-0.0440科技-0.0440助力0常見文本向量化方法2.文本分布式表示文本分布式表示將每個詞根據(jù)上下文從高維空間映射到一個低維度、稠密的向量上。分布式表示的思想是詞的語義是通過上下文信息確定的,即相同語境出現(xiàn)的詞,其語義也相近。分布式表示的優(yōu)點(diǎn)是考慮到了詞之間存在的相似關(guān)系,減小了詞向量的維度。常用的方法有基于矩陣的分布式表示(如LSA矩陣分解模型、PLSA概率潛在語義分析模型和LDA文檔生成模型)、基于聚類的分布式表示和基于神經(jīng)網(wǎng)絡(luò)的分布式表示(如Word2Vec模型和Doc2Vec模型)。常見文本向量化方法2.文本分布式表示(1)Word2Vec模型Word2Vec是Google于2013年開源的詞向量建模工具,作為簡化的神經(jīng)網(wǎng)絡(luò)模型,它能在大規(guī)模語料上高效訓(xùn)練并生成高質(zhì)量詞向量。該模型可以有效度量詞與詞之間的相似性,并能在百萬級詞典和億級數(shù)據(jù)集上進(jìn)行訓(xùn)練。Word2Vec根據(jù)輸入輸出模式分為CBOW和Skip-Gram兩種類型,前者通過上下文預(yù)測目標(biāo)詞,后者則通過目標(biāo)詞預(yù)測上下文。CBOW適合小型語料庫,而Skip-Gram在大型語料庫中表現(xiàn)更佳。Word2Vec的獨(dú)特之處在于訓(xùn)練后不直接使用模型,而是利用學(xué)到的參數(shù)(如隱藏層權(quán)重矩陣)來構(gòu)建新模型。2.文本分布式表示常見文本向量化方法(1)Word2Vec模型①CBOW模型。CBOW模型根據(jù)上下文的詞語預(yù)測目標(biāo)詞出現(xiàn)的概率。CBOW模型的神經(jīng)網(wǎng)絡(luò)包含輸入層、隱藏層和輸出層。CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖。2.文本分布式表示常見文本向量化方法(1)Word2Vec模型②Skip-Gram模型。Skip-Gram模型與CBOW模型相反,它根據(jù)目標(biāo)詞預(yù)測其上下文。假設(shè)詞匯表中詞匯量的大小為,隱藏層的大小為,相鄰層的神經(jīng)元是全連接的,Skip-Gram模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖。常見文本向量化方法2.文本分布式表示(2)Doc2Vec模型通過Word2Vec模型獲取一段文本的向量,一般做法是先對文本分詞,提取文本的關(guān)鍵詞,用Word2Vec獲取這些關(guān)鍵詞的詞向量,然后計(jì)算這些關(guān)鍵詞的詞向量的平均值;或?qū)⑦@些詞向量拼接起來得到一個新的向量,這個新向量可以看作這個文本的向量。然而,這種方法只保留句子或文本中詞的信息,會丟失文本中的主題信息。為此,有研究者在Word2Vec的基礎(chǔ)上提出了文本向量化Doc2Vec模型。Doc2Vec模型與Word2Vec模型類似,只是在Word2Vec模型輸入層增添了一個與詞向量同維度的段落向量,可以將這個段落向量看作另一個詞向量。Doc2Vec模型存在兩種,它們分別是分布式記憶(DistributedMemory,DM)模型和分布式詞袋(DistributedBagofWords,DBOW)模型,分別對應(yīng)Word2Vec模型里的CBOW和Skip-Gram模型。2.文本分布式表示常見文本向量化方法(2)Doc2Vec模型①DM模型。DM模型與CBOW模型類似,在給定上下文的前提下,試圖預(yù)測目標(biāo)詞出現(xiàn)的概率,只不過DM模型的輸入不僅包括上下文,而且包括相應(yīng)的段落。假設(shè)詞匯表中詞匯量的大小為,每個詞都用獨(dú)熱向量表示,神經(jīng)網(wǎng)絡(luò)相鄰層的神經(jīng)元是全連接的,DM模型的網(wǎng)絡(luò)結(jié)構(gòu)如右圖所示。2.文本分布式表示常見文本向量化方法(2)Doc2Vec模型②DBOW模型。DBOW模型與Skip-Gram模型只給定一個詞語預(yù)測上下文概率分布類似。DBOW模型的輸入只有段落向量,通過一個段落向量預(yù)測段落中隨機(jī)詞的概率分布。DBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖。文本向量化實(shí)現(xiàn)1.Word2Vec模型Word2Vec模型可通過調(diào)用gensim庫的Word2Vec函數(shù)訓(xùn)練詞向量,語法格式如下。Word2Vec(sentences,min_count=1,vector_size=100,window=5,workers=4)Word2Vec函數(shù)的常用參數(shù)如表。參數(shù)名稱說明sentences接收str。表示輸入的語料庫,可以是一個列表或迭代器。無默認(rèn)值min_count接收int。表示忽略總頻率小于這個值的單詞。默認(rèn)為5vector_size接收int。表示生成的詞向量的維度。默認(rèn)為100window接收int。表示考慮前后多少個單詞作為上下文。默認(rèn)為5workers接收int。表示訓(xùn)練模型時(shí)使用的工作線程數(shù)。默認(rèn)為1文本向量化實(shí)現(xiàn)2.Doc2Vec模型Doc2Vec模型可通過調(diào)用gensim庫的Doc2Vec函數(shù)訓(xùn)練詞向量,語法格式如下。Doc2Vec(documents,min_count=2,vector_size=50,epochs=40,workers=4)Doc2Vec函數(shù)的常用參數(shù)如表。參數(shù)名稱說明documents接收str。表示輸入的文檔列表。無默認(rèn)值min_count接收int。表示忽略總頻率小于這個值的單詞。默認(rèn)為5vector_size接收int。表示生成的詞向量的維度。默認(rèn)為100epochs接收int。表示訓(xùn)練模型時(shí)的迭代次數(shù)。默認(rèn)為10workers接收int。表示訓(xùn)練模型時(shí)使用的工作線程數(shù)。默認(rèn)為1常用文本相似度算法1.歐氏距離假設(shè)有兩個數(shù)值向量和,表示兩個實(shí)例在歐式空間中的位置。則歐氏距離的定義如式所示。若需要計(jì)算2個文本向量間的相似度,則d表示歐氏距離,A和B表示2個文本向量,、分別表示需要計(jì)算相似度的2個文本向量中對應(yīng)位置的元素。歐氏距離的相似度算法主要適用場景為編碼檢測,且只有兩串編碼完全一致時(shí),才能通過檢測,如果編碼中有一個移位或一個錯字,可能會造成較大的差異。常用文本相似度算法2.曼哈頓距離曼哈頓距離的計(jì)算公式與歐式距離的計(jì)算公式非常相似,相較于歐氏距離,曼哈頓距離的計(jì)算公式將平方換成了求絕對值,并去除了根號,其定義公式如式所示。曼哈頓距離的適用場景與歐氏距離的適用場景類似。常用文本相似度算法3.編輯距離編輯距離又稱萊文斯坦(Levenshtein)距離,指的是將文本編輯成文本需要的最少變動次數(shù),且每次只能增加、刪除或修改一個字。編輯距離是對稱的,即將A轉(zhuǎn)化成B的最小變動次數(shù)和將B轉(zhuǎn)化成A的最小變動次數(shù)是相等的。編輯距離適用于拼寫檢查、判斷DNA相似度等場景中。常用文本相似度算法4.杰卡德相似度杰卡德相似度指的是文本與文本中交集的字?jǐn)?shù)除以并集的字?jǐn)?shù),如式所示。杰卡德距離的距離定義如式所示。杰卡德相似度與文本的位置、順序均無關(guān)。只是在某些情況下,會先將文本分詞,再以分詞結(jié)果為單位計(jì)算相似度。杰卡德相似度主要適用于對字或詞的順序不敏感的文本,不適用于重復(fù)字符較多的文本和對文字順序很敏感的場景。常用文本相似度算法5.余弦相似度余弦距離來源于向量之間夾角的余弦值,即假設(shè)空間中有兩個向量,向量A和向量B,分別為和。。則A和B的夾角余弦值定義如式所示。余弦相似度和杰卡德相似度雖然計(jì)算方式差異較大,但性質(zhì)很類似,都與文本的并集高度相關(guān),所以它們的適用場景也類似。余弦相似度與杰卡德相似度的不同在于余弦相似度考慮到了文本的頻次。常用文本相似度算法6.哈羅距離哈羅距離是指對兩個字符串的相似度進(jìn)行衡量,以得出兩個字符串的相似程度。哈羅距離的定義如式所示。其中,m是兩個字符串中相互匹配的字符數(shù)量;和表示兩個字符串的長度(字符數(shù)量);t是換位數(shù)量。哈羅距離適用于對位置、順序敏感的場景。文本相似度算法實(shí)現(xiàn)文本相似度的計(jì)算可以通過scikit-learn庫實(shí)現(xiàn)。本小節(jié)將介紹基于余弦相似度和歐氏距離兩種算法實(shí)現(xiàn)的具體操作過程。余弦相似度可通過調(diào)用scikit-learn庫的cosine_similarity函數(shù)進(jìn)行計(jì)算,語法格式如下。cosine_similarity(X,Y=None,dense_output=True)

cosine_similarity函數(shù)的常用參數(shù)如表。參數(shù)名稱說明X接收str。表示輸入文本。無默認(rèn)值Y接收str。表示輸入文本。無默認(rèn)值dense_output接收bool。表示是否返回密集矩陣。默認(rèn)為True文本相似度算法實(shí)現(xiàn)歐氏距離可通過調(diào)用scikit-learn庫的euclidean_distances函數(shù)進(jìn)行計(jì)算,語法格式如下。euclidean_distances(X,Y=None,Y_norm_squared=None,squared=False)euclidean_distances函數(shù)的常用參數(shù)如表。參數(shù)名稱說明X接收str。表示輸入文本。無默認(rèn)值Y接收str。表示輸入文本。無默認(rèn)值Y_norm_squared接收int。表示輸入數(shù)據(jù)的平方和。無默認(rèn)值squared接收bool。表示是否返回歐氏距離的平方。默認(rèn)為False文本向量化與相似度文本分析簡介文本分析常用算法結(jié)構(gòu)化分析結(jié)構(gòu)化分析是對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深入理解和分析的過程,常見類型包括數(shù)據(jù)分類、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則挖掘和預(yù)測建模等。文本向量的結(jié)構(gòu)化分析是一種將無序和非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)換為結(jié)構(gòu)化表示形式的技術(shù)和方法。通過將文本數(shù)據(jù)轉(zhuǎn)換為向量表示,可以將傳統(tǒng)的文本處理任務(wù),例如分類、聚類和匹配等轉(zhuǎn)換為基于向量空間的數(shù)學(xué)運(yùn)算,從而更容易地進(jìn)行計(jì)算和分析。常見的文本結(jié)構(gòu)化分析類型有分詞、詞性標(biāo)注、命名實(shí)體識別、句法分析和語篇分析。結(jié)構(gòu)化分析1.分詞分詞是將連續(xù)的文本序列劃分成有意義的詞語單元的任務(wù),主要用于處理中文文本。分詞主要包括以下4個內(nèi)容。單詞劃分:將連續(xù)的文本劃分為單個的詞語單元。停用詞去除:排除常見的無意義詞語,如介詞、連詞等,提高分詞結(jié)果的準(zhǔn)確性和質(zhì)量。詞語歸一化:對于同義詞、詞態(tài)和詞形的變化,進(jìn)行統(tǒng)一化處理,提高文本的一致性。分詞結(jié)果標(biāo)注:將每個詞語單元標(biāo)注上其在原文本中的位置。分詞的作用是為后續(xù)的文本處理任務(wù)提供基本的文本單元,如詞頻統(tǒng)計(jì)、關(guān)鍵詞提取和情感分析等。結(jié)構(gòu)化分析2.詞性標(biāo)注詞性標(biāo)注是自然語言處理中的一項(xiàng)基礎(chǔ)任務(wù),為每個分詞后的詞語單元標(biāo)注其詞性類別。詞性標(biāo)注對詞語進(jìn)行語法和語義上的分類,為后續(xù)的句法分析和語義分析提供重要基礎(chǔ)。詞性定義:確定不同的詞性類別和其含義,包括名詞、動詞、形容詞等基本詞性分類。詞性歸類:將分詞后的詞語單元準(zhǔn)確分配到不同的詞性類別中,如對動詞進(jìn)行動詞詞性標(biāo)注。標(biāo)注模型建立:構(gòu)建機(jī)器學(xué)習(xí)模型或基于規(guī)則的方法,對分詞后的詞語單元進(jìn)行自動標(biāo)注。結(jié)構(gòu)化分析3.命名實(shí)體識別命名實(shí)體識別(NamedEntityRecognition,NER)是NLP序列標(biāo)注任務(wù)的一種,指從輸入文本中識別出有特定意義或指代性強(qiáng)的實(shí)體,是機(jī)器翻譯、知識圖譜、關(guān)系抽取、問答系統(tǒng)等的基礎(chǔ)。學(xué)術(shù)上NER的命名實(shí)體分3大類和7小類,3大類指實(shí)體類、時(shí)間類、數(shù)字類,7小類指人名、地名、組織機(jī)構(gòu)名、時(shí)間、日期、貨幣、百分比。語言具有語法,語料遵循一定的語法結(jié)構(gòu),所以條件隨機(jī)場、隱馬爾可夫模型和最大熵馬爾可夫模型等概率圖模型被用來分析標(biāo)簽轉(zhuǎn)移概率,包括深度學(xué)習(xí)模型一般會加上條件隨機(jī)場層來負(fù)責(zé)句子級別的標(biāo)簽預(yù)測。結(jié)構(gòu)化分析4.句法分析句法分析也是自然語言處理中的基礎(chǔ)性工作,它分析句子的句法結(jié)構(gòu)(主謂賓結(jié)構(gòu))和詞匯間的依存關(guān)系(并列,從屬等)。通過句法分析,可以為語義分析,情感傾向,觀點(diǎn)抽取等NLP應(yīng)用場景打下堅(jiān)實(shí)的基礎(chǔ)。句法結(jié)構(gòu)分析,識別句子中的主、謂、賓、定、狀、補(bǔ),并分析各成分之間的關(guān)系。通過句法結(jié)構(gòu)分析,能夠分析出語句的主干,以及各成分間關(guān)系。對于復(fù)雜語句,僅僅通過詞性分析,不能得到正確的語句成分關(guān)系。結(jié)構(gòu)化分析5.語篇分析語篇分析是對文本的整體結(jié)構(gòu)和關(guān)系進(jìn)行分析的任務(wù),主要關(guān)注句子之間的邏輯關(guān)系和上下文的語義。主要包括以下3個內(nèi)容。句子邊界檢測:確定文本中的句子起始和結(jié)束的位置。句子關(guān)聯(lián)關(guān)系分析:分析句子之間的因果關(guān)系、邏輯關(guān)系、轉(zhuǎn)折關(guān)系等。上下文語義理解:通過推斷和關(guān)聯(lián),理解句子中的指代關(guān)系、補(bǔ)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論