自然語言及語音處理項(xiàng)目式教程 課件2.2.1-1語料庫(kù)_第1頁
自然語言及語音處理項(xiàng)目式教程 課件2.2.1-1語料庫(kù)_第2頁
自然語言及語音處理項(xiàng)目式教程 課件2.2.1-1語料庫(kù)_第3頁
自然語言及語音處理項(xiàng)目式教程 課件2.2.1-1語料庫(kù)_第4頁
自然語言及語音處理項(xiàng)目式教程 課件2.2.1-1語料庫(kù)_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

了解語料庫(kù)

初識(shí)文本基礎(chǔ)處理語料庫(kù)是自然語言處理領(lǐng)域中一個(gè)重要的基礎(chǔ)工具,是進(jìn)行語言學(xué)研究和自然語言處理任務(wù)的基礎(chǔ)。構(gòu)建和應(yīng)用語料庫(kù)可以深入挖掘文本數(shù)據(jù)中的信息,幫助人們更好地理解和應(yīng)用自然語言。通過構(gòu)建價(jià)值觀語料庫(kù),收集與社會(huì)主義核心價(jià)值觀相關(guān)的文本數(shù)據(jù),如富強(qiáng)、民主、誠(chéng)信、友善等,為深入研究和分析社會(huì)主義核心價(jià)值觀提供重要數(shù)據(jù)支持。知識(shí)引入語料庫(kù)概述語料庫(kù)的構(gòu)建與應(yīng)用語料庫(kù)概述定義:為某一個(gè)或多個(gè)應(yīng)用而專門收集的、有一定結(jié)構(gòu)的、有代表性的、可以被計(jì)算機(jī)程序檢索的、具有一定規(guī)模的語料集合。實(shí)質(zhì):經(jīng)過科學(xué)取樣和加工的大規(guī)模電子文本庫(kù)。語料庫(kù)概述語料庫(kù)特征:存放的是真實(shí)出現(xiàn)過的語言材料;是以計(jì)算機(jī)為載體,承載語言知識(shí)的基礎(chǔ)資源;是對(duì)真實(shí)語料進(jìn)行加工、分析和處理的資源。語料庫(kù)概述語料庫(kù)的分類:平衡結(jié)構(gòu)語料庫(kù)與自然隨機(jī)結(jié)構(gòu)語料庫(kù)平衡結(jié)構(gòu)語料庫(kù)著重點(diǎn):代表性、平衡性。預(yù)先設(shè)計(jì)語料庫(kù)中語料的類型。定義好每種類型語料所占的比例。按定義好的比例去采集組成語料庫(kù)。歷史上第一個(gè)機(jī)讀語料庫(kù)布朗語料庫(kù)。平衡結(jié)構(gòu)語料庫(kù)與自然隨機(jī)結(jié)構(gòu)語料庫(kù)自然隨機(jī)結(jié)構(gòu)語料庫(kù)按照某個(gè)原則隨機(jī)去收集組成語料,主要有:《圣經(jīng)》語料庫(kù);狄更斯著作語料庫(kù);英國(guó)著名作家語料庫(kù);北京大學(xué)開發(fā)的《人民日?qǐng)?bào)》語料庫(kù)。通用語料庫(kù)與專用語料庫(kù)通用語料庫(kù):不做特殊限定。專用語料庫(kù):限于某一領(lǐng)域,為了某種專門的目的而采集,主要有:新聞?wù)Z料;科技語料庫(kù);中小學(xué)語料庫(kù);北京口語語料庫(kù)。共時(shí)語料庫(kù)與歷時(shí)語料庫(kù)共時(shí)語料庫(kù)為了對(duì)語言進(jìn)行共時(shí)研究而建立的語料庫(kù)。無論所采集語料的時(shí)間段有多長(zhǎng),只要研究的是一個(gè)時(shí)間平面上的元素或元素的關(guān)系,則是共時(shí)研究。中文地區(qū)漢語共時(shí)語料庫(kù):采用共時(shí)性視窗模式,剖析來自中文地區(qū)有代表性的定量中文媒體語料。共時(shí)語料庫(kù)與歷時(shí)語料庫(kù)歷時(shí)語料庫(kù)為了對(duì)語言進(jìn)行歷時(shí)研究而建立的語料庫(kù)。研究一個(gè)歷時(shí)切面中元素與元素關(guān)系的演化。原國(guó)家語委建設(shè)的國(guó)家現(xiàn)代漢語語料庫(kù):收錄的是1919年-至今的現(xiàn)代漢語的代表性語料。語料庫(kù)概述語料庫(kù)的構(gòu)建與應(yīng)用各種語料庫(kù)的研究正朝著不斷擴(kuò)大庫(kù)容量、深化加工和不斷拓展新的領(lǐng)域等方向繼續(xù)發(fā)展。了解語料庫(kù)的構(gòu)建原則、應(yīng)用,及語料分析常用庫(kù)NLTK,是構(gòu)建與應(yīng)用語料庫(kù)的前提。語料庫(kù)的構(gòu)建與應(yīng)用語料庫(kù)的構(gòu)建原則構(gòu)建高質(zhì)量的語料庫(kù)需要考慮多方面因素、原則和方法??紤]因素語料庫(kù)的來源、規(guī)模、質(zhì)量和代表性等。語言學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域的知識(shí)和技術(shù)。遵循的原則和方法語料庫(kù)的構(gòu)建原則用戶在建設(shè)或研究語料庫(kù)的時(shí)候,一般需要保證語料庫(kù)具有5個(gè)特性。版權(quán)應(yīng)該得到保護(hù)保持一定高質(zhì)量有足夠的規(guī)模盡可能覆蓋不同的領(lǐng)域和語言代表性語料庫(kù)的應(yīng)用語料庫(kù)可用于訓(xùn)練和評(píng)估各種自然語言處理模型。語料庫(kù)還可以被用于文本分析和挖掘。文本分類A情感分析B機(jī)器翻譯CNLTK庫(kù)NLTK庫(kù)(NaturalLanguageToolkit):Python;開源;自然語言處理庫(kù);用于文本處理、語料庫(kù)管理、詞性標(biāo)注、命名實(shí)體識(shí)別、情感分析、機(jī)器翻譯等自然語言處理任務(wù)。NLTK庫(kù)常用于語料庫(kù)分析的函數(shù):函數(shù)名稱功能描述nltk.FreqDist統(tǒng)計(jì)文本中單詞的出現(xiàn)頻率nltk.collocations.BigramAssocMeasures計(jì)算文本中的雙詞搭配nltk.collocations.TrigramAssocMeasures計(jì)算文本中的三詞搭配nltk.Text創(chuàng)建一個(gè)文本對(duì)象,便于進(jìn)行文本分析text.concordance查找某個(gè)單詞在文本中的出現(xiàn)情況,并返回上下文text.similar查找與某個(gè)單詞出現(xiàn)上下文相似的單詞mon_contexts查找兩個(gè)單詞出現(xiàn)上下文的共同點(diǎn)text.dispersion_plot繪制文本中某些單詞的分布情況text.plot繪制文本中單詞的頻率分布圖text.generate隨機(jī)生成一個(gè)以指定單詞開頭的文本NLTK庫(kù)NLTK模塊及功能:模塊功能描述nltk.corpus獲取語料庫(kù)語料庫(kù)和詞典的標(biāo)準(zhǔn)化切口nltk.tokenize、nltk.stem字符串處理分詞、分句和提取主干nltk.tag詞性標(biāo)注HMM、n-gram、backoffnltk.classify、nltk.cluster分類、聚類樸素貝葉斯、決策樹、K-Meansnltk.chunk分塊正則表達(dá)式、命名實(shí)體、n-gramnltk.metrics指標(biāo)評(píng)測(cè)準(zhǔn)確率、召回率和協(xié)議系數(shù)bability概率與評(píng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論