版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
.語(yǔ)料庫(kù)(corpus,復(fù)數(shù)為corpora)一詞來(lái)源于拉丁語(yǔ),本意為body。一般情況下,語(yǔ)料庫(kù)往往指的是一個(gè)“電子文本集”(a
collection
of
texts
stored
in
an
electronic
database)。真正意義上,語(yǔ)料庫(kù)是一個(gè)按照一定的采樣標(biāo)準(zhǔn)采集而來(lái)的、能夠代表一種語(yǔ)言或者某語(yǔ)言的一種變體或文類的電子文本集。以一個(gè)語(yǔ)料庫(kù)為數(shù)據(jù)源(data
source)進(jìn)行的研究可以看作是對(duì)該語(yǔ)料庫(kù)所代表語(yǔ)肓、語(yǔ)言變體或文類的研究,研究所得到的結(jié)論可以推廣到整個(gè)語(yǔ)言、語(yǔ)言變體或文類。.2語(yǔ)料庫(kù)(corpus)是語(yǔ)言材料的倉(cāng)庫(kù),是計(jì)算機(jī)進(jìn)行語(yǔ)言檢索、比較、分析等處理的重要基礎(chǔ)。(張普1999)語(yǔ)言學(xué)名詞審定委員會(huì)2011年推出的《語(yǔ)言學(xué)名詞》中,對(duì)語(yǔ)料庫(kù)的定義、作用及應(yīng)用領(lǐng)域的闡述為:
(語(yǔ)料庫(kù)是)為語(yǔ)言研究和應(yīng)用而收集的,在計(jì)算機(jī)中存儲(chǔ)的語(yǔ)言材料,由自然出現(xiàn)的書(shū)面語(yǔ)或口語(yǔ)的樣本匯集而成,用來(lái)代表特定的語(yǔ)言或語(yǔ)言變體。經(jīng)過(guò)科學(xué)選材和標(biāo)注,具有適當(dāng)規(guī)模的語(yǔ)科庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用恃況。通過(guò)語(yǔ)科庫(kù)能夠觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)的規(guī)律。語(yǔ)料庫(kù)可以應(yīng)用于語(yǔ)言學(xué)理論研究、語(yǔ)言應(yīng)用和語(yǔ)言工程。由此可見(jiàn),語(yǔ)料庫(kù)并不是語(yǔ)言材料的簡(jiǎn)單堆砌或隨意集合。而是有著嚴(yán)格要求的有序的語(yǔ)料集合。.3對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)(corpus
linguistics)的兩種看法:語(yǔ)料庫(kù)語(yǔ)言學(xué)是一個(gè)獨(dú)立的學(xué)科,它有自己獨(dú)到的理論體系和操作方法。語(yǔ)科庫(kù)語(yǔ)言學(xué)并非語(yǔ)言學(xué)的又一個(gè)分支學(xué)科,而是一種研究方法,這種方法基于大量的真實(shí)語(yǔ)言,可以用來(lái)回答通過(guò)其他途徑很難回答的問(wèn)題,從而極大地豐富已有的研究方法。語(yǔ)料庫(kù)語(yǔ)言學(xué)以大量精心采集而來(lái)的真實(shí)文本(authentictexts)為研究素材,主要通過(guò)概率統(tǒng)計(jì)的方法得出結(jié)論,因此語(yǔ)料庫(kù)語(yǔ)言學(xué)從本質(zhì)上講是實(shí)證性的(empirical)。.4統(tǒng)計(jì)語(yǔ)言學(xué)使用概率論、數(shù)理統(tǒng)計(jì)等統(tǒng)計(jì)學(xué)的方法來(lái)對(duì)語(yǔ)言進(jìn)行研究。(馮志偉2012).5計(jì)量語(yǔ)言學(xué)計(jì)量語(yǔ)言學(xué)(quantitative
linguistics)以真實(shí)的語(yǔ)言交際活動(dòng)中呈現(xiàn)的各種語(yǔ)言現(xiàn)象、語(yǔ)言結(jié)構(gòu)、結(jié)構(gòu)屬性以及它們之間的相互關(guān)系作為研究對(duì)象,通過(guò)概率論、隨機(jī)過(guò)程、微分與微分方程、函數(shù)論等數(shù)學(xué)的定量方法(與代數(shù)等數(shù)學(xué)的定性方法相對(duì))對(duì)其進(jìn)行精確的測(cè)量、觀察、模擬、建模和解釋,尋找語(yǔ)言現(xiàn)象背后的數(shù)理規(guī)律,揭示各種語(yǔ)言現(xiàn)象形成的內(nèi)在原因,探索語(yǔ)言系統(tǒng)的自適應(yīng)機(jī)制和語(yǔ)言演化的動(dòng)因。(劉海濤2012).6計(jì)算語(yǔ)言學(xué)“計(jì)算語(yǔ)言學(xué)是研究用機(jī)器來(lái)處理自然語(yǔ)言的學(xué)科。它是由信息技術(shù)和語(yǔ)言學(xué)交叉而成的”(CuS:1)。SLP沒(méi)有直接提出計(jì)算語(yǔ)言學(xué)的確切定義。SLP的作者在開(kāi)篇借用了Stanley
Kubrick科幻片中的人物HAL,HAL是一個(gè)通曉英語(yǔ)的機(jī)器人。作者引入HAL的目的在于說(shuō)明,為了構(gòu)建這樣一個(gè)可與人通過(guò)自然語(yǔ)言進(jìn)行交流的機(jī)器人,需要哪些知識(shí)和技術(shù):語(yǔ)言理解方面有語(yǔ)音識(shí)別和自然語(yǔ)言理解(包括唇讀技術(shù)),表達(dá)方面需要自然語(yǔ)言生成和語(yǔ)音合成,另外HAL也需要信息檢索、信息提取和推理方面的技能。而解決這些問(wèn)題一般涉及以下學(xué)科:自然語(yǔ)言處理,計(jì)算語(yǔ)言學(xué),語(yǔ)音識(shí)別和合成。SLP的作者將這三者合起來(lái)稱為語(yǔ)音及語(yǔ)言處理,除了以上HAL所用的這些技能外,SLP也囊括了其他重要的語(yǔ)言處理領(lǐng)域,如:拼寫(xiě)校正、語(yǔ)法檢查和機(jī)器翻譯。.7聯(lián)系:都是涉及語(yǔ)言學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)以及計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科和領(lǐng)域,是典型的文理工交叉學(xué)科,具有鮮明的跨學(xué)科研究性質(zhì)。研究對(duì)象都是自然語(yǔ)言組成的大規(guī)模語(yǔ)料庫(kù)。研究工具都是利用計(jì)算機(jī)的軟硬件。研究的理論基礎(chǔ)是數(shù)學(xué)的概率統(tǒng)計(jì)知識(shí)和語(yǔ)言學(xué)的語(yǔ)音、詞匯、句法、語(yǔ)義、語(yǔ)篇和語(yǔ)用知識(shí)。都可以對(duì)語(yǔ)言學(xué)的語(yǔ)音、詞匯、句法和語(yǔ)義等層面進(jìn)行統(tǒng)計(jì)和研究。.8聯(lián)系:統(tǒng)計(jì)語(yǔ)言學(xué)和計(jì)量語(yǔ)言學(xué)都是利用統(tǒng)計(jì)方法來(lái)實(shí)現(xiàn)對(duì)語(yǔ)言成分的統(tǒng)計(jì),計(jì)量語(yǔ)言學(xué)以發(fā)現(xiàn)語(yǔ)言成分或語(yǔ)言成分間的數(shù)學(xué)規(guī)律為目標(biāo)。而統(tǒng)計(jì)語(yǔ)言學(xué)以所統(tǒng)計(jì)的語(yǔ)言特征在統(tǒng)計(jì)學(xué)上顯著和不顯著為目標(biāo)。語(yǔ)料庫(kù)語(yǔ)言學(xué)對(duì)大規(guī)模語(yǔ)料庫(kù)進(jìn)行詞匯、句法和語(yǔ)義等統(tǒng)計(jì),依據(jù)統(tǒng)計(jì)數(shù)據(jù)和實(shí)例上下文對(duì)所研究的對(duì)象進(jìn)行語(yǔ)言學(xué)層面
定性的分析,是定量分析和定性分析的結(jié)合,以研究語(yǔ)言的
結(jié)構(gòu)和運(yùn)用為目標(biāo)。計(jì)算語(yǔ)言學(xué)以語(yǔ)言結(jié)構(gòu)的理解與生成為研究目標(biāo),以統(tǒng)計(jì)和
規(guī)則為基本研究方法。計(jì)算語(yǔ)言學(xué)的統(tǒng)計(jì)模型——隱馬爾科
夫模型、最大熵模型、條件隨機(jī)場(chǎng)模型等和實(shí)現(xiàn)算法更復(fù)雜。.9對(duì)“詞”的定義,語(yǔ)言學(xué)界一直很難達(dá)成共識(shí)。我們暫且撇開(kāi)語(yǔ)義問(wèn)題,考慮一下當(dāng)一個(gè)句子里出現(xiàn)兩個(gè)it,它們應(yīng)該被視作一個(gè)詞還是兩個(gè)詞呢?形符(token)類似于我們?nèi)粘Uf(shuō)的“詞”(如一篇300詞的作文)。句子A
computer
almost
necessarily
has
a
Keyboard
and
a
monitor中共有10個(gè)形符(即A,computer,almost,necessarily,has,a,Keyboard,and,a,monitor)。這看起來(lái)似乎沒(méi)有什么歧義,但是我們?nèi)匀恍枰紤]it’s是一個(gè)形符還是兩個(gè)形符。語(yǔ)料庫(kù)語(yǔ)言學(xué)中一般的處理方法是,對(duì)it’s,can’t等縮略詞進(jìn)行切分,使其成為it和’s兩個(gè)成分(can’t切分為ca和n’t兩個(gè)成分),這一過(guò)程被稱作為分詞(tokenization)。換言之,語(yǔ)料庫(kù)語(yǔ)言學(xué)中一般將it’s視作為兩個(gè)形符??傂畏麛?shù)是語(yǔ)料庫(kù)容量的最常用的測(cè)量單位。如英國(guó)英國(guó)國(guó)家語(yǔ)料庫(kù)約有1億詞,說(shuō)的就是該語(yǔ)料庫(kù)中包含有約1億個(gè)形符。.10形符:在處理英語(yǔ)時(shí),較為通用的做法是,把所有的單詞視為“形符”。這里說(shuō)的形符,大概有這樣幾種類型:1、全部由英語(yǔ)字母構(gòu)成(如computer由8個(gè)英文字母構(gòu)成)2、由數(shù)字或數(shù)字和字母構(gòu)成(如3、1985、21th、3D等)3、除了數(shù)字和/或字母之外,還帶有連字符(-)4、帶有英語(yǔ)26個(gè)字母之外的外來(lái)字母(如德語(yǔ)中的音變)5、部分符號(hào)(如&、$等)。統(tǒng)計(jì)形符時(shí),我們通常不把標(biāo)點(diǎn)符號(hào)
(如逗號(hào)、句號(hào)等)包括在內(nèi),但這一點(diǎn)有例外,如數(shù)字3.1415925和整數(shù)的千分位分隔符(如100,000)中的逗號(hào)等。為了便于統(tǒng)計(jì),對(duì)英語(yǔ)進(jìn)行分詞時(shí)通常在以上我們所說(shuō)的“形符”后加空格,使得他們與文本中的其他形符或符號(hào)分離開(kāi)來(lái)。.11類符(type)作為一個(gè)統(tǒng)計(jì)量,指語(yǔ)料庫(kù)文本中任何一個(gè)獨(dú)特的詞形(wordform)。換言之,在一個(gè)文本中,重復(fù)出現(xiàn)的形符只能記作一個(gè)類符。以美國(guó)作家Gertrude
Stein的作品Sacred
Emily中的詩(shī)句Rose
is
a
rose
is
arose
is
a
rose.為例,這句中:共有10個(gè)形符,而類符只有3個(gè)(即rose,is,a)。據(jù)此,我們可以計(jì)算這個(gè)句子的類符/形符比(type-token
ratio,TTR,又稱為形次比或類形比),即TTR
=
(3/10)*100%
=
30%類符/形符比是衡量文本中詞匯密度(lexical
density)的常用方法。然而由于文本中有大量的功能詞(如the、a、of等)反復(fù)出現(xiàn),文本越大,形符量越大,但類符量卻不會(huì)等量增加。文本越長(zhǎng),功能詞重復(fù)的次數(shù)
也就越多,類符/形符比也就會(huì)越低。因此,如果采用類符/形符比來(lái)計(jì)算長(zhǎng)度不等的文本的詞匯密度就顯得很不合理。常用的補(bǔ)救方法是用標(biāo)準(zhǔn)化類符/形符比(standardizedtype-token
ratio)來(lái)計(jì)算詞匯密度。計(jì)算方法是:計(jì)算每個(gè)文本每1000詞的類符/形符比。.12所謂分詞(tokenization),指將一連串的字符轉(zhuǎn)換成相互分離、容易識(shí)別的形符(tokens)的過(guò)程。在文本采集的過(guò)程中,由于文本來(lái)源不一,格式各異,文本內(nèi)部存在很大的不一致性,如果不進(jìn)行分詞處理,一來(lái)容易導(dǎo)致檢索困難,二來(lái)可能會(huì)使得語(yǔ)料庫(kù)的頻率統(tǒng)計(jì)出現(xiàn)誤差,還可能會(huì)影響語(yǔ)料庫(kù)的標(biāo)注和后期加工。.13漢語(yǔ)的分詞比英語(yǔ)要復(fù)雜的多。詞與詞之間連寫(xiě),沒(méi)有空格。對(duì)漢語(yǔ)“詞”的理解眾說(shuō)紛紜。.14軟件filelist.ini,修改分詞文件目錄路徑批處理.15軟件.16.17.18.19.20索引,又稱為“語(yǔ)境中的關(guān)鍵詞”.21.22.23.24.25.26.27.28.29.30.31ConcordanceConcordance
PlotFile
ViewWord
ClusterN-GramsCollocatesWord
ListKeyword
List.32索引,又稱為語(yǔ)境中的關(guān)鍵詞.33索引定位.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 財(cái)務(wù)人員培訓(xùn)工作計(jì)劃方案
- 醫(yī)院住院患者病歷管理制度
- 2026年駕校消防安全管理制度和滅火疏散應(yīng)急預(yù)案與2026年駕駛員辦證培訓(xùn)方案
- (完整)食堂從業(yè)人員培訓(xùn)考試試題及答案
- 硬件題庫(kù)及答案
- 體育競(jìng)賽題庫(kù)及答案
- 財(cái)會(huì)二試題及答案
- 專業(yè)電工考試試題及答案
- 九年級(jí)英語(yǔ)下冊(cè) Unit 13 Were trying to save the earth!Section A 閱讀課 (3a3b) 教學(xué)設(shè)計(jì)
- 情境·思辨·表達(dá):小學(xué)語(yǔ)文三年級(jí)上冊(cè)《秋天的雨》單元整合教學(xué)設(shè)計(jì)
- 抹灰層陰陽(yáng)角方正度控制技術(shù)
- 【SA8000標(biāo)準(zhǔn)(社會(huì)責(zé)任標(biāo)準(zhǔn))對(duì)我國(guó)勞動(dòng)密集型產(chǎn)業(yè)的影響及應(yīng)對(duì)措施研究12000字(論文)】
- 醫(yī)療行業(yè)知識(shí)產(chǎn)權(quán)教育的必要性
- 2024-2025學(xué)年滬教版(五四學(xué)制)(2024)初中英語(yǔ)六年級(jí)下冊(cè)(全冊(cè))知識(shí)點(diǎn)歸納
- 五年級(jí)數(shù)學(xué)下冊(cè)寒假作業(yè)每日一練
- 傳染病院感防控課件
- 羅馬機(jī)場(chǎng)地圖
- 實(shí)習(xí)生醫(yī)德醫(yī)風(fēng)培訓(xùn)
- 橫穿公路管道施工方案
- 快樂(lè)讀書(shū)吧:非洲民間故事(專項(xiàng)訓(xùn)練)-2023-2024學(xué)年五年級(jí)語(yǔ)文上冊(cè)(統(tǒng)編版)
- GB/T 19609-2024卷煙用常規(guī)分析用吸煙機(jī)測(cè)定總粒相物和焦油
評(píng)論
0/150
提交評(píng)論