下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
語料庫(kù)語言學(xué)維基百科語料庫(kù)語言學(xué)(英語:corpuslinguistics)是基于語言運(yùn)用的實(shí)例(即語料庫(kù))的語言討論。語料庫(kù)語言學(xué)可以對(duì)自然語言進(jìn)行語法與句法分析,還可以討論它與其他語言的關(guān)系。語料庫(kù)最初由手工完成,而現(xiàn)在主要是由計(jì)算機(jī)自動(dòng)完成。語料庫(kù)語言學(xué)家信任,牢靠的語言分析需建立在新奇的語料、自然的語言環(huán)境,和最小的試驗(yàn)干擾之上。在語料庫(kù)語言學(xué)中,語料標(biāo)注的意義眾說紛紜,從約翰?辛克萊⑴主見最少量的標(biāo)注,并允許文本“為自己說話",至『英語用法調(diào)杳組”(設(shè)在倫敦高校學(xué)院)[2]鼓舞更多的標(biāo)注,并認(rèn)為它是通向更完備和嚴(yán)謹(jǐn)?shù)恼Z言理解的道路。名目1歷史2方法3參考文獻(xiàn)o3.1引用o3.2期刊o3.3書籍4外部鏈接5參見歷史[編輯]現(xiàn)代語料庫(kù)語言學(xué)的一個(gè)里程碑是亨利?庫(kù)切拉和W.納爾遜弗朗西斯在1967年出版的《當(dāng)代美語的計(jì)算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一書。該項(xiàng)工作基于對(duì)布朗語料庫(kù)的分析,布朗語料庫(kù)是一個(gè)細(xì)心編制的美國(guó)英語語料庫(kù),規(guī)模約有一百萬詞次。庫(kù)切拉和弗朗西斯將這些語料用于各種計(jì)算分析,獲得了豐富和多樣化的成果,該成果結(jié)合了語言學(xué)、語言教、心理學(xué)、統(tǒng)計(jì)學(xué)、和社會(huì)學(xué)元素。另一關(guān)鍵出版物是1960年倫道夫?夸克的《當(dāng)代英語語法》(TowardsadescriptionofEnglishUsage)口】,在這本書中他介紹了"英語用法調(diào)杳”項(xiàng)目(TheSurveyofEnglishUsage)°此后不久,波士頓出版商霍頓米夫林邀請(qǐng)庫(kù)切拉為其新的美國(guó)傳統(tǒng)英語字典供應(yīng)百萬詞次,三線引文的來進(jìn)行詞典編纂。《美國(guó)傳統(tǒng)英語字典》創(chuàng)新地將規(guī)定性元素(應(yīng)如何使用語言)和描述性元素(語言實(shí)際上是如何被使用)結(jié)合在了一起。其他出版社紛紛效仿。英國(guó)出版商柯林斯COBUILD單語學(xué)習(xí)詞典,就是為非英語母語者學(xué)習(xí)英語而出版的,它使用了“英語銀行"(BankofEnglish)語料庫(kù)?!坝⒄Z用法調(diào)查”語料庫(kù)被用于由夸克等人編著的《綜合英語語法》(AComprehensiveGrammaroftheEnglishLanguage)中。布朗語料庫(kù)也催生了類似的語料庫(kù):LOB語料庫(kù)(Lancaster-Oslo-BergenCorpus,20世紀(jì)60年月英國(guó)英語),科爾哈帕(Kolhapur,印度英語),惠靈頓(Wellington,新西蘭英語),澳大利亞英語語料庫(kù)(AustralianCorpusofEnglish,澳大利亞英語),皺眉語料庫(kù)(FrownCorpus,20世紀(jì)90年月初,美國(guó)英語),以及FLOB語料庫(kù)(FLOBCorpus,20世紀(jì)90年月,英國(guó)英語)。其他語料庫(kù)包括國(guó)際英語語料庫(kù)(InternationalCorpusofEnglish),和英國(guó)我國(guó)語料庫(kù)(BiitishNationalCorpus,收集了1億詞次的口頭和書面語料,在20世紀(jì)90年月時(shí)由出版商、牛津高校、蘭卡斯特高校和大英圖書館創(chuàng)建)。至于說到當(dāng)代的美國(guó)英語,現(xiàn)已有了美國(guó)我國(guó)語料庫(kù)(英語:AmericanNationalCorpus),以及可以在線訪問的4億多詞次的美國(guó)當(dāng)代英語語料庫(kù)(英語:CorpusofContemporaryAmericanEnglish,1990年倉(cāng)犍)。第一個(gè)電腦轉(zhuǎn)錄口語語料庫(kù),建于1971年蒙特利爾法語項(xiàng)目(MontrealFrenchProject),【用有一億詞次,這一項(xiàng)目還啟發(fā)了夏娜?帕普拉克建立了規(guī)模更大的渥太華-赫爾地區(qū)法語口語語料庫(kù)({{lang-en|CorpusofspokenFrenchintheOttawa-Hullarea)。⑶語料庫(kù)除了收集現(xiàn)存語言,也收集古代語言。比如20世紀(jì)70年月建立的希伯來文圣經(jīng)的安徒生福布斯數(shù)據(jù)庫(kù)(英語:Andersen-ForbesdatabaseoftheHebrewBible,數(shù)據(jù)庫(kù)的每個(gè)子句的語法分析都使用了多達(dá)七級(jí)語構(gòu)的圖表,每一部分都標(biāo)注了七個(gè)方面的信息。⑹⑺古蘭經(jīng)阿拉伯語語料庫(kù)(英語:QuranicArabicCorpus)是古典的阿拉伯文《古蘭經(jīng)》的標(biāo)注語料庫(kù)。它包含多層次的標(biāo)注,包括形態(tài)分割,詞性標(biāo)注,以及使用依存語法進(jìn)行的句法分析。網(wǎng)方法[編輯]語料庫(kù)語言學(xué)已經(jīng)有了一大批討論方法,這些討論方法都試圖找到從數(shù)據(jù)到理論的解決方案。瓦利斯和尼爾森⑼最先介紹了他們的3A觀點(diǎn)(英語:3Aperspective):注釋(英語:Annotation),抽象(英語:Abstraction)和分析(英語:Analysis)o注釋包括語料的數(shù)據(jù)庫(kù)方案。注釋可能包括結(jié)構(gòu)標(biāo)注,詞性標(biāo)注,句法分析和其他形式。抽象包括該方案在理論上的啟發(fā)式模型或數(shù)據(jù)集中的翻譯(映射)。抽象通常包括面對(duì)語言學(xué)家的定向搜尋,但也可能包括句法討論者的句法規(guī)章學(xué)習(xí)。分析包括統(tǒng)計(jì)學(xué)探測(cè),操縱和對(duì)數(shù)據(jù)集的歸納概括。分析可能包括統(tǒng)計(jì)學(xué)評(píng)估,規(guī)章庫(kù)優(yōu)化和學(xué)問探究方法。如今大多數(shù)詞匯語料庫(kù)采納詞性標(biāo)注(英語:part-of-speech-tagged)。然而,即使是采納未標(biāo)注語料的語料庫(kù)語言學(xué)家也無疑會(huì)使用一些方法來從句子中隔離出他們感愛好的詞。在這種狀況下,注釋和抽象在詞匯搜素中結(jié)合起來了。發(fā)布標(biāo)注語料庫(kù)的優(yōu)點(diǎn)是其他用戶可以在語料庫(kù)中進(jìn)行討論與試驗(yàn)。語言學(xué)家與其他相關(guān)人士就可以采用語料庫(kù)來工作通過數(shù)據(jù)共享,語料庫(kù)語言學(xué)家能將語料庫(kù)視為語言研討的核心,而不是學(xué)問的源泉。CorpuslinguisticsFromWikipedia,thefreeencyclopediaCorpuslinguisticsisthestudyoflanguageasexpressedinsamples(corpora)of“realworld"text.Thismethodrepresentsadigestiveapproachtoderivingasetofabstractrulesbywhichanaturallanguageisgovernedorelserelatestoanotherlanguage.Originallydonebyhand,corporaarenowlargelyderivedbyanautomatedprocess.Corpuslinguisticsadherentsbelievethatreliablelanguageanalysisbestoccursonfield-collectedsamples,innaturalcontextsandwithminimalexperimentalinterference.Withincorpuslinguisticstherearedivergentviewsastothevalueofcorpusannotation,fromJohnSinclair^advocatingminimalannotationandallowingtextsto'speakforthemselves',toothers,suchastheSurveyofEnglishUsageteam(basedinUniversityCollege,London)@advocatingannotationasapathtogreaterlinguisticunderstandingandrigour.LinguisticsTheoreticalCognitiveGenerativeQuantitative?FunctionaltheoriesofgrammarPhonologyMorphology*MorphophonologySyntaxLexisSemanticsPragmaticsGraphcmicsOrthographySemioticsDescriptiveAnthropologicalComparative?HistoricalEtymologyGraphetics?PhoneticsSociolinguisticsAppliedandexperimentalComputational
Contrastive?Evolutionar}'ForensicInternetLanguageacquisitionSecond-languageacquisitionLanguageassessmentLanguagedevelopmentLanguageeducationLinguisticanthropology
Neurolinguistics
PsycholinguisticsRelatedarticlesHistoryoflinguisticsLinguisticprescription
Listoflinguists
UnsolvedlinguisticsproblemsLinguisticsportalContents
[hide]1History2MethodsSeealsoReferenceso4.1Journalso4.2Bookserieso4.3OtherExternallinksHistory[edit]Someoftheearliesteffortsatgrammaticaldescriptionwerebasedatleastinpartoncorporaofparticularreligiousorculturalsignificance.Forexample,PratisakhyaliteraturedescribedthesoundpatternsofSanskritasfoundintheVedas,andPanini'sgrammarofclassicalSanskritwasbasedatleastinpartonanalysisofthatsamecorpus.Similarly,theearlyArabicarammarianspaidparticularattentiontothelanguageoftheQuran.IntheWesternEuropeantradition,scholarspreparedconcordancestoallowdetailedstudyofthelanguageoftheBibleandothercanonicaltexts.AlandmarkinmoderncorpuslinguisticswasthepublicationbyHenryKuceraandW.NelsonFrancisofComputationalAnalysisofPresent-DayAmericanEnglishin1967,aworkbasedontheanalysisoftheBrownCorpus,acarefullycompiledselectionofcurrentAmericanEnglish,totallingaboutamillionwordsdrawnfromawidevarietyofsources.KuceraandFrancissubjectedittoavarietyofcomputationalanalyses,fromwhichtheycompiledarichandvariegatedopus,combiningelementsoflinguistics,languageteaching,psychology,statistics,andsociology.AfurtherkeypublicationwasRandolphQuirk's'TowardsadescriptionofEnglishUsage'(I960)團(tuán)inwhichheintroducedTheSurveyofEnglishUsage.Shortlythereafter,BostonpublisherHoughton-MifflinapproachedKuceratosupplyamillionword,three-linecitationbaseforitsnewAmericanHeritageDictionary,thefirstdictionarytobecompiledusingcorpuslinguistics.TheAHDtooktheinnovativestepofcombiningprescriptiveelements(howlanguageshouldbeused)withdescriptiveinformation(howitactuallyisused).Otherpublishersfollowedsuit.TheBritishpublisherCollins*COBUILDmonolinguallearner'sdictionary,designedforuserslearningEnglishasaforeignlanguage,wascompiledusingtheBankofEnglish.TheSurveyofEnglishUsageCorpuswasusedinthedevelopmentofoneofthemostimportantCorpus-basedGrammars,theComprehensiveGrammarofEnglish(Quirketal.1985).圖TheBrownCorpushasalsospawnedanumberofsimilarlystructuredcorpora:theLOBCorpus(1960sBritishEnglish),Kolhapur(IndianEnglish),Wellington(NewZealandEnglish),AustralianCorpusofEnglish(AustralianEnglish),theFrownCorpus(early1990sAmericanEnglish),andtheFLOBCorpus(1990sBritishEnglish).Othercorporarepresentmanylanguages,varietiesandmodes,andincludetheInternationalCorpusofEnglish,andtheBritishNationalCorpus,a100millionwordcollectionofarangeofspokenandwrittentexts,createdinthe1990sbyaconsortiumofpublishers,universities(OxfordandLancaster)andtheBritishLibrary.ForcontemporaryAmericanEnglish,workhasstalledontheAmericanNationalCorpus,butthe400+millionwordCorpusofContemporaryAmericanEnglish(1990-present)isnowavailablethroughawebinterface.Thefirstcomputerizedcorpusoftranscribedspokenlanguagewasconstructedin1971bytheMontrealFrenchProject,囪containingonemillionwords,whichinspiredShanaPoplack'smuchlargercorpusofspokenFrenchintheOttawa-Hullarea.?Besidesthesecorporaoflivinglanguages,computerizedcorporahavealsobeenmadeofcollectionsoftextsinancientlanguages.AnexampleistheAndersen-ForbesdatabaseoftheHebrewBible,developedsincethe1970s,inwhicheveryclauseisparsedusinggraphsrepresentinguptosevenlevelsofsyntax,andeverysegmenttaggedwithsevenfieldsofinformation.^TheQuranicArabicCorpusisanannotatedcorpusfortheClassicalArabiclanguageoftheQuran.Thisisarecentprojectwithmultiplelayersofannotationincludingmorphologicalsegmentation,part-of-speechtagging,andsyntacticanalysisusingdependencygrammar.倒Methods[edit]CorpusLinguisticshasgeneratedanumberofresearchmethods,attemptingtotraceapathfromdatatotheory.WallisandNelson(2001)3firstintroducedwhattheycalledthe3Aperspective:Annotation,AbstractionandAnalysis.Annotationconsistsoftheapplicationofaschemetotexts.Annotationsmayincludestructuralmarkup,part-of-speechtagging,parsing,andnumerousotherrepresentations.Abstractionconsistsofthetranslation(mapping)oftermsintheschemetotermsinatheoreticallymotivatedmodelordataset.Abstractiontypicallyincludeslinguist-directedsearchbutmayincludee.g.,rule-learningforparsers.Analysisconsistsofstatisticallyprobing,manipulatingandgeneralisi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 超市商品銷售及售后服務(wù)制度
- 流轉(zhuǎn)稅培訓(xùn)課件
- 執(zhí)業(yè)藥師培訓(xùn)機(jī)構(gòu)前十名
- 流乞人員救助工作培訓(xùn)
- 2024-2025學(xué)年山西省卓越聯(lián)盟高一下學(xué)期5月沖刺考試歷史試題(解析版)
- 2024-2025學(xué)年山東省青島市高一上學(xué)期期末選科考試歷史試題(解析版)
- 2026年財(cái)務(wù)管理基礎(chǔ)考試題集與解析
- 2024-2025學(xué)年江蘇省丹陽市高一下學(xué)期5月質(zhì)量檢測(cè)歷史試題(解析版)
- 2026年生物科學(xué)生物信息學(xué)技術(shù)試題庫(kù)
- 2026年中級(jí)電力工程師理論實(shí)踐筆試題目
- 2026年普洱市墨江縣中醫(yī)醫(yī)院招聘編外人員(11人)筆試備考試題及答案解析
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)附答案詳解
- 碼頭安全專題培訓(xùn)內(nèi)容
- GB/T 46559-2025二氧化碳地質(zhì)封存場(chǎng)地評(píng)價(jià)指標(biāo)體系
- DB11∕T 2490-2025 文物保護(hù)單位無障礙設(shè)施設(shè)置規(guī)范
- 2026年數(shù)據(jù)服務(wù)企業(yè)數(shù)據(jù)交易合規(guī)培訓(xùn)課件與數(shù)據(jù)變現(xiàn)風(fēng)控
- 填飼對(duì)鵝肝膽固醇合成相關(guān)基因表達(dá)的影響:基于分子機(jī)制與生理響應(yīng)的研究
- 2025年關(guān)于落實(shí)全面從嚴(yán)治黨主體責(zé)任情況的自查報(bào)告
- 開發(fā)票運(yùn)輸合同范本
- CJ/T 510-2017城鎮(zhèn)污水處理廠污泥處理穩(wěn)定標(biāo)準(zhǔn)
- 血流動(dòng)力學(xué)不穩(wěn)定骨盆骨折急診處理
評(píng)論
0/150
提交評(píng)論