下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
語(yǔ)料庫(kù)語(yǔ)言學(xué)維基百科語(yǔ)料庫(kù)語(yǔ)言學(xué)(英語(yǔ):corpuslinguistics)是基于語(yǔ)言運(yùn)用的實(shí)例(即語(yǔ)料庫(kù))的語(yǔ)言討論。語(yǔ)料庫(kù)語(yǔ)言學(xué)可以對(duì)自然語(yǔ)言進(jìn)行語(yǔ)法與句法分析,還可以討論它與其他語(yǔ)言的關(guān)系。語(yǔ)料庫(kù)最初由手工完成,而現(xiàn)在主要是由計(jì)算機(jī)自動(dòng)完成。語(yǔ)料庫(kù)語(yǔ)言學(xué)家信任,牢靠的語(yǔ)言分析需建立在新奇的語(yǔ)料、自然的語(yǔ)言環(huán)境,和最小的試驗(yàn)干擾之上。在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,語(yǔ)料標(biāo)注的意義眾說紛紜,從約翰?辛克萊⑴主見最少量的標(biāo)注,并允許文本“為自己說話",至『英語(yǔ)用法調(diào)杳組”(設(shè)在倫敦高校學(xué)院)[2]鼓舞更多的標(biāo)注,并認(rèn)為它是通向更完備和嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言理解的道路。名目1歷史2方法3參考文獻(xiàn)o3.1引用o3.2期刊o3.3書籍4外部鏈接5參見歷史[編輯]現(xiàn)代語(yǔ)料庫(kù)語(yǔ)言學(xué)的一個(gè)里程碑是亨利?庫(kù)切拉和W.納爾遜弗朗西斯在1967年出版的《當(dāng)代美語(yǔ)的計(jì)算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一書。該項(xiàng)工作基于對(duì)布朗語(yǔ)料庫(kù)的分析,布朗語(yǔ)料庫(kù)是一個(gè)細(xì)心編制的美國(guó)英語(yǔ)語(yǔ)料庫(kù),規(guī)模約有一百萬詞次。庫(kù)切拉和弗朗西斯將這些語(yǔ)料用于各種計(jì)算分析,獲得了豐富和多樣化的成果,該成果結(jié)合了語(yǔ)言學(xué)、語(yǔ)言教、心理學(xué)、統(tǒng)計(jì)學(xué)、和社會(huì)學(xué)元素。另一關(guān)鍵出版物是1960年倫道夫?夸克的《當(dāng)代英語(yǔ)語(yǔ)法》(TowardsadescriptionofEnglishUsage)口】,在這本書中他介紹了"英語(yǔ)用法調(diào)杳”項(xiàng)目(TheSurveyofEnglishUsage)°此后不久,波士頓出版商霍頓米夫林邀請(qǐng)庫(kù)切拉為其新的美國(guó)傳統(tǒng)英語(yǔ)字典供應(yīng)百萬詞次,三線引文的來進(jìn)行詞典編纂。《美國(guó)傳統(tǒng)英語(yǔ)字典》創(chuàng)新地將規(guī)定性元素(應(yīng)如何使用語(yǔ)言)和描述性元素(語(yǔ)言實(shí)際上是如何被使用)結(jié)合在了一起。其他出版社紛紛效仿。英國(guó)出版商柯林斯COBUILD單語(yǔ)學(xué)習(xí)詞典,就是為非英語(yǔ)母語(yǔ)者學(xué)習(xí)英語(yǔ)而出版的,它使用了“英語(yǔ)銀行"(BankofEnglish)語(yǔ)料庫(kù)?!坝⒄Z(yǔ)用法調(diào)查”語(yǔ)料庫(kù)被用于由夸克等人編著的《綜合英語(yǔ)語(yǔ)法》(AComprehensiveGrammaroftheEnglishLanguage)中。布朗語(yǔ)料庫(kù)也催生了類似的語(yǔ)料庫(kù):LOB語(yǔ)料庫(kù)(Lancaster-Oslo-BergenCorpus,20世紀(jì)60年月英國(guó)英語(yǔ)),科爾哈帕(Kolhapur,印度英語(yǔ)),惠靈頓(Wellington,新西蘭英語(yǔ)),澳大利亞英語(yǔ)語(yǔ)料庫(kù)(AustralianCorpusofEnglish,澳大利亞英語(yǔ)),皺眉語(yǔ)料庫(kù)(FrownCorpus,20世紀(jì)90年月初,美國(guó)英語(yǔ)),以及FLOB語(yǔ)料庫(kù)(FLOBCorpus,20世紀(jì)90年月,英國(guó)英語(yǔ))。其他語(yǔ)料庫(kù)包括國(guó)際英語(yǔ)語(yǔ)料庫(kù)(InternationalCorpusofEnglish),和英國(guó)我國(guó)語(yǔ)料庫(kù)(BiitishNationalCorpus,收集了1億詞次的口頭和書面語(yǔ)料,在20世紀(jì)90年月時(shí)由出版商、牛津高校、蘭卡斯特高校和大英圖書館創(chuàng)建)。至于說到當(dāng)代的美國(guó)英語(yǔ),現(xiàn)已有了美國(guó)我國(guó)語(yǔ)料庫(kù)(英語(yǔ):AmericanNationalCorpus),以及可以在線訪問的4億多詞次的美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)(英語(yǔ):CorpusofContemporaryAmericanEnglish,1990年倉(cāng)犍)。第一個(gè)電腦轉(zhuǎn)錄口語(yǔ)語(yǔ)料庫(kù),建于1971年蒙特利爾法語(yǔ)項(xiàng)目(MontrealFrenchProject),【用有一億詞次,這一項(xiàng)目還啟發(fā)了夏娜?帕普拉克建立了規(guī)模更大的渥太華-赫爾地區(qū)法語(yǔ)口語(yǔ)語(yǔ)料庫(kù)({{lang-en|CorpusofspokenFrenchintheOttawa-Hullarea)。⑶語(yǔ)料庫(kù)除了收集現(xiàn)存語(yǔ)言,也收集古代語(yǔ)言。比如20世紀(jì)70年月建立的希伯來文圣經(jīng)的安徒生福布斯數(shù)據(jù)庫(kù)(英語(yǔ):Andersen-ForbesdatabaseoftheHebrewBible,數(shù)據(jù)庫(kù)的每個(gè)子句的語(yǔ)法分析都使用了多達(dá)七級(jí)語(yǔ)構(gòu)的圖表,每一部分都標(biāo)注了七個(gè)方面的信息。⑹⑺古蘭經(jīng)阿拉伯語(yǔ)語(yǔ)料庫(kù)(英語(yǔ):QuranicArabicCorpus)是古典的阿拉伯文《古蘭經(jīng)》的標(biāo)注語(yǔ)料庫(kù)。它包含多層次的標(biāo)注,包括形態(tài)分割,詞性標(biāo)注,以及使用依存語(yǔ)法進(jìn)行的句法分析。網(wǎng)方法[編輯]語(yǔ)料庫(kù)語(yǔ)言學(xué)已經(jīng)有了一大批討論方法,這些討論方法都試圖找到從數(shù)據(jù)到理論的解決方案。瓦利斯和尼爾森⑼最先介紹了他們的3A觀點(diǎn)(英語(yǔ):3Aperspective):注釋(英語(yǔ):Annotation),抽象(英語(yǔ):Abstraction)和分析(英語(yǔ):Analysis)o注釋包括語(yǔ)料的數(shù)據(jù)庫(kù)方案。注釋可能包括結(jié)構(gòu)標(biāo)注,詞性標(biāo)注,句法分析和其他形式。抽象包括該方案在理論上的啟發(fā)式模型或數(shù)據(jù)集中的翻譯(映射)。抽象通常包括面對(duì)語(yǔ)言學(xué)家的定向搜尋,但也可能包括句法討論者的句法規(guī)章學(xué)習(xí)。分析包括統(tǒng)計(jì)學(xué)探測(cè),操縱和對(duì)數(shù)據(jù)集的歸納概括。分析可能包括統(tǒng)計(jì)學(xué)評(píng)估,規(guī)章庫(kù)優(yōu)化和學(xué)問探究方法。如今大多數(shù)詞匯語(yǔ)料庫(kù)采納詞性標(biāo)注(英語(yǔ):part-of-speech-tagged)。然而,即使是采納未標(biāo)注語(yǔ)料的語(yǔ)料庫(kù)語(yǔ)言學(xué)家也無疑會(huì)使用一些方法來從句子中隔離出他們感愛好的詞。在這種狀況下,注釋和抽象在詞匯搜素中結(jié)合起來了。發(fā)布標(biāo)注語(yǔ)料庫(kù)的優(yōu)點(diǎn)是其他用戶可以在語(yǔ)料庫(kù)中進(jìn)行討論與試驗(yàn)。語(yǔ)言學(xué)家與其他相關(guān)人士就可以采用語(yǔ)料庫(kù)來工作通過數(shù)據(jù)共享,語(yǔ)料庫(kù)語(yǔ)言學(xué)家能將語(yǔ)料庫(kù)視為語(yǔ)言研討的核心,而不是學(xué)問的源泉。CorpuslinguisticsFromWikipedia,thefreeencyclopediaCorpuslinguisticsisthestudyoflanguageasexpressedinsamples(corpora)of“realworld"text.Thismethodrepresentsadigestiveapproachtoderivingasetofabstractrulesbywhichanaturallanguageisgovernedorelserelatestoanotherlanguage.Originallydonebyhand,corporaarenowlargelyderivedbyanautomatedprocess.Corpuslinguisticsadherentsbelievethatreliablelanguageanalysisbestoccursonfield-collectedsamples,innaturalcontextsandwithminimalexperimentalinterference.Withincorpuslinguisticstherearedivergentviewsastothevalueofcorpusannotation,fromJohnSinclair^advocatingminimalannotationandallowingtextsto'speakforthemselves',toothers,suchastheSurveyofEnglishUsageteam(basedinUniversityCollege,London)@advocatingannotationasapathtogreaterlinguisticunderstandingandrigour.LinguisticsTheoreticalCognitiveGenerativeQuantitative?FunctionaltheoriesofgrammarPhonologyMorphology*MorphophonologySyntaxLexisSemanticsPragmaticsGraphcmicsOrthographySemioticsDescriptiveAnthropologicalComparative?HistoricalEtymologyGraphetics?PhoneticsSociolinguisticsAppliedandexperimentalComputational
Contrastive?Evolutionar}'ForensicInternetLanguageacquisitionSecond-languageacquisitionLanguageassessmentLanguagedevelopmentLanguageeducationLinguisticanthropology
Neurolinguistics
PsycholinguisticsRelatedarticlesHistoryoflinguisticsLinguisticprescription
Listoflinguists
UnsolvedlinguisticsproblemsLinguisticsportalContents
[hide]1History2MethodsSeealsoReferenceso4.1Journalso4.2Bookserieso4.3OtherExternallinksHistory[edit]Someoftheearliesteffortsatgrammaticaldescriptionwerebasedatleastinpartoncorporaofparticularreligiousorculturalsignificance.Forexample,PratisakhyaliteraturedescribedthesoundpatternsofSanskritasfoundintheVedas,andPanini'sgrammarofclassicalSanskritwasbasedatleastinpartonanalysisofthatsamecorpus.Similarly,theearlyArabicarammarianspaidparticularattentiontothelanguageoftheQuran.IntheWesternEuropeantradition,scholarspreparedconcordancestoallowdetailedstudyofthelanguageoftheBibleandothercanonicaltexts.AlandmarkinmoderncorpuslinguisticswasthepublicationbyHenryKuceraandW.NelsonFrancisofComputationalAnalysisofPresent-DayAmericanEnglishin1967,aworkbasedontheanalysisoftheBrownCorpus,acarefullycompiledselectionofcurrentAmericanEnglish,totallingaboutamillionwordsdrawnfromawidevarietyofsources.KuceraandFrancissubjectedittoavarietyofcomputationalanalyses,fromwhichtheycompiledarichandvariegatedopus,combiningelementsoflinguistics,languageteaching,psychology,statistics,andsociology.AfurtherkeypublicationwasRandolphQuirk's'TowardsadescriptionofEnglishUsage'(I960)團(tuán)inwhichheintroducedTheSurveyofEnglishUsage.Shortlythereafter,BostonpublisherHoughton-MifflinapproachedKuceratosupplyamillionword,three-linecitationbaseforitsnewAmericanHeritageDictionary,thefirstdictionarytobecompiledusingcorpuslinguistics.TheAHDtooktheinnovativestepofcombiningprescriptiveelements(howlanguageshouldbeused)withdescriptiveinformation(howitactuallyisused).Otherpublishersfollowedsuit.TheBritishpublisherCollins*COBUILDmonolinguallearner'sdictionary,designedforuserslearningEnglishasaforeignlanguage,wascompiledusingtheBankofEnglish.TheSurveyofEnglishUsageCorpuswasusedinthedevelopmentofoneofthemostimportantCorpus-basedGrammars,theComprehensiveGrammarofEnglish(Quirketal.1985).圖TheBrownCorpushasalsospawnedanumberofsimilarlystructuredcorpora:theLOBCorpus(1960sBritishEnglish),Kolhapur(IndianEnglish),Wellington(NewZealandEnglish),AustralianCorpusofEnglish(AustralianEnglish),theFrownCorpus(early1990sAmericanEnglish),andtheFLOBCorpus(1990sBritishEnglish).Othercorporarepresentmanylanguages,varietiesandmodes,andincludetheInternationalCorpusofEnglish,andtheBritishNationalCorpus,a100millionwordcollectionofarangeofspokenandwrittentexts,createdinthe1990sbyaconsortiumofpublishers,universities(OxfordandLancaster)andtheBritishLibrary.ForcontemporaryAmericanEnglish,workhasstalledontheAmericanNationalCorpus,butthe400+millionwordCorpusofContemporaryAmericanEnglish(1990-present)isnowavailablethroughawebinterface.Thefirstcomputerizedcorpusoftranscribedspokenlanguagewasconstructedin1971bytheMontrealFrenchProject,囪containingonemillionwords,whichinspiredShanaPoplack'smuchlargercorpusofspokenFrenchintheOttawa-Hullarea.?Besidesthesecorporaoflivinglanguages,computerizedcorporahavealsobeenmadeofcollectionsoftextsinancientlanguages.AnexampleistheAndersen-ForbesdatabaseoftheHebrewBible,developedsincethe1970s,inwhicheveryclauseisparsedusinggraphsrepresentinguptosevenlevelsofsyntax,andeverysegmenttaggedwithsevenfieldsofinformation.^TheQuranicArabicCorpusisanannotatedcorpusfortheClassicalArabiclanguageoftheQuran.Thisisarecentprojectwithmultiplelayersofannotationincludingmorphologicalsegmentation,part-of-speechtagging,andsyntacticanalysisusingdependencygrammar.倒Methods[edit]CorpusLinguisticshasgeneratedanumberofresearchmethods,attemptingtotraceapathfromdatatotheory.WallisandNelson(2001)3firstintroducedwhattheycalledthe3Aperspective:Annotation,AbstractionandAnalysis.Annotationconsistsoftheapplicationofaschemetotexts.Annotationsmayincludestructuralmarkup,part-of-speechtagging,parsing,andnumerousotherrepresentations.Abstractionconsistsofthetranslation(mapping)oftermsintheschemetotermsinatheoreticallymotivatedmodelordataset.Abstractiontypicallyincludeslinguist-directedsearchbutmayincludee.g.,rule-learningforparsers.Analysisconsistsofstatisticallyprobing,manipulatingandgeneralisi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒教師家校溝通技巧培訓(xùn)手冊(cè)
- 2026湖北武漢市江岸區(qū)某事業(yè)單位招聘1人備考題庫(kù)及答案詳解一套
- 2026湖南婁底低空經(jīng)濟(jì)發(fā)展公司招聘5人備考題庫(kù)(含答案詳解)
- 2026湖南長(zhǎng)沙人才集團(tuán)有限公司外包員招聘1人備考題庫(kù)及完整答案詳解
- 2026福建泉州市晉江兆瑞建設(shè)有限公司招聘派遣制工作人員2人備考題庫(kù)及一套答案詳解
- 2026西藏日喀則市薩嘎縣招聘藝術(shù)團(tuán)演職人員5人備考題庫(kù)及1套完整答案詳解
- 中醫(yī)護(hù)理臨床技能培訓(xùn)教材
- 企業(yè)員工培訓(xùn)計(jì)劃模板系統(tǒng)化學(xué)習(xí)
- 會(huì)計(jì)師事務(wù)所審計(jì)師審計(jì)報(bào)告質(zhì)量與時(shí)間管理績(jī)效考核表
- 餐飲行業(yè)食品安全標(biāo)準(zhǔn)與檢查
- 2026年普洱市墨江縣中醫(yī)醫(yī)院招聘編外人員(11人)筆試備考試題及答案解析
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)附答案詳解
- 碼頭安全專題培訓(xùn)內(nèi)容
- GB/T 46559-2025二氧化碳地質(zhì)封存場(chǎng)地評(píng)價(jià)指標(biāo)體系
- DB11∕T 2490-2025 文物保護(hù)單位無障礙設(shè)施設(shè)置規(guī)范
- 2026年數(shù)據(jù)服務(wù)企業(yè)數(shù)據(jù)交易合規(guī)培訓(xùn)課件與數(shù)據(jù)變現(xiàn)風(fēng)控
- 填飼對(duì)鵝肝膽固醇合成相關(guān)基因表達(dá)的影響:基于分子機(jī)制與生理響應(yīng)的研究
- 2025年關(guān)于落實(shí)全面從嚴(yán)治黨主體責(zé)任情況的自查報(bào)告
- CJ/T 510-2017城鎮(zhèn)污水處理廠污泥處理穩(wěn)定標(biāo)準(zhǔn)
- 傳統(tǒng)醫(yī)學(xué)師承關(guān)系合同書
- 血流動(dòng)力學(xué)不穩(wěn)定骨盆骨折急診處理
評(píng)論
0/150
提交評(píng)論