語料庫幻燈片_第1頁
語料庫幻燈片_第2頁
語料庫幻燈片_第3頁
語料庫幻燈片_第4頁
語料庫幻燈片_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

語料庫與語料庫應用語言學1........................................................................definitions2.........................................................................charcateristics3.........................................................................historicaldevelopment4..........................................................................Classification5..........................................................................developmenttendency6...........................................................................coupus-basedteaching7...........................................................................corpus-basedtranslation8..........................................................................someimportantfigures1.1corpusAcollectionofnaturally

occuringlanguagedata,chosentocharacterizeastateofvarietyoflanguage.

Sinclair1991

指一個由大量語言實際使用的信息所組成的,專供語言研究,分析和描述的語言資料庫。在隨機采樣的基礎上收集人們實際使用的具有代表性的真實語言樣本而創(chuàng)建起來的,是語言研究和教學的重要基礎,是編寫字典,語法書和教材的重要源泉。

劉滿堂

1definitions1.2Corpuslinguistic

CLuseslargecollectionsofbothspokenandwrittennaturaltextsthatarestoredoncomputer。什么是應用語言學入門

以真實的語料數據為研究對象(語料庫),對大量語言事實進行系統(tǒng)分析,所研究的語言行為而非語言能力,即通過考察語言的實際運用來尋找語言使用規(guī)律。

劉滿堂

2.1分析自然語篇中語言運用的實際模式

語言的最終目的是成功交流,脫離了語境的語言研究,只關注語言的固定形式是沒有意義的。2.2使用龐大的,根據原則收集起來的自然語篇結合,即語料庫為分析的基礎2.3廣泛運用電腦進行分析,結合相關軟件使用自動技術為大量的數據化統(tǒng)計提供了手段,為定量研究提供了保證

Wordsmith,Tact,Mircoconcordance2charcateristics2.4人工分析仍是必要的

語料庫所提供的頻率信息知只是一個大體上的宏觀把握量,對這些信息還需要結合具體的研究任務進行有針對性地分析和判斷

質,從而得出結論。有量的統(tǒng)計分析和有質的研究分析

2.5定量與定性相結合的方法研究相結合量化的說明對所評價的現象做出解釋,提供了準確的宏觀層面的特征,質的評價則可以反映事物的另一個方面,則補充性的提供了微觀層面的特征。要想反映事物的全面情況,就應該把數量和質量結合起來評價。數量和質量是一個事物的兩個方面,既沒有離開數量的質量,也沒有離開質量的數量。

3.1Foreign

起源動機:

17C的時候,由于受到經驗主義(empricism)經驗主義通常指相信對現代科學方法,認為理論應建立于對于事物的觀察,而不是直覺或迷信。意即通過實驗研究而后進行理論推導優(yōu)于單純的邏輯推理的影響,語言學的研究開始重視觀察自然發(fā)生的語料,開始大料的收集外部語言數據,在客觀分析語言的基礎上進行相關研究。3historicaldevelopment1)20C60S以前

手工語料庫階段(前電子,前計算機化,傳統(tǒng)語料庫)收集全真文本進行語言分析主要用于一些傳統(tǒng)的領域

詞典編纂,語法目的:

1928牛津英語字典OxfordEnglishDictionary1961韋伯斯特新國際字典Webster‘sNewInternationalDictionary教學為目的:1959英語用法調查TheSurveyofEEnglishUsageSEC英國倫敦大學方言調查英美兩國都做過我國的漢語方言學的第一部著作《You軒使者絕代語釋別國方言》楊雄歷經27年處于人工檢索的初級階段,制作周期長,檢索效率低弊端計算機化語料庫,現代語料庫2)20C60S——80S60S初受到喬姆斯基的轉換生成語法的影響,研究方法轉為內省法第一代電子語料庫BrownCorpus196-1964(FrancaisandKucera)布朗大學當代美國英語標準語料庫LOB語料庫TheLancaster-Oslo/BergenCorpus英國的蘭卡斯特大學和挪威的奧斯陸大學1970-1978LLC語料庫London-lundCorpusofSpokenEnglish瑞典的隆德大學口語語料庫1975

蘭開斯特/IBM英語口語語料庫Lancaster/IBMspokenEnglishcorpus弊端所含語料基本上為書面語料,口語語料庫數量較少不能做共時比較3)20C80S——90S計算機的快速發(fā)展,研究者認識到內省法的不足第二代電子語料庫

COBUILD語料庫CollinsBIirminghamUniversityInternationalLanguageDatabase柯林斯伯明翰大學國際語言資料庫1980-1984英國國家語料庫BritishNationalCorpus1991-1995國際英語語料庫InternationalCorpusofEnglish英國倫敦大學Greenbaum和美國的威斯康星-密爾沃基大學Meyer相對優(yōu)勢采用了更加先進的電腦技術,檢索的速度和效率進一步提高,在研究目的上,二代以通用語料庫為主應用范圍也更加廣闊4)20C90S第三代電子語庫特點1語料:從單語到多語2數量:從百萬級到千萬級再到億級和萬億級3加工:從詞法級到句法級再到語義和語用級4文本:從抽樣到全文特大型語料庫動態(tài)監(jiān)控語料庫:可以實時記錄語言變化,監(jiān)控某種語言的發(fā)展過程例如國際互聯網上,英國的COBUILD語料庫每周向電子郵件用戶發(fā)送WordWatch詞語監(jiān)控的郵件,報告社會用語的動態(tài)變化情況3.2domestic70s末80s初興起1982黃人杰和楊惠中科技英語語料庫(JDEST)語料庫1989中國石油大學廣州石油英語語料庫700篇英國英語和美國英語的書面文本1992

北京語言文化大學當代北京口語語料庫收錄了80年代北京人的口語錄音1993香港科技大學計算機科學英語語料庫取材于90年代早期所使用的166種計算機英語課本

1995

北京語言文化大學現代漢語語法研究語料庫1996

廣州外國語學院中國學生交際英語語料庫2003

桂詩春楊惠中中國英語學習者語料庫第一部公開發(fā)布的學習者語料庫中文語言資源聯盟ChineseLinguisticDataConsortiumChineseLDC吸收國內高等院校,科研機構和公司參加的開放式語言資源聯盟。其目的是建成能代表當今中文信息處理水平的,通用的中文語言信息知識庫。ChineseLDC將建設和收集中文信息處理所需要的各種語言資源,包括詞典,語料庫,數據,工具等。在建立和收集語言資源的基礎上,分發(fā)資源,促成統(tǒng)一的標準和規(guī)范,推薦給用戶,并且針對中文信息處理領域的關鍵技術建立評測機制,為中文信息處理的基礎研究和應用開發(fā)提供支持。方興未艾

4Classification1)用途:通用語料庫generalcorpus專用語料庫specializedcorpus2)介質:文字語料庫聲音語料庫3)語體:書面語料庫口語語料庫4)時間:共時語料庫歷時語料庫5)狀態(tài):靜態(tài)語料庫動態(tài)語料庫6)語種:單語語料庫雙語語料庫多語語料庫平行語料庫parallelcorpus非平行語料庫母語語料庫外語學習者語料庫learnercorpus7)處理程度:生語語庫raw/untaggedcorpus熟語語庫(標注語料庫)tagged/annotatedcorpus5.1容量將進一步增大計算機技術的不斷發(fā)展,其儲存容量也越來越大5.2分析軟件以及應用軟件的開發(fā)和推廣5.3專用語料庫的進一步發(fā)展,一些通用語料庫無法深入分析某一專業(yè)領域的現象5.4跨學科性進一步增強,與其他領域相結合1)多模態(tài)語料庫:收集數字化的語言和交流相關的材料,材料使用多種模態(tài),預料不在限制于口筆文本,而包括視頻,圖片等媒體形式2)多緯度語料庫:能使研究者從多個不同的角度去研究和語料庫標注,例如語言中的地域和歷史變化,通過跨學科研究,會產生新的研究方法和新的研究領域5developmenttendency3)網絡語料庫:現代的一些網絡領域,例如,電子郵件,博客...產生了一些網絡語言5.5自身學科地位的發(fā)展

TogniniBonelli2001認為語料庫只是一種應用前的方法論,并不只是真正意義上的科學領域,只不過為語言學的研究提供了一種方法論基礎。corpus-based基于語料庫的研究即把語料庫看成是一個工具,用來證實,解釋某個以前就存在的語言學理論。corpus-driven語料庫驅動從原始語料出發(fā),通過研究語料本身,發(fā)現探究新的語言理論,建立新的概念和范疇體系。

這些表明,語料庫語言學正在超越一種單純的語言研究方法,具有自己的研究對象并且形成新的理論

6.1充分利用當前已有的語料庫6.2教師6.3學生6.4國家加大投入力度,支持發(fā)展;將語料庫列入到本科教育中6.5自身實力的培養(yǎng)和提高(可以與他人建庫享庫,運用多模態(tài)語料庫教學,提高課堂趣味性因材施教由被動轉為主動,注重自身實踐操作,充分利用網絡相關資源6coupus-basedteaching7.1經驗總結譯者往往分析不透徹,不深,理論體系也不健傳統(tǒng)的翻譯學研究歸納思辨法從實踐中歸納翻譯思辨,原則,規(guī)律(抽象總結)重凝練重規(guī)約輕了描述和解釋總體評價宏觀上把握缺乏連貫性的體系特點模糊:抽象的定性概括,缺乏量的支持注重個人的翻譯實踐與經驗,很難通過與他人進行對比,驗證,假設,上升為理論7corpus-basedtranslation7.2王克非、黃立波(2007)指出,語料庫翻譯研究“在研究方法上以語言學和翻譯理論為指導,以概率和統(tǒng)計為手段,以雙語真實語料為對象,對翻譯進行歷時或共時的研究”。1)corpuslinguistic+traditionaltranslation提供翻譯理論基礎優(yōu)勢naturalorauthenticdata自然真實的語料數據empricalresearch實證研究statistical+theoricalanalysis定量與定性2)當前,用于翻譯學研究的語料庫有平行語料庫,翻譯語料庫,可比語料庫和口譯語料庫等?,F已建成的比較成熟的譯學研究語料庫有翻譯英語語料庫、Babel漢英平行語料庫、北外雙語對應語料庫、中國法律法規(guī)漢英平行語料庫、全國公示語翻譯語料庫、莎士比亞戲

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論