版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、目標: 以大規(guī)模通用漢語語料庫為基礎,以數(shù)字化典范辭書為資源,利用語言信息處理計算機技術等,研制辭書的知識獲取、自動生成、檢查檢測、審核評價等技術和集成化的輔助操作平臺,突破傳統(tǒng)的辭書編纂概念,建立一種新型的辭書編纂模式。 主要研究內容:數(shù)字化辭書生成系統(tǒng);辭書雷同檢查;規(guī)范檢查和沖突檢測技術;語料庫在辭書編纂中的應用;語言處理技術應用于辭書編纂;探索辭書編纂的新模式;課題的擴展研究編纂平臺的服務不只限于辭書,擴大編纂對象至百科知識、教材等各種語言資源;擴展為自然語言信息處理綜合平臺;獲取網絡知識,實現(xiàn)遠程實時處理;請看系統(tǒng)演示END資源平臺資源平臺是實現(xiàn)數(shù)字化辭書編纂的核心,主要包括:大規(guī)模
2、語料庫生語料庫(印刷、電子、網絡)標注語料庫(切分標注、句法標注、語義標注)分類語料庫(領域、時段、用途)辭書數(shù)據(jù)庫典范辭典(已完成10部詞典的嵌入)領域辭典其他辭典語言文字規(guī)范標準語言處理技術語言處理技術是數(shù)字化辭書編纂平臺的支撐點。經過20年的研究,語言處理技術雖然仍未整體突破,但是依靠現(xiàn)有的研究成果,根據(jù)特定的應用需求,在限定的應用領域內,語言處理技術可以滿足應用需要。平臺使用到的語言處理技術主要包括:詞語切分和詞類標注語法檢查檢索(全文檢索、關聯(lián)檢索)信息抽取文本分類自動聚類機器翻譯自動文摘辭書生成數(shù)字化辭書生成系統(tǒng)數(shù)字化辭書生成是利用現(xiàn)有辭書資源和大規(guī)模語料庫資源,根據(jù)不同的用戶對象
3、、領域、辭書規(guī)模等信息,按照用戶可定義的辭書模板,重組生成新的辭書框架,并在此基礎上通過語料庫更新原有的定義和例證,為編纂人員提供新辭書的基本內容。界面樣例辭書生成數(shù)字化辭書生成系統(tǒng)的主要內容:(1)辭書的形式化:通過通用XML模板將辭書形式化建立不同概念間的一致性辭書體例的歸一化(2)辭書概念關聯(lián)網絡:辭書概念形式化概念關系:同義、同形、反義、近義、類義、對義、上下位、從屬、相關、雙關、聯(lián)想等。辭書概念關聯(lián)檢索(3)概念重組和更新:重組概念重新定義概念的釋義更新概念的釋義和例證辭書雷同檢查雷同檢查辭書的雷同檢查是以經典辭書(或指定辭書)為基礎,檢查其他辭書與其在詞表、概念釋義、例證等上的相似
4、程度,高度相似則視為雷同。辭書的雷同檢查技術可作為辭書市場“打假”的有效工具。雷同檢查需要通過語法語義上的相等、同義、近義等判別來支持。辭書沖突檢測沖突檢測辭書的沖突檢測是對多辭書進行概念定義、釋義方面的語義比較,不同辭書同一概念間存在矛盾則視為沖突。辭書沖突檢查將為提高辭書質量提供有效幫助。辭書雷同檢查和沖突檢測辭書雷同檢查和沖突檢測技術的主要內容有:辭書概念關聯(lián)概念形式的歸一化建立不同辭書概念間的聯(lián)系形式和內容的相似性比較近義、同義、反義判斷辭書檢查還包括編輯錯誤檢查、排版錯誤檢查、體例格式檢查等等。規(guī)范性檢查辭書規(guī)范性檢查以國家已經發(fā)布的語言文字標準為基礎,檢查辭書中是否存在與規(guī)范標準不
5、一致或有沖突的內容。規(guī)范性檢查試圖提高辭書的整體質量水平例如:根據(jù)漢語拼音方案檢查辭書的注音是否符合要求根據(jù)異形詞整理表檢查辭書有關詞形的規(guī)范情況已發(fā)布國家語言文字規(guī)范標準示例語料庫與辭書編纂建立語料庫已經是當代編纂原創(chuàng)性詞典的必要條件;20世紀70年代建設的COBUILD語料庫,采用詞語索引技術對海量語料進行大規(guī)模調查,從此開創(chuàng)了現(xiàn)代詞典編纂的先河。在COBUILD詞典中,每個詞條不但有頻率信息,而且義項的取舍和排列順序,都以大型語料庫的實際統(tǒng)計結果為依據(jù),而且每個例句都采自語料庫中的實際使用的語言事實。本課題以國家語委語料庫為基礎,同時吸收國內外語料庫建設成果。國家語委語料庫現(xiàn)代漢語通用平
6、衡語料庫8800萬字語料5000萬字標注語料庫(詞語切分詞類標注)句法樹庫國家語委語料庫的管理由國家語委授權語言文字應用研究所負責國家語委語料庫建設1991年12月國家語委語言文字應用管理司提出立項建議1992年4月國家語委語言文字應用管理司在京組織召開了現(xiàn)代漢語語料庫選材原則專家論證會 1993年1月制訂現(xiàn)代漢語語料庫選材原則 1993年9月召開了現(xiàn)代漢語語料庫選材專家審定會 2001年底建成 7000萬字的生語料庫2003年底已完成4500萬字語料的詞語切分和詞性標注加工現(xiàn)代漢語語料庫的主要用途及選材規(guī)模主要用途語言文字的信息處理語言文字規(guī)范和標準的制定語言文字的學術研究語文教育語言文字的
7、社會應用選材規(guī)模規(guī)模較大的通用語料庫,其選材字數(shù)擬定在5000萬字左右,包括抽樣材料和整篇材料。教材字數(shù)另計。選材的分類依據(jù)材料內容,選材大體作如下分類:教材大中小學教材單作一類,約2000萬字。不計入5000萬字的語料之內。人文與社會科學的語言材料,包括:政法(含哲學、政治、宗教、法律等);歷史(含民族等)社會(含社會學、心理、語言、教育、文藝理論、新聞學、民俗學等); 經濟;藝術(含音樂、美術、舞蹈、戲劇等);文學(含口語);軍體;生活(含衣食住行等方面的普及讀物)。自然科學(含農業(yè)、醫(yī)學、工程與技術)報刊應用文3選材年限及密度教材類選取現(xiàn)在通用的教材為建庫的語言材料。中小學課本所選內容涉
8、及各個學科的基本知識,一般為典范的現(xiàn)代漢語作品,具有相當?shù)钠占靶?、代表性。人文與社會科學類以1919年為上限,選取五四以來的語言材料。對五四以來各個歷史時期的語料采取不等密度選用的方式。19191925年鑒于五四時期的白話文仍留有文言痕跡,擬選用少量的對后世影響較大的代表性作品。被選用的作品在行文上要盡量符合現(xiàn)代漢語的規(guī)范。這部分語料擬占人文與社會科學類的5%。19261949年白話文逐步脫離文言痕跡,現(xiàn)代漢語日趨成熟的時期。這部分語料擬占人文與社會科學類的15%。19501965年中華人民共和國的成立給社會文化生活帶來巨大變化,新詞新語大量涌現(xiàn)。這部分語料擬占人文與社會科學類的25%。196
9、61976年文化大革命時期產生的作品,其中許多隨著文革的結束而僅作為歷史詞語存于現(xiàn)代漢語之中。這部分語料擬占人文與社會科學類的5%。1977新時期的語料代表了現(xiàn)代漢語的最新發(fā)展。這部分語料擬占人文與社會科學類的50%。 自然科學(含農業(yè)、醫(yī)學、工程與技術)類目前比較通用的中、小學各科教材。目前比較通用的具有通論性質的大學各科基礎必修課程的教材。涉及自然科學各個門類的科普讀物?,F(xiàn)代漢語語料庫選材字數(shù)的分布人文與社會科學的語言材料占全部5000萬字語料的60%,為3000萬字。這3000萬字在各個學科的分布見表一。文學的語言材料占人文與社會科學類的50%,共1500萬字。這1500萬字在不同體裁、
10、題材的語料的分布見表二。長、中、短篇小說的選取比例大致為:長:中:短=1:2:3語料的通用性原則和描述性原則語料的通用性原則作為通用型語料庫,現(xiàn)代漢語語料庫應真實地反映現(xiàn)代漢語在文字、詞匯、語法、語義等方面的全貌?,F(xiàn)代漢語語料庫在語料的選擇上,應當具有區(qū)別性特征。有別于專業(yè)性。有別于地域性。有別于純口語性。為確保5000萬字語料的質量,盡可能地提高所選語料在采字、采詞、采句和采義等方面的涵蓋量,選材不僅要考慮到語料的時間層次、文化層次和社會使用面層次,還應采取“抓住中心,其他補充”的方式。時間層次。文化層次。以具有高中文化程度的人能夠閱讀的語料為主,其他文化程度為輔。社會使用面層次。以社會使用
11、面較為廣泛的語料為主,其他語料為輔進行補充;以人文與社會科學為主,自然科學為輔;以門類為主,以語體為輔,對門類進行補充。 語料的描述性原則從現(xiàn)代漢語語料庫建設的主要用途出發(fā),語料應在必要的人工干預的前提下,做描述性選取,以便為語言文字的規(guī)范與科研提供客觀的科學依據(jù)。為了保證現(xiàn)代漢語的字、詞、句、義在語料中具有合理的出現(xiàn)頻率,語料的選擇應在控制比例的前提下,盡量做到采樣廣泛。樣本原則語言材料的多樣性 選用政論性文章、新聞報道、各類文學藝術作品、科普讀物、通俗讀物、學術專論及各種應用文語體等現(xiàn)代漢語作品。語言材料的完整性 2000字以下的文章原則上全篇采用。報紙可采取整篇文章、整版和整張相結合的方
12、式。語言材料的遍歷性 選材要注意各學科,各學科分支,各行各業(yè),以及社會生活各個領域的語言文字應用的代表性。 語料抽樣抽樣的數(shù)量與方式書籍抽樣數(shù)量一般占全書字數(shù)的35%,字數(shù)最多不超過10000字。樣本容量2000字,允許500字的伸縮。報紙采用整版(4版或8版)選用的方式。不同的報紙選用不同的月份,以免內容重復。報紙上的廣告、啟事等歸在應用文類,不在報刊類語料的統(tǒng)計之列??锩勘究锷纤x的總字數(shù)原則上不超過5000字。樣本容量2000字,允許500字的伸縮。對同一版面的不同文章,按從上至下、從左到右的順序選取。一個樣本必為同一作者的同一篇文章,限字數(shù)不限樣本數(shù)(報刊除外)。每個樣本之中必為連
13、續(xù)的語料內容。應用文(包括廣告、說明書等)2000字以內的應用文宜整篇選用。對于篇幅較長的應用文,所選樣本的容量為2000字,允許500字的伸縮。 補充以上有關選材年限及密度的規(guī)定是著眼于科學的整體發(fā)展而制定的。各個學科的發(fā)展在不同的年代并不是齊頭并進的,可根據(jù)具體情況適當調整依年限分布的比例、字數(shù)。調整的理由、調整后的比例和字數(shù)當詳細說明,并作為附件收于清單之后。大學教材門類以國家規(guī)定的大學基礎必修課為準。避免選取文言色彩較重的篇章作語料,例如魯迅等作家的作品不宜用作語料。避免選取詩歌作語料;剔除篇章中詩歌形式的內容。設計樣本分布表一:人文與社會科學類科 目比 例字數(shù)1919-1925192
14、6-19491950-19651966-19761977-5%15%25%5%50%哲學8.3%25012.537.562.512.5125歷史8.3%25012.537.562.512.5125社會8.3%25012.537.562.512.5125經濟8.3%25012.537.562.512.5125藝術8.3%25012.537.562.512.5125文學50%15007522537575750其他8.3%25012.537.562.512.5125設計樣本分布表二:文學類(含口語)體題裁材比例1919-19251926-19491950-19651966-19761977-5%15
15、%25%5%50%小說30%45022.567.5112.522.5225散文(雜文)20%30015457515150傳記10%1501522.537.51575報告文學10%150 50 100科幻10%150 50 100口語20%300154575151501993年1月制訂現(xiàn)代漢語語料庫選材原則具體選材任務分別由中國社會科學院語言所、北京師范大學中文系和中國人民大學中文系三個課題組承擔。選材工作自1992年底開始,按照通用性、描述性、實用性等原則系統(tǒng)地抽樣選擇了1919-1992年的現(xiàn)代漢語語言材料7000萬字,由人文與社會科學、自然科學及綜合三個大類約40個小類組成。 1.人文與社
16、會科學類劃分為8個大類和30個小類:(1)政法:哲學、政治、宗教、法律;(2)歷史:歷史、考古、民族;(3)社會:社會學、心理、語言文字、教育、文藝理論、新聞、民俗;(4)經濟:工業(yè)經濟、農業(yè)經濟、政治經濟、財貿經濟;(5)藝術:音樂、美術、舞蹈、戲??;(6)文學:小說、散文、傳記、報告文學、科幻、口語;(7)軍體:軍事、體育;(8)生活。 2.自然科學劃分為6類:數(shù)理、生化、天文地理、海洋氣象、農林、醫(yī)藥衛(wèi)生。 3.綜合類語料由應用文和難于歸類的其他語料兩部分組成。應用文使用很廣泛,主要涉及以下6類:(1)行政公文:請示、報告、批復、命令、指示、布告、紀要、通知等;(2)章程法規(guī):章程、條例
17、、細則、制度、公約、辦法、法律條文等;(3)司法文書:訴訟、辯護詞、控告信、委托書等;(4)商業(yè)文告:說明、廣告、調查報告、經濟合同等;(5)禮儀辭令:歡迎詞、賀電、訃告、唁電、慰問信、祝酒詞等;(6)實用文書:請假條、檢討、申請書、請愿書等。 語料來源包括教材、報紙、綜合性刊物、專業(yè)刊物、圖書等。每個樣本的容量為2000字左右,書籍的抽樣字數(shù)一般占全書總字數(shù)的3-5%,最多不超過10000字;每本刊物上所選的總字數(shù)原則上不超過5000字。各類語料所占比例如下:人文與社會科學類語料占語料總量的59.6%,自然科學類語料占語料總量的17.24%,綜合類語料占語料總量的9.36%,取材于報紙的語料,難于劃分門類和語體,因此單獨計算,報紙語料占語料總量的13.79%。另外,取材于教材的語料總量有2000萬字,已經按學科計入各類語料。 當前語料庫樣本分布-類別當前語料庫樣本分布-時間標注語料庫詞語切分分詞詞表詞表結構化詞類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家私廠職業(yè)衛(wèi)生制度
- 棄土場環(huán)境衛(wèi)生制度
- 衛(wèi)生院轉診服務制度
- 客運站公廁衛(wèi)生管理制度
- 衛(wèi)生許可證所需管理制度
- 美容業(yè)每日衛(wèi)生管理制度
- 衛(wèi)生殺蟲藥規(guī)范制度
- 衛(wèi)生院宣傳三項制度
- 修理廠個人衛(wèi)生規(guī)章制度
- 衛(wèi)生院藥品財務管理制度
- 2026年高級人工智能訓練師(三級)理論考試題庫(附答案)
- 2026北京印鈔有限公司招聘26人筆試備考試題及答案解析
- 2026山西杏花村汾酒集團有限責任公司生產一線技術工人招聘220人筆試參考題庫及答案解析
- 百師聯(lián)盟2025-2026學年高三上學期1月期末考試俄語試題含答案
- 2026年湖北中煙工業(yè)有限責任公司招聘169人筆試參考題庫及答案解析
- 2026年六年級寒假體育作業(yè)(1月31日-3月1日)
- 干部培訓行業(yè)現(xiàn)狀分析報告
- 人教版六年級數(shù)學上冊期末專題05比較大小六大類型練習含答案和解析
- 創(chuàng)新創(chuàng)業(yè)軟件路演
- DL∕T 1917-2018 電力用戶業(yè)擴報裝技術規(guī)范
- 工廠驗收測試(FAT)
評論
0/150
提交評論