版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
紙質(zhì)印刷本古代文獻(xiàn)轉(zhuǎn)換成漢語史語料庫的實(shí)踐
20世紀(jì)90年代以來,中國歷史語言材料的數(shù)據(jù)庫已成為中國科學(xué)家不可或缺的學(xué)術(shù)工具。第一個(gè)文本收集對應(yīng)于各種古代文獻(xiàn)的電子書,只支持簡單文本閱讀。隨后出現(xiàn)了可以進(jìn)行字、詞、句單項(xiàng)或組合檢索的文本數(shù)據(jù)庫,流傳較廣者如《二十五史全文閱讀檢索系統(tǒng)》、國學(xué)寶典等。也出現(xiàn)了一些基于掃描技術(shù)的圖像版古籍?dāng)?shù)據(jù)庫,由于沒有對圖像進(jìn)行OCR識別,用戶難以進(jìn)行全文檢索。隨著圖像處理和超鏈接技術(shù)的迅猛發(fā)展,支持分類檢索、書名檢索、著者檢索、全文檢索等多種檢索方式的圖像與文本對照的數(shù)據(jù)庫陸續(xù)問世,著名者如文淵閣《四庫全書》《四部叢刊》全文檢索系統(tǒng)、中國基本古籍庫等。近10年來,為了滿足漢語研究的需要,學(xué)界開始嘗試建設(shè)深加工的標(biāo)注型語料庫,具體工作包括對古代文獻(xiàn)進(jìn)行詞語切分,并添加詞性、義項(xiàng)、語法地位標(biāo)注等多方面信息。以董志翹教授主持的國家社科基金重大招標(biāo)項(xiàng)目“深加工中古漢語語料庫建設(shè)研究”為依托的中古漢語語料庫(MCC),就是其中的嘗試之一。MCC課題組選取“既能從整體上反映中古漢語的真實(shí)面貌,又能夠展示中古漢語局部的各種比較突出的特點(diǎn)”的中古文獻(xiàn),包括正史作品8種,約420萬字;子部作品如漢譯佛經(jīng)、佛道文獻(xiàn)、筆記小說、醫(yī)農(nóng)雜著、詩歌40種,約490萬字;敦煌吐魯番文獻(xiàn)、碑刻文獻(xiàn)等出土文獻(xiàn)約80萬字。上述入庫文獻(xiàn)共約1000萬字。在確定入庫文獻(xiàn)的版本并進(jìn)行反復(fù)??敝缶瓦M(jìn)入了文本處理環(huán)節(jié)。在此基礎(chǔ)上對入庫語料進(jìn)行詞語切分并標(biāo)注其詞性、義項(xiàng)、語法地位等語言學(xué)信息。在文本處理這一環(huán)節(jié),由于歷代文獻(xiàn)材料中大多包含著一些并無實(shí)際意義也不具備任何研究價(jià)值的冗余材料,如作者及其身份的重復(fù)標(biāo)記、行文卷數(shù)的交叉標(biāo)記等;也往往攙雜了一些學(xué)界公認(rèn)的后代注釋材料;還有一些材料雖然具有一定的研究價(jià)值,現(xiàn)有的語料庫技術(shù)手段卻難以準(zhǔn)確反映,或者極大地增加語料庫操作層面的難度,或者可能對語料庫未來的用戶體驗(yàn)產(chǎn)生過于負(fù)面的影響,等等。因此,需要對入庫文獻(xiàn)的轉(zhuǎn)錄文本進(jìn)行相應(yīng)的技術(shù)處理,以形成最終的語料文本。本文擬以中古漢語語料庫中文本處理的基本思路、具體方法為中心,結(jié)合漢語史、文獻(xiàn)學(xué)相關(guān)理論以及語料庫建設(shè)的實(shí)際操作過程,對漢語史語料庫的文本處理問題展開探討,希望得到方家同行的指正。一、語料性質(zhì)完全相同中古文獻(xiàn)往往采用正文與注釋材料并列的行文方式。兩者的界限最初是涇渭分明的:正文采用單行、大字的形式;子注則緊隨其后,雙行書寫,從正文與子注的關(guān)系看,正文無疑是全文的主體部分,子注則是對正文內(nèi)容的延展,主要包括與正文內(nèi)容相關(guān)的文獻(xiàn)材料,對正文的進(jìn)一步解釋、說明,對正文中疑難字詞的音義注釋等。在后來的輾轉(zhuǎn)傳抄過程中,不少文獻(xiàn)的正文與子注逐漸變得相互混淆以至難以分辨,這種現(xiàn)象在《洛陽伽藍(lán)記》《水經(jīng)注》中尤為突出。從語料性質(zhì)看,正文顯然出自作者之手,屬于典型的中古語料。對正文內(nèi)容進(jìn)行補(bǔ)充、解釋、說明的子注,大多出自作者之手,同樣也屬于中古語料;對疑難字詞進(jìn)行音義訓(xùn)釋的子注,情況比較復(fù)雜,有可能是作者的附注,也可能是當(dāng)時(shí)或者后來的讀者添加的,現(xiàn)在已經(jīng)很難分清了。不過,就音義材料的篇幅而言,與正文以及其他子注相比,幾乎可以忽略不計(jì)。例如:凡谷,成熟有早晩,苗稈有高下,收實(shí)有多少,質(zhì)性有強(qiáng)弱,米味有美惡,粒實(shí)有息耗。早熟者苗短而收多,晚熟者苗長而收少。強(qiáng)苗者短,黃谷之屬是也;弱苗者長,青、白、黑者是也。收少者美而耗,收多者惡而息也。(《齊民要術(shù)·種谷》)案:大字部分是《齊民要術(shù)》的正文,夾文小注是賈思勰的自注,進(jìn)一步解釋谷物成熟的早晚、苗桿的長短與作物收成之間的關(guān)系,二者顯然屬于同時(shí)代材料,語料性質(zhì)完全相同??陀袉栮惣痉剑骸逗?nèi)先賢傳》曰:“陳諶字季方,寔少子也。才識博達(dá),司空掾公車征,不就。”“足下家君太丘有何功德而荷天下重名?”(《世說新語·德行》)案:大字部分是南朝宋劉義慶《世說新語》的正文;夾文小注出自南朝梁劉孝標(biāo)之手,引用《海內(nèi)先賢傳》補(bǔ)充陳季方的基本情況。宋梁兩朝相距不遠(yuǎn),正文與夾文小注均屬南北朝語料。昆侖墟在西北。三成為昆侖丘?!独稣f》曰:昆侖之山三級,下曰樊桐,一名板桐;二曰玄圃,一名閬風(fēng);上曰層城,一名天庭,是為太帝之居。(《水經(jīng)注·河水》)案:大字部分是《水經(jīng)》原文;夾文小注則是酈道元引用其他文獻(xiàn)材料對《水經(jīng)》的注解,也就是《水經(jīng)注》正文。其中存在相當(dāng)嚴(yán)重的經(jīng)、注相混現(xiàn)象,不少段落甚至完全無法分辨。由于注文篇幅遠(yuǎn)遠(yuǎn)超過《水經(jīng)》原文,可以把二者暫時(shí)都視為中古語料。九功既歌,六代惟時(shí)。被徳在樂,宣道以詩。穆矣太和,品物咸熙。慶積自遠(yuǎn),告成在茲。右《肆夏》樂歌四章??腿?,于四廂振作《于鑠曲》。皇帝當(dāng)陽,四廂振作《將將曲》,皇帝入變服,四廂振作《于鑠》《將將》二曲。又黃鐘、太蔟二廂作《法章》、《九功》二曲。(《宋書·樂志二》)案:大字部分是《宋書》原文;夾文小注是編纂者記述的樂歌演奏過程。由于《樂志二》重在記錄樂歌的歌詞,與歌曲有關(guān)的演奏過程就被當(dāng)作補(bǔ)充材料而采用了雙行小字的書寫形式。它們的語料性質(zhì)則是完全相同的。稻苗漸長,復(fù)須薅。拔草曰薅,虎高切。薅訖,決去水,曝根令堅(jiān)。(《齊民要術(shù)·水稻》)案:“拔草曰薅”是薅字的釋義,“虎高切”是薅字的反切注音。類似的音義材料,究竟出自賈思勰或者同時(shí)代人之手,或者是后人添加的,現(xiàn)在已經(jīng)無從查考,因而難以判斷其時(shí)代性。基于上述分析,中古漢語語料庫處理正文的注釋材料時(shí),采用了王曉玉《論中古語料庫古籍電子化相關(guān)問題》所描述的三種具體方法:(1)對正文進(jìn)行補(bǔ)充、解釋、說明的作者自注,視為與正文性質(zhì)相同的語料,在每段注釋材料的起止位置,分別添加符號“[J]”作為標(biāo)記,需要說明的是,與其他的文本型、圖文型語料庫相比,作為標(biāo)注型語料庫的中古漢語語料庫處理夾文小注時(shí)遇到了更多的細(xì)節(jié)問題,目前的一些操作規(guī)定,只能算是暫時(shí)性的應(yīng)對策略,今后的漢語史語料庫也許能夠找到更為合適的處理方法。如:東京兆寄治滎陽,領(lǐng)長安、漢舊縣、萬年、別見。新豐、別見。藍(lán)田、別見。蒲阪二漢、晉《太康地志》屬河?xùn)|。凡六縣。(《宋書·州郡志二》)案:夾文小注是作者對部分地名做出的補(bǔ)充說明,屬于《宋書》原文不可分割的組成部分。這種行文方式在中古史書文獻(xiàn)中最為常見,在其他文獻(xiàn)中則主要是針對疑難字詞做出的音義訓(xùn)釋,如:《齊民要術(shù)·種谷》:“以汁和蠶矢、羊矢各等分,撓呼毛反,攪也。令洞洞如稠粥。”在文本型語料庫、圖文型語料庫中,這種現(xiàn)象并不存在太大的問題。中古漢語語料庫需要進(jìn)行詞語切分、義項(xiàng)及語法地位標(biāo)注,就有可能造成詞語或句子成分的前后割裂。以上邊的兩個(gè)句子為例,程序軟件會把“蒲阪二漢晉《太康地志》屬河?xùn)|”“撓呼毛反攪也令洞洞如稠粥”識別為兩個(gè)句子;如果在“蒲阪”“撓”的后邊添加標(biāo)點(diǎn)符號,它們又分別變成了獨(dú)立的句子,“令洞洞如稠粥”則成了另外一個(gè)句子。無論哪種處理方式,顯然都違背了漢語詞匯、語法常識。在加注標(biāo)點(diǎn)符號的現(xiàn)代整理本中,目前也有不同的處理方法,中華書局出版的《宋書》校點(diǎn)本在“長安”“萬年”“新豐”“藍(lán)田”后邊都加了頓號,“蒲阪”后面卻沒有添加標(biāo)點(diǎn)符號,略顯矛盾;繆啟愉《齊民要術(shù)校釋》所采用的“撓呼毛反,攪也。令洞洞如稠粥”,從整體上看應(yīng)該更為合理。中古漢語語料庫針對夾文小注的各種情況,采用了下述處理方法。(1)注釋材料的字號均比正文縮小一號,以顯示兩者之間的差別;(2)注釋材料的起止位置,分別添加“[J]”,將它和前后正文隔離開來;(3)有可能造成詞語或句子成分前后割裂的音義注釋材料,被釋字詞的后面不加標(biāo)點(diǎn)符號,[]里面的音義注釋材料句尾也不添加標(biāo)點(diǎn)符號。上述句子的處理結(jié)果分別為:“東京兆寄治滎陽,領(lǐng)長安[J漢舊縣J]、萬年[J別見J]”,“以汁和蠶矢、羊矢各等分,撓[J呼毛反,攪也J]令洞洞如稠粥?!背藠A文子注,如何看待、處理古代文獻(xiàn)中的附屬材料,也是中古漢語語料庫的一個(gè)重要問題。在中古文獻(xiàn)的流傳過程中,歷代傳抄者往往出于各種目的,自行添加一些與正文內(nèi)容有關(guān)的附屬性文字。從語料本身的性質(zhì)、價(jià)值看,這些材料雖然無法與原文相提并論,它們和原文之間卻存在著一定的關(guān)聯(lián)性,因此,中古漢語語料庫不能采取一律刪除的辦法,而需要根據(jù)具體情況采用不同的處理方式。1.《太平天國經(jīng)》下的《標(biāo)準(zhǔn)化經(jīng)》在古代文獻(xiàn)流傳過程中,部分句子、段落、篇章的漏失甚至全文的亡佚,是一個(gè)極為普遍的現(xiàn)象。幸運(yùn)的是,其中的一些文字由于其他文獻(xiàn)的征引而存留至今。古人征引他人文獻(xiàn)時(shí),往往對原文進(jìn)行各種各樣的加工,如,改換其中的部分字詞,僅僅轉(zhuǎn)引其大意而非照錄原文,甚至可能故意造假冒充原文等。經(jīng)過歷代學(xué)者的鉤稽,得到了中古文獻(xiàn)的不少佚文材料。在現(xiàn)代的校點(diǎn)、整理本中,通常會附錄在原文的相應(yīng)位置。如:[存]甲部第一云:“學(xué)士習(xí)用其書,尋得其根,根之本宗,三一為主?!薄兜澜塘x樞》卷二《七部義》及《云笈七簽》卷六《四輔》引。(《太平經(jīng)》甲部)案:中古漢語語料庫中的《太平經(jīng)》以中華書局出版的王明《太平經(jīng)合校》為底本。這段材料中,“[存]”后面的文字是從其他文獻(xiàn)中鉤稽出來的佚文及其具體出處,如凡例所說,“《太平經(jīng)圣君秘旨》及他書中往往引有《太平經(jīng)》之佚文,凡知其在經(jīng)卷之地位者,則分別依上三例校訂之。其地位失考而知其卷數(shù)者,則附存卷末。僅知其帙數(shù)者(每部十七卷為一帙),則附存帙末。若卷帙均不知者,則附存全書之末?!敝T如此類的佚文材料,雖然具有一定的學(xué)術(shù)價(jià)值,卻可能夾雜著一些竄改、偽托的成分,并不能完全等同于中古文獻(xiàn)。因此,中古漢語語料庫對《太平經(jīng)》的收錄、加工,同樣采用了比較審慎的處理方法:收錄時(shí)保留這些佚文材料,按照與正文相同的方式進(jìn)行切詞、標(biāo)注,同時(shí)在它們的起止位置添加“存某書某篇”之類的說明性文字。當(dāng)然,也可以根據(jù)語料庫的設(shè)計(jì)框架添加統(tǒng)一的符號性標(biāo)記。2.標(biāo)記性文字的使用中古文獻(xiàn)的正文之外,大多包含著一些與正文內(nèi)容相關(guān)的標(biāo)記性文字,主要包括書名、篇名、作者以及卷數(shù)序號等,大致可以視為不同層級標(biāo)題的組成部分,如《洛陽伽藍(lán)記》《齊民要術(shù)》每卷的卷首都有“后魏撫軍府司馬楊衒之撰”“后魏高陽太守賈思勰撰”以及文獻(xiàn)名稱、具體卷數(shù)等字眼,每篇的開頭也有篇名及其在全書中序號的說明。中古漢語語料庫把各級標(biāo)題中的這些說明性文字統(tǒng)統(tǒng)視為標(biāo)記性附屬材料,僅僅保留原文,不做其他切詞、標(biāo)注工作。因?yàn)榫頂?shù)序號基本上不具備漢語史研究價(jià)值,時(shí)代、職銜及作者姓名則是后人添加的,同樣也不具備漢語史研究價(jià)值。中古文獻(xiàn)的正文中,還會有一些比較特殊的標(biāo)記性文字,通常也采用夾文小注的形式,其內(nèi)容與正文密切相關(guān),但又不能完全等同。如:別日何易會日難,山川悠遠(yuǎn)路漫漫。(一解)郁陶思君未敢言,寄書浮云往不還。(二解)涕零雨面毀形顏,誰能懷憂獨(dú)不嘆。(三解)耿耿伏枕不能眠,披衣出戶步東西。(四解)展詩清歌聊自寬,樂往哀來摧心肝,悲風(fēng)清厲秋氣寒,羅幃徐動(dòng)經(jīng)秦軒。(五解)仰戴星月觀云間,飛鳥晨鳴聲可憐,留連顧懷不自存。(六解)(《宋書·樂志三》)案:這是曹丕《燕歌行》的歌詞。其中的“解”,表示古代長篇詩歌、樂曲的章節(jié),“一解”就是第一次奏樂,“二解”就是第二次奏樂,依此類推。另如曹操《苦寒行》“北上太二行二山二,艱二哉二何二巍二巍二”等歌詞中的“二”,表示字、詞、詩句甚至若干句歌詞的復(fù)奏或復(fù)唱,也就是說,奏唱時(shí)需要重復(fù)“二”前面的字、詞、句。如清人趙翼《陔馀叢考·重字二點(diǎn)》:“凡重字,下者可作二畫;始于《石鼓文》,重字皆二畫也。后人襲之,因作二點(diǎn);今并有作一點(diǎn)者?!边@在中華書局點(diǎn)校本《宋書》中曹操《秋胡行》的注釋也有大致相同的解釋:“古人凡重字,下一字可作二畫。石鼓文凡重字皆作二畫,蓋其濫觴。此篇每一字之下作二畫者,其讀法猶若音樂中之復(fù)奏?!币唤?、二解以及表示重字的“二”,雖然作為夾文小注附在歌詞之后,卻不能算是歌詞本身,更不能視為古代文獻(xiàn)中的重言詞。從嚴(yán)格意義上說,這些文字材料僅僅相當(dāng)于一些特殊的提示符號。即使與純粹的音義注釋材料相比,其漢語史價(jià)值也是微乎其微的。如果中古漢語語料庫保留這些標(biāo)記性文字,就需要根據(jù)其特點(diǎn)、性質(zhì)分別設(shè)計(jì)不同的符號。這樣的處理,不僅增加了語料庫的結(jié)構(gòu)層次,而且也加大了語料甄別的工作量及難度,更重要的是它們并不具備漢語史研究價(jià)值,因此,中古漢語語料庫原則上刪除了諸如此類的標(biāo)記性文字。二、漢字信息處理古代文獻(xiàn)的用字情況紛繁復(fù)雜。對于中古漢語語料庫而言,除了繁簡字、古今字、假借字、異體字、正俗字、避諱字、缺字、生僻字等比較常見的古代用字現(xiàn)象,還要解決古代文獻(xiàn)向入庫文本轉(zhuǎn)換過程中的諸多難題,如字庫未收字、新舊字形、紙質(zhì)印刷體與電腦字庫的不同、大陸與港臺地區(qū)繁體字的差異、類推簡化的范圍等。為了便于表述,本文把一個(gè)字在各個(gè)歷史階段的不同寫法統(tǒng)稱為“異形字”。這樣,中古漢語語料庫的文字問題,自然而然地就簡化成了兩個(gè)大類:一是各種情況下出現(xiàn)的異形字;二是在古代文獻(xiàn)中出現(xiàn)、電腦字庫中不存在的字庫未收字。相對而言,后者主要涉及電腦造字、語料庫顯示以及原文圖像與所造之字如何關(guān)聯(lián)等問題,基本上屬于技術(shù)與操作層面的問題,處理起來并不是非常困難。也就是說,最大的難題在于如何處理異形字。因?yàn)橹泄盼墨I(xiàn)中的不少異形字問題,同時(shí)涉及到了多種比較復(fù)雜的用字現(xiàn)象,必須根據(jù)具體情況分別進(jìn)行處理。在純粹的基于掃描技術(shù)的圖像版古籍?dāng)?shù)據(jù)庫中,完全保持了古籍的原貌,自然不存在復(fù)雜的文字問題,但是,在目前的技術(shù)條件下,這樣的數(shù)據(jù)庫很難滿足用戶的檢索需求,對于漢語史研究并沒有太大的實(shí)用價(jià)值。現(xiàn)有的各種圖像與文本對照數(shù)據(jù)庫以及標(biāo)注型漢語史語料庫,都不可避免地受到了文字處理方面的困擾。如文淵閣《四庫全書》全文檢索系統(tǒng)就存在不少無法顯示的空字,如《齊民要術(shù)·小豆》文例:熟耕耬下以為良,澤多者耬耩漫擲而勞之,如種麻法。未生白背,勞之極怪。漫擲犂案:這里的兩個(gè)符號“ue7e8”,在圖像版《四庫全書》檢索系統(tǒng)中表示空字,紙質(zhì)版《四庫全書》原文均為“這幾個(gè)字符實(shí)際上包含著兩個(gè)層面的問題:前者在圖像版中完全不能正常顯示;后者在圖像版中能夠正常顯示,轉(zhuǎn)換后卻無法正常顯示。兩者可以統(tǒng)稱為漢字信息處理過程中的亂碼現(xiàn)象,如尉遲治平《電子古籍的異體字處理研究》所說:“電子文獻(xiàn)中的漢字,只是數(shù)字的顯示形式??虒憹h字包括形音義三要素,數(shù)碼漢字包括碼形音義四要素。因此,二者的處理機(jī)制不同,前者由人腦處理,后者由計(jì)算機(jī)處理?!薄皵?shù)碼漢字在計(jì)算機(jī)屏幕上顯示的是字形,在系統(tǒng)里儲存的是數(shù)字。碼點(diǎn)相同即使形音義不同,計(jì)算機(jī)也作為同一漢字處理,反之,碼點(diǎn)不同即使形音義相同,計(jì)算機(jī)也作為不同的漢字處理——這就是所謂‘亂碼’”。作為標(biāo)注型語料庫的中古漢語語料庫,主要用于漢語詞匯、語法等領(lǐng)域的研究?,F(xiàn)有的圖像文本型語料庫,設(shè)計(jì)原則總體上是盡可能保存古籍原貌,如祝敬國《古籍語料庫字體與結(jié)構(gòu)研究》所說:“在古籍電腦化中可以利用電腦的多媒體技術(shù),把古籍原始的書刻印刷狀態(tài)以圖象方式存儲到電腦中。當(dāng)信息輸出時(shí),以文字反映古籍的文獻(xiàn)內(nèi)容,以圖象反映古籍的文物內(nèi)容。這樣,古籍的原始字體字形(包括避諱等因素造成的字形變異)等書刻特征就得到了完整的融匯?!鄙踔吝€要試圖保存“古籍的裝幀、收藏家印鑒、題跋、批注圈點(diǎn)等體現(xiàn)文物價(jià)值的圖象內(nèi)容”。中古漢語語料庫中的各種用字現(xiàn)象,按照下述思路分別予以相應(yīng)處理。第一,以文字處理而非圖像處理為總體目標(biāo),原則上不強(qiáng)調(diào)古籍外在形式的真實(shí),重在整理一個(gè)新的較為可靠的版本,為漢語詞匯、語法研究提供內(nèi)容真實(shí)的語言材料。用戶可以通過電腦閱讀文本,更重要的則是通過計(jì)算機(jī)進(jìn)行處理。文獻(xiàn)學(xué)所需的校勘、版本、辨?zhèn)蔚裙δ?,文字學(xué)所要求的呈現(xiàn)各個(gè)共時(shí)平面的漢字原始形貌、不同歷時(shí)階段的字形演變情況,以及文物學(xué)領(lǐng)域的保存古籍原版的紙張、色澤、書法等實(shí)體信息等,中古漢語語料庫通常不予考慮。第二,字形的選擇設(shè)立三個(gè)不同的優(yōu)先層級。一級字形:以2013年國務(wù)院頒布的《通用規(guī)范漢字表》及其附件《規(guī)范字與繁體字、異體字對照表》,作為中古漢語語料庫用字的標(biāo)準(zhǔn)字形。第三,字形的歸并原則。中古漢語語料庫使用繁體字,《通用規(guī)范漢字表》所附《規(guī)范字與繁體字、異體字對照表》之外的繁體字,使用《四庫全書》中最為常用的字形。具體操作方式如下:1.王寧縣某市清理書“異漢字”的構(gòu)字分類分為異寫字、異構(gòu)字兩種情況。如果是出于書寫者、刻版者個(gè)體習(xí)慣而造成的字形細(xì)節(jié)差異,包括線條、筆畫方面的臨時(shí)變異,即王寧《計(jì)算機(jī)古籍字庫的建立與漢字的理論研究》所說的“異寫字”,如果字的結(jié)構(gòu)和造意發(fā)生了變化,主要是指歷代不同形體的漢字積淀到后代而產(chǎn)生的若干字形,即王寧所說的“異構(gòu)字”。這種類型的異體字,中古漢語語料庫采用了王東?!豆盼墨I(xiàn)數(shù)字語料庫的異形字處理》提出的處理方法:根據(jù)各個(gè)字形的使用頻率,在多個(gè)形體中確定一個(gè)字形作為標(biāo)準(zhǔn)體,在語料庫中進(jìn)行置換,也就是說廢除了標(biāo)準(zhǔn)體以外的其他字形。具有多重身份的異體字,即所謂“一對多”的異體字,采用楊應(yīng)芹《關(guān)于古籍整理中異體字的研究》提出的處理方法——根據(jù)該字在具體文獻(xiàn)語境中的意義,改為相應(yīng)的通用字形。2.網(wǎng)格化后的后形中古漢語語料庫中的文本,原則上完全轉(zhuǎn)換為繁體字。其中存在一些比較特殊的情況:一部分現(xiàn)代的簡體字,其字形的產(chǎn)生時(shí)代可能早于繁體字,或者在時(shí)代性方面存在一定的交叉,或者難以準(zhǔn)確判定繁、簡字形產(chǎn)生的時(shí)代,統(tǒng)一改為常用的繁體字。一部分現(xiàn)代的簡體字,其字形對應(yīng)著古代的多個(gè)繁體字,也就是通常所說的“一對多”現(xiàn)象,根據(jù)字的意義、用法改為相應(yīng)的繁體字。尤其需要注意的是,地名、人名等專名中的字,紙質(zhì)文本如果用的是簡體字形,必須維持其原貌而不能改為繁體字。這是因?yàn)楣糯膬蓚€(gè)字,現(xiàn)代簡化成了同一個(gè)字。如,古代地名“武強(qiáng)”,不能改為“武彊”;用作姓氏的“仇”,不能改為“讎”。部分繁體字的字形,大陸地區(qū)和港臺地區(qū)存在細(xì)節(jié)性差異。文本轉(zhuǎn)換之后,如果電腦系統(tǒng)使用的是港臺地區(qū)的繁體字,則統(tǒng)一改為《通用規(guī)范漢字表》所附《規(guī)范字與繁體字、異體字對照表》中列出的字形。3.古今與借用保
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤礦職業(yè)病培訓(xùn)制度
- 出租車駕駛崗前培訓(xùn)制度
- 教師消防培訓(xùn)制度
- 中小學(xué)培訓(xùn)班考核制度
- 奶牛場培訓(xùn)考核制度
- 運(yùn)營培訓(xùn)教室管理制度
- 2025航天新氣象科技有限公司招聘1人筆試歷年參考題庫附帶答案詳解
- 中職學(xué)校培訓(xùn)制度
- 2025湖北襄陽軸承公司一線人員招聘50人筆試參考題庫附帶答案詳解(3卷)
- 2025浙江寧波市象山縣水務(wù)集團(tuán)有限公司招聘高層次人員1人筆試歷年參考題庫附帶答案詳解
- 2026年滁州全椒縣教育體育局所屬學(xué)校校園招聘教師16名筆試備考題庫及答案解析
- 保溫一體板外墻施工方案
- 廣州大學(xué)2026年第一次公開招聘事業(yè)編制輔導(dǎo)員備考題庫及1套參考答案詳解
- 廣州市衛(wèi)生健康委員會直屬事業(yè)單位廣州市第十二人民醫(yī)院2025年第一次公開招聘備考題庫完整答案詳解
- 2024-2025學(xué)年廣東省廣州市越秀區(qū)八年級上學(xué)期期末數(shù)學(xué)試卷(含答案)
- 【行測題庫】圖形推理題庫
- 中醫(yī)學(xué)基礎(chǔ)臟腑經(jīng)絡(luò)詳解演示文稿
- ICH指南指導(dǎo)原則Q11原料藥開發(fā)和生產(chǎn)課件
- 安全技術(shù)交底情況監(jiān)理核查記錄表
- Q∕GDW 12158-2021 國家電網(wǎng)有限公司重大活動(dòng)電力安全保障工作規(guī)范
- 腺病毒表達(dá)系統(tǒng)PPT
評論
0/150
提交評論