面向華裔留學(xué)生的漢字學(xué)習(xí)文本的獲取_第1頁
面向華裔留學(xué)生的漢字學(xué)習(xí)文本的獲取_第2頁
面向華裔留學(xué)生的漢字學(xué)習(xí)文本的獲取_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余10頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

面向華裔留學(xué)生的漢字學(xué)習(xí)文本的獲取一、問題的提出漢字難認(rèn)、難記是漢語學(xué)習(xí)者和漢語教師的共識。華裔留學(xué)生作為特殊的漢語學(xué)習(xí)群體,在留學(xué)生中占有相當(dāng)大的比重,他們與其他學(xué)習(xí)者有著不同的語言和背景。相當(dāng)數(shù)量的留學(xué)生在家庭中使用普通話或粵語、客家話等漢語方言。一般來說,華裔留學(xué)生對語義、句法知識的掌握水平較高,同時(shí)具有較高的漢語聽說水平;然而其漢字認(rèn)讀水平與其他單項(xiàng)習(xí)得水平嚴(yán)重脫節(jié)。這種現(xiàn)象長期以來給教學(xué)分班、教學(xué)資料選擇和課堂教學(xué)帶來了相當(dāng)大的難題。筆者針對華裔留學(xué)生做過一項(xiàng)學(xué)習(xí)動(dòng)機(jī)與需求調(diào)查,結(jié)果表明,絕大多習(xí)者希望在加強(qiáng)聽、說、讀、寫整體漢語水平的基礎(chǔ)上,能在有限的時(shí)間內(nèi)盡可能掌握更多的漢字。尤其是以字母文字為母語的華裔學(xué)生,如何在最大程度上提高常用漢字的認(rèn)讀能力,始終是他們在整個(gè)學(xué)習(xí)過程中最為關(guān)心的問題。漢字教學(xué)是對外漢語教學(xué)的重點(diǎn)和難點(diǎn)。據(jù),漢字的總數(shù)超過8萬個(gè)。〔現(xiàn)代漢語常用詞表〕中常用漢字的數(shù)目為3500個(gè)左右。其中,按照使用頻率分類,常用漢字2500個(gè),次常用漢字1000個(gè)。面對如此龐大的漢字集,究竟哪些漢字對留學(xué)生來說最需要記憶,采用何種記憶方式,提供何種漢字學(xué)習(xí),在具體操作中隨意性和主觀性較大。現(xiàn)行通用的漢字學(xué)習(xí)輔助資料一般分為兩種。一是漢字介紹型書籍,主要針對有代表性的獨(dú)體字、形聲字等進(jìn)行描述與解釋,進(jìn)而幫助學(xué)習(xí)者在音、形、義的基礎(chǔ)上去臨摹、認(rèn)讀與記憶漢字。另一種為按拼音從A至Z排序的詞表型詞典。課堂漢字教學(xué)普遍參照課后的生詞表、整本書的生詞表或〔新HSK詞匯等級大綱詞表〕〔以下簡稱〔大綱〕〕。上述兩類傳統(tǒng)的漢字學(xué)習(xí)一直被廣泛使用,但這些學(xué)習(xí)文本有著自身無法克服的缺陷。漢字介紹型書籍主要以激發(fā)學(xué)習(xí)者學(xué)習(xí)漢字的興趣為目的,篇幅集中于一些象形字或形聲字等。然而這些字相對于3500個(gè)常用字來說所占比例極小,對于掌握一定數(shù)量的常用漢字的目標(biāo)來說遠(yuǎn)遠(yuǎn)不夠。詞表型詞典以拼音排序,漢字之間缺少內(nèi)在的語義關(guān)聯(lián),即便是同一篇課文后的生詞表,詞匯之間語義割裂現(xiàn)象依舊明顯。漢字的學(xué)習(xí)不能脫離語義信息。分析語言現(xiàn)象,必須把和它所依賴的語境聯(lián)系起來,把一個(gè)語言片段孤立起來分析,難于判斷這個(gè)語言片段的結(jié)構(gòu)和意義。[1]從認(rèn)知語言學(xué)的角度分析,詞匯是語義場中的節(jié)點(diǎn),節(jié)點(diǎn)之間互相關(guān)聯(lián),一個(gè)節(jié)點(diǎn)的激活引發(fā)下一個(gè)節(jié)點(diǎn)的激活。孤立地去記憶詞匯,不僅枯燥、單調(diào)且較難產(chǎn)生長久記憶;同時(shí),詞語只有進(jìn)入上下文語言才能與其他詞匯建立某種有意義的關(guān)聯(lián)。詞匯的意義表達(dá)不能脫離語言形式與組配關(guān)系。若根據(jù)人為主觀判斷提供給學(xué)習(xí)者一個(gè)句子、段落或篇章進(jìn)行漢字學(xué)習(xí),就有可能出現(xiàn)超綱詞或非常用詞,同時(shí),重復(fù)出現(xiàn)的詞匯會(huì)影響漢字學(xué)習(xí)效率。漢字學(xué)習(xí)不僅僅是一個(gè)多看、多寫、多練的過程。提供給學(xué)習(xí)者何種漢字學(xué)習(xí)材料能達(dá)到最高效的漢字習(xí)得目標(biāo),同樣需要引起對外漢語教學(xué)界的重視。本文利用語料庫語言學(xué)的方法為華裔留學(xué)生提供一種不同于傳統(tǒng)漢字學(xué)習(xí)的參考文本,學(xué)習(xí)者可通過學(xué)習(xí)最少的句子,掌握最多的漢字?;谡Z料庫的識別方法可提供給學(xué)習(xí)者最客觀的,能夠體現(xiàn)詞匯搭配關(guān)系及語用價(jià)值的真實(shí)語言,使教師在選材過程中不受主觀人為因素的干擾,避免了孤立、無關(guān)聯(lián)的漢字組合或人為主觀虛構(gòu)的句子的出現(xiàn)。獲取這樣的句子集合,對于漢語教師以及漢語學(xué)習(xí)者都具有現(xiàn)實(shí)意義。語料庫語言學(xué)與對外漢語教學(xué)的結(jié)合,前人已有研究。鄭艷群[2]、盧偉[3]將語料庫的知識廣泛于漢語教學(xué)相關(guān)分支;郭曙綸[4]、蔡永強(qiáng)[5]等將語料庫知識輔助漢語詞典編纂;張寶林[6]使用語料庫對語法項(xiàng)目進(jìn)行考察;楊泉[7]用語料庫進(jìn)行偏誤、糾錯(cuò)研究等。然而,將語料庫語言學(xué)于面向漢字學(xué)習(xí)文本的識別,學(xué)界尚不多見。一般來說,語料中使用頻度高的文本應(yīng)作為教學(xué)材料選擇的候選集。對留學(xué)生而言,掌握該類漢字集更具有實(shí)用價(jià)值。獲取該漢字集并非只是依靠語料進(jìn)行字頻或詞頻、排序得到一個(gè)高頻字詞表的工作。漢字教學(xué)不能脫離句子教學(xué),句子集合不是詞匯的簡單羅列。句子囊括的漢字不僅使用頻度高,且能體現(xiàn)真實(shí)的句法功能和詞語間的搭配信息。筆者通過考察幾套市面上使用較為廣泛的漢語教學(xué)資料,發(fā)現(xiàn)主觀性較強(qiáng)、句子語用價(jià)值不高,或在真實(shí)語言中使用頻率極低的句子被教學(xué)資料收錄的現(xiàn)象始終存在。例如:一些教學(xué)資料中以常見的句式“這是桌子〞為例進(jìn)行闡述。從語用價(jià)值層面分析“這是桌子〞可能出現(xiàn)的語境分為兩類。一是幼兒語言習(xí)得;二是說話者抱怨一張不能正常使用的桌子,且該句應(yīng)采用反問語氣“這是桌子?〞。顯然,這兩種語言環(huán)境都不適用于漢語作為第二語言教學(xué)。這種低語用價(jià)值的句子在真實(shí)語料中出現(xiàn)的概率極低,我們認(rèn)為不應(yīng)作為漢語教學(xué)的參考文本。例句的選取應(yīng)展示詞匯的語法特點(diǎn),提供充足的語義信息,具有實(shí)際的語用價(jià)值。[5]基于大規(guī)模語料庫的句子識別,避免了教學(xué)資料編纂者閉門造車現(xiàn)象的發(fā)生。二、基于語料庫統(tǒng)計(jì)的句子識別本文采用句子的高頻詞密度定義句子中包含高頻常用詞的程度,從而識別出高頻詞密度大的句子集合。詞型詞例比用來衡量文本中的詞匯密度,即不同的詞全部數(shù)目占文本實(shí)際出現(xiàn)的詞語總數(shù)的比率。反映在漢字能力測試層面,詞型詞例比體現(xiàn)學(xué)生所掌握詞匯的覆蓋率。同理,句子的高頻詞詞匯密度反映了句子的使用頻度,包含高頻詞匯多的句子具有較高的高頻詞匯密度。基于以上觀察,本文采用統(tǒng)計(jì)的方式來進(jìn)行高頻漢字句子集的識別。計(jì)算步驟如此圖1:圖1:高頻漢字句子集識別流程圖流程說明:1.語料的預(yù)處理通過語料庫過濾去掉噪音信息,文本以句子集合的純文本格式保存。2.將句子進(jìn)行分詞并統(tǒng)計(jì)詞頻〔大綱〕是教學(xué)資料編纂、等級考試、學(xué)生學(xué)習(xí)以及教師教學(xué)重要的詞匯參考指標(biāo)?!泊缶V〕中的一、二、三級詞匯主要面向初、中級漢語學(xué)習(xí)者。其中,一級詞匯150個(gè),總字?jǐn)?shù)172個(gè);二級詞匯300個(gè),總字?jǐn)?shù)344個(gè);三級詞匯600個(gè),總字?jǐn)?shù)623個(gè)。〔大綱〕中前三級所包含的詞匯基本能滿足大部分華裔學(xué)生的認(rèn)讀需求與目標(biāo)。本文只選用大綱前三個(gè)等級的詞匯進(jìn)行實(shí)驗(yàn)。由于每個(gè)等級詞匯數(shù)與字?jǐn)?shù)基本一致,我們采用詞頻統(tǒng)計(jì)的方法以保證漢字意義的完備性和形式上的整體性。識別算法基于詞頻統(tǒng)計(jì),因此,需要對語料庫文本進(jìn)行分詞處理。本文使用中科院的ICTCLAS分詞對整個(gè)語料庫進(jìn)行分詞處理。3.句子長度〔將句子長度定義為詞語個(gè)數(shù)〕的處理適合華裔學(xué)生漢字學(xué)習(xí)的句子需要考慮二語學(xué)習(xí)者的可接受程度及句子的可擴(kuò)展程度。因此,句子長度需要做一定的限制。詞匯擴(kuò)展是對外漢語課堂詞匯教學(xué)的一項(xiàng)重要內(nèi)容,將詞擴(kuò)展到短語,短語擴(kuò)展到單句,單句擴(kuò)展到復(fù)句是詞匯操練的一個(gè)重要項(xiàng)目。在對語料的考察中,我們發(fā)現(xiàn),長度小于3的句子多數(shù)為短語,而考察的目標(biāo)是識別出一個(gè)語法結(jié)構(gòu)完整的句子;而長度大于15的句子,多以復(fù)句或多重嵌套形式出現(xiàn),不適合漢語教學(xué)對象的語言水平。因此,本文針對華裔留學(xué)生的語言學(xué)習(xí)特點(diǎn),將長度小于3的或大于15的句子過濾掉。4.使用〔大綱〕詞表進(jìn)行過濾依據(jù)〔大綱〕制定過濾模板,過濾掉包含詞表之外詞語的句子。由于句子識別是基于較大規(guī)模語料庫,同時(shí)語料庫可進(jìn)行動(dòng)態(tài)更新,所以,詞表過濾過程不會(huì)影響到識別的召回率。5.句子評分算法句子評分算法為每個(gè)句子提供客觀的評價(jià)依據(jù)。由于每個(gè)詞匯在實(shí)際語料庫中出現(xiàn)的頻率不同,即每個(gè)詞匯在語料中的重要程度對識別結(jié)果的貢獻(xiàn)度不同,因此,句子評分采用詞頻作為權(quán)重。設(shè):〔1〕語料庫為,其中為第i個(gè)句子;〔2〕句子,其中為句子中的某個(gè)詞匯,m為句子中的詞匯總數(shù);〔3〕語料庫中出現(xiàn)的所有詞匯集合為,其中:為語料庫中出現(xiàn)的詞匯;〔4〕每個(gè)詞匯的權(quán)重得分為:其中:為減少句子中重復(fù)詞匯對句子得分的影響,我們對詞匯的權(quán)重按如下公式進(jìn)行平滑處理:〔5〕每個(gè)句子的得分為算法的目的是尋找語料庫中得分最高的句子,即句子評分公式如下:其中:經(jīng)過該公式為所有句子評分后,從語料庫中識別出得分最高的若干句子作為候選句子集合。6.詞匯去重高頻詞匯句子集識別的目標(biāo)是從語料庫中識別出最少的句子且識別出的句子包含最多的詞匯,同時(shí)這些詞匯具有不重復(fù)性,即識別出的句子集合中各個(gè)句子之間詞匯交集最小。某些詞匯,比如:虛詞“了和的〞,代詞“我和你〞等在語料中出現(xiàn)頻率極高,重疊出現(xiàn)是不可避免的,由于這類詞匯數(shù)量相對有限,對整個(gè)識別效率的影響可忽略不計(jì)。假設(shè)已識別的句子集合為F,而集合F中的詞匯集合為H,則算法描述如下:輸入?C語料庫C輸出?C結(jié)果句子集合F重復(fù)以下步驟直到F中的句子包含所有的〔大綱〕詞匯找出C中得分最高的句子SF←F+SC←C-SH←H+S中的所有詞匯其中計(jì)算C中每個(gè)句子得分時(shí)需將集合H中的詞匯影響去掉。三、實(shí)驗(yàn)與結(jié)果分析〔一〕實(shí)驗(yàn)方案實(shí)驗(yàn)使用的語料庫;為互聯(lián)網(wǎng)、報(bào)刊雜志和專業(yè)書籍等。語料規(guī)模為150M。語料庫內(nèi)容以日常生活、語言學(xué)習(xí)類文本為主,同時(shí)還兼有文體娛樂及體裁的內(nèi)容,這些文本含有大量的日常用語,能滿足留學(xué)生的學(xué)習(xí)、工作等交際需要。另外,語料庫中負(fù)載詞、漢語特有句式密度較大,這可以幫助學(xué)習(xí)者掌握必要的語用知識以及相關(guān)的中國文化知識。語料庫經(jīng)過本文描述的算法處理后得到最終結(jié)果?!捕硨?shí)驗(yàn)評價(jià)指標(biāo)本文采用召回率、準(zhǔn)確率和識別效率3個(gè)參數(shù)對系統(tǒng)進(jìn)行客觀評價(jià)。1.召回率召回率反映系統(tǒng)正確識別的結(jié)果占所有可能正確結(jié)果的比例,計(jì)算表達(dá)式為:其中,n為〔大綱〕詞表中的詞匯總數(shù),m為識別的句子集合S中包含的〔大綱〕詞表中的詞匯數(shù)。2.準(zhǔn)確率準(zhǔn)確率反映系統(tǒng)正確選取的結(jié)果占所有選取結(jié)果的比例,計(jì)算表達(dá)式為:其中,n為識別出的句子集合S中的詞匯總數(shù),m為集合S中包含的〔大綱〕詞表中的詞匯數(shù)。只有準(zhǔn)確率較高才能保證識別的集合較小。3.識別效率識別效率反映算法每次迭代識別時(shí)句子中有效詞匯的比例,計(jì)算表達(dá)式為:其中,n為當(dāng)下句子的詞匯數(shù),m為當(dāng)下句子中包含的〔大綱〕詞表中的詞匯數(shù)。該值越高,說明一次迭代識別到的有效詞匯越多,因此,需要的總迭代次數(shù)就越小,從而使得識別句子的集合最小?!踩硨?shí)驗(yàn)結(jié)果實(shí)驗(yàn)發(fā)現(xiàn),隨著識別句子數(shù)的增加,系統(tǒng)的召回率逐步增大。句子數(shù)為50句時(shí),集合中〔大綱〕前三個(gè)等級詞匯為215個(gè);句子數(shù)為100句時(shí),詞匯為406個(gè);而在200句左右時(shí)趨于穩(wěn)定,集合中前三個(gè)等級詞匯達(dá)到545個(gè),召回率達(dá)到89.72%。如果綜合考慮算法效率和最終召回率,在相當(dāng)規(guī)模的語料庫基礎(chǔ)上,可將此數(shù)字作為迭代的終止次數(shù)。實(shí)驗(yàn)發(fā)現(xiàn),隨著句子數(shù)目的增加,準(zhǔn)確率不斷下降,即識別句子中非〔大綱〕前三個(gè)等級的詞匯占比逐漸增加。句子數(shù)為50句時(shí),集合中的總詞匯為232個(gè),其中,〔大綱〕前三個(gè)等級詞匯為215個(gè),準(zhǔn)確率為92.67%;句子數(shù)為100句時(shí),集合中的總詞匯為406個(gè),前三個(gè)等級詞匯為324個(gè),準(zhǔn)確率為79.80%;當(dāng)句子數(shù)達(dá)到200句時(shí),集合中的總詞匯為779個(gè),前三個(gè)等級詞匯已經(jīng)達(dá)到545個(gè),而此時(shí)的準(zhǔn)確率仍大于69.96%。實(shí)驗(yàn)顯示,隨著句子數(shù)的增加,識別效率不斷下降,但很快穩(wěn)定在0.19%左右,說明每次迭代都可以識別到新的詞匯,整個(gè)算法是收斂的。識別出來的句子集除了包含一些在語料中統(tǒng)計(jì)出的極為高頻的詞匯以外,句子之間的詞匯沒有其他交集。在語料選擇上,教師可根據(jù)學(xué)習(xí)者的學(xué)習(xí)需求加以選擇。例如:面向有商務(wù)漢語學(xué)習(xí)需求的學(xué)生,教師可加大語料中商務(wù)領(lǐng)域文本的比重。教師也可根據(jù)學(xué)習(xí)者學(xué)習(xí)時(shí)間的長短,在句子數(shù)量上加以選擇。在文本數(shù)量要求大,或?qū)︻I(lǐng)域性有一定傾向的情況下,應(yīng)該保證識別集合中的詞匯與〔大綱〕的緊密度與在真實(shí)母語環(huán)境中的流通度。僅憑借教師的經(jīng)驗(yàn)手工編寫句子文本顯然是不現(xiàn)實(shí)的,而通過本文的識別方法能滿足這兩方面的條件。四、結(jié)束語本文利用語料庫語言學(xué)的方法來發(fā)現(xiàn)包含高頻詞匯的最小句子集,以服務(wù)于華裔留學(xué)生這一特殊漢語學(xué)習(xí)群體的漢語學(xué)習(xí)。學(xué)習(xí)者通過學(xué)習(xí)最少的句子集合,掌握最多的常用漢字。這些詞匯不僅僅是真實(shí)漢語語料庫中的高頻詞,也是對外漢語教學(xué)的基本詞匯。利用該識別方法,漢語教師可從龐大的、雜亂無章的語料中獲取最適合教給學(xué)生的漢語句子集,避免了手工編寫漢字學(xué)習(xí)文本的主觀性。由于識別過程基于大規(guī)模語料

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論