下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
日語(yǔ)分詞技術(shù)在日語(yǔ)教材開發(fā)中的應(yīng)用構(gòu)想外語(yǔ)教學(xué)除了外語(yǔ)教師及其教學(xué)經(jīng)驗(yàn)等人的因素外,外語(yǔ)教材可以說(shuō)是外語(yǔ)教學(xué)的核心因素。如何提高外語(yǔ)教材的開發(fā)質(zhì)量和效率、縮短開發(fā)周期、減輕老師的工作量一直是外語(yǔ)老師關(guān)心的課題。隨著對(duì)自然語(yǔ)言計(jì)算機(jī)處理研究的不斷深入,今年來(lái)自然語(yǔ)言處理領(lǐng)域的研究取得了豐碩的成果的已經(jīng)達(dá)到實(shí)用水平日語(yǔ)的分詞詞性標(biāo)注、讀音標(biāo)注技術(shù)就是其中的一項(xiàng)外已經(jīng)有人將其應(yīng)用在外語(yǔ)的輔助閱讀如應(yīng)用這一技術(shù)直接服務(wù)外語(yǔ)教學(xué)尚未見(jiàn)報(bào)道。一、日語(yǔ)的分詞技術(shù)和分詞系的簡(jiǎn)介和漢語(yǔ)一樣,日語(yǔ)是一種書面語(yǔ)中單詞之間沒(méi)有物理界限的語(yǔ)言。因此,分詞是日語(yǔ)計(jì)算機(jī)處理的基礎(chǔ)工作。根據(jù)學(xué)校語(yǔ)法日中至少存在3小于句子的語(yǔ)言單位因日分詞工作開始前必須確定分詞的單位。即分詞是切分出詞、還是詞素、還是句節(jié)。句節(jié)雖然是句法成分的直接構(gòu)成單位,但是,由于句節(jié)定義本身存在缺陷和不足,導(dǎo)致用句節(jié)這個(gè)概念進(jìn)行句法解釋時(shí)容易引起混亂。如:私は日本語(yǔ)の先生です正確は日本語(yǔ)の先生)す)錯(cuò)誤は(日本語(yǔ)の先で/)用句節(jié)分析句子引起的這種混亂在日語(yǔ)中不是個(gè)別現(xiàn)象果不作特殊處理詞段將日語(yǔ)句子切分成句節(jié)將會(huì)給以后的句法分析造成一定的麻煩和困難。盡管如此,日本岐阜大學(xué)池田研究室還是開發(fā)了一個(gè)以句節(jié)為切分單位的分詞系統(tǒng)IBUKI且得了較高的切分精度98%)。從詞形上講出現(xiàn)在日語(yǔ)句子中單詞和詞典里的單詞在形態(tài)上存在一定的差別是由于日語(yǔ)的動(dòng)詞、形容詞、助動(dòng)詞具有豐富的形態(tài)變化,出現(xiàn)在句子中的一般都是這些詞的變化形式。日語(yǔ)中動(dòng)詞“表す示)這個(gè)詞在句子中可能有如下的變化形式:表す、表さ、表せ、表し、表そ等。另外,日語(yǔ)中還存在許多同形異義詞,因此,如果籠統(tǒng)地將日文的分詞工作看成將日語(yǔ)句子切分成單詞是沒(méi)有意義的。切分成詞素,也是有缺陷的。即把語(yǔ)言單位切分得過(guò)細(xì),使得復(fù)合詞往往被切碎。由于日語(yǔ)中詞素和詞在形態(tài)上一致的詞很多,因此,日本現(xiàn)有的日語(yǔ)分詞軟件絕大多數(shù)都是以詞素為單位進(jìn)行日語(yǔ)句子的切分的但是這些軟件也同時(shí)注意到了盡可能不將復(fù)合詞切碎。詞素在日語(yǔ)中叫做形態(tài)素,因此日語(yǔ)的分詞也叫形態(tài)素分析。日語(yǔ)的形態(tài)素分析主要是完成四項(xiàng)工作:分詞:將日語(yǔ)句子切分成形態(tài)素?;钣眯翁幚恚簩⒕渥又杏醚缘淖兓螒B(tài)復(fù)原成詞典里的詞條形態(tài)確定詞性:日語(yǔ)的單詞一般都有確定的詞性。多數(shù)日語(yǔ)分詞系統(tǒng)能夠在分詞的同時(shí)就給出詞性。標(biāo)注漢字讀音:跟漢語(yǔ)一樣,日語(yǔ)漢字具有多種讀法,多音詞很多。同樣的漢字在不同的語(yǔ)境中的讀音是不一樣的。因此,日語(yǔ)漢字注音也是日語(yǔ)形態(tài)素解析的一項(xiàng)重要任務(wù)。
如日本輔助閱讀網(wǎng)站リーディング?チュウ太岸井謙一等「文節(jié)解析システムibuki自動(dòng)點(diǎn)訳システムIBUKI-TEN」.gifu-u.ac.jp1上世紀(jì)九十年代以后,在日本涌現(xiàn)了許多分詞系統(tǒng),如:富士通的breakfast、的すもも、日本奈良先端科技大學(xué)院大學(xué)松本研究室開發(fā)的CHASEN系等。其中最有名,并且得到了廣泛應(yīng)用。為了論證日語(yǔ)切分系統(tǒng)chasen教材開發(fā)中應(yīng)用的可能性,我們用chasen對(duì)目漱石小哥兒行分詞抽30800詞進(jìn)行校對(duì)其點(diǎn)和局限性進(jìn)行了分析詞中出現(xiàn)錯(cuò)誤299處切分正確率為99.03%有樣的精度在教材的開發(fā)上應(yīng)該是可以利用的。二、日語(yǔ)的分詞技術(shù)在教材開發(fā)的應(yīng)用設(shè)想日語(yǔ)教材的編撰一般經(jīng)過(guò)以下幾個(gè)步驟:⑴選材;⑵單詞注釋、單詞查重、編排單詞表、編排單詞索引;⑶注釋語(yǔ)法項(xiàng)目、語(yǔ)法項(xiàng)目查重、語(yǔ)法項(xiàng)目索引;⑷注釋句型、句型查重、編排句型索引;⑸編寫練習(xí);⑹教材印刷。傳統(tǒng)的教材編寫方法主要是手工作業(yè),外語(yǔ)教師工作量大,編材周期長(zhǎng),特別是在注釋單詞、編排單詞索引、查找例句等環(huán)節(jié)要消耗大量人力,而且不可避免地會(huì)出現(xiàn)單詞、句型、語(yǔ)法等的漏注和重注現(xiàn)象,影響教材的質(zhì)量。90年以來(lái),由于激光照排業(yè)的興起和計(jì)算機(jī)文字處理系統(tǒng)功能的完善,日語(yǔ)教材在編寫過(guò)程中也應(yīng)用了計(jì)算機(jī)是這應(yīng)用主要是將計(jì)算機(jī)當(dāng)作排版和印刷工具來(lái)提高日語(yǔ)教材的印刷質(zhì)算機(jī)在編寫教材的核心環(huán)節(jié)并沒(méi)有真正發(fā)揮作用。在日語(yǔ)教材的開發(fā)過(guò)程中應(yīng)用日語(yǔ)的分詞技術(shù)的主要思路是利用自然語(yǔ)言處理的新技術(shù)和數(shù)據(jù)庫(kù)查詢技術(shù)別是日語(yǔ)句子的計(jì)算機(jī)自動(dòng)切分性動(dòng)標(biāo)注、日文漢字讀音的自動(dòng)標(biāo)注技術(shù),憑借中日分類機(jī)器辭典、句型辭典和語(yǔ)料庫(kù),實(shí)現(xiàn)日語(yǔ)教材編撰過(guò)程中單詞注釋詞查重編排單詞表排總單詞表句型查重、編排句型索引、索引生成的全自動(dòng)化以及注釋語(yǔ)法項(xiàng)目、語(yǔ)法項(xiàng)目查重、編排語(yǔ)法項(xiàng)目表、注釋句型的半自動(dòng)化。要實(shí)現(xiàn)這一設(shè)想主要主要存在以下幾個(gè)重點(diǎn)和難點(diǎn):日語(yǔ)句子自動(dòng)切分和語(yǔ)法的自動(dòng)標(biāo)注學(xué)校語(yǔ)法體系和句型語(yǔ)法體系的確定計(jì)算機(jī)中日分類辭典的研制單詞自動(dòng)查重、注釋和索引句型和語(yǔ)法項(xiàng)目的抽取、查重、注釋以及例句查找隨著信息科學(xué)的迅猛發(fā)展,國(guó)內(nèi)外在語(yǔ)言處理領(lǐng)域均取得了豐碩的成果。這些成果有的已經(jīng)相當(dāng)成熟且許多領(lǐng)域得到了應(yīng)用幾年IBM公推出的Voicetype語(yǔ)錄入系統(tǒng),就是語(yǔ)音識(shí)別的研究成果在計(jì)算機(jī)輸入上的應(yīng)用。文字處理系統(tǒng)WPS2000和WORD2000中提的語(yǔ)法糾錯(cuò)功能就是面向信息處理的語(yǔ)法學(xué)研究成果在計(jì)算機(jī)文字處理方面的應(yīng)用利用這些技術(shù)來(lái)服務(wù)外語(yǔ)教學(xué)也是值得我們研究的課題。參考文獻(xiàn):[1]松本裕治他日本語(yǔ)形態(tài)素解析システ筅
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 瀏陽(yáng)市人民醫(yī)院2025年公開招聘編外合同制人員備考題庫(kù)及參考答案詳解1套
- 湖南省株洲市2023-2024學(xué)年九年級(jí)上學(xué)期期末考試物理試卷(含答案)
- 2026年住宅裝修設(shè)計(jì)合同
- 2025年第十三師中級(jí)人民法院聘用制書記員招聘?jìng)淇碱}庫(kù)及1套參考答案詳解
- 中國(guó)人民銀行所屬企業(yè)網(wǎng)聯(lián)清算有限公司2026年度校園招聘26人備考題庫(kù)及參考答案詳解
- 2026年科技成果評(píng)估作價(jià)入股合同
- 2025年招商銀行佛山分行社會(huì)招聘?jìng)淇碱}庫(kù)及1套參考答案詳解
- 2025年青島市李滄區(qū)人民法院公開招聘司法輔助人員備考題庫(kù)及答案詳解1套
- 長(zhǎng)沙市望城區(qū)人民醫(yī)院2025年面向社會(huì)公開招聘編外合同制專業(yè)技術(shù)人員備考題庫(kù)及1套完整答案詳解
- 青島日?qǐng)?bào)社招聘事業(yè)單位工作人員筆試真題2024
- 香薰蠟燭基礎(chǔ)知識(shí)培訓(xùn)
- 混凝土及外加劑知識(shí)培訓(xùn)課件
- 1-視頻交換矩陣
- 收養(yǎng)政策知識(shí)培訓(xùn)內(nèi)容課件
- 石化企業(yè)應(yīng)急預(yù)案
- 船舶航次計(jì)劃總結(jié)
- 2025-2026學(xué)年統(tǒng)編版一年級(jí)上冊(cè)道德與法治教學(xué)計(jì)劃
- 《機(jī)器學(xué)習(xí)》課件-第6章 強(qiáng)化學(xué)習(xí)
- 早產(chǎn)合并新生兒呼吸窘迫綜合征護(hù)理查房
- 2025-2026學(xué)年人教鄂教版三年級(jí)科學(xué)上冊(cè)(全冊(cè))教學(xué)設(shè)計(jì)(附目錄)
- 2025年機(jī)關(guān)司機(jī)面試常見(jiàn)問(wèn)題及答案集
評(píng)論
0/150
提交評(píng)論