《藏文信息處理的原理與應(yīng)用》教案 第1、2章 概論、藏文字符概述_第1頁(yè)
《藏文信息處理的原理與應(yīng)用》教案 第1、2章 概論、藏文字符概述_第2頁(yè)
《藏文信息處理的原理與應(yīng)用》教案 第1、2章 概論、藏文字符概述_第3頁(yè)
《藏文信息處理的原理與應(yīng)用》教案 第1、2章 概論、藏文字符概述_第4頁(yè)
《藏文信息處理的原理與應(yīng)用》教案 第1、2章 概論、藏文字符概述_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一、基本信息教學(xué)內(nèi)容:第1章概論課時(shí)安排:2課時(shí)課型:新授課二、“三備”1.教學(xué)內(nèi)容分析本章為全書(shū)的導(dǎo)論,奠定藏文信息處理(TibetanInformationProcessing,TIP)的學(xué)科基礎(chǔ),明確其作為交叉學(xué)科(計(jì)算機(jī)科學(xué)+藏語(yǔ)言學(xué))的屬性。理解“信息”的本質(zhì)及其處理流程;掌握中文與藏文信息處理的核心概念、研究范疇及技術(shù)差異;梳理藏文信息處理的發(fā)展脈絡(luò)與關(guān)鍵技術(shù)突破,構(gòu)建藏文信息處理的研究框架。2.教學(xué)對(duì)象分析(1)知識(shí)基礎(chǔ)學(xué)生已完成語(yǔ)言類(C/Java/Python)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫(kù)、操作系統(tǒng)等核心課程,具備:編程基礎(chǔ):掌握至少2種編程語(yǔ)言語(yǔ)法及基礎(chǔ)算法實(shí)現(xiàn)能力。系統(tǒng)認(rèn)知:理解計(jì)算機(jī)系統(tǒng)層次結(jié)構(gòu)及操作系統(tǒng)基本原理。數(shù)據(jù)處理能力:熟悉關(guān)系型數(shù)據(jù)庫(kù)設(shè)計(jì)與SQL操作。算法思維:掌握常見(jiàn)數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ)與操作時(shí)間復(fù)雜度分析。(2)能力特征根據(jù)專業(yè)培養(yǎng)規(guī)格,學(xué)生應(yīng)具備:工程實(shí)踐能力:能獨(dú)立完成中小型軟件系統(tǒng)開(kāi)發(fā)。問(wèn)題分析能力:運(yùn)用數(shù)學(xué)和工程知識(shí)解決復(fù)雜計(jì)算問(wèn)題。團(tuán)隊(duì)協(xié)作經(jīng)驗(yàn):通過(guò)前期課程項(xiàng)目積累分組開(kāi)發(fā)經(jīng)驗(yàn)。文獻(xiàn)檢索能力:掌握學(xué)術(shù)資料查詢與英文文獻(xiàn)閱讀基礎(chǔ)。(3)學(xué)習(xí)特點(diǎn)專業(yè)分化顯現(xiàn):部分學(xué)生已確定考研或就業(yè)方向。實(shí)踐需求強(qiáng)烈:渴望接觸企業(yè)級(jí)開(kāi)發(fā)工具和真實(shí)項(xiàng)目案例。認(rèn)知負(fù)荷閾值:能承受每周8-10課時(shí)的理論+實(shí)驗(yàn)課程強(qiáng)度。創(chuàng)新能力萌芽:具備參與科研項(xiàng)目或?qū)W科競(jìng)賽的基礎(chǔ)素質(zhì)。(4)潛在短板系統(tǒng)級(jí)開(kāi)發(fā)經(jīng)驗(yàn)不足,多數(shù)僅完成課程設(shè)計(jì)級(jí)項(xiàng)目。部分學(xué)生算法優(yōu)化能力較弱,需強(qiáng)化工程數(shù)學(xué)應(yīng)用。技術(shù)文檔撰寫(xiě)規(guī)范性待提升。對(duì)新領(lǐng)域技術(shù)(如云原生/AI)的認(rèn)知尚處入門階段。3.教學(xué)方法設(shè)計(jì)基于本節(jié)講授的知識(shí)內(nèi)容,針對(duì)學(xué)生的情況,本節(jié)課采用講授、自學(xué)指導(dǎo)等多種教學(xué)方法。三、教學(xué)目標(biāo)1.知識(shí)目標(biāo)?(1)掌握“信息”的多學(xué)科定義(哲學(xué)、信息論、語(yǔ)言學(xué)等)及其本質(zhì)屬性(普遍性、可度量性、可壓縮性等)。(2)理解“信息處理”的通用流程(接收、存儲(chǔ)、轉(zhuǎn)化、傳送、發(fā)布)及其與計(jì)算機(jī)技術(shù)的關(guān)聯(lián)。(3)明確藏文信息處理作為?計(jì)算機(jī)科學(xué)與藏語(yǔ)言文學(xué)交叉學(xué)科?的定位,區(qū)分藏文字符處理(編碼、輸入/輸出)與語(yǔ)言處理(分詞、機(jī)器翻譯)兩大層次。?(4)熟悉藏文信息處理的12項(xiàng)核心研究方向(如編碼、分詞、語(yǔ)音識(shí)別等)及其相互關(guān)系。(5)掌握藏文信息處理的四階段發(fā)展史(字符→詞法→句法→多模態(tài)),重點(diǎn)記憶關(guān)鍵里程碑(如1997年Unicode藏文基本集、2017年MLWS分詞評(píng)測(cè))。?(6)對(duì)比藏文與中文信息處理的異同:藏文“二維平面”結(jié)構(gòu)對(duì)編碼/字庫(kù)設(shè)計(jì)的特殊要求vs漢字“線性結(jié)構(gòu)”。藏文黏著性語(yǔ)言特征對(duì)分詞、詞性標(biāo)注的挑戰(zhàn)vs中文詞邊界劃分問(wèn)題。2.能力目標(biāo)?(1)技術(shù)應(yīng)用能力?能夠基于藏文特性(如緊縮詞、格助詞)設(shè)計(jì)基礎(chǔ)處理方案(如分詞規(guī)則、編碼轉(zhuǎn)換);初步掌握OpenType布局表在藏文字體設(shè)計(jì)中的應(yīng)用原理,理解其解決“二維平面”顯示問(wèn)題的技術(shù)邏輯。?(2)跨學(xué)科分析能力?結(jié)合藏語(yǔ)語(yǔ)言學(xué)(如文法規(guī)則)與計(jì)算機(jī)算法(如CRF模型),分析藏文命名實(shí)體識(shí)別(NER)的技術(shù)路徑;評(píng)估低資源場(chǎng)景(如藏語(yǔ)方言多樣性)對(duì)語(yǔ)音識(shí)別數(shù)據(jù)集的制約,提出數(shù)據(jù)增強(qiáng)策略(如遷移學(xué)習(xí))。?(3)批判性思維?辯證評(píng)價(jià)傳統(tǒng)規(guī)則方法與現(xiàn)代深度學(xué)習(xí)在藏文信息處理中的適用性(如統(tǒng)計(jì)分詞F值92.66%vs神經(jīng)網(wǎng)絡(luò)模型)。3.情感目標(biāo)?(1)文化傳承使命感?通過(guò)藏文古籍?dāng)?shù)字化等案例,認(rèn)識(shí)科技對(duì)少數(shù)民族文化保護(hù)的貢獻(xiàn),增強(qiáng)文化自信;以“云藏”搜索引擎、銀河麒麟藏文版操作系統(tǒng)為例,感悟本土化技術(shù)研發(fā)對(duì)社會(huì)發(fā)展的推動(dòng)作用。?(2)創(chuàng)新與責(zé)任意識(shí)?學(xué)習(xí)藏文編碼國(guó)際標(biāo)準(zhǔn)(ISO/IEC10646)的制定歷程,理解自主創(chuàng)新在關(guān)鍵技術(shù)領(lǐng)域的重要性;討論藏文信息處理在輿情監(jiān)測(cè)、跨語(yǔ)言交流中的應(yīng)用,培養(yǎng)技術(shù)服務(wù)于國(guó)家戰(zhàn)略和社會(huì)需求的意識(shí)。?(3)學(xué)科認(rèn)同感?通過(guò)藏文信息處理從“跟跑”到“并跑”的歷程(如WindowsVista藏文支持、深度學(xué)習(xí)分詞突破),激發(fā)學(xué)生對(duì)交叉學(xué)科研究的興趣與職業(yè)認(rèn)同。四、重點(diǎn)和難點(diǎn)1.教學(xué)重點(diǎn)?(1)?信息的多維度定義?:需重點(diǎn)講解哲學(xué)(本體論/認(rèn)識(shí)論)、信息論(香農(nóng)熵)、語(yǔ)言學(xué)視角下的信息本質(zhì),結(jié)合藏文“二維平面”文字特性說(shuō)明信息的依附性與可處理性。?(2)藏文信息處理的分層體系?:強(qiáng)調(diào)“字符處理”(編碼、字體設(shè)計(jì))與“語(yǔ)言處理”(分詞、機(jī)器翻譯)兩大層次的關(guān)聯(lián)性,明確其作為計(jì)算機(jī)科學(xué)與藏語(yǔ)言文學(xué)交叉學(xué)科的特征。?(3)?關(guān)鍵技術(shù)發(fā)展脈絡(luò)?:?四階段演進(jìn)?:從字符處理(1997年Unicode標(biāo)準(zhǔn))到多模態(tài)處理的里程碑事件。?(4)藏文信息處理技術(shù)的分類及框架結(jié)構(gòu)。2.教學(xué)難點(diǎn)(1)信息概念的理解。(2)藏文信息處理技術(shù)的分類及框架結(jié)構(gòu)。五、教學(xué)過(guò)程1.組織教學(xué)(5分鐘)(1)課程教學(xué)的要求。(2)考核要求。(3)課程的基本情況。2.復(fù)習(xí)引入(15分鐘)(1)從《藏文信息處理原理》的書(shū)名說(shuō)起?!局v解】信息的不同概念:信息奠基人香農(nóng)認(rèn)為“信息是用來(lái)消除不確定性的東西”。控制論創(chuàng)始人維納(NorbertWiener)認(rèn)為“信息是人們?cè)谶m應(yīng)外部世界,并使這種適應(yīng)反作用于外部世界的過(guò)程中,同外部世界進(jìn)行互相交換的內(nèi)容和名稱”。經(jīng)濟(jì)管理學(xué)家認(rèn)為“信息是提供決策的有效數(shù)據(jù)”。電子學(xué)家、計(jì)算機(jī)科學(xué)家認(rèn)為“信息是電子線路中傳輸?shù)男盘?hào)”。我國(guó)著名的信息學(xué)專家鐘義信教授認(rèn)為“信息是事物存在方式或運(yùn)動(dòng)狀態(tài),以這種方式或狀態(tài)直接或間接的表述”。美國(guó)信息管理專家霍頓(F.W.Horton)給信息下的定義是:“信息是為了滿足用戶決策的需要而經(jīng)過(guò)加工處理的數(shù)據(jù)。”(2)信息(information)定義為“以適合于通信、存儲(chǔ)或處理的形式來(lái)表示的知識(shí)或消息”。——根據(jù)全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)審定。(3)信息具有以下性質(zhì):1)普遍性;2)依附性;3)有序性;4)相對(duì)性;5)可度量性;6)可擴(kuò)充性;7)可存儲(chǔ)、傳輸與攜帶性;8)可壓縮性;9)可替代性;10)可擴(kuò)散性;11)共享性;12)時(shí)效性;13)傳遞性;14)價(jià)值相對(duì)性;15)真?zhèn)涡裕?6)可處理性;17)客觀性;18)不完全性;19)可加工性。(4)在信息論中,信息從不同的角度有不同的分類:①按性質(zhì),信息可分為語(yǔ)法信息、語(yǔ)義信息和語(yǔ)用信息。②按地位,信息可分為客觀信息和主觀信息。③按作用,信息可分為有用信息、無(wú)用信息和干擾信息。④按應(yīng)用部門,信息可分為工業(yè)信息、農(nóng)業(yè)信息、軍事信息、政治信息、科技信息、文化信息、經(jīng)濟(jì)信息、市場(chǎng)信息和管理信息。⑤按攜帶信息的信號(hào)性質(zhì),信息可以分為連續(xù)信息、離散信息和半連續(xù)信息。⑥按事物的運(yùn)動(dòng)方式,信息可分為概率信息、偶發(fā)信息、確定信息和模糊信息。⑦按內(nèi)容,信息可分為消息、資料和知識(shí)。⑧按空間狀態(tài),信息可分為宏觀信息、中觀信息和微觀信息。⑨按信源類型,信息可分為內(nèi)源性信息和外源性信息。⑩按價(jià)值,信息可分為有用信息、無(wú)害信息和有害信息。11)按時(shí)間性,信息可分為歷史信息、現(xiàn)時(shí)信息和預(yù)測(cè)信息。12)按載體,信息可分為文字信息、聲像信息和實(shí)物信息。(5)信息處理就是對(duì)信息的接收、存儲(chǔ)、轉(zhuǎn)化、傳送和發(fā)布等過(guò)程。信息的接收包括信息的感知、信息的測(cè)量、信息的識(shí)別、信息的獲取以及信息的輸入等;信息的存儲(chǔ)就是把接收到的信息通過(guò)存儲(chǔ)設(shè)備進(jìn)行緩沖、保存、備份等處理;信息的轉(zhuǎn)化就是根據(jù)人們的特定需要把信息進(jìn)行分類、計(jì)算、分析、檢索、管理和綜合等處理;信息的傳送就是通過(guò)計(jì)算機(jī)內(nèi)部的指令或計(jì)算機(jī)之間構(gòu)成的網(wǎng)絡(luò)把信息從一個(gè)地方傳送到另外一個(gè)地方的處理;信息的發(fā)布就是把信息通過(guò)各種表示形式展示出來(lái)。3.傳授新知識(shí)(50分鐘)【講解】(1)中文信息處理是指用計(jì)算機(jī)對(duì)中文的音、形、義等信息進(jìn)行處理和加工。中文信息處理是自然語(yǔ)言信息處理的一個(gè)分支,是一門與計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、數(shù)學(xué)、信息學(xué)、聲學(xué)等多種學(xué)科相關(guān)聯(lián)的綜合性學(xué)科。狹義上來(lái)說(shuō),中文信息處理分為漢字信息處理與漢語(yǔ)信息處理兩部分,具體內(nèi)容包括對(duì)字、詞、句、篇章的輸入、存儲(chǔ)、傳輸、輸出、識(shí)別、轉(zhuǎn)換、壓縮、檢索、分析、理解和生成等方面的處理技術(shù)。從廣義上來(lái)說(shuō),不僅包括簡(jiǎn)體漢字、繁體漢字,也包括藏文、蒙文、壯文、維吾爾文等大量少數(shù)民族的文字,周邊國(guó)家的片假名、諺文,還包括古漢語(yǔ)文字、西夏文、契丹文等。(2)漢文信息處理的發(fā)展歷史:【自學(xué)指導(dǎo)】初期探索階段(1940-1970)數(shù)字革命破曉(1970-1990)互聯(lián)網(wǎng)范式重構(gòu)(1990-2010)智能時(shí)代躍升(2010-)【思政教育】漢字輸入到計(jì)算機(jī)的過(guò)程。(3)漢文信息處理的研究?jī)?nèi)容:【講解】【自學(xué)指導(dǎo)】文字符號(hào)體系數(shù)字化自然語(yǔ)言處理技術(shù)人機(jī)交互技術(shù)革新多模態(tài)與文化計(jì)算標(biāo)準(zhǔn)化與交叉領(lǐng)域探索【講解】(4)藏文信息處理就是用計(jì)算機(jī)對(duì)藏語(yǔ)的音、形、義等語(yǔ)言文字信息進(jìn)行的加工和操作,包括對(duì)字、詞、短語(yǔ)、句、篇章的輸入、輸出、識(shí)別、轉(zhuǎn)換、壓縮、存儲(chǔ)、檢索、分析、理解和生成等各方面的處理技術(shù)。它是在語(yǔ)言文字學(xué)、計(jì)算機(jī)應(yīng)用技術(shù)、人工智能、認(rèn)知心理學(xué)和數(shù)學(xué)等相關(guān)學(xué)科的基礎(chǔ)上形成的一門邊緣學(xué)科。藏文信息處理就是利用計(jì)算理論和計(jì)算技術(shù)處理藏文信息的一門學(xué)科,是計(jì)算機(jī)科學(xué)與藏語(yǔ)言文學(xué)的交叉學(xué)科。【講解】(5)藏文信息處理可劃分為藏文字符信息處理和藏語(yǔ)語(yǔ)言信息處理兩個(gè)層次。1)藏文字符信息處理層面包括操作系統(tǒng)以及信息技術(shù)編碼字符集、辦公軟件、文字識(shí)別技術(shù)、輸入技術(shù)、字形描述與生成、存儲(chǔ)、編輯、排版、字頻統(tǒng)計(jì)和藏字屬性庫(kù)等方面的研究。2)藏語(yǔ)言信息處理層面包括機(jī)器翻譯、自動(dòng)分詞、語(yǔ)音識(shí)別、信息檢索、信息提取、文本校對(duì)、文本生成、文本分類、自動(dòng)摘要以及藏文文字識(shí)別和語(yǔ)音識(shí)別處理等的研究?!局v解】【板書(shū)】(6)藏文信息處理的研究對(duì)象1)信息技術(shù)藏文字符編碼編碼字符集ISO/IEC10646、GB13000、GB1803以及藏文《藏文編碼字符集基本集》。2)藏文鍵盤(pán)輸入技術(shù)藏文字符鍵盤(pán)編碼理論、藏文字符鍵盤(pán)布局、藏文字符的鍵盤(pán)輸入技術(shù)。3)藏文輸出技術(shù)藏文字形的設(shè)計(jì)、藏文OpenType布局表的設(shè)計(jì)與運(yùn)用。4)藏文詞法分析藏文分詞、詞性標(biāo)注。5)藏文句法分析藏文句子邊界的識(shí)別、藏文句法分析技術(shù)等。6)藏文字形識(shí)別傳統(tǒng)的印刷體字符識(shí)別(OCR)、復(fù)雜場(chǎng)景下的手寫(xiě)文字、多語(yǔ)言混合文本或自然場(chǎng)景文本檢測(cè)與識(shí)別。7)藏語(yǔ)語(yǔ)音處理藏文的語(yǔ)音識(shí)別、語(yǔ)音合成。8)信息抽取藏文命名實(shí)體識(shí)別、關(guān)系抽取和事件抽取等。9)文本分類文本的預(yù)處理、特征提取、藏文文本分類類別、分類方法和技術(shù)。10)情感分析藏文情感分析技術(shù)、藏語(yǔ)語(yǔ)音情感識(shí)別及多模態(tài)情感融合分析。11)機(jī)器翻譯機(jī)器翻譯有關(guān)的技術(shù)和方法12)其他藏文操作系統(tǒng)、軟件的藏文本地化、信息檢索、藏語(yǔ)資源庫(kù)的建設(shè)、適合藏文的辦公排版軟件、藏文排序、藏文校對(duì)、藏文電子詞典、移動(dòng)設(shè)備等等?!咀詫W(xué)指導(dǎo)】(7)藏文信息處理的發(fā)展歷史1)藏文字符的處理:藏文字符的屬性、藏文字符輸入、藏文字符表示、存儲(chǔ)、交換藏文字符輸出、打印。2)藏文詞法分析:藏文分詞、藏文的詞類劃分、其他藏文詞的處理。3)藏文句法分析。4)藏文字形識(shí)別。5)藏語(yǔ)語(yǔ)音處理:衛(wèi)藏、安多、康巴3大方言,藏語(yǔ)語(yǔ)音的識(shí)別、藏文語(yǔ)音的合成。6)信息抽取和檢索:藏文命名體識(shí)別、關(guān)系抽取、事件抽取。7)文本分類。8)情感分析:藏文情感信息抽取、藏文句子級(jí)情感分析、藏文篇章級(jí)情感分析、藏語(yǔ)語(yǔ)音及多模態(tài)情感分析。9)機(jī)器翻譯:基于規(guī)則的機(jī)器翻譯、基于實(shí)例的機(jī)器翻譯、基于統(tǒng)計(jì)的機(jī)器翻譯、神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯。10)其他。4.鞏固新知識(shí)(15分鐘)(1)回顧“信息”的概念。(2)回顧“信息處理”的概念。(3)回顧“中文信息處理”的概念和研究范疇。(4)如何理解“藏文信息處理”也屬于“中文信息處理”。(5)了解“藏文信息信息處理”的概念。(6)從“藏文信息處理”的研究范疇和發(fā)展史構(gòu)建本門課程的結(jié)構(gòu)。5.布置作業(yè)(5分鐘)查閱有關(guān)文獻(xiàn),充分理解藏文信息處理研究的各個(gè)方向。六、教學(xué)后記一、基本信息教學(xué)內(nèi)容:第2章藏文字符概述課時(shí)安排:2課時(shí)課型:新授課二、“三備”1.教學(xué)內(nèi)容分析本章圍繞藏字處理層面的相關(guān)基礎(chǔ)知識(shí)和任務(wù),首先介紹了藏字構(gòu)件、藏字結(jié)構(gòu)、藏字的構(gòu)字規(guī)則和現(xiàn)代藏字的結(jié)構(gòu)方式,以及各種藏文字體和藏文的基本書(shū)寫(xiě)規(guī)則;其次探討了藏文字符統(tǒng)計(jì)、藏字字長(zhǎng)統(tǒng)計(jì)、結(jié)構(gòu)方式統(tǒng)計(jì)、藏字頻度統(tǒng)計(jì)和藏字熵等的靜態(tài)和動(dòng)態(tài)屬性統(tǒng)計(jì)方法。最后介紹和探討了藏文詞典序列,以及基于規(guī)則和深度學(xué)習(xí)的藏文拼寫(xiě)檢查方法。2.教學(xué)對(duì)象分析學(xué)生已經(jīng)學(xué)習(xí)和掌握了一些如數(shù)據(jù)結(jié)構(gòu)、Jave和Python等計(jì)算機(jī)專業(yè)相關(guān)的基礎(chǔ)知識(shí),以及了解和掌握了一定的藏語(yǔ)言知識(shí)。計(jì)算機(jī)專業(yè)方面的知識(shí)將有助于學(xué)生編寫(xiě)藏字屬性統(tǒng)計(jì)程序、藏文排序程序和藏文拼寫(xiě)檢查程序等。藏語(yǔ)言方面的知識(shí)將有助于學(xué)生認(rèn)識(shí)和了解藏文字符、藏字、藏字的結(jié)構(gòu)和藏字的組合規(guī)則,以及不同的藏文字體和基本的藏文書(shū)寫(xiě)規(guī)則等。3.教學(xué)方法設(shè)計(jì)基于本節(jié)講授的知識(shí)內(nèi)容,針對(duì)學(xué)生的情況,本節(jié)課采用任務(wù)驅(qū)動(dòng)、分層教學(xué)及講授、演示、自學(xué)指導(dǎo)等多種教學(xué)方法。三、教學(xué)目標(biāo)1.知識(shí)目標(biāo)(1)了解藏字構(gòu)件、藏字結(jié)構(gòu)、藏文構(gòu)字規(guī)則、藏文字體和藏文書(shū)寫(xiě)規(guī)則。(2)掌握藏字屬性統(tǒng)計(jì)方法。(3)了解和掌握現(xiàn)代藏文詞典排序規(guī)則和實(shí)現(xiàn)方法。(4)了解和掌握基于規(guī)則和深度學(xué)習(xí)的現(xiàn)代藏文拼寫(xiě)檢查方法。2.能力目標(biāo)(1)具備分析、設(shè)計(jì)和實(shí)現(xiàn)藏字屬性統(tǒng)計(jì)、現(xiàn)代藏文字典排序和藏文拼寫(xiě)檢查的能力。(2)能夠?qū)崿F(xiàn)不同單位的靜動(dòng)態(tài)藏字屬性的統(tǒng)計(jì)能力。學(xué)生使用一種熟悉的計(jì)算機(jī)編程語(yǔ)言實(shí)現(xiàn)相關(guān)程序,為入門藏語(yǔ)自然語(yǔ)言處理領(lǐng)域奠定基礎(chǔ)。3.情感目標(biāo)(1)培養(yǎng)學(xué)生對(duì)藏文信息處理的興趣和熱愛(ài)通過(guò)了解和學(xué)習(xí)藏字構(gòu)件等藏語(yǔ)基礎(chǔ)知識(shí),以及藏字屬性統(tǒng)計(jì)等程序的實(shí)現(xiàn),讓學(xué)生感受到藏文信息處理的美妙和魅力,激發(fā)他們對(duì)藏文信息處理的興趣和熱愛(ài)。(2)培養(yǎng)學(xué)生的思維能力和創(chuàng)新意識(shí)通過(guò)學(xué)習(xí)藏字?jǐn)?shù)量統(tǒng)計(jì)、藏文字典排序和藏文拼寫(xiě)檢查方法,讓學(xué)生逐步掌握如何分析問(wèn)題、解決問(wèn)題的方法和思路,培養(yǎng)他們的思維能力和創(chuàng)新意識(shí)。(3)培養(yǎng)學(xué)生的自信心和成就感通過(guò)學(xué)習(xí)和了解藏字相關(guān)知識(shí),以及藏字層面的相關(guān)任務(wù)讓學(xué)生逐步掌握藏文信息處理的基本知識(shí)和技能,讓他們感受到自己的進(jìn)步和成就,培養(yǎng)他們的自信心和成就感。四、重點(diǎn)和難點(diǎn)1.教學(xué)重點(diǎn)(1)藏字構(gòu)件、藏字結(jié)構(gòu)、藏字構(gòu)字規(guī)則和現(xiàn)代藏字的結(jié)構(gòu)方式。(2)靜態(tài)和動(dòng)態(tài)藏字屬性統(tǒng)計(jì)方法,以及藏字屬性統(tǒng)計(jì)所需的藏語(yǔ)數(shù)據(jù)的收集和整理。(3)現(xiàn)代藏文詞典排序規(guī)則和實(shí)現(xiàn)方法。(4)基于規(guī)則和深度學(xué)習(xí)的藏文拼寫(xiě)檢查方法。2.教學(xué)難點(diǎn)(1)認(rèn)識(shí)和掌握藏字構(gòu)件、藏字結(jié)構(gòu)和藏字構(gòu)字規(guī)則。(2)藏字構(gòu)件識(shí)別是藏字結(jié)構(gòu)統(tǒng)計(jì)等任務(wù)的前期工作環(huán)節(jié),需學(xué)生掌握藏字的構(gòu)件識(shí)別方法。(3)了解并掌握藏文詞典排序規(guī)則,以及計(jì)算機(jī)中實(shí)現(xiàn)藏文排序方法(4)了解和掌握基于規(guī)則的藏文自動(dòng)拼寫(xiě)檢查方法和基于深度學(xué)習(xí)的藏文自動(dòng)排序方法。五、教學(xué)過(guò)程1.組織教學(xué)(5分鐘)2.復(fù)習(xí)引入(5分鐘)【提問(wèn)】【復(fù)述】中文信息處理藏文信息處理藏文字符信息處理藏語(yǔ)語(yǔ)言信息處理藏文信息處理的研究對(duì)象藏文信息處理的發(fā)展歷史3.傳授新知識(shí)(65分鐘)(1)藏字概述【講解】藏文是一種二維的拼音文字,藏字大約創(chuàng)制于公元七世紀(jì),現(xiàn)用的藏文在歷史上進(jìn)行了三次大規(guī)模的厘定。第一次厘定:8世紀(jì)中葉墀松德贊(730—797)至9世紀(jì)初葉墀德松贊(?—815)時(shí)期。這一時(shí)期出現(xiàn)了著名的九大譯師,其中白若雜納根據(jù)當(dāng)時(shí)譯語(yǔ)的發(fā)展和規(guī)范需要,編寫(xiě)了規(guī)范譯語(yǔ)的翻譯工具辭書(shū)《梵藏詞典》。第二次厘定:吐蕃贊普墀祖德贊(熱巴巾,803—841,即漢文文獻(xiàn)《唐書(shū)》所記的可黎可足)時(shí),集藏、印著名譯師,專設(shè)譯場(chǎng),統(tǒng)一譯名,規(guī)定譯例,校訂舊譯經(jīng)典,新譯顯密經(jīng)典,進(jìn)一步對(duì)藏文進(jìn)行規(guī)范。第三次厘定:吐蕃末代贊普達(dá)摩的五世孫阿里古格王意希沃之子大譯師仁青桑布(958—1055)同入藏的天竺班智達(dá)善護(hù)、德護(hù)、智護(hù)一起,共同修訂文字,厘定新譯語(yǔ)。(2)藏字構(gòu)件【講解】組成藏字的構(gòu)件包括輔音字母、元音符號(hào)、藏文數(shù)字以及一些特殊符號(hào)?!景鍟?shū)】30個(gè)輔音字母:??????????????????????????????4個(gè)元音:????10個(gè)后加字:??????????5個(gè)前加字:?????2個(gè)后加字:??藏文數(shù)字:????????????????????特殊符號(hào):? ???? ?? ? ? ???? ?????等【看書(shū)】2.2.1藏字的構(gòu)件(3)藏字結(jié)構(gòu)【講解】藏字字形結(jié)構(gòu)均以一個(gè)輔音字母為核心,其余字母均以此為基礎(chǔ)前后附加和上下疊加,組合成一個(gè)完整的字表結(jié)構(gòu)。藏字結(jié)構(gòu)可分為一般現(xiàn)代藏字結(jié)構(gòu)和特殊的現(xiàn)代藏字結(jié)構(gòu),特殊的現(xiàn)代藏字結(jié)構(gòu)中包含了再下加字的藏字、合并的現(xiàn)代藏字和拼外來(lái)音的現(xiàn)代藏字結(jié)構(gòu)?!景鍟?shū)】(4)構(gòu)字規(guī)則【講解】藏文文法不僅對(duì)藏字的不同位置上的構(gòu)件有嚴(yán)格的限制,而且每個(gè)構(gòu)件之間也有很強(qiáng)的相互制約作用?;质墙M成藏字不可缺少的部分,后加字和元音符號(hào)的添加相對(duì)比較自由。前加字的添加規(guī)則???????????????????????????????????????????????????????????上加字的添加規(guī)則????????????????????????????????????下加字的添加規(guī)則??????????????????????????????????????????????再后加字的添加規(guī)則?????????三重疊加的字符?????????(5)現(xiàn)代藏字的結(jié)構(gòu)方式【講解】現(xiàn)代藏字由前加字、上加字、基字、下加字、元音、后加字和再后加字構(gòu)成。其中基字是構(gòu)成藏字必不可少的構(gòu)件,其他構(gòu)件因字而異。每個(gè)藏字由1~7個(gè)構(gòu)件構(gòu)成,除去特殊的藏字“??”及該字構(gòu)成的藏字外,藏字的結(jié)構(gòu)可細(xì)分為48種。一構(gòu)件的構(gòu)字方式結(jié)構(gòu)方式組成的藏字個(gè)數(shù)例字輔音字母30?二構(gòu)件的構(gòu)字方式結(jié)構(gòu)方式組成的藏字個(gè)數(shù)例字基字+元音120??基字+后加字270??上加字+基字33??基字+下加字43??三構(gòu)件的構(gòu)字方式結(jié)構(gòu)方式組成的藏字個(gè)數(shù)例字前加字+基字+后加字480???前加字+基字+元音192???前加字+上加字+基字20???前加字+基字+下加字31???上加字+基字+元音132???上加字+基字+下加字15???特殊的兩個(gè)字(基字+下加字+下加字)2??????上加字+基字+后加字297???基字+下加字+元音172???基字+下加字+后加字387???基字+元音+后加字1080???基字+后加字+再后加字210???四構(gòu)件的構(gòu)字方式結(jié)構(gòu)方式組成的藏字個(gè)數(shù)例字前加字+上加字+基字+元音80????前加字+基字+下加字+元音124????前加字+基字+元音+后加字1728????五構(gòu)件的構(gòu)字方式結(jié)構(gòu)方式組成的藏字個(gè)數(shù)例字前加字+上加字+基字+下加字6????前加字+上加字+基字+后加字180????前加字+基字+下加字+后加字279????前加字+基字+后加字+再后加字336????上加字+基字+下加字+元音68????上加字+基字+元音+后加字1188????上加字+基字+下加字+后加字153????上加字+基字+后加字+再后加字231????基字+元音+后加字+再后加字840????基字+下加字+元音+后加字1548????基字+下加字+后加字+再后加字301????六構(gòu)件的構(gòu)字方式結(jié)構(gòu)方式組成的藏字個(gè)數(shù)例字前加字+上加字+基字+下加字+元音24?????前加字+上加字+基字+下加字+后加字54?????前加字+上加字+基字+元音+后加字720?????前加字+上加字+基字+后加字+再后加字140?????前加字+基字+下加字+元音+后加字1116?????前加字+基字+下加字+后加字+再后加字217?????前加字+基字+元音+后加字+再后加字1344?????上加字+基字+下加字+元音+后加字612?????上加字+基字+下加字+后加字+再后加字119?????上加字+基字+元音+后加字+再后加字924?????基字+下加字+元音+后加字+再后加字1204?????七構(gòu)件的構(gòu)字方式結(jié)構(gòu)方式組成的藏字個(gè)數(shù)例字前加字+上加字+基字+下加字+元音+后加字216??????前加字+基字+下加字+元音+后加字+再后加字868??????前加字+上加字+基字+元音+后加字+再后加字560??????前加字+上加字+基字+下加字+后加字+再后加字42??????上加字+基字+下加字+元音+后加字+再后加字476??????(6)藏文字體【講解】藏文字體分為烏金體與烏梅體兩大類。烏金體(???????)為有冠體,烏梅體(????????)為無(wú)冠體。常用的藏文書(shū)寫(xiě)規(guī)則是從左到右、自上而下的書(shū)寫(xiě)。每個(gè)藏字的書(shū)寫(xiě)與該音節(jié)的拼讀順序(前加字、上加字、基字、下加字、元音、后加字、再后加字)是一致的,每個(gè)藏字之間用藏字隔音符相隔。(7)藏字?jǐn)?shù)量統(tǒng)計(jì)【講解】現(xiàn)代藏字?jǐn)?shù)量統(tǒng)計(jì)分為靜態(tài)藏字?jǐn)?shù)量統(tǒng)計(jì)和動(dòng)態(tài)藏字?jǐn)?shù)量統(tǒng)計(jì)。靜態(tài)統(tǒng)計(jì)是指把有限的現(xiàn)代藏字全集看成統(tǒng)計(jì)源進(jìn)行統(tǒng)計(jì),據(jù)高定國(guó)統(tǒng)計(jì)共有19380個(gè)藏字。其中不包括??及該字組合得來(lái)的字符、書(shū)寫(xiě)中類似于????????????????????????????等的合并藏字。動(dòng)態(tài)統(tǒng)計(jì)是指給定的文本中出現(xiàn)的藏字?jǐn)?shù)。(8)字長(zhǎng)統(tǒng)計(jì)【講解】字長(zhǎng)是指構(gòu)成一個(gè)藏字的構(gòu)件數(shù)。字長(zhǎng)統(tǒng)計(jì)方法有兩種,一種為在藏字全集中統(tǒng)計(jì)字長(zhǎng),這種方法統(tǒng)計(jì)出的字長(zhǎng)叫靜態(tài)字長(zhǎng)。另一種為在給定的文本中統(tǒng)計(jì)字長(zhǎng),這種字長(zhǎng)統(tǒng)計(jì)方法統(tǒng)計(jì)出的字長(zhǎng)叫做動(dòng)態(tài)字長(zhǎng)。在藏文全集中統(tǒng)計(jì)出來(lái)的靜態(tài)字長(zhǎng)為4.3723字符。扎西次仁為1000萬(wàn)字的《丹珠爾》統(tǒng)計(jì)出的動(dòng)態(tài)字長(zhǎng)為2.54字符,該統(tǒng)計(jì)中把藏字中的所有縱向疊加部分當(dāng)做一個(gè)字符進(jìn)行統(tǒng)計(jì)的。(9)藏字結(jié)構(gòu)方式統(tǒng)計(jì)【講解】藏字構(gòu)件識(shí)別是藏字結(jié)構(gòu)統(tǒng)計(jì)的必要前提。藏字結(jié)構(gòu)分為靜態(tài)結(jié)構(gòu)和動(dòng)態(tài)結(jié)構(gòu)。靜態(tài)結(jié)構(gòu)指藏字全集中藏字的結(jié)構(gòu),藏字全集中共有48種藏字結(jié)構(gòu)。動(dòng)態(tài)結(jié)構(gòu)指給定語(yǔ)料中出現(xiàn)的不同結(jié)構(gòu)的藏字的數(shù)量。1998年,江荻在100萬(wàn)字的現(xiàn)代藏語(yǔ)文本中統(tǒng)計(jì)不同字形數(shù)達(dá)到5581字,共包含藏字結(jié)構(gòu)25類?!究磿?shū)】2.4.3結(jié)構(gòu)方式統(tǒng)計(jì)(10)藏字頻度統(tǒng)計(jì)【講解】藏字頻度統(tǒng)計(jì)包括靜態(tài)構(gòu)件的出現(xiàn)頻度統(tǒng)計(jì)和動(dòng)態(tài)字頻統(tǒng)計(jì)。靜態(tài)構(gòu)件的出現(xiàn)頻度:字符在構(gòu)成藏字時(shí),三個(gè)上加字和四個(gè)下加字會(huì)發(fā)生形變,因此,統(tǒng)計(jì)過(guò)程中需要注意變形的上加字和下加字進(jìn)行單獨(dú)統(tǒng)計(jì),還是與對(duì)應(yīng)原形一起統(tǒng)計(jì)。靜態(tài)構(gòu)件的出現(xiàn)頻度在藏文鍵盤(pán)布局、藏字識(shí)別等方面有很大的作用。動(dòng)態(tài)字頻統(tǒng)計(jì):給定的語(yǔ)料中統(tǒng)計(jì)不同藏字的出現(xiàn)頻率。江荻在100萬(wàn)字的現(xiàn)代藏語(yǔ)文本中統(tǒng)計(jì)出5581字并列舉了頻率最高的40個(gè)藏字?!景鍟?shū)】藏字頻度統(tǒng)計(jì)流程(11)藏字熵語(yǔ)言熵值的計(jì)算在信息處理方面的用途非常廣泛。學(xué)者們把最大熵方法用于語(yǔ)言建模,模型用于信息處理中的文本分類、命名實(shí)體識(shí)別、詞性標(biāo)注等問(wèn)題?!局v解】熵(Entropy)指的是體系混亂的程度,它在控制論、概率論、數(shù)論、天體物理、生命科學(xué)等領(lǐng)域都有重要應(yīng)用,在不同的學(xué)科中引申為更具體的定義,是各領(lǐng)域十分重要的參量。熵在信息論中,如果對(duì)信源的概率空間的所有符號(hào)的先驗(yàn)概率取一個(gè)平均值,則可獲得信源中每個(gè)符號(hào)的平均信息量—信息熵。計(jì)算公式如

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論