中文信息處理技術(shù)原理與應(yīng)用(5).ppt_第1頁
中文信息處理技術(shù)原理與應(yīng)用(5).ppt_第2頁
中文信息處理技術(shù)原理與應(yīng)用(5).ppt_第3頁
中文信息處理技術(shù)原理與應(yīng)用(5).ppt_第4頁
中文信息處理技術(shù)原理與應(yīng)用(5).ppt_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、中國信息處理技術(shù)原理與應(yīng)用(5),李保安,北京信息工程學(xué)院計(jì)算機(jī)科學(xué)系,第2章,第5章,中西語言兼容處理技術(shù),中西語言兼容處理概念,中國信息處理系統(tǒng)結(jié)構(gòu),漢字編碼系統(tǒng),系統(tǒng)級兼容處理方法,應(yīng)用級兼容處理方法,終端級兼容處理方法,UNIX操作系統(tǒng)的中國文化,中西語言國際開放兼容操作系統(tǒng), 設(shè)計(jì)中文操作系統(tǒng)的現(xiàn)狀與發(fā)展3、中西兼容處理的概念目前,計(jì)算機(jī)信息處理主要是數(shù)據(jù)處理,知識處理能力不強(qiáng)。 數(shù)據(jù)表示是用字符實(shí)現(xiàn)的。例如,GB2312-80中規(guī)定的682個(gè)圖形字符和6763個(gè)漢字也是字符。電子計(jì)算機(jī)誕生于西方,因此它們在體系結(jié)構(gòu)、組織和配置的硬件設(shè)計(jì)、系統(tǒng)軟件和應(yīng)用軟件的設(shè)計(jì)方面都適合西方語言處

2、理。我們應(yīng)該用計(jì)算機(jī)處理中文(如信息)。然而,由于漢字?jǐn)?shù)量多,字體復(fù)雜,現(xiàn)有的西方計(jì)算機(jī)不能直接用于處理漢字。在實(shí)際應(yīng)用中,經(jīng)常需要漢字和西文。客觀地說,它需要一個(gè)既能處理漢字又能處理西文的信息處理系統(tǒng)。如何在同一信息系統(tǒng)中處理中西語言?是在現(xiàn)有的西文計(jì)算機(jī)系統(tǒng)上增加中文信息處理功能,還是設(shè)計(jì)一個(gè)中文計(jì)算機(jī)系統(tǒng),增加西文信息處理功能?或者是重新設(shè)計(jì)一個(gè)計(jì)算機(jī)系統(tǒng),無論是軟件系統(tǒng)還是硬件系統(tǒng),以滿足世界上各種語言和文字處理的要求?為世界上所有的語言和文字設(shè)計(jì)一個(gè)通用的計(jì)算機(jī)信息處理系統(tǒng)是必要的、完整的和可能的,但它缺乏現(xiàn)實(shí)性。國際標(biāo)準(zhǔn)化組織/國際電工委員會10646.1-1993或英國標(biāo)準(zhǔn)130

3、00.1-93 信息技術(shù) 通用多八位編碼字符集 第一部分:體系結(jié)構(gòu)與基本多文種平面多文種信息處理就是針對這一目標(biāo)的。有必要設(shè)計(jì)一個(gè)中文計(jì)算機(jī)系統(tǒng),提高其處理西方語言的能力,但它缺乏可能性、完整性和現(xiàn)實(shí)性。在現(xiàn)有計(jì)算機(jī)系統(tǒng)的基礎(chǔ)上,提高中文信息處理能力是必要的、可能的和現(xiàn)實(shí)的,但缺乏完整性。目前,這種方法被廣泛使用。6、兩個(gè)計(jì)算機(jī)系統(tǒng)之間的兼容性,7、中文信息處理系統(tǒng)結(jié)構(gòu),從系統(tǒng)功能配置的角度來看,中文信息處理系統(tǒng)結(jié)構(gòu)可分為三個(gè)層次。即終端級、微機(jī)級和計(jì)算機(jī)級。圖5-1中文信息處理系統(tǒng)三層結(jié)構(gòu)示意圖。9,1。終端級終端級由三種類型的中文簡單終端、中西通用終端和中西智能終端組成。近年來,出現(xiàn)了一種

4、視窗基本終端(WBT),它可以通過網(wǎng)絡(luò)與裝有視窗2000/XP/2003操作系統(tǒng)的個(gè)人計(jì)算機(jī)服務(wù)器連接,而不需要服務(wù)器裝有UNIX、VMS和其他類型的操作系統(tǒng)。WBT可以在服務(wù)器上運(yùn)行軟件并訪問各種信息資源。在客戶端使用WBT替換部分電腦可以有效降低整個(gè)網(wǎng)絡(luò)的建設(shè)成本。目前,它主要用于局域網(wǎng)。微機(jī)級的中文微機(jī)和西文微機(jī)應(yīng)該是兼容的。沒有必要拿出一臺只能處理中文信息而不能處理西方語言信息的純中文微型計(jì)算機(jī)。它與終端的區(qū)別在于:系統(tǒng)結(jié)構(gòu),軟件系統(tǒng)應(yīng)用功能,11,3。計(jì)算機(jī)級計(jì)算機(jī)級分為四類:小型計(jì)算機(jī)、中型計(jì)算機(jī)、大型計(jì)算機(jī)和超級計(jì)算機(jī)。相應(yīng)地,形成了四個(gè)系統(tǒng),小、中、大和大。中文信息處理系統(tǒng)的研

5、發(fā)必須充分重視現(xiàn)有計(jì)算機(jī)系統(tǒng)軟硬件資源的特點(diǎn)。至于漢字終端,1。漢字終端是人機(jī)界面2。漢字終端是中文信息處理系統(tǒng)的基本設(shè)備之一。漢字終端是一種綜合性很強(qiáng)的基礎(chǔ)設(shè)備5)在主機(jī)的控制下,依靠主機(jī)資源,實(shí)現(xiàn)了部分漢字信息處理動(dòng)能,并保持了類似西文終端的所有功能。6)適用于工業(yè)控制領(lǐng)域的簡易漢字終端,還可以實(shí)現(xiàn)工業(yè)過程顯示,如過程顯示、極值顯示、誤差分析、分?jǐn)?shù)比較等。7)這種具有自檢功能的終端主要用作電報(bào)終端和電傳機(jī)。漢字打印機(jī)或其他輸出設(shè)備可以選擇和配備:國家標(biāo)準(zhǔn)漢字交換碼和國家標(biāo)準(zhǔn)1516或2424矩陣漢字字庫。諸如通用漢字終端的漢字終端可能不提供執(zhí)行用戶程序的能力。它由主機(jī)控制或由自己的管理程序

6、支持,實(shí)現(xiàn)對漢字和字符信息的初步處理能力。通用漢字終端應(yīng)具有以下功能:1)能輸入和輸出漢字、字符、圖形符號和圖形。2)具有屏幕編輯功能。3)維護(hù)西文智能終端的顯示屬性。4)可以接受三種以上的漢字輸入編碼方法。5)在主機(jī)的控制下,在主機(jī)資源或監(jiān)控程序的支持下,具有漢字信息處理功能,維護(hù)西文終端的各種功能。6)配備可選的漢字打印接口,用于打印輸出。7)主機(jī)具有兼容中西語言在線通信的能力,并選擇調(diào)制解調(diào)器等通信設(shè)備,可適用于遠(yuǎn)程終端及其他應(yīng)用。8)具有自檢功能。9)可以通過更換功能模塊來擴(kuò)展功能。通用漢字終端配有漢字打印機(jī)或其他輸出設(shè)備、終端通訊組件和國家標(biāo)準(zhǔn)1516和2424矩陣漢字字體庫。智能漢

7、字終端等漢字終端可以提供執(zhí)行用戶程序的能力。在主機(jī)控制或自身管理程序的支持下,可以實(shí)現(xiàn)對漢字和文字信息的強(qiáng)大處理能力。智能漢字終端應(yīng)具備以下功能:1)具有較強(qiáng)的漢字和文字處理能力。2)維護(hù)西部智能終端的顯示屬性。3)全屏編輯。4)能接受各種漢字輸入編碼方法。5)具有一定的脫機(jī)漢字信息處理能力。6)帶有可選的標(biāo)準(zhǔn)串行和并行接口。7)主機(jī)離線通訊時(shí),中西語言兼容性強(qiáng)。它選擇通信設(shè)備,如調(diào)制解調(diào)器,并可適用于各種應(yīng)用,如遠(yuǎn)程終端。多路復(fù)用和識別同一通道上的幾個(gè)輸入和輸出數(shù)據(jù)流。8)配備兩種編程語言和豐富的應(yīng)用程序。9)具有自檢功能。10)通過替換功能模塊(固化的軟件模塊或硬件模塊)擴(kuò)展功能,成為各種

8、特殊的漢字終端。11)提供輔助存儲容量。16,漢字編碼系統(tǒng),各種編碼的鑒別和比較,常用編碼方法的轉(zhuǎn)換,17,各種編碼的鑒別和比較,1。ASCII和二進(jìn)制我們在日常生活中接觸到的文件分為ASCII和二進(jìn)制。ASCII是“美國信息交換標(biāo)準(zhǔn)代碼”的首字母縮略詞,可稱為“美國標(biāo)準(zhǔn)”。美國標(biāo)準(zhǔn)指定了128個(gè)從0到127的數(shù)字來表示信息的標(biāo)準(zhǔn)代碼,包括33個(gè)控制代碼、一個(gè)空間代碼和94個(gè)圖像代碼。圖像代碼包括英文大寫字母和小寫字母、阿拉伯?dāng)?shù)字、標(biāo)點(diǎn)符號等。美國標(biāo)準(zhǔn)是世界上大多數(shù)大型和小型計(jì)算機(jī)的通用代碼。計(jì)算機(jī)中的字符主要由八位二進(jìn)制數(shù)表示。這樣,每個(gè)字符可以有256個(gè)不同的值。由于美國標(biāo)準(zhǔn)只規(guī)定了128

9、個(gè)代碼,其余的128個(gè)數(shù)字沒有標(biāo)準(zhǔn)化,每個(gè)數(shù)字的用法都不同。此外,美國標(biāo)準(zhǔn)中的33個(gè)控制代碼不是由不同的制造商以相同的方式使用的。這樣,當(dāng)我們在不同的計(jì)算機(jī)之間交換文檔時(shí),有必要區(qū)分兩種不同類型的文檔國家標(biāo)準(zhǔn)表(基本表)包括7000多個(gè)漢字、標(biāo)點(diǎn)符號、外文字母等。變成94行94列的正方形矩陣。正方形矩陣中的每一行稱為“區(qū)域”,每個(gè)區(qū)域有94個(gè)“位”。一個(gè)漢字在方陣中的坐標(biāo)稱為該漢字的“位置碼”。例如,單詞“中”位于正方形矩陣中第54個(gè)區(qū)域的第48個(gè)位置,其區(qū)號為5448。事實(shí)上,94的數(shù)字。這是美國徽標(biāo)中圖像代碼的總數(shù)。國家標(biāo)準(zhǔn)表使用這個(gè)數(shù)字,其原意是用兩個(gè)美國符號來表示一個(gè)漢字。由于美國標(biāo)志

10、的代碼是從33到126,如果在漢字區(qū)和位代碼中分別增加32,它將與美國標(biāo)志圖像代碼的范圍一致。在上述例子中,在“中間”字區(qū)和位代碼上加32之后,得到86,80。這兩個(gè)數(shù)字的十六進(jìn)制數(shù)加在一起得到5650,被稱為“國家標(biāo)準(zhǔn)碼”,而相應(yīng)的兩個(gè)美國標(biāo)準(zhǔn)符號VP是“中”的“國家標(biāo)準(zhǔn)符號”。20、如何區(qū)分國家標(biāo)準(zhǔn)符號和美國標(biāo)準(zhǔn)符號?在一份中英文混合的文件中,“VP”代表“Chinese”還是英文縮寫?在開發(fā)CCDOS時(shí),電子工業(yè)部第六研究所使用了一個(gè)簡單的解決方案:在國家標(biāo)準(zhǔn)代碼的兩位數(shù)上各加128,并將其提升到美國標(biāo)準(zhǔn)代碼以外的位置。(更改后的國家標(biāo)準(zhǔn)代碼仍習(xí)慣上稱為“國家標(biāo)準(zhǔn)”。這個(gè)計(jì)劃解決了原來的

11、問題,但新的問題出現(xiàn)了。中國文件已經(jīng)變成了“二進(jìn)制文件”,無法在不同的計(jì)算機(jī)系統(tǒng)之間可靠地交換,并且與市場上大多數(shù)設(shè)計(jì)美國符號的軟件不兼容。為了區(qū)分上述兩種“國家標(biāo)準(zhǔn)”,我們把與美國標(biāo)準(zhǔn)的圖像代碼相一致的國家標(biāo)準(zhǔn)代碼稱為“純國家標(biāo)準(zhǔn)”,把CCDOS加128的國家標(biāo)準(zhǔn)代碼稱為“準(zhǔn)國家標(biāo)準(zhǔn)”。GBK碼GBK碼是國標(biāo)的擴(kuò)展字符碼,編碼多達(dá)20,000多個(gè)簡單和復(fù)雜的漢字。Win95和Win98的簡化版本都使用GBK作為系統(tǒng)內(nèi)部代碼。從實(shí)際應(yīng)用的角度來看,微軟從95簡體中文版開始就采用了GBK代碼。它包括TrueType宋和黑體字體(由北京電子有限公司提供),可用于顯示和打印,并提供四種漢字輸入法。此

12、外,IE4.0的簡體中文版和繁體中文版提供了-BIG5代碼雙向轉(zhuǎn)換功能。此外,在微軟為IE提供的語言包中,簡體中文支持包的兩種字體宋和粗體也是漢字(由珠海四通電腦排版系統(tǒng)開發(fā)公司提供)。其他中國字體制造商也開始提供TrueType或PostScript GBK字體。22歲。許多插件式中文平臺,如invivo和Richwin,提供GBK代碼支持,包括字庫、輸入法和GBK轉(zhuǎn)換器等中文代碼。在互聯(lián)網(wǎng)上,許多網(wǎng)站使用GBK代碼。然而,大多數(shù)搜索引擎不能很好地支持GBK漢字搜索,mainland China的一些搜索引擎也不能完全支持GBK漢字搜索。23、GBK是另一個(gè)漢字編碼標(biāo)準(zhǔn),全稱是漢字內(nèi)碼擴(kuò)展規(guī)

13、范(中國國際編碼規(guī)范),頒布于1995年。國標(biāo)為國標(biāo),K為“擴(kuò)展”漢字的漢語拼音首字母。GBK向下兼容GBB-2312編碼,向上支持國際標(biāo)準(zhǔn)化組織10646.1,這是前者和后者之間的聯(lián)系。24,4.big5big5code big5code是繁體中文字符的漢字代碼。目前,常用的5。赫茲代碼赫茲代碼是一種在臺灣和香港的計(jì)算機(jī)系統(tǒng)的互聯(lián)網(wǎng)上廣泛使用的漢字代碼?!昂掌潯狈桨傅奶攸c(diǎn)是混合了“純國家標(biāo)準(zhǔn)”的中國和美國標(biāo)準(zhǔn)代碼。“赫茲”如何區(qū)分國家符號和美國符號?答案其實(shí)很簡單:當(dāng)一個(gè)國家標(biāo)準(zhǔn)被插入到一串美國標(biāo)準(zhǔn)代碼的中間時(shí),我們加,后面跟著。這些附加代碼分別稱為“轉(zhuǎn)義碼”和“轉(zhuǎn)義碼”。國際標(biāo)準(zhǔn)組織(IS

14、O)制定的各種語言的字符編碼標(biāo)準(zhǔn)。它采用雙字節(jié)編碼,中文編碼目前,CJK碼主要用于互聯(lián)網(wǎng)。7.國際標(biāo)準(zhǔn)10646定義了通用字符集。UCS是所有其他字符集標(biāo)準(zhǔn)的超集。它保證了與其他字符集的雙向兼容性。Unicode實(shí)際上是一個(gè)寬字節(jié)字符集。它為每個(gè)字符使用兩個(gè)字節(jié)或16位,因此在處理字符時(shí),您不必?fù)?dān)心只處理其中的一半。目前,統(tǒng)一碼被應(yīng)用在網(wǎng)絡(luò)、視窗系統(tǒng)和許多大型軟件中。27、常用編碼方法的轉(zhuǎn)換,雖然有多種編碼方法,事實(shí)上,除了ASCII碼,其他位置碼和國家標(biāo)準(zhǔn)碼基本上是一回事,但它們的編碼方法不同,而且它們獲取的漢字也不同。內(nèi)部代碼是機(jī)器語言代碼,包括語言解釋、各種字符的機(jī)器代碼等。ASCII碼

15、是常用的字符和符號,范圍從1到255和十六進(jìn)制01到FF。位置代碼是一個(gè)包含中文字符的特殊字符集。它分為87個(gè)區(qū)域和94位。它的基數(shù)從0開始。國家標(biāo)準(zhǔn)代碼實(shí)際上是區(qū)域代碼的字符集,但是它的編碼基礎(chǔ)不同于區(qū)域代碼,區(qū)域代碼通常用十六進(jìn)制表示,區(qū)域的數(shù)量在21到79之間,數(shù)字的數(shù)量在21到7E之間。內(nèi)部代碼的字符集代碼是從A1到F7,位代碼是從A1到FE。ASCII碼0到32通常是函數(shù)控制,48到57是從0到9的數(shù)字,58到90是大寫字母,97到122是小寫字母,并且通常使用其他符號。2.位置代碼區(qū)域1是常見的模式符號,區(qū)域2是序數(shù),區(qū)域3是類似于ASCII的常見符號,區(qū)域4和5是日語片假名,區(qū)域

16、6是拉丁語,區(qū)域7是俄語,區(qū)域8是漢語拼音,區(qū)域9是制表符,區(qū)域16后面是漢字。10到15區(qū)是空的。3.國家標(biāo)志代碼計(jì)算公式:國家標(biāo)志代碼=區(qū)號24。內(nèi)部編碼計(jì)算公式:內(nèi)部編碼=區(qū)號+A0,29,中文編碼范圍。1.國家標(biāo)準(zhǔn)(GB)非漢字第一字節(jié)第二字節(jié)A1 Ef2B 1 E2/E5 EE/F1 Fca 3A 1 Fea4 A1 F3 A5A 1 F6a 1 B8/C1 D8A A1 C1/D1 F1A8A 1 BA/C5-e9 a9 a 4-ef初級漢字B0-d6a1-fed7a1-F9次級漢字D8-f7a1-Fe,30,2。big5非中文第一字節(jié)第二字節(jié)A1 a240 7E/A1 FEA 340 7E/A1 e0c 6a 1 FEC 7 c840 7E/A1 Fe第一類漢字A4C5 407E/A1FE C6 407E第二類漢字C9 F8 40 7E/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論