GB2312、GB 13000、GBK、GB18030 介紹和說明文檔_第1頁
GB2312、GB 13000、GBK、GB18030 介紹和說明文檔_第2頁
GB2312、GB 13000、GBK、GB18030 介紹和說明文檔_第3頁
GB2312、GB 13000、GBK、GB18030 介紹和說明文檔_第4頁
GB2312、GB 13000、GBK、GB18030 介紹和說明文檔_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、GB2312、GB13000、GBK、GB18030介紹GB2312又稱為GB231280,是一個簡體中文字符集的中國國家標(biāo)準(zhǔn),于1980年由中國國家標(biāo)準(zhǔn)總局發(fā)布,1981年5月1日實(shí)施,全稱為信息交換用漢字編碼字符集基本集,規(guī)定了6763個漢字和682個非漢字圖形。GB13000為了便于多個文種的同時處理,國際標(biāo)準(zhǔn)化組織下屬編碼字符集工作組研制了新的編碼字符集標(biāo)準(zhǔn),ISO/IEC10646。該標(biāo)準(zhǔn)第一次頒布是在1993年,當(dāng)時只頒布了其第一部分,即ISO/IEC1064611993,我國相應(yīng)的國家標(biāo)準(zhǔn)是GB13000193信息技術(shù)通用多八位編碼字符集UCS第一部分體系結(jié)構(gòu)與基本多文種平面。制定這個標(biāo)準(zhǔn)的目的是對世界上的所有文字統(tǒng)一編碼,以實(shí)現(xiàn)世界上所有文字在計(jì)算機(jī)上的統(tǒng)一處理。GBK隨著信息技術(shù)在各行業(yè)應(yīng)用的深入,GB2312收錄漢字?jǐn)?shù)量不足的缺點(diǎn)已經(jīng)初步顯露出來。例如“镕“字現(xiàn)在是高頻率使用字,而GB2312卻沒有為它編碼,因而,政府、新聞、出版、印刷等行業(yè)和部門在使用中感到十分不便。1995年,全世界大多數(shù)的PC操作系統(tǒng)都實(shí)現(xiàn)了16/32位。GB130001的實(shí)現(xiàn)出現(xiàn)了一線曙光。一方面為了對GB2312進(jìn)行擴(kuò)充,一方面順應(yīng)當(dāng)時技術(shù)的發(fā)展向GB130001推進(jìn),同時兼顧當(dāng)時最廣泛采用GB2312內(nèi)碼系統(tǒng)。原電子部和原國家技術(shù)監(jiān)督局聯(lián)合頒布了指導(dǎo)性技術(shù)文件漢字內(nèi)碼擴(kuò)展規(guī)范10版,即GBK。在GBK的內(nèi)碼系統(tǒng)中,GB2312漢字所在碼位保持不便,這樣,保證了GBK對GB2312的完全兼容。同時,GBK內(nèi)碼與GB130001代碼一一對應(yīng),為GBK向GB130001的轉(zhuǎn)換提供了解決辦法。微軟對GB2312的擴(kuò)展,也就是CP936字碼表CODEPAGE936的擴(kuò)展(原來的CP936和GB231280一模一樣),最初出現(xiàn)于WINDOWS95簡體中文版中。注意GBK并非國家正式標(biāo)準(zhǔn),只是國家技術(shù)監(jiān)督局標(biāo)準(zhǔn)化司、電子工業(yè)部科技與質(zhì)量監(jiān)督司發(fā)布的“技術(shù)規(guī)范指導(dǎo)性文件”。雖然GBK收錄了所有UNICODE11及GB13000193之中的漢字,但是編碼方式與UNICODE11及GB13000193不同。僅僅是GB2312到GB13000193之間的過渡方案。GB1803020001995年之后的實(shí)踐表明,GBK作為行業(yè)規(guī)范,缺乏足夠的強(qiáng)制力,不利于其本身的推廣,而我們寄予厚望的GB13000的實(shí)現(xiàn)又腳步緩慢,現(xiàn)有漢字編碼字符集標(biāo)準(zhǔn)已經(jīng)不能滿足我國信息化建設(shè)的需要。為此,原國家質(zhì)量技術(shù)監(jiān)督局和信息產(chǎn)業(yè)部組織專家制定發(fā)布了新的編碼字符集標(biāo)準(zhǔn),GB180302000信息技術(shù)信息交換用漢字編碼字符集基本集的擴(kuò)充。GB180302000收錄了ISO/IEC1064612000的全部27484個CJK統(tǒng)一漢字,13個表意文字描述符、部分漢字部首和部件、歐元符號。在編碼體系上,GB18030統(tǒng)一了內(nèi)碼和交換碼的概念。它完全兼容GB2312和GBK的編碼體系,繼承GBK的代碼映射表的優(yōu)點(diǎn),解決了GB18030和GB13000之間的代碼轉(zhuǎn)換。GB180302005全稱國家標(biāo)準(zhǔn)GB180302005信息技術(shù)中文編碼字符集,是中華人民共和國目前最新的內(nèi)碼字符集,是GB180302000信息技術(shù)信息交換用漢字編碼字符集基本集的擴(kuò)充的修訂版。與GB23121980完全兼容,與GBK基本兼容,支持GB13000及UNICODE的全部統(tǒng)一漢字,共收錄漢字70244個。2、GB18030的優(yōu)點(diǎn)1)編碼漢字?jǐn)?shù)量大與西方文字不相同,漢字是表意文字,成千上萬的不同含義需要成千上萬的不同漢字來表示。西方文字主要是拼音文字,通過幾十個字母的組合就可以變出成千上萬的單詞。在計(jì)算機(jī)里面,西方文字只需要給幾十個字母編碼就夠了,而每一個漢字都要一個編碼才行。根據(jù)專家的統(tǒng)計(jì),一般中文應(yīng)用系統(tǒng)需要13,000個左右漢字,大型中文應(yīng)用系統(tǒng)需要23,000個左右的漢字,政府機(jī)關(guān)的專用中文應(yīng)用系統(tǒng)需要48,000個左右的漢字,而圖書館用的中文應(yīng)用系統(tǒng)需要的漢字可能超過10萬。GB180302000達(dá)到了27484個漢字,基本上可以滿足目前政府機(jī)關(guān)內(nèi)部工作、政府機(jī)關(guān)的網(wǎng)上工作、電子商務(wù)、以及其他網(wǎng)上服務(wù)行業(yè)的需要。此外,GB18030還提供了13漢字結(jié)構(gòu)符和一些漢字部件,為某些尚未編碼的漢字的解決提供了方案。不僅如此,GB18030建立的編碼體系提供了超過150萬個編碼位置的編碼空間,為未來增補(bǔ)漢字作了充分準(zhǔn)備。一旦本標(biāo)準(zhǔn)得到實(shí)現(xiàn),類似“镕“字的人名、地名在計(jì)算機(jī)輸入中遇到的困難將越來越少,直至最終完全解決。2)對GB2312、GBK和GB13000的兼容GB18030通過提供完整、清晰、明確的代碼映射表,采用GB18030的計(jì)算機(jī)系統(tǒng)可以輕易地識別和處理GB2312和GBK編碼,降低了系統(tǒng)改造/升級的成本。如果未來需要采用GB13000,則通GB18030和GB13000代碼的映射表可以輕松地在二者之間進(jìn)行轉(zhuǎn)換。3)對字符編碼技術(shù)的發(fā)展的貢獻(xiàn)在現(xiàn)有系統(tǒng)中,字符編碼空間十分有限,例如GBK只提供了23940個編碼位置。GB18030通過對編碼空間的擴(kuò)展提供了超過160萬個編碼位置(239491587600)??梢宰孕诺卣f,不僅我國所有漢字都可以在這個標(biāo)準(zhǔn)里面編碼,而且我國所有少數(shù)民族文字也可以在這個標(biāo)準(zhǔn)里面編碼,從此不必再擔(dān)心編碼空間不足的問題了。4)對標(biāo)準(zhǔn)的用戶自定義區(qū)和標(biāo)準(zhǔn)保留區(qū)的使用做了明確、詳細(xì)的規(guī)定根據(jù)經(jīng)驗(yàn),標(biāo)準(zhǔn)或規(guī)范的使用者往往誤以為標(biāo)準(zhǔn)的用戶自定義區(qū)和標(biāo)準(zhǔn)保留區(qū)可以任意使用,完全自由,因而在標(biāo)準(zhǔn)、規(guī)范的實(shí)現(xiàn)中自作主張,各按所需使用。實(shí)踐證明,這種做法非常危險(xiǎn),造成的后果十分嚴(yán)重。GB18030在研制中充分考慮了標(biāo)準(zhǔn)的用戶自定義區(qū)和標(biāo)準(zhǔn)表留區(qū)的問題,明確而詳細(xì)規(guī)定了其使用方法,要求所有標(biāo)準(zhǔn)實(shí)現(xiàn)者必須按照標(biāo)準(zhǔn)做,徹底杜絕了類似問題的再次出現(xiàn)。5)強(qiáng)制性國家標(biāo)準(zhǔn)直到不久之前,還經(jīng)常有人抱怨編碼的漢字太少了,只有GB2312的6763個漢字,不能滿足使用要求。而此時,收錄了20954個漢字的GBK早已發(fā)布并在一些操作系統(tǒng)上實(shí)現(xiàn)多年了。經(jīng)過調(diào)查發(fā)現(xiàn)由于GBK是個行業(yè)規(guī)范,缺乏足夠的強(qiáng)制力,很多軟件開發(fā)商并不實(shí)現(xiàn)這個規(guī)范。而產(chǎn)品的最終用戶由于不知道還有這樣一個規(guī)范,不知道要求軟件開發(fā)商來實(shí)現(xiàn)它。而GB18030是個強(qiáng)制性標(biāo)準(zhǔn),解決了這個問題。首先,軟件開發(fā)商不得不重視標(biāo)準(zhǔn),實(shí)現(xiàn)標(biāo)準(zhǔn)。其次,標(biāo)準(zhǔn)的知名度要大大高于規(guī)范的知名度,而強(qiáng)制性標(biāo)準(zhǔn)的知名度更高。中文軟件的最終用戶知道了由一個兩萬七千漢字的標(biāo)準(zhǔn),就會要求軟件開發(fā)商來實(shí)現(xiàn)。3、國標(biāo)碼(國家標(biāo)準(zhǔn)代碼)國家標(biāo)準(zhǔn)代碼,簡稱國標(biāo)碼,是中國的中文常用漢字編碼集,也被新加坡采用?,F(xiàn)在GB18030為中國強(qiáng)制性國家標(biāo)準(zhǔn),但較舊的計(jì)算機(jī)仍然使用GB2312。較常見的國家漢字標(biāo)準(zhǔn)代碼列表GB231280信息交換用漢字編碼字符集基本集(又稱為GB0)GB1300093信息技術(shù)通用多八位編碼字符集(UCS)第一部分GB180302005信息技術(shù)中文編碼字符集其他中華人民共和國發(fā)布有關(guān)漢字標(biāo)準(zhǔn)代碼列表GB/T1234590信息交換用漢字編碼字符集第一輔助集(又稱為GB1)GB/T758987信息交換用漢字編碼字符集第二輔助集(又稱為GB2)GB1313191信息交換用漢字編碼字符集第三輔助集(又稱為GB3)GB/T759087信息交換用漢字編碼字符集第四輔助集(又稱為GB4)GB1313291信息交換用漢字編碼字符集第五輔助集(又稱為GB5)GB/T165001998信息交換用漢字編碼字符集第七輔助集國家推薦標(biāo)準(zhǔn)以“/T“來表示并非強(qiáng)制執(zhí)行。由于GB231280只收錄了6763個漢字,未能覆蓋繁體中文字、部分人名、方言、古漢語等方面出現(xiàn)的罕用字,所以發(fā)布了以上的輔助集。其中,GB/T1234590輔助集是GB231280基本集的繁體字版本;GB1313191是GB/T758987的繁體字版本;GB1313291是GB/T759087的繁體字版本。而GB/T165001998是繁體字版本,它并無對應(yīng)的簡體字版本。鑒于第二輔助集及第四輔助集,有不少漢字均是“類推簡化漢字”,實(shí)用性不高,因而較少人采用,而且沒有收入通用字符集ISO/IEC10646標(biāo)準(zhǔn)中。中國國家標(biāo)準(zhǔn)總局于2000年推出強(qiáng)制性的GB180302000標(biāo)準(zhǔn)。于2001年8月31日后發(fā)布或出廠的產(chǎn)品,必須符合GB180302000的相關(guān)要求。這個標(biāo)準(zhǔn)的最新版本是GB180302005,它的2字節(jié)部分是強(qiáng)制性的。4、BIG5繁體中文字符集BIG5,又稱為大五碼或五大碼,是使用繁體中文的地區(qū)中常用的電腦漢字字符集標(biāo)準(zhǔn),共收錄13060個漢字,2003年,新版本發(fā)布,稱為BIG52003。BIG5常用于臺灣、香港與澳門等使用繁體中文的地區(qū),倚天中文系統(tǒng)、WINDOWS等主要系統(tǒng)的字符集都是以BIG5為基準(zhǔn),但廠商又各自增刪,衍生成多種不同版本。中文電腦流行后,由于很多字被認(rèn)為是異體字而未被收錄。例如常見的人名用字如“堃”、“煊”、“栢”(歌手張柏芝)、“喆”(歌手陶喆)等,雖被中文社會廣泛采用,也沒有收錄到BIG5之中。在互聯(lián)網(wǎng)上,??吹饺藗儼褕?、煊、喆等字,寫成為“方方土”、“火宣”和“吉吉”等寫法。電視上日本動畫的中文字幕中也會看到像“木堅(jiān)”這樣的字。由于各廠商及政府推出的BIG5延伸,彼此互不兼容,造成亂碼問題。因?yàn)閁NICODE能正確地處理七萬多個漢字,近年的操作系統(tǒng)和應(yīng)用程序如蘋果電腦MACOSX和以COCOAAPI編寫的程序、MICROSOFTWINDOWS2000及之后版本、MICROSOFTOFFICE2000及之后版本、MOZILLA瀏覽器、INTERNETEXPLORER瀏覽器、JAVA語言等等,已改用UNICODE編碼。可惜現(xiàn)時仍有一些舊的軟件如VISUALBASIC6、部分TELNET或BBS軟件,未能支持UNICODE編碼,所以預(yù)計(jì)BIG5缺字的問題仍會困擾用戶一段時間,直到所有程序都能改用UNICODE為止。三、UNICODE標(biāo)準(zhǔn)萬國碼相關(guān)介紹1、UNICODE介紹在計(jì)算機(jī)科學(xué)領(lǐng)域中,UNICODE(統(tǒng)一碼、萬國碼、單一碼、標(biāo)準(zhǔn)萬國碼)是業(yè)界的一種標(biāo)準(zhǔn),包含了超過十萬個字符。UNICODE的開發(fā)結(jié)合了國際標(biāo)準(zhǔn)化組織(ISO)所制定的ISO/IEC10646,即通用字符集(UNIVERSALCHARACTERSET,簡稱UCS)。UNICODE與ISO/IEC10646在編碼的運(yùn)作原理相同,但THEUNICODESTANDARD包含了更詳盡的實(shí)現(xiàn)資訊、涵蓋了更細(xì)節(jié)的主題,諸如字符編碼(BITWISEENCODING)、校對以及呈現(xiàn)等。THEUNICODESTANDARD也列舉了諸多的字符特性,包含了那些必須支持雙方向呈現(xiàn)的文字。UNICODE與ISO/IEC10646兩個標(biāo)準(zhǔn)在術(shù)語上的使用有些微的不同。UNICODE是由于傳統(tǒng)的字符編碼方式的局限性而產(chǎn)生的,例如ISO8859所定義的字符雖然在不同的國家中廣泛地使用,可是在不同國家間卻經(jīng)常出現(xiàn)不相容的情況。很多傳統(tǒng)的編碼方式都具有一個共同的問題,即其允許電腦進(jìn)行雙語環(huán)境的處理(通常使用拉丁字母以及其本地語言),但卻無法同時支持多語言環(huán)境的處理(指可同時處理混合多種語言的情況)。UNICODE在字符集的成功,使其得以在電腦軟件的國際化與本地化領(lǐng)域中,廣泛且具優(yōu)勢的被采用。這標(biāo)準(zhǔn)已在近年來的多種新科技當(dāng)中被加以采用,包含了可擴(kuò)展置標(biāo)語言(XML)、JAVA編程語言、以及新的操作系統(tǒng)中。UNICODE組織(THEUNICODECONSORTIUM)是由一個非營利性的機(jī)構(gòu)所運(yùn)作,位于美國加州的UNICODE組織允許任何愿意支付會員費(fèi)用的公司或是個人加入,其成員包含了主要的電腦軟硬件廠商,例如奧多比系統(tǒng)(ADOBESYSTEMS)、蘋果公司(APPLE)、惠普(HP)、IBM、微軟(MICROSOFT)、全錄(XEROX)等。2、UNICODE截至目前為止歷次的版本與發(fā)布時間如下UNICODE101991年10月UNICODE1011992年6月UNICODE111993年6月UNICODE201997年7月UNICODE211998年5月UNICODE2121998年5月UNICODE301999年9月;涵蓋了來自ISO106461的十六位元通用字符集(UCS)基本多文種平面(BASICMULTILINGUALPLANE)UNICODE312001年3月;新增從ISO106462定義的輔助平面(SUPPLEMENTARYPLANESUNICODE322002年3月UNICODE402003年4月UNICODE4012004年3月UNICODE412005年3月UNICODE502006年7月UNICODE512008年4月3、UTF8介紹UTF8(8位通用字符集/UNICODE轉(zhuǎn)換格式)是針對UNICODE的一種可變長度字符編碼。它可以用來表示UNICODE標(biāo)準(zhǔn)中的任何字符,而且其編碼中的第一個字節(jié)仍與ASCII相容,使得原來處理ASCII字符的軟件無需或只作少部份修改后,便可繼續(xù)使用。因此,它逐漸成為電子郵件、網(wǎng)頁及其他儲存或傳送文字的應(yīng)用中,優(yōu)先采用的編碼。因特網(wǎng)工程工作小組(IETF)要求所有因特網(wǎng)協(xié)議都必須支持UTF8編碼?;ヂ?lián)網(wǎng)郵件聯(lián)盟(IMC)建議所有電子郵件軟件都支持UTF8編碼。四、GB13000、GB18030和UNICODE之間的比較本節(jié)內(nèi)容引用自全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會的技術(shù)文件。不代表本站觀點(diǎn)。原文地址HTTP/WWWNITSGOVCN/SC2/JISHUFILE13ASP與GB2312相比,上面提到的其它幾種標(biāo)準(zhǔn)/規(guī)范的字匯要大的多,在廣義上都可以稱為“大字符集“,顯然優(yōu)于GB2312。因此,下面的比較將不包括GB2312。由于GBK已經(jīng)為GB18030取代,下面的比較將在GB13000、GB18030和UNICODE規(guī)范之間進(jìn)行。1、技術(shù)三者的編碼空間都十分龐大GB18030的編碼位置超過了1,600,000個,ISO/IEC10646和UNICODE規(guī)范的編碼位置更高達(dá)2,147,483,648個。就編碼空間來說,無論哪一個標(biāo)準(zhǔn),都可以綽綽有余地容納世界上所有文字在其中編碼。因此,三個標(biāo)準(zhǔn)在編碼空間大小上沒有優(yōu)劣之分。三者的字匯都十分巨大GB18030力圖為全部漢字和我國所有少數(shù)民族文字編碼,ISO/IEC10646和UNICODE規(guī)范力圖為世界上所有文字編碼。因此,前者具有更強(qiáng)的針對性,后者具有更強(qiáng)的通用性。三者都采用了四字節(jié)的編碼方式為了擴(kuò)大編碼空間,增加編碼位置,必須采用多字節(jié)編碼方式。ISO/IEC10646和UNICODE規(guī)范通過在基本多文種平面劃出“代理區(qū)“映射輔助平面的方式實(shí)現(xiàn)四字節(jié)編碼,GB13000通過0X30到0X39碼位實(shí)現(xiàn)編碼空間擴(kuò)展,達(dá)到四字節(jié)。由于GB18030采用了雙字節(jié)和四字節(jié)的混合排列,因此在標(biāo)準(zhǔn)的實(shí)現(xiàn)過程中略微復(fù)雜一些。在我國,GB18030具有更好的兼容性GB18030完全解決了對采用GB2312和GBK編碼的文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論