版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第四章 漢字編碼技術(shù),延邊大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,漢字編碼的概念,從廣義角度看 字典/詞典編碼方法,用于在字典和詞典中的快速定位 ,常見(jiàn)的方法:部首、筆畫(huà)、拼音和四角號(hào)碼等 從狹義角度看 漢字鍵盤(pán)編碼,用計(jì)算機(jī)鍵盤(pán)上的按鍵為漢字編碼 漢字編碼的概念 計(jì)算機(jī)通信技術(shù)領(lǐng)域?qū)λ幚硇畔⒌淖址?hào)序列的排序原則和低嗎賦值方式,簡(jiǎn)稱(chēng)“機(jī)內(nèi)碼”,包括存儲(chǔ)碼、處理碼、傳輸碼等 計(jì)算機(jī)鍵盤(pán)輸入漢字的代碼設(shè)計(jì)與實(shí)現(xiàn),簡(jiǎn)稱(chēng)“外碼”或“人機(jī)界面編碼”,用一套字母數(shù)字代碼輸入漢字,漢語(yǔ)詞典常用檢字方法之一,用最多5個(gè)阿拉伯?dāng)?shù)字來(lái)對(duì)漢字進(jìn)行歸類(lèi)。四角號(hào)碼檢字法由王云五發(fā)明,他并在1925年5月著號(hào)碼檢字法由商務(wù)印書(shū)館
2、出版。四角號(hào)碼檢字法用數(shù)字0到9表示一個(gè)漢字四角的十種筆形,有時(shí)在最后增加一位補(bǔ)碼。,四角號(hào)碼編碼方法,橫一垂二三點(diǎn)捺 叉四插五方框六 七角八八九是小 點(diǎn)下有橫變零頭 舉例:端 先取左上角0,其次取右上角2再取左下角1,最后取右下角 2,端=0212。,四角號(hào)碼取角方法,取角方法 (1)一筆可以分角取號(hào)。例:以 左邊是一筆,上取為2,下取為7。 (2)一筆的上下兩段和別筆構(gòu)成兩種筆形的,分兩角取號(hào)。例:水 左邊,上取1,下取9。 (3)下角筆形偏在一角的,按實(shí)際位置取號(hào),缺角作0。例:妒 右下角缺,取為0。 (4)凡外圍是“口、門(mén)(門(mén))”的三類(lèi)字,左右兩下角改取里面的筆形。例:田 =6040。
3、 (5)一個(gè)筆形,前角已經(jīng)用過(guò),后角作0。例:王 左上角為一橫,取1,右上角因?yàn)榍懊嬉呀?jīng)用過(guò),所以取0。 附號(hào) (1)四角號(hào)碼字較多時(shí),再取靠近右下角(第四角)上方一個(gè)筆形作“附號(hào)”,如果這一筆形已被右上角用過(guò),則作0。 (2)四角和“附號(hào)”相同的字,照各字所含橫筆數(shù)目,順序排列。 取角注意項(xiàng) (1)角形有兩單筆或一單筆一復(fù)筆的,不論高低,一律取最左或最右的筆形。 (2)有兩復(fù)筆可取的,在上角取較高的的復(fù)筆,在下取較低的復(fù)筆。 (3)當(dāng)中起筆的撇,下角有他筆的,取他筆作下角,但左邊起筆的撇,取撇筆作角。,漢字編碼的發(fā)展,20世紀(jì)70年代 起步階段,拼音編碼、五筆字形、自然碼等,效率較低 20世
4、紀(jì)80年代中期 轟轟烈烈的“大躍進(jìn)”式編碼活動(dòng),但沒(méi)有什么發(fā)展 20世紀(jì)90年代 蕭條期 進(jìn)入21世紀(jì)后 將是又一個(gè)發(fā)展期,數(shù)字編碼方案將占主導(dǎo),漢字編碼中的幾個(gè)概念(1),字符集/字匯和詞匯 字符集/字匯 多/少 詞匯 多/少 特指某個(gè)編碼方案編碼詞組的集合 碼元 組成輸入碼的字符集合稱(chēng)為碼元。 如拼音碼的碼元是“a”“z”中的任意一個(gè)字母;縱橫碼的碼元是“0”“9”中的任意一個(gè)數(shù)字 。,縱橫碼的使用方法,由香港殷商周忠繼先生發(fā)明、推廣的一套以0-9十個(gè)數(shù)字進(jìn)行編碼的小鍵盤(pán)輸入法,它以片語(yǔ)/詞組作為主要輸入方式。 一橫二豎三點(diǎn)捺,叉四插五方塊六,七角八八九是小,撇與左鉤都是零。 單字取碼 取
5、碼次序:左上角、右上角、左下角、右下角 取大不取小 有重復(fù)筆形不取 有邊取邊 有角高優(yōu)先 詞組取碼 33規(guī)則:對(duì)二字詞組,取每字的頭3碼,若不足3碼,則有幾碼取幾碼,取完按數(shù)字鍵的9上面的“” 222規(guī)則:對(duì)三字詞組,取每字的頭2碼,若不足2碼,則有幾碼取幾碼,同上。 2112規(guī)則:對(duì)四字詞組,詞首尾字各取頭2碼,中間每字各只取頭1碼,同上。 21111規(guī)則:對(duì)多字詞組,第一字取頭2碼,第二至第五字各取頭1碼,余下若字不用取碼,同上。,漢字編碼中的幾個(gè)概念(2),碼長(zhǎng) 輸入碼的長(zhǎng)度稱(chēng)為碼長(zhǎng)。如輸入碼“123”的碼長(zhǎng)為3 等長(zhǎng)編碼,如區(qū)位碼等 不等長(zhǎng)編碼,如拼音碼、縱橫碼等 單碼和重碼 一個(gè)編碼
6、可能對(duì)應(yīng)多個(gè)漢字和詞組,那么這些漢字或詞組稱(chēng)為重碼。一個(gè)編碼對(duì)應(yīng)的漢字和詞組只有一個(gè)時(shí),稱(chēng)該漢字和詞組為單碼。,漢字編碼中的幾個(gè)概念(3),編碼空間和編碼效率 所有可能的輸入碼集合,稱(chēng)為編碼空間。 編碼空間的大小依賴(lài)于碼元集合和碼長(zhǎng)。 如某個(gè)編碼方案的碼元共有K個(gè),編碼采用等長(zhǎng)碼,長(zhǎng)度為i,則編碼空間大小為:C=Ki, 如區(qū)位碼的編碼空間大小為:C=104,即10000個(gè)。 編碼效率簡(jiǎn)單而言是指編碼的字匯/詞匯除以編碼空間的大小。 如區(qū)位碼,它的字匯大小為6763,則編碼效率為6773/1000067.73。,漢字的墑(1)信息量的概念,熵,在信息論里叫信息量。從控制論的角度來(lái)看,應(yīng)叫不確定性
7、。 最簡(jiǎn)單的是只有兩種可能性,非此即彼,我們以這種事物的信息量為單位,叫1比特(bit)。如果可能性數(shù)目有2的n次方(N=2n),那就是n比特,即信息量等于可能性數(shù)目N的“以2為底的對(duì)數(shù)”:H=2NN/2。 信息量應(yīng)按符號(hào)的可能性(數(shù)學(xué)上叫概率大?。﹣?lái)計(jì)算,它是概率的負(fù)對(duì)數(shù)。平均信息量就是它們的加權(quán)平均 H=pipi(1in)( pi表示第i個(gè)字母的概率) 文字信號(hào)的信息量H是信號(hào)個(gè)數(shù)n的以2為底的對(duì)數(shù): H=n/ 2。英文有 26個(gè)字母,每個(gè)字母的信息量H=26/ 24.700。,各種語(yǔ)言的字母的信息量,法文3.98比特27個(gè)字母 意大利文4.00比特21+5個(gè)字母 西班牙文4.01比特27
8、個(gè)字母 英文4.03比特27個(gè)字母 德文4.10比特26+4個(gè)字母 羅馬尼亞文4.12比特 俄文 4.35比特37個(gè)字母 中文 9.65比特,漢字的墑(2)漢字墑的概率分布,假設(shè)給定一個(gè)漢字字符集HZ,其中漢字?jǐn)?shù)為n,則該字符集的熵為 H=PiPi(1in) 其中 Pi為單個(gè)漢字在漢語(yǔ)文本中出現(xiàn)的概率, (Pi)是第i個(gè)漢字出現(xiàn)時(shí)的信息量, (Pi)是所有漢字在不考慮前后相關(guān)性時(shí)所給出的全部信息量。 H是該集合中的每個(gè)漢字的平均信息量。,漢字的墑(3)漢字墑的意義,平均信息量(信息熵)表示存儲(chǔ)或表示該漢字字符集所需要的二進(jìn)制位數(shù)(中文約為9.65bit)。根據(jù)每個(gè)漢字的平均熵,通過(guò)采用不等長(zhǎng)編
9、碼可以提高漢字存儲(chǔ)和傳輸效率。 信息量(信息熵)與字的使用頻度成反比。即頻度下降一半,其信息量增加1位。 對(duì)漢字編碼而言,采用多于2個(gè)碼元時(shí),漢字的平均熵也會(huì)下降。如: 當(dāng)m=2時(shí), Lmin (3,4) 當(dāng)m=47時(shí) Lmin (1.73,2.73) 不同領(lǐng)域,字的使用頻度不同,因此,對(duì)大系統(tǒng)內(nèi)的漢字信息熵的意義不大。,漢字鍵盤(pán)編碼的依據(jù)心理依據(jù),從心理學(xué)角度來(lái)看,根據(jù)漢字音信息的漢字編碼,人在大腦中無(wú)需進(jìn)行任何的思考,就可以輸入漢字,所以說(shuō)是最為直接的輸入方式。根據(jù)漢字形信息的漢字編碼,用戶(hù)在輸入時(shí),大腦需要把語(yǔ)言轉(zhuǎn)換為字形,然后才能輸入,所以說(shuō)是一種間接的輸入方式。 漢字心理學(xué)和模糊心理
10、學(xué)的研究表明,人認(rèn)字時(shí)上半部?jī)?yōu)于下半部,外圍優(yōu)于中間。 從排列心理學(xué)角度來(lái)看,希望漢字的編碼能盡量唯一,并能盡量表達(dá)漢字的本身特征。,漢字鍵盤(pán)編碼的依據(jù)漢語(yǔ)拼音,漢語(yǔ)拼音的語(yǔ)言形式有三個(gè)要素:聲母、韻母和聲調(diào)。三者構(gòu)成一個(gè)音節(jié)。其中聲母有21個(gè),韻母有35個(gè)。聲調(diào)有五種:陰平、陽(yáng)平、上聲、去聲和輕聲。聲韻結(jié)合起來(lái)有417個(gè)基本音節(jié),如果考慮聲調(diào),總共有1330個(gè)左右的音節(jié)。 所有的計(jì)算機(jī)用漢字的發(fā)音都在這些音節(jié)范圍內(nèi)。這就是漢字同音字/詞多的根本所在。如在GBK中,拼音“yi”有個(gè)460多個(gè)對(duì)應(yīng)的漢字。 同樣也存在大量的同音詞。這就造成重碼多和輸入不方便。這是以音作為編碼要素存在的主要問(wèn)題。,
11、漢字鍵盤(pán)編碼的依據(jù)漢字部件,漢字的字形分為三級(jí):筆畫(huà)、漢字部件(如偏旁部首)和整字。由筆畫(huà)構(gòu)成漢字部件,由漢字部件構(gòu)成整字。 絕大多數(shù)根據(jù)漢字字形的編碼方案基本上是基于部件的編碼,如“五筆”、“表形碼”等。 基于部件的漢字編碼需要解決的問(wèn)題是:漢字如何拆分? 用漢字部件編碼的最大問(wèn)題是部件的規(guī)范問(wèn)題。,漢字鍵盤(pán)編碼的依據(jù)筆畫(huà)/筆順,筆畫(huà)/筆順編碼是選取漢字的基本筆畫(huà)(如五種或八種),把筆畫(huà)定義到漢字的數(shù)字鍵和字母鍵上,然后依筆順或漢字的筆順來(lái)給漢字編碼。 筆畫(huà)輸入近年來(lái)受到了特別的重視,主要是手機(jī)迅速普及所致。 筆畫(huà)輸入的優(yōu)勢(shì)在于簡(jiǎn)單,無(wú)需學(xué)習(xí)和記憶。筆畫(huà)輸入的困難在于單字輸入重碼多、詞組輸入
12、效率低、句子輸入則困難。,漢字編碼的分類(lèi)流水碼,將漢字按照一定順序排列后,給每個(gè)漢字以一個(gè)特定的順序號(hào),形成的漢字編碼稱(chēng)為流水碼,也稱(chēng)無(wú)理碼或順序碼。一個(gè)現(xiàn)成的順序就是漢字內(nèi)碼的排列順序,區(qū)位碼和內(nèi)碼就是其中的兩個(gè)實(shí)例。 流水碼的好處在于編碼與漢字一一對(duì)應(yīng),絕無(wú)重碼。 缺點(diǎn)是編碼無(wú)規(guī)律,記憶難度大,不易掌握。,漢字編碼的分類(lèi)音碼,音碼是以漢字的發(fā)音為基礎(chǔ)的一種漢字編碼,一般以漢語(yǔ)拼音方案為藍(lán)本進(jìn)行設(shè)計(jì)。 如智能ABC、全拼、雙拼、微軟拼音、紫光拼音等。 音碼的最大好處是簡(jiǎn)單易學(xué)。 音碼的缺點(diǎn):漢字同音字太多,檢索同音字使?jié)h字輸入速度大大減慢。 目前音碼仍然是使用最廣泛的編碼,幾乎96%以上的用
13、戶(hù)采用音碼。值得一提的是:音碼本身也在揚(yáng)長(zhǎng)避短,作了許多有益的改進(jìn)。,漢字編碼的分類(lèi)形碼,形碼是依漢字的字形來(lái)編碼的。 如五筆字型、筆形碼、大眾碼等。 形碼有效地避免了按發(fā)音輸入的缺陷,重碼率也相對(duì)較低,為實(shí)現(xiàn)漢字的盲打提供了可能,成為專(zhuān)業(yè)人員的首選漢字輸入碼。 形碼的部件多,分布廣,記憶起來(lái)較難,同時(shí)須經(jīng)過(guò)較長(zhǎng)時(shí)間的學(xué)習(xí)訓(xùn)練才能熟練掌握。,漢字編碼的分類(lèi)音形碼/形音碼,音形碼/形音碼兼顧漢字的讀音、字形兩方面的特點(diǎn)進(jìn)行混合編碼。 音形碼在兼有音碼和形碼二者之長(zhǎng)的同時(shí),也兼有二者的一些弱點(diǎn)。 音形碼在輸入時(shí)既考慮漢字的讀音又考慮漢字的寫(xiě)法,人需要思考的時(shí)間也會(huì)增多,造成輸入時(shí)的瓶頸。,海曼(H
14、yman)公式與漢字編碼時(shí)間,海曼公式的一般形式為:Ta十bH(K) 其中,T為平均選擇反應(yīng)時(shí)間,K是選擇信號(hào)的個(gè)數(shù),H(K)為每一個(gè)信號(hào)的平均信息量,a和b是系數(shù)。 漢字編碼時(shí)間的公式:T=a十blog2K十C a為大腦發(fā)出指令沖動(dòng)到肌肉動(dòng)作所需時(shí)間,即擊鍵時(shí)間;blog2K理解為“選擇時(shí)間與信息量成正比”的適用條件下,選擇等概率鍵位所需時(shí)間的一種可采用的表達(dá)方式;C代表一個(gè)碼元的平均“編碼時(shí)間”,反應(yīng)了思維時(shí)間和檢索時(shí)間的長(zhǎng)短。,鍵盤(pán)分區(qū)圖,大鍵盤(pán)編碼,如果一種編碼的碼元集合為“a”“z”這26個(gè)字母或它的子集,那么我們稱(chēng)這種碼元的鍵盤(pán)映射方式為大鍵盤(pán)編碼。如全拼和智能ABC等拼音編碼、五
15、筆、鄭碼等等。 各種拼音編碼一般都是采用大鍵盤(pán)編碼。 形碼也有采用大鍵盤(pán)的,如五筆就是一個(gè)典型的例子。 一般采用大鍵盤(pán)的碼長(zhǎng)在34之間,平均碼長(zhǎng)一般不能超過(guò)4。,小鍵盤(pán)編碼,采用鍵盤(pán)右邊的數(shù)字區(qū)的“0”“9”這10個(gè)數(shù)字進(jìn)行編碼的方法稱(chēng)為小鍵盤(pán)編碼。如區(qū)位、縱橫、字原、五筆數(shù)碼等均是小鍵盤(pán)編碼。 采用小鍵盤(pán)編碼的以形碼居多,音碼也有但不多。形碼一般都采用筆畫(huà)編碼。 音碼在計(jì)算機(jī)小鍵盤(pán)上應(yīng)用很少,主要是用在數(shù)碼產(chǎn)品上,如手機(jī)、電話(huà)、遙控器等。實(shí)現(xiàn)時(shí)一般把26個(gè)英文字母映射到10個(gè)數(shù)字按鍵上。,縱橫碼的鍵位圖,字母數(shù)字映射圖,大大鍵盤(pán)編碼,大大鍵盤(pán)編碼是指編碼的碼元不僅是大鍵盤(pán)上的26個(gè)字母,還包
16、括10個(gè)數(shù)字和部分的其它符號(hào)。這種編碼方案早期很多,如字元編碼、錢(qián)碼、陸碼、綠色拼形等。 早期出現(xiàn)這樣的編碼方法主要是可以增加編碼空間,從而降低重碼率,實(shí)現(xiàn)快速輸入。 這種編碼方案已經(jīng)很少了,主要是因?yàn)檫@種方案具有不易學(xué)和難記等缺陷。,綠色拼形編碼的鍵位分布圖,小小鍵盤(pán)編碼,小小鍵盤(pán)編碼是指只用5個(gè)數(shù)字來(lái)編碼,也就是碼元數(shù)只有5個(gè)。 小小鍵盤(pán)編碼方案主要是應(yīng)用在手機(jī)等數(shù)碼設(shè)備上,幾乎所有的手機(jī)筆形編碼均是采用小小鍵盤(pán)編碼。,Nokia 筆畫(huà)輸入法小小鍵盤(pán)圖,數(shù)碼鍵盤(pán)方案,所謂的漢字?jǐn)?shù)碼是指用“0”到“9”十個(gè)數(shù)字對(duì)漢字的單字和詞組進(jìn)行編碼,使得只用小鍵盤(pán)就可以完成漢字的輸入,并可移植到手機(jī)以及
17、各類(lèi)PDA產(chǎn)品上使用。,縱橫碼,在縱橫漢字編碼方案中,把筆形分為10類(lèi),分別用“0”到“9”這10個(gè)數(shù)字表示。 筆形與數(shù)字代碼的關(guān)系可通過(guò)下列口訣記憶: “一橫二豎三點(diǎn)捺,叉四插五方塊六。七角八八九是小,撇與左鉤都是零?!?取碼規(guī)則是將漢字看成一個(gè)方塊字,取漢字四個(gè)角的筆形為有關(guān)編碼。 部分漢字的取碼實(shí)例: 人(8) 中(5) 十(4)重(01) 要(14) 喜(46) 事(50),五筆數(shù)碼,五筆數(shù)碼按照筆畫(huà)進(jìn)行編碼。筆畫(huà)分為“橫”、“豎”、“撇”、“捺”、“折”五種,分別用“1”、“2”、“3”、“4”、“5”作為代碼。下表為基本筆畫(huà)代碼表:,6鍵6碼鍵盤(pán)圖,9鍵9碼鍵盤(pán)圖,統(tǒng)一碼,該方案取5種基本筆畫(huà):“橫(一)”(含“提”)、“豎(丨)”(含“豎勾”)、“撇(丿)”(包括“啄”)、“點(diǎn)(丶)”(含“捺”)和“折(乙)”(包括左折和右折),并且將這五種筆畫(huà)賦予順序值“1”“5”。 數(shù)字統(tǒng)一碼將漢字結(jié)構(gòu)歸納概括為四種基本結(jié)構(gòu)。它們是:上下結(jié)構(gòu),左右結(jié)構(gòu),包圍結(jié)構(gòu),嵌套結(jié)構(gòu)。同時(shí)規(guī)定一個(gè)漢字可以取一至六碼。 字445576各359251右689,左右數(shù)碼,利用數(shù)字來(lái)表示漢字的筆劃、拼音和部件,其特征是
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026屆上海市復(fù)旦附中浦東分校數(shù)學(xué)高一上期末調(diào)研試題含解析
- 班會(huì)周年活動(dòng)策劃方案(3篇)
- 社區(qū)食堂休息驛站管理制度(3篇)
- 酒店餐廳取消訂單管理制度(3篇)
- 風(fēng)動(dòng)錨桿鉆機(jī)管理制度(3篇)
- 《GA 862-2010機(jī)動(dòng)車(chē)駕駛證業(yè)務(wù)信息采集和駕駛證簽注規(guī)范》專(zhuān)題研究報(bào)告
- 兼職培訓(xùn)教學(xué)課件
- 養(yǎng)老院信息化管理與服務(wù)制度
- 企業(yè)商務(wù)合作流程規(guī)范制度
- 企業(yè)財(cái)務(wù)預(yù)算管理制度
- 湖南省2025-2026學(xué)年七年級(jí)歷史上學(xué)期期末復(fù)習(xí)試卷(含答案)
- 2026年中國(guó)熱帶農(nóng)業(yè)科學(xué)院南亞熱帶作物研究所第一批招聘23人備考題庫(kù)完美版
- 2026新疆阿合奇縣公益性崗位(鄉(xiāng)村振興專(zhuān)干)招聘44人考試參考試題及答案解析
- 紡織倉(cāng)庫(kù)消防安全培訓(xùn)
- 器官移植術(shù)后排斥反應(yīng)的風(fēng)險(xiǎn)分層管理
- 虛擬電廠關(guān)鍵技術(shù)
- 事業(yè)單位清算及財(cái)務(wù)報(bào)告編寫(xiě)范本
- 護(hù)坡綠化勞務(wù)合同范本
- 臨床績(jī)效的DRG與CMI雙指標(biāo)調(diào)控
- 護(hù)坡施工安全專(zhuān)項(xiàng)方案
- 2026年湛江日?qǐng)?bào)社公開(kāi)招聘事業(yè)編制工作人員備考題庫(kù)及完整答案詳解
評(píng)論
0/150
提交評(píng)論