版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第5章 數(shù)字媒體及應(yīng)用,5.1 文本與文本處理 5.2 圖像與圖形 5.3 數(shù)字聲音及應(yīng)用 5.4 數(shù)字視頻及應(yīng)用,5.1 文本與文本處理,5.1.1 字符的編碼 5.1.2 文本準(zhǔn)備 5.1.4 文本編輯、排版與處理 5.1.5 文本的展現(xiàn) 5.1.3 文本的分類與表示,文字處理是計算機應(yīng)用的基礎(chǔ),計算機應(yīng)用使用計算機進行信息處理,其中,文字信息處理是涉及面最廣的一種計算機應(yīng)用,幾乎與任何領(lǐng)域任何人都有關(guān)。,傳統(tǒng)的文字處理過程,計算機文字處理過程,文字信息在計算機中稱為“文本”(text),文本是計算機中最常用的一種數(shù)字媒體 文本由一系列 “字符”(character)組成,每個字符均使用二
2、進制編碼表示 文本在計算機中的處理過程是:,5.1.1. 字符在計算機中的表示,字符、字符集及其碼表,文字的基本元素是字母和符號,統(tǒng)稱為“字符” (character),它包括:字母、數(shù)字、標(biāo)點、符號等 字符集:一組特定字符的集合 不同的字符集包含的字符數(shù)目與內(nèi)容不同,如: 中文字符集、西文字符集、日文字符集等 字符的編碼: 字符集中每個字符都使用二進位(code) 表示,稱為該字符的編碼 不同的字符其編碼各不相同 字符集中所有字符的編碼的一覽表,稱為該字符集的碼表,西文字符的編碼ASCII碼,西文是表音文字(拼音文字),它由拉丁字母、數(shù)字、標(biāo)點符號以及一些特殊符號所組成 美國標(biāo)準(zhǔn)信息交換碼(
3、American Standard Code for Information Interchange, 簡稱ASCII碼): ASCII字符集包含96個可打印字符和32個控制字符 采用7個二進位進行編碼 計算機中使用1個字節(jié)存儲1個ASCII 字符 存在問題: 7位代碼空間太?。ㄖ荒軐?28個字符編碼) 不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容 東亞地區(qū)使用的大字符集無法編碼,標(biāo)準(zhǔn)ASCII字符集及其碼表,漢字如何編碼?,漢字是記錄漢語(國語,華語)的文字,屬于表意文字,它用符號直接表達詞或詞素 漢字的特點 數(shù)量大;多個國家和地區(qū)使用;字形復(fù)雜,同音字多,異體字多 如何編碼? 確定收入
4、多少字、哪些字? 漢字在字符集中的排序方式 確定使用的代碼結(jié)構(gòu)和代碼空間,常用的漢字編碼字符集,國家標(biāo)準(zhǔn)GB2312 漢字擴充規(guī)范 GBK 國家標(biāo)準(zhǔn)GB18030 臺灣地區(qū)的標(biāo)準(zhǔn)漢字字符集CNS 11643 (BIG 5,俗稱“大五碼”) 日本工業(yè)標(biāo)準(zhǔn)漢字字符集JIS X 0208-90 韓國國家標(biāo)準(zhǔn)漢字字符集KSC 5601-87,GB2312漢字編碼字符集,1980年頒布信息交換用漢字編碼字符集基本集GB2312-1980 GB2312字符集由三個部分構(gòu)成:,拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個,(注:區(qū)位碼僅用于在鍵盤上輸入漢字),GB2312漢字的編碼,每
5、一個GB2312漢字使用16位(2個字節(jié))表示 每個字節(jié)的最高位均為“1” 在16位代碼空間中的碼位分布:,GB2312漢字編碼的不足之處,GB2312漢字字數(shù)太少,無法滿足一些特殊應(yīng)用的需要: 人名、地名; 古籍整理、古典文獻研究。 沒有繁體字 編碼效率不高: (6763+682)/65536 與ASCII碼不兼容,幾種漢字編碼的對比,背景材料:UCS/Unicode,解決多文種信息處理方法的發(fā)展: 傳統(tǒng)方法(ISO):擴展ASCII碼 微軟的方法:代碼頁切換 UCS/Unicode:所有文字字母和符號集中在同一字符集進行統(tǒng)一編碼(目前收集了17x2161,114,112 個) UCS/Un
6、icode的編碼方案: 盡量與已有編碼標(biāo)準(zhǔn)兼容 先實現(xiàn)部分字符的編碼(101,000個) 允許有若干不同的編碼方案, 例如:,背景材料:GB18030,無論是Unicode的UTF-8還是UTF-16,其CJK漢字字符集雖然覆蓋了我國已使用多年的GB2312和GBK標(biāo)準(zhǔn)中的漢字,但它們的編碼并不相同 為了既能與UCS/Unicode編碼標(biāo)準(zhǔn)接軌,又能保護我國已有的大量漢字信息資源,我國在2000年和2005年兩次發(fā)布GB18030漢字編碼國家標(biāo)準(zhǔn)。 GB18030實際上是UCS/Unicode字符集的另一種編碼方案: 單字節(jié)編碼(129個)表示ASCII字符 雙字節(jié)編碼(23940個)表示漢字
7、,與GBK(以及GB2312)保持向下兼容 四字節(jié)編碼(約158萬個)用于表示 UCS/Unicode中的其他字符 GB18030目前已在我國信息處理產(chǎn)品中強制貫徹執(zhí)行。,例: IE瀏覽網(wǎng)頁時文字編碼的選擇,5.1.2. 文本準(zhǔn)備 文稿如何輸入計算機,文字符號輸入計算機的方法,鍵盤輸入,(1)數(shù)字編碼, 如電報碼、區(qū)位碼等, (2)字音編碼, 如智能ABC等 (3)字形編碼,如五筆字形和表形碼等, (4)形音編碼 發(fā)展趨勢:基于統(tǒng)計和學(xué)習(xí)功能的以詞語(短語)或句子作為輸入單位的輸入方法,文字符號輸入計算機的方法,優(yōu)點: 自然,流暢 小型化,適合移動計算 不足: 識別速度和正確性還需提高 書寫要
8、求還要降低,文字符號輸入計算機的方法,優(yōu)點: 自然,方便,適合移動計算 不足: 對說話人、說話方式、說話內(nèi)容的適應(yīng)能力要大大增強 識別速度和正確性還需大大提高,文字符號輸入計算機的方法,識別率已達到98% 功能: 簡、繁體字混合識別 中文、西文混合識別 文字、表格混合識別 智能校對功能,文字符號輸入計算機的方法,技術(shù)上非常困難,還無法實用 目前準(zhǔn)備先突破工整的楷書手寫體的識別!,漢字的鍵盤輸入,漢字與鍵盤上的鍵無法一一對應(yīng),因此必須使用幾個鍵來表示一個漢字,這就稱為漢字的“鍵盤輸入編碼” 優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點: 易學(xué)習(xí)、易記憶 效率高(平均擊鍵次數(shù)較少) 重碼少 容量大(可輸入的
9、漢字字數(shù)多),漢字鍵盤輸入方法的比較,5.1.4 文本的編輯與排版,復(fù)習(xí):使用Word的操作流程,創(chuàng)建新文檔或打開老文檔,文稿輸入,編輯,排版,文檔存盤、打印或發(fā)送,輸入中西文字、符號和圖表,進行增、刪、改操作,保證文本的正確性,滿足清晰、美觀、便于使用等要求,目的:確保文本內(nèi)容正確無誤 操作:對字、詞、句和段落進行添加、刪除、修改等操作 MS Word的功能: 在文本的任何位置都可以插入新的文字 從文本的任何位置都可以刪除不需要的文字 將一段文字從一處移動到另一處 將一段文字從一處復(fù)制到另一處 在文本中自動查找指定的詞語 用一個詞語自動替換文本中指定的詞語,文本編輯(text editing
10、),目的:使文本清晰、美觀、便于閱讀 操作內(nèi)容:對文本中的字符、段落乃至整篇文章的格式進行設(shè)計和調(diào)整,分成3個層次: 對字符格式進行設(shè)置 對段落格式進行設(shè)置 對文檔頁面進行格式設(shè)置,文本排版(格式化),設(shè)置字符的格式,字號(八號 初號, 5磅72磅以上) 1磅相當(dāng)于1/72英寸 字體(宋體、楷體、黑體、仿宋、隸書) 字符的修飾 字符的形狀(字形):正常、加粗、傾斜、加粗傾斜 字形的修飾:下劃線、著重號、上下標(biāo)、刪除線 字符的顏色 字符的寬度 字符的間距 字符的效果 字符的排列方向,Demo1,什么是段落?用“回車”相互隔開的一組文字 段落格式的設(shè)置: 段落的對齊方式(兩端對齊、分散對齊、居中對
11、齊、左對齊、右對齊) 段落的縮進方式(首行縮進、懸掛縮進、左縮進、右縮進) 段間距和段內(nèi)行距 使用編號和項目符號 段落添加邊框和底紋 首字下沉或懸掛 段落與分頁的關(guān)系,設(shè)置段落的格式,Demo2,控制段落的縮進,段落縮進是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落左縮進、右縮進和首行縮進。其縮進的距離可由水平標(biāo)尺上對應(yīng)的三個縮進標(biāo)記來指示,頁面格式的設(shè)置: 設(shè)置紙張大小和頁邊距 設(shè)置每頁的行、列數(shù)目 設(shè)置分欄數(shù)目與格式 設(shè)置頁碼 設(shè)置頁眉和頁腳,設(shè)置頁面的格式,設(shè)置頁面的分欄,“所見即所得”(操作效果立即可見,且打印結(jié)果與屏幕所見相同) 撤銷(undo)和恢復(fù)(redo)操作 格式刷 多
12、種視圖(大綱視圖與大綱編輯) 自動更正、自動套用格式、自動編號、自動圖文集 自動保存功能和自動備份功能 樣式、模板和向?qū)?wizard)功能 宏操作(Macro),提高操作效率的若干措施,文本處理初步,使用計算機對文本中的字、詞、短語、句子、篇章進行識別、轉(zhuǎn)換、分析、理解、壓縮、加密和檢索等有關(guān)的處理 文本處理內(nèi)容: 字數(shù)統(tǒng)計,詞頻統(tǒng)計,簡/繁體相互轉(zhuǎn)換,漢字/拼音相互轉(zhuǎn)換 詞語排序,詞語錯誤檢測,文句語法檢查 自動分詞,詞性標(biāo)注,詞義辨識,大陸/臺灣術(shù)語轉(zhuǎn)換 關(guān)鍵詞提取,文摘自動生成,文本分類 文本檢索(關(guān)鍵詞檢索、全文檢索),文本過濾 文語轉(zhuǎn)換(語音合成),文種轉(zhuǎn)換(機器翻譯) 篇章理解,
13、自動問答,自動寫作等 文本壓縮,文本加密,文本著作權(quán)保護,什么是文本處理?,例:Word 2003的文本處理功能,英文拼寫檢查和英語同義詞檢查 字數(shù)統(tǒng)計 自動編寫摘要 中文簡繁體轉(zhuǎn)換和術(shù)語轉(zhuǎn)換 中英詞語翻譯 語法和格式檢查 語音識別(口授命令和聽寫) 文檔保護(防止打開或修改文檔),附:關(guān)于文本檢索,將文本按一定的方式進行組織、儲存、管理,并根據(jù)用戶的要求查找到所需要的文本,稱為“文本檢索” 文本檢索系統(tǒng)的組成和工作流程:,對每一文本生成索引 索引的結(jié)構(gòu)為:索引標(biāo)識+相應(yīng)的地址 索引標(biāo)識可以是文本的標(biāo)題(主題)、作者、分類、關(guān)鍵詞等,給出查詢要求,如標(biāo)題是什么、作者是誰、屬于哪一類、所包含的關(guān)
14、鍵詞等 提問詞可以使用“與”、“或”、“非”等邏輯運算進行組合,由檢索軟件將查詢要求與索引數(shù)據(jù)進行匹配,找出與查詢要求相關(guān)的文本的地址;,系統(tǒng)按地址從文本庫中取出對應(yīng)的一組文本,返回給用戶,經(jīng)過分析后,按照與查詢要求的相關(guān)程度(從高到低排序)返回給用戶,對文本檢索系統(tǒng)的評價,效果 精度:返回結(jié)果中相關(guān)的文本占返回總數(shù)的百分比 召回率: 返回結(jié)果中相關(guān)的文本占全部相關(guān)文本的百分比 效率: 檢索速度 其它: 易用性等,Web信息檢索是文本檢索的特例,也稱為搜索引擎,例如Google、Yahoo、Alta Vista、Infoseek、新浪、天網(wǎng)、百度等。 系統(tǒng)結(jié)構(gòu):,預(yù)先使用軟件robot遍歷We
15、b,將Web上的信息下載到本地文檔庫,對文本內(nèi)容進行自動分析并建立索引,用戶提出檢索請求時,搜索引擎通過檢查索引找出匹配的文本(或URL地址)并返回給用戶,5.1.5 文本的展現(xiàn)(輸出),文本的展現(xiàn)(輸出),目的:閱讀、瀏覽或打印文本 使用的軟件:文本閱讀器/文本瀏覽器 嵌入在文本編輯(處理)軟件中,如微軟的Word, 獨立的軟件:如Adobe公司的Acrobat Reader,微軟公司的IE等 文本展現(xiàn)的過程: 對文本的格式描述進行解釋 生成文字和圖表的映像(bitmap) 傳送到顯示器或打印機輸出,附:輸出過程中字形的生成,過程: 先根據(jù)字符的字體確定相應(yīng)的字庫(font), 再按照該字符
16、的代碼從字庫中取出該字符的形狀描述信息 然后按形狀描述信息生成字形,并按照字號大小及有關(guān)屬性(粗體、斜體、下橫線)將字形作必要的變換 最后將變換得到的字形放置在頁面的指定位置處 2種不同的字庫:,點陣描述,輪廓描述,5.1.3 文本的分類與表示,簡單文本(純文本 ),沒有字體、字號的變化,不能插入圖片、表格,也不能建立超鏈接,其文件后綴名是 .txt 由一串用于表達正文內(nèi)容的字符編碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息 舉例:,豐富格式文本,本書由南京大學(xué)出版社(Publishing House of Nanjing University)出版,有字體字號等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為“豐富格式文本” 豐富格式文本中,除了正文內(nèi)容之外,還使用了許多“標(biāo)記”來描述字符的屬性和格式的設(shè)置。 舉例:下面標(biāo)題的格式為:中文用黑體,西文用Arial Black體,居中,使用HTML語言描述為:,本書由南京大學(xué)出版社(Publishing Hou
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐廳消防培訓(xùn)課件內(nèi)容
- 餐廳安全培訓(xùn)計劃內(nèi)容課件
- 餐廳員工培訓(xùn)大全課件
- 頂崗實習(xí)前安全教育培訓(xùn)課件
- 除草安全教育培訓(xùn)內(nèi)容課件
- 陳列培訓(xùn)課件
- 阿特茲培訓(xùn)課件
- 阿爾茨海默病科普課件
- 防雷電安全宣傳培訓(xùn)記錄課件
- 竺可楨人物介紹
- 云南師大附中2026屆高三高考適應(yīng)性月考卷(六)思想政治試卷(含答案及解析)
- 建筑安全風(fēng)險辨識與防范措施
- CNG天然氣加氣站反恐應(yīng)急處置預(yù)案
- 培訓(xùn)教師合同范本
- 2026年黑龍江單招職業(yè)技能案例分析專項含答案健康養(yǎng)老智慧服務(wù)
- 2025年5年級期末復(fù)習(xí)-25秋《王朝霞期末活頁卷》語文5上A3
- (2025)70周歲以上老年人換長久駕照三力測試題庫(附答案)
- 醫(yī)院外科主任職責(zé)說明書
- 零售行業(yè)采購經(jīng)理商品采購與庫存管理績效考核表
- 理解當(dāng)代中國 大學(xué)英語綜合教程1(拓展版)課件 B1U3 Into the green
評論
0/150
提交評論