已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分類號 密級 編號 中國科學院研究生院 碩士學位論文 大規(guī)模平衡語料的收集分析及文本分類方法研究 指導(dǎo)教師 宗成慶 研究員 博士 中科院自動化所 申請學位級別 工程碩士 學科 專業(yè)名稱 模式識別與智能系統(tǒng) 論文提交日期 20 年 6 月 論文答辯日期 20 年 6 月 培養(yǎng)單位 中國科學院自動化研究所 學位授予單位 中國科學院研究生院 答辯委員會主席 in of I 摘 要 語料庫和 詞典 是 進行 自然語言處理研究的重要資源。 語 言學的 研究 必須以語言事實作為依據(jù),語言現(xiàn)象的復(fù)雜性決定了要全面的 了解其特點必須有大規(guī)模語料庫的支持,否則只能是無源之水,無本之木。 尤其是隨著統(tǒng)計模型在自然語言處理領(lǐng)域的應(yīng)用,大規(guī)模語料庫的作用更加突出, 無論對于語言現(xiàn)象本身的研究,還是對于信息檢索、機器翻譯、文本分類、自動分詞等應(yīng)用系統(tǒng)的研究和開發(fā),都具有非常重要的意義。同樣,詞典開發(fā)不僅是自然語言處理研究的基礎(chǔ)性工作,也是字典編纂、語言教學等工作的重要環(huán)節(jié)。因此,本論文從事的大規(guī)模平衡語料的收集和分析工作,以及在該工作基礎(chǔ)上開展的文本分類技術(shù)研究,具有重要的理論 意義和實用價值。 本文首先在歐共體項目( 資助下,開展了大規(guī)模漢語平衡語料的收集與分析工作,其主要目的是建立一個反映現(xiàn)代漢語語言特點的、適用于漢語語言分析、語音識別和語音合成的漢語標注語料庫,并以此為基礎(chǔ)建立相應(yīng)的信息詞典。該工作主要包括:( 1)在對大規(guī)模漢語平衡語料的收集方法進行調(diào)研和分析的基礎(chǔ)上,收集并標注了規(guī)模達 3087 萬字的漢語平衡語料;( 2) 以收集的語料為基礎(chǔ),建立了一個大規(guī)模( 10 多萬詞 ) 的現(xiàn)代漢語信息詞典,詞條標注信息包括詞性、注音、詞頻和專用詞的領(lǐng)域信息等。 以 上述工作 為基礎(chǔ) ,我們對文本分類方法進行了深入的研究, 主要創(chuàng)新包括: 第一, 在特征權(quán)重計算方面,通過對常見特征權(quán)重算法的分析和比較,提出了在 法中 用 n 次方代替 引入 量的處理方法 ,使得該 算法的 度分別提高了 45%。 第二, 類似于上面的處理方法,在 法中用 n 次方代替 引入 量,使得該算法的 第三, 在特征向量 抽取方面,在 類器上對常見的特征向量抽取方法進行了全面對比,然后提出了將 法用于特征 抽取的處理方法,并通過實驗證明,該方法在不同數(shù)目關(guān)鍵詞下的分類效果 均 優(yōu)于其它常見的特征向量抽取算法。 鍵詞: 平衡語料 , 語料庫 , 文本分類 , 特征抽取 be on is of of is a is to of so In is as as a of of in on is s of a to a an be (1) we a (2) on we a 03192 s We on be as 3 we of F*is F BV of 5%, so we F*15 we to F*V 目 錄 摘 要 . I .一章 緒 言 . 1 第二章 大規(guī)模平衡語料的收集分析 . 3 究背景 . 3 內(nèi)外語料庫概況 馮志偉, 2000 . 3 內(nèi)語料庫概況 . 3 內(nèi)語料庫概況 . 4 規(guī)模平衡語料的收集分析 . 5 用語料的收集和通用詞匯的抽取 . 5 有名詞的收集 . 11 用詞匯的收集 . 14 音 . 16 典形式 . 16 規(guī)模平衡語料的分析 陳克利, 2003 . 18 第三章 基于大規(guī)模真實語料的文本分類方法 . 22 有的文 本分類方法簡介 . 22 貝葉斯方法 . 23 法 . 24 k 近鄰算法 . 25 持向量機算法( . 25 策樹算法 . 27 他分類算法 . 27 征向量的權(quán)重算法 . 28 用的特征權(quán)重算法 . 29 征權(quán)重算法的改進 . 32 征向量的抽取 . 35 價函數(shù) . 38 平均和宏平均 . 38 . 39 1999. . 39 12004 . 39 值函數(shù) . 41 驗 . 41 驗: 法和改進后的 法的比較 . 41 驗 : . 46 實驗 : 法和 法的對 比 . 47 驗 : 不同特征選取方法的對比 . 51 第四章 結(jié)束語 . 54 參考文獻 . 56緒言 1 第一章 緒 言 語料庫和 詞典 是 進行 自然語言處理研究的重要資源。 語 言學的 研究 必須以語言事實作為依據(jù),語言現(xiàn)象的復(fù)雜性決定了要全面的 了解其特點必須有大規(guī)模 語料庫的支持,否則只能是無 源之水、 無本之木。 尤其是隨著統(tǒng)計模型在自然語言處理領(lǐng)域的應(yīng)用,大規(guī)模語料庫的作用更加突出, 無論對于語言現(xiàn)象本身的研究,還是對于信息檢索、機器翻譯、文本分類、自動分詞等應(yīng)用系統(tǒng)的研究和開發(fā),都具有非常重要的意義。同樣,詞典開發(fā)不僅是自然語言處理研究的基礎(chǔ)性工作,也是字典編纂、語言教學等工作的重要環(huán)節(jié)。因此,本論文從事的大規(guī)模平衡語料的收集和分析工作,具有重要的理論意義和實用價值。 自動文本分類技術(shù)是在給定分類體系下,根據(jù)文本內(nèi)容確定其所屬類別et 1999。隨著網(wǎng)絡(luò)和信息時代的到 來,人們獲取信息的手段越來越豐富, 可供選擇的信息量也成指數(shù)級 膨脹。數(shù)據(jù)量 的增長一方面為 人們進行各種活動提供了充分的 信息資源, 另一方面 也增加了人們選擇有用信息的難度,如何才能從浩如煙云的結(jié)果中找到自己需要的信息成為擺在人們面前一個新課題,最好的方式是讓計算機以一種自動的方式代替人去 搜索,而一個好的搜索 系統(tǒng),首先 必須能對千差萬別、來源各異的文本 合理的分類和 索引 , 這就是文本分類技術(shù)一個最重要的應(yīng)用 信息檢索。 自動文本分類技術(shù) 是自然語言處 理領(lǐng)域的一個重要課題。除了上面提到的信息檢索以外,文本分類還 應(yīng)用在 其他 許多方 面,如:信息過濾、文檔索引、數(shù)字圖 書館的分類和管理、詞義消歧、主題識別、語料庫建設(shè)、元數(shù)據(jù)生成等 。 本文主要包括 三 部分內(nèi)容 。 第二章 是 大規(guī)模 平衡語料 的收集 分析,主要介紹 典和語料建設(shè)項目 , 并以此為基礎(chǔ) , 比較 和分析了不同 領(lǐng)域 的 用詞特點 。這一部分又可以分成 兩大部分,第一部分主要是 介紹與 目相關(guān)的語料收集和詞典建設(shè)工作 ,包括通用語料的收集和 各種詞表(包括 通用詞表、專有名詞、專用詞表、總詞表 等) 的 抽取、詞性標注、注音等一系列工作。第二部分依據(jù)生成的詞表對不同詞類 在各領(lǐng)域 的分布情況從兩方面 (詞匯量和各種詞類 所占比例 )進行了比較分析。 第三章 是基于大規(guī)模真實語料的文本分類研究 。 根據(jù)第 二章 的分析我們知大規(guī)模平衡 語料的收集分析和文本分類方法的研究 2 道不同領(lǐng)域各種詞 類的分布差別比較大,所以我們 選取詞作為文本分類的特征進行分類的研究。 在 這一部分 , 我們 主要做了三 方面的工作,第一 部分介紹了現(xiàn)有的一些特征權(quán)重算法,比較了其優(yōu)劣,并提出了我們 的改進算法;第二部分介紹了現(xiàn)有的一些特征抽取算法,并在 對這些算法 分析 后 ,提出了我們 的特征抽取算法 ;第三部分設(shè)計了五 個實驗,對上述提到的算法進行了對比,從實驗上證明 了 改進算法的有效性。 最后一章 對全文進行了總結(jié)。 大規(guī)模平衡語料的收集分析 3 第二章 大規(guī)模平衡 語料 的收集分析 鑒于大規(guī)模平衡 語料 和大規(guī)模漢語詞典 的重要性,中科院自動化所參加了由學參加的涉及到 12國語言的語料和詞典建設(shè)項目( 該項目全稱是面向口語要目的是建立一個符合現(xiàn)代漢語語言行為的,適用于語音識別和語音合成的漢語標注語料和信息詞典。 究背景 本項研究的基礎(chǔ)是中科院自動化所與諾基亞(中國)研究中心合作的歐盟項目 (中文部分 ). 本論文的研究工作得到如下項目資助: 1國家自然科學基金項目“語音、圖像與視覺計算”(項目編號: 60121302) 2歐共體國際合作項目( 面向口語翻譯的詞匯處理” 面向口語 是由歐盟發(fā)起的,面向 12國語言的資源建設(shè)項目 蘭語、德語、希臘語、希伯來語、意大利語、漢 語、俄語、西班牙語、標準阿拉伯語、土耳其語和美式英語等 12國語言,建立適用于語音識別、語音合成以及口語口語翻譯的大規(guī)模標注語料庫和信息詞典 (主要是詞性和注音信息 )。 內(nèi)外語料庫概況 馮志偉, 2000 最初的語料庫的建設(shè)比較困難,需要大量的手工工作,隨著計算機在語言學研究領(lǐng)域的廣泛應(yīng)用,這種狀況才得以改變,尤其是近年來 ,國內(nèi)外涌現(xiàn)出了很多標注詳細、加工深入、適合用于語言學研究的大規(guī)模語料庫。 內(nèi)語料庫概況 美國 立的 國 美學者利用這兩個語料庫開展了大規(guī)模的研究,并對這兩個語料庫系統(tǒng)的部分語料進行了自動標注。 大規(guī)模平衡 語料的收集分析和文本分類方法的研究 4 此外比較 著名 的還有, 語語料庫、 料庫、 津文本檔案庫、 語國家語料庫、 言數(shù)據(jù)聯(lián)合會、 語語料庫、亞洲各語種對譯作文語料庫。 內(nèi)語料庫概況 國內(nèi)早期的 語料庫 建設(shè)規(guī)模比較小,不是機器可讀的,比較大規(guī)?,F(xiàn)代機器可讀語料庫的建設(shè)是從 1979年開始的,早期的機器可讀語料庫有:漢語現(xiàn)代文學作品語料庫(武漢大學, 1979年, 527 萬字)、現(xiàn)代 漢語語料庫(北京航空航天大學, 1983 年, 2000 萬字)、中學語文教材語料庫(北京師范大學, 1983年, 106萬字)、現(xiàn)代漢語詞頻統(tǒng)計語料庫(北京語言學院, 1983年, 182萬字)。其中北京語言學院的現(xiàn)代漢語詞頻統(tǒng)計語料庫進行了語料切分和詞頻統(tǒng)計,共統(tǒng)計出 31159各不同單詞,統(tǒng)計結(jié)果編成現(xiàn)代漢語頻率詞典 1991 年, 國家 語言文字工作委員會開始建立國家級的大型漢語語料庫,以推進漢語的語法、句法、語義和語用的研究,同時也為中文信息處理的研究提供語言資源,計劃其規(guī)模將達 7000萬漢字。這個語料庫在時間上、文 化上、使用領(lǐng)域上都有限制。 1992 年以來,許多進行中文信息處理研究的機構(gòu)都建立了自己的大規(guī)模真實文本語料庫如:人民日報光盤數(shù)據(jù)庫、北京大學計算語言學計算所、北京語言文化大學、清華大學、山西大學、上海師范大學、北京郵電大學、香港城市理工大學、東北大學、哈爾濱工業(yè)大學、中科院軟件研究所、中科院自動化所、北京外國語大學日本學研究中心、臺灣中央研究院語言研究所。下面重點介紹其中的幾個語料庫。 北京大學計算語言學研究所 與 富士通 公司合作建立了現(xiàn)代漢語標注語料庫,加工了 2700萬字的人民日報語料庫,加工項目包括 詞語切分、詞性標注、專有名詞標注。還有多音字注音。北大語料庫的特點是: 規(guī)模大: 2700 萬字的熟語料 加工深:不僅做了切分和詞性標注,而且部分語料還進行了短語結(jié)構(gòu)分析,建立了樹庫,并對人名、地名和專有名詞進行了短語結(jié)構(gòu)標注。 覆蓋面廣:涉及社會科學和自然科學多個領(lǐng)域 正確率高:在自動加工的基礎(chǔ)上進行了大量的人工加工,采用人機結(jié)合大規(guī)模平衡語料的收集分析 5 的策略,正確率達到了相當高的水平。 北京語言文化大學建立了一系列中文語料庫,(共約 5 億字)共 10 個語料庫,主要是從當代中國叢書、中華人民共和國年鑒、新聞出版報、人民日報 、經(jīng)濟日報等書籍報刊中抽取的語料。 清華大學 也 建立了現(xiàn)代漢語語料庫: 1998 年已達 1 億漢字,現(xiàn)在生語料已達 7字。他們還進行了分詞技術(shù)的深入研究,編制了信息處理用現(xiàn)代漢語分詞詞表,作為分詞重要的語言資源。對該語料進行了切分和標注,部分語料進行了語塊庫的人工標注。 臺灣中央研究院 建立了平衡語料庫和樹圖語料庫,兩個都是標記語料庫,有一定的加工深度。語料庫規(guī)模為 500萬字。 中科院 自動化 所建立的面向旅游信息領(lǐng)域的口語對話語料庫。 社科院語言所建立的現(xiàn)代自然口語語料庫 馮志偉, 2000。 除上述語料庫以 外,國內(nèi)外還有很多大學和研究機構(gòu)建立了自己的語料庫,這里就不再一一陳述。 規(guī)模平衡 語料的收集分析 目 主要包括兩部分任務(wù):語料的收集和詞表的抽取。 我們收集了 3087萬字的通用語料,并進行了詞性標注和注音,最后從這些語料中抽取了約 40000 個通用詞匯。最終的詞表包括三部分,除了上面提到的 通用詞匯 外,還抽取了 50000多個專有名詞和 7000多 個專用詞匯。 詞表中包括了詞性、注音信息和 專用詞匯 的領(lǐng)域信息, 所有這些信息最終都 包括在一部 典 中 。 語料和詞表的 編碼格式 采用的是 符編碼格式 用 語料 的 收集和 通用詞匯 的 抽取 用領(lǐng)域的確定 為了確定通用領(lǐng)域的范圍,我們對國內(nèi)外一些著名的語料庫進行了分析 ,這其中包括 以及清華大學的人工標注語料庫 外 ,對一些網(wǎng)站的材料也進行了統(tǒng)計和研究如:人民網(wǎng) (3 月大規(guī)模平衡 語料的收集分析和文本分類方法的研究 6 20日至 3月 26日這一周之內(nèi)的材料和內(nèi)容的統(tǒng)計結(jié)果 2002: 分類 字數(shù) 比例 時政 537,121 國際 447,083 經(jīng)濟 747,987 科教 297,508 55,378 軍事 246,734 文娛 300,659 生活 409,770 體育 125,272 觀點 441,111 社會 462,925 環(huán)保 268,155 總計 4,439,703 100% 表 2 1 人民網(wǎng)語料統(tǒng)計結(jié)果 聯(lián)合早報網(wǎng) (統(tǒng)計結(jié)果( 3月 20日至 3月 26日 ) : 分類 字數(shù) 比例 國際 /中港臺 /東南亞 84,540 6,437 本地 157,667 言 論 81,903 體育 32,255 娛樂 16,010 財經(jīng) 123,997 金融信息 27,839 總計 550,648 100% 表 2 2 聯(lián)合早報網(wǎng)語料統(tǒng)計結(jié)果 大規(guī)模平衡語料的收集分析 7 結(jié)合以上統(tǒng)計結(jié)果和 12國合作伙伴的建議,下面這些領(lǐng)域被選擇作為通用領(lǐng)域。 領(lǐng)域 子領(lǐng)域 舉例 體育 /游戲 別事件) 足球,羽毛球,田徑,跳水,高爾夫球等 新聞 國內(nèi)國際大事 重大國內(nèi)國際事件 社論、社評 專 門報道、專門評論 財經(jīng) 商業(yè),國際國內(nèi)市場信息 股票,貿(mào)易,匯率,貨幣信息,關(guān)于一些公司的信息等。 文化 /娛樂 音樂、劇院、展覽、文化博覽等 關(guān)于音樂、演出、電影、戲劇、藝術(shù)、電視等的文章和評論。 旅游信息 地區(qū)、景點介紹。 健康 關(guān)于健康的科普性文章 大眾信息 有關(guān)下崗職工的文章 消費知識 手機手冊、 技術(shù)簡介 個人交流 郵件、在線論壇、社評、電子科幻小說 電子郵件、討論區(qū)、短信等 表 2 3 通用領(lǐng)域的劃分 用語料的收集 語料限制 因為語料結(jié)構(gòu)和出現(xiàn)時間對最終抽取的詞表有較大的影響, 12 國合作伙伴最終討論決定對 對語料做如下限制 :( 1)語料 結(jié)構(gòu):為了確保每個領(lǐng)域的語料都足夠充分,至少 1外由于個人交流領(lǐng)域的語料收集起來比較麻煩,所以該領(lǐng)域的詞的最小數(shù)量限制在 用詞匯、專有名大規(guī)模平衡 語料的收集分析和文本分類方法的研究 8 詞和專用詞匯之間盡量避免重復(fù)以獲取較多數(shù)量的總詞匯。如果重復(fù)出現(xiàn),要增加詞匯以保證最終得到不少于 10M 詞條;( 2)語料 時間 : 為了提高詞表的實用性,詞表 應(yīng) 充分體現(xiàn)近幾年詞匯使用的特點。所有語料都必須是 1990 年以后,而且至少有 50的語料在 1997年以后 A. 2004。 語料來源: 最快捷,最方便的語料來源無疑是電子數(shù)據(jù)形式的語料:在線雜志、網(wǎng)站新聞、網(wǎng)上論壇、網(wǎng)上圖書館等。需要注意,無論什么來源的數(shù)據(jù)應(yīng)當盡量避免“專業(yè)化詞匯”。具體來說,我們從以下幾個網(wǎng)站得到了我們的通用語料: 領(lǐng)域 出版年 媒體來源 體育 /游戲 2002 2. 新聞 2002 3. 財經(jīng) 2002 4. 文化 /娛樂 2002 5. 消費信息 2001,2002,2003 2002,2003 2 4 通用語料的來源網(wǎng)站 語料規(guī)模 領(lǐng)域 語料規(guī)模(原始) 體育 /游戲 2. 新聞 3. 財經(jīng) 4. 文化 /娛樂 5. 消費信息 6. 個人交流 計 2 5 通用語料在各領(lǐng)域的分布 大規(guī)模平衡語料的收集分析 9 用詞匯 的抽取 通用詞匯是從收集的通用語料中抽取出來的,通用詞匯是指除去了專有名詞、各種標點符號、數(shù)字以后的 詞匯 , 通用詞匯的 抽取步驟 : 1) 網(wǎng)頁下載與處理: a 從以上網(wǎng)站下載網(wǎng)頁 b 半自動的移除網(wǎng)頁中的“垃圾文字”(每個網(wǎng)頁中都有一些“本報記者”,“相關(guān)評論”等一些非內(nèi)容文本)。 c 確認領(lǐng)域語料是否充分。 2) 自動分詞與抽取詞匯 a 分詞和詞性標注。 b 抽取詞匯,同時統(tǒng)計出這些詞匯在各領(lǐng)域和總的頻率。 c 從詞匯表中移除數(shù)字、標點符號、和專有名詞。 3) 規(guī)則抽詞 計算詞表(無詞性)標記下的總數(shù)量(約 35000)小于 50000,采用規(guī)則輔助分詞、人工校對的方法抽取了約 3000個詞: a 觀察語料,抽取規(guī)則 b 檢驗每一條規(guī)則:用該規(guī)則從一段文本中抽取部分詞匯,檢驗其正確率。剔除一些準確率較低的規(guī)則。最后得到共 39條規(guī)則。 c 用這 39 條規(guī)則從原始文本中抽取詞匯,然后手工校正這部分詞匯,最后得到 3534個新增詞匯。 d 從原始語料中統(tǒng)計出這些詞匯 在各領(lǐng)域和總的頻率。 通用詞匯 的數(shù)量 : 最終收集的通用詞匯的數(shù)量如下表所示 大規(guī)模平衡 語料的收集分析和文本分類方法的研究 10 領(lǐng)域 不同詞條數(shù)目 體育 /游戲 27283 新聞 30193 財經(jīng) 24316 文化 /娛樂 28482 消費信息 27179 個人交流 30157 總計 38142 表 2 6 通用詞匯的數(shù)量 通用詞匯 的形式: 詞 總 體育 /游戲 新聞 財經(jīng) 文化 /娛樂 消費信息 個人交流 的 1124287 261676 211699 156988 150346 192932 150646 是 283576 70593 39120 35205 43052 41926 53680 在 275370 83823 59493 32817 32995 37253 28989 用詞匯 的標注 通用詞匯主要包括兩種標注信息:詞性標注和拼音標注。標注步驟及說明如下 。 通用詞匯的 詞性標注 分詞軟件 分詞的 同時 也 進行了詞性的標注,所以抽取通用詞表的 時候 , 實際上可以抽取出兩個詞表, 帶詞性的詞表 和不帶詞性的詞表。但是 由于我們 的分詞軟件采用的是 973 的標注體系,不同于 標注規(guī)范,所以要將 詞性進行 轉(zhuǎn)換,值得慶幸的 是, 觀察 兩者的詞性定義 后可 以發(fā)現(xiàn) 973 的標注體系和 體系有一個非常好的對應(yīng)關(guān)系, 所以只要我們建立一個詞性轉(zhuǎn)換對應(yīng)表,就可以將詞性標注轉(zhuǎn)換稱 標注體系 。 性標記 說明 見附錄 1。 通用詞匯的 注音 a 給詞表標注漢語拼音 大規(guī)模平衡語料的收集分析 11 b 手工校正多音字 c 根據(jù)詞性 , 校正詞的注音 d 建立拼音到 注意:轉(zhuǎn)音情況) , 將拼音轉(zhuǎn)化為 e 根據(jù) 因為上述注音過程中手工校正了一些錯誤,所以 為了保證詞表的一致性,需要反生成拼音注音并排序的詞表。 閉詞匯集 各種語言都有一些功能詞如:代詞、介詞、連詞等,它們構(gòu)成了語言相對封閉的一個詞匯集,所以叫做封閉詞匯集。這些詞經(jīng)常出現(xiàn)在各個領(lǐng)域的語料中,但不是所有的功能詞都能在語料中發(fā)現(xiàn)。所以有必要手工加入功能詞。 根據(jù) 們確定下面這些詞類為漢語的功能詞(括號中為對應(yīng)的功能詞的數(shù)量): 人稱代詞 ( 26), 物主代詞 ( 37), 指示代詞 ( 49),前置詞(介詞)和后置詞 3( 186), 連詞 ( 326), 問答詞 ( 31), 情態(tài)動詞 ( 21),量詞 ( 547) 。 郭先珍 , 2002, 黃檗容 , 1997,劉丹青 ,2003,呂叔湘 , 1996,張斌 , 2001. 有名詞的收集 對于語音識別和語音合成系統(tǒng)來說 ,一個非常重要的問題就是如何處理各種語音系統(tǒng)中常見的專有名詞。通常很難決定他們的發(fā)音,特別是對于一些外來的專有名詞。而另一方面確定他們的準確發(fā)音 ,對于語音識別和語音合成系統(tǒng)來說又是必需的。因此 ,我們從各個領(lǐng)域收集了 57528個專有名詞,并對它們進行了注音和詞性標注工作。 有領(lǐng)域的確定 根據(jù) 12國的討論決定,最終確定主要從以下幾個領(lǐng)域及對 應(yīng)的子領(lǐng)域來收集專有名詞,見表 2 7。 3 根據(jù)劉丹青的語言類型學和介詞理論,漢語中的后置詞是指某些方位詞如:內(nèi)、里、外等。 大規(guī)模平衡 語料的收集分析和文本分類方法的研究 12 領(lǐng)域 子領(lǐng)域 舉例 人名(姓和名) 陳,劉,克利等 地點名詞 國內(nèi)城市 濟南,合肥,攀枝花等 各國地理名詞 尼羅河,富士山,長江等 各國首都 柏林,羅馬,華盛頓等 國際著名城市 紐約,上海,芝加哥等 國內(nèi)著名的文化歷史景點 4 山海關(guān),長城,井岡山等 國內(nèi)著名街道 5 長安街,南京路,王府井等 國家 美國,日本,德國,南非等 組織機構(gòu)名 盈利和非盈利組織 國際國內(nèi)公司 諾基亞公司,可口可樂公司,一汽,世界衛(wèi)生組織等 品牌名稱 可口可樂,雪鐵龍,真維斯等 表 2 7 專有名詞的領(lǐng)域 及子領(lǐng)域 有名詞的收集 根據(jù) 12個合作伙伴討論決定, 專有名詞領(lǐng)域至少 應(yīng)當 包括 45000 個詞條,三個大領(lǐng)域每個領(lǐng)域的詞條數(shù)目所占總詞條數(shù)目的百分比均應(yīng)限制在 10 - 50之間,當然三個領(lǐng)域詞條數(shù)目之和應(yīng)當?shù)扔诳偟膶S忻~數(shù)。詞形相同的4 在總的國內(nèi)地點比較少的情況下,應(yīng)當在這一部分多增加一點國內(nèi)的景點。 5 街道名稱應(yīng)當依照本國語言的特點來描述。 大規(guī)模平衡語料的收集分析 13 專有名詞和通用詞匯認為是兩個不同的詞條。 專有名詞的來源主要有以下幾個方 面:超星數(shù)字圖書館、網(wǎng)上黃頁、世界地圖集。專有名詞收集時都選擇該詞最常用的形式,如“ 保持這種形式,不會用其全稱“ 因為專有名詞的收集面向的語音識別和語音合成,所以收集時盡量采用其口語性較強的形式,比如盡量采用用戶手冊上的公司名稱,而不是證券市場上登記的公司名稱。同樣道理在線資源也比較適合用來收集。 有名詞 的標注 專有名詞的詞性標注 專有名詞收集的時候是分類收集的,所以其詞性本身已經(jīng)確定,不需要專門使用標注軟件進行詞性標注。 專有名詞 的詞性說明: 人名 ) ; 各國地理名詞 ) ; 國家 ) ;(城市: 國內(nèi)城市、國際著名城市、各國首都); 國內(nèi)著名街道 ) ; 司組織: 盈利和非盈利組織、國際國內(nèi)公司); 品牌名稱 ) ; 國內(nèi)著名的文化歷史景點 ) 。 專有名詞的注音 A. 給詞表標注漢語拼音 B. 手工校正多音字 C. 根據(jù)詞性校正詞的注音 D. 將拼音轉(zhuǎn)化為 這是因為 門為漢語注音設(shè)定的一套注音符號。它與漢語拼音有一個完整的對應(yīng),根據(jù)對應(yīng)表我們可以將拼音轉(zhuǎn)化間需要增加對數(shù)字和括號的注音,同時還發(fā)現(xiàn)了詞表的一些錯誤,需要手工校正。 E. 根據(jù) F. 設(shè)計了英語音標到 手工完成) 有名詞的數(shù)量 和形式 大規(guī)模平衡 語料的收集分析和文本分類方法的研究 14 最終得到的專有名詞的數(shù)量如下: 領(lǐng)域 詞數(shù) % 人名(姓和名) 22156 19930 3. 組織和機構(gòu)名 15618 計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB 7956.18-2025消防車第18部分:洗消消防車
- 2025年中職通信技術(shù)(移動通信基礎(chǔ))試題及答案
- 2025年高職中草藥栽培與加工技術(shù)(中藥炮制基礎(chǔ))試題及答案
- 2025年大學(麻醉學)麻醉心理學試題及答案
- 2025年中職航空服務(wù)(客艙服務(wù)實務(wù))試題及答案
- 2025年中職(煙草栽培)煙草大田移栽階段測試試題及答案
- 2025年大學醫(yī)學影像技術(shù)(CT影像診斷)試題及答案
- 2025年中職(農(nóng)產(chǎn)品營銷與儲運)農(nóng)產(chǎn)品儲存試題及答案
- 2025年中職物流類(物流故障處理)試題及答案
- 2025年大學化學工程與工藝(化工系統(tǒng)工程)試題及答案
- 鋼結(jié)構(gòu)制作焊接操作手冊
- 【MOOC】生物材料伴我行-湖南大學 中國大學慕課MOOC答案
- 《手機制造流程培訓(xùn)》課件
- 人教版(2024新版)七年級上冊數(shù)學全冊重點知識點講義
- 砂材料運輸合同模板
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理體系 審核與認證機構(gòu)要求》中文版(機翻)
- 綜合管廊租用合同范本
- 排球 墊球、傳球技術(shù) 教案()
- 中考英語閱讀理解50篇附解析
- 2023年西藏中考數(shù)學真題試卷及答案
- MSA-測量系統(tǒng)分析模板
評論
0/150
提交評論