版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第7章 跨語言信息檢索技術(shù)作者:于振紅學(xué)號(hào):1308305020目錄7.1 跨語言信息檢索技術(shù)概論跨語言信息檢索技術(shù)概論7.2 跨語言信息檢索技術(shù)的研究發(fā)展跨語言信息檢索技術(shù)的研究發(fā)展7.3 跨語言信息檢索技術(shù)的基本框架跨語言信息檢索技術(shù)的基本框架7.4 跨語言信息檢索技術(shù)及其分類跨語言信息檢索技術(shù)及其分類 7.4.1 同源匹配技術(shù) 7.4.2 查詢翻譯技術(shù) 7.4.3 中間語言翻譯方法 7.4.4 文獻(xiàn)翻譯 7.4.5 不翻譯技術(shù) 7.4.6 基于媒體對(duì)象的跨語言信息檢索7.5 跨語言信息檢索的主要研究熱點(diǎn)跨語言信息檢索的主要研究熱點(diǎn) 7.5.1跨語言信息檢索中的翻譯歧義研究 7.5.2跨語
2、言信息檢索中的翻譯資源構(gòu)建研究 7.5.3跨語言信息檢索中的專有名詞識(shí)別與音譯研究 7.5.4跨語言信息檢索中的翻譯技術(shù)研究 7.5.5跨語言信息檢索中的系統(tǒng)評(píng)價(jià)研究 7.5.6有關(guān)中英文跨語言信息檢索的研究7.1 跨語言信息檢索技術(shù)概述 跨語言信息檢索(Cross Language Information Retrieval,CLIR)就是通過一種語言提問來檢索出用另一種語言呈現(xiàn)的信息,是一種跨越語言界限進(jìn)行信息檢索的活動(dòng)。跨語言信息檢索技術(shù)計(jì)算機(jī)科學(xué)情報(bào)學(xué)語言學(xué)管理學(xué)管理學(xué)心理學(xué) 國(guó)際上跨語言信息檢索研究領(lǐng)域每年定期會(huì)召開一些國(guó)際會(huì)議,這些會(huì)議從不同方面反映了當(dāng)今跨語言信息檢索的研究熱點(diǎn)和
3、發(fā)展趨勢(shì)。國(guó)際上的研究:TREC1CLEF2NTCIR3ACM SIGIR4國(guó)際上召開的一些會(huì)議文本檢索會(huì)議跨語言評(píng)價(jià)論壇日本國(guó)家信息檢索測(cè)試會(huì)議美國(guó)計(jì)算機(jī)協(xié)會(huì)信息檢索特殊興趣小組會(huì)議(1) 檢索詞與檢索到的信息內(nèi)容分屬于不同的語言。檢索詞與檢索到的信息內(nèi)容分屬于不同的語言。(2) 檢索詞的歧義和多義性。檢索詞的歧義和多義性。(3) 查詢?cè)~的切分。查詢?cè)~的切分。(4) 信息內(nèi)容的多語言性。信息內(nèi)容的多語言性。(5) 輸出結(jié)果的排序組織。輸出結(jié)果的排序組織。(6) 對(duì)多語言資源的依賴。對(duì)多語言資源的依賴。跨語言信息檢索技術(shù)需要處理的主要問題:7.2跨語言信息檢索技術(shù)的研究發(fā)展 根據(jù)研究對(duì)象的時(shí)間
4、歷程和階段性成果的差異,跨語言信息檢索技術(shù)主要分為三個(gè)主要發(fā)展階段:萌芽階段發(fā)展階段大型商用階段接上頁萌芽階段萌芽階段基于國(guó)際聯(lián)機(jī)系統(tǒng)的跨語言檢索研究基于國(guó)際聯(lián)機(jī)系統(tǒng)的跨語言檢索研究發(fā)展階段發(fā)展階段基于互聯(lián)網(wǎng)的跨語言信息檢索實(shí)驗(yàn)系統(tǒng)基于互聯(lián)網(wǎng)的跨語言信息檢索實(shí)驗(yàn)系統(tǒng)研究研究大型商用大型商用階段階段跨語言搜索引擎技術(shù)的飛速發(fā)展跨語言搜索引擎技術(shù)的飛速發(fā)展7.3 跨語言信息檢索技術(shù)的基本框架7.4跨語言信息檢索技術(shù)及其分類7.4.1 同源匹配技術(shù)同源匹配技術(shù) 同源匹配技術(shù)根據(jù)兩種語言的語詞拼寫形式或讀音相似度來判斷其中一種語言語詞的意義,不進(jìn)行任何翻譯。 同源匹配可以單獨(dú)使用。而多數(shù)情況下是與其他
5、策略結(jié)合使用,比如在中英文跨語言信息檢索中可以用于外來語的音譯或反向音譯。7.4.2 查詢翻譯技術(shù)查詢翻譯技術(shù)1. 查詢翻譯技術(shù)分類語境信息很少提問時(shí)通常很短難以消除歧義查詢翻譯技術(shù)在線快速執(zhí)行優(yōu)點(diǎn)缺點(diǎn)1)翻譯模糊性控制 每個(gè)提問詞被其所有可能的一發(fā)譯法所替代,翻譯模糊性問題嚴(yán)重,故控制翻譯的模糊性是設(shè)計(jì)有效的提問式翻譯技術(shù)的一個(gè)關(guān)鍵問題。 方法方法一一只翻譯短語,因?yàn)槎陶Z翻譯通常只翻譯短語,因?yàn)槎陶Z翻譯通常表現(xiàn)出較少的模糊性。表現(xiàn)出較少的模糊性。方法二通過用戶的介入(利用交互式用戶界面)也可以有效控制翻譯的模糊性。2)查詢翻譯技術(shù)分類 受控詞匯檢索是指文檔集通過手工使用預(yù)先選擇好的詞匯進(jìn)行索
6、引,用戶也是從相同的受控詞匯中選擇詞匯構(gòu)建查詢條件,然后對(duì)文檔進(jìn)行檢索。自由文本查詢翻譯受控詞匯查詢翻譯查詢翻譯 文檔的索引是通過概念識(shí)別器的匹配實(shí)現(xiàn)的。受控詞匯跨語言檢索系統(tǒng)中包含兩個(gè)過程:將文檔與查詢條件都用受控詞匯來表示。對(duì)文檔的標(biāo)識(shí)其實(shí)是對(duì)文檔的翻譯過程,而對(duì)查詢條件用受控詞匯來構(gòu)建其實(shí)是對(duì)查詢條件翻譯的過程。2)查詢翻譯技術(shù)分類第一點(diǎn)第一點(diǎn)用受控詞匯表中的檢索詞來標(biāo)識(shí)每一篇文檔用受控詞匯表中的檢索詞來標(biāo)識(shí)每一篇文檔通常是手工完成的,其使用范圍受到很大的通常是手工完成的,其使用范圍受到很大的局限。局限。第二點(diǎn)培訓(xùn)用戶學(xué)會(huì)有效地使用受控詞匯來構(gòu)建查詢條件是一件非常困難的工作。受控詞匯檢索
7、的不足之處2)查詢翻譯技術(shù)分類 跨語言信息自由文本檢索的四個(gè)基本方法基于機(jī)器翻譯的方法基于知識(shí)的方法基于語料庫的方法混合方法2.查詢翻譯技術(shù)1)基于知識(shí)的查詢翻譯方法 基于知識(shí)的查詢方法主要利用人類專家總結(jié)的知識(shí),例如機(jī)讀字典、主題詞表、百科全書等完成對(duì)查詢式的翻譯。 (1)基于機(jī)讀字典的查詢翻譯。基于字典的查詢翻譯方法是最常用的查詢翻譯方法之一,是指從機(jī)讀雙語字典中抽取查詢中每個(gè)詞或者詞組的合適的翻譯進(jìn)行替換的方法。常用的從字典中選擇詞語的方法主要有:全部選擇、選擇前n個(gè)、選擇最合適的n個(gè)。(1)基于機(jī)讀字典的查詢翻譯此種方法的主要問題:字典的覆蓋度問題屈折語的處理詞組的識(shí)別和翻譯歧義問題(
8、2)基于多語主題詞表、本體的查詢翻譯方法 最早應(yīng)用在查詢翻譯中的方法就是基于多語主題詞表的方法。 本體中飽含比主題詞表更詳細(xì)的概念定義,更廣泛的關(guān)系描述,以及公理實(shí)例等,可以更好地反映出獨(dú)立于語言的更為本質(zhì)的東西,并用于對(duì)查詢式進(jìn)行語義層次的理解,精確地翻譯結(jié)果,從而獲得更優(yōu)的檢索結(jié)果。2)基于機(jī)器翻譯的查詢翻譯方法 利用機(jī)器翻譯系統(tǒng)進(jìn)行查詢翻譯的優(yōu)勢(shì)就在于可以利用機(jī)器翻譯系統(tǒng)的詞法、句法、語義分析得到更為準(zhǔn)確的翻譯結(jié)果。但是將機(jī)器翻譯系統(tǒng)應(yīng)用在查詢翻譯中并沒有取得很好的效果,主要原因看右表:原因一原因一機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量不高機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量不高原因二查詢式長(zhǎng)度通常很短,甚至只是一個(gè)
9、詞從而影響了機(jī)器翻譯的效果。原因三多數(shù)商用的機(jī)器翻譯系統(tǒng)只返回一個(gè)最優(yōu)翻譯結(jié)果,不提供可供選擇的翻譯列表。3)基于語料庫的查詢翻譯方法基于平行語料庫的方法基于平行語料庫的方法平行語料庫依據(jù)對(duì)其程度又可分為篇章對(duì)齊、段落對(duì)平行語料庫依據(jù)對(duì)其程度又可分為篇章對(duì)齊、段落對(duì)齊、句子對(duì)齊和詞對(duì)齊,一般來說對(duì)齊的粒度越小,齊、句子對(duì)齊和詞對(duì)齊,一般來說對(duì)齊的粒度越小,對(duì)齊的精度越高,查詢翻譯效果就越好。對(duì)齊的精度越高,查詢翻譯效果就越好?;诳杀日Z料庫的方法基于可比語料庫的方法使用可比語料庫最著名的方法就是相似性敘詞表。有使用可比語料庫最著名的方法就是相似性敘詞表。有學(xué)者利用一個(gè)瑞典語新聞?wù)Z料庫和英語新聞
10、語料庫,學(xué)者利用一個(gè)瑞典語新聞?wù)Z料庫和英語新聞?wù)Z料庫,構(gòu)建雙語可比語料庫,從中提取出雙語的相似性主題構(gòu)建雙語可比語料庫,從中提取出雙語的相似性主題詞表信息并且用于查詢翻譯中。試驗(yàn)結(jié)果顯示此種方詞表信息并且用于查詢翻譯中。試驗(yàn)結(jié)果顯示此種方法所獲得的檢索性能是單語言信息檢索性能的一半左法所獲得的檢索性能是單語言信息檢索性能的一半左右。右。平行語料庫依據(jù)對(duì)齊程度的分類: 一般來說對(duì)齊的粒度越小,對(duì)齊的精度越高,查詢翻譯效果就越好。篇章對(duì)齊句子對(duì)齊詞對(duì)齊段落對(duì)齊平行語料庫的分平行語料庫的分類類 平行語料庫在查詢翻譯中的主要應(yīng)用是構(gòu)建雙語對(duì)照詞典主要包括兩步:利用詞頻矩陣計(jì)算一種語言的詞語出現(xiàn)時(shí)另一種
11、語言的詞出現(xiàn)的條件概率,建立翻譯詞典計(jì)算詞貢獻(xiàn)矩陣,矩陣的每個(gè)元素是對(duì)齊單元中源語言詞和目標(biāo)語言詞共現(xiàn)的次數(shù)。第一步第二步 使用可比語料庫最著名的方法就是相似性敘詞表。有學(xué)者利用一個(gè)瑞典語新聞?wù)Z料庫和英語新聞?wù)Z料庫,構(gòu)建雙語可比語料庫,從中提取出雙語的相似性主題詞表信息并且用于查詢翻譯中。相似性敘詞表單語言信息檢索4)混合方法 混合方法是綜合利用上面各種技術(shù)的優(yōu)缺點(diǎn)以期望獲得更佳的檢索效果。此種方法中應(yīng)用最廣泛的資源組合是將雙語字典和一些單語資源,例如單語體本W(wǎng)ordNet、單語語料庫等結(jié)合,利用字典進(jìn)行翻譯知識(shí)的抽取,利用單語資源進(jìn)行翻譯消歧。機(jī)讀字典統(tǒng)計(jì)字典機(jī)器翻譯系統(tǒng)單語言檢索三者單獨(dú)作
12、用均能夠達(dá)到單語言檢索的90%三種資源結(jié)合三種資源混合使用取得了最佳的檢索效果機(jī)讀字典統(tǒng)計(jì)字典單語言檢索三者結(jié)合作使用檢索能力能夠達(dá)到單語言檢索的98%機(jī)器翻譯系統(tǒng)3.查詢翻譯過程中的基本問題查詢翻譯過程查詢式查詢翻譯翻譯資源分解三個(gè)要素包涵源語言和目標(biāo)語言,源語言和目標(biāo)語言的轉(zhuǎn)換過程以及在此轉(zhuǎn)換過程中所使用的翻譯資源。依據(jù)這三個(gè)要素,查詢翻譯過程中所遇到的基本問題也分為三個(gè)方面:第一方面第一方面查詢式的詞法分析查詢式的詞法分析第二方面查詢式翻譯時(shí)的歧義問題第三方面翻譯工具存在問題1).查詢式的詞法分析 世界上的語言有近3000種,每種語言都有其自身的特點(diǎn),可根據(jù)其特點(diǎn)對(duì)查詢式進(jìn)行預(yù)處理。例如
13、,像英語、法語等西語,可以對(duì)其進(jìn)行詞法分析,實(shí)現(xiàn)詞根還原。 對(duì)于漢語、日語等沒有明晰分隔符的語言來說,要對(duì)查詢式進(jìn)行翻譯就必須要確定翻譯單位,或者說是與翻譯資源匹配的單位。 目前來說在查詢翻譯過程中最最常使用的翻譯單位還是詞,分詞的效果對(duì)查詢翻譯有很大的影響。2)查詢式翻譯時(shí)的歧義問題 跨語言信息檢索涉及到兩種語言之間的相互轉(zhuǎn)換,在此過程中主要會(huì)出現(xiàn)的問題是歧義問題。在自然語言中一詞多義和一義多詞的現(xiàn)象很普遍。對(duì)于機(jī)器來說,要理解詞義是很困難的,尤其是理解只包含少量語境信息的查詢?cè)~的意思??缯Z言信息檢索中德的歧義來自源語言和目標(biāo)語言兩個(gè)方面,在處理上的難度很大?,F(xiàn)有的主要消歧方法包括:方法一方
14、法一方法二方法二方法三方法三方法四方法四方法五方法五詞性標(biāo)注技術(shù)短語和習(xí)慣用語的識(shí)別與翻譯詞法分析詞的共現(xiàn)統(tǒng)計(jì)技術(shù)相關(guān)反饋技術(shù) 在自然語言中很多短語、習(xí)慣用語等通常有固定的語義,其意義很多都不等于其中詞的語義的簡(jiǎn)單組合。因此當(dāng)把其按照單個(gè)詞進(jìn)行翻譯時(shí)失掉其本來的語義信息。 JIanfeng Gao 等設(shè)計(jì)了三個(gè)統(tǒng)計(jì)模型:如有圖 模型一模型一共現(xiàn)模型(共現(xiàn)模型(Co-occurence Model)模型二名詞短語翻譯模型(Noun Phrase Translation Model)模型三依存翻譯模型(Dependency Translation Model) 其中后兩種模型分別可以識(shí)別名詞短語和
15、依存三元組(Dependency Triples),例如動(dòng)賓短語(Verb-Object),所有的三種方法都能起到很好的翻譯消歧效果。模型一模型一共現(xiàn)模型(共現(xiàn)模型(Co-occurence Model)模型二名詞短語翻譯模型(Noun Phrase Translation Model)模型三依存翻譯模型(Dependency Translation Model)3)翻譯工具存在的問題對(duì)查詢翻譯的影響翻譯資源的獲取問題覆蓋度問題準(zhǔn)確度問題 在查詢翻譯過程中經(jīng)常使用的翻譯資源包括機(jī)讀字典、主題詞表、本體、語料庫等。這些翻譯資源對(duì)于查詢翻譯的影響包括翻譯資源的獲取問題、覆蓋度問題、準(zhǔn)確度問題等方面
16、。4.查詢翻譯的未來發(fā)展方向 查詢翻譯的未來發(fā)展方向可以概括為以下三點(diǎn):(1)多種查詢翻譯方法的結(jié)合詞典提供較廣且較淺的覆蓋度,而語料庫提供較窄且較深的覆蓋度,本體、主題詞表則豐富的概念層次和語義關(guān)系,如能將多種查詢翻譯策略相結(jié)合,充分利用各層次知識(shí),可以提高查詢翻譯的效果。(2)語義層次進(jìn)行查詢式翻譯現(xiàn)在比較流行的、相對(duì)成熟的查詢翻譯方法總體來說還是字符級(jí)的匹配,只有從語義層次上理解查詢式,才能獲得更優(yōu)的查詢翻譯結(jié)果,因此越來越多得學(xué)者開始使用本體這樣包含語義信息的資源進(jìn)行查詢翻譯。(3)語種的多樣性現(xiàn)在跨語言信息檢索主要集中于雙語言信息檢索,尤其是英語和另外一種語言的檢索。盡管互聯(lián)網(wǎng)上英語
17、仍然是最大的語種,但是漢語、拉丁語等比例也很大,實(shí)現(xiàn)這些語種之間的跨語言檢索的意義也是非常大的。7.4.3 中間語言翻譯方法 在跨語言信息檢索中,解決語言障礙的基本方法是兩種語言之間的翻譯,然而所有的翻譯方法都離不開機(jī)器翻譯、雙語翻譯、語料庫等作為翻譯的語言基礎(chǔ)。但是,在跨語言信息檢索中可能會(huì)碰到這樣的情形:兩種語言直接翻譯的資源不存在。為此研究人員提出了一種利用中間語言或中樞語言進(jìn)行翻譯的方法:將源語言翻譯成中間語言,然后再將中間語言翻譯成目標(biāo)語言。7.4.4 文獻(xiàn)翻譯 文獻(xiàn)翻譯與查詢翻譯正好相反,是指先將多語言的原始信息集合轉(zhuǎn)換成與查詢相同的語言,再進(jìn)行單語言信息檢索。(2)可以離線執(zhí)行文
18、獻(xiàn)翻譯的優(yōu)點(diǎn)(1)提高翻譯質(zhì)量?jī)?yōu)點(diǎn)速度太慢,且可能會(huì)使原始信息庫的規(guī)模很大缺點(diǎn)7.4.5 不翻譯技術(shù) 目前不通過翻譯進(jìn)行跨語言信息檢索的技術(shù)有潛在語義索引(Latent Semantic Indexing,LSI)和廣義向量空間模型等方法。 LSI是由Deerwester等人于1990年在單語言信息檢索中提出的。同年,Landauer和Litman提出了跨語言潛在語義索引(Cross-Language Latent Semantic Indexing,CLSI)的信息檢索技術(shù)。潛在語義索引與廣義向量空間模型的對(duì)比潛在語義索引潛在語義索引它的基本思想是首先通過將有代表性的文檔與其對(duì)應(yīng)的翻它的基本
19、思想是首先通過將有代表性的文檔與其對(duì)應(yīng)的翻譯文檔聯(lián)系起來形成訓(xùn)練文檔集,然后利用奇異值分解技譯文檔聯(lián)系起來形成訓(xùn)練文檔集,然后利用奇異值分解技術(shù)(術(shù)(Singular Value Decomposition,SVD)對(duì)雙語檢索詞)對(duì)雙語檢索詞文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解,獲得雙語文檔集的特征文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解,獲得雙語文檔集的特征信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語種的信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語種的潛在語義空間,最后根據(jù)平行文檔中語詞的用法特征檢索潛在語義空間,最后根據(jù)平行文檔中語詞的用法特征檢索出另一種語種的相關(guān)信息。出另一種語種的相關(guān)信息。廣義向量空間模
20、型廣義向量空間模型基本思想是根據(jù)雙語訓(xùn)練文檔集分別建立源語與目標(biāo)語的基本思想是根據(jù)雙語訓(xùn)練文檔集分別建立源語與目標(biāo)語的“檢索詞檢索詞文檔關(guān)聯(lián)文檔關(guān)聯(lián)”矩陣,在計(jì)算查詢條件和文檔的相矩陣,在計(jì)算查詢條件和文檔的相似度時(shí),考慮將經(jīng)典的向量空間模型與兩個(gè)關(guān)聯(lián)矩陣相結(jié)似度時(shí),考慮將經(jīng)典的向量空間模型與兩個(gè)關(guān)聯(lián)矩陣相結(jié)合,在源語言與目標(biāo)語言之間實(shí)現(xiàn)映射關(guān)系。合,在源語言與目標(biāo)語言之間實(shí)現(xiàn)映射關(guān)系。7.4.6 基于媒體對(duì)象的跨語言信息檢索分類 根據(jù)檢索的媒體對(duì)象類型,跨語言信息檢索可以分為跨語言文本信息檢索(Cross-Language Document Retrieval),跨語言圖像信息檢索(Cros
21、s-Language Image Retrieval)和跨語言語音信息檢索(Cross-Language Spoken Document Retrieval)。 根據(jù)檢索的媒體對(duì)象類型, 跨語言信息檢索的分類比較:(1)跨語言文本信)跨語言文本信息檢索息檢索跨語言文本信息檢索是目前研究最多的。跨語言文本信息檢索是目前研究最多的。TREC和和NTCIR主主要是對(duì)文本信息檢索進(jìn)行測(cè)評(píng)和研究。對(duì)于要是對(duì)文本信息檢索進(jìn)行測(cè)評(píng)和研究。對(duì)于TREC,跨語言,跨語言信息檢索只是中心議題之一,語言以英語為主,并搭配一信息檢索只是中心議題之一,語言以英語為主,并搭配一些戰(zhàn)略語言。些戰(zhàn)略語言。NTCIR主要側(cè)重于
22、亞洲語言的跨語言信息檢主要側(cè)重于亞洲語言的跨語言信息檢索問題的研究。索問題的研究。(2)跨語言圖像信)跨語言圖像信息檢索息檢索目前研究較少。目前研究較少。CLEF于于2003年舉行的會(huì)議上對(duì)跨語言圖像年舉行的會(huì)議上對(duì)跨語言圖像信息檢索進(jìn)行了首次測(cè)評(píng),并成為信息檢索進(jìn)行了首次測(cè)評(píng),并成為CLEF的正式測(cè)試項(xiàng)目。的正式測(cè)試項(xiàng)目。2004年和年和2005年的年的Image CLEF 主要分為主要分為3個(gè)字任務(wù):雙語個(gè)字任務(wù):雙語Ad Hoc檢索、交互檢索(檢索、交互檢索(Interactive Retrical)、醫(yī)學(xué)圖像)、醫(yī)學(xué)圖像檢索(檢索(Medical Image Retrieval)。測(cè)試
23、和評(píng)比的目的就是)。測(cè)試和評(píng)比的目的就是要促進(jìn)基于文本和基于內(nèi)容的跨語言圖像信息檢索方法。要促進(jìn)基于文本和基于內(nèi)容的跨語言圖像信息檢索方法。(3)跨語言語音信)跨語言語音信息檢索息檢索內(nèi)容包括文獻(xiàn)信息檢索技術(shù)、跨語言翻譯技術(shù)和自動(dòng)語音內(nèi)容包括文獻(xiàn)信息檢索技術(shù)、跨語言翻譯技術(shù)和自動(dòng)語音識(shí)別技術(shù)(識(shí)別技術(shù)(Automatic Speech Recognition,ASR)。)。7.5 跨語言信息檢索的主要研究熱點(diǎn)7.5.1 跨語言信息檢索中的翻譯歧義研究 翻譯的歧義性是跨語言信息檢索的關(guān)鍵問題,對(duì)檢索效率有重要影響,這也是國(guó)外學(xué)者廣泛關(guān)注的研究領(lǐng)域,所依賴的語言資源主要有詞典、主題詞表、本體、語料
24、庫等。 幾種消歧研究的方法及效果:方法名稱及簡(jiǎn)介方法名稱及簡(jiǎn)介方法起到的效果方法起到的效果方法一Davis嘗試依詞性進(jìn)行消歧平均準(zhǔn)確率提高了37%,達(dá)到單語言檢索的67.3%。方法二Chen等人以共現(xiàn)模型分析翻譯消歧,以虛擬語境模型分析目標(biāo)多義。在TREC-6的評(píng)測(cè)中,與僅處理翻譯歧義相比,檢索效率提高了10.11%。方法三Akira等人以Web文獻(xiàn)為語料,利用詞匯間的共現(xiàn)信息實(shí)現(xiàn)了同樣的檢索效率。在其試驗(yàn)中檢索的平均準(zhǔn)確率達(dá)到了手工翻譯的97%。方法四Myung-Gil Jang等人利用從目標(biāo)文獻(xiàn)中獲得的互信息統(tǒng)計(jì)進(jìn)行消歧。在這里互信息不僅用于選擇翻譯詞匯而且對(duì)翻譯后的查詢?cè)~賦以權(quán)重,檢索效
25、率分別達(dá)到單語檢索的85%和手工消歧的96%。7.5.2 跨語言信息檢索中的翻譯資源構(gòu)建研究 翻譯資源的優(yōu)劣對(duì)于跨語言信息檢索的性能有著重要的影響,所以在跨語言信息檢所研究中,國(guó)外學(xué)者對(duì)于翻譯資源的構(gòu)建以及相互之間的比較進(jìn)行了深入的研究。在跨語言信息檢索中,常用的翻譯資源有機(jī)器翻譯系統(tǒng)、雙語詞典、本體和語料庫等。7.5.3跨語言信息檢索中的專有名詞識(shí)別與音譯研究 由于翻譯詞典的覆蓋度,未登錄詞一直是機(jī)器翻譯和跨語言信息檢索的重要問題,專有名詞的翻譯更是挑戰(zhàn)。Chen等人,Kinght和Graehl,Wan和Verspoor都相繼提出機(jī)器音譯的方法來處理這個(gè)問題。幾種音譯的研究方法簡(jiǎn)述方法簡(jiǎn)述取
26、得效果取得效果研究一Yan Qu等人提出了由英語到日語片假名的音譯方法,利用英語語音詞典和概率規(guī)則來獲取候選語音,并通過日語單語語料庫自動(dòng)確認(rèn)最終將英語-日語音譯詞成對(duì)添加到雙語詞典。檢索的平均準(zhǔn)確率提高了2.5%64.8%。研究二Nasreen提出一種統(tǒng)計(jì)模型進(jìn)行英語-阿拉伯語間的音譯。無論是對(duì)專有名詞音譯還是對(duì)所有未登錄詞音譯都證明是有效的。研究三S.Y.Jung等人采用隱馬爾可夫模型(HMM)進(jìn)行英語到漢語的音譯。召回率達(dá)到了87.5%。研究四Paola等人將專有名詞的音譯用于跨語言聲音文件的檢索。效果也是顯著的。7.5.4 跨語言信息檢索中的翻譯技術(shù)研究 跨語言信息檢索涉及查詢語種和檢
27、索語種兩個(gè)基本的概念。查詢語種是用戶查詢請(qǐng)求所屬語種,檢索語種是檢索目標(biāo)對(duì)象所屬語種。如何能夠在這兩者之間建立溝通可以從以下3個(gè)方面展開:跨語言信息檢索中的翻譯技術(shù)Brown等人提出了一種基于機(jī)器翻譯的方法1Nie、BBN等也相繼提出了概率論翻譯模型2Kwok、Hedlund等著重研究了翻譯過程中的字典查找模型TEXT3Ballesteros和微軟的研究人員在自己的工作中都使用到了基于共現(xiàn)的統(tǒng)計(jì)方法TEXT47.5.5 跨語言信息檢索中的系統(tǒng)評(píng)價(jià)研究 跨語言信息檢索系統(tǒng)的評(píng)價(jià)基本上采用了與一般信息檢索系統(tǒng)評(píng)價(jià)相同的方法和步驟。然而,在跨語言信息檢索的評(píng)價(jià)試驗(yàn)中,需要對(duì)檢索提問進(jìn)行翻譯,并比較跨
28、語言信息檢索系統(tǒng)與單語言信息檢索系統(tǒng)的性能,這是評(píng)價(jià)跨語言信息檢索系統(tǒng)的一個(gè)重要指標(biāo)。 跨語言信息檢索評(píng)價(jià)測(cè)試至少兩種語言以上的測(cè)試文檔集合。包含與文檔不同語言的檢索問題集合。檢索問題的正確答案集合。 跨語言信息檢索系統(tǒng)評(píng)價(jià)需要覆蓋多種語言的評(píng)價(jià)測(cè)試集??缯Z言信息檢索評(píng)價(jià)測(cè)試集通常包含3個(gè)部分。1.跨語言信息檢索評(píng)價(jià)模型 跨語言信息檢索評(píng)價(jià)通常改變測(cè)試主題,以比較相同系統(tǒng)下單語言信息檢索和跨語言信息檢索的檢索性能。一般跨語言信息檢索系統(tǒng)的評(píng)價(jià)模型如圖所示。2.跨語言信息檢索效率評(píng)價(jià)指標(biāo) 由于用戶查詢條件中所固有的模糊性,信息檢索系統(tǒng)檢索出來的文檔集不一定全是用戶所期待的,因此有必要對(duì)這些文檔集
29、根據(jù)其與用戶查詢條件的相關(guān)性進(jìn)行排序,并以此來判定信息檢索系統(tǒng)檢索出的文檔集滿足用戶查詢條件的程度。其中最重要的評(píng)價(jià)指標(biāo)是查全率和查準(zhǔn)率。(1)查全率 查全率是評(píng)價(jià)跨語言信息檢索效率的一個(gè)重要指標(biāo),查全率是指在檢索系統(tǒng)中的相關(guān)信息總體中盡可能查詢輸出的相關(guān)信息量所占的比率。總量檢索系統(tǒng)中的相關(guān)文獻(xiàn)檢出的相關(guān)文獻(xiàn)量查全率 (2)查準(zhǔn)率 查準(zhǔn)率是評(píng)價(jià)跨語言信息檢索效率的另一個(gè)重要指標(biāo),查全率是指檢出的文獻(xiàn)中相關(guān)文獻(xiàn)的準(zhǔn)確程度。檢出的文獻(xiàn)總量檢出的相關(guān)文獻(xiàn)量查準(zhǔn)率 3.跨語言信息檢索的經(jīng)典測(cè)試與評(píng)價(jià)平臺(tái) 除了理論和技術(shù)外,評(píng)估也是跨語言信息檢索系統(tǒng)發(fā)展過程的重要一環(huán)。目前跨語言信息檢索主要有3個(gè)測(cè)試平臺(tái):TREC、NTCIR、CLEF。(1)TREC通過大型測(cè)試文檔集的建立,測(cè)試項(xiàng)目,測(cè)試通過大型測(cè)試文檔集的建立,測(cè)試項(xiàng)目,測(cè)試程序,評(píng)估準(zhǔn)則的制定,程序,評(píng)估準(zhǔn)則的制定,TREC為不同的檢索系為不同的檢索系統(tǒng)和檢索技術(shù)提供了一個(gè)標(biāo)準(zhǔn)的評(píng)比環(huán)境,并統(tǒng)和檢索技術(shù)提供了一個(gè)標(biāo)準(zhǔn)的評(píng)比環(huán)境,并舉辦論壇供參與者討論和分享結(jié)果。舉辦論壇供參與者討論和分享結(jié)果。TREC的出的出現(xiàn),開創(chuàng)了檢索評(píng)價(jià)研究的一個(gè)新的里程碑?,F(xiàn),開創(chuàng)了檢索評(píng)價(jià)研究的一個(gè)新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 財(cái)務(wù)部門績(jī)效考核方案
- 2025-2030照明設(shè)備行業(yè)分析技術(shù)革新市場(chǎng)競(jìng)爭(zhēng)格局
- 2025-2030熱電材料聲子熱導(dǎo)調(diào)控溫度傳感系統(tǒng)設(shè)計(jì)
- 2025-2030潛水器材應(yīng)用范圍分析及深海資源開發(fā)投資策略研究
- 2025-2030湘菜預(yù)制菜市場(chǎng)機(jī)遇與挑戰(zhàn)研究
- 2025-2030消防設(shè)施行業(yè)市場(chǎng)競(jìng)爭(zhēng)供需分析及物聯(lián)網(wǎng)監(jiān)測(cè)技術(shù)應(yīng)用規(guī)劃報(bào)告
- 2025-2030消防安全管理體系現(xiàn)狀分析及企業(yè)安全生產(chǎn)預(yù)防規(guī)劃研究文獻(xiàn)
- 2025-2030消費(fèi)級(jí)基因檢測(cè)產(chǎn)品差異化競(jìng)爭(zhēng)與營(yíng)銷策略報(bào)告
- 2025-2030消費(fèi)級(jí)AR眼鏡光學(xué)顯示模組技術(shù)迭代與用戶體驗(yàn)優(yōu)化方向
- 2025-2030消費(fèi)級(jí)AR眼鏡光學(xué)方案成本對(duì)比與內(nèi)容生態(tài)培育路徑分析報(bào)告
- 中建三局2024年項(xiàng)目經(jīng)理思維導(dǎo)圖
- 中國(guó)藥物性肝損傷診治指南(2024年版)解讀
- 基層黨建知識(shí)測(cè)試題及答案
- DG-TJ08-2021-2025 干混砌筑砂漿抗壓強(qiáng)度現(xiàn)場(chǎng)檢測(cè)技術(shù)標(biāo)準(zhǔn)
- 鼻竇炎的護(hù)理講課課件
- 腸系膜脂膜炎CT診斷
- 體外膜肺氧合技術(shù)ECMO培訓(xùn)課件
- 老年醫(yī)院重點(diǎn)??平ㄔO(shè)方案
- 銀行解封協(xié)議書模板
- 超星爾雅學(xué)習(xí)通《學(xué)術(shù)規(guī)范與學(xué)術(shù)倫理(華東師范大學(xué))》2025章節(jié)測(cè)試附答案
- GB 17440-2025糧食加工、儲(chǔ)運(yùn)系統(tǒng)粉塵防爆安全規(guī)范
評(píng)論
0/150
提交評(píng)論