第七章自然語言在信息組織中的應用課件_第1頁
第七章自然語言在信息組織中的應用課件_第2頁
第七章自然語言在信息組織中的應用課件_第3頁
第七章自然語言在信息組織中的應用課件_第4頁
第七章自然語言在信息組織中的應用課件_第5頁
已閱讀5頁,還剩383頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第七章信息組織中的自然語言應用第一節(jié)自然語言在信息組織中的應用概述第七章信息組織中的自然語言應用第一節(jié)本節(jié)內(nèi)容一.自然語言的演化與發(fā)展二.自然語言的優(yōu)缺點三.自然語言與自然語言處理本節(jié)內(nèi)容一.自然語言的演化與發(fā)展一、自然語言的演化與發(fā)展

檢索語言廣義而言,檢索語言包括受控語言(人工語言)和自然語言語言兩類語言系統(tǒng)。狹義而言,檢索語言包括規(guī)范的受控語言。一、自然語言的演化與發(fā)展檢索語言檢索語言的演化與發(fā)展前信息檢索階段的自然語言原生態(tài)的自然語言是前信息檢索階段的原始的“檢索語言”

規(guī)范的受控語言

如分類表、標題表、單元詞表、敘詞表、分類主題一體化詞表受控語言向自然語言“回歸”

自然語言的應用是以計算機為前提的;

在對詞匯控制的科學性上、規(guī)范化程度上以及方法等方面的進步,使自然語言成為現(xiàn)代信息檢索,尤其是網(wǎng)絡(luò)信息檢索的主流保障語言。一、自然語言的演化與發(fā)展

檢索語言的演化與發(fā)展前信息檢索階段的自然語言一、自然語言的演檢索系統(tǒng)中檢索語言的應用變化基于印刷型文獻的手工檢索以受控語言(分類法、主題法)為主基于數(shù)據(jù)庫的計算機檢索受控語言和自然語言結(jié)合基于網(wǎng)絡(luò)的信息檢索以自然語言為主一、自然語言的演化與發(fā)展

檢索系統(tǒng)中檢索語言的應用變化基于印刷型文獻的手工檢索一、自然二、自然語言的優(yōu)缺點優(yōu)點(VS受控語言)缺點(VS受控語言)結(jié)論二、自然語言的優(yōu)缺點優(yōu)點(VS受控語言)

優(yōu)點可以降低標引難度及成本,從而提高標引速度;采用用戶熟悉的自然語言,符合用戶檢索習慣,減少了概念轉(zhuǎn)換中產(chǎn)生的失真現(xiàn)象,專指度強;由于自然語言標引檢索多采用自動處理方式,省略了編制詞表和詞匯的智力負擔;操作簡單方便,靈活,比較適合沒有專業(yè)知識的廣大網(wǎng)絡(luò)用戶使用等。二、自然語言的優(yōu)缺點

優(yōu)點可以降低標引難度及成本,從而提高標引速度;二、自然語言缺點由于自然語言對標引用詞不加嚴格控制,必然會形成非關(guān)鍵性詞語的大量出現(xiàn),影響檢準率的提高;由于不能反映概念詞間的一一對應關(guān)系,也不能反映概念關(guān)系的隱含性,無法排除同義詞(漏檢)、近義詞、多義詞(誤檢)等詞間的模糊現(xiàn)象,勢必也會直接影響到檢全率的提高。二、自然語言的優(yōu)缺點

缺點由于自然語言對標引用詞不加嚴格控制,必然會形成非關(guān)鍵性詞結(jié)論自然語言和受控語言都有各自獨特的優(yōu)點和缺點,不能簡單彼此替代,而應當相互補充、交融。針對上述自然語言及其檢索中存在的這些問題一方面要依靠計算機技術(shù)和自然語言處理技術(shù)的突破發(fā)展;另一方面受控語言的基本原理――對詞匯的控制,是永遠不會被省略的,變化的只是詞匯控制的方式、方法和手段。二、自然語言的優(yōu)缺點

結(jié)論自然語言和受控語言都有各自獨特的優(yōu)點和缺點,不能簡單三、自然語言與自然語言處理

(一)自然語言處理

(二)自然語言在信息組織和檢索中的應用三、自然語言與自然語言處理(一)自然語言處理(一)自然語言處理自然語言處理是自然語言得以應用所要解決的首要的核心問題。自然語言處理是人工智能領(lǐng)域的一個重要分支,它主要研究計算機對輸入的自然語言文本的分析、理解和生成,旨在建立人與計算機之間友好的交流通道,實現(xiàn)更高層次的信息交互。自然語言處理(naturallanguageprocessing,簡稱NLP)是實現(xiàn)自然語言理解的核心基礎(chǔ),是語言信息處理的一個重要分支。自然語言處理追求的目標是計算機是如何來理解一個句子和領(lǐng)會一個文檔所要表述的意思。三、自然語言與自然語言處理

(一)自然語言處理自然語言處理是自然語言得以應用所要解決的首Cont.由于自然語言十分復雜,人是如何理解語言的,也還是個謎,因此給“理解”下一個定義極其困難。從信息處理的角度看,語言既然是信息的載體,如果計算機實現(xiàn)了機器翻譯、自動文摘以及人機會話等語言信息處理功能,則認為計算機具備了理解自然語言的能力。自然語言處理的核心技術(shù)主要是解決自然語言的歧義問題。關(guān)鍵問題:如何建立大規(guī)模知識庫。

三、自然語言與自然語言處理

Cont.由于自然語言十分復雜,人是如何理解語言的,也還是個語言學上對語言的層次劃分

第一層次語音和文字,即基本語言信號的構(gòu)成;第二層次詞法和句法(合稱“語法”),即語言基本運用單位的構(gòu)成和組合的形式規(guī)律;第三層次語義,即語言所要表達的概念結(jié)構(gòu);第四層次語用,即語言與語言使用環(huán)境的相互作用。三、自然語言與自然語言處理

語言學上對語言的層次劃分第一層次三、自然語言與自然語言處理自然語言處理研究內(nèi)容的基礎(chǔ)部分

語法分析(SyntacticUnderstanding)語義分析(SemanticUnderstanding)語用分析(PragmaticUnderstanding)例如:“湯姆給了瑪麗一本大書?!比?、自然語言與自然語言處理

自然語言處理研究內(nèi)容的基礎(chǔ)部分語法分析(Syntactic語法層分析

根據(jù)語言的語法,單詞可以組成不同的詞組,詞組可以包含不同的角色。單詞角色湯姆人名給動詞瑪麗人名一冠詞大的形容詞書名詞三、自然語言與自然語言處理

語法層分析根據(jù)語言的語法,單詞可以組成不同的詞組,詞組等級表示語法結(jié)構(gòu)三、自然語言與自然語言處理

等級表示語法結(jié)構(gòu)三、自然語言與自然語言處理語義層分析語義結(jié)構(gòu)(句子各個部分之間的聯(lián)系)

三、自然語言與自然語言處理

語義層分析語義結(jié)構(gòu)(句子各個部分之間的聯(lián)系)三、自然語言與知識裝飾下的豐富的語法結(jié)構(gòu)

三、自然語言與自然語言處理

知識裝飾下的豐富的語法結(jié)構(gòu)三、自然語言與自然語言處理擴展的語義結(jié)構(gòu)三、自然語言與自然語言處理

擴展的語義結(jié)構(gòu)三、自然語言與自然語言處理計算機產(chǎn)生的語義結(jié)構(gòu)

三、自然語言與自然語言處理

計算機產(chǎn)生的語義結(jié)構(gòu)三、自然語言與自然語言處理語境層分析例1:“Couldyouturnthelighton?”“語境語義”--“Pressthelightswitch.”“句子的語義”--“Areyoucapableofachievingtoincreasetheamountoflight?”。(句子脫離語言環(huán)境,本身的所表示的語義)三、自然語言與自然語言處理

語境層分析例1:“Couldyouturntheli例2:“Itisdarkinhere.”語境語義--“Lightisweakhere.”句子語義--“Pressthelightswitch.”三、自然語言與自然語言處理

例2:“Itisdarkinhere.”語境語義--

語義和語境含義之間的匹配

三、自然語言與自然語言處理

語義和語境含義之間的匹配三、自(二)自然語言在信息組織和檢索中的應用自然語言檢索,從技術(shù)上講,就是將自然語言處理技術(shù)應用于信息檢索系統(tǒng)的信息的組織、標引和輸出。具體地,漢語自動分詞和自動標引、單漢字標引、自動文摘、全文檢索等都是自然語言在信息組織和檢索中的具體應用。

漢語的機械分詞法、單漢字標引(未介入自然語言理解的成份)基于理解的自動標引技術(shù)、自動文摘技術(shù)(應用了自然語言理解技術(shù))三、自然語言與自然語言處理

(二)自然語言在信息組織和檢索中的應用自然語言檢索,從技術(shù)上小結(jié)自然語言的演化自然語言與受控語言的優(yōu)缺點自然語言理解自然語言在信息組織和檢索中的具體應用有哪些?小結(jié)自然語言的演化第二節(jié)自動分詞與

自然語言標引第七章信息組織中的自然語言第二節(jié)自動分詞與第七章信息組織中的自然語言本節(jié)內(nèi)容漢語分詞一.漢語分詞及其障礙概述二.漢語分詞方法三.漢語分詞系統(tǒng)演示四.漢語分詞系統(tǒng)測評自然語言標引一.自由標引二.自動標引三.單漢字索引與全文索引本節(jié)內(nèi)容漢語分詞漢語分詞漢語分詞一、漢語分詞及其障礙概述(一)漢語的語言特點(二)漢語切分中的難點(三)漢語分詞方法一、漢語分詞及其障礙概述(一)漢語的語言特點(一)漢語的語言特點漢語屬于黏著性語言,較之于屬于屈折型語言的西語系(如英語、法語、德語等)語言,詞與詞之間缺乏任何形式上的標志;漢語特有的書寫形式、靈活多變的構(gòu)詞方式以及不同的分詞形式代表著不同含義克服制約中文信息處理發(fā)展的最大瓶頸“英語文本的信息處理天然地就在詞平面上。而漢語文本起步是在字平面上,落后英文一個層次。這一個層次的差異是本質(zhì)上的、全局性的,如果解決不好,中文信息處理將在整體上永遠困頓于低水平,無法向高級形態(tài)發(fā)展”(一)漢語的語言特點漢語屬于黏著性語言,較之于屬于屈折型語言漢語切分中的難點漢字之間存在著不同的組詞方式;如“發(fā)展中國家兔的飼養(yǎng)”一句,現(xiàn)有的漢語詞就可能導致有兩組語詞分隔結(jié)果:發(fā)展中國家/兔/的/飼養(yǎng),發(fā)展/中國/家兔/的/飼養(yǎng)。從標引的角度分析,交集型的標引詞匯難以處理。如,“并行程序設(shè)計語言”,其標引詞應為,并行程序設(shè)計/程序設(shè)計語言,而不應從任一處簡單分開。漢語虛詞眾多,而且絕大多數(shù)漢字當與不同的漢字組詞時,其詞可能為關(guān)鍵詞,也可能為非用詞。如,“非”與“家”、“?!薄ⅰ爸蕖狈謩e組成不同意義的詞“是非”、“非常”(非用詞)和“非用詞”(關(guān)鍵詞)。新詞的頻繁出現(xiàn)也給漢語分詞增添了難度。漢語切分中的難點漢字之間存在著不同的組詞方式;(二)漢語自動分詞的困難

分詞歧義未登錄詞識別(二)漢語自動分詞的困難分詞歧義1.分詞歧義的類型交集型歧義

如果AB和BC都是詞典中的詞,那么如果待切分字串中包含“ABC”這個子串,就必然會造成兩種可能的切分:“AB/C/”

和“A/BC/”。這種類型的歧義就是交集型歧義。比如“網(wǎng)球場”就可能造成交集型歧義(網(wǎng)球/場/:網(wǎng)/球場/)。組合型歧義如果AB和A、B都是詞典中的詞,那么如果待切分字串中包含"AB"這個子串,就必然會造成兩種可能的切分:"AB/"和"A/B/"。這種類型的歧義就是組合型歧義。比如"個人"就可能造成組合型歧義((我)個人/:(三)個/人/)。分詞歧義1.分詞歧義的類型交集型歧義分詞歧義2.漢語真實文本中的分詞歧義情況真歧義確實能在真實語料中發(fā)現(xiàn)多種切分形式比如“應用于”、“地面積”偽歧義雖然有多種切分可能性,但在真實語料中往往取其中一種切分形式比如“挨批評”、“市政府”分詞歧義2.漢語真實文本中的分詞歧義情況真歧義分詞歧義漢語真實文本中的分詞歧義情況(續(xù))材料一:孫茂松等1999一個1億字真實漢語語料庫中抽取出的前4,619個高頻交集型歧義切分覆蓋了該語料庫中全部交集型歧義切分的59.20%,其中4279個屬偽歧義(占92.63%,如“和軟件”、“充分發(fā)揮”、“情不自禁地”),覆蓋率高達53.35%。材料二:劉開瑛2000,第4章78248個交集型歧義字段中,偽歧義:94%

真歧義:6%

分詞歧義漢語真實文本中的分詞歧義情況(續(xù))材料一:孫茂松等199分詞歧義的四個層級(何克抗等1991,50883字語料)詞法歧義:84.1%(“用方塊圖形式加以描述”)句法歧義:10.8%(“他一陣風似的跑了”)語義歧義:3.4%(“學生會寫文章”)語用歧義:1.7%(“美國會采取措施制裁伊拉克”)基于句法和語義處理技術(shù)的歧義分析精度的上限("語義級理想切分精度"1/6250)所謂切分精度,即指錯誤率漢語真實文本中的分詞歧義情況(續(xù))分詞歧義分詞歧義的四個層級(何克抗等1991,50883字語料3.切分歧義的解決策略漢語文本中含有許多歧義切分字段,典型的歧義有交集型歧義(約占全部歧義的85%以上)和組合型歧義。只有向分詞系統(tǒng)提供進一步的語法、語義知識才有可能作出正確的決策。排除歧義常常用詞頻、詞長、詞間關(guān)系等信息比如“真正在”中,“真”作為單字詞的頻率大大低于“在”作為單字詞的頻率,即“在”常常單獨使用而“真”作為單字詞使用的可能性較小,所以應切成“真正/在”。有時切分歧義發(fā)生在一小段文字中,但為了排除歧義,需要看較長的一段文字。如"學生會"既可能是一個名詞,指一種學生組織,也可能是"學生/會",其中"會"為"可能"或"能夠"的意思。在“學生會主席”中只能是前者,在"學生會去"中只能是后者,在“學生會組織義演活動”中歧義仍然排除不了,則需要看更多的語境信息。

分詞歧義3.切分歧義的解決策略漢語文本中含有許多歧義切分字段,典型的1.未登錄詞(unknownword)中外的人名,地名

“雪村”,“老張”,“莎士比亞”,“敘利亞”;中外組織機構(gòu)單位名稱和商品品牌名"希望電腦","國際乒聯(lián)","非常可樂";專業(yè)領(lǐng)域的大量術(shù)語"線性回歸","韋特比算法";新詞語,縮略語“卡拉OK”,“E時代”,“打假”;“超女”、“非典”、“去離子水”、“醬紫”漢語重疊形式、離合詞的分析看看家家打聽打聽高高興興樂呵呵看一看看了看黑不溜逑古里古怪游了一會兒泳發(fā)理了沒有擔什么心未登陸詞1.未登錄詞(unknownword)中外的人名,地名未登2.未登錄詞識別“于大海發(fā)明愛爾膚護膚液”需要切分成“于大海/發(fā)明/愛爾膚/護膚液”,并需要識別出“于大?!笔侨嗣?,“愛爾膚”是商標名,“護膚液”是術(shù)語名詞。如“斯普林菲爾德是伊里諾州首府”,“丹增嘉措70多歲了”,其中的美國地名、藏族人名都需識別。比如,一個分詞系統(tǒng)若不做中外人名識別,分詞后進行詞頻統(tǒng)計,可能會發(fā)現(xiàn)“張”、“王”、“李”、“劉”、“爾”、“斯”的頻率比“卻”、“如”、“你”的頻率還要高,用這樣的統(tǒng)計結(jié)果做漢語處理,其效果肯定有問題。未登陸詞2.未登錄詞識別“于大海發(fā)明愛爾膚護膚液”需要切分成“于大海3.識別未登錄詞的策略盡可能多地收集詞匯,以降低碰到未登錄詞的機會;通過構(gòu)詞規(guī)則和上下文特征規(guī)則來識別;

“雪村先生創(chuàng)作了很多歌曲”

通過統(tǒng)計的方法來猜測經(jīng)過一般的分詞過程后剩下的“連續(xù)單字詞碎片”是人名、地名等的可能性,從而識別出未登錄詞。未登陸詞3.識別未登錄詞的策略盡可能多地收集詞匯,以降低碰到未登錄詞二、漢語分詞方法(一)基于詞典匹配的分詞方法(二)基于理解的分詞方法(三)基于統(tǒng)計的分詞方法

二、漢語分詞方法(一)基于詞典匹配的分詞方法

(一)基于詞典匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。分類:按照掃描方向的不同:正向匹配和逆向匹配按照不同長度優(yōu)先匹配的情況:最大匹配和最小匹配;按照是否與詞性標注過程相結(jié)合:單純分詞方法和分詞與標注的一體化方法。常用的幾種機械分詞方法如下:正向最大匹配(MM)

逆向最大匹配(RMM)最少切分(使每一句中切出的詞數(shù)最?。╇p向匹配法。(MM+RMM)(一)基于詞典匹配的分詞方法這種方法又叫做機械分詞方法,它

機械分詞方法一般模型對于機械分詞方法,可以建立一個一般的模型,形式地表示為:ASM(d,a,m),即AutomaticSegmentationModel。其中,d:匹配方向,+1表示正向,-1表示逆向;a:每次匹配失敗后增加/減少字串長度(字符數(shù)),+1為增字,-1為減字;m:最大/最小匹配標識,+1為最大匹配,─1為最小匹配。

例如:ASM(+,-,+)就是正向減字最大匹配(即MM方法);ASM(-,-,+)就是逆向減字最大匹配法(即RMM方法)。對于現(xiàn)代漢語來說,只有m=+1是實用的方法。

(一)基于詞典匹配的分詞方法機械分詞方法一般模型對于機械分詞方法,可以建立一個一般的機械分詞系統(tǒng)采用的改進方法

實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。改進掃描方式標點符號、表示漢字之間聯(lián)系關(guān)系的漢字具體切分方法:用切分標記先將文本分割成詞組或短語,再將它們按一定的分解模式分割成單詞或?qū)S迷~。將分詞和詞類標注結(jié)合起來利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準確率。

(一)基于詞典匹配的分詞方法機械分詞系統(tǒng)采用的改進方法實際使用的分詞系統(tǒng),都是

(一)基于詞典匹配的分詞方法最大匹配法(一)基于詞典匹配的分詞方法最大匹配法最大匹配法分詞示例詞語…計算語言學課程課時…設(shè)定最大詞長MaxLen=5S2=""分詞詞表S1="計算語言學課程是三個課時"

(一)基于詞典匹配的分詞方法最大匹配法分詞示例詞語…計算語言學課程課時…設(shè)定最大詞長Ma最大匹配法切詞過程演示輸入字串:時間就是生命TmpWord:時間就是輸出詞串:查詞典yesno時間/就是生命就/是/生命/

(一)基于詞典匹配的分詞方法最大匹配法切詞過程演示輸入字串:時間就是生最大匹配法分詞存在的問題最大詞長的確定

A.詞長過短,長詞就會被切錯(“中華人民共和國”)

B.詞長過長,效率就比較低(算法的時間復雜度太高)掩蓋了分詞歧義

A.“有意見分歧”(正向最大匹配和逆向最大匹配結(jié)果不同)

有意/見/分歧/

有/意見/分歧/

B.“結(jié)合成分子時”(正向最大匹配和逆向最大匹配結(jié)果相同)

結(jié)合/成分/子時/

(一)基于詞典匹配的分詞方法最大匹配法分詞存在的問題最大詞長的確定

A.詞長過短,長詞最大匹配法解決分詞歧義的能力IFW="個人",WLeft=數(shù)詞

THENW="個/人/"ENDIF

能發(fā)現(xiàn)部分交集型歧義

無法發(fā)現(xiàn)組合型歧義對最大匹配法進行擴展:增加歧義詞表,規(guī)則等知識庫歧義詞表…才能個人家人馬上研究所…

(一)基于詞典匹配的分詞方法最大匹配法解決分詞歧義的能力IFW="個人",WL最大匹配法解決分詞歧義的能力(續(xù))對于某些交集型歧義,可以通過增加回溯機制來改進最大匹配法的分詞結(jié)果。例如:“學歷史知識”順向掃描的結(jié)果是:“學歷/史/知識/”

(一)基于詞典匹配的分詞方法最大匹配法解決分詞歧義的能力(續(xù))對于某些交集型歧義,可以通最大概率法分詞基本思想是:(1)一個待切分的漢字串可能包含多種分詞結(jié)果(2)將其中概率最大的那個作為該字串的分詞結(jié)果路徑1:0-1-3-5路徑2:0-2-3-5該走哪條路呢?

(一)基于詞典匹配的分詞方法最大概率法分詞基本思想是:路徑1:0-1-3-5該走哪條路最大概率法分詞S:有意見分歧W1:有/意見/分歧/W2:有意/見/分歧/Max(P(W1|S),P(W2|S))?獨立性假設(shè),一元語法

(一)基于詞典匹配的分詞方法最大概率法分詞S:有意見分歧Max(P(W1|S),P(最大概率法分詞詞語概率……有0.0180有意0.0005意見0.0010見0.0002分歧0.0001……P(W1)=P(有)*P(意見)*P(分歧)=1.8×10-9P(W2)=P(有意)*P(見)*P(分歧)=1×10-11P(W1)>P(W2)

(一)基于詞典匹配的分詞方法最大概率法分詞詞語概率……有0.0180有意0.0005意見提高計算效率到達候選詞wi時的累計概率公式1如何盡快找到概率最大的詞串(路徑)?

(一)基于詞典匹配的分詞方法提高計算效率到達候選詞wi時的累計概率公式1如何盡快找到概率最大概率法切分過程演示S結(jié)結(jié)合合合成成成分成成分分分子分分子子子時分分子子子時時子子時時時子子時時時

(一)基于詞典匹配的分詞方法最大概率法切分過程演示S結(jié)結(jié)合合合成成成分成成分分分子分分子最大概率法分詞的問題并不能解決所有的交集型歧義問題 “這事的確定不下來”

W1=這/事/的確/定/不/下來/

W2=這/事/的/確定/不/下來/無法解決組合型歧義問題

“做完作業(yè)才能看電視”

W1=做/完/作業(yè)/才能/看/電視/

W2=做/完/作業(yè)/才/能/看/電視/

P(W1)<P(W2)P(W1)>P(W2)

(一)基于詞典匹配的分詞方法最大概率法分詞的問題并不能解決所有的交集型歧義問題P(W1)(二)基于理解的分詞方法

其基本思想:就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

(二)基于理解的分詞方法其基本思想:(三)基于統(tǒng)計的分詞方法

從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的同現(xiàn)信息。同現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。

(三)基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因三.自動分詞系統(tǒng)演示三.自動分詞系統(tǒng)演示四.漢語分詞系統(tǒng)的評測評估一個分詞和詞性標注系統(tǒng)的優(yōu)劣有多方面的指標分詞正確率分詞速度歧義字段識別率未登錄詞識別率詞性標注正確率詞性標注速度人工干預性能分詞軟件的易使用性和易維護性等。

四.漢語分詞系統(tǒng)的評測評估一個分詞和詞性標注系統(tǒng)的優(yōu)劣有多方漢語自動分詞的現(xiàn)狀基本實現(xiàn)了從實驗室走向大規(guī)模真實文本的應用。1995年12月,國家科委組織了863智能機專題自動分詞評測,國內(nèi)有幾個系統(tǒng)參加。開放測試條件下的評測結(jié)果是:分詞精度最高為89.4%;交集型切分歧義處理的正確率最高為78.0%,覆蓋型切分歧義處理的正確率最高為59.0%;而未登錄詞識別的正確率,人名最高為58.0%,地名最高為65.0%(劉開瑛1997)四.漢語分詞系統(tǒng)的評測漢語自動分詞的現(xiàn)狀基本實現(xiàn)了從實驗室走向大規(guī)模真實文本的應用2003年測評結(jié)果四.漢語分詞系統(tǒng)的評測2003年測評結(jié)果四.漢語分詞系統(tǒng)的評測自然語言標引自然語言標引自然語言標引一.自然語言標引概述二.自由標引三.自動標引四.單漢字索引與全文索引自然語言標引一.自然語言標引概述一.自然語言標引概述自然語言標引是指采用原文中的信息作為標引源,從中選取能夠有效表征信息內(nèi)容的特征詞的過程。計算機自動標引,是由Luhn先生在1957年率先提出的。1956、1958年Luhn先后撰文提出自動抽詞標引的基本思想:一篇文章中一個詞再現(xiàn)的頻率是這個詞的重要性的有效測試。一個句子中具有給定重要測試的詞的相關(guān)狀態(tài),成為該句子重要性的有效測試。按照詞的出現(xiàn)頻率,以一定的標準排除高頻詞與低頻詞,剩下的就是最能代表文獻內(nèi)容的詞。一.自然語言標引概述自然語言標引是指采用原文中的信息作為標引自然語言標引方式(一)自由標引(二)自動標引西文自動標引中文自動標引自動抽詞標引自動賦詞標引自動賦分類號標引單漢字索引與全文索引

自然語言標引方式(一)自由標引(一)自由標引自由標引即人工關(guān)鍵詞標引。是指將那些出現(xiàn)在文獻的標題(篇名、章節(jié)名)以及摘要、正文中,對表征文獻主題內(nèi)容具有實質(zhì)意義的語詞,亦即對揭示和描述文獻主題內(nèi)容來說是重要的、帶關(guān)鍵性的(可以作為檢索入口的)那些語詞抽取,抽取時不加規(guī)范或只做少量規(guī)范化處理?!白杂蓸艘饕m用于報紙文獻、期刊文獻的大型篇名數(shù)據(jù)庫等的標引。(一)自由標引自由標引即人工關(guān)鍵詞標引。是指將那些出現(xiàn)在文獻自由標引的優(yōu)點由于不使用詞表控制,標引速度要比使用詞表的主題標引快許多倍,這還意味著標引成本的降低;可用與文獻主題專指度一致的詞進行標引,保證較高的檢準率;標引過程是標引人員進行主題分析的過程,如果標引人員具有一定的業(yè)務水平,則其標引質(zhì)量可大大高于自動抽詞標引。(一)自由標引自由標引的優(yōu)點由于不使用詞表控制,標引速度要比使用詞表的主題(二)自動標引自動標引(AutomaticIndexing),又稱計算機輔助標引(ComputerAidedIndexing),是根據(jù)文獻內(nèi)容,依靠計算機系統(tǒng)全部或部分地自動給出標引符號的過程。換句話說,就是利用計算機系統(tǒng)模仿人的標引活動并自動生成情報檢索所需的索引符號的過程。(二)自動標引自動標引(AutomaticIndexing自動標引的意義(1)適應信息資源快速增長的需要信息資源的快速增長,造成信息相對過剩。只有提高信息組織的效率,才能擺脫信息相對過剩帶來的困惑,因此信息標引顯得非常重要。自動標引適應了這一需要。(二)自動標引自動標引的意義(1)適應信息資源快速增長的需要(二)自動標引(2)相對手工標引存在很大優(yōu)勢,克服了手工標引難以克服的缺點。與熟練標引人員相比,自動標引的準確性不如手工標引,但在其他指標方面自動標引具有無可比擬的優(yōu)勢:處理能力強處理速度快成本低一致性好,穩(wěn)定性好(二)自動標引(2)相對手工標引存在很大優(yōu)勢,克服了手工標引難以克服的缺點(3)自動標引一致性好美國的Cleverton曾作過一些試驗,結(jié)果:兩組人員為同一主題編出的敘詞表中詞的同一率僅60%;兩位有經(jīng)驗的標引員用同一敘詞表對同一篇文獻進行標引,其標引詞的同一率僅有30%左右;兩個在同一數(shù)據(jù)庫中用同一檢索系統(tǒng)檢索同一問題的用戶,檢索出的結(jié)果同一率僅40%;兩位科研人員根據(jù)同一提問判斷一組指定文獻的相關(guān)性,其同一率不會超過60%。(二)自動標引(3)自動標引一致性好(二)自動標引(4)自動標引不受標引人員狀態(tài)和情緒的影響,穩(wěn)定性好。美國學者倫茲作過兩個試驗,6名標引人員在不同時間標引同一文獻,一致率為15.8%;由同一標引人員在不同時間標引同一文獻,一致率為16.19%。采用計算機自動標引,無論何時對同一篇文獻總能標引出相同的主題詞。(二)自動標引(4)自動標引不受標引人員狀態(tài)和情緒的影響,穩(wěn)定性好。(二)(5)實驗比較:美國學者Salton對受控人工標引系統(tǒng)MEDLARS和自動標引系統(tǒng)SMART做了一些比較,結(jié)論是:相對簡單的自動文本分析系統(tǒng)在文獻檢索環(huán)境中產(chǎn)生的檢索結(jié)果,其質(zhì)量不亞于受控標引通常所能達到的水平。(二)自動標引(5)實驗比較:(二)自動標引自動標引分類“狹義”的自動標引包括主題標引的自動抽詞標引和自動賦詞標引兩種方式?!皬V義”的自動標引還指在主題自動標引基礎(chǔ)上的自動賦分類號標引。自動標引自動主題標引

自動分類標引自動主題標引關(guān)鍵在于:詞語抽?。粚λR別出的主題詞進行優(yōu)選,以最終產(chǎn)生能表達文獻主題內(nèi)容的標引詞。自動標引的分類(二)自動標引自動標引分類自動標引的分類(二)自動標引自動標引方式及其關(guān)系(二)自動標引自動標引方式及其關(guān)系(二)自動標引自動抽詞標引自動抽詞標引的大體過程如下:第一,使用計算機分析文獻正文或者文摘;第二,對照停用詞表,從正文或者文摘中刪除高頻的語法功能詞;第三,分析保留詞的出現(xiàn)頻率,再按加權(quán)函數(shù)導出各詞的權(quán)值;第四,將權(quán)值大于特定閾值的詞選作標引用的關(guān)鍵詞。(二)自動標引自動抽詞標引自動抽詞標引的大體過程如下:(二)自動標引自動賦詞標引是在自動抽詞的基礎(chǔ)上,引入預先編制的詞表來規(guī)范自動抽取的詞,利用計算機的自動換詞功能,將關(guān)鍵詞轉(zhuǎn)換成規(guī)范詞,賦予文獻主題概念。自動賦詞標引的主要過程如下:第一,為每一個控制詞編制一個詞間關(guān)系文檔(也稱詞情文檔,相當于詞表);第二,分析文獻正文或者摘要,找出其中的重要關(guān)鍵詞(自動分詞);第三,將重要關(guān)鍵詞與詞間關(guān)系文檔進行比較;第四,如果文獻中出現(xiàn)了與詞間關(guān)系文檔中匹配的語詞,則該語詞是相關(guān)的,并確定將該詞用于標引。(二)自動標引自動賦詞標引自動賦詞標引是在自動抽詞的基礎(chǔ)上,引入預先編制的詞表來規(guī)范自自動賦分類號標引自動賦分類號必須以自動抽詞為基礎(chǔ)。將自動抽詞的基礎(chǔ)上,根據(jù)自然語言詞與分類號的對應表和自動分類規(guī)則,利用計算機的自動換詞功能,將關(guān)鍵詞轉(zhuǎn)換成分類號,建立倒排索引文檔。

(二)自動標引自動賦分類號標引自動賦分類號必須以自動抽詞為基礎(chǔ)。將自動抽詞1.西文自動標引(1)文本的詞匯分析(2)非用詞的去除(3)詞干提取(4)索引項的選擇(二)自動標引1.西文自動標引(1)文本的詞匯分析(二)自動標引(二)自動標引西文自動標引算法流程(二)自動標引西2.中文自動標引中文自動標引流程單漢字標引

(二)自動標引2.中文自動標引中文自動標引流程(二)自動標引中文自動標引的基本流程(1)確定標引源(2)預處理(3)分詞處理(4)確定關(guān)鍵詞(5)轉(zhuǎn)換為受控詞(6)給出主題標識符(二)自動標引中文自動標引的基本流程(1)確定標引源(二)自動標引(1)確定標引源即確定標引所依據(jù)的文獻內(nèi)容(標引源)。標引源的選擇是影響標引質(zhì)量的一個重要因素。標題是自動標引的主要標引源,大多數(shù)研究是基于標題進行的。但僅以標題為標引源,信息量少,標引質(zhì)量差,難以推廣使用。如果對全文進行掃描,則存在數(shù)據(jù)量大和截取詞匯太多等問題,為標引帶來許多雜音,影響標引質(zhì)量和速度。(二)自動標引(1)確定標引源即確定標引所依據(jù)的文獻內(nèi)容(標引源)。標引源標引源一般選擇以下內(nèi)容作為標引源:1.標題:包括文章的主標題、章節(jié)標題、小結(jié)標題等。這是首選標引源。2.文摘:較標題而言,信息量較大,一般能夠完全反應文獻討論的主題,但僅利用文摘難以確定5-6個最重要的詞。3.首尾章節(jié):科技論文首章節(jié)(引言、問題的提出等)常提出主要內(nèi)容,尾章節(jié)常作總結(jié)。4.章節(jié)的首尾段:常反映章節(jié)討論的主題,替代整個章節(jié),節(jié)省大量無效勞動。5.段落的首尾句:國外有學者對科技文獻的200個段落進行了主題句的分析,結(jié)果:85%的段落主題句是段落的第一句,7%的段落主題句是最后一句。用段落首尾句替代整個段落,節(jié)省工作量,免除許多“雜音”。(二)自動標引標引源一般選擇以下內(nèi)容作為標引源:(二)自動標引(2)文檔的預處理字符內(nèi)碼的檢測與轉(zhuǎn)換:BIG5碼與GB碼的自動檢測與轉(zhuǎn)換。文檔格式的檢測與轉(zhuǎn)換:去掉DOC、XML、RTF等格式的文件夾雜的許多無意義的格式符號,即將不同格式文件轉(zhuǎn)換成適于自動標引的純文本格式。(二)自動標引(2)文檔的預處理字符內(nèi)碼的檢測與轉(zhuǎn)換:BIG5碼與GB碼的(3)分詞處理在確定關(guān)鍵詞之前,必須對文檔進行切分,即將語句切分成由詞組成的集合。西方文字有分隔符,切分容易實現(xiàn)。而漢語采用連寫方式,詞之間沒有自然分隔符,詞語的準確切分較為困難(研究相當長時間),目前自動切分已基本能滿足實際需要。(二)自動標引(3)分詞處理在確定關(guān)鍵詞之前,必須對文檔進行切分,即將語句(4)確定關(guān)鍵詞根據(jù)文本詞語切分結(jié)果,以詞語在文本中出現(xiàn)的頻次、位置及詞的詞性等因素為依據(jù),確定可表達文檔中心內(nèi)容的詞作為該文檔的關(guān)鍵詞。(二)自動標引(4)確定關(guān)鍵詞根據(jù)文本詞語切分結(jié)果,以詞語在文本中出現(xiàn)的頻確定關(guān)鍵詞的主要方法主要方法:絕對詞頻統(tǒng)計法:以詞在文章中出現(xiàn)的絕對頻次為根本依據(jù)確定文章的中心關(guān)鍵詞,理論基礎(chǔ)是齊夫定律。詞頻權(quán)重法:除考慮詞頻外,還考慮詞的位置、詞的詞性、詞本身的價值、詞的長度等因素,對詞進行加權(quán),然后根據(jù)權(quán)值大小確定關(guān)鍵詞。(二)自動標引確定關(guān)鍵詞的主要方法主要方法:(二)自動標引(5)轉(zhuǎn)換為受控詞關(guān)鍵詞與受控詞(主題詞、副主題詞、特征詞)之間存在著一定的關(guān)系(如同義詞關(guān)系、上位關(guān)系、下位關(guān)系等)。使用一定的方法,將以上提取的關(guān)鍵詞轉(zhuǎn)換為受控詞。(二)自動標引(5)轉(zhuǎn)換為受控詞關(guān)鍵詞與受控詞(主題詞、副主題詞、特征詞)(二)自動標引(二)自動標引轉(zhuǎn)換為受控詞的方法目前有效可行的方法包括:使用關(guān)鍵詞-受控詞對照表:該表含有關(guān)鍵詞與規(guī)范化的主題詞、副主題詞、特征詞之間的對照關(guān)系,由此對應轉(zhuǎn)換。利用詞匯相似度:大多數(shù)意義相同或相近的詞之間字符全部或部分相同,關(guān)鍵詞與主題詞之間存在一定程度的相似性,可通過某些算法計算出來,根據(jù)相似性確定相應的主題詞。兩種算法:基于詞素的相似度算法;基于單漢字的字面相似度算法。(二)自動標引轉(zhuǎn)換為受控詞的方法目前有效可行的方法包括:(二)自動標引(6)給出主題標識符根據(jù)確定的主題詞、副主題詞、特征詞,進行組配,給出主題標引符號,完成自動標引。(二)自動標引(6)給出主題標識符根據(jù)確定的主題詞、副主題詞、特征詞,進行四、單漢字標引單漢字索引(也稱為“字表法”),是對每個單字的出現(xiàn)位置進行索引,并依據(jù)單字的位置信息進行檢索的文本檢索方法。單漢字索引庫的主要部分是每個字的位置信息。單漢字索引:避免切詞字標引的實現(xiàn)方法與步驟:構(gòu)造停用字表單字索引四、單漢字標引單漢字索引(也稱為“字表法”),是對每個單字的單漢字索引庫的建立過程建立字表索引時,需要掃描整個源文檔,對出現(xiàn)的每一個有效字符,計算其在文檔中出現(xiàn)的位置,并將該位置的值加入到對應的字表中。四、單漢字標引單漢字索引庫的建立過程建立字表索引時,需要掃描整個源文檔,對單漢字索引文檔結(jié)構(gòu)如:0001信息傳播與檢索

0015信息檢索自動化標引字記錄數(shù)記錄號與位置集合播傳動化檢索息信自1111222210001,70001,50015,110015,130001,110001,130001,30001,10015,90015,50015,70015,30015,1單漢字索引文檔結(jié)構(gòu)如:0001信息傳播與檢索標引字記單漢字索引結(jié)構(gòu)字表記錄了對應字符在源文檔中的所有位置信息。其中字符i對應的字表記錄了該字符在源文檔中所出現(xiàn)的位置Pix,出現(xiàn)位置通常用字符相對于文檔頭的偏移字節(jié)數(shù)表示。例如兩個字的字符串XY(其中X、Y表示任意的漢字字符),假設(shè)X的位置為Px,如果字符串XY在源文檔中出現(xiàn),則Y的位置Py必定等于Px+2(2為兩個漢字間的字節(jié)距離)。在索引庫中,X的字表中將包含Px,而Y的字表中也必然包含Px+2。

單漢字索引結(jié)構(gòu)字表記錄了對應字符在源文檔中的所有位置信息。其基于單漢字索引的檢索檢索時掃描X和Y各自對應的字表,若文檔中有該詞出現(xiàn),則必定有X對應的字表中存在位置值Px,Y對應的字表中存在位置值Py,使得Py=Px+2成立,每查到一對這樣的位置值,就是檢索到了字串XY一次。掃描完兩字字表,就可以檢索出字符串的所有?;趩螡h字索引的檢索檢索時單漢字索引的優(yōu)點

單字索引法以單漢字為“標引”單位,成功地繞過了漢語自動切分這一難題,實現(xiàn)比較容易;不存在詞典構(gòu)造問題,自動化的適用程度高,大大節(jié)約了人工標引的大量勞動,避免標引的主觀性和不一致性;單字索引的建立效率很高,一百萬字文本作單漢字索引只需要二分種左右;對于新興的概念詞也能即時處理,也解決了漢語交集型字符串標引的問題。就檢索性能而言,單漢字檢索可以實現(xiàn)全方位、徹底的檢索;單漢字檢索模式是最徹底的后組配模式,可通過調(diào)整檢索字的數(shù)量來任意調(diào)整檢索專指度。此外,單漢字檢索還可用于文獻內(nèi)容的統(tǒng)計、分析和研究。

單漢字索引的優(yōu)點單字索引法以單漢字為“標引”單位,成功地繞單漢字索引的缺點將詞匯控制負擔轉(zhuǎn)嫁給了用戶,加重了檢索者構(gòu)造檢索策略時的智力負擔;基于單漢字的檢索只能實現(xiàn)物理字面上的匹配運算,難于處理文本中的隱含概念主題;單漢字自動標引會使無檢索價值的虛詞或分辨力很差的常用字在索引中占很大比例。同時在具體實現(xiàn)上還存在下列不足之處:檢索的后組方式導致其響應時間慢于其他方法;以單漢字為索引單元,導致字頻率的跨度很大,索引(倒排)文檔的構(gòu)造必須要解決好存儲空間與檢索時間這兩個矛盾關(guān)系;單字組配檢索將會產(chǎn)生許多假組配現(xiàn)象,影響查準率。

單漢字索引的缺點將詞匯控制負擔轉(zhuǎn)嫁給了用戶,加重了檢索者構(gòu)造小結(jié)漢語自動分詞對中文文本處理的重要意義。漢語語言的特點及其對自動分詞所造成的障礙?漢語自動分詞的常用分詞方法,詞典分詞(最大匹配法分詞;最大概率法)。漢語自動標引的流程與方法。單漢字索引小結(jié)漢語自動分詞對中文文本處理的重要意義。課后練習

將最大匹配分詞例子程序改為逆向最大匹配。思考如何改進漢語自動分詞的方法;自動標引的方法。課后練習將最大匹配分詞例子程序改為逆向最大匹配。第七章信息組織中的自然語言第三節(jié)自然語言檢索第七章信息組織中的自然語言第三節(jié)自然語言檢索一.自然語言檢索系統(tǒng)概述二.自然語言檢索三.全文檢索四.搜索引擎的自然語言檢索問題本節(jié)內(nèi)容一.自然語言檢索系統(tǒng)概述本節(jié)內(nèi)容一.自然語言檢索系統(tǒng)自然語言檢索系統(tǒng)自然語言檢索系統(tǒng)就是指對文獻作者或文摘提要的編寫者原來使用的語言進行一定的序化組織、處理并提供自然語言檢索接口供用戶查詢使用的檢索系統(tǒng)。一.自然語言檢索系統(tǒng)自然語言檢索系統(tǒng)自然語言檢索系統(tǒng)的關(guān)鍵性技術(shù):文本信息的自動標引索引技術(shù)自然語言檢索技術(shù)一.自然語言檢索系統(tǒng)自然語言檢索系統(tǒng)的關(guān)鍵性技術(shù):一.自然語言檢索系統(tǒng)就與信息組織的關(guān)系而言,檢索系統(tǒng)的成功與否在很大程度上依賴于數(shù)據(jù)庫中信息表征的方式、標引和索引的質(zhì)量如何。系統(tǒng)采用的信息標引方式所選取的索引的顆粒度在很大程度上就決定了系統(tǒng)的檢索匹配方式,檢索的效率。一.自然語言檢索系統(tǒng)就與信息組織的關(guān)系而言,檢索系統(tǒng)的成功與否在很大程度上依賴于二.自然語言檢索自然語言概念界定從檢索語言來講,自然語言檢索就是在為文獻檢索標識時,使用文獻作者、文摘編寫者原來所用的語詞或標引人員自擬的語詞,而不是取自受控詞表中的語詞;從技術(shù)上講,就是將自然語言處理技術(shù)應用于信息檢索系統(tǒng)的信息組織、標引與輸出;從用戶方面講,就是用自然語言作為提問輸入的檢索方式。二.自然語言檢索自然語言概念界定從用戶輸入檢索詞形式的角度區(qū)分:關(guān)鍵詞檢索;自然語言語句的提問式輸入檢索從檢索內(nèi)容或檢索對象角度區(qū)分:基于標引字段的檢索方式;全文檢索方式二.自然語言檢索自然語言檢索的類型從用戶輸入檢索詞形式的角度區(qū)分:二.自然語言檢索自然語言檢索三.全文檢索全文檢索技術(shù)所謂全文檢索(Full-TextRetrieval),是指以全部文本信息作為檢索對象的一種信息檢索技術(shù)。全文檢索的核心技術(shù)就是維護一個高效的索引(主要是倒排文檔)。

全文檢索技術(shù)的新穎之處在于,全文檢索技術(shù)是一種面向全文、提供全文的新型檢索技術(shù)。它可以使用原文中任何一個有實際意義的字、詞作為檢索入口,而且得到的檢索結(jié)果是源文獻而不是文獻線索。

三.全文檢索全文檢索技術(shù)全文檢索的深入理解從技術(shù)層面的角度來分析,全文檢索是全文索引和建立在全文索引基礎(chǔ)上的一定的信息檢索模型相結(jié)合的一種檢索技術(shù)。全文檢索的基礎(chǔ)是全文索引,在全文索引基礎(chǔ)上,根據(jù)系統(tǒng)所采用的某種檢索模型,有各種不同的檢索方法和技術(shù)。從檢索內(nèi)容或?qū)ο笊蟻砝斫?,與標引詞檢索相對。從用戶輸入檢索詞形式的層面上來分析,全文檢索主要采用自然語言語詞作為檢索單位,即我們常說的關(guān)鍵詞(關(guān)鍵性語詞)。

三.全文檢索全文檢索的深入理解從技術(shù)層面的角度來分析,三.全文檢索全文檢索系統(tǒng)實現(xiàn)技術(shù)(1)自動標引技術(shù)(2)全文數(shù)據(jù)庫文檔索引技術(shù)(3)停用詞表(4)優(yōu)化查詢算法(5)數(shù)據(jù)壓縮技術(shù)三.全文檢索全文檢索系統(tǒng)實現(xiàn)技術(shù)(1)自動標引技術(shù)三.全文檢索全文檢索的索引問題

全文檢索的關(guān)鍵是文檔的索引,即如何將源文檔中所有基本元素的信息以適當?shù)男问接涗浀剿饕龓熘?。中文索引的三種索引策略:1.單漢字索引方式2.詞索引方式3.N元語法(N-Gram法)三.全文檢索全文檢索的索引問題全文檢索的關(guān)鍵是文檔的索引,即如何將源文各種索引方式的優(yōu)缺點

方法查全率查準率檢索速度索引空間按字好差海量數(shù)據(jù)慢浪費按詞較差好快較小N-Gram較好較差快嚴重浪費三.全文檢索各種索引方式的優(yōu)缺點方法查全率查準率檢索速度索引空間按字好中文信息索引的合理方式詞索引+BI-Gram(混合索引方式)首先采用基于詞典的分詞技術(shù)將漢語中的常用詞切分出來;在此基礎(chǔ)上,對沒有出現(xiàn)在詞典中的未登錄詞采用基于N-Gram的技術(shù)進行提取。三.全文檢索中文信息索引的合理方式詞索引+BI-Gram(混合索引方式)全文檢索系統(tǒng)優(yōu)缺點優(yōu)點:系統(tǒng)制作效率高詞匯自然更新專指性強查全率高三.全文檢索缺點:存貯空間開銷大檢索者智力負擔重誤檢率較高文本匹配的算法需優(yōu)化中文全文檢索受漢語切分的影響全文檢索系統(tǒng)優(yōu)缺點優(yōu)點:三.全文檢索缺點:四.搜索引擎的自然語言檢索問題

(一)搜索引擎的檢索理論(二)搜索引擎的檢索技術(shù)四.搜索引擎的自然語言檢索問題(一)搜索引擎的檢索理論(一)搜索引擎的檢索理論搜索引擎的檢索思想起源于傳統(tǒng)的全文信息檢索理論,一般以詞為索引單位,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的倒排文檔,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個檢索詞在一篇文章中出現(xiàn)的概率,對包含這些檢索詞的文檔進行排序,最后輸出排序的結(jié)果。全文檢索技術(shù)是搜索引擎的核心支撐技術(shù)。四.搜索引擎的自然語言檢索問題(一)搜索引擎的檢索理論搜索引擎的檢索思想起源于傳統(tǒng)的全文信搜索引擎一般系統(tǒng)架構(gòu)

搜索引擎一般系統(tǒng)架構(gòu)搜索引擎的工作流程搜索引擎的工作流程搜索引擎的自然語言檢索(NaturalLanguageSearching)從技術(shù)上講:將自然語言處理技術(shù)應用于信息檢索系統(tǒng)的信息組織.標引與輸出;從用戶而言:使用自然語言(語句)作為輸入的檢索方式。系統(tǒng)在“用戶-檢索接口”層面上支持用戶以簡單自然語言提問的方式輸入檢索式。目前搜索引擎所宣稱的自然語言檢索功能多指這種簡單提問式檢索技術(shù)。[狹義]四.搜索引擎的自然語言檢索問題搜索引擎的自然語言檢索(NaturalLanguageS(二)搜索引擎的自然語言檢索技術(shù)關(guān)鍵詞匹配檢索簡單提問式輸入檢索基于理解的自然語言檢索四.搜索引擎的自然語言檢索問題(二)搜索引擎的自然語言檢索技術(shù)關(guān)鍵詞匹配檢索四.搜索引擎的1.關(guān)鍵詞檢索的改進布爾邏輯檢索實例詞組檢索實例字段限制檢索實例位置檢索遞進檢索實例

___四.搜索引擎的自然語言檢索問題1.關(guān)鍵詞檢索的改進布爾邏輯檢索實例四.搜索引擎的自然語言檢查找Window98的Bugs問題查找Window98的Bugs問題“Searchwithintheseresults”“Searchwithintheseresults”2.簡單提問式輸入檢索問答系統(tǒng)(QASystem)ASK.com模式AnswerBus模式四.搜索引擎的自然語言檢索問題2.簡單提問式輸入檢索問答系統(tǒng)(QASystem)四.搜索A模式通過將用戶提問轉(zhuǎn)化為系統(tǒng)已知問題,然后對已知問題進行解答,以求降低對自然語言理解技術(shù)的依賴性,是一種基于自然語言形式的自然語言查詢模式。典型:A四.搜索引擎的自然語言檢索問題A模式通過將用戶提問轉(zhuǎn)化為系統(tǒng)已知問題,然后對已A檢索實例A通過建立問題與結(jié)果的數(shù)據(jù)庫規(guī)則而維護的問題與答案相聯(lián)系的數(shù)據(jù)庫,對于用戶的自然語言提問它并不是立即返回問題的答案,而是用逼近式的方法讓用戶選擇它知道的所有問題,再由用戶分類來選擇答案,這是基于一種規(guī)則式的技術(shù)RulerTechnology

。四.搜索引擎的自然語言檢索問題A檢索實例A通過建立問題與結(jié)果的數(shù)據(jù)AnswerBus模式

四.搜索引擎的自然語言檢索問題AnswerBus模式四.搜索引擎的自然語言檢索問題AnswerBus檢索實例AnswerBus檢索實例3.智能的自然語言檢索技術(shù)建立在自然語言理解基礎(chǔ)上的自然語言檢索

系統(tǒng)要實現(xiàn)自然語言理解,至少需要具備以下4個方面的能力:機器能正確回答輸入文本中的有關(guān)問題;有能力產(chǎn)生輸入文本的摘要;能用不同的詞語和句型來復述其輸入的文本;具有把一種語言翻譯成另一種語言的能力

四.搜索引擎的自然語言檢索問題3.智能的自然語言檢索技術(shù)建立在自然語言理解基礎(chǔ)上的自然語言基于語言理解的自然語言檢索在盡量避免引入復雜語義過程的前提下,依靠比較成熟的實驗技術(shù)與成果(如,中文信息自動分詞技術(shù)、詞表編制技術(shù)),基于自然語言基本語義內(nèi)容實現(xiàn)主題概念檢索技術(shù)。

E.g.eXcite;百度;CNKI中國知網(wǎng)等四.搜索引擎的自然語言檢索問題基于語言理解的自然語言檢索在盡量避免引入復雜語義過程的前提下eXciteeXcite中國知網(wǎng)CNKI相關(guān)詞四.搜索引擎的自然語言檢索問題中國知網(wǎng)CNKI相關(guān)詞四.搜索引擎的自然語言檢索問題四.搜索引擎的自然語言檢索問題四.搜索引擎的自然語言檢索問題四.搜索引擎的自然語言檢索問題四.搜索引擎的自然語言檢索問題AltaVista的BabelFishAltaVista的BabelFish自然語言檢索系統(tǒng)存在的問題易造成主題相關(guān)的信息分散;詞間關(guān)系含糊不清或不正確,無法清楚地顯示概念間的關(guān)系,易造成檢索系統(tǒng)的失誤;用戶難以確定全部的檢索用詞,加重了用戶的負擔。

四.搜索引擎的自然語言檢索問題自然語言檢索系統(tǒng)存在的問題易造成主題相關(guān)的信息分散;四.搜索癥結(jié)分析

第一,在人類語言尤其是漢語中,存在著豐富的意義相近或相似的字或詞(或同義詞),在檢索中,這種同義詞現(xiàn)象必須得到必要的處理(或控制),從而才能提高檢全率或檢準率。而自然語言檢索采用的是基于“物理”字或詞的方法,而非基于概念(或知識)的方式。第二,自然語言檢索采用的是基于全文匹配檢索的方法,而非基于主題概念的方式。這樣的全文檢索在有效提高系統(tǒng)檢全率的同時,也帶來了大量的信息噪音。四.搜索引擎的自然語言檢索問題癥結(jié)分析第一,在人類語言尤其是漢語中,存在著豐富的意義相近結(jié)論根據(jù)以上這兩點,我們不能否定網(wǎng)絡(luò)信息的人工標引和控制在現(xiàn)階段的必要性和合理性。從這個意義上說,不管今后計算機技術(shù)和自然語言系統(tǒng)如何發(fā)展,情報檢索的基本原理――對詞匯控制是永遠不會取消的,變化的只是詞匯控制的方式、方法和手段。三.搜索引擎的自然語言檢索問題結(jié)論根據(jù)以上這兩點,我們不能否定網(wǎng)絡(luò)信息的人工標引和控制在現(xiàn)本節(jié)小結(jié)自然語言檢索全文檢索技術(shù)中文索引策略搜索引擎中的自然語言檢索問題了解網(wǎng)絡(luò)上有特色的自然語言搜索引擎本節(jié)小結(jié)自然語言檢索第七章信息組織中的自然語言第四節(jié)后控制檢索第七章信息組織中的自然語言第四節(jié)后控制檢索本節(jié)內(nèi)容一.后控制和后控詞表二.后控詞表應用現(xiàn)狀三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)本節(jié)內(nèi)容一.后控制和后控詞表自然語言檢索自然語言檢索(關(guān)鍵詞)的缺點:固有的歧義性、模糊性;標引的無控制性;用戶檢索選擇的隨意性。自然語言檢索自然語言檢索(關(guān)鍵詞)的缺點:一.后控制和后控詞表控制大致可概括為:①對詞匯的規(guī)范化處理(包括專指度控制);②對概念之間關(guān)系的控制。前控:信息標引階段的詞匯控制稱為前控制分類法和主題詞表可以看作是一種前控的手段,即信息的標識工具在檢索行為實施前就以一種固定的模式和狀態(tài)存在。后控:信息檢索階段的控制稱為后控制后控制方法主要有:截詞檢索、位置邏輯檢索、標引詞加權(quán)和后控制詞表。后控制模式--“標引不控制+檢索控制”

一.后控制和后控詞表控制大致可概括為:后控制詞表

后控制詞表是利用受控語言的基本原理和方法編制的自然語言檢索用詞表,它主要是對自然語言中大量存在的等同關(guān)系、等級關(guān)系和大部分相關(guān)關(guān)系進行控制和揭示,具有自學習功能,可根據(jù)檢索的需要將新概念和新術(shù)語及時地加入詞表中,因此,后控詞表是一個動態(tài)詞表。后控詞表的性質(zhì)類似于入口詞表,它是一種轉(zhuǎn)換工具,一種擴檢工具,一種羅列自然語言檢索標識供選擇的工具。用戶在檢索時通過瀏覽詞表選用檢索詞,或者由系統(tǒng)自動執(zhí)行調(diào)整(擴縮減)檢索式,這樣既減輕了用戶負擔,又提高了系統(tǒng)的易用性和檢索效率。后控詞表兼有自然語言與人工語言的性質(zhì)和優(yōu)點,因此,后控制詞表是“自然語言檢索和人工受控語言結(jié)合的最佳范例”。一.后控制和后控詞表后控制詞表后控制詞表是利用受控語言的基本原理和方法編制的自后控詞表的編制后控詞表必須在檢索系統(tǒng)中實有的自然語言檢索標識的基礎(chǔ)上進行編制。后控詞表編制上的特點:由于自然語言新詞匯、新概念是不斷增加的,因此,后控詞表的規(guī)模是不斷擴增的;后控詞表的主題分類體系是隨著詞量的增加而逐步細化的;后控詞表由于不用于文獻標引,故其分類體系改變靈活,可根據(jù)需要進行較大的調(diào)整,對檢索系統(tǒng)不會引起重行標引的問題;后控詞表可以以多種顯示方式并用;后控詞表也有必要增加入口詞。部分入口詞通過一定的積累使用可以改為正式檢索標識。在后控詞表中,標引詞和非標引詞應有所區(qū)別(可用不同符號)。如果兩者相同,應并存。后控詞表的詞間關(guān)系,應由人工判別來確定。但可由計算機輔助,即利用字順排列和詞素輪排中的字面成族原理,尋找出可能的詞族。

一.后控制和后控詞表后控詞表的編制后控詞表必須在檢索系統(tǒng)中實有的自然語言檢索標識后控詞表的編制方式

在被抽出的詞匯的基礎(chǔ)上編制。將自然語言檢索標識與某種詞表或分類表對應。在檢索過程中,利用現(xiàn)成的、詞量較多的一般詞表作為后控制詞表的代用品,或借用其他檢索系統(tǒng)的后控制詞表。利用計算機自學習機制將檢索表達式中的用詞加以積累,并定期加入到原始詞表中,即后控詞表在用戶使用過程中其數(shù)量是不斷增長的。

一.后控制和后控詞表后控詞表的編制方式在被抽出的詞匯的基礎(chǔ)上編制。一.后控制后控詞表檢索系統(tǒng)結(jié)構(gòu)后控詞表的數(shù)據(jù)結(jié)構(gòu)表示HACBA1A2DE一.后控制和后控詞表后控詞表檢索系統(tǒng)結(jié)構(gòu)后控詞表的數(shù)據(jù)結(jié)構(gòu)表示HACBA1A2D后控詞表檢索系統(tǒng)基本功能模塊同義詞擴檢后控詞表檢索系統(tǒng)后控詞表擴檢相關(guān)詞擴檢等級詞擴檢后控詞表管理備選詞管理詞典顯示詞典維護無關(guān)詞對刪除詞對共現(xiàn)頻率統(tǒng)計與處理增加刪除修改一.后控制和后控詞表后控詞表檢索系統(tǒng)基本功能模塊同義詞擴檢后控詞表檢索系統(tǒng)后控詞網(wǎng)絡(luò)環(huán)境中的后控詞表模式網(wǎng)絡(luò)環(huán)境中后控詞表的生成基礎(chǔ)也應由關(guān)系數(shù)據(jù)庫的二維表,發(fā)展到超文本的網(wǎng)狀結(jié)構(gòu)。超文本鏈接技術(shù)微觀詞表技術(shù)一.后控制和后控詞表網(wǎng)絡(luò)環(huán)境中的后控詞表模式網(wǎng)絡(luò)環(huán)境中后控詞表的生成基礎(chǔ)也應由關(guān)后控詞表的控制方案

(控制程度)對自然語言進行控制的理想方案應是:一方面對其影響檢索效率的不利因素予以控制,消除系統(tǒng)交互的語言障礙和詞匯的模糊性,排除同義、多義現(xiàn)象,顯示詞間關(guān)系;另一方面,保留自然語言的優(yōu)點,使得系統(tǒng)符合人們使用自然語言進行交流的習慣心理,增強易用性,避免因進行詞匯轉(zhuǎn)換引起的情報(信息)失真和進行主題分析、查表找詞的沉重負擔,并能及時反映新概念。一.后控制和后控詞表后控詞表的控制方案(控制程度)對自然語言進行控制的理想方案二.后控詞表應用現(xiàn)狀自動化詞表編制管理系統(tǒng)機讀或網(wǎng)絡(luò)化詞表的應用二.后控詞表應用現(xiàn)狀二.后控詞表應用現(xiàn)狀自動化詞表編制管理系統(tǒng)二.后控詞表應用現(xiàn)自動化詞表編制管理系統(tǒng)自動化詞表編制管理系統(tǒng)DBThethesauruseditorisamoduleofadatabasepackage(詞表編輯器是數(shù)據(jù)庫包的一個組件)SAAstandalonethesauruseditingpackage(一個獨立的詞表編輯包)MUAmulti-userpackage,designedforcooperativeusebyteamsofthesaurusdevelopers(多用戶包,用于合作編制詞表的團隊分布使用)二.后控詞表應用現(xiàn)狀自動化詞表編制管理系統(tǒng)自動化詞表編制管理系統(tǒng)二.后控詞表應用二.后控詞表應用現(xiàn)狀自動化詞表編制管理系統(tǒng)(cont.)二.后控詞表應用現(xiàn)狀自動化詞表編制管理系統(tǒng)(cont.)二.后控詞表應用現(xiàn)狀可升級的詞表組件結(jié)構(gòu)模型二.后控詞表應用現(xiàn)狀可升級的詞表組件結(jié)構(gòu)模型二.后控詞表應用現(xiàn)狀對象、關(guān)系和元數(shù)據(jù)二.后控詞表應用現(xiàn)狀對象、關(guān)系和元數(shù)據(jù)二.后控詞表應用現(xiàn)狀SynapticaOverview

二.后控詞表應用現(xiàn)狀SynapticaOverview二.后控詞表應用網(wǎng)絡(luò)化詞表的應用網(wǎng)絡(luò)化詞表的聯(lián)機檢索應用MeSHbrowserBiosis網(wǎng)絡(luò)化詞表的Web檢索應用SocialScienceinformationGateway(HASSET)Art,Design,Architecture&MediaInformationGateway

(ArtandArchitectureThesaurus)MeSH二.后控詞表應用網(wǎng)絡(luò)化詞表的應用網(wǎng)絡(luò)化詞表的聯(lián)機檢索應用三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)1.分類目錄限定――領(lǐng)域限定、修整2.檢索式的修整、優(yōu)化3.檢索結(jié)果控制三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)1.分類目錄限定――領(lǐng)域限定、1.分類目錄限定――領(lǐng)域限定、修整檢索主題的領(lǐng)域修整,是就用戶構(gòu)造檢索策略而言的。領(lǐng)域限定的目的是將查詢限定在用戶感興趣的某個領(lǐng)域內(nèi)進行搜索,避免產(chǎn)生過量的結(jié)果信息。

三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)1.分類目錄限定――領(lǐng)域限定、修整檢索主題的領(lǐng)域修整,是就用2.檢索式的修整、優(yōu)化1)停用詞典――檢索詞有效性控制

2)截詞詞典――檢索詞詞形控制

3)詞間關(guān)系詞表――檢索式概念控制三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)2.檢索式的修整、優(yōu)化1)停用詞典――檢索詞有效性控制三1)停用詞典――檢索詞有效性控制停用詞典收錄所有對檢索無意義和高頻率的虛詞、介詞及增加系統(tǒng)資源開銷的插入語等性質(zhì)的詞和短語。例如:“的”、“of”、“the”、介詞、“一般來說”、“總體而言”

…三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)1)停用詞典――檢索詞有效性控制停用詞典收錄所有對檢索無意義2)截詞詞典――有效檢索詞詞形控制截詞檢索有字面成族的作用,而字面成族的詞中有一部分或大部分又是概念成族的,所以利用截詞檢索可提高檢全率,但也會帶出一些誤檢的網(wǎng)絡(luò)資源。截詞必須適可而止,截去部分過多反而會增加誤檢率。截詞檢索主要是針對英語等西方語系而言的。E.g.“communicat-”Communicate,communication,communicating三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)2)截詞詞典――有效檢索詞詞形控制截詞檢索有字面成族的作用,3)詞間關(guān)系詞表――檢索式概念控制檢索式的重新構(gòu)造或者說是優(yōu)化主要是通過使用與檢索式有詞間關(guān)系的新詞來擴展或縮減來完成。詞間關(guān)系詞表是組織那些用來幫助你發(fā)現(xiàn)你想發(fā)現(xiàn)的,但并沒有想到的等級詞、同義詞、相關(guān)詞的詞庫。如:“Elderlypeople(老人)”=

“Seniorcitizens(老人)”

網(wǎng)絡(luò)后控檢索的兩種模式:“松散瀏覽模式”“松散檢索模式”

三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)3)詞間關(guān)系詞表――檢索式概念控制檢索式的重新構(gòu)造或者說是優(yōu)概念/詞條關(guān)系的獲得方式(1)--基于詞表基于詞表(thesaurus)。手工建立辭典來存儲概念層次及詞條之間的交叉聯(lián)系,該工作通常有領(lǐng)域?qū)<襾硗瓿?。如,UMLS(統(tǒng)一醫(yī)學語言)。E.g.SOSIG社會科學專業(yè)搜索引擎中使用的Hasset主題詞表。百度搜索引擎具有根據(jù)檢索式反饋一系列相關(guān)檢索詞的功能,通過用戶與系統(tǒng)的交互,實現(xiàn)輔助用戶構(gòu)造檢索策略、優(yōu)化檢索式的功能,從而得到相對全面、準確的檢索結(jié)果。分析其本質(zhì),其關(guān)鍵技術(shù)實質(zhì)是系統(tǒng)內(nèi)置了一個類似于同義詞、相關(guān)詞詞典的“后控”的相關(guān)關(guān)系詞表。三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)概念/詞條關(guān)系的獲得方式(1)--基于詞表基于詞表(thes三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)SOSIG(社會科學主題網(wǎng)關(guān))三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)SOSIG(社會科學主題網(wǎng)關(guān))eXcite的ZoomIn檢索助手實例三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)eXcite的ZoomIn檢索助手實例三.網(wǎng)絡(luò)檢索系統(tǒng)中的百度“相關(guān)搜索”功能

三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)百度“相關(guān)搜索”功能三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)獲得方式(2)--基于語料知識庫技術(shù)語料知識庫(Knowledgebase),是使用語法分析、統(tǒng)計等技術(shù)從文檔集合中自動學習,是一種建立在知識網(wǎng)絡(luò)基礎(chǔ)上的概念推理的檢索方法。是概念檢索的高級階段--智能檢索。語料知識庫:WordNet,HowNet(知網(wǎng))三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)獲得方式(2)--基于語料知識庫技術(shù)語料知識庫(KnowleWordNet三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)WordNet三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)HowNet(知網(wǎng))三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)HowNet(知網(wǎng))三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)WordNet提供的關(guān)系類型

三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)WordNet提供的關(guān)系類型三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)WordNet1.6檢索系統(tǒng)

三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)WordNet1.6檢索系統(tǒng)三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)后控檢索應用中的注意點后控詞間關(guān)系詞表在檢索系統(tǒng)中應該以“詞族片斷”的結(jié)構(gòu)形式存放。

詞間關(guān)系詞表控制下的查詢擴展,一定要注意讓用戶根據(jù)檢索意圖(或者說是檢索的語義概念)來選擇,通過交互式的術(shù)語提示方式來實現(xiàn)控制。三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)后控檢索應用中的注意點后控詞間關(guān)系詞表在檢索系統(tǒng)中應該以“詞3.檢索結(jié)果控制檢索結(jié)果的后處理,也是檢索的一個過程,對檢索結(jié)果的控制在網(wǎng)絡(luò)信息檢索環(huán)境中特別必要和重要。

按相關(guān)度計算來排序檢索結(jié)果(百分比、星級顯示)按檢索結(jié)果主題內(nèi)容聚類(聚類技術(shù)能經(jīng)常地幫助用戶調(diào)整對感興趣的檢索結(jié)果的快速定位)三.網(wǎng)絡(luò)檢索系統(tǒng)中的后控制技術(shù)3.檢索結(jié)果控制檢索結(jié)果的后處理,也是檢索的一個過程,對檢索檢索結(jié)果的聯(lián)機聚類技術(shù)Results-clustering通過聚類,將檢索結(jié)果組織成一棵主題導航樹,其好處是你處理的將是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論