自然語言-自動標引_第1頁
自然語言-自動標引_第2頁
自然語言-自動標引_第3頁
自然語言-自動標引_第4頁
自然語言-自動標引_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章

自然語言在情報檢索中的應用按構成原理分:體系分類法分類檢索語言

組配分類法檢索語言

體系-組配分類法標題法主題檢索語言單元詞法敘詞法關鍵詞法

自然語言-自動標引自然語言:優(yōu)點;發(fā)展趨勢關鍵詞法:基本原理;性能自動標引:定義;意義;基本原理;基本流程自然語言張琪玉教授指出:情報檢索語言是根據(jù)情報檢索的需要而創(chuàng)制的人工語言自然語言是反映文獻題名、文摘和全文內容的原詞,檢索方法是對文獻本身的用詞直接進行處理。自然語言20世紀90年代,美國把自然語言處理技術應用到情報檢索領域中,真正實現(xiàn)了非布爾邏輯中的自然語言檢索系統(tǒng)。NLM的自動標引項目——標引創(chuàng)始項目(IndexingInitiative,II)自然語言對數(shù)量巨大而復雜的網上動態(tài)信息,用人工檢索語言進行信息處理顯然是困難的,只能依賴于自然語言并借助計算機進行文獻信息處理。自然語言的優(yōu)點符合客觀需要,新詞、學科發(fā)展、加速機檢數(shù)據(jù)庫的建設相對于受控制語言,有易用性標引簡便,易于自動化專指,較好的檢準率一致性好自然語言發(fā)展趨勢美國俄亥俄州大學圖書館館長,美籍華人李華偉博士曾預言:“未來的情報檢索語言是以自然語言為主的發(fā)展方向?!标P鍵詞法自然語言形式的情報檢索語言

隨計算機出現(xiàn),為適應索引編制自動化的需要產生關鍵詞:出現(xiàn)在文獻的標題(篇名、章節(jié)名)以至摘要、正文中,對表征文獻主題內容具有實質意義的語詞。關鍵詞的詞匯控制一般來說,關鍵詞不予規(guī)范。事實上,也須作某種程度(極少量)的規(guī)范化,才能適應計算機處理的要求和消除那些顯然的、比較容易消除的缺點。(一)詞和符號的改寫(β改寫成beta)。如果計算機符比較完備,可以不作。(二)詞的縮寫。在關鍵詞系統(tǒng)中都盡量利用縮寫詞(三)詞的分拆和組合。需要提供更多的檢索入口時,就將其從拆成兩個關鍵詞(四)不同拼寫形式的詞和同義詞的統(tǒng)一。個別關鍵詞系統(tǒng)關鍵詞法的優(yōu)點直接源于自然詞匯,專指性優(yōu)于其它主題語言標引無需查表,簡便易行,節(jié)省人力及時更新詞匯,報道信息快一致性高可實現(xiàn)自動標引關鍵詞法缺點對自然語言的等同關系不規(guī)范統(tǒng)一,不能顯示等同關系,漏檢可能性大不顯示詞間等級關系和相關關系,增加檢全文獻的難度機械抽詞和輪排,有些關鍵詞款目徒增篇幅關鍵詞法查全率較低,但查準率較高關鍵詞法關鍵詞法用于計算機檢索系統(tǒng)時,可用后控制詞表提高查全率后控制詞表:只供檢索的詞表,是一種同義詞、近義詞和相關詞的詞匯表。作用:使檢索者可從任何一個詞出發(fā),在詞表中查到它的一批同義詞、近義詞和相關詞。由計算機自動積累而成BiologicalAbstracts美國《生物學文摘》(BiologicalAbstracts,簡稱BA)創(chuàng)刊于1926年,是世界上生命科學方面最大的檢索工具。由美國生物科學情報服務社(BioScienceInformationService,簡稱BIOSIS)編輯出版。BA收錄了世界110多個國家和地區(qū)出版的9000多種期刊和連續(xù)出版物,以及約一萬多種圖書和其他類型文獻。BA的數(shù)據(jù)庫為BIOSISPREVIEW主題索引(SubjectIndex)注釋:①上文;②關鍵詞;③下文;④文摘號SubjectContext

Keyword

Ref.No.Pylorihumangastrin①gastric②acidpathogenesis/amecha③3011④Gastricbodymucosacidsecretionelectronmi3084Ousmetastasesfromadenocarcinomacasestud8667………………

美國《化學文摘》1907年創(chuàng)刊,由美國化學會所屬化學文摘服務社(CAS)編輯出版,現(xiàn)為世界上收錄化學化工及其相關學科文獻最全面,應用最廣泛的一種文獻檢索工具。美國《化學文摘》

(ChemicalAbstracts,CA)關鍵詞索引

(KeywordIndex,KI)

該索引由專家從文獻的篇名、原文或文摘中選取能反映文獻主要內容而未經規(guī)范化處理的3~5個詞或詞組,按關鍵詞的字順進行輪排而成。其著錄格式如下:Adenocarcinoma①atitumortamoxifenetretinateascorbicancid②690z③

assocdantigencloninggene7791sAntigen

adenocarcinomaassocdcloninggene7791smonoclonalantibodyglycosylation7929sCloningbaculovirusnitricoxidesynthasespodoptera2432r

geneadenocarcinomaassocdantitgen

7791s注釋:①標目關鍵詞;②說明語;③文摘號自動標引的定義自動標引(AutomaticIndexing);計算機輔助標引(ComputerAidedIndexing):根據(jù)文獻內容,依靠計算機系統(tǒng)全部或部分地自動給出標引符號的過程。自動標引的定義自動標引自動主題標引

自動分類標引自動主題標引關鍵在于:詞語抽取對所識別出的主題詞進行優(yōu)選當前,各標引系統(tǒng)都在不同程度地使用計算機系統(tǒng)進行輔助標引。自動標引的意義1.適應信息資源快速增長的需要

加利福尼亞大學伯克利分校研究人員發(fā)現(xiàn),僅1999-2002年的三年中,全球新生產出的信息量就翻了一番。新產生的信息中92%記錄在硬盤等磁存儲介質上。

信息資源的快速增長,造成信息相對過剩。只有提高信息組織的效率,才能擺脫信息相對過剩帶來的困惑,因此信息標引顯得非常重要。自動標引適應了這一需要。自動標引的意義2.相對手工標引存在很大優(yōu)勢,克服了手工標引難以克服的缺點。與熟練標引人員相比,自動標引的準確性不如手工標引,但在其他指標方面自動標引有無可比擬的優(yōu)勢:處理能力強處理速度快成本低一致性好,穩(wěn)定性好自動標引的意義美國的Cleverton的試驗結果:兩組人員為同一主題編出的敘詞表中詞的同一率僅60%;兩位有經驗的標引員用同一敘詞表對同一篇文獻進行標引,其標引詞的同一率僅有30%左右;兩個在同一數(shù)據(jù)庫中用同一檢索系統(tǒng)檢索同一問題的用戶,檢索出的結果同一率僅40%;兩位科研人員根據(jù)同一提問判斷一組指定文獻的相關性,其同一率不會超過60%。采用計算機自動標引,無論何時對同一篇文獻總能標引出相同的主題詞。自動標引的意義美國學者Salton對受控人工標引系統(tǒng)MEDLARS和自動標引系統(tǒng)SMART做了一些比較,結論是:相對簡單的自動文本分析系統(tǒng)在文獻檢索環(huán)境中產生的檢索結果,其質量不亞于受控標引通常所能達到的水平。自動標引的基本原理較典型的漢語自動標引方法:詞典標引法切分標引法語法分析標引法漢語自動標引專家系統(tǒng)單漢字標引法自動標引的基本原理根據(jù)自動標引采用的理論劃分,自動標引的方法主要有3種:統(tǒng)計法語言法人工智能法自動標引的基本原理統(tǒng)計法(StatisticalApproach):自動標引各方法中歷史最長的一種,目前較為成熟。理論基礎是齊夫(Zipf)的省力法則。典型代表:詞頻加權方法,根據(jù)詞的出現(xiàn)頻率及出現(xiàn)位置等因素確定標引詞。自動標引的基本原理語言法(LinguisticApproach):通過對構成文獻的自然語言的分析,利用一定算法產生標引詞,是從語言學角度對自動標引方法的探索。包括兩種方法:句法分析、語義分析

自動標引的基本原理人工智能法(ArtificialIntelligenceApproach,AIApproach):自動標引領域的熱點問題,人工神經網絡、遺傳算法等方法的發(fā)展給自動標引增添了不少動力。不少學者認為,人工智能法代表著自動標引研究的未來。自動標引的基本流程確定標引源輸入標引源內容預處理詞語自動切分確定關鍵詞轉換為受控詞給出主題標識符1.確定標引源標引源:標引所依據(jù)的文獻內容一般的標引源:標題:首選標引源文摘:一般能夠完全反應文獻討論的主題,但難以確定5-6個最重要的詞。首尾章節(jié)章節(jié)的首尾段段落的首尾句2.輸入標引源內容必須按標引系統(tǒng)要求的格式輸入系統(tǒng),才可能進行自動標引。印刷型文獻:手工錄入或OCR(光學字符識別)輸入電子文檔(XML、DOC、TXT等格式):直接導入3.文檔的預處理字符內碼的檢測與轉換:BIG5碼與GB碼的自動檢測與轉換。文檔格式的檢測與轉換:將不同格式文件轉換成適于自動標引的純文本格式。4.詞語自動切分在確定關鍵詞之前,必須對文檔進行切分,將語句切分成詞。西方文字有分隔符,切分容易實現(xiàn)。漢語詞的準確切分較困難(研究相當長時間),目前自動切分已基本能滿足實際需要。5.確定關鍵詞根據(jù)文本詞語切分結果,以詞語在文本中出現(xiàn)的頻次、位置及詞的詞性等因素為依據(jù),確定關鍵詞。確定關鍵詞主要方法:絕對詞頻統(tǒng)計法:理論基礎是齊夫定律。詞頻權重法:除考慮詞頻外,還考慮詞的位置、詞的詞性、詞本身的價值、詞的長度等因素,對詞進行加權,然后根據(jù)權值大小確定關鍵詞。6.轉換為受控詞關鍵詞與受控詞(主題詞、副主題詞、特征詞)之間存在著一定的關系(如同義詞關系、上位關系、下位關系等)。轉換為受控詞目前有效可行的方法:使用關鍵詞-受控詞對照表:該表含有關鍵詞與規(guī)范化的主題詞、副主題詞、特征詞之間的對照關系,由此對應轉換。利用詞匯相似度:關鍵詞與主題詞之間存在一定程度的相似性,可通過某些算法計算出來,根據(jù)相似性確定相應的主題詞。兩種算法:基于詞素的相似度算法;給予單漢字的字面相似度算法。7.給出主題標識符根據(jù)確定的主題詞、副主題詞、特征詞,進行組配,給出主題標引符號,完成自動標引。自動分詞歧義切分:交集型

并行程序設計語言:并行程序設計程序設計語言

組合型中華人民共和國海外華人

人民法院參照民法第**條自動分詞詞語自動切分:以語言學知識為基礎,通過一定算法、將組成句子的詞從句子中切分出來,得到詞語集合的過程。可廣泛應用于自動標引、智能檢索、自動翻譯、自動文摘、數(shù)據(jù)挖掘、信息過濾等領域。詞語自動切分的方法根據(jù)其使用的原理和算法,將詞語自動切分的方法歸納為三類:詞典法統(tǒng)計法混合法詞典法(LexicalMethod)又稱機械分詞方法,是按照一定的策略將待分析的漢字串與切分詞典系統(tǒng)中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。詞典法(LexicalMethod)分詞詞典:停用詞表:文獻中詞頻很高或很低的詞或字特例詞表:如停用詞“的”、“也”可組成“

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論