數(shù)位文字知識探勘以中文索引典之建構及應用為例教學提綱_第1頁
數(shù)位文字知識探勘以中文索引典之建構及應用為例教學提綱_第2頁
數(shù)位文字知識探勘以中文索引典之建構及應用為例教學提綱_第3頁
數(shù)位文字知識探勘以中文索引典之建構及應用為例教學提綱_第4頁
數(shù)位文字知識探勘以中文索引典之建構及應用為例教學提綱_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)位文字知識探勘

--以中文索引典之建構及應用為例文字知識探勘簡介索引典建構:緣由與目的相關之研究關鍵詞自動擷取關聯(lián)詞自動擷取應用範例成效評估曾元顯samtseng@.tw資訊中心國立臺灣師範大學近年研究主題演進圖200819971998199920002001200220032004200520062007音樂檢索關鍵詞擷取關聯(lián)詞分析自動分類自動摘要自動歸類知識探勘主題檢索自動編目與檢索第二名(瑞士舉辦)JASISTJASISTSIGIRSIGIRSIGIR中國圖書館學會會報(中國時報)IEEEICME、IACISNTCIRWOCMATNTCIRNTCIRNTCIRNTCIRIPMNTCIRSIGIR(79)分類不一致性偵測專利、學術文獻主題趨勢分析JISIRALSIGIRAIRSISSIScientometricsSTI知識探勘知識探勘(knowledgediscovery,KD)擷取隱晦、有用、未被發(fā)掘、有潛在價值的規(guī)則、資訊或知識的一種過程實務上,運用資訊組織與分析等探勘技術,與使用者互動,反覆探索,發(fā)現(xiàn)訊息或規(guī)律,人工解讀結果,轉換規(guī)律訊息成資訊或知識。資料探勘(datamining,DM)處理結構化(structured)資料,即資料間有共同欄位文字探勘(textmining,TM)處理非結構化資料,資料常為自由文字知識探勘步驟與技術步驟:資料蒐集資料清理資料轉換探勘技術運用結果呈現(xiàn)與解讀技術:關聯(lián)分析(association)分類(classification)歸類(clustering)概略化(generation)預測(prediction)序列分析(sequenceanalysis)特徵詞彙擷取索引與檢索摘要(summarization)索引典自動建構:前言檢索失敗的主要因素之一:「字彙不匹配問題」「查詢詞」與「索引詞」不相同的情況例:「筆記型電腦」與「筆記本電腦」,「行政院長」與「閣揆」改進方法:「查詢擴展」、「權威檔」、「索引典」「查詢擴展」(queryexpansion)加入更多與查詢主題相關的詞彙,或更改查詢詞的權重「權威檔」(authorityfile)記錄及解決同義異名詞的工具索引或檢索時,將各種同義異名詞對應起來,視為相同的詞彙處理索引典自動建構:前言「索引典」(thesaurus)除同義詞外,還有紀錄廣義詞、狹義詞、反義詞、、相關詞等列舉主題詞彙,將詞彙間的語意或主題關係標示出來的知識庫查詢時,可互相推薦,以擴展或縮小查詢範圍,或提示相關概念的不同查詢用語例「攜帶型電腦」:「筆記型電腦」、「掌上型電腦」使檢索從「字串比對層次」,提升到「語意比對層次」人工製作索引典,準確度高,但召回率低、成本大、建構速度慢、事先選用的詞彙可能與後續(xù)或其他新進的文件無關一般目的索引典運用在特定領域的文件檢索上,無法提升檢索效能針對每一種文獻領域製作索引典,耗時費力索引典自動建構:前言「共現(xiàn)索引典」(co-occurrencethesaurus)利用詞彙的「共現(xiàn)性」,自動建構「詞彙關聯(lián)」(termassociation)或稱「關聯(lián)詞庫」成本低、建構速度快、召回率高、與館藏文件用詞一致,但準確率低詞彙關係:主題相關,不一定語意相關例:「李登輝」與「康乃爾」、「中華電訊」與「ADSL」關聯(lián)檢索研究成果曾元顯,漸進式關聯(lián)詞庫之建構方法,中華民國發(fā)明專利,專利號:I290684.有效期:2007/12/01-2023/05/08透過國科會小產(chǎn)學計畫,技術移轉國內(nèi)廠商產(chǎn)業(yè)應用:誠品書店(/)政府研究資訊系統(tǒng)GRB智慧搜尋系統(tǒng)(38萬筆)研究方法文獻探討、技術瞭解、優(yōu)缺點分析、適用範圍分析歸納重點提出改進方法實驗測試成效比較不同研究之間的比較同一研究內(nèi),對照組之比較提出適用情況與應用方向持續(xù)評估與改進相關研究:Salton’89Salton曾提出建構共現(xiàn)索引典的架構:算出各個詞彙間的相似度「相似度」:詞彙在各文件之間,共同出現(xiàn)的情形(或主題相似度)重要的索引詞彙,任兩詞彙皆拿來比對相似度計算量至少M2,M:所有重要詞彙的個數(shù)依此相似度將詞彙歸類成「索引典類別」(thesaurusclasses)(或「主題類別」)Tj=(d1j,d2j,…,dnj),n:所有文件的個數(shù)

相關研究:Salton’89歸類方式,主要有:Complete-link:一開始,每個詞?。ㄔ兀?,都單獨視為一類兩個類別之間的相似度,若超過某個門檻值,就結合並歸成同一類,如此重複歸類兩個類別之間的相似度,定義為跨類別元素之間相似度最低者易產(chǎn)生多數(shù)個索引典類別(thesaurusclass),但每類僅有少數(shù)個詞彙Single-link:同上述作法,但兩個類別之間的相似度,定義為跨類別元素之間相似度最高者易產(chǎn)生少數(shù)個類別,但每類都有大量的詞彙透過共現(xiàn)索引典的查詢擴展,檢索成效的召回率,通常可提升10%至20%小結:歸類運算量太大,運用在大量文件上,耗時長久相關研究:Chen’96相關研究:Chen(JASIS’95)定義非對稱的詞彙相似度詞彙Tj

在文件i中的權重: 詞彙Tj

及Tk

在文件i中的權重:Cluster_weight(Tj,Tk)Cluster_weight(Tk,Tj)若Tj

=「ArtificialIntelligence」,wj=2相關研究:Chen(JASIS’95)從4714文件中(共8MB),產(chǎn)生了1,708,551個詞對(co-occurrencepairs)由於關聯(lián)詞對太多,每個詞,限制其關聯(lián)詞數(shù)最多100個,如此刪除了60%的詞對,剩下709,659個詞對(由7829個不同的詞組成)產(chǎn)生上述的詞對,在SunSparc工作站上要花9.2CPU小時、磁碟空間12.3MB成效評估:6個受試者,16個預選的詞,請每個受試者先就每個詞,聯(lián)想出相關的詞??;再從系統(tǒng)提示的關聯(lián)詞,判斷哪些是相關或不相關兩種結果比較,召回率分別為28.60%與61.89%;精確率為77.08%及24.17%小結:人工聯(lián)想精確率高、召回率低;機器產(chǎn)生關聯(lián)詞較多、準確度較低相關研究:SandersonandCroft(SIGIR’99)概念階層的範例:[fromSandersonandCrofts’paper]相關研究:SandersonandCroft(SIGIR’99)目的:從檢出的文件中自動產(chǎn)生概念階層(concepthierarchies),便利使用者瞭解檢出文件的大致內(nèi)容第一步:詞彙選擇(決定哪些詞彙要列在概念階層中):來源1:檢索結果的前幾篇中比對程度較佳的段落裡,找出常常一起出現(xiàn)的詞彙來源2:每一篇檢出文件的最相關段落裡,取符合下列條件的詞?。?df_in_retrieved_set/df_in_collection)>=0.1者平均從TREC的每個查詢結果的前500篇文件中,擷取出2430個詞第二步:詞彙關聯(lián)分析:任意兩個詞都拿來做包含關係(subsumptionrelationship)比較:P(Tj|Tk)=1andP(Tk|Tj)<1,ifTj(較廣義的詞)包含

Tk(較特定的詞)由於上述條件太嚴苛,放寬成:

P(Tj|Tk)>=0.8andP(Tk|Tj)<1,ifTj

包含Tk平均每個查詢擷取出200包含對(subsumptionpairs)由這些包含對產(chǎn)生概念階層,即包含者為父節(jié)點,被包含者為其子節(jié)點相關研究:SandersonandCroft(SIGIR’99)成效評估:測試包含者與被包含者的關聯(lián)程度(relatedness)由8個受試者判斷,67%包含對被判斷為相關(interestingforfurtherexploring)比較:51%詞彙對(隨意配對,而非用包含關係配對者)被判斷為相關小結:此方法在查詢時才進行,查詢反應時間會受影響提示的詞彙只限於檢索結果的前N篇,不是一個全域索引典(globalthesaurus)隨機配對,關聯(lián)度高,顯示詞彙選擇的重要性關聯(lián)詞分析先前的作法「共現(xiàn)性的單位」為「文件」兩個詞彙在文件中距離越大,關係密切的可能性越低需要分析的詞對個數(shù)多,許多詞對的關聯(lián)分析徒勞無功計算量:M2n,M:所有詞彙個數(shù),n:所有文件個數(shù)例:n=10,000,M=10,000(M=1000),計算量:1012(1010)新的作法「共現(xiàn)性的單位」縮小到「段落」或「句子」需要分析的詞對個數(shù)少計算量:K2Sn,K:文件關鍵詞數(shù),S:文件句子數(shù),n:同上例:n=10,000,K=30,S=20,計算量:6x106關聯(lián)詞分析:新的方法:[Tseng2002]主要分二個步驟:擷取個別文件的關鍵詞關鍵詞的關聯(lián)分析與累積關鍵詞擷取關鍵詞:文件內(nèi)有意義且具代表性的詞彙關鍵詞:呈現(xiàn)文件主題意義的最小單位各種文獻自動化處理的必要步驟。關鍵詞的認定是主觀的判斷,不利於電腦的自動處理「重複性」假設:如果文件探討某個主題,那麼應該會提到某些特定的字串好幾次具有客觀性、可自動處理假設簡單,可適用於不同領域關聯(lián)詞分析:新的方法:[Tseng2002]第一步:詞彙選擇:每篇文件先用詞庫(長詞優(yōu)先法)斷詞再由關鍵詞擷取演算法擷取關鍵詞(至少出現(xiàn)2次者)(包含新詞)以停用詞過濾擷取出的關鍵詞,並依詞頻(termfrequency)高低排序選詞頻最高的N個詞作關聯(lián)分析第二步:詞彙關聯(lián)分析:每篇文件選出來的詞,以

下面公式計算兩個詞彙的權重wgt: whereNSidenotesnumberofallsentenceindocumentiandNS(Tij)denotesindocumentithenumberofsentencesinwhichtermTjoccurs.

關聯(lián)詞的權重超過門檻值(1.0)者,才依下面公式累積其權重關聯(lián)詞的最後相似度定義為:原方法:僅單純累加每對關聯(lián)詞的權重新方法:加入IDF(inversedocumentfrequency)及詞彙長度關鍵詞自動擷取方法比較:詞庫比對法:詞庫需持續(xù)維護更新統(tǒng)計分析法:容易遺漏統(tǒng)計特徵不足者文法剖析法:需詞庫、詞性標記等資源與運算適合作為關鍵詞的名詞片語少於50%[Arppe1995]關鍵詞自動擷取方法[Tseng97,98,99,2001]找出最大重複出現(xiàn)字串(maximallyrepeatedpattern)的演算法token:一個中文字(character)或英文字(word)n-token:輸入文字中,任意連續(xù)的ntokens(與n-gram類似)演算法三步驟:步驟一

:轉換輸入文字成2-token串列步驟二

:依合併規(guī)則重複合併n-tokens成(n+1)-tokens,直到無法合併步驟三

:依過濾規(guī)則,過濾不合法的詞彙依過濾規(guī)則,過濾不合法的詞彙詞頻關鍵詞自動擷取過程範例輸入文字:“BACDBCDABACD”,假設門檻值=1步驟一:產(chǎn)生

L=(BA:2AC:2CD:3DB:1BC:1CD:3DA:1AB:1BA:2AC:2CD:3)步驟二:token合併: 第一次:合併L成L1=(BAC:2ACD:2BAC:2ACD:2)

丟掉:(BA:2AC:2CD:3DB:1BC:1DA:1AB:1BA:2AC:2CD:3)

留住:(CD:3)

第二次:合併L1成L2=(BACD:2BACD:2)

丟掉:(BAC:2ACD:2BAC:2ACD:2)

留住:(CD:3)

第三次:合併L2成L3=()

丟掉:()

留住:(CD:3BACD:2)步驟三:無須過濾關鍵詞自動擷取範例[Tseng2000]:英文範例WebDocumentClustering:AFeasibilityDemonstrationUsersofWebsearchenginesareoftenforcedtosiftthroughthelongorderedlistofdocumentreturnedbytheengines.TheIRcommunityhasexploreddocumentclusteringasanalternativemethodoforganizingretrievalresults,butclusteringhasyettobedeployedonthemajorsearchengines.ThepaperarticulatestheuniquerequirementsofWebdocumentclusteringandreportsonthefirstevaluationofclusteringmethodsinthisdomain.AkeyrequirementisthatthemethodscreatetheirclustersbasedontheshortsnippetsreturnedbyWebsearchengines.Surprisingly,wefindthatclustersbasedonsnippetsarealmostasgoodasclusterscreatedusingthefulltextofWebdocuments.TosatisfythestringentrequirementsoftheWebdomain,weintroduceanincremental,lineartime(inthedocumentcollectionsize)algorithmcalledSuffixTreeClustering(STC),whichcreatesclustersbasedonphrasessharedbetweendocuments.WeshowthatSTCisfasterthanstandardclusteringmethodsinthisdomain,andarguethatWebdocumentclusteringviaSTCisbothfeasibleandpotentiallybeneficial.?Termsextractedbeforefiltering1.

clustersbasedon:32.documentclustering:33.ofWeb:34.

onthe:35.searchengines:36.STCis:27.Webdocumentclustering:28.Websearchengines:29.clusteringmethodsinthisdomain:210.requirementsof:211.

returnedby:2Termsextractedafterfiltering1.clustersbased:32.documentclustering:33.Web:34.5.searchengines:36.STC:27.Webdocumentclustering:28.Websearchengines:29.clusteringmethodsinthisdomain:210.requirements:211.returned:2關鍵詞自動擷取範例[Tseng2000]:中文範例ComparisonofThreeMetadataRelatedStandards 在本文中,我們介紹了三個跟metadata相關的標準,它們分別是FGDC的DigitalGeospatialMetadata、DublinCore、和URC。雖然它們各有自己的設計目標和特質,但都是假設其操作環(huán)境為類似網(wǎng)際網(wǎng)路的環(huán)境。FGDC的DigitalGeospatialMetadata是設計來專門處理地理性資料,由於它有聯(lián)邦行政命令的支持,可說是已成為美國在地理方面的資料著錄國家標準。DublinCore則比較像是USMARC的網(wǎng)路節(jié)縮版,使非專業(yè)人士也能在短時間內(nèi)熟悉和使用此格式來著錄收藏資料,但在現(xiàn)階段祇針對類似傳統(tǒng)印刷品的電子文件。由IETE的URI工作小組所負責的URC,其原始的設計目的雖是用來連結URL和URN,但為因應電子圖書館時代的要求,其內(nèi)含逐漸擴大,雖然尚在發(fā)展中,但由於有IETE的支持,未來成為網(wǎng)際網(wǎng)路上通用標準的可能性極大。在此文中,我們也從幾個不同角度,分析和比較這三個metadata格式的異同和優(yōu)缺點。Termsbeforefiltering1.設計:32.資料:33.網(wǎng)路:34.標準:35.DublinCore:26.FGDC的DigitalGeospatialMetadata:27.IETE的:28.三個:29.文中:210.比較:211.它們:212.由於:213.地理:214.成為:215.我們:216.的支持:217.的設計目:218.格式:219.著錄:220.電子:221.網(wǎng)際網(wǎng)路:222.環(huán)境:223.雖然:224.類似:2Termsafterfiltering1.設計:3(design)2.資料:3(data)3.網(wǎng)路:3(network)4.標準:3(standard)5.DublinCore:26.FGDC的DigitalGeospatialMetadata:27.IETE:28.三個:2(three)9.文中:2(inthearticle)10.比較:2(comparison)11.它們:2(they)12.由於:2(owingto)13.地理:2(geography)14.成為:2(become)15.我們:2(we)16.支持:2(support)17.設計目:2(incorrectterm)18.格式:2(format)19.著錄:2(record)20.電子:2(electronics)21.網(wǎng)際網(wǎng)路:2(Internet)22.環(huán)境:2(environment)23.雖然:2(although)24.類似:2(similar)KeywordExtractionforChinese “松軟型”和“卷腿型”﹑您選擇哪一種?!今秋東京流行靴子新款式!

春夏秋冬﹐不論是那個季節(jié)﹐只要一換季就會有新的款式出現(xiàn)。今秋靴子新款式將引人注目。秋冬流行款式當然要數(shù)各式各樣的靴子!今秋東京街頭商店的展窗紛紛擺出出前所未有的獨俱特色的新款式﹐吸引者趕超時尚的男男女女。今十幾年來所流行的靴子﹐為了充分顯示腳線美多設計得樣式簡潔色調平穩(wěn)。然而自2002年春夏開始各種大膽型的設計款式紛紛亮相﹐穿在腳上的靴子開始受到關注。其中最受青睞款式有“松軟型”和許多文藝界偶像穿用的“卷腿型”靴子。無論哪一種都用花編和絨毛做裝飾﹐充分再現(xiàn)了女孩子愛美之心﹐也同樣會把行人的目光吸引到穿著漂亮皮靴的腳上。今秋﹐東京街頭將會出現(xiàn)一個“靴子”時裝展。靴子新款式:2今秋東京:2東京街頭:2新款式:3卷腿型:2松軟型:2哪一種:2款式:7靴子:7今秋:4流行:3充分:2出現(xiàn):2吸引:2春夏:2秋冬:2紛紛:2設計:2開始:2腳上:2關鍵詞自動擷取範例[Tseng2000]:直接運用於日文Key-phraseExtraction:ExampleTheterm“committee”invariouserroneousforms(fromOCR)wasextracted,showingthatthealgorithmreallycanextractlexicaltermswithoutknowingtheirsemantics(whichisbothanadvantageandadisadvantage)關鍵詞擷取成效評估評估資料:100篇臺灣新聞(抓自2000年6月3日中國時報網(wǎng)站)結果:平均每篇文件有33個關鍵詞平均每篇文件有11(33%)個關鍵詞不在詞庫中(含123,226個詞)相異的關鍵詞總共2197個其中有954個詞(954/2197=43%)不在詞庫中954個詞中有79個是錯誤不合法的詞(人工檢視結果),錯誤率8.3%整體錯誤率則為3.6%(=79/2197)單篇文件關鍵詞、關聯(lián)詞擷取範例BMGEntertainment與SonyMusic計畫在Internet上銷售數(shù)位音樂。(美國矽谷/陳美滿)根據(jù)SanJoseMercuryNews報導指出,BMGEntertainment計畫在6月上旬或中旬開始在Internet上銷售數(shù)位音樂。消費者將可直接將音樂下載至PC,而無需購買CD或錄音帶。該公司為執(zhí)行上述計畫已與多家高科技廠商合作,包括IBM、LiquidAudio與Microsoft。BMG隸屬於Bertelsmann公司。另外,SonyMusic也將於下週一宣佈該公司計畫於本月底開始提供數(shù)位音樂下載。消費者將可在手提裝置上聆聽下載來的數(shù)位音樂。此項數(shù)位音樂下載將是市場上首項具有防止盜錄功能的產(chǎn)品。網(wǎng)路音樂市場在過去幾年已顯現(xiàn)市場潛力,主要拜MP3規(guī)格之賜。

1:音樂(7)2:數(shù)位音樂

(5)3:下載(4)4:計畫(4)5:BMG(3)6:Music(2)7:SonyMusic(2)8:Entertainment(2)9:BMGEntertainment(2)

關聯(lián)詞分析:新的方法:[Tseng2002]第一步:詞彙選擇:每篇文件先用詞庫(長詞優(yōu)先法)斷詞再由關鍵詞擷取演算法擷取關鍵詞(至少出現(xiàn)2次者)(包含新詞)以停用詞過濾擷取出的關鍵詞,並依詞頻(termfrequency)高低排序選詞頻最高的N個詞作關聯(lián)分析第二步:詞彙關聯(lián)分析:每篇文件選出來的詞,以

下面公式計算兩個詞彙的權重wgt: whereNSidenotesnumberofallsentenceindocumentiandNS(Tij)denotesindocumentithenumberofsentencesinwhichtermTjoccurs.

關聯(lián)詞的權重超過門檻值(1.0)者,才依下面公式累積其權重關聯(lián)詞的最後相似度定義為:原方法:僅單純累加每對關聯(lián)詞的權重新方法:加入IDF(inversedocumentfrequency)及詞彙長度關聯(lián)詞擷取效率比較Chen’95’96的方法:

4714文件,8MB,費時9.2小時取出1,708,551個關聯(lián)詞對限制每個詞的關聯(lián)詞數(shù)最多100個,共刪除了60%的詞對2GB文件,費時24.5CPU小時,產(chǎn)生4,000,000個關聯(lián)詞對Tseng的方法:336,067新聞文件,323MB費時約5.5小時,擷取出11,490,822個關鍵詞全部關聯(lián)詞數(shù):248,613,平均每個詞有9個關聯(lián)詞2004:NTCIR38萬篇中文新聞文件,51分鐘斷詞、索引詞擷取、關鍵詞擷取、關聯(lián)詞分析、反向索引檔建立關聯(lián)詞應用範例(1/3)關聯(lián)詞應用範例(2/3)關聯(lián)詞應用範例(3/3)關聯(lián)詞排序關聯(lián)詞可按三種方式排序強度:即關聯(lián)詞共現(xiàn)性的強度詞頻:按關聯(lián)詞出現(xiàn)的文件篇數(shù)(df)排序,df越高者,排在越前面時間:按關聯(lián)詞出現(xiàn)在最近文件的次序排序目的:讓最近才出現(xiàn)的關聯(lián)詞不必累積到足夠大的強度,即可排序在前面如:「李登輝」的關聯(lián)詞中,出現(xiàn)「康乃爾」,因為李登輝最近又重訪康乃爾對具有時間事件的文件集可能很重要關聯(lián)詞提示的順序不同,使用者感覺的關聯(lián)度不同關聯(lián)詞排序查詢詞「古蹟」的關聯(lián)詞,依「詞頻」,「時間」,「強度」排序關聯(lián)詞成效評估目的瞭解查詢詞與其提示的關聯(lián)詞之間的關聯(lián)(relatedness)情況以兩種方式評估:直接計數(shù)前N(50)個被受試者判定為有關聯(lián)的關聯(lián)詞數(shù)優(yōu)點:簡單,可回溯比較缺點:不能細微區(qū)分排序的差異以精確率與召回率評估哪一種排序方式較好計算平均精確率的程式為TREC及NTCIR用的trec_eval

程式評估方式:邀請5位研究所同學,就30個查詢詞(每人6個),從系統(tǒng)提示出來的前50個關聯(lián)詞中,判斷是否跟查詢詞相關trec_eval的部分輸出Queryid(Num):4(即查詢詞:「古蹟」)Totalnumberofdocuments(terms)(for「古蹟」)Retrieved:50Relevant:43Rel_ret:35(即找到且被判斷為相關者)InterpolatedRecall-PrecisionAverages:at0.001.0000at0.101.0000at0.201.0000at0.300.9412at0.400.9130at0.500.8800at0.600.8438at0.700.7949at0.800.7447at0.900.0000at1.000.0000Averageprecision(non-interpolated)forallrel.terms0.7315(單一查詢的平均精確率)Precision:At5terms:1.0000At10terms:1.0000At15terms:0.9333At20terms:0.9000At30terms:0.8333

R-Precision(precisionafterR(=num_relforaquery)docsretrieved):Exact:0.7442關聯(lián)詞成效評估從25233篇新聞文件中擷取關聯(lián)詞結果:排序 詞頻 時間 強度關聯(lián)比例 48% 59% 69%平均精確率 0.302 0.403 0.528「詞頻」最差,因為高頻詞,代表的主題較範圍較大,以致於跟任何查詢詞的關係都不大結論:依「強度」排序的效果最好比較:(Sanderson&CroftSIGIR99)關聯(lián)比例:67%結語共現(xiàn)索引典(關聯(lián)詞庫)的優(yōu)點快速呈現(xiàn)館藏文獻內(nèi)容,具備主題摘要效果提供館藏內(nèi)容的有效瀏覽即時反應館藏文件索引、查詢用詞,降低「字彙不匹配」問題提供非專業(yè)使用者專業(yè)的導引共現(xiàn)索引典(關聯(lián)詞庫)的缺點館藏文獻沒記載、或統(tǒng)計不足的關聯(lián)詞無法擷取如:「紅樓夢」與「石頭記」關聯(lián)屬性沒有標示計劃成果相關論文Yuen-HsienTseng,"AutomaticThesaurusGenerationforChineseDocuments",JournaloftheAmericanSocietyforInformationScienceandTechnology,Vol.53,No.13,Nov.2002,pp.1130-1138.Yuen-HsienTseng,"FastCo-occurrenceThesaurusConstructionforChineseNews,"Proceedingsofthe2001IEEESystems,Man,andCyberneticsConference,Tucson,Arizona,USA,October7-10,2001,pp.853-858.相關專利曾元顯,數(shù)位文件關鍵特徵之自動擷取方法,中華民國發(fā)明專利第153789曾元顯,漸進式關聯(lián)詞庫之建構方法,中華民國發(fā)明專利,專利號:I290684.後續(xù)論文Yuen-HsienTseng,Da-WeiJuangand,Shiu-HanChen"GlobalandLocalTermExpansionforTextRetrieval,"ProceedingsoftheFourthNTCIRWorkshoponEvaluationofInformationRetrieval,AutomaticTextSummarizationandQuestionAnswering,June2-4,2004,Tokyo,Japan.中文互動式檢索輔助功能之效益評估-以關聯(lián)提示詞為例,2004年後續(xù)應用促進國內(nèi)檢索技術提昇中文互動式檢索輔助功能之效益評估

以關聯(lián)提示詞為例--葉佳昀2004年以相同文件、相同查詢詞、不同受試者重複實驗小文件集25233篇中文件集15,4720篇小文件集的相關比例為69.87%中文件集的相關比例為78.33%文件越多,效果越好30個查詢詞中東地震亞洲國家通航債券環(huán)保署中油有線電視邱義仁博物館奧運職棒主計處朱鎔基國安基金晶圓代工會計師醫(yī)生古蹟李安國科會鄉(xiāng)鎮(zhèn)調查局顔慶張生物科技那斯達克被害人雅虎選民黨員NTCIR中文主題檢索成效012::導演,黑澤明012::查詢?nèi)毡緦а莺跐擅鞯纳酱笫翿unIDRigidRelaxMAP%impMAP%impC-C-T+AT0.2119-0.3217-C-C-T+MT0.409493.200.544269.16C-C-T+BRF0.288135.960.391221.60C-C-T+MT+BRF0.4795126.290.596285.33C-C-T+AT(p)0.247216.660.389220.98C-C-T+MT(p)0.417496.980.591883.96C-C-T+BRF(p)0.360269.990.557673.33C-C-T+MT+BRF(p)0.6707216.520.6779110.72MaxofC-C-T0.71450.7492AvgofC-C-T0.50830.5954MinofC-C-T0.21190.3217國內(nèi)系統(tǒng)類似功能在教育資料方面的應用檢索試驗平臺

08:8080/

ksp/search.jspEdShare知識關聯(lián)檢索

.tw/erportal/display.jsp?

definition_page=relativeSearchPageTermAssociationGoalTominetopicrelationsfrommassivetextsProblemtobesolvedMassivetermsindigitalcoll

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論