版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、用分類(lèi)主題理論調(diào)整檢索功能要求孫衛(wèi)中國(guó)科學(xué)技術(shù)信息研究所 100083摘要:本文回顧了在數(shù)字圖書(shū)館發(fā)展中,計(jì)算機(jī)技術(shù)與圖書(shū)情報(bào)理論的相關(guān)事實(shí)和問(wèn)題,并提出了利用分類(lèi)主題理論調(diào)整檢索功能要求,在一個(gè)現(xiàn)實(shí)環(huán)境下,促進(jìn)圖書(shū)情報(bào)理論與計(jì)算機(jī)技術(shù)的結(jié)合能夠逐步改善數(shù)字圖書(shū)館關(guān)鍵技術(shù)的質(zhì)量。關(guān)鍵詞:分類(lèi)主題、分類(lèi)主題理論、檢索功能、分類(lèi)法、主題詞、數(shù)字圖書(shū)館從1994年,美國(guó)自然科學(xué)基金進(jìn)行數(shù)字圖書(shū)館第一期研究計(jì)劃以來(lái),已經(jīng)過(guò)去了13年了。在過(guò)去的13年里面,計(jì)算機(jī)技術(shù)大量的進(jìn)入了圖書(shū)館與情報(bào)行業(yè),在資源數(shù)字化,信息網(wǎng)絡(luò)化服務(wù)兩個(gè)方面取得了重大的發(fā)展。但是,數(shù)字圖書(shū)館的發(fā)展并非像當(dāng)年研究計(jì)劃所期望的那樣。
2、互聯(lián)網(wǎng)的使用超過(guò)了當(dāng)時(shí)的預(yù)期,盡管技術(shù)已經(jīng)進(jìn)行了很多更新,還是沒(méi)有從根本上解決互聯(lián)網(wǎng)的使用效率問(wèn)題;另外期望借助圖書(shū)情報(bào)的理論,使互聯(lián)網(wǎng)的信息更有序化和避免信息孤島也沒(méi)有真正的實(shí)現(xiàn)。從1996年中國(guó)進(jìn)入數(shù)字圖書(shū)館的探討研究以來(lái),借助圖書(shū)與情報(bào)理論比較多的是元數(shù)據(jù)和分類(lèi),更多的是借助計(jì)算機(jī)的相關(guān)技術(shù)。2004年,我再次受聘到國(guó)家圖書(shū)館的總工程師的時(shí)候,就如何利用圖書(shū)情報(bào)理論與計(jì)算機(jī)技術(shù)相結(jié)合進(jìn)行了廣泛而深入的思考。2007年5月聘用期結(jié)束,進(jìn)入中國(guó)科學(xué)技術(shù)信息研究所和萬(wàn)方數(shù)據(jù)研究院,有機(jī)會(huì)對(duì)這個(gè)問(wèn)題在理論上進(jìn)行了研究。1996年開(kāi)始的數(shù)字圖書(shū)館研究,那個(gè)階段是計(jì)算機(jī)的各種技術(shù)應(yīng)用到圖書(shū)館的階段,
3、沒(méi)有真正將圖書(shū)情報(bào)理論與計(jì)算機(jī)技術(shù)很好的結(jié)合。但是,從現(xiàn)在開(kāi)始,要把圖書(shū)情報(bào)的理論與計(jì)算機(jī)技術(shù)進(jìn)行結(jié)合,才能從根本上改變互聯(lián)網(wǎng)的使用效率的問(wèn)題。圖書(shū)情報(bào)分類(lèi)-主題詞理論圖書(shū)館已經(jīng)有一百多年的歷史,為了比較科學(xué)、系統(tǒng)地進(jìn)行管理,合理的揭示圖書(shū)資料的內(nèi)容,必須按一定的方法,結(jié)合圖書(shū)資料的內(nèi)容和特點(diǎn)來(lái)組織圖書(shū)資料,在不同的國(guó)家的圖書(shū)館分別采用不同的分類(lèi)法來(lái)對(duì)圖書(shū)資料進(jìn)行分類(lèi)管理。對(duì)圖書(shū)資料進(jìn)行分類(lèi)處理,則是普遍采用的科學(xué)組織方法。為了使各圖書(shū)館的分類(lèi)方法能夠互相通用,有關(guān)機(jī)構(gòu)按照科學(xué)分類(lèi)的基本原則,編制了通用的圖書(shū)分類(lèi)表,將某一專(zhuān)業(yè)門(mén)類(lèi)的圖書(shū)與某一特定序號(hào)聯(lián)系起來(lái),這就是圖書(shū)分類(lèi)的基本思想。圖書(shū)分類(lèi)
4、人員依據(jù)某一分類(lèi)表,按照某一圖書(shū)的專(zhuān)業(yè)屬性,結(jié)合實(shí)際,給出圖書(shū)的分類(lèi)號(hào)。這樣保證了同一專(zhuān)業(yè)屬性的圖書(shū)集中在一起,便于讀者有效地利用。這個(gè)分類(lèi)的知識(shí)就是圖書(shū)情報(bào)管理文獻(xiàn)資料的理論之一,主要就是人為的把圖書(shū)資料分成類(lèi),再根據(jù)這個(gè)類(lèi)進(jìn)行庫(kù)架排位,方便使用。在我們國(guó)家已經(jīng)有中圖分類(lèi)法、科圖分類(lèi)法。而在美國(guó)主要是杜威分類(lèi)法、美國(guó)國(guó)會(huì)分類(lèi)法等。我們以中圖分類(lèi)法為例,理論上所有的文獻(xiàn)資料在理論上至少會(huì)被人為的分配到二十二個(gè)大類(lèi)所對(duì)應(yīng)的一個(gè)以上的子類(lèi)中去。用一個(gè)數(shù)學(xué)的表達(dá)式:Bi C ( A , Z )假定:Bi為任何一本書(shū),C ( A , Z )為中圖分類(lèi)法集合那么:Bi 屬于中圖分類(lèi)法集合中。這個(gè)分類(lèi)是由
5、很多專(zhuān)家在統(tǒng)計(jì)的基礎(chǔ)上做出的一種相對(duì)科學(xué)的方法,但是,面對(duì)現(xiàn)實(shí)的時(shí)候,就是事物的發(fā)展變化速度快于專(zhuān)家的知識(shí)能力,那么這個(gè)科學(xué)的方法遇到了什么?1.1 分不準(zhǔn)造成時(shí)間浪費(fèi)我們說(shuō)分類(lèi)法是一種人類(lèi)管理文獻(xiàn)的知識(shí)組織的方法,受到專(zhuān)家的知識(shí)能力和知識(shí)更新速度的限制。Bi C ( A , Z )這個(gè)表達(dá)式本身是正確的,但是,把這個(gè)公式進(jìn)一步拆分以后,可以看到:C ( A , Z ) = CA (Aij)+ CB (Bij)+ CZ(Zij)中圖分類(lèi)法C ( A , Z )是由22個(gè)大類(lèi)及其子集CA (AijCZ(Zij)組成的。那么:Bi CA (Aij)+ CB (Bij)+ CZ(Zij) 所以,Bi
6、屬于其中的一個(gè)分類(lèi),還是可以屬于其中多個(gè)分類(lèi)呢?事實(shí)證明,Bi是可以屬于多個(gè)分類(lèi)的。當(dāng)我們?cè)谝粋€(gè)庫(kù)架上尋找圖書(shū)資料的時(shí)候,是根據(jù)一個(gè)分類(lèi)進(jìn)行查找的,如果不知道Bi存在其他的分類(lèi),那么就很難在書(shū)架上找到所需要的圖書(shū)資料。但是在實(shí)際工作中,由于分類(lèi)者并不真正的了解整個(gè)圖書(shū)資料所描述的事實(shí),或者受自己的專(zhuān)業(yè)知識(shí)的限制,利用這個(gè)分類(lèi)經(jīng)常會(huì)發(fā)生錯(cuò)分類(lèi)或者沒(méi)有辦法給出交叉分類(lèi)的情況,那么對(duì)于錯(cuò)分類(lèi)或者沒(méi)有給交叉分類(lèi)就是一種典型的分不準(zhǔn)。這個(gè)分不準(zhǔn)會(huì)造成什么?假定有22個(gè)大類(lèi),每個(gè)類(lèi)有M冊(cè)圖書(shū),查一本圖書(shū)是1秒;那么對(duì)于不分類(lèi)查找的方法,查找到所需要的圖書(shū)的時(shí)間是在1,22*M 區(qū)間,而對(duì)于分類(lèi)查找的時(shí)間是
7、在 1,M 區(qū)間。我們可以看到的是,當(dāng)分類(lèi)準(zhǔn)確的時(shí)候,最大找到的時(shí)間是不分類(lèi)時(shí)間的1/22。由此可見(jiàn),分的準(zhǔn)與不準(zhǔn)對(duì)于找到這個(gè)圖書(shū)資料的時(shí)間效率是顯而易見(jiàn)。那么,我們把圖書(shū)館的分類(lèi)知識(shí)從排架管理,擴(kuò)展到了查找的效率的提高。1.2分準(zhǔn)的辦法對(duì)于中圖分類(lèi)法的研究早期是靠專(zhuān)家的智慧為主的。理論上通過(guò)主題詞和分類(lèi)法的對(duì)應(yīng),就可對(duì)于圖書(shū)資料中出現(xiàn)的敘詞和主題詞(規(guī)范的敘詞)進(jìn)行統(tǒng)計(jì)計(jì)算,然后學(xué)習(xí)進(jìn)行分類(lèi)。對(duì)于圖書(shū)資料,如果把所有的敘詞找到,再把有一定統(tǒng)計(jì)規(guī)律的規(guī)范的敘詞主題詞標(biāo)引出來(lái),就是一個(gè)二維的矩陣。假設(shè):Bi屬于某個(gè)類(lèi)表示為Bi C (A,Z)那么:CA (Aij),Subject words (
8、 DAij) CZ (Zij),Subject words ( DZij) Bi C (A,Z)上式中,CA(Aij)是A大類(lèi)的某個(gè)細(xì)致分類(lèi),Subject words (DAij)是對(duì)應(yīng)這個(gè)分類(lèi)的主題詞表。根據(jù)以上表達(dá)式,原來(lái)的Bi由一維決定的,現(xiàn)在的Bi變成由兩維來(lái)決定,即滿(mǎn)足分類(lèi)-主題詞對(duì)應(yīng)關(guān)系。在分類(lèi)準(zhǔn)確、分類(lèi)主題詞準(zhǔn)確兩個(gè)前提下,才有對(duì)于圖書(shū)資料查全與查準(zhǔn)的理論關(guān)系。 Find (All) C ( A , Z ) | C (),Subject words ()即找到Bi的方法是在某個(gè)分類(lèi)中,滿(mǎn)足主題詞的所有的結(jié)果就是查全與查準(zhǔn)。假定,在A類(lèi)中有20個(gè)主題詞,DA1到DA20;一個(gè)文檔
9、中有DA1到DA20的某一個(gè)的時(shí)候,X為切分出來(lái)的某個(gè)詞;那么:XDAi()=1,有DAi 屬于A0,沒(méi)有DAi 不屬于A然后計(jì)算這個(gè)進(jìn)入這個(gè)分類(lèi)A的概率,a1到a16為在這篇文章中關(guān)鍵詞DA1到DA16出現(xiàn)的次數(shù);A()=a1 XDA1()+ a2 XDA2()+ a16 XDA16()a1 + a2 + a16那么:A()=1,當(dāng)A()屬于A0,當(dāng)A()不屬于A這個(gè)分類(lèi)-主題詞理論,決定分類(lèi)的幾個(gè)要素是,主題詞(Dai),主題詞出現(xiàn)的頻度(A(),判斷分類(lèi)的加權(quán)關(guān)系(),所以,在數(shù)學(xué)方法上也是可取的。由于采用分類(lèi)主題理論,進(jìn)行復(fù)分也就成為一種可能的分準(zhǔn)的方法。實(shí)際情況下,由于主題詞的變化和
10、更新的速度的不匹配,造成了主題詞的非實(shí)時(shí)性的問(wèn)題的發(fā)生。另一個(gè)問(wèn)題,就是無(wú)法把所有的敘詞窮舉出來(lái),也造成了敘詞規(guī)范的滯后。特別對(duì)于網(wǎng)絡(luò)時(shí)代的傳播的快速度和互聯(lián)網(wǎng)信息的爆炸性的增長(zhǎng),分類(lèi)不準(zhǔn)確性和主題詞不實(shí)時(shí)更新性,造成了查全和查準(zhǔn)的誤差很大。2、互聯(lián)網(wǎng)檢索技術(shù)2008年1月11日在北京舉辦的中國(guó)計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科技論壇上,對(duì)于“垂直搜索”,2007年10月10日在鄭州舉辦的“搜索技術(shù)與網(wǎng)絡(luò)經(jīng)濟(jì)”,2007年10月20日在哈爾濱舉辦的“多媒體信息檢索”,2006年的1月23日在北京舉辦的“基于內(nèi)容的檢索與搜索引擎”等多場(chǎng)關(guān)于互聯(lián)網(wǎng)檢索的專(zhuān)題討論。那么,計(jì)算機(jī)界在互聯(lián)網(wǎng)檢索上發(fā)現(xiàn)了什么問(wèn)題?2
11、.1 信息檢索的效率信息檢索已經(jīng)成為數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘,并行處理,信息安全,操作系統(tǒng),圖像視頻語(yǔ)音,自然語(yǔ)言處理,網(wǎng)絡(luò)和知識(shí)管理等應(yīng)用的基本功能。對(duì)于網(wǎng)絡(luò)的信息檢索,由于大部分人使用自由詞進(jìn)行檢索,那么檢索結(jié)果是大量的信息噪聲,把使用者本來(lái)想獲得的結(jié)果給淹沒(méi)了。這個(gè)是信息檢索遇到的普遍的問(wèn)題,同時(shí),也是數(shù)字圖書(shū)館元檢索所面臨的問(wèn)題之一。大部分的網(wǎng)絡(luò)使用者,發(fā)現(xiàn)與查找信息花去很多很多的時(shí)間,這個(gè)也證明了計(jì)算機(jī)界現(xiàn)在開(kāi)始關(guān)注信息噪聲了,而不是一味的強(qiáng)調(diào)檢索的速度和并行的能力了。我在 HYPERLINK 中做一個(gè)實(shí)驗(yàn):檢索詞命中數(shù)備注數(shù)字圖書(shū)館6,320,000關(guān)鍵詞法“數(shù)字圖書(shū)館”2,040,000
12、只考慮相鄰的數(shù)量小很多,約少了2/3,關(guān)鍵詞,詞不拆分?jǐn)?shù)字圖書(shū)館 國(guó)家圖書(shū)館1,880,000關(guān)鍵詞團(tuán)體詞“數(shù)字圖書(shū)館”“ 國(guó)家圖書(shū)館”124,000關(guān)鍵詞團(tuán)體詞,詞不拆分?jǐn)?shù)字圖書(shū)館 國(guó)家圖書(shū)館 ppt56,500關(guān)鍵詞團(tuán)體詞文檔格式詞數(shù)字圖書(shū)館 國(guó)家圖書(shū)館 ppt2,070關(guān)鍵詞團(tuán)體詞文檔格式詞,詞不拆分?jǐn)?shù)字圖書(shū)館 國(guó)家圖書(shū)館 ppt 200637,600關(guān)鍵詞團(tuán)體詞文檔格式詞時(shí)間詞數(shù)字圖書(shū)館 國(guó)家圖書(shū)館”“ppt” “2006”1,350關(guān)鍵詞團(tuán)體詞文檔格式詞時(shí)間詞,詞不拆分?jǐn)?shù)字圖書(shū)館 國(guó)家圖書(shū)館 ppt 2006 孫衛(wèi)2,510關(guān)鍵詞團(tuán)體詞文檔格式詞時(shí)間詞作者詞“數(shù)字圖書(shū)館”“國(guó)家圖書(shū)館
13、”“ppt” “ 2006” “孫衛(wèi)”43關(guān)鍵詞團(tuán)體詞文檔格式詞時(shí)間詞作者詞,詞不拆分那么,對(duì)于有特定目的的檢索者而言,這個(gè)實(shí)驗(yàn)很清楚的表明,要過(guò)濾信息噪聲,是需要改變檢索詞的組配關(guān)系就可以實(shí)現(xiàn)的。但是,這個(gè)觀(guān)點(diǎn)早就是圖書(shū)情報(bào)檢索理論的基礎(chǔ)了, 可是早期的計(jì)算機(jī)檢索的開(kāi)發(fā)者對(duì)此不以為然的,認(rèn)為計(jì)算機(jī)速度很快,不需要那么復(fù)雜的檢索組配關(guān)系了。在2005年,我和著名大學(xué)的計(jì)算機(jī)教授討論這個(gè)效率問(wèn)題的時(shí)候,這些著名教授還在追捧Google的模式呢,現(xiàn)在很高興的看到計(jì)算機(jī)界也意識(shí)到了這個(gè)問(wèn)題。其實(shí)就是兩個(gè)部分的變化,一個(gè)是詞的組配關(guān)系,一個(gè)是詞的拆分限制。在上面的實(shí)驗(yàn)可以清楚的看到,即使使用自由詞,只
14、要匹配合理和拆分合理,依然可以得到較合理的檢索結(jié)果集,這個(gè)最合理的檢索結(jié)果集就是期望能在結(jié)果集的第一個(gè)頁(yè)面找到自己需要的信息,最多不要超過(guò)3到5個(gè)頁(yè)面。2.2詞的組配原理在2008年1月11日的研討會(huì)上,哈爾濱工業(yè)大學(xué)信息檢索研究室的劉廷老師做了垂直檢索可以燎原 HYPERLINK /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=1200468256491 /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=120046
15、8256491,2008年1月21日的演講。在總結(jié)的基礎(chǔ)上,提出了垂直檢索的幾個(gè)主要的特征,即面向特定領(lǐng)域和對(duì)象、面向特定需求、全面、深入、準(zhǔn)確、及時(shí)、結(jié)構(gòu)化等特征。根據(jù)這些描述,實(shí)際上是一個(gè)多特征屬性檢索詞的組合和過(guò)濾的關(guān)系,并提出了利用自然語(yǔ)言處理的可能的方式與方法。領(lǐng)域和事實(shí)的匹配原理??梢园杨I(lǐng)域理解成為領(lǐng)域,行業(yè),學(xué)科,專(zhuān)業(yè),分類(lèi)等。把事實(shí)可以理解為時(shí)間,地點(diǎn),事件,團(tuán)體,人物等。特定需求原理。即在領(lǐng)域和事實(shí)匹配以后的目的匹配。把這個(gè)目的看作自己的特定需求,上面的實(shí)驗(yàn)中,找ppt文檔就是一個(gè)特定需求。需求的進(jìn)一步分解的能力。全面的原理。在領(lǐng)域或者行業(yè)的限制下的全面比在專(zhuān)業(yè)和分類(lèi)下的全面
16、更容易把握。因?yàn)榉诸?lèi)、專(zhuān)業(yè)都是比較獨(dú)立的,而領(lǐng)域,行業(yè),學(xué)科是比較橫向的。所以,把領(lǐng)域,行業(yè),學(xué)科,專(zhuān)業(yè),分類(lèi)有機(jī)的進(jìn)行組合是全面的基礎(chǔ)。深入的原理。找到內(nèi)在的各種關(guān)聯(lián)關(guān)系。積累行業(yè)背景知識(shí),利用數(shù)據(jù)挖掘的手段,找到信息之間的關(guān)聯(lián)關(guān)系。給用戶(hù)進(jìn)行導(dǎo)向,解決問(wèn)題的“知識(shí)”,從而可以深入。準(zhǔn)確的原理。在領(lǐng)域和事實(shí)的限制下的,減少了歧義的發(fā)生。達(dá)到了準(zhǔn)確的目的。及時(shí)原理。把時(shí)效性和時(shí)間條件的限制充分的用于檢索。結(jié)構(gòu)化原理。利用信息抽取技術(shù)把非結(jié)構(gòu)化信息進(jìn)行結(jié)構(gòu)化,并與原有的結(jié)構(gòu)化信息進(jìn)行整合,便于進(jìn)行歸并,統(tǒng)計(jì),挖掘。由此我們可以看到,計(jì)算機(jī)檢索的研究者,已經(jīng)摒棄了簡(jiǎn)單的自由詞進(jìn)行檢索的思維模式了,
17、開(kāi)始在檢索的準(zhǔn)確,效率上下功夫了。在2006年的1月,香港中文大學(xué)二十一世紀(jì)數(shù)字資產(chǎn)管理研討會(huì)上,日本國(guó)家信息研究所的教授 HYPERLINK .hk/conference/DAM2006/prog.htm .hk/conference/DAM2006/prog.htm,2008年1月21日也提出了領(lǐng)域與詞交叉檢索的理論。3、分類(lèi)主題理論調(diào)整檢索功能我們看到了圖書(shū)情報(bào)的分類(lèi)主題理論的方法的正確性,也看到了計(jì)算機(jī)檢索遇到的相關(guān)的問(wèn)題,那么,圖書(shū)情報(bào)理論與計(jì)算機(jī)檢索技術(shù)的結(jié)合就成為一個(gè)可能。3.1分類(lèi)技術(shù)的使用在處理信息資源的時(shí)候,一定要使用分類(lèi)技術(shù)。利用行業(yè)主題詞與敘詞表和分類(lèi)主題表,對(duì)于資源在
18、分類(lèi)和詞標(biāo)引上進(jìn)行處理。我們?cè)谠O(shè)計(jì)檢索窗的時(shí)候,增加一個(gè)分類(lèi)/領(lǐng)域輸入條件。那么就可以做到分類(lèi)/領(lǐng)域+關(guān)鍵詞檢索。這樣的檢索結(jié)果就是在語(yǔ)境環(huán)境(分類(lèi)/領(lǐng)域)下的語(yǔ)義(關(guān)鍵詞)檢索。實(shí)現(xiàn)的方式可以是吧分類(lèi)/領(lǐng)域定位索引區(qū)與關(guān)鍵詞索引區(qū)分離,可以同時(shí)檢索,再對(duì)檢索結(jié)果做“與”計(jì)算,把同位中的分類(lèi)/領(lǐng)域和關(guān)鍵詞結(jié)果子集找到,并進(jìn)行排序。如果在目前的索引方式下,就是兩次循環(huán)檢索,再做“與”分析。效率分析:(1)單索引檢索模式T search = T(分類(lèi)/領(lǐng)域檢索定位)| A(分類(lèi)/領(lǐng)域) + T(關(guān)鍵詞檢索定位)| B(關(guān)鍵詞)C (分類(lèi)/領(lǐng)域,關(guān)鍵詞)= A(分類(lèi)/領(lǐng)域)and B(關(guān)鍵詞)由此可
19、見(jiàn)在排序以前,比原來(lái)單檢索增加了時(shí)間,但是,合并結(jié)果集以后的命中結(jié)果集小于單詞檢索。那么就減少了用戶(hù)找到自己需要的資源的時(shí)間。(2)多索引檢索模式T search = Max ( T(分類(lèi)/領(lǐng)域檢索定位)| A(分類(lèi)/領(lǐng)域)、T(關(guān)鍵詞檢索定位)| B(關(guān)鍵詞)C (分類(lèi)/領(lǐng)域,關(guān)鍵詞)= A(分類(lèi)/領(lǐng)域)and B(關(guān)鍵詞)由此可見(jiàn)在排序以前,比原來(lái)單檢索節(jié)省了時(shí)間,同時(shí),合并結(jié)果集以后的命中結(jié)果集小于單詞檢索。那么就減少檢索時(shí)間和用戶(hù)找到需要的資源的時(shí)間。那么,在數(shù)據(jù)量,檢索循環(huán)時(shí)間,用戶(hù)并發(fā),用戶(hù)響應(yīng)時(shí)間允許的前提下,可以再增加時(shí)間、地點(diǎn)、文件格式、人名等檢索元素同時(shí)檢索。如果做到這個(gè)部
20、分,對(duì)于現(xiàn)有檢索系統(tǒng)的技術(shù)變化不大,就可以提高檢索的效率。針對(duì)在上面的Google檢索試驗(yàn)中,證明了多詞檢索的響應(yīng)時(shí)間是在用戶(hù)需可范圍內(nèi)的,但是檢索結(jié)果命中集的數(shù)量是大量的下降,用戶(hù)找到自己需要的資源的時(shí)間大幅度下降。3.2 詞導(dǎo)引技術(shù)的應(yīng)用目前圖書(shū)情報(bào)在做資源處理的時(shí)候是利用分類(lèi)/主題詞表,而主題詞(規(guī)范的敘詞)和敘詞(同一事物的不同描述詞)在很多圖書(shū)情報(bào)專(zhuān)業(yè)沒(méi)有被合理的使用。如果,在檢索輸入系統(tǒng)中,做一個(gè)詞導(dǎo)引系統(tǒng),就是把主題詞的上下位關(guān)系及其屬性導(dǎo)引檢索詞靠到主題詞和敘詞,那么檢索的時(shí)間會(huì)大幅度的減少。目前Google的導(dǎo)引是為了導(dǎo)引到已經(jīng)檢索過(guò)的結(jié)果的快照集合的。做好檢索詞導(dǎo)引系統(tǒng),把
21、檢索輸入窗與這個(gè)窗內(nèi)已經(jīng)規(guī)范過(guò)的詞進(jìn)行有序?qū)б?,那么就可以幫助使用者不要大量使用低效的自由詞。這個(gè)部分也是值得檢索系統(tǒng)商榷改進(jìn)的。3.3 排序技術(shù)的改進(jìn)精確排序問(wèn)題是檢索功能需要改進(jìn)以后,在技術(shù)上需要改進(jìn)的地方。如果輸入的是完整與準(zhǔn)確的“題名”,在檢索結(jié)果處理的過(guò)程中,需要把完全等于的部分排在最前面。是否需要精確排序,可以靠一個(gè)“詞相鄰”的條件進(jìn)行條件驅(qū)動(dòng)。在多詞檢索時(shí),如果沒(méi)有詞相鄰限制條件時(shí)候,可以把多詞同時(shí)出現(xiàn)(and)關(guān)系排在前面,把多詞不同時(shí)出現(xiàn)(or)關(guān)系排在后面。增加關(guān)聯(lián)排序選擇條件是檢索功能需要增加的地方,對(duì)應(yīng)的檢索技術(shù)也需要改進(jìn)。在一般情況下,主要是按照字母排序進(jìn)行的。在精確
22、排序和and關(guān)系排序的處理以外,可以讓使用者,按照作者名,時(shí)間,地點(diǎn)等條件選擇排序,使得檢索結(jié)果更匹配使用者自己的興趣,而不是用字母排序來(lái)限制使用者的排序需求。本文研究的目的,是推進(jìn)圖書(shū)情報(bào)理論與計(jì)算機(jī)技術(shù)更好的進(jìn)行結(jié)合,但是,圖書(shū)情報(bào)人員要和計(jì)算機(jī)開(kāi)發(fā)人員一起,在功能、性能、穩(wěn)定性上尋求平衡。因?yàn)檫^(guò)多的強(qiáng)調(diào)理論的完整,很多時(shí)候犧牲的是性能,盡管計(jì)算機(jī)的速度很快,但是當(dāng)檢索的信息很多,并發(fā)檢索很多的時(shí)候,過(guò)于復(fù)雜的理論往往就是計(jì)算機(jī)實(shí)現(xiàn)以后性能的損失。檢索的字段要增加,增加什么字段合理?對(duì)于檢索結(jié)果如何過(guò)濾更合理?等等這些問(wèn)題都是希望本文引導(dǎo)圖書(shū)情報(bào)人員與計(jì)算機(jī)開(kāi)發(fā)人員深入合作的基礎(chǔ)。這些都是
23、在數(shù)字圖書(shū)館完善中,圖書(shū)情報(bào)理論的重要性所在。參考資料:1 HYPERLINK /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=1200468256491 /web/assembly/action/browsePage.do?channelID=1100824739829&contentID=12004682564912 HYPERLINK .hk/conference/DAM2006/prog.htm .hk/conference/DAM2006/prog.htm作者簡(jiǎn)介孫衛(wèi),高級(jí)工程師,中國(guó)科學(xué)技術(shù)信息研究所顧問(wèn),北京萬(wàn)方數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化學(xué)品泄漏培訓(xùn)課件
- 《牛頓第一定律》物理授課課件
- 《探索勾股定理》數(shù)學(xué)課件教案
- 《商是幾位數(shù)》數(shù)學(xué)課件教案
- 2026年呼吸康復(fù)訓(xùn)練器規(guī)范使用與效果評(píng)估
- 2026年手術(shù)室護(hù)士無(wú)菌操作規(guī)范與安全實(shí)訓(xùn)
- 《GAT 2078-2023法庭科學(xué) 固體物證制樣 離子束法》專(zhuān)題研究報(bào)告
- 元宇宙平臺(tái)搭建協(xié)議2026年
- 2026銀河金融控股校招題庫(kù)及答案
- 2026標(biāo)準(zhǔn)版離婚協(xié)議書(shū)(有子女有財(cái)產(chǎn))
- 急性胰腺炎診療指南解讀2025
- 遼寧省建筑施工安全生產(chǎn)標(biāo)準(zhǔn)化考評(píng)實(shí)施細(xì)則
- 電站火災(zāi)事故應(yīng)急預(yù)案
- GJB827B--2020軍事設(shè)施建設(shè)費(fèi)用定額
- 娃娃菜栽培技術(shù)
- 工業(yè)鍋爐司爐課件
- 數(shù)字營(yíng)銷(xiāo)專(zhuān)業(yè)人才培養(yǎng)方案
- 新疆概算管理辦法
- 女性中醫(yī)健康養(yǎng)生講座
- 《養(yǎng)老服務(wù)政策法規(guī)與標(biāo)準(zhǔn)》智慧健康養(yǎng)老服務(wù)專(zhuān)業(yè)全套教學(xué)課件
- 知識(shí)付費(fèi)商業(yè)模式設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論