版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)絡(luò)環(huán)境下新型漢語(yǔ)主題詞表的功能定位與發(fā)展曾建勛/常春2012-9-29 20:35:04來(lái)源:情報(bào)學(xué)報(bào)(京)2010年6期【英文標(biāo)題】Function Orientation and Development of New Edition of Chinese Thesaurus under Network Environment【作者簡(jiǎn)介】曾建勛,男,1965年生,研究館員,武漢大學(xué)博士研究生,主要研究方向:知識(shí)鏈接與知識(shí)組織。E-mail:。武漢大學(xué)信息管理學(xué)院,武漢;中國(guó)科學(xué)技術(shù)信息研究所,北京常春,男,1966年生,博士,研究館員,主要研究方向:信息組織。
2、中國(guó)科學(xué)技術(shù)信息研究所,北京【內(nèi)容提要】網(wǎng)絡(luò)環(huán)境下,從信息服務(wù)向知識(shí)服務(wù)轉(zhuǎn)型過(guò)程中,對(duì)敘詞表的編制、使用及其作用的發(fā)揮提出了更高的要求。作為我國(guó)第一部大型綜合性敘詞表,網(wǎng)絡(luò)環(huán)境下的新型漢語(yǔ)主題詞表,其在表現(xiàn)形態(tài)、編制方式、功能定位和應(yīng)用方式上都將發(fā)生根本性的變化。作者基于對(duì)網(wǎng)絡(luò)時(shí)代敘詞表編制的探索性實(shí)踐,分析了網(wǎng)絡(luò)環(huán)境下新型漢語(yǔ)主題詞表的形態(tài)特征,提出了漢語(yǔ)主題詞表在網(wǎng)絡(luò)環(huán)境下編制和維護(hù)方式,并對(duì)其功能定位進(jìn)行了探索展望。Chinese Thesaurus is the first large-scale comprehensive thesaurus. Emergence of digita
3、l network environment has posed higher requirements on its construction, use and role. In the new information environment, new edition of Chinese Thesaurus is quite different from the old one in terms of presentation, construction methods, function orientation and application way. Institute of Scien
4、tific and Technical Information of China has made a lot explorations on how to construct thesaurus within networked environment, based on which characteristics of new Chinese Thesaurus were thoroughly analyzed, then its construction and maintenance ways within networked environment were proposed, an
5、d finally its function orientation was summarized.【關(guān) 鍵 詞】網(wǎng)絡(luò)環(huán)境/漢語(yǔ)主題詞表/功能定位Network environment; Chinese Thesaurus; Function orientation漢語(yǔ)主題詞表(以下簡(jiǎn)稱(chēng)漢表)是我國(guó)第一部大型綜合性敘詞表。1980年出版第一版,包括社會(huì)科學(xué)和自然科學(xué)部分1,1991年出版漢表(自然科學(xué)增訂本)。漢表是我國(guó)圖書(shū)情報(bào)界集體智慧的結(jié)晶,在我國(guó)圖書(shū)情報(bào)事業(yè)中發(fā)揮了重要作用,為此于1985年獲得國(guó)家科學(xué)技術(shù)進(jìn)步二等獎(jiǎng)2。20世紀(jì)90年代,人類(lèi)進(jìn)入網(wǎng)絡(luò)時(shí)代。在網(wǎng)絡(luò)環(huán)境下,信息存儲(chǔ)、加工、傳
6、播等發(fā)生顯著變化,具備了海量信息資源,擁有了突破時(shí)空限制的網(wǎng)絡(luò)技術(shù),用戶(hù)可以自由參與信息資源組織,由此,敘詞表的編制方法、應(yīng)用方式甚至表現(xiàn)形態(tài)等也發(fā)生了相應(yīng)的變化。在這種背景下,中國(guó)科學(xué)技術(shù)信息研究所近年來(lái)組織全國(guó)的情報(bào)檢索語(yǔ)言專(zhuān)家,對(duì)漢表的修訂工作進(jìn)行了多次咨詢(xún)和論證,于2009年正式啟動(dòng)漢表在網(wǎng)絡(luò)環(huán)境下的修訂改造工作。這項(xiàng)工作將以漢表(工程技術(shù)版)為起點(diǎn),目前已經(jīng)完成編制方法的前期論證,編制規(guī)則制定、編制平臺(tái)研制、基礎(chǔ)詞庫(kù)建設(shè)、范疇類(lèi)目修訂等相關(guān)工作正全面展開(kāi)。網(wǎng)絡(luò)環(huán)境下,新型漢表的表現(xiàn)形態(tài)、編制維護(hù)方式和功能定位都將發(fā)生深刻的變化,漢表將隨著時(shí)代的發(fā)展而創(chuàng)新3。1 網(wǎng)絡(luò)環(huán)境下新型漢語(yǔ)主題
7、詞表的形態(tài)特征1.1系列詞匯概念集成的知識(shí)組織系統(tǒng)網(wǎng)絡(luò)環(huán)境下,新型漢表的總體形態(tài)特征將從一個(gè)包含敘詞和非敘詞的單一詞表,轉(zhuǎn)變?yōu)榘ɑA(chǔ)詞庫(kù)、核心詞庫(kù)、敘詞詞庫(kù)等在內(nèi)的知識(shí)組織系統(tǒng),包涵詞匯、術(shù)語(yǔ)、概念和實(shí)例數(shù)據(jù)庫(kù)。目前我們正在開(kāi)展的相關(guān)工作包括:漢表基礎(chǔ)詞庫(kù)建設(shè)、專(zhuān)業(yè)核心候選詞庫(kù)建設(shè)、詞匯空間向概念空間的映射、詞間關(guān)系的自動(dòng)構(gòu)建等。修訂改造的漢表,其表現(xiàn)形態(tài)將不再是10個(gè)分冊(cè)的紙質(zhì)版本,而是包含分類(lèi)、主題和概念等不同語(yǔ)義級(jí)別的一系列詞匯和概念數(shù)據(jù)庫(kù)的集成知識(shí)組織系統(tǒng)。它有著以下的特點(diǎn):不再控制概念術(shù)語(yǔ)的數(shù)量,而是盡可能找全所有的專(zhuān)業(yè)術(shù)語(yǔ)。給出這些術(shù)語(yǔ)之間盡量多的詞間關(guān)系:不必刻意區(qū)分?jǐn)⒃~和非敘
8、詞,盡量窮盡所有的同義詞關(guān)系;通過(guò)計(jì)算機(jī)聚類(lèi)和關(guān)聯(lián)分析盡量獲得相關(guān)關(guān)系。集中于如何抽取完整范圍的概念術(shù)語(yǔ),以及全面的概念關(guān)系。在詞表詞匯組成方面,將從過(guò)去10萬(wàn)個(gè)左右概念詞匯組成的單一詞表,轉(zhuǎn)變?yōu)閷?lái)的從基礎(chǔ)詞庫(kù)、核心詞庫(kù)、到敘詞庫(kù),從百萬(wàn)級(jí)到十萬(wàn)級(jí)詞匯數(shù)量的一套詞匯概念知識(shí)體系。新型漢表還將包括系列實(shí)例知識(shí)數(shù)據(jù)庫(kù),例如時(shí)間、空間、機(jī)構(gòu)、國(guó)家等通用實(shí)體知識(shí)數(shù)據(jù)庫(kù),地理名稱(chēng)、化學(xué)名稱(chēng)、部件組成等專(zhuān)業(yè)實(shí)體知識(shí)庫(kù),并涵蓋專(zhuān)有名詞實(shí)例數(shù)據(jù)。1.2呈立體結(jié)構(gòu)的概念語(yǔ)義網(wǎng)絡(luò)傳統(tǒng)敘詞表呈現(xiàn)出的是一種樹(shù)狀結(jié)構(gòu),它對(duì)知識(shí)采用從總到分,層層推進(jìn)的方式展開(kāi),有著很強(qiáng)的系統(tǒng)性。為了便于文獻(xiàn)標(biāo)引,傳統(tǒng)敘詞表一般將主題詞
9、平行分布在多個(gè)樹(shù)狀結(jié)構(gòu)內(nèi)。但是,在網(wǎng)絡(luò)環(huán)境下,各種信息技術(shù)手段的應(yīng)用,可以克服復(fù)雜的詞間關(guān)系在傳統(tǒng)的紙質(zhì)顯示中受空間因素制約的不足,以立體的方式展現(xiàn)分布在多個(gè)樹(shù)狀結(jié)構(gòu)中的敘詞,使整個(gè)概念體系呈現(xiàn)出立體網(wǎng)狀結(jié)構(gòu)。類(lèi)似于語(yǔ)義網(wǎng)絡(luò)的概念圖,將某一領(lǐng)域內(nèi)的知識(shí)元素按其內(nèi)在關(guān)聯(lián)屬性,以可視化的形式展現(xiàn),揭示知識(shí)結(jié)構(gòu)及其細(xì)節(jié)變化。同時(shí)也為每個(gè)敘詞設(shè)置了超鏈接,從而揭示立體網(wǎng)狀結(jié)構(gòu)中的不同節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。1.3機(jī)器可讀的概念知識(shí)關(guān)系體系網(wǎng)絡(luò)環(huán)境下新型漢表將是機(jī)器可讀和可理解、表達(dá)適度概念關(guān)系的知識(shí)組織體系。傳統(tǒng)敘詞表主要通過(guò)人工標(biāo)引和檢索發(fā)揮作用,語(yǔ)義關(guān)系的制定和使用也由人工完成。在網(wǎng)絡(luò)環(huán)境下,新型漢表
10、的主要使用方式將轉(zhuǎn)入系統(tǒng)后臺(tái),通過(guò)機(jī)器直接閱讀敘詞表的語(yǔ)義關(guān)系,用于機(jī)器標(biāo)引和智能推理與檢索。目前實(shí)現(xiàn)了基于XML數(shù)據(jù)格式,使用RDF或者OWL機(jī)器語(yǔ)言表達(dá)詞表概念關(guān)系4。用戶(hù)或系統(tǒng)管理者可以根據(jù)使用目的不同進(jìn)行相應(yīng)定制,達(dá)到最佳使用效果。概念關(guān)系將在傳統(tǒng)的等同關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系基礎(chǔ)上,向簡(jiǎn)約和細(xì)化兩個(gè)方向發(fā)展,構(gòu)成由簡(jiǎn)到繁的知識(shí)地圖,甚至達(dá)到初級(jí)本體級(jí)別的語(yǔ)義關(guān)系。1.4基于用戶(hù)檢索和文獻(xiàn)語(yǔ)料的專(zhuān)業(yè)知識(shí)組織工具網(wǎng)絡(luò)環(huán)境下新型漢表,其詞匯來(lái)源將充分考慮用戶(hù)檢索用詞和文獻(xiàn)主題的準(zhǔn)確表達(dá),實(shí)現(xiàn)敘詞表詞庫(kù)與用戶(hù)檢索用詞最大限度的一致。目前的大型網(wǎng)絡(luò)數(shù)據(jù)庫(kù),如萬(wàn)方、維普等,為我們實(shí)現(xiàn)這樣的目標(biāo)提
11、供了可能。首先通過(guò)用戶(hù)對(duì)這些數(shù)據(jù)庫(kù)的檢索日志,來(lái)獲取用戶(hù)檢索用詞,并根據(jù)用戶(hù)專(zhuān)業(yè)等信息對(duì)這些檢索詞進(jìn)行標(biāo)準(zhǔn)化清洗,可獲得符合敘詞表標(biāo)準(zhǔn)的規(guī)范化詞匯。繼而通過(guò)詞頻統(tǒng)計(jì)和聚類(lèi)等信息技術(shù),使用加權(quán)等選擇手段,從海量專(zhuān)業(yè)文獻(xiàn)中,選出敘詞表的系列概念詞匯。綜合用戶(hù)檢索詞和文獻(xiàn)語(yǔ)料庫(kù)詞匯信息,最終得到敘詞表系列數(shù)據(jù)庫(kù)詞匯系統(tǒng),具備用戶(hù)依據(jù)和文獻(xiàn)依據(jù),為新型漢表的有效利用奠定堅(jiān)實(shí)的基礎(chǔ)5。1.5用戶(hù)參與編制維護(hù)的知識(shí)表達(dá)工具網(wǎng)絡(luò)環(huán)境下新型漢表,無(wú)論是其編制還是其維護(hù)過(guò)程,都將充分發(fā)揮用戶(hù)的積極性,都將在用戶(hù)的全力參與下完成。沒(méi)有時(shí)空限制的網(wǎng)絡(luò)環(huán)境,為用戶(hù)參與敘詞表的編制提供了可能:通過(guò)在線的敘詞表編制平臺(tái),
12、在專(zhuān)業(yè)概念分類(lèi)、重點(diǎn)概念建議、詞間關(guān)系建立等多個(gè)方面,用戶(hù)可以與敘詞表編制人員或組織進(jìn)行互動(dòng),隨時(shí)修改和完善敘詞表的編制。在維護(hù)方面,更能體現(xiàn)用戶(hù)的參與作用,雖然新型漢表的直接應(yīng)用是通過(guò)機(jī)器實(shí)現(xiàn)的,但最終還是為用戶(hù)服務(wù),用戶(hù)在使用過(guò)程中,可以根據(jù)自己的領(lǐng)域知識(shí)在線參與修訂和維護(hù)敘詞表,充分體現(xiàn)用戶(hù)的需求,發(fā)揮用戶(hù)的積極作用。1.6智能化和可視化應(yīng)用的系統(tǒng)網(wǎng)絡(luò)環(huán)境下新型漢表將提供更多人性化的應(yīng)用方式。系統(tǒng)具備默認(rèn)的智能檢索方式,用戶(hù)無(wú)須查閱瀏覽敘詞表的概念知識(shí)體系,敘詞表在后臺(tái)系統(tǒng)中直接運(yùn)行默認(rèn)的詞表應(yīng)用,發(fā)揮敘詞表的查全查準(zhǔn)功能;此外,用戶(hù)檢索過(guò)程的不同階段都會(huì)有敘詞表的智能參與,如在用戶(hù)輸入
13、檢索詞過(guò)程中,檢索系統(tǒng)依據(jù)敘詞表的詞匯數(shù)據(jù)庫(kù)和概念語(yǔ)義關(guān)系,自動(dòng)提供適合用戶(hù)專(zhuān)業(yè)背景的概念詞匯。同時(shí),還具備可視化特征,在用戶(hù)需要的時(shí)候,可通過(guò)合適的圖像或者多媒體的方式將敘詞表的概念關(guān)系形象直觀地層示給用戶(hù),更利于用戶(hù)的學(xué)習(xí)使用,也利于知識(shí)的傳播,以區(qū)別于傳統(tǒng)敘詞表的不同應(yīng)用方式。1.7動(dòng)態(tài)變化的專(zhuān)業(yè)知識(shí)體系更新工具修訂改造后的新型漢表是以系列詞匯概念數(shù)據(jù)庫(kù)為基本成分,學(xué)科分類(lèi)相對(duì)集中的立體網(wǎng)狀知識(shí)體系。詞匯、概念系統(tǒng)具有縱橫動(dòng)態(tài)更新變化的特點(diǎn)。縱向變化表現(xiàn)為:基礎(chǔ)詞庫(kù)的自由詞始終處于動(dòng)態(tài)更新中,專(zhuān)業(yè)核心詞庫(kù)隨時(shí)間變化相對(duì)穩(wěn)定,敘詞詞庫(kù)相對(duì)固定。橫向變化表現(xiàn)為:可以根據(jù)信息管理與專(zhuān)業(yè)領(lǐng)域的需
14、要,分解或從中提取任何一個(gè)專(zhuān)業(yè)領(lǐng)域的專(zhuān)業(yè)敘詞表,如基于基礎(chǔ)詞庫(kù)、核心詞庫(kù)、范疇分類(lèi)等信息,構(gòu)建農(nóng)業(yè)科學(xué)敘詞表、建筑科學(xué)敘詞表等。新型漢表詞匯數(shù)據(jù)庫(kù)系統(tǒng),將具備機(jī)器可識(shí)別的專(zhuān)業(yè)核心概念、專(zhuān)業(yè)通用概念和通用概念等,概念關(guān)系在專(zhuān)業(yè)領(lǐng)域內(nèi)相對(duì)集中,在領(lǐng)域間互聯(lián)互通,可以根據(jù)信息組織需求,自動(dòng)生成不同專(zhuān)業(yè)的敘詞表。2 網(wǎng)絡(luò)環(huán)境下新型漢語(yǔ)主題詞表的編制和維護(hù)2.1基于海量數(shù)據(jù)資源選用概念術(shù)語(yǔ)過(guò)去,敘詞表概念術(shù)語(yǔ)的選擇主要由領(lǐng)域?qū)<胰斯ご_定,雖然也要考慮文獻(xiàn)覆蓋、使用詞頻等因素,但當(dāng)時(shí)計(jì)算機(jī)應(yīng)用普及程度低,無(wú)法獲取海量的信息語(yǔ)料,造成在實(shí)際操作中無(wú)法準(zhǔn)確地獲取文獻(xiàn)覆蓋、術(shù)語(yǔ)詞頻等數(shù)據(jù),所以往往是領(lǐng)域?qū)<覜Q定
15、術(shù)語(yǔ)的選取數(shù)量和具體詞匯,由于人為因素占的比例大,很容易出現(xiàn)同一領(lǐng)域不同專(zhuān)家選用的術(shù)語(yǔ)不一致,導(dǎo)致敘詞表的應(yīng)用存在偏差和阻力。在數(shù)字化網(wǎng)絡(luò)化的信息環(huán)境下,我們已經(jīng)具備萬(wàn)方數(shù)據(jù)、重慶維普、CNKI等這樣的大型文獻(xiàn)語(yǔ)料庫(kù),已經(jīng)具備類(lèi)似谷歌和百度等可以搜索因特網(wǎng)上主要信息的網(wǎng)絡(luò)搜索引擎,同時(shí),還可以通過(guò)日志獲取用戶(hù)使用檢索詞匯的種類(lèi)和頻次5。所有這些語(yǔ)料,為敘詞表編制中基于概念覆蓋、基于詞頻統(tǒng)計(jì)、基于用戶(hù)使用的關(guān)鍵詞來(lái)選取規(guī)范的概念術(shù)語(yǔ)奠定了基礎(chǔ),為概念術(shù)語(yǔ)的選取提供了數(shù)據(jù)支持和科學(xué)依據(jù)。2.2基于知識(shí)關(guān)聯(lián)獲取詞間關(guān)系傳統(tǒng)敘詞表的詞間關(guān)系建立,同樣也是由領(lǐng)域?qū)<医⒉⒋_定的。由于專(zhuān)家領(lǐng)域知識(shí)的個(gè)體差
16、異和對(duì)敘詞表的不同理解,造成他們提供的詞間關(guān)系不一定適合專(zhuān)業(yè)敘詞表詞間關(guān)系的正確表達(dá),詞間關(guān)系以領(lǐng)域?qū)<伊D反映領(lǐng)域知識(shí)結(jié)構(gòu)為主,體現(xiàn)文獻(xiàn)知識(shí)真正關(guān)聯(lián)度有一定差異,這樣,不利于相關(guān)文獻(xiàn)的擴(kuò)檢。在網(wǎng)絡(luò)環(huán)境下,敘詞表詞間關(guān)系的建立,同樣可以利用海量的語(yǔ)料。以萬(wàn)方數(shù)據(jù)和重慶維普的數(shù)據(jù)為例,在選定了某一領(lǐng)域一定數(shù)量的概念術(shù)語(yǔ)以后,將這些術(shù)語(yǔ)兩兩組合,統(tǒng)計(jì)在專(zhuān)業(yè)文獻(xiàn)的標(biāo)題、關(guān)鍵詞或文摘語(yǔ)料庫(kù)中的共現(xiàn)頻率6,通過(guò)術(shù)語(yǔ)前方一致、后方一致等語(yǔ)言處理7,還可以通過(guò)垂直搜索統(tǒng)計(jì)網(wǎng)絡(luò)專(zhuān)業(yè)信息中的共現(xiàn)頻次、共篇、同引、耦合等多種方法和手段,來(lái)確定詞間關(guān)系,也從建立詞間關(guān)系的源頭上保證了通過(guò)敘詞表可以實(shí)現(xiàn)相關(guān)知識(shí)文獻(xiàn)的
17、準(zhǔn)確獲取。2.3基于多表映射的集成融合漢表的建設(shè)帶動(dòng)了我國(guó)眾多專(zhuān)業(yè)詞表的建設(shè)。網(wǎng)絡(luò)環(huán)境下新型漢表的建設(shè),需要對(duì)相關(guān)知識(shí)組織體系進(jìn)行轉(zhuǎn)化、映射或融合,一方面從技術(shù)角度達(dá)到互操作等知識(shí)共享應(yīng)用目的,另一方面不同程度地吸收相關(guān)詞表的詞匯概念及其詞間關(guān)系。根據(jù)知識(shí)本體、語(yǔ)義網(wǎng)絡(luò)的設(shè)計(jì)思想,建立語(yǔ)義類(lèi)型(較寬泛的主題類(lèi)目)與語(yǔ)義關(guān)系(術(shù)語(yǔ)概念間關(guān)系)相結(jié)合的基礎(chǔ)構(gòu)架,對(duì)傳統(tǒng)分類(lèi)法、敘詞表、標(biāo)題表、術(shù)語(yǔ)詞典等進(jìn)行結(jié)構(gòu)改造和兼容;基于不同知識(shí)組織系統(tǒng)自身體系結(jié)構(gòu)建立映射,在不同的受控詞表之間或詞表與分類(lèi)號(hào)之間建立等同詞聯(lián)系;或者根據(jù)同一元數(shù)據(jù)或編目記錄中同時(shí)出現(xiàn)的來(lái)自不同體系的術(shù)語(yǔ)建立鏈接關(guān)系,將詞匯與其他
18、詞匯根據(jù)語(yǔ)義關(guān)系,而不只是概念的等價(jià)性鏈接起來(lái);利用各種語(yǔ)義工具、專(zhuān)家系統(tǒng)等建立起概念、術(shù)語(yǔ)間錯(cuò)綜復(fù)雜的關(guān)系,使計(jì)算機(jī)系統(tǒng)理解用戶(hù)的檢索請(qǐng)求,幫助用戶(hù)實(shí)現(xiàn)語(yǔ)義檢索和知識(shí)挖掘。2.4基于網(wǎng)絡(luò)平臺(tái)的協(xié)同工作網(wǎng)絡(luò)時(shí)代新型漢表使用標(biāo)準(zhǔn)的數(shù)據(jù)格式,例如SKOS的數(shù)據(jù)格式8,或者使用OWL格式9,將有利于不同系統(tǒng)、不同操作平臺(tái)的數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)利用。這些語(yǔ)言都與具體的系統(tǒng)分離,可以單獨(dú)表達(dá)詞匯概念及詞間關(guān)系。機(jī)器可以理解其中的知識(shí)結(jié)構(gòu)和知識(shí)體系。在敘詞表的編制中,可以編制網(wǎng)絡(luò)可視化系統(tǒng),清晰表達(dá)各類(lèi)知識(shí)結(jié)構(gòu)層次關(guān)系。在編制方面,系統(tǒng)支持不同地域的敘詞表編制者同時(shí)在一個(gè)網(wǎng)絡(luò)平臺(tái)上工作。不同編制者上傳的數(shù)據(jù)和詞
19、間關(guān)系,既可以保留編制者的數(shù)據(jù)信息,也可以展示所有編制者共同工作的集成成果,而且主要編制工作過(guò)程也在網(wǎng)上實(shí)現(xiàn)可視化,通過(guò)圖形清晰表達(dá)概念及詞間關(guān)系,通過(guò)拖動(dòng)、鏈接、合并等界面簡(jiǎn)單操作,隨時(shí)提出概念及詞間關(guān)系的建立或修改建議,其他編制者也可以在網(wǎng)上同步顯示相應(yīng)的工作過(guò)程及結(jié)果。同時(shí),還可以進(jìn)行概念邏輯關(guān)系的自動(dòng)校驗(yàn)和修正,提升漢表的編制效率和質(zhì)量。2.5基于用戶(hù)體驗(yàn)的網(wǎng)絡(luò)維護(hù)網(wǎng)絡(luò)時(shí)代新型漢表的維護(hù)是其發(fā)展的生命源泉。在敘詞表編制理念的基礎(chǔ)上進(jìn)行詞及詞間關(guān)系的維護(hù),無(wú)論是新詞的選用、還是現(xiàn)有術(shù)語(yǔ)的更新,都需要建立相應(yīng)的更新機(jī)制,以推進(jìn)敘詞表的維護(hù)工作走向可持續(xù)化軌道。新型漢表的最終目的是為用戶(hù)服務(wù)
20、,因此,其維護(hù)更新和發(fā)展需要建立基于用戶(hù)體驗(yàn)的網(wǎng)絡(luò)化服務(wù)維護(hù)平臺(tái)。在網(wǎng)絡(luò)維護(hù)中,可利用Web 2.0技術(shù)中的社會(huì)標(biāo)記法(social tagging)10和自由分類(lèi)法(folksonomy)的類(lèi)似方法來(lái)改進(jìn)詞表的升級(jí)維護(hù)工作11,采集用戶(hù)在使用漢表時(shí)動(dòng)態(tài)產(chǎn)生的修改意見(jiàn);使用一些標(biāo)準(zhǔn)化自動(dòng)工具發(fā)現(xiàn)新詞和詞間關(guān)系;設(shè)置公共討論區(qū),讓網(wǎng)絡(luò)用戶(hù)或?qū)I(yè)標(biāo)引人員,便利地在網(wǎng)上提出新增概念術(shù)語(yǔ)和相應(yīng)的詞間關(guān)系,或者上傳對(duì)現(xiàn)有術(shù)語(yǔ)的修訂意見(jiàn)。詞表維護(hù)人員既可以將修訂內(nèi)容分發(fā)給不同的編制者共同討論,也可以將修訂內(nèi)容在總體詞表環(huán)境下進(jìn)行顯示和檢查,理順新的詞間關(guān)系,核實(shí)所有互逆概念,剔除或調(diào)整已有的相同或相近概念
21、,使?jié)h表的維護(hù)制度化,保證漢表的可持續(xù)發(fā)展。3 網(wǎng)絡(luò)環(huán)境下新型漢語(yǔ)主題詞表的功能定位3.1知識(shí)揭示功能無(wú)論是傳統(tǒng)的信息組織工作,還是網(wǎng)絡(luò)環(huán)境下的知識(shí)組織實(shí)踐,都離不開(kāi)信息描述和知識(shí)揭示。只有通過(guò)對(duì)文獻(xiàn)資源有效知識(shí)點(diǎn)的準(zhǔn)確信息描述,才能真正揭示知識(shí),提供信息檢索和知識(shí)鏈接等服務(wù)。利用新型漢表建立知識(shí)庫(kù)的自動(dòng)分類(lèi)系統(tǒng),進(jìn)行基于統(tǒng)計(jì)分類(lèi)與機(jī)器學(xué)習(xí)技術(shù)的文獻(xiàn)標(biāo)引,對(duì)海量科技文獻(xiàn)資源中的知識(shí)點(diǎn),如科技術(shù)語(yǔ)、內(nèi)容主題和相關(guān)科研對(duì)象等,進(jìn)行自動(dòng)標(biāo)注,實(shí)現(xiàn)科技文獻(xiàn)有效組織、知識(shí)揭示和知識(shí)化關(guān)聯(lián),實(shí)現(xiàn)“分類(lèi)號(hào)(類(lèi)目詞)主題詞關(guān)鍵詞”的一體化應(yīng)用,達(dá)到自然語(yǔ)言到檢索語(yǔ)言的規(guī)范控制,可以提高查全率和查準(zhǔn)率,提升檢索
22、效率。3.2學(xué)科導(dǎo)航應(yīng)用在網(wǎng)絡(luò)環(huán)境下,通過(guò)信息獲取平臺(tái)系統(tǒng),用戶(hù)可以非常便利地使用主題和分類(lèi)兩種方法獲取信息。修訂改造后的新型漢表,將會(huì)建成主題分類(lèi)一體化敘詞表,用戶(hù)如果習(xí)慣從學(xué)科分類(lèi)入口瀏覽查詢(xún)相關(guān)信息,則可以選擇范疇分類(lèi)信息,從學(xué)科知識(shí)的頂層,逐層向下瀏覽,直到獲得自己需要的類(lèi)目以及相應(yīng)的信息;用戶(hù)也可以通過(guò)敘詞表可視化技術(shù),瀏覽新型漢表詞族知識(shí)概念體系,推薦的概念知識(shí)體系,直接瀏覽檢索需要的信息。3.3智能檢索應(yīng)用網(wǎng)絡(luò)用戶(hù)的主要活動(dòng)是檢索信息,通過(guò)網(wǎng)絡(luò)獲取信息已經(jīng)成為普通網(wǎng)絡(luò)用戶(hù)的常規(guī)方法。經(jīng)過(guò)修訂改造后的新型漢表,同時(shí)具備了分類(lèi)表、敘詞表和本體的共同屬性,能夠?qū)崿F(xiàn)不同顆粒度的智能查詢(xún)與
23、檢索功能,可以是分類(lèi)水平上的范疇類(lèi)目體系的批量文獻(xiàn)信息獲取,也可以是主題詞匯概念級(jí)別的擴(kuò)檢與縮檢,甚至是知識(shí)本體意義上的概念關(guān)系級(jí)別智能推理檢索和語(yǔ)義相似度聚類(lèi),結(jié)合其他詞表映射融合等多種不同方法,實(shí)現(xiàn)不同目的和條件下的智能檢索。3.4知識(shí)學(xué)習(xí)應(yīng)用網(wǎng)絡(luò)環(huán)境下新型漢表將是領(lǐng)域?qū)<遗c在線用戶(hù)知識(shí)體系的最新成果。敘詞表本身就是領(lǐng)域知識(shí)的結(jié)晶,經(jīng)過(guò)向范疇分類(lèi)、向概念關(guān)系細(xì)化、向定義注釋等多個(gè)方向發(fā)展,它甚至可以具備網(wǎng)絡(luò)百科的功能,成為網(wǎng)絡(luò)用戶(hù)日常工作中的必備知識(shí)工具。對(duì)知識(shí)管理機(jī)構(gòu)來(lái)說(shuō),可以利用可視化等多種信息技術(shù),將敘詞表用于研制開(kāi)發(fā)智能知識(shí)機(jī)器人、甚至知識(shí)博物館等未來(lái)產(chǎn)品。從漢語(yǔ)規(guī)范化角度出發(fā),新
24、型敘詞表也是用戶(hù)查找和檢索規(guī)范專(zhuān)業(yè)詞匯、基礎(chǔ)詞匯和通用詞匯的常用工具,具備著詞典的功能。3.5文本信息處理應(yīng)用網(wǎng)絡(luò)環(huán)境下新型漢表由一系列詞匯庫(kù)組成,可根據(jù)不同目的,用于切詞、信息抽取、聚類(lèi)、詞頻統(tǒng)計(jì)、情感分析等所有文本信息處理基礎(chǔ)工作,成為計(jì)算語(yǔ)言學(xué)的重要研究和應(yīng)用工具。反過(guò)來(lái),文本語(yǔ)言處理技術(shù)的改進(jìn)又可以促進(jìn)敘詞表的維護(hù)和應(yīng)用。文本信息處理應(yīng)用還包括:在跨語(yǔ)言檢索和機(jī)器翻譯等方面的應(yīng)用;通過(guò)新型漢表的英漢雙語(yǔ)對(duì)照,實(shí)現(xiàn)英漢雙語(yǔ)檢索功能等。利用新型漢表詞匯的系列英漢對(duì)應(yīng)詞庫(kù)及詞間關(guān)系,也可以為英漢機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)提供基礎(chǔ)語(yǔ)料,提高機(jī)器翻譯的準(zhǔn)確性。利用新型漢表的詞匯、術(shù)語(yǔ)、概念等語(yǔ)料詞匯系統(tǒng)
25、,還可以開(kāi)展研究熱點(diǎn)領(lǐng)域監(jiān)測(cè)、專(zhuān)業(yè)知識(shí)挖掘、領(lǐng)域知識(shí)聚類(lèi)等計(jì)算語(yǔ)言學(xué)相關(guān)的系列應(yīng)用。4 結(jié)語(yǔ)歷史上的漢表在我國(guó)圖書(shū)情報(bào)界具有重大影響,是當(dāng)時(shí)信息組織與檢索的重要基礎(chǔ)工具。在網(wǎng)絡(luò)時(shí)代,修訂改造后的新型漢表將朝著數(shù)字化與網(wǎng)絡(luò)化、語(yǔ)義化、標(biāo)準(zhǔn)化、互操作化和可視化等方向發(fā)展。隨著時(shí)代的變遷,傳統(tǒng)漢表的應(yīng)用將成為經(jīng)典的方式,新型漢表的建設(shè)探索,將變成普及和主流的應(yīng)用。新型漢表將吸收不同知識(shí)組織體系的優(yōu)點(diǎn),在機(jī)器語(yǔ)言表達(dá)和概念關(guān)系細(xì)化等方面進(jìn)行改造,通過(guò)計(jì)算機(jī)化表達(dá)基于海量的數(shù)字信息數(shù)據(jù),更好地層現(xiàn)人類(lèi)已經(jīng)獲得的領(lǐng)域知識(shí);通過(guò)計(jì)算機(jī)的邏輯計(jì)算和推理,自動(dòng)或半自動(dòng)獲取概念以及概念關(guān)系,并邀請(qǐng)領(lǐng)域?qū)<覍?duì)相關(guān)知識(shí)進(jìn)行認(rèn)定和補(bǔ)充。從而,不斷發(fā)展和完善知識(shí)表達(dá),嵌入機(jī)器應(yīng)用,達(dá)到智能檢索、主題分類(lèi)一體化和知識(shí)導(dǎo)航功能,同時(shí),概念關(guān)系和屬性實(shí)例將進(jìn)一步細(xì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年國(guó)家定點(diǎn)醫(yī)療機(jī)構(gòu)江山路社區(qū)衛(wèi)生服務(wù)中心招聘10人備考題庫(kù)含答案詳解
- 2026年城發(fā)水務(wù)(長(zhǎng)垣市)有限公司招聘?jìng)淇碱}庫(kù)及一套答案詳解
- 2026年1月?lián)P州市江都區(qū)大橋中心衛(wèi)生院公開(kāi)招聘編外合同制護(hù)理人員備考題庫(kù)及一套答案詳解
- 2026年凱欣糧油有限公司招聘?jìng)淇碱}庫(kù)完整答案詳解
- 2026年中旅保險(xiǎn)經(jīng)紀(jì)有限公司招聘?jìng)淇碱}庫(kù)及答案詳解參考
- 2026年遼寧省普通高中學(xué)業(yè)水平合格性考試沈陽(yáng)市數(shù)學(xué)模擬試卷(一)【含答案詳解】
- 審計(jì)師內(nèi)控制度規(guī)定
- 賬務(wù)室內(nèi)控制度
- 保險(xiǎn)公司運(yùn)營(yíng)內(nèi)控制度
- 養(yǎng)老基金管理內(nèi)控制度
- 2025年新修訂版《森林草原防滅火條例》全文+修訂宣貫解讀課件(原創(chuàng))
- 2025年秋魯教版(新教材)小學(xué)信息科技三年級(jí)上冊(cè)期末綜合測(cè)試卷及答案(三套)
- 工業(yè)設(shè)計(jì)工作流程及標(biāo)準(zhǔn)教程
- 2025年放射技師考試真題及答案
- 《好睡新的睡眠科學(xué)與醫(yī)學(xué)》閱讀筆記
- GB 20101-2025涂裝有機(jī)廢氣凈化裝置安全技術(shù)要求
- 熔鋁爐施工方案及流程
- 折彎工技能等級(jí)評(píng)定標(biāo)準(zhǔn)
- 全屋定制家具合同
- 2025年私人銀行行業(yè)分析報(bào)告及未來(lái)發(fā)展趨勢(shì)預(yù)測(cè)
- (正式版)DB32∕T 5179-2025 《智能建筑工程檢測(cè)與施工質(zhì)量驗(yàn)收規(guī)程》
評(píng)論
0/150
提交評(píng)論