(計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)論文)基于語(yǔ)義相關(guān)性的xml關(guān)鍵字查詢的研究與實(shí)現(xiàn).pdf_第1頁(yè)
(計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)論文)基于語(yǔ)義相關(guān)性的xml關(guān)鍵字查詢的研究與實(shí)現(xiàn).pdf_第2頁(yè)
(計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)論文)基于語(yǔ)義相關(guān)性的xml關(guān)鍵字查詢的研究與實(shí)現(xiàn).pdf_第3頁(yè)
(計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)論文)基于語(yǔ)義相關(guān)性的xml關(guān)鍵字查詢的研究與實(shí)現(xiàn).pdf_第4頁(yè)
(計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)論文)基于語(yǔ)義相關(guān)性的xml關(guān)鍵字查詢的研究與實(shí)現(xiàn).pdf_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)論文)基于語(yǔ)義相關(guān)性的xml關(guān)鍵字查詢的研究與實(shí)現(xiàn).pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 在網(wǎng)絡(luò)技術(shù)飛速發(fā)展的同時(shí),w e b 上涌現(xiàn)出的數(shù)據(jù)也呈指數(shù)級(jí)增長(zhǎng)x m l 逐 漸成為互聯(lián)網(wǎng)上描述和交換信息的標(biāo)準(zhǔn)格式,廣泛應(yīng)用于電子商務(wù)、數(shù)字圖書(shū)館 等應(yīng)用實(shí)例和產(chǎn)品x m l 文檔集檢索的有效性成為研究一個(gè)重要方向 x m l 關(guān)鍵字查詢近年來(lái)成為x m l 數(shù)據(jù)檢索的一個(gè)研究熱點(diǎn)相較于x m l 查詢語(yǔ)言,如x q u e 巧等,x m l 關(guān)鍵字查詢有其獨(dú)特的優(yōu)勢(shì)用戶不需要額外學(xué) 習(xí)復(fù)雜的查詢語(yǔ)言,也不需要深入了解查詢信息的內(nèi)部底層結(jié)構(gòu),只需要提供相 關(guān)內(nèi)容的關(guān)鍵字就可以實(shí)現(xiàn)數(shù)據(jù)的檢索同時(shí)x m l 關(guān)鍵字檢索以元素為粒度進(jìn) 行,結(jié)果只返回包含用戶提供的全部關(guān)鍵字的x m l 文檔片段,提高了檢索的速度 論文的主要研究?jī)?nèi)容如下:將x m l 樹(shù)中實(shí)體節(jié)點(diǎn)和屬性節(jié)點(diǎn)類比于數(shù)據(jù)庫(kù)中 e r 模型的實(shí)體和屬性,提出實(shí)體子樹(shù)的概念,并將實(shí)體子樹(shù)做為語(yǔ)義相關(guān)單元的 基本元素定義了標(biāo)識(shí)節(jié)點(diǎn)語(yǔ)義信息的語(yǔ)義三元組,從而將關(guān)鍵字和特定的環(huán)境 語(yǔ)義關(guān)聯(lián)在一起用戶提前確定關(guān)鍵字的語(yǔ)義,可以提高查詢結(jié)果與用戶查詢意 圖相匹配的幾率將關(guān)鍵字分為主關(guān)鍵字和從關(guān)鍵字,在查詢過(guò)程中過(guò)濾從關(guān)鍵 字,僅保留主關(guān)鍵字可以減少查詢的范圍,提高查詢的效率在x m l 關(guān)鍵字查詢 過(guò)程中定義了關(guān)鍵字匹配節(jié)點(diǎn)間的語(yǔ)義相關(guān)性,通過(guò)尋找關(guān)鍵字的相關(guān)語(yǔ)義單元 提高了查詢結(jié)果的語(yǔ)義相關(guān)性在上述內(nèi)容的基礎(chǔ)上描述并實(shí)現(xiàn)了基于語(yǔ)義相關(guān) 性的關(guān)鍵字查詢算法由于關(guān)系型存儲(chǔ)具有嚴(yán)密的理論及成熟的實(shí)現(xiàn)技術(shù),x m l 信息的后臺(tái)存儲(chǔ)利用關(guān)系數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)最后將基于語(yǔ)義相關(guān)性的關(guān)鍵字查詢方 法和m l c a 方法的查詢結(jié)果進(jìn)行比較實(shí)驗(yàn)表明,基于語(yǔ)義相關(guān)性的關(guān)鍵字查詢 方法更好地表達(dá)了用戶的查詢意圖,在查詢的有效性和查詢效率上都有較大改進(jìn) 關(guān)鍵詞:x m l ;語(yǔ)義相關(guān)性;關(guān)鍵字查詢;實(shí)體子樹(shù);關(guān)系數(shù)據(jù)庫(kù) 分類號(hào): i t 3 1 l a bs t r a c t w i t ht h ed e v e l o p m e n to ft h en e t w o r kt e c h n o l o g y , l a r g ea m o u n to fd a t ac o m ef o m i e x p o n e n t i a l l yi nt h ew e b x m li sb e c o m i n gt h es t a n d a r dt od e s c r i b ea n de x c h a n g e h i f o r m a t i o no nt h ei n t e r n e t x m li sw i d e l yu s e di ne - c o l n m e r c e ,i n f o r m a t i o ns y s t e m s , m , dd i g i t a ll i b r a r i e sa n ds o0 1 1 n a t u r a l l y , e f f i c i e n ti n f o r m a t i o nr e t r i e v a lf r o mt h e s e g r e a t , u n o u n t so fx m ld o c u m e n t si sb e c o m i n ge x t r e m e l y i m p o r t a n t x m l k e y w o r ds e a r c hb e c o m e sar e s e a r c hh o t s p o ti nx m ld a t as e a r c h i n gf i e l di n r e c e n ty e a r s c o m p a r e dw i t hx q u e r ya n do t h e rx m l q u e r yl a n g u a g e ,x m lk e y w o r d s e a r c hh a si t su n i q u ea d v a n t a g e s t h ec u s t o m e rd o e s n tn e e dt os t u d y c o m p l i c a t e dq u e r y l a n g u a g e ,n o rn e e dt oh a v et h o r o u g hu n d e r s t a n d i n go ft h es t r u c t u r eo ft h ex m l d o c u m e n t i nf a c t , t h ec u s t o m e ro n l yn e e d st o s u p p l yt h ek e y w o r d sr e l a t e dt ot h e c o n t e n t sh ei si n t e r e s t e di n ,t h e nt h er e s u l tc a nb er e t u m e d f u r t h e r m o r e ,b e c a u s et h e g l a n u l a r i t yo fx m lk e y w o r ds e a r c hi sb a s e do ne l e m e n t s ,i tc a no n l yr e t u r nt h ep a r t so f t h ed o c u m e n ti n c l u d i n gak e y w o r ds ot h a tt h es e a r c hi se f f i c i e n t t h em a i nr e s e a r c h f u lc o n t e n t so ft h et h e s i sa r ea sf o l l o w s :c o m p a r i n ge n t i t y - n o d e , a t t r i b u t e - n o d eo ft h ee rm o d e lw i t hx m u s ,w ed e f i n e de n t i t ys u bt r e ea sa ne l e m e n t ot s e m a n t i c a l l yr e l e v a n tu n i t w ed e f i n e dt h es e m a n t i cr e l e v a n c eo f k e y w o r dm a t c h i n g n o d e sw h i c hm a k e se a c hk e y w o r db er e l a t e dt oi t sc o r r e s p o n d i n gc o n t e x ts e m a n t i c s t h i sa l l o w su s e r st oc h o o s ep a r t i c u l a rs e m a n t i c sw h i c hm a k e st h er e s u l tm a t c hu s 6 t s r e a li n t e n t i o n sf o rq u e r y i n g w ed i v i d e dk e y w o r d si n t op r i m a r yk e y w o r d sa n dl e s s e r k e y w o r d st oi m p r o v eq u e r ye f f i c i e n c y f i n d i n gs e m a n t i c a l l yr e l e v a r i tu n i t si m p r o v e st h e s e m a n t i cr e l e v a n c eo ft h er e s u l t b a s e do nt h ea b o v e ,w ed e s c r i b e da n di m p l e m e n t e d x m lk e y w o r ds e a r c ha r i t h m e t i cb a s e do ns e m a n t i cr e l e v a n c e b e c a u s er e l a t i o n a l d a t a b a s eh a ss t r i at h e o r ya n dm a t u r et e c h n o l o g y , w eu s ei t t os t o r et h ex m l i n f o r m a t i o n t h er e s u l to fo u re x p e r i m e n t sd e m o n s t r a t e st h ee f f e c t i v e n e s sa n dt h e e f f i c e n c yo ft h en e wq u e r ym e t h o d ,a n di td o e sb e t t e ri ne x p r e s s i n gt h eu s e r sq u e r y i n g i n t e n t i o n k e y w o r d s :x m l ;s e m a n t i cr e l e v a n c e ;k e y w o r ds e a r c h ;e n t i t ys u b t r e e ;r e l a t i o n a l d a t a b a s e c i a s s n o :t p 3 1 1 獨(dú)創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作和取得的研 究成果,除了文中特別加以標(biāo)注和致謝之處外,論文中不包含其他人已經(jīng)發(fā)表或 撰寫(xiě)過(guò)的研究成果,也不包含為獲得北京交通大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書(shū) 而使用過(guò)的材料與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作 了明確的說(shuō)明并表示了謝意 學(xué)位論文作者簽名:塌 簽字日期:勿。7 年月j7 日 學(xué)位論文版權(quán)使用授權(quán)書(shū) 本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定特 授權(quán)北京交通大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索, 并采用影印、縮印或掃描等復(fù)制手段保存、匯編以供查閱和借閱同意學(xué)校向國(guó) 家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤 ( 保密的學(xué)位論文在解密后適用本授權(quán)說(shuō)明) 學(xué)位論文作者簽名: 嘶 導(dǎo)師簽名: 簽字日期:沙1 年石月17 日 簽字日期: f6 只卜 致謝 在撰寫(xiě)整個(gè)論文的過(guò)程中,我的導(dǎo)師王寧副教授給了我細(xì)心的指導(dǎo)和無(wú)盡的 關(guān)懷無(wú)論從論文的選題、撰寫(xiě),直至最終定稿,王老師都在耐心地指導(dǎo)我,幫 助我逐步理清思路,最終完成本論文 我在攻讀碩士研究生期間,深深受益于王老師的關(guān)心和指導(dǎo)在學(xué)習(xí)上,王 老師一方面對(duì)我嚴(yán)格要求,另一方面又給予充分的信任,當(dāng)我遇到困惑時(shí)常常能 夠點(diǎn)撥迷津、提出關(guān)鍵問(wèn)題,使我茅塞頓開(kāi)王老師淵博的學(xué)識(shí)、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài) 度和勤奮務(wù)實(shí)的工作態(tài)度讓我受益匪淺在生活和為人上,王老師更是給予我無(wú) 微不至的關(guān)懷,不僅勉勵(lì)我自勵(lì)上進(jìn),更時(shí)刻教育我要正品端德在此,我對(duì)恩 師表示最崇高的敬意和最誠(chéng)摯的感謝! 此外,還要感謝師兄藺旭東博士在藺師兄的指導(dǎo)下,我逐漸融入了實(shí)驗(yàn)室 這個(gè)大家庭,能夠較好地適應(yīng)在實(shí)驗(yàn)室的研究生活在完成課題的過(guò)程中,他給 了我很多幫助在與藺師兄的交流和探討中,我才逐漸發(fā)現(xiàn)問(wèn)題并理清思路,最 終完成論文的撰寫(xiě) 在實(shí)驗(yàn)室工作及撰寫(xiě)論文期間,袁玲、馮浩、程友忠、王東偉等同學(xué)對(duì)我論 文中的研究工作給予了熱情幫助,在此向他們表達(dá)我的感激之情 感謝我的父母,他們的理解和支持使我能夠在學(xué)校專心完成學(xué)業(yè) 最后,衷心地感謝在百忙之中審閱論文的各位老師和專家,懇請(qǐng)各位老師多 多批評(píng)指正,并提出寶貴的意見(jiàn) 1 引言 當(dāng)網(wǎng)絡(luò)技術(shù)飛速發(fā)展的同時(shí),w e b 上涌現(xiàn)出了大量的數(shù)據(jù)而隨著x m l 逐漸 成為互聯(lián)網(wǎng)上信息描述和信息交換的標(biāo)準(zhǔn)格式,互聯(lián)網(wǎng)上符合x(chóng) m l 規(guī)范的數(shù)據(jù)也 越來(lái)越多地存在于當(dāng)前的信息社會(huì)中,大量的w e b 應(yīng)用,如電子商務(wù)、數(shù)字圖書(shū) 館、網(wǎng)格、咨詢系統(tǒng)等采用x m l 作為數(shù)據(jù)的表示形式因此,用戶如何有效地查 詢x m l 文檔成為一個(gè)重要的研究方向 1 1 研究背景 x m l 查詢方式可以分為兩類:x m lq u e r y 查詢模式和關(guān)鍵字查詢 x m lq u e r y 查詢模式主要利用結(jié)構(gòu)化查詢語(yǔ)言實(shí)現(xiàn)x m l 文檔的查詢這類結(jié) 構(gòu)化查詢語(yǔ)言,如x p a t h 、x q u e 2 1 和x m l q l 3 】等,通過(guò)定義格式良好的,復(fù) 雜精確的描述語(yǔ)言,采用正則表達(dá)式【4 棚,從結(jié)構(gòu)上來(lái)尋找x m l 數(shù)據(jù)單元之間的 關(guān)系和內(nèi)容,進(jìn)而搜索x m l 數(shù)據(jù)因此,它可以獲得準(zhǔn)確的預(yù)期數(shù)據(jù)但是這類 查詢方式有明顯的缺陷:首先,大多數(shù)的普通用戶并不了解或熟悉查詢語(yǔ)言的相 關(guān)語(yǔ)法機(jī)制,即不會(huì)使用結(jié)構(gòu)化查詢語(yǔ)言其次,即便用戶掌握了查詢語(yǔ)言,對(duì) 于結(jié)構(gòu)查詢而言,用戶仍然需要了解所查詢x m l 文檔的數(shù)據(jù)組織情況,才能夠構(gòu) 造查詢表達(dá)式但是大多數(shù)的x m l 文檔并沒(méi)有提供其結(jié)構(gòu)信息即使存在文檔結(jié) 構(gòu)說(shuō)明,對(duì)相同的查詢也要為每個(gè)異構(gòu)文檔編寫(xiě)不同的查詢表達(dá)式 與結(jié)構(gòu)化查詢相比,關(guān)鍵字查詢最大的優(yōu)勢(shì)在于它的簡(jiǎn)單易用性對(duì)用戶來(lái) 說(shuō),他們只需要提供簡(jiǎn)單的關(guān)鍵字信息,而不需要掌握復(fù)雜的查詢語(yǔ)言,也不需 要了解所查詢的目標(biāo)x m l 文檔的數(shù)據(jù)結(jié)構(gòu)就可以實(shí)現(xiàn)數(shù)據(jù)的檢索,這大大方便了 普通用戶的使用 雖然x m l 關(guān)鍵詞查詢和傳統(tǒng)的信息檢索技術(shù)的查詢表達(dá)式均為若干關(guān)鍵字, 但兩者有著顯著的區(qū)別在傳統(tǒng)的信息檢索中,查詢的目標(biāo)是整個(gè)文檔,查詢返 回的結(jié)果也是整個(gè)文檔,即:只要某個(gè)文件中包含查詢表達(dá)式中所有的關(guān)鍵字, 就將整個(gè)文檔其作為一個(gè)查詢結(jié)果返回與傳統(tǒng)的信息檢索技術(shù)不同,在x m l 文 檔關(guān)鍵字查詢中,查詢對(duì)象有可能是單個(gè)的、包含大量?jī)?nèi)容信息的x m l 文檔,而 查詢返回的結(jié)果是該x m l 文檔的一些片段 1 2 研究現(xiàn)狀 國(guó)外對(duì)x m l 數(shù)據(jù)的信息檢索研究開(kāi)始于2 0 0 1 年【7 】,為了對(duì)研究者的x m l 檢 索方法進(jìn)行統(tǒng)一評(píng)估,同時(shí)也為研究機(jī)構(gòu)比較其成果提供一個(gè)論壇,在2 0 0 2 年, 歐洲d e l o sn e t w o r ko fe x c e l l e n c ef o rd i g i t a ll i b r a r i e s 與i e e ec o m p u t e rs o c i e t y 共 同啟動(dòng)i n i t i a t i v eo f e v a l u a t i o nf o rx m lr e t r i e v a l ( 斟d e x ) 創(chuàng)新活動(dòng)每年都有眾 多研究機(jī)構(gòu)與學(xué)者在i n d e x 的會(huì)議上參與x m l 信息檢索問(wèn)題的討論 目前,x m l 關(guān)鍵字查詢算法大都是在樹(shù)型存儲(chǔ)模型上展開(kāi),以l c a ( l o w e s t c o m m o n a n c e s t o r ) 來(lái)判斷x m l 文檔中的任意兩個(gè)節(jié)點(diǎn)是否語(yǔ)義相關(guān),利用d e w e y 編碼等編碼方式記錄節(jié)點(diǎn)間的層次關(guān)系已有的方法包括e q u i x 8 1 ,m e e t l 9 1 , m l c a 10 1 ,x s e a r c h 1 ,x r a l l k 【12 1 ,s l c a 1 3 】等由s a r ac o h e n 等人提出的e q u i x 是搜索x m l 的語(yǔ)言,它提供了圖形化的抽象語(yǔ)法和有形的具體語(yǔ)法來(lái)支持e q u i x 查詢,并結(jié)合了模式匹配,用逐步增加匹配節(jié)點(diǎn)的方法對(duì)匹配節(jié)點(diǎn)集所包含的信 息進(jìn)行約束此后他們又提出了x s e a r c h 算法,x s e a r c h 是一個(gè)基于關(guān)鍵詞語(yǔ)義 的x m l 搜索引擎,它為那些普通用戶提供了簡(jiǎn)單的查詢語(yǔ)言,返回語(yǔ)義相關(guān)的文 檔片段x s e a r c h 允許用戶指定標(biāo)簽關(guān)鍵字對(duì),并為非完全結(jié)構(gòu)n f s ( n o n f u l l s t r u c t u r e ) 查詢結(jié)果的判斷提供了i n t e r c o n n e c t i o nr e l a t i o n s h i p ,即互聯(lián)判斷標(biāo)準(zhǔn)和 方法具體而言,對(duì)于x m l 文檔中的兩個(gè)節(jié)點(diǎn),若在連接這兩個(gè)節(jié)點(diǎn)的路徑上沒(méi) 有出現(xiàn)兩個(gè)相同標(biāo)簽的節(jié)點(diǎn),則認(rèn)為它們語(yǔ)義相關(guān);否則認(rèn)為兩者不相 關(guān)i n t e r c o n n e c t i o n 這種判別方法具有其合理性,能夠起到較好的語(yǔ)義區(qū)分作用, 但x s e a r c h 的不足之處在于,若它預(yù)先計(jì)算所有節(jié)點(diǎn)對(duì)之間是否相關(guān),就需要占 用大量的存儲(chǔ)空間,而在查詢時(shí)即時(shí)判斷節(jié)點(diǎn)對(duì)之間的關(guān)系需要涉及遞歸計(jì)算, 時(shí)間效率較低,特別是在x m l 文檔深度較大時(shí)更加耗費(fèi)時(shí)間m e e t 運(yùn)算返回節(jié) 點(diǎn)的最小公共祖先( l c a ) 它提出了一種遞歸計(jì)算l c a 的算法,但是沒(méi)有考慮 節(jié)點(diǎn)的語(yǔ)義相關(guān)性問(wèn)題,所以查詢的準(zhǔn)確率往往較低密歇根大學(xué)的y u n y a ol i 等 人在l c a 的基礎(chǔ)上提出m l c a ( m e a n i n g f u ll c a ) 的概念對(duì)于m l c a 而言, x m l 文檔中的節(jié)點(diǎn)只與某個(gè)節(jié)點(diǎn)集合中與其最近的節(jié)點(diǎn)語(yǔ)義相關(guān)m l c a 的判斷 標(biāo)準(zhǔn)在大多數(shù)情況下都是適用的,能夠得到用戶滿意的查詢結(jié)果m l c a 通過(guò)向 x q u e r y 添加一些新的功能來(lái)自動(dòng)計(jì)算有意義的匹配節(jié)點(diǎn)集m l c a s ( m e a n i n g f u l l o w e s tc o m m o na n c e s t o rs t r u c m r e ) ,并擴(kuò)展不明確的標(biāo)簽名m l c a 的查詢語(yǔ)言 使用擴(kuò)展的x q u e r y 語(yǔ)言,因此要求用戶在編寫(xiě)查詢表達(dá)式時(shí)預(yù)先知道文檔的結(jié) 構(gòu),并且對(duì)于不同的x m l 文檔,需要編寫(xiě)不同的查詢表達(dá)式x r a n k 是最早考慮 到x m l 文檔的分層和超鏈接結(jié)構(gòu),以及關(guān)鍵詞二維接近概念的x m l 檢索系統(tǒng)它 提出了一種基于棧的l c a 算法,給出了關(guān)鍵字在x m l 文檔上的相似查詢,通過(guò) 2 e l e m r a n k 來(lái)衡量x m l 元素的客觀重要性,采用類似于p a g e r a n k 的算法,并考慮 到x m l 的嵌套結(jié)構(gòu)來(lái)計(jì)算不同x m l 元素的排序,但x r a n k 不區(qū)分關(guān)鍵字和標(biāo)簽, 同樣沒(méi)有考慮l c a 的語(yǔ)義加利福尼亞大學(xué)的y a n n i sp a p a k o n s t a n t i n o u 等人提出 s m a l l e s tl o w e s tc o m m o na n c e s t o r ( s l c a ) 的概念,使得基于結(jié)構(gòu)的x m l 關(guān)鍵字 查詢的研究達(dá)到了一個(gè)新的水平,并且提出i n d e x e dl o o k u pe a g e r ( i l e ) 、s c a ne a g e r ( s e ) 和s t a c k 算法,s l c a 利用特殊的b + 樹(shù)索引提高檢索效率盡管上述各種 方法在實(shí)現(xiàn)細(xì)節(jié)上有所不同,但它們的查詢都分為兩個(gè)階段進(jìn)行:首先根據(jù)關(guān)鍵 字找到匹配節(jié)點(diǎn)集,然后從匹配節(jié)點(diǎn)集生成結(jié)果集從這一特點(diǎn),我們不難看出 使用原始算法進(jìn)行關(guān)鍵字查詢的缺陷對(duì)于第一階段,根據(jù)關(guān)鍵字找到的匹配節(jié) 點(diǎn)集往往比較大,難免對(duì)后續(xù)計(jì)算的效率帶來(lái)不利影響;在第二階段,由于節(jié)點(diǎn) 間節(jié)點(diǎn)關(guān)系只通過(guò)編碼加以保持,因此,在關(guān)鍵字匹配節(jié)點(diǎn)存在缺失時(shí),會(huì)產(chǎn)生 節(jié)點(diǎn)組合的有效性問(wèn)題,即結(jié)果中關(guān)鍵字匹配節(jié)點(diǎn)的組合是否是用戶真正關(guān)心的 信息,這需要進(jìn)行有效性判斷運(yùn)算,會(huì)對(duì)算法效率產(chǎn)生不利影響 也有人對(duì)關(guān)鍵字查詢的結(jié)果集進(jìn)行研究【1 4 一引y a n n i sp a p a k o n s t a n t i n o u 等人對(duì) 關(guān)鍵字在結(jié)果集中的連接方式進(jìn)行了重點(diǎn)研究,并提出s a 算法【1 4 1 ,有效的返回包 含關(guān)鍵字結(jié)點(diǎn)間的連接2 0 0 7 年,z i y a n gl i u 和y ic h e n 提出x s e e k 算法【l5 1 ,通 過(guò)參考結(jié)構(gòu)化查詢中將輸入關(guān)鍵字進(jìn)行分類的思想,將關(guān)鍵字分成兩類:指定查 詢條件的關(guān)鍵字和表明返回結(jié)果的關(guān)鍵字,以此體現(xiàn)更多的查詢語(yǔ)義,從而達(dá)到 減小結(jié)果集規(guī)模的目的但是,由于x s e e k 算法仍是在典型關(guān)鍵字查詢算法得到 的結(jié)果集的基礎(chǔ)上對(duì)結(jié)果集做進(jìn)一步的運(yùn)算,并且它的兩種類型的關(guān)鍵字沒(méi)有充 分發(fā)揮各自不同的作用,用戶的查詢意圖在多數(shù)情況下仍無(wú)法準(zhǔn)確捕捉 國(guó)內(nèi)對(duì)x m l 查詢的研究,一方面集中在x m l 數(shù)據(jù)的索引結(jié)構(gòu)【i 7 】上,包括 基于結(jié)構(gòu)連接的索引和基于路徑的索引【l8 1 ,現(xiàn)在的工作大多放在以數(shù)據(jù)為中心的 x m l 數(shù)據(jù)的數(shù)據(jù)庫(kù)存儲(chǔ)和檢索技術(shù)上另一方面主要是研究基于關(guān)鍵詞的x m l 檢索模型1 9 。2 們國(guó)內(nèi)的研究大多停留在數(shù)據(jù)庫(kù)領(lǐng)域,對(duì)信息檢索和數(shù)據(jù)庫(kù)的融合 的研究較少 由此我們可以看到,目前的研究工作沒(méi)有有效地解決x m l 文檔關(guān)鍵字查詢所 存在的問(wèn)題有些沒(méi)有考慮查詢結(jié)果的語(yǔ)義問(wèn)題,有些需要復(fù)雜的有效性驗(yàn)證, 有些實(shí)現(xiàn)技術(shù)的時(shí)間、空間復(fù)雜度較高 1 3 本文完成的工作 隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和網(wǎng)絡(luò)上數(shù)據(jù)的快速增加,x m l 逐漸成為了一種 描述信息和交換信息的標(biāo)準(zhǔn),對(duì)x m l 數(shù)據(jù)的查詢也逐漸增多所以,如何能夠簡(jiǎn) 3 單并有效地查詢x m l 文檔成為一個(gè)研究的熱點(diǎn) 對(duì)用戶來(lái)說(shuō),關(guān)鍵字查詢方法簡(jiǎn)單,具有易操作性但典型的關(guān)鍵字查詢過(guò) 分地強(qiáng)調(diào)了節(jié)點(diǎn)之間的結(jié)構(gòu)信息,而沒(méi)有充分利用節(jié)點(diǎn)之間的語(yǔ)義相關(guān)性,導(dǎo)致 查詢結(jié)果包含了許多沒(méi)有意義的節(jié)點(diǎn) 在上述背景之下,本文完成的工作是: 首先,介紹了x m l 查詢的研究背景,總結(jié)了目前x m l 關(guān)鍵字查詢的研 究?jī)?nèi)容和方向 其次,敘述了x m l 的基礎(chǔ)理論,x m lq u e r y 查詢模式和x m l 關(guān)鍵字查 詢的相關(guān)技術(shù)基礎(chǔ)理論部分主要介紹了x m l 的基本概念、x m l 相關(guān) 技術(shù)規(guī)范和標(biāo)準(zhǔn)和x m l 的應(yīng)用x m lq u e r y 查詢模式介紹了x m l 查詢 語(yǔ)言x p a t h 和x q u e r y x m l 關(guān)鍵字查詢的相關(guān)技術(shù)部分重點(diǎn)敘述了關(guān)鍵 字查詢的理論基礎(chǔ),包括x m l 樹(shù)型結(jié)構(gòu),d e w e y 編碼,關(guān)鍵字匹配的s l c a 方法以及怎樣用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)x m l 文件 第三,在分析過(guò)典型的關(guān)鍵字查詢方法的不足之后,給出了關(guān)鍵字環(huán)境語(yǔ) 義的概念,使用戶能夠選擇關(guān)鍵字的語(yǔ)義,以符合其查詢意圖;進(jìn)一步將 關(guān)鍵字區(qū)分為主關(guān)鍵字和次關(guān)鍵字,用來(lái)提高查詢效率類比關(guān)系數(shù)據(jù)庫(kù) 中的e r 模型,提出了實(shí)體子樹(shù)的概念,定義了關(guān)鍵字匹配節(jié)點(diǎn)之間的語(yǔ) 義相關(guān)性,通過(guò)語(yǔ)義相關(guān)單元的概念來(lái)提高查詢結(jié)果的語(yǔ)義相關(guān)性隨后 給出了完整的查詢算法及具體的實(shí)現(xiàn)過(guò)程 最后,通過(guò)實(shí)驗(yàn)比較了新的基于語(yǔ)義相關(guān)性的x m l 關(guān)鍵字查詢方法和傳 統(tǒng)關(guān)鍵字查詢m l c a 方法的有效性和效率有效性實(shí)驗(yàn)主要對(duì)比了兩種 查詢方法的查全率和查準(zhǔn)率效率測(cè)試實(shí)驗(yàn)主要從不同查詢用例的返回時(shí) 間、關(guān)鍵字的數(shù)目對(duì)返回時(shí)間的影響以及數(shù)據(jù)集的大小對(duì)返回時(shí)間的影響 3 個(gè)方面進(jìn)行兩種查詢方法的比較實(shí)驗(yàn)證明,基于語(yǔ)義相關(guān)性的x m l 關(guān)鍵字查詢方法可以返回更匹配的查詢結(jié)果,具有較高的查詢效率和準(zhǔn)確 度 1 4 論文的組織結(jié)構(gòu) 第1 章給出了課題的出發(fā)點(diǎn)以及研究的問(wèn)題及范圍,簡(jiǎn)要介紹了x m l 查詢領(lǐng) 域的研究背景、x m l 關(guān)鍵字查詢的研究現(xiàn)狀以及本文所完成的工作 第2 章介紹了與課題相關(guān)的一些理論背景包括x m l 的基本概念,x m lq u e r y 查詢模式和x m l 關(guān)鍵字查詢技術(shù)重點(diǎn)敘述了x m l 的關(guān)鍵字查詢技術(shù) 第3 章描述了算法的基礎(chǔ)知識(shí),算法的概要思想和算法的具體實(shí)現(xiàn) 4 第4 章給出了本文的實(shí)驗(yàn)過(guò)程和結(jié)果,證明了算法的優(yōu)勢(shì) 第5 章總結(jié)全文,對(duì)本文研究做了分析和總結(jié),并給出了未來(lái)的研究?jī)?nèi)容和 方向 圖1 1 是本文研究?jī)?nèi)容的組織結(jié)構(gòu)圖 圖1 1 論文的組織結(jié)構(gòu) f i g u r e l 1s t r u c t u r eo ft h et h e s i s 5 2x m l 關(guān)鍵字查詢基礎(chǔ) 隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們的工作、學(xué)習(xí)和生活方式發(fā)生了巨大的改變, 人們獲取知識(shí)和信息的途徑越來(lái)越多,網(wǎng)站和w 曲頁(yè)面等信息也急劇膨脹,h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ,超文本標(biāo)記語(yǔ)言) 開(kāi)始不能滿足網(wǎng)絡(luò)設(shè)計(jì)的需求, 逐漸暴露出其局限性h t m l 缺乏擴(kuò)展性,定義也較為模糊,會(huì)使錯(cuò)誤蔓延擴(kuò)展人 們需要一種標(biāo)準(zhǔn)化的、可擴(kuò)展的和具有嚴(yán)謹(jǐn)結(jié)構(gòu)的新語(yǔ)言,x m l 也因此孕育而 生最初x m l 的提出是為了增強(qiáng)應(yīng)用程序從w e b 上獲取文檔的解釋和操作能力, 之后人們對(duì)查詢這些文檔內(nèi)容的可能性產(chǎn)生極大的興趣隨著大量x m l 數(shù)據(jù)的出 現(xiàn),如何有效地存儲(chǔ)、管理和查詢這些x m l 數(shù)據(jù)成為研究的一個(gè)重要課題 用戶為了在數(shù)據(jù)量巨大的w e b 上查詢符合自己特定需求的信息,搜索引擎成 為一個(gè)十分重要的工具,而關(guān)鍵字查詢技術(shù)又是搜索引擎的核心支撐技術(shù)目前 通用的搜索引擎主要是針對(duì)靜態(tài)的h t m l 設(shè)計(jì)的但h t m l 只是一種簡(jiǎn)單的表示 語(yǔ)言,用來(lái)顯示內(nèi)容,并不能描述內(nèi)容,因此無(wú)法做到對(duì)檢索信息的精確定位, 從而導(dǎo)致查詢的結(jié)果極不精確,w e b 信息傳輸量巨大與h t m l 不同,x m l 是一 種開(kāi)放式的、自描述性的語(yǔ)言,它不僅可以定義數(shù)據(jù)的結(jié)構(gòu),也能描述數(shù)據(jù)的內(nèi) 容所以x m l 既可以看作是一種數(shù)據(jù)描述語(yǔ)言,也可以看作是一種標(biāo)識(shí)語(yǔ)言,它 使數(shù)據(jù)的結(jié)構(gòu)和表示相分離,也就讓基于知識(shí)、基于語(yǔ)義和基于內(nèi)容的搜索成為 可能 x m l 關(guān)鍵字搜索與h t m l 關(guān)鍵字搜索的最大區(qū)別在于兩者搜索結(jié)果的粒度不 同因?yàn)閔 t m l 文檔中的標(biāo)簽僅顯示指令而沒(méi)有任何語(yǔ)義信息,所以文檔很難分 割,h t m l 搜索結(jié)果的粒度是整個(gè)文檔而一般的h t m l 文檔的規(guī)模都不大,因 此可以直接將整個(gè)文檔返回給用戶相較之下,x m l 搜索結(jié)果的粒度是文檔的特 定片段x m l 文檔中的標(biāo)簽是包含一定語(yǔ)義信息的,它可以指出所包含的數(shù)據(jù)內(nèi) 容的含義正因如此,x m l 關(guān)鍵字搜索只需返回與用戶提交的關(guān)鍵字相關(guān)的x m l 文檔片段,而不需要返回用戶整個(gè)文檔一般來(lái)說(shuō),x m l 文檔的規(guī)模要比h t m l 文檔大很多,返回結(jié)果粒度的精細(xì)化能夠幫用戶過(guò)濾掉很多無(wú)用或不相關(guān)的信息, 提高了搜索的性能 x m l 關(guān)鍵字查詢技術(shù)的進(jìn)一步研究將有利于提高x m l 搜索的查詢效率及準(zhǔn) 確度,而廣泛使用x m l 技術(shù)的眾多應(yīng)用,如電子商務(wù),咨詢系統(tǒng)整合等也因此有 更進(jìn)一步的發(fā)展前景 6 2 1x m l 基本概念 x m l 是一種可擴(kuò)展的標(biāo)記語(yǔ)言,具有自描述性、可擴(kuò)展性以及數(shù)據(jù)的結(jié)構(gòu)和 表示相分離等特性下面我們具體介紹x m l 的基本概念,x m l 相關(guān)的技術(shù)規(guī)范 和標(biāo)準(zhǔn)以及x m l 的功能和應(yīng)用 2 1 1x m l 概述 2 0 世紀(jì)未6 0 年代初,i b m 公司為了解決不同專用格式創(chuàng)建的法律文件無(wú)法相 互移植的問(wèn)題,提出了通用標(biāo)記語(yǔ)言,后來(lái)建立了標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 19 8 6 年,國(guó)際標(biāo)準(zhǔn)化組織i s o 采用了 s g m l 1 9 9 6 年7 月,s g m l 專家和w 3 c ( w - o r l dw i d ew e bc o n s o r t i u m ) 組織了 一個(gè)s g m l 工作小組,但是s g m l 過(guò)于復(fù)雜,不適于在w w w 上使用而w e b 上的通用標(biāo)識(shí)語(yǔ)言h t m l ( s g m l 的一個(gè)子集) ,隨著互聯(lián)網(wǎng)的迅速發(fā)展也逐漸顯 示其不足之處h t m l 是用于描述數(shù)據(jù)的顯示形式而非描述數(shù)據(jù)本身,因此,在 w e b 上對(duì)h t m l 文檔內(nèi)含數(shù)據(jù)的處理顯得非常困難而且h t m l 僅支持固定及有 限的標(biāo)簽集,用戶無(wú)法根據(jù)自己的需要設(shè)置和添加有意義的、可以讓他人使用的 書(shū)i 記于是1 9 9 6 年1 1 月該工作小組提出了x m l 的初稿,并于1 9 9 8 年2 月正式 發(fā)布了x m l i 0 版 此后w 3 c 的x m l 工作組定義了x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可擴(kuò)展 的標(biāo)記語(yǔ)言) 對(duì)x m l 語(yǔ)言的描述【2 1 】如下:“x m l 是s g m l 的子集,其目標(biāo)是允 許普通的s g m l 在w e b 上以目前h t m l 的方式被服務(wù)、接收和處理x m l 被設(shè) 汁成易于實(shí)現(xiàn),且可在s g m l 和h t m l 之間相互操作 x m l 組合了其前語(yǔ)言 s g m l 強(qiáng)大的功能和可擴(kuò)展性,并達(dá)到了w e b 團(tuán)體要求的簡(jiǎn)潔性w 3 c 同樣闡述 了x m l 的l o 個(gè)設(shè)計(jì)目標(biāo)【2 1 】: x m l 應(yīng)該可以直接用于互聯(lián)網(wǎng); x m l 應(yīng)該支持各種應(yīng)用程序; x m l 應(yīng)該與s g m l 兼容; 編寫(xiě)處理x m l 文檔的應(yīng)用程序應(yīng)該很簡(jiǎn)單; x m l 中可選特性的數(shù)目應(yīng)該盡可能地少,理想情況是零; x m l 文檔應(yīng)該便于閱讀而且相當(dāng)清晰; x m l 的設(shè)計(jì)應(yīng)該很快準(zhǔn)備好; x m l 的設(shè)計(jì)應(yīng)該正式而且簡(jiǎn)潔; x m l 文檔應(yīng)該易于創(chuàng)建; 7 x m l 標(biāo)記的簡(jiǎn)潔性是最不重要的 x m l 是一種元標(biāo)記語(yǔ)言( m e t a - m a r k u pl a n g u a g e ) ,是一種把數(shù)據(jù)表示為一個(gè) 文本字符串的語(yǔ)言,這個(gè)文本字符串還包括用于描述數(shù)據(jù)的散布的“標(biāo)。i 己( t a g ) 使 用標(biāo)記允許把文本和與它的內(nèi)容或形式相關(guān)的信息散布在一起所以x m l 可以提 供描述結(jié)構(gòu)化資料的格式,是用于描述數(shù)據(jù)結(jié)構(gòu)的一種標(biāo)準(zhǔn),可以用于不同組織 間的數(shù)據(jù)交換h t m l 中數(shù)據(jù)的元素標(biāo)記用來(lái)表示數(shù)據(jù)的顯示,而x m l 中數(shù)據(jù)的 元素標(biāo)記用來(lái)表示數(shù)據(jù)的意義標(biāo)記提供了一種給文檔添加元內(nèi)容和結(jié)構(gòu)信息的 機(jī)制為了注釋,x m l 創(chuàng)建了標(biāo)記的層次元素是x m l 的基本組成,元素之間 可以包含或者嵌套子元素,從而表示數(shù)據(jù)之間的聯(lián)系一個(gè)x m l 文檔由嵌套的元 素層次結(jié)構(gòu)構(gòu)成,每個(gè)文檔有一個(gè)唯一的根節(jié)點(diǎn),一個(gè)元素有一個(gè)標(biāo)記,描述該 元素的含義,一個(gè)元素由從起始標(biāo)記到終止標(biāo)記的區(qū)域構(gòu)成,該區(qū)域可以是嵌套 的子元素,也可以是屬性或文本串值x m l 定義了語(yǔ)義標(biāo)記的規(guī)則,這些規(guī)則用 于創(chuàng)建標(biāo)記語(yǔ)言,并且可以使解析器處理所有新創(chuàng)建的標(biāo)記語(yǔ)言x m l 是能夠進(jìn) 行自描述( s e l f - d e s c r i b i n g ) 的語(yǔ)言,它的標(biāo)記并沒(méi)有預(yù)先定義,需要使用者自己 定義所需的標(biāo)記x m l 使用文檔類型定義d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 顯示數(shù) 據(jù),使用x s l 定義描述文檔顯示的機(jī)制,通過(guò)s a x 和d o m 技術(shù)來(lái)解析x m l 文 檔、使用x p a t h 和x q u e r y 等查詢語(yǔ)言進(jìn)行文檔查詢 與h t m l 相比,x m l 具有很多優(yōu)點(diǎn)和自己的特性: ( 1 ) 自描述性它允許實(shí)現(xiàn)者定義自己的一套標(biāo)記,也允許根據(jù)不同的規(guī)則 制定不同的標(biāo)記,從而實(shí)現(xiàn)了用定義自己的標(biāo)記集來(lái)說(shuō)明文檔內(nèi)容的功能,能夠 比較好地表現(xiàn)多種復(fù)雜的數(shù)據(jù)關(guān)系基于x m l 的應(yīng)用程序可以在x m l 文件中忽 略不相關(guān)的部分,準(zhǔn)確高效地搜索相關(guān)的數(shù)據(jù) ( 2 ) 可擴(kuò)展性x m l 是一種元語(yǔ)言,基于它提供的規(guī)則,可以任意定制標(biāo) 語(yǔ)言x m l 為注釋和標(biāo)記字符數(shù)據(jù)提供了一種可擴(kuò)展的機(jī)制,避免了h t m l 的重 載【2 2 1 標(biāo)記的可擴(kuò)展性,能夠使各種不同格式的數(shù)據(jù)比較容易地轉(zhuǎn)化為x m l 數(shù)據(jù) ( 3 ) 簡(jiǎn)單易用性x m l 的規(guī)則簡(jiǎn)單明了,這些規(guī)則可用于創(chuàng)建標(biāo)記語(yǔ)言, 也可以使解析器處理所有新創(chuàng)建的標(biāo)記語(yǔ)言x m l 不是專有的,它易于閱讀和編 寫(xiě),人和計(jì)算機(jī)均能夠很容易的理解x m l 文檔而且x m l 允許最佳的輸出格式, 如h t m l 等格式,并格式化應(yīng)用程序,這使它成為在不同的應(yīng)用之間交換數(shù)據(jù)的 理想格式【2 2 1 ( 4 ) 開(kāi)放的國(guó)際化標(biāo)準(zhǔn)x m l 是w 3 c 制定的開(kāi)放標(biāo)準(zhǔn),完全可用于w e b 和工具的開(kāi)發(fā),從而使基于x m l 的應(yīng)用具有廣泛性x m l 不僅能在不同的計(jì)算 機(jī)系統(tǒng)之間交換信息,而且能跨國(guó)界和超越不同文化疆界交換信息 ( 5 ) x m l 支持對(duì)文檔內(nèi)容的驗(yàn)證x m l 文檔的結(jié)構(gòu)和內(nèi)容由其語(yǔ)法定義如 8 文檔類型定義d t d 和x m l 模式 ( 6 ) 支持高級(jí)搜索由于文檔內(nèi)容的結(jié)構(gòu)和含義很容易了解,在搜索中還能 加入與數(shù)據(jù)相關(guān)的上下文信息,使得x m l 文檔的搜索更為容易和精確 ( 7 ) x m l 使數(shù)據(jù)的結(jié)構(gòu)和表示相分離這簡(jiǎn)化了應(yīng)用的開(kāi)發(fā)與維護(hù) ( 8 ) 具有集成數(shù)據(jù)和文檔的能力 通過(guò)一個(gè)簡(jiǎn)單的x m l 文檔示例圖2 1 ,我們可以看到x m l 與h t m l 在結(jié)構(gòu) 上的一些區(qū)別:x m l 中的標(biāo)簽必須成對(duì)出現(xiàn),h t m l 沒(méi)有此限制;x m l 中所有 的屬性必須有值,并用雙引號(hào)標(biāo)示,h t m l 的某些屬性值可為空;x m l 的嵌套順 序必須適合,h t m l 沒(méi)有要求,因此標(biāo)簽結(jié)構(gòu)混亂;x m l 的標(biāo)簽是可擴(kuò)展的,h t m l 的標(biāo)簽具有統(tǒng)一的格式x m l 的機(jī)構(gòu)更為規(guī)范,更容易處理,也能夠表達(dá)更多的 信息 圖2 1x m l 文檔 f i g u r e 2 1x m l d o c u m e n t x m l 面向內(nèi)容,具有多樣化的結(jié)構(gòu)及豐富的語(yǔ)義,易掌握性,適于各種數(shù)據(jù) 的交換x m l 具有自描述性、可擴(kuò)展性、結(jié)構(gòu)和內(nèi)容兩重特性【2 3 】可以預(yù)言,x m l 將成為數(shù)據(jù)組織和交換的事實(shí)標(biāo)準(zhǔn)【2 3 】隨著x m l 成為信息表示和交換的標(biāo)準(zhǔn), x m l 的應(yīng)用也越來(lái)越廣,將進(jìn)一步促進(jìn)x m l 在高級(jí)數(shù)據(jù)庫(kù)搜索、網(wǎng)上銀行、電 子商務(wù)、醫(yī)藥、法律等領(lǐng)域的使用 x m l 文檔必須要符合一定的語(yǔ)法規(guī)則才能被x m l 解析器解析,進(jìn)而才能利 用其中的數(shù)據(jù)x m l 文檔有三種類型: ( 1 ) 無(wú)效的x m l 文檔 沒(méi)有遵守x m l 規(guī)范定義的語(yǔ)法規(guī)則如果已經(jīng)在d t d 或模式中定義了文檔 9 能夠包含什么,而相應(yīng)的文檔沒(méi)有遵守對(duì)應(yīng)的規(guī)則,則此文檔也屬于無(wú)效文檔 ( 2 ) 規(guī)范的x m l 文檔( w d l f o r m e dx m l ) 符合w 3 c 制定的基本語(yǔ)法規(guī)則的x m l 文檔,但是可以沒(méi)有d t d 或模式定 義即使文檔自身帶有d t d 或模式,也可以不遵守d t d 或模式的定義 ( 3 ) 有效的x m l 文件( v 甜i d a t e ax m l ) 文檔首先要滿足規(guī)范的x m l 文檔的要求,在此基礎(chǔ)之上還要在符合額為的一 些約束即文檔的結(jié)構(gòu)必須要符合某個(gè)和文檔關(guān)聯(lián)的d t d ,必須在內(nèi)部包含d t d 或者顯式地指明它所引用的外部d t d 文件 一般認(rèn)為無(wú)效的x m l 文檔是沒(méi)有利用價(jià)值的文件,甚至不能稱為一個(gè)x m l 文檔所以通常認(rèn)為x m l 文檔分為規(guī)范的和有效的兩類x m l 文檔 2 1 2x m l 相關(guān)技術(shù)規(guī)范和標(biāo)準(zhǔn) x m l 是一種元標(biāo)記語(yǔ)言,它能夠開(kāi)發(fā)各種不同應(yīng)用的特定領(lǐng)域的標(biāo)記語(yǔ)言對(duì) 不同的應(yīng)用領(lǐng)域就需要制定對(duì)應(yīng)的應(yīng)用標(biāo)準(zhǔn),包括標(biāo)記表示的含義、附加的語(yǔ)法 約束等應(yīng)用開(kāi)發(fā)者可以使用x m l 各種標(biāo)準(zhǔn)的應(yīng)用編程接口來(lái)獲得和設(shè)置x m l 文檔中的元素、屬性和數(shù)據(jù)內(nèi)容而為了使x m l 能夠進(jìn)一步實(shí)用化,針對(duì)x m l 應(yīng)用中的公用特征、方法或規(guī)則,w 3 c 制定了一些x m l 的基礎(chǔ)技術(shù)規(guī)范例如, 文檔模式技術(shù)、文檔樣式技術(shù)、文檔定位技術(shù)、命名空間、文檔解析技術(shù)等 x m l 文檔的模式包括了d t d ( d o c u m e n tt y p ed e f i n i t i o n ,文檔類型定義) 和 x m ls c h e m a ( x m l 模式) x m l 文檔的模式定義了x m l 文檔的邏輯結(jié)構(gòu),規(guī)定 了x m l 文檔中的元素、屬性、元素之間及元素與屬性之間的關(guān)系 d t d :d t d 是一套關(guān)于標(biāo)記符的語(yǔ)法規(guī)則它是x m l 規(guī)范的一部分,是x m l 文的件驗(yàn)證機(jī)制雖然d t d 不是必須的,但是它為文檔的編制帶來(lái)了方便通過(guò) 比較x m l 文檔和d t d 文件能夠檢驗(yàn)元素和標(biāo)簽的使用是否正確,文檔是否符合 規(guī)范,因此d t d 是一種保證x m l 文檔格式正確的有效方法結(jié)構(gòu)滿足d t d 要求 的x m l 文檔稱為有效的文檔,d t d 可以保證用戶不會(huì)創(chuàng)建一個(gè)無(wú)效的x m l 結(jié)構(gòu) x m ls c h e m a :x m ls c h e m a 是另一種確定x m l 文檔有效性的方法,它包含 d t d 所提供的全部功能并有所擴(kuò)展以x m l 語(yǔ)言為基礎(chǔ)的x m ls c h e m a ,針對(duì)將 來(lái)的額外內(nèi)容是可擴(kuò)展的,支持命名空間( n a m e s p a c e s ) ,支持?jǐn)?shù)據(jù)類型,內(nèi)容比 d t d 豐富,有更強(qiáng)的表達(dá)能力,靈活性遠(yuǎn)遠(yuǎn)超出了現(xiàn)有d t d 規(guī)范的方式 x m l 的數(shù)據(jù)與顯示是分離的,x m l 的文檔樣式技術(shù)c s s ( c a s c a d i n gs t y l e s h e e t s ,層疊樣式表) 和x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ,可擴(kuò)展樣式表語(yǔ)言) 定義了x m l 文檔的顯示樣式 1 0 c s s - 為h t m l 開(kāi)發(fā)的c s s 可用于x m l 文檔應(yīng)用樣式c s s 主要控制x m l 文檔的顯示,但是不會(huì)改變?cè)次臋n的結(jié)構(gòu),也不具備基于x m l 發(fā)布通常所需的轉(zhuǎn) 換和生成結(jié)構(gòu)的能力 x s l :x s l 是專門為x m l 設(shè)計(jì)的語(yǔ)法規(guī)范,不僅可以用來(lái)顯示x m l 文檔, 還能夠把一個(gè)x m l 文檔轉(zhuǎn)化為h t m l 、另一個(gè)格式的x m l 文檔或其他格式的文 檔x m l 用于承載數(shù)據(jù),而x s l 則用于設(shè)置數(shù)據(jù)的格式一個(gè)x s l 樣式表集合 了一系列設(shè)計(jì)規(guī)則,用于從x m l 文件中抽取信息,并將其轉(zhuǎn)換成h t m l 等其他 格式x s l 不是內(nèi)容管理工具,不能用于更改x m l 文檔的內(nèi)容或編輯信息x s l 包括兩個(gè)部分:x s l t ( x s l t r a n s f o r m a t i o n ) 是用于轉(zhuǎn)換x m l 文檔的語(yǔ)言,x p a t h ( x m l p a t hl a n g u a g e ,x m l 路徑語(yǔ)言) 是用于x m l 文檔導(dǎo)航的語(yǔ)言 x m l 文檔的定位技術(shù)是x s l t 和x p o i n t e r 中用于對(duì)x m l 文檔各部分導(dǎo)航定 位的x p a t h 語(yǔ)言 x p a t h :x p a t h 提供了定位x m l 文檔中指定部分的一種高效方式它不是結(jié) 構(gòu)化語(yǔ)言,而是一種基于字符串的表達(dá)式語(yǔ)言,描述了如何識(shí)別、選擇、匹配x m l 文件中的各個(gè)構(gòu)成元件,包括元素、屬性、文字內(nèi)容等x p a t h 定義了一些可對(duì) x m l 文檔中的數(shù)據(jù)進(jìn)行“尋址”的路徑表達(dá)式,通過(guò)路徑表達(dá)式來(lái)選取x m l 文 檔樹(shù)狀結(jié)構(gòu)中的節(jié)點(diǎn)或節(jié)點(diǎn)集 n a m e s p a c e s ( 命名空間) :n a m e s p a c e 限定了與之關(guān)聯(lián)的所有元素的作用范圍, 避免了標(biāo)記名重名的情況,用于保證x m l 與d t d 中名字的一致性,以便不同的 d t d 中的名字在需要時(shí)可以合并到一個(gè)文檔中 文檔解析是指對(duì)x m l 文檔的內(nèi)容和結(jié)構(gòu)進(jìn)行訪問(wèn)和分析文檔解析技術(shù)包括 d o m ( d o c u m e n to b j e c tm o d e l ,文檔對(duì)象模型) 和s a x ( s i m p l ea p if o rx m l ) d o m d o m 是w 3 c 為在內(nèi)存中建立x m l 文檔的樹(shù)型結(jié)構(gòu)提供的一種標(biāo)準(zhǔn) 規(guī)范,是為x m l 文檔的已解析版本定義的一組獨(dú)立于平臺(tái)和語(yǔ)言的接口,一種標(biāo) 準(zhǔn)a p i 其不僅提供了對(duì)存儲(chǔ)在內(nèi)存中的x m l 文檔的一個(gè)完全的表示,也提供了 隨機(jī)訪問(wèn)整個(gè)文檔的方法因此,可將d o m 看作一個(gè)標(biāo)準(zhǔn)的連接文檔和應(yīng)用程序 或腳本語(yǔ)言的結(jié)構(gòu)體系,提供給用戶一個(gè)接口以裝載、定位、操作和序列化x m l 文檔 s a x :s a x 是用于x m l 的簡(jiǎn)單a p i ,是一個(gè)基于事件的x m l 文檔解析技術(shù), 通過(guò)事件驅(qū)動(dòng)來(lái)識(shí)別x m l 文檔的內(nèi)容它不需要像d o m 那樣建立一個(gè)完整的文 檔樹(shù),不會(huì)創(chuàng)建任何對(duì)象,而是在讀取文檔時(shí)激活一系列事件,這些事件被推給 事件處理器,然后事件處理器提供對(duì)文檔內(nèi)容的訪問(wèn)基于事件創(chuàng)造的對(duì)象需要 程序開(kāi)發(fā)人員自己完成s a x 的這一特性使應(yīng)用程序開(kāi)發(fā)人員可以在相應(yīng)的事件 中寫(xiě)入特定的處理代碼 d o m 需要構(gòu)建整個(gè)文檔駐留內(nèi)存的樹(shù),當(dāng)文檔很大時(shí)就要就有足夠大的內(nèi)存 空問(wèn)而且d o m

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論