版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第三節(jié)信息檢索技術(shù)the information retrieval technology,1 .搜索運(yùn)算符2。搜索策略3。搜索評(píng)估,第iii節(jié)信息搜索技術(shù),使用一個(gè)關(guān)鍵字搜索可能會(huì)更容易,但是通常使用兩個(gè)或多個(gè)關(guān)鍵字搜索標(biāo)題。下面介紹了有效地組合多個(gè)搜索概念的方法和技術(shù)。數(shù)據(jù)庫(kù)非常有組織,需要一些特殊技術(shù)才能有效搜索。要用多個(gè)詞表達(dá)搜索意圖,輸入搜索詞必須能夠通過數(shù)據(jù)庫(kù)理解。例如:互聯(lián)網(wǎng)對(duì)青少年的影響,1 .搜索運(yùn)算符,首先列出相關(guān)搜索詞:網(wǎng)絡(luò),青少年,影響。要注意,普通名詞比形容詞、介詞、代詞更適合作為搜索的主語(yǔ)。某些無(wú)意義的功能詞在搜索中稱為停用詞(stopword),停用詞在搜索中通常
2、被忽略。接下來(lái),internet和青少年和影響中常用的連接詞是and、or和not,下一篇指定使用布爾邏輯運(yùn)算符(用于規(guī)定連接詞的使用、1.1布爾邏輯運(yùn)算符和搜索詞之間的邏輯關(guān)系的運(yùn)算符)檢索搜索詞或代碼的邏輯組。這是計(jì)算機(jī)信息檢索系統(tǒng)中最常用的搜索方法之一,布爾搜索。布爾邏輯運(yùn)算符通常為(1)邏輯“或”:(or)或“”;(2)邏輯“和”:(and)或“*”;(3)邏輯“非”邏輯and有時(shí)會(huì)替換為 * ,這意味著檢出的記錄包含 and 前后搜索項(xiàng)。例如,如果要查找有關(guān)“納米”和“材料”的文獻(xiàn),搜索標(biāo)準(zhǔn)為nano and materialsnano * materials,如果要查找在搜索概念中
3、包含多個(gè)內(nèi)容的文章,則可以在搜索結(jié)果中使用“and”連接關(guān)鍵字,以指示該關(guān)鍵字必須同時(shí)出現(xiàn)在記錄中的某處。使用and可縮小搜索范圍。例如,如果students and internet輸入上述搜索詞,則不會(huì)同時(shí)搜索students和internet的文章。不會(huì)搜索只包含一個(gè)單詞的文章。因此,and在連接徐璐其他概念的搜索詞時(shí)很有用。您可以在一個(gè)搜索表達(dá)式中多次使用and。 students and internet and assignments的某些中文數(shù)據(jù)庫(kù)使用“*”而不是and,如下例所示:當(dāng)然,并非所有中文數(shù)據(jù)庫(kù)都支持這種使用??梢圆榭春万?yàn)證幫助文件。例如:您還可以在搜索時(shí)使用學(xué)生*
4、internet、(2)邏輯或“:or”或“”將關(guān)鍵字鏈接為邏輯或“or”。搜索詞(a or b)可以搜索同時(shí)出現(xiàn)a或b或a和b的文獻(xiàn)。or最適合搜索一個(gè)概念的同義詞。使用or可以擴(kuò)大搜索范圍。例如,internet或web使用上述搜索詞來(lái)使用網(wǎng)絡(luò)的同義詞。你會(huì)找到有關(guān)網(wǎng)絡(luò)或網(wǎng)絡(luò)的文獻(xiàn),或同時(shí)出現(xiàn)網(wǎng)絡(luò)和網(wǎng)絡(luò)的文獻(xiàn)。您也可以在一個(gè)搜索中多次使用or。例如,使用or時(shí),internet或web或聯(lián)機(jī)或數(shù)字或wired(wired)中的某些中文數(shù)據(jù)庫(kù)將替換為“”。internet網(wǎng)絡(luò)聯(lián)機(jī)or用于將并行關(guān)系、相同的概念或相似的搜索詞(如同義詞、相關(guān)單詞等)分組。使用or運(yùn)算符的基本作用是擴(kuò)大搜索范圍,
5、增加命中的文檔量,從而提高搜索回收率。例如,查找“腫瘤”的搜索表達(dá)式意味著排除cancer or tumor or carcinoma(腫瘤),(3)不是邏輯:“not”或“-”,not表示在搜索結(jié)果中排除一個(gè)例如,在: computer not software中輸入上述搜索詞將查找有關(guān)computer的文章,但此文檔不應(yīng)包含軟件相關(guān)內(nèi)容。使用not時(shí),請(qǐng)注意某些中文數(shù)據(jù)庫(kù)將替換為“-”,如下例所示:當(dāng)然,不是所有中文數(shù)據(jù)庫(kù)都支持這種用法??梢圆榭春万?yàn)證幫助文件。例如,計(jì)算機(jī)-軟件上面的搜索詞用于查找僅出現(xiàn)計(jì)算機(jī)而不是計(jì)算機(jī)軟件的文獻(xiàn),用于連接排除關(guān)系的搜索詞,即不需要的搜索詞和影響搜索結(jié)果
6、的概念。將搜索詞a和搜索詞b作為not連接進(jìn)行搜索。a not b(或ab)搜索不包含搜索詞b的信息,排除包含搜索詞b的信息集合。例如,尋找“動(dòng)物乙型肝炎病毒”的文獻(xiàn)有:“hepatitis b virus(乙型肝炎病毒)not human(非人類)”,“圖(a)圖(b)圖(c),1.2截圖()截止字符僅用于英語(yǔ)搜索。截止搜索減少了搜索詞的輸入,確保了相關(guān)搜索概念的適用范圍,同時(shí)方便了解決美國(guó)英語(yǔ)和英國(guó)英語(yǔ)等語(yǔ)言文字拼寫上的差異。這將擴(kuò)大搜索范圍,提高搜索速度,并節(jié)省搜索時(shí)間。請(qǐng)看以下實(shí)例:輸入wom?n woman可檢出,women輸入comput*計(jì)算機(jī)可檢出,computus、compu
7、ting、com putative、computator等,comput*er,擴(kuò)展搜索詞。不同的搜索系統(tǒng)有不同的表達(dá)方法,通常是“?使用或 * 。截止方法:根據(jù)切除位置,有三種類型:后剪裁、中間剪裁、前剪裁;在“限制切削”(limited truncation)、“無(wú)限制切削”(unlimited truncation)中,除以切削字符數(shù)。通常更多地使用后者切割(無(wú)限和有限切割)和中間切割(僅允許有限切割)。(1)截?cái)嗪蠼財(cái)?,即前面一致的搜索,是最常用的搜索技術(shù)。將剪切字符放在單詞后面,表示后面可以有無(wú)限或有限的字符。它不說明修剪無(wú)限長(zhǎng)的截?cái)嗪筇囟ń財(cái)嘧衷臄?shù)目。剪切字符是否添加到后綴中?一
8、個(gè)數(shù)字,表示可以添加任意數(shù)量的使用搜索項(xiàng)搜索的字符。無(wú)限切削一般使用嗎?或*表示將切割文字放置在布線的末端。例如:behav?系統(tǒng)中查找“behave、behaviour、behavioural”等。下一個(gè)切除有限切除表示特定切除字符的數(shù)量。截止字符是一個(gè)詞尾加有限字符嗎?編號(hào),n個(gè)?編號(hào)表示可以添加的下一個(gè)字符數(shù)不超過n個(gè)。例如:smok?-嗯?在系統(tǒng)中搜索smoke、smoky、smoked、smoker、smoker、smokes等。最多可以添加一個(gè)字符?-嗯?的格式表示。例如:smok?-嗯??jī)H搜索smoke,smoky。(2)中間切斷中間切斷是在一個(gè)搜索詞中間放置切斷符號(hào)。一般中間切
9、割僅允許有限的切割。中間剪切器,也稱為通配符,在單詞中間使用多少個(gè)?表示可以插入多個(gè)字符的數(shù)字。中間截?cái)嘀饕糜谟⑹胶兔朗絾卧~拼寫徐璐不同,某些單詞在某個(gè)元音位置出現(xiàn)單復(fù)數(shù)的情況下。示例:organi?ation搜索organisation和organization。像:wom這樣的?n系統(tǒng)會(huì)找到woman,women。中文數(shù)據(jù)庫(kù)圖片一般只能在詞尾使用,英文數(shù)據(jù)庫(kù)可以用3種方式使用。(3)前向剪裁前剪切?或*表示將切割文字放置在布線的左側(cè)。例如:*computer,在系統(tǒng)中搜索時(shí)索引單詞microcomputer算命中的1.3位置運(yùn)算符,位置運(yùn)算符:兩個(gè)相連搜索單詞之間的位置關(guān)系(1) (w)
10、和(nw)運(yùn)算符w是with的縮寫。(w)表示連接的兩個(gè)搜索單詞必須按順序出現(xiàn),中間不允許插入單詞,只能有一個(gè)空格或標(biāo)點(diǎn),一個(gè)符號(hào)。例如:high(w)class命中記錄中出現(xiàn)的匹配詞可以是high class或high-class。(nw):與(w)類似,不同之處在于它允許插值單詞小于或等于n。silicon (2w) sensor等:命中記錄中出現(xiàn)的匹配項(xiàng)可能是silicon angular rate sensor、silicon-based chemical sensor等,以及上述示例。(2)(n)和(nn)運(yùn)算符(n): n是near的縮寫。(n)表示兩個(gè)相關(guān)搜索單詞的排序是可變的,
11、但不允許在兩個(gè)單詞之間插入單詞。(nn): (nn),其中n表示允許的字?jǐn)?shù)不超過n個(gè)。除上述示例外,internet(1n)accesseing命中記錄還可能包括accessing the internet/intranet accessing等。(3)(l)運(yùn)算符(l): l是limit的縮寫。(l)表示兩個(gè)關(guān)聯(lián)搜索詞之間存在子代關(guān)系??捎糜谶B接第一、第二、第一、第二個(gè)子代單詞。顯示在記錄的規(guī)格單詞字段中。例如:television(l)high definition點(diǎn)擊記錄的規(guī)范單詞字段中出現(xiàn)的匹配單詞是television-high definition。(4)(s)運(yùn)算符(s): s是
12、subfield的縮寫。(s)表示連接的兩個(gè)搜索單詞必須出現(xiàn)在同一子字段中。子字段表示字段的一部分:一個(gè)文章、一個(gè)球體、球體等。字段不受限制,單詞順序不受限制。例如:silicon(s)sensor點(diǎn)擊記錄位于a vacum magnetic sensor(vms)using a silicon field emitter tip was fabricationd and demonstrated .(5) (f)運(yùn)算符(f): f是field的縮寫。(f)表示已連接的兩個(gè)搜索單詞必須出現(xiàn)在同一字段中,且字段沒有限制。例如,pollution(f)control可以檢出:control and
13、 management of industrial pollution徐璐其他運(yùn)算符比較:兩個(gè)詞由徐璐的其他運(yùn)算符連接組成,搜索結(jié)果明顯不同。例如,使用兩個(gè)相同單詞更硬的運(yùn)算符檢索結(jié)果的記錄必須比使用較寬松的運(yùn)算符檢出的記錄數(shù)少。以下是electron和device這兩個(gè)術(shù)語(yǔ)的示例,在ei compendex數(shù)據(jù)庫(kù)中進(jìn)行了搜索,結(jié)果如下表所示:位置運(yùn)算符是(w)、(nw)最強(qiáng)、(n)、(nn)升序、(s)再次和(f)最弱。2 .對(duì)一個(gè)主題執(zhí)行搜索的科學(xué)數(shù)組搜索策略(search strategy),稱為過程、階段和搜索階段,是實(shí)現(xiàn)搜索目標(biāo)的整體計(jì)劃或方案。信息搜索的基本過程,搜索要求分析,選擇
14、數(shù)據(jù)庫(kù),確定搜索詞,配置搜索表達(dá)式,提交計(jì)算機(jī),顯示結(jié)果,完成,滿意,修改搜索表達(dá)式,對(duì),不滿意,搜索任務(wù)進(jìn)行分析,即主題分析,了解主題中包含的概念元素及其相互關(guān)系。這是制定搜索政策的根本出發(fā)點(diǎn),也是影響搜索效率高低或成敗的關(guān)鍵。必須明確以下問題。分析主題的主要內(nèi)容和相關(guān)學(xué)科的范圍。所需文獻(xiàn)的類型、語(yǔ)言、年代和文獻(xiàn)量的范圍。新的發(fā)現(xiàn)、檢查、總體指標(biāo)要求及其重點(diǎn)。2.1搜索主題分析、2.2相關(guān)信息資源選擇、搜索要求分析、目標(biāo)選擇相關(guān)信息源,主要決定以下方面:(1)是否搜索與搜索主題相關(guān)的所有資源,如果是,不僅要考慮文獻(xiàn)和輔助文獻(xiàn)的數(shù)據(jù)庫(kù)搜索,還要考慮其他在線資源的搜索。搜索引擎,主題導(dǎo)航主題bb
15、s等也要查詢。(2)應(yīng)該選擇什么信息來(lái)源?(?如果要尋找生物學(xué)的信息,可能涉及醫(yī)學(xué)的信息資源,所以要考慮跨學(xué)科的問題。(3)選擇什么語(yǔ)言信息源作為漢語(yǔ)或西方語(yǔ)言?(?還是兩者都考慮。(4)信息源應(yīng)用期限是否符合要求。大部分?jǐn)?shù)字信息資源保留了近20年,如果主題需要更快的信息,則必須考慮手動(dòng)搜索問題。有些數(shù)據(jù)庫(kù)由于更新速度而不能提供最新信息,有些數(shù)據(jù)庫(kù)還需要考慮補(bǔ)充其他相關(guān)資源。(5)信息源的特性和目的:要確定自己選擇的信息資源的查詢特性是否符合自己的信息要求。搜索引擎最好用于查看組織或公司的網(wǎng)頁(yè)。詢問新聞時(shí)事,可以登錄一些新聞網(wǎng)站。要找到學(xué)位論文,必須使用學(xué)位論文數(shù)據(jù)庫(kù)或直接登錄大學(xué)網(wǎng)站查詢或申
16、請(qǐng)相關(guān)服務(wù)。2.3搜索字段和調(diào)控器(1)搜索字段數(shù)據(jù)庫(kù)可以搜索反映標(biāo)題、描述符、識(shí)別符、摘要等內(nèi)容的兩種類型的字段。搜索字段時(shí)使用后綴字符。例如:/ti表示“文章名稱”/“摘要”/“de”,表示“描述符,規(guī)范”。例如:electronn/ti表示“electronn/ti”一詞應(yīng)出現(xiàn)在文章名稱部分。electrical/ty,ab表示“electrical”一詞必須出現(xiàn)在文章名稱或摘要字段中。與反映文檔主題內(nèi)容的主索引相對(duì)應(yīng)的后綴代碼(suffix代碼),將字段代碼放在搜索單詞后面,并用“/”號(hào)連接。還有反映格式特征(如作者、文檔類型、語(yǔ)言、發(fā)行時(shí)間等)的搜索字段。前綴碼(prefix code),通常用于表示文獻(xiàn)外部特征的字段,即在某些輔助搜索字段中,將字段碼放在搜索單詞前面,然后用數(shù)字連接。示例:an=eip 98124488325(an:abstract number)摘要編號(hào)au=liu,litian (au: author)作者bn=0-8155-and py=199?意味著尋找薩頓寫的文章,是1990年以后發(fā)表的所有文獻(xiàn)。(2)限制者在某些搜索系統(tǒng)中,將表示文檔類型、文種、出版時(shí)間等的某種限制字符放置在搜
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年度醫(yī)保知識(shí)考試題庫(kù)含答案
- 2025小動(dòng)物視覺電生理數(shù)據(jù)采集操作規(guī)范指南(2025)解讀課件
- 危急值制度試題及答案
- 施工現(xiàn)場(chǎng)安全防護(hù)設(shè)施設(shè)置計(jì)劃
- 車險(xiǎn)年檢知識(shí)課件
- 車隊(duì)年底安全培訓(xùn)總結(jié)課件
- 車隊(duì)安全教育培訓(xùn)
- 江蘇省職業(yè)院校技能大賽高職組建筑信息模型與應(yīng)用試題
- 車間高處作業(yè)安全培訓(xùn)內(nèi)容課件
- 2026年社區(qū)工作者年度工作計(jì)劃
- 天一大聯(lián)考海南省2026屆數(shù)學(xué)高二上期末統(tǒng)考試題含解析
- DB50∕T 1803-2025 鄉(xiāng)村振興勞務(wù)品牌人員等級(jí)評(píng)定 武陵山縫紉工
- 中煤集團(tuán)機(jī)電裝備部副部長(zhǎng)管理能力考試題集含答案
- 黨支部2026年度主題黨日活動(dòng)方案
- 五育融合課件
- 海姆立克急救課件 (完整版)
- 2025年互聯(lián)網(wǎng)營(yíng)銷游戲化營(yíng)銷案例解析可行性研究報(bào)告
- DB31∕T 1048-2020“上海品牌”認(rèn)證通 用要求
- 意識(shí)障礙的判斷及護(hù)理
- 病理性賭博的識(shí)別和干預(yù)
- 2025年宿遷市泗陽(yáng)縣保安員招聘考試題庫(kù)附答案解析
評(píng)論
0/150
提交評(píng)論