第5章-1-計算機(jī)信息檢索策略與技巧.ppt_第1頁
第5章-1-計算機(jī)信息檢索策略與技巧.ppt_第2頁
第5章-1-計算機(jī)信息檢索策略與技巧.ppt_第3頁
第5章-1-計算機(jī)信息檢索策略與技巧.ppt_第4頁
第5章-1-計算機(jī)信息檢索策略與技巧.ppt_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第一節(jié) 計算機(jī)信息檢索策略與技巧,第五章 檢索綜述,檢索策略和技巧學(xué)習(xí)的目的,1. 為什么檢索?如何檢索? 它山之石可以攻玉。但并不是每塊石頭都可以攻玉的。用何方法尋找最好石頭。 2. 利用信息解決問題。 提高自我科學(xué)研究過程中對事物現(xiàn)有的認(rèn)知能力并彌補(bǔ)認(rèn)知缺陷 3. 從信息中發(fā)現(xiàn)問題。 有助于自我認(rèn)知區(qū)域局限的跨域 從必然認(rèn)知世界走向自由認(rèn)知世界,一、計算機(jī)信息檢索的基本構(gòu)成 (一)課題分析 (二)檢索詞的確定 (三)檢索策略 (四)編制檢索式 二、其他誤檢或漏檢原因 三、檢索策略實例,計算機(jī)信息檢索策略與技巧,一、計算機(jī)信息檢索的基本構(gòu)成,接受課題,選擇數(shù)據(jù)庫,數(shù)據(jù)庫組檔方式,課題概念分析

2、,抽取檢索詞,決定檢索策略,編制檢索式,重建檢索式,補(bǔ)充新的策略,不滿意,用戶滿意程度,滿意,輸出,可供檢索的字段,基本索引 輔助索引,截詞算符,布爾算符,位置算符,匹 配,數(shù) 據(jù) 庫,整 理 檢 索 結(jié) 果,(一)課題分析, 檢索目的定位 例如: 課題:“論企業(yè)生產(chǎn)線的優(yōu)化”,課題:“論企業(yè)生產(chǎn)線的優(yōu)化”,企業(yè) * 生產(chǎn)線 * 優(yōu)化,工廠,公司,流水線,計算機(jī)控制,在線控制,智能控制,企業(yè) 工廠 公司,+ +,生產(chǎn)線 流水線,+,優(yōu)化 計算機(jī)控制 在線控制 智能控制,+ + +,( ),( ),( ),*,*, 自由語言與數(shù)據(jù)庫標(biāo)引語言要對等,例如:海綿的制造工藝 檢索式: 海綿*(制造+工

3、藝),實際是:海洋中的多孔類動物,對“海綿”的理解,世人已經(jīng)共認(rèn)為: “海綿”與 “泡沫塑料”、“泡沫橡膠”類物質(zhì)等同。, 多主題概念的課題應(yīng)以“簡”為主,1、課題有A、B、C、D、E、F等主題概念進(jìn)行組配,其中“C”詞建庫人員未從原始文獻(xiàn)中挑選出來作為標(biāo)引詞時,該“C”主題詞則表現(xiàn)為零,則整個檢索式等于零。 2、課題“利用基因工程的手段提高植物中淀粉含量”,基因工程*淀粉 基因*淀粉,天然植物茶葉中提取茶多酚作為食品防腐劑,天然*植物*茶葉*提取*茶多酚*食品*防腐劑,茶葉*提取*茶多酚*食品*防腐劑,茶葉*茶多酚*食品*防腐劑,茶多酚*食品*防腐劑,茶多酚*(食品+防腐), 少用或不用對課

4、題檢索意義不大的詞,1、詞義泛指度過大的詞,如: “展望”趨勢、現(xiàn)狀、近況、動態(tài)等 “應(yīng)用”作用、利用、用途、用法等 還有如“開發(fā)”、“研究”、“方法”、“影響”、“效率”等等。 2、詞義延伸過多的詞,如: “制造”制備、生產(chǎn)、加工、工藝等 “提煉”精煉、提取、萃取、回收、利用等,3 .少用無法定性定量的詞,冷、溫復(fù)合擠壓連續(xù)成形技術(shù) (冷擠壓 or 溫擠壓) and 連續(xù) and 成型 (冷or 溫) and擠壓and 連續(xù) and 成型 冷= 常溫以下 溫=45C 600C or 800C 處理結(jié)果: 取消:冷、溫二詞 深化處理: 增加:擠壓對象的詞。如塑料、金屬等詞或其他如有助于限制范圍

5、的有效實詞如:擠壓時用的潤滑材料:石墨。,運(yùn)用主題概念所表達(dá)的上位或下位概念,課題(1)“加氫裂化防污垢的開發(fā)與應(yīng)用研究”,將“加氫裂化”與“防污垢”組配,結(jié)果不理想。概念向上位“石油加工與石油煉制”的概念擴(kuò)大,再與“防垢劑”組配,完成了課題的要求。 課題(2)碳4、碳5餾份工藝情況,(C4 or C5) and distillat*,上位:Petroleum and product* and distillat* 下位:(Butene or 1-3 butadiene) and distillat*,一氧化碳?xì)浠?1、氫化熱 2、氫化催化劑 3、氫化動力學(xué) 4、甲烷化 5、甲烷化熱 6、甲烷

6、化動力學(xué) 7、甲烷化催化劑 8、燃料氣體制造,課題(3)“一氧化碳的氫化”很明顯這一課題所包括的范圍過于廣泛:,(二)注意檢索詞的詞義變化,1、漢詞與英語等西方語言的詞匯相比較: 漢詞的字與詞界線比較模糊,一個字也許就是一個詞,英語基本上沒有這種現(xiàn)象。 漢詞無固定的詞頭、詞尾和性、數(shù)的變化。而英語構(gòu)詞時這種情況很多。 漢語的構(gòu)詞一般與語義有關(guān),一個詞后加上一個字就派生出另一個新的詞,而英語的情況與此有很大的不同。,2、關(guān)鍵詞與主題詞 關(guān)鍵詞即是“自由詞”,是信息的提供者各自采用的不經(jīng)過一定規(guī)范化限定的詞。檢索操作方便,但其專指度差,常需用較高的邏輯匹配、截詞符等技能。 主題詞即指以自然語言中優(yōu)

7、選出的,經(jīng)過規(guī)范化處理后的名詞術(shù)語。檢索操作需將習(xí)慣使用的自然語言與各數(shù)據(jù)庫自編的主題詞表對照后方能使用,但專指度較高。,(三)檢索策略,查全率是指系統(tǒng)檢索時能檢出相關(guān)文獻(xiàn)的能力。,(1)查全率=,被檢出的相關(guān)文獻(xiàn)量,系統(tǒng)數(shù)據(jù)庫中相關(guān)文獻(xiàn)總量,*100%,(2)查準(zhǔn)率=,被檢出與課題相關(guān)的文獻(xiàn)量,被檢出的文獻(xiàn)總量,*100%,查準(zhǔn)率是指系統(tǒng)檢索時拒絕不相關(guān)文獻(xiàn)的能力。,條件、目標(biāo)?,查準(zhǔn)率,查全率,1.二者相背,2.目標(biāo)優(yōu)先,3.現(xiàn)有條件,(四)編制檢索式,一個好的檢索式是最終實現(xiàn)檢索策略是否達(dá)到預(yù) 想結(jié)果的具體表現(xiàn)形式。 1、影響查全率的種種因素如:檢索詞是否已擴(kuò) 大到窮盡;是否合理應(yīng)用邏輯

8、“或”來優(yōu)化檢索; 是否對課題檢索策略作了必要的擴(kuò)大。 2、影響查準(zhǔn)率的因素如:是否盡量選用了專指 度較高的檢索詞;是否盡量采用了邏輯“與”邏輯 “非”和位置算符進(jìn)行優(yōu)化檢索;是否對所檢課題 作了范圍的有效限制等等。,二、其它誤檢或漏檢原因,1、過分強(qiáng)調(diào)專業(yè)知識 課題“聚氨酯泡沫塑料的工藝” 選“聚氨酯泡沫塑料”這一多元詞作為檢索詞 “聚氨酯 and 泡沫塑料”,一、不同字段的比較:,二、多元詞和單元詞比較,2、同義詞和異稱詞產(chǎn)生的漏檢情況,沒能將同義詞和異稱詞運(yùn)用全。如: 設(shè)備apparatus, equipment, device 汽車car, automobile, vehicle PV

9、C聚氯乙烯、PVC塑料 偏重于大概念還是偏重于小的概念。如: 燃料有固體燃料、液體燃料、氣體燃料等。具體一點(diǎn)有煤、油、煤氣、天然氣等等。 植物油有蔬菜油、種子油等。具體些有玉米油、花生油、棕櫚籽油等等。,3、檢索詞本身的多義性導(dǎo)致的誤檢,如: 海綿海洋里的多孔類動物、泡沫塑料、 泡沫橡膠等。,擴(kuò)大檢索范圍的策略是: (1)去掉一些次要的、嶄新的概念,以及專指度很高或沒有把握的某些主題概念 (2)充分利用邏輯“或(OR)”將某些主題概念組配起來,以擴(kuò)大檢索范圍。 (3)縮小檢索策略時,增加一些主題概念加以限制,用邏輯“與(AND)”進(jìn)行組配。,三、檢索策略實例,如課題: SF/CD 15W/40

10、地面車輛多用途潤滑油 碳酸二甲酯作為綠色溶劑在涂料中的應(yīng)用 雞蛋免疫球蛋白 釀酒廠廢水用米曲霉處理新工藝 同向雙螺桿擠出機(jī)一步法制備硅烷交聯(lián)聚乙烯管 一種海水淡化的方法及裝置,1、電動汽車電控與驅(qū)動技術(shù),(1)內(nèi)容要點(diǎn): 電動汽車電控與驅(qū)動控制系統(tǒng)要求輸出力矩大,響應(yīng)速度快,可靠性和電磁兼容性好,使用維護(hù)方便。課題研究電動汽車電控驅(qū)動系統(tǒng)的模型與控制算法,電動汽車專用高性能交流永磁同步電機(jī)和交流異步電機(jī)控制系統(tǒng)的產(chǎn)業(yè)化所需解決的控制器技術(shù)。,(3)選用的檢索詞及檢索策略(1):,中文檢索詞及檢索式 #1 電動汽車 OR 電動車 #2 電動機(jī) OR 電機(jī) #3 矢量控制 #4 能量回饋 OR 能

11、量反饋 OR 能量再生 (#1 OR #2) AND #3 #1 AND #4,(3)選用的檢索詞及檢索策略(2):,外文檢索詞及檢索式: #1 electric vehicle? Or motor #2 vector control #3 energy feedback or energy regenerat? #1 and (#2 or #3),檢索綜合練習(xí),課題:抑制乙烯裂解爐管內(nèi)壁結(jié)焦的在線預(yù)膜技術(shù),抑制*乙烯裂解爐*管內(nèi)壁結(jié)焦*在線*預(yù)膜技術(shù),抑制*乙烯*裂解*爐管*內(nèi)壁*結(jié)焦*在線*預(yù)膜,課題:抑制乙烯裂解爐管內(nèi)壁結(jié)焦的在線預(yù)膜技術(shù),(結(jié)焦 + 爐管)* (涂層 +預(yù)處理),(cok? + decok? + anticok? + anti(w)cok?) * (tub? + furnace? + reactor?) * (coat? + pretreat? + passivat?) * (silic? + online + on(w)line),觀書有感(朱熹):,半畝方塘一鑒開, 天光云影共徘徊。 問渠哪得清如許? 為有源頭活水來。,文獻(xiàn)檢索報告書寫要求,論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論