版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1、 填空題1.數(shù)據(jù)的記載方式主要有 數(shù)值型_、文字型、_語(yǔ)音型、_圖像型。2.數(shù)據(jù)與信息的關(guān)系可看作是 原料_和_成品_的關(guān)系。3.信息分析過(guò)程是將數(shù)據(jù)轉(zhuǎn)換為_(kāi)信息_的過(guò)程。4.信號(hào)分為_(kāi)信息_信號(hào)和_人為_(kāi)信號(hào)。5.信息一般表現(xiàn)為_(kāi)數(shù)據(jù)_、文本_、_聲音、_圖像_等形態(tài)。6.一般認(rèn)為,信息由_語(yǔ)義_、_差異_、_傳遞_、_載體_等要素構(gòu)成。7.信息的加工按加工對(duì)象的不同可分為對(duì)_外表_信息的描述,對(duì)_整體_信息的描述,如文摘對(duì)_內(nèi)容_信息的描述。8.信息管理的過(guò)程包括信息_收集_、信息_傳輸_、信息加工_、信息儲(chǔ)存_。9.信息加工包括_信息形式的變換和_信息內(nèi)容的處理。10.信息動(dòng)機(jī)的形成
2、原因有_內(nèi)在的信息需要_和_外在刺激_。11.主題語(yǔ)言包括_標(biāo)題詞_、_單元詞_、_敘詞_、_關(guān)鍵詞_。12.在信息存儲(chǔ)的結(jié)構(gòu)中,基本的邏輯結(jié)構(gòu)有_線性結(jié)構(gòu)_、_非線性結(jié)構(gòu)、_樹(shù)形結(jié)構(gòu)_、網(wǎng)狀結(jié)構(gòu)。13.總體上,信息檢索系統(tǒng)可分為_(kāi)數(shù)據(jù)預(yù)處理_、_索引生成_、_查詢(xún)處理、_檢索_。二、名詞解釋1. 數(shù)據(jù):是指記載下來(lái)的事實(shí),是客觀實(shí)體屬性的值,它是由原始事實(shí)組成的。2信息加工:是指對(duì)獲取的信息進(jìn)行判別、篩選、分類(lèi)、排序、分析、計(jì)算和研究等一系列過(guò)程,使收集到的信息成為對(duì)我們有用的信息資源。3信息組織:即信息序化或信息整序,也就是利用一定的科學(xué)規(guī)則和方法,通過(guò)對(duì)信息外在特征和內(nèi)容特征的表征和序化
3、,實(shí)現(xiàn)無(wú)序信息流向有序信息流的轉(zhuǎn)換,從而保證用戶(hù)對(duì)信息的有效獲取和利用及信息的有效流通和組合。 4檢索標(biāo)識(shí):就是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語(yǔ)言,也是連接信息存儲(chǔ)和檢索兩個(gè)過(guò)程中標(biāo)引人員與檢索人員雙方思路的渠道,是用于文獻(xiàn)標(biāo)引和檢索提問(wèn)的約定語(yǔ)言。5信息檢索:可以從廣義和狹義兩個(gè)角度理解。廣義的信息檢索是指將信息按一定方式組織和存儲(chǔ)起來(lái),并根據(jù)用戶(hù)的需要找出相關(guān)信息的過(guò)程,其中包括存與取兩個(gè)方面。狹義的信息檢索僅指信息查找過(guò)程。6信息檢索系統(tǒng):是指按某種方式、方法建立起來(lái)的用于檢索信息的一種有層次的體系,是表征有序的信息特征的集合體。7檢索效果:是指利用檢索系統(tǒng)(或工具)開(kāi)展檢索服務(wù)時(shí)
4、所產(chǎn)生的有效結(jié)果。三、簡(jiǎn)答題1簡(jiǎn)述了解用戶(hù)信息需求的作用 答:用戶(hù)信息需求是信息系統(tǒng)發(fā)展的動(dòng)力,也是制定信息政策的出發(fā)點(diǎn)和依據(jù)。了解用戶(hù)需求的特點(diǎn)、心理規(guī)律、查詢(xún)行為及需求方式,有助于系統(tǒng)制訂合理的信息搜集方針和信息資源的合理布局,從而提高服務(wù)效益和質(zhì)量。2簡(jiǎn)述影響信息動(dòng)機(jī)向信息行為轉(zhuǎn)化的主要因素 答:(1)信息動(dòng)機(jī)強(qiáng)度 (2)認(rèn)知能力 (3)抱負(fù)水平3簡(jiǎn)述信息需要的特點(diǎn) 答:(1)信息需要的廣泛性 (2)信息需要的社會(huì)性 (3)信息需要的發(fā)展性 (4)信息需要的多樣性4簡(jiǎn)述信息檢索系統(tǒng)的構(gòu)成模式 答:(1)信息數(shù)據(jù)的選擇、處理、錄入、維護(hù)子系統(tǒng) (2)詞表和標(biāo)引子系統(tǒng)(3) 檢索子系統(tǒng) (4
5、)系統(tǒng)-用戶(hù)接口子系統(tǒng)8.簡(jiǎn)述信息檢索系統(tǒng)的流程系統(tǒng)可分為數(shù)據(jù)預(yù)處理、索引生成、查詢(xún)處理和檢索四個(gè)部分。四、論述題1有人說(shuō),信息加工是一個(gè)體系,你如何理解,請(qǐng)著重從“體系”這個(gè)角度加以說(shuō)明答:(1)加工的方式、方法多種多樣。(2)加工的方式、方法相互之間有關(guān)聯(lián),從不同角度對(duì)信息進(jìn)行加工的。(3)加工過(guò)程有其內(nèi)在聯(lián)系,構(gòu)成一個(gè)完整的系統(tǒng)。(4)整個(gè)加工體系會(huì)隨著時(shí)間的變化,信息數(shù)量的變化,載體的變化和技術(shù)的變化而不斷變化和完善。(5)信息的加工按其加工對(duì)象的不同可分為對(duì)外表信息的描述與加工,對(duì)整體信息的描述與加工,還有對(duì)內(nèi)容信息的描述與加工。2.請(qǐng)?zhí)接懸幌滦畔⒓庸さ膶哟涡愿鶕?jù)信息加工特點(diǎn),信息加
6、工分為6個(gè)層次:外表信息的加工是描述性的,給用戶(hù)提供的是信息的線索;整體信息的加工是概述性的,給用戶(hù)提供的是信息的內(nèi)容特點(diǎn);內(nèi)容信息的加工要深入信息內(nèi)部,對(duì)有用的信息給予揭示標(biāo)引,使讀者利用信息有據(jù)可查;精粹信息的加工是通過(guò)比較鑒別的方法,選取價(jià)值高的整體或局部信息,給用戶(hù)直接提供信息的精華,滿(mǎn)足用戶(hù)對(duì)實(shí)質(zhì)性信息的要求;深度信息的加工是研究性和評(píng)價(jià)性的,解決信息的優(yōu)劣和有關(guān)信息的有效組合問(wèn)題,給用戶(hù)以啟迪和決策依據(jù);相關(guān)信息的加工是信息的外延和擴(kuò)展,使有關(guān)信息根據(jù)一定關(guān)系進(jìn)行鏈接,給用戶(hù)檢索和直接利用的方便。* 二 *一、填空題1. 數(shù)據(jù)庫(kù)的定義功能主要是對(duì)數(shù)據(jù)庫(kù)的結(jié)構(gòu)進(jìn)行描述,這些定義都保存
7、數(shù)據(jù)字典 中。2. 數(shù)據(jù)庫(kù)系統(tǒng)提供了兩種機(jī)制來(lái)支持完整性約束:第一種是完整性 定義機(jī)制,第二種是完整性_驗(yàn)證約束機(jī)制_。3. 數(shù)據(jù)庫(kù)的三級(jí)模式是指_外模式_、_內(nèi)模式_、_模式_。4. 對(duì)文獻(xiàn)數(shù)據(jù)庫(kù)而言,加工深度表現(xiàn)為_(kāi)題錄_、_文摘_、_全文 三個(gè)層次。5. 標(biāo)引工作可分為_(kāi)人工標(biāo)引_、_計(jì)算機(jī)輔助標(biāo)引_、_自動(dòng)標(biāo)引 三種方式。6. 信息檢索過(guò)程實(shí)際上是將檢索提問(wèn)式與文獻(xiàn)記錄標(biāo)引詞進(jìn)行_對(duì)比匹配_的過(guò)程。7. 為提高檢索效率,計(jì)算機(jī)檢索系統(tǒng)從_概念相關(guān)性_、_位置相關(guān)性_等方面對(duì)檢索提問(wèn)實(shí)行技術(shù)處理。8. 用向量模型計(jì)算機(jī)向量時(shí),一般采用向量的_夾角余弦_來(lái)表示。9. 通常,智能信息檢索系統(tǒng)
8、由_知識(shí)庫(kù)_、_文本處理_、_智能接口_三部分組成。2、 名詞解釋1數(shù)據(jù)模型:是描述數(shù)據(jù)、數(shù)據(jù)聯(lián)系、數(shù)據(jù)操作、數(shù)據(jù)語(yǔ)義以及一致性約束的概念工具的集合。2著錄:就是對(duì)信息外部特征進(jìn)行分析、選擇與記錄的過(guò)程。3標(biāo)引:就是指對(duì)信息內(nèi)容特征進(jìn)行分析,賦予信息以檢索標(biāo)識(shí)的過(guò)程。4詞位檢索:是以數(shù)據(jù)庫(kù)原始記錄中的檢索詞之間的特定位置關(guān)系為對(duì)象的運(yùn)算,又稱(chēng)全文檢索、鄰近檢索。3、 簡(jiǎn)答題1什么是倒排文檔?為什么要使用倒排文檔? 答:倒排文檔是將主文檔中的可檢字段抽出,按某種順序重新排列起來(lái)所形成的一種文檔。 按表達(dá)文獻(xiàn)內(nèi)容特征的主題詞排列的文檔稱(chēng)為基本索引文檔;按表達(dá)文獻(xiàn)外部特征排列的文檔稱(chēng)為輔助索引文檔。
9、在實(shí)施檢索時(shí),必須和順排文檔配合使用。倒排文檔類(lèi)似于檢索工具中的輔助索引。2簡(jiǎn)述布爾模型及其優(yōu)缺點(diǎn) 答:布爾模型是最簡(jiǎn)單的信息檢索模型。這種模型的理論基礎(chǔ)是集合論。布爾模型最大的優(yōu)點(diǎn)是理論簡(jiǎn)單、使用方便。缺點(diǎn)是:(1)它只能給出精確匹配的結(jié)果;(2)檢索結(jié)果有可能因查詢(xún)?cè)~在大量文檔中出現(xiàn)而數(shù)量太多;(3)由于找不到與查詢(xún)?cè)~完全匹配的文檔而使結(jié)果太少。3簡(jiǎn)述向量空間模型及其優(yōu)點(diǎn) 答:向量空間模型是一種簡(jiǎn)便、高效的文本表示模型,其理論基礎(chǔ)是代數(shù)學(xué)。向量空間模型最主要的優(yōu)點(diǎn)在于:(1)該模型的權(quán)重計(jì)算方法能夠提高系統(tǒng)的檢索性能;(2)模型中使用的部分匹配方法能檢索出與用戶(hù)的查詢(xún)輸入條件“近似”的文檔
10、;(3)在模型中可以根據(jù)檢索出的結(jié)果與查詢(xún)條件的相關(guān)程度對(duì)結(jié)果進(jìn)行排序。另外,向量空間模型計(jì)算簡(jiǎn)單,檢索速度快。4簡(jiǎn)述“網(wǎng)播”的信息推送方式 答:(1)頻道式推送 (2)郵件式推送 (3)網(wǎng)頁(yè)式推送 (4)專(zhuān)用式推送5簡(jiǎn)述智能信息檢索的系統(tǒng)結(jié)構(gòu) 答:智能信息檢索系統(tǒng)是由知識(shí)庫(kù)、文本處理和智能接口三部分組成。6簡(jiǎn)述智能信息檢索的主要方法 答:(1)統(tǒng)計(jì)方法 (2)文本分析方法 (3)人工智能方法 (4)語(yǔ)料庫(kù)方法7. 有哪些種類(lèi)的加權(quán)檢索?各有哪些特征?加權(quán)檢索把量化思想引入定性檢索之中,是改善和提高檢索效果的一種重要手段。分標(biāo)引加權(quán)和檢索加權(quán);檢索加權(quán)是指檢索者在給出檢索詞的同時(shí),并為每個(gè)檢索
11、詞賦予權(quán)值,以區(qū)分每個(gè)檢索詞在檢索中的重要程度。通過(guò)加權(quán),明確了各檢索詞的重要程度,使檢索更有針對(duì)性,并且能依據(jù)權(quán)值的大小,對(duì)命中記錄的重要性進(jìn)行排序 詞頻加權(quán)檢索是根據(jù)檢索詞在記錄中出現(xiàn)的頻次來(lái)計(jì)算命中記錄的權(quán)和,依據(jù)命中記錄權(quán)和數(shù)從大到小排列,最后由閾值控制輸出命中結(jié)果。與檢索詞加權(quán)檢索不同的是,詞的權(quán)值是由數(shù)據(jù)庫(kù)記錄中的詞頻決定,不是由檢索者指定,不需人工干預(yù),減輕了檢索者的負(fù)擔(dān)。詞頻加權(quán)檢索方法應(yīng)建立在對(duì)全文數(shù)據(jù)庫(kù)和文摘數(shù)據(jù)庫(kù)基礎(chǔ)之上,否則詞頻加權(quán)將失去意義。簡(jiǎn)單詞頻加權(quán)檢索:指檢索時(shí)累計(jì)檢索詞在記錄中出現(xiàn)的次數(shù)來(lái)決定記錄的權(quán)值,然后累計(jì)該記錄每個(gè)檢索詞權(quán)值之和來(lái)決定該記錄是否為命中記
12、錄。相對(duì)詞頻加權(quán)檢索:是將每一個(gè)檢索詞在本文中頻率和在整個(gè)數(shù)據(jù)庫(kù)中的頻率綜合考慮,進(jìn)行加權(quán)檢索的方法。標(biāo)引加權(quán)檢索是指在對(duì)文獻(xiàn)進(jìn)行標(biāo)引時(shí),根據(jù)每個(gè)標(biāo)引詞在文獻(xiàn)中的重要程度不同,為它們附上不同的權(quán)值,檢索時(shí)通過(guò)對(duì)檢索詞的標(biāo)引權(quán)值相加來(lái)篩選命中記錄。4、 論述題1. 擴(kuò)展的檢索技術(shù)很多,請(qǐng)從提高可是查準(zhǔn)率和查全率兩個(gè)角度探討一下擴(kuò)展的檢索技術(shù)。循此思路。你還有什么新的解決方法?2. 如何理解布爾邏輯表達(dá)式的逆波蘭轉(zhuǎn)換?3. 請(qǐng)用實(shí)例說(shuō)明信息推送的實(shí)際應(yīng)用* 四 *1、 填空題1. 全文檢索主要研究對(duì)整個(gè)文檔信息的_表示_、_存儲(chǔ)_、_組織_、_訪問(wèn)_。2. 全文檢索的中心環(huán)節(jié)是_文件內(nèi)容表達(dá)_、_
13、信息查詢(xún)的獲得_、_相關(guān)信息的匹配_。3. 按檢索對(duì)象來(lái)區(qū)分,全文檢索可分為_(kāi)基于文本_和_基于Web _兩種類(lèi)型;根據(jù)索引庫(kù)中索引元素的不同,全文檢索可分為_(kāi)基于字表_的全文檢索和_基于詞表_的全文檢索。4. 基于理解的分詞系統(tǒng)通常包括_分詞子系統(tǒng)_、_句法語(yǔ)義子系統(tǒng)_、_總控部分_等三個(gè)部分5. 自動(dòng)標(biāo)引又分為_(kāi)自動(dòng)主題標(biāo)引_、_自動(dòng)分類(lèi)標(biāo)引_。6. 自動(dòng)標(biāo)引的方法主要有_統(tǒng)計(jì)標(biāo)引法_、概率標(biāo)引法_、_句法分析法_、_語(yǔ)義分析法、_人工智能法_。7. 一個(gè)自動(dòng)標(biāo)引系統(tǒng)通常包括文本輸入_、_詞典_、_抽詞_、_知識(shí)庫(kù)_、_綜合與轉(zhuǎn)換_、_輸出_等六個(gè)子系統(tǒng)。8. 文本有_詞頻_、_標(biāo)題_、_
14、位置、_句法結(jié)構(gòu)_、_線索詞_、_指示性短語(yǔ) 等新課程形式特征,這些特征是自動(dòng)摘錄的依據(jù)。9. 漢字全文檢索系統(tǒng)主要包括兩方面的核心技術(shù),一是如何建立和維護(hù)全文檢索的_索引數(shù)據(jù)庫(kù)_,二是如何提供快速有效的_檢索機(jī)制_。10. 索引數(shù)據(jù)庫(kù)一般由一個(gè)變長(zhǎng)的_主文件_和一個(gè)在索引文件控制下的_倒排文件_組成。11. 全文檢索索引數(shù)據(jù)庫(kù)的生成包括_數(shù)據(jù)準(zhǔn)備_、_文本預(yù)處理_、_數(shù)據(jù)加載 三個(gè)步驟。2、 名詞解釋1. 全文檢索 自動(dòng)標(biāo)引 主題詞標(biāo)引 自動(dòng)文摘3、 簡(jiǎn)答題1. 簡(jiǎn)述全文檢索的優(yōu)缺點(diǎn)2. 簡(jiǎn)述基于字符串匹配分詞方法的一般模型3. 簡(jiǎn)述單漢字標(biāo)引法及其優(yōu)缺點(diǎn)4. 簡(jiǎn)述主題詞標(biāo)引的基本思路5.
15、簡(jiǎn)述主題詞標(biāo)引的實(shí)現(xiàn)6. 簡(jiǎn)述自動(dòng)標(biāo)引的基本流程7. 簡(jiǎn)述詞索引的全文檢索系統(tǒng)的索引算法8. 簡(jiǎn)述全文檢索系統(tǒng)的系統(tǒng)結(jié)構(gòu)9. 簡(jiǎn)述自動(dòng)標(biāo)引的基本方法10. 簡(jiǎn)述漢語(yǔ)自動(dòng)標(biāo)引的方法11. 簡(jiǎn)述自動(dòng)標(biāo)引的系統(tǒng)構(gòu)成4、 論述題1. 針對(duì)全文檢索存在的問(wèn)題,你準(zhǔn)備采取什么方式進(jìn)行解決?2. 根據(jù)簡(jiǎn)單匹配全文檢索算法,畫(huà)出其流程圖3. 請(qǐng)簡(jiǎn)要論述一下全文檢索算法的發(fā)展軌跡4. 請(qǐng)談一下你對(duì)幾種分詞方法的看法。* 五 *1、 填空題1. 搜索引擎的工作過(guò)程可以看作三步,_從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)_、_建立索引數(shù)據(jù)庫(kù)、_在索引數(shù)據(jù)庫(kù)中搜索排序_2. 目前,Internet上的搜索引擎大致可分為_(kāi)目錄式_、_機(jī)器人
16、_、_元_3. 搜索引擎一般由_搜索器_、_索引器_、_檢索器_、_用戶(hù)接口_四個(gè)部分組成4. 搜索引擎中主要有_頁(yè)面數(shù)據(jù)_、_索引數(shù)據(jù)_、_ URL數(shù)據(jù)_等三類(lèi)典型的數(shù)據(jù)5. Robot的主要瓶頸是_域名服務(wù)器(DNS)的查找6. Robot技術(shù)中最關(guān)鍵的一部分是_站點(diǎn)爬行7. 在站點(diǎn)爬行過(guò)程中必須要解決_消除重復(fù)_、_辨別類(lèi)型_、_限制范圍_、_限制深度_8. Robot使用_深度優(yōu)先_、_廣度優(yōu)先_兩種基本的搜索策略9. 對(duì)于網(wǎng)頁(yè)內(nèi)容的提取,網(wǎng)絡(luò)蜘蛛系統(tǒng)一般采用_插件_的形式10. 文本預(yù)處理中,詞法分析的過(guò)程是將_字符串_轉(zhuǎn)換成_詞條_的過(guò)程11. 在信息獲取系統(tǒng)中,詞典是用來(lái)根據(jù)詞匯
17、找到對(duì)應(yīng)詞匯信息的_數(shù)據(jù)匯編 12. 倒排文件機(jī)制是一種面向_單詞_的機(jī)制13. 倒排文件結(jié)構(gòu)由_詞匯_和_詞匯出現(xiàn)情況_兩部分組成14. 一個(gè)搜索引擎的有效性在很大程度上取決于_索引_的質(zhì)量15. 索引數(shù)據(jù)庫(kù)建立的策略在很大程度上影響搜索引擎的_效率_與_準(zhǔn)確性_16. 垂直搜索技術(shù)主要分為_(kāi)模板級(jí)_、_網(wǎng)頁(yè)庫(kù)級(jí)_兩個(gè)層次17. 垂直搜索引擎的技術(shù)評(píng)估是從_全面性_、_更新性_、_準(zhǔn)確性_、_功能性_等幾個(gè)方面來(lái)進(jìn)行的18. 目前,智能化搜索引擎在形式上采用了“_以網(wǎng)對(duì)網(wǎng)_”的二級(jí)映射模式來(lái)代替?zhèn)鹘y(tǒng)的_一級(jí)映射模式_19. 智能化搜索引擎中,詞典維護(hù)工具有_詞典生成工具_(dá)、_詞典導(dǎo)出工具_(dá)、
18、_詞典連接工具20. Innernet網(wǎng)就是_語(yǔ)意分析器、_詞典維護(hù)工具_(dá)、_關(guān)鍵詞分析_三個(gè)部分組成的有機(jī)整體2、 名詞解釋1. 搜索引擎 垂直搜索 Innernet網(wǎng)3、 簡(jiǎn)答題1. 簡(jiǎn)述搜索引擎的特點(diǎn)2. 簡(jiǎn)述搜索引擎四個(gè)組成部分的功能3. Robot程序設(shè)計(jì)時(shí)需要考慮的問(wèn)題是什么4. 簡(jiǎn)述網(wǎng)絡(luò)蜘蛛的工作過(guò)程5. 簡(jiǎn)述文本預(yù)處理的步驟6. 簡(jiǎn)述檢索器的功能7. 倒排文件如何搜索8. 簡(jiǎn)述PageRank算法的計(jì)算公式9. 簡(jiǎn)述垂直搜索的特點(diǎn)10. 簡(jiǎn)述模板級(jí)垂直搜索和網(wǎng)頁(yè)庫(kù)級(jí)垂直搜索的優(yōu)缺點(diǎn)11. 簡(jiǎn)述個(gè)性化搜索中用戶(hù)興趣信息存放的解決方案12. 簡(jiǎn)述智能化搜索引擎的特征13. 簡(jiǎn)述垂直
19、搜索的內(nèi)容來(lái)源14. 簡(jiǎn)述垂直搜索所需要的技術(shù)15. 搜索引擎所使用的信息檢索模型有那些?各有什么特點(diǎn)?16. 簡(jiǎn)述建立搜索引擎的關(guān)鍵技術(shù)17. 搜索引擎如何對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取4、 論述題1. 請(qǐng)嘗試著比較一下搜索引擎與全文檢索2. 請(qǐng)?jiān)u價(jià)一下收費(fèi)排名3. 如何看待垂直搜索的信息采集策略4. 你如何看待傳統(tǒng)搜索引擎技術(shù)的不足?你準(zhǔn)備如何解決?* 六 *1、 填空題1.多媒體內(nèi)容的處理包括_內(nèi)容獲取_、_內(nèi)容描述_、_內(nèi)容操縱_三個(gè)步驟2.視頻可用_場(chǎng)景_、_鏡頭 、_幀_來(lái)描述3.在基于內(nèi)容的視頻檢索中,檢索的基本單元是_鏡頭_4.基于內(nèi)容的視頻檢索的關(guān)鍵技術(shù)是_視頻分割_、_代表幀_、_動(dòng)
20、態(tài)特征提取_5.鏡頭之間的轉(zhuǎn)換方式主要有_突變_和_漸變_6.音頻檢索主要采用_示例查詢(xún)_2、 名詞解釋1.基于內(nèi)容的圖像檢索3、 簡(jiǎn)答題1. 簡(jiǎn)述基于內(nèi)容檢索的特點(diǎn)2. 簡(jiǎn)述基于內(nèi)容檢索的過(guò)程3. 簡(jiǎn)述基于內(nèi)容檢索的系統(tǒng)結(jié)構(gòu)4. 簡(jiǎn)述基于內(nèi)容檢索的關(guān)鍵技術(shù)5. 簡(jiǎn)述基于內(nèi)容檢索的評(píng)價(jià)標(biāo)準(zhǔn)6. 簡(jiǎn)述基于特征的圖像檢索過(guò)程* 七 *1、 填空題1.信息分析與預(yù)測(cè)的基本方法分為三類(lèi):_邏輯學(xué)方法_、_數(shù)量分析方法_、_系統(tǒng)科學(xué)方法 2.競(jìng)爭(zhēng)情報(bào)是經(jīng)過(guò)篩選、提煉和分析過(guò)的,可據(jù)此采取行動(dòng)的有關(guān)_競(jìng)爭(zhēng)對(duì)手_和_競(jìng)爭(zhēng)情況_的信息集合。3.競(jìng)爭(zhēng)情報(bào)的來(lái)源分為_(kāi)公共領(lǐng)域_信息和_非公共領(lǐng)域 信息。4.一般認(rèn)
21、為,競(jìng)爭(zhēng)情報(bào)的實(shí)施分為_(kāi)情報(bào)規(guī)劃_、收集數(shù)據(jù) 、分析情報(bào) 和_傳播 等幾個(gè)步驟。5.數(shù)據(jù)挖掘所得到的信息應(yīng)具有_未知_、_有效_、_可實(shí)用_三個(gè)特征6.數(shù)據(jù)挖掘系統(tǒng)是從被挖掘的數(shù)據(jù)中形成特定知識(shí)表示過(guò)程的實(shí)現(xiàn)機(jī)制,因此它與被挖掘的_數(shù)據(jù)組織形式_和所采用的_知識(shí)表示_及_推理方式_有關(guān)。7.按挖掘的對(duì)象不同,網(wǎng)絡(luò)信息挖掘可分為_(kāi) Web內(nèi)容挖掘_、_ web結(jié)構(gòu)挖掘_、_ Web使用記錄挖掘_8.Web使用記錄挖掘可分為_(kāi)一般存取路徑追蹤_、_專(zhuān)用化追蹤_9.Web用法挖掘分為_(kāi)個(gè)性挖掘_、_系統(tǒng)改進(jìn)_、_站點(diǎn)修改_、_智能商務(wù)、_ Web特征描述_10.文本挖掘的準(zhǔn)備工作由_文本收集_、_文
22、本分析 、_特征修剪 組成。2、 名詞解釋1. 信息分析 數(shù)據(jù)挖掘 Web數(shù)據(jù)挖掘 文本挖掘 個(gè)性化信息服務(wù)3、 簡(jiǎn)答題1.簡(jiǎn)述信息分析的特點(diǎn)2.簡(jiǎn)述信息分析的工作程序3.簡(jiǎn)述信息分析報(bào)告的內(nèi)容和結(jié)構(gòu)4.簡(jiǎn)述數(shù)據(jù)挖掘的功能5.簡(jiǎn)述數(shù)據(jù)挖掘的過(guò)程6.簡(jiǎn)述Web挖掘的基本原理7.簡(jiǎn)述個(gè)性化信息服務(wù)的特點(diǎn)8.簡(jiǎn)述個(gè)性化信息服務(wù)的類(lèi)型 9.個(gè)性化信息模型的構(gòu)建方法4、 論述題1.嘗試著比較一下Web挖掘與Web信息檢索的區(qū)別與聯(lián)系2.如何獲取用戶(hù)的個(gè)性化需求3.個(gè)性化信息服務(wù)模型的構(gòu)建答案* 一 *填空1.數(shù)值型 文字型(字符) 語(yǔ)音型 圖像型2.原料 成品3.信息4.自然 人為5.數(shù)據(jù) 文本 聲音
23、圖像6.語(yǔ)義 差異 傳遞 載體7.外表 整體 內(nèi)容8.收集 傳輸 加工 儲(chǔ)存(存儲(chǔ))9.信息形式 信息內(nèi)容10.內(nèi)在的信息需要 外在刺激11.標(biāo)題詞 單元詞 敘詞 關(guān)鍵詞12.線性結(jié)構(gòu) 非線性結(jié)構(gòu) 樹(shù)形結(jié)構(gòu) 網(wǎng)狀結(jié)構(gòu)13.數(shù)據(jù)預(yù)處理 索引生成 查詢(xún)處理 檢索名詞解釋1數(shù)據(jù):是指記載下來(lái)的事實(shí),是客觀實(shí)體屬性的值,它是由原始事實(shí)組成的。2信息加工:是指對(duì)獲取的信息進(jìn)行判別、篩選、分類(lèi)、排序、分析、計(jì)算和研究等一系列過(guò)程,使收集到的信息成為對(duì)我們有用的信息資源。3信息組織:即信息序化或信息整序,也就是利用一定的科學(xué)規(guī)則和方法,通過(guò)對(duì)信息外在特征和內(nèi)容特征的表征和序化,實(shí)現(xiàn)無(wú)序信息流向有序信息流的轉(zhuǎn)
24、換,從而保證用戶(hù)對(duì)信息的有效獲取和利用及信息的有效流通和組合。 4檢索標(biāo)識(shí):就是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語(yǔ)言,也是連接信息存儲(chǔ)和檢索兩個(gè)過(guò)程中標(biāo)引人員與檢索人員雙方思路的渠道,是用于文獻(xiàn)標(biāo)引和檢索提問(wèn)的約定語(yǔ)言。5信息檢索:可以從廣義和狹義兩個(gè)角度理解。廣義的信息檢索是指將信息按一定方式組織和存儲(chǔ)起來(lái),并根據(jù)用戶(hù)的需要找出相關(guān)信息的過(guò)程,其中包括存與取兩個(gè)方面。狹義的信息檢索僅指信息查找過(guò)程。6信息檢索系統(tǒng):是指按某種方式、方法建立起來(lái)的用于檢索信息的一種有層次的體系,是表征有序的信息特征的集合體。7檢索效果:是指利用檢索系統(tǒng)(或工具)開(kāi)展檢索服務(wù)時(shí)所產(chǎn)生的有效結(jié)果。簡(jiǎn)答題1簡(jiǎn)述了
25、解用戶(hù)信息需求的作用 答:用戶(hù)信息需求是信息系統(tǒng)發(fā)展的動(dòng)力,也是制定信息政策的出發(fā)點(diǎn)和依據(jù)。了解用戶(hù)需求的特點(diǎn)、心理規(guī)律、查詢(xún)行為及需求方式,有助于系統(tǒng)制訂合理的信息搜集方針和信息資源的合理布局,從而提高服務(wù)效益和質(zhì)量。2簡(jiǎn)述影響信息動(dòng)機(jī)向信息行為轉(zhuǎn)化的主要因素 答:(1)信息動(dòng)機(jī)強(qiáng)度 (2)認(rèn)知能力 (3)抱負(fù)水平3簡(jiǎn)述信息需要的特點(diǎn) 答:(1)信息需要的廣泛性 (2)信息需要的社會(huì)性 (3)信息需要的發(fā)展性 (4)信息需要的多樣性4簡(jiǎn)述信息檢索系統(tǒng)的構(gòu)成模式 答:(1)信息數(shù)據(jù)的選擇、處理、錄入、維護(hù)子系統(tǒng) (2)詞表和標(biāo)引子系統(tǒng)(4) 檢索子系統(tǒng) (4)系統(tǒng)-用戶(hù)接口子系統(tǒng)8.簡(jiǎn)述信息檢
26、索系統(tǒng)的流程系統(tǒng)可分為數(shù)據(jù)預(yù)處理、索引生成、查詢(xún)處理和檢索四個(gè)部分。論述題1有人說(shuō),信息加工是一個(gè)體系,你如何理解,請(qǐng)著重從“體系”這個(gè)角度加以說(shuō)明答:(1)加工的方式、方法多種多樣。(2)加工的方式、方法相互之間有關(guān)聯(lián),從不同角度對(duì)信息進(jìn)行加工的。(3)加工過(guò)程有其內(nèi)在聯(lián)系,構(gòu)成一個(gè)完整的系統(tǒng)。(4)整個(gè)加工體系會(huì)隨著時(shí)間的變化,信息數(shù)量的變化,載體的變化和技術(shù)的變化而不斷變化和完善。(5)信息的加工按其加工對(duì)象的不同可分為對(duì)外表信息的描述與加工,對(duì)整體信息的描述與加工,還有對(duì)內(nèi)容信息的描述與加工。2.請(qǐng)?zhí)接懸幌滦畔⒓庸さ膶哟涡愿鶕?jù)信息加工特點(diǎn),信息加工分為6個(gè)層次:外表信息的加工是描述性的
27、,給用戶(hù)提供的是信息的線索;整體信息的加工是概述性的,給用戶(hù)提供的是信息的內(nèi)容特點(diǎn);內(nèi)容信息的加工要深入信息內(nèi)部,對(duì)有用的信息給予揭示標(biāo)引,使讀者利用信息有據(jù)可查;精粹信息的加工是通過(guò)比較鑒別的方法,選取價(jià)值高的整體或局部信息,給用戶(hù)直接提供信息的精華,滿(mǎn)足用戶(hù)對(duì)實(shí)質(zhì)性信息的要求;深度信息的加工是研究性和評(píng)價(jià)性的,解決信息的優(yōu)劣和有關(guān)信息的有效組合問(wèn)題,給用戶(hù)以啟迪和決策依據(jù);相關(guān)信息的加工是信息的外延和擴(kuò)展,使有關(guān)信息根據(jù)一定關(guān)系進(jìn)行鏈接,給用戶(hù)檢索和直接利用的方便。* 二 *填空1. 數(shù)據(jù)字典2. 定義機(jī)制 驗(yàn)證約束機(jī)制3. 外模式 內(nèi)模式 模式4. 題錄 文摘 全文5. 人工標(biāo)引 計(jì)算機(jī)
28、輔助標(biāo)引 自動(dòng)標(biāo)引6. 對(duì)比匹配7. 概念相關(guān)性 位置相關(guān)性8. 夾角余弦9. 知識(shí)庫(kù) 文本處理 智能接口名詞解釋1數(shù)據(jù)模型:是描述數(shù)據(jù)、數(shù)據(jù)聯(lián)系、數(shù)據(jù)操作、數(shù)據(jù)語(yǔ)義以及一致性約束的概念工具的集合。2著錄:就是對(duì)信息外部特征進(jìn)行分析、選擇與記錄的過(guò)程。3標(biāo)引:就是指對(duì)信息內(nèi)容特征進(jìn)行分析,賦予信息以檢索標(biāo)識(shí)的過(guò)程。4詞位檢索:是以數(shù)據(jù)庫(kù)原始記錄中的檢索詞之間的特定位置關(guān)系為對(duì)象的運(yùn)算,又稱(chēng)全文檢索、鄰近檢索。簡(jiǎn)答題1什么是倒排文檔?為什么要使用倒排文檔? 答:倒排文檔是將主文檔中的可檢字段抽出,按某種順序重新排列起來(lái)所形成的一種文檔。 按表達(dá)文獻(xiàn)內(nèi)容特征的主題詞排列的文檔稱(chēng)為基本索引文檔;按表
29、達(dá)文獻(xiàn)外部特征排列的文檔稱(chēng)為輔助索引文檔。在實(shí)施檢索時(shí),必須和順排文檔配合使用。倒排文檔類(lèi)似于檢索工具中的輔助索引。2簡(jiǎn)述布爾模型及其優(yōu)缺點(diǎn) 答:布爾模型是最簡(jiǎn)單的信息檢索模型。這種模型的理論基礎(chǔ)是集合論。布爾模型最大的優(yōu)點(diǎn)是理論簡(jiǎn)單、使用方便。缺點(diǎn)是:(1)它只能給出精確匹配的結(jié)果;(2)檢索結(jié)果有可能因查詢(xún)?cè)~在大量文檔中出現(xiàn)而數(shù)量太多;(3)由于找不到與查詢(xún)?cè)~完全匹配的文檔而使結(jié)果太少。3簡(jiǎn)述向量空間模型及其優(yōu)點(diǎn) 答:向量空間模型是一種簡(jiǎn)便、高效的文本表示模型,其理論基礎(chǔ)是代數(shù)學(xué)。向量空間模型最主要的優(yōu)點(diǎn)在于:(1)該模型的權(quán)重計(jì)算方法能夠提高系統(tǒng)的檢索性能;(2)模型中使用的部分匹配方法
30、能檢索出與用戶(hù)的查詢(xún)輸入條件“近似”的文檔;(3)在模型中可以根據(jù)檢索出的結(jié)果與查詢(xún)條件的相關(guān)程度對(duì)結(jié)果進(jìn)行排序。另外,向量空間模型計(jì)算簡(jiǎn)單,檢索速度快。4簡(jiǎn)述“網(wǎng)播”的信息推送方式 答:(1)頻道式推送 (2)郵件式推送 (3)網(wǎng)頁(yè)式推送 (4)專(zhuān)用式推送5簡(jiǎn)述智能信息檢索的系統(tǒng)結(jié)構(gòu) 答:智能信息檢索系統(tǒng)是由知識(shí)庫(kù)、文本處理和智能接口三部分組成。6簡(jiǎn)述智能信息檢索的主要方法 答:(1)統(tǒng)計(jì)方法 (2)文本分析方法 (3)人工智能方法 (4)語(yǔ)料庫(kù)方法8. 有哪些種類(lèi)的加權(quán)檢索?各有哪些特征?加權(quán)檢索把量化思想引入定性檢索之中,是改善和提高檢索效果的一種重要手段。分標(biāo)引加權(quán)和檢索加權(quán);檢索加權(quán)
31、是指檢索者在給出檢索詞的同時(shí),并為每個(gè)檢索詞賦予權(quán)值,以區(qū)分每個(gè)檢索詞在檢索中的重要程度。通過(guò)加權(quán),明確了各檢索詞的重要程度,使檢索更有針對(duì)性,并且能依據(jù)權(quán)值的大小,對(duì)命中記錄的重要性進(jìn)行排序 詞頻加權(quán)檢索是根據(jù)檢索詞在記錄中出現(xiàn)的頻次來(lái)計(jì)算命中記錄的權(quán)和,依據(jù)命中記錄權(quán)和數(shù)從大到小排列,最后由閾值控制輸出命中結(jié)果。與檢索詞加權(quán)檢索不同的是,詞的權(quán)值是由數(shù)據(jù)庫(kù)記錄中的詞頻決定,不是由檢索者指定,不需人工干預(yù),減輕了檢索者的負(fù)擔(dān)。詞頻加權(quán)檢索方法應(yīng)建立在對(duì)全文數(shù)據(jù)庫(kù)和文摘數(shù)據(jù)庫(kù)基礎(chǔ)之上,否則詞頻加權(quán)將失去意義。簡(jiǎn)單詞頻加權(quán)檢索:指檢索時(shí)累計(jì)檢索詞在記錄中出現(xiàn)的次數(shù)來(lái)決定記錄的權(quán)值,然后累計(jì)該記錄
32、每個(gè)檢索詞權(quán)值之和來(lái)決定該記錄是否為命中記錄。相對(duì)詞頻加權(quán)檢索:是將每一個(gè)檢索詞在本文中頻率和在整個(gè)數(shù)據(jù)庫(kù)中的頻率綜合考慮,進(jìn)行加權(quán)檢索的方法。標(biāo)引加權(quán)檢索是指在對(duì)文獻(xiàn)進(jìn)行標(biāo)引時(shí),根據(jù)每個(gè)標(biāo)引詞在文獻(xiàn)中的重要程度不同,為它們附上不同的權(quán)值,檢索時(shí)通過(guò)對(duì)檢索詞的標(biāo)引權(quán)值相加來(lái)篩選命中記錄。* 四 *填空1.表示 存儲(chǔ) 組織 訪問(wèn)2.文件內(nèi)容表達(dá) 信息查詢(xún)的獲得 相關(guān)信息的匹配3.基于文本 基于Web 基于字表 基于詞表4.分詞子系統(tǒng) 句法語(yǔ)義子系統(tǒng) 總控部分5.自動(dòng)主題標(biāo)引 自動(dòng)分類(lèi)標(biāo)引6.統(tǒng)計(jì)標(biāo)引法 概率標(biāo)引法 句法分析法 語(yǔ)義分析法 人工智能法7.文本輸入 詞典 抽詞 知識(shí)庫(kù) 綜合與轉(zhuǎn)換 輸
33、出8.詞頻 標(biāo)題 位置 句法結(jié)構(gòu) 線索詞 指示性短語(yǔ)9.索引數(shù)據(jù)庫(kù) 檢索機(jī)制10.主文件 倒排文件11.數(shù)據(jù)準(zhǔn)備 文本預(yù)處理 數(shù)據(jù)加載名詞解釋1全文檢索:是指以全文本信息作為檢索對(duì)象,建立全文數(shù)據(jù)庫(kù),除了具有布爾邏輯檢索功能外,還具有文本檢索功能,并允許用戶(hù)以自然語(yǔ)言檢索,直接獲得原文中的有關(guān)章節(jié)和段句。2自動(dòng)標(biāo)引:是根據(jù)文獻(xiàn)內(nèi)容,依靠計(jì)算機(jī)系統(tǒng)全部或部分地自動(dòng)給出標(biāo)引符號(hào)的過(guò)程。3主題詞標(biāo)引:是指抽取信息中能夠表達(dá)其核心內(nèi)容的詞或詞組,并將這些詞或詞組轉(zhuǎn)化為受控詞的過(guò)程。4自動(dòng)文摘:就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。簡(jiǎn)答題1簡(jiǎn)述單漢字標(biāo)引法及其優(yōu)缺點(diǎn) 答:?jiǎn)螡h字標(biāo)引法是眾多標(biāo)引方法中
34、比較有影響的一種。吸收了西文自動(dòng)抽詞標(biāo)引的思想,把一個(gè)單漢字看成一個(gè)西文單詞而作為標(biāo)引詞,檢索時(shí)先匹配單字,再進(jìn)行詞組重組。另外增加了一個(gè)停用字表,提高了標(biāo)引效率。優(yōu)點(diǎn):?jiǎn)螡h字法繞開(kāi)切分問(wèn)題,容易實(shí)現(xiàn),便于系統(tǒng)維護(hù),標(biāo)引速度快、深入、客觀且一致,詞語(yǔ)組配靈活。缺點(diǎn):檢索速度不快,增加了用戶(hù)的智力負(fù)擔(dān),浪費(fèi)了計(jì)算機(jī)存儲(chǔ)空間,犧牲了隱含概念主題及詞匯間相互關(guān)系的表達(dá),系統(tǒng)的查全率和查準(zhǔn)率都不能令人滿(mǎn)意。2簡(jiǎn)述主題詞標(biāo)引的基本思路 答:主題詞標(biāo)引的基本思路是利用漢語(yǔ)自動(dòng)分詞的研究成果,采用詞典分詞法將文獻(xiàn)進(jìn)行切分,通過(guò)詞加權(quán)或詞頻統(tǒng)計(jì)法對(duì)切分后的詞進(jìn)行排序確定關(guān)鍵詞,利用主題詞表將關(guān)鍵詞轉(zhuǎn)化、合并、
35、去重、重新排序后確定系統(tǒng)正式使用的主題詞,并追加文獻(xiàn)代號(hào)送入系統(tǒng)主題詞字段中。3簡(jiǎn)述主題詞標(biāo)引的實(shí)現(xiàn) 答:(1)構(gòu)造詞表 構(gòu)造切分詞表 構(gòu)造主題詞表(2)主題詞標(biāo)引 抽取關(guān)鍵詞 歸并關(guān)鍵詞 確定標(biāo)引詞 主題詞標(biāo)引4簡(jiǎn)述自動(dòng)標(biāo)引的基本流程 答:自動(dòng)標(biāo)引的基本流程包括:確定標(biāo)引源、輸入標(biāo)引源內(nèi)容、預(yù)處理、分詞處理、確定關(guān)鍵詞、轉(zhuǎn)換為受控詞、給出主題標(biāo)識(shí)符。9. 簡(jiǎn)述自動(dòng)標(biāo)引的基本方法自動(dòng)標(biāo)引的方法主要有:(1)統(tǒng)計(jì)標(biāo)引法;(2)概率標(biāo)引法;(3)句法分析法;(4)語(yǔ)義分析法;(5)人工智能法10. 簡(jiǎn)述漢語(yǔ)自動(dòng)標(biāo)引的方法較典型的漢語(yǔ)自動(dòng)標(biāo)引方法包括:詞典標(biāo)引法、切分標(biāo)引法、語(yǔ)法分析標(biāo)引法、漢語(yǔ)自動(dòng)
36、標(biāo)引專(zhuān)家系統(tǒng)、單漢字標(biāo)引法等。11.簡(jiǎn)述自動(dòng)標(biāo)引的系統(tǒng)構(gòu)成 一個(gè)自動(dòng)標(biāo)引系統(tǒng)通常包括文本輸入、詞典、抽詞、知識(shí)庫(kù)、綜合與轉(zhuǎn)換以及輸出等6個(gè)子系統(tǒng)。* 五 *填空1.從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè) 建立索引數(shù)據(jù)庫(kù) 在索引數(shù)據(jù)庫(kù)中搜索排序2.目錄式 機(jī)器人 元3.搜索器 索引器 檢索器 用戶(hù)接口4.頁(yè)面數(shù)據(jù) 索引數(shù)據(jù) URL數(shù)據(jù)5.域名服務(wù)器(DNS)6.站點(diǎn)爬行7.消除重復(fù) 辨別類(lèi)型 限制范圍 限制深度8.深度優(yōu)先 廣度優(yōu)先9.插件10.字符串 詞條11.數(shù)據(jù)匯編12.單詞13.詞匯 詞匯出現(xiàn)情況14.索引15.效率 準(zhǔn)確性16.模板級(jí) 網(wǎng)頁(yè)庫(kù)級(jí)17.全面性 更新性 準(zhǔn)確性 功能性18.以網(wǎng)對(duì)網(wǎng) 一級(jí)映射模
37、式19.詞典生成工具 詞典導(dǎo)出工具 詞典連接工具20.語(yǔ)意分析器 詞典維護(hù)工具 關(guān)鍵詞分析名詞解釋1搜索引擎:從狹義的角度來(lái)說(shuō),搜索引擎由信息收集軟件、索引數(shù)據(jù)庫(kù)和查詢(xún)接口三部分組成。從廣義的角度上講,搜索引擎是互聯(lián)網(wǎng)上的一類(lèi)網(wǎng)站,是提供查詢(xún)、搜索的網(wǎng)站。2垂直搜索:是針對(duì)某一個(gè)行業(yè)的專(zhuān)業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合,它通過(guò)定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶(hù)。3Innernet網(wǎng):就是由一個(gè)或多個(gè)相關(guān)的詞典組成的反映人的知識(shí)網(wǎng)絡(luò)及相關(guān)工具的系統(tǒng)。簡(jiǎn)答題1簡(jiǎn)述搜索引擎的特點(diǎn) 答:(1)信息服務(wù)的綜合性 (2)信息服務(wù)的智能性
38、(3)信息服務(wù)的個(gè)性化 (4)具有支持Agent的能力 (5)具有與電子商務(wù)靈活結(jié)合的能力2Robot程序設(shè)計(jì)時(shí)需要考慮的問(wèn)題是什么 答:(1)與平臺(tái)無(wú)關(guān)性(2)要考慮是否直接影響訪問(wèn)Web的效率,影響搜索數(shù)據(jù)庫(kù)的質(zhì)量(3)要考慮對(duì)網(wǎng)絡(luò)或被訪問(wèn)站點(diǎn)的影響 (4)還應(yīng)遵守一些協(xié)議3簡(jiǎn)述網(wǎng)絡(luò)蜘蛛的工作過(guò)程 答:(1)網(wǎng)絡(luò)蜘蛛向被訪問(wèn)的站點(diǎn)標(biāo)明自己的身份(2)一般會(huì)訪問(wèn)一個(gè)特殊的文本文件Robots.txt(3)遵守相關(guān)協(xié)議(4)網(wǎng)絡(luò)蜘蛛在下載網(wǎng)頁(yè)的時(shí)候,會(huì)去識(shí)別網(wǎng)頁(yè)的HTML代碼。4簡(jiǎn)述文本預(yù)處理的步驟 答:(1)文本的詞法分析 (2)無(wú)用詞匯的刪除 (3)詞干提?。?)索引詞條/詞干的選擇 (5
39、)構(gòu)造詞條的分類(lèi)結(jié)構(gòu)5簡(jiǎn)述檢索器的功能 答:檢索器的功能是根據(jù)用戶(hù)輸入的查詢(xún)關(guān)鍵字在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶(hù)相關(guān)性反饋機(jī)制。6倒排文件如何搜索 答:(1)詞匯查找 (2)查詢(xún)?cè)~匯出現(xiàn)情況 (3)詞匯出現(xiàn)情況的操作7簡(jiǎn)述PageRank算法的計(jì)算公式 答:網(wǎng)頁(yè)A級(jí)別=(1-系數(shù))+系數(shù) ( 網(wǎng)頁(yè)1級(jí)別 + 網(wǎng)頁(yè)2級(jí)別 + 網(wǎng)頁(yè)N級(jí)別 ) 網(wǎng)頁(yè)1鏈出個(gè)數(shù) 網(wǎng)頁(yè)2鏈出個(gè)數(shù) 網(wǎng)頁(yè)N鏈出個(gè)數(shù) 8簡(jiǎn)述垂直搜索的特點(diǎn) 答:(1)垂直搜索的表現(xiàn)方式和一般的搜索引擎表現(xiàn)方式不同,結(jié)構(gòu)化的搜索和非結(jié)構(gòu)化的搜索并用。 (2)從廣告模式上,提供了除Go
40、ogle adsense和百度競(jìng)價(jià)排名廣告之外的另一種可能。 (3)垂直搜索引擎抓取的數(shù)據(jù)來(lái)源于垂直搜索引擎關(guān)注的行業(yè)站點(diǎn),傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)。(4)垂直搜索引擎的搜索行為是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的結(jié)構(gòu)化搜索。(5)垂直搜索引擎的搜索結(jié)果要覆蓋整個(gè)行業(yè)。(6)垂直搜索引擎的Web2.0需求。(7)垂直搜索引擎的目標(biāo)是幫助用戶(hù)解決問(wèn)題。(8)垂直搜索引擎的社區(qū)化特征。9簡(jiǎn)述模板級(jí)垂直搜索和網(wǎng)頁(yè)庫(kù)級(jí)垂直搜索的優(yōu)缺點(diǎn) 答:垂直搜索技術(shù)主要分為兩個(gè)層次:模板級(jí)和網(wǎng)頁(yè)庫(kù)級(jí)。模板級(jí)是針對(duì)網(wǎng)頁(yè)進(jìn)行模板設(shè)定或者自動(dòng)生成模板的方式抽取數(shù)據(jù),對(duì)網(wǎng)頁(yè)的采集也是針對(duì)性的采集,適合規(guī)模比較小、信息源少且穩(wěn)定的需求
41、,優(yōu)點(diǎn)是快速實(shí)施、成本低、靈活性強(qiáng),缺點(diǎn)是后期維護(hù)成本高,信息源和信息量小。 網(wǎng)頁(yè)庫(kù)級(jí)就是在信息源數(shù)量上、數(shù)據(jù)容量上、檢索容量上、穩(wěn)定性可靠性上都是網(wǎng)頁(yè)庫(kù)搜索引擎級(jí)別的要求,其靈活性差、成本高。10簡(jiǎn)述個(gè)性化搜索中用戶(hù)興趣信息存放的解決方案 答:關(guān)于用戶(hù)興趣信息的存放有三種解決方案:一是將用戶(hù)的興趣信息存放在搜索引擎服務(wù)器上;二是將用戶(hù)的興趣信息存放在用戶(hù)的機(jī)器上;三是用戶(hù)的興趣信息存放在其他服務(wù)器上。11簡(jiǎn)述智能化搜索引擎的特征答:(1)網(wǎng)絡(luò)蜘蛛的智能化 (2)為特定用戶(hù)提供相關(guān)信息 (3)搜索引擎人機(jī)接口的智能化13. 簡(jiǎn)述垂直搜索的內(nèi)容來(lái)源垂直搜索的內(nèi)容主要來(lái)源于:門(mén)戶(hù)網(wǎng)站自身的資源;以
42、開(kāi)放接口方式讓行業(yè)用戶(hù)提供的資源;普通用戶(hù)發(fā)布的資源;抓取行業(yè)用戶(hù)的資源。14.簡(jiǎn)述垂直搜索所需要的技術(shù)垂直搜索大致需要信息采集技術(shù)、網(wǎng)頁(yè)信息抽取技術(shù)、信息的處理技術(shù)、語(yǔ)意相關(guān)性分析、分詞技術(shù)和索引技術(shù)等。15. 搜索引擎所使用的信息檢索模型有那些?各有什么特點(diǎn)?布爾邏輯模型:布爾型信息檢索是最簡(jiǎn)單的信息檢索模型,用戶(hù)利用布爾邏輯關(guān)系構(gòu)造查詢(xún)并提交,搜索引擎根據(jù)事先建立的倒排文件確定查詢(xún)結(jié)果。標(biāo)準(zhǔn)布爾邏輯模型為二元邏輯,并可用邏輯符“and”、“or”、“not”來(lái)組織關(guān)鍵詞表達(dá)式。布爾型信息檢索模型的查全率高,查準(zhǔn)率低。目前大多搜索引擎均使用布爾邏輯檢索模型,查詢(xún)結(jié)果一般不進(jìn)行相關(guān)性排序。模
43、糊邏輯模型:這種模型在查詢(xún)結(jié)果處理中加入模糊邏輯運(yùn)算,將檢索的數(shù)據(jù)庫(kù)文檔信息與用戶(hù)的查詢(xún)要求進(jìn)行模糊邏輯比較,按照相關(guān)的優(yōu)先次序排列查詢(xún)結(jié)果。模糊邏輯模型可以克服布爾型信息檢索模型在查詢(xún)中其結(jié)果具有無(wú)序性的問(wèn)題。向量空間模型:向量空間模型用檢索項(xiàng)的向量空間來(lái)表示用戶(hù)的查詢(xún)要求和數(shù)據(jù)庫(kù)文檔信息。查詢(xún)結(jié)果是根據(jù)向量空間的相似性而排列的。向量空間模型可方便地產(chǎn)生有效的查詢(xún)結(jié)果,能提供相關(guān)文檔的文摘,并對(duì)查詢(xún)結(jié)果進(jìn)行分類(lèi),為用戶(hù)提供準(zhǔn)確的信息。概率模型:基于貝葉斯概率論原理的概率模型利用相關(guān)反饋的歸納學(xué)習(xí)方法,獲取匹配函數(shù),這是一種較復(fù)雜的檢索模型。16. 簡(jiǎn)述建立搜索引擎的關(guān)鍵技術(shù)信息收集和存儲(chǔ)一般
44、分為人工和自動(dòng)兩種方式。信息預(yù)處理包括信息格式支持與轉(zhuǎn)換以及信息過(guò)濾。信息索引技術(shù)就是創(chuàng)建文檔信息的特征記錄,以使用戶(hù)能夠快速地檢索到所需信息。17.搜索引擎如何對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取1關(guān)鍵詞的提取。網(wǎng)頁(yè)處理階段的一個(gè)基本任務(wù),就是要提取出網(wǎng)頁(yè)源文件的內(nèi)容部分所包含的關(guān)鍵詞。2重復(fù)或轉(zhuǎn)載網(wǎng)頁(yè)的消除3鏈接分析4網(wǎng)頁(yè)重要程度的計(jì)算論述題1請(qǐng)嘗試著比較一下搜索引擎與全文檢索 答:(1)數(shù)據(jù)量。全文檢索的數(shù)據(jù)量只有幾百萬(wàn)條,而搜索引擎的數(shù)據(jù)量極大。(2)內(nèi)容相關(guān)性。全文檢索強(qiáng)調(diào)內(nèi)容相關(guān)性,而搜索引擎不強(qiáng)調(diào)內(nèi)容相關(guān)性。(3)安全性。全文檢索有安全性要求,而搜索引擎沒(méi)有安全性要求。(4)個(gè)性化和智能化。全文
45、檢索的個(gè)性化和智能化要比搜索引擎的更好。2請(qǐng)?jiān)u價(jià)一下收費(fèi)排名 答:收費(fèi)排名并不屬于排序技術(shù),而是一種搜索引擎的贏利模式。但收費(fèi)排名已經(jīng)最直接的影響到了搜索引擎的排序。收費(fèi)排名一方面給搜索引擎公司帶來(lái)收益,一方面給企業(yè)帶來(lái)訪問(wèn)量,另外對(duì)訪問(wèn)者也有一定好處。對(duì)于企業(yè)來(lái)說(shuō),收費(fèi)排名是提升網(wǎng)站在搜索引擎中排名的最直接和最簡(jiǎn)單的辦法。3如何看待垂直搜索的信息采集策略 答:采集可通過(guò)人工設(shè)定網(wǎng)址和網(wǎng)頁(yè)分析URL方式共同進(jìn)行。策略上可以評(píng)估網(wǎng)站/網(wǎng)頁(yè)更新的系數(shù)、網(wǎng)站/網(wǎng)頁(yè)的重要系數(shù)、用戶(hù)點(diǎn)擊系數(shù)、網(wǎng)站穩(wěn)定系數(shù),根據(jù)這些系數(shù)來(lái)確定對(duì)這些網(wǎng)站/網(wǎng)頁(yè)更新的頻率,對(duì)網(wǎng)頁(yè)進(jìn)行很好的分級(jí)可以以低成本很好的解決更新問(wèn)題。
46、4你如何看待傳統(tǒng)搜索引擎技術(shù)的不足?你準(zhǔn)備如何解決?(解決辦法自己寫(xiě)) 答:傳統(tǒng)的搜索引擎,一方面存在“文海撈針”的問(wèn)題,但另一方面又存在“信息丟失”的問(wèn)題。它是由以下四個(gè)深層次的問(wèn)題引起的。這四個(gè)問(wèn)題都與詞匯緊密相關(guān)。第一個(gè)是“忠實(shí)表達(dá)”問(wèn)題,第二個(gè)是“表達(dá)差異”問(wèn)題,第三個(gè)是“詞匯孤島”問(wèn)題,第四個(gè)是“機(jī)械式匹配”問(wèn)題。* 六 *填空1.內(nèi)容獲取 內(nèi)容描述 內(nèi)容操縱2.場(chǎng)景 鏡頭 幀3.鏡頭4.視頻分割 代表幀 動(dòng)態(tài)特征提取5.突變 漸變6.示例查詢(xún)名詞解釋1基于內(nèi)容的圖像檢索:是基于內(nèi)容檢索技術(shù)的一種,是指利用圖像的顏色、形狀、紋理、語(yǔ)義等特征對(duì)圖像進(jìn)行查詢(xún),試圖在理解圖像內(nèi)容的基礎(chǔ)上,
47、檢索出與示例相類(lèi)似的圖像。簡(jiǎn)答題1簡(jiǎn)述基于內(nèi)容檢索的特點(diǎn)答:(1)以綜合性學(xué)科為基礎(chǔ) (2)從媒體內(nèi)容中提取信息線索 (3)相識(shí)性比較 (4)交互性查找(5)直觀的查詢(xún)方式 (6)大型數(shù)據(jù)庫(kù)的快速檢索2簡(jiǎn)述基于內(nèi)容檢索的過(guò)程答:(1)初始查詢(xún)說(shuō)明 (2)相似性匹配 (3)相似度排列 (4)特征調(diào)整3簡(jiǎn)述基于內(nèi)容檢索的系統(tǒng)結(jié)構(gòu)答:完整的CBR系統(tǒng)一般由兩個(gè)子系統(tǒng)構(gòu)成,即數(shù)據(jù)庫(kù)生成子系統(tǒng)和查詢(xún)子系統(tǒng)。(1)對(duì)象標(biāo)識(shí) (2)特征提取 (3)數(shù)據(jù)庫(kù)(4)用戶(hù)查詢(xún)和瀏覽接口 (5)檢索引擎 (6)索引/過(guò)濾器4簡(jiǎn)述基于內(nèi)容檢索的評(píng)價(jià)標(biāo)準(zhǔn)答:(1)易用性 (2)性能 (3)可移植性 (4)經(jīng)濟(jì)性 (5)可
48、維護(hù)性5簡(jiǎn)述基于特征的圖像檢索過(guò)程答:(1)圖像的預(yù)處理 (2)圖像特征的抽取 (3)數(shù)據(jù)庫(kù)系統(tǒng)* 七 *填空1.邏輯學(xué)方法 數(shù)量分析方法 系統(tǒng)科學(xué)方法2.競(jìng)爭(zhēng)對(duì)手 競(jìng)爭(zhēng)情況3.公共領(lǐng)域 非公共領(lǐng)域4.情報(bào)規(guī)劃 收集數(shù)據(jù) 分析情報(bào) 傳播5.未知 有效 可實(shí)用6.數(shù)據(jù)組織形式 知識(shí)表示 推理方式7.Web內(nèi)容挖掘 web結(jié)構(gòu)挖掘 Web使用記錄挖掘8.一般存取路徑追蹤 專(zhuān)用化追蹤9.個(gè)性挖掘 系統(tǒng)改進(jìn) 站點(diǎn)修改 智能商務(wù) Web特征描述10.文本收集 文本分析 特征修剪名詞解釋1信息分析:是運(yùn)用科學(xué)的理論和方法,通過(guò)對(duì)信息的加工處理,使信息成為全新的信息,并從中找出描述該事物發(fā)展規(guī)律的數(shù)學(xué)模型,
49、進(jìn)而對(duì)其未來(lái)的發(fā)展?fàn)顟B(tài)進(jìn)行分析預(yù)測(cè),為決策提供科學(xué)的依據(jù)的過(guò)程。2數(shù)據(jù)挖掘:是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程。3文本挖掘:是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好的組織信息的過(guò)程。簡(jiǎn)答題1簡(jiǎn)述信息分析的特點(diǎn)答:(1)綜合性 (2)針對(duì)性 (3)政策性 (4)客觀性 (5)先導(dǎo)性 (6)趨優(yōu)淘劣性2簡(jiǎn)述信息分析的工作程序答:(1)選題 (2)制定研究計(jì)劃 (3)信息反饋與決策跟蹤3簡(jiǎn)述信息分析報(bào)告的內(nèi)容和結(jié)構(gòu)答:信息分析研究報(bào)告應(yīng)該包括以下內(nèi)容(1)提出擬
50、解決的問(wèn)題和要達(dá)到的目標(biāo) (2)研究背景情況,描述與分析(3)分析研究方法 (4)結(jié)論與論證 (5)具體實(shí)施的建議、方案與措施結(jié)構(gòu):研究報(bào)告由題目、摘要、引言、正文、結(jié)論、參考文獻(xiàn)、注釋等組成。4簡(jiǎn)述數(shù)據(jù)挖掘的功能答:(1)自動(dòng)預(yù)測(cè)趨勢(shì)與行為 (2)數(shù)據(jù)關(guān)聯(lián) (3)聚類(lèi) (4)概念描述 (5)偏差檢測(cè)5簡(jiǎn)述數(shù)據(jù)挖掘的過(guò)程答:(1)定義問(wèn)題 (2)獲取數(shù)據(jù) (3)整理和初探數(shù)據(jù) (4)選擇和準(zhǔn)備數(shù)據(jù)(5)挖掘數(shù)據(jù) (6)解釋結(jié)果 (7)運(yùn)用知識(shí)6簡(jiǎn)述Web挖掘的基本原理 答:目標(biāo)數(shù)據(jù)集就是根據(jù)用戶(hù)要求,從Web資源中提取的相關(guān)數(shù)據(jù);預(yù)處理是從目標(biāo)數(shù)據(jù)集中除去明顯錯(cuò)誤的數(shù)據(jù)和冗余的數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)
51、換成有效形式,以使數(shù)據(jù)開(kāi)采算法尋求感興趣的模型;模式分析是對(duì)發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)估,最后將發(fā)現(xiàn)的知識(shí)以能夠理解的方式提供給用戶(hù)。7簡(jiǎn)述個(gè)性化信息服務(wù)的特點(diǎn)答:(1)以用戶(hù)為中心(2)允許用戶(hù)充分表達(dá)個(gè)性化需求,能夠?qū)τ脩?hù)需求行為進(jìn)行挖掘(3)服務(wù)方式更加靈活、多樣 (4)能夠主動(dòng)將用戶(hù)所需信息推送給用戶(hù)8簡(jiǎn)述個(gè)性化信息服務(wù)的類(lèi)型答:(1)個(gè)性化內(nèi)容定制服務(wù) (2)個(gè)性化信息檢索定制服務(wù)(3) 個(gè)性化界面定制服務(wù) (4)個(gè)性化信息推薦服務(wù)9.個(gè)性化信息模型的構(gòu)建方法個(gè)性化信息模型的構(gòu)建方法:信息Agent的自主學(xué)習(xí)方法、信息過(guò)濾的方法、基于多Multi-Agent System的合作方法用戶(hù)模型的構(gòu)建方法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉雕工崗前風(fēng)險(xiǎn)評(píng)估與管理考核試卷含答案
- 房產(chǎn)高考試題及答案
- 貴金屬首飾機(jī)制工班組協(xié)作強(qiáng)化考核試卷含答案
- 打葉復(fù)烤設(shè)備操作工風(fēng)險(xiǎn)識(shí)別知識(shí)考核試卷含答案
- 道路測(cè)量考試題及答案
- 礦車(chē)修理工班組協(xié)作評(píng)優(yōu)考核試卷含答案
- 植保無(wú)人機(jī)駕駛員崗前流程考核試卷含答案
- 網(wǎng)約配送員崗前可持續(xù)發(fā)展考核試卷含答案
- 機(jī)械制漿工成果測(cè)試考核試卷含答案
- 天然氣提氦操作工操作規(guī)范考核試卷含答案
- DB46-T 481-2019 海南省公共機(jī)構(gòu)能耗定額標(biāo)準(zhǔn)
- 勞動(dòng)合同【2026版-新規(guī)】
- 電子元器件入廠質(zhì)量檢驗(yàn)規(guī)范標(biāo)準(zhǔn)
- 中藥炮制的目的及對(duì)藥物的影響
- 688高考高頻詞拓展+默寫(xiě)檢測(cè)- 高三英語(yǔ)
- 學(xué)生公寓物業(yè)管理服務(wù)服務(wù)方案投標(biāo)文件(技術(shù)方案)
- 食品檢驗(yàn)檢測(cè)技術(shù)專(zhuān)業(yè)介紹
- 2025年事業(yè)單位筆試-貴州-貴州財(cái)務(wù)(醫(yī)療招聘)歷年參考題庫(kù)含答案解析(5卷套題【單項(xiàng)選擇100題】)
- 二年級(jí)數(shù)學(xué)上冊(cè)100道口算題大全(每日一練共12份)
- 空壓機(jī)精益設(shè)備管理制度
- 國(guó)家開(kāi)放大學(xué)《公共政策概論》形考任務(wù)1-4答案
評(píng)論
0/150
提交評(píng)論