已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
本科生畢業(yè)論文 題目: (中文 ) 端 平 臺(tái) 測(cè) 試 與 優(yōu) 化 (英文 ) 名: 學(xué) 號(hào): 院 系: 信息科學(xué)技術(shù)學(xué)院 專 業(yè): 計(jì)算機(jī)科學(xué)與技術(shù) 指導(dǎo)教師: 二一七年四月十七日 端平臺(tái)設(shè)測(cè)試與優(yōu)化 摘要 一種智能中文搜索引擎平臺(tái),分成前段和后臺(tái)兩部分。前端和后臺(tái)在運(yùn)行時(shí)進(jìn)行交互,完成整個(gè)平臺(tái)功能。本文從 端的功能需求出發(fā),詳細(xì)介紹前端的各個(gè)功能模塊的設(shè)計(jì)和實(shí)現(xiàn)方式,并且說明了端測(cè)試和優(yōu)化方法。 端承擔(dān)了提取搜索引擎摘要的功能,但目前 對(duì)于搜索引擎摘要的選取原則、算法規(guī)則卻沒有明確的框架或算法。因此本文 對(duì)搜索引擎摘要的意義、標(biāo) 準(zhǔn)、分類等進(jìn)行詳細(xì)的討論,并 以形成用戶查詢?yōu)橹行牡膭?dòng)態(tài)摘要為出發(fā)點(diǎn),給出算法實(shí)現(xiàn)的形式化原則,并具體實(shí)現(xiàn)了一種動(dòng)態(tài)摘要算法。與百度搜索引擎的動(dòng)態(tài)摘要相比較,實(shí)驗(yàn)顯示一致性上比百度高 6%。此處的一致性是指,摘要和用戶查詢相關(guān)性與原文檔和用戶查詢相關(guān)性之間的關(guān)系,二者越接近一致性越高。該算法已經(jīng)應(yīng)用到北京大學(xué)校內(nèi)搜索引擎上 。 關(guān)鍵詞: 查詢,關(guān)鍵詞,摘要,查詢?nèi)罩?,點(diǎn)擊日志 端平臺(tái)設(shè)測(cè)試與優(yōu)化 i is a of of n of s of to or of is at a of on a is of % to KUs 端平臺(tái)設(shè)測(cè)試與優(yōu)化 錄 第一章 引言 . 1 第二章 端設(shè)計(jì)與實(shí)現(xiàn) . 3 端功能需求與功能實(shí)現(xiàn) . 3 端功能模塊劃分,及其關(guān)系和工作流程 . 7 端功能模塊 . 7 端功能模塊工作流程 . 11 端性能優(yōu)化 . 12 端時(shí)間性能優(yōu)化 . 13 端顯示優(yōu)化 站點(diǎn)聚類 . 13 第三章 搜索引擎摘要綜述 . 14 背景 . 14 自動(dòng)文摘 . 14 點(diǎn)擊日志 . 14 查詢分類 . 15 網(wǎng)頁正文 . 15 搜索引擎摘要的意義 . 16 搜索引擎摘要評(píng)判標(biāo)準(zhǔn) . 16 搜索引擎摘要分類 . 18 “動(dòng)態(tài)摘要 ”與 “靜態(tài)摘要 ” . 18 搜索引擎摘要選擇 . 18 靜態(tài)摘要的提取 . 19 第四章 搜素引擎動(dòng)態(tài)摘要算法 . 20 背景 . 20 態(tài)摘要算法的形式化規(guī)則 . 20 動(dòng)態(tài)摘要算法框架 . 21 動(dòng)態(tài)摘要算法實(shí)現(xiàn)及細(xì)節(jié)處理 . 22 動(dòng)態(tài)摘要算法偽碼 . 22 算法實(shí)現(xiàn)細(xì)節(jié)及實(shí)際參數(shù)設(shè)置 . 24 第五章 動(dòng)態(tài)摘要算法實(shí)驗(yàn)及搜索引擎摘要評(píng)測(cè) . 25 實(shí)驗(yàn)?zāi)康?. 25 摘要質(zhì)量評(píng)測(cè) . 25 實(shí)驗(yàn)方法 . 25 實(shí)驗(yàn)結(jié)果說明 . 26 實(shí)驗(yàn)結(jié)果分析 . 27 搜索引擎摘要評(píng)測(cè) . 28 第六 章 搜索引擎摘要總結(jié) . 29 端平臺(tái)設(shè)測(cè)試與優(yōu)化 謝 . 30 參考文獻(xiàn) . 31 端平臺(tái)設(shè)測(cè)試與優(yōu)化 1 第一章 引言 簡稱,是一種智能中文搜索引擎平臺(tái)。 計(jì)分為前端和后臺(tái),兩部分可以放在不 同的服務(wù)器上,通過 議進(jìn)行交互。端承擔(dān)了 查詢解析,生成一定格式的查詢串,接受后臺(tái)結(jié)果,提取摘要,顯示結(jié)果 ,日志記錄 等任務(wù),其性能 關(guān)系到 整個(gè)搜索引擎的性能 表現(xiàn)。本文將介紹 端設(shè)計(jì)框架,各個(gè)模塊的功能 和關(guān)系 。 統(tǒng)已經(jīng)應(yīng)用到北京大學(xué)校內(nèi)搜索 ()。 上文中提到 端承擔(dān)提取摘要的 功能,這里所謂摘要,是指 搜索引擎摘要 (是搜索結(jié)果中對(duì)鏈接頁面內(nèi)容的一段描述性文字。 當(dāng)搜索引擎響應(yīng)查詢返回結(jié)果時(shí),對(duì)檢索結(jié)果的展示往往包含三個(gè)部分:檢索結(jié)果的標(biāo)題、檢索結(jié)果的搜索引擎摘要、檢索結(jié)果的 中搜索引擎摘要 往往設(shè)置在 標(biāo)題 標(biāo)題下 (如圖 1)。 圖 1 一條檢索結(jié)果及說明 搜索引擎摘要是關(guān)于鏈接頁面描述性的一段文字,用以在一定程度上展示鏈接頁面的內(nèi)容,搜索引擎用戶可以基于摘要要判斷鏈接頁面的價(jià)值。搜索引擎摘要和自動(dòng)文摘十分類似,可以 借鑒自動(dòng)文摘中的理論和方法,當(dāng)然搜索引擎摘要也有自身的特點(diǎn)。 關(guān)于自動(dòng)文摘的研究已經(jīng)有半個(gè)世紀(jì),但是對(duì)于搜索引擎摘要的選取原則、算法規(guī)則卻沒有明確的框架或算法 、同時(shí)也缺少統(tǒng)一的比較和評(píng)測(cè)方法 。 在 1一書中對(duì)搜索引擎摘要進(jìn)行了討論,將其分為兩類 :一類是不隨查詢變化,與查詢無關(guān)的摘要,書中稱其為靜態(tài)摘要;一類是與查詢相關(guān) ,對(duì)同一篇網(wǎng)頁隨查詢變化而變化的摘要,稱其為動(dòng)態(tài)摘要。書中還提出了一種“ 動(dòng)態(tài)摘 要提取方法,指出摘要應(yīng)當(dāng)包含查詢中的關(guān)鍵詞,并給出了 三點(diǎn)針對(duì) 提取出 的 摘要 的建議: (1)最大限度的包含關(guān)鍵詞; (2)摘要內(nèi)容完整,且可讀; (3)足夠精煉。 端平臺(tái)設(shè)測(cè)試與優(yōu)化 2 點(diǎn)擊日志進(jìn)行研究,提出了一種利用點(diǎn)擊日志來證明一些搜索引擎結(jié)果展示的啟發(fā)式規(guī)則的方法,并利用該方法發(fā)現(xiàn)了一些隱式的摘要提取原則。 李曉明等在2005 年給出了一種便于理解和實(shí)現(xiàn)的簡單的動(dòng)態(tài)摘要算法 3。 007年 基于滑動(dòng)窗口 提取 動(dòng)態(tài)摘要 4。 本文將對(duì)前人的方法進(jìn)行總結(jié), 討論搜索引擎摘要的意義,分類,提取原 則,評(píng)價(jià)方法, 其中涉及到查詢 分類,點(diǎn)擊日志的使用等內(nèi)容。本文 最終 以形 成用戶查詢?yōu)橹行牡膭?dòng)態(tài)摘要為出發(fā)點(diǎn),給出算法實(shí)現(xiàn)的形式化原則且 具體實(shí)現(xiàn)了一種動(dòng)態(tài)摘要算法。 并將該算法所得摘要與商業(yè)搜索引擎摘要在一致性上進(jìn)行 比較。此處一致性指搜索 摘要和用戶查詢相關(guān)性與原文檔和用戶查詢相關(guān)性之間的關(guān)系,二者越接近一致性越高。該算法已經(jīng)應(yīng)用到北京大學(xué)校內(nèi)搜索引擎上 。 端平臺(tái)設(shè)測(cè)試與優(yōu)化 3 第二 章 端設(shè)計(jì)與實(shí)現(xiàn) 端 功能需求與 功能實(shí)現(xiàn) 本節(jié)將簡述 前端功能需求,將對(duì)這些需求進(jìn)行分析,給出滿足這些需求的程序?qū)崿F(xiàn)方式,并對(duì)這些實(shí)現(xiàn)方式進(jìn)行說明。 表格 1 端功能需求 查詢界面,接收用戶查詢 解析查詢,進(jìn)行切詞 為用戶分配 于特定查詢?cè)~,特定網(wǎng)頁放在首位 發(fā)送查詢至后臺(tái),接收并解析后臺(tái)結(jié)果 結(jié)果顯示 日志記錄 針對(duì) 端功能需求, 端 采用 言 編寫 。一種 面向?qū)ο蟮?半 解釋性的計(jì)算機(jī)程序設(shè)計(jì)語言 ,可方便用于編寫公共網(wǎng)關(guān)接口 ( 并且模塊間的引用十分方便。 端涉及接收用戶查詢,字符串編碼、解碼、鏈接、切分,子串的查詢,與后臺(tái)進(jìn)行 通信 連接 ,頁面顯示 等操作, 而 言擁有腳本語言中最豐富 、最強(qiáng)大的類庫,可以較為方便的實(shí)現(xiàn)這些操作,因此前端選擇言實(shí)現(xiàn)。 下面 將介紹 端各個(gè)功能的目的,并 在 端的基礎(chǔ)上 , 對(duì) 端各個(gè)功能的實(shí)現(xiàn) 方式 進(jìn)行詳述。 【 中文切詞 】 切 詞指將一個(gè)查詢中的單個(gè)詞切分出來,用空格隔開,例如“北京大學(xué)”經(jīng)過 切詞之后為“北京 大學(xué)”,包含在查詢中的詞稱其 為關(guān)鍵詞 。搜索引擎就是利用查詢中關(guān)鍵詞,尋找包含關(guān)鍵詞的文檔,因此切詞功能對(duì)搜索引擎的效果十分重要 。 端 中文切詞 功能實(shí)現(xiàn) 是 采用 使用北京大學(xué)計(jì)算語言所的切詞模塊,將該模塊 編譯 成以 尾的 動(dòng)態(tài)鏈接庫文件 , 通過 言中的式 實(shí)現(xiàn)對(duì)該模塊的引用 。 【 編碼解碼操作 】 端涉及相當(dāng)數(shù)量的字符串 編碼和解碼操作 , 這 一 是由于字符串的處理和字符串的顯示往往需要使用不同的編碼方式 ;二是 端涉端平臺(tái)設(shè)測(cè)試與優(yōu)化 4 及到不同模塊,不同模塊間對(duì)字符串的編碼要求往往不同 。編碼解碼操作 通過言的 數(shù)實(shí)現(xiàn) ,在編碼解碼時(shí)可對(duì)函數(shù)參數(shù)進(jìn)行選擇,控制編碼解碼操作在原字符串上進(jìn)行或是保持原字符串不變而是將編碼解碼后的結(jié)果復(fù)制到其他字符串變量中 。 【 查詢串 】 后臺(tái)設(shè)計(jì),后臺(tái)是檢索核心,而前臺(tái)主要承擔(dān)查詢處理和結(jié)果顯示等任務(wù),前后臺(tái)之間通過信息傳遞串聯(lián)完成整個(gè) 檢索功能,前臺(tái)對(duì)后臺(tái)發(fā)送的主要信息就是查詢串。 考慮查詢串所需包含的信息。顯然查詢串的主體 是 查詢 , 但該查詢不能是原始查詢,應(yīng)當(dāng)經(jīng)過切詞,同時(shí)轉(zhuǎn)化成后臺(tái)可處理 編碼 的編碼方 式 。其次,索結(jié)果多頁顯示,每次在一個(gè)頁面中顯示一定數(shù)量 檢索結(jié)果 (具體實(shí)現(xiàn)時(shí)每個(gè)頁面顯示 10 條結(jié)果 ),所以每次 后臺(tái)也 只會(huì)相應(yīng)地傳這一定數(shù)量的檢索 結(jié)果 。顯然對(duì)于一個(gè)新查詢將顯示第一頁的結(jié)果,而第一頁結(jié)果必然是從第一條開始,但當(dāng)用戶查看第二、第三頁的結(jié)果時(shí),頁面的結(jié)果顯示將從其他結(jié)果開始。因此,前端必須使 后臺(tái) 得知從第幾條結(jié)果開始傳輸?;谶@點(diǎn)考慮, 查詢串必須包含“起始結(jié)果 號(hào) ” ,告知后臺(tái)從該條結(jié)果開始傳輸 。最后 ,查詢串應(yīng)當(dāng) 包含 查詢 站點(diǎn)信息 。 求能夠?qū)崿F(xiàn)指定站點(diǎn)的查詢, 即只在某個(gè)站點(diǎn) 上檢索相關(guān)結(jié)果 。 結(jié)合以上三點(diǎn)可得查詢串必須包含“處理過的查詢”、“起始結(jié)果號(hào)”、“查詢站點(diǎn)”。在實(shí)際實(shí)現(xiàn)時(shí)查詢串由這三部分構(gòu)成,部分與部分間用“ n”隔開,在不指定站點(diǎn)的情況下,“查詢站點(diǎn)”部分為字符串“ 【 前后臺(tái)通信 】 端后臺(tái)設(shè)計(jì)模式要求其前端和后臺(tái)能夠通信。實(shí)現(xiàn)時(shí),后臺(tái)通信 采用 議 進(jìn)行 。 議 采用“客戶端 /服務(wù)器”的模式解決進(jìn)程間 的 通信問題 ,客戶端和服務(wù)器采用不同的 于 統(tǒng)其前端相當(dāng)于客戶端, 后臺(tái)相當(dāng)于服務(wù)器 。前臺(tái)向后臺(tái)發(fā)送查詢串請(qǐng)求后臺(tái)處理,后臺(tái)返回查詢結(jié)果,查詢結(jié)果包括命中頁面的 一共命中的結(jié)果數(shù) 。 議進(jìn)行實(shí)現(xiàn)和封裝 ,因此 ,在 前臺(tái) 采用 言實(shí)現(xiàn) 的基礎(chǔ)上 ,使用 議進(jìn)行前后臺(tái)通信十分便捷 。 【 配】 為一個(gè)智能搜索引擎平臺(tái),其目標(biāo)之一是實(shí)現(xiàn)個(gè)性化搜索,即根據(jù)用戶的歷史行為用戶提供針對(duì)其喜好的服務(wù)。為用戶分配 要目的則是能夠?qū)崿F(xiàn)對(duì)用戶身份的鑒別,為實(shí)現(xiàn)個(gè)性化檢索服務(wù)。除此以外,用戶 錄入搜索引擎日志,這可以方 便的分析用戶行為,研究用戶的檢索習(xí)慣,從進(jìn)行一端平臺(tái)設(shè)測(cè)試與優(yōu)化 5 些搜索引擎優(yōu)化的研究。 配 功能 通過 式實(shí)現(xiàn)。 寫在客戶端的數(shù)據(jù),可實(shí)現(xiàn)用戶識(shí)別, 蹤 。 端 在 相瀏覽器中寫入鍵為 字符串“ ,值為數(shù)字的 ,其中該數(shù)字即為用戶的樣當(dāng)用戶再次進(jìn)行檢索操作時(shí)可以從瀏覽器中讀出用戶的 值得注意的是 有生存期限的,當(dāng)用戶長時(shí)間不使用檢索服務(wù)時(shí),其 為丟失。 端對(duì)沒有 用戶分配 設(shè)置其生存期限,同時(shí)對(duì)已有 用戶延長其生存期限。 【 對(duì)于特定詞,特定結(jié)果放在首位 】 該功能在商業(yè)搜索引擎中十分常見,商家通過向搜索引擎付費(fèi)來提高自身排名,而用戶更信任排名較高的結(jié)果,如此可增加商家網(wǎng)頁的點(diǎn)擊量。 校內(nèi)搜索要求對(duì)于一些特定查詢,將學(xué)校相應(yīng)的組織機(jī)構(gòu)放在首位,例如查詢“信科”、“ 都應(yīng)將“信息科學(xué)技術(shù)學(xué)院”的主頁放在檢索結(jié)果的首位。 該功能通過數(shù)據(jù)庫實(shí)現(xiàn),在數(shù)據(jù)庫中保存特定的詞,以該詞為索引,得到 特定結(jié)果的標(biāo)題和摘要 以及 在接受查詢后, 判斷 查詢是 否 特定詞 , 若是 則從數(shù)據(jù)庫中取出 相對(duì)應(yīng)得特定結(jié)果信息 (包括標(biāo)題、摘要以及 為檢索結(jié)果的首條 。 【 提取摘要 】 端檢索結(jié)果顯示采用典型的“標(biāo)題、摘要、 搜索引擎檢索結(jié)果展現(xiàn)方式,因此要求前端實(shí)現(xiàn)對(duì)檢索結(jié)果提取摘要的功能。 搜索引擎摘要是對(duì)鏈接頁面的描述, 在 網(wǎng)頁 正文的基礎(chǔ)上提取,反映鏈接頁面的內(nèi)容。由于后臺(tái)返回給前臺(tái)的只有命中頁面的 一共命中的結(jié)果數(shù)量,因此, 前端必須保存所有 網(wǎng)頁 正文數(shù)據(jù),并且 網(wǎng)頁 正文數(shù)據(jù)必須方便的通過 對(duì)以上要求, 端使用 B, 存儲(chǔ)正 文信息。 B 是 一種高性能嵌入式數(shù)據(jù)庫,以鍵 /值對(duì)的方式保存數(shù)據(jù),同時(shí)與 B 的操作。 端以 過 法后的值為鍵,以該 應(yīng)的標(biāo)題和正文內(nèi)容為值生成 B。 如此, 端可 以 方便的 高效的 通過 取正文內(nèi)容 ,并在獲得正文內(nèi)容的同時(shí) 提出 該 應(yīng)的標(biāo)題 。 之后便可基于查詢,在正文上 提取 搜素引擎 摘要 ,提取摘要的具體過程和算法將在以后的章節(jié)中 詳述 。 【 結(jié)果 顯示】 索 結(jié) 果顯示以網(wǎng)頁的形式展現(xiàn), 顯然結(jié)算結(jié)果網(wǎng)頁內(nèi)容是動(dòng)態(tài)的,隨查詢的不同而改變。 言中可以輸出 碼形成結(jié)果頁面,并且在輸出的 碼中可嵌入 符串變量,如此可實(shí)現(xiàn)針對(duì)不同端平臺(tái)設(shè)測(cè)試與優(yōu)化 6 的查詢顯示不同的結(jié)果。 每條檢索結(jié)果 由 搜索引擎流行的標(biāo)題、 摘要、 部分組成。標(biāo)題來源于B 中直接提取出的數(shù)據(jù), 事實(shí)上通過鍵 過 法作用后的到是標(biāo)題和正文對(duì),即 (標(biāo)題,正文 )這種二元組的形式 ;摘要是摘要算法作用于正文后的結(jié)果; 源于后臺(tái)傳輸來的數(shù)據(jù)。 每次在頁面 上顯示 10 條結(jié)果,當(dāng)不足 10 條結(jié)果時(shí)則顯示現(xiàn)有數(shù)量的結(jié)果。 【 日志記錄 】 搜索引擎日志包含兩種:查詢?nèi)罩竞忘c(diǎn)擊日志,前者主要記錄用戶進(jìn)行了哪些查詢,后者記錄用戶點(diǎn)擊了哪些結(jié)果。通過搜索引擎日志可以 發(fā)現(xiàn)哪些詞是用戶查詢的高頻詞,可以研究用戶的查詢習(xí)慣,可以通過用戶的點(diǎn)擊日志調(diào)整搜索引擎結(jié)果??梢哉f日志是用戶和搜索引擎交互的唯一記錄,可以看做是用戶對(duì)搜索引擎的一種隱式的反饋,對(duì)搜索引擎有著重大的意義。 志 同樣 包括查詢?nèi)罩竞忘c(diǎn)擊日志。 其 查詢?nèi)罩静捎?2005 年 9月實(shí)行的天網(wǎng)日志格式 (如表格 2),包括查詢時(shí)間,查詢?cè)~,查詢來源 (址 ),命中結(jié)果數(shù)目,查詢用戶的 擊日志同樣采用 2005 年 9 月實(shí)行的天網(wǎng)日志格式 (如表格 3) ,包括點(diǎn)擊時(shí)間,查詢?cè)~,查詢來源 (址 ),點(diǎn)擊結(jié)果的 擊結(jié)果在所有檢索結(jié)果中的排序,點(diǎn)擊結(jié)果排在第幾頁,生成該結(jié)果的檢索模型 (臺(tái)采用不同檢索模型來生成檢索結(jié)果 ),查詢用戶的 用戶點(diǎn)擊某條搜索結(jié)果 鏈接 時(shí) , 會(huì) 先 調(diào)用點(diǎn)擊日志記錄腳本,該腳本記錄點(diǎn)擊日志并跳轉(zhuǎn)到 真正 結(jié)果 頁面。 表格 2 查詢?nèi)罩?容 說明 08:10:47 2006 查詢時(shí)間 該查詢請(qǐng)求的來源 瑞星殺毒破解版 查詢串 查詢時(shí)的域名(如 0:0 查詢返回結(jié)果數(shù):查詢命中結(jié)果數(shù) 查詢返回結(jié)果的頁碼 表格 3 點(diǎn)擊日志 容 說明 09:23:45 2006 查詢 時(shí)間 查詢來源 腎積石 查詢?cè)~ ,及其 關(guān)系和 工作流程 本節(jié)詳細(xì)介紹 端實(shí)際實(shí)現(xiàn) 時(shí) 功能模 的 塊劃分 和各個(gè)功能模塊所進(jìn)行的操作 ,以及 模塊 之間的調(diào)用 關(guān)系和返回信息 ,并給出 端處理一個(gè)查詢時(shí)的工作流程。 端 功能 模塊 【 塊 】 塊是 端 工作流程的主模塊 ,事實(shí)上一個(gè)查詢從開始處理到顯示結(jié)果及是將 塊整個(gè)過程運(yùn)行一遍。 塊 負(fù)責(zé) 接收查詢調(diào)用其他模塊,是 端工作 的 核心 模塊 。 當(dāng)用戶 點(diǎn)擊頁面查詢按鈕 時(shí) 則調(diào)用 塊 , 直到 塊結(jié)束,一次查詢操作也就完成了 。值得說明的是在搜索結(jié)果較多,對(duì)搜索結(jié)果多頁顯示時(shí) (如圖 2),當(dāng)點(diǎn)擊非當(dāng)前頁碼或“下一頁” 按鈕 時(shí),也會(huì)調(diào)用 塊。事實(shí)上 點(diǎn)擊非當(dāng)前頁碼或“下一頁” 按鈕 對(duì)于 端來說就是一個(gè)新的查詢,在除查詢?cè)~ 作為 ,又 給 塊傳遞了一個(gè)頁面參數(shù), 即 表示查詢第幾個(gè)頁面的結(jié)果。 如此設(shè)計(jì)是因?yàn)?對(duì)于一個(gè)查詢每個(gè)頁面只顯示有限個(gè)結(jié)果,沒有必要對(duì)不顯示的結(jié)果進(jìn)行處理,并且用戶往往只在意排名靠前的結(jié)果。 對(duì)于每一個(gè)顯示結(jié)果都用進(jìn)行從 B 中提取正文,生成摘要 等 操作,而 對(duì)于一個(gè)查詢,往往會(huì)有上千上萬條結(jié)果, 對(duì)所有結(jié)果一次性全部處理 ,則耗時(shí)太長, 嚴(yán)重影響搜索引擎性能 。因此,采用這種“有請(qǐng)求則響應(yīng)”的方法處理。 端平臺(tái)設(shè)測(cè)試與優(yōu)化 8 圖 2 多頁顯示檢索結(jié)果 【 塊 】 塊 由 塊調(diào)用,返回用戶 于已經(jīng)分配 用戶在修改 生存 期限后,直接返回 于未分配 用戶,生成 置存在期限,發(fā)送至 后 向 塊 返回用戶 生成策略較為簡單,使用文件存儲(chǔ)當(dāng)前應(yīng)當(dāng)分配的 ,生成 讀取文件即可,同時(shí)將當(dāng)前 加 1 后重新寫入文件,作為下一個(gè)即將分配的 【 塊 】 塊實(shí)現(xiàn)中文切詞功能 ,由 塊調(diào)用。 塊 以用戶查詢?yōu)閰?shù), 通 過 有的 式引入北京大學(xué)計(jì)算語言所的切詞程序,對(duì)查詢進(jìn)行切詞, 返回 切詞后的查詢 , 。 調(diào)用切詞模塊之前必須確定查詢的編碼與切詞模塊相一致或者重新編碼, 使得查詢與切詞模塊編碼相一致。 【 塊 與 塊 】 塊為 搜索引擎 摘要提取模塊,由 用 。 塊 以切詞后的查詢和后臺(tái)傳來的 據(jù)為參數(shù)。 際并不承擔(dān)摘要提取任務(wù),其主要作用是進(jìn)行摘要提取前的準(zhǔn)備工作,主要功能是 以 后臺(tái) 傳送 數(shù)據(jù)中的 B(在 分提及 )中讀取 對(duì)應(yīng)的標(biāo)題和正文, 在這之后 后 將切詞后的查詢和 獲取的 正文作為為參數(shù)調(diào)用摘要提取核心 塊為搜索引擎摘要提取的核心 ,由 塊調(diào)用, 每次針對(duì)一個(gè)網(wǎng)頁 以切詞后的查詢和 對(duì)應(yīng)網(wǎng)頁 正文為參數(shù)提取摘要 ,。該模塊的具體實(shí)現(xiàn)將在第四章 詳細(xì)討論 。 【 塊 】 端平臺(tái)設(shè)測(cè)試與優(yōu)化 9 結(jié)果頁面顯示模塊,由 塊調(diào)用,負(fù)責(zé)檢索結(jié)果頁面的顯示, 完成查詢?cè)~標(biāo)紅,結(jié)果的多頁顯示等功能 。標(biāo)紅指將檢索結(jié)果標(biāo)題或摘要中所包含的查詢中的查詢?cè)~突出顯示 ,一般標(biāo)注為紅色,目的是突出檢索結(jié)果和查詢的關(guān)系(如圖 3)。 查詢結(jié)果的多頁顯示,在 塊中已有說明,當(dāng)點(diǎn)擊下一頁或非當(dāng)前頁碼時(shí)進(jìn)行一個(gè)新的查詢 (該處新的查詢指完整的運(yùn)行一次 塊 ),以超鏈接的方式調(diào)用 塊,用 法傳遞參數(shù),即直接在 以“?變量 =值”的形式 添加需要傳遞的參數(shù) 。該功能實(shí)現(xiàn)簡單,但 初步實(shí)現(xiàn)后 在實(shí)際檢測(cè)發(fā)現(xiàn)在 運(yùn)行正常, 在 中會(huì)發(fā)生異常。經(jīng)檢測(cè)發(fā)現(xiàn)問題源于 事實(shí)上 當(dāng) 包含中文參數(shù)時(shí)必須 對(duì) 行 適當(dāng) 的 編碼,即網(wǎng) 頁中常見的“ %的形式 ( 如圖 4) ,例如“北京 ”應(yīng)當(dāng)轉(zhuǎn)化為“ %C%97%A%這種“ %式實(shí)質(zhì)是將中文字符的 取出來,只是將 碼中的 “ X”替換成了“ %”。 言中塊實(shí)現(xiàn)一個(gè)名為 函數(shù) ,該函數(shù)可以 解決含中文的 轉(zhuǎn)化問題,使用方法 為 中文的 值得 注意的是 參數(shù)不能是 碼。 圖 3 對(duì)于查詢“北大四級(jí)”的標(biāo)紅 圖 4 含中文 的 碼 【 塊 與 塊 】 塊 查詢?nèi)罩居涗浤K,由 塊 在最后 調(diào)用 ,負(fù)責(zé)記錄查詢?nèi)罩?,日志格式遵守 2005 年 9 月的天網(wǎng)日志格式 。 由于日志記錄是對(duì)文件進(jìn)行寫操作,這里應(yīng)當(dāng)處理多個(gè)進(jìn)程同時(shí)寫的問題。對(duì)于該問題通過鎖機(jī)制實(shí)現(xiàn)。設(shè)立“鎖文件”,即一個(gè)專門用來讓進(jìn)程對(duì)其加鎖的文件。當(dāng)進(jìn)程需要記錄日志 修改文件 時(shí)首先嘗試對(duì)“鎖文件”進(jìn)行加鎖,若該“鎖文件”已被加鎖,則進(jìn)程阻塞。若未被加鎖,則加鎖成功。加鎖成功后即可對(duì)日志文件進(jìn)行寫 操作,操作結(jié)束后進(jìn)行解鎖。 塊為 點(diǎn)擊日志 模塊,當(dāng)用戶點(diǎn)擊某條檢索結(jié)果時(shí), 塊被調(diào)端平臺(tái)設(shè)測(cè)試與優(yōu)化 10 用記錄點(diǎn)擊日志 ,日志記錄完畢后跳轉(zhuǎn)到 檢索 結(jié)果 對(duì)應(yīng)的 頁面。點(diǎn)擊日志處理 多進(jìn)程同時(shí)寫問題 的方式與查詢?nèi)罩鞠嗤?,即設(shè)立鎖文件 。 【 塊 】 塊功能為生成網(wǎng)頁快照。網(wǎng)頁原文是搜索引擎爬取的網(wǎng)頁源代碼,保存在搜素引擎服務(wù)器上,而網(wǎng)頁快照則是基于網(wǎng)頁原文生成的,當(dāng)鏈接頁面點(diǎn)不開時(shí),用戶可以通過網(wǎng)頁快照查看所需信息。 塊實(shí)現(xiàn)快照時(shí),對(duì) 頁面中包含的 查詢中不同的關(guān)鍵詞以 不同的顏色高亮顯示。 端平臺(tái)設(shè)測(cè)試與優(yōu)化 11 端 功能 模塊工作流程 返回 用 查詢 接收 查詢?cè)~ 2 判斷查詢?cè)~合法性 3 切詞 4 生成查詢串 5 對(duì)于特定詞匯 查 詢 數(shù) 據(jù)庫,發(fā)送查詢串至后臺(tái) 6 接收后臺(tái)結(jié)果 得或分配 據(jù)庫 后臺(tái)服務(wù) 查詢串 檢索結(jié)果 端平臺(tái)設(shè)測(cè)試與優(yōu)化 12 端 性能優(yōu)化 本節(jié)從時(shí)間性能和前端顯示兩個(gè)方面說明了如何對(duì) 端進(jìn)行優(yōu)點(diǎn)擊檢索結(jié)果 返回摘要 調(diào)用 提取摘要 8 顯示結(jié)果 9 點(diǎn)擊日志 返回摘要 調(diào)用 打開 D,得到標(biāo)題和正文 2 對(duì)每 個(gè) 于正文提取摘要 用 用 記錄點(diǎn)擊日志 2 跳轉(zhuǎn)到目標(biāo)頁面 點(diǎn)擊天網(wǎng)快照 B 端平臺(tái)設(shè)測(cè)試與優(yōu)化 13 化。在時(shí)間性能方面描述了 端時(shí)間測(cè)試的方法;在前段顯示方面介紹了站點(diǎn)聚類這一功能,以及 端對(duì)這個(gè)功能的實(shí)現(xiàn)方法。 端時(shí)間性能優(yōu)化 端時(shí)間性能優(yōu)化 主要在分兩個(gè)步驟。一、對(duì)各個(gè)模塊進(jìn)行時(shí)間測(cè)試,找到瓶頸。二、針對(duì)瓶頸重點(diǎn)優(yōu)化,可將能并行的 操作盡量以多線程的方式并行進(jìn)行,比如對(duì)于特定查詢將特定查詢放在首位的功能涉及到查 詢數(shù)據(jù)庫的操作,該操作就可以和連接后臺(tái)、等待后臺(tái)結(jié)果并行進(jìn)行。以上 兩個(gè)步驟在不同的粒度上多次操作 。先 在粗粒度上進(jìn)行時(shí)間測(cè)試確定瓶頸,而后可以進(jìn)行一定 的優(yōu)化操作,之后 再于瓶頸中進(jìn)行細(xì)粒度 的時(shí)間測(cè)試。 時(shí)間測(cè)試前提是獲得測(cè)試數(shù)據(jù)。 端數(shù)據(jù)來源于校內(nèi)檢索的查詢?nèi)罩荆瑥男?nèi)檢索的查詢?nèi)罩局刑崛〕霾樵儤?gòu)造出查詢集。獲得測(cè)試數(shù)據(jù)后,讓塊從查詢集中接受 查詢 數(shù)據(jù),開始整個(gè)工作流程。 端顯示優(yōu)化 站點(diǎn)聚類 站點(diǎn)聚類 (如圖 )指對(duì)于某個(gè)查詢,同一站點(diǎn)的命中結(jié)果只顯示排名最高的一條,若要查看該站點(diǎn)上的所有結(jié)果,則可以 進(jìn)行 指定站點(diǎn) 的 查詢。 端站點(diǎn)聚類實(shí)現(xiàn)方式是將“查看站點(diǎn)上的更多結(jié)果”看做一種高級(jí)查詢 ,在查詢后添加“ 站點(diǎn)”。當(dāng)點(diǎn)擊“查看站點(diǎn)上的更多結(jié)果”時(shí),實(shí)際上進(jìn)行了查詢?yōu)椤霸樵?站點(diǎn)”的查詢 ,調(diào)用 塊,運(yùn)行整個(gè)流程。在 送至后臺(tái)。 圖 5 站點(diǎn) 聚類實(shí)例 端平臺(tái)設(shè)測(cè)試與優(yōu)化 14 第三 章 搜索引擎摘要 綜述 背景 自動(dòng)文摘 搜索引擎摘要是 在 正文 的基礎(chǔ)上對(duì)重要信息的提取,這與自動(dòng)文摘十分相似。自動(dòng)文摘的研究已經(jīng)經(jīng)歷了半個(gè)多世紀(jì),產(chǎn)生了很多方法和理論,這些方法和理論對(duì)搜索引擎摘要的生成有著 非常重要的借鑒意義。 自動(dòng)文摘 可 按不同的標(biāo)準(zhǔn)進(jìn)行劃分。 1、 按文摘來源地文檔數(shù)可分為單文檔文摘和多文檔文摘,即在單篇或多篇文檔上提取摘要。搜索引擎摘要只針對(duì)一篇網(wǎng)頁,顯然屬于多單文檔文摘的范疇。 2、 按文摘提取方式可分為 摘和 摘 5,這里的 別指提取文摘的兩種方式。 式是指在文檔中直接抽取段落作為文檔摘要,不對(duì)抽取段落進(jìn)行修改,所得文摘即為抽取段落組合; 式將重點(diǎn)放在生成 合乎語法的 摘要 ,對(duì)文檔中的內(nèi)容進(jìn)行修改、糅合,往往需要高級(jí)的語言生成技術(shù),涉及較多自然語言處理的問題。顯然式的效率較高, 式處理速度較慢,考慮到搜索引擎摘要作為 用的一部分應(yīng)當(dāng)具有實(shí)時(shí)快速的特點(diǎn), 法更加適合搜索引擎摘要的需求。 3、按照是否基于主題 (可分為基于主題的文摘和不基于主題的文摘。基于主題的文摘是指按照給定的主題抽取文章摘要,側(cè)重于文章中關(guān)于給定主題的內(nèi)容的提取,而不基于主題的摘要?jiǎng)t重點(diǎn)在于 關(guān)于 文摘 本身主題的內(nèi)容的提取。 由此類推搜索引擎摘要 也可以有兩種方式,一種是基于查詢的,提取頁面文章中與查詢最相關(guān)的部分,一種則是提取頁面文章的大意,對(duì)于這兩種方式應(yīng)采取哪種,是否兩種方式并存等問題將在“ 索引擎摘要 分類 ”中詳細(xì)討論 。 自動(dòng)文摘的基礎(chǔ)思想是 “ 確定哪些詞在文檔中是重要的,而后是找到包含這些重要的詞的句子 ” 5。多數(shù)關(guān)于自動(dòng)文摘 的工作遵從這一基本思想,不斷尋找如何更好的提取對(duì)于文檔重要的詞和 如何更好的截取包含這些重要的詞的句子的方法 。 搜索引擎摘要可以借鑒這一思想,將查詢中的詞看作是對(duì)于鏈接頁面重要的詞來提取包含查詢中關(guān)鍵詞的段落。 點(diǎn)擊日志 點(diǎn)擊日志是用戶對(duì)搜索結(jié)果的反饋,可以說點(diǎn)擊日志是用戶和搜索引擎交互過程中留下的唯一記錄。從直觀思考, 應(yīng)當(dāng) 可以 點(diǎn)擊日志 中挖掘出 用戶對(duì)檢索結(jié)端平臺(tái)設(shè)測(cè)試與優(yōu)化 15 果的 評(píng)價(jià)。比如對(duì)于一條查詢,用戶點(diǎn) 擊了結(jié)果 A,而沒有點(diǎn)擊結(jié)果 B,可以直觀上認(rèn)為 A 的結(jié)果比 B 好。 任偏差”現(xiàn)象。所謂“信任偏差” 指的是用戶對(duì)搜索引擎排序的信任造成偏向點(diǎn)擊排名較高的結(jié)果,即使排名較低的結(jié)果比排名較高的結(jié)果更好。 由“信任偏差 ” 可以得出對(duì)于搜索引擎的第 N 條結(jié)果和第 N+1 條結(jié)果,如果用戶點(diǎn)擊了第 N+1 條 而忽略了第 N 條結(jié)果,則第 N+1 條結(jié)果應(yīng)當(dāng)比 N 條結(jié)果要更好 ,因?yàn)橛脩粼凇靶湃纹睢毕氯稳稽c(diǎn)擊了第 N+1 條結(jié)果 。由此考察兩個(gè)結(jié)果鏈接頁面 ,如果第 N+1 條結(jié)果 的鏈接頁面比第 N 條結(jié)果的鏈接頁面好,那么這樣的結(jié)果是 自然; 但如果 N+1 結(jié)果并不比 N 條結(jié)果好,那么出現(xiàn)這種情況只有可能是搜索引擎對(duì)第 N 和第 N+1 條結(jié)果的展示方式所導(dǎo)致,于是可以認(rèn)為N+1 條結(jié)果的摘要具備某些較好的特點(diǎn),由此可以證明 一些搜索引擎摘要的啟發(fā)式規(guī)則 或者挖掘出一些搜索引擎摘要的 隱式的 提取原則。 查詢分類 考察對(duì)搜索引擎使用,可以發(fā)現(xiàn)一般只有兩種目的查詢。一是為了查詢某種信息,比如 C+函數(shù)的某個(gè)用法;二是為了查詢某個(gè)網(wǎng)站的 主頁,比如查詢“北京大學(xué)”。 在用戶使用搜索引擎時(shí),對(duì)用戶眼睛進(jìn)行跟蹤計(jì)時(shí),發(fā)現(xiàn)對(duì)于以上兩種查詢,摘要的理想長度在變化,前者要求摘要長一些后者要求摘要短一些,由此可知查詢分類研究對(duì)于搜索引擎摘要的影響。 查詢分類的方法有多種,但每種方法都包含兩類查詢信息類 (導(dǎo)航類 (,信息類查詢指用戶希望通過該查詢得到某些信息,導(dǎo)航類查詢則類似于上段中提及的對(duì)某個(gè)網(wǎng)站主頁的查詢。 其他類別還有交互類查詢(資源類查詢 (交互類查詢比如多某個(gè)電子商務(wù)交易 平臺(tái)的查詢,資源類查詢比如尋找某個(gè)電影的下載鏈接等,但查詢的主流 仍 是信息類(導(dǎo)航類 ( 人通過點(diǎn)擊日志給出了一種自動(dòng)區(qū)分兩類查詢的方法,他們將信息類查詢定義為搜索結(jié)果中有多條符合用戶要求,將導(dǎo)航類查詢定義為搜索結(jié)果中只有一條符合用戶要求。 在本 文中采用將查詢分為信息類和導(dǎo)航類 兩類的分類方法。 網(wǎng)頁正文 網(wǎng)頁原文即是網(wǎng)頁源文件,包含 簽和圖片,而網(wǎng)頁正文就是該網(wǎng)頁核心文字內(nèi)容。網(wǎng)頁正文是在網(wǎng)頁原文的基礎(chǔ)上進(jìn)行去 簽,去噪 (去除噪音,即去除和網(wǎng)頁核心內(nèi)容無關(guān)的信息,比如廣告 )基礎(chǔ)上提取。搜索引擎端平臺(tái)設(shè)測(cè)試與優(yōu)化 16 摘要是在網(wǎng)頁正文上提取的,若正文質(zhì)量低包含一些無關(guān)信息,那么摘要中很可能包含這些無關(guān)信息,產(chǎn)生質(zhì)量較低的摘要。因此,正文質(zhì)量的好壞直接關(guān)系到摘要質(zhì)量的好壞。 搜索引擎摘要的意義 在 網(wǎng)絡(luò)信息極大豐富 的今天 ,為了快速而準(zhǔn)確的找到所需的信息,搜索引擎應(yīng)運(yùn)而生,成為現(xiàn)代網(wǎng)絡(luò)的 必備 工具。雖然現(xiàn)代搜索引擎 提供了較準(zhǔn)確的結(jié)果排序,然而時(shí)常會(huì)有一些 排在前面 的結(jié)果并不是用戶所需要的 。 出現(xiàn)這樣的 情況 一種原因 是 搜索引擎是基于全文索引技術(shù)提供服務(wù),只要文檔中包含查詢?cè)~就會(huì)返回,很大可能存在與用戶查詢需求不相關(guān)的或者相關(guān)性弱的文檔;另一種原因 用戶的 查詢?cè)~未必可以完全 體 現(xiàn)用戶的意圖 ,造成檢索結(jié)果的偏差 。 搜索引擎摘要是對(duì)鏈接頁面內(nèi)容的體現(xiàn), 因此 用戶會(huì)通過閱讀 搜索引擎 摘要來判定鏈接 頁面的的價(jià)值 ,從而決定是否打開該頁面進(jìn)行詳細(xì)的瀏覽 。 綜上,搜索引擎 摘要的好壞直接影響到用戶對(duì)鏈接價(jià)值判定的準(zhǔn)確性 , 摘要的質(zhì)量也成為用戶選擇搜索引擎 的標(biāo)準(zhǔn)之一 ,而 摘要的意義 就 在于對(duì) 于用戶判斷鏈接價(jià)值起到指導(dǎo)性作用 。 搜索引擎摘要評(píng)判標(biāo)準(zhǔn) 由上節(jié)可知搜索引擎摘要的意義在于對(duì)用戶判斷鏈接價(jià)值所起到的指導(dǎo)性作用,那么好的摘要應(yīng)當(dāng)起到正確的指導(dǎo)作用,即不產(chǎn)生誤導(dǎo),而誤導(dǎo)的情況主要有兩種: 1、 原本與用戶查詢較相關(guān)的鏈接 文檔 ,用戶閱讀摘要后 感覺 不相關(guān), 從 而忽略該鏈接 ,本文稱該型誤導(dǎo)為“類型一的誤導(dǎo)” 。 2、 原本與用戶查詢不相關(guān)的鏈接 文檔 ,用戶閱讀摘要后 感覺 相關(guān),從而點(diǎn)擊鏈接閱讀原文 ,本文稱該類型誤導(dǎo)為“類型二的誤導(dǎo)” 。 類型一的誤導(dǎo) 很容易 理解 ,在日常 生活中比較常見,所以針對(duì)類型二的誤導(dǎo)情況舉例說明。 圖 6 類型一誤導(dǎo)的例子 查詢: c+文件操作 摘要: 端平臺(tái)設(shè)測(cè)試與優(yōu)化 17 在圖 6 所示的例子中,用戶的意圖是查找如何使用 C+語言進(jìn)行文件操作,在看到圖 6 所示的這個(gè)摘要后,用戶會(huì)認(rèn)為該鏈接文檔主要講的是 C+文件操作的實(shí)現(xiàn)原理,從而有可能不愿意點(diǎn)開鏈接。但正文恰是用戶所要查詢的內(nèi)容,該文檔詳述了 C+文件操作各個(gè)函數(shù)的用法和參數(shù)設(shè)置(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 容桂消防安全培訓(xùn)證課件
- 家長進(jìn)課堂食品安全課件
- 家長培訓(xùn)材料課件
- 2026年保險(xiǎn)合同財(cái)產(chǎn)協(xié)議
- 2026年餐飲品牌區(qū)域代理合作合同協(xié)議
- 2026年廢舊金屬買賣合同
- 2026年辦公系統(tǒng)運(yùn)維續(xù)約合同
- 2026年熱力管道維護(hù)合同
- 2026年工程險(xiǎn)合同協(xié)議
- 2026年室內(nèi)裝飾設(shè)計(jì)施工合同協(xié)議
- 2026國家電投招聘試題及答案
- 2025 AHA 心肺復(fù)蘇與心血管急救指南 - 第6部分:兒童基本生命支持解讀
- 2026年大慶醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能測(cè)試模擬測(cè)試卷附答案
- 中央財(cái)經(jīng)大學(xué)金融學(xué)院行政崗招聘1人(非事業(yè)編制)參考筆試題庫及答案解析
- 臨床試驗(yàn)風(fēng)險(xiǎn)最小化的法律風(fēng)險(xiǎn)防范策略
- 2025年酒店總經(jīng)理年度工作總結(jié)暨戰(zhàn)略規(guī)劃
- 2025年三基超聲試題及答案
- 廣場(chǎng)景觀及鋪裝工程施工方案
- 貴州興義電力發(fā)展有限公司2026年校園招聘?jìng)淇碱}庫及一套完整答案詳解
- 完整版學(xué)生公寓維修改造工程施工組織設(shè)計(jì)方案
- 2026年“十五五”期間中國速凍食品行業(yè)市場(chǎng)調(diào)研及投資前景預(yù)測(cè)報(bào)告
評(píng)論
0/150
提交評(píng)論