版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、目錄測試(性能)1微軟-海量中文分詞聯(lián)合性能測試3引言:31.1.目的:31.2.項(xiàng)目背景:3測試內(nèi)容:3測試時(shí)間:3測試環(huán)境:3測試方法43.1.測試機(jī)器:.2.測試:4執(zhí)行順序:4測試數(shù)據(jù):4測試內(nèi)容:45索引性能測試5檢索性能測試5總結(jié):134.5.附件一14微軟-海量中文分詞器聯(lián)合測試14微軟-海量中文分詞聯(lián)合性能測試1. 引言:1.1. 目的:OffiharePoServer 2007基于微軟,對微軟自帶分詞與海量分詞嵌入分別評價(jià)索引及檢索效率、資源占用情況,以驗(yàn)證雙方的性能表現(xiàn)并進(jìn)行對比。1.2. 項(xiàng)目背景:2007 年,海量與微軟,計(jì)劃由海量提供分詞技術(shù)以微軟Of
2、fiharePoServer 2007 的中文檢索效果。為更好的驗(yàn)證海量分詞在OffiharePoServer 2007 中的效果,雙方OfficeSharePo決定進(jìn)行一次效果與性能的測試,以了解海量分詞在Server 2007 中的表現(xiàn)。在 2007 年 12 月底,海量和微軟共同評測了分詞的效果對比。由微軟根據(jù)測試結(jié)果出了一份效果測試(詳見附件一)。2008 年 1 月,海量和微軟共同測試其性能。以下為性能測試內(nèi)容。2. 測試內(nèi)容:2.1. 測試時(shí)間:2008 年 2 月 21 日至 2008 年 2 月 25 日2.2. 測試環(huán)境:客戶機(jī)1服務(wù)機(jī)1,配置相同: CPU:Dual Cor
3、e AMD Opteron 265 1.79GHz 2內(nèi)存:7.90Gb硬盤:SATA 2(465.76G+462.50G)系統(tǒng):Windows Server 2003 Ent. SP23. 測試方法部署一套OffiharePoServer 2007,分別使用微軟自帶分詞和海量分詞進(jìn)試。3.1. 測試機(jī)器:服務(wù)機(jī):部署OffiharePoServer 2007客戶機(jī):安裝有 LoadRunner 等測試程序3.2. 測試:LoadRunner3.3. 執(zhí)行順序:部署OffiharePoServer 2007測試索引測試檢索嵌入海量分詞測試索引測試檢索3.4. 測試數(shù)據(jù):新浪數(shù)據(jù) 1,049,9
4、29 條3.5. 測試內(nèi)容:(1) 索引基于 1049929 個(gè)數(shù)據(jù)源項(xiàng)目,進(jìn)行以下對比:A使用微軟自帶分詞,建立索引,索引耗時(shí),空間膨脹率B使用海量分詞,建立索引,(2) 檢索搜索引擎統(tǒng)計(jì)用戶常用搜索詞 20605 個(gè),使用 LoadRunner 模擬一定用戶數(shù)(1 個(gè)/20 個(gè),100 個(gè)(高并發(fā)參考),進(jìn)行隨機(jī)取詞搜索,進(jìn)行以下對比:使用微軟自帶分詞的條件下,執(zhí)行檢索,取得平均耗時(shí),資源消耗數(shù)據(jù)使用海量分詞的條件下,執(zhí)行檢索,取得平均耗時(shí),資源消耗數(shù)據(jù)索引耗時(shí),空間膨脹率4.4.1. 索引性能測試(1-1)使用微軟自帶分詞的索引,數(shù)據(jù)如下:耗時(shí):6 小時(shí) 19 分鐘索引膨脹:(源大?。?
5、.84 GB (1,985,292,953 字節(jié)),占用空間:4.49 GB (4,822,773,760 字節(jié))索引目錄大小:1.50 GB (1,611,218,560 字節(jié)),占用空間:1.50 GB (1,611,644,928 字節(jié)))(1-2)使用海量分詞的索引,數(shù)據(jù)如下耗時(shí):6 小時(shí) 15 分鐘索引膨脹:(源大?。?.84 GB (1,985,292,953 字節(jié)),占用空間:4.49 GB (4,822,773,760 字節(jié))索引目錄大小:1.43 GB (1,544,163,262 字節(jié)),占用空間:1.43 GB (1,544,585,216 字節(jié)))(1-3)索引效果比對
6、4.2. 檢索性能測試索引耗時(shí)索引膨脹率微軟自帶分詞6 小時(shí) 19 分81.5%海量分詞6 小時(shí) 15 分77.7%(2-1)使用微軟自帶分詞的檢索使用 VuGen 生成虛擬用戶,模擬檢索操作。以檢索列表文件作為參數(shù)嵌入。從 20605 個(gè)常用搜索詞表中隨機(jī)取值。使用 Controller 設(shè)置場景,分別模擬 1、20、100 用戶量,添加必要的計(jì)數(shù)器。運(yùn)行時(shí)間為 1 小時(shí)。執(zhí)行場景取得結(jié)果。檢索耗時(shí):【1 用戶】(說明:上圖代表搜索的平均響應(yīng)時(shí)間(秒)隨時(shí)間的變化情況)(說明:上表代表搜索的平均響應(yīng)時(shí)間(秒)統(tǒng)計(jì)值從左向右:最小值、平均值、最大值、中值、標(biāo)準(zhǔn)偏差)【20 用戶】(說明:上圖代
7、表搜索的平均響應(yīng)時(shí)間(秒)隨時(shí)間的變化情況)(說明:上表代表搜索的平均響應(yīng)時(shí)間(秒)統(tǒng)計(jì)值從左向右:最小值、平均值、最大值、中值、標(biāo)準(zhǔn)偏差)資源指標(biāo):取值方法:在系統(tǒng)運(yùn)行過程中,每 15 秒鐘對系統(tǒng)各項(xiàng)資源分別進(jìn)行取值,取值周期為系統(tǒng)運(yùn)行的一小時(shí)內(nèi),下表數(shù)據(jù)為其各項(xiàng)指標(biāo)平均值。總物理內(nèi)存數(shù):8289532 Kb注:(下同)% Prosor Time 指處理器用來執(zhí)行非閑置線程時(shí)間的百分比。計(jì)算方法是,測量范例間隔閑置線程活% ProsorTimePages/secAvailableBytesAvg.DiskQueue Length% DiskTime【初始值】0.4117838540.1458
8、4027774826297600.0006179170.020597219【1 用戶】21.5472887542.5330712158690575500.167545145.584838006【20 用戶】97.606921356.57913153456867166651.0843836.1461動(dòng)的時(shí)間,用范例間隔減去該值。(每臺(tái)處理器有一個(gè)閑置線程,該線程在沒有其他線程可以運(yùn)行時(shí)消耗周期)。明器,顯示在范例間隔時(shí)所觀察的繁忙時(shí)間平均百分比。這個(gè)值是用 100% 減這個(gè)計(jì)數(shù)器是處理器活動(dòng)的主去該服務(wù)不活動(dòng)的時(shí)間計(jì)算出來的。Pages/sec 指為解決硬頁錯(cuò)誤從磁盤或?qū)懭氪疟P的速度。這個(gè)計(jì)數(shù)器
9、是可以顯示導(dǎo)致系統(tǒng)范圍延緩類型錯(cuò)誤的主要指示器。它是 MemoryPages Input/sec 和 MemoryPages Output/sec 的總和。是用頁數(shù)計(jì)算的,以便在不用做轉(zhuǎn)換的情況下就可以同其他頁計(jì)數(shù)如: MemoryPage Faults/sec 做比較,這個(gè)值包括為滿足錯(cuò)誤而在文件系統(tǒng)緩存(通常由應(yīng)用程序請求)的非緩存內(nèi)存文件中檢索的頁。Availabytes 是計(jì)算機(jī)上可用于運(yùn)行處理的有效物理內(nèi)存的字節(jié)數(shù)量。是用零、空閑和備用內(nèi)存表上的空間總值計(jì)算的。空閑內(nèi)存指可以使用內(nèi)存;零內(nèi)存指為了防止以后的處理看到以前處理使用的數(shù)據(jù)而在很多頁內(nèi)存中充滿了零的內(nèi)存。備用內(nèi)存是指從處理的
10、工作集(它的物理 內(nèi)存)移到磁盤的,但是仍舊可以調(diào)用的內(nèi)存。這個(gè)計(jì)數(shù)器只顯示上一次觀察到的值;它不是一個(gè)平均值。Avg. Disk Queue Length 指和寫入請求(為所選磁盤在實(shí)例間隔中列隊(duì)的)的平均數(shù)。% Disk Time 指所選磁盤驅(qū)動(dòng)器忙于為讀或?qū)懭胝埱筇峁┓?wù)所用的時(shí)間的百分比?!?00 用戶】在 100 用戶高并況下,海量分別進(jìn)行了三次性能測試,發(fā)現(xiàn)曲線基本相同,下面取其一次搜索性能圖。(說明:上圖代表搜索的平均響應(yīng)時(shí)間(秒)隨時(shí)間的變化情況)(說明:上表代表搜索的平均響應(yīng)時(shí)間(秒)統(tǒng)計(jì)值從左向右:最小值、平均值、最大值、中值、標(biāo)準(zhǔn)偏差)(說明:上圖代表“搜索”事務(wù)的成功數(shù)
11、(綠色)和失敗數(shù)(粉色)(說明:上圖代表 Error 數(shù)隨時(shí)間的變化情況)Error 說明:-27728 Step download timeout (120 seconds) has expired when downloading non-resour).-27727-26631 StepHTTPdownload timeout (120 seconds) has expired when downloading resourSus-Code=400 (Bad Request) for藤訊(2-2)使用海量分詞的檢索使用 VuGen 生成虛擬用戶,模擬檢索操作。以檢索列表文件作為參數(shù)嵌入腳
12、本。設(shè)置迭代次數(shù)為 20605,隨機(jī)取值。使用 Controller 設(shè)置場景,分別模擬 1、20、100 用戶量,添加必要的計(jì)數(shù)器。運(yùn)行時(shí)間為 1 小時(shí)。執(zhí)行場景取得結(jié)果。檢索耗時(shí):【1 用戶】(說明:上圖代表搜索的平均響應(yīng)時(shí)間(秒)隨時(shí)間的變化情況)(說明:上表代表搜索的平均響應(yīng)時(shí)間(秒)統(tǒng)計(jì)值從左向右:最小值、平均值、最大值、中值、標(biāo)準(zhǔn)偏差)【20 用戶】(說明:上圖代表搜索的平均響應(yīng)時(shí)間(秒)隨時(shí)間的變化情況)(說明:上表代表搜索的平均響應(yīng)時(shí)間(秒)統(tǒng)計(jì)值從左向右:最小值、平均值、最大值、中值、標(biāo)準(zhǔn)偏差)資源指標(biāo):總物理內(nèi)存數(shù):8289532 Kb【100 用戶】% ProsorTim
13、ePages/secAvailableBytesAvg. DiskQueue Length% Disk Time【初始值】0.3932291330.16001158470456913920.00070.023333333【1 用戶】21.978468137.8598401156327019070.1422604854.742016173【20 用戶】98.654081835.44795283754884537710.65735924621.91197486(說明:上圖代表搜索的平均響應(yīng)時(shí)間(秒)隨時(shí)間的變化情況)(說明:上表代表搜索的平均響應(yīng)時(shí)間(秒)統(tǒng)計(jì)值從左向右:最小值、平均值、最大值、中
14、值、標(biāo)準(zhǔn)偏差)(說明:上圖代表“搜索”事務(wù)的成功數(shù)(綠色)和失敗數(shù)(粉色)(說明:上圖代表 Error 數(shù)隨時(shí)間的變化情況)Error 說明:-27791 Server gg has shut down the connection prematurely-27728 Step download timeout (120 seconds) has expired when downloading non-resour).for-27727-26631 -26612StepdownloadHTTPtimeout (120 seconds) has expired when downloading
15、 resourSus-Code=400(Bad钘 ernal钁?Request)HTTPSus-Code=500(ServerError)for(2-3)搜索平均耗時(shí)效果比對5. 總結(jié):OffiharePoServer 2007 中內(nèi)嵌海量分詞,通過以上數(shù)據(jù)分析,在其索引和檢索的各項(xiàng)指標(biāo)均未造成不良影響,且都有一定的。微軟自帶分詞海量分詞1 用戶0.1760.14320 用戶0.4510.375100 用戶13.08611243附件一微軟-海量中文分詞器聯(lián)合測試微軟(中國)2007/12/21測試背景為了OfficeOffiharePoServer 2007 Server 2007(MOSS)
16、企業(yè)搜索對于中文語言處理的能力,提高最終用戶體驗(yàn),在過去的一個(gè)月中,行了搜索中文分詞器測試,來衡量應(yīng)用海量分詞器之后對與海量科技聯(lián)合進(jìn)OfficeOfficeSharePoServer 2007 Server 2007 搜索用戶體驗(yàn)的改進(jìn)幅度。測試選用了 18000 條互聯(lián)網(wǎng)上常用搜索詞匯,對一百萬條形成的內(nèi)容源進(jìn)行對比搜索。得到對比搜索結(jié)果后,將結(jié)果編組,隨機(jī)抽取其中 50 條搜索結(jié)果對打亂順序交給測試者進(jìn)行評價(jià)。評價(jià)使用的測試方法是成對比較法。方法簡介:成對比較法是國際上較為通用的衡量兩組結(jié)果感受差異的方法。其過程是隨機(jī)選取大量成對結(jié)果集,將順序完全打亂,由評價(jià)者對兩者進(jìn)行評測人群等決定。
17、辨別得出傾向性。其結(jié)果準(zhǔn)確度由樣本數(shù)量、測試數(shù)據(jù)新浪數(shù)據(jù)一百萬條(海量何興華提供)互聯(lián)網(wǎng)常見搜索詞庫十萬條(海量何興華提供)測試工具海量分詞器(海量何興華提供)OffiharePoServer 2007 Batch Query Test Tool (微軟編寫)Subject Search Result Evaluation Tool (微軟編寫)測試環(huán)境第一組:第二組:OfficeOfficeOffiOffiharePoharePoServer 2007 Server 2007 + 自帶分詞器Server 2007 Server 2007 + 海量分詞器測試樣本因時(shí)間倉促,本次評測共統(tǒng)計(jì) 22
18、 人,其中 10 人具有 IT 或搜索引擎相關(guān)工作背景, 12 人沒有任何相關(guān)背景。測試數(shù)據(jù)統(tǒng)計(jì)由圖可見,對應(yīng)用海量分詞后搜索結(jié)果的傾向?yàn)?64%,MOSS 自帶分詞的傾向?yàn)?12%,兩者傾向性相同占 24%??梢钥闯鲈u測者明顯傾向于應(yīng)用海量分詞器之后的搜索結(jié)果,從提取出的樣本中,也可以看出對很多專有名詞的分詞,海量分詞器要明顯好于 MOSS 自帶分詞的結(jié)果。但在分析中也看出應(yīng)用海量分詞器后存在一些問題。1.部分搜索出現(xiàn)了不能顯示帶高亮可能需要雙方進(jìn)一步配合解決。的摘要的情況,而原有分詞器沒有這個(gè)問題。該問題2.部分情況下,雖然海量分詞器的斷詞準(zhǔn)確,但由于 MOSS 本身的相關(guān)度算法權(quán)重,導(dǎo)致兩者搜索結(jié)果實(shí)際相差不大。某些人名、地名斷詞依然存在問題。不過海量分詞器具有可擴(kuò)充自定義詞庫的特點(diǎn),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 青島農(nóng)業(yè)大學(xué)《機(jī)械設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2026黑龍江省文化和旅游廳所屬事業(yè)單位招聘工作人員21人備考題庫有完整答案詳解
- 瀘州職業(yè)技術(shù)學(xué)院《成衣工藝實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 鄭州亞歐交通職業(yè)學(xué)院《電子商務(wù)網(wǎng)絡(luò)數(shù)據(jù)庫》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東化工職業(yè)學(xué)院《創(chuàng)新創(chuàng)業(yè)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 銀川科技學(xué)院《機(jī)械學(xué)科前沿》2023-2024學(xué)年第二學(xué)期期末試卷
- 張家口職業(yè)技術(shù)學(xué)院《阿聯(lián)酋社會(huì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2026遼寧省供銷社社有企業(yè)人員招聘38人備考題庫及答案詳解(奪冠系列)
- 新疆應(yīng)用職業(yè)技術(shù)學(xué)院《學(xué)前兒童教育學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 西藏藏醫(yī)藥大學(xué)《初級朝鮮語會(huì)話上》2023-2024學(xué)年第二學(xué)期期末試卷
- 2023-2025年浙江中考數(shù)學(xué)試題分類匯編:圖形的性質(zhì)(解析版)
- 健康險(xiǎn)精算模型的風(fēng)險(xiǎn)調(diào)整-洞察與解讀
- 十年(2016-2025年)高考數(shù)學(xué)真題分類匯編:專題26 導(dǎo)數(shù)及其應(yīng)用解答題(原卷版)
- 2025年江蘇省常熟市中考物理試卷及答案詳解(名校卷)
- 旅游景區(qū)商戶管理辦法
- 2025年甘肅省中考物理、化學(xué)綜合試卷真題(含標(biāo)準(zhǔn)答案)
- DLT5210.1-2021電力建設(shè)施工質(zhì)量驗(yàn)收規(guī)程第1部分-土建工程
- 機(jī)械設(shè)備租賃服務(wù)方案
- 樂理考試古今音樂對比試題及答案
- 電影放映年度自查報(bào)告
- 心內(nèi)介入治療護(hù)理
評論
0/150
提交評論