已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1 TRS企業(yè)搜索引擎白皮書 據(jù)統(tǒng)計, 企業(yè)(企業(yè)級組織機構(gòu)的統(tǒng)稱)每年的數(shù)據(jù)增長超過 100%,其中 80%以文件、郵件、圖片等 非結(jié)構(gòu)化數(shù)據(jù) 形式存放在企業(yè)內(nèi)計算機系統(tǒng)中的各個角落,而這些數(shù)據(jù)總量遠遠超過了互聯(lián)網(wǎng)信息的總量。有數(shù)字表明,企業(yè) 98%以上的信息存儲在企業(yè)內(nèi)部,而發(fā)布到互聯(lián)網(wǎng)的信息僅占信息總量的 1%-2%。 自從有了信息,那么“搜索”就會成為人們永遠避不開的宿命。因此,如何方便、快捷、安全地獲取企業(yè)內(nèi)部的信息,造就了一個新的,但實際上非常傳統(tǒng)的應(yīng)用 企業(yè)搜索引擎 。 TRS公司推出的企 業(yè)搜索引擎解決方案,利用 TRS公司多年來自主開發(fā)的 TRS Database Server 作為企業(yè)搜索引擎服務(wù)的平臺,輔以各種數(shù)據(jù)索引工具,配套數(shù)據(jù)內(nèi)容分發(fā)服務(wù)模塊,提供完整的、智能的、安全的、個性豐富的企業(yè)搜索引擎服務(wù)。 北京拓爾思信息技術(shù)有限公司 Beijing TRS Information Technology Limited 2 目 錄 一、 搜索引擎面面觀 3 二、 企業(yè)搜索引擎不同于互聯(lián)網(wǎng)搜索引擎 5 三、 企業(yè)搜索平臺構(gòu)建企業(yè)搜索引擎應(yīng)用 8 四、 TRS 企業(yè)搜索引擎架構(gòu) 10 五、 TRS 企業(yè)搜索引擎核心優(yōu)勢 15 “安全”的搜索引擎 全息搜索 更高的搜索準(zhǔn)確性和智能性 個性化的搜索體驗 實時資源整合搜索 強壯可靠的系統(tǒng)、低成本按需擴展 基于內(nèi)容的自動分類和聚類技術(shù) 優(yōu)異的全文檢索性能 六、 TRS 企業(yè)搜索引擎應(yīng)用實例 17 政府政府某部搜索引擎系統(tǒng) 政府深圳信息資源決策服務(wù)系統(tǒng) 媒體新華社多媒體數(shù)據(jù)庫搜索引擎服務(wù) 企業(yè)廣東移動搜索引擎服務(wù) 3 一、搜索引擎面面觀 互聯(lián)網(wǎng),這個時代的寵兒,注意力的焦點,在出現(xiàn)短短的 10 年來,演繹著 IT 領(lǐng)域的傳奇,在詮釋注意力經(jīng)濟的同時,互聯(lián)網(wǎng)本身也一直成為這個時代人們的注意力焦點,并且我們也毫不吝嗇地把我們這個時代稱之為“互聯(lián)網(wǎng)時代”。 互聯(lián)網(wǎng)的出現(xiàn),信息的高速膨脹,搜索成為互聯(lián)網(wǎng)上信息獲取的主要手段。自 1994 年YAHOO 推出了 超級目錄索引, 從而 成功地使搜索引擎的概念深入人心。 如今, 搜索引擎進入了高速發(fā)展時期 , 目前互聯(lián)網(wǎng)上的搜索引擎已達數(shù)百家,其檢索的信息量也與從前不可同日而語。比如最近風(fēng)頭正勁的 Google,其數(shù)據(jù)庫中存放的網(wǎng)頁已達 30 億之巨! “搜索引擎”這個詞也成為流行詞語,媒體、大眾、資本也狂熱得無搜不歡。并且,業(yè)界又大膽地提出“ 互聯(lián)網(wǎng)已經(jīng)從注意力經(jīng)濟過渡到搜索力經(jīng)濟”了。 在互聯(lián)網(wǎng)上搜索引擎服務(wù)熱潮一浪高過一浪的同時,我們也注意到另外一個現(xiàn)象,就是組織機構(gòu)內(nèi)部信息化浪潮,催生了大量的信息內(nèi)容。據(jù)統(tǒng)計, 企業(yè)數(shù)據(jù) 每年以 200%的速度增長,其中 80%的數(shù)據(jù)以文件、郵件、圖片等非結(jié)構(gòu)化數(shù)據(jù)形式存放在企業(yè)內(nèi)計算機系統(tǒng)中的各個角落,而這些數(shù)據(jù)總量遠遠超過了互聯(lián)網(wǎng)信息的總量。有數(shù)字表明,企業(yè)發(fā)布到互聯(lián)網(wǎng)的信息只占到信息量的 1%-2%,而 98%以上的信息是存儲在企業(yè)內(nèi)部的。自從有了信息和內(nèi)容,那么“搜索”就會成為人們永遠避不開的宿命。由此,如何方便、快捷、安全地獲取企業(yè)內(nèi)部的信息內(nèi)容,造就了一個新的,但實際上非常傳統(tǒng)的應(yīng)用 “企業(yè)搜索引擎”。似乎業(yè)界也看到未來企業(yè)級搜索引擎的龐大技術(shù)市場,各大 IT 巨頭都紛紛推出了其相對應(yīng)的軟件產(chǎn)品和技術(shù)。 同樣,因為信息的越來越多,人們使用計算機,使用信息的頻度也越來越高。而在個人電腦中也就積累了大量的個人信息,如郵件、文檔、下載的各種網(wǎng)頁。對于個人桌面的信息搜索訴求,我們把她總結(jié)成為“個人搜索引擎”。 我們可以從下表直觀地對搜索引擎有全方位的理解: 4 互聯(lián)網(wǎng)搜索引擎 個人 桌面搜索 引擎 企業(yè)級搜索 引擎 搜索范圍 整個 Internet 網(wǎng)絡(luò)。 個人電腦 企業(yè)內(nèi)部所有的信息資源,以及部分外部資源。 搜索對象 網(wǎng)頁、圖像及 MP3 等部分類型的多媒體文件。 PC 內(nèi)部的所有文檔信息。 企 業(yè)資料庫、目錄、幫助文本、源代碼信息庫、新聞 組 等。 如: 網(wǎng)頁、電子郵件、 Office 文件、 PDF文件、圖片、音視頻多媒體文件、圖表、公文、研究報告等。 應(yīng)用特點 大而全,旨在為用戶提供更豐富的搜索結(jié)果。 面向個人文檔管理的智能化搜索工具。 專業(yè)、定向的搜索,注重結(jié)果的準(zhǔn)確性和高度匹配性 ,并且是一種信息安全的搜索。 從上表可以看到,三類搜索引擎有著截然不同的搜索目標(biāo)和應(yīng)用特點。因此,其在實現(xiàn)技術(shù)機制和手段上也存在著極大的差異。長期以來,因為傳媒關(guān)注的總是熱點,造成市場上混淆了這三者的區(qū)別。一提 到搜索引擎,就自然聯(lián)想到互聯(lián)網(wǎng)搜索引擎,再加上一些廠商刻意的推波助瀾,造成了互聯(lián)網(wǎng)搜索引擎取代所有搜索引擎的概念。而實際上我們可以看到不同搜索引擎之間的差別很大。 5 二、企業(yè)搜索引擎不同于互聯(lián)網(wǎng)搜索引擎 首先,我們所說的 企業(yè)搜索引擎( Enterprise Search Engine,簡稱 ESE) 中的企業(yè) 并非 指單純的 企業(yè) , 政府、教育、科研、媒體、醫(yī)療、軍隊、安全部門都有類似的應(yīng)用需求 , 這里 的“ 企業(yè) ” 可以理解為 “ 企業(yè)級 ” ,即企業(yè)級搜索引擎。那么, 對于 企業(yè)級搜索,我們 對“搜索”的訴求又是什么呢 ? 和互聯(lián)網(wǎng)搜索引擎 相比,它又有哪些不同呢? 實際上,搜索引擎服務(wù)是內(nèi)容管理技術(shù)的一個典型應(yīng)用。我們不妨從內(nèi)容管理的框架來看搜索引擎的各個環(huán)節(jié),即從信息內(nèi)容的采集,加工,管理,到服務(wù),以至到信息內(nèi)容的“發(fā)現(xiàn)”來比對一下企業(yè)級搜索引擎的不同。 *SEO:搜索引擎優(yōu)化,利用工具或其他手法奪取較好的網(wǎng)絡(luò)排名。 1、復(fù)雜結(jié)構(gòu) 數(shù)據(jù)的搜索 互聯(lián)網(wǎng) 上 搜索 的數(shù)據(jù)一般都是網(wǎng)頁形式的, 盡管這幾年網(wǎng)上豐富起來的圖片、 MP3 等信息形式,但其組織形式仍是基于 HTML 組成的網(wǎng)頁。 而企業(yè)級用戶需要搜索的數(shù)據(jù)既有互聯(lián)網(wǎng) 站上的,也有內(nèi)部網(wǎng)站上的 ; 既有網(wǎng)頁形式的,又有各種數(shù)據(jù)庫形式的,如 SQL Server、Oracle 數(shù)據(jù)庫等;既有結(jié)構(gòu)化數(shù)據(jù), 又更多的是 各種電子文件格式的非結(jié)構(gòu)化 及半結(jié)構(gòu)化 數(shù) 6 據(jù),如 Word、 Excel、 Lotus Notes、 PDF、 XML 等;既有文本形式的數(shù)據(jù), 又 有多媒體形式的數(shù)據(jù);而且,同一機構(gòu)的數(shù)據(jù)還可能分布在不同 介質(zhì) 的 載體上。 然而,不管數(shù)據(jù)的形式、來源、位置、平臺如何不同,企業(yè)用戶總是希望內(nèi)外數(shù)據(jù)能無縫結(jié)合,用一個搜索工具和統(tǒng)一的界面,發(fā)出幾個簡單的檢索請求就能對所有資源進行檢索,并很快就能有滿意的結(jié)果。 并且,互聯(lián)網(wǎng) 搜索內(nèi)容對于用戶來說都是未知的 , 而企業(yè)級搜索的對象基本上是已知信息源,其中包括企業(yè)資料庫、目錄、幫助文本、源代碼信息庫、新聞組等,在對這些信息進行索引時,用戶需要按照內(nèi)容而不是通過比較源鏈接來進行排列 。 2、 嚴(yán)格的安全 搜索 在企業(yè)內(nèi)部, 安全的問題 是 無法回避 的 。 因為企業(yè)內(nèi)部的信息不象“人人平等”的互聯(lián)網(wǎng)信息,其信息內(nèi) 容帶有明顯的“等級”安全特性。所以, 當(dāng)搜索技術(shù)變得無所不能,人們反而開始擔(dān)心,如果搜索的結(jié)果泄漏了企業(yè)的機密怎么辦?如果企業(yè)原有的安全架構(gòu)對新的搜索技術(shù)失效了怎么辦?這些疑問都讓用戶感到如鯁在喉, 岌岌小心 。 很多業(yè)內(nèi)人士在談到搜索安全的話題 就 憂心忡忡,他們普遍認(rèn)為搜索環(huán)境并沒有為企業(yè)級應(yīng)用做好足夠的準(zhǔn)備,未來充滿太多 的 變數(shù)。而在一些實際的應(yīng)用中,我們看到,即便為數(shù)據(jù)定義了文檔級和數(shù)據(jù)庫級的雙重安全保障,搜索引擎的 魔爪 還能透過授權(quán)的索引文檔來 搜索 它們。 因此,針對 企業(yè)網(wǎng)中不同的用戶對不同的資源,其使用 權(quán)限都可能不一樣,需要 企業(yè)搜索引擎能夠 對用戶、資源、權(quán)限分級管理和控制,確保系統(tǒng)的安全。 3、高可靠的查全和查準(zhǔn) 作為專業(yè)用戶,企業(yè)用戶需要查找的信息專業(yè)性強、概念復(fù)雜,而對查詢的 查全 率和 查準(zhǔn)率有著非常高的要求 。因此,需要利用各種手段來提高搜索引擎的查準(zhǔn)率和 查全率。 從查全率來看,互聯(lián)網(wǎng)搜索引擎無從談起查全率,因為互聯(lián)網(wǎng)上的信息如此泛濫無邊,任何一個搜索引擎服務(wù)商都無法窮盡互聯(lián)網(wǎng)上的每個網(wǎng)頁。而在企業(yè)級的某些應(yīng)用中,是不允許有所遺漏的檢索。必須對企業(yè)內(nèi)部每個需要提供服務(wù)的信息進行索引。在檢索機制上必須保障 效率的前提下達到全面搜索的要求。 7 同樣的道理,在互聯(lián)網(wǎng)上因為信息自由的特點,決定了搜索只能通過“關(guān)鍵詞匹配”這種核心檢索手段去實現(xiàn)。而在企業(yè)內(nèi)部,信息的組織復(fù)雜了許多。企業(yè)級搜索引擎有完善的信息分類體系,元數(shù)據(jù),對象數(shù)據(jù)多層邏輯的組織形式,在查詢上滿足基于對象數(shù)據(jù)內(nèi)容和元數(shù)據(jù)標(biāo)引體系的精確查詢要求。 4、智能化的檢索服務(wù) 企業(yè)內(nèi)部的搜索服務(wù),帶有鮮明的業(yè)務(wù)特性,不像互聯(lián)網(wǎng)搜索引擎僅提供信息參考。在企業(yè)內(nèi)部的搜索結(jié)果將直接參與到企業(yè)的運營、決策中。所以,對于搜索的結(jié)果處理,搜索過程中采用相關(guān)智能技術(shù)以達到迅速 、準(zhǔn)確、全面定位目標(biāo)信息非常重要。例如 采用相關(guān)度分析技術(shù),使相關(guān)度較高的結(jié)果排在結(jié)果列表的前面,相關(guān)度較低的結(jié)果排在后面,并屏蔽無用和錯誤的信息 ; 構(gòu)造強大的語義 規(guī)則庫 ,使系統(tǒng)能夠正確地判斷與檢索詞相關(guān)的同義詞、近似詞、上位詞、下位詞,幫助用戶判斷結(jié)果的相關(guān)度,并進行進一步的查詢 ;支持 完善的 信息 分類體系,對檢索結(jié)果自動分類 或者信息聚類;提供智能化的概念擴展查詢等,都將有利于企業(yè)對信息資源的高效利用。 5、 企業(yè)搜索引擎通常都和企業(yè)其他的 IT 應(yīng)用有機結(jié)合 以 內(nèi)容管理技術(shù)為框架, 搜索技術(shù)為支撐,企業(yè)搜索引擎通常與數(shù) 據(jù)管理、內(nèi)容管理、記錄管理、競爭情報、團隊協(xié)同、過程管理、信息門戶等知識管理的各個環(huán)節(jié)密切結(jié)合,構(gòu)成管理企業(yè)知識資產(chǎn)的完整而又靈活的體系。知識 內(nèi)容 管理對搜索引擎技術(shù)提出了更高的要求,而先進的搜索引擎技術(shù)則為知識 內(nèi)容 管理提供了工具和保障。 在市場上我們也可以看到 ,國內(nèi)外 企業(yè)級搜索引擎廠商,有許多也是知識 內(nèi)容 管理解決方案的提供商。 6、實時的信息搜索服務(wù) 正如前所敘,企業(yè)內(nèi)部的搜索服務(wù),具備業(yè)務(wù)特性,需要將搜索結(jié)果參與企業(yè)的運營和決策。所以通過搜索引擎提供的服務(wù),必須能夠動態(tài)地反應(yīng)實際情況,即當(dāng)內(nèi)部的信息發(fā)生變化 時,必須能夠?qū)崟r反應(yīng)。在企業(yè),不允許出現(xiàn)像互聯(lián)網(wǎng)搜索引擎服務(wù)那樣信息滯后更新的現(xiàn)象。 8 三、企業(yè)搜索平臺構(gòu)建企業(yè)搜索引擎應(yīng)用 綜上所述,企業(yè)搜索引擎和互聯(lián)網(wǎng)搜索引擎有著明顯的差異。而且正因為企業(yè)搜索引擎從應(yīng)用角度來看,對于技術(shù)供應(yīng)商來說是個更加寬闊的市場。由此,進入 2004 年以來,市場上相繼出現(xiàn)了一些熱點。 搜索廠商們開始 摩拳擦掌 ,準(zhǔn)備在這場 企業(yè)搜索 戰(zhàn)役中搶占先機了。最近,越來越多來自于企業(yè)級搜索的消息在我們耳邊圍繞: Google 的專用搜索設(shè)備不斷出新,意在 將其在互聯(lián)網(wǎng)搜索引擎霸主地位延續(xù)到企業(yè)搜索引擎市場中 來。 IBM DB2 Information Integrator、 Oracle Files 10g 相繼推出,數(shù)據(jù)庫廠商領(lǐng)土擴張的雄心顯露無疑;Yahoo 通過合作與并購的方式連連出招; Microsoft 將搜索產(chǎn)品的發(fā)布時鐘與 Longhorn 正式看齊 . 從技術(shù)的走向來看, 分兩種流派:一是數(shù)據(jù)庫廠商在自身的關(guān)系型數(shù)據(jù)庫中增強檢索服務(wù)能力,以期多個應(yīng)用系統(tǒng)都部署各自的搜索服務(wù),而通過一個聯(lián)合搜索的方式實現(xiàn)企業(yè)內(nèi)的搜索引擎服務(wù)。 二是更多的從事傳統(tǒng)的內(nèi)容管理廠商,在認(rèn)真分析了企業(yè)搜索引擎服務(wù)的特點后,提出了 企業(yè)搜索平臺( Enterprise Search Platform,簡稱 ESP) 的提法。這一“ 技術(shù) 流派”的支持者以國內(nèi)企業(yè)搜索引擎市場第一占有的 TRS 為代表,還有國外的 AUTONOMY、 VERITY等公司。 9 現(xiàn)實情況是, 企業(yè)內(nèi)部的信息存儲在各個應(yīng)用系統(tǒng)中,并且采用不同的系統(tǒng)進行管理并提供各自的搜索服務(wù)。例如: 一個在內(nèi)容管理系統(tǒng)中,另一個在 Microsoft Office 環(huán)境中,還有一個在電子郵件程序中 ,采用 ESP 架構(gòu)需要各個 數(shù)據(jù)庫中 的數(shù)據(jù)進行統(tǒng)一的、關(guān)聯(lián)的索引。 并且還能在搜索之前對查詢語句進行語法 翻譯,以及拼寫檢查、短語檢測等語言處理。在 執(zhí)行搜索步驟后, ESP 會把從原始 將對應(yīng)的各個數(shù)據(jù)庫中內(nèi)容進行用戶要求的封裝后 返回給用戶。這樣,用戶就可以借助結(jié)果頁面中的類別鏈接逐級縮小查詢范圍,提煉出想要的結(jié)果了。 10 四、 TRS 企業(yè)搜索引擎架構(gòu) 國內(nèi)信息檢索和內(nèi)容管理軟件的領(lǐng)導(dǎo)廠商 TRS 公司在企業(yè)搜索引擎領(lǐng)域占據(jù)著國內(nèi)企業(yè)級搜索引擎市場的 80%,并且一直是該領(lǐng)域的技術(shù)領(lǐng)導(dǎo)者和理念先行者。公司已從成立之初提供基于中文的信息搜索軟件,發(fā)展到今天成為基于內(nèi)容管理技術(shù)提供豐富的全面的企業(yè)搜索引擎產(chǎn)品和解決方案的中國最具實 力的軟件開發(fā)商之一。在實踐中積累了豐富的業(yè)務(wù)經(jīng)驗,在技術(shù)、產(chǎn)品和實踐方面具有獨特優(yōu)勢。 TRS 公司推出的企業(yè)搜索引擎解決方案,利用 TRS 公司多年來自主開發(fā)的 TRS Database Server 作為企業(yè)搜索引擎服務(wù)的平臺。輔以各種數(shù)據(jù)索引工具,配套數(shù)據(jù)內(nèi)容分發(fā)服務(wù)模塊,構(gòu)建成一個完整的,能夠索引企業(yè)內(nèi)部全面的信息內(nèi)容,提供安全分級授權(quán)的、個性豐富的檢索體驗的企業(yè)搜索引擎服務(wù)。其框架如圖: 從圖中可以看到,要實現(xiàn)一個完整的企業(yè)搜索引擎服務(wù),首先需要將存儲在企業(yè)組織內(nèi)部的各類信息通過對應(yīng)的手段索引到企業(yè)搜 索引擎服務(wù)平臺服務(wù)器中。在 TRS 提供的解決 11 方案中,即將各類信息索引到 TRS Database Server( TRS 企業(yè)搜索引擎基礎(chǔ)平臺),然后通過有效的信息分發(fā)服務(wù)模塊實現(xiàn)定制化的企業(yè)搜索引擎服務(wù)。 從技術(shù)角度來看, TRS 搜索引擎框架中,很好地利用模塊化的軟件解決了企業(yè)搜索引擎應(yīng)用中的三個核心環(huán)節(jié): 內(nèi)容實時發(fā)現(xiàn)索引、內(nèi)容海量安全管理、內(nèi)容智能個性搜索 。并且 TRS 搜索引擎方案突破了純粹的“搜索”概念,在搜索后處理方面, TRS 出色地解決了 “內(nèi)容挖掘分析利用” 這個課題。 內(nèi)容實時發(fā)現(xiàn)索引 在企業(yè)搜索引擎服務(wù)中 ,首先需要解決的一個問題就是如何將多種格式、多種介質(zhì)形態(tài)、多種存儲方式的內(nèi)容信息,以實時的方式將這些信息進行索引。并且在索引的過程中力求能夠做到準(zhǔn)確,并配合以相關(guān)智能語言技術(shù)做信息的去重、自動標(biāo)引等能力。 TRS 公司針對各種信息的來源和形態(tài)提供了一系列的輔助處理工具: TRS 網(wǎng)絡(luò)信息雷達系統(tǒng)( TRS InfoRadar) 針對企業(yè)搜索引擎服務(wù)中,需要對部分互聯(lián)網(wǎng)網(wǎng)站的信息進行收集,并作為企業(yè)搜索引擎的重要內(nèi)容來源。為滿足此類需求, TRS 提供的網(wǎng)絡(luò)信息雷達系統(tǒng),采用高效的網(wǎng)絡(luò)搜索技術(shù),監(jiān)控和采集互聯(lián)網(wǎng)信息,支持 智能分類、自動排重和靈活發(fā)布,實現(xiàn)海量網(wǎng)絡(luò)信息的高效采集、組織。將采集和分析處理好的數(shù)據(jù)實時提交到企業(yè)搜索引擎平臺服務(wù)器( TRS DATABASE SERVER)中。 TRS 數(shù)據(jù)檢索網(wǎng)關(guān)( TRS Gateway for RDBMS) 在企業(yè)內(nèi)部,許多信息內(nèi)容的創(chuàng)建和生產(chǎn)都分散在各個應(yīng)用系統(tǒng)中,而這些應(yīng)用系統(tǒng)的數(shù)據(jù)存儲基本上都是采用關(guān)系型數(shù)據(jù)庫或者 NOTES 系統(tǒng)中。在企業(yè)搜索引擎應(yīng)用中,一個核心明顯的需求就是,當(dāng)這些應(yīng)用系統(tǒng)的數(shù)據(jù)產(chǎn)生和變化時,希望實時地通過企業(yè)搜索引擎服務(wù)迅速查找到。這就需要有相關(guān)技術(shù)能夠?qū)?時發(fā)現(xiàn)新數(shù)據(jù),并在發(fā)現(xiàn)的同時索引到企業(yè)搜索引擎平臺服務(wù)器中。 TRS 公司提供了針對系列的主流關(guān)系型數(shù)據(jù)庫和 NOTES 的檢索網(wǎng)關(guān)模塊,能夠?qū)?yīng)用中的數(shù)據(jù)實時地反映到企業(yè)搜索引擎平臺服務(wù)器中( TRS Database Server)。 TRS 數(shù)據(jù)處理工具( TRS Data Processor) 12 在實際應(yīng)用中,企業(yè)搜索引擎還需要面對企業(yè)內(nèi)部各種類型的數(shù)據(jù)進行加工、標(biāo)引、加載到 TRS 數(shù)據(jù)庫中,通過 TRS Data Processor 可以優(yōu)化后續(xù)的檢索、發(fā)布服務(wù)。 TRS Data Processor 對已經(jīng)進入 TRS 數(shù) 據(jù)庫中的數(shù)據(jù)進行深層次的聯(lián)機加工,將信息及時索引到 TRS企業(yè)搜索引擎平臺服務(wù)器( TRS Database Server)中。 內(nèi)容海量安全管理 在企業(yè)搜索引擎應(yīng)用中,海量信息的管理完全不同于互聯(lián)網(wǎng)搜索引擎。首先在信息總量上,因為企業(yè)搜索引擎應(yīng)用是分散在各個企業(yè)內(nèi)部,所以單個的企業(yè)搜索引擎應(yīng)用的數(shù)據(jù)量和互聯(lián)網(wǎng)上的信息是不可同日而語的。但是從企業(yè)級應(yīng)用來看,因為任何一個機構(gòu)組織在實施其企業(yè)搜索引擎應(yīng)用時,不可能象互聯(lián)網(wǎng)搜索引擎服務(wù)商那樣投資大批的機器設(shè)備。所以,在企業(yè)級應(yīng)用中,單位設(shè)備數(shù)據(jù)量(單位設(shè)備數(shù)據(jù)量 =存儲管理的數(shù)據(jù)量 機器設(shè)備數(shù))則遠遠高過互聯(lián)網(wǎng)搜索引擎服務(wù)。如何在單臺或者數(shù)臺機器中實現(xiàn)企業(yè)內(nèi)部海量數(shù)據(jù)的管理是企業(yè)搜索引擎平臺服務(wù)器需要直接響應(yīng)的問題。 同時,企業(yè)搜索引擎服務(wù)中的安全問題,也涉及到多個層面。一是系統(tǒng)的安全,因為企業(yè)搜索引擎的服務(wù)結(jié)果生產(chǎn)性特質(zhì),不允許服務(wù)系統(tǒng)出現(xiàn)錯失現(xiàn)象。所以在系統(tǒng)架構(gòu)上,集群技術(shù)的應(yīng)用、分布式的支持都是企業(yè)搜索引擎平臺服務(wù)器需要解決的問題。另一個更為重要的安全問題就是信息本身的安全。企業(yè)搜索引擎服務(wù)必須保障信息是按秩序、按組織規(guī)則授權(quán)方式的搜索。而不象互聯(lián)網(wǎng)搜索引擎上 的人人搜索。 TRS 企業(yè)搜索引擎平臺服務(wù)器( TRS Database Server)則很好地解決了上面提及的各種問題。 TRS 企業(yè)搜索引擎平臺服務(wù)器( TRS Database Server)除了采用得到業(yè)界廣泛使用全文檢索的全部功能和性能,針對企業(yè)信息內(nèi)容搜索引擎服務(wù)的管理和資源建設(shè)的新需求,發(fā)展了包括 Native XML, 集群, Unicode, 自然語言處理及智能檢索等眾多新功能,結(jié)合 TRS領(lǐng)先的結(jié)構(gòu)化和非結(jié)構(gòu)化聯(lián)合查詢技術(shù),從而滿足了用戶對企業(yè)搜索引擎的廣泛需求。更為重要的是, TRS 企業(yè)搜索引擎平臺服 務(wù)器提供了多種安全機制的管理,涉及到系統(tǒng)安全和內(nèi)容安全各個方面。為安全的搜索奠定堅實基礎(chǔ)。 Native XML: 能夠為更精確的檢索提供存儲和檢索手段。 集群:滿足海量信息處理和負載均衡的苛刻需求。 Unicode: 以中文為主,提供多語言支持,實現(xiàn)了國際化。 自然語言及智能檢索:實現(xiàn)更加人性化和達到更好的檢索效果。 13 異構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化異構(gòu)信息聯(lián)合查詢。 內(nèi)容智能個性搜索 企業(yè)搜索引擎在提供搜索服務(wù)方面,要滿足高效的同時,更重要的是查全率和查準(zhǔn)率,同時需要提供智能化的概念擴展搜索。還有,在企業(yè)搜索引 擎應(yīng)用中,搜索體驗上的需求和互聯(lián)網(wǎng)搜索也有很大的不同。即搜索的提交和結(jié)果的呈現(xiàn)都具有個性化特性。 TRS 企業(yè)搜索引擎平臺服務(wù)器熔煉了 TRS 公司多年在中文智能處理方面的研究成果,并結(jié)合十多年來的企業(yè)及搜索引擎的應(yīng)用經(jīng)驗。多種中文智能處理技術(shù)的應(yīng)用,如智能分詞,字詞索引結(jié)合、主題詞表概念擴展等技術(shù)的應(yīng)用,使得查全率和查準(zhǔn)率都得到極大的保障。 同時,在 TRS 企業(yè)搜索引擎解決方案中。采用了模塊化的內(nèi)容分發(fā)服務(wù)模塊。讓用戶可以方便地通過頁面設(shè)計模板封裝等方式來實現(xiàn)個性化的搜索提交,結(jié)果個性呈現(xiàn)。并且系統(tǒng)結(jié)合多種信 息分發(fā)機制,將搜索、瀏覽、訂閱等功能有機集成。而對于信息發(fā)現(xiàn)和評估,系統(tǒng)也提供了很好的支持,并可以根據(jù)搜索的統(tǒng)計,來評估信息內(nèi)容的使用情況及信息用戶的搜索習(xí)慣。 內(nèi)容挖掘分析利用 企業(yè)搜索引擎提供搜索服務(wù)僅僅是企業(yè)內(nèi)容利用的開始,以企業(yè)搜索引擎整合的內(nèi)容基礎(chǔ)為起點,企業(yè)需要進行再組織、再分發(fā),特別是應(yīng)用智能的知識挖掘技術(shù)進行內(nèi)容的挖掘和分析,從而高效地獲取新的知識發(fā)現(xiàn)和利用價值。企業(yè)搜索引擎將組織中分散管理的信息整合在一起,再在組織層面實現(xiàn)新的增值,并共享給組織相關(guān)方面,從而有效實現(xiàn)組織內(nèi)容利用的最優(yōu)目標(biāo) 。 TRS CKM 中文知識挖掘基礎(chǔ)件 以信息智能過濾和分析的文本挖掘技術(shù),應(yīng)用統(tǒng)計學(xué)、自然語言處理和人工智能的最新研究成果,實現(xiàn)自動分類、摘要、排重、聚類、敏感詞過濾分析等功能,提供 C+/Java 開發(fā)接口和 SOAP/Web Service 應(yīng)用集成接口。 14 五、 TRS 企業(yè)搜索引擎核心優(yōu)勢 TRS 企業(yè)搜索引擎產(chǎn)品和技術(shù)占有國內(nèi)市場的 80%,一方面因為 TRS 公司 10 多年來專注此領(lǐng)域,更主要的是通過 10 多年的努力, TRS 企業(yè)搜索引擎已經(jīng)具備了其核心競爭能力,可以在眾多大型企業(yè)搜索引擎應(yīng)用項目中和國際巨頭競爭角 逐。 “安全”的搜索引擎 TRS 搜索引擎技術(shù)支持內(nèi)容安全性控制,可以通過域、 IP 段、 URL 等廣域網(wǎng)范圍的控制,實現(xiàn)授權(quán)搜索采集,不亂采集。同時, TRS 對查詢內(nèi)容進行分級控制,特定的人只能搜索和查詢特定的內(nèi)容。 在 TRS 搜索引擎技術(shù)中提供了信息智能過濾和禁用詞典設(shè)置,通過這些技術(shù),保障搜索引擎在提供便捷的搜索服務(wù)的同時,也保證對不良信息搜索的過濾。 另一方面, TRS 搜索引擎技術(shù)在安全模塊設(shè)計上提供了對 PKI/PMI 體系支持的開放接口,可以保障將 TRS 搜索引擎集成在企業(yè)內(nèi)整體的信息安全保障體系之中。 全息搜索 TRS 企業(yè)搜索引擎平臺服務(wù)器支持 Native XML 的存儲和搜索。實現(xiàn)了從全文到元數(shù)據(jù)的多種聯(lián)合搜索,為企業(yè)搜索引擎應(yīng)用提供了全息檢索機制。 更高的搜索準(zhǔn)確性和智能性 TRS 搜索引擎技術(shù)支持按詞索引、按字索引、按關(guān)鍵詞索引,字詞混合索引,適應(yīng)不同應(yīng)用環(huán)境的需求,同時 TRS 搜索引擎內(nèi)嵌中文自動分詞系統(tǒng) -檢索 “北大 ”,檢索不出 “東北大學(xué) ”。 內(nèi)嵌歧義處理實例規(guī)則庫,正確識別歧義片斷,提高分詞準(zhǔn)確性分詞系統(tǒng)要達到一定的準(zhǔn)確率,需要和人一樣不斷積累知識,也就是不斷積累分詞規(guī)則。 TRS 公司從 80 年代末就開始積累 分詞規(guī)則,這些規(guī)則從大量的語料中統(tǒng)計產(chǎn)生,如果語料的數(shù)量不夠則產(chǎn)生的規(guī)則往往帶有片面性, TRS 積累了 2030GB 的文本語料,且這些語料能反應(yīng)現(xiàn)中文語言的特點。如果一個語句切分時有歧義片段,則按適合的規(guī)則切分歧義片段,提高了查準(zhǔn)率。 15 在查詢方面, TRS 提供了基于詞典的智能擴展查詢,可以按同義詞、行業(yè)主題詞等詞典進行智能擴展查詢,例如,在查詢“銳器”時,系統(tǒng)將自動將包括“匕首”、“刀”等內(nèi)容提供給信息搜索人員。 在查詢中,對自動聚類技術(shù)進行充分利用,可以實現(xiàn)各類信息自動相關(guān)等功能,為內(nèi)容比對分析提供了有利工具 。 個性化的搜索體驗 TRS 搜索引擎內(nèi)容分發(fā)服務(wù)模塊充分考慮了信息搜索過程中工作繁忙、對信息的時效性要求高等工作特點。提供了任務(wù)定制查詢、專欄預(yù)設(shè)查詢、個性化排序等功能。例如:使用者可以定制查詢?nèi)蝿?wù),比如“專項斗爭”、“專題文件”等單項任務(wù),又如可以定制查詢更新時間,查詢系統(tǒng)將根據(jù)定制的任務(wù),定期進行相關(guān)信息查詢,定期將查詢結(jié)果推送到用戶的工作界面,方便信息需求者。 另外,系統(tǒng)還提供了個人檢索歷史記錄、個性化界面設(shè)置等等功能,不同的使用者可以選擇適合自己的工作查詢界面,提升系統(tǒng)的易用性和靈活性。 實時資 源整合搜索 TRS 搜索引擎技術(shù)能將各種 RDBMS、文件系統(tǒng)、網(wǎng)頁信息等實時發(fā)現(xiàn),創(chuàng)建索引,為搜索服務(wù)提供基本的保障。 標(biāo)準(zhǔn)、開放的系統(tǒng) 標(biāo)準(zhǔn)、開放是一個應(yīng)用系統(tǒng)得以發(fā)展和壯大的基礎(chǔ),通過標(biāo)準(zhǔn)開放的模式,可以保證用戶更多地采用先進的技術(shù)搭建個性化的應(yīng)用。 隨著技術(shù)的發(fā)展,各個軟件供應(yīng)商越來越在某一領(lǐng)域具有專利或優(yōu)勢技術(shù),但是用戶的需求是全方位的,因此,最好的解決方案就是采用統(tǒng)一規(guī)范標(biāo)準(zhǔn)的接口進行應(yīng)用集成,這也是國際化軟件發(fā)展趨勢。 16 TRS 公司設(shè)計的搜索引擎解決方案在很多方面為應(yīng)用集成提供了保證,如支持系統(tǒng)三層體系結(jié)構(gòu),支持 J2EE 標(biāo)準(zhǔn)中間件,支持 XML 數(shù)據(jù)交換規(guī)范,提供底層數(shù)據(jù)庫的各種平臺的完善的開發(fā)接口,提供模塊組件,支持二次開發(fā),開放底層數(shù)據(jù)存儲格式等。 強壯可靠的系統(tǒng)、低成本按需擴展 TRS 搜索引擎平臺服務(wù)器采用了 TRS 集群服務(wù)器技術(shù),實現(xiàn)了 TRS 全文檢索數(shù)據(jù)庫的集群和負載均衡應(yīng)用,在采集方面利用分布式采集和任務(wù)集中控制模式可以進行大規(guī)模采集,在未來可以通過增加硬件的方式,就能提高系統(tǒng)的處理能力。 另外,隨著未來負載和訪問量的增加,可以分步建立鏡像中心,滿足大規(guī)模應(yīng)用需要。 基于內(nèi)容的自動分類和聚類 技術(shù) TRS 搜索引擎中嵌入式的內(nèi)容分類技術(shù)和聚類技術(shù),不但可以先按內(nèi)容、地區(qū)、來源等多種方式快速標(biāo)引各類信息,而且可以基于內(nèi)容對信息進行自動、準(zhǔn)確的分類,這兩種分類方法有機結(jié)合為 TRS 搜索引擎提供全面的、準(zhǔn)確的、快速的、智能的分類服務(wù)。 優(yōu)異的全文檢索性能 TRS 全文檢索系統(tǒng)在行業(yè)里具有領(lǐng)先的性能,是中文全文檢索的事實上的標(biāo)準(zhǔn),眾多的全文檢索廠商都以 TRS 的性能指標(biāo)作為自己軟件評測的標(biāo)準(zhǔn)和系統(tǒng)發(fā)展方向。 目前國內(nèi)唯一的商用千萬級數(shù)據(jù)庫 新華社多媒體數(shù)據(jù)庫就是采用 TRS 作為底層檢索平臺,目前,該系統(tǒng)已有 將近 8T 數(shù)據(jù)量,檢索(包括簡單檢索和復(fù)雜檢索)的平均響應(yīng)時間是秒級。并且, TRS 的檢索性能隨著數(shù)據(jù)的增加不會呈線性下降,可以在一個非常廣的數(shù)據(jù)規(guī)模范圍內(nèi)保證用戶的實際應(yīng)用。 17 六、 TRS 企業(yè)搜索引擎應(yīng)用實例 政府政府某部搜索引擎系統(tǒng) 政府某部搜索引擎系統(tǒng)是垂直信息搜索的典型,該系統(tǒng)依托于中國某部信息網(wǎng),是電子政務(wù)“金”字工程的有機組成部分。 中國某部信息網(wǎng)是某部機關(guān)內(nèi)部管理使用的專網(wǎng),是全國各級該部機關(guān)內(nèi)部傳播和交流業(yè)務(wù)信息、隊伍建設(shè)信息、辦公信息的重要渠道。某部信息網(wǎng)上具有豐富的信息資源,網(wǎng)上已建立 了數(shù)千個網(wǎng)站,網(wǎng)站上發(fā)布的各類網(wǎng)頁文件已達數(shù)百萬個;已建成的全國該業(yè)務(wù)應(yīng)用系統(tǒng)、數(shù)據(jù)庫都已連入網(wǎng)內(nèi),各地該機關(guān)的應(yīng)用系統(tǒng)、數(shù)據(jù)庫正在逐步連入網(wǎng)內(nèi);網(wǎng)上信息涵蓋了該機關(guān)各事務(wù)的基本情況和動態(tài)。并且隨著發(fā)展,該信息網(wǎng)的網(wǎng)站數(shù)量、網(wǎng)頁數(shù)量和瀏覽網(wǎng)上信息數(shù)量都呈現(xiàn)著迅速上升的發(fā)展趨勢。 在某部信息網(wǎng)中發(fā)布的數(shù)據(jù)具有資源比較分散的特性,在搜索引擎建設(shè)前,工作人員查找信息時需要訪問大量、不同的區(qū)域性站點,甚至有時要訪問到站點很深的層次中尋找信息,另外,很多信息又會被相關(guān)職能部門的網(wǎng)站刊登,造成大量重復(fù)信息。 基于這樣一 個背景,并且為了充分發(fā)揮某信息網(wǎng)網(wǎng)上信息的作用,通過 TRS 企業(yè)搜索引擎建設(shè)的某搜索引擎系統(tǒng)有效提高了信息資源整合組織和利用的效率。該系統(tǒng)針對網(wǎng)頁信息和應(yīng)用定位提供相關(guān)的搜索引擎解決方案,對網(wǎng)頁信息資源共享提供支持與服務(wù),同時,為該部和各地該部部門在該網(wǎng)上查找相關(guān)應(yīng)用系統(tǒng)的定位信息提供服務(wù) 某部搜索引擎系統(tǒng)包括了系統(tǒng)數(shù)據(jù)庫支持平臺,采集、處理、存儲系統(tǒng),信息智能分析和系統(tǒng)管理等多方面應(yīng)用。 18 深圳信息資源決策服務(wù)系統(tǒng) 深圳信息資源決策服務(wù)系統(tǒng)是 TRS公司和深圳市政府于 2004年合作建設(shè)的重點企業(yè)級搜索引 擎服務(wù)系統(tǒng),是深圳市機關(guān)電子政務(wù)的重要組成部分。決策信息網(wǎng) 主要為市級領(lǐng)導(dǎo)提供信息服務(wù),包括了政務(wù)信息、領(lǐng)導(dǎo)個人信息、視頻信息、統(tǒng)計信息、文件法規(guī)等豐富的內(nèi)容資源。 決策信息網(wǎng)采用“統(tǒng)一平臺、分級授權(quán)”的方式進行用戶管理,將權(quán)限下放給各個部門,通過這種方式實現(xiàn)對普通工作人員、市管領(lǐng)導(dǎo)、市常委委員不同角色的授權(quán),各部門按統(tǒng)一要求更新各自網(wǎng)站信息。 通過決策信息網(wǎng),建立連接決策網(wǎng)數(shù)據(jù)中心和市局單位的網(wǎng)絡(luò)傳輸平臺,建立包括圖文信息和視頻信息的數(shù)據(jù)中心,建立統(tǒng)一安全的管理平臺。 深圳 信息資源決策服務(wù)系統(tǒng) 是深圳市 機關(guān)電子政務(wù)系統(tǒng)的重要組成部分。它利用先進的信息網(wǎng)絡(luò)技術(shù),整合政務(wù)網(wǎng)和因特網(wǎng)各種信息資源,為市領(lǐng)導(dǎo)決策提供全面、準(zhǔn)確、最新的一站式信息服務(wù)。 19 媒體新華社多媒體數(shù)據(jù)庫搜索引擎服務(wù) 新華通訊社作為國家通訊社,信息管理應(yīng)用服務(wù)系統(tǒng)擔(dān)負著采集、發(fā)布、管理各類文字及圖片信息的重大任務(wù)。其采集的信息涉及政治、外交、經(jīng)濟、文教、科技、法律等各個領(lǐng)域并具有信息量大、權(quán)威、準(zhǔn)確、及時、豐富等特點。不僅為國內(nèi)外的新聞機構(gòu)和企事業(yè)單位提供大量的新聞素材,同時也承擔(dān)國家重大活動的新聞報道工作。 新華社多媒體數(shù)據(jù)庫始建于 1999 年,采用 TRS 全文檢索的核心技術(shù), 2002 年, TRS公司與新華社技術(shù)局再次合作實施了新華社多媒體數(shù)據(jù)庫英文檢索引擎的提速改造,提速后的系統(tǒng)對于多媒體數(shù)據(jù)庫的全文檢索能夠達到 35 秒左右響應(yīng)。目前,多媒體數(shù)據(jù)庫中已經(jīng)存儲了數(shù)千萬條多媒體信息,數(shù)據(jù)容量接近 8T,內(nèi)容涵蓋中、英、法、西、阿、俄等 9 大主流語種,以文字信息為主,包含圖片、圖表和音視頻信息。 新華社多媒體數(shù)據(jù)庫底層采用 TRS 和 Oracle 協(xié)同工作的解決方式,由 TRS 完成千萬級數(shù)據(jù)的索引檢索服務(wù),由 Oracle 完成 信息制作流程,檢索方式分為本 地聯(lián)機檢索和遠程網(wǎng)絡(luò)檢索兩種方式,可進行精確檢索、模糊檢索、全文檢索、對各檢索入口項實行任意聯(lián)合組配檢索;可實現(xiàn)多級檢索,逐級細化檢索條件,直至命中滿意的檢索結(jié)果;能夠?qū)z索結(jié)果排序。提供中英文全文檢索功能,中文按詞進行全文檢索,具有智能詞庫機制。對圖片可按分類號、作者、拍攝時間、拍攝地點、照片文字說明等項檢索,其中文字說明項可實現(xiàn)中文 20 按詞全文檢索。支持邏輯庫功能、跨庫檢索,支持文字資料和圖片資料的系統(tǒng)鏈接。 新華社多媒體數(shù)據(jù)庫作為新華社核心存儲的地位也在不斷加強,從以前分散的存儲逐步向統(tǒng)一存儲、統(tǒng)一管理、 統(tǒng)一服務(wù)方向發(fā)展。在這個過程中,新建設(shè)的其他應(yīng)用系統(tǒng)中,TRS 也積極的參與了廣泛的應(yīng)用研究,并在很多系統(tǒng)中直接集成了 TRS 全文檢索的核心功能,以保證數(shù)據(jù)的檢索性能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年特殊人群食品行業(yè)健康趨勢與產(chǎn)品創(chuàng)新報告
- 《CBT 4459-2016船用七氟丙烷滅火裝置》專題研究報告:深度解讀與未來應(yīng)用前瞻
- 2025年銅箔表面清潔技術(shù)五年升級報告
- 2026年醫(yī)藥制造行業(yè)趨勢報告及仿制藥技術(shù)革新分析報告
- 2025年生物農(nóng)藥十年市場競爭格局報告
- 2025年智能港口自動化裝卸五年發(fā)展報告
- 2025年環(huán)保行業(yè)碳捕捉技術(shù)創(chuàng)新報告
- 2025年藝術(shù)行業(yè)數(shù)字藝術(shù)創(chuàng)新報告
- 康復(fù)護理技術(shù)理論基礎(chǔ)
- 2025年制藥行業(yè)生物制藥技術(shù)創(chuàng)新報告
- 桂林學(xué)院《新時代中國特色社會主義與實踐》2024-2025學(xué)年第一學(xué)期期末試卷
- 企業(yè)無違規(guī)經(jīng)營聲明范本模版
- 2025年醫(yī)療器械直調(diào)申請表
- 道橋模擬考試題與答案
- 畢業(yè)設(shè)計(論文)-基于PLC的醫(yī)院病房呼叫系統(tǒng)設(shè)計
- 外出黨員屬地管理制度
- 物理●海南卷丨2021年海南省普通高中學(xué)業(yè)水平選擇性考試高考物理真題試卷及答案
- 建筑工程質(zhì)量通病防治手冊(含圖)
- 張力放線施工方案
- 軟件系統(tǒng)試運行報告模板
- 《腎臟病學(xué)概論》課件
評論
0/150
提交評論