版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、移動搜索關鍵技術The Key Technology Of Mobile Search(華中科技大學電子與信息工程系,武漢430074)摘要:移動搜索是搜索引擎技術向無線網(wǎng)絡的拓展,利用先進的移動通信技術在移動終端上實現(xiàn)搜索引擎 系統(tǒng)。隨著移動終端的普及以及3G時代的來臨,移動搜索技術逐漸步入人們的視野,并成為人類獲取信 息的重要工具之一,極大的方便了人們的日常學習生活。本文簡單介紹了現(xiàn)有的一些移動搜索業(yè)務以及移 動搜索的幾種關鍵技術,希望能夠幫助讀者更為簡單直接地了解移動搜索。關鍵詞:移動搜索;垂直搜索;綜合搜索Abstract: Mobile search is an expansion
2、of search engine technology in wireless networks. It uses advanced mobile communication technology to implement the search engine system on the mobile terminals. With the popularity of the mobile terminals and the coming of 3G era ,mobile search technology has gradually stepped into humans vision .
3、The new technology is becoming one of the most important tools for people to access the information . Of course ,it makes people5 s daily life more convenient. This article has briefly described some of the existing mobile search service, as well as several key technology of mobile search. However,
4、I hope it can help the readers to understand mobile search more simply and directly.Key words: mobile search ; vertical search ; comprehensive search移動搜索概述隨著科技的高速發(fā)展,信息的迅速膨脹,手機已經(jīng)成為了信息傳遞的主要設備之一。尤 其是近年來手機技術的不斷完善和功能的增加,利用手機上網(wǎng)也以成為一種獲取信息資源的 主流方式。在這一背景下,移動搜索的概念應運而生,國內(nèi)外不少互聯(lián)網(wǎng)公司均看好移動搜 索這一領域。雅虎,Google,百度等傳統(tǒng)搜索引
5、擎也都相繼推出了基于短信和WAP的移動 搜索服務。毫無疑問,移動搜索將成為未來人們獲取信息的主要工具之一。移動搜索的基本定義移動搜索基本定義:移動搜索是指用戶在移動通信網(wǎng)絡中,通過移動終端,利用SMS, WAP, IVR等多種特定的搜索方式獲取所需信息的搜索行為。而移動搜素的核心是將搜索 引擎與移動設備有機結合,生成符合產(chǎn)品和用戶特點的搜索結果。移動搜索的分類1)依據(jù)搜索引擎的分類:基于瀏覽器的移動搜索:現(xiàn)代手機里面都內(nèi)置了類似網(wǎng)頁瀏覽器的微瀏覽器(如UC瀏 覽器等), 手機用戶可以通過微瀏覽器來連接互聯(lián)網(wǎng)?;诙绦诺囊苿铀阉鳎阂苿铀阉饕嫱ㄟ^短信接收用戶的查詢請求,然后將查詢結果通 過短信的
6、形式返回給用戶。這種方式可以被所有手機用戶所接受,但是,短信的信息表現(xiàn)能 力很差,提供的信息也非常有限。短信與微瀏覽器相結合的移動搜索:用戶可以使用移動搜索服務商的客戶端提交查詢請 求,客戶端會根據(jù)用戶的檢索行為去選擇以微瀏覽器或者短信方式返回查詢結果。2)依據(jù)搜索內(nèi)容的分類綜合搜索:類似于互聯(lián)網(wǎng)搜索,用戶通過編輯短信或鍵入關鍵詞進入WAP或直接接入 WEB網(wǎng)絡,對WAP或WEB網(wǎng)絡上的內(nèi)容進行搜索,搜索引擎根據(jù)一定的規(guī)則將內(nèi)容結果 與鏈接結果反饋給用戶終端。這種搜索模式可以看作是互聯(lián)網(wǎng)搜索直接延伸到手機平臺上的 移動搜索模式。垂直搜索:指用戶通過多種接入方式(短信,彩信,WAP,IVR等)提
7、出搜索特定類 型的內(nèi)容或服務的搜索請求,例如一些音樂,圖片或本地信息等。這樣的搜索模式可以使用 戶進行個性化的搜索定制,更加快速的得到自己需要的信息,此模式的搜索引擎可以更好的 理解用戶的搜索請求,提高搜索的的針對性和準確性?,F(xiàn)有移動搜索業(yè)務1)AQA應答搜索:AQA全稱Any Question Answered,該服務可以為用戶提供各種問題的 答案,將計算機的自動化搜索和人工搜索很好地整合起來,從而為用戶服務。該服務由 英國手機運營服務商Orange等推出,每回答一個問題,用戶需支付1.76英鎊的費用。2)比價搜索:用戶通過向服務提供商發(fā)送商品名,就回收到該商品各零售商的不同報價。3)位置搜
8、索:這項服務提供用戶想知道的位置信息,既可以是了解自己周圍的地圖又可以 是搜索他人的地理位置。4)“空中搜”:該業(yè)務具有搜索引擎與傳統(tǒng)黃頁兩種功能,是手機搜索引擎的商務版,能 在手機上搜索到全國大部分省市的企業(yè)、事業(yè)、政府機關、公共設施的相關信息。5)企業(yè)信息搜索,圖片搜索,音樂搜索,新聞搜索,游戲搜索等等移動搜索關鍵技術分析移動搜索引擎的基本原理與工作流程1) 綜合搜索綜合搜索實際上是互聯(lián)網(wǎng)搜索引擎在移動終端上的簡單延伸,其結構與通用搜索引擎是 一樣的,只是用戶訪問時將Web頁面轉(zhuǎn)換為WAP頁面。(a)手機進行互聯(lián)網(wǎng)搜索的結構示意圖用戶A網(wǎng)頁轉(zhuǎn)換A 用戶A網(wǎng)頁轉(zhuǎn)換A ?卜網(wǎng)頁數(shù)據(jù)庫在索引數(shù)據(jù)
9、庫(b) WAP搜索結構示意圖2)垂直搜索(c(c)垂直搜索結構示意圖垂直搜索是針對某一行業(yè)的專業(yè)搜索引擎,是對網(wǎng)頁庫中的某類專門的信息進行一次 整合,定向分字段抽取需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶。垂直搜索的關鍵在 于對網(wǎng)頁信息進行結構化信息抽取,即以結構化數(shù)據(jù)為最小單位,將這些數(shù)據(jù)存儲到數(shù)據(jù)庫, 進行進一步的加工處理:去重,分類,分詞,索引,最后以搜索的方式滿足用戶的需求。結構化信息抽取技術結構化信息抽取技術主要應用于垂直搜索,將網(wǎng)頁中的非結構化的數(shù)據(jù)按照一定的需求 抽取成結構化的數(shù)據(jù)。結構化信息提取技術主要有兩種方式可以實現(xiàn),模板方式和網(wǎng)頁庫結 構化信息抽取。模板方式:該方式是
10、對特定的網(wǎng)頁進行模板配置,抽取模板內(nèi)設置好的需要的信息,可 以針對有限個網(wǎng)站進行精確的信息采集。該方式簡單,精確,技術難度低且方便部署。但是, 該方式需要針對每一個信息源的網(wǎng)站模板進行單獨的設定,在信息源多樣性的情況下,維護 量巨大。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應用,很難滿足用戶 對查全率的需求。網(wǎng)頁庫結構化抽取:該方式是采取頁面結構分析與智能節(jié)點分析轉(zhuǎn)換的方法,自動抽取 結構化的數(shù)據(jù)。對任意的正常網(wǎng)頁進行抽取,完全自動化,不用對具體網(wǎng)站事先生成模板, 對每個網(wǎng)頁自動實時得生成抽取規(guī)則,完全不需要人工干預。智能抽取準確率高,不是機械 的匹配,采用智能分析技術,準確率能
11、達到98%以上。能保證較快處理速度,由于采用頁 面的智能分析技術,先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好, 易于維護,只需設定參數(shù)、配置相應的特征就能改進相應的抽取性能;一般的非專業(yè)人員經(jīng) 過簡單培訓就能維護。缺點是技術難度高,前期研發(fā)成本高,周期長。比較適合網(wǎng)頁庫級別 的結構化數(shù)據(jù)采集和搜索的高端應用。2.3.信息過濾技術信息過濾技術是根據(jù)用戶的興趣或偏好自動地收集和用戶相關的信息并推薦給用戶的 過程。信息過濾即所謂的信息選擇性傳播,該技術關注的是用戶的長期需求。信息過濾技術 期望為用戶處理大量的信息,對動態(tài)的信息流進行篩選,著重于排除用戶不希望得到的信息, 基于用戶
12、模板從輸入的信息流中濾掉數(shù)據(jù)。在信息過濾中,用戶的需求表示成用戶模板,一 個模板是一個數(shù)據(jù)結構,通常包括一組用于描述用戶興趣的主題。對進入系統(tǒng)的信息依據(jù)模 板進行評價,同時將評價結果返回給用戶,用戶在瀏覽結果時提供反饋信息并及時更新模板。 1)信息過濾系統(tǒng)的基本組成:信息分析器,用戶模板,過濾過程和學習過程。信息分析器:負責從信息源獲得信息,對信息進行分析并用適當?shù)母袷矫枋?,然后作為輸?信息傳遞給過濾處理模塊,并對該信息進行過濾,只將相關信息傳遞給用戶。用戶模板:用戶模板負責從用戶那收集與其感興趣的信息有關的顯性以及隱形的各種信息, 并將這些信息作為過濾處理模塊的輸入信息。過濾過程:過濾處理
13、模塊利用描述信息與用戶模板匹配,決定將要傳送給用戶的相關項。 學習過程:用戶會評價剩余信息的相關性,該評價會被反饋到學習部分,學習部分會根據(jù)這 些反饋信息更新用戶模板。(d)信息過濾系統(tǒng)基本構成2)信息過濾模型:信息過濾中的一個關鍵步驟是信息與用戶模板的匹配,用戶模板與信息 匹配常用的模型有布爾模型,向量空間模型,潛在語義索引模型,概率模型,神經(jīng)網(wǎng)絡模型。每種模型首先要解決用戶模板與信息的表示問題,然后在某種表示的基礎上才能進行用 戶模板和信息的相似性的比較,然后再根據(jù)相似性的大小選出和用戶模板匹配的信息傳遞給 用戶。信息有多種格式,為了方便計算機處理,布爾模型和向量空間用索引項描述信息的內(nèi)
14、容。一個索引項可以是一個單詞或是一個短語,不同形式的一條信息統(tǒng)稱為一個信息項,這 樣,一個信息項可以表示為多個索引項的集合。對一個信息項建立索引的過程叫做標引或索 引。用戶興趣智能代理在互聯(lián)網(wǎng)上實現(xiàn)用戶偏好的記憶和儲存主要有兩種辦法,一種是將用戶興趣信息存儲 搜索引擎的服務器上,另一種是將用戶的興趣信息存儲在用戶的個人機器上。在移動互聯(lián)網(wǎng) 中,一般一個手機只被一個用戶使用,所以可以將用戶信息保存在本機,既不會泄露隱私也 不會發(fā)生一機多戶導致興趣記錄紊亂的情況。用戶興趣代理就是信息過濾系統(tǒng)基于搜索引擎 的實現(xiàn)載體。用戶興趣代理的主要作用:1)負責用戶模板的建立和更新,每次用戶登錄時,如果用戶模板
15、不存在,那么用戶模板生 成算法會自動生成一個新的用戶模板。2)與用戶的交互,用戶興趣代理接收用戶的反饋,利用更新算法對用戶模板更新。3)對搜索結果進行過濾Web頁面向WAP頁面的轉(zhuǎn)換技術移動用戶通進入WAP頁面來訪問Web頁面,由于現(xiàn)在Web頁面和主要是由HTML標 記語言,內(nèi)容十分豐富,而WAP頁面僅限于手機顯示,支持的元素遠不如HTML文檔豐富。 直接的標記語言轉(zhuǎn)換會出現(xiàn)某些HTML中的標簽在WAP中沒有相對應的標簽的問題,所以 需要先對Web頁面進行一些預處理,然后進行標記語言轉(zhuǎn)換。1)網(wǎng)頁元素的解析及處理:給定一篇HTML網(wǎng)頁,順序整理出容器標簽就可以得到對應的標簽樹框架。而后,整理
16、每個內(nèi)容塊(對應標簽樹上的一個節(jié)點)中的超鏈標簽、圖片標簽、重要信息標簽,并在標 簽樹中對應的節(jié)點記錄下來,這樣既有構造出了一顆基本的標簽樹。對上述標簽樹信息做適 當?shù)姆治?、整理就可以得到?nèi)容分析過程中需要的一些描述信息。在得到網(wǎng)頁的標簽樹后,就可以對取舍哪些標簽和內(nèi)容作出具體分析了,根據(jù)WAP標 簽元素與Web標簽元素的對等關系,將沒有對等關系的標簽刪除。在進行以上處理后,應 該對頁面的布局重新調(diào)整。2)標記語言轉(zhuǎn)換技術一般來說會按照HTML,XHTML,WML的順序?qū)擞浾Z言進行轉(zhuǎn)換,主要是考慮了如下 幾個原因:XHTML與WML同為需要轉(zhuǎn)換出的語言,將XHTML作為轉(zhuǎn)換的中間步驟,不 僅
17、可以方便XML的轉(zhuǎn)換,還可以作為轉(zhuǎn)換結果直接輸出。XHTML與WML都符合XML 的語言規(guī)范,嚴格的語法帶來了轉(zhuǎn)換的便利性。需要轉(zhuǎn)換的頁面是經(jīng)過信息過濾以后的,僅 僅剩下文字和鏈接的頁面,這就不需要在轉(zhuǎn)換時對頁面元素做過多的處理了。元搜索引擎元搜索引擎即為將用戶的查詢請求同時發(fā)給多個獨立的搜索引擎,然后通過對這些搜 索引擎的返回結果進行匯集、篩選、刪并等優(yōu)化處理后,以統(tǒng)一的格式在界面中集中顯示。 搜索引擎是為彌補傳統(tǒng)搜索引擎的不足而出現(xiàn)的一種輔助檢索工具,有著傳統(tǒng)搜索引擎所不 具備的許多優(yōu)勢。但是,元搜索引擎依賴于數(shù)據(jù)庫選擇技術、文本選擇技術、查詢分派技術 和結果綜合技術等。用戶界面的改進、調(diào)
18、用策略的完善、返回信息的整合以及最終檢索結果 的排序,仍然是未來元搜索引擎研究的重點。(e)元搜索引擎結構圖移動搜索的發(fā)展前景移動搜索是搜索技術發(fā)展的必然結果,通過手持設備或移動終端平臺,將搜索無線化、 移動化,將為長期依賴于互聯(lián)網(wǎng)的搜索引擎服務的手機用戶,提供兼具WAP、Web等多樣 性的搜索產(chǎn)品?;ヂ?lián)網(wǎng)搜索帶來的是海量的信息,而移動搜索的主旨確實盡量帶給用戶準確 的信息。綜合搜索在移動搜索所提供的服務中,其適合用戶體驗的需求是相對較弱的,因為 綜合搜索難以滿足用戶對信息簡潔、及時、準確的要求特點,綜合搜索的需求將遠不如垂直 搜索。目前,影響移動搜索的積極因素主要有:廣闊的市場前景,幾乎所有的手機移動用戶都 可以看做是移動搜索業(yè)務的潛在客戶。移動搜索打破了電腦的線纜約束,讓用戶能通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 證券行業(yè)2025年三季報綜述:業(yè)績同環(huán)比高增景氣持續(xù)回升
- 2025年根河市人民政府面向社會公開招聘(補招)鄉(xiāng)鎮(zhèn)及政府專職消防隊員26人備考題庫及1套完整答案詳解
- 2025年德州市武城縣人民醫(yī)院合同制醫(yī)師長期招聘12人備考題庫及1套完整答案詳解
- 四川省公安廳所屬事業(yè)單位招聘考試真題2024
- 2025新疆北屯額河明珠國有資本投資有限公司招聘2人參考考試試題及答案解析
- matlab課程設計與應用答案
- 2026年江西銅業(yè)技術研究院有限公司北京分院院長招聘1人考試重點試題及答案解析
- 宜賓市南溪區(qū)事業(yè)單位2025年公開考核招聘高層次和急需緊缺專業(yè)人才考試重點題庫及答案解析
- 2025年直播電商供應鏈全球化趨勢報告
- 中化地質(zhì)礦山總局地質(zhì)研究院2026年高校應屆畢業(yè)生招聘備考題庫及1套完整答案詳解
- 店長崗位職責與日常管理手冊
- 全球重點區(qū)域算力競爭態(tài)勢分析報告(2025年)-
- 2025北京熱力熱源分公司招聘10人參考筆試題庫及答案解析
- 2025年湖南省法院系統(tǒng)招聘74名聘用制書記員筆試參考題庫附答案
- 2025廣西機電職業(yè)技術學院招聘教職人員控制數(shù)人員79人備考題庫及答案解析(奪冠)
- 2026屆高考政治一輪復習:必修2 經(jīng)濟與社會 必背主干知識點清單
- 大學生校園創(chuàng)新創(chuàng)業(yè)計劃書
- 護士職業(yè)壓力管理與情緒調(diào)節(jié)策略
- 貴州國企招聘:2025貴州涼都能源有限責任公司招聘10人備考題庫及答案詳解(必刷)
- 招標人主體責任履行指引
- 2025-2026學年北師大版五年級數(shù)學上冊(全冊)知識點梳理歸納
評論
0/150
提交評論