下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
搜索引擎的終極使命關鍵詞云端之旅
當你向互聯(lián)網(wǎng)上傳一個頁面,來自世界各地的無數(shù)“蜘蛛”便會蜂擁而至。它們抓取并復制你的網(wǎng)頁,跟蹤著網(wǎng)頁中的鏈接,悄悄地爬上更多的頁面,用觸角將它們納入索引數(shù)據(jù)庫。數(shù)據(jù)庫像轟鳴的機器,拆解網(wǎng)頁上的文字內(nèi)容、標記關鍵詞的位置、字體和顏色,并生成龐大的表格。這時,你輸入一個單詞,點擊Google或百度上的“搜索”按鈕,它會在0.2秒內(nèi)得到響應,帶著單詞奔向索引數(shù)據(jù)庫的每個神經(jīng)末梢,檢索到所有包含搜索詞的網(wǎng)頁,依據(jù)它們的瀏覽次數(shù)與關聯(lián)性等一系列算法確定網(wǎng)頁級別、排列出順序,最終按你期望的格式呈現(xiàn)在網(wǎng)頁上。這就是一個“關鍵詞”的云端之旅。在過去的10多年里,類似的旅程總共進行過數(shù)十萬億次。它催生了搜索引擎的先驅(qū)Overture,成就了本世紀最早期的創(chuàng)新明星Google,還有Yandex、Navar和百度等來自全球各地的Google效仿者。它讓搜索引擎成為人們最依賴的互聯(lián)網(wǎng)工具,以及推動人類信息自由流動的傳福音者……但現(xiàn)在,這一切可能都不再重要了。設想一下,當你同時打開RSS訂閱工具、Twitter(新浪微博)和Facebook(開心網(wǎng))坐在電腦前的時候,你更傾向于用哪種方式獲得信息?那些通過社交工具推送到你面前的內(nèi)容,是不是通常比你主動搜索的信息更有價值?你搜索“美洲豹最便宜的價格,”得到的結(jié)果是車還是棒球桿?如果你對騰訊與360的戰(zhàn)爭完全沒興趣的話,在你搜索“周鴻祎”的時候,真的一定希望“馬化騰”跳出來嗎?這就是當下的搜索引擎在幾何級網(wǎng)頁數(shù)量爆炸時面臨的困境:即便搜索引擎優(yōu)化(SEO)工具越來越普遍地被網(wǎng)頁設計者們純熟地應用,但它仍然不能確保人們在第一時間搜索到他們需要的信息——甚至,成功幾率越來越低?!澳壳吧先f億的網(wǎng)頁,其中大約有250億的頁面可被檢索,有可能出現(xiàn)在用戶搜索結(jié)果里的頁面,最多占5%,未來幾年這個數(shù)字甚至會降低到1%以下,”微軟亞洲研究院常務副院長馬維英說。當下的搜索引擎技術就像圖書館檢索那樣為所有的書建立檢索碼,但最后有可能帶給用戶的價值越來越少——它被持續(xù)膨脹的網(wǎng)頁數(shù)量稀釋了。那么,未來人們需要什么樣的搜索引擎?Google試圖提供最新的解決方案是:超快速的自動搜索。Google首席執(zhí)行官施密特在最近的一次演講中提醒人們永遠不要低估速度對搜索的重要性。他還認為,搜索最終將不僅僅是搜索網(wǎng)頁,而是個人的幾乎所有信息——包括電子郵件、音樂和你關注的話題。在得到你的允許后,它將成為你專屬你個人的搜索。這似乎解決了搜索引擎的個性化需求和匹配問題,但Google未曾真正提及的是:與任何一類以“你”為中心的媒介相同,“你搜索”需要建立在社交網(wǎng)絡化的基礎之上——例如你搜索到的內(nèi)容被你的朋友推薦,它會在搜索結(jié)果中得到提升,從而進入你個人搜索的優(yōu)先級。在這個過程中,朋友的“頂”就進入了搜索引擎,成為整個搜索的一部分。但奉邏輯學與數(shù)學為宗教的Google卻并不擅長社交網(wǎng)絡領域——它甚至站在全球最大社交網(wǎng)站Facebook的對立面。讓搜索“社交化”意味著賦予搜索引擎社會學和心理學的屬性,而這會改變Google的基本邏輯。事實上,搜索引擎領域邏輯更替的核心是:搜索引擎將越來越通曉人類的語言和意圖,為用戶抓取他們最想知道的網(wǎng)頁內(nèi)容,甚至能識別語音、圖像及表情等非文本材料——不但返回更精確的文本結(jié)果,還包括大量的多媒體內(nèi)容。越來越多中小型公司試圖沿著這條道路證明Google代表的當下“客觀主義”搜索技術的簡陋:當你在一家名為Powerset的搜索引擎網(wǎng)站搜索“誰曾打敗過安德烈·阿加西(AndreAgassi,美國著名職業(yè)網(wǎng)球運動員)”的時候,呈現(xiàn)在第一位的搜索結(jié)果是另一位網(wǎng)球運動員皮特·桑普拉斯(PeteSampras)的頁面。而在Google上,最前面的結(jié)果仍然是阿加西的個人信息。如果在另一家搜索引擎Cognition的頁面上輸入相關的法律和訴訟問題,也能得到相關條款的精確回應。這就是人們通常所謂的“語義搜索”,但割據(jù)的小型語義搜索網(wǎng)站采集的信息量有限,并不足以在全面抗衡Google這樣的巨頭。但它們被召集在一面旗幟下,意義就完全不同了。這個“召集者”不是別人,正是在互聯(lián)網(wǎng)時代落寞許久的巨頭微軟。在收購雅虎的交易失敗后,微軟對互聯(lián)網(wǎng)和搜索引擎的布局走向了一條隱蔽但頗具技巧的道路。2008年7月,微軟宣布收購上文中提到的語義搜索引擎Powerset。緊接著又推出了購物比較引擎LiveCashback、旅游搜索引擎Farecast以及健康搜索引擎等基于語義的搜索分支。2009年6月微軟發(fā)布全新搜索品牌Bing之后,它們又被整合進入Bing的框架體系。但它們尚未構(gòu)成一個完整的搜索產(chǎn)品。這是因為語義搜索技術的處理能力和速度仍是主要缺點,有時甚至需要長達20秒才能分析完一個頁面。但微軟的不同在于,它有能力投資更大型的服務器集群,這使語義搜索成為微軟在搜索引擎領域樹立的壁——當然,你也可以把它看作微軟搜索引擎計劃的PlanB。不容忽視的是,支持微軟在語義搜索領域有望搶先獲得一席之地的,是它背后的基礎研究力量。在基礎的計算科學領域,語義搜索并非一個嶄新的話題。至少在微軟內(nèi)部,圍繞它的研究至少已經(jīng)有10多年的歷史。而現(xiàn)在,是它們集中爆發(fā)并轉(zhuǎn)化為現(xiàn)實產(chǎn)品的時候了?!氨M管人們不該讓科學家預測一項研究計劃轉(zhuǎn)化為現(xiàn)實產(chǎn)品的周期有多長,但是我們在搜索引擎領域的多年基礎研究,正好到了收獲果實的時候,因為人們對搜索的需求正在發(fā)生變化,這就是你現(xiàn)在看到的一切?!蔽④浫蚋呒壐笨偛美锟恕だ姿固?RickRashid)對《環(huán)球企業(yè)家》說?!靖兄阉鳌恐辽僭谀壳?,微軟相信它能在語義搜索上扳回一局的原因,是因為搜索引擎技術的門檻并非輕易地能被任何玩家企及。在雷斯特看來,搜索引擎的技術至少在四個方面設置了門檻,并把大量試圖覬覦這一領域的玩家過濾在了最終的游戲之外:其一是服務器抓取數(shù)據(jù)的能力,它將不僅僅來自普通網(wǎng)頁,還將來自各類垂直的數(shù)據(jù)庫與社交網(wǎng)站中的關鍵信息;其二是在幾何級增長的互聯(lián)網(wǎng)數(shù)據(jù)和信息爆炸面前維系處理它們的速度;其三是巨額投資在全球各地建設大規(guī)模的服務器集群;最后一點,是能追蹤分析用戶的行為與心理,通曉用戶的意圖和心理?!岸@也恰恰是語義搜索的基礎,”雷斯特對本刊說。而有了龐大的服務器集群,也能夠保證處理幾何級增長信息的速度,這種能感知人們輸入語言意圖的“智慧搜索”,又將如何實現(xiàn)?微軟給出的答案是:重新制定搜索引擎的規(guī)則?!八阉饕姹仨毩私獾降仔枰诰W(wǎng)上完成什么樣的任務,我們現(xiàn)在需要看到的是一個任務,然后幫助用戶做出決策并采取行動,而不是給用戶十個鏈接再讓他們逐個打開去尋找信息是否有用,”微軟亞洲研究院常務副院長馬維英對《環(huán)球企業(yè)家》說,“這有機會對搜索的格局產(chǎn)生顛覆式的創(chuàng)新?!边@意味著當下搜索引擎的原理從一開始就被打破了——搜索的起點將不再是關鍵詞,而是一個包含著關鍵詞的短文本和信息群,機器需要通過對它的分析和判斷,再排列出相應的文本和網(wǎng)頁順序,推送到用戶的瀏覽器上。也就是說,必應(Bing)將更像是一個路由器:它了解用戶的搜索目的,把目的與任務結(jié)合起來,以更多的搜索表現(xiàn)形式,理解搜索目的,抽取出所有的知識,把知識按照目的組織起來,甚至提供一個新的搜索生態(tài)系統(tǒng)。它對研究人員來說是完全不同的工作流程。傳統(tǒng)互聯(lián)網(wǎng)搜索的最小排序單元是網(wǎng)頁,但當搜索的對象(entity)從網(wǎng)頁轉(zhuǎn)移到某一個人、事物和現(xiàn)象的時候,盡管搜索出結(jié)果仍然是網(wǎng)頁,但它需要機器對相關的內(nèi)容進行知識抽取、整合并總結(jié),以一套完整的框架性結(jié)構(gòu)的呈現(xiàn)在網(wǎng)頁上。其中,搜索與社交網(wǎng)絡的結(jié)合,以及專業(yè)問答類社區(qū)可能會發(fā)揮更重要的價值。至少在微軟內(nèi)部,實現(xiàn)這一切并不容易。搜索團隊必須滲透到微軟研究院的基礎架構(gòu)、機器學習、自然語言等領域的大量核心資源當中。至少,它得允許研究員和工程師輕松地修改代碼,這是在微軟第一代搜索引擎的架構(gòu)中難以實現(xiàn)的。以微軟即將發(fā)布的“學術搜索”為例:它旨在幫助用戶快速找到某個學術研究領域內(nèi)的頂尖學者、學術會議和期刊,獲得一個學術領域的興趣與發(fā)展的詳細信息,發(fā)現(xiàn)某個研究領域的學術論文和學術新星。它是完全建立在“對象”基礎上的搜索,甚至可以搜索研究人員之間的關系、論文的共同作者,以及哪所院校在這某個領域研究最出色,過去五年哪些機構(gòu)排名上升等相當“瑣碎”的信息——只要你向搜索引擎提出這些問題。更現(xiàn)實的應用是微軟的中文旅游搜索——它沒有抓取浩如煙海的旅游網(wǎng)頁信息,而是將抓取的對象鎖定在社交網(wǎng)站和個人博客上的20多萬篇網(wǎng)友游記,從中提煉出超過3萬個熱門景點的旅游狀況。當用戶提出針對某一景點的旅游問題時,它會自動抽取相應的信息,組合答案呈現(xiàn)給用戶。它還與必應(Bing)地圖相結(jié)合,鼓勵網(wǎng)友上傳旅游路線和圖片,創(chuàng)建旅行計劃,以期進一步豐富旅游搜索的信息資源和語義庫?!八鼤峁┙o你最終的答案,直接找出答案的結(jié)果,而且完全不同于社區(qū)問答類產(chǎn)品,是搜索的結(jié)果,”微軟亞洲研究院院長洪小文對《環(huán)球企業(yè)家》說。而這種顛覆式的數(shù)據(jù)挖掘、知識提取與算法邏輯,甚至使人們對多媒體的感知也可以通過搜索的形式呈現(xiàn)。微軟研究院還開發(fā)了一個可擴展的解決方案,通過索引超過兩百萬張網(wǎng)頁圖片,建立了一個名為MindFinder的系統(tǒng),可以實現(xiàn)高效、基于素描的圖像尋回——這意味著你使用任何一種觸屏數(shù)字設備的時候,可以用簡單的手勢勾勒某個事物的草圖——它將被視為搜索的指令,然后在屏幕上呈現(xiàn)出你預期中的畫面。你一動念頭,搜索結(jié)果就會冒出來?!舅阉骷捶铡勘M管以語義搜索為代表的智能化未來充滿了想象力,但它卻并非下一代搜索引擎的終極使命。至少在微軟看來,搜索引擎并不一定局限在“必應”(Bing)的搜索框當中??纯此恼Z義搜索實驗能在Twitter上發(fā)生些什么:在全球已有1.45億注冊用戶的Twitter每天承載著9000多萬次的更新和超過8億次的搜索——它已經(jīng)成為世界上全面的和鮮活的數(shù)據(jù)庫,也是政府、企業(yè)和公共機構(gòu)體察輿情的重要來源。但這些Tweets(指Twitter上的用戶言論)中有很大的比例是毫無意義的空話和垃圾內(nèi)容,且夾雜著各種縮寫和不規(guī)范語言,這導致傳統(tǒng)的關鍵字搜索所返回的內(nèi)容列表,其分析價值相當有限。而語義搜索能對海量Tweets和大規(guī)模用戶之間的聯(lián)系進行分析,提取關鍵信息。當你輸入“BarackObama”(美國總統(tǒng)奧巴馬)的時候,它能自動統(tǒng)計出數(shù)十億條Twitter信息中對奧巴馬的“正面”(positive)和“負面”(negative)評價的比例,并列出諸如“聰明”、“善良”、“決斷”、“吝嗇”和“愚蠢”等一系列用戶形容奧巴馬的最頻繁的關鍵詞。這意味著搜索引擎本身不僅以搜索框的形式出現(xiàn),還可以化身成一種互聯(lián)網(wǎng)服務的工具?!爸挥挟斔阉饕婺軌虮婚_發(fā)出更多應用的時候,萬維網(wǎng)才會被帶到下一個時代,”微軟全球高級副總裁雷斯特對《環(huán)球企業(yè)家》說。而社交網(wǎng)站的搜索開發(fā)顯然是其中的一個方向——它不僅可以提升搜索本身在當下的重要性,也符合語義搜索的趨勢需要。維基百科創(chuàng)始人吉米·威爾斯(JimmyWales)曾試圖創(chuàng)建一個結(jié)合用戶意志和語義關聯(lián)的搜索引擎網(wǎng)站W(wǎng)ikiaSearch(請于參看《我愛維基》),但后來放棄了。他曾表示過未來的搜索形態(tài)可能分散在各種互聯(lián)網(wǎng)的角落里,而不是搜索框。而據(jù)稱Facebook也試圖將其龐大的數(shù)據(jù)源進行全面探索,以結(jié)構(gòu)化的數(shù)據(jù)和開放圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年百色職業(yè)學院高職單招職業(yè)適應性測試備考題庫有答案解析
- 2026年河北美術學院高職單招職業(yè)適應性考試備考題庫有答案解析
- 2026年安徽電氣工程職業(yè)技術學院高職單招職業(yè)適應性測試備考題庫帶答案解析
- 2026年廣州科技貿(mào)易職業(yè)學院單招綜合素質(zhì)考試參考題庫帶答案解析
- 2026年廣東機電職業(yè)技術學院單招綜合素質(zhì)考試參考題庫帶答案解析
- 體檢中心合作協(xié)議2025年
- 2026年福建體育職業(yè)技術學院高職單招職業(yè)適應性測試參考題庫有答案解析
- 2026年安徽商貿(mào)職業(yè)技術學院單招綜合素質(zhì)考試備考題庫帶答案解析
- 數(shù)字貨幣交易服務合同2025年合規(guī)要求
- 2026年黑龍江商業(yè)職業(yè)學院高職單招職業(yè)適應性考試備考試題帶答案解析
- 腫瘤患者鼻飼的護理個案
- 《社區(qū)矯正法》教學課件
- 產(chǎn)品折扣管理辦法
- 預激綜合征麻醉管理要點
- 2025公需課《人工智能賦能制造業(yè)高質(zhì)量發(fā)展》試題及答案
- 天津市和平區(qū)天津益中學校2021-2022學年七年級上學期期末數(shù)學試題【帶答案】
- TCALC 003-2023 手術室患者人文關懷管理規(guī)范
- 關鍵對話-如何高效能溝通
- 村級組織工作制度
- 安全文明施工措施費用支付計劃三篇
- 人教版九年級化學導學案全冊
評論
0/150
提交評論