個性化技術(shù)漫談_第1頁
個性化技術(shù)漫談_第2頁
個性化技術(shù)漫談_第3頁
個性化技術(shù)漫談_第4頁
個性化技術(shù)漫談_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、如果說過去的十年是搜索技術(shù)大行其道的十年,那么個性化推薦技術(shù)將成為未來 十年中最重要的革新之一。目前幾乎所有大型的電子商務(wù)系統(tǒng),如Amazon、CDNOW、 Netflix等,都不同程度地使用了各種形式的推薦系統(tǒng)。而近來以“發(fā)現(xiàn)”為核 心的網(wǎng)站正開始在互聯(lián)網(wǎng)上嶄露頭角,比如側(cè)重于音樂推薦的八寶盒,側(cè)重于 圖書推薦的豆瓣等等。那么,一個好的推薦系統(tǒng)需要滿足什么目標呢?個性化推薦系統(tǒng)必須能夠基于用戶之前的口味和喜好提供相關(guān)的精確的推薦,而 且這種口味和喜 歡的收集必須盡量少的需要用戶的勞動。推薦的結(jié)果必須能夠 實時計算,這樣才能夠在用戶離開網(wǎng)站前之前獲得推薦的內(nèi)容,并且及時的對推 薦結(jié)果作出反饋。

2、實時性也是推薦系統(tǒng)與通常的數(shù)據(jù)挖掘技術(shù)顯著不同的一個 特點。一個完整的推薦系統(tǒng)由三部分構(gòu)成:行為記錄模塊、模型分析模塊和推薦模塊。 行為記錄模塊負責(zé)記錄能夠體現(xiàn)用戶喜好的行為,比如購買、下載、評分等。 這部分看起來簡單,其實需要非常仔細的設(shè)計。比如說購買和評分這兩種行為表 達潛在的喜好程度就不盡相同完善的行為記錄需要能夠綜合多種不同的用戶行 為,處理不同行為的累加。模型分析模塊的功能則實現(xiàn)了對用戶行為記錄的分析, 采用不同算法建立起模型描述用戶的喜好信息。最后,通過推薦模塊,實時的從 內(nèi)容集篩選出目標用戶可能會感興趣的內(nèi)容推薦給用戶。因此,除了推薦系統(tǒng) 本身,為了實現(xiàn)推薦,還需要一個可供推薦的

3、內(nèi)容集。比如,對于音樂推薦系統(tǒng) 來說,一個音樂庫就是這樣的內(nèi)容集。我們對內(nèi)容集本身需要提供的信息要求 非常低,在經(jīng)典的協(xié)同過濾算法下,內(nèi)容集甚至只需要提供ID就足夠。而對于 基于內(nèi)容的推薦系統(tǒng)來說,由于往往需要對內(nèi)容進行特征抽取和索引,我們就 會需要提供更多的領(lǐng)域知識和內(nèi)容屬性。這種情況下,還是拿音樂舉例,歌手、 流派之類的屬性和音頻信息就成為必需的內(nèi)容集信息。迄今為止在個性化推薦系統(tǒng)中,協(xié)同過濾(Collaborative Filtering)技術(shù)是 應(yīng)用最成功的技術(shù)。目前國內(nèi)外互聯(lián)網(wǎng)上有許多大型網(wǎng)站已經(jīng)應(yīng)用這項技術(shù)為用 戶更加智能的推薦內(nèi)容。如果你想要研究協(xié)同過濾,一定不能錯過MovieL

4、ens( HYPERLINK /)%e3%80%82%e5%ae%83%e6%98%af%e5%8d%8f%e5%90%8c%e8%bf%87%e6%bb%a4%e6%9c%80%e8%91%97%e5%90%8d%e7%9a%84%e7%a0%94%e7%a9%b6%e9%a1%b9%e7%9b%ae%e4%b9%8b%e4%b8%80%e3%80%82 /)。它是協(xié)同過濾最著名的研究項目之一。第一代的協(xié)同過濾技術(shù),又被稱為基于用戶(User-based)的協(xié)同過濾?;谟?戶的協(xié)同過濾,基本原理是基于用戶行為選擇的相關(guān)性。用戶 的行為選擇這里 指的是下載、購買、評價等等能夠顯式或者隱式體現(xiàn)

5、出用戶喜好的行為。在一個 典型的基于協(xié)同過濾技術(shù)的推薦系統(tǒng)中,輸入數(shù)據(jù)通??梢员硎鰹橐粋€mXn 的用戶內(nèi)容矩陣R,m是用戶數(shù),n是內(nèi)容數(shù)。矩陣的值與內(nèi)容的類型有關(guān),通 常由行為記錄模塊決定。如果內(nèi)容是網(wǎng)上書店中的書,則矩陣的值可以表示用戶 購買與否,例如1表示購買,0表示沒有購買;或者表示用戶對它的評價有多 高,這樣的評價值就可以有幾個等級,比如常見的15級評價制?;谟脩舻膮f(xié)同過濾,通過比較目標用戶的一系列行為選擇和其他用戶之間的相 似性,來識別出一組相互具有類似喜好的用戶,又可以稱為“同好”。一旦系 統(tǒng)能夠識別一個用戶的同好用戶,就能夠?qū)⑺麄冏罡信d趣的內(nèi)容作為當(dāng)前用戶的 推薦結(jié)果推薦給這個

6、用戶。也就是說,以前的行為選擇與你相似的用戶,在以后 的行為中很可能也會和你相似。因此將這些用戶做為基準來向你推薦內(nèi)容。協(xié)同過濾的核心問題是尋找與目標用戶興趣相近的一組用戶。這種相似用戶通常 被稱為最近鄰居(Nearest Neighbor)。用戶之間的相似度是通過比較兩個用戶 的行為選擇矢量得到的。目前,比較行為選擇矢量的相似度計算方法有許多種, 比較經(jīng)典的算法包括泊松相關(guān)系數(shù)(Person Correlation Coefficient)和余 弦相似性(Cosine-based Similarity)?!白罱従印碑a(chǎn)生后,我們就能夠計算得到用戶最可能感興趣的內(nèi)容集(也叫做 TopN推薦集)

7、。為了得到推薦集,分別統(tǒng)計“最近鄰居”中的用戶對不同內(nèi)容 的興趣度,取其中排在最前面的內(nèi)容作為推薦集。下面是一個簡化的示例:假如 用戶張三有兩個同好:李四和王五。張三喜歡看電影A;李四喜歡看電影A,B,C和D;王五喜歡看電影A,B,D,E和F;這樣,推薦系統(tǒng)就能夠過濾出相似用戶都喜歡的電影B和D作為張三最可能也會 喜歡的電影推薦給張三?;谟脩舻膮f(xié)同過濾技術(shù)在個性化推薦系統(tǒng)中獲得了極大的成功,但它有自身的 局限性。推薦集的產(chǎn)生方式意味著一個內(nèi)容只有已經(jīng)被用戶選擇(購買)后才 有機會被推薦給其他用戶。對于一個網(wǎng)上書店來說,新上架的書因為還沒有被相 當(dāng)數(shù)量的用戶購買或者評價的記錄,便很少有機會被用

8、戶的“最近鄰居”篩選進 入推薦集。這個問題,也被稱之為協(xié)同過濾的“冷啟動”問題。此外,因為計算用戶的相似度時,是通過將目標用戶的歷史行為記錄與其他每一 個用戶的記錄相比較得出的,所以對于一個現(xiàn)實的推薦系統(tǒng)來說,擴展性 將成 為非常嚴重的問題。設(shè)想一下,對于一個擁有上百萬用戶的網(wǎng)站來說,每計算一 個用戶都將涉及到上百萬次的比較,更不要說其中會帶來的大量數(shù)據(jù)庫IO操作 的開銷。于是第二代基于內(nèi)容項(Item-based)的協(xié)同過濾技術(shù)就產(chǎn)生了。與基于用戶的 技術(shù)不同的是,這種方法比較的是內(nèi)容項與內(nèi)容項之間的相似 度。Item-based 方法同樣需要進行三個步驟獲得推薦:1)得到內(nèi)容項(Item)

9、的歷史評分數(shù)據(jù);2)針對內(nèi)容項進行內(nèi)容項之間的相似度計算,找到目標內(nèi)容項的“最近鄰 居”;3)產(chǎn)生推薦。這里內(nèi)容項之間的相似度是通過比較兩個內(nèi)容項上的用戶行為選 擇矢量得到的。舉個例子,假設(shè)用戶和內(nèi)容項如下:電影A電影B電影C電影D張三喜歡李四喜歡喜歡喜歡喜歡王五不喜歡不喜歡不喜歡趙六喜歡 喜歡喜歡可以看出,電影A與D是最相似的。因為張三喜歡入,所以電影D就可以推薦給 張三。和基于用戶的推薦系統(tǒng)相比,基于內(nèi)容項的推薦系統(tǒng)最大的改進是更具有擴展性。 基于內(nèi)容項的方法通過計算內(nèi)容項之間的相似性來代替用戶之間的相似 性。對 于通常的互聯(lián)網(wǎng)應(yīng)用來說,提供的內(nèi)容項數(shù)量相對較為穩(wěn)定。比如一個大型網(wǎng)上 書店

10、,可能出售的書籍?dāng)?shù)量也就在幾十萬上下,而用戶數(shù)量就可能達到幾百 萬。 所以,比起用戶,內(nèi)容項之間的相似性計算需要的計算量要少很多,從而大大降 低了在線計算量,提高系統(tǒng)性能?;趦?nèi)容項的推薦系統(tǒng)應(yīng)用最為成功的是 Amazono Amazon 為此還申請了一項專利叫做” Collaborative recommendations using item-to-item similarity mappings” 1。當(dāng)然,在降低了計算量的同 時,完全基于內(nèi)容項的推薦技術(shù)也在推薦的準確度上做了小小的犧牲。大多數(shù)情 況下,基于用戶的推薦技術(shù)表現(xiàn)要略好于基于內(nèi)容項的方法。這是因為基于內(nèi)容 的方法忽略了相似用

11、戶之間的組群特征。不論是第一代的基于用戶方法,還是第二代的基于內(nèi)容項方法,都不可避免的遇 到數(shù)據(jù)稀疏的問題。在任何一個網(wǎng)站中,用戶的評分記錄或者購買記錄,相對 整個可供選擇的內(nèi)容集來說,都是很小的一部分。所以在許多推薦系統(tǒng)中,每個 用戶涉及的數(shù)據(jù)量相當(dāng)有限,在一些大的系統(tǒng)如Amazon中,用戶最多不過就評 價過上百萬本書的1%,造成評估數(shù)據(jù)相當(dāng)稀疏。當(dāng)用戶評價過的內(nèi)容之間找不 到交集時,就難以判斷用戶的口味是否相似,難以找到相似用戶集,導(dǎo)致推薦效 果大大降低。為了解決用戶數(shù)據(jù)的稀疏問題,最方便的辦法就是將用戶對沒有選 擇過的內(nèi)容項的評分設(shè)為一個固定的缺省值,例如用戶的平均評分。針對如何預(yù) 測遺

12、 漏的評分業(yè)內(nèi)又提出了很多種方法,不過一般來說采用最簡單的改進方法 就可以有效地提高協(xié)同過濾推薦系統(tǒng)的準確度。另外一方面,即便采用了基于內(nèi)容項的方法,在數(shù)據(jù)量巨大的時候,計算復(fù)雜度 仍然成為性能瓶頸。為了進一步解決協(xié)同過濾技術(shù)的擴展性能問題,目前比較 有效的辦法是在用戶評分數(shù)據(jù)上做一次聚類分析(clustering)。聚類技術(shù)首先將 具有相似興趣愛好的用戶分配到相同的分類中。聚類產(chǎn)生之后,它 或者將“最 近鄰居”搜索對象限制在最相近的聚類中,根據(jù)類中其他用戶的評價預(yù)測目標用 戶的評價,或者用聚類的中心作為近似提取推薦結(jié)果。由于用戶之間的分 類相 對變化比較小,因此聚類過程往往可以離線進行,而無

13、需實時計算,這樣就大大 降低了實時推薦的計算壓力,提高推薦系統(tǒng)的速度。一般來說,聚類將用戶分為 多少個類,推薦系統(tǒng)的整體速度就能夠提高多少倍。具體選擇什么樣的聚類算法, 又會因應(yīng)用領(lǐng)域和數(shù)據(jù)的分布特性而不同。如果聚類算法選擇不當(dāng),反而會降低 推薦的準確性。近年來,推薦系統(tǒng)的算法技術(shù)的發(fā)展也有了一些新的方向,比 如SlopeOne, SVD等方法,就不一一列舉了。在我看來,一個商用推薦系統(tǒng)的尤其關(guān)鍵之處在于對海量用戶數(shù)據(jù)的處理。因為 推薦系統(tǒng)是數(shù)據(jù)優(yōu)先,數(shù)據(jù)的積累越多對推薦的精度就越有好處。而當(dāng)用戶的 行為數(shù)據(jù)真正積累到上百萬甚至上億時,如何在合理時間內(nèi)得出有效的推薦,就 是對推薦技術(shù)最大的考驗。除此之外,一個優(yōu)秀的推薦系統(tǒng)需要能夠結(jié)合內(nèi)容相 似與用戶行為相。傳統(tǒng)的協(xié)同過濾方法是忽略內(nèi)容本身的屬性的,這一方面固然 是對數(shù)據(jù)要求少的優(yōu)點,但另一方面也帶來了難以避免的“冷啟動”問題。其實, 隨著標簽系統(tǒng)在互聯(lián)網(wǎng)上的廣泛應(yīng)用,標簽本身就不失為是一種很好的內(nèi)容屬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論