【《基于用戶的協(xié)同過濾電影算法分析案例》2200字】_第1頁
【《基于用戶的協(xié)同過濾電影算法分析案例》2200字】_第2頁
【《基于用戶的協(xié)同過濾電影算法分析案例》2200字】_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于用戶的協(xié)同過濾電影推薦算法分析案例考慮到相似性的協(xié)同過濾的不同,Breeze等人將協(xié)同過濾算法分成基于用戶的協(xié)調(diào)過濾算法和基于項目的協(xié)調(diào)過濾算法。3.1基于用戶的協(xié)同過濾算法基于用戶的協(xié)同過濾推薦算法最根本要點是:①全部顧客的興趣信息都來自顧客對不同項目的評價。②顧客之間的行為可以反饋出他們在一定程度上的相似性。③全部顧客對項目的評分可以和它具有共同愛好的顧客評價相同?;谟脩舻膮f(xié)同過濾推薦算法的根本思路是:根據(jù)用戶用戶的得分來計算用戶之間的相似性,并發(fā)現(xiàn)與目標(biāo)用戶的興趣類似的用戶集合。接著,用最近集合的得分預(yù)測目標(biāo)項目的目標(biāo)用戶的得分。最后,將最高預(yù)測分?jǐn)?shù)項目用作推薦列表。算法的核心是確定用戶是否類似的方法,并且是根據(jù)相似性選擇鄰居用戶的設(shè)置的方法?;谟脩舻膮f(xié)同過濾的推薦算法一般有三個步驟:首先,收集歷史數(shù)據(jù),例如用戶的項目評估值,之后找到最接近目標(biāo)用戶興趣的用戶對于目標(biāo)用戶未評價的項目。其中最近鄰的用戶評價用于預(yù)測目標(biāo)用戶的評價并生成推薦結(jié)果。(1)獲取數(shù)據(jù)。獲得用戶的評價值,構(gòu)建用戶行動選擇矩陣。每個用戶的興趣優(yōu)先級由由項目的用戶、項目和用戶的評估值組成的向量表示。所有用戶的信息構(gòu)成的矩陣我們也可以稱為用戶-項目評價矩陣,表示為R,具體以下圖所示:其中,m是系統(tǒng)中用戶數(shù),n是項目數(shù),矩陣元素Rui的值是用戶u給項目i作出的評分,通常Rui的值會在一定值域范圍內(nèi),一般會采用1-5的整數(shù)。如果用戶沒有作出評分的話,那么就會用0來代替。其中Rui越大,則就充分說明用戶u給項目i評分越高,反過來的話就越低。(2)找到最近鄰居用戶集。找到目標(biāo)用戶的最近鄰集是用于確定推薦的準(zhǔn)確性的算法的核心。首先,計算目標(biāo)用戶和其他用戶的相似性,并且采用一些規(guī)則來選擇最接近用戶的用戶集合。一般來說,相似性反映了兩個對象或兩個特征的不同程度。差異的程度越大,相似性越低,相反,差異越小,相似性越高。其中,首步驟主要是計算目標(biāo)用戶u和別的用戶的相似性來列出一個鄰居用戶的列表。在這當(dāng)中,用戶v和目標(biāo)用戶u的相似性sim(u,v)的取值范圍會在[-1,1]。如果sim(u,v)的值接近1,則可以得出用戶u、v的相似性就越高;如果sim(u,v)的最終值接近-1,那么我們可以得出用戶u、v的興趣偏好是不一樣的,而且是反的;如果sim(u,v)的最終值=0,那么我們便可知用戶u、v不可能會有任何相似性。通常在實際運用當(dāng)中,最終值小于0的相似性是沒有任何參考價值的,因為我們一般只會考慮相似度大于0的情況。當(dāng)然,我們將目標(biāo)用戶u和別的顧客的相似度通常會用以下這幾種常見的方式來度量。①余弦相似度法一般基于用戶協(xié)同過濾算法,用戶評估通常被認(rèn)為是n維空間中的矢量,并且用戶之間的余弦角可以測量用戶之間的相似性。值越大,兩個用戶就越一樣。我們不妨設(shè)用戶u,用戶v在n維項目空間當(dāng)中的評分是u與v,那么用戶u與用戶v的相似度sim(u,v)的算法公式可以為:②修正的余弦相似度法通常不一樣的用戶會有不一樣的評價度量。其中余弦相似性度量的方法卻忽視了這個重要問題。但是修正過后,余弦相似度計算方式把余弦相似度基礎(chǔ)上加進(jìn)來了用戶平均評價。這主要的方法是可以減掉用戶對項目給出來的平均分,以此來彌補(bǔ)不一樣用戶對項目的評價尺度不一樣的問題。利用修正過后的余弦相似度的方法,我們可以看出用戶u,用戶v中相似度sim(u,v)的算法公式可以為:當(dāng)中,Iuv是用戶u,用戶v給出一樣評價過的項目集合,Iu、與Iv代表的是用戶u與用戶v給出的項目集合,是用戶u給全部項目作出的平均評價分;是用戶v給全部的項目作出來平均評分。③皮爾森Pearson相關(guān)系數(shù)方法皮爾森對等相關(guān)系數(shù)反饋出了兩變量之間線性相關(guān)性的程度。此方法通過計算用戶評估向量線性相關(guān)性的特征來計算相似性。皮爾森相似算法的重要性在于:如果兩個用戶獲得了同樣的產(chǎn)品,那么更接近的那個用戶將得到產(chǎn)品的分?jǐn)?shù)。在計算對等相關(guān)系數(shù)時,首先需要確定兩個用戶得分的項目集合,并基于該集合計算不同用戶之間向量的相關(guān)系數(shù)。我們把用戶u,用戶v的相似性算法公式可以定義為:其中,Iuv是顧客u及顧客v一同評價過的項目集合,是顧客u對Iuv中全部電影的平均評價分;是用戶v給Iuv中全部項目作出的平均評價分。第二步是使用特定規(guī)則選擇鄰居列表U的目標(biāo)用戶最感興趣的鄰居集。最近鄰集數(shù)的選擇對推薦的質(zhì)量有很大的影響。有兩種主要的方法來確定最近鄰集的數(shù)量:一種是設(shè)定閾值,一種是與目標(biāo)用戶的相似性,采取比閾值大的用戶作為最近鄰集(例如,ringo系統(tǒng));第二,設(shè)定最近的相鄰K的數(shù)量,取與最近的鄰居組(例如GroupLens系統(tǒng))目標(biāo)用戶有最大相似性的頂級K用戶。herlocker等人指出,最近近距離選擇的第二種方法在實際應(yīng)用中更好,實際應(yīng)用過程中最近鄰用戶的最合理數(shù)量是20到50。(3)產(chǎn)生推薦。在確定目標(biāo)用戶的最近鄰集之后,發(fā)現(xiàn)目標(biāo)用戶未被評估的項目,然后根據(jù)最近鄰集的目標(biāo)項目的用戶的分?jǐn)?shù)來預(yù)測目標(biāo)用戶的得分。然后,最終根據(jù)項目的預(yù)測得分值,推薦目標(biāo)用戶的適當(dāng)項目集?;谟脩舻膮f(xié)調(diào)過濾算法的優(yōu)點是簡單且容易接受。那個廣泛用于個人推薦。該算法可以為用戶產(chǎn)生新的跨分類推薦。但是,想要確保推薦結(jié)果的實時性能時,需要將用戶數(shù)和項目數(shù)分散在一定范圍內(nèi)。該算法依賴于所有用戶的評估信息,并且完成推薦,因此用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論