下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
關(guān)于協(xié)同濾波算法的計算過程綜述1.1相似度公式如果想使用系統(tǒng)列表算法,那么一定逃不掉相似度的類比運算。無論是基于用戶還是物品,都要對用戶或者物品進行相似度運算。本文選擇余弦相似度做為算法基礎(chǔ)。余弦相似度公式就是假設(shè)空間中存在兩個向量,用它們在空間中的夾角的余弦值來作為評判這兩個向量相似度的值。兩個空間向量的余弦值越接近1,就代表著兩個向量的夾角越小,方向性越一致,所以相似度就越高。余弦相似度公式ru表示一個用戶的打分合集,rv表示另一個用戶的評分合集,i代表視頻,為用戶u對視頻1的打分乘以用戶v對視頻1的打分加上用戶u對項目2的打分乘以用戶v對項目2打分……然后相加再相乘直到最后一個視頻。為用戶u對視頻1的打分取平方加上用戶u對視頻2的打分取平方加上……先平方再相加直到最后一個視頻然后得到的值取平方根,平方根乘以用戶v的平方根。當(dāng)兩個用戶之間對某些視頻集共同的相似操作很多,當(dāng)數(shù)據(jù)龐大至某一閥值,便可使用皮爾森相關(guān)系數(shù)來計算相似度。這種情況下會比余弦相似度公式精準(zhǔn)度更高。當(dāng)然這是建立在兩個用戶擁有較多共同評分項目的基礎(chǔ)上。反之如果兩個用戶間共同相思操作很少,皮爾森相關(guān)系數(shù)的精準(zhǔn)度會下降,甚至并不如余弦相似度公式的效果好。兩個公式各有利弊。皮爾森相關(guān)系數(shù)計算公式如下所示,j、k為兩個假設(shè)存在的向量。皮爾遜相關(guān)系數(shù)計算公式1.2基于用戶的協(xié)同濾波算法N(u)N(v)v喜歡的的視頻集合。則兩個用戶的相似度W為:但是上面的公式原理過于簡單粗糙且仍有缺陷。事實上,許多用戶從未對彼此的物品產(chǎn)生相關(guān)性。所以在視頻數(shù)量龐大,但是用戶稀少的環(huán)境下N(u)⌒N(v)無限近似于0,甚至有可能出現(xiàn)N(u)⌒N(v)=0的情況。為了避免這種情況的發(fā)生,我們選擇首先計算出N(u)⌒N(v)≠0的情況。假設(shè)存在用戶對(u,v),然后將這種情況除以分母。為此可以建立物品到用戶的倒排表,對于每個物品都保存對該物品執(zhí)行過操作的用戶列表。令稀疏矩陣C[u][v]=N(u)交N(v)。那么,假設(shè)用戶u和用戶v同時屬于倒排表中K個物品對應(yīng)的用戶列表,就有C[u][v]=K??梢話呙璺聪蛄斜碇忻總€項目對應(yīng)的用戶列表,將用戶列表中的兩兩用戶對應(yīng)的C[u][v]加1,最終就可以得到所有用戶之間不為0的C[u][v]。圖2-1兩個使用者對應(yīng)的倒排表計算得出用戶u對物品的感興趣程度:再采用的是JohnS.Breese在論文[14]提出的中的計算相似度的公式的公式:通過1/log(1+|N(i)|)降低了兩個用戶的興趣列表中都存在熱度高的視頻,從而令他們的相似度過高產(chǎn)生的影響。這樣得到用戶之間的相似度之后,該改進過的基于用戶的協(xié)同濾波算法記為UCF+[14]。I(i)是對視頻i進行評分的用戶集。S(u,k)為一組k個用戶。rvi為用戶v對視頻i的評分。最終將推薦排名靠前的N部視頻推薦給用戶u,即為最終推算結(jié)果。1.3基于物品的協(xié)同濾波算法設(shè)表示喜歡視頻i的用戶數(shù),表示同時喜歡視頻i和視頻j的用戶數(shù),則視頻i和視頻j的相似度W為:在本系統(tǒng)中這個公式即有效地降低了視頻j的在整體公式中的相對重要程度,在本系統(tǒng)中可以將大家都喜歡的視頻從特定用戶群喜歡的視頻中抽離出來。在基于物品的協(xié)同濾波算法中,要懲罰活躍用戶?;钴S用戶評分的視頻過多,會導(dǎo)致他評價出的視頻集過于雜糅。比如這個用戶如果是一個全方面視頻愛好者,那么他的評分視頻集會使數(shù)據(jù)庫中的幾乎所有視頻都產(chǎn)生關(guān)聯(lián),這時視頻與視頻之間就似乎失去了不同,算法便會被干擾,會在內(nèi)存中生成一個十分龐大的沒有規(guī)律的矩陣。這個矩陣會影響所有用戶被采集的數(shù)據(jù)。所以最好要將活躍用戶提供的數(shù)據(jù)減小至非活躍用戶之下。改進的公式為:1/(log(1+|N(u)|))降低了活躍用戶增加的視頻相似度。然后如此計算用戶v對視頻j的興趣度。表示用戶v愛好的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校體育競賽與訓(xùn)練管理制度
- 商務(wù)危機管理與應(yīng)對規(guī)范制度
- 會議參與人員選拔與邀請制度
- 公共交通車輛清潔消毒制度
- 圖書資料借閱制度
- 養(yǎng)老院員工請假制度
- 養(yǎng)老院入住老人生活照料制度
- 成醫(yī)大外科手術(shù)學(xué)實驗指導(dǎo)
- 社區(qū)協(xié)商規(guī)范制度
- 防水作業(yè)制度規(guī)范
- IML IMR部技術(shù)標(biāo)準(zhǔn)手冊
- 知識產(chǎn)權(quán)保護方案及維權(quán)材料填寫指南
- 醫(yī)院人事科述職報告
- 八年級上冊古詩詞+古詩詞閱讀訓(xùn)練(練習(xí))解析版-2026年中考語文一輪復(fù)習(xí)之古詩文
- 2025至2030年中國方解石粉行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃報告
- 山東公交車公司管理制度
- 商品糧獎勵資金管理辦法
- 鄉(xiāng)土敘事現(xiàn)代性反思-洞察及研究
- vte防治護理管理制度
- 產(chǎn)品復(fù)稱管理制度
- 《常見性病防治知識》課件
評論
0/150
提交評論