大數(shù)據(jù)應(yīng)用-基于大數(shù)據(jù)的推薦算法研究(-34張)課件_第1頁(yè)
大數(shù)據(jù)應(yīng)用-基于大數(shù)據(jù)的推薦算法研究(-34張)課件_第2頁(yè)
大數(shù)據(jù)應(yīng)用-基于大數(shù)據(jù)的推薦算法研究(-34張)課件_第3頁(yè)
大數(shù)據(jù)應(yīng)用-基于大數(shù)據(jù)的推薦算法研究(-34張)課件_第4頁(yè)
大數(shù)據(jù)應(yīng)用-基于大數(shù)據(jù)的推薦算法研究(-34張)課件_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于大數(shù)據(jù)的推薦算法研究基于大數(shù)據(jù)的推薦算法研究論文框架2TopKS算法3基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法4矩陣分解并行化5總結(jié)與展望1課題背景與研究意義論文框架2TopKS算法3基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法圖書(shū)推薦新聞推薦亞馬遜當(dāng)當(dāng)網(wǎng)淘寶網(wǎng)央廣網(wǎng)圖書(shū)推薦新聞推薦亞馬遜當(dāng)當(dāng)網(wǎng)淘寶網(wǎng)央廣網(wǎng)課題背景啟發(fā)式的協(xié)同過(guò)濾代表的方法:KNN基于模型的協(xié)同協(xié)同過(guò)濾代表的方法:矩陣分解課題背景啟發(fā)式的協(xié)同過(guò)濾課題背景余弦距離皮爾遜相關(guān)系數(shù)………user1(3,2,?,4)user2(2,3,?,?)user3(?,?,4,3)user4(4,?,?,1)user5(?,5,5,?)課題背景余弦距離user1(3,2,?,4)課題背景≈.X21*y21+x22*y22+x23*y23≈3u2v2.=交替下降梯度下降課題背景≈.X21*y21+x22*y22+x23研究意義用戶量猛增項(xiàng)目(商品、新聞等)數(shù)量猛增推薦算法的可擴(kuò)展性不強(qiáng)研究意義用戶量猛增TopkS算法采用余弦距離和皮爾遜相關(guān)公式累加性特點(diǎn)引入倒排索引數(shù)據(jù)結(jié)構(gòu)結(jié)合TopK思想TopKS是TopKSimilarity的簡(jiǎn)寫(xiě),即最大的前K個(gè)相似度。主要包含以下三部分:TopkS算法采用余弦距離和皮爾遜相關(guān)公式累加性特點(diǎn)TopKTopkS算法余弦距離皮爾遜相關(guān)系數(shù)TopkS算法余弦距離皮爾遜相關(guān)系數(shù)TopkS算法倒排索引TopkS算法倒排索引TopkS算法計(jì)算u1和其他用戶的相似度TopkS算法計(jì)算u1和其他用戶的相似度TopkS算法假設(shè)查找用戶ui的最近鄰用戶,當(dāng)前計(jì)算到用戶ui和uj第k1個(gè)共同項(xiàng)目(i!=j),而ui和uj有k個(gè)共同評(píng)分項(xiàng)目,則分為兩種情況:如果uj已經(jīng)在最近鄰列表LS中,則直接更新列表中的相似度;如果uj不在最近鄰列表LS中,則計(jì)算用戶ui和uj可能的最大值,下面是余弦距離和皮爾遜相關(guān)系數(shù)可能的最大值:余弦距離TopkS算法假設(shè)查找用戶ui的最近鄰用戶,當(dāng)TopkS算法皮爾遜相關(guān)系數(shù)計(jì)算出之后,是從LS中剔除最小值,插入uj把uj加入黑名單否TopkS算法皮爾遜相關(guān)系數(shù)計(jì)算出TopkS算法不同稀疏度對(duì)近鄰計(jì)算的影響TopkS算法不同稀疏度對(duì)近鄰計(jì)算的影響TopkS算法不同規(guī)模用戶數(shù)量上的比較實(shí)驗(yàn)TopkS算法不同規(guī)模用戶數(shù)量上的比較實(shí)驗(yàn)TopkS算法不同K值對(duì)執(zhí)行時(shí)間的影響TopkS算法不同K值對(duì)執(zhí)行時(shí)間的影響基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法相似度度量節(jié)點(diǎn)之間的距離度量:然后利用最短路徑算法Dijkstra結(jié)合TopK思想找到最相近的項(xiàng)目;基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法相似度度量節(jié)點(diǎn)之間的距離度量基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法三種算法效果對(duì)比基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法三種算法效果對(duì)比矩陣分解并行化目標(biāo)函數(shù)采用梯度下降方法,V的更新公式通常是:這里注意:是一個(gè)常數(shù),對(duì)因子矩陣中的每個(gè)元素都一樣矩陣分解并行化目標(biāo)函數(shù)采用梯度下降方法,V的更新公式通常是:矩陣分解并行化同理,用戶因子矩陣U也可以近似為矩陣乘除的形式.,V的更新公式變?yōu)椋哼@里把步長(zhǎng)修改為因子矩陣中每個(gè)元素一個(gè)值,如下:矩陣分解并行化同理,用戶因子矩陣U也可以近似為矩陣乘除的形式矩陣分解并行化MapReduce編程模型矩陣分解并行化MapReduce編程模型矩陣分解并行化a11a12a13a21a22a23a31a32a33a41a42a43左矩陣Ab11b12b13b14b21b22b23b24b31b32b33b34右矩陣B內(nèi)積法外積法分塊矩陣乘法c11c12c13c14c21c22c23c24c31c32c33c34c41c42c43c44結(jié)果矩陣CC=AB介紹矩陣的分布式乘法時(shí),假設(shè):左矩陣A是m×s右矩陣B是s×n結(jié)果矩陣C是m×n矩陣分解并行化a11a12a13a21a22a23a31a3矩陣分解并行化….….內(nèi)積法矩陣分解并行化….….內(nèi)積法矩陣分解并行化內(nèi)積法數(shù)據(jù)流程圖

內(nèi)積法中Reduce任務(wù)與數(shù)據(jù)的對(duì)應(yīng)關(guān)系注:R_i_j表示Reduce任務(wù)的編號(hào)并發(fā)粒度:m×n×s中間shuffle數(shù)據(jù)量:n個(gè)A矩陣,m個(gè)B矩陣,即2s個(gè)C矩陣矩陣分解并行化內(nèi)積法數(shù)據(jù)流程圖內(nèi)積法中Reduce任務(wù)與數(shù)矩陣分解并行化++=外積法矩陣分解并行化++=外積法矩陣分解并行化外積法數(shù)據(jù)流程圖

外積法中Reduce任務(wù)與數(shù)據(jù)的對(duì)應(yīng)關(guān)系注:R_i_j表示Reduce任務(wù)的編號(hào)并發(fā)粒度:s中間數(shù)據(jù)量:Job1的shuffle數(shù)據(jù)量:一個(gè)A矩陣和一個(gè)B矩陣Job1到Job2的IO數(shù)據(jù)量:s個(gè)C矩陣Job2的shuffle數(shù)據(jù)量:遠(yuǎn)小于s個(gè)C矩陣矩陣分解并行化外積法數(shù)據(jù)流程圖外積法中Reduce任務(wù)與數(shù)矩陣分解并行化把左矩陣劃分為m1×s1等大小的矩陣,右矩陣劃分為s1×n1的等大小矩陣,則有:M=(m-1)/m1+1S=(s-1)/s1+1N=(n-1)/n1+1并發(fā)粒度:M×N×S中間數(shù)據(jù)量:N個(gè)A矩陣和M個(gè)B矩陣矩陣分解并行化把左矩陣劃分為m1×s1等大小的矩陣,右矩陣劃矩陣分解并行化矩陣規(guī)模與運(yùn)行時(shí)間的關(guān)系

矩陣分解并行化矩陣規(guī)模與運(yùn)行時(shí)間的關(guān)系矩陣分解并行化矩陣稀疏度與運(yùn)行時(shí)間的關(guān)系矩陣分解并行化矩陣稀疏度與運(yùn)行時(shí)間的關(guān)系矩陣分解并行化分塊策略與運(yùn)行時(shí)間的關(guān)系分塊策略與中間數(shù)據(jù)量的大小關(guān)系

矩陣分解并行化分塊策略與運(yùn)行時(shí)間的關(guān)系分塊策略與中間數(shù)據(jù)量的矩陣分解并行化工作節(jié)點(diǎn)數(shù)量與運(yùn)行時(shí)間的關(guān)系

矩陣分解并行化工作節(jié)點(diǎn)數(shù)量與運(yùn)行時(shí)間的關(guān)系總結(jié)與展望

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論