版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于大數(shù)據(jù)的推薦算法研究基于大數(shù)據(jù)的推薦算法研究論文框架2TopKS算法3基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法4矩陣分解并行化5總結(jié)與展望1課題背景與研究意義論文框架2TopKS算法3基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法圖書(shū)推薦新聞推薦亞馬遜當(dāng)當(dāng)網(wǎng)淘寶網(wǎng)央廣網(wǎng)圖書(shū)推薦新聞推薦亞馬遜當(dāng)當(dāng)網(wǎng)淘寶網(wǎng)央廣網(wǎng)課題背景啟發(fā)式的協(xié)同過(guò)濾代表的方法:KNN基于模型的協(xié)同協(xié)同過(guò)濾代表的方法:矩陣分解課題背景啟發(fā)式的協(xié)同過(guò)濾課題背景余弦距離皮爾遜相關(guān)系數(shù)………user1(3,2,?,4)user2(2,3,?,?)user3(?,?,4,3)user4(4,?,?,1)user5(?,5,5,?)課題背景余弦距離user1(3,2,?,4)課題背景≈.X21*y21+x22*y22+x23*y23≈3u2v2.=交替下降梯度下降課題背景≈.X21*y21+x22*y22+x23研究意義用戶量猛增項(xiàng)目(商品、新聞等)數(shù)量猛增推薦算法的可擴(kuò)展性不強(qiáng)研究意義用戶量猛增TopkS算法采用余弦距離和皮爾遜相關(guān)公式累加性特點(diǎn)引入倒排索引數(shù)據(jù)結(jié)構(gòu)結(jié)合TopK思想TopKS是TopKSimilarity的簡(jiǎn)寫(xiě),即最大的前K個(gè)相似度。主要包含以下三部分:TopkS算法采用余弦距離和皮爾遜相關(guān)公式累加性特點(diǎn)TopKTopkS算法余弦距離皮爾遜相關(guān)系數(shù)TopkS算法余弦距離皮爾遜相關(guān)系數(shù)TopkS算法倒排索引TopkS算法倒排索引TopkS算法計(jì)算u1和其他用戶的相似度TopkS算法計(jì)算u1和其他用戶的相似度TopkS算法假設(shè)查找用戶ui的最近鄰用戶,當(dāng)前計(jì)算到用戶ui和uj第k1個(gè)共同項(xiàng)目(i!=j),而ui和uj有k個(gè)共同評(píng)分項(xiàng)目,則分為兩種情況:如果uj已經(jīng)在最近鄰列表LS中,則直接更新列表中的相似度;如果uj不在最近鄰列表LS中,則計(jì)算用戶ui和uj可能的最大值,下面是余弦距離和皮爾遜相關(guān)系數(shù)可能的最大值:余弦距離TopkS算法假設(shè)查找用戶ui的最近鄰用戶,當(dāng)TopkS算法皮爾遜相關(guān)系數(shù)計(jì)算出之后,是從LS中剔除最小值,插入uj把uj加入黑名單否TopkS算法皮爾遜相關(guān)系數(shù)計(jì)算出TopkS算法不同稀疏度對(duì)近鄰計(jì)算的影響TopkS算法不同稀疏度對(duì)近鄰計(jì)算的影響TopkS算法不同規(guī)模用戶數(shù)量上的比較實(shí)驗(yàn)TopkS算法不同規(guī)模用戶數(shù)量上的比較實(shí)驗(yàn)TopkS算法不同K值對(duì)執(zhí)行時(shí)間的影響TopkS算法不同K值對(duì)執(zhí)行時(shí)間的影響基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法相似度度量節(jié)點(diǎn)之間的距離度量:然后利用最短路徑算法Dijkstra結(jié)合TopK思想找到最相近的項(xiàng)目;基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法相似度度量節(jié)點(diǎn)之間的距離度量基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法三種算法效果對(duì)比基于項(xiàng)目層次結(jié)構(gòu)相似性的推薦算法三種算法效果對(duì)比矩陣分解并行化目標(biāo)函數(shù)采用梯度下降方法,V的更新公式通常是:這里注意:是一個(gè)常數(shù),對(duì)因子矩陣中的每個(gè)元素都一樣矩陣分解并行化目標(biāo)函數(shù)采用梯度下降方法,V的更新公式通常是:矩陣分解并行化同理,用戶因子矩陣U也可以近似為矩陣乘除的形式.,V的更新公式變?yōu)椋哼@里把步長(zhǎng)修改為因子矩陣中每個(gè)元素一個(gè)值,如下:矩陣分解并行化同理,用戶因子矩陣U也可以近似為矩陣乘除的形式矩陣分解并行化MapReduce編程模型矩陣分解并行化MapReduce編程模型矩陣分解并行化a11a12a13a21a22a23a31a32a33a41a42a43左矩陣Ab11b12b13b14b21b22b23b24b31b32b33b34右矩陣B內(nèi)積法外積法分塊矩陣乘法c11c12c13c14c21c22c23c24c31c32c33c34c41c42c43c44結(jié)果矩陣CC=AB介紹矩陣的分布式乘法時(shí),假設(shè):左矩陣A是m×s右矩陣B是s×n結(jié)果矩陣C是m×n矩陣分解并行化a11a12a13a21a22a23a31a3矩陣分解并行化….….內(nèi)積法矩陣分解并行化….….內(nèi)積法矩陣分解并行化內(nèi)積法數(shù)據(jù)流程圖
內(nèi)積法中Reduce任務(wù)與數(shù)據(jù)的對(duì)應(yīng)關(guān)系注:R_i_j表示Reduce任務(wù)的編號(hào)并發(fā)粒度:m×n×s中間shuffle數(shù)據(jù)量:n個(gè)A矩陣,m個(gè)B矩陣,即2s個(gè)C矩陣矩陣分解并行化內(nèi)積法數(shù)據(jù)流程圖內(nèi)積法中Reduce任務(wù)與數(shù)矩陣分解并行化++=外積法矩陣分解并行化++=外積法矩陣分解并行化外積法數(shù)據(jù)流程圖
外積法中Reduce任務(wù)與數(shù)據(jù)的對(duì)應(yīng)關(guān)系注:R_i_j表示Reduce任務(wù)的編號(hào)并發(fā)粒度:s中間數(shù)據(jù)量:Job1的shuffle數(shù)據(jù)量:一個(gè)A矩陣和一個(gè)B矩陣Job1到Job2的IO數(shù)據(jù)量:s個(gè)C矩陣Job2的shuffle數(shù)據(jù)量:遠(yuǎn)小于s個(gè)C矩陣矩陣分解并行化外積法數(shù)據(jù)流程圖外積法中Reduce任務(wù)與數(shù)矩陣分解并行化把左矩陣劃分為m1×s1等大小的矩陣,右矩陣劃分為s1×n1的等大小矩陣,則有:M=(m-1)/m1+1S=(s-1)/s1+1N=(n-1)/n1+1并發(fā)粒度:M×N×S中間數(shù)據(jù)量:N個(gè)A矩陣和M個(gè)B矩陣矩陣分解并行化把左矩陣劃分為m1×s1等大小的矩陣,右矩陣劃矩陣分解并行化矩陣規(guī)模與運(yùn)行時(shí)間的關(guān)系
矩陣分解并行化矩陣規(guī)模與運(yùn)行時(shí)間的關(guān)系矩陣分解并行化矩陣稀疏度與運(yùn)行時(shí)間的關(guān)系矩陣分解并行化矩陣稀疏度與運(yùn)行時(shí)間的關(guān)系矩陣分解并行化分塊策略與運(yùn)行時(shí)間的關(guān)系分塊策略與中間數(shù)據(jù)量的大小關(guān)系
矩陣分解并行化分塊策略與運(yùn)行時(shí)間的關(guān)系分塊策略與中間數(shù)據(jù)量的矩陣分解并行化工作節(jié)點(diǎn)數(shù)量與運(yùn)行時(shí)間的關(guān)系
矩陣分解并行化工作節(jié)點(diǎn)數(shù)量與運(yùn)行時(shí)間的關(guān)系總結(jié)與展望
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)大一(數(shù)字媒體技術(shù))數(shù)字媒體交互產(chǎn)品設(shè)計(jì)階段測(cè)試題及答案
- 2025年高職新材料(再生資源應(yīng)用)試題及答案
- 多組學(xué)技術(shù)在環(huán)境危險(xiǎn)因素識(shí)別中的應(yīng)用
- 2025年中職機(jī)械制造與自動(dòng)化(機(jī)械自動(dòng)化操作)試題及答案
- 2025年高職(農(nóng)業(yè)技術(shù))土壤肥料應(yīng)用試題及答案
- 2026年汽車(chē)銷(xiāo)售(成交轉(zhuǎn)化)試題及答案
- 2025年高職印刷媒體技術(shù)(排版工藝)試題及答案
- 2025年大學(xué)(生物工程專業(yè))酶工程試題及答案
- 2025年大學(xué)本科(動(dòng)物醫(yī)學(xué))動(dòng)物傳染病防控試題及答案
- 2025年大學(xué)大二(設(shè)計(jì)學(xué))設(shè)計(jì)方法學(xué)基礎(chǔ)理論測(cè)試題及答案
- DB15∕T 3722-2024 公路基層水泥穩(wěn)定高爐重礦渣混合料設(shè)計(jì)與施工技術(shù)規(guī)范
- 2025年國(guó)家能源集團(tuán)招聘筆試真題及答案
- 擋土墻施工培訓(xùn)
- 企業(yè)環(huán)保管理制度(2025年版)
- 2025至2030中國(guó)掃雪車(chē)行業(yè)發(fā)展趨勢(shì)分析與未來(lái)投資戰(zhàn)略咨詢研究報(bào)告
- 內(nèi)河電動(dòng)船舶充換電模式的經(jīng)濟(jì)性與適用性分析
- 刮板撈渣機(jī)課件
- 《城市軌道交通全自動(dòng)運(yùn)行系統(tǒng)驗(yàn)收規(guī)范》
- 幼兒園3-6歲兒童學(xué)習(xí)與發(fā)展指南語(yǔ)言領(lǐng)域課件
- 透析液檢測(cè)不合格應(yīng)急預(yù)案
- 印刷機(jī)操作安全培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論