版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、推薦系統(tǒng)介紹 基于用戶的協(xié)同過濾算法的 電影推薦系統(tǒng),成員:塔娜 郭靜 戈文豹,目錄,一. 推薦系統(tǒng)研究背景 二. 個(gè)性化推薦技術(shù) 三. 基于用戶的協(xié)同過濾推薦算法 四. 電影推薦系統(tǒng) 五. 電影推薦系統(tǒng)實(shí)現(xiàn)構(gòu)想,1. 推薦系統(tǒng)研究背景,近年來,社會(huì)信息趨向于數(shù)字化、網(wǎng)絡(luò)化,通過各種互聯(lián)網(wǎng)絡(luò)聯(lián)系起來的人越來越多,互聯(lián)網(wǎng)網(wǎng)民日益增加。互聯(lián)網(wǎng)上的信息源越來越豐富,包括電子郵件、Web數(shù)據(jù)、客戶項(xiàng)目等信息,這些信息構(gòu)成了社會(huì)網(wǎng)絡(luò)。我國的互聯(lián)網(wǎng)用戶數(shù)也與日俱增,已發(fā)展到一個(gè)很客觀的數(shù)字。 截止至2011年底,全球博客(blog)數(shù)量已經(jīng)達(dá)1.81億。 在國內(nèi),擁有博客(或個(gè)人空間)的網(wǎng)民比例達(dá)42.3
2、%,用戶規(guī)模達(dá)1.07億,其 中活躍用戶數(shù)超過7000萬人。 騰訊QQ的活躍賬戶數(shù)量達(dá)到3億,同時(shí)在線人數(shù)達(dá)到3000萬。 中國網(wǎng)站總數(shù)為230萬個(gè)。 可見,在如今這個(gè)高速發(fā)展的信息時(shí)代,人們的生活與五聯(lián)網(wǎng)的關(guān)系越來越緊密,互聯(lián)網(wǎng)己經(jīng)成為人們獲取信息的一個(gè)重要途徑。,互聯(lián)網(wǎng)信息的日益龐大與大量用戶的需求形成了巨大矛盾。人們需要花費(fèi)大量的時(shí)間去搜索和選擇各自所需的項(xiàng)目。因此,各種知名的搜索引擎已經(jīng)成為人們尋找項(xiàng)目的必備工具,如Google、Yahoo、Soso、Baidu、Sogou等。當(dāng)用戶搜索信息是,搜索引擎就在數(shù)據(jù)庫中搜索,找到相應(yīng)的網(wǎng)站,按一定順序反饋給讀者。顯然,搜索引擎是一種“一對多
3、”的工具,它只能區(qū)分不同的搜索語句,忽略了重要的用戶信息,對不同的用戶不會(huì)推薦不同的項(xiàng)目。 個(gè)性化推薦服務(wù)就是針對此類問題提出來的,根據(jù)不同用戶的行為、信息、習(xí)慣、喜好等特點(diǎn),提供各自不司的服務(wù)。 目前,各大型純商務(wù)網(wǎng)站,例如Dangdang、Amazon、Taobao、Tmall等,都不同程度地使用了推薦系統(tǒng),用以向用戶推薦商品,提高經(jīng)濟(jì)效益。,2.個(gè)性化推薦技術(shù),個(gè)性化推薦系統(tǒng)的使用對象是用戶,推薦對象是項(xiàng)目(Item),比如音樂、電影、商品等。根據(jù)推薦對象的特點(diǎn),可以將目前的推薦系統(tǒng)分為兩類: (1)以網(wǎng)頁為推薦對象的系統(tǒng)。這類推薦系統(tǒng)主要采用web數(shù)據(jù)挖掘的理論和技術(shù)來分析用戶的行為習(xí)
4、慣、興趣愛好等特點(diǎn),向用戶推薦用戶可能會(huì)喜愛的項(xiàng)目(網(wǎng)頁鏈接)。這類推薦系統(tǒng)在音樂或電影類網(wǎng)站最常見,比如推薦相關(guān)音樂、電影、歌手、演員等,能夠吸引用戶興趣,提高用戶滿意度。 (2)以產(chǎn)品為主要推薦對象的系統(tǒng)。這類推薦系統(tǒng)在電子商務(wù)網(wǎng)絡(luò)購物環(huán)境中最長使用,主要功能是向用戶推薦他們可能會(huì)感興趣的商品。這類推薦系統(tǒng)除了帶給用戶更好的購物體驗(yàn),同時(shí)能提高產(chǎn)品銷售量,增加網(wǎng)站收益。 推薦系統(tǒng)首先收集用戶的歷史行為數(shù)據(jù),然后通過預(yù)處理的方法得到用戶-評價(jià)矩陣,再利用機(jī)器學(xué)習(xí)領(lǐng)域中相關(guān)推薦技術(shù)形成對用戶的個(gè)性化推薦。有的推薦系統(tǒng)還搜集用戶對推薦結(jié)果的反饋,并根據(jù)實(shí)際的反饋信息實(shí)時(shí)調(diào)糧推薦策略,產(chǎn)生更符合用
5、戶需求的推薦結(jié)果。,個(gè)性化推薦系統(tǒng)流程圖:,3.基于用戶的協(xié)同過濾算法,3.基于用戶的協(xié)同過濾推薦算法:,基于鄰域的方法是協(xié)同過濾算法中應(yīng)用最為廣泛的一種。 基于鄰域的方法比較直觀,容易理解。這類方法使用統(tǒng)計(jì)技術(shù)尋找與目標(biāo)用戶有相同或相似興趣偏好的鄰居,根據(jù)鄰居用戶的評分來預(yù)測目標(biāo)用戶對項(xiàng)目的評分值,選取預(yù)測評分最高的前N個(gè)項(xiàng)目作為推薦集反饋給目標(biāo)用戶。它的中心思想是有相同興趣或偏好的用戶往往會(huì)對同樣的項(xiàng)目感興趣,這也非常符合人們的心理。這類方法的核心是要準(zhǔn)確計(jì)算目標(biāo)用戶的鄰居,也就是用戶相似性,所以也稱為基于用戶(User-based)的協(xié)同過濾方法。類似地,可以考慮項(xiàng)目之間的相似性,使用目
6、標(biāo)用戶評價(jià)過的項(xiàng)目合集來預(yù)測用戶可能感興趣的其它項(xiàng)目,這類方法稱為基于項(xiàng)目 (Item-based)的協(xié)同過濾方法。,3.基于用戶的協(xié)同過濾推薦,基于用戶的協(xié)同過濾 (User-based CF)又稱 KNN (K-Nearest-Neighbor,K最近鄰)算法,其基本思想是利用與目標(biāo)用戶具有相同(或相似)興趣愛好的用戶的觀點(diǎn)向目標(biāo)用戶提供商品推薦或評分預(yù)測。 基于用戶的協(xié)同過濾算法的基本思想 其基本思想是:通過計(jì)算用戶對項(xiàng)目評分之間的相似性,搜索目標(biāo)用戶的最近鄰居,然后根據(jù)最近鄰居的評分向目標(biāo)用戶產(chǎn)生推薦。 典型的協(xié)同過濾算法是基于用戶的。,這里的評分值可以是用戶的瀏覽次數(shù),購買次數(shù)等隱式
7、的評分,還可以采用顯示評分,如用戶對商品的直接評分,本算法的實(shí)現(xiàn)是采用用戶對所購買商品的直接評分作為評分矩陣中評分值的。,3.基于用戶的協(xié)同過濾推薦,尋找最近鄰居:在這一階段,主要完成對目標(biāo)用戶最近鄰居的查找。通過計(jì)算目標(biāo)用戶與其他用戶之間的相似度,算出與目標(biāo)用戶最相似的“最近鄰居”集。即:對 目標(biāo)用戶i產(chǎn)生一個(gè)以相似度sim(i,j)遞減排列 的“鄰居”集合。該過程分兩步完成: 首先計(jì)算用戶之問的相似度,可采用皮爾森相關(guān)系數(shù)、余弦相似性和修正的余弦相似性等度量方法 ,其次是根據(jù)如下方法選擇“ 最近鄰居”:(1)選擇相似度大于設(shè)定閾值的用戶;(2)選擇相似度最大的前 k個(gè)用戶;(3) 選擇相似
8、度大于預(yù)定閾值的 k個(gè)用戶。,尋找最近鄰居通常有三種方法,余弦相似性(Cosine) 每一個(gè)用戶的評分都可以看作為n維項(xiàng)目空間上的向量,如果用戶對項(xiàng)目沒有進(jìn)行評分,則將用戶對該項(xiàng)目的評分設(shè)為0。用戶間的相似性通過向量間的余弦夾角度量。設(shè)用戶i和用戶j在n維項(xiàng)目空間上的評分分別表示為向量i和向量j,則用戶i和用戶j之間的相似性sim(i,j)為: 其中,分子為兩個(gè)用戶評分向量的內(nèi)積,分母為兩個(gè)用戶向量模的乘積。,相關(guān)相似性(Correlation),修正的余弦相似性(Adjusted Cosine),產(chǎn)生推薦項(xiàng)目:計(jì)算方法如下 :,3.基于用戶的協(xié)同過濾算法存在的問題及解決方案,基于用戶的協(xié)同過
9、濾雖然當(dāng)給出足夠清楚的偏好信息時(shí),它通常表現(xiàn)出良好的性能,但隨著站點(diǎn)結(jié)構(gòu),內(nèi)容的復(fù)雜度和用戶人數(shù)的不斷增加,一些缺點(diǎn)逐漸暴露出來,主要存在稀疏性問題、可擴(kuò)展性問題,也有人提出傳統(tǒng)的協(xié)同過濾不能反映用戶興趣的變化等問題。這些問題都大大影響了系統(tǒng)的性能,為用戶和商家?guī)聿槐?,針對協(xié)同過濾表現(xiàn)出的各種問題,學(xué)者們提出了多種解決方案,有基于模糊聚類的可擴(kuò)展的協(xié)同過濾算法,基于用戶等級的協(xié)同過濾推薦算法,適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法,壓縮稀疏用戶評分矩陣的協(xié)同過濾算法,個(gè)性化服務(wù)中基于用戶聚類的協(xié)同過濾推薦等。 通常在電子商務(wù)網(wǎng)站中,用戶購買或評分的商品相對于總商品數(shù)量僅占有限的百分比,為總數(shù)量的
10、1%以下,這導(dǎo)致用戶項(xiàng)目評分?jǐn)?shù)據(jù)集稀疏。在這種數(shù)據(jù)量大而評分?jǐn)?shù)據(jù)又極端稀疏的情況下,一方面難以成功的定位鄰居用戶集,影響推薦精度;另一方面在整個(gè)用戶空間上計(jì)算相似用戶群的過程不可避免地成為了算法的瓶頸,繼而增加了響應(yīng)時(shí)間。,協(xié)同過濾推薦系統(tǒng)存在的一些弊端:,(1)數(shù)據(jù)稀疏性問題,這也是協(xié)同過濾系統(tǒng)目前存在的最為普遍的問題,大多數(shù)用戶只評價(jià)了部分項(xiàng)目,這樣導(dǎo)致用戶-評分矩陣十分稀疏,這樣不利于推薦系統(tǒng)為用戶推薦信息; (2)冷啟動(dòng)問題。新產(chǎn)品沒有任何用戶的評分,在協(xié)同過濾中是無法推薦的。新用戶沒有歷史信息,也是無法推薦的。當(dāng)一個(gè)新項(xiàng)目剛加入系統(tǒng)的時(shí)候,由于沒有任何用戶對它評分,該項(xiàng)目便無法得到推薦。 (3)同一性問題。對于那些內(nèi)容相同但是名稱不同的項(xiàng)目,協(xié)同過濾是無法發(fā)現(xiàn)它們內(nèi)在的聯(lián)系。 (4)擴(kuò)展性問題。越來越多的用戶和電影加入系統(tǒng)后,增加了系統(tǒng)的復(fù)雜性,此時(shí)系統(tǒng)準(zhǔn)確、高效地推薦都具有一定的挑戰(zhàn)性。,4.電影推薦(我們的想法),電影推薦模塊的參與者是用戶,用戶登錄時(shí)該模塊啟動(dòng)。這個(gè)模塊的功能是為登錄的用戶動(dòng)態(tài)推薦他們感興趣的電影。這個(gè)模塊中主要的推薦算法是:基于用戶的協(xié)同過濾推薦算法。,5.電影推薦系統(tǒng)的實(shí)現(xiàn)構(gòu)想,系統(tǒng)模塊結(jié)構(gòu)概述 電影管理:主要包括電影查詢、修改、刪除和添加。管理員根據(jù)需要搜集電影信息,然后整理綜合添加到系統(tǒng)中,管理員還可以根據(jù)電
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職動(dòng)漫制作技術(shù)(動(dòng)漫動(dòng)畫制作)試題及答案
- 2025年大學(xué)本科(動(dòng)物科學(xué))動(dòng)物遺傳學(xué)試題及答案
- 2025年大學(xué)健康管理(健康管理規(guī)劃)試題及答案
- 2025年大學(xué)統(tǒng)計(jì)學(xué)(統(tǒng)計(jì)學(xué)案例分析)試題及答案
- 2025年高職特許經(jīng)營管理(管理實(shí)務(wù))試題及答案
- 2025年高職第四學(xué)年(工業(yè)網(wǎng)絡(luò)安全)防護(hù)技術(shù)階段測試題及答案
- 2025年大學(xué)放射治療技術(shù)(放射治療操作)試題及答案
- 2025年高職(大數(shù)據(jù)應(yīng)用技術(shù))數(shù)據(jù)分析報(bào)告撰寫技術(shù)綜合測試題
- 2025年中職精細(xì)化工技術(shù)(產(chǎn)品研發(fā))試題及答案
- 2025年高職審計(jì)(審計(jì)實(shí)務(wù))試題及答案
- 新華書店管理辦法
- 檔案專業(yè)人員公司招聘筆試題庫及答案
- 工程竣工移交單(移交甲方、物業(yè))
- 糖水店員工管理制度
- 來料檢驗(yàn)控制程序(含表格)
- 2025年鈦合金閥項(xiàng)目可行性研究報(bào)告
- 耙地合同協(xié)議書
- 分布式基站光伏電站建設(shè)標(biāo)準(zhǔn)
- 2024-2025學(xué)年廣東省深圳市福田區(qū)六年級(上)期末數(shù)學(xué)試卷
- 道岔滾輪作用原理講解信號(hào)設(shè)備檢修作業(yè)課件
評論
0/150
提交評論