《用戶畫像推薦系統(tǒng)文獻綜述3100字(論文)》_第1頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于用戶畫像的推薦系統(tǒng)文獻綜述1.1國內(nèi)外研究現(xiàn)狀及評述1.1.1用戶畫像研究現(xiàn)狀用戶畫像(UserProfiling,UP),也叫做用戶建模(UserModeling),一般指通過定義用戶屬性,給用戶一個簡短、有效的描述。在大數(shù)據(jù)分析與深度學(xué)習(xí)概念出現(xiàn)之前,用戶畫像己經(jīng)成為了商業(yè)智能、信息系統(tǒng)領(lǐng)域的重要研究方向[3]。20世紀90年代以來,通過自動化技術(shù),隱式的獲取用戶的反饋數(shù)據(jù),以此進行用戶畫像的推斷,成為主流方法途徑。傳統(tǒng)的用戶興趣、個性、行為習(xí)慣等畫像信息的理解在推薦系統(tǒng)等傳統(tǒng)信息檢索、數(shù)據(jù)挖掘任務(wù)中己經(jīng)存在了很久。用戶畫像技術(shù)最早出現(xiàn)在90年代后期,通常意義上按照用戶屬性、檔案(Profile)的表示策略將用戶畫像技術(shù)分為以下四大類,其中有一類為基于用戶興趣/偏好的畫像方法。用戶的興趣和偏好始終是用戶檔案信息的重點,在基于內(nèi)容的推薦系統(tǒng),除了良好的表示項目外,還需要準(zhǔn)確的理解用戶的興趣檔案,這樣才能對癥下藥。Carmagnola提出通過用戶產(chǎn)生的標(biāo)簽入手來發(fā)現(xiàn)用戶的興趣檔案。Sugiyama等人提出了通過用戶瀏覽行為、結(jié)果評分等信息,構(gòu)建用戶的偏好檔案的方法。在用戶畫像與推薦系統(tǒng)的研究中,劉廣東設(shè)計并實現(xiàn)基于用戶畫像的商品推送系統(tǒng)。趙榮霞以WordPress為研究對象提出了基于用戶畫像的WordPress博文推薦理論。王智囊將醫(yī)學(xué)畫像的研究應(yīng)用于推薦算法中,提出了基于SVD的協(xié)同過濾與融合畫像Tag標(biāo)簽特征的推薦算法。目前有不少學(xué)者進行了用戶畫像相關(guān)的研究,例如Meguebli等人提出了構(gòu)建用戶畫像,以用戶評論為切入點,實現(xiàn)新聞內(nèi)容的個性化推送。Kanoje等人介紹了用戶分析的相關(guān)技術(shù),論述了用戶建模的重要性。Grcar等人針對網(wǎng)站用戶,通過內(nèi)容過濾、協(xié)同過濾,使用行為挖掘等方式對用戶進行建模。杜卿提出了借助標(biāo)簽對用戶建模,以實現(xiàn)用戶的個性化服務(wù)。王冬羽基于移動互聯(lián)網(wǎng)應(yīng)用,設(shè)計了用戶畫像系統(tǒng)用于分析用戶行為。在工業(yè)界,越來越多的互聯(lián)網(wǎng)公司都在進行用戶畫像系統(tǒng)的建設(shè)。例如國內(nèi)的美團,在外賣O2O領(lǐng)域,圍繞用戶使用外賣服務(wù)的生命周期作為基礎(chǔ)畫像,通過精準(zhǔn)的產(chǎn)品推薦或者價格策略實現(xiàn)運營目標(biāo)。OTA領(lǐng)域的攜程搭建了用戶畫像平臺,其畫像廣泛應(yīng)用于個性化推薦,針對旅游市場,攜程將其運用于“房型排序”以及“機票排序”等特色領(lǐng)域。國外的Twitter通過用戶行為構(gòu)建用戶畫像,預(yù)測用戶的影響力從而制定進一步的市場營銷策略。全球最大的視頻網(wǎng)站YouTube,通過用戶畫像,收集用戶的基本屬性,觀看數(shù)據(jù),以及相關(guān)的信息,結(jié)合推薦算法為用戶推薦喜歡的視頻。1.1.1推薦系統(tǒng)的研究現(xiàn)狀20世紀90年代提出了推薦系統(tǒng)的概念,至今已近30年。期間推薦系統(tǒng)的研究和應(yīng)用得到了飛速的發(fā)展。推薦系統(tǒng)是一種特殊的信息過濾系統(tǒng),通過分析用戶偏好信息,在項目集中找到可能會符合其偏好的項目,然后主動向用戶提供推薦。在推薦系統(tǒng)中,“項目”被定義為系統(tǒng)為用戶推薦的物品、信息等用戶所需要的資源。像在淘寶網(wǎng)中項目為商品,網(wǎng)易云音樂中項目為歌曲,今日頭條中項目為新聞。推薦系統(tǒng)的設(shè)計目標(biāo)是在用戶缺乏相關(guān)領(lǐng)域經(jīng)驗或者面對海量信息而不知所措時,為用戶提供一種智能的信息過濾的方法。在眾多推薦技術(shù)中,協(xié)同過濾算法和基于內(nèi)容的過濾算法是被研究最多的兩種方法?;趦?nèi)容的過濾算法(Content-BasedFiltering,CBF)起源于信息檢索技術(shù),是最早使用在推薦系統(tǒng)中的一種算法。CBF就是對項目信息進行相應(yīng)的處理,形成表示項目內(nèi)容的特征描述。并且,同用戶進行信息交流的時候,會自主的將用戶訪問過的所有歷史記錄下來,而且還會在用戶所訪問的信息的基礎(chǔ)上對其進行用戶建模(UserModeling),這樣就能夠?qū)τ脩舻南嚓P(guān)興趣進行特征描述(UserProfile)。在以上操作的基礎(chǔ)上,就可以將興趣描述同用戶還沒有訪問過的信息進行度量,這樣就能夠從中選擇用戶還沒有訪問但又與該描述相近的項目從而推薦給用戶。其特點是只需要對系統(tǒng)中的該用戶進行關(guān)注即可,不需要對別的用戶進行關(guān)注,分析自己的相關(guān)信息后,要對其進行總結(jié),主要對用戶訪問的信息或服務(wù)所具有的共性進行總結(jié),最后將與所得結(jié)果有相同特性的項目推薦給用戶。由于現(xiàn)代信息技術(shù)的蓬勃發(fā)展,出現(xiàn)了海量的數(shù)據(jù),如:語音數(shù)據(jù)、視頻數(shù)據(jù)等,由于這些數(shù)據(jù)的數(shù)據(jù)量大,數(shù)據(jù)維數(shù)高,使得人們難以對其特征進行提取,所以基于內(nèi)容的協(xié)同過濾算法將面臨這嚴峻的挑戰(zhàn)。由于該算法只對用戶自己的相關(guān)信息進行分析,因此要向用戶推薦相關(guān)信息時,對用戶潛在興趣的發(fā)現(xiàn)能力有所不足1992年Goldberg提出“協(xié)同過濾”(CollaborativeFiltering,CF)的概念,并在后來被廣泛的研究和應(yīng)用。協(xié)同過濾假設(shè),如果兩個用戶A和B在一些項目上具有相似的行為習(xí)慣(例如購買、閱讀、觀影等),那么他們在其它項目上也具有相似的偏好,協(xié)同過濾因此也被稱為社會過濾或協(xié)作過濾[2][3]。明尼蘇達大學(xué)的GroupLens研究團隊在1994年提出了基于協(xié)同過濾的開源框架,GroupLens[4]。并在1997年將其在新聞組服務(wù)中進行了實現(xiàn)[5]。GroupLens系統(tǒng)的出現(xiàn)對推薦系統(tǒng)來說具有劃時代的意義,該系統(tǒng)是自推薦系統(tǒng)的基礎(chǔ),現(xiàn)在的許多系統(tǒng)都是在GroupLens的框架的基礎(chǔ)上進行改進。當(dāng)該系統(tǒng)被構(gòu)建出來后,為了對該系統(tǒng)的性能進行更近一步的完善,向人們提供了MovieLens推薦系統(tǒng)[6],MovieLens系統(tǒng)根據(jù)觀看者的評分向用戶推薦電影,據(jù)此出現(xiàn)了推薦算法中普遍使用的MovieLens數(shù)據(jù)集,本文實驗部分也將使用該數(shù)據(jù)集進行。協(xié)同過濾算法和基于內(nèi)容的過濾算法,這兩種算法有著許多的不同之處,主要的不同之處在于推薦的策略。協(xié)同過濾算法是一種不需要了解用戶偏好,僅使用用戶對商品的歷史評分數(shù)據(jù)來預(yù)測用戶對未知商品的評分,來產(chǎn)生推薦的技術(shù)。協(xié)同過濾算法簡單、有效,在很多領(lǐng)域的推薦系統(tǒng)中得到了大量實際應(yīng)用。雖然CF算法可以克服CBF算法中存在的諸多缺點,但隨著數(shù)據(jù)規(guī)模的不斷擴大,傳統(tǒng)的CF算法逐漸暴露出數(shù)據(jù)稀疏性的問題[7],嚴重制約了該技術(shù)的應(yīng)用。因此,許多研究都圍繞如何解決數(shù)據(jù)稀疏性這一問題展開,相應(yīng)產(chǎn)生了許多推薦技術(shù)。Sarwar等人通過奇異值分解(SingularValueDecomposition,SVD)方法來減少用戶-項目評分矩陣的維度[8]。Koren等人在傳統(tǒng)的FM模型里加入了隱式評分信息,提出了考慮領(lǐng)域影響的SVD++算法[9]。這兩種方法都是通過將高維的評分矩陣映射到低維空間,得到相對稠密的評分矩陣來解決數(shù)據(jù)稀疏問題,但這樣會造成推薦精度有所降低。Karypis等人提出了基于項目的協(xié)同過濾算法(Item-basedCF,IBCF),像在電商領(lǐng)域主要是用戶不斷增長,而項目數(shù)基于趨于穩(wěn)定,因此項目的相似性更加穩(wěn)定。以上方法都是在原有評分數(shù)據(jù)的基礎(chǔ)上,通過矩陣分解、聚類等機器學(xué)習(xí)的方法來緩解數(shù)據(jù)稀疏問題。結(jié)合其它有用信息是另外一種緩解數(shù)據(jù)稀疏性問題的重要手段,這種方法的思想是在其它方法的基礎(chǔ)之上引入額外的信息源,使得發(fā)現(xiàn)的鄰居用戶能更為準(zhǔn)確,從而緩解數(shù)據(jù)稀疏問題。Balabanovic等人根據(jù)基于內(nèi)容和協(xié)同過濾優(yōu)勢互補的特點,提出了兩者混合的方法。Melville等人提出了一種名為content-boosted的協(xié)同過濾方法,該方法引入了額外的文本信息來為用戶提供推薦。Ziegler等人提出把產(chǎn)品的散裝分類信息融合到協(xié)同過濾算法中來解決數(shù)據(jù)稀疏性問題。BaQ等人首先通過用戶統(tǒng)計信息進行用戶的聚類,然后與矩陣分解后合成的新評分矩陣,來共同進行最近鄰計算與推薦。He等人將用戶的社交信息融入到推薦中,提出了SNRS推薦系統(tǒng)。Shambour等人引入了評分信任度的思想,直接通過用戶信任度與項目信任度來進行評分預(yù)測,摒棄了傳統(tǒng)的相似度計算。吳一帆等人提出了結(jié)合用戶背景信息的推薦算法,該算法首先將用戶背景信息進行量化,然后通過量化后的用戶背景信息計算用戶之間的相似度,來預(yù)測評分矩陣中空閑處的評分并填充到其中,然后再通過傳統(tǒng)的協(xié)同過濾算法進行推薦。黃

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論