基于標(biāo)簽的協(xié)同過濾推薦方法研究_第1頁
基于標(biāo)簽的協(xié)同過濾推薦方法研究_第2頁
基于標(biāo)簽的協(xié)同過濾推薦方法研究_第3頁
基于標(biāo)簽的協(xié)同過濾推薦方法研究_第4頁
基于標(biāo)簽的協(xié)同過濾推薦方法研究_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 基于標(biāo)簽的協(xié)同過濾推薦方法研究 齊晶 劉瀛 劉艷霞 胡美振 樂海豐摘 要 Summary傳統(tǒng)基于物品的協(xié)同過濾算法由于物品相似度矩陣稀疏,推薦準(zhǔn)確率不高。針對這一問題,提出一種基于標(biāo)簽和改進杰卡德系數(shù)的協(xié)同過濾算法,進行電視節(jié)目個性化推薦。首先,爬取相關(guān)信息對原始數(shù)據(jù)進行擴充,并利用統(tǒng)計學(xué)方法對時間特征進行歸一化處理,計算用戶偏好系數(shù);然后,統(tǒng)計出現(xiàn)次數(shù)較高的類別作為推薦類別標(biāo)簽,并利用改進的杰卡德系數(shù)構(gòu)造標(biāo)簽相似度矩陣;最后,根據(jù)推薦類別標(biāo)簽的用戶偏好系數(shù)計算節(jié)目的推薦系數(shù)。實驗結(jié)果表明,基于標(biāo)簽的協(xié)同過濾算法可以降低稀疏矩陣對推薦準(zhǔn)確率的影響,相比基于物品的協(xié)同過濾算法,準(zhǔn)確率提高了5%

2、,召回率提高了3.1%。另外,使用改進的杰卡德系數(shù)計算相似度,減少了熱門標(biāo)簽對推薦系統(tǒng)的影響,進一步將準(zhǔn)確率提高了5%,召回率提高了2.3%。Key Key協(xié)同過濾;標(biāo)簽類別相似度;個性化推薦;懲罰系數(shù);杰卡德系數(shù) TP 391.3文獻標(biāo)志碼 A 1005-0310(2021)02-0047-06Research on Collaborative Filtering Recommendation Method Based onLabelsQi Jing1,Liu Ying2,Liu Yanxia2,Hu Meizhen2,Le Haifeng3(1. Tourism College, Beij

3、ing Union University, Beijing 100101, China; 2. College of Urban Rail Transit and Logistics, Beijing Union University, Beijing 100101, China; 3. College of Robotics, Beijing Union University, Beijing 100101, China)Abstract: SummaryIn the era of big data, traditional itembased collaborative filtering

4、 algorithms lead to the sparseness of item similarity matrix, and the recommendation accuracy rate is not high. To solve this problem, a labelbased collaborative filtering algorithm is proposed. First, this algorithm expands the original data by crawling the relevant information, and uses statistica

5、l methods to normalize the time characteristics to calculate the user preference coefficient. Next, it selects those with higher occurrences from all crawled categories as recommended category labels. The category constructs a label similarity matrix using the improved Jaccard coefficients that inco

6、rporate the penalty coefficients. Finally, the program recommendation coefficients are calculated according to the user preference coefficients of the recommended category labels. The experimental results show that thelabelbasedcollaborativefiltering algorithm can reduce the influence of sparse matr

7、ix on the recommendation accuracy. Compared with theitembased collaborative filtering algorithm,the accuracy rate increases by 5% and the recall rate increases by 3.1%. In addition, using the improved Jaccard coefficient to calculate the similarity can reduce the influence of hot tags on the recomme

8、ndation system, and further improve the accuracy rate by 5% and the recall rate by 2.3% on the labelbased collaborative filtering algorithm.Keywords: 關(guān)鍵詞Collaborative filtering; Label category similarity; Personalized recommendation; Penalty coefficient; Jaccard coefficient0 引言北京聯(lián)合大學(xué)學(xué)報2021年4月第35卷第2期

9、齊 晶等:基于標(biāo)簽的協(xié)同過濾推薦方法研究隨著電視“互聯(lián)網(wǎng)+”和電子商務(wù)的興起,個性化推薦有了突飛猛進的發(fā)展,相關(guān)研究主要集中在推薦算法和推薦應(yīng)用,不同類型的物品使用不同的推薦算法來達到既定的目的1。在推薦算法中,最常用的經(jīng)典推薦算法包括協(xié)同過濾推薦算法、基于內(nèi)容的推薦算法和基于數(shù)據(jù)挖掘的推薦算法等2。協(xié)同過濾推薦算法是通過利用客戶的以往記錄信息建立數(shù)學(xué)模型,然后對客戶進行推薦;基于內(nèi)容的推薦算法是根據(jù)客戶對內(nèi)容的喜好建立客戶興趣模型,進一步求解內(nèi)容-客戶相似度進行產(chǎn)品推薦3;基于數(shù)據(jù)挖掘的推薦算法利用從大數(shù)據(jù)中挖掘到的相關(guān)知識對客戶進行推薦。隨著客戶和商品的數(shù)目不斷增長,計算的評價矩陣面臨稀疏

10、性問題。為解決這個問題, Sarwar等提出利用奇異值分解評價矩陣,壓縮矩陣維度4。Yu等用信息理論的方法衡量客戶和商品相關(guān)度,采用特征加權(quán)求和方法改進傳統(tǒng)推薦算法,可以提高推薦的準(zhǔn)確率和速度5。于洪等則利用客戶時間信息作為權(quán)重改進傳統(tǒng)方法,可以有效解決對新客戶的推薦問題6。黃創(chuàng)光等提出了不確定性近鄰用戶的方法,可在不同應(yīng)用場景下自適應(yīng)選擇近鄰用戶7。在傳統(tǒng)的推薦算法中,客戶對商品信息的記錄(例如評分,很多用戶不會主動對商品進行評分)往往很少,這就會導(dǎo)致數(shù)據(jù)非常稀疏,影響系統(tǒng)推薦的準(zhǔn)確率,因此,能否挖掘出有用且充分的信息成為推薦準(zhǔn)確率的關(guān)鍵。徐德智等將推薦算法和云模型相結(jié)合,用云模型計算用戶之

11、間相似度,可以提高推薦系統(tǒng)的準(zhǔn)確率8。張光衛(wèi)等融合知識處理機制來計算用戶相似度,利用云模型在知識之間進行定性和定量的轉(zhuǎn)換,進一步提高用戶之間相似度的準(zhǔn)確性9。蔣翠清等將PLSA模型應(yīng)用在用戶相似度計算上,把用戶信息映射到更加明確的語義上,解決了用戶信息語義模糊問題10。Kim等則利用聚類方法改進傳統(tǒng)算法,擴展了傳統(tǒng)算法的應(yīng)用性11。然而,這些算法都沒有討論熱門物品或者活躍用戶對推薦結(jié)果準(zhǔn)確率的影響,并融合相關(guān)信息進行推薦。本文提出一種基于項目標(biāo)簽的協(xié)同過濾算法,并利用懲罰系數(shù)減少熱門標(biāo)簽對相似度矩陣計算的影響,將推薦項目的類別與用戶偏好系數(shù)相融合計算項目推薦系數(shù),完成節(jié)目推薦。算法分為數(shù)據(jù)處理

12、、特征提取和算法改進3個階段。1 數(shù)據(jù)處理1.1 數(shù)據(jù)集數(shù)據(jù)來自機頂盒用戶實際觀看記錄,統(tǒng)計時間從2017年4月到10月,數(shù)據(jù)項包括用戶ID、觀看開始時間,觀看結(jié)束時間、星期、清晰度、節(jié)目名稱等。部分?jǐn)?shù)據(jù)集如表1所示。1.2 數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘前須對原始數(shù)據(jù)進行預(yù)處理,以便后期特征提取和建模。預(yù)處理步驟如下:1) 基于物品的協(xié)同過濾算法相似度矩陣非常稀疏,影響推薦準(zhǔn)確度。本文嘗試基于標(biāo)簽的協(xié)同過濾算法,根據(jù)數(shù)據(jù)集中的節(jié)目名稱爬取節(jié)目類型標(biāo)簽,補充數(shù)據(jù)集信息。2) 將同一用戶在不同時間段觀看的同一節(jié)目時間進行累加合并。如表1中,用戶10290在不同時間段觀看小公主蘇菲亞,將其觀看時間相加得到此

13、用戶觀看該節(jié)目的總時間。3) 將爬取到的類別標(biāo)簽與數(shù)據(jù)集中相應(yīng)的節(jié)目進行匹配,建立標(biāo)簽字典,記錄所有標(biāo)簽出現(xiàn)的頻率,排除出現(xiàn)次數(shù)過低的標(biāo)簽。4) 利用融合以后的總時間計算用戶偏好系數(shù)(計算過程在2.1節(jié)中說明)。5) 在用戶偏好系數(shù)中,設(shè)置閾值為0.12,即觀看時間為5分鐘,排除小于閾值的觀看記錄。6) 在清洗過的數(shù)據(jù)集中隨機抽取80%作為訓(xùn)練集,20%作為測試集,分別用來訓(xùn)練和評估模型。數(shù)據(jù)預(yù)處理結(jié)果如表2所示。2 特征提取2.1 用戶偏好系數(shù)計算用戶對節(jié)目的評分是其偏好程度最直觀的反映,遺憾的是多數(shù)用戶的評分項是缺失的,巨大的稀疏性導(dǎo)致評分項并不能反映每個用戶的偏好系數(shù)。本文根據(jù)用戶對每個

14、節(jié)目的觀看時長計算其偏好系數(shù),如式(1)所示。Pi=Tei-Tsi。(1)其中,Tei是用戶觀看第i(i1,n)個節(jié)目的結(jié)束時間,Tsi為用戶觀看第i個節(jié)目的開始時間。為使用戶觀看時長具有可比性,便于計算推薦系數(shù),須進行標(biāo)準(zhǔn)化和歸一化處理,如式(2)和(3)所示。Qi=Pi-。(2)Ni=Qi-QminQmax-Qmin。(3)其中,為全部用戶觀看節(jié)目時長的均值,=ni=1pin;為標(biāo)準(zhǔn)差,=1nni=1(pi-)2;Ni為歸一化后的偏好系數(shù)。2.2 標(biāo)簽相似度矩陣將所有用戶觀看的電視節(jié)目預(yù)先劃分到不同的類別標(biāo)簽中,構(gòu)造一棵類別-節(jié)目樹,如圖1所示。屬于同一類別的節(jié)目相似度顯然高于屬于不同類別

15、之間的節(jié)目。1) 構(gòu)建用戶-標(biāo)簽矩陣。統(tǒng)計每個用戶觀看過的類別標(biāo)簽,看過的標(biāo)記為1,沒看過的標(biāo)記為0。部分用戶-標(biāo)簽矩陣如表3所示。2) 構(gòu)建標(biāo)簽-標(biāo)簽矩陣。利用杰卡德系數(shù)計算兩個不同類別標(biāo)簽之間的相似度方法為J(A,B)=ABAB。(4)其中,A、B為不同的標(biāo)簽類別。AB表示在用戶-標(biāo)簽矩陣中,這兩個標(biāo)簽類別同時被標(biāo)注為1的用戶總數(shù);AB表示在用戶-標(biāo)簽矩陣中,這兩個標(biāo)簽類別的任何一個或兩個被標(biāo)注為1的用戶總數(shù)。例如,對于表3中4個用戶而言,劇情和喜劇之間AB=1, AB=4,相似度約為0.25。對于相同類別,即將標(biāo)簽-標(biāo)簽矩陣中的對角線數(shù)值設(shè)置為0。針對全部用戶,采用傳統(tǒng)杰卡德系數(shù)計算相似

16、度時,沒有考慮熱門物品對計算結(jié)果的影響,會影響推薦系統(tǒng)的準(zhǔn)確率,計算結(jié)果如表4所示。在計算物品相似度時,加入懲罰因子,如式(5)所示,以減少熱門物品對計算結(jié)果的影響,計算結(jié)果如表5所示。J(A,B)=ABAB1AB。(5)以用戶2看過的類別標(biāo)簽(喜?。槔?,在標(biāo)簽-標(biāo)簽矩陣中,與喜劇標(biāo)簽相似度最高的兩個標(biāo)簽分別為劇情和動作。對比表4和表5發(fā)現(xiàn),喜劇與劇情類別標(biāo)簽相似度降為原來的6.63%,喜劇與動作類別標(biāo)簽相似度降為原來的8.16%,喜劇與動畫類別標(biāo)簽相似度降為原來的8.18%。明顯可以看出,加入懲罰因子后,與熱門標(biāo)簽相關(guān)的類別相似度降幅最大。據(jù)此進行電視節(jié)目推薦,可以避免熱門標(biāo)簽對電視節(jié)目推

17、薦所占權(quán)重過大的問題。實驗表明,改進杰卡德相似系數(shù)可以提高推薦系統(tǒng)的準(zhǔn)確率和召回率。3 算法改進利用傳統(tǒng)算法推薦節(jié)目時,先基于用戶觀看過的節(jié)目信息,再根據(jù)節(jié)目-節(jié)目相似度矩陣,直接選擇K個相似度較大的節(jié)目推薦,并忽略已觀看的節(jié)目?;跇?biāo)簽的協(xié)同過濾算法不同于傳統(tǒng)基于物品的協(xié)同過濾算法,除了選擇K個相似度較大的新標(biāo)簽類別進行預(yù)推薦外,也不忽略已觀看的標(biāo)簽類別,因為屬于這類標(biāo)簽的新節(jié)目更值得向用戶推薦。3.1 新標(biāo)簽類別的節(jié)目推薦向用戶推薦新標(biāo)簽類別節(jié)目的主要過程分兩步:1) 計算新標(biāo)簽和用戶已觀看標(biāo)簽類別間的相似度。對于測試集D中的某用戶Ui(UiD),根據(jù)其已觀看的類別標(biāo)簽信息,在標(biāo)簽-標(biāo)簽矩

18、陣S中選擇與其觀看過的標(biāo)簽Xj相似度排名前k個的標(biāo)簽類別,作為預(yù)推薦標(biāo)簽。這些標(biāo)簽類別和用戶Ui觀看過的標(biāo)簽類別Xj之間的相似度系數(shù)為Sxj,ki。2) 計算節(jié)目推薦系數(shù)。對于預(yù)推薦的標(biāo)簽類別ki,統(tǒng)計訓(xùn)練集T中所有用戶Tu對屬于ki標(biāo)簽類別的節(jié)目m的偏好系數(shù)kim,并從大到小排序。假設(shè)kim1kim2kim3kim4kim5.,選擇前5個節(jié)目m1,m2.,m5進行推薦,推薦系數(shù)Rmj為Rmj=Sxj,kikimj。(6)3.2 已觀看標(biāo)簽類別的節(jié)目推薦對于用戶已觀看標(biāo)簽類別的節(jié)目推薦過程也分兩步:1) 計算已觀看標(biāo)簽類別的影響因子。從測試集D中選擇某用戶Ui(UiD), 統(tǒng)計其所有已觀看的標(biāo)

19、簽類別X,并建立字典dictXj:nj,其中,XjX,nj為Xj在X中出現(xiàn)的次數(shù)。已觀看標(biāo)簽類別對于推薦節(jié)目的影響因子j為j=nj/n。(7)其中,n為用戶Ui觀看所有節(jié)目標(biāo)簽類別的總次數(shù)。2) 計算節(jié)目推薦系數(shù)。對于已觀看標(biāo)簽類別的節(jié)目推薦系數(shù)為Rmj=jxjm。(8)其中,xjm為用戶Tu對已觀看標(biāo)簽Xj中節(jié)目m的推薦系數(shù)。3.3 選擇節(jié)目完成推薦對上述得到的推薦系數(shù)Rmj從大到小排列,將前N個推薦系數(shù)所對應(yīng)的電視節(jié)目iN=im1,im2,.,imN 推薦給用戶Ui。4 實驗結(jié)果及分析4.1 評價指標(biāo)推薦系統(tǒng)的評測指標(biāo)很多,常用的有平均誤差(MAE)、準(zhǔn)確率(Precision)和召回率(

20、Recall)。通常在離線環(huán)境下采用預(yù)測準(zhǔn)確率來評測推薦系統(tǒng)預(yù)測用戶行為的能力。本文基于標(biāo)簽的協(xié)同過濾算法采用準(zhǔn)確率與召回率來度量,計算方法分別如式(9)和(10)所示。P=uUR(u)T(u)uUR(u)。(9)c=uUR(u)T(u)uUT(u)。(10)其中,R(u)表示在訓(xùn)練集上為用戶U推薦出的節(jié)目集合,T(u)表示用戶U在測試集上觀看過的節(jié)目集合。4.2 實驗參數(shù)選擇相似度較高的標(biāo)簽類別數(shù)量(k)的選擇非常重要,直接影響模型推薦準(zhǔn)確率。在基于標(biāo)簽的協(xié)同過濾算法中,分別選擇k=1,2,3,4,5,6進行實驗。實驗表明,當(dāng)k=2時推薦系統(tǒng)準(zhǔn)確率和召回率相對較高,分別如圖2和3所示。4.3

21、 實驗結(jié)果比較為驗證改進算法的效果,對傳統(tǒng)基于物品的協(xié)同過濾算法和本文所提出的基于標(biāo)簽類別的協(xié)同過濾算法進行了實驗對比,準(zhǔn)確率和召回率結(jié)果如圖4所示。從圖4中可以看到,基于標(biāo)簽的協(xié)同過濾算法比傳統(tǒng)基于物品的協(xié)同過濾算法,在準(zhǔn)確率和召回率上都有更好的表現(xiàn),準(zhǔn)確率從10%提高到15%,召回率從13%提高到16.1%。這主要是因為改進算法降低了矩陣稀疏程度,更有利于提升推薦系統(tǒng)的準(zhǔn)確率和召回率。另外,改進杰卡德相似度系數(shù)對推薦系統(tǒng)性能和評價指標(biāo)的影響如圖5所示。從圖5可知,利用改進杰卡德系數(shù)計算標(biāo)簽-標(biāo)簽相似度矩陣,可使推薦系統(tǒng)的準(zhǔn)確率和召回率進一步提升,其中,準(zhǔn)確率提高了5%,召回率提高了2.3%

22、。這主要是因為在改進杰卡德系數(shù)中加入了懲罰因子,對熱門標(biāo)簽進行懲罰,減少了它對推薦結(jié)果的影響。5 結(jié)束語電視節(jié)目推薦不同于其他推薦系統(tǒng),其推薦范圍大、用戶偏好廣、數(shù)據(jù)更加分散。這些特點使得電視節(jié)目推薦存在更大的挑戰(zhàn),受到了很多學(xué)者關(guān)注。在協(xié)同過濾算法中,相似度矩陣的計算直接影響推薦系統(tǒng)性能12。本文提出的基于標(biāo)簽的協(xié)同過濾算法,對標(biāo)簽進行預(yù)推薦,大大減小了物品相似度矩陣的計算維度。另外,為了降低熱門標(biāo)簽對推薦結(jié)果的影響,加入懲罰因子改進杰卡德系數(shù)。實驗結(jié)果表明,基于標(biāo)簽的協(xié)同過濾算法和加入懲罰因子的杰卡德系數(shù),相比傳統(tǒng)算法在準(zhǔn)確率和召回率上都有一定程度的提高。ReferenceReference內(nèi)容1 王強.基于協(xié)同過濾的個性化推薦算法研究及系統(tǒng)實現(xiàn)D.成都:西南交通大學(xué), 2017.2 嵇曉聲,劉宴兵,羅來明.協(xié)同過濾中基于用戶興趣度的相似性度量方法J.計算機應(yīng)用,2010,30(10):2618-2620.3 劉青文.基于協(xié)同過濾的推薦算法研究D. 合肥:中國科學(xué)技術(shù)大學(xué),2013.4 SARWAR B,KARYPIS G,KONSTAN J, et al. Itembased collaborative filtering recommendation algorithmsC/International Conference on Wor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。