【《基于用戶興趣的電影推廣模型設(shè)計案例》6500字】_第1頁
【《基于用戶興趣的電影推廣模型設(shè)計案例》6500字】_第2頁
【《基于用戶興趣的電影推廣模型設(shè)計案例》6500字】_第3頁
【《基于用戶興趣的電影推廣模型設(shè)計案例》6500字】_第4頁
【《基于用戶興趣的電影推廣模型設(shè)計案例》6500字】_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于用戶興趣的電影推薦模型設(shè)計案例目錄TOC\o"1-3"\h\u16093基于用戶興趣的電影推薦模型設(shè)計案例 [55]中生成知識圖譜。1、收集數(shù)據(jù)對于數(shù)據(jù)的采集利用爬蟲技術(shù),對互聯(lián)網(wǎng)電影資料庫IMDB進(jìn)行爬取,在IMDB中的電影模塊包含了大量的數(shù)據(jù)信息,如影片簡介、上映信息、用戶評分等內(nèi)容,分類清晰易于數(shù)據(jù)的爬取,在爬取的數(shù)據(jù)中可能會存在信息缺失、錯誤的情況,接下來需要對得到的數(shù)據(jù)信息進(jìn)行數(shù)據(jù)清洗、整合,達(dá)到滿足最終應(yīng)用需求的目標(biāo)。2、數(shù)據(jù)清洗對數(shù)據(jù)的清洗采用基于規(guī)則的方法和詞典匹配兩者結(jié)合的方式,用準(zhǔn)備好的詞典對已爬取數(shù)據(jù)信息中的用戶評論及影片名稱、類型、國家、年份等進(jìn)行清洗。通過詞典匹配的方法可以將爬取到的信息進(jìn)行整合,將不需要的信息直接刪除,避免為后續(xù)工作帶來計算浪費(fèi)。這里將信息屬性分為以下類型:{‘user_id’,’user_name’,’sex’,’area’,’comment’,’watch’,’movie_id’,’movie_name’,’state’,’intro’,’category’,’rating’,’direct’,’act’,’time’}以上述屬性為數(shù)據(jù)格式,導(dǎo)出半結(jié)構(gòu)化的json文件,每條信息以類型為標(biāo)簽單獨(dú)呈現(xiàn),面對數(shù)據(jù)量較大的情況時會將數(shù)據(jù)信息進(jìn)行折疊,其中user_id、movie_id都是信息的唯一標(biāo)識,具有靈活的可擴(kuò)展性。構(gòu)建知識庫的基礎(chǔ)數(shù)據(jù)已經(jīng)在json文件中,但是數(shù)據(jù)繁雜不易觀察,且本文的研究內(nèi)容使得數(shù)據(jù)不適合存放在結(jié)構(gòu)化的數(shù)據(jù)庫中。為了既要滿足所研究的問題需要又要對數(shù)據(jù)能夠進(jìn)行更直觀的展示,這里選擇采用圖形數(shù)據(jù)庫Neo4j。在該數(shù)據(jù)庫中對json文件進(jìn)行解析導(dǎo)入,獲得直觀的用戶--影片領(lǐng)域的知識庫,為接下來的研究做好準(zhǔn)備。3、知識圖譜設(shè)計與實現(xiàn)在前述工作的基礎(chǔ)上,可以建立用戶--影片領(lǐng)域的知識圖譜。在Neo4j圖數(shù)據(jù)庫中數(shù)據(jù)都是以N-N的形式進(jìn)行存儲,構(gòu)成語義的關(guān)系網(wǎng)。整個用戶--影片領(lǐng)域知識庫設(shè)計完成后用py2neo包連接Neo4j圖形數(shù)據(jù)庫,在數(shù)據(jù)庫中對實體節(jié)點(diǎn)進(jìn)行創(chuàng)建,將實體類型和其相關(guān)屬性進(jìn)行關(guān)聯(lián),根據(jù)實體的關(guān)系類型建立關(guān)系邊,也就是實體三元組,如{‘user_name’,‘comment’,‘movie_name’}表示了某位用戶評論的電影。在Neo4j圖形數(shù)據(jù)庫中使用的Cypher語言通過match、where、return對數(shù)據(jù)進(jìn)行查看。本文構(gòu)建的用戶--影片領(lǐng)域的知識圖譜如圖3-2所示(以用戶觀看的電影為例)。圖3-2用戶觀看影片的部分實體展示1.2.3嵌入層基于用戶興趣的推薦模型中第一步就是要將信息嵌入進(jìn)來,傳統(tǒng)的嵌入層采用圖嵌入或是路徑嵌入,但是圖嵌入存在的問題是隱形關(guān)系得不到體現(xiàn),缺乏推理及可解釋性;路徑嵌入也存在一些問題,如路徑單一,用戶和影片的關(guān)系表示不明確等。為此,本模型的嵌入層則是通過二者的結(jié)合來完善用戶的信息。首先,在嵌入層中利用DeepDive系統(tǒng)進(jìn)行數(shù)據(jù)提取,該系統(tǒng)能夠從表格、圖片、圖形等多種格式中提取數(shù)據(jù);其次,從提出的數(shù)據(jù)中構(gòu)建出協(xié)同知識圖(collaborativeknowledgegraph,CKG),可以將圖譜中的關(guān)系信息及用戶觀看影片的交互信息融合在同一個空間中,并保留CKG結(jié)構(gòu);最后,利用圖中的路徑信息,如用戶名稱、用戶性別、觀影名稱、影片導(dǎo)演、影片主演等,將實體、實體類型、指向下一節(jié)點(diǎn)關(guān)系的ID信息映射到潛在空間。本層通過這樣的方式進(jìn)行數(shù)據(jù)的嵌入,可以為后期的推薦提供更多的信息和相關(guān)依據(jù)。嵌入層的結(jié)構(gòu)如圖3-3所示。圖3-3基于用戶興趣的推薦模型嵌入層對于三元組進(jìn)行表示,主要依賴于頭實體和尾實體的距離,其計算公式如下:g(h,r,t)=(3-1)其中wr代表著關(guān)系r的變換矩陣。1.2.4傳播層在傳播層對用戶user和影片movie的信息進(jìn)行充分分析,為后期的交互預(yù)測奠定堅實的基礎(chǔ)。該層分為三個部分,具體如圖3-4所示。圖3-4基于用戶興趣的推薦模型傳播層1、信息傳播:主要依賴一個實體在多個三元組中存在,如此一來這樣的實體便可以充當(dāng)橋梁鏈接兩個或多個三元組,從而傳遞更多的信息,如e1→i2→u4和e2→i2→u4,e1和e2這兩個屬性作為項目i2的輸入,既豐富了項目i2也體現(xiàn)了用戶u4的興趣偏好。為了刻畫實體h的連通性結(jié)構(gòu),將實體h的線性組合表示為:e(3-2)其中g(shù)是控制三元組上每次傳播的衰減因子,表示頭實體到尾實體的傳播信息與實體關(guān)系之間的條件。2、知識感知注意力:利用近鄰結(jié)構(gòu),由于相鄰節(jié)點(diǎn)重要性的差異,使得鄰居傳播的信息也不相同,這為下一步編碼提供了更豐富的信息。知識感知注意力用于計算信息傳播中的權(quán)重,計算方式如下:g(3-3)這里選擇采用非線性激活函數(shù)tanh,原因是該函數(shù)收斂速度快。其中,空間關(guān)系r的頭實體和尾實體的距離大小影響著注意力的值,也就是說要傳播更多的信息就要接觸到更多的實體;此外,運(yùn)用了softmax函數(shù)將空間三元組里的系數(shù)進(jìn)行規(guī)范化,計算公式如下所示:g(3-4)3、長短期記憶網(wǎng)絡(luò)(LSTM):通過上一階段的信息輸入,LSTM不僅要探索序列信息還要生成用于表示編碼的整體語義。在電影推薦中存在的主要特征是用戶對影片的興趣是同時兼具穩(wěn)定與變化的特點(diǎn),這種時序性的偏好特征采用LSTM網(wǎng)絡(luò)模型進(jìn)行刻畫,有助于下一步的預(yù)測層推斷用戶和影片之間交互的可能性。LSTM網(wǎng)絡(luò)模型具有信息長時間的有效性機(jī)制,這就有利于信息通過一定的選擇保留下來,通過這種方式將用戶的偏好進(jìn)行相應(yīng)的選擇性記憶。然后,利用LSTM的每個神經(jīng)元內(nèi)部都存在的忘記門,主要作用是根據(jù)誤差函數(shù)的計算對權(quán)重進(jìn)行反饋,獲得部分信息是否被清除的指令,以此完成對信息的篩選,通過這種機(jī)制可以將用戶的部分興趣偏好進(jìn)行有效更新,從而避免了偏好長期保持不變的現(xiàn)象,防止推薦結(jié)果長期為用戶提供單一偏好的影片,造成推薦結(jié)果固化的問題。LSTM網(wǎng)絡(luò)模型中的門結(jié)構(gòu)和細(xì)胞狀態(tài)的計算公式如下:f(3-5)i(3-6)C(3-7)C(3-8)o(3-9)h(3-10)其中σ()是激活函數(shù),wf、wi、wo是權(quán)重參數(shù),bf、bi、bo是偏置,xer是輸入序列,與上一個隱藏層her-1的狀態(tài)結(jié)合,在激活函數(shù)的作用下構(gòu)成忘記門。通過xer和her-1的計算得到輸入門ier以及輸出門oer,決定信息是否丟棄要通過忘記門fl與前單元門狀態(tài)cer-1聯(lián)合完成。在這部分決定了用戶當(dāng)前的興趣偏好是保留還是更替,從而達(dá)到對用戶興趣偏好的了解,精準(zhǔn)勾勒用戶畫像,發(fā)現(xiàn)用戶潛在的需求,作為后期推薦的主要依據(jù)。接著通過最后的狀態(tài)her對整個路徑進(jìn)行表達(dá)pk,完善用戶整體的興趣特點(diǎn),充分考慮時間序列與興趣偏好的影響,從而有效提升推薦結(jié)果的準(zhǔn)確性。采用LSTM的結(jié)構(gòu)突出用戶興趣偏好所具有的時序特點(diǎn),更精細(xì)地描繪用戶畫像,了解用戶的需求。該部分通過合并信息中實體、實體類型及下一步關(guān)系,通過隱藏狀態(tài)對路徑中的信息進(jìn)行傳遞。在該層中對當(dāng)前實體和關(guān)系的嵌入進(jìn)行連接,當(dāng)最后一個實體出現(xiàn)時在結(jié)尾處添加一個空關(guān)系作為結(jié)束標(biāo)志。在學(xué)習(xí)下一步的隱藏狀態(tài)需要用到上一步的隱藏狀態(tài)向量her-1和輸入向量xer-1。在長度為L的路徑中,通過以下公式為用戶和影片的交互打分。s(3-11)其中W1和W2分別代表著第一、二全連接層的權(quán)重系數(shù)。1.2.5預(yù)測層在眾多的路徑中對于用戶而言,不同路徑的比重是不一樣的。因此,要區(qū)分好不同路徑對用戶的比重,采用加權(quán)的池化操作進(jìn)一步聚合所有路徑的得分,輸出最終預(yù)測得分。如圖3-5所示。圖3-5基于用戶興趣的推薦模型預(yù)測層首先聚合路徑的所有得分:g(3-12)其中γ是控制每個指數(shù)權(quán)重的超參數(shù)。接著對用戶--影片之間交互的分?jǐn)?shù)進(jìn)行計算:y(3-13)1.2.6基于用戶興趣的推薦流程基于用戶興趣的推薦模型流程為:首先,通過已經(jīng)構(gòu)建好的用戶--影片領(lǐng)域的知識圖譜提取出用戶和影片之間的信息;其次,將信息處理為基于用戶興趣的推薦模型中需要的形式;然后,通過加權(quán)池的池化操作預(yù)測;最后實現(xiàn)電影推薦,如圖3-6所示。圖3-6基于用戶興趣的推薦流程1.3實驗設(shè)計與結(jié)果分析1.1.1實驗設(shè)計1、實驗環(huán)境:實驗機(jī)器配置為:·主板:聯(lián)想80HR型號·處理器:Intel(R)Core(TM)i5-5200UCPU@2.20GHz·顯卡:AMDRadeon(TM)R5M330·操作系統(tǒng):Windows10專業(yè)版64-bit2、實驗數(shù)據(jù)集為了檢測基于用戶興趣的推薦模型效果,本實驗在MovieLens和IMDB的組合數(shù)據(jù)集(簡稱為MI)以及LastFM兩種數(shù)據(jù)集中進(jìn)行。MI數(shù)據(jù)集提供了用戶--影片之間的交互信息和影片輔助信息,如影片類型、導(dǎo)演、演員等;LastFM作為音樂類數(shù)據(jù)集含有用戶信息、歌曲信息及用戶的收聽記錄等。其中80%為訓(xùn)練集,其余的作為測試集。數(shù)據(jù)集信息如表3-1所示。表3-1實驗數(shù)據(jù)集信息LastFMMI#User18926040#Item176323859#Interactions92834998034#Entities2543411462#Relations46#Triplets1924301017030#Path876920155573556#AvgPathLength4.915.071.1.2實驗結(jié)果分析為了進(jìn)一步驗證該模型的優(yōu)越性,將實驗?zāi)P秃推渌鶞?zhǔn)模型在MI和LastFM兩種數(shù)據(jù)集上運(yùn)行,得到recall和ndcg兩種評價指標(biāo)的結(jié)果。其中TimingPreference代表基于用戶興趣的推薦模型,實驗結(jié)果如圖3-7和3-8所示。圖3-7MI數(shù)據(jù)集上的模型比較圖3-7所示為基于用戶興趣的推薦模型和其他基準(zhǔn)模型在MI數(shù)據(jù)集中進(jìn)行比較的結(jié)果圖,從圖中可以得出:隨著實驗次數(shù)的增加,recall和ndcg兩種評價指標(biāo)的變化逐步平穩(wěn);并通過與基準(zhǔn)模型的對比,基于用戶興趣的推薦模型在兩種評價指標(biāo)中所呈現(xiàn)出的性能都是最好的。圖3-8LastFM數(shù)據(jù)集上的模型比較圖3-8所示為基于用戶興趣的推薦模型和其他基準(zhǔn)模型在LastFM數(shù)據(jù)集中進(jìn)行比較的結(jié)果圖,從圖中可以看出:隨著實驗次數(shù)的增加,recall和ndcg兩種評價指標(biāo)的數(shù)值也都逐漸穩(wěn)定;同時對比其他基準(zhǔn)模型,基于用戶興趣的推薦模型的推薦性能最好。在以上實驗結(jié)果的比較中,盡管數(shù)據(jù)集存在具體數(shù)量的差異,但是在基于用戶興趣的推薦模型中總能呈現(xiàn)出較好的結(jié)果,因此能夠得出基于用戶興趣的推薦模型具有良好的推薦性能。使用MI數(shù)據(jù)集對基準(zhǔn)模型和基于用戶興趣的推薦模型進(jìn)行實驗研究,并對Precision和Hitrate兩種評價指標(biāo)進(jìn)行對比,其具體結(jié)果如表3-2所示。表3-2評價指標(biāo)對比ModelPrecisionHitRateFM0.01523(-0.105%)0.2144(-4.43%)NFM0.01547(-0.081%)0.2207(-1.8%)SocialMF0.01619(-0.009%)0.2357(-2.3%)RippleNet0.0162(-0.008%)0.2386(-2.01%)TimingPreference0.016280.2587表3-2中是五種推薦模型對應(yīng)的精準(zhǔn)率和命中率結(jié)果,其中Precision代表了推薦的結(jié)果中有多少是用戶真正喜歡的,HitRate是衡量召回率的指標(biāo),其數(shù)值越大就代表推薦的結(jié)果中包含用戶喜歡的信息就越多。在精準(zhǔn)率方面,F(xiàn)M模型的精準(zhǔn)率為0.01523,NFM模型的精準(zhǔn)率為0.01547,這兩種模型的核心思想分別是學(xué)習(xí)線性和非線性的特征,其中NFM模型中結(jié)合了神經(jīng)網(wǎng)絡(luò),有效提升了捕捉特征多階交互的能力,因此對于FM模型而言在精準(zhǔn)率方面弱于NFM模型。SocialMF模型的精準(zhǔn)率為0.01619,RippleNet模型的精準(zhǔn)率為0.0162,前者是在矩陣分解中引進(jìn)基于信任傳播的模型,后者是通過知識圖譜模擬用戶興趣傳播過程的模型,這兩種模型都是利用了社會網(wǎng)絡(luò)信息進(jìn)行推薦的思想,但后者通過知識圖譜中的關(guān)聯(lián)關(guān)系自動迭代擴(kuò)展用戶興趣,達(dá)到刺激用戶偏好傳播的效果,因此精準(zhǔn)率略高于SocialMF模型。本文設(shè)計的基于用戶興趣的推薦模型,對應(yīng)的精準(zhǔn)率為0.01628,該模型對于用戶的興趣偏好進(jìn)行保存,有效地更替不同時期的用戶偏好,改善原有的推薦結(jié)果固化問題,從而提升推薦結(jié)果的準(zhǔn)確性,較其他模型相對應(yīng)的精準(zhǔn)率也有所提高。在命中率方面,F(xiàn)M模型的命中率為0.2144,NFM模型的命中率為0.2207,由于NFM模型針對于特征交叉方面進(jìn)行優(yōu)化,在推薦結(jié)果中含有用戶感興趣的信息就越多,對應(yīng)的命中率也就高于FM模型。SocialMF模型的命中率為0.2357,RippleNet模型的命中率為0.2386,在RippleNet模型中模仿水波漣漪的傳播形式,將用戶單擊過的項目以“漣漪”的方式進(jìn)行疊加,形成對應(yīng)的偏好分布,很好地預(yù)測了用戶最終單擊的概率,比起SocialMF模型中單一的信任傳播,RippleNet模型的命中率也就相對較高。本文設(shè)計的基于用戶興趣的推薦模型,對應(yīng)的命中率為0.2587,該模型對推薦結(jié)果長期固定不變的現(xiàn)象進(jìn)行了改進(jìn),打破推薦結(jié)果固化的局面,用戶感興趣的項目增多,相對的命中率也較高。由此可見基于用戶興趣的推薦模型較于其他模型推薦性能較好,其中Precision平均提升了0.051%,HitRate平均提升了1.14%,在進(jìn)行推薦時可以增強(qiáng)推薦性能,提升了用戶體驗感受?;谟脩襞d趣的推薦模型,從用戶的興趣偏好問題作為切入點(diǎn),考慮到用戶在選擇影片時會由于興趣的變化而改變,本文采用了長短期記憶網(wǎng)絡(luò)(LSTM)來進(jìn)行用戶偏好時序性的刻畫,以此來改善推薦結(jié)果固化的問題。為了驗證該模型所考慮的用戶興趣時序性影響推薦結(jié)果的問題,通過去除傳播層中LSTM部分,直接計算信息傳播的權(quán)重,最后

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論