版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
[40]中介紹的方法,利用KMeans聚類對當(dāng)前用戶數(shù)據(jù)進行擴充。5.2.1節(jié)介紹選擇對當(dāng)前用戶進行擴充的用戶集時,需要用相似度與閾值α進行對比,如果大于閾值則使用此用戶進行擴充。圖5-3是對α訓(xùn)練的結(jié)果,其中橫坐標是α的值,縱坐標是Min(CDet)Norm值越小系統(tǒng)性能越好。圖5-3對擴充用戶集閾值α的訓(xùn)練Figure5-3Trainingofthresholdαofexpansionuserset從圖中可以看出,隨著α的提高,系統(tǒng)性能先提高后降低,當(dāng)α取0.5時系統(tǒng)性能最好,為0.2447。主要原因是:當(dāng)α取值較小時,會將很多不相似用戶拿來對當(dāng)前用戶數(shù)據(jù)進行擴充,導(dǎo)致擴充后的結(jié)果包含較多噪聲,因此系統(tǒng)效果較差;而當(dāng)α取值較大時,大于閾值的用戶較少,對當(dāng)前用戶圖5-4訓(xùn)練集上UCRM與baseline結(jié)果Figure5-4Resultsintrainingcorpus圖5-5測試集上UCRM與baseline結(jié)果Figure5-5Resultsintestingcorpus的擴充幅度也較少,不能很好解決數(shù)據(jù)稀疏問題。圖5-4是在訓(xùn)練集上UCRM系統(tǒng)與baseline系統(tǒng)的比較圖。當(dāng)相似用戶閾值λ取0.184961時UCRM系統(tǒng)的性能達到最好,(CDet)Norm的最小值為0.2447。從圖中可以看到,UCRM系統(tǒng)比baseline的效果有了很大提高,而且UCRM的DET曲線大部分在baseline的左下方,說明在相似用戶閾值λ取大部分值的情況下,UCRM的效果都要好于baseline。主要原因是UCRM利用相關(guān)領(lǐng)域的用戶群對當(dāng)前用戶的興趣進行擴充,不僅解決了用戶數(shù)據(jù)稀疏問題,而且由于群體興趣的穩(wěn)定性,還防止了對單個用戶興趣判定的偏差。圖5-5是在測試集上UCRM與baseline的結(jié)果比較,其中UCRM比baseline的效果提高了7.12%。從圖中可以看出,雖然UCRM在測試集上仍比baseline效果要好,但是UCRM在測試集上的效果要比其在訓(xùn)練集上的效果差很多。原因是:在訓(xùn)練集上對擴充用戶集的閾值α進行了充分訓(xùn)練,因此選擇的對當(dāng)前用戶進行擴充的相似用戶比較準確,數(shù)據(jù)擴充效果較好;但是在測試集上無法對α進行訓(xùn)練,因此α的值仍取0.5,利用這個閾值在測試集上選擇擴充用戶,如果α偏小,則會選擇很多不相關(guān)用戶對當(dāng)前用戶數(shù)據(jù)進行擴充,引入了很多噪聲,而如果α值偏大,則選擇的擴充用戶較少,無法很好的解決數(shù)據(jù)稀疏問題。本章小結(jié)本章首先分析了相似用戶群建立的幾個較好方法的優(yōu)缺點,然后結(jié)合這些方法的優(yōu)點,提出了基于相關(guān)性模型的相似用戶群建立的方法,利用相似query段落內(nèi)的相似用戶對當(dāng)前用戶的查看網(wǎng)頁數(shù)據(jù)進行擴充。最后,對相似用戶群的實驗結(jié)果進行了介紹,并對實驗結(jié)果進行了相似的分析,分析了UCRM方法取得較好效果的原因,以及存在的一些問題。結(jié)論本文針對個性化中的重要子課題相似用戶群的建立與更新展開研究。相似用戶群的建立與更新的主要任務(wù)是,在一定的興趣領(lǐng)域中,通過對用戶的檢索和瀏覽歷史分析,找到與每個用戶興趣相似的其它用戶。相似用戶群建立的研究可以應(yīng)用到個性化檢索和推薦中,通過用戶所在的用戶群的興趣挖掘單個用戶興趣,并對用戶潛在的興趣進行預(yù)測,挖掘用戶潛在的新興趣。國內(nèi)外已經(jīng)有很多研究機構(gòu)對個性化檢索和相似用戶群建立展開研究,但是,由于缺乏合理的任務(wù)劃分和標準評測集,此任務(wù)的研究也因此受到了很大的限制。因此,在本文的研究中,我們將個性化檢索劃分為用戶新興趣發(fā)現(xiàn)、用戶興趣跟蹤、相似用戶群的建立以及個性化檢索四個子任務(wù)。同時利用語料標注輔助系統(tǒng),收集了標注者在天網(wǎng)100G語料上進行的檢索行為以及標注的正確答案,建立起了標準評測集。在評測中,利用錯檢率、漏檢率和系統(tǒng)性能損耗代價對系統(tǒng)進行評測。因此將相似用戶群從個性化檢索中分離出來,作為一個獨立的子任務(wù)進行研究。在相似用戶群的研究中,數(shù)據(jù)稀疏問題是限制系統(tǒng)性能的一個重要問題。因此本文借鑒話題跟蹤中用于數(shù)據(jù)擴充的相關(guān)性模型,提出了基于相關(guān)性模型的相似用戶群建立算法,簡稱UCRM。文中首先針對相關(guān)性模型缺點,提出了基于向量空間的相關(guān)性模型,簡稱VRM,并將其應(yīng)用到相似用戶群的建立中。在研究中,我們將用戶的query按照檢索對象進行劃分,在每個query段落內(nèi)建立一個相似用戶群。相似query段落內(nèi)的相似用戶查看歷史被用來擴充當(dāng)前query段落內(nèi)的用戶,擴充采用VRM模型,由query段落的相似度和用戶的相似度決定擴充的數(shù)據(jù)的權(quán)重。最后,在系統(tǒng)的語料集上,將UCRM方法與基于聚類數(shù)據(jù)擴充的相似用戶群方法進行比較。結(jié)果顯示,UCRM方法比baseline系統(tǒng)的效果在訓(xùn)練集上顯著高于baseline系統(tǒng),說明UCRM方法不僅較好的解決了數(shù)據(jù)稀疏問題,而且利用用戶群的興趣挖掘單個用戶興趣,可以防止單個用戶興趣判定的偏差。但是UCRM在測試集上的性能比在訓(xùn)練集上下降了很多。原因是,在訓(xùn)練集上訓(xùn)練的擴充用戶選擇閾值α,在測試集上不合適,此閾值過大或過小會導(dǎo)致數(shù)據(jù)稀疏不能完全解決或擴充數(shù)據(jù)不準確。因此,如何在當(dāng)前語料中動態(tài)劃定擴充用戶選擇的閾值,將是后續(xù)研究的一個重要方面。參考文獻曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述.軟件學(xué)報.2002,13(10):1952~1961趙繼海.論數(shù)字圖書館個性化定制服務(wù).中國圖書館學(xué)報.2001,(03):63~65黃曉斌.基于協(xié)同過濾的數(shù)字圖書館推薦系統(tǒng)研究.大學(xué)圖書館學(xué)報.2006,(01):53~57白麗君.基于內(nèi)容和協(xié)作的信息過濾方法研究.情報學(xué)報.2005,(03):304~308J.S.Breese,D.Heckerman,andC.Kadie.EmpiricalanalysisofPredictiveAlgorithmsforCollaborativeFiltering.Proceedingsofthe14thConferenceonUncertaintyinArtificialIntelligence,1998:43~52.A.KohrsandB.Merialdo.ClusteringforCollaborativeFilteringApplications.ProceedingsofCIMCA'99,1999.IOSPress,1999:419~424L.H.UngarandD.P.Foster.ClusteringMethodsforCollaborativeFiltering.ProceedingsofWorkshoponRecommendationSystemsatthe15thNationalConferenceonArtificialIntelligence,MenloPark,CA,1998.AAAIPress,1998:175~190T.HofmannandJ.Puzicha,LatentClassModelsforCollaborativeFiltering.Proceedingsofthe16thInternationalJointConferenceonArtificialIntelligence,1999.SanFrancisco,MorganKaufmannPublishers,1999:688~693M.DeshpandeandG.Karypis.Item-basedtop-nrecommendation.ACMTransactionsonInformationSystems.2004,22(1):143~177B.Sarwar,G.Karypis,J.Konstan,andJ.Riedl.Item-basedcollaborativefilteringrecommendationalgorithms.Proceedingsofthe10thWWWConference,HongKong,2001.NewYork,ACMPress,2001:285~290J.L.Herlocker,J.A.Konstan,A.Borchers,andJ.Riedl.Analgorithmicframeworkforperformingcollaborativefiltering.Proceedingsof22ndSIGIRConference,California,1999.NewYork,ACMPress,1999:230~237R.Jin,J.Y.Chai,andL.Si.Anautomaticweightingschemeforcollaborativefiltering.Proceedingsof27thSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,Sheffield,2004.NewYork,ACMPress,2004:337~344JunWang,ArjenP.deVries,MarcelJ.T.Reinders.UnifyingUser-basedandItem-basedCollaborativeFilteringApproachesbySimilarityFusion.Proceedingsofthe29thSIGIRConferenceonResearchanddevelopmentininformationRetrieval,Washington,2006.NewYork,ACMPress,2006:501~508陳健,印鑒.基于影響集的協(xié)作過濾推薦算法.軟件學(xué)報.2007,(07):1685~1694Baeza-Yates.現(xiàn)代信息檢索.王知津.機械工業(yè)出版社.2005:20~22P.Resnick,N.Iacovou,M.Suchak,P.Bergstrom,andJ.Riedl.Grouplens:Anopenarchitectureforcollaborativefilteringofnetnews.ProceedingsofACMConferenceonComputerSupportedCooperativeWork,1994:175~186JonathanL.Herlocker.EvaluatingCollaborativeFilteringRecommenderSystems.ACMTransactionsonInformationSystem.2004,22(01):5~53MichaelP.O’Mahony,NeilJ.Hurley,GuenoleC.M.Silvestre.Utility-basedneighborhoodformationforefficientandrobustcollaborativefiltering.Proceedingsofthe5thACMconferenceonElectronicCommerce,NewYork,2004.NewYork,ACMPress,2004:260~261Linden,G.,Smith,B.,York,J.,2003,“ARecommendations:Item-to-ItemCollaborativeFiltering”,inIEEEInternetComputing,20037(1):76~81ZanHuang,HsinchunChen,DanielZeng.ApplyingAssociativeRetrievalTechniquestoAlleviatetheSparsityProbleminCollaborativeFiltering.ACMTransactionsonInformationSystem.2004,22(01):116~142K.Goldberg,T.Roeder,D.Gupta,andC.Perkins.Eigentaste:AConstantTimeCollaborativeFilteringAlgorithm.InformationRetrieval.2001,4(2):133~151D.Fisher,K.Hildrum,J.Hong,M.Newman,M.Thomas,andR,Vuduc.SWAMI:aFrameworkforCollaborativeFilteringAlgorithmDevelopmentandEvaluation.Proceedingsofthe23rdSIGIRConferenceonResearechandDevelopmentinInformationRetrieval,Athens,2000.NewYork,ACMPress,2000:366~368B.M.Sarwar,G.Karypis,J.A.Konstan,andJ.Riedl.ApplicationofDimensionalityReductioninRecommenderSystems:aCaseStudy.InACMWebKDDWorkshop,2000:42~53C.Zeng,C.-X.Xing,L.-Z.Zhou.SimilarityMeasureandInstanceSelectionforCollaborativeFiltering.Proceedingsof12thInternationalWorldWideWebconference,Budapest,2003.NewYork,ACMPress,2003:652~658Z.Huang,H.Chen,D.Zeng.ApplyingAssociativeRetrievalTechniquestoAlleviatetheSparsityProbleminCollaborativeFiltering.ACMTransactionsonInformationSystems,2004,22(1):116~142M.Balabanovic,Y.Shoham.Fab:Content-based,CollaborativeRecommendation.CommunicationoftheACM.1997,40(3):66~72M.Claypool,A.Gokhale,T.Miranda,P.Murnikov,D.Netes,andM.Sartin.CombiningContent-BasedandCollaborativeFiltersinanOnlineNewspaper.InProceedingsofACMSIGIRWorkshoponRecommender,1999:210~217A.Popescul,L.H.Ungar,D.M.Pennock,andS.Lawrence.ProbabilisticModelsforUnifiedCollaborativeandContent-basedRecommendationinSparse-dataEnvironments.Proceedingsofthe17thConferenceonUncertaintyinArtificialIntelligence,2001.SanFrancisco,MorganKaufmannPublisher,2001:437~444GLinden,BSmith,JYork.Amazonrecommendationsitem-to-itemcollaborativefiltering.InternetComupting.2003,7(01):76~80ASDas,MDatar,AGarg.GoogleNewsPersonalization:ScalableOnlineCollaborativeFiltering.Proceedingsofthe16thinternationalconferenceonWorldWideWeb,Alberta,2007.NewYork,ACMPress,2007:271~280Seung-TaekPark,DavidM.Pennock.ApplyingCollaborativeFilteringTechniquestoMovieSearchforBetterRankingandBrowsing.Proceedingsofthe13thSIGKDDConferenceonKnowledgediscoveryanddatamining,SanJose,2007.NewYork,ACMPress,2007:550~559/speech/tests/tdt/tdt2003/evalplan.htmXuehuaShen,BinTan,ChengXiangZhai.ImplicitUserModelingforPersonalizedSearch.Proceedingsofthe14thACMinternationalconferenceonInformationandknowledgemanagement,Bremen,2005.NewYork,ACMPress,2005:824~831MartiA.Hearst.Multi-ParagraphSegmentationofExpositoryText.Proceedingsofthe32ndannualmeetingonAssociationforComputationalLinguistics,LasCruces,1994.Morristown,AssociationforComputationalLinguistics,1994:9~16VLavrenko,JAllan,EDeGuzman.RelevanceModelsforTopicDetectionandTracking.ProceedingsoftheHumanLanguageTechnologyConference,SanDiego,2002.MorganKaufmannPublisher,2002:104~110.洪宇,張宇,劉挺.話題檢測與跟蹤的評測及研究綜述.中文信息學(xué)報.2007,14(06):71~87XLi,WBCroft.Noveltydetectionbasedonsentencelevelpatterns.Proceedingsofthe14thACMinternationalconferenceonInformationandknowledgemanagement,Bremen,2005.NewYork,ACMPress,2005:744~751GPCFung,JXYuandPSYu.ParameterFreeBurstyEventsDetectioninTextStreams.Proceedingsofthe31stinternationalconferenceonVerylargedatabases,Trondheim,2005.VLDBEndowment2005:181~192
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職(紡織技術(shù)基礎(chǔ))紡織工藝階段測試試題及答案
- 2025年高職烹調(diào)工藝與營養(yǎng)(菜品研發(fā))試題及答案
- 2025年中職第一學(xué)年(會展禮儀)VIP客戶接待禮儀階段測試試題及答案
- 2025年高職衛(wèi)生檢驗技術(shù)(衛(wèi)生檢驗應(yīng)用)試題及答案
- 2025年中職中國影視作品鑒賞(國產(chǎn)劇賞析)試題及答案
- 2025年高職第二學(xué)年(會展策劃)活動策劃專項測試試題及答案
- 2025年中職建設(shè)工程管理(工程安全管理)試題及答案
- 2025年大學(xué)生物(細胞結(jié)構(gòu)與功能)試題及答案
- 2025年高職編導(dǎo)(編導(dǎo)基礎(chǔ))試題及答案
- 2025年高職(旅游管理)旅游學(xué)基礎(chǔ)試題及答案
- 香港專業(yè)服務(wù)助力中國內(nèi)地企業(yè)出海成功案例實錄
- 人文護理:護理與人文關(guān)懷的國際化趨勢
- 2025年國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)四年級勞動教育模擬測試題及答案
- 2025年及未來5年中國瀝青混凝土行業(yè)市場供需格局及行業(yè)前景展望報告
- 防止錯漏混培訓(xùn)課件
- 2025年及未來5年中國鐘表修理市場運行態(tài)勢及行業(yè)發(fā)展前景預(yù)測報告
- 2024集中式光伏電站場區(qū)典型設(shè)計手冊
- (人教A版)選擇性必修一高二數(shù)學(xué)上冊 全冊綜合測試卷-基礎(chǔ)篇(原卷版)
- 《汽車發(fā)動機構(gòu)造與維修》課件 項目7 任務(wù)3 蠟式節(jié)溫器的檢查
- 2026屆陜西省西安市西北大附屬中學(xué)數(shù)學(xué)七年級第一學(xué)期期末考試試題含解析
- Coze培訓(xùn)課件教學(xué)課件
評論
0/150
提交評論