版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
haweicom?現(xiàn)任華為諾亞方舟實驗室技術(shù)專家,負(fù)責(zé)推薦系統(tǒng)、機器學(xué)習(xí)前沿技術(shù)的研究與落地,幫助華為多個產(chǎn)品構(gòu)建推薦系統(tǒng),包括:華為瀏覽器,華為學(xué)術(shù)論文30+篇,擔(dān)任SIGKDD(2017~now)、SIGAPP(2018~now)程序委JudeaPearl:通向強人工智能的因果學(xué)習(xí)三層次用反事實推理、學(xué)習(xí)未觀測事物今強人工智能能力,也是真正的智能。第一層“關(guān)聯(lián)”:基于“觀察”學(xué)習(xí)變量間關(guān)聯(lián)關(guān)系,基于可觀測的樣本進(jìn)行預(yù)測,未考慮因果關(guān)系今弱人工智能?面向關(guān)聯(lián)關(guān)系的推薦模型?基于反事實學(xué)習(xí)的推薦系統(tǒng)?推薦中的因果干預(yù)技術(shù)信息信息系統(tǒng)的偏置問題Positionbiasdescribesthetendencyofuserstointeractwithitemsontopofalistwithhigherprobabilitythanwithitemsatalowerpositioninthelist,regardlessoftheitems'actualrelevance.FromAStudyofPositionBiasinDigitalLibraryRecommenderSystems,2018位置偏置:描述用戶傾向性地選擇處于更好位置的物品進(jìn)行交互,這種傾向性與物品是否滿足用戶的實際需求無關(guān)。擊率12345位置偏置導(dǎo)致好位置的廣告(流行)CTR高,使用該數(shù)據(jù)建模型會加劇馬太效應(yīng)。Selectionbiasoccurswhenthestudypopulationisnotrepresentativeofthetargetpopulationsothatthemeasureofrisks/benefitsdoesnotaccuratelyrepresentthetargetpopulationtowhichconclusionsarebeingextended.FromPharmacoepidemiology選擇偏置發(fā)生于:“被研究群體”不能夠代表“目標(biāo)群體”,以至于對“被研究群體”的風(fēng)險/收益的衡量不能夠準(zhǔn)確地表征“目標(biāo)群體”,導(dǎo)致所獲結(jié)論不Pr(click=1|context,item,recommender)≠Pr(like=1|context,itemScStαjβj=log()Sc中展示量最多的廣Sc中展示量最多的廣應(yīng)用Sc流量學(xué)習(xí)的模型,會高估這部分廣ImpressionbiasImpressionbiasinflatesclicksclicks信息系統(tǒng)偏置問題的原因:Closedfeedbackloop 交互上線 交互上線學(xué)習(xí) 生成推薦系統(tǒng)推薦模型訓(xùn)練數(shù)據(jù)impressionsLeadtoinflateditempopularity推薦/搜索系統(tǒng)會增強FeedbackloopsnsystemsincreaseshomogeneityanddecreasesutilityRecSys?信息系統(tǒng)的偏置挑戰(zhàn)?面向推薦系統(tǒng)的因果學(xué)習(xí)???型于反事實學(xué)習(xí)的推薦系統(tǒng)推薦系統(tǒng)的因果干預(yù)技術(shù)基于“觀察”學(xué)習(xí)變量間關(guān)聯(lián)關(guān)系,基于可觀測的樣本進(jìn)行預(yù)測,擬并未考慮因果關(guān)系模型(推薦模型研究歷史)面向關(guān)聯(lián)關(guān)系的推薦模型(推薦模型研究歷史)面向關(guān)聯(lián)關(guān)系的推薦1995-1999年,協(xié)同過濾推薦技術(shù)被應(yīng)用于電子商務(wù)領(lǐng)域Amazon,CDNow,eBay,Levis推薦競賽中獲得冠軍2.線性模型Machines(FFM)模3.低秩模型量應(yīng)用到推薦系統(tǒng)RecSys0%論文使用DNN技術(shù)與多任務(wù)、序列學(xué)習(xí)、因果推斷等融合4.深度模型?信息系統(tǒng)的偏置挑戰(zhàn)?面向推薦系統(tǒng)的因果學(xué)習(xí)???推薦模型基于反事實學(xué)習(xí)的推薦系統(tǒng)推薦系統(tǒng)的因果干預(yù)技術(shù)用反事實推理、學(xué)習(xí)未能樣本空間樣本空間界樣本空間??aineperformanceModelthebiasO到無偏推薦模型?UnobservO到無偏推薦模型?UnobservUnbiasederved反OCounterfactuals定義:aprobabilisticanswertoa“whatwouldhavehappenedif”question(JudeaPearl)O基于反事實學(xué)習(xí)的推薦技術(shù)策略:BBiasederved1并實樣本(反事實策略model(插補模型):σ(·),1并實樣本(反事實策略model(插補模型):σ(·),O挑戰(zhàn):Oσ(·)不容易學(xué)習(xí)O對全量樣本求解復(fù)雜度高;采樣求解會引入未知偏置DemystifyingDoubleRobustness:AComparisonofAlternativeStrategiesforEstimatingaPopulationMeanfromIncompleteData.StatisticalScience,2007.800+引用DirectMethodO用“可觀測樣本”學(xué)習(xí)Imputation用于預(yù)測“不可觀測樣本”的labelO對全量樣本求解:1,1,ImprovingAdClickPredictionbyConsideringNon-displayedEvents,CIKM2019我們的工作2:構(gòu)建并學(xué)習(xí)反事實樣本,同時糾正選擇偏置和位置偏置我們的工作2:構(gòu)建并學(xué)習(xí)反事實樣本,同時糾正選擇偏置和位置偏置imputationmodel預(yù)估每個反事實樣本(useri,itemj,positionk)三元組的UnbiasedAdclickpredictionforposition-awareadvertisingsystem,RecSys2020PropensityPropensityscore,修正可觀測樣本,使其分布與期望樣本分布接近。接近期望分布OInversePropensityScore(為策略采樣數(shù)據(jù))與期望但未觀測數(shù)據(jù)(目標(biāo)策略所需數(shù)據(jù))之間分布的不一致。O對可觀測樣本求解:樣本調(diào)權(quán)O優(yōu)點:只需對已觀測樣本學(xué)習(xí)O挑戰(zhàn):OPropensity不容易學(xué);當(dāng)候選集數(shù)量大時,其預(yù)估值很小,少許偏差將帶來較大誤差。O需要滿足兩個假設(shè): LearningandEvaluation.ICML16我們的工作:基于eweightsInfluenceFunction我們的工作:基于eweightsInfluenceFunctionInfluencefunction單個訓(xùn)練樣本對于單個驗證集樣本的損失影響的函數(shù).ModeldependentUnbiasedvalidationdataluencevalidationdataLefunctionLefunctionmyl,ylwnfluenceFunctionforUnbiasedRecommendationSIGIR反3“修正可事實策略+“學(xué)習(xí)不可觀測樣本”偏CG反3“修正可事實策略+“學(xué)習(xí)不可觀測樣本”偏CG高效求觀測樣本”學(xué)習(xí)model?O挑戰(zhàn):onsideringNondisplayedEventsCIKM?信息系統(tǒng)的偏置挑戰(zhàn)?面向推薦系統(tǒng)的因果學(xué)習(xí)???型于反事實學(xué)習(xí)的推薦系統(tǒng)推薦系統(tǒng)的因果干預(yù)技術(shù)“Nocausationwithoutmanipulation”DonaldRubin隨機流量隨機流量OCausalEmbeddings:應(yīng)用隨機策略(無偏)流量和非隨機策略(有偏)流量聯(lián)合學(xué)習(xí)兩個模型,OWc和λcR(Wc):非隨機投放策略流量更新;OWt和λtR(Wt):隨機投放策略流量更新Causalembeddingsforrecommendation.RecSys18.Bestpaperaward工作1:直接用無偏數(shù)據(jù)建模OPilotstudyforHuaweiAds.pproachAUCimprovessimprovendomrandompproachandomrandomO工業(yè)級的推薦系統(tǒng)需要大量的無偏樣本才能學(xué)習(xí)到統(tǒng)計顯著的推薦模型O隨機投放策略影響用戶體驗和平臺收入RelatedpinsatPinterest:Theevolutionofareal-worldrecommendersystem.WWW17我們的工作2:基于知識蒸餾框架的無偏數(shù)據(jù)學(xué)習(xí)我們的工作2:基于知識蒸餾框架的無偏數(shù)據(jù)學(xué)習(xí)?Motivation:“無偏數(shù)據(jù)”作為teacher,指導(dǎo)“有偏數(shù)據(jù)”,進(jìn)行聯(lián)合學(xué)習(xí)?蒸餾特征:利用無偏數(shù)據(jù)學(xué)習(xí)stablefeatures/samples?蒸餾樣本:聯(lián)合學(xué)習(xí)有偏樣本和無偏樣本,如causalembedding1WeightedCombination策略:1DelayedCombination策略:的的ctionacrossUnknownEnvironmentsKDDMotivation口利用因果推理技術(shù),評估單個變量對結(jié)果變量的因果關(guān)系口CausalEffectDefinition:TcausesYifandonlyifchangingTleadstoachangeinY,keepeverythingelseconstant口X={S,V},Y=f(S)S:causalfeaturesV:non-causalfeatures口Target:MakingV⊥YtorecovercausationbetweenXandY口Ways:makingeachvariableinXbecomesindependentwithothersbylearningaglobalsampleweightsW:權(quán)重W調(diào)節(jié)特征j,使其取值的變化,對其他特征影響盡可能小,從而使j只對labelY產(chǎn)生影響。而是從由St產(chǎn)生的預(yù)測標(biāo)簽中受益。representation中受益。其他其他干預(yù)策略nterventionOCounterfactualreinforcementlearningCausalIR?工業(yè)級的信息系統(tǒng):?海量樣本?高維特征?CausalIR?工業(yè)級的信息系統(tǒng):?海量樣本?高維特征?復(fù)雜模型?Google、華為、阿里都在這個技術(shù)路線上?未來信息檢索系統(tǒng)需要理解人的決策機偏凡事過往,皆為序章CausalCausalRecSys?EstimatingPositionBiasWithoutIntrusiveInterventions,WSDM19?AGeneralFrameworkforCounterfactualLearning-to-Rank,SIGIR19?UnbiasedLearning-to-RankwithBiasedFeedback,WSDM17bestpaper?RecommendationsasTreatments:DebiasingLearningandEvaluation,ICML16?CriteoAILab:?DomainadaptationinDisplayadvertising,RecSys19?CausalEmbeddingsforRecommendation,RecSys18bestpaper?OfflineA/Btestingforrecommendersystem,WSDM18bestpaperrunnerup?Off-policyevaluationforslaterecommendation,NIPS17?Unbiasedofflineevaluationofcontextual-bandit-basednewsarticlerecommendationalgorithms,WSDM11bestpaper?DoublyRobustPolicyEvaluationandLearning,ICML2011?NationalTaiwanUniversity:Chih-JenLin;UCLA:Kai-WeiChang?MenAlsoLikeShopping:ReducingGenderBiasAmplificationusingCorpus-levelConstraints,EMNLP2017bestpaperLnbiasedLearningtoRankWWW?EstimatingPositionBiaswithoutIntrusiveInterventions,WWW19?PositionBiasEstimationforUnbiasedLearningtoRankinPersonalSearch,WSDM18?DegenerateFeedback
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦公室員工培訓(xùn)效果持續(xù)改進(jìn)方案制度
- 銀行批量貸款盡職免責(zé)制度
- 等差數(shù)列寫小學(xué)題目及答案
- 2026年及未來5年市場數(shù)據(jù)中國海南省二手房出售行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃報告
- 車輛維修制度
- 肺氣腫患者的長期護理計劃
- 試述行政追償制度
- 行業(yè)產(chǎn)教融合共同體的制度
- 2025年公務(wù)員國企事業(yè)編考試及答案
- 2025年事業(yè)編還沒準(zhǔn)備好考試及答案
- (高清版)DG∕TJ 08-9-2023 建筑抗震設(shè)計標(biāo)準(zhǔn)
- 經(jīng)內(nèi)鏡逆行胰膽管造影(ERCP)護理業(yè)務(wù)學(xué)習(xí)
- 《特種設(shè)備74號令宣貫材料》知識培訓(xùn)
- 波形護欄施工質(zhì)量控制方案
- 2024年重慶市中考英語試卷真題B卷(含標(biāo)準(zhǔn)答案及解析)+聽力音頻
- 系統(tǒng)性紅斑狼瘡的飲食護理
- 電氣試驗報告模板
- 陶瓷巖板應(yīng)用技術(shù)規(guī)程
- 道德經(jīng)原文(白話版)
- WORD版A4橫版密封條打印模板(可編輯)
- 1比較思想政治教育
評論
0/150
提交評論