2024阿里媽媽技術(shù)年刊_第1頁
2024阿里媽媽技術(shù)年刊_第2頁
2024阿里媽媽技術(shù)年刊_第3頁
2024阿里媽媽技術(shù)年刊_第4頁
2024阿里媽媽技術(shù)年刊_第5頁
已閱讀5頁,還剩301頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

阿里媽媽成立于2007年,是淘天集團(tuán)商業(yè)數(shù)智營銷中臺。秉承著“讓每一份經(jīng)營都算數(shù)”的使命,阿里媽媽技術(shù)團(tuán)隊深耕AI在互聯(lián)網(wǎng)廣告領(lǐng)域的探索和大規(guī)模應(yīng)用,2021年5月,我們開始通過「阿里媽媽技術(shù)」微信公眾號持續(xù)分享我們的技術(shù)實踐與經(jīng)驗,覆蓋廣告算法實踐、AI平臺及工程引擎、智能創(chuàng)意、風(fēng)控每年此時,我們都會整理過去一年頗具表性和創(chuàng)新性的工作沉淀制作成冊,這些工作有的已為業(yè)務(wù)創(chuàng)造實際收益,有的是一些常見問題的新解法,希望可以為相關(guān)領(lǐng)域的期待明年此時,每位朋友都有新的收獲,而我們也帶著更多探索實踐來與大家分享《2024阿里媽媽技術(shù)年刊》開放下載,如果對這本電子書有想要探討的問題,或有更關(guān)注阿里媽媽技術(shù),了解更多精彩內(nèi)容~【NeurIPS'24】開源|AuctionNet:針對大規(guī)模博弈環(huán)強(qiáng)化學(xué)習(xí)在廣告自動出價場景的大規(guī)模落地實踐召回/預(yù)估模型展示廣告多模態(tài)召回模型:混合模態(tài)專家模型大規(guī)模約束優(yōu)化85【KDD'24】合約廣告中的雙目標(biāo)庫存分配【KDD'24】合約廣告中大規(guī)模多重線性約束庫存分配問題的高效局部搜索算法智能創(chuàng)意123開源|阿里媽媽技術(shù)開源FLUX圖像修復(fù)及蒸餾加速模型開源|筑基砥柱:EcomXL-萬相實驗室AIGC電商基礎(chǔ)模型131懂你,更懂電商:阿里媽媽推出淘寶星辰視頻生成大模型及圖生視頻應(yīng)用尺寸魔方:AIGC賦能下的視覺創(chuàng)意智能延展AtomoVideo:AIGC賦能下的電商視頻動效生成iimamate<h|目錄【ACL'24】視頻解說生成算法及在電商廣告中【ECCV'24】SPLAM:基于子路徑線性近似的擴(kuò)散因果推斷224隱私計算242阿里媽媽營銷隱私計算平臺SDH:公用云應(yīng)用案例分享242風(fēng)控技術(shù)252重磅!阿里媽媽新一代反作弊平臺「DNA」算法揭秘252算法工程264揭秘阿里媽媽『AI小萬』背后的AINative工程能力264AI生成存儲基座:自研超大規(guī)模向量數(shù)據(jù)庫DolphinVectorDB多智能體292哪家AI能成臥底之王?淘天技術(shù)團(tuán)隊發(fā)布多智能體博弈游戲平臺WiS1alimama·te<h|決策智能阿里媽媽首提AIGB并實現(xiàn)大規(guī)模商業(yè)化落地,將在NeurIPS2024正式開源Benchmark2023年,阿里媽媽首次提出了AIGB(AI-GeneratedBidding)Bidding模型訓(xùn)練新范式。AIGB是一種全新的迭代范式,把自動出價問題建模為生成式序列決策問題,這是生成式AI在該領(lǐng)域的首次應(yīng)用。經(jīng)過一年的探索和研發(fā),我們在阿里媽媽廣告平臺成功部署AIGB并取得顯著效果,我們還把過程中的發(fā)現(xiàn)和經(jīng)驗總結(jié)成論文發(fā)表在KDD2024,詳細(xì)分享了這一全新的迭代范式。為了激發(fā)該領(lǐng)域進(jìn)一步的技術(shù)創(chuàng)新,我們今年發(fā)起了大規(guī)模拍賣中的自動出價比賽,并特別設(shè)置了AIGB賽道,這一理念得到了NeurIPS的認(rèn)同,阿里媽媽成為國內(nèi)工業(yè)界今年唯一一家獲得NeurIPS比賽主辦權(quán)的組織。同時,我們也將在NeurIPS2024上正式開源AIGB的Benchmark:業(yè)界首個標(biāo)準(zhǔn)化的大規(guī)模模擬競價系統(tǒng)和論文作者:JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng廣告業(yè)務(wù)是互聯(lián)網(wǎng)公司營收的一項重要來源。僅在2023年,在線廣告市場的規(guī)2alimama·te<h|決策智能達(dá)到了6268億美元。在線廣告往往是通過流量拍賣的方式進(jìn)行廣告投放。廣告主需動廣告市場持續(xù)增長的關(guān)鍵因素。相比于傳統(tǒng)的手動出價,自動出價充分考慮了線上流量分布、競價環(huán)境、預(yù)算以及各種限制因素,在為廣告主帶來了更多價值的同時,促進(jìn)了平臺業(yè)務(wù)的增長。一種典型的自動出價目標(biāo)是在給定預(yù)算及其他約束的條件下最大化廣告主的流量價值。典型的自動出價任務(wù)包括給定預(yù)算下的最大化拿量任務(wù)Max-Return,以及給定預(yù)算和ROI約束的最大化拿量任務(wù)TargetRoas等。在實踐中,自動出價的優(yōu)化問題一般會被看作一個序列決策問題,出價模型在整個投效果。模型需要具備一定的全局視角,進(jìn)行整體規(guī)劃和決策。對于序列決策問題,一優(yōu),從而不斷提升策略效果。RL也是目前一種主流的Bidding解決方法。但是這種生成式模型助力Bidding范式升級生成式模型近年來得到了迅速的發(fā)展,在圖像生成、文本生成、計算機(jī)視覺等領(lǐng)域取得了重大突破。目前最新的生成式模型在分布擬合以及相關(guān)性關(guān)聯(lián)等方面顯著地優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)。工業(yè)界Bidding策略優(yōu)化的核心是基于歷史的Bidding數(shù)據(jù),通過模型挖掘策略與效果之間的相關(guān)性從對策略進(jìn)行優(yōu)化,是生成式模型落地的一個較為理想環(huán)境。基于這一洞察,我們提出了AIGB(AI-GeneratedBidding)解決方案。AIGB是一種基于生成式模型(Transformer、DiffusionModel等)的出價問題解決方案框架。與以往解決序列決策問題的RL思路不同,AIGB將Auto-Bidding視為一個策略生成問題,通過生成模型強(qiáng)大的特征關(guān)聯(lián)以及分布擬合能力,直接捕捉歷史Bidding數(shù)據(jù)集中優(yōu)化目標(biāo)和出價策略之間的相關(guān)性從而優(yōu)化策略。相比于RL方法,這種新的建模范式避免了價值函數(shù)預(yù)估和自舉法所所造成的誤差,尤其擅長處理3alimama·te<h|決策智能圖1:圖左歷史投放軌跡中,顏色深淺代表計劃return的不同。右圖為AIGB模型根據(jù)不同需求生成的新策略。整個模型看作一個分布處理pipeline,輸入歷史非最優(yōu)但存在有效信息的廣告投具備相關(guān)性的指標(biāo)視為一個有一定規(guī)律的數(shù)據(jù)分布。在訓(xùn)練階段,我們可以利用生成模型對這一數(shù)據(jù)分布進(jìn)行數(shù)據(jù)挖掘?qū)?yōu),這使得模型能夠自動學(xué)習(xí)出價策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項之間的相關(guān)性。在線上推斷階段,生成式模型可以基于理論上,AIGB范式可以兼容多種生成模型。目前常用的生成式模型包括Trans-former、DiffusionMod主要基于自注意力機(jī)制,能夠?qū)颖局锌鐣r序和分層信息進(jìn)行提取和關(guān)聯(lián),擅長進(jìn)行自回歸處理。而DiffusionModel則緩慢地將隨機(jī)噪聲添加到數(shù)據(jù)中,然后學(xué)習(xí)逆向擴(kuò)散過程以從噪聲中構(gòu)造所需的數(shù)據(jù)樣本。加噪和去噪的過程可以類比為是把特征用馬賽克遮住然后再還原的過程。相比之下,可以從細(xì)節(jié)到整體捕捉多個層次的相關(guān)性,從而提取出更多的有效信息,更擅長進(jìn)行分布建模。因此,基于不同的生成模型DiffBid:基于擴(kuò)散模型(DiffusionModel)的AIGB模塊組成。對于規(guī)劃模塊,我們首先將一個完整投放周期內(nèi)廣告主剩余預(yù)算、消耗速率、ROI、流量價值等出價相關(guān)狀態(tài)信息隨著時間不斷變化的過程看作一條Bidding以最大似然估計的方式擬合軌跡數(shù)據(jù)中的分布特征。因此,DiffBid可以基于給定目標(biāo)規(guī)劃出對應(yīng)的出價軌跡。在此基礎(chǔ)上,DiffBid會再利用一個逆動力學(xué)控制模型根4alimama·te<h|決策智能圖2:左為正向過程,右為反向過程。DiffBid正向與反向過程示例,對于一條由剩余正向過程不斷加入噪聲,破壞其有效信息,然后反向過程生成新的軌跡,最大限度將這部分丟前,DiffBid已經(jīng)多個場景的實驗中相比于傳統(tǒng)的RL方法產(chǎn)生了顯著的正向效果。其中在某場景Max-Return任務(wù)中,產(chǎn)生了GMV+3.6%的結(jié)果。在TargetRoas任務(wù)中,在保證整體ROI滿足要求的情況下取得了GMV+5.0%的結(jié)果。特別在TargetRoas中,由于ROI反饋稀疏且滯后,RL方法訓(xùn)練難度較大,而DiffBid受影響較小。因此,DiffBid既為廣告主帶來更多收益,又與此同時,我們通過進(jìn)一步分析,發(fā)現(xiàn)DiffBid模型在提效的同時,還能夠?qū)嶋H投顯著減少,振蕩性顯著降低,與此同時減少過快消耗的現(xiàn)象。廣告主的投放體驗也因圖3:真實線上剩余預(yù)算散點圖。橫軸為剩余時間,縱軸為剩余預(yù)算。越分散代表消耗越振蕩,投放平滑性越差。此外在圖a中,存在大量提前消耗完畢的投放軌跡。這部分軌跡可能會5alimama·te<h|決策智能除了實際線上效果的優(yōu)勢外,相比于其他方法,DiffBid還具有其他兩方面的優(yōu)勢。更好的可解釋性(圖4)。有助于我們對模型效果進(jìn)行更好的評估,從而助力優(yōu)化工作。例如,我們觀察模型規(guī)劃出的軌跡和實際線上的軌跡,如果出現(xiàn)規(guī)劃出的最終剩余預(yù)算不為0的情況說明模型并未能有效利用所有預(yù)算。如果規(guī)劃軌跡與實際軌跡差距較大,則說明逆動力學(xué)控制模型自適應(yīng)能力較差。在定位問題之后,可以較為方便地進(jìn)行針對性優(yōu)化。其次,DiffBid對多目標(biāo)的兼容能力更強(qiáng),與此同時支持在訓(xùn)練完成后對目標(biāo)進(jìn)行調(diào)整從而優(yōu)化規(guī)劃軌跡?;谶@一特點,我們可以更為方便地加入一些將業(yè)務(wù)邏輯指標(biāo)作為優(yōu)化目標(biāo),與Bidding模型更好在Max-Return任務(wù)優(yōu)化的過程中,可以將預(yù)算使用率合并進(jìn)入目標(biāo)中,同時保證圖4:橫坐標(biāo)軸表示時間,縱坐標(biāo)表示剩余預(yù)算和但時間步消耗。灰色曲線/柱子為最優(yōu)軌跡剩余預(yù)算曲線/消耗。紅色表示不同優(yōu)化目標(biāo)所對應(yīng)的規(guī)劃軌跡曲線??梢钥闯觯S著目標(biāo)Return變大,模型規(guī)劃會逐步逼近最優(yōu)軌跡。證明模型學(xué)到了合理的業(yè)務(wù)邏除了已經(jīng)展現(xiàn)出來的諸多優(yōu)勢之外,AIGB框架的開放性也能夠兼容諸多不同的方案設(shè)計。在阿里媽媽剛剛舉辦的NeurIPS2024:大規(guī)模拍賣中的自動出價比賽中,選手們基于不同的基礎(chǔ)生成模型,提出了一批不同于DiffBid的AIGB解決方案,出諸多亮點。其中有的選手充分利用了Transformer的優(yōu)勢,通過自回歸的方式預(yù)測給定優(yōu)化目標(biāo)的出價信息。有的選手提出Transformer全局規(guī)劃模型與bidding小模型結(jié)合的出價方案。也有基于Diffusion模型直接進(jìn)行在不同程度上展示出了優(yōu)勢,為未來AIGB的進(jìn)一步迭代提供了啟發(fā)。但是,我們相6alimama·te<h|決策智能信這僅僅是一個開始。未來隨著技術(shù)的進(jìn)一步發(fā)展,更多的AIGB方案涌現(xiàn)出來,從而以完全不同的方式重構(gòu)自動出價的技術(shù)體系。阿里媽媽沉淀了億級廣告投放軌跡數(shù)據(jù),是業(yè)界為數(shù)不多具備超大規(guī)模決策類數(shù)據(jù)資源儲備的平臺。這些海量數(shù)據(jù)資源可以成為營銷決策大模型訓(xùn)練的有力保證,從而推動AIGB技術(shù)的發(fā)展。期待后續(xù)有機(jī)7alimama·te<h|決策智能【NeurIPS'24】開源|AuctionNet:針對大規(guī)模博弈環(huán)境的出價決策Benchmark大規(guī)模博弈環(huán)境中的決策智能是人工智能領(lǐng)域內(nèi)的重要研究方向,對實際應(yīng)用具有深遠(yuǎn)影響。然而,由于缺乏全面且真實的博弈環(huán)境及相關(guān)數(shù)據(jù)集,這一領(lǐng)域的進(jìn)展受到了限制。為了解決這一問題,本文提出了一種基于在線廣告行業(yè)的自動出價決策問題的Benchmark,并命名為AuctionNet。AuctionNet境、基于該環(huán)境預(yù)生成的數(shù)據(jù)集以及幾種基礎(chǔ)出價決策算法的效果評估。廣告競拍環(huán)境通過深度生成式模型生成廣告流量數(shù)據(jù),旨在縮小仿真環(huán)境與現(xiàn)實問題之間的差距,同時避免敏感數(shù)據(jù)暴露的風(fēng)險。數(shù)據(jù)集中包含了48個不同出價智能體相互競價的日志,可幫助出價模型更好的訓(xùn)練。這個數(shù)據(jù)集共有5億條記錄,共計80GB。論文:AuctionNet:ANovelBenchmarkforDecision-MakinginLarge-ScaleGames作者:KefanSu,YusenHuo,ZhilinZhang,ShuaiDou,ChuanYu,JianXu,發(fā)表會議:NeurIPS2024DatasetsandBenchmarksTrack(Spotlight)在人工智能領(lǐng)域,大規(guī)模博弈中的決策問題是一個基礎(chǔ)性的研究方向。在大規(guī)模博弈中,智能體需要在競爭環(huán)境下,在特定約束條件下做出正確的決策以實現(xiàn)其目標(biāo)。智能決策的研究進(jìn)展對廣泛的現(xiàn)實應(yīng)用產(chǎn)生了深遠(yuǎn)影響。在線廣告是其中一種代表性的8alimama·te<h|決策智能應(yīng)用。其市場規(guī)模在2023年超過6000億美元。這一領(lǐng)域需要在大規(guī)模博弈中運用復(fù)雜的決策技術(shù)。具體來說,在線廣告系統(tǒng)主要通過流量拍賣的方式實現(xiàn)廣告投放。代表廣告主對大量持續(xù)到來的廣告流量進(jìn)行出價,目標(biāo)是在滿足特定約束條件(如投大規(guī)模廣告拍賣中的出價決策是大規(guī)模博弈決策的一個典型例子。然而,研究人員通常只能有限地訪問到真實的大規(guī)模廣告競拍環(huán)境,這一現(xiàn)狀會對該領(lǐng)域的研究造成阻礙。盡管業(yè)界已經(jīng)有了部分工作旨在為研究者提供一個仿真環(huán)境,但此類仿真環(huán)境大都無法對廣告系統(tǒng)中的復(fù)雜的流量分布及博弈行為進(jìn)行很好的描述,且可擴(kuò)展性不在本文中,我們提出了AuctionNet——源自真實在線廣告平臺的大規(guī)模廣告出價決策基準(zhǔn)。AuctionNet由三個部分組成:廣告競拍環(huán)境、基于該環(huán)境的預(yù)生成數(shù)據(jù)集以及對幾種基線出價決策算法的性能評估。具體來說,該環(huán)境通過多個模塊的交互,有效地復(fù)制了真實世界廣告競價的完整性和復(fù)雜性:廣告流量生成模塊基于深度生成式模型。這種方法可以縮小模擬數(shù)據(jù)和真實世界數(shù)據(jù)之間的差距,同時降低敏感數(shù)據(jù)暴露的風(fēng)險;出價模塊實現(xiàn)了使用不同決策算法訓(xùn)練的多樣化;拍賣機(jī)制模塊基于廣義二價(GSP)拍賣機(jī)制,同時也允許根據(jù)需要定制拍賣機(jī)制。為了促進(jìn)研究并提供對博弈環(huán)境的深入了解,我們還基于該環(huán)境預(yù)生成了一個大型數(shù)據(jù)集。該數(shù)據(jù)集包含48個不同的智能體相互競爭的軌跡,總計超過5億條記錄,大小達(dá)80GB。作為AuctionNet的一部分,我們還提供了線性規(guī)劃、強(qiáng)化學(xué)習(xí)和生成式模型等基線算法9alimama·te<h|決策智能2.問題建模在本文中,我們使用部分可觀測隨機(jī)博弈(POSG)來構(gòu)建這個問題。在POSG中,M={S,A,P,r,7,Z,0,I,T}表示一個元組,其中I=1,2,…,n表示所有智能體的集合,T為時間范圍,即一個周期所對應(yīng)的時間步數(shù),S表示狀態(tài)空間,A為動作空間,P(·Is,a):SXA→A(S)為轉(zhuǎn)移概率,v表示折扣因子,Z表示觀測空間,O(S,i):SXI→Z表示對每個智能體i從狀態(tài)到觀測的映射,r=r1Xr2X…XT'n是所有智能體的聯(lián)合獎勵函數(shù),ri(s,a):SXA→RA2X·…xAn是所有智能體的聯(lián)合動作。表示廣告流量j對智能體i的價值。智能體i的觀察值oi(wi,ui,Qi,vi)eZ僅包含狀態(tài)S中的部分信息,即智能體i可能不知道其他智能體的預(yù)算。基于自動出價領(lǐng)域的已有結(jié)論,智能體i對流量的出價可以被表示為一個出價系數(shù)ai與流量價值vij的乘積。因此,在這個時間步內(nèi)智能體i對所有廣告流量的出價為,其中m是這個時間步長內(nèi)的廣告流量數(shù)量。給定所有智能體的出價,根據(jù)拍賣機(jī)制的決定,智能體i將收到拍賣結(jié)果zi=(i1,2i2,""",im),其中當(dāng)且僅當(dāng)智能體i贏得流量j時,cij=1。智能體只會從贏得的流量中獲得獎勵并付出成本,即獎勵ri(s,a)=jm1ijvij以及成本jm-1ijcij。因此下一個時間步的預(yù)算wii=wijiijcij,其中cij是展示j對智能體i的成本。其中zt(zt1,zt,…,ztm)vt(vt1,vtwi是智能體i的預(yù)算,·表示內(nèi)積。在實現(xiàn)的時候,我們構(gòu)造ri(st,at)=cti,vti,T因此優(yōu)化公式中的目標(biāo)與t1ri(st,at)是相同的。T對于更復(fù)雜的場景,我們可以添加CPA約束以確保預(yù)算的有效利用。上述決策制定alimama·te<h|決策智能3.廣告競拍環(huán)境為了全面展示真實世界在線廣告平臺中的大規(guī)模博弈,我們開發(fā)了一個廣告競拍環(huán)境。為了規(guī)范自動出價過程,我們將一段時期內(nèi)的廣告流量劃分為T個決策時間步。根據(jù)目標(biāo),自動出價智能體在每個時間步依次進(jìn)行出價,利用第t步的結(jié)果和之前的歷史信息來改進(jìn)第t+1步的策略。這種設(shè)計理念使智能體能夠持續(xù)優(yōu)化其出價策略,以適應(yīng)不斷變化的環(huán)境。在每個時間步內(nèi),所有廣告流量都是獨立且并行執(zhí)行這個環(huán)境通過廣告流量生成模塊、競價模塊和廣告拍賣模塊的相互作用,有效地復(fù)現(xiàn)了真實世界中廣告拍賣的完整性和復(fù)雜性。為了更好地模擬現(xiàn)實中的大規(guī)模拍賣,環(huán)境中輸入了大量的廣告流量,并配置了數(shù)十個出價智能體。這些廣告流量是通過深度生成式模型產(chǎn)生的,以此減少模擬環(huán)境與現(xiàn)實之間的差距,同時避免敏感數(shù)據(jù)泄露的3.1流量生成模塊廣告流量生成模塊的目標(biāo)是生成與真實在線廣告數(shù)據(jù)相似的多樣化廣告流量。如圖2所示,該模塊的核心是深度生成式模型。我們使用了潛在擴(kuò)散模型(LDM)的方法來生成廣告流量。LDM在潛在空間中添加噪聲并使用擴(kuò)散模型進(jìn)行去噪,然后通過編碼器和解碼器從潛在空間生成數(shù)據(jù)。具體來說,LDM在訓(xùn)練過程中使用編碼器將廣告流量特征U映射到潛在向量y,并使用解碼器重構(gòu)這個特征。在生成時,LDM從正態(tài)分布中采樣一個隨機(jī)潛在向量,然后基于這個向量生成廣告流量特征。令UCRd為廣告流量特征數(shù)據(jù)(ua,U2,,uK)的空間,其中d是原始數(shù)據(jù)的維別表示為gφ和hy,其中φ和v是參數(shù)。編碼器gφ的功能是獲取原始數(shù)據(jù)的潛在表征,即gφ(uk)=(μk,Ok),其中ykN(μk,o2k)且ykeY是潛在表征。在alimama·te<h|決策智能給定潛在表征yk,解碼器負(fù)責(zé)從yk重構(gòu)原始數(shù)據(jù),即hv(yk)=U-keU。除了重構(gòu)之外,潛在分布N(μk,ok2)需要逼近標(biāo)準(zhǔn)高斯分布N(0,1)。因此,編碼器和解LDM在潛在空間中使用擴(kuò)散模型來生成潛在變量。擴(kuò)散模型背后的思想是向原始數(shù)據(jù)添加高斯噪聲以獲得服從N(0,1)的變量,并從N給定一個潛在變量y,我們將其經(jīng)過p次迭代后的噪聲版本表示為yp。擴(kuò)散模型包勻采樣得到的。網(wǎng)絡(luò)EO(yp,p)是擴(kuò)散模型中唯一可學(xué)習(xí)的組件,它通過基本操作實對于給定的廣告流量特征Uk,我們還需要確定這個廣告流量與對應(yīng)廣告主類別信息iimamate<h|決策智能信息。我們使用多頭注意力機(jī)制(Multi-headAttention,MHA)作為信息整合的網(wǎng)3.2出價模塊出價模塊復(fù)現(xiàn)了廣告主之間的動態(tài)競爭。每個廣告主都有不同的廣告目標(biāo),并使用獨立的自動出價智能體,同時對其競爭對手的策略并不了解。研究人員可以控制環(huán)境中的部分智能體,而其他智能體則保持不受控制。這種設(shè)置可以更好地反映現(xiàn)實世界在3.3拍賣機(jī)制模塊廣告拍賣模塊的任務(wù)是根據(jù)智能體對廣告流量的所有出價來確定贏家和中標(biāo)價格。根據(jù)不同的拍賣規(guī)則,智能體的成本會有所不同?;诔R姷腉SP拍賣,獲勝者會以第二高的出價而非最高出價來支付。為了方便研究人員進(jìn)行研究,拍賣模塊內(nèi)部支持包括GSP在內(nèi)的多種主流拍賣規(guī)則。此外,研究人員可以使用拍賣模塊的接口設(shè)計此外,環(huán)境中實現(xiàn)了多坑的屬性。多坑源于工業(yè)應(yīng)用,意味著單個廣告流量可能有多個廣告坑位用于展示。具有較高曝光率的廣告坑位對廣告主來說更有價值。假設(shè)廣告位數(shù)量為l,那么拍賣模塊將把l個廣告位分配給出價最高的l個出價者,這些出價者將根據(jù)廣告位不同的曝光率獲得不同的價值??偟膩碚f,多廣告位特性增加了最優(yōu)出4.預(yù)生成數(shù)據(jù)集為了更好地證明生成的數(shù)據(jù)能夠反映真實世界數(shù)據(jù)的特性,我們對廣告流量生成模塊本身的有效性進(jìn)行了驗證。廣告流量生成模塊包含兩個組成部分:特征生成式模型和我們隨機(jī)抽樣了10萬個真實世界在線廣告數(shù)據(jù)點,并與10萬個生成的數(shù)據(jù)點進(jìn)行alimama·te<h|決策智能性。3DPCA結(jié)果如圖3所示。為了更好地展示,我們在3D空間中使用了六個不同的視角。我們觀察到生成的數(shù)據(jù)在3D空間中與原始數(shù)據(jù)重疊。此外,生成的數(shù)據(jù)點在3D空間中形成了四個主要的獨立簇,這與真實世界的數(shù)據(jù)點類似。這些可視化結(jié)為了進(jìn)一步比較這兩個數(shù)據(jù)集,我們研究了兩個數(shù)據(jù)集中身份信息和消費行為信息的數(shù)值分布。實證結(jié)果如圖4所示。對比真實數(shù)據(jù)和生成數(shù)據(jù)中個人信息相關(guān)特征的取值分布:可以發(fā)現(xiàn)在年齡、會員等級、偏好的手機(jī)價格區(qū)間等具體的特征上,生成數(shù)在圖5中,我們對比了真實數(shù)據(jù)和生成數(shù)據(jù)中消費行為相關(guān)特征的取值分布:在統(tǒng)計消費行為的相關(guān)特征上,我們可以發(fā)現(xiàn)生成數(shù)據(jù)和真實數(shù)據(jù)都呈現(xiàn)出“長尾分布”,即絕大部分消費者的消費行為都比較稀疏,而存在小部分的消費者消費行為較為頻alimama·te<h|決策智能該數(shù)據(jù)集源自博弈環(huán)境中生成的數(shù)據(jù),其中多個自動出價智能體相互競爭。我們已經(jīng)預(yù)先生成了大規(guī)模的博弈數(shù)據(jù),以幫助研究人員更深入地了解競價系統(tǒng)。這些數(shù)據(jù)可數(shù)據(jù)集包含21個廣告投放周期,每個周期包含超過500,000個廣告流量,并被分為48個步驟。每個流量都包含出價最高的前48個智能體(注:真實世界的數(shù)據(jù)表明,數(shù)據(jù)集包含超過5億條記錄,總計80GB大小。每條記錄包含預(yù)測價值、出價、拍5.評估在實驗部分,論文評估了多種基線算法在AuctionNet環(huán)境中的性能,包括PIDController、OnlineLP、IQL、BC和DecisionTransformer。值得注意的是,我們使用了論文中的原始算法,并沒有在自動出價任務(wù)對這些方法做特殊的優(yōu)化。實驗結(jié)果如圖6所示。為了更好地說明問題,我們將所有基線方法的性能用啟發(fā)式基線Abid的平均周期獎勵進(jìn)行歸一化1.0。OnlineLP取得了最佳性能,這可能是因為它相對穩(wěn)健,無需為自動出價任務(wù)進(jìn)行特殊適應(yīng)就能取得良好效果。雖然IQL、BC等方法的表現(xiàn)不如OnlineLP,但我們觀察業(yè)界有在這些算法基礎(chǔ)上針對自動出價問題提出了一些新的解法(如AIGB)并有顯著效果提升,證明了這類方法具有巨大的優(yōu)化潛力。此外,在目標(biāo)CPA任務(wù)中所有基線方法的獎勵下降是由于超出約束而產(chǎn)生的CPA懲罰所致。alimama·te<h|決策智能6.在NeurIPS比賽上的應(yīng)用AuctionNet被應(yīng)用于NeurIPS2024競賽“Auto-BiddinginLarge-ScaleAuctions”中。該競賽解決了在不確定和競爭環(huán)境中進(jìn)行高頻出價決策的關(guān)鍵問題,歷時3個月并有來自全球1500多支隊伍參與其中。競賽中使用據(jù)集和基線出價決策算法均源自該Benchmark。廣告競拍環(huán)境為競賽提供了近萬次評估,為參賽者提供了準(zhǔn)確、公平的效果評估。數(shù)據(jù)集和基線算法使參賽者能夠快速啟動任務(wù)并激發(fā)他們的創(chuàng)造力,從而產(chǎn)生更多樣化和創(chuàng)新的解決方案,推動該領(lǐng)域的7.開源代碼alimama·te<h|決策智能8.總結(jié)AuctionNet環(huán)境仍然存在一定的局限性,包括生成數(shù)據(jù)與真實數(shù)據(jù)之間的偏差并沒有完全得到解決,以及AuctionNet環(huán)境的計算速度仍然偏慢,有待進(jìn)一步優(yōu)化。盡管如此,AuctionNet環(huán)境和數(shù)據(jù)集仍然為大規(guī)模博弈決策的研究提供了一個有價值的工具。這不僅為研究人員提供了在大規(guī)模拍賣中研究自動出價算法的機(jī)會,也可以幫助博弈論、強(qiáng)化學(xué)習(xí)、生成模型、運籌學(xué)等領(lǐng)域的研究人員和實踐者解決各種決策alimama·te<h|決策智能導(dǎo)讀:去年,我們提出了AIGB的初步設(shè)想與方案(延展閱讀:Bidding模型訓(xùn)練新AIGB的完整方案,并在實際在線廣告平臺大規(guī)模預(yù)算AB測試中取得了顯著效果。值得一提的是,AIGB的研究成果已被KDD2024大會接收。在本文中,我們將基于KDD公開發(fā)表的論文,詳細(xì)分享這一全新的作者:JiayanGuo,YusenHuo,ZhilinZhang,TianyuWang,ChuanYu,JianXu,YanZhang,BoZheng在2023年,在線廣告市場的規(guī)模達(dá)到了6268億美元,而自動出價已成為推動這一市場持續(xù)增長的關(guān)鍵因素。自動出價需要在順序到來的海量展示機(jī)會中依次做出出價決策,這是一個典型的長序列決策問題。近年來,強(qiáng)化學(xué)習(xí)(RL)在自動出價中得到了廣泛應(yīng)用。然而,目前大多數(shù)基于RL的自動出價方法都采用馬爾可夫決策過程(MDP)進(jìn)行建模,但在面對較長序列決策時,這些方法受到了誤差累積等因素的限制,效果表現(xiàn)受限。為了解決這些問題,本文提出了一種新范式AIGB——基于生成式模型的自動出價。在具體實現(xiàn)上,該方法基于條件生成模型,將出價決策軌跡與優(yōu)化目標(biāo)直接建模在一起,從而有效避免在長序列決策時跨時間步的誤差傳播。在應(yīng)用中,只需設(shè)定要達(dá)成的優(yōu)化目標(biāo)及特定約束,即可生成能夠最大化給定目標(biāo)的出價軌跡,依托此軌跡可以得到具體的出價決策動作。我們將該方法在阿里巴巴廣告平臺進(jìn)行大規(guī)模部署,并通過預(yù)算AB實驗進(jìn)行了長達(dá)一個月的效果觀察,充分驗證了該方法的有效性。在總交易額(GMV)和投資回報率(ROI)上分別實現(xiàn)了4.2%和5.6%的增長,同時顯著提升了廣告主的投放體驗。并且我們對該范式進(jìn)行了深入細(xì)致的分析,在出價軌跡規(guī)劃及出價動作的有效性上都展現(xiàn)出了不錯的潛力,對該范式的深入研究可以帶來持續(xù)的效果提升。alimama·te<h|決策智能廣告主的目標(biāo)是在滿足各個約束的條件下在整個投放周期內(nèi)部獲取最多的流量價值??紤]到廣告目標(biāo)、預(yù)算和M個KPI約束,自動出價問題可以被定義為一個帶約束的maxviziiS.t·cizi≤Bi0≤i≤1,vi其中,1cie{0,1}表示是否競得流量i,vi和ci分別表示流量i的價值(流量產(chǎn)生購買或GMV的可能性)和成本。kj是第j個約束的上界。pij表示效果指標(biāo),例如CPC、ROI等,cij第j個約束所關(guān)聯(lián)的流量消耗。如果只有預(yù)算B進(jìn)行約束,我們稱為MaxReturnBidding。如果同時考慮預(yù)算約束和CPC約束,我們稱為Target-CPCbidding。如果假設(shè)已經(jīng)知道整個投放周期內(nèi)流量集合的全部信息,包括能夠觸達(dá)的每條流量以及其流量價值和成本,那么可以通過解決線性規(guī)劃問題來獲得最優(yōu)。為了求優(yōu)化問題,我們一般通過對偶變換,構(gòu)造一個最優(yōu)出價公式,將原問題轉(zhuǎn)化為求解最價公式共包含m+1個核心參數(shù)uk,ke[0,…,M公式中其余項為在線流量競價時可獲得的流量信息。由于最優(yōu)出價公式存在,對于具有M+1個約束、且希望最大化贏得流量的總價值的問題,最優(yōu)解可以通過找到M+1個最優(yōu)參數(shù)并根據(jù)公式進(jìn)行出價,而不是分別為每個流量尋找最優(yōu)出價。理想情況下,通過求解最優(yōu)參數(shù)uk*,即1.2自動出價中的決策問題然而,在實際投放過程中,我們無法提前獲知整個投放周期的流量分布,需要在流量集合未知的情況下進(jìn)行實時競價。因此,由于無法直接計算出最優(yōu)參數(shù)Wk*,常規(guī)的線性規(guī)劃解決方法并不完全適用。在實踐中我們往往需要根據(jù)歷史信息對Wk*進(jìn)行預(yù)估,并得到預(yù)估值。由于環(huán)境隨機(jī)性大,進(jìn)行實時動態(tài)調(diào)整以適應(yīng)環(huán)境的變化。基于這一視角,我們可以將自動出價被看作一個序列決策問題。為了對這個問題進(jìn)行建模,我們引入狀態(tài)變量st描述實時投放狀態(tài),自動出價模型基于st輸出出價動作at,環(huán)境將動態(tài)變遷至下一狀態(tài)st+1,并獲取到相應(yīng)的獎勵rt。接下來我們進(jìn)行詳細(xì)狀態(tài)st:描述在時間段t的實時廣告投放狀態(tài),包含一下方面的信息:1)剩余投放時間;2)剩余預(yù)算;3)預(yù)算消耗速率;4)實時點擊成本(CostPer動作at:描述在時間段t對出價參數(shù)的調(diào)整,其維度與競價參數(shù)uk*的數(shù)量相符,并用向量形式(atw,…,QwtJ)表達(dá)。1.3生成式模型生成式模型近年來得到了迅速的發(fā)展,在圖像生成、文本生成、計算機(jī)視覺等領(lǐng)域取得了重大突破,并催生出了近期大熱的ChatGPT等。生成式模型主要從分布的角度去理解數(shù)據(jù),通過擬合訓(xùn)練數(shù)據(jù)集中的樣本分布來進(jìn)行特征提取,最終生成符合數(shù)據(jù)集分布的新樣本。目前常用的生成式模型包括Transformer[3]、DiffusionModel[4]等。Transformer主要基于自注意力機(jī)制,能夠?qū)颖局锌鐣r序和分層信息進(jìn)行提取和關(guān)聯(lián),擅長處理長序列和高維特征數(shù)據(jù),如圖像、文本和對話等。而Diffusion加入越來越多的信息,從而生成目標(biāo)分布中的樣本。這一過程與人類進(jìn)行繪畫過程較依靠生成式模型強(qiáng)大的信息生成能力,我們也可以引入生成式模型將序列決策問題建模為一個序列動作生成問題。模型通過擬合歷史軌跡數(shù)據(jù)中的行為模式,達(dá)到策略輸出的目標(biāo)。DecisionTransformer(DT)[5]和DecisionDiffuser(DD)[6]分別將alimama·te<h|決策智能RL方法[7,8]取得了較好的效果提升。這一結(jié)果為我們的Bidding建模提供了一個二、AIGB(AIGeneratedBidding)建模方案AIGB是一種利用生成式模型構(gòu)造的出價優(yōu)化方案。與以往解決序列決策問題的RL視角不同,AIGB將自動競價視為一個軌跡生成問題,直接捕捉優(yōu)化目標(biāo)和整個投放軌跡之間的相關(guān)性,從而克服RL在處理線上環(huán)境高隨機(jī)性、長序列稀疏回報和有限數(shù)據(jù)覆蓋時的性能瓶頸。在此基礎(chǔ)上,我們進(jìn)一步發(fā)揮生成模型的優(yōu)勢,嘗試通過多任務(wù)的方式解決出價問題。在訓(xùn)練過程中,對約束進(jìn)行條件化,使得推斷時的行為可以同時滿足多個約束組合。我們的研究結(jié)果表明,使用條件生成模型來解決出價問題的新策略。整個模型看作一個分布處理pipeline,輸入歷史非最優(yōu)但存在有效信息的廣告投放從生成式模型的角度來看,我們可以將出價、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個聯(lián)合概率分布,從而將出價問題轉(zhuǎn)化為條件分布生成問題。這意味著我們可以以優(yōu)化目標(biāo)和約束項為條件,生成相應(yīng)出價策略的條件式出價(AIGB)模型的流程:在訓(xùn)練階段,模型將歷史投放軌跡數(shù)據(jù)作為訓(xùn)練樣本,以最大似然估計的方式擬合軌跡數(shù)據(jù)中的分布特征。這使得模型能夠自動學(xué)習(xí)出價策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項之間的相關(guān)性。在線上推斷階段,生成式模型可以基于約束和優(yōu)化目標(biāo),以符合分布規(guī)律的方式輸出出價策略。總訓(xùn)練階段,條件生成式模型通過最大似然估計進(jìn)行訓(xùn)練,通過監(jiān)督學(xué)習(xí)的方式推斷階段,條件生成式模型可以根據(jù)不同的出價類型生成不同的出價軌跡,以alimama·te<h|決策智能2.1模型結(jié)構(gòu)po(t(T)t(T),y)其中出價策略zt(T):(st*,bt*,st*+t19…,ST*)是由未來的最優(yōu)狀態(tài)和與之對應(yīng)的最優(yōu)及約束項(PPC、ROI、投放平滑性)等。pO被用來估計條件概率分布。模型基于當(dāng)前的投放狀態(tài)信息以及策略生成條件輸出未來的投放策略,相比于以往的RL策略僅僅黑盒輸出單步action,AIGB策略可以被理解為在規(guī)劃的基礎(chǔ)上進(jìn)行決策,更擅長處理長序列問題。這一優(yōu)點有利于我們在實踐中進(jìn)一步減小出價間隔,提升策略的快速反饋能力。與此同時,基于規(guī)劃的出價策略也具備更好的可解釋性,能夠幫助我們2.2生成式建模我們提出一種基于AIGB范式的出價算法——DiffBid。在訓(xùn)練階段,DiffBid模型通過最大似然估計歷史數(shù)據(jù)集D中軌跡ti(T):=(SO,S,···,st)和策略生成條件y(T)所對應(yīng)的軌跡信息進(jìn)行訓(xùn)練,從而最大限度擬合歷史軌跡的分布信息:maTDlogpo((T))1(T),y(T)alimama·te<h|決策智能擬合歷史分布的過程可以通過引入Diffusion來完成。以我們真實使用的擴(kuò)散模型為例,我們將序列決策問題看作一個條件擴(kuò)散過2K+(T)的轉(zhuǎn)換均通過加入高斯擾動實現(xiàn);反向過程則表示高斯噪聲cK(T)轉(zhuǎn)化為歷高斯擾動實現(xiàn)。除此之外,在反向過程中,我們還希望能夠表達(dá)y(T)與k1(T)的相關(guān)性,因此可以引入DD模型中使用的Classifier-free方法,利用(eo(k(T),z'(T),y(T),k)o(rk(T),ac'(T),g,k))其中i表示不同的目標(biāo)或者約束,w用來調(diào)節(jié)y(T)的權(quán)重。Classifier-free方法可以較為優(yōu)雅地處理多種優(yōu)化目標(biāo)和約束條件,避免以往RL訓(xùn)練過程中由于約束信號稀疏而效果下降的問題。在此基礎(chǔ)上,我們可以計算每一個step的重構(gòu)誤差,也L(9,p)=k,TeDEEO(ark(T),y(T),k)I2然后通過最小化誤差的方式進(jìn)行訓(xùn)練。DiffBid模型的策略生成階段通過給定生成條件y(T)生成符合要求的出價軌跡。具體過程如下:2.3策略生成條件對于只有預(yù)算約束的單約束bidding問題,我們利用策略生成條件y(T)來表示優(yōu)化目標(biāo)。我們將每一條投放軌跡T在整個投放周期內(nèi)的總獎勵定義為Return,為了方其中Rmin和Rmar分別表示數(shù)據(jù)集中Retur據(jù)集中最好的軌跡,能夠更好地服務(wù)于廣告主的效果提升。R=0表示數(shù)據(jù)集中最差對于具有多約束的bidding問題,需要要求每一個約束變量都不能超過設(shè)定的閾值。我們在此基礎(chǔ)上將更多約束相關(guān)信息合并進(jìn)y(T)中,并維護(hù)一個二進(jìn)制變量E來指示最終CPC是否超過給定的約束K:將E合并進(jìn)y(T)中進(jìn)行訓(xùn)練。對于多約束變量,除了業(yè)內(nèi)普遍的CPC、ROI等約束以外,利用擴(kuò)散模型的強(qiáng)大能力,我們得以加入更多個性化的約束,我們稱為人類反饋約束。例如,廣告主可能會希望預(yù)算消耗盡可能均勻,進(jìn)一步減小爆量發(fā)生的概率。我們可以通過定義約束相a=ctct+來實現(xiàn)。其中ct表示廣告計劃在t時刻的總消耗。廣告主可能希望將特定時間段消耗更多的預(yù)算以應(yīng)對促銷活動,我們通過a-來表示。為了對AIGB的效果進(jìn)行驗證,我們通過仿真平臺和真實線上做了大規(guī)模的實驗。在離線實驗中,我們進(jìn)行了多維度的實驗,包括在MaxReturnBidding、Target-CPCBidding、廣告主反饋等。在此基礎(chǔ)上,我們將模型部署到線上場景進(jìn)行了線上的Max-Return場景進(jìn)行了實驗。alimama·te<h|決策智能3.1仿真實驗結(jié)果bidding方法[1],目前在業(yè)界被括BCQ[10]、CQL[7]以及IQL[10],USCB-5K表示利用USCB出價模型與環(huán)境交互產(chǎn)的數(shù)據(jù)集,USCBx-5K表示在USCB策略上加入一定的探索擾動。表1展示了DiffBid與基準(zhǔn)模型在MaxReturnBidding的效果對比。在這個表DiffBid作為評估的所有方法中表現(xiàn)最好的方法脫穎而出。在所有預(yù)算場景和訓(xùn)練數(shù)據(jù)集中,DIffBid模型始終獲得最高的累計獎勵。這一顯著的表現(xiàn)突顯了AIGB在優(yōu)化出價策略方面的能力,展示了將出價過程進(jìn)行生成式建模的優(yōu)勢——能夠做出更具有全局性的出價策略。另外一個關(guān)于AIGB性能的方面是其對探索數(shù)據(jù)具有更好的融合能力。AIGB比強(qiáng)化學(xué)習(xí)基線方法能夠更有效從探索數(shù)據(jù)中提取出更好的策略。圖3:AIGB與USCB消耗曲線對比,顏色的不同代表不同的預(yù)算alimama·te<h|決策智能我們進(jìn)一步研究AIGB策略的特點,我們比較了基準(zhǔn)方法USCB和DIffBid的分時消耗情況。在圖3中,我們繪制了一天中剩余預(yù)算比例隨時間步的變化。從圖中我們可以觀察到,在USCB下,大部分廣告商的消費未能耗盡他們的預(yù)算。這歸因于USCB面臨的線下虛擬環(huán)境和真實線上環(huán)境之間的不一致性。相反,在AIGB下,預(yù)算完成情況有所改善,大部分廣告商花費了超過80%的預(yù)算。一個可能的原因是DiffBid發(fā)現(xiàn)高預(yù)算完成比例的軌跡同樣會有高累積獎勵,因此傾向于生成預(yù)算完成比例高的軌跡。此外,小預(yù)算的廣告商傾向于在下午消費。這是因為下午的流量平均圖4:AIGB與IQL在Target-CPCBidding中的表現(xiàn)較。具體來說,我們檢查DiffBid和IQL控制整體CPC超額比例的能力,同時最大化總回報。在訓(xùn)練期間,我們設(shè)置不同的CPC閾值。然后在測試時,我們讓AIGB生成滿足期望CPC下的軌跡。在圖4中,我們展示了在不同CPC約束和訓(xùn)練設(shè)置下的超限比例和總回報。從圖中發(fā)現(xiàn),AIGB能夠在保持完整回報的同時,控制不同水平的超限比例,顯著優(yōu)于IQL。因此,AIGB在有效解決MCB問題上占據(jù)了明顯alimama·te<h|決策智能我們還研究了在不同廣告商反饋下的性能。在訓(xùn)練期間,我們將閾值將軌跡分為高低兩個水平,并學(xué)習(xí)不同水平下的條件分布。在生成期間,我們調(diào)整條件并生成相應(yīng)的樣本,并總結(jié)指標(biāo)。圖5顯示了低水平、高水平和原始軌跡的指標(biāo)的統(tǒng)計分布結(jié)果。我們發(fā)現(xiàn),部署AIGB獲得的軌跡能夠很好地受到條件的控制。3.2線上實驗結(jié)果:表2:線上AB實驗結(jié)果為了進(jìn)一步證實AIGB的有效性,我們已經(jīng)在阿里巴巴廣告平臺上與表現(xiàn)最優(yōu)的自動出價方法之一IQL方法進(jìn)行了比較。通過較長周期的在線A/B測試,實驗結(jié)果表明(如表2DiffBid可以將購買次數(shù)(Buycnt)提高2.72%,總商品交易額(GMV)提高4.2%,投資回報率(ROI)提高5.55%,ROI勝出率提升20.04%,展示了其在優(yōu)化整體性能方面的有效性。在效率方面,經(jīng)過GPU加速,AIGB可以很好地保證計算延時不增加太多。AIGB方案有諸多優(yōu)勢,包括解決困擾RLBidding在離線不一致問題,更好地訓(xùn)練alimama·te<h|決策智能多約束出價模型,更好的可解釋性以及更為順暢的與專家經(jīng)驗的結(jié)合能力等,這些優(yōu)勢可以幫助我們進(jìn)一步提升的模型迭代效率和效果上限?;贏IGB的出價方案目前已經(jīng)在阿里媽媽線上廣告場景落地??梢钥闯?,生成式模型驅(qū)動的AIGB已經(jīng)在以完全不同的方式重構(gòu)自動出價的技術(shù)體系。但是,這僅僅是一個開始。阿里媽媽沉淀了億級廣告投放軌跡數(shù)據(jù),是業(yè)界為數(shù)不多具備超大規(guī)模決策類數(shù)據(jù)資源儲備的平臺。這些海量數(shù)據(jù)資源可以成為營銷決策大模型訓(xùn)練的有力保證,從而推動AIGA技術(shù)的發(fā)展。與此同時,用戶和互聯(lián)網(wǎng)產(chǎn)品的交互方式也將發(fā)生深刻的變化。重塑廣告營銷模式的機(jī)會之門已經(jīng)在變化之中逐步顯現(xiàn),我們需要做的就是通過持續(xù)不斷的探索和alimama·te<h|決策智能【KDD'25】AIGA生成式拍賣:感知排列外部性從“先預(yù)估后分配”的判別式方法,到直接面向最終拍賣結(jié)果的生成式方法,生成式模型能否為在線廣告的拍賣機(jī)制優(yōu)化帶來持續(xù)增量?本文介紹阿里媽媽展示廣告機(jī)制策略團(tuán)隊在AIGA(AI-GeneratedAuction)方向的前沿探索-生成式拍賣研究廣告拍賣機(jī)制設(shè)計作為在線廣告系統(tǒng)的重要一環(huán),在持續(xù)優(yōu)化廣告主和平臺收益方面起著至關(guān)重要的作用。傳統(tǒng)的廣義二價拍賣(GSP)等拍賣機(jī)制依賴于點擊率分離假設(shè)(將廣告點擊率拆分為廣告自身質(zhì)量分和廣告位曝光權(quán)重的乘積忽略了頁面中同時展示的其它商品的影響,即外部性影響。近年來,基于深度學(xué)習(xí)的拍賣機(jī)制顯著增強(qiáng)了對高維上下文特征的編碼能力,但是現(xiàn)有方法仍受限于“先預(yù)估后分配”的設(shè)計范式。這種范式只能建模參競廣告集合內(nèi)的外部性,無法捕捉最終分配結(jié)果的整頁部性影響下的最優(yōu)拍賣機(jī)制,在理論最優(yōu)解的基礎(chǔ)上,我們提出了首個使用生成式模型建模排列外部性的廣告拍賣機(jī)制-生成式拍賣(ContextualGenerativeAuc-tion,CGA)。該框架通過自回歸模型生成廣告分配結(jié)果,并將激勵兼容(Incentive最優(yōu)計費規(guī)則。大規(guī)模離線實驗和在線A/B實驗表明CGA能顯著提升平臺收入等關(guān)基于該項工作整理的論文已被KDD’25ResearchTrack接收,歡迎閱讀交流。論文:ContextualGenerativeAuctionwithPermutation-levelExternalitiesfor作者:RuitaoZhu,YangsuLiu,DaguiChen,ZhenjiaMa,ChufengShi,Zhen-zheZheng,JieZhang,JianXu,BoZheng,FanWu2.引言在線廣告系統(tǒng)的最優(yōu)拍賣機(jī)制旨在最大化平臺期望收入,同時滿足經(jīng)濟(jì)學(xué)性質(zhì),包括激勵兼容和個體理性(IndividualRationality,IR算時延要求。IC條件要求廣告主真實報價最大化其自身效用,IR條件要求廣告主的在典型的點擊計費(Cost-per-Click,CPC)多坑廣告場景下,廣告拍賣機(jī)制的效果依賴于對廣告點擊率(CTR)的預(yù)估準(zhǔn)度。廣泛使用的GSP等機(jī)制使用精排階段的單點預(yù)估CTR,忽略了頁面展示的其它商品的影響。而實際場景中,用戶瀏覽的頁面包括多個商品,用戶在決策前通常會對不同商品進(jìn)行比較,因此同時曝光的其它商品會對目標(biāo)廣告的CTR產(chǎn)生影響,稱為“外部性”[1]。 VCG(SW-VCG[3])等工作考慮使用深度網(wǎng)絡(luò)刻畫外部性影響以提升平臺收入。然 而無論是DNA采用的先預(yù)估廣告rankscore再進(jìn)行排序,還是SW-VCG使用的先預(yù)估單調(diào)性分?jǐn)?shù)再求解二部圖最大匹配,這些方法本質(zhì)上都受到“先預(yù)估后分配”(allocation-after-prediction)范式的局限,預(yù)估時的上下文信息與分配后的最終上下文信息不一致,因此模型只能捕捉到粗粒度的廣告候選集層面的外部性。另一方面,NeuralMulti-slotAuction(NMA[4])等機(jī)制采用類似VCG拍賣的方式,遍 歷所有可能的排列結(jié)果以求解最優(yōu)分配,但是極高的計算復(fù)雜度使其難以應(yīng)用于在線場景。根據(jù)Myerson拍賣理論[5],拍賣機(jī)制的IC條件要求廣告主獲得的期望價值關(guān)于其出價滿足非遞減關(guān)系。大多數(shù)現(xiàn)有方法通過保證排序公式中出價的權(quán)重為正,使得廣告主提高出價能獲得相同或更前置的廣告位。但是在排列外部性的影響下,即使廣告驗數(shù)據(jù),二者的關(guān)系并不滿足單調(diào)性。因此,在排列外部性影響下,如何設(shè)計滿足激30alimama·te<h|決策智能本文旨在探索在排列外部性影響下,滿足IC和IR約束的收入最大化廣告基本形式和高效實現(xiàn)。我們首先給出系統(tǒng)性的理論分析,證明最優(yōu)解保留Myerson最優(yōu)拍賣的基本形式,即分配規(guī)則和計費規(guī)則可以進(jìn)行解耦。在理論最優(yōu)解的基礎(chǔ)上,我們引入經(jīng)典的生成器-評估器(Generator-Evaluator)架構(gòu),構(gòu)建感知排列外部性的生成式拍賣。最后,我們進(jìn)行工業(yè)數(shù)據(jù)集上的離在線實驗,在多維度指標(biāo)上3.問題建模與理論分析在線廣告場景可以抽象成一個典型的多坑拍賣問題。對于每條用戶請求,由n個廣告自身的私有估值vi提交出價bi,其中vi服從價值分布fi(·)。給定出價向量b,用戶特征向量u以及所有參競廣告的特征向量X=(a1,21""",an),平臺的拍賣機(jī)制決定分配方案A(aij)nxke{o,1}nxk以及廣告主的計費p=(pi)neRn,其中aij=1表示廣告i分配到廣告位j。廣告拍賣中的外部性指的是競勝廣告主的效用會受到其它競勝廣告的影響[1]。對于CPC多坑拍賣,外部性影響主要反映在廣告CTR上。我們用表示任意感知排列外部性的CTR模型,廣告i的CTR可以表示為o(zci;A,X,u),可以簡化表示為oi(b;X,u)。31ui(vi;b;X,u)=(vipi(b;X,u))·oi(b;X,u).個體理性(IR)條件則要求廣告主效用非負(fù)。廣告拍賣機(jī)制目標(biāo)為最大化平臺期望收入o~FRevM(b,X,u)=ni1pi(b;X,u)i(b;X,u),且滿足IC和IR約束。求解收入最大化機(jī)制的直觀想法是遵循經(jīng)典的Myerson拍賣,我們將排列外部性引入Myerson拍賣,可以寫成如下形式,其中-(bi,Fi)表示經(jīng)過i分配規(guī)則:AeargmarAiA-KA,jbi,Fi)(i;A,X,u);bibi0biooi(t,b-i;x,u)dtbioi(b;x,u)ifoi(b;X,u)>0;otherwise.需要注意的是,由于排列外部性的引入,在最終分配結(jié)果中其它廣告的影響下,廣告主提高出價不一定會提高最終的CTR,因此Myerson理論中的“單調(diào)分配”性質(zhì)在排列外部性影響下是否成立需要重新論證。我們理論證明了上述“單調(diào)分配”的性質(zhì)仍然保持,具體表述為如下引理1,完整證引理1:在排列外部性建模下,若拍賣機(jī)于任意廣告主i以及其它廣告主的出價向量bi,o(i;A(bi,bi),X,u)關(guān)于出價b;單調(diào)不減,或者稱分配規(guī)則A為單調(diào)的。為滿足IC、IR約束且最大化平臺期望收入的最優(yōu)拍賣機(jī)制,完整推導(dǎo)過程請參考論直接求解上述最優(yōu)分配結(jié)果需要枚舉參競廣告的所有可能排列結(jié)果,再進(jìn)行選優(yōu),枚舉過程的計算復(fù)雜度為P(n,k)=,線上場景下n50,k~5,枚舉過程的高復(fù)雜度無法滿足線上推理實驗要求。因此我們考慮將拍賣機(jī)制進(jìn)行參數(shù)化,通過數(shù)據(jù)驅(qū)動的方式進(jìn)行學(xué)習(xí)。為了在端到端學(xué)習(xí)的過程中滿足IC約束并保持優(yōu)化過程度量化為每個廣告主的ex-postregret,即廣告主通過虛報出價b'可以獲得的最大rgti(vi,X,u)=ma{ui(vi;bii,b-i;X,u)ui(vi;b;X,u)}.iiimamate<h|決策智能給定價值分布F中的L條采樣,則廣告主i的經(jīng)驗ex-postr4.生成式拍賣前文提到,現(xiàn)有的基于深度學(xué)習(xí)的拍賣機(jī)制受限于“先預(yù)估后分配”的設(shè)計范式,無法感知排列級外部性。我們提出的生成式拍賣引入了生成器-評估器的基本架構(gòu),模型整體架構(gòu)如圖2所示。生成器采用自回歸模型,逐坑位感知已經(jīng)決策完成的序列信息,生成廣告序列。評估器捕捉廣告序列中的商品相互影響,對精排階段的單點pCTR結(jié)合序列上下文信息進(jìn)行校準(zhǔn),在訓(xùn)練時為生成器提供獎勵信號。在線推理時,僅部署生成器,以保證線上推理時延。此外,我們構(gòu)建了PaymentNet模塊,通過優(yōu)化ex-postregret學(xué)習(xí)最優(yōu)計費規(guī)則。4.1生成器根據(jù)理論推導(dǎo)的最優(yōu)分配形式,生成器的目標(biāo)為根據(jù)n個參競廣告,生成長度為k的廣告序列A,以最大化期望虛擬福利。我們構(gòu)建的生成器包括兩部分:滿足排列alimama·te<h|決策智能不變性(permutation-invariant)的集合編碼器,以及滿足排列同變性(permuta-不會改變模型輸出的結(jié)果,排列同變性指的是輸入元素的排列順序改變會引起輸出結(jié)果的排列順序產(chǎn)生相同的改變。前者保證輸入模型的參競廣告順序不影響分配結(jié)果,后者在自動機(jī)制設(shè)計[7-9]的研究工作中廣泛應(yīng)用,[10]進(jìn)一步論證了排列同變性可集合編碼器旨在通過建模參競集合粒度的外部性來增強(qiáng)每個廣告的表征。編碼器首先[h1,h2,""",hn]=self-attention(le1,e2,""",en]),-,aAkC)=P(aAC)P(aA2C,aA)…P(aAkC,aA1,aA2,-,aAk).我們使用GRU單元建模參競廣告ai在坑位t的條件概率:p(aiC,aAi,-,aAti),st=GRU(st1,hAt),t=1,2,…,k.ztisoftmaa(MLP([st;hi)+ewini=1)i·其中w為可學(xué)習(xí)的參數(shù),e始終非負(fù),確保更高的虛擬價值獲得更大的分配概率,與最大化虛擬福利的目標(biāo)保持一致。我們接下來對在坑位t之前分配的廣告進(jìn)行mask操作,并基于概率zt進(jìn)行采樣以決策分配到當(dāng)前坑位t的廣告。重復(fù)k次GRU單元作用在每個state-ad對,且編碼器滿足排列不變性,因此解碼器滿足排34alimama·te<h|決策智能4.2評估器評估器的目標(biāo)為預(yù)估分配結(jié)果A中每個廣告的CTR(zci;A,X,u),進(jìn)一步在訓(xùn)練過程中為生成器提供獎勵信號。為了復(fù)用精排階段從用戶行為序列中提取的用戶興趣信息,避免冗余建模,評估器在精排單點pCTRaAe(0,1k的基礎(chǔ)上,預(yù)估排列外部性校準(zhǔn)向量7Ae(0,2)K,再將二者進(jìn)行逐元素相乘得到最終預(yù)估的CTR:OA=min(aAOA,1)。模型結(jié)構(gòu)上同時引入了雙向LSTM和self-attention外部性校準(zhǔn)向量:7A=2o(r(r(HAs;HAf;HAb;hul)),具體實現(xiàn)細(xì)節(jié)請參考論文4.3計費模塊通過蒙特卡洛采樣近似計算積分時,每次采樣都需要調(diào)用生成器和評估器,在實時推理時的計算開銷過大。在前文中,我們將IC條件改寫為每個廣告主的經(jīng)驗ex-postregret等于0,這使得我們可以通過數(shù)據(jù)驅(qū)動的方式構(gòu)建計費模塊學(xué)習(xí)上述最優(yōu)計費規(guī)則。計費模塊輸入包括廣告分配序列的表征HAeRkxd,出價矩陣",2AKK表示生成器輸出的廣告分配概率,oeA,eA2,…,OAk表示評估器輸出的外部性校準(zhǔn)后的CTR。為了滿足IR條件,計費模型通過sigmoid激活函數(shù)輸出計費比P-o(r(r(IHA;B-;Z.o)))e(o,1k,再與出價相乘得到最終計費P=POb。4.4訓(xùn)練流程訓(xùn)練時將基于生成器-評估器架構(gòu)的分配求解模塊與計費模塊的優(yōu)化進(jìn)行解估CTR。在評估器訓(xùn)練收斂后,我們凍結(jié)其參數(shù),指導(dǎo)生成器訓(xùn)練。類似推薦系統(tǒng)重排工作GRN[11]的損失函數(shù)設(shè)計思路,我們將獎勵函數(shù)拆解為兩部分。Self-Reward直接刻畫每個分配的廣告帶來的虛擬福利增量,即rAseilf-i·ei(b;A,u);External-Reward刻畫每個分配的廣告帶來的外部性影響,即類似VCG拍賣中的邊際貢獻(xiàn)的概念。二者相加即可得到分配廣告aAi的整體獎勵其中A;表示排除廣告aAi后的廣告序列。最后,我們使用PolicyGradient定義在生成器-評估器架構(gòu)訓(xùn)練收斂后,我們凍結(jié)其參數(shù),使用增廣拉格朗日方法求解第2節(jié)最后定義的約束優(yōu)化問題以優(yōu)化計費模塊,對違反IC條件施加懲罰項,增廣拉Lp=-DSED(pi(As)ei(As)iekiekiek(1)更新計費模塊的參數(shù)wuew=argminwpcp(wpold;dold(2)更新拉格朗日乘子λnew=old+p一rgt(upe").5.實驗我們在淘寶展示廣告場景的真實數(shù)據(jù)集上以及線上環(huán)境中評估生成式拍賣的有效性。36alimama·te<h|決策智能無外部性建模:GSP廣義二價拍賣。集合粒度外部性建模:DNA[2];SW-VCG[3]。排列級外部性建模:基于枚舉實現(xiàn)的VCG拍賣;EdgeNet[12];理論推導(dǎo)的最5.1離線實驗離線實驗使用的訓(xùn)練集和測試集分別包括不同日期隨機(jī)采樣的50萬條和10萬條拍賣日志,每次拍賣約有30個廣告參競。我們考慮廣告主出價的條件分布分別服從均標(biāo)包括平臺收入指標(biāo)RPM(RevenuePerMilleCTR以及評估機(jī)制IC條件的指IDlSDikui(i,b;,;u)IDlSDikui(i,b;,;u)實驗結(jié)果如表1所示??梢杂^察到隨著外部性建模從不考慮外部性到集合粒度外部性,再到排列級外部性,三個指標(biāo)均趨向更優(yōu)。此外,注意到與基于枚舉法實現(xiàn)的理論最優(yōu)上界相比,生成式拍賣(CGA)達(dá)到了95表1:離線對比實驗。指標(biāo)后的百分比增減量表示基線方法5.2在線實驗我們在展示廣告場景進(jìn)行了線上A/B實驗果表明,生成式拍賣在推理時延僅增加1.6%的情況下,平臺收入指標(biāo)RPM提高了alimama·te<h|決策智能3.2%,CTR提升1.4%,成交GMV提升6.4%,廣告主ROI提升3.5%。實驗結(jié)果表明生成式拍賣帶來的收入提升不是由于直接抬高廣告主計費,而是通過感知排列級外部性優(yōu)化廣告分配,實現(xiàn)更精準(zhǔn)的廣告觸達(dá),反映于CTR、GMV以及廣告主6.總結(jié)本文從廣告拍賣機(jī)制中的排列級外部性影響出發(fā),打破“先預(yù)估后分配”的設(shè)計范式,針對在線廣告場景提出了感知排列外部性的生成式拍賣。我們的理論結(jié)果表明,經(jīng)典的Myerson拍賣在遷移到排列級外部性的形式后,仍然保持其最優(yōu)性?;谶@一結(jié)論,我們設(shè)計的生成式拍賣架構(gòu)將分配和計費模塊解耦。在具體實現(xiàn)上,我們構(gòu)建了基于生成器-評估器的自回歸生成式結(jié)構(gòu)來優(yōu)化分配,并將IC約束量化為最小化期望事后后悔來學(xué)習(xí)最優(yōu)支付規(guī)則。工業(yè)級場景的離在線實驗驗證了生成式拍賣的有效性。值得注意的是,我們提出的生成式拍賣框架并不局限于特定的生成式模型。我們未來的研究工作將探索引入更加高效的生成式架構(gòu),并在拍賣機(jī)制中統(tǒng)一分配來[1]ArpitaGhoshandMohammadMahdian.Externalitiesinonlineadvertising.WWW’08.[2]XiangyuLiu,ChuanYu,ZhilinZhang,ZhenzheZheng,YuRong,HongtaoLv,DaHuo,YiqingWang,DaguiChen,JianXu,FanWu,GuihaiChen,andXiaoqiangZhu.Neuralauction:End-to-endlearningofauctionmechanismsfore-commerceadvertising.KDD'21.[3]NingyuanLi,YunxuanMa,YangZhao,ZhijianDuan,YurongChen,ZhilinZhang,JianXu,BoZheng,andXiaotieDeng.Learning-BasedAdAuctionDesignwithExternalities:TheFrameworkandAMatching-BasedApproach.KDD'23.[4]GuogangLiao,XuejianLi,ZeWang,FanYang,MuzhiGuan,BingqiZhu,YongkangWang,XingxingWang,andDongWang.2022.NMA:NeuralMulti-slotAuctionswithExternalitiesforOnlineAdvertising.arXivpreprintarXiv:2205.10018(2022).[5]RogerBMyerson.1981.Optimalauctiondesign.Mathematicsofoperationsresearch6,1(1981),58–73.[6]PaulDütting,ZheFeng,HarikrishnaNarasimhan,DavidParkes,andSaiSrivatsaRavindranath.Optimalauctionsthroughdeeplearning[7]ZhijianDuan,HaoranSun,YurongChen,andXiaotieDeng.Ascalableneuralnetworkfordsicaffinemaximizerauctiondesign.NeurIPS'24.[8]DmitryIvanov,IskanderSafiulin,IgorFilippov,andKseniaBalabaeva.O38alimama·te<h|決策智能auctionsthroughattention.Ne[9]JadRahme,SamyJelassi,JoanBruna,andSMatthewWeinberg.Apermutation-equivariantneuralnetworkarchitectureforauctio[10]TianQin,FengxiangHe,DingfengShi,WenbingHuang,andDachengTao.Benefitsofpermutation-equivarianceinauctionmechanisms.NeurIPS'22.[11]YufeiFeng,BinbinHu,YuGong,FeiSun,QingwenLiu,andWenwuOu.2021.GRN:GenerativeRerankNetworkforContext-wiseRecommendation.arXivpreprintarXiv:2104.00860(2021).[12]GuangyuanShen,ShengjieSun,DehongGao,DuanxiaoSong,LibinYang,ZhenWang,YongpingShi,andWeiNing.EdgeNet:Encoder-decodergenerativeNetworkforAuc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論