版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
序阿里媽媽成立于2007年,是淘天集團(tuán)商業(yè)數(shù)智營(yíng)銷中臺(tái)。秉承著“讓每一份經(jīng)營(yíng)都算數(shù)”的使命,阿里媽媽技術(shù)團(tuán)隊(duì)深耕AI在互聯(lián)網(wǎng)廣告領(lǐng)域的探索和大規(guī)模應(yīng)用,并通過技術(shù)創(chuàng)新驅(qū)動(dòng)業(yè)務(wù)高速成長(zhǎng),讓商業(yè)營(yíng)銷更簡(jiǎn)單高效。2021年5月,我們開始通過「阿里媽媽技術(shù)」微信公眾號(hào)持續(xù)分享我們的技術(shù)實(shí)踐與經(jīng)驗(yàn),覆蓋廣告算法實(shí)踐、AI平臺(tái)及工程引擎、智能創(chuàng)意、風(fēng)控、數(shù)據(jù)科學(xué)等多個(gè)方向。每年此時(shí),我們都會(huì)整理過去一年頗具表性和創(chuàng)新性的工作沉淀制作成冊(cè)。《2023阿里媽媽技術(shù)年刊》涵蓋機(jī)制策略、召回匹配、預(yù)估模型、智能創(chuàng)意、算法工程/引擎系統(tǒng)建設(shè)等內(nèi)容,這些工作有的已為業(yè)務(wù)創(chuàng)造實(shí)際收益,有的是一些常見問題的新解法,希望可以為相關(guān)領(lǐng)域的同學(xué)帶來一些新的思路。期待明年此時(shí),每位朋友都有新的收獲,而我們也帶著更多探索實(shí)踐來與大家分享交~如果對(duì)這本電子書有想要探討的問題,或有更好的建議,也歡迎通過「阿里媽媽技術(shù)」微信公眾號(hào)與我們聯(lián)系。最后,祝大家新春快樂~祝福如初,愿不負(fù)追求與熱愛,萬事盡可期待!本書共435頁,全部?jī)?nèi)容近48萬字。如果覺得還不錯(cuò),別忘了分享給身邊的朋友~阿里媽媽技術(shù)團(tuán)隊(duì)|目錄目錄機(jī)制策略1邁步從頭越-阿里媽媽廣告智能決策技術(shù)(自動(dòng)出價(jià)&拍賣機(jī)制)的演進(jìn)之路1Bidding模型訓(xùn)練新范式:阿里媽媽生成式出價(jià)模型(AIGB)詳解26萬字長(zhǎng)文,漫談廣告技術(shù)中的拍賣機(jī)制設(shè)計(jì)(經(jīng)典篇)36PerBid:在線廣告?zhèn)€性化自動(dòng)出價(jià)框架55AuctionDesignintheAuto-biddingWorld系列一:面向異質(zhì)目標(biāo)函數(shù)廣告主的拍賣機(jī)制設(shè)計(jì)69自動(dòng)出價(jià)下機(jī)制設(shè)計(jì)系列(二):面向私有約束的激勵(lì)兼容機(jī)制設(shè)計(jì)79增廣拍賣——二跳頁下的拍賣機(jī)制探索89Score-WeightedVCG:考慮外部性的智能拍賣機(jī)制設(shè)計(jì)99合約廣告中端到端流量預(yù)估與庫存分配108強(qiáng)化學(xué)習(xí)在廣告延遲曝光情形下的保量策略中的應(yīng)用123MiRO:面向?qū)弓h(huán)境下約束競(jìng)價(jià)的策略優(yōu)化框架134預(yù)估模型142排序和準(zhǔn)度聯(lián)合優(yōu)化:一種基于混合生成/判別式建模的方案142轉(zhuǎn)化率預(yù)估新思路:基于歷史數(shù)據(jù)復(fù)用的大促轉(zhuǎn)化率精準(zhǔn)預(yù)估154基于特征自適應(yīng)的多場(chǎng)景預(yù)估建模174HC^2:基于混合對(duì)比學(xué)習(xí)的多場(chǎng)景廣告預(yù)估建模183AdaSparse:自適應(yīng)稀疏網(wǎng)絡(luò)的多場(chǎng)景CTR預(yù)估建模193貝葉斯分層模型應(yīng)用之直播場(chǎng)景打分校準(zhǔn)203召回匹配216代碼開源!阿里媽媽展示廣告Match底層技術(shù)架構(gòu)最新進(jìn)展 216|目錄BOMGraph:基于統(tǒng)一圖神經(jīng)網(wǎng)絡(luò)的電商多場(chǎng)景召回方法220CC-GNN:基于內(nèi)容協(xié)同圖神經(jīng)網(wǎng)絡(luò)的電商召回方法229RGIB:對(duì)抗雙邊圖噪聲的魯棒圖學(xué)習(xí)241MemorizationDiscrepancy:利用模型動(dòng)態(tài)信息發(fā)現(xiàn)累積性注毒攻擊251智能創(chuàng)意262ACMMM'23|4篇論文解析阿里媽媽廣告創(chuàng)意算法最新進(jìn)展262上下文驅(qū)動(dòng)的圖上文案生成267基于無監(jiān)督域自適應(yīng)方法的海報(bào)布局生成273基于內(nèi)容融合的字體生成方法278化繁為簡(jiǎn),精工細(xì)作——阿里媽媽直播智能剪輯技術(shù)詳解286視頻分割新范式:視頻感興趣物體實(shí)例分割VOIS297風(fēng)控技術(shù)305阿里媽媽內(nèi)容風(fēng)控模型預(yù)估引擎的探索和建設(shè)305大模型時(shí)代的阿里媽媽內(nèi)容風(fēng)控基礎(chǔ)服務(wù)體系建設(shè)323隱私計(jì)算344廣告營(yíng)銷場(chǎng)景下的隱私計(jì)算實(shí)踐:阿里媽媽營(yíng)銷隱私計(jì)算平臺(tái)SDH344阿里媽媽營(yíng)銷隱私計(jì)算平臺(tái)SDH在公用云的落地實(shí)踐353算法工程/引擎/系統(tǒng)建設(shè)363積沙成塔——阿里媽媽動(dòng)態(tài)算力技術(shù)的新演進(jìn)與展望363阿里媽媽智能診斷工程能力建設(shè)380廣告深度學(xué)習(xí)計(jì)算:向量召回索引的演進(jìn)以及工程實(shí)現(xiàn)390Dolphin:面向營(yíng)銷場(chǎng)景的超融合多模智能引擎398阿里媽媽Dolphin智能計(jì)算引擎基于Flink+Hologres實(shí)踐414DolphinStreaming實(shí)時(shí)計(jì)算,助力商家端算法第二增長(zhǎng)曲線424|機(jī)制策略機(jī)制策略邁步從頭越-阿里媽媽廣告智能決策技術(shù)(自動(dòng)出價(jià)&拍賣機(jī)制)的演進(jìn)之路作者:妙臨、霽光、璽羽導(dǎo)讀隨著智能化營(yíng)銷產(chǎn)品和機(jī)器學(xué)習(xí)的發(fā)展,阿里媽媽將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等AI技術(shù)越來越多地應(yīng)用到廣告智能決策領(lǐng)域。在阿里媽媽技術(shù)同學(xué)們的持續(xù)努力下,我們推動(dòng)了業(yè)界廣告決策智能技術(shù)的代際革新。本文結(jié)合時(shí)代發(fā)展的視角分享了阿里媽媽廣告智能決策技術(shù)的演化過程,希望能給從事相關(guān)工作的朋友帶來一些新思路。前言在線廣告對(duì)于大多數(shù)同學(xué)來說是一個(gè)既熟悉又陌生的技術(shù)領(lǐng)域?!杆褟V推」、「搜推廣」等各種組合耳熟能詳,但廣告和搜索推薦有本質(zhì)區(qū)別:廣告解決的是“媒體-廣告平-廣告主”等多方優(yōu)化問題,其中媒體在保證用戶體驗(yàn)的前提下實(shí)現(xiàn)商業(yè)化收入,廣告主的訴求是通過出價(jià)盡可能優(yōu)化營(yíng)銷目標(biāo),廣告平臺(tái)則在滿足這兩方需求的基礎(chǔ)上促進(jìn)廣告生態(tài)的長(zhǎng)期繁榮。廣告智能決策技術(shù)在這之中起到了關(guān)鍵性的作用,如圖1所示,它需要解決如下問題在內(nèi)的一系列智能決策問題:1.為廣告主設(shè)計(jì)并實(shí)現(xiàn)自動(dòng)出價(jià)策略,提升廣告投放效果;2.為媒體設(shè)計(jì)智能拍賣機(jī)制來保證廣告生態(tài)系統(tǒng)的繁榮和健康。1|機(jī)制策略圖1?廣告智能決策通過自動(dòng)出價(jià)和拍賣機(jī)制等方式實(shí)現(xiàn)多方優(yōu)化隨著智能化營(yíng)銷產(chǎn)品和機(jī)器學(xué)習(xí)的發(fā)展,阿里媽媽將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等AI技術(shù)越來越多地應(yīng)用到廣告智能決策領(lǐng)域,如RL-basedBidding(基于強(qiáng)化學(xué)習(xí)的出價(jià))幫助廣告主顯著提升廣告營(yíng)銷效果,Learning-basedAuctionDesign(基于學(xué)習(xí)的拍賣機(jī)制設(shè)計(jì))使得多方利益的統(tǒng)籌優(yōu)化更加高效。我們追根溯源,結(jié)合時(shí)代發(fā)展的視角重新審視廣告智能決策技術(shù)的演化過程,本文將以阿里媽媽廣告智能決策技術(shù)的演進(jìn)為例,分享我們工作和思考。也希望能以此來拋磚引玉,和大家一塊探討。持續(xù)突破的自動(dòng)出價(jià)決策技術(shù)廣告平臺(tái)吸引廣告主持續(xù)投放的核心在于給他們帶來更大的投放價(jià)值,典型的例子就是自動(dòng)化的出價(jià)產(chǎn)品一經(jīng)推出便深受廣告主的喜愛并持續(xù)的投入預(yù)算。在電商場(chǎng)景下,我們不斷地探索流量的多元化價(jià)值,設(shè)計(jì)更能貼近營(yíng)銷本質(zhì)的自動(dòng)出價(jià)產(chǎn)品,廣告主只需要簡(jiǎn)單的設(shè)置就能清晰的表達(dá)營(yíng)銷訴求。2|機(jī)制策略圖2?出價(jià)產(chǎn)品逐步的智能化&自動(dòng)化,廣告主只需要簡(jiǎn)單的設(shè)置即可清晰的表達(dá)出營(yíng)銷訴求極簡(jiǎn)產(chǎn)品背后則是強(qiáng)大的自動(dòng)出價(jià)策略支撐,其基于海量數(shù)據(jù)自動(dòng)學(xué)習(xí)好的廣告投放模式,以提升給定流量?jī)r(jià)值下的優(yōu)化能力。考慮到廣告優(yōu)化目標(biāo)、預(yù)算和成本約束,自動(dòng)出價(jià)可以統(tǒng)一表示為帶約束的競(jìng)價(jià)優(yōu)化問題。其中為廣告主的預(yù)算,為成本約束,該問題就是要對(duì)所有參競(jìng)的流量進(jìn)行報(bào)價(jià),以最大化競(jìng)得流量上的價(jià)值總和。如果已經(jīng)提前知道要參競(jìng)流量集合的全部信息,包括能夠觸達(dá)的每條流量的價(jià)值和成本等,那么可以通過線性規(guī)劃(LP)方法來求得最優(yōu)解。然而在線廣告環(huán)境的動(dòng)態(tài)變化以及每天到訪用戶的隨機(jī)性,競(jìng)爭(zhēng)流量集合很難被準(zhǔn)確的預(yù)測(cè)出來。因此常規(guī)方法并不完全適用,需要構(gòu)建能夠適應(yīng)動(dòng)態(tài)環(huán)境的自動(dòng)出價(jià)算法。對(duì)競(jìng)價(jià)環(huán)境做一定的假設(shè)(比如拍賣機(jī)制為單坑下的GSP,且流量競(jìng)得價(jià)格已知),通過拉格朗日變換構(gòu)造最優(yōu)出價(jià)公式,將原問題轉(zhuǎn)化為最優(yōu)出價(jià)參數(shù)的尋優(yōu)問題[9]:對(duì)于每一條到來的流量按照此公式進(jìn)行出價(jià),其中為在線流量競(jìng)價(jià)時(shí)可獲得的流量信息,為要求解的參數(shù)。而參數(shù)并不能一成不變,需要根據(jù)環(huán)境的動(dòng)態(tài)變3|機(jī)制策略化不斷調(diào)整。參競(jìng)流量的分布會(huì)隨時(shí)間發(fā)生變化,廣告主也會(huì)根據(jù)自己的經(jīng)營(yíng)情況調(diào)整營(yíng)銷設(shè)置,前序的投放效果會(huì)影響到后續(xù)的投放策略。因此,出價(jià)參數(shù)的求解本質(zhì)上是動(dòng)態(tài)環(huán)境下的序列決策問題。2.1主線:從跟隨到引領(lǐng),邁向更強(qiáng)的序列決策技術(shù)如何研發(fā)更先進(jìn)的算法提升決策能力是自動(dòng)出價(jià)策略發(fā)展的主線,我們參考了業(yè)界大量公開的正式文獻(xiàn),并結(jié)合阿里媽媽自身的技術(shù)發(fā)展,勾勒出自動(dòng)出價(jià)策略的發(fā)展演進(jìn)脈絡(luò)。圖3?自動(dòng)出價(jià)策略的演進(jìn)主線:邁向更強(qiáng)的決策能力整體可以劃分為4個(gè)階段:第一代:經(jīng)典控制類把效果最大化的優(yōu)化問題間接轉(zhuǎn)化為預(yù)算消耗的控制問題。基于業(yè)務(wù)數(shù)據(jù)計(jì)算消耗曲線,控制預(yù)算盡可能按照設(shè)定的曲線來消耗。PID[1]及相關(guān)改進(jìn)[2][10]是這一階段常用的控制算法。當(dāng)競(jìng)價(jià)流量?jī)r(jià)值分布穩(wěn)定的情況下,這類算法能基本滿足業(yè)務(wù)上線之初的效果優(yōu)化。第二代:規(guī)劃求解類相比于第一代,規(guī)劃求解類(LP)算法直接面向目標(biāo)最大化優(yōu)問題來進(jìn)行求解??苫谇耙惶斓膮⒏?jìng)流量來預(yù)測(cè)當(dāng)前未來流量集合,從而求解出價(jià)參數(shù)。自動(dòng)4|機(jī)制策略出價(jià)問題根據(jù)當(dāng)前已投放的數(shù)據(jù)變成新的子問題,因此可多次持續(xù)的用該方法進(jìn)行求解,即OnlineLP[3][4]。這類方法依賴對(duì)未來參競(jìng)流量的精準(zhǔn)預(yù)估,因此在實(shí)際場(chǎng)景落地時(shí)需要在未來流量的質(zhì)和量的預(yù)測(cè)上做較多的工作。第三代:強(qiáng)化學(xué)習(xí)類現(xiàn)實(shí)環(huán)境中在線競(jìng)價(jià)環(huán)境是非常復(fù)雜且動(dòng)態(tài)變化的,未來的流量集合也是難以精準(zhǔn)預(yù)測(cè)的,要統(tǒng)籌整個(gè)預(yù)算周期投放才能最大化效果。作為典型的序列決策問題,第三階段用強(qiáng)化學(xué)習(xí)類方法來優(yōu)化自動(dòng)出價(jià)策略。其迭代過程從早期的經(jīng)典強(qiáng)化學(xué)習(xí)方法落地[5][6][8][9],到進(jìn)一步基于OfflineRL方法逼近「在線真實(shí)環(huán)境的數(shù)據(jù)分布」[9],再到末期貼近問題本質(zhì)基于OnlineRL方法實(shí)現(xiàn)和真實(shí)競(jìng)價(jià)環(huán)境的交互學(xué)習(xí)[13]。第四代:生成模型類以ChatGPT為代表的生成式大模型以洶涌澎湃之勢(shì)到來,在多個(gè)領(lǐng)域都表現(xiàn)出令人驚艷的效果。新的技術(shù)理念和技術(shù)范式可能會(huì)給自動(dòng)出價(jià)算法帶來革命性的升級(jí)。阿里媽媽技術(shù)團(tuán)隊(duì)提前布局,以智能營(yíng)銷決策大模型AIGA(AIGeneratedAction)為核心重塑了廣告智能營(yíng)銷的技術(shù)體系,并衍生出以AIGB(AIGeneratedBidding)[14]為代表的自動(dòng)出價(jià)策略。為了讓大家有更好地理解,我們以阿里媽媽的實(shí)踐為基礎(chǔ),重點(diǎn)講述下強(qiáng)化學(xué)習(xí)在工業(yè)界的落地以及對(duì)生成式模型的探索。2.1.1強(qiáng)化學(xué)習(xí)在自動(dòng)出價(jià)場(chǎng)景的大規(guī)模應(yīng)用實(shí)踐跟隨:不斷學(xué)習(xí)、曲折摸索作為典型的序列決策問題,使用強(qiáng)化學(xué)習(xí)(RL)是很容易想到的事情,但其在工業(yè)界的落地之路卻是充滿曲折和艱辛的。最初學(xué)術(shù)界[8]做了一些探索,在請(qǐng)求粒度進(jìn)行建模,基于Model-basedRL方法訓(xùn)練出價(jià)智能體(Agent),并在請(qǐng)求維度進(jìn)行決策。如競(jìng)得該P(yáng)V,競(jìng)價(jià)系統(tǒng)返回該請(qǐng)求的價(jià)值,否則返回0,同時(shí)轉(zhuǎn)移到下一個(gè)狀態(tài)。這種建模方法應(yīng)用到工業(yè)界遇到了很多挑戰(zhàn),主要原因在于工業(yè)界參競(jìng)流量巨大,請(qǐng)求粒度的建模所需的存儲(chǔ)空間巨大;轉(zhuǎn)化信息的稀疏性以及延遲反饋等問題也給狀態(tài)構(gòu)造和Reward設(shè)計(jì)帶來很大的挑戰(zhàn)。為使得RL方法能夠真正落地,需要解決這幾個(gè)問題:「MDP是什么?」由于用戶到來的隨機(jī)性,參競(jìng)的流量之間其實(shí)并不存在明顯的馬爾5|機(jī)制策略可夫轉(zhuǎn)移特性,那么狀態(tài)轉(zhuǎn)移是什么呢?讓我們?cè)賹徱曄鲁鰞r(jià)公式,其包含兩部分:流量?jī)r(jià)值和出價(jià)參數(shù)。其中流量?jī)r(jià)值來自于請(qǐng)求粒度,出價(jià)參數(shù)為對(duì)當(dāng)前流量的出價(jià)激進(jìn)程度,而激進(jìn)程度是根據(jù)廣告主當(dāng)前的投放狀態(tài)來決定的。一種可行的設(shè)計(jì)是將廣告的投放信息按照時(shí)間段進(jìn)行聚合組成狀態(tài),上一時(shí)刻的投放策略會(huì)影響到廣告主的投放效果,并構(gòu)成新一時(shí)刻的狀態(tài)信息,因此按照時(shí)間段聚合的廣告主投放信息存在馬爾可夫轉(zhuǎn)移特性。而且這種設(shè)計(jì)還可以把問題變成固定步長(zhǎng)的出價(jià)參數(shù)決策,給實(shí)際場(chǎng)景中需要做的日志回流、Reward收集、狀態(tài)計(jì)算等提供了時(shí)間空間。典型的工作[5][6][7][8][9][12]基本上都是采用了這樣的設(shè)計(jì)理念?!窻eward如何設(shè)計(jì)?」Reward設(shè)計(jì)是RL的靈魂。出價(jià)策略的Reward設(shè)計(jì)需要讓策略學(xué)習(xí)如何對(duì)數(shù)億計(jì)流量出價(jià),以最大化競(jìng)得流量下的價(jià)值總和。如果Reward只是價(jià)值總和的話,就容易使得策略盲目追求好流量,預(yù)算早早花光或者成本超限,因此還需要引導(dǎo)策略在約束下追求更有性價(jià)比的流量。另外,自動(dòng)出價(jià)是終點(diǎn)反饋,即直到投放周期結(jié)束才能計(jì)算出完整的投放效果;且轉(zhuǎn)化等信號(hào)不僅稀疏,還存在較長(zhǎng)時(shí)間的回收延遲。因此我們需要精巧設(shè)計(jì)Reward讓其能夠指導(dǎo)每一次的決策動(dòng)作。實(shí)踐下來建立決策動(dòng)作和最終結(jié)果的關(guān)系至關(guān)重要,比如[9]在模擬環(huán)境中保持當(dāng)前的最優(yōu)參數(shù),并一直持續(xù)到終點(diǎn),從而獲取到最終的效果,以此來為決策動(dòng)作設(shè)置較為精準(zhǔn)的Reward。另外,在實(shí)際業(yè)務(wù)中,為了能夠幫助模型更好的收斂,往往也會(huì)把業(yè)務(wù)經(jīng)驗(yàn)融入到Reward設(shè)計(jì)中?!溉绾斡?xùn)練?」強(qiáng)化學(xué)習(xí)本質(zhì)是一個(gè)Trail-and-Error的算法,需要和環(huán)境進(jìn)行交互收集到當(dāng)前策略的反饋,并不斷探索新的決策空間進(jìn)一步更新迭代策略。但在工業(yè)界,由于廣告主投放周期的設(shè)置,一個(gè)完整的交互過程在現(xiàn)實(shí)時(shí)間刻度上通常為一天。經(jīng)典的RL算法要訓(xùn)練好一般要經(jīng)歷上萬次的交互過程,這在現(xiàn)實(shí)系統(tǒng)中很難接受。在實(shí)踐中,通常構(gòu)造一個(gè)模擬競(jìng)價(jià)環(huán)境用于RL模型的訓(xùn)練,這樣就擺脫現(xiàn)實(shí)時(shí)空的約束提升模型訓(xùn)練效率。當(dāng)然在線競(jìng)價(jià)環(huán)境非常復(fù)雜,如何在訓(xùn)練效率和訓(xùn)練效果之間平衡是構(gòu)造模擬環(huán)境中需要著重考慮的事情。這種訓(xùn)練模式,也一般稱之為SimulationRL-basedBidding(簡(jiǎn)稱SRLB),其流程如下圖所示:6|機(jī)制策略4?Simulation?RL-based?Bidding(SRLB)訓(xùn)練模式基于SRLB訓(xùn)練模式,我們實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)類算法在工業(yè)界場(chǎng)景的大規(guī)模落地。根據(jù)我們的調(diào)研,在搜廣推領(lǐng)域,RL的大規(guī)模落地應(yīng)用較為少見。創(chuàng)新:立足業(yè)務(wù)、推陳出新隨著出價(jià)策略不斷的升級(jí)迭代,“模擬環(huán)境和在線環(huán)境的差異”逐漸成為了效果進(jìn)一步提升的約束。為了方便構(gòu)造,模擬環(huán)境一般采用單坑GSP來進(jìn)行分配和扣費(fèi)且假設(shè)每條流量有固定的獲勝價(jià)格(WinningPrice)。但這種假設(shè)過于簡(jiǎn)單,尤其是當(dāng)廣告展現(xiàn)的樣式越來越豐富,廣告的坑位的個(gè)數(shù)和位置都在動(dòng)態(tài)變化,且Learning-based拍賣機(jī)制也越來約復(fù)雜,使得模擬環(huán)境和在線實(shí)際環(huán)境差異越來越大?;赟imulationRL-basedBidding模式訓(xùn)練的模型在線上應(yīng)用過程中會(huì)因環(huán)境變化而偏離最優(yōu)策略,導(dǎo)致線上效果受到損失。模擬環(huán)境也可以跟隨線上環(huán)境不斷升級(jí),但這種方式成本較高難度也大。因此,我們期待能夠找到一種不依賴模擬環(huán)境,能夠?qū)?biāo)在線真實(shí)環(huán)境學(xué)習(xí)的模式,以使得訓(xùn)練出來的Bidding模型能夠感知到真實(shí)競(jìng)價(jià)環(huán)境從而提升出價(jià)效果。結(jié)合業(yè)務(wù)需求并參考了RL領(lǐng)域的發(fā)展,我們先后調(diào)研了模仿學(xué)習(xí)、BatchRL、OfflineRL等優(yōu)化方案,并提出的如下的OfflineRL-basedBidding迭代范式,期望能夠以盡可能小的代價(jià)的逼近線上真實(shí)的樣本分布。7|機(jī)制策略5?Offline?RL-based?Bidding?訓(xùn)練模式,與SRLB模式差異主要在訓(xùn)練數(shù)據(jù)來源和訓(xùn)練方式在這個(gè)范式下,直接基于線上決策過程的日志,擬合reward與出價(jià)動(dòng)作之間的相關(guān)性,從而避免模擬樣本產(chǎn)生的分布偏差。盡管使用真實(shí)決策樣本訓(xùn)練模型更加合理,但在實(shí)踐中往往容易產(chǎn)生策略坍塌現(xiàn)象。核心原因就是線上樣本不能做到充分探索,對(duì)樣本空間外的動(dòng)作價(jià)值無法正確估計(jì),在貝爾曼方程迭代下不斷的高估。對(duì)于這一問題,我們可以假設(shè)一個(gè)動(dòng)作所對(duì)應(yīng)的數(shù)據(jù)密度越大,支撐越強(qiáng),則預(yù)估越準(zhǔn)確度越大,反之則越小。基于這一假設(shè),參考CQL[21]的思想,構(gòu)建一種考慮數(shù)據(jù)支撐度的RL模型,利用數(shù)據(jù)密度對(duì)價(jià)值網(wǎng)絡(luò)估值進(jìn)行懲罰。這一方法可以顯著改善動(dòng)作高估問題,有效解決OOD問題導(dǎo)致的策略坍塌,從而使得OfflineRL-based能夠部署到線上并取得顯著的效果提升。后續(xù)我們又對(duì)這個(gè)方法做了改進(jìn),借鑒了IQL[22](ImplicitQlearning)中的In-samplelearning思路,引入期望分位數(shù)回歸,基于已有的數(shù)據(jù)集來估計(jì)價(jià)值網(wǎng)絡(luò),相比于CQL,能提升模型訓(xùn)練和效果提升的穩(wěn)定性。6?從CQL到IQL,Offline?RL-based?Bidding中訓(xùn)練算法的迭代8|機(jī)制策略總結(jié)下來,在這一階段我們基于業(yè)務(wù)中遇到的實(shí)際問題,并充分借鑒業(yè)界思路,推陳出新。OfflineRL-basedBidding通過真實(shí)的決策數(shù)據(jù)訓(xùn)練出價(jià)策略,比基于模擬環(huán)境訓(xùn)練模式(SRLB)能夠更好的逼近「線上真實(shí)環(huán)境的數(shù)據(jù)分布」。突破:破解難題、劍走偏鋒讓我們?cè)僦匦聦徱昍L-basedBidding迭代歷程,該問題理想情況可以通過「與線上真實(shí)環(huán)境進(jìn)行交互并學(xué)習(xí)」的方式求解,但廣告投放系統(tǒng)交互成本較高,與線上環(huán)境交互所需要的漫長(zhǎng)「訓(xùn)練時(shí)間成本」和在線上探索過程中可能需要遭受的「效果損失成本」,讓我們?cè)谠缙谶x擇了SimulationRL-basedBidding范式,隨后為解決這種范式下存在的環(huán)境不一致的問題,引入了OfflineRL-basedBidding范式。7?重新審視RL-based?Bidding發(fā)展脈絡(luò)為了能夠進(jìn)一步突破效果優(yōu)化的天花板,我們需要找到一種新的Bidding模型訓(xùn)練范式:能夠不斷的和線上進(jìn)行交互探索新的決策空間且盡可能減少因探索帶來的效果損失。還能夠在融合了多種策略的樣本中進(jìn)行有效學(xué)習(xí)。即控制「訓(xùn)練時(shí)間成本」和「效果損失成本」下的OnlineRL-basedBidding迭代范式,如下圖所示:9|機(jī)制策略8?Online?RL-based?Bidding?訓(xùn)練模式,與前兩種模式的差別在于能夠和環(huán)境進(jìn)行直接交互學(xué)習(xí)提出了可持續(xù)在線強(qiáng)化學(xué)習(xí)(SORL),與在線環(huán)境交互的方式訓(xùn)練自動(dòng)出價(jià)策略,較好解決了環(huán)境不一致問題。SORL框架包含探索和訓(xùn)練兩部分算法,基于Q函數(shù)的Lipschitz光滑特性設(shè)計(jì)了探索的安全域,并提出了一個(gè)安全高效的探索算法用于在線收集數(shù)據(jù);另外提出了V-CQL算法用于利用收集到的數(shù)據(jù)進(jìn)行離線訓(xùn)練,V-CQL算法通過優(yōu)化訓(xùn)練過程中Q函數(shù)的形態(tài),減小不同隨機(jī)種子下訓(xùn)練策略表現(xiàn)的方差,從而提高了訓(xùn)練的穩(wěn)定性。9?SORL的訓(xùn)練模式在這一階段中,不斷思考問題本質(zhì),提出可行方案從而使得和在線環(huán)境進(jìn)行交互訓(xùn)練學(xué)習(xí)成為可能。10|機(jī)制策略2.1.2引領(lǐng)生成式Bidding的新時(shí)代(AIGB)ChatGPT為代表的生成式大模型以洶涌澎湃之勢(shì)到來。一方面,新的用戶交互模式會(huì)孕育新的商業(yè)機(jī)會(huì),給自動(dòng)出價(jià)的產(chǎn)品帶來巨大改變;另一方面,新的技術(shù)理念和技術(shù)范式也會(huì)給自動(dòng)出價(jià)策略帶來革命性的升級(jí)。我們?cè)谒伎忌墒侥P湍軌蚪o自動(dòng)出價(jià)策略帶來什么?從技術(shù)原理上來看,RL類方法基于時(shí)序差分學(xué)習(xí)決策動(dòng)作好壞,在自動(dòng)出價(jià)這種長(zhǎng)序列決策場(chǎng)景下會(huì)有訓(xùn)練誤差累積過多的問題。因此,我們提出了一種基于生成式模型構(gòu)造的出價(jià)策略優(yōu)化方案(AIGB-AIGenerativeBidding)[14]。與強(qiáng)化學(xué)習(xí)的視角不同,如圖9所示,AIGB直接關(guān)聯(lián)決策軌跡和回報(bào)信息,能夠避免訓(xùn)練累積,更適合長(zhǎng)序列決策場(chǎng)景。10?GenerativeBidding相比RL-based?Bidding模式能夠避免訓(xùn)練誤差累積,更適合長(zhǎng)序列決策場(chǎng)景從生成式模型的角度來看,我們可以將出價(jià)、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個(gè)聯(lián)合概率分布,從而將出價(jià)問題轉(zhuǎn)化為條件分布生成問題。圖10直觀地展示了生成式出價(jià)模型的流程:在訓(xùn)練階段,模型將歷史投放軌跡數(shù)據(jù)作為訓(xùn)練樣本,以最大似然估計(jì)的方式擬合軌跡數(shù)據(jù)中的分布特征。這使得模型能夠自動(dòng)學(xué)習(xí)出價(jià)策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項(xiàng)之間的相關(guān)性。在線上推斷階段,生成式模型可以基于約束和優(yōu)化目標(biāo),以符合分布規(guī)律的方式輸出出價(jià)策略。11|機(jī)制策略圖11?AIGB的訓(xùn)練和預(yù)測(cè)算法AIGB基于當(dāng)前的投放狀態(tài)信息以及策略生成條件輸出未來的投放策略,相比于以往RL策略輸出單步action,AIGB可以被理解為在規(guī)劃的基礎(chǔ)上進(jìn)行決策,最大程度地避免分布偏移和策略退化問題,從而更適合長(zhǎng)序列決策場(chǎng)景。這一優(yōu)點(diǎn)有利于在實(shí)踐中進(jìn)一步減小出價(jià)間隔,提升策略的快速反饋能力。與此同時(shí),基于規(guī)劃的出價(jià)策略也具備更好的可解釋性,能夠幫助我們更好地進(jìn)行離線策略評(píng)估,方便專家經(jīng)驗(yàn)與模型深度融合。另外,我們也還在進(jìn)一步探索,是否可以把競(jìng)價(jià)領(lǐng)域知識(shí)融入到大模型中并幫助出價(jià)決策。從「動(dòng)作判別式」決策到「軌跡生成式」決策,朝著生成式Bidding的新時(shí)代大踏步邁進(jìn)!12|機(jī)制策略2.2副線:百花齊放,更全面的出價(jià)決策技術(shù)圖12?發(fā)展副線:更全面的業(yè)務(wù)實(shí)際場(chǎng)景的特性優(yōu)化除了更強(qiáng)的決策能力外,在實(shí)際場(chǎng)景中還會(huì)針對(duì)業(yè)務(wù)特點(diǎn)做更多的優(yōu)化,這里介紹3個(gè)典型的研究技術(shù)點(diǎn):復(fù)雜的競(jìng)價(jià)環(huán)境下的最優(yōu)出價(jià)策略出價(jià)形式化建模依賴對(duì)競(jìng)價(jià)環(huán)境的假設(shè),不同的假設(shè)下推導(dǎo)出來的出價(jià)公式是不同的。以MaxReturn計(jì)劃為例,出價(jià)形式為,其中為一個(gè)粗粒度與請(qǐng)求無關(guān)的參數(shù),在簡(jiǎn)單競(jìng)價(jià)環(huán)境下(GSP單坑下)這種出價(jià)形式是理論最優(yōu)的。而在實(shí)際工業(yè)界競(jìng)價(jià)環(huán)境是非常復(fù)雜的:多坑、帶保留價(jià)的機(jī)制或其他復(fù)雜機(jī)制,當(dāng)前的出價(jià)策略并非最優(yōu)。學(xué)術(shù)界和工業(yè)界針對(duì)這一問題提出了不少方法,大概分為2類:1)對(duì)競(jìng)價(jià)環(huán)境做進(jìn)一步的假設(shè)(比如多坑)推導(dǎo)出閉式解,并進(jìn)行求解[18];2)基于數(shù)據(jù)驅(qū)動(dòng)的方法,在基礎(chǔ)價(jià)格上結(jié)合當(dāng)前流量的信息(如WinningPrice)等進(jìn)行微調(diào),比如BidShading類方法[17][19]。多智能體聯(lián)合出價(jià)在線廣告本質(zhì)上是一個(gè)多智能體競(jìng)價(jià)系統(tǒng)。通常情況下每一個(gè)自動(dòng)出價(jià)智能體求解一個(gè)獨(dú)立的優(yōu)化問題,而將其他智能體出價(jià)的影響隱式地建模為環(huán)境的一部分。這種建模方式忽略了在線廣告的動(dòng)態(tài)博弈,即最終的拍賣結(jié)果取決于所有智能體的出價(jià),且任一智能體的策略的改變會(huì)影響到其他所有智能體的策略。因此若不做協(xié)調(diào),則所有13|機(jī)制策略智能體會(huì)處于一個(gè)無約束狀態(tài),進(jìn)而降低系統(tǒng)的效率。典型的工作包括[7][11][12]都是針對(duì)線上環(huán)境的多智能體問題進(jìn)行求解,面對(duì)線上智能體個(gè)數(shù)眾多(百萬級(jí)),通過廣告主進(jìn)行聚類等方式,把問題規(guī)模降低到可求解的程度。Fairness不同行業(yè)的廣告主在廣告投放時(shí)面臨的競(jìng)價(jià)環(huán)境也是不同的,當(dāng)前廣泛采用的統(tǒng)一出價(jià)策略可能使得不同廣告主的投放效果存在較大的差異,尤其是對(duì)小廣告主來說,訓(xùn)練效果會(huì)受到大廣告主的影響,即“Fairness”問題。典型的工作包括[16]將傳統(tǒng)的統(tǒng)一出價(jià)策略拓展為多個(gè)能夠感知上下文的策略族,其中每個(gè)策略對(duì)應(yīng)一類特定的廣告主聚類。這個(gè)方法中首先設(shè)計(jì)了廣告計(jì)劃畫像網(wǎng)絡(luò)用于建模動(dòng)態(tài)的廣告投放環(huán)境。之后,通過聚類技術(shù)將差異化的廣告主分為多個(gè)類并為每一類廣告主設(shè)計(jì)一個(gè)特定的具有上下文感知能力的自動(dòng)出價(jià)策略,從而實(shí)現(xiàn)為每個(gè)廣告主匹配特定的個(gè)性化策略。多階段協(xié)同出價(jià)為平衡行業(yè)在線廣告的優(yōu)化性能和響應(yīng)時(shí)間,在線工業(yè)場(chǎng)景經(jīng)常會(huì)采用兩階段級(jí)聯(lián)架構(gòu)。在這種架構(gòu)下,自動(dòng)出價(jià)策略不僅需要在精競(jìng)階段(第二階段)進(jìn)行傳統(tǒng)的競(jìng)拍,還必須在粗競(jìng)階段(第一階段)參與競(jìng)爭(zhēng)才能進(jìn)入精競(jìng)階段?,F(xiàn)有的工作主要集中在精競(jìng)階段的拍賣設(shè)計(jì)和自動(dòng)出價(jià)策略上,而對(duì)粗競(jìng)階段的拍賣機(jī)制和自動(dòng)出價(jià)策略研究還不夠充分,這部分最主要的挑戰(zhàn)在于粗競(jìng)階段的廣告量級(jí)會(huì)比精競(jìng)階段多了近百倍,且自動(dòng)出價(jià)依賴的流量?jī)r(jià)值預(yù)估(如PCVR)比精競(jìng)階段準(zhǔn)度差,因此如何設(shè)計(jì)更大規(guī)模且能夠應(yīng)對(duì)不確定性預(yù)估值下的出價(jià)策略是這個(gè)方向主要研究的問題,而且還需要研究?jī)呻A段下的拍賣機(jī)制設(shè)計(jì)以引導(dǎo)自動(dòng)出價(jià)正確報(bào)價(jià)。在這個(gè)方向上,我們依賴強(qiáng)大的工程基建能力上線了全鏈路自動(dòng)出價(jià)策略,顯著提升了廣告主的投放效果;并設(shè)計(jì)了適用于兩階段的拍賣機(jī)制[33]。拍賣機(jī)制設(shè)計(jì)也是一個(gè)決策問題拍賣機(jī)制是對(duì)競(jìng)爭(zhēng)性資源的一種高效的市場(chǎng)化分配方式,具有良好博弈性質(zhì)的拍賣機(jī)制在互聯(lián)網(wǎng)廣告場(chǎng)景下可以引導(dǎo)廣告主的有序競(jìng)爭(zhēng),從而保證競(jìng)價(jià)生態(tài)的穩(wěn)定和健康。經(jīng)典拍賣機(jī)制如GSP、VCG由于其良好的博弈性質(zhì)以及易于實(shí)現(xiàn)的特點(diǎn)使得其在2002年前后開始被互聯(lián)網(wǎng)廣告大規(guī)模的使用。14|機(jī)制策略圖13?在線廣告的拍賣機(jī)制的示意圖十幾年過去,互聯(lián)網(wǎng)廣告環(huán)境已經(jīng)發(fā)生了巨大的改變,與經(jīng)典靜態(tài)拍賣機(jī)制的假設(shè)相比,現(xiàn)在的廣告主營(yíng)銷目標(biāo)多元、策略行為復(fù)雜,且機(jī)制的優(yōu)化目標(biāo)不再是單一的收入或者社會(huì)福利,需要將媒體、廣告主、廣告平臺(tái)的利益考慮在內(nèi)統(tǒng)一優(yōu)化。而在一個(gè)智能化的廣告系統(tǒng)中,拍賣機(jī)制需要根據(jù)系統(tǒng)中參與方的行為變化而調(diào)整自己的策略行為,即拍賣機(jī)制設(shè)計(jì)也是一個(gè)決策問題。因此如何結(jié)合互聯(lián)網(wǎng)海量數(shù)據(jù)的優(yōu)勢(shì)去設(shè)計(jì)更符合廣告主行為模式并貼近業(yè)務(wù)需求的智能拍賣機(jī)制迫在眉睫。從經(jīng)濟(jì)學(xué)視角看,最優(yōu)廣告拍賣設(shè)計(jì)可以看作一個(gè)優(yōu)化決策問題:最大化綜合目標(biāo)(收入、用戶體驗(yàn)等),同時(shí)需要滿足經(jīng)濟(jì)學(xué)性質(zhì)保證,最典型的是激勵(lì)相容性(IncentiveCompatibility,IC)和個(gè)體理性(IndividualRationality,IR)的約束。IC要求廣告主真實(shí)報(bào)價(jià)總是能最大化其自身效用,而IR要求廣告主付費(fèi)不超過其對(duì)廣告點(diǎn)擊的真實(shí)估值,這樣該機(jī)制就可以優(yōu)化出穩(wěn)定的效果。優(yōu)化拍賣機(jī)制需要解決如下問題:機(jī)制性質(zhì)如何滿足:需要一種簡(jiǎn)潔的數(shù)學(xué)形式表達(dá)機(jī)制需要滿足的博弈性質(zhì),并將其融入到機(jī)制的優(yōu)化過程中。如何面向?qū)嶋H后驗(yàn)效果優(yōu)化:工業(yè)界中很多優(yōu)化目標(biāo)指標(biāo)難以得到精確解析形式(例如成交額、商品收藏加購量等),如何通過真實(shí)反饋的方式優(yōu)化機(jī)制也是需要考慮的。3.1主線:飄然凡塵,從只遠(yuǎn)觀到深度優(yōu)化的拍賣機(jī)制從經(jīng)典的拍賣機(jī)制開始,如何通過數(shù)據(jù)化&智能化提升拍賣機(jī)制的效果是發(fā)展主線,我們參考了業(yè)界大量的公開的正式文獻(xiàn),并結(jié)合阿里媽媽自身的技術(shù)發(fā)展,勾勒出拍賣機(jī)制的發(fā)展演進(jìn)脈絡(luò)。15|機(jī)制策略圖14?廣告拍賣機(jī)制的發(fā)展主線:深度優(yōu)化整體而言可以劃分為3個(gè)階段:第一代:經(jīng)典拍賣機(jī)制經(jīng)典的GSP[23]、VCG[24]在互聯(lián)網(wǎng)場(chǎng)景大規(guī)模落地后,針對(duì)場(chǎng)景特點(diǎn)的優(yōu)化主要集中在兩方面:1)提升平臺(tái)收入,最典型的是Squashing[25]和保留價(jià);2)多目標(biāo)優(yōu)化能力,通過在排序公式中引入更多的項(xiàng)來優(yōu)化多目標(biāo),最典型的是Ugsp。這些機(jī)制的分配和扣費(fèi)形式相對(duì)清晰,所以關(guān)于他們的激勵(lì)性質(zhì)也大量被研究。第二代:Learning-based拍賣機(jī)制隨著深度學(xué)習(xí)&強(qiáng)化學(xué)習(xí)的蓬勃發(fā)展,大家開始探索將深度學(xué)習(xí)/強(qiáng)化學(xué)習(xí)引入到拍賣機(jī)制設(shè)計(jì)中,學(xué)術(shù)界典型的工作包括RegretNet[26]、RDM[41]等,阿里媽媽結(jié)合工業(yè)界的場(chǎng)景特點(diǎn),先后設(shè)計(jì)出DeepGSP[31]、NeuralAuction[32]、Two-StageAuction[33]等機(jī)制,這些機(jī)制都借助了深度網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,提升拍賣機(jī)制的優(yōu)化效果。第三代:拍賣機(jī)制&自動(dòng)出價(jià)聯(lián)合設(shè)計(jì)隨著自動(dòng)出價(jià)能力的廣泛應(yīng)用,廣告主競(jìng)價(jià)方式相較于之前有了大幅度的改變,廣告主向平臺(tái)提交高層次的優(yōu)化目標(biāo)和約束條件,然后由出價(jià)代理代表廣告主在每次廣告拍賣中做出詳細(xì)的出價(jià)決策。對(duì)于廣告主來說,平臺(tái)需要把出價(jià)和拍賣機(jī)制看成一個(gè)整體聯(lián)合設(shè)計(jì),典型的工作包括[36]。為了讓大家有更好的理解,我們以阿里媽媽的實(shí)踐為基礎(chǔ),重點(diǎn)講述下智能拍賣機(jī)制16|機(jī)制策略在工業(yè)界的落地。3.1.1一相逢便勝卻無數(shù):當(dāng)拍賣機(jī)制遇到智能化驚艷登場(chǎng):可Learning的拍賣機(jī)制自2019年開始,學(xué)術(shù)界開始將深度學(xué)習(xí)&強(qiáng)化學(xué)習(xí)引入到機(jī)制設(shè)計(jì)中,如RegretNet[26]、RDM[41]等,他們通過引入深度網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,提升拍賣機(jī)制的優(yōu)化效果,為拍賣機(jī)制的發(fā)展開辟了一條新的道路。遺憾的是,這些工作都做了很強(qiáng)的理論假設(shè)如廣告主個(gè)數(shù)固定等,沒有看到在工業(yè)界大規(guī)模落地的實(shí)踐。因此,我們開始思考,是否能夠針對(duì)以上問題設(shè)計(jì)新型的面向多目標(biāo)優(yōu)化的廣告拍賣機(jī)制,并能夠結(jié)合工業(yè)界海量數(shù)據(jù)的優(yōu)勢(shì),通過深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力來解決廣告系統(tǒng)場(chǎng)景下的多目標(biāo)優(yōu)化問題。我們提出一種基于深度神經(jīng)網(wǎng)絡(luò)的拍賣機(jī)制DeepGSP[31]。DeepGSP延續(xù)GSP的二價(jià)扣費(fèi)機(jī)制,并通過深度網(wǎng)絡(luò)提升其分配能力。不同于經(jīng)典的廣告拍賣機(jī)制,其能夠通過深度網(wǎng)絡(luò)的學(xué)習(xí)實(shí)現(xiàn)任意給定目標(biāo)的優(yōu)化,整個(gè)優(yōu)化過程使用深度強(qiáng)化學(xué)習(xí)中確定性策略梯度算法實(shí)現(xiàn)。我們對(duì)DeepGSP的模式進(jìn)行了思考:其采用GSP-Style的機(jī)制設(shè)計(jì)模式,通過深度網(wǎng)絡(luò)為每個(gè)廣告計(jì)算出一個(gè)分?jǐn)?shù),排序后決定分配和扣費(fèi)結(jié)果。訓(xùn)練時(shí)基于最終效果為參與競(jìng)價(jià)的每一條廣告樣本分配獎(jiǎng)賞并采用強(qiáng)化學(xué)習(xí)的方法驅(qū)動(dòng)模型參數(shù)更新。從機(jī)制的角度,求解最優(yōu)分配問題是一個(gè)全局視角的組合優(yōu)化問題,而DeepGSP是建模在廣告粒度,如何把整體的效果分?jǐn)偟矫總€(gè)廣告上,即信用分配問題,會(huì)對(duì)訓(xùn)練產(chǎn)生很大的影響。但排序是一個(gè)不可微的操作,在模型訓(xùn)練的時(shí)候無法直接像監(jiān)督學(xué)習(xí)那樣通過樣本標(biāo)簽計(jì)算的loss反向梯度傳導(dǎo)優(yōu)化模型參數(shù)。因此我們又提出了一種新的拍賣機(jī)制NeuralAuction[32],以一種可微的計(jì)算形式來表達(dá)”排序”算子,從而能夠與梯度下降訓(xùn)練方法結(jié)合,實(shí)現(xiàn)端到端優(yōu)化,15?工業(yè)界Learning-based?拍賣機(jī)制2個(gè)典型工作:Deep?GSP和Neural?Auction17|機(jī)制策略值得注意的是,我們的工作也夯實(shí)了工業(yè)界智能拍賣機(jī)制(Learning-basedMechanismDesign)方向,并得到了業(yè)界的廣泛關(guān)注,其中所學(xué)術(shù)沉淀被國(guó)際會(huì)議MetaReviewer和引用者使用開創(chuàng)新方向(“contributesanewperspectivetotheliterature”)和首次(“thefirstattempts”)等方式評(píng)價(jià)。持續(xù)發(fā)力:整頁拍賣(考慮外部性)機(jī)制廣告拍賣機(jī)制的效果依賴于廣告展示商品點(diǎn)擊率(CTR)的精確預(yù)估,但在實(shí)際場(chǎng)景中,商品展示點(diǎn)擊率會(huì)受到相互之間的外部性影響。這一現(xiàn)象在近年來開始受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。然而,傳統(tǒng)的廣告拍賣通常簡(jiǎn)化或忽略了外部性。例如,廣泛使用的GSP拍賣機(jī)制基于可分離CTR模型[37],假定廣告的點(diǎn)擊率只由廣告內(nèi)容和位置決定,而忽略了其他商品的影響。因此傳統(tǒng)的廣告拍賣機(jī)制在考慮外部性時(shí)不再適用。但考慮外部性影響對(duì)于最優(yōu)廣告拍賣的設(shè)計(jì)帶來了許多挑戰(zhàn)。由于廣告的點(diǎn)擊率受到上下文中其他商品的影響,即使對(duì)分配進(jìn)行微小修改,也可能導(dǎo)致廣告拍賣的預(yù)期收入發(fā)生復(fù)雜的變化。一般而言,對(duì)于外部性結(jié)構(gòu)不作具體假設(shè)時(shí),計(jì)算具有最大社會(huì)福利的分配方案是NP困難的。因此,如何設(shè)計(jì)高效實(shí)用的分配算法是一個(gè)非平凡的問題。另一方面,由于外部性影響的存在,拍賣機(jī)制更難控制每個(gè)廣告主得到的效用,因此IC和IR等約束更難滿足。我們的工作[28]提出一個(gè)數(shù)據(jù)驅(qū)動(dòng)的廣告拍賣框架,以在考慮外部性的情況下實(shí)現(xiàn)收入最大化,同時(shí)確保滿足IC和IR約束。結(jié)合理論分析提出Score-WeightedVCG框架,將最優(yōu)拍賣機(jī)制的設(shè)計(jì)拆解為一個(gè)單調(diào)得分函數(shù)的學(xué)習(xí)和一個(gè)加權(quán)福利最大化算法的設(shè)計(jì)?;谶@一框架又提出一個(gè)實(shí)用的實(shí)現(xiàn)方案,利用數(shù)據(jù)驅(qū)動(dòng)的模型實(shí)現(xiàn)最優(yōu)拍賣機(jī)制。通過完備的理論證明了該框架在各種感知外部性的點(diǎn)擊率模型下都能產(chǎn)出滿足激勵(lì)兼容和個(gè)體理性的近似最優(yōu)廣告拍賣。16?Score-Weighted?VCG:考慮外部性的整頁拍賣機(jī)制18|機(jī)制策略一片藍(lán)海:融合機(jī)制設(shè)計(jì)融合階段是工業(yè)界一個(gè)非常關(guān)鍵的過程。在搜索和信息流等場(chǎng)景中,廣告結(jié)果與自然結(jié)果分別由廣告系統(tǒng)和推薦系統(tǒng)產(chǎn)生,融合機(jī)制對(duì)候選的廣告和自然結(jié)果進(jìn)行合并、篩選、排列,決定最終向用戶展示的商品列表。圖17?融合階段是工業(yè)界系統(tǒng)中一個(gè)非常關(guān)鍵的過程同時(shí)融合也是一個(gè)機(jī)制設(shè)計(jì)問題。廣告結(jié)果和自然結(jié)果的分配不再是獨(dú)立的,通過綜合考慮廣告和自然結(jié)果排列方式來優(yōu)化用戶體驗(yàn)和平臺(tái)收入。另外,一個(gè)商品可能同時(shí)作為廣告結(jié)果和自然結(jié)果的候選出現(xiàn),這是因?yàn)閺V告系統(tǒng)和推薦系統(tǒng)都傾向于選擇與用戶偏好或搜索關(guān)鍵詞較為匹配的商品。在此情形下,通常不允許將一個(gè)商品作為廣告和自然結(jié)果同時(shí)展示給用戶,導(dǎo)致對(duì)于廣告結(jié)果和自然結(jié)果的分配不再是獨(dú)立的,這也會(huì)導(dǎo)致廣告主對(duì)廣告的付費(fèi)動(dòng)機(jī)出現(xiàn)激勵(lì)問題,因此必須重新審視廣告與自然結(jié)果融合時(shí)的機(jī)制設(shè)計(jì)問題。定坑可以理解為最經(jīng)典的混排機(jī)制,自然結(jié)果優(yōu)化用戶體驗(yàn),廣告結(jié)果采用傳統(tǒng)的機(jī)制如GSP來優(yōu)化平臺(tái)收入?;炫磐ㄟ^經(jīng)典的線性加權(quán)把多目標(biāo)優(yōu)化問題轉(zhuǎn)換成一個(gè)單目標(biāo)(用戶體驗(yàn)和廣告平臺(tái)加權(quán)和)的優(yōu)化問題。所有商品都按給定的排序公式進(jìn)行打分,按分?jǐn)?shù)從大到小逐個(gè)放置到所有坑位里面,并用uGSP進(jìn)行扣費(fèi)。但因外部性的普遍存在,該方式通常無法得到最優(yōu)解。業(yè)界普遍在探索的是廣告和自然整頁優(yōu)化方式,基于組合優(yōu)化思想來解該多目標(biāo)優(yōu)化問題,通常隱式或者顯式地對(duì)外部性進(jìn)行建模,目前媽媽和業(yè)界都有一些典型的優(yōu)化19|機(jī)制策略工作[38][39],在機(jī)制性質(zhì)上還有很多的研究空間。3.1.2渾然一體:自動(dòng)出價(jià)和拍賣機(jī)制的聯(lián)合設(shè)計(jì)隨著自動(dòng)出價(jià)產(chǎn)品的廣泛應(yīng)用,現(xiàn)在廣告主參競(jìng)的方式相較于之前有了大幅度的改變:廣告主向平臺(tái)提交其高層次的優(yōu)化目標(biāo)和約束條件,然后由機(jī)器學(xué)習(xí)算法驅(qū)動(dòng)的出價(jià)代理代表廣告主在每次廣告拍賣中做出詳細(xì)的出價(jià)決策。通過自動(dòng)出價(jià)工具,廣告主從全局角度針對(duì)其經(jīng)濟(jì)約束優(yōu)化其整體廣告目標(biāo)。對(duì)于廣告主來說,自動(dòng)出價(jià)和拍賣機(jī)制整體才是平臺(tái)真正的機(jī)制。圖18?在自動(dòng)出價(jià)體系下,廣告主與廣告平臺(tái)的博弈關(guān)系已發(fā)生根本改變?cè)谧詣?dòng)出價(jià)的新廣告范式中,我們需要重新審視經(jīng)典的拍賣機(jī)制模型是否仍然適用。由于可以獲取有關(guān)廣告主與用戶之間互動(dòng)的歷史數(shù)據(jù),平臺(tái)可以估計(jì)用戶的潛在行為(如點(diǎn)擊和轉(zhuǎn)化),這些行為可以被視為廣告主對(duì)物品的估值。在自動(dòng)出價(jià)中,廣告主的私有信息實(shí)際上是其在整個(gè)廣告投放過程的約束條件。這些與經(jīng)典拍賣截然不同的新特點(diǎn)需要對(duì)應(yīng)的新的廣告拍賣模型,以激勵(lì)廣告主真實(shí)地上報(bào)其高層次的私有約束。我們的工作[36]提出了一類基于排序函數(shù)的激勵(lì)兼容機(jī)制,關(guān)鍵思想是采用提前確定的排序函數(shù)為每個(gè)廣告主進(jìn)行排序,并將閾值ROI設(shè)計(jì)為贏得足夠多的競(jìng)價(jià)機(jī)會(huì)以消耗完預(yù)算的最大ROI。在該機(jī)制中,給定廣告主上報(bào)的預(yù)算和ROI,首先基于排序函數(shù)計(jì)算不同廣告主對(duì)于每個(gè)物品的虛擬出價(jià)。只要這些排序函數(shù)在ROI上是單調(diào)遞減的,保證最終的拍賣機(jī)制是滿足DSIC與IR的。接下來,將每個(gè)物品分配給排序分?jǐn)?shù)最高的廣告主,并根據(jù)第二高的排序函數(shù)計(jì)算贏得此物品所需要的ROI。為了保證約束的IC,我們使用前面提到的基本規(guī)則來計(jì)算關(guān)鍵ROI,即贏得足夠多的物品以消耗完預(yù)算的最大ROI,其中使用關(guān)鍵ROI作為實(shí)際ROI來計(jì)算支付。這是一個(gè)對(duì)此類問題的初步嘗試,未來還需要進(jìn)一步深入思考。20|機(jī)制策略3.2副線:多樣的廣告主行為建模廣告主行為建模是拍賣機(jī)制設(shè)計(jì)的基礎(chǔ),現(xiàn)有的關(guān)于VCG和GSP的分析主要建立在擬線性效用模型上,也被稱為效用最大化廣告主(UtilityMaximizer,UM),即廣告主的目標(biāo)是優(yōu)化其分配的價(jià)值和扣費(fèi)之間的差值。雅虎公司的研究人員Wilkens、Cavallo和Niazadeh為廣告主提出了另一個(gè)模型,稱為價(jià)值最大化廣告主(ValueMaximizer,VM),該模型將分配的價(jià)值作為廣告主的首要目標(biāo),將扣費(fèi)作為其次的目標(biāo),只有當(dāng)價(jià)值相同時(shí)才偏好扣費(fèi)更少的結(jié)果。這些設(shè)定都接近于單輪拍賣形式下廣告主的行為模式,但在廣告主已經(jīng)開始使用自動(dòng)競(jìng)價(jià)(Auto-bidding)工具,利用自動(dòng)競(jìng)價(jià)工具,廣告主只需要設(shè)置高層次的約束條件,并由出價(jià)代理進(jìn)行競(jìng)價(jià),這與傳統(tǒng)的機(jī)制存在非常大的差異。因此,核心問題是使用不同的機(jī)制,在廣告主與代理間的交互完成后,會(huì)得到怎樣的博弈結(jié)果?什么機(jī)制對(duì)平臺(tái)方或社會(huì)福利更好這些都是要回答的問題。圖19?廣告主行為建模的研究方向結(jié)語雄關(guān)漫道真如鐵,而今邁步從頭越。歷經(jīng)阿里媽媽技術(shù)同學(xué)們堅(jiān)持不懈的努力,在自動(dòng)出價(jià)決策技術(shù)上,從推動(dòng)經(jīng)典強(qiáng)化學(xué)習(xí)類算法在工業(yè)界大規(guī)模落地,到持續(xù)革新提OfflineRL-basedBidding、OnlineRL-basedBidding等適應(yīng)工業(yè)界特點(diǎn)的新算法,再到提出AIGB邁入生成式Bidding的新時(shí)代;在拍賣機(jī)制設(shè)計(jì)上,從只遠(yuǎn)觀的高深領(lǐng)域,到可Learning的決策問題,再與工業(yè)界深入結(jié)合的Two-StageAuction、整頁拍賣、融合機(jī)制等,以及未來的Auto-bidding和拍賣機(jī)制的聯(lián)合優(yōu)21|機(jī)制策略化。一路走來,我們持續(xù)推動(dòng)業(yè)界廣告決策智能技術(shù)的發(fā)展,并秉承開放共贏,把我們的工作以學(xué)術(shù)化沉淀的方式實(shí)現(xiàn)對(duì)學(xué)術(shù)界研究的反哺。希望大家多多交流,共赴星辰大海。關(guān)于我們核心關(guān)鍵詞:超核心業(yè)務(wù)、大規(guī)模RL工業(yè)界落地、決策智能大模型、技術(shù)引領(lǐng)業(yè)界、團(tuán)隊(duì)氛圍好!「智能廣告平臺(tái)」基于海量數(shù)據(jù),優(yōu)化阿里廣告技術(shù)體系,驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng),并推動(dòng)技術(shù)持續(xù)走在行業(yè)前沿:精準(zhǔn)建模以提升商業(yè)化效率,創(chuàng)新廣告售賣機(jī)制和商業(yè)化模式以打開商業(yè)化天花板,研發(fā)最先進(jìn)的出價(jià)算法幫助商家獲得極致的廣告投放效果和體驗(yàn),設(shè)計(jì)和升級(jí)算法架構(gòu)以支撐國(guó)內(nèi)頂級(jí)規(guī)模的廣告業(yè)務(wù)穩(wěn)健&高效迭代等。超大業(yè)務(wù)體量和豐富商業(yè)化場(chǎng)景,賦能我們?cè)谏疃葘W(xué)習(xí)、強(qiáng)化學(xué)習(xí)、機(jī)制設(shè)計(jì)、投放策略、頂層業(yè)務(wù)/技術(shù)上的視野和判斷極速成長(zhǎng)并沉淀豐厚;超一線站位也讓我們?cè)凇巴诰蛴袃r(jià)值&有挑戰(zhàn)新問題,驅(qū)動(dòng)產(chǎn)品技術(shù)能力創(chuàng)新等”方面有得天獨(dú)厚優(yōu)勢(shì)。歡迎聰明靠譜小伙伴加入(社招、校招、實(shí)習(xí)生、高校合作、訪問學(xué)者等)。簡(jiǎn)歷投遞郵箱:alimama_tech@參考文獻(xiàn)ChenY,BerkhinP,AndersonB,etal.Real-timebiddingalgorithmsforperformance-baseddisplayadallocation[C]//Proceedingsofthe17thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.2011:1307-1315.ZhangW,RongY,WangJ,etal.Feedbackcontrolofreal-timedisplayadvertising[C]//ProceedingsoftheNinthACMInternationalConferenceonWebSearchandDataMining.2016:407-416.YuH,NeelyMJ.ALowComplexityAlgorithmwithRegretandConstraintViolationsforOnlineConvexOptimizationwithLongTermConstraints[J].arXivpreprintarXiv:1604.02218,2016.YuH,NeelyM,WeiX.Onlineconvexoptimizationwithstochasticconstraints[J].AdvancesinNeuralInformationProcessingSystems,2017,30.ZhaoJ,QiuG,GuanZ,etal.Deepreinforcementlearningforsponsoredsearchreal-timebidding[C]//Proceedingsofthe24thACMSIGKDDinternationalconferenceonknowledgediscovery&datamining.2018:1021-1030.CaiH,RenK,ZhangW,etal.Real-timebiddingbyreinforcementlearningindisplayadvertising[C]//ProceedingsofthetenthACMinternationalconferenceonwebsearchanddatamining.2017:661-670.22|機(jī)制策略JinJ,SongC,LiH,etal.Real-timebiddingwithmulti-agentreinforcementlearningindisplayadvertising[C]//Proceedingsofthe27thACMinternationalconferenceoninformationandknowledgemanagement.2018:2193-2201.WuD,ChenX,YangX,etal.Budgetconstrainedbiddingbymodel-freereinforcementlearningindisplayadvertising[C]//Proceedingsofthe27thACMInternationalConferenceonInformationandKnowledgeManagement.2018:1443-1451.HeY,ChenX,WuD,etal.Aunifiedsolutiontoconstrainedbiddinginonlinedisplayadvertising[C]//Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.2021:2993-3001.YangX,LiY,WangH,etal.Bidoptimizationbymultivariablecontrolindisplayadvertising[C]//Proceedingsofthe25thACMSIGKDDinternationalconferenceonknowledgediscovery&datamining.2019:1966-1974.GuanZ,WuH,CaoQ,etal.Multi-agentcooperativebiddinggamesformulti-objectiveoptimizationine-commercialsponsoredsearch[C]//Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.2021:2899-2909.WenC,XuM,ZhangZ,etal.Acooperative-competitivemulti-agentframeworkforauto-biddinginonlineadvertising[C]//ProceedingsoftheFifteenthACMInternationalConferenceonWebSearchandDataMining.2022:1129-1139.MouZ,HuoY,BaiR,etal.SustainableOnlineReinforcementLearningforAuto-bidding[J].AdvancesinNeuralInformationProcessingSystems,2022,35:2651-2663.阿里媽媽生成式出價(jià)模型(AIGB)詳解/p/619301816,2023LinQ,TangB,WuZ,etal.SafeOfflineReinforcementLearningwithReal-TimeBudgetConstraints[J].arXivpreprintarXiv:2306.00603,2023.ZhangH,NiuL,ZhengZ,etal.APersonalizedAutomatedBiddingFrameworkforFairness-awareOnlineAdvertising[C]//Proceedingsofthe29thACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining.2023:5544-5553.GongZ,NiuL,ZhaoY,etal.MEBS:Multi-taskEnd-to-endBidShadingforMulti-slotDisplayAdvertising[C]//Proceedingsofthe32ndACMInternationalConferenceonInformationandKnowledgeManagement.2023:4588-4594.Ou,W.,Chen,B.,Liu,W.,Dai,X.,Zhang,W.,Xia,W.,Li,X.,Tang,R.,&Yu,Y.(2023).OptimalReal-TimeBiddingStrategyforPositionAuctionsinOnlineAdvertising.Proceedingsofthe32ndACMInternationalConferenceonInformationandKnowledgeManagement.Gligorijevic,D.,Zhou,T.,Shetty,B.,Kitts,B.,Pan,S.,Pan,J.,&Flores,A.(2020).BidShadinginTheBraveNewWorldofFirst-PriceAuctions.Proceedingsofthe29thACMInternationalConferenceonInformation&KnowledgeManagement.Zhang,W.,Kitts,B.,Han,Y.,Zhou,Z.,Mao,T.,He,H.,Pan,S.,Flores,A.,Gultekin,S.,&Weissman,T.(2021).MEOW:ASpace-EfficientNonparametricBidShadingAlgorithm.Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.23|機(jī)制策略Kumar,A.,Zhou,A.,Tucker,G.,&Levine,S.(2020).ConservativeQ-LearningforOfflineReinforcementLearning.ArXiv,abs/2006.04779.Kostrikov,I.,Nair,A.,&Levine,S.(2021).OfflineReinforcementLearningwithImplicitQ-Learning.ArXiv,abs/2110.06169.Aggarwal,G.,Muthukrishnan,S.,Pál,D.,&Pál,M.(2008).Generalauctionmechanismforsearchadvertising.ArXiv,abs/0807.1297.Varian,H.R.,&Harris,C.(2014).TheVCGAuctioninTheoryandPractice.TheAmericanEconomicReview,104,442-445.Bachrach,Y.,Ceppi,S.,Kash,I.A.,Key,P.B.,&Kurokawa,D.(2014).Optimisingtrade-offsamongstakeholdersinadauctions.ProceedingsofthefifteenthACMconferenceonEconomicsandcomputation.Dütting,P.,Feng,Z.,Narasimhan,H.,&Parkes,D.C.(2017).Optimalauctionsthroughdeeplearning.CommunicationsoftheACM,64,109-116.Deng,Y.,Mao,J.,Mirrokni,V.S.,&Zuo,S.(2021).TowardsEfficientAuctionsinanAuto-biddingWorld.ProceedingsoftheWebConference2021.Li,N.,Ma,Y.,Zhao,Y.,Duan,Z.,Chen,Y.,Zhang,Z.,Xu,J.,Zheng,B.,&Deng,X.(2023).Learning-BasedAdAuctionDesignwithExternalities:TheFrameworkandAMatching-BasedApproach.Proceedingsofthe29thACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining.Xing,Y.Y.,Zhang,Z.,Zheng,Z.,Yu,C.,Xu,J.,Wu,F.,&Chen,G.(2023).TruthfulAuctionsforAutomatedBiddinginOnlineAdvertising.InternationalJointConferenceonArtificialIntelligence.Wilkens,C.A.,Cavallo,R.,&Niazadeh,R.(2017).GSP:TheCinderellaofMechanismDesign.Proceedingsofthe26thInternationalConferenceonWorldWideWeb.Zhang,Z.,Liu,X.,Zheng,Z.,Zhang,C.,Xu,M.,Pan,J.,Yu,C.,Wu,F.,Xu,J.,&Gai,K.(2020).OptimizingMultiplePerformanceMetricswithDeepGSPAuctionsforE-commerceAdvertising.Proceedingsofthe14thACMInternationalConferenceonWebSearchandDataMining.Liu,X.,Yu,C.,Zhang,Z.,Zheng,Z.,Rong,Y.,Lv,H.,Huo,D.,Wang,Y.,Chen,D.,Xu,J.,Wu,F.,Chen,G.,&Zhu,X.(2021).NeuralAuction:End-to-EndLearningofAuctionMechanismsforE-CommerceAdvertising.Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.Wang,Y.,Liu,X.,Zheng,Z.,Zhang,Z.,Xu,M.,Yu,C.,&Wu,F.(2021).OnDesigningaTwo-stageAuctionforOnlineAdvertising.ProceedingsoftheACMWebConference2022.Liu,Y.,Chen,D.,Zheng,Z.,Zhang,Z.,Yu,C.,Wu,F.,&Chen,G.(2023).BoostingAdvertisingSpace:DesigningAdAuctionsforAugmentAdvertising.ProceedingsoftheSixteenthACMInternationalConferenceonWebSearchandDataMining.Lv,H.,Zhang,Z.,Zheng,Z.,Liu,J.,Yu,C.,Liu,L.,Cui,L.,&Wu,F.(2022).UtilityMaximizerorValueMaximizer:MechanismDesignforMixedBiddersinOnlineAdvertising.AAAIConferenceonArtificialIntelligence.24|機(jī)制策略Xing,Y.,Zhang,Z.,Zheng,Z.,Yu,C.,Xu,J.,Wu,F.,&Chen,G.(2023).DesigningAdAuctionswithPrivateConstraintsforAutomatedBidding.ArXiv,abs/2301.13020.VarianHR.Positionauctions[J].internationalJournalofindustrialOrganization,2007,25(6):1163-1178.Zhao,X.,Gu,C.,Zhang,H.,Yang,X.,Liu,X.,Tang,J.,&Liu,H.(2019).DEAR:DeepReinforcementLearningforOnlineAdvertisingImpressioninRecommenderSystems.AAAIConferenceonArtificialIntelligence.Chen,D.,Yan,Q.,Chen,C.,Zheng,Z.,Liu,Y.,Ma,Z.,Yu,C.,Xu,J.,&Zheng,B.(2022).HierarchicallyConstrainedAdaptiveAdExposureinFeeds.Proceedingsofthe31stACMInternationalConferenceonInformation&KnowledgeManagement.Liao,G.R.,Wang,Z.,Wu,X.,Shi,X.,Zhang,C.,Wang,Y.,Wang,X.,&Wang,D.(2021).CrossDQN:CrossDeepQNetworkforAdsAllocationinFeed.ProceedingsoftheACMWebConference2022.Shen,W.,Peng,B.,Liu,H.,Zhang,M.,Qian,R.,Hong,Y.,Guo,Z.,Ding,Z.,Lu,P.,&Tang,P.(2020).ReinforcementMechanismDesign:WithApplicationstoDynamicPricinginSponsoredSearchAuctions.AAAIConferenceonArtificialIntelligence.25|機(jī)制策略Bidding模型訓(xùn)練新范式:阿里媽媽生成式出價(jià)模型(AIGB)詳解作者:銀耀、子述、妙臨導(dǎo)讀今天以ChatGPT為代表的生成式大模型讓科技行業(yè)重新興奮起來,也為廣告營(yíng)銷注入了新的想象力。生成式大模型幾乎一定會(huì)帶來用戶與互聯(lián)網(wǎng)產(chǎn)品交互模式的改變,進(jìn)而顛覆廣告營(yíng)銷模式。廣告技術(shù)人,你們準(zhǔn)備好了嗎?阿里媽媽技術(shù)已提前在該方向布局,并推出了新的廣告營(yíng)銷智能技術(shù)體系,今天將揭露出其神秘面紗的一角,窺探背后的思考和實(shí)踐。摘要出價(jià)產(chǎn)品智能化成為行業(yè)趨勢(shì),極簡(jiǎn)產(chǎn)品背后則是強(qiáng)大的自動(dòng)出價(jià)的支撐,其技術(shù)不斷演進(jìn)走過了3個(gè)大的階段:PID控制、RL-basedBidding、SORL(SustainableOnlineRL),那么下一步代際性技術(shù)升級(jí)是什么?今天以ChatGPT為代表的生成式大模型以洶涌澎湃之勢(shì)到來,幾乎一定會(huì)顛覆廣告營(yíng)銷模式,一方面,新的用戶交互模式會(huì)孕育新的商業(yè)機(jī)會(huì),給自動(dòng)出價(jià)的產(chǎn)品帶來巨大改變;另一方面,新的技術(shù)理念和技術(shù)范式也會(huì)給自動(dòng)出價(jià)算法帶來革命性的升級(jí)。阿里媽媽技術(shù)團(tuán)隊(duì)提前布局,以智能營(yíng)銷決策大模型AIGA(AIGeneratedAction)為核心重塑了廣告智能營(yíng)銷的技術(shù)體系,并衍生出以AIGB(AIGeneratedBidding)為代表的各種領(lǐng)域技能模型。AIGB是一種基于生成式模型構(gòu)造的出價(jià)模型優(yōu)化方案,與以往解決序列決策問題的強(qiáng)化學(xué)習(xí)視角不同,其將策略建模為條件生成模型,從而消除了以往強(qiáng)化學(xué)習(xí)視角下的復(fù)雜性問題。具體實(shí)現(xiàn)上,將出價(jià)、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個(gè)聯(lián)合概率分布,并以優(yōu)化目標(biāo)和約束項(xiàng)為條件,生成相應(yīng)出價(jià)策略的條件分布。訓(xùn)練時(shí)將歷史次優(yōu)投放軌跡數(shù)據(jù)作為訓(xùn)練樣本,以最大似然估計(jì)的方式擬合軌跡數(shù)據(jù)中的分布特征;推斷時(shí)基于約束和優(yōu)化目標(biāo),以符合分布規(guī)律的方式輸出出價(jià)策略。本文提出的方案可避免傳統(tǒng)RL方案中的分布偏移和策略退化問題,又具備滿足不同出價(jià)類型和不同約束的靈活性。通過AIGB的技術(shù)研究和線上實(shí)踐,我們愈發(fā)地感受到新的技術(shù)浪潮正在朝我們奔來,AIGB只是這一切的開始...26|機(jī)制策略一、背景1.1出價(jià)產(chǎn)品智能化成為行業(yè)趨勢(shì)廣告平臺(tái)吸引廣告主持續(xù)投放的核心在于給廣告主帶來更大的投放價(jià)值,出價(jià)產(chǎn)品的智能化已成為行業(yè)趨勢(shì)并加以重點(diǎn)建設(shè)的能力(如圖1)。以阿里媽媽為代表的互聯(lián)網(wǎng)廣告平臺(tái)不斷地探索流量的多元化價(jià)值,并設(shè)計(jì)更能貼近營(yíng)銷本質(zhì)的自動(dòng)出價(jià)產(chǎn)品,廣告主只需要簡(jiǎn)單的設(shè)置就能清晰的表達(dá)出營(yíng)銷訴求。極簡(jiǎn)產(chǎn)品背后則是強(qiáng)大的出價(jià)策略支撐,廣告主出價(jià)策略從海量數(shù)據(jù)中挖掘更好的營(yíng)銷模式,提升廣告主對(duì)特定價(jià)值的優(yōu)化能力,賦能廣告主投放。圖1?出價(jià)產(chǎn)品的演進(jìn)趨勢(shì),智能化逐步成為互聯(lián)網(wǎng)廣告產(chǎn)品的標(biāo)配1.2自動(dòng)出價(jià)技術(shù)的不斷演進(jìn)阿里媽媽技術(shù)團(tuán)隊(duì)多年來致力于極致的優(yōu)化自動(dòng)出價(jià)策略,幫助廣告主獲得最好的投放效果,其自動(dòng)出價(jià)策略的技術(shù)演進(jìn)可以大體分為三個(gè)大的階段,具體如下圖。2?典型的自動(dòng)出價(jià)技術(shù)演進(jìn)路線,從預(yù)算消耗控制->RL-based?Bidding->SORL,下一步代際性升級(jí)是什么?第一階段:預(yù)算消耗控制,通過控制預(yù)算的消耗速度盡可能平滑來優(yōu)化效果,一般通過經(jīng)典的控制算法,如PID等。在假設(shè)競(jìng)價(jià)環(huán)境中流量?jī)r(jià)值分布均勻的情況下,這種方法能夠達(dá)到比較好的效果。27|機(jī)制策略第二階段:RL-basedBidding,現(xiàn)實(shí)環(huán)境中的競(jìng)價(jià)環(huán)境是非常復(fù)雜且動(dòng)態(tài)變化的,只控制預(yù)算無法滿足更多樣的出價(jià)計(jì)劃的進(jìn)一步優(yōu)化。AlphaGo的驚艷表現(xiàn),展現(xiàn)了強(qiáng)化學(xué)習(xí)的力量,而自動(dòng)出價(jià)是一個(gè)非常典型的序列決策問題,在預(yù)算周期內(nèi),前面花的好不好會(huì)影響到后面的出價(jià)決策,而這正是強(qiáng)化學(xué)習(xí)的強(qiáng)項(xiàng),因此第二階段我們用了基于強(qiáng)化學(xué)習(xí)的Bidding。Simulationbasedbidding的一些工作[1]奠定了我們?cè)趶V告主報(bào)價(jià)領(lǐng)域的領(lǐng)先地位。第三階段:SORL,它的特點(diǎn)是針對(duì)強(qiáng)化學(xué)習(xí)中離線仿真環(huán)境與在線環(huán)境不一致。我們直接在在線環(huán)境中進(jìn)行可交互的學(xué)習(xí),這是工程設(shè)計(jì)和算法設(shè)計(jì)聯(lián)合的例子。SORL[2]上線之后,很大程度上解決了強(qiáng)化學(xué)習(xí)強(qiáng)依賴于仿真平臺(tái)的問題。今天以ChatGPT為代表的生成式大模型讓科技行業(yè)重新興奮起來,也為廣告營(yíng)銷注入了新的想象力。生成式大模型幾乎一定會(huì)帶來用戶與互聯(lián)網(wǎng)產(chǎn)品交互模式的改變,例如,多模態(tài)交互式對(duì)話方式會(huì)取代搜索引擎的地位,以廣告位拍賣為基礎(chǔ)的互聯(lián)網(wǎng)廣告的邏輯也會(huì)發(fā)生改變。一方面,新的用戶交互模式會(huì)孕育新的商業(yè)機(jī)會(huì),給自動(dòng)出價(jià)的產(chǎn)品帶來顛覆的改變;另一方面,新的技術(shù)理念和技術(shù)范式也會(huì)給自動(dòng)出價(jià)算法帶來革命性的升級(jí)。如今,革命性升級(jí)已經(jīng)到來!二、相關(guān)工作2.1自動(dòng)出價(jià)建??紤]到廣告目標(biāo)、預(yù)算和個(gè)KPI約束,計(jì)劃的訴求可以通過(LP1)表示為統(tǒng)一的帶約束競(jìng)價(jià)問題。如果已經(jīng)知道流量集合的全部信息,包括能夠觸達(dá)的每條流量i的流量?jī)r(jià)值和成本等,那么可以通過解決線性規(guī)劃問題(LP1)來獲得最優(yōu)解。然而,在實(shí)際應(yīng)用28|機(jī)制策略中,我們需要在流量集合未知的情況下進(jìn)行實(shí)時(shí)競(jìng)價(jià)。由于在線廣告池的動(dòng)態(tài)變化以及每天訪問用戶的隨機(jī)性,很難通過準(zhǔn)確的預(yù)測(cè)來構(gòu)建流量集合。因此,常規(guī)的線性規(guī)劃解決方法并不完全適用。所以在實(shí)際應(yīng)用中,通過對(duì)上述出價(jià)公式的一些變換,構(gòu)造一個(gè)最優(yōu)出價(jià)公式,將原問題轉(zhuǎn)化為求解最優(yōu)參數(shù)的問題,從而大大降低了在線情況下求解此問題的難度。最優(yōu)的出價(jià)公式為:其中,是常數(shù)項(xiàng),是參數(shù),其范圍為:。如果約束j是CR,則;如果約束j是NCR,則。證明過程詳見論文[1]。最優(yōu)出價(jià)公式共包含m+1個(gè)核心參數(shù),,公式中其余項(xiàng)為在線流量競(jìng)價(jià)時(shí)可獲得的流量信息。由于最優(yōu)出價(jià)公式存在,對(duì)于具有預(yù)算約束和M個(gè)KPI約束、且希望最大化贏得流量的總價(jià)值的問題,最優(yōu)解可以通過找到M+1個(gè)最優(yōu)參數(shù)并根據(jù)公式進(jìn)行出價(jià),而不是分別為每個(gè)流量尋找最優(yōu)出價(jià)。理想情況下,通過求解最優(yōu)參數(shù),即能直接獲得每個(gè)廣告計(jì)劃的最優(yōu)出價(jià)。我們可以通過PID或者RL來逼近真實(shí)環(huán)境中的最優(yōu)參數(shù)。2.2生成式模型生成式模型近年來得到了迅速的發(fā)展,在圖像生成、文本生成、計(jì)算機(jī)視覺等領(lǐng)域取得了重大突破,并催生出了近期大熱的ChatGPT等。生成式模型主要從數(shù)據(jù)分布的角度去理解數(shù)據(jù),并通過擬合訓(xùn)練數(shù)據(jù)集中的樣本分布來進(jìn)行特征提取,最終生成符合數(shù)據(jù)集分布的新樣本。目前常用的生成式模型包括Transformer[3]、DiffusionModel[4]等。Transformer主要基于自注意力機(jī)制,能夠?qū)颖局锌鐣r(shí)序和分層信息進(jìn)行提取和關(guān)聯(lián),擅長(zhǎng)處理長(zhǎng)序列和高維特征數(shù)據(jù),如圖像、文本和對(duì)話等。而DiffusionModel則將數(shù)據(jù)生成看作一個(gè)分階段去噪的過程,將生成任務(wù)分解為多個(gè)步驟,逐步加入越來越多的信息,從而生成目標(biāo)分布中的樣本。這一過程與人類進(jìn)行繪畫過程較為相似,由此可見,DiffusionModel擅長(zhǎng)處理圖像生成等任務(wù)。依靠生成式模型強(qiáng)大的信息生成能力,我們也可以引入生成式模型將序列決策問題建模為一個(gè)序列動(dòng)作生成問題。模型通過擬合歷史軌跡數(shù)據(jù)中的行為模式,達(dá)到策略輸出的目標(biāo)。DecisionTransformer(DT)[5]和DecisionDiffuser(DD)[6]分別將29|機(jī)制策略Transformer以及DiffusionModel應(yīng)用于序列決策,在通用數(shù)據(jù)集中,相比主流的RL方法[7,8]取得了較好的效果提升。這一結(jié)果為我們的Bidding建模提供了一個(gè)可用的迭代方案。三、AIGB(AIGeneratedBidding)3.1智能營(yíng)銷技術(shù)體系的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店客房鑰匙管理與使用制度
- 濟(jì)源物流管理員工培訓(xùn)
- 實(shí)驗(yàn)室消防培訓(xùn)課件
- 松下新員工安全培訓(xùn)課件
- 2024-2025學(xué)年江蘇省淮安市高二下學(xué)期期末調(diào)研測(cè)試歷史試題(解析版)
- 2026年翻譯職業(yè)水平認(rèn)證筆譯能力測(cè)試題
- 2026年自然地理與環(huán)境保護(hù)知識(shí)測(cè)試題
- 2026年法律常識(shí)自測(cè)題民法典刑法等法律知識(shí)測(cè)試
- 2026年歷史知識(shí)世界歷史大事年表題庫
- 2026年體育競(jìng)賽策略足球籃球?qū)m?xiàng)技術(shù)試題
- 混凝土攪拌站試運(yùn)行報(bào)告
- T/CCMA 0133-2022高爾夫球車
- ?;窇?yīng)急演練實(shí)操
- 胸部損傷的處理和護(hù)理
- 張家口市2025屆高三年級(jí)全市第二次模擬考試英語試題(含答案詳解)
- 干線公路養(yǎng)護(hù)培訓(xùn)課件
- 國(guó)家電網(wǎng)有限公司輸變電工程通 用設(shè)計(jì)(330~750kV輸電線路絕緣子金具串通 用設(shè)計(jì)分冊(cè))2024版
- 欠債抵房屋協(xié)議合同
- 全國(guó)青少年軟件編程等級(jí)考試scratch等級(jí)考試三級(jí)模擬測(cè)試卷2含答案
- TSG R0004-2025固定式壓力容器安全技術(shù)監(jiān)察規(guī)程
- DBJ50T-240-2016 蒸壓加氣混凝土精確砌塊自承重墻體工程應(yīng)用技術(shù)規(guī)程
評(píng)論
0/150
提交評(píng)論