計算廣告學 課件 姜智彬 第1-6章 計算廣告的內涵和特征 - 計算廣告用戶定向_第1頁
計算廣告學 課件 姜智彬 第1-6章 計算廣告的內涵和特征 - 計算廣告用戶定向_第2頁
計算廣告學 課件 姜智彬 第1-6章 計算廣告的內涵和特征 - 計算廣告用戶定向_第3頁
計算廣告學 課件 姜智彬 第1-6章 計算廣告的內涵和特征 - 計算廣告用戶定向_第4頁
計算廣告學 課件 姜智彬 第1-6章 計算廣告的內涵和特征 - 計算廣告用戶定向_第5頁
已閱讀5頁,還剩124頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

內涵和特征計算廣告的ConnotationandCharacteristics第一章目錄基本內涵BASICCONNOTATION發(fā)展脈絡DEVELOPMENTCONTENT本質特征ESSENTIALCHARACTERISTICS01基本內涵廣告形態(tài)數(shù)字化廣告的數(shù)字化就是把連續(xù)變化的廣告信息(如圖畫的線條、聲音信號等)轉化為一串離散的單元,在計算機中用二進制數(shù)字數(shù)和和表示。用戶行為數(shù)據(jù)化在線化網(wǎng)民在網(wǎng)上的各種行為都以數(shù)據(jù)的形式被記錄下來,這就是所謂的數(shù)字足跡。此外,移動互聯(lián)網(wǎng)時代的到來使用戶更傾向于實時在線,廣告平臺可以通過持續(xù)收集用戶數(shù)據(jù)來了解他們。。計算思維社會化計算思維就是通過算法的設計和實施來解決某一領域復雜問題的思維方式和自覺意識。營銷數(shù)據(jù)資產(chǎn)化大數(shù)據(jù)是指人類通過數(shù)據(jù)挖掘工具而獲取的完整的、動態(tài)的、實時的數(shù)據(jù)流,它具有大容量、多種類、高速處理、結構復雜等特點。計算工具智能化機器學習研究機器如何模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,并學習如何做出預測和建議,它是人工智能的核心,是使機器獲取智能的根本途徑。產(chǎn)生背景以技術為基礎計算廣告的一切數(shù)據(jù)均由數(shù)據(jù)技術與智能算法進行處理與優(yōu)化,廣告全鏈路均涉及廣泛的數(shù)據(jù)處理與算法運用,算法賦予了計算廣告“智能”的基因。以數(shù)據(jù)為核心計算廣告強調的是大數(shù)據(jù)驅動的廣告理念。隨著大數(shù)據(jù)技術的普及和發(fā)展,“大數(shù)據(jù)大廣告”改變了傳統(tǒng)模式,廣告步入數(shù)據(jù)化的計算廣告時代。以場景覆蓋與交互體驗為關鍵環(huán)節(jié)計算廣告在廣告投放過程中選擇合適的場景、提供具有吸引力和交互性的廣告內容。通過這種方式,廣告主可以更好地實現(xiàn)廣告的目標,提高用戶參與度和營銷效果?;径x01020304計算廣告消費者洞察是利用計算機技術和數(shù)據(jù)挖掘方法,對消費者的興趣、需求、行為等信息進行深入挖掘和分析,獲取消費者的個性化需求和群體性特征,從而為計算廣告的精準投放提供用戶數(shù)據(jù)和定向依據(jù)。計算廣告創(chuàng)意生產(chǎn)是利用計算機科學、統(tǒng)計學、人工智能等技術手段,對廣告文本、圖像、視頻等素材進行分析和處理,自動生成廣告創(chuàng)意內容,在保證廣告效果和用戶體驗質量的前提下提高廣告創(chuàng)意生產(chǎn)效率。計算廣告競價交易是一種自動化的廣告交易方式,廣告主向廣告系統(tǒng)提交競價信息,廣告系統(tǒng)根據(jù)一系列的規(guī)則和算法,選擇oCPX最高的廣告進行展示,同時廣告主按照競價金額支付廣告費用。計算廣告效果反饋主要包括監(jiān)測評估和優(yōu)化應對兩個方面,主要通過數(shù)據(jù)處理技術可以對采集的廣告效果原始數(shù)據(jù)進行清洗、管理、存儲以及數(shù)據(jù)的模型化和結構化,將不完整、不規(guī)則、非結構化的原始數(shù)據(jù)進行去重、補全、糾錯,形成統(tǒng)一的數(shù)據(jù)源,并對其進行分析統(tǒng)計、并行計算和機器學習,完成對廣告效果數(shù)據(jù)的監(jiān)測、評估和優(yōu)化。運作流程消費者洞察創(chuàng)意生產(chǎn)交易投放效果反饋02發(fā)展脈絡數(shù)據(jù)、算法、算力競價廣告優(yōu)勢競價廣告運用競價廣告監(jiān)測精確定位目標受眾、實時競爭廣告展示位置、靈活控制廣告投放預算騰訊、谷歌、百度……電話或在線詢盤監(jiān)測、目標轉化監(jiān)測、用戶行為監(jiān)測、競爭對手監(jiān)測、異常流量監(jiān)測競價發(fā)展程序化發(fā)展程序化發(fā)展人工智能廣告的技術基礎是大數(shù)據(jù),具有規(guī)模海量、流轉快速、類型多樣以及價值密度低等特征。技術基礎基于智能生成技術實現(xiàn)廣告內容創(chuàng)作的人機耦合、基于特征建模技術實現(xiàn)廣告內容的精準投放、基于深度學習技術建立雙向互動的反饋機制。應用場景人工智能廣告的最終目的是促進品牌與消費者之間的價值共創(chuàng),在準確預判消費者個性化需求的基礎上,推送基于消費者個性的定制內容。最終目的智能化發(fā)展智能化發(fā)展03本質特征傳統(tǒng)廣告的信息包含在事先制作好的作品中,受眾的甄別和選擇只能通過媒體的不同、版面或頻道的區(qū)別等方式來實現(xiàn)。計算廣告依托的基礎是各類數(shù)據(jù)和算法模型,因此廣告信息和用戶的連接是通過“匹配”的方式來實現(xiàn)的。精準匹配傳統(tǒng)的廣告效果監(jiān)測是一種事后監(jiān)測,廣告主從廣告代理公司或第三方調查公司獲取廣告效果,缺乏即時的效果反饋與靈活的應對措施,廣告效果具有延遲性、間接性、累積性;而基于海量數(shù)據(jù)的動態(tài)效果監(jiān)測可以預估廣告轉化價值和計算媒介渠道價值效果可測計算廣告與傳統(tǒng)廣告的最大區(qū)別正是其“計算”本質。計算廣告的計算體現(xiàn)為全流程的計算、全角色的計算,計算和優(yōu)化都是實時的。實時計算、實時優(yōu)化:大數(shù)據(jù)+大規(guī)模計算+復雜模型+高效算法是對計算實時性的高度概括。實時互動與品效合一不同,品效協(xié)同更注重效果實現(xiàn)和品牌傳播產(chǎn)生的長線協(xié)同效應,而非僅注重某一次營銷活動立竿見影的影響。品效協(xié)同是廣告數(shù)據(jù)互通、廣告技術融通和廣告價值共贏三要素共同發(fā)揮作用的結果,缺少任何要素,都不能實現(xiàn)品效協(xié)同的效果。品效協(xié)同本質特征本質特征內涵和特征計算廣告的ConnotationandCharacteristics數(shù)據(jù)革命計算廣告與DataRevolution第二章目錄時代性特征CHARACTERISTICSOFTHETIMES顛覆性變革DISRUPTIVECHANGE社會性困境SOCIALDILEMMA01時代特征大數(shù)據(jù)相關技術概念得到一定程度的傳播,但沒有得到實質性發(fā)展萌芽期大數(shù)據(jù)是指人類通過數(shù)據(jù)挖掘工具而獲取的完整的、動態(tài)的、實時的數(shù)據(jù)流,具有大容量、多種類、高速處理、結構復雜等特點伴隨著互聯(lián)網(wǎng)數(shù)據(jù)爆發(fā)式增長,大數(shù)據(jù)市場迅速成長,大數(shù)據(jù)技術逐漸被大眾熟悉和使用成長期大數(shù)據(jù)迎來了發(fā)展的高潮,包括我國在內的世界各個國家紛紛布局大數(shù)據(jù)戰(zhàn)略爆發(fā)期大數(shù)據(jù)應用滲透到各行各業(yè),價值不斷凸顯,數(shù)據(jù)驅動決策水平和社會智能化程度大幅提高,大數(shù)據(jù)產(chǎn)業(yè)迎來快速發(fā)展和大規(guī)模應用實施大規(guī)模應用期大數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)庫與數(shù)據(jù)倉庫數(shù)據(jù)庫是一個有組織的數(shù)據(jù)集合,用于存儲和管理相關數(shù)據(jù)。數(shù)據(jù)倉庫是一個用于集成、存儲和分析各種來源的數(shù)據(jù)的大型數(shù)據(jù)存儲系統(tǒng),提供跨庫一致的、易于訪問的數(shù)據(jù)視圖。數(shù)據(jù)平臺數(shù)據(jù)采集和收集、數(shù)據(jù)存儲和管理、數(shù)據(jù)清洗和預處理、數(shù)據(jù)分析和挖掘、數(shù)據(jù)查詢和檢索、數(shù)據(jù)可視化和報告、數(shù)據(jù)安全和權限管理。數(shù)據(jù)湖與湖倉一體數(shù)據(jù)湖可以把非結構化和結構化數(shù)據(jù)共同存儲并進行處理,湖倉一體是一種新型開放式架構,可以將數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢充分結合。底層架構商業(yè)化數(shù)據(jù)收集和分析能力、目標受眾定位的精確性、實時競價和個性化廣告投放、數(shù)據(jù)驅動的優(yōu)化和迭代自動化計算廣告從用戶行為數(shù)據(jù)收集,到受眾定向,再到線上根據(jù)用戶標簽自動決策,整個過程都是自動進行的。系統(tǒng)化系統(tǒng)化的數(shù)據(jù)整合和分析提供了深入了解用戶行為和偏好的洞察力,用以制定廣告創(chuàng)意和定向策略;系統(tǒng)化的效果追蹤和數(shù)據(jù)反饋能夠實時監(jiān)測廣告指標,并進行優(yōu)化和調整。計算廣告02顛覆變革全樣思維側重數(shù)據(jù)收集的整體性,追求全體數(shù)據(jù)而不是隨機的抽樣的數(shù)據(jù),進而實現(xiàn)對事物的全面、動態(tài)、及時的數(shù)據(jù)呈現(xiàn)。全樣思維大數(shù)據(jù)時代具有“秒級響應”的特征,在大數(shù)據(jù)應用場景當中,效率是重點,分析結果的精確度只要達到一定程度即可,不必一味苛求更高的準確率。效率思維在大數(shù)據(jù)時代,數(shù)據(jù)中包含的信息可以幫助消除不確定性,而數(shù)據(jù)之間的相關性在某種程度上可以取代原來的因果關系,幫助人們得到想要知道的答案。相關思維廣告思維更新大數(shù)據(jù)時代,通過數(shù)據(jù)的追蹤定位與分析、篩選等手段,廣告主可以最大程度地了解受眾的需求與動機,對受眾推送的信息及商品在很大程度上能滿足受眾需求。最大化的受眾價值大數(shù)據(jù)環(huán)境下的市場信息追蹤的正是針對消費者的可變性和動態(tài)性調整和更換推送信息,從而實現(xiàn)千人千面的個性化精準傳播。個性化的精準傳播大數(shù)據(jù)實時監(jiān)測提升了廣告預測與評估的速度、效度與精度,可針對不同消費者的不同需求或者同一消費者在不同時空場景下的不同需求展示最合適的廣告信息。實時化的效果反饋廣告價值重構數(shù)據(jù)BP運營機制數(shù)據(jù)BP機制在組織形式上屬于可以統(tǒng)一管理調配的集中式,執(zhí)行上分布到各個業(yè)務解決問題。這種組織方式既能夠向上支撐不同類型的業(yè)務線,還能向下兼容數(shù)據(jù)平臺底層的各項能力。個性化推薦與內容生產(chǎn)激勵通過分析用戶的興趣和行為數(shù)據(jù),字節(jié)跳動能夠精準地為用戶推薦符合其興趣的內容和產(chǎn)品,提高用戶粘性和使用體驗。用戶基礎和數(shù)據(jù)資源字節(jié)跳動能夠實時收集和分析用戶在平臺上的行為數(shù)據(jù),從而了解用戶興趣、喜好和需求;還通過智能算法,對這些數(shù)據(jù)進行深入分析和挖掘,發(fā)現(xiàn)用戶潛在的消費意愿和市場需求,為商業(yè)創(chuàng)新提供有力的支撐。廣告投放與商業(yè)變現(xiàn)通過對用戶的行為和興趣數(shù)據(jù)進行分析,字節(jié)跳動建立起精準的用戶畫像和個性化推薦系統(tǒng),成功地將廣告投放與用戶需求、用戶體驗緊密結合,實現(xiàn)了商業(yè)的可持續(xù)增長,為廣告主和平臺用戶帶來了雙贏。商業(yè)奇跡開發(fā)利基市場推動個性化營銷實現(xiàn)長尾效應大數(shù)據(jù)正在將大規(guī)模市場轉換成無數(shù)的利基市場,利基廣告通過與消費者進行一對一的溝通,個性定制并打造理想的顧客關系。數(shù)據(jù)革命使得企業(yè)能夠收集和整合來自多個渠道和來源的大量數(shù)據(jù)企業(yè)也更重視對數(shù)據(jù)的深度挖掘和分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的模式、趨勢和關聯(lián)關系。通過大規(guī)模收集和分析用戶行為、偏好和購買數(shù)據(jù),企業(yè)可以獲得大量細分市場的信息,揭示出長尾市場的潛在需求。營銷法則優(yōu)化03社會困境頭部平臺互聯(lián)網(wǎng)頭部平臺掌握了接觸、使用和授權他人使用用戶數(shù)據(jù)的權力,占據(jù)了數(shù)據(jù)產(chǎn)業(yè)鏈的頂端位置,因此能獲取最大部分的數(shù)據(jù)收益。三大運營商三大運營商掌握了大量底層真實數(shù)據(jù),但它們在通信行業(yè)具有壟斷地位,自身優(yōu)勢明顯,在消費者方面存在保密協(xié)議,在管理方面也受到國家政策的嚴格限定,合作難度大。中小型數(shù)據(jù)主體相比頭部互聯(lián)網(wǎng)公司數(shù)據(jù)管理平臺的數(shù)據(jù)資產(chǎn),小公司的數(shù)據(jù)量小而垂直。這些數(shù)據(jù)雖有價值,但是小公司的數(shù)據(jù)呈碎片化分布,總量巨大卻難以整合,導致中小型數(shù)據(jù)主體數(shù)據(jù)斷層。HSDKTUOPMN數(shù)據(jù)交易市場的零和游戲導致了數(shù)據(jù)割據(jù)現(xiàn)象的產(chǎn)生,學界和業(yè)界將其產(chǎn)生的問題形象地命名為“數(shù)據(jù)孤島”。數(shù)據(jù)孤島形成的主要原因是:互聯(lián)網(wǎng)頭部平臺依靠數(shù)據(jù)圍墻獲取壟斷收益、三大運營商構筑數(shù)據(jù)流通的天然壕溝、中小型數(shù)據(jù)主體數(shù)據(jù)斷層。構成“孤島”的數(shù)據(jù)圍墻全景監(jiān)獄數(shù)據(jù)庫的技術權力統(tǒng)治模式消解了私人空間與公共空間的界限,實現(xiàn)了對人全面的無時無刻的監(jiān)視和規(guī)訓。過度推測通過數(shù)據(jù)挖掘技術,人們可以從消費者數(shù)據(jù)中發(fā)現(xiàn)更多的隱含價值信息,同時可以消解個體對個人信息數(shù)據(jù)的控制能力,通過數(shù)據(jù)預測技術來窺探個體的“未來的隱私”。黑色交易由于數(shù)據(jù)所有權人同大數(shù)據(jù)占有者的分離,個人數(shù)據(jù)的刪除權、存儲權、使用權、知情權等本屬于個人可以自主的權利,如今在很多情況下卻難以保障。數(shù)據(jù)所有權人不但不占有數(shù)據(jù),甚至接觸、支配自己的數(shù)據(jù)財產(chǎn)也非常困難。HSDKTUOPMN大數(shù)據(jù)時代,數(shù)據(jù)作為人的第二“肉身”,時刻暴露在監(jiān)視之下。無論是電子蹤跡數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù),還是以定位信息和通話記錄為核心內容的移動通信數(shù)據(jù),都包含大量個體消費者的信息?!巴该魇澜纭钡臄?shù)據(jù)倫理問題主要體現(xiàn)在大數(shù)據(jù)時代的全景監(jiān)獄、過度推測和黑色交易等三個方面?!巴该魇澜纭钡臄?shù)據(jù)倫理自然缺陷LabeledFacesintheworld大多數(shù)是男性和白人;亞馬遜招聘系統(tǒng)存在性別歧視;APP忽略老人反饋。算法偏見黑箱效應是對于特定的設備而言的,公眾可以觀察到信息的輸入和輸出,卻無法觀察到設備內部對于信息的處理過程。大數(shù)據(jù)算法的社會本質是一種權力,隱含著十分微妙且隱秘的社會偏見。人性隱喻數(shù)據(jù)收集和處理過程是無法窺探內部結構的黑箱,甚至許多算法研究者都無從對數(shù)據(jù)處理的方法進行全面的評估,也無從通過經(jīng)驗證據(jù)和理論框架對其中一些復雜的相互關系進行解釋,于是大數(shù)據(jù)及算法的偏見往往是隱匿而不可知的。HSDKTUOPMN數(shù)據(jù)集本身往往更趨于展現(xiàn)主流群體,或數(shù)據(jù)易獲取的群體,這就會導致數(shù)據(jù)集與客觀現(xiàn)實具有偏差,從而引發(fā)偏見。隱含偏見的“數(shù)據(jù)黑箱”主要體現(xiàn)在數(shù)據(jù)本身的自然缺陷、數(shù)據(jù)分析的算法偏見和數(shù)據(jù)邏輯的人性隱喻等三個方面。隱含偏見的“數(shù)據(jù)黑箱”信息的個人日報化用戶只關注自己選擇的內容,置身于自己感到安慰和愉悅的傳播世界,如同置身于蠶繭般作繭自縛。排異的算法推薦大數(shù)據(jù)時代的“信息繭房”,其本質就是基于大數(shù)據(jù)技術的算法推送最大限度地做到信息內容分發(fā)與用戶自身固有偏好和需求相匹配,以最大限度地使用戶屏蔽“異己信息”的干擾。社會黏性下降在由個性化推薦形成的一個個群體中,高度同質化的共性認同會削弱個體活躍的獨立思考能力,從而減小個體與個體之間的差異性。而不同群體間感知方式、認知水平與群體價值觀念的差異,則會使得群體之間的分歧日益嚴重。HSDKTUOPMN數(shù)據(jù)不僅成為衡量一切的標準,而且還從根本上決定了人的認知和選擇范圍,對人們思維和行動形成獨裁霸權?!靶畔⒗O房”的數(shù)據(jù)獨裁體現(xiàn)在網(wǎng)絡信息個人日報催化信息繭房、“排斥異己”的算法推薦馴化用戶、不斷消逝的社會黏性與群體極化等三個方面?!靶畔⒗O房”的數(shù)據(jù)霸權數(shù)據(jù)革命計算廣告與DataRevolution數(shù)據(jù)處理計算廣告DataProcessing第三章目錄數(shù)據(jù)采集DATACOLLECTION數(shù)據(jù)清洗DATACLEANING數(shù)據(jù)洞察與建模DATAINSIGHTANDMODELING01數(shù)據(jù)采集采集目標在數(shù)據(jù)采集之前,首先要確定本次廣告活動想要達到的營銷目標與廣告效果,如了解消費者的需求轉移路徑,或者產(chǎn)品之間的關聯(lián)性等。采集來源第一方數(shù)據(jù)是在廣告主自有平臺上產(chǎn)生和被采集的,所有權屬于廣告主的數(shù)據(jù)。第二方數(shù)據(jù)是在外部平臺上產(chǎn)生和被采集的,所有權屬于廣告主的數(shù)據(jù)。第三方數(shù)據(jù)即在外部平臺上產(chǎn)生和被采集的,所有權屬于第三方的數(shù)據(jù)。采集系統(tǒng)計算廣告數(shù)據(jù)種類較多,并且不同種類數(shù)據(jù)產(chǎn)生的方式與來源不同。據(jù)此,采集系統(tǒng)主要分為系統(tǒng)日志采集系統(tǒng)、網(wǎng)絡數(shù)據(jù)采集系統(tǒng)和數(shù)據(jù)庫采集系統(tǒng)等三種類型。數(shù)據(jù)庫數(shù)據(jù)采集常見的三種采集方式是直連同步、數(shù)據(jù)文件同步和數(shù)據(jù)庫日志解析同步。HSDKTUOPMN數(shù)據(jù)采集是通過傳感器、社交網(wǎng)絡、移動互聯(lián)網(wǎng)等渠道獲得各種類型的結構化、半結構化及非結構化的海量數(shù)據(jù),以供后續(xù)數(shù)據(jù)開發(fā)和使用。廣告采集的數(shù)據(jù)主要有四種類型:系統(tǒng)數(shù)據(jù)、指標數(shù)據(jù)、監(jiān)控數(shù)據(jù)和性能數(shù)據(jù)。數(shù)據(jù)采集02數(shù)據(jù)清洗用戶標識數(shù)據(jù)私有用戶標識僅僅標識了用戶的簽約狀態(tài),不需要告知別人,用戶也無須感知;公有用戶標識包括UserID、Cookie、IDFA、IDFV、IMEI、AndroidID、MAC、OAID、OpenID、UnionID。人口屬性數(shù)據(jù)人口屬性是指人口所固有的性質和特點,包括生物屬性和社會屬性兩個方面。生物屬性是社會屬性的自然條件;社會屬性是人口區(qū)別于生物群體的根本標志。地理位置數(shù)據(jù)地理位置數(shù)據(jù)是指與地理空間或水平面上存在的物體或元素相關的信息。地理位置信息可以用于用戶行為和生活狀態(tài)分析。用戶行為數(shù)據(jù)主要有轉化、預轉化、搜索廣告點擊、展示廣告點擊、搜索點擊、搜索、分享、頁面瀏覽、廣告瀏覽。根據(jù)效果廣告的有效性來劃分,用戶行為可以分為決策行為、主動行為、半主動行為和被動行為。社交關系數(shù)據(jù)在線社交網(wǎng)絡是由互聯(lián)網(wǎng)用戶通過自組織方式構建組成的集合,是真實物理世界的社交關系在虛擬網(wǎng)絡世界的一種映射,其本質是人與人之間的關系網(wǎng)絡。包括雙向確認的社交網(wǎng)絡數(shù)據(jù)、單向關注的社交網(wǎng)絡數(shù)據(jù)和基于社區(qū)的社交網(wǎng)絡數(shù)據(jù)。數(shù)據(jù)分類數(shù)據(jù)標準化——不標準數(shù)據(jù)形式標準化主要解決數(shù)據(jù)的形式問題;數(shù)據(jù)同趨化處理解決不同性質的數(shù)據(jù)問題;數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性問題。異常數(shù)據(jù)過濾——不干凈異常數(shù)據(jù)是指那些在數(shù)據(jù)集中存在的不合理的值。首先使用工具和數(shù)據(jù)分析來進行異常數(shù)據(jù)的排查,之后進行異常數(shù)據(jù)過濾,常用方法有七種:刪除、視為缺失值、平均值修正、蓋帽法、分箱法、回歸插補、多重插補。數(shù)據(jù)ID打通——不整合ID打通也稱為“同人”,即找到“人和設備”“設備和設備”之間的關聯(lián)。ID打通常用的幾個合規(guī)做法包括會員體系ID打通、IP同源ID打通、多場景ID適配。數(shù)據(jù)整理數(shù)據(jù)庫技術數(shù)據(jù)模型管理常用的數(shù)據(jù)模型數(shù)據(jù)庫技術是研究如何組織和存儲數(shù)據(jù),如何高效地獲取和處理數(shù)據(jù),是一種計算機輔助管理數(shù)據(jù)的方法。包括存儲、查找、添加、修改、刪除數(shù)據(jù)等功能。數(shù)據(jù)模型是現(xiàn)實世界在數(shù)據(jù)庫中的抽象,也是數(shù)據(jù)庫系統(tǒng)的核心和基礎。數(shù)據(jù)模型通常包括數(shù)據(jù)結構、數(shù)據(jù)操作和數(shù)據(jù)完整性約束三個要素。數(shù)據(jù)庫理論領域中最常見的數(shù)據(jù)模型主要有層次模型、網(wǎng)狀模型和關系模型三種。數(shù)據(jù)管理03洞察建模數(shù)據(jù)洞察計算廣告數(shù)據(jù)洞察針對廣告投放后的數(shù)據(jù)報表及其分析,涵蓋推廣賬號、推廣計劃、廣告組、定向標簽等多個層級的數(shù)據(jù),并支持按日、按小時進行查詢?;凇皵?shù)據(jù)擴充”的數(shù)據(jù)洞察基于“數(shù)據(jù)擴充”的數(shù)據(jù)洞察法是根據(jù)廣告主采集的的9直接采購外部供應商的現(xiàn)成標簽用以數(shù)據(jù)洞察。數(shù)據(jù)分析和數(shù)據(jù)挖掘數(shù)據(jù)分析是通過SQL、Python、Excel等工具匯總數(shù)據(jù),將數(shù)據(jù)轉換為可理解可使用的信息。數(shù)據(jù)挖掘是通過建模來挖掘數(shù)據(jù)的內在關聯(lián),主要是通過機器學習從訓練集中發(fā)現(xiàn)一定的規(guī)律,從而將數(shù)據(jù)轉換為信息?;凇爸R圖譜”的數(shù)據(jù)洞察基于“知識圖譜”的數(shù)據(jù)洞察法即通過“知識圖譜”結構化數(shù)據(jù),建立自定義標簽用以數(shù)據(jù)洞察。常規(guī)的知識圖譜有URL圖譜、App圖譜、Location圖譜、互動行為圖譜和產(chǎn)品分類圖譜。數(shù)據(jù)洞察數(shù)據(jù)建模計算廣告本質是一個流量售賣的過程,是廣告主、媒體方和用戶三方的博弈。廣告主通過流量的購買最大化自己的投資回報率(ROI),媒體方通過流量的售賣進行充分“變現(xiàn)”,用戶可以從廣告中獲取自己需要的信息。從交易方式來看,計算廣告可以分為合約式廣告和競價廣告兩大類。合約式廣告由廣告代理公司和媒體簽訂協(xié)議,確保某些廣告位在某時間段為指定的廣告商所占有,同時廣告商按整體合同支付廣告費用,合約交易并不需要廣告模型。

在競價廣告中,廣告主針對曝光展示機會出價競購,最后由流量方按照競價規(guī)則(一價或者二價)將流量售賣給廣告主。數(shù)據(jù)模型類型數(shù)據(jù)模型作用數(shù)據(jù)建模步驟概念數(shù)據(jù)模型是面向用戶、面向現(xiàn)實世界的數(shù)據(jù)模型,通常是對實際的客觀對象的簡化描述。邏輯模型是指數(shù)據(jù)的邏輯結構。物理模型就是把邏輯模型的內容在具體的物理介質上實現(xiàn)出來。計算廣告數(shù)據(jù)模型的作用是通過分析廣告投放數(shù)據(jù)、用戶行為數(shù)據(jù)和其他相關數(shù)據(jù),預測廣告的點擊率、轉化率等關鍵指標。數(shù)據(jù)建模的具體步驟分為選擇數(shù)據(jù)模型、訓練數(shù)據(jù)模型、評估數(shù)據(jù)模型和應用數(shù)據(jù)模型。首先基于業(yè)務需要,決定選擇哪種模型。之后對模型進行訓練,訓練完成之后再判斷模型的質量和有用性,最后將模型應用于真實的業(yè)務場景。數(shù)據(jù)建模數(shù)據(jù)處理計算廣告DataProcessing數(shù)據(jù)脫敏計算廣告DataDesensitization第四章目錄基本內涵BASICCONNOTATION常用技術COMMONLYUSEDTECHNIQUES數(shù)據(jù)共享DATASHARING01基本內涵數(shù)據(jù)脫敏數(shù)據(jù)脫敏是指在不影響數(shù)據(jù)分析結果準確性的前提下,對原始數(shù)據(jù)中的敏感字段進行處理,從而降低數(shù)據(jù)敏感度、減少個人隱私風險。數(shù)據(jù)加密數(shù)據(jù)加密就是利用密碼技術對數(shù)據(jù)進行可逆的數(shù)學變化以隱藏信息的行為。加密技術分為對稱加密與非對稱加密兩種類型。由于數(shù)據(jù)脫敏和匿名化需要防止重識別,所以僅靠加密工具不能實現(xiàn)匿名化。數(shù)據(jù)假名化假名化是通過生成新的字符(假名)來替代原標識符(通常為直接標識符)的數(shù)據(jù)處理方式,使得個人信息控制者在不借助額外信息情況下無法識別出個人信息主體。常用的假名生成技術包括帶密鑰加密、哈希函帶密鑰的哈希函數(shù)等。相關概念數(shù)據(jù)性質去標識化處理后的信息仍然屬于個人信息,其是以電子或者其他方式記錄的與已識別或者可識別的自然人有關的各種信息,不包括匿名化處理后的信息。目標對直接標識符和準標識符進行刪除或變換,避免攻擊者根據(jù)這些屬性直接識別或者結合其他信息識別出原始個人信息主體;控制重標識的風險;確保去標識化后的數(shù)據(jù)集盡量達到其預期的用途。原則合規(guī)原則、個人信息安全保護優(yōu)先原則、技術和管理相結合原則、充分應用軟件工具原則、持續(xù)改進原則。數(shù)據(jù)去標識化對直接標識符進行脫敏處理,比如將直接標識符假名化、加密、抑制或者屏蔽等。脫敏處理匿名化是指個人信息經(jīng)過處理后無法識別特定自然人且不能復原的過程。對間接標識符進行泛化或者隨機化。泛化或者隨機化的程度越高,安全性就越高,但是數(shù)據(jù)的可用性也就越低。泛化或隨機化常見的重識別方法包括隔離、關聯(lián)和推斷。重識別攻擊行為包括:(1)重識別一條屬于一個特定個人信息主體的記錄;(2)重識別一條特定記錄的個人信息主體;(3)盡可能多地將記錄和其對應的個人信息主體關聯(lián);(4)判定一個特定的個人信息主體在數(shù)據(jù)集中是否存在;(5)推斷一組和其他屬性關聯(lián)的敏感屬性。評估重識別風險隨著時間推移,重識別技術和攻擊者的重識別能力都在變化,因此需要定期進行重標識風險評估,并與可接受的風險閾值進行比較。跟蹤匿名化效果數(shù)據(jù)匿名化靜態(tài)數(shù)據(jù)脫敏是對數(shù)據(jù)進行“搬移并仿真替換”,是將數(shù)據(jù)進行脫敏處理后,下發(fā)給下游環(huán)節(jié)取用和讀寫。是在數(shù)據(jù)存儲時脫敏,存儲的是脫敏數(shù)據(jù),一般用在非生產(chǎn)環(huán)境。靜態(tài)數(shù)據(jù)脫敏動態(tài)數(shù)據(jù)脫敏,即在訪問敏感數(shù)據(jù)的同時進行脫敏處理,可以為不同角色、不同權限、不同數(shù)據(jù)類型執(zhí)行不同的脫敏方案,從而確保返回的數(shù)據(jù)可用且安全,一般用在生產(chǎn)環(huán)境。動態(tài)數(shù)據(jù)脫敏數(shù)據(jù)脫敏類型靜態(tài)數(shù)據(jù)脫敏主要用于將數(shù)據(jù)抽離生產(chǎn)環(huán)境并進行分發(fā)和共享的數(shù)據(jù)使用場景;動態(tài)數(shù)據(jù)脫敏主要用于直接訪問生產(chǎn)數(shù)據(jù)的場景。使用場景區(qū)別靜態(tài)數(shù)據(jù)脫敏技術一般是通過變形、替換、屏蔽、保留格式加密等算法實現(xiàn),實際已經(jīng)改變了源數(shù)據(jù)的內容;動態(tài)數(shù)據(jù)脫敏通過改寫查詢SQL或攔截等方式實現(xiàn),實際上未對源數(shù)據(jù)的內容作任何改變。技術路線區(qū)別靜態(tài)數(shù)據(jù)脫敏可將脫敏設備部署于生產(chǎn)環(huán)境與測試、開發(fā)、共享環(huán)境之間;動態(tài)數(shù)據(jù)脫敏采用代理部署方式:物理旁路或邏輯串聯(lián)。部署方式區(qū)別數(shù)據(jù)脫敏兩種類型區(qū)別數(shù)據(jù)替換方法無效化方法隨機置亂方法數(shù)據(jù)替換法是將敏感字段隨機替換,如將字母變?yōu)殡S機字母,數(shù)字變?yōu)殡S機數(shù)字,文字變?yōu)殡S機文字,從而遮蔽敏感數(shù)據(jù)。在計算廣告中,數(shù)據(jù)替換方法可以應用于虛擬用戶生成數(shù)據(jù)。無效化方法通過對字段數(shù)據(jù)值進行截斷、加密、掩碼等方式讓敏感數(shù)據(jù)脫敏。這種隱藏敏感數(shù)據(jù)的方法簡單,但缺點是用戶無法得知原數(shù)據(jù)的格式。隨機擾動技術是一種常用的無效化方法。隨機置亂方法對敏感數(shù)據(jù)列的值進行重新隨機分布,混淆原有值和其他字段的聯(lián)系。這種方法不影響原有數(shù)據(jù)的統(tǒng)計特性,最大、最小、方差等均與原數(shù)據(jù)列無異。數(shù)據(jù)脫敏方法均值統(tǒng)計方法對稱加密方法隨機置亂方法均值統(tǒng)計方法經(jīng)常用于統(tǒng)計場景,針對數(shù)值型數(shù)據(jù),先計算均值,然后使脫敏后的值在均值附近隨機分布,從而保持數(shù)據(jù)的總和不變,通常用于產(chǎn)品成本表、工資表等場合。對稱加密方法是一種采用單鑰密碼系統(tǒng)的加密方法,發(fā)送方和接收方使用相同的密鑰,這個密鑰既可用于加密原始數(shù)據(jù),也可用于解密加密后的數(shù)據(jù)。這種方法通過隨機移位改變原始數(shù)據(jù)。偏移取整在保證數(shù)據(jù)安全性的同時保證范圍的大致真實性,比前面的方法更接近真實數(shù)據(jù),在大數(shù)據(jù)分析場景中意義比較大。數(shù)據(jù)脫敏方法數(shù)據(jù)脫敏前后必須保持原有的數(shù)據(jù)特征。數(shù)據(jù)特征一致性數(shù)據(jù)脫敏不僅要抹去數(shù)據(jù)中的敏感內容,同時也需要保持原有的數(shù)據(jù)特征、業(yè)務規(guī)則和數(shù)據(jù)關聯(lián)性,保證各類業(yè)務不受脫敏的影響,保證脫敏前后數(shù)據(jù)的一致性和有效性。數(shù)據(jù)和數(shù)據(jù)的關系要保持一致。數(shù)據(jù)關系一致性數(shù)據(jù)脫敏后數(shù)據(jù)關聯(lián)性以及業(yè)務語義等保持不變。數(shù)據(jù)關聯(lián)性包括:主外鍵關聯(lián)性、關聯(lián)字段的業(yè)務語義關聯(lián)性等。業(yè)務規(guī)則關聯(lián)性相同的數(shù)據(jù)進行多次脫敏,或者在不同的測試系統(tǒng)進行脫敏,需要保證每次脫敏后的數(shù)據(jù)具有一致性。多次脫敏一致性數(shù)據(jù)脫敏要求02常用技術統(tǒng)計技術統(tǒng)計技術是指收集、整理、分析和解釋統(tǒng)計數(shù)據(jù),并對其所反映的問題給出結論的技術方法。數(shù)據(jù)抽樣需根據(jù)數(shù)據(jù)集的特點和預期的使用場景來選擇;經(jīng)常用于數(shù)據(jù)脫敏的預處理;可以簡化對數(shù)據(jù)集的計算量。數(shù)據(jù)聚合可能會降低數(shù)據(jù)的有用性;對抗重標識攻擊非常有效;某些保留格式加密具有確定性加密技術的特點;適用于多種格式的數(shù)據(jù);在給定有限符號集的情況下密可以保證加密后的數(shù)據(jù)具有與原始數(shù)據(jù)相同的格式和長度。保留格式加密技術密文排序與明文排序相同;在有限的范圍內保證加密結果在統(tǒng)計處理、隱私防挖掘、數(shù)據(jù)外包存儲與處理等場景中的有用性;完全重標識僅可能適用于擁有密鑰的一方。保序加密技術保證數(shù)據(jù)真實可用;保證數(shù)據(jù)在統(tǒng)計處理、隱私防挖掘方面的有用性;對確定性加密的重標識攻擊主要是不具備密鑰使用權時的攻擊;關聯(lián)性攻擊可能針對采用同一密鑰進行確定性加密的密文。確定性加密技術同態(tài)加密技術允許在加密狀態(tài)下進行計算操作而無需解密數(shù)據(jù),用這種技術進行數(shù)據(jù)脫敏時,對加密數(shù)據(jù)進行處理的過程不會泄露任何原始內容。同態(tài)加密技術同態(tài)秘密共享可將一個秘密拆分為“若干份額”,可利用拆分后秘密信息的特定子集來重構原始的秘密。同態(tài)秘密共享技術密碼技術屏蔽技術屏蔽技術是一種基線數(shù)據(jù)脫敏技術,包括從數(shù)據(jù)集中刪除所有直接標識符,并盡可能剝離數(shù)據(jù)集中所有記錄的部分或全部剩余標識符。包括部分數(shù)據(jù)移除、數(shù)據(jù)隔離和數(shù)據(jù)限制。局部抑制技術局部抑制技術是從所選記錄中刪除與其他標識符結合使用可以識別出相關個人信息主體的特定屬性值。記錄抑制技術“記錄抑制”是一種從數(shù)據(jù)集中刪除整個記錄或一些記錄的數(shù)據(jù)脫敏技術,需要與其它數(shù)據(jù)脫敏技術相結合以降低數(shù)據(jù)的重標識風險。抑制技術假名化技術假名化技術是通過生成新的字符(假名)替換原標識符(通常為直接標識符)的數(shù)據(jù)脫敏技術。獨立于標識符獨立于標識符的假名創(chuàng)建技術不依賴被替代的原始屬性值,而是獨立生成,典型方法為用隨機值代替原始屬性值?;诿艽a技術基于密碼技術的標識符派生假名創(chuàng)建技術通過對屬性原始值采用加密或散列等密碼技術生成假名。其中加密技術生成的假名可以用合適的密鑰及對應的算法解密,而散列技術則是一種單向的數(shù)學運算。泛化技術泛化技術是指一種降低數(shù)據(jù)集中所選屬性粒度的數(shù)據(jù)脫敏技術,是對數(shù)據(jù)進行更概括、抽象的描述。取整技術取整技術為所選的屬性選定一個取整基數(shù),然后將每個值向上或向下取整至最接近取整基數(shù)的倍數(shù)。向上還是向下取整按概率確定,該概率值取決于觀察值與最接近取整基數(shù)倍數(shù)的接近程度。頂層與底層編碼技術泛化技術為某一屬性設定一個可能的最大(或最小)閾值。頂層與底層編碼技術使用表示頂層(或底層)的閾值替換高于(或低于)該閾值的值,該技術適用于連續(xù)或分類有序的屬性。噪聲添加技術噪聲添加技術通過把“隨機噪聲”添加到所選的連續(xù)屬性值中,同時盡可能保持該屬性在數(shù)據(jù)集中的原始統(tǒng)計特性??梢詰糜趶V告點擊率預測。置換技術置換技術是表達式在不直接修改屬性值表達式的情況下對數(shù)據(jù)集記錄中所選屬性的值進行重新排序的一種技術,它保持了整個數(shù)據(jù)集中所選屬性的準確統(tǒng)計分布,適用于數(shù)字與非數(shù)字值。微聚集技術“微聚集”是指用某種算法方式計算出來的平均值代替連續(xù)屬性所有值的數(shù)據(jù)脫敏技術。每一種屬性的新值是由該屬性所在組中的平均值替換得來的??捎脕砭毣脩舳ㄏ蛲斗?。隨機化技術03數(shù)據(jù)共享脫敏數(shù)據(jù)共享主體脫敏數(shù)據(jù)共享主體包括脫敏數(shù)據(jù)提供方、脫敏數(shù)據(jù)接收方和脫敏數(shù)據(jù)計算方。脫敏數(shù)據(jù)共享服務主體脫敏數(shù)據(jù)共享服務主體包括平臺方、安全方和評估方。脫敏數(shù)據(jù)共享支持主體脫敏數(shù)據(jù)共享支持主體包括監(jiān)督方和技術方。數(shù)據(jù)脫敏共享參與機構數(shù)據(jù)預處理包括進行數(shù)據(jù)標記、匹配數(shù)據(jù)內容、形成脫敏數(shù)據(jù)三個方面的內容。共享評估包括形成多維評估因子、形成定性評估結論、形成評估報告三個步驟。脫敏數(shù)據(jù)共享基本流程源自提供方的風險及其識別與控制風險數(shù)據(jù)來源不明或未經(jīng)同意輸出個人相關數(shù)據(jù)。識別與控制要求提供方清晰數(shù)據(jù)源頭;區(qū)分數(shù)據(jù)形成方式;區(qū)分數(shù)據(jù)輸出形式;預先進行相應數(shù)據(jù)共享評估。源自計算方的風險及其識別與控制風險委托處理的數(shù)據(jù)在傳輸或存儲時可能被泄漏;可能未獲得委托方的再許可,而向他方提供數(shù)據(jù);由于缺乏與信息主體的接觸場景,無法獲得真實有效的同意。識別與控制傳輸存儲脫敏數(shù)據(jù),輔以安全適當?shù)募夹g手段、組織措施;計算方必須有委托方的真實合法授權,再提供需獨立授權;委托計算的數(shù)據(jù)應為脫敏數(shù)據(jù);計算成果數(shù)據(jù)的再提供,應遵循提供方要求而進行;預先進行相應數(shù)據(jù)的共享評估。源自接收方的風險及其識別與控制風險是否獲得信息主體的同意。處理個人相關數(shù)據(jù)是否合法、正當、必要。使用個人信息是否符合個人信息保護相關法律法規(guī)的規(guī)定。可能未獲得提供方的許可,而向他方提供數(shù)據(jù)。識別與控制檢查接收方業(yè)務資質;細分接收方數(shù)據(jù)處理應用目的;細分接收方數(shù)據(jù)的應用場景;對數(shù)據(jù)進行分級、分類、分層;細分接收方獲得信息主體對其相關數(shù)據(jù)處理應用的同意的方式方法;預先進行數(shù)據(jù)共享評估。源自數(shù)據(jù)重標識的風險及其識別與控制風險脫敏數(shù)據(jù)經(jīng)重標識后,重新成為包含個人信息的數(shù)據(jù)。被無關方獲取后重標識。與其他數(shù)據(jù)(集)匯聚后重新識別出個人信息主體。識別與控制選擇適當?shù)臄?shù)據(jù)處理與脫敏技術;利用數(shù)據(jù)共享域“受控重標識”功能,區(qū)分并控制重標識的情形;預先開展數(shù)據(jù)共享評估。源自數(shù)據(jù)敏感性的風險及其識別與控制個人敏感數(shù)據(jù)共享可能給信息主體權利、人身財產(chǎn)安全帶來風險;法律法規(guī)禁止、限制共享的其他敏感數(shù)據(jù)進入共享可能給國家安全、公共安全帶來風險。因此,要區(qū)分場景,與應用無關的個人敏感數(shù)據(jù)不得共享,法律法規(guī)規(guī)定的其他敏感數(shù)據(jù)禁止共享。源自身份識別性的風險及其識別與控制數(shù)據(jù)如若包含身份信息(標識)或直接與身份信息(標識)關聯(lián)的信息,其泄露、非法提供和濫用可能導致侵犯個人隱私權,或被犯罪分子利用引發(fā)人身或財產(chǎn)安全風險。因此,要選擇適當?shù)臄?shù)據(jù)處理與脫敏技術;禁止直接共享包含身份信息(標識)或直接與身份信息(標識)關聯(lián)的數(shù)據(jù);通過數(shù)據(jù)共享域進行共享。源自數(shù)據(jù)泄露的風險及其識別與控制數(shù)據(jù)流動可能產(chǎn)生泄露風險。因此,盡量以脫敏數(shù)據(jù)進行并享,并輔以適當?shù)募用芗夹g措施;選擇適當?shù)臄?shù)據(jù)處理與脫敏技術;在可控和安全的數(shù)據(jù)共享域下進行共享。脫敏數(shù)據(jù)共享風險識別與控制數(shù)據(jù)脫敏計算廣告DataDesensitization用戶畫像計算廣告UserProfile第五章目錄基本內涵BASICCONNOTATION構建過程BUILDPROCESS標簽體系LABELINGSYSTEM具體應用SPECIFICAPPLICATIONS01基本內涵定義用戶畫像有兩種不同的角度:一種定義從產(chǎn)品設計和開發(fā)的角度出發(fā),用戶畫像被認為是勾畫目標用戶、聯(lián)系用戶訴求與設計方向的有效工具,又稱用戶角色。這個定義主要基于實際應用,體現(xiàn)了用戶畫像的實際用途,有著具象化的特點;另一種定義從大數(shù)據(jù)的角度出發(fā),認為用戶畫像用于抽象用戶的信息全貌,是用戶信息的標簽化。這個定義從抽象角度出發(fā),更好地解釋了用戶畫像的本質,也符合大數(shù)據(jù)時代的特征,具有廣義性與抽象性。定義用戶畫像的兩種視角用戶屬性包括自然屬性、商業(yè)屬性、垂直屬性、行為屬性。用戶屬性用戶特征是對用戶基本屬性、信息需求、信息行為、心理狀態(tài)、環(huán)境影響的抽象描述,是通過一定方法從用戶屬性中抽取出來的共性特征。用戶特征用戶標簽是根據(jù)用戶特征提煉出來的標簽化文本,可以精練準確地表達用戶特征,其實質是標簽化的用戶全貌。用戶標簽用戶畫像計算廣告語境下的用戶畫像是基于數(shù)據(jù)挖掘的用戶特征提取和深層需求分析,是用戶社交屬性、生活習慣、消費行為等信息全貌的標簽集合。由用戶屬性、用戶特征和用戶標簽三個要素構成。用戶畫像在產(chǎn)品生命周期中的營銷價值市場調研產(chǎn)品研發(fā)產(chǎn)品測試“購買受眾”的實現(xiàn)基礎用戶畫像收集用戶各類屬性特征,通過標簽、權重的方式捕捉用戶動靜態(tài)信息,運用定向算法、相關性預估等計算手段就可以精準鎖定目標受眾。因此,計算廣告用戶畫像是“購買受眾”的實現(xiàn)基礎。個性化推薦的底層邏輯個性化推薦基于用戶畫像了解用戶行為特征,通過推薦技術實現(xiàn)廣告與場景和消費者的精準匹配。用戶畫像的水平影響廣告?zhèn)€性化推薦的效果,用戶畫像是個性化推薦技術的底層邏輯。業(yè)務效率的根本保證用戶畫像的應用使得計算廣告業(yè)務更加專注聚焦,可以讓廣告主站在第一視角觀察用戶的需求,使得整個計算廣告流程變得有序有效。用戶畫像在計算廣告中的基礎價值02標簽體系標簽分類按標簽變化頻率靜態(tài)標簽、動態(tài)標簽按標簽表現(xiàn)形式定性標簽、定量標簽按標簽標注方法統(tǒng)計類標簽、規(guī)則類標簽、機器學習挖掘類標簽按業(yè)務場景人口學標簽、興趣類標簽、設備類標簽、行為類標簽按數(shù)據(jù)類型數(shù)值型標簽、單選型標簽、復選型標簽、文本型標簽按標簽生成方式基礎標簽、業(yè)務標簽、智能標簽標簽分類按數(shù)據(jù)提取維度事實標簽、模型標簽、預測標簽模型標簽用戶忠誠度模型用戶忠誠度模型用戶狀態(tài)模型

標簽分類按數(shù)據(jù)提取維度事實標簽、模型標簽、預測標簽模型標簽用戶忠誠度模型用戶忠誠度模型用戶狀態(tài)模型標簽分類按標簽提取程度特征標簽、行為標簽、需求標簽標簽結構標簽是某一種用戶特征的符號表示,解決的是描述性問題。在實際應用中,標簽通常被作為一個結構體系來設計,以解決數(shù)據(jù)之間的關聯(lián)問題。標簽橫向層級用戶實際發(fā)生的行為被記錄后形成的賦值。行為屬性其他屬性推導而來的屬性。推導屬性這些指標的賦值體現(xiàn)的是用戶生而有之或者事實存在的,不因外界條件或者自身認知的改變而改變的屬性。固有屬性用戶自我表達的態(tài)度和意愿。態(tài)度屬性來自用戶的態(tài)度表達,但并不是用戶直接表達的內容,而是通過分析用戶的表達,對其進行結構化處理后得出的測試結論。測試屬性標簽屬性標簽組合標簽縱向層級03構建過程用戶畫像建構過程數(shù)據(jù)收集計算廣告用戶畫像構建要利用大數(shù)據(jù)工具收集用戶在各種平臺的痕跡和數(shù)據(jù),自建、購買服務或借用合作公司的數(shù)據(jù)管理平臺進行數(shù)據(jù)管理。數(shù)據(jù)來源第一方數(shù)據(jù):來自廣告主自有平臺的數(shù)據(jù)第二方數(shù)據(jù):從外部平臺獲取但所有權屬于廣告主的數(shù)據(jù)第三方數(shù)據(jù):所有權歸屬外部平臺的數(shù)據(jù)數(shù)據(jù)聚合結構化標簽體系半結構化標簽體系非結構化標簽體系數(shù)據(jù)清洗數(shù)據(jù)整合特征提取所謂數(shù)據(jù)清洗,主要是剔除冗余、無效的信息。數(shù)據(jù)清洗的作用就是去除無效數(shù)據(jù),保留有價值數(shù)據(jù),提升生成用戶標簽的準確性。數(shù)據(jù)整合即將不同業(yè)務系統(tǒng)中的用戶數(shù)據(jù)通過用戶戶于的唯一標識碼關聯(lián),形成維度更全的數(shù)據(jù)。特征提取,即對處理過的用戶數(shù)據(jù)進行特征識別,尋找有價值的字段數(shù)據(jù)。計算廣告用戶畫像的特征提取主要使用文本挖掘方法,主要方法包括對文本型數(shù)據(jù)進行屬性提取、聚類分析等。信息整合標簽分類習慣標簽根據(jù)用戶在各個時間段的各自活動規(guī)律和行為習慣劃分的標簽App類別標簽包括二級:一級標簽包括社交通訊、系統(tǒng)工具等;二級標簽包括聊天、社交、婚戀(社交通訊),優(yōu)化、安全、輸入法(系統(tǒng)工具)等權重標簽為不同標簽賦予的不同指標權重興趣標簽根據(jù)用戶的不同興趣愛好進行設計的標簽位置標簽通過爬取用戶的動態(tài)位置獲得定義標簽根據(jù)文本中所使用的數(shù)據(jù)建立起對應的標簽體系行為建模投放驗證建模完成之后,還需要對標簽進行驗證,即大規(guī)模并行計算標簽的有效權重,衡量基礎標簽并不斷調整優(yōu)化。精準投放大數(shù)據(jù)背景下的個性化推薦、程序化購買使得廣告媒介投放從購買粗放的媒體資源向購買指定的用戶流量轉變,從而大大提高了廣告效果。效果優(yōu)化計算廣告可以實時收集廣告投放對象的反應數(shù)據(jù),根據(jù)用戶標識和用戶行為做好廣告效果的反饋工作,并不斷進行廣告優(yōu)化,循環(huán)提升效果指標。04具體應用具體應用廣告投放平臺受眾定位、個性化推薦、渠道分析、廣告優(yōu)化廣告主商品分析、用戶運營、精準營銷、效果評估TGI指標TGI即目標群體指數(shù),是反映目標群體在特定研究范圍(如地理區(qū)域、人口統(tǒng)計領域、媒體受眾、產(chǎn)品消費者)內的強勢或弱勢的指數(shù)。TGI=[目標群體中具有某一特征的群體所占比例/

總體人群中具有相同特征的群體所占比例]*標準數(shù)100

TGI指標適用范圍TGI指標運用TGI指標運用TGI指標運用用戶畫像計算廣告UserProfile精準定向計算廣告PreciseTargeting第六章目錄相似人群拓展SIMILARGROUPEXPANSION定向維度DIRECTIONALDIMENSION重定向RETARGETING01相似人群拓展相似人群拓展相似人群拓展是基于種子用戶,通過一定的算法評估模型,在廣告數(shù)據(jù)管理平臺的用戶大數(shù)據(jù)庫中,找到更多和種子用戶有關聯(lián)性的相似人群的技術方法。種子用戶數(shù)據(jù)提交相似人群拓展首先要提交種子用戶數(shù)據(jù),明確表達目標客群會在哪些方面有突出的特征。需提交的數(shù)據(jù)包含行為結果數(shù)據(jù)、行為意向數(shù)據(jù)、行為偏好數(shù)據(jù)、行為模式數(shù)據(jù)等四個層次維度。拓群算法處理DMP能否為廣告主帶來價值,比拼的是用戶拓群似然處理算法工程化方面的實力,主要體現(xiàn)在是否可以預先調節(jié)算法維度、是否可以靈活選取人群規(guī)模、是否能夠自主設定過濾條件、是否易于實現(xiàn)工程化指標四個方面。拓展用戶輸出拓展用戶輸出是根據(jù)廣告主所需要的目標用戶量級,按模型輸出用戶群體。根據(jù)擴散量級需求,輸出量級越小,包含的用戶群體相似程度越高。輸出擴展用戶的過程要堅持結合聚類算法、結合媒體流量和結合效果優(yōu)化三個原則。相似人群拓展過程廣告主基于種子用戶標簽,在數(shù)據(jù)庫中篩選性別、年齡、品類偏好等畫像屬性的人群包直接進行投放。這種方式最為簡單和高效,但不夠精準,業(yè)界正在使用協(xié)同過濾、序列推薦、圖神經(jīng)網(wǎng)絡等技術向智能拓群方向發(fā)展。畫像標簽法分類算法是一種隱性定位方式,是通過機器學習和深度學習的分類算法對種子用戶進行建模,然后用模型去識別目標用戶。分為把種子用戶的共有特征標記為正樣本、選擇基礎用戶包、選擇負樣本、特征處理和模型訓練、擴展人群包五個步驟。分類算法社交網(wǎng)絡定位法是一種隱性定位方式,即利用社交網(wǎng)絡上的好友關系,將種子人群標簽傳給社區(qū)中的好友,從而實現(xiàn)用戶拓群。分為數(shù)據(jù)準備、用戶標簽特征處理、文本特征處理、圖像特征處理、社交關系建立、用戶擴展等六個步驟。社交網(wǎng)絡定位法相似人群拓展方法程序化廣告創(chuàng)意內容組合指的是:基于消費者心理和廣告板式要求,提取不同類型的元素進行組合,從而實現(xiàn)廣告創(chuàng)意內容和目標用戶的適配。針對產(chǎn)品特征,有米在創(chuàng)意上明確突出了美的豆?jié){機的三大賣點,直接將美的產(chǎn)品的優(yōu)秀功能信息傳遞給受眾。創(chuàng)意體現(xiàn)有米是通過調研分析,并輔以自身DMP匹配美的第一方數(shù)據(jù)進行潛在人群挖掘的。人群洞察線上消費者的購買力有巨大的挖掘空間;利用程序化廣告推廣促銷產(chǎn)品的同類廣告主越來越多。推廣背景尋找一類精準用戶、第一輪投放、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論