版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第1章緒論案例分析
利用最近一次的營銷活動的信息,分析什么對推銷結(jié)果的影響最大,如何確定銀行定
期產(chǎn)品推銷中最具價值的客戶。
1數(shù)據(jù)理解
數(shù)據(jù)源來自CSDN;
<https://blog./qq_44186838/article/detaiIs/120579194
代碼下載鏈接
https://down1oad.csdn.net/down1oad/qq_44186838/86799994
字rs名BK
age年齡(數(shù)值)
Eik(分為admtn.bluecollar,entrepreneur,housemaid,management,retired,self-employed,senrtces.student.tecnntcian,unemployed.
的unknown)
mantai婚姻狀況(分類:flfvorced.mamed.single,unknown)
education學(xué)歷(分類:primary,secondary,tertiaryandunknown)
default失信狀況(分類:yes.no)
balance更產(chǎn)余藪(數(shù)值)
housing房屋貸款(分類:yesno,unknown)
loan個人總SS(分類:yes.no.unknown)
contact儂罰t(分關(guān):ceiuiar,telephone)
dayig后一次電話E的日期(散值:月份中的彝一天)
month倭后一次電話看的的月份(分類:jan.feO.mar.apr..nov.dev)
duration通話時長(數(shù)值:以秒為單位,毆話國終編出結(jié)果必然是0)
campaign聯(lián)系次數(shù)(880:此活動中聯(lián)系該育戶的次B0
pdays距上次聯(lián)系完客戶后的天數(shù)(政值:999代表未聯(lián)系過該客戶)
previous這次活動前與這位客戶聯(lián)系的次數(shù)(數(shù)值)
poutcome上次營銷的結(jié)果(分關(guān):yes,no.unknown)
deposit定期存款(分類:yes.no)客戶是否已的買定期存款
2數(shù)據(jù)清洗
此次數(shù)據(jù)除了部分未知數(shù)據(jù)(unknown),其它暫不需要清洗。
3確定思路
balance目前推測應(yīng)該是客戶存放在銀行的資金(負(fù)數(shù)應(yīng)該代表欠了銀行錢),不可能
是代表這個人的個人全部資產(chǎn)(銀行得不到這方面的信息),所以暫時留著。
然后是day和month,如果說有年份的話還能將其分為周一周二等,但是沒有,數(shù)據(jù)
集出處也沒有明確標(biāo)注是哪一年,所以如果用來分析的話可能也只能按月來分析,但按以
往的經(jīng)驗和數(shù)據(jù)量的大小來看,應(yīng)該用處不大。
至于duration,因為當(dāng)duration為0時結(jié)果必然是失敗的,說明這個數(shù)據(jù)的記錄應(yīng)
該是銀行人員在營銷完記錄下的,而現(xiàn)實中無法在營銷前就得到該數(shù)據(jù),所以這個數(shù)據(jù)沒
有用。
那么接下來我們?nèi)绾蜗率帜兀?/p>
首先我們可以將數(shù)據(jù)分為兩種類型:
1、客戶的個人信息
2、營銷人員與客戶的聯(lián)系信息
那么接下來我們可以按照這兩種數(shù)據(jù)提出幾個問題:
1、用戶的個人信息是否對結(jié)果有著明顯的影響(哪些屬性影響大)?
2、營銷人員的行為是否對結(jié)果有著明顯的影響(明5些屬性影響大)?
4分析過程
4.1年齡
此時我們探究年齡與結(jié)果是否有明顯的影響。
首先我們可以查看以下數(shù)據(jù)集中的年齡統(tǒng)計分布情況:
A
5
655
均
754心417319
準(zhǔn)
差
誤
80.11276
付
56數(shù)
政39
960
差
1037港31
1128119134
1?38141928
13300.62154
14290.86278
1546
31值
16
35值
17
32的
18460231
191H62
41『
20
1?ft471849*70?
可以發(fā)現(xiàn)共有11162名最小值為18,最大值為95,最小值為18。我們可以按照我們
的認(rèn)知,將客戶分為幾個不同年齡階段。
cDEH
AB
分
1區(qū)間組
青
年
21818<=x<35
中
年
中
33535<=x<50老
年
人
若
45050<=x<65年
人
56565〈二x
6
7
8
9
bank|Sheetl|@□
C?輔助功能:不可用平均值:42msst:15斜口:16802G5%
分組的話主要是用到了VLOOKUP函數(shù)進行分組。
REPLACEXv6
ABCDEFGHIJ
1balancehousingloancontactd
259I3,TRUE)admin.marriedsecondanno2343yesnounknown
356中老年人admin,marriedsecondanno45nonounknown
441中年techniciarmarnedsecondanno1270yesnounknown
555中老年人servicesmarriedsecondanno2476yesnounknown
654中老年人admin.marriedtertiaryno184nonounknown
742中年managerrsingletertiaryno0yesyesunknown
856中老年人managerrmarriedtertiaryno830yesyesunknown
960中老年人retireddivorcedsecondanno545yesnounknown
1037中年techniciarmarriedsecondanno1yesnounknown
1128青年servicessinglesecondanno5090yesnounknown
1238中年admin,single100yesnounknown
1330青年blue-colkmarriedsecondanno309yesnounknown
1429青年managerrmarriedtertiaryno199yesyesunknown
15_tertiaryno460yesnounknown
16techmciarsmgletertiaryno703yesnounknown
17managerrdivorcedtertiaryno3837yesnounknown
此時得到分組后,我們可以生成數(shù)據(jù)透視表來查看情況
--1
計數(shù)項:deposit列標(biāo)簽1
行標(biāo)簽二noyes總計
|老年人19.76為80.24%100.00H;90.00%
情年49.36%50.64%100.00H;80.00%
|中老年人53.39%46.61%100.00H!70.00%
忡年58.06%41.94%100.00H:60.00%
總讓__________52,62%47.38H100.00*;50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
年知分明?
從圖當(dāng)中我們可以明顯的看到在老年人群體中最終購買了定期存款的比例最大,為
80.2%,而其他群體最終的結(jié)果并沒有明顯的差距。
4.2失信狀況default
計數(shù)項:deposit列標(biāo)簽?
行標(biāo)簽noyes總計
有失信記錄5757523710994
無失信記錄11652168
總計5873528911162
default,
有失信記錄的在結(jié)果上沒有什么差別,無失信記錄(I勺最終購買的比例低于沒有購買
的,但是數(shù)據(jù)最較小,不能作為參考。
4.3個人資產(chǎn)balance
同年齡一樣,balance是數(shù)值型,因而最好先將其分組。
balance圖表標(biāo)題
1528.54
標(biāo)準(zhǔn)誤差30.5291
中位數(shù)550
0
標(biāo)準(zhǔn)差3225.41
1E+07
126.861
8.22462
88051
量小值-6847
最大值81204
1.7E+07
觀測數(shù)11162
這里我主要采用箱型圖來查看balance數(shù)據(jù)的分布,以便后續(xù)進行分組。
可以看到的是數(shù)據(jù)主要是集中在0-2000之間,有少部分低于該區(qū)間,然后有部分大于
該區(qū)間。
按卜圖進行分組:
值
間
組
閾
區(qū)
債
-68476847<=x<0
低
00<=x<1000
等
10001000<=x<2000
高
偏
20002000<=x<5000高
超
50005000<=x<=81204
結(jié)果如下:
計數(shù)
強d
列標(biāo)簽
簽
行
標(biāo)el
yes總計
負(fù)
伍計數(shù)項:
69.4的30.52%100.0酬
中
低80.00%
56.0簫43.97%100.0QH
等
中
47.38%52.622100.0370.00%.
高
偏
42.1⑻57.89%100.0優(yōu)60.00%!
高
超
42.8(明57.204100.0優(yōu)
計
總
52.62%47.38%100.00%1IIIIIIllll
負(fù)債中低中等偏高超高
資產(chǎn)分組,Y
這里主要可以發(fā)現(xiàn)的是負(fù)資產(chǎn)的客戶最終購買的可能性較低,而資產(chǎn)較高的客戶購買
的可能性梢微大些。
4.4housing&loan
接下來的房屋貸款和個人貸款,這個我打算放在一起進行分析。
具體如下:
計數(shù)項:deposit列標(biāo)簽
計效項:deposit
行標(biāo)簽.▼noyes總計
無房貸42.97%57.03%100.00%80.00%
無個貸40.35%59.65%100.00%70.00%
有個貸64.96%35.04%100.00%60.0期
有房貸63.36*36.64%100.00H50.00H
無個貸62.44%37.56%100.00%40.00Hdeposit?
有個貸6826%31.74*100.00%
30.00%
總計52.62%47.38H100.00*
20.0㈱
10.0期
000%
無個貸有個貨無個貨有個貸
無房貨有腐貸
housrg.▼loan-
可以看到無房貸和無個人貸款的客戶最終購買的可能性最大,為59.65%。其余的只要
有任何一個貸款購買的可能性就比較低。
4.5上次營銷結(jié)果poutcome
同理.,生?成透視圖查看一下:
計數(shù)項:deposit列標(biāo)簽?
計敢項:deposit
行標(biāo)簽,noyes總計
failure49.67期50.33%100.001*
success8硒91.32%100.0OT
總計30.58%69.42%100.00%
deposit?
poutoxne,
(包括這次在內(nèi),當(dāng)生成透視圖時發(fā)現(xiàn)有部分?jǐn)?shù)據(jù)(如unknown、other)是我們不想
要的,記得篩選掉)
從圖中我們可以明顯發(fā)現(xiàn),上次營銷成功的客戶這次購買的可能性也極大。
5總結(jié)
結(jié)論:從上述結(jié)果我們可以發(fā)現(xiàn),老年人且上次營銷成功的群體最有可能購買產(chǎn)品,
而有貸款且低資產(chǎn)的用戶購買的可能性會很小。
第2章基于聚類算法的價格帶分析案例
電商中的數(shù)據(jù)維度有很多,各方各面都會有數(shù)據(jù)存在,通過對這些數(shù)據(jù)進
行分析,我們就可以知道一些我們需要的信息。商品的定價對于電商銷售來說
有著關(guān)鍵的影響。比如定價多少會直接影響所獲得的利益。定價太低也許銷量
有了卻沒有利潤,定價太高有利潤可惜賣不出去。只有合適的價格,才能獲得
市場中的一席之地。本篇以彩妝行業(yè)下三級類目“粉餅”類目為例,數(shù)據(jù)來源
是淘寶搜索“粉餅”關(guān)鍵詞下,60%價格段銷量排序的T0P400個商品。
1.引入庫
實例網(wǎng)址:
https://blog.csdn.net/qq_40195798/article/details/112625052
代碼如下(示例):
importnumpyasnp
importpandasaspd
importseabornassns
importmatplotlib.pyplotaspit
fromsklearn.clusterimportKMcans
fromsklearn.externalsimportjoblib
fromsklearn.preprocessingimportStandardScaler
fromsklearn.preprocessingimportMinMaxScaler
2.讀入數(shù)據(jù)
代碼如下:
datal=pd.rcad-csv^F:\燈具彩妝執(zhí)行'彩妝'行業(yè)分析報告'數(shù)據(jù)'價格\
餅.csv',encoding:'utf-8')
3.數(shù)據(jù)檢查及處理
datal.dtypes
datal[〃銷售價最低〃]二datal[〃銷售價最低〃].astype(np.int64)
datal[^30天銷售額〃]:datal["30天銷售額”].astypc(np.int64)
object
float64
月
份
object
地
址
寶
貝object
分
地
址
析object
評
郴
簽
價object
Length1:object
寶貝idint64
主圖漣接object
貨號float64
原價最低float64
原價最高float64
折扣率object
銷售價最低float64
銷售價最高float64
■:s+G,
查看數(shù)據(jù)類型,可得知我們的數(shù)據(jù)源中各個字段的數(shù)據(jù)類型,和共有多少
個字段。將之后會用到的字段修改成方便數(shù)據(jù)處理的類型。
datal.info()
單品6non-nullobject
上市時間112non-nullobject
限期使用日期范圍142non-nullobject
規(guī)格類型392non-nullobject
Kanebo/蠢娜寶單品0non-nullfloat64
月份52non-nullobject
寶貝地址399non-nullobject
分析地址399non-nullobject
評價標(biāo)簽394non-nullobject
dtypes:float64(ll),int32(2),int64(11),object(53)
memorvusaee:237.0+KB
info函數(shù)同樣可以做到這一點,不僅如此,info()還可以讓我們知道這些
字段中,哪些字段數(shù)據(jù)有缺失,從而讓我們可以將這些數(shù)據(jù)進行處理(刪減/填
充)。
dt2=datal[[〃寶貝id〃,〃銷售價最低〃,〃30天銷量〃]]
dt2.describe()
寶貝id銷售飲最低30天銷量
count3.9900006*02399.000000399.000000
mean5.6417668+1177.6071435561.706767
std1.428691e+1136.49136927882.787708
min2.254868e+0910.000000-1.000000
25%5.704233e+1149.900000257.500000
50%6.100299e+1169,000000450.000000
75%6.268171e+1189,0000001709.500000
max6.331716e+11168.000000346659.000000
describe。函數(shù)可以為我們計算出數(shù)據(jù)的數(shù)量、標(biāo)準(zhǔn)層、均值、四分位數(shù)
以及最大最小值。可以更直觀看出我們的數(shù)據(jù)是否有異常。這里我們看到30天
銷量為-1,顯然是不正確的。
dt2=dt2[(dt2['銷售價最低']>0)&(dt2['3O天銷量']>0)]
dt2.describe()
寶貝id銷售飾最低30天銷量
count3.9800006402398.000000398.000000
mean5.640578e*1177.6890705575.683417
std1.430292641136.50053827916.482992
min2.254868640910.000000100.000000
25%5.702503641149.900000258.250000
50%6.099429e*1169,000000452.000000
75%6.268894e*1189,0000001717.250000
max6.331716e*11168900000346659.0000C0
提取出所有銷量〉0的數(shù)據(jù)然后查看。
4.聚類分析
在確認(rèn)數(shù)據(jù)沒有問題后便可以開始著手進行聚類分析了。
sns.distplot(dt2[”銷售價最低〃])
<matplotlib.axes._subplots.AxesSubplotatCx273888fd860>
通過畫核密度圖我們可以大致看出市場價格情況:“粉餅”這一關(guān)鍵詞下,
銷量前400的商品中大部分商品價格在50元左右,高價格段商品集中在150元
左右。(這里y軸代表數(shù)據(jù)密度,是在原數(shù)據(jù)基礎(chǔ)上數(shù)據(jù)歸一化的結(jié)果)
x=dt2.iloc[:,1:3]
x.head()
s=StandardScalcr()
x_scale=s.fit_transform(x)
x_scale=pd.DataFrame(x_scale,columns=x.columns,index=x.index)
xscale,head()
一般情況下“數(shù)據(jù)標(biāo)準(zhǔn)化”是數(shù)據(jù)分析前數(shù)據(jù)處理的重要一部分,其作用
是使數(shù)據(jù)處于同一數(shù)量級,免受量綱影響。未做數(shù)據(jù)標(biāo)準(zhǔn)化的數(shù)據(jù)會明顯突出
數(shù)值過大的指標(biāo),削弱數(shù)值小指標(biāo)的影響。
scope=ranged,10)
sse=[]
forkinscope:
kmeans=KMeans(nclusters=k)
kmeans.fit(xscale)
sse.append(kmeans.inertia_)
pit.xticks(scope)
sns.lincplot(scope,sse,marker=,o')
Kmeans算法中,需要知道的一點是,Kmeans并不能自動的為我們決定將數(shù)
據(jù)劃分為幾類,而是需要我們先決定將數(shù)據(jù)劃分為幾類,然后再去由Kmeans進
行劃分。但到底劃分為幾類雖然是由我們決定,卻也不能隨意決定。常用的方
法是根據(jù)最小的SEE原則來決定最佳K值。
<matplotlib.axes._subplots.AxesSubplotat0x273888034a8>
根據(jù)圖像我們可以知道最合適的K值為3,即將我們的商品數(shù)據(jù)按價格分
為三類。
在確定了這個K=3后,我們就可以正式對數(shù)據(jù)進行聚類。
#正式定義模型
model1=KMeansInclusters?)
#跑模型
model1.fit(x_scale)
#需要知道每個類別有哪些參數(shù)
C_i=model1.predict(x_scale)
#還需要知道聚類中心的坐標(biāo)
Muk=model1.clustercenters
X=x_scale.values
print('質(zhì)心:',model1.cluster_ccntcrs_)
print('標(biāo)簽:',model1.labels_)
print('SSE:',modell.inertia_)
print('迭代次數(shù):',modell.n_iter_)
print('分值:',modell.score(x_scale))
#畫圖
pit.scatter(X[:,0],X[:,1],c=C_i,cmap=plt.cm.Paired)
#畫聚類中心
plt.scatter(Muk[:,0],Muk[:,1],marker=',s=60)
foriinrange(3):
pit.annotate('中心'+str(i+1),(Muk[i,0],Muk[i,1]))
pit.show()
質(zhì)心:[[1.58829343-0.14841212]
[-0.48672144-0.03593847]
[1.957668%12.23336845]]
標(biāo)簽:[2111111111011110101111110110111010111
0101111111101111111111011110111110100
1111111010101111010101111111111011111
010011011011111111111111111111001010
0111101111001101110011100110110111101
1110110111111101000011111110010011111
1101111111101101011111111011111111111
1101101110111101011101101111111001010
1101010111111101111111111111110111110
1110110101000110111111111110011100101
1101111121111111111111101101]
SSE:184.80881003462846
迭代次數(shù):3
很明顯可以看出我們已經(jīng)成功將商品數(shù)據(jù)根據(jù)價格劃分為了三類。一般的
通過聚類做人群劃分時,我們可以在聚類后給原數(shù)據(jù)打標(biāo),將各數(shù)據(jù)處于哪一
個分類中標(biāo)記出來。但我們這里的最終目的是給商品定價,也就是說我們需要
知道,市場的價格行情。因此還是用標(biāo)準(zhǔn)化前的數(shù)據(jù)更為直觀。
#正式定義模型
model1=KMeans^n_clusters=3)
#跑模型
model1.fit(x)
#需要知道每個類別有哪些參數(shù)
C_i=model1.predict(x)
#還需要知道聚類中心的坐標(biāo)
Muk=model1.clustercenters
X=x.values
#畫圖
pit.scatter(X[:,0],X[:,1],c=C_i,cmap=plt.cm.Paired)
#畫聚類中心
pit.scatter(Muk[:,0],Muk1],marker=',s=60)
foriinrange(3):
pit.annotate('中心'+str(i+1),(Muk[i,0],Muk[i,1]))
pit.show()
Muk
350000-
30000)-
250000-
2000(0-
1500CO-
1000CO-
50000'
o-
0utL86J:azray([[7.76640827eK)l,1.92885271e4O3],
[1.49000000e402,3.46659000e05],
[5.36666667e-K)l,8.65931111e4O4]])
這樣我們就可以直觀的得到我們的結(jié)果。從圖上可以清楚的看到結(jié)果將商
品按價格和銷量分了3類。我們可以看出“粉餅”關(guān)鍵詞下,前.400的商品絕
大部,30天銷量低于50000,從聚類中心得知這部分商品的價格中心約為78
元,銷量中心在1929左右。在商品銷量大于50000的第二類商品中,其價格中
心為約54元,銷量中心約在86593。最后一類商品銷量超過350000極為稀少
不做參考。在得到這些結(jié)果后,再根據(jù)我們自己產(chǎn)品的成本、特點、利潤,定
一個合適的價格就容易很多了。
總結(jié)提示:
以匕就是今天要講的內(nèi)容,本文以給產(chǎn)品定價為實例,通過對市場上“粉
餅”關(guān)鍵詞下60%價格段銷量前400商品的價格、銷量數(shù)據(jù)進聚類分析,該段
商品又細(xì)分3類,并找出其聚類中心,得到符合市場情況的商品價位。方便對
自己產(chǎn)品定價提供較高參考價值。
第3章用戶畫像分析案例
美團外賣經(jīng)過3年的飛速發(fā)展,品類已經(jīng)從單一的外賣擴展到了美食、夜
宵、鮮花、商超等多個品類。用戶群體也從早期的學(xué)生為主擴展到學(xué)生、白
領(lǐng)、社區(qū)以及商旅,甚至包括在KTV等娛樂場所消費的人群。隨著供給和消費
人群的多樣化,如何在供給和用戶之間做一個對接,就是用戶畫像的一個基礎(chǔ)
工作。所謂千人千面,畫像需要刻畫不同人群的消費習(xí)慣和消費偏好。
外賣020和傳統(tǒng)的電商存在一些差異??梢院唵慰偨Y(jié)為如下幾點:
1)新事物,快速發(fā)展:這意味很多用戶對外賣的認(rèn)知較少,對平臺上的新
品類缺乏了解,對自身的需求也沒有充分意識。平臺需要去發(fā)現(xiàn)用戶的消費意
愿,以便對用戶的消費進行引導(dǎo)。
2)高頻:外賣是個典型的高頻020應(yīng)用。一方面消費頻次高,用戶生命周
期相對好判定;另一方面消費單價較低,用戶決策時間短、隨意性大。
3)場景驅(qū)動:場景是特定的時間、地點和人物的組合下的特定的消費意
圖。不同的時間、地點,不同類型的用戶的消費意圖會有差異。例如白領(lǐng)在寫
字樓中午的訂單一般是工作餐,通常在營養(yǎng)、品質(zhì)上有一定的要求,且單價不
能太高;而到了周末晚上的訂單大多是夜宵,追求口味且價格彈性較大。場景
辨識越細(xì)致,越能了解用戶的消費意圖,運營效果就越好。
4)用戶消費的地理位置相對固定,結(jié)合地理位置判斷用戶的消費意圖是外
賣的一個特點。
外賣產(chǎn)品運營對畫像技術(shù)的要求
如下圖所示,我們大致可以把一個產(chǎn)品的運營分為用戶獲取和用戶拓展兩
個階段。在用戶獲取階段,用戶因為自然原因或一些營銷事件(例如廣告、社
交媒體傳播)產(chǎn)生對外賣的注意,進而產(chǎn)生了興趣,并在合適的時機下完成首
購,從而成為外賣新客。在這一階段,運營的重點是提高效率,通過一些個性
化的營銷和廣告手段,吸引到真正有潛在需求的用戶,并刺激其轉(zhuǎn)化。在用戶
完成轉(zhuǎn)化后,接下來的運營重點是拓展用戶價值。這里有兩個問題:第一是提
升用戶價值,具體而言就是提升用戶的單均價和消費頻次,從而提升用戶的
LTV(life-timevalue)0基本手段包括交叉銷售(新品類的推薦)、向上銷售
(優(yōu)質(zhì)高價供給的推薦)以及重復(fù)購買(優(yōu)惠、紅包刺激重復(fù)下單以及優(yōu)質(zhì)供
給的推薦帶來下單頻次的提升);第二個問題是用戶的留存,通過提升用戶總
體體驗以及在用戶有流失傾向時通過促銷和優(yōu)惠將用戶留在外賣平臺。
?事件普儲
?個性化推薦
?個性化廣缶?提升總體用戶體舲
?配送體驗
?個性化推薦
I場景推存
所以用戶所處的體驗階段不同,運營的側(cè)重點也需要有明不同。而用戶畫
像作為運營的支撐技術(shù),需要提供相應(yīng)的用戶刻畫以滿足運營需求。根據(jù)上圖
的營銷鏈條,從支撐運營的角度,除去提供常規(guī)的用戶基礎(chǔ)屬性(例如年齡、
性別、職業(yè)、婚育狀況等)以及用戶偏好之外,還需要考慮這么幾個問題:1)
什么樣的用戶會成為外賣平臺的顧客(新客識別);2)用戶所處生命周期的判
斷,用戶是否可能從平臺流失(流失預(yù)警);3)用戶處于什么樣的消費場景
(場景識別)。后面“外賣020的用戶畫像實踐"一節(jié)中,我們會介紹針走這
三個問題的一些實踐。
外賣畫像系統(tǒng)架構(gòu)
下圖是我們畫像服務(wù)的架構(gòu):數(shù)據(jù)源包括基礎(chǔ)日志、商家數(shù)據(jù)和訂單數(shù)
據(jù)。數(shù)據(jù)完成處理后存放在一系列主題表中,再導(dǎo)入kv存儲,給下游業(yè)務(wù)端提
供在線服務(wù)。同時我們會對整個業(yè)務(wù)流程實施監(jiān)控。主要分為兩部分,第一部
分是對數(shù)據(jù)處理流程的監(jiān)控,利用用內(nèi)部自研的數(shù)據(jù)治理平臺,監(jiān)控每天各主
題表產(chǎn)生的時間、數(shù)據(jù)量以及數(shù)據(jù)分布是否有異常。第二部分是對服務(wù)的監(jiān)
控。目前畫像系統(tǒng)支持的下游服務(wù)包括:廣告、排序、運營等系統(tǒng)。
統(tǒng)
計
戶
用
■像
日志線
在
像
畫
努
數(shù)據(jù)服
挖
據(jù)
題
主推薦
算
法
我
錄
運曹
離線查詢/報表
外賣020的用戶畫像實踐
新客運營
新客運營主要需要回答卜列二個問題:
1)新客在哪里?
2)新客的偏好如何?
3)新客的消費力如何?
回答這三個問題是比較困難的,因為相對于老客而言,新客的行為記錄非
常少或者幾乎沒有。這就需要我們通過一些技術(shù)手段作出推斷。例如:新客的
潛在轉(zhuǎn)化概率,受到新客的人口屬性(職業(yè)、年齡等)、所處地域(需求的因
素)、周圍人群(同樣反映需求)以及是否有充足供給等因素的影響;而定于
新客的偏好和消費力,從新客在到店場景下的消費行為可以做出推測。另外用
戶的工作和居住地點也能反映他的消費能力。
對新客的預(yù)測大量依賴他在到店場景下的行為,而用戶的到店行為對于外賣是
比較稀疏的,大多數(shù)的用戶是在少數(shù)幾個類別上有過一些消費行為。這就意味
著我們需要考慮選擇什么樣的統(tǒng)計量描述:是消費單價,總消費價格,消費品
類等等。然后通過大量的試驗來驗證特征的顯著性。另外由于數(shù)據(jù)比較稀疏,
需要考慮合適的平滑處理。
我們在做高潛新客挖掘時,融入了多方特征,通過特征的組合最終作出一
個效果比較好的預(yù)測模型。我們能夠找到一些高轉(zhuǎn)化率的用戶,其轉(zhuǎn)化率比普
通用戶高若干倍。通過對高潛用戶有針對性的營銷,可以極大提高營銷效率。
流失預(yù)測
新客來了之后,接下來需要把他留在這個平臺上,盡量延長生命周期。營
銷領(lǐng)域關(guān)于用戶留存的兩個基本觀點是(引自菲利普.科特勒《營銷管
理》):
獲取一個新顧客的成本是維系現(xiàn)有顧客成本的5倍!
如果將顧客流失率降低5%,公司利潤將增加25%~85%
用戶流失的原因通常包括:競對的吸引;體驗問題;需求變化。我們借助
機器學(xué)習(xí)的方法,構(gòu)建用戶的描述特征,并借助這些特征來預(yù)測用戶未來流失
的概率。這里有兩種做法:第一種是預(yù)測用戶未來若干天是否會下單這一事件
發(fā)生的概率。這是典型的概率回歸問題,可以選擇邏輯回歸、決策樹等算法擬
合給定觀測下事件發(fā)生的概率;第二種是借助于生存模型,例如COX-PH模型,
做流失的風(fēng)險預(yù)測.下圖左邊是概率同歸的模型,用戶未來T天內(nèi)是否有下單
做為類別標(biāo)記y,然后估計在觀察到特征X的情況下y的后驗概率P(y|X)。右
邊是用COX模型的例子,我們會根據(jù)用戶在未來T天是否下單給樣本一個類
別,即觀測時長記為T。假設(shè)用戶的下單的距今時長t〈T,將t作為生存時長
f;否則將生存時長t'記為幾這樣一個樣本由三部分構(gòu)成:樣本的類別
(flag),生存時長(t')以及特征列表。通過生存模型雖然無法顯式得到
P(t'IX)的概率,但其協(xié)變量部分實際反映了用戶流失的風(fēng)險大小。
概率回歸模型cox模型
未來35天未果35天
是否下單是否下單
T
P(y|x)=f(x)h(t;x)=h0(f)exp(px)
生存模型中,BTX反映了用戶流失的風(fēng)險,同時也和用戶下次訂單的時間
間隔成正相關(guān)。下面的箱線圖中,橫軸為BTx,縱軸為用戶下單時間的間隔。
o-
R-
a-
o-
o-4
~finintttiftHnniintintinintiiiinfiiiniiintftiiHiiitfnitiiinit
-394-301-16-1-040309152257798
我們做了COX模型和概率回歸模型的對比。在預(yù)測用戶XX天內(nèi)是否會下單
上面,兩者有相近的性能。
美團外賣通過使用了用戶流失預(yù)警模型,顯著降低了用戶留存的運營成
本。
場景運營
拓展用戶的體驗,最重要的一點是要理解用戶下單的場景。了解用戶的訂
餐場景有助于基于場景的用戶運營。對于場景運營而言,通常需要經(jīng)過如下三
個步驟:
?訂單屬性
?用戶屬性
?商家屬性
?訪談
人工結(jié)合算?用戶分群
法定義場景?多元分析
?頻繁項挖掘
則
規(guī)
測
場景用戶識預(yù)
計
別流
場景可以從時間、地點、訂單三個維度描述。比如說工作日的下午茶,周
末的家庭聚餐,夜里在家點夜宵等等。其中重要的一點是用戶訂單地址的分
析。通過區(qū)分用戶的訂單地址是寫字樓、學(xué)?;蚴巧鐓^(qū),再結(jié)合訂單時間、訂
單內(nèi)容,可以對用戶的下單場景做到大致的了解。
地址:天山綠苑小區(qū)13棟x單元XXX
經(jīng)緯度:(XXX,XXX)
地址文本分析反向地理編碼
POI名稱:天山綠苑小區(qū)
POI類型:住宅小區(qū)
上圖是我們訂單地址分析的流程。根據(jù)訂單系統(tǒng)中的用戶訂單地址文本,
基于自然語言處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 31455.1-2025快速公交(BRT)智能系統(tǒng)第1部分:總體技術(shù)要求
- 道路運輸管理與維護操作指南(標(biāo)準(zhǔn)版)
- 出納制度的基本原則
- 基礎(chǔ)設(shè)施安全管理與維護指南
- DB61T 2094.4-2025天麻生產(chǎn)技術(shù)規(guī)范 第4部分:天麻蒴果
- 采購合同履行與爭議解決制度
- 辦公室消防安全管理制度
- 養(yǎng)老院老人健康監(jiān)測人員職業(yè)發(fā)展規(guī)劃制度
- 2026年閔行區(qū)啟智學(xué)校第一學(xué)期編外教師招聘備考題庫及一套答案詳解
- 養(yǎng)老院外出就醫(yī)制度
- 云南省大理白族自治州2025屆高三上學(xué)期二模考試 英語 含解析
- 南京師范大學(xué)中北學(xué)院《無機及分析化學(xué)實驗實驗》2023-2024學(xué)年第一學(xué)期期末試卷
- 村干部末位淘汰實施細(xì)則(3篇)
- 中國近代史綱要西南政法大學(xué)練習(xí)題復(fù)習(xí)資料
- 物理(成都專用)2025年中考物理終極押題猜想(解析版)
- 風(fēng)電、光伏項目前期及建設(shè)手續(xù)辦理流程匯編
- 內(nèi)河船舶制造行業(yè)發(fā)展前景及投資風(fēng)險預(yù)測分析報告
- NeuViz 16 射線計算機斷層攝影設(shè)備產(chǎn)品信息手
- 2021修訂《城市規(guī)劃設(shè)計計費指導(dǎo)意見》
- 叔叔在侄子訂婚宴致辭
- 電子地圖的基本構(gòu)成與數(shù)據(jù)類型
評論
0/150
提交評論