版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大規(guī)模機(jī)器學(xué)習(xí)平臺(tái)的技術(shù)實(shí)現(xiàn)技術(shù)創(chuàng)新,變革未來AIWorks差異化定價(jià)實(shí)時(shí)風(fēng)控電商推薦計(jì)算廣告精準(zhǔn)營(yíng)銷授信審批智能客服內(nèi)容推薦智能產(chǎn)品推薦精細(xì):對(duì)個(gè)性化和微觀業(yè)務(wù)場(chǎng)景的分析和預(yù)測(cè)能力要求早已遠(yuǎn)超傳統(tǒng)企業(yè)的想象有意愿的用戶無意愿的用戶傳統(tǒng)客戶觸達(dá):用少量特征將用戶較為粗放的劃分到少量 類別中,每個(gè)類別中的用戶被認(rèn)為有相似 的屬性和相同的意愿,丟失了對(duì)每個(gè)用戶 的個(gè)性化描繪,準(zhǔn)確性有限。同時(shí)也無法 覆蓋到部分客群中的個(gè)性化用戶大數(shù)據(jù)機(jī)器學(xué)習(xí)模型:基于日益豐富的海量數(shù)據(jù)樣本,和千萬以上量 級(jí)數(shù)據(jù)特征,將用戶細(xì)分到微觀粒度,對(duì)每個(gè) 用戶做精細(xì)的個(gè)性化描述,直接定位到每個(gè)有 意愿的用戶,更精準(zhǔn),更全面?zhèn)?/p>
2、統(tǒng)客戶觸達(dá)AI客戶觸達(dá)有意愿的用戶無意愿的用戶歷史數(shù)據(jù)機(jī)器學(xué)習(xí)數(shù)據(jù)模型現(xiàn)實(shí)樣本預(yù)測(cè)系統(tǒng)預(yù)測(cè)結(jié)果實(shí)際結(jié)果反饋模型訓(xùn)練模型自動(dòng)基于新樣本數(shù)據(jù)更新,模型自學(xué)習(xí),自適應(yīng),自優(yōu)化。支持批量自學(xué)習(xí)、增量自學(xué)習(xí)、 在線自學(xué)習(xí)傳統(tǒng)的決策規(guī)則政策迭代周期:數(shù)月、半年甚至一年以上互聯(lián)網(wǎng)的決策規(guī)則政策迭代周期:每天、每小時(shí)甚至只需每分鐘智能:要求企業(yè)能夠適應(yīng)不斷變化的內(nèi)外部環(huán)境,實(shí)現(xiàn)數(shù)據(jù)價(jià)值古代驛站傳書時(shí)代傳統(tǒng)IT信息化時(shí)代數(shù)據(jù)時(shí)效:十天半月以上預(yù)測(cè)和響應(yīng)決策能力: 依賴人工,吞吐量低現(xiàn)代書信時(shí)代數(shù)據(jù)時(shí)效: 數(shù)天預(yù)測(cè)和響應(yīng)決策能力: 依賴人工,吞吐量低數(shù)據(jù)時(shí)效: T+1預(yù)測(cè)和響應(yīng)決策能力: 人工+系統(tǒng)有限數(shù)據(jù)規(guī)模下
3、快速響應(yīng)移動(dòng)互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)時(shí)效:T+幾分鐘/幾秒鐘預(yù)測(cè)和響應(yīng)決策能力: 系統(tǒng)自動(dòng)大數(shù)據(jù)環(huán)境下的高速吞吐能力響應(yīng)速度和決策吞吐能力不斷增強(qiáng)數(shù)據(jù)時(shí)效性不斷提高高效:企業(yè)需建立實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的數(shù)據(jù)采集傳輸、模型預(yù)測(cè)和響應(yīng)決策能力大數(shù)據(jù)人工智能輸入輸出機(jī)器學(xué)習(xí)KGS我們認(rèn)為的AI是什么?BBig data大數(shù)據(jù)AAlgorithm算法IInfrastructure計(jì)算資源NNeeds需求RResponse外部反饋構(gòu)建商業(yè)AI能力的五個(gè)要素問題:假設(shè)我是一個(gè)點(diǎn)餐Pad提供商,已經(jīng)收集了食客的點(diǎn)餐數(shù)據(jù),如何為每一 位食客每次就餐提供AI一鍵點(diǎn)餐,以同時(shí)提升餐館翻臺(tái)率與食客滿意度?現(xiàn)實(shí)與理想的距離因素現(xiàn)實(shí)理想
4、特征工程建模人員進(jìn)行少量特征工程探索龐大的AI團(tuán)隊(duì)進(jìn)行大規(guī)模特征工程探索模型規(guī)模幾十到幾千維度幾千萬到數(shù)十億維度模型算法采用神經(jīng)網(wǎng)絡(luò)反復(fù)煉丹,通過模型變化適 應(yīng)場(chǎng)景采用大規(guī)模機(jī)器學(xué)習(xí)算法,通過特征工程 適應(yīng)場(chǎng)景模型除錯(cuò)經(jīng)常出現(xiàn)穿越、過擬合等問題,線下建模 效果很好,上線之后失望老司機(jī)利用經(jīng)驗(yàn)帶領(lǐng)團(tuán)隊(duì)排除掉建模過程 中的各種風(fēng)險(xiǎn)如何使數(shù)據(jù)工程師變成AI專家?特征工程:使數(shù)據(jù)工程師能夠有效探索出足夠有效的特征集模型規(guī)模:引入一套支撐超高維模型訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)模型算法:使數(shù)據(jù)工程師能夠訓(xùn)練出足夠有效的模型模型除錯(cuò):使數(shù)據(jù)工程師能夠快速了解到模型是否有錯(cuò)誤并加以排除先知平臺(tái) 敏捷AI應(yīng)用構(gòu)建平臺(tái)數(shù)據(jù)
5、處理20%特征工程 20%模型調(diào)參 20%模型評(píng)估10%模型上線 20%BEFORE采集數(shù)據(jù)10%采集數(shù)據(jù) 65%數(shù)據(jù)處理 5%特征工程 10%模型評(píng)估 5%模型調(diào)參10%AFTER模型上ProphetWeb化操作界面構(gòu)建工業(yè)標(biāo)準(zhǔn)AI應(yīng)用圖形機(jī)器學(xué)習(xí)操作界面 - Lamma算子區(qū)DAG操作區(qū)參數(shù)配置區(qū)計(jì)劃操作區(qū)Prophet 簡(jiǎn)化數(shù)據(jù)預(yù)處理過程Prophet 簡(jiǎn)化特征工程特征組合函數(shù)離散特征編碼支持兩種特征編碼方法:連續(xù)值特征和離散值特征支持多種高維特征處理方法:Log/Floor/Lineartrans等數(shù)值處理Year/Hour/Minute/Second/Datediff/Timedif
6、f日期處理Eliminatechar/Split/Mapping/SplitbyKey等字符串處理Combine(組合)/Wordseg(切詞)/Top(排序)特征處理支持嵌套,例如:Y=top(int(splitbykey(age,;,),2)Prophet 簡(jiǎn)化特征工程Prophet 特征重要性分析,防止穿越Prophet 自動(dòng)特征組合discrete_feature_36_26=discrete(combine(duration,pdays, previous)# duration previous pdaysProphet 自動(dòng)參數(shù)探索Prophet 模型評(píng)估報(bào)告Prophet 預(yù)估服
7、務(wù)發(fā)布先知:平臺(tái)化的機(jī)器學(xué)習(xí)架構(gòu)支撐機(jī)器學(xué)習(xí)全流程平臺(tái)模型調(diào)研平臺(tái)模型自學(xué)習(xí)平臺(tái)在線預(yù)估服務(wù)平臺(tái)離 線 環(huán) 境生 產(chǎn) 環(huán) 境數(shù)據(jù)接入數(shù)據(jù)處理特征處理模型訓(xùn)練模型評(píng)估數(shù)據(jù)接入數(shù)據(jù)處理增量訓(xùn)練模型發(fā)布模型更新服務(wù)管理服服務(wù)構(gòu)建服務(wù)部署服務(wù)更新預(yù)估 服 務(wù) 資 源 載 體務(wù)實(shí)服服 務(wù) 接 口例務(wù)實(shí)服例務(wù)實(shí)服例務(wù)實(shí)服例務(wù)實(shí)服例務(wù)實(shí)例數(shù)據(jù) 總線數(shù)據(jù)總線調(diào)研數(shù)據(jù)反饋數(shù)據(jù)預(yù)估調(diào)用模型方案服務(wù)更新請(qǐng)求數(shù)據(jù)中心業(yè)務(wù)系統(tǒng)應(yīng)用預(yù)估 請(qǐng)求預(yù)估反饋預(yù)估 獲取數(shù)據(jù) 反饋數(shù)據(jù) 輸出數(shù)據(jù) 更新系統(tǒng)對(duì)接數(shù)據(jù)反饋數(shù)據(jù)接口數(shù)據(jù)反饋數(shù)據(jù)反饋模型分布式模型倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)模型分布式模型倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)模型分布式模型倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)平臺(tái)技術(shù)分享機(jī)器
8、學(xué)習(xí)算法在工業(yè)應(yīng)用中的4個(gè)象限宏觀特征 復(fù)雜模型宏觀特征 簡(jiǎn)單模型微觀特征 復(fù)雜模型微觀特征 簡(jiǎn)單模型需要高執(zhí)行效率分布式并行計(jì)算系統(tǒng)高維模型:計(jì)算能力是第一生產(chǎn)力大規(guī)模機(jī)器學(xué)習(xí)框架GDBTGDBT是一個(gè)分布式機(jī)器學(xué)習(xí)框架,由C+ 14編寫機(jī)器學(xué)習(xí)過程抽象,隱藏分布式細(xì)節(jié)兼容MPI/Yarn/Mesos/K8s等運(yùn)行環(huán)境實(shí)現(xiàn)了高性能的Parameter Server架構(gòu)優(yōu)化多模型共同訓(xùn)練過程,大幅提升AutoML相關(guān)算法的性能26傳統(tǒng)邏輯回歸算法大規(guī)模離散邏輯回歸算法(第四范式)特征維度幾十到幾千幾千萬到幾十億,甚至上萬億數(shù)據(jù)兼容性需要使用高飽和度數(shù)據(jù)可以直接使用低飽和度稀疏數(shù)據(jù),例如互聯(lián)網(wǎng)數(shù)
9、據(jù)。樣本數(shù)據(jù)抽樣樣本數(shù)據(jù)抽樣,只使用抽樣出來的樣本建模無需抽樣,使用全量樣本建模從上表中我們可以看到,雖然兩者都叫邏輯回歸,但在特征維度、數(shù)據(jù)兼容性和樣本數(shù)據(jù)是否需要抽樣 上存在著巨大差異。標(biāo)準(zhǔn)算法優(yōu)化:HDLR(第四范式) Vs. 傳統(tǒng)LR27傳統(tǒng)決策樹算法(如Cart,C4.5算法)傳統(tǒng)集成學(xué)習(xí)決策樹算法(如SAS上隨機(jī)森林算法等)GBDT / HE-TreeNet(第四范式)樹的數(shù)量單棵樹多棵樹多棵樹模型準(zhǔn)確度樹過深容易過擬合,刻畫準(zhǔn)確和過擬合難以兼得用很多棵簡(jiǎn)單的樹迭代,不容易 過擬合用很多棵簡(jiǎn)單的樹迭代,不容易 過擬合樣本數(shù)量幾百萬幾百萬到幾千萬數(shù)億甚至幾百億輸入特征數(shù)千數(shù)千到數(shù)萬沒
10、有限制,由平臺(tái)節(jié)點(diǎn)規(guī)模而定離散特征 使用能力無法處理大規(guī)模離散特征無法處理大規(guī)模離散特征通過HE-TreeNet實(shí)現(xiàn)對(duì)大規(guī)模離散特征的處理和使用標(biāo)準(zhǔn)算法優(yōu)化:GBDT(第四范式) Vs. 傳統(tǒng)決策樹從上表中我們可以看到,先知平臺(tái)大規(guī)模機(jī)器學(xué)習(xí)建模的GBDT算法和傳統(tǒng)集成學(xué)習(xí)決策樹算法都具有多 棵樹,可以兼顧模型準(zhǔn)確度的要求和防止模型過擬合的要求,而從支持建模樣本數(shù)量和輸入特征數(shù)量上, 都比傳統(tǒng)集成學(xué)習(xí)決策樹算法大大提升。算法樣例:HE-Treenet高維離散嵌入樹網(wǎng)絡(luò)(Hyper-dimension Ensemble Tree Net)摘要決策樹做模型訓(xùn)練時(shí), 如果遇到高維離散特征,會(huì)建立非常
11、復(fù)雜的樹, 這會(huì)導(dǎo)致訓(xùn)練變得很慢, 同時(shí)很 有可能會(huì)造成模型的過擬合。 這時(shí)就需要通過某種方法把離散特征轉(zhuǎn)成連續(xù)特征再做訓(xùn)練, HE-TreeNet 便是解決這個(gè)問題的一種實(shí)現(xiàn)。解決的問題實(shí)際情況中,連續(xù)特征和離散特征同時(shí)存在; 最大程度的利用數(shù)據(jù)價(jià)值。適用場(chǎng)景數(shù)據(jù)多,樣本間有時(shí)序關(guān)系,時(shí)間跨度大; 短時(shí)間內(nèi)數(shù)據(jù)分布變化不大,近期樣本分布 對(duì)label影響更大;離散特征多,需要用連續(xù)值模型。特征處理:將原始二維表轉(zhuǎn)化為高維稀疏特征矩陣無篩選、大規(guī)模:高維機(jī)器學(xué)習(xí)特定面對(duì)的問題目標(biāo):支持使用某種領(lǐng)域特定中間語言描述特征處理過程技術(shù)選型:為兼容Spark/在線程序,選用JVM上的語言性能問題特征處
12、理占用機(jī)器學(xué)習(xí)計(jì)算過程的50%以上時(shí)間類與方法、字符串、堆內(nèi)存分配運(yùn)行圖:公共子表達(dá)式、遞歸調(diào)用、動(dòng)態(tài)類型判斷高性能特征工程框架 - 1運(yùn)行優(yōu)化:AST遍歷運(yùn)行 運(yùn)行時(shí)代碼生成(腳本DAG代碼)死代碼與公共子表達(dá)式消除引入強(qiáng)類型系統(tǒng)與類型推斷通過使用原生類型數(shù)組 int double char 預(yù)先分配 顯式管理內(nèi)存Cache高性能特征工程框架-2Rtidb 面向機(jī)器學(xué)習(xí)的特征蓄水池解決核心問題:統(tǒng)計(jì)與序列特征的存儲(chǔ)與查詢反欺詐中查詢賬戶最近一個(gè)月的交易記錄,并衍生大量特征基于流式處理的預(yù)計(jì)算 VS 實(shí)時(shí)查詢與特征衍生千萬特征千條歷史 實(shí)時(shí)交易反欺詐 c4.xlarge TP99 20ms Q
13、PS 400+局部有序存儲(chǔ),滿足高性能時(shí)序數(shù)據(jù)讀取要求并發(fā)讀寫友好,讀寫互不影響支持TTL,內(nèi)存回收時(shí)對(duì)讀數(shù)據(jù)無影響支持高級(jí)時(shí)序數(shù)據(jù)結(jié)構(gòu):CountWindow、TimeWindow、Session高度定制的序列化協(xié)議線上服務(wù)支撐組件模型倉(cāng)庫(kù):線下DAG圖到線上DAG圖的自動(dòng)轉(zhuǎn)換線上模型的滾動(dòng)更新Cannon:分布式在線模型存儲(chǔ)與訪問基于Kubernetes的高可用架構(gòu)工作流區(qū)別于Tensorflow/GDBT的高層任務(wù)執(zhí)行系統(tǒng)支持通過圖形界面進(jìn)行定義與執(zhí)行可以從任意節(jié)點(diǎn)開始執(zhí)行,支持中斷、恢復(fù)支持中間計(jì)算結(jié)果持久化(運(yùn)行過的算子不再運(yùn)行)支持全局異常校驗(yàn)與推斷(Schema-aware系統(tǒng))
14、WebUINodeMasterNodeAgentYarnKubernetesGDBTTensorflow Spark任務(wù)調(diào)度器背景:工作流的實(shí)際執(zhí)行計(jì)劃包括多種任務(wù)Python | Spark-ETL | GDBT | Tensorflow | Spark-MLLib執(zhí)行環(huán)境:Local/Yarn/Kubernetes多租戶支持 Quota、身份(User Mapping)、沙箱與安全動(dòng)態(tài)資源調(diào)度 如何給第一個(gè)上班的人分配資源智能調(diào)參 Cost Based VS Model Based使用先知來優(yōu)化先知適用于混合云的部署架構(gòu)先知整體支持容器化部署k7s = k8s network docker
15、實(shí)現(xiàn)一個(gè)符合容器標(biāo)準(zhǔn)的輕量級(jí)容器基于IP/Port架構(gòu),避免Flannel等虛擬網(wǎng)絡(luò)組件對(duì)企業(yè)內(nèi)網(wǎng)架構(gòu)的影響Prophet on Ingress = 基于域名的服務(wù)請(qǐng)求轉(zhuǎn)發(fā)總結(jié)計(jì)算是第一生產(chǎn)力分布式、框架、算法優(yōu)化平臺(tái)的目標(biāo)是使計(jì)算生產(chǎn)力易于獲取GUI、DSL、調(diào)度、通用組件AutoML案例參考解決方案典型業(yè)務(wù)場(chǎng)景業(yè)務(wù)效果風(fēng)險(xiǎn)控制欺詐預(yù)防與偵測(cè):利用機(jī)器學(xué)習(xí)建模技術(shù),對(duì)潛在欺詐風(fēng) 險(xiǎn)主體進(jìn)行數(shù)據(jù)建模,發(fā)現(xiàn)欺詐意圖,從而在欺詐交易發(fā) 生前進(jìn)行阻截,并通過自學(xué)習(xí)迭代自動(dòng)發(fā)現(xiàn)新型欺詐手段 和模式某股份制銀行信用卡中心召回80%欺詐交易的前提下,準(zhǔn)確率從1提升至2.68%Visa渠道的準(zhǔn)確率從1%提升
16、至7.62%精準(zhǔn)營(yíng)銷信用卡分期產(chǎn)品營(yíng)銷:預(yù)測(cè)客戶對(duì)于分期產(chǎn)品(交易分期 取現(xiàn)分期、賬單分析)的響應(yīng)率,對(duì)高響應(yīng)率的客戶進(jìn)行 精準(zhǔn)營(yíng)銷某股份行信用卡中心:交易分期,響應(yīng)率提升68%,收入提升61%某股份行信用卡中心:取現(xiàn)分期,響應(yīng)率提升22%,收入提升22%汽車貸款分期營(yíng)銷:在千萬微信公眾號(hào)客戶中,挖掘近期 有購(gòu)車意向的客戶,通過微信營(yíng)銷購(gòu)車分期業(yè)務(wù)某股份制銀行信用卡中心:響應(yīng)率提升200%300%個(gè)性化推薦理財(cái)產(chǎn)品個(gè)性化推薦:預(yù)測(cè)客戶對(duì)于不同理財(cái)產(chǎn)品的偏好,進(jìn)行精準(zhǔn)的產(chǎn)品推薦內(nèi)容分發(fā)個(gè)性化推薦:提供千人千面的效果和個(gè)性化體驗(yàn)?zāi)彻煞葜沏y行:按不同資產(chǎn)段,響應(yīng)率提升2倍11倍,成交金額 提升50%500%某新聞客戶端產(chǎn)品:產(chǎn)品第一版本的模型比基線提高20%智能客服知識(shí)點(diǎn)個(gè)性化推薦:基于客戶個(gè)性化屬性及特征,預(yù)測(cè)并展示特定客戶個(gè)性化問題;項(xiàng)目進(jìn)行中,目標(biāo)為根據(jù)用戶的行為進(jìn)行實(shí)時(shí)預(yù)估,給出最有針對(duì)性和時(shí)效性的個(gè)性化知識(shí)推薦智能動(dòng)態(tài)IVR菜單:通過對(duì)歷史電話呼入紀(jì)錄與處理數(shù)據(jù) 建立機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)IVR渠道客戶個(gè)性化動(dòng)態(tài)菜單, 精準(zhǔn)命中客戶來電需求某股份制銀行信用卡中心原始基于規(guī)則的動(dòng)態(tài)IVR菜單Top5 準(zhǔn)確率為25% 基于人工智能動(dòng)態(tài)IVR菜單Top3 準(zhǔn)確率為53%差異化定價(jià)差異
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 手機(jī)認(rèn)證協(xié)議書
- 活動(dòng)三方合同范本
- 芍藥種植協(xié)議書
- 苗木管理合同范本
- 螃蟹免責(zé)協(xié)議書
- 認(rèn)股協(xié)議書模板
- 讓律師寫協(xié)議書
- 設(shè)備預(yù)埋協(xié)議書
- 試驗(yàn)協(xié)議書模板
- 慶典演出合同范本
- 2025年江蘇省《保安員資格證考試》考試題庫(kù)含答案
- 發(fā)展心理學(xué)-終結(jié)性考核-國(guó)開(GS)-參考資料
- 員工喝酒合同協(xié)議書
- 2025陜西三秦環(huán)保科技股份有限公司經(jīng)理層成員市場(chǎng)化選聘工作5人考試筆試參考題庫(kù)附答案解析
- 白蛋白肽的課件
- 2026民航華北空管局招聘44人考試筆試參考題庫(kù)附答案解析
- 2025-2026學(xué)年人教版(新教材)小學(xué)數(shù)學(xué)三年級(jí)上冊(cè)期末考試模擬試卷及答案(三套)
- 丙烯酸裝置介紹
- 診所安全生產(chǎn)管理制度
- 文庫(kù)發(fā)布:吸痰課件
- 冬季保潔工作安全培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論