版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
技術(shù)實(shí)現(xiàn)第四范式胡時(shí)偉2017年8月5日AIWorks電商推薦授信審批精準(zhǔn)營(yíng)銷(xiāo)計(jì)算廣告內(nèi)容推薦智能產(chǎn)品推薦差異化定價(jià)實(shí)時(shí)風(fēng)控智能客服個(gè)性化和微觀業(yè)務(wù)場(chǎng)景的分析和預(yù)測(cè)能力要求早已遠(yuǎn)超傳統(tǒng)企業(yè)的想象達(dá)傳統(tǒng)客戶(hù)觸達(dá):?用少量特征將用戶(hù)較為粗放的劃分到少量類(lèi)別中,每個(gè)類(lèi)別中的用戶(hù)被認(rèn)為有相似的屬性和相同的意愿,丟失了對(duì)每個(gè)用戶(hù)的個(gè)性化描繪,準(zhǔn)確性有限。同時(shí)也無(wú)法覆蓋到部分客群中的個(gè)性化用戶(hù)有意愿的用戶(hù)無(wú)意愿的用戶(hù)AI觸達(dá)大數(shù)據(jù)機(jī)器學(xué)習(xí)模型:?基于日益豐富的海量數(shù)據(jù)樣本,和千萬(wàn)以上量級(jí)數(shù)據(jù)特征,將用戶(hù)細(xì)分到微觀粒度,對(duì)每個(gè)用戶(hù)做精細(xì)的個(gè)性化描述,直接定位到每個(gè)有意愿的用戶(hù),更精準(zhǔn),更全面有意愿的用戶(hù)無(wú)意愿的用戶(hù)歷史數(shù)據(jù)機(jī)器學(xué)習(xí)?模型自動(dòng)基于新樣本數(shù)據(jù)更新,歷史數(shù)據(jù)機(jī)器學(xué)習(xí)?模型自動(dòng)基于新樣本數(shù)據(jù)更新,自學(xué)習(xí),自適應(yīng),自?xún)?yōu)化。?支持批量自學(xué)習(xí)、增量自學(xué)習(xí)、學(xué)習(xí)求企業(yè)能夠適應(yīng)不斷變化的內(nèi)外部環(huán)境,實(shí)現(xiàn)數(shù)據(jù)價(jià)值傳統(tǒng)的決策規(guī)則政策迭代周期:數(shù)月、半年甚至一年以上互聯(lián)網(wǎng)的決策規(guī)則政策迭代周期:小時(shí)甚至只需每分鐘數(shù)據(jù)模數(shù)據(jù)模型練現(xiàn)實(shí)樣本預(yù)測(cè)系統(tǒng)預(yù)測(cè)結(jié)果實(shí)際結(jié)果反饋和決策吞吐能力不斷增強(qiáng)數(shù)據(jù)時(shí)效:預(yù)測(cè)和響應(yīng)決策能力:數(shù)據(jù)時(shí)效:十天半月以上預(yù)測(cè)和響應(yīng)決策能力:和決策吞吐能力不斷增強(qiáng)數(shù)據(jù)時(shí)效:預(yù)測(cè)和響應(yīng)決策能力:數(shù)據(jù)時(shí)效:十天半月以上預(yù)測(cè)和響應(yīng)決策能力:依賴(lài)人工,吞吐量低立實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的數(shù)據(jù)采集傳輸、模型預(yù)測(cè)和響應(yīng)決策能力古代驛站傳書(shū)時(shí)代傳統(tǒng)IT信息化時(shí)代數(shù)據(jù)時(shí)效性不斷提高數(shù)據(jù)時(shí)效性不斷提高人工+系統(tǒng)有限數(shù)據(jù)規(guī)模下快速響應(yīng)現(xiàn)代書(shū)信時(shí)代數(shù)據(jù)時(shí)效:數(shù)天預(yù)測(cè)和響應(yīng)決策能力:依賴(lài)人工,吞吐量低移動(dòng)互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)時(shí)效:T+幾分鐘/幾秒鐘預(yù)測(cè)和響應(yīng)決策能力:系統(tǒng)自動(dòng)大數(shù)據(jù)環(huán)境下的高速吞吐能力大數(shù)據(jù)輸入 輸出人工智能構(gòu)建商業(yè)AI能力的五個(gè)要素BBigdata大數(shù)據(jù)RResponse外部反饋AINIInfrastructure需求Pad數(shù)據(jù),如何為每一現(xiàn)實(shí)與理想的距離想征工程進(jìn)行少量特征工程探索的AI團(tuán)隊(duì)進(jìn)行大規(guī)模特征工程探索規(guī)模幾千維度到數(shù)十億維度算法網(wǎng)絡(luò)反復(fù)煉丹,通過(guò)模型變化適場(chǎng)景模機(jī)器學(xué)習(xí)算法,通過(guò)特征工程場(chǎng)景除錯(cuò)越、過(guò)擬合等問(wèn)題,線(xiàn)下建模很好,上線(xiàn)之后失望用經(jīng)驗(yàn)帶領(lǐng)團(tuán)隊(duì)排除掉建模過(guò)程如何使數(shù)據(jù)工程師變成AI專(zhuān)家??特征工程:使數(shù)據(jù)工程師能夠有效探索出足夠有效的特征集?模型規(guī)模:引入一套支撐超高維模型訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)?模型算法:使數(shù)據(jù)工程師能夠訓(xùn)練出足夠有效的模型?模型除錯(cuò):使數(shù)據(jù)工程師能夠快速了解到模型是否有錯(cuò)誤并加以排除先知平臺(tái)–敏捷AI應(yīng)用構(gòu)建平臺(tái)BEFORE采集數(shù)據(jù)10%模型上線(xiàn)10%20%數(shù)據(jù)處理20%模型評(píng)估10%特征工程20%特征工程20%20%AFTER模型評(píng)估模型上模型評(píng)估5%模型調(diào)參10%特征工程10%采集數(shù)據(jù)65%采集數(shù)據(jù)65%5%AI算子區(qū)算子區(qū)參數(shù)配置區(qū)DAG操作區(qū)計(jì)劃操作區(qū)t征組合函數(shù)方法:連續(xù)值特征和離散值特征支持多種高維特征處理方法:Log/Floor/Lineartrans等數(shù)值處理EliminatecharSplitMappingSplitbyKey符串處理?Combine(組合)/Wordseg(切詞)/Top(排序)特征處理支持嵌套,例如:?Y=top(int(splitbykey(age,";",","),"2")境產(chǎn)環(huán)境業(yè)務(wù)系統(tǒng)\應(yīng)用 系統(tǒng)對(duì)接\數(shù)據(jù)反饋\數(shù)據(jù)接口理接入接入處理處理訓(xùn)練征處理建訓(xùn)練服務(wù)部署評(píng)估服務(wù)更新請(qǐng)求模型方案服務(wù)更新更新發(fā)布境產(chǎn)環(huán)境業(yè)務(wù)系統(tǒng)\應(yīng)用 系統(tǒng)對(duì)接\數(shù)據(jù)反饋\數(shù)據(jù)接口理接入接入處理處理訓(xùn)練征處理建訓(xùn)練服務(wù)部署評(píng)估服務(wù)更新請(qǐng)求模型方案服務(wù)更新更新發(fā)布臺(tái)化的機(jī)器學(xué)習(xí)架構(gòu)支撐機(jī)器學(xué)習(xí)全流程平臺(tái)數(shù)據(jù)中心數(shù)據(jù)輸出數(shù)據(jù)更新預(yù)估請(qǐng)求預(yù)估獲取數(shù)據(jù)反饋數(shù)據(jù)反饋數(shù)據(jù)數(shù)據(jù)反數(shù)據(jù)反饋數(shù)據(jù)數(shù)據(jù)反饋調(diào)研數(shù)據(jù)預(yù)估調(diào)用預(yù)估反饋數(shù)據(jù)總線(xiàn)反饋總線(xiàn)調(diào)研平臺(tái)學(xué)習(xí)平臺(tái)調(diào)研平臺(tái)學(xué)習(xí)平臺(tái)服務(wù)接口例例服實(shí)服例模型模型模型模型模型分布式模型倉(cāng)庫(kù)\數(shù)據(jù)存儲(chǔ)分布式模型倉(cāng)庫(kù)\數(shù)據(jù)存儲(chǔ)分布式模型倉(cāng)庫(kù)\數(shù)據(jù)存儲(chǔ)分布式模型倉(cāng)庫(kù)\數(shù)據(jù)存儲(chǔ)分布式模型倉(cāng)庫(kù)\數(shù)據(jù)存儲(chǔ)平臺(tái)技術(shù)分享在工業(yè)應(yīng)用中的4個(gè)象限需要高執(zhí)行效率分布式并行計(jì)算系統(tǒng)是第一生產(chǎn)力習(xí)框架GDBT?GDBT是一個(gè)分布式機(jī)器學(xué)習(xí)框架,由C++14編寫(xiě)?機(jī)器學(xué)習(xí)過(guò)程抽象,隱藏分布式細(xì)節(jié)?兼容MPI/Yarn/Mesos/K8s等運(yùn)行環(huán)境?實(shí)現(xiàn)了高性能的ParameterServer架構(gòu)?優(yōu)化多模型共同訓(xùn)練過(guò)程,大幅提升AutoML相關(guān)算法的性能標(biāo)準(zhǔn)算法優(yōu)化:HDLR(第四范式)Vs.傳統(tǒng)LR傳統(tǒng)邏輯回歸算法大規(guī)模離散邏輯回歸算法(第四范式)特征維度幾十到幾千幾千萬(wàn)到幾十億,甚至上萬(wàn)億數(shù)據(jù)兼容性需要使用高飽和度數(shù)據(jù)樣本數(shù)據(jù)抽樣樣本數(shù)據(jù)抽樣,只使用抽樣出來(lái)的樣本建模無(wú)需抽樣,使用全量樣本建模差異。標(biāo)準(zhǔn)算法優(yōu)化:GBDT(第四范式)Vs.傳統(tǒng)決策樹(shù)策樹(shù)算法 (如Cart,C4.5算法)成學(xué)習(xí)決策樹(shù)算法SAS等) (第四范式)確度樹(shù)過(guò)深容易過(guò)擬合,確和過(guò)擬合難以兼得的樹(shù)迭代,不容易的樹(shù)迭代,不容易數(shù)量萬(wàn)到幾千萬(wàn)甚至幾百億到數(shù)萬(wàn),由平臺(tái)節(jié)點(diǎn)規(guī)模而定征力大規(guī)模離散特征大規(guī)模離散特征t散特征的處理和使用高維離散嵌入樹(shù)網(wǎng)絡(luò)(Hyper-dimensionEnsembleTreeNet)?摘要?解決的問(wèn)題實(shí)際情況中,連續(xù)特征和離散特征同時(shí)存在;?適用場(chǎng)景數(shù)據(jù)多,樣本間有時(shí)序關(guān)系,時(shí)間跨度大;短時(shí)間內(nèi)數(shù)據(jù)分布變化不大,近期樣本分布對(duì)label影響更大;高性能特征工程框架-1?特征處理:將原始二維表轉(zhuǎn)化為高維稀疏特征矩陣?無(wú)篩選、大規(guī)模:高維機(jī)器學(xué)習(xí)特定面對(duì)的問(wèn)題?目標(biāo):支持使用某種領(lǐng)域特定中間語(yǔ)言描述特征處理過(guò)程?技術(shù)選型:為兼容Spark/在線(xiàn)程序,選用JVM上的語(yǔ)言?性能問(wèn)題?特征處理占用機(jī)器學(xué)習(xí)計(jì)算過(guò)程的50%以上時(shí)間?類(lèi)與方法、字符串、堆內(nèi)存分配高性能特征工程框架-2?運(yùn)行優(yōu)化:AST遍歷運(yùn)行–運(yùn)行時(shí)代碼生成(腳本–DAG–代碼)?死代碼與公共子表達(dá)式消除?引入強(qiáng)類(lèi)型系統(tǒng)與類(lèi)型推斷用原生類(lèi)型數(shù)組int[]double[]char[]預(yù)先分配顯式管理內(nèi)存?Cache.解決核心問(wèn)題:統(tǒng)計(jì)與序列特征的存儲(chǔ)與查詢(xún).反欺詐中查詢(xún)賬戶(hù)最近一個(gè)月的交易記錄,并衍生大量特征.基于流式處理的預(yù)計(jì)算VS實(shí)時(shí)查詢(xún)與特征衍生.千萬(wàn)特征千條歷史實(shí)時(shí)交易反欺詐c4.xlargeTP9920msQPS400+.局部有序存儲(chǔ),滿(mǎn)足高性能時(shí)序數(shù)據(jù)讀取要求.并發(fā)讀寫(xiě)友好,讀寫(xiě)互不影響.高度定制的序列化協(xié)議撐組件?模型倉(cāng)庫(kù):?線(xiàn)下DAG圖到線(xiàn)上DAG圖的自動(dòng)轉(zhuǎn)換?線(xiàn)上模型的滾動(dòng)更新?基于Kubernetes的高可用架構(gòu)?支持通過(guò)圖形界面進(jìn)行定義與執(zhí)行?可以從任意節(jié)點(diǎn)開(kāi)始執(zhí)行,支持中斷、恢復(fù)?支持中間計(jì)算結(jié)果持久化(運(yùn)行過(guò)的算子不再運(yùn)行)?支持全局異常校驗(yàn)與推斷(Schema-aware系統(tǒng))WebUINNodeMasterNNodeAgentYarnKubernetesGDBTTensorflowSpark器?背景:工作流的實(shí)際執(zhí)行計(jì)劃包括多種任務(wù)?多租戶(hù)支持–Quota、身份(UserMapping)、沙箱與安全?動(dòng)態(tài)資源調(diào)度–如何給第一個(gè)上班的人分配資源能調(diào)參–CostBasedVSModelBased?使用先知來(lái)優(yōu)化先知云的部署架構(gòu)?先知整體支持容器化部署?k7s=k8s–network–docker?實(shí)現(xiàn)一個(gè)符合容器標(biāo)準(zhǔn)的輕量級(jí)容器?基于IP/Port架構(gòu),避免Flannel等虛擬網(wǎng)絡(luò)組件對(duì)企業(yè)內(nèi)網(wǎng)架構(gòu)的影響?ProphetonIngress=基于域名的服務(wù)請(qǐng)求轉(zhuǎn)發(fā)?計(jì)算是第一生產(chǎn)力?分布式、框架、算法優(yōu)化?平臺(tái)的目標(biāo)是使計(jì)算生產(chǎn)力易于獲取?AutoML案例參考第四范式先知平臺(tái)成功案例(金融領(lǐng)域)解決方案業(yè)務(wù)場(chǎng)景務(wù)效果風(fēng)險(xiǎn)控制模式某股份制銀行信用卡中心Visa渠道的準(zhǔn)確率從1%提升至7.62%精準(zhǔn)營(yíng)銷(xiāo)信用卡分期產(chǎn)品營(yíng)銷(xiāo):預(yù)測(cè)客戶(hù)對(duì)于分期產(chǎn)品(交易分期、取現(xiàn)分期、賬單分析)的響應(yīng)率,對(duì)高響應(yīng)率的客戶(hù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)某股份行信用卡中心:交易分期,響應(yīng)率提升68%,收入提升某股份行信用卡中心:取現(xiàn)分期,響應(yīng)率提升22%,收入提升某股份制銀行信用卡中心:響應(yīng)率提升200%~300%個(gè)性化推薦理財(cái)產(chǎn)品個(gè)性化推薦:預(yù)測(cè)客戶(hù)對(duì)于不同理財(cái)產(chǎn)品的偏好千面的效果和個(gè)性化體驗(yàn)金額提升50%~500%某新聞客戶(hù)端產(chǎn)品:產(chǎn)品第一版本的模型比基線(xiàn)提高20%智能客服測(cè)并性化問(wèn)題;行中,目標(biāo)為根據(jù)用戶(hù)的行為進(jìn)行實(shí)時(shí)預(yù)估,給出最有針對(duì)性和時(shí)效性的個(gè)性化知識(shí)推薦智能動(dòng)態(tài)IVR菜單:通過(guò)對(duì)歷史電話(huà)呼入紀(jì)錄與處理數(shù)據(jù)學(xué)習(xí)模型,實(shí)現(xiàn)IVR渠道客戶(hù)個(gè)性化動(dòng)態(tài)菜單,精準(zhǔn)命中客戶(hù)來(lái)電需求某股份制銀行信用卡中心原始基于規(guī)則的動(dòng)態(tài)IVR菜單Top@5準(zhǔn)確率為25%基于人工智能動(dòng)態(tài)IVR菜單Top@3準(zhǔn)確率為53%差異化定價(jià)準(zhǔn)某股份制銀行信用卡中心客
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工匠文化節(jié)實(shí)施方案
- 新區(qū)建設(shè)規(guī)劃實(shí)施方案
- 人事勞資隊(duì)伍建設(shè)方案
- 車(chē)前子提取物在預(yù)防病毒感染中的作用-洞察及研究
- 跨國(guó)股票開(kāi)盤(pán)價(jià)策略研究-洞察及研究
- 高效網(wǎng)絡(luò)連接優(yōu)化-洞察及研究
- 跨文化視角下的臨床評(píng)估標(biāo)準(zhǔn)比較研究-洞察及研究
- 高效傳動(dòng)系統(tǒng)-洞察及研究
- 雞育種與市場(chǎng)需求匹配-洞察及研究
- 環(huán)保涂料在船舶涂裝中的應(yīng)用-洞察及研究
- 人教PEP英語(yǔ)六年級(jí)下冊(cè)全冊(cè)教案教學(xué)設(shè)計(jì)及教學(xué)反思
- 浦發(fā)銀行貸款合同模板
- 基于機(jī)器學(xué)習(xí)的缺陷預(yù)測(cè)技術(shù)
- 單片機(jī)原理及應(yīng)用課設(shè)計(jì)
- 08年常德地理會(huì)考試卷及答案
- QC成果提高衛(wèi)生間防水合格率匯報(bào)
- GB/T 34956-2017大氣輻射影響航空電子設(shè)備單粒子效應(yīng)防護(hù)設(shè)計(jì)指南
- GB/T 31831-2015LED室內(nèi)照明應(yīng)用技術(shù)要求
- 山東省實(shí)習(xí)律師面授考試往期考題及法條匯編
- 股東名冊(cè)(范本)
- 天獅宜首康多功能保健儀課件
評(píng)論
0/150
提交評(píng)論