版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)分析與挖掘主講教師:賀寧《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)案例011機(jī)器學(xué)習(xí)案例1前言在大數(shù)據(jù)領(lǐng)域中,機(jī)器學(xué)習(xí)幾乎無處不在,即便我們沒有特意引用它們,它們也經(jīng)常出現(xiàn)在大數(shù)據(jù)應(yīng)用中,例如:搜索、推薦、預(yù)測(cè)和數(shù)據(jù)挖掘等。隨著互聯(lián)網(wǎng)的高速發(fā)展,數(shù)據(jù)量不斷爆發(fā)式增長(zhǎng),數(shù)據(jù)維度越來越豐富,這也為機(jī)器學(xué)習(xí)的發(fā)展和應(yīng)用提供了良好的土壤,機(jī)器學(xué)習(xí)的良好成果也反向讓數(shù)據(jù)產(chǎn)生更大的價(jià)值,成為真正的“大數(shù)據(jù)”,兩者相輔相成,相互促進(jìn),讓數(shù)據(jù)越來越智能。機(jī)器學(xué)習(xí)1案例1號(hào)店通用精準(zhǔn)化平臺(tái)架構(gòu)以及大數(shù)據(jù)營(yíng)銷實(shí)踐隨著業(yè)務(wù)的增長(zhǎng),迫切需要一個(gè)通用的基礎(chǔ)平臺(tái)和引擎做各個(gè)推薦欄位,郵件、短信等消息觸達(dá),以達(dá)到精準(zhǔn)化的投放和展示商品,1號(hào)店除了用傳統(tǒng)的協(xié)同過濾、關(guān)聯(lián)規(guī)則的推薦方式,還應(yīng)用了哪些推薦技術(shù),并且如何把Spark等新興技術(shù)應(yīng)用到我們的場(chǎng)景中,用來支撐促銷排期選品,小區(qū)雷購(gòu)選品,情景推薦等等。了解Storm、Spark等技術(shù)在電商智能選品,小區(qū)雷購(gòu),用戶意圖等方面的實(shí)踐。了解電商如何通過選人、選品基礎(chǔ)數(shù)據(jù),構(gòu)建意圖、情景推薦等通用推薦引擎,靈活的為欄位、郵件、短信、消息彈出等營(yíng)銷,如何輔助運(yùn)營(yíng)人員促銷選品。1案例搜索實(shí)時(shí)計(jì)算和在線學(xué)習(xí)系統(tǒng)PORA介紹實(shí)時(shí)計(jì)算和在線學(xué)習(xí)系統(tǒng)PORA介紹——PORA是阿里搜索基于iStream(自主研發(fā)的運(yùn)行在HadoopYARN上的實(shí)時(shí)計(jì)算引擎)+HBase基礎(chǔ)平臺(tái)打造的一套實(shí)時(shí)計(jì)算和在線學(xué)習(xí)系統(tǒng),支持在秒級(jí)別內(nèi)對(duì)淘寶海量用戶行為及其相關(guān)聯(lián)的海量商品大數(shù)據(jù)作實(shí)時(shí)分析處理,從中提取多維度的海量數(shù)據(jù)特征,并結(jié)合分布式ParameterServer模型進(jìn)行在線學(xué)習(xí),從而使用戶行為可以在幾秒內(nèi)影響搜索排序等在線服務(wù)。PORA可應(yīng)用于實(shí)時(shí)個(gè)性化搜索/推薦、實(shí)時(shí)反作弊、實(shí)時(shí)流量?jī)?yōu)化等諸多領(lǐng)域,以2014天貓雙11大促活動(dòng)為例,PORA結(jié)合實(shí)時(shí)算法模型使搜索成交金額獲得了10%的提升。1案例基于機(jī)器學(xué)習(xí)的銀行卡消費(fèi)數(shù)據(jù)預(yù)測(cè)與推薦隨著商業(yè)信息化水平的不斷提高,用戶通過銀行卡刷卡消費(fèi)產(chǎn)生了大量的數(shù)據(jù)。這類數(shù)據(jù)價(jià)值大、安全性要求高、時(shí)效性明顯。但是由于數(shù)據(jù)量巨大,傳統(tǒng)IT架構(gòu)很難滿足對(duì)這類數(shù)據(jù)的挖掘和分析的需求,基于Spark的機(jī)器學(xué)習(xí)技術(shù)可以幫助我們解決這些問題。這個(gè)分享將討論我們?nèi)绾位赟park的MLlib和若干內(nèi)部開發(fā)的算法,構(gòu)建機(jī)器學(xué)習(xí)pipeline,預(yù)測(cè)銀行卡用戶的消費(fèi)行為以及對(duì)應(yīng)的商品推薦。定義機(jī)器學(xué)習(xí)問題以及算法的選擇使用Spark+MLlib構(gòu)建機(jī)器學(xué)習(xí)pipeline的實(shí)踐經(jīng)驗(yàn)Spark最新的ML包的特點(diǎn)以及使用中遇到的問題傳統(tǒng)行業(yè)應(yīng)用大數(shù)據(jù)面臨的挑戰(zhàn)以及我們的一些經(jīng)驗(yàn)1案例在Spark上構(gòu)建硬件加速的、分布式神經(jīng)網(wǎng)絡(luò)框架最近幾年,神經(jīng)網(wǎng)絡(luò)算法得到業(yè)界越來越多的關(guān)注?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別和自然語(yǔ)言處理等方面都取得了良好的效果。已有的神經(jīng)網(wǎng)絡(luò)框架(如Caffee,Torch等)往往是單節(jié)點(diǎn)的方案并使用昂貴的GPU卡進(jìn)行加速。我們基于Spark構(gòu)建了一個(gè)分布式的神經(jīng)網(wǎng)絡(luò)算法框架,使用戶能夠方便的在通用計(jì)算平臺(tái)上,利用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行大數(shù)據(jù)的機(jī)器學(xué)習(xí)。在易用性方面,我們將神經(jīng)網(wǎng)絡(luò)算法模塊化,并實(shí)現(xiàn)了常用的數(shù)據(jù)結(jié)構(gòu)、層、代價(jià)函數(shù)和訓(xùn)練算法等模塊,使用戶可以根據(jù)自己的需求快速定義出復(fù)雜的神經(jīng)網(wǎng)絡(luò),以及靈活的添加替換自定義模塊。我們還在通用計(jì)算平臺(tái)上針對(duì)神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵操作進(jìn)行了優(yōu)化,使得用戶可以充分享用到硬件加速(例如CPU和GPU)的計(jì)算能力。1案例在Spark上構(gòu)建硬件加速的、分布式神經(jīng)網(wǎng)絡(luò)框架最近幾年,神經(jīng)網(wǎng)絡(luò)算法得到業(yè)界越來越多的關(guān)注?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別和自然語(yǔ)言處理等方面都取得了良好的效果。已有的神經(jīng)網(wǎng)絡(luò)框架(如Caffee,Torch等)往往是單節(jié)點(diǎn)的方案并使用昂貴的GPU卡進(jìn)行加速。我們基于Spark構(gòu)建了一個(gè)分布式的神經(jīng)網(wǎng)絡(luò)算法框架,使用戶能夠方便的在通用計(jì)算平臺(tái)上,利用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行大數(shù)據(jù)的機(jī)器學(xué)習(xí)。在易用性方面,我們將神經(jīng)網(wǎng)絡(luò)算法模塊化,并實(shí)現(xiàn)了常用的數(shù)據(jù)結(jié)構(gòu)、層、代價(jià)函數(shù)和訓(xùn)練算法等模塊,使用戶可以根據(jù)自己的需求快速定義出復(fù)雜的神經(jīng)網(wǎng)絡(luò),以及靈活的添加替換自定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 老年精準(zhǔn)醫(yī)療個(gè)體化人文關(guān)懷:心理需求溝通
- 老年神經(jīng)系統(tǒng)疾病疲勞多維度管理方案
- 老年社區(qū)護(hù)理壓瘡延續(xù)性預(yù)防方案
- 老年癲癇手術(shù)麻醉中的腦電監(jiān)測(cè)應(yīng)用
- 老年癡呆癥患者睡眠-覺醒周期管理方案
- 深圳安全案例講解
- 老年術(shù)后譫妄的多學(xué)科預(yù)防方案
- 老年數(shù)據(jù)安全方案
- 老年護(hù)理模擬教學(xué)目標(biāo)框架構(gòu)建
- 老年抑郁個(gè)性化干預(yù)方案
- 中華醫(yī)學(xué)會(huì)麻醉學(xué)分會(huì)困難氣道管理指南
- 南京旅館住宿管理辦法
- 【香港職業(yè)訓(xùn)練局(VTC)】人力調(diào)查報(bào)告書2024-珠寶、鐘表及眼鏡業(yè)(繁體版)
- 急性呼吸衰竭的診斷與治療
- 客戶分配管理辦法管理
- 燃?xì)馊霊舭矙z培訓(xùn)
- 高中地理思政融合課《全球氣候變暖》
- 2025年中考語(yǔ)文一輪復(fù)習(xí):民俗類散文閱讀 講義(含練習(xí)題及答案)
- 2023-2024學(xué)年八年級(jí)(上)期末數(shù)學(xué)試卷
- DB33T 1238-2021 智慧燈桿技術(shù)標(biāo)準(zhǔn)
- 福建省泉州市晉江市2023-2024學(xué)年八年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含解析)
評(píng)論
0/150
提交評(píng)論