版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
TOC\o"1-1"\h\z\u推薦系統(tǒng)簡 推薦系統(tǒng)召回算 推薦系統(tǒng)排序算 推薦系統(tǒng)線上服務(wù)編 基于PAI10分鐘搭建一個簡單推薦系 的匹配,這是推薦系統(tǒng)要解決的問題。大家平時在用各種手機APP的時候,其實已QueryFeeduery的肯定都是跟口罩相關(guān)的東西。可能有11哪些排到后面,這里需要有推薦系統(tǒng)。它需要根據(jù)用戶的屬性,比如說他喜歡的顏色、價格偏好等,來進行排序。如果他喜歡買貴的奢侈品,我肯定把一些貴的、性能好的口罩放在前面。如果他是一個價格敏感的用戶,我可能要把價格稍微便宜、性價Qery再來看右圖,F(xiàn)edPPAPP,你會發(fā)現(xiàn)首頁的新聞都是根據(jù)你日常的偏好去推薦的。比如說你喜歡籃球相關(guān)的新聞,它可能更多的把體育相關(guān)的內(nèi)容推薦給你?;谟脩艉虵eed品的屬性。我們今天介紹的推薦系統(tǒng)架構(gòu),在用戶屬性和商品屬性的匹配過程中,底層的系統(tǒng)實現(xiàn),更多的是偏向于基于用戶和商品屬性的Feed場景。推薦系統(tǒng)簡介推薦系統(tǒng)簡介< PAGE6>推薦系統(tǒng)簡介首先我把整個推薦業(yè)務(wù)做了一個簡圖,如下圖所示。假設(shè)我們有一個新聞平臺,AI。這個平臺有成千上萬的新聞,我們把它叫tem。每個itmI1、2、310itmA一個經(jīng)典的排序推薦召回系統(tǒng)里,它會有兩個模塊。第一個叫召回,第二個叫排序。0A50iemA00iem50itmA50itemAitm中,召回模塊更多的是一個初篩,確定一個大體的輪廓和范圍。這樣的話可以加速排序模塊對于每個商品的屬性排序,用戶得到推薦反饋的效率會更高。一個專業(yè)的推薦Feditem來。這是整個推薦業(yè)務(wù)的邏輯。推薦系統(tǒng)可以理解為推薦算法和系統(tǒng)工程的總和,即推薦系統(tǒng)=+統(tǒng)工程。關(guān)于推薦系統(tǒng),很多的書和網(wǎng)上的資料更多的是聚焦到這個算法怎么做,包paer特別是在云上去做的時候,你發(fā)現(xiàn)其實是一個系統(tǒng)化的工程。即使你知道推薦業(yè)務(wù)需要用哪些算法,你依然會面臨很多問題。比如說性能的問題、數(shù)據(jù)存儲的問題,等等。所以我們這一次分享的重點,把系統(tǒng)工程的問題也給大家闡述出來,既講算法也講系統(tǒng),兩者結(jié)合就是一個完整的推薦系統(tǒng)。接下來我們看一下整個的企業(yè)級推薦系統(tǒng)架構(gòu)。設(shè)計這樣的一個架構(gòu),有四個MAmonthlyeuse的一個推薦業(yè)務(wù)需求的應(yīng)用,每一次參與模型訓(xùn)練的時候,整個的訓(xùn)練樣本量可能是上億級別的。需要基于整個平臺過去一個月甚至半年的數(shù)據(jù)做一個整體的建模,因為在機器學(xué)習(xí)領(lǐng)域數(shù)據(jù)量越大,模型越精準(zhǔn)。數(shù)據(jù)可以拆分為三種:用戶的行為數(shù)據(jù)、商品的行為數(shù)據(jù)、用戶商品之間的交互數(shù)據(jù)。第二個要求,它要有算法插件化部署的能力。大家知道機器學(xué)習(xí)這個領(lǐng)域,包括推薦領(lǐng)域發(fā)展特別快,每年都會衍生出一些新的算A,明天算BAPAI第三個要求,就是服務(wù)的性能問題。你是否可以做到每次請求毫秒級反饋。第四個要P,可能下班的時候大家在地鐵上刷得比較多,凌晨大家刷得很少,你的推薦模型底層的使用資源,在用戶量大的時候需要更多資源,在凌晨需要更少的資源。為了平衡成本,你能否實現(xiàn)底層資源的靈活拓展性。這個可能適用云上的服務(wù),它的一個優(yōu)勢是資源的彈性。如果搭建一個企業(yè)級的推薦系統(tǒng),一定要滿足上述四個基本的要求。接下來我們重點講一下推薦的整體架構(gòu)。如下圖所示,最下面就是基礎(chǔ)數(shù)據(jù)層。我們可以看到有用戶的畫像數(shù)據(jù),有物料本身的數(shù)據(jù),行為數(shù)據(jù),評論數(shù)據(jù)。用戶畫像數(shù)據(jù)可能是用戶的身高體重,過去買過的東西,購買偏好,他的學(xué)歷等等。物料數(shù)據(jù)就是說物品的價格、顏色、產(chǎn)地。如果是視頻的話,視頻的內(nèi)容、標(biāo)簽等等都屬于物料本身的數(shù)據(jù)。行為數(shù)據(jù)是指用戶和物料之間的交互。比如說用戶看了一個視頻,可能不一定每個平臺每個產(chǎn)品都會有。但是基本上這三個數(shù)據(jù),seriembhavor入到數(shù)據(jù)加工存儲層。在這一層我們會做一些數(shù)據(jù)加工,比如說把用戶的特征加工出來,把物料的特征加工出來,把這個事件的特征加工出來。再往上一層就是基于這些特征去建模。我們剛才介紹了整個的推薦流程包含召回和排序這兩個重要的模塊。召回模塊中,可以有多個算法并行去做。召回完之后你需要排序,也有很多算法,究竟選哪一種算法,后續(xù)第三節(jié)課再說。接下來,你要有一個新的策略,還不能把推薦結(jié)果直接拿到線上,要有一些過濾去重、B我今天再推薦小米手機肯定是不合適的。最上層就是推薦業(yè)務(wù),可以推薦一個廣告,可以推薦商品,也可以推薦用戶。比如說在社交應(yīng)用中,可以把用戶推薦給用戶,讓他們互相關(guān)注。有了這一整套推薦架構(gòu),怎么樣讓它去符合企業(yè)級推薦系統(tǒng)的四個基本要求,需要應(yīng)用到一些云產(chǎn)品。最常見的做法是,基于云服務(wù)、云生態(tài)去搭建這些模塊。(三)PAI在阿里云這邊的整個的實現(xiàn)方案是這樣的?;赑AI的推薦平臺,在基礎(chǔ)數(shù)據(jù)層,我們可以提供給你網(wǎng)站的一些離線數(shù)據(jù),可以存到RDS::MySQL這樣的一個數(shù)KafkaFlinkPAI模塊主要做的一件事就是初篩。用戶A進到平臺中,從潛在的超大規(guī)模的item中篩選500item今天我們就介紹一下在這個召回模塊究竟會用到哪些算法。我把目前比較流行的4協(xié)同過濾算法類似于基于統(tǒng)計的算法,它會找出興趣相同的一些人,或者說一些可以被同時購買的商品。比如說啤酒和尿布的故事,我們發(fā)現(xiàn)在超市里啤酒和尿布經(jīng)常被推薦系統(tǒng)召回算法推薦系統(tǒng)召回算法 PAGE11 一起購買,這是基于大量的數(shù)據(jù)統(tǒng)計得到的一個結(jié)果。向量召回更偏機器學(xué)習(xí)的一些ASusergmg表。這是向量召回的一個基本方法。其實FMGrpSge領(lǐng)域應(yīng)用的還不是特別多。但是在一些比較大的互聯(lián)網(wǎng)公司,比如說淘寶的推薦場景會應(yīng)用得比較多。GrpSageusergme協(xié)同過濾可能是比較好理解的一個算法,我這里會用一個篇幅給大家介紹一下。A、B、AC的口ACRice、Milk。除此之ALamb。ACACCC 12>推薦系統(tǒng)召回算法接下來再介紹一下剛才的三種向量召回的算法。它的一個輸入的數(shù)據(jù)大體是這II,然后有一些行為的數(shù)據(jù)。如下圖所示,這是一個用戶行為的數(shù)據(jù)表,進來之后你通過向量召回算法,最終拿到的是兩個向量表。這些向量表在實際的生產(chǎn)中是一個K、VDRedsFaiss里。FaissFacebookI個引擎。它的一個好處就是非???,可以提供很多的向量檢索的模式,甚至可以在一毫秒之內(nèi)返回一個幾百萬級別的向量檢索,它的性能非常好,常用到推薦召回的領(lǐng)域ID和它的向量進入到FaissTp10個拿出來,作為這名用戶的召回結(jié)果。這是整個的方案,會用到Redis,也會用到Faiss推薦系統(tǒng)召回算法推薦系統(tǒng)召回算法 PAGE13 在如何構(gòu)建企業(yè)級推薦系統(tǒng)系列課程的第一課中,我們介紹了如何去設(shè)計整個企業(yè)級的推薦系統(tǒng)架構(gòu)。在第二課中,我們介紹了怎么去理解召回算法以及召回算法的一些意義。在本節(jié)課中,我們分享一下推薦系統(tǒng)的排序算法,以及它的一些架構(gòu)特點。首先,我們再回顧一下這張圖,確定一下排序算法在推薦系統(tǒng)中的一個位置。一個用戶進入到平臺,會發(fā)現(xiàn)有很多商品,得把用戶可能喜歡的商品先挑出來。我們通過召回模塊,進行一個初篩,縮小排序模型的一個受眾的范圍。temitm。比10itm,用戶進來之后篩選出50通過排序模塊根據(jù)他的喜好程度對itm00iem戶最喜歡的東西,怎么挑出用戶第二喜歡的東西,這時候需要一個排序的算法模型。0推薦系統(tǒng)排序算法推薦系統(tǒng)排序算法 PAGE15 我們今天介紹一下排序算法究竟有哪些種類,排序的模型該怎么訓(xùn)練,它的系統(tǒng)架構(gòu)是怎么樣的。排序模型非常多,隨著深度學(xué)習(xí)的發(fā)展,整個的排序算法已經(jīng)從淺4類算法,特點是容易上手,對于計算力要求低,模型可解釋性好。第二,F(xiàn)M一兩年來,在很多客戶的場景中都得到大規(guī)模的應(yīng)用,效果也不錯。它是通過內(nèi)積的LRGBT的可解釋性。第四,eeFM它把深度學(xué)習(xí)和經(jīng)典的機器學(xué)習(xí)算法做一個結(jié)合。如果大家剛開始嘗試搭建一套推薦系統(tǒng),建議先從簡單的算法去嘗試,后續(xù)再逐漸的往更復(fù)雜的模型遷移。當(dāng)然,這些I 16>推薦系統(tǒng)排序算法離線訓(xùn)練用的是T-1的數(shù)據(jù),也就是說,今天業(yè)務(wù)上用的模型是通過今天以前我們今天重點放在在線模型訓(xùn)練這塊。相比于離線訓(xùn)練,在線訓(xùn)練提供什么好T-1T-2為數(shù)據(jù)進行利用,對于數(shù)據(jù)的時效性利用相對較差。比如說,有這樣的一個場景,今14T-1法對線上業(yè)務(wù)做一個及時的感知。這個時候,通過在線訓(xùn)練就能比較好的解決這個問題。在線模型訓(xùn)練的流程如下圖所示。在線模型訓(xùn)練意味著我可以用實時線上傳輸化的數(shù)據(jù),然后用我們的實時機器學(xué)習(xí)模型訓(xùn)練框架去做訓(xùn)練。在線訓(xùn)練雖然數(shù)據(jù)是實0推薦系統(tǒng)排序算法推薦系統(tǒng)排序算法 PAGE17 在離線模型的巨人的肩膀上,再往上去優(yōu)化。這就是在線排序模型訓(xùn)練的一個框架。3Fink于實時生成的模型去實時評估模型效果。第三,它具備線上模型回滾和版本管理的能力。你要達(dá)到這三個標(biāo)準(zhǔn),才可以構(gòu)建一個完整的在線模型訓(xùn)練的架構(gòu)。在如何構(gòu)建企業(yè)級推薦系統(tǒng)系列課程中,前兩節(jié)課我們分別介紹了召回算法及架構(gòu)、排序算法及架構(gòu)。本節(jié)課我們會介紹一下如何對排序和召回算法的結(jié)果做一個服務(wù)編排,以及最終我們的模型跟現(xiàn)場業(yè)務(wù)是如何對接的。首先,我們介紹一下整個的框架,用戶的業(yè)務(wù)場景,特別是互聯(lián)網(wǎng)的推薦業(yè)務(wù),它的高峰基本上會集中在中午和10110到彈性。相比于你一直擁有10臺機器,會節(jié)約很多成本,這是一個推薦業(yè)務(wù)需要考另外一個要解決的問題就是,召回和排序這樣的一個流程究竟該怎么創(chuàng)建起來。AK3召回取回上千條候選集。第二步,曝光去重:基于該用戶閱讀歷史,去掉已經(jīng)曝光內(nèi)容,去掉基于運營策略不能推薦的內(nèi)容。第三步,排序:推理模塊調(diào)用排序過程時根IDI,獲取用戶特征及物料特征后,分批調(diào)用PAI-EAS排序結(jié)果。右面這張圖其實講的是排序A-ES在線推理服務(wù)的一個在線監(jiān)控的RTQPS推薦系統(tǒng)線上服務(wù)編排推薦系統(tǒng)線上服務(wù)編排 PAGE19 20最終模型上線的時候,我們還會面臨一個問題。我們設(shè)計整個架構(gòu),有的時候并要他點擊,也要他多看一會。針對這樣的一個多目標(biāo)情況,我們該怎么設(shè)計整套的方案,怎么去編排整套的推薦召回應(yīng)用邏輯,有兩種方案。一種是說多模型解決多目標(biāo)問題。假設(shè)就是點擊和時長這兩個目標(biāo),你可以有一套推薦召回模塊專門針對點擊。另一塊專門針對使用時長去做訓(xùn)練。這兩個結(jié)果你把它融合一下,得到最終的推薦結(jié)果。但代價就會比較大,你要同時維護兩個系統(tǒng),而且二者的比例也不好去量化。方案二是合并多目標(biāo)成單模型,是目前采用得比較多的一個方案,也是效果相對來講會比較好的一個方案。你把目標(biāo)一和目標(biāo)二這兩個目標(biāo)先融合成一個目標(biāo)。比如說你把是否點擊和觀看時長按照一個比例去壓縮下,把它都放到0~1010~1區(qū)間去。這樣,你整個的區(qū)間就變成了0~2,變成一個單目標(biāo)的數(shù)值。這樣的話你就PAI10今天會為大家介紹一下如何基于PAI薦系統(tǒng)有兩個特點。第一是搭建非常方便,因為我們做了很多工具。第二,這套系統(tǒng)APPfeed推薦,本質(zhì)上就是一個推薦系統(tǒng)。推薦系統(tǒng)可以分為兩個主要的模塊。第一個是召回105001010所以今天我們這個視頻的內(nèi)容就是教大家搭建一個只有召回模塊的簡單推薦系統(tǒng)。召回和排序都有很多算法。比如說召回領(lǐng)域有很多矩陣分解算法、協(xié)同過濾算法efilteing,即協(xié)同過濾算法。 PAGE22>基于PAI10基于PAI基于PAI10分鐘搭建一個簡單推薦系統(tǒng) PAGE23 有用戶A、B、C,他們的偏好如下圖所示。你會發(fā)現(xiàn)A和C有一些相似的口味。AC都喜歡Rice、Milk。除此之外,A還喜歡Lamb。就是說AC有相似的口ACCC完整的推薦架構(gòu)如下圖所示,包含如下部分:Datawork
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025財達(dá)證券股份有限公司財富管理與機構(gòu)業(yè)務(wù)委員會山東分公司招聘1人備考筆試題庫及答案解析
- 2026天津市濱海新區(qū)事業(yè)單位招聘25人備考考試試題及答案解析
- 2025年福建莆田市城廂區(qū)霞林學(xué)校初中部編外教師招聘若干人考試備考題庫及答案解析
- 2025吉安吉州區(qū)農(nóng)業(yè)農(nóng)村局招聘公益性崗位工作人員2人參考筆試題庫附答案解析
- 2025下半年廣西水利電力職業(yè)技術(shù)學(xué)院招聘專任教師43人備考筆試試題及答案解析
- 17.3.1 勾股定理 教案
- 一次函數(shù)的圖象與性質(zhì)(課件)浙教版數(shù)學(xué)八年級上冊
- 企業(yè)安全生產(chǎn)責(zé)任目標(biāo)管理辦法
- 餐飲行業(yè)食品安全檢查規(guī)范
- 直播帶貨行業(yè)的市場動態(tài)與數(shù)據(jù)分析
- 2025四川航天川南火工技術(shù)有限公司招聘考試題庫及答案1套
- 2025年度皮膚科工作總結(jié)及2026年工作計劃
- (一診)成都市2023級高三高中畢業(yè)班第一次診斷性檢測物理試卷(含官方答案)
- 四川省2025年高職單招職業(yè)技能綜合測試(中職類)汽車類試卷(含答案解析)
- 2025年青島市公安局警務(wù)輔助人員招錄筆試考試試題(含答案)
- 2024江蘇無錫江陰高新區(qū)招聘社區(qū)專職網(wǎng)格員9人備考題庫附答案解析
- 科技園區(qū)入駐合作協(xié)議
- 電大??啤秱€人與團隊管理》期末答案排序版
- 山東科技大學(xué)《基礎(chǔ)化學(xué)(實驗)》2025-2026學(xué)年第一學(xué)期期末試卷
- 2025西部機場集團航空物流有限公司招聘筆試考試備考試題及答案解析
- 2025年吐魯番輔警招聘考試題庫必考題
評論
0/150
提交評論