電子課件數(shù)據(jù)科學(xué)概論ch12-it_第1頁
電子課件數(shù)據(jù)科學(xué)概論ch12-it_第2頁
電子課件數(shù)據(jù)科學(xué)概論ch12-it_第3頁
電子課件數(shù)據(jù)科學(xué)概論ch12-it_第4頁
電子課件數(shù)據(jù)科學(xué)概論ch12-it_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 內(nèi)容可修改電子課件數(shù)據(jù)科學(xué)概論ch12_it數(shù)據(jù)科學(xué)的行業(yè)應(yīng)用:互聯(lián)網(wǎng)行業(yè)目錄互聯(lián)網(wǎng)行業(yè)概況互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)數(shù)據(jù)科學(xué)的應(yīng)用推薦系統(tǒng)(示例)444互聯(lián)網(wǎng)行業(yè)概況機遇互聯(lián)網(wǎng)行業(yè)利用信息技術(shù)與互聯(lián)網(wǎng)平臺,充分發(fā)揮其在生產(chǎn)要素配置中的優(yōu)化作用,實現(xiàn)互聯(lián)網(wǎng)與傳統(tǒng)產(chǎn)業(yè)的深度融合,將互聯(lián)網(wǎng)的創(chuàng)新成果應(yīng)用于各領(lǐng)域中,實現(xiàn)國家生產(chǎn)力的提升?;ヂ?lián)網(wǎng)用戶量隨著計算機技術(shù)的迅速發(fā)展而激增,移動端設(shè)備也實現(xiàn)了數(shù)據(jù)化,數(shù)據(jù)量呈指數(shù)增長。挑戰(zhàn)互聯(lián)網(wǎng)技術(shù)的進步在促進數(shù)據(jù)科學(xué)發(fā)展的同時帶來挑戰(zhàn)。與前互聯(lián)網(wǎng)時代統(tǒng)計學(xué)家所處理的小型數(shù)據(jù)相比,當(dāng)前互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)具有以下特點:樣本量大特征變量多結(jié)構(gòu)復(fù)雜這一現(xiàn)狀要求數(shù)據(jù)科學(xué)家們不能

2、僅僅局限于對理論方法的研究,還要接受 “get your hands dirty”的理念,提升解決實際問題的能力。777互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)行業(yè)數(shù)據(jù)分類互聯(lián)網(wǎng)行業(yè)的具體業(yè)務(wù)保羅萬千,包括線上交易平臺、智能控制、物流交付等,其數(shù)據(jù)形式也較為復(fù)雜。從數(shù)據(jù)結(jié)構(gòu)的角度考慮:結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)從數(shù)據(jù)處理方式的角度考慮:批處理數(shù)據(jù)流處理數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的數(shù)據(jù)指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲、表現(xiàn)為二維形式的數(shù)據(jù)。一般特點是:數(shù)據(jù)以行為單位,每一行數(shù)據(jù)表示一個實體(樣本點)的信息,每一列數(shù)據(jù)表示一個特征。例如,某網(wǎng)約車公司掌握的用戶數(shù)據(jù)如下表所示,其中每一行代表 一位用戶,由主鍵(用戶ID)

3、唯一確定,每一列代表用戶的個人背景信息以及業(yè)務(wù)信息。用戶 ID性別年齡用車平均花費(元)是否深度用戶A001012325以下0A012103025-501B080804325以下0非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指結(jié)構(gòu)不規(guī)則或不完整,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。在技術(shù)層面,它比結(jié)構(gòu)化數(shù)據(jù)更難標(biāo)準(zhǔn)化,其存儲、檢索、發(fā)布以及利用需要更加智能化的 IT 技術(shù)。從具體形式看,非機構(gòu)化數(shù)據(jù)包含文本數(shù)據(jù)、語音數(shù)據(jù)、圖像數(shù)據(jù)等,對應(yīng)多種具體業(yè)務(wù)。例如:線上購物平臺上的用戶評價是文本數(shù)據(jù);智能音箱對接受到的語音數(shù)據(jù)作出相應(yīng)反饋;搜索引擎的 “以圖搜圖” 處理的是圖像數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)以XML和JSON為代表

4、的半結(jié)構(gòu)化數(shù)據(jù)雖然不具有關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的結(jié)構(gòu)化形式,但其包含可以用來分隔語義元素的相關(guān)標(biāo)記。相關(guān)標(biāo)記還可以對記錄和字段進行分層。在半結(jié)構(gòu)化數(shù)據(jù)中,屬于同一類的實體可以有不同的屬性,而且屬性的順序可以不一致。(如下圖中某手機軟件用戶信息的 JSON 數(shù)據(jù)所示)半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)相比于結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢在于其具有更好的延伸性, 新增數(shù)據(jù)可以自由地流入系統(tǒng)。如果軟件的某位新用戶填寫了收入信息,那么在新增該用戶信息的同時就已經(jīng)引入了對應(yīng)屬性。而如果是使用結(jié)構(gòu)化數(shù)據(jù)進行記錄,則需要先中斷系統(tǒng)以改變原表的結(jié)構(gòu),才能增加“收入”屬性。批處理數(shù)據(jù)批處理主要操作大容量的靜態(tài)數(shù)據(jù)集,在計算過程完成后

5、返回結(jié)果。MapReduce 是典型的批處理模型,其核心思想是先將數(shù)據(jù)分為若干小數(shù)據(jù)塊,對它們進行并行處理并分別產(chǎn)生中間結(jié)果,而 后將所有中間結(jié)果合并為最終結(jié)果。MapReduce示意圖批處理數(shù)據(jù)由于能簡單高效地實現(xiàn)復(fù)雜數(shù)據(jù)的存儲和管理,批處理技 術(shù)被廣泛應(yīng)用于網(wǎng)頁挖掘等領(lǐng)域。批處理的缺點是需要對數(shù)據(jù)集整體進行操作后才能返回結(jié)果, 時效性較差。流處理數(shù)據(jù)某些數(shù)據(jù)(如股票價格、天氣信息、App的用戶數(shù)據(jù)等)的業(yè)務(wù)價值會隨時間的推移而迅速降低,在采集新數(shù)據(jù)后必須第一時間對其進行處理和分析。此時流處理技術(shù)是更好的選擇。流處理示意圖流處理數(shù)據(jù)流處理系統(tǒng)將數(shù)據(jù)視為隨時間延伸而不斷增長、沒有邊界的流式數(shù)據(jù)

6、集,例如購物平臺的用戶消費記錄、股票交易數(shù)據(jù)等。流處理一般不針對整個數(shù)據(jù)集執(zhí)行操作,而是對在滑動時間窗口內(nèi)進入系統(tǒng)的數(shù)據(jù)進行遞增式處理與分析。借助此類分析得出的信息,互聯(lián)網(wǎng)企業(yè)得以掌握用戶的實時動態(tài)并迅速作出反應(yīng)。批數(shù)據(jù)與流數(shù)據(jù)當(dāng)數(shù)據(jù)的價值較為穩(wěn)定,需要使用大量歷史數(shù)據(jù)以保證較為精確的計算結(jié)果,并且對計算時間要求不高時,通常使用批處理。當(dāng)數(shù)據(jù)隨時間推移而迅速貶值,需要快速得到計算結(jié)果時,通常使用流處理。當(dāng)前許多數(shù)據(jù)處理系統(tǒng)需要將兩種技術(shù)有機結(jié)合,實現(xiàn)“批流一體化”,以適應(yīng)不同的業(yè)務(wù)需求。以推薦系統(tǒng)為例:根據(jù)用戶在一段時間內(nèi)(如一個月內(nèi))的消費記錄,在購物平臺的首頁向其推薦可 能感興趣的商品,這

7、一過程應(yīng)用了批處理技術(shù);當(dāng)用戶點擊某筆記本電腦的詳情頁后,即刻向 其推薦類似型號的電腦并顯示在當(dāng)前頁面,則是屬于流處理。181818數(shù)據(jù)科學(xué)的應(yīng)用推薦系統(tǒng)推薦系統(tǒng)的本質(zhì)是通過大量用戶對海量商品的購買行為數(shù)據(jù)的分析探索用戶與商品間相關(guān)度的統(tǒng)計測度,是典型的數(shù)據(jù)科學(xué)問題。推薦系統(tǒng)示意圖推薦系統(tǒng)平臺通過追蹤用戶在購物時所表現(xiàn)出的消費傾向,分別提取用戶與商品的特征,利用相關(guān)性度量(余 弦值等)或機器學(xué)習(xí)算法(聚類等)實現(xiàn)兩者之間的關(guān)聯(lián)分析。在構(gòu)建推薦系統(tǒng)的過程中,既 可以根據(jù)用戶間的相似性,向用戶推薦與其具有共同興趣的用戶購買過的商品;也可以實現(xiàn)商品的聚類,向已購買某件商品的用戶推薦類似商品。智能輿情

8、監(jiān)測輿情監(jiān)測系統(tǒng)對于幫助客戶及時準(zhǔn)確地掌握網(wǎng)絡(luò)動態(tài)、提 高對重大網(wǎng)絡(luò)事件的公關(guān)應(yīng)變能力、把控輿情發(fā)展方向具有重要的現(xiàn)實意義。輿情監(jiān)測系統(tǒng)示意圖智能輿情監(jiān)測輿情監(jiān)測系統(tǒng)在運用 爬蟲技術(shù)對網(wǎng)絡(luò)平臺上的用戶言論進行實時抓取、一 “網(wǎng)” 打盡后,使用自然語言處理技術(shù)對文本進行分詞,并轉(zhuǎn)化為詞向量,實現(xiàn)輿情數(shù)據(jù)化。數(shù)據(jù)科學(xué)家對用戶隱私數(shù)據(jù)進行脫敏處理,通過機器學(xué)習(xí)模型過濾掉其中無價值的信息,并對提取后的數(shù)據(jù)進行多維度的可視化分析,展示網(wǎng)友對熱點事件的關(guān)注程度、對事件中重點人物的情感傾向等輿情。搜索引擎搜索引擎是一種網(wǎng)絡(luò)信息檢索工具,在接受用戶的查詢命令后提供符合要求的在線資源。常見搜索引擎搜索引擎在數(shù)以

9、萬億計的網(wǎng)頁中,要快速找到與搜索詞最相關(guān)的網(wǎng)頁,不僅需要借助計算機技術(shù)實現(xiàn)高效檢索,還需要通過數(shù)據(jù)科學(xué)方法準(zhǔn)確度量網(wǎng)頁與搜索詞的相關(guān)性。搜索引擎首先自動訪問互聯(lián)網(wǎng)抓取網(wǎng)頁數(shù)據(jù),再從頁面信息中提取重要特征,建立網(wǎng)頁索引數(shù)據(jù)庫。當(dāng)用戶輸入搜索詞后,系統(tǒng)會調(diào)用索引庫檢索包含該詞的所有網(wǎng)頁,并根據(jù)其對應(yīng)特征,利用機器學(xué)習(xí)算法預(yù)測各網(wǎng)頁與搜索詞的相關(guān)性,以此對網(wǎng)頁進行排序,并由頁面生成系統(tǒng)將結(jié)果返回給用戶。圖像識別購物平臺的 “拍照搜商品” 功能、搜索引擎的 “以圖搜圖” 功能可以根據(jù)用戶上傳的圖像輸出相應(yīng)的商品或同類圖片,其本質(zhì)是實現(xiàn)用戶上傳圖片與平臺數(shù)據(jù)庫中已有圖片的匹配,需要運用圖像識別技術(shù)。圖像

10、識別示例圖像識別由于圖片是典型的非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)科 學(xué)家在衡量圖片間的關(guān)聯(lián)度前需要先進行特征工程,將其轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù):在去除圖片中的噪聲后,通過將每個像素點對應(yīng)到具體數(shù)值得到特征矩陣,使其包含圖片的顏色分布、梯度變化、紋理等基礎(chǔ)特征。在這一基礎(chǔ)上,通過神經(jīng)網(wǎng)絡(luò)算法進一步提取多層重要特征。網(wǎng)絡(luò)游戲隨著網(wǎng)絡(luò)游戲玩家的滲透率越來越高,游戲服務(wù)器常常會積累大量用戶數(shù)據(jù)。如何利用數(shù)據(jù)挖掘用戶興趣,吸引更多玩家以創(chuàng)造更大的商業(yè)價值,成為了游戲策劃的重點。網(wǎng)絡(luò)游戲的成功運營,離不開數(shù)據(jù)科學(xué)的支持,例如:根據(jù)玩家在游戲中的對道具的喜好傾向,對玩家實現(xiàn)聚類,在付費活動的推薦列表中推薦其可能更有付費意愿的道具,

11、提升產(chǎn)品的轉(zhuǎn)化率。對玩家行為進行實時監(jiān)控,通過分類算法甄別用戶是否使用 “外掛”,打擊作弊玩家。282828推薦系統(tǒng)(示例)數(shù)據(jù)介紹對于線上購物平臺(如淘寶、京東)來說,如何根據(jù)用戶的個人信息及購買行為記錄從海量商品中快速檢索出該用戶可能感興趣的商品進行精準(zhǔn)推薦以促進消費,決定了平臺的商業(yè)前 景。大型購物平臺通常用戶眾多、商品量大,要求推薦算法兼顧計算效率和估計精度,以及時 反饋有價值的推薦結(jié)果。本節(jié)以阿里巴巴提供的淘寶用戶行為數(shù)據(jù)集(UserBehavior)為例,展示推薦系統(tǒng)如何利用數(shù)據(jù)創(chuàng)造價值。數(shù)據(jù)介紹UserBehavior 數(shù)據(jù)集的結(jié)構(gòu)相對簡單,只包含 5 個變量,分別為:用戶 ID

12、商品 ID商品所屬類別 ID消費行為時間其中,行為類型包括點擊商品詳情頁(pv)、購買(buy)、加入購物車(cart)和收藏(fav)。每一行表示某用戶于某個時間點在移動購物平臺進行的一次操作,例如“小明在 2020 年 1 月 1 日將屬于電子產(chǎn)品的某品 牌手機加入購物車”。該數(shù)據(jù)集一共包含 987,994 名用戶對 4,162,024 件商品(從屬于 9,439 個類別)的 100,150,807 次消費行為。推薦算法簡介常用的推薦算法可以分為四個大方向:基于流行度的推薦基于用戶屬性的推薦基于商品屬性的推薦協(xié)同過濾推薦算法簡介(基于流行度)基于流行度的推薦,指研究者根據(jù)項目的流行程度(如

13、被購買次數(shù)、關(guān)注人數(shù))進行排序并向用戶推薦熱度排名較高項目的過程。典型的例子包括微博熱搜、音樂軟 件的年度熱榜等。該算法比較簡單直接,但無法為不同用戶實現(xiàn)個性化推薦,不適用于移動購物平臺。推薦算法簡介(基于用戶屬性)基于用戶屬性的推薦,指研究者根據(jù)用戶的人口學(xué)信息(如性別、年齡、職業(yè)等)進行用戶聚類并將同類用戶喜愛的商品推薦給當(dāng)前用戶的過程。該算法沒有利用商品的信息,忽略了用戶對商品本身的興趣,因此推薦結(jié)果有時不夠精確。推薦算法簡介(基于用戶屬性)基于商品屬性的推薦,指研究者根據(jù)商品本身特征(如價格、所屬類型、生產(chǎn)商等)進行商品聚類并向用戶推薦已購買商品類別 中其他商品的過程。該算法的問題在于

14、商品信息往往比較有限且不同類商品之間難以直接比較,并且沒有考慮用戶的購買行為。推薦算法簡介(協(xié)同過濾)協(xié)同過濾算法的核心思想是從該矩陣中提取重要特征,通過多個用戶消費行為的協(xié)同作用將商品 “過濾” 出來推薦給目標(biāo)用戶。根據(jù)算法對特征的提取與使用方式差異,可以分為以下三種:基于用戶的協(xié)同過濾基于商品的協(xié)同過濾基于模型的協(xié)同過濾用戶口紅眼影化妝蛋筆記本平板電腦數(shù)據(jù)科學(xué)概論A011100B110010C001011D000111E111100推薦算法簡介(基于用戶的協(xié)同過濾)推薦算法簡介(基于模型的協(xié)同過濾)基于模型的協(xié)同過濾,以行為矩陣作為輸入數(shù)據(jù),使用機器學(xué)習(xí)算法訓(xùn)練推薦模型,再根據(jù)實時用戶的購

15、買記錄預(yù)測其最可能購買的商品進行推薦。例如,將用戶是否購買某件商品視為二分類因變量,將除了該商品以外的購買記錄視為自變量,針對每件商品分別訓(xùn)練 Logistic 回歸模型。對于特定用戶,根據(jù)模型分別預(yù) 測其購買各件商品的概率,取概率最高的K件商品進行推薦。在機器學(xué)習(xí)中,可以用于建立推薦模型的主流方法包括:關(guān)聯(lián)規(guī)則聚類分類矩陣分解神經(jīng)網(wǎng)絡(luò)圖模型基于深度神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾算法在互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)量環(huán)境下往往具有更高的預(yù)測精度,近年來逐漸成為主流。數(shù)據(jù)處理本節(jié)從 UserBehavior 數(shù)據(jù)集中抽取一部分,使用推薦算法(如基于流行度的算法以及基于用戶、商品的協(xié)同過濾算法等)分析數(shù)據(jù)并展示結(jié)果。由于該

16、數(shù)據(jù)集的用戶行為矩陣較為稀疏,在子數(shù)據(jù)集上使用傳統(tǒng)推薦算法可能會效果不佳。因此,在本節(jié)的推薦系統(tǒng)建模分析示例中,只對商品類別而非商品進行推薦。此外,截取用戶總感興趣次數(shù)超過一定比例的熱門商品類別,使行為矩陣變得更加稠密且用戶之間的相似性信號更強。最終整理得到用于分析的數(shù)據(jù)集包含 789 名用戶對 785 類商品的 90,656 次消費行為。評價指標(biāo)評價指標(biāo)推薦模型構(gòu)建與結(jié)果評估利用訓(xùn)練集數(shù)據(jù),分別構(gòu)建基于流行度的推薦模型(Popularity)、基于商品的協(xié)同過濾模型(Item Base)和基于用戶的協(xié)同過濾模型(User Base)。各模型根據(jù)測試集中用戶前一半時間的消費行為預(yù)測最感興趣的

17、20 件商品并與其在后一半時間內(nèi)實際購買的商品進行比較,得到指 標(biāo)得分如下表所示。為了方便比較,加入隨機推薦(Random)的結(jié)果作為基準(zhǔn)線。推薦模型構(gòu)建與結(jié)果評估Precision達到 10%,表明平均而言用戶會對所推薦的 20 件商品中的 2 件感興趣,而 Recall 達到 10% 表 明平均而言在用戶實際購買的商品中有十分之一是推薦商品??紤]到商品量較大且用戶購物傾向時刻發(fā)生變化,本例推薦結(jié)果整體來看令人滿意。在該數(shù)據(jù)集上,基于用戶的協(xié)同過濾模型表現(xiàn)最好。MethodPrecisionRecallF-MeasureRandom0.93%1.42%1.05%Popularity11.51

18、%15.29%12.27%Item Base11.64%16.66%12.74%User Base12.83%17.98%13.93%基于神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)考慮在UserBehavior的完整數(shù)據(jù)集上建立推薦模型。 由于完整數(shù)據(jù)集所涉及的用戶和商品數(shù)量較大,使用基于用戶或基于商品的協(xié)同過濾算法計算代價太高,本節(jié)考慮基于模型的協(xié)同過濾算法。神經(jīng)網(wǎng)絡(luò)算法恰好能夠高效準(zhǔn)確地模擬矩陣分解的非線性實現(xiàn), 它以用戶的行為矩陣的每一行(表示用戶屬性)和每一列(表示商品屬性)作為輸入層,經(jīng)過多個隱藏層,得到每一用戶與每一件商品對應(yīng)的embedding向量?;谏窠?jīng)網(wǎng)絡(luò)的推薦系統(tǒng)拓展:深度樹匹配模型拓展:深度樹匹配模型如下圖所示,可以用樹結(jié)構(gòu)表示所有商品的集合,其中每一個葉子節(jié)點表示一件商品。從根節(jié)點開始,按照某種規(guī)則對商品進行劃分,一直到無法再分為止。該步驟相當(dāng)于將商品逐層劃分為子類。檢索樹示意圖拓展:深度樹匹配模型拓展:深度樹匹配模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論