大數(shù)據(jù)營銷(第2版 數(shù)字教材版) 課件 第3章 營銷大數(shù)據(jù)采集及預(yù)處理_第1頁
大數(shù)據(jù)營銷(第2版 數(shù)字教材版) 課件 第3章 營銷大數(shù)據(jù)采集及預(yù)處理_第2頁
大數(shù)據(jù)營銷(第2版 數(shù)字教材版) 課件 第3章 營銷大數(shù)據(jù)采集及預(yù)處理_第3頁
大數(shù)據(jù)營銷(第2版 數(shù)字教材版) 課件 第3章 營銷大數(shù)據(jù)采集及預(yù)處理_第4頁
大數(shù)據(jù)營銷(第2版 數(shù)字教材版) 課件 第3章 營銷大數(shù)據(jù)采集及預(yù)處理_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第3章

營銷大數(shù)據(jù)采集及預(yù)處理本章內(nèi)容

第1節(jié)

數(shù)據(jù)采集

第2節(jié)

數(shù)據(jù)預(yù)處理

第3節(jié)

大語言模型應(yīng)用學習目標了解大數(shù)據(jù)的類型和數(shù)據(jù)來源了解數(shù)據(jù)采集過程,培育正確的信息隱私觀了解大數(shù)據(jù)采集方法以及使用八爪魚工具進行數(shù)據(jù)采集的基本方法掌握數(shù)據(jù)預(yù)處理的方法,每種方法對應(yīng)處理的問題類型,以及運用大模型輔助數(shù)據(jù)預(yù)處理的操作方法

導(dǎo)入案例

聯(lián)通在線多途徑數(shù)據(jù)收集,開展精準營銷聯(lián)通在線公司擁有4億全網(wǎng)用戶的大數(shù)據(jù)能力,每日數(shù)據(jù)采集量有100TB,用戶觸達能力達到數(shù)億級,其強大的數(shù)據(jù)采集能力主要歸功于收集渠道的多元化在內(nèi)部用戶數(shù)據(jù)的采集上,聯(lián)通在線公司通過收集用戶與公司交互形成的數(shù)據(jù)并結(jié)合特有的網(wǎng)絡(luò)資源能力,在進行集中化處理后實現(xiàn)智能中臺的功能聯(lián)通在線公司還通過收集第三方用戶的數(shù)據(jù),了解用戶的整體消費趨勢,進一步完善數(shù)據(jù)營銷體系沃廣告還通過開放創(chuàng)新對外合作模式,打造移動營銷新生態(tài),提升轉(zhuǎn)換效果本章知識結(jié)構(gòu)數(shù)據(jù)類型數(shù)據(jù)預(yù)處理營銷數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)采集方法結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)日志、感知設(shè)備、網(wǎng)絡(luò)爬蟲及其實踐、市場調(diào)查數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、運用大語言模型實踐數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題一、數(shù)據(jù)類型第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是指關(guān)系模型數(shù)據(jù),即以關(guān)系數(shù)據(jù)庫形式管理的數(shù)據(jù),可計算、可查詢、可定義。結(jié)構(gòu)化數(shù)據(jù)能夠形式化存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來表示,它被歸類為定量數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不便于用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),在技術(shù)上比結(jié)構(gòu)化信息更難標準化和理解。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)數(shù)據(jù)之間的一種結(jié)構(gòu)化數(shù)據(jù)形式。因其比較特殊,所以單獨列出來,但本質(zhì)還是結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。數(shù)據(jù)三大類型大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題二、數(shù)據(jù)來源第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)來源

搜索引擎搜索數(shù)據(jù)和網(wǎng)站的點擊瀏覽數(shù)據(jù)來源于搜索引擎,搜索平臺擁有龐大的用戶行為數(shù)據(jù)。利用點擊和瀏覽數(shù)據(jù)對消費者進行分析,可以找到用戶的關(guān)注點、興趣點,利用這些信息,企業(yè)可以對用戶進行個性化推送,精準營銷,極大提高了廣告的效率。電子商務(wù)平臺商品的搜索數(shù)據(jù)、瀏覽數(shù)據(jù)、交易數(shù)據(jù)、評價數(shù)據(jù)以及對應(yīng)的用戶數(shù)據(jù)來源于電子商務(wù)平臺。通過對商業(yè)大數(shù)據(jù)的分析,能夠更直接地了解消費者的動態(tài)。通過用戶的點評數(shù)據(jù),企業(yè)能夠分析出用戶滿意或者不滿意的地方,這些因素就是企業(yè)存在的優(yōu)勢和劣勢。收集、分析用戶的點評數(shù)據(jù)還有一個重要之處就是傾聽用戶的意見、了解用戶的真實需求。社交媒體平臺用戶屬性標簽、用戶生成內(nèi)容(UGC)、用戶間社交網(wǎng)絡(luò)數(shù)據(jù)來源于社交媒體平臺。通過對社交網(wǎng)絡(luò)的研究,企業(yè)可以跟蹤信息傳播路徑?;谟脩舻男袨楹蛯傩詷撕?,可以生成用戶畫像,從而了解用戶喜好,企業(yè)根據(jù)分析結(jié)果來開展精準營銷。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集系統(tǒng)日志系統(tǒng)日志數(shù)據(jù)采集主要是收集公司業(yè)務(wù)平臺日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線大數(shù)據(jù)分析系統(tǒng)使用。很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具用于系統(tǒng)日志采集,如Hadoop公司的Chukwa,Cloudera公司的Flume,以及Facebook公司的Scribe等。這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百兆字節(jié)的日志數(shù)據(jù)采集和傳輸需求。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集感知設(shè)備三、數(shù)據(jù)采集方法感知設(shè)備數(shù)據(jù)采集是指通過傳感器、攝像頭和其它智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。在智能制造、可穿戴設(shè)備、物聯(lián)網(wǎng)愈發(fā)普及的今天,高速、可靠的數(shù)據(jù)采集技術(shù)是當前需要重點突破的方向??萍伎焖侔l(fā)展,技術(shù)創(chuàng)新給大數(shù)據(jù)采集提供了新的方法,比如基于眼動(EM)、腦電圖(EEG)、事件相關(guān)電位(ERP)、皮膚電反應(yīng)(GSR)、肌電(EMG)、心電圖(ECG)等前沿科技來采集數(shù)據(jù)。通過感知設(shè)備對生物數(shù)據(jù)進行采集的方式在廣告、消費者評論領(lǐng)域均有很強的應(yīng)用價值,逐漸成為營銷領(lǐng)域研究者的“新寵”。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集三、數(shù)據(jù)采集方法網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是指按照一定規(guī)則在搜索引擎下載并存儲網(wǎng)頁的程序或腳本,又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人。傳統(tǒng)爬蟲從獲得一個或若干初始網(wǎng)頁的URL開始,在抓取網(wǎng)頁的過程中,不斷從當前頁面抽取新的URL放入隊列,直到滿足系統(tǒng)的停止條件后結(jié)束。從嚴格意義上來說,爬蟲更像一種數(shù)據(jù)下載邏輯,很多軟件都具備爬蟲的功能(如Python、R、“火車頭”、“八爪魚”等)。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集三、數(shù)據(jù)采集方法市場調(diào)查利用上文所說的信息化手段收集資料非常方便,但對于有些數(shù)據(jù),如顧客需求及偏好、顧客滿意度、市場環(huán)境和行情信息、競爭對手信息以及戰(zhàn)略合作伙伴方的情況等無法通過信息化手段取得資料時,則需要通過市場調(diào)查或科學的實驗方法來獲取一手數(shù)據(jù)。市場調(diào)查分為線下、線上兩種。線下即傳統(tǒng)人與人面對面的調(diào)查方式;線上即網(wǎng)絡(luò)在線調(diào)查方式,相比線下方式可以在投入較少人力、時間和資金的情況下獲取更大規(guī)模數(shù)據(jù),許多企業(yè)和市場調(diào)研機構(gòu)越來越多地采用線上網(wǎng)絡(luò)市場調(diào)研的方式進行網(wǎng)絡(luò)營銷數(shù)據(jù)采集。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集四、大數(shù)據(jù)采集面臨的問題數(shù)據(jù)獲取渠道缺乏項目二數(shù)據(jù)質(zhì)量難以保證項目三隱私安全問題凸顯缺少數(shù)據(jù)獲取渠道,是數(shù)據(jù)分析面臨的一大難題。很多行業(yè)和企業(yè)并沒有積累數(shù)據(jù)的意識,導(dǎo)致很多數(shù)據(jù)存在空白。此外,大數(shù)據(jù)包含大量信息,可能涉及到用戶的隱私和公司的機密,企業(yè)和政府不愿意分享數(shù)據(jù)。大數(shù)據(jù)的“大”是指全體樣本,而非單指數(shù)據(jù)量大。現(xiàn)有平臺數(shù)據(jù)質(zhì)量參差不齊,大數(shù)據(jù)采集能力有待提升,實踐中很難獲得全樣本數(shù)據(jù),龐雜的數(shù)據(jù)中充斥著大量無效的干擾性數(shù)據(jù)、缺失內(nèi)容,如何讓收集到的數(shù)據(jù)樣本豐富全面,是大數(shù)據(jù)給營銷變革帶來的挑戰(zhàn)之一。互聯(lián)網(wǎng)時代,在線活動與在線交易不斷增多,用戶數(shù)據(jù)與隱私泄露事件時有發(fā)生,網(wǎng)絡(luò)安全威脅更為嚴峻。數(shù)據(jù)挖掘一方面可以被企業(yè)有效利用,增強營銷活動的精準度,提升營銷效率;但另一方面,如果缺乏有效監(jiān)管,用戶數(shù)據(jù)被不法分子得到,將會帶來嚴重的損失與危害。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約概念:數(shù)據(jù)清洗主要是通過填寫缺失值對“臟數(shù)據(jù)”進行處理,識別或刪除離群點,將數(shù)據(jù)庫中所存數(shù)據(jù)精細化,并使剩余數(shù)據(jù)轉(zhuǎn)化成標準可接受格式的過程,以達到格式標準化、異常數(shù)據(jù)消除、錯誤糾正、重復(fù)數(shù)據(jù)清除等目的。原始數(shù)據(jù)中的“臟數(shù)據(jù)”指源系統(tǒng)中不在給定的范圍內(nèi)、對于實際業(yè)務(wù)毫無意義、數(shù)據(jù)格式非法、存在不規(guī)范的編碼和含糊業(yè)務(wù)邏輯的數(shù)據(jù)。在數(shù)據(jù)清洗步驟中,主要解決數(shù)據(jù)出現(xiàn)遺漏值、噪聲、異常值等問題。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約遺漏值(missing

value)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用遺漏值(missing

value)為數(shù)據(jù)遺漏、缺失的情況,如某客戶的月消費數(shù)據(jù)缺失。在數(shù)據(jù)搜集階段,由于設(shè)備故障或人為失誤均有可能導(dǎo)致數(shù)據(jù)的遺漏,應(yīng)將數(shù)據(jù)補全。處理遺漏數(shù)據(jù)最簡單直接的方法是直接刪去該變量值,但當數(shù)據(jù)遺漏比例很大時,此方法將造成大量數(shù)據(jù)流失;第二種方法是使用一個常數(shù)或該字段所有數(shù)據(jù)的平均值統(tǒng)一替換遺漏值,例如用其他用戶消費均值替換某客戶消費指標的遺漏值,此方法缺點是不具客觀性,當數(shù)據(jù)本身具有類別或等級之分時,容易高估或低估數(shù)據(jù);最后還可利用數(shù)據(jù)挖掘模式來填充遺漏值,使用回歸分析、決策樹、人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘推導(dǎo)工具來推測填補遺漏值。第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約噪聲(noise)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用噪聲(noise)表示數(shù)據(jù)中的隨機誤差或干擾項。在數(shù)據(jù)收集、整理的過程中,會產(chǎn)生大量的噪聲數(shù)據(jù),即“離群點”。比如在年齡收入曲線中,出現(xiàn)個別遠離曲線的極端點。因為噪聲數(shù)據(jù)不在合理的數(shù)據(jù)域內(nèi),所以分析、挖掘過程中輸入和輸出數(shù)據(jù)的質(zhì)量難以保證,容易造成后續(xù)的挖掘結(jié)果不準確、不可靠。常用的消除噪聲數(shù)據(jù)的方法分為兩種。一種是噪聲平滑方法(datapolishing),常用分箱法處理,即將預(yù)處理數(shù)據(jù)分布到不同的箱中,通過參考周圍實例平滑噪聲數(shù)據(jù)。具體的分箱技術(shù)包括:平均值平滑,中位數(shù)平滑,按設(shè)定的箱邊界平滑。另一種是噪聲過濾(datafilters),利用聚類方法對離群點進行分析、過濾。第2節(jié)

數(shù)據(jù)預(yù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約異常值(abnormal

value)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用若某一些數(shù)據(jù)的表現(xiàn)與其他數(shù)據(jù)差距很大時,這些數(shù)據(jù)稱為異常值(abnormal

value),如數(shù)據(jù)顯示某用戶的月消費金額基本在3000~5000元范圍內(nèi),若賬單有一條30000元的記錄,即為異常值。異常值可通過經(jīng)驗判斷、標準分數(shù)(或法則)、箱線圖等方法來判斷。對于異常值的處理需根據(jù)具體情況分析,若該異常值擁有特殊意義,則需保留;若由于儀器工具或人工失誤導(dǎo)致,可根據(jù)情況考慮直接刪除該數(shù)據(jù),或用其它數(shù)值更替,將數(shù)據(jù)的范圍歸一化。第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約概念:數(shù)據(jù)清洗后方可進行數(shù)據(jù)集成,數(shù)據(jù)集成是將來自多個數(shù)據(jù)源的數(shù)據(jù)合并,統(tǒng)一存放在一個數(shù)據(jù)庫中。由于描述同一個概念的屬性在不同數(shù)據(jù)庫可能有不同的名字,在進行數(shù)據(jù)集成時常會引起數(shù)據(jù)的不一致和冗余。命名的不一致常常也會導(dǎo)致同一屬性值的內(nèi)容不同。使用數(shù)據(jù)量太大的數(shù)據(jù)進行分析不僅會降低數(shù)據(jù)挖掘速度,也會誤導(dǎo)數(shù)據(jù)挖掘進程。因此進行數(shù)據(jù)清洗之后,在數(shù)據(jù)集成中還需要注意消除數(shù)據(jù)的不一致、重復(fù)和冗余。二、數(shù)據(jù)集成數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理二、數(shù)據(jù)集成數(shù)據(jù)不一致數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)不一致是指兩條及以上數(shù)據(jù)出現(xiàn)數(shù)據(jù)的矛盾性或不相容性的情況。由于整合數(shù)據(jù)后,不同來源的數(shù)據(jù)屬性可能不同,在數(shù)據(jù)表達、比例定義或編碼上也會有所不同,因此產(chǎn)生數(shù)值或字段不一致的狀況。例如在兩個不同的數(shù)據(jù)表中,用戶在線時長分別用小時和分鐘兩種單位來記錄。為使數(shù)據(jù)保持一致,需要先確定作為標準的字段,然后對另外的字段進行單位的換算或者修改來保持數(shù)據(jù)一致。第2節(jié)

數(shù)據(jù)預(yù)處理二、數(shù)據(jù)集成數(shù)據(jù)重復(fù)數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用重復(fù)數(shù)據(jù)是指重復(fù)出現(xiàn)的數(shù)值或字段。對于重復(fù)數(shù)據(jù)的處理方法也需根據(jù)實際情況進行判斷:如因數(shù)據(jù)庫信息有重合,在數(shù)據(jù)整合后發(fā)生的數(shù)據(jù)重復(fù),刪除多余記錄只保留一條即可;若確實為幾條不同的記錄,如同一用戶對同一規(guī)格的產(chǎn)品、下單兩次,則兩條均需保留。第2節(jié)

數(shù)據(jù)預(yù)處理二、數(shù)據(jù)集成數(shù)據(jù)冗余數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用數(shù)據(jù)冗余是指數(shù)據(jù)之間的重復(fù),也可以說是同一數(shù)據(jù)存儲在不同數(shù)據(jù)文件中的現(xiàn)象。屬性命名的不一致,也有可能導(dǎo)致集中的冗余數(shù)據(jù)。數(shù)據(jù)冗余的處理主要是針對具有相同意義或彼此間存在已知數(shù)學關(guān)系的字段,也就是此變量的屬性或代表的意義可由另一變量推導(dǎo)而得,如數(shù)據(jù)中含有用戶1-12月的“月消費金額”及全年的“年消費金額”,“年消費金額”完全可以由每月消費金額累加得出,即為數(shù)據(jù)冗余。為使數(shù)據(jù)更加簡潔,可將該字段剔除。若數(shù)據(jù)冗余因?qū)傩悦灰恢聦?dǎo)致,需經(jīng)具體判斷后處理或保留。第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約三、數(shù)據(jù)變換概念:數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于各種數(shù)據(jù)挖掘模式的形式,以轉(zhuǎn)換原始數(shù)據(jù)或重新編碼的方式提升數(shù)據(jù)價值,其中可能涉及數(shù)據(jù)數(shù)值與數(shù)據(jù)類別的轉(zhuǎn)換。例如,將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為離散型的類別數(shù)據(jù),根據(jù)領(lǐng)域知識將舊變量合并成新的變量,或?qū)?shù)據(jù)歸一化以避免尺度的差異,常見如人工神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)的歸一化。對于數(shù)據(jù)的數(shù)值轉(zhuǎn)換,可采取歸一化和標準化方法,歸一化(normalization)是將屬性數(shù)據(jù)按比例縮放到一個特定的區(qū)間,如[-1,1]或[0,1],標準化(standardization)則是依據(jù)數(shù)據(jù)的均值和標準差進行標準化處理。對于數(shù)據(jù)的屬性轉(zhuǎn)換,可視情況將離散數(shù)據(jù)轉(zhuǎn)換為連續(xù)數(shù)據(jù),如將顧客評論中“比較滿意”“滿意”“非常滿意”轉(zhuǎn)化為數(shù)值8、9、10,或是將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),例如按照顧客的價值評分把顧客分為白銀貴賓、黃金貴賓、鉑金貴賓、鉆石貴賓。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第2節(jié)

數(shù)據(jù)預(yù)處理四、數(shù)據(jù)歸約數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約概念:數(shù)據(jù)歸約的主要目的是得到與原始數(shù)據(jù)具有相同信息但較精簡的數(shù)據(jù)集。數(shù)據(jù)挖掘時數(shù)據(jù)量往往非常大,數(shù)據(jù)歸約技術(shù)通過選擇替代的、較少的數(shù)據(jù)來減少數(shù)據(jù)量,可以有效縮減數(shù)據(jù)規(guī)模,在盡可能保持數(shù)據(jù)原貌的前提下最大限度地精簡數(shù)據(jù)量,使得大數(shù)據(jù)挖掘更精準高效。企業(yè)根據(jù)現(xiàn)實情況主要進行維度歸約和數(shù)值歸約兩方面的處理。數(shù)據(jù)維度歸約常用于分類或預(yù)測問題,最直接的方式是以目標變量作為比較基準,利用特征選取法將變量維度中與目標變量不相關(guān)的屬性刪除,或利用主成分分析法將變量作線性轉(zhuǎn)換,只留下提供較多信息的幾個主成分,以縮小變量維度。數(shù)值歸約通過選擇替代的、較少的數(shù)據(jù)來減少數(shù)據(jù)量,包括有參數(shù)方法和無參數(shù)方法。參數(shù)方法可采用回歸模型與對數(shù)線性模型來實現(xiàn),非參數(shù)化方法包括直方圖、聚類、抽樣、數(shù)據(jù)立方體聚集等方法。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第3節(jié)

利用大語言模型進行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用一、DeepSeek簡介:DeepSeek是由中國頂尖AI團隊深度求索(DeepSeekInc.)自主研發(fā)的通用大語言模型體系,其研發(fā)始于2023年,致力于突破認知智能的邊界,是國內(nèi)首個全面對標GPT-4技術(shù)架構(gòu)的AI大模型。自然語言理解與生成:精準處理復(fù)雜邏輯與專業(yè)術(shù)語,高效生成高質(zhì)量文本。強大數(shù)據(jù)探索:挖掘海量數(shù)據(jù)隱藏規(guī)律,支持科研與商業(yè)決策。交互式分析:自然語言對話降低門檻,快速響應(yīng)數(shù)據(jù)分析需求。多模態(tài)數(shù)據(jù)分析:融合文本、圖像等信息,提供精準行業(yè)解決方案。

第3節(jié)

利用大語言模型進行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例二、DeepSeek應(yīng)用數(shù)據(jù)預(yù)處理上傳數(shù)據(jù)文件并提出數(shù)據(jù)清洗請求在使用DeepSeek進行數(shù)據(jù)清洗時,首先需要進入其主界面。點擊界面上的“文件”選項,選擇并上傳需要清洗的數(shù)據(jù)文件。

數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第3節(jié)

利用大語言模型進行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例DeepSeek返回處理意見DeepSeek會根據(jù)輸入的請求,從專業(yè)視角分析數(shù)據(jù),并提出針對性的解決方案。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用第3節(jié)

利用大語言模型進行數(shù)據(jù)預(yù)處理應(yīng)用——以DeepSeek為例根據(jù)清洗建議執(zhí)行操作DeepSeek會結(jié)合上傳數(shù)據(jù)的結(jié)構(gòu)與內(nèi)容,生成一系列針對性的清洗建議。這些建議通常包括以下常見操作:刪除重復(fù)數(shù)據(jù);補充或處理缺失值;識別并移除異常值;統(tǒng)一數(shù)據(jù)格式等。數(shù)據(jù)預(yù)處理數(shù)據(jù)采集大語言模型應(yīng)用數(shù)據(jù)采集

應(yīng)用案例3-1

瑞幸咖啡:用數(shù)據(jù)做口味從財務(wù)造假被唱衰到突破萬店的中國咖啡品牌,瑞幸憑借大數(shù)據(jù)營銷及全鏈條數(shù)據(jù)驅(qū)動下的標準化運營管理實現(xiàn)逆轉(zhuǎn)。這一成功的背后,是瑞幸獨有的基于大數(shù)據(jù)的產(chǎn)品研發(fā)方法:瑞幸數(shù)據(jù)平臺設(shè)計:瑞幸咖啡的大數(shù)據(jù)營銷核心之一就是數(shù)據(jù)平臺的設(shè)計。這個平臺應(yīng)能夠智能整合來自不同渠道的數(shù)據(jù),以支持數(shù)據(jù)分析和決策制定,從而實現(xiàn)更卓越的客戶管理和個性化營銷。瑞幸數(shù)據(jù)采集:數(shù)據(jù)采集對于大數(shù)據(jù)營銷至關(guān)重要,正如瑞幸咖啡一直在實踐的。有效的數(shù)據(jù)采集可以幫助企業(yè)跟蹤消費者在各個平臺上的行為,無論他們是在哪里購物。這些數(shù)據(jù)應(yīng)包括渠道來源、購買歷史等信息,為更深入了解消費者、識別新老客戶以及為個性化營銷提供堅實基礎(chǔ)。案例3-1

瑞幸咖啡:用數(shù)據(jù)做口味數(shù)據(jù)的質(zhì)量和完整性:數(shù)據(jù)的質(zhì)量對于大數(shù)據(jù)營銷至關(guān)重要,特別是像瑞幸咖啡這樣注重細節(jié)的品牌。包括

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論