人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第二章 數(shù)據(jù)與數(shù)據(jù)的價值_第1頁
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第二章 數(shù)據(jù)與數(shù)據(jù)的價值_第2頁
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第二章 數(shù)據(jù)與數(shù)據(jù)的價值_第3頁
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第二章 數(shù)據(jù)與數(shù)據(jù)的價值_第4頁
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第二章 數(shù)據(jù)與數(shù)據(jù)的價值_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章數(shù)據(jù)與數(shù)據(jù)的價值CATALOGUE目錄02無處不在的數(shù)據(jù)01課前導(dǎo)讀03數(shù)據(jù)的價值04警惕“數(shù)據(jù)至上主義”01PART課前導(dǎo)讀數(shù)據(jù)使能的經(jīng)濟新業(yè)態(tài)當數(shù)據(jù)“包圍”生活時,會發(fā)生什么?為什么你每天刷手機、點外賣、打車、甚至走路,都在“生產(chǎn)錢”?01數(shù)據(jù)使能的經(jīng)濟新業(yè)態(tài)答案1:數(shù)據(jù)=新型“石油”“數(shù)據(jù)被政府列為‘第五大生產(chǎn)要素’,像石油一樣驅(qū)動經(jīng)濟”01石油驅(qū)動工業(yè)時代,數(shù)據(jù)驅(qū)動數(shù)字時代。2023年國家數(shù)據(jù)局成立,專門“開采”數(shù)據(jù)資源,2024年數(shù)字經(jīng)濟核心產(chǎn)業(yè)已占GDP的10%(提前完成“十四五”目標)。數(shù)據(jù)使能的經(jīng)濟新業(yè)態(tài)答案2是:數(shù)據(jù)=個性化服務(wù)的“鑰匙”“你的每一次點擊,都在反向塑造為你定制的世界”01銀行用交易數(shù)據(jù)評估信用,3秒放貸;醫(yī)院用基因數(shù)據(jù)定制抗癌藥;城市用交通流量數(shù)據(jù)動態(tài)調(diào)整紅綠燈。你檢索“運動鞋”就會向你推薦“運動耳機”支付寶螞蟻保就會向你推薦“運動意外險”數(shù)據(jù)使能的經(jīng)濟新業(yè)態(tài)答案3:數(shù)據(jù)=催生新業(yè)態(tài)的“催化劑”“數(shù)據(jù)不是‘副產(chǎn)品’,而是新商業(yè)模式的‘起點’”012024年,全國數(shù)據(jù)市場交易規(guī)模預(yù)計超1600億元,同比增長30%以上,其中場內(nèi)市場數(shù)據(jù)交易(含備案交易)規(guī)模預(yù)計超300億元,同比實現(xiàn)翻番。。新業(yè)態(tài):2025年,字節(jié)跳動給AI訓(xùn)練崗開出了月薪2萬~4萬元、15薪。衍生出“數(shù)據(jù)標注師”本章要點主要介紹數(shù)據(jù)爆發(fā)的原因、數(shù)據(jù)的模態(tài)與類型、非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化過程,重點介紹了數(shù)據(jù)爆發(fā)的原因、數(shù)據(jù)的類型、數(shù)據(jù)標注及非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化方式。辨析了數(shù)據(jù)金字塔、數(shù)據(jù)價值、數(shù)據(jù)價值的演進及商業(yè)價值的實現(xiàn)方式,討論了數(shù)據(jù)局限性、倫理問題及隱私保護,以期幫助讀者全面理解數(shù)據(jù)、數(shù)據(jù)價值及其重要性、局限性。0102主要內(nèi)容理解數(shù)據(jù)的本質(zhì)及其對企業(yè)的價值,能夠解釋從數(shù)據(jù)獲取價值的過程;理解數(shù)據(jù)商業(yè)價值的實現(xiàn)方式,能夠解釋特定案例中數(shù)據(jù)的具體價值;掌握常見的數(shù)據(jù)標注方法,能夠根據(jù)項目需求設(shè)計標注方案,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);能夠識別和解釋數(shù)據(jù)利用相關(guān)的倫理問題,熟悉相關(guān)法律法規(guī)及隱私保護的原則與方法。學(xué)習(xí)目標本章要點0403數(shù)據(jù)的形態(tài)。數(shù)據(jù)價值與數(shù)據(jù)金字塔。數(shù)據(jù)商業(yè)價值的具體體現(xiàn)。數(shù)據(jù)的局限性、倫理問題與隱私保護。本章重點本章難點在于數(shù)據(jù)標注與類型轉(zhuǎn)化,這涉及到如何將非結(jié)構(gòu)化數(shù)據(jù)通過標注轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以及理解不同數(shù)據(jù)類型之間的轉(zhuǎn)化方法和應(yīng)用場景。本章難點02PART無處不在的數(shù)據(jù)數(shù)據(jù)爆發(fā)的原因互聯(lián)網(wǎng)普及與社交媒體興起,如Facebook、X(原Twitter)、微信、微博等,不僅連接全球,更推動數(shù)據(jù)爆炸,重塑數(shù)據(jù)生態(tài)與社交格局?;ヂ?lián)網(wǎng)的普及和社交媒體的興起01科學(xué)研究,特別是實驗數(shù)據(jù),在粒子物理、生物醫(yī)學(xué)、天文學(xué)和地球科學(xué)等領(lǐng)域爆炸式增長,推動科研進步,帶來發(fā)展新機遇。

科學(xué)研究與實驗數(shù)據(jù)的爆炸性增長02電子商務(wù)平臺和企業(yè)內(nèi)部的ERP系統(tǒng)成為數(shù)據(jù)重要來源;CRM系統(tǒng)則聚焦客戶數(shù)據(jù)收集分析,助力企業(yè)精準營銷與優(yōu)化服務(wù)。企業(yè)與商業(yè)活動的數(shù)字化03數(shù)據(jù)爆發(fā)的原因政府作為最大的數(shù)據(jù)擁有主體,在推動數(shù)據(jù)透明度和利用效率方面發(fā)揮著關(guān)鍵作用。近年來,隨著數(shù)字化轉(zhuǎn)型的加速,政府數(shù)據(jù)開放在全球范圍內(nèi)愈發(fā)顯著。各國紛紛推出相關(guān)政策和平臺,以促進數(shù)據(jù)共享、增強公共服務(wù)質(zhì)量和激發(fā)社會創(chuàng)新。政府數(shù)據(jù)開放04數(shù)據(jù)的爆炸式增長,與存儲技術(shù)的不斷革新密不可分?;仡櫞鎯夹g(shù)的發(fā)展歷程,從早期的磁帶、軟盤,到后來的硬盤驅(qū)動器、固態(tài)硬盤,再到現(xiàn)如今的各類云存儲服務(wù),存儲技術(shù)的每一次革新,都帶來了存儲容量的顯著提升、存儲速度的極大加快和存儲成本的大大降低。存儲成本的降低05處理器技術(shù)的不斷進步,使得CPU的核心數(shù)不斷增加,主頻也在穩(wěn)步提高,顯著提升了計算機的處理能力與速度。圖形處理單元(GPU)最初被設(shè)計用于加速計算機圖形輸出,在高性能計算中的作用隨著時間的推移變得日益重要。數(shù)據(jù)處理能力的提升06按照特定格式組織,具有明確字段和數(shù)據(jù)類型,便于存儲在關(guān)系型數(shù)據(jù)庫中進行分析查詢,如ERP、CRM等系統(tǒng)中的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)未特定格式組織,無預(yù)定義字段和數(shù)據(jù)類型;如文本、圖像、音頻、視頻等;包含大量信息,需復(fù)雜處理方法提取價值。非結(jié)構(gòu)化數(shù)據(jù)不符合關(guān)系數(shù)據(jù)庫嚴格表格模型,但包含組織形式的數(shù)據(jù);如JSON和XML文件,通過鍵值對或標簽樹形結(jié)構(gòu)組織數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)的模態(tài)與類型01.數(shù)據(jù)類型數(shù)據(jù)的模態(tài)與類型02.數(shù)據(jù)類型轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)的不規(guī)則性和模糊性,不僅會使得傳統(tǒng)程序難以理解,還不利于數(shù)據(jù)模型構(gòu)建與數(shù)據(jù)價值釋放。將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)分析和建模的基礎(chǔ)性工作。最重要的數(shù)據(jù)轉(zhuǎn)換方式之一是數(shù)據(jù)標注。以圖片格式的數(shù)據(jù)為例,數(shù)據(jù)標注是把需要計算機識別和分辨的圖片事先打上標簽,然后讓計算機模仿人類學(xué)習(xí)過程中的經(jīng)驗學(xué)習(xí),不斷地識別圖片的特征并與標簽對應(yīng),最終實現(xiàn)計算機自主識別圖片的過程。人臉識別屬于數(shù)據(jù)標注的典型應(yīng)用場景之一數(shù)據(jù)的模態(tài)與類型02.數(shù)據(jù)類型轉(zhuǎn)換常見的數(shù)據(jù)標注有三種劃分方式。按照標注對象分類,可以分為圖像標注、語音標注和文本標注。按照標注的構(gòu)成形式分類,可以分為結(jié)構(gòu)化標注、非結(jié)構(gòu)化標注和半結(jié)構(gòu)化標注。按照標注者的身份分類,可以分為人工標注和機器標注。圖像標注:路上違章抓拍標注語音標注:導(dǎo)航軟件的合成語音文本標注:醫(yī)學(xué)應(yīng)用領(lǐng)域當中的應(yīng)用數(shù)據(jù)的模態(tài)與類型02.數(shù)據(jù)類型轉(zhuǎn)換區(qū)域標注與標框標注類似。但與標框標注相比,區(qū)域標注的要求更加精確,而且邊緣可以是柔性的。區(qū)域標注描點標注是指將需要標注的元素(如,人臉、肢體等)按照需求位置進行點位標識,從而實現(xiàn)對特定部位的關(guān)鍵點識別。描點標注標框標注是從圖像中選出要檢測的對象,此方法僅適用于圖像標注。標框標注還有很多個性化的數(shù)據(jù)標注任務(wù)。其他標注分類標注是從給定的標簽集中選擇合適的標簽分配給被標注的對象。分類標注按任務(wù)目標,常見的數(shù)據(jù)標注任務(wù)對行人進行標框標注03PART數(shù)據(jù)的價值數(shù)據(jù)金字塔數(shù)據(jù)就像金礦,蘊藏著巨大的價值。但要將這些價值挖掘出來,需要經(jīng)過一系列的加工和提煉。數(shù)據(jù)金字塔案例:利用數(shù)據(jù)金字塔總結(jié)復(fù)盤,成為一名小紅書博主。數(shù)據(jù)價值的演進數(shù)據(jù)分析幫助企業(yè)解決現(xiàn)存的問題,還能激發(fā)新的創(chuàng)新思路;通過深入挖掘,企業(yè)可以發(fā)現(xiàn)新的市場機會,開發(fā)出顛覆性的產(chǎn)品和服務(wù)。從洞察到創(chuàng)新05基于對未來的預(yù)測,人們可以做出更加明智的決策;數(shù)據(jù)分析能夠幫助企業(yè)了解過去,更能為企業(yè)未來發(fā)展或業(yè)務(wù)運營提供建議,從而進行提前決策與規(guī)劃等。從預(yù)測到?jīng)Q策03隨大數(shù)據(jù)技術(shù)興起,人們可處理海量數(shù)據(jù),運用機器學(xué)習(xí)算法挖掘模式,預(yù)測趨勢;如,電商平臺通過分析用戶的瀏覽和購買歷史,可以預(yù)測用戶的潛在需求。從分析到預(yù)測02在計算機技術(shù)普及之前,數(shù)據(jù)以紙質(zhì)或其他傳統(tǒng)方式存儲,其主要作用是記錄歷史事件;隨計算機技術(shù)發(fā)展,數(shù)據(jù)得以數(shù)字化存儲,能夠進行簡單的統(tǒng)計分析。從記錄到分析01數(shù)據(jù)驅(qū)動的決策不僅停留在預(yù)測層面,更重要的是將預(yù)測結(jié)果轉(zhuǎn)化為實際行動;企業(yè)可以將數(shù)據(jù)分析的結(jié)果與業(yè)務(wù)目標相結(jié)合,制定出切實可行的行動方案。從決策到行動04數(shù)據(jù)商業(yè)價值的實現(xiàn)方式1.數(shù)據(jù)的商業(yè)價值在海量用戶數(shù)據(jù)的支撐下,企業(yè)可以對市場開展更深入的洞察。通過對這些數(shù)據(jù)進行深度分析,企業(yè)能夠精準地描繪出目標客戶的畫像。基于此,企業(yè)可以量身定制營銷策略,將產(chǎn)品和服務(wù)以最恰當?shù)姆绞匠尸F(xiàn)給目標客戶,從而極大地提高銷售轉(zhuǎn)化率。01數(shù)據(jù)能夠提升企業(yè)收入數(shù)據(jù)商業(yè)價值的實現(xiàn)方式1.數(shù)據(jù)的商業(yè)價值海量數(shù)據(jù)分析助力企業(yè)優(yōu)化生產(chǎn)流程,提升效率,降低生產(chǎn)成本;福特汽車、京東通過工業(yè)物聯(lián)網(wǎng)、智能補貨系統(tǒng)實現(xiàn)生產(chǎn)優(yōu)化,降低成本,提升競爭力。02降低運營成本京東的物流大數(shù)據(jù)管理平臺數(shù)據(jù)商業(yè)價值的實現(xiàn)方式1.數(shù)據(jù)的商業(yè)價值市場數(shù)據(jù)分析助力企業(yè)規(guī)避風險,微眾銀行、中聯(lián)重科通過數(shù)據(jù)驅(qū)動的風險管理,實現(xiàn)精準風控和提前預(yù)警,確保業(yè)務(wù)穩(wěn)健發(fā)展,提升客戶滿意度。03規(guī)避風險案例:小米智能風控(1)數(shù)據(jù)產(chǎn)品將數(shù)據(jù)加工成具有商業(yè)價值的產(chǎn)品,是數(shù)據(jù)時代企業(yè)實現(xiàn)商業(yè)轉(zhuǎn)型的關(guān)鍵。通過將原始數(shù)據(jù)轉(zhuǎn)化為可理解、可操作的分析報告、模型、可視化產(chǎn)品等。(2)數(shù)據(jù)服務(wù)數(shù)據(jù)服務(wù)指的是通過專業(yè)的技術(shù)和方法,為客戶提供數(shù)據(jù)分析、數(shù)據(jù)咨詢等服務(wù),幫助客戶從海量數(shù)據(jù)中提取有價值的信息,通過項目制、訂閱制及平臺服務(wù)等方式,為企業(yè)創(chuàng)造新的收入來源。數(shù)據(jù)商業(yè)價值的實現(xiàn)方式2.數(shù)據(jù)貨幣化的路徑數(shù)據(jù)產(chǎn)品案例:市場調(diào)研報告數(shù)據(jù)服務(wù)案例:高校訂閱數(shù)據(jù)庫(3)數(shù)據(jù)交易數(shù)據(jù)交易是指將原始數(shù)據(jù)、加工數(shù)據(jù)或數(shù)據(jù)產(chǎn)品作為一種商品,在市場上進行買賣的行為。隨著數(shù)據(jù)成為新的生產(chǎn)要素,數(shù)據(jù)交易市場日益活躍。(4)數(shù)據(jù)增值數(shù)據(jù)增值是指通過將原始數(shù)據(jù)與其他數(shù)據(jù)、知識或技術(shù)相結(jié)合,創(chuàng)造出新的、更有價值的數(shù)據(jù)產(chǎn)品或服務(wù)的過程。數(shù)據(jù)增值的途徑包含數(shù)據(jù)融合、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)分析、數(shù)據(jù)可視化及機器學(xué)習(xí)等。數(shù)據(jù)商業(yè)價值的實現(xiàn)方式2.數(shù)據(jù)貨幣化的路徑04PART警惕“數(shù)據(jù)至上主義”真實性數(shù)據(jù)是現(xiàn)實世界的反映,但并非現(xiàn)實世界的全部,在收集和處理過程中可能存在偏差,影響數(shù)據(jù)真實性,需關(guān)注數(shù)據(jù)質(zhì)量以確保決策準確。不完整、不準確、不一致等是常見的數(shù)據(jù)質(zhì)量問題;低質(zhì)量的數(shù)據(jù)會導(dǎo)致錯誤決策,危及患者健康,影響企業(yè)利益,需確保數(shù)據(jù)質(zhì)量以保障決策準確。信息過載是大數(shù)據(jù)時代一個普遍且嚴峻的問題,數(shù)據(jù)過多可能干擾判斷,需利用數(shù)據(jù)清洗等技術(shù)提升信息處理能力,確保工作效率與決策質(zhì)量。數(shù)據(jù)價值會隨著時間的推移而衰減,企業(yè)需要建立一套完善的數(shù)據(jù)更新機制,確保數(shù)據(jù)的時效性,以保障決策的正確性和有效性。數(shù)據(jù)的準確性信息過載數(shù)據(jù)的時效性數(shù)據(jù)的局限性01020304數(shù)據(jù)利用的倫理問題數(shù)字鴻溝問題數(shù)據(jù)的獲取和利用存在著不平等,可能會造成數(shù)字鴻溝問題,加劇社會不平等,影響弱勢群體發(fā)展機會及社會整體進步。算法歧視問題算法歧視是大數(shù)據(jù)和AI發(fā)展帶來的問題,可能基于多種因素加劇社會不公平,影響求職者機會,損害社會公正與公平。案例:亞馬遜AI招聘工具性別歧視案背景:

亞馬遜曾開發(fā)了一款用于自動化簡歷篩選和初步面試評分的AI系統(tǒng)。然而,該系統(tǒng)在投入使用后被發(fā)現(xiàn)對女性求職者存在顯著的歧視。原因:

該系統(tǒng)的訓(xùn)練數(shù)據(jù)主要來源于過去幾年的招聘記錄,而亞馬遜過去的員工隊伍中男性占比較高。因此,系統(tǒng)在學(xué)習(xí)過程中強化了這種性別不平衡,導(dǎo)致對女性求職者的評分普遍較低。結(jié)果:

盡管亞馬遜試圖通過調(diào)整算法來消除這種歧視,但最終還是決定放棄該項目,因為無法完全保證其公平性。數(shù)據(jù)利用的倫理問題數(shù)據(jù)濫用現(xiàn)象日益嚴重數(shù)據(jù)濫用現(xiàn)象嚴重,如“大數(shù)據(jù)殺熟”和Facebook-CambridgeAnalytica數(shù)據(jù)泄露事件,嚴重侵犯了用戶個人隱私與正當權(quán)益。Facebook數(shù)據(jù)泄露事件數(shù)據(jù)利用的倫理問題網(wǎng)絡(luò)“公眾人物”操縱數(shù)據(jù)與流量網(wǎng)絡(luò)“水軍”和“大V擺拍”現(xiàn)象泛濫,操控公眾輿論,影響信息真實,嚴重威脅社會秩序,造成惡劣社會影響。數(shù)據(jù)存儲的安全威脅數(shù)據(jù)存儲還面臨著黑客攻擊、數(shù)據(jù)泄露等安全威脅,一旦數(shù)據(jù)泄露將造成巨大經(jīng)濟損失和負面社會影響。數(shù)據(jù)質(zhì)量管理清洗無效數(shù)據(jù),建立統(tǒng)一標準,驗證數(shù)據(jù)完整性和可靠性,確保數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)分析的準確性。個人隱私保護在收集個人信息時,堅持明示告知原則,最小化收集,確保用戶同意,保障數(shù)據(jù)主體權(quán)利,維護個人隱私。數(shù)據(jù)安全防護嚴格控制數(shù)據(jù)訪問權(quán)限,加密敏感數(shù)據(jù),定期備份,建立入侵檢測系統(tǒng),確保數(shù)據(jù)安全,防止未授權(quán)訪問。數(shù)據(jù)隱私與安全保護建立數(shù)據(jù)共享機制,脫敏處理數(shù)據(jù),確保公平共享,避免算法歧視,促進數(shù)據(jù)資源的有效利用。數(shù)據(jù)公平與共享我國已出臺多項法規(guī)規(guī)范數(shù)據(jù)處理,如《中華人民共和國數(shù)據(jù)安全法》自2021年9月1日起正式施行,保障數(shù)據(jù)安全,促進數(shù)據(jù)開發(fā)利用,標志數(shù)據(jù)安全法規(guī)體系不斷完善。2025年1月1日起施行的《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》,進一步細化了相關(guān)規(guī)定,完善了網(wǎng)絡(luò)數(shù)據(jù)安全規(guī)則,為提升網(wǎng)絡(luò)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論