數(shù)智化企業(yè)內(nèi)部控制與風(fēng)險管理-課件 第二章 大數(shù)據(jù)智能風(fēng)險管控流程認(rèn)知_第1頁
數(shù)智化企業(yè)內(nèi)部控制與風(fēng)險管理-課件 第二章 大數(shù)據(jù)智能風(fēng)險管控流程認(rèn)知_第2頁
數(shù)智化企業(yè)內(nèi)部控制與風(fēng)險管理-課件 第二章 大數(shù)據(jù)智能風(fēng)險管控流程認(rèn)知_第3頁
數(shù)智化企業(yè)內(nèi)部控制與風(fēng)險管理-課件 第二章 大數(shù)據(jù)智能風(fēng)險管控流程認(rèn)知_第4頁
數(shù)智化企業(yè)內(nèi)部控制與風(fēng)險管理-課件 第二章 大數(shù)據(jù)智能風(fēng)險管控流程認(rèn)知_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)智能風(fēng)控

實踐基礎(chǔ)主講人:PowerPointdesign20251.了解企業(yè)風(fēng)險管理的流程;2.熟悉風(fēng)險識別的方法;3.熟悉風(fēng)險識別的具體操作;4.熟悉企業(yè)風(fēng)險數(shù)據(jù)庫的格式;5.熟悉風(fēng)險概率和風(fēng)險影響評估的標(biāo)準(zhǔn);6.掌握風(fēng)險矩陣的繪制;7.掌握風(fēng)險應(yīng)對策略工具的概念和適用場景;8.熟悉風(fēng)險管控措施及適用場景。學(xué)習(xí)目標(biāo)學(xué)習(xí)導(dǎo)圖學(xué)習(xí)導(dǎo)圖大數(shù)據(jù)智能風(fēng)控流程風(fēng)險是不確定性對目標(biāo)的影響。在企業(yè)中,風(fēng)險是未來的不確定性對企業(yè)實現(xiàn)其經(jīng)營目標(biāo)的影響,以能否為企業(yè)帶來盈利等機會為標(biāo)志,將風(fēng)險分為純粹風(fēng)險(只有“帶來損失”一種可能性)和機會風(fēng)險(“帶來損失”和“盈利”的可能性并存)。在本實踐課程中,從風(fēng)險智能識別、構(gòu)建風(fēng)險評估模型、針對評估風(fēng)險制定相應(yīng)的應(yīng)對策略和管控措施,構(gòu)建風(fēng)險實時的預(yù)警監(jiān)控,最后形成風(fēng)險管控報告。實踐中,風(fēng)險管理是一個動態(tài)實時的過程。大數(shù)據(jù)智能風(fēng)險管理風(fēng)險智能識別風(fēng)險評估模型風(fēng)險智能應(yīng)對風(fēng)險預(yù)警監(jiān)控風(fēng)控報告大數(shù)據(jù)智能風(fēng)控流程風(fēng)險識別德爾菲法SWOT分析法圖解技術(shù)包括魚骨圖、流程圖等。通過魚骨圖輔助可以通過因果的分析識別風(fēng)險;通過流程圖識別各業(yè)務(wù)節(jié)點的風(fēng)險因素,及各要素之間如何相互聯(lián)系以及因果傳導(dǎo)機制。頭腦風(fēng)暴法由團(tuán)隊主持,各成員就項目的風(fēng)險進(jìn)行集思廣益,可以以風(fēng)險的類別作為基礎(chǔ)框架,查找企業(yè)的各業(yè)務(wù)單元、各項重要經(jīng)營活動及其重要業(yè)務(wù)流程中有無風(fēng)險、有哪些風(fēng)險。檢查表管理中用來記錄和整理數(shù)據(jù)的常用工具。用它進(jìn)行風(fēng)險識別時,將項目可能發(fā)生的許多潛在風(fēng)險列于一個表上,供識別人員進(jìn)行檢查核對,用來判別某項目是否在表中所列或類似的風(fēng)險。風(fēng)險識別的方法風(fēng)險是未來的不確定性對企業(yè)實現(xiàn)其經(jīng)營目標(biāo)的影響,可能來自企業(yè)內(nèi)部也能可來自企業(yè)外部。風(fēng)險識別風(fēng)險識別風(fēng)險管理基本流程的第一步,要廣泛地、持續(xù)不斷地收集與本企業(yè)風(fēng)險和風(fēng)險管理相關(guān)的內(nèi)外部初始信息,包括歷史數(shù)據(jù)和未來預(yù)測。信息收集及匯總進(jìn)行風(fēng)險識別內(nèi)部信息外部信息對收集的信息進(jìn)行整理分析,運用上述的風(fēng)險識別方法進(jìn)行風(fēng)險的識別,列明風(fēng)險形成的原因和可能的后果。明確業(yè)務(wù)目標(biāo)進(jìn)行風(fēng)險排查形成風(fēng)險清單風(fēng)險事項列表風(fēng)險識別風(fēng)險識別的成果風(fēng)險編號風(fēng)險名稱風(fēng)險描述風(fēng)險成因風(fēng)險后果ZJ01-001籌資時間風(fēng)險籌資不及時或過于提前籌資計劃時間不合理籌資時間不及時,可能造成短期的資金短缺;籌資時間過于提前,可能造成資金閑置時間較長,降低企業(yè)盈利能力籌資計劃未及時執(zhí)行或提前執(zhí)行資金使用提前或滯后風(fēng)險識別的成果風(fēng)險評估——風(fēng)險概率評估定量方法一評分12345定量方法二一定時期發(fā)生的概率10%以下10%-30%30%-70%70%-90%90%以上定性方法文字描述一極低低中等高極高文字描述二一般情況下不會發(fā)生極少情況下才發(fā)生某些情況下發(fā)生較多情況下發(fā)生常常會發(fā)生文字描述三今后10年內(nèi)發(fā)生的可能少于1次今后5-10年內(nèi)可能發(fā)生1次今后2-5年內(nèi)可能發(fā)生1次今后1年內(nèi)可能發(fā)生1次今后1年內(nèi)至少發(fā)生1次風(fēng)險評估——風(fēng)險影響評估評分12345定量方法企業(yè)財務(wù)損失占稅前利潤的百分比(%)1%以下1%-5%6%-10%11%-20%20%以上定性方法文字描述一極輕微的輕微的中等的重大的災(zāi)難性的文字描述二企業(yè)日常運行不受影響輕度影響中度影響嚴(yán)重影響重大影響企業(yè)聲譽負(fù)面消息在企業(yè)內(nèi)部流傳,企業(yè)聲譽沒有受損負(fù)面消息在當(dāng)?shù)鼐植苛鱾?,對企業(yè)聲譽造成輕微損害負(fù)面消息在某區(qū)域流傳,對企業(yè)聲譽造成中等損害負(fù)面消息在全國各地流傳,對企業(yè)聲譽造成重大損害負(fù)面消息流傳世界各地,政府或監(jiān)管機構(gòu)進(jìn)行調(diào)查,引起公眾關(guān)注,對企業(yè)聲譽造成無法彌補的損害風(fēng)險評估——風(fēng)險影響評估風(fēng)險矩陣風(fēng)險影響評分5432112345風(fēng)險概率評分高風(fēng)險:紅色區(qū)域的風(fēng)險事件影響程度很大,或發(fā)生概率很高,需要盡快加強對該類風(fēng)險的防控中風(fēng)險:黃色區(qū)域的風(fēng)險事件影響程度較大或發(fā)生概率較高,應(yīng)保持控制,防止其進(jìn)入紅色區(qū)域低風(fēng)險:綠色區(qū)域的風(fēng)險事件影響程度較小,且發(fā)生概率較低,綜合在可受承的范圍內(nèi),不必采取防控措施,隨時監(jiān)督即可風(fēng)險矩陣風(fēng)險管理策略工具工具影響程度可能性風(fēng)險轉(zhuǎn)移(分擔(dān))風(fēng)險降低(小心管理)風(fēng)險規(guī)避風(fēng)險承受大小高低風(fēng)險轉(zhuǎn)移(分擔(dān))風(fēng)險降低(小心管理)風(fēng)險管控措施控措施基于導(dǎo)致風(fēng)險的不同原因,按照業(yè)務(wù)活動發(fā)生的事前預(yù)防、事中控制、事后糾正這三個維度,總結(jié)出12種風(fēng)險管控方法,可用于針對各事項風(fēng)險制定具體防控措施。職責(zé)分工組織優(yōu)化授權(quán)審批預(yù)算控制抽查/測試追加活動規(guī)范/限制行為IT自動化預(yù)警機制反饋/分析績效/獎懲審計/核查事前預(yù)防事中控制事后糾正在業(yè)務(wù)活動開展前,通過建立明確的組織職責(zé)分工和權(quán)限,控制預(yù)算,建立預(yù)警機制,實現(xiàn)事前預(yù)防。在業(yè)務(wù)活動開展過程中,通過執(zhí)行授權(quán)審批等控制活動,并借助IT自動化手段,實現(xiàn)事中控制。在業(yè)務(wù)活動結(jié)束后,執(zhí)行各種檢查、反饋活動,輔以獎懲制度,實現(xiàn)事后糾正,并促進(jìn)未來風(fēng)險控制措施提升。風(fēng)險管控措施控制方法針對風(fēng)險管控方法描述管控方法舉例職責(zé)分工·未對不相容崗位進(jìn)行控制明確職責(zé)分工,在特定職務(wù)間設(shè)立相互分離的崗位進(jìn)行制衡資金的收付人員與記賬人員未分離;由一人經(jīng)辦一項業(yè)務(wù)的全過程·職責(zé)分工不明確·部門之間接口不清晰組織優(yōu)化·崗位編制與工作量不合理對組織結(jié)構(gòu)和崗位配置的調(diào)整和優(yōu)化,避免因組織人員配置原因造成的企業(yè)風(fēng)險優(yōu)化組織結(jié)構(gòu),將招標(biāo)管理、招標(biāo)操作和專家評審三項職能進(jìn)行分離,并建立招標(biāo)領(lǐng)導(dǎo)小組對其進(jìn)行統(tǒng)籌管理與監(jiān)控·組織機構(gòu)設(shè)置不兼容授權(quán)審批·缺乏對關(guān)鍵活動的權(quán)力制約明確各崗位處理業(yè)務(wù)和事項的權(quán)限范圍審批流程和相應(yīng)責(zé)任對于預(yù)算外采購項目,要嚴(yán)格審核需求部門提出的申請,明確審批重點·審批依據(jù)不明確預(yù)算控制·預(yù)算編制及分解不到位完善全面預(yù)算管理制度,明確責(zé)任單位在預(yù)算管理中的職責(zé)權(quán)限,在流程關(guān)鍵節(jié)點中引入預(yù)算參考或決策依據(jù)依據(jù)生產(chǎn)投資計劃及全面預(yù)算文件對下屬單位上報的需求計劃進(jìn)行審核·缺乏機遇預(yù)算的業(yè)務(wù)活動控制預(yù)警機制·缺乏對主要風(fēng)險因素的跟蹤通過在流程中嵌入自動風(fēng)險預(yù)警判斷點,并制定后續(xù)風(fēng)險預(yù)案的相關(guān)流程,在源頭處對風(fēng)險規(guī)避風(fēng)險按一定標(biāo)準(zhǔn)對用戶進(jìn)行信用評級,對信用不良的用戶采取重點監(jiān)控,包括采用預(yù)付款的方式提高欠費管控能力·缺乏風(fēng)險預(yù)警發(fā)生后的對應(yīng)措施抽查/測試·缺乏對批量活動的控制建立完善的抽查、測試機制,明確相關(guān)要求和標(biāo)準(zhǔn)通過穿行測試檢查內(nèi)部控制措施的有效性·缺乏抽查、測試的要求和方法風(fēng)險管控措施風(fēng)險管控措施控制方法針對風(fēng)險管控方法描述管控方法舉例IT自動化·手工操作引起的操作風(fēng)險通過建立完善的信息自動化機制,使用先進(jìn)的信息自動化工具,提高業(yè)務(wù)處理效率及準(zhǔn)確率優(yōu)化管理信息系統(tǒng),統(tǒng)一數(shù)據(jù)接口,保證訂單的接收、修改、生產(chǎn)、出庫等信息在生產(chǎn)、物流和銷售職能模塊中同步更新追加活動·缺乏對關(guān)鍵風(fēng)險的控制活動通過追加增值工作環(huán)節(jié),或新增額外流程,對風(fēng)險暴露進(jìn)行管控或制約在公司高層的領(lǐng)導(dǎo)下,組建針對地方政府與群眾的專業(yè)公關(guān)小組,負(fù)責(zé)投資項目相關(guān)的溝通與協(xié)調(diào)規(guī)范/限制行為·控制活動雖已存在,但缺乏規(guī)范通過完善現(xiàn)有要求、制度、機制、流程,制約風(fēng)險的發(fā)生對工程項目可行性研究報告的編制要求和內(nèi)容作出明確規(guī)定,確保項目決策科學(xué)、合理·執(zhí)行中隨意性大績效/獎懲·缺乏對流程執(zhí)行人關(guān)鍵管控活動效果的評價設(shè)置和完善績效考核指標(biāo),對責(zé)任單位、員工的業(yè)績及管控績效進(jìn)行客觀的評價將記賬準(zhǔn)確率納入財務(wù)人員績效考核,以監(jiān)督、激勵的方法提高賬務(wù)準(zhǔn)確率審計/核查·缺乏對重點業(yè)務(wù)的第三方監(jiān)控通過對業(yè)務(wù)運營的審計與核查,識別公司面臨的風(fēng)險,并及時提出改正并追究責(zé)任方審查項目結(jié)束后剩余物資的處理情況,包括再利用情況、出售情況,嚴(yán)格審查剩余物資的不規(guī)范處理行為分析/反饋·缺乏對主要業(yè)務(wù)活動結(jié)果的總結(jié)強調(diào)流程的閉合性,通過建立完善的分析以及反饋機制,明確信息反饋的具體內(nèi)容和接受環(huán)節(jié),將風(fēng)險及問題進(jìn)行及時反饋,避免其重復(fù)發(fā)生對問題頻發(fā)的設(shè)備進(jìn)行跟蹤記錄,相關(guān)供應(yīng)商歷史表現(xiàn)情況及時錄入供應(yīng)商數(shù)據(jù)庫,并作為供應(yīng)商招標(biāo)評審的重要依據(jù)·缺乏反饋機制風(fēng)險管控措施謝謝大家AiPP時間:202X.XPowerPointdesign2025

大數(shù)據(jù)采集主講人:PowerPointdesign2025大數(shù)據(jù)采集數(shù)據(jù)采集:指從真實世界中獲得原始數(shù)據(jù)的過程,即從數(shù)據(jù)源和其它待測設(shè)備等模擬和數(shù)字被測單元中自動采集信號或者數(shù)據(jù),送到目標(biāo)庫中進(jìn)行分析、處理。數(shù)據(jù)采集是大數(shù)據(jù)分析的入口,是進(jìn)行大數(shù)據(jù)分析的前提也是必要條件,所以是相當(dāng)重要的一個環(huán)節(jié)。大數(shù)據(jù)采集大數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,可用二維表結(jié)構(gòu)表示。類似XML、HTML之類,數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容混雜在一起。各種文檔、圖片、視頻、音頻等。大數(shù)據(jù)類型大數(shù)據(jù)類型互聯(lián)網(wǎng)數(shù)據(jù)商業(yè)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)來自于企業(yè)ERP系統(tǒng)、POS終端系統(tǒng)、網(wǎng)上支付系統(tǒng)的數(shù)據(jù),是現(xiàn)在最主要的數(shù)據(jù)來源渠道指網(wǎng)絡(luò)空間交互過程中產(chǎn)生的大量數(shù)據(jù),包括通信記錄及微信、微博等社交媒體和百度、谷歌等搜索引擎產(chǎn)生的數(shù)據(jù)在計算機互聯(lián)網(wǎng)的基礎(chǔ)上,利用射頻識別、紅外感應(yīng)器、傳感器、無線數(shù)據(jù)通信等技術(shù),構(gòu)造覆蓋世界上萬事萬物的互聯(lián)網(wǎng)絡(luò)大數(shù)據(jù)類型數(shù)據(jù)庫采集企業(yè)通過在采集端部署大量數(shù)據(jù)庫,并在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片,來完成大數(shù)據(jù)采集工作。網(wǎng)絡(luò)數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。感知設(shè)備數(shù)據(jù)采集感知設(shè)備數(shù)據(jù)采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。系統(tǒng)日志采集系統(tǒng)日志采集主要是手機公司業(yè)務(wù)平臺日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線的大數(shù)據(jù)分析系統(tǒng)使用。常用大數(shù)據(jù)采集方法任務(wù)一上市公司財報采集任務(wù)一任務(wù)描述企業(yè)的三大報表包括資產(chǎn)負(fù)債表、利潤表、現(xiàn)金流量表,從多個角度體現(xiàn)了企業(yè)的運營情況。金蝶大數(shù)據(jù)處理平臺內(nèi)置了用于采集上交所和東方財富網(wǎng)上的企業(yè)的三大報表數(shù)據(jù)的python代碼,針對沒有python編程能力的人根據(jù)具體的采集需求靈活設(shè)置參數(shù),以采集三大報表數(shù)據(jù)。任務(wù)描述任務(wù)要求從東方財富網(wǎng)站中爬取“三一重工”集團(tuán)2019和2020年兩年的資產(chǎn)負(fù)債表數(shù)據(jù)做對比。任務(wù)需求任務(wù)實施查詢獲取“三一重工”集團(tuán)的完整股票代碼為SH600031(股票代碼前的字母指該股票上市地點的股票交易所的地名縮寫)。登錄大數(shù)據(jù)處理平臺,選擇“大數(shù)據(jù)采集”下的“企業(yè)財務(wù)報表”,根據(jù)任務(wù)要求,選擇數(shù)據(jù)源為“東方財富”,點擊【參數(shù)】,打開參數(shù)設(shè)置項目,根據(jù)任務(wù)要求進(jìn)行設(shè)置。任務(wù)實施任務(wù)實施參數(shù)設(shè)置完成后,點擊【運行】抓取數(shù)據(jù)。運行結(jié)束后,點擊【數(shù)據(jù)結(jié)果】,打開抓取的數(shù)據(jù)展示窗口。點擊【下載】,可將采集到的數(shù)據(jù)下載到excel表格中。任務(wù)實施作業(yè)及思考選擇感興趣的任一企業(yè),在金蝶大數(shù)據(jù)處理平臺從東方財富網(wǎng)站中爬取2019和2020年兩年的利潤表數(shù)據(jù)做對比。作業(yè)及思考謝謝大家AiPP時間:202X.XPowerPointdesign2025

大數(shù)據(jù)采集——

電商平臺評論采集主講人:PowerPointdesign2025任務(wù)二電商平臺評論采集任務(wù)二電商平臺評論采集隨著互聯(lián)網(wǎng)與電子商務(wù)技術(shù)的快速發(fā)展,人們對網(wǎng)絡(luò)購物的需求越來越大,隨之產(chǎn)生的數(shù)據(jù)也在呈指數(shù)式地增長。電子商務(wù)與傳統(tǒng)的商務(wù)活動不同,人們在電商平臺購買產(chǎn)品后,會對產(chǎn)品的質(zhì)量、價格、外觀、使用體驗等方面發(fā)表自己的觀點,各種觀點充斥在電商平臺上,形成了海量的評論數(shù)據(jù)信息。在數(shù)以億計的評論數(shù)據(jù)中獲得有價值的信息,無異于大海撈針。因此,需要通過技術(shù)手段來采集評論數(shù)據(jù),從而挖掘以獲取其中包含的有用信息。電商平臺評論采集采集電商平臺評論,通過分析處理,挖掘出其中蘊含的有用信息并反饋給用戶、電商平臺及商家。對用戶來說,可以對產(chǎn)品評價觀點形成較全面的、客觀的了解,避免被部分評價觀點所誤導(dǎo),造成對產(chǎn)品的錯誤認(rèn)知和判斷,提高用戶網(wǎng)購的滿意度。對電商平臺來說,可以通過信息了解用戶需求,及時修正平臺設(shè)計上的不足,優(yōu)化用戶體驗,提升自身的市場占有率和競爭力。對商家來說,能夠及時了解和改進(jìn)產(chǎn)品本身、銷售策略和服務(wù)上的不足,減少負(fù)面評論對品牌和產(chǎn)品銷售的影響,提高商家的收益。

本次任務(wù)將通過大數(shù)據(jù)處理平臺,采集需要的電商平臺產(chǎn)品的歷史評價數(shù)據(jù)。電商平臺評論采集任務(wù)要求獲取唯品會上2020款10.2英寸大小、有殼膜套餐、WLAN版的iPad平板電腦的全部歷史評價數(shù)據(jù),最新的評論排在最前面。任務(wù)需求登錄大數(shù)據(jù)處理平臺,選擇“大數(shù)據(jù)采集”下的“電商平臺評論數(shù)據(jù)”,打開電商平臺評論數(shù)據(jù)采集頁面。根據(jù)任務(wù)要求,選擇數(shù)據(jù)源為“唯品會”,點擊【參數(shù)】,打開參數(shù)設(shè)置項目,根據(jù)任務(wù)要求進(jìn)行設(shè)置。任務(wù)實施任務(wù)實施參數(shù)設(shè)置完成后,點擊【運行】,開始數(shù)據(jù)采集。運行結(jié)束后,點擊【數(shù)據(jù)結(jié)果】,打開抓取的數(shù)據(jù)展示窗口。點擊【下載】,可將采集到的數(shù)據(jù)下載到excel表格中。任務(wù)實施任務(wù)實施可以手動調(diào)整代碼區(qū)的代碼,以滿足不同的數(shù)據(jù)采集要求。示例:只想采集“用戶名稱”、“評價內(nèi)容”和“發(fā)表時間”的話,可以在代碼區(qū)最后一行加上對應(yīng)代碼。代碼:_kd_spider_result=_kd_spider_result.loc[:,['用戶名稱','評論內(nèi)容','發(fā)表時間']]說明:如果運行報錯,可以點擊【輸出控制臺】,查看報錯的原因。任務(wù)實施獲取唯品會上其他感興趣的任一商品的全部歷史評價數(shù)據(jù),最熱的評論排在最前面。作業(yè)及思考謝謝大家AiPP時間:202X.XPowerPointdesign2025

大數(shù)據(jù)采集主講人:2025任務(wù)1.3電商產(chǎn)品列表數(shù)據(jù)電商產(chǎn)品列表數(shù)據(jù)電子商務(wù)飛速發(fā)展,各個電商平臺中的各類型商品數(shù)據(jù)可以用“海量”來形容。如果單憑人工的方式去收集電商平臺中商品數(shù)據(jù)信息,工作量是巨大的。金蝶大數(shù)據(jù)處理平臺內(nèi)置了用于采集唯品會中的電商產(chǎn)品列表數(shù)據(jù)的python代碼,針對沒有python編程能力的人根據(jù)具體的采集需求靈活設(shè)置參數(shù),以采集電商產(chǎn)品列表數(shù)據(jù)。任務(wù)要求獲取唯品會上關(guān)鍵字為“手機”的電商產(chǎn)品列表數(shù)據(jù),按價格進(jìn)行排序。任務(wù)實現(xiàn)(1)登錄大數(shù)據(jù)處理平臺,選擇“大數(shù)據(jù)采集”下的“電商產(chǎn)品列表數(shù)據(jù)”,打開電商產(chǎn)品列表數(shù)據(jù)采集頁面。根據(jù)任務(wù)要求,選擇數(shù)據(jù)源為“唯品會”,點擊【參數(shù)】,打開參數(shù)設(shè)置項目,根據(jù)任務(wù)要求進(jìn)行設(shè)置。任務(wù)實現(xiàn)(2)參數(shù)設(shè)置完成后,點擊【運行】,開始數(shù)據(jù)采集。運行結(jié)束后,點擊【數(shù)據(jù)結(jié)果】,打開抓取的數(shù)據(jù)展示窗口。點擊【下載】,可將采集到的數(shù)據(jù)下載到excel表格中。謝謝大家AiPP時間:202X.XPowerPointdesign2025

大數(shù)據(jù)處理主講人:PowerPointdesign2025任務(wù)2.1數(shù)據(jù)清洗數(shù)據(jù)清洗通過填補遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致的數(shù)據(jù),去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)挖掘的精度和性能。數(shù)據(jù)清洗-去除多余數(shù)據(jù)從數(shù)據(jù)集中刪除不需要的數(shù)據(jù),包括重復(fù)數(shù)據(jù)和與分析內(nèi)容不相關(guān)的數(shù)據(jù)。一般情況下,我們會盡可能多的收集數(shù)據(jù),但不是所有的字段數(shù)據(jù)都能應(yīng)用到模型構(gòu)建過程中,也不是將所有的字段屬性都放到構(gòu)建模型中,最終模型的效果就一定好。實際上,字段屬性越多,模型的構(gòu)建就會越慢,多余數(shù)據(jù)也會干擾模型構(gòu)建的準(zhǔn)確性,所以需要將多余的字段進(jìn)行刪除操作。在進(jìn)行該過程的時候,要注意備份原始數(shù)據(jù)。數(shù)據(jù)清洗-邏輯錯誤清洗通過簡單的邏輯推理發(fā)現(xiàn)數(shù)據(jù)中的問題數(shù)據(jù),防止分析結(jié)果走偏。主要包含以下幾個步驟:數(shù)據(jù)去重去除/替換不合理的值去除/重構(gòu)不可靠的字段值(修改矛盾的內(nèi)容)數(shù)據(jù)清洗-空缺值的處理忽略該記錄去掉對應(yīng)屬性手工填寫空缺值使用默認(rèn)值使用屬性平均值使用同類樣本平均值預(yù)測最可能的值空缺值通過推斷補全任務(wù)描述數(shù)據(jù)清洗的結(jié)果是對有著重復(fù)、錯誤或殘缺等問題的數(shù)據(jù)進(jìn)行對應(yīng)方式的處理,得到標(biāo)準(zhǔn)的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘等使用。大數(shù)據(jù)處理平臺對上傳的excel表格的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,可以實現(xiàn)數(shù)據(jù)全局清洗和局部清洗。具體功能包括數(shù)據(jù)去重、列刪除、字符替換等。任務(wù)要求對采集到的電商平臺評價數(shù)據(jù)進(jìn)行清洗,要求同一個用戶的評價只保留一條,刪除用戶頭像信息,將用戶評價中的用戶名稱改成匿名用戶,匿名的VIP會員改成匿名vip用戶。任務(wù)實施

(1)登錄大數(shù)據(jù)處理平臺,選擇“大數(shù)據(jù)處理”下的“數(shù)據(jù)清洗”,打開數(shù)據(jù)清洗頁面。點擊【上傳文件】,將任務(wù)一采集的唯品會的評論數(shù)據(jù)文件上傳到平臺中。選擇數(shù)據(jù)源為之前上傳的數(shù)據(jù)源,數(shù)據(jù)顯示選擇“顯示50行”。任務(wù)實施(2)在數(shù)據(jù)清洗規(guī)則頁面點擊【添加規(guī)則】,按任務(wù)要求配置清洗規(guī)則。配置完成后點擊【執(zhí)行清洗】,可看見清洗執(zhí)行結(jié)果。任務(wù)實施(3)執(zhí)行完成后,可以通過頁面下方“數(shù)據(jù)預(yù)覽”查看清洗后數(shù)據(jù)。可以單擊“數(shù)據(jù)預(yù)覽”下的【下載】,將執(zhí)行清洗后的數(shù)據(jù)下載到excel表格中保存。作業(yè)及思考1、在以上任務(wù)的基礎(chǔ)上,刪除字段“商品價格”、“商品編號”、“評論標(biāo)簽”和“#”,并將商品名稱統(tǒng)一改成“2020款iPad”。2、刪除“匿名vip用戶”的評論數(shù)據(jù)。作業(yè)及思考-參考答案

1、在“大數(shù)據(jù)處理”下的“數(shù)據(jù)清洗”頁面中,將子任務(wù)一中下載的文件上傳。配置圖示清洗規(guī)則,配置完成后,點擊【執(zhí)行清洗】。作業(yè)及思考-參考答案

2、點擊【添加規(guī)則】,選擇“局部清洗”并選擇“行刪除”。單擊規(guī)則右側(cè)的“加號”,勾選字段“用戶名稱”,并單擊右上角【選擇】。在后方輸入“匿名vip用戶”,點擊【執(zhí)行清洗】,即可刪除用戶名稱為匿名vip用戶的行。謝謝大家AiPP時間:202X.XPowerPointdesign2025

大數(shù)據(jù)挖掘主講人:PowerPointdesign2025任務(wù)3.1文本處理詞云大數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。為什么需要數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?數(shù)據(jù)存儲成本越來越低,存在海量的原始數(shù)據(jù)數(shù)據(jù)維度大,難以理解數(shù)據(jù)豐富但知識缺乏,需要有效技術(shù)從原始數(shù)據(jù)中抽取知識大數(shù)據(jù)挖掘數(shù)據(jù)挖掘能做什么?分類(Classification)估值(Estimation)預(yù)測(Prediction)相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)聚類(Clustering)描述和可視化(DescriptionandVisualization)復(fù)雜數(shù)據(jù)類型挖掘數(shù)據(jù)挖掘分析方法(1)分類

首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘技術(shù),建立一個分類模型,再將該模型用于對沒有分類的數(shù)據(jù)進(jìn)行分類。(2)估值估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。估值可以作為分類的準(zhǔn)備工作。(3)預(yù)測

預(yù)測是通過分類或估值來進(jìn)行,通過訓(xùn)練得出一個模型,如果對于檢驗樣本組而言該模型具有較高的準(zhǔn)確率,可將該模型用于對新樣本的未知變量進(jìn)行預(yù)測。數(shù)據(jù)挖掘分析方法(4)相關(guān)性分組或關(guān)聯(lián)規(guī)則發(fā)現(xiàn)不同項之間的聯(lián)系,其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。(5)聚類

聚類是自動尋找并建立分組規(guī)則的方法,它通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。聚類和分類的區(qū)別是聚類不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。(6)描述和可視化

是對數(shù)據(jù)挖掘結(jié)果的表示方式。(7)復(fù)雜數(shù)據(jù)類型挖掘

處理文本、Web、

圖形圖像、視頻、音頻等。文本處理——詞云詞云:對文本中詞頻較高的分詞,給予視覺上的突出,形成“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使瀏覽者一眼掃過就可以領(lǐng)略文本的主旨。本任務(wù)將具體展示復(fù)雜數(shù)據(jù)類型挖掘中的文本處理詞云。任務(wù)描述

詞云圖是一種用來展現(xiàn)高頻關(guān)鍵詞的可視化表達(dá),通過文字、色彩、圖形的搭配,產(chǎn)生有沖擊力地視覺效果,而且能夠傳達(dá)有價值的信息。利用這一優(yōu)點,可以將詞云圖運用于電子商務(wù)平臺中。例如采集電商平臺某商品的評論數(shù)據(jù),在經(jīng)過一系列數(shù)據(jù)處理后,繪制出的詞云圖能方便瀏覽者了解大眾對這一商品的主要評價詞。任務(wù)要求

對電商平臺評論數(shù)據(jù)進(jìn)行處理,只保留“評論內(nèi)容”列,繪制出電商平臺評論的詞云圖,并對詞云圖中包含的信息進(jìn)行簡單闡述。任務(wù)實施

(1)登錄大數(shù)據(jù)處理平臺,選擇“大數(shù)據(jù)處理”下的“數(shù)據(jù)清洗”。打開數(shù)據(jù)清洗頁面,點擊【上傳文件】,將“電商平臺評論數(shù)據(jù)-唯品會-數(shù)據(jù)”文件上傳到平臺中。選擇數(shù)據(jù)源為之前上傳的數(shù)據(jù)源,數(shù)據(jù)顯示選擇“顯示50行”。任務(wù)實施

(2)在數(shù)據(jù)清洗規(guī)則頁面點擊【添加規(guī)則】,要求只保留評論數(shù)據(jù),因此選擇“局部清洗”,選擇“列刪除”,單擊規(guī)則右側(cè)的“加號”,選擇除“評論內(nèi)容”外所有的字段。任務(wù)實施(3)配置完成后點擊【執(zhí)行清洗】,可以通過頁面下方“數(shù)據(jù)預(yù)覽”查看清洗后數(shù)據(jù),單擊“數(shù)據(jù)預(yù)覽”下的【下載】,將執(zhí)行清洗后的數(shù)據(jù)下載到excel表格中保存。

任務(wù)實施(4)選擇“大數(shù)據(jù)挖掘”下的“文本處理”,點擊【詞云】。打開詞云界面,點擊【導(dǎo)入數(shù)據(jù)】,導(dǎo)入剛剛下載的清洗后的電商平臺評論數(shù)據(jù)。然后點擊【繪制詞云】,下方生成詞云圖。任務(wù)實施

(5)通過形成的詞云圖可以看出,購買者對該商品的評價關(guān)鍵詞最主要的有“不錯”、“支持”、“正品”、“流暢”等,評價十分正面,說明多數(shù)購買者對該商品的滿意度都比較高。還有一些關(guān)鍵詞,如“孩子”、“學(xué)習(xí)”等則包含著該產(chǎn)品主要客戶群體的特征信息。作業(yè)及思考采集唯品會上任一商品的評論數(shù)據(jù),在金蝶大數(shù)據(jù)平臺中繪制詞云圖,并對詞云圖中包含的信息進(jìn)行分析闡述。作業(yè)及思考-參考答案以任務(wù)一的子任務(wù)二中作業(yè)及思考采集到的唯品會小米體脂秤評論數(shù)據(jù)為例。將下載的文件重命名為“電商平臺評論數(shù)據(jù)-唯品會-小米體脂稱數(shù)據(jù)”,上傳文件,進(jìn)行數(shù)據(jù)清洗只保留“評論內(nèi)容”字段下載excel文件。打開詞云界面,點擊【導(dǎo)入數(shù)據(jù)】,導(dǎo)入剛剛下載的清洗后的數(shù)據(jù)。點擊【繪制詞云】。生成詞云圖:作業(yè)及思考-參考答案

對詞云圖中包含的信息進(jìn)行分析闡述:通過形成的詞云圖可以看出,購買者對該商品的評價關(guān)鍵詞最主要的有“不錯”、“喜歡”、“好用”、“美觀”等,評價十分正面,說明多數(shù)購買者對該商品的滿意度都比較高。另有關(guān)鍵詞“體重”、“測量”、“精準(zhǔn)”等則說明該商品的主要用途及主要功能上的優(yōu)點。謝謝大家AiPP時間:202X.XPowerPointdesign2025

大數(shù)據(jù)挖掘主講人:PowerPointdesign2025任務(wù)3.2線性回歸回歸的起源

回歸(Regression)最初來源于生物學(xué),英國生物學(xué)家F.Galton在研究身高的遺傳問題時,發(fā)現(xiàn)父輩身高與子輩身高之間存在一定的關(guān)系。即:就身高的平均意義而言,父輩的身高和子輩的身高之間存在著某種關(guān)系。后來,“回歸”一詞用來泛指變量之間的回歸關(guān)系及回歸分析方法,即根據(jù)解釋變量的變化來估計或預(yù)測被解釋變量的平均變化狀態(tài)?;貧w分析對于比較簡單的變量之間的關(guān)系,有時侯可以憑著過去的經(jīng)驗與直覺來判斷,但是對于比較復(fù)雜或需要精確結(jié)果的,就需要依賴客現(xiàn)的統(tǒng)計方法來了解它們之間的關(guān)系了。統(tǒng)計學(xué)研究這些關(guān)系的方法除了方差分析之外,還有回歸分析、相關(guān)分析等。

回歸分析主要在了解自變量與因變量間的數(shù)量關(guān)系。主要目的:了解自變量與因變量關(guān)系方向及強度;以自變量所建立模式對因變量作預(yù)測。

線性回歸——最簡單的有監(jiān)督學(xué)習(xí)一元線性回歸1020002040TargetyFeature

x

一元線性回歸模型只包含一個解釋變量(自變量)和一個被解釋(因變量),是最簡單的線性回歸模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論