版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第一章商業(yè)分析概述全套可編輯PPT課件第1章商業(yè)分析概論.pptx第2章商業(yè)分析的數(shù)據(jù)環(huán)境.pptx第3章商業(yè)分析的應(yīng)用環(huán)境.pptx第4章商業(yè)分析的技術(shù)環(huán)境.pptx第5章商業(yè)分析的組織環(huán)境.pptx第6章通信業(yè)及其商業(yè)分析應(yīng)用.pptx第7章商業(yè)分析在通信行業(yè)客戶生命周期管理的應(yīng)用.pptx第8章商業(yè)分析在通信行業(yè)市場營銷中的應(yīng)用.pptx第9章商業(yè)分析在通信行業(yè)客戶服務(wù)中的應(yīng)用.pptx第10章通信業(yè)商業(yè)分析應(yīng)用的發(fā)展趨勢.pptx第11章銀行行業(yè)概況及環(huán)境.pptx第12章商業(yè)分析在銀行業(yè)客戶營銷中的應(yīng)用.pptx第13章商業(yè)分析在銀行業(yè)風(fēng)險管理中的應(yīng)用.pptx第14章銀行業(yè)商業(yè)分析應(yīng)用的發(fā)展趨勢.pptx第15章商業(yè)分析在航空業(yè)中的應(yīng)用.pptx第16章商業(yè)分析在制造業(yè)中的應(yīng)用.pptx第17章商業(yè)分析在物流快遞行業(yè)的應(yīng)用.pptx第18章商業(yè)分析在互聯(lián)網(wǎng)行業(yè)的應(yīng)用.pptx商業(yè)分析起源商業(yè)分析定義商業(yè)分析發(fā)展及趨勢企業(yè)商業(yè)分析環(huán)境01起源商業(yè)分析起源管理信息系統(tǒng)的概念產(chǎn)生MIS的應(yīng)用讓IT團(tuán)隊以報告和圖表的形式為組織機(jī)構(gòu)提供分析業(yè)務(wù)企業(yè)的科學(xué)管理時代商業(yè)分析師受雇起到協(xié)助經(jīng)理人的作用以分析報告的形式為企業(yè)提供服務(wù)四大重要技術(shù)趨勢之一97%收入超過10億美元的大公司都在運(yùn)用不同類型的商業(yè)分析大量人才缺口大數(shù)據(jù)人才和高級分析專家的人才缺口將高達(dá)19萬,預(yù)計美國企業(yè)對能夠運(yùn)用大數(shù)據(jù)分析結(jié)果的大數(shù)據(jù)相關(guān)管理人才需求將達(dá)到150萬。商業(yè)分析演進(jìn)過程ChenHsinchun等人提出了商業(yè)分析從1.0至3.0的演進(jìn)過程影響企業(yè)的外部因素市場因素:包含激烈的競爭環(huán)境、市場全球化、電子商務(wù)的新興、以及營銷手段的革新等趨勢,需要在商業(yè)分析過程中得到重視。顧客因素:用戶創(chuàng)造內(nèi)容(UGC)使得顧客變得更具有影響力,同時選擇增加的顧客往往會具有缺乏忠誠度的特點,會對產(chǎn)品有更高的質(zhì)量或功能要求,并具有產(chǎn)品個性化偏好,導(dǎo)致部分傳統(tǒng)商業(yè)分析理念的失效。技術(shù)因素:互聯(lián)網(wǎng)的發(fā)展催生出關(guān)聯(lián)新產(chǎn)品和新服務(wù),生產(chǎn)出更多的商業(yè)分析原始資料,同時數(shù)據(jù)處理技術(shù)的發(fā)展,也使得這些大數(shù)據(jù)可以在商業(yè)分析領(lǐng)域得到運(yùn)用,推動社交網(wǎng)絡(luò)及Web3.0等發(fā)展趨勢。社會因素:包括政府管制、勞動力多樣化、人口老齡化、可持續(xù)發(fā)展等影響因素,將改變商業(yè)分析的具體建設(shè)路徑。02定義什么是商業(yè)分析商業(yè)分析(BusinessAnalytics,簡稱BA)是指通過定性與定量的方法,明確需求與問題并提供相應(yīng)的解決方案,來為利益相關(guān)者提供價值,從而在組織環(huán)境中實現(xiàn)變革的做法,是為了評估歷史績效、驅(qū)動未來規(guī)劃,而進(jìn)行的持續(xù)性的探索和調(diào)研的技術(shù),經(jīng)驗和實踐的總和。傳統(tǒng)的商業(yè)分析以統(tǒng)計學(xué)與概率論的方法為基礎(chǔ),來解決傳統(tǒng)企業(yè)運(yùn)營中所遇到的分析、預(yù)測或決策問題,如反映市場對企業(yè)產(chǎn)品的需求情況、資源成本、市場條件和整體經(jīng)濟(jì)運(yùn)行情況。現(xiàn)代商業(yè)分析廣泛地吸收了數(shù)據(jù)庫、數(shù)據(jù)倉庫、內(nèi)容管理、人工智能等信息技術(shù),在配套軟件系統(tǒng)的支持下,商業(yè)分析活動更緊密地與數(shù)據(jù)結(jié)合,商業(yè)分析模式也得以固化下來,持續(xù)有效地為企業(yè)創(chuàng)造價值。商業(yè)分析的基本實施流程1.明確商業(yè)分析和優(yōu)化的對象2.根據(jù)對象選定合適的方法和模型3.確定相應(yīng)的商業(yè)數(shù)據(jù)指標(biāo)和數(shù)據(jù)的計量尺度包括客戶、產(chǎn)品和服務(wù)、競爭對手、運(yùn)營流程、財務(wù)狀況等。如通過定性分析來確定導(dǎo)致業(yè)務(wù)異常的原因;通過數(shù)據(jù)挖掘來發(fā)現(xiàn)業(yè)務(wù)變量之間的潛在聯(lián)系;通過A/B測試來取舍決策;通過預(yù)測模型來推測未來趨勢等。商業(yè)數(shù)據(jù)指標(biāo)既要能夠匹配所選擇的方法,又要能夠達(dá)成商業(yè)分析的目標(biāo);在符合分析場景的同時,這些數(shù)據(jù)的可得性、獲取成本以及處理難度也需要一并考慮在內(nèi)。數(shù)據(jù)的計量尺度包括定類尺度、定序尺度、定距尺度、定比尺度等。商業(yè)智能與商業(yè)分析商業(yè)智能(BusinessIntelligence,簡稱BI)是支持信息訪問和分析以改進(jìn)與優(yōu)化企業(yè)的決策和績效的應(yīng)用程序、基礎(chǔ)架構(gòu)、工具和最佳實踐的總稱,由數(shù)據(jù)倉庫或數(shù)據(jù)集市、查詢報表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份等部分組成二者區(qū)別:歷史淵源不同。商業(yè)分析形成于泰勒科學(xué)管理時代,而商業(yè)智能的概念則是在計算機(jī)商用、數(shù)據(jù)驅(qū)動下發(fā)展的。運(yùn)用重點不同。商業(yè)分析重在信息應(yīng)用,商業(yè)智能重在數(shù)據(jù)分析。運(yùn)用階段不同。商業(yè)分析的運(yùn)用分布于整個管理流程,商業(yè)智能往往關(guān)注歷史數(shù)據(jù)。受益者不同。商業(yè)分析使用者包括了戰(zhàn)略層人員,而商業(yè)智能主要在運(yùn)營層運(yùn)用。03發(fā)展及趨勢數(shù)據(jù)產(chǎn)生源頭從單純可獲取的結(jié)構(gòu)化數(shù)據(jù)變?yōu)楦鞣N跨界數(shù)據(jù),如人與人之間的社交網(wǎng)絡(luò)數(shù)據(jù)、人與物之間的人機(jī)交互數(shù)據(jù)、物與物之間的傳感器及機(jī)器數(shù)據(jù)等數(shù)據(jù)存儲形式分為關(guān)系數(shù)據(jù)庫為代表的結(jié)構(gòu)化數(shù)據(jù)、HTML文檔為代表的半結(jié)構(gòu)化數(shù)據(jù)、多媒體文件為代表的非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)形態(tài)分為靜態(tài)海量數(shù)據(jù)和動態(tài)海量數(shù)據(jù),如網(wǎng)絡(luò)點擊流、日志和實時行情等數(shù)據(jù)獲取頻度從原本的延時獲取變?yōu)閷崟r獲取商業(yè)分析發(fā)展及趨勢影響數(shù)據(jù)的四個維度商業(yè)分析發(fā)展及趨勢商業(yè)分析的應(yīng)用通過細(xì)分客戶、洞察需求等手段,能夠預(yù)測用戶偏好來挖掘潛在顧客,對掌握大量用戶行為和用戶信息的互聯(lián)網(wǎng)企業(yè)來說,尤其是電子商務(wù)領(lǐng)域,具有很大的價值,如京東構(gòu)造用戶畫像為用戶推薦個性化的商品。對有著龐大運(yùn)營體系的傳統(tǒng)大型企業(yè)而言,可以利用商業(yè)分析縱向整合供應(yīng)鏈,并橫向聯(lián)合不同渠道,將大大提升運(yùn)營效率。用戶創(chuàng)造內(nèi)容(UGC)是大數(shù)據(jù)時代的關(guān)注重點,由此,如路徑分析、社交媒體分析、位置分析、社交網(wǎng)絡(luò)分析和文本分析等新興方法在商業(yè)分析領(lǐng)域得到運(yùn)用。例如,路徑分析和位置分析可以借助實時數(shù)據(jù)的采集從而獲得用戶出行數(shù)據(jù)、停留位置等信息;文本挖掘分析則從海量用戶數(shù)據(jù)中提取特征和識別規(guī)律,包括文本分類、文本摘要、情感分析等。技術(shù)趨勢主要體現(xiàn)在五個方面:數(shù)據(jù)量大、處理速度快、技術(shù)成本下降、移動設(shè)備普及和社交媒體的加入。大數(shù)據(jù)不僅僅體量大,同時多源異構(gòu),包括網(wǎng)絡(luò)爬蟲數(shù)據(jù)、社交媒體數(shù)據(jù)、服務(wù)器日志、傳感器數(shù)據(jù)、多媒體數(shù)據(jù)等等,使得傳統(tǒng)數(shù)據(jù)處理方法無法應(yīng)對。04企業(yè)商業(yè)分析環(huán)境企業(yè)商業(yè)分析環(huán)境商業(yè)分析環(huán)境模型數(shù)據(jù)環(huán)境應(yīng)用環(huán)境技術(shù)環(huán)境組織環(huán)境數(shù)據(jù)環(huán)境數(shù)據(jù)環(huán)境是提供商業(yè)分析的原材料,隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)環(huán)境正在變得越來越龐大和復(fù)雜,各行各業(yè)借助各終端的互聯(lián)網(wǎng)和無處不在的傳感器,正在產(chǎn)生越來越多的數(shù)據(jù)。截至2018年,全球約有40.21億人使用互聯(lián)網(wǎng),其中約31.96億人社交網(wǎng)絡(luò)的使用者,而擁有手機(jī)的全球居民高達(dá)51.35億人,約占76億世界人口的三分之二。在數(shù)據(jù)流量方面,異構(gòu)數(shù)據(jù)也在不斷增長,思科公司預(yù)計,到2019年全球互聯(lián)網(wǎng)視頻的數(shù)據(jù)流量的月均值將達(dá)到105EB。2017年一整年中國移動互聯(lián)網(wǎng)數(shù)據(jù)使用已經(jīng)高達(dá)約25EB,相較2016年同比增長124%。
面對龐雜的數(shù)據(jù)環(huán)境,企業(yè)主要通過企業(yè)級數(shù)據(jù)模型實現(xiàn)數(shù)據(jù)整合。根據(jù)企業(yè)的業(yè)務(wù)活動如市場營銷、財務(wù)管理等抽象出參與人、事件、地域、產(chǎn)品等數(shù)據(jù)主題,并將這些主題之間建立數(shù)據(jù)聯(lián)系,形成企業(yè)級數(shù)據(jù)模型。數(shù)據(jù)環(huán)境企業(yè)級數(shù)據(jù)整合模型應(yīng)用環(huán)境應(yīng)用環(huán)境涉及到選擇信息的具體應(yīng)用方向與信息戰(zhàn)略,來優(yōu)化業(yè)務(wù)流程。主要包括根據(jù)企業(yè)年度總目標(biāo),確定部門戰(zhàn)略,如CRM戰(zhàn)略,物流戰(zhàn)略,庫存戰(zhàn)略等;各個部門基于自身戰(zhàn)略,確定三到五個個成功關(guān)鍵因素;在明確關(guān)鍵成功因素的基礎(chǔ)上,提出信息需求,具體分為引領(lǐng)性信息和滯后性信息兩部分,組織往往對滯后性信息加以利用,如何把引領(lǐng)性信息作為戰(zhàn)略資源引入,是值得思考的問題。根據(jù)用戶群與規(guī)模的大小,以及分析方法的靈活性與用戶交互性,企業(yè)數(shù)據(jù)分析可分為五種類型,不同類型的數(shù)據(jù)分析支持著不同層次的決策技術(shù)環(huán)境
獨(dú)立數(shù)據(jù)集市虛擬數(shù)據(jù)集市輪輻式數(shù)據(jù)倉庫中央數(shù)據(jù)倉庫優(yōu)點?容易建設(shè)?范圍較小?技術(shù)上比較簡單?不需要ETL?不需要單獨(dú)的平臺?容易的定制用戶界面和報表?單一的企業(yè)級視圖?數(shù)據(jù)可重復(fù)利用?數(shù)據(jù)一致性有保障?TCO很低缺點?缺少企業(yè)級的業(yè)務(wù)視圖?重復(fù)投資嚴(yán)重?ETL/應(yīng)用開發(fā)/DBA的代價太高?僅僅能對于小數(shù)據(jù)量的訪問?元數(shù)據(jù)的問題?網(wǎng)絡(luò)瓶頸和跨系統(tǒng)的分析?用戶端壓力較大?企業(yè)級視圖?重復(fù)投資嚴(yán)重?DBA壓力比較大?數(shù)據(jù)延遲嚴(yán)重?需要有整個企業(yè)級的戰(zhàn)略和支持技術(shù)環(huán)境方面,可利用多種分析的IT環(huán)境來整合數(shù)據(jù),提供分析平臺,以支撐企業(yè)決策。主要是運(yùn)用數(shù)據(jù)集市與數(shù)據(jù)倉庫來搭建技術(shù)環(huán)境,相關(guān)知識會在第三章中詳細(xì)介紹。目前,主要的技術(shù)環(huán)境包括獨(dú)立數(shù)據(jù)集市、虛擬數(shù)據(jù)集市、輪輻式數(shù)據(jù)倉庫、中央數(shù)據(jù)倉庫等。組織環(huán)境基于企業(yè)環(huán)境,利用商業(yè)分析進(jìn)行高效運(yùn)營正在成為趨勢。知名物流公司UPS發(fā)現(xiàn),汽車在左轉(zhuǎn)彎時發(fā)動機(jī)一直處于空轉(zhuǎn)狀態(tài),造成了無謂的油耗?;谏虡I(yè)分析,該公司找到了解決方案——鼓勵司機(jī)在送貨路線上盡量右拐,并通過組織管理有效地執(zhí)行了下去。他們開發(fā)信息技術(shù),使得數(shù)秒內(nèi)就能提供司機(jī)右轉(zhuǎn)彎多的路線,右轉(zhuǎn)彎的比例提升至90%。該公司跑在路上的車每天約有60萬輛,最終,僅靠右轉(zhuǎn)彎一項,一年內(nèi)就節(jié)省310萬加侖燃料,減排32000立方噸。組織環(huán)境取決于戰(zhàn)略的組織結(jié)構(gòu)、流程及策略。成功的商業(yè)分析需要技術(shù)環(huán)境與組
織環(huán)境的有力協(xié)作。管理者應(yīng)組織商業(yè)分析專家,建設(shè)戰(zhàn)略和戰(zhàn)術(shù)團(tuán)隊,形成以商業(yè)素養(yǎng)和IT技術(shù)集成的專業(yè)知識團(tuán)隊。思考題在所在行業(yè)或者熟悉行業(yè)內(nèi),尋找兩個商業(yè)分析案例,并從以下三個方面思考:1、業(yè)務(wù)需求:所選擇的行業(yè)存在什么問題和挑戰(zhàn)?2、解決方案:可以使用哪些數(shù)據(jù)、采用什么分析方法來解決問題?3、環(huán)境分析:分別從數(shù)據(jù)、應(yīng)用、技術(shù)、組織四個方面分析商業(yè)分析環(huán)境。第二章商業(yè)分析的數(shù)據(jù)環(huán)境數(shù)據(jù)和數(shù)據(jù)類型數(shù)據(jù)獲取分析類型與數(shù)據(jù)需求企業(yè)數(shù)據(jù)資源開發(fā)利用01數(shù)據(jù)和數(shù)據(jù)類型數(shù)據(jù)數(shù)據(jù)的出現(xiàn)和被人類所利用,可以追溯到三千多年前的古代。人類在農(nóng)業(yè)社會中,古埃及法老在尼羅河邊的石柱上留下每年測量尼羅河水位的刻度,以此來觀測來年可能的稅收數(shù)量。古代中國早在漢代就有人口普查和田畝統(tǒng)計,用于稅收政策的制定。在古拉丁文中,它被稱為Datum,其復(fù)數(shù)形式為data,指的是內(nèi)涵確定、定義明確、毫無歧義的東西,中文,我們稱之為數(shù)據(jù)。數(shù)據(jù)內(nèi)容主題屬性狀態(tài)數(shù)據(jù)的基礎(chǔ)謂語對主題屬性的描述數(shù)據(jù)數(shù)字與數(shù)據(jù)數(shù)字是普適性的概念,是對一切事物的數(shù)量性質(zhì)的表達(dá)。數(shù)據(jù)則是具體性的概念,是對一個事物的數(shù)量性質(zhì)的表達(dá)。對一個事物可以有多種數(shù)據(jù)表達(dá)形式,取決于人們的認(rèn)識程度和使用目的。對一個事物的數(shù)據(jù)表達(dá)越多,對這個事物的定義越精準(zhǔn),人們對這個事物的認(rèn)識就越深入,可利用程度就越高數(shù)據(jù)和信息兩個術(shù)語密切相關(guān),事實上,它們常常被互換使用。信息可以定義為以某種方式處理過的數(shù)據(jù)。處理數(shù)據(jù)的目的是為了使數(shù)據(jù)使用者增加知識。數(shù)據(jù)是使用約定俗成的字符,對客觀事物的數(shù)量、屬性、位置及其相互關(guān)系進(jìn)行抽象表示,可以用人工或自然方式進(jìn)行保存、傳遞和處理。信息與數(shù)據(jù)相比,除了具有自然屬性或社會屬性,還包括價值判斷,尤其是社會價值判斷。數(shù)據(jù)類型大數(shù)據(jù)分析是大數(shù)據(jù)理念與方法的核心,是指對海量、類型多樣、增長快速且內(nèi)容真實的數(shù)據(jù)(即大數(shù)據(jù))進(jìn)行分析,從中找出可以幫助決策的隱藏模式、未知的相關(guān)關(guān)系以及其他有用信息的過程。通過處理穩(wěn)定的實時數(shù)據(jù)流,組織可更加快速地做出時間敏感的決策、監(jiān)控最新趨勢、快速調(diào)整方向并抓住新時機(jī)。而這些需要對不同類型的數(shù)據(jù)進(jìn)行分類并且處理。傳統(tǒng)的數(shù)據(jù)分類一般將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)記錄了生產(chǎn)、業(yè)務(wù)、交易和客戶信息等。結(jié)構(gòu)化數(shù)據(jù)涵蓋了更為廣泛的內(nèi)容,包括了如合約、發(fā)票、書信與采購記錄等營運(yùn)內(nèi)容;如文書處理、電子表格、簡報檔案與電子郵件等業(yè)務(wù)內(nèi)容;如HTML與XML等格式信息的Web內(nèi)容;以及如聲音、影片、圖形等多媒體內(nèi)容。數(shù)據(jù)類型1.從描述和度量事物的角度將數(shù)據(jù)分為定量和定性數(shù)據(jù)數(shù)值只能用自然數(shù)或整數(shù)單位計算。數(shù)據(jù)定量數(shù)據(jù)定性數(shù)據(jù)連續(xù)離散有序名義連續(xù)數(shù)據(jù)取值可以是在某一區(qū)間的任一實數(shù),通常稱這類資料是連續(xù)的,或考察的指標(biāo)是連續(xù)的。有序的是指有些資料既不能計量,也不能計數(shù),只能通過比較,評出一個順序,如學(xué)歷。名義數(shù)據(jù)是指,有些資料僅僅是一個名義值,值的順序和大小并無統(tǒng)計意義。如性別,不同顏色的編號,不同書籍的代碼等等。數(shù)據(jù)類型2、結(jié)合應(yīng)用場景可以分為以下四種數(shù)據(jù)類型(1)記錄集數(shù)據(jù)。記錄集數(shù)據(jù),顧名思義,就是數(shù)據(jù)的集合。一般是經(jīng)過匯總的數(shù)據(jù)集合??梢詫?dǎo)入數(shù)據(jù)庫等工具進(jìn)行直接的運(yùn)算和分析。常見的記錄集數(shù)據(jù)如客戶數(shù)據(jù)的記錄集,事務(wù)數(shù)如對一件事情的記錄、數(shù)據(jù)矩陣以及文檔詞矩陣等經(jīng)過匯總的數(shù)據(jù)集。這一類數(shù)據(jù)通常具有明確的指向性,可以抽取樣本進(jìn)行直接的分析。(2)有序的數(shù)據(jù)。有序的數(shù)據(jù)是按照一定順序排列的數(shù)據(jù)。其數(shù)據(jù)特征一般存在于不同時間階段的特征變化之中。一般而言具有較為單一的數(shù)據(jù)屬性。常見有四種數(shù)據(jù)類型:時序事務(wù)數(shù)據(jù),基因組序列數(shù)據(jù),溫度時間序列數(shù)據(jù),空間溫度序列數(shù)據(jù)。這些數(shù)據(jù)不能隨意排列,需要按照順序進(jìn)行分析。序列分析通常能夠發(fā)現(xiàn)數(shù)據(jù)的變動規(guī)律,從而對數(shù)據(jù)的動向進(jìn)行預(yù)測。數(shù)據(jù)類型(3)文本類與WEB數(shù)據(jù)。文本類與web數(shù)據(jù)是隨著互聯(lián)網(wǎng)的發(fā)展產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。文本和web數(shù)據(jù)由來自各種數(shù)據(jù)源的大量文檔組成,如新聞文章、研究論文、書籍、數(shù)字圖書館、電子郵件消息和web頁面信息。其增長速度快,包含的信息量大,信息挖掘的難度也大。在數(shù)據(jù)分析領(lǐng)域,文本數(shù)據(jù)的分析是一個重要的方向,包括主題識別和情感分析等。(4)多媒體類數(shù)據(jù)。文本類的數(shù)據(jù)帶來了數(shù)據(jù)挖掘的價值,而多媒體數(shù)據(jù)的挖掘技術(shù)將數(shù)據(jù)分析提上了新的臺階。目前的多媒體數(shù)據(jù)主要有圖像、聲音和視頻。多媒體的數(shù)據(jù)分析與文本數(shù)據(jù)等不同,目前其應(yīng)用已經(jīng)得到一定的推廣,如音樂辨識、語音識別、基于圖像的搜索等等。早有企業(yè)將其觸角深入這個領(lǐng)域之中,如我國第一家多媒體數(shù)據(jù)庫,國道數(shù)據(jù)多媒體特色專題數(shù)據(jù)庫。02數(shù)據(jù)獲取互聯(lián)網(wǎng)數(shù)據(jù)獲取網(wǎng)絡(luò)爬蟲(又常被稱為網(wǎng)絡(luò)蜘蛛、或Spider/Crawler系統(tǒng))是一種按照一定規(guī)則,自動抓取萬維網(wǎng)信息的程序或者腳本,是最常用的外部網(wǎng)絡(luò)數(shù)據(jù)抓取技術(shù)。網(wǎng)絡(luò)爬蟲可以自動提取網(wǎng)頁的源碼,根據(jù)網(wǎng)頁結(jié)構(gòu)來篩選網(wǎng)頁中的數(shù)據(jù)。從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲存三個部分。網(wǎng)絡(luò)爬蟲的執(zhí)行程序主過程控制器解析器資源庫負(fù)責(zé)給多線程中的各個爬蟲線程分配工作任務(wù)下載網(wǎng)頁,進(jìn)行頁面的處理存放下載到的網(wǎng)頁資源,并對其建立索引移動互聯(lián)網(wǎng)數(shù)據(jù)獲取SDK(軟件開發(fā)工具包,SoftwareDevelopmentKit)是輔助開發(fā)軟件所需的相關(guān)文檔、范例和工具的集合。它可以簡單地為某個程序設(shè)計語言提供應(yīng)用程序接口API的一些文件,也可以包括能與某種嵌入式系統(tǒng)通訊的復(fù)雜的硬件。移動SDK是指嵌入移動平臺的SDK應(yīng)用。一般而言,SDK可以通過移動設(shè)備進(jìn)行更加精確、實時的數(shù)據(jù)采集與數(shù)據(jù)分析,來滿足用戶對數(shù)據(jù)采集、無線數(shù)據(jù)傳輸與移動智能運(yùn)算的需求。移動SDK常用于統(tǒng)計APP的基礎(chǔ)數(shù)據(jù):用戶數(shù)、活躍情況、流失用戶比例、使用時長等。移動SDK的平臺支持andriod和ios平臺。目前,移動SDK已經(jīng)接入到如微博、Google移動廣告、移動游戲、移動支付、移動地圖等應(yīng)用軟件平臺。物聯(lián)網(wǎng)數(shù)據(jù)獲取1.物聯(lián)網(wǎng)與傳感器無線傳感器網(wǎng)絡(luò)具有以下功能,它能夠?qū)崟r監(jiān)測各種環(huán)境參數(shù)并且監(jiān)測監(jiān)控對象的信息,并傳送到用戶,用戶再對這些信息進(jìn)行處理。無線傳感器網(wǎng)絡(luò)可以實時監(jiān)測區(qū)域內(nèi)的各種監(jiān)測目標(biāo)的參數(shù),并可以處理采集數(shù)據(jù),從收集到的原始數(shù)據(jù)分析得到人們想獲得的抽象的信息。傳感器網(wǎng)絡(luò)會產(chǎn)生大量的監(jiān)測數(shù)據(jù)。每個傳感器節(jié)點都會生成大量的數(shù)據(jù)流,這些數(shù)據(jù)流數(shù)據(jù)量大實時性要求高。在有限的節(jié)點處理能力情況下,需要人工處理一些實時監(jiān)測數(shù)據(jù)。傳感器網(wǎng)絡(luò)是以數(shù)據(jù)作為中心,終端系統(tǒng)可單獨(dú)地加入互連網(wǎng)絡(luò)中。在Intenet網(wǎng)上,要訪問網(wǎng)絡(luò)中的任何資源,你必須知道它的網(wǎng)絡(luò)地址。在互聯(lián)網(wǎng)中,網(wǎng)絡(luò)中每個終端系統(tǒng)的地址與一個唯一的地址對應(yīng)。無線傳感器網(wǎng)絡(luò)中的單獨(dú)的的傳感器節(jié)并沒有任何意義。網(wǎng)絡(luò)獲得用戶所需要的信息后將其返回給用戶。物聯(lián)網(wǎng)數(shù)據(jù)獲取2.物聯(lián)網(wǎng)與無線射頻物聯(lián)網(wǎng)內(nèi)涵的變化:定義1:物聯(lián)網(wǎng)是未來網(wǎng)絡(luò)的整合部分,它是以標(biāo)準(zhǔn)、互通的通信協(xié)議為基礎(chǔ),具有自我配置能力的全球性動態(tài)網(wǎng)絡(luò)設(shè)施。在這個網(wǎng)絡(luò)中,所有實質(zhì)和虛擬的物品都有特定的編碼和物理特性,通過智能界面無縫鏈接,實現(xiàn)信息共享。定義2:由具有標(biāo)識、虛擬個性的物體/對象所組成的網(wǎng)絡(luò),這些標(biāo)識和個性運(yùn)行在智能空間,使用智慧的接口與用戶、社會和環(huán)境的上下文進(jìn)行連接和通信。定義3:物聯(lián)網(wǎng)指通過信息傳感設(shè)備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進(jìn)行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。它是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴(kuò)展的網(wǎng)絡(luò)以無線傳感網(wǎng)絡(luò)和云計算為核心,內(nèi)涵包括無處不在的數(shù)據(jù)采集、可靠的數(shù)據(jù)傳輸和信息處理以及智能化的信息應(yīng)用物聯(lián)網(wǎng)數(shù)據(jù)獲取產(chǎn)品、商品等物體不可讀信息可見信息無線射頻識別(RFID)技術(shù)非數(shù)據(jù)信息數(shù)據(jù)信息RFID能遠(yuǎn)距離識別信息,且不同于早期的條碼技術(shù),它不需要可見的線來識別。RFID標(biāo)簽與條形碼相比支持更大數(shù)量集的唯一的ID標(biāo)識符,而且可以與一些增加一些附加信息如制造商、產(chǎn)品類型甚至環(huán)境因素測量如溫度等??梢宰R別同一個區(qū)域的多個不同的標(biāo)簽。其他數(shù)據(jù)獲取途徑傳統(tǒng)的數(shù)據(jù)采集方法:調(diào)查法、觀察法、實驗法和現(xiàn)有資料查詢以及網(wǎng)絡(luò)查詢等。數(shù)據(jù)收集包括一手?jǐn)?shù)據(jù)和二手?jǐn)?shù)據(jù)的收集。一手?jǐn)?shù)據(jù)是指原始的數(shù)據(jù),通過調(diào)查、觀察和實驗獲取數(shù)據(jù)。調(diào)查普查抽樣調(diào)查適用于對每個單位資料的統(tǒng)計調(diào)查,如人口普查從總體中抽取一小部分個體,通過抽取的樣本來推斷總體。抽樣調(diào)查的應(yīng)用范圍非常廣泛,例如調(diào)查商品市場、金融市場情況等觀察法調(diào)查人員直接或利用儀器在現(xiàn)場觀察調(diào)查對象的活動,通過觀察對象來收集資料的方法。不能被被調(diào)查者覺察,適用于任何人都可以接觸的數(shù)據(jù),或者可以直接以觀察獲得數(shù)據(jù)的情況。如車站人流統(tǒng)計、交通流量、貨架上的價格標(biāo)識等。實驗法研究者在研究領(lǐng)域內(nèi),為發(fā)現(xiàn)一個特定過曾或系統(tǒng)的某些現(xiàn)象或規(guī)律,而設(shè)計的一系列實驗。03分析類型與數(shù)據(jù)需求分析類型與數(shù)據(jù)需求用戶類別與分析類型用戶類別分析專家業(yè)務(wù)經(jīng)理所有員工分析類型報表級的分析多維分析專題分析數(shù)據(jù)挖掘企業(yè)級報表企業(yè)的報表分析,也稱企業(yè)的財務(wù)分析。是通過收集、整理企業(yè)財務(wù)會計報告中的有關(guān)數(shù)據(jù),并結(jié)合其他有關(guān)補(bǔ)充信息,對企業(yè)的財務(wù)狀況、經(jīng)營成果和現(xiàn)金流量情況進(jìn)行綜合比較和評價,為財務(wù)會計報告使用者提供管理決策和控制依據(jù)的一項管理工作。具體的分析方向主要從企業(yè)的償債能力、資本結(jié)構(gòu)分析、經(jīng)營效率分析、盈利能力分析、現(xiàn)金保障能力分析和利潤構(gòu)成分析。單個年度的財務(wù)比率分析不同時期的比較分析與同行業(yè)其他公司之間的比較多維分析多維分析是對多維空間的數(shù)據(jù)進(jìn)行分析。用戶通過在數(shù)據(jù)立方體上進(jìn)行切片、切塊、鉆取、旋轉(zhuǎn)等操作實現(xiàn)多角度多力度了解數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為信息的過程。切片從數(shù)據(jù)立方體中切出一個截面來,對數(shù)據(jù)進(jìn)行降維處理。其中一個維度定為一個固定的值,多維數(shù)據(jù)從N維降為N-1維。根據(jù)剩余的N-1維對數(shù)據(jù)進(jìn)行展現(xiàn)。切塊從數(shù)據(jù)立方體中切出子立方體。這是通過限定各個維的范圍實現(xiàn)的。鉆取改變維的層次,變換分析的粒度。它包括,向上鉆取和向下鉆取。向下鉆取是從粗粒度深度深入到細(xì)粒度觀察數(shù)據(jù)。向上鉆取是從細(xì)粒度擴(kuò)展到粗粒度觀察數(shù)據(jù)。旋轉(zhuǎn)將維度在行和列的位置進(jìn)行變換,改變觀察的角度。旋轉(zhuǎn)操作可以使用戶改變一個報告或頁面顯示的維的方向。旋轉(zhuǎn)最常見的形式是在報告顯示中將某一行維轉(zhuǎn)移到列維上去。通過旋轉(zhuǎn)操作,用戶可以對多維分析結(jié)果的顯示方式進(jìn)行調(diào)整,以達(dá)到準(zhǔn)確、直觀的目的。多維分析OLAP分析,即聯(lián)機(jī)分析處理,它以多維分析為基礎(chǔ),在建立好數(shù)據(jù)倉庫的基礎(chǔ)之上利用多維數(shù)據(jù)庫模型使得原來隱藏在這些紛繁復(fù)雜的數(shù)據(jù)后面的信息具體化、可視化。傳統(tǒng)的OLAP系統(tǒng)中,為減少數(shù)據(jù)冗余,消除關(guān)鍵數(shù)據(jù)操作(插入、刪除、更新)可能引發(fā)的異常,需要對關(guān)系進(jìn)行一定程度的分解。OLAP的核心:多維數(shù)據(jù)處理,通過多維分析查詢,用戶可以從多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深人地了解包含在數(shù)據(jù)中的信息和內(nèi)涵,找出各種因素對測量指標(biāo)的影響。多維分析視圖就是沖破了物理的三維概念,采用了旋轉(zhuǎn)、切片、切塊、鉆取等可視化技術(shù),在屏幕上展示多維視圖的結(jié)構(gòu),使用戶能直觀地理解和分析數(shù)據(jù)。多維分析的典型操作專題分析企業(yè)專題分析就是針對企業(yè)生產(chǎn)經(jīng)營活動中的某項專門問題所進(jìn)行的分析。如企業(yè)的計劃執(zhí)行情況、產(chǎn)品質(zhì)量情況、勞動時間利用情況、資金占用情況等等。專題分析師在多維分析的基礎(chǔ)上,對企業(yè)信息的一個方面進(jìn)行深入的信息提煉和信息比較,緊扣企業(yè)的業(yè)務(wù)熱點,對企業(yè)經(jīng)營提出相關(guān)的行動建議。一般在商業(yè)分析中,企業(yè)專題分析處于較高的層次,其面向的是某個特定應(yīng)用,鉆取企業(yè)的細(xì)節(jié)數(shù)據(jù),從而產(chǎn)生行動建議。數(shù)據(jù)挖掘數(shù)據(jù)挖掘就其定義而言,是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘?qū)儆谏虡I(yè)分析的較高層次,既是一種手段,也是一個目標(biāo)。數(shù)據(jù)挖掘主要面向決策,從海量數(shù)據(jù)中挖掘潛在的、無法直觀得出的結(jié)論。數(shù)據(jù)挖掘模式的特征:通用性。要求其分析具有延伸意義,對新數(shù)據(jù)同樣適用。新穎性。表示該模式是深層次的,挖掘結(jié)果可能會打破先有認(rèn)知。有效性。表示這種挖掘可以指導(dǎo)實際的行動。數(shù)據(jù)挖掘的模型部署04企業(yè)數(shù)據(jù)資源開發(fā)利用企業(yè)數(shù)據(jù)資源開發(fā)利用大數(shù)據(jù)在銀行業(yè)的應(yīng)用主要體現(xiàn)在四個方面:客戶畫像、運(yùn)營優(yōu)化、精準(zhǔn)營銷、風(fēng)險管控。第一方面:客戶畫像應(yīng)用??蛻舢嬒駪?yīng)用主要分為個人客戶畫像和企業(yè)客戶畫像。個人客戶畫像包括人口統(tǒng)計學(xué)特征、消費(fèi)能力數(shù)據(jù)、興趣數(shù)據(jù)、風(fēng)險偏好等;企業(yè)客戶畫像包括企業(yè)的生產(chǎn)、流通、運(yùn)營、財務(wù)、銷售和客戶數(shù)據(jù)、相關(guān)產(chǎn)業(yè)鏈上下游等數(shù)據(jù)。值得注意的是,銀行擁有的客戶信息并不全面,基于銀行自身擁有的數(shù)據(jù)有時候難以得出理想的結(jié)果甚至可能得出錯誤的結(jié)論。所以銀行不僅僅要考慮銀行自身業(yè)務(wù)所采集到的數(shù)據(jù),更應(yīng)考慮整合外部更多的數(shù)據(jù),以加深對客戶的了解。包括:1、客戶在社交媒體上的行為數(shù)據(jù)。2、客戶在電商網(wǎng)站的交易數(shù)據(jù)。3、企業(yè)客戶的產(chǎn)業(yè)鏈上下游數(shù)據(jù)。4、其他有利于擴(kuò)展銀行對客戶興趣愛好的數(shù)據(jù)。企業(yè)數(shù)據(jù)資源開發(fā)利用第二方面:精準(zhǔn)營銷。1、實時營銷。2、交叉營銷。3、個性化推薦。4、客戶生命周期管理。第三方面:風(fēng)險管控。1、中小企業(yè)貸款風(fēng)險評估。2、實時欺詐交易識別和反洗錢分析。第四方面:運(yùn)營優(yōu)化。1、市場和渠道優(yōu)化。2、產(chǎn)品和服務(wù)優(yōu)化。3、輿情分析。思考題1、思考數(shù)據(jù)采集與信息技術(shù)發(fā)展的關(guān)聯(lián),并調(diào)研當(dāng)前新趨勢。2、根據(jù)自己所處或希望從事的行業(yè),探索其與商業(yè)分析可能的結(jié)合點。3、目前所接觸到的商業(yè)分析應(yīng)用改善社會生活的案例。第三章商業(yè)分析的應(yīng)用環(huán)境商業(yè)分析的內(nèi)容和步驟商業(yè)分析應(yīng)用領(lǐng)域商業(yè)分析的應(yīng)用行業(yè)01內(nèi)容和步驟商業(yè)分析的內(nèi)容1、宏觀方面(1)經(jīng)濟(jì)情況。包括主導(dǎo)產(chǎn)業(yè)、多元化程度、項目增長、經(jīng)濟(jì)波動、匯率
情況等。對經(jīng)濟(jì)狀況的分析是商業(yè)分析的重要內(nèi)容之一。(2)人口特征。包括年齡分布、性別比例、勞動力水平學(xué)歷與工資水平等。(3)社會文化。包括民族的風(fēng)俗、宗教信仰等。(4)政策法規(guī)。包括稅收、執(zhí)照、營業(yè)限制、最低工資法的相關(guān)鼓勵或限制因素。(5)環(huán)境因素。包括地區(qū)綠色環(huán)保相關(guān)的傾向與規(guī)定。商業(yè)分析的內(nèi)容2、微觀方面商業(yè)分析企業(yè)內(nèi)部綜合經(jīng)營分析銷售分析人力資源分析供應(yīng)鏈分析內(nèi)容分析企業(yè)外部供貨情況分析競爭情況分析客戶信息,客戶反饋等……商業(yè)分析的步驟制定商業(yè)分析的計劃制定商業(yè)分析的目標(biāo)實施商業(yè)分析系統(tǒng)對分析過程進(jìn)行監(jiān)督與控制進(jìn)行效果分析需求收集階段投入使用分析系統(tǒng)或工具02應(yīng)用領(lǐng)域商業(yè)分析應(yīng)用領(lǐng)域?qū)ΜF(xiàn)代企業(yè)而言,其所需要的不再是一堆堆的數(shù)據(jù)和報表,取而代之的應(yīng)該是一套智能運(yùn)算的系統(tǒng)來對這些多源異構(gòu)數(shù)據(jù)進(jìn)行提取和計算,并得出高效準(zhǔn)確的預(yù)測模型,通過運(yùn)用分析結(jié)果來減少企業(yè)發(fā)展過程中遇到的風(fēng)險和資源浪費(fèi)。對于企業(yè)而言,商業(yè)分析可以應(yīng)用在各個層級、各個職能、各個部門之中。通過商業(yè)分析,可以有效地提高利潤,同時降低成本,進(jìn)而增加盈余;利用商業(yè)分析,可以貼近客戶,提供差異化的產(chǎn)品或服務(wù),讓客戶管理效果最佳化;利用商業(yè)分析可以卓越運(yùn)營,有效提高資源利用率和運(yùn)營效率,在企業(yè)核心業(yè)務(wù)、產(chǎn)業(yè)合作、潛在市場等多個方面取得經(jīng)營突破。商業(yè)分析五個階段逐步提升企業(yè)競爭優(yōu)勢流程成本客戶體驗客戶關(guān)系管理核心:了解客戶細(xì)分主要流程:跟蹤、學(xué)習(xí)、計劃和實施5P營銷組合:產(chǎn)品、渠道、價格、促銷以及時機(jī)商業(yè)分析可以為企業(yè)尋找到最佳時機(jī),實時為合適的用戶提供合適的產(chǎn)品??蛻艏?xì)分,通過忽略無價值客戶,專注有價值的客戶,進(jìn)而減少成本來維護(hù)客戶關(guān)系,同時增加銷售,提升單位客戶的價值營銷3.0時代,亞馬遜借助數(shù)據(jù)分析領(lǐng)先于客戶意識,引導(dǎo)客戶需求,影響客戶決策。亞馬遜會去了解客戶最終形成購買行為前的信息來源渠道,通過對網(wǎng)站點擊流及多渠道接觸軌跡的分析,亞馬遜找到了不同貨品的最佳銷售路徑“黃金通道”。此外,亞馬遜還能了解到哪些貨品轉(zhuǎn)移到網(wǎng)站渠道銷售的趨勢更加明顯。產(chǎn)品創(chuàng)新在不同的生命周期里,產(chǎn)品給企業(yè)帶來的銷售和利潤是不同的。過商業(yè)分析,有利于企業(yè)在產(chǎn)品生命周期的各個階段做出最有益的產(chǎn)品決策,從而降低損耗,增加銷售和利潤。產(chǎn)品創(chuàng)新大數(shù)據(jù)分析正深入到電影的創(chuàng)作環(huán)節(jié),這對整個影視創(chuàng)作行業(yè),從劇本選擇,導(dǎo)演演員的選擇,拍攝和后期制作,乃至營銷,都會產(chǎn)生深刻的影響。在了解到大衛(wèi)·芬奇導(dǎo)演的作品、凱文·史派西主演的影片都口碑不錯的情況下,Netflix對3000萬次觀影行為、400萬個評分和300萬次搜索請求進(jìn)行了相關(guān)分析,并在內(nèi)容上、方式上、受眾上都進(jìn)行了精準(zhǔn)而高效的決策預(yù)測,最終由大衛(wèi)·芬奇、鮑爾·威利蒙聯(lián)合制作,凱文·史派西主演,改編自英國同名小說的Netflix的首部原創(chuàng)劇集《紙牌屋》在2013年艾美獎上有9項大獎提名,并最終斬獲最佳導(dǎo)演和最佳選角兩項大獎。03應(yīng)用行業(yè)金融行業(yè)商業(yè)分析應(yīng)用概述隨著銀行業(yè)業(yè)務(wù)的拓展,銀行業(yè)的客戶數(shù)據(jù)、交易數(shù)據(jù)等均呈現(xiàn)爆炸式增長,這給銀行業(yè)帶來機(jī)遇和挑戰(zhàn)。在大數(shù)據(jù)時代下,銀行的服務(wù)模式與管理模式已逐步發(fā)生改變。近年來,我國許多銀行已經(jīng)開始嘗試通過大數(shù)據(jù)來進(jìn)行商業(yè)分析,促進(jìn)自身的發(fā)展。銀行業(yè)正在受到科技創(chuàng)新力的影響,也在越來越傾向于零售營銷。對于銀行業(yè)來說,大數(shù)據(jù)意味著巨大的商機(jī)——可強(qiáng)化客戶體驗,提高客戶忠誠度。形象地說,數(shù)據(jù)的收集能力加上數(shù)據(jù)的分析能力等于企業(yè)智商,這關(guān)乎商業(yè)決策的速度和準(zhǔn)確性,也關(guān)乎企業(yè)的生存和發(fā)展。銀行業(yè)在大數(shù)據(jù)的浪潮中,要以大數(shù)據(jù)平臺建設(shè)為基礎(chǔ),夯實大數(shù)據(jù)的收集、存儲、處理能力;重點推進(jìn)大數(shù)據(jù)人才的梯隊建設(shè),打造專業(yè)、高效、靈活的大數(shù)據(jù)分析團(tuán)隊;不斷提升自身能力,挖掘海量數(shù)據(jù)的商業(yè)價值,從而在數(shù)據(jù)新浪潮的變革中贏得先機(jī)。銀行業(yè)商業(yè)分析的應(yīng)用構(gòu)建用戶畫像個人用戶畫像企業(yè)客戶畫像風(fēng)險管控中小企業(yè)貸款風(fēng)險評估實時欺詐交易識別反洗錢分析精準(zhǔn)營銷實時營銷交叉營銷個性化推薦客戶生命周期管理運(yùn)營優(yōu)化市場和渠道分析優(yōu)化產(chǎn)品和服務(wù)優(yōu)化輿情分析通信行業(yè)商業(yè)分析應(yīng)用概述通信行業(yè),主要經(jīng)營移動電話、長途電話、本地電話、數(shù)據(jù)通信(包括因特網(wǎng)業(yè)務(wù)和IP電話)、和多媒體業(yè)務(wù)等,并具有計算機(jī)互聯(lián)網(wǎng)國際單位經(jīng)營權(quán)和國際出入品局業(yè)務(wù)經(jīng)營權(quán)。除提供基本話音業(yè)務(wù)外,還提供傳真、數(shù)據(jù)、IP電話、信息點播、手機(jī)銀行、3G業(yè)務(wù)、4G業(yè)務(wù)等多種增值業(yè)務(wù),以及與主營業(yè)務(wù)相關(guān)的其他業(yè)務(wù)。其中最具代表性公司是:中國移動、中國聯(lián)通、中國電信。商業(yè)分析在通信行業(yè)的應(yīng)用,主要通過構(gòu)建數(shù)據(jù)集,將企業(yè)數(shù)據(jù)合理地組織在一起,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,以便有效地理解客戶、開展面向通信客戶的針對性營銷和服務(wù),并能達(dá)到增加收入、降低成本、提高企業(yè)利潤的目的。通信行業(yè)商業(yè)分析應(yīng)用概述目前通信行業(yè)運(yùn)用大數(shù)據(jù)進(jìn)行商業(yè)分析主要有五方面:①網(wǎng)絡(luò)管理和優(yōu)化,包括基礎(chǔ)設(shè)施建設(shè)優(yōu)化和網(wǎng)絡(luò)運(yùn)營管理和優(yōu)化;②市場與精準(zhǔn)營銷,包括客戶畫像、關(guān)系鏈研究、精準(zhǔn)營銷、實時營銷和個性化推薦;③客戶關(guān)系管理,包括客服中心優(yōu)化和客戶生命周期管理;④企業(yè)運(yùn)營管理,包括業(yè)務(wù)運(yùn)營監(jiān)控和經(jīng)營分析;⑤數(shù)據(jù)商業(yè)化,即數(shù)據(jù)對外商業(yè)化,單獨(dú)盈利。隨著國內(nèi)通信行業(yè)市場競爭的日趨激烈,通信行業(yè)需求與服務(wù)價值轉(zhuǎn)變,電信運(yùn)營商的經(jīng)營模式逐漸從“技術(shù)驅(qū)動”向“市場驅(qū)動”和“客戶驅(qū)動”轉(zhuǎn)化。面對客戶的多樣化、層次化、個性化的需求,傳統(tǒng)營銷已逐漸失去優(yōu)勢?;诳蛻粜畔?、客戶價值和行為以及深入數(shù)據(jù)分析的精確化營銷理念逐漸被各大電信運(yùn)營商接受。新興行業(yè)商業(yè)分析應(yīng)用概述航空業(yè)航空公司通過業(yè)務(wù)分析,構(gòu)建全產(chǎn)業(yè)鏈整合的全新行業(yè)模式和數(shù)據(jù)整合平臺。并建立商業(yè)智能分析框架,利用數(shù)據(jù)分析進(jìn)行客戶全生命周期和旅客管理。除了客戶分析以外,航空公司還應(yīng)用商業(yè)分析進(jìn)行收益管理、成本管理和市場分析等。制造業(yè)制造業(yè)正面臨轉(zhuǎn)型挑戰(zhàn),各個國家也在積極推動“工業(yè)4.0”,實現(xiàn)產(chǎn)品技術(shù)、企業(yè)管理、制造裝備、生產(chǎn)過程控制、商業(yè)分析的智能化,并廣泛利用數(shù)據(jù)分析實現(xiàn)企業(yè)銷售預(yù)測、供應(yīng)鏈精細(xì)化管理、庫存優(yōu)化、遠(yuǎn)程設(shè)備監(jiān)控等。制造業(yè)將以智能制造為方向,推進(jìn)制造業(yè)數(shù)字化、網(wǎng)絡(luò)化、智能化。新興行業(yè)商業(yè)分析應(yīng)用概述物流快遞業(yè)隨著信息化建設(shè)大量的數(shù)據(jù)積累,企業(yè)同時也面臨著越來越多的業(yè)務(wù)問題。數(shù)據(jù)和信息已經(jīng)成為制約快遞行業(yè)優(yōu)化內(nèi)部管理和業(yè)務(wù)決策的關(guān)鍵因素,物流快遞業(yè)需要通過商業(yè)分析以降低運(yùn)營成本、提高收益,統(tǒng)一結(jié)算體系、減少收入流失,實現(xiàn)從訂單追蹤到業(yè)務(wù)分析等業(yè)務(wù)改善。互聯(lián)網(wǎng)行業(yè)互聯(lián)網(wǎng)當(dāng)前正面臨數(shù)據(jù)爆炸式增長、用戶群不斷擴(kuò)大、智能設(shè)備發(fā)展勢頭強(qiáng)勁、移動互聯(lián)網(wǎng)野蠻生長的發(fā)展趨勢,同時也給傳統(tǒng)行業(yè)帶來了巨大的影響。面對這些發(fā)展趨勢,互聯(lián)網(wǎng)行業(yè)出現(xiàn)了多種商務(wù)數(shù)據(jù)分析應(yīng)用:搜索引擎、推薦系統(tǒng)、定向廣告、云服務(wù)(存儲與計算服務(wù))和其他服務(wù)等。通過對網(wǎng)上海量用戶數(shù)據(jù)進(jìn)行分析,實現(xiàn)對用戶的興趣分類,以精確投放用戶需求的信息,提升用戶對網(wǎng)站的滿意度、忠誠度。思考題1、在一個具體的行業(yè)中,商業(yè)分析的主要內(nèi)容和步驟是什么?2、舉出你所認(rèn)為的當(dāng)前行業(yè)商業(yè)分析應(yīng)用需要改進(jìn)的地方。3、試舉出一個具有創(chuàng)新性的商業(yè)分析行業(yè)應(yīng)用。第四章商業(yè)分析的技術(shù)環(huán)境數(shù)據(jù)倉庫周邊技術(shù)與工具產(chǎn)品挖掘任務(wù)與方法01數(shù)據(jù)倉庫數(shù)據(jù)庫與數(shù)據(jù)倉庫比較項目傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)倉庫內(nèi)容與業(yè)務(wù)相關(guān)的數(shù)據(jù)與決策相關(guān)的數(shù)據(jù)數(shù)據(jù)模型關(guān)系、層次結(jié)構(gòu)關(guān)系、多維結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化程度高,適合運(yùn)算操作數(shù)據(jù)結(jié)構(gòu)化程度始終負(fù)載事務(wù)處理量大,但每個事務(wù)涉及的記錄數(shù)很少查詢量小,但每次需要查詢大量的記錄事務(wù)輸出一般很少可能非常大訪問經(jīng)常是隨機(jī)地讀、寫操作經(jīng)常是只讀操作面向用戶普通的業(yè)務(wù)處理人員高級的決策管理人員匯總情況原始數(shù)據(jù),不做匯總多層次匯總,數(shù)據(jù)細(xì)節(jié)有損失停機(jī)可能意味著災(zāi)難性錯誤可能意味著延遲決策數(shù)據(jù)時間期限60-90天5-10年設(shè)計避免冗余,符合范式引入冗余,反范式傳統(tǒng)數(shù)據(jù)庫缺乏集成性主體不明確數(shù)據(jù)需求不匹配,無法支持決策分析活動數(shù)據(jù)倉庫數(shù)據(jù)倉庫是基于大規(guī)模數(shù)據(jù)庫的決策支持系統(tǒng)環(huán)境的核心,是進(jìn)行數(shù)據(jù)分析和決策制定的一種技術(shù)方案。關(guān)于數(shù)據(jù)倉庫的定義,目前被廣泛接受的是由數(shù)據(jù)倉庫之父WilliamH.Inmon在“BuildingtheDataWarehouse”一書中所提出的定義——數(shù)據(jù)倉庫是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫是一個過程而不是一個項目,是一個環(huán)境而不是一件產(chǎn)品。數(shù)據(jù)倉庫的特點(1)面向主題“面向主題”是數(shù)據(jù)倉庫中數(shù)據(jù)組織的最基本原則。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。數(shù)據(jù)倉庫的面向主題正是相對于傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用而言。所謂面向應(yīng)用是指系統(tǒng)實現(xiàn)過程中主要圍繞著一些應(yīng)用或功能,而面向主題則是考慮一個個的問題域,對問題域涉及的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。所謂“主題”,是一個邏輯概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。(2)集成的數(shù)據(jù)倉庫中數(shù)據(jù)的集成,是指在構(gòu)建數(shù)據(jù)倉庫的過程中,對多個外部數(shù)據(jù)源中格式不同、定義各異的數(shù)據(jù),按既定的策略進(jìn)行抽取、清洗、轉(zhuǎn)換等一系列處理,使之成為一個有機(jī)的整體。這在數(shù)據(jù)倉庫的所有特點中是最重要的。數(shù)據(jù)倉庫的特點(3)相對穩(wěn)定的操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。而數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中內(nèi)容的更新、追加等操作是不頻繁的,一般依據(jù)既定的周期或條件閾值進(jìn)行。并且,數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫后,雖然也有刪除、更新等操作,但決定這種操作的閾值條件是較難滿足的,這種情況是非常罕見的,通常只需要定期的加載、刷新。(4)反映歷史變化數(shù)據(jù)倉庫是以維的形式對數(shù)據(jù)進(jìn)行組織的,時間維是數(shù)據(jù)倉庫中很重要的維度之一,數(shù)據(jù)倉庫的內(nèi)容會隨時間的變化而不斷得到增補(bǔ)、更新。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫雖然不會隨業(yè)務(wù)的發(fā)生而頻繁地更新數(shù)據(jù),但為了保證決策分析的正確性,對數(shù)據(jù)倉庫的內(nèi)容定期加以增補(bǔ)和更新是十分必要的。所以數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。數(shù)據(jù)倉庫相關(guān)概念1.數(shù)據(jù)源構(gòu)建一個數(shù)據(jù)倉庫,必然要有充足的數(shù)據(jù)來源,為數(shù)據(jù)倉庫系統(tǒng)提供進(jìn)行分析的“原材料”——數(shù)據(jù),這些數(shù)據(jù)來源成為數(shù)據(jù)倉庫的數(shù)據(jù)源(DataSource)。數(shù)據(jù)倉庫并不直接存儲事務(wù)數(shù)據(jù),其數(shù)據(jù)往往來源于多個數(shù)據(jù)源,并且數(shù)據(jù)源并不局限于傳統(tǒng)數(shù)據(jù)庫,也可以是其他類型的數(shù)據(jù),甚至是非結(jié)構(gòu)化的信息,如文本文件,也可以是網(wǎng)絡(luò)資源。數(shù)據(jù)倉庫必須將不同來源的數(shù)據(jù)聚集合并為結(jié)構(gòu)一致的數(shù)據(jù)集,使其能夠準(zhǔn)確反映該來源的事務(wù)運(yùn)行情況和歷史記錄。從業(yè)務(wù)系統(tǒng)中提取的或從外部數(shù)據(jù)源中導(dǎo)入的數(shù)據(jù),經(jīng)過清洗、轉(zhuǎn)化后,成為數(shù)據(jù)倉庫的原始數(shù)據(jù)。(它們是數(shù)據(jù)倉庫數(shù)據(jù)的一部分,但不是全部)數(shù)據(jù)倉庫相關(guān)概念2.元數(shù)據(jù)數(shù)據(jù)是對事物的描述,“元數(shù)據(jù)”就是描述數(shù)據(jù)的數(shù)據(jù),它提供了相關(guān)數(shù)據(jù)的環(huán)境,是關(guān)于數(shù)據(jù)倉庫中數(shù)據(jù)、操作數(shù)據(jù)的進(jìn)程以及應(yīng)用程序的結(jié)構(gòu)和意義的描述信息。元數(shù)據(jù)在數(shù)據(jù)倉庫的設(shè)計、運(yùn)行中有著十分重要的作用,它所描述的對象涉及數(shù)據(jù)倉庫的各個方面。元數(shù)據(jù)在數(shù)據(jù)倉庫中數(shù)據(jù)的上層,用于記錄數(shù)據(jù)倉庫中對象的位置。為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù):包括所有源數(shù)據(jù)項的名稱、屬性及其在提取倉庫中的轉(zhuǎn)化決策支持系統(tǒng)元數(shù)據(jù):用來與最終用戶的多維商業(yè)模型和前端工具之間建立映射元數(shù)據(jù)是數(shù)據(jù)倉庫的一個綜合文檔,是數(shù)據(jù)倉庫的核心,它決定了數(shù)據(jù)分析的有效性。通過元數(shù)據(jù)可以將數(shù)據(jù)倉庫和復(fù)雜的數(shù)據(jù)源系統(tǒng)的變化隔離,是數(shù)據(jù)倉庫開發(fā)和維護(hù)的一個關(guān)鍵因素,也是保證數(shù)據(jù)提取質(zhì)量的依據(jù)。數(shù)據(jù)倉庫相關(guān)概念3.數(shù)據(jù)集市數(shù)據(jù)倉庫是企業(yè)級的,能為整個企業(yè)各個部門的運(yùn)行提供決策支持手段;而數(shù)據(jù)集市則是部門級的,一般只能為某個局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門級數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的工作范圍和成本常常是巨大的。信息技術(shù)部門必須對所有的用戶用以整個企業(yè)的眼光對待任何一次決策分析,這樣就形成了代價很高、耗時較長的大項目。于是提供更緊密集成的、擁有完整圖形接口并且價格吸引人的工具——數(shù)據(jù)集市(DataMart)就應(yīng)運(yùn)而生。作為一種更小、更集中的數(shù)據(jù)倉庫,數(shù)據(jù)集市為公司提供了一條分析商業(yè)數(shù)據(jù)的廉價途徑,主要針對某個具有戰(zhàn)略意義的應(yīng)用或者具體部門級的應(yīng)用,支持用戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。一個企業(yè)只需建立一個數(shù)據(jù)倉庫,但企業(yè)卻可以有多個數(shù)據(jù)集市。數(shù)據(jù)集市是面向部門的,這就要求它的整個實施過程由部門定義、設(shè)計和開發(fā),也由部門來管理和維護(hù)。同時,數(shù)據(jù)集市相對數(shù)據(jù)倉庫的規(guī)模較小,便于實施,購買較便宜,投資回收快。無論如何,數(shù)據(jù)集市的數(shù)據(jù)和功能都是數(shù)據(jù)倉庫的一個子集,并不擁有數(shù)據(jù)倉庫的全部數(shù)據(jù)及功能??梢哉J(rèn)為數(shù)據(jù)集市是一個提供更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉庫的摘要子集,可升級到完整的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫相關(guān)概念是為了滿足企業(yè)內(nèi)部各部門的分析需求而建立的微型數(shù)據(jù)倉庫。這類數(shù)據(jù)集市的服務(wù)對象層次較低,數(shù)據(jù)規(guī)模較小,結(jié)構(gòu)也相對簡單,大多沒有元數(shù)據(jù)部件。這類數(shù)據(jù)集市也可以實施集成,以構(gòu)建完整的數(shù)據(jù)倉庫。從屬型數(shù)據(jù)集市的內(nèi)容并不直接來自外部數(shù)據(jù)源,而是從數(shù)據(jù)倉庫中得到。在數(shù)據(jù)倉庫內(nèi)部,數(shù)據(jù)根據(jù)分析主題,劃分為若干個子集,進(jìn)行組織、存放。數(shù)據(jù)劃分成集市之后,在進(jìn)行某個確定主題的分析時,可以有效縮小數(shù)據(jù)的檢索范圍,明顯提高數(shù)據(jù)倉庫的效率。數(shù)據(jù)倉庫體系結(jié)構(gòu)1.兩層體系結(jié)構(gòu)(DB-DW)數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.三層體系結(jié)構(gòu)(DB-ODS-DW)作用:為數(shù)據(jù)倉庫提供數(shù)據(jù),減少數(shù)據(jù)倉庫數(shù)據(jù)抽取的復(fù)雜性。及時的OLAP分析。全聚德OLTP操作。數(shù)據(jù)模型1.概念模型概念模型是客觀世界到計算機(jī)系統(tǒng)的一個中間層次,最常用的表示方法是E-R(實體-關(guān)系)圖,除此之外,還有面向?qū)ο蠓椒ā討B(tài)模型分析法等。設(shè)計概念模型的目的,是對所涉及的現(xiàn)實世界中的所有客觀實體,進(jìn)行科學(xué)的、全面的分析和抽象,為數(shù)據(jù)倉庫的構(gòu)建制定出“藍(lán)圖”。這是成功構(gòu)建數(shù)據(jù)倉庫的第一步。概念模型設(shè)計的關(guān)鍵,是要保證所有與數(shù)據(jù)倉庫相關(guān)的客觀實體(即業(yè)務(wù)內(nèi)容)均得到正確的理解,并被完整地包含在模型當(dāng)中。2.物理模型數(shù)據(jù)倉庫的物理模型,是指邏輯模型在計算機(jī)世界中的具體實現(xiàn)方法,包括物理存取、數(shù)據(jù)存儲結(jié)構(gòu)的構(gòu)造、數(shù)據(jù)存放位置的確定,以及存儲分配策略等。數(shù)據(jù)倉庫的物理數(shù)據(jù)模型是在邏輯模型的基礎(chǔ)上實現(xiàn)的。不同層次的建模側(cè)重點:(1)應(yīng)用層的建模應(yīng)當(dāng)面向應(yīng)用。(2)業(yè)務(wù)信息層的建模應(yīng)當(dāng)以用戶及客戶為中心。(3)數(shù)據(jù)整合層的建模應(yīng)當(dāng)面向主題。數(shù)據(jù)模型3.邏輯模型對概念模型進(jìn)行細(xì)分,即可構(gòu)造出數(shù)據(jù)倉庫的邏輯模型。邏輯模型,是從概念模型過渡到物理模型的中間層次,因此又稱為中間層數(shù)據(jù)模型。數(shù)據(jù)倉庫的邏輯模型描述了數(shù)據(jù)倉庫的主題的邏輯實現(xiàn),即每個主題對應(yīng)的模式定義。一般而言,高層概念模型中的每一個主要的實體或主題域,都需要建立一個對應(yīng)的邏輯模型。邏輯模型是數(shù)據(jù)的邏輯結(jié)構(gòu),如多維模型、關(guān)系模型和層次模型等。目前,對數(shù)據(jù)倉庫數(shù)據(jù)模型的討論大多集中在邏輯模型,其中最常用的是多維模型。多維模型中的基本概念:維是指人們觀察數(shù)據(jù)的特定角度。例如,企業(yè)常常關(guān)心不同銷售數(shù)據(jù)隨時間變化的情況,所以時間就是一個維度。維的層次是指人們觀察數(shù)據(jù)的某個特定角度還可以存在細(xì)節(jié)程度不同的多個描述。一個維度往往有多個層次。例如描述日期維度時,可以有年、季度、月和日等不同層次,則年、季度、月和日就是時間維度的層次。維成員是指維的一個取值。如果一個維是多層次的,則該維度的成員就是在不同層次上取值的組合。例如時間維有年、月和日三個層次,則分別在三個層次上各取一個值組合起來就得到時間維的一個成員,即“某年某月某日”。度量描述了要分析的數(shù)值,例如銷售額等。粒度是指數(shù)據(jù)倉庫所保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度越??;反之,細(xì)化程度越低,粒度越大。02周邊技術(shù)與產(chǎn)品工具ETL(Extract,TransformandLoad)為了實現(xiàn)對數(shù)據(jù)的質(zhì)量進(jìn)行有效地維護(hù)和管理,使數(shù)據(jù)倉庫能夠準(zhǔn)確、安全、可靠地從數(shù)據(jù)庫中取出數(shù)據(jù),經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,供管理人員進(jìn)行分析,需要一種程序來對數(shù)據(jù)進(jìn)行凈化提煉,ETL(Extract,TransformandLoad)正是這樣的程序。ETL是數(shù)據(jù)倉庫的最基本流程,原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換并加載到數(shù)據(jù)倉庫中心存儲庫的過程就被稱為ETL過程,制定這一過程的測量稱之為ETL策略,而完成ETL過程的工具則是ETL工具。ETL是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié),也是企業(yè)數(shù)據(jù)管理的核心,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,對數(shù)據(jù)倉庫的后續(xù)環(huán)節(jié)影響比較大。ETL(Extract,TransformandLoad)1.數(shù)據(jù)抽取數(shù)據(jù)抽取即是從數(shù)據(jù)源中抽取數(shù)據(jù)的過程。源數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫是通過數(shù)據(jù)抽取完成的,從一個或多個源數(shù)據(jù)庫中通過記錄選取進(jìn)行數(shù)據(jù)復(fù)制的過程。抽取過程是將記錄寫入ODS或者臨時區(qū)以備進(jìn)一步處理。數(shù)據(jù)抽取是ETL的首要任務(wù),解決的主要問題是確定需要抽取的數(shù)據(jù),并選用適當(dāng)?shù)某槿》绞健?shù)據(jù)抽取的主要功能:數(shù)據(jù)提取。數(shù)據(jù)清洗。生成衍生數(shù)據(jù)。數(shù)據(jù)抽取的方式有多種,主要包括時戳方式、日志方式、全表對比方式、全表刪除插入方式等。ETL(Extract,TransformandLoad)2.數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是將抽取出的數(shù)據(jù)進(jìn)行過濾、合并、解碼和解釋等,為數(shù)據(jù)倉庫創(chuàng)建有效數(shù)據(jù)的過程。一旦數(shù)據(jù)抽取完成,則需要設(shè)計并確定轉(zhuǎn)換規(guī)則應(yīng)用于已抽取的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換需要理解業(yè)務(wù)側(cè)重點、信息需求和目前可用的源數(shù)據(jù)。常用的轉(zhuǎn)換規(guī)則:字段級的轉(zhuǎn)換。清潔和凈化。多數(shù)據(jù)源處理。聚合和匯總。3.數(shù)據(jù)加載數(shù)據(jù)加載是將轉(zhuǎn)換好的數(shù)據(jù)裝載到數(shù)據(jù)倉庫中,通常分為以下幾種方式:(1)初始裝載。(2)增量裝載。(3)完全刷新。在選擇ETL工具時,應(yīng)當(dāng)從以下幾個原則出發(fā)進(jìn)行考慮:ETL對平臺的支持;對數(shù)據(jù)源的支持;數(shù)據(jù)轉(zhuǎn)換功能;管理和調(diào)度功能;集成和開放性;對元數(shù)據(jù)管理。周邊技術(shù)OLAP技術(shù)目前主流的OLAP產(chǎn)品有OracleExpress/Discoverer、SQLServerAnalysisServices、DB2OLAPServer、SASOLAPServer等,這些產(chǎn)品都可以生成多維數(shù)據(jù)立方體,提供多維數(shù)據(jù)的快速分析,支持所有主流關(guān)系型數(shù)據(jù)庫如DB2,Oracle,SQLServer,Sybase等,同時可讀取關(guān)系數(shù)據(jù)庫中細(xì)節(jié)數(shù)據(jù),實現(xiàn)混合在線分析(HOLAP)或關(guān)系型在線分析(ROLAP)。報表技術(shù)報表技術(shù)主要是將集成在數(shù)據(jù)模型里的數(shù)據(jù),按照復(fù)雜的格式、指定行列統(tǒng)計項,計算形成的特殊表格。一般的簡單報表可以使用通用的前臺展現(xiàn)技術(shù)實現(xiàn),而復(fù)雜的報表則需要使用特定的報表技術(shù)。主流的報表技術(shù)都可以靈活的制定各種報表模版庫和指標(biāo)庫,并根據(jù)每個區(qū)塊或單元格的需要引用指標(biāo),實現(xiàn)一系列復(fù)雜的符合要求的報表的自動生成。數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。通過數(shù)據(jù)挖掘能找出數(shù)據(jù)中隱藏的信息,實現(xiàn)用模型來擬合數(shù)據(jù)、探索、分析數(shù)據(jù),驅(qū)動知識發(fā)現(xiàn),實現(xiàn)機(jī)器學(xué)習(xí)等功能。數(shù)據(jù)倉庫產(chǎn)品Oracle公司的數(shù)據(jù)倉庫解決方案包含了業(yè)界領(lǐng)先的數(shù)據(jù)庫平臺、開發(fā)工具和應(yīng)用系統(tǒng),能夠提供一系列的數(shù)據(jù)倉庫工具集和服務(wù),具有多用戶數(shù)據(jù)倉庫管理能力,多種分區(qū)方式,較強(qiáng)的與OLAP工具的交互能力,及快速和便捷的數(shù)據(jù)移動機(jī)制等特性。IBM公司的數(shù)據(jù)倉庫產(chǎn)品稱為DB2DataWarehouseEdition,它結(jié)合了DB2數(shù)據(jù)服務(wù)器的長處和IBM的商業(yè)智能基礎(chǔ)設(shè)施,集成了用于倉庫管理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘以及OLAP分析和報告的核心組件,提供了一套基于可視數(shù)據(jù)倉庫的商業(yè)智能解決方案。微軟的SQLServer提供了三大服務(wù)和一個工具來實現(xiàn)數(shù)據(jù)倉庫系統(tǒng)的整合,為用戶提供了可用于構(gòu)建典型和創(chuàng)新的分析應(yīng)用程序所需的各種特性、工具和功能,可以實現(xiàn)建模、ETL、建立查詢分析或圖表、定制KPI、建立報表和構(gòu)造數(shù)據(jù)挖掘應(yīng)用及發(fā)布等功能。SAS公司的數(shù)據(jù)倉庫解決方案是一個由30多個專用模塊構(gòu)成的架構(gòu)體系,適應(yīng)于對企業(yè)級的數(shù)據(jù)進(jìn)行重新整合,支持多維、快速查詢,提供服務(wù)于OLAP操作和決策支持的數(shù)據(jù)采集、管理、處理和展現(xiàn)功能。03挖掘任務(wù)與方法挖掘任務(wù)與方法數(shù)據(jù)挖掘的基本任務(wù)按照其挖掘需要達(dá)到的目標(biāo)可以分為分類和預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、異常檢測和智能推薦等。通過完成以上任務(wù),發(fā)現(xiàn)數(shù)據(jù)的價值來指導(dǎo)商業(yè)決策。按照是否有預(yù)先設(shè)置分類可以分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)模型也可以稱為描述性模型,可以概括出數(shù)據(jù)中潛在的模式(相關(guān)、趨勢、聚類、軌跡和異常)。有監(jiān)督模型則是根據(jù)其他屬性的值預(yù)測出特定屬性的值,被預(yù)測的屬性是目標(biāo)變量、因變量,用來做預(yù)測的是說明變量、自變量。無監(jiān)督學(xué)習(xí)模型有監(jiān)督學(xué)習(xí)模型分類與預(yù)測分類與預(yù)測是一種基于類標(biāo)號的學(xué)習(xí)方式。這種類標(biāo)號若是離散的,屬于分類問題;若是連續(xù)的,則屬于預(yù)測問題,或者稱為回歸問題。分類能反映事物的類別,進(jìn)而對事態(tài)發(fā)展進(jìn)行預(yù)測。分類的目的是學(xué)會一個分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類的目的是:分析輸入數(shù)據(jù),通過在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性,為每一個類找到一種準(zhǔn)確的描述或者模型。數(shù)據(jù)分類操作步驟:根據(jù)給定的訓(xùn)練集,找到合適的映射函數(shù)。使用上一步訓(xùn)練完成的函數(shù)和預(yù)測數(shù)據(jù)的類別,或者利用該函數(shù)的模型,對數(shù)據(jù)集中的每一類別進(jìn)行描述,形成分類規(guī)則。分類與預(yù)測決策樹分類器算法決策樹構(gòu)建利用訓(xùn)練樣本生成決策樹模型的過程特別關(guān)注如何找出用于定義某節(jié)點測試的分割點,若已選定某分割點,如何將數(shù)據(jù)進(jìn)行劃分決策樹修剪通過刪除部分節(jié)點和子樹,以避免“過度擬合修剪策略基于代價復(fù)雜度的修剪悲觀修剪MDL修剪分類器可主要應(yīng)用于以下場景:文本分類:電商將客戶的按照關(guān)鍵詞進(jìn)行分類和情感分析。信用風(fēng)險分析:將信用卡申請按照中、低、高風(fēng)險分類。客戶響應(yīng)分析:預(yù)測哪些客戶會對電信公司的產(chǎn)品促銷活動會響應(yīng)。客戶流失預(yù)測:預(yù)測哪些客戶會流失。不滿意客戶預(yù)測:預(yù)測哪些客戶會對移動公司的服務(wù)不滿意,以提前進(jìn)行客戶滿意度提升。聚類分析聚類分析(ClusterAnalysis)的一般定義是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類,是“物以類聚,人以群分”在原始數(shù)據(jù)集中的使用,它將物理或抽象對象的集合組成為由類似對象組成的多個類的過程被成為聚類。由聚類所組成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一簇中的對象彼此類似,與其他簇中的對象相異,最終實現(xiàn)屬于同一個類別的個體之間距離盡可能?。ǜ呦嗨贫龋煌悇e的個體間距離盡可能大(相似度盡可能?。?。目前主要有基于劃分的聚類算法、基于層次的聚類算法、基于密度聚類算法、基于網(wǎng)格的聚類算法、基于神經(jīng)網(wǎng)絡(luò)的聚類算法和基于統(tǒng)計學(xué)的聚類算法。聚類分析k-means是一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該算法只能處理數(shù)值型數(shù)據(jù)。k-modesK-Means算法的擴(kuò)展,采用簡單匹配方法來度量分類型數(shù)據(jù)的相似度。k-prototypes結(jié)合了K-Means和K-Modes兩種算法,能夠處理混合型數(shù)據(jù)。k-medoids在迭代過程中選擇簇中的某點作為聚點,PAM是典型的k-medoids算法。CLARACLARA算法在PAM的基礎(chǔ)上采用了抽樣技術(shù),能夠處理大規(guī)模數(shù)據(jù)。CLARANSCLARANS算法融合了PAM和CLARA兩者的優(yōu)點,是第一個用于空間數(shù)據(jù)庫的聚類算法。FocusedCLARAN采用了空間索引技術(shù)提高了CLARANS算法的效率。PCM模糊集合理論引入聚類分析中并提出了PCM模糊聚類算法?;趧澐值姆椒ǎ≒artition-basedmethods):其原理就是需要對一堆散點進(jìn)行聚類,最終聚類結(jié)果為“類內(nèi)的點都足夠近,類間的點都足夠遠(yuǎn)”。首先我們要確定這堆散點最后聚成幾類,然后挑選幾個點作為初始中心點,再然后依據(jù)預(yù)先定好的啟發(fā)式算法給數(shù)據(jù)點做迭代重置,直到最后到達(dá)“類內(nèi)的點都足夠近,類間的點都足夠遠(yuǎn)”的目標(biāo)效果?;趧澐值木垲惗噙m用于中等體量的數(shù)據(jù)集,但我們也不知道“中等”到底有多“中”,所以不妨理解成,數(shù)據(jù)集越大,越有可能陷入局部最小。聚類分析基于層次的聚類算法(Hierarchicalmethods):其首先計算樣本之間的距離,每次將距離最近的點合并到同一個類,然后再計算類與類之間的距離,將距離最近的類合并為一個大類,不停的合并,直到合成了一個類。層次聚類算法根據(jù)層次分解的順序分為:自下底向上和自上向下,即凝聚的層次聚類算法和分裂的層次聚類算法,也可以理解為自下而上法和自上而下法。自下而上法就是一開始每個個體都是一個類,然后根據(jù)聯(lián)系尋找同類,最后形成一個“類”。自上而下法就是反過來,一開始所有個體都屬于一個“類”,然后根據(jù)聯(lián)系排除異己,最后每個個體都成為一個“類”。CURE采用抽樣技術(shù)先對數(shù)據(jù)集D隨機(jī)抽取樣本,再采用分區(qū)技術(shù)對樣本進(jìn)行分區(qū),然后對每個分區(qū)局部聚類,最后對局部聚類進(jìn)行全局聚類。ROCK也采用了隨機(jī)抽樣技術(shù),該算法在計算兩個對象的相似度時,同時考慮了周圍對象的影響。CHEMALOEN首先由數(shù)據(jù)集構(gòu)造成一個K-最近鄰圖Gk,再通過一個圖的劃分算法將圖Gk劃分成大量的子圖,每個子圖代表一個初始子簇,最后用一個凝聚的層次聚類算法反復(fù)合并子簇,找到真正的結(jié)果簇。SBACSBAC算法則在計算對象間相似度時,考慮了屬性特征對于體現(xiàn)對象本質(zhì)的重要程度,對于更能體現(xiàn)對象本質(zhì)的屬性賦予較高的權(quán)值。BIRCHBIRCH算法利用樹結(jié)構(gòu)對數(shù)據(jù)集進(jìn)行處理,葉結(jié)點存儲一個聚類,用中心和半徑表示,順序處理每一個對象,并把它劃分到距離最近的結(jié)點,該算法也可以作為其他聚類算法的預(yù)處理過程。BUBBLEBUBBLE算法則把BIRCH算法的中心和半徑概念推廣到普通的距離空間。BUBBLE-FMBUBBLE-FM算法通過減少距離的計算次數(shù),提高了BUBBLE算法的效率。聚類分析基于密度聚類的思想就是定一個距離半徑,最少有多少個點,然后把可以到達(dá)的點都連起來,判定為同類。其原理簡單說畫圈,其中要定義兩個參數(shù),一個是圈的最大半徑,一個是一個圈里最少應(yīng)容納幾個點,最后在一個圓圈里的,就是一個類。它解決了k-means解決不了不規(guī)則形狀聚類的問題,同時也對噪聲數(shù)據(jù)的處理比較好。DBSCANDBSCAN算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術(shù)來搜索對象的鄰域,引入了“核心對象”和“密度可達(dá)”等概念,從核心對象出發(fā),把所有密度可達(dá)的對象組成一個簇。GDBSCAN算法通過泛化DBSCAN算法中鄰域的概念,以適應(yīng)空間對象的特點。OPTICSOPTICS算法結(jié)合了聚類的自動性和交互性,先生成聚類的次序,可以對不同的聚類設(shè)置不同的參數(shù),來得到用戶滿意的結(jié)果。FDCFDC算法通過構(gòu)造k-dtree把整個數(shù)據(jù)空間劃分成若干個矩形空間,當(dāng)空間維數(shù)較少時可以大大提高DBSCAN的效率?;诰W(wǎng)格的聚類算法(dding-based)是指將對象空間量化為有限數(shù)目的單元,形成一個網(wǎng)絡(luò)結(jié)構(gòu),所有聚類都在這個網(wǎng)絡(luò)中進(jìn)行。其基本思想是將每個屬性的可能值分割成許多相鄰的區(qū)間,創(chuàng)建網(wǎng)格單元的集合,每個對象落入一個網(wǎng)格單元,網(wǎng)格單元對應(yīng)的屬性區(qū)間包含該對象的值。這種算法的處理速度很快,其處理時間獨(dú)立于數(shù)據(jù)對象的數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān)。STING利用網(wǎng)格單元保存數(shù)據(jù)統(tǒng)計信息,從而實現(xiàn)多分辨率的聚類WaveCluster在聚類分析中引入了小波變換的原理,主要應(yīng)用于信號處理領(lǐng)域。(備注:小波算法在信號處理,圖形圖像,加密解密等領(lǐng)域有重要應(yīng)用,是一種比較高深和牛逼的東西)CLIQUE是一種結(jié)合了網(wǎng)格和密度的聚類算法聚類分析神經(jīng)網(wǎng)絡(luò)(NeuralNetworks,NN)是通過模擬人的大腦處理機(jī)制的生理功能,有大量的、簡單的處理單元(或稱神經(jīng)元)廣泛互連形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),具有大規(guī)模并行、分布式存儲和處理、自組織、自適應(yīng)和自學(xué)習(xí)的能力,特別適用于處理需要同時考慮需要因素和條件的、不精確和模糊的信息處理問題,目前已廣泛應(yīng)用于語音識別、圖像識別與理解、計算機(jī)視覺、智能機(jī)器人、故障檢測等領(lǐng)域中。由于神經(jīng)網(wǎng)絡(luò)具有魯棒性強(qiáng)、可去除噪聲等優(yōu)點,所以不會把幾個噪聲數(shù)據(jù)單獨(dú)聚為一類,從而有效地避免了早上數(shù)據(jù)對于聚類結(jié)果的影響。自組織神經(jīng)網(wǎng)絡(luò)(SOM)是比較常用的神經(jīng)網(wǎng)絡(luò)聚類算法,可以在一維或二維的處理單元陣列上,形成輸入信號的特征拓?fù)浞植?。該方法的基本思想是由外界輸入不同的樣本到人工的自組織映射網(wǎng)絡(luò)中,一開始時,輸入樣本引起輸出興奮細(xì)胞的位置各不相同,但自組織后會形成一些細(xì)胞群,它們分別代表了輸入樣本,反映了輸入樣本的特征。SOM神經(jīng)網(wǎng)絡(luò)模型聚類算法綜合評價表算法名稱可伸縮性適合的數(shù)據(jù)類型高維性異常數(shù)據(jù)的抗干擾性聚類形狀算法效率WaveCluster很高數(shù)值型很高較高任意形狀很高ROCK很高混合型很高很高任意形狀一般BIRCH較高數(shù)值型較低較低球形很高CURE較高數(shù)值型一般很高任意形狀較高K-Prototypes一般混合型較低較低任意形狀一般DENCLUE較低數(shù)值型較高一般任意形狀較高OptiGrid一般數(shù)值型較高一般任意形狀一般CLIQUE較高數(shù)值型較高較高任意形狀較低DBSCAN一般數(shù)值型較低較高任意形狀一般CLARANS較低數(shù)值型較低較高球形較低關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。關(guān)聯(lián)分析又稱為購物籃分析,是數(shù)據(jù)挖掘領(lǐng)域常見的一種算法,主要用于發(fā)現(xiàn)隱藏于大型數(shù)據(jù)集中的有意義的聯(lián)系。關(guān)聯(lián)分析所得到的結(jié)果,我們可以用關(guān)聯(lián)規(guī)則或者頻繁項集的形式表示。項集指的是在關(guān)聯(lián)分析中,包含0個或多個的項稱為項集。如果一個項集包含k個項,那么就稱為k項集。比如{牛奶,咖啡}則稱為2項集。尿布和啤酒關(guān)聯(lián)規(guī)則涉及的四個參數(shù):可信度(Confidence)對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量支持度(Support)對關(guān)聯(lián)規(guī)則重要性的衡量期望可信度(ExpectedConfidence)描述了在沒有物品集A的作用下,物品集B本身的支持度作用度(Lift)描述了物品集A對物品集B的影響力的大小異常檢測什么是異常(Outlier)?異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差而是產(chǎn)生于完全不同的機(jī)制。在統(tǒng)計學(xué)意義下,Outlier是指圖或數(shù)據(jù)表上“顯著遠(yuǎn)離”數(shù)據(jù)主體聚簇的數(shù)據(jù)點。離群點:大部分與其他對象不同的對象。離群點的成因主要有以下三個方面:首先是數(shù)據(jù)來源于不同的類。其次是自然變異,最后也是常見的人們認(rèn)為的數(shù)據(jù)測量和收集誤差。檢測離群點的代表性的算法有:基于深度的算法DEEPLOC,基于局部差異的算法Optics-Of,基于距離的算法FindAllOutsD,基于小波變換的算法FindOut,帶離群度的局部離群點檢測算法LOF和基于機(jī)器學(xué)習(xí)方法的二階段規(guī)則推導(dǎo)算法NP-rule等。離群統(tǒng)計的算法主要有以下幾類:基于統(tǒng)計的算法、基于密度的算法、基于深度的算法、基于距離的算法和基于偏離的算法。對于離群點的檢測,可用于欺詐檢測、入侵檢測等,如電信和信用卡欺騙、貸款審批、消費(fèi)者行為分析、氣象預(yù)報、金融領(lǐng)域客戶分類、網(wǎng)絡(luò)入侵檢測等。描述與可視化描述是增加對復(fù)雜數(shù)據(jù)的了解,可視化是促進(jìn)了解的方式。描述與可視化都不是單獨(dú)的數(shù)據(jù)分析過程,需要與上述分析方法等結(jié)合使用,使分析的結(jié)果更加明晰?;镜拿枋鍪菍γ枋鲂越y(tǒng)計量的分析,如對反應(yīng)集中趨勢的描述統(tǒng)計量:數(shù)值平均數(shù)、算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)、位置平均數(shù)、眾數(shù)、中位數(shù)、分位數(shù)等的分析;反映離中數(shù)據(jù)的描述統(tǒng)計量如全距、平均差、標(biāo)準(zhǔn)差和離散系數(shù)的描述以及反映分布趨勢的描述統(tǒng)計量如偏斜度和峰度等的描述。數(shù)據(jù)的可視化呈現(xiàn)有多種方式,傳統(tǒng)的數(shù)據(jù)可視化工具如Excel、Spss等統(tǒng)計軟件能形成對數(shù)據(jù)統(tǒng)計量的基本的可視化描述。根據(jù)應(yīng)用類型可以分為離線和在線。在線的可視化工具如GoogleChartAPI,目前可以提供動態(tài)圖表工具。Flot,優(yōu)秀的線框圖表庫,支持所有的Canvas的瀏覽器;Rapha?l,創(chuàng)建圖表和圖形的JavaScript庫,與其他庫最大的不同是輸出格式有限,僅限SCG和VML;D3,可以制作信息圖而并不僅僅是數(shù)據(jù)可視化。Visually的定位就是:“信息圖設(shè)計師的在線集市”,也提供了大量的信息圖模板。描述與可視化R.交互化展示包shiny繪圖示例思考題1、數(shù)據(jù)倉庫與數(shù)據(jù)庫有何異同?請簡明闡述數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系。2、簡述ETL的過程及其作用。3、數(shù)據(jù)挖掘的常用算法包括哪些?掌握其區(qū)別與特性。第五章商業(yè)分析的組織環(huán)境商業(yè)分析團(tuán)隊建設(shè)商業(yè)分析人才需求商業(yè)分析組織環(huán)境的發(fā)展變化大數(shù)據(jù)環(huán)境下的企業(yè)文化建設(shè)01團(tuán)隊建設(shè)商業(yè)分析團(tuán)隊建設(shè)一個專業(yè)的數(shù)據(jù)分析公司須擁有5人以上持有資格證書的數(shù)據(jù)分析師方能注冊。除了資格證書,實際開發(fā)能力和大規(guī)模數(shù)據(jù)處理能力是作為大數(shù)據(jù)分析師的必備素養(yǎng)。商業(yè)智能能力中心BICC(Businessintelligencecompetencycenter)是為促進(jìn)智能化方案滲透而專門建設(shè)的團(tuán)隊,是執(zhí)行并影響商業(yè)分析活動的職能中心。BICC在企業(yè)的組織模式商業(yè)分析團(tuán)隊建設(shè)大數(shù)據(jù)時代商業(yè)分析師必須具備的三大能力應(yīng)用運(yùn)營能力項目管理能力數(shù)據(jù)分析能力企業(yè)組建商業(yè)分析團(tuán)隊需要考慮的問題職能定位資源需求團(tuán)隊構(gòu)成商業(yè)分析團(tuán)隊組建02人才需求商業(yè)分析人才需求商業(yè)分析師作為企業(yè)利益相關(guān)者之間的橋梁,負(fù)責(zé)觀察、分析、溝通過和驗證企業(yè)的政策、業(yè)務(wù)流程和信息系統(tǒng)中所需要做出的改善。他們需要在滿足這些需求的大環(huán)境下理解企業(yè)存在的問題和機(jī)遇,提出最佳的方案使企業(yè)達(dá)到既定目標(biāo)。“大數(shù)據(jù)分析師就是一群玩數(shù)據(jù)的人,玩出數(shù)據(jù)的商業(yè)價值,讓數(shù)據(jù)變成生產(chǎn)力?!?/p>
——阿里巴巴集團(tuán)研究員薛貴榮商業(yè)分析人才的社會需求全球最大的職業(yè)社交平臺領(lǐng)英發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》顯示,研發(fā)工程師、產(chǎn)品經(jīng)理、人力資源、市場營銷、運(yùn)營和數(shù)據(jù)分析是當(dāng)下中國互聯(lián)網(wǎng)行業(yè)需求最旺盛的六類人才職位。據(jù)分析,上述六類熱門職位的人才當(dāng)前都處于供不應(yīng)求的狀態(tài),但是人才稀缺程度各有不同。其中研發(fā)工程師需求量最大,而數(shù)據(jù)分析人才最為稀缺。領(lǐng)英報告表明,數(shù)據(jù)分析人才的供給指數(shù)最低,僅為0.05,屬于高度稀缺?;ヂ?lián)網(wǎng)作為新興的行業(yè),其上述六個熱門職位中,約有50%的人才從業(yè)年限都在零到三年之間。六大熱門職位的在職時間普遍低于制造業(yè)、金融業(yè)等傳統(tǒng)行業(yè)。其中數(shù)據(jù)分析平均從業(yè)年限只有3.4年,且資深從業(yè)者最少。作為一個新興行業(yè),其處于供不應(yīng)求的狀態(tài)。因而,商業(yè)分析師的培養(yǎng)在當(dāng)前的社會環(huán)境中非常有前景。商業(yè)分析人才的職業(yè)類型數(shù)據(jù)規(guī)劃師數(shù)據(jù)工程師數(shù)據(jù)架構(gòu)師數(shù)據(jù)分析師數(shù)據(jù)應(yīng)用師數(shù)據(jù)科學(xué)家商業(yè)分析師能力與資格初級境界,主要做數(shù)據(jù)的搜集和整理,呈現(xiàn)的結(jié)果往往只是原始的數(shù)據(jù),需要再經(jīng)過一番分析才能呈現(xiàn)出價值。中級境界,除了要讓數(shù)據(jù)說話,還能在數(shù)據(jù)整理的過程中,發(fā)現(xiàn)問題。比如,淘寶商家的熱銷品銷售量下降,公司運(yùn)營的項目某個時期進(jìn)展不大,他就要用數(shù)據(jù)分析“問題出在哪里”。高級境界,數(shù)據(jù)分析師就能掌握用戶規(guī)律,預(yù)見未來。他們的報告會找出問題,還會指出解決方向——比如,建議公司幾個部門開展調(diào)查、進(jìn)行改進(jìn)。商業(yè)分析師能力與資格數(shù)據(jù)挖掘能力數(shù)據(jù)分析能力數(shù)據(jù)展現(xiàn)能力數(shù)據(jù)應(yīng)用能力數(shù)據(jù)采集能力數(shù)據(jù)存儲能力數(shù)據(jù)提取能力業(yè)務(wù)能力理解行業(yè)動態(tài)和發(fā)展趨勢、客戶的需求與行為以及企業(yè)內(nèi)部的業(yè)務(wù)流程。分析能力使用數(shù)據(jù)分析方法從海量數(shù)據(jù)中發(fā)掘有意義的知識,并將其轉(zhuǎn)化為商業(yè)洞察力。IT能力通過對大數(shù)據(jù)的采集、整合和清理,把大數(shù)據(jù)散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù)。職業(yè)前景項目數(shù)據(jù)分析師,是指通過采集數(shù)據(jù),提取和量化資料,并運(yùn)用相應(yīng)的數(shù)據(jù)模型,對項目投資、項目運(yùn)營、項目評價等項目管理各個環(huán)節(jié)進(jìn)行分析和判斷,為決策者提供決策依據(jù)。數(shù)據(jù)分析師,更注意的是對數(shù)據(jù)、數(shù)據(jù)指標(biāo)的解讀,通過對數(shù)據(jù)的分析,來解決商業(yè)問題。主要有三個層次:業(yè)務(wù)監(jiān)控,建立分析體系以及行業(yè)未來發(fā)展的趨勢分析。數(shù)據(jù)挖掘工程師,更多的是通過對海量數(shù)據(jù)的挖掘,尋找數(shù)據(jù)的存在模式、或者說規(guī)律,從而通過數(shù)據(jù)挖掘來解決具體問題。數(shù)據(jù)挖掘更多是針對某一個具體問題,是以解決具體問題為導(dǎo)向的。數(shù)據(jù)建模師,更偏向中小數(shù)據(jù)量,使用多為統(tǒng)計學(xué)的方法。機(jī)器學(xué)習(xí)等方面的方法則較少使用。03組織環(huán)境的發(fā)展變化商業(yè)分析組織環(huán)境的發(fā)展變化數(shù)據(jù)的增長、覆蓋范圍和處理速度注定將轉(zhuǎn)變企業(yè)的管理模型并改變企業(yè)的決策方式。但要在這些方面獲得真正的成功,需要鼓勵組織成員探尋數(shù)據(jù)所提供的潛在價值。這需要一群熟練掌握信息技術(shù)及數(shù)據(jù)分析方法,且擁有核心的批判性思維方式的新人,以及有能力將這些技巧和方法與商業(yè)領(lǐng)域的知識及專業(yè)經(jīng)驗相結(jié)合的人才。外部環(huán)境人才的培養(yǎng)商業(yè)分析的材料——數(shù)據(jù)資源正在被國內(nèi)外社會廣泛接受,在社會形成廣泛的熱潮,使人們對數(shù)據(jù)以及基于數(shù)據(jù)的分析形成了接受和認(rèn)可的狀態(tài)。從其尚未形成一個完整的職業(yè)名稱和職業(yè)分類,到如今已經(jīng)有資格證書和準(zhǔn)入門檻,有大量的培訓(xùn)教程對入門者進(jìn)行引導(dǎo)。而目前高校也開始注重商業(yè)分析師的培養(yǎng)。04大數(shù)據(jù)環(huán)境下的企業(yè)文化建設(shè)“數(shù)據(jù)資產(chǎn)”理念資源價值從實體轉(zhuǎn)向了虛擬,國內(nèi)外也提出了相關(guān)的概念:digitalbusiness,即數(shù)字化商業(yè)。虛擬資產(chǎn)化導(dǎo)致了信息部門將從成本中心轉(zhuǎn)向利潤中心。數(shù)據(jù)滲透到各行各業(yè),漸漸成為企業(yè)戰(zhàn)略資產(chǎn)。擁有數(shù)據(jù)的規(guī)模、活性以及收集、運(yùn)用數(shù)據(jù)的能力,將決定企業(yè)的核心競爭力。數(shù)據(jù)的虛擬資產(chǎn)化對企業(yè)應(yīng)用主要體現(xiàn)在下面兩個方面:數(shù)據(jù)共享和智能決策?!都埮莆荨肥?0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 石英晶體振蕩器制造工崗前管理綜合考核試卷含答案
- 苗木培育工崗前技能掌握考核試卷含答案
- 煤間接液化分離操作工崗前設(shè)備考核試卷含答案
- 膜劑工安全宣貫?zāi)M考核試卷含答案
- 流延輔助工安全操作測試考核試卷含答案
- 銀幕制造工操作安全模擬考核試卷含答案
- 海南企業(yè)管理培訓(xùn)課件
- 銀行內(nèi)部培訓(xùn)制度
- 酒店員工獎懲激勵與反饋制度
- 超市員工績效考核及評價制度
- 建筑公司發(fā)票培訓(xùn)
- (2025年)qc培訓(xùn)考試試題(含答案)
- DBJ50-T-271-2017 城市軌道交通結(jié)構(gòu)檢測監(jiān)測技術(shù)標(biāo)準(zhǔn)
- 中醫(yī)醫(yī)院等級評審材料準(zhǔn)備全攻略
- 腫瘤科普宣傳課件
- T∕ZZB 0623-2018 有機(jī)溶劑型指甲油
- 70歲老年人三力測試能力考試題庫及答案
- CATL設(shè)備布線標(biāo)準(zhǔn)規(guī)范V6.01
- 110kV輸電線路防雷接地施工詳細(xì)方案
- 村醫(yī)積分制管理實施方案細(xì)則
- 重慶大學(xué)《高等數(shù)學(xué)Ⅱ》2025-2026學(xué)年期末試卷(A卷)
評論
0/150
提交評論