版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025/6/1915:111大數(shù)據(jù)分析本科生必修課程2025/6/1915:112大數(shù)據(jù)分析3大數(shù)據(jù)分析3.1大數(shù)據(jù)的概念與特點(diǎn)3.2大數(shù)據(jù)分析的理解3.3大數(shù)據(jù)分析問題3.4大數(shù)據(jù)技術(shù)3.5大數(shù)據(jù)處理3.6大數(shù)據(jù)環(huán)境下信息分析與數(shù)據(jù)分析的變化3.7大數(shù)據(jù)分析與信息分析比較案例及啟示:可怕的大數(shù)據(jù)一男子情人節(jié)買比薩,打了個(gè)電話,然后徹底崩潰了……大數(shù)據(jù)時(shí)代,誰來保護(hù)我們的隱私?必勝客店的電話鈴響了??头闷痣娫挘罕貏倏汀D?!請問有什么需要我為您服務(wù)?顧客:你好!我想要一份……客服:先生,請先把您的會員卡號告訴我,好嗎?顧客:16846146***??头和跸壬?,您好!您住在泉州路一號12樓1205室。您家電話是2646****,您公司電話是4666****,您的手機(jī)是1391234****。請問您想用哪一個(gè)電話付費(fèi)?顧客:你為什么知道我所有的電話號碼?客服:王先生,因?yàn)槲覀兟?lián)機(jī)CRM系統(tǒng)。顧客:我想要一個(gè)海鮮比薩……客服:王先生,海鮮比薩不適合您。2025/6/1915:11案例及啟示:可怕的大數(shù)據(jù)顧客:為什么?客服:根據(jù)您的醫(yī)療記錄,你的血壓和膽固醇都偏高。顧客:那你有什么可以推薦的?客服:您可以試試我們的低脂健康比薩。顧客:你怎么知道我會喜歡這種的?客服:您上星期一在國家圖書館借了一本《低脂健康食譜》。顧客:好。那我要一個(gè)家庭大號比薩??头和跸壬筇柕牟粔虺?。顧客:為什么?客服:因?yàn)槟乙还灿辛谌?。來個(gè)特大號的,怎樣?顧客:要付多少錢?客服:99元。這個(gè)足夠您一家六口吃了。但您母親應(yīng)該少吃,她上個(gè)月剛剛做了心臟搭橋手術(shù),還處在恢復(fù)期。2025/6/1915:11案例及啟示:可怕的大數(shù)據(jù)顧客:那可以刷卡嗎?客服:王先生,對不起。請您付現(xiàn)款。顧客:你們不是可以刷卡的嗎?客服:一般是可以的。但是您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括您的房貸利息。顧客:那我先去附近的提款機(jī)提款??头和跸壬鶕?jù)您的記錄,您已經(jīng)超過今日提款限額了。顧客:算了,你們直接把比薩送我家吧,家里有現(xiàn)金。你們多久會送到?客服:大約30分鐘。如果您不想等,可以自己騎摩托車來取。顧客:為什么?客服:根據(jù)我們CRM全球定位系統(tǒng)車輛行駛自動跟蹤記錄顯示,您登記的一輛車號為SB-748的摩托車,目前正在解放路東段華聯(lián)商場右側(cè)行駛,離我們店只有50米。2025/6/1915:11案例及啟示:可怕的大數(shù)據(jù)顧客:好吧(頭開始暈)??头和跸壬ㄗh您再帶一小份海鮮比薩。顧客:為什么?你不是說我不能吃嗎?客服:根據(jù)我們CRM通訊系統(tǒng)分析,今天您與一位女性通話頻率高、時(shí)間長,今天又是2.14,我們分析應(yīng)該是您的情人。而這位手機(jī)用戶近來一直買的是海鮮比薩,她應(yīng)該喜歡這種口味。顧客:……客服:您最好現(xiàn)在就送回家,否則您就不方便出來了。顧客:為什么?客服:根據(jù)我們定位系統(tǒng),您的愛人大約30分鐘后到家。顧客:我為什么要出來?客服:您已在匯峰酒店定了今晚的房間,估計(jì)您是與情人約會吧?顧客:當(dāng)即暈倒……2025/6/1915:11案例及啟示:大數(shù)據(jù)經(jīng)典案例1。啤酒與尿布全球零售業(yè)巨頭沃爾瑪在對消費(fèi)者購物行為分析時(shí)發(fā)現(xiàn),男性顧客在購買嬰兒尿片時(shí),常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個(gè)舉措居然使尿布和啤酒的銷量都大幅增加了?!捌【疲虿肌钡臄?shù)據(jù)分析成果已成為大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例。2。數(shù)據(jù)新聞讓英國撤軍2010年10月23日《衛(wèi)報(bào)》利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中所有的人員傷亡情況均標(biāo)注于地圖之上。地圖上一個(gè)紅點(diǎn)便代表一次死傷事件,鼠標(biāo)點(diǎn)擊紅點(diǎn)后彈出的窗口則有詳細(xì)的說明:傷亡人數(shù)、時(shí)間,造成傷亡的具體原因。密布的紅點(diǎn)多達(dá)39萬,顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊(duì)的決定。2025/6/1915:11案例及啟示:大數(shù)據(jù)經(jīng)典案例3。意料之外:胸部最大的是新疆妹子淘寶數(shù)據(jù)平臺顯示,購買最多的文胸尺碼為B罩杯。B罩杯占比達(dá)41.45%,其中又以75B的銷量最好。其次是A罩杯,購買占比達(dá)25.26%,C罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。4。QQ圈子把前女友推薦給未婚妻2012年3月騰訊推出QQ圈子,按共同好友的連鎖反應(yīng)攤開用戶的人際關(guān)系網(wǎng),把用戶的前女友推薦給未婚妻,把同學(xué)同事朋友圈子分門別類,利用大數(shù)據(jù)處理能力給人帶來“震撼”。5?!澳хR”預(yù)知石油市場走向“魔鏡”是蘇州國云數(shù)據(jù)科技公司的一款牛逼的大數(shù)據(jù)可視化產(chǎn)品,而且是國內(nèi)首款?!澳хR”可以通過數(shù)據(jù)的整合分析可視化不僅可以得出誰是世界上最美的女人,還能通過價(jià)量關(guān)系得出市場的走向。在不久前,“魔鏡”幫助中石等企業(yè)分析數(shù)據(jù),將數(shù)據(jù)可視化,使企業(yè)科學(xué)的判斷、決策,節(jié)約成本,合理配置資源,提高了收益。2025/6/1915:11案例及啟示:大數(shù)據(jù)經(jīng)典案例6。Google成功預(yù)測冬季流感2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行比較,并建立一個(gè)特定的數(shù)學(xué)模型。最終google成功預(yù)測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。7。大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一個(gè)對自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬美元的費(fèi)用。他得到的不是樣本,而是包括整個(gè)基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。8。奧巴馬大選連任成功2012年11月奧巴馬大選連任成功的勝利果實(shí)也被歸功于大數(shù)據(jù),因?yàn)樗母傔x團(tuán)隊(duì)進(jìn)行了大規(guī)模與深入的數(shù)據(jù)挖掘。時(shí)代雜志更是斷言,依靠直覺與經(jīng)驗(yàn)進(jìn)行決策的優(yōu)勢急劇下降,在政治領(lǐng)域,大數(shù)據(jù)的時(shí)代已經(jīng)到來;各色媒體、論壇、專家鋪天蓋地的宣傳讓人們對大數(shù)據(jù)時(shí)代的來臨興奮不已,無數(shù)公司和創(chuàng)業(yè)者都紛紛跳進(jìn)了這個(gè)狂歡隊(duì)伍。2025/6/1915:11案例及啟示:大數(shù)據(jù)經(jīng)典案例9。微軟大數(shù)據(jù)成功預(yù)測奧斯卡21項(xiàng)大獎2013年,微軟紐約研究院的經(jīng)濟(jì)學(xué)家大衛(wèi)?羅斯柴爾德(DavidRothschild)利用大數(shù)據(jù)成功預(yù)測24個(gè)奧斯卡獎項(xiàng)中的19個(gè),成為人們津津樂道的話題。今年羅斯柴爾德再接再厲,成功預(yù)測第86屆奧斯卡金像獎頒獎典禮24個(gè)獎項(xiàng)中的21個(gè),繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。10。超市預(yù)知高中生顧客懷孕明尼蘇達(dá)州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一個(gè)高中生。但沒多久他卻來電道歉,因?yàn)榕畠航?jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數(shù)據(jù),然后通過相關(guān)關(guān)系分析得出事情的真實(shí)狀況。2025/6/1915:11案例及啟示:大數(shù)據(jù)挖掘應(yīng)用案例例1:Farecast通過對于機(jī)票數(shù)據(jù)的趨勢變化情況,提供票價(jià)預(yù)測的服務(wù),目前公布準(zhǔn)確度高達(dá)75%,現(xiàn)在被微軟收購,整合在了bing的搜索中。例2:Xoom是從事跨境匯款業(yè)務(wù)的公司,處理過的一個(gè)案例是,單獨(dú)看一筆交易是合法的,但是重新檢查了所有的數(shù)據(jù)之后,發(fā)現(xiàn)犯罪集團(tuán)正在進(jìn)行咋騙。例3:hadoop分析VISA的數(shù)據(jù),將原來需要一個(gè)月的時(shí)間縮短為13分鐘。例4:亞馬遜三分之一的銷售額來自個(gè)性化推薦系統(tǒng)。例5:UPS有6W輛車,通過對車倆損害的數(shù)據(jù)挖掘,能夠及時(shí)的預(yù)測那些車輛需要維修,達(dá)到預(yù)警的目的。例6:美國零售商發(fā)現(xiàn)颶風(fēng)與蛋撻的關(guān)系,提高颶風(fēng)預(yù)防商品銷量。2025/6/1915:11案例及啟示:大數(shù)據(jù)挖掘應(yīng)用案例例子7:日本通過研究駕駛員的坐姿數(shù)據(jù),用來作為汽車防盜系統(tǒng)中。例子8:UPS通過對于位置數(shù)據(jù)的分析,獲取最佳行車路徑。例子9:IBM開發(fā)了一套復(fù)雜的預(yù)測模型,完成了電動汽車動力與電力供應(yīng)系統(tǒng)的預(yù)測。例子10:微軟和谷歌以及百度等搜索引擎的拼寫檢查以及糾錯提示,有效的利用的數(shù)據(jù)廢氣。例子11:巴諾通過分析人們在閱讀的時(shí)候的行為,得出人們往往會放棄長篇幅的非小說類書籍。例子12:The-numbers通過對于歷史電影相關(guān)的數(shù)據(jù)的相關(guān)關(guān)系,來預(yù)測電影票房。2025/6/1915:112025/6/1915:11133.1大數(shù)據(jù)的概念大數(shù)據(jù)的概念“大數(shù)據(jù)”是一個(gè)體量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser:大數(shù)據(jù)就是任何超過了一臺計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。麥肯錫的定義:“大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群或數(shù)據(jù)集”。維基百科(Wikipedia):“大數(shù)據(jù)是難以用現(xiàn)有的數(shù)據(jù)庫管理工具處理的兼具海量特征和復(fù)雜性特征的數(shù)據(jù)集成?!?.1大數(shù)據(jù)的概念與特點(diǎn)涂子沛的定義:指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數(shù)據(jù),認(rèn)為一般應(yīng)該是“太字節(jié)”的數(shù)量級。阿里創(chuàng)始人馬云:大數(shù)據(jù)就是一種服務(wù)。“大數(shù)據(jù)”研究機(jī)構(gòu)Gartner(高德納):大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察力、發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”指的是無法使用傳統(tǒng)流程或工具處理或分析的數(shù)據(jù)和信息。瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇報(bào)告《大數(shù)據(jù),大影響(BigData,BigImpact)》:大數(shù)據(jù)就象貨幣和黃金一樣,是一種新型的經(jīng)濟(jì)資產(chǎn)。
2025/6/1915:112025/6/1915:11153.1大數(shù)據(jù)的概念與特點(diǎn)對大數(shù)據(jù)的理解從存在形態(tài)看:大數(shù)據(jù)分為可以用二維表反映的結(jié)構(gòu)化數(shù)據(jù)和不能以二維表反映的非結(jié)構(gòu)化數(shù)據(jù),如音頻、視頻、圖像、實(shí)物等。從數(shù)據(jù)來源看:大數(shù)據(jù)可分為行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、互聯(lián)網(wǎng)及搜索引擎數(shù)據(jù)三大類?!姓涗洈?shù)據(jù)包括個(gè)人信息記錄數(shù)據(jù)、單位信息記錄數(shù)據(jù)和自然資源記錄數(shù)據(jù)等;——商業(yè)記錄數(shù)據(jù)包括電子商務(wù)交易數(shù)據(jù),企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)和信息咨詢報(bào)告數(shù)據(jù)等;——互聯(lián)網(wǎng)數(shù)據(jù)則包括搜索引擎數(shù)據(jù),新聞媒體數(shù)據(jù)和社交平臺數(shù)據(jù)等。2025/6/1915:11163.1大數(shù)據(jù)的概念與特點(diǎn)從與傳統(tǒng)數(shù)據(jù)比較來看:——大數(shù)據(jù)多是自動化或半自動化生成;——數(shù)據(jù)搜集、處理、存儲和分析能力已極大提高;——數(shù)據(jù)主體和來源日趨多元化;——非結(jié)構(gòu)化數(shù)據(jù)占絕大多數(shù);——需要大量過濾才能提取有用價(jià)值;——隱私與安全也存在著巨大隱患。
從數(shù)據(jù)類型來看:由文字、聲音、視頻、多媒體、流媒體等組成的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)和信息。2025/6/1915:11173.1大數(shù)據(jù)的概念與特點(diǎn)大數(shù)據(jù)的主要來源:各類通信終端電腦:臺式機(jī)、移動PC、服務(wù)器網(wǎng)絡(luò):因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)手機(jī):文字、音頻、視頻、多媒體、流媒體平板電腦:IPAD,文字、音頻、視頻、多媒體、流媒體拍攝設(shè)備:錄音機(jī)、錄像機(jī)、攝像機(jī)GPS:地理信息系統(tǒng)云計(jì)算、網(wǎng)格可穿戴設(shè)備……2025/6/1915:11183.1大數(shù)據(jù)的概念與特點(diǎn)大數(shù)據(jù)的主要來源大數(shù)據(jù)主要產(chǎn)生于超大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)、移動數(shù)據(jù)、射頻采集數(shù)據(jù)、社會計(jì)算數(shù)據(jù)。行業(yè)領(lǐng)域:醫(yī)療衛(wèi)生、地理信息、電子商務(wù)、影視娛樂、天文、科學(xué)研究、交通運(yùn)輸、教育、政府管理等領(lǐng)域每天也都在創(chuàng)造著大量的數(shù)據(jù)。2025/6/1915:11193.1大數(shù)據(jù)的概念與特點(diǎn)大數(shù)據(jù)的計(jì)量單位Byte(1字節(jié))KB(千字節(jié),2的10次方)MB(兆字節(jié),2的20次方)GB(吉字節(jié),2的30次方)TB(太字節(jié),2的40次方)PB(拍字節(jié),2的50次方)EB(艾字節(jié),2的60次方)ZB(澤字節(jié),2的70次方)2025/6/1915:11203.1大數(shù)據(jù)的概念與特點(diǎn)大數(shù)據(jù)體量Gartner(高德納)公司研究認(rèn)為,新產(chǎn)生的數(shù)據(jù)量每年正以至少50%的速度遞增,使得每年新增的數(shù)據(jù)量不到兩年就翻一番。Cisco(思科)公司在一份報(bào)告中推測2015年僅移動數(shù)據(jù)量將會突破每月6EB,等于60億GB。據(jù)麥肯錫全球研究院IDC最新的數(shù)據(jù)測算,到2020年,世界上的數(shù)據(jù)存儲總量達(dá)到35ZB,等于35萬億GB。文獻(xiàn)增長定律:至2010年,全世界信息總量幾乎每1小時(shí)翻一番。摩爾斯定律:計(jì)算機(jī)芯片存儲容量每18個(gè)月翻一番,價(jià)格下降一半。摩爾斯修正定律:計(jì)算機(jī)芯片存儲容量每24個(gè)月翻一番,價(jià)格下降一半。2025/6/1915:11213.1大數(shù)據(jù)的概念與特點(diǎn)淘寶網(wǎng)站每天的交易達(dá)數(shù)千萬,數(shù)據(jù)量超過50TB。百度公司每天大約要處理60億次搜索請求,數(shù)據(jù)量達(dá)幾十PB。一個(gè)8Mbps的攝像頭一小時(shí)能產(chǎn)生3.6GB數(shù)據(jù),一個(gè)城市若安裝幾十萬個(gè)交通和安防攝像頭,每月產(chǎn)生的數(shù)據(jù)量將達(dá)幾十PB。2025/6/1915:11223.1大數(shù)據(jù)的概念與特點(diǎn)大數(shù)據(jù)的特征:6V+1C數(shù)據(jù)體量大(Volume):從GB、TB級躍升到PB、EB級;類型多樣化(Variety):包括文字、網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化異構(gòu)信息;處理速度快(Velocity);應(yīng)用價(jià)值大(Value);獲取與發(fā)送自由靈活(Vender);準(zhǔn)確性(veracity);處理和分析難度大(Complexity):復(fù)雜化。2025/6/1915:11233.2大數(shù)據(jù)分析的理解大數(shù)據(jù)的產(chǎn)生與發(fā)展:大致可以分為三個(gè)階段一是20世紀(jì)80年代至90年代中期,是大數(shù)據(jù)認(rèn)知的萌芽階段。1980年,美國著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中將大數(shù)據(jù)盛贊為“第三次浪潮的華彩樂章”。二是20世紀(jì)90年代中期到21世紀(jì)前10年,是大數(shù)據(jù)廣受各界關(guān)注的階段。美國高德納(GartnerGroup)公司的分析師道格拉斯·蘭尼(DouglasLaney)2001年首次從大數(shù)據(jù)的特征的角度對大數(shù)據(jù)進(jìn)行了相對明確的定義,強(qiáng)調(diào)大數(shù)據(jù)必須具備3V特征,即容量大、多樣化和速度快。三是2010年至今,是大數(shù)據(jù)戰(zhàn)略應(yīng)用被提上日程并迅速發(fā)展的階段。美國總統(tǒng)科學(xué)技術(shù)顧問委員會于2010年給奧巴馬總統(tǒng)和國會呈報(bào)了題為《規(guī)劃數(shù)字化的未來》的報(bào)告。麥肯錫公司于2011年發(fā)布了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿》的報(bào)告。2012年更是一個(gè)重要年份。1月,瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇發(fā)布報(bào)告《大數(shù)據(jù)大影響》;3月,美國奧巴馬政府頒布了《大數(shù)據(jù)的研究和發(fā)展計(jì)劃》;5月,聯(lián)合國秘書長執(zhí)行辦公室發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》的報(bào)告;6月,經(jīng)合組織OECD統(tǒng)計(jì)委員會第9屆會議發(fā)布《使用大數(shù)據(jù)作決策》研究報(bào)告;各國都制訂了大數(shù)據(jù)發(fā)展國家戰(zhàn)略。2025/6/1915:11243.2大數(shù)據(jù)分析的理解國內(nèi)外大數(shù)據(jù)產(chǎn)生與發(fā)展“大數(shù)據(jù)”(Bigdata)是繼“云計(jì)算”之后IT行業(yè)最熱的詞匯。2007年,國外學(xué)者開始關(guān)注“大數(shù)據(jù)”。2008年9月,《nature》雜志發(fā)表了“BigData:Scienceinthepetabyteera”系列專題文章,提出了“大數(shù)據(jù)”的概念。隨后“大數(shù)據(jù)”一詞在IT行業(yè)流行開來。“大數(shù)據(jù)”這一術(shù)語最早可追溯到apacheorg的開源項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來描述更新網(wǎng)絡(luò)搜索需要同時(shí)進(jìn)行批量處理或分析的大量數(shù)據(jù)集。2010年,隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不僅用于描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度,被稱為大數(shù)據(jù)元年。2012年10月《哈佛商業(yè)評論》刊登了一篇“大數(shù)據(jù)”專題文章《數(shù)據(jù)科學(xué)家:21世紀(jì)最性感的職業(yè)》,文章指出,“數(shù)據(jù)科學(xué)家”的主要工作就是在大數(shù)據(jù)上找出有用的信息。2013年則可以稱為中國統(tǒng)計(jì)的大數(shù)據(jù)元年。7月,“大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué):機(jī)遇與挑戰(zhàn)——中國統(tǒng)計(jì)學(xué)高端論壇”在上海財(cái)經(jīng)大學(xué)舉辦;10月,主題為“大數(shù)據(jù)背景下的統(tǒng)計(jì)”的第十七次全國統(tǒng)計(jì)科學(xué)討論會在杭州舉行;11月,國家統(tǒng)計(jì)局與阿里、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。
2025/6/1915:11253.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析(BigDataAnalytics,BDA)是指對海量、類型多樣、增長快速且內(nèi)容真實(shí)的數(shù)據(jù)(即大數(shù)據(jù))進(jìn)行分析,從中找出可以幫助決策的隱藏模式、未知的相關(guān)關(guān)系以及其他有用信息的過程。大數(shù)據(jù)分析的思維模式——以大數(shù)據(jù)為分析對象:全樣本、總體樣本——全樣本分析——以數(shù)據(jù)庫、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)算法為工具——數(shù)據(jù)挖掘——發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律、聯(lián)系——相關(guān)分析與關(guān)聯(lián)發(fā)現(xiàn)大數(shù)據(jù)分析的核心——注重?cái)?shù)據(jù)非定量分析——關(guān)注多源數(shù)據(jù)融合——強(qiáng)調(diào)相關(guān)性分析2025/6/1915:11263.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析:三大理念要全體不要抽樣:抽樣割裂了數(shù)據(jù)之間的聯(lián)系;要效率不要精確:在海量數(shù)據(jù)時(shí)代,時(shí)間和成本比精確結(jié)果更有意義;要相關(guān)不要因果:知道是什么比知道為什么更重要。如股票信息,根據(jù)大數(shù)據(jù)分析很容易知道漲還是跌,但很難知道為什么會漲或跌。2025/6/1915:11273.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析大數(shù)據(jù)分析的對象是總體樣本或全樣本。大數(shù)據(jù)分析的目的通過分析獲取更多智能的、深入的、潛在的、有價(jià)值的信息。大數(shù)據(jù)分析方法是決定最終信息是否有價(jià)值的決定性因素。大數(shù)據(jù)分析的基礎(chǔ):——數(shù)據(jù)挖掘算法;——趨勢預(yù)測和關(guān)聯(lián)發(fā)現(xiàn):如谷歌對流感的預(yù)測;——數(shù)據(jù)質(zhì)量;——數(shù)據(jù)管理;——可視化展示。3.3大數(shù)據(jù)分析問題2025/6/1915:11283.4大數(shù)據(jù)分析技術(shù)解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)集。2025/6/1915:112025/6/1915:11303.4大數(shù)據(jù)分析技術(shù)2025/6/1915:11313.4大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù):——數(shù)據(jù)采集技術(shù):負(fù)責(zé)將分布的、ETL(extract、transform、load)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
2025/6/1915:11323.4大數(shù)據(jù)分析技術(shù)——數(shù)據(jù)存取技術(shù):關(guān)系數(shù)據(jù)庫、NOSQL、SQL等?!A(chǔ)架構(gòu):云存儲、分布式文件存儲等。——數(shù)據(jù)處理技術(shù):自然語言處理(NLP,NaturalLanguageProcessing)是研究人機(jī)交互語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計(jì)算機(jī)“理解”自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguageUnderstanding),也稱為計(jì)算語言學(xué)(ComputationalLinguistics。也是人工智能(AI,ArtificialIntelligence)的核心課題。2025/6/1915:11333.4大數(shù)據(jù)分析技術(shù)——統(tǒng)計(jì)分析技術(shù):假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等?!獢?shù)據(jù)挖掘技術(shù):分類(Classification)估計(jì)(Estimation)預(yù)測、(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)聚類、(Clustering)描述和可視化、DescriptionandVisualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)?!P皖A(yù)測技術(shù):預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真?!Y(jié)果呈現(xiàn)技術(shù):云計(jì)算、標(biāo)簽云、關(guān)系圖、可視化等。2025/6/1915:11343.5大數(shù)據(jù)處理大數(shù)據(jù)處理:四個(gè)基本步驟大數(shù)據(jù)處理之一:大數(shù)據(jù)采集——大數(shù)據(jù)采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理。如電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù)?!髷?shù)據(jù)采集的主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會有成千上萬的用戶來進(jìn)行訪問和操作。如火車票售票網(wǎng)站和淘寶,并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬,需要在采集端部署大量數(shù)據(jù)庫才能支撐。
2025/6/1915:11353.5大數(shù)據(jù)處理大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理——數(shù)據(jù)采集端本身有很多數(shù)據(jù)庫,但無法對海量數(shù)據(jù)進(jìn)行有效分析,必須將數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作?!脩粼趯?dǎo)入數(shù)據(jù)時(shí)也會使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計(jì)算,滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求?!獢?shù)據(jù)導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。2025/6/1915:11363.5大數(shù)據(jù)處理大數(shù)據(jù)處理之三:統(tǒng)計(jì)/分析
——統(tǒng)計(jì)與分析主要是利用分布式數(shù)據(jù)庫或者分布式計(jì)算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。——實(shí)時(shí)性需求可能會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop?!獢?shù)據(jù)統(tǒng)計(jì)與分析的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,對系統(tǒng)資源,特別是I/O會有極大的占用。
2025/6/1915:11373.5大數(shù)據(jù)處理大數(shù)據(jù)處理之四:數(shù)據(jù)挖掘——數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是對現(xiàn)有數(shù)據(jù)進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求?!容^典型的挖掘算法有:用于聚類的Kmeans算法、用于統(tǒng)計(jì)學(xué)習(xí)的SVM算法和用于分類的NaiveBayes算法。——主要工具有Hadoop、Mahout、Mapreduce等?!獢?shù)據(jù)挖掘的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用的數(shù)據(jù)挖掘算法都是以單線程為主,不能滿足大數(shù)據(jù)挖掘的需要。
2025/6/1915:11383.6大數(shù)據(jù)時(shí)代信息分析的變化大數(shù)據(jù)時(shí)代信息分析的變化變化一:分析對象的變化。大數(shù)據(jù)處理和分析的對象不是隨機(jī)樣本,而是全體數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)處理和分析的小樣本、抽樣樣本、部分樣本已無法代表大數(shù)據(jù)的特征,或者說大數(shù)據(jù)時(shí)代已無法從部分樣本的特征中推導(dǎo)全體數(shù)據(jù)的特征和規(guī)律。關(guān)聯(lián)、規(guī)則和規(guī)律可能隱含在大數(shù)據(jù)中,樣本則可能割裂了事物之間的關(guān)聯(lián)。變化二:信息處理方式的變化。大數(shù)據(jù)是非結(jié)構(gòu)化信息,數(shù)據(jù)結(jié)構(gòu)混亂,需要改變傳統(tǒng)結(jié)構(gòu)化、標(biāo)準(zhǔn)化和精確化的信息處理方式,設(shè)計(jì)新的且適合大數(shù)據(jù)特征的數(shù)據(jù)庫。大數(shù)據(jù)分析可能得不到精確的分析結(jié)果,但可能提供更多需要的結(jié)果和發(fā)現(xiàn)。3.6大數(shù)據(jù)時(shí)代信息分析的變化變化三:關(guān)聯(lián)發(fā)現(xiàn)代替數(shù)學(xué)模型。大數(shù)據(jù)分析的目的是發(fā)現(xiàn)大容量數(shù)據(jù)中隱含的關(guān)聯(lián)和規(guī)律,即事物相關(guān)關(guān)系的挖掘與發(fā)現(xiàn),亦即解決“是什么”的問題。而不是試圖發(fā)現(xiàn)、解釋和推導(dǎo)事物間的因果關(guān)系,即解決“為什么”的問題。變化四:一切皆可“量化”、“數(shù)據(jù)化”。大數(shù)據(jù)發(fā)展的核心動力源于人類測量、記錄和分析世界的渴望,但我們更應(yīng)該把注意力放在數(shù)據(jù)和信息本身上,而不是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全員A證考試題庫檢測試題打印及答案詳解(有一套)
- 安全員A證考試考試彩蛋押題【滿分必刷】附答案詳解
- 企事業(yè)單位信息系統(tǒng)風(fēng)險(xiǎn)評估制度
- 中間包安全生產(chǎn)管理制度
- 沃爾瑪生產(chǎn)運(yùn)營管理制度
- 食品內(nèi)包裝生產(chǎn)管理制度
- 企業(yè)安全生產(chǎn)違章制度
- 生物肥料廠生產(chǎn)管理制度
- 生產(chǎn)調(diào)度負(fù)責(zé)人崗位制度
- 農(nóng)產(chǎn)品生產(chǎn)環(huán)境監(jiān)管制度
- 麻醉科2025年度工作總結(jié)與2026年發(fā)展規(guī)劃
- 2026屆安徽省合肥一中八中、六中生物高一上期末聯(lián)考試題含解析
- 中西醫(yī)結(jié)合治療慢性病康復(fù)優(yōu)勢
- 診所醫(yī)生營銷培訓(xùn)課件
- 2026年開封大學(xué)單招職業(yè)傾向性測試題庫及答案詳解1套
- 2025遼寧葫蘆島市市直部分事業(yè)單位招聘高層次人才84人參考考試試題及答案解析
- 《小學(xué)數(shù)學(xué)課程與教學(xué)論》課程教學(xué)大綱
- 地下停車庫申請書范文
- 幼兒園教育活動座位擺放指南
- 施工現(xiàn)場吊裝令標(biāo)準(zhǔn)格式模板
- 移動支付安全體系架構(gòu)-洞察與解讀
評論
0/150
提交評論