信息分析 第2版 課件 第3、4講 大數(shù)據(jù)分析;信息分析程序_第1頁
信息分析 第2版 課件 第3、4講 大數(shù)據(jù)分析;信息分析程序_第2頁
信息分析 第2版 課件 第3、4講 大數(shù)據(jù)分析;信息分析程序_第3頁
信息分析 第2版 課件 第3、4講 大數(shù)據(jù)分析;信息分析程序_第4頁
信息分析 第2版 課件 第3、4講 大數(shù)據(jù)分析;信息分析程序_第5頁
已閱讀5頁,還剩99頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2025/6/208:561大數(shù)據(jù)分析本科生必修課程2025/6/208:562大數(shù)據(jù)分析3大數(shù)據(jù)分析3.1大數(shù)據(jù)的概念與特點3.2大數(shù)據(jù)分析的理解3.3大數(shù)據(jù)分析問題3.4大數(shù)據(jù)技術3.5大數(shù)據(jù)處理3.6大數(shù)據(jù)環(huán)境下信息分析與數(shù)據(jù)分析的變化3.7大數(shù)據(jù)分析與信息分析比較案例及啟示:可怕的大數(shù)據(jù)一男子情人節(jié)買比薩,打了個電話,然后徹底崩潰了……大數(shù)據(jù)時代,誰來保護我們的隱私?必勝客店的電話鈴響了??头闷痣娫挘罕貏倏?。您好!請問有什么需要我為您服務?顧客:你好!我想要一份……客服:先生,請先把您的會員卡號告訴我,好嗎?顧客:16846146***??头和跸壬?,您好!您住在泉州路一號12樓1205室。您家電話是2646****,您公司電話是4666****,您的手機是1391234****。請問您想用哪一個電話付費?顧客:你為什么知道我所有的電話號碼?客服:王先生,因為我們聯(lián)機CRM系統(tǒng)。顧客:我想要一個海鮮比薩……客服:王先生,海鮮比薩不適合您。2025/6/208:56案例及啟示:可怕的大數(shù)據(jù)顧客:為什么?客服:根據(jù)您的醫(yī)療記錄,你的血壓和膽固醇都偏高。顧客:那你有什么可以推薦的?客服:您可以試試我們的低脂健康比薩。顧客:你怎么知道我會喜歡這種的?客服:您上星期一在國家圖書館借了一本《低脂健康食譜》。顧客:好。那我要一個家庭大號比薩??头和跸壬?,大號的不夠吃。顧客:為什么?客服:因為您家一共有六口人。來個特大號的,怎樣?顧客:要付多少錢?客服:99元。這個足夠您一家六口吃了。但您母親應該少吃,她上個月剛剛做了心臟搭橋手術,還處在恢復期。2025/6/208:56案例及啟示:可怕的大數(shù)據(jù)顧客:那可以刷卡嗎?客服:王先生,對不起。請您付現(xiàn)款。顧客:你們不是可以刷卡的嗎?客服:一般是可以的。但是您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括您的房貸利息。顧客:那我先去附近的提款機提款??头和跸壬?,根據(jù)您的記錄,您已經(jīng)超過今日提款限額了。顧客:算了,你們直接把比薩送我家吧,家里有現(xiàn)金。你們多久會送到?客服:大約30分鐘。如果您不想等,可以自己騎摩托車來取。顧客:為什么?客服:根據(jù)我們CRM全球定位系統(tǒng)車輛行駛自動跟蹤記錄顯示,您登記的一輛車號為SB-748的摩托車,目前正在解放路東段華聯(lián)商場右側(cè)行駛,離我們店只有50米。2025/6/208:56案例及啟示:可怕的大數(shù)據(jù)顧客:好吧(頭開始暈)??头和跸壬?,建議您再帶一小份海鮮比薩。顧客:為什么?你不是說我不能吃嗎?客服:根據(jù)我們CRM通訊系統(tǒng)分析,今天您與一位女性通話頻率高、時間長,今天又是2.14,我們分析應該是您的情人。而這位手機用戶近來一直買的是海鮮比薩,她應該喜歡這種口味。顧客:……客服:您最好現(xiàn)在就送回家,否則您就不方便出來了。顧客:為什么?客服:根據(jù)我們定位系統(tǒng),您的愛人大約30分鐘后到家。顧客:我為什么要出來?客服:您已在匯峰酒店定了今晚的房間,估計您是與情人約會吧?顧客:當即暈倒……2025/6/208:56案例及啟示:大數(shù)據(jù)經(jīng)典案例1。啤酒與尿布全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。“啤酒+尿布”的數(shù)據(jù)分析成果已成為大數(shù)據(jù)技術應用的經(jīng)典案例。2。數(shù)據(jù)新聞讓英國撤軍2010年10月23日《衛(wèi)報》利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中所有的人員傷亡情況均標注于地圖之上。地圖上一個紅點便代表一次死傷事件,鼠標點擊紅點后彈出的窗口則有詳細的說明:傷亡人數(shù)、時間,造成傷亡的具體原因。密布的紅點多達39萬,顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊的決定。2025/6/208:56案例及啟示:大數(shù)據(jù)經(jīng)典案例3。意料之外:胸部最大的是新疆妹子淘寶數(shù)據(jù)平臺顯示,購買最多的文胸尺碼為B罩杯。B罩杯占比達41.45%,其中又以75B的銷量最好。其次是A罩杯,購買占比達25.26%,C罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。4。QQ圈子把前女友推薦給未婚妻2012年3月騰訊推出QQ圈子,按共同好友的連鎖反應攤開用戶的人際關系網(wǎng),把用戶的前女友推薦給未婚妻,把同學同事朋友圈子分門別類,利用大數(shù)據(jù)處理能力給人帶來“震撼”。5。“魔鏡”預知石油市場走向“魔鏡”是蘇州國云數(shù)據(jù)科技公司的一款牛逼的大數(shù)據(jù)可視化產(chǎn)品,而且是國內(nèi)首款。“魔鏡”可以通過數(shù)據(jù)的整合分析可視化不僅可以得出誰是世界上最美的女人,還能通過價量關系得出市場的走向。在不久前,“魔鏡”幫助中石等企業(yè)分析數(shù)據(jù),將數(shù)據(jù)可視化,使企業(yè)科學的判斷、決策,節(jié)約成本,合理配置資源,提高了收益。2025/6/208:56案例及啟示:大數(shù)據(jù)經(jīng)典案例6。Google成功預測冬季流感2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行比較,并建立一個特定的數(shù)學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。7。大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。8。奧巴馬大選連任成功2012年11月奧巴馬大選連任成功的勝利果實也被歸功于大數(shù)據(jù),因為他的競選團隊進行了大規(guī)模與深入的數(shù)據(jù)挖掘。時代雜志更是斷言,依靠直覺與經(jīng)驗進行決策的優(yōu)勢急劇下降,在政治領域,大數(shù)據(jù)的時代已經(jīng)到來;各色媒體、論壇、專家鋪天蓋地的宣傳讓人們對大數(shù)據(jù)時代的來臨興奮不已,無數(shù)公司和創(chuàng)業(yè)者都紛紛跳進了這個狂歡隊伍。2025/6/208:56案例及啟示:大數(shù)據(jù)經(jīng)典案例9。微軟大數(shù)據(jù)成功預測奧斯卡21項大獎2013年,微軟紐約研究院的經(jīng)濟學家大衛(wèi)?羅斯柴爾德(DavidRothschild)利用大數(shù)據(jù)成功預測24個奧斯卡獎項中的19個,成為人們津津樂道的話題。今年羅斯柴爾德再接再厲,成功預測第86屆奧斯卡金像獎頒獎典禮24個獎項中的21個,繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。10。超市預知高中生顧客懷孕明尼蘇達州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因為女兒經(jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數(shù)據(jù),然后通過相關關系分析得出事情的真實狀況。2025/6/208:56案例及啟示:大數(shù)據(jù)挖掘應用案例例1:Farecast通過對于機票數(shù)據(jù)的趨勢變化情況,提供票價預測的服務,目前公布準確度高達75%,現(xiàn)在被微軟收購,整合在了bing的搜索中。例2:Xoom是從事跨境匯款業(yè)務的公司,處理過的一個案例是,單獨看一筆交易是合法的,但是重新檢查了所有的數(shù)據(jù)之后,發(fā)現(xiàn)犯罪集團正在進行咋騙。例3:hadoop分析VISA的數(shù)據(jù),將原來需要一個月的時間縮短為13分鐘。例4:亞馬遜三分之一的銷售額來自個性化推薦系統(tǒng)。例5:UPS有6W輛車,通過對車倆損害的數(shù)據(jù)挖掘,能夠及時的預測那些車輛需要維修,達到預警的目的。例6:美國零售商發(fā)現(xiàn)颶風與蛋撻的關系,提高颶風預防商品銷量。2025/6/208:56案例及啟示:大數(shù)據(jù)挖掘應用案例例子7:日本通過研究駕駛員的坐姿數(shù)據(jù),用來作為汽車防盜系統(tǒng)中。例子8:UPS通過對于位置數(shù)據(jù)的分析,獲取最佳行車路徑。例子9:IBM開發(fā)了一套復雜的預測模型,完成了電動汽車動力與電力供應系統(tǒng)的預測。例子10:微軟和谷歌以及百度等搜索引擎的拼寫檢查以及糾錯提示,有效的利用的數(shù)據(jù)廢氣。例子11:巴諾通過分析人們在閱讀的時候的行為,得出人們往往會放棄長篇幅的非小說類書籍。例子12:The-numbers通過對于歷史電影相關的數(shù)據(jù)的相關關系,來預測電影票房。2025/6/208:562025/6/208:56133.1大數(shù)據(jù)的概念大數(shù)據(jù)的概念“大數(shù)據(jù)”是一個體量特別大、數(shù)據(jù)類別特別復雜的數(shù)據(jù)集,無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。亞馬遜網(wǎng)絡服務(AWS)、大數(shù)據(jù)科學家JohnRauser:大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。麥肯錫的定義:“大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群或數(shù)據(jù)集”。維基百科(Wikipedia):“大數(shù)據(jù)是難以用現(xiàn)有的數(shù)據(jù)庫管理工具處理的兼具海量特征和復雜性特征的數(shù)據(jù)集成?!?.1大數(shù)據(jù)的概念與特點涂子沛的定義:指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數(shù)據(jù),認為一般應該是“太字節(jié)”的數(shù)量級。阿里創(chuàng)始人馬云:大數(shù)據(jù)就是一種服務?!按髷?shù)據(jù)”研究機構Gartner(高德納):大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力、發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。“大數(shù)據(jù)”指的是無法使用傳統(tǒng)流程或工具處理或分析的數(shù)據(jù)和信息。瑞士達沃斯世界經(jīng)濟論壇報告《大數(shù)據(jù),大影響(BigData,BigImpact)》:大數(shù)據(jù)就象貨幣和黃金一樣,是一種新型的經(jīng)濟資產(chǎn)。

2025/6/208:562025/6/208:56153.1大數(shù)據(jù)的概念與特點對大數(shù)據(jù)的理解從存在形態(tài)看:大數(shù)據(jù)分為可以用二維表反映的結構化數(shù)據(jù)和不能以二維表反映的非結構化數(shù)據(jù),如音頻、視頻、圖像、實物等。從數(shù)據(jù)來源看:大數(shù)據(jù)可分為行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、互聯(lián)網(wǎng)及搜索引擎數(shù)據(jù)三大類。——行政記錄數(shù)據(jù)包括個人信息記錄數(shù)據(jù)、單位信息記錄數(shù)據(jù)和自然資源記錄數(shù)據(jù)等;——商業(yè)記錄數(shù)據(jù)包括電子商務交易數(shù)據(jù),企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)和信息咨詢報告數(shù)據(jù)等;——互聯(lián)網(wǎng)數(shù)據(jù)則包括搜索引擎數(shù)據(jù),新聞媒體數(shù)據(jù)和社交平臺數(shù)據(jù)等。2025/6/208:56163.1大數(shù)據(jù)的概念與特點從與傳統(tǒng)數(shù)據(jù)比較來看:——大數(shù)據(jù)多是自動化或半自動化生成;——數(shù)據(jù)搜集、處理、存儲和分析能力已極大提高;——數(shù)據(jù)主體和來源日趨多元化;——非結構化數(shù)據(jù)占絕大多數(shù);——需要大量過濾才能提取有用價值;——隱私與安全也存在著巨大隱患。

從數(shù)據(jù)類型來看:由文字、聲音、視頻、多媒體、流媒體等組成的結構化、半結構化和非結構化數(shù)據(jù)和信息。2025/6/208:56173.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的主要來源:各類通信終端電腦:臺式機、移動PC、服務器網(wǎng)絡:因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)手機:文字、音頻、視頻、多媒體、流媒體平板電腦:IPAD,文字、音頻、視頻、多媒體、流媒體拍攝設備:錄音機、錄像機、攝像機GPS:地理信息系統(tǒng)云計算、網(wǎng)格可穿戴設備……2025/6/208:56183.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的主要來源大數(shù)據(jù)主要產(chǎn)生于超大規(guī)模的網(wǎng)絡數(shù)據(jù)、移動數(shù)據(jù)、射頻采集數(shù)據(jù)、社會計算數(shù)據(jù)。行業(yè)領域:醫(yī)療衛(wèi)生、地理信息、電子商務、影視娛樂、天文、科學研究、交通運輸、教育、政府管理等領域每天也都在創(chuàng)造著大量的數(shù)據(jù)。2025/6/208:56193.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的計量單位Byte(1字節(jié))KB(千字節(jié),2的10次方)MB(兆字節(jié),2的20次方)GB(吉字節(jié),2的30次方)TB(太字節(jié),2的40次方)PB(拍字節(jié),2的50次方)EB(艾字節(jié),2的60次方)ZB(澤字節(jié),2的70次方)2025/6/208:56203.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)體量Gartner(高德納)公司研究認為,新產(chǎn)生的數(shù)據(jù)量每年正以至少50%的速度遞增,使得每年新增的數(shù)據(jù)量不到兩年就翻一番。Cisco(思科)公司在一份報告中推測2015年僅移動數(shù)據(jù)量將會突破每月6EB,等于60億GB。據(jù)麥肯錫全球研究院IDC最新的數(shù)據(jù)測算,到2020年,世界上的數(shù)據(jù)存儲總量達到35ZB,等于35萬億GB。文獻增長定律:至2010年,全世界信息總量幾乎每1小時翻一番。摩爾斯定律:計算機芯片存儲容量每18個月翻一番,價格下降一半。摩爾斯修正定律:計算機芯片存儲容量每24個月翻一番,價格下降一半。2025/6/208:56213.1大數(shù)據(jù)的概念與特點淘寶網(wǎng)站每天的交易達數(shù)千萬,數(shù)據(jù)量超過50TB。百度公司每天大約要處理60億次搜索請求,數(shù)據(jù)量達幾十PB。一個8Mbps的攝像頭一小時能產(chǎn)生3.6GB數(shù)據(jù),一個城市若安裝幾十萬個交通和安防攝像頭,每月產(chǎn)生的數(shù)據(jù)量將達幾十PB。2025/6/208:56223.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的特征:6V+1C數(shù)據(jù)體量大(Volume):從GB、TB級躍升到PB、EB級;類型多樣化(Variety):包括文字、網(wǎng)絡日志、音頻、視頻、圖片、地理位置等結構化、半結構化、非結構化異構信息;處理速度快(Velocity);應用價值大(Value);獲取與發(fā)送自由靈活(Vender);準確性(veracity);處理和分析難度大(Complexity):復雜化。2025/6/208:56233.2大數(shù)據(jù)分析的理解大數(shù)據(jù)的產(chǎn)生與發(fā)展:大致可以分為三個階段一是20世紀80年代至90年代中期,是大數(shù)據(jù)認知的萌芽階段。1980年,美國著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中將大數(shù)據(jù)盛贊為“第三次浪潮的華彩樂章”。二是20世紀90年代中期到21世紀前10年,是大數(shù)據(jù)廣受各界關注的階段。美國高德納(GartnerGroup)公司的分析師道格拉斯·蘭尼(DouglasLaney)2001年首次從大數(shù)據(jù)的特征的角度對大數(shù)據(jù)進行了相對明確的定義,強調(diào)大數(shù)據(jù)必須具備3V特征,即容量大、多樣化和速度快。三是2010年至今,是大數(shù)據(jù)戰(zhàn)略應用被提上日程并迅速發(fā)展的階段。美國總統(tǒng)科學技術顧問委員會于2010年給奧巴馬總統(tǒng)和國會呈報了題為《規(guī)劃數(shù)字化的未來》的報告。麥肯錫公司于2011年發(fā)布了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》的報告。2012年更是一個重要年份。1月,瑞士達沃斯世界經(jīng)濟論壇發(fā)布報告《大數(shù)據(jù)大影響》;3月,美國奧巴馬政府頒布了《大數(shù)據(jù)的研究和發(fā)展計劃》;5月,聯(lián)合國秘書長執(zhí)行辦公室發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》的報告;6月,經(jīng)合組織OECD統(tǒng)計委員會第9屆會議發(fā)布《使用大數(shù)據(jù)作決策》研究報告;各國都制訂了大數(shù)據(jù)發(fā)展國家戰(zhàn)略。2025/6/208:56243.2大數(shù)據(jù)分析的理解國內(nèi)外大數(shù)據(jù)產(chǎn)生與發(fā)展“大數(shù)據(jù)”(Bigdata)是繼“云計算”之后IT行業(yè)最熱的詞匯。2007年,國外學者開始關注“大數(shù)據(jù)”。2008年9月,《nature》雜志發(fā)表了“BigData:Scienceinthepetabyteera”系列專題文章,提出了“大數(shù)據(jù)”的概念。隨后“大數(shù)據(jù)”一詞在IT行業(yè)流行開來。“大數(shù)據(jù)”這一術語最早可追溯到apacheorg的開源項目Nutch。當時,大數(shù)據(jù)用來描述更新網(wǎng)絡搜索需要同時進行批量處理或分析的大量數(shù)據(jù)集。2010年,隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不僅用于描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度,被稱為大數(shù)據(jù)元年。2012年10月《哈佛商業(yè)評論》刊登了一篇“大數(shù)據(jù)”專題文章《數(shù)據(jù)科學家:21世紀最性感的職業(yè)》,文章指出,“數(shù)據(jù)科學家”的主要工作就是在大數(shù)據(jù)上找出有用的信息。2013年則可以稱為中國統(tǒng)計的大數(shù)據(jù)元年。7月,“大數(shù)據(jù)時代統(tǒng)計學:機遇與挑戰(zhàn)——中國統(tǒng)計學高端論壇”在上海財經(jīng)大學舉辦;10月,主題為“大數(shù)據(jù)背景下的統(tǒng)計”的第十七次全國統(tǒng)計科學討論會在杭州舉行;11月,國家統(tǒng)計局與阿里、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。

2025/6/208:56253.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析(BigDataAnalytics,BDA)是指對海量、類型多樣、增長快速且內(nèi)容真實的數(shù)據(jù)(即大數(shù)據(jù))進行分析,從中找出可以幫助決策的隱藏模式、未知的相關關系以及其他有用信息的過程。大數(shù)據(jù)分析的思維模式——以大數(shù)據(jù)為分析對象:全樣本、總體樣本——全樣本分析——以數(shù)據(jù)庫、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)算法為工具——數(shù)據(jù)挖掘——發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律、聯(lián)系——相關分析與關聯(lián)發(fā)現(xiàn)大數(shù)據(jù)分析的核心——注重數(shù)據(jù)非定量分析——關注多源數(shù)據(jù)融合——強調(diào)相關性分析2025/6/208:56263.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析:三大理念要全體不要抽樣:抽樣割裂了數(shù)據(jù)之間的聯(lián)系;要效率不要精確:在海量數(shù)據(jù)時代,時間和成本比精確結果更有意義;要相關不要因果:知道是什么比知道為什么更重要。如股票信息,根據(jù)大數(shù)據(jù)分析很容易知道漲還是跌,但很難知道為什么會漲或跌。2025/6/208:56273.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析大數(shù)據(jù)分析的對象是總體樣本或全樣本。大數(shù)據(jù)分析的目的通過分析獲取更多智能的、深入的、潛在的、有價值的信息。大數(shù)據(jù)分析方法是決定最終信息是否有價值的決定性因素。大數(shù)據(jù)分析的基礎:——數(shù)據(jù)挖掘算法;——趨勢預測和關聯(lián)發(fā)現(xiàn):如谷歌對流感的預測;——數(shù)據(jù)質(zhì)量;——數(shù)據(jù)管理;——可視化展示。3.3大數(shù)據(jù)分析問題2025/6/208:56283.4大數(shù)據(jù)分析技術解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術。大數(shù)據(jù)技術是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術集。2025/6/208:562025/6/208:56303.4大數(shù)據(jù)分析技術2025/6/208:56313.4大數(shù)據(jù)分析技術大數(shù)據(jù)技術大數(shù)據(jù)關鍵技術:——數(shù)據(jù)采集技術:負責將分布的、ETL(extract、transform、load)異構數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。

2025/6/208:56323.4大數(shù)據(jù)分析技術——數(shù)據(jù)存取技術:關系數(shù)據(jù)庫、NOSQL、SQL等?!A架構:云存儲、分布式文件存儲等?!獢?shù)據(jù)處理技術:自然語言處理(NLP,NaturalLanguageProcessing)是研究人機交互語言問題的一門學科。處理自然語言的關鍵是要讓計算機“理解”自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguageUnderstanding),也稱為計算語言學(ComputationalLinguistics。也是人工智能(AI,ArtificialIntelligence)的核心課題。2025/6/208:56333.4大數(shù)據(jù)分析技術——統(tǒng)計分析技術:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術等?!獢?shù)據(jù)挖掘技術:分類(Classification)估計(Estimation)預測、(Prediction)、相關性分組或關聯(lián)規(guī)則(Affinitygroupingorassociationrules)聚類、(Clustering)描述和可視化、DescriptionandVisualization)、復雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)?!P皖A測技術:預測模型、機器學習、建模仿真?!Y果呈現(xiàn)技術:云計算、標簽云、關系圖、可視化等。2025/6/208:56343.5大數(shù)據(jù)處理大數(shù)據(jù)處理:四個基本步驟大數(shù)據(jù)處理之一:大數(shù)據(jù)采集——大數(shù)據(jù)采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理。如電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù)。——大數(shù)據(jù)采集的主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作。如火車票售票網(wǎng)站和淘寶,并發(fā)的訪問量在峰值時達到上百萬,需要在采集端部署大量數(shù)據(jù)庫才能支撐。

2025/6/208:56353.5大數(shù)據(jù)處理大數(shù)據(jù)處理之二:導入/預處理——數(shù)據(jù)采集端本身有很多數(shù)據(jù)庫,但無法對海量數(shù)據(jù)進行有效分析,必須將數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作?!脩粼趯霐?shù)據(jù)時也會使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,滿足部分業(yè)務的實時計算需求?!獢?shù)據(jù)導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。2025/6/208:56363.5大數(shù)據(jù)處理大數(shù)據(jù)處理之三:統(tǒng)計/分析

——統(tǒng)計與分析主要是利用分布式數(shù)據(jù)庫或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求?!獙崟r性需求可能會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop?!獢?shù)據(jù)統(tǒng)計與分析的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,對系統(tǒng)資源,特別是I/O會有極大的占用。

2025/6/208:56373.5大數(shù)據(jù)處理大數(shù)據(jù)處理之四:數(shù)據(jù)挖掘——數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是對現(xiàn)有數(shù)據(jù)進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。——比較典型的挖掘算法有:用于聚類的Kmeans算法、用于統(tǒng)計學習的SVM算法和用于分類的NaiveBayes算法?!饕ぞ哂蠬adoop、Mahout、Mapreduce等?!獢?shù)據(jù)挖掘的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用的數(shù)據(jù)挖掘算法都是以單線程為主,不能滿足大數(shù)據(jù)挖掘的需要。

2025/6/208:56383.6大數(shù)據(jù)時代信息分析的變化大數(shù)據(jù)時代信息分析的變化變化一:分析對象的變化。大數(shù)據(jù)處理和分析的對象不是隨機樣本,而是全體數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)處理和分析的小樣本、抽樣樣本、部分樣本已無法代表大數(shù)據(jù)的特征,或者說大數(shù)據(jù)時代已無法從部分樣本的特征中推導全體數(shù)據(jù)的特征和規(guī)律。關聯(lián)、規(guī)則和規(guī)律可能隱含在大數(shù)據(jù)中,樣本則可能割裂了事物之間的關聯(lián)。變化二:信息處理方式的變化。大數(shù)據(jù)是非結構化信息,數(shù)據(jù)結構混亂,需要改變傳統(tǒng)結構化、標準化和精確化的信息處理方式,設計新的且適合大數(shù)據(jù)特征的數(shù)據(jù)庫。大數(shù)據(jù)分析可能得不到精確的分析結果,但可能提供更多需要的結果和發(fā)現(xiàn)。3.6大數(shù)據(jù)時代信息分析的變化變化三:關聯(lián)發(fā)現(xiàn)代替數(shù)學模型。大數(shù)據(jù)分析的目的是發(fā)現(xiàn)大容量數(shù)據(jù)中隱含的關聯(lián)和規(guī)律,即事物相關關系的挖掘與發(fā)現(xiàn),亦即解決“是什么”的問題。而不是試圖發(fā)現(xiàn)、解釋和推導事物間的因果關系,即解決“為什么”的問題。變化四:一切皆可“量化”、“數(shù)據(jù)化”。大數(shù)據(jù)發(fā)展的核心動力源于人類測量、記錄和分析世界的渴望,但我們更應該把注意力放在數(shù)據(jù)和信息本身上,而不是本末倒置,只關注數(shù)據(jù)和信息處理的手段、方法和技術。一切事物都有時空及運動變化特征,都會產(chǎn)生數(shù)據(jù)和信息,因此,一切事物都可數(shù)據(jù)化。2025/6/208:562025/6/208:56403.6大數(shù)據(jù)時代信息分析的變化變化五:數(shù)據(jù)開放與創(chuàng)新。大數(shù)據(jù)的價值在于數(shù)據(jù)創(chuàng)新,包括數(shù)據(jù)再利用、數(shù)據(jù)重組、數(shù)據(jù)擴展、數(shù)據(jù)折舊、數(shù)據(jù)廢氣清理和數(shù)據(jù)開放等。孤立、閑置、污染的數(shù)據(jù)價值不太,只有開放、激活和清潔的數(shù)據(jù)才能解釋巨大的價值。變化六:思維方式的變化。大數(shù)據(jù)時代需要重新厘清思維、技術和數(shù)據(jù)的關系及其角色定位,思維提供數(shù)據(jù)處理方法和思路,技術提供數(shù)據(jù)處理手段,而數(shù)據(jù)本身才是基礎,完整的具有價值的數(shù)據(jù)才是思維和技術的出發(fā)點,有什么樣的數(shù)據(jù)及數(shù)據(jù)處理需求才會有什么樣的數(shù)據(jù)處理思維方式和數(shù)據(jù)處理技術。3.6大數(shù)據(jù)時代信息分析的變化變化七:風險和危機并存。在大數(shù)據(jù)時代,數(shù)據(jù)蘊含著巨大的價值,是一種重要的戰(zhàn)略資源,因此也深藏著誘惑和風險。數(shù)據(jù)開放和安全、數(shù)據(jù)共享和壟斷、數(shù)據(jù)利用和隱私等都使大數(shù)據(jù)發(fā)展面臨一系列風險和危機。變化八:制度和規(guī)則的變化。大數(shù)據(jù)已在推動人類信息管理準則的重新定位,使我們面臨信息自由和社會責任、數(shù)據(jù)共享與壟斷、數(shù)據(jù)利用與隱私、數(shù)據(jù)開放與安全、數(shù)據(jù)污染與清理、數(shù)據(jù)擁有者和與用戶等的激烈沖突,需要重新考慮大數(shù)據(jù)時代帶來的法律、制度和規(guī)則等問題。2025/6/208:562025/6/208:56423.7大數(shù)據(jù)分析與信息分析比較比較維度大數(shù)據(jù)分析信息分析數(shù)據(jù)對象多源信息數(shù)值、文本信息數(shù)據(jù)規(guī)模大而全適度數(shù)據(jù),突出關鍵分析時機實時分析分析有時滯分析任務挖掘新模式任務明確,模式既定分析模式相關分析因果分析分析方法數(shù)據(jù)挖掘定性和定量分析方法2025/6/208:56433.7大數(shù)據(jù)分析與信息分析比較大數(shù)據(jù)分析的典型任務是通過相關性實現(xiàn)模式挖掘與預測分析。大數(shù)據(jù)分析強調(diào)發(fā)現(xiàn)事先不知道的新模式和未知的相關關系。信息分析的目的和任務明確,要回答具體的問題,通過廣泛搜集各類相關信息,運用多種工具與方法進行內(nèi)容分析,監(jiān)測其中的新現(xiàn)象、新情況、新異常,并根據(jù)蛛絲馬跡發(fā)現(xiàn)其中的規(guī)律、本質(zhì)、戰(zhàn)略意圖等。2025/6/208:5644補充-大數(shù)據(jù)分析案例國家競爭中的大數(shù)據(jù)應用案例:——全球有18個根節(jié)點服務器,其中15個在美國,2個在歐洲,1個在日本,根節(jié)點服務器上的數(shù)據(jù)是真正的、典型的大數(shù)據(jù)集,是不可估量的信息財富和信息資源?!绹幸粋€由400人組成的秘密網(wǎng)絡軍團,每天從事網(wǎng)絡信息分析,并計劃將網(wǎng)絡軍團人員擴大一倍?!鲊荚谥贫ù髷?shù)據(jù)發(fā)展計劃,試圖占據(jù)大數(shù)據(jù)發(fā)展制高點。

第4講

信息分析程序

大學本科必修課程本章知識路線圖信息分析流程信息分析流程美國佐治亞州?了解當?shù)丶垙S生產(chǎn)能力和實際產(chǎn)量工廠開出的火車車皮數(shù)量火車開過后鐵銹的變化情況—鋼軌承重—減去車皮重量=火車載重—紙的生產(chǎn)量詢問工人:機器數(shù)量、類型、制造商結果:工廠開工率大部分達到90%決策:再建一個造紙廠如何開展一次信息分析研究?

課題來源?

有哪些主要步驟?

研究成果怎么體現(xiàn)?

如何評價?

?????信息分析程序選題制訂實施計劃信息收集整理信息分析結果報告第一節(jié)

衛(wèi)生信息分析選題

選題:信息分析課題的選擇,也就是明確信息分析的對象、目標以及方向政府部門委托單位用戶委托醫(yī)學信息人員自選課題來源選題的原則

政策性原則

必要性原則可能性原則效益性原則選題程序課題選擇工作的組織課題初步評價課題可行性研究課題整體審查課題立項課題修改、完善課題取消合格不合格第二節(jié)制訂實施計劃我國衛(wèi)生行政部門政府信息公開范圍實證研究糖尿病風險評估模型及移動終端應用研究第三節(jié)信息、數(shù)據(jù)的搜集整理

調(diào)查方法文獻調(diào)查社會調(diào)查現(xiàn)場調(diào)查實地參觀參加會議出國考察訪問調(diào)查面談、電話采訪樣品調(diào)查實物問卷調(diào)查問卷調(diào)查確定研究題目及研究目的根據(jù)研究目的詳細列舉所要知道的問題確定樣本及如何產(chǎn)生樣本撰擬問卷預試問卷發(fā)放問卷回收和催復統(tǒng)計和分析解釋結果撰寫調(diào)查報告實例1:中南大學財務報賬問卷調(diào)查表

實例2:我國醫(yī)院網(wǎng)站信息服務功能與質(zhì)量評價指標體系結構維度”專家咨詢表調(diào)查內(nèi)容基本信息行為信息態(tài)度信息基本信息(調(diào)查)實例1計財處了解您對財務服務的期望和對財務工作的要求,以更好的開展財務報賬工作,改進工作作風,提高服務質(zhì)量和服務水平教師管理,人員,學生實例2研究人員對構建的“我國醫(yī)院網(wǎng)站信息服務功能與質(zhì)量評價指標體系(初擬)”中的各項指標進行評價和修正專家基本信息(調(diào)查對象)實例1調(diào)查對象:教師口

管理人員口

學生口

實例2行為信息實例1您完成一次網(wǎng)上自助報賬申報所需時間:

()A.小于10分鐘B.10分鐘-30分鐘

C.30分鐘-60分鐘

D.60分鐘以上實例2態(tài)度信息實例11.您對財務人員提供服務時的態(tài)度滿意度如何?

()A.很滿意,態(tài)度好,耐心

B.較滿意,態(tài)度認真

C.一般,完成工作

D.不滿意,要改進態(tài)度信息實例2指標體系維度結構專家認同程度123451信息服務功能質(zhì)量屬性√1.1基本描述信息維度√醫(yī)院標志√醫(yī)院簡介√醫(yī)院規(guī)?!烫釂柗绞阶杂墒教釂柗忾]式提問綜合式提問事實性提問態(tài)度測量式提問2.1資源品質(zhì)信息維度√信息的表達準確性√信息的易理解性√信息可信度√信息覆蓋度√信息來源√修改意見:2.15和2.13有理解上的重復,另外,信息的新穎性如何體現(xiàn)?實例230:您對財務工作有什么建議和意見?(服務方面、報賬方面、信息化方面等)實例1提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)度測量式提問14.您知道下列哪些業(yè)務需要使用公務卡辦理?()A.財務報銷業(yè)務B.工資發(fā)放C.酬金發(fā)放D.所有業(yè)務15.您對知道完成報賬工作后,錢未到賬的情況了解嗎?()A.了解B.比較了解C.不了解提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)度測量式提問13.您希望通過什么方式獲取您的最新財務信息?()A.短信通知B.微信提醒C.自己上網(wǎng)查詢D.其他方式____實例1提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)度測量式提問實例2被調(diào)查者的背景資料:用于對被調(diào)查者進行分類職業(yè)、年齡、家庭狀況,教育程度,居住條件,興趣愛好等提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)(程)度測量式提問1類別量表順序量表差距量表定比量表調(diào)查問題示例量表特點類別量表受教育程度1中學生2高中生3本科生4碩士生5博士生質(zhì)的差別順序量表根據(jù)你的喜歡程度對下列幾種品牌的汽車進行排序:勞斯萊斯奔馳尼桑沃爾沃高爾夫1喜歡2較喜歡3無所謂4不喜歡5很不喜歡高低順序差距量表學生測評成績<60不及格,60-70中,71-80良,81-90良+,91-100優(yōu)測量等級距離,沒有0起點,總體差距小定比量表收入情況0-3000,3000-6000,6000-12000,12000-24000測量等級距離,有0起點,總體差距大提問順序原則要求舉例先大后小先總后分,先因后果先易后難基本信息-行為信息—態(tài)度信息封閉式問題—綜合式問題—自由式問題先趣味性再實質(zhì)性先一般后敏感無法避免的隱私問題應盡量安排在后面與上一原則相似時間性由近及遠或由遠及近相關性同類或密切相關的問題不要分散調(diào)查表設計時應注意的問題用語準確含義清楚避免模糊或雙關語你喜歡看什么電影?。苛私?個門診病人一次就診所花的時間提

性你從家里出發(fā)的時間?到達醫(yī)院的時間?掛上號的時間?完成就診離開家的時間?其中真正用在就診的時間是多少?用在等待的時間是多少?你對就診情況滿意不?調(diào)查表設計時應注意的問題調(diào)查表設計時應注意的問題示例把握問題的數(shù)量和難易程度半小時之內(nèi)被調(diào)查者憑經(jīng)驗、記憶避免引導性提問有人認為智慧型醫(yī)院是以后的發(fā)展方向,你也贊同嗎?避免一般性問題你對這個醫(yī)院的信息化水平滿意嗎?避免雙重問題或概念有交叉的問題你會投資理財和股票嗎?你每周都會去圖書館和電影院嗎?盡量避免假設性問題假如你得到500萬大獎,你會捐助公益性組織嗎?避免學術專用名詞和冷僻的專用名詞你認為引力波會對未來的社會帶來什么樣的變化?使用說明詞調(diào)查人(組織)的身份目的被調(diào)查者問答問題的重要性聲明為回答者及回答結果保密說明結果反饋事宜說明如何填寫調(diào)查表表示希望被調(diào)查者以真實的態(tài)度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論