《醫(yī)學(xué)計算機基礎(chǔ)》教學(xué)課件08大數(shù)據(jù)_第1頁
《醫(yī)學(xué)計算機基礎(chǔ)》教學(xué)課件08大數(shù)據(jù)_第2頁
《醫(yī)學(xué)計算機基礎(chǔ)》教學(xué)課件08大數(shù)據(jù)_第3頁
《醫(yī)學(xué)計算機基礎(chǔ)》教學(xué)課件08大數(shù)據(jù)_第4頁
《醫(yī)學(xué)計算機基礎(chǔ)》教學(xué)課件08大數(shù)據(jù)_第5頁
已閱讀5頁,還剩136頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

醫(yī)學(xué)計算機基礎(chǔ)PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/

第八章大數(shù)據(jù)第一節(jié)大數(shù)據(jù)技術(shù)概述第二節(jié)大數(shù)據(jù)技術(shù)第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用學(xué)習(xí)目標?了解大數(shù)據(jù)的基本概念、特點和技術(shù)架構(gòu)。?熟悉大數(shù)據(jù)的整體技術(shù)和關(guān)鍵技術(shù)。?熟悉大數(shù)據(jù)處理分析的幾種典型工具。?了解大數(shù)據(jù)的應(yīng)用案例和在醫(yī)療領(lǐng)域中的應(yīng)用。?了解大數(shù)據(jù)未來的發(fā)展趨勢。第八章大數(shù)據(jù)大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)。信息技術(shù)與經(jīng)濟社會的交匯融合引發(fā)了數(shù)據(jù)迅猛增長,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)正日益對全球生產(chǎn)、流通、分配、消費活動及經(jīng)濟運行機制、社會生活方式和國家治理能力產(chǎn)生重要影響。第八章大數(shù)據(jù)第一節(jié)大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)(bigdata)又稱巨量資料,是指所涉及的資料量規(guī)模巨大到無法通過目前主流的軟件和硬件工具,在合理的時間內(nèi)擷取、管理、處理,并整理成為幫助企業(yè)進行經(jīng)營決策的資訊。從技術(shù)層面上看,大數(shù)據(jù)無法用單臺的計算機進行處理,而必須采用分布式計算架構(gòu)。它的特色在于對海量數(shù)據(jù)的挖掘,但它必須依托一些現(xiàn)有的數(shù)據(jù)處理方法,如云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和/或虛擬化技術(shù)。第一節(jié)大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)的發(fā)展簡史一、最早提出bigdata的是2011年麥肯錫全球研究院(McKinseyGlobalInstitute)發(fā)布的《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》研究報告。這也是專業(yè)機構(gòu)第一次全方面地介紹和展望大數(shù)據(jù)。之后經(jīng)高德納技術(shù)成熟度曲線和2012年維克托·舍恩伯格《大數(shù)據(jù)時代:生活、工作與思維的大變革》的宣傳推廣,大數(shù)據(jù)概念開始風(fēng)靡全球?;赪ebofScience數(shù)據(jù)庫中1994年后涉及大數(shù)據(jù)概念的4495篇文獻,采用Citespace知識圖譜工具,通過熱點關(guān)鍵詞和高被引文獻分析,能夠勾勒出大數(shù)據(jù)技術(shù)從萌芽到成熟的發(fā)展歷程。第一節(jié)大數(shù)據(jù)技術(shù)概述20世紀90年代至21世紀初,是大數(shù)據(jù)發(fā)展的萌芽期,處于數(shù)據(jù)挖掘技術(shù)階段。隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。此時,對于大數(shù)據(jù)的研究主要集中于algorithms(算法)、model(模型)、patterns(模式)、identification(識別)等熱點關(guān)鍵詞。第一節(jié)大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)發(fā)展的突破期是2003年至2006年,處于圍繞非結(jié)構(gòu)化數(shù)據(jù)自由探索階段。非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)帶動大數(shù)據(jù)技術(shù)的快速突破,以2004年Facebook創(chuàng)立為標志,社交網(wǎng)絡(luò)的流行直接導(dǎo)致大量非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn),而傳統(tǒng)處理方法難以應(yīng)對。此時的熱點關(guān)鍵詞較為分散,包括了systems(系統(tǒng))、networks(網(wǎng)絡(luò))、evolution(演化)等,高被引文獻也很少,說明學(xué)術(shù)界、企業(yè)界正從多角度對數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)庫架構(gòu)進行重新思考,且尚未形成共識。第一節(jié)大數(shù)據(jù)技術(shù)概述2006年至2009年,大數(shù)據(jù)技術(shù)形成并行運算與分布式系統(tǒng),為大數(shù)據(jù)發(fā)展的成熟期。JeffDean在BigTable基礎(chǔ)上開發(fā)了Spanner數(shù)據(jù)庫(2009)。此階段,大數(shù)據(jù)研究的熱點關(guān)鍵詞再次趨于集中,聚焦performance(性能)、cloudcomputing(云計算)、mapreduce(大規(guī)模數(shù)據(jù)集并行運算算法)、Hadoop(開源分布式系統(tǒng)基礎(chǔ)架構(gòu))等。2008年年末,大數(shù)據(jù)得到部分美國知名計算機科學(xué)研究人員的認可,它使人們的思維不僅局限于數(shù)據(jù)處理的機器,并提出:大數(shù)據(jù)真正重要的是新用途和新見解,而非數(shù)據(jù)本身。此組織可以說是最早提出大數(shù)據(jù)概念的機構(gòu)。第一節(jié)大數(shù)據(jù)技術(shù)概述2010年以來,隨著智能手機的應(yīng)用日益廣泛,數(shù)據(jù)的碎片化、分布式、流媒體特征更加明顯,移動數(shù)據(jù)急劇增長。近年來大數(shù)據(jù)不斷地向社會各行各業(yè)滲透,使得大數(shù)據(jù)的技術(shù)領(lǐng)域和行業(yè)邊界越來越模糊和變動不居,應(yīng)用創(chuàng)新已超越技術(shù)本身更受到青睞。大數(shù)據(jù)技術(shù)可以為每一個領(lǐng)域帶來變革性影響,并且正在成為各行各業(yè)顛覆性創(chuàng)新的原動力和助推器。第一節(jié)大數(shù)據(jù)技術(shù)概述2011年5月,麥肯錫全球研究院發(fā)布了一份名為《顛覆性技術(shù):技術(shù)進步改變生活、商業(yè)和全球經(jīng)濟》的研究報告。報告確認的未來12種新興技術(shù),有望在2025年帶來14萬億至33萬億美元的經(jīng)濟效益。令人驚訝的是,最為熱門的大數(shù)據(jù)技術(shù)卻未被列入其中。麥肯錫專門解釋稱,大數(shù)據(jù)已成為這些可能改變世界格局的12項技術(shù)中許多技術(shù)的基石,包括移動互聯(lián)網(wǎng)、知識工作自動化、物聯(lián)網(wǎng)、云計算、先進機器人、自動汽車、基因組學(xué)等都少不了大數(shù)據(jù)應(yīng)用。第一節(jié)大數(shù)據(jù)技術(shù)概述2011年12月,在中華人民共和國工業(yè)和信息化部發(fā)布的《物聯(lián)網(wǎng)“十二五”規(guī)劃》中,把信息處理技術(shù)作為4項關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。第一節(jié)大數(shù)據(jù)技術(shù)概述2012年1月,在瑞士達沃斯召開的世界經(jīng)濟論壇上,大數(shù)據(jù)是主題之一,會上發(fā)布的報告《大數(shù)據(jù),大影響》宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。2012年3月,美國奧巴馬政府在白宮網(wǎng)站發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,這一倡議標志著大數(shù)據(jù)已經(jīng)成為重要的時代特征。2012年3月22日,奧巴馬政府宣布2億美元投資大數(shù)據(jù)領(lǐng)域,是大數(shù)據(jù)技術(shù)從商業(yè)行為上升到國家科技戰(zhàn)略的分水嶺,在次日的電話會議中,政府對數(shù)據(jù)的定義“未來的新石油”,大數(shù)據(jù)技術(shù)領(lǐng)域的競爭,事關(guān)國家安全和未來。第一節(jié)大數(shù)據(jù)技術(shù)概述2012年,美國軟件公司Splunk于4月19日在納斯達克成功上市,成為第一家上市的大數(shù)據(jù)處理公司。鑒于美國經(jīng)濟持續(xù)低迷、股市持續(xù)震蕩的大背景,Splunk首日的突出交易表現(xiàn)尤其令人們印象深刻,首日即暴漲了一倍多。Splunk是一家領(lǐng)先的提供大數(shù)據(jù)監(jiān)測和分析服務(wù)的軟件提供商,成立于2003年。Splunk成功上市促進了資本市場對大數(shù)據(jù)的關(guān)注,同時也促使IT廠商加快大數(shù)據(jù)布局。第一節(jié)大數(shù)據(jù)技術(shù)概述2012年7月,聯(lián)合國在紐約發(fā)布了一份關(guān)于大數(shù)據(jù)政務(wù)的白皮書,總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護人民。這份白皮書舉例說明在一個數(shù)據(jù)生態(tài)系統(tǒng)中,個人、公共部門和私人部門各自的角色、動機和需求。例如,通過對價格關(guān)注和更好的服務(wù)的渴望,個人提供數(shù)據(jù)和眾包信息,并對隱私和退出權(quán)力提出需求;公共部門出于改善服務(wù)、提升效益的目的,提供了諸如統(tǒng)計數(shù)據(jù)、設(shè)備信息、健康指標及稅務(wù)和消費信息等,并對隱私和退出權(quán)利提出需求;第一節(jié)大數(shù)據(jù)技術(shù)概述私人部門出于提升客戶認知和預(yù)測趨勢的目的,提供匯總數(shù)據(jù)、消費和使用信息,并對敏感數(shù)據(jù)所有權(quán)和商業(yè)模式更加關(guān)注。白皮書還指出,人們?nèi)缃窨梢允褂玫臉O大豐富的數(shù)據(jù)資源,包括舊數(shù)據(jù)和新數(shù)據(jù),來對社會人口進行前所未有的實時分析。聯(lián)合國還以愛爾蘭和美國的社交網(wǎng)絡(luò)活躍度增長作為失業(yè)率上升的早期征兆為例,表明政府如果能合理分析所掌握的數(shù)據(jù)資源,將能“與數(shù)俱進”,快速應(yīng)變。第一節(jié)大數(shù)據(jù)技術(shù)概述2014年4月,世界經(jīng)濟論壇以“大數(shù)據(jù)的回報與風(fēng)險”主題發(fā)布了《全球信息技術(shù)報告(第13版)》。報告認為,在未來幾年中針對各種信息通信技術(shù)的政策甚至?xí)@得更加重要。接下來將對數(shù)據(jù)保密和網(wǎng)絡(luò)管制等議題展開積極討論。全球大數(shù)據(jù)產(chǎn)業(yè)的日趨活躍,技術(shù)演進和應(yīng)用創(chuàng)新的加速發(fā)展,使各國政府逐漸認識到大數(shù)據(jù)在推動經(jīng)濟發(fā)展、改善公共服務(wù),增進人民福祉,乃至保障國家安全方面的重大意義。第一節(jié)大數(shù)據(jù)技術(shù)概述2014年5月,美國白宮發(fā)布了2014年全球“大數(shù)據(jù)”白皮書的研究報告《大數(shù)據(jù):抓住機遇、守護價值》。報告鼓勵使用數(shù)據(jù)以推動社會進步,特別是在市場與現(xiàn)有的機構(gòu)并未以其他方式來支持這種進步的領(lǐng)域;同時,也需要相應(yīng)的框架、結(jié)構(gòu)與研究,來幫助保護美國人對于保護個人隱私、確保公平或是防止歧視的堅定信仰。第一節(jié)大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)的特點二、大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)下載到關(guān)系數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce那樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的計算機分配工作。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點至關(guān)重要,也正是這一點促使該技術(shù)具備走向眾多企業(yè)的潛力。第一節(jié)大數(shù)據(jù)技術(shù)概述2001年,高德納分析員道格·萊尼在一份與其2001年的研究相關(guān)的演講中指出,數(shù)據(jù)增長有3個方向的挑戰(zhàn)和機遇:量(volume),即數(shù)據(jù)多少;速(velocity),即資料輸入、輸出的速度;類(variety),即多樣性。在萊尼的理論基礎(chǔ)上,IBM提出大數(shù)據(jù)的“4V”特征得到了業(yè)界的廣泛認可:第一,大容量(volume),即數(shù)據(jù)巨大,從TB級別躍升到PB級別;第二,多樣性(variety),即數(shù)據(jù)類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包括來自互聯(lián)網(wǎng)的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等;第三,快速度(velocity),即處理速度快;第四,真實性(veracity),即追求高質(zhì)量的數(shù)據(jù)。第一節(jié)大數(shù)據(jù)技術(shù)概述大容量1.2003年,人類第一次破譯人體基因密碼時,用了10年才完成了30億對堿基對的排序;而在10年之后,世界范圍內(nèi)的基因儀15分鐘就可以完成同樣的工作量。伴隨著各種隨身設(shè)備、物聯(lián)網(wǎng)和云計算、云存儲等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄,數(shù)據(jù)因此被大量生產(chǎn)出來。計算機數(shù)據(jù)最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的10次方)來計算,即第一節(jié)大數(shù)據(jù)技術(shù)概述1Byte=8bit1KB=1024Bytes=8192bit1MB=1024KB=1048576Bytes 1GB=1024MB=1048576KB1TB=1024GB=1048576MB1PB=1024TB=1048576GB1EB=1024PB=1048576TB第一節(jié)大數(shù)據(jù)技術(shù)概述1ZB=1024EB=1048576PB1YB=1024ZB=1048576EB1BB=1024YB=1048576ZB1NB=1024BB=1048576YB1DB=1024NB=1048576BBIDC研究表明,包含結(jié)構(gòu)化和非結(jié)構(gòu)化的大數(shù)據(jù)正在以每年60%的增長率持續(xù)增長,到了2020年,全球數(shù)據(jù)總量將增長44倍,達到35.2ZB。第一節(jié)大數(shù)據(jù)技術(shù)概述移動互聯(lián)網(wǎng)的核心網(wǎng)絡(luò)節(jié)點是人,不再是網(wǎng)頁,人人都成為數(shù)據(jù)制造者,短信、微博、照片、錄像都是其數(shù)據(jù)產(chǎn)品;數(shù)據(jù)來自無數(shù)自動化傳感器、自動記錄設(shè)施、生產(chǎn)監(jiān)測、環(huán)境監(jiān)測、交通監(jiān)測、安防監(jiān)測等;來自自動流程記錄,刷卡機、收款機、電子不停車收費系統(tǒng)、互聯(lián)網(wǎng)點擊、電話撥號等設(shè)施及各種辦事流程登記等。大量自動或人工產(chǎn)生的數(shù)據(jù)通過互聯(lián)網(wǎng)聚集到特定地點,包括電信運營商、互聯(lián)網(wǎng)運營商、政府、銀行、商場、企業(yè)、交通樞紐等機構(gòu),形成了大數(shù)據(jù)之海。第一節(jié)大數(shù)據(jù)技術(shù)概述多樣性2.隨著傳感器、智能設(shè)備及社交協(xié)作技術(shù)的飛速發(fā)展,組織中的數(shù)據(jù)也變得更加復(fù)雜,因為它不僅包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件(包括點擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。第一節(jié)大數(shù)據(jù)技術(shù)概述在大數(shù)據(jù)時代,數(shù)據(jù)格式變得越來越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號等不同的類型;數(shù)據(jù)來源也越來越多樣,不僅產(chǎn)生于組織內(nèi)部運作的各個環(huán)節(jié),也來自組織外部。例如,在交通領(lǐng)域,北京市交通智能化分析平臺數(shù)據(jù)來自路網(wǎng)攝像頭/傳感器、公交、軌道交通、出租車及省際客運、旅游、化危運輸、停車、租車等運輸行業(yè),還有問卷調(diào)查和地理信息系統(tǒng)數(shù)據(jù)。4萬輛浮動車每天產(chǎn)生2000萬條記錄,交通卡刷卡記錄每天1900萬條,手機定位數(shù)據(jù)每天1800萬條,出租車運營數(shù)據(jù)每天100萬條,電子停車收費系統(tǒng)數(shù)據(jù)每天50萬條,定期調(diào)查覆蓋8萬戶家庭等,這些數(shù)據(jù)在體量和速度上都達到了大數(shù)據(jù)的規(guī)模。第一節(jié)大數(shù)據(jù)技術(shù)概述發(fā)掘這些形態(tài)各異、快慢不一的數(shù)據(jù)流之間的相關(guān)性,是大數(shù)據(jù)做前人之未做、能前人所不能的機會。大數(shù)據(jù)不僅是處理巨量數(shù)據(jù)的利器,更為處理不同來源、不同格式的多元化數(shù)據(jù)提供了可能。多樣化的數(shù)據(jù)來源正是大數(shù)據(jù)的威力所在,如交通狀況與其他領(lǐng)域的數(shù)據(jù)都存在較強的關(guān)聯(lián)性。據(jù)相關(guān)數(shù)據(jù)研究發(fā)現(xiàn),可以從供水系統(tǒng)數(shù)據(jù)中發(fā)現(xiàn)早晨洗澡的高峰時段,加上一個偏移量(通常是40~45min)就能估算出交通早高峰時段;同樣可以從電網(wǎng)數(shù)據(jù)中統(tǒng)計出傍晚辦公樓集中關(guān)燈的時間,加上偏移量估算出晚上的堵車時段。第一節(jié)大數(shù)據(jù)技術(shù)概述快速度3.在數(shù)據(jù)處理速度方面,有一個著名的“1秒定律”,即要在秒級時間范圍內(nèi)給出分析結(jié)果,超出這個時間,數(shù)據(jù)就失去價值了。例如,IBM有一則廣告,講的是“1秒,能做什么”。1s,能檢測出臺灣的鐵道故障并發(fā)布預(yù)警;也能發(fā)現(xiàn)得克薩斯州的電力中斷,避免電網(wǎng)癱瘓;還能幫助一家全球性金融公司鎖定行業(yè)欺詐,保障客戶利益。第一節(jié)大數(shù)據(jù)技術(shù)概述涉及感知、傳輸、決策、控制開放式循環(huán)的大數(shù)據(jù),對數(shù)據(jù)實時處理有著極高的要求,通過傳統(tǒng)數(shù)據(jù)庫查詢方式得到的“當前結(jié)果”很可能已經(jīng)沒有價值。時間就是金錢。如果說價值是分子,那么時間就是分母,分母越小,單位價值就越大。面臨同樣大的數(shù)據(jù)“礦山”,“挖礦”效率是競爭優(yōu)勢。像其他商品一樣,數(shù)據(jù)的價值會折舊,等量數(shù)據(jù)在不同時間點價值不等。而且在某些特殊領(lǐng)域,數(shù)據(jù)跟新聞一樣具有時效性,很多傳感器的數(shù)據(jù)產(chǎn)生幾秒之后就失去意義,如美國國家海洋和大氣管理局的超級計算機能夠在日本地震后9min計算出海嘯的可能性,但9min的延遲對于瞬間被海浪吞噬的生命來說還是太長了。第一節(jié)大數(shù)據(jù)技術(shù)概述英特爾中國研究院首席工程師吳甘沙認為,快速度是大數(shù)據(jù)處理技術(shù)和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)最大的區(qū)別。大數(shù)據(jù)是一種以實時數(shù)據(jù)處理、實時結(jié)果導(dǎo)向為特征的解決方案,它的“快”有兩個層面:一是數(shù)據(jù)產(chǎn)生得快,有的數(shù)據(jù)是爆發(fā)式產(chǎn)生,GPS(全球定位系統(tǒng))位置信息等;二是數(shù)據(jù)處理得快,正如水處理系統(tǒng)可以從水庫調(diào)出水進行處理,也可以處理直接涌進來的新水流。大數(shù)據(jù)也有批處理(“靜止數(shù)據(jù)”轉(zhuǎn)變?yōu)椤罢褂脭?shù)據(jù)”)和流處理(“動態(tài)數(shù)據(jù)”轉(zhuǎn)變?yōu)椤罢褂脭?shù)據(jù)”)兩種范式,以實現(xiàn)快速的數(shù)據(jù)處理。第一節(jié)大數(shù)據(jù)技術(shù)概述真實性4.數(shù)據(jù)的重要性就在于對決策的支持,數(shù)據(jù)的規(guī)模并不能決定其能否為決策提供幫助,數(shù)據(jù)的真實性和質(zhì)量才是獲得真知和思路最重要的因素,是制定成功決策最堅實的基礎(chǔ)。追求高數(shù)據(jù)質(zhì)量是一項重要的大數(shù)據(jù)要求和挑戰(zhàn),即使最優(yōu)秀的數(shù)據(jù)清理方法也無法消除某些數(shù)據(jù)固有的不可預(yù)測性,如人的感情和誠實性、天氣形勢、經(jīng)濟因素及未來。并確定如何充分利用這一點。例如,采取數(shù)據(jù)融合,即通過結(jié)合多個可靠性較低的來源創(chuàng)建更準確、更有用的數(shù)據(jù)點,或者通過魯棒優(yōu)化技術(shù)和模糊邏輯方法等先進的數(shù)學(xué)方法。第一節(jié)大數(shù)據(jù)技術(shù)概述業(yè)界還有人把大數(shù)據(jù)的基本特征從“4V”擴展到了“11V”,包括價值密度低(value)、可視化(visualization)、有效性(validity)等。例如,價值密度低是指隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但在連續(xù)不間斷的視頻監(jiān)控過程中,可能有用的數(shù)據(jù)僅一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。第一節(jié)大數(shù)據(jù)技術(shù)概述國際數(shù)據(jù)公司報告里有一句話,概括出了大數(shù)據(jù)基本特征之間的關(guān)系:大數(shù)據(jù)技術(shù)通過使用高速的采集、發(fā)現(xiàn)或分析,從超大容量的多樣數(shù)據(jù)中經(jīng)濟地提取價值。無所遁形的大數(shù)據(jù)時代已經(jīng)到來,以迅雷不及掩耳之勢滲透到每一個職能領(lǐng)域內(nèi),如何借助大數(shù)據(jù)浪潮持續(xù)創(chuàng)新發(fā)展,使企業(yè)成功轉(zhuǎn)型,在當下具有非凡的意義。第一節(jié)大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)的作用三、大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。當今信息時代所產(chǎn)生的數(shù)據(jù)量已經(jīng)大到無法用傳統(tǒng)的工具進行采集、存儲、管理和分析。根據(jù)中國信息通信研究院發(fā)布的《2015年中國大數(shù)據(jù)發(fā)展調(diào)查報告》顯示,2015年中國大數(shù)據(jù)市場規(guī)模將達到115.9億元,增速達38%。大數(shù)據(jù)的快速發(fā)展,充分說明了它的重要性。第一節(jié)大數(shù)據(jù)技術(shù)概述宏觀作用1.中華人民共和國國務(wù)院在2015年印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱《綱要》),對大數(shù)據(jù)開放應(yīng)用等工作提供指導(dǎo)意見。《綱要》認為,全球范圍內(nèi)運用大數(shù)據(jù)推動經(jīng)濟發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢,有關(guān)發(fā)達國家相繼制定實施大數(shù)據(jù)戰(zhàn)略性文件,大力推動大數(shù)據(jù)發(fā)展和應(yīng)用。堅持創(chuàng)新驅(qū)動發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應(yīng)用,已成為穩(wěn)增長、促改革、調(diào)結(jié)構(gòu)、惠民生和推動政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇。第一節(jié)大數(shù)據(jù)技術(shù)概述1)大數(shù)據(jù)成為推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力以數(shù)據(jù)流引領(lǐng)技術(shù)流、物質(zhì)流、資金流、人才流,將深刻影響社會分工協(xié)作的組織模式,促進生產(chǎn)組織方式的集約和創(chuàng)新。大數(shù)據(jù)推動社會生產(chǎn)要素的網(wǎng)絡(luò)化共享、集約化整合、協(xié)作化開發(fā)和高效化利用,改變了傳統(tǒng)的生產(chǎn)方式和經(jīng)濟運行機制,可顯著提升經(jīng)濟運行水平和效率。大數(shù)據(jù)持續(xù)激發(fā)商業(yè)模式創(chuàng)新,不斷催生新業(yè)態(tài),已成為因特網(wǎng)等新興領(lǐng)域促進業(yè)務(wù)創(chuàng)新增值、提升企業(yè)核心價值的重要驅(qū)動力。大數(shù)據(jù)產(chǎn)業(yè)正在成為新的經(jīng)濟增長點,將對未來信息產(chǎn)業(yè)格局產(chǎn)生重要影響。第一節(jié)大數(shù)據(jù)技術(shù)概述2)大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)已成為國家重要的基礎(chǔ)性戰(zhàn)略資源,正引領(lǐng)新一輪科技創(chuàng)新。充分利用我國的數(shù)據(jù)規(guī)模優(yōu)勢,實現(xiàn)數(shù)據(jù)規(guī)模、質(zhì)量和應(yīng)用水平同步提升,發(fā)掘和釋放數(shù)據(jù)資源的潛在價值,有利于更好地發(fā)揮數(shù)據(jù)資源的戰(zhàn)略作用,增強網(wǎng)絡(luò)空間數(shù)據(jù)主權(quán)保護能力,維護國家安全,有效地提升國家競爭力。第一節(jié)大數(shù)據(jù)技術(shù)概述3)大數(shù)據(jù)成為提升政府治理能力的新途徑大數(shù)據(jù)應(yīng)用能夠揭示傳統(tǒng)技術(shù)方式難以展現(xiàn)的關(guān)聯(lián)關(guān)系,推動政府數(shù)據(jù)開放共享,促進社會事業(yè)數(shù)據(jù)融合和資源整合,將極大地提升政府整體數(shù)據(jù)分析能力,為有效地處理復(fù)雜社會問題提供新的手段。建立“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理機制,實現(xiàn)基于數(shù)據(jù)的科學(xué)決策,將推動政府管理理念和社會治理模式進步,加快建設(shè)與社會主義市場經(jīng)濟體制和中國特色社會主義事業(yè)發(fā)展相適應(yīng)的法治政府、創(chuàng)新政府、廉潔政府和服務(wù)型政府,逐步實現(xiàn)政府治理能力現(xiàn)代化。第一節(jié)大數(shù)據(jù)技術(shù)概述對企業(yè)的作用2.以企業(yè)為例,對企業(yè)內(nèi)部的紛亂數(shù)據(jù)通過分析進行決策的目的就是幫助企業(yè)領(lǐng)導(dǎo)者更好地管理企業(yè)。對于企業(yè)來說,大數(shù)據(jù)能夠幫助企業(yè)預(yù)測經(jīng)濟形勢、把握市場態(tài)勢、了解消費需求、提高研發(fā)效率,不僅具有巨大的潛在商業(yè)價值,而且為企業(yè)提升競爭力提供了新思路。第一節(jié)大數(shù)據(jù)技術(shù)概述1)企業(yè)決策大數(shù)據(jù)化現(xiàn)代企業(yè)大都具備決策支持系統(tǒng),以輔助決策。但現(xiàn)行的決策支持系統(tǒng)僅收集部分重點數(shù)據(jù),數(shù)據(jù)量小,數(shù)據(jù)面窄。企業(yè)決策大數(shù)據(jù)化的基礎(chǔ)是企業(yè)信息數(shù)字化,重點是數(shù)據(jù)的整理分析。首先,企業(yè)需要進行信息數(shù)字化采集系統(tǒng)的更新升級,按各決策層級的功能建立數(shù)據(jù)采集系統(tǒng),以橫向、縱向、實時三維模式廣泛采集數(shù)據(jù)。在人為影響起次要作用的底層,推進決策指標量化,完善決策支持系統(tǒng)和決策機制。大數(shù)據(jù)決策機制讓數(shù)據(jù)說話,可以減少人為干擾因素,提高決策精準度。第一節(jié)大數(shù)據(jù)技術(shù)概述2)成本控制大數(shù)據(jù)化目前,很多企業(yè)在采購、物流、儲存、生產(chǎn)、銷售等環(huán)節(jié)引入了成本控制系統(tǒng),但系統(tǒng)間融合度較低。企業(yè)可對現(xiàn)有成本控制系統(tǒng)進行改造升級,打造大數(shù)據(jù)綜合成本控制系統(tǒng)。其一,在成本控制的全過程采集數(shù)據(jù),以求最大限度地描述事物,實現(xiàn)信息數(shù)字化、數(shù)據(jù)大量化。其二,推進成本控制標準、控制機理系統(tǒng)化。將成本控制所涉及的從原材料采購到產(chǎn)品生產(chǎn)、運輸、儲存、銷售等環(huán)節(jié)有機結(jié)合起來,形成一個綜合評價體系,為成本控制提供可靠依據(jù)。成本控制大數(shù)據(jù)化以預(yù)先控制為主、過程控制為中、產(chǎn)后控制為輔的方式,可以最大限度降低企業(yè)運營成本。第一節(jié)大數(shù)據(jù)技術(shù)概述3)服務(wù)體系大數(shù)據(jù)化品牌和服務(wù)是企業(yè)的核心競爭力,服務(wù)體系直接影響企業(yè)的生存發(fā)展。優(yōu)化服務(wù)體系的重點是健全溝通機制、聯(lián)絡(luò)機制和反饋機制,利用大數(shù)據(jù)優(yōu)化服務(wù)體系的關(guān)鍵是找到服務(wù)體系中存在的問題。首先,加強數(shù)據(jù)收集,對消費者反饋的信息進行分類分析,實現(xiàn)快速處理;比對失敗則轉(zhuǎn)入人工服務(wù)系統(tǒng),對新服務(wù)需求進行研究處理,并快速將新服務(wù)機制添加至系統(tǒng),優(yōu)化服務(wù)系統(tǒng)。服務(wù)體系大數(shù)據(jù)化,可以實現(xiàn)服務(wù)體系的高度自動化,最大限度提高服務(wù)質(zhì)量和效率。第一節(jié)大數(shù)據(jù)技術(shù)概述4)產(chǎn)品研發(fā)大數(shù)據(jù)化產(chǎn)品研發(fā)存在較高風(fēng)險,大數(shù)據(jù)能精確分析客戶需求,降低風(fēng)險,提高研發(fā)成功率。產(chǎn)品研發(fā)的主要環(huán)節(jié)是消費需求分析,產(chǎn)品研發(fā)大數(shù)據(jù)化的關(guān)鍵環(huán)節(jié)是數(shù)據(jù)收集、分類整理和分析利用。企業(yè)官網(wǎng)的消費者反饋系統(tǒng)、貼吧、論壇、新聞評價體系等是消費者需求信息的主要來源,應(yīng)注重從中收集數(shù)據(jù)。同時,可與論壇、貼吧、新聞評價體系合作構(gòu)建消費者綜合服務(wù)系統(tǒng),完善消費者信息反饋機制,實現(xiàn)信息收集大量化、全面化、自動化,為產(chǎn)品研發(fā)提供信息源。第一節(jié)大數(shù)據(jù)技術(shù)概述然后,對收集的非結(jié)構(gòu)化數(shù)據(jù)進行分類整理,以達到精確分析消費需求、縮短產(chǎn)品研發(fā)周期、提高研發(fā)效率的目的。產(chǎn)品研發(fā)大數(shù)據(jù)化,可以精準分析消費者需求,提高產(chǎn)品研發(fā)質(zhì)量和效率,使企業(yè)在競爭中占據(jù)優(yōu)勢??傊?,大數(shù)據(jù)對企業(yè)精細運營起到的價值是非常巨大的,可以讓企業(yè)在社交平臺上的運營更加完善,盡量讓企業(yè)有一個理想的口碑,并對一些不良的言論做輿情監(jiān)測等,然后根據(jù)數(shù)據(jù)進行產(chǎn)品改進,并且利用大數(shù)據(jù)還能更好地驅(qū)動用戶體驗,促進企業(yè)運營目標朝著正確的方向前進,這都是大數(shù)據(jù)為企業(yè)帶來的價值。第一節(jié)大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)的應(yīng)用領(lǐng)域四、隨著大數(shù)據(jù)的應(yīng)用越來越廣泛,應(yīng)用的行業(yè)也越來越低,我們每天都可以看到大數(shù)據(jù)的一些新奇的應(yīng)用,從而幫助人們從中獲取真正有用的價值。第一節(jié)大數(shù)據(jù)技術(shù)概述理解客戶、滿足客戶服務(wù)需求1.大數(shù)據(jù)的應(yīng)用目前在這一領(lǐng)域是最廣為人知的。重點是如何應(yīng)用大數(shù)據(jù)更好地了解客戶及他們的愛好和行為。企業(yè)非常喜歡收集社交方面的數(shù)據(jù)、瀏覽器的日志、分析出文本和傳感器的數(shù)據(jù),為了更加全面地了解客戶。在一般情況下,建立出數(shù)據(jù)模型進行預(yù)測。例如,美國的著名零售商Target就是通過大數(shù)據(jù)的分析,得到有價值的信息,精準地預(yù)測到客戶在什么時候想要小孩。另外,通過大數(shù)據(jù)的應(yīng)用,電信公司可以更好預(yù)測出流失的客戶,沃爾瑪則更加精準地預(yù)測哪個產(chǎn)品會大賣,汽車保險行業(yè)會了解客戶的需求和駕駛水平,政府也能了解到選民的偏好。第一節(jié)大數(shù)據(jù)技術(shù)概述業(yè)務(wù)流程優(yōu)化2.大數(shù)據(jù)也更多地幫助業(yè)務(wù)流程的優(yōu)化。可以通過利用社交媒體數(shù)據(jù)、網(wǎng)絡(luò)搜索及天氣預(yù)報挖掘出有價值的數(shù)據(jù),其中大數(shù)據(jù)的應(yīng)用最廣泛的就是供應(yīng)鏈及配送路線的優(yōu)化。在這兩個方面,地理定位和無線電頻率的識別追蹤貨物和送貨車,利用實時交通路線數(shù)據(jù)制定更加優(yōu)化的路線。人力資源業(yè)務(wù)也通過大數(shù)據(jù)的分析來進行改進,這其中就包括人才招聘的優(yōu)化。第一節(jié)大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)正在改善我們的生活3.大數(shù)據(jù)不單單是應(yīng)用于企業(yè)和政府,同樣也適用我們生活當中的每個人。我們可以利用穿戴的裝備(如智能手表或者智能手環(huán))生成最新的數(shù)據(jù),這讓我們可以根據(jù)我們熱量的消耗及睡眠模式來進行追蹤。還可以利用大數(shù)據(jù)分析來尋找屬于我們的愛情,大多數(shù)交友網(wǎng)站就是利用大數(shù)據(jù)應(yīng)用工具來幫助需要的人匹配合適的對象。第一節(jié)大數(shù)據(jù)技術(shù)概述提高醫(yī)療和研發(fā)4.大數(shù)據(jù)分析應(yīng)用的計算能力讓我們在幾分鐘內(nèi)就可以解碼整個DNA,并且讓我們可以制訂出最新的治療方案,同時可以更好地去理解和預(yù)測疾病。就像人們戴上智能手表等可以產(chǎn)生的數(shù)據(jù)一樣,大數(shù)據(jù)同樣可以幫助病人對于病情進行更好的治療。大數(shù)據(jù)技術(shù)目前已經(jīng)在醫(yī)院應(yīng)用監(jiān)視早產(chǎn)嬰兒和患病嬰兒的情況,通過記錄和分析嬰兒的心跳,醫(yī)生針對嬰兒的身體可能會出現(xiàn)的不適癥狀做出預(yù)測,這樣可以幫助醫(yī)生更好地救助嬰兒。第一節(jié)大數(shù)據(jù)技術(shù)概述提高體育成績5.現(xiàn)在很多運動員在訓(xùn)練時應(yīng)用大數(shù)據(jù)分析技術(shù)。例如,用于網(wǎng)球鼻塞的IBMSlamTracker工具,我們使用視頻分析來追蹤足球或棒球比賽中每個球員的表現(xiàn),而運動器材中的傳感器技術(shù)(如籃球或高爾夫俱樂部)讓我們可以獲得比賽的數(shù)據(jù)及如何改進。很多精英運動隊還追蹤比賽環(huán)境外運動員的活動,即通過使用智能技術(shù)來追蹤其營養(yǎng)狀況及睡眠,以及通過社交對話來監(jiān)控其情感狀況。第一節(jié)大數(shù)據(jù)技術(shù)概述優(yōu)化機器和設(shè)備性能6.大數(shù)據(jù)分析還可以讓機器和設(shè)備在應(yīng)用上更加智能化和自主化。例如,大數(shù)據(jù)工具曾經(jīng)就被谷歌公司利用研發(fā)谷歌自駕汽車。豐田的普瑞就配有相機、GPS及傳感器,在交通上能夠安全地駕駛,不需要人類的干預(yù)。大數(shù)據(jù)工具還可以應(yīng)用于優(yōu)化智能電話。第一節(jié)大數(shù)據(jù)技術(shù)概述改善安全和執(zhí)法7.大數(shù)據(jù)現(xiàn)在已經(jīng)廣泛應(yīng)用到安全執(zhí)法的過程當中。美國安全局利用大數(shù)據(jù)進行恐怖主義打擊,甚至監(jiān)控人們的日常生活。而企業(yè)則應(yīng)用大數(shù)據(jù)技術(shù)進行防御網(wǎng)絡(luò)攻擊。警察應(yīng)用大數(shù)據(jù)工具進行捕捉罪犯,信用卡公司應(yīng)用大數(shù)據(jù)工具來監(jiān)視欺詐性交易。第一節(jié)大數(shù)據(jù)技術(shù)概述改善城市8.大數(shù)據(jù)還被應(yīng)用于改善城市。例如,基于城市實時交通信息、利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最新的交通情況。目前很多城市都在進行大數(shù)據(jù)的分析和試點。第一節(jié)大數(shù)據(jù)技術(shù)概述金融交易9.大數(shù)據(jù)在金融行業(yè)主要是應(yīng)用金融交易。高頻交易(HFT)是大數(shù)據(jù)應(yīng)用比較多的領(lǐng)域。其中,大數(shù)據(jù)算法應(yīng)用于交易決定?,F(xiàn)在很多股權(quán)的交易都是利用大數(shù)據(jù)算法進行的,這些算法現(xiàn)在越來越多地考慮了社交媒體和網(wǎng)站新聞來決定在未來幾秒內(nèi)是買出還是賣出。隨著大數(shù)據(jù)的應(yīng)用越來越普及,還有很多新的大數(shù)據(jù)的應(yīng)用領(lǐng)域及新的大數(shù)據(jù)應(yīng)用。第一節(jié)大數(shù)據(jù)技術(shù)概述思考題1.什么是大數(shù)據(jù)?簡述大數(shù)據(jù)的發(fā)展。2.大數(shù)據(jù)有什么特點?3.簡述大數(shù)據(jù)的作用。第二節(jié)大數(shù)據(jù)技術(shù)各種各樣的大數(shù)據(jù)應(yīng)用迫切需要新的工具和技術(shù)來存儲、管理和實現(xiàn)商業(yè)價值。新的工具、流程和方法支撐起了新的技術(shù)架構(gòu),使得企業(yè)能夠建立、操作和管理這些超大規(guī)模的數(shù)據(jù)集和存儲數(shù)據(jù)的存儲環(huán)境。第二節(jié)大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)架構(gòu)一、在全新的數(shù)據(jù)增長速度條件下,一切都必須重新評估。這項工作必須從全盤入手,并考慮大數(shù)據(jù)分析要容納數(shù)據(jù)本身,IT基礎(chǔ)架構(gòu)必須能夠以經(jīng)濟的方式存儲比以往量更大、類型更多的數(shù)據(jù)。此外,還必須能適應(yīng)數(shù)據(jù)速度,即數(shù)據(jù)變化的速度。數(shù)量如此大的數(shù)據(jù)難以在當今的網(wǎng)絡(luò)連接條件下快速來回移動。大數(shù)據(jù)基礎(chǔ)架構(gòu)必須分布計算能力,以便能在接近用戶的位置進行數(shù)據(jù)分析,減少跨越網(wǎng)絡(luò)所引起的延遲。第二節(jié)大數(shù)據(jù)技術(shù)隨著企業(yè)逐漸認識到必須在數(shù)據(jù)駐留的位置進行分析,提升計算能力,以便為分析工具提供實時響應(yīng)帶來挑戰(zhàn)??紤]到數(shù)據(jù)速度和數(shù)據(jù)量,來回移動數(shù)據(jù)進行處理是不現(xiàn)實的。相反,計算和分析工具可能會移到數(shù)據(jù)附近,而且云計算模式對大數(shù)據(jù)的成功至關(guān)重要。云模型在從大數(shù)據(jù)中提取商業(yè)價值的同時也在馴服它。這種交付模型能為企業(yè)提供一種靈活的選擇,以實現(xiàn)大數(shù)據(jù)分析所需的效率、可擴展性、數(shù)據(jù)便攜性和經(jīng)濟性。但僅僅存儲和提供數(shù)據(jù)還不夠,只有以新方式合成、分析和關(guān)聯(lián)數(shù)據(jù),才能提供商業(yè)價值。部分大數(shù)據(jù)方法要求處理未經(jīng)建模的數(shù)據(jù)。第二節(jié)大數(shù)據(jù)技術(shù)因此,可以用毫不相干的數(shù)據(jù)源比較不同類型的數(shù)據(jù)和進行模式匹配,從而使大數(shù)據(jù)的分析能以新視角挖掘企業(yè)傳統(tǒng)數(shù)據(jù),并帶來傳統(tǒng)上未曾分析過的數(shù)據(jù)洞察力。基于上述考慮,一般可以構(gòu)建出適合大數(shù)據(jù)的4層堆棧式技術(shù)架構(gòu),如圖8-1所示。圖8-14層堆棧式技術(shù)架構(gòu)第二節(jié)大數(shù)據(jù)技術(shù)基礎(chǔ)層1.第一層作為整個大數(shù)據(jù)技術(shù)架構(gòu)基礎(chǔ)的最底層,也是基礎(chǔ)層。要實現(xiàn)大數(shù)據(jù)規(guī)模的應(yīng)用,企業(yè)需要一個高度自動化的、可橫向擴展的存儲和計算平臺。這個基礎(chǔ)設(shè)施需要從以前的存儲孤島發(fā)展為具有共享能力的高容量存儲池。容量、性能和吞吐量必須以線性擴展。云模型鼓勵訪問數(shù)據(jù)并提供彈性資源池來應(yīng)對大規(guī)模問題,解決了如何存儲大量數(shù)據(jù),及如何積聚所需的計算資源來操作數(shù)據(jù)的問題。在云中,數(shù)據(jù)跨多個節(jié)點調(diào)配和分布,使得數(shù)據(jù)更接近需要它的用戶,從而可以縮短響應(yīng)時間和提高生產(chǎn)率。第二節(jié)大數(shù)據(jù)技術(shù)管理層2.要支持在多源數(shù)據(jù)上做深層次的分析,大數(shù)據(jù)技術(shù)架構(gòu)中需要一個管理平臺,使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)管理為一體,具備實時傳送和查詢、計算功能。本層既包括數(shù)據(jù)的存儲和管理,也涉及數(shù)據(jù)的計算。并行化和分布式是大數(shù)據(jù)管理平臺所必須考慮的要素。第二節(jié)大數(shù)據(jù)技術(shù)分析層3.大數(shù)據(jù)應(yīng)用需要大數(shù)據(jù)分析。分析層提供基于統(tǒng)計學(xué)的數(shù)據(jù)挖掘和機器學(xué)習(xí)算法,用于分析和解釋數(shù)據(jù)集,幫助企業(yè)獲得對數(shù)據(jù)價值深入的領(lǐng)悟??蓴U展性強、使用靈活的大數(shù)據(jù)分析平臺更可成為數(shù)據(jù)科學(xué)家的利器,起到事半功倍的效果。第二節(jié)大數(shù)據(jù)技術(shù)應(yīng)用層4.大數(shù)據(jù)的價值體現(xiàn)在幫助企業(yè)進行決策和為終端用戶提供服務(wù)的應(yīng)用。不同的新型商業(yè)需求驅(qū)動了大數(shù)據(jù)的應(yīng)用。反之,大數(shù)據(jù)應(yīng)用為企業(yè)提供的競爭優(yōu)勢使得企業(yè)更加重視大數(shù)據(jù)的價值。新型大數(shù)據(jù)應(yīng)用對大數(shù)據(jù)技術(shù)不斷提出新的要求,大數(shù)據(jù)技術(shù)也因此在不斷的發(fā)展變化中日趨成熟。第二節(jié)大數(shù)據(jù)技術(shù)大數(shù)據(jù)的整體技術(shù)和關(guān)鍵技術(shù)二、大數(shù)據(jù)需要特殊的技術(shù),以有效地處理那些在允許時間范圍內(nèi)的大量數(shù)據(jù)。適用于大數(shù)據(jù)技術(shù)應(yīng)用的領(lǐng)域包括大規(guī)模并行處理數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。大數(shù)據(jù)技術(shù)分為整體技術(shù)和關(guān)鍵技術(shù)兩個方面。第二節(jié)大數(shù)據(jù)技術(shù)整體技術(shù)1.大數(shù)據(jù)處理整體技術(shù)一般包括數(shù)據(jù)采集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、模型預(yù)測和結(jié)果呈現(xiàn)等。(1)數(shù)據(jù)采集:ETL(extracttransformload)工具負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。(2)數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫、SQL等。(3)基礎(chǔ)架構(gòu):云存儲、分布式文件存儲等。第二節(jié)大數(shù)據(jù)技術(shù)(4)數(shù)據(jù)處理:自然語言處理(naturallanguageprocessing,NLP)是研究人與計算機交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計算機理解自然語言,一方面它是語言信息處理的一個分支,另一方面它是人工智能(artificialintelligence,AI)的核心課題之一。(5)統(tǒng)計分析:假設(shè)檢驗、顯著性檢驗、差異分析、相關(guān)分析、T檢驗、方差分析、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等。第二節(jié)大數(shù)據(jù)技術(shù)(6)數(shù)據(jù)挖掘:分類、估計、預(yù)測、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類、描述和可視化、復(fù)雜數(shù)據(jù)類型(文本、網(wǎng)頁、圖像、視頻、音頻等)挖掘。(7)模型預(yù)測:預(yù)測模型、機器學(xué)習(xí)、建模仿真。(8)結(jié)果呈現(xiàn):云計算、標簽云、關(guān)系圖等。第二節(jié)大數(shù)據(jù)技術(shù)關(guān)鍵技術(shù)2.數(shù)據(jù)是指通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識服務(wù)模型的根本。設(shè)計質(zhì)量評估模型,提高開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲及管理技術(shù)、開發(fā)大數(shù)據(jù)安全技術(shù)、大數(shù)據(jù)分析及挖掘技術(shù)、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)技術(shù)。第二節(jié)大數(shù)據(jù)技術(shù)1)大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層,主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、基礎(chǔ)支撐層:提供大數(shù)據(jù)服務(wù)平臺所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)資源等基礎(chǔ)支撐環(huán)境。重點攻克分布式虛擬存儲技術(shù),大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護技術(shù)等。第二節(jié)大數(shù)據(jù)技術(shù)2)大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)預(yù)處理技術(shù)主要完成對已接收數(shù)據(jù)的抽取、清洗等操作。(1)抽取。因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以幫助將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或便于處理的構(gòu)型,以達到快速分析、處理的目的。(2)清洗。由于在海量數(shù)據(jù)中,并不全是有價值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯誤的干擾項,因此,要對數(shù)據(jù)通過過濾“去噪”,從而提取出有效數(shù)據(jù)。第二節(jié)大數(shù)據(jù)技術(shù)3)大數(shù)據(jù)存儲及管理技術(shù)大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進行管理和調(diào)用。重點解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù),主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關(guān)鍵問題。開發(fā)可靠的分布式文件系統(tǒng)(.DFS)、能效優(yōu)化的存儲、異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)、數(shù)據(jù)組織技術(shù)、研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。第二節(jié)大數(shù)據(jù)技術(shù)4)開發(fā)大數(shù)據(jù)安全技術(shù)開發(fā)大數(shù)據(jù)安全技術(shù)包括改進數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計等技術(shù);突破隱私保護和推理控制、數(shù)據(jù)真?zhèn)巫R別和取證、數(shù)據(jù)持有完整性驗證等技術(shù)。第二節(jié)大數(shù)據(jù)技術(shù)5)大數(shù)據(jù)分析及挖掘技術(shù)改進已有數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù),開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù),突破基于對象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù),突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。第二節(jié)大數(shù)據(jù)技術(shù)數(shù)據(jù)挖掘涉及的技術(shù)方法很多,包括多種分類法。根據(jù)挖掘任務(wù)可分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫及環(huán)球網(wǎng)Web;根據(jù)挖掘方法可粗分為機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。第二節(jié)大數(shù)據(jù)技術(shù)機器學(xué)習(xí)可細分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計方法可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法可細分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。第二節(jié)大數(shù)據(jù)技術(shù)從挖掘任務(wù)和挖掘方法的角度,要著重突破以下幾點:(1)可視化分析。數(shù)據(jù)可視化無論是對于普通用戶,還是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說話,讓用戶直觀地感受到結(jié)果。(2)數(shù)據(jù)挖掘算法。圖像化是將機器語言翻譯給人看,而數(shù)據(jù)挖掘就是機器的母語。分割、集群、孤立點分析還有各種各樣的算法讓我們精煉數(shù)據(jù),挖掘價值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時還具有很快的處理速度。第二節(jié)大數(shù)據(jù)技術(shù)(3)預(yù)測性分析。預(yù)測性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。(4)語義引擎。語義引擎需要設(shè)計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。語言處理技術(shù)包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。(5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量與數(shù)據(jù)管理是管理的最佳實踐,透過標準化流程和機器對數(shù)據(jù)進行處理可以確保獲得一個預(yù)設(shè)質(zhì)量的分析結(jié)果。第二節(jié)大數(shù)據(jù)技術(shù)6)大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟活動提供依據(jù),從而提高各個領(lǐng)域的運行效率,大大提高整個社會經(jīng)濟的集約化程度。第二節(jié)大數(shù)據(jù)技術(shù)在我國,大數(shù)據(jù)將重點應(yīng)用于以下三大領(lǐng)域:商業(yè)智能、政府決策和公共服務(wù),如商業(yè)智能技術(shù)、政府決策技術(shù)、電信數(shù)據(jù)信息處理與挖掘技術(shù)、電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù)、氣象信息分析技術(shù)、環(huán)境監(jiān)測技術(shù)、警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng))、大規(guī)模基因序列分析比對技術(shù)、Web信息挖掘技術(shù)、多媒體數(shù)據(jù)并行化處理技術(shù)、影視制作渲染技術(shù)、其他各種行業(yè)的云計算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。第二節(jié)大數(shù)據(jù)技術(shù)大數(shù)據(jù)處理分析的常用工具三、

大數(shù)據(jù)分析是在研究大量數(shù)據(jù)的過程中尋找模式、相關(guān)性和其他有用的信息,可以幫助企業(yè)更好地適應(yīng)變化,并做出更明智的決策。第二節(jié)大數(shù)據(jù)技術(shù)Hadoop1.Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,其是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop

是可靠的,因為它假設(shè)計算元素和存儲會失敗,因此,它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理,Hadoop

是高效的,因為它以并行的方式工作,通過并行處理加快處理速度,Hadoop

還是可伸縮的,能夠處理PB級數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù)器,因此,它的成本比較低,任何人都可以使用。第二節(jié)大數(shù)據(jù)技術(shù)Hadoop

是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在

Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點:(1)高可靠性。Hadoop

按位存儲和處理數(shù)據(jù)的能力值得人們信賴。(2)高擴展性。Hadoop

是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。第二節(jié)大數(shù)據(jù)技術(shù)(3)高效性。Hadoop

能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此,處理速度非常快。(4)高容錯性。Hadoop

能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。Hadoop

帶有用

Java語言編寫的框架,因此,運行在

Linux生產(chǎn)平臺上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語言編寫,如

C++等。第二節(jié)大數(shù)據(jù)技術(shù)HPCC2.HPCC是highperformancecomputingandcommunications(高性能計算與通信)的縮寫。1993年,美國科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會向國會提交了“重大挑戰(zhàn)項目:高性能計算與通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統(tǒng)科學(xué)戰(zhàn)略項目,其目的是通過加強研究與開發(fā)解決一批重要的科學(xué)和技術(shù)挑戰(zhàn)問題。HPCC是美國實施信息高速公路而實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發(fā)可擴展的計算系統(tǒng)及相關(guān)軟件,以支持太位級網(wǎng)絡(luò)傳輸性能,開發(fā)千兆比特網(wǎng)絡(luò)技術(shù),擴展研究和教育機構(gòu)及網(wǎng)絡(luò)連接能力。第二節(jié)大數(shù)據(jù)技術(shù)該項目主要由以下5部分組成:(1)高性能計算機系統(tǒng)(HPCS),內(nèi)容包括今后幾代計算機系統(tǒng)的研究、系統(tǒng)設(shè)計工具、先進的典型系統(tǒng)及原有系統(tǒng)的評價等。(2)先進軟件技術(shù)與算法(ASTA),內(nèi)容有巨大挑戰(zhàn)問題的軟件支撐、新算法設(shè)計、軟件分支與工具、計算及高性能計算研究中心等。第二節(jié)大數(shù)據(jù)技術(shù)(3)國家科研與教育網(wǎng)格(NREN),內(nèi)容有中接站及10億位級傳輸?shù)难芯颗c開發(fā)。(4)基本研究與人類資源(BRHR),內(nèi)容有基礎(chǔ)研究、培訓(xùn)、教育及課程教材,被設(shè)計是通過獎勵調(diào)查者開始的,長期的調(diào)查在可升級的高性能計算中來增加創(chuàng)新意識流,通過提高教育和高性能的計算訓(xùn)練及通信來加大熟練的與訓(xùn)練有素的人員的聯(lián)營,以及提供必需的基礎(chǔ)架構(gòu)來支持這些調(diào)查和研究活動。(5)信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應(yīng)用(IITA),目的在于保證美國在先進信息技術(shù)開發(fā)方面的領(lǐng)先地位。第二節(jié)大數(shù)據(jù)技術(shù)STORM3.STORM是自由的開源軟件,一個分布式的、容錯的實時計算系統(tǒng)。STORM可以非常可靠地處理龐大的數(shù)據(jù)流,用于處理Hadoop

的批量數(shù)據(jù),因為Hadoop

不擅長實時計算,Hadoop

天然就是為批量處理而生的。STORM很簡單,支持許多種編程語言,使用起來非常有趣。STORM由Twitter開源而來,其他知名的應(yīng)用企業(yè)包括

Groupon、淘寶、支付寶、阿里巴巴、樂元素、

Admaster

等。第二節(jié)大數(shù)據(jù)技術(shù)STORM主要適用于以下幾種情形:(1)流數(shù)據(jù)處理。流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達的數(shù)據(jù)序列,一般情況下,流數(shù)據(jù)可被視為一個隨時間延續(xù)而無限增長的動態(tài)數(shù)據(jù)集合,應(yīng)用于網(wǎng)絡(luò)監(jiān)控、傳感器網(wǎng)絡(luò)、航空航天、氣象測控和金融服務(wù)等領(lǐng)域。STORM可以用來處理源源不斷流進來的消息,處理之后將結(jié)果寫入某個存儲中去。第二節(jié)大數(shù)據(jù)技術(shù)(2)分布式RPC。RPC(remoteprocedurecallprotocol)是遠程過程調(diào)用協(xié)議,它是一種通過網(wǎng)絡(luò)從遠程計算機程序上請求服務(wù),而不需要了解底層網(wǎng)絡(luò)技術(shù)的協(xié)議。由于STORM的處理組件是分布式的,而且處理延遲極低,所以可以作為一個通用的分布式RPC框架來使用。其實搜索引擎本身也是一個分布式RPC系統(tǒng)。一種通過網(wǎng)絡(luò)從遠程計算機程序上請求服務(wù))、

ETL(extractiontransformationloading,數(shù)據(jù)抽取、轉(zhuǎn)換和加載)等。STORM的處理速度驚人:經(jīng)測試,每個節(jié)點每秒鐘可以處理100萬個數(shù)據(jù)元組。STORM可擴展、容錯,很容易設(shè)置和操作。第二節(jié)大數(shù)據(jù)技術(shù)RapidMiner4.RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個非常大的程度上有著先進技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡化數(shù)據(jù)挖掘過程的設(shè)計和評價。RapidMiner提供的數(shù)據(jù)挖掘和機器學(xué)習(xí)程序包括:數(shù)據(jù)加載和轉(zhuǎn)換(ETL)、數(shù)據(jù)預(yù)處理和可視化、建模、評估和部署。數(shù)據(jù)挖掘的流程是以XML文件加以描述,并通過一個圖形用戶界面顯示出來。RapidMiner是由Java編程語言編寫的,其中還集成了WEKA的學(xué)習(xí)器和評估方法,并可以與R語言進行協(xié)同工作。第二節(jié)大數(shù)據(jù)技術(shù)RapidMiner的功能和特點如下:(1)免費提供數(shù)據(jù)挖掘技術(shù)和庫。(2)100%用

Java代碼(可運行在操作系統(tǒng))。(3)數(shù)據(jù)挖掘過程簡單、強大和直觀。(4)內(nèi)部

XML保證了標準化的格式來表示交換數(shù)據(jù)挖掘過程。(5)可以用簡單腳本語言自動進行大規(guī)模進程。(6)多層次的數(shù)據(jù)視圖,確保有效和透明的數(shù)據(jù)。第二節(jié)大數(shù)據(jù)技術(shù)(7)圖形用戶界面的互動原型。(8)命令行(批處理模式)自動大規(guī)模應(yīng)用。(9)JavaAPI(應(yīng)用編程接口)。(10)簡單的插件和推廣機制。(11)強大的可視化引擎,許多尖端的高維數(shù)據(jù)的可視化建模。(12)眾多數(shù)據(jù)挖掘運營商支持。第二節(jié)大數(shù)據(jù)技術(shù)大數(shù)據(jù)應(yīng)用案例四、近兩年,“大數(shù)據(jù)”這個詞越來越為大眾所熟悉,但是對于大多數(shù)人而言,想要理解大數(shù)據(jù)的應(yīng)用并不是很容易的。通過一些經(jīng)典的案例,人們發(fā)現(xiàn)它其實就在自己身邊。第二節(jié)大數(shù)據(jù)技術(shù)啤酒與尿布的故事1.“啤酒與尿布”的故事是營銷界的神話,“啤酒”和“尿布”兩個看上去沒有關(guān)系的商品擺放在一起進行銷售并獲得了很好的銷售收益,這種現(xiàn)象就是賣場中商品之間的關(guān)聯(lián)性,研究“啤酒與尿布”關(guān)聯(lián)的方法就是購物籃分析。購物籃分析曾經(jīng)是沃爾瑪秘而不宣的獨門武器,可以幫助人們在門店的銷售過程中找到具有關(guān)聯(lián)關(guān)系的商品,并以此獲得銷售收益的增長。第二節(jié)大數(shù)據(jù)技術(shù)沃爾瑪?shù)摹捌【婆c尿布”案例是正式刊登在1998年的《哈佛商業(yè)評論》上,該案例產(chǎn)生于20世紀90年代的美國沃爾瑪超市中。沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難以理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。第二節(jié)大數(shù)據(jù)技術(shù)在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。第二節(jié)大數(shù)據(jù)技術(shù)當然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年,美國學(xué)者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。艾格拉沃從數(shù)學(xué)及計算機算法角度提出了商品關(guān)聯(lián)關(guān)系的計算方法——Aprior算法。沃爾瑪從20個世紀90年代嘗試將Aprior算法引入POS機數(shù)據(jù)分析中,并獲得了成功。第二節(jié)大數(shù)據(jù)技術(shù)第一,沃爾瑪先進的計算機技術(shù)是“啤酒與尿布”故事產(chǎn)生的強大支持后盾。零售業(yè)目前使用的很多新技術(shù)都是沃爾瑪率先“嘗鮮”的,如沃爾瑪最早在門店嘗試計算機記賬,最早在門店收款臺嘗試使用外形丑陋的俗稱“牛眼”的條碼掃描器進行收款,世界上第一個發(fā)射私人通信衛(wèi)星等?!扒叭嗽詷?,后人乘涼”,目前運用于門店管理的很多技術(shù)手段都是沃爾瑪“第一個吃螃蟹”的,我們只不過坐享其成而已。由于沃爾瑪具備先進的技術(shù)手段,“啤酒與尿布”的故事在沃爾瑪產(chǎn)生就一點也不奇怪了。第二節(jié)大數(shù)據(jù)技術(shù)第二,沃爾瑪擁有一雙銳利的慧眼。沃爾瑪是一家極其講究賣場現(xiàn)場管理的企業(yè),沃爾瑪創(chuàng)始人老沃爾頓最大的樂趣就是不停地在賣場巡視,更多地運用自己的雙眼而不是數(shù)據(jù)來發(fā)現(xiàn)事實。因此,不能忽略的是,沒有沃爾瑪管理人員的慧眼,“啤酒與尿布”的故事也會淹沒在大量的零售數(shù)據(jù)中。第二節(jié)大數(shù)據(jù)技術(shù)谷歌成功預(yù)測甲型H1N1流感1.2009年出現(xiàn)了一種新的流感病毒。這種甲型H1N1流感結(jié)合了導(dǎo)致禽流感和豬流感的病毒的特點,在短短幾周之內(nèi)迅速傳播開來。全球的公共衛(wèi)生機構(gòu)都擔(dān)心一場致命的流行病即將來襲。有的評論家甚至警告說,可能會爆發(fā)大規(guī)模流感。更糟糕的是全世界還沒有研發(fā)出對抗這種新型流感病毒的疫苗。公共衛(wèi)生專家能做的只是減慢它傳播的速度。但要做到這一點,他們必須先知道這種流感出現(xiàn)在哪里。第二節(jié)大數(shù)據(jù)技術(shù)美國和所有其他國家一樣,都要求醫(yī)生在發(fā)現(xiàn)新型流感病例時告知疾病控制與預(yù)防中心。但由于病人可能患病多日實在受不了了才會去醫(yī)院,同時這個信息傳回疾控中心也需要時間,因此,通告新流感病例時往往會有一兩周的延遲。而且,疾控中心每周只進行一次數(shù)據(jù)匯總。然而,對于一種飛速傳播的疾病,信息滯后兩周的后果將是致命的。這種滯后導(dǎo)致公共衛(wèi)生機構(gòu)在疫情爆發(fā)的關(guān)鍵時期反而無所適從。第二節(jié)大數(shù)據(jù)技術(shù)在甲型H1N1流感爆發(fā)的幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師在《自然》雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員和計算機科學(xué)家感到震驚。文中解釋了谷歌為什么能夠預(yù)測冬季流感的傳播:不僅是全美范圍的傳播,而且可以具體到特定的地區(qū)和州。谷歌通過觀察人們在網(wǎng)上的搜索記錄來完成這個預(yù)測,而這種方法以前一直是被忽略的。谷歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它完成這項工作。第二節(jié)大數(shù)據(jù)技術(shù)谷歌公司把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行了比較,他們希望通過分析人們的搜索記錄來判斷這些人是否患上了流感。其他公司也曾試圖確定這些相關(guān)的詞條,但是他們?nèi)狈ο窆雀韫疽粯育嫶蟮臄?shù)據(jù)資源、處理能力和統(tǒng)計技術(shù)。第二節(jié)大數(shù)據(jù)技術(shù)雖然谷歌公司的員工猜測,特定的檢索詞條是為了在網(wǎng)絡(luò)上得到關(guān)于流感的信息,如“哪些是治療咳嗽和發(fā)熱的藥物”,但是找出這些詞條并不是重點,他們也不知道哪些詞條更重要。更關(guān)鍵的是,他們建立的系統(tǒng)并不依賴于這樣的語義理解。他們設(shè)立的這個系統(tǒng)唯一關(guān)注的就是特定檢索詞條的使用頻率與流感在時間和空間上的傳播之間的聯(lián)系。第二節(jié)大數(shù)據(jù)技術(shù)谷歌公司為了測試這些檢索詞條,總共處理了4.5億個不同的數(shù)學(xué)模型。在將得出的預(yù)測與2007年、2008年美國疾控中心記錄的實際流感病例進行對比后,谷歌公司發(fā)現(xiàn),他們的軟件發(fā)現(xiàn)了45條檢索詞條的組合,將它們用于一個特定的數(shù)學(xué)模型后,他們的預(yù)測與官方數(shù)據(jù)的相關(guān)性高達97%。和疾控中心一樣,他們也能判斷出流感是從哪里傳播出來的,而且判斷非常及時,不會像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。第二節(jié)大數(shù)據(jù)技術(shù)所以,2009年甲型H1N1流感爆發(fā)時,與習(xí)慣性滯后的官方數(shù)據(jù)相比,谷歌成為一個更有效、更及時的指示標,使公共衛(wèi)生機構(gòu)的官員獲得了非常有價值的數(shù)據(jù)信息。驚人的是,谷歌公司的方法甚至不需要分發(fā)口腔試紙和聯(lián)系醫(yī)生——它是建立在大數(shù)據(jù)的基礎(chǔ)之上的。這是當今社會所獨有的一種新型能力:以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見?;谶@樣的技術(shù)理念和數(shù)據(jù)儲備,下一次流感來襲時,世界將會擁有一種更好的預(yù)測工具,以預(yù)防流感的傳播。第二節(jié)大數(shù)據(jù)技術(shù)百度大數(shù)據(jù)——旅游預(yù)測3.每一天,全中國都有數(shù)以百萬計的互聯(lián)網(wǎng)用戶在利用百度搜索各種旅游相關(guān)信息。我們發(fā)現(xiàn),旅游的相關(guān)搜索數(shù)量隨著季節(jié)和節(jié)假日的時間呈現(xiàn)周期性的上漲與下浮。百度大數(shù)據(jù)部通過對搜索數(shù)據(jù)的深度挖掘,已經(jīng)發(fā)現(xiàn)旅游相關(guān)詞搜索數(shù)量和實際旅游人數(shù)之間的密切關(guān)系,并依此建立了旅游預(yù)測模型。通過和北京市旅游委的景點實際人數(shù)對比,準確度達到90%以上,可以充分反映各旅游景點未來的人流趨勢。第二節(jié)大數(shù)據(jù)技術(shù)圖8-2展示了百度大數(shù)據(jù)部故宮旅游人數(shù)預(yù)測值和北京市旅游委提供的故宮當日實際人數(shù)的對比。圖8-2百度大數(shù)據(jù)部故宮旅游人數(shù)預(yù)測值和北京市旅游委提供的故宮當日實際人數(shù)的對比第二節(jié)大數(shù)據(jù)技術(shù)旅游預(yù)測是百度將大數(shù)據(jù)信息帶入日常生活的眾多產(chǎn)品中的一個。除此之外,基于百度大數(shù)據(jù)的百度預(yù)測還有經(jīng)濟指數(shù)預(yù)測、疾病預(yù)測、城市預(yù)測、高考預(yù)測等。第二節(jié)大數(shù)據(jù)技術(shù)思考題1.簡述大數(shù)據(jù)的4層堆棧式技術(shù)架構(gòu)。2.大數(shù)據(jù)的整體技術(shù)包括哪幾方面?3.大數(shù)據(jù)的關(guān)鍵技術(shù)包括哪幾方面?4.列舉大數(shù)據(jù)處理分析的常用工具。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用早期,大部分醫(yī)療相關(guān)數(shù)據(jù)是以紙張化的形式存在的,而非電子數(shù)據(jù)化存儲,如官方的醫(yī)藥記錄、收費記錄、護士醫(yī)生手寫的病例記錄、處方藥記錄、X光片記錄、磁共振成像(MRI)記錄、CT影像記錄等。隨著強大的數(shù)據(jù)存儲、計算平臺及移動互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在的趨勢是醫(yī)療數(shù)據(jù)的大量爆發(fā)及快速的電子數(shù)字化。以上提到的醫(yī)療數(shù)據(jù)都在不同程度上向數(shù)字化轉(zhuǎn)化。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用醫(yī)療大數(shù)據(jù)概述一、有報告顯示,2011年,單單美國的醫(yī)療健康系統(tǒng)數(shù)據(jù)量就達到了150EB。照目前的增長速度,ZB的級別也會很快達到。例如,KaiserPermanente是一個在加州發(fā)展起來的醫(yī)療健康網(wǎng)絡(luò)系統(tǒng),其擁有上千萬的會員,被認為擁有數(shù)十甚至上百PB的電子健康記錄。IT時代涌現(xiàn)的還有各種網(wǎng)絡(luò)社交媒體數(shù)據(jù),公開發(fā)布的基因DNA微陣列達到50萬之多,每一陣列包含數(shù)萬的分子表達值。在生物醫(yī)藥方面,功能性磁共振影像的數(shù)據(jù)量也達到了數(shù)萬TB級別,每一幅影像包含有5萬像素值。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用此外,各種健身、健康可穿戴設(shè)備的出現(xiàn),使得血壓、心率、體重、血糖、心電圖等的監(jiān)測都變?yōu)楝F(xiàn)實和可能,信息的獲取和分析的速度已經(jīng)從原來的按“天”計算,發(fā)展到了按“小時”、按“秒”計算。比如,一家名為BlueSpark的科技公司已經(jīng)生產(chǎn)出能24h實時監(jiān)測體溫的新型溫度計貼片。這種數(shù)據(jù)的擴展速度和覆蓋范圍是前所未有的,數(shù)據(jù)的格式也五花八門,可能是無格式文件(flatfile)、CSV、關(guān)系表、ASCII/純文本文件等。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用同時,數(shù)據(jù)的來源也紛繁復(fù)雜,可能來自不同的地區(qū)、不同的醫(yī)療機構(gòu)、不同的軟件應(yīng)用。不可否認,一旦理順了多格式、多源頭、呈爆炸性成長的大數(shù)據(jù)的整合和分析,醫(yī)療大數(shù)據(jù)將在提高醫(yī)療質(zhì)量、強化患者安全、降低風(fēng)險、降低醫(yī)療成本等方面發(fā)揮無與倫比的巨大作用。有效的整合和利用數(shù)字化的醫(yī)療大數(shù)據(jù)對個體醫(yī)生、康復(fù)中心、大型醫(yī)院和醫(yī)療研究機構(gòu)都有著顯著的好處,包括以下幾個方面:第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用(1)更多、更準確的數(shù)據(jù)使得疾病能在早期被監(jiān)測到,從而使治療更容易和有效。(2)通過對特定個體或人群的健康管理,快速有效地監(jiān)測保健詐騙。(3)基于大量的歷史數(shù)據(jù),預(yù)測和估計特定疾病或人群的某些未來趨勢。例如,預(yù)測特定病人的住院時間,哪些病人會選擇非急需性手術(shù),哪些病人不會從手術(shù)治療中受益,哪些病人會更容易出現(xiàn)并發(fā)癥等。麥肯錫估計,單就美國而言,醫(yī)療大數(shù)據(jù)的利用可以為醫(yī)療開支每年節(jié)省出3千億美元。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用大數(shù)據(jù)在臨床操作上的應(yīng)用二、相對更有效的醫(yī)學(xué)研究,發(fā)展出臨床相關(guān)性更強和成本效益更高的方法來診斷和治療病人。在臨床業(yè)務(wù)方面,主要有以下幾個主要場景的大數(shù)據(jù)應(yīng)用:第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用比較效果研究1.通過全面分析病人特征數(shù)據(jù)和療效數(shù)據(jù),然后比較多種干預(yù)措施的有效性,可以找到針對特定病人的最佳治療途徑。基于療效的研究包括比較效果研究。研究表明,對同一病人來說,醫(yī)療服務(wù)提供方不同、醫(yī)療護理方法和效果不同,成本上也存在著很大的差異。精準分析包括病人體征數(shù)據(jù)、費用數(shù)據(jù)和療效數(shù)據(jù)在內(nèi)的大型數(shù)據(jù)集,可以幫助醫(yī)生確定臨床上最有效和最具有成本效益的治療方法。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用醫(yī)療護理系統(tǒng)實現(xiàn)比較效果研究,將有可能減少過度治療(如避免那些副作用比療效明顯的治療方式),及治療不足。從長遠來看,不管是過度治療還是治療不足,都將給病人身體帶來負面影響,及產(chǎn)生更高的醫(yī)療費用。世界各地的很多醫(yī)療機構(gòu)(如英國的NICE、德國IOWIG、加拿大普通藥品檢查機構(gòu)等)已經(jīng)開始了比較效果研究項目并取得了初步成功。2009年,美國通過的復(fù)蘇與再投資法案,就是向這個方向邁出的第一步。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用臨床決策支持系統(tǒng)2.臨床決策支持系統(tǒng)可以提高工作效率和診療質(zhì)量。目前的臨床決策支持系統(tǒng)分析醫(yī)生輸入的條目,比較其與醫(yī)學(xué)指引不同的地方,從而提醒醫(yī)生防止?jié)撛诘腻e誤,如藥物不良反應(yīng)。通過部署這些系統(tǒng),醫(yī)療服務(wù)提供方可以降低醫(yī)療事故率和索賠數(shù),尤其是那些臨床錯誤引起的醫(yī)療事故。在美國Metropolitan兒科重癥病房的研究中,兩個月內(nèi),臨床決策支持系統(tǒng)就削減了40%的藥品不良反應(yīng)事件數(shù)量。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用大數(shù)據(jù)分析技術(shù)將使臨床決策支持系統(tǒng)更智能,這得益于對非結(jié)構(gòu)化數(shù)據(jù)的分析能力的日益加強。例如,可以使用圖像分析和識別技術(shù),識別醫(yī)療影像(X光、CT、MRI)數(shù)據(jù),或者挖掘醫(yī)療文獻數(shù)據(jù)建立醫(yī)療專家數(shù)據(jù)庫,從而給醫(yī)生提出診療建議。此外,臨床決策支持系統(tǒng)還可以使醫(yī)療流程中大部分的工作流流向護理人員和助理醫(yī)生,使醫(yī)生從耗時過長的簡單咨詢工作中解脫出來,從而提高治療效率。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用醫(yī)療數(shù)據(jù)透明度3.提高醫(yī)療過程數(shù)據(jù)的透明度,可以使醫(yī)療從業(yè)者、醫(yī)療機構(gòu)的績效更透明,間接促進醫(yī)療服務(wù)質(zhì)量的提高。根據(jù)醫(yī)療服務(wù)提供方設(shè)置的操作和績效數(shù)據(jù)集,可以進行數(shù)據(jù)分析并創(chuàng)建可視化的流程圖和儀表盤,促進信息透明。數(shù)據(jù)分析可以帶來業(yè)務(wù)流程的精簡,通過精益生產(chǎn)降低成本,找到符合需求的、工作更高效的員工,從而提高護理質(zhì)量并給病人帶來更好的體驗。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用遠程病人監(jiān)控4.遠程病人監(jiān)控從對慢性病人的遠程監(jiān)控系統(tǒng)收集數(shù)據(jù),并將分析結(jié)果反饋給監(jiān)控設(shè)備(查看病人是否正在遵從醫(yī)囑),從而確定今后的用藥和治療方案。全世界有數(shù)以億計的慢性病患者,如糖尿病、充血性心臟衰竭、高血壓患者,他們的醫(yī)療費用占到了醫(yī)療衛(wèi)生系統(tǒng)醫(yī)療成本的絕大部分。遠程病人監(jiān)護系統(tǒng)對治療慢性病患者是非常有用的。遠程病人監(jiān)護系統(tǒng)包括家用心臟監(jiān)測設(shè)備、血糖儀,甚至還包括芯片藥片。芯片藥片被病人攝入后,實時傳送數(shù)據(jù)到電子病歷數(shù)據(jù)庫。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用例如,遠程監(jiān)控可以提醒醫(yī)生對充血性心臟衰竭病人采取及時治療措施,防止緊急狀況發(fā)生,因為充血性心臟衰竭的標志之一是由于保水產(chǎn)生的體重增加現(xiàn)象,這可以通過遠程監(jiān)控實現(xiàn)預(yù)防。更多的好處是,通過對遠程監(jiān)控系統(tǒng)產(chǎn)生的數(shù)據(jù)的分析,可以減少病人住院時間,減少急診量,實現(xiàn)提高家庭護理比例和門診醫(yī)生預(yù)約量的目標。第三節(jié)大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用對病人檔案的先進分析5.在病人檔案方面應(yīng)用高級分析可以確定哪些人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論