版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章
緒論大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第1章
緒論大數(shù)據(jù)時(shí)代悄然來臨,帶來了信息技術(shù)發(fā)展的巨大變革,開啟一次重大的時(shí)代轉(zhuǎn)型,并深刻影響著社會生產(chǎn)和人們生活的方方面面。企業(yè)和學(xué)術(shù)機(jī)構(gòu)紛紛加大技術(shù)、資金和人員投入力度,加大對大數(shù)據(jù)關(guān)鍵技術(shù)的研發(fā)與應(yīng)用,以期在“第三次信息化浪潮”中占得先機(jī)、引領(lǐng)市場。同時(shí)世界各國政府均高度重視大數(shù)據(jù)技術(shù)的研究和產(chǎn)業(yè)發(fā)展,紛紛把大數(shù)據(jù)上升為國家戰(zhàn)略加以重點(diǎn)推進(jìn)。大數(shù)據(jù)的時(shí)代的到了,它的影響力和作用力正迅速觸及社會的每個(gè)角落,特別是隨著計(jì)算機(jī)技術(shù)的進(jìn)步以及移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、5G移動(dòng)通信網(wǎng)絡(luò)技術(shù)的發(fā)展,多源異構(gòu)、形式多樣的數(shù)據(jù)正在沿著“摩爾定律”呈爆炸式增長,所到之處,或是顛覆,或是提升,都讓人們深切感受到了大數(shù)據(jù)實(shí)實(shí)在在的威力。數(shù)據(jù)1.1大數(shù)據(jù)時(shí)代1.2大數(shù)據(jù)的技術(shù)挑戰(zhàn)和科學(xué)意義1.3本章小結(jié)1.4目錄CONTENTS習(xí)題1.5
本節(jié)主要介紹數(shù)據(jù)的定義、數(shù)據(jù)的類型、數(shù)據(jù)組織形式、數(shù)據(jù)的生命周期、數(shù)據(jù)的價(jià)值以及大數(shù)據(jù)特征。數(shù)
據(jù)PART011.1.1
數(shù)據(jù)的定義數(shù)據(jù)和信息:數(shù)據(jù)是指對客觀事物的屬性、狀態(tài)以及相互之間的關(guān)系等進(jìn)行記載的描述客觀事件的物理符號或是物理符號的組合,它們是可識別的、抽象的。信息是較為宏觀的概念,它是由數(shù)據(jù)有序排列組合而成,傳遞給讀者某個(gè)方法或者概念等不同的信息。一段時(shí)間。項(xiàng)目是一次性(或者說是臨時(shí)性)的,每個(gè)項(xiàng)目都具有明確的開始和結(jié)尾。數(shù)據(jù)是信息的基本組成單位,離散的數(shù)據(jù)幾乎沒有任何有用的價(jià)值。1.1.2
數(shù)據(jù)的類型常見的數(shù)據(jù)類型通常包括文本、圖片、視頻、音頻等文本:文本是一種由若干行字符構(gòu)成的計(jì)算機(jī)文件。通常文本數(shù)據(jù)是不能參與算數(shù)運(yùn)算的任何字符,也稱之為字符型數(shù)據(jù)。圖片:圖片是指由圖形、圖像等構(gòu)成的平面媒體。圖片的格式很多,大體上可以分為點(diǎn)陣圖和矢量圖兩大類。音頻:人類能夠聽到的所有聲音都稱之為音頻,它可能包括噪音等。在即使是中,數(shù)字化的聲音數(shù)據(jù)就是音頻數(shù)據(jù)。音頻數(shù)據(jù)一般用音頻文件的格式來保存。視頻:視頻泛指將一系列靜態(tài)影像以電信號的方式加以捕捉、記錄、處理、儲存、傳送與重現(xiàn)的各種技術(shù)。因此視頻數(shù)據(jù)是指連續(xù)的圖像序列。1.1.3
數(shù)據(jù)組織形式根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同,數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)多數(shù)存在于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,是我們熟知的使用的數(shù)據(jù)形式,數(shù)據(jù)結(jié)構(gòu)事先已經(jīng)定義好,非常方便使用二維表格形式描述,便于存儲和管理。非結(jié)構(gòu)化數(shù)據(jù)不同于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)結(jié)構(gòu)很難描述,不規(guī)則或者不完整,沒有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)或者模型,無法提前預(yù)知。半結(jié)構(gòu)化的數(shù)據(jù)介于結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間,可以用一定數(shù)據(jù)結(jié)構(gòu)來描述,但通常數(shù)據(jù)內(nèi)容與結(jié)構(gòu)混疊在一起,結(jié)構(gòu)變化很大,本質(zhì)上不具有關(guān)系性,不能簡單地用二維表格來實(shí)現(xiàn)結(jié)構(gòu)描述。半結(jié)構(gòu)化數(shù)據(jù)通常是自描述的結(jié)構(gòu),多數(shù)以樹或者圖的數(shù)據(jù)模型進(jìn)行存儲。1.1.4數(shù)據(jù)生命周期數(shù)據(jù)都存在生命周期,通常為四個(gè)階段第一階段:數(shù)據(jù)采集,需要借助工具去實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換,形成高質(zhì)量的、標(biāo)準(zhǔn)化的數(shù)據(jù),把數(shù)據(jù)變成一種可用的狀態(tài)。第二階段:數(shù)據(jù)存儲與管理,“多源異構(gòu)”的數(shù)據(jù)決定了數(shù)據(jù)的存儲方式也是比較多樣的,但是通常還是存放到數(shù)據(jù)庫系統(tǒng)中進(jìn)行管理。第三階段:分析與挖掘,為了充分發(fā)揮存儲設(shè)備和數(shù)據(jù)的價(jià)值,需要對數(shù)據(jù)生命周期進(jìn)行認(rèn)真分析,在不同的階段對數(shù)據(jù)采取不同的管理策略。第四階段:可視化顯示1.1.4數(shù)據(jù)生命周期數(shù)據(jù)全生命周期包含了以下八個(gè)階段數(shù)據(jù)采集階段:為了進(jìn)行分析,首先必須記錄或采集數(shù)據(jù),這是創(chuàng)建組織內(nèi)尚不存在的信息的行為。被采集到的數(shù)據(jù)可能來自公司的外部或內(nèi)部。采集的數(shù)據(jù)數(shù)據(jù)維護(hù)階段:捕捉數(shù)據(jù)后,生命周期的第二階段可以定義為向發(fā)生數(shù)據(jù)合成和數(shù)據(jù)使用的點(diǎn)提供數(shù)據(jù)。數(shù)據(jù)合成階段:數(shù)據(jù)合成涉及統(tǒng)計(jì)方法的使用,這些方法結(jié)合了許多數(shù)據(jù)來源或測試,以獲得更好的總體估計(jì)或被問到的有關(guān)數(shù)據(jù)問題的答案。一些人把這個(gè)稱為數(shù)據(jù)建?;蚴褂脷w納推理以轉(zhuǎn)換數(shù)據(jù)。另一些人將數(shù)據(jù)合成視為數(shù)據(jù)維護(hù)的子集。數(shù)據(jù)使用階段:數(shù)據(jù)使用就是如何使用數(shù)據(jù)來支持業(yè)務(wù)的任務(wù),此階段可以定義為將數(shù)據(jù)應(yīng)用到企業(yè)需要自行運(yùn)行和管理的任務(wù)。如戰(zhàn)略規(guī)劃、客戶關(guān)系管理、處理發(fā)票、向供應(yīng)商發(fā)送訂購單等。1.1.4數(shù)據(jù)生命周期數(shù)據(jù)分析階段:數(shù)據(jù)分析是以創(chuàng)建新的信息和產(chǎn)生業(yè)務(wù)洞察力為目的檢查原始數(shù)據(jù)的科學(xué)性。它包含技能、科學(xué)、迭代探索和對過去業(yè)務(wù)績效的調(diào)查,以獲得洞察力并推動(dòng)未來的業(yè)務(wù)規(guī)劃。在它最基本的層次,它意味著用數(shù)據(jù)分析的方法來回答問題。一些人將數(shù)據(jù)分析視為數(shù)據(jù)使用的子集。數(shù)據(jù)發(fā)布階段:數(shù)據(jù)發(fā)布是向組織外部發(fā)送數(shù)據(jù)的行為,可以發(fā)布數(shù)據(jù)以供廣泛使用,通常將數(shù)據(jù)發(fā)送到業(yè)務(wù)部門。例如向客戶發(fā)送結(jié)算單。數(shù)據(jù)存檔階段:單個(gè)數(shù)據(jù)值可能會使用相當(dāng)長的一段時(shí)間,但其生命周期最終都會到盡頭。那時(shí),組織應(yīng)該將數(shù)據(jù)值存檔。數(shù)據(jù)存檔是從有效使用的數(shù)據(jù)中刪除數(shù)據(jù),并將其存儲以備潛在的未來使用的過程,數(shù)據(jù)存檔是存儲數(shù)據(jù)的位置,但是它沒有定期維護(hù),且使用率可能很少。數(shù)據(jù)清除階段:數(shù)據(jù)清除涉及刪除不再有用或不需要的數(shù)據(jù),在數(shù)據(jù)生命周期結(jié)束時(shí),將從企業(yè)中刪除數(shù)據(jù)項(xiàng)的每個(gè)副本,這通常是從歸檔中完成的。管理者應(yīng)創(chuàng)建數(shù)據(jù)保留政策以實(shí)施正確的數(shù)據(jù)清除實(shí)踐。1.1.5
數(shù)據(jù)的價(jià)值大數(shù)據(jù)時(shí)代,數(shù)據(jù)的根本價(jià)值是可以為人們提供價(jià)值大數(shù)據(jù)時(shí)代,數(shù)據(jù)的采集往往是為了某個(gè)特定的目的。對于數(shù)據(jù)采集者來說,數(shù)據(jù)的價(jià)值是確定,并且是不斷地被人所熟知的。數(shù)據(jù)的價(jià)值不會因?yàn)椴粩嗍褂枚麥p,反而會因?yàn)椴粩嘀亟M而產(chǎn)生更大的價(jià)值?;跀?shù)據(jù)的價(jià)值特性,各種途徑收集上來的各種不同類型的數(shù)據(jù)都應(yīng)當(dāng)盡可能長時(shí)間地保存下來,同時(shí)也在一定條件下與全社會分享,產(chǎn)生更多更大的價(jià)值。在大數(shù)據(jù)時(shí)代,當(dāng)今和未來最有價(jià)值的商品是數(shù)據(jù)。因此,要實(shí)現(xiàn)大數(shù)據(jù)時(shí)代思維方式的轉(zhuǎn)撥,就必須要正確認(rèn)識數(shù)據(jù)的價(jià)值,數(shù)據(jù)已經(jīng)具備了經(jīng)濟(jì)的屬性。1.1.6
大數(shù)據(jù)的特征美國國家標(biāo)準(zhǔn)技術(shù)研究院認(rèn)為大數(shù)據(jù)由具有規(guī)模巨大(Volume)、種類繁多(Variety)、增長速度快(Valocity)和變化多樣(Variability),且需要一個(gè)可擴(kuò)展體系結(jié)構(gòu)來有效存儲、處理和分析的廣泛的數(shù)據(jù)集組成。數(shù)據(jù)的價(jià)值不會因?yàn)椴粩嗍褂枚麥p,反而會因?yàn)椴粩嘀亟M而產(chǎn)生更大的價(jià)值。IBM在大數(shù)據(jù)概念提出的早期,也對大數(shù)據(jù)給出了一個(gè)“4V特性”的定義,與上述的表述略有不同,強(qiáng)調(diào)了大數(shù)據(jù)的數(shù)量(Volume)、多樣性(Variety)、速度(Velocity)和真實(shí)性(Veracity)等方面,后來也將數(shù)據(jù)價(jià)值(Value)吸收進(jìn)來,成為大數(shù)據(jù)的“5V特性”。麥肯錫全球研究機(jī)構(gòu)給出的大數(shù)據(jù)的定義,綜合了“現(xiàn)有技術(shù)無法處理”和“數(shù)據(jù)特征”定義,它任務(wù)大數(shù)據(jù)是指大小超過經(jīng)典數(shù)據(jù)庫軟件工具收集、存儲、管理和分析能力的數(shù)據(jù)集,這一定義是站在經(jīng)典數(shù)據(jù)庫的處理能力的基礎(chǔ)上看待大數(shù)據(jù)的。1.1.6
大數(shù)據(jù)的特征綜合上述定義,大數(shù)據(jù)的特征通常被定義為“4V特征”,即規(guī)模龐大(Volume)、種類繁多(Variety)、變化頻繁(Velocity)和價(jià)值巨大但價(jià)值密度低(Value)規(guī)模龐大:是指數(shù)據(jù)集相當(dāng)于現(xiàn)有計(jì)算和存儲能力而言,規(guī)模龐大。種類繁多:是指在大數(shù)據(jù)面對的應(yīng)用場景中,數(shù)據(jù)種類多。變化頻繁:是指數(shù)據(jù)所描述的事物狀態(tài)在頻繁、持續(xù)的變化。價(jià)值巨大且價(jià)值密度低:是指帶大數(shù)據(jù)中,通過數(shù)據(jù)分析,在無序數(shù)據(jù)中建立關(guān)聯(lián)可以獲得大量高價(jià)值、非顯而易見的隱含知識,從而具有巨大的價(jià)值。
當(dāng)下我們正處于大數(shù)據(jù)時(shí)代。人類社會信息科技的發(fā)展為大數(shù)據(jù)時(shí)代的到來提供了技術(shù)支撐,數(shù)據(jù)產(chǎn)生方式的變革是促進(jìn)大數(shù)據(jù)到來至關(guān)重要的因素。大數(shù)據(jù)時(shí)代PART021.2.1
大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)的發(fā)展過程大致分為三個(gè)階段:萌芽時(shí)期、發(fā)展時(shí)期和大規(guī)模應(yīng)用期。萌芽時(shí)期(約為20世紀(jì)90年代至21世紀(jì)初)在這一階段,大數(shù)據(jù)只是作為一個(gè)概念或者假設(shè),少數(shù)學(xué)者對其進(jìn)行了研究和討論。并且在這一階段數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。種類繁多:是指在大數(shù)據(jù)面對的應(yīng)用場景中,數(shù)據(jù)種類多。1.2.1
大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)的發(fā)展過程大致分為三個(gè)階段:萌芽時(shí)期、發(fā)展時(shí)期和大規(guī)模應(yīng)用期。發(fā)展時(shí)期(約為21世紀(jì)初至2010年)21世紀(jì)前十年,互聯(lián)網(wǎng)行業(yè)迎來了一個(gè)快速發(fā)展的時(shí)期。在這一階段,大數(shù)據(jù)作為一個(gè)新名字,開始受到理論界的關(guān)注,其概念和特點(diǎn)得到進(jìn)一步的豐富,相關(guān)的數(shù)據(jù)處理技術(shù)層出不窮,大數(shù)據(jù)的開始顯現(xiàn)出活力。Web2.0應(yīng)用在這一時(shí)期也迅猛發(fā)展,同時(shí)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對,帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決也逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop也盛行起來。1.2.1
大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)的發(fā)展過程大致分為三個(gè)階段:萌芽時(shí)期、發(fā)展時(shí)期和大規(guī)模應(yīng)用期。大規(guī)模應(yīng)用期(約為2011年至今)2011年之后大數(shù)據(jù)的發(fā)展可以說是進(jìn)入了全面興盛的時(shí)期,越來越多的學(xué)者對大數(shù)據(jù)的研究從基本概念、特性轉(zhuǎn)到數(shù)據(jù)資產(chǎn)、思維變革等多個(gè)角度。大數(shù)據(jù)的應(yīng)用也滲透到各行各業(yè)中,不斷變革原有行業(yè)技術(shù)和創(chuàng)造出新的技術(shù)。數(shù)據(jù)驅(qū)動(dòng)決策、信息社會智能化程度等都大幅提高。01.2.2
大數(shù)據(jù)時(shí)代的驅(qū)動(dòng)力信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐
信息科技的進(jìn)步是大數(shù)據(jù)時(shí)代的物質(zhì)基礎(chǔ)。信息科技技術(shù)需要解決信息存儲、信息處理和信息傳輸三大核心問題。存儲設(shè)備容量不斷增加CPU處理能力大幅提升網(wǎng)絡(luò)帶寬不斷增加1.2.2
大數(shù)據(jù)時(shí)代的驅(qū)動(dòng)力數(shù)據(jù)提高方式的變革促成大數(shù)據(jù)時(shí)代的來臨
總體而言,人類社會數(shù)據(jù)產(chǎn)生的方式大致經(jīng)歷了三個(gè)階段:運(yùn)營式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段。運(yùn)營式系統(tǒng)階段用戶原創(chuàng)內(nèi)容階段感知式系統(tǒng)階段1.2.3
世界各國的大數(shù)據(jù)發(fā)展戰(zhàn)略大數(shù)據(jù)時(shí)代到來以后,世界各國都非常重視大數(shù)據(jù)的發(fā)展。
根據(jù)瑞士洛桑國際管理學(xué)院2017年度的《世界數(shù)字競爭力排名》顯示,各國數(shù)字競爭力與其整體競爭力呈現(xiàn)出高度一致的態(tài)勢,即數(shù)字競爭力強(qiáng)的國家,其整體的競爭力也非常強(qiáng),同時(shí)也更容易產(chǎn)生顛覆性的創(chuàng)新。1.2.4
大數(shù)據(jù)的影響大數(shù)據(jù)對科學(xué)研究的影響
大數(shù)據(jù)的核心價(jià)值是為人類提供認(rèn)識復(fù)雜系統(tǒng)的新思維和新手段。圖靈獎(jiǎng)得主吉姆?格雷博士總結(jié)到,人類自古以來在科學(xué)研究上經(jīng)歷了四種范式,即:實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)。大數(shù)據(jù)對社會發(fā)展的影響
大數(shù)據(jù)的產(chǎn)生對社會發(fā)展將會產(chǎn)生深遠(yuǎn)的影響。比如,大數(shù)據(jù)決策成為一種新的決策方式;大數(shù)據(jù)成為提升國家治理能力的新方法;大數(shù)據(jù)應(yīng)用促進(jìn)新一代信息技術(shù)與各行業(yè)的融合發(fā)展;大數(shù)據(jù)開發(fā)推動(dòng)新技術(shù)和新應(yīng)用的不斷涌現(xiàn)。1.2.4
大數(shù)據(jù)的影響大數(shù)據(jù)對就業(yè)市場的影響
大數(shù)據(jù)的興起促使了行業(yè)的變革,也相應(yīng)的產(chǎn)生了很多新的崗位,大數(shù)據(jù)相關(guān)崗位,比如數(shù)據(jù)治理工程師、數(shù)據(jù)分析工程師、數(shù)據(jù)挖掘工程師、數(shù)據(jù)算法工程師等崗位逐漸成為市場上最熱門的職位之一,具有廣闊的發(fā)展前景。大數(shù)據(jù)對人才培養(yǎng)的影響
大數(shù)據(jù)時(shí)代的快速發(fā)展,導(dǎo)致行業(yè)的變革,對人才具備的技能也提出了新的要求。高等院校作為培養(yǎng)人才的的基地,也將在很大程度上對信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制進(jìn)行改變,從而培養(yǎng)出更高水平的人才。PART03大數(shù)據(jù)的技術(shù)挑戰(zhàn)和科學(xué)意義
大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)來源的多樣化以及超大規(guī)模數(shù)量的產(chǎn)生,人們從看似無序的數(shù)據(jù)中尋找有序、有價(jià)值的關(guān)聯(lián)關(guān)系是在數(shù)據(jù)集上進(jìn)行分析、挖掘出重要信息。在這一變化的過程中,對數(shù)據(jù)存儲、計(jì)算模型、應(yīng)用軟件和系統(tǒng)等都提出了全新的挑戰(zhàn),同時(shí)對已有的思維模式、計(jì)算模式、理論和方法等都產(chǎn)生深遠(yuǎn)的影響。1.3.1
大數(shù)據(jù)帶來的思維模式的變革抽樣與全樣:盡可能采集全面而完整的數(shù)據(jù)
在統(tǒng)計(jì)方法中,由于數(shù)據(jù)不容易獲取,數(shù)據(jù)分析的主要手段就是進(jìn)行隨機(jī)抽樣分析,其成功的關(guān)鍵依賴于抽樣的絕對隨機(jī)性。效率與非精確:寧愿放棄數(shù)據(jù)的精確性,也要盡可能收集更多的數(shù)據(jù)
當(dāng)數(shù)據(jù)量小的時(shí)候,對數(shù)據(jù)的基本要求是盡量精確無誤。因果與關(guān)聯(lián):基于歸納得到的關(guān)聯(lián)關(guān)系與基于邏輯推理的因果關(guān)系同樣具有價(jià)值
于因果關(guān)系分析和基于關(guān)聯(lián)關(guān)系分析進(jìn)行預(yù)測的方法,通常是人們對數(shù)據(jù)分析從而預(yù)測某事是否會發(fā)生常用的方法。1.3.2
大數(shù)據(jù)計(jì)算面臨的挑戰(zhàn)數(shù)據(jù)規(guī)模帶來的挑戰(zhàn)。隨著數(shù)據(jù)規(guī)模的增大,受到挑戰(zhàn)最大的是數(shù)據(jù)的存儲和計(jì)算能力。應(yīng)對數(shù)據(jù)的規(guī)模性,通常有兩個(gè)思路:一個(gè)思路是“分而治之”。
它是指將計(jì)算任務(wù)分解,并交由不同的計(jì)算節(jié)點(diǎn)來并發(fā)執(zhí)行。也就是說,當(dāng)存儲和計(jì)算的能力超出一臺計(jì)算機(jī)的極限時(shí),在將數(shù)據(jù)存儲在不同節(jié)點(diǎn)的基礎(chǔ)上,將計(jì)算任務(wù)進(jìn)行分解,并交由不同的計(jì)算機(jī)節(jié)點(diǎn)來并發(fā)執(zhí)行。另一個(gè)思路是充分利用數(shù)據(jù)的特征,“變蠻算為巧算”。
需要進(jìn)一步考察不同大數(shù)據(jù)集的特點(diǎn),考察基于這個(gè)數(shù)據(jù)集的查詢或計(jì)算任務(wù)的特點(diǎn),有針對性地設(shè)計(jì)優(yōu)化方法。1.3.3
大數(shù)據(jù)學(xué)科與職業(yè)人才培養(yǎng)目標(biāo)
大數(shù)據(jù)專業(yè)面向國家發(fā)展戰(zhàn)略和大數(shù)據(jù)產(chǎn)業(yè)發(fā)展需求,致力于培養(yǎng)德智體美全面發(fā)展,踐行社會主義核心價(jià)值觀,具有良好的職業(yè)道德和人文素養(yǎng),具備大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)與運(yùn)行維護(hù)、數(shù)據(jù)建模和分析以及解決行業(yè)應(yīng)用問題的能力,信息化時(shí)代的終身學(xué)習(xí)能力,面向健康醫(yī)療、電子商務(wù)、金融、交通等大數(shù)據(jù)相關(guān)領(lǐng)域,能夠承擔(dān)大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)、數(shù)據(jù)采集、存儲與管理、數(shù)據(jù)分析與可視化任務(wù),能在相應(yīng)領(lǐng)域從事各行業(yè)大數(shù)據(jù)分析、處理、服務(wù)、開發(fā)和利用工作的具有社會責(zé)任感、創(chuàng)新精神、國際視野和較強(qiáng)實(shí)踐能力的高素質(zhì)、應(yīng)用型高級專門人才。1.3.3
大數(shù)據(jù)學(xué)科與職業(yè)專業(yè)知識體系
從學(xué)科角度而言,大數(shù)據(jù)可以理解為一個(gè)跨多學(xué)科領(lǐng)域的,從數(shù)據(jù)中獲取知識的科學(xué)方法、技術(shù)和系統(tǒng)的集合。因此,大數(shù)據(jù)專業(yè)知識體系涵蓋了計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科領(lǐng)域,結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、模式識別、機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)、數(shù)據(jù)可視化、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、分布式計(jì)算、云計(jì)算、系統(tǒng)架構(gòu)設(shè)計(jì)等典型的大數(shù)據(jù)分析過程1.3.3
大數(shù)據(jù)學(xué)科與職業(yè)專業(yè)課程體系
大數(shù)據(jù)專業(yè)課程體系涵蓋了通識教育課、學(xué)科基礎(chǔ)課、專業(yè)基礎(chǔ)課、專業(yè)核心課、專業(yè)課以及綜合實(shí)踐課等。(1)通識教育課:思政類課程、軍體類課程、外語課、創(chuàng)新創(chuàng)業(yè)課等;(2)學(xué)科基礎(chǔ)課:高等數(shù)學(xué)、線性代數(shù)、概率論與數(shù)理統(tǒng)計(jì)等;(3)專業(yè)基礎(chǔ)課:程序設(shè)計(jì)、計(jì)算機(jī)系統(tǒng)基礎(chǔ)及組成原理、離散數(shù)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)、算法與數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫系統(tǒng)、操作系統(tǒng)、軟件工程等;(4)專業(yè)核心課:大數(shù)據(jù)導(dǎo)論、網(wǎng)絡(luò)爬蟲與數(shù)據(jù)采集、數(shù)據(jù)清洗、NoSQL數(shù)據(jù)庫、數(shù)據(jù)可視化、分布式并行編程、機(jī)器學(xué)習(xí)等;(5)專業(yè)課:云計(jì)算、數(shù)據(jù)安全、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等;(6)綜合實(shí)踐課:課程設(shè)計(jì)、畢業(yè)設(shè)計(jì)等;1.3.3
大數(shù)據(jù)學(xué)科與職業(yè)實(shí)踐課程要求
大數(shù)據(jù)專業(yè)不僅是知識的傳承,更重要的是能力的錘煉,以期滿足國家與社會發(fā)展的需要。專業(yè)主管機(jī)構(gòu)設(shè)置了一系列的大數(shù)據(jù)人才評價(jià)系統(tǒng),包括數(shù)據(jù)分析工程師、數(shù)據(jù)治理工程師、數(shù)據(jù)安全工程師、數(shù)據(jù)算法工程師、大數(shù)據(jù)咨詢工程師等不同的級別的評價(jià)規(guī)則。因此需要學(xué)生事先做好規(guī)劃、深入學(xué)習(xí)。同時(shí)在培養(yǎng)的過程中,注重基礎(chǔ)知識與實(shí)踐的結(jié)合。1.3.3
大數(shù)據(jù)學(xué)科與職業(yè)職業(yè)道德
(1)大數(shù)據(jù)安全與職業(yè)道德
大數(shù)據(jù)的蓬勃發(fā)展,促使了很多行業(yè)和崗位的衍生。目前,大多數(shù)軟件都是開源的、可免費(fèi)使用的,這就給了一些公司可乘之機(jī)。其中最典型的就是網(wǎng)絡(luò)爬蟲技術(shù)。
(2)行業(yè)從業(yè)者的道德規(guī)范
大數(shù)據(jù)領(lǐng)域的從業(yè)者,也應(yīng)該遵從軟件開發(fā)職業(yè)中的道德準(zhǔn)則。1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)被稱為“第三次信息化浪潮”的“三朵浪花”。
云計(jì)算大大減少了企業(yè)減少IT系統(tǒng)的成本,降低了企業(yè)信息化的門檻。大數(shù)據(jù)為企業(yè)提供了海量的數(shù)據(jù),幫助企業(yè)從大量數(shù)據(jù)中分析或挖掘出有價(jià)值的信息,提供決策支持。物聯(lián)網(wǎng)以“萬物互聯(lián)”為目標(biāo),通過傳感器等,把人和物通過新的方法連接起來,形成人與物、物與物的相連,實(shí)現(xiàn)遠(yuǎn)程管理控制。
大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈之間存在著“千絲萬縷”的聯(lián)系,下大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈之間存在著“千絲萬縷”的聯(lián)系,下面將詳細(xì)技術(shù)他們之間的關(guān)系。將詳細(xì)技術(shù)他們之間的關(guān)系。云計(jì)算
(1)云計(jì)算的定義
概括來說,云計(jì)算是各種虛擬化、效用計(jì)算、服務(wù)計(jì)算、網(wǎng)格計(jì)算、自動(dòng)計(jì)算等概念的混合演進(jìn)并集大成之結(jié)果。它既是技術(shù)上的突破(技術(shù)上的集大成),也是商業(yè)模式上的飛躍(用多少付多少,沒有浪費(fèi))。這也決定了其將成為未來的IT產(chǎn)業(yè)主導(dǎo)技術(shù)與運(yùn)營模式。
(2)云計(jì)算的服務(wù)模式和運(yùn)營模式
云計(jì)算的服務(wù)模式包括三種典型的模式,即基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺即服務(wù)(PlatformasaService,PaaS)和軟件即服務(wù)(SoftwareasaServi,SaaS)。1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系云計(jì)算
(3)云計(jì)算的應(yīng)用
隨著云計(jì)算技術(shù)的飛速發(fā)展,數(shù)據(jù)量也在飛速的增長。但是“云端”只是一個(gè)形象的說法,實(shí)際上數(shù)據(jù)并不會在“天上的云朵”里,而是必須要“落地”,也就說,這些云端的數(shù)據(jù)實(shí)際上是被保存在全國各地大大小小的數(shù)據(jù)中心里。通常,云計(jì)算數(shù)據(jù)中心包括一整套復(fù)雜的設(shè)施,包括刀片服務(wù)器、寬帶網(wǎng)絡(luò)、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置。
同時(shí),云計(jì)算在電子政務(wù)、教育、企業(yè)、醫(yī)療等領(lǐng)域的應(yīng)用不斷深化,對提高政府服務(wù)水平、促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級和培育發(fā)展新興產(chǎn)業(yè)都起到了關(guān)鍵的作用。1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系物聯(lián)網(wǎng)
(1)物聯(lián)網(wǎng)的定義
物聯(lián)網(wǎng)(TheInternetofThings,IoT)是新一代信息技術(shù)的重要組成部分,被稱為是“萬物相連的互聯(lián)網(wǎng)”。這包含兩層含義,第一,物聯(lián)網(wǎng)的核心和基礎(chǔ)仍然是互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸和擴(kuò)展;第二,網(wǎng)絡(luò)的邊緣延伸和擴(kuò)展到了普通非智能的物品,物品利用傳感器、紅外感應(yīng)器、激光掃描器等信息傳感設(shè)備接入網(wǎng)絡(luò)并實(shí)現(xiàn)物品之間的互連,實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制。
1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系物聯(lián)網(wǎng)
(2)物聯(lián)網(wǎng)的關(guān)鍵技術(shù)
物聯(lián)網(wǎng)的關(guān)鍵技術(shù)包括識別和感知技術(shù)、網(wǎng)絡(luò)與通信技術(shù)、數(shù)據(jù)挖掘與融合技術(shù)等。識別和感知技術(shù)主要實(shí)現(xiàn)如何識別物體唯一標(biāo)識、定位物體位置、物體移動(dòng)情況等各種信息的采集,比較常用的技術(shù)有二維碼技術(shù)、RFID、傳感器、紅外感應(yīng)技術(shù)、生物特征識別、聲音及視覺識別技術(shù)等。網(wǎng)絡(luò)與通信技術(shù)包括短距離無線通信技術(shù)和遠(yuǎn)程通信技術(shù)短距離無線通信技術(shù)包括NFC(手機(jī)給公交卡充值),藍(lán)牙,WiFi,RFID(公交卡)等;遠(yuǎn)程通信技術(shù)包括互聯(lián)網(wǎng),2G/3G/4G移動(dòng)通信網(wǎng)絡(luò),衛(wèi)星通信網(wǎng)絡(luò)等。數(shù)據(jù)挖掘與融合技術(shù)是對物聯(lián)網(wǎng)中存在的各種不同類型的系統(tǒng)產(chǎn)生的大量不同來源的不同類型的數(shù)據(jù),進(jìn)行有效整合、處理和挖掘。
1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系物聯(lián)網(wǎng)
(3)物聯(lián)網(wǎng)的應(yīng)用
物聯(lián)網(wǎng)已經(jīng)廣泛應(yīng)用于智慧家居、智慧社區(qū)、智慧交通、智慧醫(yī)療、智慧農(nóng)業(yè)、智慧工業(yè)能領(lǐng)域,對國家數(shù)字化建設(shè)與社會發(fā)展起到了重要的推動(dòng)作用。云計(jì)算、大數(shù)據(jù)與物聯(lián)網(wǎng)的應(yīng)用,將在第10章進(jìn)行舉例并做詳細(xì)闡述。
1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)之間的關(guān)系
大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)可以說是IT領(lǐng)域的“三駕馬車”,三者相輔相成,既有聯(lián)系又有區(qū)別。
三者的聯(lián)系在于它們都是數(shù)據(jù)存儲和處理服務(wù),都需要占用大量的存儲和計(jì)算資源,因而都要用到數(shù)據(jù)存儲技術(shù)、海數(shù)據(jù)管理技術(shù)等,而云計(jì)算所具備的彈性伸縮和動(dòng)態(tài)調(diào)配、資源虛擬化,以及環(huán)保節(jié)能等基本要素可以滿足大數(shù)據(jù)處理技術(shù)的需求。物聯(lián)網(wǎng)的傳感器源源不斷產(chǎn)生的大量數(shù)據(jù),構(gòu)成了大數(shù)據(jù)的重要來源,實(shí)現(xiàn)了人工產(chǎn)生階段向自動(dòng)產(chǎn)生階段的轉(zhuǎn)變。同時(shí),物聯(lián)網(wǎng)需要借助于云計(jì)算和大數(shù)據(jù)技術(shù),實(shí)現(xiàn)對物聯(lián)網(wǎng)數(shù)據(jù)的分析和處理。
1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系人工智能
(1)人工智能的定義
人工智能(ArtificialIntelligence,AI)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的只能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能包含的領(lǐng)域很廣,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、智能機(jī)器人、圖像識別、專家系統(tǒng)和自然語言處理等,其目標(biāo)是使機(jī)器能夠勝任一些通常需要人類智能才能完成的復(fù)雜工作。
(2)人工智能的關(guān)鍵技術(shù)
人工智能的關(guān)鍵技術(shù)目前比較流行包含了機(jī)器學(xué)習(xí)、知識圖譜、自然語言處理、人機(jī)交互、計(jì)算機(jī)視覺、生物特征識別、AR/VR等7個(gè)關(guān)鍵技術(shù)。1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系人工智能
(3)人工智能的應(yīng)用
隨著數(shù)字化時(shí)代的到來,人工智能被廣泛應(yīng)用。特別是在家居、制造、金融、醫(yī)療、安防、交通、零售、教育和物流等多領(lǐng)域。
(4)大數(shù)據(jù)與人工智能的關(guān)系
人工智能和大數(shù)據(jù)是緊密相關(guān)的兩種技術(shù),兩者既有聯(lián)系又有區(qū)別。首先,大數(shù)據(jù)為人工智能提供數(shù)據(jù)支撐。其次,人工智能提供更高效、更精準(zhǔn)的大數(shù)據(jù)處理和分析工具。最后,大數(shù)據(jù)和人工智能的結(jié)合可以促進(jìn)技術(shù)的創(chuàng)新和發(fā)展。1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系區(qū)塊鏈
(1)區(qū)塊鏈的定義
狹義上來講,區(qū)塊鏈?zhǔn)且环N按照時(shí)間順序?qū)?shù)據(jù)區(qū)塊以順序相連的方式組合成的一種鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),并以密碼學(xué)方式保證的不可篡改和不可偽造的分布式賬本。廣義上來講,區(qū)塊鏈技術(shù)是利用塊鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來驗(yàn)證與存儲數(shù)據(jù)、利用分布式節(jié)點(diǎn)共識算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式保證數(shù)據(jù)傳輸和訪問的安全、利用由自動(dòng)化腳本代碼組成的智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計(jì)算方式。1.3.4
大數(shù)據(jù)與其他新興技術(shù)的關(guān)系區(qū)塊鏈
(2)區(qū)塊鏈的關(guān)鍵技術(shù)
區(qū)塊鏈的四大核心技術(shù)包括分布式賬本、非對稱加密、共識機(jī)制、智能合約。分布式賬本是指在分布在每個(gè)節(jié)點(diǎn)記錄的完整賬目,這些詳細(xì)的賬目記錄可以參與監(jiān)督、交易,擁有很高的合法性,也可以作為證據(jù)。非對稱加密是指存儲在區(qū)塊鏈上的交易信息雖然是透明的,但是賬號身份卻是嚴(yán)格保密的,當(dāng)你得到數(shù)據(jù)擁有者的授權(quán)后,才能正常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 租賃廠房安全管理制度模板(3篇)
- 墻夯施工方案(3篇)
- 現(xiàn)代醫(yī)院管理制度整改報(bào)告(3篇)
- 2015促銷活動(dòng)策劃方案(3篇)
- 理發(fā)店充值管理制度(3篇)
- 2026廣東佛山市南海區(qū)人民醫(yī)院招聘事業(yè)聘用制(編制)人員5人(第一批)備考考試試題及答案解析
- 2026年合肥燃?xì)夤?yīng)服務(wù)員、安裝工招聘22名筆試備考試題及答案解析
- 2026年上半年云南省科學(xué)技術(shù)廳直屬事業(yè)單位公開招聘人員(8人)備考考試題庫及答案解析
- 護(hù)理業(yè)務(wù)查房案例分享
- 2026年監(jiān)利市事業(yè)單位人才引進(jìn)64人備考考試試題及答案解析
- 2026年貴州單招測試試題及答案1套
- 餐飲服務(wù)儀容儀表及禮貌培訓(xùn)
- 2026年開封大學(xué)單招職業(yè)傾向性考試題庫及答案1套
- 2025年CFA二級考試綜合試卷(含答案)
- 2025上海開放大學(xué)(上海市電視中等專業(yè)學(xué)校)工作人員招聘3人(二)考試筆試參考題庫附答案解析
- 急性闌尾炎與右側(cè)輸尿管結(jié)石鑒別診斷方案
- 公司網(wǎng)絡(luò)團(tuán)隊(duì)介紹
- 路虎攬勝購買合同
- 塑木地板銷售合同范本
- 《青島市中小學(xué)心理危機(jī)干預(yù) 指導(dǎo)手冊》
- 三北工程林草濕荒一體化保護(hù)修復(fù)(2025年度退化草原修復(fù))監(jiān)理方案投標(biāo)文件(技術(shù)方案)
評論
0/150
提交評論