版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章
大數(shù)據(jù)介紹目錄大數(shù)據(jù)概述大數(shù)據(jù)的發(fā)展大數(shù)據(jù)開發(fā)語言大數(shù)據(jù)介紹PART01認(rèn)識大數(shù)據(jù)大數(shù)據(jù)的特征大數(shù)據(jù)技術(shù)應(yīng)用認(rèn)識大數(shù)據(jù)大數(shù)據(jù)(bigdata),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。什么是大數(shù)據(jù)相對于傳統(tǒng)的數(shù)據(jù)分析,大數(shù)據(jù)是海量數(shù)據(jù)的集合,它以采集、整理、存儲、挖掘、共享、分析、應(yīng)用、清洗為核心,正廣泛的應(yīng)用在了交通、教育、醫(yī)療、軍事、金融、通訊、農(nóng)業(yè)等各個(gè)行業(yè)中。大數(shù)據(jù)的發(fā)展歷程出現(xiàn)階段谷歌(Google)在2006年首先提出云計(jì)算的概念。2007–2008年隨著社交網(wǎng)絡(luò)的激增,技術(shù)博客和專業(yè)人士為“大數(shù)據(jù)”概念注入新的生機(jī)。熱門階段從2009-2010年“大數(shù)據(jù)”成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。應(yīng)用階段2013年,ApacheHadoop作為處理大規(guī)模數(shù)據(jù)集的關(guān)鍵開源框架繼續(xù)成熟,并得到了更廣泛的采用。這一年,許多企業(yè)開始在其生產(chǎn)環(huán)境中部署Hadoop集群,以支持?jǐn)?shù)據(jù)分析任務(wù)。在應(yīng)用階段,大數(shù)據(jù)技術(shù)在中國得到了廣泛關(guān)注和應(yīng)用,政府、企業(yè)和學(xué)術(shù)界共同努力,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展。大數(shù)據(jù)的影響大數(shù)據(jù)對科學(xué)活動(dòng)的影響大數(shù)據(jù)對思維方式的影響大數(shù)據(jù)對社會(huì)發(fā)展的影響大數(shù)據(jù)的特征隨著對大數(shù)據(jù)認(rèn)識的不斷加深,人們認(rèn)為大數(shù)據(jù)一般具有四個(gè)特征:數(shù)據(jù)量大、數(shù)據(jù)類型繁多、數(shù)據(jù)產(chǎn)生速度快以及數(shù)據(jù)價(jià)值密度低?;ヂ?lián)網(wǎng)行業(yè):借助于大數(shù)據(jù)技術(shù),可以分析客戶行為,進(jìn)行商品推薦和針對性廣告投放。。通過大數(shù)據(jù)預(yù)測企業(yè)的金融風(fēng)險(xiǎn),并通過描繪用戶畫像,清楚用戶的消費(fèi)行為及在網(wǎng)活躍度等,以更好的掌控資金的投放利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本??梢岳么髷?shù)據(jù)實(shí)現(xiàn)智能交通、環(huán)保監(jiān)測、城市規(guī)劃和智能安防。大數(shù)據(jù)技術(shù)應(yīng)用大數(shù)據(jù)可以幫助人們訓(xùn)練球隊(duì),幫助教練選擇比賽的陣容決定,投拍受歡迎題財(cái)?shù)挠耙曌髌?,以及較為全面的預(yù)測比賽結(jié)果。。大數(shù)據(jù)可以幫助人們在醫(yī)藥行業(yè)實(shí)現(xiàn)流行病預(yù)測、智慧醫(yī)療、健康管理等,同時(shí)還可以幫助人們解讀DNA,了解更多的生命奧秘。隨著智能電網(wǎng)的發(fā)展,電力公司可以掌握海量的用戶用電信息,利用大數(shù)據(jù)技術(shù)分析用戶用電模式,可以改進(jìn)電網(wǎng)運(yùn)行,合理設(shè)計(jì)電力需求響應(yīng)系統(tǒng),確保電網(wǎng)運(yùn)行安全。利用大數(shù)據(jù)實(shí)現(xiàn)餐飲O2O模式,徹底改變傳統(tǒng)餐飲經(jīng)營方式。大數(shù)據(jù)技術(shù)應(yīng)用大數(shù)據(jù)與人工智能人工智能(ArtificialIntelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。大數(shù)據(jù)與人工智能的區(qū)別第一,在概念上兩者有所不同,大數(shù)據(jù)和云計(jì)算可以理解為技術(shù)上的概念,人工智能是應(yīng)用層面的概念,人工智能的技術(shù)前提是云計(jì)算和大數(shù)據(jù)。第二,在實(shí)現(xiàn)上,大數(shù)據(jù)主要是依靠海量數(shù)據(jù)來幫助人們對問題作出更好的判斷和分析,而人工智能一種計(jì)算形式,它允許機(jī)器執(zhí)行認(rèn)知功能,例如對輸入起作用或作出反應(yīng),類似于人類的做法,并能夠替代人類對認(rèn)知結(jié)果作出決定。大數(shù)據(jù)與工業(yè)互聯(lián)網(wǎng)
工業(yè)互聯(lián)網(wǎng)(IndustrialInternet)是互聯(lián)網(wǎng)和新一代信息技術(shù)在工業(yè)領(lǐng)域、全產(chǎn)業(yè)鏈、全價(jià)值鏈中的融合集成應(yīng)用,是實(shí)現(xiàn)工業(yè)智能化的綜合信息基礎(chǔ)設(shè)施。它的核心是通過自動(dòng)化、網(wǎng)絡(luò)化、數(shù)字化、智能化等新技術(shù)手段激發(fā)企業(yè)生產(chǎn)力,從而實(shí)現(xiàn)企業(yè)資源的優(yōu)化配置,最終重構(gòu)工業(yè)產(chǎn)業(yè)格局。工業(yè)互聯(lián)網(wǎng)能夠促進(jìn)傳統(tǒng)產(chǎn)業(yè)創(chuàng)新升級,并實(shí)現(xiàn)制造業(yè)的新舊動(dòng)能轉(zhuǎn)換。
1.2大數(shù)據(jù)的發(fā)展美國
美國是率先將大數(shù)據(jù)從商業(yè)概念上升至國家戰(zhàn)略的國家,通過穩(wěn)步實(shí)施“三步走”戰(zhàn)略,在大數(shù)據(jù)技術(shù)研發(fā)、商業(yè)應(yīng)用以及保障國家安全等方面已全面構(gòu)筑起全球領(lǐng)先優(yōu)勢。01日本
日本政府提出:“提升日本競爭力,大數(shù)據(jù)應(yīng)用不可或缺”的口號,提出要把日本建設(shè)成為一個(gè)具有“世界最高水準(zhǔn)的廣泛運(yùn)用信息產(chǎn)業(yè)技術(shù)的社會(huì)”。04韓國
015年年初,韓國給出全球進(jìn)入大數(shù)據(jù)2.0時(shí)代的重大判斷,大數(shù)據(jù)技術(shù)日趨精細(xì)、專業(yè)服務(wù)日益多樣,數(shù)據(jù)收益化和創(chuàng)新商業(yè)模式是未來大數(shù)據(jù)的主要發(fā)展趨勢。03英國
英國特別重視大數(shù)據(jù)對經(jīng)濟(jì)增長的拉動(dòng)作用,密集發(fā)布《數(shù)字戰(zhàn)略2017》、《工業(yè)戰(zhàn)略:建設(shè)適應(yīng)未來的英國》等02國外的大數(shù)據(jù)發(fā)展我國的大數(shù)據(jù)發(fā)展工業(yè)和信息化部在2017年1月正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國我國高度重視大數(shù)據(jù)在推進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展中的地位和作用。2014年,大數(shù)據(jù)首次寫入政府工作報(bào)告,大數(shù)據(jù)逐漸成為各級政府關(guān)注的熱點(diǎn)為了更好地發(fā)揮數(shù)據(jù)要素的作用,?中共中央、?國務(wù)院于2023年印發(fā)了《?關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》?
1.3大數(shù)據(jù)開發(fā)語言PythonPython與大數(shù)據(jù)開發(fā)之間存在著密切的聯(lián)系,Python的多種特性和豐富的庫使其成為大數(shù)據(jù)開發(fā)的重要工具Python是一種計(jì)算機(jī)程序設(shè)計(jì)語言,是一種面向?qū)ο蟮膭?dòng)態(tài)類型語言Python大數(shù)據(jù)開發(fā)流程通常包括需求分析、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和結(jié)果呈現(xiàn)等步驟Python場景1應(yīng)用場景場景2場景3數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)分析與可視化謝謝觀看第2章
數(shù)據(jù)采集目錄認(rèn)識數(shù)據(jù)采集網(wǎng)絡(luò)爬蟲認(rèn)識數(shù)據(jù)采集PART01認(rèn)識數(shù)據(jù)采集數(shù)據(jù)是大數(shù)據(jù)應(yīng)用的基礎(chǔ),研究大數(shù)據(jù)、分析大數(shù)據(jù)的前提是擁有大數(shù)據(jù)什么是數(shù)據(jù)采集數(shù)據(jù)采集作為大數(shù)據(jù)生命周期的第一個(gè)環(huán)節(jié),是指通過傳感器、攝像頭、RFID射頻數(shù)據(jù)以及互聯(lián)網(wǎng)等方式獲取的各種結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù)。傳感器數(shù)據(jù)傳感器是用于測量和記錄物理世界信息的設(shè)備,如溫度、壓力、濕度、位置等。它們可以嵌入到各種設(shè)備中,如智能手機(jī)、智能家居設(shè)備、工業(yè)自動(dòng)化設(shè)備等,從而實(shí)時(shí)或定期地發(fā)送數(shù)據(jù)。以下數(shù)據(jù)為傳感器采集的帶時(shí)間戳的工業(yè)數(shù)據(jù),timestamp為時(shí)間,temperature為工業(yè)設(shè)備的溫度。{"timestamp":1718251245,"temperature":23.843105540614008}{"timestamp":1718251255,"temperature":24.839480392431227}{"timestamp":1718251265,"temperature":24.363200018769422}{"timestamp":1718251275,"temperature":25.665230363704563}{"timestamp":1718251285,"temperature":25.746593295687536}例如,在工業(yè)自動(dòng)化領(lǐng)域,傳感器被廣泛應(yīng)用于生產(chǎn)線的監(jiān)測和控制。例如,溫度傳感器可以實(shí)時(shí)監(jiān)測設(shè)備的溫度,確保設(shè)備在適宜的溫度范圍內(nèi)運(yùn)行;壓力傳感器可以檢測生產(chǎn)過程中的壓力變化,確保生產(chǎn)過程的穩(wěn)定性和安全性。攝像頭數(shù)據(jù)攝像頭用于捕獲視頻和圖像數(shù)據(jù),攝像頭數(shù)據(jù)是大數(shù)據(jù)的重要來源之一隨著物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的發(fā)展,大數(shù)據(jù)采集技術(shù)不斷完善,可以實(shí)現(xiàn)對攝像頭數(shù)據(jù)的實(shí)時(shí)、高效、準(zhǔn)確的采集和處理RFID射頻數(shù)據(jù)RFID(無線射頻識別)技術(shù)使用無線電信號來識別特定目標(biāo)并讀寫相關(guān)數(shù)據(jù),而無需在識別系統(tǒng)與特定目標(biāo)之間建立機(jī)械或光學(xué)接觸RFID技術(shù)能夠?qū)崟r(shí)跟蹤和識別大量物品,產(chǎn)生大量的實(shí)時(shí)數(shù)據(jù)。這些數(shù)據(jù)對于大數(shù)據(jù)分析至關(guān)重要,可以為企業(yè)提供關(guān)于物流、庫存、銷售等方面的寶貴信息互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)是一個(gè)巨大的數(shù)據(jù)源,可以通過多種方式獲取數(shù)據(jù)。例如,人們使用網(wǎng)絡(luò)爬蟲從網(wǎng)頁中自動(dòng)提取數(shù)據(jù)此外,日志數(shù)據(jù)也是大數(shù)據(jù)中不可或缺的一部分,它們記錄了系統(tǒng)、服務(wù)器、應(yīng)用和用戶活動(dòng)的詳細(xì)信息大數(shù)據(jù)采集的特點(diǎn)大數(shù)據(jù)采集與一般的傳統(tǒng)采集不同,大數(shù)據(jù)的采集過程的主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)可能會(huì)有成千上萬的用戶在進(jìn)行訪問和操作。例如,火車票售票網(wǎng)站、飛機(jī)票售票網(wǎng)站以及電子商務(wù)網(wǎng)站的并發(fā)訪問量在峰值時(shí)可達(dá)到上百萬甚至是上千萬,所以在采集端需要部署大量數(shù)據(jù)庫才能對其支撐。此外,如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片也需要進(jìn)行深入思考和設(shè)計(jì)。此外,根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不相同。但是為了能夠滿足大數(shù)據(jù)采集的需要,大數(shù)據(jù)采集時(shí)大多都使用了大數(shù)據(jù)的處理模式,即MapReduce分布式并行處理模式或是基于內(nèi)存的流式處理模式。
數(shù)據(jù)采集平臺數(shù)據(jù)采集平臺
ApacheFlumeFlume是cloudera于2009年7月開源的日志系統(tǒng)。它內(nèi)置的各種組件非常齊全,用戶幾乎不必進(jìn)行任何額外開發(fā)即可使用。
Fluentd是一個(gè)開源的日志數(shù)據(jù)采集平臺,專為處理數(shù)據(jù)流設(shè)計(jì),它使用JSON作為數(shù)據(jù)格式。它采用了插件式的架構(gòu),具有高可擴(kuò)展性高可用性,同時(shí)還實(shí)現(xiàn)了高可靠的信息轉(zhuǎn)發(fā)。Logstash作為Elasicsearch常用的實(shí)時(shí)數(shù)據(jù)采集引擎,可以采集來自不同數(shù)據(jù)源的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行處理后輸出到多種輸出源。Logstash的處理過程如圖所示。Logstash的數(shù)據(jù)處理過程主要包括:Inputs,F(xiàn)ilters和Outputs三部分,另外在Inputs和Outputs中可以使用Codecs對數(shù)據(jù)格式進(jìn)行處理。圖顯示了Logstash的運(yùn)行。在bin目錄下,可以輸入以下命令來啟動(dòng)logstash。Logstash–e“”Chukwa是一個(gè)開源的監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)采集系統(tǒng),它構(gòu)建于HDFS和Map/Reduce框架之上,并繼承了Hadoop優(yōu)秀的擴(kuò)展性和健壯性。在數(shù)據(jù)分析方面,Chukwa擁有一套靈活、強(qiáng)大的工具,可用于監(jiān)控和分析結(jié)果來更好的利用所采集的數(shù)據(jù)結(jié)果。Scribe是facebook開源的日志收集系統(tǒng),在facebook內(nèi)部已經(jīng)得到大量的應(yīng)用。它能夠從各種日志源上收集日志,存儲到一個(gè)中央存儲系統(tǒng)(可以是NFS,分布式文件系統(tǒng)等)上,以便于進(jìn)行集中統(tǒng)計(jì)分析處理。
Kafka是由Apache軟件基金會(huì)開發(fā)的一個(gè)開源流處理平臺,由Scala和Java編寫,使用了多種效率優(yōu)化機(jī)制,適合于異構(gòu)集群。
2.2網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲通過自動(dòng)提取網(wǎng)頁的方式完成下載網(wǎng)頁的工作,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的下載,省去諸多人工繁瑣的工作。
爬蟲主要是與網(wǎng)頁打交道的,在了解爬蟲之前,必須要了解網(wǎng)頁的工作方式。
(1)網(wǎng)頁請求和響應(yīng)的過程1)Request(請求)。每一個(gè)用戶打開的網(wǎng)頁都必須在最開始由用戶向服務(wù)器發(fā)送訪問的請求。2)Response(響應(yīng))。服務(wù)器在接收到用戶的請求后,會(huì)驗(yàn)證請求的有效性,然后向用戶發(fā)送相應(yīng)的內(nèi)容??蛻舳私邮盏椒?wù)器的相應(yīng)內(nèi)容后,再將此內(nèi)容展示出來,以供用戶瀏覽。用戶使用爬蟲來獲取網(wǎng)頁數(shù)據(jù)的時(shí)候,一般要經(jīng)過以下幾步:發(fā)送請求。獲取相應(yīng)內(nèi)容。解析內(nèi)容。保存數(shù)據(jù)。Python爬蟲urllibrequestsBeautifulSoupPythonurllib庫用于操作網(wǎng)頁URL,并對網(wǎng)頁的內(nèi)容進(jìn)行抓取處理。urllib是URL和lib兩個(gè)單詞共同構(gòu)成的,URL就是網(wǎng)頁的地址,lib是library(庫)的縮寫requests是用Python語言編寫,基于urllib,采用Apache2Licensed開源協(xié)議的HTTP庫。它比urllib更加方便,可以節(jié)約開發(fā)者大量的工作,完全滿足HTTP測試需求BeautifulSoup
提供一些簡單的、Python式的函數(shù)來處理導(dǎo)航、搜索、修改分析樹等功能。它是一個(gè)工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù)以下代碼為Python中使用BeautifulSoup庫來爬取網(wǎng)頁數(shù)據(jù)。frombs4importBeautifulSouphtml_string="""<!DOCTYPEhtml><html><head> <title>ExamplePage</title></head><body> <h1>Hello,World!</h1> <pclass="first">Thisisthe<b>first</b>paragraph.</p> <pclass="second">Thisisthe<b>second</b>paragraph.</p> <ahref="">GoWebsite</a> <ahref="">MyWebsite</a> <ahref="">YouWebsite</a> <divclass='link'>oner</div> <divclass='link'>ben</div> <divclass='link1'>today</div></body></html>"""soup=BeautifulSoup(html_string,features="html.parser")print(soup.title)print()print(soup.title.text)print(soup.a['href'])print(soup.body)#利用name來查找tag_list=soup.find(name="h1")print(tag_list)tag_list1=soup.find(name="a")print(tag_list1.text)fi=soup.findAll(name='a')#查找全部符合條件的行foriinfi:print(i)運(yùn)行結(jié)果如下。<title>ExamplePage</title>titleExamplePage<body><h1>Hello,World!</h1><pclass="first">Thisisthe<b>first</b>paragraph.</p><pclass="second">Thisisthe<b>second</b>paragraph.</p><ahref="">GoWebsite</a><ahref="">MyWebsite</a><ahref="">YouWebsite</a><divclass="link">oner</div><divclass="link">ben</div><divclass="link1">today</div></body><h1>Hello,World!</h1>GoWebsite<ahref="">GoWebsite</a><ahref="">MyWebsite</a><ahref="">YouWebsite</a>
網(wǎng)絡(luò)爬蟲的分類,網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲(GeneralPurposeWebCrawler)、聚焦網(wǎng)絡(luò)爬蟲(FocusedWebCrawler)增量式網(wǎng)絡(luò)爬蟲(IncrementalWebCrawler)、深層網(wǎng)絡(luò)爬蟲(DeepWebCrawler)當(dāng)前比較常用的爬蟲工具較多,一般主流的有Scrapy和PySpider等技術(shù)框架。Scrapy是一個(gè)使用Python語言編寫的開源網(wǎng)絡(luò)爬蟲框架,是一個(gè)高級的Python爬蟲框架。Scrapy可用于各種有用的應(yīng)用程序,如數(shù)據(jù)挖掘,信息處理以及歷史歸檔等,目前主要用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy框架由ScrapyEngine、Scheduler、Downloader、Spiders、ItemPipeline、Downloadermiddlewares以及Spidermiddlewares等幾部分組成使用Scrapy框架爬取的網(wǎng)頁數(shù)據(jù)謝謝觀看第3章
大數(shù)據(jù)架構(gòu)目錄大數(shù)據(jù)架構(gòu)概述Hadoop架構(gòu)Hadoop核心組件Hadoop生態(tài)圈
大數(shù)據(jù)架構(gòu)介紹PART01認(rèn)識大數(shù)據(jù)架構(gòu)大數(shù)據(jù)架構(gòu)是一個(gè)用于處理、管理、存儲、分析和訪問大規(guī)模、多樣化數(shù)據(jù)的概念性或物理系統(tǒng)。什么是大數(shù)據(jù)架構(gòu)使用大數(shù)據(jù)架構(gòu)可以幫助企業(yè)節(jié)省資金并做出關(guān)鍵決策大數(shù)據(jù)架構(gòu)分類目前圍繞Hadoop體系的大數(shù)據(jù)架構(gòu)主要有傳統(tǒng)大數(shù)據(jù)架構(gòu)、流式架構(gòu)、Lambda架構(gòu)、Kappa架構(gòu)以及Unifield架構(gòu)等。傳統(tǒng)大數(shù)據(jù)架構(gòu)
傳統(tǒng)大數(shù)據(jù)架構(gòu),是因?yàn)槠涠ㄎ皇菫榱私鉀Q傳統(tǒng)BI的問題,簡單來說,數(shù)據(jù)分析的業(yè)務(wù)沒有發(fā)生任何變化,但是因?yàn)閿?shù)據(jù)量、性能等問題導(dǎo)致系統(tǒng)無法正常使用,需要進(jìn)行升級改造,那么此類架構(gòu)便是為了解決這個(gè)問題。流式架構(gòu)
在傳統(tǒng)大數(shù)據(jù)架構(gòu)的基礎(chǔ)上,流式架構(gòu)非常激進(jìn),直接拔掉了批處理,數(shù)據(jù)全程以流的形式處理,所以在數(shù)據(jù)接入端沒有了ETL,轉(zhuǎn)而替換為數(shù)據(jù)通道。Lambda架構(gòu)
Lambda架構(gòu)算是大數(shù)據(jù)系統(tǒng)里面舉足輕重的架構(gòu),大多數(shù)架構(gòu)基本都是Lambda架構(gòu)或者基于其變種的架構(gòu)。Lambda的數(shù)據(jù)通道分為兩條分支:實(shí)時(shí)流和離線。實(shí)時(shí)流依照流式架構(gòu),保障了其實(shí)時(shí)性,而離線則以批處理方式為主,保障了最終一致性。Kappa架構(gòu)Kappa架構(gòu)在Lambda的基礎(chǔ)上進(jìn)行了優(yōu)化,將實(shí)時(shí)和流部分進(jìn)行了合并,將數(shù)據(jù)通道以消息隊(duì)列進(jìn)行替代。因此對于Kappa架構(gòu)來說,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面進(jìn)行了存儲Unifield架構(gòu)以上的種種架構(gòu)都圍繞海量數(shù)據(jù)處理為主,Unifield架構(gòu)則更激進(jìn),將機(jī)器學(xué)習(xí)和數(shù)據(jù)處理揉為一體,從核心上來說,Unifield依舊以Lambda為主,不過對其進(jìn)行了改造,在流處理層新增了機(jī)器學(xué)習(xí)層。
3.2Hadoop架構(gòu)Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺。01如今廣義的Hadoop已經(jīng)包括Hadoop本身和基于Hadoop的開源項(xiàng)目,并已經(jīng)形成了完備的Hadoop生態(tài)鏈系統(tǒng)。04用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺03Hadoop本質(zhì)上起源于Google的集群系統(tǒng)02HadoopHadoop特點(diǎn)
Hadoop是一個(gè)框架,由一系列的軟件庫組成的框架。這些軟件庫也可稱作功能模塊,它們各自負(fù)責(zé)了Hadoop的一部分功能。Hadoop適合處理大規(guī)模數(shù)據(jù),并能夠?qū)崿F(xiàn)分布式存儲和分布式計(jì)算Hadoop被部署在一個(gè)集群上。
所謂集群,是一組通過網(wǎng)絡(luò)互聯(lián)的計(jì)算機(jī),集群里的每一臺計(jì)算機(jī)稱為一個(gè)節(jié)點(diǎn)。
Hadoop發(fā)展史
Hadoop原本來自于Google一款名為MapReduce的編程模型包。Google的MapReduce框架可以把一個(gè)應(yīng)用程序分解為許多并行計(jì)算指令,跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行巨大的數(shù)據(jù)集。
Hadoop的源頭是ApacheNutch,該項(xiàng)目始于2002年,是ApacheLucene的子項(xiàng)目之一。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎當(dāng)前推薦使用的版本生產(chǎn)環(huán)境推薦:Hadoop3.3.x系列(如3.3.6)穩(wěn)定性高:經(jīng)過多年驗(yàn)證,廣泛用于企業(yè)級大數(shù)據(jù)平臺。功能豐富:支持糾刪碼、YARNTimelineServicev2、GPU調(diào)度等。社區(qū)活躍:Apache仍在持續(xù)維護(hù)和發(fā)布補(bǔ)丁。云原生友好:可與Kubernetes集成,支持在阿里云、AWS、Azure等云平臺部署。
3.3Hadoop組件Hadoop的三大核心組件Hadoop的三大核心組件分別是:HDFS、YARN和MapReduce。HDFS(HadoopDistributeFileSystem):Hadoop的數(shù)據(jù)存儲工具。YARN(YetAnotherResourceNegotiator,另一種資源協(xié)調(diào)者):Hadoop的資源管理器。HadoopMapReduce:分布式計(jì)算框架。HDFS(Hadoopdistributedfilesystem)是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,是一個(gè)分布式文件系統(tǒng)。它是Google的GFS提出之后出現(xiàn)的另外一種文件系統(tǒng)。HDFS構(gòu)成HDFS的關(guān)鍵元素包含:Block、NameNode和DataNode。Block:將一個(gè)文件進(jìn)行分塊,通常一個(gè)塊的大小是64M。NameNode:保存整個(gè)文件系統(tǒng)的目錄信息、文件信息及分塊信息,這是由唯一一臺主機(jī)專門保存,當(dāng)然這臺主機(jī)如果出錯(cuò),NameNode就失效了。DataNode:分布在廉價(jià)的計(jì)算機(jī)上,用于存儲Block塊文件。HDFS提供三類權(quán)限模式:只讀權(quán)限(r)、寫入權(quán)限(w)和可執(zhí)行權(quán)限(x)。讀取文件或列出目錄內(nèi)容時(shí)需要只讀權(quán)限。寫入一個(gè)文件或是在一個(gè)目錄上創(chuàng)建及刪除文件或目錄,需要寫入權(quán)限。對于文件而言,可執(zhí)行權(quán)限可以忽略,因?yàn)槟悴荒茉贖DFS中執(zhí)行文件(與POSIX不同),但在訪問一個(gè)目錄的子項(xiàng)時(shí)需要該權(quán)限。對目錄而言,當(dāng)列出目錄內(nèi)容時(shí)需要具有r權(quán)限,當(dāng)新建或刪除子文件或子目錄時(shí)需要有w權(quán)限,當(dāng)訪問目錄的子節(jié)點(diǎn)時(shí)需要有x權(quán)限。HDFS操作YARN在Hadoop2.0版本新引入了資源管理系統(tǒng)YARN。YARN從Hadoop2.0之后被引入,一經(jīng)推出,便迅速成為最受歡迎的分布式資源調(diào)度框架,負(fù)責(zé)管理集群中的全部資源,以及調(diào)度運(yùn)行在YARN之上的各種計(jì)算任務(wù)。從YARN的架構(gòu)來看,它主要由ResourceManager、ApplicationMaster、NodeManager、Container等組件組成。YARN操作MapReduce概述MapReduce是Google系統(tǒng)和Hadoop系統(tǒng)中的一項(xiàng)核心技術(shù)。它是一個(gè)軟件框架,可以將單個(gè)計(jì)算作業(yè)分配給多臺計(jì)算機(jī)執(zhí)行。它假定這些作業(yè)在單機(jī)上需要很長的運(yùn)行時(shí)間,因此使用多臺機(jī)器縮短運(yùn)行時(shí)間。Map(映射)Reduce(化簡)
MapReduce是一種分布式計(jì)算模型,在處理海量數(shù)據(jù)上具有很明顯的優(yōu)勢,因此常被用于大規(guī)模數(shù)據(jù)集的并行計(jì)算。
MapReduce出現(xiàn)的歷史要追溯到1956年,圖靈獎(jiǎng)獲得者--著名的人工智能專家McCarthy首次提出了LISP語言的構(gòu)想,而在LISP語言中就包含了現(xiàn)在所使用的MapReduce功能。MapReduce的編程框架是由一個(gè)單獨(dú)運(yùn)行在主節(jié)點(diǎn)上的JobTracker和運(yùn)行在每個(gè)集群從節(jié)點(diǎn)上的TaskTracker共同組成的。用戶用map和reduce兩個(gè)函數(shù)來表達(dá)計(jì)算。map函數(shù)的輸入是一個(gè)<key,value>鍵值對,輸出一個(gè)<key,value>鍵值對的集合的中間結(jié)果。
MapReduce集合所有相同key值的value,然后提供給reduce函數(shù)。reduce函數(shù)收到key值和對應(yīng)的value的集合,通過計(jì)算得到較小的value值的集合。
MapReduce算法的機(jī)制要遠(yuǎn)比這復(fù)雜得多,但是主體思想是一致的–通過分散計(jì)算來分析大量數(shù)據(jù)。無論是Facebook、NASA,還是小創(chuàng)業(yè)公司,MapReduce都是目前分析互聯(lián)網(wǎng)級別數(shù)據(jù)的主流方法。
3.4Hadoop生態(tài)圈ZooKeeperZooKeeper是一個(gè)分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn),是Hadoop和Hbase的重要組件,是一個(gè)典型的分布式數(shù)據(jù)一致性解決方案分布式應(yīng)用程序可以基于ZooKeeper實(shí)現(xiàn)諸如數(shù)據(jù)發(fā)布/訂閱、負(fù)載均衡、命名服務(wù)、分布式協(xié)調(diào)/通知、集群管理、Master選舉、分布式鎖和分布式隊(duì)列等功能。ZooKeeper操作如圖所示。在已經(jīng)運(yùn)行的ZooKeeper客戶端中輸入命令來實(shí)現(xiàn)基本操作。ls/命令列舉當(dāng)前數(shù)據(jù)目錄,get/獲取某個(gè)節(jié)點(diǎn)下的數(shù)據(jù),create/創(chuàng)建節(jié)點(diǎn)數(shù)據(jù),set/命令設(shè)置該節(jié)點(diǎn)名下的數(shù)據(jù)值。該操作創(chuàng)建了兩個(gè)節(jié)點(diǎn)數(shù)據(jù),mydata-1和mydata-2,并在其中分別寫入了數(shù)據(jù)值為huang和yuan。SparkApacheSpark是一個(gè)圍繞速度、易用性和復(fù)雜分析構(gòu)建的大數(shù)據(jù)處理框架,最初在2009年由加州大學(xué)伯克利分校的AMPLab開發(fā),并于2010年成為Apache的開源項(xiàng)目之一。在需求上,Spark主要面向批處理需求,因其優(yōu)異的性能和易用的接口,Spark在是批處理界占據(jù)了重要的地位。SparkStreaming提供了流處理的功能,它的流處理主要基于mini-batch的思想,即將輸入數(shù)據(jù)流拆分成多個(gè)批次,每個(gè)批次使用批處理的方式進(jìn)行計(jì)算。因此,Spark是一款批量和流式于一體的計(jì)算框架。在計(jì)算能力上,Spark的核心在于計(jì)算,主要目的在于優(yōu)化HadoopMapReduce計(jì)算部分,在計(jì)算層面提供更細(xì)致的服務(wù),比如提供了常用幾種數(shù)據(jù)科學(xué)語言的API,提供了SQL、機(jī)器學(xué)習(xí)和圖計(jì)算支持,這些服務(wù)都是最終面向計(jì)算的。盡管Spark并不能完全取代Hadoop,但實(shí)際上Spark已經(jīng)融入到了Hadoop生態(tài)圈,并成為了其中的重要一元。一個(gè)Spark任務(wù)很可能依賴HDFS上的數(shù)據(jù),向YARN來申請計(jì)算資源,將HBase作為輸出結(jié)果的目的地。圖顯示了Spark在Windows中的啟動(dòng)界面,Spark版本為3.1.2。首先下載并安裝Spark以后,在cmd里輸入命令:spark-shell即可運(yùn)行Spark。在瀏覽器中打開網(wǎng)址:http://localhost:4040/,可查看Spark狀態(tài)在scala中編程,創(chuàng)建一個(gè)簡單的RDD并執(zhí)行操作,這段代碼創(chuàng)建了一個(gè)包含1到10數(shù)字的RDD,然后過濾出偶數(shù),并打印出來FlinkFlink核心是一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎,并且能夠基于同一個(gè)Flink運(yùn)行時(shí),提供支持流處理和批處理兩種類型應(yīng)用。其針對數(shù)據(jù)流的分布式計(jì)算提供了數(shù)據(jù)分布,數(shù)據(jù)通信及容錯(cuò)機(jī)制等功能。因此,從功能上看ApacheFlink是一個(gè)框架和分布式處理引擎,用于對無界和有界數(shù)據(jù)流進(jìn)行有狀態(tài)計(jì)算。Flink被設(shè)計(jì)在所有常見的集群環(huán)境中運(yùn)行,以內(nèi)存執(zhí)行速度和任意規(guī)模來執(zhí)行計(jì)算。Flink運(yùn)行時(shí)架構(gòu)主要包含幾個(gè)部分:Client、JobManager(master節(jié)點(diǎn))和TaskManger(slave節(jié)點(diǎn))。謝謝觀看第4章
大數(shù)據(jù)存儲目錄大數(shù)據(jù)存儲概述大數(shù)據(jù)中的數(shù)據(jù)庫應(yīng)用數(shù)據(jù)倉庫
4.1大數(shù)據(jù)存儲介紹PART01認(rèn)識大數(shù)據(jù)存儲大數(shù)據(jù)存儲通常是指將那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集持久化到計(jì)算機(jī)中。什么是大數(shù)據(jù)存儲為了有效應(yīng)對現(xiàn)實(shí)世界中復(fù)雜多樣性的大數(shù)據(jù)處理需求,需要針對不同的大數(shù)據(jù)應(yīng)用特征,從多個(gè)角度、多個(gè)層次對大數(shù)據(jù)進(jìn)行存儲和管理。大數(shù)據(jù)存儲的關(guān)鍵技術(shù)集群在計(jì)算機(jī)中,一個(gè)集群通常是緊密耦合的一些服務(wù)器或節(jié)點(diǎn)。這些服務(wù)器通常有相同的硬件規(guī)格并且通過網(wǎng)絡(luò)來進(jìn)行互聯(lián),從而達(dá)到更高的效率。大數(shù)據(jù)存儲的關(guān)鍵技術(shù)分片分片是水平地將一個(gè)大的數(shù)據(jù)集劃分為較小的、更易于管理的數(shù)據(jù)集的過程。這些數(shù)據(jù)集叫做碎片,并且每個(gè)碎片可以獨(dú)立地為所負(fù)責(zé)的數(shù)據(jù)提供讀寫服務(wù)。在設(shè)計(jì)分片方案時(shí),需要選擇適合業(yè)務(wù)需求的分片策略。例如,對于大型數(shù)據(jù)庫,可以將數(shù)據(jù)表分成多個(gè)片段,分別存儲在不同的物理磁盤上,通過分區(qū)技術(shù)實(shí)現(xiàn)數(shù)據(jù)的快速查詢和管理。大數(shù)據(jù)存儲的分類分布式存儲與常見的集中式存儲技術(shù)不同,分布式存儲技術(shù)并不是將數(shù)據(jù)存儲在某個(gè)或多個(gè)特定的節(jié)點(diǎn)上,而是通過網(wǎng)絡(luò)使用企業(yè)中的每臺機(jī)器上的磁盤空間,并將這些分散的存儲資源構(gòu)成一個(gè)虛擬的存儲設(shè)備,數(shù)據(jù)分散的存儲在企業(yè)的各個(gè)角落。大數(shù)據(jù)存儲的分類NoSQL數(shù)據(jù)庫NoSQL數(shù)據(jù)庫又叫做非關(guān)系數(shù)據(jù)庫,和數(shù)據(jù)庫管理系統(tǒng)(RDBMS)相比,NoSQL不使用SQL作為查詢語言,其存儲也可以不需要固定的表模式,用戶操作NoSQL時(shí)通常會(huì)避免使用RDBMS的JION操作。大數(shù)據(jù)存儲的分類列式數(shù)據(jù)庫列式存儲是相對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的行式存儲來說的,列存儲法是將數(shù)據(jù)按照列存儲到數(shù)據(jù)庫中,它是面向大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉庫的數(shù)據(jù)分析而產(chǎn)生,常用于解決某些特定場景下關(guān)系型數(shù)據(jù)庫I/O較高的問題。大數(shù)據(jù)存儲的分類鍵值數(shù)據(jù)庫鍵值存儲即Key-Value存儲,簡稱KV存儲,它是NoSQL存儲的一種方式。鍵值存儲的數(shù)據(jù)按照鍵值對的形式進(jìn)行組織,索引和存儲。大數(shù)據(jù)存儲的分類文檔型數(shù)據(jù)庫文檔型數(shù)據(jù)庫是鍵值數(shù)據(jù)庫的子類,它們的差別在于處理數(shù)據(jù)的方式:在鍵值數(shù)據(jù)庫中,數(shù)據(jù)是對數(shù)據(jù)庫不透明的;而面向文檔的數(shù)據(jù)庫系統(tǒng)依賴于文件的內(nèi)部結(jié)構(gòu),它獲取元數(shù)據(jù)以用于數(shù)據(jù)庫引擎進(jìn)行更深層次的優(yōu)化。{"name":"A","children":[{"name":"B","children":[{"name":"D"}]},{"name":"C"}]}大數(shù)據(jù)存儲的分類圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫是一種非關(guān)系型數(shù)據(jù)庫,它應(yīng)用圖形理論存儲實(shí)體之間的關(guān)系信息。不過值得注意的是:圖形數(shù)據(jù)庫的基本含義是以“圖”這種數(shù)據(jù)結(jié)構(gòu)存儲和查詢數(shù)據(jù),而不是存儲圖片的數(shù)據(jù)庫。大數(shù)據(jù)存儲的分類云數(shù)據(jù)庫云數(shù)據(jù)庫是指被優(yōu)化或部署到一個(gè)虛擬計(jì)算環(huán)境中的數(shù)據(jù)庫,是在云計(jì)算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法,它極大地增強(qiáng)了數(shù)據(jù)庫的存儲能力大數(shù)據(jù)存儲的分類NewSQL數(shù)據(jù)庫NewSQL數(shù)據(jù)庫是對各種新的可擴(kuò)展/高性能數(shù)據(jù)庫的簡稱,它是一種相對較新的形式,旨在使用現(xiàn)有的編程語言和以前不可用的技術(shù)來結(jié)合SQL和NoSQL中最好的部分。NewSQL數(shù)據(jù)庫改變了數(shù)據(jù)的定義范圍。它不再是原始的數(shù)據(jù)類型,如整數(shù)、浮點(diǎn),它的數(shù)據(jù)可能是整個(gè)文件。大數(shù)據(jù)存儲的分類值得注意的是:NewSQL中并沒有開拓性的理論技術(shù)的創(chuàng)新,更多的是架構(gòu)的創(chuàng)新,以及把現(xiàn)有的技術(shù)如何更好地適用于當(dāng)今的服務(wù)器,適用于當(dāng)前的分布式架構(gòu)?,F(xiàn)有的NewSQL數(shù)據(jù)庫廠商主要有亞馬遜關(guān)系數(shù)據(jù)庫服務(wù),微軟SQLAzure,Xeround和FathomDB等。
4.2大數(shù)據(jù)中的數(shù)據(jù)庫應(yīng)用工業(yè)和信息化部在2017年1月正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國MySQL是一個(gè)小型的關(guān)系數(shù)據(jù)庫管理系統(tǒng),由于該軟件體積小、運(yùn)行速度快、操作方便等優(yōu)點(diǎn),目前被廣泛的應(yīng)用于Web上的中小企業(yè)網(wǎng)站的后臺數(shù)據(jù)庫中。為了更好地發(fā)揮數(shù)據(jù)要素的作用,?中共中央、?國務(wù)院于2023年印發(fā)了《?關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》?MySQL工業(yè)和信息化部在2017年1月正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國在使用MySQL存儲企業(yè)的海量數(shù)據(jù)時(shí),可以用到分布式數(shù)據(jù)庫的技術(shù),即將原來集中式數(shù)據(jù)庫中的數(shù)據(jù)分散存儲到多個(gè)通過網(wǎng)絡(luò)連接的數(shù)據(jù)存儲節(jié)點(diǎn)上,以獲得更大的存儲容量和更高的并發(fā)訪問量。為了更好地發(fā)揮數(shù)據(jù)要素的作用,?中共中央、?國務(wù)院于2023年印發(fā)了《?關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》?MySQL工業(yè)和信息化部在2017年1月正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國HBase也就是DataBaseonHadoop,它是面向列的開源數(shù)據(jù)庫,基于Hadoop自身的分布式文件系統(tǒng)HDFS,能夠?qū)崿F(xiàn)更好的大數(shù)據(jù)存儲性能支持。為了更好地發(fā)揮數(shù)據(jù)要素的作用,?中共中央、?國務(wù)院于2023年印發(fā)了《?關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》?HBaseHBase的出現(xiàn)是因?yàn)榇鎯Σ⑻幚泶笮偷臄?shù)據(jù)需求,在多臺機(jī)器上搭建起大規(guī)模結(jié)構(gòu)化存儲集群,僅通過普通的硬件配置,就能實(shí)現(xiàn)PB級別的數(shù)據(jù)存儲和處理工業(yè)和信息化部在2017年1月正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國Hbase數(shù)據(jù)庫的核心組件可以分為4個(gè)模塊:客戶端Client、協(xié)調(diào)服務(wù)模塊Zookeeper、主節(jié)點(diǎn)HMaster和Region節(jié)點(diǎn)RegionServer。為了更好地發(fā)揮數(shù)據(jù)要素的作用,?中共中央、?國務(wù)院于2023年印發(fā)了《?關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》?HBase通過瀏覽器端口:16010來訪問Hbase工業(yè)和信息化部在2017年1月正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國Redis是完全開源免費(fèi)的,使用ANSIC語言編寫的,遵守BSD協(xié)議的一個(gè)高性能的Key-Value數(shù)據(jù)庫,也是當(dāng)前最熱門的NoSql數(shù)據(jù)庫之一。為了更好地發(fā)揮數(shù)據(jù)要素的作用,?中共中央、?國務(wù)院于2023年印發(fā)了《?關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》?RedisRedis的出色之處不僅僅是性能,Redis最大的魅力是支持保存多種數(shù)據(jù)結(jié)構(gòu)。不過Redis的主要缺點(diǎn)是數(shù)據(jù)庫容量受到物理內(nèi)存的限制,不能用作海量數(shù)據(jù)的高性能讀寫,因此Redis適合的場景主要局限在較小數(shù)據(jù)量的高性能操作和運(yùn)算上。工業(yè)和信息化部在2017年1月正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國MongoDB是一個(gè)跨平臺,面向文檔的數(shù)據(jù)庫。它可以應(yīng)用于各種規(guī)模的企業(yè)、各個(gè)行業(yè)以及各類應(yīng)用程序的開源數(shù)據(jù)庫。為了更好地發(fā)揮數(shù)據(jù)要素的作用,?中共中央、?國務(wù)院于2023年印發(fā)了《?關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》?MongoDB
MongoDB支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似JSON的格式,因此可以存儲比較復(fù)雜的數(shù)據(jù)類型。MongoDB在Windows下的啟動(dòng)和運(yùn)行。使用語句usenew創(chuàng)建新的數(shù)據(jù)庫,語句inse
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 18041-2025民用航空貨物運(yùn)輸術(shù)語
- 江西省撫州市臨川二中2025-2026學(xué)年度第一學(xué)期期末考試高二物理試題(含答案)
- 養(yǎng)老院入住老人生活照料培訓(xùn)制度
- 老年終末期認(rèn)知評估中的環(huán)境因素調(diào)整策略
- 兒童肺炎支原體肺炎診療指南2026
- 老年終末期壓瘡護(hù)理中個(gè)體化護(hù)理方案設(shè)計(jì)
- 2025年興城市職業(yè)教育中心招聘考試真題
- 紫藤蘿瀑布上
- 偏(均)三甲苯裝置操作工成果測試考核試卷含答案
- 品酒師安全宣傳強(qiáng)化考核試卷含答案
- 2026海南安??毓捎邢挢?zé)任公司招聘11人筆試模擬試題及答案解析
- 裝飾裝修工程施工組織設(shè)計(jì)方案(二)
- 2026上海碧海金沙投資發(fā)展有限公司社會(huì)招聘參考題庫必考題
- 保險(xiǎn)業(yè)客戶服務(wù)手冊(標(biāo)準(zhǔn)版)
- 2026年張家界航空工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試模擬測試卷新版
- 2026遼寧機(jī)場管理集團(tuán)校招面筆試題及答案
- 2025徽銀金融租賃有限公司社會(huì)招聘筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 2026年遼寧軌道交通職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 檢驗(yàn)科內(nèi)控制度
- DB44-T 2771-2025 全域土地綜合整治技術(shù)導(dǎo)則
- 碳排放核算及企業(yè)減排策略
評論
0/150
提交評論