版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)管理技術(shù)的歷史沿革與新進(jìn)展2019年04月1內(nèi)容提要數(shù)據(jù)管理技術(shù)的發(fā)展歷史數(shù)據(jù)庫技術(shù)的前世今生數(shù)據(jù)管理新技術(shù)數(shù)據(jù)管理技術(shù)的發(fā)展歷史31、數(shù)據(jù)數(shù)據(jù)的定義描述事物的符號記錄數(shù)據(jù)的種類文字、圖形、圖象、聲音數(shù)據(jù)的特點數(shù)據(jù)與其語義是不可分的2、數(shù)據(jù)管理什么是數(shù)據(jù)管理對數(shù)據(jù)進(jìn)行分類、組織、編碼、存儲、檢索和維護(hù),是數(shù)據(jù)處理的中心問題3、數(shù)據(jù)管理技術(shù)的發(fā)展過程數(shù)據(jù)管理技術(shù)的發(fā)展過程人工管理階段(40年代中-50年代中)文件系統(tǒng)階段(50年代末-60年代中)數(shù)據(jù)庫系統(tǒng)階段(60年代末-現(xiàn)在)3.1 人工管理時期20世紀(jì)40年代中期20世紀(jì)50年代中期產(chǎn)生的背景應(yīng)用需求科學(xué)計算硬件水平無直接存取存儲設(shè)備軟
2、件水平?jīng)]有操作系統(tǒng)處理方式批處理3.1 人工管理特點數(shù)據(jù)不能長期保存應(yīng)用程序本身管理數(shù)據(jù)數(shù)據(jù)不共享數(shù)據(jù)不具有獨立性3.1 人工管理應(yīng)用程序與數(shù)據(jù)的對應(yīng)關(guān)系應(yīng)用程序數(shù)據(jù)集應(yīng)用程序數(shù)據(jù)集應(yīng)用程序數(shù)據(jù)集n.3.2 文件系統(tǒng)時期20世紀(jì)50年代末20世紀(jì)60年代中產(chǎn)生的背景應(yīng)用需求科學(xué)計算、管理硬件水平磁盤、磁鼓軟件水平有文件系統(tǒng)處理方式聯(lián)機(jī)實時處理、批處理3.2 文件系統(tǒng)特點數(shù)據(jù)可以長期保存由文件系統(tǒng)管理數(shù)據(jù)數(shù)據(jù)冗余大,共享性差數(shù)據(jù)獨立性差3.2 文件系統(tǒng)應(yīng)用程序與數(shù)據(jù)的對應(yīng)關(guān)系應(yīng)用程序文件應(yīng)用程序文件2應(yīng)用程序文件n存取方法.3.2 文件系統(tǒng)編一個C語言程序,建立10名學(xué)生的信息文件,已知每個學(xué)生
3、的信息包括:學(xué)號、課程名、成績。 要求:(1)從鍵盤上輸入10名學(xué)生的信息。(2)把學(xué)生信息輸出到sdata.dat磁盤文件中。3.2 文件系統(tǒng) scanf(“%s%s%f”,&sti.num, &sti. course, &sti. score); if(fp=fopen(“sdata.dat”,”w”)=NULL) printf(“Can not open file sdata.dat”); else for(i=0;i10;i+) fwrite(&sti,sizeof(struct student),1,fp); close(fp); C源程序:#include “stdio.h”str
4、uct student char num7; char course20; float score;struct student st10;main() FILE *fp; int i;for(i=0;i10;i+)3.2 文件系統(tǒng)數(shù)據(jù)文件:sdata.dat0101001 C+語言 780101001 操作系統(tǒng) 620102019 電子技術(shù) 733.2 文件系統(tǒng)文件系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)記錄內(nèi)有結(jié)構(gòu)。數(shù)據(jù)的結(jié)構(gòu)是靠程序定義和解釋的。數(shù)據(jù)只能是定長的。可以間接實現(xiàn)數(shù)據(jù)變長要求,但訪問相應(yīng)數(shù)據(jù)的應(yīng)用程序復(fù)雜了。文件間是獨立的,因此數(shù)據(jù)整體無結(jié)構(gòu)??梢蚤g接實現(xiàn)數(shù)據(jù)整體的有結(jié)構(gòu),但必須在應(yīng)用程序中對描述數(shù)
5、據(jù)間的聯(lián)系。數(shù)據(jù)的最小存取單位是記錄。3.3 數(shù)據(jù)庫系統(tǒng)時期20世紀(jì)60年代末以來產(chǎn)生的背景應(yīng)用背景大規(guī)模管理硬件背景大容量磁盤軟件背景有數(shù)據(jù)庫管理系統(tǒng)處理方式聯(lián)機(jī)實時處理,分布處理,批處理3.3 數(shù)據(jù)庫系統(tǒng)特點數(shù)據(jù)結(jié)構(gòu)化;數(shù)據(jù)的共享性高,冗余度低,易擴(kuò)充 ;數(shù)據(jù)獨立性高 (物理獨立性、邏輯獨立性);數(shù)據(jù)由DBMS統(tǒng)一管理和控制。/cug/database/netclass/CHAPT1/SEC1/1.1.3.htm3.3 數(shù)據(jù)庫系統(tǒng)應(yīng)用程序與數(shù)據(jù)的對應(yīng)關(guān)系DBMS應(yīng)用程序1應(yīng)用程序2數(shù)據(jù)庫返回提要數(shù)據(jù)庫的前世今生20數(shù)據(jù)庫發(fā)展大事記1951:Univac系統(tǒng)使用磁帶和穿孔卡片作為數(shù)據(jù)存儲。1
6、956:IBM公司在其Model 305 RAMAC中第一次引入了磁盤驅(qū)動器1961:通用電氣(GE)公司的Charles Bachman開發(fā)了第一個數(shù)據(jù)庫管理系統(tǒng)IDS1969:E.F. Codd發(fā)明了關(guān)系數(shù)據(jù)庫。1973: 由John J.Cullinane領(lǐng)導(dǎo)Cullinane公司開發(fā)了 IDMS一個針對IBM主機(jī)的基于網(wǎng)絡(luò)模型的數(shù)據(jù)庫。數(shù)據(jù)庫發(fā)展大事記1976: Honeywell公司推出了Multics Relational Data Store第一個商用關(guān)系數(shù)據(jù)庫產(chǎn)品。1979: Oracle公司引入了第一個商用SQL關(guān)系數(shù)據(jù)庫管理系統(tǒng)。1983: IBM 推出了DB2數(shù)據(jù)庫產(chǎn)品。
7、1985: 為Procter & Gamble系統(tǒng)設(shè)計的第一個商務(wù)智能系統(tǒng)產(chǎn)生。1991: W.H.“Bill” Inmon發(fā)表了”構(gòu)建數(shù)據(jù)倉庫”。查爾斯巴赫曼查爾斯巴赫曼(1924)1973年圖靈獎獲得者網(wǎng)狀數(shù)據(jù)庫技術(shù)與標(biāo)準(zhǔn)的創(chuàng)立者1961年,任職于通用電氣公司(General ElectricCo.)的Charles Bachman 成功地開發(fā)出世界上第一個網(wǎng)狀DBMS,也是第一個數(shù)據(jù)庫管理系統(tǒng) 集成數(shù)據(jù)存儲IDS(Integrated Data Store) 層次型DBMS是緊隨網(wǎng)絡(luò)型數(shù)據(jù)庫而出現(xiàn)的。最著名最典型的層次數(shù)據(jù)庫系統(tǒng)是IBM 公司在1968 年開發(fā)的IMS(Informati
8、on Management System),一種適合其主機(jī)的層次數(shù)據(jù)庫。這是IBM公司研制的最早的大型數(shù)據(jù)庫系統(tǒng)程序產(chǎn)品。從60 年代末產(chǎn)生起,如今已經(jīng)發(fā)展到IMSV6,提供群集、N路數(shù)據(jù)共享、消息隊列共享等先進(jìn)特性的支持。這個具有3 0 年歷史的數(shù)據(jù)庫產(chǎn)品在如今的WWW應(yīng)用連接、商務(wù)智能應(yīng)用中扮演著新的角色。 埃德加科德埃德加科德(19232019)1981年圖靈獎獲得者關(guān)系數(shù)據(jù)庫之父1970年6月在Communications of ACM上發(fā)表了題為“A Relation Model of Data for Large Shared Data Banks”一文 詹姆斯格雷詹姆斯格雷(19
9、442019)2019年圖靈獎獲得者事務(wù)處理理論和技術(shù)實現(xiàn)的開創(chuàng)者解決了大型數(shù)據(jù)庫的安全性、完整性、并發(fā)控制和數(shù)據(jù)恢復(fù)等重大問題返回提要數(shù)據(jù)管理新技術(shù)27世界是平的這是比爾蓋茲已經(jīng)推薦過N遍的一本書。他說,這是一本所有決策者、企業(yè)員工都必須讀的一本書。小時候我常聽爸媽說:兒子啊,乖乖把飯吃完,因為中國跟印度的小孩沒飯吃?,F(xiàn)在我則說:女兒啊,乖乖把書念完,因為中國跟印度的小孩正等著搶你的飯碗。弗里德曼在硅谷經(jīng)常聽到“B to B”(Back to Bangalore)和“B to C”(Back to China)的信號 。碾平世界的10大動力弗里德曼在書中把全球化劃分為3個主要紀(jì)元全球化1.0
10、:1492年大約1800年全球化2.0:1800年2000年推動全球化的力量來自國家推動全球化的力量來自企業(yè)全球化3.0:2000年推動全球化的力量來自個人新的數(shù)據(jù)管理技術(shù)將由服務(wù)于企業(yè)的管理過渡到滿足個人的管理需求上! 2019年,美國。 講述在降低經(jīng)營成本的考量下,工資低廉又會說英語的印度大學(xué)生成為美國電話網(wǎng)路銷售公司的最愛,於是紛紛將call center遷往印度,由此由文化差異鬧出的相關(guān)的故事。 當(dāng)今世界發(fā)展的五大趨勢:能源與資源的供需失衡;石油生產(chǎn)國的壟斷性經(jīng)營;(碳排放增量導(dǎo)致)地球氣候變暖;能源日益匱乏(石油、煤炭不可再生);(人口爆炸性增長、無節(jié)制開發(fā)和環(huán)境污染導(dǎo)致)生物多樣性
11、消失。 數(shù)據(jù)管理新技術(shù)面向?qū)ο髷?shù)據(jù)庫XML數(shù)據(jù)庫數(shù)據(jù)空間(Mashup技術(shù))基于閃存的數(shù)據(jù)庫技術(shù)可信數(shù)據(jù)管理RFID數(shù)據(jù)管理云數(shù)據(jù)管理不確定性數(shù)據(jù)管理技術(shù)云數(shù)據(jù)管理數(shù)據(jù)是未來計算的核心主要為公眾服務(wù)的Google、MSN、Yahoo等應(yīng)用,均沒有適用傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng),而是另辟蹊徑去尋找能更好地滿足個人數(shù)據(jù)管理需要的方法。2019年美國NIST(National Institute of Standards andTechnology)舉辦了一場機(jī)器自動翻譯大賽,google公司獲得冠軍。僅研究了3年機(jī)器翻譯;首次參加比賽;獲勝的秘笈:“統(tǒng)計式”翻譯算法基于統(tǒng)計和分析某一單詞在這一語言環(huán)境中被
12、運用的概率和位置,以此來尋找詞匯的排列規(guī)則;“類比式”算法,分析數(shù)以億計的現(xiàn)有翻譯作品,擁有搜索技術(shù)和海量數(shù)據(jù)致勝!云數(shù)據(jù)管理Google 云計算技術(shù):GFS,Bigtable 和MapreduceYahoo云計算技術(shù)和HadoopThe Google File System The Google File System(GFS)A scalable distributed file system for large distributed data intensive applicationsMultiple GFS clusters are currently deployed.The l
13、argest ones have:1000+ storage nodes300+ TeraBytes of disk storageheavily accessed by hundreds of clients on distinct machinesIntroductionShares many same goals as previous distributed file systemsperformance, scalability, reliability, etcGFS design has been driven by four key observation of Google
14、application workloads and technological environmentIntro: Observations 11. Component failures are the normconstant monitoring, error detection, fault tolerance and automatic recovery are integral to the system2. Huge files (by traditional standards)Multi GB files are commonI/O operations and blocks
15、sizes must be revisitedIntro: Observations 23. Most files are mutated by appending new dataThis is the focus of performance optimization and atomicity guarantees4. Co-designing the applications and APIs benefits overall system by increasing flexibilityThe DesignCluster consists of a single master an
16、d multiple chunkservers and is accessed by multiple clientsThe MasterMaintains all file system s space, access control info, file to chunk mappings, chunk (including replicas) location, etc.Periodically communicates with chunkservers in HeartBeat messages to give instructions and check
17、stateThe MasterHelps make sophisticated chunk placement and replication decision, using global knowledgeFor reading and writing, client contacts Master to get chunk locations, then deals directly with chunkserversMaster is not a bottleneck for reads/writesChunkserversFiles are broken into chunks. Ea
18、ch chunk has a immutable globally unique 64-bit chunk-handle.handle is assigned by the master at chunk creationChunk size is 64 MBEach chunk is replicated on 3 (default) serversClientsLinked to apps using the file system API.Communicates with master and chunkservers for reading and writingMaster int
19、eractions only for metadataChunkserver interactions for dataOnly caches metadata informationData is too large to cache.Chunk LocationsMaster does not keep a persistent record of locations of chunks and replicas.Polls chunkservers at startup, and when new chunkservers join/leave for this.Stays up to
20、date by controlling placement of new chunks and through HeartBeat messages (when monitoring chunkservers)Introduction to MapReduce 45MapReduce: Insight ”Consider the problem of counting the number of occurrences of each word in a large collection of documents”How would you do it in parallel ?46MapRe
21、duce Programming Model Inspired from map and reduce operations commonly used in functional programming languages like Lisp.Users implement interface of two primary methods:1. Map: (key1, val1) (key2, val2)2. Reduce: (key2, val2) val347Map operationMap, a pure function, written by the user, takes an
22、input key/value pair and produces a set of intermediate key/value pairs. e.g. (docid, doc-content)Draw an analogy to SQL, map can be visualized as group-by clause of an aggregate query.48Reduce operation On completion of map phase, all the intermediate values for a given output key are combined toge
23、ther into a list and given to a reducer.Can be visualized as aggregate function (e.g., average) that is computed over all the rows with the same group-by attribute.49Pseudo-codemap(String input_key, String input_value): / input_key: document name / input_value: document contents for each word w in input_value: EmitIntermediate(w, 1); reduce(String output_key, Iterator intermediate_values): / output_key: a word / output_values: a list of counts int result = 0; for each v
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年健康生活方式及疾病預(yù)防測試題
- 2026年財務(wù)數(shù)據(jù)分析師考試模擬題
- 2026年供應(yīng)鏈管理與優(yōu)化應(yīng)用評估題集
- 2026年高考化學(xué)知識點全解與經(jīng)典習(xí)題集
- 2026年法學(xué)理論法律實務(wù)模擬題庫
- 2026年網(wǎng)絡(luò)安全守護(hù)中級網(wǎng)絡(luò)安全分析師筆試預(yù)測模擬題
- 2026年金融投資知識與風(fēng)險管理試題
- 2026年生態(tài)農(nóng)業(yè)與可持續(xù)發(fā)展題庫
- 醫(yī)院消毒供應(yīng)中心滅菌效果監(jiān)測管理制度
- 2026年新型防爆材料應(yīng)用與安全防護(hù)技術(shù)模擬題
- 環(huán)境多因素交互導(dǎo)致慢性病共病的機(jī)制研究
- 2026湖南衡陽耒陽市公安局招聘75名警務(wù)輔助人員考試參考題庫及答案解析
- 2026年中共佛山市順德區(qū)委組織部佛山市順德區(qū)國有資產(chǎn)監(jiān)督管理局招聘備考題庫及參考答案詳解
- 多重耐藥菌醫(yī)院感染預(yù)防與控制技術(shù)指南完整版
- 2026年1月浙江省高考(首考)英語試題(含答案詳解)+聽力音頻+聽力材料
- 河南新鄉(xiāng)鶴壁安陽焦作2026年1月高三一模物理試題+答案
- 2026年食品安全快速檢測儀器項目可行性研究報告
- 2025年新版八年級上冊歷史期末復(fù)習(xí)必背歷史小論文范例
- 2026年及未來5年市場數(shù)據(jù)中國電能計量裝置市場競爭格局及投資戰(zhàn)略規(guī)劃報告
- 智慧物流背景下多式聯(lián)運的協(xié)同發(fā)展與運輸效能提升研究畢業(yè)論文答辯匯報
- 替人背債合同范本
評論
0/150
提交評論