計(jì)算與人工智能概論(第2版)(微課版)課件 第11章 數(shù)據(jù)管理與大數(shù)據(jù)_第1頁
計(jì)算與人工智能概論(第2版)(微課版)課件 第11章 數(shù)據(jù)管理與大數(shù)據(jù)_第2頁
計(jì)算與人工智能概論(第2版)(微課版)課件 第11章 數(shù)據(jù)管理與大數(shù)據(jù)_第3頁
計(jì)算與人工智能概論(第2版)(微課版)課件 第11章 數(shù)據(jù)管理與大數(shù)據(jù)_第4頁
計(jì)算與人工智能概論(第2版)(微課版)課件 第11章 數(shù)據(jù)管理與大數(shù)據(jù)_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算與人工智能概論第11章數(shù)據(jù)管理與大數(shù)據(jù)

計(jì)算機(jī)數(shù)據(jù)管理11.1PART計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段數(shù)據(jù)管理數(shù)據(jù)管理是對(duì)不同類型的數(shù)據(jù)進(jìn)行收集、整理、組織、存儲(chǔ)、加工、傳輸、檢索的各個(gè)過程,它是計(jì)算機(jī)一個(gè)重要的應(yīng)用領(lǐng)域。其目的之一是從大量原始的數(shù)據(jù)中抽取、推導(dǎo)出對(duì)人們有價(jià)值的信息,然后利用信息作為行動(dòng)和決策的依據(jù);另一目的是為了借助計(jì)算機(jī)科學(xué)地保存和管理復(fù)雜的、大量的數(shù)據(jù),以便人們能夠方便而充分地利用這些信息資源。計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段人工管理文件系統(tǒng)數(shù)據(jù)庫系統(tǒng)計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.1人工管理二十世紀(jì)五十年代中期以前,計(jì)算機(jī)硬件方面,外存儲(chǔ)器只有紙帶、卡片、磁帶,沒有像硬盤一樣可以隨機(jī)訪問、直接存取的外部存儲(chǔ)設(shè)備;軟件方面,沒有操作系統(tǒng)軟件和數(shù)據(jù)管理軟件。此階段的數(shù)據(jù)處理有以下特點(diǎn):數(shù)據(jù)不保存。用戶把應(yīng)用程序和數(shù)據(jù)一起輸入內(nèi)存,通過應(yīng)用程序?qū)?shù)據(jù)進(jìn)行處理,輸出處理結(jié)果。任務(wù)完成后,數(shù)據(jù)隨著應(yīng)用程序從內(nèi)存一起釋放。數(shù)據(jù)和程序不具有獨(dú)立性。數(shù)據(jù)由應(yīng)用程序自行管理。應(yīng)用程序中不僅要規(guī)定數(shù)據(jù)的邏輯結(jié)構(gòu),還要闡明數(shù)據(jù)在存儲(chǔ)器上的存儲(chǔ)地址。當(dāng)數(shù)據(jù)改變時(shí),應(yīng)用程序也要隨之改變。數(shù)據(jù)不能共享。一個(gè)應(yīng)用程序中的數(shù)據(jù)無法被其他應(yīng)用程序所利用。程序和程序之間不能共享數(shù)據(jù),因而產(chǎn)生大量重復(fù)的數(shù)據(jù),稱為數(shù)據(jù)冗余。計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.1人工管理數(shù)據(jù)記錄學(xué)號(hào)、姓名、三門功課的成績(jī)numnamechinesemathsenglish101Mary808590102rose809095103Harry757265104Peter656358105richard959388計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.1人工管理例11.1score=[["101","Mary",80,85,90],["102","Rose",80,90,95],["103","Mike",75,72,65],["104","Peter",65,63,58],["105","Harry",95,93,88]]#將數(shù)據(jù)存入二維列表foriinrange(5):zf=score[i][2]+score[i][3]+score[i][4]#計(jì)算總分

score[i].append(zf)#將總分加入列表,例如score[0]為["101","Mary",80,85,90,255]score=sorted(score,key=lambdak:k[5],reverse=True)#對(duì)列表按第六列排序foriinrange(5):#輸出列表

print("學(xué)號(hào){}姓名{}總分{}".format(score[i][0],score[i][1],score[i][5]))計(jì)算表內(nèi)每位同學(xué)的總分,降序排列并輸出計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.2文件系統(tǒng)二十世紀(jì)五十年代后期至六十年代中后期,隨著計(jì)算機(jī)在數(shù)據(jù)管理中的廣泛應(yīng)用,大量的數(shù)據(jù)存儲(chǔ)、檢索和維護(hù)成為緊迫的要求。硬件方面,可直接存取的磁盤成為主要外存;軟件方面,出現(xiàn)了高級(jí)語言和操作系統(tǒng)。文件系統(tǒng)階段的數(shù)據(jù)處理有以下特點(diǎn)。數(shù)據(jù)長(zhǎng)期保存。數(shù)據(jù)項(xiàng)集合為記錄,長(zhǎng)期保存在磁盤的數(shù)據(jù)文件中,供用戶反復(fù)調(diào)用和更新。程序與數(shù)據(jù)有了一定的獨(dú)立性。應(yīng)用程序和數(shù)據(jù)分別存儲(chǔ)在程序文件和數(shù)據(jù)文件中,應(yīng)用程序按文件名訪問數(shù)據(jù)文件,不必關(guān)心數(shù)據(jù)在存儲(chǔ)器上的位置、輸入/輸出方式。數(shù)據(jù)的獨(dú)立性低。由于應(yīng)用程序?qū)?shù)據(jù)的訪問基于特定的結(jié)構(gòu)和存取方法,當(dāng)數(shù)據(jù)的邏輯結(jié)構(gòu)發(fā)生改變時(shí),必須修改相應(yīng)的應(yīng)用程序。數(shù)據(jù)的共享性差,存在數(shù)據(jù)冗余和數(shù)據(jù)的不一致。大多數(shù)情況下,一個(gè)應(yīng)用程序?qū)?yīng)一個(gè)數(shù)據(jù)文件。當(dāng)不同的應(yīng)用程序所處理的數(shù)據(jù)包含相同的數(shù)據(jù)項(xiàng)時(shí),通常是建立各自的數(shù)據(jù)文件,從而產(chǎn)生大量的數(shù)據(jù)冗余。當(dāng)一個(gè)數(shù)據(jù)文件的數(shù)據(jù)項(xiàng)被更新,而其他數(shù)據(jù)文件中相同的數(shù)據(jù)項(xiàng)沒有被更新時(shí),將造成數(shù)據(jù)的不一致。計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.2文件系統(tǒng)計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.2文件系統(tǒng)score.csv文件中存儲(chǔ)五位同學(xué)的學(xué)號(hào)、姓名和三門功課的成績(jī)。計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.2文件系統(tǒng)例11.2f1=open(“score.csv”)lb=[]#將數(shù)據(jù)存入二維列表forlineinf1:xx=line.strip().split(“,”)zf=eval(xx[2])+eval(xx[3])+eval(xx[4])#計(jì)算總分

lb.append([xx[0],xx[1],zf])lb=sorted(lb,key=lambdak:k[2],reverse=True)#對(duì)列表按第三列排序foriinrange(5):#輸出列表

print("學(xué)號(hào){}姓名{}總分{}".format(lb[i][0],lb[i][1],lb[i][2]))計(jì)算score.csv文件中每位同學(xué)的總分,降序排列并輸出計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.3數(shù)據(jù)庫系統(tǒng)二十世紀(jì)六十年代后期,大容量和快速存儲(chǔ)的磁盤相繼投入市場(chǎng),為新型數(shù)據(jù)管理技術(shù)奠定了物質(zhì)基礎(chǔ)。此外,計(jì)算機(jī)管理的數(shù)據(jù)量急劇增長(zhǎng),多用戶、多程序?qū)崿F(xiàn)數(shù)據(jù)共享的要求日益增強(qiáng)。在這種情況下,文件系統(tǒng)的數(shù)據(jù)管理已經(jīng)不能滿足需求,數(shù)據(jù)庫技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)庫系統(tǒng)階段的數(shù)據(jù)處理有以下特點(diǎn)。數(shù)據(jù)的共享性高,冗余度低。建立數(shù)據(jù)庫時(shí),以面向全局的觀點(diǎn)組織數(shù)據(jù)庫中的數(shù)據(jù)。數(shù)據(jù)可被多個(gè)用戶、多個(gè)應(yīng)用程序共享使用,大大減少數(shù)據(jù)冗余。采用特定的數(shù)據(jù)模型。數(shù)據(jù)庫中的數(shù)據(jù)是以一定的邏輯結(jié)構(gòu)存放的,這種結(jié)構(gòu)由數(shù)據(jù)庫管理系統(tǒng)所支持的數(shù)據(jù)模型來決定。目前流行的數(shù)據(jù)庫管理系統(tǒng)大多建立在關(guān)系模型的基礎(chǔ)上的。數(shù)據(jù)獨(dú)立性高。數(shù)據(jù)與應(yīng)用程序之間彼此獨(dú)立。當(dāng)數(shù)據(jù)的存儲(chǔ)格式、組織方法和邏輯結(jié)構(gòu)或發(fā)生改變時(shí),不需要修改應(yīng)用程序。統(tǒng)一的數(shù)據(jù)控制功能。數(shù)據(jù)庫由數(shù)據(jù)庫管理系統(tǒng)來統(tǒng)一管理,并提供對(duì)數(shù)據(jù)的并發(fā)性、完整性、安全性等控制功能。計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.3數(shù)據(jù)庫系統(tǒng)…應(yīng)用程序2應(yīng)用程序1應(yīng)用程序n數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.3數(shù)據(jù)庫系統(tǒng)存儲(chǔ)成績(jī)的數(shù)據(jù)表計(jì)算機(jī)數(shù)據(jù)管理的三個(gè)階段11.1.3數(shù)據(jù)庫系統(tǒng)例selectname,sum(cj)aszffromscoregroupbynameorderbyzfdesc;SQL語句實(shí)現(xiàn)計(jì)算學(xué)生的總分并排序的功能數(shù)據(jù)文件11.1.4數(shù)據(jù)文件數(shù)據(jù)文件是在計(jì)算機(jī)系統(tǒng)上使用的最常見類型的文件之一。本質(zhì)上,它可以是存儲(chǔ)一個(gè)數(shù)據(jù)的任何文件。它可以采取純文本文件、編碼后的文件(通過加密),或二進(jìn)制文件格式。數(shù)據(jù)文件由多種不同的應(yīng)用軟件建立,包含了數(shù)以千計(jì)的專有文件格式。網(wǎng)購商品的下單轉(zhuǎn)化率數(shù)據(jù)文件CSV格式CSV是一種通用的、相對(duì)簡(jiǎn)單的文件格式,被用戶、商業(yè)和科學(xué)廣泛應(yīng)用。CSV文件可以用記事本等文本編輯軟件打開,也可以使用excel軟件打開。CSV泛指具有以下特征的任何文件:純文本,使用某個(gè)字符集,比如ASCII、Unicode、EBCDIC或GB2312;由記錄組成(典型的是每行一條記錄);每條記錄被分隔符分隔為字段(典型分隔符有逗號(hào)、分號(hào)或制表符);每條記錄都有同樣的字段序列。網(wǎng)購商品的下單轉(zhuǎn)化率11.1.4數(shù)據(jù)文件數(shù)據(jù)文件CSV格式網(wǎng)購商品的下單轉(zhuǎn)化率記事本打開csv文件在Excel中打開csv文件11.1.4數(shù)據(jù)文件數(shù)據(jù)文件JSON格式JSON是一種與開發(fā)語言無關(guān)的、輕量級(jí)的數(shù)據(jù)存儲(chǔ)格式,全稱JavaScriptObjectNotation。起初來源于JavaScript這門語言。由于易于閱讀、編寫、程序解析與生產(chǎn),成為一種數(shù)據(jù)格式的標(biāo)準(zhǔn)規(guī)范,被廣泛使用。JSON格式文件的規(guī)定如下映射采取<鍵>:<值>的鍵值對(duì)的形式,鍵為要表示的列名,值為該列所對(duì)應(yīng)的值。例如1951年表示為“year”:1951。映射的集合用大括號(hào)("{}")表示。每行記錄的各列存放在一個(gè)大括號(hào)中。并列的數(shù)據(jù)之間用逗號(hào)(",")分隔。例如,一行記錄的各列用逗號(hào)分隔,各個(gè)集合之間用逗號(hào)分隔。并列數(shù)據(jù)的集合(數(shù)列)用方括號(hào)("[]")表示。11.1.4數(shù)據(jù)文件數(shù)據(jù)文件11.1.4數(shù)據(jù)文件JSON格式表示天氣的json格式數(shù)據(jù)數(shù)據(jù)文件11.1.4數(shù)據(jù)文件XML格式XML是一種可擴(kuò)展的標(biāo)記語言,脫胎于HTML文件的一種數(shù)據(jù)存儲(chǔ)的語言。XML格式文件的規(guī)定如下(1)XML聲明是XML文檔的第一句,其格式如下:<?xmlversion="1.0"encoding="utf-8"?>(2)XML文檔必須有一個(gè)根元素,就是緊接著聲明后面建立的第一個(gè)元素,其他元素都是這個(gè)根元素的子元素,根元素完全包括文檔中其他所有的元素。根元素的起始標(biāo)記要放在所有其他元素的起始標(biāo)記之前;根元素的結(jié)束標(biāo)記要放在所有其他元素的結(jié)束標(biāo)記之后。(3)在XML中,標(biāo)記存放在尖括號(hào)中,所有標(biāo)記必須成對(duì)出現(xiàn)。例如開始標(biāo)記為<year>,結(jié)束標(biāo)記為</year>。數(shù)據(jù)存放在開始標(biāo)記和結(jié)束標(biāo)記之間。<year>1951</year>表示1951年。(4)在XML文檔中,大小寫是有區(qū)別的?!癆”和“a”是不同的標(biāo)記。注意在寫元素時(shí),前后標(biāo)記的大小寫要保持一致。數(shù)據(jù)文件11.1.4數(shù)據(jù)文件XML格式表示天氣的XML格式數(shù)據(jù)

數(shù)據(jù)庫11.2PART數(shù)據(jù)庫系統(tǒng)組成數(shù)據(jù)庫系統(tǒng)(DatabaseSystem,DBS)是指引入數(shù)據(jù)庫技術(shù)的計(jì)算機(jī)系統(tǒng),它實(shí)現(xiàn)了有組織地、動(dòng)態(tài)地存儲(chǔ)大量相關(guān)數(shù)據(jù),提供了數(shù)據(jù)處理和信息資源共享的便利手段。數(shù)據(jù)庫系統(tǒng)組成數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成硬件系統(tǒng)硬件系統(tǒng)主要指計(jì)算機(jī)硬件設(shè)備,包括CPU、內(nèi)存、外存、輸入/輸出設(shè)備等。由于要運(yùn)行操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)的核心程序和應(yīng)用程序,要求計(jì)算機(jī)有足夠大的內(nèi)存;同時(shí),由于數(shù)據(jù)庫、系統(tǒng)軟件和應(yīng)用軟件都保存在外存中,對(duì)計(jì)算機(jī)的外存容量的要求也很高。此外,對(duì)于網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng),還需要有網(wǎng)絡(luò)通信設(shè)備的支持。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成數(shù)據(jù)庫集合(Database,DB)數(shù)據(jù)庫可直觀地理解為數(shù)據(jù)的倉庫。數(shù)據(jù)庫是指存儲(chǔ)在計(jì)算機(jī)外存中、結(jié)構(gòu)化的相關(guān)數(shù)據(jù)的集合。它不僅包含了描述事物本身的數(shù)據(jù),還包含了相關(guān)數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)庫以文件的形式存儲(chǔ)在外存中,用戶通過數(shù)據(jù)庫管理系統(tǒng)來統(tǒng)一管理和控制數(shù)據(jù)。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成數(shù)據(jù)庫管理系統(tǒng)(DatabaseManagementSystem,DBMS)數(shù)據(jù)庫管理系統(tǒng)是對(duì)數(shù)據(jù)實(shí)行專門管理的系統(tǒng)軟件,是數(shù)據(jù)庫系統(tǒng)的核心。它在操作系統(tǒng)的基礎(chǔ)上運(yùn)行,方便用戶建立、使用和維護(hù)數(shù)據(jù)庫,提供數(shù)據(jù)的安全性和完整性等統(tǒng)一控制機(jī)制。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成數(shù)據(jù)庫管理系統(tǒng)功能數(shù)據(jù)定義DBMS提供數(shù)據(jù)定義語言DDL(DataDefinitionLanguage),負(fù)責(zé)數(shù)據(jù)庫對(duì)象的建立、修改和刪除等。數(shù)據(jù)操縱

DBMS提供數(shù)據(jù)操縱語言DML(DataManipulationLanguage),實(shí)現(xiàn)數(shù)據(jù)的基本操作,例如,對(duì)表中數(shù)據(jù)的查詢、插入、刪除和修改。數(shù)據(jù)控制包括安全性控制、完整性控制和并發(fā)性控制等。數(shù)據(jù)庫維護(hù)包括數(shù)據(jù)庫的備份和恢復(fù),數(shù)據(jù)庫的轉(zhuǎn)換、數(shù)據(jù)庫的性能監(jiān)視和優(yōu)化等。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成相關(guān)軟件除了數(shù)據(jù)庫管理系統(tǒng),數(shù)據(jù)庫系統(tǒng)還必須有相關(guān)軟件的支持,包括操作系統(tǒng)、數(shù)據(jù)庫開發(fā)工具、數(shù)據(jù)庫應(yīng)用系統(tǒng)等。操作系統(tǒng)數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成相關(guān)軟件除了數(shù)據(jù)庫管理系統(tǒng),數(shù)據(jù)庫系統(tǒng)還必須有相關(guān)軟件的支持,包括操作系統(tǒng)、數(shù)據(jù)庫開發(fā)工具、數(shù)據(jù)庫應(yīng)用系統(tǒng)等。數(shù)據(jù)庫應(yīng)用系統(tǒng),是指開發(fā)人員結(jié)合各領(lǐng)域的具體需求,利用數(shù)據(jù)庫系統(tǒng)資源,使用開發(fā)工具所開發(fā)的給一般用戶使用的應(yīng)用軟件,如圖書管理系統(tǒng)、學(xué)籍管理系統(tǒng)、商品進(jìn)銷存系統(tǒng)等。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成相關(guān)軟件數(shù)據(jù)庫開發(fā)工具是指開發(fā)人員編寫數(shù)據(jù)庫應(yīng)用系統(tǒng)所使用的軟件平臺(tái),可分為兩類:一類是基于客戶機(jī)/服務(wù)器模式(C/S)的開發(fā)工具,如VisualBasic、VisualC++、Delphi等,一類是基于瀏覽器/服務(wù)器模式(B/S)的開發(fā)工具,如ASP、JSP、PHP等。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成相關(guān)軟件C/S模式數(shù)據(jù)庫系統(tǒng)在服務(wù)器結(jié)點(diǎn)存放數(shù)據(jù)及執(zhí)行DBMS功能,客戶機(jī)安裝應(yīng)用系統(tǒng)??蛻舳说挠脩粽?qǐng)求被傳送到服務(wù)器,服務(wù)器進(jìn)行處理后,將處理結(jié)果返回給用戶。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成相關(guān)軟件B/S模式數(shù)據(jù)庫系統(tǒng)客戶端僅安裝瀏覽器軟件,用戶通過URL向Web服務(wù)器發(fā)出請(qǐng)求,Web服務(wù)器運(yùn)行腳本程序,向數(shù)據(jù)庫服務(wù)器發(fā)出數(shù)據(jù)請(qǐng)求。數(shù)據(jù)庫服務(wù)器執(zhí)行處理后,將結(jié)果返回給Web服務(wù)器。Web服務(wù)器根據(jù)結(jié)果產(chǎn)生網(wǎng)頁文件,客戶端接收到網(wǎng)頁文件后,在瀏覽器中顯示出來。數(shù)據(jù)庫系統(tǒng)組成11.2.1數(shù)據(jù)庫系統(tǒng)組成各類人員數(shù)據(jù)庫系統(tǒng)中還包括設(shè)計(jì)、建立、管理、使用數(shù)據(jù)庫的各類人員。數(shù)據(jù)庫管理員(DatabaseAdministrator,DBA)。數(shù)據(jù)庫管理員是負(fù)責(zé)全面管理和實(shí)施數(shù)據(jù)庫控制和維護(hù)的技術(shù)人員,他要參與數(shù)據(jù)庫的規(guī)劃、設(shè)計(jì)和建立,負(fù)責(zé)數(shù)據(jù)庫管理系統(tǒng)的安裝和升級(jí);規(guī)劃和實(shí)施對(duì)數(shù)據(jù)庫的備份和還原;規(guī)劃和實(shí)施數(shù)據(jù)庫的安全性,控制和監(jiān)視用戶對(duì)數(shù)據(jù)庫的存取訪問;監(jiān)督和記錄數(shù)據(jù)庫的操作狀況,進(jìn)行性能分析,實(shí)施系統(tǒng)優(yōu)化。開發(fā)人員。開發(fā)人員負(fù)責(zé)應(yīng)用系統(tǒng)的需求分析,設(shè)計(jì)應(yīng)用系統(tǒng)的功能,使用開發(fā)工具實(shí)現(xiàn)應(yīng)用系統(tǒng)功能。最終用戶。最終用戶只需通過運(yùn)行數(shù)據(jù)庫應(yīng)用系統(tǒng)來處理數(shù)據(jù),不需要了解數(shù)據(jù)庫的設(shè)計(jì)、維護(hù)和管理等問題。數(shù)據(jù)庫管理員應(yīng)用系統(tǒng)開發(fā)人員最終用戶數(shù)據(jù)庫系統(tǒng)組成例A學(xué)校委托B軟件公司開發(fā)一個(gè)學(xué)籍管理系統(tǒng)來管理學(xué)生的成績(jī),需要解決以下問題。

問題解決方法問題1如何存儲(chǔ)數(shù)據(jù)在數(shù)據(jù)庫管理系統(tǒng)mysql中建立數(shù)據(jù)庫文件xj問題2如何編寫應(yīng)用程序使用python語言編寫用戶界面程序問題3需要哪些人員軟件公司的C軟件工程師負(fù)責(zé)數(shù)據(jù)庫的設(shè)計(jì)、應(yīng)用程序的編寫教務(wù)處的D同志協(xié)助參入數(shù)據(jù)庫的設(shè)計(jì)、建立及后期的維護(hù)。學(xué)籍管理系統(tǒng)建立后,由教務(wù)人員、教師、學(xué)生使用。數(shù)據(jù)庫系統(tǒng)組成例數(shù)據(jù)庫管理系統(tǒng)mysql數(shù)據(jù)庫集合xj數(shù)據(jù)庫文件數(shù)據(jù)庫開發(fā)工具Python語言應(yīng)用程序某學(xué)校學(xué)籍管理系統(tǒng)數(shù)據(jù)庫管理員教務(wù)處的D同志開發(fā)人員軟件公司的C軟件工程師最終用戶教務(wù)人員教師

學(xué)生例關(guān)系型數(shù)據(jù)庫現(xiàn)實(shí)世界信息世界數(shù)據(jù)世界建立概念模型建立數(shù)據(jù)模型關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型現(xiàn)實(shí)世界中事物及聯(lián)系在人們頭腦中的反映,經(jīng)過人們頭腦的分析、歸納、抽象,形成信息世界。對(duì)信息世界所建立的抽象的模型,稱之為概念模型。由于概念模型是用戶與數(shù)據(jù)庫設(shè)計(jì)人員之間進(jìn)行交流的語言,因此概念模型一方面應(yīng)該能夠方便、直接地表達(dá)應(yīng)用中的各種語義知識(shí),另一方面它還應(yīng)該簡(jiǎn)單、清晰,易于用戶理解。目前常用實(shí)體聯(lián)系模型表示概念模型。關(guān)系型數(shù)據(jù)庫某校有多名學(xué)生,開設(shè)多門課程;一名學(xué)生可學(xué)習(xí)多門課程;一門課程可有多名學(xué)生學(xué)習(xí);設(shè)計(jì)一個(gè)學(xué)生選課系統(tǒng),對(duì)學(xué)生選課進(jìn)行管理學(xué)生信息包括:學(xué)號(hào)、姓名、性別、籍貫等課程信息包括:課程號(hào)、課程名稱、學(xué)時(shí)等學(xué)生修課的成績(jī)例關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型實(shí)體實(shí)體是客觀存在并且可相互區(qū)別的事物。它可以是實(shí)際的事物,如讀者、圖書、學(xué)生、教師、課程等;也可以是抽象的事件,如借書、選課、訂貨等活動(dòng)。實(shí)體屬性實(shí)體的特性稱為屬性,一個(gè)實(shí)體可以用多個(gè)屬性來描述。例如,學(xué)生實(shí)體可以用學(xué)號(hào)、姓名、出生日期、性別等屬性來描述。課程實(shí)體可以用課程編號(hào)、課程名稱、開課學(xué)院、學(xué)分、是否必修課、學(xué)時(shí)、簡(jiǎn)介信息等屬性來描述。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型實(shí)體型和實(shí)體集用實(shí)體名及其屬性集合描述的同類實(shí)體,稱為實(shí)體型。例如,學(xué)生(學(xué)號(hào)、姓名、出生日期、性別、籍貫、政治面貌、興趣愛好)就是一個(gè)實(shí)體型。課程(課程編號(hào)、課程名稱、開課學(xué)院、學(xué)分、是否必修課、學(xué)時(shí)、簡(jiǎn)介)也是一個(gè)實(shí)體型。同類型實(shí)體的集合稱為實(shí)體集。例如,所有的學(xué)生構(gòu)成一個(gè)實(shí)體集。在學(xué)生實(shí)體集中,“P201221120101王剛1994-07-26男”表示一位具體的學(xué)生。所有的課程也構(gòu)成一個(gè)實(shí)體集。在課程實(shí)體集中,“0101高等數(shù)學(xué)數(shù)學(xué)院6196所有專業(yè)數(shù)學(xué)基礎(chǔ)課”表示一個(gè)具體的課程。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型實(shí)體間的聯(lián)系實(shí)體間的聯(lián)系就是指實(shí)體集與實(shí)體集之間的聯(lián)系。實(shí)體間的聯(lián)系分為一對(duì)一、一對(duì)多和多對(duì)多3種。一對(duì)一聯(lián)系

有實(shí)體集A和實(shí)體集B,若實(shí)體集A中的每個(gè)實(shí)體僅與實(shí)體集B中的一個(gè)實(shí)體聯(lián)系,反之亦然,則兩個(gè)實(shí)體間為一對(duì)一聯(lián)系,記為1:1。例如,班級(jí)和班長(zhǎng)是兩個(gè)實(shí)體集,一個(gè)班級(jí)只能有一個(gè)班長(zhǎng),而一個(gè)班長(zhǎng)只能在一個(gè)班級(jí)任職,則班級(jí)和班長(zhǎng)之間為一對(duì)一的聯(lián)系。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型實(shí)體間的聯(lián)系一對(duì)多聯(lián)系設(shè)有實(shí)體集A和實(shí)體集B,若對(duì)于實(shí)體集A中的每個(gè)實(shí)體,實(shí)體集B都有多個(gè)實(shí)體與之對(duì)應(yīng);反之,對(duì)于實(shí)體集B中的每個(gè)實(shí)體,實(shí)體集A中只有一個(gè)實(shí)體與之對(duì)應(yīng),則兩個(gè)實(shí)體間為一對(duì)多聯(lián)系,記為1:n。例如,班級(jí)和學(xué)生是兩個(gè)實(shí)體集,一個(gè)班級(jí)有多名學(xué)生,而一個(gè)學(xué)生只能屬于一個(gè)班級(jí),則班級(jí)和學(xué)生之間為一對(duì)多的聯(lián)系。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型實(shí)體間的聯(lián)系多對(duì)多聯(lián)系設(shè)有實(shí)體集A和實(shí)體集B,若對(duì)于實(shí)體集A中的每個(gè)實(shí)體,實(shí)體集B都有多個(gè)實(shí)體與之對(duì)應(yīng);反之,對(duì)于實(shí)體集B中的每個(gè)實(shí)體,實(shí)體集A中也有多個(gè)實(shí)體與之對(duì)應(yīng),則兩個(gè)實(shí)體間為多對(duì)多聯(lián)系,記為m:n。例如,學(xué)生和課程兩個(gè)實(shí)體集,一個(gè)學(xué)生可以學(xué)習(xí)多門課程,而一門課程也可以被多位學(xué)生學(xué)習(xí),則學(xué)生和課程之間為多對(duì)多的聯(lián)系。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型E-R圖實(shí)體-聯(lián)系模型使用E-R圖(Entity-RelationshipDiagram)來描述概念模型。在E-R圖中,用矩形表示實(shí)體型,用橢圓表示實(shí)體的屬性,用菱形表示實(shí)體型之間的聯(lián)系,相應(yīng)的實(shí)體名、屬性名、聯(lián)系名寫明在對(duì)應(yīng)的框內(nèi),用無向邊將各種框連接起來,并在連接實(shí)體型的線段上標(biāo)上聯(lián)系的類型。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫概念模型E-R圖關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫數(shù)據(jù)模型建立概念模型之后,為了將其轉(zhuǎn)換為計(jì)算機(jī)能夠管理的數(shù)據(jù),需要按計(jì)算機(jī)系統(tǒng)的觀點(diǎn)對(duì)數(shù)據(jù)建模。數(shù)據(jù)模型直接面向數(shù)據(jù)庫中數(shù)據(jù)的邏輯結(jié)構(gòu),有一組嚴(yán)格的語法和語義語言,可以用來定義、操縱數(shù)據(jù)庫中的數(shù)據(jù)。它所描述的內(nèi)容包括三個(gè)部分:數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作和數(shù)據(jù)完整性約束條件。數(shù)據(jù)結(jié)構(gòu)是指儲(chǔ)存在數(shù)據(jù)庫中對(duì)象類型的集合,描述數(shù)據(jù)庫組成對(duì)象以及對(duì)象之間的聯(lián)系。數(shù)據(jù)操作是指對(duì)數(shù)據(jù)庫中各種對(duì)象實(shí)例允許執(zhí)行的操作的集合,包括操作及其相關(guān)的操作規(guī)則。數(shù)據(jù)完整性約束條件是指在給定的數(shù)據(jù)模型中,數(shù)據(jù)及其聯(lián)系所遵守的一組通用的完整性規(guī)則,它能保證數(shù)據(jù)的正確性和一致性。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫數(shù)據(jù)模型任何一個(gè)數(shù)據(jù)庫管理系統(tǒng)都是基于某種數(shù)據(jù)模型的。20世紀(jì)70年代至80年代初期,廣泛使用的是基于層次、網(wǎng)狀數(shù)據(jù)模型的數(shù)據(jù)庫管理系統(tǒng)。層次模型以樹狀結(jié)構(gòu)表示實(shí)體與實(shí)體之間的聯(lián)系,網(wǎng)狀模型是以網(wǎng)狀結(jié)構(gòu)表示實(shí)體與實(shí)體之間的聯(lián)系?,F(xiàn)在,關(guān)系模型是使用最普遍的數(shù)據(jù)模型,它以二維表的形式表示實(shí)體與實(shí)體之間的聯(lián)系。關(guān)系模型以關(guān)系代數(shù)為基礎(chǔ),操作的對(duì)象和結(jié)果都是二維表,也就是關(guān)系。目前流行的數(shù)據(jù)庫管理系統(tǒng)Oracle、SQLServer、MySQL等都是關(guān)系數(shù)據(jù)庫管理系統(tǒng)。在關(guān)系模型中,基本數(shù)據(jù)結(jié)構(gòu)就是二維表。實(shí)體與實(shí)體之間聯(lián)系用二維表來表示,數(shù)據(jù)被看成二維表中的元素。操作的對(duì)象和結(jié)果都是二維表。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫關(guān)系術(shù)語關(guān)系:一個(gè)關(guān)系就是一張二維表,每個(gè)關(guān)系有個(gè)關(guān)系名。對(duì)關(guān)系的描述稱為關(guān)系模式,其格式為關(guān)系名(屬性1,屬性2,……,屬性n)。在mysql中,一個(gè)關(guān)系存儲(chǔ)為一個(gè)數(shù)據(jù)表文件。關(guān)系模式對(duì)應(yīng)于數(shù)據(jù)表的結(jié)構(gòu),其格式為表名(字段名1,字段名2,字段名3,……,字段名n)。student(studentid、name、birthday、sex),就是“student”關(guān)系的關(guān)系模式,即“student”表的結(jié)構(gòu)。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫關(guān)系術(shù)語元組二維表的一行稱為關(guān)系的一個(gè)元組,即數(shù)據(jù)表中的一條記錄。屬性二維表的一列稱為關(guān)系的一個(gè)屬性,即數(shù)據(jù)表中的一個(gè)字段。元組(記錄)屬性(字段)關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫關(guān)系術(shù)語域?qū)傩缘娜≈捣秶Q為域,即不同元組對(duì)同一個(gè)屬性的取值所限定的范圍。例如,在“student”關(guān)系中,name屬性的域是文字字符,birthday屬性的域是日期。在“score”關(guān)系中,score屬性的域是0-100的數(shù)值。關(guān)鍵字能唯一標(biāo)識(shí)元組的屬性或?qū)傩缘慕M合稱為關(guān)鍵字。在數(shù)據(jù)表中,能標(biāo)識(shí)記錄唯一性的字段或字段的組合,稱為主關(guān)鍵字或候選關(guān)鍵字。例如,在“student”關(guān)系中,每一位學(xué)生的studentid是唯一的,故“studentid”可作為student表的關(guān)鍵字。而兩位學(xué)生的姓名可能相同,所以“name”就不能作為student表的關(guān)鍵字。外部關(guān)鍵字如果關(guān)系中的某個(gè)屬性不是本關(guān)系的關(guān)鍵字,而是另一關(guān)系的關(guān)鍵字,這個(gè)屬性就稱為外部關(guān)鍵字。關(guān)系型數(shù)據(jù)庫11.2.2關(guān)系型數(shù)據(jù)庫關(guān)系的特點(diǎn)在關(guān)系模型中,每個(gè)關(guān)系模式必須滿足一定的條件,具備以下特點(diǎn)。關(guān)系必須規(guī)范化。最基本的要求是每個(gè)屬性必須是不可分割的數(shù)據(jù)單元,即每個(gè)屬性不能再細(xì)分為幾個(gè)屬性。在一個(gè)關(guān)系中,不能出現(xiàn)相同的屬性名。在關(guān)系模型中,同一個(gè)數(shù)據(jù)表中不能出現(xiàn)同名的字段。在一個(gè)關(guān)系中,不能出現(xiàn)完全相同的元組。關(guān)系中元組的次序無關(guān)緊要,即任意交換兩行的位置不影響數(shù)據(jù)的實(shí)際含義。關(guān)系中屬性的次序無關(guān)緊要,即任意交換兩列的位置不影響數(shù)據(jù)的實(shí)際含義。數(shù)據(jù)庫設(shè)計(jì)了解用戶需求確定數(shù)據(jù)庫中所需的表確定數(shù)據(jù)表的結(jié)構(gòu)確定表的主關(guān)鍵字確定表之間的關(guān)系11.2.3數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)需求分析需求分析是開發(fā)數(shù)據(jù)庫應(yīng)用系統(tǒng)的第一個(gè)且最重要的步驟。我們常說需求分析是否精準(zhǔn)往往決定了一個(gè)應(yīng)用系統(tǒng)的成敗。在此階段,開發(fā)人員要與應(yīng)用系統(tǒng)的使用者進(jìn)行交流,搜集人工操作報(bào)表,了解現(xiàn)行工作的處理過程,從而決定該系統(tǒng)輸入數(shù)據(jù)的格式,應(yīng)該解決的問題,需要獲得的統(tǒng)計(jì)分析信息和報(bào)表的種類。數(shù)據(jù)庫設(shè)計(jì)教務(wù)管理系統(tǒng)為例,該系統(tǒng)的需求分析如下。某大學(xué)需開發(fā)教務(wù)管理系統(tǒng),該系統(tǒng)要求有以下功能。對(duì)于班級(jí)、學(xué)生、課程、教師信息,都要有新增、刪除、修改、查詢的功能。每個(gè)學(xué)年初,教學(xué)秘書新增錄取的班級(jí),將新錄取的學(xué)生信息從高考系統(tǒng)中導(dǎo)入。每個(gè)學(xué)期初,教學(xué)秘書按班級(jí)將同學(xué)的選課情況加入到選課庫。每個(gè)學(xué)期末,教師將本學(xué)期學(xué)生的成績(jī)錄入。學(xué)生可查詢自己的成績(jī)。教務(wù)人員需要根據(jù)各種條件查詢、修改成績(jī)。例數(shù)據(jù)庫設(shè)計(jì)例數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)確定數(shù)據(jù)表若將所有的數(shù)據(jù)項(xiàng)放在一個(gè)數(shù)據(jù)表中,就會(huì)產(chǎn)生數(shù)據(jù)冗余。數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)確定數(shù)據(jù)表教務(wù)系統(tǒng)需要有以下數(shù)據(jù)項(xiàng):班級(jí)、學(xué)號(hào)、學(xué)生姓名、課程編號(hào)、課程名稱、學(xué)分、是否必修課、學(xué)時(shí)、課程簡(jiǎn)介、教師編號(hào)、教師姓名、成績(jī)、學(xué)期信息。學(xué)籍管理系統(tǒng)還需要有學(xué)生性別、籍貫、學(xué)生政治面貌、興趣、簡(jiǎn)歷、家庭住址、手機(jī)、照片信息。教師人事管理系統(tǒng)需要有教師性別、職稱、學(xué)歷、教師出生日期、教師所屬學(xué)院、基本工資、手機(jī)等信息。數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)確定數(shù)據(jù)表在設(shè)計(jì)數(shù)據(jù)庫時(shí),應(yīng)將數(shù)據(jù)項(xiàng)劃分為多個(gè)表,每個(gè)數(shù)據(jù)表只包含一個(gè)主題的信息。此系統(tǒng)應(yīng)劃分為班級(jí)、學(xué)生、課程、教師和選課5個(gè)數(shù)據(jù)表,每個(gè)班級(jí)對(duì)應(yīng)班級(jí)表的一條記錄,每位學(xué)生對(duì)應(yīng)學(xué)生表的一條記錄,每門課程對(duì)應(yīng)于課程表的一條記錄,每位教師對(duì)應(yīng)教師表的一條記錄,每次選課對(duì)應(yīng)選課表的一條記錄。數(shù)據(jù)表名稱功能說明student學(xué)生表course課程表teacher教師表score成績(jī)表數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)表結(jié)構(gòu)對(duì)于每一個(gè)數(shù)據(jù)表,要設(shè)計(jì)表結(jié)構(gòu),即數(shù)據(jù)表包括哪些字段、各字段的名稱、數(shù)據(jù)類型、字段寬度等信息。定義字段名稱通常,用戶定義的字段名稱與該字段所存儲(chǔ)的數(shù)據(jù)項(xiàng)有關(guān),如姓名、xm、name均可作為描述姓名的字段名。在同一個(gè)表中,各個(gè)字段的名稱絕對(duì)不能重復(fù)。定義字段數(shù)據(jù)類型字段的數(shù)據(jù)類型決定了該字段所儲(chǔ)存數(shù)據(jù)的特性。例如,字段值能否進(jìn)行算術(shù)運(yùn)算,所能容納數(shù)值的數(shù)據(jù)范圍大小,精確度的高低等。數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)表結(jié)構(gòu)分類備注和說明數(shù)據(jù)類型說明文本數(shù)據(jù)類型字符數(shù)據(jù)包括任意字母、符號(hào)或數(shù)字字符的組合char固定長(zhǎng)度的字符數(shù)據(jù)varchar可變長(zhǎng)度的數(shù)據(jù)text存儲(chǔ)長(zhǎng)文本信息日期和時(shí)間日期和時(shí)間在單引號(hào)內(nèi)輸入time時(shí)間date日期datetime日期和時(shí)間數(shù)值型數(shù)據(jù)該數(shù)據(jù)僅包含數(shù)字,包括正數(shù)、負(fù)數(shù)以及浮點(diǎn)數(shù)tinyintsmallintint整數(shù)floatdouble浮點(diǎn)數(shù)通常用于財(cái)務(wù)數(shù)據(jù)decimal定點(diǎn)數(shù)枚舉型固定選項(xiàng)的數(shù)據(jù)enum

數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)表結(jié)構(gòu)提示:沒有數(shù)量含義的字符編碼,例如電話號(hào)碼、qq號(hào)碼,設(shè)置為字符。一些表示邏輯判斷的字段,例如課程是否必修,圖書是否歸還,商品是否推薦等,可使用長(zhǎng)度為1的tinyint。一些很長(zhǎng)的文本,例如帖子的內(nèi)容,課程的簡(jiǎn)介,使用text類型。數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)表結(jié)構(gòu)字段的寬度和小數(shù)位數(shù)字段的寬度指字段中所能容納的最大數(shù)據(jù)量。對(duì)于字符型字段,字段寬度是指其所能輸入的文本長(zhǎng)度。對(duì)于整數(shù)型字段,字段寬度指其顯示的最大位數(shù)。對(duì)于浮點(diǎn)型和定點(diǎn)型字段,字段寬度指的是全部數(shù)位(包括小數(shù)點(diǎn)后面的和符號(hào)位),例如DECIMAL(4,1)指的是全部位數(shù)為4,小數(shù)點(diǎn)后1位。有些數(shù)據(jù)類型的寬度是固定的,例如日期和時(shí)間。數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)表結(jié)構(gòu)數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)表結(jié)構(gòu)確定表的主關(guān)鍵字在關(guān)系型數(shù)據(jù)庫中,每個(gè)數(shù)據(jù)表必須有一個(gè)主關(guān)鍵字來唯一標(biāo)識(shí)每一條記錄。在有一些數(shù)據(jù)表中,用一個(gè)字段的值能夠唯一標(biāo)識(shí)記錄。例如,班級(jí)編碼字段能標(biāo)識(shí)班級(jí)的唯一性,學(xué)號(hào)字段能標(biāo)識(shí)學(xué)生的唯一性,課程編號(hào)字段能標(biāo)識(shí)課程的唯一性,教師編號(hào)字段能標(biāo)識(shí)教師的唯一性,是表的主關(guān)鍵字。而有些數(shù)據(jù)表,須將多個(gè)字段的組合作為主關(guān)鍵字。例如,在成績(jī)表中,由于一位同學(xué)每學(xué)期對(duì)一門課程只能選一次,可將學(xué)期、學(xué)號(hào)和課程編號(hào)的組合作為主關(guān)鍵字。數(shù)據(jù)庫設(shè)計(jì)11.2.3數(shù)據(jù)庫設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)表結(jié)構(gòu)確定表之間的關(guān)系用戶在進(jìn)行數(shù)據(jù)處理或查詢時(shí),需要用到的數(shù)據(jù)項(xiàng)可能存放在不同的數(shù)據(jù)表中。例如,進(jìn)行選課處理時(shí),需要用到課程的課程名稱、學(xué)生的姓名、教師的姓名、成績(jī)等來自不同數(shù)據(jù)表的字段,此時(shí),需要根據(jù)表之間的關(guān)聯(lián)將各個(gè)表的信息聯(lián)系在一起。在該數(shù)據(jù)庫中,課程表和選課表通過公共字段“課程編號(hào)”存在一對(duì)多的關(guān)聯(lián),選課表和學(xué)生表通過公共字段“學(xué)號(hào)”存在一對(duì)多的關(guān)聯(lián),教師表和選課表通過公共字段“教師編號(hào)”存在一對(duì)多的關(guān)聯(lián),班級(jí)表的班級(jí)編號(hào)和學(xué)生表的學(xué)號(hào)前10位存在一對(duì)多的關(guān)聯(lián)。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作MySQL概述MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫管理系統(tǒng),開發(fā)者為瑞典MySQLAB公司,目前屬于Oracle旗下公司。MySQL軟件安全、跨平臺(tái)、高效,并與PHP、Java等主流編程語言緊密結(jié)合。對(duì)于一般的個(gè)人使用者和中小型企業(yè)來說,MySQL提供的功能綽綽有余。在WEB應(yīng)用方面,MySQL是最好的關(guān)系數(shù)據(jù)庫管理系統(tǒng)之一。MySQL軟件的下載地址可百度搜索,其中MySQLCommunityServer是開源免費(fèi)的社區(qū)版本。人們通常將Linux作為操作系統(tǒng),Apache作為Web服務(wù)器,MySQL作為數(shù)據(jù)庫,PHP/Perl/Python作為服務(wù)器端腳本解釋器。由于這四個(gè)軟件都是開源軟件,因此可以免費(fèi)建立起一個(gè)穩(wěn)定、免費(fèi)的網(wǎng)站。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作SQL語言1974年,IBM公司的Boyce和Chamberlin將關(guān)系數(shù)據(jù)庫的12條準(zhǔn)則的數(shù)學(xué)定義以簡(jiǎn)單的關(guān)鍵字語法表現(xiàn)出來,里程碑式地提出了SQL。1979年,IBM公司研制的關(guān)系數(shù)據(jù)庫管理系統(tǒng)SystemR中實(shí)現(xiàn)了這種語言。由于SQL的眾多優(yōu)點(diǎn),各數(shù)據(jù)庫廠家紛紛推出包含SQL的數(shù)據(jù)庫管理軟件。經(jīng)過多年的發(fā)展,SQL已成為關(guān)系數(shù)據(jù)庫的標(biāo)準(zhǔn)語言。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作SQL語言SQL語言特點(diǎn)綜合統(tǒng)一SQL集數(shù)據(jù)定義、數(shù)據(jù)操縱、數(shù)據(jù)查詢、數(shù)據(jù)控制的功能于一體,語言風(fēng)格統(tǒng)一,可以獨(dú)立完成數(shù)據(jù)庫生命周期中的全部活動(dòng)。數(shù)據(jù)定義用于對(duì)基本表、視圖及索引文件的定義、修改、刪除等操作。數(shù)據(jù)操縱用于對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行插入、刪除、修改等數(shù)據(jù)維護(hù)操作。數(shù)據(jù)查詢用于對(duì)數(shù)據(jù)進(jìn)行查詢、統(tǒng)計(jì)、分組、排序等操作。數(shù)據(jù)控制用于實(shí)現(xiàn)對(duì)基本表和視圖的授權(quán)、事務(wù)控制等操作高度非過程化用戶只需用SQL語句描述“做什么”,而不必指明“怎么做”。系統(tǒng)會(huì)根據(jù)SQL語句自動(dòng)完成操作。用戶不必了解數(shù)據(jù)的存儲(chǔ)格式、存取路徑和SQL命令的內(nèi)部執(zhí)行過程,大大減輕了用戶的負(fù)擔(dān),有利于提高數(shù)據(jù)獨(dú)立性。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作SQL語言SQL語言特點(diǎn)語言簡(jiǎn)潔,易學(xué)易用雖然SQL功能很強(qiáng),但完成核心功能只用了下列9條命令。數(shù)據(jù)定義:CREATE,DROP,ALTER。數(shù)據(jù)操縱:INSERT,UPDATE,DELETE。數(shù)據(jù)查詢:SELECT。數(shù)據(jù)控制:GRANT,REVOKE。另外,SQL語法簡(jiǎn)單,接近于英語,容易學(xué)習(xí)。兩種使用方式SQL既能以交互式命令方式執(zhí)行,也能嵌入到高級(jí)語言的程序中使用。在兩種不同的使用方式下,SQL的語法結(jié)構(gòu)基本一致。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作編寫應(yīng)用程序操作數(shù)據(jù)庫對(duì)于數(shù)據(jù)庫系統(tǒng)的最終用戶來說,需要有一個(gè)友好的界面來使用數(shù)據(jù)庫。程序員需要使用開發(fā)語言,例如php、java、python等編寫應(yīng)用程序,使最終用戶可以輕松方便地來使用數(shù)據(jù)庫。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作編寫應(yīng)用程序操作數(shù)據(jù)庫編寫一個(gè)python程序,在接收學(xué)生姓名后,將該學(xué)生在數(shù)據(jù)庫中各個(gè)學(xué)期的課程名稱、學(xué)分、成績(jī)顯示出來,并計(jì)算其獲得的總學(xué)分和總分、平均分。例11.3數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作編寫應(yīng)用程序操作數(shù)據(jù)庫數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.4數(shù)據(jù)庫和數(shù)據(jù)表的基本操作編寫應(yīng)用程序操作數(shù)據(jù)庫importpymysqlx=input("姓名")mysql_conn=pymysql.connect(host='',port=3306,user='root',db='jw')mycursor=mysql_conn.cursor()sql="SELECTsession,coursename,credit,scoreFROMstudentjoinscoreonstudent.studentid=score.studentidjoincourseoncourse.courseid=score.courseidWHEREname='{0}'".format(x)mycursor.execute(sql)select_result=mycursor.fetchall()fs=0xf=0forresult_oneinselect_result:print("學(xué)期{}科目{}學(xué)分{}成績(jī){}".format(result_one[0],result_one[1],result_one[2],result_one[3]))fs=fs+result_one[3]ifresult_one[3]>=60:xf=xf+result_one[2]print("總分{}平均分{:.2f}獲得學(xué)分{}".format(fs,fs/len(select_result),xf))例11.3數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.5人工智能賦能的數(shù)據(jù)庫系統(tǒng)隨著數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)數(shù)據(jù)庫系統(tǒng)面臨挑戰(zhàn)。AI技術(shù)推動(dòng)數(shù)據(jù)庫向智能化轉(zhuǎn)型。技術(shù)架構(gòu)??智能存儲(chǔ)層:使用AI進(jìn)行數(shù)據(jù)分區(qū)與壓縮,優(yōu)化存儲(chǔ)布局。??智能計(jì)算層:利用深度強(qiáng)化學(xué)習(xí)擴(kuò)展查詢引擎,選擇最優(yōu)執(zhí)行路徑。??智能管理平臺(tái):包含自愈系統(tǒng)和安全防護(hù)模塊,監(jiān)控健康狀態(tài)并識(shí)別攻擊行為。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.5人工智能賦能的數(shù)據(jù)庫系統(tǒng)核心功能??性能調(diào)優(yōu)智能化:通過貝葉斯優(yōu)化或遺傳算法動(dòng)態(tài)調(diào)整系統(tǒng)參數(shù)。?自然語言交互(NLQ):用戶以自然語言描述需求,系統(tǒng)自動(dòng)生成SQL語句。?數(shù)據(jù)治理增強(qiáng):包括元數(shù)據(jù)智能標(biāo)注和隱私合規(guī)性檢查。?預(yù)測(cè)性分析:結(jié)合歷史數(shù)據(jù)構(gòu)建時(shí)間序列模型,支持業(yè)務(wù)趨勢(shì)預(yù)判。數(shù)據(jù)庫和數(shù)據(jù)表基本操作11.2.5人工智能賦能的數(shù)據(jù)庫系統(tǒng)典型應(yīng)用場(chǎng)景?金融風(fēng)控:實(shí)時(shí)分析交易流水,識(shí)別洗錢團(tuán)伙關(guān)聯(lián)。?醫(yī)療健康:集成電子病歷、影像數(shù)據(jù)輔助診斷,縮短醫(yī)生決策時(shí)間。?智能制造:預(yù)測(cè)設(shè)備故障并優(yōu)化生產(chǎn)排程。?智慧城市:實(shí)時(shí)處理傳感器數(shù)據(jù)優(yōu)化交通信號(hào)控制策略。

大數(shù)據(jù)簡(jiǎn)介11.3PART大數(shù)據(jù)的產(chǎn)生11.3.1大數(shù)據(jù)的產(chǎn)生21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商、微博)、物聯(lián)網(wǎng)(傳感器、智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。國(guó)際數(shù)據(jù)公司IDC統(tǒng)計(jì)顯示,預(yù)計(jì)到2025年,全球數(shù)據(jù)量將達(dá)到163ZB(ZB,即十萬億億字節(jié)),中國(guó)的數(shù)據(jù)產(chǎn)生量約占全球數(shù)據(jù)產(chǎn)生量的23%。隨著信息技術(shù)的發(fā)展和數(shù)據(jù)量的迅速增長(zhǎng),傳統(tǒng)數(shù)據(jù)庫在有些方面已經(jīng)不能滿足人們的需求,由此衍生出大數(shù)據(jù)這一概念。大數(shù)據(jù)的產(chǎn)生11.3.1大數(shù)據(jù)的產(chǎn)生大數(shù)據(jù)又稱為巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料等,是指無法在一定時(shí)間范圍內(nèi)通過人工或計(jì)算機(jī)進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫有許多區(qū)別:首先,從數(shù)據(jù)規(guī)模和類型來看,傳統(tǒng)數(shù)據(jù)庫通常是以MB為單位,且數(shù)據(jù)種類單一;而大數(shù)據(jù)的數(shù)據(jù)單位很大,通常以GB、TB、PB甚至EB、ZB為單位,且數(shù)據(jù)種類繁多。其次,從模式和數(shù)據(jù)關(guān)系來看,傳統(tǒng)數(shù)據(jù)庫是先有模式再產(chǎn)生數(shù)據(jù)的;而大數(shù)據(jù)很難預(yù)先確定模式,甚至有些時(shí)候模式是會(huì)隨著數(shù)據(jù)量的增加而改變的。最后,從處理對(duì)象上來看,傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)僅僅作為處理對(duì)象,而大數(shù)據(jù)將數(shù)據(jù)作為一種資源來幫助分析其他領(lǐng)域的諸多問題。大數(shù)據(jù)的產(chǎn)生11.3.1大數(shù)據(jù)的產(chǎn)生在2003年至2006年,谷歌工程師先后公開發(fā)表了源于谷歌的“三駕馬車”核心技術(shù)的學(xué)術(shù)論文:谷歌文件系統(tǒng)、MapReduce和BigTable,引起了巨大反響,吸引了眾多互聯(lián)網(wǎng)公司的注意。在各大互聯(lián)網(wǎng)公司的技術(shù)推動(dòng)下,最終誕生了Hadoop系統(tǒng),并在2008年6月處于相對(duì)穩(wěn)定的狀態(tài)。2011年5月,在以“云計(jì)算相遇大數(shù)據(jù)”為主題的EMCWorld2011會(huì)議中,EMC拋出了BigData這一概念。大數(shù)據(jù)的特點(diǎn)11.3.2大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)具有5V特性,即大量(Volume)、高速(Velocity)、多樣(Variety)、價(jià)值密度低(Value)、真實(shí)性(Veracity)大數(shù)據(jù)的特點(diǎn)11.3.2大數(shù)據(jù)的特點(diǎn)Volume

主要體現(xiàn)在數(shù)據(jù)存儲(chǔ)量大和數(shù)據(jù)增量大。數(shù)據(jù)規(guī)模龐大是大數(shù)據(jù)最主要的特性,而隨著云計(jì)算等技術(shù)的發(fā)展,數(shù)據(jù)量也不斷在增長(zhǎng),數(shù)據(jù)量已從GB、TB再到PB字節(jié),甚至已經(jīng)開始以EB和ZB字節(jié)來計(jì)量。例如,雅虎每個(gè)月會(huì)處理超過17.5億條查詢,為此雅虎運(yùn)行著40000多臺(tái)服務(wù)器,它們被分散成19個(gè)集群,存儲(chǔ)總量大約為600PB。沃爾瑪每天需要處理來自1000多家商店的超過40pb的交易數(shù)據(jù)?;谶@些數(shù)據(jù)的分析,可以制定產(chǎn)品需求,對(duì)每周的2.5億名客戶的需求進(jìn)行預(yù)測(cè)。Velocity

高速性指的是數(shù)據(jù)的產(chǎn)生和處理速度快。數(shù)據(jù)可以通過社交媒體、定位系統(tǒng)等應(yīng)用快速大量地產(chǎn)生。同時(shí)數(shù)據(jù)的處理速度也應(yīng)加快,只有快速適時(shí)處理才可以更加有效地利用得到的數(shù)據(jù),我們可以用TB/s或PB/s來衡量這一速度。如果只是單一的網(wǎng)絡(luò)連接無法達(dá)到這種速度,數(shù)據(jù)可同時(shí)通過多個(gè)連接傳來。大數(shù)據(jù)的特點(diǎn)11.3.2大數(shù)據(jù)的特點(diǎn)Variety

多樣化主要體現(xiàn)在格式多和來源多兩個(gè)方面。大數(shù)據(jù)產(chǎn)生的數(shù)據(jù)類型繁多,其中包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),甚至包括非完整和錯(cuò)誤數(shù)據(jù)。這是因?yàn)閿?shù)據(jù)的來源多種多樣,例如網(wǎng)頁日志、電子郵件、傳感器、智能手機(jī)等。數(shù)據(jù)的形式多樣,包括文本、圖像、視頻、數(shù)字和音頻。Value

價(jià)值密度低是指,雖然數(shù)據(jù)量龐大但其中具有利用價(jià)值的信息并不多。需要通過特定的技術(shù)進(jìn)行處理和進(jìn)一步挖掘,提取最有用的信息來加以利用。Veracity

大數(shù)據(jù)中可能包含未知數(shù)量的不準(zhǔn)確數(shù)據(jù)。它們對(duì)分析和決策的準(zhǔn)確性產(chǎn)生副作用??梢酝ㄟ^一些大數(shù)據(jù)技術(shù),在保證數(shù)據(jù)真實(shí)性的同時(shí)提高數(shù)據(jù)的質(zhì)量,使數(shù)據(jù)能夠更好地為人們所用。大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述數(shù)據(jù)獲取數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)集成數(shù)據(jù)分析挖掘大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述數(shù)據(jù)獲取大數(shù)據(jù)的來源多種多樣,可以來自物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、各類傳感器等。同時(shí)數(shù)據(jù)的方式也是多種多樣的,可以是數(shù)字、文字、聲音、圖片、視頻等。中國(guó)工程院李德毅院士認(rèn)為:大數(shù)據(jù)的主要來源有三方面:機(jī)器產(chǎn)生的數(shù)據(jù)、生命和生物的大數(shù)據(jù)和社交大數(shù)據(jù)。機(jī)器產(chǎn)生的數(shù)據(jù)主要通過各類傳感器來采集。生命和生物的大數(shù)據(jù)主要來自研究基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等生物學(xué)數(shù)據(jù)。社交大數(shù)據(jù)主要來源于人類社會(huì)活動(dòng),而互聯(lián)網(wǎng)通常為其載體。大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述數(shù)據(jù)獲取大數(shù)據(jù)的采集方法,主要包括以下三種:(1)系統(tǒng)日志采集許多公司的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù)。日志收集系統(tǒng)要做的事情就是收集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用,高可用性、高可靠性、可擴(kuò)展性是日志收集系統(tǒng)所具有的基本特征。(2)網(wǎng)絡(luò)數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API

等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件。它支持圖片、音頻、視頻等文件的采集,且附件與正文可自動(dòng)關(guān)聯(lián)。(3)數(shù)據(jù)庫采集一些企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle

等來存儲(chǔ)數(shù)據(jù)。除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。這種方法通常在采集端部署大量數(shù)據(jù)庫,并對(duì)如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片進(jìn)行深入的思考和設(shè)計(jì)。對(duì)于不同來源的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML樹、關(guān)系表、Web頁面等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。對(duì)多個(gè)異構(gòu)的數(shù)據(jù)集,需要做進(jìn)一步集成處理或整合處理,將來自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成一個(gè)新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述大數(shù)據(jù)存儲(chǔ)與管理傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理以結(jié)構(gòu)化數(shù)據(jù)為主,因此關(guān)系數(shù)據(jù)庫系統(tǒng)(RDBMS)可以滿足各類應(yīng)用需求。大數(shù)據(jù)往往是以半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,結(jié)構(gòu)化數(shù)據(jù)為輔,而且各種大數(shù)據(jù)應(yīng)用通常是對(duì)不同類型的數(shù)據(jù)內(nèi)容檢索、交叉比對(duì)、深度挖掘與綜合分析。近幾年出現(xiàn)了OldSQL、NoSQL與NewSQL并存的局面。大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述大數(shù)據(jù)存儲(chǔ)與管理大數(shù)據(jù)的存儲(chǔ)和管理采用不同的技術(shù)路線,最典型的有三種:第一種是采用MPP(大規(guī)模并行處理)架構(gòu)的新型數(shù)據(jù)庫集群,重點(diǎn)面向行業(yè)大數(shù)據(jù),采用SharedNothing架構(gòu),通過列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計(jì)算模式,完成對(duì)分析類應(yīng)用的支撐,運(yùn)行環(huán)境多為低成本PCServer,具有高性能和高擴(kuò)展性的特點(diǎn),在企業(yè)分析類應(yīng)用領(lǐng)域獲得及其廣泛的應(yīng)用。第二種是基于Hadoop的技術(shù)擴(kuò)展和封裝,圍繞Hadoop衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫較難處理的數(shù)據(jù)和場(chǎng)景。最為典型的應(yīng)用場(chǎng)景就是通過擴(kuò)展和封裝Hadoop來實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐。對(duì)于非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù),處理復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型,Hadoop平臺(tái)更擅長(zhǎng)。第三種是大數(shù)據(jù)一體機(jī),這是一種專門為大數(shù)據(jù)分析處理而設(shè)計(jì)的軟硬件結(jié)合的產(chǎn)品,由一組集成的服務(wù)器、存儲(chǔ)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及為數(shù)據(jù)查詢、數(shù)據(jù)分析而預(yù)先安裝及優(yōu)化的軟件組成,具有良好的穩(wěn)定性和縱向擴(kuò)展性。大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述大數(shù)據(jù)集成一般實(shí)施大數(shù)據(jù)的單位或企業(yè)的計(jì)算環(huán)境總是由上百甚至上千離散并且不斷變化的計(jì)算機(jī)系統(tǒng)組成的,這些系統(tǒng)或自行構(gòu)建,或購買,或通過其他方式獲得。這些系統(tǒng)的數(shù)據(jù)需要集成到一起,用于各種深入的數(shù)據(jù)分析。對(duì)于所有的信息技術(shù)組織來說,如何有效地管理系統(tǒng)之間的數(shù)據(jù)傳輸,并集成所需要的數(shù)據(jù)是需要面對(duì)的主要挑戰(zhàn)之一。有效的大數(shù)據(jù)集成不光要考慮數(shù)據(jù)的體量問題,還要考慮集成的數(shù)據(jù)既包括結(jié)構(gòu)化數(shù)據(jù),也包括郵件、文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。考慮到特別大的數(shù)據(jù)量和不同的數(shù)據(jù)類型,大數(shù)據(jù)集成一般需要將處理過程分布到源數(shù)據(jù)上進(jìn)行并行處理,并僅僅對(duì)結(jié)果進(jìn)行集成。因?yàn)?,如果預(yù)先對(duì)數(shù)據(jù)進(jìn)行合并會(huì)消耗大量的處理時(shí)間和存儲(chǔ)空間。大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述大數(shù)據(jù)集成此外,集成結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)時(shí)需要在兩者之間建立共同的信息聯(lián)系,這些信息可以表示為數(shù)據(jù)庫中的主數(shù)據(jù)或者鍵值,以及非結(jié)構(gòu)化數(shù)據(jù)中的元數(shù)據(jù)標(biāo)簽或者其他內(nèi)嵌內(nèi)容。將數(shù)據(jù)庫中的數(shù)據(jù)(結(jié)構(gòu)化的)與存儲(chǔ)在文檔、電子郵件、網(wǎng)站、社會(huì)化媒體、音頻,以及視頻文件中的數(shù)據(jù)進(jìn)行集成則成為組織的當(dāng)務(wù)之急。將各種不同類型和格式的數(shù)據(jù)進(jìn)行集成通常需要使用到與非結(jié)構(gòu)化的數(shù)據(jù)相關(guān)聯(lián)的鍵或者標(biāo)簽(或者元數(shù)據(jù)),而這些非結(jié)構(gòu)化數(shù)據(jù)通常包含了與客戶、產(chǎn)品、雇員或者其他主數(shù)據(jù)相關(guān)的信息。通過分析包含了文本信息的非結(jié)構(gòu)化數(shù)據(jù),就可以將非結(jié)構(gòu)化數(shù)據(jù)與客戶或者產(chǎn)品相關(guān)聯(lián)。因此,一封電子郵件可能包含對(duì)客戶和產(chǎn)品的引用,這可以通過對(duì)其包含的文本進(jìn)行分析識(shí)別出來,并據(jù)此對(duì)該郵件加上標(biāo)簽。一段視頻可能包含某個(gè)客戶信息,可以通過將其與客戶圖像進(jìn)行匹配,加上標(biāo)簽,進(jìn)而與客戶信息建立關(guān)聯(lián)。對(duì)于集成結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來說,元數(shù)據(jù)和主數(shù)據(jù)是非常重要的概念。存儲(chǔ)在數(shù)據(jù)庫外部的數(shù)據(jù),如文檔、電子郵件、音頻、視頻文件,可以通過客戶、產(chǎn)品、雇員或者其他主數(shù)據(jù)引用進(jìn)行搜索。主數(shù)據(jù)引用作為元數(shù)據(jù)標(biāo)簽附加到非結(jié)構(gòu)化數(shù)據(jù)上,在此基礎(chǔ)上就可以實(shí)現(xiàn)與其他數(shù)據(jù)源和其他類型的數(shù)據(jù)進(jìn)行集成。大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述大數(shù)據(jù)集成大數(shù)據(jù)處理過程概述11.3.3大數(shù)據(jù)處理過程概述大數(shù)據(jù)存儲(chǔ)與管理大數(shù)據(jù)集成通常分為批處理數(shù)據(jù)的集成與實(shí)時(shí)數(shù)據(jù)的集成。(1)批處理數(shù)據(jù)的集成批處理數(shù)據(jù)集成方式對(duì)于需要非常巨大的數(shù)據(jù)量的場(chǎng)合依然是比較合適并且高效的,如數(shù)據(jù)轉(zhuǎn)換以及將數(shù)據(jù)快照裝載到數(shù)據(jù)倉庫等??梢酝ㄟ^系統(tǒng)調(diào)優(yōu),讓這種數(shù)據(jù)接口獲得非??斓奶幚硭俣?,以便盡可能完成大數(shù)據(jù)量的加載。通常將其視為緊耦合的,因?yàn)樾枰谠聪到y(tǒng)和目標(biāo)系統(tǒng)之間就文件的格式達(dá)成一致,并且只有在兩個(gè)系統(tǒng)同時(shí)改變時(shí)才能成功地修改文件格式。為了在變化發(fā)生時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論