版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)技術(shù)及應(yīng)用
BigDataTechnologyandApplicationCONCENTS目錄第1章大數(shù)據(jù)技術(shù)概述第2章大數(shù)據(jù)采集與預(yù)處理第3章大數(shù)據(jù)存儲(chǔ)技術(shù)第4章大數(shù)據(jù)分析挖掘-分類第5章大數(shù)據(jù)分析挖掘-回歸CONCENTS目錄第6章大數(shù)據(jù)分析挖掘-聚類第7章大數(shù)據(jù)分析挖掘-關(guān)聯(lián)規(guī)則第8章大數(shù)據(jù)可視化技術(shù)第9章電信行業(yè)大數(shù)據(jù)應(yīng)用第10章其他行業(yè)大數(shù)據(jù)應(yīng)用cont.第1章大數(shù)據(jù)技術(shù)概述
大數(shù)據(jù)應(yīng)用010203主要內(nèi)容大數(shù)據(jù)技術(shù)
什么是大數(shù)據(jù)01020304大數(shù)據(jù)是指大小超出傳統(tǒng)數(shù)據(jù)庫(kù)工具的獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。—麥肯錫新一代的技術(shù)與架構(gòu)體系,它被設(shè)計(jì)用于在成本可承受的條件下,通過(guò)高速采集、發(fā)現(xiàn)和/或分析等手段,從海量、多樣化的數(shù)據(jù)中提取經(jīng)濟(jì)價(jià)值。—IDC大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。—Gartner大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行獲取、管理和處理的數(shù)據(jù)集?!S基百科什么是大數(shù)據(jù)?1如何理解大數(shù)據(jù)?從數(shù)據(jù)自身特征如何理解大數(shù)據(jù)?從數(shù)據(jù)處理方法
傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不能適應(yīng)大數(shù)據(jù)處理的需求,需要根據(jù)大數(shù)據(jù)的特點(diǎn),對(duì)傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行變革,形成適用于大數(shù)據(jù)發(fā)展的全新體系架構(gòu),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的獲取、存儲(chǔ)、管理和分析。如何理解大數(shù)據(jù)?從人類認(rèn)知方式
大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān):首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本;其次,樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性;最后,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。——ViktorMayer-Sch?nberger大數(shù)據(jù)技術(shù)2數(shù)據(jù)采集系統(tǒng)日志
幾乎所有的數(shù)字設(shè)備在運(yùn)行過(guò)程中,都會(huì)將有關(guān)自身運(yùn)行的信息記錄到日志文件中。日志數(shù)據(jù)包含豐富的信息,具有很高的實(shí)用價(jià)值。網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)
綜合運(yùn)用網(wǎng)絡(luò)爬蟲、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等技術(shù),從互聯(lián)網(wǎng)海量信息中獲取非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)采集傳感器采集
在信息時(shí)代,傳感器已經(jīng)成為人類生產(chǎn)、生活、科研等活動(dòng)中的重要工具,源源不斷地向人類提供宏觀與微觀的各種信息。數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)規(guī)約去除噪聲數(shù)據(jù),合并或清除重復(fù)數(shù)據(jù),糾正或刪除錯(cuò)誤數(shù)據(jù),處理缺失數(shù)據(jù),糾正數(shù)據(jù)中的不一致性。整合來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),存放在統(tǒng)一的數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中,包括模式集成、冗余數(shù)據(jù)集成、數(shù)據(jù)值沖突的檢測(cè)與處理等。對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)化成適合挖掘的形式。在不損害挖掘結(jié)果準(zhǔn)確性的前提下,通過(guò)有效的數(shù)據(jù)采樣和屬性選擇,縮小數(shù)據(jù)集的規(guī)模,提高數(shù)據(jù)挖掘的效率。數(shù)據(jù)存儲(chǔ)與管理分布式文件系統(tǒng)
大數(shù)據(jù)存儲(chǔ)管理中最基礎(chǔ)、最核心的組成部分。目前常用的有Hadoop分布式文件系統(tǒng)(HDFS)、Google分布式文件系統(tǒng)(GFS,已演化成Colossus系統(tǒng))、淘寶文件系統(tǒng)(TFS)等。數(shù)據(jù)存儲(chǔ)與管理分布式數(shù)據(jù)庫(kù)
構(gòu)建于分布式文件系統(tǒng)之上,用于實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)管理和快速查詢。分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)和新型數(shù)據(jù)庫(kù)(NewSQL)。
關(guān)系型數(shù)據(jù)庫(kù)技術(shù)成熟,代表產(chǎn)品有Oracle、SQLServer和MySQL。NoSQL數(shù)據(jù)庫(kù)具有自由靈活的數(shù)據(jù)模型,適宜存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),而且擴(kuò)展方便。NewSQL是一類新型的分布式關(guān)系數(shù)據(jù)庫(kù),融合了NoSQL和傳統(tǒng)數(shù)據(jù)庫(kù)的特點(diǎn)。數(shù)據(jù)分析與挖掘機(jī)器學(xué)習(xí)使計(jì)算機(jī)模擬人類的學(xué)習(xí)行為,從而自動(dòng)發(fā)現(xiàn)和獲取新知識(shí)新技能,并通過(guò)經(jīng)驗(yàn)知識(shí)改善自身的性能。分為監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)和半監(jiān)督式學(xué)習(xí)。統(tǒng)計(jì)分析以概率論為基礎(chǔ),對(duì)大量隨機(jī)數(shù)據(jù)進(jìn)行收集、整理、建模,從而推斷出其中存在的統(tǒng)計(jì)規(guī)律性。數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)展現(xiàn)與可視化科學(xué)可視化
主要面向科學(xué)實(shí)驗(yàn)與工程測(cè)量數(shù)據(jù),利用計(jì)算機(jī)圖形學(xué)和圖像處理等技術(shù),將具有空間幾何特征的數(shù)據(jù)中所蘊(yùn)含的時(shí)空現(xiàn)象和規(guī)律通過(guò)三維、動(dòng)態(tài)模擬等方式表現(xiàn)出來(lái)。信息可視化
主要面向沒(méi)有明顯幾何屬性和空間特征的數(shù)據(jù),綜合運(yùn)用計(jì)算機(jī)圖形學(xué)、視覺(jué)設(shè)計(jì)、人機(jī)交互、心理學(xué)等學(xué)科中的技術(shù)和理論,用可視化的形式展現(xiàn)抽象數(shù)據(jù)中隱藏的特征、關(guān)系和模式等。大數(shù)據(jù)應(yīng)用3政府管理市場(chǎng)監(jiān)管社會(huì)管理政府?dāng)?shù)據(jù)開放與社會(huì)創(chuàng)新工業(yè)領(lǐng)域研發(fā)設(shè)計(jì)環(huán)節(jié)生產(chǎn)制造環(huán)節(jié)市場(chǎng)營(yíng)銷環(huán)節(jié)售后服務(wù)環(huán)節(jié)商業(yè)領(lǐng)域金融行業(yè)零售行業(yè)物流行業(yè)廣告業(yè)……公共服務(wù)電信行業(yè)交通管理
醫(yī)療衛(wèi)生
教育行業(yè)
環(huán)境保護(hù)……習(xí)題1.1什么是大數(shù)據(jù)?它具有哪些顯著特征?1.2簡(jiǎn)述大數(shù)據(jù)處理的一般流程。1.3大數(shù)據(jù)預(yù)處理的目的是什么?主要包括哪些操作?1.4大數(shù)據(jù)分析挖掘有哪些主要方法?1.5與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)的“大”體現(xiàn)在哪些方面?談?wù)勀愕睦斫?。?章大數(shù)據(jù)采集與預(yù)處理
大數(shù)據(jù)預(yù)處理010203主要內(nèi)容大數(shù)據(jù)采集方法大數(shù)據(jù)采集概述
大數(shù)據(jù)采集及處理平臺(tái)04數(shù)據(jù)采集(DataAcQuisition,DAQ)也稱為數(shù)據(jù)獲取或數(shù)據(jù)收集,是指從電子設(shè)備、傳感器以及其他待測(cè)設(shè)備等模擬或者數(shù)字單元中自動(dòng)采集電量或者非電量信號(hào),送到上位機(jī)(多指大型計(jì)算機(jī)系統(tǒng))中進(jìn)行分析、處理的過(guò)程。數(shù)據(jù)的采集與預(yù)處理是對(duì)來(lái)自于不同類型源頭的數(shù)據(jù)進(jìn)行處理的第一步工作,而有效的數(shù)據(jù)采集和轉(zhuǎn)換處理將為后續(xù)的數(shù)據(jù)挖掘和分析奠定良好的基礎(chǔ)。大數(shù)據(jù)采集概述1結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)多存在于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,數(shù)據(jù)結(jié)構(gòu)事先已經(jīng)定義好,非常方便用二維表格形式描述,便于存儲(chǔ)和管理。非結(jié)構(gòu)化數(shù)據(jù)其數(shù)據(jù)結(jié)構(gòu)很難描述,不規(guī)則或者不完整,沒(méi)有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)或者模型,無(wú)法提前預(yù)知。半結(jié)構(gòu)化數(shù)據(jù)可以用一定數(shù)據(jù)結(jié)構(gòu)來(lái)描述,但通常數(shù)據(jù)內(nèi)容與結(jié)構(gòu)混疊在一起,結(jié)構(gòu)變化很大,本質(zhì)上不具有關(guān)系性。數(shù)據(jù)類型01分類型數(shù)據(jù)(CategoricalData)又稱標(biāo)稱數(shù)據(jù),是將數(shù)據(jù)按照類別屬性進(jìn)行分類。區(qū)間型數(shù)據(jù)(IntervalData)具有一定單位的實(shí)際測(cè)量值,直接比較沒(méi)有實(shí)際意義,只有兩兩比較差別才有意義。排序型數(shù)據(jù)(OrdinalData)不僅將數(shù)據(jù)進(jìn)行分類,還對(duì)各類別數(shù)據(jù)進(jìn)行順序排列以對(duì)比優(yōu)劣。比值型數(shù)據(jù)(RatioData)同樣具有實(shí)際單位,但比值型數(shù)據(jù)原點(diǎn)固定。結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)在結(jié)構(gòu)上存在高度的差異性,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)無(wú)法完成對(duì)這些數(shù)據(jù)的存儲(chǔ)和處理,不能直接運(yùn)用SQL語(yǔ)言進(jìn)行查詢,難以被計(jì)算機(jī)理解。非結(jié)構(gòu)化數(shù)據(jù)多出現(xiàn)在企業(yè)數(shù)據(jù)中,如果需要存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,常以二進(jìn)制大型對(duì)象(BinaryLargeObject,BLOB)形式進(jìn)行存儲(chǔ)。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)不能簡(jiǎn)單的用二維表格來(lái)實(shí)現(xiàn)結(jié)構(gòu)描述,必須由自身語(yǔ)義定義的首位標(biāo)識(shí)符來(lái)表達(dá)和約束其關(guān)鍵內(nèi)容,對(duì)記錄和字段進(jìn)行分層,通常需要特殊的預(yù)處理和存儲(chǔ)技術(shù)。半結(jié)構(gòu)化數(shù)據(jù)通常是自描述的結(jié)構(gòu),多以樹或者圖的數(shù)據(jù)模型進(jìn)行存儲(chǔ)。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的區(qū)別類別結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)基本定義可以用固定的數(shù)據(jù)結(jié)構(gòu)來(lái)描述的數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)很難描述的數(shù)據(jù)介于結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)數(shù)據(jù)與結(jié)構(gòu)的關(guān)系先有結(jié)構(gòu),后有數(shù)據(jù)有數(shù)據(jù),無(wú)結(jié)構(gòu)先有數(shù)據(jù),后有結(jié)構(gòu)數(shù)據(jù)模型二維表格(關(guān)系型數(shù)據(jù)庫(kù))無(wú)樹形,圖狀常見(jiàn)來(lái)源各類規(guī)范的數(shù)據(jù)表格圖片、視頻、音頻等HTML文檔、個(gè)人履歷、電子郵件等數(shù)據(jù)來(lái)源02企業(yè)信息管理系統(tǒng)網(wǎng)絡(luò)信息系統(tǒng)物聯(lián)網(wǎng)信息系統(tǒng)科學(xué)研究實(shí)驗(yàn)系統(tǒng)企業(yè)數(shù)據(jù)庫(kù)采集系統(tǒng)將業(yè)務(wù)記錄寫入數(shù)據(jù)庫(kù),通過(guò)與企業(yè)業(yè)務(wù)后臺(tái)服務(wù)器的配合,由特定的處理分析系統(tǒng)完成對(duì)業(yè)務(wù)數(shù)據(jù)的系統(tǒng)分析。指互聯(lián)網(wǎng)絡(luò)平臺(tái)上的各種信息系統(tǒng)、各種POS終端以及網(wǎng)絡(luò)支付系統(tǒng)等,為大量的各類在線用戶提供了信息發(fā)布、社交服務(wù)以及貨幣交易支持。包括各種傳感器設(shè)備及監(jiān)控系統(tǒng),廣泛分布于智能交通、現(xiàn)場(chǎng)指揮、行業(yè)生產(chǎn)調(diào)度等場(chǎng)合。主要是指科學(xué)大數(shù)據(jù),可以來(lái)自于大型實(shí)驗(yàn)室、公眾醫(yī)療系統(tǒng)或者個(gè)人觀察所得到的科學(xué)實(shí)驗(yàn)數(shù)據(jù)以及傳感數(shù)據(jù)。大數(shù)據(jù)采集方法201020304
系統(tǒng)日志采集傳感器采集
網(wǎng)絡(luò)數(shù)據(jù)采集其他采集方法系統(tǒng)日志采集01
通常大型互聯(lián)網(wǎng)公司會(huì)借助已有開源框架構(gòu)建自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志的收集,包括系統(tǒng)日志、應(yīng)用程序日志和安全日志等。Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe,Linkedin的kafka以及阿里的TimeTunnel等多個(gè)開源的海量數(shù)據(jù)采集工具,是目前系統(tǒng)日志采集的行業(yè)典范。網(wǎng)絡(luò)數(shù)據(jù)采集02網(wǎng)絡(luò)爬蟲(Crawler)
網(wǎng)絡(luò)爬蟲根據(jù)一定的搜索策略自動(dòng)抓取萬(wàn)維網(wǎng)程序或者腳本,不斷從當(dāng)前頁(yè)面抽取新的URL放入待爬取隊(duì)列,并從隊(duì)列中選擇待爬取URL,解析該URL的DNS地址,將URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容下載到本地存儲(chǔ)系統(tǒng),并將完成爬取的URL放入已爬取隊(duì)列中,如此循環(huán)往復(fù),直到滿足爬蟲抓取停止條件為止。網(wǎng)絡(luò)數(shù)據(jù)采集02API采集
又稱應(yīng)用程序接口,通常是網(wǎng)站的管理者自行編寫的一種程序接口。該類接口屏蔽了網(wǎng)站復(fù)雜的底層算法,通過(guò)簡(jiǎn)單調(diào)用即可實(shí)現(xiàn)對(duì)網(wǎng)站數(shù)據(jù)的請(qǐng)求功能,從而方便使用者快速獲取網(wǎng)站的部分?jǐn)?shù)據(jù)。傳感器采集03
在對(duì)物聯(lián)網(wǎng)信息進(jìn)行采集的過(guò)程中,除了需要考慮大量分布的數(shù)據(jù)源選取,還要將感知的原始數(shù)據(jù)進(jìn)行統(tǒng)一的數(shù)據(jù)轉(zhuǎn)換,過(guò)濾異常數(shù)據(jù),根據(jù)采集目標(biāo)的存儲(chǔ)要求進(jìn)行規(guī)則映射,才能滿足傳感器數(shù)據(jù)的采集需求。傳感器采集03基于物聯(lián)網(wǎng)的多傳感器采集系統(tǒng)組成:多傳感器數(shù)據(jù)源一般位于傳感器布設(shè)的監(jiān)控現(xiàn)場(chǎng),周期性采集數(shù)據(jù)并定時(shí)輸出。物聯(lián)網(wǎng)網(wǎng)關(guān)解決物聯(lián)網(wǎng)網(wǎng)絡(luò)中不同設(shè)備無(wú)法統(tǒng)一控制和管理的問(wèn)題。數(shù)據(jù)存儲(chǔ)服務(wù)平臺(tái)主要完成傳感器數(shù)據(jù)的接收和存儲(chǔ),并進(jìn)行預(yù)處理工作。用戶應(yīng)用服務(wù)端承載多種不同的終端用戶設(shè)備,完成用戶應(yīng)用與數(shù)據(jù)存儲(chǔ)服務(wù)平臺(tái)的交互。其他采集方法04使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)數(shù)據(jù),再由特定的處理分析系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行后續(xù)的分析,以用來(lái)支持其他的企業(yè)應(yīng)用。對(duì)于保密級(jí)別要求較高的數(shù)據(jù),會(huì)通過(guò)與專用數(shù)據(jù)技術(shù)服務(wù)商的合作來(lái)保護(hù)數(shù)據(jù)的完整性和私密性,借助特定系統(tǒng)接口等相關(guān)方式完成此類數(shù)據(jù)的采集工作。大數(shù)據(jù)預(yù)處理3大數(shù)據(jù)預(yù)處理(BigDataPreprocessing,BDP):對(duì)原始數(shù)據(jù)進(jìn)行必要的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等多項(xiàng)處理工作,從而改進(jìn)原始數(shù)據(jù)的質(zhì)量,滿足后續(xù)的數(shù)據(jù)挖掘算法進(jìn)行知識(shí)獲取的目的,同時(shí)研究應(yīng)具備的最低規(guī)范和標(biāo)準(zhǔn)。數(shù)據(jù)清洗01
數(shù)據(jù)質(zhì)量不完整性含有噪聲不一致性失效性類別單數(shù)據(jù)源模式相關(guān)單數(shù)據(jù)源實(shí)例相關(guān)多數(shù)據(jù)源模式相關(guān)多數(shù)據(jù)源實(shí)例相關(guān)產(chǎn)生原因缺乏合適的數(shù)據(jù)模型和完整性約束條件數(shù)據(jù)輸入錯(cuò)誤不同的數(shù)據(jù)模型和模式設(shè)計(jì)矛盾或不一致的數(shù)據(jù)表現(xiàn)形式唯一值參考完整性...拼寫錯(cuò)誤冗余/重復(fù)前后矛盾的數(shù)據(jù)...命名沖突結(jié)構(gòu)沖突...不一致的聚集層次不一致的時(shí)間點(diǎn)...數(shù)據(jù)質(zhì)量問(wèn)題分類數(shù)據(jù)清洗01
數(shù)據(jù)清洗方法(1)不完整性處理1)刪除缺失值2)填充缺失值使用全局變量值:用常數(shù)、缺省值、最大值或者最小值進(jìn)行替換。統(tǒng)計(jì)填充法:均值(中位數(shù)、眾數(shù))不變法和標(biāo)準(zhǔn)差不變法。預(yù)測(cè)估計(jì)法:線性回歸、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、最近鄰方法、貝葉斯計(jì)算公式或決策樹等。數(shù)據(jù)清洗01
數(shù)據(jù)清洗方法(2)噪聲數(shù)據(jù)處理1)分箱:將有序數(shù)據(jù)分散在一系列“箱子”中,用“箱”表示數(shù)據(jù)的屬性值所處的某個(gè)區(qū)間范圍,考察每個(gè)箱子中相鄰數(shù)據(jù)的值實(shí)現(xiàn)數(shù)據(jù)的平滑。分箱法主要有兩種:等深法和等寬法。等寬法若一組有序數(shù)據(jù)中某屬性的最低取值為A,最高取值為B,分成大小相同的N個(gè)區(qū)間(箱),此時(shí)每個(gè)區(qū)間寬度W=(B-A)/N。舉例:假設(shè)屬性price排序后的數(shù)據(jù)為4,16,19,21,28,32,43,49,64,劃分為等寬度的3箱。此時(shí)每個(gè)箱子的寬度W=(64-4)/3=20。箱1:4,16,19,21箱2:28,32,43箱3:49,64等深法舉例:假設(shè)屬性price排序后的數(shù)據(jù)為4,16,19,21,28,32,43,49,64,劃分為等深度為3的箱子。箱1:4,16,19箱2:21,28,32箱3:43,49,64平滑方法一,按箱平均值平滑:箱1:13,13,13箱2:27,27,27箱3:52,52,52等深法平滑方法二,按箱中值平滑:箱1:16,16,16箱2:28,28,28箱3:49,49,49平滑方法三,按箱邊界值平滑:箱1:4,19,19箱2:21,32,32箱3:43,43,64數(shù)據(jù)清洗01
數(shù)據(jù)清洗方法(2)噪聲數(shù)據(jù)處理2)聚類:按照數(shù)據(jù)的某些屬性來(lái)搜索其共同的數(shù)據(jù)特征,把相似或者比較鄰近的數(shù)據(jù)聚合在一起,形成不同的聚類集合。數(shù)據(jù)清洗01
數(shù)據(jù)清洗方法(2)噪聲數(shù)據(jù)處理3)回歸:構(gòu)造擬合函數(shù)(即建立數(shù)學(xué)模型),利用一個(gè)(或者一組)變量值來(lái)預(yù)測(cè)另一個(gè)變量的取值,根據(jù)實(shí)際值與預(yù)測(cè)值的偏離情況識(shí)別出噪聲數(shù)據(jù),實(shí)現(xiàn)噪聲數(shù)據(jù)的平滑處理。數(shù)據(jù)清洗01
數(shù)據(jù)清洗方法(2)噪聲數(shù)據(jù)處理4)人機(jī)交互檢測(cè)法使用人與計(jì)算機(jī)交互檢查的方法來(lái)幫助發(fā)現(xiàn)噪聲數(shù)據(jù)。當(dāng)規(guī)則集設(shè)計(jì)合理,比較貼近數(shù)據(jù)集合的應(yīng)用領(lǐng)域需求時(shí),這種方法將有助于提高噪聲數(shù)據(jù)篩選的準(zhǔn)確率。數(shù)據(jù)清洗01
數(shù)據(jù)清洗方法(3)不一致性處理通過(guò)數(shù)據(jù)字典、元數(shù)據(jù)或相關(guān)數(shù)據(jù)函數(shù)完成數(shù)據(jù)的整理和修正;對(duì)于重復(fù)或者冗余的數(shù)據(jù),使用字段匹配和組合方法消除多余數(shù)據(jù)。常見(jiàn)匹配算法有基本字段匹配算法、遞歸字段匹配算法、Smith-Waterman算法、基于編輯距離的字段匹配算法和改進(jìn)的余弦相似度函數(shù)等。對(duì)于某些數(shù)據(jù)記錄內(nèi)容不一致的情況,可以利用數(shù)據(jù)自身與外部的聯(lián)系手動(dòng)進(jìn)行修正。數(shù)據(jù)清洗01
數(shù)據(jù)清洗基本步驟數(shù)據(jù)集成02
基本概念將各個(gè)獨(dú)立系統(tǒng)中的不同數(shù)據(jù)源按照一定規(guī)則組織成一個(gè)整體,維護(hù)數(shù)據(jù)源整體上的數(shù)據(jù)一致性,使得用戶能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源。大數(shù)據(jù)集成系統(tǒng)按照不同需求在不同的數(shù)據(jù)源與集成目標(biāo)之間完成數(shù)據(jù)的轉(zhuǎn)換和整合,為用戶提供統(tǒng)一的數(shù)據(jù)源訪問(wèn)接口,執(zhí)行用戶對(duì)數(shù)據(jù)源的訪問(wèn)請(qǐng)求,使用戶能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源。數(shù)據(jù)集成02
需要解決的問(wèn)題(1)異構(gòu)性:系統(tǒng)異構(gòu)性和模式異構(gòu)性。(2)一致性和冗余一致性:判斷來(lái)自不同數(shù)據(jù)源的實(shí)體是否是同一實(shí)體。數(shù)據(jù)集成02
需要解決的問(wèn)題(2)一致性和冗余冗余與重復(fù):某個(gè)屬性(如產(chǎn)品總價(jià)格)可能會(huì)由另一個(gè)屬性或者多個(gè)屬性(產(chǎn)品單價(jià)和產(chǎn)品售出數(shù)量)“導(dǎo)出”。對(duì)于數(shù)據(jù)冗余問(wèn)題,可以利用相關(guān)性分析方法來(lái)進(jìn)行檢測(cè),例如相關(guān)系數(shù)、協(xié)方差或者卡方檢驗(yàn)等,都能反映兩個(gè)屬性之間的相互關(guān)聯(lián)性。數(shù)據(jù)集成02
需要解決的問(wèn)題(3)數(shù)據(jù)的轉(zhuǎn)換(4)數(shù)據(jù)的遷移(5)數(shù)據(jù)的協(xié)調(diào)更新(6)非結(jié)構(gòu)化數(shù)據(jù)與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)集成(7)數(shù)據(jù)集成的分布式處理數(shù)據(jù)平滑數(shù)據(jù)聚集數(shù)據(jù)泛化數(shù)據(jù)規(guī)范化屬性構(gòu)造數(shù)據(jù)變換03數(shù)據(jù)變換03
數(shù)據(jù)平滑數(shù)據(jù)平滑具體包括分箱、回歸和聚類等方法。這些方法也常應(yīng)用于數(shù)據(jù)清洗。數(shù)據(jù)聚集對(duì)數(shù)據(jù)進(jìn)行匯總和聚集操作,將一批細(xì)節(jié)數(shù)據(jù)按照維粒度、指標(biāo)與計(jì)算元的不同進(jìn)行匯總和歸納,完成記錄行壓縮、表聯(lián)合、屬性合并等預(yù)處理過(guò)程,為多維度數(shù)據(jù)構(gòu)造直觀立體圖表或數(shù)據(jù)立方。數(shù)據(jù)變換03數(shù)據(jù)聚集直觀立體圖表:數(shù)據(jù)變換03數(shù)據(jù)聚集數(shù)據(jù)立方:記錄ID科室就診日期醫(yī)師類型就診人數(shù)…………………20132兒科2019-3-5主治醫(yī)師354…20133內(nèi)科2019-3-5主治醫(yī)師423…20134內(nèi)科2019-3-5副主任醫(yī)師276…20135中醫(yī)科2019-3-5主任醫(yī)師195…………………數(shù)據(jù)變換03數(shù)據(jù)聚集數(shù)據(jù)立方:數(shù)據(jù)變換03
數(shù)據(jù)泛化即概念分層,用高一級(jí)的概念來(lái)取代低層次或者“原始”的數(shù)據(jù)。數(shù)據(jù)變換03
數(shù)據(jù)泛化概念分層方法:(1)由用戶或?qū)<以谀J蕉x級(jí)說(shuō)明屬性的部分序或者全序,即自頂向下或自底向上的分層方向。(2)人工補(bǔ)充說(shuō)明分層結(jié)構(gòu)。(3)說(shuō)明屬性分層結(jié)構(gòu)但不指定屬性的序。(4)對(duì)于不完全的分層結(jié)構(gòu),使用預(yù)定義的語(yǔ)義關(guān)系觸發(fā)完整分層結(jié)構(gòu)。數(shù)據(jù)變換03
數(shù)據(jù)規(guī)范化:對(duì)所有屬性數(shù)據(jù)按比例縮放到一個(gè)較小的特定范圍內(nèi),達(dá)到賦予所有屬性相同權(quán)重的目的。適用于已知屬性的取值范圍,對(duì)原始數(shù)據(jù)進(jìn)行線性變換的場(chǎng)合。適用于屬性的最大值和最小值未知,或者孤立點(diǎn)左右了最小-最大規(guī)范化的場(chǎng)合。通過(guò)移動(dòng)屬性A取值的小數(shù)點(diǎn)位置使其規(guī)范化,小數(shù)點(diǎn)移動(dòng)位數(shù)取決于屬性A的最大絕對(duì)值。最小-最大規(guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化數(shù)據(jù)變換03(1)最小-最大規(guī)范化假設(shè)maxA和minA分別為屬性A的最大值和最小值,最小-最大規(guī)范化可以將A的值vi映射為區(qū)間[new_minA,new_maxA]中的vi'。計(jì)算公式為:數(shù)據(jù)變換03(1)最小-最大規(guī)范化例2.1:假設(shè)[300,8000]表示屬性price取值范圍中的最小值和最大值,規(guī)范化后的區(qū)間為[0.0,1.0]。若屬性price的取值為1200和9000,試問(wèn)其在區(qū)間的值為多少?變換后的值為:(1200-300)/(8000-300)(1.0-0.0)+0.0=0.117(9000-300)/(8000-300)(1.0-0.0)+0.0=1.13(越界)數(shù)據(jù)變換03(2)z-score規(guī)范化計(jì)算公式為:式中和分別為屬性A的均值和標(biāo)準(zhǔn)差。均值的計(jì)算公式為:數(shù)據(jù)變換03(2)z-score規(guī)范化例2.2:假設(shè)一超市某貨品日銷售的平均值為45,標(biāo)準(zhǔn)差為13,使用z-score規(guī)范化得到的某日銷售值53變換后的值為:數(shù)據(jù)變換03(3)小數(shù)定標(biāo)規(guī)范化計(jì)算公式為:式中j是滿足的最小整數(shù)。例2.3:假設(shè)屬性A的取值范圍為-340~2870,確定小數(shù)定標(biāo)規(guī)范化系數(shù)j的大小,并將A的取值930規(guī)范化。A的最大絕對(duì)值為2870,因此需要保證j=4,A的取值范圍被規(guī)范為[-0.034,0.287],930被規(guī)范為0.093。數(shù)據(jù)變換03
屬性構(gòu)造又稱特征構(gòu)造或特征提取,基于已有的屬性創(chuàng)造和添加一些新的屬性,并寫入原始數(shù)據(jù)中,目的是幫助發(fā)現(xiàn)可能缺失的屬性間的關(guān)聯(lián)性,提高精度和對(duì)高維數(shù)據(jù)的理解,從而在數(shù)據(jù)挖掘中得到更有效的挖掘結(jié)果。構(gòu)造合適的屬性有助于減少分類算法中學(xué)習(xí)構(gòu)造決策樹時(shí)所出現(xiàn)的碎塊(FragmentationProblem)問(wèn)題。abc
維歸約數(shù)據(jù)壓縮數(shù)值歸約通過(guò)刪除多余和無(wú)關(guān)的屬性(或維),實(shí)現(xiàn)數(shù)據(jù)集中數(shù)據(jù)量壓縮。利用數(shù)據(jù)編碼和數(shù)據(jù)變換方法,得到原始數(shù)據(jù)經(jīng)過(guò)壓縮后的歸約表示。采用替代的、較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量。數(shù)據(jù)歸約04d數(shù)據(jù)離散化與概念分層數(shù)據(jù)歸約04
維歸約使用屬性子集選擇方法(AttributeSubsetSelection),目標(biāo)是找出最小屬性子集,使得新數(shù)據(jù)子集的概率分布與原始屬性集的盡可能保持一致。屬性子集選擇方法使用的壓縮搜索空間的基本啟發(fā)式算法包括逐步向前選擇、逐步向后刪除、向前選擇和向后刪除結(jié)合、決策樹歸納等方法。數(shù)據(jù)歸約04
維歸約(1)逐步向前選擇使用空屬性集作為歸約的屬性子集初始值,每次選擇一個(gè)當(dāng)前最優(yōu)的屬性添加,重復(fù)這一過(guò)程,直到無(wú)法選擇出最優(yōu)屬性或滿足一定的閾值約束條件為止。(2)逐步向后刪除使用整個(gè)屬性集作為歸約的屬性子集初始值,每次選擇一個(gè)當(dāng)前最差的屬性刪除,重復(fù)這一過(guò)程,直到無(wú)法選擇出最差屬性或滿足一定的閾值約束條件為止。數(shù)據(jù)歸約04
維歸約(3)向前選擇和向后刪除結(jié)合每次從原屬性集中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到歸約屬性子集中,以及每次從原屬性集中選擇一個(gè)當(dāng)前最差的屬性刪除,直到無(wú)法選擇出最優(yōu)屬性和最差屬性,或滿足一定的閾值約束條件為止。數(shù)據(jù)歸約04
維歸約(4)決策樹歸納基本思想:利用決策樹算法對(duì)原始屬性集進(jìn)行分類歸納學(xué)習(xí),獲得一個(gè)初始決策樹,其中每一個(gè)內(nèi)部節(jié)點(diǎn)(非樹葉)表示一個(gè)屬性的測(cè)試,每個(gè)分支對(duì)應(yīng)測(cè)試的一個(gè)結(jié)果,每個(gè)外部節(jié)點(diǎn)(樹葉)表示一個(gè)類預(yù)測(cè),由出現(xiàn)在決策樹上的屬性形成歸約后的屬性子集。數(shù)據(jù)歸約04數(shù)據(jù)壓縮(1)離散小波變換DWT小波變換后的數(shù)據(jù)向量,可以截短,從而得到近似的壓縮數(shù)據(jù)(稀疏的小波系數(shù)向量H')。在小波空間可以對(duì)稀疏向量H'實(shí)現(xiàn)較快速的運(yùn)算操作,最后對(duì)處理過(guò)的向量H'進(jìn)行離散小波逆變換,恢復(fù)出原始數(shù)據(jù)的近似集合。數(shù)據(jù)歸約04數(shù)據(jù)壓縮(2)主成分分析PCA基本思想是將多個(gè)相關(guān)變量通過(guò)正交線性變換,轉(zhuǎn)化為一組新的變量。這些新變量被稱為“主成分”,它們是原始變量的線性組合,且彼此之間互不相關(guān)。數(shù)據(jù)歸約04數(shù)據(jù)壓縮(2)主成分分析PCAPCA算法的基本過(guò)程如下:1)首先對(duì)輸入數(shù)據(jù)進(jìn)行規(guī)范化,以確保每個(gè)屬性的數(shù)據(jù)取值都落入相同的數(shù)值區(qū)間。2)計(jì)算協(xié)方差矩陣,求出其特征值及相應(yīng)的正交化單位特征向量(主成分)。3)對(duì)主成分按“重要性”遞減排列,即對(duì)坐標(biāo)軸排序。4)根據(jù)給定的用戶閾值,選擇重要性最高的若干個(gè)主成分,舍棄較弱的主成分(即方差較小的主成分),完成數(shù)據(jù)規(guī)模的約簡(jiǎn)。數(shù)據(jù)歸約04數(shù)值歸約(1)回歸和對(duì)數(shù)線性模型利用模型來(lái)評(píng)估數(shù)據(jù),存儲(chǔ)模型參數(shù)而不是實(shí)際數(shù)據(jù)。線性回歸通過(guò)建模使數(shù)據(jù)擬合到一條直線,可以用線性函數(shù)表示;對(duì)數(shù)線性模型用于估算離散的多維概率分布,同時(shí)還可以進(jìn)行數(shù)據(jù)壓縮和數(shù)據(jù)平滑。數(shù)據(jù)歸約04數(shù)值歸約(2)直方圖直方圖使用分箱(Bin)方法估算數(shù)據(jù)分布,用直方圖形式替換原始數(shù)據(jù)。屬性的直方圖是根據(jù)其數(shù)據(jù)分布劃分為多個(gè)不相交的子集(箱),每個(gè)子集表示屬性的一個(gè)連續(xù)取值區(qū)間,沿水平軸顯示,其高度(或面積)與該子集中的數(shù)據(jù)分布(數(shù)值平均出現(xiàn)概率)成正比。數(shù)據(jù)歸約04數(shù)值歸約(2)直方圖例2.4:某課程的學(xué)生考試成績(jī)分布為:86(3),92(4),74(2),60(5),68(3),78(6)其中前面數(shù)字表示學(xué)生成績(jī),括號(hào)內(nèi)數(shù)字表示該成績(jī)出現(xiàn)的次數(shù)。數(shù)據(jù)歸約04數(shù)值歸約(3)抽樣使用數(shù)據(jù)的較小隨機(jī)樣本(子集)替換大的數(shù)據(jù)集。1)不放回簡(jiǎn)單隨機(jī)抽樣(SRSWOR方法)從N行數(shù)據(jù)中隨機(jī)抽取n行數(shù)據(jù),由這n個(gè)數(shù)據(jù)行構(gòu)成抽樣數(shù)據(jù)子集。一旦某行數(shù)據(jù)被選中,將從原數(shù)據(jù)集中被移除。2)放回簡(jiǎn)單隨機(jī)抽樣(SRSWR方法)從N個(gè)數(shù)據(jù)行中隨機(jī)抽取n行數(shù)據(jù),但每次選中的數(shù)據(jù)行仍然保留在原數(shù)據(jù)集,因此在抽樣數(shù)據(jù)子集中會(huì)出現(xiàn)重復(fù)的數(shù)據(jù)行。數(shù)據(jù)歸約04數(shù)值歸約(3)抽樣3)分層抽樣將數(shù)據(jù)集H劃分為M個(gè)不相交的“層”,每層內(nèi)分別進(jìn)行隨機(jī)抽取,最終得到具有代表性的抽樣數(shù)據(jù)子集。數(shù)據(jù)歸約04數(shù)值歸約(4)聚類將數(shù)據(jù)元組劃分成組或者類,同一組或者類中的元組比較相似,不同組或者類中的元組彼此不相似,用數(shù)據(jù)的聚類替換原始數(shù)據(jù)。相似性是聚類分析的基礎(chǔ),可以用距離來(lái)衡量數(shù)據(jù)之間的相似程度。常用的距離形式包括歐氏距離(EuclideanDistance)、切比雪夫距離(Chebyshev)、曼哈頓距離(ManhattanDistance)、閔可夫斯基距離(MinkowskiDistance)、杰卡德距離(JaccardDistance)等。數(shù)據(jù)歸約04數(shù)據(jù)離散化與概念分層數(shù)據(jù)離散化技術(shù)可以將屬性范圍劃分成多個(gè)區(qū)間,用少量區(qū)間標(biāo)記替換區(qū)間內(nèi)的屬性數(shù)據(jù),從而減少屬性值的數(shù)量。概念分層通過(guò)對(duì)數(shù)值屬性數(shù)據(jù)分布的統(tǒng)計(jì)分析自動(dòng)構(gòu)造概念分層,完成高層概念替換低層概念過(guò)程,實(shí)現(xiàn)該屬性的離散化和數(shù)據(jù)的歸約。分箱、直方圖分析、聚類分析、基于熵的離散化和通過(guò)“自然劃分”的數(shù)據(jù)分段均屬于數(shù)值屬性的概念分層生成方法。大數(shù)據(jù)采集及處理平臺(tái)3數(shù)據(jù)采集工具應(yīng)具備以下三個(gè)特征:(1)低延遲(2)可擴(kuò)展性(3)容錯(cuò)性Flume01Flume由Cloudera公司設(shè)計(jì)開發(fā),主要用于合并企業(yè)日志數(shù)據(jù),后歸屬于Apache,最新版本為1.9.0。Flume包含源(Source)、通道(Channel)和接收器(Sink)三個(gè)核心組件,組件之間采用事件(Event)傳輸數(shù)據(jù)流。Flume01(1)Source作為Flume的輸入點(diǎn),負(fù)責(zé)將數(shù)據(jù)捕獲后進(jìn)行格式化,接著封裝到事件里并送入一個(gè)或多個(gè)通道中。(2)Channel作為連接組件,用于緩存Source已經(jīng)接收到而尚未成功寫入Sink的中間數(shù)據(jù)(數(shù)據(jù)隊(duì)列),為流動(dòng)的事件提供中間區(qū)域。(3)Sink負(fù)責(zé)從通道中取出數(shù)據(jù),完成相應(yīng)的文件存儲(chǔ)(日志數(shù)據(jù)較少時(shí))或者放入Hadoop數(shù)據(jù)庫(kù)(日志數(shù)據(jù)較多時(shí)),并發(fā)給最終的目的地或下一個(gè)Agent。Flume01Flume復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)Scribe02Scribe是Facebook開源的實(shí)時(shí)分布式日志收集系統(tǒng),基于Facebook公司的Thrift框架。Scribe采用客戶端/服務(wù)器(Agent/Server)的工作模式。Scribe服務(wù)器由兩部分組成:中央服務(wù)器(CentralScribeServer)和本地服務(wù)器(LocalScribeServer)。Scribe02TimeTunnel03TT是阿里巴巴基于Thrift通訊框架實(shí)現(xiàn)的開源實(shí)時(shí)數(shù)據(jù)傳輸平臺(tái),在阿里巴巴集團(tuán)內(nèi)部廣泛應(yīng)用于日志收集、數(shù)據(jù)監(jiān)控、廣告反饋、量子統(tǒng)計(jì)、數(shù)據(jù)庫(kù)同步等領(lǐng)域。在阿里巴巴大數(shù)據(jù)系統(tǒng)中,TT僅作為數(shù)據(jù)傳輸平臺(tái)來(lái)使用,而不具備數(shù)據(jù)采集的功能。TT基于消息訂閱發(fā)布的工作模式,系統(tǒng)包括Client,Router,Zookeeper,Broker和TTManager五部分。TimeTunnel03(1)Client(客戶端)Client是用戶訪問(wèn)TT系統(tǒng)的一組API接口,為用戶提供消息發(fā)布和訂閱功能,主要包括安全認(rèn)證、發(fā)布和訂閱三類API。TimeTunnel03(2)Router(路由器)Router作為訪問(wèn)TimeTunnel的門戶,主要提供路由服務(wù)、安全認(rèn)證、負(fù)載均衡這三方面功能,同時(shí)管理每個(gè)Broker的工作狀態(tài)。(3)Broker(緩存代理)Broker是整個(gè)TimeTunnel的核心部分,承擔(dān)實(shí)際流量,進(jìn)行消息隊(duì)列的讀寫,完成消息的存儲(chǔ)轉(zhuǎn)發(fā)。TimeTunnel03(4)Zookeeper(分布式服務(wù)架構(gòu))Zookeeper作為Hadoop的開源項(xiàng)目,是TimeTunnel的狀態(tài)同步模塊,存儲(chǔ)Broker和Client的狀態(tài)。(5)TTManager(TT管理器)TTManager管理整個(gè)TimeTunnel平臺(tái),對(duì)外負(fù)責(zé)提供消息隊(duì)列的申請(qǐng)、刪除、查詢以及集群存儲(chǔ)系統(tǒng)的管理接?,對(duì)內(nèi)完成故障檢測(cè),發(fā)起消息隊(duì)列遷移。習(xí)題2.1簡(jiǎn)述大數(shù)據(jù)采集方法的主要分類、特點(diǎn)和適用范圍。2.2目前數(shù)據(jù)采集的來(lái)源主要有哪些?都分別針對(duì)哪些應(yīng)用場(chǎng)合?2.3簡(jiǎn)要描述大數(shù)據(jù)預(yù)處理的基本流程和作用。2.4請(qǐng)說(shuō)明數(shù)據(jù)清洗的基本處理過(guò)程。習(xí)題2.5假定某課程成績(jī)score的數(shù)據(jù)為81,70,92,65,73,61,85,90,60。請(qǐng)利用分箱方法將排序后的數(shù)據(jù)劃分為等深(深度為3)的箱,并分別使用平均值和邊界值進(jìn)行平滑處理。2.6在數(shù)據(jù)變換中,數(shù)據(jù)規(guī)范化方法主要有三類:最小-最大值規(guī)范化、z-score規(guī)范化和小數(shù)定標(biāo)規(guī)范化,請(qǐng)說(shuō)明這三類規(guī)范方法的值域范圍。習(xí)題2.7超市某種商品的日銷售數(shù)量為32,57,68,40,89,73,41,56,94,156,84,250,135,49,280,請(qǐng)用下列方法將數(shù)據(jù)規(guī)范化。(1)使用最小-最大值規(guī)范化,將日銷售數(shù)量94轉(zhuǎn)換到[0.0,1.0]區(qū)間。(2)使用z-score規(guī)范化轉(zhuǎn)換日銷售數(shù)量94,其中標(biāo)準(zhǔn)偏差為15.36。(3)使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換日銷售數(shù)量94。2.8簡(jiǎn)述常見(jiàn)的大數(shù)據(jù)采集及處理平臺(tái)類別和應(yīng)用場(chǎng)合。第3章大數(shù)據(jù)存儲(chǔ)技術(shù)
數(shù)據(jù)庫(kù)010203主要內(nèi)容分布式文件系統(tǒng)
存儲(chǔ)技術(shù)的發(fā)展
數(shù)據(jù)倉(cāng)庫(kù)043.1存儲(chǔ)技術(shù)的發(fā)展數(shù)據(jù)存儲(chǔ)介質(zhì)分為磁帶、磁盤和光盤三大類,由三種介質(zhì)分別構(gòu)成磁帶庫(kù)、磁盤陣列、光盤陣列三種主要存儲(chǔ)設(shè)備,三種存儲(chǔ)介質(zhì)各有特點(diǎn)。磁盤設(shè)備由于存取速度快、數(shù)據(jù)查詢方便、簡(jiǎn)單易用、安全的磁盤陣列技術(shù)等占據(jù)一級(jí)存儲(chǔ)市場(chǎng)的主要份額磁帶設(shè)備以技術(shù)成熟、價(jià)格低廉等優(yōu)勢(shì)占據(jù)了二級(jí)存儲(chǔ)市場(chǎng)的重要地位光盤設(shè)備同時(shí)具有二者特點(diǎn)磁盤陣列(RedundantArraysofIndependentDisks,RAID),它由很多價(jià)格便宜的磁盤組成巨大的磁盤組,利用個(gè)別磁盤提供數(shù)據(jù)所產(chǎn)生加成效果提升整個(gè)磁盤系統(tǒng)效能。3.1.1傳統(tǒng)存儲(chǔ)技術(shù)直連式存儲(chǔ)(DirectAttachedStorage,DAS)是最為常見(jiàn)的存儲(chǔ)形式之一。DAS存儲(chǔ)是通過(guò)服務(wù)器內(nèi)部直接連接磁盤組,或者通過(guò)外接線連接磁盤陣列。這種方式通常需要通過(guò)硬件RAID卡或者軟RAID的方式實(shí)現(xiàn)磁盤的冗余保護(hù),防止由于磁盤故障導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)的不可用而丟失數(shù)據(jù)。3.1.1傳統(tǒng)存儲(chǔ)技術(shù)網(wǎng)絡(luò)儲(chǔ)存設(shè)備(NetworkAttachedStorage,NAS),是通過(guò)以太網(wǎng)方式接入并進(jìn)行訪問(wèn)的存儲(chǔ)形式。DAS存儲(chǔ)是通過(guò)服務(wù)器內(nèi)部直接連接磁盤組,或者通過(guò)外接線連接磁盤陣列。這種方式通常需要通過(guò)硬件RAID卡或者軟RAID的方式實(shí)現(xiàn)磁盤的冗余保護(hù),防止由于磁盤故障導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)的不可用而丟失數(shù)據(jù)。NAS存儲(chǔ)設(shè)備可以直接連接在以太網(wǎng)中,之后在該網(wǎng)絡(luò)域內(nèi)具有不同類型操作系統(tǒng)的主機(jī)都可以實(shí)現(xiàn)對(duì)該設(shè)備的訪問(wèn)。使用者可以通過(guò)某種方式(例如linux下的mount命令)將存儲(chǔ)服務(wù)掛載到本地進(jìn)行訪問(wèn),在本地呈現(xiàn)的就是一個(gè)文件目錄樹。我們所熟悉的NFS(NetworkFileSystem)其實(shí)就是一種NAS存儲(chǔ)形式,NFS服務(wù)器就是NAS存儲(chǔ)設(shè)備。我們可以通過(guò)開源軟件搭建該種類型的存儲(chǔ)設(shè)備,當(dāng)然市面上也有很多成熟的產(chǎn)品。分布式存儲(chǔ)架構(gòu)由三個(gè)部分組成:客戶端、元數(shù)據(jù)服務(wù)器和數(shù)據(jù)服務(wù)器。客戶端負(fù)責(zé)發(fā)送讀寫請(qǐng)求,緩存文件元數(shù)據(jù)和文件數(shù)據(jù)。元數(shù)據(jù)服務(wù)器負(fù)責(zé)管理元數(shù)據(jù)和處理客戶端的請(qǐng)求,是整個(gè)系統(tǒng)的核心組件。數(shù)據(jù)服務(wù)器負(fù)責(zé)存放文件數(shù)據(jù),保證數(shù)據(jù)的可用性和完整性。3.1.2分布式存儲(chǔ)HadoopDistributedFileSystem,簡(jiǎn)稱HDFS,是Hadoop架構(gòu)下的一個(gè)分布式文件系統(tǒng)。HDFS是Hadoop的一個(gè)核心模塊,有著高容錯(cuò)性、高吞吐量等優(yōu)點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上,能夠提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。3.1.2分布式存儲(chǔ)3.2.1HDFS相關(guān)概念1.塊(block)所有文件都是以塊的形式存儲(chǔ)在磁盤中,文件系統(tǒng)每次只能操作磁盤塊大小的整數(shù)倍數(shù)據(jù),HDFS中一般默認(rèn)塊大小為64MB。2.元數(shù)據(jù)元數(shù)據(jù)信息包括名稱空間、文件到文件塊的映射、文件塊到數(shù)據(jù)節(jié)點(diǎn)的映射三個(gè)部分。3.名稱節(jié)點(diǎn)(NameNode)NameNode是HDFS系統(tǒng)中的管理者,負(fù)責(zé)管理文件系統(tǒng)的命名空間,記錄了每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息,維護(hù)文件系統(tǒng)的文件樹及所有的文件和目錄的元數(shù)據(jù)。這些信息以兩種數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)在本地文件系統(tǒng)中,即FsImage和EditLog。3.2.1HDFS相關(guān)概念4.輔助名稱節(jié)點(diǎn)(SecondaryNameNode)是NameNode發(fā)生故障時(shí)的備用節(jié)點(diǎn),主要功能是進(jìn)行數(shù)據(jù)恢復(fù),它的職責(zé)是合并NameNode的EditLog到FsImage文件中。SecondaryNameNode工作原理3.2.1HDFS相關(guān)概念5.數(shù)據(jù)節(jié)點(diǎn)(DataNode)DataNode根據(jù)需要存儲(chǔ)并檢索數(shù)據(jù)塊,受客戶端或NameNode調(diào)度,并定期向NameNode發(fā)送它們所存儲(chǔ)的塊的列表。同時(shí),它會(huì)通過(guò)心跳定時(shí)向NameNode發(fā)送所存儲(chǔ)的文件塊信息。3.2.2HDFS體系結(jié)構(gòu)HDFS采用了主從(Master/Slave)結(jié)構(gòu)模式,一個(gè)HDFS集群包括一個(gè)名稱節(jié)點(diǎn)和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)??蛻舳丝梢灾С执蜷_、讀取、寫入等常見(jiàn)操作,通常通過(guò)一個(gè)可配置的端口向名稱節(jié)點(diǎn)主動(dòng)發(fā)起TCP連接,并使用客戶端協(xié)議與名稱節(jié)點(diǎn)進(jìn)行交互,客戶端與數(shù)據(jù)節(jié)點(diǎn)的交互通過(guò)RPC實(shí)現(xiàn)。
HDFS架構(gòu)圖3.2.3HDFS存儲(chǔ)原理為了保證系統(tǒng)的容錯(cuò)性和可用性,HDFS采用了多副本方式對(duì)數(shù)據(jù)進(jìn)行冗余存儲(chǔ)在大多數(shù)情況下,副本系數(shù)是3,HDFS的存放策略是將一個(gè)副本存放在上傳文件的數(shù)據(jù)節(jié)點(diǎn)上,如果是集群外提交,則隨機(jī)挑選一臺(tái)磁盤不太滿,CPU不太忙的節(jié)點(diǎn)。另一個(gè)副本放在同一機(jī)架的另一個(gè)節(jié)點(diǎn)上,第三個(gè)副本放在不同機(jī)架的節(jié)點(diǎn)上。HDFS數(shù)據(jù)塊多副本存儲(chǔ)策略3.2.4HDFS訪問(wèn)方式FileSystem是一個(gè)通用文件系統(tǒng)的抽象基類,可以被分布式文件系統(tǒng)繼承,所有可能使用Hadoop文件系統(tǒng)的代碼,都要使用這個(gè)類Hadoop為FileSystem這個(gè)抽象類提供了多種具體實(shí)現(xiàn)DistributedFileSystem就是FileSystem在HDFS文件系統(tǒng)中的具體實(shí)現(xiàn)FileSystem的open()方法返回的是一個(gè)輸入流FSDataInputStream對(duì)象,在HDFS文件系統(tǒng)中,具體的輸入流就是DFSInputStream;FileSystem中的create()方法返回的是一個(gè)輸出流FSDataOutputStream對(duì)象,在HDFS文件系統(tǒng)中,具體的輸出流就是DFSOutputStream。Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://localhost:9000");conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystem
fs=FileSystem.get(conf);FSDataInputStreamin=fs.open(newPath(uri));FSDataOutputStreamout=fs.create(newPath(uri));1.讀數(shù)據(jù)的過(guò)程FSDataInputStream封裝了DFSInputStreamFileSystemfs=FileSystem.get(conf);FSDataInputStreamin=fs.open(newPath(uri));Configurationconf=newConfiguration();importorg.apache.hadoop.fs.FileSystem通過(guò)ClientProtocal.getBlockLocations()遠(yuǎn)程調(diào)用名稱節(jié)點(diǎn),獲得文件開始部分?jǐn)?shù)據(jù)塊的位置對(duì)于該數(shù)據(jù)塊,名稱節(jié)點(diǎn)返回保存該數(shù)據(jù)塊的所有數(shù)據(jù)節(jié)點(diǎn)的地址并根據(jù)距離客戶端遠(yuǎn)近進(jìn)行排序客戶端獲得輸入流FSDataInputStream以后調(diào)用read()函數(shù)開始讀取數(shù)據(jù)輸入流根據(jù)前面的排序結(jié)果選擇距離客戶端最近的數(shù)據(jù)節(jié)點(diǎn)建立連接并讀取數(shù)據(jù)數(shù)據(jù)從數(shù)據(jù)節(jié)點(diǎn)讀到客戶端,當(dāng)該數(shù)據(jù)塊讀取完畢時(shí)FSDataInputStream關(guān)閉和該數(shù)據(jù)節(jié)點(diǎn)的連接通過(guò)ClientProtocal.getBlockLocations()查找下一個(gè)數(shù)據(jù)塊2.寫數(shù)據(jù)的過(guò)程FileSystemfs=FileSystem.get(conf);FSDataOutputStreamout=fs.create(newPath(uri));Configurationconf=newConfiguration();importorg.apache.hadoop.fs.FileSystemRPC遠(yuǎn)程調(diào)用名稱節(jié)點(diǎn)在文件系統(tǒng)的命名空間中新建一個(gè)文件名稱節(jié)點(diǎn)會(huì)執(zhí)行一些檢查(文件是否存在,客戶端權(quán)限)FSDataOutputStream封裝了DFSOutputStream數(shù)據(jù)被分成一個(gè)個(gè)分包分包被放入DFSOutputStream對(duì)象的內(nèi)部隊(duì)列DFSOutputStream向名稱節(jié)點(diǎn)申請(qǐng)保存數(shù)據(jù)塊的若干數(shù)據(jù)節(jié)點(diǎn)這些數(shù)據(jù)節(jié)點(diǎn)形成一個(gè)數(shù)據(jù)流管道隊(duì)列中的分包最后被打包成數(shù)據(jù)包發(fā)往數(shù)據(jù)流管道中的第一個(gè)數(shù)據(jù)節(jié)點(diǎn)第一個(gè)數(shù)據(jù)節(jié)點(diǎn)將數(shù)據(jù)包發(fā)送到第二個(gè)節(jié)點(diǎn)依此類推,形成“流水線復(fù)制”為了保證節(jié)點(diǎn)數(shù)據(jù)準(zhǔn)確,接收到數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)要向發(fā)送者發(fā)送“確認(rèn)包”確認(rèn)包沿著數(shù)據(jù)流管道逆流而上,經(jīng)過(guò)各個(gè)節(jié)點(diǎn)最終到達(dá)客戶端客戶端收到應(yīng)答時(shí),它將對(duì)應(yīng)的分包從內(nèi)部隊(duì)列移除DFSOutputStream調(diào)用ClientPplete()方法通知名稱節(jié)點(diǎn)關(guān)閉文件3.3數(shù)據(jù)庫(kù)技術(shù)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)面臨的問(wèn)題:1.關(guān)系模型束縛對(duì)海量數(shù)據(jù)的快速訪問(wèn)能力。2.針對(duì)海量數(shù)據(jù),缺乏訪問(wèn)靈活性。3.對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理能力薄弱。4.海量數(shù)據(jù)導(dǎo)致存儲(chǔ)成本、維護(hù)管理成本不斷增加。3.3.2分布式數(shù)據(jù)庫(kù)HBaseHBase是針對(duì)谷歌BigTable的開源實(shí)現(xiàn),是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫(kù),主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù),支持超大規(guī)模數(shù)據(jù)存儲(chǔ),它可以通過(guò)水平擴(kuò)展的方式,利用廉價(jià)計(jì)算機(jī)集群處理由超過(guò)10億行數(shù)據(jù)和數(shù)百萬(wàn)列元素組成的數(shù)據(jù)表。1.HBase數(shù)據(jù)模型HBase實(shí)際上就是一個(gè)稀疏、多維、持久化存儲(chǔ)的映射表,它采用行鍵、列族、列限定符和時(shí)間戳進(jìn)行索引,每個(gè)值是一個(gè)未經(jīng)解釋的字符串,沒(méi)有數(shù)據(jù)類型。HBase使用坐標(biāo)來(lái)定位表中的數(shù)據(jù),需要根據(jù)行鍵、列族、列限定符和時(shí)間戳來(lái)確定一個(gè)單元格,因此可以視為一個(gè)“思維坐標(biāo)”。1.HBase數(shù)據(jù)模型表HBase采用表來(lái)組織數(shù)據(jù),表由行和列組成,列劃分為若干個(gè)列族行行鍵是數(shù)據(jù)行在表中的唯一標(biāo)識(shí),并作為檢索記錄的主鍵列族一個(gè)HBase表被分組成許多“列族”的集合,它是基本的訪問(wèn)控制單元。表中的每個(gè)列都?xì)w屬于某個(gè)列族,數(shù)據(jù)可以被存放到列族的某個(gè)列下面。1.HBase數(shù)據(jù)模型單元格在Hbase表中,通過(guò)行、列族和列確定一個(gè)“單元格”。單元格中存儲(chǔ)的數(shù)據(jù)沒(méi)有數(shù)據(jù)類型,每個(gè)單元格中可以保存一個(gè)數(shù)據(jù)的多個(gè)版本,每個(gè)版本對(duì)應(yīng)一個(gè)不同的時(shí)間戳。每個(gè)單元格都保存著同一份數(shù)據(jù)的多個(gè)版本,這些版本采用時(shí)間戳進(jìn)行索引。1.HBase數(shù)據(jù)模型2.HBase體系結(jié)構(gòu)HBase的實(shí)現(xiàn)需要四個(gè)主要的功能組件:鏈接到每個(gè)客戶端的庫(kù)函數(shù),Zookeeper服務(wù)器,Master主服務(wù)器和Region服務(wù)器圖Hbase體系結(jié)構(gòu)2.HBase體系結(jié)構(gòu)Zookeeper主要實(shí)現(xiàn)集群管理的功能,根據(jù)當(dāng)前集群中每臺(tái)機(jī)器的服務(wù)狀態(tài),調(diào)整分配服務(wù)策略主服務(wù)器Master負(fù)責(zé)管理和維護(hù)HBase表的分區(qū)信息,維護(hù)Region服務(wù)器列表,分配Region,負(fù)載均衡Region服務(wù)器負(fù)責(zé)存儲(chǔ)和維護(hù)分配給自己的Region,處理來(lái)自客戶端的讀寫請(qǐng)求客戶端并不是直接從Master主服務(wù)器上讀取數(shù)據(jù),而是在獲得Region的存儲(chǔ)位置信息后,直接從Region服務(wù)器上讀取數(shù)據(jù)3.表和Region圖一個(gè)HBase表被劃分成多個(gè)Region圖
一個(gè)Region會(huì)分裂成多個(gè)新的Region開始只有一個(gè)Region,后來(lái)不斷分裂。Region拆分操作非??欤咏查g,因?yàn)椴鸱种蟮腞egion讀取的仍然是原存儲(chǔ)文件,直到“合并”過(guò)程把存儲(chǔ)文件異步地寫到獨(dú)立的文件之后,才會(huì)讀取新文件。3.表和Region圖
不同的Region可以分布在不同的Region服務(wù)器上每個(gè)Region默認(rèn)大小是100MB到200MB(2006年以前的硬件配置)每個(gè)Region的最佳大小取決于單臺(tái)服務(wù)器的有效處理能力目前每個(gè)Region最佳大小建議1GB-2GB(2013年以后的硬件配置)同一個(gè)Region不會(huì)被分拆到多個(gè)Region服務(wù)器每個(gè)Region服務(wù)器存儲(chǔ)10-1000個(gè)Region4.HBase數(shù)據(jù)存儲(chǔ)過(guò)程當(dāng)HBase對(duì)外提供服務(wù)時(shí),其內(nèi)部存儲(chǔ)著名為-ROOT-和.META.的特殊目錄表。.META.表的每個(gè)條目包含兩項(xiàng)內(nèi)容,一個(gè)是Region標(biāo)識(shí)符,另一個(gè)是Region服務(wù)器標(biāo)識(shí),這個(gè)條目就表示Region和Region服務(wù)器之間的對(duì)應(yīng)關(guān)系,因此也稱為“元數(shù)據(jù)表”。圖HBase的三層結(jié)構(gòu)3.3.3NoSQL技術(shù)NoSQL是一種不同于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)方式,是對(duì)非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱。典型的NoSQL數(shù)據(jù)庫(kù)通常包括鍵值數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)。鍵值數(shù)據(jù)庫(kù)(Key-ValueDatabase)它的數(shù)據(jù)是以鍵值對(duì)集合的形式存儲(chǔ)在服務(wù)器節(jié)點(diǎn)上,其中鍵作為唯一標(biāo)識(shí)符。列族數(shù)據(jù)庫(kù)(column-orientedDatabase)列存儲(chǔ)是按列對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)的,這種方式對(duì)數(shù)據(jù)的查詢過(guò)程非常有利,與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,可以在查詢效率上有很大的提升。列存儲(chǔ)可以將數(shù)據(jù)存儲(chǔ)在列族中。3.3.3NoSQL技術(shù)文檔數(shù)據(jù)庫(kù)(documentDatabase)是一種專門用來(lái)存儲(chǔ)管理文檔的數(shù)據(jù)庫(kù)模型,面向文檔的數(shù)據(jù)庫(kù)中不存在表、行、列或關(guān)系,而是由一系列自包含的文檔組成的。圖數(shù)據(jù)庫(kù)(GraphDatabase)圖形存儲(chǔ)是將數(shù)據(jù)以圖形的方式進(jìn)行存儲(chǔ)。在構(gòu)造的圖形中,實(shí)體被表示為結(jié)點(diǎn),實(shí)體與實(shí)體之間的關(guān)系則被表示為邊。3.4數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的概念數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的)、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。它不是一件產(chǎn)品,而是一個(gè)系統(tǒng)的工程,負(fù)責(zé)提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),并通過(guò)聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(DM)和快速報(bào)表工具等技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行處理,為決策提供需要的信息。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是為了有效地把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策性數(shù)據(jù)訪問(wèn),并進(jìn)行分析、挖掘的各種技術(shù)和模塊的總稱。3.4.2數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)成3.4.3數(shù)據(jù)倉(cāng)庫(kù)工具HiveHive的工作原理Hive本質(zhì)上相當(dāng)于一個(gè)MapReduce和HDFS的翻譯終端。用戶提交Hive腳本后,Hive運(yùn)行時(shí)環(huán)境會(huì)將這些腳本翻譯成MapReduce和HDFS操作并向集群提交這些操作(1)用戶編寫HiveQL并通過(guò)接口向Hive運(yùn)行環(huán)境提交該HiveQL。(2)HiveServer調(diào)用解析器將該HiveQL翻譯成MapReduce和HDFS操作。(3)Hive運(yùn)行環(huán)境調(diào)用Hadoop命令行接口或程序接口,向Hadoop集群提交HiveQL翻譯后的MapReduce程序,然后由Hadoop集群執(zhí)行MapReduce-App或HDFS-App。Hive工作原理圖Hive的數(shù)據(jù)組織Hive中主要包含四類數(shù)據(jù)模型:表(Table)、外部表(ExternalTable)、分區(qū)(Partition)、和桶(Bucket),數(shù)據(jù)庫(kù)是在HDFS指定目錄下的一個(gè)文件夾。Table:所屬database目錄下一個(gè)文件夾。ExternalTable:與table類似,其數(shù)據(jù)存放位置可以是任意指定的HDFS目錄路徑。Partition:在Hive中,表中的一個(gè)分區(qū)對(duì)應(yīng)表下的一個(gè)目錄,所有分區(qū)的數(shù)據(jù)都存儲(chǔ)在對(duì)應(yīng)的目錄中。Bucket:在HDFS中表現(xiàn)為同一個(gè)表目錄或者分區(qū)目錄下根據(jù)某個(gè)字段的值進(jìn)行哈希(hash)散列之后的多個(gè)文件。Hive在企業(yè)中的部署和應(yīng)用企業(yè)中大數(shù)據(jù)分析平臺(tái)部署框架習(xí)題3.1傳統(tǒng)數(shù)據(jù)存儲(chǔ)有哪幾種模式?請(qǐng)簡(jiǎn)要說(shuō)明。3.2簡(jiǎn)述HDFS中的名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的具體功能。3.3HDFS系統(tǒng)如何保證數(shù)據(jù)的可靠性和容錯(cuò)性?3.4什么是NoSQL非結(jié)構(gòu)化數(shù)據(jù)庫(kù)?它和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)有什么區(qū)別?3.5試述CAP理論的具體含義。3.6HBase數(shù)據(jù)庫(kù)如何定位數(shù)據(jù)存儲(chǔ)具體位置?3.7HBase中的分區(qū)是如何定位的?3.8請(qǐng)闡述在HBase三層結(jié)構(gòu)下,客戶端是如何訪問(wèn)到數(shù)據(jù)的。3.9簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)原理及構(gòu)成。3.10簡(jiǎn)要說(shuō)明數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)。第4章大數(shù)據(jù)分析挖掘—分類
分類算法010203主要內(nèi)容分類分析過(guò)程
分類分析概述
分類結(jié)果評(píng)估04分類分析概述
分類分析用于提取刻畫重要數(shù)據(jù)類的模型,構(gòu)造分類器和模型來(lái)預(yù)測(cè)類標(biāo)簽未知的數(shù)據(jù)記錄。在欺詐檢測(cè)、目標(biāo)營(yíng)銷、醫(yī)療診斷、人臉檢測(cè)、故障診斷和故障預(yù)警等都有廣泛應(yīng)用。
分類(Classification)是一種重要的數(shù)據(jù)分析形式,用于找出一組數(shù)據(jù)對(duì)象的共同特點(diǎn),并按照一定的模式將其劃分為不同的類。分類的目的是分析輸入數(shù)據(jù)的特性,構(gòu)造分類函數(shù)或分類模型,將未知類別的樣本數(shù)據(jù)映射到給定類別中。01分類分析過(guò)程(1)
訓(xùn)練集(TrainingSet),由訓(xùn)練數(shù)據(jù)記錄及與它們相關(guān)聯(lián)的類標(biāo)簽組成。
測(cè)試集(TestSet),由獨(dú)立于訓(xùn)練數(shù)據(jù)的測(cè)試數(shù)據(jù)記錄和與它們相關(guān)聯(lián)的類標(biāo)簽組成。
分類的一般過(guò)程是:用訓(xùn)練集建立分類模型,將該模型運(yùn)用于評(píng)估分類器性能,應(yīng)用最終模型對(duì)新的或未知類標(biāo)簽的數(shù)據(jù)記錄進(jìn)行分類。
數(shù)據(jù)分類過(guò)程總體可以分為兩個(gè)階段:
(1)學(xué)習(xí)階段/訓(xùn)練階段(構(gòu)建分類模型)
訓(xùn)練集
特征選取
訓(xùn)練
分類器。
(2)分類階段(使用模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)簽)
新樣本
特征選取
分類
判決。02分類分析過(guò)程(2)
第一階段,建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器。通過(guò)分析訓(xùn)練數(shù)據(jù)集中每一行天氣情況的屬性,選取天氣特征,結(jié)合相應(yīng)的分類算法來(lái)提取分類規(guī)則,根據(jù)分類規(guī)則來(lái)確定是否適合打球的天氣條件。
第二階段,使用模型進(jìn)行分類。如圖所示,將新的天氣條件記錄數(shù)據(jù)經(jīng)測(cè)試好的分類模型進(jìn)行分類,推斷出該天氣不適宜打球。
分類算法
貝葉斯
決策樹03K-近鄰邏輯回歸人工神經(jīng)網(wǎng)絡(luò)支持向量機(jī)決策樹算法基本概念(1)
決策樹是一種樹狀分類結(jié)構(gòu)模型,是一種通過(guò)對(duì)變量值拆分建立分類規(guī)則,利用樹形圖分割形成概念路徑的數(shù)據(jù)分析技術(shù)。決策樹主要用于分類,也可以用于回歸,由此分為分類決策樹和回歸決策樹。兩者的主要差別在于選擇變量的標(biāo)準(zhǔn)不同,分類樹用在對(duì)離散變量進(jìn)行分類,回歸樹用在對(duì)連續(xù)變量進(jìn)行預(yù)測(cè)。
決策樹分類方法采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)根據(jù)所選擇的分支屬性的取值,判斷該節(jié)點(diǎn)向下的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。因此,從決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條分類規(guī)則,整個(gè)決策樹就對(duì)應(yīng)著一組分類規(guī)則。決策樹算法基本概念(2)
決策樹的典型結(jié)構(gòu)如下圖所示,其中包含3種節(jié)點(diǎn):根節(jié)點(diǎn)(rootnode,圖中用矩形框表示)、內(nèi)部節(jié)點(diǎn)(internalnode,橢圓表示)和葉節(jié)點(diǎn)(leafnode,三角形表示)。葉節(jié)點(diǎn)對(duì)應(yīng)于決策結(jié)果,其他每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)屬性測(cè)試,節(jié)點(diǎn)的入邊代表測(cè)試作用的數(shù)據(jù)集合,出邊表示測(cè)試的結(jié)果。根節(jié)點(diǎn)作用于整個(gè)數(shù)據(jù)集。信息增益依據(jù)熵值的變化來(lái)確定。指劃分前后樣本數(shù)據(jù)集熵的差值,用來(lái)衡量熵的期望減少值。為了減小信息增益傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集所帶來(lái)不利影響?;嶂笖?shù)度量數(shù)據(jù)集對(duì)于所有類別的不純度,反映從數(shù)據(jù)集中隨機(jī)抽取的樣本,其類別標(biāo)記不一致的概率。信息增益增益率基尼指數(shù)屬性選擇度量
屬性選擇度量(又稱為分支指標(biāo)SplittingIndex,SI)是選擇當(dāng)前節(jié)點(diǎn)最優(yōu)分支屬性的準(zhǔn)則,是構(gòu)建決策樹算法的關(guān)鍵,不同的決策樹算法采用不同的度量準(zhǔn)則。信息增益
則屬性A對(duì)樣本集D進(jìn)行劃分所獲得的信息增益為:
信息熵(InformationEntropy)是作為度量樣本集合不確定性的常用指標(biāo)。樣本集D的信息熵定義為:
條件熵是指在特定屬性條件下,隨機(jī)變量的不確定性。樣本集合D在屬性
A劃分的條件下,子集的熵或期望信息定義為:
越大,說(shuō)明使用屬性
來(lái)劃分樣本集
對(duì)分類所提供的信息越大,熵的減少量也越大,節(jié)點(diǎn)就趨向于更純,越有利于分類。著名的ID3決策樹算法就是以信息增益為準(zhǔn)則選擇劃分屬性。增益率
其中,
的計(jì)算方式如下:
信息增益準(zhǔn)則傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集。為減少這種偏好可能帶來(lái)的不利影響,可以依據(jù)增益率來(lái)選擇劃分屬性。
增益率定義為:
反映屬性A的純度,如果A只含有少量取值的話,A的純度就比較高,否則,A的純度就越低,的值也就越大,因此,最后得到的信息增益率就越低。C4.5算法就是以增益率為準(zhǔn)則選擇劃分屬性。基尼指數(shù)(1)
反映了從數(shù)據(jù)集D中隨機(jī)抽取的樣本,其類別標(biāo)記不一致的概率。越小,則數(shù)據(jù)集D的純度越高,反之,則數(shù)據(jù)集D的純度越低。
類似地,定義屬性A下數(shù)據(jù)集合的基尼指數(shù)為:
式中
表示屬性A的m個(gè)不同取值,
表示各種取值對(duì)應(yīng)的樣本數(shù),
表示
個(gè)樣本中類
j所對(duì)應(yīng)的樣本數(shù)?;嶂笖?shù)(2)
的定義如下:
式中
表示屬性A第i個(gè)值,基尼指數(shù)越小表示該屬性越適合作為分支的屬性。同理,可以得到其他屬性作為分支屬性的基尼指數(shù),基尼指數(shù)減小幅度可通過(guò)可表示為:
CART決策樹算法以基尼指數(shù)為準(zhǔn)則選擇劃分屬性。020301屬性選擇
從訓(xùn)練樣本數(shù)據(jù)集中選擇出最具有分類能力的屬性作為當(dāng)前的拆分依據(jù),每種算法有與之對(duì)應(yīng)的屬性選擇標(biāo)準(zhǔn)。決策樹生成步驟決策樹生成
根據(jù)所選擇的屬性特征對(duì)樣本數(shù)據(jù)集進(jìn)行劃分,在不同的劃分區(qū)間進(jìn)行效果和模型復(fù)雜性比較,最后確定最合適的劃分,分類結(jié)果由最終劃分區(qū)域優(yōu)勢(shì)類確定。決策樹剪枝
決策樹容易過(guò)擬合,需要在盡可能排除噪聲對(duì)訓(xùn)練集影響的前提下將那些影響預(yù)測(cè)準(zhǔn)確性的分支剪除,縮小樹的結(jié)構(gòu)規(guī)模,從而緩解過(guò)擬合。預(yù)剪枝是當(dāng)樹達(dá)到設(shè)定的指標(biāo)(如樹的深度或節(jié)點(diǎn)中樣本的數(shù)量等)時(shí)就停止生長(zhǎng)。預(yù)剪枝可以有效減少建樹的計(jì)算代價(jià),但會(huì)導(dǎo)致樹的不純度增大。后剪枝首先要樹充分生長(zhǎng),直到葉節(jié)點(diǎn)都有最小的不純度值為止,然后再在樹的主體上刪除一些不必要的子樹。剪枝過(guò)程從葉節(jié)點(diǎn)開始逐步向樹根方向進(jìn)行,采取邊修剪邊檢驗(yàn)的方式。決策樹剪枝預(yù)剪枝(Pre-Pruning)后剪枝(Post-Pruning)
決策樹的剪枝是用測(cè)試集中的數(shù)據(jù)對(duì)已生成的決策樹進(jìn)行檢驗(yàn)、校正和修正。提高樹的性能,同時(shí)在盡可能排除噪聲對(duì)訓(xùn)練數(shù)據(jù)影響的前提下確保決策樹分類或預(yù)測(cè)的精確度,提高樹的可理解性。決策樹構(gòu)建過(guò)程(1)
(1)以訓(xùn)練集中的所有記錄為單個(gè)結(jié)點(diǎn)開始;
(2)如果樣本都在同一個(gè)類,則該結(jié)點(diǎn)成為葉節(jié)點(diǎn),并用該類標(biāo)記,執(zhí)行結(jié)束;
(3)根據(jù)度量標(biāo)準(zhǔn)選擇出分類效果最佳的屬性作為決策樹的當(dāng)前結(jié)點(diǎn);
(4)根據(jù)當(dāng)前節(jié)點(diǎn)屬性取值的不同,將訓(xùn)練集劃分為若干子集,每個(gè)取值形成一個(gè)分支。針對(duì)當(dāng)前劃分的若干個(gè)子集,重復(fù)步驟(2)、(3)和(4);決策樹構(gòu)建過(guò)程(2)(5)當(dāng)滿足下列條件之一時(shí)停止劃分:
①
給定節(jié)點(diǎn)的所有樣本屬于同一類;
②
沒(méi)有剩余屬性(一個(gè)屬性只能出現(xiàn)在一個(gè)節(jié)點(diǎn)上)可以用來(lái)進(jìn)一步劃分樣本。在這種情況下,將給定的節(jié)點(diǎn)轉(zhuǎn)換成樹葉,并以該節(jié)點(diǎn)個(gè)數(shù)最多的樣本類別作為類別標(biāo)記;
③
如果某一分支沒(méi)有樣本,則以該節(jié)點(diǎn)中占多數(shù)類創(chuàng)建一個(gè)樹葉;
④
決策樹深度已經(jīng)達(dá)到設(shè)定的最大值。ID3算法
ID3算法是一種典型的決策樹分類算法采用信息增益作為度量標(biāo)準(zhǔn),在選擇根節(jié)點(diǎn)和各個(gè)內(nèi)部節(jié)點(diǎn)屬性時(shí),選擇當(dāng)前樣本集中具有最大信息增益值的屬性作為劃分標(biāo)準(zhǔn),這樣可以得到當(dāng)前情況下最純的拆分,使得最終生成的決策樹能完美分類樣本集。ID3算法例題(1)
例:某高爾夫俱樂(lè)部想了解天氣因素對(duì)用戶是否會(huì)來(lái)打球的影響,以便根據(jù)天氣情況預(yù)測(cè)客戶數(shù)量,從而適當(dāng)調(diào)整營(yíng)業(yè)方案以節(jié)省支出。下表給出了一個(gè)可能帶有噪聲的天氣預(yù)報(bào)數(shù)據(jù)集合,下面通過(guò)ID3算法構(gòu)造它的決策樹。ID3算法例題(2)
由上表可以看出,數(shù)據(jù)集
(weather)具有4個(gè)屬性,分別為:“outlook”、“temperature”、“humidity”和“windy”,類標(biāo)簽“Play”有“yes”和“no”兩種取值。
第一步,首先計(jì)算出樣本數(shù)據(jù)集D中所有屬性的信息增益,選出信息增益最大的屬性作為決策樹的根節(jié)點(diǎn)屬性。
在訓(xùn)練樣本中,數(shù)據(jù)總記錄為20,類標(biāo)簽“Play”取值為“yes”的樣本有12個(gè),為“no”的樣本有8個(gè)。
求得給定樣本總的信息熵為:ID3算法例題(3)
求得樣本集D在用屬性“outlook”劃分的條件下,子集的熵為:
可計(jì)算出用屬性“outlook”對(duì)樣本集
進(jìn)行劃分,所獲得的信息增益為:ID3算法例題(4)
同理可得,其它三個(gè)屬性對(duì)樣本集
D進(jìn)行劃分所獲得的信息增益為:
根據(jù)計(jì)算結(jié)果,在樣本集合
D中屬性“outlook”具有最高的信息增益,則選擇該屬性作為決策樹根節(jié)點(diǎn)的測(cè)試屬性,并根據(jù)屬性“outlook”的不同取值在根節(jié)點(diǎn)處向下建立分支。
第二步,根據(jù)屬性“outlook”的取值分別建立
、
和
三個(gè)分支。然后依次計(jì)算另外三個(gè)屬性對(duì)這三個(gè)樣本子集劃分后的信息增益,選出信息增益最大的屬性作為相應(yīng)子集的下一級(jí)節(jié)點(diǎn)(決策樹的內(nèi)部節(jié)點(diǎn))屬性。
ID3算法例題(5)
計(jì)算出樣本集子集
在用屬性temperature劃分的條件下,子集的熵為:
(1)在樣本子集
中,數(shù)據(jù)總記錄為8,類標(biāo)簽“Play”值為“yes”的樣本有3個(gè),為“no”的樣本的有5個(gè),同理可得樣本子集
總的信息熵為:ID3算法例題(6)
可計(jì)算出用屬性“temperature”對(duì)樣本子集
進(jìn)行劃分,所獲得的信息增益為:
同理可得,其它兩個(gè)屬性對(duì)樣本子集
進(jìn)行劃分所獲得的信息增益為:
根據(jù)計(jì)算結(jié)果,在樣本子集
中屬性“humidity”具有最高的信息增益,則選擇該屬性作為
分支上內(nèi)部節(jié)點(diǎn)的測(cè)試屬性,并根據(jù)屬性“humidity”的不同取值建立下一級(jí)分支。ID3算法例題(7)
(2)在樣本子集
中,數(shù)據(jù)中所有記錄的“Play”取值均為“yes”(分類完成)。
(3)同理可得,剩余三個(gè)屬性對(duì)樣本子集
進(jìn)行劃分所獲得的信息增益為:
根據(jù)計(jì)算結(jié)果,在樣本子集
中屬性“temperature”具有最高的信息增益,則選擇該屬性作為分支
上內(nèi)部節(jié)點(diǎn)的測(cè)試屬性,并根據(jù)屬性“temperature”的不同取值建立下一級(jí)分支。ID3算法例題(8)
第三步,重復(fù)以上過(guò)程,依次對(duì)每個(gè)分支上的內(nèi)部節(jié)點(diǎn)進(jìn)行計(jì)算,最終生成的決策樹如下圖所示。ID3算法特點(diǎn)
優(yōu)點(diǎn):ID3算法理論清晰,建樹方法簡(jiǎn)單,學(xué)習(xí)能力較強(qiáng)。
缺點(diǎn):1)算法偏向于選擇取值較多的屬性作為分支屬性,但是取值最多的屬性并不一定是最優(yōu)的;2)ID3只能構(gòu)造出離散數(shù)據(jù)集的決策樹,而對(duì)于傳統(tǒng)的連續(xù)型屬性不能直接進(jìn)行處理;3)ID3是非遞增算法;再者,ID3算法是單變量決策樹,屬性間的關(guān)聯(lián)性不強(qiáng),容易導(dǎo)致決策樹中的子樹或某些屬性重復(fù);4)ID3算法對(duì)噪聲數(shù)據(jù)很敏感,抗噪性能較差。C4.5算法
C4.5算法是基于ID3算法改進(jìn)而來(lái)的決策樹構(gòu)造算法。其核心思想與ID3算法一樣,不僅具有分類準(zhǔn)確率高、速度快的特點(diǎn),同時(shí)還克服了ID3算法的部分缺陷。
C4.5采用信息增益率作為判定劃分屬性好壞的標(biāo)準(zhǔn),調(diào)整了信息增益偏向多值屬性的特點(diǎn),但是會(huì)導(dǎo)致數(shù)據(jù)集劃分不平衡。C4.5算法例題(1)
例:某商場(chǎng)想通過(guò)顧客年齡、收入、是否學(xué)生以及信用情況等因素了解用戶決定是否購(gòu)買PC的原因。根據(jù)分析結(jié)果供決策者做出準(zhǔn)確判斷,給出精準(zhǔn)營(yíng)銷策略。表4.2給出了一個(gè)顧客購(gòu)買PC記錄的樣本數(shù)據(jù)集合,使用C4.5算法構(gòu)造決策樹。C4.5算法例題(2)
由上表可以看出,數(shù)據(jù)集
具有4個(gè)屬性:年齡={≤30,31~40,>40},收入={高,中,低},是否學(xué)生={是,否},信用={優(yōu),中},類標(biāo)簽“購(gòu)買PC”有“是”和“否”兩種取值。
第一步,首先計(jì)算出樣本數(shù)據(jù)集D中所有屬性的信息增益,選出信息增益率最大的屬性作為決策樹的根節(jié)點(diǎn)屬性。
在訓(xùn)練樣本中,其中數(shù)據(jù)總記錄為20,類標(biāo)簽“購(gòu)買PC”取值為“是”的樣本有11個(gè),為“否”的樣本有9個(gè),求得給定樣本總的信息熵為:C4.5算法例題(3)
求得樣本集D在用屬性“年齡”劃分的條件下,子集的熵為:求得用屬性“年齡”對(duì)樣本集D進(jìn)行劃分,所獲得的信息增益為:
再求出屬性“年齡”在樣本集D上的分裂信息:
同理可得,其它三個(gè)屬性對(duì)樣本集
D進(jìn)行劃分所獲得的信息增益為:C4.5算法例題(4)
最后,可求出用屬性“年齡”對(duì)樣本集D進(jìn)行劃分,所獲得的信息增益率為:
同理可得,其它三個(gè)屬性在樣本集
D上的分離信息為:
同理可得,其它三個(gè)屬性在樣本集
D進(jìn)行劃分所獲得的信息增益率為:
根據(jù)計(jì)算結(jié)果,在樣本集
中屬性“年齡”具有最高的信息增益率,則選擇該屬性作為決策樹根節(jié)點(diǎn)的測(cè)試屬性,并根據(jù)屬性“年齡”的不同取值在根節(jié)點(diǎn)向下建立分枝。C4.5算法例題(5)
第二步,根據(jù)年齡屬性的取值分別建立
,,三個(gè)分枝。然后依次計(jì)算另外三個(gè)屬性對(duì)這三個(gè)樣本子集劃分后的信息增益率,選出信息增益率最大的屬性作為相應(yīng)子集的下一級(jí)節(jié)點(diǎn)屬性。
(1)在樣本子集
中,其中數(shù)據(jù)總記錄為7,類標(biāo)簽“購(gòu)買PC”取值為“是”的樣本有4個(gè),為“否”的樣本的有3個(gè),于是樣本子集
總的信息熵為:
同理可得,其余三個(gè)屬性對(duì)樣本子集
進(jìn)行劃分所獲得的信息增益為:C4.5算法例題(6)再求出其它屬性在樣本
上的分裂信息:同理可得,其它三個(gè)屬性在樣本集上的分裂信息為:
同理可得,其它三個(gè)屬性在樣本集
進(jìn)行劃分所獲得的信息增益率為:
根據(jù)計(jì)算結(jié)果,在樣本子集
中屬性“是否學(xué)生”具有最高的信息增益率,則選擇該屬性作為該分枝上的內(nèi)部節(jié)點(diǎn)的測(cè)試屬性,并根據(jù)屬性“是否學(xué)生”的不同取值建立下一級(jí)分枝。C4.5算法例題(7)
(2)在樣本子集
中,數(shù)據(jù)中所有記錄類標(biāo)簽“購(gòu)買PC”值均為同一類“是”(分類完成)。
(3)同理可得,剩余三個(gè)屬性對(duì)樣本集
進(jìn)行劃分,所獲得的信息增益率為:
根據(jù)計(jì)算結(jié)果,在樣本子集
中屬性“信用”具有最高的信息增益率,則選擇該屬性作為該分枝上的內(nèi)部節(jié)點(diǎn)的測(cè)試屬性,并根據(jù)屬性“信用”的不同取值建立下一級(jí)分枝。C4.5算法例題(8)
第三步,重復(fù)以上過(guò)程,依次對(duì)每個(gè)分枝上的內(nèi)部節(jié)點(diǎn)進(jìn)行計(jì)算,最終生成的決策樹如下圖所示。CART算法
分類與回歸樹(ClassificationAndRegressionTree,CART)是一種以基尼指數(shù)作為屬性選擇度量的非參數(shù)分類和回歸方法。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年低碳環(huán)保產(chǎn)品市場(chǎng)發(fā)展可行性研究報(bào)告
- 紙品購(gòu)銷合同范本
- 中美創(chuàng)業(yè)協(xié)議書
- 羊皮購(gòu)銷合同范本
- 高考全國(guó)甲卷英語(yǔ)試題題庫(kù)(含答案)
- 成都軌道項(xiàng)目經(jīng)理項(xiàng)目面試題庫(kù)及答案
- 合同翻譯面試題集及答案解析
- 智能家居工程師面試題及物聯(lián)網(wǎng)技術(shù)答案
- 微服務(wù)開發(fā)工程師技術(shù)能力考核題含答案
- 新春新品盛宴
- 項(xiàng)目經(jīng)理年底匯報(bào)
- 新生兒戒斷綜合征評(píng)分標(biāo)準(zhǔn)
- 【公開課】絕對(duì)值人教版(2024)數(shù)學(xué)七年級(jí)上冊(cè)+
- T/CI 312-2024風(fēng)力發(fā)電機(jī)組塔架主體用高強(qiáng)鋼焊接性評(píng)價(jià)方法
- 藥品檢驗(yàn)質(zhì)量風(fēng)險(xiǎn)管理
- 中國(guó)古橋欣賞課件
- 2025年硅酸乙酯-32#項(xiàng)目可行性研究報(bào)告
- 超星爾雅學(xué)習(xí)通《心理、行為與文化(北京大學(xué))》2025章節(jié)測(cè)試附答案
- 《煤礦安全生產(chǎn)責(zé)任制》培訓(xùn)課件2025
- 《臨床中藥學(xué)實(shí)訓(xùn)》課程教學(xué)大綱
- 慢性牙周炎講解
評(píng)論
0/150
提交評(píng)論