版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章緒論信息爆炸與大數(shù)據(jù)原始時(shí)期農(nóng)業(yè)社會(huì)工業(yè)社會(huì)2原子時(shí)代信息時(shí)代人類已進(jìn)入一個(gè)嶄新的信息時(shí)代3信息社會(huì)計(jì)算機(jī)互聯(lián)網(wǎng)大數(shù)據(jù)感知智能……數(shù)據(jù)量呈現(xiàn)出指數(shù)增長(zhǎng)的態(tài)勢(shì)4大數(shù)據(jù)的概念520世紀(jì)90年代,數(shù)據(jù)倉(cāng)庫(kù)之父BillInmon,經(jīng)常提及BigData2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的EMCWorld2011會(huì)議中,EMC拋出了BigData概念。所以,很多人認(rèn)為,2011年是大數(shù)據(jù)元年。大數(shù)據(jù)的特點(diǎn)數(shù)據(jù)的體量巨大6大數(shù)據(jù)的特點(diǎn)數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多7大數(shù)據(jù)的特點(diǎn)數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價(jià)值高,而價(jià)值密度卻較低8大數(shù)據(jù)的特點(diǎn)數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價(jià)值高,而價(jià)值密度卻較低數(shù)據(jù)產(chǎn)生速度快9大數(shù)據(jù)的概念10數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價(jià)值高,而價(jià)值密度卻較低數(shù)據(jù)產(chǎn)生速度快處理速度快大數(shù)據(jù)的特點(diǎn)數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價(jià)值高,而價(jià)值密度卻較低數(shù)據(jù)產(chǎn)生速度快數(shù)據(jù)的真實(shí)性數(shù)據(jù)的波動(dòng)性數(shù)據(jù)的復(fù)雜性11大數(shù)據(jù)的特點(diǎn)12大數(shù)據(jù)的特點(diǎn)13大數(shù)據(jù)的概念14體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個(gè)V"之類的簡(jiǎn)單概念,而是涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法實(shí)現(xiàn)的。換句話說(shuō),大數(shù)據(jù)讓我們以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見(jiàn),最終形成變革之力。"大數(shù)據(jù)"是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,"大數(shù)據(jù)"指的是無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。大量信息帶來(lái)問(wèn)題信息過(guò)量,難以消化信息真假難以辨識(shí)信息安全難以保證信息形式不一致,難以統(tǒng)一處理大量信息帶來(lái)問(wèn)題信息不處理就成為“信息垃圾”各行業(yè)各領(lǐng)域政府、企業(yè)等組織也滋生出信息處理、數(shù)據(jù)處理的需求提升管理提升服務(wù)提升競(jìng)爭(zhēng)力16商業(yè)企業(yè)要處理信息大量數(shù)據(jù)被收集、存儲(chǔ)在數(shù)據(jù)庫(kù)\數(shù)據(jù)倉(cāng)庫(kù)中Web數(shù)據(jù),電子商務(wù)商場(chǎng),實(shí)體店銀行/信用卡業(yè)務(wù)數(shù)據(jù)競(jìng)爭(zhēng)壓力越來(lái)越大提供更好的、更為突出的個(gè)性化服務(wù)(例如CRM)計(jì)算機(jī)越來(lái)越便宜,功能越來(lái)越強(qiáng)大17科研院所要處理信息數(shù)據(jù)以極快的速度收集和存儲(chǔ)(GB/hour)衛(wèi)星上的遠(yuǎn)程傳感器射電望遠(yuǎn)鏡空間掃描產(chǎn)生基因表達(dá)數(shù)據(jù)的微陣列科學(xué)仿真(產(chǎn)生以TB計(jì)的數(shù)據(jù)量)數(shù)據(jù)挖掘可能幫助科學(xué)家進(jìn)行數(shù)據(jù)的分類和劃分生成假設(shè)傳統(tǒng)的技術(shù)難以處理這些海量原始數(shù)據(jù)18金融機(jī)構(gòu)要處理信息積累了海量的業(yè)務(wù)數(shù)據(jù)互聯(lián)網(wǎng)金融業(yè)務(wù)銀行卡/信用卡交易數(shù)據(jù)國(guó)民經(jīng)濟(jì)運(yùn)行數(shù)據(jù)通過(guò)數(shù)據(jù)處理和應(yīng)用,完成電信欺詐預(yù)警反洗錢個(gè)性化服務(wù)19信息處理的理論與技術(shù)發(fā)展數(shù)據(jù)庫(kù)技術(shù)與系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)20隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多;海量數(shù)據(jù)被收集、存放在大型數(shù)據(jù)庫(kù)中,且呈快速增長(zhǎng)的趨勢(shì);如果不進(jìn)行處理和利用,則成為“數(shù)據(jù)墳?zāi)埂?。信息處理的理論與技術(shù)發(fā)展專家系統(tǒng)由于專家系統(tǒng)工具過(guò)分依賴用戶或?qū)<胰斯さ貙⒅R(shí)輸入知識(shí)庫(kù)中,而且分析結(jié)果往往帶有偏差和錯(cuò)誤,再加上耗時(shí)、費(fèi)用高,故不可行。21專家系統(tǒng):智能計(jì)算機(jī)程序系統(tǒng),管理大量的某領(lǐng)域?qū)<宜降闹R(shí)與經(jīng)驗(yàn),能夠利用人類專家的知識(shí)和解決問(wèn)題的方法來(lái)處理該領(lǐng)域問(wèn)題。專家系統(tǒng)是一個(gè)具有大量的專門(mén)知識(shí)與經(jīng)驗(yàn)的程序系統(tǒng),應(yīng)用人工智能技術(shù)和計(jì)算機(jī)技術(shù),根據(jù)某領(lǐng)域一個(gè)或多個(gè)專家提供的知識(shí)和經(jīng)驗(yàn),進(jìn)行推理和判斷,模擬人類專家的決策過(guò)程,以便解決那些需要人類專家處理的復(fù)雜問(wèn)題,簡(jiǎn)而言之,專家系統(tǒng)是一種模擬人類專家解決領(lǐng)域問(wèn)題的計(jì)算機(jī)程序系統(tǒng)。信息處理的理論與技術(shù)發(fā)展KDD(KnowledgeDiscoveryinDatabase)從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過(guò)程22數(shù)據(jù)礦山信息金塊數(shù)據(jù)挖掘工具信息處理的理論與技術(shù)發(fā)展KDD的發(fā)展23基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)(KDD)一詞首次出現(xiàn)在國(guó)際人工智能聯(lián)合大會(huì)IJCAI-89Workshop上。19891995第一屆KDD國(guó)際學(xué)術(shù)會(huì)議(KDD’95)加拿大蒙特利爾召開(kāi)1997第一本學(xué)術(shù)刊物《KnowledgeDiscoveryandDataMining》創(chuàng)刊KluwersPublishers出版信息處理的理論與技術(shù)發(fā)展KDD的內(nèi)容數(shù)據(jù)分類數(shù)據(jù)聚類衰退和預(yù)報(bào)關(guān)聯(lián)和相關(guān)性順序發(fā)現(xiàn)描述和辨別時(shí)間序列分析24信息處理的理論與技術(shù)發(fā)展KDD的過(guò)程問(wèn)題的理解和定義相關(guān)數(shù)據(jù)收集和提取數(shù)據(jù)探索和清理數(shù)據(jù)工程算法選擇運(yùn)行數(shù)據(jù)挖掘算法結(jié)果的評(píng)價(jià)25信息處理的理論與技術(shù)發(fā)展KDD也會(huì)被稱為數(shù)據(jù)挖掘(datamining)知識(shí)抽?。╥nformationextraction)信息發(fā)現(xiàn)(informationdiscovery)智能數(shù)據(jù)分析(intelligentdataanalysis)探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(Informationharvesting)數(shù)據(jù)考古(dataarchaeology)26KDDvs數(shù)據(jù)挖掘數(shù)據(jù)挖掘是KDD過(guò)程的一個(gè)基本步驟包括特定的從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)模式的挖掘算法KDD過(guò)程使用數(shù)據(jù)挖掘算法根據(jù)特定的度量方法和閾值從數(shù)據(jù)庫(kù)中提取或識(shí)別出知識(shí)包括對(duì)數(shù)據(jù)庫(kù)的預(yù)處理、樣本劃分和數(shù)據(jù)變換。27商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化
進(jìn)化階段商業(yè)問(wèn)題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集
(60年代)過(guò)去五年中我的總收入是多少?計(jì)算機(jī)、磁帶和磁盤(pán)IBMCDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(wèn)
(80年代)在新英格蘭的分部去年三月的銷售額是多少?關(guān)系數(shù)據(jù)庫(kù)(RDBMS)結(jié)構(gòu)化查詢語(yǔ)言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù)決策支持
(90年代)在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?聯(lián)機(jī)分析處理(OLAP)多維數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
(正在流行)下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?高級(jí)算法多處理器計(jì)算機(jī)海量數(shù)據(jù)庫(kù)PilotLockheedIBMSGI其他初創(chuàng)公司提供預(yù)測(cè)性的信息數(shù)據(jù)挖掘的發(fā)展趨勢(shì)視頻和音頻數(shù)據(jù)挖掘科學(xué)和統(tǒng)計(jì)數(shù)據(jù)挖掘數(shù)據(jù)挖掘的應(yīng)用探索可伸縮的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化可視化數(shù)據(jù)挖掘復(fù)雜數(shù)據(jù)類型挖掘的方法Web挖掘數(shù)據(jù)挖掘中的隱私保護(hù)與信息安全end30數(shù)據(jù)挖掘的產(chǎn)生:數(shù)據(jù)vs信息隨著大數(shù)據(jù)庫(kù)的建立和海量數(shù)據(jù)的不斷涌現(xiàn),必然提出對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的迫切需求。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象,也就是現(xiàn)實(shí)情況的“數(shù)據(jù)十分豐富,而信息相當(dāng)貧乏”。需要從海量數(shù)據(jù)庫(kù)和大量繁雜信息中提取有價(jià)值的知識(shí),進(jìn)一步提高信息的利用率挖掘大型數(shù)據(jù)集:動(dòng)機(jī)常常有些信息“隱藏”在數(shù)據(jù)中,并非顯而易見(jiàn)的人分析需要數(shù)周\數(shù)月,才能發(fā)現(xiàn)有用的信息許多數(shù)據(jù)根本未曾分析過(guò)32TheDataGapKDD、DM出現(xiàn)產(chǎn)生了一個(gè)新的研究方向:基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)KDD(KnowledgeDiscoveryinDatabase),以及相應(yīng)的數(shù)據(jù)挖掘DM(DataMining)理論和技術(shù)的研究KDD已成為人工智能研究熱點(diǎn)目前,關(guān)于KDD的研究工作已經(jīng)被眾多領(lǐng)域所關(guān)注,如過(guò)程控制、信息管理、商業(yè)、醫(yī)療、金融等領(lǐng)域。作為大規(guī)模數(shù)據(jù)庫(kù)中先進(jìn)的數(shù)據(jù)分析工具,KDD的研究已經(jīng)成為數(shù)據(jù)庫(kù)及人工智能領(lǐng)域研究的一個(gè)熱點(diǎn)。發(fā)展:數(shù)據(jù)挖掘的發(fā)展過(guò)程1988ExpertSystems19951990ExpertSystems2004……數(shù)據(jù)挖掘界簡(jiǎn)史1989IJCAIWorkshoponKnowledgeDiscoveryinDatabases(Piatetsky-Shapiro)KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑施工項(xiàng)目進(jìn)度管理方案模板
- 大學(xué)生創(chuàng)新能力培養(yǎng)教學(xué)設(shè)計(jì)方案
- 資源安全與國(guó)家安全課件
- 初中八年級(jí)地理教學(xué)全案
- 個(gè)人信息保護(hù)法律實(shí)務(wù)操作指南
- 化工企業(yè)環(huán)保管理體系建設(shè)方案
- 職場(chǎng)心理健康在線課程設(shè)計(jì)方案
- 四年級(jí)語(yǔ)文課堂互動(dòng)教學(xué)設(shè)計(jì)
- 2026廣西梧州市本級(jí)第一批城鎮(zhèn)公益性崗位招用備考題庫(kù)含答案詳解
- 企業(yè)庫(kù)存盤(pán)點(diǎn)管理操作規(guī)范
- 穿越機(jī)組裝教學(xué)課件
- 聽(tīng)力學(xué)聲學(xué)基礎(chǔ)
- 房屋托管合同范本 最詳細(xì)版
- 海水淡化用閥門(mén)
- 隱患排查治理獎(jiǎng)懲臺(tái)賬
- 2023年公務(wù)員年度考核測(cè)評(píng)表
- LY/T 2778-2016扶桑綿粉蚧檢疫技術(shù)規(guī)程
- GB/T 5285-2017六角頭自攻螺釘
- GB/T 26522-2011精制氯化鎳
- GB/T 26332.3-2015光學(xué)和光子學(xué)光學(xué)薄膜第3部分:環(huán)境適應(yīng)性
- GB/T 17626.4-2008電磁兼容試驗(yàn)和測(cè)量技術(shù)電快速瞬變脈沖群抗擾度試驗(yàn)
評(píng)論
0/150
提交評(píng)論