版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)1972025/4/29云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197主要內(nèi)容第一部分:云計(jì)算與大數(shù)據(jù)技術(shù)簡介簡要介紹云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展背景、主要技術(shù)特點(diǎn)、現(xiàn)狀與趨勢第二部分:大數(shù)據(jù)研究涉及的層面和主要研究內(nèi)容主要介紹大數(shù)據(jù)研究所涉及的各個(gè)層面以及各層面下的主要研究內(nèi)容和熱點(diǎn)問題第三部分:大數(shù)據(jù)并行處理技術(shù)研究簡要介紹在大數(shù)據(jù)方面所開展的一些工作云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197第一部分
云計(jì)算與大數(shù)據(jù)技術(shù)簡介云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢計(jì)算技術(shù)發(fā)展的歷史就是不同層面上計(jì)算模式發(fā)展和演變的歷史;而相關(guān)支撐技術(shù)的成熟為計(jì)算模式的演變和實(shí)現(xiàn)提供了基礎(chǔ)和條件計(jì)算模式的演進(jìn)過程是受到一定的發(fā)展規(guī)律支配的,存在一定的必然性云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢計(jì)算模式變革的兩大根本目標(biāo):更方便快捷的使用方式更強(qiáng)大的計(jì)算能力在提供更強(qiáng)大計(jì)算能力的同時(shí),提供更加方便快捷的使用方式,是貫穿整個(gè)計(jì)算技術(shù)發(fā)展的主線云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景
集中分散集中60-70’s:大型機(jī)(mainframe),
集中式、分時(shí)共享80-90’s:個(gè)人計(jì)算機(jī)人手一臺95-06:互聯(lián)網(wǎng)/網(wǎng)格/集群/數(shù)據(jù)中心“天下大勢,合久必分,分久必合”“否定之否定,螺旋式上升”從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景60-70’s:大型機(jī)(mainframe),
集中式、分時(shí)共享IBM創(chuàng)始人托馬斯·沃森(ThomasJ.Watson):
“我認(rèn)為全球大概只需要五臺計(jì)算機(jī)就夠了。”60年代,比爾蓋茨讀中學(xué)時(shí)需要以每小時(shí)40美金的費(fèi)用租用大型機(jī)終端做程序設(shè)計(jì)。從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景80-90’s:個(gè)人計(jì)算機(jī)(PC)人手一臺因此,比爾蓋茨產(chǎn)生了一個(gè)偉大的夢想:“讓每一張桌子上有一臺電腦!”這個(gè)夢想成就了微軟,推動(dòng)了個(gè)人計(jì)算時(shí)代的來臨。比爾蓋茨,1981年表示:“640KB內(nèi)存應(yīng)該對任何人都夠用了?!?980年微軟開發(fā)DOS時(shí)曾認(rèn)為:“DOS只能管理1MB的空間,因?yàn)槲覀儫o法想象還有什么應(yīng)用軟件會(huì)需要更多的內(nèi)存?!睆挠?jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景95-06:互聯(lián)網(wǎng)/網(wǎng)格/集群/數(shù)據(jù)中心分離的PC需要互連以交換信息共享資源
互聯(lián)網(wǎng)連接更多的計(jì)算資源以解決大的計(jì)算問題
網(wǎng)格計(jì)算用很多微處理器構(gòu)建具有大型機(jī)處理能力的系統(tǒng)集群很多的集群存儲處理大量的信息數(shù)據(jù)中心Yahoo,Amazon,Google……從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景2006年至今“更分散同時(shí)也更集中”前端更加分散:2006年后,一方面前端更加分散,以智能手機(jī)和IPad為代表的智能移動(dòng)終端,推動(dòng)移動(dòng)計(jì)算技術(shù)發(fā)展“PC太大了,每個(gè)人口袋里應(yīng)該放一臺!”傳感網(wǎng)絡(luò)、普適計(jì)算、物聯(lián)網(wǎng)概念和技術(shù)“每一粒沙子都應(yīng)該是一臺計(jì)算機(jī)!”從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢移動(dòng)計(jì)算和物聯(lián)網(wǎng)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景2006年至今“更分散同時(shí)也更集中”后端更加集中:另一方面,后端更加集中,出現(xiàn)云計(jì)算概念和技術(shù),讓計(jì)算成為像水電一樣的公共服務(wù),便于資源共享,以及提供超大的計(jì)算能力從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢云計(jì)算云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展信息是物理世界中對象和事物狀態(tài)屬性的抽象和表示信息處理是借助于計(jì)算機(jī)對信息進(jìn)行加工處理的過程信息處理完成后將反作用于物理世界中的對象和事物計(jì)算機(jī)物理世界信息云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展按照從物理對象獲取和反饋信息的方式和對象與計(jì)算系統(tǒng)之間的耦合度,信息處理可分為4種模式:
早期計(jì)算模式主要是離線獲取、離線反饋的松耦合模式,信息處理和使用的效率不高
離線獲取在線反饋云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展而現(xiàn)在越來越強(qiáng)調(diào)對物理對象信息處理的普遍性、時(shí)效性和方便性,因此越來越需要在線獲取和在線反饋的緊耦合模式,這就產(chǎn)生“物聯(lián)網(wǎng)”的概念和計(jì)算模式人作為物理世界中一類特殊對象、以及控制和使用計(jì)算系統(tǒng)的主體,如果我們綜合考慮人、計(jì)算系統(tǒng)和物理世界對象三者間的交互作用,這就產(chǎn)生“人機(jī)物系統(tǒng)”的概念和計(jì)算模式
云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的背景從計(jì)算模式的演變看計(jì)算技術(shù)發(fā)展的趨勢云計(jì)算與物聯(lián)網(wǎng)物聯(lián)網(wǎng)是前端計(jì)算能力向物理世界的前伸,使得計(jì)算系統(tǒng)與物理世界對象深度融合,獲取信息更加快速和多樣,信息量迅猛增長云計(jì)算則是計(jì)算系統(tǒng)后端處理能力的拓展,為快速有效處理大量物理世界的信息提供有效的計(jì)算手段和計(jì)算能力兩者將相互結(jié)合,推動(dòng)新的計(jì)算模式和計(jì)算技術(shù)發(fā)展云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197什么是云計(jì)算?CloudComputing,UtilityComputing,ServiceComputing……通過集中式遠(yuǎn)程計(jì)算資源池,以按需分配方式,為終端用戶提供強(qiáng)大而廉價(jià)的計(jì)算服務(wù)能力工業(yè)化部署、商業(yè)化運(yùn)作的大規(guī)模計(jì)算能力一種新的、可商業(yè)化的計(jì)算和服務(wù)模式計(jì)算能力像水電煤氣一樣,按需分配使用資源池物理上對用戶透明就像在云端一樣云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算概念的由來“Thecomputationandthedataandsoforthareintheservers.…Wecallitcloudcomputing.”(ErickSchmidt,2006)“computationmaysomedaybeorganizedasapublicutility”(JohnMcCarthy,1960)“云計(jì)算”的概念在2006年由Google公司正式提出但最初的思想雛形可追溯到更早的時(shí)間云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的發(fā)展目標(biāo)
云計(jì)算的一個(gè)重要目標(biāo)是,把計(jì)算能力變成像水電等公用服務(wù)一樣,隨用隨取,按需使用。故此也有人把云計(jì)算稱為“UtilityComputing”這里Utility不是效用、實(shí)用的意思,在英文里Utility有一個(gè)專門的含義,專指類似于水電煤氣的公用服務(wù),故UtilityComputing應(yīng)譯為“公用服務(wù)計(jì)算”云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的主要特點(diǎn)透明的云端計(jì)算服務(wù)“無限”多的計(jì)算資源,提供強(qiáng)大的計(jì)算能力按需分配,彈性伸縮,取用方便,成本低廉資源共享,降低企業(yè)IT基礎(chǔ)設(shè)施建設(shè)維護(hù)費(fèi)用應(yīng)用部署快速而容易軟件/應(yīng)用功能更新方便快捷節(jié)省能源,綠色環(huán)保集計(jì)算技術(shù)之大成,具有很強(qiáng)的技術(shù)性、工程型特點(diǎn)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的分類按云計(jì)算服務(wù)層面進(jìn)行分類SaaS:SoftwareasaService提供各種應(yīng)用軟件服務(wù)PaaS:PlatformasaService提供軟件支撐平臺服務(wù)IaaS:InfrastructureasaService提供接近于裸機(jī)(物理機(jī)或虛擬機(jī))的計(jì)算資源和基礎(chǔ)設(shè)施服務(wù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算硬件平臺云計(jì)算的分類云計(jì)算軟件支撐平臺云計(jì)算應(yīng)用服務(wù)軟件SaaS如騰訊云詞典PaaS如GoogleAppEngIaaS如AmazonEC2云計(jì)算應(yīng)用按云計(jì)算服務(wù)層面進(jìn)行分類云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的分類按云計(jì)算系統(tǒng)類型進(jìn)行分類美國聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告中,定義了4中云:公用云:提供面向社會(huì)大眾、公共群體的云計(jì)算服務(wù)如Amazon云平臺,GoogleAppEng
公有云有很多優(yōu)點(diǎn),但最大的一個(gè)缺點(diǎn)是難以保證數(shù)據(jù)的私密性私有云:提供面向應(yīng)用行業(yè)/組織內(nèi)的云計(jì)算服務(wù)如政府機(jī)關(guān)、移動(dòng)通信、學(xué)校等內(nèi)部使用的云平臺
私有云可較好地解決數(shù)據(jù)私密性問題,對移動(dòng)通信、公安等數(shù)據(jù)私密性要求特別高的企業(yè)或機(jī)構(gòu),建設(shè)私有云將是一個(gè)必然的選擇云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的分類按云計(jì)算系統(tǒng)類型進(jìn)行分類社區(qū)云:提供面向社團(tuán)組織內(nèi)用戶使用的云計(jì)算平臺
如美國航天局(NASA)Nebula云平臺為NASA內(nèi)的研究人員提供快速的IT訪問服務(wù)混合云:包含以上2種以上云計(jì)算類型的混合式云平臺云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的推動(dòng)力應(yīng)用需求推動(dòng)力大粒度應(yīng)用系統(tǒng)日益增多,系統(tǒng)規(guī)模日益擴(kuò)大應(yīng)用系統(tǒng)數(shù)據(jù)量爆炸性增長中國移動(dòng)全國每天的電話短信通聯(lián)記錄數(shù)據(jù)達(dá)到500TB;而中國移動(dòng)一個(gè)流量最大的省每天的通聯(lián)記錄數(shù)據(jù)可達(dá)到65TB阿里巴巴電子商務(wù)平臺日處理數(shù)據(jù)量將達(dá)到500TB,目前淘寶交易總數(shù)據(jù)量已經(jīng)達(dá)到1500PB百度存儲100-1000PB數(shù)據(jù),每日處理10-100PB;存儲1千-1萬億網(wǎng)頁,索引100-1000億網(wǎng)頁僅2011年,全世界產(chǎn)生1.8ZB(1.8萬億GB)數(shù)據(jù),相當(dāng)于每位美國人每分鐘寫3條Twitter,不停地寫2.7萬年YouTube每分鐘有13h視頻上傳,每天數(shù)據(jù)10TB相當(dāng)于好萊塢每周發(fā)行57000部電影
云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的推動(dòng)力應(yīng)用需求推動(dòng)力大粒度應(yīng)用系統(tǒng)日益增多,系統(tǒng)規(guī)模日益擴(kuò)大超大的計(jì)算量和計(jì)算復(fù)雜度用SGI工作站進(jìn)行電影渲染時(shí),每幀一般需要1~2小時(shí)一部2小時(shí)的電影渲染需要:
2小時(shí)x3600秒x24幀x(1~2小時(shí))/24小時(shí)=20~40年!特殊場景每幀可能需要60個(gè)小時(shí)(影片“星艦騎兵”中數(shù)千只蜘蛛爬行的場面),用橫向4096象素分辨率進(jìn)行渲染時(shí),如果以每幀60個(gè)小時(shí)的速度,則1秒的放映量(24幀)需要60天的渲染時(shí)間,1分鐘則需要100年!云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的推動(dòng)力應(yīng)用需求推動(dòng)力小粒度應(yīng)用系統(tǒng)資源重復(fù)、無法共享
企業(yè)內(nèi)大量的小粒度應(yīng)用系統(tǒng)需要添置獨(dú)立的硬件資源,但不同應(yīng)用系統(tǒng)忙閑不均,忙時(shí)資源不夠,閑時(shí)資源空置,資源無法相互調(diào)配和共享,造成資源和資金浪費(fèi)
淘寶網(wǎng)案例:后臺設(shè)置約15萬臺服務(wù)器,服務(wù)于不同的應(yīng)用系統(tǒng);而不同應(yīng)用系統(tǒng)的負(fù)載不同,忙閑不均;據(jù)淘寶測算,如能在不同應(yīng)用間合理調(diào)配計(jì)算資源,大約可省去2/3約10萬臺服務(wù)器,以每臺3萬元計(jì)算,可節(jié)省約30億元!云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的推動(dòng)力技術(shù)發(fā)展推動(dòng)力云計(jì)算是諸多計(jì)算技術(shù)發(fā)展成熟與自然進(jìn)化的產(chǎn)物計(jì)算機(jī)虛擬化技術(shù)、大規(guī)模并行計(jì)算、分布式存儲、面向服務(wù)構(gòu)架、公用服務(wù)計(jì)算等諸多技術(shù)廣泛應(yīng)用計(jì)算機(jī)系統(tǒng)規(guī)模和處理能力迅速擴(kuò)大技術(shù)發(fā)展成熟與自然進(jìn)化的結(jié)果云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的重要性
“從美國來講,云計(jì)算已經(jīng)是無可爭議的主流……,美國整個(gè)信息工業(yè)都是以云計(jì)算為主流往前推動(dòng)的。云計(jì)算對整個(gè)信息技術(shù)和整個(gè)社會(huì)將帶來非常非常大的影響。”
微軟全球副總裁陸奇,2012年10月29日,“中國云·移動(dòng)互聯(lián)網(wǎng)創(chuàng)新大獎(jiǎng)賽決賽頒獎(jiǎng)典禮暨創(chuàng)新創(chuàng)業(yè)論壇”主題報(bào)告云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的重要性
“是什么樣的推動(dòng)力產(chǎn)生云計(jì)算?什么樣的大浪潮可以把云計(jì)算繼續(xù)往前推動(dòng)?我個(gè)人的體會(huì),就是計(jì)算模式……。一種計(jì)算模式,真正有強(qiáng)大生命力的話,是必須要產(chǎn)生強(qiáng)大的社會(huì)經(jīng)濟(jì)價(jià)值,市場價(jià)值,同時(shí)對社會(huì)造成公益?!?/p>
微軟全球副總裁陸奇,2012年10月29日,“中國云·移動(dòng)互聯(lián)網(wǎng)創(chuàng)新大獎(jiǎng)賽決賽頒獎(jiǎng)典禮暨創(chuàng)新創(chuàng)業(yè)論壇”主題報(bào)告云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的重要性2011年2月8日美國奧巴馬總統(tǒng)簽署了聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告,制定該報(bào)告的目的:TheFederalGovernment’scurrentInformationTechnology(IT)environmentischaracterizedbylowassetutilization,afragmenteddemandforresources,duplicativesystems,environmentswhicharedifficulttomanage,andlongprocurementleadtimes.TheseinefficienciesnegativelyimpacttheFederalGovernment’sabilitytoservetheAmericanpublic.Cloudcomputinghasthepotentialtoplayamajorpartinaddressingtheseinefficienciesandimprovinggovernmentservicedelivery.Thecloudcomputingmodelcansignificantlyhelpagenciesgrapplingwiththeneedtoprovidehighlyreliable,innovativeservicesquicklydespiteresourceconstraints.美國聯(lián)邦政府部門計(jì)劃用全部的800億美元IT預(yù)算中的200億作為云計(jì)算平臺開發(fā)建設(shè)的費(fèi)用。美國聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告,2011/2/8云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展的重要性美國聯(lián)邦云計(jì)算戰(zhàn)略報(bào)告認(rèn)為:CloudisafundamentalshiftinITCloudcomputingenablesITsystemstobescalableandelastic.Endusersdonotneedtodeterminetheirexactcomputingresourcerequirementsupfront.Instead,theyprovisioncomputingresourcesasrequired,on-demand.Usingcloudcomputingservices,aFederalagencydoesnotneedtoowndatacenterinfrastructuretolaunchacapabilitythatservesmillionsofusersCloudcomputingcansignificantlyimprovepublicsectorITAnumberofgovernmentagenciesareadoptingcloudtechnologiesandarerealizingconsiderablebenefits.Forinstance,NASANebula,throughacommunitycloud,givesresearchersaccesstoITservicesrelativelyinexpensivelyinminutes.Priortoadoptingthisapproach,itwouldtakeresearchersmonthstoprocureandconfigurecomparableITresourcesandsignificantmanagementoversighttomonitorandupgradesystems.ApplyingcloudtechnologiesacrosstheentireFederalGovernmentcanyieldtremendousbenefitsinefficiency,agility,andinnovation.云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展現(xiàn)狀與趨勢業(yè)界云計(jì)算技術(shù)的發(fā)展自2006年Google公司提出云計(jì)算技術(shù)的概念后,全球IT著名企業(yè)紛紛予以極大關(guān)注,并投入了巨大力量進(jìn)行云計(jì)算技術(shù)的研究開發(fā)。云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197GoogleCloudInfrastructureSchedulerChubbyGFSmasterNodeNodeNode…UserGoogleAppEngineSchedulerslaveGFSLinuxNodeMapReduceFrameworkBigTableServerGoogleCloudInfrastructure
(GoogleAppEngine,PaaS型公用云平臺)GoogleAppEngine提供了一種PaaS類型的云計(jì)算服務(wù)平臺,用戶可租用該平臺的計(jì)算資源,并使用AppEngine提供的各種應(yīng)用開發(fā)和支撐軟件平臺開發(fā)和部署自己的應(yīng)用軟件云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197S3EBSEC2EBSEC2EBSEC2EBSEC2SimpleDBSQSUserDeveloperAmazonElasticComputingCloud
(AmazonEC2,IaaS型公用云平臺)SQS:SimpleQueueServiceEC2:RunningInstanceofVirtualMachinesEBS:ElasticBlockService,ProvidingtheBlockInterface,StoringVirtualMachineImagesS3:SimpleStorageService,SOAP,ObjectInterfaceSimpleDB:SimplifiedDatabaseAmazonEC2提供了一種IaaS類型的云計(jì)算服務(wù)平臺,在該平臺上用戶可部署自己的系統(tǒng)軟件,完成應(yīng)用軟件的開發(fā)和發(fā)布。云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197租用案例12007年,美國紐約時(shí)報(bào)租用Amazon云計(jì)算平臺,用于將1851-1922年紐約時(shí)報(bào)的1100萬篇報(bào)刊文章轉(zhuǎn)換為PDF文件,供讀者上網(wǎng)免費(fèi)訪問。共租用了100個(gè)EC2節(jié)點(diǎn),運(yùn)行了24小時(shí),處理了4TB的報(bào)刊原始掃描圖像,生成了1.5TB的PDF文件。每節(jié)點(diǎn)每小時(shí)費(fèi)用為10美分,整個(gè)計(jì)算任務(wù)僅花費(fèi)了240美元(100節(jié)點(diǎn)x24小時(shí)x$0.10)!如果用自己的服務(wù)器,將需要數(shù)月和多得多的費(fèi)用!
AmazonElasticComputingCloud云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197租用案例2SmugMug(數(shù)億張照片,幾十萬付費(fèi)用戶,僅50人)是一個(gè)在線照片存儲公司,初期和傳統(tǒng)公司一樣,建立了自己的數(shù)據(jù)中心,并通過不斷添置新的IT設(shè)備以適應(yīng)業(yè)務(wù)量增長,但是很快發(fā)現(xiàn)業(yè)務(wù)量增長速度大大超過了設(shè)備添加的速度。作為一家未完全盈利的新型公司,顯然難以長期承受巨額的基礎(chǔ)設(shè)施開銷。最后公司選擇使用Amazon的S3服務(wù),結(jié)合公司實(shí)際情況,將最熱門的部分照片存儲在公司自己的服務(wù)器中,剩下的絕大部分照片則轉(zhuǎn)移到S3服務(wù)器中,由Amazon來提供照片的安全存儲。它把超過0.5PB的數(shù)據(jù)存儲在Amazon的S3云存儲中,由此節(jié)約的服務(wù)和存儲成本接近100萬美元。AmazonElasticComputingCloud2025/4/29云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197AmazonElasticComputingCloud租用案例3Animoto公司為注冊用戶提供通過網(wǎng)站進(jìn)行圖片和音樂上傳、在線視頻制作和分享等服務(wù)。開始選擇了一家web托管服務(wù)提供商來完成數(shù)據(jù)處理和信息存儲。2008年年初網(wǎng)站每天用戶數(shù)約為5000人,但到4月中旬,由于Facebook用戶開始使用Animoto服務(wù),該網(wǎng)站在三天內(nèi)的用戶數(shù)大幅上升至75萬人,所要求的服務(wù)器能力需要大約提高100倍,但該網(wǎng)站既無資金有無能力來建立規(guī)模如此巨大的計(jì)算能力,因此,該網(wǎng)站與云計(jì)算服務(wù)公司RightScale合作,設(shè)計(jì)了能夠在Amazon云中使用的應(yīng)用程序。這樣,使得該網(wǎng)站大大提高了計(jì)算能力,而費(fèi)用僅每小時(shí)每臺服務(wù)器10美分。它使用AmazonEC2快速擴(kuò)展處理能力,使用3500個(gè)同時(shí)運(yùn)行的虛擬實(shí)例,成功渡過了一次Web通信高峰期可能帶來的系統(tǒng)癱瘓。2025/4/29云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197MicrosoftCloudServices
(WindowAzure,私有云平臺管理和服務(wù)軟件)
Azure?ServicesPlatformMicrosoftSharePointServicesMicrosoftDynamicsCRMServices云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197IBM云計(jì)算方案
(私有云計(jì)算平臺管理和服務(wù)軟件)提供私有云計(jì)算資源管理軟件平臺,主要負(fù)責(zé)管理和調(diào)度虛擬計(jì)算資源,完成資源申請、調(diào)度和管理等整個(gè)生命周期管理云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197其它國內(nèi)外IT企業(yè)云計(jì)算研發(fā)
除以上幾家全球著名的IT企業(yè)外,其它著名IT企業(yè)如Cisco、HP、EMC、VMWare等,都在大力推進(jìn)云計(jì)算技術(shù)和系統(tǒng)研發(fā)。國內(nèi)各大著名IT企業(yè),如中國移動(dòng)、中國電信、中國聯(lián)通、阿里巴巴、騰訊、百度、萬網(wǎng)等,都在大力推動(dòng)云計(jì)算技術(shù)和系統(tǒng)研發(fā)。尤其是著名的網(wǎng)絡(luò)設(shè)備制造商中興通信和華為,正在開始從傳統(tǒng)的網(wǎng)絡(luò)電信設(shè)備制造向計(jì)算技術(shù)領(lǐng)域轉(zhuǎn)移,他們把云計(jì)算作為實(shí)現(xiàn)重大戰(zhàn)略轉(zhuǎn)移的一個(gè)重大契機(jī)云計(jì)算發(fā)展現(xiàn)狀與趨勢云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197中國移動(dòng)BigCloud云計(jì)算發(fā)展現(xiàn)狀目標(biāo)是建立可為中國移動(dòng)企業(yè)內(nèi)部進(jìn)行海量通信數(shù)據(jù)存儲和處理的使用的私有云平臺,以及為社會(huì)大眾和群體使用的公有云平臺。云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197阿里巴巴“飛天”云計(jì)算平臺已經(jīng)有超過2萬個(gè)上線租用企業(yè)用戶云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197中興通信云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197中興通信云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算發(fā)展現(xiàn)狀與趨勢云計(jì)算發(fā)展趨勢云計(jì)算將提供一種新的計(jì)算模式和服務(wù)模式。云計(jì)算將是計(jì)算技術(shù)的一次重大變革,作為今后計(jì)算發(fā)展的潮流將大大改變現(xiàn)有的計(jì)算模式,對計(jì)算技術(shù)領(lǐng)域本身以及各個(gè)應(yīng)用行業(yè)都將帶來重大的影響,提供更多的發(fā)展機(jī)遇
通過云計(jì)算人們能獲得前所未有的強(qiáng)大計(jì)算能力,并能按需分配,按需付費(fèi),提升了本地計(jì)算能力但使用成本低廉,而且還能大幅削減不斷升級軟硬件系統(tǒng)的費(fèi)用通過云計(jì)算平臺強(qiáng)大的計(jì)算和存儲能力,人們將能完成傳統(tǒng)系統(tǒng)所無法完成的計(jì)算和處理,開發(fā)出更強(qiáng)大的應(yīng)用功能,提供更多智能化應(yīng)用云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算解決什么主要問題?集中管理的計(jì)算資源池基于資源共享的小粒度應(yīng)用基于大規(guī)模計(jì)算資源的大粒度應(yīng)用基于資源共享的小粒度應(yīng)用基于資源共享的小粒度應(yīng)用基于資源共享的小粒度應(yīng)用基于資源共享的小粒度應(yīng)用用一個(gè)集中管理的巨大的計(jì)算資源池,提供巨大的計(jì)算資源和能力1)為小粒度應(yīng)用提供資源共享;2)為大粒度應(yīng)用提供大規(guī)模計(jì)算能力基于云計(jì)算的共享應(yīng)用與服務(wù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算系統(tǒng)的組成物理存儲計(jì)算資源池虛擬化彈性資源調(diào)度管理虛擬資源池小粒度應(yīng)用與服務(wù)分布式存儲并行計(jì)算框架查詢分析挖掘并行算法云安全管理云計(jì)算管理大數(shù)據(jù)應(yīng)用與服務(wù)云計(jì)算應(yīng)用與服務(wù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的關(guān)鍵技術(shù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的關(guān)鍵技術(shù)主要包括以下關(guān)鍵技術(shù)虛擬化技術(shù):虛擬機(jī)的安裝、設(shè)置、調(diào)度分配、使用、故障檢測與失效恢復(fù)等云計(jì)算構(gòu)架技術(shù):研究解決適合于云計(jì)算的系統(tǒng)軟硬件構(gòu)架資源調(diào)度技術(shù):解決物理或虛擬計(jì)算資源的自動(dòng)化分配、調(diào)度、配置、使用、負(fù)載均衡、回收等資源管理并行計(jì)算技術(shù):針對大數(shù)據(jù)或復(fù)雜計(jì)算應(yīng)用,解決數(shù)據(jù)或計(jì)算任務(wù)切分和并行計(jì)算算法設(shè)計(jì)問題云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的關(guān)鍵技術(shù)主要包括以下關(guān)鍵技術(shù)大數(shù)據(jù)存儲技術(shù):解決大數(shù)據(jù)的分布存儲、共享訪問、數(shù)據(jù)備份等問題云安全技術(shù):解決云計(jì)算系統(tǒng)的訪問安全性、數(shù)據(jù)安全性(包括數(shù)據(jù)私密性)等問題云計(jì)算應(yīng)用:面向各個(gè)行業(yè)的、不同形式的云計(jì)算應(yīng)用技術(shù)和系統(tǒng)此外,還有云計(jì)算中心的節(jié)能和散熱等工程技術(shù)問題云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197云計(jì)算的關(guān)鍵技術(shù)怎樣才算是云計(jì)算系統(tǒng)?個(gè)人認(rèn)為:一個(gè)計(jì)算系統(tǒng)必須具備以下兩個(gè)特征才能算是云計(jì)算系統(tǒng)(至少具備第一個(gè)特征):資源虛擬化和彈性調(diào)度解決小粒度應(yīng)用資源共享
基于虛擬化和彈性調(diào)度,以按需分配方式,為小粒度應(yīng)用提供計(jì)算資源,實(shí)現(xiàn)資源共享大數(shù)據(jù)存儲處理和并行計(jì)算服務(wù)提供大粒度應(yīng)用計(jì)算能力
基于云端的強(qiáng)大而廉價(jià)的計(jì)算能力,為大粒度應(yīng)用提供傳統(tǒng)計(jì)算系統(tǒng)或用戶終端所無法完成的計(jì)算服務(wù)。這些計(jì)算能力包括海量數(shù)據(jù)存儲能力、以及大規(guī)模并行計(jì)算能力。云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197Wiki百科:bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools
大數(shù)據(jù)意指一個(gè)超大的、難以用現(xiàn)有常規(guī)的數(shù)據(jù)庫管理技術(shù)和工具處理的數(shù)據(jù)集IDC報(bào)告:Bigdatatechnologiesdescribeanewgenerationoftechnologiesandarchitectures,designedtoeconomicallyextractvaluefromverylargevolumesofawidevarietyofdata,byenablinghigh-velocitycapture,discovery,and/oranalysis.
大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值什么是大數(shù)據(jù)?云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)處理技術(shù)的重要性大數(shù)據(jù)(BigData)應(yīng)用需求
出現(xiàn)越來越多的大數(shù)據(jù)應(yīng)用和行業(yè)需求。2008年,在Google成立10周年之際,《Nature》雜志出版一期專刊專門討論未來的大數(shù)據(jù)(BigData)處理相關(guān)的一系列技術(shù)問題和挑戰(zhàn)。云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197未來10多年數(shù)據(jù)將急劇增長IDC研究報(bào)告《DataUniverseStudy》提出“數(shù)據(jù)宇宙”的說法描述海量數(shù)據(jù)2007年2008年2009年2010年2011年大數(shù)據(jù)處理技術(shù)的重要性云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)處理技術(shù)的重要性未來急劇增長的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段IDC報(bào)告《DataUniverseStudy》全世界權(quán)威IT咨詢公司研究報(bào)告預(yù)測:全世界數(shù)據(jù)量未來10年將從2009年的0.8ZB增長到2020年的35ZB,增長44倍!年均增長率>40%!0.8ZB:一堆DVD堆起來夠地球到月亮一個(gè)來回35ZB:一堆DVD堆起來是地球到火星距離的一半云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197美國聯(lián)邦政府發(fā)布大數(shù)據(jù)研發(fā)專項(xiàng)研究計(jì)劃美國聯(lián)邦政府下屬的國防部、能源部、衛(wèi)生總署等7部委聯(lián)合推動(dòng),于2012年3月底發(fā)布了大數(shù)據(jù)研發(fā)專項(xiàng)研究計(jì)劃(BigDataInitiative),擬投入2億美元用于研究開發(fā)科學(xué)探索、環(huán)境和生物醫(yī)學(xué)、教育和國家安全等重大領(lǐng)域和行業(yè)所急需的大數(shù)據(jù)處理技術(shù)和工具,把大數(shù)據(jù)研究上升到為國家發(fā)展戰(zhàn)略。大數(shù)據(jù)處理技術(shù)的重要性56云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197“大數(shù)據(jù)研究的科學(xué)價(jià)值”李國杰,《中國計(jì)算機(jī)學(xué)會(huì)通訊》,vol.8,no.9,2012.92012年3月,美國奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,這是繼1993年美國宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署。美國政府認(rèn)為大數(shù)據(jù)是“未來的新石油”,將“大數(shù)據(jù)研究”上升為國家意志,對未來的科技與經(jīng)濟(jì)發(fā)展必將帶來深遠(yuǎn)影響。一個(gè)國家擁有數(shù)據(jù)的規(guī)模和運(yùn)用數(shù)據(jù)的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制也將成為國家間和企業(yè)間新的爭奪焦點(diǎn)。大數(shù)據(jù)處理技術(shù)的重要性57云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197數(shù)據(jù)科學(xué)(DataScience)
國內(nèi)外出現(xiàn)了“數(shù)據(jù)科學(xué)”的概念圖靈獎(jiǎng)獲得者JimGray:2007年最后一次演講中提出“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-IntensiveScientificDiscovery)”將成為科學(xué)研究的第四范式實(shí)驗(yàn)科學(xué)理論科學(xué)計(jì)算科學(xué)數(shù)據(jù)科學(xué)世界著名存儲技術(shù)公司EMC提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李國杰院士:“數(shù)據(jù)科學(xué)”研究的對象是什么?計(jì)算機(jī)科學(xué)是關(guān)于算法的科學(xué),數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。大數(shù)據(jù)處理技術(shù)的重要性58云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)將帶來巨大的技術(shù)和商業(yè)機(jī)遇
大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價(jià)值原始信息行業(yè)數(shù)據(jù)知識報(bào)表制圖電子文檔信息檢索數(shù)據(jù)倉庫海量分析知識挖掘信息化技術(shù)大數(shù)據(jù)分析PC時(shí)代互聯(lián)網(wǎng)時(shí)代大數(shù)據(jù)時(shí)代大數(shù)據(jù)處理技術(shù)的重要性云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計(jì)算計(jì)算面臨嚴(yán)重挑戰(zhàn)中國移動(dòng)江蘇省電話通聯(lián)記錄(CDR)數(shù)據(jù)每月達(dá)0.5-1PB,而整個(gè)中國移動(dòng)每月則高達(dá)7-15PB數(shù)據(jù);如此巨大的數(shù)據(jù)量使得Oracle等數(shù)據(jù)庫系統(tǒng)已經(jīng)難以支撐和應(yīng)對南京市公安局320道路監(jiān)控云計(jì)算系統(tǒng),數(shù)據(jù)量為三年200億條、總量120TB的車輛監(jiān)控?cái)?shù)據(jù)中國深圳華大基因研究所成為全世界最大測序中心,每天產(chǎn)生300GB基因序列數(shù)據(jù)(每年100TB)百度存儲數(shù)百PB數(shù)據(jù),每天處理數(shù)據(jù)10PB淘寶存儲14PB交易數(shù)據(jù),每天新增數(shù)據(jù)40-50TB大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力60云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力大規(guī)模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲和計(jì)算資源進(jìn)行處理,云計(jì)算平臺是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對云計(jì)算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒有通用和現(xiàn)成的解決方案對于應(yīng)用行業(yè)來說,云計(jì)算平臺軟件、虛擬化軟件都不需要自己開發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒有現(xiàn)成和通用的軟件,需要針對特定的應(yīng)用需求專門開發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術(shù)研究、以及系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力現(xiàn)有數(shù)據(jù)處理能力大幅落后于數(shù)據(jù)增長速度
數(shù)據(jù)訪問能力大幅落后于數(shù)據(jù)增長速度磁盤容量增長遠(yuǎn)遠(yuǎn)快過存儲訪問帶寬和延遲:80年代中期數(shù)十MB到今天的TB量級,增長數(shù)十萬倍,而延遲僅提高2倍,帶寬僅提高50倍!100TB數(shù)據(jù)順序讀一遍需要多少時(shí)間?設(shè)硬盤讀取訪問速率128MB/秒1TB/128MB約2.17小時(shí)100TB/128MB=217小時(shí)=9天!即使用百萬元高速磁盤陣列(800MB/s),仍需1.5天!數(shù)據(jù)存儲能力大幅落后于數(shù)據(jù)增長速度云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)處理技術(shù)發(fā)展的驅(qū)動(dòng)力海量數(shù)據(jù)隱含著更準(zhǔn)確的事實(shí)
研究發(fā)現(xiàn):大數(shù)據(jù)量可顯著提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確性;訓(xùn)練數(shù)據(jù)集越大,數(shù)據(jù)分類精度越高;大數(shù)據(jù)集上的簡單算法能比小數(shù)據(jù)集上的復(fù)雜算法產(chǎn)生更好的結(jié)果,因此數(shù)據(jù)量足夠大時(shí)有可能使用代價(jià)很小的簡單算法來達(dá)到很好的學(xué)習(xí)精度。例如,2001年,一個(gè)基于事實(shí)的簡短問答研究,如提問:WhoshotAbrahamLincoln?在很大的數(shù)據(jù)集時(shí),只要使用簡單的模式匹配方法,找到在“shotAbrahamLincoln”前面的部分即可快速得到準(zhǔn)確答案:JohnWilkesBooth云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197結(jié)構(gòu)特征結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)獲取和處理方式動(dòng)態(tài)(流式/增量式/線上)/實(shí)時(shí)數(shù)據(jù)靜態(tài)(線下數(shù)據(jù))/非實(shí)時(shí)數(shù)據(jù)關(guān)聯(lián)特征無關(guān)聯(lián)/簡單關(guān)聯(lián)數(shù)據(jù)(鍵值記錄型數(shù)據(jù))復(fù)雜關(guān)聯(lián)數(shù)據(jù)(圖數(shù)據(jù))大數(shù)據(jù)的類型云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)的基本特點(diǎn)海量數(shù)據(jù)及其特點(diǎn)(4個(gè)V):Volume:大容量,TB-ZBVariety:多樣性Velocity:時(shí)效性Veracity:準(zhǔn)確性云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197數(shù)據(jù)尺度和關(guān)聯(lián)度空間DataconnectednessDatasizeTypicalRDBMSSQLComfortZoneDisk-basedKey-valueStoreColumnStoreDocumentStoreGraphDB云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)問題的基本特點(diǎn)大數(shù)據(jù)來自應(yīng)用行業(yè),具有極強(qiáng)的行業(yè)應(yīng)用需求特性數(shù)據(jù)規(guī)模極大,達(dá)到PB甚至EB量級,超過任何傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的處理能力大數(shù)據(jù)處理給傳統(tǒng)計(jì)算技術(shù)帶來極大挑戰(zhàn),大多數(shù)傳統(tǒng)算法在面向大數(shù)據(jù)處理時(shí)都面臨問題,需要重寫大數(shù)據(jù)研究的基本原則應(yīng)用需求為導(dǎo)向領(lǐng)域交叉為橋梁計(jì)算技術(shù)為支撐大數(shù)據(jù)問題的特點(diǎn)和研究原則云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)研究的挑戰(zhàn)數(shù)據(jù)規(guī)模導(dǎo)致難以應(yīng)對的存儲和計(jì)算量數(shù)據(jù)規(guī)模導(dǎo)致傳統(tǒng)算法失效大數(shù)據(jù)復(fù)雜的數(shù)據(jù)關(guān)聯(lián)性導(dǎo)致高復(fù)雜度的計(jì)算大數(shù)據(jù)研究的基本途徑三個(gè)基本途徑:繼續(xù)尋找新算法降低計(jì)算復(fù)雜度降低大數(shù)據(jù)尺度,尋找數(shù)據(jù)尺度無關(guān)算法大數(shù)據(jù)并行化處理大數(shù)據(jù)研究的挑戰(zhàn)和基本途徑云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197HadoopMapReduce是目前大數(shù)據(jù)處理的主流技術(shù)和平臺目前國際公認(rèn)和廣為接受、最成功使用的大數(shù)據(jù)并行處理主流技術(shù)和平臺精巧的設(shè)計(jì)和強(qiáng)大的功能分而治之的并行處理思想高層并行編程模型自動(dòng)化存儲計(jì)算軟件框架事實(shí)上的海量數(shù)據(jù)并行處理工業(yè)標(biāo)準(zhǔn),國內(nèi)外各大著名IT企業(yè)都在廣泛使用,Google,Amazon,FaceBook,IBM,百度,淘寶,騰訊…主流大數(shù)據(jù)處理技術(shù)MapReduce69云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197更多有關(guān)HadoopMapReduce的基本設(shè)計(jì)思想、技術(shù)特點(diǎn)和工作原理,請參見本PPT168頁開始的附錄。主流大數(shù)據(jù)處理技術(shù)MapReduce云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197第二部分
大數(shù)據(jù)研究層面與主要研究內(nèi)容云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197技術(shù)層面大數(shù)據(jù)行業(yè)應(yīng)用/服務(wù)層應(yīng)用開發(fā)層應(yīng)用技術(shù)層智能化計(jì)算層并行編程模型與計(jì)算框架層數(shù)據(jù)存儲管理層并行構(gòu)架和計(jì)算平臺層集群,多核,GPU,混合式構(gòu)架(如集群+多核,集群+GPU)云計(jì)算服務(wù)支撐平臺大數(shù)據(jù)查詢(SQL,NoSQL,實(shí)時(shí)查詢,線下分析)大數(shù)據(jù)存儲(DFS,HBase,MemDB,RDB)大數(shù)據(jù)預(yù)處理MapReduce,BSP,MPI,CUDA,OpenMP,定制式,混合式(如MapReduce+CUDA,MapReduce+MPI)并行化機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法社會(huì)網(wǎng)絡(luò),排名與推薦,商業(yè)智能,自然語言處理,生物信息媒體分析檢索,Web搜索與挖掘,3維建模與可視化…大數(shù)據(jù)研究層面和主要內(nèi)容電信/公安/商業(yè)/金融/遙感遙測/勘探/生物醫(yī)藥……領(lǐng)域應(yīng)用/服務(wù)需求和計(jì)算模型行業(yè)應(yīng)用系統(tǒng)開發(fā)角色行業(yè)用戶領(lǐng)域?qū)<覒?yīng)用開發(fā)者計(jì)算技術(shù)研究和開發(fā)者云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)行業(yè)應(yīng)用與服務(wù)層行業(yè)應(yīng)用系統(tǒng)和服務(wù)行業(yè)應(yīng)用系統(tǒng)電信、公安、商業(yè)、金融、遙感遙測、地質(zhì)勘探、生物醫(yī)藥……行業(yè)應(yīng)用公共服務(wù)中間件領(lǐng)域應(yīng)用/服務(wù)需求和計(jì)算模型領(lǐng)域應(yīng)用問題和需求領(lǐng)域應(yīng)用問題計(jì)算模型云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)行業(yè)應(yīng)用開發(fā)層行業(yè)應(yīng)用系統(tǒng)和服務(wù)大數(shù)據(jù)應(yīng)用開發(fā)環(huán)境和工具大數(shù)據(jù)應(yīng)用和服務(wù)集成框架和接口大數(shù)據(jù)應(yīng)用測試環(huán)境和工具大數(shù)據(jù)應(yīng)用發(fā)布和運(yùn)行環(huán)境云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容社會(huì)網(wǎng)絡(luò)排名與推薦系統(tǒng)商業(yè)智能媒體分析檢索Web挖掘與搜索3維建模與科學(xué)計(jì)算可視化生物信息自然語言處理……云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容GoogleKnowledgeGraph
綜合應(yīng)用案例基于搜索關(guān)鍵詞語義理解和信息關(guān)聯(lián)性的智能化搜索功能,可提供搜索對象相關(guān)的綜合性和多樣化信息(文字和媒體信息)。涉及到前述大多數(shù)應(yīng)用技術(shù)的綜合性應(yīng)用:一種深度搜索技術(shù)基于語義分析理解基于信息關(guān)聯(lián)網(wǎng)絡(luò)分析多樣化排名與推薦基于圖片內(nèi)容的搜索目前GoogleKnowledgeGraph已經(jīng)有五億個(gè)信息“對象”包括35億個(gè)屬性和相互關(guān)系;但目前只支持英文,不支持中文云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容GoogleKnowledgeGraph
綜合應(yīng)用案例云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容社團(tuán)發(fā)現(xiàn)(CommunityDetection)網(wǎng)絡(luò)建模(NetworkModeling)中心分析和影響力建模(CentralityAnalysisandInfluenceModeling)分類推薦(ClassificationandRecommendation)隱私安全等(Privacy,SpamandSecurity)社會(huì)網(wǎng)絡(luò)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容常規(guī)排名(Ranking)多樣性排名(DiversifiedRanking)基于內(nèi)容的推薦(Content-basedRecommendation)基于標(biāo)簽的推薦(Tag-basedRecommendation)協(xié)同過濾推薦(CollaborativeFilteringRecommendation)排名與推薦系統(tǒng)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容大規(guī)模圖像檢索(ImageRetrieval)大規(guī)模圖像分類(ImageClassification)目標(biāo)檢測(Object
Recognition)視頻異常行為檢測(Abnormal
Event
Detection)媒體分析檢索云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容深度Web搜索(DeepWebSearch,精確化、智能化、綜合化信息搜索)頁面分類(DocumentClassification)頁面聚類(DocumentCluster)網(wǎng)頁摘要(DocumentAutomaticSummarization)Web搜索與數(shù)據(jù)挖掘云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容機(jī)器翻譯(MachineTranslation)情感分析(SentimentAnalysis)輿情分析(PublicOpinionAnalysis)智能輸入(SmartInput)問答系統(tǒng)(QA)自然語言處理云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197IBM智力競賽機(jī)器人Watson是一個(gè)基于MapReduce數(shù)據(jù)并行處理和統(tǒng)計(jì)模型自然語言處理的成功應(yīng)用。IBM智力問答機(jī)器人Watson云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197Watson收集了2億頁知識文本數(shù)據(jù),并基于HadoopMapReduce并行處理集群進(jìn)行數(shù)據(jù)分析,采用了優(yōu)化的并行體系結(jié)構(gòu)和優(yōu)化的知識和自然語言處理算法,可在1秒內(nèi)完成對大量非結(jié)構(gòu)化信息的檢索,并實(shí)時(shí)回答知識競賽問答題。IBM智力問答機(jī)器人Watson云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容地質(zhì)建模與分析(GeologicalModelingandAnalysis)電影渲染(MovieRendering)大規(guī)模數(shù)據(jù)可視化分析(ScaleVisualAnalytics)3維建模與大規(guī)模數(shù)據(jù)可視化云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197應(yīng)用技術(shù)層研究內(nèi)容高通量基因序列比對(High-ThroughputGeneSequenceAlignment)生物網(wǎng)絡(luò)建模與分析(BiologicalNetworkModelingandAnalysis)生物信息處理云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197智能化計(jì)算層研究內(nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法大數(shù)據(jù)處理并行化學(xué)習(xí)和挖掘算法不同并行模型下并行化學(xué)習(xí)和挖掘算法并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具和平臺云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)1972001,微軟研究院的BankoandBrill*等發(fā)表了一篇自然語言理解領(lǐng)域的經(jīng)典研究論文,探討訓(xùn)練數(shù)據(jù)集大小對分類精度的影響,發(fā)現(xiàn)數(shù)據(jù)越大,精度越高;更有趣的發(fā)現(xiàn)是,他們發(fā)現(xiàn)當(dāng)數(shù)據(jù)不斷增長時(shí),不同算法的分類精度趨向于相同,使得小數(shù)據(jù)集時(shí)不同算法在精度上的差別基本消失!
結(jié)論引起爭論:看似算法不再要緊,數(shù)據(jù)更重要!看似不再需要研究復(fù)雜算法,找更多數(shù)據(jù)就行了*M.BankoandE.Brili(2001).Scalingtoveryverylargecorporafornaturallanguagedisambiguation.ACL2001智能化計(jì)算層研究內(nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)1972007,Google公司Brants*等基于MapReduce研究了一個(gè)基于2萬億個(gè)單詞訓(xùn)練數(shù)據(jù)集的語言模型,比較了當(dāng)時(shí)最先進(jìn)的Kneser-Neysmoothing算法與他們稱之為“stupidbackoff“的簡單算法,最后發(fā)現(xiàn),后者在小數(shù)據(jù)集時(shí)效果不佳,但在大數(shù)據(jù)集時(shí),該算法最終居然產(chǎn)生了更好的語言模型!
結(jié)論:大數(shù)據(jù)集上的簡單算法能比小數(shù)據(jù)集上的復(fù)雜算法產(chǎn)生更好的結(jié)果!*T.Brants,A.C.Popat,etal.LargeLanguageModelsinMachineTranslation.InEMNLP-CoNLL2007-Proceedingsofthe2007JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning智能化計(jì)算層研究內(nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197分類(Classification)大規(guī)模支持向量機(jī)(LargeScaleSVM)線性核、非線性核;大規(guī)模稀疏數(shù)據(jù)求解大規(guī)模凸二次規(guī)劃問題神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)深度學(xué)習(xí)(DeepLearning),如深度置信網(wǎng)絡(luò)(DBN)、卷積神經(jīng)網(wǎng)絡(luò)等。BP、SOM網(wǎng)絡(luò)樸素貝葉斯(Na?veBayes)決策樹(DecisionTrees)C4.5、CART智能化計(jì)算層研究內(nèi)容大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法聚類(Clustering)K-Means算法關(guān)聯(lián)規(guī)則挖掘Apriori算法參數(shù)估計(jì)(ParametersEstimation)EM算法智能化計(jì)算層研究內(nèi)容云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法高維度數(shù)據(jù)降維(DimensionReduction)LDA算法、PCA算法、ICA算法、一些流形學(xué)習(xí)(ManifoldLearning)算法集成學(xué)習(xí)(EnsembleLearning)AdaBoost算法圖數(shù)據(jù)挖掘圖聚類,圖分類圖模式匹配(子圖同構(gòu)、最大公共子圖…)…智能化計(jì)算層研究內(nèi)容云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197并行編程模型與計(jì)算框架層研究內(nèi)容MapReduceHadoop性能優(yōu)化針對I/0的優(yōu)化、針對充分利用內(nèi)存的優(yōu)化(Berkeley的Spark)針對流程的優(yōu)化(優(yōu)化Shuffle過程、SHadoop)針對作業(yè)、任務(wù)和Slot資源的調(diào)度優(yōu)化(IBM的AMapReduce,F(xiàn)acebook的Corona)MapReduce并行計(jì)算框架改進(jìn)迭代式MapReduce執(zhí)行框架(Twister,HaLoop)流式MapReduce執(zhí)行框架(HadoopOnline)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197并行編程模型與計(jì)算框架層研究內(nèi)容MapReduceMapReduce在不同構(gòu)架上的實(shí)現(xiàn)基于眾核構(gòu)架的MapReduce(Stanford的Phoenix,上海交大基于多核的MapReduce)基于GPU的MapReduce(香港科大、上海交大)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197并行編程模型與計(jì)算框架層研究內(nèi)容BSP(BulkSynchronizedParallel)基于BSP模型的并行處理框架大規(guī)模圖數(shù)據(jù)并行處理框架和系統(tǒng)Google的Pregel微軟的TrinityCUDA、MPI、OpenMP提升可編程性云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197并行編程模型與計(jì)算框架層研究內(nèi)容定制式并行計(jì)算框架全內(nèi)存集群計(jì)算(Spark)大規(guī)模流式數(shù)據(jù)處理(S4)特定應(yīng)用問題的定制式并行計(jì)算框架混合式并行計(jì)算模型和框架*MapReduce+CUDA并行計(jì)算框架的設(shè)計(jì)與優(yōu)化MapReduce+MPI和MapReduce+BSP并行計(jì)算框架設(shè)計(jì)與優(yōu)化*ASurveyofParallelProgrammingModelsandToolsintheMultiandMany-CoreEraJavierDiaz,CameliaMun?oz-Caro,andAlfonsoNino.IEEETRANSACTIONSONPARALLELANDDISTRIBUTEDSYSTEMS,VOL.23,NO.8,AUGUST2012云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)存儲管理層研究內(nèi)容大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)的采集和傳輸大數(shù)據(jù)的清洗過濾和質(zhì)量管理技術(shù)大數(shù)據(jù)的壓縮技術(shù)記錄型大數(shù)據(jù)索引和查詢技術(shù)靜態(tài)記錄型大數(shù)據(jù)索引技術(shù)流式/增量式記錄型大數(shù)據(jù)索引技術(shù)大數(shù)據(jù)表的高效關(guān)系型操作(如查詢連接)大數(shù)據(jù)并行化查詢技術(shù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)存儲管理層研究內(nèi)容圖數(shù)據(jù)表示和查詢技術(shù)靜態(tài)圖數(shù)據(jù)的表示和存儲靜態(tài)圖數(shù)據(jù)的查詢流式/增量式圖數(shù)據(jù)的表示和存儲流式/增量式圖數(shù)據(jù)的查詢圖數(shù)據(jù)并行化查詢技術(shù)SQL/NoSQL查詢語言接口與技術(shù)SQL/NoSQL查詢語言接口并行化查詢執(zhí)行機(jī)制云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)存儲管理層研究內(nèi)容混合式數(shù)據(jù)表示和存儲管理模型結(jié)構(gòu)化/半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)混合存儲管理模型NoSQL數(shù)據(jù)庫技術(shù)混合式數(shù)據(jù)下的數(shù)據(jù)關(guān)系和查詢操作技術(shù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)存儲管理層研究內(nèi)容分布式數(shù)據(jù)庫HBase性能優(yōu)化基于HBase的大數(shù)據(jù)索引和查詢技術(shù)分布式內(nèi)存數(shù)據(jù)庫存儲技術(shù)基于分布式內(nèi)存數(shù)據(jù)庫的大數(shù)據(jù)應(yīng)用問題計(jì)算分布式文件系統(tǒng)HDFS的優(yōu)化云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197并行構(gòu)架和計(jì)算平臺層研究內(nèi)容共享內(nèi)存構(gòu)架多核,GPU分布內(nèi)存構(gòu)架集群混合式構(gòu)架集群+多核集群+GPU云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197并行構(gòu)架和計(jì)算平臺層研究內(nèi)容大數(shù)據(jù)應(yīng)用/服務(wù)云計(jì)算支撐平臺大數(shù)據(jù)云存儲技術(shù)大數(shù)據(jù)并行計(jì)算系統(tǒng)可靠性與容錯(cuò)恢復(fù)技術(shù)云計(jì)算支撐平臺和框架云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197第三部分
大數(shù)據(jù)并行處理技術(shù)研究云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大數(shù)據(jù)處理的主要技術(shù)問題大數(shù)據(jù)處理的主要研究內(nèi)容大數(shù)據(jù)存儲管理模型和技術(shù)大數(shù)據(jù)索引和查詢技術(shù)大數(shù)據(jù)并行編程模型和計(jì)算框架Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘并行算法大數(shù)據(jù)社會(huì)網(wǎng)絡(luò)分析基于大數(shù)據(jù)分析的推薦系統(tǒng)大數(shù)據(jù)自然語言處理大數(shù)據(jù)媒體分析檢索技術(shù)大規(guī)模Web挖掘與搜索大數(shù)據(jù)3維建模與可視化分析大數(shù)據(jù)并行處理應(yīng)用系統(tǒng)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197問題背景
大數(shù)據(jù)使得傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)難以勝任,在存儲能力和查詢性能上都難以滿足大數(shù)據(jù)存儲和查詢管理的需求。因此,需要針對應(yīng)用需求研究大數(shù)據(jù)的索引和查詢技術(shù)
大數(shù)據(jù)索引和查詢技術(shù)Oracle海量數(shù)據(jù)庫系統(tǒng)Exadata,每個(gè)定制集群系統(tǒng)2千萬元,存儲100TB高性能數(shù)據(jù)IBM基于數(shù)據(jù)庫DB2構(gòu)建了定制的數(shù)據(jù)倉庫集群系統(tǒng),每集群存儲數(shù)據(jù)60TB,價(jià)格5百萬元這些定制的分布式關(guān)系數(shù)據(jù)庫系統(tǒng)價(jià)格過于昂貴,而數(shù)據(jù)存儲處理能力仍然難以滿足大數(shù)據(jù)處理要求,且系統(tǒng)難以擴(kuò)充云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197主要研究問題
大數(shù)據(jù)索引和查詢技術(shù)主要研究非結(jié)構(gòu)化或半結(jié)構(gòu)化大數(shù)據(jù)的快速索引和查詢優(yōu)化技術(shù),尤其是面向特定應(yīng)用領(lǐng)域的大數(shù)據(jù)索引機(jī)制和管理技術(shù)、以及流式或增量式實(shí)時(shí)/準(zhǔn)實(shí)時(shí)數(shù)據(jù)的索引和查詢優(yōu)化技術(shù)目前本報(bào)課題組正在研究基于分布式混合樹索引的大數(shù)據(jù)索引和快速查詢技術(shù)和算法。大數(shù)據(jù)索引和查詢技術(shù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大規(guī)模移動(dòng)電話通聯(lián)記錄索引和查詢技術(shù)移動(dòng)電話通聯(lián)記錄(CDR)數(shù)據(jù)量巨大,關(guān)系數(shù)據(jù)庫已經(jīng)越來越難以承受和勝任大量電話記錄的管理和查詢處理,為此,需要考慮基于Hadoop的分布式CDR數(shù)據(jù)存儲和查詢技術(shù)。例如,在移動(dòng)電話公司內(nèi)部,最常使用的查詢是依據(jù)電話號碼(一個(gè)指定號碼或者一個(gè)屏蔽了最后4位數(shù)字的萬字段號碼查詢),加上其他查詢信息(如局向、撥打或接受時(shí)間等)。為此提高查詢速度,我們可以基于電話號碼建立專門的快速查詢索引表,然后使用兩分快速查找方法,即可快速查詢到指定號碼的CDR數(shù)據(jù)記錄。大數(shù)據(jù)索引和查詢技術(shù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大規(guī)模移動(dòng)電話通聯(lián)記錄索引和查詢技術(shù)CDR兩級查詢索引大數(shù)據(jù)數(shù)據(jù)索引和查詢技術(shù)基于電話號碼的等長二級索引表,可以進(jìn)行快速的兩分查找定位一級索引表中的offset包含其他查詢信息,定位到指定號碼后,可進(jìn)行基于其他信息(局向、日期等)的進(jìn)一步查詢處理云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197大規(guī)模移動(dòng)電話通聯(lián)記錄索引和查詢技術(shù)CDR兩級查詢索引大數(shù)據(jù)數(shù)據(jù)索引和查詢技術(shù)20億個(gè)號碼的CDR電話記錄最多只需要比較大約31次即可完成!云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197面向在線查詢類任務(wù)的Hadoop系統(tǒng)性能優(yōu)化Hadoop系統(tǒng)設(shè)計(jì)時(shí)重點(diǎn)考慮了高吞吐率大數(shù)據(jù)的處理,在作業(yè)執(zhí)行性能上不夠理想,對實(shí)時(shí)響應(yīng)要求較高的查詢類作業(yè)難以滿足要求。我們進(jìn)行的工作:1.基于短作業(yè)任務(wù)調(diào)度的性能優(yōu)化2.基于動(dòng)態(tài)slot調(diào)度的性能優(yōu)化
Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究研究論文:BigDataMR2012,計(jì)算機(jī)研究與發(fā)展,IPDPS2013SHadoop:OptimizingExecutionPerformanceofShortMapReduceJobsRongGu,XiaoliangYang,JinshuangYan,ChunfengYuan,andYihuaHuangPerformanceOptimizationforShortMapReduceJobExecutioninHadoop
JinshuangYan,XiaoliangYang,RongGu,ChunfengYuan,andYihuaHuang云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197基于短作業(yè)任務(wù)調(diào)度的Hadoop系統(tǒng)性能優(yōu)化現(xiàn)有標(biāo)準(zhǔn)MapReduce作業(yè)初始化和結(jié)束時(shí)需要花費(fèi)十幾秒的常數(shù)時(shí)間,作業(yè)執(zhí)行時(shí),map和reduce任務(wù)的調(diào)度都依賴于心跳機(jī)制進(jìn)行任務(wù)調(diào)度時(shí)的消息傳遞和通信,因而任務(wù)調(diào)度時(shí)間開銷較大,效率較低解決方案:we
optimizethesetupandcleanuptaskstoreducethetimecostduringtheinitializationandterminationstagesofajob我們優(yōu)化了作業(yè)初始化和作業(yè)結(jié)束階段的setup和cleanup兩個(gè)特殊任務(wù)的調(diào)度,去除了以前所有作業(yè)都需要花費(fèi)的十幾秒常數(shù)時(shí)間wedesignandimplementaninstantmessagingmodelintothestandardHadoopfortaskschedulingeventnotificationsbetweentheJobTrackerandTaskTrackers,insteadofusingtheoriginalheartbeat-basedcommunicationmechanism
我們在JobTracker和TaskTracker之間設(shè)計(jì)實(shí)現(xiàn)了一種即時(shí)消息傳遞機(jī)制,去除了原有的心跳通信機(jī)制,顯著縮短了作業(yè)內(nèi)任務(wù)的調(diào)度時(shí)間
Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197基于短作業(yè)任務(wù)調(diào)度的Hadoop系統(tǒng)性能優(yōu)化
實(shí)驗(yàn)結(jié)果:對WorldCount,
Grep和TeraSort等MapReduce的標(biāo)準(zhǔn)Benchmark程序執(zhí)行性能提升達(dá)到35%WorldCount
GrepTeraSort
Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究優(yōu)化前優(yōu)化后云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197基于動(dòng)態(tài)slot調(diào)度的Hadoop系統(tǒng)性能優(yōu)化現(xiàn)有標(biāo)準(zhǔn)MapReduce作業(yè)執(zhí)行時(shí)其底層的Slot調(diào)度是通過靜態(tài)的配置文件設(shè)置的,作業(yè)執(zhí)行過程中即使有空閑的Slot也無法為忙綠的任務(wù)所使用,map任務(wù)與reduce任務(wù)間的Slot也不能互換使用,因而系統(tǒng)的Slot計(jì)算資源使用率不高,也導(dǎo)致作業(yè)執(zhí)行性能不高解決方案:基本解決方案是,我們在作業(yè)執(zhí)行過程中及時(shí)收集Hadoop系統(tǒng)Slot資源分配使用的動(dòng)態(tài)信息,并根據(jù)這些信息為作業(yè)動(dòng)態(tài)分配和調(diào)度Slot資源此項(xiàng)工作目前正在編碼實(shí)現(xiàn)和調(diào)試階段Hadoop系統(tǒng)改進(jìn)與優(yōu)化研究云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197基礎(chǔ)性大數(shù)據(jù)并行算法機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘基礎(chǔ)算法并行化聚類算法并行化分類算法并行化關(guān)聯(lián)規(guī)則挖掘算法神經(jīng)網(wǎng)絡(luò)并行化算法圖比對并行化算法……云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197基礎(chǔ)性大數(shù)據(jù)并行算法頻繁項(xiàng)集挖掘并行化算法本研究組進(jìn)行了基于MapReduce的頻繁項(xiàng)集挖掘算法研究基本思路是基于傳統(tǒng)的Apriori算法和SON算法,提出并實(shí)現(xiàn)了一個(gè)并行化的頻繁項(xiàng)集挖掘算法PSON,用兩輪MapReduce實(shí)現(xiàn)了大規(guī)模頻繁項(xiàng)集挖掘并行計(jì)算研究論文,已發(fā)表于PAAP2011國際會(huì)議PSON:AParallelizedSONAlgorithmwithMapReduceforMiningFrequentSetsTaoXiao,ShuaiWang,ChunfengYuan,YihuaHuangTheFourthInternationalSymposiumonParallelArchitectures,AlgorithmsandProgramming(PAAP2011),Tianjin,Dec.9-11,2011云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197SupposeIisanitemsetconsistingofitemsfromthetransactiondatabaseDLetNbethenumberoftransactionsDLetMbethenumberoftransactionsthatcontainalltheitemsof
IM/NisreferredtoasthesupportofIinD
ExampleHere,N=4,letI={I1,I2},thanM=2becauseI={I1,I2}iscontainedintransactionsT100andT400sothesupportofIis0.5(2/4=0.5)Ifsup(I)isnolessthatanuser-definedthreshold,thenIisreferredtoasafrequentitemsetGoaloffrequentsetsminingTofindallfrequentk-itemsetsfromatransactiondatabase(k=1,2,3,)枚舉計(jì)算的時(shí)間復(fù)雜度是:O(2n*N*t),n是Item的總數(shù),N是Transaction總數(shù),t是每個(gè)Transaction平均包含的Item數(shù)云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197MapphaseEachmapnodetakesinonepartitionandgenerateslocalfrequentitemsetsforthatpartitionusingApriorialgorithm.ForeachlocalfrequentitemsetF,emitskey-valuepair<F,1>.Here,thevalue1isonlytoindicatethatFisalocalfrequentitemsetforthatpartition.ShuffleandSortphaseThesamelocalfrequentitemsetsaresenttoonereducenode.ReducephaseEachreducenodeemitsoneandonlyonekey-valuepair<F,1>toDFSFinallyMergingallthepairsinDFSgivesusallglobalcandidateitemsets云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197AssumptionEachnodeisgivenafullduplicateoftheglobalcandidateitemsetsgeneratedbythe1stMapReducejobbeforehandMapphaseEachmapnodecountsforeachoftheglobalcandidateitemsetsinthepartitionthemapnodeisassignedThenemitspairslike<C,v>whereCisaglobalcandidateitemsetand
visthecountofitinthatpartitionShuffleandSortphaseEachglobalcandidateitemsetanditscountsinallthepartitionsaresenttoonereducenodeReducephaseForeachglobalcandidateitemsetC,reducenodeaddsupalltheassociativecountsforCandemitsonlytheactualglobalfrequentitemsetstoDFS云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197Thetransactiondatabasesizevariesfrom6GBto60GB,withthenumberoftransactionsvariesfrom1millionto500billionConclusion:WhenthesizeofthedatabasereachesathresholdofhundredsofGB,PSONcanfinishrunninginanacceptableperiodoftime,achievingagoodperformanceinscale-upPSONcanachieveagoodperformanceinspeed-up云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù)197基礎(chǔ)性大數(shù)據(jù)并行算法查詢推薦QUBIC并行化算法本研究組進(jìn)行了基于MapReduce的查詢推薦QUBIC并行化算法?;舅悸肥腔谟脩羧罩驹O(shè)計(jì)查詢推薦算法,首先挖掘用戶日志中Query與URL之間的關(guān)系,尋找Q
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年天津旭成科技發(fā)展有限公司招聘備考題庫及答案詳解一套
- 2026年保險(xiǎn)職業(yè)學(xué)院單招綜合素質(zhì)考試題庫附答案
- 商業(yè)空調(diào)合同范本
- 2025年太原幼兒師范高等??茖W(xué)校單招職業(yè)技能考試題庫附答案
- 2025年榆林能源科技職業(yè)學(xué)院單招(計(jì)算機(jī))測試備考題庫及答案1套
- 2025年徐州市云龍區(qū)圖書館運(yùn)營單位外包服務(wù)人員招聘備考題庫及一套答案詳解
- 外發(fā)做貨合同范本
- 招人送水合同范本
- 2026年泰州職業(yè)技術(shù)學(xué)院單招(計(jì)算機(jī))測試模擬題庫及答案1套
- 易房屋搭建協(xié)議書
- 蛋糕店充值卡合同范本
- 消防系統(tǒng)癱瘓應(yīng)急處置方案
- 《美國和巴西》復(fù)習(xí)課
- 模切機(jī)個(gè)人工作總結(jié)
- 尿道損傷教學(xué)查房
- 北師大版九年級中考數(shù)學(xué)模擬試卷(含答案)
- 三國殺游戲介紹課件
- 開放大學(xué)土木工程力學(xué)(本)模擬題(1-3)答案
- 醫(yī)療機(jī)構(gòu)遠(yuǎn)程醫(yī)療服務(wù)實(shí)施管理辦法
- 情感性精神障礙護(hù)理課件
- 從投入產(chǎn)出表剖析進(jìn)出口貿(mào)易結(jié)構(gòu)
評論
0/150
提交評論