人工智能應(yīng)用技術(shù)基礎(chǔ)PPT完整全套教學(xué)課件_第1頁
人工智能應(yīng)用技術(shù)基礎(chǔ)PPT完整全套教學(xué)課件_第2頁
人工智能應(yīng)用技術(shù)基礎(chǔ)PPT完整全套教學(xué)課件_第3頁
人工智能應(yīng)用技術(shù)基礎(chǔ)PPT完整全套教學(xué)課件_第4頁
人工智能應(yīng)用技術(shù)基礎(chǔ)PPT完整全套教學(xué)課件_第5頁
已閱讀5頁,還剩649頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章人工智能新技術(shù)第2章大數(shù)據(jù)第3章機(jī)器學(xué)習(xí)第4章深度學(xué)習(xí)第5章知識圖譜第6章AI圖像技術(shù)第7章自然語言處理第8章智慧物聯(lián)第9章數(shù)字工廠第10章智能機(jī)器人第11章智慧城市人工智能應(yīng)用技術(shù)基礎(chǔ)人工智能技術(shù)基礎(chǔ)前言目錄什么是人工智能從簡單機(jī)器到通用圖靈機(jī)人工智能AI簡史人工智能與自然智能什么是人工智能人工智能(ArtificialIntelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。一般解釋:人工智能就是用人工的方法在機(jī)器(計算機(jī))上實現(xiàn)的智能行為,也稱機(jī)器智能、計算機(jī)智能。人工智能(AI)AI到底是什么霍金說過人類會被人工智能滅族,現(xiàn)在霍金走了,我有點慌其實,你的生活早已被AI支配了,天真,像是Siri、指紋識別、人臉識別、無人駕駛等總感覺這種飄渺的高精尖科技離我遠(yuǎn)得很,沒想到AI已經(jīng)滲透到生活中的點點滴滴了人工智能其實能讓機(jī)器實現(xiàn)原本只有人類才能完成的任務(wù),AI涉及到計算機(jī)科學(xué)、心理學(xué)、哲學(xué)和語言學(xué)等學(xué)科指紋識別人臉識別無人駕駛

超人工智能顧名思義,就像超人一樣全方位碾壓人類腦力體力

人類距離強(qiáng)人工智能還很遠(yuǎn),它能具有自我意識,可以像人腦一樣獨立思考,并制定解決問題的最佳方案

弱人工智能沒有自主意識,只能完成程序設(shè)定內(nèi)的任務(wù),廣泛用于取代機(jī)械體力勞動超強(qiáng)弱1.1從簡單機(jī)器到通用圖靈機(jī)

數(shù)千年來,人類廣泛制造和使用機(jī)器促進(jìn)生產(chǎn)力的發(fā)展??紤]一個簡單的杠桿,用巖石和一定長度的木棒構(gòu)造,或者利用傾斜平面,這臺機(jī)器都能夠幫助人類完成有用的工作。但它們并沒有學(xué)習(xí)能力,因為它們都被自身的構(gòu)建方式所限制。一旦構(gòu)建,如果沒有人類干預(yù),它們就不能適應(yīng)不斷變化的需求,如圖顯示了早期不具備學(xué)習(xí)能力的簡單機(jī)器。

這兩臺機(jī)器都能完成有用的工作,增強(qiáng)人類的能力。知識同化在它們的參數(shù)當(dāng)中,也就是每個部件的尺寸。傾斜平面的功能由其長度和高度決定,杠桿的功能由長度和高度決定。這些由設(shè)計和選擇的尺寸參數(shù),本質(zhì)上仍然是依附于設(shè)計者所擁有的知識水平進(jìn)行建構(gòu)。1.1.1參數(shù)固定的簡單機(jī)器

機(jī)器學(xué)習(xí)涉及在機(jī)器運行時不可以改變的參數(shù)。在上述兩個簡單機(jī)器的情形中,知識是通過參數(shù)的設(shè)計植入其中的。在某種意義上,參數(shù)體現(xiàn)了設(shè)計者的想法。因此,知識是參數(shù)固定化的兩種形式。

今天,許多機(jī)器都能夠適應(yīng)負(fù)載的移動或改變,現(xiàn)代起重機(jī)就是適應(yīng)負(fù)載變化的一個普適例子。如圖所示起重機(jī)吊臂有基本臂和以基本臂當(dāng)中心線的二節(jié)臂、三節(jié)臂二節(jié)臂插裝在基本臂內(nèi),三節(jié)臂插裝在二節(jié)臂內(nèi)……各節(jié)臂之間的相對運動是互相關(guān)聯(lián)的,只要確定基本臂的結(jié)構(gòu)尺寸,其他各節(jié)臂的結(jié)構(gòu)尺寸就可以由該尺寸和滑塊尺寸計算得到。整個吊臂參數(shù)由基本臂參數(shù)和滑塊參數(shù)確定,由于滑塊是可驅(qū)動的,因此,起重機(jī)的吊臂長度可以根據(jù)操作者的需要而改變。1.1.2參數(shù)可調(diào)節(jié)的機(jī)器

電梯可作為日常生活中熟悉的一個例子,點擊電梯的樓層就是為電梯輸入?yún)?shù),電梯到達(dá)指定的樓層自動開門,這是一個參數(shù)可變的機(jī)器運行的案例。

通用圖靈機(jī)是整個人工智能的基礎(chǔ),用機(jī)械時代常見的密碼工作設(shè)備,可以設(shè)想一臺這樣工作的抽象機(jī)器:通過有限的狀態(tài)和控制規(guī)則讀寫一條無限長的有孔紙帶。通用圖靈機(jī)是機(jī)器的邏輯形式,是一種抽象設(shè)備模型,它不是計算工具,而是一臺呈現(xiàn)人類思維活動的機(jī)器模型,而這樣的機(jī)器活動之前只有人類才能進(jìn)行。圖靈機(jī)模型的一個基本思想和特點是將有限的離散設(shè)備作用于無限的輸入和輸出。1.1.3通用圖靈機(jī)

我知道圖靈,圖靈獎是計算機(jī)界的諾貝爾,我們國家的姚期智院士在2000年獲得圖靈獎

圖靈是二戰(zhàn)最偉大的英雄,成功破譯了enigma(恩尼格瑪),讓二戰(zhàn)能夠提前好幾年結(jié)束

他非常喜歡長跑、下棋還有園藝,經(jīng)常說總有一天計算機(jī)也會像人一樣做著相似的事情,也會思考

他的通用圖靈機(jī)理念,被認(rèn)定為當(dāng)代計算機(jī)的前身,他在1950年《計算機(jī)器與智能》提出圖靈測試?yán)?.1

根據(jù)通用圖靈機(jī)工作原理處理下面符號序列指令,按ASCII碼輸出:++++++++++[>++++++++++<-]>++++.+.

7條指令:

+——

使當(dāng)前數(shù)據(jù)單元的值增1。

-——

使當(dāng)前數(shù)據(jù)單元的值減1。

>——

下一個單元作為當(dāng)前數(shù)據(jù)單元。

<——

上一個單元作為當(dāng)前數(shù)據(jù)單元。

[——如果當(dāng)前數(shù)據(jù)單元的值為0,下一條指令在對應(yīng)的]后;

否則,執(zhí)行下一條指令。

]——如果當(dāng)前數(shù)據(jù)單元的值不為0,下一條指令在對應(yīng)的[后;否則,執(zhí)行下一條指令。

.——

把當(dāng)前數(shù)據(jù)單元的值作為字符輸出。

解:數(shù)據(jù)單元A、數(shù)據(jù)單元B置于一條無限長的紙帶里,依次接收指令,數(shù)據(jù)單元A、B初始值都是0,如圖所示

指令從頭開始依次輸入數(shù)據(jù)單元A,每執(zhí)行一次指令“+”,數(shù)據(jù)單元A存儲的值增1,等待下一條指令。圖1-3中指令“>”處,數(shù)據(jù)單元A的值為10,數(shù)據(jù)單元B的值為0。

執(zhí)行完指令“>”后,下一條指令“+”輸入數(shù)據(jù)單元B,每執(zhí)行一次指令“+”,數(shù)據(jù)單元B存儲的值增1,等待下一條指令。圖1-3中指令“<”處數(shù)據(jù)單元B的值為10,數(shù)據(jù)單元A的值為10。

執(zhí)行完指令“<”后,下一條指令“-”輸入數(shù)據(jù)單元A,數(shù)據(jù)單元A的值減1,接著執(zhí)行指令“]”,再執(zhí)行指令“[”后的指令“>”,圖1-2中“>”處數(shù)據(jù)單元B的值為10,數(shù)據(jù)單元A的值為9。

執(zhí)行完指令“>”后,下一條指令“+”輸入數(shù)據(jù)單元B,…,圖1-2中“<”處數(shù)據(jù)單元B的值為20,數(shù)據(jù)單元A的值為9。

圖1-3中此處數(shù)據(jù)單元B的值為100,數(shù)據(jù)單元A的值為1,執(zhí)行下一條指令“-”,數(shù)據(jù)單元A的值為0,又執(zhí)行下一條指令“]”后,再執(zhí)行指令“>”,下一條指令“+”輸入數(shù)據(jù)單元B,數(shù)據(jù)單元B的值為104后,執(zhí)行指令“.”,根據(jù)ASCII碼輸出“h”,數(shù)據(jù)單元B繼續(xù)執(zhí)行指令“+”,再執(zhí)行指令“.”,輸出“i”。

最終,上面程序按ASCII碼輸出:hi。1.2人工智能AI簡史

哲學(xué)上,古希臘哲學(xué)家亞里士多德(Aristotle)提出了形式邏輯的主要定律,系統(tǒng)論述了演繹推理的基本原則

19世紀(jì)末期,德國數(shù)學(xué)家弗雷格(G.Frege)提出用機(jī)械推理的思想表示符號系統(tǒng),開創(chuàng)了現(xiàn)代數(shù)理邏輯

數(shù)學(xué)上,英國邏輯學(xué)家布爾(G.Boole)創(chuàng)立了布爾代數(shù),將數(shù)學(xué)運算歸結(jié)為邏輯推理,首次用符號語言描述了思維活動的基本推理準(zhǔn)則。1.2.1機(jī)器與智能(1956年之前)

1936年,一位才華橫溢的英國年輕人圖靈(Turing)提出一種理想的計算機(jī)數(shù)學(xué)模型,即通用Turing機(jī)。同年,美國數(shù)學(xué)家丘奇(A.Church)運用λ演算(讀作Lambda演算)清晰地定義了可計算函數(shù)。通用Turing機(jī)、可計算函數(shù)、λ演算、遞歸論等本質(zhì)上是等價的。至此,人工智能大廈堅實的理論奠基業(yè)已竣工

工程上,法國物理學(xué)家和數(shù)學(xué)家帕斯卡(B.Pascal,1623--1662)設(shè)計制造了機(jī)械計算器,也稱帕斯卡機(jī)。帕斯卡機(jī)由一連串標(biāo)有0至9這十個數(shù)字的機(jī)輪構(gòu)成,機(jī)輪彼此連接,當(dāng)一個機(jī)輪旋轉(zhuǎn)360°時,緊挨著它左邊的機(jī)輪就旋轉(zhuǎn)1/10周,這就是“進(jìn)位1”,帕斯卡用機(jī)輪和齒輪實現(xiàn)了十進(jìn)制位值系統(tǒng)。帕斯卡機(jī)能夠?qū)κM(jìn)制的整數(shù)進(jìn)行加減運算,也可以對十進(jìn)制的分?jǐn)?shù)與整數(shù)進(jìn)行加法運算。帕斯卡機(jī)出售了一部分,有的一直保存至今

德國數(shù)學(xué)家和哲學(xué)家萊布尼茨(G.W.Leibniz)在帕斯卡機(jī)基礎(chǔ)上制成了能進(jìn)行乘法運算的機(jī)器,萊布尼茨把乘法機(jī)械地表示成一系列加法,兩個數(shù)相乘的過程是通過旋轉(zhuǎn)曲柄的把手完成的。他還提出了邏輯機(jī)的設(shè)計思想,即通過符號體系、推理對象的特征進(jìn)行“推理計算”,這種思想蘊(yùn)含了人工智能AI的萌芽

1937年,年輕的美國碩士生香農(nóng)(C.Shannon),這位20世紀(jì)最偉大的科學(xué)家之一,撰文“ASymbolicAnalysisofRelayandSwitchingCircuits”(繼電器和開關(guān)電路的符號分析),香農(nóng)在這篇文章中論述,開關(guān)電路和邏輯具有共同的本質(zhì),并將開關(guān)的連接方式寫成了邏輯表達(dá)式。這樣,布爾將數(shù)學(xué)問題歸結(jié)為邏輯問題,香農(nóng)將邏輯問題歸結(jié)為電氣開關(guān)連接,于是,人們可以設(shè)計專門的電子機(jī)械,用來計算任何可計算的數(shù)學(xué)函數(shù)

1943年,美國神經(jīng)心理學(xué)家麥卡洛克(W.Maculloch)和數(shù)學(xué)家皮茨(W.Pitts)撰文“ALogicalCalculusoftheIdeasImmanentinNervousActivity”(神經(jīng)活動內(nèi)在概念的邏輯演算),證明了:一定類型的神經(jīng)網(wǎng)絡(luò)原則上能夠計算一定類型的邏輯函數(shù)

1946年,在美國制造出了世界上.

它每秒能完成5000次加法,400次乘法等運算。ENIAC為人工智能研究奠定了物質(zhì)基礎(chǔ)

1950年,圖靈發(fā)表“ComputingMachineryandIntelligence”,文中提出了著名的圖靈測試(TuringTest)

1956年8月,在美國漢諾斯小鎮(zhèn)寧靜的達(dá)特茅斯(Dartmouth)學(xué)院中,麥卡錫(J.McCarthy)、明斯基、香農(nóng)、紐厄爾(A.Newell)、西蒙(H.Simon,諾貝爾經(jīng)濟(jì)學(xué)獎得主)等科學(xué)家集聚一堂,討論會的主題是:用機(jī)器來模仿人類學(xué)習(xí)以及其他方面的智能。經(jīng)麥卡錫提議,會上正式?jīng)Q定使用“ArtificialIntelligence”(AI:人工智能),從此,人工智能作為一門學(xué)科正式誕生

人工智能洶涌的波濤中,交織著兩股不竭的思想源泉:符號主義、聯(lián)結(jié)主義,在兩者此起彼伏的競相發(fā)展過程中,行為主義獨辟蹊徑,爭得了一席之地,也形成一股新力量1.2.2

人工智能形成和發(fā)展(1956年至20世紀(jì)末)

LOGO

符號主義的領(lǐng)軍人物就是被尊稱為“人工智能之父”的麥卡錫,他們認(rèn)為邏輯推理是計算機(jī)智能化的必由之路,其主要成果有:

1956年,紐厄爾(Newell)和西蒙(Simon)等人編制了一個稱為邏輯理論機(jī)(LT)的數(shù)學(xué)定理證明程序,1965年,魯賓遜提出消解法(歸結(jié)原理),掀起了研究計算機(jī)定理證明的又一次高潮第五代計算機(jī)編程語言專家系統(tǒng)和知識工程棋類博弈自動定理證明

1956年,塞繆爾(Samuel)研制成功了跳棋程序。

1997年,IBM公司制造的計算機(jī)“深藍(lán)”擊敗了國際象棋大師卡斯帕羅夫,成為人工智能發(fā)展的一個重要里程碑。

人工智能的崛起歸根于專家系統(tǒng),專家系統(tǒng)是模擬人類專家的知識和經(jīng)驗解決特定領(lǐng)域的問題的計算機(jī)系統(tǒng),專家系統(tǒng)在醫(yī)療,化學(xué),地質(zhì)等領(lǐng)域取得成功,專家系統(tǒng)為人工智能走向工程應(yīng)用和實現(xiàn)理論聯(lián)系實際具有特別重大的意義

1959年,麥卡錫發(fā)明了表處理語言LISP語言,成為人工智能程序設(shè)計的主要通用編程語言。當(dāng)今,Python成為人工智能第三代語言。

日本通商產(chǎn)業(yè)省在1982年開啟“第五代計算機(jī)”大型研究計劃,其目的是造出像人一樣推理的機(jī)器,意欲搶占計算機(jī)和人工智能前沿領(lǐng)域,但該項目未能達(dá)到預(yù)期目標(biāo)。第五代計算機(jī)

聯(lián)結(jié)主義以麥卡洛克和皮茨為代表旗手,打造人工神經(jīng)網(wǎng)絡(luò),起源于人腦模型的研究,不斷創(chuàng)新突破,扎實推進(jìn),現(xiàn)已成為人工智能主陣地

心理學(xué)家赫布(D.Hebb)提出了突觸聯(lián)系效率可變的假設(shè),提出了改變神經(jīng)網(wǎng)絡(luò)連接強(qiáng)度的Hebb規(guī)則。如果兩個神經(jīng)元同時被激發(fā),它們之間的聯(lián)系就會強(qiáng)化,這種假設(shè)就是調(diào)整權(quán)值。

明斯基(M.Minsky)建立了世界上第一個神經(jīng)網(wǎng)絡(luò)機(jī)器SNARC。明斯基用40個神經(jīng)元組成的小網(wǎng)絡(luò)模擬了神經(jīng)信號的傳遞

計算機(jī)科學(xué)家羅森布拉特(F.Rosenblatt)提出了感知機(jī)(Perception),首次將神經(jīng)網(wǎng)絡(luò)研究付諸工程實現(xiàn)

霍普菲爾德(J.Hopfield)提出一種全互聯(lián)型人工神經(jīng)網(wǎng)絡(luò),引入能量函數(shù),給出了網(wǎng)絡(luò)穩(wěn)定性判斷依據(jù)D.Rumelhart、G.Hinton(辛頓)和R.Williams等人提出多層網(wǎng)絡(luò)中的反向傳播算法,即BP網(wǎng)絡(luò),解決了多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問題,它依然是目前廣泛使用的神經(jīng)網(wǎng)絡(luò)算法1949年1951年1958年1982年1986年1952年香農(nóng)發(fā)明了可以闖迷宮的機(jī)器老鼠,從而研究機(jī)器老鼠是如何通過自我學(xué)習(xí)找到走出迷宮的路徑。從老鼠的例子中,我們可以清晰的看到機(jī)器智能是在數(shù)據(jù)的基礎(chǔ)上,掌握更多的數(shù)據(jù),通過一定的策略算法,消除更多的不確定性,讓機(jī)器具有學(xué)習(xí)能力。1991年

布魯克斯研制的機(jī)器昆蟲六足蟲,就是借鑒的自然界的昆蟲,沒有復(fù)雜的大腦,也不會按照傳統(tǒng)的方式進(jìn)行復(fù)雜的推理和知識表示,僅憑四肢和關(guān)節(jié)的協(xié)調(diào),就能很好的適應(yīng)環(huán)境,把這些昆蟲放到復(fù)雜的地形中的時候,它們可以快速的爬行還能聰明的避開障礙物。1975年

霍蘭德提出遺傳算法,遺傳算法是霍蘭德對大自然中的生物進(jìn)化進(jìn)行了大膽的抽象,他在計算機(jī)中用一堆二進(jìn)制串來模擬自然界中的生物體,開創(chuàng)了進(jìn)化計算的先河。

行為主義又稱為進(jìn)化論主義學(xué)派,它和符號主義學(xué)派和聯(lián)結(jié)主義學(xué)派的出發(fā)點不同,它不是把目標(biāo)放在高級智能的人類身上,而是關(guān)注低級生物智能智能+安防

人工智能涉及的數(shù)據(jù)、通信和計算三部分內(nèi)容到了21世紀(jì)都發(fā)生了翻天覆地的變化數(shù)據(jù)的爆發(fā)式增長為人工智能提供了充分的‘養(yǎng)料’,泛在感知數(shù)據(jù)和圖形處理器等計算平臺及新型的以深度學(xué)習(xí)為代表的新方法等因素合力造勢下,人工智能迎來了它的蓬勃發(fā)展期。

人類已經(jīng)正式跨入了人工智能的時代。1.2.3人工智能+時代(進(jìn)入21世紀(jì))智能+制造智能+交通智能+醫(yī)療1.3人工智能與自然智能

宇宙演化史上有兩大標(biāo)志性事件:一是出現(xiàn)了人類,二是出現(xiàn)了器類,我們正處在器類的前夜;器類而不是人類才是宇宙生態(tài)的先民

自然界智能水平最高的生物是人類自身,不但具有很強(qiáng)的生存能力,而且具有感受復(fù)雜環(huán)境、識別物體、表達(dá)和獲取知識、進(jìn)行復(fù)雜的思維推理和判斷的能力。1.3.1器類與人類

人的思維是有自然的局限性的,人工智能就是解除人類思維的這種自然局限性,提升思維能力,這正符合科技發(fā)展的規(guī)律,所有這些提升了思維能力的智能機(jī)器,構(gòu)成了器類。人工即人造的,人造制品處處可見,如人工湖,人工河,人工纖維,人造衛(wèi)星,人工心臟等等,相比以上的人造制品,模擬人類自己的智能難度很大,因為智能沒有嚴(yán)格的定義,所以人工智能的定義也是眾說紛紜,無法統(tǒng)一。通俗的講,人工智能就是用人工的方法在機(jī)器或者是計算機(jī)上實現(xiàn)的智能行為,包括:感知、推理、學(xué)習(xí)、通信和復(fù)雜環(huán)境下的動作行為,所以人工智能也被稱為機(jī)器智能或計算機(jī)智能。

人工智能不是人類的附屬物、也不是宇宙的怪物,只是在智能的某些表現(xiàn)上器類優(yōu)于人類。器類脫胎于人類的懷抱,它將與人類一樣,誕生、成長、發(fā)展壯大,沒有完整生態(tài)的智能器類,就不會有徜徉漫步宇宙的人類,這是必然,也是人類的福祉。機(jī)器智能

人工智能的發(fā)展從一開始就讓我們喜憂參半,它帶給我們?nèi)碌捏w驗之余,同時也一直是我們的焦慮和恐懼的所在。最早的時候可能擔(dān)心機(jī)器人不受掌控,會起兵造反,現(xiàn)在人工智能發(fā)展越來越精進(jìn),我們的擔(dān)心轉(zhuǎn)變成了害怕被機(jī)器人所取代人類的工作。這個問題也一直是社會熱點話題,我們身處在智能化的時代,一定要客觀的認(rèn)識人工智能1.3.2器類的未來機(jī)器人三法則1)機(jī)器人不得傷害人類,或因不作為使人類受到傷害;2)除非違背第一法則,機(jī)器人必須服從人類的命令;3)在不違背第一和第二法則的前提下,機(jī)器人必須保護(hù)自己。非常感謝你的觀看Thankyou!人工智能技術(shù)基礎(chǔ)前言大數(shù)據(jù)大數(shù)據(jù)應(yīng)用場景大數(shù)據(jù)概述商業(yè)大數(shù)據(jù)工業(yè)大數(shù)據(jù)應(yīng)用與案例2.1大數(shù)據(jù)應(yīng)用場景

PM2.5云監(jiān)測平臺建設(shè)了多個無人值守的PM2.5監(jiān)測站,運用光散射法,通過自帶GPS定位功能的物聯(lián)網(wǎng)節(jié)點電路板,每15秒采集一次PM2.5數(shù)據(jù),自動上傳到云端,動態(tài)跟蹤、定位環(huán)境污染源及其污染過程,同時通過PM2.5監(jiān)測云平臺網(wǎng)頁如圖所示與相應(yīng)APP查看空氣情況,便于精細(xì)化監(jiān)測和實時預(yù)警。

云創(chuàng)大數(shù)據(jù)通過與俄羅斯專業(yè)團(tuán)隊合作,整合納米新材料技術(shù)、物聯(lián)傳感網(wǎng)絡(luò)技術(shù)與大數(shù)據(jù)處理平臺技術(shù),利用納米復(fù)合薄膜新材料技術(shù)研制高靈敏的納米傳感器,如圖2-2所示,打造小型化多功能水體、氣體檢測儀,只需將其置于監(jiān)測環(huán)境幾分鐘,就能快速捕捉污染因子,對特定氣體、液體進(jìn)行監(jiān)測、識別及度量。2.2大數(shù)據(jù)概述

世界正處于一個信息爆炸的時代,Internet的出現(xiàn)縮短了人與人、人與世界之間的距離,整個世界連成一個“地球村”。人們通過網(wǎng)絡(luò)可以無障礙交流、交換信息和協(xié)同工作。與此同時,借助Internet的高速發(fā)展、數(shù)據(jù)庫技術(shù)的成熟和普及、高內(nèi)存高性能的存儲設(shè)備和存儲介質(zhì)的出現(xiàn),人類在日常學(xué)習(xí)、生活、工作中產(chǎn)生的數(shù)據(jù)量正以指數(shù)形式增長,呈現(xiàn)“爆炸”狀態(tài),如圖所示?!按髷?shù)據(jù)問題”(BigDataProblem)就是在這樣的背景下產(chǎn)生的,成為科研學(xué)術(shù)界和相關(guān)產(chǎn)業(yè)界的熱門話題,吸引著越來越多的科學(xué)家研究大數(shù)據(jù)相關(guān)的問題。2.2.1大數(shù)據(jù)產(chǎn)生的背景

從麥肯錫咨詢公司對大數(shù)據(jù)的定義,我們可以看出數(shù)據(jù)集的容量不是大數(shù)據(jù)的唯一標(biāo)準(zhǔn)。

持續(xù)增加的數(shù)據(jù)規(guī)模和通過傳統(tǒng)數(shù)據(jù)庫技術(shù)不能有效的管理是大數(shù)據(jù)的兩個關(guān)鍵特征。

一般來說,大數(shù)據(jù)意味著通過傳統(tǒng)的軟件或者硬件無法在有限時間內(nèi)獲得有意義的數(shù)據(jù)集,而在經(jīng)過大數(shù)據(jù)技術(shù)處理后就可以快速獲取有意義數(shù)據(jù)。2010年,ApacheHadoop定義大數(shù)據(jù)為“通過傳統(tǒng)的計算機(jī)在可接受的范圍內(nèi)不能捕獲、管理和處理的數(shù)據(jù)集合”。2011年5月,麥肯錫咨詢公司宣稱大數(shù)據(jù)能夠在創(chuàng)新、競爭和生產(chǎn)力等方面大有作為。大數(shù)據(jù)意味著通過傳統(tǒng)的數(shù)據(jù)庫軟件不能獲得、存儲和管理如此大量的數(shù)據(jù)集。2.2.2大數(shù)據(jù)的概念1Byte=8bit1KB=210(Bytes)Kilobyte1MB=220Megabyte1GB=230Gigabyte1TB=240Terabyte1PB=250Petabytes1EB=260Exabytes1ZB=270Zettabyte1YB=280Yottabyte1BB=290Brontobyte1NB=2100Nonabytes1DB=2110Doggabytes

數(shù)據(jù)基本單位是bit(BinaryDigit),由小到大的順序為:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進(jìn)率1024(2的十次方)來計算:Volume大數(shù)據(jù)的4V特性:

VelocityValueVariety

體量大。采集、存儲、計算的數(shù)據(jù)量都非常大,比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍。無法用常規(guī)方法進(jìn)行分析。

樣式多。包括結(jié)構(gòu)化的表格數(shù)據(jù),半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù),非結(jié)構(gòu)化的視頻音頻、日志數(shù)據(jù),地理位置等

價值密度低。相比尋常少量核心數(shù)據(jù),大數(shù)據(jù)中價值密度低,需要挖掘數(shù)據(jù)。

處理速度快。大數(shù)據(jù)時代,需要對數(shù)據(jù)快速處理,快速得出結(jié)果。

在大數(shù)據(jù)處理流程中,最核心的部分就是對于數(shù)據(jù)信息的分析處理,所以其中所運用到的處理技術(shù)也就至關(guān)重要。提起大數(shù)據(jù)的處理技術(shù),就不得不提起“云計算”,這是大數(shù)據(jù)處理的基礎(chǔ),也是大數(shù)據(jù)分析的支撐技術(shù)。分布式文件系統(tǒng)為整個大數(shù)據(jù)提供了底層的數(shù)據(jù)貯存支撐架構(gòu);為了方便數(shù)據(jù)管理,在分布式文件系統(tǒng)的基礎(chǔ)上建立分布式數(shù)據(jù)庫,提高數(shù)據(jù)訪問速度;在一個開源的數(shù)據(jù)實現(xiàn)平臺上利用各種大數(shù)據(jù)分析技術(shù)可以對不同種類、不同需求的數(shù)據(jù)進(jìn)行分析整理得出有益信息,最終利用各種可視化技術(shù)形象地顯示給數(shù)據(jù)用戶,滿足用戶的各種需求。2.2.3大數(shù)據(jù)關(guān)鍵技術(shù)

云計算是一種大規(guī)模的分布式模型,通過網(wǎng)絡(luò)將抽象的、可伸縮的、便于管理的數(shù)據(jù)、服務(wù)、存儲方式等傳遞給終端用戶。

目前,云計算可以認(rèn)為包含3個層次的內(nèi)容:基礎(chǔ)設(shè)施即服務(wù)(Iaas)、平臺即服務(wù)(Paas)和軟件即服務(wù)(Saas)云計算云計算的三種服務(wù)模式

所謂“云計算”,“云”其實是互聯(lián)網(wǎng)的一個隱喻?!霸朴嬎恪逼鋵嵕褪鞘褂没ヂ?lián)網(wǎng)來接入存儲或運行在遠(yuǎn)程服務(wù)器端的應(yīng)用,數(shù)據(jù),或者服務(wù)。使用云計算提供的應(yīng)用或服務(wù),可以按照不同的層級來

IaaS:Infrastructure-as-a-Service(基礎(chǔ)設(shè)施即服務(wù))

Infrastructure就是基礎(chǔ)設(shè)施的意思,IaaS有時候也叫Hardware-as-a-Service。就是提供硬件相關(guān)的服務(wù)。以前,你要建個網(wǎng)站,建個FTP,需要自己買服務(wù)器和交換機(jī)等硬件設(shè)備,現(xiàn)在不用了,可以使用IaaS服務(wù)商提供的IaaS服務(wù)。

PaaS:Platform-as-a-Service(平臺即服務(wù))

P就是Platform,平臺。某些時候也叫做中間件。基于硬件之上,平臺開發(fā)都可以在這一層進(jìn)行。PaaS服務(wù)提供商提供各種開發(fā)和分發(fā)應(yīng)用的解決方案,比如虛擬服務(wù)器和操作系統(tǒng),以及數(shù)據(jù)庫系統(tǒng)等。

SaaS:Software-as-a-Service(軟件即服務(wù))

這一層是和你的生活每天接觸的一層,在這一層上,就可以直接訪問和使用服務(wù)功能了!例如通過網(wǎng)頁瀏覽器收發(fā)電郵,訂購商品,查看航班信息等。在你的面前,就是具體的應(yīng)用服務(wù)。

Map(映射)Reduce(歸約)

當(dāng)前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組MapReduce技術(shù)

MapReduce是面向大數(shù)據(jù)并行處理的計算模型、框架和平臺它包含以下三層含義:

1.MapReduce是一個基于集群的高性能并行計算平臺(ClusterInfrastructure)。

2.MapReduce是一個并行計算與運行軟件框架(SoftwareFramework)。

3.MapReduce是一個并行程序設(shè)計模型與方法(ProgrammingModel&Methodology)MapReduce的核心思想在于“分而治之”

首先將數(shù)據(jù)源分為若干部分,每個部分對應(yīng)一個初始的鍵-值(Key/Value)對,并分別給不同的Map任務(wù)區(qū)處理,這時的Map對初始的鍵-值(Key/Value)對進(jìn)行處理,產(chǎn)生一系列中間結(jié)果Key/Value對,MapReduce的中間過程shuffle將所有具有相同Key值的value值組成一個集合傳遞給reduce環(huán)節(jié);value接收這些中間結(jié)果,并將相同的value值合并,形成最終的較小value值的集合,如圖所示。

MapReduce系統(tǒng)的提出簡化了數(shù)據(jù)的計算過程,避免了數(shù)據(jù)傳輸過程中大量的通信開銷,使得MapReduce可以運用到多種實際問題的解決方案里,公布之后獲得了極大的關(guān)注,在各個領(lǐng)域均有廣泛的應(yīng)用。

在Google之前,沒有哪一個公司曾需要處理數(shù)量如此多、種類如此繁雜的數(shù)據(jù),因此,Google公司結(jié)合自己的實際應(yīng)用情況,自行開發(fā)了一種分布式文件系統(tǒng)GFS,如圖所示。分布式文件系統(tǒng)(HDFS)

大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理都提出了不同程度的新要求,許多傳統(tǒng)的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫技術(shù)已經(jīng)不足以滿足現(xiàn)代數(shù)據(jù)應(yīng)用的需求為了給大數(shù)據(jù)處理分析提供一個性能更高、可靠性更好的平臺,Dougcutting模仿GFS,為MapReduce開發(fā)了一個云計算開源平臺Hadoop,用JAVA編寫,可移植性強(qiáng).

現(xiàn)在Hadoop已經(jīng)發(fā)展為一個包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫以及數(shù)據(jù)分析處理MapReduce等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem),現(xiàn)已經(jīng)發(fā)展成為目前最流行的大數(shù)據(jù)處理平臺。HadoopHadoop的框架最核心的就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,MapReduce為海量的數(shù)據(jù)提供了計算。大數(shù)據(jù)在Hadoop的處理流程:數(shù)據(jù)是通過了Hadoop的集群處理后得到的結(jié)果

大文件被分成默認(rèn)64M一塊的數(shù)據(jù)塊分布存儲在集群機(jī)器中。

如圖中的文件data1被分成3塊,這3塊以冗余鏡像的方式分布在不同的機(jī)器中。

MapReduce:Hadoop為每一個inputsplit創(chuàng)建一個task調(diào)用Map計算,在此task中依次處理此split中的一個個記錄(record),map會將結(jié)果以key--value的形式輸出,hadoop負(fù)責(zé)按key值將map的輸出整理后作為Reduce的輸入,ReduceTask的輸出為整個job的輸出,保存在HDFS上.

NameNode中記錄了文件是如何被拆分成block以及這些block都存儲到了哪些DateNode節(jié)點。

NameNode同時保存了文件系統(tǒng)運行的狀態(tài)信息。

DataNode中存儲的是被拆分的blocks。

SecondaryNameNode幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息。

JobTracker當(dāng)有任務(wù)提交到Hadoop集群的時候負(fù)責(zé)Job的運行,負(fù)責(zé)調(diào)度多個TaskTracker。

TaskTracker負(fù)責(zé)某一個map或者reduce任務(wù)。Hadoop組成:Hadoop1.x

MapReduce同時處理業(yè)務(wù)邏輯運算和資源調(diào)度,耦合性高Hadoop2.x進(jìn)行改進(jìn),增加Yarn,Yarn負(fù)責(zé)任務(wù)調(diào)度,MapReduce負(fù)責(zé)運算大數(shù)據(jù)生態(tài)什么是集群集群技術(shù)特點:·通過多臺計算機(jī)完成同一個工作,達(dá)到更高的效率·兩機(jī)或多機(jī)內(nèi)容、工作過程完全一樣,如果一臺死機(jī),另一臺可以起作用集群:同一個業(yè)務(wù)部署在多個服務(wù)器上(不同的服務(wù)器運行同樣的代碼,完成同樣的工作)舉個例子小周在公司寫Java程序,但公司業(yè)務(wù)在發(fā)展,一個Java開發(fā)者可能忙不過來,小周有的時候也得請個假呀。于是請了小劉過去一起做Java開發(fā)。平時小周和小劉就寫Java程序,但小劉可能有事要回學(xué)校一趟。沒事,公司還有小周做Java開發(fā)呢,公司開發(fā)還能繼續(xù)運作。

小劉跟小周都是做Java開發(fā)。小劉來了,小周的工作可以分擔(dān)一些。小劉請假了,還有小周在呢。我寫了一個910便利網(wǎng)發(fā)布到服務(wù)器去了,現(xiàn)在越來越多的人訪問了,訪問有點慢,怎么辦???很簡單,(只有充錢才能變強(qiáng)),加配置吧(加cpu,加內(nèi)存)。升級完配置之后,訪問人數(shù)越來越多,于是發(fā)現(xiàn)又不禁用啦,在這臺機(jī)器上加配置已經(jīng)解決不了了,怎么辦???很簡單,(只有充錢才能變強(qiáng)),我再買一臺服務(wù)器,將910便利網(wǎng)也發(fā)布到新買的這臺服務(wù)器上去。特點:

這兩臺服務(wù)器都是運行同一個系統(tǒng)——910便利網(wǎng)好處:

·本來只有一臺機(jī)器處理訪問,現(xiàn)在多了一臺,分擔(dān)了壓力

·如果其中一臺忘記繳費了,暫時用不了了,還有另外一臺什么是分布式分布式:

分布式系統(tǒng)是一組計算機(jī),通過網(wǎng)絡(luò)相互連接傳遞消息與通信后并協(xié)調(diào)它們的行為而形成的系統(tǒng)。組件之間彼此進(jìn)行交互以實現(xiàn)一個共同的目標(biāo)。

一個業(yè)務(wù)分拆多個子業(yè)務(wù),部署在不同的服務(wù)器上(不同的服務(wù)器,運行不同的代碼,為了同一個目的)舉個例子

現(xiàn)在公司有小周和小劉一起做Java開發(fā),做Java開發(fā)一般jQuery,AJAX都能寫一點,所以這些活都由我們來干。可是呢,小劉對前端不是很熟,有的時候調(diào)試半天都調(diào)不出來。老板認(rèn)為小劉是真的菜!于是讓小周專門來處理前端的事情。這樣小劉就高興了,可以專心寫自己的Java,前端就專門交由小周負(fù)責(zé)了。于是,小周和小劉就變成了協(xié)作開發(fā)。

小劉對前端不熟,在調(diào)試的時候可能會花費很多時間,小周來專門做前端的事,小劉可以專心寫自己的Java程序了。都是為了項目正常運行以及迭代。

我的910便利網(wǎng)已經(jīng)部署到兩臺服務(wù)器去了,但是越來越多的人去訪問?,F(xiàn)在也逐漸承受不住啦。那現(xiàn)在怎么辦????那繼續(xù)充錢變強(qiáng)??作為一個理智的我,肯定得想想是哪里有問題?,F(xiàn)在910便利網(wǎng)的模塊有好幾個,全都丟在同一個Tomcat里邊。

其實有些模塊的訪問是很低的(比如后臺管理),那我可不可以這樣做:將每個模塊抽取獨立出來,訪問量大的模塊用好的服務(wù)器裝著,沒啥人訪問的模塊用差的服務(wù)器裝著。這樣的好處是:一、資源合理利用了(沒人訪問的模塊用性能差的服務(wù)器,訪問量大的模塊單獨提升性能就好了)。二、耦合度降低了:每個模塊獨立出來,各干各的事(專業(yè)的人做專業(yè)的事),便于擴(kuò)展。特點:將910便利網(wǎng)的功能拆分,模塊之間獨立,在使用的時候再將這些獨立的模塊組合起來就是一個系統(tǒng)了。好處:

·模塊之間獨立,各做各的事,便于擴(kuò)展,復(fù)用性高

·高吞吐量。某個任務(wù)需要一個機(jī)器運行10個小時,將該任務(wù)用10臺機(jī)器的分布式跑(將這個任務(wù)拆分成10個小任務(wù)),可能2個小時就跑完了哈希方式:

按照數(shù)據(jù)的某一特征計算哈希值,并將哈希值與機(jī)器中的機(jī)器建立映射關(guān)系,從而將不同哈希值的數(shù)據(jù)分布到不同的機(jī)器上。特征就是key-value中的key,也可以是其他與應(yīng)用業(yè)務(wù)邏輯相關(guān)的值。數(shù)據(jù)分布方式一致性哈希:

一致性哈希的基本方式是使用一個哈希函數(shù)計算數(shù)據(jù)或數(shù)據(jù)特征的哈希值,使得哈希函數(shù)的輸出值域為一個封閉的環(huán),也就是說哈希函數(shù)的輸出最大值是最小值的前序,將節(jié)點隨機(jī)分布到這個環(huán)上,每個節(jié)點負(fù)責(zé)處理從自己開始順時針至下一個節(jié)點的全部哈希值域上的數(shù)據(jù)數(shù)據(jù)分布方式2.3商業(yè)大數(shù)據(jù)

市場調(diào)研中經(jīng)常需要各種數(shù)據(jù)證明觀點,或者從大數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,那么有哪些可以使用的數(shù)據(jù)來源。目前常用的數(shù)據(jù)源如表所示:2.2.1商業(yè)大數(shù)據(jù)來源1.數(shù)據(jù)分析2.2.2商業(yè)大數(shù)據(jù)分析

①數(shù)據(jù)獲取及儲存,從各種感知工具中獲取的數(shù)據(jù)通常與空間時空相關(guān),需要及時分析技術(shù)處理數(shù)據(jù)并過濾無用數(shù)據(jù);

②數(shù)據(jù)信息抽取及無用信息的清洗,從異構(gòu)的數(shù)據(jù)源當(dāng)中抽取有用的信息,然后轉(zhuǎn)化為統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)格式;

③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)和語義關(guān)系轉(zhuǎn)換為機(jī)器能夠讀取理解的格式;

④數(shù)據(jù)模型的建立和結(jié)果分析,從數(shù)據(jù)中挖掘出潛在的規(guī)律及信息知識,需要相應(yīng)的數(shù)據(jù)挖掘算法或知識發(fā)現(xiàn)方法;

⑤結(jié)果闡釋,運用可視化技術(shù)對結(jié)果進(jìn)行展示,方便用戶更加清楚直觀地理解。2.活動步驟①識別目標(biāo)需求

首先必須明確數(shù)據(jù)分析的目標(biāo)需求,從而為數(shù)據(jù)的收集和分析提供清晰方向,該步驟是數(shù)據(jù)分析有效性的首要條件。②采集數(shù)據(jù)

目標(biāo)需求明確之后,就要運用合適的方法來有效收集盡可能多的相關(guān)數(shù)據(jù),從而為數(shù)據(jù)分析過程的順利進(jìn)行打下基礎(chǔ)。③數(shù)據(jù)預(yù)處理

通過多種方式采集上來的數(shù)據(jù)通常是雜亂無章,高度冗余并且有一定缺失。如果直接對此類數(shù)據(jù)進(jìn)行分析,不僅會耗費大量時間精力,而且分析得到的結(jié)果也不準(zhǔn)確。為此,需要對數(shù)據(jù)進(jìn)行必要的預(yù)處理。④數(shù)據(jù)挖掘

數(shù)據(jù)挖據(jù)的目的是在現(xiàn)有數(shù)據(jù)基礎(chǔ)之上利用各類有效的算法挖據(jù)出數(shù)據(jù)中隱含的有價值信息,從而達(dá)到分析推理和預(yù)測的效果,實現(xiàn)預(yù)定的高層次數(shù)據(jù)分析需求。3.分析數(shù)據(jù)

在完成對數(shù)據(jù)的各類處理之后,接下來最重要的任務(wù)就是根據(jù)既定的目標(biāo)需求對數(shù)據(jù)處理結(jié)果進(jìn)行分析,目前,大數(shù)據(jù)的分析主要依靠4項技術(shù):統(tǒng)計分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和可視化分析。

統(tǒng)計分析基于統(tǒng)計理論,屬于應(yīng)用數(shù)學(xué)的一個分支。在統(tǒng)計理論中隨機(jī)性和不確定性由概率理論建模。

數(shù)據(jù)挖掘可以認(rèn)為是發(fā)現(xiàn)大數(shù)據(jù)集中數(shù)據(jù)模式的一種計算過程。許多數(shù)據(jù)挖掘算法已經(jīng)在機(jī)器學(xué)習(xí)、人工智能、模式識別、統(tǒng)計和數(shù)據(jù)庫領(lǐng)域得到了應(yīng)用。

機(jī)器學(xué)習(xí)是一門研究機(jī)器獲取新知識和新技能,并識別現(xiàn)有知識的學(xué)問,其理論主要是設(shè)計和分析一些讓計算機(jī)可以自動“學(xué)習(xí)”的算法,機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測。

可視化分析與信息繪圖學(xué)和信息可視化相關(guān)。數(shù)據(jù)可視化的目標(biāo)是以圖形方式清晰有效地展示信息,從而便于解釋數(shù)據(jù)之間的特征和屬性情況。2.4工業(yè)大數(shù)據(jù)2.4.1工業(yè)大數(shù)據(jù)內(nèi)涵IndustrialBigData

工業(yè)大數(shù)據(jù)是指在工業(yè)領(lǐng)域中,圍繞典型智能制造模式,從客戶需求到銷售、訂單、計劃、研發(fā)、設(shè)計、工藝、制造、采購、供應(yīng)、庫存、發(fā)貨和交付、售后服務(wù)、運維、報廢或回收再制造等整個產(chǎn)品全生命周期各個環(huán)節(jié)所產(chǎn)生的各類數(shù)據(jù)及相關(guān)技術(shù)和應(yīng)用的總稱。外部數(shù)據(jù)·與企業(yè)活動相關(guān)的外部數(shù)據(jù)·環(huán)境/宏觀經(jīng)濟(jì)/市場需求走向等生產(chǎn)經(jīng)營·傳統(tǒng)企業(yè)信息化系統(tǒng)內(nèi)包含的信息·ERP/PLM/SCM,CAD/GAE設(shè)備物聯(lián)·被認(rèn)為是狹義的“工業(yè)大數(shù)據(jù)”·工業(yè)4.0/智能制造等主要方向中國法國德國美國《2014年全球大數(shù)據(jù)白皮書》,2018年《美國先進(jìn)制造領(lǐng)導(dǎo)戰(zhàn)略》2015年,“新工業(yè)法國計劃”2017年1月,工業(yè)和信息化部《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》2015年4月,“工業(yè)4.0計劃”2.4.2工業(yè)大數(shù)據(jù)發(fā)展現(xiàn)狀2.4.3工業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)(1)平臺架構(gòu)(2)數(shù)據(jù)平臺(3)采集技術(shù)

工業(yè)大數(shù)據(jù)技術(shù)參考架構(gòu)以工業(yè)大數(shù)據(jù)的全生命周期為主線,從縱向維度分為平臺/工具域和應(yīng)用/服務(wù)域。

工業(yè)大數(shù)據(jù)平臺是工業(yè)大數(shù)據(jù)技術(shù)具體應(yīng)用的載體,是推進(jìn)工業(yè)大數(shù)據(jù)技術(shù)深度應(yīng)用、提升工業(yè)大數(shù)據(jù)在產(chǎn)業(yè)中整體發(fā)展水平的重要基石。

數(shù)據(jù)采集方面,以傳感器為主要采集工具,結(jié)合RFID、條碼掃描器、生產(chǎn)和監(jiān)測設(shè)備、PDA、人機(jī)交互、智能終端等手段采集制造領(lǐng)域多源、異構(gòu)數(shù)據(jù)信息,并通過互聯(lián)網(wǎng)或現(xiàn)場總線等技術(shù)實現(xiàn)原始數(shù)據(jù)的實時準(zhǔn)確傳輸。2.4.3工業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)(4)存儲技術(shù)(5)模態(tài)數(shù)據(jù)集成技術(shù)

工業(yè)大數(shù)據(jù)存儲與管理技術(shù)是針對工業(yè)大數(shù)據(jù)具有多樣性、多模態(tài)、高通量和強(qiáng)關(guān)聯(lián)等特性,研發(fā)的面向高吞吐量存儲、數(shù)據(jù)壓縮、數(shù)據(jù)索引、查詢優(yōu)化和數(shù)據(jù)緩存等能力的關(guān)鍵技術(shù)。工業(yè)大數(shù)據(jù)存儲與管理技術(shù)主要有多源異構(gòu)數(shù)據(jù)高效管理技術(shù)和多模態(tài)數(shù)據(jù)集成技術(shù)兩類關(guān)鍵技術(shù)。

工業(yè)大數(shù)據(jù)來源十分廣泛,包括但不限于研發(fā)環(huán)節(jié)的非結(jié)構(gòu)化工程數(shù)據(jù)、傳統(tǒng)的企業(yè)信息管理系統(tǒng)、服務(wù)維修數(shù)據(jù)和產(chǎn)品服役過程中產(chǎn)生的機(jī)器數(shù)據(jù)等。這些數(shù)據(jù)格式異構(gòu)、語義復(fù)雜且版本多變。2.5應(yīng)用與案例2.5.1H3C大數(shù)據(jù)系統(tǒng)在高校大學(xué)生管理中的應(yīng)用

RBE-BDAS通過對學(xué)校人物(教師、學(xué)生等)與事件模型進(jìn)行模式行為識別,挖掘人物事件之間隱藏的關(guān)系,為智慧校園、平安校園提供強(qiáng)有力的支撐。

學(xué)生版,通過對學(xué)生平時的課堂、學(xué)習(xí)、吃住等資料的分析,對管理好學(xué)生,維持學(xué)校穩(wěn)定,全面掌握學(xué)生情況,以便及時、準(zhǔn)確地應(yīng)對突發(fā)事件與公共危機(jī),及早識別學(xué)業(yè)預(yù)警、心理異常、沉迷游戲的學(xué)生,提升學(xué)生素質(zhì)起到重要作用。2.5.2西北某大學(xué)大數(shù)據(jù)分析系統(tǒng)建設(shè)案例(1)建設(shè)方案

搭建以大數(shù)據(jù)基礎(chǔ)平臺,建設(shè)Hadoop大數(shù)據(jù)存儲和計算框架、MPP分布式數(shù)據(jù)庫,采用離線計算引擎、流式計算引擎和分布式數(shù)據(jù)庫引擎融合技術(shù)架構(gòu),進(jìn)行海量數(shù)據(jù)的存儲和計算,支持未來大數(shù)據(jù)應(yīng)用的不斷擴(kuò)展。

具體包括,學(xué)生板塊,包含學(xué)生概況、學(xué)生畫像、學(xué)業(yè)預(yù)警、沉迷游戲、疑似貧困、疑似失聯(lián)、孤僻人群等分析;教師板塊,包含關(guān)鍵指標(biāo)預(yù)警(科研項目進(jìn)度、科研論文、教學(xué)過程、教學(xué)質(zhì)量)(2)建設(shè)效果

通過大數(shù)據(jù)分析平臺,該大學(xué)整合了校內(nèi)已有數(shù)據(jù),通過數(shù)據(jù)挖掘、建模與關(guān)聯(lián)分析,實現(xiàn)了對學(xué)生的精細(xì)化管理,同時對教師的關(guān)鍵指標(biāo)進(jìn)行可視化管理,方便校領(lǐng)導(dǎo)通過全量數(shù)據(jù)實現(xiàn)科學(xué)決策2.5.3西北民族大學(xué)智慧校園項目案例(1)建設(shè)方案(2)建設(shè)具體內(nèi)容(3)建設(shè)效果學(xué)科大數(shù)據(jù)對學(xué)科進(jìn)行了分析,幫助學(xué)校進(jìn)行自我診斷,為今后發(fā)展提供了依據(jù)論文影響力校外人員挖掘

校際競爭力

學(xué)科知識圖譜爬取與學(xué)生專業(yè)相關(guān)招聘數(shù)據(jù),深入挖局分析構(gòu)建崗位能力模型,如圖所示。分析學(xué)生專業(yè)技能、溝通、文檔讀寫、證書、社會實踐等方面的能力并與崗位模型進(jìn)行對比。通過對比結(jié)論為學(xué)生的就業(yè)、能力提升及學(xué)校專業(yè)調(diào)整供參考。大數(shù)據(jù)做什么大數(shù)據(jù)現(xiàn)象是怎樣形成的大數(shù)據(jù)與云計算

大數(shù)據(jù)干的事情其實就兩件:提供分布式存儲與分布式計算的解決方案。(1)數(shù)據(jù)產(chǎn)生方式的改變(2)人類的活動越來越依賴數(shù)據(jù)(3)各行各業(yè)也越來越依賴大數(shù)據(jù)手段來開展工作當(dāng)數(shù)據(jù)量、數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)處理的任務(wù)要求等超出了傳統(tǒng)數(shù)據(jù)存儲與計算能力時,稱之為“大數(shù)據(jù)(現(xiàn)象)”。

大數(shù)據(jù)和云計算的關(guān)系猶如一枚硬幣的正反面有密不可分的關(guān)系。單臺計算的處理無法滿足大數(shù)據(jù)的需要,只有依托云計算的分布式處理,采用分布式數(shù)據(jù)庫、虛擬化技術(shù)和云存儲,構(gòu)建分布式架構(gòu),對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,才能發(fā)揮大數(shù)據(jù)的作用。非常感謝你的觀看Thankyou!人工智能技術(shù)基礎(chǔ)前言目錄機(jī)器學(xué)習(xí)應(yīng)用場景數(shù)據(jù)驅(qū)動AIK近鄰(KNN)K-Means聚類應(yīng)用與案例3.1機(jī)器學(xué)習(xí)應(yīng)用場景鳶尾花分類

假設(shè)有一名植物學(xué)家對她發(fā)現(xiàn)的鳶尾花的品種很感興趣,她收集了每朵鳶尾花的一些測量數(shù)據(jù):花瓣的長度和寬度以及花萼的長度和寬度,所有測量結(jié)果的單位都是厘米,如圖所示。鳶尾花花瓣(petal)和花萼(sepal)

她還有一些鳶尾花的測量數(shù)據(jù),這些花之前已經(jīng)被植物學(xué)專家鑒定為屬于setosa(山鳶尾)、versicolor(變色鳶尾)或virginica(維吉尼亞鳶尾)三個品種之一,如圖所示。通過這些測量數(shù)據(jù),她可以確定每朵鳶尾花所屬的品種。我們假設(shè)這位植物學(xué)愛好者在野外只會遇到這三種鳶尾花。

我們的目標(biāo)是構(gòu)建一個機(jī)器學(xué)習(xí)模型,可以從這些已知品種的鳶尾花測量數(shù)據(jù)中進(jìn)行學(xué)習(xí),從而能夠預(yù)測新鳶尾花的品種。

因為我們有已知品種的鳶尾花的測量數(shù)據(jù),所以這是一個監(jiān)督學(xué)習(xí)問題。在這個問題中,我們要將這些測量數(shù)據(jù)按一定方法區(qū)分開,這是一個分類(classification)問題,數(shù)據(jù)集中的每朵鳶尾花都屬于三個類別之一,所以這是一個三分類問題??赡艿妮敵觯S尾花的不同品種)叫作類別(class)。單個數(shù)據(jù)點(一朵鳶尾花)的預(yù)期輸出是這朵花的品種,對于一個數(shù)據(jù)點來說,它的品種叫作標(biāo)簽(label)。3.2數(shù)據(jù)驅(qū)動AI3.2.1傳感器和海量數(shù)據(jù)傳感器是獲取自然和生產(chǎn)領(lǐng)域中信息的主要途徑與手段。設(shè)備中的傳感器會產(chǎn)生前所未有的海量數(shù)據(jù)2020年,預(yù)計有35ZB的數(shù)據(jù)產(chǎn)生,也就是2009年數(shù)據(jù)量的44倍,到時候,不管是結(jié)構(gòu)化的或更可能是沒有結(jié)構(gòu)化的數(shù)據(jù)都可以通過機(jī)器來處理,從而獲得大量洞見?,F(xiàn)在的海量數(shù)據(jù)和計算能力都在驅(qū)使機(jī)器學(xué)習(xí)的突破。機(jī)器學(xué)習(xí)的十足威力,看看Google就知道了。Google就是利用機(jī)器學(xué)習(xí),把法國每一個企業(yè)的位置、每一個住房、每一條街都繪制在地圖上了,整個過程只需1個小時。3.2.2什么是機(jī)器學(xué)習(xí)

第一個機(jī)器學(xué)習(xí)的定義來自于亞瑟·塞繆爾(ArthurSamuel)。他定義機(jī)器學(xué)習(xí):在進(jìn)行特定編程的情況下,給予計算機(jī)學(xué)習(xí)能力的領(lǐng)域。

第二個定義來自卡內(nèi)基梅隆大學(xué)TomMitchell定義的機(jī)器學(xué)習(xí):一個好的學(xué)習(xí)問題定義如下,一個程序被認(rèn)為能從經(jīng)驗E中學(xué)習(xí),解決任務(wù)T,達(dá)到性能度量值P,當(dāng)且僅當(dāng),有了經(jīng)驗E后,經(jīng)過P評判,程序在處理T時的性能有所提升。這個定義在學(xué)術(shù)界內(nèi)被多次引用。在垃圾郵件分類問題中,“一個程序”指的是需要用到的機(jī)器學(xué)習(xí)算法,比如邏輯回歸算法;“任務(wù)T”是指區(qū)分垃圾郵件的任務(wù);“經(jīng)驗E”為已經(jīng)區(qū)分過是否為垃圾郵件的歷史郵件,在監(jiān)督式機(jī)器學(xué)習(xí)問題中,這也被稱之為訓(xùn)練數(shù)據(jù);“效果P”為機(jī)器學(xué)習(xí)算法在區(qū)分是否為垃圾郵件任務(wù)上的正確率。通過垃圾郵件分類的問題來解釋機(jī)器學(xué)習(xí)的定義。3.2.3監(jiān)督式/無監(jiān)督式學(xué)習(xí)機(jī)器學(xué)習(xí)采用兩種類型的技術(shù)監(jiān)督式學(xué)習(xí)根據(jù)已知的輸入和輸出訓(xùn)練模型,讓模型能夠預(yù)測未來輸出無監(jiān)督學(xué)習(xí)從輸入數(shù)據(jù)中找出隱藏模式或內(nèi)在結(jié)構(gòu)

監(jiān)督式機(jī)器學(xué)習(xí)能夠根據(jù)已有的包含不確定性的數(shù)據(jù)建立一個預(yù)測模型。監(jiān)督式學(xué)習(xí)算法接受已知的輸入數(shù)據(jù)集(包含預(yù)測變量)和對該數(shù)據(jù)集的已知響應(yīng)(輸出,響應(yīng)變量),然后訓(xùn)練模型,使模型能夠?qū)π螺斎霐?shù)據(jù)的響應(yīng)做出合理的預(yù)測。如果您嘗試去預(yù)測已知數(shù)據(jù)的輸出,則使用監(jiān)督式學(xué)習(xí)。監(jiān)督式學(xué)習(xí)什么是監(jiān)督式學(xué)習(xí)?

如果你在別人的監(jiān)督之下學(xué)習(xí),有人會當(dāng)場評判您是否得出了正確答案。同樣,在監(jiān)督式學(xué)習(xí)中,訓(xùn)練算法時同樣需要一整套帶有標(biāo)記的數(shù)據(jù)。完全標(biāo)記意味著訓(xùn)練數(shù)據(jù)集中的每個示例都標(biāo)記相對應(yīng)的類別。因此,一個由花朵圖像組成的有標(biāo)記數(shù)據(jù)集會告知模型哪些圖片是玫瑰、哪些圖片是雛菊或者水仙。在“看到”新圖像時,模型會將其與訓(xùn)練示例進(jìn)行比較,以給出正確的標(biāo)記。在監(jiān)督式機(jī)器學(xué)習(xí)中,算法需要通過有標(biāo)記的數(shù)據(jù)進(jìn)行學(xué)習(xí)。

監(jiān)督式學(xué)習(xí)中鳶尾花數(shù)據(jù)在人工智能眼里的樣子。在類別信息的指導(dǎo)下,我們很容易就能找到一條最優(yōu)的直線,將特征空間一分為二,使變色鳶尾和山鳶尾各居一隅監(jiān)督式學(xué)習(xí)兩個主要的應(yīng)用領(lǐng)域回歸問題分類問題

分類問題要求算法可以預(yù)測離散值,將輸入數(shù)據(jù)標(biāo)識為特定類或組的成員。在由動物圖像組成的訓(xùn)練數(shù)據(jù)集中,這意味著每張照片已被預(yù)先標(biāo)記為貓、考拉或海龜?shù)取H缓?,算法的評估標(biāo)準(zhǔn)為,算法對其他考拉和海龜?shù)男聢D像進(jìn)行分類的準(zhǔn)確程度。

回歸問題則要求算法基于連續(xù)數(shù)據(jù)。比如線性回歸:給出一個特定的x值,求y變量的值。

溫度的變化或電力需求中的波動。典型的應(yīng)用包括電力系統(tǒng)負(fù)荷預(yù)測和算法交易。

無監(jiān)督學(xué)習(xí)可發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式或內(nèi)在結(jié)構(gòu)。這種技術(shù)可根據(jù)未做標(biāo)記的輸入數(shù)據(jù)集執(zhí)行推理無監(jiān)督式學(xué)習(xí)什么是無監(jiān)督式學(xué)習(xí)?

清晰、完美標(biāo)記的數(shù)據(jù)集并不容易獲得。有時,研究人員會向算法詢問一些他們未知的問題。而這正是無監(jiān)督式學(xué)習(xí)可以發(fā)揮作用的地方。無監(jiān)督式學(xué)習(xí)模型自動提取特征并在數(shù)據(jù)中找到規(guī)律。無監(jiān)督學(xué)習(xí)中鳶尾花數(shù)據(jù)在人工智能眼里的樣子??梢钥吹?,沒有類別信息的指導(dǎo),我們很難判斷哪一些鳶尾花是相同的品種,哪一些鳶尾花是不同品種,更別提使用一條直線為鳶尾花分類了如何確定使用哪種機(jī)器學(xué)習(xí)算法?算法的選擇還取決于您要處理的數(shù)據(jù)的大小和類型、您要從數(shù)據(jù)中獲得的洞察力以及如何運用這些洞察力。下面是選擇監(jiān)督式或者無監(jiān)督機(jī)器學(xué)習(xí)的一些準(zhǔn)則:在以下情況下選擇監(jiān)督式學(xué)習(xí):您需要訓(xùn)練模型進(jìn)行預(yù)測(例如溫度和股價等連續(xù)變量的值)或者分類(例如根據(jù)網(wǎng)絡(luò)攝像頭的錄像片段確定汽車的技術(shù)細(xì)節(jié))。在以下情況下選擇無監(jiān)督學(xué)習(xí):您需要深入了解數(shù)據(jù)并希望訓(xùn)練模型找到好的內(nèi)部表示形式,例如將數(shù)據(jù)拆分到集群中。3.2.4機(jī)器學(xué)習(xí)數(shù)據(jù)處理流程①收集數(shù)據(jù)②準(zhǔn)備輸入數(shù)據(jù)③分析輸入數(shù)據(jù)④訓(xùn)練算法⑤測試算法⑥使用算法3.3K近鄰(KNN)

KNN算法的核心思想是如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。3.3.1KNN簡介下面通過一個簡單的例子說明一下:如圖,綠色圓要被決定賦予哪個類,是紅色三角形還是藍(lán)色四方形?如果K=3,由于紅色三角形所占比例為2/3,綠色圓將被賦予紅色三角形那個類,如果K=5,由于藍(lán)色四方形比例為3/5,因此綠色圓被賦予藍(lán)色四方形類由此也說明了KNN算法的結(jié)果很大程度取決于K的選擇3.3.2KNN算法三要素1.距離度量歐式距離曼哈頓距離閔可夫斯基距離2.K值

先選一個較小的值,然后通過交叉驗證選擇一個合適的最終值。

k越小,即使用較小的領(lǐng)域中的樣本進(jìn)行預(yù)測,訓(xùn)練誤差會減小,但模型會很復(fù)雜,以至于過擬合。

k越大,即使用較大的領(lǐng)域中的樣本進(jìn)行預(yù)測,訓(xùn)練誤差會增大,模型會變得簡單,容易導(dǎo)致欠擬合。3.分類決策規(guī)則

K近鄰法中的分類決策規(guī)則,常用多數(shù)表決法,當(dāng)然,為了弱化K值的影響,還可以采用加權(quán)表決法。(1)多數(shù)表決

由輸入實例的K個鄰近的訓(xùn)練實例中的多數(shù)類決定輸入實例的類,不考慮距離加權(quán)影響,每個投票權(quán)重都為1。(2)加權(quán)表決

由輸入實例的K個鄰近的訓(xùn)練實例中的多數(shù)類加權(quán)決定輸入實例的類——即根據(jù)距離的遠(yuǎn)近,對近鄰的投票進(jìn)行加權(quán),距離越近則權(quán)重越大(權(quán)重為距離平方的倒數(shù))。計算測試數(shù)據(jù)與各個訓(xùn)練數(shù)據(jù)之間的距離按照距離的遞增關(guān)系進(jìn)行排序選取距離最小的K個點確定前K個點所在類別的出現(xiàn)頻率返回前K個點中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類3.3.3KNN算法流程3.3.4KNN示例

假設(shè)大一甲乙兩班學(xué)生合堂上課,座位如圖3—5所示,圖3—5中“△”為甲班學(xué)生,“☆”為乙班學(xué)生,如果后來進(jìn)來一個學(xué)生坐在D處,由于D周邊甲班學(xué)生居多,故預(yù)測D也是甲班的學(xué)生,這稱為投票法。K近鄰法指對新輸入的實例,按簡單投票法則,預(yù)測其類別歸屬。問用K近鄰法則預(yù)測A,B,C各是哪班學(xué)生。解:(1)從上下左右看,

A的上下左右全是“△”為甲班學(xué)生,故A應(yīng)是甲班學(xué)生;B的上下左右全是“☆”為乙班學(xué)生,故B應(yīng)是乙班學(xué)生;C的上下左右,3人是甲班,1人乙班,故C應(yīng)是甲班;D的上下左右全是“△”為甲班學(xué)生,故D應(yīng)是甲班學(xué)生。

(2)從四周看

A的四周有七個“△”為甲班學(xué)生,故A應(yīng)是甲班學(xué)生;B的四周全是“☆”為乙班學(xué)生,故B應(yīng)是乙班學(xué)生;C的四周,3人是甲班,5人乙班,故C應(yīng)是乙班;D的四周全是“△”為甲班學(xué)生,故D應(yīng)是甲班學(xué)生。KNN算法優(yōu)缺點(1)易于實現(xiàn),無需估計參數(shù),無需訓(xùn)練,支持增量學(xué)習(xí),能對超多邊形的復(fù)雜決策空間建模;(2)簡單好用,容易理解,精度高,理論成熟,既可以用來做分類也可以用來做回歸;(3)可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù);(4)訓(xùn)練時間復(fù)雜度為O(n);無數(shù)據(jù)輸入假定;(5)對異常值不敏感。優(yōu)點缺點(1)計算復(fù)雜性高;空間復(fù)雜性高;(2)樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其他樣本的數(shù)量很少);(3)一般數(shù)值很大的時候不用這個,計算量太大。但是單個樣本又不能太少否則容易發(fā)生誤分;(4)最大的缺點是無法給出數(shù)據(jù)的內(nèi)在含義3.4K-Means聚類

聚類的目的也是把數(shù)據(jù)分類,但是事先我是不知道如何去分的,完全是算法自己來判斷各條數(shù)據(jù)之間的相似性,相似的就放在一起。在聚類的結(jié)論出來之前,我完全不知道每一類有什么特點,一定要根據(jù)聚類的結(jié)果通過人的經(jīng)驗來分析,看看聚成的這一類大概有什么特點。什么是聚類

聚類和分類最大的不同在于:分類的目標(biāo)是事先已知的,而聚類則不一樣,聚類事先不知道目標(biāo)變量是什么,類別沒有像分類那樣被預(yù)先定義出來。3.4.1K-Means聚類簡介

(1)選取數(shù)據(jù)空間中的K個對象作為初始中心,每個對象代表一個聚類中心;

(2)對于樣本中的數(shù)據(jù)對象,根據(jù)它們與這些聚類中心的歐氏距離,按距離最近的準(zhǔn)則將它們分到距離它們最近的聚類中心(最相似)所對應(yīng)的類

(3)更新聚類中心:將每個類別中所有對象所對應(yīng)的均值作為該類別的聚類中心,計算目標(biāo)函數(shù)的值

(4)判斷聚類中心和目標(biāo)函數(shù)的值是否發(fā)生改變,若不變,則輸出結(jié)果,若改變,則返回到(2)3.4.2K-Means算法流程給定一個數(shù)據(jù)集根據(jù)K=5初始化聚類中心,保證聚類中心處于數(shù)據(jù)空間內(nèi)根據(jù)計算類內(nèi)對象和聚類中心之間的相似度指標(biāo),將數(shù)據(jù)進(jìn)行劃將類內(nèi)之間數(shù)據(jù)的均值作為聚類中心,更新聚類中心最后判斷算法結(jié)束與否即可,目的是為了保證算法的收斂3.4.3K-Means聚類示例

圖中有5個特征點A(1.5,0.5),B(2.6,1),C(3,2.4),D(4,1.7),E(4.5,1.5),此外再無其他信息。怎樣予以分類呢?沒有標(biāo)注信息,這是無監(jiān)督學(xué)習(xí)問題。情景1若K=1,那么A、B、C、D、E屬于同一類,無需再學(xué)習(xí)。情景2若K=5,那么A、B、C、D、E各自是一類,共5類,也無需再學(xué)習(xí)。情景3假設(shè)K=2,即將這5個特征點分成二類。由于K=2,任取兩個特征點,不妨極端一點,取D、E為初始特征點。無監(jiān)督學(xué)習(xí),首先要確定分幾個類別,假設(shè)分K個類別,K是聚類算法的唯一參數(shù)。

分別計算A、B、C、D與均值點(2.775,1.4)、E(4.5,1.5)的距離,距離點(2.775,1.4)小的歸為一類得聚類{A,B,C},D與E的距離小于D與(2.775,1.4)的距離,得另一聚類{D,E},計算{A,B,C}的均值點為(2.37,1.3),{D,E}的均值點為(4.25,1.6)。分別計算A、B、C、D、E與均值點(2.37,1.3),(4.25,1.6)的距離,距離點(2.37,1.3)小的歸為一類得聚類{A,B,C},距離點(4.25,1.6)小的歸為另一聚類{D,E}。結(jié)論同第二步,已收斂第一步第二步第三步

這說明了兩點:第一,這個算法最終會收斂到一個穩(wěn)定的局部最優(yōu)值,不一定全局最優(yōu),這是由于算法中歐幾里得距離保持不增決定的。第二,分類結(jié)果與初始值有關(guān)。3.4.4層次聚類

層次聚類(HierarchicalClustering)是聚類算法的一種,通過計算不同類別數(shù)據(jù)點間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹。在聚類樹中,不同類別的原始數(shù)據(jù)點是樹的最低層,樹的頂層是一個聚類的根節(jié)點。創(chuàng)建聚類樹有自下而上合并和自上而下分裂兩種方法。如何劃分才合適

論數(shù)據(jù)集應(yīng)該聚類成多少個簇,通常是在討論我們在什么尺度上關(guān)注這個數(shù)據(jù)集。層次聚類算法相比劃分聚類算法的優(yōu)點之一是可以在不同的尺度上(層次)展示數(shù)據(jù)集的聚類情況。

基于層次的聚類算法(HierarchicalClustering)可以是凝聚的(Agglomerative)或者分裂的(Divisive),取決于層次的劃分是“自底向上”還是“自頂向下”。自底向上的合并算法

層次聚類的合并算法通過計算兩類數(shù)據(jù)點間的相似性,對所有數(shù)據(jù)點中最為相似的兩個數(shù)據(jù)點進(jìn)行組合,并反復(fù)迭代這一過程。簡單的說層次聚類的合并算法是通過計算每一個類別的數(shù)據(jù)點與所有數(shù)據(jù)點之間的距離來確定它們之間的相似性,距離越小,相似度越高。并將距離最近的兩個數(shù)據(jù)點或類別進(jìn)行組合,生成聚類樹。相似度的計算層次聚類使用歐式距離來計算不同類別數(shù)據(jù)點間的距離(相似度)3.4.5影響K-Means聚類算法的主要因素初始質(zhì)心的選擇K值的確定距離的計算方法K-Means算法優(yōu)缺點(1)K值的選取不好把握;(2)對于不是凸的數(shù)據(jù)集比較難收斂;(3)如果各隱含類別的數(shù)據(jù)不平衡,比如各隱含類別的數(shù)據(jù)量嚴(yán)重失衡,或者各隱含類別的方差不同,則聚類效果不佳;(4)采用迭代方法,得到的結(jié)果只是局部最優(yōu);(5)對噪音和異常點比較地敏感。缺點優(yōu)點(1)原理比較簡單,實現(xiàn)也是很容易,收斂速度快;(2)聚類效果較優(yōu);(3)算法的可解釋度比較強(qiáng);(4)主要需要調(diào)參的參數(shù)僅僅是簇數(shù)K。3.4.6K-Means聚類優(yōu)缺點3.4.7KNN與K-Means比較

K-Means是無監(jiān)督學(xué)習(xí)的聚類算法,沒有樣本輸出;而KNN是監(jiān)督學(xué)習(xí)的分類算法,有對應(yīng)的類別輸出。KNN基本不需要訓(xùn)練,對測試集里面的點,只需要找到在樣本集中最近的K個點,用這最近的K個樣本的類別來決定測試樣本的類別。而K-Means則有明顯的訓(xùn)練過程,找到K個類別的最佳質(zhì)心,從而決定樣本的簇類別3.5.1KNN應(yīng)用場景待測微生物種類判別

DNA是多數(shù)生物的遺傳物質(zhì),DNA上的堿基(A,T,C和G)就儲藏了遺傳信息,不同物種的DNA序列在序列長度和堿基組成上差異顯著。所以我們能夠通過DNA序列的比較分析,來判斷DNA序列是來自哪些物種。由于測序技術(shù)限制,我們只能得到一定長度的DNA序列片段。通過DNA序列片段與已知的微生物DNA序列進(jìn)行比較,可以確定DNA片段的來源微生物,進(jìn)而確定待測微生物種類。在相關(guān)數(shù)據(jù)基礎(chǔ)上,建立分析方法,在計算資源消耗盡量小的情況下,盡可能快地給出準(zhǔn)確的結(jié)果,以滿足臨床診斷需求。商品圖片分類

京東含有數(shù)以百萬計的商品圖片,“拍照購”“找同款”等應(yīng)用必須對用戶提供的商品圖片進(jìn)行分類。同時,提取商品圖像特征,可以提供給推薦、廣告等系統(tǒng),提高推薦/廣告的效果。通過對圖像數(shù)據(jù)進(jìn)行學(xué)習(xí),以達(dá)到對圖像進(jìn)行分類劃分的目的。3.5.2K-Means應(yīng)用場景文檔分類器

根據(jù)標(biāo)簽、主題和文檔內(nèi)容將文檔分為多個不同的類別。這是一個非常標(biāo)準(zhǔn)且經(jīng)典的K-Means算法分類問題。首先,需要對文檔進(jìn)行初始化處理,將每個文檔都用矢量來表示,并使用術(shù)語頻率來識別常用術(shù)語進(jìn)行文檔分類,這一步很有必要。然后對文檔向量進(jìn)行聚類,識別文檔組中的相似性。這里是用于文檔分類的K-Means算法實現(xiàn)案例。呼叫記錄詳細(xì)分析

通話詳細(xì)記錄(CDR)是電信公司在對用戶的通話、短信和網(wǎng)絡(luò)活動信息的收集。將通話詳細(xì)記錄與客戶個人資料結(jié)合在一起,這能夠幫助電信公司對客戶需求做更多的預(yù)測。使用無監(jiān)督K-Means聚類算法對客戶一天24小時的活動進(jìn)行聚類,來了解客戶數(shù)小時內(nèi)的使用情況。最后一問小剛?cè)?yīng)聘某互聯(lián)網(wǎng)公司的算法工程師,面試官問他“回歸和分類有什么相同點和不同點?”非常感謝你的觀看Thankyou!人工智能應(yīng)用技術(shù)基礎(chǔ)前言目錄4.1深度學(xué)習(xí)應(yīng)用場景4.2從生物神經(jīng)元到M-P模型4.3卷積神經(jīng)網(wǎng)絡(luò)4.4循環(huán)神經(jīng)網(wǎng)絡(luò)4.5應(yīng)用案例什么是深度學(xué)習(xí)?什么是機(jī)器學(xué)習(xí)?學(xué)習(xí)

著名學(xué)者赫伯特·西蒙教授(HerbertSimon,1975年圖靈獎獲得者、1978年諾貝爾經(jīng)濟(jì)學(xué)獎獲得者)曾對“學(xué)習(xí)”給了一個定義:“如果一個系統(tǒng),能夠通過執(zhí)行某個過程,就此改進(jìn)了它的性能,那么這個過程就是學(xué)習(xí)”

從西蒙教授的觀點可以看出,學(xué)習(xí)的核心目的,就是改善性能

遵循西蒙教授的觀點,對于計算機(jī)系統(tǒng)而言,通過運用數(shù)據(jù)及某種特定的方法(比如統(tǒng)計的方法或推理的方法),來提升機(jī)器系統(tǒng)的性能,就是機(jī)器學(xué)習(xí)

卡內(nèi)基梅隆大學(xué)的TomMitchell教授,在他的名作《機(jī)器學(xué)習(xí)》一書中,也給出了更為具體(其實也很抽象)的定義:

對于某類任務(wù)(Task,簡稱T)和某項性能評價準(zhǔn)則(Performance,簡稱P),如果一個計算機(jī)程序在T上,以P作為性能的度量,隨著很多經(jīng)驗(Experience,簡稱E)不斷自我完善,那么我們稱這個計算機(jī)程序在從經(jīng)驗E中學(xué)習(xí)了。

一般說來,人類的知識在兩個維度上可分成四類。即從可統(tǒng)計與否上來看,可分為:是可統(tǒng)計的和不可統(tǒng)計的。從能否推理上看,可分為可推理的和不可推理的。

在橫向方向上,對于可推理的,我們都可以通過機(jī)器學(xué)習(xí)的方法,最終可以完成這個推理。傳統(tǒng)的機(jī)器學(xué)習(xí)方法,就是試圖找到可舉一反三的方法,向可推理但不可統(tǒng)計的象限進(jìn)發(fā)(象限Ⅱ)。目前看來,這個象限的研究工作(即基于推理的機(jī)器學(xué)習(xí))陷入了不溫不火的境地,能不能峰回路轉(zhuǎn),還有待時間的檢驗。

而在縱向上,對于可統(tǒng)計的、但不可推理的(即象限Ⅲ),可通過神經(jīng)網(wǎng)絡(luò)這種特定的機(jī)器學(xué)習(xí)方法,以期望達(dá)到性能提升的目的。目前,基于深度學(xué)習(xí)的棋類博弈(阿爾法狗)、計算機(jī)視覺(貓狗識別)、自動駕駛等等,其實都是在這個象限做出了了不起的成就。

從圖1可知,深度學(xué)習(xí)屬于統(tǒng)計學(xué)習(xí)的范疇。用李航博士的話來說,統(tǒng)計機(jī)器學(xué)習(xí)的對象,其實就是數(shù)據(jù)。這是因為,對于計算機(jī)系統(tǒng)而言,所有的“經(jīng)驗”都是以數(shù)據(jù)的形式存在的。作為學(xué)習(xí)的對象,數(shù)據(jù)的類型是多樣的,可以是各種數(shù)字、文字、圖像、音頻、視頻,也可以是它們的各種組合。

統(tǒng)計機(jī)器學(xué)習(xí),就是從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征(由誰來提取,是個大是大非問題,下面將給予介紹),抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,最后又回到數(shù)據(jù)的分析與預(yù)測當(dāng)中去。

從圖1可以看出,深度學(xué)習(xí),在本質(zhì)上,屬于可統(tǒng)計不可推理的范疇?!翱山y(tǒng)計”是很容易理解的,就是說,對于同類數(shù)據(jù),它具有一定的統(tǒng)計規(guī)律,這是一切統(tǒng)計學(xué)習(xí)的基本假設(shè)。那“不可推理”又是什么概念?其實就是“剪不斷、理還亂”的非線性狀態(tài)了

在哲學(xué)上講,這種非線性狀態(tài),是具備了整體性的“復(fù)雜系統(tǒng)”,屬于復(fù)雜性科學(xué)范疇。復(fù)雜性科學(xué)認(rèn)為,構(gòu)成復(fù)雜系統(tǒng)的各個要素,自成體系,但阡陌縱橫,其內(nèi)部結(jié)構(gòu)難以分割。

簡單來說,對于復(fù)雜系統(tǒng),1+1≠2,也就是說,一個簡單系統(tǒng),加上另外一個簡單系統(tǒng),其效果絕不是兩個系統(tǒng)的簡單累加效應(yīng),而可能是大于部分之和。

因此,我們必須從整體上認(rèn)識這樣的復(fù)雜系統(tǒng)。于是,在認(rèn)知上,就有了從一個系統(tǒng)或狀態(tài)(end)直接整體變遷到另外一個系統(tǒng)或狀態(tài)(end)的形態(tài)。這就是深度學(xué)習(xí)背后的方法論。

與之對應(yīng)的是“DivideandConquer(分而治之)”,其理念正好相反,在哲學(xué)它屬于“還原主義(reductionism,或稱還原論)”。在這種方法論中,有一種“追本溯源”的蘊(yùn)意包含其內(nèi),即一個系統(tǒng)(或理論)無論多復(fù)雜,都可以分解、分解、再分解,直到能夠還原到邏輯原點。

在意象上,還原主義就是“1+1=2”,也就是說,一個復(fù)雜的系統(tǒng),都可以由簡單的系統(tǒng)簡單疊加而成(可以理解為線性系統(tǒng)),如果各個簡單系統(tǒng)的問題解決了,那么整體的問題也就得以解決。比如說,很多的經(jīng)典力學(xué)問題,不論形式有多復(fù)雜,通過不斷的分解和還原,最后都可以通過牛頓的三大定律得以解決。

經(jīng)典機(jī)器學(xué)習(xí)(位于第Ⅱ象限),在哲學(xué)上,在某種程度上,就可歸屬于還原主義。傳統(tǒng)的機(jī)器學(xué)習(xí)方式,通常是用人類的先驗知識,把原始數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論