版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
項目5深度學(xué)習(xí)通過對本章的學(xué)習(xí),了解深度學(xué)習(xí)的概念和特點,理解人工神經(jīng)網(wǎng)絡(luò)的模型與研究內(nèi)容,理解深度學(xué)習(xí)的應(yīng)用與深度學(xué)習(xí)常見框架。了解深度學(xué)習(xí)的概念和特點理解人工神經(jīng)網(wǎng)絡(luò)的模型與研究內(nèi)容理解深度學(xué)習(xí)的應(yīng)用理解深度學(xué)習(xí)常見框架5.1認(rèn)識深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種實現(xiàn)技術(shù),在2006年被首次提出。深度學(xué)習(xí)遵循仿生學(xué),源自神經(jīng)元以及神經(jīng)網(wǎng)絡(luò)的研究,能夠模仿人類神經(jīng)網(wǎng)絡(luò)傳輸和接收信號的方式,進(jìn)而達(dá)到學(xué)習(xí)人類的思維方式的目的。深度學(xué)習(xí)以神經(jīng)網(wǎng)絡(luò)為主要模型,一開始用來解決機(jī)器學(xué)習(xí)中的表示學(xué)習(xí)問題,但是由于其強(qiáng)大的能力,深度學(xué)習(xí)越來越多地用來解決一些通用人工智能問題,比如推理、決策等。目前,深度學(xué)習(xí)技術(shù)在學(xué)術(shù)界和工業(yè)界取得了廣泛的成功,受到高度重視,并掀起新一輪的人工智能熱潮。圖5-1顯示了神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)主要由相互連接的神經(jīng)元(圖中的圓圈)組成。深度學(xué)習(xí)的發(fā)展離不開大數(shù)據(jù)、GPU及模型這3個因素。(1)大數(shù)據(jù)當(dāng)前大部分的深度學(xué)習(xí)模型是有監(jiān)督學(xué)習(xí),依賴于數(shù)據(jù)的有效標(biāo)注。例如,要做一個高性能的物體檢測模型,通常需要使用上萬甚至是幾十萬的標(biāo)注數(shù)據(jù)。(2)GPU當(dāng)前深度學(xué)習(xí)如此火熱的一個很重要的原因就是硬件的發(fā)展,尤其是GPU為深度學(xué)習(xí)模型的快速訓(xùn)練提供了可能。深度學(xué)習(xí)模型通常有數(shù)以千萬計的參數(shù),存在大規(guī)模的并行計算,傳統(tǒng)的以邏輯運算能力著稱的CPU面對這種并行計算會異常緩慢,GPU以及CUDA計算庫專注于數(shù)據(jù)的并行計算,為模型訓(xùn)練提供了強(qiáng)有力的工具。(3)模型在大數(shù)據(jù)與GPU的強(qiáng)有力支撐下,無數(shù)研究學(xué)者的奇思妙想,催生出了一系列優(yōu)秀的深度學(xué)習(xí)模型,并且在學(xué)習(xí)任務(wù)的精度、速度等指標(biāo)上取得了顯著的進(jìn)步。5.2人工神經(jīng)網(wǎng)絡(luò)5.2.1感知機(jī)感知機(jī)被稱為深度學(xué)習(xí)領(lǐng)域最為基礎(chǔ)的模型。雖然感知機(jī)是最為基礎(chǔ)的模型,但是它在深度學(xué)習(xí)的領(lǐng)域中有著舉足輕重的地位,它是神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)學(xué)習(xí)的基礎(chǔ)圖5-2顯示了感知機(jī)模型,感知器是一種數(shù)學(xué)的模型,它可以看作是在模仿生物的神經(jīng)元,有多個輸入,一個激活函數(shù)和一個輸出。一個感知器的輸出可以連接到其它感知器的輸入上,這樣就實現(xiàn)了最基礎(chǔ)的人工神經(jīng)網(wǎng)絡(luò)。感知器激活函數(shù)設(shè)計的初衷,也是在模仿神經(jīng)元的激活狀態(tài)。(2)感知機(jī)原理感知機(jī)接收多個輸入信號,輸出一個信號。這里所說的“信號”可以想象成電流或河流那樣具備“流動性”的東西。像電流流過導(dǎo)線,向前方輸送電子一樣,感知機(jī)的信號也會形成流,向前方輸送信息。但是,和實際的電流不同的是,感知機(jī)的信號只有“流/不流”(1/0)兩種取值,一般人們認(rèn)為0對應(yīng)“不傳遞信號”,1對應(yīng)“傳遞信號”。圖5-3是一個接收兩個輸入信號的感知機(jī),x1、x2是輸入信號,y是輸出信號,w1、w2是權(quán)重(w是weight的首字母)。圖中的矩形框稱為“神經(jīng)元”或者“節(jié)點”。輸入信號被送往神經(jīng)元時,會被分別乘以固定的權(quán)重(w1x1、w2x2),感知器的每一個輸入都和權(quán)重相乘,然后再把所有乘完后的結(jié)果加在一起,也就是相乘后再求和,求和的結(jié)果會作為激活函數(shù)的輸入,而這個激活函數(shù)的輸出會作為整個感知器的輸出。最后神經(jīng)元會計算傳送過來的信號的總和,只有當(dāng)這個總和超過了某個界限值時,才會輸出1,這也稱為“神經(jīng)元被激活”。這里將這個界限值稱為閾值,用符號θ表示。5.2.2神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(NeuralNetwork,NN)亦稱為人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),是由大量神經(jīng)元(Neurons)廣泛互連而成的網(wǎng)絡(luò),是對人腦的抽象、簡化和模擬,應(yīng)用了一些人腦的基本特性。神經(jīng)網(wǎng)絡(luò)與人腦的相似之處可概括為兩方面,一是通過學(xué)習(xí)過程利用神經(jīng)網(wǎng)絡(luò)從外部環(huán)境中獲取知識,二是內(nèi)部神經(jīng)元用來存儲獲取的知識信息。從最簡單的單個神經(jīng)元來講述神經(jīng)網(wǎng)絡(luò)模型的架構(gòu),如圖5-7所示是一個最簡單的單個神經(jīng)元的網(wǎng)絡(luò)模型,它只包含一個神經(jīng)元。人工神經(jīng)網(wǎng)絡(luò)中最小也是最重要的單元叫神經(jīng)元。(3)前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中最基本的網(wǎng)絡(luò)結(jié)構(gòu),它通常由3部分組成,包括input(輸入層)、hidden(隱藏層)和output(輸出層)。前饋神經(jīng)網(wǎng)絡(luò)最左邊一層稱為輸入層,最右邊的一層稱為輸出層,中間一層稱為隱藏層。輸入層從外部世界獲取輸入信息,在輸入節(jié)點中不進(jìn)行任何的計算,僅向隱藏節(jié)點傳遞信息。隱藏層中的節(jié)點對輸入信息進(jìn)行處理,并將信息傳遞到輸出層中,隱藏層是由處于中間位置的所有神經(jīng)節(jié)點組成,因為不能在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中直接觀測到它們的值而得名。輸出層負(fù)責(zé)計算輸出值,并將輸出值傳遞到外部世界。前饋神經(jīng)網(wǎng)絡(luò)模型如圖5-8所示。(4)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)也稱為訓(xùn)練,指的是通過神經(jīng)網(wǎng)絡(luò)所在環(huán)境的刺激作用調(diào)整神經(jīng)網(wǎng)絡(luò)的自由參數(shù),使神經(jīng)網(wǎng)絡(luò)以一種新的方式對外部環(huán)境做出反應(yīng)的一個過程。神經(jīng)網(wǎng)絡(luò)最大的特點是能夠從環(huán)境中學(xué)習(xí),以及在學(xué)習(xí)中提高自身性能。經(jīng)過反復(fù)學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)對其環(huán)境會越來越了解。(5)激活函數(shù)激活函數(shù)(ActivationFunctions)對于人工神經(jīng)網(wǎng)絡(luò)模型以及卷積神經(jīng)網(wǎng)絡(luò)模型去學(xué)習(xí)理解非常復(fù)雜和非線性的函數(shù)來說具有十分重要的作用。神經(jīng)網(wǎng)絡(luò)的輸出是上一層輸入的加權(quán)和,所以網(wǎng)絡(luò)線性關(guān)系過于顯著,屬于線性模型,對于復(fù)雜問題的解決存在難度;但是當(dāng)每個神經(jīng)元都經(jīng)過一個非線性函數(shù),那么輸出就不再是線性的了,整個網(wǎng)絡(luò)模型也就是非線性模型,如此一來,網(wǎng)絡(luò)就能夠解決比較復(fù)雜的問題,激活函數(shù)就是這個非線性函數(shù)。Sigmoid激活函數(shù)示意圖如圖5-9所示。6)損失函數(shù)損失函數(shù)是模型對數(shù)據(jù)擬合程度的反映,擬合得越差、損失函數(shù)的值就越大。與此同時,當(dāng)損失函數(shù)比較大時,其對應(yīng)的梯度也會隨之增大,這樣就可以加快變量的更新速度。卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)顧名思義是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了卷積運算(卷積是測量兩個函數(shù)重疊程度的積分,卷積是對兩個函數(shù)
f()
和
g()
生成第三個函數(shù)的一種數(shù)學(xué)算子,本質(zhì)上就是先將一個函數(shù)翻轉(zhuǎn),然后進(jìn)行滑動疊加),通過卷積核(卷積核是一個二維矩陣,它與原始數(shù)據(jù)進(jìn)行逐個元素的乘積運算,并將結(jié)果相加得到一個新的數(shù)值。5.2.3卷積神經(jīng)網(wǎng)絡(luò)多個卷積核卷積神經(jīng)網(wǎng)絡(luò)作為一個深度學(xué)習(xí)架構(gòu)被提出時,它的最初訴求是降低對圖像數(shù)據(jù)預(yù)處理的要求,以避免煩瑣的特征工程。CNN由輸入層、輸出層以及多個隱藏層組成,隱藏層可分為卷積層、池化層、ReLU層和全連接層,其中卷積層與池化層相配合可組成多個卷積組,逐層提取特征。卷積神經(jīng)網(wǎng)絡(luò)的要點是它們在單個圖像上通過了許多濾波器,每個濾波器都會拾取不同的信號。卷積網(wǎng)絡(luò)采用這些濾波器,圖像特征空間的切片,并逐個映射它們。也就是說,他們會創(chuàng)建一張地圖,顯示每個特征出現(xiàn)的地方。通過學(xué)習(xí)特征空間的不同部分,卷積網(wǎng)絡(luò)允許輕松擴(kuò)展和健壯的特征工程特性。卷積神經(jīng)網(wǎng)絡(luò)可以對輸入的圖像輸出其圖像特征,實現(xiàn)過程如圖5-17所示。5.2.4循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是深度學(xué)習(xí)領(lǐng)域中一類特殊的內(nèi)部存在自連接的神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)復(fù)雜的矢量到矢量的映射。循環(huán)神經(jīng)網(wǎng)絡(luò)的來源是為了刻畫一個序列當(dāng)前的輸出與之前信息的關(guān)系。從網(wǎng)絡(luò)結(jié)構(gòu)上看循環(huán)神經(jīng)網(wǎng)絡(luò)會記憶之前的信息,并利用之前的信息影響后面結(jié)點的輸出。圖5-18為循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。RNN層級結(jié)構(gòu)較之于CNN來說比較簡單,它主要有輸入層,隱藏層和輸出層組成。并且會發(fā)現(xiàn)在隱藏層有一個箭頭表示數(shù)據(jù)的循環(huán)更新,這個就是實現(xiàn)時間記憶功能的方法,即閉合回路。圖5-21為經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò),在圖中輸入是x1,x2,...,xn,輸出為y1,y2,...,yn,也就是說輸入序列和輸出序列必須是等長的,由于這個限制,經(jīng)典RNN的適用范圍比較小,但也有一些問題上適用,比如計算視頻中每一幀的分類標(biāo)簽。因為要對每一幀進(jìn)行計算,因此輸入和輸出序列等長。即輸入為字符,輸出為下一個字符的概率。5.2.5生成對抗網(wǎng)絡(luò)生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)獨特的對抗性思想使得它在眾多生成網(wǎng)絡(luò)模型中脫穎而出,被廣泛應(yīng)用于計算機(jī)視覺、機(jī)器學(xué)習(xí)和語音處理等領(lǐng)域。生成對抗網(wǎng)絡(luò)模型如圖5-22所示,該模型主要包含一個生成模型和一個判別模型。生成對抗網(wǎng)絡(luò)主要解決的問題是如何從訓(xùn)練樣本中學(xué)習(xí)出新樣本,其中判別模型用于判斷輸入樣本是真實數(shù)據(jù)還是訓(xùn)練生成的樣本數(shù)據(jù)。近年來,深度學(xué)習(xí)已經(jīng)徹底改變了許多機(jī)器學(xué)習(xí)任務(wù),從圖像分類和視頻處理,到語音識別和自然語言理解,這些任務(wù)中的數(shù)據(jù)通常表示在歐幾里得空間中。然而,在越來越多的應(yīng)用程序中,數(shù)據(jù)是從非歐幾里得域生成的,并表示為具有復(fù)雜關(guān)系和對象之間相互依賴的圖形。圖數(shù)據(jù)的復(fù)雜性給現(xiàn)有的機(jī)器學(xué)習(xí)算法帶來了巨大的挑戰(zhàn)。圖5-24左為圖像(歐幾里得空間),右為圖(非歐幾里得空間)。5.2.6圖神經(jīng)網(wǎng)絡(luò)5.3深度學(xué)習(xí)架構(gòu)5.3.1注意力機(jī)制注意力機(jī)制從字面意思來看和人類的注意力機(jī)制類似。人類通過快速掃描全局文本,獲得需要重點關(guān)注的區(qū)域,也就是一般所說的注意力焦點,而后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,而抑制其他無用信息。圖5-25顯示了帶注意力機(jī)制的自編碼模型,該模型其本質(zhì)都是通過一個Encoder(編碼)和一個Decoder(解碼)實現(xiàn)機(jī)器翻譯、文本轉(zhuǎn)換、機(jī)器問答等功能。所謂編碼,就是將輸入序列轉(zhuǎn)化成一個固定長度的向量;解碼,就是將之前生成的固定向量再轉(zhuǎn)化成輸出序列。Transformer由6個結(jié)構(gòu)相同的Encoder串聯(lián)構(gòu)成編碼層,用6個結(jié)構(gòu)相同的Decoder串聯(lián)構(gòu)成解碼層。Transformer模型的核心思想是完全拋棄傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),而是引入了自注意力機(jī)制。5.4.1自動駕駛在過去的十年里,自動駕駛汽車技術(shù)取得了越來越快的進(jìn)步,主要得益于深度學(xué)習(xí)和人工智能領(lǐng)域的進(jìn)步。5.4深度學(xué)習(xí)的應(yīng)用5.4.2產(chǎn)品質(zhì)量檢測隨著人工智能、邊緣計算等新興技術(shù)的高速發(fā)展,人們同樣賦予了機(jī)器“認(rèn)識”和“改造”世界的能力,從而替代人眼對外部環(huán)境進(jìn)行測量、識別與判斷,在無接觸的情況下完成既定的任務(wù)。當(dāng)前制造業(yè)產(chǎn)品外表檢查主要有人工質(zhì)檢和機(jī)器視覺質(zhì)檢兩種方式,不過人工質(zhì)檢成本高、誤操作多、生產(chǎn)數(shù)據(jù)無法有效留存。例如在軸承生產(chǎn)中,通常情況下質(zhì)檢員是采用人工肉眼觀察、手指轉(zhuǎn)動軸承等質(zhì)檢方式挑出表面有油污、劃痕、磨削燒傷等不良缺陷,效率較低。而隨著工業(yè)自動化的不斷發(fā)展,機(jī)器視覺技術(shù)已在工業(yè)中得到越來越廣泛的應(yīng)用,并越來越受到企業(yè)的認(rèn)可和青睞。機(jī)器視覺檢測就是用機(jī)器代替人眼來做測量和判斷。作為神經(jīng)網(wǎng)絡(luò)的高階發(fā)展產(chǎn)物,深度學(xué)習(xí)通過大腦仿生使得計算機(jī)從經(jīng)驗中學(xué)習(xí)知識,根據(jù)層次化概念體系理解環(huán)境,進(jìn)而去人化地解決難以形式化描述的任務(wù)。深度學(xué)習(xí)的常用模型主要包括循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼等,主要應(yīng)用于圖像處理、數(shù)據(jù)分析、語音識別等領(lǐng)域?;谏疃葘W(xué)習(xí)的產(chǎn)品缺陷視覺檢測是一種快速、高效、準(zhǔn)確率高的缺陷自動識別方法,借助特征可視化手段對深度學(xué)習(xí)模型提取到的特征進(jìn)行可視化分析來檢測產(chǎn)品瑕疵,進(jìn)而精準(zhǔn)打標(biāo),提升分級模型訓(xùn)練的準(zhǔn)確度,實現(xiàn)產(chǎn)品缺陷的高效準(zhǔn)確分級,解決注塑工業(yè)中外觀檢測的痛點和難點。5.5深度學(xué)習(xí)框架深度學(xué)習(xí)框架的實現(xiàn)非常復(fù)雜,并且通常包含諸如圖片處理、視頻處理和科學(xué)計算庫等第三方軟件包。每個深度學(xué)習(xí)框架的實現(xiàn)都不同,但深度學(xué)習(xí)框架通常可以抽象為三層,頂層包括程序邏輯、模型和訓(xùn)練數(shù)據(jù),中間層是深度學(xué)習(xí)框架的實現(xiàn),包括張量數(shù)據(jù)結(jié)構(gòu)實現(xiàn)方法、各種過濾器和神經(jīng)網(wǎng)絡(luò)層的實現(xiàn)。前兩層的實現(xiàn)通??梢赃x擇C++(Caffe)、Python(Tensorflow)、Lua(Torch)等語言。底層是框架使用的基礎(chǔ)構(gòu)建塊,通常包括音視頻處理和模型表示的組件,構(gòu)建塊的選擇取決于框架的設(shè)計方案。(1)TensorflowTensorFlow是一個由GoogleBrain團(tuán)隊開發(fā)的開源深度學(xué)習(xí)框架。它允許開發(fā)者創(chuàng)建多種機(jī)器學(xué)習(xí)模型,包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)等。(2)PyTorch
PyTorch是一個由Facebook開源的深度學(xué)習(xí)框架,是目前市場上最流行的深度學(xué)習(xí)框架之一。它基于Python語言,提供了強(qiáng)大的GPU加速功能和動態(tài)計算圖的支持。(3)CaffeCaffe的全稱是ConvolutionalArchitectureforFastFeatureEmbedding,意為“用于特征提取的卷積架構(gòu)”,它是一個清晰、高效的深度學(xué)習(xí)框架,核心語言是C++。人工智能應(yīng)用新編21世紀(jì)高等職業(yè)教育精品教材·電子與信息類主編黃源楊鑒余法紅項目6計算機(jī)視覺通過對本章的學(xué)習(xí),了解計算機(jī)視覺的概念,理解圖像預(yù)處理技術(shù),理解圖像分類、目標(biāo)檢測、圖像分割、行為識別、圖像增強(qiáng)與視覺問答,理解計算機(jī)視覺的應(yīng)用。計算機(jī)視覺的概念理解圖像預(yù)處理技術(shù)理解圖像分類理解目標(biāo)檢測理解圖像分割理解行為識別理解圖像增強(qiáng)理解視覺問答熟悉計算機(jī)視覺的應(yīng)用計算機(jī)視覺是研究如何讓機(jī)器“看”的科學(xué),其可以模擬、擴(kuò)展或者延伸人類智能,從而幫助人類解決大規(guī)模復(fù)雜的問題,如圖6-1所示。6.1認(rèn)識計算機(jī)視覺計算機(jī)視覺技術(shù)經(jīng)過幾十年的發(fā)展,已經(jīng)在交通(車牌識別、道路違章抓拍)、安防(人臉閘機(jī)、小區(qū)監(jiān)控)、金融(刷臉支付、柜臺的自動票據(jù)識別)、醫(yī)療(醫(yī)療影像診斷)、工業(yè)生產(chǎn)(產(chǎn)品缺陷自動檢測)等多個領(lǐng)域應(yīng)用,影響或正在改變?nèi)藗兊娜粘I詈凸I(yè)生產(chǎn)方式。6.2圖像預(yù)處理技術(shù)由于攝像機(jī)攝取圖像會受到如光照變化、噪聲干擾、攝像機(jī)畸變等因素的影響,景物在不同視點下的圖像會有很大不同,要在這些干擾因素下準(zhǔn)確的表征圖像特征數(shù)據(jù)信息,需要對圖像冗余環(huán)境背景信息進(jìn)行預(yù)處理,來降低圖像背景復(fù)雜度。圖像預(yù)處理技術(shù)主要包括圖像灰度化、灰度圖像二值化、圖像增強(qiáng)、圖像濾波、圖像形態(tài)學(xué)處理等。彩色圖像灰度化6.2.1圖像分類圖像分類利用計算機(jī)對圖像進(jìn)行定量分析,把圖像或圖像中的區(qū)域劃分為若干個類別,以代替人的視覺判斷。圖像分類系統(tǒng)的目標(biāo)是根據(jù)輸入圖像,從類別集中分配一個類別,在此為cat類別。分類系統(tǒng)也可以根據(jù)概率給圖像分配多個標(biāo)簽,如cat:92%,dog:7%,eagle:1%。6.3計算機(jī)視覺主要內(nèi)容圖像分類算法圖像分類算法通過手工特征或者特征學(xué)習(xí)方法對整個圖像進(jìn)行全局描述,然后使用分類器判斷是否在某類物體。應(yīng)用比較廣泛的圖像特征有SIFT,HOG,SURF等。由于深度學(xué)習(xí)算法在圖像分類中的大面積應(yīng)用,涌現(xiàn)出了一大批優(yōu)秀的適用于圖像分類的深度學(xué)習(xí)模型框架,如下所述介紹常用的3類深度學(xué)習(xí)模型。(1)VGG模型VGG模型相比以往模型進(jìn)一步加寬和加深了網(wǎng)絡(luò)結(jié)構(gòu),它的核心是五組卷積操作,每兩組之間做最大池化的空間降維。(2)GoogLeNet模型GoogLeNet模型由多組Inception模塊組成,該模型的設(shè)計借鑒了NIN(NetworkinNetwork)的一些思想。(3)ResNet模型殘差網(wǎng)絡(luò)(ResidualNetwork,ResNet)是用于圖像分類、圖像物體定位和圖像物體檢測的深度學(xué)習(xí)模型。6.2.2目標(biāo)檢測目標(biāo)檢測的任務(wù)是找出圖像中所有感興趣的目標(biāo)(物體),確定它們的類別和位置。例子確定某張給定圖像中是否存在給定類別(比如人、車、自行車、狗和貓)的目標(biāo)實例;如果存在,就返回每個目標(biāo)實例的空間位置和覆蓋范圍?,F(xiàn)在流行的目標(biāo)檢測方法是通過不同寬高比的窗口在圖像上滑動(滑窗法),得到很多個區(qū)域框,如圖6-10所示。深度學(xué)習(xí)是具有隱藏層數(shù)更多的深度神經(jīng)網(wǎng)絡(luò),它可以學(xué)習(xí)到機(jī)器學(xué)習(xí)等算法不能學(xué)習(xí)到的更加深層次的數(shù)據(jù)特征,能夠更加抽象并且準(zhǔn)確地表達(dá)數(shù)據(jù)。因此基于深度學(xué)習(xí)的各類算法被廣泛的應(yīng)用于目標(biāo)檢測中。(1)R-CNNR-CNN采用的是SelectiveSearch,使用聚類的方法對圖像進(jìn)行分組,得到多個候選框的層次組。(2)SPP-NETSPP-NET是在R-CNN的基礎(chǔ)上提出來的(3)FastR-CNN由于R-CNN在候選區(qū)域上進(jìn)行特征提取時存在大量重復(fù)性計算,為了解決這個問題提出了FastR-CNN,F(xiàn)astR-CNN借鑒SPPNet對R-CNN進(jìn)行了改進(jìn),檢測性能獲得提升。3.運動檢測由于運動檢測處于視頻運動分析的最底層,廣泛的應(yīng)用場合使運動檢測算法應(yīng)該可以處理各種復(fù)雜的情況,但很難有一種算法能夠適合所有的應(yīng)用場合,所以對運動檢測方法的研究一直是國內(nèi)外研究的重點。就國內(nèi)外發(fā)表的文獻(xiàn)來看,現(xiàn)在普遍采用的運動檢測方法有:(1)幀間差分法(FramesDifference)(2)背景差分法(BackgroundDifference)(3)光流法(OpticalFlow)圖像分割是利用圖像的灰度、顏色、紋理、形狀等特征,把圖像分成若干個互不重疊的區(qū)域,并使這些特征在同一區(qū)域內(nèi)呈現(xiàn)相似性,在不同的區(qū)域之間存在明顯的差異性。然后就可以將分割的圖像中具有獨特性質(zhì)的區(qū)域提取出來用于不同的研究。6.2.3圖像分割目前圖像分割方法數(shù)量已經(jīng)達(dá)到上千種。隨著對圖像分割的更深層次研究和其他科學(xué)領(lǐng)域的發(fā)展,陸續(xù)出現(xiàn)了許多使用新理論的圖像分割算法,各種圖像分割算法都有其不同理論基礎(chǔ),下面介紹4種常見的圖像分割算法。(1)基于閾值的圖像分割算法(2)基于邊緣檢測的圖像分割算法(3)基于區(qū)域的圖像分割算法(4)基于神經(jīng)網(wǎng)絡(luò)技術(shù)的圖像分割算法行為識別研究的是視頻中目標(biāo)的動作,比如判斷一個人是在走路,跳躍還是揮手。在視頻監(jiān)督,視頻推薦和人機(jī)交互中有重要的應(yīng)用。圖6-16為基于骨骼關(guān)鍵點檢測的深度神經(jīng)網(wǎng)絡(luò)算法,可自動識別人體姿勢,如關(guān)節(jié),五官等,通過關(guān)鍵點描述人體骨骼信息,以此來判別動作類型。6.2.4行為識別圖像增強(qiáng)是指對低質(zhì)量圖像做變換修改,得到質(zhì)量更高的圖像。圖像增強(qiáng)的意義是通過對訓(xùn)練圖像做一系列隨機(jī)改變,來產(chǎn)生相似但又不同的訓(xùn)練樣本,從而擴(kuò)大訓(xùn)練數(shù)據(jù)集的規(guī)模,而且隨機(jī)改變訓(xùn)練樣本可以降低模型對某些屬性的依賴,從而提高模型的泛化能力。根據(jù)低質(zhì)量圖像的種類不同,圖像增強(qiáng)應(yīng)用可以包括圖像去噪、圖像超分辨率、圖像去模糊以及亮度提升等。6.2.5圖像增強(qiáng)視覺問答是計算機(jī)視覺領(lǐng)域和自然語言處理領(lǐng)域的交叉方向,近年來受到了廣泛關(guān)注。一個視覺問答系統(tǒng)以一張圖片和一個關(guān)于這張圖片形式自由、開放式的自然語言問題作為輸入,以生成一條自然語言答案作為輸出。簡單來說,視覺問答就是給定的圖片進(jìn)行問答。6.2.6視覺問答6.4計算機(jī)視覺的應(yīng)用6.4.1智慧醫(yī)療隨著近幾年來計算機(jī)視覺技術(shù)的進(jìn)步,智慧醫(yī)療領(lǐng)域受到了學(xué)術(shù)界和產(chǎn)業(yè)界的持續(xù)關(guān)注,其應(yīng)用也越來越廣泛和深入。面向智慧醫(yī)療,人工智能技術(shù)從三個層面將產(chǎn)生深刻的影響:第一層面對于臨床醫(yī)生,計算機(jī)視覺技術(shù)能幫助其更快速、更準(zhǔn)確地進(jìn)行圖像分析工作;第二層面對于衛(wèi)生系統(tǒng),其能通過人工智能的方式改善工作流程、減少醫(yī)療差錯;第三層面對于患者,通過增強(qiáng)的云存儲能力,他們可以處理自己的數(shù)據(jù),以促進(jìn)自我健康。目前,在醫(yī)學(xué)上采用的圖像處理技術(shù)大致包括壓縮、存儲、傳輸和自動/輔助分類判讀,此外還可用于醫(yī)生的輔助訓(xùn)練手段。與計算機(jī)視覺相關(guān)的工作包括分類、判讀和快速三維結(jié)構(gòu)的重建等方面。長期以來,地圖繪制是一件耗費人力、物力和時間的工作。以往的做法是人工測量,現(xiàn)在更多的是利用航測加上立體視覺中恢復(fù)三維形狀的方法繪制地圖,大大提高了地圖繪制的效率。同時,通用物體三維形狀分析與識別一直是計算機(jī)視覺的重要研究目標(biāo),并在景物的特征提取、表示、知識的存儲、檢索以及匹配識別等方面都取得了一定的進(jìn)展,構(gòu)成了一些用于三維景物分析的系統(tǒng)。6.5計算機(jī)視覺面臨的問題未來計算機(jī)視覺任務(wù)發(fā)展面臨的挑戰(zhàn)主要來自3個方面:(1)數(shù)據(jù)集(2)有標(biāo)注的圖像和視頻數(shù)據(jù)較少,機(jī)器在模擬人類智能進(jìn)行認(rèn)知或者感知的過程中,需要大量有標(biāo)注的圖像或者視頻數(shù)據(jù)指導(dǎo)機(jī)器學(xué)習(xí)其中一般的模式。當(dāng)前,主要依賴人工標(biāo)注海量的圖像視頻數(shù)據(jù),不僅費時費力而且沒有統(tǒng)一的標(biāo)準(zhǔn),可用的有標(biāo)注的數(shù)據(jù)有限,這使機(jī)器的學(xué)習(xí)能力受限。(3)計算機(jī)視覺技術(shù)的精度有待提高,如在物體檢測任務(wù)中,當(dāng)前最好的檢測正確率為66%,這樣的結(jié)果只能應(yīng)用于對正確率要求不是很高的場景下。(4)提高計算機(jī)視覺任務(wù)處理的速度迫在眉睫,圖像和視頻信息需要借助高維度的數(shù)據(jù)進(jìn)行表示,這是讓機(jī)器看懂圖像或視頻的基礎(chǔ),這就對機(jī)器的計算能力和算法的效率提出很高的要求。人工智能應(yīng)用新編21世紀(jì)高等職業(yè)教育精品教材·電子與信息類主編黃源楊鑒余法紅項目7自然語言處理通過本章的學(xué)習(xí),了解NLP的定義、發(fā)展歷程及開發(fā)環(huán)境等,理解并掌握NLP的文本處理、機(jī)器翻譯以及語音識別相關(guān)知識,了解NLP的常見應(yīng)用場景。了解NLP的發(fā)展歷史、編程工具、庫以及開發(fā)環(huán)境理解NLP的基本概念掌握NLP的文本處理、機(jī)器翻譯、語音識別了解NLP的應(yīng)用7.1自然語言處理概述自然語言處理(NaturalLanguageProcessing,NLP)是指利用計算機(jī)對自然語言的形、音、義等信息進(jìn)行處理,即對字、詞、句、篇章的輸人、輸出、識別、分析、理解、生成等進(jìn)行操作和加工的過程。NLP機(jī)制涉及兩個流程:自然語言理解和自然語言生成。自然語言理解研究的是計算機(jī)如何理解自然語言文本中包含的意義,自然語言生成研究的是計算機(jī)如何生成自然語言文本表達(dá)給定的意圖、思想等。關(guān)于NLP的研究始于20世紀(jì)50年代,在1946年世界上第一臺通用電子計算機(jī)誕生時,英國人布思和美國人韋弗就提出了利用計算機(jī)進(jìn)行機(jī)器翻譯。從這個時間點開始NLP技術(shù)已經(jīng)歷70多年的發(fā)展歷程。歸納起來可分為“萌芽期”“發(fā)展期”“繁榮期”3個階段。如果想要使用計算機(jī)處理文本,那么我們首先要做的就是讓計算機(jī)認(rèn)識我們的文本信息。為此,我們通常會對文本信息進(jìn)行預(yù)處理、分詞、特征化等操作從而將文本信息轉(zhuǎn)化為計算機(jī)能夠識別的0和1代碼,然后再進(jìn)行機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等對計算機(jī)識別出的文本進(jìn)行處理。7.2文本處理分詞根據(jù)語境,將句子以字詞為單位劃分的過程稱之為分詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為分界符的,而中文只是字、句和段能通過明顯的分界符(逗號、句號等)來簡單劃界,唯獨詞沒有一個形式上的分界符,分詞過程就是找到這樣的分界符的過程。當(dāng)前中文分詞研究主要面臨的問題和困難體現(xiàn)在三個方面:分詞的規(guī)范、歧義詞的切分和未登錄詞識別。(1)分詞的規(guī)范。
中文因其自身語言特性的局限,單字詞與詞素之間、詞與短語(詞組)之間劃界均沒有一個公認(rèn)的、權(quán)威的標(biāo)準(zhǔn)。所以,從計算的嚴(yán)格意義上說,中文分詞是一個沒有明確定義的問題
。(2)歧義切分問題(3)未登錄詞問題常用的中文分詞方法(1)基于詞典的分詞法基于詞典的方法是從大規(guī)模的訓(xùn)練語料中提取分詞詞庫,并同時將詞語的詞頻統(tǒng)計出來,然后通過逆向最大匹配、N-最短路徑等分詞方法對句子進(jìn)行切分。2、基于字的分詞法與基于詞典的分詞方法不同,該方法需要依賴于一個事先編制好的詞典,通過查詞典的方式作出最后的切分決策。(3)基于統(tǒng)計的分詞法基于統(tǒng)計的分詞方法是利用大量的語料庫進(jìn)行統(tǒng)計分析,通過計算每個詞語在語料庫中出現(xiàn)的頻率和概率,來確定每個詞語的邊界。具體來說,該方法分為兩個步驟:訓(xùn)練和分詞。分詞技術(shù)分詞技術(shù)目前已經(jīng)非常成熟,目前主要分三種:(1)最大匹配分詞算法最大匹配是指以詞典為依據(jù),取詞典中最長單詞為第一次取字?jǐn)?shù)量的掃描串,在詞典中進(jìn)行掃描(為提升掃描效率,還可以跟據(jù)字?jǐn)?shù)多少設(shè)計多個字典,然后根據(jù)字?jǐn)?shù)分別從不同字典中進(jìn)行掃描)。例如:詞典中最長詞為“中華人民共和國”共7個漢字,則最大匹配起始字?jǐn)?shù)為7個漢字。然后逐字遞減,在對應(yīng)的詞典中進(jìn)行查找。(2)詞義分詞法該方法是一種機(jī)器語音判斷的分詞方法。很簡單,進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象來分詞,這種分詞方法目前還不成熟,處在測試階段。(3)統(tǒng)計分詞法根據(jù)詞組的統(tǒng)計,就會發(fā)現(xiàn)兩個相鄰的字出現(xiàn)的頻率最多,那么這個詞就很重要。就可以作為用戶提供字符串中的分隔符來分詞。比如,“我的,你的,許多的,這里,這一,那里”等等,這些詞出現(xiàn)的比較多,就從這些詞里面分開來。7.3機(jī)器翻譯機(jī)器翻譯是一種利用計算機(jī)技術(shù)將一種語言翻譯成另一種語言的技術(shù)。NLP技術(shù)是機(jī)器翻譯的核心技術(shù)之一,它可以幫助機(jī)器翻譯更加準(zhǔn)確和流暢。
機(jī)器翻譯的研究歷史最早可以追溯到20世紀(jì)30年代。1933年,法國科學(xué)家G.B.阿爾楚尼提出了用機(jī)器來進(jìn)行翻譯的想法。機(jī)器翻譯的流程機(jī)器翻譯的流程可以概括為以下幾個步驟:(1)詞法分析:將源語言的詞匯分解為詞語和詞素,并對它們進(jìn)行分類和識別。(2)語法分析:將源語言的句子結(jié)構(gòu)分解為詞序和語法規(guī)則,并對它們進(jìn)行分類和識別。(3)翻譯規(guī)則:根據(jù)語言之間的語法和語義關(guān)系,制定翻譯規(guī)則,例如詞序規(guī)則、語態(tài)規(guī)則、時態(tài)規(guī)則等。(4)神經(jīng)網(wǎng)絡(luò):利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行翻譯,神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)源語言和目標(biāo)語言之間的語言結(jié)構(gòu)和語義關(guān)系,從而實現(xiàn)翻譯的自動化。(5)統(tǒng)計機(jī)器翻譯:利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行翻譯,通過對大量的翻譯數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,可以自動識別翻譯規(guī)則和模式,從而實現(xiàn)更準(zhǔn)確的翻譯。機(jī)器翻譯算法與案例機(jī)器翻譯是人工智能的終極目標(biāo)之一,它的流程和算法非常復(fù)雜。簡單來說,機(jī)器翻譯就是把一種語言翻譯成另外一種語言。機(jī)器翻譯面臨如下國際公認(rèn)的挑戰(zhàn):譯文選擇、詞語順序的調(diào)整和數(shù)據(jù)稀疏。目前,機(jī)器翻譯技術(shù)主要分為基于規(guī)則、基于統(tǒng)計和基于神經(jīng)網(wǎng)絡(luò)三種方法。基于規(guī)則的機(jī)器翻譯方法(Rule-BasedMachineTranslation,RBMT)RBMT是一種早期的機(jī)器翻譯方法,它依賴于語言學(xué)專家編寫的翻譯規(guī)則。這些規(guī)則通常包括詞匯、語法和語義等方面的知識,用于將源語言文本轉(zhuǎn)換為目標(biāo)語言文本。通常,一個典型的基于轉(zhuǎn)換規(guī)則的機(jī)器翻譯過程可以描述為“獨立分析-獨立生成-相關(guān)轉(zhuǎn)換”的方法,整個完整的機(jī)器翻譯過程可以分成六個步驟:源語詞法分析、源語句法分析、源語-目標(biāo)語詞匯轉(zhuǎn)換、源語-目標(biāo)語結(jié)構(gòu)轉(zhuǎn)換、目標(biāo)語句法生成、目標(biāo)語詞法生成。每一個步驟都是通過相應(yīng)的翻譯規(guī)則來完成.2.基于統(tǒng)計的機(jī)器翻譯(StatisticalMachineTranslation,SMT)SMT是一種利用大量雙語語料庫進(jìn)行訓(xùn)練,通過統(tǒng)計學(xué)習(xí)方法來建立翻譯模型的機(jī)器翻譯方法。3.基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法(NeuralMachineTranslation,NMT)NMT是一種利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器翻譯的方法。它通常采用編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu),將源語言文本編碼成一個固定長度的向量,然后再通過解碼器將該向量解碼成目標(biāo)語言文本。語音識別語音識別也稱為自動語音識別(ASR)、計算機(jī)語音識別或語音轉(zhuǎn)文本,它是以語音為研究對象,通過信號處理和識別技術(shù)讓機(jī)器自動識別和理解人類口述的語言后,將語音信號轉(zhuǎn)換為相應(yīng)的文本或命令的一門技術(shù)。語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。目前,模式匹配原理已經(jīng)被應(yīng)用于大多數(shù)語音識別系統(tǒng)中。如圖1是基于模式匹配原理的語音識別系統(tǒng)框圖。語音識別的應(yīng)用場景溝通
語音在信息表達(dá)方面呈現(xiàn)表達(dá)快速但是讀取較慢的問題,特別是一大段語音發(fā)過來會讓人失去聽的興趣;所以可以通過ASR來轉(zhuǎn)化為文字,提高雙方的用戶體驗
2、會議記錄
一些會議上可以用來作為會議記錄,幫助與會者提高會議效率。
3、智能硬件/語音搜索/智能客服產(chǎn)品的頭部流程
智能音箱等產(chǎn)品人機(jī)交互的第一步就是先進(jìn)行語音轉(zhuǎn)文字的過程。
4、教育測評
聲學(xué)系統(tǒng)與語言模型拎出來稍微加以修改可以作為評分系統(tǒng)應(yīng)用于教育行業(yè);幫助教師實施教育標(biāo)準(zhǔn)
5、客服記錄
客服是和用戶最近的人群,將語音通話過程轉(zhuǎn)為文字記錄下來,有助于客服部門評估業(yè)務(wù)服務(wù)水平,更有利于業(yè)務(wù)部門通過用戶溝通的原始信息分析并理解用戶需求自然語言處理的應(yīng)用1.自動處理日常任務(wù)基于NLP的聊天機(jī)器人可以代替人工座席來處理大量日常任務(wù),讓員工騰出時間來處理更具挑戰(zhàn)性和更有趣的任務(wù)。例如,聊天機(jī)器人和數(shù)字助手可以識別各種用戶請求,然后從企業(yè)數(shù)據(jù)庫中找到相匹配的條目并有針對性地為用戶創(chuàng)建響應(yīng)。2.優(yōu)化搜索對于文檔和FAQ檢索,NLP可以優(yōu)化關(guān)鍵字匹配搜索,包括基于上下文消除歧義(例如“carrier”在生物醫(yī)學(xué)和工業(yè)領(lǐng)域分別表示不同的含義);匹配同義詞(例如在用戶搜索“automobile”時檢索提及“car”的文檔);考慮形態(tài)變化(這對非英語查詢非常重要)。利用基于NLP的學(xué)術(shù)搜索系統(tǒng),醫(yī)生、律師以及其他領(lǐng)域的專家能夠更加輕松、便捷地獲取高度相關(guān)的前沿研究信息。3.搜索引擎優(yōu)化NLP可幫助企業(yè)通過搜索分析來優(yōu)化內(nèi)容,提升自家組織在線上搜索中的展示排名。如今搜索引擎一般使用NLP技術(shù)來對結(jié)果進(jìn)行排序,如果企業(yè)了解如何有效利用NLP技術(shù),就能獲得相比競爭對手更加靠前的排名,進(jìn)而提高可見度。4.分析和組織大型文檔集合文檔聚類和主題建模等NLP技術(shù)有助于您輕松了解大型文檔集合(例如企業(yè)報告、新聞文章或科學(xué)文檔)中內(nèi)容的多樣性。這些技術(shù)通常被用于法律取證目的。5.社交媒體分析NLP可以分析客戶評論和社交媒體評論,幫助企業(yè)更有效地理解大量信息。例如,情緒分析可以識別社交媒體評論流中的正面和負(fù)面評論,直接、實時衡量客戶情緒。這可以為企業(yè)提供巨大的回報,例如提高客戶滿意度和收入。6.市場洞察企業(yè)可以使用NLP來分析客戶的語言,進(jìn)而更有效地滿足客戶需求,了解如何更好地與客戶溝通。例如,面向方面(Aspect-oriented)的情緒分析可以檢測社交媒體中關(guān)于特定方面或產(chǎn)品的情緒(例如“鍵盤很好,但屏幕太暗”),從而為產(chǎn)品設(shè)計和營銷提供切實可行的洞察。7.審核內(nèi)容如果您的企業(yè)吸引了大量用戶或客戶評論,NLP可以幫助您審核這些內(nèi)容,通過分析評論的用詞、語氣和意圖來確保實現(xiàn)高素質(zhì)和良好禮儀。人工智能應(yīng)用新編21世紀(jì)高等職業(yè)教育精品教材·電子與信息類主編黃源楊鑒余法紅項目8知識圖譜通過本章的學(xué)習(xí),了解知識圖譜的起源、發(fā)展歷程及應(yīng)用,理解知識圖譜的基本概念與實現(xiàn),掌握知識圖譜的實現(xiàn)方式。了解知識圖譜的起源與發(fā)展歷史理解知識圖譜的基本概念掌握知識圖譜的實現(xiàn)了解知識圖譜的應(yīng)用8.1知識圖譜概述知識圖譜(KnowledgeGraph)最早由Google公司提出。2012年11月Google公司開始了知識圖譜項目,該項目的關(guān)鍵在于從互聯(lián)網(wǎng)的海量資源、信息中提取實體、屬性、實體關(guān)系等,并利用這些信息構(gòu)建知識圖譜,用來解決并優(yōu)化個性化推薦、信息檢素、智能問答這三個方面出現(xiàn)的問題。知識圖譜的本質(zhì)是語義網(wǎng)絡(luò)(SemanticNetwork)的知識庫,也可理解為多關(guān)系圖(Multi-relationalGraph)。語義網(wǎng)絡(luò)是由Quillian于上世紀(jì)60年代提出的知識表達(dá)模式,采用相互連接的節(jié)點和邊來表示知識,節(jié)點表示對象、概念,邊表示節(jié)點之間的關(guān)系。上圖是一個語義網(wǎng)絡(luò)的示例,它的中間是哺乳動物,貓是一種哺乳動物,貓有毛;熊是哺乳動物,熊也有毛;鯨是一種哺乳動物,鯨在水里面生活;魚也在水里面生活,也是一種動物;哺乳動物也是動物的一種。語義網(wǎng)絡(luò)的優(yōu)點是簡單直白,缺點是缺乏標(biāo)準(zhǔn),完全靠用戶自定義。知識圖譜的基本概念1.本體(Ontology)圖譜本體(Ontology)的設(shè)計和構(gòu)建是知識圖譜構(gòu)建的第一步。本體是圖譜的模型,是對構(gòu)成圖譜的數(shù)據(jù)的一種模式約束。本體通過對于概念(concept)、術(shù)語(terminology)及其相互關(guān)系(relation,property)的規(guī)范化(conceptualization)描述,勾畫出某一領(lǐng)域的基本知識體系和描述語言。2.類型(type)具有相同特點或?qū)傩缘膶嶓w集合的抽象,如足球球員、足球聯(lián)賽、足球教練。3.實體(Entity)實體就是type的實例,如足球球員--梅西,足球聯(lián)賽--西甲等。4.關(guān)系(relation)實體與實體之間通過關(guān)系關(guān)聯(lián)起來,如張三選修了人工智能導(dǎo)論這門課。5.屬性(properties)事物的外部特征,如桌子的高度、寬度、長度、顏色以及品牌等等。6.知識圖譜圖譜是具有關(guān)聯(lián)性的知識集合??梢杂扇M(實體entity,實體關(guān)系relation,實體entity)表示。7.知識庫知識庫(KnowledgeBase),就是一個知識數(shù)據(jù)庫,包含了知識的本體和知識。Freebase是一個知識庫(結(jié)構(gòu)化),維基百科也可以看成一個知識庫(半結(jié)構(gòu)化),等等。知識圖譜可以看成是由圖數(shù)據(jù)庫存儲的知識庫。知識圖譜由數(shù)據(jù)層(datalayer)和模式層(schemalayer)構(gòu)成。模式層是知識圖譜的概念模型和邏輯基礎(chǔ),對數(shù)據(jù)層進(jìn)行規(guī)范約束,多采用本體作為知識圖譜的模式層,借助本體定義的規(guī)則和公理約束知識圖譜的數(shù)據(jù)層。也可將知識圖譜視為實例化了的本體,知識圖譜的數(shù)據(jù)層是本體的實例。在數(shù)據(jù)層,事實以“實體-關(guān)系-實體”或“實體-屬性-屬性值”的三元組存儲,形成一個圖狀知識庫.其中,實體是知識圖譜的基本元素,指具體的人名、組織機(jī)構(gòu)名、地名、日期、時間等。關(guān)系是兩個實體之間的語義關(guān)系,是模式層所定義關(guān)系的實例。屬性是對實體的說明,是實體與屬性值之間的映射關(guān)系。知識圖譜的實現(xiàn)過程其實就是知識圖譜的構(gòu)建過程。知識圖譜構(gòu)建主要分為自頂向下(top-down)與自底向上(bottom-up)兩種構(gòu)建方式。知識圖譜構(gòu)建是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含信息抽取、知識融合、知識加工三個階段(如圖8-4所示)。鏈接數(shù)據(jù)關(guān)系數(shù)據(jù)庫表格列表信息盒子表格列表信息盒子結(jié)構(gòu)化數(shù)據(jù)純文本數(shù)據(jù)實體抽取關(guān)系抽取屬性抽取數(shù)據(jù)整合實體消歧指代消解知識推理質(zhì)量評估本體抽取知識圖譜知識圖譜的構(gòu)建流程數(shù)據(jù)抽取信息抽取第三方知識庫知識融合知識加工信息抽取從各種類型的數(shù)據(jù)源中提取出實體、屬性以及實體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá)。從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提取,形成知識存入到知識圖譜。提取的信息通常包括實體(entity)、關(guān)系(relation)、事件(event)。信息抽取主要完成三個子任務(wù):實體抽取與鏈指:也就是命名實體識別。實體識別旨在從文本中發(fā)現(xiàn)命名實體,最典型的包括人名、地名、機(jī)構(gòu)名等三類實體。例如某個文檔如果出現(xiàn)了iphone,那么“蘋果”就有更高的概率指向知識圖譜中的叫“蘋果”的IT公司。關(guān)系抽?。和ǔN覀冋f的三元組(triple)抽取,主要用于抽取實體間的關(guān)系。關(guān)系抽取通常在命名實體識別之后。在識別出實體后,還需要抽取兩個實體或多個實體之間的語義關(guān)系。語義關(guān)系通常用于連接兩個實體,并與實體一起表達(dá)文本的主要含義。常見的關(guān)系抽取結(jié)果可以用SPO結(jié)構(gòu)的三元組來表示,比如;中國的霧都是重慶=>(中國,霧都,重慶)事件抽?。菏录槿〖夹g(shù)是從非結(jié)構(gòu)化信息中抽取出用戶感興趣的事件,并以結(jié)構(gòu)化呈現(xiàn)給用戶。事件抽取旨在抽取出結(jié)構(gòu)化的事件信息,包括事件觸發(fā)詞、事件類型、事件論元和對應(yīng)的角色。知識融合知識融合的目標(biāo)是融合各個層面(概念層、數(shù)據(jù)層)的知識,更有效地進(jìn)行知識共享和重用,其結(jié)果往往會產(chǎn)生新的知識。值得一提的是,在不同文獻(xiàn)中,知識融合有不同的叫法,如本體對齊、本體匹配、RecordLinkage、EntityResolution、實體對齊等叫法,但它們的本質(zhì)工作是一樣的。知識加工對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量。主要包括:本體構(gòu)建,知識推理,質(zhì)量評估。1.本體構(gòu)建本體(ontology)是指公認(rèn)的概念集合、概念框架,如“人”、“事”、“物”等。舉個例子:以水果分類為例,一方面限定了術(shù)語集合(即規(guī)定大家必須采用共同承認(rèn)的一套詞匯,禁止私自發(fā)明新詞),另一方面定義術(shù)語之間的上下位關(guān)系(如:蘋果隸屬于水果,香蕉隸屬于水果等)。2.知識推理完成了本體構(gòu)建之后,一個知識圖譜的雛形便已建好。但此時的知識圖譜之間大多數(shù)關(guān)系都是殘缺的,缺失值非常嚴(yán)重,仍舊需要使用知識推理技術(shù)去完成進(jìn)一步的知識發(fā)現(xiàn)。知識推理的方法可以分為3類:基于邏輯的推理、基于圖的推理和基于深度學(xué)習(xí)的推理。3.質(zhì)量評估知識圖譜質(zhì)量評估通常在知識抽取或融合階段進(jìn)行,可以對知識的可信度進(jìn)行量化,通過舍棄置信度較低的知識,可以保障知識庫的質(zhì)量。8.3知識圖譜的應(yīng)用知識圖譜通過推理引擎使計算機(jī)有了推理能力。隨著人工智能技術(shù)的不斷進(jìn)步,知識圖譜技術(shù)也在搜索、自動問答等領(lǐng)域有了更為廣泛的應(yīng)用。1.智能檢索知識檢索是知識圖譜非常成熟的應(yīng)用。通過借助知識圖譜理解用戶的搜索語義,從而更深層次地理解用戶的需求,大大提升了用戶的使用體驗,使用戶能獲得更精確、更智能的搜索結(jié)果。2.智能問答智能問答通過借助知識圖譜可以使計算機(jī)根據(jù)用戶所提出的問題直接做出回答,這也是智能檢索未來發(fā)展的趨勢。知識圖譜為智能問答提供了知識庫,然后基于其強(qiáng)大的推理能力,為用戶做出基于推理結(jié)果的回答。比如銀行、電信在線客服,智能問答機(jī)器人等。人工智能應(yīng)用新編21世紀(jì)高等職業(yè)教育精品教材·電子與信息類主編黃源楊鑒余法紅項目9人工智能的應(yīng)用通過對本章的學(xué)習(xí),了解智慧農(nóng)業(yè)的概念,了解智慧醫(yī)療的概念,了解智慧工廠的概念,理解人工智能技術(shù)在其中的應(yīng)用。了解智慧農(nóng)業(yè)的概念了解智
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 莆田輔警面試題目及答案
- 智能農(nóng)業(yè)設(shè)備2025年十年技術(shù):精準(zhǔn)種植報告
- 2025年社區(qū)助浴服務(wù)發(fā)展現(xiàn)狀報告
- 書屋借閱制度
- 學(xué)生安全教育課件
- 內(nèi)江市公安局高新技術(shù)開發(fā)區(qū)分局2025年第三次招聘警務(wù)輔助人員備考題庫及答案詳解1套
- 久治縣公安局2026年面向社會公開招聘警務(wù)輔助人員備考題庫完整參考答案詳解
- 2026年溫州市甌海區(qū)司法局招聘編外人員的備考題庫及完整答案詳解一套
- 2026年招商局檢測認(rèn)證(重慶)有限公司招聘備考題庫及1套參考答案詳解
- 2025至2030中國自動駕駛路測數(shù)據(jù)積累與法規(guī)開放進(jìn)度匹配度分析報告
- 云南師大附中2026屆高三1月高考適應(yīng)性月考卷英語(六)含答案
- 2026湖北隨州農(nóng)商銀行科技研發(fā)中心第二批人員招聘9人筆試備考試題及答案解析
- 騎行美食活動方案策劃(3篇)
- 2026年上海市松江區(qū)初三語文一模試卷(暫無答案)
- 酒精體積分?jǐn)?shù)質(zhì)量分?jǐn)?shù)密度對照表優(yōu)質(zhì)資料
- 落地式鋼管腳手架工程搭拆施工方案
- 辦公室節(jié)能減排措施
- 數(shù)字信號處理課程實驗教學(xué)大綱
- 2023年黑龍江省哈爾濱市中考化學(xué)試卷及解析
- 深基坑施工專項方案
- 禾川x3系列伺服說明書
評論
0/150
提交評論