版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人形機(jī)器人視覺(jué)感知技術(shù)***(姓名)
***(學(xué)院)***@***.
第7章人形機(jī)器人視覺(jué)感知技術(shù)
《人形機(jī)器人技術(shù)基礎(chǔ)與應(yīng)用》7.1概述目錄7.2二維視覺(jué)感知7.3三維視覺(jué)感知7.4視覺(jué)感知應(yīng)用7.1概述人形機(jī)器人通過(guò)感知周?chē)h(huán)境,以進(jìn)行正確的導(dǎo)航、避障和交互等。視覺(jué)感知技術(shù)以高維度的方式感知環(huán)境;人形機(jī)器人結(jié)合了二維視覺(jué)感知技術(shù)和三維視覺(jué)感知技術(shù),為其提供了全面的環(huán)境理解能力。二維視覺(jué)物體識(shí)別、文字識(shí)別、顏色和紋理分析等優(yōu)勢(shì):成本低、處理速度快局限:缺乏深度信息,難以準(zhǔn)確估計(jì)物體的距離和三維形狀三維視覺(jué)深度感知、空間建模、姿態(tài)估計(jì)等優(yōu)勢(shì):提供豐富的空間信息局限:成本較高,數(shù)據(jù)處理復(fù)雜,計(jì)算資源需求較大協(xié)同工作,互相補(bǔ)充,7.2二維視覺(jué)感知7.2.1二維圖像圖像(image)是計(jì)算機(jī)視覺(jué)領(lǐng)域最常見(jiàn)的數(shù)據(jù)模態(tài),常見(jiàn)的圖像數(shù)據(jù)包括彩色圖像、深度圖像以及灰度圖像。(a)彩色圖像
(b)深度圖像
(c)灰度圖像圖7-2計(jì)算機(jī)視覺(jué)領(lǐng)域常見(jiàn)數(shù)據(jù)模態(tài)7.2二維視覺(jué)感知
HW
7.2二維視覺(jué)感知
7.2二維視覺(jué)感知
7.2二維視覺(jué)感知7.2.2二維圖像處理技術(shù)基礎(chǔ)1.圖像增強(qiáng)與預(yù)處理在深度學(xué)習(xí)中,數(shù)據(jù)增強(qiáng)和預(yù)處理可以幫助模型更好地泛化,并對(duì)抗數(shù)據(jù)集中的變動(dòng)和噪聲。圖像增強(qiáng)(ImageAugmentation)通過(guò)對(duì)原始圖像進(jìn)行各種變換,生成新的訓(xùn)練樣本,增加數(shù)據(jù)集的多樣性。
常見(jiàn)的圖像增強(qiáng)方法包括:翻轉(zhuǎn)(Flipping)、旋轉(zhuǎn)(Rotation)、縮放(Scaling)、平移(Translation)、裁剪(Cropping)、顏色變換(ColorJittering)以及向圖像中添加高斯噪聲或者椒鹽噪聲。7.2二維視覺(jué)感知圖像預(yù)處理(ImagePreprocessing)使圖像適合于模型的輸入要求,并提高模型的訓(xùn)練效果。常見(jiàn)的圖像預(yù)處理方法包括尺寸調(diào)整(Resizing)、歸一化(Normalization)等。
【PyTorch】2.3transforms圖像增強(qiáng)(一)_randomhorizontalflip-CSDN博客7.2二維視覺(jué)感知7.2.2二維圖像處理技術(shù)基礎(chǔ)2.圖像特征提取神經(jīng)網(wǎng)絡(luò)是理解和處理圖像數(shù)據(jù)的核心工具,用于對(duì)輸入圖像進(jìn)行分析并提取關(guān)鍵特征。圖7-3圖像特征提取流程7.2二維視覺(jué)感知卷積神經(jīng)網(wǎng)絡(luò)卷積層(ConvolutionalLayer):卷積操作使用一組稱(chēng)為濾波器(或卷積核)的權(quán)重矩陣在圖像上滑動(dòng),生成特征圖。激活函數(shù)(ActivationFunction):常用的激活函數(shù)是ReLU(RectifiedLinearUnit),它將卷積層的線性輸出轉(zhuǎn)換為非線性,使得網(wǎng)絡(luò)能夠擬合復(fù)雜的函數(shù)。池化層(PoolingLayer):通過(guò)下采樣操作減少特征圖的尺寸。常見(jiàn)的操作有最大池化(MaxPooling)和平均池化(AveragePooling)。全連接層(FullyConnectedLayer):通常應(yīng)用于網(wǎng)絡(luò)的最后幾層,特征圖被展平并連接到全連接層,用于生成最終的輸出。7.2二維視覺(jué)感知卷積神經(jīng)網(wǎng)絡(luò)
7.2二維視覺(jué)感知3.常見(jiàn)二維視覺(jué)任務(wù)圖像分類(lèi)(ImageClassification)是將輸入圖像分配到預(yù)定義的類(lèi)別中。常見(jiàn)的圖像分類(lèi)數(shù)據(jù)集包括CIFAR-10、ImageNet。CIFAR-107.2二維視覺(jué)感知目標(biāo)檢測(cè)(ObjectDetection)需要識(shí)別圖像中的物體類(lèi)別,還需要確定物體在圖像中的位置。COCO數(shù)據(jù)集是最常見(jiàn)的用于目標(biāo)檢測(cè)任務(wù)的數(shù)據(jù)集。7.2二維視覺(jué)感知圖像分割(ImageSegmentation)將圖像中的每個(gè)像素分配到一個(gè)類(lèi)別。圖像分割可以分為語(yǔ)義分割(SemanticSegmentation)和實(shí)例分割(InstanceSegmentation)。前者將每個(gè)像素標(biāo)注為一個(gè)類(lèi)別,但不區(qū)分同類(lèi)物體的不同實(shí)例,后者不僅標(biāo)注每個(gè)像素的類(lèi)別,還區(qū)分同類(lèi)物體的不同實(shí)例。SemanticSegmentationInstanceSegmentation7.2二維視覺(jué)感知圖像生成(ImageGeneration)旨在從噪聲或其它輸入中生成新的圖像。常見(jiàn)的方法包括生成對(duì)抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)。深度學(xué)習(xí):基于DCGAN生成手寫(xiě)數(shù)字圖像-知乎7.2二維視覺(jué)感知關(guān)鍵點(diǎn)檢測(cè)(KeypointDetection)是識(shí)別圖像中物體的特定關(guān)鍵點(diǎn)。常見(jiàn)的應(yīng)用包括人臉識(shí)別中的面部關(guān)鍵點(diǎn)檢測(cè)和人體姿態(tài)估計(jì)。圖7-4人體關(guān)鍵點(diǎn)檢測(cè)與圖像生成實(shí)例7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別1.目標(biāo)分類(lèi)算法簡(jiǎn)介在目標(biāo)分類(lèi)任務(wù)中,通過(guò)學(xué)習(xí)從訓(xùn)練數(shù)據(jù)中提取有效特征來(lái)區(qū)分和識(shí)別不同的目標(biāo)類(lèi)別,包括人、動(dòng)物、車(chē)輛等。圖7-5目標(biāo)分類(lèi)應(yīng)用實(shí)例傳統(tǒng)方法主要是手工設(shè)計(jì)的特征提取器和分類(lèi)器,如SIFT、HOG和SVM等基于深度神經(jīng)網(wǎng)絡(luò)的方法主要有卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer網(wǎng)絡(luò)等7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別基于深度學(xué)習(xí)的目標(biāo)分類(lèi)算法在實(shí)際應(yīng)用中需要考慮包括處理復(fù)雜背景、遮擋、尺度變化和光照變化等問(wèn)題,以及如何在小樣本(FewShot)和零樣本(Zero-shot)情況下進(jìn)行有效分類(lèi)。隨著深度學(xué)習(xí)的不斷發(fā)展,遷移學(xué)習(xí)、對(duì)比學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)以及擴(kuò)散模型等新的深度模型框架成功應(yīng)用,目標(biāo)分類(lèi)的性能和泛化能力進(jìn)一步提升,以滿(mǎn)足不斷增長(zhǎng)的實(shí)機(jī)應(yīng)用需求。7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別目標(biāo)檢測(cè)不僅需要確定目標(biāo)所屬的類(lèi)別,還需要標(biāo)記出目標(biāo)在圖像中的位置(邊界框),如圖7-6所示。圖7-6目標(biāo)檢測(cè)應(yīng)用實(shí)例在自動(dòng)駕駛中,目標(biāo)檢測(cè)可以用于識(shí)別道路上的交通標(biāo)志、行人、車(chē)輛和障礙物。2.目標(biāo)檢測(cè)算法簡(jiǎn)介7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別傳統(tǒng)的目標(biāo)檢測(cè)算法主要基于手工設(shè)計(jì)(Hand-Crafted)的特征和分類(lèi)器,如Haar特征和級(jí)聯(lián)分類(lèi)器?;谏疃壬窠?jīng)網(wǎng)絡(luò)特別是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法,如FasterR-CNN、YOLO和SSD等,通過(guò)在網(wǎng)絡(luò)中引入專(zhuān)門(mén)的檢測(cè)頭和區(qū)域建議網(wǎng)絡(luò),實(shí)現(xiàn)準(zhǔn)確和高效的目標(biāo)檢測(cè)。7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別3.目標(biāo)檢測(cè)算法分類(lèi)目標(biāo)檢測(cè)算法由時(shí)間前后可分為傳統(tǒng)檢測(cè)方法(TraditionalDetectionMethods)和基于深度學(xué)習(xí)的檢測(cè)方法(DeepLearningBasedMethods)7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別基于深度學(xué)習(xí)的方法可以分為兩種范式:一階段檢測(cè)器(One-stageDetector)和二階段檢測(cè)器(Two-StageDetector)。一階段檢測(cè)器是指直接通過(guò)一個(gè)深度神經(jīng)網(wǎng)絡(luò)同時(shí)進(jìn)行目標(biāo)檢測(cè)和分類(lèi)。常用的一階段檢測(cè)器包括YOLO(YouOnlyLookOnce)系列、SSD(SingleShotMultiBoxDetector)、Retina-Net和DETR等。一階段檢測(cè)器具有快速的檢測(cè)速度和較好的實(shí)時(shí)性能,適用于需要快速處理大量目標(biāo)的場(chǎng)景。7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別二階段檢測(cè)器將目標(biāo)檢測(cè)任務(wù)分為兩個(gè)階段:區(qū)域提取和目標(biāo)分類(lèi)。常用的二階段檢測(cè)器包括RCNN(Region-basedConvolutionalNeuralNetworks)、SPPNet、FasterR-CNN和MaskR-CNN等。二階段檢測(cè)器包括一個(gè)基礎(chǔ)的骨干網(wǎng)絡(luò)提取圖像特征。通過(guò)區(qū)域提取網(wǎng)絡(luò)(如RPN)生成候選目標(biāo)區(qū)域,進(jìn)行精細(xì)的目標(biāo)分類(lèi)和邊界框回歸。二階段檢測(cè)器在準(zhǔn)確性方面通常具有較好的表現(xiàn),適用于對(duì)目標(biāo)位置要求精細(xì)的任務(wù)。7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別4.經(jīng)典算法R-CNN(Region-basedConvolutionalNeuralNetworks)圖7-8展示了R-CNN的基本架構(gòu):算法結(jié)合了區(qū)域提議方法和卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行特征提取;其主要流程包括區(qū)域提議、特征提取以及最后的分類(lèi)及邊界框回歸。7.2二維視覺(jué)感知7.2.3目標(biāo)檢測(cè)與識(shí)別FasterR-CNNFasterR-CNN算法通過(guò)引入?yún)^(qū)域提議網(wǎng)絡(luò)(RegionProposalNetwork,RPN)取代選擇性搜索算法(SelectiveSearch),實(shí)現(xiàn)端到端的目標(biāo)定位和分類(lèi)。7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLOYOLO(YouOnlyLookOnce)系列算法是一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,具備快速的檢測(cè)速度和較好的準(zhǔn)確性。YOLO系列算法的核心思想是將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化為一個(gè)回歸問(wèn)題,通過(guò)單次前向推理直接在圖像上預(yù)測(cè)目標(biāo)的類(lèi)別和邊界框。YOLO系列算法目前已經(jīng)發(fā)展到第十個(gè)版本(YOLO-v10)。YOLO框架采用單階段檢測(cè),實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè),適用于對(duì)實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景。7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLOYOLO網(wǎng)絡(luò)架構(gòu)包括輸入層、卷積層、全連接層以及輸出層。7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLO
7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLO
7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLO
7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLOYOLO的工作原理包括圖像分塊、邊界框預(yù)測(cè)、類(lèi)別預(yù)測(cè)以及非極大值抑制過(guò)程。7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLO
7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLO置信度分?jǐn)?shù)和類(lèi)別概率結(jié)合起來(lái),用于確定每個(gè)邊界框的最終類(lèi)別和置信度。例如,若某個(gè)邊界框的置信度為0.8,而類(lèi)別概率中“狗”這一類(lèi)的概率為0.7,則該邊界框包含“狗”的最終置信度為0.8*0.7=0.56。為了減少重復(fù)檢測(cè),YOLO通過(guò)非極大值抑制(NMS)來(lái)移除冗余的邊界框,只保留置信度最高的檢測(cè)框和預(yù)測(cè)結(jié)果。7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLOYOLOv1的損失函數(shù)
7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLOYOLOv1作為YOLO系列的最初版本,使用24層卷積網(wǎng)絡(luò),最后由兩個(gè)全連接層輸出預(yù)測(cè)結(jié)果。YOLOv2引入了批量歸一化和錨框(anchorboxes),并允許更高的分辨率輸入。YOLOv3改進(jìn)了網(wǎng)絡(luò)架構(gòu),采用了更深的骨干網(wǎng)絡(luò)(Darknet-53),同時(shí)采用了多尺度特征融合的策略,能夠有效地檢測(cè)各種尺度的目標(biāo)。YOLOv4進(jìn)一步優(yōu)化了檢測(cè)精度和速度,使用了CSPDarknet53作為骨干網(wǎng)絡(luò),并引入了其他的檢測(cè)優(yōu)化技術(shù)。YOLOv5雖然并非官方發(fā)布,但成為工程和實(shí)際應(yīng)用中使用次數(shù)最多的YOLO算法,具有更高效的檢測(cè)性能和效率。7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLOYOLO常用評(píng)價(jià)指標(biāo)YOLO常用評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy)、精度(Precision)、召回率(Recall)以及根據(jù)后兩個(gè)指標(biāo)算出的平均精度均值(MeanAveragePrecision,mAP)。
7.2二維視覺(jué)感知7.2.4經(jīng)典算法:YOLO平均精度均值(mAP)用于衡量檢測(cè)算法在多個(gè)類(lèi)別上的綜合性能。通過(guò)計(jì)算不同召回率下的精度并取平均值得到平均精度(AveragePrecision,AP),每個(gè)類(lèi)別都有一個(gè)AP值。對(duì)所有類(lèi)別的AP值求平均,即得到平均精度均值mAP。多點(diǎn)插值法計(jì)算mAP7.2二維視覺(jué)感知7.2.5目標(biāo)追蹤與狀態(tài)估計(jì)1.目標(biāo)追蹤算法簡(jiǎn)介目標(biāo)追蹤(ObjectTracking)旨在從給定的視頻序列中,根據(jù)初始幀中目標(biāo)的位置或邊界框,連續(xù)追蹤目標(biāo)對(duì)象在后續(xù)幀中的位置和狀態(tài)。目標(biāo)追蹤任務(wù)可以分為單目標(biāo)追蹤(Single-ObjectTracking,SOT)和多目標(biāo)追蹤(Multi-ObjectTracking,MOT)兩種形式。7.2二維視覺(jué)感知7.2.5目標(biāo)追蹤與狀態(tài)估計(jì)2.目標(biāo)追蹤經(jīng)典算法ByteTrackByteTrack是一種高性能的目標(biāo)檢測(cè)和跟蹤算法,結(jié)合了目標(biāo)檢測(cè)和目標(biāo)跟蹤的優(yōu)點(diǎn),能夠在實(shí)時(shí)性和準(zhǔn)確性之間取得良好的平衡。ByteTrack使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)提取圖像特征,并通過(guò)在線學(xué)習(xí)的方式進(jìn)行目標(biāo)跟蹤。其關(guān)鍵技術(shù)包括:聯(lián)合訓(xùn)練、跨幀特征編碼和在線學(xué)習(xí)。7.2二維視覺(jué)感知7.2.5目標(biāo)追蹤與狀態(tài)估計(jì)OC-SORT(Observation-CentricSORT)OC-SORT是一種用于多目標(biāo)跟蹤的算法,其基本架構(gòu)如圖所示:7.2二維視覺(jué)感知7.2.5目標(biāo)追蹤與狀態(tài)估計(jì)3.目標(biāo)追蹤與機(jī)器人狀態(tài)估計(jì)機(jī)器人狀態(tài)估計(jì)(RobotStateEstimation)是指通過(guò)傳感器數(shù)據(jù)和運(yùn)動(dòng)模型,對(duì)機(jī)器人的位置、姿態(tài)和速度等狀態(tài)進(jìn)行估計(jì)的過(guò)程。
7.2二維視覺(jué)感知7.2.5目標(biāo)追蹤與狀態(tài)估計(jì)基于視覺(jué)的狀態(tài)估計(jì)技術(shù)包括視覺(jué)里程計(jì)、SLAM以及目標(biāo)對(duì)象的識(shí)別和追蹤。
(a)檢測(cè)機(jī)器人(b)檢測(cè)機(jī)器人視角7.2二維視覺(jué)感知7.2.5目標(biāo)追蹤與狀態(tài)估計(jì)通過(guò)目標(biāo)追蹤,機(jī)器人可以實(shí)時(shí)獲取目標(biāo)的位置和運(yùn)動(dòng)信息,并作出相應(yīng)的決策。機(jī)器人狀態(tài)估計(jì)可以為目標(biāo)追蹤提供更準(zhǔn)確的背景信息,例如通過(guò)估計(jì)機(jī)器人的移動(dòng)速度和姿態(tài),可以更好地預(yù)測(cè)和補(bǔ)償目標(biāo)的運(yùn)動(dòng)狀態(tài)估計(jì)。7.3三維視覺(jué)感知7.3.1三維點(diǎn)云
7.3三維視覺(jué)感知7.3.1三維點(diǎn)云如圖所示,點(diǎn)云中的每個(gè)點(diǎn)都描述了其位置、顏色及法向量(紅色箭頭所示方向)。7.3三維視覺(jué)感知7.3.1三維點(diǎn)云點(diǎn)云數(shù)據(jù)的四種獲取方式:(1)激光雷達(dá)掃描:是獲取點(diǎn)云最常用方法之一,其工作原理是飛行時(shí)間技術(shù)(Time-of-Flight,ToF)。(2)結(jié)構(gòu)光掃描:利用投射到物體表面的光圖案(如條紋、網(wǎng)格或點(diǎn)陣),通過(guò)不同視角的相機(jī)捕捉物體表面反射的光模式,并根據(jù)畸變進(jìn)行計(jì)算出每個(gè)點(diǎn)在空間中的坐標(biāo)。(3)深度相機(jī):常見(jiàn)技術(shù)包括紅外結(jié)構(gòu)光和飛行時(shí)間技術(shù)。(4)攝影測(cè)量:通過(guò)多視角的二維圖像進(jìn)行重建,利用圖像的重疊區(qū)域進(jìn)行匹配與視差計(jì)算生成點(diǎn)云。7.3三維視覺(jué)感知7.3.1三維點(diǎn)云點(diǎn)云的重要屬性:(1)無(wú)序性:三維點(diǎn)云是一組沒(méi)有特定順序的點(diǎn)。(2)稀疏性:點(diǎn)云中點(diǎn)的分布不是均勻密集的。(3)變換不變性:對(duì)于表示某個(gè)幾何對(duì)象的點(diǎn)云,在平移、旋轉(zhuǎn)、縮放等變換操作后,不影響對(duì)該幾何對(duì)象的特征描述。7.3三維視覺(jué)感知7.3.2三維點(diǎn)云處理技術(shù)基礎(chǔ)VoxNetVoxNet將三維點(diǎn)云進(jìn)行了體素化轉(zhuǎn)換為三維體素占用網(wǎng)格,并使用三維卷積網(wǎng)絡(luò)處理體素?cái)?shù)據(jù),其網(wǎng)絡(luò)的主要結(jié)構(gòu)如圖所示。7.3三維視覺(jué)感知7.3.2三維點(diǎn)云處理技術(shù)基礎(chǔ)PointNetPointNet能夠直接處理原始的點(diǎn)云數(shù)據(jù),有效處理了點(diǎn)云數(shù)據(jù)的無(wú)序性和變換不變性。7.3三維視覺(jué)感知7.3.2三維點(diǎn)云處理技術(shù)基礎(chǔ)PointNetPointNet網(wǎng)絡(luò)的核心網(wǎng)絡(luò)模塊包括兩個(gè)主要部分:T-Net(TransformationNetwork)和多層感知機(jī)。T-Net模塊的作用是將點(diǎn)云數(shù)據(jù)進(jìn)行規(guī)范化處理,消除輸入點(diǎn)云數(shù)據(jù)因掃描角度和位置不同而造成的干擾。多層感知機(jī)的作用是進(jìn)行特征提取。獲取到點(diǎn)云數(shù)據(jù)的全局特征后,再進(jìn)行分割任務(wù)和分類(lèi)任務(wù)等。7.3三維視覺(jué)感知7.3.2三維點(diǎn)云處理技術(shù)基礎(chǔ)PointNet++PointNet難以學(xué)習(xí)到精細(xì)的全局特征,同時(shí),點(diǎn)云的平移會(huì)導(dǎo)致三維坐標(biāo)發(fā)生變化,從而導(dǎo)致分類(lèi)結(jié)果出現(xiàn)錯(cuò)誤。PointNet++的核心思想是在局部區(qū)域重復(fù)迭代地使用PointNet提取特征,用生成的點(diǎn)去繼續(xù)生成新的點(diǎn),在生成的點(diǎn)集中又去定義新的局部區(qū)域,從而實(shí)現(xiàn)不同層級(jí)特征的學(xué)習(xí)。7.3三維視覺(jué)感知7.3.2三維點(diǎn)云處理技術(shù)基礎(chǔ)PointNet++特征提取:定義了子集抽象操作。重復(fù)子集抽象將使每個(gè)點(diǎn)代表的區(qū)域更大,對(duì)最后的數(shù)據(jù)進(jìn)行全局池化,得到用于分類(lèi)的全局特征。7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)六自由度物體位姿估計(jì)(6degreesoffreedomposeestimation,簡(jiǎn)稱(chēng)6DoF)旨在估計(jì)給定圖像中的目標(biāo)物體相對(duì)于相機(jī)的姿態(tài)??梢苑譃閷?shí)例級(jí)(Instance-Level)和類(lèi)別級(jí)(Category-Level)。實(shí)例級(jí)6D位姿估計(jì)是針對(duì)特定的已知物體進(jìn)行位姿估計(jì);類(lèi)別級(jí)6D位姿估計(jì)針對(duì)特定類(lèi)別的物體進(jìn)行位姿估計(jì),而不局限于特定的物體實(shí)例。1.位姿估計(jì)算法簡(jiǎn)介7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)
7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)基于深度學(xué)習(xí)的實(shí)例級(jí)6D物體位姿估計(jì)方法分為兩類(lèi):直接回歸方法和基于匹配的方法。直接回歸方法直接使用神經(jīng)網(wǎng)絡(luò)提取輸入圖像的特征,并進(jìn)行端到端的位姿預(yù)測(cè)。基于匹配(對(duì)應(yīng))的方法是建立輸入數(shù)據(jù)和CAD模型之間對(duì)應(yīng)關(guān)系,又分為稀疏對(duì)應(yīng)和密集對(duì)應(yīng):基于稀疏對(duì)應(yīng)的方法利用神經(jīng)網(wǎng)絡(luò)檢測(cè)輸入圖像或點(diǎn)云中的物體關(guān)鍵點(diǎn),建立數(shù)據(jù)和CAD模型之間的對(duì)應(yīng),然后確定物體姿態(tài)?;诿芗瘜?duì)應(yīng)的方法是通過(guò)預(yù)測(cè)每個(gè)物體像素或物體點(diǎn)云在CAD模型上的密集對(duì)應(yīng),實(shí)現(xiàn)更準(zhǔn)確的物體姿態(tài)估計(jì)。7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)如圖所示為稀疏匹配和密集匹配方法的區(qū)別。7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)DenseFusion是采用深度學(xué)習(xí)方法進(jìn)行密集對(duì)應(yīng)預(yù)測(cè)的經(jīng)典方法。DenseFusion使用兩個(gè)分支分別提取經(jīng)過(guò)分割和裁剪后的RGB和深度圖像的特征,將RGB特征和深度特征逐像素拼接,并利用特征融合網(wǎng)絡(luò)獲得全局特征。然后將全局特征級(jí)聯(lián)到每個(gè)像素的特征向量上,并利用位姿預(yù)測(cè)網(wǎng)絡(luò)輸出每個(gè)像素點(diǎn)對(duì)應(yīng)的位姿估計(jì)結(jié)果和一個(gè)置信度值,最終選擇置信度最大的像素點(diǎn)對(duì)應(yīng)的位姿估計(jì)結(jié)果。DenseFusion還提出了一種基于深度學(xué)習(xí)的迭代優(yōu)化方法。7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)
7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)規(guī)范化對(duì)象坐標(biāo)空間(NormalizedObjectCoordinateSpace,NOCS)是基于深度學(xué)習(xí)的類(lèi)別級(jí)6D物體位姿估計(jì)的先驅(qū)方法。在NOCS中,首先使用預(yù)訓(xùn)練的實(shí)例分割算法從輸入的RGBD圖像中分割出目標(biāo)物體;然后使用基于區(qū)域的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)NOCS表征。接下來(lái),使用Umeyama算法將相機(jī)坐標(biāo)系中預(yù)測(cè)的NOCS與對(duì)象坐標(biāo)系中的規(guī)范NOCS對(duì)齊來(lái)恢復(fù)6D姿態(tài)和對(duì)象大小。NOCS還發(fā)布了第一個(gè)類(lèi)別級(jí)物體位姿的數(shù)據(jù)集REAL275&CAMERA25.7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)6D位姿估計(jì)顯著提升了機(jī)器人的智能化水平和操作精度,其主要應(yīng)用領(lǐng)域包括機(jī)器人操作、手—物交互檢測(cè)和航空航天操作等。在機(jī)器人操作中,6D位姿估計(jì)是實(shí)現(xiàn)精確和靈活操作的核心技術(shù)在人機(jī)協(xié)作中,6D位姿估計(jì)確保了人與機(jī)器人之間的安全互動(dòng)2.物體位姿估計(jì)在機(jī)器人中的應(yīng)用7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)OnePose算法是一種用于單幀圖像中的物體六自由度(6-DOF)姿態(tài)估計(jì)算法,其基本架構(gòu)如圖所示。3.經(jīng)典算法簡(jiǎn)介算法包括特征提取、關(guān)鍵點(diǎn)檢測(cè)、姿態(tài)估計(jì)、優(yōu)化和矯正等步驟。7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)SPP(SuperPoint)SuperPoint是一種常見(jiàn)的關(guān)鍵點(diǎn)描述符,采用端到端的深度學(xué)習(xí)方法,用于圖像中的關(guān)鍵點(diǎn)檢測(cè)和描述符生成,其基本架構(gòu)如圖所示。7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)SPP(SuperPoint)SuperPoint網(wǎng)絡(luò)由共享編碼器、關(guān)鍵點(diǎn)檢測(cè)頭以及描述符生成頭組成。共享編碼器網(wǎng)絡(luò)用于提取圖像的特征圖,網(wǎng)絡(luò)輸出被同時(shí)用于關(guān)鍵點(diǎn)檢測(cè)以及描述符生成。關(guān)鍵點(diǎn)檢測(cè)頭在特征圖上進(jìn)行卷積運(yùn)算,生成一個(gè)關(guān)鍵點(diǎn)概率圖(HeatMap),每個(gè)像素值表示該位置是關(guān)鍵點(diǎn)的概率。描述符生成頭在共享特征圖上進(jìn)一步卷積,生成密集的描述符圖(DenseDescriptorMap),每個(gè)像素位置對(duì)應(yīng)一個(gè)特征描述符。SuperPoint在計(jì)算資源的使用上更為高效,適合實(shí)時(shí)應(yīng)用。7.3三維視覺(jué)感知7.3.3物體姿態(tài)估計(jì)PnP(Perspective-n-Point)
7.4視覺(jué)感知應(yīng)用7.4.1人臉檢測(cè)與識(shí)別相比于傳統(tǒng)的人臉識(shí)別方法,深度學(xué)習(xí)方法能夠自動(dòng)提取人臉特征,有效提高識(shí)別準(zhǔn)確率,人臉檢測(cè)與識(shí)別效果如圖所示。常用的人臉識(shí)別數(shù)據(jù)集有PubFig、CelebA、Colorferet、MTFL、FaceDB等,涵蓋了不同場(chǎng)景、表情、光照條件下的大量人臉圖像。7.4視覺(jué)感知應(yīng)用7.4.1人臉檢測(cè)與識(shí)別多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-taskCascadedConvolutionalNeuralNetworks,MTCNN)MTCNN能夠?qū)⑷四槞z測(cè)與人臉關(guān)鍵點(diǎn)檢測(cè)集成在同一個(gè)模型中實(shí)現(xiàn)。MTCNN網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)三級(jí)聯(lián)級(jí)網(wǎng)絡(luò),由三個(gè)連續(xù)的子網(wǎng)絡(luò)組成,分別是:候選網(wǎng)絡(luò)(ProposalNetwork,P-Net)精煉網(wǎng)絡(luò)(RefineNetwork,R-Net)輸出網(wǎng)絡(luò)(OutputNetwork,O-Net)7.4視覺(jué)感知應(yīng)用7.4.1人臉檢測(cè)與識(shí)別MTCNN網(wǎng)絡(luò)示意圖7.4視覺(jué)感知應(yīng)用7.4.1人臉檢測(cè)與識(shí)別P-Net是MTCNN的第一個(gè)子網(wǎng)絡(luò),主要用于快速篩選候選人臉區(qū)域,其網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。采用了一系列的卷積層和池化層,輸出候選人臉區(qū)域的邊界框和置信度得分。P-Net生成的候選框包括了不同尺度和長(zhǎng)寬比的可能人臉區(qū)域。7.4視覺(jué)感知應(yīng)用7.4.1人臉檢測(cè)與識(shí)別R-Net是MTCNN的第二個(gè)子網(wǎng)絡(luò),用于對(duì)P-Net生成的候選人臉區(qū)域進(jìn)行進(jìn)一步的篩選和精細(xì)化,其網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。它接受P-Net生成的候選框作為輸入,按照人臉框的位置對(duì)原圖進(jìn)行切圖,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)候選框進(jìn)行特征提取和分類(lèi),輸出人臉的邊界框和置信度得分。R-Net的輸出經(jīng)過(guò)非極大值抑制(Non-MaximumSuppression,NMS)來(lái)消除重疊的候選框。7.4視覺(jué)感知應(yīng)用7.4.1人臉檢測(cè)與識(shí)別O-Net是MTCNN的第三個(gè)子網(wǎng)絡(luò),用于進(jìn)一步提高人臉檢測(cè)的準(zhǔn)確性并定位人臉的關(guān)鍵點(diǎn),其網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。它接收R-Net生成的高精度候選框的位置在原圖上進(jìn)行切圖作為輸入,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征并輸出人臉的邊界框、置信度得分和人臉關(guān)鍵點(diǎn)的位置。O-Net的關(guān)鍵點(diǎn)定位包括眼睛、鼻子和嘴巴等重要特征點(diǎn)。7.4視覺(jué)感知應(yīng)用7.4.2人臉表情識(shí)別人臉表情識(shí)別技術(shù)源于1971年心理學(xué)家Ekman和Friesen的一項(xiàng)研究,他們提出人類(lèi)主要有六種基本情感,每種情感以唯一的表情來(lái)反映當(dāng)時(shí)的心理活動(dòng),這六種情感分別是憤怒(anger)、高興(happiness)、悲傷(sadness)、驚訝(surprise)、厭惡(disgust)和恐懼(fear),如圖所示。常見(jiàn)的面部表情數(shù)據(jù)集有JAFFE、KDEF、GENKI、RaFD、Fer2013等,包含了不同年齡、不同性別、不同膚色、不同頭部姿態(tài)的表情圖片數(shù)據(jù)。7.4視覺(jué)感知應(yīng)用7.4.2人臉表情識(shí)別人臉表情識(shí)別(FacialExpressionRecognition,F(xiàn)ER)的深度學(xué)習(xí)技術(shù)圖7-31基于深度學(xué)習(xí)的人臉表情識(shí)別常規(guī)流程示意圖7.4視覺(jué)感知應(yīng)用7.4.2人臉表情識(shí)別基于深度學(xué)習(xí)的人臉表情識(shí)別一般分為四個(gè)步驟:首先輸入圖像。其次進(jìn)行圖像預(yù)處理。預(yù)處理主要包括人臉對(duì)齊、數(shù)據(jù)增強(qiáng)、和歸一化三個(gè)步驟。人臉對(duì)齊可以減少面部尺度和平面類(lèi)旋轉(zhuǎn)導(dǎo)致的變化,如圖所示:數(shù)據(jù)增強(qiáng)原圖片平移、旋轉(zhuǎn)、添加噪音、對(duì)比度變換等方式來(lái)增強(qiáng)數(shù)據(jù),從而避免模型過(guò)擬合。歸一化主要包括光照歸一化和姿勢(shì)歸一化。7.4視覺(jué)感知應(yīng)用7.4.2人臉表情識(shí)別再進(jìn)行人臉表情的特征提取。常用的深度網(wǎng)絡(luò)有三類(lèi):卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和深度信念網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)。最后通過(guò)提取的特征將表情分類(lèi)。7.4視覺(jué)感知應(yīng)用7.4.3行為識(shí)別與預(yù)測(cè)行為識(shí)別與預(yù)測(cè)是通過(guò)分析視頻或圖像數(shù)據(jù),預(yù)測(cè)對(duì)象的未來(lái)行為并識(shí)別其潛在意圖,可以分解為兩個(gè)任務(wù):1)行為識(shí)別:識(shí)別視頻數(shù)據(jù)中已完成的人類(lèi)行為的類(lèi)別;2)行為預(yù)測(cè):預(yù)測(cè)視頻數(shù)據(jù)中未完成的人類(lèi)行為的類(lèi)別。7.4視覺(jué)感知應(yīng)用7.4.3行為識(shí)別與預(yù)測(cè)基于深度學(xué)習(xí)的行為識(shí)別與行為預(yù)測(cè)主要方法可以分為四類(lèi):a)基于雙流(two-stream)架構(gòu)的方法:將連續(xù)的圖片幀分為兩部分,一為光流流(Optica
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中考語(yǔ)文現(xiàn)代文閱讀與寫(xiě)作題
- 2026年媒體與傳播專(zhuān)家高級(jí)筆試模擬題
- 2026年通信技術(shù)與數(shù)據(jù)庫(kù)優(yōu)化實(shí)踐軟考中級(jí)專(zhuān)業(yè)考試指導(dǎo)
- 2026年金融風(fēng)險(xiǎn)控制知識(shí)模擬題
- 2026年網(wǎng)絡(luò)安全防護(hù)與入侵檢測(cè)系統(tǒng)測(cè)試題庫(kù)
- 2026年心理學(xué)專(zhuān)業(yè)知識(shí)筆試模擬卷
- 2026年環(huán)境保護(hù)與可持續(xù)發(fā)展試題集
- 提升服務(wù)贏得未來(lái)
- 2026年城市規(guī)劃專(zhuān)業(yè)水平二級(jí)考試模擬題
- 2026年中藥知識(shí)與中醫(yī)藥理論應(yīng)用題庫(kù)
- 2024年風(fēng)電、光伏項(xiàng)目前期及建設(shè)手續(xù)辦理流程匯編
- 不良資產(chǎn)合作戰(zhàn)略框架協(xié)議文本
- 先進(jìn)班級(jí)介紹
- 2025年浙江省輔警考試真題及答案
- 2025中國(guó)熱帶農(nóng)業(yè)科學(xué)院科技信息研究所第一批招聘4人備考題庫(kù)(第1號(hào))附答案
- 雨課堂學(xué)堂在線學(xué)堂云《婚姻家庭法(武漢科大 )》單元測(cè)試考核答案
- 安徽寧馬投資有限責(zé)任公司2025年招聘派遣制工作人員考試筆試模擬試題及答案解析
- 2025版北師大版小學(xué)數(shù)學(xué)一年級(jí)上冊(cè)專(zhuān)項(xiàng)練習(xí)卷
- 酒店簽訂就餐協(xié)議合同
- DB51-T 192-2024 公園城市綠色景觀圍墻營(yíng)建指南
- 《食品標(biāo)準(zhǔn)與法規(guī)》課件全套 第1-6章 緒論-食品生產(chǎn)經(jīng)營(yíng)許可和認(rèn)證管理
評(píng)論
0/150
提交評(píng)論