版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、原文:Hand Gesture Recognition Based on Combined Features Extraction基于組合特征提取技術(shù)的手勢識別摘要:手勢在視覺交流上是一個熱門的研究領(lǐng)域,主要用于手語識別和人機交互 的目的。在本論文中,我們提出了一個通過使用隱馬爾可夫模型(HMM模型) 能夠?qū)崟r從彩色圖像的序列中識別字母字符(A-Z)和數(shù)字(0-9)的系統(tǒng)。我們 的系統(tǒng)有三個主要階段:自動分割和手勢區(qū)域的預(yù)處理、特征提取和分類。在自 動分割和手勢區(qū)域的預(yù)處理階段,通過使用均值漂移算法和卡爾曼濾波,顏色和 3D深度圖是用來探測手將出現(xiàn)的軌跡。在特征提取階段,笛卡爾系統(tǒng)的使用讓 我
2、們得到三維組合特征的位置、方向和速度。然后,K-均值聚類采用隱馬爾可夫 模型。最后階段所謂的分類,Baum - Welch算法是用來做一個完整的隱馬爾可夫 模型參數(shù)訓(xùn)練。通過使用左-右手型與Viterbi算法結(jié)合的方法字母和數(shù)字的手勢 被識別。實驗表明我們的系統(tǒng)能成功識別手勢的概率是98.33%。關(guān)鍵字:手勢識別,計算機視覺,圖像處理,模式識別.前百從手勢運動和手勢位置得到的手語識別是一個用于人機交互的熱門研究領(lǐng) 域。一個手勢是時空格局,這可能是靜態(tài)或動態(tài)或兩者。靜態(tài)的手被稱為姿勢, 而動態(tài)的手稱作手勢。手勢解釋的目的是推動人機交互從而使人機交互性能接近 人際交往。這是由于手勢跟蹤存在的復(fù)雜性
3、,如手的外觀,光照變化,跨手閉塞。 這些問題損害了跟蹤算法的性能和效率。在過去的十年中,幾種方法在先進(jìn)的手 勢交互的應(yīng)用前景12345已經(jīng)被提出來了,但這些差異在他們的模型中又都不相同。這些模型是神經(jīng)網(wǎng)絡(luò) 1,隱馬爾可夫模型2與模糊系統(tǒng)5。Liu and Lovell介紹了一種基于Camshift實時算法和復(fù)合恒定加速度卡爾曼 濾波算法的實時手勢跟蹤系統(tǒng)。而Nobuhiko等人用HSV顏色空間來追蹤非復(fù) 雜背景下的手和臉,那里的重疊的手和臉通過先前的手和臉模板匹配能較好地分 離開。Comaniciu等人提出了一種使用均值漂移算法和卡爾曼濾波跟蹤從攝像頭 獲得的移動物體的技術(shù),這一技術(shù)主要獲得了
4、實時跟蹤性能。先前的技術(shù)沒有考 慮到許多點,如雙手的準(zhǔn)確分割組合,包括手和臉重疊的魯棒性跟蹤和系統(tǒng)實時 高分辨率的運行能力。Vassilia等人開發(fā)了一種系統(tǒng),可以識別孤立和連續(xù)的希臘手勢語言,其中 方向向量是從圖像中提取,然后作為參數(shù)輸入到隱馬爾可夫模型在句子中被使 用。Ho-Sub等人介紹了手勢識別方法,該方法使用位置,角度和速度的組合特 征確定作為輸入到隱馬爾可夫模型的離散向量。這種方法在字母(A-Z),數(shù)字(0-9),六編輯命令和六個繪圖元素上可以實現(xiàn)。Nianjun等人通過使用不同的 隱馬爾可夫模型的拓?fù)浣Y(jié)構(gòu)數(shù)提出一個方法來識別不同國家的從A到Z的26個 字母。但是,這些方法運行在一
5、個非復(fù)雜離線背景。Nguyen等人提出一個手勢識別系統(tǒng),在這個系統(tǒng)里通過卡爾曼濾波和手斑 點分析,以獲得手部區(qū)域動作的描述來跟蹤手勢。這個系統(tǒng)對背景聚簇和使用皮 膚顏色跟蹤和識別手勢相當(dāng)強大。此外該系統(tǒng)用包括美國手語拼寫字母和數(shù)字的 36個詞匯來測試。但是這種方法在我們的系統(tǒng)中研究手的姿勢而不是手的運動 軌跡。其中有這樣一個問題,它提高了手勢識別的實時性,是由事實所引起的同 樣的手勢如形狀、軌跡和持續(xù)時間,甚至是同一個人變化引起的。所以,隱馬爾 可夫模型是在我們的系統(tǒng)用在它有能力建模時空的時間序列。本文的主要貢獻(xiàn)是研究用于手勢識別的位置、方向和速度的組合特征的作 用,這個特征是從時空手勢路徑獲
6、得的。此外,它提出了一個能夠從三維顏色圖 像序列中通過使用隱馬爾可夫模型模型跟蹤單個手勢運動軌跡來識別字母字符(A-Z)和數(shù)字(0-9)的實時系統(tǒng)。顏色和3D深度圖是用來檢測手。此外,手 的軌跡采用均值漂移算法13和卡爾曼濾波14與3D深度圖結(jié)合的辦法來確定。 手和臉從來自立體相機、高斯混合模型(GMM)的和顏色信息的三維深度圖從 復(fù)雜背景分割出來,這相對于不利的照明和部分遮擋是更強大的。深度信息解決 了手和臉重疊問題。該系統(tǒng)是用來自笛卡爾系統(tǒng)的變化的特征在不同的實驗上測 試以決定哪個特征能得到最好的結(jié)果。每個字母和數(shù)字用30幀測試(20幀用來 訓(xùn)練和10幀用來測試)。測試的手勢在識別率上有9
7、8.33%。本文的其余部分如 下:第二部分介紹基本隱馬爾可夫模型技術(shù)。第三部分在三個小節(jié)中證明這個系統(tǒng)。第四部分說明實驗結(jié)果。最后,第五部分提出總結(jié)和結(jié)論。.隱馬爾可夫模型馬爾可夫模型是一個隨機過程的數(shù)學(xué)模型,它在處理過程中產(chǎn)生一個具有相 應(yīng)概率密度分布的狀態(tài)序列。一個隱馬爾可夫模型是由三元組參數(shù)-a,b,n)表 示如下: 一個狀態(tài)集S =呼s2,.,sN,N為常數(shù)。一個初始可能每一狀態(tài)n產(chǎn)1,2,., n,這樣第一步np( si)。一個N到N轉(zhuǎn)移矩陣a = a,其中a是從狀態(tài)s丹s.的轉(zhuǎn)移的可能性;1 i, j N和矩陣 A的每行之和必須是1,因為這是讓一個給定狀態(tài)到每一其他狀態(tài)轉(zhuǎn) 移的可能
8、性總和。可能的觀察序列集O = q,o2,.,oj,其中T是手勢路徑的長度。離散的信號集V = ,v2,.,與,其中M是離散的信號。一個N到M的觀察矩陣b = b ,其中b給出來至狀態(tài)si的信號v的可能值,而矩陣B的每行值總和必須是1,原因和前面的一樣。 Fig. I. HMMs apologies 瑞Illi 4 muiLfi耳 ErgoJic lopolagy (b) LRE dpalngy.對隱馬爾可夫模型來說有三個主要問題:計算問題、解讀問題、訓(xùn)練問題。 這三個問題可以分別通過前向和后向算法、Viterbi算法和Baum- Welch算法解 決。此外,隱馬爾可夫模型的拓?fù)浣Y(jié)構(gòu)有三種:完
9、全連接(遍歷模型),在這個 結(jié)構(gòu)里可以從任一狀態(tài)到達(dá)其他狀態(tài);左-右模型,在這個模型里每個狀態(tài)只能 到達(dá)自己狀態(tài)和下一狀態(tài);左-右?guī)钅P?,在這個模型里每個狀態(tài)只能到達(dá)自 己狀態(tài)和下一狀態(tài)(圖1)。3 ,推薦系統(tǒng)我們開發(fā)了一個自動識別系統(tǒng),這個系統(tǒng)可以從三維色彩圖片序列中通過單 個手的運動軌跡使用隱馬爾可夫模型實時識別代表字母(A-Z)和數(shù)字(0-9)的 手勢。特別是,這個系統(tǒng)包括三個主要階段:手勢自動分割和追蹤階段、特征提 取階段和分類階段(圖2)。PreprocessingFeature ExbracHonClassincationSkin Color DetectionCombi tie
10、d FeaturesN /Gesture DatabaseHand TrackingVecrcr QuantijarionHidden Markov ModelsFig. 2 SjmplLtied struciure showing the main CDnipiiLdotial modiiles for gestuire recognition sysDsm.預(yù)處理:定位和跟蹤的手以產(chǎn)生它的運動軌跡(手勢路徑)。特征提?。壕垲愄崛〉奶卣魃勺鳛檩斎?yún)?shù)到隱馬爾可夫模型識別使用的離 散向量。分類:通過使用離散向量和左-右?guī)钔負(fù)浣Y(jié)構(gòu)識別手勢路徑。手勢自動分割和追蹤本文描述了探測和分割復(fù)雜背景下
11、的三維色彩圖片里的手勢的方法,在這 個方法里使用3D深度圖和色彩信息來分割手勢。皮膚顏色區(qū)域的分割只有在將 色度應(yīng)用在分析中才能變強大。所以,在我們的系統(tǒng)中使用YCbCr顏色空間, 其中Y分量代表亮度,而(Cb,Cr)分量是指色度。我們忽略Y分量,以減少 亮度變化的影響,僅使用色度分量,這樣充分得到顏色信息。一個大型膚色和非 膚色像素數(shù)據(jù)庫被用來訓(xùn)練高斯模型。高斯混合模型使用皮膚數(shù)據(jù)庫開始建立皮 膚模型,其中大量k-均值聚類算法用來模型的訓(xùn)練,以確定GMM參數(shù)的初始配 置。對于三位色彩圖像序列中的手和臉的膚色分割,我們計算膚色深度值以增加 膚色信息。深度信息(圖3(c)解決了由基于相互關(guān)聯(lián)交叉
12、和已知坐標(biāo)的照相 機位置數(shù)據(jù)而測量獲得的手和臉的重疊問題。幾組值組成了最終的三維坐標(biāo)點。 聚類算法可以看成是種在三維空間中的使用了兩種準(zhǔn)則的區(qū)域生長,這兩種準(zhǔn)則 是:皮膚顏色和歐氏距離。此外,這種方法對于實時環(huán)境中發(fā)生的不利照明和部 分遮擋有更好的魯棒性。還有,點分析被用來推測邊界面積、周長和形心。欲了 解更多詳情,讀者可以閱讀2,21。Fig. 3. (a) Left image frame of video streank (b) Right image, (c) The depth value of left and right image via he Bumblebee stereo
13、 camera.經(jīng)過來至分割步驟的手勢目標(biāo)定位后,我們發(fā)現(xiàn)手的顏色直方圖和 Epanechnikov核。這個核分配來至中心的父像素較小的權(quán)重以增加密度估計的魯 棒性。為了找到在連續(xù)幀中手勢目標(biāo)的最佳匹配,我們使用Bhattacharyya系數(shù) 通過從手勢目標(biāo)和模板的比較得到的貝葉斯誤差來測量相似程度。我們對先前的 幀計算手勢區(qū)域的平均深度值以解決手和臉的重疊問題。平均偏移過程被定義為 遞歸地和執(zhí)行優(yōu)化計算平均偏移向量。經(jīng)過每個均值偏移優(yōu)化,系統(tǒng)給出手勢目 標(biāo)的測量位置。能夠計算不確定的估計值,然后通過卡爾曼迭代迭代得到手勢目 標(biāo)。因此,我們可以通過檢測連續(xù)的圖像幀之間的手的關(guān)系得到手勢路徑(圖
14、5 (d)。有關(guān)詳細(xì)信息,讀者可以參考2,8,21。特征提取毫無疑問,選擇好特征來識別手勢路徑在系統(tǒng)性能起著重要的作用。手勢路 徑有三個基本特征:位置、方向和速度。我們分析這些從手勢軌跡提取的特征的 有效性,同時將它們結(jié)合起來測試它們的識別速率。手勢路徑是一個由手質(zhì)心 (xhand,yhand)組成的時空坐標(biāo)。在笛卡爾空間的該坐標(biāo)可以直接從手勢幀中提取。我們考慮兩種位置特征。第一 種位置特征是從質(zhì)心到手勢路徑的各個點的距離,因為同一手勢根據(jù)不同的 起點形成不同位置特征(公式1)。第二種特征是計算從起點到手勢路徑上當(dāng)前 點的距離Lsc (公式3)。Let =/5一 一 Gr)2 - 事I 一 C
15、* (I) TOC o 1-5 h z 71H(Cjt; Cy ) = - (1 工士:l 亞)f = 1t= 1工SCt = H(1I - El尸一(更+L 的戶(3)其中t=1,2,T-1, T是手勢路徑的長度。工,指在n點的重心。為了驗證實時 性,我們計算每幀后的手勢路徑的重心點。第二個基本特征是方向,它給出了在手勢處理過程中貫穿空間的手勢走向。 如上所述,方向特征是基于每個點上的手勢位移向量的計算,它代表著手勢路徑 質(zhì)心的方向-、連續(xù)兩個點的方向1和起點與當(dāng)前手勢點的方向一。 TOC o 1-5 h z (比一】一 e八小Oli = arctan -(4)工1 一邑J&2t = arc
16、 tail (5+1 -X1J氏=arctan (譏一1一犯I3 - 2T1 7第三個基本特征是速度,它在手勢識別階段特別是在一些關(guān)鍵情形中起很重 要的作用。速度是基于一個現(xiàn)實,在這現(xiàn)實里手勢路徑的拐點處手的速度降低。 速度是通過歐氏距離除以視頻幀里面的兩個連續(xù)點的時間如下:% =(工;_:一產(chǎn)+ (如二I 一比產(chǎn)在直角坐標(biāo)系中,我們使用不同的特征組合,以獲得各種特征向量。例如,在幀 t+1的特征向量可以通過位置特征-、位置特征和方向特征一 、方向特征-l、方向特征和速度特征.:,.【;:;、位置特征和速度特征 在時刻t每幀都包含一個特征向量集,其中的空間維數(shù)正比于特征向量的大小。 在這種方式
17、下,手勢被描繪成一個有序的向量特征序列,它在三維中被處理和聚 簇成一個離散值作為隱馬爾可夫模型的輸入。這可以通過使用K-均值聚類算法 19,20完成,它將手勢模型在特征空間中分為k集群。矢量量化:量化提取的特征得到了離散值。當(dāng)諸如位置和速度等基本特征單 獨使用時,這些特征被規(guī)范化和乘上從10到30的不同標(biāo)量值。另一方面,方 向特征的規(guī)范值除以10,20,30和40已獲得它的碼字。除了直角坐標(biāo)系中的 組合特征,我們使用K -均值聚類算法將手勢特征分類到特征空間中的k集群。 該算法是基于每個集群的中心到特征點的最小距離。我們將特征向量集分成集群 集。這使我們能過通過一個集群在特征空間模擬手勢軌跡。
18、這計算得來的集群指 數(shù)用來當(dāng)做隱馬爾可夫模型的輸入。止匕外,在數(shù)據(jù)集中我們通常不知道集群的個 數(shù)最好是多少個。為了得到在每個K-均值算法中的每個執(zhí)行中集群K的個數(shù), 我們假定K=28, 29,,37,這樣的假定是基于在所有的字母(A-Z)和數(shù)字 (0-9)的分段部分的數(shù)量,其中每個直線段被編入同一集群。假設(shè)我們有n個來自同一類得訓(xùn)練特征向量x1,x2, ., xn的樣本,同時我們 將它們分為k集群,kn。在集群i中我們讓為向量的平均值。如果這些集群 被很好的分離,那么一個最小距離分離器被用來分離它們。也就是,如果一 是所有k距離中的最小一個是,我們可以認(rèn)為x是在集群i中。對均值m1,m2, .
19、,mk建立一個隨機初始向量量化編碼本在任何情況下都沒有改變我們使用估計方法來給每個訓(xùn)練特征樣本分類到一個集群中For1 to k對集群i用所有訓(xùn)練好的特征樣本的均值代替end(for)end(until)一個總的看法是,不同的手勢有不同集群中的空間運動軌跡,而同樣的姿態(tài) 有非常相似的軌跡。3.3分類在我們系統(tǒng)的最后階段就是分類。在本階段,Baum - Welch算法15是用 來對初始化隱馬爾可夫模型參數(shù)做一個完整的訓(xùn)練來構(gòu)建手勢庫。手勢庫中的字 母(A-Z)和數(shù)字(0-9)的每個參考模型是通過左-右Banded模型根據(jù)它的復(fù)雜性 用從3到6個不同狀態(tài)來模擬。正如,如果訓(xùn)練樣本數(shù)量跟模型參數(shù)相比
20、不足 的話,過多的狀態(tài)會形成過擬合問題。通過選擇最大觀察手勢模型可能性分類手 勢路徑。最可能的手勢模型是所有36手勢中觀察可能性最大的手勢。所觀察到 得手勢O 一幀一幀通過Viterbi算法識別(即累計,直到它收到手勢信號結(jié)束)。 下列步驟展示了 Viterbi算法如何在手勢模型之中工作的。(圖4).初始:一三三N,用=理星).遞回(累計觀察概率計算):f&r 2 tT, 1 j !31323334Number of feature codes353637-eLsc)t-包c, Lsc, V)-%, 6”(g, % %,V)-9-(Lc, Lsctf)Jt 02 %,V)30(d)、.(e).
21、Fig. 5. (a) Recognition rate for the number ot locations and velocity feature codes (1(), 15, 2(), 25, 30). (b) Results for three different orientations with varying feature codes number (9, 12, 18, 36). (c) Recognition rate according to a combined features in Cartesian system over feature codes number from 28 to 37. (d) The high priority is alphabet F at t=45 and at t=7() the result is *R*. (e) Solving overlap problem between hand and face at t=19 and the high priority is *7* at t=27.圖5根據(jù)圖5(魴和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 沙發(fā)生產(chǎn)車間管理制度
- 扶梯安全生產(chǎn)責(zé)任制度
- 生產(chǎn)計量管理制度
- 市場局安全生產(chǎn)培訓(xùn)制度
- 安全生產(chǎn)師傅帶徒弟制度
- ?;飞a(chǎn)安全制度
- 安全生產(chǎn)宣教會議制度
- 教育局安全生產(chǎn)問責(zé)制度
- 2026浙江溫州市瑞安市醫(yī)療保障局招聘臨時人員2人備考考試題庫附答案解析
- 生產(chǎn)公司保密管理制度
- 2026年及未來5年中國TFT液晶面板行業(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資方向研究報告
- 大唐集團(tuán)機考行測題庫
- 車輛日常安全檢查課件
- 民航安全法律法規(guī)課件
- 山東省濟(jì)寧市2026屆第一學(xué)期高三質(zhì)量檢測期末考試濟(jì)寧一模英語(含答案)
- 光伏電站巡檢培訓(xùn)課件
- 年末節(jié)前安全教育培訓(xùn)
- 安全生產(chǎn)麻痹思想僥幸心理
- GB/T 93-2025緊固件彈簧墊圈標(biāo)準(zhǔn)型
- 建設(shè)工程測繪驗線標(biāo)準(zhǔn)報告模板
- 統(tǒng)編版九年級上冊語文期末復(fù)習(xí):全冊重點考點手冊
評論
0/150
提交評論