下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
手語(yǔ)識(shí)別系統(tǒng)研究的國(guó)內(nèi)外文獻(xiàn)綜述手語(yǔ)識(shí)別可以看作是手勢(shì)識(shí)別領(lǐng)域中的一個(gè)分支,是一項(xiàng)比手勢(shì)識(shí)別更復(fù)雜且更具有挑戰(zhàn)性的一項(xiàng)研究?jī)?nèi)容。目前的手語(yǔ)識(shí)別技術(shù)由輸入設(shè)備,識(shí)別特征,識(shí)別對(duì)象,識(shí)別方法等可以分成不同類別。手語(yǔ)識(shí)別的輸入設(shè)備,一般是數(shù)據(jù)手套之類的可穿戴設(shè)備以及視覺(jué)輸入設(shè)備,包括普通相機(jī)以及類似于Kinect的RGB-D的深度相機(jī)。用到的識(shí)別特征一般是手形特征、軌跡特征等。識(shí)別對(duì)象根據(jù)手語(yǔ)詞匯的分類可以分為字母語(yǔ)識(shí)別、手勢(shì)詞識(shí)別以及連續(xù)手語(yǔ)識(shí)別,識(shí)別算法常用的有支持向量機(jī)(SVM),神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型(HMM)以及動(dòng)態(tài)時(shí)間規(guī)整(DTW)等分類方法REF_Ref30956\r\h[1],如圖1-1所示。圖1-SEQ圖1-\*ARABIC1手語(yǔ)識(shí)別分類下面我們主要從用于手語(yǔ)識(shí)別的數(shù)據(jù)采集設(shè)備不同來(lái)介紹手語(yǔ)識(shí)別的研究現(xiàn)狀,主要分為基于可穿戴設(shè)備與基于視覺(jué)的手語(yǔ)識(shí)別。1.1可穿戴設(shè)備由于早期的計(jì)算機(jī)對(duì)大量密集的計(jì)算視覺(jué)數(shù)據(jù)的處理能力較弱,而基于傳感器的數(shù)據(jù)手套可以以較小的計(jì)算代價(jià)獲得手的運(yùn)動(dòng)狀態(tài),因而成為這時(shí)期的一一個(gè)主要研究方向??纱┐髟O(shè)備主要是有位置和加速度傳感器等組成的數(shù)據(jù)手套,使用時(shí)主要佩戴在用戶的手背或手臂等區(qū)域,并且能夠追蹤手以及各個(gè)手指的運(yùn)動(dòng)信息。位置及加速度傳感器精度較高,處理過(guò)程簡(jiǎn)單,很多的研究都使用基于這類傳感器以及由多傳感器組成的數(shù)據(jù)手套。在國(guó)內(nèi),研究手語(yǔ)識(shí)別較早的團(tuán)隊(duì)主要是中國(guó)科學(xué)院的計(jì)算所,他們?cè)缙谑褂玫妮斎朐O(shè)備是CyberGlove數(shù)據(jù)手套(如圖1-2所示)和Pohelmus3D跟蹤器,獲取手形、位置、方向等數(shù)據(jù),建立了一個(gè)包含5113個(gè)中國(guó)手語(yǔ)詞語(yǔ)的數(shù)據(jù)集,并結(jié)合自組織特征網(wǎng)絡(luò)(SOFM)、簡(jiǎn)單回歸網(wǎng)絡(luò)(SRN)和HMM的模型,實(shí)現(xiàn)了非特定人的連續(xù)中國(guó)手語(yǔ)識(shí)別REF_Ref31204\r\h[2]。中科大的田建勛等融合了加速計(jì)及表面肌電信息,對(duì)詞根建模,并引入語(yǔ)言模型,采用決策樹綜合識(shí)別連續(xù)中國(guó)手語(yǔ),對(duì)兩百組手語(yǔ)語(yǔ)句進(jìn)行試驗(yàn)可以達(dá)到95%的手語(yǔ)詞識(shí)別率,90%的句子識(shí)別率REF_Ref31293\r\h[3]。麻省理工學(xué)院的Song&Yin采用混合高斯模型-隱馬爾科夫模型(GMM-HMM)算法在基于數(shù)據(jù)手套的澳大利亞手語(yǔ)數(shù)據(jù)集上得到了99.65%識(shí)別率?;跀?shù)據(jù)手套的手語(yǔ)識(shí)別系統(tǒng)的優(yōu)勢(shì)在于可以較為簡(jiǎn)單的獲取較高的手語(yǔ)手勢(shì)識(shí)別率,但它的缺點(diǎn)也很明顯:數(shù)據(jù)手套價(jià)格高昂,內(nèi)部結(jié)構(gòu)復(fù)雜,穿戴者不舒服且數(shù)據(jù)手套的便攜性很低,這些缺點(diǎn)制約了數(shù)據(jù)手套的進(jìn)一步發(fā)展。圖1-SEQ圖1-\*ARABIC2CyberGlove數(shù)據(jù)手套1.2普通相機(jī)由于可穿戴設(shè)備的缺點(diǎn)較多,并且隨著計(jì)算機(jī)的發(fā)展處理數(shù)據(jù)能力的提升,不少學(xué)者開(kāi)始研究基于視覺(jué)的手語(yǔ)識(shí)別。Starner在以計(jì)算視覺(jué)的美國(guó)手語(yǔ)識(shí)別上做了較有意義的研究工作,他們以單一攝像頭為輸入設(shè)備,使用者在打手語(yǔ)過(guò)程中佩戴特制的顏色手套輔助跟蹤,并且提取雙手的位置、朝向和包圍橢圓為特征,在40個(gè)詞匯集上得到99.2%的詞識(shí)別率REF_Ref31518\r\h[4]。波士頓大學(xué)的Alon等在圖像中運(yùn)用時(shí)空匹配算法來(lái)檢測(cè)視頻幀中手掌區(qū)域,并采集了一個(gè)包含24個(gè)手勢(shì)的視頻集,其中7個(gè)單手手勢(shì),17個(gè)雙手手勢(shì),獲得了很好的識(shí)別效果REF_Ref31603\r\h[5]1.3RGB-D深度相機(jī)由普通相機(jī)獲得的普通圖像處理起來(lái)較為復(fù)雜,需要完成手掌分割跟蹤、姿態(tài)估計(jì)預(yù)測(cè)等,而RGB-D深度相機(jī)的出現(xiàn)為手勢(shì)識(shí)提供了新的途徑,基于RGB-D的研究在最近幾年內(nèi)迅猛發(fā)展,RGB-D深度相機(jī)主要是Kinect,Orbbec,Structuresensor等,本文主要介紹與Kinect相關(guān)的手勢(shì)識(shí)別研究現(xiàn)狀。在國(guó)內(nèi),中國(guó)科學(xué)院計(jì)算所智能信息處理重點(diǎn)實(shí)驗(yàn)室與微軟亞洲研究院共同研發(fā)了一個(gè)基于微軟Kinect傳感器中國(guó)手語(yǔ)識(shí)別系統(tǒng),實(shí)現(xiàn)了手語(yǔ)孤立詞和連續(xù)手語(yǔ)語(yǔ)句的分別識(shí)別與同步翻譯REF_Ref32259\r\h[6]。廈門大學(xué)的LiSZ等利用Kinect傳感器,使用主成分分析組成的網(wǎng)絡(luò)和稀疏自動(dòng)編碼器進(jìn)行降維,之后再應(yīng)用線性SVM分類器和Softmax進(jìn)行分類,獲得了超過(guò)98%的識(shí)別精度。REF_Ref32347\r\h[7]國(guó)外也有很多基于Kinect傳感器的手語(yǔ)識(shí)別研究,喬治亞理工學(xué)院的Zafrullaetal利用Kinect體感設(shè)備做成了一套美國(guó)手語(yǔ)識(shí)別系統(tǒng),對(duì)1000個(gè)短語(yǔ)的坐姿與站姿識(shí)別率分別達(dá)到了51.5%和76.12%,并且在識(shí)別性能上與他們已開(kāi)發(fā)的CopyCat聾啞兒童教育游戲系統(tǒng)相當(dāng),后者的識(shí)別率為74.82%;Sunetal利用Kinect中的深度圖像、彩色圖像和骨骼圖像提取出形狀和骨骼信息,同時(shí)提出區(qū)分模板編碼算法通過(guò)選擇手語(yǔ)詞模板幀,計(jì)算模板幀間相似度和使用AdaBoost訓(xùn)練強(qiáng)分類器,系統(tǒng)在72個(gè)美國(guó)手語(yǔ)詞上的最高識(shí)別準(zhǔn)確率為86.8%;印度的Agarwal等應(yīng)用Kinect捕獲深度圖像,通過(guò)計(jì)算機(jī)視覺(jué)算法獲得深度直方圖,并通過(guò)直方圖和運(yùn)動(dòng)幀差共同獲取手掌,對(duì)每幀提取特征向量,特征矩陣再經(jīng)過(guò)多類別SVM分類器訓(xùn)練和分類,識(shí)別了手語(yǔ)數(shù)字0-9REF_Ref32472\r\h[8]。總的來(lái)說(shuō),隨著機(jī)器視覺(jué)以及深度攝像頭的發(fā)展,目前基于Kinect對(duì)聾啞人手語(yǔ)識(shí)別的主流處理方法就是利用kinect獲取需要識(shí)別的視頻圖像數(shù)據(jù),然后利用不同的算法進(jìn)行識(shí)別。如大連海事大學(xué)的謝靖怡利用骨骼點(diǎn)坐標(biāo)分割手勢(shì)區(qū)域,提取HOG,LBP特征,利用DDTW為核函數(shù)的SVM算法進(jìn)行手型識(shí)別REF_Ref32635\r\h[15];南京航空航天大學(xué)的徐鑫鑫以卷積神經(jīng)網(wǎng)絡(luò)為框架進(jìn)行手語(yǔ)關(guān)鍵動(dòng)作的識(shí)別,并在此基礎(chǔ)上實(shí)現(xiàn)了非特定人群的手語(yǔ)識(shí)別功能REF_Ref634\r\h[17];山東大學(xué)的陳福財(cái)利用骨骼和彩色圖像信息結(jié)合起來(lái)進(jìn)行分析,比對(duì)了SVM、ELM、HMM三種算法的識(shí)別率,最終利用CRF及其改進(jìn)模型LDCRF以及基于BPNN的WFBPNN對(duì)手語(yǔ)的連音進(jìn)行標(biāo)記,完成識(shí)別REF_Ref30956\r\h[1]。參考文獻(xiàn)陳福財(cái).基于Kinect的連續(xù)中國(guó)手語(yǔ)識(shí)別[D].山東大學(xué),2016.王春立,高文,馬繼勇,等.基于詞根的中國(guó)手語(yǔ)識(shí)別方法[J]、計(jì)算機(jī)研究與發(fā)展,2003,40(2):150-156.田建勛,陳香,李云,等.一種基于加速度與表面肌電信息融合和統(tǒng)計(jì)語(yǔ)言模型的連續(xù)手語(yǔ)識(shí)別方法[J].中國(guó)生物醫(yī)學(xué)工程字報(bào),2011,30(3):333-339.Starner,T.E.andPentland,A.(1995)VisualRecognitionofAmericanSignLanguageUsingHiddenMarkovModels.ProceedingsoftheInternationalWorkshoponAutomaticFace-andGesture-Recognition,Zurich,26-28June1995.AlonJ,AthitsosV,YuanQ,etal.Aunifiedframeworkforgesturerecognitionandspatiotemporalgesturesegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,31(9):1685-1699.ChaiX,LiG,LinY,etal.Signlanguagerecognitionandtranslationwithkinect[C]lProceedingsof1EEEConferenceonAutomaticFaceandGestureRecognition.2013.LiSz,YuB,Wuw,etal.FeaturelearningbasedonSAE-PCAnetworkforhumangesturerecognitioninRGBDimages[J].Neurocomputing,2015,151:565-573.AgarwalA,ThakurMK.SignlanguagerecognitionusingMicrosoftKinect[C]//ProceedingsofIEEEInternationalConferenceonContemporaryComputing.2013:181-185.張?jiān)姵?基于Kinect的手語(yǔ)教學(xué)系統(tǒng)設(shè)計(jì)研究[D].華東師范大學(xué),2014.朱明茗.基于Kinect的手語(yǔ)識(shí)別技術(shù)在聾啞教學(xué)中的應(yīng)用研究[D].西南交通大學(xué),2014.曹翔.可穿戴手語(yǔ)翻譯器研制[D].中國(guó)科學(xué)技術(shù)大學(xué),2015.江勇軍.基于Kinect的孤立詞手語(yǔ)識(shí)別系統(tǒng)研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2015.李輝.基于數(shù)據(jù)手套的手語(yǔ)手勢(shì)識(shí)別及應(yīng)用[D].哈爾濱理工大學(xué),2018.楊勇,葉梅樹.基于Kinect的中國(guó)手語(yǔ)識(shí)別[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年湖北文理學(xué)院第二批專項(xiàng)公開(kāi)招聘工作人員12人備考題庫(kù)完整答案詳解
- 廣東省廣州市花都區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期末化學(xué)試題(含答案)
- 2025年合肥市第四十六中學(xué)招聘體育教師備考題庫(kù)參考答案詳解
- 長(zhǎng)沙市食品藥品檢驗(yàn)所2025年公開(kāi)招聘編外合同制人員備考題庫(kù)及1套完整答案詳解
- 3D可視化技術(shù)在復(fù)雜顱腦損傷手術(shù)中的價(jià)值
- 2025年智能駕駛汽車外飾材料創(chuàng)新十年報(bào)告
- 2025年廣州市市場(chǎng)監(jiān)督管理局直屬事業(yè)單位引進(jìn)急需專業(yè)人才備考題庫(kù)有答案詳解
- 2025年山東鋼鐵集團(tuán)有限公司招聘?jìng)淇碱}庫(kù)及參考答案詳解一套
- 簡(jiǎn)約風(fēng)黑白色新媒體運(yùn)營(yíng)培訓(xùn)
- 2025年中國(guó)作家協(xié)會(huì)所屬單位公開(kāi)招聘工作人員13人備考題庫(kù)及一套參考答案詳解
- 餐飲店前臺(tái)接待培訓(xùn)課件
- 信任價(jià)格關(guān)系研究-洞察與解讀
- 四大名著經(jīng)典講解課件
- (北師大2024版)生物八上全冊(cè)知識(shí)點(diǎn)(默寫版+背誦版)
- 陌陌聊天話術(shù)技巧
- 精神科常見(jiàn)藥物不良反應(yīng)
- 2025年小學(xué)必讀書目《窗邊的小豆豆》閱讀測(cè)試試題及答案
- 鋁合金車身輕量化技術(shù)-洞察與解讀
- 2025江蘇鹽城市水務(wù)集團(tuán)有限公司招聘專業(yè)人員34人筆試題庫(kù)歷年考點(diǎn)版附帶答案詳解
- 學(xué)堂在線 雨課堂 學(xué)堂云 實(shí)驗(yàn)室安全密碼 章節(jié)測(cè)試答案
- 華為培訓(xùn)心得體會(huì)
評(píng)論
0/150
提交評(píng)論