人機(jī)交互-多通道人機(jī)交互課件_第1頁
人機(jī)交互-多通道人機(jī)交互課件_第2頁
人機(jī)交互-多通道人機(jī)交互課件_第3頁
人機(jī)交互-多通道人機(jī)交互課件_第4頁
人機(jī)交互-多通道人機(jī)交互課件_第5頁
已閱讀5頁,還剩99頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7章多通道人機(jī)交互9/30/20231第7章多通道人機(jī)交互8/5/20231本章內(nèi)容多通道交互技術(shù)概述眼動跟蹤三維輸入實(shí)例介紹9/30/20232本章內(nèi)容多通道交互技術(shù)概述8/5/20232多通道交互技術(shù)概述為適應(yīng)目前和未來的計(jì)算機(jī)系統(tǒng)要求,人機(jī)界面應(yīng)能支持時(shí)變媒體(time-varingmedia),實(shí)現(xiàn)三維、非精確及隱含的人機(jī)交互,而多通道人機(jī)界面是達(dá)到這一目的的重要途徑80年代后期以來,多通道用戶界面(MultimodalUserInterface)成為人機(jī)交互技術(shù)研究的嶄新領(lǐng)域,在國內(nèi)外受到高度重視9/30/20233多通道交互技術(shù)概述為適應(yīng)目前和未來的計(jì)算機(jī)系統(tǒng)要求,人機(jī)界面多通道用戶界面消除當(dāng)前WIMP/GUI用戶界面通信帶寬不平衡的瓶頸綜合采用視線、語音、手勢眼神、表情等新的交互通道、設(shè)備和交互技術(shù)使用戶利用多個(gè)通道以自然、串行/并行、協(xié)作的方式進(jìn)行人機(jī)對話通過整合來自多個(gè)通道的、精確的和不精確的輸入來捕捉用戶的交互意圖,提高人機(jī)交互的自然性和高效性9/30/20234多通道用戶界面消除當(dāng)前WIMP/GUI用戶界面通信帶寬不平衡圖5-1多通道人機(jī)界面概念模型

9/30/20235圖5-1多通道人機(jī)界面概念模型8/5/20235多通道用戶界面研究的目標(biāo)多通道用戶界面主要關(guān)注人機(jī)界面中用戶向計(jì)算機(jī)輸入信息以及計(jì)算機(jī)對用戶意圖的理解交互的自然性使用戶盡可能多地利用已有的日常技能與計(jì)算機(jī)交互,降低認(rèn)識負(fù)荷;交互的高效性使人機(jī)通訊信息交換吞吐量更大、形式更豐富,發(fā)揮人機(jī)彼此不同的認(rèn)知潛力;與傳統(tǒng)的用戶界面特別是廣泛流行的WIMP/GUI兼容9/30/20236多通道用戶界面研究的目標(biāo)多通道用戶界面主要關(guān)注人機(jī)界面中用戶多通道用戶界面的基本特點(diǎn)

使用多個(gè)感覺和效應(yīng)通道

允許非精確的交互

三維和直接操縱

交互的雙向性

交互的隱含性

9/30/20237多通道用戶界面的基本特點(diǎn)使用多個(gè)感覺和效應(yīng)通道8/5/2使用多個(gè)感覺和效應(yīng)通道感覺通道側(cè)重于多媒體信息的接受,效應(yīng)通道側(cè)重于交互過程中控制與信息的輸入,兩者密不可分、相互配合一種通道(如語音)不能充分表達(dá)用戶的意圖時(shí),需輔以其它通道(如手勢指點(diǎn))的信息;有時(shí)使用輔助通道以增強(qiáng)表達(dá)力交替而獨(dú)立地使用不同的通道不是真正意義上的多通道技術(shù),必須允許充分地并行、協(xié)作的通道配合關(guān)系9/30/20238使用多個(gè)感覺和效應(yīng)通道感覺通道側(cè)重于多媒體信息的接受,效應(yīng)通允許非精確的交互人類語言本身就具有高度模糊性,人類在日常生活中習(xí)慣于并大量使用非精確的信息交流允許使用模糊的表達(dá)手段可以避免不必要的認(rèn)識負(fù)荷,有利于提高交互活動的自然性和高效性多通道人機(jī)交互技術(shù)主張以充分性代替精確性9/30/20239允許非精確的交互人類語言本身就具有高度模糊性,人類在日常生活三維和直接操縱人類的大多數(shù)活動領(lǐng)域具有三維和直接操縱特點(diǎn)人生活在三維空間,習(xí)慣于看、聽和操縱三維的客觀對象,并希望及時(shí)看到這種控制的結(jié)果多通道人機(jī)交互的自然性反應(yīng)了這種本質(zhì)特點(diǎn)9/30/202310三維和直接操縱人類的大多數(shù)活動領(lǐng)域具有三維和直接操縱特點(diǎn)8/交互的雙向性人的感覺和效應(yīng)通道通常具有雙向性的特點(diǎn),如視覺可看可注視,手可控制、可觸及等多通道用戶界面使用戶避免生硬的、不自然的、頻繁的、耗時(shí)的通道切換,從而提高自然性和效率視線跟蹤系統(tǒng)可促成視覺交互雙向性,聽覺通道利用三維聽覺定位器實(shí)現(xiàn)交互雙向性9/30/202311交互的雙向性人的感覺和效應(yīng)通道通常具有雙向性的特點(diǎn),如視覺可交互的隱含性追求交互自然性的多通道用戶界面并不需要用戶顯式地說明每個(gè)交互成分,反之是在自然的交互過程中隱含地說明用戶的視線自然地落在所感興趣的對象之上用戶的手自然地握住被操縱的目標(biāo)9/30/202312交互的隱含性追求交互自然性的多通道用戶界面并不需要用戶顯式地多通道用戶界面評價(jià)基于多通道用戶界面所追求的目標(biāo),人們提出相應(yīng)的評價(jià)多通道用戶界面的若干指標(biāo)(Nigay等人提出的CARE指標(biāo)):互補(bǔ)性(complementary);指派性(Assignment);等效性(Equivalence);冗余性(Redundancy);9/30/202313多通道用戶界面評價(jià)基于多通道用戶界面所追求的目標(biāo),人們提出相互補(bǔ)性互補(bǔ)性是指若干通道必須以互補(bǔ)方式完成特定的交互任務(wù),也就是說,當(dāng)單個(gè)通道不能提供充分的任務(wù)信息時(shí),需要其他通道補(bǔ)充,如手勢指點(diǎn)補(bǔ)充語音命令互補(bǔ)性可能存在一個(gè)“優(yōu)勢通道(DominantModality)”,并需要其他通道予以輔助,例如,用語音直指(“Thiscity”),則需鼠標(biāo)在屏幕對象上指點(diǎn)9/30/202314互補(bǔ)性互補(bǔ)性是指若干通道必須以互補(bǔ)方式完成特定的交互任務(wù),也指派性指派性是指某通道是完成特定交互任務(wù)唯一途徑的情形,即某通道必須被用于實(shí)現(xiàn)特定交互任務(wù)而沒有其他通道可以替代指派性可分為兩種情形一種是不存在其他選擇,稱為嚴(yán)格的指派性(StrictAssignment)另一種是雖然存在選擇,但用戶或系統(tǒng)總是傾向于使用同一種通道,稱為代理指派性(AgentAssignment)9/30/202315指派性指派性是指某通道是完成特定交互任務(wù)唯一途徑的情形,即某等效性等效性是指在完成特定交互任務(wù)時(shí)至少有兩種以上通道可以互相替代,由于設(shè)備特性、用戶習(xí)慣或臨時(shí)因素(如手頭正忙)而使某種通道不能使用時(shí),可選擇其他通道代替。9/30/202316等效性等效性是指在完成特定交互任務(wù)時(shí)至少有兩種以上通道可以互冗余性冗余性是指在特定交互中多個(gè)通道同時(shí)使用并具有相同的表達(dá)作用不同通道為相同參數(shù)提供所需信息,并且所表達(dá)信息可能是一致的,也可能是矛盾的9/30/202317冗余性冗余性是指在特定交互中多個(gè)通道同時(shí)使用并具有相同的表達(dá)眼動跟蹤(Eye-GazeTracking)

與視覺有關(guān)的人機(jī)交互自始至終都離不開視線的控制如果能通過用戶的視線盯著感興趣的目標(biāo),計(jì)算機(jī)便“自動”將光標(biāo)置于其上,人機(jī)交互將更為直接,也省去了上述交互過程中的大部分步驟有關(guān)視覺輸入的人機(jī)界面研究主要涉及兩個(gè)方面一是視線跟蹤原理和技術(shù)的研究二是在使用這種交互方式后,人機(jī)界面的設(shè)計(jì)技術(shù)和原理的研究9/30/202318眼動跟蹤(Eye-GazeTracking)與視覺有關(guān)的眼動跟蹤早期的視線跟蹤技術(shù)首先應(yīng)用于心理學(xué)研究、助殘等領(lǐng)域,后來被應(yīng)用于圖像壓縮及人機(jī)交互技術(shù)視線跟蹤技術(shù)有強(qiáng)迫式與非強(qiáng)迫式、穿戴式與非穿戴式、接觸式與非接觸式之分視線追蹤主要用于軍事領(lǐng)域(如飛行員觀察記錄),閱讀及幫助殘疾人通信等

9/30/202319眼動跟蹤早期的視線跟蹤技術(shù)首先應(yīng)用于心理學(xué)研究、助殘等領(lǐng)域,

圖5-2StanfordUniversity和ThePoynterInstitute合作研究人們對于Internet上新聞的注意程度9/30/202320圖5-2StanfordUniversity和The圖5-3人們對于Internet上新聞的注意程度研究結(jié)果9/30/202321圖5-3人們對于Internet上新聞的注意程度研究結(jié)果人們對于Internet上新聞的注意程度研究結(jié)果

內(nèi)容注視率文章文字(Articlestext)92%簡訊(Briefs)82%照片(Photos)64%標(biāo)題廣告(BannerAds)45%圖形(graphics)22%9/30/202322人們對于Internet上新聞的注意程度研究結(jié)果內(nèi)眼動的主要形式

眼動有三種主要形式跳動(Saccades)在正常的視覺觀察過程中,眼動表現(xiàn)為在一系列被觀察目標(biāo)上的停留及在這些停留點(diǎn)之間的飛速跳躍在注視點(diǎn)之間的飛速跳躍稱為眼跳動。注視(Fixations)停留時(shí)間至少持續(xù)100ms以上的稱為注視。在注視中,眼也不是絕對靜止不動,會有微小運(yùn)動,但大小一般不會超過1°視角。絕大多數(shù)信息只有在注視時(shí)才能獲得并進(jìn)行加工。平滑尾隨跟蹤(SmoothPursuit)緩慢、聯(lián)合追蹤的眼動通常稱為平滑尾隨跟蹤。9/30/202323眼動的主要形式眼動有三種主要形式8/5/202323眼動跟蹤的基本要求

在人機(jī)交互中眼動跟蹤技術(shù)必須滿足以下幾點(diǎn)要求,才能滿足實(shí)際需求:

不能妨礙視野不要與用戶接觸,對用戶基本無干擾精度要高動態(tài)范圍要從1弧分(六十分之一弧度)到45o反映速度要快,實(shí)時(shí)響應(yīng)能與獲取的身體和頭部運(yùn)動相配合

定位校正簡單可作為計(jì)算機(jī)的標(biāo)準(zhǔn)外設(shè)

9/30/202324眼動跟蹤的基本要求在人機(jī)交互中眼動跟蹤技術(shù)必須滿足以下幾眼動跟蹤的基本原理

利用紅外發(fā)光二極管發(fā)出紅外線,采用圖像處理技術(shù)和能鎖定眼睛的特殊攝像機(jī),通過分析人眼虹膜和瞳孔中紅外線圖象點(diǎn)的連續(xù)變化情況,得到視線變化的數(shù)據(jù),從而達(dá)到視線追蹤的目的。

從視線跟蹤裝置得到的原始數(shù)據(jù)需要經(jīng)過進(jìn)一步的處理才能用于人機(jī)交互。數(shù)據(jù)處理的目的是濾除噪聲、識別定位及局部校準(zhǔn)與補(bǔ)償?shù)龋钪匾氖翘崛〕鲇糜谌藱C(jī)交互所必需的眼睛定位坐標(biāo)。但是由于眼動存在固有的抖動,以及眼睛眨動、頭部劇烈的移動所造成的數(shù)據(jù)中斷,存在許多干擾信號,提取有意眼動數(shù)據(jù)非常困難。解決此問題的辦法之一是利用眼動的某種先驗(yàn)?zāi)P图右詮浹a(bǔ)。

9/30/202325眼動跟蹤的基本原理利用紅外發(fā)光二極管發(fā)出紅外線,采用圖像米達(dá)斯接觸問題與解決方法“米達(dá)斯接觸(MidasTouch)”問題:如果鼠標(biāo)器光標(biāo)總是隨著用戶的視線移動,可能會引起用戶的厭煩,因?yàn)橛脩艨赡芟M茈S便看著什么而不必非“意味著”什么,更不希望每次轉(zhuǎn)移視線都可能啟動一條計(jì)算機(jī)命令。

避免“米達(dá)斯接觸”問題的方法:在理想情況下,應(yīng)當(dāng)在用戶希望發(fā)出控制時(shí),界面及時(shí)地處理其視輸入,而在相反的情況下則忽略其視線的移動。

可采用其他通道(如鍵盤或語音)進(jìn)行配合。9/30/202326米達(dá)斯接觸問題與解決方法“米達(dá)斯接觸(MidasTouch三維輸入

許多應(yīng)用(如虛擬現(xiàn)實(shí)系統(tǒng))需要三維空間定位技術(shù):三維空間控制器的共同特點(diǎn)是具有六個(gè)自由度,分別描述三維對象的寬度、深度、高度、俯仰角、轉(zhuǎn)動角、偏轉(zhuǎn)角。通過控制這六個(gè)參數(shù),用戶可以在屏幕上平移三維對象或光標(biāo),也可沿三個(gè)坐標(biāo)軸轉(zhuǎn)動三維對象。三維空間控制器、視線跟蹤器、數(shù)據(jù)手套等輸入設(shè)備產(chǎn)生的空間位置是相對的。在三維用戶交互中必須便于用戶在三維空間中觀察、比較、操作、改變?nèi)S空間的狀態(tài)。9/30/202327三維輸入許多應(yīng)用(如虛擬現(xiàn)實(shí)系統(tǒng))需要三維空間定位技術(shù):三三維空間的交互操作方式三維光標(biāo)由六自由度三維輸入裝置控制的三維光標(biāo)將使三維交互操作更自然和方便;三維光標(biāo)必須有深度感,即必須考慮光標(biāo)與觀察者距離:離觀察者近的時(shí)候較大,離觀察者遠(yuǎn)的時(shí)候較??;確定光標(biāo)在三維空間的方向,這種定向操作必須自然且方便操作;為保持三維用戶界面的空間感,光標(biāo)在遇到物體時(shí)不能進(jìn)入到物體內(nèi)部。三維光標(biāo)的實(shí)現(xiàn)需要大量的計(jì)算,對硬件的要求較高,編程接口也比二維光標(biāo)復(fù)雜得多。

9/30/202328三維空間的交互操作方式三維光標(biāo)8/5/202328三維空間的交互操作方式三維widgets三維widgets即三維交互界面中的一些小工具。用戶可以通過直接控制它們使界面或界面中的三維對象發(fā)生改變。

三維widget包括在三維空間中漂浮的菜單、用于拾取物體的手的三維圖標(biāo)、平移和旋轉(zhuǎn)指示器等。許多三維用戶界面的研究者正在設(shè)計(jì)和試驗(yàn)各種不同的三維widgets,希望將來能夠建立一系列標(biāo)準(zhǔn)的三維widgets就像二維圖形用戶界面中的窗口、按鈕、菜單等。9/30/202329三維空間的交互操作方式三維widgets8/5/202329圖5-5三維widgets圖例9/30/202330圖5-5三維widgets圖例8/5/202330采用三視圖輸入技術(shù),實(shí)現(xiàn)三維的輸入

如果輸入一個(gè)三維點(diǎn),只要在兩個(gè)視圖上把點(diǎn)的對應(yīng)位置指定后便唯一確定了三維空間中的一個(gè)點(diǎn);把直線段上兩端點(diǎn)在三視圖上輸入后便可決定三維空間的一條直線;把一個(gè)面上的各頂點(diǎn)在三視圖上輸入后,也唯一確定了三維空間中的一個(gè)面;如果把一個(gè)多面體上的各面均用上述方法輸入,也就在三維空間中輸入了一個(gè)多面體9/30/202331采用三視圖輸入技術(shù),實(shí)現(xiàn)三維的輸入如果輸入一個(gè)三維點(diǎn),只要

圖5-6三視圖輸入實(shí)例9/30/202332圖5-6三視圖輸入實(shí)例8/5/202332多通道人機(jī)交互通道(Modality)用戶可以使用手動、語言、眼神等多種效應(yīng)通道與計(jì)算機(jī)系統(tǒng)進(jìn)行交互9/30/202333多通道人機(jī)交互通道(Modality)8/5/202333多通道人機(jī)交互通道指傳送或獲得信息的通訊通道的類型,它包含了信息表達(dá)、感知以及動作執(zhí)行的方式,定義了數(shù)據(jù)類型模式一種狀態(tài)或上下文信息,決定對信息的解釋一獲取意義通道整合(ModalityIntegration)指用戶在與計(jì)算機(jī)系統(tǒng)交互時(shí),多個(gè)交互通道之間相互作用形成交互意圖的過程9/30/202334多通道人機(jī)交互通道8/5/202334多通道用戶界面的三維表示模型9/30/202335多通道用戶界面的三維表示模型8/5/202335多通道用戶界面的概念模型9/30/202336多通道用戶界面的概念模型8/5/202336人機(jī)交互模型的發(fā)展9/30/202337人機(jī)交互模型的發(fā)展8/5/202337輸入原語為了擺脫設(shè)備的特定物理特性和操作方式上的差異,便利多種輸入設(shè)備在詞法級的整合,有必要在物理設(shè)備和對話控制中再抽象出一層,即輸入原語翻譯層與應(yīng)用無關(guān)的輸入原語的抽象具有重要意義原語IP(InputPrimitive)代表了用戶到計(jì)算機(jī)的詞法輸入,它是來自不同的通道的獨(dú)立的、最小的、不可分割的操作,這些原子操作在一定的應(yīng)用上下文中有著特定的交互意義9/30/202338輸入原語為了擺脫設(shè)備的特定物理特性和操作方式上的差異,便利多輸入原語界面需抽象出一個(gè)簡單完備的原語集合每個(gè)IP可實(shí)例化為一個(gè)四元組〈用戶動作,數(shù)據(jù)表示,使用通道,時(shí)間標(biāo)簽〉它體現(xiàn)了某一時(shí)刻來自某個(gè)輸入通道的用戶輸入動作與一種內(nèi)部數(shù)據(jù)表示聯(lián)系在一起IP是通道無關(guān)的,不同的物理通道的輸入可以映射到相同的IP二維鼠標(biāo)的Click動作和眼動跟蹤的眼睛凝視動作都可歸為"指點(diǎn)類"IP─POINT;9/30/202339輸入原語界面需抽象出一個(gè)簡單完備的原語集合8/5/20233輸入原語IP是應(yīng)用無關(guān)的,在軟件環(huán)境的支持下,同一個(gè)IP在不同的應(yīng)用上下文中可被解釋為完全不同的操作根據(jù)用戶的交互意圖和交互方式,抽象出六類輸入原語瀏覽(NAVIGATE),指點(diǎn)(POINT),拾?。═OUCH),文本(WORD),變換(TRANSFORM)手勢(GESTURE)9/30/202340輸入原語IP是應(yīng)用無關(guān)的,在軟件環(huán)境的支持下,同一個(gè)IP在不輸入原語9/30/202341輸入原語8/5/202341輸入原語9/30/202342輸入原語8/5/202342用戶模型和描述方法在構(gòu)建一個(gè)多通道界面的結(jié)構(gòu)模型時(shí),以下是問題關(guān)鍵不應(yīng)該在應(yīng)用程序中進(jìn)行多通道整合允許用戶完成不同通道與不同功能之間的映射多通道相互作用能在不中斷相互作用過程的條件下隨時(shí)相互啟動和終止9/30/202343用戶模型和描述方法在構(gòu)建一個(gè)多通道界面的結(jié)構(gòu)模型時(shí),以下是問用戶模型和描述方法

VisualMan多通道用戶界面模型2DGUI應(yīng)用/3DVR應(yīng)用通道整合交互分析交互設(shè)備9/30/202344用戶模型和描述方法 VisualMan多通道用戶界面用戶模型和描述方法交互設(shè)備處理直接來自不同通道的輸入,系統(tǒng)對每一時(shí)刻的全部輸入進(jìn)行加工主要的交互通道包括語音、手和身體的運(yùn)動以及視覺追綜等交互分析根據(jù)各通道的特性分析來自不同通道的輸入,形成交互的原語完成定位、說明屬性和操作。交互分析使原語的說明變得與設(shè)備無關(guān)通道整合將相同操作維度的原語輸入通過整合來完成某項(xiàng)任務(wù)的操作,從而做到任務(wù)的完成與通道無關(guān)不同的物理裝置能整合成相同的操作,形成與裝置獨(dú)立的多通道界面9/30/202345用戶模型和描述方法交互設(shè)備處理直接來自不同通道的輸入,系統(tǒng)對用戶模型和描述方法在這個(gè)多道通用戶界面模型中,有二個(gè)重要的特征值得注意用戶對一個(gè)特定的操作沒有固定的輸入順序各輸入的時(shí)相(timing)對說明操作維度是非常重要的9/30/202346用戶模型和描述方法在這個(gè)多道通用戶界面模型中,有二個(gè)重要的特用戶模型和描述方法9/30/202347用戶模型和描述方法8/5/202347用戶模型和描述方法層次化的多通道界面描述方法HMISLOTOS(LanguageOfTemporalOrderingSpecification)LOTOS算符主要有以下幾種:T1|||T2(交替Interleaving)T1[]T2(選擇Choice)T1|[a1,...,an]|T2(同步Synchronization)T1[>T2 (禁止Deactivation)T1>>T2(允許Enabling)9/30/202348用戶模型和描述方法層次化的多通道界面描述方法HMIS8/5/象棋對弈實(shí)例中國象棋9/30/202349象棋對弈實(shí)例中國象棋8/5/202349用戶模型和描述方法LOTOS9/30/202350用戶模型和描述方法LOTOS8/5/202350用戶模型和描述方法拾取棋子UAN9/30/202351用戶模型和描述方法拾取棋子UAN8/5/202351用戶模型和描述方法放置棋子9/30/202352用戶模型和描述方法放置棋子8/5/202352用戶模型和描述方法基于事件-目標(biāo)的多通道用戶結(jié)構(gòu)模型9/30/202353用戶模型和描述方法基于事件-目標(biāo)的多通道用戶結(jié)構(gòu)模型8/5/用戶模型和描述方法分布式多通道用戶界面的結(jié)構(gòu)模型9/30/202354用戶模型和描述方法分布式多通道用戶界面的結(jié)構(gòu)模型8/5/20多通道整合和算法分布式多通道用戶界面模型共享窗口客戶通過網(wǎng)絡(luò)完成對同一系統(tǒng)的操作,每一個(gè)用戶都可以在他的私有窗口中通過多個(gè)通道和CSCW系統(tǒng)交互,操作的結(jié)果可以在共享窗口中顯示出來共享窗口服務(wù)器共享窗口服務(wù)器同時(shí)為所有的用戶提供系統(tǒng)輸出DMMI協(xié)調(diào)服務(wù)器支持多用戶之間的協(xié)作9/30/202355多通道整合和算法分布式多通道用戶界面模型8/5/202355多通道整合和算法基本概念整合(Integration)在比較低的層次上,主要關(guān)注如何把各種各樣的交互設(shè)備和交互方式容納到系統(tǒng)中在較高的層次上,主要關(guān)注多個(gè)通道之間在意義的傳達(dá)和提取上的協(xié)作融合(Fusion)在多個(gè)層次上(詞素的、詞法的、語義的、會話的)上對來自不同通道、具有不同表示的信息的合一化處理,其目的是正確地獲取用戶輸入,特別是正確地解釋用戶輸入分流(Fission)在多個(gè)層次上對需要向用戶傳達(dá)的特定信息向不同輸出通道、不同信息表示和表現(xiàn)的轉(zhuǎn)換9/30/202356多通道整合和算法基本概念8/5/202356多通道整合和算法多通道整合實(shí)例分析自然語言/語音和指點(diǎn)的整合語音與唇讀的整合眼動和其他通道的整合9/30/202357多通道整合和算法多通道整合實(shí)例分析8/5/202357多通道整合原理_通道用法語音和手勢/直接操縱互補(bǔ)其他形式的多通道整合也應(yīng)該考慮,如語音和書寫的整合語音通道并不需要支持大詞匯量,并且當(dāng)詞匯量小時(shí)識別得到改善結(jié)合多個(gè)通道的輸入有利于提高識別率在任何時(shí)候所有通道都應(yīng)該可用,以保證通道的自由組合如果存在限制,則限制應(yīng)該是來自交互任務(wù)本身,而非系統(tǒng)功能的局限9/30/202358多通道整合原理_通道用法語音和手勢/直接操縱互補(bǔ)8/5/20多通道整合原理_系統(tǒng)結(jié)構(gòu)系統(tǒng)應(yīng)該能夠在硬件和軟件上支持多種、多個(gè)通道時(shí)間是融合處理的基本準(zhǔn)則系統(tǒng)需要能夠精確記錄通道輸入事件的時(shí)間以自然語言處理為核心將強(qiáng)烈影響多通道系統(tǒng)的結(jié)構(gòu);采用語音/自然語言為輸入方式的系統(tǒng)也可以采取更簡單的系統(tǒng)結(jié)構(gòu)和整合方法語義層次的整合會給界面帶來更多的應(yīng)用相關(guān)性,整合需要充分利用應(yīng)用領(lǐng)域信息由于各個(gè)通道的技術(shù)是不完美的,任務(wù)特定的應(yīng)用領(lǐng)域有利于實(shí)現(xiàn)多個(gè)通道的協(xié)作,這里存在著強(qiáng)的約束9/30/202359多通道整合原理_系統(tǒng)結(jié)構(gòu)系統(tǒng)應(yīng)該能夠在硬件和軟件上支持多種、多通道整合原理-整合策略語音和手勢信息的融合是目前整合的主要問題融合中的一個(gè)重要問題是歧義消除上下文知識或者會話模型有助于消解歧義的輸入并提高識別率設(shè)備之間在時(shí)間響應(yīng)上的差異可能非常大多通道反饋是一個(gè)在信息融合過程中及時(shí)與適當(dāng)?shù)叵蛴脩舴至髦匾畔⒌倪^程急性子融合只要多通道輸入支持一定程度的整合,就開始處理,可以看作事件驅(qū)動的慢性子的融合則要到具有了全部輸入之后才開始處理。融合處理可以是分散系統(tǒng)中,也可以集中進(jìn)行9/30/202360多通道整合原理-整合策略語音和手勢信息的融合是目前整合的主要面向任務(wù)的整合模型(ATOM)多通道界面的面向任務(wù)設(shè)計(jì),需要解決如何將同一任務(wù)的相關(guān)信息讓不同的通道來分擔(dān),并使它們能夠相互協(xié)作的問題任務(wù)結(jié)構(gòu)的設(shè)計(jì)解決如何定義任務(wù)的總的行為結(jié)構(gòu)的問題,以及相應(yīng)的交互任務(wù)參數(shù)的設(shè)計(jì)要解決如何構(gòu)成一個(gè)完整的任務(wù)表示的各個(gè)參數(shù)的問題參數(shù)的輸入可能是以多通道的方式進(jìn)行的。與傳統(tǒng)界面相比,任務(wù)參數(shù)的設(shè)計(jì)問題在多通道界面設(shè)計(jì)中尤其突出,多通道協(xié)作的指稱就是這一設(shè)計(jì)所要考慮的問題之一9/30/202361面向任務(wù)的整合模型(ATOM)多通道界面的面向任務(wù)設(shè)計(jì),需要多通道輸入的格模型多通道整合的問題可以看作一個(gè)如何對多通道信息流加以合理地組塊化并正確解釋各個(gè)組塊的意義的問題將整個(gè)多通道輸入流分割成對應(yīng)于任務(wù)的“段”和對應(yīng)于任務(wù)參數(shù)的“節(jié)”;分塊的依據(jù)主要是語法約束和時(shí)間接近性模型以格(lattice)這種代數(shù)結(jié)構(gòu)為基礎(chǔ)來自多個(gè)通道的輸入在時(shí)間上的關(guān)系是一種偏序關(guān)系為了支持多通道整合,需要由各個(gè)通道輸入處理程序給每個(gè)輸入事件加上時(shí)間戳,這種時(shí)間戳應(yīng)該盡可能接近用戶相應(yīng)動作發(fā)生的時(shí)間9/30/202362多通道輸入的格模型多通道整合的問題可以看作一個(gè)如何對多通道信積木世界實(shí)例9/30/202363積木世界實(shí)例8/5/202363格模型整合算法9/30/202364格模型整合算法8/5/202364格模型整合算法多通道輸入的格模型9/30/202365格模型整合算法多通道輸入的格模型8/5/202365面向任務(wù)整合的主要因素任務(wù)時(shí)間任務(wù)結(jié)構(gòu)和任務(wù)參數(shù)的多通道結(jié)構(gòu)上下文應(yīng)用領(lǐng)域信息9/30/202366面向任務(wù)整合的主要因素任務(wù)8/5/202366面向任務(wù)整合整合算法(1)1)通過自下而上的過程識別出任務(wù),比如單純地根據(jù)語音識別的結(jié)果2)根據(jù)任務(wù)知識更新任務(wù)上下文3)對任務(wù)結(jié)構(gòu)中的每一任務(wù)參數(shù)重復(fù)執(zhí)行下面的(1)(2)(1)根據(jù)任務(wù)結(jié)構(gòu)信息并利用時(shí)間節(jié)進(jìn)行進(jìn)行輸入分解;(2)在分解后,進(jìn)行任務(wù)參數(shù)的多通道整合,根據(jù)不同情況處理自然語言中的指稱 自然語言中的指稱: A)通過應(yīng)用相關(guān)的處理,結(jié)合交互上下文,根據(jù)指點(diǎn)輸入求出候選對象集P. B)通過應(yīng)用相關(guān)的處理,結(jié)合交互上下文,根據(jù)名詞短語輸入求出候選對象集N C)根據(jù)不同的指稱方式: a)直指指稱:以P作為所指集R; b)代詞指代指稱:結(jié)合上下文,求出P中滿足會話上下文約束的候選對象,以P作為所指集R;9/30/202367面向任務(wù)整合整合算法(1)1)通過自下而上的過程識別出任務(wù),面向任務(wù)整合整合算法(2) c)名詞短語(可以是指代的)指稱:求出P與N的交集,結(jié)合會話上下文,求出該交集中滿足會話上下文約束的候選對象,作為所指集。 D)根據(jù)任務(wù)相關(guān)約束(如當(dāng)前任務(wù)不能以某些對象為參數(shù))進(jìn)一步縮小R。 E)如果R為空,或者R中有超過允許個(gè)數(shù)的候選對象,則整合失敗。 F)給出適當(dāng)反饋,如突出顯示所指對象。 其他情況1:相應(yīng)處理 其他情況2:相應(yīng)處理 。。。。。。4)將具有完整而確認(rèn)任務(wù)參數(shù)信息的任務(wù)表示提交給應(yīng)用執(zhí)行。9/30/202368面向任務(wù)整合整合算法(2) c)名詞短語(可以是指代的)多通道整合和算法9/30/202369多通道整合和算法8/5/202369多通道分層整合模型和算法通道信息的分層表示9/30/202370多通道分層整合模型和算法通道信息的分層表示8/5/20237多通道分層整合模型和算法多通道的整合模型9/30/202371多通道分層整合模型和算法多通道的整合模型8/5/202371多通道分層整合模型和算法詞法級整合設(shè)IP1=<ACTION1,PARA1,TEMP1>,IP2=<ACTION2,PARA2,TEMP2> IP1IP2=<ACTION3,PARA1PARA2,(TEMP1+TEMP2)/2 IFACTION=ACTION2and|TEMP1-TEMP2|<T, whereT是兩個(gè)通道相關(guān)的最小時(shí)間間隔 且ACTION1=ACTION2=ACTION3 IP1IP=IP1orIP2 IFACTION1<>ACTION2or|TEMP1-TEMP2|>T語法級整合將原語分層三類:表示動作,對象和對象屬性9/30/202372多通道分層整合模型和算法詞法級整合8/5/202372多通道分層整合模型和算法語義級整合TASK:=<NAME,PARA1,PARA2,…,PARAi,…,PARAn>PARA:=<TYPE,DATA,TEMP>Mi=<TYPEi,DATAi,Tempi>(提交的任意參數(shù))MiTASK=<BANE,PARA1,PARA2,…,PARAj*,…PARAn> ifTYPEi=TYPEjand|TEMPi-TEMPj|/2<T, wherePARAj*表示整合的結(jié)果,其中 PARAj*=<TYPEi,DATAi,TEMPi>Mi

TASK=<BANE,PARA1,PARA2,…,PARAj,…PARAn> IFTYEPi<>TYPE1,2,…,j,…,nor|TEMPi–TEMPj|>T9/30/202373多通道分層整合模型和算法語義級整合8/5/202373基于概率模型的指稱整合模型三級整合的整體結(jié)構(gòu)模型9/30/202374基于概率模型的指稱整合模型三級整合的整體結(jié)構(gòu)模型8/5/20基于概率模型的指稱整合模型多通道整合的體系結(jié)構(gòu)9/30/202375基于概率模型的指稱整合模型多通道整合的體系結(jié)構(gòu)8/5/202基于概率模型的指稱整合模型多通道整合的體系結(jié)構(gòu)9/30/202376基于概率模型的指稱整合模型多通道整合的體系結(jié)構(gòu)8/5/202基于概率模型的指稱整合模型概率整合的基本機(jī)制9/30/202377基于概率模型的指稱整合模型概率整合的基本機(jī)制8/5/2023基于概率模型的指稱整合模型概率變換發(fā)生在整合過程的不同階段交互元素提取器在某一時(shí)刻t輸出整合概率Pi(t)(1

i

m,m為通道數(shù))命令整合器在某一段時(shí)間段[t0,tn]內(nèi)接受來自各交互元素提取器產(chǎn)生的整合概率Pi(tj)(1

i

m,1

j

n)對于每個(gè)交互元素i,在[t0,tn]經(jīng)過整合,得到與時(shí)間無關(guān)的整合概率:9/30/202378基于概率模型的指稱整合模型概率變換發(fā)生在整合過程的不同階段8基于概率模型的指稱整合模型不同階段的概率變換9/30/202379基于概率模型的指稱整合模型不同階段的概率變換8/5/2023基于概率模型的指稱整合模型-幾個(gè)重要問題交互周期從用戶發(fā)動一個(gè)交互任務(wù)到提交系統(tǒng)完成該交互任務(wù)時(shí)間間隔,是交互任務(wù)的基本單位“超時(shí)“閥值為了支持回溯事件,工作事件隊(duì)列WEQ保存給定時(shí)間內(nèi)的所有事件可能會溢出不同參數(shù)對WEQ的遍歷深度可能不同9/30/202380基于概率模型的指稱整合模型-幾個(gè)重要問題交互周期8/5/20基于概率模型的指稱整合模型-幾個(gè)重要問題時(shí)序問題時(shí)序適應(yīng)向用戶界面自然性的重要特性多通道用戶界面應(yīng)當(dāng)支持非時(shí)序性,允許用戶以任何合理的順序指定交互任務(wù)的各種交互元素如何根據(jù)非嚴(yán)格時(shí)序交互捕捉用戶的交互意圖首先確定動作在獲得了任務(wù)的結(jié)構(gòu)后,就獲得了任務(wù)結(jié)構(gòu)中各參數(shù)之間的時(shí)序關(guān)系可以按有序和無序的要求填寫參數(shù)槽9/30/202381基于概率模型的指稱整合模型-幾個(gè)重要問題時(shí)序問題8/5/20基于概率模型的指稱整合模型-幾個(gè)重要問題交互上下文事件的指向(是否有目標(biāo))、系統(tǒng)的狀態(tài)、應(yīng)用語義響應(yīng)特性通道相關(guān)概率根據(jù)交互任務(wù)的匹配特性,不同通道和設(shè)備適合于不同的交互任務(wù),通道和設(shè)備對于完成任務(wù)的自然形成都會有所不同同一事件可解釋為不同參數(shù),但具有不同的概率,不同事件可解釋為同一參數(shù),概率各不相同9/30/202382基于概率模型的指稱整合模型-幾個(gè)重要問題交互上下文8/5/2基于模糊識別模型的視線交互整合模型視線交互將視線交互抽象成不精確的指稱,采用模糊識別模型進(jìn)行視線的交互整合手勢的指點(diǎn)范圍 9/30/202383基于模糊識別模型的視線交互整合模型視線交互8/5/20238基于模糊識別模型的視線交互整合模型人機(jī)交互中的指稱技術(shù)自然語言處理技術(shù)指稱處理描述式直指式指代式目標(biāo)選擇與指稱按名引用(描述式)屬性描述(描述式)空間引用(直指式)時(shí)間引用(指代式)指代(指代式)間接引用(描述式和直指式結(jié)合)9/30/202384基于模糊識別模型的視線交互整合模型人機(jī)交互中的指稱技術(shù)8/5基于模糊識別模型的視線交互整合模型人機(jī)交互中的指稱技術(shù)參數(shù)指定與指稱可以用語言描述35直指式間接方式人機(jī)交互中的模糊信息多通道用戶界面需處理模糊信息,在多通道整合中集中處理9/30/202385基于模糊識別模型的視線交互整合模型人機(jī)交互中的指稱技術(shù)8/5基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法屬性模糊集的確定將目標(biāo)的可描述屬性視為一個(gè)模糊集域,每個(gè)目標(biāo)屬性可以用適當(dāng)?shù)恼Z言變量的原詞來概括空間位置:上、下、左、右、中、前、后、左上、東形狀大小:大、中、寬、圓的顏色特征:日常顏色名稱特征:在上下文中并不能唯一確定的個(gè)體和忽略大小寫、拼寫錯(cuò)的名稱等位序模糊特征:下一個(gè)、前面的、附近的、剛剛經(jīng)過的9/30/202386基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法屬性模糊集的確定直指模糊集9/30/202387基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法指稱范圍的確定特定單選非特定單選復(fù)選指定詞匯集的確定模糊目標(biāo)選擇算法需要識別和處理四類描述詞匯屬性形容詞:大的、紅的修飾副詞:很、稍微、一些、一點(diǎn)、最范圍限定詞:這個(gè)、一個(gè)、所有、每個(gè)連接詞:而且、或是、不是、非9/30/202388基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法隸屬函數(shù)的確定位置:采用以目標(biāo)中心點(diǎn)為自變量的分段函數(shù)形狀大?。合日页鰠⒖紭?biāo)準(zhǔn),在確定目標(biāo)的實(shí)際指標(biāo)與標(biāo)準(zhǔn)值之間的函數(shù)關(guān)系顏色:GRB模型計(jì)算距離位序:離散形式直指:興趣區(qū)域9/30/202389基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法模糊目標(biāo)識別特征抽取:從對象xi(i=0,2,…n)中提取與識別有關(guān)的特征,并監(jiān)測xi在各個(gè)特征上的具體數(shù)據(jù),將對象xi轉(zhuǎn)換為模式p(xi)=(xi1,xi2,…,xin)建立隸屬函數(shù)

A:識別判決:找出最接近的模糊集A最大原則閥值原則混合原則9/30/202390基于模糊識別模型的視線交互整合模型模糊目標(biāo)選擇與參數(shù)指定算法基于模糊識別模型的視線交互整合模型目標(biāo)識別算法根據(jù)用戶描述的屬性信息分析并選取有關(guān)特征,形成目標(biāo)模式根據(jù)目標(biāo)模式的隸屬度函數(shù),計(jì)算交互場景中每個(gè)目標(biāo)在“描述屬性”中所涉及的屬性模糊子集上的隸屬度根據(jù)描述屬性中包含的邏輯關(guān)系和程度修飾詞,計(jì)算目標(biāo)的復(fù)合隸屬度若復(fù)選操作,則使用“閥值原則”判決,選擇出隸屬度高于閥值的所有目標(biāo)若為單選操作,則綜合使用“閥值原則”和“最大原則”9/30/202391基于模糊識別模型的視線交互整合模型目標(biāo)識別算法8/5/202基于模糊識別模型的視線交互整合模型模糊參數(shù)指定參數(shù)通常是連續(xù)的和無限的從用戶描述信息中提取參數(shù)的本質(zhì)是去除模糊性對于用戶未提到的屬性緯度,可以使用平均參數(shù)隨機(jī)參數(shù)缺省參數(shù)對于用戶提到的屬性維度,可在模糊集中使用極大;極?。恢虚g;隨機(jī)策略9/30/202392基于模糊識別模型的視線交互整合模型模糊參數(shù)指定8/5/2025.4實(shí)例介紹多通道人機(jī)交互與許多領(lǐng)域緊密相關(guān),包括:多媒體、虛擬現(xiàn)實(shí)、模式識別(語音識別、手寫識別、表情識別及相應(yīng)的合成技術(shù))、自然語言處理等。以基于多通道交互技術(shù)的虛擬座艙和象棋游戲?yàn)槔f明多通道人機(jī)交互的特性9/30/2023935.4實(shí)例介紹多通道人機(jī)交互與許多領(lǐng)域緊密相關(guān),包括:多媒基于多通道交互技術(shù)的虛擬座艙利用虛擬座艙系統(tǒng)來發(fā)展座艙設(shè)計(jì)新概念是一種有效的方法易于重構(gòu)和低費(fèi)用是利用虛擬座艙系統(tǒng)的有利因素在虛擬座艙系統(tǒng)中采用多通道用戶界面設(shè)計(jì)是座艙發(fā)展的趨勢飛機(jī)性能的日益提高使得飛行員與機(jī)器之間的信息交換更加頻繁,如何拓寬信息傳輸通道是迫切需要解決的問題通過多通道來交換信息是解決問題的主要方法9/30/202394基于多通道交互技術(shù)的虛擬座艙利用虛擬座艙系統(tǒng)來發(fā)展座艙設(shè)計(jì)新虛擬座艙系統(tǒng)的構(gòu)成虛擬座艙系統(tǒng)通過視覺、聽覺、觸覺向飛行員提供信息,飛行員通過言語、手來控制飛行。虛擬座艙系統(tǒng)由硬件和軟件兩部分組成9/30/202395虛擬座艙系統(tǒng)的構(gòu)成虛擬座艙系統(tǒng)通過視覺、聽覺、觸覺向飛行員提硬件組成整個(gè)虛擬座艙系統(tǒng)的硬件組成包括座艙框架、油門桿、駕駛桿、座椅、話筒、觸摸屏、三對影像以及兩臺顯示器。這些硬件通過兩臺計(jì)算機(jī)整

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論