CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法 (深圳市易快來科技股份有限公司)_第1頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法 (深圳市易快來科技股份有限公司)_第2頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法 (深圳市易快來科技股份有限公司)_第3頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法 (深圳市易快來科技股份有限公司)_第4頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法 (深圳市易快來科技股份有限公司)_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(19)國家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利GO6N3/006(2023.事務(wù)所(特殊普通合伙)專利代理師胡仕國一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)本發(fā)明公開了一種基于AI大模型的裸眼3DS1:S1:Al大模型資源加載:對(duì)訓(xùn)練好的Al大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源,構(gòu)建裸眼3D數(shù)字人運(yùn)行的Al大模型,裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息,再通過Al大模型進(jìn)行融合,得到用戶輸入表示文本意圖理解,得到用戶意圖理解向量S4:個(gè)性化策略生成:基于裸眼3D數(shù)字人運(yùn)行的Al大模型,通過S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本S5:裸眼3D數(shù)字人響應(yīng)生成:基于棵眼3D數(shù)字人運(yùn)行的Al大模型,根文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸56:通過大數(shù)據(jù)分析技術(shù),對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析,根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端2S1:AI大模型資源加載:對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源,構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型,裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息,再通過AI大模型進(jìn)行融合,得到用戶輸入表示文本;S3:AI大模型意圖理解:基于S2得到的用戶輸入表示文本進(jìn)行意圖理解,得到用戶意圖理解向量;S4:個(gè)性化策略生成:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,通過S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本;S5:裸眼3D數(shù)字人響應(yīng)生成:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,根據(jù)S4生成的個(gè)性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文所述S5中生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,包括以下步驟:D1:首先基于裸眼3D數(shù)字人運(yùn)行的AI大模型,生成裸眼3D數(shù)字人的多模態(tài)響應(yīng)向量MID,MID={m?,m?,..m..m}=Generator(IV,PSF),Gene表示第I模態(tài)響應(yīng)向量,M表示多模態(tài)響應(yīng)向量的數(shù)量,IV表示意圖理解向量,PSF表示個(gè)性化交互策略信息向量;然后通過跨模態(tài)同步技術(shù),對(duì)多模態(tài)響應(yīng)向量進(jìn)行時(shí)間戳綁定,得到多模態(tài)響應(yīng)向量時(shí)間偏差△tsyne,△tsync=Z|△tkl≤t_th,△tπ表示第I模態(tài)響應(yīng)與第k模態(tài)響應(yīng)之間的時(shí)間偏差,t_th表示時(shí)間偏差閾值,I<K,I∈M,K∈M;其次得到裸眼3D數(shù)字人的情感匹配度EC,EC=cos_sim(VE,VF),cos_sim表示余弦相似度函數(shù),若EC≤0,則為0,反之為EC值,VE表示語音情感特征向量,VF表示面部情感特征向量;最后通過大數(shù)據(jù)分析技術(shù),結(jié)合時(shí)間偏差△tsync、情感匹配度EC和單位時(shí)間內(nèi)視覺偽影出現(xiàn)的次數(shù),得到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI;D2:將裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI與閾值MRCI進(jìn)行對(duì)比,若MRCI≥MRCI?,說明裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)良好,輸出相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸眼3D動(dòng)畫顯示在屏幕上;反之則觸發(fā)多模態(tài)響應(yīng)協(xié)調(diào)機(jī)制,直到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI≥MRCI?則停止;S6:通過大數(shù)據(jù)分析技術(shù),對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析,根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。2.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法,其特征在于:所述S2中得到用戶輸入表示文本包括:A1:首先通過多模態(tài)信息采集設(shè)備,采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息數(shù)據(jù)集MID,MID=[MI1,MI…MIi…MIn],MI,表示第i種模態(tài)信息,n表示多模態(tài)信息的種類數(shù)量;然后通過多模態(tài)識(shí)別技術(shù),對(duì)相應(yīng)的多模態(tài)信息進(jìn)行識(shí)別,獲取多模態(tài)信息識(shí)別數(shù)據(jù)集IRD,IRD=[IR?,IR?….IR.….IRn],IR表示第i種模態(tài)信息識(shí)別的結(jié)果,n也表示相應(yīng)的模態(tài)信息識(shí)別的結(jié)果數(shù)量。3.根據(jù)權(quán)利要求2所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法,其特征3在于:所述S2中得到用戶輸入表示文本還包括:A2:首先通過分模態(tài)向量化技術(shù),將A1得到的各種多模態(tài)信息識(shí)別數(shù)據(jù)進(jìn)行統(tǒng)一維度的向量化,得到多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集VD1,VD1=[VD?,VD2…VD.…VDn],VD表示第i種模態(tài)向量,n也表示多模態(tài)識(shí)別數(shù)據(jù)相應(yīng)的向量化數(shù)量;然后通過大數(shù)據(jù)分析技術(shù),結(jié)合多模態(tài)信息組合數(shù)量、模態(tài)信息i與模態(tài)信息j之間的時(shí)間差,i<j,i∈n,j∈n,得到t時(shí)刻的多模態(tài)信息一致性指數(shù)MCI,將MCI與閾值MCI?進(jìn)行對(duì)比,若MCI≥MCI?,說明多模態(tài)信息一致性良好,反之則觸發(fā)多模態(tài)信息采集機(jī)制;最后得到多模態(tài)信息一致性良好的多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集VD2。4.根據(jù)權(quán)利要求3所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法,其特征在于:所述S2中得到用戶輸入表示文本還包括:首先通過跨模態(tài)注意力機(jī)制,根據(jù)A2得到多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集,結(jié)合各模態(tài)向量、各模態(tài)得分、模態(tài)專屬投影矩陣和t時(shí)刻的多模態(tài)信息一致性指數(shù)MCI生成融合特征向量Efusion;然后基于裸眼3D數(shù)字人運(yùn)行的AI大5.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法,其特征B1:首先通過BERT模型對(duì)用戶輸入表示文本IRTtext進(jìn)行分層編碼,得到文本特征向量示前序?qū)υ捨谋咎卣飨蛄?;最后基于裸?D數(shù)字人運(yùn)行的AI大模型計(jì)算意圖理解向量IV,矩陣的維度為R×2d,N表示輸出意圖特征的數(shù)量,2d表示輸入文本特征的總維度,結(jié)合意圖向量IV的最大值、最小值和平均值,得到文本意圖一致性指數(shù)SICI;B2:將文本意圖一致性指數(shù)SICI與閾值SICI?進(jìn)行對(duì)比,若SICI≥SICI?,說明文本意圖理解有效,輸出用戶意圖理解向量IV;反之則觸發(fā)意圖理解澄清機(jī)制,直到文本意圖一致性指數(shù)SICI≥SICI則停止。6.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法,其特征在于:所述S4中生成個(gè)性化交互策略信息文C1:首先基于用戶意圖理解向量,通過MLP模型,為每個(gè)用戶生成個(gè)性化交互策略信息向量PSF,PSF=MLP([IV;IVhis]),IVhis表示目標(biāo)意圖下的歷史交互意圖理解向量,IV表示意圖理解向量;然后結(jié)合查詢矩陣、鍵矩陣和值矩陣,計(jì)算意圖理解向量的3D空間特征向量Adisp;最后通過大數(shù)據(jù)分析技術(shù),計(jì)算個(gè)性化交互策略信息向量PSF與目標(biāo)意圖下的歷史交互策略信息向量余弦相似度,再結(jié)合意圖理解向量的3D空間特征向量,得到個(gè)性化策略生成效能指數(shù)PEI;C2:將個(gè)性化策略生成效能指數(shù)PEI與閾值PEI。進(jìn)行對(duì)比,若PEI≥PEI?,說明個(gè)性化交互策略生成有效,輸出個(gè)性化交互策略信息文本;反之則觸發(fā)交互策略調(diào)整機(jī)制,直到個(gè)性化策略生成效能指數(shù)PEI≥PEI則停止。7.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法,其特征E1:通過大數(shù)據(jù)技術(shù),記錄用戶與裸眼3D數(shù)字人交互的總交互次數(shù)N_tot和正確理解用戶意圖的交互次數(shù)N_cor,交互響應(yīng)延遲t_del,得到裸眼3D數(shù)字人交互能力分析指標(biāo)ICAI;4E2:將裸眼3D數(shù)字人交互能力分析指標(biāo)ICAI與相應(yīng)的閾值ICAI?進(jìn)行對(duì)比,若ICAI≥ICAI?,說明裸眼3D數(shù)字人交互能力良好,反之則說明分析異常,根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。5一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,具體為一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法。背景技術(shù)[0002]隨著科技的不斷發(fā)展,人機(jī)交互技術(shù)取得了顯著的進(jìn)步;數(shù)字人作為一種新興的人機(jī)交互載體,能夠以擬人化的形象與用戶進(jìn)行互動(dòng),在多個(gè)領(lǐng)域得到了廣泛的關(guān)注和應(yīng)用;裸眼3D技術(shù)無需借助特殊的眼鏡等設(shè)備,用戶即可直接觀看到具有立體效果的數(shù)字人形象,增強(qiáng)了交互的沉浸感和吸引力。[0003]現(xiàn)有的數(shù)字人交互方法多基于規(guī)則的自然語言處理交互,通過依據(jù)預(yù)先設(shè)定的規(guī)則和語法來解析用戶輸入的自然語言;使用通用的交互模板與所有用戶進(jìn)行交互,比如無論用戶興趣、偏好如何,都以同樣的話術(shù)和流程回應(yīng);在生成裸眼3D數(shù)字人的響應(yīng)動(dòng)作、表情和語音回復(fù)時(shí),采用傳統(tǒng)的計(jì)算和渲染技術(shù)等實(shí)現(xiàn)數(shù)字人的交互。[0004]然而,當(dāng)前基于裸眼3D數(shù)字人的人機(jī)交互仍存在諸多問題:依據(jù)預(yù)先設(shè)定的規(guī)則和語法解析難以準(zhǔn)確理解用戶的真實(shí)意圖,容易產(chǎn)生誤解或無法給出準(zhǔn)確的回應(yīng),導(dǎo)致語義理解不準(zhǔn)確;使用通用的交互模板,無法根據(jù)用戶的個(gè)性化特征提供定制化的交互服務(wù),難以滿足用戶多樣化的需求,交互缺乏個(gè)性化;在生成裸眼3D數(shù)字人的響應(yīng)動(dòng)作、表情以及語音回復(fù)時(shí),由于涉及到復(fù)雜的計(jì)算和渲染過程,部分系統(tǒng)存在響應(yīng)延遲的問題,導(dǎo)致交互發(fā)明內(nèi)容[0005]為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的實(shí)施例提供一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法,以解決上述背景技術(shù)中提出語義理解不準(zhǔn)確、交互缺乏個(gè)性化、實(shí)時(shí)性不足等問題。[0006]為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于AI大模型的裸眼3D數(shù)字人[0007]S1:AI大模型資源加載:對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源,構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型,裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;[0008]S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息,再通過AI大模型進(jìn)行融合,得到用戶輸入表示文本;[0009]S3:AI大模型意圖理解:基于S2得到的用戶輸入表示文本進(jìn)行意圖理解,得到用戶意圖理解向量;[0010]S4:個(gè)性化策略生成:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,通過S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本;[0011]S5:裸眼3D數(shù)字人響應(yīng)生成:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,根據(jù)S4生成的個(gè)6性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸眼3D動(dòng)畫顯示在屏幕上;[0012]S6:通過大數(shù)據(jù)分析技術(shù),對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析,根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。[0013]本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):[0014]1、本發(fā)明通過各種傳感器技術(shù)和識(shí)別技術(shù),通過用戶站在裸眼3D數(shù)字人設(shè)備前發(fā)起的交互請(qǐng)求,采集多模態(tài)交互信息并進(jìn)行識(shí)別、整合,形成統(tǒng)一的用戶輸入表示,為后續(xù)的意圖理解提供更全面、豐富的信息,進(jìn)而更準(zhǔn)確地確定用戶的意圖對(duì)象;[0015]2、本發(fā)明通過構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型,實(shí)現(xiàn)了多模態(tài)信息的融合交互,能夠深入理解用戶的意圖和需求,結(jié)合用戶的歷史交互記錄和實(shí)時(shí)情境,提供個(gè)性化的回復(fù)和服務(wù),滿足不同用戶的多樣化需求,使裸眼3D數(shù)字人與用戶之間的交流更加自然、流[0016]3、本發(fā)明通過接收用戶的反饋與對(duì)AI大模型進(jìn)行優(yōu)化,能夠不斷改進(jìn)人機(jī)交互的質(zhì)量;同時(shí)根據(jù)用戶的新需求和偏好,更新個(gè)性化交互策略,為下一次交互提供更好的服務(wù),進(jìn)而使裸眼3D數(shù)字人的智能水平和交互能力隨著時(shí)間的推移不斷提升。附圖說明[0017]圖1為本發(fā)明的整體流程示意圖。[0018]圖2為本發(fā)明的方法流程示意圖。具體實(shí)施方式[0019]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它[0020]請(qǐng)參閱圖1所示,本發(fā)明提供一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互系統(tǒng),包括AI大模型資源加載模塊、多模態(tài)輸入融合模塊、AI大模型意圖理解模塊、個(gè)性化交互策略生成模塊、裸眼3D數(shù)字人響應(yīng)生成模塊以及裸眼3D數(shù)字人的人機(jī)交互反饋與優(yōu)化模塊。[0021]所述AI大模型資源加載模塊與其余所有模塊連接,多模態(tài)輸入融合模塊與AI大模型意圖理解模塊連接,個(gè)性化交互策略生成模塊分別與AI大模型意圖理解模塊和裸眼3D數(shù)字人響應(yīng)生成模塊連接,裸眼3D數(shù)字人的人機(jī)交互反饋與優(yōu)化模塊與裸眼3D數(shù)字人響應(yīng)生成模塊連接。[0022]AI大模型資源加載模塊:用于對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源,構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型,裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;[0023]多模態(tài)輸入融合模塊:基于AI大模型資源加載模塊得到的多模態(tài)輸入設(shè)備資源,采集并融合用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息,并將融合后的用戶請(qǐng)求信息傳輸至AI大模型意圖理解模塊;[0024]AI大模型意圖理解模塊:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,對(duì)融合后的用戶請(qǐng)7求信息進(jìn)行意圖理解,得到用戶意圖理解向量,并傳輸至個(gè)性化交互策略生成模塊;[0025]個(gè)性化交互策略生成模塊:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,通過得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本,并傳輸至裸眼3D數(shù)字人響應(yīng)生成模塊;[0026]裸眼3D數(shù)字人響應(yīng)生成模塊:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,根據(jù)生成的個(gè)性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并傳輸至裸眼3D數(shù)字人的人機(jī)交互反饋與優(yōu)化模塊;[0027]裸眼3D數(shù)字人的人機(jī)交互與優(yōu)化模塊:通過大數(shù)據(jù)分析技術(shù),對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析,根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理大模型資源加載:對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源,構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型、S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息,再通過AI大模型進(jìn)行融合,得到用戶輸入表示文本、S3:AI大模型意圖理解:基于S2得到的用戶輸入表示文本IRTtext進(jìn)行意圖理S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本、S5:裸眼3D數(shù)字人響應(yīng)生成:基于裸眼3D數(shù)字人運(yùn)行的AI大模型,根據(jù)S4生成的個(gè)性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本、S6:通過大數(shù)據(jù)分析技術(shù),對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析,根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。[0029]S1:AI大模型資源加載:對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源,構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型,裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;[0030]本實(shí)施例需要具體說明的是裸眼3D數(shù)字人所需的資源包括加載裸眼3D數(shù)字人的3D模型(如裸眼3D排圖算法)、動(dòng)畫庫以及相關(guān)的語音資源,語音資源包括不同情感、語調(diào)的個(gè)性化交互提供數(shù)據(jù)支持;對(duì)AI大模型進(jìn)行加載,能夠確保數(shù)字人在用戶交互過程中能夠[0031]S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息,再通過AI大模型進(jìn)行融合,得到用戶輸入表示文本,包括以下步驟:[0032]A1:首先通過多模態(tài)信息采集設(shè)備,采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息數(shù)據(jù)集MID,MID=[MI?,MI?.….MIi…MIn],MI表示第i種模態(tài)信息,n表示多模態(tài)信息的種類數(shù)量;然后通過多模態(tài)識(shí)別技術(shù),對(duì)相應(yīng)的多模態(tài)信息進(jìn)行識(shí)別,獲取多模態(tài)信息識(shí)別數(shù)據(jù)集IRD,IRD=[IR1,IR?….IRi…IRnJ,IR表示第i種模態(tài)信息識(shí)別的結(jié)果,n也表示相應(yīng)的模態(tài)信息識(shí)別的結(jié)果數(shù)量;[0033]本實(shí)施例需要具體說明的是多模態(tài)信息包括但不限于語音、文本、手勢、表情等多模態(tài)輸入,例如,用戶在商場中向裸眼3D數(shù)字人咨詢商品信息時(shí),可以直接說出問題(語音輸入),也可以在旁邊的交互終端上輸入文字查詢,或者通過特定的手勢動(dòng)作(如指向感興8[0034]A2:首先通過分模態(tài)向量化技術(shù),將A1得到的各種多模VD1=[VD?,VD2…VD.…VDn],VD表示第i種模態(tài)向量,n也表示多模態(tài)識(shí)別數(shù)據(jù)相信息j之間的時(shí)間差,i<j,(i,j)∈n,得到t時(shí)刻的多模態(tài)信息一致性指數(shù)MCI,表示通過組合函數(shù)得到多模態(tài)信息組信息j之間的時(shí)間差,單位統(tǒng)一為ms,例如語音起始(t=1200ms)與手勢起始(t=1210ms)差致性良好的多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集VD2;[0035]本實(shí)施例需要具體說明的是分模態(tài)合特征向量Efusion,Efusion=∑i=1αi·W;VDi+∑i<j 9型計(jì)算意圖理解向量IV,IV=softmax(W×[Etext;M]+b),softmax特征的總維度,結(jié)合意圖向量IV的最大值、最小值和平均值,得到文本意圖一致性指數(shù)[0041]本實(shí)施例需要具體說明的是BERT(BidirectionalEncoderRepresentations據(jù)問題和文本段落提供相關(guān)答案等;本實(shí)施例需要具體說明的是LSTM(LongShort-Term絡(luò);然后結(jié)合查詢矩陣、鍵矩陣和值矩陣,計(jì)算意圖理解向量的3D空間特征向量Adisp, n表示余弦相似度函[0046]D1:首先基于裸眼3D數(shù)字人運(yùn)行應(yīng)向量進(jìn)行時(shí)間戳綁定,得到多模態(tài)響應(yīng)向量時(shí)間偏差△tsync,△tsync=∑|△trkl≤t_th,△tk表示第I模態(tài)響應(yīng)與第k模態(tài)響應(yīng)之間的時(shí)間偏差,t_th表示時(shí)間偏差閾值,例如語音響應(yīng)與動(dòng)作響應(yīng)的偏差小于等于40ms,I<K,(I,K)∈M;其次得到裸眼3D數(shù)字人的情感匹配度EC,EC=cos_sim(VE,VF),cos_sim表示余弦相似度函數(shù),若EC≤0,則為0,反之為EC值,VE表示語音情感特征向量,VF表示面部情感特征向量;最后通過大數(shù)據(jù)分析技術(shù),結(jié)合時(shí)間偏差△tsync、情感匹配度EC和單位時(shí)間內(nèi)視覺偽影出現(xiàn)的次數(shù),得到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI,MRCI=e-0.02-△tsyne.(EC+1)·,Nar表示單位時(shí)間內(nèi)視覺偽影出現(xiàn)的次數(shù);MRCI?,說明裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)良好,輸出相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸眼3D動(dòng)畫顯示在屏幕上;反之則觸發(fā)多模態(tài)響應(yīng)協(xié)調(diào)機(jī)制,例如啟用備用策略模板庫,直到裸眼3D數(shù)字人的多模態(tài)[0048]本實(shí)施例需要具體說明的是裸眼3D排圖算法通過拍攝不同場景、不同拍攝主體的多組左右視點(diǎn)圖像,將屬于同一被拍攝主體的左右視點(diǎn)圖像輸入至構(gòu)建的三維卷積網(wǎng)絡(luò)模型中經(jīng)過模型處理后得到對(duì)應(yīng)的左右視點(diǎn)融合視差圖,后將視差值轉(zhuǎn)化為深度距離值,并基于視差值、深度距離值、相機(jī)參數(shù)以及相似三角形原理計(jì)算被拍攝主體世界坐標(biāo)系下的三維坐標(biāo)進(jìn)行三維重建。[0049]S6:通過大數(shù)據(jù)分析技術(shù),對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析,根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端,包括以下步驟:[0050]E1:通過大數(shù)據(jù)技術(shù),記錄用戶與裸眼3D數(shù)字人交互的總交互次數(shù)N_tot和正確理解用戶意圖的交互次數(shù)N_cor,交互響應(yīng)延遲t_del,得到裸眼3D數(shù)字人交互能力分析指標(biāo),若(t_del-t_del)≤0,則為0,反之為計(jì)算的差[0051]E2:將裸眼3D數(shù)字人交互能力分析指標(biāo)I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論