CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法（深圳市易快來科技股份有限公司）

上傳人：a*** IP屬地：重慶上傳時(shí)間：2025-09-03 格式：DOCX 頁數(shù)：22 大小：306.14KB 積分：10.56 舉報(bào) 版權(quán)申訴

CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法（深圳市易快來科技股份有限公司）_第2頁

CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法（深圳市易快來科技股份有限公司）_第3頁

CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法（深圳市易快來科技股份有限公司）_第4頁

CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法（深圳市易快來科技股份有限公司）_第5頁

已閱讀5頁，還剩17頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(19)國家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利GO6N3/006(2023.事務(wù)所(特殊普通合伙)專利代理師胡仕國一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)本發(fā)明公開了一種基于AI大模型的裸眼3DS1:S1:Al大模型資源加載：對(duì)訓(xùn)練好的Al大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源，構(gòu)建裸眼3D數(shù)字人運(yùn)行的Al大模型，裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄S2:多模態(tài)輸入信息融合：基于S1得到的多模態(tài)輸入設(shè)備資源戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息，再通過Al大模型進(jìn)行融合，得到用戶輸入表示文本意圖理解，得到用戶意圖理解向量S4:個(gè)性化策略生成：基于裸眼3D數(shù)字人運(yùn)行的Al大模型，通過S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本S5:裸眼3D數(shù)字人響應(yīng)生成：基于棵眼3D數(shù)字人運(yùn)行的Al大模型，根文本，并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法，生成裸56:通過大數(shù)據(jù)分析技術(shù)，對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析，根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化，并記錄優(yōu)化內(nèi)容傳輸至管理員終端2S1:AI大模型資源加載：對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源，構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型，裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄；S2:多模態(tài)輸入信息融合：基于S1得到的多模態(tài)輸入設(shè)備資源，采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息，再通過AI大模型進(jìn)行融合，得到用戶輸入表示文本；S3:AI大模型意圖理解：基于S2得到的用戶輸入表示文本進(jìn)行意圖理解，得到用戶意圖理解向量；S4:個(gè)性化策略生成：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，通過S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本；S5:裸眼3D數(shù)字人響應(yīng)生成：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，根據(jù)S4生成的個(gè)性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本，并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文所述S5中生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本，包括以下步驟：D1:首先基于裸眼3D數(shù)字人運(yùn)行的AI大模型，生成裸眼3D數(shù)字人的多模態(tài)響應(yīng)向量MID,MID={m?,m?,..m..m}=Generator(IV,PSF),Gene表示第I模態(tài)響應(yīng)向量，M表示多模態(tài)響應(yīng)向量的數(shù)量，IV表示意圖理解向量，PSF表示個(gè)性化交互策略信息向量；然后通過跨模態(tài)同步技術(shù)，對(duì)多模態(tài)響應(yīng)向量進(jìn)行時(shí)間戳綁定，得到多模態(tài)響應(yīng)向量時(shí)間偏差△tsyne,△tsync=Z|△tkl≤t_th,△tπ表示第I模態(tài)響應(yīng)與第k模態(tài)響應(yīng)之間的時(shí)間偏差，t_th表示時(shí)間偏差閾值，I<K,I∈M,K∈M;其次得到裸眼3D數(shù)字人的情感匹配度EC,EC=cos_sim(VE,VF),cos_sim表示余弦相似度函數(shù)，若EC≤0,則為0,反之為EC值，VE表示語音情感特征向量，VF表示面部情感特征向量；最后通過大數(shù)據(jù)分析技術(shù)，結(jié)合時(shí)間偏差△tsync、情感匹配度EC和單位時(shí)間內(nèi)視覺偽影出現(xiàn)的次數(shù)，得到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI;D2:將裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI與閾值MRCI進(jìn)行對(duì)比，若MRCI≥MRCI?,說明裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)良好，輸出相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本，并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法，生成裸眼3D動(dòng)畫顯示在屏幕上；反之則觸發(fā)多模態(tài)響應(yīng)協(xié)調(diào)機(jī)制，直到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI≥MRCI?則停止；S6:通過大數(shù)據(jù)分析技術(shù)，對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析，根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化，并記錄優(yōu)化內(nèi)容傳輸至管理員終端。2.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法，其特征在于：所述S2中得到用戶輸入表示文本包括：A1:首先通過多模態(tài)信息采集設(shè)備，采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息數(shù)據(jù)集MID,MID=[MI1,MI…MIi…MIn],MI,表示第i種模態(tài)信息，n表示多模態(tài)信息的種類數(shù)量；然后通過多模態(tài)識(shí)別技術(shù)，對(duì)相應(yīng)的多模態(tài)信息進(jìn)行識(shí)別，獲取多模態(tài)信息識(shí)別數(shù)據(jù)集IRD,IRD=[IR?,IR?….IR.….IRn],IR表示第i種模態(tài)信息識(shí)別的結(jié)果，n也表示相應(yīng)的模態(tài)信息識(shí)別的結(jié)果數(shù)量。3.根據(jù)權(quán)利要求2所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法，其特征3在于：所述S2中得到用戶輸入表示文本還包括：A2:首先通過分模態(tài)向量化技術(shù)，將A1得到的各種多模態(tài)信息識(shí)別數(shù)據(jù)進(jìn)行統(tǒng)一維度的向量化，得到多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集VD1,VD1=[VD?,VD2…VD.…VDn],VD表示第i種模態(tài)向量，n也表示多模態(tài)識(shí)別數(shù)據(jù)相應(yīng)的向量化數(shù)量；然后通過大數(shù)據(jù)分析技術(shù)，結(jié)合多模態(tài)信息組合數(shù)量、模態(tài)信息i與模態(tài)信息j之間的時(shí)間差，i<j,i∈n,j∈n,得到t時(shí)刻的多模態(tài)信息一致性指數(shù)MCI,將MCI與閾值MCI?進(jìn)行對(duì)比，若MCI≥MCI?,說明多模態(tài)信息一致性良好，反之則觸發(fā)多模態(tài)信息采集機(jī)制；最后得到多模態(tài)信息一致性良好的多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集VD2。4.根據(jù)權(quán)利要求3所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法，其特征在于：所述S2中得到用戶輸入表示文本還包括：首先通過跨模態(tài)注意力機(jī)制，根據(jù)A2得到多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集，結(jié)合各模態(tài)向量、各模態(tài)得分、模態(tài)專屬投影矩陣和t時(shí)刻的多模態(tài)信息一致性指數(shù)MCI生成融合特征向量Efusion;然后基于裸眼3D數(shù)字人運(yùn)行的AI大5.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法，其特征B1:首先通過BERT模型對(duì)用戶輸入表示文本IRTtext進(jìn)行分層編碼，得到文本特征向量示前序?qū)υ捨谋咎卣飨蛄?；最后基于裸?D數(shù)字人運(yùn)行的AI大模型計(jì)算意圖理解向量IV,矩陣的維度為R×2d,N表示輸出意圖特征的數(shù)量，2d表示輸入文本特征的總維度，結(jié)合意圖向量IV的最大值、最小值和平均值，得到文本意圖一致性指數(shù)SICI;B2:將文本意圖一致性指數(shù)SICI與閾值SICI?進(jìn)行對(duì)比，若SICI≥SICI?,說明文本意圖理解有效，輸出用戶意圖理解向量IV;反之則觸發(fā)意圖理解澄清機(jī)制，直到文本意圖一致性指數(shù)SICI≥SICI則停止。6.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法，其特征在于：所述S4中生成個(gè)性化交互策略信息文C1:首先基于用戶意圖理解向量，通過MLP模型，為每個(gè)用戶生成個(gè)性化交互策略信息向量PSF,PSF=MLP([IV;IVhis]),IVhis表示目標(biāo)意圖下的歷史交互意圖理解向量，IV表示意圖理解向量；然后結(jié)合查詢矩陣、鍵矩陣和值矩陣，計(jì)算意圖理解向量的3D空間特征向量Adisp;最后通過大數(shù)據(jù)分析技術(shù)，計(jì)算個(gè)性化交互策略信息向量PSF與目標(biāo)意圖下的歷史交互策略信息向量余弦相似度，再結(jié)合意圖理解向量的3D空間特征向量，得到個(gè)性化策略生成效能指數(shù)PEI;C2:將個(gè)性化策略生成效能指數(shù)PEI與閾值PEI。進(jìn)行對(duì)比，若PEI≥PEI?,說明個(gè)性化交互策略生成有效，輸出個(gè)性化交互策略信息文本；反之則觸發(fā)交互策略調(diào)整機(jī)制，直到個(gè)性化策略生成效能指數(shù)PEI≥PEI則停止。7.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法，其特征E1:通過大數(shù)據(jù)技術(shù)，記錄用戶與裸眼3D數(shù)字人交互的總交互次數(shù)N_tot和正確理解用戶意圖的交互次數(shù)N_cor,交互響應(yīng)延遲t_del,得到裸眼3D數(shù)字人交互能力分析指標(biāo)ICAI;4E2:將裸眼3D數(shù)字人交互能力分析指標(biāo)ICAI與相應(yīng)的閾值ICAI?進(jìn)行對(duì)比，若ICAI≥ICAI?,說明裸眼3D數(shù)字人交互能力良好，反之則說明分析異常，根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化，并記錄優(yōu)化內(nèi)容傳輸至管理員終端。5一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域，具體為一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法。背景技術(shù)[0002]隨著科技的不斷發(fā)展，人機(jī)交互技術(shù)取得了顯著的進(jìn)步；數(shù)字人作為一種新興的人機(jī)交互載體，能夠以擬人化的形象與用戶進(jìn)行互動(dòng)，在多個(gè)領(lǐng)域得到了廣泛的關(guān)注和應(yīng)用；裸眼3D技術(shù)無需借助特殊的眼鏡等設(shè)備，用戶即可直接觀看到具有立體效果的數(shù)字人形象，增強(qiáng)了交互的沉浸感和吸引力。[0003]現(xiàn)有的數(shù)字人交互方法多基于規(guī)則的自然語言處理交互，通過依據(jù)預(yù)先設(shè)定的規(guī)則和語法來解析用戶輸入的自然語言；使用通用的交互模板與所有用戶進(jìn)行交互，比如無論用戶興趣、偏好如何，都以同樣的話術(shù)和流程回應(yīng)；在生成裸眼3D數(shù)字人的響應(yīng)動(dòng)作、表情和語音回復(fù)時(shí)，采用傳統(tǒng)的計(jì)算和渲染技術(shù)等實(shí)現(xiàn)數(shù)字人的交互。[0004]然而，當(dāng)前基于裸眼3D數(shù)字人的人機(jī)交互仍存在諸多問題：依據(jù)預(yù)先設(shè)定的規(guī)則和語法解析難以準(zhǔn)確理解用戶的真實(shí)意圖，容易產(chǎn)生誤解或無法給出準(zhǔn)確的回應(yīng)，導(dǎo)致語義理解不準(zhǔn)確；使用通用的交互模板，無法根據(jù)用戶的個(gè)性化特征提供定制化的交互服務(wù)，難以滿足用戶多樣化的需求，交互缺乏個(gè)性化；在生成裸眼3D數(shù)字人的響應(yīng)動(dòng)作、表情以及語音回復(fù)時(shí)，由于涉及到復(fù)雜的計(jì)算和渲染過程，部分系統(tǒng)存在響應(yīng)延遲的問題，導(dǎo)致交互發(fā)明內(nèi)容[0005]為了克服現(xiàn)有技術(shù)的上述缺陷，本發(fā)明的實(shí)施例提供一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互方法，以解決上述背景技術(shù)中提出語義理解不準(zhǔn)確、交互缺乏個(gè)性化、實(shí)時(shí)性不足等問題。[0006]為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：一種基于AI大模型的裸眼3D數(shù)字人[0007]S1:AI大模型資源加載：對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源，構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型，裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄；[0008]S2:多模態(tài)輸入信息融合：基于S1得到的多模態(tài)輸入設(shè)備資源，采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息，再通過AI大模型進(jìn)行融合，得到用戶輸入表示文本；[0009]S3:AI大模型意圖理解：基于S2得到的用戶輸入表示文本進(jìn)行意圖理解，得到用戶意圖理解向量；[0010]S4:個(gè)性化策略生成：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，通過S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本；[0011]S5:裸眼3D數(shù)字人響應(yīng)生成：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，根據(jù)S4生成的個(gè)6性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本，并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法，生成裸眼3D動(dòng)畫顯示在屏幕上；[0012]S6:通過大數(shù)據(jù)分析技術(shù)，對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析，根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化，并記錄優(yōu)化內(nèi)容傳輸至管理員終端。[0013]本發(fā)明的技術(shù)效果和優(yōu)點(diǎn)：[0014]1、本發(fā)明通過各種傳感器技術(shù)和識(shí)別技術(shù)，通過用戶站在裸眼3D數(shù)字人設(shè)備前發(fā)起的交互請(qǐng)求，采集多模態(tài)交互信息并進(jìn)行識(shí)別、整合，形成統(tǒng)一的用戶輸入表示，為后續(xù)的意圖理解提供更全面、豐富的信息，進(jìn)而更準(zhǔn)確地確定用戶的意圖對(duì)象；[0015]2、本發(fā)明通過構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型，實(shí)現(xiàn)了多模態(tài)信息的融合交互，能夠深入理解用戶的意圖和需求，結(jié)合用戶的歷史交互記錄和實(shí)時(shí)情境，提供個(gè)性化的回復(fù)和服務(wù)，滿足不同用戶的多樣化需求，使裸眼3D數(shù)字人與用戶之間的交流更加自然、流[0016]3、本發(fā)明通過接收用戶的反饋與對(duì)AI大模型進(jìn)行優(yōu)化，能夠不斷改進(jìn)人機(jī)交互的質(zhì)量；同時(shí)根據(jù)用戶的新需求和偏好，更新個(gè)性化交互策略，為下一次交互提供更好的服務(wù)，進(jìn)而使裸眼3D數(shù)字人的智能水平和交互能力隨著時(shí)間的推移不斷提升。附圖說明[0017]圖1為本發(fā)明的整體流程示意圖。[0018]圖2為本發(fā)明的方法流程示意圖。具體實(shí)施方式[0019]下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它[0020]請(qǐng)參閱圖1所示，本發(fā)明提供一種基于AI大模型的裸眼3D數(shù)字人的人機(jī)交互系統(tǒng)，包括AI大模型資源加載模塊、多模態(tài)輸入融合模塊、AI大模型意圖理解模塊、個(gè)性化交互策略生成模塊、裸眼3D數(shù)字人響應(yīng)生成模塊以及裸眼3D數(shù)字人的人機(jī)交互反饋與優(yōu)化模塊。[0021]所述AI大模型資源加載模塊與其余所有模塊連接，多模態(tài)輸入融合模塊與AI大模型意圖理解模塊連接，個(gè)性化交互策略生成模塊分別與AI大模型意圖理解模塊和裸眼3D數(shù)字人響應(yīng)生成模塊連接，裸眼3D數(shù)字人的人機(jī)交互反饋與優(yōu)化模塊與裸眼3D數(shù)字人響應(yīng)生成模塊連接。[0022]AI大模型資源加載模塊：用于對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源，構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型，裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄；[0023]多模態(tài)輸入融合模塊：基于AI大模型資源加載模塊得到的多模態(tài)輸入設(shè)備資源，采集并融合用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息，并將融合后的用戶請(qǐng)求信息傳輸至AI大模型意圖理解模塊；[0024]AI大模型意圖理解模塊：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，對(duì)融合后的用戶請(qǐng)7求信息進(jìn)行意圖理解，得到用戶意圖理解向量，并傳輸至個(gè)性化交互策略生成模塊；[0025]個(gè)性化交互策略生成模塊：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，通過得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本，并傳輸至裸眼3D數(shù)字人響應(yīng)生成模塊；[0026]裸眼3D數(shù)字人響應(yīng)生成模塊：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，根據(jù)生成的個(gè)性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本，并傳輸至裸眼3D數(shù)字人的人機(jī)交互反饋與優(yōu)化模塊；[0027]裸眼3D數(shù)字人的人機(jī)交互與優(yōu)化模塊：通過大數(shù)據(jù)分析技術(shù)，對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析，根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化，并記錄優(yōu)化內(nèi)容傳輸至管理大模型資源加載：對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源，構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型、S2:多模態(tài)輸入信息融合：基于S1得到的多模態(tài)輸入設(shè)備資源，采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息，再通過AI大模型進(jìn)行融合，得到用戶輸入表示文本、S3:AI大模型意圖理解：基于S2得到的用戶輸入表示文本IRTtext進(jìn)行意圖理S3得到的用戶意圖理解向量生成個(gè)性化交互策略信息文本、S5:裸眼3D數(shù)字人響應(yīng)生成：基于裸眼3D數(shù)字人運(yùn)行的AI大模型，根據(jù)S4生成的個(gè)性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本、S6:通過大數(shù)據(jù)分析技術(shù)，對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析，根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化，并記錄優(yōu)化內(nèi)容傳輸至管理員終端。[0029]S1:AI大模型資源加載：對(duì)訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運(yùn)行所需的資源，構(gòu)建裸眼3D數(shù)字人運(yùn)行的AI大模型，裸眼3D數(shù)字人運(yùn)行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄；[0030]本實(shí)施例需要具體說明的是裸眼3D數(shù)字人所需的資源包括加載裸眼3D數(shù)字人的3D模型(如裸眼3D排圖算法)、動(dòng)畫庫以及相關(guān)的語音資源，語音資源包括不同情感、語調(diào)的個(gè)性化交互提供數(shù)據(jù)支持；對(duì)AI大模型進(jìn)行加載，能夠確保數(shù)字人在用戶交互過程中能夠[0031]S2:多模態(tài)輸入信息融合：基于S1得到的多模態(tài)輸入設(shè)備資源，采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息，再通過AI大模型進(jìn)行融合，得到用戶輸入表示文本，包括以下步驟：[0032]A1:首先通過多模態(tài)信息采集設(shè)備，采集用戶向裸眼3D數(shù)字人發(fā)起交互請(qǐng)求的多模態(tài)信息數(shù)據(jù)集MID,MID=[MI?,MI?.….MIi…MIn],MI表示第i種模態(tài)信息，n表示多模態(tài)信息的種類數(shù)量；然后通過多模態(tài)識(shí)別技術(shù)，對(duì)相應(yīng)的多模態(tài)信息進(jìn)行識(shí)別，獲取多模態(tài)信息識(shí)別數(shù)據(jù)集IRD,IRD=[IR1,IR?….IRi…IRnJ,IR表示第i種模態(tài)信息識(shí)別的結(jié)果，n也表示相應(yīng)的模態(tài)信息識(shí)別的結(jié)果數(shù)量；[0033]本實(shí)施例需要具體說明的是多模態(tài)信息包括但不限于語音、文本、手勢、表情等多模態(tài)輸入，例如，用戶在商場中向裸眼3D數(shù)字人咨詢商品信息時(shí)，可以直接說出問題(語音輸入),也可以在旁邊的交互終端上輸入文字查詢，或者通過特定的手勢動(dòng)作(如指向感興8[0034]A2:首先通過分模態(tài)向量化技術(shù)，將A1得到的各種多模VD1=[VD?,VD2…VD.…VDn],VD表示第i種模態(tài)向量，n也表示多模態(tài)識(shí)別數(shù)據(jù)相信息j之間的時(shí)間差，i<j,(i,j)∈n,得到t時(shí)刻的多模態(tài)信息一致性指數(shù)MCI,表示通過組合函數(shù)得到多模態(tài)信息組信息j之間的時(shí)間差，單位統(tǒng)一為ms,例如語音起始(t=1200ms)與手勢起始(t=1210ms)差致性良好的多模態(tài)識(shí)別數(shù)據(jù)向量化數(shù)據(jù)集VD2;[0035]本實(shí)施例需要具體說明的是分模態(tài)合特征向量Efusion,Efusion=∑i=1αi·W;VDi+∑i<j 9型計(jì)算意圖理解向量IV,IV=softmax(W×[Etext;M]+b),softmax特征的總維度，結(jié)合意圖向量IV的最大值、最小值和平均值，得到文本意圖一致性指數(shù)[0041]本實(shí)施例需要具體說明的是BERT(BidirectionalEncoderRepresentations據(jù)問題和文本段落提供相關(guān)答案等；本實(shí)施例需要具體說明的是LSTM(LongShort-Term絡(luò)；然后結(jié)合查詢矩陣、鍵矩陣和值矩陣，計(jì)算意圖理解向量的3D空間特征向量Adisp, n表示余弦相似度函[0046]D1:首先基于裸眼3D數(shù)字人運(yùn)行應(yīng)向量進(jìn)行時(shí)間戳綁定，得到多模態(tài)響應(yīng)向量時(shí)間偏差△tsync,△tsync=∑|△trkl≤t_th,△tk表示第I模態(tài)響應(yīng)與第k模態(tài)響應(yīng)之間的時(shí)間偏差，t_th表示時(shí)間偏差閾值，例如語音響應(yīng)與動(dòng)作響應(yīng)的偏差小于等于40ms,I<K,(I,K)∈M;其次得到裸眼3D數(shù)字人的情感匹配度EC,EC=cos_sim(VE,VF),cos_sim表示余弦相似度函數(shù)，若EC≤0,則為0,反之為EC值，VE表示語音情感特征向量，VF表示面部情感特征向量；最后通過大數(shù)據(jù)分析技術(shù)，結(jié)合時(shí)間偏差△tsync、情感匹配度EC和單位時(shí)間內(nèi)視覺偽影出現(xiàn)的次數(shù)，得到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI,MRCI=e-0.02-△tsyne.(EC+1)·,Nar表示單位時(shí)間內(nèi)視覺偽影出現(xiàn)的次數(shù)；MRCI?,說明裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)良好，輸出相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本，并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法，生成裸眼3D動(dòng)畫顯示在屏幕上；反之則觸發(fā)多模態(tài)響應(yīng)協(xié)調(diào)機(jī)制，例如啟用備用策略模板庫，直到裸眼3D數(shù)字人的多模態(tài)[0048]本實(shí)施例需要具體說明的是裸眼3D排圖算法通過拍攝不同場景、不同拍攝主體的多組左右視點(diǎn)圖像，將屬于同一被拍攝主體的左右視點(diǎn)圖像輸入至構(gòu)建的三維卷積網(wǎng)絡(luò)模型中經(jīng)過模型處理后得到對(duì)應(yīng)的左右視點(diǎn)融合視差圖，后將視差值轉(zhuǎn)化為深度距離值，并基于視差值、深度距離值、相機(jī)參數(shù)以及相似三角形原理計(jì)算被拍攝主體世界坐標(biāo)系下的三維坐標(biāo)進(jìn)行三維重建。[0049]S6:通過大數(shù)據(jù)分析技術(shù)，對(duì)用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進(jìn)行分析，根據(jù)異常分析結(jié)果進(jìn)行優(yōu)化，并記錄優(yōu)化內(nèi)容傳輸至管理員終端，包括以下步驟：[0050]E1:通過大數(shù)據(jù)技術(shù)，記錄用戶與裸眼3D數(shù)字人交互的總交互次數(shù)N_tot和正確理解用戶意圖的交互次數(shù)N_cor,交互響應(yīng)延遲t_del,得到裸眼3D數(shù)字人交互能力分析指標(biāo),若(t_del-t_del)≤0,則為0,反之為計(jì)算的差[0051]E2:將裸眼3D數(shù)字人交互能力分析指標(biāo)I

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法（深圳市易快來科技股份有限公司）

文檔簡介

溫馨提示

最新文檔

評(píng)論

CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法 （深圳市易快來科技股份有限公司）

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機(jī)交互方法（深圳市易快來科技股份有限公司）