版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(19)國家知識(shí)產(chǎn)權(quán)局(10)申請(qǐng)公布號(hào)CN120256575A(71)申請(qǐng)人聊城大學(xué)地址252000山東省聊城市東昌府區(qū)湖南路1號(hào)(72)發(fā)明人王超安洪勇張穎祝元慶(74)專利代理機(jī)構(gòu)濟(jì)南泉城專利商標(biāo)事務(wù)所(54)發(fā)明名稱本發(fā)明公開了基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答系統(tǒng)及方法,具體涉及自適應(yīng)學(xué)習(xí)問答技術(shù)領(lǐng)域;通過構(gòu)建模態(tài)識(shí)別與預(yù)處理模塊,實(shí)現(xiàn)文本、語音、圖像等多模態(tài)輸入的標(biāo)準(zhǔn)化與結(jié)構(gòu)化;通過時(shí)間順序編碼與圖譜建模,建立跨輪次的模態(tài)記憶圖譜;結(jié)合用戶交互歷史與當(dāng)前模態(tài)合當(dāng)前輸入、用戶畫像與歷史圖譜,通過上下文增強(qiáng)模塊生成中間語義表示,并與知識(shí)庫結(jié)合生成回答;同時(shí)引入模態(tài)置信度動(dòng)態(tài)評(píng)估機(jī)制,按輸入質(zhì)量、用戶適配度與上下文相關(guān)性分配權(quán)重;最后通過用戶反饋驅(qū)動(dòng)系統(tǒng)對(duì)圖譜結(jié)構(gòu)、用憶圖譜,通過上下文增強(qiáng)模塊生成語義一致的中間語義表示;再由問答生成模塊結(jié)合語義表示與知識(shí)庫信接收用戶反饋信息,并根據(jù)反饋信息對(duì)模態(tài)記憶圖譜、用戶畫像和問答策略進(jìn)行增量優(yōu)化,實(shí)現(xiàn)多輪自適應(yīng)更新2接收來自用戶的多種模態(tài)輸入信息,通過模態(tài)識(shí)別模塊分別對(duì)各模態(tài)數(shù)據(jù)進(jìn)行格式標(biāo)對(duì)多輪對(duì)話過程中產(chǎn)生的各輪模態(tài)輸入進(jìn)行時(shí)間順序編碼,并基于當(dāng)前輪次的模態(tài)輸入、用戶畫像以及歷史模態(tài)記憶圖譜,通過上下文增強(qiáng)模塊生成語義一致的中間語義表示;再由問答生成模塊結(jié)合語義表示與知識(shí)庫信息生成回答內(nèi)接收用戶反饋信息,并根據(jù)反饋信息對(duì)模態(tài)記憶圖譜、用戶畫pref為用戶畫像中的模態(tài)偏好集合,fm為模態(tài)m的歷史使用頻次;θ為偏好頻次閾值;Pm為當(dāng)前模態(tài)是否為型映射函數(shù):為用戶在模態(tài)m下的歷史回答滿意度均3射后的理解能力評(píng)分;采用非線性組合策略計(jì)算圖像適配度7.根據(jù)權(quán)利要求6所述的基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答方法,其特征在于:通過自然語言處理識(shí)別當(dāng)前模態(tài)是否被用戶明確引用,若存在顯式指代,則賦予標(biāo)記值Refm=1;對(duì)當(dāng)前模態(tài)與歷史模態(tài)節(jié)點(diǎn)進(jìn)行語義特征對(duì)比,計(jì)算相似度評(píng)分Simm;基于模態(tài)記憶圖譜計(jì)算最短路徑長度L,并據(jù)此賦予路徑匹配得分Pathm,根據(jù)邏輯規(guī)則,當(dāng)存在顯式指代且路徑緊密時(shí),直接以Simm為上下文相關(guān)度;當(dāng)無指代但存在間接路徑時(shí),取Simm與Pathm的最小8.根據(jù)權(quán)利要求7所述的基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答方法,其特征在于:將模態(tài)輸入質(zhì)量、圖像適配度和上下文相關(guān)度轉(zhuǎn)換為綜合特征向量,將綜合特征向量作為機(jī)器學(xué)習(xí)模型的輸入,機(jī)器學(xué)習(xí)模型以每組綜合特征向量預(yù)測(cè)每種模態(tài)的綜合置信度得分標(biāo)簽為預(yù)測(cè)目標(biāo),以最小化對(duì)所有每種模態(tài)的綜合置信度得分標(biāo)簽的預(yù)測(cè)誤差之和作為訓(xùn)練目標(biāo),對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至預(yù)測(cè)誤差之和達(dá)到收斂時(shí)停止模型訓(xùn)練,根據(jù)模型輸出結(jié)果確定每種模態(tài)的綜合置信度得分,其中,機(jī)器學(xué)習(xí)模型為多項(xiàng)式回歸模型。9.根據(jù)權(quán)利要求8所述的基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答方法,其特征在于:將獲取到的每種模態(tài)的綜合置信度得分與預(yù)定閾值進(jìn)行比較,若每種模態(tài)的綜合置信度得分小于預(yù)定閾值,該模態(tài)在生成過程中被降權(quán)或忽略;若每種模態(tài)的綜合置信度得分大于等于預(yù)10.基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答系統(tǒng),用于實(shí)現(xiàn)權(quán)利要求1-9任一項(xiàng)所述的基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答方法,其特征在于:包括多模態(tài)輸入處理模塊、模態(tài)記憶圖譜構(gòu)建與管理模塊、用戶畫像建模更新模塊,問答生成模塊以及模態(tài)置信度評(píng)估模塊;多模態(tài)輸入處理模塊:接收來自用戶的多種模態(tài)輸入信息,通過模態(tài)識(shí)別模塊分別對(duì)各模態(tài)數(shù)據(jù)進(jìn)行格式標(biāo)準(zhǔn)化與預(yù)處理,得到結(jié)構(gòu)化的模態(tài)輸入序列;模態(tài)記憶圖譜構(gòu)建與管理模塊:對(duì)多輪對(duì)話過程中產(chǎn)生的各輪模態(tài)輸入進(jìn)行時(shí)間順序編碼,并構(gòu)建跨輪次的模態(tài)記憶圖譜;用戶畫像建模更新模塊:基于用戶的交互歷史行為和當(dāng)前模態(tài)輸入特征,更新用戶畫問答生成模塊:基于當(dāng)前輪次的模態(tài)輸入、用戶畫像以及歷史模態(tài)記憶圖譜,通過上下文增強(qiáng)模塊生成語義一致的中間語義表示;再由問答生成模塊結(jié)合語義表示與知識(shí)庫信息生成回答內(nèi)容;模態(tài)置信度評(píng)估模塊:在問答生成過程中,根據(jù)各模態(tài)輸入質(zhì)量、用戶畫像及上下文相自適應(yīng)優(yōu)化模塊:接收用戶反饋信息,并根據(jù)反饋信息對(duì)模態(tài)記憶圖譜、用戶畫像和問答策略進(jìn)行增量優(yōu)化,實(shí)現(xiàn)多輪自適應(yīng)更新。4基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答系統(tǒng)及方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及自適應(yīng)學(xué)習(xí)問答技術(shù)領(lǐng)域,具體涉及基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答系統(tǒng)及方法。背景技術(shù)[0002]隨著人工智能技術(shù)的飛速發(fā)展,尤其是在自然語言處理、計(jì)算機(jī)視覺以及語音識(shí)別等領(lǐng)域的突破,問答系統(tǒng)逐漸從基于規(guī)則的簡易查詢轉(zhuǎn)向融合多模態(tài)信息、智能理解用戶意圖的交互式問答系統(tǒng)。特別是在教育輔導(dǎo)、醫(yī)療輔助、企業(yè)知識(shí)服務(wù)等場景中,用戶對(duì)系統(tǒng)提出問題的方式呈現(xiàn)出多樣化的趨勢(shì),不再局限于傳統(tǒng)的文本輸入,而是逐步發(fā)展為中,如果用戶在不同輪次輸入的信息涉及多種模態(tài),系統(tǒng)可能會(huì)丟失上下文信息,導(dǎo)致錯(cuò)誤的回答或邏輯混亂。嚴(yán)重影響用戶體驗(yàn),使得系統(tǒng)無法進(jìn)行自然的、多模態(tài)發(fā)明內(nèi)容[0003]本發(fā)明的目的是提供一種基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答系統(tǒng)及方法,以解決背景技術(shù)中不足。[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問接收來自用戶的多種模態(tài)輸入信息,通過模態(tài)識(shí)別模塊分別對(duì)各模態(tài)數(shù)據(jù)進(jìn)行格式標(biāo)準(zhǔn)化與預(yù)處理,得到結(jié)構(gòu)化的模態(tài)輸入序列;對(duì)多輪對(duì)話過程中產(chǎn)生的各輪模態(tài)輸入進(jìn)行時(shí)間順序編碼,并構(gòu)建跨輪次的模態(tài)基于用戶的交互歷史行為和當(dāng)前模態(tài)輸入特征,更新用戶畫像;基于當(dāng)前輪次的模態(tài)輸入、用戶畫像以及歷史模態(tài)記憶圖譜,通過上下文增強(qiáng)模塊生成語義一致的中間語義表示;再由問答生成模塊結(jié)合語義表示與知識(shí)庫信息生成回答在問答生成過程中,根據(jù)各模態(tài)輸入質(zhì)量、用戶畫像及上下文相關(guān)度,動(dòng)態(tài)分配模態(tài)置信度權(quán)重;接收用戶反饋信息,并根據(jù)反饋信息對(duì)模態(tài)記憶圖譜、用戶畫像和問答策略進(jìn)行[0005]優(yōu)選的,所述構(gòu)建跨輪次的模態(tài)記憶圖譜,包括將每輪模態(tài)輸入附加時(shí)間戳與輪次標(biāo)記,并基于模態(tài)間存在的指代關(guān)系、補(bǔ)充關(guān)系或語義引用關(guān)系建立圖譜邊結(jié)構(gòu),所述邊結(jié)構(gòu)支持動(dòng)態(tài)更新與語義置信度加權(quán)。[0006]優(yōu)選的,所述用戶畫像更新,包括采用滑動(dòng)窗口機(jī)制與時(shí)間衰減函數(shù)對(duì)用戶畫像進(jìn)行增量更新,使得新輸入行為對(duì)畫像調(diào)整具有更高權(quán)重。[0007]優(yōu)選的,所述上下文增強(qiáng)模塊采用圖神經(jīng)網(wǎng)絡(luò)或多頭注意力機(jī)制,對(duì)當(dāng)前模態(tài)輸5入與模態(tài)記憶圖譜中歷史節(jié)點(diǎn)之間的語義路徑進(jìn)行建模,并生成上下文增強(qiáng)后的語義表示[0008]優(yōu)選的,對(duì)于每個(gè)模態(tài)m,首先需要計(jì)算模態(tài)輸入質(zhì)量,包括:分別計(jì)算模態(tài)信號(hào)的信噪比,內(nèi)容長度和模態(tài)識(shí)別錯(cuò)誤率;對(duì)獲取到的模態(tài)信號(hào)的信噪比,內(nèi)容長度和模態(tài)識(shí)別錯(cuò)誤率進(jìn)行歸一化處理后,進(jìn)行加權(quán)平均求和計(jì)算得到模態(tài)輸入質(zhì)量。[0009]優(yōu)選的,判斷當(dāng)前模態(tài)m是否屬于用戶畫像中常用模態(tài)集合Mpref,定義布爾函數(shù):;Mpref態(tài)偏好集合,fm為模態(tài)m的歷史使用頻次;θ為偏好頻次閾值;Pm為當(dāng)前模態(tài)是否為偏好模態(tài)的布爾值,理解能力評(píng)分函數(shù)Km,對(duì)用戶在當(dāng)前模態(tài)下的理解能力打分,采用Sm型映射函數(shù):;式中,rm為用戶在模態(tài)m下的歷史回答滿意度均m射后的理解能力評(píng)分;采用非線性組合策略計(jì)算圖像適配度[0010]優(yōu)選的,通過自然語言處理識(shí)別當(dāng)前模態(tài)是否被用戶明確引用,若存在顯式指代,則賦予標(biāo)記值Refm=1;對(duì)當(dāng)前模態(tài)與歷史模態(tài)節(jié)點(diǎn)進(jìn)行語義特征對(duì)比,計(jì)算相似度評(píng)分Simm;基于模態(tài)記憶圖譜計(jì)算最短路徑長度L,并據(jù)此賦予路徑匹配得分Pathm,根據(jù)邏輯規(guī)則,當(dāng)存在顯式指代且路徑緊密時(shí),直接以Simm為上下文相關(guān)度;當(dāng)無指代但存在間接路徑[0011]優(yōu)選的,將模態(tài)輸入質(zhì)量、圖像適配度和上下文相關(guān)度轉(zhuǎn)換為綜合特征向量,將綜合特征向量作為機(jī)器學(xué)習(xí)模型的輸入,機(jī)器學(xué)習(xí)模型以每組綜合特征向量預(yù)測(cè)每種模態(tài)的綜合置信度得分標(biāo)簽為預(yù)測(cè)目標(biāo),以最小化對(duì)所有每種模態(tài)的綜合置信度得分標(biāo)簽的預(yù)測(cè)誤差之和作為訓(xùn)練目標(biāo),對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至預(yù)測(cè)誤差之和達(dá)到收斂時(shí)停止模型訓(xùn)練,根據(jù)模型輸出結(jié)果確定每種模態(tài)的綜合置信度得分,其中,機(jī)器學(xué)習(xí)模型為多項(xiàng)式回歸模型。[0012]優(yōu)選的,將獲取到的每種模態(tài)的綜合置信度得分與預(yù)定閾值進(jìn)行比較,若每種模態(tài)的綜合置信度得分小于預(yù)定閾值,該模態(tài)在生成過程中被降權(quán)或忽略;若每種模態(tài)的綜合置信度得分大于等于預(yù)定閾值,則模態(tài)保持不變。[0013]本發(fā)明還提供了基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答系統(tǒng),包括多模態(tài)輸入處理模塊、模態(tài)記憶圖譜構(gòu)建與管理模塊、用戶畫像建模更新模塊,問答生成模塊以及模態(tài)置信度評(píng)估模塊;多模態(tài)輸入處理模塊:接收來自用戶的多種模態(tài)輸入信息,通過模態(tài)識(shí)別模塊分別對(duì)各模態(tài)數(shù)據(jù)進(jìn)行格式標(biāo)準(zhǔn)化與預(yù)處理,得到結(jié)構(gòu)化的模態(tài)輸入序列;模態(tài)記憶圖譜構(gòu)建與管理模塊:對(duì)多輪對(duì)話過程中產(chǎn)生的各輪模態(tài)輸入進(jìn)行時(shí)間6順序編碼,并構(gòu)建跨輪次的模態(tài)記憶圖譜;用戶畫像建模更新模塊:基于用戶的交互歷史行為和當(dāng)前模態(tài)輸入特征,更新用戶畫像;問答生成模塊:基于當(dāng)前輪次的模態(tài)輸入、用戶畫像以及歷史模態(tài)記憶圖譜,通過上下文增強(qiáng)模塊生成語義一致的中間語義表示;再由問答生成模塊結(jié)合語義表示與知識(shí)庫信息生成回答內(nèi)容;模態(tài)置信度評(píng)估模塊:在問答生成過程中,根據(jù)各模態(tài)輸入質(zhì)量、用戶畫像及上下自適應(yīng)優(yōu)化模塊:接收用戶反饋信息,并根據(jù)反饋信息對(duì)模態(tài)記憶圖譜、用戶畫像和問答策略進(jìn)行增量優(yōu)化,實(shí)現(xiàn)多輪自適應(yīng)更新。[0014]在上述技術(shù)方案中,本發(fā)明提供的技術(shù)效果和優(yōu)點(diǎn):頻等多種模態(tài)輸入的統(tǒng)一解析,構(gòu)建了時(shí)間順序編碼的模態(tài)記憶圖譜,并通過語義關(guān)系建模有效保留多輪多模態(tài)交互中的上下文信息,從而顯著提升問答系統(tǒng)在復(fù)雜交互場景下的語義理解能力與連續(xù)對(duì)話能力。結(jié)合動(dòng)態(tài)更新的用戶畫像模型,使系統(tǒng)能夠根據(jù)用戶的知識(shí)水平、模態(tài)偏好及行為習(xí)慣生成個(gè)性化、上下文相關(guān)的高質(zhì)量回答,有效提升了交互體驗(yàn)與用戶滿意度。[0015]2、本發(fā)明提出了基于模態(tài)輸入質(zhì)量、用戶畫像適配度及上下文相關(guān)度的綜合置信度計(jì)算機(jī)制,并結(jié)合機(jī)器學(xué)習(xí)模型動(dòng)態(tài)分配模態(tài)權(quán)重,實(shí)現(xiàn)了問答策略的精細(xì)化控制和高魯棒性輸出。通過引入用戶反饋驅(qū)動(dòng)的增量優(yōu)化機(jī)制,系統(tǒng)可持續(xù)學(xué)習(xí)與自我調(diào)整,在保證性能穩(wěn)定的同時(shí),具備快速適應(yīng)用戶需求變化的能力,廣泛適用于教育輔導(dǎo)、智能客服、醫(yī)療咨詢等多種高要求場景,具有較強(qiáng)的實(shí)用價(jià)值與推廣前景。附圖說明[0016]為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。[0017]圖1為本發(fā)明的方法流程圖。[0018]圖2為本發(fā)明的系統(tǒng)模塊圖。具體實(shí)施方式[0019]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0020]實(shí)施例1,請(qǐng)參閱圖1所示,本實(shí)施例所述基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答方法,接收來自用戶的多種模態(tài)輸入信息,通過模態(tài)識(shí)別模塊分別對(duì)各模態(tài)數(shù)據(jù)進(jìn)行格式標(biāo)準(zhǔn)化與預(yù)處理,得到結(jié)構(gòu)化的模態(tài)輸入序列;7對(duì)多輪對(duì)話過程中產(chǎn)生的各輪模態(tài)輸入進(jìn)行時(shí)間順序編碼,并構(gòu)建跨輪次的模態(tài)記憶圖譜;基于用戶的交互歷史行為和當(dāng)前模態(tài)輸入特征,更新用戶畫像;基于當(dāng)前輪次的模態(tài)輸入、用戶畫像以及歷史模態(tài)記憶圖譜,通過上下文增強(qiáng)模塊生成語義一致的中間語義表示;再由問答生成模塊結(jié)合語義表示與知識(shí)庫信息生成回答在問答生成過程中,根據(jù)各模態(tài)輸入質(zhì)量、用戶畫像及上下文相關(guān)度,動(dòng)態(tài)分配模態(tài)置信度權(quán)重;接收用戶反饋信息,并根據(jù)反饋信息對(duì)模態(tài)記憶圖譜、用戶畫像和問答策略進(jìn)行[0021]用戶與問答系統(tǒng)進(jìn)行交互時(shí),可通過文本、語音、圖像和視頻等任一或多種模態(tài)方式輸入問題信息。為確保系統(tǒng)在面對(duì)不同模態(tài)組合的輸入場景中具備統(tǒng)一的處理能力,本發(fā)明在接收到用戶輸入后,首先由模態(tài)識(shí)別模塊對(duì)輸入數(shù)據(jù)的類型進(jìn)行自動(dòng)判別,隨后分別進(jìn)行針對(duì)性的預(yù)處理與格式標(biāo)準(zhǔn)化操作,最終將處理結(jié)果轉(zhuǎn)換為統(tǒng)一結(jié)構(gòu)化的模態(tài)輸入序列,為后續(xù)多模態(tài)語義建模和上下文推理提供數(shù)據(jù)基礎(chǔ)。[0022]具體而言,當(dāng)用戶輸入為文本形式時(shí),系統(tǒng)首先進(jìn)行文本清洗,包括去除無效字符、標(biāo)點(diǎn)標(biāo)準(zhǔn)化、大小寫統(tǒng)一處理等;隨后采用分詞模型(如基于詞典或子詞單元的分詞算法)對(duì)文本進(jìn)行分詞,再通過語法分析工具提取語義特征,如關(guān)鍵詞、實(shí)體名、問題類型等,最終形成結(jié)構(gòu)化的文本特征向量表示。[0023]當(dāng)用戶輸入為語音形式時(shí),系統(tǒng)首先利用語音識(shí)別引擎將語音信號(hào)轉(zhuǎn)寫為文本信息,同時(shí)保留說話人音色特征、語調(diào)變化、停頓信息等可選元數(shù)據(jù)。轉(zhuǎn)寫后的文本信息將進(jìn)入與文本輸入相同的預(yù)處理流程,進(jìn)一步提取語義特征。此外,系統(tǒng)還可對(duì)語音輸入的背景噪聲等級(jí)、信噪比等參數(shù)進(jìn)行評(píng)估,作為后續(xù)模態(tài)置信度調(diào)節(jié)的依據(jù)。[0024]當(dāng)用戶輸入為圖像形式時(shí),系統(tǒng)采用圖像識(shí)別模塊對(duì)上傳圖片進(jìn)行格式統(tǒng)一和大小標(biāo)準(zhǔn)化處理,如將圖像縮放至指定分辨率、統(tǒng)一色彩通道、去除多余邊框等。隨后利用預(yù)訓(xùn)練的圖像特征提取網(wǎng)絡(luò)提取關(guān)鍵區(qū)域特征,并可選地結(jié)合目標(biāo)檢測(cè)、圖像分割等技術(shù)標(biāo)注圖中實(shí)體、區(qū)域或文字信息,生成圖像對(duì)應(yīng)的特征張量及語義注釋。[0025]當(dāng)用戶輸入為視頻形式時(shí),系統(tǒng)首先對(duì)視頻內(nèi)容進(jìn)行分幀處理,并依據(jù)幀間變化速率選取關(guān)鍵幀;對(duì)于選定關(guān)鍵幀執(zhí)行圖像處理流程,同時(shí)提取視頻的音頻軌道進(jìn)行語音識(shí)別與情感分析。視頻輸入因此被拆解為圖像模態(tài)與語音模態(tài)的聯(lián)合輸入,再分別執(zhí)行其對(duì)應(yīng)的預(yù)處理流程。[0026]所有模態(tài)在完成各自的數(shù)據(jù)清洗與特征提取之后,系統(tǒng)通過時(shí)間戳與對(duì)話輪次標(biāo)記將其統(tǒng)一映射至統(tǒng)一模態(tài)輸入序列中,確保各模態(tài)信息在后續(xù)處理階段能夠準(zhǔn)確對(duì)應(yīng)至具體的用戶輸入上下文,避免模態(tài)錯(cuò)位、語義重復(fù)或丟失。[0027]為了解決多輪多模態(tài)問答過程中用戶上下文信息易丟失、模態(tài)之間缺乏語義延續(xù)性的問題,系統(tǒng)在完成各輪模態(tài)輸入的標(biāo)準(zhǔn)化與結(jié)構(gòu)化處理后,進(jìn)一步通過時(shí)間順序編碼[0028]具體而言,系統(tǒng)首先對(duì)每一輪用戶輸入的結(jié)構(gòu)化模態(tài)數(shù)據(jù)附加時(shí)間戳信息與對(duì)話輪次標(biāo)記。時(shí)間戳信息基于系統(tǒng)接收輸入的時(shí)間記錄,精確到毫秒級(jí),用于表征模態(tài)數(shù)據(jù)在8整個(gè)對(duì)話過程中的相對(duì)或絕對(duì)順序;而輪次標(biāo)記則用于標(biāo)注該模態(tài)輸入屬于整個(gè)會(huì)話中的模態(tài)輸入流。[0029]接著,系統(tǒng)通過模態(tài)記憶圖譜構(gòu)建模塊將所有輪次的模態(tài)輸入信息匯總整理,構(gòu)建跨輪次語義結(jié)構(gòu)圖。該模態(tài)記憶圖譜由節(jié)點(diǎn)與邊組成:邊代表不同模態(tài)或不同輪次之間的關(guān)聯(lián)關(guān)系,邊的類型包括“語義引用關(guān)系”“上[0030]例如,當(dāng)用戶在第一輪輸入一張圖像,并在第三輪語音中提問“這個(gè)地方有沒有問題?”系統(tǒng)通過自然語言指代解析與模態(tài)對(duì)齊機(jī)制,識(shí)別“這個(gè)地方”[0031]在圖譜構(gòu)建完成后,系統(tǒng)可在后續(xù)每一輪問答中,結(jié)合當(dāng)前模態(tài)輸入與圖譜中歷史模態(tài)節(jié)點(diǎn)進(jìn)行動(dòng)態(tài)語義融合與上下文推理。通過圖譜的遍歷、子圖提取與邊權(quán)重分析,系統(tǒng)能夠找出與當(dāng)前用戶問題語義相關(guān)的模態(tài)節(jié)點(diǎn)集合,并據(jù)此生成更加準(zhǔn)確、上下文連貫的回答內(nèi)容。[0032]此外,為防止記憶圖譜冗余增長或語義漂移,本發(fā)明還設(shè)有圖譜壓縮機(jī)制與過期節(jié)點(diǎn)淘汰策略。系統(tǒng)會(huì)周期性評(píng)估節(jié)點(diǎn)活躍度及邊的使用頻率,對(duì)長時(shí)間未被引用或語義重復(fù)的模態(tài)節(jié)點(diǎn)進(jìn)行合并或移除,確保圖譜在持續(xù)多輪交互中仍保持高效與語義清晰。[0033]為提升問答系統(tǒng)在個(gè)性化響應(yīng)和持續(xù)學(xué)習(xí)方面的表現(xiàn),系統(tǒng)在多輪對(duì)話過程中引入了用戶畫像動(dòng)態(tài)更新機(jī)制。該機(jī)制通過綜合分析用戶的交互歷史行為數(shù)據(jù)以及當(dāng)前輪次輸入的多模態(tài)特征,對(duì)用戶的知識(shí)狀態(tài)、偏好傾向、交互習(xí)慣等進(jìn)行建模和持續(xù)更新,從而為后續(xù)問答生成提供個(gè)性化策略支持。知識(shí)層次屬性:表示用戶在特定領(lǐng)域的知識(shí)掌握程度,可通過用戶問題的復(fù)雜度、使用術(shù)語的專業(yè)性、回答反饋滿意度等進(jìn)行評(píng)估;內(nèi)容偏好屬性:記錄用戶在提問中更傾向于哪類模態(tài)(如偏好圖文結(jié)合還是語音交互行為屬性:包括用戶提問的頻率、多輪追問的傾向、是否存在糾錯(cuò)行為(如反復(fù)修改問題)等;模態(tài)使用習(xí)慣屬性:記錄用戶更常使用哪種模態(tài)進(jìn)行提問,以及該模態(tài)下輸入質(zhì)量的歷史評(píng)估(如語音識(shí)別準(zhǔn)確率、圖像清晰度等)。[0035]在每一輪問答交互完成后,系統(tǒng)會(huì)將當(dāng)前模態(tài)輸入所提取的語義特征與用戶歷史特征提取:從當(dāng)前輸入的模態(tài)數(shù)據(jù)中提取語義關(guān)鍵詞、情感傾向、視覺主題等關(guān)鍵特征。如文本中包含專業(yè)術(shù)語、圖像中包含技術(shù)圖紙等,系統(tǒng)可據(jù)此判斷用戶的專業(yè)程度;行為識(shí)別:分析用戶行為,例如在前一輪提問后立即補(bǔ)充說明、選擇重新表述問題、主動(dòng)上傳輔助模態(tài)(如附圖)等行為,判斷其對(duì)獲取準(zhǔn)確答案的主動(dòng)性或?qū)ο到y(tǒng)的信任9程度;畫像更新機(jī)制:采用滑動(dòng)窗口機(jī)制或加權(quán)平均策略,對(duì)已有用戶畫像進(jìn)行增量更新,確保新行為信息在不完全覆蓋舊數(shù)據(jù)的前提下,合理影響用戶建模結(jié)果。同時(shí),系統(tǒng)根據(jù)用戶反饋(如對(duì)答案的評(píng)分、是否繼續(xù)追問)對(duì)畫像中的“滿意度響應(yīng)閾值”或“理解深度[0036]舉例來說,若某用戶連續(xù)三輪使用語音輸入,并在語音中多次涉及基礎(chǔ)醫(yī)療常識(shí)問題,且伴隨圖像上傳(如皮膚照片),則系統(tǒng)可將該用戶畫像標(biāo)記為“非專業(yè)醫(yī)療領(lǐng)域用用更通俗、解釋型的語言風(fēng)格,結(jié)合圖文并茂的輔助信息進(jìn)行作答,以提高用戶滿意度。[0037]為了保障用戶畫像的長期有效性和系統(tǒng)適應(yīng)性,本發(fā)明還設(shè)有時(shí)間衰減機(jī)制,即對(duì)歷史交互行為按照時(shí)間進(jìn)行權(quán)重調(diào)整,確保最近行為對(duì)用戶畫像具有更大影響力,從而反映用戶知識(shí)狀態(tài)或興趣變化。[0038]系統(tǒng)在接收到當(dāng)前輪次的用戶模態(tài)輸入并完成用戶畫像更新后,為生成語義準(zhǔn)確且上下文連貫的問答內(nèi)容,進(jìn)一步引入上下文增強(qiáng)模塊,該模塊綜合利用當(dāng)前輸入模態(tài)信息、歷史模態(tài)記憶圖譜以及用戶畫像數(shù)據(jù),生成一致性強(qiáng)、針對(duì)性高的中間語義表示,作為問答生成的核心基礎(chǔ)。[0039]系統(tǒng)首先調(diào)用上下文增強(qiáng)模塊,對(duì)當(dāng)前輸入輪次中的模態(tài)信息進(jìn)行處理,并將其與歷史輪次中存儲(chǔ)在模態(tài)記憶圖譜中的相關(guān)節(jié)點(diǎn)進(jìn)行聯(lián)動(dòng)。該模塊采用多層注意力機(jī)制(multi-headattention)或圖神經(jīng)網(wǎng)絡(luò)(GNN)對(duì)當(dāng)前節(jié)點(diǎn)與歷史語義節(jié)點(diǎn)之間的語義關(guān)系進(jìn)行建模。[0040]例如,若當(dāng)前用戶上傳了一段實(shí)驗(yàn)視頻,并語音提問:“這部分和上次的實(shí)驗(yàn)結(jié)果圖譜中檢索上輪圖像或文本內(nèi)容。通過上下文圖譜遍歷,系統(tǒng)能夠構(gòu)建一條語義路徑,提取歷史節(jié)點(diǎn)的嵌入表示,并與當(dāng)前模態(tài)語義進(jìn)行融合,形成強(qiáng)化的上下文表達(dá)。[0041]與此同時(shí),系統(tǒng)將融合后的語義向量與用戶畫像中提取的偏好特征進(jìn)行對(duì)齊,例如識(shí)別用戶更傾向于簡潔說明還是詳細(xì)解釋,從而對(duì)語義表示進(jìn)行風(fēng)格或深度的調(diào)整,使其更符合用戶認(rèn)知水平。[0042]最終,該上下文增強(qiáng)模塊輸出一組語義一致的中間語義表示向量,該表示已編碼了當(dāng)前模態(tài)信息、歷史上下文引用及用戶偏好傾向。[0043]在得到中間語義表示后,系統(tǒng)進(jìn)入問答生成模塊,該模塊可根據(jù)應(yīng)用場景選擇檢[0044]若為檢索式問答系統(tǒng),則將語義表示向量作為查詢輸入,調(diào)用嵌入向量檢索引擎,從結(jié)構(gòu)化知識(shí)庫或領(lǐng)域文檔集中匹配語義相似的知識(shí)片段。匹配結(jié)果經(jīng)摘要模塊提取關(guān)鍵Transformer架構(gòu)的文本生成網(wǎng)絡(luò)),生成自然語言答案。生成過程可受用戶畫像控制,如引[0046]對(duì)于混合式問答機(jī)制,系統(tǒng)可首先檢索相關(guān)內(nèi)容作為生成提示,再結(jié)合語義表示執(zhí)行答案生成,以提升準(zhǔn)確率與可控性。[0049]判斷當(dāng)前模態(tài)m是否屬于用戶畫像中常用模態(tài)集合Mpref,定義布爾函數(shù):P;Mpref為用戶畫像中的模態(tài)偏好集合(如{文本,圖像}),fm為模態(tài)m的歷史使用頻次;為偏好頻次閾值(系統(tǒng)設(shè)定,如3次以上視為偏好);Pm為當(dāng)前模態(tài)是否為偏好模態(tài)的布爾值(1或0),理解能力[0050]判斷當(dāng)前模態(tài)的交互風(fēng)格是否與用戶偏好風(fēng)格匹配,采用離散評(píng)分函數(shù):Em但當(dāng)前為圖像);0.3,明顯不匹配(如偏好語音而當(dāng)前為長文本);0.0,模態(tài)風(fēng)格未知或沖11Um=Pm·min(Km,Em);若模態(tài)不在偏好列表中Pm=0,即使理解能力和風(fēng)格匹配良好,也不會(huì)被賦予高適配度;若模態(tài)為偏好模態(tài)Pm=1,系統(tǒng)取理解能力與風(fēng)格匹配度的最小值作為該模態(tài)最終適配度,確保只有在兩個(gè)維度都滿足時(shí)才能獲得高評(píng)分;避免某一維度評(píng)分過高掩蓋另一維度的缺陷,確保評(píng)分合理性與魯棒性。[0052]首先,系統(tǒng)判斷當(dāng)前模態(tài)輸入是否存在顯式指代關(guān)系,即用戶是否通過語言表達(dá)統(tǒng)通過自然語言處理與模態(tài)圖譜時(shí)間戳的匹配,確認(rèn)該模態(tài)是否被用戶明確提及。若識(shí)別出指代關(guān)系,則系統(tǒng)將該模態(tài)的引用標(biāo)記值Refm設(shè)為1,否則為0。[0053]接著,系統(tǒng)對(duì)當(dāng)前模態(tài)與歷史上下文中最相關(guān)的模態(tài)節(jié)點(diǎn)進(jìn)行語義相似度計(jì)算。系統(tǒng)首先對(duì)當(dāng)前輸入模態(tài)進(jìn)行特征嵌入,并與歷史模態(tài)記憶圖譜中的節(jié)點(diǎn)進(jìn)行語義對(duì)比,通過余弦相似度或向量距離計(jì)算出相似度評(píng)分Simm,其取值范圍為0至1,越接近1表示語義越接近。[0054]隨后,系統(tǒng)分析當(dāng)前模態(tài)與圖譜中相關(guān)節(jié)點(diǎn)之間是否存在有效語義路徑連接,用于衡量模態(tài)之間的上下文結(jié)構(gòu)關(guān)系。系統(tǒng)在圖譜中計(jì)算最短路徑長度L,并依據(jù)路徑長度設(shè)定對(duì)應(yīng)的路徑匹配得分Pathm:若路徑長度不超過2,則認(rèn)為模態(tài)強(qiáng)關(guān)聯(lián),賦值為1.0;路徑在3至4之間時(shí),認(rèn)為為間接關(guān)聯(lián),賦值為0.5;若路徑超過4或無法建立連接,則賦值為0,表示無有效語境聯(lián)系。最終,系統(tǒng)結(jié)合以上三個(gè)因素,通過以下邏輯規(guī)則計(jì)算上下文相關(guān)度參當(dāng)模態(tài)被明確引用(即Refm=1)且與歷史模態(tài)存在直接路徑連接(Pathm=1.0)時(shí),系統(tǒng)直接將語義相似度評(píng)分Simm作為上下文相關(guān)度;當(dāng)模態(tài)未被明確引用(Refm=0),但存在間接路徑連接(Pathm>0)時(shí),系統(tǒng)取語義相似度與路徑匹配度中的較小值,作為更保守的相關(guān)度評(píng)分;若當(dāng)前模態(tài)無法與任何歷史節(jié)點(diǎn)建立有效語義路徑連接,則相關(guān)度評(píng)分直接設(shè)為0,表示無上下文語義聯(lián)系。[0055]將模態(tài)輸入質(zhì)量、圖像適配度和上下文相關(guān)度轉(zhuǎn)換為綜合特征向量,將綜合特征向量作為機(jī)器學(xué)習(xí)模型的輸入,機(jī)器學(xué)習(xí)模型以每組綜合特征向量預(yù)測(cè)每種模態(tài)的綜合置信度得分標(biāo)簽為預(yù)測(cè)目標(biāo),以最小化對(duì)所有每種模態(tài)的綜合置信度得分標(biāo)簽的預(yù)測(cè)誤差之和作為訓(xùn)練目標(biāo),對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至預(yù)測(cè)誤差之和達(dá)到收斂時(shí)停止模型訓(xùn)練,根據(jù)模型輸出結(jié)果確定每種模態(tài)的綜合置信度得分,其中,機(jī)器學(xué)習(xí)模型為多項(xiàng)式回歸模[0056]將獲取到的每種模態(tài)的綜合置信度得分與預(yù)定閾值進(jìn)行比較,若每種模態(tài)的綜合置信度得分小于預(yù)定閾值,該模態(tài)在生成過程中被降權(quán)或忽略,以避免因低質(zhì)量輸入引發(fā)錯(cuò)誤判斷;若每種模態(tài)的綜合置信度得分大于等于預(yù)定閾值,則模態(tài)保持不變。[0057]為實(shí)現(xiàn)多模態(tài)交互問答系統(tǒng)的持續(xù)學(xué)習(xí)與動(dòng)態(tài)適應(yīng),系統(tǒng)在完成每輪問答交互后,會(huì)主動(dòng)接收并分析用戶反饋信息,并以此為依據(jù)對(duì)系統(tǒng)中的關(guān)鍵組件,包括模態(tài)記憶圖譜、用戶畫像和問答策略模型進(jìn)行增量式更新,從而實(shí)現(xiàn)對(duì)用戶行為、知識(shí)狀態(tài)和偏好變化的實(shí)時(shí)響應(yīng),提升系統(tǒng)整體問答準(zhǔn)確性與交互智能性。[0058]反饋信息的來源可包括但不限于以下幾類形式:[0059]在用戶完成某輪問答交互后,系統(tǒng)會(huì)依據(jù)反饋信息對(duì)圖譜中的節(jié)點(diǎn)和邊進(jìn)行動(dòng)態(tài)標(biāo)注和調(diào)整。例如,若用戶對(duì)某一答案不滿意且追問中明確糾正了先前模態(tài)的理解錯(cuò)誤,系統(tǒng)將自動(dòng)降低對(duì)應(yīng)節(jié)點(diǎn)的語義置信度,或?qū)㈠e(cuò)誤的語義邊權(quán)重設(shè)為零,避免其在后續(xù)對(duì)話中被錯(cuò)誤引用。高敏感度區(qū)域,在圖譜中建立專門的歷史糾正路徑,提高未來對(duì)該類問題的應(yīng)答準(zhǔn)確性。[0061]反饋信息還被用于實(shí)時(shí)更新用戶畫像,特別是在以下維度:若用戶頻繁修改問題或重復(fù)提問,系統(tǒng)將推測(cè)當(dāng)前用戶在該領(lǐng)域的知識(shí)掌握程度若用戶多次以圖像或語音模態(tài)進(jìn)行高滿意度交互,系統(tǒng)將提升其“模態(tài)偏好權(quán)重”,并預(yù)測(cè)未來優(yōu)先采用該模態(tài)進(jìn)行推薦;若用戶對(duì)回答風(fēng)格有反復(fù)偏好(如偏好簡潔回答),則系統(tǒng)記錄其表達(dá)風(fēng)格偏向,并在后續(xù)生成中進(jìn)行匹配調(diào)整。[0062]更新方式采用增量式建模方法,即以當(dāng)前反饋為微調(diào)依據(jù),不清除原始畫像信息,而是通過滑動(dòng)窗口或加權(quán)時(shí)間衰減機(jī)制對(duì)畫像參數(shù)進(jìn)行動(dòng)態(tài)迭代。[0063]根據(jù)反饋結(jié)果,系統(tǒng)將對(duì)問答生成模塊的推理路徑、模態(tài)組合策略、語言風(fēng)格模板若系統(tǒng)發(fā)現(xiàn)當(dāng)前模態(tài)組合在某類問題下連續(xù)導(dǎo)致用戶反饋不滿意,則降低該模態(tài)組合在類似問題下的觸發(fā)概率;若用戶在多輪追問中不斷補(bǔ)充細(xì)節(jié)信息,系統(tǒng)將主動(dòng)切換問答策略,從簡答式切換為引導(dǎo)式問答,鼓勵(lì)用戶提供更多上下文;[0064]問答策略的調(diào)整過程不基于整體模型重訓(xùn)練,而是采用模塊級(jí)參數(shù)微調(diào)機(jī)制,實(shí)現(xiàn)低成本、快速響應(yīng)的本地優(yōu)化,提升系統(tǒng)穩(wěn)定性與交互效率。[0065]實(shí)施例2,請(qǐng)參閱圖2所示,本實(shí)施例所述基于多模態(tài)交互的自適應(yīng)學(xué)習(xí)問答系統(tǒng),包括多模態(tài)輸入處理模塊、模態(tài)記憶圖譜構(gòu)建與管理模塊、用戶畫像建模更新模塊,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院消防通道及疏散預(yù)案制度
- 2026年智能迷你筋膜槍項(xiàng)目營銷方案
- 醫(yī)療設(shè)備產(chǎn)業(yè)技術(shù)創(chuàng)新策略探討
- 課件畫鼻子教學(xué)課件
- 杯子設(shè)計(jì)培訓(xùn)
- 杜邦安全管理培訓(xùn)題庫課件
- 《FZT 62011.1-2016布藝類產(chǎn)品 第1部分:帷?!穼n}研究報(bào)告
- 《DZT 0054-1993定向鉆進(jìn)技術(shù)規(guī)范》專題研究報(bào)告
- 村賬鄉(xiāng)管培訓(xùn)課件
- 2026年射擊裁判試題高頻考點(diǎn)集含答案
- 湖南佩佩教育戰(zhàn)略合作學(xué)校2026屆高三1月第二次聯(lián)考數(shù)學(xué)
- 實(shí)時(shí)以太網(wǎng)技術(shù)賦能航空電子系統(tǒng):應(yīng)用、挑戰(zhàn)與展望
- 急診成人社區(qū)獲得性肺炎臨床實(shí)踐指南(2024年版)解讀課件
- 智能機(jī)械與機(jī)器人全套課件
- 新疆政法學(xué)院《憲法學(xué)》2024-2025學(xué)年期末試卷(A卷)
- 淺圓倉滑模安全專項(xiàng)施工方案
- 降低患者術(shù)中低體溫發(fā)生率的質(zhì)量改進(jìn)實(shí)踐
- 2023水電站水工建筑物缺陷管理規(guī)范
- 腎病綜合征中醫(yī)護(hù)理查房
- T-CALC 007-2025 重癥監(jiān)護(hù)病房成人患者人文關(guān)懷規(guī)范
- DB51T 3115-2023 四川省政務(wù)服務(wù)評(píng)價(jià)數(shù)據(jù)匯聚規(guī)范
評(píng)論
0/150
提交評(píng)論