任務(wù)驅(qū)動的多輪對話的設(shè)計參考

上傳人：z*** IP屬地：天津上傳時間：2024-12-26 格式：DOCX 頁數(shù)：12 大小：21.99KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

WordWord專業(yè)資料1.1背景知識介紹多輪對話之所以稱之為多輪對話，而不是多輪問答，是因?yàn)槌藛柎饍?nèi)容外，還有閑聊模式下的情感交流，以及多數(shù)情況以陳述句形式表達(dá)的情景模式，因此多輪問答實(shí)際是多輪對話的子集。由于事件的復(fù)雜性直接導(dǎo)致了多輪對話的復(fù)雜性，即上文所述的正常的知識問答和命令問答外，還有情感和場景表述，造成每一句與上下文語義高度相關(guān)或不相關(guān)交錯出現(xiàn)，就導(dǎo)致了規(guī)則的高度復(fù)雜性。諳句K對詰語可對.應(yīng)主體工容二1再明，可型'：：問E1陳述2.惠及3國理）無語權(quán)'：：Mi1弧?E宙您"近注9曲通力31F幺時候能發(fā)苴卮：'：>：'對二1丁E宙您"近注9曲延方33得第%女啊、D3二仃產(chǎn)4匕我5C底三算況兔WiT >373T9我家知海等著電加呢3二3二制二?。萦拔摇昂銢r兔WiT >373:3；.：.：D才「“二eBf3^S0d6af329c9aBdi 160790L惜您指等一下：正在為您核實(shí)處理中噴t1T1T1T16OT2Hm出莫“睡涅船先出 WK匚席什總問題我E以后反處權(quán)解法曳？1：1㈤花一m出莫“睡涅船先出 WT旺3［數(shù)Hk］耐顯亢版am"去9天恭租姓名打犬或犬物和數(shù)字打"1C二二乙？3e出期■在叫益沛 ■日禮C二13二忠e出期■在叫益沛 :。區(qū)這款商三庫房還法有到即二二二對二丁匚/甥陽曲■虹先汕二:他6小幺時候能到苴耳？iii上3物/甥陽曲■虹先汕二17什可魄，康樣責(zé)的先貪二-13次血制25M6ai329如diT6口瞥器嚏看前個青曳質(zhì)?D-D-D-LW7S88曲制25期血32%兆陽-51初毗南騎一袋都沒有么？T。T）T。TL6Q?盹甘e市您述3；屋九先Sdi .C有的話都給:生花E ：■二？.就二泯的長簽“前五旌”生W1T 工:3二二?：二。二三?三E宙簽“前五旌”生W1T 二門照九精等靜1111fi7388eif^250d￡=：j23:3aij： IF可打恩tI。丁「造E求您SE64生在 W儂弓查值以援作丁有黃先賢二二116C7158E求您SE64生在力吃3感曲:星京走是兩個售二二116C7158eBf3fl25M6aI329c9aEdi->160789&>Ot關(guān)注一下H單而物流信息哈T1T1T1-^16070BS日相您口則:算先兆在 1/儂r狗,啥時饌食專部：1：'2通:審E出您口哈M洶加祖 W7照則E一良拄二二二L6CT397E出您口哈M洶先加 1^17399年三卷雪快點(diǎn)發(fā)貨：iZ。二制二型E宙我制胡三：算兜加WIT 旁的強(qiáng)1二二/二三蚊如果用有限狀態(tài)機(jī)來處理多輪對話，就必須對話語權(quán)方（即誰說出的話，必須被對方回答，則這方為對話話語權(quán)方）的每一個token語句進(jìn)行意圖識別，引入意圖隊列，對隊列進(jìn)行基于規(guī)則的推理機(jī)處理或基于深度學(xué)習(xí)的預(yù)測，例如：（寒暄>查訂單>確認(rèn)退款>?）正常情況？==再見結(jié)束本輪對話。當(dāng)然也可以用seq2seq的方法，將整個對話過程，抽象成一個session。輸入若干個相關(guān)句子，解碼成一個句子，即答案。多輪交互的一個重點(diǎn)問題是：如何根據(jù)上下文理解當(dāng)前的意圖，而不僅僅是針對單輪進(jìn)行一個分析，從而能夠使得對話在一個連續(xù)的語境下，是具備session粒度理解能力的。以下方案，均假設(shè)有一個已經(jīng)做得比較好的單輪理解以后的情況：嘗試方案1：最簡單粗暴地，把多輪query，融合成一個單輪的query，進(jìn)行一次性的解析.直接將多輪交互的意圖理解問題，轉(zhuǎn)換成一個單輪的意圖理解問題，從而復(fù)用原有的單輪理解效果。例如：我想看電影-周星馳演的一喜劇片，三個query合并以后，解析到實(shí)際用戶的需求，是周星馳主演的喜劇電影。優(yōu)點(diǎn)：簡單，粗暴，易于實(shí)現(xiàn)，幾乎服用了單輪解析能力缺點(diǎn)：簡單，粗暴，易于出錯，幾乎沒有任何實(shí)質(zhì)性的多輪解析能力，純粹靠運(yùn)氣優(yōu)化方向：可以加入一些query拼接的限制，提高拼接的準(zhǔn)確率，從而在運(yùn)用到單輪解析能力的同時，不至于在準(zhǔn)召上偏離得太離譜（如：只拼接兩輪的、三輪及以上拼接，考慮拼接后的意圖變化情況等）嘗試方案2:不是簡單拼接，而是結(jié)果和query的識別過程拼接：單輪已經(jīng)解析出了一個意圖和某些槽位，將此意圖及槽位存儲起來。遇到query的時候，判定該意圖下，這個query能否納入同樣的意圖中，抽取出對應(yīng)的槽位。如果可以，則更新意圖的槽位內(nèi)容。如果不可以，則拋棄當(dāng)前意圖，以query作為單輪解析，得到新的意圖。例如：我想看電影-要免費(fèi)的，第一輪意圖為電影，第二輪在電影這個意圖下，發(fā)現(xiàn)“免費(fèi)”這個槽位，是符合電影意圖描述的，所以，為該意圖的槽位新增一個“免費(fèi)”例如：我想看愛情電影一能給我講個笑話嗎，第一輪意圖為電影，而第二輪在電影這個意圖下，發(fā)現(xiàn)query并沒有任何跟電影相關(guān)的槽位信息，所以，拋棄第一輪的電影意圖，直接將第二輪query當(dāng)成單輪的，直接解析得到新的意圖-笑話。優(yōu)點(diǎn)：基于意圖來進(jìn)行判定，比拼接更準(zhǔn)確，也更廣泛地識別當(dāng)前query是否仍在同一個意圖中，遞歸地實(shí)現(xiàn)多輪意圖解析，避免了拼接過長，拼接過于粗暴帶來的誤召回和欠召回缺點(diǎn)：存儲下來的是意圖和槽位，然后再基于此進(jìn)行新的query解析，判定是否槽位能夠納入原有意圖范圍內(nèi)，這種遞歸旦有某一步除了問題，后面的每一步，基本上都掛掉了，納入原有意圖范圍內(nèi)，這種遞歸解析錯誤的傳播深度和廣度，都會很大優(yōu)化方向：前面幾步，可以輔助以方案一的拼接，來提高意圖的正確性，保證后續(xù)的方向，都是正確的嘗試方案3:以對話管理過程中增加一些冗余性來對方案2進(jìn)行擴(kuò)充，提高召回率。多輪交互一旦進(jìn)入了某個意圖，即開始該意圖的滿足，而當(dāng)其第一次多輪解析未能命中該意圖，也無法命中任何其他意圖（純屬閑聊）的時候，可以過該輪的意圖解析，而繼續(xù)進(jìn)入下一輪，檢測該意圖是否涵蓋了當(dāng)前query中的槽位，是則可以繼續(xù)該意圖的滿足，不至于輕易斷開多輪對話流（此處的冗余輪數(shù)可以根據(jù)實(shí)際情況自行調(diào)整，一輪、兩輪均可）。例如：給我推薦個餐廳-有川菜口味的嗎-咦，還蠻多嘛（冗余跳過）―找個最便宜的吧優(yōu)點(diǎn)：可以一定程度上緩解方案二遞歸性帶來的意外跳出意圖的問題，提高每個意圖的服務(wù)整體性，保證多輪的延續(xù)性。缺點(diǎn)：因?yàn)樵砩细桨付且恢碌?，所以還是會存在方案二的缺點(diǎn)，并且冗余跳過有可能是未能識別到具體的意圖，從而令本該跳出對話的多輪，多停留了一兩輪在了當(dāng)前意圖，才能跳出去，會降低交互的智能性。優(yōu)化方向：盡可能提升多個意圖的覆蓋面，從而減少切換意圖的誤判為聊天，提升冗余的準(zhǔn)確性上述三個方案，都是可以直接通過比較簡單的框架設(shè)計來實(shí)現(xiàn)的，而讀者可以發(fā)現(xiàn)，可能最關(guān)鍵的還是這些方案的前提：【假設(shè)有一個已經(jīng)做得比較好的單輪理解】?？梢钥吹剑瑔屋喞斫馐撬幸鈭D識別的基礎(chǔ)，只有做好單輪的理解，才可能做好多輪，當(dāng)然，做好了單輪，不一定就能做好多輪。對話系統(tǒng)的分類及方法：按照對話答案的生成方式大致可以分為以下幾種：規(guī)則依存系統(tǒng)（Rule-basedsystem）：對話經(jīng)過預(yù)定義的規(guī)則（關(guān)鍵詞、if-else、機(jī)器學(xué)習(xí)方法等）處理，然后執(zhí)行相應(yīng)的操作，產(chǎn)生回復(fù)。（ELIZA系統(tǒng)如果輸入語句中沒有發(fā)現(xiàn)預(yù)定義規(guī)則則生成generic的響應(yīng)）。缺點(diǎn)是規(guī)則的定義，系統(tǒng)越復(fù)雜規(guī)則也越多，而且其無法理解人類語言，也無法生成有意義的自然語言對話。處在比較淺層的階段;檢索依存系統(tǒng)（IR-basedSystems）：信息檢索或者最近鄰方法，要求生成的響應(yīng)與對話存在語義相關(guān)性（VSM、TF-IDF、Rank、推薦等排序方法）。有點(diǎn)是比生成模型簡單，直接從訓(xùn)練集中選擇答案，且可以添加自定義規(guī)則干預(yù)排序函數(shù)較為靈活；缺點(diǎn)是無法應(yīng)對自然語言的多變性、語境解構(gòu)、連貫性等，對語義的細(xì)微差別也無法識別；自生成依存系統(tǒng)（Generation-basedSystems）:將對話視為input-outputmapping問題，提出了MT-based方法（SMT統(tǒng)計機(jī)器翻譯、IBM-model、phrase-basedMT等），這種方法復(fù)雜且無法很好的解決輸入輸出的對應(yīng)關(guān)系（尤其是當(dāng)句子較復(fù)雜的時候，只適合單詞級別）。但是NN、seq-to-seq等方法很好地解決了這些問題，可以生成更加豐富、有意義、特別的對話響應(yīng)。但是還存在許多問題，比如沉悶的回應(yīng)、agent沒有一個固定的風(fēng)格、多輪對話槽填充等等?？蚣芤来嫦到y(tǒng)（Frame-basedDialogueSystems）:定義一個對話的框架，及其中所涉及的重要元素。優(yōu)點(diǎn)是目標(biāo)明確框架對對話指導(dǎo)意義明顯，適用于飛機(jī)票、餐館等預(yù)定領(lǐng)域。缺點(diǎn)是框架設(shè)計需要人工成本，且無法遷移到別的領(lǐng)域，并未涉及到人類語言的理解層面。按照對話的應(yīng)答方式大致可以分為以下幾種：.有限狀態(tài)機(jī)系統(tǒng)（Finite-StateMachineSystems）：（用戶使用預(yù)定義的模板提問，系統(tǒng)之響應(yīng)能力范圍之內(nèi)的問題），這種方法的缺點(diǎn)是完全依賴于對框架slot的填充，而無法決定對話的進(jìn)程和狀態(tài)（用戶接受建議、拒絕等）.純粹的多輪對話依存系統(tǒng)(State-basedSystems):主要包含系統(tǒng)狀態(tài)(上下文信息、用戶意圖、對話進(jìn)程等)和系統(tǒng)行動兩(基于state采取action)個部分。MDP、POMDP等模型。.純粹的單輪對話(Question-Answering-QA)系統(tǒng)(BasedDialogueSystems)：factoidQA-based，個人助手，需要回答各種各樣的問題并且進(jìn)行交互式對話。目前的研究點(diǎn)主要包括，bot如何通過對話進(jìn)行自學(xué)習(xí)、對于out-of-vocab的詞匯應(yīng)該學(xué)會問，即學(xué)會與人交流、如何通過在線反饋學(xué)習(xí)(犯錯時調(diào)整、正確時加強(qiáng)) 待處理部分 1.2本文解決問題本文主要關(guān)注于chit-chat和QA-baseddialogsystem。開放域?qū)υ捝蒫hit-chat首先探討如何構(gòu)建一個能夠與人類進(jìn)行有趣，有意義，連貫，一致和長期對話的引人入勝的閑聊式對話系統(tǒng)。要求其擁有以下特性：避免dull沉悶的回應(yīng)，產(chǎn)生語義更加豐富的響應(yīng)解決一致性問題，避免前后相應(yīng)不一致可以進(jìn)行長期多輪對話使用對抗學(xué)習(xí)生成人類無法區(qū)分的對話響應(yīng)為了實(shí)現(xiàn)上述的功能和特點(diǎn)，主要會引入下面幾種技術(shù)和算法來解決相應(yīng)的問題?；バ畔?避免無聊的相應(yīng)目前神經(jīng)網(wǎng)絡(luò)傾向于產(chǎn)生類似于“Idon'tknow”這種無聊的響應(yīng)(dullresponse/genericresponse)，不利于對話進(jìn)行。因?yàn)閷τ谀Ｐ蛠碇v，“Idon'tknow”這種答案往往都是正確的，但是我們可以反過來思考這個問題，也就是將"Idon'tknow"作為輸入進(jìn)行訓(xùn)練。因此可以使用MaximumMutualInformation(MMI)取代MLE作為訓(xùn)練的優(yōu)化指標(biāo)，事實(shí)證明這種方法可以大幅度提升模型響應(yīng)的豐富度，減少dullresponse產(chǎn)生的頻率。這部分方法將會在第三章進(jìn)行詳細(xì)的介紹。解決Bot前后一致性問題目前對話機(jī)器人無法產(chǎn)生前后一致性的對話，簡單說就是沒有一個固定的風(fēng)格。所以要給bot一個連續(xù)的“角色”，這種角色可以當(dāng)做是身份元素(事實(shí)背景、用戶簡介)、語言行為、交互方式等的組合。作者基于Seq-to-Seq模型提出了兩種角色模型，一個是單bot的SpearkerModel，另一個是雙bot的Spearker-AddresseeModel。這部分內(nèi)容可以參考第四章以及他在2016年發(fā)表在ACL的論文“Apersona-basedneuralconversationmodel”。使用強(qiáng)化學(xué)習(xí)RL實(shí)現(xiàn)長期多輪對話當(dāng)前的Seq-to-Seq模型大都使用MLE作為目標(biāo)函數(shù)并根據(jù)一輪對話來產(chǎn)生響應(yīng)，很難產(chǎn)生更長久的多輪對話，一般在兩輪之后就陷入重復(fù)。所以作者提出使用強(qiáng)化學(xué)習(xí)來最大化長期獎勵的期望來增加對話輪次。并建設(shè)性地提出了三種Reward公式，**forward-looking、informative、coherent**，最后使用policygradient的方法進(jìn)行訓(xùn)練，取得了很好的效果。這部分內(nèi)容會在第五章進(jìn)行詳細(xì)介紹，或者參考其在2016年發(fā)表在EMNLP的文章“DeepReinforcementLearningforDialogueGeneration”使用對抗生成學(xué)習(xí)GAN產(chǎn)生對話目前模型生成的對話大都來自于訓(xùn)練數(shù)據(jù)集，這就一定程度上限制了產(chǎn)生相應(yīng)的多樣性、豐富程度等。所以引入GAN來生成更接近于人類語言的響應(yīng)。這里使用一個Seq-to-Seq作為生成器，在用一個鑒別器來標(biāo)記生成的響應(yīng)是人類語言還是機(jī)器生成語言，這樣Seq-to-Seq最終生成的響應(yīng)會越來越接近人類語言。這部分內(nèi)容會在第六章進(jìn)行介紹，或者參考其在2017年發(fā)表在EMNLP上的文章〃Adversariallearningforneuraldialoguegeneration”。交互式QA對話機(jī)器人其次探討bot如何通過online學(xué)習(xí)完善自己，使得交互性更強(qiáng)。要求其可以：學(xué)會向人類提問，何時何處問什么從online學(xué)習(xí)，根據(jù)錯誤改進(jìn)自己通過提問進(jìn)行交互學(xué)習(xí)因?yàn)槟壳皢柎鹣到y(tǒng)當(dāng)遇到自己回答不了的問題時（沒見過的表達(dá)形式，自己不知道的東西等情況），往往會做出很差的回應(yīng)或者重定向到其他資源（展示搜索網(wǎng)頁的結(jié)果）。但我們更希望機(jī)器人在遇到這種問題時可以通過向?qū)Ψ教釂柕姆绞絹磉M(jìn)行交互式問答進(jìn)而解決該問題?？梢酝ㄟ^離線學(xué)習(xí)或者在線強(qiáng)化學(xué)習(xí)的方式進(jìn)行訓(xùn)練。這部分內(nèi)容將會在第七章進(jìn)行介紹，也可以參考其在2017年發(fā)表在ICLR上的論文〃Learningthroughdialogueinteractionsbyaskingquestions”。Human-in-the-Loop的對話學(xué)習(xí)目前的對話機(jī)器人大都使用固定的數(shù)據(jù)集提前訓(xùn)練好之后就開始使用，但很多情況下我們需要機(jī)器人上線之后不斷地根據(jù)具體環(huán)境改善自己，也就是要進(jìn)行在線學(xué)習(xí)，根據(jù)對方的反饋來不斷地調(diào)整自己。所以作者使用一個teacher-student的對話數(shù)據(jù)集并結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。這部分工作將在第，八章進(jìn)行介紹，也可以參考其2017年發(fā)表在ICLR上的文章“Dialoguelearningwithhuman-in-the-loop”。第二章背景知識這一部分主要介紹了論文中使用到的Seq-to-Seq模型、MemoryNetwork模型、增強(qiáng)學(xué)習(xí)中的policygradient方法這三塊內(nèi)容。如果不熟悉的同學(xué)可以抽時間看一看，這里因?yàn)橹耙呀?jīng)對Seq-to-Seq和MemNN兩部分有所掌握，所以主要看了一下policynetwork方面的知識，當(dāng)做是背景知識補(bǔ)充。強(qiáng)化學(xué)習(xí)中兩個主流的方法就是Q_learning和PolicyNetwork，相比Q_learning，policynetwork不需要顯示的求解估值函數(shù)，而且對于連續(xù)動作和狀態(tài)空間的問題，也可

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

任務(wù)驅(qū)動的多輪對話的設(shè)計參考

文檔簡介

溫馨提示

最新文檔

評論

任務(wù)驅(qū)動的多輪對話的設(shè)計參考

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔