版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利理有限公司11751專利代理師陳佳妹(56)對比文件權(quán)利要求書2頁說明書8頁附圖3頁(57)摘要本申請涉及一種大模型在線推理與訓(xùn)練一回復(fù)結(jié)果是否存在糾正情況;在存在糾正情況申請通過將用戶輸入數(shù)據(jù)和微調(diào)模型的回復(fù)結(jié)目的,有效的解決每次模型迭代都需要人工啟動21.一種大模型在線推理與訓(xùn)練一體化方法,其特征在于,包括如下步驟:接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果;判斷所述模型回復(fù)結(jié)果是否存在糾正情況;在存在所述糾正情況時,將相應(yīng)的所述用戶輸入數(shù)據(jù)和所述模型回復(fù)結(jié)果存入消息中獲取所述消息中間件的訓(xùn)練數(shù)據(jù),并利用在線SFT和RLHF分別對所述微調(diào)模型進行監(jiān)督微調(diào)及強化訓(xùn)練,得到符合預(yù)設(shè)要求的所述微調(diào)模型;在對微調(diào)模型進行在線訓(xùn)練之前,實時監(jiān)聽消息中間件中的消息數(shù)量,當(dāng)存在糾正語義的消息數(shù)量達到預(yù)設(shè)訓(xùn)練批次大小時,一次性提取數(shù)據(jù)開始在線訓(xùn)練流程。2.根據(jù)權(quán)利要求1所述的大模型在線推理與訓(xùn)練一體化方法,其特征在于,所述接收用接受用戶輸入指令和文本;將所述用戶輸入指令和文本輸入所述微調(diào)模型進行多輪對話,得到相應(yīng)的模型回復(fù)結(jié)其中,所述微調(diào)模型能夠部署對話任務(wù)。3.根據(jù)權(quán)利要求1所述的大模型在線推理與訓(xùn)練一體化方法,其特征在于,在利用在線SFT對所述微調(diào)模型進行監(jiān)督微調(diào)時,所述在線SFT的訓(xùn)練數(shù)據(jù)包括SFT數(shù)據(jù)和預(yù)先標(biāo)注的監(jiān)督訓(xùn)練數(shù)據(jù);其中,所述SFT數(shù)據(jù)基于所述用戶輸入指令文本和所述模型回復(fù)結(jié)果中對應(yīng)的糾正語義組合得到。4.根據(jù)權(quán)利要求1所述的大模型在線推理與訓(xùn)練一體化方法,其特征在于,在利用RLHF對所述微調(diào)模型進行強化訓(xùn)練時,包括:獲取獎勵模型訓(xùn)練數(shù)據(jù);基于所述獎勵模型訓(xùn)練數(shù)據(jù)對獎勵模型進行訓(xùn)練,更新所述獎勵模型;利用所述獎勵模型對所述模型回復(fù)結(jié)果打分,強化訓(xùn)練所述微調(diào)模型。5.根據(jù)權(quán)利要求4所述的大模型在線推理與訓(xùn)練一體化方法,其特征在于,所述獎勵模型訓(xùn)練數(shù)據(jù)基于所述用戶輸入數(shù)據(jù),以及所述模型回復(fù)結(jié)果中的chosen回復(fù)和rejected回復(fù)組建得到。6.根據(jù)權(quán)利要求4所述的大模型在線推理與訓(xùn)練一體化方法,其特征在于,在獲取獎勵對所述微調(diào)模型進行文本分布約束,提高所述獎勵模型的打分結(jié)果。7.根據(jù)權(quán)利要求1所述的大模型在線推理與訓(xùn)練一體化方法,其特征在于,還包括:利用旁路模型更新所述微調(diào)模型的參數(shù)。8.一種系統(tǒng),用于實現(xiàn)上述權(quán)利要求1-7中任一項所述的大模型在線推理與訓(xùn)練一體數(shù)據(jù)獲取模塊,被配置為接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果;數(shù)據(jù)判斷模塊,被配置為判斷所述模型回復(fù)結(jié)果是否存在糾正情況;數(shù)據(jù)存儲模塊,在存在所述糾正情況時,將相應(yīng)的所述用戶輸入數(shù)據(jù)和所述模型回復(fù)結(jié)果存入消息中間件;3模型訓(xùn)練模塊,獲取所述消息中間件的訓(xùn)練數(shù)據(jù),并利用在線SFT和RLHF分別對所述微調(diào)模型進行監(jiān)督微調(diào)及強化訓(xùn)練,得到符合預(yù)設(shè)要求的所述微調(diào)模型。處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為執(zhí)行所述可執(zhí)行指令時實現(xiàn)權(quán)利要求1至7中任一項所述的大模型在線推理與訓(xùn)練一體化方法。10.一種非易失性計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,其特征在于,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任意一項所述的大模型在線推理與訓(xùn)練一體化方法。4大模型在線推理與訓(xùn)練一體化方法及系統(tǒng)技術(shù)領(lǐng)域[0001]本公開涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種大模型在線推理與訓(xùn)練一體化方法及系統(tǒng)。背景技術(shù)[0002]目前,大模型即大語言模型的落地使用,在獲取基座模型之后可以分為三個階段,包括監(jiān)督微調(diào)模型訓(xùn)練、符合人類偏好的強化模型訓(xùn)練和推理部署。具體的如附圖1-3所示,先將一個基座模型通過監(jiān)督微調(diào)成具備對話能力的微調(diào)模型后,再對一定量指令模型的不同回復(fù),進行人工打分標(biāo)注,訓(xùn)練得到獎勵模型,并基于獎勵模型進行符合人類偏好的強化訓(xùn)練,對目標(biāo)微調(diào)模型施加文本分布約束。還需要說明的是,現(xiàn)有的大模型部署推理服務(wù)過程中,根據(jù)用戶的輸入指令文本進行多輪對話。其中,上述三個階段基本相互獨立,使得每次模型迭代都需要人工啟動流程,檢測步驟中間結(jié)果,存在迭代人工工作量大的問題,且具有一定延時性,無法充分實時的利用用戶輸入數(shù)據(jù)。[0003]因此,提供一種能夠整合上述三個階段的方法,減少模型迭代時的人工參與,并實時利用用戶輸入數(shù)據(jù),是目前亟待解決的問題。發(fā)明內(nèi)容[0004]為了解決上述問題,本申請?zhí)岢鲆环N大模型在線推理與訓(xùn)練一體化方法及系統(tǒng),以解決上述問題。[0005]本申請一方面,提出一種大模型在線推理與訓(xùn)練一體化方法,包括如下步驟:[0006]接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果;[0007]判斷所述模型回復(fù)結(jié)果是否存在糾正情況;[0008]在存在所述糾正情況時,將相應(yīng)的所述用戶輸入數(shù)據(jù)和所述模型回復(fù)結(jié)果存入消息中間件;[0009]獲取所述消息中間件的訓(xùn)練數(shù)據(jù),并利用在線SFT和RLHF分別對所述微調(diào)模型進行監(jiān)督微調(diào)及強化訓(xùn)練,得到符合預(yù)設(shè)要求的所述微調(diào)模型。[0010]作為本申請的一可選實施方案,可選地,所述接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果,包括:[0011]接受用戶輸入指令和文本;[0012]將所述用戶輸入指令和文本輸入所述微調(diào)模型進行多輪對話,得到相應(yīng)的模型回復(fù)結(jié)果;[0013]其中,所述微調(diào)模型能夠部署對話任務(wù)。[0014]作為本申請的一可選實施方案,可選地,在利用在線SFT對所述微調(diào)模型進行監(jiān)督微調(diào)時,所述在線SFT的訓(xùn)練數(shù)據(jù)包括SFT數(shù)據(jù)和預(yù)先標(biāo)注的監(jiān)督訓(xùn)練數(shù)據(jù);[0015]其中,所述SFT數(shù)據(jù)基于所述用戶輸入指令文本和所述模型回復(fù)結(jié)果中對應(yīng)的糾正語義組合得到。5[0016]作為本申請的一可選實施方案,可選地,在利用RLHF對所述微調(diào)模型進行強化訓(xùn)[0017]獲取獎勵模型訓(xùn)練數(shù)據(jù);[0018]基于所述獎勵模型訓(xùn)練數(shù)據(jù)對獎勵模型進行訓(xùn)練,更新所述獎勵模型;[0019]利用所述獎勵模型對所述模型回復(fù)結(jié)果打分,強化訓(xùn)練所述微調(diào)模型。[0020]作為本申請的一可選實施方案,可選地,所述獎勵模型訓(xùn)練數(shù)據(jù)基于所述用戶輸入數(shù)據(jù),以及所述模型回復(fù)結(jié)果中的chosen回復(fù)和rejected回復(fù)組建得到。[0022]對所述微調(diào)模型進行文本分布約束,提高所述獎勵模型的打分結(jié)果。[0024]利用旁路模型更新所述微調(diào)模型的參數(shù)。[0025]本申請一方面,提供一種系統(tǒng),用于實現(xiàn)上述任一項所述的大模型在線推理與訓(xùn)[0026]數(shù)據(jù)獲取模塊,被配置為接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果;[0027]數(shù)據(jù)判斷模塊,被配置為判斷所述模型回復(fù)結(jié)果是否存在糾正情況;[0028]數(shù)據(jù)存儲模塊,在存在所述糾正情況時,將相應(yīng)的所述用戶輸入數(shù)據(jù)和所述模型回復(fù)結(jié)果存入消息中間件;[0029]模型訓(xùn)練模塊,獲取所述消息中間件的訓(xùn)練數(shù)據(jù),并利用在線SFT和RLHF分別對所述微調(diào)模型進行監(jiān)督微調(diào)及強化訓(xùn)練,得到符合預(yù)設(shè)要求的所述微調(diào)模型。[0032]用于存儲處理器可執(zhí)行指令的存儲器;[0033]其中,所述處理器被配置為執(zhí)行所述可執(zhí)行指令時實現(xiàn)上述任一項所述的大模型在線推理與訓(xùn)練一體化方法。[0034]本申請一方面,提供一種非易失性計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,其特征在于,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)上述任意一項所述的大模型在線推理與訓(xùn)練一體化方法。[0036]本申請通過將用戶輸入數(shù)據(jù)和微調(diào)模型的回復(fù)結(jié)果存入消息中間件,借此充分利用前向推理階段的過程向量和用戶結(jié)果反饋,實現(xiàn)重復(fù)利用的目的,從而有效的解決每次模型迭代都需要人工啟動流程的問題。具體的,包括接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果;判斷模型回復(fù)結(jié)果是否存在糾正情況;在存在糾正情況時,將相應(yīng)的用戶輸入數(shù)據(jù)和模型回復(fù)結(jié)果存入消息中間件;獲取消息中間件的訓(xùn)練數(shù)據(jù),并利用在線SFT和RLHF分別對微調(diào)模型進行監(jiān)督微調(diào)及強化訓(xùn)練,得到符合預(yù)設(shè)要求的微調(diào)模請根據(jù)中間件保存的在線監(jiān)督訓(xùn)練數(shù)據(jù)和在線符合人類偏好強化模型訓(xùn)練數(shù)據(jù),相應(yīng)利用在線SFT和RLHF對微調(diào)模型進行監(jiān)督微調(diào)和強化訓(xùn)練,進一步的優(yōu)化微調(diào)模型,使其更加符合人類偏好。[0037]根據(jù)下面參考附圖對示例性實施例的詳細說明,本公開的其它特征及方面將變得6附圖說明[0038]包含在說明書中并且構(gòu)成說明書的一部分的附圖與說明書一起示出了本公開的示例性實施例、特征和方面,并且用于解釋本[0039]圖1示出為SFT流程圖;[0041]圖3示出為大模型推理流程圖;[0042]圖4示出為本發(fā)明大模型在線推理與訓(xùn)練一體化方法的流程圖;[0043]圖5示出為本發(fā)明大模型在線推理與訓(xùn)練一體化方法的實施流程示意圖;[0044]圖6示出為本發(fā)明大模型在線推理與訓(xùn)練一體化方法中旁路模型的示意圖。具體實施方式[0045]以下將參考附圖詳細說明本公開的各種示例性實施例、特征和方面。附圖中相同的附圖標(biāo)記表示功能相同或相似的元件。盡管在附圖中示出了實施例的各種方面,但是除所說明的任何實施例不必解釋為優(yōu)于或好于其它實施例。[0047]另外,為了更好的說明本公開,在下文的具體實施方式中給出了眾多的具體細節(jié)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,沒有某些具體細節(jié),本公開同樣可以實施。在一些實例中,對于本領(lǐng)域技術(shù)人員熟知的方法、手段、元件和電路未作詳細描述,以便于凸顯本公開的主旨。[0049]如圖4和圖5所示,本申請一方面提供一種大模型在線推理與訓(xùn)練一體化方法,該方法包括如下步驟:[0050]S100、接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果;[0051]S200、判斷所述模型回復(fù)結(jié)果是否存在糾正情況;[0052]S300、在存在所述糾正情況時,將相應(yīng)的所述用戶輸入數(shù)據(jù)和所述模型回復(fù)結(jié)果存入消息中間件;[0053]S400、獲取所述消息中間件的訓(xùn)練數(shù)據(jù),并利用在線SFT和RLHF分別對所述微調(diào)模型進行監(jiān)督微調(diào)及強化訓(xùn)練,得到符合預(yù)設(shè)要求的所述微調(diào)模型。[0054]本實施例中,通過將用戶輸入數(shù)據(jù)和微調(diào)模型的回復(fù)結(jié)果存入消息中間件,借此充分利用前向推理階段的過程向量和用戶結(jié)果反饋,實現(xiàn)重復(fù)利用的目的,從而有效的解決每次模型迭代都需要人工啟動流程的問題。同時,根據(jù)中間件保存的在線監(jiān)督訓(xùn)練數(shù)據(jù)和在線符合人類偏好強化模型訓(xùn)練數(shù)據(jù),相應(yīng)的利用在線SFT和RLHF對微調(diào)模型進行監(jiān)督微調(diào)以及強化訓(xùn)練,進一步的優(yōu)化微調(diào)模型,使其更加符合人類偏好。[0055]具體而言,通過步驟S100、接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果。此處,需要說明的是,在接收用戶輸入數(shù)據(jù)之前,先訓(xùn)練一個能夠部署對話任務(wù)的微調(diào)模型,其中微調(diào)模型可以由基座模型經(jīng)過SFT、RLHF流程得到,也可以直接由開源社區(qū)獲得具有對話能力的chat微調(diào)模型。隨后,接收用戶輸入數(shù)據(jù)完成多輪對話,由于推理時對用戶輸入的前向推理過程與訓(xùn)練中對輸入指令、文本的前向推理過程是一致的,因此可以重復(fù)7[0056]作為本申請的一可選實施方案,可選地,所述接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,本輸入所述微調(diào)模型進行多輪對話,得到相應(yīng)的模型回復(fù)結(jié)果;其中,所述微調(diào)模型能夠部署對話任務(wù)。[0057]得到微調(diào)模型的模型回復(fù)結(jié)果后,通過步驟S200、判斷所述模型回復(fù)結(jié)果是否存在糾正情況。例如,訓(xùn)練一個基于BERT模型的語義判斷模型,根據(jù)用戶上下文3個連續(xù)輸入,判斷對話中間是否存在用戶對模型輸出結(jié)果進行糾正的情況,存在標(biāo)簽為1,不存在標(biāo)簽為0.其中訓(xùn)練數(shù)據(jù)的標(biāo)注單元為3個語句(用戶提問1、用戶提問2和用戶提問3),語句中間用<標(biāo)注用戶輸入1用戶輸入2用戶輸入31不對,我說的是大語言模型LLM那么和語言模型的區(qū)別在哪里?0的地方好吃的呢?天津呢?[0059]表1用戶語義糾正判斷模型訓(xùn)練數(shù)據(jù)例那么和語言模型的區(qū)別在哪里?”時,存在對模型數(shù)據(jù)結(jié)果進行糾正的步驟S300、在存在所述糾正情況時,將相應(yīng)的所述用戶輸入數(shù)據(jù)和所述模型回復(fù)結(jié)果存入消息中間件。具體的,以隊列消息的方式,將存在糾正的用戶輸入和對應(yīng)的模型回復(fù)結(jié)果送入消息中間件,如kafka等。同時,隨機采樣相同數(shù)量的無糾正語義上下文送入中間件備用,例如“請問北京有什么好玩的地方、好吃的呢?天津呢?”等用戶輸入及對應(yīng)的模型回復(fù)。需要說明的是,有無糾正情況的數(shù)據(jù)分別用不同中間件topic進行區(qū)分。[0061]進一步的,將用戶輸入數(shù)據(jù)和模型回復(fù)結(jié)果存入消息件后,通過步驟S400、獲取所述消息中間件的訓(xùn)練數(shù)據(jù),并利用在線SFT和RLHF分別對所述微調(diào)模型進行監(jiān)督微調(diào)及強化訓(xùn)練,得到符合預(yù)設(shè)要求的所述微調(diào)模型。此處,需要說明的是,在對微調(diào)模型進行在線訓(xùn)練之前,需要實時監(jiān)聽消息件中的消息數(shù)量,當(dāng)存在糾正語義的消息數(shù)量達到預(yù)設(shè)訓(xùn)練批次大小時,例如積累到64條,一次性提取數(shù)據(jù)開始在線訓(xùn)練流程。[0062]作為本申請的一可選實施方案,可選地,在利用在線SFT對所述微調(diào)模型進行監(jiān)督微調(diào)時,所述在線SFT的訓(xùn)練數(shù)據(jù)包括SFT數(shù)據(jù)和預(yù)先標(biāo)注的監(jiān)督訓(xùn)練數(shù)據(jù);其中,所述SFT數(shù)據(jù)基于所述用戶輸入指令文本和所述模型回復(fù)結(jié)果中對應(yīng)的糾正語義組合得到。[0063]下面將對SFT在線訓(xùn)練進行詳細說明。[0064]將存在糾正情況的對話,即用戶輸入的原始提問和模型修正后的答案組合成SFT完成法學(xué)學(xué)位的學(xué)生,如JD或LLB.LLM課程允許學(xué)生在具體的法律領(lǐng)域中專注,如企業(yè)法、8知識產(chǎn)權(quán)法、國際法等。LLM課程由全球許多法學(xué)院提供,備受法學(xué)界肯定和推崇。完成LLM課程后,學(xué)生可以加深了自己的知識和技能,并在法律領(lǐng)域中取得更大的優(yōu)勢。綜上所述,LLM是法學(xué)碩士學(xué)位,主要針對已經(jīng)完成法學(xué)學(xué)位的學(xué)生,提供了具有專業(yè)性的法律學(xué)習(xí)機[0069]模型:LLM(大語言模型)是一種人工智能模型,它通過訓(xùn)練大量文本數(shù)據(jù),可以生成人類語言輸出。它可以用于各種自然語言處理任務(wù),如文本生成、問答、語言翻譯等。由于其能量生成高質(zhì)量的文本和應(yīng)用它可能會改變多個行業(yè),如客服、營銷和內(nèi)容創(chuàng)作等,因此它越來越受到關(guān)注。[0070]由此組成的在線SFT數(shù)據(jù)為:[0071]Instuction:請用中文介紹下LLM。[0072]Response:LLM(大語言模型)是一種人工智能模型,它通過訓(xùn)練大量文本數(shù)據(jù),可以生成人類語言輸出。它可以用于各種自然語言處理任務(wù),如文本生成、問答、語言翻譯等。由于其能量生成高質(zhì)量的文本和應(yīng)用它可能會改變多個行業(yè),如客服、營銷和內(nèi)容創(chuàng)作等,因此它越來越受到關(guān)注。[0073]同時從數(shù)據(jù)庫中讀取歷史有監(jiān)督數(shù)據(jù),以80%人工標(biāo)注有監(jiān)督訓(xùn)練數(shù)據(jù)和20%在線SFT數(shù)據(jù)開始在線SFT訓(xùn)練。[0074]作為本申請的一可選實施方案,可選地,在利用RLHF對所述微調(diào)模型進行強化訓(xùn)練時,包括:獲取獎勵模型訓(xùn)練數(shù)據(jù);基于所述獎勵模型訓(xùn)練數(shù)據(jù)對獎勵模型進行訓(xùn)練,更新所述獎勵模型;利用所述獎勵模型對所述模型回復(fù)結(jié)果打分,強化訓(xùn)練所述微調(diào)模型。[0075]作為本申請的一可選實施方案,可選地,所述獎勵模型訓(xùn)練數(shù)據(jù)基于所述用戶輸入數(shù)據(jù),以及所述模型回復(fù)結(jié)果中的chosen回復(fù)和rejected回復(fù)組建得到。[0076]作為本申請的一可選實施方案,可選地,在獲取獎勵模型訓(xùn)練數(shù)據(jù)后,還包括:對所述微調(diào)模型進行文本分布約束,提高所述獎勵模型的打分結(jié)果。[0077]需要說明的是,在線符合人類偏好的強化訓(xùn)練過程中,同步更新獎勵模型,利用獎勵模型打分和文本分布約束打分進行PPO強化學(xué)習(xí),進一步的提高微調(diào)模型的整體性能。[0078]下面將對在線RLHF數(shù)據(jù)采樣以及獎勵模型更新機制進行詳細說明。[0079]首先從存在糾正情況的對話中組件獎勵模型訓(xùn)練數(shù)據(jù)。[0083]"chosen”:“LLM(大語言模型)是一種人工智能模型,它通過訓(xùn)練大量文本數(shù)據(jù),可以生成人類語言輸出。它可以用于各種自然語言處理任務(wù),如文本生成、問答、語言翻譯等。由于其能量生成高質(zhì)量的文本和應(yīng)用它可能會改變多個行業(yè),如客服、營銷和內(nèi)容創(chuàng)作等,因此它越來越受到關(guān)注?!?[0084]"rejected”:“LLM是MasterofLaws,即法學(xué)碩士學(xué)位。這是一年制的課程,主要針對已經(jīng)完成法學(xué)學(xué)位的學(xué)生,如JD或LLB.LLM課程允許學(xué)生在具體的法律領(lǐng)域中專注,如企業(yè)法、知識產(chǎn)權(quán)法、國際法等。LLM課程由全球許多法學(xué)院提供,備受法學(xué)界肯定和推崇。完成LLM課程后,學(xué)生可以加深了自己的知識和技能,并在法律領(lǐng)域中取得更大的優(yōu)勢。綜9上所述,LLM是法學(xué)碩士學(xué)位,主要針對已經(jīng)完成法學(xué)學(xué)位的學(xué)生,提供了具有專業(yè)性的法律學(xué)習(xí)機會?!盵0086]同時,采樣部分無糾正語義數(shù)據(jù),隨機選擇batch內(nèi)其他有或者無糾正語義的模型回復(fù)作為rejected回復(fù),組合成獎勵模型訓(xùn)練數(shù)據(jù)。的防御工事,也是世界上最大的防御工事之一。您可以在長城周圍旅游,感受歷史文化和自然風(fēng)光。故宮:故宮是中國古代皇宮,也是中國歷史上最重要的建筑之一。您可以在故宮旅游,了解中國古代文化和歷史。希望這些推薦能為您提供一些有趣的活動和享受的時光!”,[0091]"rejected”:"LLM(大語言模型)是一種人工智能模型,它通過訓(xùn)練大量文本數(shù)據(jù),可以生成人類語言輸出。它可以用于各種自然語言處理任務(wù),如文本生成、問答、語言翻譯等。由于其能量生成高質(zhì)量的文本和應(yīng)用它可能會改變多個行業(yè),如客服、營銷和內(nèi)容創(chuàng)作[0093]其次,一般的獎勵模型訓(xùn)練需要人工對同一指令的多個不同回答進行排序或者打分。本申請針對在線推理存在糾正的情況下,能夠?qū)⒍嗉壌蚍謾C制弱化成二元打分機制(回序優(yōu)先于rejected。[0094]需要說明的是,獎勵模型大小相對較小(百兆級別),因此對其全量訓(xùn)練,訓(xùn)練數(shù)據(jù)是在線訓(xùn)練數(shù)據(jù)混合4倍數(shù)量隨機采樣的標(biāo)注數(shù)據(jù),訓(xùn)練目標(biāo)是最大化chosen回復(fù)和rejected回復(fù)的差值,如下loss函數(shù):勵模型打分分數(shù)。[0097]作為本申請的一可選實施方案,可選地,還包括:利用旁路模型更新所述微調(diào)模型的參數(shù)。[0098]本實施例中,對微調(diào)模型參數(shù)的調(diào)整,借鑒梯度提升樹(GradientBoostingDecisionTree,GBDT),采用疊加多個旁路模型的方式修正原始模型與預(yù)期向量的偏差,在原微調(diào)模型的基礎(chǔ)上增加在線訓(xùn)練產(chǎn)生的旁路模型調(diào)整,從而提高整體性能,也即不全量更新原始模型,而是在原始模型旁邊增加一個3層旁路模型。如圖6所示,旁路模型旁路層1輸入維度和輸出維度為原始模型維度的1/16,中間增加一個維度為原始模型維度1/64的縮放層/信息融合層,增強模型非線性能力。輸入X向量分別輸入原始模型和旁路模型后,輸出時將原始模型和更新后的旁路模型參數(shù)疊加后進行歸一化得到最終輸出向量。輸出向量經(jīng)過例如softmax分類器,得到結(jié)果向量。一次在線訓(xùn)練過程中,假設(shè)數(shù)[0099]原始模型輸出為[0.1,0.2,0.3,0.2,0.2],[0100]旁路模型1輸出為[0.2,0.1,0.3,0.1,0.0],[0101]疊加向量為[0.3,0.3,0.6,0.3,0.2],[0102]歸一化后的輸出向量為[-0.29,-0.29,1.92,-0.29,-1.03],[0103]使用softmax分類器得到結(jié)果向量[0.08,0.08,0.72,0.08,0.04]。[0104]根據(jù)結(jié)果向量和期望結(jié)果向量計算得到的在線訓(xùn)練loss反向傳播至當(dāng)前旁路模型,確保在線更新參數(shù)和原始模型參數(shù)可區(qū)分,可以通過選擇是否疊加某個旁路模型,方便地回滾模型版本。[0105]接上個示例:[0106]期望結(jié)果向量為[1,0,0,0,0],[0107]計算得到差值[0.921,-0.079,-0.724,-0.079,-0.038][0108]據(jù)此差值,僅調(diào)整旁路模型參數(shù),使得旁路模型輸出改變?yōu)閇0110]原始模型輸出結(jié)果不變的情況下,重復(fù)上述前向計算步驟,最終結(jié)果向量計算得到[0.39,0.10,0.39,0.10,0.03],差值縮小為[0.61,-0.10,-0.39,[0111]-0.10,-0.03],比調(diào)整前更趨近于目標(biāo)結(jié)果[1,0,0,0,0][0112]再一次在線訓(xùn)練過程中,繼續(xù)添加第二個旁路模型2,旁路模型2輸出為[0.2,0,-[0.28,-0.09,-0.05,-0.09,-0.05]便十分接近目標(biāo)結(jié)果[1,0,0,0,0]。[0113]該方法由于沒有改變原始模型的輸出,調(diào)整僅發(fā)生在小體量的旁路模型上,由于在線訓(xùn)練時的樣本數(shù)遠小于訓(xùn)練時的數(shù)量,因此只需要少量參數(shù)進行擬合,同時減少訓(xùn)練參數(shù)量,加快模型在線訓(xùn)練速度。也即,該方法的主要目的是減少訓(xùn)練參數(shù)量,將原本需要訓(xùn)練如70億甚至1760億以上的完整原始模型減少為只需要調(diào)整參數(shù)量在億甚至千萬級的[0114]綜上所述,本申請在前期訓(xùn)練一個可以部署對話任務(wù)的微調(diào)模型后,接收用戶輸入指令和文本,完成多輪對話,并在微調(diào)模型判斷存在糾正情況時,將存在糾正情況的對話送入中間件暫存。也即利用中間件對前向推理階段的過程向量、用戶結(jié)果反饋等信息進行保存,從而重復(fù)使用。在中間件保存數(shù)據(jù)達到預(yù)設(shè)數(shù)量時,混合一定量有監(jiān)督訓(xùn)練數(shù)據(jù),分別組合成在線監(jiān)督訓(xùn)練數(shù)據(jù)和在線符合人類偏好的強化模型訓(xùn)練數(shù)據(jù)。其中,在線符合人類偏好的強化訓(xùn)練過程中,同步更新獎勵模型,利用獎勵模型打分和文本分布約束打分進行PPO強化學(xué)習(xí)。不僅如此,本申請對于模型參數(shù)的微調(diào),采用增加在線訓(xùn)練旁路模型的方式,在線訓(xùn)練時的樣本數(shù)遠小于訓(xùn)練時的數(shù)量,故而只需要少量參數(shù)進行擬合,即可實現(xiàn)更[0115]本領(lǐng)域技術(shù)人員可以理解,實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成的,程序可存儲于一計算機可讀取存儲介質(zhì)中,該StateDrive,SSD)等;存儲介質(zhì)還可以包括上述種類的存儲器的組合。[0116]實施例211[0117]進一步地,基于實施例1的實施原理,本申請第二方面提供一種系統(tǒng),用于實現(xiàn)上述任一項所述的大模型在線推理與訓(xùn)練一體化方法,由于本公開實施例的裝置工作原理與本公開實施例的大模型在線推理與訓(xùn)練一體化方法的原理相同或相似,因此重復(fù)之處不再贅述。本申請公開實施例的裝置包括:[0118]數(shù)據(jù)獲取模塊,被配置為接收用戶輸入數(shù)據(jù)并輸入微調(diào)模型,得到模型回復(fù)結(jié)果;[0119]數(shù)據(jù)判斷模塊,被配置為判斷所述模型回復(fù)結(jié)果是否存在糾正情況;[0120]數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年商品房買賣繼承合同協(xié)議
- 腦出血患者全周期護理流程與管理實踐指南
- 成人有創(chuàng)機械通氣氣道內(nèi)吸引臨床操作規(guī)范與并發(fā)癥預(yù)防指南
- 2026年教育銷售合同
- 2026年兒童繪本出版分成合同協(xié)議
- 2026年會議投影儀租賃合同
- 2026年溫室大棚租賃合同協(xié)議
- 2026年陽臺防水材料供應(yīng)合同協(xié)議
- 2026年農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)服務(wù)合同協(xié)議
- 2026年技術(shù)支持崗位合同
- 2025年全國注冊監(jiān)理工程師繼續(xù)教育題庫附答案
- 鍋爐原理培訓(xùn)課件
- 重慶市高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)消防救援支隊政府專職消防員招錄(聘)114人參考題庫附答案
- 2026年林學(xué)概論選擇試題及答案
- 2026年安全員之A證考試題庫500道附參考答案(黃金題型)
- 兒童早教中心接待服務(wù)流程
- 腫瘤課件模板
- 云計算環(huán)境下中小企業(yè)會計信息化建設(shè)問題
- 《材料性能學(xué)》課件-第四章 材料的斷裂韌性
- 超市服務(wù)培訓(xùn)課程課件
- 公務(wù)出行社會汽車租賃管理規(guī)范
評論
0/150
提交評論