2025AI大模型浪潮下的行業(yè)應(yīng)用新模式和關(guān)鍵實(shí)現(xiàn)_第1頁(yè)
2025AI大模型浪潮下的行業(yè)應(yīng)用新模式和關(guān)鍵實(shí)現(xiàn)_第2頁(yè)
2025AI大模型浪潮下的行業(yè)應(yīng)用新模式和關(guān)鍵實(shí)現(xiàn)_第3頁(yè)
2025AI大模型浪潮下的行業(yè)應(yīng)用新模式和關(guān)鍵實(shí)現(xiàn)_第4頁(yè)
2025AI大模型浪潮下的行業(yè)應(yīng)用新模式和關(guān)鍵實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI大模型浪潮下的新型行業(yè)應(yīng)用系統(tǒng)模式和關(guān)鍵實(shí)現(xiàn)路徑202501020304目錄AI大模型浪潮推動(dòng)企業(yè)IT系統(tǒng)架構(gòu)變革以AI大模型為核心的應(yīng)用系統(tǒng)關(guān)鍵實(shí)現(xiàn)路徑構(gòu)建IndustryInstruction行業(yè)指令數(shù)據(jù)集MindForge自動(dòng)化行業(yè)指令數(shù)據(jù)生產(chǎn)技術(shù)介紹總結(jié)05AI大模型浪潮推動(dòng)企業(yè)IT系統(tǒng)架構(gòu)變革AI大模型浪潮推動(dòng)企業(yè)IT系統(tǒng)架構(gòu)變革以大模型為核心以數(shù)據(jù)為核心以服務(wù)為核心以流程為核心20世紀(jì)80-90年代(計(jì)算機(jī)企業(yè)應(yīng)用興起)2000至今(互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)系統(tǒng)興起)2010年至今(云計(jì)算和大數(shù)據(jù)系統(tǒng)興起)2023年至今(人工智能2.0時(shí)代開(kāi)啟,通往AGI)強(qiáng)調(diào)數(shù)據(jù)作為最重要的資產(chǎn),系統(tǒng)圍繞數(shù)據(jù)采集、存儲(chǔ)、處理和分析展開(kāi)。數(shù)據(jù)從單純的支撐角色轉(zhuǎn)變?yōu)轵?qū)動(dòng)決策和創(chuàng)新的核心力量。系統(tǒng)設(shè)計(jì)圍繞“可復(fù)用的服務(wù)”展開(kāi),通

過(guò)服務(wù)化滿(mǎn)足多個(gè)應(yīng)用和業(yè)務(wù)場(chǎng)景需求。從單體架構(gòu)逐步演進(jìn)到分布式架構(gòu),再到微服務(wù)架構(gòu)。強(qiáng)調(diào)系統(tǒng)內(nèi)的業(yè)務(wù)流程優(yōu)化,以支持復(fù)雜企業(yè)流程為目標(biāo)。系統(tǒng)設(shè)計(jì)圍繞流程自動(dòng)化,從訂單處理到客戶(hù)管理的工作流全部打通。系統(tǒng)進(jìn)一步整合數(shù)據(jù)、模型和任務(wù),形成圍繞大模型的智能業(yè)務(wù)生態(tài)。具有強(qiáng)大的任務(wù)泛化能力,能夠通過(guò)統(tǒng)

一模型支持多模態(tài)、多任務(wù)的靈活處理,并實(shí)現(xiàn)實(shí)時(shí)學(xué)習(xí)與適應(yīng),提供高效智能化服務(wù)。智能系統(tǒng)不再僅僅是工具,而是能主動(dòng)學(xué)習(xí)、適應(yīng)和協(xié)作的智能體。ChatGPT問(wèn)世人類(lèi)進(jìn)入大模型時(shí)代5向以AI大模型為核心的應(yīng)用系統(tǒng)架構(gòu)演進(jìn)企業(yè)/機(jī)構(gòu)IT系統(tǒng)(執(zhí)行服務(wù)功能)瀏覽/發(fā)現(xiàn)選擇請(qǐng)求設(shè)定任務(wù)目標(biāo)規(guī)劃流程分析過(guò)程信息確定執(zhí)行路徑獲得任務(wù)結(jié)果實(shí)現(xiàn)服務(wù)功能用戶(hù)應(yīng)用開(kāi)發(fā)者企業(yè)/機(jī)構(gòu)IT系統(tǒng)(執(zhí)行服務(wù)功能)瀏覽/發(fā)現(xiàn)選擇請(qǐng)求設(shè)定任務(wù)目標(biāo)獲得任務(wù)結(jié)果實(shí)現(xiàn)服務(wù)功能用戶(hù)多智能體助手實(shí)現(xiàn)智能體應(yīng)用作為助手代理用戶(hù)業(yè)務(wù)規(guī)劃流程分析確定路徑完成專(zhuān)業(yè)認(rèn)知型任務(wù)智能驅(qū)動(dòng)非認(rèn)知任務(wù)非認(rèn)知類(lèi)服務(wù)和功

能(如企業(yè)流程、結(jié)構(gòu)化數(shù)據(jù)存取等)訓(xùn)練行業(yè)應(yīng)用大模型交辦工作任務(wù)傳統(tǒng)應(yīng)用系統(tǒng)服務(wù)模式(客戶(hù)端-服務(wù)器架構(gòu))算法工程師 應(yīng)用開(kāi)發(fā)者以大模型為核心的應(yīng)用系統(tǒng)服務(wù)模式(多智能體架構(gòu))6以AI大模型為核心的應(yīng)用系統(tǒng)關(guān)鍵實(shí)現(xiàn)路徑以AI大模型為核心的應(yīng)用系統(tǒng)關(guān)鍵實(shí)現(xiàn)路徑(1/4)需求分析和方案設(shè)計(jì)模型訓(xùn)練智能體應(yīng)用系統(tǒng)開(kāi)發(fā)數(shù)據(jù)工程應(yīng)用集成部署8以AI大模型為核心的應(yīng)用系統(tǒng)關(guān)鍵實(shí)現(xiàn)路徑(2/4)9以AI大模型為核心的應(yīng)用系統(tǒng)關(guān)鍵實(shí)現(xiàn)路徑(3/4)10以AI大模型為核心的應(yīng)用系統(tǒng)關(guān)鍵實(shí)現(xiàn)路徑(4/4)11定義模型能力,以模型能力需求出發(fā)訓(xùn)練模型通用語(yǔ)言能力基礎(chǔ)語(yǔ)言能力信息

信息

信息分析

提取

概括跨語(yǔ)言理

...解高級(jí)語(yǔ)言能力學(xué)科

語(yǔ)境問(wèn)答

理解...安全與價(jià)值觀安全臟話違法身體隱私敏感辱罵犯罪傷害財(cái)產(chǎn)話題...價(jià)值觀歧視文明倫理偏見(jiàn)禮貌道德...醫(yī)療業(yè)務(wù)能力醫(yī)療問(wèn)診能力單輪 多輪 專(zhuān)科對(duì)話 對(duì)話 解答檢驗(yàn)檢查解讀...導(dǎo)診能力病情 科室 院內(nèi)理解 推薦 導(dǎo)航...行業(yè)大模型能力評(píng)估體系–典型能力框架(以醫(yī)療為例)12從模型能力需求出發(fā)選擇基座模型從模型能力需求出發(fā)構(gòu)建模型訓(xùn)練數(shù)據(jù)集從模型能力需求出發(fā)指導(dǎo)模型訓(xùn)練數(shù)據(jù)是大模型行業(yè)應(yīng)用成功的關(guān)鍵大模型行業(yè)應(yīng)用涉及的五個(gè)方面,數(shù)據(jù)工程最重要!大部分行業(yè)的數(shù)據(jù)很豐富,但數(shù)據(jù)形態(tài)難以滿(mǎn)足大模型行業(yè)應(yīng)用開(kāi)發(fā)要求:結(jié)構(gòu)化數(shù)據(jù):不能直接用于模型訓(xùn)練或RAG向量庫(kù)構(gòu)建;非結(jié)構(gòu)化數(shù)據(jù):需要使用復(fù)雜的數(shù)據(jù)轉(zhuǎn)換工具,成本高昂;數(shù)據(jù)的數(shù)量和質(zhì)量決定了模型的性能:模型性能不達(dá)標(biāo),表面原因模型沒(méi)有學(xué)會(huì),深層次的原因是缺乏某類(lèi)訓(xùn)練數(shù)據(jù)或此類(lèi)數(shù)據(jù)質(zhì)量不高;需要重點(diǎn)從數(shù)據(jù)層面入手解決大模型行業(yè)落地的技術(shù)瓶頸;2024年研究院一直在致力于制約解決行業(yè)應(yīng)用落地最后一公里的數(shù)據(jù)問(wèn)題:行業(yè)CPT預(yù)訓(xùn)練數(shù)據(jù)集:IndustryCorpus1.0和IndustryCorpus2.0行業(yè)指令數(shù)據(jù)集:IndustryInstruction1.0構(gòu)建Industry

Instruction行業(yè)指令數(shù)據(jù)集為什么要構(gòu)建行業(yè)指令數(shù)據(jù)15智源研究院9月底發(fā)布了《行業(yè)數(shù)據(jù)全景掃描》顯示:當(dāng)前行業(yè)數(shù)據(jù)總體存在著以下問(wèn)題數(shù)據(jù)缺失:部分行業(yè)缺乏指令數(shù)據(jù)質(zhì)量參差不齊:數(shù)據(jù)雜亂,質(zhì)量不均,或者缺乏數(shù)據(jù)質(zhì)量的評(píng)估標(biāo)準(zhǔn)維度單一:缺乏多維數(shù)據(jù)支持(例如旅游行業(yè),只有個(gè)別旅游攻略相關(guān)數(shù)據(jù),無(wú)法支持行業(yè)訓(xùn)練)語(yǔ)言缺失:缺少中英文語(yǔ)種數(shù)據(jù)(行業(yè)中普遍存在著單語(yǔ)種問(wèn)題)從行業(yè)的角度來(lái)看:指令數(shù)據(jù)缺失的行業(yè):專(zhuān)業(yè)性強(qiáng)或非技術(shù)領(lǐng)域,數(shù)據(jù)匱乏且單一,例如:航空航天、交通、科技、旅游、住宿餐飲;指令數(shù)據(jù)豐富的行業(yè):貼近大模型應(yīng)用場(chǎng)景,研究熱度高,數(shù)據(jù)充足但質(zhì)量不均,例如:法律、金融、醫(yī)療等Industry

Corpus行業(yè)高質(zhì)量預(yù)訓(xùn)練語(yǔ)料蘊(yùn)含著豐富的高價(jià)值領(lǐng)域知識(shí),進(jìn)一步挖掘行業(yè)數(shù)據(jù)的潛力將帶來(lái)更大的潛力;IndustryInstruction數(shù)據(jù)基本情況行業(yè)開(kāi)源指令數(shù)據(jù)指令數(shù)據(jù)訓(xùn)練集樣本量汽車(chē)110k127207航空航天4k120470人工智能0111113交通運(yùn)輸58k126828科技與研究60k131000旅游與地理0137854住宿與餐飲2.6M116893法律與司法440k121212金融與經(jīng)濟(jì)200k122590文學(xué)與情感80k130683醫(yī)學(xué)醫(yī)藥30M348515教育與數(shù)學(xué)15M3575481951913多行業(yè):一期覆蓋12個(gè)行業(yè)(熱門(mén)行業(yè)與空白行業(yè))多語(yǔ)種:指令數(shù)據(jù)包含中英文,彌補(bǔ)雙語(yǔ)不足多行業(yè)多語(yǔ)種覆蓋01一期總量約200w,單行業(yè)最少10w,滿(mǎn)足行業(yè)訓(xùn)練需求數(shù)據(jù)量充足02數(shù)據(jù)質(zhì)量高:合成:多種方案提升數(shù)據(jù)質(zhì)量與多樣性質(zhì)檢:Deita與RW及事實(shí)性核驗(yàn)確保數(shù)據(jù)質(zhì)量格式豐富:Subjective:openQA,closeqa;Objective16數(shù)據(jù)質(zhì)量高&&數(shù)據(jù)格式豐富03IndustryInstruction數(shù)據(jù)合成方案使用行業(yè)名稱(chēng)和高質(zhì)量預(yù)訓(xùn)練語(yǔ)料作為種子,使用事實(shí)性,指令復(fù)雜性,回復(fù)質(zhì)量,回復(fù)偏好等方案進(jìn)行數(shù)據(jù)篩選種子來(lái)源<行業(yè)名稱(chēng)>IndustryCorpus2高質(zhì)量<行業(yè)預(yù)訓(xùn)練語(yǔ)料>數(shù)據(jù)構(gòu)建方案Preprocess

and

generation<預(yù)訓(xùn)練語(yǔ)料>合成指令數(shù)據(jù);<行業(yè)名稱(chēng)>合成指令數(shù)據(jù);指令數(shù)據(jù)魯棒性提升,主客觀改寫(xiě)數(shù)據(jù)去除離群點(diǎn)Query語(yǔ)義特征聚類(lèi)后簇內(nèi)去除離群點(diǎn)數(shù)據(jù)過(guò)濾篩選FilteringDeita:指令復(fù)雜性和回復(fù)質(zhì)量RW

model(ArmoRM):回復(fù)偏好性,評(píng)估回復(fù)質(zhì)量事實(shí)性核驗(yàn):評(píng)估closeqa數(shù)據(jù)的回復(fù)事實(shí)性17從行業(yè)預(yù)訓(xùn)練語(yǔ)料合成指令數(shù)據(jù)使用IndustryCorpus2高質(zhì)量行業(yè)數(shù)據(jù)作為種子,挖掘數(shù)據(jù)中高價(jià)值行業(yè)知識(shí),合成CloseQA指令數(shù)據(jù)<預(yù)訓(xùn)練語(yǔ)料>生成指令數(shù)據(jù)方案Stage1:生成語(yǔ)料中可能包含的問(wèn)題輸入:<行業(yè)類(lèi)目>+<預(yù)訓(xùn)練語(yǔ)料>邏輯:判斷<預(yù)訓(xùn)練語(yǔ)料>是否與<行業(yè)類(lèi)目>是否匹配。若匹配,則生成指定數(shù)量問(wèn)題;若不匹配,丟棄該數(shù)據(jù)輸出:<問(wèn)題列表>Stage2:根據(jù)<問(wèn)題列表>和<預(yù)訓(xùn)練語(yǔ)料>生成指令數(shù)據(jù)輸入:<預(yù)訓(xùn)練語(yǔ)料>+<問(wèn)題列表>邏輯:根據(jù)提供的<預(yù)訓(xùn)練語(yǔ)料>對(duì)<問(wèn)題列表>生成回復(fù)輸出:指令數(shù)據(jù)生成模型:EN(llama3.1-70B-Instruct),

ZH(Qwen2-72b-chat)18行業(yè)類(lèi)目合成指令數(shù)據(jù)以<行業(yè)類(lèi)目>作為種子,生成<行業(yè)子主題>和<人物描述>,使用LLM合成行業(yè)指令數(shù)據(jù)<行業(yè)類(lèi)目>合成指令數(shù)據(jù)<行業(yè)類(lèi)目>作為種子生成<行業(yè)子主題>和<人物描述><行業(yè)子主題>生成指定數(shù)量<問(wèn)題列表><人物描述>與<行業(yè)類(lèi)目>或<行業(yè)子主題>生成<問(wèn)題列表><問(wèn)題列表>使用生成模型合成行業(yè)指令數(shù)據(jù)topicsubtopicpersona交通運(yùn)輸交通運(yùn)輸?shù)募夹g(shù)創(chuàng)新一個(gè)公共交通用戶(hù),通過(guò)乘坐公交車(chē)和地鐵來(lái)通勤和旅行。不同交通方式的優(yōu)缺點(diǎn)一名地鐵站的工作人員,負(fù)責(zé)監(jiān)督站點(diǎn)運(yùn)行并提供乘客信息和幫助。新能源交通工具的發(fā)展一個(gè)出租車(chē)司機(jī),開(kāi)車(chē)在城市里接送乘客。instruction-topicinstruction-topic-persona請(qǐng)介紹一下最新的交通運(yùn)輸?shù)募夹g(shù)創(chuàng)新。公交車(chē)和地鐵的票價(jià)是多少?飛機(jī)作為交通方式有什么缺點(diǎn)?未來(lái)智能交通系統(tǒng)會(huì)如何改善地鐵站的運(yùn)行效率?新能源交通工具的主要種類(lèi)是什么?如何優(yōu)化出租車(chē)服務(wù),提高乘客的出行體驗(yàn)?instruction-topic-persona進(jìn)一步提升行業(yè)合成問(wèn)題的多樣性19去除遠(yuǎn)離主題的指令數(shù)據(jù)對(duì)query抽取特征,使用簇內(nèi)遠(yuǎn)離主題的數(shù)據(jù)(質(zhì)量有問(wèn)題)指令數(shù)據(jù)去重基于query的完全匹配去重和Minihash去重提取query的embedding,聚類(lèi)并計(jì)算樣本距離簇中心的cosine距離,刪除cos_distance>0.3的數(shù)據(jù)數(shù)據(jù)聚類(lèi)可視化:部分簇邊界清晰,部分簇相互交織20數(shù)據(jù)篩選Filter根據(jù)指令數(shù)據(jù)類(lèi)型選擇不同的數(shù)據(jù)篩選方案,全面提升指令數(shù)據(jù)質(zhì)量,多樣性。多種數(shù)據(jù)篩選方案,針對(duì)不同數(shù)據(jù)類(lèi)型,選擇不同方案OpenQA基于Deita的指令復(fù)雜性和回復(fù)質(zhì)量篩選基于RW模型回復(fù)偏好性數(shù)據(jù)進(jìn)行篩選CloseQA基于事實(shí)性核驗(yàn)的數(shù)據(jù)篩選多輪QA基于多輪相關(guān)性的數(shù)據(jù)篩選21數(shù)據(jù)篩選Filter對(duì)合成的單輪對(duì)話數(shù)據(jù)使用基于Deita和RW的方案進(jìn)行評(píng)估Deita指令復(fù)雜性得分:C回復(fù)質(zhì)量得分:QQA數(shù)據(jù)的整體質(zhì)量得分:S=C*Q篩選數(shù)據(jù)原則:Q復(fù)雜具體&&

A詳細(xì)準(zhǔn)確RW評(píng)估Response對(duì)Query的Helpful,harness,truthful,complexity等維度篩選數(shù)據(jù)原則:RW得分高的數(shù)據(jù)22數(shù)據(jù)篩選Filter多輪對(duì)話獨(dú)創(chuàng)性的基于自回歸損失的多輪次相關(guān)性進(jìn)行評(píng)估單輪QA的Loss計(jì)算方式(預(yù)訓(xùn)練的自回歸loss)CF>1:多輪QA之間相關(guān)性低CF<<1:多輪QA之間重復(fù)度過(guò)高

篩選數(shù)據(jù)原則:多輪相關(guān)且不重復(fù),選擇

CF小于1且大于0.5的數(shù)據(jù)23IndustryInstruction數(shù)據(jù)可視化對(duì)合成數(shù)據(jù)使用詞云統(tǒng)計(jì),質(zhì)量分?jǐn)?shù)分布分語(yǔ)種質(zhì)量分布概率累計(jì)圖分語(yǔ)種篩選deita和rw得分均較低的數(shù)據(jù)24MindForge自動(dòng)化行業(yè)指令數(shù)據(jù)生產(chǎn)技術(shù)介紹MindForge基于多智能體的行業(yè)SFT指令數(shù)據(jù)自動(dòng)化技術(shù)MindForge行業(yè)指令數(shù)據(jù)自動(dòng)化生產(chǎn)技術(shù)的主要步驟:數(shù)據(jù)自動(dòng)化合成、數(shù)據(jù)篩選、數(shù)據(jù)清洗;給定行業(yè)方向和字領(lǐng)域提示,由智能體群體協(xié)作完成SFT指令數(shù)據(jù)集的大批量自動(dòng)化生產(chǎn),極大減輕企業(yè)SFT數(shù)據(jù)制作的工作壓力。26MindForge基于多智能體的行業(yè)SFT指令數(shù)據(jù)自動(dòng)化技術(shù)27使用MindForge

智能體協(xié)作新方法與之前直接提示模型生成的方法相比單輪合成數(shù)據(jù)的訓(xùn)練性能:Llama-3.2-1B

上表現(xiàn)得最為明顯,勝率分別達(dá)到70.5%和62.8%(中文和英文)。Llama-3.1-8B

上的最高輸率僅為22.1%。多輪合成數(shù)據(jù)的訓(xùn)練性能:MindForge方法勝率最高達(dá)到98.0%,最低輸率僅為10%?;旌隙喾N來(lái)源生產(chǎn)行業(yè)指令數(shù)據(jù)28來(lái)自能力較強(qiáng)的教師模型:難點(diǎn)是Query生成,且Response生成質(zhì)量無(wú)法超過(guò)教師模型;已有的開(kāi)源SFT指令數(shù)據(jù)集:質(zhì)量參差不齊,需要采取技術(shù)手段針對(duì)業(yè)務(wù)需求進(jìn)行精細(xì)篩選;基于預(yù)訓(xùn)練行業(yè)數(shù)據(jù)生成:Response專(zhuān)業(yè)性和質(zhì)量有保證,整體質(zhì)量取決于構(gòu)造Query的質(zhì)量;基于企業(yè)業(yè)務(wù)數(shù)據(jù)生成:同基于預(yù)訓(xùn)練行業(yè)數(shù)據(jù)生產(chǎn),但專(zhuān)業(yè)質(zhì)量更高;使用互聯(lián)網(wǎng)搜索引擎數(shù)據(jù)生產(chǎn):可補(bǔ)充其他數(shù)據(jù)的缺失,提升數(shù)據(jù)實(shí)效性,但速度慢,且數(shù)據(jù)需要嚴(yán)格質(zhì)量過(guò)濾。行業(yè)指令數(shù)據(jù)的生產(chǎn),最好混合使用上述來(lái)源,可在各種來(lái)源的優(yōu)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論