2025年知識(shí)圖譜與大模型融合實(shí)踐案例集-中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院_第1頁(yè)
2025年知識(shí)圖譜與大模型融合實(shí)踐案例集-中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院_第2頁(yè)
2025年知識(shí)圖譜與大模型融合實(shí)踐案例集-中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院_第3頁(yè)
2025年知識(shí)圖譜與大模型融合實(shí)踐案例集-中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院_第4頁(yè)
2025年知識(shí)圖譜與大模型融合實(shí)踐案例集-中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院_第5頁(yè)
已閱讀5頁(yè),還剩547頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

知識(shí)圖譜與大模型融合實(shí)踐案例集牽頭編制單位:中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院牽頭編制單位:中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院123456789火旦途普智能科技(北京)有限知識(shí)圖譜與大模型融合實(shí)踐綜述隨著人工智能的迅猛發(fā)展,知識(shí)圖譜與大模型作為兩大核心研究領(lǐng)域,各自彰顯出獨(dú)特的技術(shù)優(yōu)勢(shì)。知識(shí)圖譜以結(jié)構(gòu)化方式精準(zhǔn)刻畫(huà)實(shí)體關(guān)聯(lián),為知識(shí)表示與推理提供了可解釋的框架;大模型則憑借海量數(shù)據(jù)訓(xùn)練然而,知識(shí)圖譜與大模型兩者在實(shí)際應(yīng)用中仍面臨多重挑戰(zhàn)。知識(shí)圖譜雖然具有較好的可解釋性,但其輸出僅局限于知識(shí)圖自身缺乏自主生成和學(xué)習(xí)能力,因此知識(shí)通用性和完備性不足。大模型在處理特定領(lǐng)域知識(shí)類問(wèn)題時(shí)易產(chǎn)生“幻覺(jué)”問(wèn)題,導(dǎo)致大模型“胡說(shuō)八道”;其次,每次更新,大模型都需要經(jīng)過(guò)長(zhǎng)期的語(yǔ)料訓(xùn)練,訓(xùn)練周期冗長(zhǎng)、資源消耗巨大,致使大模型難以快速響應(yīng)動(dòng)態(tài)業(yè)務(wù)需求;最后,大模因此,為了突破上述難題,知識(shí)圖譜與大模型融合應(yīng)運(yùn)而生。從技術(shù)互補(bǔ)角度出發(fā),一方面知識(shí)圖譜可以作為大模型的外部知識(shí)庫(kù),為大模型提供結(jié)構(gòu)化知識(shí),不僅有效減緩大模型“幻覺(jué)”現(xiàn)象,而且能減少大模型對(duì)海量標(biāo)注數(shù)據(jù)的依賴,從而降低大模型的訓(xùn)練所需的算力和時(shí)間。同時(shí),知識(shí)圖譜的數(shù)據(jù)加密與保護(hù)能力,可與大模型的數(shù)據(jù)調(diào)用能力形成協(xié)同,強(qiáng)化隱私安全保障。另一方面,大模型所涵蓋的海量知識(shí)及其對(duì)新數(shù)據(jù)的理解能力,能夠幫助知識(shí)圖譜進(jìn)行知識(shí)補(bǔ)全與知識(shí)校驗(yàn),提高知識(shí)圖譜里知識(shí)的完備性與準(zhǔn)確性。同時(shí)大模型的生成能力,還能幫助知識(shí)圖譜實(shí)現(xiàn)多元化的知識(shí)輸出,進(jìn)一步提升人機(jī)交互水平。綜上所述,知識(shí)圖譜知識(shí)圖譜與大模型融合實(shí)踐案例集本節(jié)詳細(xì)闡述知識(shí)圖譜與大模型融合所涉及的參與方及其活動(dòng)。知識(shí)圖譜與大模型融合活動(dòng)參與方如圖1-1所示,主要由數(shù)據(jù)提供方、模型提數(shù)據(jù)提供方… 數(shù)據(jù)提供方… 推薦… 模型提供方模型提供方數(shù)據(jù)提供方根據(jù)模型提供方、知識(shí)圖譜提供方和圖譜模型融合方的具體數(shù)據(jù)需求,從數(shù)據(jù)來(lái)源、類型、規(guī)模、質(zhì)量、使用要求以及應(yīng)用場(chǎng)景等多個(gè)維度,為三方提供構(gòu)建知識(shí)圖譜與大模型所需的數(shù)據(jù)。數(shù)據(jù)提供方主要任務(wù)是確保交付高質(zhì)量、符合需求的數(shù)據(jù)資源,以支持圖譜模型融合方的工作。其核心活動(dòng)包括但不限于數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注以及知識(shí)圖譜與大模型融合實(shí)踐綜述性、時(shí)效性和可訪問(wèn)性。同時(shí),數(shù)據(jù)提供方持續(xù)優(yōu)化數(shù)據(jù)提供流程,提升服務(wù)質(zhì)量。數(shù)據(jù)提供方還需要根據(jù)應(yīng)用方在知識(shí)服務(wù)過(guò)程中產(chǎn)生的新數(shù)模型提供方根據(jù)圖譜模型融合方的具體模型需求,從模型類型、架構(gòu)、性能、適配場(chǎng)景、訓(xùn)練數(shù)據(jù)要求以及部署方式等多個(gè)維度,為圖譜模型融合方提供知識(shí)圖譜與大模型融合所需的基礎(chǔ)模型和工具等。模型提供方主要任務(wù)是確保交付高質(zhì)量、符合融合需求的模型資源,以支撐圖譜模型融合方的系統(tǒng)融合工作。其核心活動(dòng)包括但不限于數(shù)據(jù)處理、模型訓(xùn)練、模型評(píng)估、模型融合以及模型微調(diào),并確保模型的準(zhǔn)確性、可靠性、知識(shí)圖譜提供方與模型提供方類似,根據(jù)圖譜模型融合方的需求及反饋,為圖譜模型融合方開(kāi)發(fā)和提供基礎(chǔ)知識(shí)圖譜、本體模型和工具,并對(duì)其優(yōu)化和維護(hù)。知識(shí)圖譜提供方主要任務(wù)是面向各類型的知識(shí)圖譜與大模型融合任務(wù)提供知識(shí)圖譜及相關(guān)工具支撐,確保交付高質(zhì)量、符合融合需求的圖譜資源。其核心活動(dòng)包括但不限于本體構(gòu)建、數(shù)據(jù)處理、知識(shí)標(biāo)注、知識(shí)抽取、知識(shí)融合、知識(shí)編輯、知識(shí)計(jì)算等知識(shí)圖譜構(gòu)建與應(yīng)用服圖譜模型融合方根據(jù)應(yīng)用方的具體需求和任務(wù)類型,整合知識(shí)圖譜提供方與模型提供方的圖譜和模型資源,從系統(tǒng)架構(gòu)、接口適配、功能組成以及部署環(huán)境等多個(gè)維度,構(gòu)建融合化的知識(shí)服務(wù)平臺(tái)。圖譜模型融合方的主要任務(wù)是執(zhí)行融合過(guò)程,確保交付穩(wěn)定、高效、符合應(yīng)用需求的融合系統(tǒng)。其核心活動(dòng)主要有知識(shí)圖譜與大模型輸出協(xié)同、大模型增強(qiáng)知識(shí)圖-.譜和知識(shí)圖譜增強(qiáng)大模型,并確保融合系統(tǒng)的兼容性、穩(wěn)定性、高效性、可擴(kuò)展性和安全性。同時(shí),圖譜模型融合方將根據(jù)質(zhì)量評(píng)估結(jié)果及應(yīng)用方的使用反饋情況的系統(tǒng)使用效果與問(wèn)題,持續(xù)優(yōu)化融合系統(tǒng)與方案,提升應(yīng)用方負(fù)責(zé)將知識(shí)圖譜與大模型融合后形成的系統(tǒng)部署到實(shí)際業(yè)務(wù)場(chǎng)景中,開(kāi)發(fā)具體的功能模塊,并進(jìn)行持續(xù)的監(jiān)控和優(yōu)化。應(yīng)用方主要任務(wù)是業(yè)務(wù)實(shí)施過(guò)程中,明確核心需求和關(guān)鍵指標(biāo),將知識(shí)服務(wù)過(guò)程中產(chǎn)生的新數(shù)據(jù)、新需求及問(wèn)題反饋給數(shù)據(jù)提供方和圖譜模型融合方,推動(dòng)產(chǎn)業(yè)上本節(jié)詳細(xì)闡述圖譜模型融合方的三種融合活動(dòng),即知識(shí)圖譜與大模型輸出協(xié)同、大模型增強(qiáng)知識(shí)圖譜和知識(shí)圖譜增強(qiáng)大模型,及其之間的關(guān)系。知識(shí)圖譜與大模型融合技術(shù)框架圖1-2所示,該框架詳細(xì)呈現(xiàn)了圖譜模型融合方的融合流程,三種融合活動(dòng)各自的活動(dòng)構(gòu)成以及三種融合活動(dòng)(1)大模型增強(qiáng)知識(shí)圖譜:圖譜模型融合方以大模型為工具,對(duì)知識(shí)圖譜進(jìn)行構(gòu)建、更新與補(bǔ)全,提升知識(shí)圖譜自身質(zhì)量及其構(gòu)建效率。大模型增強(qiáng)知識(shí)圖譜的活動(dòng)構(gòu)成包括模型增強(qiáng)知識(shí)表示、模型增強(qiáng)知識(shí)建模、模型增強(qiáng)知識(shí)獲取、模型增強(qiáng)知識(shí)融合等。通過(guò)大模型增強(qiáng)知識(shí)圖譜,能夠?qū)崿F(xiàn)知識(shí)圖譜的動(dòng)態(tài)更新,使知識(shí)圖譜的結(jié)構(gòu)與內(nèi)容更加完整、(2)知識(shí)圖譜增強(qiáng)大模型:圖譜模型融合方以知識(shí)圖譜為工具,圍繞大模型的訓(xùn)練、微調(diào)、推理等過(guò)程,彌補(bǔ)大模型在知識(shí)準(zhǔn)確性、邏輯性和可解釋性上的不足,增強(qiáng)其應(yīng)用能力。知識(shí)圖譜增強(qiáng)大模型的活動(dòng)構(gòu)成包括知識(shí)圖譜增強(qiáng)模型的預(yù)訓(xùn)練、知識(shí)圖譜增強(qiáng)模型的對(duì)齊微調(diào)、知識(shí)圖知識(shí)圖譜與大模型融合實(shí)踐綜述數(shù)據(jù)治理服務(wù)數(shù)據(jù)治理服務(wù)應(yīng)用服務(wù)效果 ……………語(yǔ)義識(shí)別/語(yǔ)義識(shí)別/基礎(chǔ)數(shù)據(jù)處理服務(wù)知識(shí)獲取知識(shí)獲取待評(píng)估服務(wù)譜增強(qiáng)模型的評(píng)估、知識(shí)圖譜增強(qiáng)模型的推理等。通過(guò)知識(shí)圖譜增強(qiáng)大模型,為大模型的輸出結(jié)果提供可視化展示,增強(qiáng)了大模型輸出的可解釋性,并且大模型可以通過(guò)檢索知識(shí)圖譜來(lái)獲取準(zhǔn)確的知識(shí),從而減少“幻(3)知識(shí)圖譜與大模型輸出協(xié)同:圖譜模型融合方面向具體應(yīng)用場(chǎng)景,將知識(shí)圖譜的結(jié)構(gòu)化知識(shí)與大模型的生成能力相結(jié)合,實(shí)現(xiàn)更精準(zhǔn)、可靠且可解釋的輸出結(jié)果,以互補(bǔ)方式增強(qiáng)知識(shí)應(yīng)用的性能。具體活動(dòng)構(gòu)成有檢驗(yàn)與評(píng)估、語(yǔ)義識(shí)別/分解、混合知識(shí)檢索、協(xié)同推理、結(jié)果生成與溯源、知識(shí)統(tǒng)一表征和動(dòng)態(tài)編排與調(diào)度。通過(guò)輸出協(xié)同,知識(shí)圖譜為大模型提供了堅(jiān)實(shí)的知識(shí)基礎(chǔ),大模型則借助其語(yǔ)義理解和生成能力,讓知知識(shí)圖譜與大模型融合實(shí)踐案例集知識(shí)圖譜與大模型輸出協(xié)同、大模型增強(qiáng)知識(shí)圖譜、知識(shí)圖譜增強(qiáng)大模型三者之間環(huán)環(huán)相扣,知識(shí)圖譜與大模型輸出協(xié)同也可作為前兩者相互增強(qiáng)后的綜合體現(xiàn)和應(yīng)用成果。大模型增強(qiáng)知識(shí)圖譜,使得知識(shí)圖譜更完整和準(zhǔn)確,為兩者協(xié)同輸出提供了高質(zhì)量的知識(shí)基礎(chǔ);知識(shí)圖譜增強(qiáng)大模型,讓大模型在知識(shí)準(zhǔn)確性、邏輯性和可解釋性等性能方面更優(yōu),為輸出協(xié)同的輸出結(jié)果提供了可靠的生成能力。反過(guò)來(lái),兩者協(xié)同的結(jié)果又會(huì)作為大模型的輸出,進(jìn)一步強(qiáng)化、完善知識(shí)圖譜的結(jié)構(gòu)與內(nèi)容,從而形成螺旋上升式循環(huán)。知識(shí)圖譜與大模型通過(guò)相互增強(qiáng),為兩者的協(xié)同輸出奠定基礎(chǔ),而協(xié)同輸出又反哺兩者的相互增強(qiáng),共同推動(dòng)著知識(shí)服務(wù)向更精2018年,ISO30401:2018:《知識(shí)管理體系要求》由國(guó)際標(biāo)準(zhǔn)化組織產(chǎn),促進(jìn)有效的決策及行動(dòng)”,明確規(guī)定了在機(jī)構(gòu)內(nèi)促進(jìn)知識(shí)的發(fā)展、共享及有效使用所需的要求。2024年7月,ISO/IEC5392:2024《工智能知識(shí)工程參考架構(gòu)》在ISO和國(guó)際電工委員會(huì)(IEC)正式發(fā)布。該國(guó)際標(biāo)準(zhǔn)的正式發(fā)布填補(bǔ)了知識(shí)工程領(lǐng)域國(guó)際標(biāo)準(zhǔn)的空白,凝聚和統(tǒng)一了各利益相關(guān)方對(duì)知識(shí)工程的參考架構(gòu),對(duì)推動(dòng)我國(guó)知識(shí)工程相關(guān)基礎(chǔ)產(chǎn)品、技術(shù)方案在全球范圍內(nèi)的推廣,探索知識(shí)服務(wù)與應(yīng)用新模式,加速智慧醫(yī)療、智能制造、智慧金融、智慧交通、智慧教育等行業(yè)和企業(yè)知識(shí)要此外,電氣與電子工程師協(xié)會(huì)(IEEE)于2023年正式宣布成立IEEE知識(shí)圖譜與大模型融合實(shí)踐綜述研制、評(píng)審、發(fā)布、宣貫及相關(guān)應(yīng)用實(shí)踐過(guò)程。目前IEEE知識(shí)工程標(biāo)準(zhǔn)委員會(huì)已發(fā)布5項(xiàng)標(biāo)準(zhǔn),2項(xiàng)標(biāo)準(zhǔn)技術(shù)內(nèi)容已凍結(jié),10項(xiàng)標(biāo)準(zhǔn)在研,覆圖譜參考架構(gòu)、測(cè)試評(píng)估規(guī)范、金融和電力行業(yè)等行業(yè)領(lǐng)域的應(yīng)用指以及知識(shí)圖譜與大模型融合和智能助手等實(shí)際應(yīng)用的要求,形成了通用領(lǐng)域和細(xì)分領(lǐng)域標(biāo)準(zhǔn)協(xié)同推進(jìn)的研制路線。其中,IEEEP2807.13與P2807.14聚焦知識(shí)圖譜與大模型融合,擬提出統(tǒng)一和明確的框架,并給出圖檢索增強(qiáng)生成的技術(shù)要求。知識(shí)圖譜及知識(shí)工程相關(guān)標(biāo)準(zhǔn)詳細(xì)信息如表1-1所表1-1知識(shí)圖譜及知識(shí)工程相關(guān)標(biāo)準(zhǔn)序號(hào)標(biāo)準(zhǔn)號(hào)狀態(tài)1《知識(shí)管理體系要求》2《信息技術(shù)人工智能知識(shí)工程參考架構(gòu)》3IEEEStd2807-2022《知識(shí)圖譜架構(gòu)》4IEEEStd2807.1-2024《知識(shí)圖譜技術(shù)要求及測(cè)試評(píng)估規(guī)范》5IEEEStd2807.2-2024《金融服務(wù)領(lǐng)域知識(shí)圖譜應(yīng)用指南》6IEEEStd2807.3-2022《面向電力行業(yè)的知識(shí)圖譜指南》7IEEEStd2807.4-2024《科技知識(shí)圖譜指南》8IEEEP2807.5《面向臨床診療的知識(shí)圖譜指南》在研9IEEEP2807.7《開(kāi)放域知識(shí)圖譜發(fā)布與眾包服務(wù)指南》在研知識(shí)圖譜與大模型融合實(shí)踐案例集序號(hào)標(biāo)準(zhǔn)號(hào)狀態(tài)IEEEP2807.8《知識(shí)圖譜間知識(shí)交換與融合協(xié)議》技術(shù)內(nèi)容凍結(jié)IEEEP2807.9《軌道交通領(lǐng)域知識(shí)圖譜應(yīng)用指南》在研IEEEP2807.10《面向碳核查領(lǐng)域知識(shí)圖譜的知識(shí)建模導(dǎo)則》在研IEEEP2807.11《石化行業(yè)面向生產(chǎn)環(huán)節(jié)的知識(shí)圖譜指南》在研IEEEP2807.12《基于知識(shí)圖譜的知識(shí)服務(wù)技術(shù)要求》在研IEEEP2807.13《知識(shí)圖譜與大規(guī)模預(yù)訓(xùn)練模型融合架構(gòu)指南》在研IEEEP2807.14《圖檢索增強(qiáng)生成技術(shù)要求與測(cè)試評(píng)估規(guī)范》在研IEEEP3460《電力領(lǐng)域智能決策指南》技術(shù)內(nèi)容凍結(jié)IEEEP3569《智能助手成熟度模型與評(píng)估方法》在研IEEEP3701《知識(shí)增強(qiáng)工業(yè)大模型應(yīng)用系統(tǒng)參考架構(gòu)》在研IEEEP3558 《智能柔性裝配知識(shí)圖譜指南》在研IEEEP3746《用于語(yǔ)音大模型構(gòu)建的數(shù)據(jù)與知識(shí)處理框架》在研知識(shí)圖譜與大模型融合實(shí)踐綜述2022年,ISO/IEC22989:2022《信息技術(shù)人工智能人工智能概念和核心術(shù)語(yǔ),為大模型的技術(shù)文檔等文件提供規(guī)范化語(yǔ)言參考。同期,ISO/IEC23053:2022《運(yùn)用機(jī)器學(xué)習(xí)的人工智能系統(tǒng)框架》在ISO和IEC正式發(fā)布。該標(biāo)準(zhǔn)明確了機(jī)器學(xué)習(xí)系統(tǒng)的通用架構(gòu),為大模型的系統(tǒng)設(shè)計(jì)提供方法論指導(dǎo)。2023年,ISO/IEC42001:2023《信息技術(shù)人工智能管理體系》正式發(fā)布。作為全球首個(gè)人工智能治理標(biāo)準(zhǔn)化文件,該標(biāo)準(zhǔn)規(guī)定了在組織內(nèi)部建立、實(shí)施、維護(hù)和改進(jìn)人工智能管理體系的要求,為行業(yè)內(nèi)人同期,ISO/IEC5338:2023《信息技術(shù)人工智能AI系統(tǒng)生命周期流程》正式發(fā)布,其中文件對(duì)大模型全生命周期流程提出規(guī)范化要求,為大模型管理提供參考。在大模型質(zhì)量評(píng)估方面,2024年,ISO/IECTS25058:2024《系統(tǒng)和軟件工程系統(tǒng)和軟件質(zhì)量要求和評(píng)估人工智能系統(tǒng)質(zhì)量評(píng)估指南》和ISO/IEC5259-4:2024《人工智能-分析和機(jī)器學(xué)習(xí)的數(shù)據(jù)質(zhì)量-第4部分:數(shù)據(jù)質(zhì)量過(guò)程框架》正式發(fā)布,為大模型的設(shè)計(jì)方面和評(píng)估要求提供標(biāo)準(zhǔn)化指導(dǎo)和規(guī)范。2025年7月,ISO/I強(qiáng)大模型預(yù)訓(xùn)練、微調(diào)、推理和生成等多個(gè)階段,為知識(shí)增強(qiáng)大模型的技除此之外,在人工智能道德倫理方面,IEEE于2018年發(fā)布了《人工智能設(shè)計(jì)的倫理準(zhǔn)則(EthicallyAlignedDesign)》白皮書(shū),并成立了IEEEP7000系列標(biāo)準(zhǔn)工作組。該白皮書(shū)圍繞人權(quán)、福祉與問(wèn)責(zé)等原則深入探討,旨在推動(dòng)社會(huì)對(duì)人工智能倫理議題的廣泛討論,并促進(jìn)國(guó)際社-.表1-2大模型相關(guān)標(biāo)準(zhǔn)序號(hào)標(biāo)準(zhǔn)號(hào)狀態(tài)1《信息技術(shù)人工智能人工智能概念和術(shù)語(yǔ)》2《運(yùn)用機(jī)器學(xué)習(xí)的人工智能系統(tǒng)框架》3《信息技術(shù)人工智能管理體系》4《信息技術(shù)人工智能AI系統(tǒng)生命周期流程》5《系統(tǒng)和軟件工程系統(tǒng)和軟件質(zhì)量要求和評(píng)估人工智能系統(tǒng)質(zhì)量評(píng)估指南》6ISO/IEC5259-《人工智能-分析和機(jī)器學(xué)習(xí)的數(shù)據(jù)質(zhì)量-第4部分:數(shù)據(jù)質(zhì)量過(guò)程框架》7\《人工智能設(shè)計(jì)的倫理準(zhǔn)則》825872-1《人工智能知識(shí)增強(qiáng)大模型第1部分:框架》在研2022年12月30日,GB/T42131-2022《人工智能知識(shí)圖譜技術(shù)框架》發(fā)布。該標(biāo)準(zhǔn)圍繞知識(shí)圖譜技術(shù)框架、利益相關(guān)方、關(guān)鍵技術(shù)要求、性能指標(biāo)、典型應(yīng)用及相關(guān)領(lǐng)域、數(shù)字基礎(chǔ)設(shè)施、使能技術(shù)等內(nèi)容進(jìn)行研究,以梳理知識(shí)圖譜核心標(biāo)準(zhǔn)化需求,提升我國(guó)知識(shí)圖譜標(biāo)準(zhǔn)化工作水平,并促進(jìn)知識(shí)圖譜在各行業(yè)的推廣應(yīng)用。2025年4月25日,GB/T45628-2025《人工智能知識(shí)圖譜知識(shí)交換協(xié)議》發(fā)布。該標(biāo)準(zhǔn)圍繞知識(shí)交換協(xié)議框知識(shí)圖譜與大模型融合實(shí)踐綜述架、知識(shí)描述規(guī)則、基于文件的知識(shí)交換以及基于消息的知識(shí)交換等內(nèi)容進(jìn)行研究,以規(guī)范知識(shí)交換活動(dòng)中各方知識(shí)交換流程、消息結(jié)構(gòu)等,提高多方知識(shí)圖譜的兼容性和互操作性,提升整體產(chǎn)品質(zhì)量。2025年6月30與測(cè)試方法》發(fā)布。該標(biāo)準(zhǔn)從知識(shí)圖譜構(gòu)建和知識(shí)圖譜應(yīng)用兩個(gè)維度對(duì)知識(shí)圖譜應(yīng)用系統(tǒng)提出性能指標(biāo)要求,提出了關(guān)于大模型增強(qiáng)方面的基礎(chǔ)性能要求。同時(shí),通過(guò)規(guī)范測(cè)試方法,為知識(shí)圖譜各利益相關(guān)方提供可量化為了進(jìn)一步推動(dòng)知識(shí)圖譜技術(shù)和應(yīng)用發(fā)展,《人工智能知識(shí)圖譜與譜應(yīng)用系統(tǒng)第1部分:功能要求》和《人工智能知識(shí)分:知識(shí)服務(wù)》等6項(xiàng)標(biāo)準(zhǔn)計(jì)劃下達(dá),其中《人工智能知識(shí)圖譜與大規(guī)模預(yù)訓(xùn)練模型集成第2部分:圖檢索增強(qiáng)生成》將提供規(guī)范的圖檢索增強(qiáng)技術(shù)框架及測(cè)試評(píng)估方法,有利于企業(yè)之間技術(shù)交流及優(yōu)化,提高知識(shí)圖譜與大模型融合質(zhì)量及應(yīng)用可靠性。此外,《人工智能知識(shí)圖譜應(yīng)用系統(tǒng)第1部分:功能要求》和《人工智能知識(shí)圖譜應(yīng)用務(wù)》也將綜合考慮當(dāng)前知識(shí)圖譜與大模型融合的應(yīng)用背景,開(kāi)展相關(guān)的標(biāo)準(zhǔn)研制工作,以進(jìn)一步完善知識(shí)圖譜應(yīng)用體系,助力知識(shí)圖譜與大模型融在知識(shí)圖譜相關(guān)團(tuán)體標(biāo)準(zhǔn)方面,由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院向中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)提出的《人工智能知識(shí)圖譜分類分級(jí)規(guī)范》范》(項(xiàng)目號(hào):CESA-2020-2-020)、《人工智能醫(yī)療知識(shí)圖譜構(gòu)建要求》(項(xiàng)目號(hào):CESA-2023-023)、《人工智能醫(yī)療知識(shí)圖譜測(cè)試評(píng)估要求》(項(xiàng)目號(hào):CESA-2023-024)兩項(xiàng)團(tuán)體標(biāo)準(zhǔn)已正式獲批立項(xiàng),在通-.在成果物方面,2023年7月26日,中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院正式發(fā)聯(lián)互通白皮書(shū)》(2023年版)?!吨R(shí)研究報(bào)告從知識(shí)圖譜與大模型落地面臨的瓶頸出發(fā),分析了知識(shí)圖譜與大模型的主要特征、知識(shí)圖譜與大模型擅長(zhǎng)的主要場(chǎng)景和核心基礎(chǔ)能力,對(duì)比了知識(shí)圖譜與大模型的優(yōu)劣勢(shì),進(jìn)而從技術(shù)演化層面、技術(shù)互補(bǔ)層面、知識(shí)庫(kù)建設(shè)層面探討了知識(shí)圖譜與大模型融合的可行性及收益?!吨R(shí)圖譜互聯(lián)互通白皮書(shū)》從技術(shù)、產(chǎn)業(yè)、政策等層面的核心需求出發(fā),詳細(xì)分析了知識(shí)圖譜互聯(lián)互通的內(nèi)涵與外延、任務(wù)與約束、典型應(yīng)用場(chǎng)景和實(shí)踐案例,并明確了開(kāi)展和實(shí)施過(guò)程中面臨的難點(diǎn)與挑戰(zhàn),并從技術(shù)發(fā)展、政表1-3知識(shí)圖譜及知識(shí)工程國(guó)內(nèi)相關(guān)標(biāo)準(zhǔn)和成果物序號(hào)標(biāo)準(zhǔn)類型標(biāo)準(zhǔn)號(hào)狀態(tài)1推薦性國(guó)家標(biāo)準(zhǔn)42131-2022《人工智能知識(shí)圖譜技術(shù)框架》2推薦性國(guó)家標(biāo)準(zhǔn)GB/T45628-《人工智能知識(shí)圖譜知識(shí)交換協(xié)議》3推薦性國(guó)家標(biāo)準(zhǔn)45923.2-2025《人工智能知識(shí)圖譜應(yīng)用平臺(tái)第2部分:性能要求與測(cè)試方法》4推薦性國(guó)家標(biāo)準(zhǔn)20253236-T-《人工智能知識(shí)圖譜應(yīng)用系統(tǒng)第1部分:功能要求》正在起草5推薦性國(guó)家標(biāo)準(zhǔn)20253306-T-《人工智能知識(shí)圖譜應(yīng)用系統(tǒng)第3部分:知識(shí)服務(wù)》正在起草6推薦性國(guó)家標(biāo)準(zhǔn)20253222-T-《人工智能知識(shí)圖譜智能家居領(lǐng)域知識(shí)建?!氛谄鸩?推薦性國(guó)家標(biāo)準(zhǔn)20253564-T-《人工智能知識(shí)圖譜智能家居領(lǐng)域知識(shí)獲取》正在起草8推薦性國(guó)家標(biāo)準(zhǔn)20255719-T-《人工智能知識(shí)增強(qiáng)大模型第1部分:技術(shù)框架》正在起草9指導(dǎo)性技術(shù)文件20254290-Z-《信息技術(shù)人工智能知識(shí)工程參考架構(gòu)》正在起草指導(dǎo)性技術(shù)文件20254292-Z-《人工智能知識(shí)圖譜與大規(guī)模預(yù)訓(xùn)練模型集成第2部分:圖檢索增強(qiáng)生成》正在起草知識(shí)圖譜與大模型融合實(shí)踐綜述序號(hào)標(biāo)準(zhǔn)類型標(biāo)準(zhǔn)號(hào)狀態(tài)國(guó)家標(biāo)準(zhǔn)提案\《人工智能知識(shí)圖譜與大規(guī)模預(yù)訓(xùn)練模型集成第1部分:技術(shù)框架》在研國(guó)家標(biāo)準(zhǔn)提案\《人工智能知識(shí)圖譜與大規(guī)模預(yù)訓(xùn)練模型集成第3部分:性能測(cè)試規(guī)范》在研團(tuán)體標(biāo)準(zhǔn)CESA-2020-《人工智能知識(shí)圖譜分類分級(jí)規(guī)范》在研團(tuán)體標(biāo)準(zhǔn)CESA-2020-《人工智能知識(shí)圖譜性能評(píng)估與測(cè)試規(guī)范》在研團(tuán)體標(biāo)準(zhǔn)CESA-2020-《人工智能醫(yī)療知識(shí)圖譜構(gòu)建要求》在研團(tuán)體標(biāo)準(zhǔn)CESA-2020-《人工智能醫(yī)療知識(shí)圖譜測(cè)試評(píng)估要求》在研\(zhòng)《知識(shí)圖譜互聯(lián)互通白皮書(shū)》研究報(bào)告\《知識(shí)圖譜與大模型融合實(shí)踐研究報(bào)告》2025年,國(guó)家標(biāo)準(zhǔn)GB/T45288.1-2025《人工智能大模型第1部分:通用要求》、GB/T45288.2-2025《人工智能大模型第2部分:評(píng)測(cè)指標(biāo)與方法》、GB/T45288.3-2025《人工智能大模型第3部分:服務(wù)能力成熟度評(píng)估》正式發(fā)布。三項(xiàng)標(biāo)準(zhǔn)分別圍繞大模型參考架構(gòu)、測(cè)評(píng)方法和服務(wù)能力提出規(guī)范化要求和評(píng)估指導(dǎo),填補(bǔ)了國(guó)內(nèi)在人工智能大模型領(lǐng)域的標(biāo)準(zhǔn)空白,且目前已立項(xiàng)《人工智能大模型第4部分:計(jì)算機(jī)視覺(jué)大模部分:語(yǔ)音大模型》兩項(xiàng)指導(dǎo)性技術(shù)文件,為大模型應(yīng)用提供全面且系統(tǒng)在大模型安全治理方面,2023年,GB/T42888-2023《信息安全技術(shù)機(jī)器學(xué)習(xí)算法安全評(píng)估規(guī)范》正式發(fā)布,該標(biāo)準(zhǔn)規(guī)范了機(jī)器學(xué)習(xí)算法相關(guān)技術(shù)安全要求和評(píng)估方法,并給出了算法安全評(píng)估流程,為企業(yè)開(kāi)展安全評(píng)估以及相關(guān)部門(mén)進(jìn)行監(jiān)管提供參考。2025年,GB45438-2025《網(wǎng)絡(luò)知識(shí)圖譜與大模型融合實(shí)踐案例集安全技術(shù)人工智能生成合成內(nèi)容標(biāo)識(shí)方法》、GB/T45674-2025《網(wǎng)絡(luò)安全技術(shù)生成式人工智能數(shù)據(jù)標(biāo)注安全規(guī)范》、GB/T45652-2025《網(wǎng)絡(luò)安全技術(shù)生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》和GB/T45654-2025《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》正式發(fā)布,從大模型的數(shù)據(jù)標(biāo)注、預(yù)訓(xùn)練、生成內(nèi)容和應(yīng)用服務(wù)等多方面提出安全管理體系,幫助企業(yè)快速建立大模型安全評(píng)估框架,保障大模型用戶隱私安全,為人工智能行業(yè)的可持續(xù)發(fā)展保駕護(hù)航。大模型國(guó)內(nèi)相關(guān)標(biāo)準(zhǔn)詳細(xì)信息如表1-4所示.表1-4大模型國(guó)內(nèi)相關(guān)標(biāo)準(zhǔn)序號(hào)標(biāo)準(zhǔn)類型標(biāo)準(zhǔn)號(hào)狀態(tài)1強(qiáng)制性國(guó)家標(biāo)準(zhǔn)GB45438-2025《網(wǎng)絡(luò)安全技術(shù)人工智能生成合成內(nèi)容標(biāo)識(shí)方法》2推薦性國(guó)家標(biāo)準(zhǔn)GB/T42888-《信息安全技術(shù)機(jī)器學(xué)習(xí)算法安全評(píng)估規(guī)范》3推薦性國(guó)家標(biāo)準(zhǔn)GB/T45288.1-《人工智能大模型第1部分:通用要求》4推薦性國(guó)家標(biāo)準(zhǔn)GB/T45288.2-《人工智能大模型第2部分:評(píng)測(cè)指標(biāo)與方法》5推薦性國(guó)家標(biāo)準(zhǔn)GB/T45288.3-《人工智能大模型第3部分:服務(wù)能力成熟度評(píng)估》6推薦性國(guó)家標(biāo)準(zhǔn)GB/T45674-《網(wǎng)絡(luò)安全技術(shù)生成式人工智能數(shù)據(jù)標(biāo)注安全規(guī)范》7推薦性國(guó)家標(biāo)準(zhǔn)GB/T45652-《網(wǎng)絡(luò)安全技術(shù)生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》8推薦性國(guó)家標(biāo)準(zhǔn)GB/T45654-《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》9推薦性國(guó)家標(biāo)準(zhǔn)20253396-T-《人工智能大模型第4部分:計(jì)算機(jī)視覺(jué)大模型》正在起草推薦性國(guó)家標(biāo)準(zhǔn)20253399-T-《人工智能大模型第5部分:多模態(tài)大模型》正在起草指導(dǎo)性技術(shù)文件20252036-Z-《人工智能大模型第6部分:代碼大模型》正在起草指導(dǎo)性技術(shù)文件20252037-Z-《人工智能大模型第7部分:語(yǔ)音大模型》正在起草數(shù)據(jù)提供方數(shù)據(jù)提供方圖譜模型集成方圖譜模型集成方模型提供方知識(shí)圖譜與大模型融合實(shí)踐綜述知識(shí)圖譜與大模型融合實(shí)踐綜述ISO/IEC22989:2022Informationtechnologintelligence—Arti?cialintelligenceconceISO/IEC5259-4:2024Arti?cialanalyticsandmachinelearninPart4:Dataqualityprocessframew量過(guò)程框架》IEEEP2807.13GuideforIntegrationFrameworkamongLarge-scalepretrainedModelandKnowledge《知識(shí)圖譜與大規(guī)模預(yù)訓(xùn)練模型集成架構(gòu)指南》IEEEP2807.14StandardforTechEvaluationofGraphbasedRetrievalAugmente《圖檢索增強(qiáng)生成技術(shù)要求與測(cè)試評(píng)估規(guī)范》ISO/IEC5338:2023Informationteintelligence—AIsystemGB/T42888-2023《信息安全技術(shù)機(jī)器學(xué)范》服務(wù)能力成熟度評(píng)估》應(yīng)用方應(yīng)用方知識(shí)圖譜提供方知識(shí)圖譜提供方ISO/IEC42001:2023InformationteIEEEStd2807.2-2024GuideforApplicationofGraphsforFinancialServ《金融服務(wù)領(lǐng)域知識(shí)圖譜應(yīng)用指南》基本要求》ISO30401:2018KnowledgemanISO/IEC5392:2024Informationteintelligence—ReferencearchitectureofknowlIEEEStd2807-2022FrameworkofKnowledgeEEEStd2807.1-2024StandardforTdEvaluatingKnowledgeGra《知識(shí)圖譜技術(shù)要求及測(cè)試評(píng)估規(guī)范》IEEEStd2807.3-2022GuideforElectric-Power-O《面向電力行業(yè)的知識(shí)圖譜指南》IEEEStd2807.4-2024GuideforScienti?cK《科技知識(shí)圖譜指南》GB/T42131-2022《人工智能知識(shí)圖譜技術(shù)框架》GB/T45628-2025《人工智能知識(shí)圖譜知識(shí)性能要求與測(cè)試方法》知識(shí)圖譜與大模型融合實(shí)踐案例集最后,本節(jié)依據(jù)知識(shí)圖譜與大模型融合活動(dòng)參與方與現(xiàn)有標(biāo)準(zhǔn)的對(duì)應(yīng)關(guān)系進(jìn)行梳理,如圖1-3所示,目的是為參與方提供提供切實(shí)可參考的依據(jù),更好地遵循現(xiàn)有標(biāo)準(zhǔn)、把握標(biāo)準(zhǔn)動(dòng)態(tài),積極參與到知識(shí)圖譜與大模型本案例集由螞蟻科技集團(tuán)股份有限公司、網(wǎng)智天元科技集團(tuán)股份有限公司等20余家單位提供的20項(xiàng)實(shí)際應(yīng)用案例所組成,表1-5為各案例的基本信息,列出了各案例的提供單位、案例名稱、融合類型及所屬領(lǐng)域。圖1-4和圖1-5分別為案例融合類型的分布情況和所屬領(lǐng)域分布情況。從圖1-4和圖1-5可見(jiàn),目前知識(shí)圖譜與大模型應(yīng)用案例融合類型主要以知識(shí)圖譜表1-5案例基本信息1中英雙語(yǔ)大模型知識(shí)抽取框架OneKE螞蟻科技集團(tuán)股份有限公司大模型增強(qiáng)知識(shí)2通用·面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG螞蟻科技集團(tuán)股份有限公司知識(shí)圖譜增強(qiáng)大模型3金融行業(yè)聲譽(yù)風(fēng)險(xiǎn)智能分析網(wǎng)智天元科技集團(tuán)股份有限公司風(fēng)險(xiǎn)控制4知識(shí)圖譜與行業(yè)大模型雙輪驅(qū)動(dòng)的油氣知識(shí)平臺(tái)北京智通云聯(lián)科技有限公司知識(shí)圖譜增強(qiáng)大模型5人工智能輔助電力領(lǐng)域評(píng)審大模型國(guó)網(wǎng)上海市電力公司經(jīng)濟(jì)技術(shù)研究院、上海人工智能研究院有限公司知識(shí)圖譜增強(qiáng)大模型6基于大模型的銀行業(yè)金融知識(shí)中臺(tái)北京文因互聯(lián)科技有限公司多者結(jié)合知識(shí)圖譜與大模型融合實(shí)踐綜述7風(fēng)電設(shè)備故障維修方案智能推薦系統(tǒng)東方電氣集團(tuán)數(shù)字科技有限公司、東方電氣集團(tuán)科學(xué)技術(shù)研究院有限公司、東方電氣新能科技(成都)有限公司、西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院大模型增強(qiáng)知識(shí)8復(fù)雜機(jī)電裝備知識(shí)一體化構(gòu)建與應(yīng)用東方電氣集團(tuán)數(shù)字科技有限公司、東方電氣集團(tuán)科學(xué)技術(shù)研究院有限公司、西南交通大學(xué)機(jī)械工程學(xué)院、東方風(fēng)電股份有限公司知識(shí)圖譜與大模型輸出協(xié)同9醫(yī)藥研發(fā)行業(yè)·基于邏輯鏈檢索和匹配的知識(shí)問(wèn)答武漢索元數(shù)據(jù)信息有限公司知識(shí)圖譜與大模型輸出協(xié)同天問(wèn)智能問(wèn)答平臺(tái)浙江創(chuàng)鄰科技有限公司知識(shí)圖譜與大模型輸出協(xié)同行業(yè)安全管控平臺(tái)中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所安全基于知識(shí)圖譜與大模型融合的電阻點(diǎn)焊工藝智能管理上海波士?jī)?nèi)智能科技有限公司多者結(jié)合基于大模型和知識(shí)圖譜的智慧水務(wù)知識(shí)平臺(tái)中電科大數(shù)據(jù)研究院有限公司知識(shí)圖譜與大模型輸出協(xié)同基于知識(shí)圖譜和大模型的設(shè)備故障維修助手南京柯基數(shù)據(jù)科技有限公司多者結(jié)合醫(yī)藥大健康行業(yè)·面向醫(yī)生的醫(yī)學(xué)知識(shí)助手南京柯基數(shù)據(jù)科技有限公司知識(shí)圖譜與大模型輸出協(xié)同政府行業(yè)大模型技術(shù)及應(yīng)用拓爾思信息技術(shù)股份有限公司知識(shí)圖譜與大模型輸出協(xié)同基于知識(shí)圖譜的大模型RAG精準(zhǔn)問(wèn)答實(shí)踐浩鯨云計(jì)算科技股份有限公司知識(shí)圖譜與大模型輸出協(xié)同基于大模型的應(yīng)急預(yù)案自動(dòng)拆解和信息抽取途普智能科技(北京)有限公司大模型增強(qiáng)知識(shí)圖書(shū)情報(bào)行業(yè)·科技文獻(xiàn)復(fù)雜知識(shí)抽取中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心知識(shí)圖譜增強(qiáng)大模型電力行業(yè)信通小智智能問(wèn)數(shù)大模型北京海致科技集團(tuán)有限公司多者結(jié)合知識(shí)圖譜與大模型融合實(shí)踐案例集876543210風(fēng)險(xiǎn)控制金融1通用金融1通用3軟件研發(fā)1裝備維護(hù)醫(yī)藥2汽車2政務(wù)醫(yī)藥2汽車2電力1油氣安全1水務(wù)安全1水務(wù)1復(fù)雜裝備1復(fù)雜裝備11知識(shí)圖譜與大模型融合實(shí)踐知識(shí)圖譜與大模型融合實(shí)踐 V VII2案例成效 3技術(shù)路線 4案例示范意義 案例20電力行業(yè)信通小智智能問(wèn)數(shù)大模型 1案例基本情況 2案例成效 3案例技術(shù)路線 4案例示范意義 5存在的問(wèn)題和不足 當(dāng)前基于非結(jié)構(gòu)化文檔的知識(shí)構(gòu)建一直是知識(shí)圖譜大規(guī)模落地的關(guān)鍵難題之一,大語(yǔ)言模型在處理信息抽取任務(wù)時(shí)仍因抽取內(nèi)容與自然語(yǔ)言表述之間的巨大差異導(dǎo)致效果不佳,自然語(yǔ)言文本信息表達(dá)中因隱式、長(zhǎng)距離上下文關(guān)聯(lián)存在較多的歧義、多義、隱喻等,給知識(shí)抽取任務(wù)帶來(lái)較大的挑戰(zhàn)。針對(duì)上述問(wèn)題,螞蟻集團(tuán)聯(lián)合浙江大學(xué),依托雙方多年積累的知識(shí)圖譜與自然語(yǔ)言處理技術(shù),構(gòu)建和升級(jí)螞蟻百靈大模型在知識(shí)抽取領(lǐng)域的能力,并發(fā)布了中英雙語(yǔ)大模型知識(shí)抽取框架OneKE。測(cè)評(píng)指標(biāo)顯示,OneKE在多個(gè)全監(jiān)督及零樣本實(shí)體/關(guān)系/事件抽取任務(wù)上取得了相對(duì)較好的效果。1.1企業(yè)簡(jiǎn)介螞蟻集團(tuán)起步于2004年誕生的支付寶,源于一份為社會(huì)解決信任問(wèn)題的初心,經(jīng)過(guò)近二十年的發(fā)展,已成為世界領(lǐng)先的互聯(lián)網(wǎng)開(kāi)放平臺(tái)。螞蟻集團(tuán)通過(guò)科技創(chuàng)新,助力合作伙伴,為消費(fèi)者和小微企業(yè)提供普惠便捷的數(shù)字生活及數(shù)字金融服務(wù);持續(xù)開(kāi)放產(chǎn)品與技術(shù),助力企業(yè)的數(shù)字化升級(jí)與協(xié)作;在全球廣泛合作,服務(wù)當(dāng)?shù)厣碳液拖M(fèi)者實(shí)現(xiàn)“全球收”、“全球付”和“全球匯”。1.2案例背景大語(yǔ)言模型目前已顯著提升了人工智能系統(tǒng)處理知識(shí)的能力,然而,以大語(yǔ)言模型為代表的生成式人工智能依然存在推理能力不足、事實(shí)知識(shí)匱乏、生成結(jié)果不穩(wěn)定等問(wèn)題,這些都極大阻礙了大語(yǔ)言模型的產(chǎn)業(yè)化落地?;诜墙Y(jié)構(gòu)化文檔的知識(shí)構(gòu)建一直是知識(shí)圖譜大規(guī)模落地的關(guān)鍵難題之一,因?yàn)檎鎸?shí)世界的信息高度碎片化、非結(jié)構(gòu)化,大語(yǔ)言模型在處理信息抽取任務(wù)時(shí)仍因抽取內(nèi)容與自然語(yǔ)言表述之間的巨大差異導(dǎo)致效果不佳,自然語(yǔ)言文本信息表達(dá)中因隱式、長(zhǎng)距離上下文關(guān)聯(lián)存在較多的歧義、多義、隱喻等,給知識(shí)抽取任務(wù)帶來(lái)較大的挑戰(zhàn)。針對(duì)上述問(wèn)題,螞蟻集團(tuán)與浙江大學(xué)依托多年積累的知識(shí)圖譜與自然語(yǔ)言處理技術(shù),聯(lián)合構(gòu)建和升級(jí)螞蟻百靈大模型在知識(shí)抽取領(lǐng)域的能力,并發(fā)布中英雙語(yǔ)大模型知識(shí)抽取框架OneKE,同時(shí)開(kāi)源基于Chinese-Alpaca-2-13B全參數(shù)微調(diào)的版本。測(cè)評(píng)指標(biāo)顯示,OneKE在多個(gè)全監(jiān)督及零樣本實(shí)體/關(guān)系/事件抽取任務(wù)上取得了相對(duì)較好效果。1.3案例類型本案例的類型為“大模型增強(qiáng)知識(shí)圖譜”。1.4系統(tǒng)或方案簡(jiǎn)介OneKE主要聚焦基于Schema的可泛化信息抽取,采用了基于Schema的輪詢指令構(gòu)造技術(shù),專門(mén)對(duì)大模型在結(jié)構(gòu)化信息抽取的泛化能力進(jìn)行了優(yōu)化,旨在提供中英雙語(yǔ)、可泛化的大模型知識(shí)抽取,OneKE在一定程度上具備統(tǒng)一、通用、可泛化的知識(shí)抽取能力。同時(shí),配套開(kāi)源OpenSPG及DeepKE開(kāi)源框架的支持,支持開(kāi)箱即用。幫助研究人員和開(kāi)發(fā)者更好地處理信息抽取、數(shù)據(jù)結(jié)構(gòu)化、知識(shí)圖譜構(gòu)建等問(wèn)題。OneKE的特點(diǎn):1.多領(lǐng)域多任務(wù)泛化性。支持金融、常識(shí)、醫(yī)療等領(lǐng)域?qū)嶓w多屬性、事件多論元的抽取,不限制屬性數(shù)量;2.中英文雙語(yǔ)支持。支持中文和英文兩種語(yǔ)言文本的知識(shí)抽取任務(wù);3.完善的工具鏈支持。OneKE依托OpenSPG及DeepKE開(kāi)源庫(kù)提供了完善的SFT及抽取工具支持,開(kāi)箱即用。如圖1所示,OneKE具備相對(duì)較好的中英雙語(yǔ)可泛化的知識(shí)抽取能力,其中在中文NER命名實(shí)體識(shí)別類任務(wù)、RE關(guān)系抽取類任務(wù)、EE事件抽取類任務(wù)上的效案例1通用-中英雙語(yǔ)大模型知識(shí)抽取框架OneKE果超過(guò)了GPT3.5、GTP4、Baichuan2-13B-Chat、InstructUIE、YAYI-UIE等模型的效果。具體效果對(duì)比情況可參見(jiàn)附件3。圖1OneKE在零樣本泛化性上與其他大模型的對(duì)比結(jié)果3.1系統(tǒng)架構(gòu)/方案架構(gòu)在OneKE的構(gòu)建過(guò)程中,采用了3類任務(wù)、15個(gè)領(lǐng)域和33個(gè)數(shù)據(jù)集,通過(guò)對(duì)數(shù)據(jù)進(jìn)行歸一化和清洗提升數(shù)據(jù)質(zhì)量,并在質(zhì)量微調(diào)階段采用了“基于Schema的輪詢指令構(gòu)造”技術(shù),有效提升了模型的泛化能力。OneKE的整體構(gòu)建框架如圖2所示,其中左側(cè)為收集的數(shù)據(jù)集,經(jīng)過(guò)清洗后基于Schema的輪詢指令構(gòu)造進(jìn)行模型的微調(diào)。圖2OneKE整體構(gòu)建框架3.2OneKE的訓(xùn)練關(guān)鍵技術(shù)3.2.1數(shù)據(jù)處理數(shù)據(jù)的形式和質(zhì)量是提升大模型能力的關(guān)鍵,OneKE中不同任務(wù)、領(lǐng)域及數(shù)據(jù)源分布情況見(jiàn)圖3。針對(duì)不同領(lǐng)域、任務(wù)、語(yǔ)言的數(shù)據(jù)格式不統(tǒng)一問(wèn)題,OneKE在訓(xùn)練前進(jìn)行了數(shù)據(jù)的歸一化與清洗。首先計(jì)算每個(gè)數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集內(nèi)的文本重疊情況。如果發(fā)現(xiàn)一個(gè)文本實(shí)例在同一個(gè)文件中多次出現(xiàn),并且伴隨著不一致的標(biāo)簽,則移除該實(shí)例。其次,設(shè)計(jì)啟發(fā)式規(guī)則以過(guò)濾低質(zhì)量和無(wú)意義的數(shù)據(jù):1)非字母字符占文本總量超過(guò)80%;2)文本長(zhǎng)度不足五個(gè)字符且沒(méi)有任何標(biāo)簽;3)高頻出現(xiàn)的停用詞,如‘the,、‘to,、‘of,等,超過(guò)80%。圖3OneKE中不同任務(wù)、領(lǐng)域及數(shù)據(jù)源分布情況案例1通用-中英雙語(yǔ)大模型知識(shí)抽取框架OneKE3.2.2指令微調(diào)根據(jù)前人工作以及錯(cuò)誤案例分析發(fā)現(xiàn),抽取模型誤判的主要原因可能在于根據(jù)前人工作以及錯(cuò)誤案例分析發(fā)現(xiàn),抽取模型誤判的主要原因可能在于OneKE在指令微調(diào)訓(xùn)練過(guò)程中采用了“基于Schema的輪詢指令構(gòu)造”技術(shù)。具體如圖2右側(cè)所示,先構(gòu)建一個(gè)困難負(fù)樣本字典,其鍵值對(duì)應(yīng)的是Schema及其語(yǔ)義上相近的Schema集。困難負(fù)樣本的構(gòu)建旨在促進(jìn)語(yǔ)義近似的Schema更頻繁地出現(xiàn)在指令中,同時(shí)也能在不犧牲性能的情況下減少訓(xùn)練樣本量。然后,采取一種批次化指令生成方法,動(dòng)態(tài)限制每條指令中詢問(wèn)的模式數(shù)量為N(N的取值一般在4到6之間)。即使在評(píng)估階段詢問(wèn)的Schema數(shù)目與訓(xùn)練時(shí)不同,通過(guò)輪詢機(jī)制可以將詢問(wèn)數(shù)量平均分散至N個(gè),從而緩解泛化性能技術(shù)細(xì)節(jié)可參閱論文“IEPile:Unearthing圖4OneKE指令微調(diào)算法Large-ScaleSchema-BasedInformationExtractionCorpus”。通過(guò)“基于Schema的輪詢指令構(gòu)造”技術(shù),并融合開(kāi)源及螞蟻業(yè)務(wù)相關(guān)NER、RE、EE等近50個(gè)數(shù)據(jù)集,可得到約0.4Btokens的大規(guī)模高質(zhì)量抽取指令微調(diào)數(shù)據(jù),其中部分?jǐn)?shù)據(jù)已通過(guò)IEPile開(kāi)源。OneKE模型是通過(guò)在LLaMA上進(jìn)行全參數(shù)微調(diào)得到的,這一過(guò)程利用了以上大規(guī)模高質(zhì)量的抽取指令數(shù)據(jù)。3.3應(yīng)用場(chǎng)景或應(yīng)用方式OneKE中指令的格式采用了類JSON字符串的結(jié)構(gòu),本質(zhì)上是一種字典類型的字符串。它由以下三個(gè)字段構(gòu)成:(1)'instruction',即任務(wù)描述,以自然語(yǔ)言指定模型扮演的角色以及需要完成的任務(wù);(2)'schema',這是一份需提取的標(biāo)簽列表,明確指出了待抽取信息的關(guān)鍵字段,反應(yīng)用戶的需求,這是動(dòng)態(tài)可變的;(3)'input',指的是用于信息抽取的源文本。目前可通過(guò)DeepKE-LLM或OpenSPG來(lái)直接使用OneKE,高級(jí)用戶可自行轉(zhuǎn)換和構(gòu)造指令使用OneKE。1)基于DeepKE-LLM使用OneKE用戶可以按照DeepKE-LLM項(xiàng)目指引完成環(huán)境配置、模型權(quán)重獲取、數(shù)據(jù)轉(zhuǎn)換后直接使用OneKE,DeepKE-LLM也支持對(duì)OneKE進(jìn)行量化(如4bit量化)以實(shí)現(xiàn)在低功耗設(shè)備上運(yùn)行OneKE。DeepKEDeepKE-LLM項(xiàng)目:/zjunlp/DeepKE/blob/main/example/llm/OneKE.md2)基于OpenSPG使用OneKE用戶按照OpenSPG項(xiàng)目指引完成環(huán)境配置、模型權(quán)重獲取、Schema定義、數(shù)據(jù)轉(zhuǎn)換后可以直接使用OneKE?;贠penSPGkNext編程框架,用戶可以按照SPGSchema的定義,提交端到端的圖譜構(gòu)建任務(wù),實(shí)現(xiàn)文本到知識(shí)的自動(dòng)轉(zhuǎn)換,同時(shí)實(shí)現(xiàn)屬性標(biāo)化、實(shí)體鏈指,更新并寫(xiě)入到圖譜存儲(chǔ),同時(shí)還可以使用SPGKGDSL查詢構(gòu)建好的結(jié)果。用戶也可以添加領(lǐng)域指令數(shù)據(jù)后提交本地的SFT任務(wù)。OpenSPGOpenSPG項(xiàng)目:/ndx6g9/nmwkzz/dht0wtgycuw032gd統(tǒng)一知識(shí)抽取框架有比較廣闊的應(yīng)用場(chǎng)景,可大幅降低領(lǐng)域知識(shí)圖譜的構(gòu)建成本。通過(guò)從海量的數(shù)據(jù)中萃取結(jié)構(gòu)化知識(shí),構(gòu)建高質(zhì)量知識(shí)圖譜并建立知識(shí)要素間的邏輯關(guān)聯(lián),可以實(shí)現(xiàn)可解釋的推理決策,也可用于提升大模型穩(wěn)定性并緩解幻案例1通用-中英雙語(yǔ)大模型知識(shí)抽取框架OneKE覺(jué),加速大模型垂直領(lǐng)域的落地應(yīng)用。如應(yīng)用在醫(yī)療領(lǐng)域通過(guò)知識(shí)抽取實(shí)現(xiàn)醫(yī)生經(jīng)驗(yàn)的知識(shí)化規(guī)則化管理,構(gòu)建可控的輔助診療和醫(yī)療問(wèn)答。應(yīng)用在金融領(lǐng)域抽取金融指標(biāo)、風(fēng)險(xiǎn)事件、因果邏輯及產(chǎn)業(yè)鏈等,實(shí)現(xiàn)自動(dòng)的金融研報(bào)生成、風(fēng)險(xiǎn)預(yù)測(cè)、產(chǎn)業(yè)鏈分析等。應(yīng)用在政務(wù)場(chǎng)景實(shí)現(xiàn)政務(wù)法規(guī)的知識(shí)化,提升政務(wù)服務(wù)的辦事效率和準(zhǔn)確決策。OneKE在全監(jiān)督及多領(lǐng)域泛化性上有比較出色的表現(xiàn),統(tǒng)一的指令結(jié)構(gòu)也能讓業(yè)務(wù)通過(guò)增加更多領(lǐng)域標(biāo)注數(shù)據(jù)以獲取更好的模型能力。通過(guò)OneKE框架,我們證明了基于大模型統(tǒng)一知識(shí)構(gòu)建框架的可行性。然而,在實(shí)際的工業(yè)應(yīng)用中,業(yè)務(wù)對(duì)知識(shí)要素的覆蓋率、準(zhǔn)確率要求非常高,統(tǒng)一Schema指令結(jié)構(gòu)難以覆蓋所有的知識(shí)表示形式,因此OneKE依然存在抽不全、抽不準(zhǔn)以及難以處理較長(zhǎng)文本的問(wèn)題。另外,由于模型的規(guī)模有限,模型輸出極大地依賴于輸入的提示詞(Prompt)。因此,不同的嘗試可能會(huì)產(chǎn)生不一致的結(jié)果,且可能存在幻覺(jué)輸出。未來(lái)我們也在并行探索開(kāi)放知識(shí)抽取,聯(lián)動(dòng)圖譜自動(dòng)構(gòu)建系統(tǒng),持續(xù)優(yōu)化和提升OneKE新領(lǐng)域及新類型上的適應(yīng)性。知識(shí)抽取是深度自然語(yǔ)言語(yǔ)義理解能力的重要體現(xiàn)。不僅需要知識(shí)抽取模型能夠精確地捕獲并解析文本信息,還要能夠從復(fù)雜的數(shù)據(jù)中提煉出有用的知識(shí)和洞察。優(yōu)化知識(shí)抽取的性能不僅能夠強(qiáng)化模型對(duì)世界知識(shí)的理解和應(yīng)用,還能夠構(gòu)建知識(shí)要素之間的跨領(lǐng)域的深度關(guān)聯(lián)和依賴,這些都是大規(guī)模知識(shí)圖譜構(gòu)建的關(guān)鍵依賴。后續(xù)我們也將持續(xù)地將相關(guān)的技術(shù)體系應(yīng)用到金融、醫(yī)療、政務(wù)等各垂直領(lǐng)域,加速構(gòu)建垂直領(lǐng)域的知識(shí)脈絡(luò),推動(dòng)知識(shí)圖譜與大語(yǔ)言模型雙驅(qū)的可控生成技術(shù)的產(chǎn)業(yè)落地。本次我們開(kāi)源的OneKE是非結(jié)構(gòu)化數(shù)據(jù)知識(shí)化非常關(guān)鍵的一步。未來(lái)我們也將持續(xù)優(yōu)化知識(shí)抽取的性能,同時(shí)以O(shè)neKE為基礎(chǔ)加速構(gòu)建各領(lǐng)域常識(shí)世界圖譜OneGraph。1、開(kāi)放開(kāi)源!螞蟻集團(tuán)浙江大學(xué)聯(lián)合發(fā)布開(kāi)源大模型知識(shí)抽取框架OneKE2、OpenSGP:/OpenSPG3、OneKE:/zjunlp/DeepKE/blob/main/example/llm/OneKE.md案例2案例2通用面向?qū)I(yè)領(lǐng)域的知識(shí)框架KAG目前,大模型(LLM)已逐步開(kāi)始在各行業(yè)中應(yīng)用,但其在專業(yè)領(lǐng)域仍面臨諸多挑戰(zhàn),包括領(lǐng)域知識(shí)不足、邏輯推理能力不足以及生成內(nèi)容的可靠性問(wèn)題,特別是在復(fù)雜決策場(chǎng)景中,模型容易出現(xiàn)事實(shí)性、邏輯性錯(cuò)誤,甚至引發(fā)“幻覺(jué)”現(xiàn)象,這些問(wèn)題嚴(yán)重制約了大模型在垂直領(lǐng)域的落地應(yīng)用。針對(duì)大模型在垂直領(lǐng)域應(yīng)用的挑戰(zhàn)及問(wèn)題,螞蟻集團(tuán)24年9月發(fā)布了國(guó)內(nèi)首個(gè)專業(yè)領(lǐng)域知識(shí)增強(qiáng)生成框架——KAG(Knowledge-EnhancedGeneration)。KAG的核心創(chuàng)新在于融合知識(shí)圖譜的符號(hào)計(jì)算與向量檢索的優(yōu)勢(shì),同時(shí)結(jié)合大語(yǔ)言模型的理解與生成能力,通過(guò)知識(shí)表示優(yōu)化、互索引結(jié)構(gòu)、符號(hào)化邏輯推理、知識(shí)對(duì)齊機(jī)制以及模型協(xié)同任務(wù)的設(shè)計(jì),實(shí)現(xiàn)了更高效的知識(shí)增強(qiáng)生成能力。KAG支持從多層次知識(shí)(結(jié)構(gòu)化知識(shí)、開(kāi)放信息、文檔片段)中檢索和推理,并通過(guò)邏輯驅(qū)動(dòng)的生成方式,有效降低了幻覺(jué)率,提升了大模型在專業(yè)領(lǐng)域應(yīng)用的可靠性。1.1企業(yè)簡(jiǎn)介螞蟻集團(tuán)起步于2004年誕生的支付寶,源于一份為社會(huì)解決信任問(wèn)題的初心,經(jīng)過(guò)近二十年的發(fā)展,已成為世界領(lǐng)先的互聯(lián)網(wǎng)開(kāi)放平臺(tái)。螞蟻集團(tuán)通過(guò)科技創(chuàng)新,助力合作伙伴,為消費(fèi)者和小微企業(yè)提供普惠便捷的數(shù)字生活及數(shù)字金融服務(wù);持續(xù)開(kāi)放產(chǎn)品與技術(shù),助力企業(yè)的數(shù)字化升級(jí)與協(xié)作;在全球廣泛合作,服務(wù)當(dāng)?shù)厣碳液拖M(fèi)者實(shí)現(xiàn)“全球收”、“全球付”和“全球匯”。1.2案例背景經(jīng)過(guò)近兩年的研究與實(shí)踐,業(yè)界已普遍認(rèn)識(shí)到大語(yǔ)言模型的優(yōu)勢(shì)與局限性,以及其在特定行業(yè)應(yīng)用中的挑戰(zhàn)。大語(yǔ)言模型雖然展現(xiàn)了強(qiáng)大的理解與生成能力,但在專業(yè)領(lǐng)域中仍存在領(lǐng)域知識(shí)不足、難以進(jìn)行復(fù)雜決策及可靠性不足等問(wèn)題。行業(yè)痛點(diǎn)1:LLM不具備嚴(yán)謹(jǐn)?shù)乃伎寄芰κ紫龋笳Z(yǔ)言模型無(wú)法提供嚴(yán)謹(jǐn)?shù)耐评砟芰?。例如,?duì)于“《1989一念間》和《極品絕配》共同的主演是誰(shuí)?”這個(gè)問(wèn)題,國(guó)內(nèi)幾款大型語(yǔ)言模型結(jié)果顯示回復(fù)的準(zhǔn)確性和一致性都較低。即便某些模型能給出答案,也存在邏輯錯(cuò)誤或問(wèn)題拆解不當(dāng)?shù)那闆r。隨著條件變的復(fù)雜,如變換條件為“男主演”“女主演”或添加時(shí)間約束,準(zhǔn)確率和穩(wěn)定性會(huì)不斷下降。為解決這些問(wèn)題,行業(yè)內(nèi)進(jìn)行了諸多探索。比如,通過(guò)構(gòu)建Chain-of-Thought(COT)模型,定義Multiple/Tree/Graph思維鏈模版,引導(dǎo)LLM合理拆解問(wèn)題。今年以來(lái),越來(lái)越多的研究聚焦于將RAG技術(shù)融入到大語(yǔ)言模型中,以彌補(bǔ)其在事實(shí)信息上的不足。進(jìn)一步的發(fā)展則涉及GraphRAG,即采用圖結(jié)構(gòu)來(lái)優(yōu)化檢索機(jī)制。目前,引入外部知識(shí)庫(kù)的方法被廣泛應(yīng)用,但即使是在引入了如RAG這樣的技術(shù),將特定領(lǐng)域的知識(shí)庫(kù)或事實(shí)文檔提供給大語(yǔ)言模型進(jìn)行重新生成時(shí),仍不能完全保證生成答案的準(zhǔn)確性。行業(yè)痛點(diǎn)2:事實(shí)、邏輯、精準(zhǔn)性錯(cuò)誤圖1左側(cè)展示的是用大模型,對(duì)政府報(bào)告某個(gè)指標(biāo)的解讀示例,盡管業(yè)務(wù)人員已經(jīng)提前做了標(biāo)注,大模型仍然會(huì)加入自己的理解,導(dǎo)致信息失真或缺乏依據(jù)的錯(cuò)誤。即使提供了外部知識(shí)庫(kù),召回過(guò)程中的不準(zhǔn)確問(wèn)題依然存在。圖1右側(cè)示例說(shuō)明了基于向量計(jì)算的RAG方法存在的缺陷。例如,在查詢?nèi)绾尾檎茵B(yǎng)老金時(shí),直接利用向量計(jì)算召回的文檔,與業(yè)務(wù)專家定義的知識(shí)并不相關(guān)。圖1大模型存在事實(shí)、邏輯、精準(zhǔn)性錯(cuò)誤在垂直領(lǐng)域內(nèi),許多知識(shí)雖然在表面上看似不相似,但實(shí)際上緊密相關(guān)。例案例2通用-面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG如,“養(yǎng)老金”屬于“五險(xiǎn)一金”的范疇,與國(guó)家政策密切相關(guān),大模型不能對(duì)此類信息進(jìn)行隨意生成。因此,需要預(yù)定義的領(lǐng)域知識(shí)結(jié)構(gòu)來(lái)約束模型的行為,并提供有效的知識(shí)輸入。行業(yè)痛點(diǎn)3:通用RAG也難以解決LLM幻覺(jué)問(wèn)題通常人們認(rèn)為,引入RAG和外部知識(shí)庫(kù)后,就能有效避免大模型的幻覺(jué)問(wèn)題。其實(shí)不然,這種方式產(chǎn)生的幻覺(jué)問(wèn)題甚至更為隱蔽。近期螞蟻集團(tuán)發(fā)布了一項(xiàng)關(guān)于RAG引發(fā)幻覺(jué)現(xiàn)象的測(cè)評(píng)報(bào)告,評(píng)估結(jié)果如圖2所示。根據(jù)評(píng)估結(jié)果顯示,即便加入了RAG技術(shù),大型語(yǔ)言模型仍然存在30%-40%的幻覺(jué)率,這是一個(gè)相當(dāng)高的比例。因此,在垂直領(lǐng)域應(yīng)用大型語(yǔ)言模型時(shí),除了文本的檢索增強(qiáng),還需要更加知識(shí)化的表達(dá),降低幻覺(jué)。圖2通用RAG也難以解決LLM幻覺(jué)問(wèn)題1.3案例類型本案例的類型為“知識(shí)圖譜增強(qiáng)大模型”。1.4系統(tǒng)或方案簡(jiǎn)介面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG(Knowledge-EnhancedGeneration)旨在融合知識(shí)圖譜的符號(hào)計(jì)算能力與向量檢索的優(yōu)勢(shì),同時(shí)結(jié)合大語(yǔ)言模型的理解與生成能力,構(gòu)建一個(gè)高效的知識(shí)增強(qiáng)生成系統(tǒng)。KAG的設(shè)計(jì)核心在于通過(guò)優(yōu)化知識(shí)表示、引入混合推理機(jī)制以及強(qiáng)化知識(shí)對(duì)齊等技術(shù)手段,解決大語(yǔ)言模型在專業(yè)領(lǐng)域應(yīng)用中的知識(shí)不足和邏輯推理能力欠缺的問(wèn)題,為構(gòu)建專業(yè)智能體提供了全新的技術(shù)路徑。首先,KAG對(duì)知識(shí)表示進(jìn)行了優(yōu)化升級(jí),使傳統(tǒng)知識(shí)圖譜從強(qiáng)Schema約束的靜態(tài)結(jié)構(gòu)轉(zhuǎn)變?yōu)楦m配大語(yǔ)言模型的動(dòng)態(tài)多元結(jié)構(gòu)。這種優(yōu)化不僅降低了知識(shí)圖譜的構(gòu)建門(mén)檻,還增強(qiáng)了其對(duì)上下文的理解能力,從而更好地支持復(fù)雜語(yǔ)義推理和生成任務(wù)。其次,KAG構(gòu)建了基于圖結(jié)構(gòu)的互索引機(jī)制,將傳統(tǒng)的term-based倒排索引升級(jí)為graph-based倒排索引,結(jié)合開(kāi)放信息抽取技術(shù),形成包含業(yè)務(wù)實(shí)體、通用概念知識(shí)和文檔片段的圖結(jié)構(gòu)。這種互索引機(jī)制能夠在保持語(yǔ)義關(guān)聯(lián)性的同時(shí),實(shí)現(xiàn)結(jié)構(gòu)化知識(shí)與文本數(shù)據(jù)的高效檢索。同時(shí),在推理層面,KAG采用了符號(hào)化邏輯推理與向量檢索相結(jié)合的混合推理機(jī)制。通過(guò)符號(hào)化邏輯推理,系統(tǒng)能夠生成邏輯嚴(yán)謹(jǐn)?shù)闹虚g表達(dá)形式,用于支持復(fù)雜的邏輯敏感決策;而向量檢索則彌補(bǔ)了知識(shí)圖譜稀疏性帶來(lái)的不足,確保在多層次知識(shí)檢索中實(shí)現(xiàn)高召回率和高準(zhǔn)確性。此外,KAG引入了知識(shí)對(duì)齊機(jī)制,通過(guò)概念知識(shí)完成開(kāi)放信息與領(lǐng)域知識(shí)的語(yǔ)義對(duì)齊,平衡開(kāi)放抽取的靈活性與專業(yè)知識(shí)的嚴(yán)謹(jǐn)性,確保生成內(nèi)容的精準(zhǔn)性和可靠性。最后,KAG通過(guò)指令合成實(shí)現(xiàn)大語(yǔ)言模型與知識(shí)圖譜的高效協(xié)同。知識(shí)圖譜的結(jié)構(gòu)化特性被用于生成邏輯可執(zhí)行的指令,提升語(yǔ)言模型在自然語(yǔ)言理解、推理和生成任務(wù)中的表現(xiàn),同時(shí)降低了大模型的使用成本。通過(guò)這種協(xié)同機(jī)制,KAG能夠充分整合符號(hào)計(jì)算和向量檢索的優(yōu)勢(shì),推動(dòng)大語(yǔ)言模型在專業(yè)領(lǐng)域的能力提升和應(yīng)用擴(kuò)展。指標(biāo)/特性1:問(wèn)答準(zhǔn)確率顯著提升通過(guò)符號(hào)化邏輯推理和知識(shí)對(duì)齊機(jī)制,KAG能夠更好地理解復(fù)雜問(wèn)題并生成嚴(yán)謹(jǐn)?shù)拇鸢?,避免了傳統(tǒng)方法中因知識(shí)不足或邏輯錯(cuò)誤導(dǎo)致的回答偏差。同時(shí)通過(guò)引入領(lǐng)域知識(shí)圖譜和開(kāi)放信息抽取技術(shù),KAG能夠精準(zhǔn)識(shí)別領(lǐng)域術(shù)語(yǔ)和指標(biāo)間的邏輯關(guān)系,確保生成內(nèi)容的專業(yè)性和可靠性。具體在政務(wù)領(lǐng)域的問(wèn)答任務(wù)中,KAG框架通過(guò)知識(shí)圖譜與大語(yǔ)言模型的結(jié)合,將問(wèn)答準(zhǔn)確率從傳統(tǒng)方法的66%提升至91%。在在醫(yī)療領(lǐng)域的指標(biāo)解讀任務(wù)中,KAG的準(zhǔn)確率超過(guò)90%。指標(biāo)/特性2:幻覺(jué)率顯著降低KAG在生成過(guò)程中引入了符號(hào)化推理和多層次檢索機(jī)制,確保生成內(nèi)容基于真實(shí)知識(shí)和邏輯推導(dǎo),減少了模型生成虛假或誤導(dǎo)性信息的可能性。在生成任務(wù)案例2通用-面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG中,KAG框架通過(guò)知識(shí)圖譜的邏輯約束和語(yǔ)義對(duì)齊機(jī)制,可以將大語(yǔ)言模型的幻覺(jué)率從傳統(tǒng)RAG方法的30%-40%降至10%-15%。指標(biāo)/特性3:多跳問(wèn)答性能提升通過(guò)graph-based倒排索引和混合推理引擎,KAG能夠更高效地檢索和整合多層次知識(shí),支持復(fù)雜問(wèn)題的分步推理和回答。在通用數(shù)據(jù)集上的多跳問(wèn)答任務(wù)中,KAG相較于現(xiàn)有SOTA方法表現(xiàn)出顯著提升。具體在在2wiki數(shù)據(jù)集上,F(xiàn)1指標(biāo)相對(duì)提升33.5%;在HotpotQA數(shù)據(jù)集上,F(xiàn)1指標(biāo)相對(duì)提升19.6%。指標(biāo)/特性4:用戶體驗(yàn)優(yōu)化通過(guò)符號(hào)化推理和多層次檢索,KAG能夠在邏輯嚴(yán)謹(jǐn)性和生成靈活性之間實(shí)現(xiàn)平衡。KAG框架支持用戶根據(jù)場(chǎng)景需求調(diào)整生成內(nèi)容的準(zhǔn)確率和容忍度,在高準(zhǔn)確率需求場(chǎng)景中,生成內(nèi)容更為嚴(yán)謹(jǐn);在對(duì)準(zhǔn)確率有一定容忍度的場(chǎng)景中,生成內(nèi)容更為靈活。3.1系統(tǒng)架構(gòu)/方案架構(gòu)圖3KAG:知識(shí)增強(qiáng)生成技術(shù)框架面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成技術(shù)框架KAG是在OpenSPG開(kāi)源項(xiàng)目(螞蟻集團(tuán)23年開(kāi)源的語(yǔ)義增強(qiáng)可編程知識(shí)圖譜項(xiàng)目)基礎(chǔ)上的升級(jí),圖3展示了KAG的整體原理。KAG針對(duì)當(dāng)前大語(yǔ)言模型與知識(shí)圖譜結(jié)合的四個(gè)方面進(jìn)行了增強(qiáng):首先,在知識(shí)表示上進(jìn)行了增強(qiáng)。原有知識(shí)圖譜受到強(qiáng)Schema約束,導(dǎo)致應(yīng)用門(mén)檻較高且數(shù)據(jù)較為稀疏,使得在回答垂直領(lǐng)域問(wèn)題時(shí)經(jīng)常無(wú)解。為此,KAG對(duì)知識(shí)表示進(jìn)行了面向大語(yǔ)言模型的優(yōu)化升級(jí),使知識(shí)圖譜能夠更好地支持大型語(yǔ)言模型的應(yīng)用。其次,圖作為一個(gè)優(yōu)秀的集成工具,可以更好地連接各類知識(shí),無(wú)論是嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)知識(shí)還是文本中的信息。因此,KAG創(chuàng)建了互索引結(jié)構(gòu),將原來(lái)的term-based倒排索引,升級(jí)成graph-based倒排索引。這樣不僅能夠有效地索引文檔,還能保持文檔間的語(yǔ)義關(guān)聯(lián)性和實(shí)體間的連貫性。第三,在推理過(guò)程中,KAG采用了符號(hào)化拆解方式,以確保邏輯嚴(yán)謹(jǐn)性。語(yǔ)言模型生成的語(yǔ)言很難保證邏輯一致性,因此KAG引入了LogicForm驅(qū)動(dòng)的Solver和Reasoning,來(lái)進(jìn)行基于符號(hào)的拆解。第四,為了彌合知識(shí)圖譜構(gòu)建成本與實(shí)際應(yīng)用效率之間的差距,KAG借鑒了開(kāi)放信息抽?。╫peninformationextraction)的方法來(lái)構(gòu)建知識(shí)圖譜,這種方法大大降低了構(gòu)建成本,但也引入了更多噪聲。因此,KAG同時(shí)引入了知識(shí)對(duì)齊(knowledgealignment)機(jī)制,利用概念知識(shí)完成開(kāi)放信息與領(lǐng)域知識(shí)之間的對(duì)齊,旨在平衡開(kāi)放信息抽取與語(yǔ)義對(duì)齊的需求。3.2軟硬件環(huán)境3.2.1硬件要求CPU≥8cores;RAM≥32GB;Disk≥100GB。3.2.2軟件系統(tǒng)1、操作系統(tǒng)macOS用戶:macOSMonterey12.6或更新版本;Linux用戶:CentOS7/Ubuntu20.04或更新版本;Windows用戶:Windows10LTSC2021或更新版本。2、應(yīng)用軟件macOS/Linux用戶:Docker,DockerCompose;案例2通用-面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAGWindows用戶:WSL2/Hyper-V,Docker,DockerCompose;Docker≥24.0.0&DockerCompose≥v2.26.1;如果本地(Windows,Mac,orLinux)未安裝docker,請(qǐng)參考InstallDockerEngine完成。3、生成模型kag支持openai兼容類接口的所有生成模型服務(wù),如deepseek、qwen、openai等。開(kāi)發(fā)者可自行前往deepseek官網(wǎng)、通義千問(wèn)官網(wǎng)、openai官網(wǎng)等商業(yè)大模型官網(wǎng),提前完成賬戶的注冊(cè)以及模型服務(wù)的開(kāi)通,并獲取api-key,填入到后續(xù)的項(xiàng)目配置中。kag也支持對(duì)接ollama、xinference等提供的生成模型預(yù)測(cè)服務(wù),詳情可參考模型服務(wù)相關(guān)章節(jié)??焖匍_(kāi)始階段,強(qiáng)烈建議購(gòu)買商業(yè)大模型api完成試跑驗(yàn)證。4、表示模型kag支持openai兼容類接口的表示模型服務(wù),如openai、硅基流動(dòng)等。開(kāi)發(fā)者可自行前往硅基流動(dòng)官網(wǎng)、openai官網(wǎng)等商業(yè)大模型官網(wǎng),提前完成賬戶的注冊(cè)以及模型服務(wù)的開(kāi)通,并獲取api-key,填入到后續(xù)的項(xiàng)目配置中。kag也支持對(duì)接ollama、xinference等提供的表示模型預(yù)測(cè)服務(wù),詳情可參考模型服務(wù)相關(guān)章節(jié)??焖匍_(kāi)始階段,強(qiáng)烈建議購(gòu)買商業(yè)大模型api完成試跑驗(yàn)證。3.3技術(shù)路線詳情3.3.1LLMs友好的知識(shí)表示首先,KAG對(duì)語(yǔ)義表示進(jìn)行了升級(jí)(見(jiàn)圖4左側(cè))。這是繼23年OpenSPG項(xiàng)目開(kāi)源后的進(jìn)一步發(fā)展。OpenSPG項(xiàng)目的初衷之一,就是將知識(shí)圖譜從二元靜態(tài)結(jié)構(gòu)升級(jí)為多元?jiǎng)討B(tài)結(jié)構(gòu)。24年,基于在深度上下文感知方面取得的進(jìn)展,KAG增強(qiáng)了對(duì)文本上下文的理解,可以提供更豐富的上下文信息,更好地服務(wù)于語(yǔ)言模型。圖4LLMs友好的知識(shí)表示其次,KAG對(duì)圖結(jié)構(gòu)進(jìn)行了升級(jí)(見(jiàn)圖4右側(cè))。當(dāng)前的圖結(jié)構(gòu)主要分為兩大流派:LPG(LabeledPropertyGraph)和RDF(ResourceDescriptionFramework)。LPG能更好地兼容數(shù)據(jù)庫(kù),因?yàn)樗哂蠸chema模式,而RDF則相對(duì)開(kāi)放。為了更好地支持大型語(yǔ)言模型,并實(shí)現(xiàn)從數(shù)據(jù)(data)到信息(information)再到知識(shí)(knowledge)的轉(zhuǎn)變,KAG參考了DIKW層次范式來(lái)實(shí)現(xiàn)統(tǒng)一的融合,使得在同一實(shí)體空間中,既能進(jìn)行Schema約束的建模也能進(jìn)行無(wú)模式(schema-free)的建模。3.3.2互索引:結(jié)構(gòu)化知識(shí)與文本數(shù)據(jù)互索引結(jié)構(gòu)關(guān)鍵升級(jí)二,是從原有的term-based倒排索引升級(jí)到了graph-based倒排索引。通過(guò)基于實(shí)體和關(guān)系對(duì)文檔進(jìn)行倒排索引,這樣既可以在同一空間內(nèi)完成圖計(jì)算中的圖遍歷,也可以關(guān)聯(lián)到相應(yīng)的文檔片段(chunk),進(jìn)行相關(guān)性的召回。目前大火的GraphRAG范式的兩種主要做法:一種是微軟的GraphRAG,實(shí)際上微軟的GraphRAG并不算是嚴(yán)格意義上的GraphRAG,它只是用知識(shí)圖譜的方式組織了文檔結(jié)構(gòu),做了分層摘要,并且最終用摘要來(lái)回答用戶問(wèn)題。這種方式反而會(huì)引入更多幻覺(jué),這種做法在評(píng)估生成答案時(shí),只考慮了流暢性、問(wèn)題支持度和全面性,而沒(méi)有從事實(shí)性角度進(jìn)行評(píng)價(jià)。我們的測(cè)評(píng)顯示,微軟GraphRAG在事實(shí)回答準(zhǔn)確率方面表現(xiàn)并不佳。另一種以HippoRAG為代表,它采用圖的方式構(gòu)建倒排索引,并用圖的方式召回文檔來(lái)回答問(wèn)題。在多跳信息問(wèn)答上,相比傳統(tǒng)的NaiveRAG方法,HippoRAG表現(xiàn)出了顯著提升。當(dāng)獲取到原始文檔后,首先進(jìn)行開(kāi)放信息抽取。關(guān)于結(jié)構(gòu)化構(gòu)建的部分就不展案例2通用-面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG開(kāi)講了,傳統(tǒng)知識(shí)圖譜中及開(kāi)源的OpenSPG中都已經(jīng)有了較為成熟的解決方案。KAG會(huì)逐步抽取文檔中的關(guān)鍵元素及描述性信息,并對(duì)文本塊(chunk)進(jìn)行有效的語(yǔ)義切分,最終形成的圖結(jié)構(gòu)將包含三部分:具體業(yè)務(wù)實(shí)體、通用概念知識(shí)以及文本塊。這樣一來(lái),既可以在同一空間內(nèi)完成圖計(jì)算中的圖遍歷,也可以關(guān)聯(lián)到相應(yīng)的文檔片段(chunk),進(jìn)行相關(guān)性的召回。如圖5所示,通過(guò)圖結(jié)構(gòu)可以更有效地組織文檔間的關(guān)聯(lián)。圖5結(jié)構(gòu)化知識(shí)與文本數(shù)據(jù)互索引結(jié)構(gòu)以上開(kāi)放知識(shí)抽取可基于OneKE進(jìn)行,OneKE是螞蟻集團(tuán)與浙江大學(xué)合作于24年5月發(fā)布的大模型知識(shí)抽取框架,主要支持結(jié)構(gòu)化信息抽取,使得在較小參數(shù)量的大模型上也能取得與更大參數(shù)量大模型相媲美的效果。它在實(shí)體識(shí)別、關(guān)系抽取和事件抽取等方面表現(xiàn)出色。最近,OneKE又做了進(jìn)一步升級(jí),使其能夠同時(shí)支持開(kāi)放信息抽取。3.3.3混合推理:符號(hào)決策、向量檢索與大模型混合推理第三個(gè)升級(jí)是構(gòu)建一個(gè)混合推理引擎(見(jiàn)圖6)。就像人類在回答問(wèn)題前,要經(jīng)過(guò)思考和規(guī)劃一樣,KAG開(kāi)發(fā)了一套技術(shù)范式,基于知識(shí)圖譜來(lái)支撐嚴(yán)謹(jǐn)決策的問(wèn)題。采用混合互索引的方式,既支持時(shí)間、數(shù)值、邏輯敏感的復(fù)雜決策執(zhí)行,又能通過(guò)信息檢索彌補(bǔ)知識(shí)圖譜的稀疏性和知識(shí)不足之處。我們希望能夠在垂直領(lǐng)域?qū)崿F(xiàn)更準(zhǔn)確的事實(shí)性回答,同時(shí)盡量不破壞知識(shí)的分層結(jié)構(gòu)。這意味著在同一領(lǐng)域內(nèi),既有專業(yè)且嚴(yán)謹(jǐn)?shù)腟chema約束知識(shí),也有通過(guò)文檔提取出的圖結(jié)構(gòu)信息或知識(shí),以及原始文檔。如果能夠?qū)崿F(xiàn)這些不同層級(jí)知識(shí)的融合,就可以構(gòu)建一個(gè)從嚴(yán)格到相對(duì)寬松的決策范式。前一段時(shí)間OpenAI發(fā)布的o1模型也是在長(zhǎng)鏈條邏輯推理上有了重大進(jìn)步,但出于競(jìng)爭(zhēng)優(yōu)勢(shì)的考慮,未向用戶展示原始思維鏈。圖6符號(hào)決策、向量檢索與大模型混合推理在KAG框架中,采用符號(hào)驅(qū)動(dòng)的問(wèn)題求解方法,能夠生成邏輯上可執(zhí)行的Logicform表達(dá)式,即LogicQuery作為中間態(tài)的邏輯執(zhí)行計(jì)劃。獲得LogicQuery后,由于所有數(shù)據(jù)均基于圖結(jié)構(gòu)構(gòu)建,就可以在圖空間中進(jìn)行操作。圖空間內(nèi)部存在分層結(jié)構(gòu),首先是邏輯嚴(yán)謹(jǐn)?shù)闹R(shí),其次是開(kāi)放的信息知識(shí)。這使得KAG可以分層決策,首先在邏輯嚴(yán)謹(jǐn)?shù)闹R(shí)層進(jìn)行決策,如果沒(méi)有找到答案,則在開(kāi)放信息層繼續(xù)決策,如果仍未找到答案,則在chunk空間進(jìn)行關(guān)聯(lián)檢索,從而顯著提高召回率和回答的準(zhǔn)確性。summary,這種方法能根據(jù)Query結(jié)構(gòu)來(lái)提取答案。傳統(tǒng)知識(shí)圖譜或索引的一個(gè)主要問(wèn)題是索引構(gòu)建與用戶查詢相分離,容易導(dǎo)致知識(shí)粒度不匹配,而通過(guò)query-focused總結(jié)方式可以更好地彌補(bǔ)這一差距。圖7展示了KAG的整體混合推理架構(gòu)圖及具體示例。例如,當(dāng)詢問(wèn)“美國(guó)內(nèi)戰(zhàn)后,主張對(duì)南方各州實(shí)行嚴(yán)厲懲罰的政黨在2010年控制了哪個(gè)機(jī)構(gòu)?”時(shí),系統(tǒng)會(huì)將其拆解成邏輯符號(hào)表達(dá)形式。這種表達(dá)方式可以直接轉(zhuǎn)化為KGDSL,但考慮到自然語(yǔ)言生成的函數(shù)表達(dá)的準(zhǔn)確率和簡(jiǎn)潔性,KAG選擇采用自然語(yǔ)言生成的案例2通用-面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG函數(shù)表達(dá)來(lái)表示邏輯執(zhí)行計(jì)劃。圖7符號(hào)決策與大模型混合推理目前,KAG采取了三階段推理,在生成之前,首先在圖譜存儲(chǔ)空間中進(jìn)行exactmatch,接著進(jìn)行SPO的Retrieval,然后是chunk的Retrieval,實(shí)現(xiàn)分層檢索與推理。在生成階段,通過(guò)引入圖譜知識(shí)來(lái)緩解或抑制大語(yǔ)言模型生成時(shí)產(chǎn)生的幻覺(jué)。在前面文本中抽取知識(shí)圖譜的環(huán)節(jié),文本與知識(shí)圖譜之間形成了良好的結(jié)構(gòu)化數(shù)據(jù)與文本映射關(guān)系。首先,從文本到結(jié)構(gòu)化,可以提取出關(guān)鍵要素信息;其次,結(jié)構(gòu)化的圖譜使大語(yǔ)言模型更好地熟悉基于此類圖結(jié)構(gòu)生成文本的任務(wù)形式。因此,螞蟻設(shè)計(jì)了文本到SPO及SPO到文本之間的雙向映射任務(wù),前者用于知識(shí)抽取,后者用于生成過(guò)程。通過(guò)這種方式合成語(yǔ)料,無(wú)論是用于SFT階段還是強(qiáng)化對(duì)齊階段,都能較好減少大型語(yǔ)言模型的幻覺(jué)。通過(guò)原始文本可以抽取多個(gè)三元組,再通過(guò)微調(diào)和強(qiáng)化對(duì)齊,將這些信息注入語(yǔ)言模型中,使模型在生成時(shí)更好地遵循結(jié)構(gòu)范式。螞蟻將這一能力應(yīng)用到內(nèi)部業(yè)務(wù)中,例如區(qū)域風(fēng)險(xiǎn)報(bào)告生成場(chǎng)景。相較于原有的歸檔模型生成,幻覺(jué)率有了明顯下降。3.3.4語(yǔ)義對(duì)齊:平衡信息檢索與專業(yè)決策第四個(gè)關(guān)鍵升級(jí)在于平衡專業(yè)決策與信息檢索。信息檢索本質(zhì)上是對(duì)搜索引擎的升級(jí),允許一定程度的錯(cuò)誤率,但專業(yè)決策,對(duì)于錯(cuò)誤的容忍度是很低。在統(tǒng)一的知識(shí)服務(wù)框架下,同時(shí)進(jìn)行信息檢索和專業(yè)決策是一項(xiàng)挑戰(zhàn)。因此,KAG對(duì)這一能力進(jìn)行了升級(jí)(參加圖8在頂層通過(guò)開(kāi)放信息抽取獲得結(jié)構(gòu)化要素,在底層通過(guò)Schema約束構(gòu)建更為嚴(yán)謹(jǐn)?shù)闹R(shí)。圖8平衡專業(yè)決策與信息檢索最終,通過(guò)基于概念的語(yǔ)義對(duì)齊,構(gòu)建一個(gè)基于SPG的領(lǐng)域知識(shí)圖譜,能更好地兼容信息檢索所需的開(kāi)放抽取能力,和專業(yè)決策所需的Schema約束構(gòu)建能力。圖9是一個(gè)簡(jiǎn)單的示例,展示了KAG如何基于開(kāi)放信息抽取構(gòu)建一個(gè)語(yǔ)義對(duì)齊后的圖譜。從左側(cè)的原始文本開(kāi)始,對(duì)其進(jìn)行語(yǔ)義切分,再進(jìn)一步信息抽取,即可建立實(shí)體之間的關(guān)聯(lián),此時(shí)圖譜仍包含大量噪聲。當(dāng)前業(yè)界主流的GraphRAG解決方案僅達(dá)到informationextraction階段,即生成三元組圖后直接寫(xiě)入圖數(shù)據(jù)庫(kù)。然而,語(yǔ)義對(duì)齊才是知識(shí)圖譜構(gòu)建最困難的部分。為此,KAG進(jìn)行了大量探索,比如在提取的信息中運(yùn)用圖譜的傳統(tǒng)方法,如實(shí)體鏈接、實(shí)體融合、概念與事實(shí)分層等,最終整個(gè)圖結(jié)構(gòu)的密度和語(yǔ)義完備性得到了顯著改善。案例2通用-面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG圖9開(kāi)放信息抽取語(yǔ)義自動(dòng)對(duì)齊除了開(kāi)放域外,KAG在垂直領(lǐng)域也進(jìn)行了應(yīng)用。垂直領(lǐng)域包含大量術(shù)語(yǔ)庫(kù)、詞匯庫(kù)和概念庫(kù),例如醫(yī)療術(shù)語(yǔ)、法律術(shù)語(yǔ)和經(jīng)濟(jì)術(shù)語(yǔ),這些術(shù)語(yǔ)對(duì)于大型語(yǔ)言模型來(lái)說(shuō)可能難以完全掌握。因此,KGA通過(guò)在開(kāi)放抽取過(guò)程中嘗試實(shí)現(xiàn)領(lǐng)域詞匯和概念的注入,以提高抽取效率和與領(lǐng)域知識(shí)對(duì)齊的準(zhǔn)確性。圖10KAG在通用數(shù)據(jù)集上的效果經(jīng)過(guò)優(yōu)化,不僅驗(yàn)證了KAG在垂直領(lǐng)域的適應(yīng)性,而且在通用數(shù)據(jù)集多跳問(wèn)答中與現(xiàn)有RAG方法進(jìn)行比較,發(fā)現(xiàn)它明顯優(yōu)于SOTA方法(見(jiàn)圖10),在2wiki上F1相對(duì)提升33.5%,在hotpotQA上相對(duì)提高19.6%。3.4應(yīng)用場(chǎng)景或應(yīng)用方式KAG框架通過(guò)結(jié)合知識(shí)圖譜與大語(yǔ)言模型的能力,可以廣泛應(yīng)用于不同專業(yè)領(lǐng)域場(chǎng)景,提供從信息分析到知識(shí)問(wèn)答的全方位應(yīng)用支持。如圖11所示,在生活服務(wù)領(lǐng)域,KAG可支持生成熱點(diǎn)事件小報(bào),通過(guò)深度解讀政策、經(jīng)濟(jì)趨勢(shì)等信息,為用戶提供精準(zhǔn)的內(nèi)容分析。在金融領(lǐng)域,KAG可用于銀行風(fēng)險(xiǎn)分析和保險(xiǎn)事件帶貨等場(chǎng)景,利用符號(hào)推理和知識(shí)增強(qiáng)技術(shù),支持復(fù)雜的業(yè)務(wù)決策和風(fēng)險(xiǎn)評(píng)估。在醫(yī)療健康領(lǐng)域,KAG可支撐提供智能健康問(wèn)答服務(wù),解答用戶關(guān)于健康問(wèn)題的專業(yè)咨詢,并生成相關(guān)健康報(bào)告。此外,在政務(wù)領(lǐng)域,KAG可用于支持政務(wù)辦事問(wèn)答,幫助用戶快速獲取政策解讀和辦理流程信息。在這些場(chǎng)景中,KAG可以實(shí)現(xiàn)知識(shí)的精準(zhǔn)獲取、邏輯嚴(yán)謹(jǐn)?shù)耐评硪约案咝У纳?,為垂直領(lǐng)域的智能化服務(wù)提供強(qiáng)有力的技術(shù)支撐。圖11KAG在垂直領(lǐng)域中的應(yīng)用3.5安全保障措施KAG框架在安全保障方面采取了全面的措施,確保大模型與知識(shí)圖譜融合內(nèi)容的安全性、數(shù)據(jù)隱私性以及系統(tǒng)的穩(wěn)定性。在內(nèi)容安全方面,KAG通過(guò)符號(hào)化案例2通用-面向?qū)I(yè)領(lǐng)域的知識(shí)增強(qiáng)生成框架KAG邏輯推理和語(yǔ)義對(duì)齊機(jī)制嚴(yán)格約束生成內(nèi)容,確保其符合領(lǐng)域知識(shí)的邏輯和事實(shí),減少幻覺(jué)現(xiàn)象和誤導(dǎo)性信息的生成,同時(shí)引入多層次驗(yàn)證機(jī)制對(duì)生成結(jié)果進(jìn)行邏輯和事實(shí)校驗(yàn)。在數(shù)據(jù)安全方面,框架對(duì)用戶數(shù)據(jù)和敏感信息進(jìn)行匿名化處理,采用加密存儲(chǔ)和嚴(yán)格的權(quán)限管理機(jī)制防止未經(jīng)授權(quán)的訪問(wèn),并通過(guò)數(shù)據(jù)溯源與審計(jì)功能確保數(shù)據(jù)使用的透明性和合規(guī)性。在系統(tǒng)安全方面,KAG通過(guò)模塊化設(shè)計(jì)實(shí)現(xiàn)大模型與知識(shí)圖譜的隔離與協(xié)同,降低系統(tǒng)被攻擊的風(fēng)險(xiǎn),同時(shí)引入容錯(cuò)機(jī)制和異常檢測(cè)系統(tǒng)實(shí)時(shí)監(jiān)控生成過(guò)程中的異常行為,并通過(guò)動(dòng)態(tài)更新和安全補(bǔ)丁修復(fù)潛在漏洞,確保系統(tǒng)的穩(wěn)定性和安全性。這些措施共同保障了KAG在專業(yè)領(lǐng)域應(yīng)用中的可靠性和安全性。示范意義1:提升大模型在專業(yè)領(lǐng)域的可信性與實(shí)用性KAG框架通過(guò)融合知識(shí)圖譜的符號(hào)計(jì)算與向量檢索的優(yōu)勢(shì),解決了大模型在專業(yè)領(lǐng)域中面臨的知識(shí)不足、邏輯不嚴(yán)謹(jǐn)以及幻覺(jué)率高等問(wèn)題,為行業(yè)提供了可信、嚴(yán)謹(jǐn)?shù)闹悄芑鉀Q方案。通過(guò)引入符號(hào)推理、知識(shí)對(duì)齊和混合推理等技術(shù),KAG能夠在復(fù)雜決策場(chǎng)景中實(shí)現(xiàn)邏輯嚴(yán)謹(jǐn)?shù)耐评砗透咝У闹R(shí)調(diào)用,顯著提升了大模型在政務(wù)、醫(yī)療、金融等垂直領(lǐng)域的應(yīng)用效果。這一框架為行業(yè)樹(shù)立了大模型與專業(yè)知識(shí)深度融合的標(biāo)桿,推動(dòng)了智能技術(shù)在專業(yè)場(chǎng)景中的落地與普及。示范意義2:推動(dòng)專業(yè)領(lǐng)域知識(shí)服務(wù)的智能化升級(jí)KAG框架通過(guò)構(gòu)建知識(shí)增強(qiáng)的大語(yǔ)言模型生成系統(tǒng),為行業(yè)提供了從知識(shí)獲取到智能生成的全流程支持,滿足了專業(yè)領(lǐng)域?qū)χR(shí)準(zhǔn)確性、邏輯嚴(yán)謹(jǐn)性和上下文完備性的高要求。其在復(fù)雜業(yè)務(wù)場(chǎng)景中的成功應(yīng)用,如政務(wù)問(wèn)答、醫(yī)療健康和金融分析,展示了知識(shí)增強(qiáng)技術(shù)在提升行業(yè)效率、優(yōu)化決策流程方面的巨大潛力。KAG的實(shí)踐為行業(yè)智能化升級(jí)提供了可行路徑,推動(dòng)了專業(yè)知識(shí)服務(wù)從傳統(tǒng)模式向智能化、自動(dòng)化的轉(zhuǎn)型。盡管KAG框架在知識(shí)增強(qiáng)和專業(yè)領(lǐng)域應(yīng)用方面展現(xiàn)了顯著優(yōu)勢(shì),但仍存在一些問(wèn)題和不足。首先,知識(shí)圖譜的構(gòu)建和維護(hù)成本較高,尤其是在垂直領(lǐng)域中,數(shù)據(jù)的稀疏性和領(lǐng)域知識(shí)的復(fù)雜性可能導(dǎo)致知識(shí)覆蓋不足或更新不及時(shí)。其次,符號(hào)推理與向量檢索的融合雖然提升了邏輯嚴(yán)謹(jǐn)性,但在處理開(kāi)放性問(wèn)題或跨領(lǐng)域知識(shí)時(shí),可能會(huì)面臨推理效率和準(zhǔn)確性之間的權(quán)衡。此外,大模型生成內(nèi)容的幻覺(jué)問(wèn)題雖然通過(guò)知識(shí)對(duì)齊和邏輯約束有所緩解,但在復(fù)雜場(chǎng)景中仍可能出現(xiàn)隱性錯(cuò)誤,尤其是涉及多跳推理或高度專業(yè)化的知識(shí)時(shí),生成結(jié)果的可靠性仍需進(jìn)一步驗(yàn)證。最后,框架的實(shí)際應(yīng)用效果在很大程度上依賴于領(lǐng)域知識(shí)的質(zhì)量和模型的調(diào)優(yōu)能力,這對(duì)技術(shù)團(tuán)隊(duì)的專業(yè)性和資源投入提出了較高要求。6.1展望1:構(gòu)建私域知識(shí)庫(kù),提升專業(yè)領(lǐng)域的可信問(wèn)答能力在大模型背景下,私域知識(shí)庫(kù)的構(gòu)建將成為KAG未來(lái)發(fā)展的重要方向。針對(duì)企業(yè)和機(jī)構(gòu)的專屬知識(shí)需求,KAG將進(jìn)一步優(yōu)化知識(shí)圖譜的構(gòu)建與管理能力,支持私域數(shù)據(jù)的高效整合與動(dòng)態(tài)更新。通過(guò)引入更強(qiáng)的語(yǔ)義對(duì)齊和知識(shí)抽取技術(shù),KAG能夠幫助用戶快速構(gòu)建專屬的私域知識(shí)庫(kù),并確保知識(shí)的準(zhǔn)確性和時(shí)效性。此外,KAG將重點(diǎn)解決私域知識(shí)庫(kù)在可信問(wèn)答中的應(yīng)用問(wèn)題,通過(guò)符號(hào)推理與向量檢索的結(jié)合,確保生成內(nèi)容的邏輯嚴(yán)謹(jǐn)性和事實(shí)可靠性。這一方向?qū)⑻貏e適用于金融、醫(yī)療、法律等對(duì)知識(shí)準(zhǔn)確性要求極高的領(lǐng)域,幫助企業(yè)實(shí)現(xiàn)知識(shí)資產(chǎn)的智能化管理與應(yīng)用。6.2展望2:兼顧事實(shí)推理與摘要生成,提升復(fù)雜場(chǎng)景的知識(shí)服務(wù)能力KAG的下一步規(guī)劃是進(jìn)一步提升其在事實(shí)推理與摘要生成方面的能力,以應(yīng)對(duì)復(fù)雜場(chǎng)景中的多樣化需求。在事實(shí)推理方面,KAG將繼續(xù)優(yōu)化基于LogicForm的符號(hào)推理機(jī)制,確保在多跳推理、時(shí)間敏感性和數(shù)字敏感性問(wèn)題上能夠提供準(zhǔn)確的答案。在摘要生成方面,KAG將探索基于知識(shí)圖譜的上下文感知生成技術(shù),支持從大規(guī)模文檔中提取關(guān)鍵信息并生成高質(zhì)量的摘要。這一能力將廣泛應(yīng)用于

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論