版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告編寫(xiě)委員會(huì)):):向“賺錢(qián)”轉(zhuǎn)型,產(chǎn)業(yè)側(cè)從“數(shù)量型”向“質(zhì)技術(shù)方面,隨著人工智能加速發(fā)展,數(shù)據(jù)庫(kù)技術(shù)架構(gòu)持續(xù)革新,邁入AI原生時(shí)代,呈現(xiàn)出十個(gè)細(xì)分發(fā)展方向。分別是交易分析一體高效資源管理、機(jī)器學(xué)習(xí)優(yōu)化數(shù)據(jù)庫(kù)應(yīng)用效能、TexttoSQL/TexttoAI原生數(shù)據(jù)庫(kù)解鎖場(chǎng)景新可能以及數(shù)據(jù)庫(kù)智能體提供數(shù)據(jù)交互新模應(yīng)用方面,國(guó)產(chǎn)數(shù)據(jù)庫(kù)應(yīng)用規(guī)模不斷擴(kuò)大,用戶體驗(yàn)不斷提升。本報(bào)告是中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2024年)》發(fā)布后的第五本數(shù)據(jù)庫(kù)年度綜qidanyang@。 1 3 3 4 6 7 9 16 3.標(biāo)準(zhǔn)方面,我國(guó)數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)體系日益完善,引 24 30 2 3 4 4 5 6 6 7 9 25 33 34 表2基于預(yù)訓(xùn)練模型和大語(yǔ)言模型的NL2S 35 一、數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展情況綜述(一)數(shù)據(jù)庫(kù)產(chǎn)業(yè)及市場(chǎng)1.全球及中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)來(lái)源:CCSATC601,2025年6月圖12024-2027年中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模及增速據(jù)CCSATC601測(cè)算1,2024年全球數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模約為1154人民幣占全球7.3%2。預(yù)計(jì)到2027年,中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)總規(guī)模來(lái)源:CCSATC601,2025年6月圖22023-2025中國(guó)公有云和本地部署數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模據(jù)CCSATC601測(cè)算,按數(shù)據(jù)庫(kù)部署方式劃分市場(chǎng)規(guī)模,20242《中華人民共和國(guó)2024年國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》,國(guó)家統(tǒng)計(jì)局,2024年全年人民幣平均匯率為(二)數(shù)據(jù)庫(kù)產(chǎn)品及服務(wù)1.全球數(shù)據(jù)庫(kù)市場(chǎng)形成多強(qiáng)格局2024年,全球企業(yè)數(shù)量有所收斂,市場(chǎng)形成多強(qiáng)格局,我國(guó)頭部云廠商依舊維持在領(lǐng)導(dǎo)者象限的領(lǐng)跑地位,分析型數(shù)據(jù)庫(kù)廠商Databricks和Snowflake也位于該象限;從國(guó)內(nèi)看,阿里云和華為云來(lái)源:CCSATC601,2025年6月圖3全球及我國(guó)數(shù)據(jù)庫(kù)企業(yè)數(shù)量變化趨勢(shì)來(lái)源:CCSATC601,2025年6月圖4全球數(shù)據(jù)庫(kù)企業(yè)分布2014年以來(lái),我國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)不斷壯大,數(shù)據(jù)庫(kù)產(chǎn)品提供商逐2.全球數(shù)據(jù)庫(kù)進(jìn)入高質(zhì)量發(fā)展期來(lái)源:CCSATC601,2025年6月圖5全球數(shù)據(jù)庫(kù)企業(yè)開(kāi)展業(yè)務(wù)時(shí)間4全球數(shù)據(jù)庫(kù)發(fā)展經(jīng)歷兩次熱潮,21世紀(jì)后進(jìn)入蓬勃發(fā)展期,并于近兩年趨于理性5。從企業(yè)開(kāi)展數(shù)據(jù)庫(kù)業(yè)務(wù)時(shí)間看,全球數(shù)據(jù)庫(kù)企 來(lái)源:CCSATC601,2025年6月圖6我國(guó)數(shù)據(jù)庫(kù)企業(yè)開(kāi)展業(yè)務(wù)時(shí)間5在《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2024年)》的基礎(chǔ)上3.全球數(shù)據(jù)庫(kù)從業(yè)人員保持穩(wěn)定來(lái)源:CCSATC601,2025年6月圖7全球數(shù)據(jù)庫(kù)企業(yè)人員數(shù)量分布技術(shù)人員位于21-50人數(shù)量區(qū)間。據(jù)CCSATC601統(tǒng)計(jì),截至2025足30人。最高為7000人左右規(guī)模,最低不足5人左右規(guī)模。其中21-50人規(guī)模企業(yè)占比最高,數(shù)量96個(gè),比例達(dá)到24.0%,人數(shù)在來(lái)源:CCSATC601,2025年6月圖8我國(guó)數(shù)據(jù)庫(kù)企業(yè)人員數(shù)量分布4.國(guó)內(nèi)外產(chǎn)品類(lèi)型數(shù)量分布各有側(cè)重來(lái)源:CCSATC601,2025年6月圖9全球數(shù)據(jù)庫(kù)產(chǎn)品類(lèi)型分布全球數(shù)據(jù)庫(kù)產(chǎn)品數(shù)量整體分布呈現(xiàn)以非關(guān)系型及混合型數(shù)據(jù)庫(kù)的533個(gè)數(shù)據(jù)庫(kù)產(chǎn)品中,關(guān)系型數(shù)據(jù)庫(kù)228個(gè),非關(guān)系型數(shù)據(jù)庫(kù)有據(jù)庫(kù)73個(gè)、文檔數(shù)據(jù)庫(kù)52個(gè)、圖數(shù)據(jù)庫(kù)46個(gè),在非關(guān)系數(shù)據(jù)庫(kù)中來(lái)源:CCSATC601,2025年6月圖10我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品類(lèi)型分布目前我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品共有164款。其中,關(guān)系型數(shù)據(jù)庫(kù)96個(gè),非關(guān)5.非關(guān)系型數(shù)據(jù)庫(kù)呈現(xiàn)百花齊放態(tài)勢(shì),向量數(shù)據(jù)庫(kù)熱度持續(xù)攀升上升到2025年的57.4%,產(chǎn)品熱度持續(xù)走高。來(lái)源:CCSATC601,2025年6月圖11過(guò)去四年全球非關(guān)系型數(shù)據(jù)庫(kù)數(shù)量占比排名來(lái)源:CCSATC601,2025年6月圖12過(guò)去四年我國(guó)非關(guān)系型數(shù)據(jù)庫(kù)數(shù)量占比排名6.國(guó)外商用數(shù)據(jù)庫(kù)占比略有上升,我國(guó)以商用為主來(lái)源:CCSATC601,2025年6月圖13全球數(shù)據(jù)庫(kù)產(chǎn)品商用開(kāi)源對(duì)比來(lái)源:CCSATC601,2025年6月圖14全球活躍開(kāi)源數(shù)據(jù)庫(kù)開(kāi)源時(shí)間不斷推出,于2006年后迅速發(fā)展,產(chǎn)品數(shù)量每隔5年呈2-3倍增長(zhǎng)。來(lái)源:CCSATC601,2025年6月圖15我國(guó)活躍開(kāi)源數(shù)據(jù)庫(kù)的開(kāi)源時(shí)間我國(guó)開(kāi)源數(shù)據(jù)庫(kù)產(chǎn)品始于2010年后,2017和2021年開(kāi)源產(chǎn)品7.我國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模持續(xù)擴(kuò)大,市場(chǎng)格局逐步顯現(xiàn)2024年,中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)頭部效應(yīng)明顯,產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大,來(lái)源:CCSATC601,2025年6月圖16我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品數(shù)量規(guī)模逐步擴(kuò)大,產(chǎn)品數(shù)量呈現(xiàn)迅速增長(zhǎng)的趨勢(shì),8.重點(diǎn)行業(yè)頭部用戶運(yùn)維投入逐年增長(zhǎng),研發(fā)投入有所來(lái)源:CCSATC601,2025年6月圖172022-2024年重點(diǎn)行業(yè)頭部用戶研發(fā)/運(yùn)維人員數(shù)量和投入資金變化綜合來(lái)看,過(guò)去三年入選企業(yè)人員規(guī)模均呈逐年增長(zhǎng)趨勢(shì),數(shù)據(jù)來(lái)源:CCSATC601,2025年6月圖182024年研發(fā)人員數(shù)量及投入資金區(qū)間分布間;從研發(fā)人員數(shù)量看,近四成企業(yè)研發(fā)人員數(shù)量少于5人,僅有來(lái)源:CCSATC601,2025年6月圖192024年運(yùn)維的人員數(shù)量/投入資金區(qū)間分布業(yè)運(yùn)維人員數(shù)量少于15人,規(guī)模為5-10人區(qū)間占比最多為27%。1.創(chuàng)新方面,多模融合成為研究重點(diǎn),我國(guó)科研實(shí)力穩(wěn)步增強(qiáng)來(lái)源:CCSATC601,2025年6月圖202024年VLDB、ICDE和SIGMOD論文分布情況究方向看,與近兩年統(tǒng)計(jì)情況基本保持一致7,當(dāng)前非關(guān)系型數(shù)據(jù)庫(kù)研究?jī)?nèi)容數(shù)量占比完全超過(guò)關(guān)系型數(shù)據(jù)庫(kù)。以VLDB為例,各類(lèi)數(shù)據(jù)庫(kù)論文的發(fā)表數(shù)量分別為:非關(guān)系型數(shù)據(jù)庫(kù)論文52篇,關(guān)系型數(shù)非關(guān)系型數(shù)據(jù)庫(kù)論文所占比例為12.32%,關(guān)系型數(shù)據(jù)庫(kù)論文所占比例為3.79%。在SIGMOD會(huì)議中,各類(lèi)數(shù)據(jù)庫(kù)論文的發(fā)表數(shù)量分別類(lèi)型論文267篇。非關(guān)系型數(shù)據(jù)庫(kù)論文占總論文數(shù)量的13.54%,關(guān)7近兩年統(tǒng)計(jì)情況可分別參考《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2023)》、庫(kù)論文的發(fā)表數(shù)量分別為:非關(guān)系型數(shù)據(jù)庫(kù)論文48篇,關(guān)系型數(shù)據(jù)SIGMOD三大會(huì)議研究方向的數(shù)據(jù)都顯示出當(dāng)前的研究重點(diǎn)為非關(guān)來(lái)源:CCSATC601,2025年6月圖212024年VLDB、ICDE和SIGMOD論文關(guān)鍵詞云圖綜合分析數(shù)據(jù)庫(kù)三大頂會(huì)論文研究主題,2024年“優(yōu)化”成為來(lái)源:CCSATC601,2025年6月圖222022-2024年中國(guó)高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)情況數(shù)量呈逐年上升趨勢(shì),2022-2023年中國(guó)高校企業(yè)在學(xué)術(shù)論文會(huì)議的來(lái)源:CCSATC601,2025年6月圖232024年中國(guó)高校三大會(huì)議論文數(shù)量前20名此外,超過(guò)10篇文章的高校包括清華大學(xué)、浙江大學(xué)、來(lái)源:CCSATC601,2025年6月圖242024年中國(guó)企業(yè)三大會(huì)議論文數(shù)量前10名美團(tuán)、奧星貝斯、天謀科技、中興通訊、百度、KaiwuDB等企業(yè)均2.投融資方面,PG生態(tài)獲得青睞,多云管理和AI成為融資亮點(diǎn)帶來(lái)的強(qiáng)大吸引力,也預(yù)示著多云管理和AI賦能將成為未來(lái)數(shù)據(jù)庫(kù)資,此次融資將用于進(jìn)一步擴(kuò)大其市場(chǎng)覆蓋,并計(jì)劃推出基于AI驅(qū)使得開(kāi)發(fā)者能夠在本地完全運(yùn)行由AI驅(qū)動(dòng)的完整開(kāi)發(fā)環(huán)境,其推出托管服務(wù)商N(yùn)eon,加強(qiáng)其在多云環(huán)境中數(shù)據(jù)處理能力的戰(zhàn)略布局。的商業(yè)發(fā)行版公司CrunchyData,以擴(kuò)大其AIDat圖。這些收購(gòu)行為不僅鞏固了PostgreSQL生態(tài)在全球數(shù)據(jù)庫(kù)市場(chǎng)中的地位,也顯示了資本市場(chǎng)對(duì)于PostgreSQL技術(shù)發(fā)展方向和社區(qū)生3.標(biāo)準(zhǔn)方面,我國(guó)數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)體系日益完善,引領(lǐng)數(shù)據(jù)庫(kù)產(chǎn)業(yè)高質(zhì)量發(fā)展確了到2026年底基本建成國(guó)家數(shù)據(jù)標(biāo)準(zhǔn)體系的目標(biāo),圍繞數(shù)據(jù)流通來(lái)源:CCSATC601,2025年6月圖25CCSATC601數(shù)據(jù)庫(kù)領(lǐng)域標(biāo)準(zhǔn)化工作體系中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)(CCSATC601)組(WG4)。自2015年起共推出40余項(xiàng)標(biāo)準(zhǔn),逐步構(gòu)建以數(shù)據(jù)庫(kù)二、數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)發(fā)展趨勢(shì)(一)技術(shù)架構(gòu)持續(xù)革新以PostgreSQL和MySQL等解決了數(shù)據(jù)存儲(chǔ)、管理和查詢問(wèn)題的單馬遜Aurora、華為云GaussDB及騰訊云數(shù)據(jù)庫(kù)等解決大數(shù)據(jù)時(shí)代彈1.從分而治之到交易分析一體化8李國(guó)良,周煊赫.軒轅:AI原生數(shù)據(jù)庫(kù)系統(tǒng)[J].軟件學(xué)報(bào),2020,31(3):831?844.andAnalyticalProcessing)架構(gòu)應(yīng)運(yùn)而生,通過(guò)將事務(wù)處理與分析處本、單機(jī)磁盤(pán)型行存與分布式列存以及列存巴及上海人工智能實(shí)驗(yàn)室的專家們提出了能夠進(jìn)行圖分析處理的事務(wù)分析混合處理的原生分布式圖數(shù)據(jù)庫(kù)Gal來(lái)源:上海交通大學(xué)等圖26GART系統(tǒng)的總體架構(gòu)(虛線框內(nèi)的組件是HTGAP擴(kuò)展的新功能)9張超,李國(guó)良,馮建華,等.HTAP數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)綜述[J].軟件學(xué)報(bào),2023,34(010BingTong,YanZhou,ChenZhang,JianhengTBao,JiaLi,andLeiChen.Galaxybase:AHighPerformanceNativeDi2.從本地部署到云上運(yùn)行云計(jì)算自2006年開(kāi)始迅速發(fā)展,各組織上云進(jìn)程不斷加速,傳BridgingtheGapbetweenRelationalOLTPandGraph-basedOLAP.In2023USENIXAConference(USENIXATC13XiPangandJianguoWang.2024.UnderstandingthePerformanceImplicationsoftheDesignStorage-DisaggregatedDatabases.Proc.ACMManag.Data諸多企業(yè)采用的存算分離架構(gòu)以及應(yīng)用其他相關(guān)技術(shù)也使得產(chǎn)品在云環(huán)境中能力得到提升:IBMDb2Warehouse14、TiDB等采用LSM-Tree、列式存儲(chǔ)等新型結(jié)構(gòu)使得產(chǎn)品在存儲(chǔ)引擎專業(yè)化方面得到突破,MicrosoftAzureSQL、TDSQL-C等采用資源動(dòng)態(tài)調(diào)整和主工作負(fù)載隔離實(shí)現(xiàn)混和負(fù)載智能調(diào)度,CockroachDB采用存算分離支持跨云數(shù)據(jù)訪問(wèn)實(shí)現(xiàn)數(shù)據(jù)服務(wù)生態(tài)重構(gòu),華為云GaussDB采用軟14DavidKalmuk,ChristianGarcia-ImplementingaFastandCost-EfficientStor來(lái)源:InternationalBusinessMachinesCorporation,IBM圖27Db2LSM架構(gòu)圖來(lái)源:MicrosoftCorporation圖28AzureSQL數(shù)據(jù)庫(kù)架構(gòu)概覽15DavidKalmuketal.2024.NaCost-EfficientStorageArchitecture.InCompanionofthe2024InternationalConferenceonManagementofDataAzureSQL數(shù)據(jù)庫(kù)是微軟公司提供的關(guān)系型數(shù)據(jù)庫(kù)即服務(wù)),出了ProactiveResumean分配(FlexibleResourceAllocation)的架構(gòu)17。來(lái)源:MicrosoftCorporation圖29ProRP架構(gòu)示意圖ProRP是一種針對(duì)Serverless數(shù)據(jù)庫(kù)的主動(dòng)資源分配基礎(chǔ)設(shè)施,平衡(Utilization-BasedCPURebalancing)、租戶放置優(yōu)化(Tenant16OlgaPoppe,PankajArora,SakshiSMicrosoftAzureSQLDatabaseServerless.InCompanionofthe2024InternationalConfeofData17PankajArora,SurajitChaudhuri,SudiptoDas,JunfengDDatabase-as-a-Service.PVLDB,1中國(guó)信通院聯(lián)合騰訊云、移動(dòng)云、天翼云等多家企業(yè)研制了《云原生數(shù)據(jù)庫(kù)能力成熟度模型》標(biāo)準(zhǔn)。當(dāng)前云原生數(shù)據(jù)庫(kù)能力成熟度分為四個(gè)等級(jí):一是初始級(jí),即數(shù)據(jù)庫(kù)主要依賴傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)和運(yùn)維模式,架構(gòu)較為單一,缺乏靈活性和可擴(kuò)展性;二是發(fā)展級(jí),已經(jīng)引入云原生數(shù)據(jù)庫(kù)技術(shù),但尚未形成完整的云原生數(shù)據(jù)庫(kù)生態(tài)。運(yùn)維和管理方式仍較為傳統(tǒng),缺乏自動(dòng)化和智能化;三是成熟級(jí),已經(jīng)實(shí)現(xiàn)了云原生數(shù)據(jù)庫(kù)的大部分自動(dòng)化和智能化管理,采用了先進(jìn)的云原生技術(shù)和架構(gòu),提升了數(shù)據(jù)庫(kù)的靈活性和可擴(kuò)展性,建立了完善的監(jiān)控在云原生數(shù)據(jù)庫(kù)領(lǐng)域處于行業(yè)領(lǐng)先地位,能夠自主研發(fā)并發(fā)布創(chuàng)新的云原生數(shù)據(jù)庫(kù)解決方案,滿足復(fù)雜業(yè)務(wù)場(chǎng)景的需求,建立了完善的云原生數(shù)據(jù)庫(kù)生態(tài)體系,包括數(shù)據(jù)庫(kù)服務(wù)、開(kāi)發(fā)工1.人工智能與數(shù)據(jù)庫(kù)雙向賦能表1ML4DB研究中查詢計(jì)劃表示方法總結(jié)來(lái)源:南洋理工大學(xué)18GaoCong,JingyiYang,andYueZhao.2024.MachineLearningOpenproblems.InCompanionofthe2024InternationalConferenceonManagementofData.強(qiáng)范式(ML-enhanced)。早期研究多采用替代范式,即直接用機(jī)器模型索引(RSMI),通過(guò)機(jī)器學(xué)習(xí)模型替代現(xiàn)有組件以提升性能。它在保留傳統(tǒng)組件的基礎(chǔ)上,利用機(jī)器學(xué)習(xí)優(yōu)化性能,如Bandit優(yōu)化器、DBG-PT19等,展現(xiàn)出更好的魯棒色,但其有效性依賴于任務(wù)和數(shù)據(jù)集特定模式,嚴(yán)重限制了MLfor19VictorGiannakourisandImmanuelTrummer.DBG-PT:PerformanceRegressionDebugger.PV技術(shù)的進(jìn)步,Text-to-SQL技術(shù)應(yīng)用而生,研究者開(kāi)始利用深度學(xué)習(xí)圖30Text-to-SQL發(fā)展歷程基于大型語(yǔ)言模型(LLMs)的Text-to-SQL四個(gè)階段。傳統(tǒng)的Text-to-SQL方法主要依賴于預(yù)定義規(guī)則、查詢枚舉或序列到序列模型。然而,這些方法在處理復(fù)雜的自然語(yǔ)言問(wèn)題和SQL查詢時(shí),面著提升了Text-to-SQL解析的性能。這些模型通常需要大量的標(biāo)注數(shù)如GPT-4和GLM-130B,憑借其強(qiáng)大的語(yǔ)言理解和生成能力在Text-to-SQL任務(wù)中展現(xiàn)出了巨大的潛力。這些模型通過(guò)預(yù)訓(xùn)練學(xué)習(xí)大量語(yǔ)言知識(shí)和結(jié)構(gòu)信息,能夠在少量樣本甚至零樣本(z來(lái)源:香港科技大學(xué)等圖31NL2SQL方法概覽輪文本到SQL解析兩大類(lèi)。單輪文本解析聚焦于獨(dú)立的自然語(yǔ)言問(wèn)題,將其轉(zhuǎn)換為SQL查詢,不涉及歷史對(duì)話信息,代表性方法有要是通過(guò)提示工程(PromptEngineering)來(lái)引導(dǎo)LLMs生成正確的表2基于預(yù)訓(xùn)練模型(PLM)和大語(yǔ)言模型(LLM)的NL2SQL方法分類(lèi)來(lái)源:香港科技大學(xué)等20Qin,B.,Hui,B.,Wang,L.,Parsing:Concepts,Methods,andFutureDirect21Gao,D.,Wang,H.,Li,Y.,Sun,X.,Qian,Y.,Ding,LanguageModels:ABenchmarkEvalua22Zhou,F.,Xue,S.,Qi,D.,Shi,W.,OpenBenchmarkingText-to-SQLEmpoweredbyLargeLanguageM模型時(shí)需要考慮具體的使用場(chǎng)景和需求23。此外,隨發(fā)展,Text-to-SQL技術(shù)延伸出了Text查詢直接翻譯為圖查詢語(yǔ)句,以提高圖數(shù)據(jù)的查詢索強(qiáng)生成(Retrieval-AugmentedGeneration,RARAG作為一種新興技術(shù),通過(guò)整合外部數(shù)據(jù)庫(kù)的知識(shí),有效解決了大型語(yǔ)言模型(LLMs)在特定領(lǐng)域或知識(shí)密集型任務(wù)中面臨的來(lái)源:同濟(jì)大學(xué)等25圖32RAG三種范式對(duì)比23Li,Boyan,etal."TheDawnofNaturalLanguagetoSQ24https://www.gqlstandards.25Gao,Yunfan,YunXiong,XinyuGao,KangxiangJia,JinliuPan,YuandHaofenWang.2024."Retrieval-AugmentedGenerationfoRAG的研究范式不斷發(fā)展演進(jìn),按照其特點(diǎn)分為三個(gè)階段:基礎(chǔ)RAG(NaiveRAG)、先進(jìn)RAG(AdvancedRAG)以及模塊化偏見(jiàn),以及信息整合的挑戰(zhàn)。AdvancedRAG來(lái)源:北京大學(xué)等圖33GraphRAG框架在問(wèn)答任務(wù)中的概覽盡管RAG可以通過(guò)引入外部知識(shí)庫(kù)來(lái)解決大模型幻覺(jué)等問(wèn)題,本冗余,提供更全面的信息以解決復(fù)雜任務(wù)。與傳統(tǒng)RAG不同,GraphRAG從預(yù)構(gòu)建的圖數(shù)據(jù)庫(kù)中檢索包含關(guān)系知識(shí)的圖元素如節(jié)能下降。未來(lái)RAG技術(shù)將更加注重動(dòng)態(tài)和自適應(yīng)圖的26BociPeng,YunZhu,YongchaoLiu,XiaoheBo,HaizhouShi,ChuntaoH2024.GraphRetrieval-AugmentedGeneration:ASurvey表3支持向量數(shù)據(jù)的主流各數(shù)據(jù)庫(kù)對(duì)比來(lái)源:卡內(nèi)基梅隆大學(xué)等27(版本與年份)√√√√√√√√√√√√√√√√√√√√AmazonOpenSearch(v2.9,202√√√√ElasticSearch(v8.0,2√√√√AnalyticDB-V(2020)√√√PostgreSQL-pgvector(202√√√√MongoDBAtlas(v6.0,2NoSQL+Ftx.√√等,主要能夠針對(duì)高性能向量搜索應(yīng)用?;贜oSQL或關(guān)系型系統(tǒng)引能夠提供向量搜索功能的如ApacheLucene、Elasticsearch和Meta27Jing,Zhi,YongyeSu,YikunHan,etal.2024."When來(lái)源:卡內(nèi)基梅隆大學(xué)等圖34RAG在向量數(shù)據(jù)庫(kù)中的框架流程從而解決了大語(yǔ)言模型在集成和處理外部數(shù)據(jù)庫(kù)中大量動(dòng)態(tài)數(shù)據(jù)時(shí)來(lái)源:卡內(nèi)基梅隆大學(xué)等圖35使用向量數(shù)據(jù)庫(kù)的GPT的語(yǔ)義緩存概覽非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)在人工智能應(yīng)用中扮演著越來(lái)越重要度最高的50款數(shù)據(jù)庫(kù)管理系統(tǒng)中,超過(guò)三分之二屬于多模數(shù)據(jù)庫(kù)類(lèi)來(lái)源:查理大學(xué)等圖36統(tǒng)一抽象層表達(dá)異構(gòu)數(shù)據(jù)結(jié)構(gòu)示意圖境建構(gòu)演化以滿足高并發(fā)與彈性擴(kuò)展需求持續(xù)發(fā)2.AI原生數(shù)據(jù)庫(kù)解鎖場(chǎng)景新可能AI時(shí)代,數(shù)據(jù)庫(kù)系統(tǒng)面臨三重挑戰(zhàn),一是傳統(tǒng)的成本估算、連AI芯片等新型硬件。AI原生數(shù)據(jù)庫(kù)將AI技術(shù)深度融入數(shù)據(jù)庫(kù)設(shè)計(jì)28JáchymBártík.AI-PoweredOrchestrationofMulti-ModelData.VLDB2024Workshop:VLDBPh.D.來(lái)源:清華大學(xué)圖37AI原生數(shù)據(jù)庫(kù)的架構(gòu)29李國(guó)良,周煊赫.軒轅:AI原生數(shù)據(jù)庫(kù)系統(tǒng)[J].軟件學(xué)報(bào),2020,31(3):831?844.第一階段,AI建議型數(shù)據(jù)庫(kù)包括一個(gè)人工智能引擎,通過(guò)自動(dòng)表4AI原生數(shù)據(jù)庫(kù)的五個(gè)階段來(lái)源:清華大學(xué)特點(diǎn)簡(jiǎn)介舉例1AI建議型數(shù)據(jù)庫(kù)提供插件形式○負(fù)載管理(例如,負(fù)載調(diào)度)○SQL優(yōu)化(例如,SQL重寫(xiě)器、索引推薦)○數(shù)據(jù)庫(kù)監(jiān)視器(例如線下參數(shù)調(diào)優(yōu)、系統(tǒng)統(tǒng)計(jì))○數(shù)據(jù)庫(kù)安全性(例如,自動(dòng)審計(jì)/屏蔽)2AI輔助型數(shù)據(jù)庫(kù)提供基于數(shù)據(jù)庫(kù)的AI引擎○自配置(例如,在線參數(shù)調(diào)優(yōu))○自優(yōu)化(例如,SQL優(yōu)化、數(shù)據(jù)存儲(chǔ))○自監(jiān)控(例如,監(jiān)控系統(tǒng)狀態(tài))○自診斷(例如,發(fā)現(xiàn)硬件/軟件問(wèn)題)○自愈(例如,故障恢復(fù),在線遷移)○自安全(例如,可回溯性、防信息泄露)3AI強(qiáng)化型數(shù)據(jù)庫(kù)提供統(tǒng)一○基于學(xué)習(xí)的數(shù)據(jù)庫(kù)組件●學(xué)習(xí)型查詢重寫(xiě)器●學(xué)習(xí)型代價(jià)估算器●學(xué)習(xí)型優(yōu)化器●學(xué)習(xí)型執(zhí)行器●學(xué)習(xí)型存儲(chǔ)引擎○聲明型人工智能(UDF;視圖;模型無(wú)關(guān);問(wèn)題無(wú)關(guān);全自動(dòng))4AI自組裝型數(shù)據(jù)庫(kù)提供異構(gòu)處理架構(gòu)○充分利用異構(gòu)硬件(如ARM、GPU、NPU)5AI自設(shè)計(jì)型數(shù)據(jù)庫(kù)基于AI的數(shù)據(jù)庫(kù)生命周期設(shè)計(jì),編碼,評(píng)估,監(jiān)控和運(yùn)維提供運(yùn)行時(shí)優(yōu)化。AI工具如調(diào)優(yōu)模型、工作負(fù)載調(diào)度、視圖推薦等來(lái)源:清華大學(xué)圖38AI組織型數(shù)據(jù)庫(kù)流程圖第三階段是AI增強(qiáng)型數(shù)據(jù)庫(kù),不僅用人工智能技術(shù)優(yōu)設(shè)計(jì),而且提供基于數(shù)據(jù)庫(kù)內(nèi)置的AI原生服務(wù),一是通過(guò)人工智能二是數(shù)據(jù)庫(kù)內(nèi)置AI服務(wù),通過(guò)使用數(shù)據(jù)庫(kù)技術(shù)降低人工智能門(mén)檻,技術(shù)加速AI算法,例如索引、增量計(jì)算和共享計(jì)算;三是使用AI定查詢計(jì)劃應(yīng)發(fā)送給相應(yīng)的數(shù)據(jù)庫(kù)執(zhí)行器或AI原生數(shù)據(jù)庫(kù)是一種深度融合人工智能技術(shù)與數(shù)據(jù)庫(kù)系統(tǒng)的下一代數(shù)據(jù)管理平臺(tái),AI原生數(shù)據(jù)庫(kù)技術(shù)包括AI4DB和DB4AI兩部過(guò)直接在數(shù)據(jù)庫(kù)中運(yùn)行向量搜索、RAG、AI算法、機(jī)器學(xué)習(xí)等AI模型,無(wú)需數(shù)據(jù)遷移及服務(wù)集成,同時(shí)為AI應(yīng)用提供優(yōu)化支持,從而為AI應(yīng)用搭建強(qiáng)大的基礎(chǔ)設(shè)施保障。基于產(chǎn)業(yè)需求,中國(guó)信通院能力、AI算法底座、智能化自治管理能力、兼容能力、安全能力、擴(kuò)展能力、高可用能力等9大能力域。3.數(shù)據(jù)庫(kù)智能體提供數(shù)據(jù)交互新模式表5DB-GPT與其他工具的比較來(lái)源:螞蟻集團(tuán)等來(lái)源:螞蟻集團(tuán)等圖39大語(yǔ)言模型(LLMs)與圖相互增強(qiáng)的總體框架:(a)-(c)為大語(yǔ)言模型增強(qiáng)圖學(xué)習(xí)的三種途徑。(d)-(e)為圖結(jié)構(gòu)增強(qiáng)大語(yǔ)言模型推理的技術(shù)。技術(shù)名稱后的括號(hào)表示圖的類(lèi)型。D、U、M和E分別代表有向圖、無(wú)向圖、同構(gòu)圖和異構(gòu)圖。智能體也在持續(xù)涌現(xiàn),以協(xié)助用戶完成復(fù)雜任務(wù)。ChatDB框架包含輸入處理、Chain-of-memory和回復(fù)總結(jié)三個(gè)部分,將數(shù)據(jù)庫(kù)作為訓(xùn)練。Chat2Graph主要是面向圖數(shù)據(jù)庫(kù)的多智能體系統(tǒng),通過(guò)已有大模型或智能體能力幫助用戶降低圖數(shù)據(jù)庫(kù)的使來(lái)源:螞蟻集團(tuán)等圖40DB-GPT系統(tǒng)設(shè)計(jì)30Hu,C.,Fu,J.,Du
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑工程師筆試題及答案
- 精神營(yíng)地考試題及答案
- 2025年專業(yè)技術(shù)人才必修繼續(xù)教育培訓(xùn)題庫(kù)及答案集
- 中醫(yī)針灸內(nèi)經(jīng)試題及答案
- 會(huì)計(jì)考試報(bào)表試題及答案
- 高頻大隊(duì)部現(xiàn)場(chǎng)面試題及答案
- 93道職業(yè)測(cè)試題及答案
- 建筑工程技術(shù)規(guī)范測(cè)試題及答案解析
- 二級(jí)建造師市政工程題庫(kù)及答案
- 小學(xué)一年級(jí)英語(yǔ)下冊(cè) Unit 10 At the Funfair 教學(xué)設(shè)計(jì)
- 介入導(dǎo)管室有關(guān)知識(shí)課件
- 騰訊云智慧機(jī)場(chǎng)建設(shè)方案
- 2024年黑龍江哈爾濱“丁香人才周”哈爾濱市生態(tài)環(huán)境局所屬事業(yè)單位招聘筆試沖刺題
- 二十四節(jié)氣和農(nóng)業(yè)生產(chǎn)的關(guān)系
- 鑄牢中華民族共同體意識(shí)課件
- 推廣經(jīng)理半年工作計(jì)劃
- 110kV線路運(yùn)維方案
- 智能化弱電工程常見(jiàn)質(zhì)量通病的避免方法
- 屋頂光伏安全專項(xiàng)施工方案
- 醫(yī)療器械拓展性臨床試驗(yàn)管理規(guī)定(試行)YY/T-0292.1-2020《醫(yī)用診斷X射線輻射防護(hù)器具》
- 《中國(guó)古代文學(xué)通識(shí)讀本》pdf
評(píng)論
0/150
提交評(píng)論