版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
RAG基本范式的選擇與系RAGSemanticSearchKGRAG我們?yōu)槭裁葱枰澜缭诟淖?,現(xiàn)實世界的數(shù)據(jù)分布在改變(DistributionshiftConceptDrift主流LLM是以transformer架構(gòu)驅(qū)動的?回歸模型(事情正在起變化,后?細(xì)說Pθ(x)=∏pθ(xi|prompt,理論上說,通過調(diào)整prompt,我們可以讓LLM輸出任何tokenLLM的兩個問題都可以通過調(diào)整promptRAGPrompt通過檢索的?式選擇PromptEngineeringSQL,搜索引擎,VectorDatabase,ElasticSearch新知識—對抗Distribution相關(guān)?件—SemanticSearch Semantic起源?Metric將?件投射到?個?維度測度空間(MetricMetricDistanceFunction:與??距離為0,兩個不同的點(diǎn)距離?于0Semantic?測度距離亦可使?(CosineDistance投射函數(shù)(EmbeddingModel)SemanticSemanticSearch到底是在做什么傳統(tǒng)數(shù)據(jù)庫?持通過Index但傳統(tǒng)數(shù)據(jù)庫不?持通過Index判斷該數(shù)據(jù)與Query我們能否??件本身來做SemanticDocumentasSemanticSearch的本質(zhì)是直接以?件本身為直接?對?件與Query(的可以最?限度的確定?件與Query的適配性(RetrieveandRerankMulti-Vector例?:建??個關(guān)于RustEmbedding模型的訓(xùn)練數(shù)據(jù)中,?然語?的數(shù)量遠(yuǎn)遠(yuǎn)?于也就是說,Embedding模型對?然語?的理解遠(yuǎn)勝于Query??然語?做Rust的index(Documentas向量:?然語?(代碼注釋,readme,docstring ??然語?做代碼的Index,再?Embedding向量做?然語?的QueryEmbeddingLLM可?LLM幫助總結(jié)(HypotheticalquestioningSemanticSemanticSearch到底是在做什么SemanticSemanticSearch到底是在做什么SemanticSemanticSearch為什么看上去?將就??各種樹,圖,Hashtable,Entity-relationship不同類型的數(shù)據(jù)適合不同類型的數(shù)據(jù)結(jié)構(gòu)(InductiveNaiveRAG本身沒有任何系統(tǒng)結(jié)構(gòu)!(ANN的結(jié)構(gòu)不是系統(tǒng)的結(jié)構(gòu)基于SemanticSearchEngineeringistheArtofTrade-如何選擇如何選擇LossContrastiveContrastivesample(Y-1項不相似的情況下,?于mGreedy只在不相似的時候考慮Margin(Y項),且在這時不管其他相似“推“??密,相隔約m的(Intra-ClasVariance)回?室型社交媒體,CC互聯(lián)?如何選擇如何選擇LossTriplet
L=max(d(a,p)?d(a,n)+m,Anchor,Positiveand讓positive-anchor的距離和negative-anchor的距離相隔?少如何選擇如何選擇LossTriplet
L=max(d(a,p)?d(a,n)+m,只在乎positive和negative與anchor只在相對距離?于m時產(chǎn)?不會強(qiáng)迫相似的Sample可以接受更?的同類?差(Intra-ClasTriplet
L=max(d(a,p)?d(a,n)+m,只在乎positive和negative與anchor只在相對距離?于m不會強(qiáng)迫相似的Sample可以接受更?的同類?差(Intra-Clas其余的諸多LossFunction如何選擇Distant如何選擇DistantMetricEg.EuclideanNon-MetricEg.Cosine為什么Cosine不是Metric
dEuclidean(X,Y)∑(xi?Cosine∑(xi?
A?∥A∥?與??距離為0,0(Positivity),距離對稱,三?不等式(Triangle從圓?出發(fā)的B不滿?x=[1,0];y=[0,1];z=[1,1],那么d(xy)=1,d(xz)=d(yz)≈0.292<
d(xy)Cosine計算簡易只考慮?向,?所謂特別適合那些只需考慮?向的場景,如Netflix,Spotify只在0到1之間,不會Euclidean計算相對復(fù)雜需考慮兩個點(diǎn)在空間中的距離(有點(diǎn)像word2vec,KingManQueen可能會Overflow,?維空間內(nèi)也可能會如何選擇如何選擇DistantMetricDistance?深度學(xué)習(xí)模仿正統(tǒng)MetricContrastive越南語(低資源中?(?資源如果d(vi,cn)<mandd(cn,img)<m那么必然:d(vi,img)<兩邊之和?于第三邊(三?不等式EmbeddingEmbeddingLLMVSLLM的InductiveBias不是太適合可以?Repetition“Largescaletrainingtrumpsinductivebias”—Encoder的InductiveBias更合適做EncoderEmbeddingEmbeddingEmbeddingEmbeddingPerformance/Costtrade-off>Datadomain>Lossfunction>Distance如果有?夠多的數(shù)據(jù)進(jìn)?繼續(xù)訓(xùn)練,Loss和DistanceMetic如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇Vector如何選擇VectorHash-basedLocalitysensitivehashing,SpectralHashing多次Hashing將相似的Sample放進(jìn)同?個BucketCollision,碰撞與傳統(tǒng)Hashing完全不同,傳統(tǒng)HashingMilvus,FAISSRetrieval速度極快,可以Scale如何選擇Vector如何選擇VectorTree-basedVectorForest,DT-ST將數(shù)據(jù)庫以樹的結(jié)構(gòu)儲存(多為BinarySearch相似的數(shù)據(jù)點(diǎn)?概率在同?個Node或Annoy(Spotify)Graph-basedNode為數(shù)據(jù)點(diǎn)本身,Edge更相似的數(shù)據(jù)更容易被EdgeTraverse找最相似的Milvus,Zilliz,Qdant,Chroma對?維度數(shù)據(jù)極其友好(所以如此流?),(相對)省內(nèi)存不知道該?什么,就?如何選擇Vector如何選擇VectorInvertedFileIndexing將VectorSpaceVoronoi每個區(qū)域都有?個找到離Query最近的k個Centroid然后就在那kLanceDB,PGVector迅速縮?范圍,然后KNN.構(gòu)建過程可能會很?,可能需要ProductQuantization給Semantic給SemanticSearch?個結(jié)構(gòu)HierarchicalIndexChain給Semantic給SemanticSearch?個結(jié)構(gòu)Context給Semantic給SemanticSearch?個結(jié)構(gòu)Context給Semantic給SemanticSearch?個結(jié)構(gòu)SemanticSearch可以與其他Retrieval?法共?HybridVectorIndex(Hierarchical,contextenrichment?類的Query可?LLMEmbeddingModel的新也可以?成很多QueryStep-backNofreelunchAgentRetrieval系需要QueryKnowyourusecase,Knowyourdata,Soyoucanknowyourtrade-充分了解你的數(shù)據(jù)還有?種數(shù)據(jù)結(jié)構(gòu)極其普遍,實體及他們的關(guān)系(Entitiesandtheir我們完全可以?SemanticSearchKG如何選擇SemanticSearch和 BuiltforGlobalQuery-Focused完美適配于實體+過程中?量使?LLM?約是NaiveVectorRAG的1000KG和SemanticSearchLazyGraphLazyGraphSemanticSearchisa“Bestfirst”GraphRAGisa“Breadth-first”如何?SemanticSearch的優(yōu)勢補(bǔ)?GraphLazyGraph?需提前總結(jié),IndexingCost成本與NaiveVectorRAG類似,是KGRAG的QueryCost也與NaiveVectorRAG可以輕松Scale何時?KG數(shù)據(jù)可?實體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 未執(zhí)行財務(wù)制度
- 醫(yī)保財務(wù)制度政策匯編
- 洗車廠財務(wù)制度及流程
- 中儲糧財務(wù)制度
- 醫(yī)保協(xié)議藥店財務(wù)制度
- 2026上半年云南事業(yè)單位聯(lián)考能源職業(yè)技術(shù)學(xué)院招聘21人備考題庫及一套參考答案詳解
- 2026中共昆明市委黨校引進(jìn)高層次人才招聘3人備考題庫(云南)完整參考答案詳解
- 2026廣東江門市開平市融媒體中心寒假實習(xí)生招募10人備考題庫完整答案詳解
- 2026山東日照陸橋人力資源有限責(zé)任公司勞務(wù)外包人員招聘1人備考題庫帶答案詳解
- 2026山東事業(yè)單位統(tǒng)考臨沂市市直部分醫(yī)療衛(wèi)生事業(yè)單位公開招聘9人備考題庫含答案詳解
- 建筑防水工程技術(shù)規(guī)程DBJ-T 15-19-2020
- 矢量網(wǎng)絡(luò)分析儀校準(zhǔn)規(guī)范
- 高考英語閱讀理解分類及方法課件
- 紹興金牡印染有限公司年產(chǎn)12500噸針織布、6800萬米梭織布高檔印染面料升級技改項目環(huán)境影響報告
- DHA乳狀液制備工藝優(yōu)化及氧化穩(wěn)定性的研究
- 2023年江蘇省五年制專轉(zhuǎn)本英語統(tǒng)考真題(試卷+答案)
- 岳麓書社版高中歷史必修三3.13《挑戰(zhàn)教皇的權(quán)威》課件(共28張PPT)
- GC/T 1201-2022國家物資儲備通用術(shù)語
- 污水管網(wǎng)監(jiān)理規(guī)劃
- GB/T 6730.65-2009鐵礦石全鐵含量的測定三氯化鈦還原重鉻酸鉀滴定法(常規(guī)方法)
- GB/T 35273-2020信息安全技術(shù)個人信息安全規(guī)范
評論
0/150
提交評論