版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第9章RAG進(jìn)階探索"把算法實(shí)現(xiàn)交給AGI,把架構(gòu)優(yōu)化與倫理邊界留給自己"——讓技術(shù)不僅有速度,更有深度與溫度。學(xué)習(xí)目標(biāo)算法優(yōu)化:掌握優(yōu)化文本相似度匹配算法的策略(余弦、杰卡德、TF-IDF等)。技術(shù)落地:掌握RAG全流程開發(fā)(分塊、存儲(chǔ)、檢索、優(yōu)化)。AGI融合:理解AGI在文本語義化分割中的應(yīng)用,設(shè)計(jì)基于AIGC的分割方案。知識(shí)圖譜:1文本分割算法2文本相似度匹配算法3AGI與工程師的協(xié)作目錄CONTENTS4本章小結(jié)與習(xí)題
1文本分割算法傳統(tǒng)文本分割算法算法分類classSentenceTextSplitter{split(text:string):string[]{returntext.match(/[^.!?]+[.!?]+/g)||[];}}//使用示例constsplitter=newSentenceTextSplitter();constresult=splitter.split("這是第一句話。這是第二句話。");console.log(result);示例代碼CharacterTextSplitter:按字符長度硬切(適用于Token限制)。SentenceTextSplitter:按句號/感嘆號切分(保留句子完整性)。ParagraphTextSplitter:按換行符切分(保留邏輯段落)。RegexTextSplitter:自定義正則表達(dá)式切分(靈活復(fù)雜場景)。AGI語義分割探索設(shè)計(jì)思路傳統(tǒng)痛點(diǎn):機(jī)械切割導(dǎo)致語義斷裂。AGI方案:輸入文本->語義分析->結(jié)構(gòu)化分割->生成摘要。優(yōu)勢:上下文理解能力強(qiáng),自適應(yīng)不同文風(fēng)。classAIGCTextSplitter{asyncsplitAndSummarize(text:string){constprompt=`請對以下文本進(jìn)行語義分割,并為每個(gè)部分生成摘要。\n文本:${text}`;awaitthis.fmodeChatCompletion.sendCompletion({...}).subscribe({next:(message)=>{}});}}AIGC分割器代碼
2文本相似度匹配算法常見相似度匹配算法
01杰卡德相似度(Jaccard)核心原理:集合交集除以并集,僅關(guān)注元素是否存在。適用場景:短文本去重,標(biāo)簽匹配,關(guān)鍵詞重合度。02歐幾里得距離(Euclidean)核心原理:計(jì)算空間兩點(diǎn)直線距離,對數(shù)值大小敏感。適用場景:文本聚類分析(如K-Means),KNN分類。03曼哈頓距離(Manhattan)核心原理:計(jì)算坐標(biāo)軸絕對差值總和,抗干擾性更強(qiáng)。適用場景:高維稀疏數(shù)據(jù),復(fù)雜推薦系統(tǒng),異常檢測。04TF-IDF核心原理:統(tǒng)計(jì)詞頻與逆文檔頻率,評估詞匯重要性。適用場景:關(guān)鍵詞提取,傳統(tǒng)字面搜索,特征預(yù)處理。杰卡德與歐幾里得杰卡德相似度functionjaccardSimilarity(text1:string,text2:string):number{constset1=newSet(text1.match(/\w+/g));constset2=newSet(text2.match(/\w+/g));constintersection=newSet([...set1].filter(x=>set2.has(x)));constunion=newSet([...set1,...set2]);returnintersection.size/union.size;}歐幾里得距離
functioneuclideanDistance(vecA:number[],vecB:number[]):number{letsum=0;for(leti=0;i<vecA.length;i++){sum+=Math.pow(vecA[i]-vecB[i],2);}returnMath.sqrt(sum);//距離越小越相似}曼哈頓與TF-IDF曼哈頓距離functionmanhattanDistance(vecA:number[],vecB:number[]):number{letsum=0;for(leti=0;i<vecA.length;i++){//計(jì)算絕對值差累加sum+=Math.abs(vecA[i]-vecB[i]);}returnsum;//對異常值更魯棒}TF-IDF
functionmanhattanDistance(vecA:number[],vecB:number[]):number{letsum=0;for(leti=0;i<vecA.length;i++){//計(jì)算絕對值差累加sum+=Math.abs(vecA[i]-vecB[i]);}returnsum;//對異常值更魯棒}
3AGI與工程師的協(xié)作角色思考—AGI與工程師03工程師的優(yōu)勢
創(chuàng)造性思維:根據(jù)業(yè)務(wù)場景(如法律vs小說)選擇最優(yōu)算法。深度調(diào)優(yōu):解決算法邊界情況,處理數(shù)據(jù)偏見。價(jià)值判斷:不僅僅依賴預(yù)設(shè)算法,結(jié)合領(lǐng)域知識(shí)進(jìn)行決策。03前端職責(zé)升級AGI的優(yōu)勢數(shù)據(jù)處理:快速列舉算法、生成樣板代碼。聯(lián)想能力:跨領(lǐng)域算法遷移(如將圖形算法用于文本)。語義理解:超越規(guī)則,實(shí)現(xiàn)基于語義的文本分割。
4本章小結(jié)與習(xí)題總結(jié)與思考01相似度算法深入理解了余弦相似度在RAG召回中的核心地位。對比了TF-IDF、杰卡德等算法的適用場景。02掌握了從字符級到語義級的分割演進(jìn)。實(shí)現(xiàn)了AIGCTextSplitter,利用LLM進(jìn)行智能分塊。03體驗(yàn)了從“手寫規(guī)則”到“模型驅(qū)動(dòng)”的開發(fā)范式轉(zhuǎn)變。文本分割優(yōu)化AGI賦能課后習(xí)題1在文本分割器中,以下哪種適合按句子進(jìn)行分割?()A.CharacterTextSplitter B.SentenceTextSplitterC.ParagraphTextSplitter D.RegexTextSplitter2在文本相似度匹配算法中,余弦相似度適用于以下哪種場景?()A.短文本的集合比較 B.文本的數(shù)值特征化C.長文本的相似性評估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年成都農(nóng)業(yè)科技職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫帶答案解析
- 2026年撫州幼兒師范高等??茖W(xué)校單招職業(yè)技能筆試備考試題帶答案解析
- 2026年安徽中澳科技職業(yè)學(xué)院單招職業(yè)技能筆試模擬試題帶答案解析
- 2026年口岸管理員招聘筆試備考基礎(chǔ)練習(xí)題集含答案
- 2026年廣西科技師范學(xué)院高職單招職業(yè)適應(yīng)性考試參考題庫帶答案解析
- 2026年研學(xué)旅行安全問答含答案
- 2026年甘肅有色冶金職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性考試備考題庫帶答案解析
- 2026年曹妃甸職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試模擬試題帶答案解析
- 2026年廣西城市職業(yè)大學(xué)單招職業(yè)技能筆試備考試題帶答案解析
- 2026年河北東方學(xué)院單招職業(yè)技能考試備考試題帶答案解析
- 紀(jì)檢監(jiān)察證據(jù)標(biāo)準(zhǔn)課件
- 城南舊事閱讀課件
- 2022年西北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)《操作系統(tǒng)》科目期末試卷B(有答案)
- 制鞋工人崗位培訓(xùn)
- 離婚協(xié)議(2026年版本)
- 8.1堅(jiān)守公平 課件 2025-2026學(xué)年統(tǒng)編版道德與法治 八年級上冊
- 舟山事業(yè)編考試題及答案
- 2025年低空經(jīng)濟(jì)行業(yè)碳排放與環(huán)境影響報(bào)告
- 基于上市公司視角:解碼云南省資源型產(chǎn)業(yè)升級路徑與挑戰(zhàn)
- 醫(yī)療機(jī)構(gòu)中藥飲片自查與質(zhì)量控制
- 2024-2025學(xué)年廣東省廣州市越秀區(qū)九年級(上)期末化學(xué)試題及答案
評論
0/150
提交評論