版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
豆包MarsCode在AICoding上的實(shí)踐與探索2025目錄01AI
Coding的發(fā)展史02AI
Coding的落地實(shí)踐03AI
Coding帶給IDE的變革04AI
Coding未來(lái)展望AI
Coding的發(fā)展史Code
Copilot的過(guò)去已經(jīng)接近20年的歷史基于靜態(tài)分析和規(guī)則,通過(guò)分析代碼的語(yǔ)法和結(jié)構(gòu)來(lái)進(jìn)行預(yù)測(cè)使用機(jī)器學(xué)習(xí)提取特征進(jìn)行缺陷分析,預(yù)測(cè)潛在問(wèn)題使用深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè),例如LSTM和Seq2Seq使用預(yù)訓(xùn)練大模型進(jìn)行預(yù)測(cè),誕生了CodeCopilot,2022年火爆全球早期使用規(guī)則機(jī)器學(xué)習(xí)時(shí)期深度學(xué)習(xí)時(shí)期大模型時(shí)期LLM時(shí)代下的AI
CodingCursor+Claude
3.5
Sonnet,8歲小女孩45分鐘打造聊天機(jī)器人AI已經(jīng)可以合作驅(qū)動(dòng)一些簡(jiǎn)單項(xiàng)目的開(kāi)發(fā),人類(lèi)開(kāi)發(fā)軟件的方式正在發(fā)生變革IDE與AI良好的人機(jī)交互體驗(yàn)成為開(kāi)發(fā)者選擇AI
IDE的重要因素在AI
Coding的輔助下,程序員的“門(mén)檻”會(huì)大大降低,開(kāi)發(fā)效率將得到較大提升AI
Coding的機(jī)遇與挑戰(zhàn)LLM在AI
Coding領(lǐng)域的潛力和可能性毋庸置疑AI正在給IDE帶來(lái)新的交互革命在AI
Coding時(shí)代背景下,如何去設(shè)計(jì)一款A(yù)I
IDE?AI
Coding的落地仍需要腳踏實(shí)地,從效果出發(fā)如何從工程和算法側(cè)去優(yōu)化已有的AI
Coding能力?未來(lái)AI
Agent能力的思考與探索AI
Coding落地實(shí)踐開(kāi)發(fā)者對(duì)AI
Coding能力的訴求代碼生成代碼理解問(wèn)題修復(fù)知識(shí)問(wèn)答代碼補(bǔ)全NL2Code單測(cè)生成注釋生成……代碼問(wèn)答代碼評(píng)審代碼搜索代碼總結(jié)……代碼問(wèn)題檢測(cè)Auto
FixLint問(wèn)題修復(fù)配置錯(cuò)誤修復(fù)……通用知識(shí)聯(lián)網(wǎng)搜索三方庫(kù)問(wèn)答……代碼補(bǔ)全-原理如何定義一個(gè)好的測(cè)評(píng)體系來(lái)指導(dǎo)鏈路優(yōu)化?代碼補(bǔ)全-測(cè)評(píng)體系構(gòu)建合理的模型離線評(píng)測(cè)集HumanEval不是一個(gè)好的測(cè)評(píng)集,不匹配真實(shí)項(xiàng)目代碼場(chǎng)景,刷分嚴(yán)重影響實(shí)際效果。自研評(píng)級(jí)集的重要性:引入真實(shí)項(xiàng)目中的跨文件上下文,針對(duì)性挖孔進(jìn)行評(píng)測(cè),評(píng)估模型合理利用項(xiàng)目上下文的能力,文本+執(zhí)行結(jié)果驗(yàn)證。引入公司內(nèi)部代碼數(shù)據(jù)作為評(píng)測(cè)題目,開(kāi)源代碼和內(nèi)部代碼的的差異往往很大。代碼補(bǔ)全-測(cè)評(píng)體系使用更合理的業(yè)務(wù)效果指標(biāo)--CPO
(Character
Per
Opportunity)不能只看采納率=采納次數(shù)/推薦次數(shù),容易被誤導(dǎo),無(wú)法指導(dǎo)后續(xù)優(yōu)化CPO=(嘗試率)x(反饋率)x(采納率)x(每次采納平均token數(shù)量)x
(token平均字符長(zhǎng)度)CPO越高,代表Al貢獻(xiàn)越大,但也不能一味追求采納率表現(xiàn)用戶對(duì)Al推薦的感知價(jià)值在采納率不降低的情況下去持續(xù)優(yōu)化CPO3.建設(shè)完整的A/B測(cè)試能力用于參數(shù)和策略驗(yàn)證如何去優(yōu)化CPO?代碼補(bǔ)全-訓(xùn)練優(yōu)化高質(zhì)量數(shù)據(jù)清洗(LLM
Filter)問(wèn)題:如何篩選開(kāi)源項(xiàng)目和內(nèi)部項(xiàng)目中高質(zhì)量的代碼進(jìn)行訓(xùn)練?通用模型(如GPT-4)構(gòu)造Prompt對(duì)開(kāi)源項(xiàng)目代碼質(zhì)量打分
(結(jié)合可靠性、圈復(fù)雜度、可讀性等)根據(jù)標(biāo)注數(shù)據(jù)訓(xùn)練自研打分模型,篩選高質(zhì)量代碼用于訓(xùn)練補(bǔ)全模型。Repo-Level文件拼接原理:相比單文件形式的代碼數(shù)據(jù),具有更完整的語(yǔ)義信息,從中學(xué)習(xí)到前后依賴關(guān)系,更有利于提升大模型邏輯推理能力。挖孔策略優(yōu)化常見(jiàn)策略:隨機(jī)字符、Token、AST節(jié)點(diǎn)等MarsCode的做法:先用隨機(jī)字符挖孔訓(xùn)練補(bǔ)全,再挖掉完整的AST節(jié)點(diǎn)進(jìn)行訓(xùn)練補(bǔ)全效果:模型更容易補(bǔ)全完整的代碼片段代碼補(bǔ)全-性能優(yōu)化1.
推測(cè)解碼2.
多Token預(yù)測(cè)補(bǔ)全性能是影響代碼補(bǔ)全非常重要的指標(biāo):好的性能指標(biāo):模型推理<300ms,端到端<500ms3.量化代碼補(bǔ)全-性能優(yōu)化工程側(cè)流式早停/截?cái)啵簾o(wú)需等模型完整輸出達(dá)到完整AST節(jié)點(diǎn)即可截?cái)嘌a(bǔ)全內(nèi)容越“少”,用戶接受度越高代碼補(bǔ)全-上下文感知優(yōu)化在有限的Context
Length放入更高質(zhì)量的Context:Context
Search倉(cāng)庫(kù)內(nèi)上下文倉(cāng)庫(kù)外檢索增強(qiáng)Ranking
Strategy根據(jù)補(bǔ)全位置,提取用戶意圖的關(guān)鍵信息構(gòu)造用于檢索/排序repo
context的Query排序算法,選取更適合的Context構(gòu)造Prompt代碼補(bǔ)全-前后處理鏈路優(yōu)化前后處理鏈路重點(diǎn)是合理的發(fā)起補(bǔ)全請(qǐng)求,展示補(bǔ)全內(nèi)容:1.前處理鏈路優(yōu)化后處理鏈路優(yōu)化流式AST截?cái)嘟档虳ebounce,配合A/B驗(yàn)證效果線上Bad
Case分析低質(zhì)量Prompt過(guò)濾識(shí)別并標(biāo)注低質(zhì)量的Prompt
數(shù)據(jù)基于質(zhì)量評(píng)估模型評(píng)估Prompt質(zhì)量,過(guò)濾低質(zhì)量Prompt線上Bad
Case分析過(guò)濾策略優(yōu)化,A/B驗(yàn)證效果過(guò)濾用戶已輸入的過(guò)濾重復(fù)度高的……代碼補(bǔ)全Pro-從預(yù)測(cè)下一個(gè)字符到下一個(gè)動(dòng)作代碼補(bǔ)全解決的是編寫(xiě)全新代碼的問(wèn)題,利用模型預(yù)測(cè)下一個(gè)字符代碼補(bǔ)全Pro(多點(diǎn)編輯)利用模型預(yù)測(cè)下一個(gè)光標(biāo)動(dòng)作,解決多個(gè)新增、刪除、編輯替換動(dòng)作Code
editEditpropagationEditgeneration代碼補(bǔ)全Pro-原理Git倉(cāng)庫(kù)中海量的commit歷史記錄是個(gè)巨大的數(shù)據(jù)寶庫(kù)包含了豐富的用戶編輯行為信息數(shù)據(jù)清洗:構(gòu)造啟發(fā)式規(guī)則,提取關(guān)聯(lián)的修改記錄和時(shí)間序列基于LLM,通過(guò)CT和SFT,模型能夠理解diff格式數(shù)據(jù)基于LLM,推理預(yù)測(cè)下一個(gè)光標(biāo)需要修改的行為代碼補(bǔ)全Pro-原理Subsequent
edit
analysis兩段編輯定位;粗粒度:文件級(jí)別細(xì)粒度:行級(jí)別Prior
edit
analysis選擇在語(yǔ)法上和語(yǔ)義上相關(guān)的先前編輯Edit
generation生成編輯內(nèi)容代碼補(bǔ)全Pro-原理Likelihood
of
file
??
dependson
edit
??Semantic
similarity
betweenfile
??
and
edit
??估算編輯e影響到文件f的概率:編輯e影響文件f的可能性編輯e和文件f語(yǔ)義相似性代碼補(bǔ)全Pro-原理預(yù)測(cè)每一行的Edit
Operation基于Masked
language
modelling(MLM)遮蔽每一行,預(yù)測(cè)<MASK>標(biāo)記計(jì)算3種類(lèi)型的Edit
Operation:<Keep><Replace><Insert>代碼補(bǔ)全Pro-原理Likelihood
of
target
code??????????
depends
on
prior
edit
??????Semantic
similarity
between
prior
edit??????
and
target
code??????????Code
distance
between
prior
edit
??????and
target
code
??????????估算相關(guān)的編輯歷史用于Prompt構(gòu)造:編輯歷史影響目標(biāo)代碼的可能性語(yǔ)義相似性代碼距離代碼補(bǔ)全Pro-原理基于LLM最終生成編輯操作Input:Code
window,每行帶有<Edit
Operation>作為beforeUser
edit
promptSelected
Prior
editsOutput:Edit
ContentAI倉(cāng)庫(kù)問(wèn)答-原理倉(cāng)庫(kù)問(wèn)答效果與相關(guān)代碼召回質(zhì)量強(qiáng)相關(guān),如何去設(shè)計(jì)整個(gè)代碼召回能力?AI倉(cāng)庫(kù)問(wèn)答-基于CKG優(yōu)化問(wèn)答效果基于靜態(tài)分析建?;贑ontrol
Flow
Call
Graph建模靜態(tài)分析算法:CHA、PTA、k-CFA…適配多種語(yǔ)言,無(wú)需額外安裝LSP等依賴自動(dòng)構(gòu)建CKG全量CKG構(gòu)建:切片,定期運(yùn)行增量CKG更新:緩存更新......AI倉(cāng)庫(kù)問(wèn)答-基于CKG召回策略多路召回通過(guò)query的多種特征進(jìn)行實(shí)體召回,保證召回信息完備性Rerank對(duì)召回實(shí)體進(jìn)行精煉和過(guò)濾,以保留最相關(guān)上下文模型基于CKG定義的數(shù)據(jù)結(jié)構(gòu)訓(xùn)練,效果較好實(shí)體關(guān)系召回實(shí)體關(guān)系召回:通過(guò)召回實(shí)體,進(jìn)行實(shí)體語(yǔ)義關(guān)聯(lián)信息抽取(函數(shù)調(diào)用關(guān)系、類(lèi)型依賴信息)AutoFix
Agent場(chǎng)景需求配置錯(cuò)誤編譯錯(cuò)誤程序錯(cuò)誤使用大模型+程序分析
SWE-benchlite的分?jǐn)?shù)正在快速被改寫(xiě)技術(shù)趨勢(shì)預(yù)計(jì)很快就會(huì)達(dá)到50+%AutoFix
AgentMulti-Agent
Collaborative
FrameworkAI
Coding帶給IDE的變革IDE的發(fā)展趨勢(shì)更遙遠(yuǎn)未來(lái)?IDEAI
IDE代碼編輯器AI加持(插件/Native)代碼編輯器AI
IDE的設(shè)計(jì)要素良好的開(kāi)發(fā)體驗(yàn)隨時(shí)隨地的開(kāi)發(fā),支持跨終端和多場(chǎng)景開(kāi)箱即用的開(kāi)發(fā)環(huán)境,輕量化、極速性能良好的AI人機(jī)交互形態(tài)…AI原生加持研發(fā)提效,更快的完成編碼輔助決策,提供高質(zhì)量回答人人都有一個(gè)AI搭檔…集成化一站式部署能力研發(fā)系統(tǒng)集成多人協(xié)作…IDE的組件化架構(gòu)組件化架構(gòu):跨終端支持:IDE
Server支持多種RuntimeClients支持瀏覽器、本地IDE、iPad…組件自由組裝:支持AI功能擴(kuò)展和集成,靈活調(diào)用IDE組件支持Coze
Plugin、Lite
IDE場(chǎng)景等組合IDE的組件化架構(gòu)通信協(xié)議優(yōu)化:基礎(chǔ)通信協(xié)議不復(fù)用VSCode的VSBuffer使用更高效的ms
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 豬仔采購(gòu)合同(標(biāo)準(zhǔn)版)
- 2026年航空禮品采購(gòu)合同
- 2025年新型供熱技術(shù)推廣項(xiàng)目可行性研究報(bào)告
- 2025年網(wǎng)上藥品銷(xiāo)售合規(guī)平臺(tái)項(xiàng)目可行性研究報(bào)告
- 美容采購(gòu)合同范本
- 產(chǎn)品分析協(xié)議書(shū)
- 美國(guó)保險(xiǎn)合同范本
- 球員終止合同協(xié)議
- 能源行業(yè)用友顧問(wèn)面試問(wèn)題解析與答案
- 儀表維修崗的技能培訓(xùn)與考核制度
- 骨盆骨折患者麻醉管理要點(diǎn)
- 2025貴陽(yáng)人文科技學(xué)院教師招聘考試試題
- 高職院校產(chǎn)教融合共同體建設(shè)國(guó)內(nèi)外研究動(dòng)態(tài)及啟示
- T/CWAN 0068-2023銅鋁復(fù)合板
- 兒童寓言故事-烏鴉喝水
- 弱電系統(tǒng)維護(hù)中的安全和文明措施
- 緊急狀態(tài)下護(hù)理人力資源調(diào)配
- 安全生產(chǎn)文明施工評(píng)價(jià)報(bào)告
- 眼科滴眼藥水課件
- 2024-2025學(xué)年青海省西寧市七年級(jí)(上)期末英語(yǔ)試卷(含答案)
- 2025中級(jí)消防設(shè)施操作員作業(yè)考試題及答案(1000題)
評(píng)論
0/150
提交評(píng)論