大模型驅(qū)動的智能軟件開發(fā)_第1頁
大模型驅(qū)動的智能軟件開發(fā)_第2頁
大模型驅(qū)動的智能軟件開發(fā)_第3頁
大模型驅(qū)動的智能軟件開發(fā)_第4頁
大模型驅(qū)動的智能軟件開發(fā)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

大模型驅(qū)動的智能軟件開發(fā)黃非 阿里巴巴目

錄CONTENTS大模型應用范式AI驅(qū)動的全流程軟件開發(fā)代碼助手的技術挑戰(zhàn)和解決方案從代碼助手到軟件開發(fā)智能體總結(jié)與展望黃非阿里巴巴通義實驗室自然語言智能負責人他帶領自然語言處理團隊研發(fā)通義自然語言大模型體系,在機器閱讀理解(MRC),圖文問答(VQA)和中文理解(CLUE)等任務上實現(xiàn)首次超越人類結(jié)果;建設阿里巴巴NLP平臺和產(chǎn)品在集團內(nèi)支持數(shù)百個場景日均數(shù)萬億級調(diào)用,對外以智能技術賦能軟件開發(fā),智能客服,協(xié)同辦公,司法,電商等行業(yè)合作伙伴,是AI開源魔搭社區(qū)NLP模型的主要貢獻者。他在人工智能頂級會議和期刊發(fā)表文章200+篇,中美專利數(shù)十項,曾擔任ACL,TACL等學術期刊,會議領域主席/編輯等。大模型應用范式PART

01通用大模型到行業(yè)大模型:

領域繼續(xù)訓練(CPT),

領域微調(diào)(SFT)生成式預訓練通用大模型生成式預訓練行業(yè)大模型指令微調(diào)(貼合行業(yè)場景)強化學習(RL),PPO基于對話的生成式預訓練行業(yè)大模型獎勵模型海量領域語料無監(jiān)督繼續(xù)訓練123迭代Agentic

RAG:實時性知識,事實性知識,

本地知識庫搜索,

減少大模型幻覺范式2:檢索增強(RAG)多模態(tài)大模型Astopsignwithasticker

thatsayseating

animals.2023財年二氧化碳凈排放量同比減少12.9%AlibabaInternationalDigitalmerce

Group來自超60個國家和地區(qū)玩轉(zhuǎn)聊天大模型本文以通義千問大模型(qwen-turbo)為例…自然圖像Chart生成要點指出圖中數(shù)據(jù)的關鍵點表格視覺問答2023財年營收第二的集團?文檔信息提取員工來自多少個國家和地區(qū)?網(wǎng)頁圖像描述對于上述圖像給一句話描述文本閱讀識別圖片中的文字表達情感和偏好你最喜歡吃什么?我沒有感官,所以我沒有任何喜好或偏好。吃什么對我來說都一樣,我不會有任何感受。親愛的,我最喜歡吃巧克力了,你呢?表現(xiàn)情緒是不是你偷了我的東西?不是的,我沒有偷東西,我是一個計算機程序,我沒有能力做出偷竊行為。這……我可不是這樣的人。有人設/個性我太生氣了,我們分手吧!哎呀,怎么啦親愛的?怎么突然生氣啦?不要生氣啦,來抱抱~QQQAAAAA大小模型協(xié)同領域大模型基礎大模型小模型OCRIDPTTSASRSummary……搜索增強知識庫文檔庫……插件調(diào)用函數(shù)計算代碼編譯網(wǎng)頁解析圖表繪制接口調(diào)用……大模型與業(yè)務系統(tǒng)的有機結(jié)合范式5:大小模型協(xié)同Agents資源庫知識增強

Agent角色扮演

Agent工具調(diào)用

Agent……總結(jié)分析

Agent總結(jié)者總結(jié)回答審查評價規(guī)劃者任務分類Agents編排Agents交互調(diào)度監(jiān)控進展處理異常反饋輸出AI驅(qū)動的全流程軟件開發(fā)PART

02編程成為最高頻的

AI

應用場景其中編程以

29%

占比高居榜首。Programming29%Education23%Content21%Sales&

Marketing13%Personal&

Other10%Politics&

Nonprofit3%CategoryBreakdownof4,098ChatGPT

PromptsAnalysisofuniqueusers’singleandmulti-promptsessionsfromMay&June,

2023AI

成為提升軟件研發(fā)效率的必選項程序員

2/3

的工作時間直接跟代碼相關程序員花費三分之一的時間編寫新代碼或改進現(xiàn)有代碼(32%)?;ㄙM 35% 的時間來管理代碼,包括代碼維護(19%)、測試(12%)和響應安全問題(4%)。另外

23%

的時間花在會議以及管理和運營任務上響應安全問題32%編寫代碼和改進已有代碼23%會議,管理和運營19%代碼維護12%測試9%其他4%…程序員

IDE

使用排行38%33%27%22%18%13%9%8%6%5%VisualStudio

CodeIntelliJVisual

StudioPyCharmEclipseAndriodStudioIPython/

JupyterVimSublim

e

TextCodaPHPStorm

4%XCode

3%Komodo

3%Atom

2%Table

2%0% 13% 25% 38% 50% 63%程序員的時間分配情況編程事務性工作的替代研發(fā)人員重復性工作,簡單工作,溝通的工作特別多,浪費時間。1個體效率研發(fā)管理流程化,缺乏靈活性,組織容效率豎井,響應能力弱。協(xié)作效率知識傳遞模式的改變AutoDev個人助理智能洞察智能研發(fā)工具智能編碼 智能評審 智能項管 平臺工程 智能問答企業(yè)一線開發(fā)者任務協(xié)同 架構(gòu)設計 代碼編寫 軟件測試 問題排查 軟件發(fā)布 日常運維 知識查詢知識梳理確定優(yōu)化目標梳理資產(chǎn)數(shù)據(jù)清洗安全與隱私自定義PromptRAG

檢索增強Agent

平臺基礎模型能力代碼補全模型 研發(fā)問答模型 企業(yè)專屬模型 模型訓練SFTLLM

智能大腦實時增強大模型對軟件領域的深遠影響大模型驅(qū)動的軟件開發(fā)流程LLMas

AgentLLMas

Multi-AgentsLLMas

Copilot影響整個軟件研發(fā)過程,多Agent互相協(xié)作完成復雜工作不改變軟件工程專業(yè)分工,增強領域?qū)I(yè)技術,AI研發(fā)工具輔助人完成任務單一職能專家,能夠自主使用工具完成預定任務階段一輔助完成任務階段二自主完成任務階段三協(xié)同處理復雜任務?具 賦能人員提效? 主導、提示及確認?具 獨立完成工作?給定上下文,完成知識對齊?具 與人協(xié)同共生?負責創(chuàng)意、糾偏及確認代碼大模型產(chǎn)品演進的三階段Copilot

階段Agent

階段Multi-Agents

階段任務自主處理功能自主研發(fā)代碼輔助生成Copilot

階段通義靈碼的核心功能架構(gòu)本地服務服務端模型數(shù)據(jù)算力IDE

客戶端生成粒度觸發(fā)時機業(yè)務上下文感知多模型路由擴展集成RAG/Agent持續(xù)的模型訓練精細化數(shù)據(jù)處理面向任務的數(shù)據(jù)集面向能力的數(shù)據(jù)集企業(yè)級

RAG向量數(shù)據(jù)庫提示詞工程模型路由身份鑒權(quán)生成問答對話研發(fā)問答模型代碼補全模型企業(yè)專屬模型 模型訓練

SFT Embedding數(shù)據(jù)采集 數(shù)據(jù)清洗 數(shù)據(jù)標注 數(shù)據(jù)解析 效果評測GPU

算力池算力運維分碼分析代碼后處理上下文感知問答會話管理本地

RAG向量數(shù)據(jù)庫Agent

框架本地工具短期記憶代碼助手的技術挑戰(zhàn)和解決方案PART

03代碼助手核心需要攻克的技術難點生成準確度推理性能數(shù)據(jù)個性化代碼安全生成準確度:過硬的基礎模型能力CodeQwen

1.5,超過

3Ttokens

訓練,支持

64K

上下文Qwen2,超過

7T

tokens

訓練,支持

128K

上下文通義靈碼補全模型通義靈碼問答模型持續(xù)訓練持續(xù)訓練Multi-ProgrammingLanguage

Performance(MultiPL-E)86.083.891.1地務型本代碼分析會話管理上下文感知服務代碼后處理問答管理代碼后處理服端身份鑒權(quán)生成問答對話提示詞工程模型路由企業(yè)級

RAG向量數(shù)據(jù)庫模代碼補全模型專項任務模型研發(fā)問答模型IDE客戶端代碼引用選擇模型庫內(nèi)跨文件感知評測集中,準確率從

22%

提高到

66.9%當前代碼上下文構(gòu)建

Prompt模型生成“幻覺”問題TopN代碼引用 相似代碼 當前代碼上下文構(gòu)建

Prompt模型生成跨文件上下文感知,插件與模型聯(lián)合優(yōu)化基于上下文感知的自適應生成粒度決策通義靈碼基于代碼的語義信息,充分讓模型理解不同場景下所需的生成粒度,從而讓模型能夠根據(jù)當前正在編寫的代碼位置,模型自適應決策應該生成的代碼粒度。生成單行代碼:無法構(gòu)建完整的函數(shù)或模塊代碼塊的不同位置提供不同生成規(guī)則:準確度低生成粒度決策準確率,Java

語言從47%提升到56%,Python

語言從26%提升到44%,其他語言均有較大提升知我所想觸手可及推理性能分級緩存、豐富的模型組合,實現(xiàn)速度與準確兼顧代碼補全任務

CodeQwen2

模型時延敏感型小參數(shù)代碼本地緩存服務端緩存推理加速流式補全本地服務分碼分析代碼后處理問答管理會話管理代碼后處理上下文感知服務端身份鑒權(quán)生成問答對話模型路由提示詞工程企業(yè)級

RAG向量數(shù)據(jù)庫模型代碼補全模型專項任務模型研發(fā)問答模型IDE客戶端代碼專項任務

Qwen-Plus

模型中等參數(shù)模型7項代碼技能研發(fā)?由問答

Qwen-Max

模型最大參數(shù)模型并疊加互聯(lián)網(wǎng)實時RAG技術數(shù)據(jù)個性化企業(yè)級代碼補全、研發(fā)問答檢索增強本地服務分碼分析代碼后處理問答管理會話管理代碼后處理上下文感知服務端身份鑒權(quán)生成問答對話模型路由提示詞工程企業(yè)級

RAG向量數(shù)據(jù)庫模型代碼補全模型專項任務模型研發(fā)問答模型IDE客戶端知識庫管理服務模型推理服務LLMEmbedding數(shù)據(jù)解析調(diào)度結(jié)構(gòu)化解析數(shù)據(jù)分塊代碼/文檔向量化問題理解整理回答初步召回二輪召回重排文件服務功能場景相似邏輯生成自研框架生成規(guī)范代碼生成API調(diào)用代碼生成功能場景研發(fā)文檔問答基于API文檔生成代碼研發(fā)規(guī)范優(yōu)化代碼根據(jù)樣例生成代碼代碼補全檢索增強研發(fā)問答檢索增強向量服務檢索引擎向量存儲運維測試開發(fā)項目管理企業(yè)數(shù)據(jù)的個性化特點唯我專屬觸手可及所在行業(yè)存在較多專有詞匯對需求/任務/缺陷的內(nèi)容及格式有固定的規(guī)范/要求需要學習已有的項目管理策略/經(jīng)驗編碼需要符合企業(yè)制定規(guī)范需要引用企業(yè)內(nèi)的二方包需要調(diào)用企業(yè)內(nèi)的API接口代碼的業(yè)務邏輯較復雜,存在較少的通用代碼適配企業(yè)內(nèi)已有的數(shù)據(jù)庫表結(jié)構(gòu),并學習SQL相關邏輯企業(yè)內(nèi)通常使用自研開發(fā)框架,如前端框架、組件庫等需要符合企業(yè)內(nèi)指定的測試規(guī)范所在行業(yè)的業(yè)務邏輯較復雜企業(yè)內(nèi)通常使用自研的測試框架需要復用企業(yè)內(nèi)的運維手冊運維人員需要學習企業(yè)內(nèi)的大量運維腳本/知識需要快速獲取企業(yè)內(nèi)的運維接口/API企業(yè)數(shù)據(jù)的個性化流程唯我專屬觸手可及企業(yè)代碼/知識庫代碼數(shù)據(jù)處理過濾過小或過大的文件過濾文件行數(shù)大于xxxx的文件過濾掉注釋比例大于

xx%

的文件過濾掉反編譯產(chǎn)出的文件……文檔數(shù)據(jù)處理各種文檔類型轉(zhuǎn)換為markdown格式根據(jù)標題段落構(gòu)建文檔結(jié)構(gòu)樹使用大模型、規(guī)則等策略抽取QA問答對……模型微調(diào)需要加入開放域數(shù)據(jù)及私域數(shù)據(jù)混合訓練如果企業(yè)內(nèi)GPU資源不足,可以采用LoRA/QLoRA的方式,訓練數(shù)據(jù)較小時,需要避免過擬合檢索增強采用關鍵詞+向量混合檢索的方式比僅用向量檢索效果會更好,檢索后進行重排能進一步提升召回詞嵌入模型對沒有見過的數(shù)據(jù),泛化性較差數(shù)據(jù)處理模型微調(diào)/RAG索引效果評測通義靈碼插件通義靈碼本地客戶端代碼加密本地向量存儲敏感信息過濾用戶本地客戶端API模型推理返回客戶端https內(nèi)容加密服務和模型推理此過程代碼數(shù)據(jù)不落盤,不會用于二次訓練通過代碼加密技術防止傳輸過程泄密通過本地向量存儲降低云端存儲泄密風險通過敏感信息過濾避免密鑰信息意出代碼安全全鏈路安全防護通義靈碼不斷提升能力,顯著提升開發(fā)者工作效率通義靈碼對工作效率和專注度提升的影響3%

4%4%

4%3%

3%3%

3%20%21%17%17%26%25%27%26%46%46%50%51%感覺編碼?作效率更?可以保持編碼?流可以減少重復代碼的編寫可以減少瀏覽器搜索次數(shù)1分2分3分4分5分從代碼助手到軟件開發(fā)智能體PART

04代碼智能體:從簡單代碼任務走向復雜代碼生成GitHub

Copilot

發(fā)布

WorkspaceCognition

AI

發(fā)布

Devin從單一

Agent,走向多

Agent

架構(gòu)單工程問答Agent基于單庫

RAG

技術,以及固定步驟實現(xiàn)對單庫范圍內(nèi)的簡單編碼任務。具備一定自主任務規(guī)劃能力,以及使用工具能力,可自主完成單庫范圍內(nèi)的編碼任務。具備自主測試能力的Agent,可以理解任務需求,閱讀代碼,生成測試代碼,并完成運行。多

Agents基于

AI

調(diào)度共同完成任務。實現(xiàn)從需求->代碼->測試的全流程自主化。編碼Agent測試AgentMulti-AgentsAgent

階段通義靈碼工程級別的智能問答本地檢索引擎本地向量存儲引擎遠程

embedding

服務本地工作流編排架構(gòu)知識問答需求細化代碼庫信息獲取需求關鍵信息提取需求任務拆解庫內(nèi)檢索增強本地向量檢索召回檢索結(jié)果合并及重排企業(yè)知識庫檢索召回發(fā)送請求組裝

Prompt大模型生成本地庫內(nèi)檢索增強服務通過感知本地工作空間中源文件進行預處理,建立在用戶本地的向量化索引,基于本地工作流編排引擎,完成多階段任務。工程級別代碼生成與問答利用檢索增強技術結(jié)合大模型,實現(xiàn)例如代碼查找,業(yè)務邏輯生成,SQL生成,整庫功能解讀等復雜問答能力。SWE-bench

測試集SWE-bench

評估AI解決真實世界編程問題的能力HowtoUnderstandWholeSoftware

RepositoryRepo圖構(gòu)建:利用從屬關系、依賴關系構(gòu)建Repo圖,并利用BM25等簡單的方法為Repo每個chunk打分;Repo探索:基于初始打分逐步探索Repo,并利用大模型對chunk進行打分修正,修正的分數(shù)沿著chunk的從屬關系和依賴關系進行傳播增強;關鍵路徑總結(jié):經(jīng)過探索后,總結(jié)出多個關鍵chunk和路徑,大模型為每個chunk進行總結(jié);提出了蒙特卡洛項目感知優(yōu)化方法,在蒙特卡洛構(gòu)建的過程中,利用大模型判斷最后可能的chunk與issue間的關聯(lián)程度,并通過從屬關系、引用關系進行擴散,逐步定位缺陷點;基于蒙特卡洛項目感知優(yōu)化方法,大幅提升了缺陷定位準確性(錯誤率降低17%),我們在SWE-benchlite21.3%(ACR16%,SWE-Agent

18%)靈碼Agent獲得

SWE-bench-Lite

SOTA落地難點Multi-Agent

階段

AI

程序員概念架構(gòu)UserContextConversationPlannerLLMsTools

LibraryMulti-Agent

SysEnvironmentMessaging

poolCollaboration

CoreStructured

outputActionsReflectionPrompt結(jié)構(gòu)化任務管理多智能體的工作模式反映了人類團隊如何分解大型任務,提供一種分配任務和管理智能體的直接方法簡化工作流程將復雜的任務分解為更小的子任務使整個項目更理,提高靈活性和適應性,符合企業(yè)特點和需要高效執(zhí)行任務讓某個具體的智能體專注于特定任務。每個智能體能夠?qū)W⒌胤治霾?zhí)行任務,提高系統(tǒng)工作效率未來展望人工智能和軟件工程的融合發(fā)展PART

05未來智能軟件研發(fā)工具鏈形態(tài)AI

智能平臺層(意圖識別、用戶習慣、提示詞工程、用戶鑒權(quán))運行沙箱環(huán)境模型推理服務模型微調(diào)

SFT檢索增強

RAG企業(yè)級數(shù)據(jù)管理AI

程序員AI

輔助工作區(qū)域企業(yè)研發(fā)數(shù)據(jù)及數(shù)字資產(chǎn)管理設計需求看板代碼托管CI/CD知識庫領域能力庫IDE

客戶端開發(fā)者研發(fā)門戶IM

工具從團隊協(xié)同(依賴人)到

人機協(xié)同(依賴算力,數(shù)據(jù))更強?的?模型

+ 更前沿的智能體技術 + 更先進的軟件開發(fā)理念及其面臨的問題40年前人月神話themythical

man-month及其面臨的問題N年后人與智能體themythicalmanputing

power人工智能(AI)

軟件工程(SE)

的融合發(fā)展面向軟件工程的機器學習CodeGeneration,Summarization,

SearchProgramRepairUIDesignswithMultimodal

LearningLLMforFuzzing

TestAutomatedBug

Replay測試與分析Malware

DetectorsVulnerability

DetectionFaultLocalizationLog-BasedAnomaly

DetectionAutomaticLoggingwithLLMand

ICLPre-trainedLanguageModelforLog

Understanding進化Multi-IntentmentGenerationw

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論