2025大語言模型的推理_第1頁
2025大語言模型的推理_第2頁
2025大語言模型的推理_第3頁
2025大語言模型的推理_第4頁
2025大語言模型的推理_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2推理框架的選擇與部署 首先需要明確什么是框架??蚣?,這個在IT領域經(jīng)常被提及的名詞,究竟意味著什么呢?它既是一種約束性的“框子”,指其提供的規(guī)范性;也是一種支撐性的“架子”,為其上的應用提供支撐。推理框架是LLM中的核心組成部分,它負責引導模型進行邏輯推理、上下文理解和文本生成。 跨平臺支持簡化部署流程跨平臺支持簡化部署流程加速模型推理優(yōu)化資源利用 不同模型與框架的兼容性存在差異,主要考慮如下幾方面: 性能要求在選擇推理框架時,需要考慮其對模型性能的影響,選擇能夠最大化模型性能的框架。兼容性推理框架應與現(xiàn)有的技術棧和部署環(huán)境兼容。例如計算資源:如GPU、CPU或l只需執(zhí)行幾條命令,無需復雜配置即可完成安裝部署便捷,易于使用l用戶界面友好,命令行工具便捷,無論是專業(yè)開發(fā)者還是普通用戶,都能輕松管理和運行LLM模型社區(qū)支持和生態(tài)推理框架的社區(qū)支持和生態(tài)也是選擇時的重要因素,強大的社區(qū)和完善的生態(tài)可以提供更好的技術支持和資源 部署環(huán)境準備 部署注意事項 部署步驟解析 部署后的測試 性架 VLLM框架介紹VLLM框架介紹vLLM框架的基本概念vLLM框架的基本概念vLLM是一個高吞吐量和內存高效的大型 原本只作為pagedattn開源實現(xiàn),目前已經(jīng)在生產環(huán)境中廣泛使用:?與OpenAIAPI服務的兼容性:vLLM提供了與OpenAI接口服務的兼容性,使得用戶能夠更容易地將vLLM集成到現(xiàn)有系統(tǒng)中。 VLLM框架應用場景vLLM作為一種大型語言模型推理加速工具,在各種應用場景中都有著廣泛的應用。在自然語言處理領域vLLM可以用于文本分類、情感分析、機器翻譯等任務;在語音識別領域vLLM可以用于語音轉文字、語音合成等任務;在圖像識別領域vLLM可以用于圖像標注、物體識別等任務。智能客服、智能助手vLLM在智能客服、智能助手等場景中,為用戶提供更加高效、便捷的服務,提升用戶體驗。結合百度智能云千帆大模型平臺的API接口,用戶可以更加靈活地部署和調用這些模型,滿足多樣化的應用需求。 VLLM推理過程介紹輸入一段話,輸出是一個一個token(詞元)/單詞的輸出一句話。 VLLM推理過程介紹 VLLM推理過程介紹ZOMIwhoareyou?whileIamZOMIwhoareyou?whileIamIamwhileZOMIKVCachewhoYou?IamZOMI[gEND] VLLM推理過程介紹DecodingDecoding VLLM推理過程介紹1.根據(jù)輸入Tokens生成第一個輸出Token(A通過一次Forward就可以完成2.在Forward中,輸入Tokens間可以并行執(zhí)行,因此執(zhí)行效率很高?Decoding:1.從生成第一個Token后,采用自回歸一次生成一個Token,直到生成StopToken結束2.設輸出共NxToken,Decoding階段需要執(zhí)行N-1次Forward,只能串行執(zhí)行,效率很低3.在生成過程中,需要關注Token越來越多,計算量也會適當增大 準備事項操作系統(tǒng)安裝本地安裝方式Docker部署方式 啟動后輸出日志 客戶端工具連接客戶端工具連接 影響VLLM推理速度的重要參數(shù)配置:max_num_batched_tokens一次推理最多能處理的tokens數(shù)量,max_num_batched_tokens一次推理最多能處理的tokens數(shù)量,默認值是2048。vllm會預先分配顯存,默認值是0.9。量也就越大,但vllm內部會根據(jù)max_model_len自動計算max_vllm會預先分配顯存,默認值是0.9。量也就越大,但vllm內部會根據(jù)max_model_len自動計算max_num_batched_tokens,所以可以不設置這個值的情況下,gpu_memory_utilization可以設置為0.95。Qmax_num_seqstensor_parallel_sizemax_num_seqs張量并行時需要使用的GPU數(shù)量,使用多個一次推理最多能處理的sequences數(shù)量,張量并行時需要使用的GPU數(shù)量,使用多個max_num_seqs越大,能處理的請求數(shù)量就會max_model_lenGPU推理時,每個GPU都有更多的內存可用于KV緩存,能處理的請求數(shù)量更多,速度模型的最大生成長度,包含prompt長度和generated長度。這個值需要根據(jù)實際情況輸 prefill階段調度的請求數(shù)量受到max-num-seq以及max-num_batchd-tokens的限制,前者控制了批的大小,后者控制了總的tokens數(shù)。在decode階段,每次迭代只生成一個token,只受max-num-seq的限制 PD兩階段的特點:1.Prefill階段算力是瓶頸(計算和生成kvcacheDecode階段內存是瓶頸(訪存kvcache)2.Prefill階段能充分使用算力,Decode階段不能3.Decode階段

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論