北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025

上傳人：b*** IP屬地：廣西上傳時(shí)間：2025-03-24 格式：PPTX 頁(yè)數(shù)：121 大?。?0.39MB 積分：35 舉報(bào) 版權(quán)申訴

北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第2頁(yè)

北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第3頁(yè)

北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第4頁(yè)

北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第5頁(yè)

已閱讀5頁(yè)，還剩116頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DeepSeek內(nèi)部研討系列DeepSeek

私有化部署和一體機(jī)2摘要本次講座為DeepSeek原理和應(yīng)用系列研討的講座之一，讓大家可以決策是否需要自己部署DeepSeek系列模型，并了解自己本地化部署DeepSeek的基本方法，同時(shí)了解更專業(yè)的企業(yè)級(jí)部署方法，有助于選擇DeepSeek一體機(jī)型號(hào)，并能理解DeepSeek云服務(wù)的工作機(jī)制和原理，用好DeepSeek云服務(wù)的API調(diào)用方法。本講座的內(nèi)容分為四個(gè)主要部分：①

首先，除了DeepSeek滿血版之外，還有各種各樣的蒸餾版和量化版，以及DeepSeek的不同專業(yè)模型。我們將介紹人工智能大模型的基本概念，以及DeepSeek各個(gè)模型的特點(diǎn)與適用場(chǎng)景，對(duì)比不同規(guī)模模型的性能表現(xiàn)，幫助大家選擇最適合自己需求的版本。②

其次，對(duì)于普通用戶在自己的電腦上部署和體驗(yàn)DeepSeek（蒸餾版）的情況，我們會(huì)評(píng)估和建議硬件要求，演示如何通過Ollama命令行高效部署DeepSeek模型，解決下載過程中可能遇到的常見問題。為了提升在自己的電腦上安裝DeepSeek模型后，大家與DeepSeek模型的交互體驗(yàn)，我們還將介紹Open

WebUI和Chatbox等前端展示工具的配置與使用方法。③ 然后，對(duì)于專業(yè)級(jí)的企業(yè)部署DeepSeek，或把DeepSeek（蒸餾版和滿血版）部署在專業(yè)的昂貴的推理機(jī)上，本講座將探討基于Transformers快速驗(yàn)證和vLLM的高性能部署方案，并提供真實(shí)企業(yè)基于vLLM的部署DeepSeek-70b的相關(guān)數(shù)據(jù)和經(jīng)驗(yàn)。④ 最后，作為補(bǔ)充內(nèi)容，針對(duì)計(jì)算資源受限的場(chǎng)景，我們專門設(shè)計(jì)了"低成本部署"環(huán)節(jié)，詳細(xì)講解UnslothR1動(dòng)態(tài)量化部署的三種實(shí)現(xiàn)路徑：基于llama.cpp、KTransformers以及Ollama框架動(dòng)態(tài)量化部署。在技術(shù)學(xué)習(xí)的道路上，優(yōu)質(zhì)學(xué)習(xí)資源至關(guān)重要。推薦大家參考《人工智能通識(shí)教程（微課版）》這本系統(tǒng)全面的入門教材，結(jié)合B站“思睿觀通”欄目的配套視頻進(jìn)行學(xué)習(xí)。此外，歡迎加入社區(qū)，以及“AI肖睿團(tuán)隊(duì)”的視頻號(hào)和微信號(hào)，與志同道合的AI愛好者交流經(jīng)驗(yàn)、分享心得。301人工智能與Deep

Seek目錄03 企業(yè)部署Deep

Seek02 個(gè)人部署Deep

Seek04 Deep

Seek一體機(jī)3人工智能與Deep

SeekPART

014大模型相關(guān)術(shù)語(yǔ)?多模態(tài)文本、圖片、音頻、視頻?AI工具（國(guó)內(nèi)）DeepSeek、

豆包、Kimi、騰訊元寶、智譜清言、通義千問、秘塔搜索、微信搜索...?通用模型大語(yǔ)言模型（LLM，Large

Language

Model）生成模型推理模型視覺模型（圖片、視頻）音頻模型多模態(tài)模型……?行業(yè)模型（垂直模型、垂類模型）教育、醫(yī)療、金融、辦公、安全等5大模型的前世今生人工智能：讓機(jī)器具備動(dòng)物智能，人類智能，非人類智能（超人類智能）運(yùn)算推理：規(guī)則核心；自動(dòng)化知識(shí)工程：知識(shí)核心；知識(shí)庫(kù)+推理機(jī)機(jī)器學(xué)習(xí)：學(xué)習(xí)核心；數(shù)據(jù)智能（統(tǒng)計(jì)學(xué)習(xí)方法，數(shù)據(jù)建模）常規(guī)機(jī)器學(xué)習(xí)方法：邏輯回歸，決策森林，支持向量機(jī)，馬爾科夫鏈，…..人工神經(jīng)網(wǎng)絡(luò)：與人腦最大的共同點(diǎn)是名字，機(jī)制和架構(gòu)并不一樣傳統(tǒng)神經(jīng)網(wǎng)絡(luò)：霍普菲爾德網(wǎng)絡(luò)，玻爾茲曼機(jī)，…..深度神經(jīng)網(wǎng)絡(luò)：深度學(xué)習(xí)傳統(tǒng)網(wǎng)絡(luò)架構(gòu)：DBN，CNN，RNN，ResNet，Inception，RWKV，……Transformer架構(gòu)：可以并行矩陣計(jì)算（GPU），核心是注意力機(jī)制（Attention）編碼器（BERT）：多數(shù)embedding模型，Ernie早期版本，…….混合網(wǎng)絡(luò)：T5、GLM解碼器（GPT）：大語(yǔ)言模型（LLM），也是傳統(tǒng)的多模態(tài)模型的核心生成式人工智能（GenAI）：AIGCDeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、火山、……OpenAI

GPT（ChatGPT）、Claude、Llama、Grok、……Diffusion架構(gòu)：主要用于視覺模型（比如Stable

Diffusion、DALL.E），現(xiàn)在也開始嘗試用于語(yǔ)言模型Diffusion+Transformer架構(gòu)：例如Sora的DiT（加入Diffusion的視覺模型），部分新的多模態(tài)模型架構(gòu)6大模型的發(fā)展階段生成模型ref:中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告(2025.01.08)

7推理模型8生成模型與推理大模型的對(duì)比比較項(xiàng)OpenAI

GPT-4o（生成模型）OpenAI

o1（推理模型）模型定位專注于通用自然語(yǔ)言處理和多模態(tài)能力，適合日常對(duì)話、內(nèi)容生成、翻譯以及圖文、音頻、視頻等信息處理、生成、對(duì)話等。側(cè)重于復(fù)雜推理與邏輯能力，擅長(zhǎng)數(shù)學(xué)、編程和自然語(yǔ)言推理任務(wù)，適合高難度問題求解和專業(yè)領(lǐng)域應(yīng)用。一般是在生成模型的基礎(chǔ)上通過RL方法強(qiáng)化CoT能力而來推理能力在日常語(yǔ)言任務(wù)中表現(xiàn)均衡，但在復(fù)雜邏輯推理（如數(shù)學(xué)題求解）上準(zhǔn)確率較低。在復(fù)雜推理任務(wù)表現(xiàn)卓越，尤其擅長(zhǎng)數(shù)學(xué)和代碼等推理任務(wù)。多模態(tài)支持支持文本、圖像、音頻乃至視頻輸入，可處理多種模態(tài)信息。當(dāng)前主要支持文本輸入，不具備圖像處理等多模態(tài)能力。應(yīng)用場(chǎng)景適合廣泛通用任務(wù)，如對(duì)話、內(nèi)容生成、多模態(tài)信息處理以及多種語(yǔ)言相互翻譯和交流；面向大眾市場(chǎng)和商業(yè)應(yīng)用。適合需要高精度推理和邏輯分析的專業(yè)任務(wù)，如數(shù)學(xué)競(jìng)賽、編程問題和科學(xué)研究；在思路清晰度要求高的場(chǎng)景具有明顯優(yōu)勢(shì)，比如采訪大綱、方案梳理。用戶交互體驗(yàn)提供流暢的實(shí)時(shí)對(duì)話體驗(yàn)，支持多種輸入模態(tài)；用戶界面友好，適合大眾使用?？勺灾麈?zhǔn)剿伎迹恍枰嗟倪^程指令，整體交互節(jié)奏較慢。普通大模型是玩知識(shí)和文字的，推理大模型是玩邏輯的，至于計(jì)算問題，還是找計(jì)算器吧推理模型也不是萬(wàn)能的，其幻覺通常比生成模型大，很多不需要強(qiáng)推里的場(chǎng)合還是傳統(tǒng)的生成模型比較適合99自

2024

年起，AI肖睿團(tuán)隊(duì)便接入DeepSeek

V2，持續(xù)應(yīng)用

DeepSeek

技術(shù)體系，歷經(jīng)

V2（MoE

架構(gòu)）、V3（MTP）探索，現(xiàn)已在生產(chǎn)項(xiàng)目中接入DeepSeek

R1（滿血版）。其中，V2和V3都是生成模型，R1為推理模型。下面，基于我們團(tuán)隊(duì)對(duì)DeepSeek的技術(shù)研究和實(shí)戰(zhàn)經(jīng)驗(yàn)，為大家系統(tǒng)梳理這三大模型技術(shù)特性，剖析知識(shí)蒸餾在各版本提升效率的邏輯，并結(jié)合邊緣計(jì)算、數(shù)學(xué)編程、中文等場(chǎng)景實(shí)例，對(duì)比DeepSeek

R1各版本模型的計(jì)算效率與推理精度的演進(jìn)，同時(shí)說明標(biāo)準(zhǔn)化

API/SDK

對(duì)技術(shù)落地的適配機(jī)制。10DeepSeek快速出圈11DeepSeek-“服務(wù)器繁忙”2024年12月26日，DeepSeek因推出對(duì)標(biāo)GPT

4o的語(yǔ)言模型DeepSeek

V3，首先在美國(guó)的人工智能行業(yè)內(nèi)部一起轟動(dòng)。2025年1月20日，DeepSeek繼續(xù)發(fā)布對(duì)標(biāo)OpenAI

o1的語(yǔ)言模型DeepSeek

R1。由于“深度思考”模式生成的答案的過程可視化，完全開源模型參數(shù)和技術(shù)方案，采用極致的模型架構(gòu)優(yōu)化和系統(tǒng)優(yōu)化手段降低了模型的訓(xùn)練和推理成本，加之完全由中國(guó)本土團(tuán)隊(duì)制造，讓DeepSeek公司和DeepSeek

R1模型在蛇年春節(jié)前后徹底出圈。春節(jié)之后，隨著大量用戶的快速涌入，DeepSeek

官方提供的模型服務(wù)就一直在經(jīng)歷擁堵，它的聯(lián)網(wǎng)搜索功能間歇性癱瘓，深度思考模式則高頻率提示“服務(wù)器繁忙”，此類現(xiàn)象讓大量用戶倍感困擾。這也揭示了AI時(shí)代和互聯(lián)網(wǎng)時(shí)代的底層邏輯的不同：在互聯(lián)網(wǎng)時(shí)代，用戶使用一個(gè)系統(tǒng)的成本很低，邊際成本接近于零，但在AI時(shí)代，用戶使用一個(gè)系統(tǒng)的成本比較高，后天會(huì)有大量的算力需求和token消耗，邊際成本下降并不明顯。12模型系列公司與模型介紹01公司簡(jiǎn)介DeepSeek于2023年7月成立，是幻方量化孵化出的一家大模型研究機(jī)構(gòu)，團(tuán)隊(duì)分布在中國(guó)杭州和北京，是中國(guó)大模型七小虎之一。除了DeepSeek之外，其它六家也被投資界稱為中國(guó)大模型企業(yè)六小龍（智譜AI、百川智能、月之暗面、零一萬(wàn)物、階躍星辰、MiniMax）。13模型的演進(jìn)歷史和特點(diǎn)14三個(gè)主要的DeepSeek模型的區(qū)別對(duì)比維度DeepSeek

V2DeepSeek

V3DeepSeek

R1核心架構(gòu)DeepSeekMoE（混合專家架構(gòu)改進(jìn)版）總參數(shù)量

2360

億單次激活

210

億參數(shù)升級(jí)版

DeepSeekMoE

架構(gòu)總參數(shù)量

6710

億單次激活

370億參數(shù)與V3模型相同訓(xùn)練方法傳統(tǒng)預(yù)訓(xùn)練

監(jiān)督微調(diào)（SFT）+

強(qiáng)化學(xué)習(xí)（RL）數(shù)據(jù)量

8.1

萬(wàn)億

tokens預(yù)訓(xùn)練

SFT

+MTP+RL引入

GRPO

算法提升RL效率和效果數(shù)據(jù)量14.8萬(wàn)億tokens跳過

SFT，直接通過RL激發(fā)推理能力采用兩階段

和冷啟動(dòng)技術(shù)部分關(guān)鍵特性首次引入

MoE

架構(gòu)，并進(jìn)行了改進(jìn)你無(wú)輔助損失的負(fù)載均衡代碼任務(wù)生成速度提升至

TPSRL驅(qū)動(dòng)推理優(yōu)化模型蒸餾實(shí)驗(yàn)（可遷移至小模型）Zero版驗(yàn)證了自我進(jìn)化能力性能表現(xiàn)舉例生成速度20TPS，適合通用生成任務(wù)綜合

NLP

任務(wù)接近

GPT-4oMMLU

知識(shí)理解

88.5%API

成本大幅降低數(shù)學(xué)推理（MATH-500

97.3%）代碼生成（Codeforces）與openAI-o1-1217相當(dāng)15模型簡(jiǎn)介DeepSeek-V2模型簡(jiǎn)介DeepSeek-V2模型與DeepSeek

LLM

67B相比，DeepSeek-V2實(shí)現(xiàn)了更強(qiáng)的性能，同時(shí)節(jié)省了42.5%的訓(xùn)練成本，減少了93.3%的KV緩存，并將最大生成吞吐量提升至5.76倍。設(shè)計(jì)初衷DeepSeek-V2旨在解決現(xiàn)有大語(yǔ)言模型訓(xùn)練成本高、推理效率低的問題。通過引入MoE架構(gòu)，它在保持高性能的同時(shí)，大幅降低訓(xùn)練成本和推理時(shí)間，為廣泛的應(yīng)用場(chǎng)景提供支持。核心原理DeepSeek-V2基于混合專家（Mixture-of-Experts

，MoE)架構(gòu)，將任務(wù)分配給多個(gè)專家模型，每個(gè)專家專注于特定子任務(wù)，從而提升性能和效率。模型總參數(shù)量為236B，其中21B參數(shù)在每個(gè)token上被激活，使其在處理復(fù)雜任務(wù)時(shí)更靈活高效。模型簡(jiǎn)介DeepSeek-V3模型簡(jiǎn)介DeepSeek

V3模型采用的模型架構(gòu)與V2模型差不多，都采用MLA和MoE。V3在V2的基礎(chǔ)上主要是增加了多令牌預(yù)測(cè)（Multi-Token

Prediction,

MTP）的訓(xùn)練目標(biāo)。我們都知道大模型是自回歸模型，在回答問題時(shí)，本質(zhì)上是一個(gè)字一個(gè)字的預(yù)測(cè)出來的，而MTP實(shí)現(xiàn)了類似同時(shí)預(yù)測(cè)多個(gè)字的效果。準(zhǔn)確地講，這里不是“字”，是“token”。這里用“字”，主要是便于理解。16模型簡(jiǎn)介DeepSeek-R1與以往的研究不同，R1模型通過強(qiáng)化學(xué)習(xí)而非監(jiān)督學(xué)習(xí)的方式顯著提升了大模型的在數(shù)學(xué)和邏輯推理任務(wù)中的表現(xiàn)，驗(yàn)證了強(qiáng)化學(xué)習(xí)在提升模型推理能力上的作用。通過強(qiáng)化學(xué)習(xí)自動(dòng)學(xué)習(xí)復(fù)雜的推理行為（自我驗(yàn)證與反思），然后隨著訓(xùn)練的深入，模型逐步提升了對(duì)復(fù)雜任務(wù)的解答能力，并顯著提高了模型推理能力。在數(shù)學(xué)和編程基準(zhǔn)測(cè)試集上，與open

AI-o1模型的表現(xiàn)相當(dāng)并大幅超越其它現(xiàn)有大模型。17DeepSeek模型優(yōu)勢(shì)18DeepSeek模型優(yōu)勢(shì)19DeepSeek模型優(yōu)勢(shì)2021DeepSeek

R1達(dá)到了跟o1相當(dāng)、或者至少接近的推理能力，且將推理過程可視化它做到這個(gè)水平只用到少得多的資源，所以價(jià)格十分便宜它是完全開源的并且還發(fā)布論文，詳細(xì)介紹了訓(xùn)練中所有的步驟和竅門DeepSeek深度求索公司是一家純粹的中國(guó)公司混合專家MOE多頭潛在注意力MLA強(qiáng)化學(xué)習(xí)GRPODeepseek官網(wǎng)地址：

https://chat.deepDeepSeek-R1

訓(xùn)練技術(shù)全部公開，論文鏈接：/deepseek-ai/DeepSeek-

R1/blob/main/DeepSeek_R1.pdfDeepSeek的算法和算力突破直接硬件編程PTX混合精度訓(xùn)練FP8多Token預(yù)測(cè)MTP通訊優(yōu)化DualPipe并行訓(xùn)練框架HAI測(cè)試時(shí)計(jì)算TTC21第21頁(yè)DeepSeek模型特點(diǎn)總結(jié)22基礎(chǔ)架構(gòu)：混合專家模型（MoE）：DeepSeek采用MoE架構(gòu)，通過動(dòng)態(tài)選擇最適合輸入數(shù)據(jù)的專家模塊進(jìn)行處理，提升推理能力和效率。無(wú)輔助損失的負(fù)載均衡策略（EP）：該策略使DeepSeekMoE在不對(duì)優(yōu)化目標(biāo)產(chǎn)生干擾的前提下，實(shí)現(xiàn)各個(gè)專家的負(fù)載均衡，避免了某些專家可能會(huì)被過度使用，而其他專家則被閑置的現(xiàn)象。多頭潛在注意力機(jī)制（MLA）：MLA通過低秩壓縮減少Key-Value緩存，顯著提升推理效率。強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)（RL）：DeepSeek-R1在訓(xùn)練中大規(guī)模應(yīng)用強(qiáng)化學(xué)習(xí)，將傳統(tǒng)的PPO替換為GRPO訓(xùn)練算法，顯著提升推理能力。多Token預(yù)測(cè)（MTP）：通過多Token預(yù)測(cè)，Deepseek不僅提高了推理速度，還降低了訓(xùn)練成本。DeepSeek模型特點(diǎn)總結(jié)23訓(xùn)練及框架：FP8混合精度訓(xùn)練：在關(guān)鍵計(jì)算步驟使用高精度，其他模型層使用FP8低精度進(jìn)一步降低訓(xùn)練成本。這一點(diǎn)，是DeepSeek團(tuán)隊(duì)在Infra工程上的非常有價(jià)值的突破。長(zhǎng)鏈推理技術(shù)（TTC）：模型支持?jǐn)?shù)萬(wàn)字的長(zhǎng)鏈推理，可逐步分解復(fù)雜問題并進(jìn)行多步驟邏輯推理。并行訓(xùn)練策略（HAI）：16

路流水線并行(Pipeline

Parallelism,

PP)、跨

8個(gè)節(jié)點(diǎn)的

64路專家并行(Expert

Parallelism,

EP)，以及數(shù)據(jù)并行(Data

Parallelism,

DP)，大幅提升模型訓(xùn)練速度。通訊優(yōu)化DualPipe：

高效的跨節(jié)點(diǎn)通信內(nèi)核，利用

和

NVLink

帶寬，減少通信開銷，提高模型推理性能。混合機(jī)器編程（PTX）：部分代碼直接進(jìn)行使用PTX編程提高執(zhí)行效率，并優(yōu)化了一部分算子庫(kù)。低成本訓(xùn)練：DeepSeek-V3的訓(xùn)練成本為557.6萬(wàn)美元，僅為OpenAI的GPT-4o等領(lǐng)先閉源模型的3%-5%。DeepSeek模型特點(diǎn)總結(jié)24社會(huì)價(jià)值：開源生態(tài)：DeepSeek采用開源策略，使用最為開放的MIT開源協(xié)議，吸引了大量開發(fā)者和研究人員，推動(dòng)了AI技術(shù)的發(fā)展。模型蒸餾支持：DeepSeek-R1同時(shí)發(fā)布了多個(gè)模型蒸餾。雖然這些蒸餾模型的生產(chǎn)初衷是為了驗(yàn)證蒸餾效果，但在實(shí)質(zhì)上幫助用戶可以訓(xùn)練更小型的模型以滿足不同應(yīng)用場(chǎng)景需求，也給用戶提供更多的抑制了DeepSeekR1滿血版模型的能力的小模型選擇（雖然也給市場(chǎng)和用戶造成了很多困擾）。AI產(chǎn)品和技術(shù)的普及教育：對(duì)于社會(huì)，認(rèn)識(shí)到AI是一個(gè)趨勢(shì)，不是曇花一現(xiàn)；對(duì)于市場(chǎng)，用戶開始主動(dòng)引入AI，不用教育了；對(duì)于大模型企業(yè)，

越發(fā)開始重視infra工程的價(jià)值了。DeepSeek-R1全家桶ModelBase

ModelModel

DownloadDeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B

HuggingFaceModelScope蒸餾模型，能力稍弱實(shí)際上是增加了推理能力的Qwen模型和Llama模型，嚴(yán)格來講不能稱為DeepSeek模型（市場(chǎng)上有誤解，廠商有誤導(dǎo)，Ollama工具的模型選項(xiàng)中也有誤導(dǎo)）DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B

HuggingFaceModelScopeDeepSeek-R1-Distill-Llama-8BLlama-3.1-8B

HuggingFaceModelScopeDeepSeek-R1-Distill-Qwen-14BQwen2.5-14B

HuggingFaceModelScopeDeepSeek-R1-Distill-Qwen-32BQwen2.5-32B

HuggingFaceModelScopeDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct

HuggingFaceModelScopeDeepSeek-R1-671BDeepSeek-V3-Base

HuggingFaceModelScope滿血版，能力最強(qiáng)25蒸餾模型-概念模型蒸餾的定義通俗解釋：模型蒸餾就像是讓一個(gè)“老師”（大模型）把知識(shí)傳授給一個(gè)“學(xué)生”（小模型），讓“學(xué)生”變成“學(xué)霸”。正式定義：模型蒸餾是一種將大型復(fù)雜模型（教師模型）的知識(shí)遷移到小型高效模型（學(xué)生模型）的技術(shù)。模型蒸餾的原理教師模型的訓(xùn)練：先訓(xùn)練一個(gè)性能強(qiáng)大但計(jì)算成本高的教師模型。生成軟標(biāo)簽：教師模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)，得到每個(gè)樣本的概率分布，這些就是軟標(biāo)簽。訓(xùn)練學(xué)生模型：用軟標(biāo)簽和硬標(biāo)簽共同訓(xùn)練學(xué)生模型。優(yōu)化與調(diào)整：通過調(diào)整超參數(shù)，優(yōu)化學(xué)生模型的性能。蒸餾技術(shù)的優(yōu)勢(shì)模型壓縮：學(xué)生模型參數(shù)少，計(jì)算成本低，更適合在資源受限的環(huán)境中部署。性能提升：學(xué)生模型通過學(xué)習(xí)教師模型的輸出概率分布，能夠更好地理解數(shù)據(jù)的模式和特征。效率提高：學(xué)生模型訓(xùn)練所需的樣本數(shù)量可能更少，訓(xùn)練成本降低。26DeepSeek-R1蒸餾模型-能力對(duì)比DeepSeek蒸餾版的選擇經(jīng)驗(yàn)千萬(wàn)別用1.5B和8B做正經(jīng)業(yè)務(wù)，會(huì)翻車！做自然語(yǔ)言對(duì)話7B就很好用了預(yù)算有限又想搞事情就選14B要做知識(shí)問答選32B，對(duì)代碼支持也不錯(cuò)70B性價(jià)比最低，與32B性能類似，成本翻倍，沒有什么理由存在27DeepSeek模型應(yīng)用場(chǎng)景邊緣計(jì)算場(chǎng)景的低延遲部署DeepSeek結(jié)合天翼云智能邊緣云ECX，能夠在靠近用戶的邊緣節(jié)點(diǎn)部署模型，顯著降低數(shù)據(jù)傳輸延遲，適用于對(duì)實(shí)時(shí)性要求極高的場(chǎng)景復(fù)雜數(shù)學(xué)與編程任務(wù)DeepSeek-R1在數(shù)學(xué)推理和代碼生成領(lǐng)域展現(xiàn)了超越同類模型的獨(dú)特能力中文場(chǎng)景的深度優(yōu)化理解文化背景和習(xí)慣用語(yǔ)（如生成春節(jié)習(xí)俗對(duì)比文章），優(yōu)于GPT-4的中文處理能力28使用方式直接使用官方服務(wù)訪問官網(wǎng)(

或

/)，登錄后使用，適合電腦端快速使用，但存在服務(wù)不穩(wěn)定問題。下載APP，適合手機(jī)平板等移動(dòng)設(shè)備，但同樣存在服務(wù)不穩(wěn)定問題。使用第三方服務(wù)與API調(diào)用第三方服務(wù)：秘塔AI、微信搜索、Molly

R1、問小白等。API調(diào)用：DeepSeek、硅基流動(dòng)、火山引擎等。獲取API密鑰調(diào)用，適合開發(fā)者集成，同樣存在服務(wù)不穩(wěn)定問題。本地部署個(gè)人部署：個(gè)人在本地設(shè)備運(yùn)行應(yīng)用，依賴自身計(jì)算資源，靈活便捷。企業(yè)部署：企業(yè)內(nèi)網(wǎng)搭建私有化系統(tǒng)，支持多用戶協(xié)作，數(shù)據(jù)可控。一體機(jī)：直接購(gòu)買配置了DeepSeek模型的具備一定算力的一體機(jī)。2930個(gè)人部署Deep

SeekPerson

l deploymen

tPART

0230/413131對(duì)于個(gè)人玩家如何在自己的電腦上部署和體驗(yàn)DeepSeek（一般是蒸餾版），我們會(huì)詳細(xì)分享具體的模型評(píng)估數(shù)據(jù)和軟硬件要求，通過實(shí)操環(huán)節(jié)來詳細(xì)講解Ollama命令行高效部署全流程，并構(gòu)建多形態(tài)用戶接入方案，包括瀏覽器插件PageAssist、桌面端Chatbox和團(tuán)隊(duì)協(xié)作型OpenWebUI，實(shí)現(xiàn)從個(gè)人到企業(yè)的全場(chǎng)景覆蓋。其中分享過程中常見問題和經(jīng)驗(yàn)，幫助大家可完整體驗(yàn)、并成功實(shí)現(xiàn)本地化部署DeepSeek。320102

模型部署環(huán)境準(zhǔn)備明確模型部署的軟硬件要求，分析參數(shù)量對(duì)推理效果和硬件配置的影響。提供最低與推薦配置清單，詳解Ollama框架優(yōu)勢(shì)及環(huán)境變量配置，建立標(biāo)準(zhǔn)化部署環(huán)境。前端展示33參數(shù)量影響模型能力模型能力：通常來說，參數(shù)量越大，模型就有更強(qiáng)的理解和生成能力，但是需要更多計(jì)算資源。硬件需求：參數(shù)越多，對(duì)內(nèi)存（RAM）和顯存（VRAM）的需求就越高。運(yùn)行速度：參數(shù)量大的模型，推理速度更慢，尤其是資源不足的時(shí)候。參數(shù)量與硬件配置匹配本地部署DeepSeek時(shí)，需根據(jù)硬件配置選擇合適模型版本。如1.5B模型適合資源受限設(shè)備，671B模型需服務(wù)器集群支持。合理匹配參數(shù)量與硬件，可優(yōu)化模型性能，提升運(yùn)行效率，避免資源浪費(fèi)或性能瓶頸。模型參數(shù)量意義硬件配置-推薦模型參數(shù)CPU要求內(nèi)存要求顯存要求（GPU）硬盤空間適用場(chǎng)景1.5B6核（現(xiàn)代多核）16GB4GB（如:GTX1650）5GB+實(shí)時(shí)聊天機(jī)器人、物聯(lián)網(wǎng)設(shè)備7B8核（現(xiàn)代多核）32GB8GB（如:RTX

3070）10GB+文本摘要、多輪對(duì)話系統(tǒng)8B10核（多線程）32GB10GB12GB+高精度輕量級(jí)任務(wù)14B12核64GB16GB（如:RTX4090）20GB+合同分析、論文輔助寫作32B 16核（如i9/Ryzen

9） 128GB24GB（如:RTX4090）30GB+法律/醫(yī)療咨詢、多模態(tài)預(yù)處理70B32核（服務(wù)器級(jí)）256GB40GB（如:雙A100）100GB+金融預(yù)測(cè)、大規(guī)模數(shù)據(jù)分析671B64核（服務(wù)器集群）512GB160GB（8x

A100）500GB+國(guó)家級(jí)AI研究、氣候建模Ollama中提供的deepseek-r1模型均為4位量化模型,

所需資源較正常少一些,

如果要運(yùn)行非量化模型,

則需要更大的顯存（比如7B需要至少16G顯存）34硬件配置-最低模型參數(shù)CPU要求內(nèi)存要求顯存要求（GPU）硬盤空間適用場(chǎng)景1.5B4核（Intel/AMD）8GB無(wú)（純CPU）或2GB（GPU加速）3GB+樹莓派、舊款筆記本、簡(jiǎn)單文本生成7B4核（多線程支持）16GB4GB8GB+本地開發(fā)測(cè)試、輕量級(jí)NLP任務(wù)8B6核（多線程）16GB6GB8GB+代碼生成、邏輯推理14B8核32GB8GB15GB+企業(yè)級(jí)文本分析、長(zhǎng)文本生成32B12核48GB16GB19GB+復(fù)雜場(chǎng)景對(duì)話、深度思考任務(wù)70B16核（服務(wù)器級(jí)）64GB24GB（多卡）70GB+創(chuàng)意寫作、算法設(shè)計(jì)671B32核（服務(wù)器集群）128GB80GB（多卡）300GB+科研級(jí)任務(wù)、AGI探索上頁(yè)推薦配置中,

是較為流暢的運(yùn)行模型,

而最低配置是指可以運(yùn)行模型,

但流暢度會(huì)稍差一些35若僅需簡(jiǎn)單任務(wù)，如實(shí)時(shí)聊天或輕量級(jí)文本生成，可選擇1.5B或7B模型，搭配較低配置硬件，如普通筆記本或臺(tái)式機(jī)。對(duì)于復(fù)雜任務(wù)，如合同分析、論文寫作或大規(guī)模數(shù)據(jù)分析，需選擇14B及以上模型，并配備高性能硬件，如高端顯卡和大容量?jī)?nèi)存。根據(jù)需求選擇01在預(yù)算有限的情況下，可優(yōu)先選擇較低參數(shù)量的模型，以滿足基本需求，同時(shí)降低硬件成本。如1.5B模型可在資源受限設(shè)備上運(yùn)行，適合預(yù)算緊張的用戶。若預(yù)算充足且對(duì)性能要求較高，可選擇高參數(shù)量模型，如32B或70B，搭配高端硬件，以獲得更強(qiáng)的處理能力和更高的運(yùn)行效率?？紤]預(yù)算與性能平衡02隨著任務(wù)需求的增加和預(yù)算的提升，可逐步升級(jí)硬件配置，如增加內(nèi)存、更換高性能顯卡或升級(jí)CPU。對(duì)于企業(yè)用戶或科研機(jī)構(gòu)，可根據(jù)實(shí)際需求構(gòu)建服務(wù)器集群，以支持大規(guī)模模型的運(yùn)行和復(fù)雜任務(wù)的處理。硬件升級(jí)與擴(kuò)展03硬件選擇建議36Ollama功能特點(diǎn)Ollama簡(jiǎn)介Ollama是一個(gè)開源的大型語(yǔ)言模型服務(wù)工具，旨在幫助用戶快速在本地運(yùn)行大模型。通過簡(jiǎn)單的安裝指令，用戶可以在消費(fèi)級(jí)PC上體驗(yàn)LLM的強(qiáng)大功能。Ollama會(huì)自動(dòng)監(jiān)測(cè)本地計(jì)算資源，優(yōu)先使用GPU資源以提升推理速度，若無(wú)GPU則直接使用CPU資源。Ollama官方鏈接:

/Ollama工具介紹37開源免費(fèi)簡(jiǎn)單易用模型豐富支持多平臺(tái)支持工具調(diào)用資源占用低功能齊全隱私保護(hù)社區(qū)活躍Windows/Mac系統(tǒng)：訪問Ollama官網(wǎng)或GitHub頁(yè)面，下載安裝包并運(yùn)行安裝程序。Linux系統(tǒng)：一鍵安裝命令curl

-fsSL

/install.sh

sh，或手動(dòng)下載并解壓安裝。Docker安裝：拉取Ollama鏡像，如CPU版使用docker

pull

ollama/ollama，運(yùn)行鏡像時(shí)可使用dockerrun

-d

-v

ollama:/root/.ollama

-p

11434:11434

--name

ollama

ollama/ollama命令。安裝Ollama客戶端安裝Docker（可選）Windows/Mac

系統(tǒng)：訪問Docker官網(wǎng)，

下載Docker

Desktop安裝程序，

運(yùn)行安裝并啟動(dòng)DockerDesktop。Linux系統(tǒng)：訪問Docker官網(wǎng)，根據(jù)Linux發(fā)行版選擇安裝方式，如基于Debian系統(tǒng)使用sudo

apt-getinstall

docker-ce

docker-ce-cli

containerd.io命令安裝，安裝后啟動(dòng)Docker服務(wù)。軟件安裝步驟38環(huán)境變量配置參數(shù)標(biāo)識(shí)與配置OLLAMA_MODELS表示模型文件的存放目錄，默認(rèn)目錄為當(dāng)前用戶目錄即

C:\Users%username%.ollama\modelsWindows

系統(tǒng)

建議不要放在C盤，可放在其他盤（如

E:\ollama\models）OLLAMA_HOST表示ollama服務(wù)監(jiān)聽的網(wǎng)絡(luò)地址，默認(rèn)為

如果想要允許其他電腦訪問

Ollama（如局域網(wǎng)中的其他電腦），建議設(shè)置成

OLLAMA_PORT表示ollama服務(wù)監(jiān)聽的默認(rèn)端口，默認(rèn)為11434如果端口有沖突，可以修改設(shè)置成其他端口（如8080等）OLLAMA_ORIGINS表示HTTP

客戶端的請(qǐng)求來源，使用半角逗號(hào)分隔列表

如果本地使用不受限制，可以設(shè)置成星號(hào)

*OLLAMA_KEEP_ALIVE表示大模型加載到內(nèi)存中后的存活時(shí)間，默認(rèn)為5m即

分鐘

（如純數(shù)字300

代表300

秒，0

代表處理請(qǐng)求響應(yīng)后立即卸載模型，任何負(fù)數(shù)則表示一直存活）

建議設(shè)置成24h，即模型在內(nèi)存中保持

小時(shí)，提高訪問速度OLLAMA_NUM_PARALLEL表示請(qǐng)求處理的并發(fā)數(shù)量，默認(rèn)為1

（即單并發(fā)串行處理請(qǐng)求）

建議按照實(shí)際需求進(jìn)行調(diào)整OLLAMA_MAX_QUEUE表示請(qǐng)求隊(duì)列長(zhǎng)度，默認(rèn)值為512

建議按照實(shí)際需求進(jìn)行調(diào)整，超過隊(duì)列長(zhǎng)度的請(qǐng)求會(huì)被拋棄OLLAMA_DEBUG表示輸出

Debug

日志，應(yīng)用研發(fā)階段可以設(shè)置成1

（即輸出詳細(xì)日志信息，便于排查問題）OLLAMA_MAX_LOADED_MODELS表示最多同時(shí)加載到內(nèi)存中模型的數(shù)量，默認(rèn)為1

（即只能有

個(gè)模型在內(nèi)存中）建議修改：將模型路徑遷移至非系統(tǒng)盤（如OLLAMA_MODELS=E:\models），按需提高OLLAMA_KEEP_ALIVE

和OLLAMA_NUM_PARALLEL

優(yōu)化性能，生產(chǎn)環(huán)境限制請(qǐng)求來源并關(guān)閉調(diào)試日志。39訪問Ollama服務(wù)啟動(dòng)Ollama服務(wù)后，通過瀏覽器訪問http://localhost:11434可看到：”ollama

running“若無(wú)法訪問，需檢查Ollama服務(wù)是否啟動(dòng)，是否有防火墻或安全軟件阻止端口訪問，以及是否更改了默認(rèn)端口。前端界面網(wǎng)絡(luò)訪問本地部署：前端界面運(yùn)行在本地計(jì)算機(jī)上，可通過http://localhost:11434與Ollama服務(wù)通信。遠(yuǎn)程部署：需確保前端界面所在計(jì)算機(jī)可訪問Ollama服務(wù)所在計(jì)算機(jī)的IP地址和端口?？稍贠llama服務(wù)所在計(jì)算機(jī)上運(yùn)行ollama

serve

--host

命令允許遠(yuǎn)程訪問或者修改環(huán)境變量，最后通過IP地址訪問Ollama服務(wù)。網(wǎng)絡(luò)配置注意事項(xiàng)端口沖突：確保11434端口未被占用，若被占用，可通過：ollama

serve

--port

<new_port>命令或者通過修改環(huán)境變量指定其他端口。代理設(shè)置：在代理網(wǎng)絡(luò)環(huán)境中，需確保代理設(shè)置允許訪問本地服務(wù)。防火墻設(shè)置：確保防火墻規(guī)則允許對(duì)11434端口的訪問，可添加防火墻規(guī)則允許該端口流量。網(wǎng)絡(luò)配置4003

環(huán)境準(zhǔn)備前端展示模型部署演示Ollama完整部署流程：從DeepSeek

7B模型選擇到加載，詳細(xì)講解命令行指令集，重點(diǎn)說明模型加載與啟動(dòng)命令的正確使用方法。0241Ollama常用命令命令描述ollama

serve啟動(dòng)

Ollamaollama

create從

Modelfile創(chuàng)建模型ollama

show顯示模型信息ollama

run運(yùn)行模型ollama

pull從注冊(cè)表中拉取模型ollama

push將模型推送到注冊(cè)表ollama

list列出所有模型ollama

ps列出正在運(yùn)行的模型ollama

cp復(fù)制模型ollama

rm刪除模型ollama

help顯示任意命令的幫助信息這兩個(gè)命令是個(gè)人部署最主要的兩個(gè)命令,

主要用來下載和啟動(dòng)模型42下載命令格式使用ollama

pull命令下載模型，格式為ollamapull

<model_name>。案例：某用戶在終端輸入ollamapulldeepseek-

r1:7b，從Ollama模型庫(kù)中成功下載7B模型，耗時(shí)約10分鐘。下載過程中，終端會(huì)顯示下載進(jìn)度條，實(shí)時(shí)顯示下載速度和剩余時(shí)間?？赏ㄟ^ollama

list命令查看已下載的模型列表，確認(rèn)模型是否下載完成。案例：某用戶在下載14B模型時(shí)，通過ollama

list命令發(fā)現(xiàn)下載進(jìn)度為50%，預(yù)計(jì)還需20分鐘完成。下載過程監(jiān)控下載失敗處理若下載失敗，可能是網(wǎng)絡(luò)問題或模型庫(kù)地址錯(cuò)誤?？蓢L試重新運(yùn)行下載命令，或檢查網(wǎng)絡(luò)連接和模型庫(kù)地址。案例：某用戶下載7B模型時(shí)因網(wǎng)絡(luò)中斷失敗，重新運(yùn)行下載命令后成功完成下載。使用Ollama命令下載模型43運(yùn)行命令格式使用ollama

run命令運(yùn)行模型，格式為ollamarun

<model_name>。案例：某用戶在終端輸入ollama

run

deepseek-r1:7b，模型成功啟動(dòng)并進(jìn)入運(yùn)行狀態(tài)。模型運(yùn)行后，可通過ollama

ps命令查看正在運(yùn)行的模型列表，確認(rèn)模型是否正常運(yùn)行。若模型未正常運(yùn)行，可檢查硬件資源是否充足，或是否有其他模型占用資源。案例：某用戶運(yùn)行14B模型后，響應(yīng)速度較慢，經(jīng)檢查發(fā)現(xiàn)內(nèi)存占用過高。運(yùn)行狀態(tài)檢查停止運(yùn)行模型使用ollama

stop命令停止運(yùn)行的模型，格式為ollama

stop

<model_name>。案例：某用戶在測(cè)試完成后，通過ollama

stop

deepseek-r1:7b命令停止了7B模型的運(yùn)行，釋放了系統(tǒng)資源。使用Ollama命令運(yùn)行模型44模型運(yùn)行效果45Ollama常見問題問題描述默認(rèn)配置下Ollama服務(wù)暴露在公網(wǎng)，易被自動(dòng)化腳本掃描攻擊，導(dǎo)致算力盜用或模型文件刪除。解決方案強(qiáng)制身份認(rèn)證：通過反向代理（如Nginx）添加Basic

Auth認(rèn)證，或在Ollama啟動(dòng)時(shí)綁定內(nèi)網(wǎng)IP（OLLAMA_HOST=192.168.x.x）。網(wǎng)絡(luò)層隔離：使用Docker的--network

host模式部署，配合iptables限制訪問來源IP段。日志監(jiān)控：?jiǎn)⒂肙llama的--verbose日志模式，結(jié)合Prometheus監(jiān)控API調(diào)用頻率，識(shí)別異常流量。安全漏洞與未經(jīng)授權(quán)訪問風(fēng)險(xiǎn)46Ollama常見問題問題描述Ollama版本升級(jí)后模型僅運(yùn)行在CPU，或量化精度丟失導(dǎo)致回答質(zhì)量下降。解決方案鎖定依賴版本：通過Docker鏡像固定Ollama版本（如ollama/ollama:0.5.1-cuda），避免自動(dòng)升級(jí)引入兼容性問題。顯存分配驗(yàn)證：使用nvidia-smi監(jiān)控GPU利用率，若發(fā)現(xiàn)異?；赝酥罜PU，檢查CUDA驅(qū)動(dòng)版本與Ollama編譯環(huán)境的兼容性。模型升級(jí)后性能退化問題47前端展示構(gòu)建多形態(tài)接入方案：PageAssist實(shí)現(xiàn)網(wǎng)頁(yè)即時(shí)問答，Chatbox支持Markdown渲染，OpenWebUI提供企業(yè)權(quán)限管理。02

環(huán)境準(zhǔn)備模型部署034849

Orian(Ollama

WebUI)特點(diǎn)：多功能聊天系統(tǒng)，支持Gmail集成、谷歌搜索增強(qiáng)、上下文網(wǎng)站交互。優(yōu)點(diǎn)：功能豐富，AI交互體驗(yàn)全面，適用于多種場(chǎng)景。缺點(diǎn)：部分功能（如實(shí)時(shí)搜索）可能處于維護(hù)狀態(tài)，對(duì)不熟悉Gmail和谷歌搜索的用戶實(shí)用性降低。適用場(chǎng)景：適合需要郵件處理、搜索增強(qiáng)功能的用戶。Page

Assist特點(diǎn)：瀏覽器插件，支持PDF對(duì)話、網(wǎng)絡(luò)搜索集成，與對(duì)象存儲(chǔ)、CloudStudio無(wú)縫集成。優(yōu)點(diǎn)：輕量級(jí)，安裝方便，與網(wǎng)頁(yè)內(nèi)容緊密結(jié)合。缺點(diǎn)：功能相對(duì)基礎(chǔ)，對(duì)于不常使用網(wǎng)頁(yè)交互的用戶優(yōu)勢(shì)不明顯。適用場(chǎng)景：適合需要與網(wǎng)頁(yè)內(nèi)容緊密結(jié)合、進(jìn)行針對(duì)性AI交互的用戶。ollama-ui特點(diǎn)：實(shí)時(shí)對(duì)話交互，多模型切換，聊天歷史管理，網(wǎng)頁(yè)內(nèi)容交互，支持多種文檔格式。優(yōu)點(diǎn)：功能實(shí)用，隱私保護(hù)，所有交互在本地完成。缺點(diǎn)：功能較為基礎(chǔ)，可能無(wú)法滿足復(fù)雜需求。適用場(chǎng)景：適合需要與網(wǎng)頁(yè)內(nèi)容交互、管理聊天歷史的用戶。瀏覽器插件EnchantedLLM特點(diǎn)：MacOS原生應(yīng)用，支持多種私人托管模型，界面簡(jiǎn)潔直觀。適用場(chǎng)景：適合MacOS用戶，需要本地運(yùn)行多種模型。Chatbox特點(diǎn)：跨平臺(tái)開源客戶端應(yīng)用，支持Windows、MacOS、Linux、iOS和Android，支持多種大語(yǔ)言模型。適用場(chǎng)景：適合跨平臺(tái)使用，需要多種模型支持的用戶。LLocal.in特點(diǎn)：跨平臺(tái)完全開源的客戶端，用于利用本地運(yùn)行的大型語(yǔ)言模型，Electron桌面客戶端，易于使用。適用場(chǎng)景：適合需要本地運(yùn)行模型、跨平臺(tái)使用的用戶。Ollama

App特點(diǎn)：現(xiàn)代且易于使用的多平臺(tái)客戶端，支持Ollama。適用場(chǎng)景：適合需要簡(jiǎn)潔界面、多平臺(tái)支持的用戶。桌面應(yīng)用50OpenWebUI特點(diǎn)：基于Web的界面，方便用戶與Ollama模型進(jìn)行交互。適用場(chǎng)景：適合需要通過Web界面與模型交互的用戶。項(xiàng)目地址：https://github.com/open-

webui/open-webuiNextJSOllamaLLM

UI特點(diǎn)：專為Ollama設(shè)計(jì)的極簡(jiǎn)主義用戶界面，界面美觀。適用場(chǎng)景：適合追求簡(jiǎn)約風(fēng)格的用戶。項(xiàng)目地址：https:///jakobhoeg/ne

xtjs-ollama-llm-uiOllamaBasic

Chat特點(diǎn)：使用HyperDiv反應(yīng)式UI的Ollama基本聊天界面。適用場(chǎng)景：適合需要簡(jiǎn)單聊天界面的用戶。Web服務(wù)5152終端工具特點(diǎn)：Ollama提供了多種終端工具，如oterm、ollama.nvim等，方便開發(fā)者在終端中使用Ollama。適用場(chǎng)景：適合開發(fā)者，需要在終端中快速使用Ollama。云服務(wù)特點(diǎn)：Ollama支持在GoogleCloud、Fly.io、Koyeb等云平臺(tái)上部署。適用場(chǎng)景：適合需要在云端部署模型的用戶。0102其他其他設(shè)置設(shè)置API代理：在設(shè)置菜單中，配置API代理，連接到不同的AI模型和服務(wù)提供者。管理和調(diào)試Prompt：使用Chatbox提供的工具設(shè)計(jì)和調(diào)整Prompt，以獲得最佳的AI交互體驗(yàn)。保存聊天記錄：所有聊天記錄和Prompt會(huì)自動(dòng)保存在本地。多平臺(tái)同步：通過登錄賬號(hào)，可在不同設(shè)備上同步數(shù)據(jù)。適用場(chǎng)景：適合需要多平臺(tái)使用、管理聊天記錄的用戶。Chatbox-安裝下載與安裝訪問Chatbox

AI官網(wǎng)，根據(jù)設(shè)備選擇版本下載并安裝，安裝完成后啟動(dòng)應(yīng)用。適用場(chǎng)景：適合跨平臺(tái)使用，需要多種模型支持的用戶。53配置模型使用本地模型：打開Chatbox軟件，點(diǎn)擊左下角齒輪圖標(biāo)進(jìn)入設(shè)置，選擇「模型提供方」為「Ollama」，「API域名」自動(dòng)填充為http://localhost:11434，選擇對(duì)應(yīng)模型，點(diǎn)擊「保存」。使用在線API：以接入硅基流動(dòng)的DeepSeek-

R1為例，選擇「SiliconFlow

API」，粘貼API密鑰，選擇DeepSeek-

R1模型。適用場(chǎng)景：適合需要快速切換本地和在線模型的用戶。使用功能與文檔和圖片聊天，代碼生成與預(yù)覽，實(shí)時(shí)聯(lián)網(wǎng)搜索與查詢，AI生成的圖表可視化，AI驅(qū)動(dòng)的圖像生成，LaTeX和Markdown渲染Chatbox-界面溫度設(shè)置建議:代碼生成/數(shù)學(xué)解題

0.0數(shù)據(jù)抽取/分析

1.0通用對(duì)話

1.3翻譯->

1.3創(chuàng)意類寫作/詩(shī)歌創(chuàng)作->

1.554打開側(cè)邊欄：安裝完成后，通過右鍵菜單或快捷鍵（默認(rèn)為Ctrl+Shift+P）打開側(cè)邊欄。在側(cè)邊欄中，可以與本地AI模型進(jìn)行對(duì)話，獲取網(wǎng)頁(yè)內(nèi)容的相關(guān)信息。使用Web

UI：點(diǎn)擊擴(kuò)展圖標(biāo)，會(huì)在新標(biāo)簽頁(yè)中打開Web

UI。在Web

UI中，可以像使用ChatGPT一樣與AI模型進(jìn)行對(duì)話。配置本地AI模型：首次使用時(shí)，需要配置本地AI模型，目前支持Ollama和Chrome

(Gemini

Nano)等本地AI提供商。選擇指定的模型后，即可開始與模型進(jìn)行交互。其他功能：網(wǎng)頁(yè)內(nèi)容對(duì)話、文檔解析、聯(lián)網(wǎng)搜索、語(yǔ)言設(shè)置。適用場(chǎng)景：適合需要與網(wǎng)頁(yè)內(nèi)容緊密結(jié)合、進(jìn)行針對(duì)性AI交互的用戶。

02 使用方法安裝方法打開Chrome

Web

Store搜索“Page

Assist”點(diǎn)擊“添加到Chrome”按鈕01Open

WebUIPage

Assist-安裝55Open

WebUIPage

Assist-界面56使用方法-d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open--v open-webui:/app/backend/data--nameopen-webui--restartalways

ghcr.io/open-webui/open-webui:main使用GPU加速

：docker run -d -p 3000:8080 --gpus all --add-host=ernal:host-gatewaywebui:/app/backend/data--nameopen-webui--restartalways

ghcr.io/open-webui/open-webui:cuda安裝方法運(yùn)行Open

WebUI，使用以下命令：無(wú) GPU 加速： docker runOpenWebui-安裝57訪問OpenWebUI：安裝完成后，打開瀏覽器訪問http://localhost:3000。配置AI模型：選擇支持的LLM運(yùn)行器（如Ollama或OpenAI

API），可以配置自定義OpenAI

API

URL，連接到其他兼容的API服務(wù)。OpenWebui-界面OpenWebUI

支持多模態(tài)交互、本地模型與云端

API

混合部署，并深度集成RAG

知識(shí)庫(kù)和外部工具，相較于

PageAssist

等單一功能插件，其開源可定制、支持企業(yè)級(jí)多用戶管理及全棧

工作流擴(kuò)展的特性，更適合開發(fā)者構(gòu)建私有化復(fù)雜應(yīng)用。58Open

WebUI三款界面總結(jié)PageAssist以瀏覽器插件形態(tài)實(shí)現(xiàn)本地AI與瀏覽場(chǎng)景的無(wú)縫融合，強(qiáng)調(diào)隱私優(yōu)先和輕量交互，通過側(cè)邊欄對(duì)話、文檔解析等能力將模型能力嵌入用戶日常操作，適合注重?cái)?shù)據(jù)安全的高頻輕需求場(chǎng)景。Chatbox定位靈活的中臺(tái)調(diào)度工具，以模塊化設(shè)計(jì)兼容多模型API和插件擴(kuò)展，平衡開發(fā)者的自定義需求與普通用戶的易用性，適用于需要多模型協(xié)同或快速驗(yàn)證AI能力的場(chǎng)景。Open

WebUI聚焦企業(yè)級(jí)AI服務(wù)全生命周期管理，從模型部署、權(quán)限控制到知識(shí)庫(kù)集成提供閉環(huán)方案，通過負(fù)載均衡、協(xié)作聊天等特性滿足規(guī)模化團(tuán)隊(duì)的技術(shù)管控需求。59企業(yè)部署D

e d

tPART

03606161Ollma框架適合個(gè)人用戶私有化本地部署，但在多用戶并發(fā)場(chǎng)景下性能衰減明顯。這一部分我們將盡可能簡(jiǎn)單地介紹企業(yè)級(jí)私有化部署的方案和探索實(shí)踐，普通用戶可以了解即可。企業(yè)級(jí)生產(chǎn)環(huán)境推薦使用Transformers來快速驗(yàn)證模型能力，使用vLLM框架借助PagedAttention技術(shù)實(shí)現(xiàn)24倍于Transformers的吞吐量實(shí)現(xiàn)大模型的高效推理，針對(duì)不同企業(yè)場(chǎng)景，則提供不同的企業(yè)級(jí)部署方案，我們也會(huì)分享服務(wù)器配置、性能數(shù)據(jù)及報(bào)價(jià)參考等實(shí)戰(zhàn)經(jīng)驗(yàn)，且深度分析業(yè)務(wù)場(chǎng)景的適配性，給予參考幫助。同時(shí)，針對(duì)近期出現(xiàn)的KTransformers、Unsloth等多套低成本動(dòng)態(tài)量化模型的DeepSeek部署解決方案。雖然不夠成熟也無(wú)法投入實(shí)際生產(chǎn)使用，但我們也會(huì)用一定的篇幅分享我們的研究實(shí)踐和經(jīng)驗(yàn)。Transformers簡(jiǎn)介Transformers

提供了可以輕松地下載并且訓(xùn)練先進(jìn)的預(yù)訓(xùn)練模型的

API

和工具。使用預(yù)訓(xùn)練模型可以減少計(jì)算消耗和碳排放，并且節(jié)省從頭訓(xùn)練所需要的時(shí)間和資源。這些模型支持不同模態(tài)中的常見任務(wù)，比如：自然語(yǔ)言處理：文本分類、命名實(shí)體識(shí)別、問答、語(yǔ)言建模、摘要、翻譯、多項(xiàng)選擇和文本生成。機(jī)器視覺：圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割。音頻：自動(dòng)語(yǔ)音識(shí)別和音頻分類。多模態(tài)：表格問答、光學(xué)字符識(shí)別、從掃描文檔提取信息、視頻分類和視覺問答。Transformers

支持在

PyTorch、TensorFlow

和

JAX

上的互操作性。這給在模型的每個(gè)階段使用不同的框架帶來了靈活性；在一個(gè)框架中使用幾行代碼訓(xùn)練一個(gè)模型，然后在另一個(gè)框架中加載它并進(jìn)行推理。模型也可以被導(dǎo)出為

ONNX

和

TorchScript

格式，用于在生產(chǎn)環(huán)境中部署。62Transformers部署模型

3-1步驟一：安裝相關(guān)依賴包pipinstall

torchpipinstalltransformersaccelerate

bitsandbytes步驟二：加載模型fromtransformersimportAutoModelForCausalLM,AutoTokenizermodel_path="deepseek-ai/deepseek-r1-distill-qwen-7b"tokenizer=

AutoTokenizer.from_pretrained(model_path)model=AutoModelForCausalLM.from_pretrained(model_path,device_map="auto",torch_dtype="auto")load_in_8bit=True, #

可以添加參數(shù)來啟用8bit量化63Transformers部署模型

3-264/4641步驟三：運(yùn)行模型prompt

return_tensors="pt").to(model.device)outputs=

model.generate(**inputs,max_new_tokens=256,do_sample=True,temperature=0.7,repetition_penalty=1.05)print(tokenizer.decode(outputs[0]))Transformers部署模型

3-3步驟四：其他框架調(diào)用#pipinstallgradioimportgradioas

grdef

generate(text):inputs=tokenizer(text,return_tensors="pt").to(model.device)outputs=model.generate(**inputs,max_new_tokens=256)returntokenizer.decode(outputs[0],

skip_special_tokens=True)gr.Interface(fn=generate,inputs=gr.Textbox(lines=5,

label="輸入"),outputs=gr.Textbox(label="輸出")).launch(server_name="",

server_port=6006)這里選擇了gradio框架,

可以快速啟動(dòng)一個(gè)前端界面,

實(shí)戰(zhàn)中可以選擇配合業(yè)務(wù)邏輯進(jìn)行調(diào)用65生成時(shí)常用參數(shù)

2-166參數(shù)名稱含義注意事項(xiàng)inputs輸入的文本或編碼后的

input_ids，用于生成文本的起始部分如果傳入

inputs_embeds，則不能同時(shí)傳入

inputsinput_ids與

inputs

類似，但通常用于直接傳入編碼后的輸入如果傳入

inputs_embeds，則不能同時(shí)傳入

input_idsinputs_embeds輸入的嵌入向量，通常用于

encoder-decoder

模型不能同時(shí)傳入

input_ids

或

inputsmax_length生成文本的最大長(zhǎng)度（包括輸入部分）如果同時(shí)設(shè)置

max_new_tokens，max_new_tokens

優(yōu)先max_new_tokens生成的新

token

數(shù)量（不包括輸入部分）如果同時(shí)設(shè)置

max_length，max_new_tokens

優(yōu)先min_length生成文本的最小長(zhǎng)度（包括輸入部分）如果同時(shí)設(shè)置min_new_tokens，min_new_tokens

優(yōu)先min_new_tokens生成的新

token

的最小數(shù)量（不包括輸入部分）如果同時(shí)設(shè)置

min_length，min_new_tokens

優(yōu)先num_beamsBeam

中的

beam

數(shù)量，用于控制生成的多樣性值越大，生成結(jié)果越多樣，但計(jì)算成本越高do_sample是否啟用隨機(jī)采樣生成文本如果為

True，則生成結(jié)果會(huì)更隨機(jī)；如果為

False，則使用貪婪解碼或

beam

searchtemperature控制生成文本的隨機(jī)性值越高，生成結(jié)果越隨機(jī)；值越低，生成結(jié)果越確定top_k在隨機(jī)采樣中，只從概率最高的

個(gè)

token

中采樣值越大，生成結(jié)果越多樣，但可能引入噪聲top_p在隨機(jī)采樣中，只從累積概率大于

的

token

中采樣值越小，生成結(jié)果越集中于高概率

token生成時(shí)常用參數(shù)

2-267參數(shù)名稱含義注意事項(xiàng)early_stopping是否在達(dá)到

max_length

或max_new_tokens

之前提前停止生成如果為

True，則可能生成較短的文本eos_token_id結(jié)束生成的

token

ID如果生成到該

token，生成過程會(huì)停止pad_token_id填充

token

的

ID用于處理輸入和輸出的填充部分bos_token_id開始生成的

token

ID如果未指定輸入，會(huì)用此

token

開始生成use_cache是否使用緩存機(jī)制（如

kv-cache）加速生成如果為

True，可以顯著提高生成速度，但需要更多的內(nèi)存output_scores是否輸出生成

token

的概率分?jǐn)?shù)如果為

True，會(huì)返回每個(gè)生成

token

的概率分?jǐn)?shù)return_dict_in_generate是否以字典形式返回生成結(jié)果如果為

True，返回值會(huì)包含更多詳細(xì)信息，如生成的token

IDs

和概率分?jǐn)?shù)vLLM簡(jiǎn)介vLLM

是由加州大學(xué)伯克利分校

LMSYS

組織開源的大語(yǔ)言模型（LLM）高速推理框架。它旨在顯著提升實(shí)時(shí)場(chǎng)景下語(yǔ)言模型服務(wù)的吞吐量和內(nèi)存使用效率。vLLM

的主要特點(diǎn)包括：PagedAttention

技術(shù)：vLLM

引入了PagedAttention

算法，通過分頁(yè)管理注意力機(jī)制中的鍵（keys）和值（values），有效解決了傳統(tǒng)方法中顯存碎片化和過度預(yù)留的問題。顯著的性能提升：與

Hugging

Face

的

Transformers相比，vLLM

的吞吐量最高可達(dá)

倍。與

Hugging

Face

的無(wú)縫集成：vLLM

可以與Hugging

Face

的

Transformers庫(kù)無(wú)縫對(duì)接，用戶可以輕松地在現(xiàn)有模型基礎(chǔ)上進(jìn)行推理加速。支持多種推理場(chǎng)景：vLLM

支持離線推理、在線

API

服務(wù)，以及與

OpenAIAPI兼容的接口。vLLM

的這些特性使其成為大語(yǔ)言模型推理加速的重要工具，尤其適用于需要高效資源利用和快速響應(yīng)的場(chǎng)景。vLLM部署簡(jiǎn)單,

更適合中小型企業(yè)做大模型推理部署,

對(duì)于大型企業(yè),

可以使用配置較為復(fù)雜的Tensor

RT框架68vLLM部署模型

2-1步驟一：安裝相關(guān)依賴包pipinstall

vllm步驟二：加載并啟動(dòng)模型python-mvllm.entrypoints.openai.api_server

\--model'/root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B'

\--served-model-name'deepseek-r1-7b'

\--host

\--port6006

\--tensor-parallel-size1

\--gpu-memory-utilization0.9

\--dtype=half69vLLM部署模型

2-2這個(gè)參數(shù)的作用控制是模型在

GPU

上的顯存占用量。如果你的顯存不足，可以通過降低

--gpu-memory-utilization

的值來減少顯存占用，從而避免出現(xiàn)

CUDAout

ofmemory

的錯(cuò)誤vLLM啟動(dòng)后,

提供了一個(gè)API調(diào)用URL,

可以通過訪問h

ttp://:6006/docs

來查看

API

文檔,進(jìn)而通過API來調(diào)用內(nèi)部的大模型70vLLM參數(shù)說明

2-171參數(shù)名稱含義常見值/范圍注意事項(xiàng)--model指定模型的路徑或名稱模型文件路徑或預(yù)訓(xùn)練模型名稱確保路徑正確且模型文件完整--served-model-name指定服務(wù)中暴露的模型名稱自定義名稱用于客戶端請(qǐng)求時(shí)指定模型--host服務(wù)綁定的主機(jī)地址或

等

表示監(jiān)聽所有網(wǎng)絡(luò)接口，僅監(jiān)聽本地接口--port服務(wù)監(jiān)聽的端口號(hào)1024-65535

之間的整數(shù)確保端口未被占用--tensor-parallel-size模型的張量并行大小正整數(shù)（通常為

GPU數(shù)量）用于分布式推理，需確保

GPU

資源充足--gpu-memory-utilizationGPU

內(nèi)存利用率。0

到

之間的小數(shù)（如

0.9

表示

90%）調(diào)整顯存占用比例以避免顯存不足錯(cuò)誤--dtype模型數(shù)據(jù)類型auto、half、float16、bfloat16、float32

等half

或

float16

可減少顯存占用，但可能影響精度--max-model-len模型支持的最大輸入長(zhǎng)度正整數(shù)（如

2048）根據(jù)模型能力和硬件資源調(diào)整--swap-space用于交換空間的顯存大?。▎挝唬篏B）正整數(shù)用于緩解顯存不足，但可能降低推理速度--cpu-offload-gbCPU

卸載的顯存大?。▎挝唬篏B）正整數(shù)將部分模型數(shù)據(jù)卸載到

CPU

內(nèi)存，需確保CPU

內(nèi)存充足vLLM參數(shù)說明

2-272參數(shù)名稱含義常見值/范圍注意事項(xiàng)--max-num-batched-tokens每批次最大

token

數(shù)量正整數(shù)調(diào)整以優(yōu)化推理速度和資源利用率--max-num-seqs每批次最大序列數(shù)量正整數(shù)調(diào)整以優(yōu)化推理速度和資源利用率--quantization模型量化方法None、fp8、bfloat16、gptq

等量化可減少顯存占用，但可能影響精度--tokenizer指定分詞器分詞器路徑或名稱確保與模型兼容--tokenizer-mode分詞器模式auto、slow、mistral、custom

等根據(jù)需求選擇分詞器模式--load-format模型加載格式auto、pt、safetensors、gguf

等根據(jù)模型文件格式選擇加載方式--revision模型版本版本號(hào)或

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔