北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第1頁(yè)
北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第2頁(yè)
北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第3頁(yè)
北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第4頁(yè)
北京大學(xué)-DeepSeek私有化部署和一體機(jī)-2025_第5頁(yè)
已閱讀5頁(yè),還剩116頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DeepSeek內(nèi)部研討系列DeepSeek

私有化部署和一體機(jī)2摘要本次講座為DeepSeek原理和應(yīng)用系列研討的講座之一,讓大家可以決策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同時(shí)了解更專業(yè)的企業(yè)級(jí)部署方法,有助于選擇DeepSeek一體機(jī)型號(hào),并能理解DeepSeek云服務(wù)的工作機(jī)制和原理,用好DeepSeek云服務(wù)的API調(diào)用方法。本講座的內(nèi)容分為四個(gè)主要部分:①

首先,除了DeepSeek滿血版之外,還有各種各樣的蒸餾版和量化版,以及DeepSeek的不同專業(yè)模型。我們將介紹人工智能大模型的基本概念,以及DeepSeek各個(gè)模型的特點(diǎn)與適用場(chǎng)景,對(duì)比不同規(guī)模模型的性能表現(xiàn),幫助大家選擇最適合自己需求的版本。②

其次,對(duì)于普通用戶在自己的電腦上部署和體驗(yàn)DeepSeek(蒸餾版)的情況,我們會(huì)評(píng)估和建議硬件要求,演示如何通過Ollama命令行高效部署DeepSeek模型,解決下載過程中可能遇到的常見問題。為了提升在自己的電腦上安裝DeepSeek模型后,大家與DeepSeek模型的交互體驗(yàn),我們還將介紹Open

WebUI和Chatbox等前端展示工具的配置與使用方法。③ 然后,對(duì)于專業(yè)級(jí)的企業(yè)部署DeepSeek,或把DeepSeek(蒸餾版和滿血版)部署在專業(yè)的昂貴的推理機(jī)上,本講座將探討基于Transformers快速驗(yàn)證和vLLM的高性能部署方案,并提供真實(shí)企業(yè)基于vLLM的部署DeepSeek-70b的相關(guān)數(shù)據(jù)和經(jīng)驗(yàn)。④ 最后,作為補(bǔ)充內(nèi)容,針對(duì)計(jì)算資源受限的場(chǎng)景,我們專門設(shè)計(jì)了"低成本部署"環(huán)節(jié),詳細(xì)講解UnslothR1動(dòng)態(tài)量化部署的三種實(shí)現(xiàn)路徑:基于llama.cpp、KTransformers以及Ollama框架動(dòng)態(tài)量化部署。在技術(shù)學(xué)習(xí)的道路上,優(yōu)質(zhì)學(xué)習(xí)資源至關(guān)重要。推薦大家參考《人工智能通識(shí)教程(微課版)》這本系統(tǒng)全面的入門教材,結(jié)合B站“思睿觀通”欄目的配套視頻進(jìn)行學(xué)習(xí)。此外,歡迎加入社區(qū),以及“AI肖睿團(tuán)隊(duì)”的視頻號(hào)和微信號(hào),與志同道合的AI愛好者交流經(jīng)驗(yàn)、分享心得。301人工智能與Deep

Seek目 錄03 企業(yè)部署Deep

Seek02 個(gè)人部署Deep

Seek04 Deep

Seek一體機(jī)3人工智能與Deep

SeekPART

014大模型相關(guān)術(shù)語(yǔ)?多模態(tài)文本、圖片、音頻、視頻?AI工具(國(guó)內(nèi))DeepSeek、

豆包、Kimi、騰訊元寶、智譜清言、通義千問、秘塔搜索、微信搜索...?通用模型大語(yǔ)言模型(LLM,Large

Language

Model)生成模型推理模型視覺模型(圖片、視頻)音頻模型多模態(tài)模型……?行業(yè)模型(垂直模型、垂類模型)教育、醫(yī)療、金融、辦公、安全等5大模型的前世今生人工智能:讓機(jī)器具備動(dòng)物智能,人類智能,非人類智能(超人類智能)運(yùn)算推理:規(guī)則核心;自動(dòng)化知識(shí)工程:知識(shí)核心;知識(shí)庫(kù)+推理機(jī)機(jī)器學(xué)習(xí):學(xué)習(xí)核心;數(shù)據(jù)智能(統(tǒng)計(jì)學(xué)習(xí)方法,數(shù)據(jù)建模)常規(guī)機(jī)器學(xué)習(xí)方法:邏輯回歸,決策森林,支持向量機(jī),馬爾科夫鏈,…..人工神經(jīng)網(wǎng)絡(luò):與人腦最大的共同點(diǎn)是名字,機(jī)制和架構(gòu)并不一樣傳統(tǒng)神經(jīng)網(wǎng)絡(luò):霍普菲爾德網(wǎng)絡(luò),玻爾茲曼機(jī),…..深度神經(jīng)網(wǎng)絡(luò):深度學(xué)習(xí)傳統(tǒng)網(wǎng)絡(luò)架構(gòu):DBN,CNN,RNN,ResNet,Inception,RWKV,……Transformer架構(gòu):可以并行矩陣計(jì)算(GPU),核心是注意力機(jī)制(Attention)編碼器(BERT):多數(shù)embedding模型,Ernie早期版本,…….混合網(wǎng)絡(luò):T5、GLM解碼器(GPT):大語(yǔ)言模型(LLM),也是傳統(tǒng)的多模態(tài)模型的核心生成式人工智能(GenAI):AIGCDeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、火山、……OpenAI

GPT(ChatGPT)、Claude、Llama、Grok、……Diffusion架構(gòu):主要用于視覺模型(比如Stable

Diffusion、DALL.E),現(xiàn)在也開始嘗試用于語(yǔ)言模型Diffusion+Transformer架構(gòu):例如Sora的DiT(加入Diffusion的視覺模型),部分新的多模態(tài)模型架構(gòu)6大模型的發(fā)展階段生成模型ref:中文大模型基準(zhǔn)測(cè)評(píng)2024年度報(bào)告(2025.01.08)

7推理模型8生成模型與推理大模型的對(duì)比比較項(xiàng)OpenAI

GPT-4o(生成模型)OpenAI

o1(推理模型)模型定位專注于通用自然語(yǔ)言處理和多模態(tài)能力,適合日常對(duì)話、內(nèi)容生成、翻譯以及圖文、音頻、視頻等信息處理、生成、對(duì)話等。側(cè)重于復(fù)雜推理與邏輯能力,擅長(zhǎng)數(shù)學(xué)、編程和自然語(yǔ)言推理任務(wù),適合高難度問題求解和專業(yè)領(lǐng)域應(yīng)用。一般是在生成模型的基礎(chǔ)上通過RL方法強(qiáng)化CoT能力而來推理能力在日常語(yǔ)言任務(wù)中表現(xiàn)均衡,但在復(fù)雜邏輯推理(如數(shù)學(xué)題求解)上準(zhǔn)確率較低。在復(fù)雜推理任務(wù)表現(xiàn)卓越,尤其擅長(zhǎng)數(shù)學(xué)和代碼等推理任務(wù)。多模態(tài)支持支持文本、圖像、音頻乃至視頻輸入,可處理多種模態(tài)信息。當(dāng)前主要支持文本輸入,不具備圖像處理等多模態(tài)能力。應(yīng)用場(chǎng)景適合廣泛通用任務(wù),如對(duì)話、內(nèi)容生成、多模態(tài)信息處理以及多種語(yǔ)言相互翻譯和交流;面向大眾市場(chǎng)和商業(yè)應(yīng)用。適合需要高精度推理和邏輯分析的專業(yè)任務(wù),如數(shù)學(xué)競(jìng)賽、編程問題和科學(xué)研究;在思路清晰度要求高的場(chǎng)景具有明顯優(yōu)勢(shì),比如采訪大綱、方案梳理。用戶交互體驗(yàn)提供流暢的實(shí)時(shí)對(duì)話體驗(yàn),支持多種輸入模態(tài);用戶界面友好,適合大眾使用??勺灾麈?zhǔn)剿伎迹恍枰嗟倪^程指令,整體交互節(jié)奏較慢。普通大模型是玩知識(shí)和文字的,推理大模型是玩邏輯的,至于計(jì)算問題,還是找計(jì)算器吧推理模型也不是萬(wàn)能的,其幻覺通常比生成模型大,很多不需要強(qiáng)推里的場(chǎng)合還是傳統(tǒng)的生成模型比較適合99自

2024

年起,AI肖睿團(tuán)隊(duì)便接入DeepSeek

V2,持續(xù)應(yīng)用

DeepSeek

技術(shù)體系,歷經(jīng)

V2(MoE

架構(gòu))、V3(MTP)探索,現(xiàn)已在生產(chǎn)項(xiàng)目中接入DeepSeek

R1(滿血版)。其中,V2和V3都是生成模型,R1為推理模型。下面,基于我們團(tuán)隊(duì)對(duì)DeepSeek的技術(shù)研究和實(shí)戰(zhàn)經(jīng)驗(yàn),為大家系統(tǒng)梳理這三大模型技術(shù)特性,剖析知識(shí)蒸餾在各版本提升效率的邏輯,并結(jié)合邊緣計(jì)算、數(shù)學(xué)編程、中文等場(chǎng)景實(shí)例,對(duì)比DeepSeek

R1各版本模型的計(jì)算效率與推理精度的演進(jìn),同時(shí)說明標(biāo)準(zhǔn)化

API/SDK

對(duì)技術(shù)落地的適配機(jī)制。10DeepSeek快速出圈11DeepSeek-“服務(wù)器繁忙”2024年12月26日,DeepSeek因推出對(duì)標(biāo)GPT

4o的語(yǔ)言模型DeepSeek

V3,首先在美國(guó)的人工智能行業(yè)內(nèi)部一起轟動(dòng)。2025年1月20日,DeepSeek繼續(xù)發(fā)布對(duì)標(biāo)OpenAI

o1的語(yǔ)言模型DeepSeek

R1。由于“深度思考”模式生成的答案的過程可視化,完全開源模型參數(shù)和技術(shù)方案,采用極致的模型架構(gòu)優(yōu)化和系統(tǒng)優(yōu)化手段降低了模型的訓(xùn)練和推理成本,加之完全由中國(guó)本土團(tuán)隊(duì)制造,讓DeepSeek公司和DeepSeek

R1模型在蛇年春節(jié)前后徹底出圈。春節(jié)之后,隨著大量用戶的快速涌入,DeepSeek

官方提供的模型服務(wù)就一直在經(jīng)歷擁堵,它的聯(lián)網(wǎng)搜索功能間歇性癱瘓,深度思考模式則高頻率提示“服務(wù)器繁忙”,此類現(xiàn)象讓大量用戶倍感困擾。這也揭示了AI時(shí)代和互聯(lián)網(wǎng)時(shí)代的底層邏輯的不同:在互聯(lián)網(wǎng)時(shí)代,用戶使用一個(gè)系統(tǒng)的成本很低,邊際成本接近于零,但在AI時(shí)代,用戶使用一個(gè)系統(tǒng)的成本比較高,后天會(huì)有大量的算力需求和token消耗,邊際成本下降并不明顯。12模型系列公司與模型介紹01公司簡(jiǎn)介DeepSeek于2023年7月成立,是幻方量化孵化出的一家大模型研究機(jī)構(gòu),團(tuán)隊(duì)分布在中國(guó)杭州和北京,是中國(guó)大模型七小虎之一。除了DeepSeek之外,其它六家也被投資界稱為中國(guó)大模型企業(yè)六小龍(智譜AI、百川智能、月之暗面、零一萬(wàn)物、階躍星辰、MiniMax)。13模型的演進(jìn)歷史和特點(diǎn)14三個(gè)主要的DeepSeek模型的區(qū)別對(duì)比維度DeepSeek

V2DeepSeek

V3DeepSeek

R1核心架構(gòu)DeepSeekMoE(混合專家架構(gòu)改進(jìn)版)總參數(shù)量

2360

億單次激活

210

億參數(shù)升級(jí)版

DeepSeekMoE

架構(gòu)總參數(shù)量

6710

億單次激活

370億參數(shù)與V3模型相同訓(xùn)練方法傳統(tǒng)預(yù)訓(xùn)練

+

監(jiān)督微調(diào)(SFT)+

強(qiáng)化學(xué)習(xí)(RL)數(shù)據(jù)量

8.1

萬(wàn)億

tokens預(yù)訓(xùn)練

+

SFT

+MTP+RL引入

GRPO

算法提升RL效率和效果數(shù)據(jù)量14.8萬(wàn)億tokens跳過

SFT,直接通過RL激發(fā)推理能力采用兩階段

RL

和冷啟動(dòng)技術(shù)部分關(guān)鍵特性首次引入

MoE

架構(gòu),并進(jìn)行了改進(jìn)你無(wú)輔助損失的負(fù)載均衡代碼任務(wù)生成速度提升至

60

TPSRL驅(qū)動(dòng)推理優(yōu)化模型蒸餾實(shí)驗(yàn)(可遷移至小模型)Zero版驗(yàn)證了自我進(jìn)化能力性能表現(xiàn)舉例生成速度20TPS,適合通用生成任務(wù)綜合

NLP

任務(wù)接近

GPT-4oMMLU

知識(shí)理解

88.5%API

成本大幅降低數(shù)學(xué)推理(MATH-500

97.3%)代碼生成(Codeforces)與openAI-o1-1217相當(dāng)15模型簡(jiǎn)介DeepSeek-V2模型簡(jiǎn)介DeepSeek-V2模型與DeepSeek

LLM

67B相比,DeepSeek-V2實(shí)現(xiàn)了更強(qiáng)的性能,同時(shí)節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,并將最大生成吞吐量提升至5.76倍。設(shè)計(jì)初衷DeepSeek-V2旨在解決現(xiàn)有大語(yǔ)言模型訓(xùn)練成本高、推理效率低的問題。通過引入MoE架構(gòu),它在保持高性能的同時(shí),大幅降低訓(xùn)練成本和推理時(shí)間,為廣泛的應(yīng)用場(chǎng)景提供支持。核心原理DeepSeek-V2基于混合專家(Mixture-of-Experts

,MoE)架構(gòu),將任務(wù)分配給多個(gè)專家模型,每個(gè)專家專注于特定子任務(wù),從而提升性能和效率。模型總參數(shù)量為236B,其中21B參數(shù)在每個(gè)token上被激活,使其在處理復(fù)雜任務(wù)時(shí)更靈活高效。模型簡(jiǎn)介DeepSeek-V3模型簡(jiǎn)介DeepSeek

V3模型采用的模型架構(gòu)與V2模型差不多,都采用MLA和MoE。V3在V2的基礎(chǔ)上主要是增加了多令牌預(yù)測(cè)(Multi-Token

Prediction,

MTP)的訓(xùn)練目標(biāo)。我們都知道大模型是自回歸模型,在回答問題時(shí),本質(zhì)上是一個(gè)字一個(gè)字的預(yù)測(cè)出來的,而MTP實(shí)現(xiàn)了類似同時(shí)預(yù)測(cè)多個(gè)字的效果。準(zhǔn)確地講,這里不是“字”,是“token”。這里用“字”,主要是便于理解。16模型簡(jiǎn)介DeepSeek-R1與以往的研究不同,R1模型通過強(qiáng)化學(xué)習(xí)而非監(jiān)督學(xué)習(xí)的方式顯著提升了大模型的在數(shù)學(xué)和邏輯推理任務(wù)中的表現(xiàn),驗(yàn)證了強(qiáng)化學(xué)習(xí)在提升模型推理能力上的作用。通過強(qiáng)化學(xué)習(xí)自動(dòng)學(xué)習(xí)復(fù)雜的推理行為(自我驗(yàn)證與反思),然后隨著訓(xùn)練的深入,模型逐步提升了對(duì)復(fù)雜任務(wù)的解答能力,并顯著提高了模型推理能力。在數(shù)學(xué)和編程基準(zhǔn)測(cè)試集上,與open

AI-o1模型的表現(xiàn)相當(dāng)并大幅超越其它現(xiàn)有大模型。17DeepSeek模型優(yōu)勢(shì)18DeepSeek模型優(yōu)勢(shì)19DeepSeek模型優(yōu)勢(shì)2021DeepSeek

R1達(dá)到了跟o1相當(dāng)、或者至少接近的推理能力,且將推理過程可視化它做到這個(gè)水平只用到少得多的資源,所以價(jià)格十分便宜它是完全開源的并且還發(fā)布論文,詳細(xì)介紹了訓(xùn)練中所有的步驟和竅門DeepSeek深度求索公司是一家純粹的中國(guó)公司混合專家MOE多頭潛在注意力MLA強(qiáng)化學(xué)習(xí)GRPODeepseek官網(wǎng)地址:

https://chat.deepDeepSeek-R1

訓(xùn)練技術(shù)全部公開,論文鏈接:/deepseek-ai/DeepSeek-

R1/blob/main/DeepSeek_R1.pdfDeepSeek的算法和算力突破直接硬件編程PTX混合精度訓(xùn)練FP8多Token預(yù)測(cè)MTP通訊優(yōu)化DualPipe并行訓(xùn)練框架HAI測(cè)試時(shí)計(jì)算TTC21第21頁(yè)DeepSeek模型特點(diǎn)總結(jié)22基礎(chǔ)架構(gòu):混合專家模型(MoE):DeepSeek采用MoE架構(gòu),通過動(dòng)態(tài)選擇最適合輸入數(shù)據(jù)的專家模塊進(jìn)行處理,提升推理能力和效率。無(wú)輔助損失的負(fù)載均衡策略(EP):該策略使DeepSeekMoE在不對(duì)優(yōu)化目標(biāo)產(chǎn)生干擾的前提下,實(shí)現(xiàn)各個(gè)專家的負(fù)載均衡,避免了某些專家可能會(huì)被過度使用,而其他專家則被閑置的現(xiàn)象。多頭潛在注意力機(jī)制(MLA):MLA通過低秩壓縮減少Key-Value緩存,顯著提升推理效率。強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)(RL):DeepSeek-R1在訓(xùn)練中大規(guī)模應(yīng)用強(qiáng)化學(xué)習(xí),將傳統(tǒng)的PPO替換為GRPO訓(xùn)練算法,顯著提升推理能力。多Token預(yù)測(cè)(MTP):通過多Token預(yù)測(cè),Deepseek不僅提高了推理速度,還降低了訓(xùn)練成本。DeepSeek模型特點(diǎn)總結(jié)23訓(xùn)練及框架:FP8混合精度訓(xùn)練:在關(guān)鍵計(jì)算步驟使用高精度,其他模型層使用FP8低精度進(jìn)一步降低訓(xùn)練成本。這一點(diǎn),是DeepSeek團(tuán)隊(duì)在Infra工程上的非常有價(jià)值的突破。長(zhǎng)鏈推理技術(shù)(TTC):模型支持?jǐn)?shù)萬(wàn)字的長(zhǎng)鏈推理,可逐步分解復(fù)雜問題并進(jìn)行多步驟邏輯推理。并行訓(xùn)練策略(HAI):16

路流水線并行(Pipeline

Parallelism,

PP)、跨

8個(gè)節(jié)點(diǎn)的

64路專家并行(Expert

Parallelism,

EP),以及數(shù)據(jù)并行(Data

Parallelism,

DP),大幅提升模型訓(xùn)練速度。通訊優(yōu)化DualPipe:

高效的跨節(jié)點(diǎn)通信內(nèi)核,利用

IB

NVLink

帶寬,減少通信開銷,提高模型推理性能。混合機(jī)器編程(PTX):部分代碼直接進(jìn)行使用PTX編程提高執(zhí)行效率,并優(yōu)化了一部分算子庫(kù)。低成本訓(xùn)練:DeepSeek-V3的訓(xùn)練成本為557.6萬(wàn)美元,僅為OpenAI的GPT-4o等領(lǐng)先閉源模型的3%-5%。DeepSeek模型特點(diǎn)總結(jié)24社會(huì)價(jià)值:開源生態(tài):DeepSeek采用開源策略,使用最為開放的MIT開源協(xié)議,吸引了大量開發(fā)者和研究人員,推動(dòng)了AI技術(shù)的發(fā)展。模型蒸餾支持:DeepSeek-R1同時(shí)發(fā)布了多個(gè)模型蒸餾。雖然這些蒸餾模型的生產(chǎn)初衷是為了驗(yàn)證蒸餾效果,但在實(shí)質(zhì)上幫助用戶可以訓(xùn)練更小型的模型以滿足不同應(yīng)用場(chǎng)景需求,也給用戶提供更多的抑制了DeepSeekR1滿血版模型的能力的小模型選擇(雖然也給市場(chǎng)和用戶造成了很多困擾)。AI產(chǎn)品和技術(shù)的普及教育:對(duì)于社會(huì),認(rèn)識(shí)到AI是一個(gè)趨勢(shì),不是曇花一現(xiàn);對(duì)于市場(chǎng),用戶開始主動(dòng)引入AI,不用教育了;對(duì)于大模型企業(yè),

越發(fā)開始重視infra工程的價(jià)值了。DeepSeek-R1全家桶ModelBase

ModelModel

DownloadDeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B

HuggingFaceModelScope蒸餾模型,能力稍弱實(shí)際上是增加了推理能力的Qwen模型和Llama模型,嚴(yán)格來講不能稱為DeepSeek模型(市場(chǎng)上有誤解,廠商有誤導(dǎo),Ollama工具的模型選項(xiàng)中也有誤導(dǎo))DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B

HuggingFaceModelScopeDeepSeek-R1-Distill-Llama-8BLlama-3.1-8B

HuggingFaceModelScopeDeepSeek-R1-Distill-Qwen-14BQwen2.5-14B

HuggingFaceModelScopeDeepSeek-R1-Distill-Qwen-32BQwen2.5-32B

HuggingFaceModelScopeDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct

HuggingFaceModelScopeDeepSeek-R1-671BDeepSeek-V3-Base

HuggingFaceModelScope滿血版,能力最強(qiáng)25蒸餾模型-概念模型蒸餾的定義通俗解釋:模型蒸餾就像是讓一個(gè)“老師”(大模型)把知識(shí)傳授給一個(gè)“學(xué)生”(小模型),讓“學(xué)生”變成“學(xué)霸”。正式定義:模型蒸餾是一種將大型復(fù)雜模型(教師模型)的知識(shí)遷移到小型高效模型(學(xué)生模型)的技術(shù)。模型蒸餾的原理教師模型的訓(xùn)練:先訓(xùn)練一個(gè)性能強(qiáng)大但計(jì)算成本高的教師模型。生成軟標(biāo)簽:教師模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),得到每個(gè)樣本的概率分布,這些就是軟標(biāo)簽。訓(xùn)練學(xué)生模型:用軟標(biāo)簽和硬標(biāo)簽共同訓(xùn)練學(xué)生模型。優(yōu)化與調(diào)整:通過調(diào)整超參數(shù),優(yōu)化學(xué)生模型的性能。蒸餾技術(shù)的優(yōu)勢(shì)模型壓縮:學(xué)生模型參數(shù)少,計(jì)算成本低,更適合在資源受限的環(huán)境中部署。性能提升:學(xué)生模型通過學(xué)習(xí)教師模型的輸出概率分布,能夠更好地理解數(shù)據(jù)的模式和特征。效率提高:學(xué)生模型訓(xùn)練所需的樣本數(shù)量可能更少,訓(xùn)練成本降低。26DeepSeek-R1蒸餾模型-能力對(duì)比DeepSeek蒸餾版的選擇經(jīng)驗(yàn)千萬(wàn)別用1.5B和8B做正經(jīng)業(yè)務(wù),會(huì)翻車!做自然語(yǔ)言對(duì)話7B就很好用了預(yù)算有限又想搞事情就選14B要做知識(shí)問答選32B,對(duì)代碼支持也不錯(cuò)70B性價(jià)比最低,與32B性能類似,成本翻倍,沒有什么理由存在27DeepSeek模型應(yīng)用場(chǎng)景邊緣計(jì)算場(chǎng)景的低延遲部署DeepSeek結(jié)合天翼云智能邊緣云ECX,能夠在靠近用戶的邊緣節(jié)點(diǎn)部署模型,顯著降低數(shù)據(jù)傳輸延遲,適用于對(duì)實(shí)時(shí)性要求極高的場(chǎng)景復(fù)雜數(shù)學(xué)與編程任務(wù)DeepSeek-R1在數(shù)學(xué)推理和代碼生成領(lǐng)域展現(xiàn)了超越同類模型的獨(dú)特能力中文場(chǎng)景的深度優(yōu)化理解文化背景和習(xí)慣用語(yǔ)(如生成春節(jié)習(xí)俗對(duì)比文章),優(yōu)于GPT-4的中文處理能力28使用方式直接使用官方服務(wù)訪問官網(wǎng)(

/),登錄后使用,適合電腦端快速使用,但存在服務(wù)不穩(wěn)定問題。下載APP,適合手機(jī)平板等移動(dòng)設(shè)備,但同樣存在服務(wù)不穩(wěn)定問題。使用第三方服務(wù)與API調(diào)用第三方服務(wù):秘塔AI、微信搜索、Molly

R1、問小白等。API調(diào)用:DeepSeek、硅基流動(dòng)、火山引擎等。獲取API密鑰調(diào)用,適合開發(fā)者集成,同樣存在服務(wù)不穩(wěn)定問題。本地部署個(gè)人部署:個(gè)人在本地設(shè)備運(yùn)行應(yīng)用,依賴自身計(jì)算資源,靈活便捷。企業(yè)部署:企業(yè)內(nèi)網(wǎng)搭建私有化系統(tǒng),支持多用戶協(xié)作,數(shù)據(jù)可控。一體機(jī):直接購(gòu)買配置了DeepSeek模型的具備一定算力的一體機(jī)。2930個(gè)人部署Deep

SeekPerson

a

l deploymen

tPART

0230/413131對(duì)于個(gè)人玩家如何在自己的電腦上部署和體驗(yàn)DeepSeek(一般是蒸餾版),我們會(huì)詳細(xì)分享具體的模型評(píng)估數(shù)據(jù)和軟硬件要求,通過實(shí)操環(huán)節(jié)來詳細(xì)講解Ollama命令行高效部署全流程,并構(gòu)建多形態(tài)用戶接入方案,包括瀏覽器插件PageAssist、桌面端Chatbox和團(tuán)隊(duì)協(xié)作型OpenWebUI,實(shí)現(xiàn)從個(gè)人到企業(yè)的全場(chǎng)景覆蓋。其中分享過程中常見問題和經(jīng)驗(yàn),幫助大家可完整體驗(yàn)、并成功實(shí)現(xiàn)本地化部署DeepSeek。320102

03

模型部署環(huán)境準(zhǔn)備明確模型部署的軟硬件要求,分析參數(shù)量對(duì)推理效果和硬件配置的影響。提供最低與推薦配置清單,詳解Ollama框架優(yōu)勢(shì)及環(huán)境變量配置,建立標(biāo)準(zhǔn)化部署環(huán)境。前端展示33參數(shù)量影響模型能力模型能力:通常來說,參數(shù)量越大,模型就有更強(qiáng)的理解和生成能力,但是需要更多計(jì)算資源。硬件需求:參數(shù)越多,對(duì)內(nèi)存(RAM)和顯存(VRAM)的需求就越高。運(yùn)行速度:參數(shù)量大的模型,推理速度更慢,尤其是資源不足的時(shí)候。參數(shù)量與硬件配置匹配本地部署DeepSeek時(shí),需根據(jù)硬件配置選擇合適模型版本。如1.5B模型適合資源受限設(shè)備,671B模型需服務(wù)器集群支持。合理匹配參數(shù)量與硬件,可優(yōu)化模型性能,提升運(yùn)行效率,避免資源浪費(fèi)或性能瓶頸。模型參數(shù)量意義硬件配置-推薦模型參數(shù)CPU要求內(nèi)存要求顯存要求(GPU)硬盤空間適用場(chǎng)景1.5B6核(現(xiàn)代多核)16GB4GB(如:GTX1650)5GB+實(shí)時(shí)聊天機(jī)器人、物聯(lián)網(wǎng)設(shè)備7B8核(現(xiàn)代多核)32GB8GB(如:RTX

3070)10GB+文本摘要、多輪對(duì)話系統(tǒng)8B10核(多線程)32GB10GB12GB+高精度輕量級(jí)任務(wù)14B12核64GB16GB(如:RTX4090)20GB+合同分析、論文輔助寫作32B 16核(如i9/Ryzen

9) 128GB24GB(如:RTX4090)30GB+法律/醫(yī)療咨詢、多模態(tài)預(yù)處理70B32核(服務(wù)器級(jí))256GB40GB(如:雙A100)100GB+金融預(yù)測(cè)、大規(guī)模數(shù)據(jù)分析671B64核(服務(wù)器集群)512GB160GB(8x

A100)500GB+國(guó)家級(jí)AI研究、氣候建模Ollama中提供的deepseek-r1模型均為4位量化模型,

所需資源較正常少一些,

如果要運(yùn)行非量化模型,

則需要更大的顯存(比如7B需要至少16G顯存)34硬件配置-最低模型參數(shù)CPU要求內(nèi)存要求顯存要求(GPU)硬盤空間適用場(chǎng)景1.5B4核(Intel/AMD)8GB無(wú)(純CPU)或2GB(GPU加速)3GB+樹莓派、舊款筆記本、簡(jiǎn)單文本生成7B4核(多線程支持)16GB4GB8GB+本地開發(fā)測(cè)試、輕量級(jí)NLP任務(wù)8B6核(多線程)16GB6GB8GB+代碼生成、邏輯推理14B8核32GB8GB15GB+企業(yè)級(jí)文本分析、長(zhǎng)文本生成32B12核48GB16GB19GB+復(fù)雜場(chǎng)景對(duì)話、深度思考任務(wù)70B16核(服務(wù)器級(jí))64GB24GB(多卡)70GB+創(chuàng)意寫作、算法設(shè)計(jì)671B32核(服務(wù)器集群)128GB80GB(多卡)300GB+科研級(jí)任務(wù)、AGI探索上頁(yè)推薦配置中,

是較為流暢的運(yùn)行模型,

而最低配置是指可以運(yùn)行模型,

但流暢度會(huì)稍差一些35若僅需簡(jiǎn)單任務(wù),如實(shí)時(shí)聊天或輕量級(jí)文本生成,可選擇1.5B或7B模型,搭配較低配置硬件,如普通筆記本或臺(tái)式機(jī)。對(duì)于復(fù)雜任務(wù),如合同分析、論文寫作或大規(guī)模數(shù)據(jù)分析,需選擇14B及以上模型,并配備高性能硬件,如高端顯卡和大容量?jī)?nèi)存。根據(jù)需求選擇01在預(yù)算有限的情況下,可優(yōu)先選擇較低參數(shù)量的模型,以滿足基本需求,同時(shí)降低硬件成本。如1.5B模型可在資源受限設(shè)備上運(yùn)行,適合預(yù)算緊張的用戶。若預(yù)算充足且對(duì)性能要求較高,可選擇高參數(shù)量模型,如32B或70B,搭配高端硬件,以獲得更強(qiáng)的處理能力和更高的運(yùn)行效率??紤]預(yù)算與性能平衡02隨著任務(wù)需求的增加和預(yù)算的提升,可逐步升級(jí)硬件配置,如增加內(nèi)存、更換高性能顯卡或升級(jí)CPU。對(duì)于企業(yè)用戶或科研機(jī)構(gòu),可根據(jù)實(shí)際需求構(gòu)建服務(wù)器集群,以支持大規(guī)模模型的運(yùn)行和復(fù)雜任務(wù)的處理。硬件升級(jí)與擴(kuò)展03硬件選擇建議36Ollama功能特點(diǎn)Ollama簡(jiǎn)介Ollama是一個(gè)開源的大型語(yǔ)言模型服務(wù)工具,旨在幫助用戶快速在本地運(yùn)行大模型。通過簡(jiǎn)單的安裝指令,用戶可以在消費(fèi)級(jí)PC上體驗(yàn)LLM的強(qiáng)大功能。Ollama會(huì)自動(dòng)監(jiān)測(cè)本地計(jì)算資源,優(yōu)先使用GPU資源以提升推理速度,若無(wú)GPU則直接使用CPU資源。Ollama官方鏈接:

/Ollama工具介紹37開源免費(fèi)簡(jiǎn)單易用模型豐富支持多平臺(tái)支持工具調(diào)用資源占用低功能齊全隱私保護(hù)社區(qū)活躍Windows/Mac系統(tǒng):訪問Ollama官網(wǎng)或GitHub頁(yè)面,下載安裝包并運(yùn)行安裝程序。Linux系統(tǒng):一鍵安裝命令curl

-fsSL

/install.sh

|

sh,或手動(dòng)下載并解壓安裝。Docker安裝:拉取Ollama鏡像,如CPU版使用docker

pull

ollama/ollama,運(yùn)行鏡像時(shí)可使用dockerrun

-d

-v

ollama:/root/.ollama

-p

11434:11434

--name

ollama

ollama/ollama命令。安裝Ollama客戶端安裝Docker(可選)Windows/Mac

系統(tǒng):訪問Docker官網(wǎng),

下載Docker

Desktop安裝程序,

運(yùn)行安裝并啟動(dòng)DockerDesktop。Linux系統(tǒng):訪問Docker官網(wǎng),根據(jù)Linux發(fā)行版選擇安裝方式,如基于Debian系統(tǒng)使用sudo

apt-getinstall

docker-ce

docker-ce-cli

containerd.io命令安裝,安裝后啟動(dòng)Docker服務(wù)。軟件安裝步驟38環(huán)境變量配置參數(shù)標(biāo)識(shí)與配置OLLAMA_MODELS表示模型文件的存放目錄,默認(rèn)目錄為當(dāng)前用戶目錄即

C:\Users%username%.ollama\modelsWindows

系統(tǒng)

建議不要放在C盤,可放在其他盤(如

E:\ollama\models)OLLAMA_HOST表示ollama服務(wù)監(jiān)聽的網(wǎng)絡(luò)地址,默認(rèn)為

如果想要允許其他電腦訪問

Ollama(如局域網(wǎng)中的其他電腦),建議設(shè)置成

OLLAMA_PORT表示ollama服務(wù)監(jiān)聽的默認(rèn)端口,默認(rèn)為11434如果端口有沖突,可以修改設(shè)置成其他端口(如8080等)OLLAMA_ORIGINS表示HTTP

客戶端的請(qǐng)求來源,使用半角逗號(hào)分隔列表

如果本地使用不受限制,可以設(shè)置成星號(hào)

*OLLAMA_KEEP_ALIVE表示大模型加載到內(nèi)存中后的存活時(shí)間,默認(rèn)為5m即

5

分鐘

(如純數(shù)字300

代表300

秒,0

代表處理請(qǐng)求響應(yīng)后立即卸載模型,任何負(fù)數(shù)則表示一直存活)

建議設(shè)置成24h,即模型在內(nèi)存中保持

24

小時(shí),提高訪問速度OLLAMA_NUM_PARALLEL表示請(qǐng)求處理的并發(fā)數(shù)量,默認(rèn)為1

(即單并發(fā)串行處理請(qǐng)求)

建議按照實(shí)際需求進(jìn)行調(diào)整OLLAMA_MAX_QUEUE表示請(qǐng)求隊(duì)列長(zhǎng)度,默認(rèn)值為512

建議按照實(shí)際需求進(jìn)行調(diào)整,超過隊(duì)列長(zhǎng)度的請(qǐng)求會(huì)被拋棄OLLAMA_DEBUG表示輸出

Debug

日志,應(yīng)用研發(fā)階段可以設(shè)置成1

(即輸出詳細(xì)日志信息,便于排查問題)OLLAMA_MAX_LOADED_MODELS表示最多同時(shí)加載到內(nèi)存中模型的數(shù)量,默認(rèn)為1

(即只能有

1

個(gè)模型在內(nèi)存中)建議修改:將模型路徑遷移至非系統(tǒng)盤(如OLLAMA_MODELS=E:\models),按需提高OLLAMA_KEEP_ALIVE

和OLLAMA_NUM_PARALLEL

優(yōu)化性能,生產(chǎn)環(huán)境限制請(qǐng)求來源并關(guān)閉調(diào)試日志。39訪問Ollama服務(wù)啟動(dòng)Ollama服務(wù)后,通過瀏覽器訪問http://localhost:11434可看到:”ollama

is

running“若無(wú)法訪問,需檢查Ollama服務(wù)是否啟動(dòng),是否有防火墻或安全軟件阻止端口訪問,以及是否更改了默認(rèn)端口。前端界面網(wǎng)絡(luò)訪問本地部署:前端界面運(yùn)行在本地計(jì)算機(jī)上,可通過http://localhost:11434與Ollama服務(wù)通信。遠(yuǎn)程部署:需確保前端界面所在計(jì)算機(jī)可訪問Ollama服務(wù)所在計(jì)算機(jī)的IP地址和端口??稍贠llama服務(wù)所在計(jì)算機(jī)上運(yùn)行ollama

serve

--host

命令允許遠(yuǎn)程訪問或者修改環(huán)境變量,最后通過IP地址訪問Ollama服務(wù)。網(wǎng)絡(luò)配置注意事項(xiàng)端口沖突:確保11434端口未被占用,若被占用,可通過:ollama

serve

--port

<new_port>命令或者通過修改環(huán)境變量指定其他端口。代理設(shè)置:在代理網(wǎng)絡(luò)環(huán)境中,需確保代理設(shè)置允許訪問本地服務(wù)。防火墻設(shè)置:確保防火墻規(guī)則允許對(duì)11434端口的訪問,可添加防火墻規(guī)則允許該端口流量。網(wǎng)絡(luò)配置4003

01

環(huán)境準(zhǔn)備前端展示模型部署演示Ollama完整部署流程:從DeepSeek

7B模型選擇到加載,詳細(xì)講解命令行指令集,重點(diǎn)說明模型加載與啟動(dòng)命令的正確使用方法。0241Ollama常用命令命令描述ollama

serve啟動(dòng)

Ollamaollama

create從

Modelfile創(chuàng)建模型ollama

show顯示模型信息ollama

run運(yùn)行模型ollama

pull從注冊(cè)表中拉取模型ollama

push將模型推送到注冊(cè)表ollama

list列出所有模型ollama

ps列出正在運(yùn)行的模型ollama

cp復(fù)制模型ollama

rm刪除模型ollama

help顯示任意命令的幫助信息這兩個(gè)命令是個(gè)人部署最主要的兩個(gè)命令,

主要用來下載和啟動(dòng)模型42下載命令格式使用ollama

pull命令下載模型,格式為ollamapull

<model_name>。案例:某用戶在終端輸入ollamapulldeepseek-

r1:7b,從Ollama模型庫(kù)中成功下載7B模型,耗時(shí)約10分鐘。下載過程中,終端會(huì)顯示下載進(jìn)度條,實(shí)時(shí)顯示下載速度和剩余時(shí)間??赏ㄟ^ollama

list命令查看已下載的模型列表,確認(rèn)模型是否下載完成。案例:某用戶在下載14B模型時(shí),通過ollama

list命令發(fā)現(xiàn)下載進(jìn)度為50%,預(yù)計(jì)還需20分鐘完成。下載過程監(jiān)控下載失敗處理若下載失敗,可能是網(wǎng)絡(luò)問題或模型庫(kù)地址錯(cuò)誤??蓢L試重新運(yùn)行下載命令,或檢查網(wǎng)絡(luò)連接和模型庫(kù)地址。案例:某用戶下載7B模型時(shí)因網(wǎng)絡(luò)中斷失敗,重新運(yùn)行下載命令后成功完成下載。使用Ollama命令下載模型43運(yùn)行命令格式使用ollama

run命令運(yùn)行模型,格式為ollamarun

<model_name>。案例:某用戶在終端輸入ollama

run

deepseek-r1:7b,模型成功啟動(dòng)并進(jìn)入運(yùn)行狀態(tài)。模型運(yùn)行后,可通過ollama

ps命令查看正在運(yùn)行的模型列表,確認(rèn)模型是否正常運(yùn)行。若模型未正常運(yùn)行,可檢查硬件資源是否充足,或是否有其他模型占用資源。案例:某用戶運(yùn)行14B模型后,響應(yīng)速度較慢,經(jīng)檢查發(fā)現(xiàn)內(nèi)存占用過高。運(yùn)行狀態(tài)檢查停止運(yùn)行模型使用ollama

stop命令停止運(yùn)行的模型,格式為ollama

stop

<model_name>。案例:某用戶在測(cè)試完成后,通過ollama

stop

deepseek-r1:7b命令停止了7B模型的運(yùn)行,釋放了系統(tǒng)資源。使用Ollama命令運(yùn)行模型44模型運(yùn)行效果45Ollama常見問題問題描述默認(rèn)配置下Ollama服務(wù)暴露在公網(wǎng),易被自動(dòng)化腳本掃描攻擊,導(dǎo)致算力盜用或模型文件刪除。解決方案強(qiáng)制身份認(rèn)證:通過反向代理(如Nginx)添加Basic

Auth認(rèn)證,或在Ollama啟動(dòng)時(shí)綁定內(nèi)網(wǎng)IP(OLLAMA_HOST=192.168.x.x)。網(wǎng)絡(luò)層隔離:使用Docker的--network

host模式部署,配合iptables限制訪問來源IP段。日志監(jiān)控:?jiǎn)⒂肙llama的--verbose日志模式,結(jié)合Prometheus監(jiān)控API調(diào)用頻率,識(shí)別異常流量。安全漏洞與未經(jīng)授權(quán)訪問風(fēng)險(xiǎn)46Ollama常見問題問題描述Ollama版本升級(jí)后模型僅運(yùn)行在CPU,或量化精度丟失導(dǎo)致回答質(zhì)量下降。解決方案鎖定依賴版本:通過Docker鏡像固定Ollama版本(如ollama/ollama:0.5.1-cuda),避免自動(dòng)升級(jí)引入兼容性問題。顯存分配驗(yàn)證:使用nvidia-smi監(jiān)控GPU利用率,若發(fā)現(xiàn)異?;赝酥罜PU,檢查CUDA驅(qū)動(dòng)版本與Ollama編譯環(huán)境的兼容性。模型升級(jí)后性能退化問題47前端展示構(gòu)建多形態(tài)接入方案:PageAssist實(shí)現(xiàn)網(wǎng)頁(yè)即時(shí)問答,Chatbox支持Markdown渲染,OpenWebUI提供企業(yè)權(quán)限管理。02

01

環(huán)境準(zhǔn)備模型部署034849

Orian(Ollama

WebUI)特點(diǎn):多功能聊天系統(tǒng),支持Gmail集成、谷歌搜索增強(qiáng)、上下文網(wǎng)站交互。優(yōu)點(diǎn):功能豐富,AI交互體驗(yàn)全面,適用于多種場(chǎng)景。缺點(diǎn):部分功能(如實(shí)時(shí)搜索)可能處于維護(hù)狀態(tài),對(duì)不熟悉Gmail和谷歌搜索的用戶實(shí)用性降低。適用場(chǎng)景:適合需要郵件處理、搜索增強(qiáng)功能的用戶。Page

Assist特點(diǎn):瀏覽器插件,支持PDF對(duì)話、網(wǎng)絡(luò)搜索集成,與對(duì)象存儲(chǔ)、CloudStudio無(wú)縫集成。優(yōu)點(diǎn):輕量級(jí),安裝方便,與網(wǎng)頁(yè)內(nèi)容緊密結(jié)合。缺點(diǎn):功能相對(duì)基礎(chǔ),對(duì)于不常使用網(wǎng)頁(yè)交互的用戶優(yōu)勢(shì)不明顯。適用場(chǎng)景:適合需要與網(wǎng)頁(yè)內(nèi)容緊密結(jié)合、進(jìn)行針對(duì)性AI交互的用戶。ollama-ui特點(diǎn):實(shí)時(shí)對(duì)話交互,多模型切換,聊天歷史管理,網(wǎng)頁(yè)內(nèi)容交互,支持多種文檔格式。優(yōu)點(diǎn):功能實(shí)用,隱私保護(hù),所有交互在本地完成。缺點(diǎn):功能較為基礎(chǔ),可能無(wú)法滿足復(fù)雜需求。適用場(chǎng)景:適合需要與網(wǎng)頁(yè)內(nèi)容交互、管理聊天歷史的用戶。瀏覽器插件EnchantedLLM特點(diǎn):MacOS原生應(yīng)用,支持多種私人托管模型,界面簡(jiǎn)潔直觀。適用場(chǎng)景:適合MacOS用戶,需要本地運(yùn)行多種模型。Chatbox特點(diǎn):跨平臺(tái)開源客戶端應(yīng)用,支持Windows、MacOS、Linux、iOS和Android,支持多種大語(yǔ)言模型。適用場(chǎng)景:適合跨平臺(tái)使用,需要多種模型支持的用戶。LLocal.in特點(diǎn):跨平臺(tái)完全開源的客戶端,用于利用本地運(yùn)行的大型語(yǔ)言模型,Electron桌面客戶端,易于使用。適用場(chǎng)景:適合需要本地運(yùn)行模型、跨平臺(tái)使用的用戶。Ollama

App特點(diǎn):現(xiàn)代且易于使用的多平臺(tái)客戶端,支持Ollama。適用場(chǎng)景:適合需要簡(jiǎn)潔界面、多平臺(tái)支持的用戶。桌面應(yīng)用50OpenWebUI特點(diǎn):基于Web的界面,方便用戶與Ollama模型進(jìn)行交互。適用場(chǎng)景:適合需要通過Web界面與模型交互的用戶。項(xiàng)目地址:https://github.com/open-

webui/open-webuiNextJSOllamaLLM

UI特點(diǎn):專為Ollama設(shè)計(jì)的極簡(jiǎn)主義用戶界面,界面美觀。適用場(chǎng)景:適合追求簡(jiǎn)約風(fēng)格的用戶。項(xiàng)目地址:https:///jakobhoeg/ne

xtjs-ollama-llm-uiOllamaBasic

Chat特點(diǎn):使用HyperDiv反應(yīng)式UI的Ollama基本聊天界面。適用場(chǎng)景:適合需要簡(jiǎn)單聊天界面的用戶。Web服務(wù)5152終端工具特點(diǎn):Ollama提供了多種終端工具,如oterm、ollama.nvim等,方便開發(fā)者在終端中使用Ollama。適用場(chǎng)景:適合開發(fā)者,需要在終端中快速使用Ollama。云服務(wù)特點(diǎn):Ollama支持在GoogleCloud、Fly.io、Koyeb等云平臺(tái)上部署。適用場(chǎng)景:適合需要在云端部署模型的用戶。0102其他其他設(shè)置設(shè)置API代理:在設(shè)置菜單中,配置API代理,連接到不同的AI模型和服務(wù)提供者。管理和調(diào)試Prompt:使用Chatbox提供的工具設(shè)計(jì)和調(diào)整Prompt,以獲得最佳的AI交互體驗(yàn)。保存聊天記錄:所有聊天記錄和Prompt會(huì)自動(dòng)保存在本地。多平臺(tái)同步:通過登錄賬號(hào),可在不同設(shè)備上同步數(shù)據(jù)。適用場(chǎng)景:適合需要多平臺(tái)使用、管理聊天記錄的用戶。Chatbox-安裝下載與安裝訪問Chatbox

AI官網(wǎng),根據(jù)設(shè)備選擇版本下載并安裝,安裝完成后啟動(dòng)應(yīng)用。適用場(chǎng)景:適合跨平臺(tái)使用,需要多種模型支持的用戶。53配置模型使用本地模型:打開Chatbox軟件,點(diǎn)擊左下角齒輪圖標(biāo)進(jìn)入設(shè)置,選擇「模型提供方」為「Ollama」,「API域名」自動(dòng)填充為http://localhost:11434,選擇對(duì)應(yīng)模型,點(diǎn)擊「保存」。使用在線API:以接入硅基流動(dòng)的DeepSeek-

R1為例,選擇「SiliconFlow

API」,粘貼API密鑰,選擇DeepSeek-

R1模型。適用場(chǎng)景:適合需要快速切換本地和在線模型的用戶。使用功能與文檔和圖片聊天,代碼生成與預(yù)覽,實(shí)時(shí)聯(lián)網(wǎng)搜索與查詢,AI生成的圖表可視化,AI驅(qū)動(dòng)的圖像生成,LaTeX和Markdown渲染Chatbox-界面溫度設(shè)置建議:代碼生成/數(shù)學(xué)解題

->

0.0數(shù)據(jù)抽取/分析

->

1.0通用對(duì)話

->

1.3翻譯->

1.3創(chuàng)意類寫作/詩(shī)歌創(chuàng)作->

1.554打開側(cè)邊欄:安裝完成后,通過右鍵菜單或快捷鍵(默認(rèn)為Ctrl+Shift+P)打開側(cè)邊欄。在側(cè)邊欄中,可以與本地AI模型進(jìn)行對(duì)話,獲取網(wǎng)頁(yè)內(nèi)容的相關(guān)信息。使用Web

UI:點(diǎn)擊擴(kuò)展圖標(biāo),會(huì)在新標(biāo)簽頁(yè)中打開Web

UI。在Web

UI中,可以像使用ChatGPT一樣與AI模型進(jìn)行對(duì)話。配置本地AI模型:首次使用時(shí),需要配置本地AI模型,目前支持Ollama和Chrome

AI

(Gemini

Nano)等本地AI提供商。選擇指定的模型后,即可開始與模型進(jìn)行交互。其他功能:網(wǎng)頁(yè)內(nèi)容對(duì)話、文檔解析、聯(lián)網(wǎng)搜索、語(yǔ)言設(shè)置。適用場(chǎng)景:適合需要與網(wǎng)頁(yè)內(nèi)容緊密結(jié)合、進(jìn)行針對(duì)性AI交互的用戶。

02 使用方法安裝方法打開Chrome

Web

Store搜索“Page

Assist”點(diǎn)擊“添加到Chrome”按鈕01Open

WebUIPage

Assist-安裝55Open

WebUIPage

Assist-界面56使用方法-d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open--v open-webui:/app/backend/data--nameopen-webui--restartalways

ghcr.io/open-webui/open-webui:main使用GPU加速

:docker run -d -p 3000:8080 --gpus all --add-host=ernal:host-gatewaywebui:/app/backend/data--nameopen-webui--restartalways

ghcr.io/open-webui/open-webui:cuda安裝方法運(yùn)行Open

WebUI,使用以下命令:無(wú) GPU 加 速 : docker runOpenWebui-安裝57訪問OpenWebUI:安裝完成后,打開瀏覽器訪問http://localhost:3000。配置AI模型:選擇支持的LLM運(yùn)行器(如Ollama或OpenAI

API),可以配置自定義OpenAI

API

URL,連接到其他兼容的API服務(wù)。OpenWebui-界面OpenWebUI

支持多模態(tài)交互、本地模型與云端

API

混合部署,并深度集成RAG

知識(shí)庫(kù)和外部工具,相較于

PageAssist

等單一功能插件,其開源可定制、支持企業(yè)級(jí)多用戶管理及全棧

AI

工作流擴(kuò)展的特性,更適合開發(fā)者構(gòu)建私有化復(fù)雜應(yīng)用。58Open

WebUI三款界面總結(jié)PageAssist以瀏覽器插件形態(tài)實(shí)現(xiàn)本地AI與瀏覽場(chǎng)景的無(wú)縫融合,強(qiáng)調(diào)隱私優(yōu)先和輕量交互,通過側(cè)邊欄對(duì)話、文檔解析等能力將模型能力嵌入用戶日常操作,適合注重?cái)?shù)據(jù)安全的高頻輕需求場(chǎng)景。Chatbox定位靈活的中臺(tái)調(diào)度工具,以模塊化設(shè)計(jì)兼容多模型API和插件擴(kuò)展,平衡開發(fā)者的自定義需求與普通用戶的易用性,適用于需要多模型協(xié)同或快速驗(yàn)證AI能力的場(chǎng)景。Open

WebUI聚焦企業(yè)級(jí)AI服務(wù)全生命周期管理,從模型部署、權(quán)限控制到知識(shí)庫(kù)集成提供閉環(huán)方案,通過負(fù)載均衡、協(xié)作聊天等特性滿足規(guī)模化團(tuán)隊(duì)的技術(shù)管控需求。59企業(yè)部署D

e

e

p

S

e

e

kE

n

t

e

r

p

r

i

s

e d

e

p

l

o

y

m

e

n

tPART

03606161Ollma框架適合個(gè)人用戶私有化本地部署,但在多用戶并發(fā)場(chǎng)景下性能衰減明顯。這一部分我們將盡可能簡(jiǎn)單地介紹企業(yè)級(jí)私有化部署的方案和探索實(shí)踐,普通用戶可以了解即可。企業(yè)級(jí)生產(chǎn)環(huán)境推薦使用Transformers來快速驗(yàn)證模型能力,使用vLLM框架借助PagedAttention技術(shù)實(shí)現(xiàn)24倍于Transformers的吞吐量實(shí)現(xiàn)大模型的高效推理,針對(duì)不同企業(yè)場(chǎng)景,則提供不同的企業(yè)級(jí)部署方案,我們也會(huì)分享服務(wù)器配置、性能數(shù)據(jù)及報(bào)價(jià)參考等實(shí)戰(zhàn)經(jīng)驗(yàn),且深度分析業(yè)務(wù)場(chǎng)景的適配性,給予參考幫助。同時(shí),針對(duì)近期出現(xiàn)的KTransformers、Unsloth等多套低成本動(dòng)態(tài)量化模型的DeepSeek部署解決方案。雖然不夠成熟也無(wú)法投入實(shí)際生產(chǎn)使用,但我們也會(huì)用一定的篇幅分享我們的研究實(shí)踐和經(jīng)驗(yàn)。Transformers簡(jiǎn)介Transformers

提供了可以輕松地下載并且訓(xùn)練先進(jìn)的預(yù)訓(xùn)練模型的

API

和工具。使用預(yù)訓(xùn)練模型可以減少計(jì)算消耗和碳排放,并且節(jié)省從頭訓(xùn)練所需要的時(shí)間和資源。這些模型支持不同模態(tài)中的常見任務(wù),比如:自然語(yǔ)言處理:文本分類、命名實(shí)體識(shí)別、問答、語(yǔ)言建模、摘要、翻譯、多項(xiàng)選擇和文本生成。機(jī)器視覺:圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割。音頻:自動(dòng)語(yǔ)音識(shí)別和音頻分類。多模態(tài):表格問答、光學(xué)字符識(shí)別、從掃描文檔提取信息、視頻分類和視覺問答。Transformers

支持在

PyTorch、TensorFlow

JAX

上的互操作性。這給在模型的每個(gè)階段使用不同的框架帶來了靈活性;在一個(gè)框架中使用幾行代碼訓(xùn)練一個(gè)模型,然后在另一個(gè)框架中加載它并進(jìn)行推理。模型也可以被導(dǎo)出為

ONNX

TorchScript

格式,用于在生產(chǎn)環(huán)境中部署。62Transformers部署模型

3-1步驟一:安裝相關(guān)依賴包pipinstall

torchpipinstalltransformersaccelerate

bitsandbytes步驟二:加載模型fromtransformersimportAutoModelForCausalLM,AutoTokenizermodel_path="deepseek-ai/deepseek-r1-distill-qwen-7b"tokenizer=

AutoTokenizer.from_pretrained(model_path)model=AutoModelForCausalLM.from_pretrained(model_path,device_map="auto",torch_dtype="auto")load_in_8bit=True, #

可以添加參數(shù)來啟用8bit量化63Transformers部署模型

3-264/4641步驟三:運(yùn)行模型prompt

=

"<|system|>你是一個(gè)人工智能助手<|user|>解釋量子計(jì)算<|assistant|>"inputs=tokenizer(prompt,

return_tensors="pt").to(model.device)outputs=

model.generate(**inputs,max_new_tokens=256,do_sample=True,temperature=0.7,repetition_penalty=1.05)print(tokenizer.decode(outputs[0]))Transformers部署模型

3-3步驟四:其他框架調(diào)用#pipinstallgradioimportgradioas

grdef

generate(text):inputs=tokenizer(text,return_tensors="pt").to(model.device)outputs=model.generate(**inputs,max_new_tokens=256)returntokenizer.decode(outputs[0],

skip_special_tokens=True)gr.Interface(fn=generate,inputs=gr.Textbox(lines=5,

label="輸入"),outputs=gr.Textbox(label="輸出")).launch(server_name="",

server_port=6006)這里選擇了gradio框架,

可以快速啟動(dòng)一個(gè)前端界面,

實(shí)戰(zhàn)中可以選擇配合業(yè)務(wù)邏輯進(jìn)行調(diào)用65生成時(shí)常用參數(shù)

2-166參數(shù)名稱含義注意事項(xiàng)inputs輸入的文本或編碼后的

input_ids,用于生成文本的起始部分如果傳入

inputs_embeds,則不能同時(shí)傳入

inputsinput_ids與

inputs

類似,但通常用于直接傳入編碼后的輸入如果傳入

inputs_embeds,則不能同時(shí)傳入

input_idsinputs_embeds輸入的嵌入向量,通常用于

encoder-decoder

模型不能同時(shí)傳入

input_ids

inputsmax_length生成文本的最大長(zhǎng)度(包括輸入部分)如果同時(shí)設(shè)置

max_new_tokens,max_new_tokens

優(yōu)先max_new_tokens生成的新

token

數(shù)量(不包括輸入部分)如果同時(shí)設(shè)置

max_length,max_new_tokens

優(yōu)先min_length生成文本的最小長(zhǎng)度(包括輸入部分)如果同時(shí)設(shè)置min_new_tokens,min_new_tokens

優(yōu)先min_new_tokens生成的新

token

的最小數(shù)量(不包括輸入部分)如果同時(shí)設(shè)置

min_length,min_new_tokens

優(yōu)先num_beamsBeam

search

中的

beam

數(shù)量,用于控制生成的多樣性值越大,生成結(jié)果越多樣,但計(jì)算成本越高do_sample是否啟用隨機(jī)采樣生成文本如果為

True,則生成結(jié)果會(huì)更隨機(jī);如果為

False,則使用貪婪解碼或

beam

searchtemperature控制生成文本的隨機(jī)性值越高,生成結(jié)果越隨機(jī);值越低,生成結(jié)果越確定top_k在隨機(jī)采樣中,只從概率最高的

k

個(gè)

token

中采樣值越大,生成結(jié)果越多樣,但可能引入噪聲top_p在隨機(jī)采樣中,只從累積概率大于

p

token

中采樣值越小,生成結(jié)果越集中于高概率

token生成時(shí)常用參數(shù)

2-267參數(shù)名稱含義注意事項(xiàng)early_stopping是否在達(dá)到

max_length

或max_new_tokens

之前提前停止生成如果為

True,則可能生成較短的文本eos_token_id結(jié)束生成的

token

ID如果生成到該

token,生成過程會(huì)停止pad_token_id填充

token

ID用于處理輸入和輸出的填充部分bos_token_id開始生成的

token

ID如果未指定輸入,會(huì)用此

token

開始生成use_cache是否使用緩存機(jī)制(如

kv-cache)加速生成如果為

True,可以顯著提高生成速度,但需要更多的內(nèi)存output_scores是否輸出生成

token

的概率分?jǐn)?shù)如果為

True,會(huì)返回每個(gè)生成

token

的概率分?jǐn)?shù)return_dict_in_generate是否以字典形式返回生成結(jié)果如果為

True,返回值會(huì)包含更多詳細(xì)信息,如生成的token

IDs

和概率分?jǐn)?shù)vLLM簡(jiǎn)介vLLM

是由加州大學(xué)伯克利分校

LMSYS

組織開源的大語(yǔ)言模型(LLM)高速推理框架。它旨在顯著提升實(shí)時(shí)場(chǎng)景下語(yǔ)言模型服務(wù)的吞吐量和內(nèi)存使用效率。vLLM

的主要特點(diǎn)包括:PagedAttention

技術(shù):vLLM

引入了PagedAttention

算法,通過分頁(yè)管理注意力機(jī)制中的鍵(keys)和值(values),有效解決了傳統(tǒng)方法中顯存碎片化和過度預(yù)留的問題。顯著的性能提升:與

Hugging

Face

Transformers相比,vLLM

的吞吐量最高可達(dá)

24

倍。與

Hugging

Face

的無(wú)縫集成:vLLM

可以與Hugging

Face

Transformers庫(kù)無(wú)縫對(duì)接,用戶可以輕松地在現(xiàn)有模型基礎(chǔ)上進(jìn)行推理加速。支持多種推理場(chǎng)景:vLLM

支持離線推理、在線

API

服務(wù),以及與

OpenAIAPI兼容的接口。vLLM

的這些特性使其成為大語(yǔ)言模型推理加速的重要工具,尤其適用于需要高效資源利用和快速響應(yīng)的場(chǎng)景。vLLM部署簡(jiǎn)單,

更適合中小型企業(yè)做大模型推理部署,

對(duì)于大型企業(yè),

可以使用配置較為復(fù)雜的Tensor

RT框架68vLLM部署模型

2-1步驟一:安裝相關(guān)依賴包pipinstall

vllm步驟二:加載并啟動(dòng)模型python-mvllm.entrypoints.openai.api_server

\--model'/root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B'

\--served-model-name'deepseek-r1-7b'

\--host

\--port6006

\--tensor-parallel-size1

\--gpu-memory-utilization0.9

\--dtype=half69vLLM部署模型

2-2這個(gè)參數(shù)的作用控制是模型在

GPU

上的顯存占用量。如果你的顯存不足,可以通過降低

--gpu-memory-utilization

的值來減少顯存占用,從而避免出現(xiàn)

CUDAout

ofmemory

的錯(cuò)誤vLLM啟動(dòng)后,

提供了一個(gè)API調(diào)用URL,

可以通過訪問h

ttp://:6006/docs

來查看

API

文檔,進(jìn)而通過API來調(diào)用內(nèi)部的大模型70vLLM參數(shù)說明

2-171參數(shù)名稱含義常見值/范圍注意事項(xiàng)--model指定模型的路徑或名稱模型文件路徑或預(yù)訓(xùn)練模型名稱確保路徑正確且模型文件完整--served-model-name指定服務(wù)中暴露的模型名稱自定義名稱用于客戶端請(qǐng)求時(shí)指定模型--host服務(wù)綁定的主機(jī)地址或

表示監(jiān)聽所有網(wǎng)絡(luò)接口,僅監(jiān)聽本地接口--port服務(wù)監(jiān)聽的端口號(hào)1024-65535

之間的整數(shù)確保端口未被占用--tensor-parallel-size模型的張量并行大小正整數(shù)(通常為

GPU數(shù)量)用于分布式推理,需確保

GPU

資源充足--gpu-memory-utilizationGPU

內(nèi)存利用率。0

1

之間的小數(shù)(如

0.9

表示

90%)調(diào)整顯存占用比例以避免顯存不足錯(cuò)誤--dtype模型數(shù)據(jù)類型auto、half、float16、bfloat16、float32

等half

float16

可減少顯存占用,但可能影響精度--max-model-len模型支持的最大輸入長(zhǎng)度正整數(shù)(如

2048)根據(jù)模型能力和硬件資源調(diào)整--swap-space用于交換空間的顯存大?。▎挝唬篏B)正整數(shù)用于緩解顯存不足,但可能降低推理速度--cpu-offload-gbCPU

卸載的顯存大?。▎挝唬篏B)正整數(shù)將部分模型數(shù)據(jù)卸載到

CPU

內(nèi)存,需確保CPU

內(nèi)存充足vLLM參數(shù)說明

2-272參數(shù)名稱含義常見值/范圍注意事項(xiàng)--max-num-batched-tokens每批次最大

token

數(shù)量正整數(shù)調(diào)整以優(yōu)化推理速度和資源利用率--max-num-seqs每批次最大序列數(shù)量正整數(shù)調(diào)整以優(yōu)化推理速度和資源利用率--quantization模型量化方法None、fp8、bfloat16、gptq

等量化可減少顯存占用,但可能影響精度--tokenizer指定分詞器分詞器路徑或名稱確保與模型兼容--tokenizer-mode分詞器模式auto、slow、mistral、custom

等根據(jù)需求選擇分詞器模式--load-format模型加載格式auto、pt、safetensors、gguf

等根據(jù)模型文件格式選擇加載方式--revision模型版本版本號(hào)或

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論