版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
人工智能大語言模型應(yīng)用教程模塊12大語言模型量化應(yīng)用學(xué)習(xí)
目標(biāo)
了解大語言模型量化的概念;
理解掌握llama.cpp量化方法;
了解大語言模型的GGUF格式;
會安裝部署大語言模型量化應(yīng)用環(huán)境;
能夠運用llama.cpp解決方案,將大模型進行格式轉(zhuǎn)換和量化,并在CPU環(huán)境下運行;
能夠使用React.js開發(fā)Chat客戶端連接量化模型進行推理;
培養(yǎng)團隊協(xié)作精神,在實踐中互相幫助,共同解決問題;
培養(yǎng)創(chuàng)新思維和實踐能力,能夠分析解決問題。12.2大語言模型量化應(yīng)用設(shè)計目標(biāo)開發(fā)環(huán)境原理學(xué)習(xí)實驗步驟12.312.412.112.1設(shè)計目標(biāo)提供在筆記本電腦等低算力條件下進行大語言模型部署的方法,在Windows操作系統(tǒng)上,使用llama.cpp量化方法,部署Qwen-1.8B量化模型,提供OpenAI兼容接口,并采用React.js開發(fā)Chat應(yīng)用,實現(xiàn)AI問答系統(tǒng),形成一套完整的低算力條件下大語言模型應(yīng)用。設(shè)計目標(biāo)12.2開發(fā)環(huán)境開發(fā)環(huán)境硬件:筆記本電腦或PC機,4核CPU、8G以上內(nèi)存,無需GPU,Windows10以上64位操作系統(tǒng)軟件:Python、大規(guī)模音頻語言模型Qwen-1.8B、Node.js(V18.0以上)12.3原理學(xué)習(xí)原理學(xué)習(xí)1.編譯llama.cppllama.cpp采用C/C++實現(xiàn),為了保證在各種操作系統(tǒng)下的兼容性,使用llama.cpp前需要對源碼進行編譯,生成main.exe、server.exe、quantize.exe等工具,為了簡化編譯過程,避免下載VisualStudio等重量級工具,本章采用了W64devkit開發(fā)包編譯llama.cpp,W64devkit是一個可移植的WindowsC和C++開發(fā)包,用于在x64Windows上編譯C和C++應(yīng)用程序。2.模型GGUF格式轉(zhuǎn)換使用convert-hf-to-gguf.py腳本將safetensors格式的模型文件轉(zhuǎn)換成gguf格式。原理學(xué)習(xí)3.模型GGUF格式轉(zhuǎn)換GGML有不同的量化策略,如Integerquantization(4-bit,5-bit,8-bit)以及16-bitfloat,應(yīng)用不同的量化策略,產(chǎn)生的權(quán)重精度、模型文件大小、推理性能都有區(qū)別,在/ggerganov/llama.cpp#quantization列出了常用策略的效果,在本章中,我們采用了q5_k_m策略。量化過程由llama.cpp的quantize命令完成。原理學(xué)習(xí)4.裝載量化模型經(jīng)量化過和模型由llama.cpp的main命令裝載運行,
main工具實現(xiàn)更快、更低的內(nèi)存推理,并針對桌面CPU進行了優(yōu)化,可用于使用quantize量化后的ggml模型執(zhí)行各種推理任務(wù),包括根據(jù)用戶提供的提示生成文本以及Chat交互,可以根據(jù)機器的CPU、內(nèi)存以及推理速度需求指定輸入的上下文長度和生成文本時要預(yù)測的Token最大數(shù)量。5.推理采用api_like_OAI.py腳本將server提供的服務(wù)轉(zhuǎn)化成OpenAI兼容接口,并使用React.js開發(fā)一個Web客戶端進行推理測試。12.4實驗步驟服務(wù)端安裝1.語音模型運行環(huán)境安裝編譯llama.cpp。準(zhǔn)備服務(wù)端文件。安裝Python虛擬運行環(huán)境。下載模型。量化模型。測試量化模型。運行服務(wù)。應(yīng)用開發(fā)使用React.js開發(fā)一個簡單的Chat應(yīng)用,類似于一個聊天軟件,用戶輸入問題,大模型給出回答。React.js是一個Javascript框架,在前端開發(fā)中應(yīng)用很廣,語法也相對簡單。React.js是一個前端框架,開發(fā)調(diào)試在Node.js環(huán)境下進行,Node.js將Javascript這種前端語言應(yīng)用于中臺或后臺的開發(fā)用到npm命令將Node.js充當(dāng)調(diào)試環(huán)境下WEB服務(wù)器。Node.js從/下載安裝,在命令行運行node-v測試是否安裝成功。1.Node.js安裝安裝部署2.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)三年級(森林資源保護與管理)森林防火階段測試題及答案
- 2025年本科旅游管理(旅游企業(yè)管理)試題及答案
- 2025年中職寵物養(yǎng)護與馴導(dǎo)(寵物訓(xùn)練技巧)試題及答案
- 2026年銑工工程師(銑工標(biāo)準(zhǔn))專項測試題及答案
- 2025年大學(xué)護理(消毒滅菌護理進階)試題及答案
- 2026年橋梁工程師(橋梁設(shè)計)考題及答案
- 2025年中職體育運營與管理(運營管理)試題及答案
- 2025年中職(寵物養(yǎng)護與經(jīng)營)寵物護理技能測試題及答案
- 2025年高職機場運行(機場管理)技能測試題
- 2025年中職心理學(xué)(心理健康教育)試題及答案
- 橈骨骨折骨折護理查房講課件
- 人字梯使用管理制度
- 2025-2030年中國動脈瘤栓塞和栓塞裝置行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 《商品攝影》課件 第2章 布景、布光與構(gòu)圖
- 哈三中2025年高三第三次模擬考試歷史試卷(含答案)
- 第章直升機液壓系統(tǒng)南通航運課件
- ELK培訓(xùn)課件教學(xué)課件
- 物業(yè)服務(wù)-公司物業(yè)服務(wù)方案及費用測算
- 2025年天津濱海新區(qū)建設(shè)投資集團招聘筆試參考題庫含答案解析
- 本科課件-組織行為學(xué)第二版
- TSG 51-2023 起重機械安全技術(shù)規(guī)程 含2024年第1號修改單
評論
0/150
提交評論