DeepSeek賦能數(shù)據(jù)分析

上傳人：職*** IP屬地：廣東上傳時(shí)間：2025-05-29 格式：PPTX 頁數(shù)：28 大?。?10.96KB 積分：14.9 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DeepSeek賦能數(shù)據(jù)分析武艷軍日期：2025年3月20日

目錄STNEMOC2DeepSeek本地部署3使用DeepSeek+提示詞

進(jìn)行數(shù)據(jù)處理使用DeepSeek+Excel

進(jìn)行數(shù)據(jù)處理1DeepSeek大模型初步4DeepSeek大模型初步01大語言模型（Large

Language

Mode

，

LLM），也稱預(yù)訓(xùn)練模型（Pre-Trained

Model，

PTM），是一種人工智能模型，旨在理解和生成人類語言。它們?cè)诖罅康奈谋緮?shù)據(jù)上進(jìn)行訓(xùn)練，擁有幾十億的參數(shù)，可執(zhí)行廣泛的任務(wù)，包括文本總結(jié)、翻譯、情感分析大語言模型LLM引發(fā)AI新熱潮等等。生成模型推理模型智能體?

OpenAI

GPT4o?

DeepSeek

R1?

自動(dòng)駕駛機(jī)器人?

DeepSeek

V3?

OpenAIo1（當(dāng)前L3）?

BERT?

OpenAIo3-mini?具身智能機(jī)器人?Gemini?

Gemini2.0?

Manus?Qwen2.5?

Grok3?

Kimi

1.5?

MetaGPTChatbot?

自然語言對(duì)話Reasoner?

基本的推理和問題解決能力Agent?代表用戶執(zhí)行基本任務(wù)，具備自主行動(dòng)能力Sam

Altman

：AGI發(fā)展的五個(gè)階段當(dāng)前處于推理者階段，正在向智能體階段發(fā)展DeepSeek

R1推理模型開辟了中國(guó)低成本開源路徑，

引爆市場(chǎng)通用人工智能AGI技術(shù)發(fā)展趨勢(shì)Innovator?參與發(fā)明和創(chuàng)造，

增強(qiáng)人類的創(chuàng)造力和創(chuàng)新能力功能，獨(dú)立管理

并執(zhí)行復(fù)雜的操作Organization?承擔(dān)整個(gè)組織的DeepSeek

，全稱杭州深度求索人工某著名企業(yè)。

DeepSeek是一家

創(chuàng)新型科技公司，成立于2023年7月17日，

使用數(shù)據(jù)蒸餾技術(shù)，得到更為精煉、有用

的數(shù)據(jù)。由知名私募巨頭幻方量化孕育而生，

專注于開發(fā)先進(jìn)的大語言模型（LLM）和相關(guān)技術(shù)。DeepSeek公司

?，男，

1985年出生，

廣東省湛江市覃巴鎮(zhèn)米歷

嶺村人，浙江大學(xué)畢業(yè)，擁有信息與電子工程學(xué)系學(xué)士和碩

士學(xué)位某著名企業(yè)、

DeepSeek創(chuàng)始人。?

2008年起，

開始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全

自動(dòng)量化交易，

在七年當(dāng)中資金規(guī)模從8萬元增長(zhǎng)到5億元。?2015年，

幻方量化正式成立。2016年，

幻方量化推出第一個(gè)AI模型，實(shí)現(xiàn)了所有量化策略的AI化轉(zhuǎn)型。2019年，其資金管理規(guī)模突破百億元。2020年開始，幻方的AI超級(jí)計(jì)算機(jī)“螢火一號(hào)”正式投入運(yùn)作。2021年，

幻方投入十億建設(shè)“螢火二號(hào)”，

搭載了一萬達(dá)A100顯卡，

資產(chǎn)管理規(guī)模突破1000億元。?2023年7月，幻方量化宣布成立大模型公司DeepSeek，正式進(jìn)軍通用人工智能領(lǐng)域。2024年5月，DeepSeek發(fā)布了DeepSeek-V2；

同年12月27日，

DeepSeek-V3面世。

這款性能優(yōu)越且性價(jià)比極高的大語

言模型，被硅谷同行譽(yù)為“來自東方的神秘力量”。?2025年1月20日，

DeepSeek正式發(fā)布DeepSeek-R1模型；

同日，參加了總理座談會(huì)。2月17日，參加了總書記主持的民營(yíng)企業(yè)家座談會(huì)。憑借約1260億美元（約合人民幣9000億元）

的個(gè)人

財(cái)富估值問鼎中國(guó)首富。DeepSeek：來自東方的神秘力量正式發(fā)布DeepSeek

R1模型，在大模型排名Arena中列第三名DeepSeek大模型發(fā)展歷程宣布開源第二代

MOE大模型DeepSeekV2推理模型DeepSeek

R1-

Lite預(yù)覽版上線發(fā)布首個(gè)大模型DeepSeek

LLMDeepSeekV3發(fā)布，并同步

開源模型權(quán)重DeepSeek開

源GEMM等核

心代碼推出DeepSeek

V2.5DeepSeek成

立2024年11月2024年12月2024年5月2023年7月2025年1月2024年9月2024年1月2025年2月DeepSeek7天實(shí)現(xiàn)1億用戶，成為增長(zhǎng)最快的超級(jí)產(chǎn)品

DeepSeek通過核心能力突破+開源、低成本、國(guó)產(chǎn)化三大優(yōu)勢(shì)，

推動(dòng)AI技術(shù)平權(quán)和國(guó)產(chǎn)AI生態(tài)繁榮，成功

進(jìn)入全球大模型第一梯隊(duì)，

促使行業(yè)從唯規(guī)模論向性價(jià)比、高效能、工程化方向轉(zhuǎn)變。核心能力突破DeepSeek大模型核心技術(shù)突破，實(shí)現(xiàn)復(fù)雜推理任務(wù)的精準(zhǔn)處理與高效執(zhí)行，覆蓋多模態(tài)場(chǎng)景應(yīng)用。模型綜合性能躍居世界第一梯隊(duì)，技術(shù)指標(biāo)與頂尖大模型相比不相上下。?DeepSeekV3可以對(duì)標(biāo)GPT-4o，但訓(xùn)練成本只有558萬美元，不到后者的二十分之一。?DeepSeek

R1在數(shù)據(jù)、代碼和推理任務(wù)上課對(duì)標(biāo)

OpenAIo1。將國(guó)產(chǎn)模型與美國(guó)的代際差距從3-5年縮短至3-5個(gè)月，突破卡脖子技術(shù)瓶頸，

全面支持國(guó)內(nèi)產(chǎn)業(yè)智能化升級(jí)。相比于OpenAI的閉源策略，DeepSeek全量開源訓(xùn)練代碼、數(shù)據(jù)清洗工具及微調(diào)框架，開發(fā)者可以快速構(gòu)建教育、金融、醫(yī)療等垂直領(lǐng)域應(yīng)用，推動(dòng)協(xié)同創(chuàng)新。開展大量模型架構(gòu)優(yōu)化和系統(tǒng)工程優(yōu)化，訓(xùn)練成本顯著低于行業(yè)同類模型，打破高價(jià)壁壘；推理成本降低83%，API定價(jià)為行業(yè)平均價(jià)格的1/10，千億參數(shù)模型適配中小企業(yè)需求，加速商業(yè)化落地。DeepSeek大火的原因：核心能力突破、開源、超低成本、國(guó)產(chǎn)化

開源超低成本國(guó)產(chǎn)化DeepSeek使用方式02直接使用?

電腦端訪問官網(wǎng)（

ek）或第三方百度搜索、騰訊元寶等?

手機(jī)端下載DeepSeek

AppAPI調(diào)用API調(diào)用：

DeepSeek、硅基流動(dòng)、阿里百煉、火山引擎等。獲取API秘鑰調(diào)用，適合開發(fā)者集成。本地部署個(gè)人部署：個(gè)人在本地設(shè)備運(yùn)行應(yīng)用，依賴自身資源。企業(yè)部署：企業(yè)內(nèi)網(wǎng)搭建私有化系統(tǒng)，支持多用戶協(xié)作，

數(shù)據(jù)更加安全。一體機(jī)：直接購(gòu)買部署了DeepSeek模型的具備一定算力的一體機(jī)。推理模型基座模型特點(diǎn)DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B蒸餾模型，能力稍弱實(shí)際上是增加了推理能力的Qwen模型和

Llama模型DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BDeepSeek-R1-Distill-Llama-8BLlama-3.1-8BDeepSeek-R1-Distill-Qwen-14BQwen2.5-14BDeepSeek-R1-Distill-Qwen-32BQwen2.5-32BDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-IntructDeepSeek-R1-671BDeepSeek-V3-Base滿血版，能力最強(qiáng)大模型私有化部署方式：?Ollama部署：個(gè)人本地部署，方便快速，適用于蒸餾模型?vLLM部署：生產(chǎn)、開發(fā)、垂直領(lǐng)域私有化部署，精度可控，

更專業(yè)

其他模型簡(jiǎn)稱CPU要求內(nèi)存要求GPU要求硬盤空間適用場(chǎng)景1.5B4核（Intel/AMD）8GB無（純CPU）或

2GB（GPU加速）3GB+舊筆記本電腦，簡(jiǎn)單文本生成7B4核（多線程支持）16GB4GB8GB+本地開發(fā)測(cè)試，輕量級(jí)NLP任務(wù)8B6核16GB6GB8GB+代碼生成，邏輯推理14B8核32GB8GB15GB+企業(yè)級(jí)文本分析，長(zhǎng)文本生成32B12核48GB16GB19GB+復(fù)雜場(chǎng)景對(duì)話，深度思考任務(wù)70B16核（服務(wù)器級(jí)）64GB24GB（多卡）70GB+創(chuàng)意寫作、算法設(shè)計(jì)671B32核（服務(wù)器集群）128GB80GB（4張A100）300GB+科研級(jí)任務(wù)，AGI探索最低配置指模型可以運(yùn)行，但流暢度稍差。模型簡(jiǎn)稱CPU要求內(nèi)存要求GPU要求硬盤空間適用場(chǎng)景1.5B6核（現(xiàn)代多核）16GB4GB（如GTX1650）5GB+實(shí)時(shí)聊天機(jī)器人、物聯(lián)網(wǎng)設(shè)備7B8核（現(xiàn)代多核）32GB8GB（如RTX3070）10GB+文本摘要、多輪對(duì)話系統(tǒng)8B10核（多線程）32GB10GB12GB+高精度輕量級(jí)任務(wù)14B12核64GB16GB（如RTX4090）20GB+合同分析、論文輔助寫作32B16核（如i9/Ryzen

9）128GB24GB（如RTX4090）30GB+法律/醫(yī)療咨詢、多模態(tài)預(yù)處理70B32核（服務(wù)器級(jí)）256GB40GB（如2張A100）100GB+金融預(yù)測(cè)、大規(guī)模數(shù)據(jù)分析671B64核（服務(wù)器集群）512GB160GB（8張A100）500GB+國(guó)家級(jí)AI研究、氣候建模推薦配置指模型可以流暢運(yùn)行。1.入門級(jí)：直接使用方式對(duì)于個(gè)人來說最為方便，需要聯(lián)網(wǎng)。2.進(jìn)階級(jí)：個(gè)人可以在本地部署小規(guī)模蒸餾模型，比如1.5B、

7B，建議使用Ollama來部署。3.進(jìn)階級(jí)：個(gè)人可以在部分工具（比如Excel）中調(diào)用API。使用DeepSeek+提示詞進(jìn)行數(shù)據(jù)處理03任務(wù)目標(biāo)背景M2M3負(fù)面限定給誰用擔(dān)心的問題做什么期望效果DeepSeek提示詞技巧：通用公式內(nèi)心戲很多M1M4我要做XXX，要給XXX用，希望達(dá)到XXX效果，但擔(dān)心XXX問題例如：我要做一個(gè)山東三日游攻略，

給大學(xué)生用，

希望行程充實(shí)有趣，但擔(dān)心預(yù)算不夠影響體驗(yàn)。DeepSeek提示詞技巧：通用公式深度思考正式

回

答?

DeepSeek提供強(qiáng)大的

數(shù)據(jù)診斷功能，幫助用

戶識(shí)別缺失值、異常值

和重復(fù)數(shù)據(jù)等問題，提

供數(shù)據(jù)質(zhì)量報(bào)告。?

DeepSeek可以開展標(biāo)

準(zhǔn)化、歸一化處理，

自

動(dòng)填充缺失值和標(biāo)注關(guān)

鍵變量影響因子。?

DeepSeek提供了豐富的統(tǒng)計(jì)分析功能，包括描述性統(tǒng)計(jì)、回歸分析、聚類分析等。用戶只需輸入相關(guān)數(shù)據(jù)，DeepSeek即可自動(dòng)進(jìn)行分析，并生成詳細(xì)的統(tǒng)計(jì)報(bào)告?

DeepSeek可以幫助用

戶快速收集和處理大量

數(shù)據(jù)，生成數(shù)據(jù)提取腳

本，支持從各種來源導(dǎo)

入數(shù)據(jù)，包括Excel文件等?用戶可以將DeepSeek的分析結(jié)果與PowerBI等工具結(jié)合，進(jìn)行數(shù)

據(jù)可視化，從而更直觀

地展示分析結(jié)果?

自動(dòng)生成專業(yè)的分析報(bào)

告。報(bào)告中包含數(shù)據(jù)概

覽、分析結(jié)果、可視化

圖表等05數(shù)據(jù)

可視化03數(shù)據(jù)

預(yù)處理DeepSeek賦能數(shù)據(jù)分析過程數(shù)據(jù)

分析數(shù)據(jù)

收集報(bào)告

撰寫問題定義02040106嵌入DS模型提示詞工程DataAgentChatBIDeepSeek賦能數(shù)據(jù)分析的四種方式Excel、PowerBI核心痛點(diǎn)：用戶行為日志中30%字段缺失，且存在異常值，例如：異常時(shí)間戳（如：2999-01-01）。傳統(tǒng)方式：手動(dòng)寫Python逐行排查，耗時(shí)。DeepSeek操作步驟一：輸入提示詞。#

DeepSeek生成代碼df['user_id'].fillna(method='ffill',

inplace=True)df['device_type'].fillna('未知',

inplace=True)df

=df[df['timestamp']

pd.Timestamp.now()]df['price']

=df['price'].str.replace('$',

'').astype(float)請(qǐng)修復(fù)以下數(shù)據(jù)的質(zhì)量問題：1.缺失值：用前向填充補(bǔ)全user_id,device_type用“未知”填充2.異常值：刪除timestamp超過當(dāng)前時(shí)間的數(shù)據(jù)行3.格式統(tǒng)一：將price從字符串“$12.5”轉(zhuǎn)為數(shù)值“12.5”場(chǎng)景1：數(shù)據(jù)清洗

核心價(jià)值：清洗耗時(shí)從3小時(shí)→

1分鐘，準(zhǔn)確率100%。步驟二：生成代碼。案例說明：某電商Q2銷售額環(huán)比下降15%，業(yè)務(wù)方歸咎「流量不足」。DeepSeek操作步驟一：上傳數(shù)據(jù)集。包含流量、轉(zhuǎn)化率、客單價(jià)等指標(biāo)。步驟二：提出問題。“請(qǐng)分析GMV下降的核心因素，并量化貢獻(xiàn)度”。步驟三：輸出結(jié)果。根本原因：轉(zhuǎn)化率從2.8%下降到1.9%（貢獻(xiàn)下降70%）細(xì)分洞察：-

搜索頁->詳情頁流失率上升25%（頁面加載時(shí)長(zhǎng)增加3秒）-

加購(gòu)->支付失敗率上升18%（因優(yōu)惠券校驗(yàn)接口超時(shí)）核心價(jià)值：避免被錯(cuò)誤歸因，節(jié)省1-2天手動(dòng)拆解時(shí)間。DeepSeek提問錯(cuò)誤示范：

人人文庫(kù)> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

DeepSeek賦能數(shù)據(jù)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

DeepSeek賦能數(shù)據(jù)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔