DeepSeek賦能數(shù)據(jù)分析_第1頁
DeepSeek賦能數(shù)據(jù)分析_第2頁
DeepSeek賦能數(shù)據(jù)分析_第3頁
DeepSeek賦能數(shù)據(jù)分析_第4頁
DeepSeek賦能數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DeepSeek賦能數(shù)據(jù)分析武艷軍日期:2025年3月20日

目錄STNEMOC2DeepSeek本地部署3使用DeepSeek+提示詞

進(jìn)行數(shù)據(jù)處理使用DeepSeek+Excel

進(jìn)行數(shù)據(jù)處理1DeepSeek大模型初步4DeepSeek大模型初步01大語言模型(Large

Language

Mode

,

LLM),也稱預(yù)訓(xùn)練模型(Pre-Trained

Model,

PTM),是一種人工智能模型,旨在理解和生成人類語言。它們?cè)诖罅康奈谋緮?shù)據(jù)上進(jìn)行訓(xùn)練,擁有幾十億的參數(shù),可執(zhí)行廣泛的任務(wù),包括文本總結(jié)、翻譯、情感分析大語言模型LLM引發(fā)AI新熱潮等等。生成模型推理模型智能體?

OpenAI

GPT4o?

DeepSeek

R1?

自動(dòng)駕駛機(jī)器人?

DeepSeek

V3?

OpenAIo1(當(dāng)前L3)?

BERT?

OpenAIo3-mini?具身智能機(jī)器人?Gemini?

Gemini2.0?

Manus?Qwen2.5?

Grok3?

Kimi

1.5?

MetaGPTChatbot?

自然語言對(duì)話Reasoner?

基本的推理和問題解決能力Agent?代表用戶執(zhí)行基本任務(wù),具備自主行動(dòng)能力Sam

Altman

:AGI發(fā)展的五個(gè)階段當(dāng)前處于推理者階段,正在向智能體階段發(fā)展DeepSeek

R1推理模型開辟了中國(guó)低成本開源路徑,

引爆市場(chǎng)通用人工智能AGI技術(shù)發(fā)展趨勢(shì)Innovator?參與發(fā)明和創(chuàng)造,

增強(qiáng)人類的創(chuàng)造力和創(chuàng)新能力功能,獨(dú)立管理

并執(zhí)行復(fù)雜的操作Organization?承擔(dān)整個(gè)組織的DeepSeek

,全稱杭州深度求索人工某著名企業(yè)。

DeepSeek是一家

創(chuàng)新型科技公司,成立于2023年7月17日,

使用數(shù)據(jù)蒸餾技術(shù),得到更為精煉、有用

的數(shù)據(jù)。由知名私募巨頭幻方量化孕育而生,

專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù)。DeepSeek公司

?,男,

1985年出生,

廣東省湛江市覃巴鎮(zhèn)米歷

嶺村人,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系學(xué)士和碩

士學(xué)位某著名企業(yè)、

DeepSeek創(chuàng)始人。?

2008年起,

開始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全

自動(dòng)量化交易,

在七年當(dāng)中資金規(guī)模從8萬元增長(zhǎng)到5億元。?2015年,

幻方量化正式成立。2016年,

幻方量化推出第一個(gè)AI模型,實(shí)現(xiàn)了所有量化策略的AI化轉(zhuǎn)型。2019年,其資金管理規(guī)模突破百億元。2020年開始,幻方的AI超級(jí)計(jì)算機(jī)“螢火一號(hào)”正式投入運(yùn)作。2021年,

幻方投入十億建設(shè)“螢火二號(hào)”,

搭載了一萬達(dá)A100顯卡,

資產(chǎn)管理規(guī)模突破1000億元。?2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式進(jìn)軍通用人工智能領(lǐng)域。2024年5月,DeepSeek發(fā)布了DeepSeek-V2;

同年12月27日,

DeepSeek-V3面世。

這款性能優(yōu)越且性價(jià)比極高的大語

言模型,被硅谷同行譽(yù)為“來自東方的神秘力量”。?2025年1月20日,

DeepSeek正式發(fā)布DeepSeek-R1模型;

同日,參加了總理座談會(huì)。2月17日,參加了總書記主持的民營(yíng)企業(yè)家座談會(huì)。憑借約1260億美元(約合人民幣9000億元)

的個(gè)人

財(cái)富估值問鼎中國(guó)首富。DeepSeek:來自東方的神秘力量正式發(fā)布DeepSeek

R1模型,在大模型排名Arena中列第三名DeepSeek大模型發(fā)展歷程宣布開源第二代

MOE大模型DeepSeekV2推理模型DeepSeek

R1-

Lite預(yù)覽版上線發(fā)布首個(gè)大模型DeepSeek

LLMDeepSeekV3發(fā)布,并同步

開源模型權(quán)重DeepSeek開

源GEMM等核

心代碼推出DeepSeek

V2.5DeepSeek成

立2024年11月2024年12月2024年5月2023年7月2025年1月2024年9月2024年1月2025年2月DeepSeek7天實(shí)現(xiàn)1億用戶,成為增長(zhǎng)最快的超級(jí)產(chǎn)品

DeepSeek通過核心能力突破+開源、低成本、國(guó)產(chǎn)化三大優(yōu)勢(shì),

推動(dòng)AI技術(shù)平權(quán)和國(guó)產(chǎn)AI生態(tài)繁榮,成功

進(jìn)入全球大模型第一梯隊(duì),

促使行業(yè)從唯規(guī)模論向性價(jià)比、高效能、工程化方向轉(zhuǎn)變。核心能力突破DeepSeek大模型核心技術(shù)突破,實(shí)現(xiàn)復(fù)雜推理任務(wù)的精準(zhǔn)處理與高效執(zhí)行,覆蓋多模態(tài)場(chǎng)景應(yīng)用。模型綜合性能躍居世界第一梯隊(duì),技術(shù)指標(biāo)與頂尖大模型相比不相上下。?DeepSeekV3可以對(duì)標(biāo)GPT-4o,但訓(xùn)練成本只有558萬美元,不到后者的二十分之一。?DeepSeek

R1在數(shù)據(jù)、代碼和推理任務(wù)上課對(duì)標(biāo)

OpenAIo1。將國(guó)產(chǎn)模型與美國(guó)的代際差距從3-5年縮短至3-5個(gè)月,突破卡脖子技術(shù)瓶頸,

全面支持國(guó)內(nèi)產(chǎn)業(yè)智能化升級(jí)。相比于OpenAI的閉源策略,DeepSeek全量開源訓(xùn)練代碼、數(shù)據(jù)清洗工具及微調(diào)框架,開發(fā)者可以快速構(gòu)建教育、金融、醫(yī)療等垂直領(lǐng)域應(yīng)用,推動(dòng)協(xié)同創(chuàng)新。開展大量模型架構(gòu)優(yōu)化和系統(tǒng)工程優(yōu)化,訓(xùn)練成本顯著低于行業(yè)同類模型,打破高價(jià)壁壘;推理成本降低83%,API定價(jià)為行業(yè)平均價(jià)格的1/10,千億參數(shù)模型適配中小企業(yè)需求,加速商業(yè)化落地。DeepSeek大火的原因:核心能力突破、開源、超低成本、國(guó)產(chǎn)化

開源超低成本國(guó)產(chǎn)化DeepSeek使用方式02直接使用?

電腦端訪問官網(wǎng)(

ek)或第三方百度搜索、騰訊元寶等?

手機(jī)端下載DeepSeek

AppAPI調(diào)用API調(diào)用:

DeepSeek、硅基流動(dòng)、阿里百煉、火山引擎等。獲取API秘鑰調(diào)用,適合開發(fā)者集成。本地部署個(gè)人部署:個(gè)人在本地設(shè)備運(yùn)行應(yīng)用,依賴自身資源。企業(yè)部署:企業(yè)內(nèi)網(wǎng)搭建私有化系統(tǒng),支持多用戶協(xié)作,

數(shù)據(jù)更加安全。一體機(jī):直接購(gòu)買部署了DeepSeek模型的具備一定算力的一體機(jī)。推理模型基座模型特點(diǎn)DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B蒸餾模型,能力稍弱實(shí)際上是增加了推理能力的Qwen模型和

Llama模型DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BDeepSeek-R1-Distill-Llama-8BLlama-3.1-8BDeepSeek-R1-Distill-Qwen-14BQwen2.5-14BDeepSeek-R1-Distill-Qwen-32BQwen2.5-32BDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-IntructDeepSeek-R1-671BDeepSeek-V3-Base滿血版,能力最強(qiáng)大模型私有化部署方式:?Ollama部署:個(gè)人本地部署,方便快速,適用于蒸餾模型?vLLM部署:生產(chǎn)、開發(fā)、垂直領(lǐng)域私有化部署,精度可控,

更專業(yè)

?

其他模型簡(jiǎn)稱CPU要求內(nèi)存要求GPU要求硬盤空間適用場(chǎng)景1.5B4核(Intel/AMD)8GB無(純CPU)或

2GB(GPU加速)3GB+舊筆記本電腦,簡(jiǎn)單文本生成7B4核(多線程支持)16GB4GB8GB+本地開發(fā)測(cè)試,輕量級(jí)NLP任務(wù)8B6核16GB6GB8GB+代碼生成,邏輯推理14B8核32GB8GB15GB+企業(yè)級(jí)文本分析,長(zhǎng)文本生成32B12核48GB16GB19GB+復(fù)雜場(chǎng)景對(duì)話,深度思考任務(wù)70B16核(服務(wù)器級(jí))64GB24GB(多卡)70GB+創(chuàng)意寫作、算法設(shè)計(jì)671B32核(服務(wù)器集群)128GB80GB(4張A100)300GB+科研級(jí)任務(wù),AGI探索最低配置指模型可以運(yùn)行,但流暢度稍差。模型簡(jiǎn)稱CPU要求內(nèi)存要求GPU要求硬盤空間適用場(chǎng)景1.5B6核(現(xiàn)代多核)16GB4GB(如GTX1650)5GB+實(shí)時(shí)聊天機(jī)器人、物聯(lián)網(wǎng)設(shè)備7B8核(現(xiàn)代多核)32GB8GB(如RTX3070)10GB+文本摘要、多輪對(duì)話系統(tǒng)8B10核(多線程)32GB10GB12GB+高精度輕量級(jí)任務(wù)14B12核64GB16GB(如RTX4090)20GB+合同分析、論文輔助寫作32B16核(如i9/Ryzen

9)128GB24GB(如RTX4090)30GB+法律/醫(yī)療咨詢、多模態(tài)預(yù)處理70B32核(服務(wù)器級(jí))256GB40GB(如2張A100)100GB+金融預(yù)測(cè)、大規(guī)模數(shù)據(jù)分析671B64核(服務(wù)器集群)512GB160GB(8張A100)500GB+國(guó)家級(jí)AI研究、氣候建模推薦配置指模型可以流暢運(yùn)行。1.入門級(jí):直接使用方式對(duì)于個(gè)人來說最為方便,需要聯(lián)網(wǎng)。2.進(jìn)階級(jí):個(gè)人可以在本地部署小規(guī)模蒸餾模型,比如1.5B、

7B,建議使用Ollama來部署。3.進(jìn)階級(jí):個(gè)人可以在部分工具(比如Excel)中調(diào)用API。使用DeepSeek+提示詞進(jìn)行數(shù)據(jù)處理03任務(wù)目標(biāo)背景M2M3負(fù)面限定給誰用擔(dān)心的問題做什么期望效果DeepSeek提示詞技巧:通用公式內(nèi)心戲很多M1M4我要做XXX,要給XXX用,希望達(dá)到XXX效果,但擔(dān)心XXX問題例如:我要做一個(gè)山東三日游攻略,

給大學(xué)生用,

希望行程充實(shí)有趣,但擔(dān)心預(yù)算不夠影響體驗(yàn)。DeepSeek提示詞技巧:通用公式深度思考正式

答?

DeepSeek提供強(qiáng)大的

數(shù)據(jù)診斷功能,幫助用

戶識(shí)別缺失值、異常值

和重復(fù)數(shù)據(jù)等問題,提

供數(shù)據(jù)質(zhì)量報(bào)告。?

DeepSeek可以開展標(biāo)

準(zhǔn)化、歸一化處理,

動(dòng)填充缺失值和標(biāo)注關(guān)

鍵變量影響因子。?

DeepSeek提供了豐富的統(tǒng)計(jì)分析功能,包括描述性統(tǒng)計(jì)、回歸分析、聚類分析等。用戶只需輸入相關(guān)數(shù)據(jù),DeepSeek即可自動(dòng)進(jìn)行分析,并生成詳細(xì)的統(tǒng)計(jì)報(bào)告?

DeepSeek可以幫助用

戶快速收集和處理大量

數(shù)據(jù),生成數(shù)據(jù)提取腳

本,支持從各種來源導(dǎo)

入數(shù)據(jù),包括Excel文件等?用戶可以將DeepSeek的分析結(jié)果與PowerBI等工具結(jié)合,進(jìn)行數(shù)

據(jù)可視化,從而更直觀

地展示分析結(jié)果?

自動(dòng)生成專業(yè)的分析報(bào)

告。報(bào)告中包含數(shù)據(jù)概

覽、分析結(jié)果、可視化

圖表等05數(shù)據(jù)

可視化03數(shù)據(jù)

預(yù)處理DeepSeek賦能數(shù)據(jù)分析過程數(shù)據(jù)

分析數(shù)據(jù)

收集報(bào)告

撰寫問題定義02040106嵌入DS模型提示詞工程DataAgentChatBIDeepSeek賦能數(shù)據(jù)分析的四種方式Excel、PowerBI核心痛點(diǎn):用戶行為日志中30%字段缺失,且存在異常值,例如:異常時(shí)間戳(如:2999-01-01)。傳統(tǒng)方式:手動(dòng)寫Python逐行排查,耗時(shí)。DeepSeek操作步驟一:輸入提示詞。#

DeepSeek生成代碼df['user_id'].fillna(method='ffill',

inplace=True)df['device_type'].fillna('未知',

inplace=True)df

=df[df['timestamp']

<=

pd.Timestamp.now()]df['price']

=df['price'].str.replace('$',

'').astype(float)請(qǐng)修復(fù)以下數(shù)據(jù)的質(zhì)量問題:1.缺失值:用前向填充補(bǔ)全user_id,device_type用“未知”填充2.異常值:刪除timestamp超過當(dāng)前時(shí)間的數(shù)據(jù)行3.格式統(tǒng)一:將price從字符串“$12.5”轉(zhuǎn)為數(shù)值“12.5”場(chǎng)景1:數(shù)據(jù)清洗

核心價(jià)值:清洗耗時(shí)從3小時(shí)→

1分鐘,準(zhǔn)確率100%。步驟二:生成代碼。案例說明:某電商Q2銷售額環(huán)比下降15%,業(yè)務(wù)方歸咎「流量不足」。DeepSeek操作步驟一:上傳數(shù)據(jù)集。包含流量、轉(zhuǎn)化率、客單價(jià)等指標(biāo)。步驟二:提出問題。“請(qǐng)分析GMV下降的核心因素,并量化貢獻(xiàn)度”。步驟三:輸出結(jié)果。根本原因:轉(zhuǎn)化率從2.8%下降到1.9%(貢獻(xiàn)下降70%)細(xì)分洞察:-

搜索頁->詳情頁流失率上升25%(頁面加載時(shí)長(zhǎng)增加3秒)-

加購(gòu)->支付失敗率上升18%(因優(yōu)惠券校驗(yàn)接口超時(shí))核心價(jià)值:避免被錯(cuò)誤歸因,節(jié)省1-2天手動(dòng)拆解時(shí)間。DeepSeek提問錯(cuò)誤示范:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論