基于DeepSeek的數(shù)據(jù)治理_第1頁
基于DeepSeek的數(shù)據(jù)治理_第2頁
基于DeepSeek的數(shù)據(jù)治理_第3頁
基于DeepSeek的數(shù)據(jù)治理_第4頁
基于DeepSeek的數(shù)據(jù)治理_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于DeepSeek的數(shù)據(jù)治理數(shù)槳Al實(shí)驗(yàn)室2025年2月數(shù)槳Al

實(shí)驗(yàn)室PoweredbyDPaddle

Techaddle1.前言2.大模型技術(shù)基礎(chǔ)3.DeepSeek賦能數(shù)據(jù)治理技術(shù)4.基于DeepSeek

的智能體構(gòu)建目錄·

資產(chǎn)屬性(自用、他用)·

與數(shù)據(jù)的相關(guān)性4.數(shù)據(jù)資產(chǎn)會計(jì)計(jì)量·

會計(jì)政策·

成本項(xiàng)設(shè)計(jì)·

成本核算規(guī)則設(shè)計(jì)·

入表實(shí)施5.財報中的列示與披露·

編制財務(wù)報表·

列示數(shù)據(jù)資產(chǎn)各科目·

審計(jì)機(jī)構(gòu)等審核蓋章·

財務(wù)報告公布2.開展數(shù)據(jù)資產(chǎn)識別·

摸排調(diào)研場景、產(chǎn)品·

自用-數(shù)據(jù)場景·

他用-數(shù)據(jù)產(chǎn)品1.專班專項(xiàng)推進(jìn)·

成立專項(xiàng)工作組·總經(jīng)理、財務(wù)負(fù)責(zé)人、業(yè)務(wù)負(fù)責(zé)人….3.進(jìn)行數(shù)據(jù)資產(chǎn)確認(rèn)·

數(shù)據(jù)權(quán)屬數(shù)據(jù)資產(chǎn)入表流程圖像

文本代碼音頻鏡像數(shù)據(jù)治理工作面臨的挑戰(zhàn)數(shù)據(jù)的質(zhì)量與準(zhǔn)確性數(shù)據(jù)安全與隱私保護(hù)技術(shù)的整合與更新視頻圖紙AI,

即人工智能

(ArtificialIntelligence)

,是一種模擬人類的智能技術(shù),使機(jī)器能夠像人一樣學(xué)習(xí)、思考和

做出決策,從而能夠自主地執(zhí)行各種任務(wù)。Al是什么?人工智能監(jiān)督學(xué)習(xí)深度學(xué)習(xí)生成式AI大模型/小模型(從參數(shù)數(shù)量的維度判斷)大語言模型無監(jiān)督學(xué)習(xí)

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能技術(shù)全景圖顯式編程通過編寫明確的代碼來控制程序進(jìn)行識別。機(jī)器學(xué)習(xí)讓計(jì)算機(jī)通過大量數(shù)據(jù),自行識別模式總結(jié)規(guī)律。1+1=2通過明確的代碼來告訴計(jì)算機(jī)貓都有哪些方面的特點(diǎn),

如果沒有明確的指令告知,計(jì)算機(jī)將無法準(zhǔn)確識別。閱貓無數(shù)后,計(jì)算機(jī)自行總結(jié)出來了:原來,這樣式的東西,就是貓!機(jī)

學(xué)

習(xí)

(Machine

Learning)學(xué)習(xí)帶有標(biāo)簽的原始數(shù)據(jù),目標(biāo)是發(fā)現(xiàn)原始數(shù)據(jù)與標(biāo)簽之間的映射關(guān)系,從而預(yù)測新的數(shù)據(jù)。給機(jī)器的訓(xùn)練數(shù)據(jù)擁有標(biāo)記或答案!DogCatCat17機(jī)器學(xué)習(xí):

監(jiān)督學(xué)習(xí)

(SupervisedLearning)DogCat0.20.4機(jī)器學(xué)習(xí):

無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)自主發(fā)現(xiàn)數(shù)據(jù)中的模式或規(guī)律聚類降維異值檢測自編碼器

自監(jiān)督學(xué)習(xí)X聚

:DBSCAN(Density-Based

SpatialClustering

of

Applications

withNoise)降

:t-SNE(t-distributedStochasticNeighborEmbedding)Environment環(huán)境Reward獎勵Policy

策略AgentAlphaGo

下圍棋:

依據(jù)棋盤規(guī)則,不

斷的做出嘗試,在

多次試錯后,找到

獎勵辦法機(jī)器學(xué)習(xí):

強(qiáng)化學(xué)習(xí)(Reinforcement

Learning)讓模型尋找到能夠在環(huán)境中獲得最大的獎勵的手段訓(xùn)狗:當(dāng)狗叼住飛盤時,給予獎勵A(yù)ction動作State

狀態(tài)·

深度學(xué)習(xí)使用多層神經(jīng)網(wǎng)絡(luò)來模擬人腦處理信息的方式?!?/p>

神經(jīng)網(wǎng)絡(luò)由算和存儲單元(神經(jīng)元)組成,這些神經(jīng)元通過“連接”來處理數(shù)據(jù)?!?/p>

深度學(xué)習(xí)模型的“深度”指的是其層次化的結(jié)構(gòu),通過多層的提取和連接來表示數(shù)據(jù)的特征。神經(jīng)網(wǎng)絡(luò)基本單元感知機(jī)的設(shè)計(jì)方案,其處理信息的

方式與人腦中的單一神經(jīng)元有很強(qiáng)

的相似性。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似于人腦中多種基于大量神經(jīng)元

連接而形成的不同職能的器官。WightsConstantw%WeihtedSumw∑

outstepFunctionix)={tx+b>0,DendriteNode

ofRanvierSomaAxonSchwanncell

MyelinsheathNucleus機(jī)器學(xué)習(xí):

深度學(xué)習(xí)(Deep

learning)Convolutionalneural

networkMultilayer

perceptronDeepresidual

network感知器(Perceptron)生物神經(jīng)元TransformerAxonterminalWIw,可x

-xiinputs·

訓(xùn)練數(shù)據(jù)量巨大大語言模型首先需要通過大量文本進(jìn)行無監(jiān)督學(xué)習(xí)。以GPT4為例,它的訓(xùn)練數(shù)據(jù)來自廣泛的互

聯(lián)網(wǎng)文本語料,如電子書、新聞文章、博文、論

文、百科、社交媒體帖子等。這些文本數(shù)據(jù)沒有

人工標(biāo)簽,模型主要學(xué)習(xí)單詞與上下文之間的關(guān)系,以更好地理解文本并生成準(zhǔn)確預(yù)測。·

參數(shù)量巨大參數(shù)在模型中用于刻畫從龐大訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)到的規(guī)律,決定模型如何響應(yīng)輸入數(shù)據(jù)。隨著參

數(shù)增加,模型能力增強(qiáng),甚至能創(chuàng)造出全新的內(nèi)

容。參數(shù)越大,模型的創(chuàng)造力越強(qiáng)!The

optimal

model

size

grows

smoothlywith

the

loss

target

andpute

budget109Compute(PF-days)Scaling

·Scaling

由OpenAl

在2020年提出,用于描述系統(tǒng)屬性隨參數(shù)變化的比例關(guān)系。在

人工智能領(lǐng)域,Scaling

特指大模型性能隨規(guī)模變化的規(guī)律?!?/p>

大模型的性能表現(xiàn)與下面三個因素密切相關(guān):影響大模型性能表現(xiàn)的因素1

)

(

、

數(shù)

)

2

)

數(shù)

據(jù)

(

數(shù)

據(jù)

質(zhì)

、

數(shù)

據(jù)

規(guī)

)

3

)

(GPU、CPU

)Larger

models

require

fewersamplesto

reach

the

same

performance“以數(shù)據(jù)為中心的Al是對用于構(gòu)建Al系統(tǒng)的數(shù)據(jù)進(jìn)行系統(tǒng)化處理的學(xué)科?!标P(guān)心如何迭代模型來提高效能FeedforwardActual

Values

Target

Values

K

Y特征工程、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、表示學(xué)習(xí)

數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)展示關(guān)心如何系統(tǒng)性地迭代數(shù)據(jù)輸入和數(shù)據(jù)標(biāo)簽來提高效能以數(shù)據(jù)為中心的人工智能◎以數(shù)據(jù)為中心的人工智能◎以

模型為中心的人工智能CorectionValuesBackpropagation⑦LFe的引也HCat盤

)shipdat。

色法成此引)HorseHors8共)NVIDIA(英偉達(dá))公司發(fā)展歷程:·

1993年,在美國加利福尼亞州由黃仁勛等人發(fā)起成立?!?/p>

1999年,發(fā)明圖形處理器

(GPU),

極大推動PC

游戲的發(fā)展,重新定義了計(jì)算機(jī)圖形技術(shù)?!?006年,發(fā)明并行計(jì)算平臺和編程模型CUDA,

為后來的人工智能技術(shù)帶來了重大影響?!?020年7月,某省市值上超越英特爾,成某省市值最高的芯片廠商?!?023年5月,成某省市值達(dá)到1萬億美元的芯片企業(yè)。·2024年某省市值達(dá)到1.83萬億某省市值僅次于某著名企業(yè)和蘋果,成某省市值第三大公司。GPU(Graphics

Processing

Unit):GPU

是一款專門的圖形處理芯片。最初,GPU

被設(shè)計(jì)用于加速計(jì)算機(jī)圖形渲染任務(wù),如游戲和視頻處理。但如今,GPU的應(yīng)用領(lǐng)域已遠(yuǎn)遠(yuǎn)超出了圖形處理,它在機(jī)器

學(xué)習(xí)和深度學(xué)習(xí),特別是在大模型訓(xùn)練方面發(fā)揮著至關(guān)重要的作用。NVIDIA.AMDintel.大模型算力:GPU

HUAWEIambricDN

紀(jì)昆侖芯KUNLUNXIN國際主流GPU廠商:國內(nèi)主流GPU廠商:黃

NVIDIA公司創(chuàng)始人解決方案:·

檢索增強(qiáng)生成(RAG)·

函數(shù)調(diào)

用(Function

Calling)·模型微調(diào)

(Supervised

FineTuning)·

訓(xùn)練行業(yè)大模型●

……大模型局限問題的應(yīng)對措施信息時效性問題細(xì)分領(lǐng)域知識檢

強(qiáng)

成(Retrieval

Augmented

Generation,RAG)2用戶的提問轉(zhuǎn)向量在向量數(shù)據(jù)庫檢索相似材料,得到“包含答案的內(nèi)容”·

文本轉(zhuǎn)向量·

存入向量數(shù)據(jù)庫做出最終回答DeepSeek原始知識文檔向量數(shù)據(jù)庫(知識庫)用戶提問+包含答案

的內(nèi)容一齊給大模型3函數(shù)調(diào)用

(FunctionCalling)用

DeepSeek

接口(函數(shù))列表--5.組織答案返回答案--高德地圖飛常準(zhǔn)讓

準(zhǔn)

點(diǎn)-3.調(diào)用接口——-4.返回結(jié)果--——1

.查詢接口列表——--DeepSeek簡介

deepseek

杭州深度求索人工某著名企業(yè)于2023年7月成立,創(chuàng)始人。該公司主攻大模型的研發(fā)與應(yīng)用,開創(chuàng)性地提出了多頭潛在注意力機(jī)制(MLA)

DeepSeekMo

E等創(chuàng)新架構(gòu),并相繼推出DeepSeek-V3

和DeepSeek-R1

兩款模型,在網(wǎng)頁端、APP、API

全面上線。DeepSeek-R1

已發(fā)布并開源,性能對標(biāo)OpenAl

o1正式版,在網(wǎng)頁端、APP

和API

全面上線,點(diǎn)擊查看詳情。deepseek探索未至之境獲取手機(jī)AppDeepSeek

官方推出的免費(fèi)Al

助手搜索寫作閱讀解題翻譯工具開始對話免費(fèi)與

DeepSeek-V3對話使用全新旗艦?zāi)P?對數(shù)坐標(biāo))100·DeepSeek-V3是一款通用型大語言模型,為自研MoE模型,671B

參數(shù),注重高效處理和可擴(kuò)展性,適用于廣泛的自然語言處理任務(wù)?!eepSeek-V3

多項(xiàng)評測成績超越了Qwen2.5-72B

和Llama-3.1-405B

等其他開源模型,并在性能上和世界頂尖的閉源模型

GPT-40

及Claude-3.5-Sonnet不分伯仲。MMLU

Redux

ZeroEval得分VS

輸入API價格(¥/1M

Tokens)·

每百萬輸入

tokens

0.5元(緩存命中)/2元(緩存未命中)·

每百萬輸出

tokens8元DeepSeek-V3Accuracy/Percentile

(%)·DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然

語言推理等任務(wù)上,性能比肩

OpenAl

o1

正式版?!eepSeek-R1是一款推理優(yōu)先的模型,專注于復(fù)雜推理任務(wù),適合需要深度邏輯分析和問題解決的場景?!?/p>

每百萬輸入

tokens

1

元(緩存命中)/4元(緩存未命中)·

每百萬輸出

tokens16

元DeepSeek-R1Accuracy/Percentile

(%)你好,你是誰?深度思考(R1)田聯(lián)網(wǎng)搜索0

您好!我是由中國的深度求索

(DeepSeek)公司開發(fā)的智能助手DeepSeek-V3

。

如您有任何任何問題,

我會盡我所能為您提供幫助。DeepSeek

的基本應(yīng)用注:目前僅支持以文字交互,不支持多模態(tài)處理。但可上傳圖片進(jìn)行文字識別。deepseek

你好,你是誰?下載App

NE8

個人信息你好,你是誰?今天你好,你是誰?開啟新對話口

C

P內(nèi)容由Al生成,請仔細(xì)甄別開啟新對話token

是模型用來表示自然語言文本的基本單位,也是我們的計(jì)費(fèi)單元,可以直觀的理解為“字“或”詞”;通常1個中文詞語、1個英文單詞、1個數(shù)字或1個符號計(jì)為1個token。一般情況下模型中token

和字?jǐn)?shù)的換算比例大致如下:·

1個英文字符≈0.3個token。·

1個中文字符≈0.6個token。模型&價格細(xì)節(jié)CNY

USD模型(1)上下文長度最大思維鏈長度(2)最大輸出長度(3)百萬tokens輸入價格(緩存命中)(4)百萬tokens輸入價格(緩存未命中)百萬tokens輸出價格

輸出價格deepseek-chat64K-8K0.5元2元8元deepseek-reasoner64K32K8K1元4元16元(5)Token與分詞¥1¥02-

1

2-28賬單B

接口文檔②常見問題◆產(chǎn)品定價實(shí)用集成聯(lián)系我們二個人信息網(wǎng)頁版免費(fèi)對話入當(dāng)前服務(wù)器資源緊張,為避免對您造成業(yè)務(wù)影響,我們已暫停

API

服務(wù)充值。存量充值金額可繼續(xù)調(diào)用,敬請諒解!用量信息每月用量

2025-2月

導(dǎo)出消費(fèi)金額

¥0.00DeepSeek的API調(diào)用

(模型官方開放平臺)deepseek

開放平臺山

用量信息Q

API

keysdeepseek-chat模型優(yōu)惠期結(jié)束,調(diào)用價格已變更為每百萬輸入

tokens2元,每百萬輸出tokens8元。【查看價格詳情】知道了贈送余額

查看有效期¥0.00CNY本月消費(fèi)¥0.00CNY充值余額¥0.00

CNY所有日期均按UTC時間顯示,數(shù)據(jù)可能有5分鐘延遲。3.數(shù)據(jù)存儲·

知識庫(向量數(shù)據(jù)庫)●數(shù)據(jù)庫設(shè)計(jì)、管理·

自動化運(yùn)維監(jiān)控●

…..2.數(shù)據(jù)采集·

數(shù)據(jù)清洗和標(biāo)準(zhǔn)化·

元數(shù)據(jù)管理·

血緣分析●數(shù)據(jù)脫敏、加密1.數(shù)據(jù)規(guī)劃·

數(shù)據(jù)標(biāo)準(zhǔn)管理·

數(shù)據(jù)質(zhì)量管理·

數(shù)據(jù)安全管理·

文檔生成4.數(shù)據(jù)應(yīng)用·

數(shù)據(jù)分析●洞察生成·

自然語言查詢●

…..在如下數(shù)據(jù)治理階段和場景,DeepSeek

都可以發(fā)揮重要作用基于DeepSeek

在數(shù)據(jù)治理階段的優(yōu)化思考DeepSeek能力體現(xiàn):詞法和句法分析詞法和句法分析是NLP的兩個基本步驟?!ぴ~法分

析(LexicalAnalysis):將自

語言

本的

語言

元(即

),

進(jìn)

類、標(biāo)記和分析,包括分詞、詞性標(biāo)注、命名實(shí)體識別等任務(wù)?!ぞ浞ǚ治?/p>

(SyntacticAnalysis):對

結(jié)

構(gòu)

進(jìn)

解,

礎(chǔ)

上,

句法分析分詞詞匯之間的語法關(guān)系,例如句子成分、短語結(jié)構(gòu)和語法規(guī)則等。分詞命名實(shí)體詞性標(biāo)注依存句法分析……詞法和句法分析

如果|丘處機(jī)|沒有|路過|牛家村|,后續(xù)|的|故事|將會|怎樣|?上述例子中,丘處機(jī)和牛家村就是典型的命名實(shí)體。丘處機(jī)是人名,牛家村是地名,在中文語料中,類似的人名和地名的數(shù)量非常多,因此無法通過窮舉來構(gòu)建一個命名的實(shí)體字典。命名實(shí)體的識別必須基于對上下文的理解和判斷,大模型具

有強(qiáng)大的理解能力,在命名實(shí)體方面明顯優(yōu)于傳統(tǒng)算法。請用"|"作為分隔符,對下面句子進(jìn)行分詞:"如果丘處機(jī)沒有路過牛家村,后續(xù)的故事將會怎樣?"命名實(shí)體是指一個具有一定獨(dú)立性、能夠用一個名稱指稱呼的事物,如人名、地名、機(jī)構(gòu)名、時間、日期、貨幣等。命名實(shí)體“迪麗熱巴的全名是迪麗熱巴·迪力木拉提。她的姓氏是迪力木拉提?!?請按照上述規(guī)則對如下名字中的姓和名進(jìn)行拆分:"古力那扎爾·拜合提亞爾"請用"|"作為分隔符,對下面句子進(jìn)行分詞,并將人名中的姓和名單獨(dú)切分為兩個分詞單元:"如果丘處機(jī)沒有路過牛家村,后續(xù)的故事將會怎樣?"

如果|丘|處機(jī)|沒有|路過牛家村|,

|后續(xù)|的故事|將會|怎樣|?

·大模型能夠按照提示詞將姓和名進(jìn)

行拆分成兩個分詞單元?!τ诒容^復(fù)雜的情況,可以給大模

一個參考提示來讓其學(xué)習(xí)。

古力那扎爾·

|拜合提亞爾OGbP命名實(shí)體

如果#沒有路過#,后續(xù)的故事將會怎樣?上述例子中,是要求對指定的實(shí)體信息進(jìn)行替換處理。在實(shí)際的應(yīng)用中,也可以通過讓DeepSeek

調(diào)用第三方加密算法實(shí)現(xiàn)對敏感詞的加密處理。實(shí)體匿名化識別出句子中的實(shí)體信息,并將其通過替換、消除或加密處理,以實(shí)現(xiàn)隱私或敏感信息的目的。下面句子中,如包含有人員姓名或地名,請將其以"#"代替。"如果丘處機(jī)沒有路過牛家村,后續(xù)的故事將會怎樣?" 香

港(ns-

地名)|理工(n-名詞)大學(xué)(n-名詞)|坐落(V-動詞)|于(p-介詞)|中國(ns-

地名)|香港(ns-地名)|,(W-

標(biāo)點(diǎn)符號)

|是(V-動詞)|一所(m-數(shù)量詞)世界(n-名詞)頂尖(a-

形容詞)|的(u-助詞)|科研(n-

名詞)型(k-后綴)大學(xué)(n-

名詞)

|。(W-

標(biāo)點(diǎn)符號)注

:ns

表示地名,

n

表示名詞,

v

表示動詞,

p表示介詞,

w表示標(biāo)點(diǎn)符號,

m表示數(shù)量詞,a

表示形容詞,

u表示助詞,

k

表示后綴。由于詞性標(biāo)注規(guī)范的不同可能會導(dǎo)致標(biāo)注結(jié)果出現(xiàn)差異,常見的詞性標(biāo)注規(guī)范有:·某著名企業(yè)詞性標(biāo)注規(guī)范:共有40個詞性類別,是目前最常見的標(biāo)注集。·中國科學(xué)院計(jì)算技術(shù)研究所詞性標(biāo)注規(guī)范:

共有26個詞性類別,是另

一種常見的標(biāo)注集。請用""作為分隔符,對下面句子進(jìn)行分詞,并采用”某著名企業(yè)詞性標(biāo)注規(guī)范”進(jìn)行詞性標(biāo)注,采用中文說明詞性標(biāo)注所對應(yīng)的中文含義,不必做其他解釋,詞性標(biāo)注用括號”)"括起來,詞語與詞性之間用“-"分隔,不必顯示詞性標(biāo)注對應(yīng)的英文字符碼。香港理工大學(xué)坐落于中國香港,是一所世界頂尖的科研型大學(xué)。詞性標(biāo)注詞性標(biāo)注是指對每個分詞單元標(biāo)注其對應(yīng)的詞性,如名詞、動詞、形容詞等。DeepSeek能力體現(xiàn):信息抽取

信息抽取是指

規(guī)

模的文

數(shù)

據(jù)中自動

取出

結(jié)

構(gòu)

化的

息的

術(shù)。它的目

標(biāo)是將

結(jié)

構(gòu)

化的自然

言文本轉(zhuǎn)化為結(jié)

構(gòu)

的、易

數(shù)

據(jù)

式,

而支

持自

語言

理、文

掘、語

析、知

識圖

應(yīng)

。關(guān)鍵詞提取實(shí)體關(guān)系抽取結(jié)構(gòu)化事件抽取18強(qiáng)賽開局三連敗,也讓國足出線形勢岌岌可危。如果明晚不能擊敗印尼隊(duì),球隊(duì)取得小組前四名晉級下一階段比賽的希望將變得非常渺茫,如果在主場輸給印尼隊(duì)的話,還將創(chuàng)下67年來國際A級賽首次輸給印尼隊(duì)的紀(jì)

錄。盡管國足在與印尼隊(duì)的歷史往績中取得壓倒性的優(yōu)勢--過去8次交手,國足6勝2平保持不敗,上一次輸給印尼隊(duì)還是1957年的世預(yù)賽,當(dāng)時國足客場0比2不敵印尼隊(duì),那也是中國男足首次征戰(zhàn)世預(yù)賽。盡管之后的67年中,國足對印尼隊(duì)再未輸球,但現(xiàn)在的印尼隊(duì)今非昔比。在瘋狂進(jìn)行歸化后,印尼隊(duì)的實(shí)力提升極快,這次18強(qiáng)賽他們先后逼平了沙特隊(duì)、澳大利亞隊(duì)和巴林隊(duì),目前還保持不敗戰(zhàn)績。根據(jù)權(quán)威網(wǎng)站“德某省市場”的數(shù)據(jù),印尼隊(duì)全隊(duì)的身價已

經(jīng)高達(dá)2365萬歐元,而國足僅為1028萬歐元,還不到對手的一半!請對上述文本進(jìn)行關(guān)鍵詞(短語)提取,請?zhí)崛?個關(guān)鍵詞或短語,并按照重要程序排序,并輸出權(quán)重

值。1.

國足出線形勢-權(quán)重值:0.352.印尼隊(duì)實(shí)力提升-權(quán)重值:0.303.歷史往績優(yōu)勢-權(quán)重值:0.25這些關(guān)鍵詞和短語根據(jù)文本內(nèi)容的重要性進(jìn)行排序,并賦予相應(yīng)的權(quán)重值,以反映它們在文本中的突出程度和影響力。關(guān)鍵詞提取是一種自動從文本中抽取最具代表性、最重要的單詞或短語的技術(shù)。在各種文本分析下游任務(wù)中(如文本分類、

信息檢索和摘要)都有廣泛應(yīng)用。關(guān)鍵詞提取實(shí)體關(guān)系抽取是指從自然語言文本中自動識別出實(shí)體及它們之間的關(guān)系的技術(shù)。實(shí)體是指具有獨(dú)立存在或特定上下文含義

的實(shí)體對象,例如人、地點(diǎn)、組織機(jī)構(gòu)、時間等。實(shí)體關(guān)系則描述這些實(shí)體時間的語義關(guān)聯(lián),例如“周杰倫和劉肼宏是好

朋友?!薄ⅰ爸袊氖锥际潜本钡?。在自然語言處理、信息檢索、知識圖譜等領(lǐng)域都有廣泛應(yīng)用。ChatGPT是一個由OpenAl

開發(fā)的人工智能聊天機(jī)器人,它基于最新的大語言模型GPT-4,

成各種類型的文字內(nèi)容,包括文章、笑話、醫(yī)療建議等。

ChatGPT

最近引起了全球的關(guān)注,因?yàn)樗诼蓭熆荚囍袚魯×?成考

生,并且在教育領(lǐng)域引發(fā)的學(xué)術(shù)倫理的爭議。對上述文本按照三元組的格式進(jìn)行實(shí)體關(guān)系抽取。1.(ChatGPT,

開發(fā),OpenAl)2.(ChatGPT,基于,GPT-4)3.(GPT-4,

是,大語言模型)4.

(ChatGPT,

生成,文字內(nèi)容)5.

(文字內(nèi)容,包括,文章、笑話、醫(yī)療建議)6.

(ChatGPT,

引起,全球關(guān)注)7.

(ChatGPT,

擊敗,9成考生)8.(ChatGPT,引發(fā),學(xué)術(shù)倫理爭議)9.

(學(xué)術(shù)倫理爭議,在,教育領(lǐng)域)

注:實(shí)體關(guān)系一般會采用(頭實(shí)體,關(guān)系,尾實(shí)體)這樣的三元組的形式返回結(jié)果。實(shí)體關(guān)系抽取DeepSeek能力體現(xiàn):分類與聚類

分類與聚類是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域最常見的兩種數(shù)據(jù)分析技術(shù),其通過對數(shù)據(jù)的分組來尋找數(shù)據(jù)內(nèi)在的模式和規(guī)律?!?/p>

類(Classification):

種監(jiān)督學(xué)習(xí)方法,其目的是將數(shù)據(jù)分為已知的幾個類別中的

個?!?/p>

情感分析:是

種特殊的文本分類任務(wù),用于自動判斷

段文本中所表達(dá)的情感傾向?!?/p>

類(Clustering):是

種無監(jiān)督學(xué)習(xí)方法,目標(biāo)是將相似的數(shù)據(jù)分組,形成幾個相似度高、不同組

簇(Cluster)。文本分類情感分析文本聚類分類與聚類新聞標(biāo)題:三連敗!國足遭遇逆轉(zhuǎn),客場1比3不敵澳大利亞這條新聞屬于哪個類別?請?jiān)趪H新聞、體育新聞、娛樂新聞、軍事新聞中選擇一個作為回答。文本分類通過監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)分為已知的幾個類別中的一個。1.零樣本分類:在標(biāo)注數(shù)據(jù)很少或沒有的情況下對文本進(jìn)行分類。

體育新聞"Vio

dfdjj

ad

pat""hehdie

oddd

d""mimi

dti

tian"上述句子來自simon

語(一種虛擬的語言),那么"hh

eru

rp

ii"這句話也是simon

語嗎?請簡要回答,不需要分析過程。文本分類通過監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)分為已知的幾個類別中的

個。2.小樣本分類:對于特殊的領(lǐng)域的文本,通過為LLM

提供

些樣本供其學(xué)習(xí),使LLM

基于這些樣本的特征學(xué)會分類。

是。我真是受夠了這些社交網(wǎng)絡(luò)上的假想好友。每當(dāng)我遇到困難或者需要幫助時,他們總是缺席或只是簡單地回復(fù)一句“很抱歉聽到這個”。我覺得他們只是在我的朋友圈占了個位置而已。這個世界變得太虛偽了,我現(xiàn)在更愿意

獨(dú)自面對我的問題。這段話所包含的情感傾向是積極、消極還是中性的?情感分析情感分析是一種特殊的文本分類任務(wù),可以自動判斷一段文本所表達(dá)的情感傾向,如積極、消極或中性等。 這段話所包含的情感傾向是消極的。受控文本生成是一種自然語言生成技術(shù),用于根據(jù)給定的限制或者約束條件生成符合特定要求的文本。相對于傳統(tǒng)的自由文本生成,受控文本生成可以更好地控制生成文本的主題、風(fēng)格、語法結(jié)構(gòu)、情感色彩等。文本摘要文本復(fù)述受控文本生成DeepSeek

的能力體現(xiàn):受控文本生成數(shù)據(jù)到文本的生成孔乙己:

一個站著喝酒的“讀書人”哈!咸亨酒店里又來了一位”大人物”——孔乙己。這位可是“站著喝酒而穿長衫的唯一的人”,長衫又臟又破,仿佛十多年沒補(bǔ)也沒洗,可人家偏要穿,為啥?讀書人的體面唄!可惜,這體面連半個秀才都沒撈著,

只能靠偷書度日,美其名曰“竊書不能算偷”,真是笑掉大牙!他滿口“之乎者也”,連小孩都嘲笑他,可他還一本正經(jīng)地教人家”茴"字的四種寫法,誰稀罕吶!掌柜的也拿他打趣,說他臉上又添新傷疤了,他漲紅了臉,額上的青筋條條綻出,爭辯道,“竊書不能算偷……竊書!..

…讀書人的事,能算偷么?"引得眾人哄堂大笑。后來,他偷到了舉人家里,被打斷了腿,再后來,就再也沒出現(xiàn)過。有人說他死了,有人說他瘋了,誰知道呢?反正,咸亨酒店里少了個供人取樂的笑料,大家的日子,也照樣過。OS

P可根據(jù)用戶要求的傾向生成對應(yīng)文本,可包含情感傾向、政治傾向、社會傾向、文化傾向等,以便作為用戶在寫作時所持有的立場和觀點(diǎn),通過表達(dá)和描述傳達(dá)給讀者。請根據(jù)魯迅的《孔乙己》,生成300字左右的摘要,以極盡嘲笑的風(fēng)格編寫??刂莆谋旧蓵r的傾向

:北京2025年2月14日天氣預(yù)報各位觀眾朋友大家好,歡迎收看天氣預(yù)報。今天是2025年2月14日,星期五,農(nóng)歷正月十七,情人節(jié)。今天北京天氣以多云轉(zhuǎn)陰為主,最高氣溫14攝氏度,最低氣溫3攝氏度,晝夜大,請大家注意增減衣

物,謹(jǐn)防感冒。雖然今天是情人節(jié),但天公不作美,云層較厚,可能會影響大家外出賞月。不過,陰天也別有一番浪漫情調(diào),大家可以考慮去室內(nèi)場所約會,比如咖啡館、電影院等。另外,今天空氣濕度較大,請大家注意防潮防霉。以上就是今天的天氣預(yù)報,祝大家情人節(jié)快樂!口

CP數(shù)據(jù)到文本的生成將結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為自然語言文本,這種任務(wù)在數(shù)據(jù)處理、應(yīng)用開發(fā)等領(lǐng)域應(yīng)用非常廣泛。城市:北京時間:2025年2月14日:最高14度,最低3度天氣:多云轉(zhuǎn)陰請根據(jù)上述數(shù)據(jù)生成一段天氣預(yù)報的文本。DeepSeek

的能力體現(xiàn):理解和問答機(jī)器問

答(MachineQuestionAnswering,MQA),

計(jì)

機(jī)

夠自

的自

題。

計(jì)

算機(jī)

理自

入,

庫、

數(shù)

據(jù)

聯(lián)

網(wǎng)

數(shù)

據(jù)

案,

以自

的問

。常識知識問答跨語言問答閱讀理解問答問題理解和意圖識別理解和回答

西游記:一場降妖除魔的奇幻之旅《西游記》講述了唐僧師徒四人西天取經(jīng)的傳奇故事。唐僧,一個心懷慈悲卻肉眼凡胎的和尚,奉唐前往西天求取真經(jīng)。,法力無邊的齊天大圣,因大鬧天宮被壓五指山,后被唐僧解救,成為其大徒弟。豬八戒,貪吃好色卻憨態(tài)可掬的天蓬元帥,因調(diào)戲嫦娥被貶下凡,在高老莊被唐僧收服。沙和尚,任勞任怨的卷簾大將,因失手打碎琉璃盞被貶流沙河,后也成為唐僧的徒弟。師徒四人一路西行,歷經(jīng)九九八十一難,遭遇形形色色的妖魔鬼怪。憑借七十二變和金箍棒降妖除魔,豬八戒和沙和尚從旁協(xié)助,唐僧則以慈悲心腸感化眾生。最終,他們克服重重困難,抵達(dá)西天,取得真

經(jīng),修成正果?!段饔斡洝凡粌H是一部充滿奇幻色彩的冒險小說,更蘊(yùn)含著深刻的人生哲理。它歌頌了正義戰(zhàn)勝邪惡,堅(jiān)持不懈終獲成功的主題,也展現(xiàn)了人性的復(fù)雜和成長。OS

P從自然語言任務(wù)中提取問題所涉及的常識知識,并生成正確答案。常識是指人類具備的一些普遍性知識,包括物理規(guī)律、生活常識、社會規(guī)律、歷史文化等。請以200字簡要描述《西游記》這本名著的內(nèi)容。常識知識問答)

"Journey

to

the

West,"a

classic

Chinese

novel

attributed

to

Wu

Cheng'en,narrates

the

epicpilgrimage

of

the

Buddhist

monk

Tang

Sanzang

and

his

disciples

to

India

in

search

of

sacredscriptures.The

story

is

set

in

the

Tang

Dynasty

and

blends

mythology,folklore,and

fantasy.TangSanzang

is

apanied

by

three

protectors:Sun

Wukong,the

mischievous

and

powerful

MonkeyKing;Zhu

Bajie,a

gluttonous

and

lustful

pig

demon;and

Sha

Wujing,a

repentant

water

demon.Each

disciple

has

been

punished

by

the

heavens

and

seeks

redemption

through

this

journey.Along

the

way,they

face

numerous

trials,battling

demons,oveing

natural

disasters,andconfronting

their

own

flaws.The

novel

is

rich

with

allegory,exploring

themes

of

enlightenment,perseverance,and

the

struggle

between

good

and

evil.It

also

satirizes

human

nature

and

thebureaucratic

heavens.The

characters'growth

and

their

ultimate

success

in

retrieving

thescriptures

symbolize

the

path

to

spiritual

awakening

and

the

triumph

of

virtue

over

vice.S

叩跨語言問答要求計(jì)算機(jī)在回答問題時,處理參考文本和問題的語言不一致的情況。請以英文簡要描述《西游記》這本名著的內(nèi)容,控制在200個單詞以內(nèi)。

對于問題”北京明天是否有沙塵暴?”,意圖是查詢北京明天的天氣情況,特別是是否有沙塵暴。因此,作為

一個智能應(yīng)用,應(yīng)該調(diào)用“天氣查詢”組件來完成后續(xù)的動作?;卮穑罕本┟魈斓奶鞖馇闆r需要調(diào)用“天氣查詢”組件來獲取。根據(jù)最新天氣預(yù)報,北京明天預(yù)計(jì)[具體天氣情況,如“有沙塵暴”或"沒有沙塵暴"]。請關(guān)注實(shí)時更新以獲取準(zhǔn)確信息。我希望你是一個意圖解析器+智能應(yīng)用,我會想你輸入一個問題,請?zhí)崛栴}的意圖并按照問題回答:問題是"北京明天是否有沙塵暴?"請問你作為一個智能應(yīng)用應(yīng)該調(diào)用"天氣查詢“還是“美食查詢“組件來完成后續(xù)的動作?意圖識別用于從用戶的問題中提取出相關(guān)的意圖信息。mt

suann果沒有發(fā)生交if#DeepSeek

能夠理解自然語言指令,并將其轉(zhuǎn)化為可執(zhí)行的代碼。無論是生成游戲代碼、腳本代碼,還是其他類

型的代碼,都能展現(xiàn)出高質(zhì)量和可用性。支持Java、Python

等多種語言。代碼生成復(fù)制forsql

復(fù)制CREATETABLEstudent_info(id

INTAUTO_INCREMENT

PRIMARY

KEYCOMMENT'Uniqueidentifierforeachstudent',genderENUM('Male','Female','Other')NOT

NULLCOMMENT'Genderofthestudent',class

VARCHAR(50)NOT

NULL

COMMENT'Class

of

the

student',remark

TEXT

COMMENT'Additional

remarks

or

notes

about

the

student'請根據(jù)如下要求,生成”人員信息表的“建表腳本,數(shù)據(jù)庫為MySQL,要求如下:表名:學(xué)生信息表字段:姓名、性別、年齡、班級、備注其他要求:建表信息采用英文,不要采用中文DeepSeek

具備數(shù)據(jù)庫管理能力,可以實(shí)現(xiàn)對數(shù)據(jù)庫的存儲、查詢、統(tǒng)計(jì)、修改和刪除等操作。用戶可以通過自

然語言與智能體交互,完成對數(shù)據(jù)庫的管理任務(wù),以及SQL

語句等的生成。以下是根據(jù)您的要求生成的MySQL

建表腳本,表名為student_info,

字段分別為name

、

gender、age、class

和remark,并采用英文注釋:nameVARCHAR(50)NOTNULLCOMMENT'Name

ofthestudent',)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論