Python人工智能技術(shù)與應(yīng)用課件:基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用_第1頁
Python人工智能技術(shù)與應(yīng)用課件:基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用_第2頁
Python人工智能技術(shù)與應(yīng)用課件:基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用_第3頁
Python人工智能技術(shù)與應(yīng)用課件:基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用_第4頁
Python人工智能技術(shù)與應(yīng)用課件:基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

調(diào)研分析自然語言處理技術(shù)基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用《Python

人工智能技術(shù)與應(yīng)用》任務(wù)導(dǎo)入

@Sk隨著互聯(lián)網(wǎng)技術(shù)的不斷成熟和普及,越來越多的消費者開始通過互聯(lián)網(wǎng)獲取汽車信息、比較汽車價格、進行汽車購買等。汽車門戶網(wǎng)站因此應(yīng)運而生,成為了消費者獲取汽車信息的主要渠道之一。汽車門戶網(wǎng)站的其中一個優(yōu)勢是可以通過情感分析技術(shù),了解用戶對汽車品牌、車型、服務(wù)等的情感傾向,從而為汽車廠商提供改善建議。現(xiàn)某新創(chuàng)立的汽車門戶網(wǎng)站想尋求汽車品牌廠商合作,第一步是需要獲取品牌廠商的信任,讓汽車廠商了解門戶網(wǎng)站的優(yōu)勢,了解門戶網(wǎng)站上口碑分

析背后的原理,你作為該汽車門戶網(wǎng)站公司的自然語言處理實習(xí)生,需要對

網(wǎng)站口碑分析背后的技術(shù)原理進行一個調(diào)研分析并告知潛在的汽車合作廠商。7素養(yǎng)目標·

引導(dǎo)問題的過程中,培養(yǎng)學(xué)

生形成勤于思考的能力·

獲得分析解決問題以及多元

化思考解決問題的方法,形成

創(chuàng)新意識?!?/p>

掌握自然語言處理技術(shù)的流程及其相關(guān)Python工具。能夠列舉至少3個的自然語言

處理技術(shù)流程中用到的Pvthon

工具。能夠獨立闡述自然語言處理技術(shù)的定義?!?/p>

了解自然語言處理技術(shù)的定義?!?/p>

了解深度學(xué)習(xí)在自然語言處理

技術(shù)中的應(yīng)用?!?/p>

了解自然語言處理技術(shù)的主要

應(yīng)用。知識目標

技能目標任務(wù)目標自然語言處理技術(shù)的定義深度學(xué)習(xí)在自然語言處理技術(shù)中的應(yīng)用自然語言處理技術(shù)的主要應(yīng)用自然語言處理技術(shù)流程及其Python實現(xiàn)目

錄CONTENTS語言是人類所特有的一種能力,而實現(xiàn)用自然語言與計算機進行通信,是人們長期以來追求的目標。自然語言處理(Natural

Language

Processing,NLP)就是實現(xiàn)人機間通過自然語言交流的一

項技術(shù)。汪汪汪翻譯自然語言處理——機器翻譯人類的語言NLP將人類交流溝通所用的語言經(jīng)過處理轉(zhuǎn)化為機

器所能理解的機器語言,

是一種研究語言能力的模

型和算法框架。01

自然語言處理技術(shù)的定義定義02

深度學(xué)習(xí)在自然語言處理技術(shù)中的應(yīng)用自然語言卷積神經(jīng)網(wǎng)絡(luò)自然語言是高度抽象的符號化系統(tǒng),文本間存在數(shù)據(jù)離散、稀疏,同時還存在多義

詞、一詞多義等問題。而深度學(xué)習(xí)方法具

有強大的特征提取和學(xué)習(xí)能力,可以更好

地處理高維度稀疏數(shù)據(jù),在NLP

領(lǐng)域諸多

任務(wù)中都取得了長足發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)(CNN)廣泛應(yīng)用于自然語言處理的文本分類、文本生成、詞嵌入、語義分析

等任務(wù),而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

廣泛應(yīng)用于

自然語言處理的文本分類、語言模型、機器翻

譯、語音識別和自動問答等任務(wù)。自然語言處理技術(shù)的主要應(yīng)用自然語言處理技術(shù)(NLP)

領(lǐng)域語言建模情感分析機器翻譯

文本分析問答系統(tǒng)

閱讀理解中文分詞、詞性標注及命名實體利用計算機把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標語言的過程,

也稱為自動翻譯。03

自然語言處理技術(shù)的主要應(yīng)用(

)機器翻譯智能手機中的機器翻譯自然語言處理技術(shù)的主要應(yīng)用(二)文本分類文本分類是利用計算機將文本集按照一定的分類體系或標準,進行自動分類標記的過程。對海量工單進行標簽分類自然語言處理技術(shù)的主要應(yīng)用(三)自動問答自動問答是指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務(wù)。華為自動客服解決用戶問題分類依據(jù)類別摘要功能指示摘要信息摘要評價摘要與原文檔關(guān)系抽取(extraction)摘要(abstraction)對象單文檔摘要多文檔摘要基于用戶類型主題摘要普通摘要機器學(xué)習(xí)角度有指導(dǎo)的摘要無指導(dǎo)的摘要自動文摘是運用計算機技術(shù),依據(jù)用戶需求從源文本中提取最重要的信息內(nèi)容,進行精簡、提煉和總結(jié),最后生成一個精簡版本的過程。生成的文摘具有壓縮性、內(nèi)容完整性和可讀性。表

1

自動文摘分類自然語言處理技術(shù)的主要應(yīng)用(四)自動文摘自動摘取新聞示例04

自然語言處理技術(shù)流程及其Python實現(xiàn)(一)自然語言處理技術(shù)流程01獲取語料05建模后的效果進行評價0402文本預(yù)處理03特征化/向量化模型訓(xùn)練獲取語料:從文本源獲取文本,如文件,網(wǎng)頁,社交媒體等。語料進行預(yù)處理:其中包括語料清理、分詞、詞性標注和去停用詞等步驟。>

特征化/向量化:將分詞后的字和詞表示成計算機可計算的類型(向量),這樣有助于較好地表達不同詞之間的

相似關(guān)系模型訓(xùn)練:包括傳統(tǒng)的有監(jiān)督、半監(jiān)督和無監(jiān)督學(xué)習(xí)模型等,可根據(jù)應(yīng)用需求不同進行選擇。建模后的效果進行評價:常用的評測指標有準確率(Precision)、

召回率(Recall)、F

(F-Measure)等。02

自然語言處理技術(shù)流程及其Python實現(xiàn)(一)自然語言處理技術(shù)流程各種社交媒體來源的語料自然語言處理技術(shù)流程及其Python實現(xiàn)(

二)Python相關(guān)工具Jieba中文分詞工具,可以將中文文本分割成單獨的詞匯,以便進行文本分析。Gensim用于計算文本相似度的Python

庫,可以用來構(gòu)建詞向量,以及計算文本之間的相似度。scikit-learn用于機器學(xué)習(xí)的Python

庫,可以用來構(gòu)建分類器,以及訓(xùn)練模型。keras一個用于深度學(xué)習(xí)的Python

框架,可以用來構(gòu)建深度神經(jīng)網(wǎng)絡(luò),以及訓(xùn)練模型。NEXT:任務(wù)二完成文本數(shù)據(jù)采集與預(yù)處理實訓(xùn)《Python

人工智能技術(shù)與應(yīng)用》任務(wù)二完成文本數(shù)據(jù)采集與預(yù)處理實基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用《Python

人工智能技術(shù)與應(yīng)用》任務(wù)導(dǎo)入

Ta

s

k

M

p公司的汽車門戶網(wǎng)站已經(jīng)有大量的合作廠商決定接入,公司的汽車門戶網(wǎng)站非常的火熱,收到了很多用戶對各種汽車品牌的評價和反饋。現(xiàn)

需要對合作廠商的汽車相關(guān)數(shù)據(jù)進行收集和文本預(yù)處理以及文本表示。你作為該公司數(shù)據(jù)科學(xué)助理,主要負責(zé)協(xié)助數(shù)據(jù)科學(xué)家完成數(shù)據(jù)的準備和特征表示的任務(wù)。為后續(xù)建立模型對汽車口碑進行分析做數(shù)據(jù)準備。7任務(wù)目標知識目標·

了解文本數(shù)據(jù)的定義?!?/p>

了解文本數(shù)據(jù)的主要特點?!?/p>

了解文本數(shù)據(jù)的采集方法?!?/p>

了解文本數(shù)據(jù)的數(shù)據(jù)來源?!?/p>

了解中文文本預(yù)處理的流程以

及與英文文本預(yù)處理的區(qū)別。技能目標能夠列舉實現(xiàn)汽車評論文本數(shù)據(jù)的采集和預(yù)處理相關(guān)Python

工具。能夠思考出汽車評論文本數(shù)據(jù)的采集和預(yù)處理的實現(xiàn)流程,在

思考中鍛煉系統(tǒng)性的職業(yè)思維。素養(yǎng)目標·

引導(dǎo)問題的過程中,培養(yǎng)學(xué)

生形成勤于思考的能力·

獲得分析解決問題以及多元

化思考解決問題的方法,形成

創(chuàng)新意識。文本數(shù)據(jù)的定義與主要特點文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源自然語言文本數(shù)據(jù)預(yù)處理流程Python實現(xiàn)汽車評論文本的采集和預(yù)處理目

錄文本數(shù)據(jù)是用字符串形式表示的信息??梢允俏淖帧⒄Z音、圖像或其他多媒體形式在計算機中存儲和處理為字符串格式;也可以是文章、評論、社交媒體消息、電子郵件等表示各種類型的信息形

式。由于目前的大多數(shù)信息(80%)是以文本的形式來保存,文本挖掘被認為具有較高的商業(yè)潛在價值。01

文本數(shù)據(jù)的定義與主要特點(一)文本數(shù)據(jù)的定義應(yīng)用形式定義01

文本數(shù)據(jù)的定義與主要特點(二)文本數(shù)據(jù)的主要特點半結(jié)構(gòu)化,包含標題、作者、分類等結(jié)構(gòu)字段,又包含非結(jié)構(gòu)化的文

字內(nèi)容蘊含語義、情感,如一詞多義、

一義多詞、起承轉(zhuǎn)合、時間關(guān)系等12

Python

及其第三方庫內(nèi)置的數(shù)據(jù)集如scikit-learn

中包含20類新聞數(shù)據(jù)集和口語語料庫。

Keras中的

IMDB評論數(shù)據(jù)集和商品評論數(shù)據(jù)

集。02

文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源(一)文本數(shù)據(jù)的采集方法開源數(shù)據(jù)集當前已有很多公開的NLP

數(shù)據(jù)

集支撐相關(guān)的研究和應(yīng)用分析,如

g

it

h

u

b

目:

CLUEDatasetSearch

(收集了眾

多中英文NLP

數(shù)據(jù)集)、

funNLP

(分門別類地組織了眾多的NLP

數(shù)

據(jù)

項目

)、awes

ome-

chinese-nlp

(收集了中文自然語

言處理相關(guān)資料)等。02

文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源(一)文本數(shù)據(jù)的采集方法網(wǎng)絡(luò)爬蟲很多情況所研究的是面向某種特定的領(lǐng)域,這些開放語料庫經(jīng)常無

法滿足使用需求,可使用爬蟲爬取

相應(yīng)的信息。02

文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源(一)文本數(shù)據(jù)的采集方法文本數(shù)據(jù)集的來源通常是在調(diào)查報告、社交媒體、在線評論中。以社交媒體為例,在社交平臺上,人們通過社交帖子中的語言和表情符號表達自己的想法、感受和行動。社交帖子對于理解目標受眾

并引起共鳴非常有價值,社交媒體可視為世界上最大的文本數(shù)據(jù)池。02

文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源(二)文本數(shù)據(jù)的來源參考社交媒體上存在著大量文本數(shù)據(jù)去除無效標簽:例如從網(wǎng)頁源代碼獲取的文本信息中包含HTML

標簽。基本糾錯:對于文本中明顯的人名、地名等常用語和特定場景

用語的錯誤進行糾正。去除空白:文本中可能包含的大量空格、空行等需要去除。去標點符號:去除句子中的標點符號、特殊符號等。分詞:將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過

程。去停用詞:比如“的”“是”等。文本數(shù)據(jù)預(yù)處理是指對原始文本數(shù)據(jù)進行清洗、格式化、結(jié)構(gòu)化處

理,以便于后續(xù)的分析和模型訓(xùn)練。

包括但不限于去除噪音數(shù)據(jù)、標準

化語言、分詞、詞干提取、去除停

用詞等步驟。03

自然語言文本數(shù)據(jù)預(yù)處理流程(一)中文文本預(yù)處理流程(以中文文本為例)03

自然語言文本數(shù)據(jù)預(yù)處理流程(二)中英文文本預(yù)處理的主要區(qū)別分詞英文可以直接用最簡單的空格和標點符號完成分詞。中文詞沒有一個形式上的分界

符。拼寫對英文預(yù)處理要包括拼寫檢查,比如“Helo

World”這樣的錯誤。詞干提取

(st

em

m

in

g)

和詞形

(lemmatization)英文文本可直接處理得

到單詞的原始形態(tài)。比如,"faster"、

"f

a

s

test",

為"fa

s

t";

“l(fā)eafs”

"leaves”,都變?yōu)?leaf"。步驟中文文本預(yù)處理英文文本預(yù)處理分詞中文文本需要分詞,將連續(xù)的漢字切分成離散的詞語英文文本通常已經(jīng)是離散的單詞形式停用詞過濾中文文本需要去除常見但無實際含義的詞

語,如“的”“是”等英文文本也需要去除停用詞,如

“the”“a”等詞干提取/詞形還原中文文本不需要詞干提取,但可以使用詞

形還原進行規(guī)范化處理英文文本需要進行詞干提取,如將“running”轉(zhuǎn)化為“run”實體識別中文文本需要進行實體識別,如人名、地

名、機構(gòu)名等英文文本也可以進行實體識別,如人名、公

司名等詞向量表示中文文本需要進行中文詞向量表示,如使用Word2Vec或BERT等模型進行訓(xùn)練英文文本也可以進行詞向量表示,使用相應(yīng)

的模型進行訓(xùn)練編碼轉(zhuǎn)換中文文本需要將文本從GBK或GB2312等

編碼轉(zhuǎn)換為UTF-8編碼英文文本通常已經(jīng)是UTF-8編碼清洗/過濾中文文本需要清洗去除一些噪聲、無用信

息和不規(guī)范的文本格式,如網(wǎng)頁標簽等英文文本也需要進行類似的清洗和過濾文本歸一化中文文本需要進行拼音轉(zhuǎn)化、數(shù)字規(guī)范化

繁簡體轉(zhuǎn)換等處理英文文本通常不需要進行文本歸一化處理自然語言文本數(shù)據(jù)預(yù)處理流程(二)中英文文本預(yù)處理的主要區(qū)別中英文文本預(yù)處理

步驟區(qū)別表04

Python實現(xiàn)汽車評論文本的采集和預(yù)處理(

一)工具介紹Jieba(結(jié)巴)是一個中文分詞庫,它可以將中文文本分成一個一個的詞語。Jieba

庫采用了基于前綴詞典的分詞方法,可以實現(xiàn)高效準確的中文分詞。Jieba

庫支持三種分詞模式:精確模式、全模式和搜索引擎模式。其中,精確模式是默認模

式,它試圖將文本切分成最精確的詞語;全模式則將文本中可能的詞語全部切分出來;搜索

引擎模式則在精確模式的基礎(chǔ)上,對長詞再次進行切分。Jieba

還提供了一些其他的功能,比如關(guān)鍵詞提取、詞性標注、繁體轉(zhuǎn)簡體等。Jieba

庫是一個開源的

Python

,可以通過

pip安裝。它的使用非常簡單,只需要導(dǎo)入庫

并調(diào)用相應(yīng)的函數(shù)即可。04

Python實現(xiàn)汽車評論文本的采集和預(yù)處理(二)實現(xiàn)流程1.

通過pip

命令安裝Jieba庫。代碼示例:!pipinstalljieba2.

對文本進行分詞,使用默認分詞模式。代碼示例:import

jieba

<br>

seg_list

=

jieba.cut("我來到清華大學(xué)",

cut_all=False)<br>

print("Default

Mode:"+"/"join(seg_list))3.

將"自然語言處理"添加到詞典中,以便在分詞時被識別。代碼示例:

jieba.add_word("自然語言處理")4.

將"機器學(xué)習(xí)"從詞典中刪除。代碼示例:jieba.del_word("

機器學(xué)習(xí)")04

Python實現(xiàn)汽車評論文本的采集和預(yù)處理(二)實現(xiàn)流程5.使用TF-IDF算法提取關(guān)鍵詞,返回前3個關(guān)鍵詞及其權(quán)重。代碼示例:import

jieba.analyse<br>text="結(jié)巴是一個優(yōu)秀的中文分詞工具,使用方便,效果出眾”

<br>keywords=jiract_tags(text,topK=3,withWeight=True)<br>print(keywords)6.

對文本進行詞性標注,輸出每個詞及其對應(yīng)的詞性標記。代碼示例:

import

jieba.posseg

as

pseg

<br>words

=pseg.cut("我愛自然語言

處理")<br>for

word,flag

in

words:<br>print('%s%s'%(word,flag))NEXT:任務(wù)三

完成汽車評論文本分類實訓(xùn)《Python

人工智能技術(shù)與應(yīng)用》任務(wù)三完成汽車評論文本分類實訓(xùn)基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用《Python

人工智能技術(shù)與應(yīng)用》任務(wù)導(dǎo)入

Tu

sk大量的汽車評論文本數(shù)據(jù)已經(jīng)準備并且處理好。你作為公司的自然語言處理工程師,崗位職責(zé)是負責(zé)設(shè)計、開發(fā)和維護NLP系統(tǒng),現(xiàn)需要你使用處理好的數(shù)據(jù)和文本分類技術(shù)對汽車口碑數(shù)據(jù)進行分析,為公

司的眾多合作商場反饋用戶的評價,幫助他們發(fā)現(xiàn)用戶痛點、改進產(chǎn)品服務(wù)。7任務(wù)目標知識目標·

了解文本特征表示技術(shù)的定義和常用方法?!?/p>

了解文本分類技術(shù)的定義?!?/p>

了解循環(huán)神經(jīng)網(wǎng)絡(luò)的定義和原理?!?/p>

了解基于循環(huán)神經(jīng)網(wǎng)絡(luò)實現(xiàn)汽

車評論文本分類的實現(xiàn)流程。技能目標·能正確使用keras框架構(gòu)建

一個基于循環(huán)神經(jīng)網(wǎng)絡(luò)的汽車

評論文本分類器。·

能闡述卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神

經(jīng)網(wǎng)絡(luò)的聯(lián)系和區(qū)別,培養(yǎng)對

比學(xué)習(xí)的職業(yè)意識。素養(yǎng)目標·

引導(dǎo)問題的過程中,培養(yǎng)學(xué)

生形成勤于思考的能力·獲得分析解決問題以及多元

化思考解決問題的方法,形成

創(chuàng)新意識。01

文本特征表示02

文本分類技術(shù)的定義03

循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的定義與原理04

卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的對比05

基于循環(huán)神經(jīng)網(wǎng)絡(luò)實現(xiàn)汽車評論文本分

類項目目

錄CONTENTS0.450.480.300.010.00

-0.03

-0.390.570.580.50

0.400.350.010.01-0.08-0.380.390.380.550.550.28-0.020.01-0.01-0.1400.

007.

.

12

0.39

0.620570.550.480.460460.35

0.650.58

0.43

a.7

o?0Daoa10

.27

a230140.230.48

0.400.210.180.300.350.040.280.290.29-0.050.07d40.020.010.010.000.020.000.000.030.010.02-0.000.041001.000.05-0.03d30.010.000.01-0.00-0.01-0.00-0.000.030.01-0.020.010.031.001000.05-0.020.821.001.007.705047014467dd通常采用向量空間模型來描述文本向量,即將文檔作為行,將分詞后得到

的單詞(單詞會在向量空間模型里面

被稱為向量,也被稱為特征、維度或

維)作為列,而矩陣的值則是通過詞

頻統(tǒng)計算法得到的值。這種空間向量

模型也稱為文檔特征矩陣。(一)文本特征表示技術(shù)的定義文本特征表示是將自然語言文本轉(zhuǎn)換為數(shù)值向量的過程。01

文本特征表示0.13-0.000.010.13

-0.03-0.200.13

1000.040.030.01-0.090.830.290.000.000.07-0.120.83

0.290.000.000.07

-0.120.640.070.010.010.02

-0.09HCH110001

文本特征表示(二)文本特征表示技術(shù)的常用方法01One-Hot

編碼05序列嵌入(SequenceEmbedding)0402詞袋模型(Bag

of

Words)03TF-IDF詞嵌入(WordEmbedding)One-Hot

編碼將每個單詞表示為一個獨熱向量,其中只有一個元素是1,其余元素都是0。

這種表示方法非常簡單,但它沒有考

慮單詞之間的關(guān)系。01

文本特征表示(二)文本特征表示技術(shù)的常用方法通過獨熱編碼將顏色進行文本特征表示RedYellawGreenYellowRed

Yellow

Green00000000將文本表示為單詞的計數(shù)向量,其中每個維度代表一個單詞,計數(shù)值代表該單詞在文本中出現(xiàn)的次數(shù)。這種表示方法比獨熱編碼更為實用,因為它

可以表達單詞在文本中的重要程度,

但它也沒有考慮單詞的順序和上下文

關(guān)系

。01

文本特征表示(二)文本特征表示技術(shù)的常用方法email

data"bag

ofwordsSVM

clad

ci

i

i

ionntoascifess"Bag-of-Words"Model詞袋模型(Bag

of

Words)pst:

w4w2unt

Thk

r01

文本特征表示(二)文本特征表示技術(shù)的常用方法TF-IDF文本挖掘技術(shù)TF-IDF是一種常用的文本挖掘技術(shù),用于計算一個詞在一篇文檔中的重要性或者權(quán)重。TF-IDF公式的思想是,通過計算一個詞在單個文檔中的詞頻和在整個文集中的逆文檔頻率,來度量該詞在文檔中的重要性。突出一些特殊的詞匯,如專業(yè)術(shù)語、關(guān)鍵詞等,從而提高文本分析和信息檢索的效率和準確性。TF表示詞頻(Term

Frequency),即一個詞在文檔中出現(xiàn)的次數(shù)。一個詞出現(xiàn)的次數(shù)越多,它在文檔中的重要性也就越高。IDF

表示逆文檔頻率(Inverse

Document

Frequency),即一個詞在整個文集中出現(xiàn)的頻率的倒數(shù)。IDF

值越大,表示一個詞在整個文集中出現(xiàn)的頻率越小,因此它在單個文檔中的重要性就越大。01

文本特征表示(二)文本特征表示技術(shù)的常用方法TF-IDF文本挖掘技術(shù)TF-IDF公式將TF和IDF相乘,得到一個詞在文檔中的TF-IDF權(quán)重值。公式

:TF-IDF(w,d)=TF(w,d)*IDF(w)其

,w表示詞,d表示文檔;TF(w,d)=(該詞在文檔中出現(xiàn)的次數(shù))/(文

檔中所有詞的總數(shù));IDF(w)=log(

(文檔總數(shù))/(包含該詞的文檔數(shù)+1))將每個單詞表示為一個固定長度的向量。詞嵌入通過考慮單詞的上下文關(guān)

系來獲得更豐富的語義信息。它們在

自然語言處理中非常流行,因為它們

可以捕捉到單詞之間的語義和語法關(guān)

系。(二)文本特征表示技術(shù)的常用方法詞嵌入(Word

Embedding)01

文本特征表示將詞匯轉(zhuǎn)化成向量,并在空間中表示將整個文本序列作為一個向量表示。序列嵌入通過神經(jīng)網(wǎng)絡(luò)模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)和Transformer)學(xué)習(xí)文本

序列中的語義和上下文信息,并生成

一個固定長度的向量表示。這種方法

在自然語言處理任務(wù)中非常流行,如

文本分類、情感分析和機器翻譯。(二)文本特征表示技術(shù)的常用方法序列嵌入(Sequence

Embedding)01

文本特征表示文本分類技術(shù)的定義文本分類是指根據(jù)事先打好標簽的數(shù)據(jù)集,學(xué)習(xí)文檔內(nèi)在特征,建立文檔與類別的關(guān)系模型,將文檔自動歸類到一種或多種類別的過程,可用于垃圾郵件過濾、垃圾評論過濾、自動標簽、情感分

析。識別垃圾郵件電子評論循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的定義與原理(

一)序列數(shù)據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),

直接處理序列數(shù)據(jù)。所說的序列數(shù)據(jù)是指隨著時間變化的數(shù)據(jù)或者數(shù)據(jù)前后之間有明顯順序的數(shù)據(jù)。最好的人工智能科普網(wǎng)站是

最好

人工智能

科普

網(wǎng)站

是文本數(shù)據(jù)的序列性決定了其必須考慮詞語之間的順序如果需要根據(jù)年齡來預(yù)測某人的健康狀況,則需要每年對某人的情況進行一次采樣,按時間排序后記錄到數(shù)據(jù)庫中。如果想從一只青蛙的跳躍動作中分析出其跳躍的高度和距離,則需要獲得

一段視頻,然后從視頻的每一幀圖片

中獲得青蛙的當前位置和動作。03

循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)

的定義與原理在不同時間的青蛙跳躍的高度和距離不同(

)序列數(shù)據(jù)青蛙跳躍分析反響回路是一種神經(jīng)回路,指的是在人類大腦的學(xué)習(xí)和記憶過程中,最初

響應(yīng)刺激而激活的神經(jīng)活動存在著或

多或少不斷地重新激活的可能,以便達到隨時可以檢索信息的準備。循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的定義與原理(二)反響回路假設(shè)反響回路人體大腦中的神經(jīng)反射相反響回路循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent

NeuralNetwork,RNN)

是一類以序列數(shù)據(jù)為輸入,在序列的演進方向進行遞歸

且所有節(jié)點(循環(huán)單元)按鏈式連接

的遞歸神經(jīng)網(wǎng)絡(luò)。03

循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)

的定義與原理(三)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)定義RNNRNN

的基本結(jié)構(gòu)由輸入層(Iuput)、隱藏層和輸出層(Output)組成。RNN

在處理數(shù)據(jù)時,每次計算都會將當前層的輸出送入下一層的隱藏層中,并和下一層的輸入一起計算輸出

。循環(huán)神經(jīng)網(wǎng)絡(luò)能挖掘數(shù)據(jù)中的時序信息和語義信息,因此能有效地處理

具有序列特性的數(shù)據(jù)。OutputIn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論