《工業(yè)大數(shù)據(jù)與人工智能》 課件 第五章-5.1-自然語(yǔ)言處理_第1頁(yè)
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第五章-5.1-自然語(yǔ)言處理_第2頁(yè)
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第五章-5.1-自然語(yǔ)言處理_第3頁(yè)
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第五章-5.1-自然語(yǔ)言處理_第4頁(yè)
《工業(yè)大數(shù)據(jù)與人工智能》 課件 第五章-5.1-自然語(yǔ)言處理_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

工業(yè)大數(shù)據(jù)與人工智能2024年2月6日HFUT主編:汪萌1匯報(bào)人:徐娟03文本預(yù)處理04特征提取02文本數(shù)據(jù)獲取01自然語(yǔ)言處理基本概念205自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用3語(yǔ)言處理主要研究用計(jì)算機(jī)理解和生成自然語(yǔ)言的各種理論和方法,是一種強(qiáng)大的技術(shù),它結(jié)合了計(jì)算機(jī)科學(xué)、人工智能、統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)等多個(gè)領(lǐng)域的知識(shí),使得計(jì)算機(jī)系統(tǒng)對(duì)人類(lèi)日常使用的自然語(yǔ)言進(jìn)行有效的分析、理解和生成。自然語(yǔ)言處理基本概念4自然語(yǔ)言處理基本概念隨著大數(shù)據(jù)時(shí)代的到來(lái),工業(yè)企業(yè)正面臨著海量多模態(tài)的溝通數(shù)據(jù),涵蓋書(shū)面文本、語(yǔ)音等多種形式。NLP技術(shù)可以幫助這些企業(yè)自動(dòng)化處理這些數(shù)據(jù)流,常見(jiàn)的有情感分析、智能問(wèn)答、機(jī)器翻譯、文本分類(lèi)等等下游任務(wù)。5工業(yè)大數(shù)據(jù)是未來(lái)工業(yè)在全球市場(chǎng)競(jìng)爭(zhēng)中發(fā)揮優(yōu)勢(shì)的關(guān)鍵。因此,本文數(shù)據(jù)獲取尤為重要。通用數(shù)據(jù)在自然語(yǔ)言處理模型的訓(xùn)練數(shù)據(jù)中占比通常非常高,主要包括網(wǎng)頁(yè)、對(duì)話(huà)文本、書(shū)籍、以及日志文件等類(lèi)型,為自然語(yǔ)言處理模型提供了大規(guī)模且多樣的訓(xùn)練數(shù)據(jù)。文本數(shù)據(jù)獲取6文本數(shù)據(jù)獲取網(wǎng)頁(yè)書(shū)籍聊天對(duì)話(huà)數(shù)據(jù)日志文件常見(jiàn)的文本數(shù)據(jù)來(lái)源:網(wǎng)頁(yè)是通用數(shù)據(jù)中數(shù)量最大的一類(lèi),來(lái)源于互聯(lián)網(wǎng)。聊天對(duì)話(huà)數(shù)據(jù)是多個(gè)參與者對(duì)話(huà)討論產(chǎn)生的數(shù)據(jù),常見(jiàn)有對(duì)話(huà)、聊天記錄、論壇帖子、社交媒體評(píng)論等。書(shū)籍包括了廣泛的詞匯,包括專(zhuān)業(yè)術(shù)語(yǔ)、文學(xué)表達(dá)以及各種主題詞匯。日志文件通常是包含大量文本信息的記錄,記載了工業(yè)中產(chǎn)生的記錄內(nèi)容。7文本預(yù)處理文本預(yù)處理的定義:文本預(yù)處理是自然語(yǔ)言處理中的一個(gè)重要步驟,它是指在將原始文本數(shù)據(jù)應(yīng)用到機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型之前,對(duì)其進(jìn)行清洗、標(biāo)準(zhǔn)化、轉(zhuǎn)換等一系列操作,目的是最大程度地保留有用的信息,同時(shí)去除噪聲和不必要的元素并增強(qiáng)特征的有效性以便讓文本數(shù)據(jù)更適合模型處理。8文本預(yù)處理文本數(shù)據(jù)處理和歸一化(one-hot編碼)原始文本網(wǎng)頁(yè)數(shù)據(jù)對(duì)話(huà)數(shù)據(jù)...分詞清洗標(biāo)準(zhǔn)化詞干提取詞形還原去除停用詞大小寫(xiě)轉(zhuǎn)換...歸一化(如one-hot編碼)特征提取分類(lèi)/預(yù)測(cè)算法文本數(shù)據(jù)處理去除噪聲分詞9文本預(yù)處理文本數(shù)據(jù)處理分詞清洗詞干提取詞形還原去除停用詞大小寫(xiě)轉(zhuǎn)換...文本數(shù)據(jù)處理的主要方法包括:1.去除噪聲:這包括刪除文本中無(wú)關(guān)的字符,如空格等。2.分詞:將文本分割成單詞或短語(yǔ)。3.詞干提?。簩卧~還原為其基本形式(或詞干)。4.詞形還原:與詞干提取類(lèi)似,但是它還原的是單詞的標(biāo)準(zhǔn)形式,考慮到詞性(例如,“better”還原為“good”)。5.去除停用詞:停用詞(如“的”,“和”,“是”等)在文本中頻繁出現(xiàn)要去除。6.大小寫(xiě)轉(zhuǎn)換:將所有文本轉(zhuǎn)換為小寫(xiě)或大寫(xiě)。7.詞性標(biāo)注:標(biāo)注文本中每個(gè)單詞的詞性(名詞、動(dòng)詞等)。8.命名實(shí)體識(shí)別:識(shí)別文本中的命名實(shí)體(人名、地點(diǎn)、機(jī)構(gòu)等)。9.n-gram創(chuàng)建:將文本分割成n個(gè)連續(xù)單詞的集合,這有助于模型理解和預(yù)測(cè)文本中的單詞序列。去除噪聲分詞10文本預(yù)處理歸一化(one-hot編碼)標(biāo)準(zhǔn)化歸一化(如one-hot編碼)One-hot編碼的定義:One-hot編碼是一種用于表示分類(lèi)數(shù)據(jù)的編碼方法。該方法將每個(gè)類(lèi)別映射到一個(gè)由整數(shù)組成的向量,其中只有一個(gè)元素為1,其他元素為0。這個(gè)唯一的“1”的位置表示相應(yīng)的類(lèi)別。這里,i表示向量的索引,從1到n。當(dāng)i等于x時(shí),one-hot編碼向量的第i個(gè)元素為1,表示該樣本屬于第i個(gè)類(lèi)別;否則,第i個(gè)元素為0。11特征提取是指從文本數(shù)據(jù)中抽取出有意義的特征,以便用于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型的訓(xùn)練和預(yù)測(cè)。特征提取分為以下幾種方法:詞嵌入、詞袋模型、TF-IDF(TermFrequency-InverseDocumentFrequency)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)間序列以及Transformer模型等。特征提取12特征提取什么是詞嵌入?詞嵌入定義:將詞/字符轉(zhuǎn)化為有意義且可計(jì)算的數(shù)值。如左圖所示:有兩組詞{蜜蜂,鵝,鷹},{直升機(jī),無(wú)人機(jī),火箭},用具有意義的數(shù)值(具有詞義)來(lái)表示他們。13特征提取詞嵌入的核心思想(intuition)是什么?最合乎直覺(jué)的假設(shè)-分布假設(shè):相似的詞往往出現(xiàn)在同一環(huán)境中。出現(xiàn)在非常相似的分布(其相鄰的詞是相似的)中的兩個(gè)詞具有相似的含義。例如:給出句子:“我成功了”、“我做到了”、“我開(kāi)心”、“我很快樂(lè)”“成功”、“做到了”、“開(kāi)心”等詞語(yǔ)在詞嵌入空間中會(huì)十分相近。14特征提取詞嵌入模型包括兩種架構(gòu),即跳字模型(skip-gram)和連續(xù)詞袋模型(continuousbagofwords,CBOW)跳字模型連續(xù)詞袋模型15特征提取跳字模型跳字模型假設(shè)一個(gè)詞可以用來(lái)在文本序列中生成其周?chē)膯卧~。以文本序列“the”“girl”“l(fā)oves”“him”“dog”為例。給定中心詞“l(fā)oves”,跳字模型考慮生成上下文詞“the”“girl”“him”“dog”的條件概率:上下文詞是在給定中心詞的情況下獨(dú)立生成的(即條件獨(dú)立性)16特征提取連續(xù)詞袋模型假定一個(gè)詞的意義能夠從它在文本序列中直接相鄰的上下文詞匯中綜合推斷而出。例子與跳字模型相同,連續(xù)詞袋模型考慮基于上下文詞“the”“girl”“him”“dog”生成中心詞“l(fā)oves”的條件概率:17特征提取基于深度學(xué)習(xí)的常見(jiàn)特征提取方法RNNLSTMTransformer自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用教材介主要任務(wù):文本分類(lèi);信息抽取;問(wèn)答系統(tǒng);機(jī)器翻譯;文本情感分析。18應(yīng)用:NLP輔助自動(dòng)駕駛自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用教材介文本分類(lèi):191.設(shè)備維護(hù)與故障診斷2.質(zhì)量控制與管理3.供應(yīng)鏈與物流管理4.安全與合規(guī)管理在工業(yè)上的應(yīng)用自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用教材介信息抽?。?0在工業(yè)上的應(yīng)用1.設(shè)備故障診斷2.質(zhì)量控制與溯源3.研發(fā)與技術(shù)創(chuàng)新自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用問(wèn)答系統(tǒng):?jiǎn)柎鹣到y(tǒng)(QuestionAnswering,QA)是一個(gè)用途廣泛的研究領(lǐng)域,比如現(xiàn)在的搜索引擎不僅能幫助你找到相關(guān)的網(wǎng)頁(yè),還能直接回答你的一些問(wèn)題。21在工業(yè)上的應(yīng)用1.數(shù)據(jù)分析與決策支持2.客戶(hù)服務(wù)與產(chǎn)品支持3.操作指導(dǎo)與技能培訓(xùn)自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用機(jī)器翻譯:22在工業(yè)上的應(yīng)用1.跨語(yǔ)言文檔翻譯2.全球供應(yīng)鏈管理3.軟件和界面本地化4.法規(guī)遵從性與安全性5.內(nèi)部協(xié)作與知識(shí)共享文本情感分析:在工業(yè)上的應(yīng)用1.客戶(hù)反饋分析與產(chǎn)品改進(jìn)2.市場(chǎng)趨勢(shì)感知與品牌聲譽(yù)監(jiān)測(cè)3.銷(xiāo)售與客服支持4.供應(yīng)鏈管理與合作伙伴評(píng)估5.員工滿(mǎn)意度調(diào)查與企業(yè)文化建設(shè)自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用NLP輔助自動(dòng)駕駛231.語(yǔ)音控制和人機(jī)交互2.導(dǎo)航與意圖識(shí)別3.實(shí)時(shí)路況信息提取NLP可以幫助自動(dòng)駕駛系統(tǒng)通過(guò)語(yǔ)音對(duì)話(huà)形式與用戶(hù)互動(dòng),解釋行車(chē)狀態(tài)、路線選擇以及危險(xiǎn)提醒,提高乘客體驗(yàn)。NLP可以分析用戶(hù)的路線偏好、歷史記錄和實(shí)時(shí)需求,從而生成定制化的導(dǎo)航建議。例如,理解“想去一個(gè)安靜的咖啡店”這樣的模糊需求,并結(jié)合地圖數(shù)據(jù)尋找最佳路徑NLP可以自動(dòng)分析來(lái)自社交媒體、新聞和交通監(jiān)控平臺(tái)的實(shí)時(shí)文本信息,提取事故、擁堵等事件,從而輔助路徑規(guī)劃。自然語(yǔ)言處理的主要任務(wù)以及應(yīng)用NLP輔助自動(dòng)駕駛244.多模態(tài)感知與決策支持5.智能信息播報(bào)和通知在自動(dòng)駕駛場(chǎng)景中,結(jié)合圖像

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論