版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
3.1自然語言處理技術(shù)主講人:***CONTENTS目錄01自然語言處理技術(shù)的引入02自然語言處理的概述03自然語言處理的基本任務(wù)04自然語言處理的應(yīng)用場景05搭建自己的自然語言處理系統(tǒng)自然語言處理技術(shù)的引入01生活中的NLP:李明的周末故事智能助手主動幫忙在一個普通周末,李明忙著為家里聚會準(zhǔn)備美食時,新智能助手主動提醒“你需要準(zhǔn)備一份菜譜嗎?”精準(zhǔn)推薦菜譜李明回應(yīng)后,智能助手迅速搜索并發(fā)送了番茄炒雞蛋菜譜,還附上烹飪視頻和所需食材購物清單。調(diào)整推薦偏好李明在廚房忙碌時,助手詢問其對菜肴的口味偏好,并迅速調(diào)整推薦的菜譜。引發(fā)核心問題聚會成功后,李明感慨方便的同時,引發(fā)了“人工智能如何理解人類語言”的核心問題。自然語言處理的概述02自然語言的定義與特點01自然語言的定義自然語言是指人類日常交流中使用的語言,是伴隨著人類社會發(fā)展演變而來的語言,如漢語、英語、西班牙語等。02與計算機(jī)語言的對比與計算機(jī)語言(如編程語言)不同,自然語言具有豐富的語法、詞匯和表達(dá)方式,能夠傳達(dá)復(fù)雜的思想和情感。03自然語言的特性自然語言是動態(tài)和多樣的,隨著文化和社會的變化而不斷演變,人們通過口語和書面形式使用自然語言來溝通、交流信息、表達(dá)感受和建立關(guān)系。04計算機(jī)理解的挑戰(zhàn)自然語言是人類特有的思想交流的工具,因此能夠讓計算機(jī)理解自然語言成為人工智能技術(shù)的一個大核心問題。自然語言處理(NLP)的概念NLP的定義自然語言處理(NaturalLanguageProcessing,NLP)是利用計算機(jī)技術(shù)和人工智能技術(shù)處理自然語言的一種手段,它是計算機(jī)科學(xué)、人工智能和語言學(xué)的交叉領(lǐng)域。核心目標(biāo)旨在使計算機(jī)能夠理解、分析、生成和回應(yīng)人類語言。與語音識別、機(jī)器翻譯的關(guān)系自然語言處理不僅僅是語音識別或機(jī)器翻譯,更涵蓋了文本的語義分析、情感識別以及信息提取等多個方面。NLP發(fā)展歷史:20世紀(jì)50年代-70年代思想開端1950年,艾倫·麥席森·圖靈發(fā)表論文《計算機(jī)器與智慧》,文中提到的“圖靈測試”一般被認(rèn)為是自然語言處理思想的開端。早期里程碑1954年,喬治敦大學(xué)與IBM公司合作研究了一個早期的機(jī)器翻譯系統(tǒng),該系統(tǒng)能夠?qū)?0句俄語翻譯成英語,這是NLP領(lǐng)域的重要里程碑。早期探索20世紀(jì)60年代和70年代,研究者們開始關(guān)注更復(fù)雜的語言結(jié)構(gòu),例如語法和語義分析。NLP發(fā)展歷史:20世紀(jì)80年代-90年代80年代統(tǒng)計學(xué)方法20世紀(jì)80年代,統(tǒng)計學(xué)方法的引入極大推動了NLP的進(jìn)展。傳統(tǒng)的基于規(guī)則的方法開始與概率模型結(jié)合,代表性進(jìn)展包括隱馬爾可夫模型(HMM)和最大熵模型,它們在語音識別和詞性標(biāo)注等任務(wù)中表現(xiàn)優(yōu)異。90年代新技術(shù)應(yīng)用90年代,隨著計算能力的提升和互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)為NLP研究提供了豐富資源。研究者們開始探索支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)等更復(fù)雜的模型和算法,催生了信息檢索和文本分類等新的應(yīng)用領(lǐng)域。NLP發(fā)展歷史:21世紀(jì)初期-2018年2013年詞向量模型2013年,Word2Vec模型的提出使計算機(jī)能夠通過詞向量捕捉詞語之間的關(guān)系,為詞嵌入技術(shù)的發(fā)展奠定了基礎(chǔ),提升了語義分析的準(zhǔn)確性。LSTM與CNN模型隨后,長短期記憶網(wǎng)絡(luò)(LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型相繼問世,專門針對序列數(shù)據(jù)和文本分類任務(wù),在機(jī)器翻譯、文本生成等任務(wù)中表現(xiàn)出色。2018年BERT模型2018年,BERT模型的發(fā)布標(biāo)志著自然語言處理進(jìn)入了一個新的時代。BERT通過雙向編碼和上下文理解,顯著提升了多個NLP任務(wù)的性能,推動了智能助手、機(jī)器翻譯、情感分析等應(yīng)用的廣泛推廣。NLP發(fā)展歷史:2023年至今的大模型時代國際大模型進(jìn)展2023年至今,OpenAI公司GPT-4的發(fā)布顯著提升了文本理解與生成能力,并首次支持多模態(tài)處理;Meta推出的開源大模型Llama2,推動了大模型技術(shù)的普及與創(chuàng)新;GoogleDeepMind于2024年推出的Gemini模型,將多模態(tài)處理與強(qiáng)化學(xué)習(xí)相結(jié)合,提升了模型在推理與交互中的表現(xiàn)。國內(nèi)垂直領(lǐng)域應(yīng)用國內(nèi)人工智能大模型也迅猛發(fā)展,百度“文心一言”廣泛應(yīng)用于智能助手、內(nèi)容創(chuàng)作和企業(yè)服務(wù);小米“超級小愛同學(xué)”提升語音交互能力并與智能家居及移動設(shè)備深度融合;華為在智能駕駛領(lǐng)域推出基于大模型的解決方案;字節(jié)跳動“豆包”主要應(yīng)用于內(nèi)容生成和推薦系統(tǒng)。邁向通用人工智能隨著算力與算法的持續(xù)優(yōu)化,人工智能大模型將變得更加智能化和高效化,最終邁向通用人工智能(AGI)的階段。自然語言處理的基本任務(wù)03任務(wù)1:分詞與詞性標(biāo)注分詞的定義與復(fù)雜性分詞是將連續(xù)文本分割成單詞或詞組的過程。中文的分詞相對于英文來說更加復(fù)雜,因為漢字之間沒有像英文一樣明顯的單詞分隔符,所以需要通過詞性標(biāo)注和語義分析等手段來確定詞匯的邊界。詞性標(biāo)注的含義詞性標(biāo)注是為每個單詞指定其語法角色,如名詞、動詞、形容詞等。這些任務(wù)的實現(xiàn)有助于計算機(jī)理解文本的基本結(jié)構(gòu),為后續(xù)分析奠定基礎(chǔ)。示例展示在句子“我愛自然語言處理”中,分詞的結(jié)果是“我”“愛”“自然語言處理”,而詞性標(biāo)注可以識別“我”為代詞,“愛”為動詞,“自然語言處理”為名詞。任務(wù)2:句法分析(依存與成分分析)依存句法分析依存句法分析關(guān)注詞與詞之間的關(guān)系。成分句法分析成分句法分析則關(guān)注句子的成分結(jié)構(gòu)。示例說明在句子“狗追貓”中,句法分析可以揭示“狗”是主語,“追”是謂語,“貓”是賓語,從而理解整個句子的意思。任務(wù)3:情感分析情感分析的定義情感分析旨在判斷文本中的情感傾向,通常分為積極、消極和中性。應(yīng)用場景通過分析社交媒體上的評論或產(chǎn)品評價,企業(yè)能夠快速了解客戶的滿意度和情感趨勢。技術(shù)方法情感分析使用的技術(shù)包括詞典方法和機(jī)器學(xué)習(xí)方法,后者通過訓(xùn)練模型識別文本中的情感特征,如情感詞、語氣和上下文。任務(wù)4:命名實體識別(NER)NER的定義命名實體識別(NamedEntityRecognition,NER),又稱作“專名識別”,是指識別文本中提到的有特定意義的實體,如人名、地名、組織機(jī)構(gòu)名、時間、地理位置等。示例展示在句子“金正恩和普京會晤”中,NER可以識別出“金正恩”為人名。重要性NER對于信息提取和知識圖譜的構(gòu)建至關(guān)重要,這一任務(wù)幫助系統(tǒng)從海量文本中提取關(guān)鍵信息,提高信息檢索和問答系統(tǒng)的準(zhǔn)確性。任務(wù)5:機(jī)器翻譯早期機(jī)器翻譯早期的機(jī)器翻譯依賴規(guī)則和詞典,效果有限。現(xiàn)代機(jī)器翻譯隨著統(tǒng)計方法和深度學(xué)習(xí)的引入,現(xiàn)代機(jī)器翻譯系統(tǒng),如GoogleTranslate,能夠根據(jù)上下文生成更自然的翻譯。神經(jīng)網(wǎng)絡(luò)的作用通過使用神經(jīng)網(wǎng)絡(luò),系統(tǒng)不僅能處理簡單句子,還能應(yīng)對復(fù)雜句子的結(jié)構(gòu)和含義變化,大大提升了翻譯的流暢性和準(zhǔn)確性。自然語言處理的應(yīng)用場景04應(yīng)用1:智能助手(小藝、小愛同學(xué)等)語音與意圖識別智能助手(如小藝、小愛同學(xué)等)利用自然語言處理技術(shù)識別和理解用戶的語音指令,執(zhí)行查詢時間、設(shè)置鬧鐘、發(fā)送消息、播放音樂等多種任務(wù)。意圖提取與信息反饋以“明天的天氣如何?”為例,智能助手通過自然語言理解模塊提取出查詢天氣的意圖,并從網(wǎng)絡(luò)獲取最新的天氣信息反饋給用戶。應(yīng)用2:社交媒體分析01內(nèi)容分析與口碑監(jiān)測自然語言處理技術(shù)能夠分析社交媒體上用戶生成的內(nèi)容,如淘寶上的分析工具能捕捉用戶對某款新產(chǎn)品的積極或消極評價,通過情感分析幫助企業(yè)實時監(jiān)測品牌口碑。02話題識別與策略調(diào)整社交媒體分析還可以識別熱門話題和趨勢,如微博熱搜,幫助企業(yè)把握市場脈搏,及時調(diào)整市場策略。應(yīng)用3:信息檢索(以百度為例)查詢意圖理解搜索引擎(如百度)利用自然語言處理技術(shù)理解用戶查詢的意圖,解析用戶輸入的內(nèi)容。個性化結(jié)果返回結(jié)合用戶的搜索歷史和偏好,百度搜索引擎使用自然語言處理返回個性化的搜索結(jié)果,如“猜你想搜”功能,提高檢索的準(zhǔn)確性和效率,提升信息獲取效率。應(yīng)用4:內(nèi)容推薦(電商與書籍推薦)習(xí)慣分析自然語言處理可以分析用戶的閱讀習(xí)慣和興趣,如電商平臺根據(jù)用戶的購買記錄和瀏覽習(xí)慣進(jìn)行分析。商品推薦基于分析結(jié)果,向用戶推薦相關(guān)的文章或產(chǎn)品,如電商平臺推薦相似或互補(bǔ)的商品,書籍推薦系統(tǒng)推薦相關(guān)書籍,提高用戶的黏性和轉(zhuǎn)化率。應(yīng)用5:客戶服務(wù)(智能客服)01問題解析聊天機(jī)器人利用自然語言處理技術(shù)解析用戶輸入的問題,如理解“商品是否包郵?”這樣的問題。02自動回復(fù)與成本控制通過預(yù)設(shè)的知識庫,聊天機(jī)器人自動提供相應(yīng)的答案,降低企業(yè)人力成本,同時提高響應(yīng)速度,增強(qiáng)客戶滿意度。搭建自己的自然語言處理系統(tǒng)05任務(wù)描述:基于文心一言API的對話系統(tǒng)01任務(wù)目標(biāo)使用百度文心一言API搭建簡單對話系統(tǒng),實現(xiàn)文本輸入、響應(yīng)生成與用戶交互。02最終輸出可進(jìn)行簡單對話的聊天機(jī)器人。任務(wù)分析:關(guān)鍵知識點01API調(diào)用了解如何調(diào)用文心一言的API以獲取對話響應(yīng)。02數(shù)據(jù)處理處理用戶輸入并格式化API請求。03系統(tǒng)集成將API響應(yīng)與用戶界面集成,完成對話功能。任務(wù)準(zhǔn)備:軟件與資源軟件安裝本次實驗需要使用到的軟件包括Annaconda、Python、PyCharm。信息了解提前了解大模型種類和目前主流的廠商,注冊百度AI開放平臺賬號。資源學(xué)習(xí)了解產(chǎn)品API調(diào)用的原理,嘗試學(xué)習(xí)API文檔。任務(wù)實施:環(huán)境搭建與API申請環(huán)境搭建使用Annaconda軟件創(chuàng)建新環(huán)境“myChat”,選擇Python3.8.20版本,安裝Flask和requests依賴。任務(wù)實施:環(huán)境搭建與API申請環(huán)境搭建使用Annaconda軟件創(chuàng)建新環(huán)境“myChat”,選擇Python3.8.20版本,安裝Flask和requests依賴。任務(wù)實施:環(huán)境搭建與API申請環(huán)境搭建使用Annaconda軟件創(chuàng)建新環(huán)境“myChat”,選擇Python3.8.20版本,安裝Flask和requests依賴。任務(wù)實施:環(huán)境搭建與API申請文心一言API申請在百度AI開放平臺注冊登錄,進(jìn)入百度智能云控制臺,創(chuàng)建應(yīng)用,獲取APIKey和SecretKey。任務(wù)實施:環(huán)境搭建與API申請文心一言API申請在百度AI開放平臺注冊登錄,進(jìn)入百度智能云控制臺,創(chuàng)建應(yīng)用,獲取APIKey和SecretKey。任務(wù)實施:環(huán)境搭建與API申請文心一言API申請在百度AI開放平臺注冊登錄,進(jìn)入百度智能云控制臺,創(chuàng)建應(yīng)用,獲取APIKey和SecretKey。任務(wù)實施:創(chuàng)建項目使用PyCharm創(chuàng)建項目根據(jù)提前設(shè)置好的Conda環(huán)境,創(chuàng)新新的項目完成代碼編寫以實現(xiàn)具體功能任務(wù)實施:創(chuàng)建項目使用PyCharm創(chuàng)建項目根據(jù)提前設(shè)置好的Conda環(huán)境,創(chuàng)新新的項目完成代碼編寫以實現(xiàn)具體功能任務(wù)實施:功能實現(xiàn)(后端代碼)獲取訪問令牌定義get_access_token()函數(shù),從百度AI中心獲取本實驗的訪問令牌。任務(wù)實施:功能實現(xiàn)(后端代碼)收發(fā)消息模塊定義get_baidu_reply()函數(shù),負(fù)責(zé)向文心一言收發(fā)消息。任務(wù)實施:功能實現(xiàn)(后端代碼)處理前端交互定義/chat路由,處理前端交互,將文心一言的回復(fù)以JSON格式返回。任務(wù)檢測:運行與測試運行項目右擊“App.py”文件運行,終端顯示運行地址。測試聊天機(jī)器人通過瀏覽器訪問“:5000”,輸入消息,驗證對話功能是否正常。NLP技術(shù)的現(xiàn)實意義總結(jié)應(yīng)用場景NLP在生活中的應(yīng)用包括智能助手、翻譯等。核心認(rèn)知技術(shù)改變?nèi)藱C(jī)交互,帶來便利,呼應(yīng)開篇李明的故事。文檔重點內(nèi)容回顧
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年茂名市電白區(qū)電城中學(xué)招聘合同制教師備考題庫及答案詳解一套
- 2025年市場化選聘中國瑞林工程技術(shù)股份有限公司財務(wù)總監(jiān)、法務(wù)總監(jiān)備考題庫及一套完整答案詳解
- 高中生運用歷史GIS技術(shù)考察新航路開辟商業(yè)網(wǎng)絡(luò)條件課題報告教學(xué)研究課題報告
- 2025年上海第九人民醫(yī)院成果轉(zhuǎn)化辦公室招聘辦公室工作人員備考題庫完整答案詳解
- 2025年實驗室與設(shè)備管理處校內(nèi)招聘備考題庫及完整答案詳解一套
- 2025年國家管網(wǎng)集團(tuán)西北公司招聘備考題庫及一套答案詳解
- 2025年雄安人才服務(wù)有限公司運營統(tǒng)籌、品質(zhì)管理崗等崗位招聘備考題庫完整參考答案詳解
- 2025年北京老年醫(yī)院面向應(yīng)屆畢業(yè)生公開招聘43人備考題庫及參考答案詳解
- 2025年恒豐銀行廣州分行社會招聘備考題庫及一套答案詳解
- 2025年合肥市檔案館公開招聘政府購買服務(wù)崗位人員備考題庫及答案詳解1套
- 污水廠冬季安全生產(chǎn)培訓(xùn)課件
- 有色金屬冶煉安全培訓(xùn)
- 工程設(shè)計安全合同6篇
- 鐵路隧道及地下工程施工階段異常工況安全處置指導(dǎo)意見暫行
- 暗物質(zhì)衰變產(chǎn)物-洞察及研究
- T-CNLIC 0164-2024 白蕓豆提取物
- 感染科入科教育
- 基于PLC的自動灌溉系統(tǒng)設(shè)計
- 2024csco前列腺癌診療指南
- 上海市社區(qū)工作者管理辦法
- 國際私法-004-國開機(jī)考復(fù)習(xí)資料
評論
0/150
提交評論