人工智能通識(基礎(chǔ)、技術(shù)、前沿、倫理與實(shí)踐)-課件-第4章 自然語言處理_第1頁
人工智能通識(基礎(chǔ)、技術(shù)、前沿、倫理與實(shí)踐)-課件-第4章 自然語言處理_第2頁
人工智能通識(基礎(chǔ)、技術(shù)、前沿、倫理與實(shí)踐)-課件-第4章 自然語言處理_第3頁
人工智能通識(基礎(chǔ)、技術(shù)、前沿、倫理與實(shí)踐)-課件-第4章 自然語言處理_第4頁
人工智能通識(基礎(chǔ)、技術(shù)、前沿、倫理與實(shí)踐)-課件-第4章 自然語言處理_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能通識——基礎(chǔ)、技術(shù)、前沿、倫理與實(shí)踐主講教師和作者林子雨簡介廈門大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授以第一作者編著18本大數(shù)據(jù)與人工智能教材被國內(nèi)1000余所高校采用榮獲“2022年福建省高等教育教學(xué)成果獎特等獎(個人排名第一)”入選“2021年高校計(jì)算機(jī)專業(yè)優(yōu)秀教師獎勵計(jì)劃”2018年國家精品在線開放課程(獨(dú)立主講)2020年國家級線上一流本科課程(獨(dú)立主講)2021年國家級線上一流本科課程(獨(dú)立主講)入選“2023年教育部國家智慧教育公共服務(wù)平臺應(yīng)用典型案例”大模型科普報(bào)告全網(wǎng)瀏覽量超過1000萬《人工智能通識——基礎(chǔ)、技術(shù)、前沿、倫理與實(shí)踐》教材《人工智能通識》林子雨

編著人民郵電出版社2025年11月第1版ISBN:978-7-115-68359-5定價:59.80元教材官網(wǎng)提供詳細(xì)信息和樣書申請官網(wǎng):/post/ai-introduction/掃碼訪問教材官網(wǎng)了解詳情、獲取資源、申請樣書教材官網(wǎng)提供配套教學(xué)資源:教學(xué)大綱、講義PPT、上機(jī)實(shí)驗(yàn)手冊、案例視頻、MOOC視頻、大模型科普講座PPT、大模型講座視頻和1000道題庫等第4章自然語言處理目錄01自然語言處理概述02自然語言處理的核心基礎(chǔ)任務(wù)03自然語言處理的典型應(yīng)用場景04實(shí)驗(yàn)1:分詞工具Jieba的使用方法

05實(shí)驗(yàn)2:對文本進(jìn)行情感分析01自然語言處理概述Partone4.1自然語言處理概述什么是自然語言處理自然語言處理的重要性與應(yīng)用價值自然語言處理的發(fā)展簡史4.1.1什么是自然語言處理定義自然語言處理是指讓計(jì)算機(jī)接受用戶自然語言形式的輸入,并在內(nèi)部通過人類所定義的算法進(jìn)行加工、計(jì)算等系列操作,以模擬人類對自然語言的理解,并返回用戶所期望的結(jié)果。應(yīng)用自然語言處理的目的在于用計(jì)算機(jī)代替人工來處理大規(guī)模的自然語言信息。自然語言處理在很大程度上與計(jì)算語言學(xué)重合,是計(jì)算機(jī)科學(xué)與語言學(xué)的交叉學(xué)科,也是人工智能的重要方向。目標(biāo)自然語言處理的研究,能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。讓計(jì)算機(jī)能夠確切理解人類的語言并自然地與人進(jìn)行交互,是自然語言處理的最終目標(biāo)。4.1.2自然語言處理的重要性與應(yīng)用價值社會層面產(chǎn)業(yè)層面技術(shù)層面?zhèn)€人層面重要性與應(yīng)用價值4.1.2自然語言處理的重要性與應(yīng)用價值技術(shù)層面人工智能“認(rèn)知能力”的核心標(biāo)志。語言是人類思維的載體,理解語言意味著計(jì)算機(jī)能觸及人類認(rèn)知的核心。例如,能回答“為什么秋天樹葉會變黃”的AI,不僅需要存儲知識,更需理解“為什么”所指向的因果關(guān)系。這種能力是AI從“執(zhí)行指令”(如計(jì)算器)邁向“模擬思考”的關(guān)鍵。自然語言處理的突破(如GPT系列模型),本質(zhì)上推動了AI從“工具屬性”向“助手屬性”的跨越。4.1.2自然語言處理的重要性與應(yīng)用價值社會層面打破信息壁壘,提升效率在信息爆炸的時代,自然語言處理是信息篩選與傳遞的“超級翻譯官”跨語言溝通實(shí)時翻譯工具(如百度翻譯、科大訊飛翻譯機(jī))讓不同語言使用者實(shí)現(xiàn)無障礙交流,推動全球化協(xié)作(如跨國會議、外貿(mào)溝通)。智能搜索(如百度的語義搜索)能理解“如何在三天內(nèi)規(guī)劃廈門親子游”這類復(fù)雜需求,而非僅匹配關(guān)鍵詞,大幅降低信息獲取成本。語音轉(zhuǎn)文字技術(shù)(如訊飛聽見)幫助聽障人士“閱讀”聲音,文字轉(zhuǎn)語音技術(shù)幫助視障人士“聆聽”文字,體現(xiàn)技術(shù)的包容性。?信息獲取特殊群體支持4.1.2自然語言處理的重要性與應(yīng)用價值產(chǎn)業(yè)層面重塑千行百業(yè)的工作模式。幾乎所有依賴“語言信息處理”的行業(yè),都因自然語言處理發(fā)生變革。AI寫作工具(如文案生成器)可根據(jù)“推廣一款低糖蛋糕”的需求,自動生成符合品牌調(diào)性的宣傳語,同時保留人類創(chuàng)作者的創(chuàng)意主導(dǎo)權(quán)。內(nèi)容創(chuàng)作領(lǐng)域智能客服能瞬間解答“信用卡逾期影響征信嗎”

等高頻問題,同時通過分析用戶投訴文本(如“貸款審批太慢”)自動歸類需求,推動業(yè)務(wù)優(yōu)化。金融領(lǐng)域NLP技術(shù)可從病歷文本中提取關(guān)鍵信息(如“患者有高血壓病史”),輔助醫(yī)生快速掌握病情,甚至通過分析醫(yī)學(xué)文獻(xiàn)自動生成“肺癌最新治療方案”摘要。醫(yī)療領(lǐng)域作文批改系統(tǒng)能識別“語句不通順”“邏輯斷層”等問題,并給出修改建議,減輕教師重復(fù)勞動。教育領(lǐng)域4.1.2自然語言處理的重要性與應(yīng)用價值個人層面重構(gòu)日常生活的交互體驗(yàn)。從清晨被智能音箱(如小愛同學(xué))播報(bào)“今日天氣與日程”,到用手機(jī)APP查詢“附近評分最高的川菜館”,再到通過聊天機(jī)器人解決快遞售后問題,自然語言處理已滲透到生活的細(xì)節(jié)中,其核心價值在于讓人機(jī)交互“零學(xué)習(xí)成本”,無需記憶復(fù)雜操作(如點(diǎn)擊多級菜單),只需像和人說話一樣發(fā)出指令。4.1.3自然語言處理的發(fā)展簡史階段一:基于規(guī)則的方法自然語言處理的最早階段主要采用基于規(guī)則的方法,通過人工定義語法和規(guī)則來解析和生成文本。這些方法的局限性在于難以涵蓋語言的復(fù)雜性和多樣性,因?yàn)橐?guī)則需要人為設(shè)計(jì)且難以適應(yīng)不同的語境。4.1.3自然語言處理的發(fā)展簡史階段二:統(tǒng)計(jì)學(xué)習(xí)方法隨著統(tǒng)計(jì)學(xué)習(xí)方法的興起,自然語言處理進(jìn)入了統(tǒng)計(jì)學(xué)習(xí)階段。該階段的代表性方法包括隱馬爾可夫模型和最大熵模型。這些方法通過從大量語料中學(xué)習(xí)統(tǒng)計(jì)規(guī)律來解決語言處理問題,提高了模型的泛化能力。4.1.3自然語言處理的發(fā)展簡史階段三:詞向量與詞嵌入隨著深度學(xué)習(xí)的興起,自然語言處理迎來了詞向量與詞嵌入的時代。Word2Vec和FastText等算法通過將單詞映射到高維空間的向量表示,實(shí)現(xiàn)了對語義信息的更好捕捉。這使得計(jì)算機(jī)能夠更好地理解語義關(guān)系和上下文信息。4.1.3自然語言處理的發(fā)展簡史階段四:深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的廣泛應(yīng)用,推動了自然語言處理領(lǐng)域的進(jìn)一步發(fā)展。循環(huán)神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)等模型,在序列標(biāo)注、機(jī)器翻譯等任務(wù)上取得了顯著的成果。隨后,注意力機(jī)制和Transformer模型的提出,進(jìn)一步提升了自然語言處理的性能,例如BERT、GPT等模型。02自然語言處理的核心基礎(chǔ)任務(wù)?Parttwo4.2自然語言處理的核心基礎(chǔ)任務(wù)文本分類:情感分析與主題識別關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)命名實(shí)體識別:從文本中提取關(guān)鍵信息文本聚類:相似文本的自動歸組信息檢索:快速找到所需內(nèi)容4.2.1文本分類:情感分析與主題識別文本分類是自然語言處理中最基礎(chǔ)、應(yīng)用最廣泛的任務(wù)之一,其核心是將非結(jié)構(gòu)化文本按照預(yù)設(shè)的類別體系進(jìn)行自動劃分。情感分析與主題識別是文本分類中兩個典型且高度實(shí)用的子任務(wù):前者聚焦文本的主觀情感傾向,后者關(guān)注文本的客觀核心內(nèi)容。兩者雖目標(biāo)不同,但均依賴對文本語義的深層理解,且共同構(gòu)成了從“文本內(nèi)容”到“文本意義”的解析鏈條。4.2.1文本分類:情感分析與主題識別情感分析情感分析(又稱情感分類)是對文本中蘊(yùn)含的主觀情感、態(tài)度、傾向進(jìn)行自動識別和提取的任務(wù)。它旨在回答“文本表達(dá)了正面、負(fù)面還是中性的情感?”“情感的強(qiáng)度如何?”“具體針對什么對象表達(dá)情感?”等問題。情感分析的目標(biāo)可按粒度劃分為多個層次:判斷文本的情感傾向(正面/負(fù)面/中性)。極性分類(最基礎(chǔ))量化情感的強(qiáng)烈程度。情感強(qiáng)度分析識別具體情感類型,而非簡單的正負(fù)劃分。情感維度識別4.2.1文本分類:情感分析與主題識別情感分析情感分析的難點(diǎn)源于人類情感表達(dá)的復(fù)雜性和隱晦性,主要體現(xiàn)在:上下文依賴同一詞匯在不同語境中情感傾向可能反轉(zhuǎn)。文化與領(lǐng)域差異不同文化對情感表達(dá)的習(xí)慣不同;不同領(lǐng)域的情感詞匯體系差異大。諷刺與反語字面意義與真實(shí)情感完全相反。情感模糊性文本可能包含混合情感或弱情感,邊界模糊導(dǎo)致分類困難。4.2.1文本分類:情感分析與主題識別情感分析情感分析的典型應(yīng)用場景包括:輿情監(jiān)控實(shí)時分析社交媒體(如微博)中關(guān)于品牌、事件的情感傾向(如“某明星緋聞引發(fā)的負(fù)面輿情擴(kuò)散速度”)??头詣踊詣幼R別用戶投訴的情感強(qiáng)度(如“憤怒”需優(yōu)先處理),提升響應(yīng)效率。電商與消費(fèi)領(lǐng)域分析商品評論(如“差評集中在物流”),輔助商家改進(jìn)產(chǎn)品和服務(wù),幫助用戶決策。4.2.1文本分類:情感分析與主題識別主題識別主題識別是從文本中自動提取核心議題或主題的任務(wù),旨在回答“文本在討論什么內(nèi)容?”。例如,新聞“央行下調(diào)存款準(zhǔn)備金率,釋放1.2萬億元流動性”的主題是“貨幣政策調(diào)整”;用戶評論“電池用半天就沒電,充電還慢”的主題是“產(chǎn)品續(xù)航與充電速度”。主題提取的核心目標(biāo)包括:從文本中挖掘潛在的核心主題(如價格、質(zhì)量、服務(wù)),通常以關(guān)鍵詞或短語形式呈現(xiàn)。主題提取將文本歸入預(yù)設(shè)的主題類別體系(如新聞分為“政治”、“經(jīng)濟(jì)”、“體育”)。主題分類發(fā)現(xiàn)文本集合中隱藏的主題結(jié)構(gòu)(如多篇影評中共同討論的“劇情”、“演員”、“特效”)。主題建模4.2.1文本分類:情感分析與主題識別主題識別主題識別的難點(diǎn)在于文本內(nèi)容的多樣性和主題的模糊性:單篇文本可能涉及多個主題。主題重疊與交叉不同領(lǐng)域的主題體系差異極大。領(lǐng)域依賴性短文本(如微博、聊天記錄)信息有限,關(guān)鍵詞少,難以準(zhǔn)確識別主題。短文本主題稀疏語言的動態(tài)性導(dǎo)致新主題不斷涌現(xiàn),模型需實(shí)時適應(yīng)。新興主題的動態(tài)追蹤4.2.1文本分類:情感分析與主題識別主題識別主題識別的典型應(yīng)用場景包括:新聞APP按“科技”、“娛樂”等主題分類,實(shí)現(xiàn)個性化推薦;學(xué)術(shù)論文按“機(jī)器學(xué)習(xí)”、“計(jì)算機(jī)視覺”等主題聚類,輔助文獻(xiàn)檢索。內(nèi)容聚合與推薦電商平臺從海量評論中提取“物流”、“包裝”、“售后”等主題,針對性改進(jìn)服務(wù)(如發(fā)現(xiàn)“物流慢”是高頻主題,則優(yōu)化配送流程)。用戶反饋分析監(jiān)控社交媒體中與某事件相關(guān)的主題演變(如某政策發(fā)布后,公眾討論從“政策內(nèi)容”逐漸轉(zhuǎn)向“實(shí)施效果”)。輿情主題追蹤4.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)關(guān)系抽取是自然語言處理的核心基礎(chǔ)任務(wù)之一,旨在從非結(jié)構(gòu)化文本中識別出實(shí)體對之間的語義關(guān)聯(lián),是構(gòu)建知識圖譜、語義理解、智能問答等高級任務(wù)的關(guān)鍵支撐。例如,從句子“馬斯克是特斯拉的CEO”中,抽取實(shí)體對(馬斯克,特斯拉),并識別出二者的關(guān)系為“任職于(CEO)”。關(guān)系抽取的核心目標(biāo)就是輸出結(jié)構(gòu)化的“實(shí)體-關(guān)系-實(shí)體”三元組,如(馬斯克,任職于,特斯拉),將非結(jié)構(gòu)化文本轉(zhuǎn)化為機(jī)器可理解的結(jié)構(gòu)化知識,為后續(xù)的知識組織、推理和應(yīng)用奠定基礎(chǔ)。4.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)根據(jù)關(guān)系的預(yù)定義范圍和抽取場景,關(guān)系抽取可分為以下幾類:關(guān)系類型是預(yù)定義的、有限的,通常針對特定領(lǐng)域(如醫(yī)療、金融、法律)或通用但數(shù)量固定的關(guān)系集合(如“上下位關(guān)系”“部分-整體關(guān)系”)。比如,在醫(yī)療領(lǐng)域,預(yù)定義關(guān)系可能包括“藥物-治療-疾病”“基因-關(guān)聯(lián)-疾病”等;通用領(lǐng)域常見關(guān)系如“人物-出生地-地點(diǎn)”、“公司-總部位于-地點(diǎn)”。限定域關(guān)系抽取不限制關(guān)系類型,旨在從文本中抽取所有可能的語義關(guān)系,甚至包括未預(yù)定義的關(guān)系(如“合作開發(fā)”、“資助”等)。需要模型具備更強(qiáng)的語義泛化能力,避免被固定關(guān)系類型束縛。開放域關(guān)系抽取一是句內(nèi)關(guān)系抽取,實(shí)體對和關(guān)系均存在于同一句話中,比如“魯迅創(chuàng)作了《吶喊》”,實(shí)體對(魯迅,《吶喊》)的關(guān)系為“創(chuàng)作”。二是句間關(guān)系抽取,實(shí)體對的關(guān)系需要結(jié)合多個句子甚至段落的上下文才能確定,比如段落中先提到“張三在A公司工作”,后提到“A公司的總部在上海”,則可抽?。◤埲ぷ鞯攸c(diǎn)所屬,上海)。按抽取范圍劃分4.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)盡管技術(shù)不斷進(jìn)步,關(guān)系抽取仍面臨以下關(guān)鍵難題:關(guān)系抽取依賴實(shí)體識別結(jié)果,如果實(shí)體邊界或類型識別錯誤(如將“蘋果公司”誤分為“水果”),會直接導(dǎo)致關(guān)系抽取失敗。實(shí)體識別誤差的傳導(dǎo)同一實(shí)體對在不同語境中可能對應(yīng)不同關(guān)系。例如,“張三和李四在銀行見面”中“銀行”是地點(diǎn),而“張三在銀行工作”中“銀行”是機(jī)構(gòu),二者與“張三”的關(guān)系不同。關(guān)系的歧義性與復(fù)雜性復(fù)雜句(如嵌套句、多實(shí)體句)中,實(shí)體對可能存在多層關(guān)系。例如,“A公司的子公司B收購了C公司的產(chǎn)品D”中,存在(B,C)是“收購”關(guān)系、(A,B)是“子公司”關(guān)系等多重關(guān)系,容易混淆。實(shí)體對可能存在多層關(guān)系文本中實(shí)體對的關(guān)系可能未通過顯式動詞表達(dá),需要結(jié)合上下文推理。例如,“張三畢業(yè)于清華大學(xué),現(xiàn)任職于百度”中,(張三,百度)的“任職”關(guān)系是顯式的,但(張三,清華大學(xué))的“畢業(yè)于”關(guān)系需要從“畢業(yè)于”推斷,而更復(fù)雜的如“張三的導(dǎo)師是李四,李四的研究方向是AI”中,(張三,AI)的“研究相關(guān)”關(guān)系則是隱式的。隱式關(guān)系的抽取不同領(lǐng)域(如醫(yī)療、法律)的關(guān)系類型和表達(dá)習(xí)慣差異大(如醫(yī)療領(lǐng)域的“藥物-適應(yīng)癥”關(guān)系,法律領(lǐng)域的“原告-被告”關(guān)系),模型在一個領(lǐng)域訓(xùn)練后,遷移到新領(lǐng)域時性能會顯著下降(領(lǐng)域偏移問題)。領(lǐng)域適應(yīng)性差高質(zhì)量的關(guān)系標(biāo)注數(shù)據(jù)需要專家手動標(biāo)注,成本極高(尤其是專業(yè)領(lǐng)域),而無標(biāo)注數(shù)據(jù)的利用(如遠(yuǎn)程監(jiān)督)可能引入噪聲(標(biāo)注錯誤),影響模型性能。?標(biāo)注數(shù)據(jù)的稀缺性4.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)關(guān)系抽取的結(jié)構(gòu)化輸出(三元組)是許多NLP系統(tǒng)的核心支撐,典型應(yīng)用包括:醫(yī)療與法律信息抽取輿情分析與風(fēng)險監(jiān)控智能問答與信息檢索知識圖譜構(gòu)建典型應(yīng)用4.2.3命名實(shí)體識別:從文本中提取關(guān)鍵信息命名實(shí)體識別(NamedEntityRecognition,簡稱NER)是自然語言處理中的核心基礎(chǔ)任務(wù)之一,其核心目標(biāo)是從非結(jié)構(gòu)化文本中自動識別并提取出具有特定意義的“命名實(shí)體”,并將其歸類到預(yù)定義的類別中(如人名、地名、組織名等)。這些實(shí)體是文本中承載關(guān)鍵信息的核心單元,例如,“深圳”、“華為公司”、“2025年”等,命名實(shí)體識別的結(jié)果為后續(xù)的信息抽取、知識圖譜構(gòu)建、問答系統(tǒng)等任務(wù)提供了重要基礎(chǔ)。4.2.3命名實(shí)體識別:從文本中提取關(guān)鍵信息命名實(shí)體識別的核心目標(biāo)可以概括為兩點(diǎn):確定文本中哪些字符串是命名實(shí)體(例如,從“張三在華為工作”

中識別出“張三”和“華為”是實(shí)體,而非“張”、“三在”等);識別“實(shí)體邊界”將識別出的實(shí)體歸類到預(yù)定義類別(例如,“張三”屬于“人名”,“華為”屬于“組織名”)。標(biāo)注“實(shí)體類型”通過命名實(shí)體識別,非結(jié)構(gòu)化文本可以轉(zhuǎn)化為結(jié)構(gòu)化的“實(shí)體-類型”對,從而實(shí)現(xiàn)對文本關(guān)鍵信息的高效提取和理解。4.2.3命名實(shí)體識別:從文本中提取關(guān)鍵信息命名實(shí)體識別是許多自然語言處理下游任務(wù)的“前置步驟”,其結(jié)果直接影響后續(xù)任務(wù)的效果,典型應(yīng)用包括:輿情分析機(jī)器翻譯問答系統(tǒng)知識圖譜構(gòu)建05040302典型應(yīng)用信息抽取與結(jié)構(gòu)化014.2.4文本聚類:相似文本的自動歸組文本聚類是自然語言處理中典型的無監(jiān)督學(xué)習(xí)任務(wù),核心目標(biāo)是將無標(biāo)簽的文本集合自動劃分成若干個“簇”(Cluster),使得同一簇內(nèi)的文本具有較高的相似度,而不同簇內(nèi)的文本相似度較低。它通過挖掘文本間的潛在關(guān)聯(lián),實(shí)現(xiàn)對海量文本的自動歸組,為后續(xù)的數(shù)據(jù)分析、信息檢索或決策支持提供基礎(chǔ)。4.2.4文本聚類:相似文本的自動歸組文本聚類的核心價值在于從無序文本中發(fā)現(xiàn)隱藏的結(jié)構(gòu)和模式,具體可概括為:數(shù)據(jù)簡化將海量文本壓縮為若干簇,降低數(shù)據(jù)復(fù)雜度,便于人工或機(jī)器進(jìn)一步分析。模式發(fā)現(xiàn)挖掘文本集合中潛在的主題、趨勢或群體特征(例如,用戶評論中自動發(fā)現(xiàn)“產(chǎn)品質(zhì)量”、“物流速度”等討論主題)。無監(jiān)督學(xué)習(xí)適配在缺乏標(biāo)注數(shù)據(jù)(標(biāo)簽)的場景下,替代有監(jiān)督的文本分類完成初步分組。異常檢測通過識別“離群點(diǎn)”(與所有簇差異較大的文本),發(fā)現(xiàn)異常內(nèi)容(如垃圾郵件、惡意評論)。010203044.2.4文本聚類:相似文本的自動歸組文本聚類和文本分類都屬于文本分組任務(wù),但本質(zhì)差異顯著,下表給出了二者的區(qū)別。維度文本聚類文本分類監(jiān)督方式無監(jiān)督(無需標(biāo)注數(shù)據(jù),依賴文本自身特征)有監(jiān)督(需要標(biāo)注好的訓(xùn)練數(shù)據(jù),學(xué)習(xí)標(biāo)簽與特征的映射)目標(biāo)發(fā)現(xiàn)隱藏的自然分組(簇)按預(yù)定義標(biāo)簽(類別)劃分文本適用場景數(shù)據(jù)無標(biāo)簽、探索性分析(如未知主題發(fā)現(xiàn))數(shù)據(jù)有標(biāo)簽、目標(biāo)明確(如情感極性分類:正面/負(fù)面)結(jié)果解釋簇的含義需人工后驗(yàn)解讀(可能不明確)類別含義預(yù)先定義(如“體育”“科技”)4.2.4文本聚類:相似文本的自動歸組文本聚類目前面臨的關(guān)鍵技術(shù)難點(diǎn)包括:同一聚類算法在新聞文本上表現(xiàn)好,在專業(yè)論文(如醫(yī)學(xué)、法律)上可能效果差(因術(shù)語密集、語義復(fù)雜),需結(jié)合領(lǐng)域知識優(yōu)化預(yù)處理或特征表示。領(lǐng)域適應(yīng)性文本向量化后通常形成高維向量(如詞匯表規(guī)模達(dá)10萬級),且多數(shù)維度值為0(稀疏),導(dǎo)致聚類算法效率低、距離計(jì)算失真。高維稀疏問題同一詞可能有不同含義(如“蘋果”指水果或公司),不同詞可能表達(dá)同一語義(如“打車”和“叫車”),傳統(tǒng)基于詞頻的方法難以捕捉深層語義。語義模糊性多數(shù)算法(如K-Means)需預(yù)先指定簇?cái)?shù)量,但實(shí)際場景中“合理的簇?cái)?shù)量”往往未知,需通過經(jīng)驗(yàn)或網(wǎng)格搜索(嘗試多個K值)解決,成本較高。簇?cái)?shù)量不確定4.2.4文本聚類:相似文本的自動歸組文本聚類在實(shí)際場景中應(yīng)用廣泛,以下是幾個典型案例:典型案例垃圾郵件過濾新聞主題自動聚合用戶評論分析學(xué)術(shù)文獻(xiàn)管理社交媒體監(jiān)控4.2.5信息檢索:快速找到所需內(nèi)容信息檢索是自然語言處理中與實(shí)際應(yīng)用結(jié)合最緊密的核心基礎(chǔ)任務(wù)之一,其目標(biāo)是從大規(guī)模文本數(shù)據(jù)中快速、準(zhǔn)確地找到與用戶查詢相關(guān)的信息。無論是搜索引擎(如谷歌、百度)、智能問答系統(tǒng),還是文獻(xiàn)管理工具(如知網(wǎng)、PubMed),都依賴信息檢索技術(shù)實(shí)現(xiàn)高效的內(nèi)容匹配與篩選。4.2.5信息檢索:快速找到所需內(nèi)容信息檢索的核心目標(biāo)包括:返回的結(jié)果與用戶查詢的匹配程度高。相關(guān)性在海量數(shù)據(jù)中快速響應(yīng)查詢(通常毫秒級)。效率盡可能覆蓋所有相關(guān)信息(召回率),同時減少無關(guān)信息(精確率)。召回率與精確率平衡深層理解查詢背后的真實(shí)需求(如歧義、多意圖、模糊查詢等)。用戶意圖理解4.2.5信息檢索:快速找到所需內(nèi)容目前階段,信息檢索面臨如下關(guān)鍵挑戰(zhàn):

傳統(tǒng)方法依賴詞匯匹配,難以處理同義詞(如“土豆”與“馬鈴薯”)、歧義(如“蘋果”指水果或公司)、多語言查詢等。

用戶查詢可能簡短(如“附近美食”)、不明確(如“如何學(xué)好它”),需結(jié)合上下文或用戶歷史推斷意圖。

海量數(shù)據(jù)(如互聯(lián)網(wǎng)網(wǎng)頁)導(dǎo)致索引維護(hù)成本高,且新內(nèi)容(如實(shí)時新聞)需快速更新,考驗(yàn)系統(tǒng)的實(shí)時性。01語義理解不足02用戶意圖模糊03數(shù)據(jù)規(guī)模與動態(tài)性

不同用戶對同一查詢的需求可能不同(如“java”對程序員指編程語言,對咖啡愛好者指咖啡),需結(jié)合用戶畫像實(shí)現(xiàn)個性化推薦。04個性化需求

除文本外,用戶可能需要檢索圖片、視頻等(如用文本“紅色玫瑰花”檢索相關(guān)圖片),需跨模態(tài)匹配技術(shù)。05多模態(tài)檢索4.2.5信息檢索:快速找到所需內(nèi)容信息檢索的典型應(yīng)用場景包括:典型應(yīng)用搜索引擎01電商商品檢索?05企業(yè)知識庫檢索04智能問答系統(tǒng)02文獻(xiàn)檢索0303自然語言處理的典型應(yīng)用場景Partthree4.3自然語言處理的典型應(yīng)用場景自然語言處理主要包括以下典型應(yīng)用場景:?01機(jī)器翻譯?02智能問答系統(tǒng)?03文本摘要05對話系統(tǒng)與聊天機(jī)器人04情感分析?典型應(yīng)用場景04實(shí)驗(yàn)1:分詞工具Jieba的使用方法

Partfour4.4實(shí)驗(yàn)1:分詞工具Jieba的使用方法Jieba簡介Jieba的使用方法使用Jieba對文本進(jìn)行分詞后繪制詞云圖4.4.1Jieba簡介Jieba分詞是一款流行的中文分詞工具包。jieba分詞采用的是基于統(tǒng)計(jì)的分詞方法,首先給定大量已經(jīng)分好詞的文本,利用機(jī)器學(xué)習(xí)的方法,學(xué)習(xí)分詞規(guī)律,然后保存訓(xùn)練好的模型,從而實(shí)現(xiàn)對新的文本的分詞。結(jié)巴中文分詞支持的三種分詞模式包括:試圖將句子最精確地切開,適合文本分析;精確模式把句子中所有的可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義問題;全模式在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。搜索引擎模式

執(zhí)行如下命令就可以在Python3環(huán)境中安裝Jieba分詞工具:>pipinstalljieba-i/simple4.4.2Jieba的使用方法這里給出一個實(shí)例演示使用Jieba進(jìn)行中文分詞的具體方法:importjieba#全模式text="我來到廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室"seg_list=jieba.cut(text,cut_all=True)print(u"[全模式]:","/".join(seg_list))#精確模式seg_list=jieba.cut(text,cut_all=False)print(u"精確模式]:","/".join(seg_list))#默認(rèn)是精確模式seg_list=jieba.cut(text)print(u"[默認(rèn)模式]:","/".join(seg_list))#搜索引擎模式seg_list=jieba.cut_for_search(text)print(u"[搜索引擎模式]:","/".join(seg_list))4.4.2Jieba的使用方法代碼中函數(shù)簡單介紹如下:jieba.cut():第一個參數(shù)為需要分詞的字符串,第二個cut_all控制是否為全模式。jieba.cut_for_search():僅一個參數(shù),為分詞的字符串,該方法適合用于搜索引擎構(gòu)造倒排索引的分詞,粒度比較細(xì)。4.4.2Jieba的使用方法代碼的執(zhí)行結(jié)果如下:[全模式]:我/來到/廈門/廈門大學(xué)/大學(xué)/數(shù)據(jù)/數(shù)據(jù)庫/據(jù)庫/實(shí)驗(yàn)/實(shí)驗(yàn)室精確模式]:我/來到/廈門大學(xué)/數(shù)據(jù)庫/實(shí)驗(yàn)室[默認(rèn)模式]:我/來到/廈門大學(xué)/數(shù)據(jù)庫/實(shí)驗(yàn)室[搜索引擎模式]:我/來到/廈門/大學(xué)/廈門大學(xué)/數(shù)據(jù)/據(jù)庫/數(shù)據(jù)庫/實(shí)驗(yàn)/實(shí)驗(yàn)室4.4.3使用Jieba對文本進(jìn)行分詞后繪制詞云圖

詞云圖(WordCloud)是一種將文本數(shù)據(jù)中出現(xiàn)頻率較高的關(guān)鍵詞以視覺化方式呈現(xiàn)的圖形,其核心特點(diǎn)是關(guān)鍵詞出現(xiàn)頻率越高,在圖中顯示的字體越大、越突出,反之則越小,從而直觀地反映文本的核心主題和關(guān)鍵信息。wordcloud是優(yōu)秀的詞云展示第三方庫,它可以根據(jù)文本中詞語出現(xiàn)的頻率等參數(shù)繪制詞云,而且詞云的繪制形狀、尺寸和顏色都可以設(shè)定。Python安裝好以后,默認(rèn)是沒有安裝wordcloud庫的,需要單獨(dú)安裝。在Windows操作系統(tǒng)中打開一個cmd命令界面,執(zhí)行如下命令安裝wordcloud庫:>pipinstallwordcloud在使用wordcloud制作詞云時,首先要聲明一個WordCloud對象,語法如下:w=wordcloud.WordCloud(<參數(shù)>);4.4.3使用Jieba對文本進(jìn)行分詞后繪制詞云圖

一個WordCloud對象w可以使用的基本函數(shù)如下。w.generate():向WordCloud對象中加載文本。w.to_file(filename):將詞云輸出為圖像文件(PNG或JPG格式)。4.4.3使用Jieba對文本進(jìn)行分詞后繪制詞云圖

對于一個WordCloud對象w,可以配置如表所示的各種參數(shù)。參數(shù)描述width指定詞云對象生成圖片的寬度,默認(rèn)為400像素實(shí)例:w=wordcloud.WordCloud(width=500)height指定詞云對象生成圖片的高度,默認(rèn)為200像素實(shí)例:w=wordcloud.WordCloud(height=300)min_font_size指定詞云中字體的最小字號,默認(rèn)為4號實(shí)例:w=wordcloud.WordCloud(min_font_size=10)max_font_size指定詞云中字體的最大字號,根據(jù)高度自動調(diào)節(jié)實(shí)例:w=wordcloud.WordCloud(max_font_size=20)font_step指定詞云中字體字號的步進(jìn)間隔,默認(rèn)為1實(shí)例:w=wordcloud.WordCloud(font_step=2)font_path指定文體文件的路徑,默認(rèn)為None實(shí)例:w=wordcloud.WordCloud(font_path="msyh.ttc")max_words指定詞云顯示的最大單詞數(shù)量,默認(rèn)為200實(shí)例:w=wordcloud.WordCloud(max_words=20)stop_words指定詞云的排除詞列表,即不顯示的單詞列表實(shí)例:w=wordcloud.WordCloud(stop_words="Python")mask指定詞云形狀,默認(rèn)為長方形實(shí)例:importimageio#需要事先安裝imageio庫mk=imageio.imread("pic.png")w=wordcloud.WordCloud(mask=mk)background_color指定詞云圖片的背景顏色,默認(rèn)為黑色實(shí)例:w=wordcloud.WordCloud(background_color="white")4.4.3使用Jieba對文本進(jìn)行分詞后繪制詞云圖

繪制詞云包含3個主要步驟。0103配置對象參數(shù)加載詞云文本02輸出文本4.4.3使用Jieba對文本進(jìn)行分詞后繪制詞云圖

下面是使用Jieba對文本進(jìn)行分詞后制作詞云的簡單實(shí)例:#wordcloud_university.pyimportjiebaimportwordcloudtxt="廈門大學(xué)設(shè)有研究生院、6個學(xué)部以及30個學(xué)院和16個研究院,形成了包括人文科學(xué)、社會科學(xué)、自然科學(xué)、工程與技術(shù)科學(xué)、管理科學(xué)、藝術(shù)科學(xué)、醫(yī)學(xué)科學(xué)等學(xué)科門類在內(nèi)的完備學(xué)科體系。學(xué)?,F(xiàn)有18個學(xué)科進(jìn)入ESI全球前1%,擁有5個一級學(xué)科國家重點(diǎn)學(xué)科、9個二級學(xué)科國家重點(diǎn)學(xué)科。學(xué)校設(shè)有32個博士后流動站;36個博士學(xué)位授權(quán)一級學(xué)科,45個碩士學(xué)位授權(quán)一級學(xué)科;8個交叉學(xué)科;1個博士專業(yè)學(xué)位學(xué)科授權(quán)類別,28個碩士專業(yè)學(xué)位學(xué)科授權(quán)類別。"w=wordcloud.WordCloud(width=1000,font_path="C:\\Windows\\Fonts\\simsun.ttc",height=700)w.generate("".join(jieba.lcut(txt)))w.to_file("university.png")4.4.3使用Jieba對文本進(jìn)行分詞后繪制詞云圖

程序執(zhí)行成功后會生成一個名稱為“university.png”的詞云圖片,如圖所示。05實(shí)驗(yàn)2:對文本進(jìn)行情感分析Partfive4.5實(shí)驗(yàn)2:對文本進(jìn)行情感分析文本情感分析(TextSentimentAnalysis)是自然語言處理的一個重要分支,它通過算法對文本中的主觀信息進(jìn)行挖掘和分析,判斷文本所表達(dá)的情感傾向,通常分為積極(正面)、消極(負(fù)面)

和中性,部分場景下還會進(jìn)一步細(xì)化為更復(fù)雜的情感(如憤怒、喜悅、悲傷等)。簡單來說,它的核心目標(biāo)是“讓計(jì)算機(jī)理解文字背后的情緒”。4.5實(shí)驗(yàn)2:對文本進(jìn)行情感分析下面給出一個文本情感分析的實(shí)例,其中用到Python第三方庫TextBlob。TextBlob是一個基于Python的開源自然語言處理庫,它提供了簡單易用的API,用于常見的文本處理任務(wù),如分詞、詞性標(biāo)注、情

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論