版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
E-mail:ziyulin@林子雨
副教授廈門(mén)大學(xué)人工智能通識(shí)——零基礎(chǔ)學(xué)AI主講教師和作者林子雨簡(jiǎn)介廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授以第一作者編著20本大數(shù)據(jù)與人工智能教材被國(guó)內(nèi)1000余所高校采用榮獲“2022年福建省高等教育教學(xué)成果獎(jiǎng)特等獎(jiǎng)(個(gè)人排名第一)”入選“2021年高校計(jì)算機(jī)專業(yè)優(yōu)秀教師獎(jiǎng)勵(lì)計(jì)劃”2018年國(guó)家精品在線開(kāi)放課程(獨(dú)立主講)2020年國(guó)家級(jí)線上一流本科課程(獨(dú)立主講)2021年國(guó)家級(jí)線上一流本科課程(獨(dú)立主講)入選“2023年教育部國(guó)家智慧教育公共服務(wù)平臺(tái)應(yīng)用典型案例”《人工智能通識(shí)——零基礎(chǔ)學(xué)AI》教材《人工智能通識(shí)——零基礎(chǔ)學(xué)AI》林子雨
編著人民郵電出版社2025年12月第1版ISBN:978-7-115-68594-0定價(jià):49.8元教材官網(wǎng)提供詳細(xì)信息和樣書(shū)申請(qǐng)官網(wǎng):/post/ai-basic/掃碼訪問(wèn)教材官網(wǎng)了解詳情、獲取資源、申請(qǐng)樣書(shū)教材官網(wǎng)提供配套教學(xué)資源:教學(xué)大綱、講義PPT、上機(jī)實(shí)驗(yàn)手冊(cè)、案例視頻、MOOC視頻、大模型科普講座PPT、大模型講座視頻和1000道題庫(kù)等第5章自然語(yǔ)言處理目錄01自然語(yǔ)言處理概述02自然語(yǔ)言處理的核心基礎(chǔ)任務(wù)03自然語(yǔ)言處理的典型應(yīng)用場(chǎng)景01自然語(yǔ)言處理概述Partone5.1自然語(yǔ)言處理概述什么是自然語(yǔ)言處理自然語(yǔ)言處理的重要性與應(yīng)用價(jià)值自然語(yǔ)言處理的發(fā)展簡(jiǎn)史5.1.1什么是自然語(yǔ)言處理定義自然語(yǔ)言處理是指讓計(jì)算機(jī)接受用戶自然語(yǔ)言形式的輸入,并在內(nèi)部通過(guò)人類所定義的算法進(jìn)行加工、計(jì)算等系列操作,以模擬人類對(duì)自然語(yǔ)言的理解,并返回用戶所期望的結(jié)果。應(yīng)用自然語(yǔ)言處理的目的在于用計(jì)算機(jī)代替人工來(lái)處理大規(guī)模的自然語(yǔ)言信息。自然語(yǔ)言處理在很大程度上與計(jì)算語(yǔ)言學(xué)重合,是計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科,也是人工智能的重要方向。目標(biāo)自然語(yǔ)言處理的研究,能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。讓計(jì)算機(jī)能夠確切理解人類的語(yǔ)言并自然地與人進(jìn)行交互,是自然語(yǔ)言處理的最終目標(biāo)。5.1.2自然語(yǔ)言處理的重要性與應(yīng)用價(jià)值社會(huì)層面產(chǎn)業(yè)層面技術(shù)層面?zhèn)€人層面重要性與應(yīng)用價(jià)值5.1.2自然語(yǔ)言處理的重要性與應(yīng)用價(jià)值技術(shù)層面人工智能“認(rèn)知能力”的核心標(biāo)志。語(yǔ)言是人類思維的載體,理解語(yǔ)言意味著計(jì)算機(jī)能觸及人類認(rèn)知的核心。例如,能回答“為什么秋天樹(shù)葉會(huì)變黃”的AI,不僅需要存儲(chǔ)知識(shí),更需理解“為什么”所指向的因果關(guān)系。這種能力是AI從“執(zhí)行指令”(如計(jì)算器)邁向“模擬思考”的關(guān)鍵。自然語(yǔ)言處理的突破(如GPT系列模型),本質(zhì)上推動(dòng)了AI從“工具屬性”向“助手屬性”的跨越。5.1.2自然語(yǔ)言處理的重要性與應(yīng)用價(jià)值社會(huì)層面打破信息壁壘,提升效率在信息爆炸的時(shí)代,自然語(yǔ)言處理是信息篩選與傳遞的“超級(jí)翻譯官”跨語(yǔ)言溝通實(shí)時(shí)翻譯工具(如百度翻譯、科大訊飛翻譯機(jī))讓不同語(yǔ)言使用者實(shí)現(xiàn)無(wú)障礙交流,推動(dòng)全球化協(xié)作(如跨國(guó)會(huì)議、外貿(mào)溝通)。智能搜索(如百度的語(yǔ)義搜索)能理解“如何在三天內(nèi)規(guī)劃廈門(mén)親子游”這類復(fù)雜需求,而非僅匹配關(guān)鍵詞,大幅降低信息獲取成本。語(yǔ)音轉(zhuǎn)文字技術(shù)(如訊飛聽(tīng)見(jiàn))幫助聽(tīng)障人士“閱讀”聲音,文字轉(zhuǎn)語(yǔ)音技術(shù)幫助視障人士“聆聽(tīng)”文字,體現(xiàn)技術(shù)的包容性。?信息獲取特殊群體支持5.1.2自然語(yǔ)言處理的重要性與應(yīng)用價(jià)值產(chǎn)業(yè)層面重塑千行百業(yè)的工作模式。幾乎所有依賴“語(yǔ)言信息處理”的行業(yè),都因自然語(yǔ)言處理發(fā)生變革。AI寫(xiě)作工具(如文案生成器)可根據(jù)“推廣一款低糖蛋糕”的需求,自動(dòng)生成符合品牌調(diào)性的宣傳語(yǔ),同時(shí)保留人類創(chuàng)作者的創(chuàng)意主導(dǎo)權(quán)。內(nèi)容創(chuàng)作領(lǐng)域智能客服能瞬間解答“信用卡逾期影響征信嗎”
等高頻問(wèn)題,同時(shí)通過(guò)分析用戶投訴文本(如“貸款審批太慢”)自動(dòng)歸類需求,推動(dòng)業(yè)務(wù)優(yōu)化。金融領(lǐng)域NLP技術(shù)可從病歷文本中提取關(guān)鍵信息(如“患者有高血壓病史”),輔助醫(yī)生快速掌握病情,甚至通過(guò)分析醫(yī)學(xué)文獻(xiàn)自動(dòng)生成“肺癌最新治療方案”摘要。醫(yī)療領(lǐng)域作文批改系統(tǒng)能識(shí)別“語(yǔ)句不通順”“邏輯斷層”等問(wèn)題,并給出修改建議,減輕教師重復(fù)勞動(dòng)。教育領(lǐng)域5.1.2自然語(yǔ)言處理的重要性與應(yīng)用價(jià)值個(gè)人層面重構(gòu)日常生活的交互體驗(yàn)。從清晨被智能音箱(如小愛(ài)同學(xué))播報(bào)“今日天氣與日程”,到用手機(jī)APP查詢“附近評(píng)分最高的川菜館”,再到通過(guò)聊天機(jī)器人解決快遞售后問(wèn)題,自然語(yǔ)言處理已滲透到生活的細(xì)節(jié)中,其核心價(jià)值在于讓人機(jī)交互“零學(xué)習(xí)成本”,無(wú)需記憶復(fù)雜操作(如點(diǎn)擊多級(jí)菜單),只需像和人說(shuō)話一樣發(fā)出指令。5.1.3自然語(yǔ)言處理的發(fā)展簡(jiǎn)史階段一:基于規(guī)則的方法自然語(yǔ)言處理的最早階段主要采用基于規(guī)則的方法,通過(guò)人工定義語(yǔ)法和規(guī)則來(lái)解析和生成文本。這些方法的局限性在于難以涵蓋語(yǔ)言的復(fù)雜性和多樣性,因?yàn)橐?guī)則需要人為設(shè)計(jì)且難以適應(yīng)不同的語(yǔ)境。5.1.3自然語(yǔ)言處理的發(fā)展簡(jiǎn)史階段二:統(tǒng)計(jì)學(xué)習(xí)方法隨著統(tǒng)計(jì)學(xué)習(xí)方法的興起,自然語(yǔ)言處理進(jìn)入了統(tǒng)計(jì)學(xué)習(xí)階段。該階段的代表性方法包括隱馬爾可夫模型和最大熵模型。這些方法通過(guò)從大量語(yǔ)料中學(xué)習(xí)統(tǒng)計(jì)規(guī)律來(lái)解決語(yǔ)言處理問(wèn)題,提高了模型的泛化能力。5.1.3自然語(yǔ)言處理的發(fā)展簡(jiǎn)史階段三:詞向量與詞嵌入隨著深度學(xué)習(xí)的興起,自然語(yǔ)言處理迎來(lái)了詞向量與詞嵌入的時(shí)代。Word2Vec和FastText等算法通過(guò)將單詞映射到高維空間的向量表示,實(shí)現(xiàn)了對(duì)語(yǔ)義信息的更好捕捉。這使得計(jì)算機(jī)能夠更好地理解語(yǔ)義關(guān)系和上下文信息。5.1.3自然語(yǔ)言處理的發(fā)展簡(jiǎn)史階段四:深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的廣泛應(yīng)用,推動(dòng)了自然語(yǔ)言處理領(lǐng)域的進(jìn)一步發(fā)展。循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)等模型,在序列標(biāo)注、機(jī)器翻譯等任務(wù)上取得了顯著的成果。隨后,注意力機(jī)制和Transformer模型的提出,進(jìn)一步提升了自然語(yǔ)言處理的性能,例如BERT、GPT等模型。02自然語(yǔ)言處理的核心基礎(chǔ)任務(wù)?Parttwo5.2自然語(yǔ)言處理的核心基礎(chǔ)任務(wù)文本分類:情感分析與主題識(shí)別關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)命名實(shí)體識(shí)別:從文本中提取關(guān)鍵信息文本聚類:相似文本的自動(dòng)歸組信息檢索:快速找到所需內(nèi)容5.2.1文本分類:情感分析與主題識(shí)別文本分類是自然語(yǔ)言處理中最基礎(chǔ)、應(yīng)用最廣泛的任務(wù)之一,其核心是將非結(jié)構(gòu)化文本按照預(yù)設(shè)的類別體系進(jìn)行自動(dòng)劃分。情感分析與主題識(shí)別是文本分類中兩個(gè)典型且高度實(shí)用的子任務(wù):前者聚焦文本的主觀情感傾向,后者關(guān)注文本的客觀核心內(nèi)容。兩者雖目標(biāo)不同,但均依賴對(duì)文本語(yǔ)義的深層理解,且共同構(gòu)成了從“文本內(nèi)容”到“文本意義”的解析鏈條。5.2.1文本分類:情感分析與主題識(shí)別情感分析情感分析(又稱情感分類)是對(duì)文本中蘊(yùn)含的主觀情感、態(tài)度、傾向進(jìn)行自動(dòng)識(shí)別和提取的任務(wù)。它旨在回答“文本表達(dá)了正面、負(fù)面還是中性的情感?”“情感的強(qiáng)度如何?”“具體針對(duì)什么對(duì)象表達(dá)情感?”等問(wèn)題。情感分析的目標(biāo)可按粒度劃分為多個(gè)層次:判斷文本的情感傾向(正面/負(fù)面/中性)。極性分類(最基礎(chǔ))量化情感的強(qiáng)烈程度。情感強(qiáng)度分析識(shí)別具體情感類型,而非簡(jiǎn)單的正負(fù)劃分。情感維度識(shí)別5.2.1文本分類:情感分析與主題識(shí)別情感分析情感分析的難點(diǎn)源于人類情感表達(dá)的復(fù)雜性和隱晦性,主要體現(xiàn)在:上下文依賴同一詞匯在不同語(yǔ)境中情感傾向可能反轉(zhuǎn)。文化與領(lǐng)域差異不同文化對(duì)情感表達(dá)的習(xí)慣不同;不同領(lǐng)域的情感詞匯體系差異大。諷刺與反語(yǔ)字面意義與真實(shí)情感完全相反。情感模糊性文本可能包含混合情感或弱情感,邊界模糊導(dǎo)致分類困難。5.2.1文本分類:情感分析與主題識(shí)別情感分析情感分析的典型應(yīng)用場(chǎng)景包括:輿情監(jiān)控實(shí)時(shí)分析社交媒體(如微博)中關(guān)于品牌、事件的情感傾向(如“某明星緋聞引發(fā)的負(fù)面輿情擴(kuò)散速度”)??头詣?dòng)化自動(dòng)識(shí)別用戶投訴的情感強(qiáng)度(如“憤怒”需優(yōu)先處理),提升響應(yīng)效率。電商與消費(fèi)領(lǐng)域分析商品評(píng)論(如“差評(píng)集中在物流”),輔助商家改進(jìn)產(chǎn)品和服務(wù),幫助用戶決策。5.2.1文本分類:情感分析與主題識(shí)別主題識(shí)別主題識(shí)別是從文本中自動(dòng)提取核心議題或主題的任務(wù),旨在回答“文本在討論什么內(nèi)容?”。例如,新聞“央行下調(diào)存款準(zhǔn)備金率,釋放1.2萬(wàn)億元流動(dòng)性”的主題是“貨幣政策調(diào)整”;用戶評(píng)論“電池用半天就沒(méi)電,充電還慢”的主題是“產(chǎn)品續(xù)航與充電速度”。主題提取的核心目標(biāo)包括:從文本中挖掘潛在的核心主題(如價(jià)格、質(zhì)量、服務(wù)),通常以關(guān)鍵詞或短語(yǔ)形式呈現(xiàn)。主題提取將文本歸入預(yù)設(shè)的主題類別體系(如新聞分為“政治”、“經(jīng)濟(jì)”、“體育”)。主題分類發(fā)現(xiàn)文本集合中隱藏的主題結(jié)構(gòu)(如多篇影評(píng)中共同討論的“劇情”、“演員”、“特效”)。主題建模5.2.1文本分類:情感分析與主題識(shí)別主題識(shí)別主題識(shí)別的難點(diǎn)在于文本內(nèi)容的多樣性和主題的模糊性:?jiǎn)纹谋究赡苌婕岸鄠€(gè)主題。主題重疊與交叉不同領(lǐng)域的主題體系差異極大。領(lǐng)域依賴性短文本(如微博、聊天記錄)信息有限,關(guān)鍵詞少,難以準(zhǔn)確識(shí)別主題。短文本主題稀疏語(yǔ)言的動(dòng)態(tài)性導(dǎo)致新主題不斷涌現(xiàn),模型需實(shí)時(shí)適應(yīng)。新興主題的動(dòng)態(tài)追蹤5.2.1文本分類:情感分析與主題識(shí)別主題識(shí)別主題識(shí)別的典型應(yīng)用場(chǎng)景包括:新聞APP按“科技”、“娛樂(lè)”等主題分類,實(shí)現(xiàn)個(gè)性化推薦;學(xué)術(shù)論文按“機(jī)器學(xué)習(xí)”、“計(jì)算機(jī)視覺(jué)”等主題聚類,輔助文獻(xiàn)檢索。內(nèi)容聚合與推薦電商平臺(tái)從海量評(píng)論中提取“物流”、“包裝”、“售后”等主題,針對(duì)性改進(jìn)服務(wù)(如發(fā)現(xiàn)“物流慢”是高頻主題,則優(yōu)化配送流程)。用戶反饋分析監(jiān)控社交媒體中與某事件相關(guān)的主題演變(如某政策發(fā)布后,公眾討論從“政策內(nèi)容”逐漸轉(zhuǎn)向“實(shí)施效果”)。輿情主題追蹤5.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)關(guān)系抽取是自然語(yǔ)言處理的核心基礎(chǔ)任務(wù)之一,旨在從非結(jié)構(gòu)化文本中識(shí)別出實(shí)體對(duì)之間的語(yǔ)義關(guān)聯(lián),是構(gòu)建知識(shí)圖譜、語(yǔ)義理解、智能問(wèn)答等高級(jí)任務(wù)的關(guān)鍵支撐。例如,從句子“馬斯克是特斯拉的CEO”中,抽取實(shí)體對(duì)(馬斯克,特斯拉),并識(shí)別出二者的關(guān)系為“任職于(CEO)”。關(guān)系抽取的核心目標(biāo)就是輸出結(jié)構(gòu)化的“實(shí)體-關(guān)系-實(shí)體”三元組,如(馬斯克,任職于,特斯拉),將非結(jié)構(gòu)化文本轉(zhuǎn)化為機(jī)器可理解的結(jié)構(gòu)化知識(shí),為后續(xù)的知識(shí)組織、推理和應(yīng)用奠定基礎(chǔ)。5.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)根據(jù)關(guān)系的預(yù)定義范圍和抽取場(chǎng)景,關(guān)系抽取可分為以下幾類:關(guān)系類型是預(yù)定義的、有限的,通常針對(duì)特定領(lǐng)域(如醫(yī)療、金融、法律)或通用但數(shù)量固定的關(guān)系集合(如“上下位關(guān)系”“部分-整體關(guān)系”)。比如,在醫(yī)療領(lǐng)域,預(yù)定義關(guān)系可能包括“藥物-治療-疾病”“基因-關(guān)聯(lián)-疾病”等;通用領(lǐng)域常見(jiàn)關(guān)系如“人物-出生地-地點(diǎn)”、“公司-總部位于-地點(diǎn)”。限定域關(guān)系抽取不限制關(guān)系類型,旨在從文本中抽取所有可能的語(yǔ)義關(guān)系,甚至包括未預(yù)定義的關(guān)系(如“合作開(kāi)發(fā)”、“資助”等)。需要模型具備更強(qiáng)的語(yǔ)義泛化能力,避免被固定關(guān)系類型束縛。開(kāi)放域關(guān)系抽取一是句內(nèi)關(guān)系抽取,實(shí)體對(duì)和關(guān)系均存在于同一句話中,比如“魯迅創(chuàng)作了《吶喊》”,實(shí)體對(duì)(魯迅,《吶喊》)的關(guān)系為“創(chuàng)作”。二是句間關(guān)系抽取,實(shí)體對(duì)的關(guān)系需要結(jié)合多個(gè)句子甚至段落的上下文才能確定,比如段落中先提到“張三在A公司工作”,后提到“A公司的總部在上?!?,則可抽?。◤埲?,工作地點(diǎn)所屬,上海)。按抽取范圍劃分5.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)盡管技術(shù)不斷進(jìn)步,關(guān)系抽取仍面臨以下關(guān)鍵難題:關(guān)系抽取依賴實(shí)體識(shí)別結(jié)果,如果實(shí)體邊界或類型識(shí)別錯(cuò)誤(如將“蘋(píng)果公司”誤分為“水果”),會(huì)直接導(dǎo)致關(guān)系抽取失敗。實(shí)體識(shí)別誤差的傳導(dǎo)同一實(shí)體對(duì)在不同語(yǔ)境中可能對(duì)應(yīng)不同關(guān)系。例如,“張三和李四在銀行見(jiàn)面”中“銀行”是地點(diǎn),而“張三在銀行工作”中“銀行”是機(jī)構(gòu),二者與“張三”的關(guān)系不同。關(guān)系的歧義性與復(fù)雜性復(fù)雜句(如嵌套句、多實(shí)體句)中,實(shí)體對(duì)可能存在多層關(guān)系。例如,“A公司的子公司B收購(gòu)了C公司的產(chǎn)品D”中,存在(B,C)是“收購(gòu)”關(guān)系、(A,B)是“子公司”關(guān)系等多重關(guān)系,容易混淆。實(shí)體對(duì)可能存在多層關(guān)系文本中實(shí)體對(duì)的關(guān)系可能未通過(guò)顯式動(dòng)詞表達(dá),需要結(jié)合上下文推理。例如,“張三畢業(yè)于清華大學(xué),現(xiàn)任職于百度”中,(張三,百度)的“任職”關(guān)系是顯式的,但(張三,清華大學(xué))的“畢業(yè)于”關(guān)系需要從“畢業(yè)于”推斷,而更復(fù)雜的如“張三的導(dǎo)師是李四,李四的研究方向是AI”中,(張三,AI)的“研究相關(guān)”關(guān)系則是隱式的。隱式關(guān)系的抽取不同領(lǐng)域(如醫(yī)療、法律)的關(guān)系類型和表達(dá)習(xí)慣差異大(如醫(yī)療領(lǐng)域的“藥物-適應(yīng)癥”關(guān)系,法律領(lǐng)域的“原告-被告”關(guān)系),模型在一個(gè)領(lǐng)域訓(xùn)練后,遷移到新領(lǐng)域時(shí)性能會(huì)顯著下降(領(lǐng)域偏移問(wèn)題)。領(lǐng)域適應(yīng)性差高質(zhì)量的關(guān)系標(biāo)注數(shù)據(jù)需要專家手動(dòng)標(biāo)注,成本極高(尤其是專業(yè)領(lǐng)域),而無(wú)標(biāo)注數(shù)據(jù)的利用(如遠(yuǎn)程監(jiān)督)可能引入噪聲(標(biāo)注錯(cuò)誤),影響模型性能。?標(biāo)注數(shù)據(jù)的稀缺性5.2.2關(guān)系抽?。和诰?qū)嶓w間的關(guān)聯(lián)關(guān)系抽取的結(jié)構(gòu)化輸出(三元組)是許多NLP系統(tǒng)的核心支撐,典型應(yīng)用包括:醫(yī)療與法律信息抽取輿情分析與風(fēng)險(xiǎn)監(jiān)控智能問(wèn)答與信息檢索知識(shí)圖譜構(gòu)建典型應(yīng)用5.2.3命名實(shí)體識(shí)別:從文本中提取關(guān)鍵信息命名實(shí)體識(shí)別(NamedEntityRecognition,簡(jiǎn)稱NER)是自然語(yǔ)言處理中的核心基礎(chǔ)任務(wù)之一,其核心目標(biāo)是從非結(jié)構(gòu)化文本中自動(dòng)識(shí)別并提取出具有特定意義的“命名實(shí)體”,并將其歸類到預(yù)定義的類別中(如人名、地名、組織名等)。這些實(shí)體是文本中承載關(guān)鍵信息的核心單元,例如,“深圳”、“華為公司”、“2025年”等,命名實(shí)體識(shí)別的結(jié)果為后續(xù)的信息抽取、知識(shí)圖譜構(gòu)建、問(wèn)答系統(tǒng)等任務(wù)提供了重要基礎(chǔ)。5.2.3命名實(shí)體識(shí)別:從文本中提取關(guān)鍵信息命名實(shí)體識(shí)別的核心目標(biāo)可以概括為兩點(diǎn):確定文本中哪些字符串是命名實(shí)體(例如,從“張三在華為工作”
中識(shí)別出“張三”和“華為”是實(shí)體,而非“張”、“三在”等);識(shí)別“實(shí)體邊界”將識(shí)別出的實(shí)體歸類到預(yù)定義類別(例如,“張三”屬于“人名”,“華為”屬于“組織名”)。標(biāo)注“實(shí)體類型”通過(guò)命名實(shí)體識(shí)別,非結(jié)構(gòu)化文本可以轉(zhuǎn)化為結(jié)構(gòu)化的“實(shí)體-類型”對(duì),從而實(shí)現(xiàn)對(duì)文本關(guān)鍵信息的高效提取和理解。5.2.3命名實(shí)體識(shí)別:從文本中提取關(guān)鍵信息命名實(shí)體識(shí)別是許多自然語(yǔ)言處理下游任務(wù)的“前置步驟”,其結(jié)果直接影響后續(xù)任務(wù)的效果,典型應(yīng)用包括:輿情分析機(jī)器翻譯問(wèn)答系統(tǒng)知識(shí)圖譜構(gòu)建05040302典型應(yīng)用信息抽取與結(jié)構(gòu)化015.2.4文本聚類:相似文本的自動(dòng)歸組文本聚類是自然語(yǔ)言處理中典型的無(wú)監(jiān)督學(xué)習(xí)任務(wù),核心目標(biāo)是將無(wú)標(biāo)簽的文本集合自動(dòng)劃分成若干個(gè)“簇”(Cluster),使得同一簇內(nèi)的文本具有較高的相似度,而不同簇內(nèi)的文本相似度較低。它通過(guò)挖掘文本間的潛在關(guān)聯(lián),實(shí)現(xiàn)對(duì)海量文本的自動(dòng)歸組,為后續(xù)的數(shù)據(jù)分析、信息檢索或決策支持提供基礎(chǔ)。5.2.4文本聚類:相似文本的自動(dòng)歸組文本聚類的核心價(jià)值在于從無(wú)序文本中發(fā)現(xiàn)隱藏的結(jié)構(gòu)和模式,具體可概括為:數(shù)據(jù)簡(jiǎn)化將海量文本壓縮為若干簇,降低數(shù)據(jù)復(fù)雜度,便于人工或機(jī)器進(jìn)一步分析。模式發(fā)現(xiàn)挖掘文本集合中潛在的主題、趨勢(shì)或群體特征(例如,用戶評(píng)論中自動(dòng)發(fā)現(xiàn)“產(chǎn)品質(zhì)量”、“物流速度”等討論主題)。無(wú)監(jiān)督學(xué)習(xí)適配在缺乏標(biāo)注數(shù)據(jù)(標(biāo)簽)的場(chǎng)景下,替代有監(jiān)督的文本分類完成初步分組。異常檢測(cè)通過(guò)識(shí)別“離群點(diǎn)”(與所有簇差異較大的文本),發(fā)現(xiàn)異常內(nèi)容(如垃圾郵件、惡意評(píng)論)。010203045.2.4文本聚類:相似文本的自動(dòng)歸組文本聚類和文本分類都屬于文本分組任務(wù),但本質(zhì)差異顯著,下表給出了二者的區(qū)別。維度文本聚類文本分類監(jiān)督方式無(wú)監(jiān)督(無(wú)需標(biāo)注數(shù)據(jù),依賴文本自身特征)有監(jiān)督(需要標(biāo)注好的訓(xùn)練數(shù)據(jù),學(xué)習(xí)標(biāo)簽與特征的映射)目標(biāo)發(fā)現(xiàn)隱藏的自然分組(簇)按預(yù)定義標(biāo)簽(類別)劃分文本適用場(chǎng)景數(shù)據(jù)無(wú)標(biāo)簽、探索性分析(如未知主題發(fā)現(xiàn))數(shù)據(jù)有標(biāo)簽、目標(biāo)明確(如情感極性分類:正面/負(fù)面)結(jié)果解釋簇的含義需人工后驗(yàn)解讀(可能不明確)類別含義預(yù)先定義(如“體育”“科技”)5.2.4文本聚類:相似文本的自動(dòng)歸組文本聚類目前面臨的關(guān)鍵技術(shù)難點(diǎn)包括:同一聚類算法在新聞文本上表現(xiàn)好,在專業(yè)論文(如醫(yī)學(xué)、法律)上可能效果差(因術(shù)語(yǔ)密集、語(yǔ)義復(fù)雜),需結(jié)合領(lǐng)域知識(shí)優(yōu)化預(yù)處理或特征表示。領(lǐng)域適應(yīng)性文本向量化后通常形成高維向量(如詞匯表規(guī)模達(dá)10萬(wàn)級(jí)),且多數(shù)維度值為0(稀疏),導(dǎo)致聚類算法效率低、距離計(jì)算失真。高維稀疏問(wèn)題同一詞可能有不同含義(如“蘋(píng)果”指水果或公司),不同詞可能表達(dá)同一語(yǔ)義(如“打車”和“叫車”),傳統(tǒng)基于詞頻的方法難以捕捉深層語(yǔ)義。語(yǔ)義模糊性多數(shù)算法(如K-Means)需預(yù)先指定簇?cái)?shù)量,但實(shí)際場(chǎng)景中“合理的簇?cái)?shù)量”往往未知,需通過(guò)經(jīng)驗(yàn)或網(wǎng)格搜索(嘗試多個(gè)K值)解決,成本較高。簇?cái)?shù)量不確定5.2.4文本聚類:相似文本的自動(dòng)歸組文本聚類在實(shí)際場(chǎng)景中應(yīng)用廣泛,以下是幾個(gè)典型案例:典型案例垃圾郵件過(guò)濾新聞主題自動(dòng)聚合用戶評(píng)論分析學(xué)術(shù)文獻(xiàn)管理社交媒體監(jiān)控5.2.5信息檢索:快速找到所需內(nèi)容信息檢索是自然語(yǔ)言處理中與實(shí)際應(yīng)用結(jié)合最緊密的核心基礎(chǔ)任務(wù)之一,其目標(biāo)是從大規(guī)模文本數(shù)據(jù)中快速、準(zhǔn)確地找到與用戶查詢相關(guān)的信息。無(wú)論是搜索引擎(如谷歌、百度)、智能問(wèn)答系統(tǒng),還是文獻(xiàn)管理工具(如知網(wǎng)、PubMed),都依賴信息檢索技術(shù)實(shí)現(xiàn)高效的內(nèi)容匹配與篩選。5.2.5信息檢索:快速找到所需內(nèi)容信息檢索的核心目標(biāo)包括:返回的結(jié)果與用戶查詢的匹配程度高。相關(guān)性在海量數(shù)據(jù)中快速響應(yīng)查詢(通常毫秒級(jí))。效率盡可能覆蓋所有相關(guān)信息(召回率),同時(shí)減少無(wú)關(guān)信息(精確率)。召回率與精確率平衡深層理解查詢背后的真實(shí)需求(如歧義、多意圖、模糊查詢等)。用戶意圖理解5.2.5信息檢索:快速找到所需內(nèi)容目前階段,信息檢索面臨如下關(guān)鍵挑戰(zhàn):
傳統(tǒng)方法依賴詞匯匹配,難以處理同義詞(如“土豆”與“馬鈴薯”)、歧義(如“蘋(píng)果”指水果或公司)、多語(yǔ)言查詢等。
用戶查詢可能簡(jiǎn)短(如“附近美食”)、不明確(如“如何學(xué)好它”),需結(jié)合上下文或用戶歷史推斷意圖。
海量數(shù)據(jù)(如互聯(lián)網(wǎng)網(wǎng)頁(yè))導(dǎo)致索引維護(hù)成本高,且新內(nèi)容(如實(shí)時(shí)新聞)需快速更新,考驗(yàn)系統(tǒng)的實(shí)時(shí)性。01語(yǔ)義理解不足02用戶意圖模糊03數(shù)據(jù)規(guī)模與動(dòng)態(tài)性
不同用戶對(duì)同一查詢的需求可能不同(如“java”對(duì)程序員指編程語(yǔ)言,對(duì)咖啡愛(ài)好者指咖啡),需結(jié)合用戶畫(huà)像實(shí)現(xiàn)個(gè)性化推薦。04個(gè)性化需求
除文本外,用戶可能需要檢索圖片、視頻等(如用文本“紅色玫瑰花”檢索相關(guān)圖片),需跨模態(tài)匹配技術(shù)。05多模態(tài)檢索5.2.5信息檢索:快速找到所需內(nèi)容信息檢索的典型應(yīng)用場(chǎng)景包括:典型應(yīng)用搜索引擎01電商商品檢索?05企業(yè)知識(shí)庫(kù)檢索04智能問(wèn)答系統(tǒng)02文獻(xiàn)檢索0303自然語(yǔ)言處理的典型應(yīng)用場(chǎng)景Partthree5.3自然語(yǔ)言處理的典型應(yīng)用場(chǎng)景自然語(yǔ)言處理主要包括以下典型應(yīng)用場(chǎng)景:?01機(jī)器翻譯?02智能問(wèn)答系統(tǒng)?03文本摘要05對(duì)話系統(tǒng)與聊天機(jī)器人04情感分析?典型應(yīng)用場(chǎng)景04本章小結(jié)Partfour5.4本章小結(jié)本章詳細(xì)闡述了自然語(yǔ)言處理的概念、應(yīng)用、核心任務(wù)、技術(shù)演進(jìn)和應(yīng)用場(chǎng)景。從技術(shù)演進(jìn)看,自然語(yǔ)言處理經(jīng)歷了從規(guī)則與統(tǒng)計(jì)模型的初步探索,到詞向量實(shí)現(xiàn)語(yǔ)義量化、循環(huán)神經(jīng)網(wǎng)絡(luò)處理序列數(shù)據(jù),再到Transformer憑借注意力機(jī)制革新范式,最終迎來(lái)預(yù)訓(xùn)練大模型的爆發(fā),每一步突破都推動(dòng)機(jī)器對(duì)語(yǔ)言的理解向深層邁進(jìn)。在應(yīng)用層面,機(jī)器翻譯打破語(yǔ)言壁壘,智能問(wèn)答系統(tǒng)加速信息獲取,文本摘要解決信息過(guò)載,情感分析挖掘用戶態(tài)度,對(duì)話系統(tǒng)實(shí)現(xiàn)自然交互,這些場(chǎng)景共同構(gòu)建了NLP服務(wù)人類的實(shí)用版圖。值得注意的是,NLP的進(jìn)步不僅依賴算法創(chuàng)新,更得益于數(shù)據(jù)規(guī)模擴(kuò)大與算力提升的協(xié)同。當(dāng)前,盡管技術(shù)已能處理復(fù)雜語(yǔ)言任務(wù),但在歧義消解、文化適配、可解釋性等方面仍存挑戰(zhàn),未來(lái)需在技術(shù)深度與應(yīng)用廣度上持續(xù)突破,讓語(yǔ)言智能更好服務(wù)社會(huì)。謝謝觀看!2025年8月林子雨
副教授廈門(mén)大學(xué)附錄A:主講教師林子雨簡(jiǎn)介單位:廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系E-mail:ziyulin@個(gè)人網(wǎng)頁(yè):/post/linziyu數(shù)據(jù)庫(kù)實(shí)驗(yàn)室網(wǎng)站:主講教師:林子雨林子雨,男,1978年出生,博士(畢業(yè)于北京大學(xué)),全國(guó)高校知名大數(shù)據(jù)教師,入選“2021年高校計(jì)算機(jī)專業(yè)優(yōu)秀教師獎(jiǎng)勵(lì)計(jì)劃”?,F(xiàn)為廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授,廈門(mén)大學(xué)信息學(xué)院實(shí)驗(yàn)教學(xué)中心主任,曾任廈門(mén)大學(xué)信息科學(xué)與技術(shù)學(xué)院院長(zhǎng)助理、晉江市發(fā)展和改革局副局長(zhǎng)。中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專業(yè)委員會(huì)執(zhí)行委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)信息系統(tǒng)專業(yè)委員會(huì)執(zhí)行委員。國(guó)內(nèi)高校首個(gè)“數(shù)字教師”提出者和建設(shè)者,廈門(mén)大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室負(fù)責(zé)人,廈門(mén)大學(xué)云計(jì)算與大數(shù)據(jù)研究中心主要建設(shè)者和骨干成員,2013年度、2017年度、2020年度和2023年度廈門(mén)大學(xué)教學(xué)類獎(jiǎng)教金獲得者,榮獲2024年福建省高等教育教學(xué)成果獎(jiǎng)特等獎(jiǎng)(個(gè)人排名第七)、2022年福建省高等教育教學(xué)成果獎(jiǎng)特等獎(jiǎng)(個(gè)人排名第一)、2018年福建省高等教育教學(xué)成果獎(jiǎng)二等獎(jiǎng)(個(gè)人排名第一)、2018年國(guó)家精品在線開(kāi)放課程、2021年國(guó)家級(jí)線上一流本科課程、2020年國(guó)家級(jí)線上一流本科課程。主要研究方向?yàn)閿?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng),并以第一作者身份在《軟件學(xué)報(bào)》《計(jì)算機(jī)學(xué)報(bào)》和《計(jì)算機(jī)研究與發(fā)展》等國(guó)家重點(diǎn)期刊以及國(guó)際學(xué)術(shù)會(huì)議上發(fā)表多篇學(xué)術(shù)論文。作為項(xiàng)目負(fù)責(zé)人主持的科研項(xiàng)目包括1項(xiàng)國(guó)家自然科學(xué)青年基金項(xiàng)目(No.61303004)、1項(xiàng)福建省自然科學(xué)青年基金項(xiàng)目(No.2013J05099)和1項(xiàng)中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目(No.2011121049),主持的教改課題包括1項(xiàng)2016年福建省教改課題、1項(xiàng)2016年教育部產(chǎn)學(xué)協(xié)作育人項(xiàng)目、1項(xiàng)2024年教育部產(chǎn)學(xué)協(xié)作育人項(xiàng)目。編著出版了《大數(shù)據(jù)技術(shù)原理與應(yīng)用》等18本大數(shù)據(jù)與人工智能系列教材,被國(guó)內(nèi)1000多所高校采用;建設(shè)了國(guó)內(nèi)高校首個(gè)大數(shù)據(jù)課程公共服務(wù)平臺(tái),為教師教學(xué)和學(xué)生學(xué)習(xí)大數(shù)據(jù)課程提供全方位、一站式服務(wù),年訪問(wèn)量超過(guò)400萬(wàn)次,累計(jì)訪問(wèn)量超過(guò)2800萬(wàn)次。大數(shù)據(jù)系列MOOC課程入選“2023年教育部國(guó)家智慧教育公共服務(wù)平臺(tái)應(yīng)用典型案例”。附錄B:大數(shù)據(jù)學(xué)習(xí)路線圖大數(shù)據(jù)學(xué)習(xí)路線圖訪問(wèn)地址:/post/10164/附錄C:林子雨大數(shù)據(jù)系列教材了解全部教材信息:/post/bigdatabook/附錄D:《人工智能通識(shí)教程》林子雨
主編《人工智能通識(shí)教程》人民郵電出版社ISBN:978-7-04-064880-52025年6月第1版,定價(jià):39.9元
教材官網(wǎng):/post/ai/本書(shū)詳細(xì)闡述了培養(yǎng)具有人工智能(AI)素養(yǎng)的綜合型人才所需要的相關(guān)知識(shí)儲(chǔ)備。作為通識(shí)類課程教材,本書(shū)在確定知識(shí)布局時(shí),緊緊圍繞通識(shí)教育核心理念,系統(tǒng)介紹人工智能相關(guān)知識(shí),努力培養(yǎng)學(xué)生的AI思維和AI能力。全書(shū)共9章,內(nèi)容包括信息與計(jì)算機(jī)基礎(chǔ)、人工智能概述、人工智能與其他新興技術(shù)的關(guān)系、大模型:人工智能的前沿、智能體、具身智能、AIGC應(yīng)用與實(shí)踐、AI智能辦公、人工智能倫理等。本書(shū)以“零代碼”學(xué)習(xí)人工智能為原則,使用AIGC工具解決學(xué)習(xí)、工作、生活中的各種問(wèn)題。書(shū)中包含了大量生動(dòng)、有趣、實(shí)用的實(shí)戰(zhàn)案例,可以讓讀者切身感受人工智能的強(qiáng)大功能,培養(yǎng)讀者使用AI工具解決實(shí)際問(wèn)題的能力。廈門(mén)大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室和金山WPS校企合作教材附錄E:《數(shù)字素養(yǎng)通識(shí)教程》林子雨編著《數(shù)字素養(yǎng)通識(shí)教程——大數(shù)據(jù)與人工智能時(shí)代的計(jì)算機(jī)通識(shí)教育》人民郵電出版社ISBN:978-7-115-65946-02025年1月第1版,定價(jià):59.8元
教材官網(wǎng):/post/digital-literacy/15年計(jì)算機(jī)教學(xué)生涯感悟升華,15本計(jì)算機(jī)暢銷教材知識(shí)凝練數(shù)字時(shí)代的大學(xué)計(jì)算機(jī)公共課教材,重構(gòu)大學(xué)計(jì)算機(jī)公共課知識(shí)體系深刻變革傳統(tǒng)大學(xué)計(jì)算機(jī)通識(shí)教育,培養(yǎng)學(xué)生計(jì)算思維、數(shù)據(jù)思維和AI思維附錄F:《大數(shù)據(jù)導(dǎo)論(通識(shí)課版,第2版)》教材高等教育出版社
2024年7月第2版ISBN:978-7-04-062466-3定價(jià):39.50元
教材官方網(wǎng)站:/post/bigdataintroduction2/0503020104引導(dǎo)學(xué)生步入大數(shù)據(jù)時(shí)代,積極投身大數(shù)據(jù)的變革浪潮之中了解大數(shù)據(jù)概念,培養(yǎng)大數(shù)據(jù)思維,養(yǎng)成數(shù)據(jù)安全意識(shí)認(rèn)識(shí)大數(shù)據(jù)倫理,努力使自己的行為符合大數(shù)據(jù)倫理規(guī)范要求熟悉大數(shù)據(jù)應(yīng)用,探尋大數(shù)據(jù)與自己專業(yè)的應(yīng)用結(jié)合點(diǎn)激發(fā)學(xué)生基于大數(shù)據(jù)的創(chuàng)新創(chuàng)業(yè)熱情開(kāi)設(shè)全校公共選修課的優(yōu)質(zhì)教材,本課程旨在實(shí)現(xiàn)以下幾個(gè)培養(yǎng)目標(biāo):附錄G:《大數(shù)據(jù)與人工智能導(dǎo)論(通識(shí)課版)》《大數(shù)據(jù)與人工智能導(dǎo)論(通識(shí)課版)》版次:2025年1月第1版林子雨
編著,人民郵電出版社
ISBN:978-7-115-65696-4定價(jià):59.8元
教材官網(wǎng):/post/bigdata-ai-introduction/本書(shū)詳細(xì)闡述了培養(yǎng)具有數(shù)字素養(yǎng)的綜合型人才所需要的相關(guān)知識(shí)儲(chǔ)備。作為通識(shí)類課程教材,本書(shū)在確定知識(shí)布局時(shí),緊緊圍繞通識(shí)教育核心理念,系統(tǒng)介紹大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈、元宇宙等技術(shù)的相關(guān)知識(shí),努力培養(yǎng)學(xué)生的數(shù)字素養(yǎng)。全書(shū)共9章,內(nèi)容包括大數(shù)據(jù)概述、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)基礎(chǔ)知識(shí)、人工智能、大模型:人工智能的前沿、AIGC應(yīng)用與實(shí)踐、新興數(shù)字技術(shù)、新興數(shù)字技術(shù)的倫理問(wèn)題。為了避免陷入空洞的理論介紹,本書(shū)在很多章節(jié)都融入了豐富的案例,這些案例就發(fā)生在我們生活的數(shù)字時(shí)代,很具有代表性和說(shuō)服力,能夠讓學(xué)生直觀感受相應(yīng)理論的具體內(nèi)涵。附錄H:《大數(shù)據(jù)導(dǎo)論(第2版)》教材林子雨編著《大數(shù)據(jù)導(dǎo)論(第2版)》人民郵電出版社
ISBN:978-7-115-64185-4定價(jià):59.80元2024年7月教材官方網(wǎng)站:/post/bigdata-introduction2/開(kāi)設(shè)大數(shù)據(jù)專業(yè)導(dǎo)論課的優(yōu)質(zhì)教材,本書(shū)詳細(xì)闡述了培養(yǎng)復(fù)合型大數(shù)據(jù)專業(yè)人才所需要的大數(shù)據(jù)相關(guān)知識(shí)。全書(shū)共10章,內(nèi)容包括:大數(shù)據(jù)概述大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)基礎(chǔ)知識(shí)大數(shù)據(jù)應(yīng)用大數(shù)據(jù)硬件環(huán)境數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)處理與分析數(shù)據(jù)可視化大數(shù)據(jù)分析綜合案例在大數(shù)據(jù)基礎(chǔ)知識(shí)部分,本書(shū)詳細(xì)介紹了與培養(yǎng)學(xué)生的數(shù)據(jù)素養(yǎng)相關(guān)的知識(shí),包括大數(shù)據(jù)安全、大數(shù)據(jù)思維、大數(shù)據(jù)倫理、數(shù)據(jù)共享、數(shù)據(jù)開(kāi)放和大數(shù)據(jù)交易。附錄I:《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第4版)》教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲(chǔ)、處理、分析與應(yīng)用(第4版)》林子雨編著,人民郵電出版社
ISBN:978-7-115-64181-6定價(jià):65元2024年8月教材官方網(wǎng)站:/post/bigdata4國(guó)內(nèi)高校第一本系統(tǒng)介紹大數(shù)據(jù)知識(shí)的專業(yè)教材,本書(shū)系統(tǒng)介紹大數(shù)據(jù)的相關(guān)知識(shí),分為大數(shù)據(jù)基礎(chǔ)篇、大數(shù)據(jù)存儲(chǔ)與管理篇、大數(shù)據(jù)處理與分析篇、大數(shù)據(jù)應(yīng)用篇。全書(shū)共14章,內(nèi)容包含:本書(shū)在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等相關(guān)章安排了入門(mén)級(jí)的實(shí)驗(yàn),以便讀者能更好地學(xué)習(xí)和掌握大數(shù)據(jù)的關(guān)鍵技術(shù)。大數(shù)據(jù)概述大數(shù)據(jù)處理架構(gòu)Hadoop分布式文件系統(tǒng)HDFS分布式數(shù)據(jù)庫(kù)HBaseNoSQL數(shù)據(jù)庫(kù)云數(shù)據(jù)庫(kù)MapReduceHadoop再探討數(shù)據(jù)倉(cāng)庫(kù)HiveSpark流計(jì)算Flink圖計(jì)算大數(shù)據(jù)應(yīng)用附錄J:《大數(shù)據(jù)基礎(chǔ)編程、實(shí)驗(yàn)和案例教程(第3版)》與《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第4版)》教材配套的唯一指定實(shí)驗(yàn)指導(dǎo)書(shū)林子雨編著,清華大學(xué)出版社
ISBN:978-7-302-66922-7
定價(jià):69元
2024年8月第3版《大數(shù)據(jù)基礎(chǔ)編程、實(shí)驗(yàn)和案例教程(第3版)》深入淺出,去粗取精,豐富的代碼實(shí)例幫助快速掌握大數(shù)據(jù)基礎(chǔ)編程方法步步引導(dǎo),循序漸進(jìn),詳盡的安裝指南為順利搭建大數(shù)據(jù)實(shí)驗(yàn)環(huán)境鋪平道路0102精心設(shè)計(jì),巧妙融合,八套大數(shù)據(jù)實(shí)驗(yàn)題目促進(jìn)理論與編程知識(shí)的消化和吸收03結(jié)合理論,聯(lián)系實(shí)際,大數(shù)據(jù)課程綜合實(shí)驗(yàn)案例精彩呈現(xiàn)大數(shù)據(jù)分析全流程04附錄K:《數(shù)據(jù)采集與預(yù)處理(第2版)》詳細(xì)闡述了大數(shù)據(jù)領(lǐng)域數(shù)據(jù)采集與預(yù)處理的相關(guān)理論和技術(shù)林子雨編著,人民郵電出版社2025年1月
978-7-115-65728-2
定價(jià):69.80元教材官網(wǎng):/post/data-collection2/全書(shū)共8章,內(nèi)容包括:概述大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建網(wǎng)絡(luò)數(shù)據(jù)采集分布式消息系統(tǒng)Kafka日志采集系統(tǒng)Flume數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)集成ETL工具Kettle使用pandas進(jìn)行數(shù)據(jù)清洗本書(shū)在網(wǎng)絡(luò)數(shù)據(jù)采集、Kafka、Flume、Kettle、pandas等重要章節(jié)安排了豐富的實(shí)踐操作,以便讀者更好地學(xué)習(xí)和掌握數(shù)據(jù)采集與預(yù)處理的關(guān)鍵技術(shù)。附錄L:《Python程序設(shè)計(jì)基礎(chǔ)教程(微課版)》教材:林子雨,趙江聲,陶繼平.《Python程序設(shè)計(jì)基礎(chǔ)教程(微課版)》人民郵電出版社,2022年2月.教材官網(wǎng)(獲取講義PPT、代碼等):
/post/python/
實(shí)驗(yàn)手冊(cè):林子雨,鄭海山.《Python程序設(shè)計(jì)實(shí)驗(yàn)指導(dǎo)與習(xí)題解答》.人民郵電出版社,2022年4月.實(shí)驗(yàn)手冊(cè)官網(wǎng)(獲取代碼等):/post/python-experiment/附錄M:《Python程序設(shè)計(jì)基礎(chǔ)(通識(shí)課版)》教材:林子雨.《Python程序設(shè)計(jì)基礎(chǔ)(通識(shí)課版)》人民郵電出版社,2025年2月.教材官網(wǎng)(獲取講義PPT、代碼等):
/post/python-general/
教材ISBN:978-7-115-65678-0定價(jià):59.8元本書(shū)詳細(xì)介紹了獲得Python基礎(chǔ)編程能力所需要掌握的各方面技術(shù)。全書(shū)共11章,內(nèi)容包括Python語(yǔ)言概述、基礎(chǔ)語(yǔ)法知識(shí)、程序控制結(jié)構(gòu)、序列、函數(shù)、模塊、異常處理、文件和數(shù)據(jù)庫(kù)操作、常用的標(biāo)準(zhǔn)庫(kù)和第三方庫(kù)、基于Matplotlib的數(shù)據(jù)可視化、網(wǎng)絡(luò)爬蟲(chóng)等。本書(shū)每個(gè)章節(jié)都安排了入門(mén)級(jí)的編程實(shí)踐操作,以便讀者更好地學(xué)習(xí)和掌握Python編程方法。本書(shū)官網(wǎng)免費(fèi)提供了全套的在線教學(xué)資源,包括講義PPT、源代碼、軟件、數(shù)據(jù)集等。附錄N:《Python數(shù)據(jù)分析、挖掘與可視化》教材:林子雨
編著《Python數(shù)據(jù)分析、挖掘與可視化》人民郵電出版社,2025年5月.教材官網(wǎng)(獲取講義PPT、代碼等):/post/python-analysis/教材ISBN:978-7-115-66088-6定價(jià):59.8元數(shù)據(jù)分析能夠幫助人們深入洞察數(shù)據(jù)的內(nèi)在規(guī)律和趨勢(shì),提取有價(jià)值的信息,為決策提供科學(xué)依據(jù)。在當(dāng)今信息爆炸的時(shí)代,數(shù)據(jù)分析已成為各行各業(yè)不可或缺的技能。本書(shū)通過(guò)豐富的案例幫助讀者快速掌握Python數(shù)據(jù)分析的核心技能,提高數(shù)據(jù)處理和分析的能力,從而更好地應(yīng)對(duì)學(xué)習(xí)和工作中的挑戰(zhàn)。全書(shū)共10章,內(nèi)容包括Python語(yǔ)言概述、基礎(chǔ)語(yǔ)法知識(shí)、程序控制結(jié)構(gòu)、序列、函數(shù)、文件和數(shù)據(jù)庫(kù)操作、數(shù)據(jù)分析基礎(chǔ)工具NumPy、基于Matplotlib的數(shù)據(jù)可視化、基于pandas的數(shù)據(jù)預(yù)處理和分析、基于sklearn的機(jī)器學(xué)習(xí)。附錄O:《Spark編程基礎(chǔ)(Scala版,第2版)》《Spark編程基礎(chǔ)(Scala版,第2版)》林子雨,賴永炫,陶繼平
編著,人民郵電出版社
ISBN:978-7-115-59501-0
教材官網(wǎng):/post/spark2/本書(shū)以Scala作為開(kāi)發(fā)Spark應(yīng)用程序的編程語(yǔ)言,系統(tǒng)介紹了Spark編程的基礎(chǔ)知識(shí)。全書(shū)共9章,內(nèi)容包括:大數(shù)據(jù)技術(shù)概述Scala語(yǔ)言基礎(chǔ)Spark的設(shè)計(jì)與運(yùn)行原理Spark環(huán)境搭建和使用方法RDD編程SparkSQLSparkStreamingSparkMLlib本書(shū)每個(gè)章節(jié)都安排了入門(mén)級(jí)的編程實(shí)踐操作,以便讀者更好地學(xué)習(xí)和掌握Spark編程方法。本書(shū)官網(wǎng)免費(fèi)提供了全套的在線教學(xué)資源,包括講義PPT、習(xí)題、源代碼、軟件、數(shù)據(jù)集、授課視頻、上機(jī)實(shí)驗(yàn)指南等。披荊斬棘在大數(shù)據(jù)叢林中開(kāi)辟學(xué)習(xí)捷徑填溝削坎為快速學(xué)習(xí)Spark技術(shù)鋪平道路深入淺出有效降低Spark技術(shù)學(xué)習(xí)門(mén)檻資源全面構(gòu)建全方位一站式在線服務(wù)體系附錄P:《Spark編程基礎(chǔ)(Python版,第2版)》《Spark編程基礎(chǔ)》(Python版,第2版)林子雨,鄭海山,賴永炫
編著,人民郵電出版社
ISBN:978-7-115-64403-9
出版發(fā)行,教材官網(wǎng):/post/spark-python2/本書(shū)以Python作為開(kāi)發(fā)Spark應(yīng)用程序的編程語(yǔ)言,系統(tǒng)介紹了Spark編程的基礎(chǔ)知識(shí)。全書(shū)共9章,內(nèi)容包括:大數(shù)據(jù)技術(shù)概述Spark的設(shè)計(jì)與運(yùn)行原理大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建Spark環(huán)境搭建和使用方法RDD編程SparkSQLSparkStreamingSparkMLlib本書(shū)在非理論的章節(jié)都安排了入門(mén)級(jí)的編程實(shí)踐操作,以便讀者更好地學(xué)習(xí)和掌握Spark編程方法。本書(shū)官網(wǎng)免費(fèi)提供了全套的在線教學(xué)資源,包括講義PPT、習(xí)題、源代碼、軟件、數(shù)據(jù)集、授課視頻、上機(jī)實(shí)驗(yàn)指南等。披荊斬棘在大數(shù)據(jù)叢林中開(kāi)辟學(xué)習(xí)捷徑填溝削坎為快速學(xué)習(xí)Spark技術(shù)鋪平道路深入淺出有效降低Spark技術(shù)學(xué)習(xí)門(mén)檻資源全面構(gòu)建全方位
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年中考道德與法治(福建)第三次模擬考試(含答案)
- 浙江中考科學(xué)試卷及答案
- 環(huán)衛(wèi)安全考題題庫(kù)及答案
- 遼寧干部在線試題及答案
- 科四考題奇葩題庫(kù)及答案
- 2025年職業(yè)技能教學(xué)題庫(kù)及答案
- 河南機(jī)電職測(cè)題庫(kù)及答案
- 比亞迪賣貨合同范本
- 會(huì)所店面轉(zhuǎn)讓合同范本
- 社區(qū)護(hù)理中風(fēng)患者心理支持
- 潔凈工作臺(tái)性能參數(shù)校準(zhǔn)規(guī)范
- 如果歷史是一群喵16
- 赫茲伯格-雙因素理論
- 華為HCIA存儲(chǔ)H13-611認(rèn)證培訓(xùn)考試題庫(kù)(匯總)
- 社會(huì)主義發(fā)展史知到章節(jié)答案智慧樹(shù)2023年齊魯師范學(xué)院
- 美國(guó)史智慧樹(shù)知到答案章節(jié)測(cè)試2023年?yáng)|北師范大學(xué)
- GB/T 15924-2010錫礦石化學(xué)分析方法錫量測(cè)定
- GB/T 14525-2010波紋金屬軟管通用技術(shù)條件
- GB/T 11343-2008無(wú)損檢測(cè)接觸式超聲斜射檢測(cè)方法
- GB/T 1040.3-2006塑料拉伸性能的測(cè)定第3部分:薄膜和薄片的試驗(yàn)條件
- 教師晉級(jí)專業(yè)知識(shí)和能力證明材料
評(píng)論
0/150
提交評(píng)論