版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4章
常用AI工具簡介及使用方法第06講人工智能通識教程人工智能通識教程
本章導(dǎo)讀:雖然目前AI處于初級階段,但是,已經(jīng)出現(xiàn)各種各樣的AI工具,可以服務(wù)于我們的學(xué)習(xí)、生活與工作。這些工具主要有文本類工具、人機(jī)交互工具、識別類工具、輔助學(xué)習(xí)類工具等。一方面,這些工具在不斷更新與發(fā)展,另一方面,還會出現(xiàn)新的AI工具。對在校學(xué)生來說,了解這些工具的基本原理,學(xué)會使用這些工具,可以助力我們的學(xué)習(xí)與成長。第2頁共47頁人工智能通識教程(1)了解常用AI工具;(2)掌握常用AI工具的使用方法;(3)通過常用AI工具的使用,樹立科技服務(wù)工作、服務(wù)社會的使命感。本章學(xué)習(xí)目標(biāo)第3頁共47頁人工智能通識教程本章思維導(dǎo)圖第4頁共47頁4.1文本類工具4.2人機(jī)交互工具4.3識別類工具4.4輔助學(xué)習(xí)類工具人工智能通識教程4.5案例實(shí)踐目錄第5頁共47頁人工智能通識教程4.1文本類工具4.1.1自然語言處理
1.自然語言概述自然語言是人類日常交流所使用的語言,具有高度的靈活性和復(fù)雜性,是人類智慧的結(jié)晶。它不僅包含文字信息,還蘊(yùn)含著豐富的語義、情感和文化內(nèi)涵,是人類溝通思想的重要工具。自然語言處理是計(jì)算機(jī)科學(xué)、信息工程以及人工智能的子領(lǐng)域,主要研究用計(jì)算機(jī)來理解和生成自然語言的各種理論和方法,旨在使計(jì)算機(jī)能夠?qū)ψ匀徽Z言的形、音、義等信息進(jìn)行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。實(shí)現(xiàn)人機(jī)間的信息交流,是人工智能界、計(jì)算機(jī)科學(xué)和語言學(xué)界所共同關(guān)注的重要問題。自然語言處理的具體表現(xiàn)形式包括機(jī)器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。第6頁共47頁人工智能通識教程
2.自然語言處理發(fā)展歷程自然語言處理的研究始于20世紀(jì)50年代,最初主要集中在機(jī)器翻譯領(lǐng)域,嘗試通過簡單的規(guī)則和算法實(shí)現(xiàn)語言之間的轉(zhuǎn)換。早期探索階段(1950-1969)在這一階段,自然語言處理主要依賴于基于規(guī)則的系統(tǒng),通過編寫大量的語言規(guī)則和知識庫來實(shí)現(xiàn)語言的理解和生成?;谝?guī)則的系統(tǒng)階段(1970-1992)從20世紀(jì)90年代開始,自然語言處理進(jìn)入算法研究階段,利用大量的文本數(shù)據(jù)和統(tǒng)計(jì)方法來學(xué)習(xí)語言的結(jié)構(gòu)和規(guī)律。算法研究階段(1993-2012)2013年以來,深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域得到廣泛應(yīng)用,自監(jiān)督神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)成為主流,極大地推動了自然語言處理的發(fā)展。深度學(xué)習(xí)階段(2013-至今)第7頁共47頁人工智能通識教程自然語言處理與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能之間存在著密切的關(guān)系。機(jī)器學(xué)習(xí)為自然語言處理提供了重要的方法和工具,而深度學(xué)習(xí)則進(jìn)一步增強(qiáng)了自然語言處理的能力,使得計(jì)算機(jī)能夠更好地理解和處理自然語言。它們之間的相互作用推動了人工智能技術(shù)的不斷發(fā)展和進(jìn)步。第8頁共47頁人工智能通識教程
3.自然語言處理的核心任務(wù)NLU和NLG作為NLP的兩大核心任務(wù),分別代表了計(jì)算機(jī)對人類語言的輸入和輸出的處理能力。自然語言理解(NLU)是所有支持機(jī)器理解文本內(nèi)容的方法模型或任務(wù)的總稱,即能夠進(jìn)行常見的文本分類、序列標(biāo)注、信息抽取等任務(wù)。主旨在于使計(jì)算機(jī)能夠深入把握并解析人類的語言輸入。這不僅涉及識別文本的字面意義,還深入到理解其語境、背后的意圖以及蘊(yùn)含的情感等多個(gè)層面。自然語言生成(NLG)致力于將計(jì)算機(jī)內(nèi)部的數(shù)據(jù)與信息轉(zhuǎn)換成人類可以輕松理解的自然語言文本,確保信息的清晰與準(zhǔn)確傳達(dá)。這一過程不僅限于生成單個(gè)連貫的句子,還能夠構(gòu)建出段落乃至完整的篇章。NLG技術(shù)可以應(yīng)用于各種場景,如智能客服、文本摘要、機(jī)器翻譯、報(bào)告生成等。第9頁共47頁人工智能通識教程4.自然語言處理的主要難點(diǎn)自然語言處理的難點(diǎn)首先在于數(shù)據(jù)大多都是非結(jié)構(gòu)化的,而且語言規(guī)律非常復(fù)雜,語言可以自由組合,存在著多樣性和歧義性,很多時(shí)候語言的含義是和對應(yīng)領(lǐng)域的知識、和上下文相關(guān)。另外,語言還具有魯棒性,有時(shí)就算出現(xiàn)錯別字或者發(fā)音不標(biāo)準(zhǔn),也不影響其表達(dá)意圖。在使用NLP在應(yīng)用就面臨著5個(gè)難題:語言的多樣性,語言是沒有規(guī)律的,或者說規(guī)律是錯綜復(fù)雜的。語言的歧義性,語言是可以自由組合的,可以組合復(fù)雜的語言表達(dá)。語言的魯棒性,語言是一個(gè)開放集合,我們可以任意的組合一些新的表達(dá)方式。語言的知識依賴,語言需要聯(lián)系到實(shí)踐知識,有一定的知識依賴。語言的上下文,語言的使用尤其是理解要基于環(huán)境和上下文。面對以上5個(gè)難題,NLP可以使用傳統(tǒng)方法來處理,也可以使用機(jī)器學(xué)習(xí)方法來處理第10頁共47頁人工智能通識教程4.1.2自然語言處理技術(shù)自然語言處理技術(shù)分為基礎(chǔ)技術(shù)和應(yīng)用技術(shù)兩大類,基礎(chǔ)技術(shù)包括語法與句法分析、語義分析、語篇分析、知識圖譜、語言認(rèn)知模型、語言知識表示與深度學(xué)習(xí);應(yīng)用技術(shù)包括自動問答、文字識別、信息檢索、自動文摘、信息抽取、機(jī)器翻譯、信息推薦與過濾、情感分析、文本分類與聚類。1.分詞分詞(Tokenization)是指將文本數(shù)據(jù)分割成基本的、有意義的單元,如單詞、短語或其他符號。這些單元可以是單詞、短語或其他符號。分詞是文本預(yù)處理的重要步驟,它有助于后續(xù)的文本分析和理解。中文分詞(ChineseWordSegmentation,CWS)是將連續(xù)字序列轉(zhuǎn)換為對應(yīng)的詞序列的過程,旨在將連續(xù)的中文字符序列切分成有意義的詞序列。這些詞可以是單字、多字詞組或者短語。由于中文文本沒有像英文那樣明顯的單詞邊界(例如空格),也可以看做在輸入的序列中添加空格或其他邊界標(biāo)記的過程。第11頁共47頁人工智能通識教程例如,在貓界橘貓9成以上的是橘色的。分詞結(jié)果:在/貓界/橘貓/9/成/以上/的/是/橘色/的。在-詞性:介詞。在中文中,“在”常用于表示時(shí)間、地點(diǎn)、范圍等。貓界-詞性:名詞?!柏垺敝复唧w的動物,“界”在這里表示一個(gè)特定的領(lǐng)域或范圍,“貓界”組合在一起表示貓所構(gòu)成的一個(gè)特定群體或領(lǐng)域。橘貓-詞性:名詞?!伴佟泵枋隽素埖念伾卣?,“貓”是主體,“橘貓”作為一個(gè)整體,特指毛色為橘色的貓9/成-詞性:數(shù)量詞?!?”是具體的數(shù)字,“成”在中文中常用于表示十分之一,所以“9成”表示十分之九,即90%,用于描述比例關(guān)系。以上-詞性:方位詞。在這里與“9成”搭配使用,表示超過“9成”的意思,強(qiáng)調(diào)比例超過了90%。橘色-詞性:名詞。表示一種顏色,是對橘貓顏色的具體描述。第12頁共47頁人工智能通識教程2.詞法、句法及語義分析詞法分析的核心任務(wù)包括詞性標(biāo)注(Part-of-SpeechTagging,POSTagging)和詞義標(biāo)注。詞性標(biāo)注識別句子中每個(gè)詞的語法范疇,并進(jìn)行標(biāo)注。詞義標(biāo)注則關(guān)注確定多義詞在特定語境中的確切意義。當(dāng)前,詞性標(biāo)注的方法主要有基于規(guī)則、基于統(tǒng)計(jì)、基于規(guī)則與統(tǒng)計(jì)結(jié)合以及基于深度學(xué)習(xí)的方法。例如,我愛北京天安門。詞性標(biāo)注結(jié)果:我/代詞(PRP)愛/動詞(VB)北京/名詞(NN)天安門/名詞(NN)。在這個(gè)句子中,“我”被標(biāo)注為代詞,“愛”被標(biāo)注為動詞,“北京”和“天安門”都被標(biāo)注為名詞。例如,中國隊(duì)打乒乓球打得最好。詞義標(biāo)注結(jié)果:第一個(gè)“打”(動詞,表示進(jìn)行乒乓球運(yùn)動);“乒乓球”(名詞,指乒乓球運(yùn)動);第二個(gè)“打”(動詞,表示技能水平高)。在這個(gè)句子中,“打”這個(gè)詞出現(xiàn)了兩次,但根據(jù)上下文,第一次出現(xiàn)表示進(jìn)行乒乓球運(yùn)動的動作,第二次出現(xiàn)表示技能水平高,因此它們的詞義不同。第13頁共47頁人工智能通識教程"依存分析"的方法,它是通過研究詞語之間的關(guān)系來理解句子的結(jié)構(gòu)和意思。例如,學(xué)生們在圖書館學(xué)習(xí)。句法樹示例:(S(NP學(xué)生們)(VP在圖書館/學(xué)習(xí)))“學(xué)生們”作為主語(NP),“在圖書館學(xué)習(xí)”作為謂語動詞短語(VP)。例如,他買了一本書。淺層句法分析結(jié)果:他/NP買了/VP一本書/NP?!八弊鳛槊~短語(NP),“買了”作為動詞短語(VP),“一本書”作為另一個(gè)名詞短語(NP)。依存關(guān)系示例:(買-主語-他,買-賓語-一本書),“買”是謂語,“他”是主語,“一本書”是賓語,依存句法分析揭示了這些詞匯之間的依存關(guān)系?!癝”代表句子(Sentence)“NP”表示名詞短語(NounPhrase)“VP”代表動詞短語(VerbPhrase)第14頁共47頁人工智能通識教程語義分析的目標(biāo)是根據(jù)句子的句法結(jié)構(gòu)和實(shí)詞的詞義,推導(dǎo)出反映句子意義的形式化表示,將自然語言轉(zhuǎn)化為計(jì)算機(jī)能夠理解的形式語言。例如,鴻蒙比蘋果香呀語義表示示例:(比較(鴻蒙,蘋果,香味))語義分析推導(dǎo)出了一個(gè)形式化表示,表明“鴻蒙”和“蘋果”在“香味”這一屬性上進(jìn)行了比較,且“鴻蒙”的香味更濃?!傍櫭伞笨赡苤傅氖侨A為的操作系統(tǒng)HarmonyOS(鴻蒙操作系統(tǒng)),而“蘋果”可能指的是蘋果公司的產(chǎn)品,在語義分析中,“鴻蒙”和“蘋果”在這里被用作比較的對象“香”在這里被用作比較的屬性,即“香味”。這個(gè)語義表示捕捉了句子的核心意義,即在香味這一維度上,鴻蒙被認(rèn)為比蘋果更勝一籌。第15頁共47頁人工智能通識教程3.知識圖譜知識圖譜的概念起源于語義網(wǎng)絡(luò),2012年,Google推出了Google知識圖譜,并將其應(yīng)用于搜索引擎中,以此增強(qiáng)搜索能力,改善用戶的搜索質(zhì)量和體驗(yàn)。知識圖譜在表現(xiàn)形式上與語義網(wǎng)絡(luò)比較類似,不同的是,語義網(wǎng)絡(luò)側(cè)重于表示概念與概念之間的關(guān)系,而知識圖譜更側(cè)重于表述實(shí)體之間的關(guān)系。知識圖譜是結(jié)構(gòu)化的語義知識庫,用于描述物理世界中的概念及其相互關(guān)系。知識圖譜通過對錯綜復(fù)雜的文檔的數(shù)據(jù)進(jìn)行有效的加工、處理、整合,轉(zhuǎn)化為簡單、清晰的“實(shí)體,關(guān)系,實(shí)體”的三元組,最后聚合大量知識,從而實(shí)現(xiàn)知識的快速響應(yīng)和推理。第16頁共47頁人工智能通識教程4.自然語言處理應(yīng)用技術(shù)自然語言處理應(yīng)用技術(shù)包括機(jī)器翻譯、文本翻譯、語音翻譯、圖像翻譯、信息檢索、自動文摘、情感分析等。機(jī)器翻譯,通過特定的計(jì)算機(jī)程序?qū)⒁环N書寫形式或聲音形式的自然語言,翻譯成另一種書寫形式或聲音形式的自然語言。文本翻譯,機(jī)器翻譯的子類,專注純文本的跨語言轉(zhuǎn)換,不涉及語音或圖像輸入。語音翻譯,將語音輸入實(shí)時(shí)轉(zhuǎn)換為目標(biāo)語言語音/文本的輸出。圖像翻譯,從圖像中提取文字并翻譯,結(jié)合OCR(光學(xué)字符識別)與MT技術(shù)。信息檢索,從大規(guī)模文本庫中查找與用戶查詢相關(guān)的信息。自動文摘,自動生成文本的簡潔摘要,保留核心信息。情感分析,識別文本中表達(dá)的情感傾向(如積極/消極/中立)。第17頁共47頁人工智能通識教程4.1.3文本分析與挖掘文本挖掘是一種利用自然語言處理和數(shù)據(jù)挖掘技術(shù)來從文本數(shù)據(jù)中提取有價(jià)值信息的方法。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來,但并不意味著簡單地將數(shù)據(jù)挖掘技術(shù)運(yùn)用到大量文本的集合上即可實(shí)現(xiàn)文本挖掘。主題模型和情感分析作為文本分析與挖掘領(lǐng)域的重要研究方向,主題建模型力于從文本中挖掘潛在的語義主題,旨在從文本數(shù)據(jù)中挖掘隱藏的主題結(jié)構(gòu),幫助理解文本數(shù)據(jù)的內(nèi)在含義和關(guān)聯(lián)性;而情感分析則關(guān)注文本背后的情感傾向以及情感極性,幫助分析情感色彩和情緒變化。主題模型與情感分析結(jié)合應(yīng)用,可以使文本數(shù)據(jù)的分析更加全面和深入。通過發(fā)掘文本數(shù)據(jù)中隱藏的主題信息,結(jié)合情感分析,可以更好地了解用戶的興趣和情感傾向,為個(gè)性化推薦、輿情監(jiān)控、情感分析等領(lǐng)域提供更為精準(zhǔn)的分析結(jié)果第18頁共47頁人工智能通識教程1.主題建模的概念與方法主題建模(topicmodeling)是一種用于發(fā)現(xiàn)文檔集合(語料庫)中的主題(或稱為主題、議題、概念)的統(tǒng)計(jì)模型。它能夠發(fā)現(xiàn)文檔-詞語之間所蘊(yùn)含的潛在語義關(guān)系(即主題),基于主題建模的文本情感分析技術(shù),期望通過挖掘各種非結(jié)構(gòu)化文本評論所蘊(yùn)含的主題及其關(guān)聯(lián)的情感特征,來提高文本情感分析的性能。主題建模的方法主要包括:潛在狄利克雷分配(latentdirichletallocation,LDA)算法是一種基于概率的模型,它假設(shè)每個(gè)文檔都是由多個(gè)主題的混合組成的,而每個(gè)主題則是由一系列詞匯組成的。LDA模型通過最大化文檔-主題分布和主題-詞匯分布之間的似然函數(shù)來估計(jì)主題。非負(fù)矩陣分解(non-negativematrixfactorization,NMF)方法是一種基于矩陣分解的方法,它可以將文檔-詞匯矩陣分解為兩個(gè)非負(fù)矩陣,即文檔-主題矩陣和主題-詞匯矩陣。概率潛在語義分析(probabilisticlatentsemanticanalysis,PLSA)方法是LDA的一個(gè)變體,它假設(shè)每個(gè)文檔和每個(gè)詞匯都與一個(gè)或多個(gè)主題相關(guān)聯(lián),并且這些主題是相互獨(dú)立的。PLSA通過最大化文檔-主題分布和主題-詞匯分布之間的似然函數(shù)來估計(jì)主題。第19頁共47頁人工智能通識教程主題模型可以應(yīng)用于許多場景、不同領(lǐng)域的實(shí)際用途(1)文檔分類,通過識別文檔的主要主題來對其進(jìn)行分類。例如,在新聞網(wǎng)站上,可以利用主題建模自動將新聞文章分為“政治”“經(jīng)濟(jì)”“體育”“娛樂”等不同類別,方便用戶快速找到自己感興趣的新聞。(2)推薦系統(tǒng),通過發(fā)現(xiàn)用戶的興趣主題來提升內(nèi)容推薦的相關(guān)性。例如,在音樂流媒體平臺上,分析用戶聽歌的歷史記錄和行為數(shù)據(jù),挖掘出用戶喜歡的音樂主題(如“搖滾”“古典”“流行”等),然后根據(jù)這些主題為用戶推薦符合其口味的新歌曲或?qū)]?。?)信息檢索,增強(qiáng)搜索算法,讓其能根據(jù)主題而非單個(gè)關(guān)鍵詞來檢索文檔。在傳統(tǒng)的搜索引擎中,用戶輸入關(guān)鍵詞后,系統(tǒng)會返回包含這些關(guān)鍵詞的文檔列表。而基于主題建模的搜索算法,可以理解用戶查詢的潛在主題,從而返回與該主題更相關(guān)的文檔,提高搜索結(jié)果的質(zhì)量和準(zhǔn)確性。(4)趨勢分析,在時(shí)間序列數(shù)據(jù)中識別和跟蹤主題的流行度變化。例如,通過分析社交媒體上的熱門話題趨勢,了解公眾對不同事件、產(chǎn)品或文化現(xiàn)象的關(guān)注度變化,為企業(yè)市場調(diào)研、政策制定者決策支持等提供參考依據(jù)。第20頁共47頁人工智能通識教程2.情感分析的概念與方法情感分析(sentimentanalysis)是NLP領(lǐng)域的一個(gè)分支,其目標(biāo)是識別和理解文本中表達(dá)的情感,從而幫助用戶更好地理解用戶的情感狀態(tài)和偏好。情感分析通常涉及對文本數(shù)據(jù)進(jìn)行分類,以判斷其情感是正面、負(fù)面還是中性。情感分析的方法主要包括以下幾種:基于規(guī)則的方法,根據(jù)預(yù)定義的規(guī)則和情感詞典,識別文本中的情感詞匯,并判斷其情感傾向?;跈C(jī)器學(xué)習(xí)的方法,使用機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(SVM)、樸素貝葉斯(naiveBayes)、隨機(jī)森林(randomforest)等,通過訓(xùn)練數(shù)據(jù)集學(xué)習(xí)情感詞匯和文本的情感分布,然后使用學(xué)到的模型對新的文本進(jìn)行情感分析?;谏疃葘W(xué)習(xí)的方法,使用深度學(xué)習(xí)模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)等,自動學(xué)習(xí)文本的特征表示,并識別出情感線索。第21頁共47頁人工智能通識教程3.主題建模與情感分析應(yīng)用(1)主題建模的應(yīng)用,產(chǎn)品分類和推薦,通過對產(chǎn)品描述文本進(jìn)行主題建模,可以自動提取出產(chǎn)品的主題類別,并根據(jù)這些主題類別對產(chǎn)品進(jìn)行分類。(2)情感分析的應(yīng)用,了解用戶滿意度:通過對用戶評論進(jìn)行情感分析,可以了解用戶對產(chǎn)品的滿意度。第22頁共47頁人工智能通識教程4.1.4文本生成1.文本生成定義文本生成是指接受非語言形式的信息作為輸入,生成可讀的文字表述。隨著NLP和AI技術(shù)發(fā)展、成熟,文本生成技術(shù)已經(jīng)日益成熟,它能夠?qū)⒎钦Z言形式的信息轉(zhuǎn)換為流暢的文字表達(dá)。這一過程依賴于計(jì)算機(jī)程序、數(shù)據(jù)、算法和模型的協(xié)同工作,自動創(chuàng)造出符合語言規(guī)范、邏輯清晰且具有特定意義和風(fēng)格的文本。本質(zhì)上,這項(xiàng)技術(shù)模仿了人類的寫作過程,通過深入學(xué)習(xí)大量的文本數(shù)據(jù),最終實(shí)現(xiàn)了新原創(chuàng)文本的能力。第23頁共47頁人工智能通識教程2.文本生成分類(1)文本到文本的生成這類任務(wù)通常指的是從現(xiàn)有的文本數(shù)據(jù)中生成新的文本內(nèi)容。又可根據(jù)不同的任務(wù)分為文本摘要、文本生成、文本復(fù)述等。文本摘要,可以分為抽取式摘要和生成式摘要。抽取式摘要通常包含信息抽取和規(guī)劃等主要步驟,通過信息抽取和規(guī)劃等步驟,從原始文本中提取關(guān)鍵信息生成摘要。生成式摘要,通過理解原始文本的內(nèi)容,生成新的摘要文本。
文本生成,根據(jù)給定的文本輸入,生成新的文本內(nèi)容。文本復(fù)述,將原始文本重新表述為不同的形式,但保持其核心意義不變。第24頁共47頁人工智能通識教程(2)數(shù)據(jù)到文本的生成這類任務(wù)通常是從結(jié)構(gòu)化數(shù)據(jù)(如表格、數(shù)據(jù)庫記錄)中生成文本內(nèi)容。又可根據(jù)不同的任務(wù)分為數(shù)據(jù)摘要、數(shù)據(jù)解釋、數(shù)據(jù)報(bào)告等。數(shù)據(jù)摘要,數(shù)據(jù)摘要可以分為數(shù)據(jù)表格摘要和數(shù)據(jù)圖表摘要。數(shù)據(jù)表格摘要,通過數(shù)據(jù)篩選、數(shù)據(jù)處理和數(shù)據(jù)規(guī)劃等步驟,從數(shù)據(jù)表格中提取關(guān)鍵信息生成摘要。數(shù)據(jù)圖表摘要,通過分析數(shù)據(jù)圖表,生成描述性的文本。數(shù)據(jù)解釋,將數(shù)據(jù)轉(zhuǎn)化為易于理解的文本描述,幫助用戶更好地理解數(shù)據(jù)內(nèi)容。數(shù)據(jù)報(bào)告,根據(jù)數(shù)據(jù)生成詳細(xì)的分析報(bào)告,提供決策支持。第25頁共47頁人工智能通識教程(3)圖像到文本的生成圖像到文本的生成這類任務(wù)通常指的是從圖像中生成文本描述。又可根據(jù)不同的任務(wù)分為圖像描述、圖像標(biāo)簽、圖像問答等。圖像描述又可以分為基于視覺特征的描述和基于語義理解的描述。基于視覺特征的描述通常包含圖像識別、圖像分割和圖像分類等主要步驟。第26頁共47頁人工智能通識教程(3)圖像到文本的生成圖像到文本的生成這類任務(wù)通常指的是從圖像中生成文本描述。又可根據(jù)不同的任務(wù)分為圖像描述、圖像標(biāo)簽、圖像問答等。圖像描述又可以分為基于視覺特征的描述和基于語義理解的描述?;谝曈X特征的描述通常包含圖像識別、圖像分割和圖像分類等主要步驟。第27頁共47頁人工智能通識教程3.文本生成方法文本生成的不同方法,包括傳統(tǒng)統(tǒng)計(jì)模型(如N-gram和平滑技術(shù))、基于模板的生成、神經(jīng)網(wǎng)絡(luò)模型(LSTM和Transformer)以及大型預(yù)訓(xùn)練模型GPT的原理和應(yīng)用,常用方法(基于語言模型和深度學(xué)習(xí))、解碼策略(貪婪搜索、束搜索、溫度采樣、top-k和nucleus采樣)以及評價(jià)指標(biāo)。(1)基于語言模型
基于語言模型(languagemodel)的文本生成技術(shù),其核心在于利用統(tǒng)計(jì)原理預(yù)測文本中下一個(gè)詞或短語出現(xiàn)的概率。這一領(lǐng)域內(nèi)的主要方法包括N-gram模型、平滑技術(shù)及神經(jīng)網(wǎng)絡(luò)語言模型等。N-gram模型,通過計(jì)算文本中連續(xù)出現(xiàn)的N個(gè)詞(N-gram)的頻率,來預(yù)測下一個(gè)詞的出現(xiàn)概率。第28頁共47頁人工智能通識教程3.文本生成方法(2)使用深度學(xué)習(xí)使用深度學(xué)習(xí)(deeplearning)的文本生成方法通過神經(jīng)網(wǎng)絡(luò)模型(如LSTM、Transformer)來學(xué)習(xí)詞之間的復(fù)雜關(guān)系,從而生成更流暢、自然的文本。深度學(xué)習(xí)模型能夠捕捉到語言的上下文信息,使得生成的文本更加準(zhǔn)確和連貫。第29頁共47頁人工智能通識教程4.2人機(jī)交互工具4.2.1人機(jī)交互框架人機(jī)交互系統(tǒng)存在統(tǒng)一特征暨面向任務(wù)問答交互。任務(wù)型人機(jī)系統(tǒng)的設(shè)計(jì)目的是解決某一類任務(wù),為了服務(wù)其相關(guān)場景,系統(tǒng)需要向用戶收集任務(wù)的相關(guān)信息條件。當(dāng)用戶提供的條件存在缺漏或錯誤時(shí),系統(tǒng)通過人機(jī)交互不斷填充相關(guān)信息,并在充分收集信息后執(zhí)行相關(guān)任務(wù)。任務(wù)型人機(jī)交互系統(tǒng)整體由三大部分構(gòu)成:自然語言理解(NLU)、對話管理(DM)以及自然語言生成(NLG)。任務(wù)型人機(jī)交互系統(tǒng)一般由用戶主動觸發(fā)對話,用戶輸入可以是語音,也可以是文本,如果是語音,則NLU部分則包含語音識別模塊;若系統(tǒng)輸出為語音時(shí),NLG部分也需包含語音合成模塊。非目標(biāo)驅(qū)動(Non-GoalDriven)人機(jī)對話系統(tǒng),系統(tǒng)框架大致與左圖一致。此類系統(tǒng)并非由目標(biāo)驅(qū)動,通常只是對用戶輸入的內(nèi)容進(jìn)行響應(yīng),并不完成特定信息服務(wù)任務(wù)。有別于任務(wù)型機(jī)器人,此類系統(tǒng)對于收集信息、自主確定對話行為等方面的要求相對較弱,大多沒有顯式的意圖識別、語義標(biāo)注等NLU過程,也沒有顯式的DM狀態(tài)。在實(shí)際應(yīng)用中,目標(biāo)驅(qū)動與非目標(biāo)驅(qū)動的劃分也并不是絕對的,常常會需要目標(biāo)驅(qū)動和非目標(biāo)驅(qū)動混合出現(xiàn)。比如,智能手機(jī)得個(gè)人助手,有時(shí)可能要與用戶閑聊,這時(shí)是非目標(biāo)驅(qū)動的,有時(shí)可能要幫助用戶執(zhí)行手機(jī)中一個(gè)指定得應(yīng)用程序,這時(shí)是目標(biāo)驅(qū)動的。第30頁共47頁人工智能通識教程4.2.2對話管理對話管理(DM)是對話工具的中樞,控制著人機(jī)對話的過程,在這個(gè)過程中,DM根據(jù)對話歷史信息,不僅要捕捉用戶的即時(shí)意圖,獲得對話任務(wù)的語義信息,還要維護(hù)對話的連貫性和目的性。對話管理的目標(biāo)是確保每一次互動都是有意義且有助于解決問題的。對話管理模塊通常包括狀態(tài)追蹤和策略優(yōu)化兩個(gè)部分。語義表示有多種形式,目前為止比較常用的是框架語義(FrameSemantics),即采用領(lǐng)域(Domain)、意圖(Intent)和詞槽(Slot)來表示語義結(jié)果。領(lǐng)域(Domain),是指同一類型的數(shù)據(jù)或資源,以及圍繞這些數(shù)據(jù)或資源提供的服務(wù)。比如“天氣”、“汽車”、“酒店”、“音樂”等。意圖(Intent),是指對于領(lǐng)域數(shù)據(jù)的操作,一般以動賓短語來命名,比如音樂領(lǐng)域有“查詢歌曲”、“播放音樂”、“暫停音樂”等意圖。詞槽(Slot),用來存放領(lǐng)域的屬性,比如音樂領(lǐng)域有“歌曲名”、“歌手”等詞槽。第31頁共47頁人工智能通識教程舉個(gè)例子,從“北京明天天氣怎么樣”這句話中,可以得到以下語義結(jié)果第32頁共47頁人工智能通識教程對話狀態(tài),追蹤其主要功能是跟蹤和更新用戶和系統(tǒng)之間的對話狀態(tài)。對話策略,通常采用強(qiáng)化學(xué)習(xí)的方法來實(shí)現(xiàn),對話策略的目標(biāo)是最大化系統(tǒng)的長期獎勵。多輪對話允許用戶和系統(tǒng)進(jìn)行更深入的交流。上下文跟蹤,系統(tǒng)需要理解當(dāng)前對話內(nèi)容的上下文,包括用戶之前的問題和系統(tǒng)的回答,以確保系統(tǒng)在回答用戶新問題時(shí)不會偏離對話主題。意圖管理,用戶的意圖可能在對話過程中變化,系統(tǒng)必須能夠?qū)崟r(shí)判斷和調(diào)整對話策略。狀態(tài)管理,系統(tǒng)需要記錄當(dāng)前會話狀態(tài),包括已經(jīng)獲取到的信息(如槽位值),并跟蹤哪些信息尚未滿足用戶需求。狀態(tài)管理可以保證系統(tǒng)在多輪對話中保持信息的連貫性。上下文管理,則是多輪對話能夠順利進(jìn)行的基礎(chǔ)。它涉及到跟蹤對話的歷史信息,包括用戶的先前陳述、系統(tǒng)之前的響應(yīng),以及任何在對話中提及的相關(guān)細(xì)節(jié)。第33頁共47頁人工智能通識教程比如我們使用智能音箱查詢天氣場景的對話說明第34頁共47頁人工智能通識教程4.2.3對話式AI對話式AI賦予機(jī)器與人類進(jìn)行自然、流暢對話的能力,已成為當(dāng)代人工智能領(lǐng)域的研究焦點(diǎn)。它融合了自然語言處理、自然語言理解、自然語言生成以及對話管理等關(guān)鍵技術(shù),為機(jī)器與人類之間的交互提供了全新的可能。傳統(tǒng)的對話式AI主要聚焦于基于規(guī)則的交互,而LLM與GenAI的融合則帶來了對傳統(tǒng)對話式AI的顛覆與革新。表4-1GenAI與對話式AI的比較比較項(xiàng)GenAI對話式AI目標(biāo)生成新穎、連貫、上下文相關(guān)的內(nèi)容(如文本、圖像)涉及深度偽造、誤導(dǎo)性內(nèi)容、版權(quán)侵犯等風(fēng)險(xiǎn)技術(shù)利用生成模型:GAN、VAE、自回歸模型等結(jié)合NLP、NLU、NLG和對話管理技術(shù)應(yīng)用領(lǐng)域利用生成模型:GAN、VAE、自回歸模型等虛擬助理、聊天機(jī)器人、客戶服務(wù)自動化等數(shù)據(jù)要求需要大量且多樣化的訓(xùn)練數(shù)據(jù)依賴用于語言理解和生成的大規(guī)模數(shù)據(jù)集評估指標(biāo)需要大量且多樣化的訓(xùn)練數(shù)據(jù)響應(yīng)準(zhǔn)確性、相關(guān)性、流暢性、用戶滿意度道德考量涉及深度偽造、誤導(dǎo)性內(nèi)容、版權(quán)侵犯等風(fēng)險(xiǎn)涉及隱私、偏見、公平性、用戶信任及負(fù)責(zé)任的部署第35頁共47頁人工智能通識教程對話類AI產(chǎn)品根據(jù)加載場景及終端的不同,從智能手機(jī)中的助手到客服支持,可將對話交互產(chǎn)品分為消費(fèi)級硬件交互產(chǎn)品與對話式AI產(chǎn)品。對話式交互產(chǎn)品分類如圖第36頁共47頁人工智能通識教程4.3識別類工具4.3.1
OCR識別工具光學(xué)字符識別(OpticalCharacterRecognition,OCR)技術(shù)是指通過光學(xué)掃描設(shè)備獲取紙質(zhì)文檔的圖像,然后利用計(jì)算機(jī)技術(shù)將圖像中的文字轉(zhuǎn)換為電子文本的過程。傳統(tǒng)OCR技術(shù)主要是掃描介質(zhì)上的字符,經(jīng)過檢測暗、亮的模式肯定其形狀,而后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程;傳統(tǒng)的光學(xué)字符識別過程:圖像預(yù)處理(彩色圖像灰度化、二值化處理、圖像變化角度檢測、矯正處理等)、版面劃分(直線檢測、傾斜檢測)、字符定位切分、字符識別、版面恢復(fù)、后處理、校對等。深度學(xué)習(xí)圖像文字識別過程,包括輸入圖像、深度學(xué)習(xí)文字區(qū)域檢測、預(yù)處理、特征提取、深度學(xué)習(xí)識別器、深度學(xué)習(xí)后處理等。深度學(xué)習(xí)技術(shù)在OCR中的應(yīng)用主要體現(xiàn)在兩個(gè)方面:一是網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),二是訓(xùn)練方法優(yōu)化。常用的深度學(xué)習(xí)架構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和轉(zhuǎn)換器網(wǎng)絡(luò)(Transformer),這些網(wǎng)絡(luò)結(jié)構(gòu)能夠有效捕捉輸入圖像中的復(fù)雜特征和空間關(guān)系。第37頁共47頁人工智能通識教程OCR處理體驗(yàn)體驗(yàn):/第38頁共47頁人工智能通識教程4.3.2生物特征識別生物特征識別(BIOMETRICS)技術(shù),是指通過計(jì)算機(jī)與光學(xué)、聲學(xué)、生物傳感器和生物統(tǒng)計(jì)學(xué)原理等高科技手段密切結(jié)合,利用人體固有的生理特性和行為特征來進(jìn)行個(gè)人身份的鑒定,完成身份認(rèn)證識別的過程。生物特征識別主要關(guān)系到計(jì)算機(jī)視覺、圖象處理與模式識別、計(jì)算機(jī)聽覺、語音處理、多傳感器技術(shù)、虛擬現(xiàn)實(shí)、計(jì)算機(jī)圖形學(xué)、可視化技術(shù)、計(jì)算機(jī)輔助設(shè)計(jì)、智能機(jī)器人感知系統(tǒng)等其他相關(guān)的研究。已被用于生物識別的生物特征有手形、指紋、臉形、虹膜、視網(wǎng)膜、脈搏、耳廓等,行為特征有簽字、聲音、按鍵力度等。第39頁共47頁人工智能通識教程1.語音識別語音識別技術(shù),也稱為自動語音識別(automaticspeechrecognition,ASR),旨在將人類的語音信號轉(zhuǎn)換為文本信息。它不僅涉及聲音到文字的轉(zhuǎn)換,還包含語義理解層面的內(nèi)涵,即不僅要“聽得到”聲音,還要“聽得懂”聲音所承載的信息。傳統(tǒng)的語音識別系統(tǒng)主要由特征提取、聲學(xué)模型、語言模型以及字典與解碼四大部分構(gòu)成。語音識別技術(shù)的核心問題包括“是什么”(自動語音識別)、“是誰”(聲紋識別)和“生成語音”(語音合成),其最終目標(biāo)是賦予機(jī)器與人類相似的對話能力。傳統(tǒng)的語音識別系統(tǒng)主要由特征提取、聲學(xué)模型、語言模型以及字典與解碼四大部分構(gòu)成。在語音識別方面,技術(shù)的發(fā)展經(jīng)歷了從高斯混合模型和隱馬爾科夫模型的混合模型階段(GMM-HMM模型),到結(jié)合深度神經(jīng)網(wǎng)絡(luò)的模型階段(如深度神經(jīng)網(wǎng)絡(luò)DNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、長短時(shí)記憶網(wǎng)絡(luò)LSTM),再到近期的端到端的模式階段。4.3.3語音識別與合成第40頁共47頁人工智能通識教程語音識別的核心問題為“是什么”、“是誰”和“生成語音”三個(gè)問題,即自動語音識別(ASR)、聲紋識別(SR)、語音合成(TTS)。第41頁共47頁人工智能通識教程語音合成技術(shù),即文本到語音(text-to-speech,TTS)技術(shù),負(fù)責(zé)將文本信息轉(zhuǎn)換為人類可聽的語音信號。它通過模擬人類發(fā)聲過程,使機(jī)器能夠“說得出”自然流暢的語言。語音合成系統(tǒng)通常包括文本預(yù)處理、語音模型訓(xùn)練和合成三個(gè)主要步驟。文本預(yù)處理階段對輸入文本進(jìn)行分詞、拼音轉(zhuǎn)換等處理,以便后續(xù)模塊能夠正確理解文本內(nèi)容;語音模型訓(xùn)練階段利用大量語音數(shù)據(jù)訓(xùn)練模型,如HMM、DNN等,以捕捉語音的聲學(xué)特征和語言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小兒發(fā)熱與脫水的關(guān)系及處理
- 卵巢黃體破裂的預(yù)防措施與日常護(hù)理
- 機(jī)器人安全課件大全
- 調(diào)度安全視頻講解
- 歷史學(xué)研究策略
- 護(hù)理細(xì)胞毒理學(xué)圖解
- 禮儀在生活中的力量
- 歷史巨擘深度解析
- 數(shù)學(xué)樂園介紹
- UI網(wǎng)頁設(shè)計(jì)就業(yè)前景
- 2025 AHA 心肺復(fù)蘇與心血管急救指南 - 第6部分:兒童基本生命支持解讀
- 2026年大慶醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能測試模擬測試卷附答案
- 中央財(cái)經(jīng)大學(xué)金融學(xué)院行政崗招聘1人(非事業(yè)編制)參考筆試題庫及答案解析
- 臨床試驗(yàn)風(fēng)險(xiǎn)最小化的法律風(fēng)險(xiǎn)防范策略
- 2025年酒店總經(jīng)理年度工作總結(jié)暨戰(zhàn)略規(guī)劃
- 2025年三基超聲試題及答案
- 廣場景觀及鋪裝工程施工方案
- 貴州興義電力發(fā)展有限公司2026年校園招聘備考題庫及一套完整答案詳解
- 完整版學(xué)生公寓維修改造工程施工組織設(shè)計(jì)方案
- 2026年“十五五”期間中國速凍食品行業(yè)市場調(diào)研及投資前景預(yù)測報(bào)告
- 《基礎(chǔ)護(hù)理學(xué)(第七版)》考前強(qiáng)化模擬練習(xí)試題庫500題(含答案)
評論
0/150
提交評論