版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目三認(rèn)識(shí)人工智能的應(yīng)用技術(shù)目錄01單擊添加目錄項(xiàng)標(biāo)題02單擊添加目錄項(xiàng)標(biāo)題03單擊添加目錄項(xiàng)標(biāo)題04單擊添加目錄項(xiàng)標(biāo)題項(xiàng)目導(dǎo)入想象一下,當(dāng)你拿起手機(jī),對(duì)著它說出“今天天氣如何?”時(shí),它迅速給出準(zhǔn)確的天氣預(yù)報(bào)。或者在機(jī)場(chǎng),你只需面對(duì)攝像頭,系統(tǒng)便能快速識(shí)別你的身份并放行。這些場(chǎng)景背后,都是人工智能應(yīng)用技術(shù)的神奇展現(xiàn)。隨著人工智能的不斷發(fā)展,它正變得越來越“聰明”,其應(yīng)用領(lǐng)域也在不斷拓展。在本章中,我們將深入探索人工智能的第二階段——感知智能,以及第三階段——認(rèn)知智能的相關(guān)應(yīng)用技術(shù),帶你領(lǐng)略人工智能如何“看”世界、“聽”聲音,并具備“思考”能力。首先,我們將聚焦于感知智能。在這個(gè)階段,人工智能通過圖像識(shí)別技術(shù),能夠識(shí)別出圖片和視頻中的物體、場(chǎng)景和事件。無論是靜態(tài)的風(fēng)景照,還是動(dòng)態(tài)的監(jiān)控視頻,它都能準(zhǔn)確地“看”出其中的內(nèi)容。此外,人臉識(shí)別技術(shù)也讓人工智能擁有了“識(shí)人”的能力,它能快速識(shí)別出每個(gè)人獨(dú)特的面部特征,廣泛應(yīng)用于手機(jī)解鎖、支付驗(yàn)證和安全監(jiān)控等領(lǐng)域。同時(shí),語(yǔ)音識(shí)別和聲紋識(shí)別技術(shù)則賦予了人工智能“聽”的能力,它能“聽”懂人類的語(yǔ)言和聲音,實(shí)現(xiàn)語(yǔ)音指令控制和身份驗(yàn)證等功能。隨后,我們將邁向認(rèn)知智能。自然語(yǔ)言處理技術(shù)讓人工智能能夠“懂”人類的語(yǔ)言,它不僅能理解文本中的語(yǔ)義,還能生成流暢、連貫的自然語(yǔ)言文本,使智能客服、機(jī)器翻譯等應(yīng)用成為可能。知識(shí)圖譜技術(shù)則為人工智能提供了豐富的知識(shí)儲(chǔ)備,它將大量知識(shí)以圖譜形式組織,使人工智能能夠進(jìn)行復(fù)雜推理和決策,更好地理解事物之間的關(guān)系和規(guī)律。通過本章的學(xué)習(xí),你將深入了解這些人工智能應(yīng)用技術(shù)的原理和應(yīng)用,掌握人工智能如何實(shí)現(xiàn)“識(shí)字、看人、看事件”和“聞聲識(shí)人”,以及為何具備“懂語(yǔ)義、會(huì)思考”的能力。這不僅為你后續(xù)學(xué)習(xí)行業(yè)場(chǎng)景應(yīng)用篇奠定基礎(chǔ),也將讓你對(duì)人工智能的未來應(yīng)用和發(fā)展充滿期待和思考。讓我們一起開啟這段人工智能應(yīng)用技術(shù)的探索之旅,感受它帶來的無限魅力和可能性!知識(shí)目標(biāo):能力目標(biāo):掌握基礎(chǔ)概念:了解人工智能定義、分類及重要性。熟悉感知智能應(yīng)用:知道圖像、語(yǔ)音等感知技術(shù)原理與用途?;A(chǔ)問題理解:面對(duì)常見人工智能問題,能夠理解其基本原理和現(xiàn)象。學(xué)習(xí)目標(biāo)了解認(rèn)知智能功能:明白自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)作用。素養(yǎng)目標(biāo):培養(yǎng)良好的辯證思維、求實(shí)精神。提升信息素養(yǎng):理解人工智能信息的能力,形成客觀認(rèn)識(shí)。培養(yǎng)跨學(xué)科思維:理解人工智能與各學(xué)科的融合,拓展思維視野。技術(shù)應(yīng)用能力:能將視覺智能技術(shù)用于簡(jiǎn)單實(shí)際問題,如物品分類。數(shù)據(jù)處理能力:能對(duì)圖像數(shù)據(jù)進(jìn)行基礎(chǔ)整理和標(biāo)注,支持機(jī)器訓(xùn)練。簡(jiǎn)單應(yīng)用實(shí)踐:能在指導(dǎo)下使用AI工具完成基礎(chǔ)任務(wù),如簡(jiǎn)單查詢、數(shù)據(jù)輸入等。難點(diǎn):倫理決策的復(fù)雜性:人工智能應(yīng)用中的倫理選擇缺乏統(tǒng)一標(biāo)準(zhǔn)。重點(diǎn)難點(diǎn)重點(diǎn):了解自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)的作用。圖像識(shí)別、聲音識(shí)別等技術(shù)的日常應(yīng)用。理解日常生活中人工智能應(yīng)用的基本原理。圖像識(shí)別、聲音識(shí)別的技術(shù)原理。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”
PARTONE對(duì)人類而言,視覺是獲取信息的主要途徑,占據(jù)了信息來源的絕大部分。若能讓計(jì)算機(jī)仿照人眼“看見”世界,進(jìn)而實(shí)現(xiàn)對(duì)環(huán)境的感知、識(shí)別與理解,這便是“計(jì)算機(jī)視覺”的核心目標(biāo)。在人工智能領(lǐng)域,視覺AI憑借其卓越的應(yīng)用價(jià)值,成為當(dāng)前備受矚目的技術(shù)。它賦予機(jī)器“從識(shí)人知物到辨識(shí)萬(wàn)物”的能力,使其得以洞察并理解這個(gè)復(fù)雜多變的世界。擁有了這雙智慧的“雙眼”,人工智能在視覺智能層面的應(yīng)用得以大放異彩。從便捷的刷臉支付,到拍照即可識(shí)別物品的智能應(yīng)用;從警方利用視覺智能追捕逃犯,到物流行業(yè)實(shí)現(xiàn)貨物的自動(dòng)分揀;從科研人員借助該技術(shù)跟蹤保護(hù)動(dòng)物,到環(huán)保部門監(jiān)測(cè)污染物排放...越來越多的場(chǎng)景被“看見”,視覺智能的應(yīng)用版圖不斷擴(kuò)張。那么,支撐視覺智能廣泛應(yīng)用的背后,是哪些關(guān)鍵技術(shù)在發(fā)力?人工智能又是如何依靠視覺AI走向大眾,悄然融入我們的日常生活的呢?任務(wù)導(dǎo)入任務(wù)目標(biāo)通過本項(xiàng)目的學(xué)習(xí),你將深入了解視覺智能的關(guān)鍵應(yīng)用技術(shù),包括圖像識(shí)別、目標(biāo)檢測(cè)等。同時(shí),我們將探討傳統(tǒng)計(jì)算機(jī)視覺與現(xiàn)代視覺智能之間的差異與聯(lián)系,幫助你理解視覺智能在圖像理解方面的進(jìn)步。此外,本項(xiàng)目將引導(dǎo)你思考視覺智能在日常生活和各行業(yè)中的具體應(yīng)用實(shí)例。從讓機(jī)器“看得見”到“看得清”最后到“看得懂”,我們將學(xué)習(xí)如何通過數(shù)據(jù)標(biāo)注、模型訓(xùn)練等方法來訓(xùn)練機(jī)器。在完成每個(gè)任務(wù)后的實(shí)訓(xùn)項(xiàng)目時(shí),鼓勵(lì)你進(jìn)一步思考并嘗試設(shè)計(jì)更多實(shí)訓(xùn)任務(wù),以拓展你的學(xué)習(xí)體驗(yàn)和應(yīng)用能力。專業(yè)詞匯任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)導(dǎo)圖任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備作為人工智能技術(shù)應(yīng)用的前沿領(lǐng)域,視覺AI正逐步以“電子視覺”取代傳統(tǒng)人眼功能。相較于以往計(jì)算機(jī)視覺側(cè)重于圖像內(nèi)容的識(shí)別與表達(dá),現(xiàn)代視覺AI更加注重分析、判斷及實(shí)際應(yīng)用的融合。得益于深度學(xué)習(xí)技術(shù)的突破、硬件計(jì)算能力的飛躍以及海量視覺數(shù)據(jù)的積累,視覺AI在多個(gè)關(guān)鍵應(yīng)用領(lǐng)域取得了顯著進(jìn)展。其應(yīng)用范圍廣泛,包括但不限于:通過人臉識(shí)別技術(shù)實(shí)現(xiàn)安全驗(yàn)證、利用視頻監(jiān)控系統(tǒng)進(jìn)行智能分析、通過文字識(shí)別技術(shù)自動(dòng)處理文檔、在工業(yè)生產(chǎn)中自動(dòng)檢測(cè)產(chǎn)品瑕疵、為自動(dòng)駕駛和輔助駕駛系統(tǒng)提供視覺支持,以及在醫(yī)療領(lǐng)域輔助進(jìn)行影像診斷等。視覺AI與各行各業(yè)的深度融合,正推動(dòng)著智能應(yīng)用的不斷創(chuàng)新和突破,機(jī)器視覺AI技術(shù)的部分應(yīng)用領(lǐng)域如下圖3-1所示。圖3-1計(jì)算機(jī)視覺應(yīng)用場(chǎng)景任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備一、圖像識(shí)別技術(shù)原理及應(yīng)用(一)什么是圖像識(shí)別技術(shù)圖像識(shí)別技術(shù)是人工智能領(lǐng)域的關(guān)鍵應(yīng)用之一,它在機(jī)器學(xué)習(xí)中占據(jù)了核心地位。這項(xiàng)技術(shù)的演進(jìn)可劃分為三個(gè)里程碑式的階段:從最初的文字識(shí)別,到數(shù)字圖像的處理與識(shí)別,再發(fā)展至對(duì)復(fù)雜物體的識(shí)別。圖像識(shí)別的終極目標(biāo)是賦予計(jì)算機(jī)處理龐大圖像數(shù)據(jù)的能力,這些數(shù)據(jù)量往往超出了人類處理的范疇,尤其是在那些人類難以或無法準(zhǔn)確識(shí)別的場(chǎng)景中。在人類觀察圖像時(shí),大腦會(huì)本能地進(jìn)行快速的模式匹配,檢索記憶庫(kù)以識(shí)別圖像或?qū)ふ蚁嗨菩裕@一過程是“視覺感知”與“認(rèn)知識(shí)別”之間的橋梁。類似地,機(jī)器圖像識(shí)別技術(shù)通過分析和提取圖像的關(guān)鍵特征,如顏色、紋理、形狀和局部特征點(diǎn),來實(shí)現(xiàn)對(duì)圖像內(nèi)容的理解和分類。這些特征的選取和利用,直接關(guān)系到機(jī)器識(shí)別的效率和準(zhǔn)確性。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備圖像識(shí)別技術(shù)的進(jìn)步,不僅提升了機(jī)器處理視覺信息的能力,也為解決人類在圖像識(shí)別上的局限提供了強(qiáng)有力的工具。隨著技術(shù)的不斷優(yōu)化,圖像識(shí)別在多個(gè)行業(yè)中發(fā)揮著越來越重要的作用,從安全監(jiān)控到醫(yī)療診斷,從自動(dòng)駕駛到智能零售,其應(yīng)用范圍日益廣泛。圖像識(shí)別過程分為圖像處理和圖像識(shí)別兩個(gè)部分,如下圖3-2所示。圖3-2圖像識(shí)別過程任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備1.圖像處理利用計(jì)算機(jī)對(duì)圖像進(jìn)行分析,以達(dá)到所需的結(jié)果。分為模擬圖像處理和數(shù)字圖像處理,而一般的圖像處理依賴于軟件,進(jìn)行數(shù)字圖像處理。其目的是去除干擾、噪聲,將原始圖像進(jìn)行特征提取,主要包括圖像采集、圖像增強(qiáng)、圖像復(fù)原、圖像編碼與壓縮和圖像分割。(1)圖像采集圖像采集是利用攝像機(jī)、掃描儀或數(shù)碼相機(jī)等設(shè)備,將現(xiàn)實(shí)世界的景象轉(zhuǎn)化為數(shù)字格式的過程。這不僅包括靜態(tài)圖像,也涵蓋動(dòng)態(tài)視頻,它們可以被轉(zhuǎn)換為數(shù)字圖像,并與文字、圖形和聲音一同存儲(chǔ)。這一步驟是圖像處理的起點(diǎn),為計(jì)算機(jī)進(jìn)一步分析和處理圖像提供了基礎(chǔ)。(2)圖像增強(qiáng)圖像增強(qiáng)的目的在于提升圖像的特定區(qū)域,以補(bǔ)償在成像、采集和傳輸過程中可能出現(xiàn)的質(zhì)量下降。通過增強(qiáng)技術(shù),可以減少噪聲,調(diào)整亮度、色彩和對(duì)比度,從而為后續(xù)的圖像分析和理解打下堅(jiān)實(shí)的基礎(chǔ)。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備(3)圖像復(fù)原在圖像獲取過程中,可能會(huì)受到環(huán)境噪聲、運(yùn)動(dòng)模糊或光線變化等因素的影響,導(dǎo)致圖像質(zhì)量下降。圖像復(fù)原技術(shù)通過濾波等方法,試圖從受損的圖像中恢復(fù)出原始的清晰圖像。此外,圖像重建技術(shù)通過分析物體的投影數(shù)據(jù),構(gòu)建出其內(nèi)部結(jié)構(gòu)的圖像。(4)圖像編碼與壓縮為了在網(wǎng)絡(luò)環(huán)境中高效傳輸圖像和視頻,圖像編碼和壓縮技術(shù)至關(guān)重要。例如,JPEG標(biāo)準(zhǔn)針對(duì)靜態(tài)圖像的分辨率和色彩進(jìn)行了優(yōu)化。視頻,作為一系列靜態(tài)圖像的連續(xù)序列,其壓縮可以借鑒靜態(tài)圖像的壓縮技術(shù)。通過編碼和壓縮,可以顯著減少數(shù)據(jù)量,提高傳輸效率,縮短處理時(shí)間。(5)圖像分割技術(shù)圖像分割是將圖像劃分為若干具有獨(dú)特特征的子區(qū)域的過程。這些區(qū)域可以基于顏色、形狀、灰度或紋理等屬性來定義。分割技術(shù)使得圖像中的目標(biāo)能夠從背景中被識(shí)別和分離,為后續(xù)的圖像識(shí)別和分析提供了必要的前提。圖像分割的方法多樣,包括基于區(qū)域特征、相關(guān)匹配和邊界特征的分割技術(shù),具體選擇哪種方法取決于圖像的具體內(nèi)容和分析需求。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備2.圖像識(shí)別將經(jīng)過處理的圖像進(jìn)行征提取和分類,這就是圖像識(shí)別。我們選取了幾種常用的識(shí)別方法:統(tǒng)計(jì)法、模板匹配法和神經(jīng)網(wǎng)絡(luò)法簡(jiǎn)要介紹。(1)統(tǒng)計(jì)法該方法是對(duì)研究的圖像進(jìn)行大量的統(tǒng)計(jì)分析,找出其中的規(guī)律并提取反映圖像本質(zhì)特點(diǎn)的特征來進(jìn)行圖像識(shí)別,其缺點(diǎn)是,當(dāng)特征數(shù)量激增,給特征提取造成困難,分類也難以實(shí)現(xiàn)。尤其是當(dāng)被識(shí)別圖像(如指紋,染色體等)的主要特征是結(jié)構(gòu)特征時(shí),用統(tǒng)計(jì)法就很難進(jìn)行識(shí)別。(2)模板匹配法是一種最基本的圖像識(shí)別方法,就是把已知物體的模板與圖像中所有未知物體進(jìn)行比較,如果某一未知物體與該模板匹配,則該物體被檢測(cè)出來,并被認(rèn)為是與模板相同的物體,該方法雖然簡(jiǎn)單方便,但其應(yīng)用有很大限制,識(shí)別率過多地依賴于已知物體的模板,如果已知物體的模板產(chǎn)生變形,會(huì)導(dǎo)致錯(cuò)誤的識(shí)別。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備(3)神經(jīng)網(wǎng)絡(luò)法是一種比較新型的圖像識(shí)別技術(shù),是指用神經(jīng)網(wǎng)絡(luò)算法對(duì)圖像進(jìn)行識(shí)別的方法。近十多年來得益于算法的提升和海量的訓(xùn)練數(shù)據(jù),讓深度學(xué)習(xí)模型成功應(yīng)用于一般圖像的識(shí)別和理解,不僅大大提升了圖像識(shí)別的準(zhǔn)確性,也避免了抽取人工特征時(shí)的時(shí)間消耗。人工神經(jīng)網(wǎng)絡(luò)(ANN)是模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而構(gòu)建的計(jì)算模型。這種網(wǎng)絡(luò)設(shè)計(jì)用來模擬人類在感知、形象思維、記憶存儲(chǔ)以及自我學(xué)習(xí)和組織等方面的心智活動(dòng)。ANN通過大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行信息處理,每個(gè)神經(jīng)元可以接收輸入信號(hào),進(jìn)行處理,并傳遞輸出信號(hào)。神經(jīng)網(wǎng)絡(luò)以其容錯(cuò)力、聯(lián)想記憶和自我學(xué)習(xí)能力,在處理模糊和不精確數(shù)據(jù)方面極為有效。這些優(yōu)勢(shì)極大地推動(dòng)了人工智能技術(shù)的發(fā)展,使其在多種應(yīng)用中更加精準(zhǔn)和高效。隨著算法的持續(xù)優(yōu)化,神經(jīng)網(wǎng)絡(luò)正成為解決復(fù)雜問題的關(guān)鍵技術(shù)。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備以垃圾郵件過濾為例,當(dāng)處理一封電子郵件時(shí),人工神經(jīng)網(wǎng)絡(luò)會(huì)將郵件內(nèi)容分解為單獨(dú)的詞匯。每個(gè)神經(jīng)元負(fù)責(zé)識(shí)別特定的詞匯或模式,并將這些信息作為輸入。經(jīng)過網(wǎng)絡(luò)內(nèi)部的復(fù)雜計(jì)算,每個(gè)神經(jīng)元都會(huì)對(duì)郵件是否為垃圾郵件做出初步判斷。最終,這些分散的判斷被綜合起來,形成對(duì)郵件性質(zhì)的總體評(píng)估。這種機(jī)制類似于人腦在閱讀郵件時(shí)的工作方式:我們可能會(huì)根據(jù)郵件中的某些關(guān)鍵詞或短語(yǔ)來判斷其是否為垃圾郵件。人工神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)和識(shí)別這些模式,能夠自動(dòng)執(zhí)行類似的分類任務(wù),從而實(shí)現(xiàn)高效的信息篩選和處理。人工神經(jīng)網(wǎng)絡(luò)判斷是否為垃圾郵件的工作流程如圖3-3所示。圖3-3人工神經(jīng)網(wǎng)絡(luò)判斷是否為垃圾郵件的工作流程圖任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備(二)圖像識(shí)別的技術(shù)流程其實(shí)計(jì)算機(jī)的圖像識(shí)別技術(shù)與人類的圖像識(shí)別原理相同,那它們的過程也大同小異。圖像識(shí)別的流程分以下幾步:信息的提取、預(yù)處理、特征提取、特征選擇、分類器設(shè)計(jì)和分類決策。(1)信息提取:通過傳感器捕獲圖像或視頻,將光信號(hào)轉(zhuǎn)換為電信號(hào),為圖像識(shí)別提供原始數(shù)據(jù)。(2)數(shù)據(jù)預(yù)處理:使用去噪、平滑、變換等圖像處理技術(shù),以增強(qiáng)圖像的關(guān)鍵特征,為后續(xù)分析做準(zhǔn)備。(3)特征提?。翰捎锰囟ǚ椒ǚ治鰣D像,提取其內(nèi)在特征。(4)特征選擇:從眾多特征中篩選出對(duì)識(shí)別任務(wù)最有幫助的關(guān)鍵特征。(5)分類器設(shè)計(jì):通過訓(xùn)練過程形成識(shí)別規(guī)則,實(shí)現(xiàn)特征的有效分類,提高圖像識(shí)別的準(zhǔn)確度。(6)分類決策:在特征空間內(nèi)對(duì)識(shí)別對(duì)象進(jìn)行分類,明確對(duì)象的類別歸屬,優(yōu)化識(shí)別過程。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備(三)圖像識(shí)別的應(yīng)用圖像識(shí)別技術(shù)在多個(gè)關(guān)鍵領(lǐng)域發(fā)揮著至關(guān)重要的作用,包括但不限于公共安全、生物科學(xué)、工業(yè)制造、農(nóng)業(yè)生產(chǎn)、交通運(yùn)輸和醫(yī)療健康。在交通領(lǐng)域,它通過車牌識(shí)別系統(tǒng)來優(yōu)化交通管理;在公共安全領(lǐng)域,它利用人臉識(shí)別和指紋識(shí)別技術(shù)來增強(qiáng)安全措施;在農(nóng)業(yè)領(lǐng)域,它通過種子識(shí)別和食品品質(zhì)檢測(cè)來提高生產(chǎn)效率和食品安全;在醫(yī)療領(lǐng)域,它通過心電圖識(shí)別來輔助疾病診斷。此外,圖像識(shí)別技術(shù)在視頻監(jiān)控和人臉檢測(cè)等日常應(yīng)用中也日益普及,成為我們生活中不可或缺的一部分。通過這些應(yīng)用,圖像識(shí)別技術(shù)不僅提升了各行業(yè)的工作效率,也為我們的生活帶來了更多的便利和安全。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備視頻識(shí)別和行為識(shí)別作為圖像識(shí)別技術(shù)的重要應(yīng)用,在多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景和發(fā)展?jié)摿?。視頻是由連續(xù)播放的圖像幀組成的(通常每秒播放25幀),其中視頻理解是一個(gè)關(guān)鍵課題,主要包括以下幾個(gè)方面:(1)視頻結(jié)構(gòu)化分析:這涉及將視頻分解為不同的層次,如幀、超幀、鏡頭、場(chǎng)景和故事等,以便在多個(gè)維度上進(jìn)行處理和分析。(2)目標(biāo)檢測(cè)與跟蹤:例如車輛跟蹤,主要應(yīng)用于交通監(jiān)控和安防領(lǐng)域。(3)人物識(shí)別:識(shí)別視頻中出現(xiàn)的人物身份。(4)動(dòng)作識(shí)別:識(shí)別視頻中人物的具體動(dòng)作.行為識(shí)別是計(jì)算機(jī)視覺研究中的一個(gè)重要領(lǐng)域,旨在對(duì)人的活動(dòng)進(jìn)行分解和識(shí)別。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備以課堂行為檢測(cè)與識(shí)別為例,視頻幀當(dāng)中的行為檢測(cè)如下圖3-4所示。行為識(shí)別,作為計(jì)算機(jī)視覺的一個(gè)關(guān)鍵研究領(lǐng)域,專注于解析和識(shí)別視頻中的人類活動(dòng),為視頻內(nèi)容的自動(dòng)化分析和理解提供了強(qiáng)有力的工具。通過這些技術(shù),視頻識(shí)別不僅增強(qiáng)了安全監(jiān)控的效率,也為娛樂、教育和健康等多個(gè)領(lǐng)域帶來了創(chuàng)新的應(yīng)用。圖3-4視頻幀的行為識(shí)別任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備二、人臉識(shí)別技術(shù)及應(yīng)用人臉識(shí)別是一種基于面部特征進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù),通常被稱為人像識(shí)別或面部識(shí)別。它通過攝像頭捕捉包含人臉的靜態(tài)或動(dòng)態(tài)圖像,并利用計(jì)算機(jī)視覺算法檢測(cè)、跟蹤并分析人臉特征。該技術(shù)的核心流程包括人臉圖像采集、人臉檢測(cè)、圖像預(yù)處理、特征提取以及最終的匹配與識(shí)別,其流程圖如下圖3-5所示。圖3-5人臉識(shí)別邏輯圖任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備1.人臉圖像采集與檢測(cè)通過攝像頭設(shè)備(如RGB攝像頭、紅外攝像頭或3D攝像頭等)獲取圖像。在采集過程中,設(shè)備會(huì)自動(dòng)檢測(cè)并捕捉在其拍攝范圍內(nèi)的人臉圖像,包括靜態(tài)或動(dòng)態(tài)的面部圖像,不同角度和表情下的人臉均能有效采集。2.人臉檢測(cè)這是人臉識(shí)別的關(guān)鍵預(yù)處理步驟,旨在從圖像中準(zhǔn)確定位人臉的位置和大小。通過提取圖像中的各種模式特征(如顏色、直方圖、模板和結(jié)構(gòu)特征),系統(tǒng)能夠識(shí)別出并標(biāo)定出人臉?biāo)趨^(qū)域,進(jìn)而進(jìn)行后續(xù)處理。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備3.人臉圖像預(yù)處理在圖像采集和人臉檢測(cè)之后,所得到的原始圖像通常會(huì)受到環(huán)境光線、噪聲或其他因素的干擾,無法直接用于特征提取。因此,需要對(duì)圖像進(jìn)行一系列的預(yù)處理步驟,以確保后續(xù)的識(shí)別過程能夠順利進(jìn)行。預(yù)處理主要包括以下幾個(gè)方面:(1)人臉對(duì)齊:調(diào)整圖像中的人臉使其處于正確位置,確保人臉面向攝像頭。(2)光線補(bǔ)償與灰度變換:對(duì)圖像進(jìn)行光照修正和灰度調(diào)整,保證光線不均或其他因素造成的影響被有效去除。(3)直方圖均衡化與歸一化:對(duì)圖像的灰度范圍進(jìn)行標(biāo)準(zhǔn)化處理,使其尺寸一致,灰度值統(tǒng)一。(4)幾何校正與噪聲過濾:應(yīng)用中值濾波或其他去噪方法去除圖像中的噪聲,確保圖像的平滑性和清晰度。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備4.人臉圖像特征提取在經(jīng)過預(yù)處理后,接下來的步驟是從圖像中提取出具有識(shí)別性的人臉特征。這一過程也叫做人臉表征,目的是通過分析面部的特征數(shù)據(jù)為每個(gè)人建立獨(dú)特的識(shí)別模板。常見的特征提取方法包括:(1)視覺特征:例如眼睛、鼻子、嘴巴等面部關(guān)鍵點(diǎn)的空間分布特征。(2)像素統(tǒng)計(jì)特征:基于圖像像素的統(tǒng)計(jì)數(shù)據(jù),如灰度值、對(duì)比度等。(3)變換系數(shù)特征與代數(shù)特征:基于圖像變換技術(shù)(如主成分分析PCA、線性判別分析LDA等)提取的高級(jí)特征。(4)匹配與識(shí)別:將提取的人臉特征與數(shù)據(jù)庫(kù)中存儲(chǔ)的特征模板進(jìn)行比對(duì)。通過計(jì)算特征的相似度并與預(yù)設(shè)的匹配閾值進(jìn)行比較,系統(tǒng)能夠判斷并確認(rèn)身份。如果相似度超過閾值,則認(rèn)為匹配成功,進(jìn)而完成身份識(shí)別。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備人臉識(shí)別技術(shù)成熟,廣泛應(yīng)用與OA打卡、人臉簽到、掃臉安檢等,其一般流程圖如圖3-6所示。圖3-6人臉識(shí)別流程圖任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備三、OCR文字識(shí)別技術(shù)及應(yīng)用(一)什么是OCR文字識(shí)別的發(fā)展為無紙化、智能化辦公提供了技術(shù)支持。例如在圖書館、資料室、古籍管理等,對(duì)紙質(zhì)文字一拍即可變成可編輯的文字,便于檢索分類,省去操作耗時(shí)、錯(cuò)誤率較高的人工,避免對(duì)珍貴史料造成損壞。此外,文字識(shí)別還可以識(shí)別視頻中的文字,對(duì)互聯(lián)網(wǎng)視頻內(nèi)容進(jìn)行識(shí)別審核、監(jiān)控,篩除掉違規(guī)的視頻、廣告等。那么,OCR文字識(shí)別究竟是什么呢?
OCR,全稱OpticalCharacterRecognition,光學(xué)字符識(shí)別。通俗地理解,
就是利用該識(shí)別技術(shù),OCR文字識(shí)別可以代替人工錄入,將圖片上的文字、符號(hào)識(shí)別出來并變?yōu)榭删庉嫷奈谋荆鐖D3-7銀行卡信息識(shí)別。圖3-7銀行卡信息識(shí)別任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備人工智能時(shí)代的OCR,又被稱為文字識(shí)別技術(shù),它是基于深度學(xué)習(xí)技術(shù),將紙張、圖片等載體上的文字內(nèi)容,智能識(shí)別成為可編輯的文本。不僅支持通用的印刷體識(shí)別,也支持運(yùn)單等手寫體識(shí)別,可以更加有效地代替人工錄入信息。OCR技術(shù)從早期的單字識(shí)別逐步發(fā)展到整行文字識(shí)別,極大地提高了文字識(shí)別的精準(zhǔn)度。同時(shí),智能OCR技術(shù)顯著增強(qiáng)了對(duì)圖像質(zhì)量的適應(yīng)性,即使在光照不均、圖像模糊或背景復(fù)雜的情況下,也能實(shí)現(xiàn)高效的識(shí)別。與傳統(tǒng)OCR技術(shù)不同,智能OCR無需依賴掃描儀或高拍儀,甚至通過手機(jī)、平板等移動(dòng)設(shè)備拍攝的普通照片也能完成識(shí)別。只要文字能夠用肉眼辨認(rèn),智能OCR便能進(jìn)行處理。更令人驚嘆的是,對(duì)于以往難以攻克的手寫字體識(shí)別問題,智能OCR表現(xiàn)出卓越的學(xué)習(xí)能力。通過深度學(xué)習(xí),它可以適應(yīng)各種書寫習(xí)慣,精準(zhǔn)識(shí)別任意字體,能夠在瞬間完成對(duì)文字的解讀。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備(二)OCR的技術(shù)流程OCR技術(shù)的識(shí)別流程通常包括圖像采集與預(yù)處理、文字區(qū)域檢測(cè)、字符分割與文本線檢測(cè)、特征提取與文字識(shí)別、后處理與格式化輸出、數(shù)據(jù)存儲(chǔ)與驗(yàn)證六個(gè)關(guān)鍵步驟,每一步都針對(duì)不同的技術(shù)需求進(jìn)行優(yōu)化,以確保高效、精準(zhǔn)的文字提?。?.圖像采集與預(yù)處理(1)圖像采集:通過掃描儀、攝像頭或移動(dòng)設(shè)備獲取圖像文件,包含文本的照片、掃描件或截圖等。(2)預(yù)處理:對(duì)采集到的圖像進(jìn)行處理,包括去噪、灰度化、二值化、光照校正、傾斜矯正和裁剪。這些操作能夠消除干擾因素,為后續(xù)的文字檢測(cè)和識(shí)別提供清晰的圖像輸入。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備2.文字區(qū)域檢測(cè)OCR系統(tǒng)通過深度學(xué)習(xí)或傳統(tǒng)算法(如邊緣檢測(cè)、投影法)從圖像中定位文字所在的區(qū)域,區(qū)分文字、圖像和其他背景內(nèi)容。該步驟能夠處理多樣化的場(chǎng)景,例如復(fù)雜背景、表格結(jié)構(gòu)或不規(guī)則的文字排布。3.字符分割與文本線檢測(cè)在定位文字區(qū)域后,將圖像分割為更細(xì)的文字行或字符單元。系統(tǒng)會(huì)根據(jù)排列方向和字符間距,檢測(cè)整行文本,并為每個(gè)字符分配邊界框,以便后續(xù)識(shí)別。4.特征提取與文字識(shí)別(1)特征提取:對(duì)分割出的字符區(qū)域提取特征信息,包括邊緣、輪廓、紋理或深度學(xué)習(xí)模型中的高維特征。(2)文字識(shí)別:通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等深度學(xué)習(xí)模型,將提取的特征轉(zhuǎn)換為可讀的字符輸出。對(duì)于整行文本的識(shí)別,常使用CRNN(卷積-循環(huán)神經(jīng)網(wǎng)絡(luò))結(jié)合CTC(連接時(shí)序分類)算法,提高識(shí)別效率。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備5.后處理與格式化輸出(1)語(yǔ)言模型校正:結(jié)合語(yǔ)言模型對(duì)識(shí)別結(jié)果進(jìn)行語(yǔ)義校正,例如糾正拼寫錯(cuò)誤或處理多義詞。(2)格式化輸出:將識(shí)別的文字按需求整理為結(jié)構(gòu)化數(shù)據(jù)(如表格、JSON格式)或直接輸出為文本文件,便于進(jìn)一步應(yīng)用。6.數(shù)據(jù)存儲(chǔ)與驗(yàn)證最終的識(shí)別結(jié)果可以存儲(chǔ)到數(shù)據(jù)庫(kù)中,或與已有的信息進(jìn)行比對(duì)和驗(yàn)證,以確保數(shù)據(jù)的準(zhǔn)確性和完整性。這種識(shí)別流程廣泛應(yīng)用于文檔數(shù)字化、證件識(shí)別、發(fā)票處理等領(lǐng)域,具有高效、穩(wěn)定和智能化的優(yōu)勢(shì),滿足多場(chǎng)景下的文字識(shí)別需求。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備(三)OCR的行業(yè)應(yīng)用OCR識(shí)別包含通用文字識(shí)別、卡證文字識(shí)別、票據(jù)文字識(shí)別、場(chǎng)景文字識(shí)別、以及其他文字(圖片數(shù)字、印章檢測(cè)、表格文字、圖片二維碼等)識(shí)別等幾大類型場(chǎng)景的識(shí)別。1.證件識(shí)別OCR技術(shù)在證件識(shí)別領(lǐng)域的應(yīng)用極具實(shí)用性,能夠快速、精準(zhǔn)地提取身份證、護(hù)照、駕駛證等各類證件上的關(guān)鍵信息。針對(duì)證件識(shí)別的特殊需求,OCR技術(shù)結(jié)合圖像處理算法,可以自動(dòng)檢測(cè)證件區(qū)域,無論證件照片因拍攝角度、光照不均或背景復(fù)雜而導(dǎo)致的質(zhì)量問題,系統(tǒng)都能通過自動(dòng)矯正和優(yōu)化處理,還原清晰的識(shí)別效果。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備在實(shí)際應(yīng)用中,OCR會(huì)智能提取證件上的關(guān)鍵字段,以身份證的識(shí)別為例,OCR能夠?qū)Χ用裆矸葑C正反面所有8個(gè)字段進(jìn)行結(jié)構(gòu)化識(shí)別,包括姓名、性別、民族、出生日期、住址、身份證號(hào)、簽發(fā)機(jī)關(guān)、有效期限,識(shí)別準(zhǔn)確率超過99%,同時(shí)支持身份證正面頭像檢測(cè)。識(shí)別完成后能夠?qū)ψ侄蝺?nèi)容進(jìn)行格式化輸出,同時(shí)支持多語(yǔ)言文字的識(shí)別和翻譯。針對(duì)證件上的水印、防偽紋路等復(fù)雜背景,OCR技術(shù)通過深度學(xué)習(xí)模型有效過濾干擾信息,精準(zhǔn)提取有效數(shù)據(jù)。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備這一技術(shù)廣泛應(yīng)用于酒店入住、金融開戶、電子政務(wù)等場(chǎng)景中,能夠顯著提升身份驗(yàn)證的效率和準(zhǔn)確性。不僅如此,OCR還支持與后臺(tái)數(shù)據(jù)庫(kù)聯(lián)動(dòng),通過信息比對(duì)與驗(yàn)證,確保識(shí)別結(jié)果的可靠性,為證件相關(guān)業(yè)務(wù)提供了高效、安全的技術(shù)保障,如圖身份證信息識(shí)別所示。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備2.票據(jù)識(shí)別OCR技術(shù)在發(fā)票和單據(jù)識(shí)別中的應(yīng)用尤為重要,這類場(chǎng)景往往伴隨著復(fù)雜的表格結(jié)構(gòu)、繁多的字段以及格式不統(tǒng)一的內(nèi)容。智能OCR技術(shù)能夠通過精準(zhǔn)的關(guān)鍵點(diǎn)定位,識(shí)別發(fā)票或單據(jù)中的表格邊界和內(nèi)容區(qū)域,并自動(dòng)提取其中的關(guān)鍵信息,如發(fā)票號(hào)碼、日期、金額、稅率等。在處理過程中,系統(tǒng)會(huì)對(duì)復(fù)雜背景進(jìn)行去噪和校正,無論發(fā)票是傾斜拍攝還是光照條件不佳,均可實(shí)現(xiàn)自動(dòng)角度修正和格式化處理。此外,OCR還能結(jié)合深度學(xué)習(xí)模型,準(zhǔn)確識(shí)別各種字體、符號(hào)甚至手寫備注,并根據(jù)預(yù)定義模板自動(dòng)匹配字段,將提取的信息高效填充到數(shù)據(jù)系統(tǒng)中,如上圖所示。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備這種技術(shù)尤其適合財(cái)務(wù)領(lǐng)域的批量發(fā)票處理,能夠大幅減少手工錄入的工作量,提升信息錄入的速度和準(zhǔn)確性,同時(shí)確保數(shù)據(jù)與原始票據(jù)的一致性,為企業(yè)的智能化管理提供可靠支持。智能OCR的出現(xiàn)標(biāo)志著文字識(shí)別技術(shù)邁向更高層次,為各類信息化場(chǎng)景提供了更加靈活、高效的解決方案。任務(wù)一:機(jī)器視覺——計(jì)算機(jī)如何“看圖識(shí)字”知識(shí)儲(chǔ)備3.物流信息識(shí)別在物流行業(yè),順豐通過手寫體文字識(shí)別技術(shù),自動(dòng)識(shí)別出運(yùn)單的收寄件人電話號(hào)碼和地址等字段,如右圖所示?;谶@些OCR自動(dòng)識(shí)別出的信息,再結(jié)合自有運(yùn)單數(shù)據(jù)庫(kù),可以自動(dòng)匹配到更完整更充分的運(yùn)單各字段信息,大幅提升運(yùn)單信息錄入效率和物流資源的調(diào)度匹配能力。任務(wù)一:機(jī)器視覺實(shí)訓(xùn)項(xiàng)目1:人臉檢測(cè)
PARTTWO任務(wù)描述隨著人工智能技術(shù)的迅猛發(fā)展,人臉檢測(cè)已廣泛應(yīng)用于身份驗(yàn)證、考勤管理、安防監(jiān)控、智能美顏等多個(gè)行業(yè)領(lǐng)域。為幫助學(xué)生深入理解和應(yīng)用人臉檢測(cè)技術(shù),本實(shí)訓(xùn)任務(wù)旨在通過攝像機(jī)實(shí)時(shí)采集或本地上傳含有人臉的圖片,利用AI編程技術(shù)自動(dòng)檢測(cè)并標(biāo)記人臉區(qū)域,輸出相關(guān)分析結(jié)果,模擬實(shí)際行業(yè)場(chǎng)景。
了解人臉檢測(cè)技術(shù)中照片采集、照片預(yù)處理、人臉檢測(cè)、人臉特征提取等相關(guān)技術(shù)流程的實(shí)現(xiàn)原理;
掌握人臉檢測(cè)類拓展積木使用方法以及技術(shù)原理;
探索人臉檢測(cè)技術(shù)與自身專業(yè)融合的實(shí)際需求與行業(yè)場(chǎng)景,能應(yīng)用人工智能思維發(fā)現(xiàn)問題、解決問題。任務(wù)目標(biāo)在人工智能實(shí)訓(xùn)平臺(tái)上實(shí)施圖像識(shí)別任務(wù),其操作步驟如下圖所示。
準(zhǔn)備好物體圖像、攝像頭、網(wǎng)絡(luò)及電腦等。環(huán)境準(zhǔn)備添加人臉檢測(cè)類應(yīng)用積木,創(chuàng)建圖像識(shí)別類積木流程
創(chuàng)建工作流根據(jù)積木流程,組織積木模塊,完成積木編碼
積木編程上傳照片點(diǎn)擊執(zhí)行程序,在輸出區(qū)查看識(shí)別結(jié)果
查看結(jié)果任務(wù)實(shí)施步驟任務(wù)實(shí)施1.環(huán)境準(zhǔn)備準(zhǔn)備環(huán)境以及內(nèi)容:依托人工智能在線實(shí)訓(xùn)平臺(tái)如下圖所示,準(zhǔn)備好人臉檢測(cè)模塊、物體圖像、攝像頭、網(wǎng)絡(luò)及電腦等。
人工智能在線實(shí)訓(xùn)平臺(tái)任務(wù)實(shí)施2.創(chuàng)建工作流了解人工智能在線實(shí)訓(xùn)平臺(tái)的功能分區(qū),包括積木類別區(qū)、積木編輯區(qū)以及結(jié)果輸出區(qū),如下圖所示。在“積木類別區(qū)”點(diǎn)擊“擴(kuò)展”按鈕,添加AI應(yīng)用的人臉檢測(cè)類積木,熟悉人臉檢測(cè)積木的含義及使用方法。
人工智能在線實(shí)訓(xùn)平臺(tái)的功能分區(qū)任務(wù)實(shí)施人臉類識(shí)別積木3.積木編程①人臉檢測(cè)模塊在積木類別區(qū)鼠標(biāo)單擊“人體類識(shí)別”模塊,單擊“人臉檢測(cè)識(shí)別”,彈出如右圖所示的2個(gè)功能積木,將其拖拽到編輯區(qū),用于識(shí)別圖片。任務(wù)實(shí)施圖3-23文字輸出積木②文本模塊為了識(shí)別結(jié)果能夠在結(jié)果輸出區(qū)進(jìn)行展示,這里需要調(diào)用“文本”模塊中的“文本輸出”積木,如右圖所示,將其拖入到編輯區(qū)。任務(wù)實(shí)施
積木編程③積木組裝這里可以從網(wǎng)上下載一張TFboys的圖片。將“文本輸出”積木拼接在“人臉檢測(cè)”積木的下面,在“輸出積木”文本輸入框中輸入“檢測(cè)結(jié)果為:”,作為輸出結(jié)果的標(biāo)識(shí),將“人臉檢測(cè)結(jié)果
人臉數(shù)量”積木拖入到“輸出積木”中,此時(shí),一個(gè)基礎(chǔ)的人臉檢測(cè)積木編程就組裝完成。任務(wù)實(shí)施識(shí)別結(jié)果3.運(yùn)行結(jié)果單擊結(jié)果輸出區(qū)的“運(yùn)行”按鈕,平臺(tái)將會(huì)對(duì)所選擇的圖片進(jìn)行分析,分析結(jié)果如右圖所示。任務(wù)實(shí)施實(shí)訓(xùn)項(xiàng)目2:圖像識(shí)別
PARTTHREE任務(wù)描述隨著人工智能技術(shù)的迅猛發(fā)展,人臉檢測(cè)已廣泛應(yīng)用于身份驗(yàn)證、考勤管理、安防監(jiān)控、智能美顏等多個(gè)行業(yè)領(lǐng)域。為幫助學(xué)生深入理解和應(yīng)用人臉檢測(cè)技術(shù),本實(shí)訓(xùn)任務(wù)旨在通過攝像機(jī)實(shí)時(shí)采集或本地上傳含有人臉的圖片,利用AI編程技術(shù)自動(dòng)檢測(cè)并標(biāo)記人臉區(qū)域,輸出相關(guān)分析結(jié)果,模擬實(shí)際行業(yè)場(chǎng)景。
熟練掌握順序、選擇、循環(huán)三種程序結(jié)構(gòu);
學(xué)習(xí)選擇語(yǔ)句、循環(huán)語(yǔ)句等控制積木的含義及使用方法;
掌握AI應(yīng)用類拓展積木使用方法以及技術(shù)原理;
能夠通過圖形化編程完成實(shí)訓(xùn)項(xiàng)目,為后續(xù)人工智能實(shí)訓(xùn)項(xiàng)目定基礎(chǔ)。任務(wù)目標(biāo)在人工智能實(shí)訓(xùn)平臺(tái)上實(shí)施圖像識(shí)別任務(wù),其操作步驟如下圖所示。
準(zhǔn)備好物體圖像、攝像頭、網(wǎng)絡(luò)及電腦等。環(huán)境準(zhǔn)備添加圖像識(shí)別類應(yīng)用積木,創(chuàng)建圖像識(shí)別類積木流程
創(chuàng)建工作流根據(jù)積木流程,組織積木模塊,完成積木編碼
積木編程上傳照片點(diǎn)擊執(zhí)行程序,在輸出區(qū)查看識(shí)別結(jié)果
查看結(jié)果
任務(wù)實(shí)施步驟任務(wù)實(shí)施1.環(huán)境準(zhǔn)備準(zhǔn)備環(huán)境以及內(nèi)容:依托人工智能在線實(shí)訓(xùn)平臺(tái)如下圖所示,準(zhǔn)備好圖像識(shí)別模塊、物體圖像、攝像頭、網(wǎng)絡(luò)及電腦等。
人工智能在線實(shí)訓(xùn)平臺(tái)任務(wù)實(shí)施2.創(chuàng)建工作流了解人工智能在線實(shí)訓(xùn)平臺(tái)的功能分區(qū),包括積木類別區(qū)、積木編輯區(qū)以及結(jié)果輸出區(qū),如下圖所示。在“積木類別區(qū)”點(diǎn)擊“擴(kuò)展”按鈕,添加AI應(yīng)用的圖像識(shí)別類積木,熟悉圖像類識(shí)別積木的含義及使用方法。
人工智能在線實(shí)訓(xùn)平臺(tái)的功能分區(qū)任務(wù)實(shí)施圖像識(shí)別積木3.積木編程①圖像類別識(shí)別模塊在積木類別區(qū)鼠標(biāo)單擊“圖像類別識(shí)別”模塊,單擊“圖像識(shí)別”,彈出如圖所示的2個(gè)功能積木,將其拖拽到編輯區(qū),用于識(shí)別圖片。任務(wù)實(shí)施文字輸出積木②文本模塊為了識(shí)別結(jié)果能夠在結(jié)果輸出區(qū)進(jìn)行展示,這里需要調(diào)用“文本”模塊中的“文本輸出”積木,如右圖所示,將其拖入到編輯區(qū)。任務(wù)實(shí)施
積木編程③積木組裝單擊如右圖中所示的文件選擇按鈕,選擇事先準(zhǔn)備好的物體圖像,這里可以從網(wǎng)上下載一張籃球的圖片。將“文本輸出”積木拼接在“識(shí)別圖像”積木的下面,在“輸出積木”文本輸入框中輸入“識(shí)別結(jié)果為:”,作為輸出結(jié)果的標(biāo)識(shí),將“圖像識(shí)別”積木拖入到“輸出積木”中,此時(shí),一個(gè)基礎(chǔ)的圖像識(shí)別積木編程就組裝完成。任務(wù)實(shí)施識(shí)別結(jié)果3.運(yùn)行結(jié)果單擊結(jié)果輸出區(qū)的“運(yùn)行”按鈕,平臺(tái)將會(huì)對(duì)所選擇的圖片進(jìn)行分析,分析結(jié)果如右圖所示。任務(wù)實(shí)施任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”
PARTFOUR任務(wù)導(dǎo)入語(yǔ)言,自古以來便是人類溝通的橋梁,而在人工智能時(shí)代,語(yǔ)言也成為人與機(jī)器交互的重要紐帶。然而,如何讓人工智能聽懂人類的語(yǔ)言,并能夠回應(yīng)得體,是一項(xiàng)令人著迷的技術(shù)挑戰(zhàn)。如今,語(yǔ)音識(shí)別技術(shù)已突破傳統(tǒng)交流的桎梏,賦予了機(jī)器“聽覺智能”。想象一下,能夠聽懂人類語(yǔ)言的智能設(shè)備正改變著我們的生活,如圖3-26所示的“小愛同學(xué)”智能音箱可以與我們對(duì)話,智能家居設(shè)備能準(zhǔn)確執(zhí)行語(yǔ)音指令,跨語(yǔ)言的智能翻譯讓世界變得無國(guó)界,電話客服機(jī)器人也能用自然語(yǔ)言解決復(fù)雜問題。這些看似簡(jiǎn)單的人機(jī)對(duì)話,其背后蘊(yùn)藏著怎樣的技術(shù)奧秘?在本節(jié)任務(wù)中,我們將探索語(yǔ)音識(shí)別的基本原理及其應(yīng)用流程,通過實(shí)踐學(xué)習(xí)語(yǔ)音輸入的采集、信號(hào)處理和語(yǔ)音分析的技術(shù),實(shí)現(xiàn)讓機(jī)器“聞聲識(shí)人”的能力,為智能交互場(chǎng)景提供技術(shù)支持,揭開聽覺智能的神秘面紗!任務(wù)目標(biāo)本任務(wù)的目標(biāo)是全面理解語(yǔ)音識(shí)別與聲紋識(shí)別的核心概念、技術(shù)原理及其在實(shí)際應(yīng)用中的區(qū)別與聯(lián)系。學(xué)生將學(xué)習(xí)語(yǔ)音信號(hào)從采集到文本生成的完整技術(shù)流程,掌握語(yǔ)音識(shí)別與語(yǔ)義理解、自然語(yǔ)言生成的技術(shù)關(guān)聯(lián),深入分析其在人機(jī)交互系統(tǒng)中的演進(jìn)過程。通過實(shí)踐操作,完成語(yǔ)音到文本的處理流程,體驗(yàn)聲紋識(shí)別在身份驗(yàn)證中的應(yīng)用,結(jié)合智能音箱、語(yǔ)音客服等實(shí)際場(chǎng)景,激發(fā)創(chuàng)新思維,為未來智能交互技術(shù)的學(xué)習(xí)和應(yīng)用奠定基礎(chǔ)。專業(yè)詞匯任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)導(dǎo)圖任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備如何讓機(jī)器擁有“聽”的能力?這正是語(yǔ)音識(shí)別技術(shù),也稱為自動(dòng)語(yǔ)音識(shí)別(ASR),其核心目標(biāo)是賦予機(jī)器理解人類語(yǔ)言的能力。語(yǔ)音識(shí)別技術(shù)如同為計(jì)算機(jī)裝上了一雙“耳朵”,讓其能夠感知聲音的指令,并據(jù)此執(zhí)行任務(wù)。這一技術(shù)的突破,不僅實(shí)現(xiàn)了人機(jī)之間的語(yǔ)音交互,還為智能化生活提供了無限可能,例如通過語(yǔ)音命令控制設(shè)備、完成復(fù)雜操作等。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別迎來了質(zhì)的飛躍?,F(xiàn)代智能語(yǔ)音系統(tǒng)不僅能夠準(zhǔn)確地識(shí)別人類語(yǔ)音,還逐步融合了語(yǔ)義理解與語(yǔ)音交互等能力,使機(jī)器更加“聰明”。未來,機(jī)器將不止于“聽得懂”和“說得清”,它們還將具備理解人類意圖、思考復(fù)雜問題的能力,真正實(shí)現(xiàn)人機(jī)協(xié)作的無縫銜接,為生活和生產(chǎn)帶來深遠(yuǎn)變革。機(jī)器聽覺對(duì)話處理技術(shù)如圖3-27所示。圖3-27計(jì)算機(jī)聽覺及對(duì)話技術(shù)任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備語(yǔ)音信號(hào)雖然形式簡(jiǎn)單,卻蘊(yùn)含豐富的信息。從語(yǔ)音中不僅可以提取語(yǔ)義內(nèi)容,還能識(shí)別語(yǔ)種(語(yǔ)言或方言)、說話人的身份特征(如唯一性識(shí)別)、性別,以及情感狀態(tài)(如喜悅、悲傷、恐懼等)。正是這種“形簡(jiǎn)意豐”的特點(diǎn),使得聲紋成為結(jié)合內(nèi)容與情感信息進(jìn)行語(yǔ)音識(shí)別和分辨的理想工具。隨著技術(shù)的進(jìn)步,語(yǔ)音識(shí)別不僅實(shí)現(xiàn)了高效轉(zhuǎn)化,還融合了更多層次的分析能力,為人機(jī)交互和智能語(yǔ)音應(yīng)用帶來了更大的想象空間。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備一、什么是語(yǔ)音識(shí)別技術(shù)語(yǔ)音識(shí)別技術(shù)的核心是通過分析和理解,將語(yǔ)音信號(hào)轉(zhuǎn)化為對(duì)應(yīng)的文本或指令。這項(xiàng)技術(shù)根據(jù)識(shí)別目標(biāo)的不同,可分為三大類任務(wù):孤立詞識(shí)別、連續(xù)語(yǔ)音識(shí)別和關(guān)鍵詞識(shí)別。孤立詞識(shí)別:用于識(shí)別單一命令詞,如“開機(jī)”“關(guān)機(jī)”等,常應(yīng)用于設(shè)備控制。連續(xù)語(yǔ)音識(shí)別:處理完整句子或段落的語(yǔ)音內(nèi)容,廣泛用于語(yǔ)音轉(zhuǎn)寫與語(yǔ)言交互系統(tǒng)。關(guān)鍵詞識(shí)別:在連續(xù)語(yǔ)音中檢測(cè)特定關(guān)鍵詞,如在一段對(duì)話中識(shí)別“人工智能”或“深度學(xué)習(xí)”的出現(xiàn)位置。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備語(yǔ)音識(shí)別技術(shù)是一項(xiàng)通過計(jì)算機(jī)將語(yǔ)音信號(hào)轉(zhuǎn)化為文本的技術(shù),其流程圖如下圖3-29所示。其核心流程包括以下幾個(gè)關(guān)鍵步驟:1.語(yǔ)音輸入語(yǔ)音識(shí)別的第一步是通過錄音設(shè)備(如麥克風(fēng)、智能手機(jī)等)采集語(yǔ)音信號(hào)。這一過程將人類的聲音轉(zhuǎn)化為電信號(hào),為后續(xù)的處理奠定基礎(chǔ)。語(yǔ)音輸入階段的質(zhì)量直接影響識(shí)別的準(zhǔn)確性,因此抗噪性能優(yōu)越的設(shè)備尤為重要。圖3-29語(yǔ)音識(shí)別流程圖任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備2.特征提取(編碼)在這一階段,系統(tǒng)對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行處理,將原始的聲音波形數(shù)據(jù)轉(zhuǎn)化為更易于計(jì)算機(jī)理解的特征向量。主要包含以下步驟:預(yù)處理:通過降噪、去除靜音等操作優(yōu)化信號(hào)。語(yǔ)音分幀:將連續(xù)的語(yǔ)音信號(hào)分成短時(shí)幀(如每10-20毫秒一幀),以捕捉細(xì)微的語(yǔ)音特征。特征提?。禾崛≌Z(yǔ)音中的頻譜特征(如MFCC特征),以數(shù)字形式表示聲音的頻率和幅度變化。3.解碼與模型處理解碼是語(yǔ)音識(shí)別的核心部分,由聲學(xué)模型和語(yǔ)言模型共同完成:聲學(xué)模型:將特征數(shù)據(jù)與語(yǔ)音中的音素(語(yǔ)音的最小單位)進(jìn)行匹配。通過大量的語(yǔ)音訓(xùn)練數(shù)據(jù)構(gòu)建,聲學(xué)模型能夠識(shí)別說話人的發(fā)音特征。語(yǔ)言模型:在聲學(xué)模型的基礎(chǔ)上,結(jié)合上下文、句法規(guī)則以及語(yǔ)義分析,預(yù)測(cè)最可能的單詞序列。這一步不僅能夠減少識(shí)別錯(cuò)誤,還能提升文本的連貫性和準(zhǔn)確性。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備4.文本輸出最終,系統(tǒng)將解碼結(jié)果生成文字,并輸出到用戶界面。識(shí)別結(jié)果可以用于文本編輯、指令觸發(fā)、翻譯等多個(gè)場(chǎng)景。隨著深度學(xué)習(xí)的應(yīng)用,極大地促進(jìn)語(yǔ)音識(shí)別技術(shù)的發(fā)展,彌補(bǔ)了數(shù)據(jù)統(tǒng)計(jì)模型和算法的不足,幫助把不存在的數(shù)據(jù)也計(jì)算出來,大大提高了語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率。未來語(yǔ)音識(shí)別技術(shù)的發(fā)展還將大力提升識(shí)別系統(tǒng)中的語(yǔ)言模型、增加詞匯量,同時(shí)使連續(xù)語(yǔ)音識(shí)別更精準(zhǔn)。真正實(shí)現(xiàn)人機(jī)交互、智能語(yǔ)音識(shí)別系統(tǒng)還有很長(zhǎng)的路要走,這也是未來語(yǔ)音識(shí)別的發(fā)展方向。圖3-30語(yǔ)音識(shí)別發(fā)展方向語(yǔ)音識(shí)別多語(yǔ)音、語(yǔ)種識(shí)別
語(yǔ)義理解知識(shí)儲(chǔ)備,語(yǔ)義理解流式對(duì)話語(yǔ)鏡分析,情境對(duì)話任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備二、語(yǔ)音識(shí)別技術(shù)的應(yīng)用語(yǔ)音識(shí)別技術(shù)賦予了機(jī)器“聽懂”人類語(yǔ)言的能力,成為人工智能領(lǐng)域的重要突破。它通過將語(yǔ)音信號(hào)轉(zhuǎn)換為文本或指令,為人機(jī)交互提供了更高效、自然的方式。這項(xiàng)技術(shù)不僅提升了操作效率,還在教育、醫(yī)療、交通等領(lǐng)域展現(xiàn)了廣泛的應(yīng)用潛力。隨著深度學(xué)習(xí)的興起,語(yǔ)音識(shí)別技術(shù)的精準(zhǔn)度和適應(yīng)性不斷提高,從簡(jiǎn)單的語(yǔ)音命令到復(fù)雜的多語(yǔ)言翻譯,正逐步走向成熟。無論是智能家居、車載語(yǔ)音系統(tǒng),還是在線教育與無障礙技術(shù),語(yǔ)音識(shí)別正在賦能各行業(yè),重塑我們的工作與生活方式。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備1.日常應(yīng)用語(yǔ)音識(shí)別技術(shù)在日常生活中的實(shí)際應(yīng)用如下圖3-31所示。(1)智能家居與物聯(lián)網(wǎng)智能音箱:如天貓精靈、小度等,可以通過語(yǔ)音控制燈光、電視、空調(diào)等家電。智能家居設(shè)備:語(yǔ)音識(shí)別結(jié)合語(yǔ)音指令,實(shí)現(xiàn)無接觸式操作,尤其在疫情期間應(yīng)用場(chǎng)景突出。圖3-31語(yǔ)音識(shí)別技術(shù)常見應(yīng)用車載系統(tǒng)語(yǔ)音交互教育與語(yǔ)言學(xué)習(xí)智能家居
物聯(lián)網(wǎng)智慧醫(yī)療智慧養(yǎng)老無障礙交流客服與虛擬助手任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備(2)車載系統(tǒng)與導(dǎo)航智能駕駛:通過語(yǔ)音識(shí)別控制車載導(dǎo)航、播放音樂、撥打電話等。語(yǔ)音交互:減少駕駛員操作分心,提升行車安全。(3)客服與虛擬助手電話客服機(jī)器人:利用語(yǔ)音識(shí)別技術(shù),替代人工客服,實(shí)現(xiàn)智能化的語(yǔ)音問答。智能助手:如小藝、小愛同學(xué)等,實(shí)現(xiàn)日常事務(wù)提醒、問題解答、內(nèi)容搜索等。(4)教育與語(yǔ)言學(xué)習(xí)語(yǔ)音評(píng)測(cè)系統(tǒng):用于語(yǔ)言考試中的口語(yǔ)測(cè)評(píng)。語(yǔ)言學(xué)習(xí)軟件:實(shí)時(shí)糾正發(fā)音,提供反饋,輔助學(xué)生學(xué)習(xí)外語(yǔ)。(5)醫(yī)療健康語(yǔ)音病歷:醫(yī)生通過語(yǔ)音記錄患者病情,系統(tǒng)轉(zhuǎn)化為文本。醫(yī)療助理:協(xié)助醫(yī)生與患者實(shí)現(xiàn)語(yǔ)音交互。(6)無障礙交流幫助聽障人士:通過語(yǔ)音轉(zhuǎn)文本技術(shù),實(shí)現(xiàn)文字提示。幫助行動(dòng)不便人士:通過語(yǔ)音識(shí)別控制設(shè)備操作。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備2.技術(shù)創(chuàng)新與拓展應(yīng)用語(yǔ)音識(shí)別技術(shù)近年來隨著人工智能、深度學(xué)習(xí)等技術(shù)的飛速發(fā)展,已不僅僅局限于日常應(yīng)用,還拓展到了許多創(chuàng)新領(lǐng)域。下面將詳細(xì)介紹語(yǔ)音識(shí)別技術(shù)的幾項(xiàng)創(chuàng)新與拓展。(1)跨語(yǔ)言識(shí)別與翻譯隨著全球化進(jìn)程的加快,跨語(yǔ)言溝通已成為日常生活中的重要需求。傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)大多只支持單一語(yǔ)言的識(shí)別,而跨語(yǔ)言識(shí)別與翻譯技術(shù)的出現(xiàn),打破了語(yǔ)言障礙,使得不同語(yǔ)言之間的交流更加順暢。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備如圖3-32所示。通過深度神經(jīng)網(wǎng)絡(luò)模型,語(yǔ)音識(shí)別技術(shù)可以實(shí)時(shí)識(shí)別并轉(zhuǎn)換為不同語(yǔ)言,實(shí)現(xiàn)精準(zhǔn)的翻譯。這項(xiàng)技術(shù)被廣泛應(yīng)用于跨境電商平臺(tái)、國(guó)際會(huì)議和旅游助手等場(chǎng)景中。例如,在跨境電商中,商家和消費(fèi)者可以通過語(yǔ)音與翻譯技術(shù)進(jìn)行多語(yǔ)言溝通,從而提升用戶體驗(yàn)。在國(guó)際會(huì)議上,語(yǔ)音識(shí)別技術(shù)幫助不同語(yǔ)言的與會(huì)者實(shí)現(xiàn)實(shí)時(shí)翻譯,確保信息的無縫交流。而在旅游場(chǎng)景中,語(yǔ)音翻譯助手可以幫助游客輕松克服語(yǔ)言障礙,順暢完成日常交流。圖3-32跨語(yǔ)言翻譯任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備(2)身份驗(yàn)證語(yǔ)音識(shí)別技術(shù)的另一項(xiàng)創(chuàng)新應(yīng)用是聲紋識(shí)別與身份驗(yàn)證的結(jié)合。傳統(tǒng)的身份認(rèn)證方式,如密碼、指紋識(shí)別等,存在一定的安全隱患,而聲紋識(shí)別則提供了更加便捷且安全的身份驗(yàn)證方法,如圖3-33所示。每個(gè)人的聲紋具有唯一性,可以通過語(yǔ)音中的頻率、音調(diào)、語(yǔ)速等特征進(jìn)行準(zhǔn)確識(shí)別。因此,在銀行電話身份驗(yàn)證、手機(jī)登錄、智能家居控制等場(chǎng)景中,聲紋識(shí)別可以提供便捷且高效的身份確認(rèn)方式。例如,銀行可以通過客戶的聲紋進(jìn)行電話交易驗(yàn)證,極大地提高了用戶體驗(yàn)并提升了安全性。在智能家居場(chǎng)景中,用戶只需說出特定命令即可開關(guān)家電設(shè)備,而系統(tǒng)通過聲紋驗(yàn)證確保只有授權(quán)用戶能夠控制設(shè)備,增強(qiáng)了家庭安全性。圖3-33聲紋識(shí)別實(shí)現(xiàn)身份認(rèn)證任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備(3)行業(yè)定制化應(yīng)用不同行業(yè)對(duì)語(yǔ)音識(shí)別技術(shù)的需求差異較大,行業(yè)定制化應(yīng)用應(yīng)運(yùn)而生。醫(yī)療、法律等行業(yè)都有特定的專業(yè)術(shù)語(yǔ)和溝通方式,因此,行業(yè)定制化語(yǔ)音識(shí)別系統(tǒng)應(yīng)運(yùn)而生,能夠精確識(shí)別行業(yè)特有的術(shù)語(yǔ),提升工作效率和準(zhǔn)確度。例如,在醫(yī)療行業(yè),醫(yī)生通過語(yǔ)音輸入病人的病史、診斷結(jié)果、處方等內(nèi)容,語(yǔ)音識(shí)別技術(shù)能夠迅速將語(yǔ)音轉(zhuǎn)化為文字,并自動(dòng)識(shí)別醫(yī)療專業(yè)術(shù)語(yǔ),減少了醫(yī)生的書寫負(fù)擔(dān),提高了工作效率,如圖3-34所示。在法律行業(yè),庭審記錄需要精準(zhǔn)記錄法庭上各方的發(fā)言,傳統(tǒng)的手工記錄方式既耗時(shí)又容易出錯(cuò)。通過語(yǔ)音轉(zhuǎn)錄系統(tǒng),可以實(shí)時(shí)將法庭發(fā)言轉(zhuǎn)化為文字,保證庭審記錄的準(zhǔn)確性和高效性。圖3-34語(yǔ)音智慧醫(yī)療助手任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備三、聲紋識(shí)別實(shí)現(xiàn)“聞聲識(shí)人”語(yǔ)音識(shí)別技術(shù)的核心目標(biāo)是提升溝通的效率,它可以通過快速轉(zhuǎn)換語(yǔ)音為文字,幫助人們節(jié)省時(shí)間并提高工作和生活質(zhì)量。然而,盡管語(yǔ)音識(shí)別為我們提供了便利,卻仍然存在一個(gè)顯著的問題:任何人都能觸發(fā)這些語(yǔ)音助手或智能設(shè)備。這樣一來,隱私保護(hù)便成為了一個(gè)重要隱患,設(shè)備并不是我們專屬的“語(yǔ)音管家”,無法有效區(qū)分個(gè)體身份。而聲紋識(shí)別技術(shù)應(yīng)運(yùn)而生,成為未來智能語(yǔ)音識(shí)別領(lǐng)域的重要發(fā)展方向。聲紋識(shí)別的目的不僅僅是識(shí)別語(yǔ)音的內(nèi)容,更注重通過“聲音的指紋”進(jìn)行身份確認(rèn)與審查。它的核心區(qū)別在于,除了捕捉語(yǔ)音內(nèi)容,聲紋識(shí)別系統(tǒng)還會(huì)對(duì)音波的特征、說話人的生理結(jié)構(gòu)、口音、語(yǔ)調(diào)等獨(dú)特參數(shù)進(jìn)行分析,從而確定說話人的身份。每個(gè)人的聲紋圖譜都是獨(dú)一無二的,因此聲紋識(shí)別能夠通過對(duì)比相同音素上的發(fā)音,精準(zhǔn)判斷發(fā)聲者是否為同一人,做到“聞聲識(shí)人”。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備這種技術(shù)的應(yīng)用,不僅可以使智能設(shè)備更加安全、精準(zhǔn),避免被他人冒充或誤操作,還能夠?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)體驗(yàn)。通過聲紋識(shí)別,語(yǔ)音助手不再是一個(gè)普通的工具,而是可以成為每個(gè)用戶的專屬管家,能夠辨識(shí)并適應(yīng)用戶的需求和偏好,提升隱私保護(hù)和安全性。未來,隨著聲紋識(shí)別技術(shù)的不斷完善和普及,它將在身份認(rèn)證、金融支付、智能家居等多個(gè)領(lǐng)域發(fā)揮重要作用,成為更為隱秘且高效的身份驗(yàn)證方式。在聲紋識(shí)別技術(shù)當(dāng)中,聲音波形圖和語(yǔ)譜圖非常重要,這兩種圖是聲音信號(hào)的可視化表示方法。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備1.聲音波形圖在時(shí)域上表現(xiàn)為波形圖,它以時(shí)間軸為坐標(biāo)表示動(dòng)態(tài)信號(hào)的關(guān)系,展示聲音信號(hào)隨時(shí)間的振幅變化。波形圖能夠直觀地反映出聲音的音調(diào)、響度和音色等特征,如圖3-35所示。2.語(yǔ)譜圖在頻域上表現(xiàn)為語(yǔ)譜圖,如圖3-36所示,它是將聲音信號(hào)轉(zhuǎn)換為以頻率軸為坐標(biāo)的圖像,展示聲音在不同頻率上的強(qiáng)度分布。語(yǔ)譜圖能夠揭示聲音的共振峰和其他頻率特征,這些特征在聲紋識(shí)別中非常重要。聲紋識(shí)別過程中,首先通過波形圖和語(yǔ)譜圖來分析聲音信號(hào)。波形圖幫助識(shí)別聲音的時(shí)域特征,如音調(diào)的高低(由頻率決定)、聲音的強(qiáng)弱(由振幅決定)以及音色的質(zhì)量(由波形的形狀決定)。而語(yǔ)譜圖則提供了聲音的頻域特征,如共振峰(formants)的位置和變化,這些特征對(duì)于區(qū)分不同說話人具有重要作用。圖3-36語(yǔ)譜圖圖3-35聲音波形圖任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備聲紋識(shí)別過程中,首先通過波形圖和語(yǔ)譜圖來分析聲音信號(hào)。波形圖幫助識(shí)別聲音的時(shí)域特征,如音調(diào)的高低(由頻率決定)、聲音的強(qiáng)弱(由振幅決定)以及音色的質(zhì)量(由波形的形狀決定)。而語(yǔ)譜圖則提供了聲音的頻域特征,如共振峰(formants)的位置和變化,這些特征對(duì)于區(qū)分不同說話人具有重要作用。在聲紋識(shí)別系統(tǒng)中,聲音信號(hào)會(huì)被轉(zhuǎn)換成波形圖和語(yǔ)譜圖,然后通過特征提取技術(shù),如梅爾頻率倒譜系數(shù)(MFCC)等,來捕捉聲音的關(guān)鍵特征。這些特征隨后用于訓(xùn)練識(shí)別模型,以實(shí)現(xiàn)對(duì)說話人身份的準(zhǔn)確識(shí)別。聲紋識(shí)別流程圖如下圖3-37所示。任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”知識(shí)儲(chǔ)備在聲紋識(shí)別系統(tǒng)中,聲音信號(hào)會(huì)被轉(zhuǎn)換成波形圖和語(yǔ)譜圖,然后通過特征提取技術(shù),如梅爾頻率倒譜系數(shù)(MFCC)等,來捕捉聲音的關(guān)鍵特征。這些特征隨后用于訓(xùn)練識(shí)別模型,以實(shí)現(xiàn)對(duì)說話人身份的準(zhǔn)確識(shí)別。聲紋識(shí)別流程圖如下圖3-37所示。聲紋識(shí)別作為最前沿的生物識(shí)別技術(shù),隨著技術(shù)的成熟,將會(huì)在越來越多的應(yīng)用場(chǎng)景下落地,未來聲音也將在我們的科技生活中扮演著越來越重要的角色。圖3-37聲紋識(shí)別流程圖任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”實(shí)訓(xùn)項(xiàng)目1:中文語(yǔ)音識(shí)別
PARTFIVE任務(wù)描述隨著人工智能技術(shù)的不斷進(jìn)步,中文語(yǔ)音識(shí)別技術(shù)在智能家居、智能助手、客服機(jī)器人、語(yǔ)音輸入、在線教育等多個(gè)領(lǐng)域得到了廣泛應(yīng)用。為了幫助學(xué)生深入理解和掌握中文語(yǔ)音識(shí)別技術(shù),本實(shí)訓(xùn)項(xiàng)目旨在通過麥克風(fēng)錄音或本地上傳音頻文件,利用AI智能體客戶端完成語(yǔ)音內(nèi)容的識(shí)別和轉(zhuǎn)換,并輸出相應(yīng)的文本分析結(jié)果,模擬實(shí)際行業(yè)場(chǎng)景。理解原理:
學(xué)習(xí)中文語(yǔ)音識(shí)別的基本原理和技術(shù)架構(gòu),包括語(yǔ)音信號(hào)處理、特征提取、聲學(xué)模型、語(yǔ)言模型等。實(shí)際操作:
通過實(shí)踐操作,掌握使用科大訊飛訊飛星火大模型進(jìn)行中文語(yǔ)音識(shí)別的方法和步驟。能夠?qū)⒂脩舻恼Z(yǔ)音輸入實(shí)時(shí)轉(zhuǎn)換為文字,并進(jìn)行基本的語(yǔ)義分析或命令執(zhí)行。問題解決:
學(xué)會(huì)處理常見的語(yǔ)音識(shí)別挑戰(zhàn),如背景噪音抑制、口音適應(yīng)、多說話人識(shí)別等問題。任務(wù)目標(biāo)在人工智能實(shí)訓(xùn)平臺(tái)上實(shí)施圖像識(shí)別任務(wù),其操作步驟如下圖3-19所示。
準(zhǔn)備好網(wǎng)絡(luò)、電腦、麥克風(fēng)等,安裝好瀏覽器等軟件。環(huán)境準(zhǔn)備熟悉平臺(tái)功能、插件、導(dǎo)航等功能
創(chuàng)建工作流借助麥克風(fēng)錄入語(yǔ)音
積木編程將語(yǔ)音信號(hào)提交大平臺(tái)中
查看結(jié)果圖3-19任務(wù)實(shí)施步驟任務(wù)實(shí)施1.環(huán)境準(zhǔn)備準(zhǔn)備環(huán)境以及內(nèi)容:訊飛星火大模型,全新一代的認(rèn)知智能大模型,作為AI助手具備“文案創(chuàng)作、圖片生成、AI搜索、數(shù)據(jù)分析、提煉總結(jié)、智能翻譯、靈感獲取、創(chuàng)作潤(rùn)色以及代碼編程”等。本次實(shí)驗(yàn)基于科大訊飛訊飛星火平臺(tái)進(jìn)行,準(zhǔn)備好一臺(tái)能夠連接外網(wǎng)的電腦以及麥克風(fēng),打開瀏覽器,輸入訊飛星火平臺(tái)在線地址,進(jìn)入平臺(tái)首頁(yè)如下圖所示。
任務(wù)實(shí)施2.熟悉平臺(tái)了解科大訊飛訊飛星火平臺(tái)的頁(yè)面布局,包括導(dǎo)航欄、功能交互區(qū)以及結(jié)果輸出區(qū)等,如下圖3-40所示。在功能交互區(qū)下方有模型導(dǎo)航列表,如“代碼生成”“中英翻譯”“內(nèi)容寫作”等,點(diǎn)擊對(duì)應(yīng)的功能可以完成調(diào)用垂直領(lǐng)域的小模型。
圖3-40科大訊飛訊飛星火平臺(tái)的頁(yè)面布局任務(wù)實(shí)施3.語(yǔ)音交互①提示詞準(zhǔn)備擬定好如下提示詞:“現(xiàn)在你是一名大學(xué)生,此時(shí)在北京作為一名志愿者為前來參觀旅游的國(guó)際友人介紹天安門,請(qǐng)擬定一個(gè)簡(jiǎn)短的介紹稿,100字左右,并使用中文、英語(yǔ)、德語(yǔ)分別介紹?!雹谡Z(yǔ)音輸入使用準(zhǔn)備好的麥克風(fēng)設(shè)備,在科大訊飛星火平臺(tái)內(nèi)容交互區(qū),點(diǎn)擊語(yǔ)音輸入圖標(biāo),使用普通話完成提示詞的錄入,如下圖3-41所示。圖3-41語(yǔ)音輸入轉(zhuǎn)文字任務(wù)實(shí)施圖3-42交互問答結(jié)果3.查看結(jié)果單擊內(nèi)容輸出區(qū)的“提交”按鈕,平臺(tái)將會(huì)對(duì)錄入的音頻進(jìn)行分析,經(jīng)過語(yǔ)音轉(zhuǎn)文字之后再進(jìn)行創(chuàng)作,按照語(yǔ)音要求分別使用中文、英語(yǔ)、德語(yǔ)分別介紹天安門,創(chuàng)作結(jié)果如下圖3-42所示。任務(wù)實(shí)施圖3-25識(shí)別結(jié)果3.運(yùn)行結(jié)果單擊結(jié)果輸出區(qū)的“運(yùn)行”按鈕,平臺(tái)將會(huì)對(duì)所選擇的圖片進(jìn)行分析,分析結(jié)果如下圖3-25所示。任務(wù)實(shí)施自我測(cè)試1.談一談,列舉你身邊的圖像識(shí)別、人臉識(shí)別、文字識(shí)別應(yīng)用案例,試想還有哪些改進(jìn)或創(chuàng)新之處。2.想一想,視覺智能相關(guān)技術(shù)在哪些方面已超越人類,進(jìn)而影響到了傳統(tǒng)的就業(yè)崗位,又在哪些方面階段甚至很長(zhǎng)一段時(shí)間內(nèi)還不能代替人類的角色?任務(wù)二:機(jī)器聽覺——計(jì)算機(jī)如何“聞聲識(shí)人”任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考
PARTSIX任務(wù)導(dǎo)入當(dāng)我們提到“今日頭條”,腦海里第一反映是什么?是新聞推送的APP,但又很奇怪,你看到的內(nèi)容和文章和我看到的完全不一樣,什么原因?但當(dāng)我們?cè)倏葱吕恕⑺押?,看到的新聞似乎都差不多,怎么同是新聞網(wǎng)站,差別這么大?
我無意中在淘寶上看到一款關(guān)注的玩具,怎么一打開淘寶,類似的玩具越來越多,源源不斷地推送,好像知道我喜歡什么?在尋找什么?
自覺不自覺間,我們的喜好、我們的行為習(xí)慣、我們的生活軌跡已經(jīng)被諸多APP所捕獲,我們?cè)诓唤?jīng)意地訓(xùn)練著機(jī)器,而機(jī)器也在更努力地學(xué)習(xí)著我們、理解著我們……未來的某一天,人和機(jī)器會(huì)形成統(tǒng)一的語(yǔ)言嗎?機(jī)器像人一樣會(huì)思考、能理解、做決策嗎?任務(wù)目標(biāo)通過本任務(wù)的學(xué)習(xí),學(xué)生能夠深入理解認(rèn)知智能在人工智能領(lǐng)域的核心地位及其對(duì)機(jī)器理解、思考和行動(dòng)能力的推動(dòng)作用,掌握自然語(yǔ)言處理(NLP)的基本概念、常見應(yīng)用及其發(fā)展趨勢(shì),熟悉知識(shí)圖譜的構(gòu)建與應(yīng)用,了解數(shù)據(jù)智能如何推動(dòng)人機(jī)協(xié)同的發(fā)展,以及大語(yǔ)言模型從量變到質(zhì)變的演進(jìn)過程。同時(shí),學(xué)生能夠結(jié)合實(shí)際案例,分析多模態(tài)AI的創(chuàng)新應(yīng)用,提升自身在自然語(yǔ)言處理、知識(shí)圖譜構(gòu)建、數(shù)據(jù)智能應(yīng)用以及多模態(tài)融合等方面的能力,從而更好地應(yīng)對(duì)未來人工智能領(lǐng)域的復(fù)雜挑戰(zhàn),為推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用奠定堅(jiān)實(shí)的基礎(chǔ)。專業(yè)詞匯任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)導(dǎo)圖任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備人工智能最“聰明”的智能水平是認(rèn)知智能,就是讓機(jī)器能理解、會(huì)思考、
主動(dòng)采取行動(dòng)。如何讓機(jī)器更“聰明”?首先就是讓它理解我們的語(yǔ)言,如果機(jī)器和人類擁有一樣的語(yǔ)言體系,那相互間的交流、訓(xùn)練及理解就會(huì)高效太多。有了統(tǒng)一的語(yǔ)言,我們還需要機(jī)器擁有強(qiáng)大的知識(shí)庫(kù),“沒有知識(shí)的AI不是真正的AI”,而知識(shí)圖譜就是在自然語(yǔ)言處理的基礎(chǔ)上發(fā)展而來,并不斷提升著認(rèn)知智能最難的推理問題。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備一、認(rèn)知自然語(yǔ)言處理及應(yīng)用(一)什么是自然語(yǔ)言處理?自然語(yǔ)言處理的目標(biāo)是彌補(bǔ)人類交流(自然語(yǔ)言)與計(jì)算機(jī)理解(機(jī)器語(yǔ)言)之間的差距,最終實(shí)現(xiàn)計(jì)算機(jī)在理解自然語(yǔ)言上像人類一樣智能。其實(shí)就是在人類語(yǔ)言和機(jī)器語(yǔ)言之間搭起一個(gè)橋梁,使計(jì)算機(jī)擁有能夠理解、處理、并使用人類語(yǔ)言的能力。
比如,一臺(tái)機(jī)器如果既懂漢語(yǔ),又懂英語(yǔ),那么它就可以在兩者之間充當(dāng)翻譯;如果空調(diào)能理解人們的語(yǔ)言,那么人們就可以不用按鈕而是直接通過說話來遙控空調(diào)。自然語(yǔ)言是人類區(qū)別于其他動(dòng)物的根本標(biāo)志,只有當(dāng)計(jì)算機(jī)具備了處理自然語(yǔ)言的能力時(shí),計(jì)算機(jī)器才實(shí)現(xiàn)了真正的智能。。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備(二)自然語(yǔ)言處理的常見應(yīng)用自然語(yǔ)言處理正在人們的日常生活中扮演著越來越重要的作用,以下為幾種常見應(yīng)用。
“機(jī)器翻譯”讓世界變成真正意義上的地球村,因其效率高、成本低滿足了全球各國(guó)多語(yǔ)言信息快速翻譯的需求。谷歌、百度等公司都提供了基于海量網(wǎng)絡(luò)數(shù)據(jù)的機(jī)器翻譯和輔助翻譯工具;
“情感分析”作為一種常見的自然語(yǔ)言處理方法的應(yīng)用,可以讓我們能夠從大量數(shù)據(jù)中識(shí)別和吸收相關(guān)信息,而且還可以理解更深層次的含義。
能夠判斷出一段文字所表達(dá)觀點(diǎn)和態(tài)度的正負(fù)面性。比如,企業(yè)分析消費(fèi)者對(duì)產(chǎn)品的反饋信息,或者檢測(cè)在線評(píng)論中的差評(píng)信息等;
任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備
“智能問答”能夠指利用計(jì)算機(jī)自動(dòng)回答用戶所提出的問題,在回答用戶問題時(shí),首先要正確理解用戶所提出的問題,抽取其中關(guān)鍵的信息,在已有的語(yǔ)料庫(kù)或者知識(shí)庫(kù)中進(jìn)行檢索、匹配,將獲取的答案反饋給用戶,常用于智能語(yǔ)音客服等;
“個(gè)性化推薦”可以依據(jù)大數(shù)據(jù)和歷史行為記錄,學(xué)習(xí)出用戶的興趣愛好,
實(shí)現(xiàn)對(duì)用戶意圖的精準(zhǔn)理解,實(shí)現(xiàn)精準(zhǔn)匹配。例如,在新聞服務(wù)領(lǐng)域的今日頭條,通過用戶閱讀的內(nèi)容、時(shí)長(zhǎng)、評(píng)論等偏好,以及社交網(wǎng)絡(luò)甚至是所使用的移動(dòng)設(shè)備型號(hào)等,綜合分析用戶所關(guān)注的信息源及核心詞匯,進(jìn)行專業(yè)的細(xì)化分析,從而進(jìn)行新聞推送,實(shí)現(xiàn)新聞的個(gè)人定制服務(wù),最終提升用戶粘性;
“文本分類”用于打擊垃圾郵件上。自然語(yǔ)言處理通過分析郵件中的文本內(nèi)容,能夠相對(duì)準(zhǔn)確地判斷郵件是否為垃圾郵件。它通過學(xué)習(xí)大量的垃圾郵件和非垃圾郵件,收集郵件中的特征詞生成垃圾詞庫(kù)和非垃圾詞庫(kù),
然后根據(jù)這些詞庫(kù)的統(tǒng)計(jì)頻數(shù)計(jì)算郵件屬于垃圾郵件的概率,以此來進(jìn)行判定。
任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備
自覺不自覺間,自然語(yǔ)言處理已深入到我們工作生活中,以上幾種常用場(chǎng)景其實(shí)我們已司空見慣,只是不懂得背后的技術(shù)和原理。
比如網(wǎng)上購(gòu)物,現(xiàn)已成為我們?nèi)粘I钪兄匾囊徊糠?。而自然語(yǔ)言處理則依據(jù)大數(shù)據(jù)和用戶行為給企業(yè)帶來諸多便利,實(shí)現(xiàn)了商業(yè)模式的巨大變化:分析用戶詞句。當(dāng)顧客在網(wǎng)上了解企業(yè)或者查看產(chǎn)品時(shí),通過分析用戶詞句,實(shí)現(xiàn)對(duì)客戶意圖的精準(zhǔn)理解,這極大地降低了企業(yè)在搜集客戶喜好和調(diào)查市場(chǎng)時(shí)的成本;
任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備
個(gè)性化推薦。演化出的推薦系統(tǒng)為顧客推薦感興趣的信息和商品,特別是幫助有選擇困難癥的顧客完成消費(fèi);
情感分析。在搜集顧客使用后的意見和評(píng)價(jià)時(shí),自動(dòng)分析評(píng)論關(guān)注點(diǎn)和評(píng)論觀點(diǎn),并輸出評(píng)論觀點(diǎn)標(biāo)簽及評(píng)論觀點(diǎn)極性,幫助商家進(jìn)行產(chǎn)品分析,
輔助客戶進(jìn)行消費(fèi)決策;
智能問答。24h智能問答系統(tǒng),不僅會(huì)回復(fù)客戶某一問題,還會(huì)一次性回復(fù)相關(guān)問題的鏈接,使客戶能享受到一次提問全面掌握信息的貼心服務(wù)。
不僅如此,在網(wǎng)絡(luò)輿情監(jiān)管方面,自然語(yǔ)言處理充分發(fā)揮情感分析和輿情分析能力,自動(dòng)分析文本中的語(yǔ)氣、情感和可信度,做出對(duì)輿情好壞的判斷,幫助分析熱點(diǎn)話題、敏感話題并及時(shí)進(jìn)行危機(jī)輿情的監(jiān)控。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備(三)自然語(yǔ)言處理的發(fā)展趨勢(shì)未來自然語(yǔ)言處理將朝著兩個(gè)互補(bǔ)式的方向發(fā)展:“大規(guī)模語(yǔ)言數(shù)據(jù)的分析處理能力”和“人--機(jī)交互方式”。1.大規(guī)模語(yǔ)言數(shù)據(jù)的分析處理能力指的是建立在自然語(yǔ)言處理上對(duì)語(yǔ)言信息進(jìn)行獲取、分析、推理和整合的能力。以智能車載為例,在汽車的使用、運(yùn)維保養(yǎng)過程中,會(huì)產(chǎn)生大量數(shù)據(jù)(車聯(lián)網(wǎng)數(shù)據(jù)、車主特征數(shù)據(jù),包括駕駛行為、周邊環(huán)境、違章數(shù)據(jù)、運(yùn)維保養(yǎng)記錄、
習(xí)慣偏好、屬性特征等),其中很大一部分都是以自然語(yǔ)言的方式存在的。隨著車聯(lián)網(wǎng)向縱深方向發(fā)展,硬件基礎(chǔ)功能免費(fèi),基于用戶及行車數(shù)據(jù)的深度挖掘與增值服務(wù)將成為未來的主要贏利點(diǎn)。實(shí)現(xiàn)汽車后市場(chǎng)服務(wù)精準(zhǔn)營(yíng)銷對(duì)接,關(guān)鍵要自動(dòng)分析并理解這些語(yǔ)言數(shù)據(jù)。而用機(jī)器來從事這些事務(wù),就比人工具有信息全面、響應(yīng)快速的特點(diǎn),從而能迅速、及時(shí)地服務(wù)于人工決策。不單是汽車后市場(chǎng)領(lǐng)域,對(duì)于其他如制造、農(nóng)業(yè)、能源、金融、醫(yī)療、零售等領(lǐng)域來說,自然語(yǔ)言處理,將會(huì)是提升企業(yè)自身競(jìng)爭(zhēng)力的重要技術(shù)支撐。
任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備2.人-機(jī)交互方式指的是將自然語(yǔ)言作為人與機(jī)器交互的自然接口和統(tǒng)一的交互方式。目前,
在人工智能應(yīng)用方面,通常都是先賦予產(chǎn)品某項(xiàng)功能,這種功能是由事先專門為機(jī)器設(shè)計(jì)的語(yǔ)言編寫程序來實(shí)現(xiàn)的。不同的機(jī)器,通常要使用不同的開發(fā)語(yǔ)言或方式,這嚴(yán)重影響了人們對(duì)機(jī)器的開發(fā)與使用。因此使用統(tǒng)一的交互方式,使用人類的自然語(yǔ)言,就成為一種極佳的選擇。也只有通過采用自然語(yǔ)言處理,才能讓機(jī)器具有理解人類語(yǔ)言的能力,從而實(shí)現(xiàn)建立在自然語(yǔ)言基礎(chǔ)上的人機(jī)交互。自然語(yǔ)言處理作為一門新興學(xué)科,其最終目標(biāo)是為了彌補(bǔ)人類交流(自然語(yǔ)言)與計(jì)算機(jī)理解(機(jī)器語(yǔ)言)之間的差距,最終實(shí)現(xiàn)計(jì)算機(jī)在理解自然語(yǔ)言上像人類一樣智能。未來,自然語(yǔ)言處理的發(fā)展使人工智能可以逐漸面對(duì)更加復(fù)雜的情況、解決更多的問題,也必將為我們帶來一個(gè)更加智能化的時(shí)代。
任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備二、走近知識(shí)圖譜(一)什么是知識(shí)圖譜?知識(shí)圖譜(KnowledgeGraph)是一門典型的多學(xué)科融合,通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息科學(xué)等學(xué)科理論、方法與計(jì)量學(xué)、統(tǒng)計(jì)學(xué)等方法結(jié)合,并利用可視化的圖譜形象地展示出來。其核心目標(biāo)是把復(fù)雜的知識(shí)領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制顯示出來,揭示知識(shí)的動(dòng)態(tài)發(fā)展規(guī)律。知識(shí)圖譜,本質(zhì)上,是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò)。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備如果你看過網(wǎng)絡(luò)綜藝《奇葩說》第五季第17期:你是否支持全人類一秒知識(shí)共享,你也許會(huì)對(duì)辯手陳銘的辯論印象深刻。他在節(jié)目中區(qū)分了信息和知識(shí)兩個(gè)概念:
信息是指外部的客觀事實(shí)。舉例:這里有一瓶水,它現(xiàn)在是7℃。
知識(shí)是對(duì)外部客觀規(guī)律的歸納和總結(jié)。舉例:水在零度的時(shí)候會(huì)結(jié)冰?!翱陀^規(guī)律的歸納和總結(jié)”似乎有些難以實(shí)現(xiàn)。有另一種經(jīng)典的解讀,很形象地區(qū)分“信息”和“知識(shí)”:任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備有了這樣的參考,我們就很容易理解,在信息的基礎(chǔ)上,建立實(shí)體之間的聯(lián)系,就能行成“知識(shí)”。換句話說,知識(shí)圖譜是由一條條知識(shí)組成,每條知識(shí)表示為一個(gè)SPO三元組(Subject-Predicate-Object主謂賓,用來表示事物的一種方法和形式),而這個(gè)三元組集合可以抽象為一張圖。知識(shí)圖譜大多數(shù)采用自底向上構(gòu)建方式,即從大量信息中抽取出實(shí)體,選擇其中可信度較高的加入知識(shí)庫(kù),再構(gòu)建實(shí)體與實(shí)體之間的聯(lián)系。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備(二)知識(shí)圖譜的體系架構(gòu)知識(shí)圖譜的體系架構(gòu)是指其構(gòu)建自身模式的結(jié)構(gòu),如右圖所示:共分為三個(gè)步驟:知識(shí)抽?。簭囊恍┕_的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中,抽取出可用的知識(shí)單元。知識(shí)單元主要包括實(shí)體抽取、關(guān)系抽取以及屬性抽取3個(gè)知識(shí)要素。知識(shí)表示:把知識(shí)客體中的知識(shí)因子與知識(shí)關(guān)聯(lián)起來,便于人們識(shí)別和理解知識(shí),分為主觀知識(shí)表示和客觀知識(shí)表示兩種。知識(shí)融合:是高層次的知識(shí)組織,使來自不同知識(shí)源的知識(shí)在同一框架規(guī)范下進(jìn)行組織,實(shí)現(xiàn)數(shù)據(jù)、信息、經(jīng)驗(yàn)以及人的思想的融合,形成高質(zhì)量的知識(shí)庫(kù)。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備(三)知識(shí)圖譜的應(yīng)用知識(shí)圖譜為互聯(lián)網(wǎng)上海量、動(dòng)態(tài)的大數(shù)據(jù)再組織、再利用提供了一種更為有效的方式,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認(rèn)知思維。下圖為知識(shí)圖譜的具體應(yīng)用方向與代表企業(yè),不管是智能搜索、社交網(wǎng)絡(luò),還是網(wǎng)上購(gòu)物、新聞查詢等,知識(shí)圖譜已經(jīng)在我們的生活中、垂直行業(yè)應(yīng)用中發(fā)揮著日益重要的作用。未來,從技術(shù)來說,知識(shí)圖譜的發(fā)展取決于自然語(yǔ)言處理的不斷進(jìn)步,因?yàn)槲覀冃枰獧C(jī)器能夠理解海量的文字信息。在工程上,我們面臨更多的問題,來源于如何獲取更多的知識(shí)、融合更多的知識(shí)。搜索領(lǐng)域能做的越來越好,是因?yàn)橛谐汕先f(wàn)的用戶,用戶在查詢的過程中,實(shí)際也在優(yōu)化搜索結(jié)果,這也是為什么百度的英文搜索超不過Google,因?yàn)闆]有那么多英文用戶。知識(shí)圖譜也是同樣的道理,只有將更多用戶的行為應(yīng)用在知識(shí)圖譜的更新上,才能走得更遠(yuǎn)。知識(shí)圖譜不是人工智能的最終答案,但知識(shí)圖譜這種綜合各項(xiàng)計(jì)算機(jī)技術(shù)的應(yīng)用方向,一定是人工智能未來的形式之一。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備三、數(shù)據(jù)智能推動(dòng)人機(jī)協(xié)同(一)大數(shù)據(jù)的新篇章--數(shù)據(jù)智能數(shù)據(jù)智能的目標(biāo)是讓數(shù)據(jù)驅(qū)動(dòng)決策,讓機(jī)器具備推理等認(rèn)知能力。只有業(yè)務(wù)數(shù)據(jù)化進(jìn)程的完成,才能真正進(jìn)入到業(yè)務(wù)智能化,依靠數(shù)據(jù)去改變業(yè)務(wù)、指導(dǎo)決策。從2013年至今,大數(shù)據(jù)行業(yè)經(jīng)歷了四個(gè)發(fā)展階段,代表了企業(yè)對(duì)大數(shù)據(jù)的認(rèn)知和需求。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備
2013年,企業(yè)已經(jīng)開始認(rèn)知到數(shù)據(jù)價(jià)值,金融、電信、公安等行業(yè)開始建設(shè)大數(shù)據(jù)平臺(tái),收集并存儲(chǔ)企業(yè)業(yè)務(wù)產(chǎn)生的數(shù)據(jù)。
2015年,大數(shù)據(jù)進(jìn)入到監(jiān)測(cè)階段,通過數(shù)據(jù)大屏,領(lǐng)導(dǎo)看板等形式,實(shí)現(xiàn)對(duì)業(yè)務(wù)的監(jiān)測(cè),這是大數(shù)據(jù)最先成熟的應(yīng)用方向,也是大數(shù)據(jù)最直接能夠反映價(jià)值的方式。
2017年,隨著數(shù)據(jù)平臺(tái)建設(shè)基本完善,大數(shù)據(jù)開始與業(yè)務(wù)場(chǎng)景廣泛結(jié)合,比如:金融領(lǐng)域的精準(zhǔn)營(yíng)銷和風(fēng)控反欺詐,工業(yè)領(lǐng)域的故障預(yù)測(cè)預(yù)警等等。因此,出現(xiàn)了大量數(shù)據(jù)控掘、數(shù)據(jù)建模的需求。此時(shí)基于企業(yè)對(duì)業(yè)務(wù)場(chǎng)景的洞察,單純的數(shù)理統(tǒng)計(jì)已不足以滿足,AI建模平臺(tái)開始推出,幫助企業(yè)落地大數(shù)據(jù)應(yīng)用。2019年,大數(shù)據(jù)從業(yè)務(wù)洞察開始進(jìn)入到業(yè)務(wù)決策階段。意味著,由機(jī)器形成數(shù)據(jù)報(bào)表或者數(shù)據(jù)告,業(yè)務(wù)人員進(jìn)行決策,變成機(jī)器直接給出決策建議,讓機(jī)器具備推理能力。例如,在外賣、出行場(chǎng)景,美團(tuán)和滴滴的系統(tǒng)直接形成最佳調(diào)度方式,系統(tǒng)自動(dòng)完成決策環(huán)節(jié),將任務(wù)下發(fā)給騎手和司機(jī)。這種消費(fèi)互聯(lián)網(wǎng)相對(duì)常見的場(chǎng)景,將在產(chǎn)業(yè)互聯(lián)網(wǎng)、企業(yè)業(yè)務(wù)場(chǎng)景中開始出現(xiàn)。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備讓機(jī)器具備推理能力,意味著自然語(yǔ)言處理、知識(shí)圖譜等認(rèn)知技術(shù)需要不斷成熟。而數(shù)據(jù)驅(qū)動(dòng)決策、數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展的新需求,標(biāo)志著智能數(shù)據(jù)時(shí)代的興起。未來,隨著技術(shù)更加成熟,很多執(zhí)行環(huán)節(jié)可以由機(jī)器來實(shí)現(xiàn),但仍然有很多環(huán)節(jié)需要人參與其中,因此,人機(jī)協(xié)同會(huì)迎來迅猛發(fā)展。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備(二)數(shù)據(jù)智能的定義及數(shù)據(jù)中臺(tái)的價(jià)值數(shù)據(jù)智能核心分為兩個(gè)細(xì)分領(lǐng)域:中臺(tái)和應(yīng)用場(chǎng)景。其中,中臺(tái)包含技術(shù)中臺(tái)、數(shù)據(jù)中臺(tái)和業(yè)務(wù)中臺(tái),應(yīng)用場(chǎng)景則按照不同行業(yè)進(jìn)行劃分。數(shù)字化已不可抵擋,在企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程中,傳統(tǒng)企業(yè)需要具備互聯(lián)網(wǎng)公司那樣快速迭代升級(jí)的能力,因此,數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展的中臺(tái)建設(shè)至關(guān)重要。數(shù)據(jù)中臺(tái)的價(jià)值是將數(shù)據(jù)資產(chǎn)化,實(shí)現(xiàn)不同體系數(shù)據(jù)的打通,為下一步數(shù)據(jù)應(yīng)用打好基礎(chǔ)。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備數(shù)據(jù)中臺(tái)涵蓋了從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析等環(huán)節(jié)的所有工具及平臺(tái),包括基礎(chǔ)平臺(tái)、用戶行為分析、數(shù)據(jù)報(bào)表可視化、數(shù)據(jù)科學(xué)平臺(tái)、自然語(yǔ)言處理和知識(shí)圖譜等諸多技術(shù)體系?;跀?shù)據(jù)中臺(tái)有三種應(yīng)用方式:數(shù)據(jù)集:主要是數(shù)據(jù)標(biāo)簽、用戶畫像等;數(shù)據(jù)模型:融合數(shù)據(jù)和算法,比如銷量預(yù)測(cè)、風(fēng)控建模等;數(shù)據(jù)應(yīng)用:將數(shù)據(jù)能力和軟件能力封裝,形成最終數(shù)據(jù)產(chǎn)品。而業(yè)務(wù)中臺(tái)則是指基于數(shù)據(jù)和技術(shù),結(jié)合行業(yè)應(yīng)用場(chǎng)景,從行業(yè)應(yīng)用切入,在大量服務(wù)垂直行業(yè)客戶,掌握大量場(chǎng)景需求后,逐步形成業(yè)務(wù)中臺(tái)能力。未來身處競(jìng)爭(zhēng)激烈的智能數(shù)據(jù)時(shí)代,誰(shuí)能更高效利用數(shù)據(jù),誰(shuí)才能贏得最后的果實(shí)與勝利,傳統(tǒng)產(chǎn)業(yè)數(shù)字化已在風(fēng)口,已在路上。而認(rèn)知智能的突破,一定不是由單個(gè)技術(shù)所完成,而是需要結(jié)合多種不同的技術(shù)持續(xù)完善和發(fā)展。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備四、大語(yǔ)言模型從量變到質(zhì)變(一)什么是大語(yǔ)言模型大語(yǔ)模型(LargeLanguageModel,LLM)是種人工智能模型,通常基于深度學(xué)習(xí)架構(gòu),旨在理解和生成人類語(yǔ)言。大語(yǔ)言模型在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,可執(zhí)行廣泛的任務(wù),包括文本總結(jié)、翻譯、情感分析等。其特點(diǎn)是規(guī)模龐大,包含數(shù)十億的參數(shù),能幫助機(jī)器學(xué)習(xí)文數(shù)據(jù)中的復(fù)雜模式,有助于在各種自然語(yǔ)言處理任務(wù)上取得優(yōu)異的表現(xiàn)。ChatGPT的爆紅出圈吸引了更多人對(duì)于大語(yǔ)言模型的發(fā)展趨勢(shì)和現(xiàn)實(shí)應(yīng)用的關(guān)注。任務(wù)三認(rèn)知智能--機(jī)器如何懂語(yǔ)義、會(huì)思考知識(shí)儲(chǔ)備1.常見的大語(yǔ)言模型GPT-3(OpenAi):GPT-3(GenerativePre-trainedTransformer3)
是最著名的大語(yǔ)言模型之一,擁有1750億個(gè)參數(shù)。該模型在文本生成、翻譯和其他任務(wù)中表現(xiàn)出顯著的性能,在全球范圍內(nèi)引起了熱烈的反響,目前OpenAl已選代GPT-4版本。BERT(谷歌):
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生效的調(diào)解協(xié)議書
- 苗木合同協(xié)議書
- 蔬菜試驗(yàn)協(xié)議書
- 褲子批發(fā)合同范本
- 認(rèn)養(yǎng)盆花協(xié)議書
- 認(rèn)購(gòu)預(yù)訂協(xié)議書
- 設(shè)備協(xié)作協(xié)議書
- 設(shè)備評(píng)審協(xié)議書
- 設(shè)計(jì)決定協(xié)議書
- 試工期合同協(xié)議
- 小學(xué)階段人工智能在激發(fā)學(xué)生學(xué)習(xí)動(dòng)機(jī)中的應(yīng)用研究教學(xué)研究課題報(bào)告
- 2025年植物標(biāo)本采集合同協(xié)議
- 2025湖北武漢市蔡甸區(qū)總工會(huì)招聘工會(huì)協(xié)理員4人筆試試題附答案解析
- 2026年企業(yè)出口管制合規(guī)審查培訓(xùn)課件與物項(xiàng)識(shí)別指南
- 膽管重復(fù)畸形健康宣教
- 2025秋人教精通版英語(yǔ)小學(xué)五年級(jí)上冊(cè)知識(shí)點(diǎn)及期末測(cè)試卷及答案
- 校園反恐防暴2025年培訓(xùn)課件
- 2026年安徽城市管理職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試模擬測(cè)試卷附答案
- 高血壓的常用降壓藥及其分類
- 2025年低空經(jīng)濟(jì)產(chǎn)業(yè)安全管理人員技能要求報(bào)告
- 2025年河北省高職單招考試八類專業(yè)基礎(chǔ)測(cè)試(歷史)
評(píng)論
0/150
提交評(píng)論