基于本土對(duì)象數(shù)據(jù)集的人工智能教學(xué)_第1頁(yè)
基于本土對(duì)象數(shù)據(jù)集的人工智能教學(xué)_第2頁(yè)
基于本土對(duì)象數(shù)據(jù)集的人工智能教學(xué)_第3頁(yè)
基于本土對(duì)象數(shù)據(jù)集的人工智能教學(xué)_第4頁(yè)
全文預(yù)覽已結(jié)束

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于本土對(duì)象數(shù)據(jù)集的人工智能教學(xué)摘要:本文圍繞具有跨學(xué)科特性的利用人工智能進(jìn)行校園植物觀測(cè)的活動(dòng),探討用于人工智能學(xué)習(xí)的本土對(duì)象的數(shù)據(jù)集構(gòu)建的相關(guān)問(wèn)題,提出應(yīng)該從學(xué)生日常生活出發(fā),結(jié)合真實(shí)情境,為數(shù)據(jù)采集和分類任務(wù)建立具有一定合理性、真實(shí)性的目標(biāo)框架,可以為分類目標(biāo)限定范圍,分類任務(wù)中的對(duì)象的特征既要有相似性又要有區(qū)分度,可以通過(guò)計(jì)算機(jī)視覺(jué)庫(kù)的自動(dòng)化處理來(lái)提高特征數(shù)據(jù)采集和記錄的效率。中圖分類號(hào):G434文獻(xiàn)標(biāo)識(shí)碼:A論文編號(hào):1674-2117(2024)19-0015-04用于人工智能教學(xué)的數(shù)據(jù)集可以是人為主動(dòng)生成的,如用攝像頭拍攝手勢(shì)、用加速度傳感器記錄人的運(yùn)動(dòng)狀態(tài)、對(duì)電腦中的涂鴉截屏等,也可以利用機(jī)器學(xué)習(xí)庫(kù)生成某些帶有隨機(jī)性的數(shù)據(jù)。更多情況下,數(shù)據(jù)集的數(shù)據(jù)來(lái)自真實(shí)環(huán)境中某些對(duì)象的特征,如道路、建筑、動(dòng)物、植物等對(duì)象的某些特征數(shù)據(jù)。對(duì)于具有跨學(xué)科特征的與自然觀測(cè)相關(guān)的實(shí)踐活動(dòng)或自主研究項(xiàng)目,往往希望學(xué)生能夠完整地體驗(yàn)到在自然環(huán)境中采集數(shù)據(jù)、整理數(shù)據(jù)、處理和分析數(shù)據(jù)的過(guò)程,其中面臨的一些問(wèn)題就是應(yīng)當(dāng)采集哪些對(duì)象的數(shù)據(jù)、采集哪一方面特征的數(shù)據(jù)、如何采集數(shù)據(jù)等。因此,本文圍繞具有跨學(xué)科特性的利用人工智能進(jìn)行校園植物觀測(cè)的活動(dòng),來(lái)探討構(gòu)建用于人工智能學(xué)習(xí)(而非科學(xué)研究)的本土對(duì)象的數(shù)據(jù)集的相關(guān)問(wèn)題。為了方便說(shuō)明問(wèn)題,本文的討論基于這樣的活動(dòng)過(guò)程:首先,安排學(xué)生在校園內(nèi)采集標(biāo)本;其次,將標(biāo)本輸入計(jì)算機(jī),生成數(shù)據(jù)集,繼而由機(jī)器學(xué)習(xí)算法或人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練生成分類模型;最后,針對(duì)測(cè)試集的樣本驗(yàn)證分類效果。需要結(jié)合教學(xué)情境,為數(shù)據(jù)采集建立具有一定合理性、真實(shí)性的目標(biāo)框架。從學(xué)生日常生活出發(fā)創(chuàng)設(shè)情境,相較專業(yè)的科學(xué)研TEwFPT+8Ym/z7IiEKxo7jw==究的分類,更容易找到具有合理性、真實(shí)性的分類任務(wù)。例如,首先,可以讓學(xué)生仔細(xì)觀察道路兩旁的行道樹,思考如何通過(guò)觀察特征來(lái)區(qū)分不同的行道樹種類;其次,用現(xiàn)有的人工智能軟件來(lái)對(duì)行道樹的種類進(jìn)行區(qū)分;接著,討論人工智能軟件是如何成功進(jìn)行分類的;再次,采集標(biāo)本,記錄數(shù)據(jù),借助生成式人工智能,利用機(jī)器學(xué)習(xí)庫(kù)或神經(jīng)網(wǎng)絡(luò)庫(kù),自行架設(shè)機(jī)器學(xué)習(xí)或人工神經(jīng)網(wǎng)絡(luò)模型;最后,用這些模型進(jìn)行分類測(cè)試。圖像處理與數(shù)據(jù)記錄在教學(xué)過(guò)程中,雖然可以人工測(cè)量并記錄特征數(shù)據(jù),但這通常需要花費(fèi)大量時(shí)間,測(cè)量過(guò)程也較容易受主觀因素影響,所以,可以利用計(jì)算機(jī)視覺(jué)庫(kù)(如OpenCV庫(kù))自動(dòng)測(cè)量并獲取特征數(shù)據(jù)。自動(dòng)采集的數(shù)據(jù)可能有偏差,但只要樣本數(shù)量足夠大,記錄得到的特征數(shù)據(jù)仍然是可靠的。以樹葉為例,可以通過(guò)視覺(jué)庫(kù)獲取特征數(shù)據(jù)——樹葉的顏色、長(zhǎng)寬比例、邊緣平滑程度、圖像信息熵等,相關(guān)代碼可以利用生成式人工智能快速編寫完成。例如,為了獲得樹葉的多項(xiàng)特征,可撰寫如下提示語(yǔ)句交由生成式人工智能處理:“讀取當(dāng)前文件夾下所有圖片,選取每張圖片正中間19*19像素區(qū)域,獲取其RGB值,將R值除以G值所得到的數(shù)據(jù)存儲(chǔ)于dataset.csv文件的color字段中;選取圖片背景中的唯一物體,計(jì)算其邊緣平滑程度,將數(shù)據(jù)存儲(chǔ)于dataset.csv文件的edge字段中;計(jì)算該物體長(zhǎng)度除以寬度數(shù)據(jù),存儲(chǔ)于dataset.csv文件的shape字段中;根據(jù)文件名首字母判斷物體種類到底是A還是B,存儲(chǔ)于dataset.csv文件的species字段中?!碑?dāng)然,在實(shí)際操作中,需要調(diào)整提示詞以及生成代碼中的閾值參數(shù),以求得較佳效果。如果后續(xù)實(shí)驗(yàn)是利用人工神經(jīng)網(wǎng)絡(luò)構(gòu)造樹葉的分類模型,則需要根據(jù)實(shí)際的算力,將圖像轉(zhuǎn)換成灰度并降低像素值,當(dāng)然,這樣會(huì)面臨顏色信息丟失的問(wèn)題,可以通過(guò)顏色空間轉(zhuǎn)換,或提取顏色信息作為神經(jīng)網(wǎng)絡(luò)的輔助輸入等方法解決問(wèn)題。如圖2所示是利用生成式人工智能的代碼,測(cè)量樹葉并獲取相關(guān)數(shù)據(jù)的dataset.csv文件內(nèi)容的局部。其中,第0個(gè)字段表示種類,A代表香樟落葉,B代表女貞落葉;第1個(gè)字段是顏色數(shù)據(jù),表示樹葉紅色成分比上綠色成分的程度;第2個(gè)字段表示樹葉邊緣光滑程度;第3個(gè)字段表示樹葉所占區(qū)域矩形長(zhǎng)度和寬度的比例。從數(shù)據(jù)中可以看出,香樟落葉偏紅一些,女貞落葉偏綠一些;香樟落葉邊緣沒(méi)有女貞落葉邊緣平滑;香樟落葉比女貞落葉長(zhǎng)寬比例更小一些,也就是說(shuō),香樟落葉看上去更胖一些。當(dāng)然,這些特征是從樣本數(shù)據(jù)的整體程度上體現(xiàn)出來(lái)的,每一片樹葉個(gè)體上的特征有時(shí)候和種類關(guān)聯(lián)性不強(qiáng),但機(jī)器學(xué)習(xí)算法通過(guò)處理大量數(shù)據(jù),以及同時(shí)考慮多個(gè)特征的綜合影響,來(lái)更準(zhǔn)確地預(yù)測(cè)植物種類。對(duì)于獲取到的樣本數(shù)據(jù),可以采用特定的機(jī)器學(xué)習(xí)算法來(lái)生成預(yù)測(cè)模型并進(jìn)行分類測(cè)試,比較容易理解的機(jī)器學(xué)習(xí)算法有K近鄰、樸素貝葉斯、決策樹等。值得一提的是,現(xiàn)實(shí)世界具有高度的復(fù)雜性,特征數(shù)據(jù)的提取過(guò)程必然經(jīng)過(guò)高度的抽象,抽象簡(jiǎn)化了計(jì)算過(guò)程,但也掩蓋了部分真相。例如,香樟樹葉和女貞樹葉的長(zhǎng)寬比例事實(shí)上非常接近,它們的邊緣本來(lái)也都相當(dāng)光滑,但在樹葉落下后,香樟樹葉和女貞樹葉分別以不同的方式蜷曲,許多香樟樹葉邊緣容易蜷曲,產(chǎn)生邊緣不光滑的視覺(jué)效果,許多女貞樹葉以主葉脈對(duì)稱作整體蜷曲,如果不將樹葉壓平而是自然放置,就產(chǎn)生出瘦長(zhǎng)的視覺(jué)效果。所以,對(duì)香樟和女貞掉落樹葉進(jìn)行分類,相較于對(duì)摘取樹枝上的樹葉進(jìn)行分類,對(duì)初學(xué)者而言,實(shí)施分類任務(wù)的難度反而降低了。數(shù)據(jù)集的使用如果利用生成式人工智能和機(jī)器學(xué)習(xí)庫(kù),那么分類模型的構(gòu)建是相當(dāng)方便的。例如,圖3所示的是用Scikit-learn庫(kù)劃分?jǐn)?shù)據(jù)集,并采用K近鄰算法為樹葉數(shù)據(jù)建立分類模型,并對(duì)測(cè)試集進(jìn)行測(cè)試的例子。即便采集的樣本數(shù)量不是特別多,也能夠利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法構(gòu)建分類模型,不過(guò),需要通過(guò)人為觀察選擇出適合用于分類模型的特征。若是利用人工神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行分類,那就不需要人為選取特征,但需要有更多樣本來(lái)供神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí),而且訓(xùn)練耗時(shí)也較長(zhǎng)。圖4所示的是用neurolab庫(kù),對(duì)轉(zhuǎn)換為40*30像素灰度的樹皮的圖案,用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類訓(xùn)練的Python代碼。學(xué)生親自采集樣本、測(cè)量樣本、記錄數(shù)據(jù),并利用機(jī)器學(xué)習(xí)算法或人工神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分類,相比于單純下載和使用數(shù)據(jù)集進(jìn)行人工智能學(xué)習(xí),具有以下幾個(gè)顯著的好處。①通過(guò)親手采集樣本、測(cè)量和記錄數(shù)據(jù)的過(guò)程,不僅鍛煉了學(xué)生的觀察力和動(dòng)手能力,還能讓他們了解數(shù)據(jù)處理和分析的基本步驟,在理論知識(shí)與實(shí)踐的結(jié)合中,增強(qiáng)學(xué)習(xí)興趣和記憶深度。②加深學(xué)生對(duì)真實(shí)世界問(wèn)題的理解。來(lái)自現(xiàn)實(shí)世界的數(shù)據(jù)往往比用于理論學(xué)習(xí)的數(shù)據(jù)更加復(fù)雜和多變。學(xué)生通過(guò)處理自己采集的樣本數(shù)據(jù),能更好地理解實(shí)際情況下可能遇到的各種數(shù)據(jù)問(wèn)題,如數(shù)據(jù)獲得方式、數(shù)據(jù)選取方式等,同時(shí),在實(shí)踐過(guò)程中,學(xué)生能建立起與數(shù)據(jù)的更深的情感聯(lián)系。③引導(dǎo)學(xué)生更加重

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論