CN113094495B 深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法、裝置、設(shè)備及介質(zhì) (上海松鼠課堂人工智能科技有限公司)_第1頁
CN113094495B 深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法、裝置、設(shè)備及介質(zhì) (上海松鼠課堂人工智能科技有限公司)_第2頁
CN113094495B 深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法、裝置、設(shè)備及介質(zhì) (上海松鼠課堂人工智能科技有限公司)_第3頁
CN113094495B 深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法、裝置、設(shè)備及介質(zhì) (上海松鼠課堂人工智能科技有限公司)_第4頁
CN113094495B 深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法、裝置、設(shè)備及介質(zhì) (上海松鼠課堂人工智能科技有限公司)_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(19)國家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(22)申請(qǐng)日2021.04.21公司幢9層、10層(56)對(duì)比文件審查員李娟權(quán)利要求書3頁說明書16頁附圖8頁深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法、裝置、設(shè)備及介質(zhì)(57)摘要本發(fā)明實(shí)施例公開了一種深度強(qiáng)化學(xué)習(xí)的述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的能體、學(xué)習(xí)環(huán)境、狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)的技術(shù)方案能夠豐富智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示功能,從而提高智適應(yīng)學(xué)習(xí)演示系21.一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法,其特征接收目標(biāo)用戶的學(xué)習(xí)路徑演示指令;根據(jù)所述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素;其中,所述強(qiáng)化響應(yīng)于所述學(xué)習(xí)路徑演示指令,根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程;對(duì)所述路徑生成過程進(jìn)行直觀演示;所述根據(jù)所述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素,包括:將智適應(yīng)學(xué)習(xí)系統(tǒng)確定為強(qiáng)化學(xué)習(xí)模型中的知識(shí)點(diǎn)推薦環(huán)境;根據(jù)所述學(xué)習(xí)路徑演示指令的類型確定所述狀態(tài)空間匹配的知識(shí)點(diǎn)推薦環(huán)境類型;根據(jù)學(xué)生用戶屬性、知識(shí)圖譜的知識(shí)點(diǎn)屬性、學(xué)情屬性以及演示屬性確定所述狀態(tài)空間;其中,所述學(xué)生用戶屬性包括目標(biāo)用戶的學(xué)習(xí)能力;所述知識(shí)圖譜的知識(shí)點(diǎn)屬性包括知識(shí)點(diǎn)間的邏輯關(guān)系、知識(shí)點(diǎn)考頻、知識(shí)點(diǎn)重要程度以及知識(shí)點(diǎn)難度;所述學(xué)情屬性包括知識(shí)點(diǎn)掌握狀態(tài);所述演示屬性包括知識(shí)點(diǎn)掌握數(shù)量、學(xué)習(xí)路徑演示時(shí)長或知識(shí)點(diǎn)學(xué)習(xí)范圍;根據(jù)目標(biāo)用戶的推薦學(xué)習(xí)知識(shí)點(diǎn)確定所述動(dòng)作空間;其中,所述知識(shí)點(diǎn)推薦環(huán)境類型包括自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境和操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境中的至少一項(xiàng);所述自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境用于采用自適應(yīng)引擎向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境用于根據(jù)操作用戶的反饋信息向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶包括第一操作用戶或第二操作用戶;所述第一操作用戶的反饋信息用于確認(rèn)是否接受自適應(yīng)引擎推薦的知識(shí)點(diǎn);所述第二操作用戶的反饋信息用于向所述目標(biāo)用戶自主推薦知識(shí)點(diǎn)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)通過強(qiáng)化學(xué)習(xí)模型中的智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài);通過所述智能體根據(jù)動(dòng)作選擇策略模型和所述多維向量狀態(tài)確定智能體動(dòng)作;通過所述智能體執(zhí)行所述智能體動(dòng)作,以根據(jù)智能體動(dòng)作執(zhí)行結(jié)果更新所述知識(shí)點(diǎn)推薦環(huán)境的狀態(tài),得到更新多維向量狀態(tài);通過所述智能體接收所述知識(shí)點(diǎn)推薦環(huán)境根據(jù)所述更新多維向量狀態(tài)和所述智能體動(dòng)作確定的獎(jiǎng)勵(lì)值;通過所述智能體根據(jù)所述獎(jiǎng)勵(lì)值、所述更新多維向量狀態(tài)和所述學(xué)習(xí)評(píng)價(jià)指標(biāo)確定更新智能體動(dòng)作;其中,所述學(xué)習(xí)評(píng)價(jià)指標(biāo)包括知識(shí)點(diǎn)掌握目標(biāo)以及獎(jiǎng)勵(lì)值的教學(xué)規(guī)律確定通過所述智能體返回執(zhí)行通過所述智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài)的操作,直至確定滿足所述強(qiáng)化學(xué)習(xí)模型的學(xué)習(xí)終止條件。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,若所述知識(shí)點(diǎn)推薦環(huán)境類型包括自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境,則通過所述智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài),包括:通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)的自適應(yīng)引擎根據(jù)知識(shí)點(diǎn)推薦算法確定自適應(yīng)推薦知識(shí)點(diǎn);通過所述智能體根據(jù)所述自適應(yīng)推薦知識(shí)點(diǎn)確定所述自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境的3多維向量狀態(tài)。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,若所述知識(shí)點(diǎn)推薦環(huán)境類型包括操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境,則通過所述智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài),包括:通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)接收操作用戶確定的反饋推薦知識(shí)點(diǎn);通過所述智能體根據(jù)所述反饋推薦知識(shí)點(diǎn)確定所述操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境的多維向量狀態(tài);其中,若所述操作用戶為所述第一操作用戶,則所述反饋推薦知識(shí)點(diǎn)為所述第一操作用戶根據(jù)自適應(yīng)引擎確定的自適應(yīng)推薦知識(shí)點(diǎn)選擇的目標(biāo)自適應(yīng)推薦知識(shí)點(diǎn);若所述操作用戶為所述第二操作用戶,則所述反饋推薦知識(shí)點(diǎn)為所述第二操作用戶確定的自主推薦知識(shí)點(diǎn)。5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述通過所述智能體觀察知識(shí)點(diǎn)推薦通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)根據(jù)所述知識(shí)點(diǎn)推薦環(huán)境推薦的知識(shí)點(diǎn)獲取模擬推薦習(xí)題;通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)根據(jù)所述目標(biāo)用戶的學(xué)生用戶屬性和學(xué)情屬性自動(dòng)模擬所述目標(biāo)用戶的答題結(jié)果,并根據(jù)所述答題結(jié)果確定所述目標(biāo)用戶的知識(shí)點(diǎn)掌握狀態(tài);通過所述智能體接收所述目標(biāo)用戶的知識(shí)點(diǎn)掌握狀態(tài),并根據(jù)所述知識(shí)點(diǎn)掌握狀態(tài)確定所述多維向量狀態(tài)。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述路徑生成過程進(jìn)行直觀演示,確定所述路徑生成過程的演示狀態(tài)屬性;根據(jù)所述演示狀態(tài)屬性對(duì)所述路徑生成過程進(jìn)行直觀演示。7.一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示裝置,其特征在于,包括:學(xué)習(xí)路徑演示指令接收模塊,用于接收目標(biāo)用戶的學(xué)習(xí)路徑演示指令;強(qiáng)化學(xué)習(xí)因素確定模塊,用于根據(jù)所述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)強(qiáng)化學(xué)習(xí)模塊,用于響應(yīng)于所述學(xué)習(xí)路徑演示指令,根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程;路徑生成過程演示模塊,用于對(duì)所述路徑生成過程進(jìn)行直觀演示;所述強(qiáng)化學(xué)習(xí)因素確定模塊具體用于:將智適應(yīng)學(xué)習(xí)系統(tǒng)確定為強(qiáng)化學(xué)習(xí)模型中的知識(shí)點(diǎn)推薦環(huán)境;根據(jù)所述學(xué)習(xí)路徑演示指令的類型確定所述狀態(tài)空間匹配的知識(shí)點(diǎn)推薦環(huán)境類型;根據(jù)學(xué)生用戶屬性、知識(shí)圖譜的知識(shí)點(diǎn)屬性、學(xué)情屬性以及演示屬性確定所述狀態(tài)空間;其中,所述學(xué)生用戶屬性包括目標(biāo)用戶的學(xué)習(xí)能力;所述知識(shí)圖譜的知識(shí)點(diǎn)屬性包括知識(shí)點(diǎn)間的邏輯關(guān)系、知識(shí)點(diǎn)考頻、知識(shí)點(diǎn)重要程度以及知識(shí)點(diǎn)難度;所述學(xué)情屬性包括知識(shí)點(diǎn)掌握狀態(tài);所述演示屬性包括知識(shí)點(diǎn)掌握數(shù)量、學(xué)習(xí)路徑演示時(shí)長或知識(shí)點(diǎn)學(xué)習(xí)范圍;根據(jù)目標(biāo)用戶的推薦學(xué)習(xí)知識(shí)點(diǎn)確定所述動(dòng)作空間;其中,所述知識(shí)點(diǎn)推薦環(huán)境類型包括自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境和操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境中的至少一項(xiàng);所述自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境用于采用自適應(yīng)引擎向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境用于根據(jù)操作用戶的反饋信息向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶包括第一操作用戶或第二操作用戶;所述第一操作4用戶的反饋信息用于確認(rèn)是否接受自適應(yīng)引擎推薦的知識(shí)點(diǎn);所述第二操作用戶的反饋信息用于向所述目標(biāo)用戶自主推薦知識(shí)點(diǎn)。一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如權(quán)利要求1-6中任一所述的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法。9.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6中任一所述的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法。5技術(shù)領(lǐng)域[0001]本發(fā)明實(shí)施例涉及人工智能在線教育技術(shù)領(lǐng)域,尤其涉及一種深度強(qiáng)化學(xué)習(xí)的學(xué)背景技術(shù)[0002]智適應(yīng)學(xué)習(xí)系統(tǒng)可以根據(jù)每個(gè)學(xué)生各自的學(xué)習(xí)強(qiáng)項(xiàng)和弱點(diǎn),“私人定制”學(xué)習(xí)模式和學(xué)習(xí)課程。當(dāng)學(xué)生用戶在進(jìn)入智適應(yīng)學(xué)習(xí)系統(tǒng)后,需要通過一輪測(cè)試,檢測(cè)出學(xué)生用戶當(dāng)前水平的薄弱點(diǎn),智適應(yīng)學(xué)習(xí)系統(tǒng)通過結(jié)合納米級(jí)知識(shí)圖譜用最少的時(shí)間檢驗(yàn)與動(dòng)態(tài)學(xué)習(xí)目標(biāo)一致的知識(shí)點(diǎn),動(dòng)態(tài)地通過學(xué)生學(xué)習(xí)后知識(shí)點(diǎn)的掌握狀態(tài),建立每個(gè)學(xué)生用戶的動(dòng)態(tài)用戶畫像,了解每位學(xué)生用戶的學(xué)習(xí)狀態(tài)和異常預(yù)警,及時(shí)調(diào)整學(xué)生用戶的學(xué)習(xí)路徑和學(xué)習(xí)內(nèi)容,在眾多學(xué)習(xí)內(nèi)容中獲取學(xué)生用戶最合適的、個(gè)性化的學(xué)習(xí)路徑和學(xué)習(xí)內(nèi)容。[0003]智適應(yīng)學(xué)習(xí)的知識(shí)點(diǎn)學(xué)習(xí)策略影響因素眾多,可以根據(jù)邏輯圖譜推薦、根據(jù)順序圖譜推薦、追根溯源以及戰(zhàn)略優(yōu)先等學(xué)習(xí)策略制定學(xué)生用戶的個(gè)性化學(xué)習(xí)資料。但每個(gè)學(xué)生用戶的學(xué)習(xí)成效是一個(gè)長期積累后的結(jié)果,因此需要由智適應(yīng)學(xué)習(xí)演示系統(tǒng)在一定時(shí)間內(nèi)向?qū)W生用戶展示最大化的學(xué)習(xí)效果,以展現(xiàn)出智適應(yīng)學(xué)習(xí)系統(tǒng)的智能推薦特點(diǎn),能讓家長和學(xué)生直觀地了解智適應(yīng)學(xué)習(xí)系統(tǒng)的推薦知識(shí)點(diǎn)的智能性。[0004]目前,現(xiàn)有的智適應(yīng)學(xué)習(xí)演示系統(tǒng)通過兩種方式展示最大化的學(xué)習(xí)效果。第一種方式是通過動(dòng)態(tài)顯示處理器推送二維形式的演示表格,以通過推送的演示表格展示最大化的學(xué)習(xí)效果。這種學(xué)習(xí)效果的演示方式難以直觀展現(xiàn)人工智能系統(tǒng)在決策教學(xué)策略時(shí)綜合考慮的選擇知識(shí)點(diǎn)學(xué)習(xí)的復(fù)雜因素。第二種方式是將各個(gè)用戶利益項(xiàng)不同的比率以及影響因子配置到預(yù)設(shè)數(shù)據(jù)庫進(jìn)行存儲(chǔ)再進(jìn)行輸出演示。在這種學(xué)習(xí)效果演示方式中,智適應(yīng)學(xué)習(xí)系統(tǒng)的知識(shí)點(diǎn)推薦算法會(huì)隨著學(xué)生用戶的學(xué)習(xí)狀態(tài)和知識(shí)點(diǎn)在知識(shí)圖譜位置、前后置關(guān)系、難度以及考頻等多個(gè)屬性動(dòng)態(tài)做推薦,但通過配置影響因子的方法會(huì)導(dǎo)致較高的維護(hù)成本,且很難做到數(shù)據(jù)驅(qū)動(dòng),同樣難以直觀展現(xiàn)人工智能系統(tǒng)在決策教學(xué)策略時(shí)綜合考慮的選擇知識(shí)點(diǎn)學(xué)習(xí)的復(fù)雜因素。由此可見,現(xiàn)有的智適應(yīng)學(xué)習(xí)演示系統(tǒng)都無法直觀地演示出在教學(xué)場(chǎng)景中,智適應(yīng)學(xué)習(xí)系統(tǒng)如何仿若具有多年教學(xué)經(jīng)驗(yàn)的名師實(shí)施個(gè)性化教學(xué),導(dǎo)致學(xué)習(xí)效果演示不理想。發(fā)明內(nèi)容[0005]本發(fā)明實(shí)施例提供一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法、裝置、設(shè)備及介質(zhì),能夠豐富智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示功能,從而提高智適應(yīng)學(xué)習(xí)演示系統(tǒng)演示學(xué)習(xí)效果的直觀性和智能性。[0006]第一方面,本發(fā)明實(shí)施例提供了一種深度強(qiáng)化學(xué)習(xí)[0007]接收目標(biāo)用戶的學(xué)習(xí)路徑演示指令;[0008]根據(jù)所述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素;其中,所述強(qiáng)化學(xué)習(xí)因素包括狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo);6[0009]響應(yīng)于所述學(xué)習(xí)路徑演示指令,根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程;[0010]對(duì)所述路徑生成過程進(jìn)行直觀演示。[0011]第二方面,本發(fā)明實(shí)施例還提供了一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示裝置,包括:[0012]學(xué)習(xí)路徑演示指令接收模塊,用于接收目標(biāo)用戶的學(xué)習(xí)路徑演示指令;[0013]強(qiáng)化學(xué)習(xí)因素確定模塊,用于根據(jù)所述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素;其中,所述強(qiáng)化學(xué)習(xí)因素包括狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo);[0014]強(qiáng)化學(xué)習(xí)模塊,用于響應(yīng)于所述學(xué)習(xí)路徑演示指令,根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程;[0015]路徑生成過程演示模塊,用于對(duì)所述路徑生成過程進(jìn)行直觀演示。[0016]第三方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,所述電子設(shè)備包括:[0017]一個(gè)或多個(gè)處理器;[0018]存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;[0019]當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明任意實(shí)施例所提供的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法。[0020]第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任意實(shí)施例所提供的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方[0021]本發(fā)明實(shí)施例通過智適應(yīng)學(xué)習(xí)演示系統(tǒng)根據(jù)接收的學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo)等強(qiáng)化學(xué)習(xí)因素,以響應(yīng)于學(xué)習(xí)路徑演示指令,根據(jù)確定的強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程,并對(duì)路徑生成過程進(jìn)行直觀演示,解決現(xiàn)有智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示效果較差的問題,豐富了智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示功能,提高了智適應(yīng)學(xué)習(xí)演示系統(tǒng)演示學(xué)習(xí)效果的直觀性和智能性。附圖說明[0022]圖1是本發(fā)明實(shí)施例一提供的一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法的流程圖;[0023]圖2是本發(fā)明實(shí)施例二提供的一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法的流程圖;[0024]圖3是現(xiàn)有技術(shù)中強(qiáng)化學(xué)習(xí)的流程示意圖;[0025]圖4是現(xiàn)有技術(shù)中強(qiáng)化學(xué)習(xí)的執(zhí)行流程示意圖;[0026]圖5是本發(fā)明實(shí)施例二提供的一種智適應(yīng)學(xué)習(xí)演示系統(tǒng)包括的各個(gè)功能模塊的結(jié)構(gòu)示意圖;[0027]圖6是本發(fā)明實(shí)施例二提供的一種智能體強(qiáng)化學(xué)習(xí)的流程示意圖;[0028]圖7是本發(fā)明實(shí)施例二提供的一種知識(shí)圖譜部分知識(shí)點(diǎn)之間關(guān)聯(lián)關(guān)系的效果示意[0029]圖8是本發(fā)明實(shí)施例二提供的一種單人交互模式的演示流程示意圖;[0030]圖9是本發(fā)明實(shí)施例三提供的一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示裝置的示意圖;[0031]圖10為本發(fā)明實(shí)施例四提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。7具體實(shí)施方式[0032]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。[0033]另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。[0034]本發(fā)明實(shí)施例的說明書和權(quán)利要求書及附圖中的術(shù)語“第一”和“第二”等是用于設(shè)備沒有設(shè)定于已列出的步驟或單元,而是可包括沒有列出的步驟或單元。[0035]實(shí)施例一[0036]圖1是本發(fā)明實(shí)施例一提供的一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法的流程圖,本實(shí)施例可適用于直觀地、智能性地向用戶演示學(xué)習(xí)路徑的情況,該方法可以由深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示裝置來執(zhí)行,該裝置可以由軟件和/或硬件的方式來實(shí)現(xiàn),并一般可集成在電子設(shè)備中,該電子設(shè)備可以是能夠運(yùn)行智適應(yīng)學(xué)習(xí)演示系統(tǒng)的設(shè)備。相應(yīng)的,如圖1[0038]其中,目標(biāo)用戶可以是智適應(yīng)學(xué)習(xí)系統(tǒng)生成學(xué)習(xí)路徑針對(duì)的學(xué)習(xí)用戶,學(xué)習(xí)路徑演示指令可以是操作用戶向智適應(yīng)學(xué)習(xí)演示系統(tǒng)輸入的,用于請(qǐng)求智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)目標(biāo)用戶進(jìn)行學(xué)習(xí)路徑演示的指令。操作用戶可以是操作智適應(yīng)學(xué)習(xí)演示系統(tǒng)的用戶,可以是學(xué)生用戶,也可以是教師用戶等,本發(fā)明實(shí)施例并不對(duì)操作用戶的具體類型進(jìn)行限定。[0039]在本發(fā)明實(shí)施例中,當(dāng)操作用戶需要通過智適應(yīng)學(xué)習(xí)演示系統(tǒng)預(yù)覽目標(biāo)用戶的學(xué)習(xí)路徑時(shí),可以向智適應(yīng)學(xué)習(xí)演示系統(tǒng)輸入目標(biāo)用戶的學(xué)習(xí)路徑演示指令。可選的,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以作為一個(gè)獨(dú)立的系統(tǒng)與智適應(yīng)學(xué)習(xí)系統(tǒng)進(jìn)行交互,以向操作用戶實(shí)時(shí)演示智適應(yīng)學(xué)習(xí)系統(tǒng)的決策過程?;蛘?,智適應(yīng)學(xué)習(xí)演示系統(tǒng)還可以集成在智適應(yīng)學(xué)習(xí)系統(tǒng)內(nèi)部,作為智適應(yīng)學(xué)習(xí)系統(tǒng)的一個(gè)子系統(tǒng),直接輸出智適應(yīng)學(xué)習(xí)系統(tǒng)的學(xué)習(xí)路徑?jīng)Q策過程,本發(fā)明實(shí)施例對(duì)此并不進(jìn)行限制。[0040]示例性的,當(dāng)操作用戶為學(xué)生用戶時(shí),該操作用戶可以同樣作為目標(biāo)用戶,則目標(biāo)用戶可以向智適應(yīng)學(xué)習(xí)演示系統(tǒng)輸入自身的學(xué)習(xí)路徑演示指令,請(qǐng)求智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)自身進(jìn)行學(xué)習(xí)路徑演示。當(dāng)操作用戶為教師用戶時(shí),該操作用戶可以向智適應(yīng)學(xué)習(xí)演示系統(tǒng)輸入某一學(xué)生用戶的學(xué)習(xí)路徑演示指令,請(qǐng)求智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)該學(xué)生用戶進(jìn)行學(xué)習(xí)路徑演示。[0041]S120、根據(jù)所述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素;其中,[0042]其中,目標(biāo)用戶學(xué)習(xí)路徑也即目標(biāo)用戶的學(xué)習(xí)路徑??梢岳斫獾氖牵瑢W(xué)習(xí)路徑可以包括目標(biāo)用戶對(duì)各知識(shí)點(diǎn)的學(xué)習(xí)過程和學(xué)習(xí)內(nèi)容。示例性的,目標(biāo)用戶A的學(xué)習(xí)路徑可以8是:二次根式概念一二次根式生效條件一二次根式化簡一分母有理化一二次根式乘法一二次根式除法一二次根式乘除法。不同目標(biāo)用戶的學(xué)習(xí)路徑可以相同,也可以不同,需要具體依據(jù)目標(biāo)用戶的學(xué)習(xí)能力等相關(guān)因素確定。強(qiáng)化學(xué)習(xí)因素可以是強(qiáng)化學(xué)習(xí)的相關(guān)因素,可[0043]相應(yīng)的,智適應(yīng)學(xué)習(xí)演示系統(tǒng)接收到目標(biāo)用戶的學(xué)習(xí)路徑演示指令之后,可以根據(jù)學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo)等強(qiáng)化學(xué)習(xí)因素,實(shí)現(xiàn)對(duì)學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí)的初始化配置。[0044]S130、響應(yīng)于所述學(xué)習(xí)路徑演示指令,根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程。[0046]當(dāng)智適應(yīng)學(xué)習(xí)演示系統(tǒng)實(shí)現(xiàn)對(duì)學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí)的初始化配置之后,可以開始對(duì)學(xué)習(xí)路徑演示指令進(jìn)行響應(yīng),根據(jù)配置的強(qiáng)化學(xué)習(xí)因素結(jié)合智適應(yīng)學(xué)習(xí)系統(tǒng)和強(qiáng)化學(xué)習(xí)模型對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程。[0047]需要說明的是,本發(fā)明實(shí)施例中的路徑生成過程可以體現(xiàn)智適應(yīng)學(xué)習(xí)系統(tǒng)動(dòng)態(tài)推薦各個(gè)知識(shí)點(diǎn)的決策過程和效果,整個(gè)路徑生成過程可以直觀地體現(xiàn)目標(biāo)用戶完整的學(xué)習(xí)狀態(tài)的變化以及智適應(yīng)學(xué)習(xí)系統(tǒng)針對(duì)實(shí)時(shí)的學(xué)習(xí)狀態(tài)變化過程的智能決策推斷方式。[0048]可選的,本發(fā)明實(shí)施例中的強(qiáng)化學(xué)習(xí)模型可以是深度強(qiáng)化學(xué)習(xí)模型,本發(fā)明實(shí)施例并不對(duì)強(qiáng)化學(xué)習(xí)模型的類型進(jìn)行限定。需要說明的是,強(qiáng)化學(xué)習(xí)模型可以集成在智適應(yīng)學(xué)習(xí)演示系統(tǒng)內(nèi)部,以被智適應(yīng)學(xué)習(xí)演示系統(tǒng)直接調(diào)度進(jìn)行強(qiáng)化學(xué)習(xí),生成目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程。或者,強(qiáng)化學(xué)習(xí)模型還可以獨(dú)立于智適應(yīng)學(xué)習(xí)演示系統(tǒng)執(zhí)行,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以向強(qiáng)化學(xué)習(xí)模型所在的系統(tǒng)或設(shè)備發(fā)送指令以調(diào)度強(qiáng)化學(xué)習(xí)模型進(jìn)行強(qiáng)化學(xué)習(xí),生成目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程。本發(fā)明實(shí)施例并不對(duì)強(qiáng)化學(xué)習(xí)模型與智適應(yīng)學(xué)習(xí)演示系統(tǒng)之間的集成方式和智適應(yīng)學(xué)習(xí)演示系統(tǒng)調(diào)度強(qiáng)化學(xué)習(xí)模型的方式進(jìn)行限定。[0050]相應(yīng)的,在得到路徑生成過程后,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以實(shí)時(shí)、直觀地演示整個(gè)目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程,也即直觀地演示目標(biāo)用戶的學(xué)習(xí)效果,以使操作用戶直觀了解適合目標(biāo)用戶的個(gè)性化的學(xué)習(xí)動(dòng)態(tài)過程。[0051]需要說明的是,在本發(fā)明實(shí)施例中,操作用戶除了可以利用學(xué)習(xí)路徑演示指令對(duì)智適應(yīng)學(xué)習(xí)演示系統(tǒng)指定目標(biāo)用戶,還可以利用學(xué)習(xí)路徑演示指令向智適應(yīng)學(xué)習(xí)演示系統(tǒng)指示不同類型的學(xué)習(xí)路徑的路徑生成過程。可選的,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以采用知識(shí)圖譜或路線圖等形式對(duì)路徑生成過程進(jìn)行直觀演示,本發(fā)明實(shí)施例并不對(duì)智適應(yīng)學(xué)習(xí)演示系統(tǒng)的演示方式進(jìn)行限定。[0052]例如,操作用戶可以利用學(xué)習(xí)路徑演示指令指定智適應(yīng)學(xué)習(xí)演示系統(tǒng)采用自動(dòng)模式進(jìn)行演示,也就是路徑生成過程演示的全程沒有人機(jī)交互,由智適應(yīng)學(xué)習(xí)系統(tǒng)自動(dòng)智能地判定目標(biāo)用戶需要學(xué)習(xí)的內(nèi)容,從而展現(xiàn)出最大的學(xué)習(xí)效果。操作用戶還可以利用學(xué)習(xí)路徑演示指令指定智適應(yīng)學(xué)習(xí)演示系統(tǒng)采用單人交互模式進(jìn)行演示,也即操作用戶可以利用學(xué)習(xí)路徑演示指令指定目標(biāo)用戶開始學(xué)習(xí)的知識(shí)點(diǎn)。具體的,由智適應(yīng)學(xué)習(xí)系統(tǒng)初始判定目標(biāo)用戶需要學(xué)習(xí)的知識(shí)點(diǎn),在操作用戶可以選擇接受或者不接受。當(dāng)操作用戶選擇接9受時(shí),繼續(xù)由智適應(yīng)學(xué)習(xí)系統(tǒng)自動(dòng)智能地判定目標(biāo)用戶的學(xué)習(xí)路徑。為了進(jìn)一步提高用戶體驗(yàn),操作用戶還可以利用學(xué)習(xí)路徑演示指令指定智適應(yīng)學(xué)習(xí)演示系統(tǒng)采用多人交互模式進(jìn)行演示,也即操作用戶可以利用學(xué)習(xí)路徑演示指令指定由操作用戶為目標(biāo)用戶選擇下一個(gè)知識(shí)點(diǎn)學(xué)習(xí),以在沒有智適應(yīng)學(xué)習(xí)系統(tǒng)的介入下,觀看操作用戶為目標(biāo)用戶安排的學(xué)習(xí)路徑所能掌握知識(shí)點(diǎn)的情況。[0053]由此可見,本發(fā)明實(shí)施例中智適應(yīng)學(xué)習(xí)演示系統(tǒng)提供的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法不僅可以讓用戶直觀地了解智適應(yīng)學(xué)習(xí)系統(tǒng)對(duì)目標(biāo)用戶的整個(gè)學(xué)習(xí)路徑的動(dòng)態(tài)智能決策過程,提高了智適應(yīng)學(xué)習(xí)演示系統(tǒng)演示學(xué)習(xí)效果的直觀性和智能性,而且可以提供多種不同類型的交互演示方式,進(jìn)一步豐富了智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示功[0054]本發(fā)明實(shí)施例通過智適應(yīng)學(xué)習(xí)演示系統(tǒng)根據(jù)接收的學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo)等強(qiáng)化學(xué)習(xí)因素,以響應(yīng)于學(xué)習(xí)路徑演示指令,根據(jù)確定的強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程,并對(duì)路徑生成過程進(jìn)行直觀演示,解決現(xiàn)有智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示效果較差的問題,豐富了智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示功能,提高了智適應(yīng)學(xué)習(xí)演示系統(tǒng)演示學(xué)習(xí)效果的直觀性和智能性。[0056]圖2是本發(fā)明實(shí)施例二提供的一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法的流程圖,本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行具體化,在本實(shí)施例中,給出了根據(jù)學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素、根據(jù)強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程,以及對(duì)路徑生成過程進(jìn)行直觀演示的多種[0058]強(qiáng)化學(xué)習(xí)屬于一種機(jī)器學(xué)習(xí)方式,圖3是現(xiàn)有技術(shù)中強(qiáng)化學(xué)習(xí)的流程示意圖,如圖態(tài)(State)以及獎(jiǎng)勵(lì)(Reward)。智能體實(shí)時(shí)的和環(huán)境之間進(jìn)行交互,智能體觀測(cè)到環(huán)境的狀態(tài)后根據(jù)策略模型(Policy)輸出動(dòng)作,而動(dòng)作會(huì)作用于環(huán)境進(jìn)而影響環(huán)境的狀態(tài)。另外,環(huán)境還會(huì)根據(jù)動(dòng)作和狀態(tài)的好壞給智能體一個(gè)獎(jiǎng)勵(lì),而智能體則根據(jù)動(dòng)作狀態(tài)和獎(jiǎng)勵(lì)更新自身選擇動(dòng)作的策略模型。通過在環(huán)境中的不斷嘗試,獲得最大的獎(jiǎng)勵(lì),學(xué)習(xí)到從狀態(tài)到動(dòng)作[0059]圖4是現(xiàn)有技術(shù)中強(qiáng)化學(xué)習(xí)的執(zhí)行流程示意圖,如圖4所示,現(xiàn)有的強(qiáng)化學(xué)習(xí)執(zhí)行流程具體包括:Agent觀察Environment并獲得state,依據(jù)它的Policy對(duì)state做出action,此時(shí)能得到一個(gè)reward,且Environment改變了,因此Agent會(huì)得到一個(gè)新的state,并繼續(xù)[0060]在本發(fā)明實(shí)施例中,將強(qiáng)化學(xué)習(xí)應(yīng)用到學(xué)習(xí)路徑推演的應(yīng)用場(chǎng)景中,確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素時(shí),對(duì)強(qiáng)化學(xué)習(xí)算法包括的5大要素分別進(jìn)行配置,得到智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)應(yīng)的智能體、學(xué)習(xí)環(huán)境(即環(huán)境)、狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo)(即獎(jiǎng)勵(lì)回報(bào)函數(shù))。智適應(yīng)學(xué)習(xí)演示系統(tǒng)利用強(qiáng)化學(xué)習(xí)的方式得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程具體參考下述操作。[0061]S220、將智適應(yīng)學(xué)習(xí)系統(tǒng)確定為強(qiáng)化學(xué)習(xí)模型中的知識(shí)點(diǎn)推薦環(huán)境。[0062]S230、根據(jù)所述學(xué)習(xí)路徑演示指令的類型確定所述狀態(tài)空間匹配的知識(shí)點(diǎn)推薦環(huán)境類型。[0063]具體的,可以將智適應(yīng)學(xué)習(xí)系統(tǒng)確定為強(qiáng)化學(xué)習(xí)模型中的知識(shí)點(diǎn)推薦環(huán)境,也即,強(qiáng)化學(xué)習(xí)模型中的智能體保持不變,將智適應(yīng)學(xué)習(xí)系統(tǒng)設(shè)置為強(qiáng)化學(xué)習(xí)模型中的學(xué)習(xí)環(huán)境因素,并根據(jù)學(xué)習(xí)路徑演示指令的類型確定強(qiáng)化學(xué)習(xí)的狀態(tài)空間匹配的知識(shí)點(diǎn)推薦環(huán)境類型。可以理解的是,不同類型的學(xué)習(xí)路徑演示指令可以指定不同類型的知識(shí)點(diǎn)推薦環(huán)境類型,每個(gè)知識(shí)點(diǎn)推薦環(huán)境類型可以對(duì)應(yīng)一種強(qiáng)化學(xué)習(xí)的環(huán)境。[0064]在本發(fā)明的一個(gè)可選實(shí)施例中,所述知識(shí)點(diǎn)推薦環(huán)境類型可以包括自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境和操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境中的至少一項(xiàng);所述自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境用于采用自適應(yīng)引擎向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境用于根據(jù)操作用戶的反饋信息向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶包括第一操作用戶或第二操作用戶;所述第一操作用戶的反饋信息用于確認(rèn)是否接受自適應(yīng)引擎推薦的知識(shí)點(diǎn);所述第二操作用戶的反饋信息用于向所述目標(biāo)用戶自主推薦知識(shí)點(diǎn)。[0065]其中,自適應(yīng)引擎也即智適應(yīng)學(xué)習(xí)系統(tǒng)的智能學(xué)習(xí)引擎。自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境可以是采用自適應(yīng)引擎向目標(biāo)用戶推薦知識(shí)點(diǎn)的環(huán)境。操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境可以是根據(jù)操作用戶的反饋信息向目標(biāo)用戶推薦知識(shí)點(diǎn)的環(huán)境。第一操作用戶可以是采用單人交互模式與智適應(yīng)學(xué)習(xí)演示系統(tǒng)進(jìn)行交互的操作用戶,如目標(biāo)用戶本身,可以向智適應(yīng)學(xué)習(xí)演示系統(tǒng)反饋信息,以確認(rèn)是否接受自適應(yīng)引擎推薦的知識(shí)點(diǎn)。第二操作用戶可以是采用多人交互模式與智適應(yīng)學(xué)習(xí)演示系統(tǒng)進(jìn)行交互的操作用戶,如教師用戶,也可以向智適應(yīng)學(xué)習(xí)演示系統(tǒng)反饋信息,以利用智適應(yīng)學(xué)習(xí)演示系統(tǒng)自主確定向目標(biāo)用戶推薦的知[0066]也即,在本發(fā)明實(shí)施例中,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以模擬三種不同類型的學(xué)習(xí)路徑的生成方式。通過配置自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境,可以實(shí)現(xiàn)采用自動(dòng)模式生成學(xué)習(xí)路徑,也就是路徑生成過程演示的全程沒有人機(jī)交互,由智適應(yīng)學(xué)習(xí)系統(tǒng)自動(dòng)智能地判定目標(biāo)用戶需要學(xué)習(xí)的內(nèi)容,從而展現(xiàn)出最大的學(xué)習(xí)效果。通過配置操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境,可以實(shí)現(xiàn)采用人機(jī)交互模式生成學(xué)習(xí)路徑,既可以實(shí)現(xiàn)單人交互模式,也可以實(shí)現(xiàn)多人交互模式。在單人交互模式中,第一操作用戶可以利用學(xué)習(xí)路徑演示指令指定目標(biāo)用戶開始學(xué)習(xí)的知識(shí)點(diǎn)。具體的,由智適應(yīng)學(xué)習(xí)系統(tǒng)初始判定目標(biāo)用戶需要學(xué)習(xí)的知識(shí)點(diǎn),在操作用戶可以選擇接受或者不接受。當(dāng)操作用戶選擇接受時(shí),繼續(xù)由智適應(yīng)學(xué)習(xí)系統(tǒng)自動(dòng)智能地判定目標(biāo)用戶的學(xué)習(xí)路徑。在多人交互模式中,第二操作用戶可以利用學(xué)習(xí)路徑演示指令指定由第二操作用戶自主為目標(biāo)用戶選擇下一個(gè)知識(shí)點(diǎn)學(xué)習(xí),以在沒有智適應(yīng)學(xué)習(xí)系統(tǒng)的介入下,觀看操作用戶為目標(biāo)用戶安排的學(xué)習(xí)路徑所能掌握知識(shí)點(diǎn)的情況。多人交互模式可以實(shí)現(xiàn)操作用戶根據(jù)自身經(jīng)驗(yàn)判斷針對(duì)目標(biāo)用戶當(dāng)下的學(xué)習(xí)狀態(tài)做指導(dǎo)。[0067]由此可見,人機(jī)交互模式的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法可以使得操作用戶參與到演示過程,提高學(xué)習(xí)路徑演示的互動(dòng)性和可擴(kuò)展性。當(dāng)教師用戶作為第二操作用戶根據(jù)自身經(jīng)驗(yàn)判斷針對(duì)目標(biāo)用戶當(dāng)下的學(xué)習(xí)狀態(tài)做指導(dǎo),確定目標(biāo)用戶的學(xué)習(xí)路徑時(shí),還可以和智適應(yīng)學(xué)習(xí)系統(tǒng)的智能學(xué)習(xí)策略進(jìn)行對(duì)比,以使教師用戶了解真實(shí)教師和智適應(yīng)學(xué)習(xí)系統(tǒng)對(duì)同樣條件的學(xué)生進(jìn)行學(xué)習(xí)路徑規(guī)劃時(shí)存在的差異,從而凸顯出智適應(yīng)學(xué)習(xí)系統(tǒng)的11優(yōu)勢(shì)。[0068]S240、根據(jù)學(xué)生用戶屬性、知識(shí)圖譜的知識(shí)點(diǎn)屬性、學(xué)情屬性以及演示順序確定所述狀態(tài)空間。[0069]其中,所述學(xué)生用戶屬性可以包括目標(biāo)用戶的學(xué)習(xí)能力;所述知識(shí)圖譜的知識(shí)點(diǎn)屬性可以包括知識(shí)點(diǎn)間的邏輯關(guān)系、知識(shí)點(diǎn)考頻、知識(shí)點(diǎn)重要程度以及知識(shí)點(diǎn)難度;所述學(xué)情屬性可以包括知識(shí)點(diǎn)掌握狀態(tài);所述演示屬性可以包括知識(shí)點(diǎn)掌握數(shù)量、學(xué)習(xí)路徑演示時(shí)長或知識(shí)點(diǎn)學(xué)習(xí)范圍。[0070]在本發(fā)明實(shí)施例中,可以根據(jù)學(xué)生用戶屬性、知識(shí)圖譜的知識(shí)點(diǎn)屬性以及學(xué)情屬性確定強(qiáng)化學(xué)習(xí)的狀態(tài)空間??蛇x的,如果需要設(shè)定學(xué)習(xí)路徑的演示方式,如設(shè)定演示時(shí)長或演示的學(xué)習(xí)范圍,還可以在狀態(tài)空間中加入演示屬性。[0071]可選的,學(xué)生用戶屬性可以是目標(biāo)用戶的學(xué)生能力,可以來自智適應(yīng)學(xué)習(xí)演示系統(tǒng)提供給目標(biāo)用戶的設(shè)定值,例如:目標(biāo)用戶的學(xué)生用戶屬性可以是學(xué)習(xí)優(yōu)秀、學(xué)習(xí)中等、學(xué)習(xí)不佳等。學(xué)生用戶屬性也可以采用智適應(yīng)學(xué)習(xí)系統(tǒng)保存用戶的歷史學(xué)習(xí)數(shù)據(jù)確定,也即根據(jù)項(xiàng)目反應(yīng)理論(ItemResponseTheory,IRT)得到的用戶每個(gè)時(shí)刻的能力值劃分的多個(gè)能力值區(qū)間。如學(xué)習(xí)優(yōu)秀(能力值0.7~1區(qū)間)、學(xué)習(xí)中等(能力值0.36~0.69區(qū)間)以及學(xué)習(xí)不佳(能力值0.35~0區(qū)間),操作用戶可以利用學(xué)習(xí)路徑演示指令設(shè)定目標(biāo)用戶初始的學(xué)生用戶屬性水平,當(dāng)智適應(yīng)學(xué)習(xí)系統(tǒng)模擬目標(biāo)用戶學(xué)習(xí)知識(shí)點(diǎn)后,可以根據(jù)目標(biāo)用戶在智適應(yīng)學(xué)習(xí)系統(tǒng)的能力值作為更新的學(xué)生用戶屬性。知識(shí)圖譜的知識(shí)點(diǎn)屬性可以是在知識(shí)點(diǎn)維度上所具備的特征,可以包括但不限于知識(shí)點(diǎn)間的邏輯關(guān)系(如:知識(shí)點(diǎn)間具有前后置關(guān)系)、知識(shí)點(diǎn)考頻、知識(shí)點(diǎn)重要程度和知識(shí)點(diǎn)難度等。學(xué)情屬性可以包括目標(biāo)用戶的知識(shí)點(diǎn)掌握狀態(tài),也即在目標(biāo)用戶的學(xué)生用戶屬性下進(jìn)行學(xué)習(xí),目標(biāo)用戶是否掌握該知識(shí)點(diǎn)的狀態(tài)。演示屬性可以是提供給操作用戶設(shè)定演示需求的條件,包括但不限于知識(shí)點(diǎn)掌握數(shù)最大值及演示時(shí)長等,也就是智能體達(dá)成任務(wù)目標(biāo)的時(shí)長,或要演示的學(xué)習(xí)范圍。[0072]S250、根據(jù)目標(biāo)用戶的推薦學(xué)習(xí)知識(shí)點(diǎn)確定所述動(dòng)作空間。[0073]其中,推薦學(xué)習(xí)知識(shí)點(diǎn)也即向目標(biāo)用戶推薦的要學(xué)習(xí)的知識(shí)點(diǎn)。[0074]具體的,可以設(shè)置目標(biāo)用戶下一個(gè)要學(xué)習(xí)的知識(shí)點(diǎn)作為智能體輸出的動(dòng)作。[0075]S260、響應(yīng)于所述學(xué)習(xí)路徑演示指令,根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí)。[0076]當(dāng)上述強(qiáng)化學(xué)習(xí)因素配置完成后,智適應(yīng)學(xué)習(xí)演示系統(tǒng)即可響應(yīng)于學(xué)習(xí)路徑演示指令,根據(jù)強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí)。[0077]圖5是本發(fā)明實(shí)施例二提供的一種智適應(yīng)學(xué)習(xí)演示系統(tǒng)包括的各個(gè)功能模塊的結(jié)構(gòu)示意圖。在一個(gè)具體的例子中,如圖5所示,基于強(qiáng)化學(xué)習(xí)的智適應(yīng)學(xué)習(xí)演示系統(tǒng)的功能模塊可以細(xì)分為狀態(tài)模塊、決策模塊、交互模塊、推薦模塊、學(xué)習(xí)模擬模塊和演示模塊。其中,狀態(tài)模塊可以提供智能體所需的狀態(tài)屬性,包括學(xué)生用戶屬性、知識(shí)圖譜的知識(shí)點(diǎn)屬性、學(xué)情屬性以及演示屬性等。決策模塊可以展現(xiàn)智能體輸出的動(dòng)作,也就是學(xué)生下一個(gè)要學(xué)習(xí)的知識(shí)點(diǎn)。具體的,決策模塊可以對(duì)智能體建立深度強(qiáng)化學(xué)習(xí)模型,設(shè)置智能體在環(huán)境中的狀態(tài)空間、智能體可決策的行為空間以及環(huán)境對(duì)智能體的行為獎(jiǎng)勵(lì),采用深度神經(jīng)網(wǎng)絡(luò)來逼近狀態(tài)到動(dòng)作的映射函數(shù),智能體通過對(duì)知識(shí)圖譜上各知識(shí)點(diǎn)掌握狀態(tài)以及目標(biāo)學(xué)生學(xué)習(xí)水平等動(dòng)態(tài)環(huán)境狀態(tài)的觀察,利用該映射函數(shù)做出行為決策,也就是智能體的知識(shí)點(diǎn)推薦的動(dòng)態(tài)規(guī)劃。交互模塊可以提供智適應(yīng)學(xué)習(xí)演示系統(tǒng)的多種交互模式,操作用戶可以通過交互模塊設(shè)定狀態(tài)模塊所需要的演示屬性,以及選擇所采取的交互模式,可以包括自動(dòng)模式、單人交互模式以及多人交互模式等。推薦模塊可以接入智適應(yīng)學(xué)習(xí)系統(tǒng)的知識(shí)點(diǎn)推薦算法,通過知識(shí)點(diǎn)推薦算法接口提供所需的數(shù)據(jù),如當(dāng)前知識(shí)點(diǎn)關(guān)聯(lián)的習(xí)題等。當(dāng)智適應(yīng)學(xué)習(xí)系統(tǒng)可以根據(jù)目標(biāo)用戶對(duì)當(dāng)前知識(shí)點(diǎn)的掌握狀態(tài)推斷目標(biāo)用戶下一個(gè)推薦的知識(shí)點(diǎn)時(shí),推薦模塊可以繼續(xù)根據(jù)下一個(gè)推薦的知識(shí)點(diǎn)利用知識(shí)點(diǎn)推薦算法提供所需的數(shù)據(jù)。如此反復(fù),直至智適應(yīng)學(xué)習(xí)系統(tǒng)完成學(xué)習(xí)路徑的生成,得到目標(biāo)用戶完整的學(xué)習(xí)路徑??蛇x的,當(dāng)知識(shí)點(diǎn)推薦算法有多種推題策略時(shí),還可以在智適應(yīng)學(xué)習(xí)演示系統(tǒng)演示學(xué)習(xí)路徑的過程中實(shí)時(shí)演示推題策略的名稱,以使操作者直觀了解智適應(yīng)學(xué)習(xí)系統(tǒng)的決策過程。學(xué)習(xí)模擬模塊可以接入智適應(yīng)學(xué)習(xí)系統(tǒng)的推題算法,接收推題算法接口發(fā)送的學(xué)習(xí)數(shù)據(jù),如各類知識(shí)點(diǎn)習(xí)題等,并根據(jù)目標(biāo)用戶的學(xué)生用戶屬性進(jìn)行模擬學(xué)習(xí),得到在既定的學(xué)情狀態(tài)下目標(biāo)用戶對(duì)該知識(shí)點(diǎn)能否掌握的狀態(tài)值。學(xué)習(xí)模擬模塊可以利用推題算法模擬多種學(xué)生用戶的能力值,在多種題目難度下,確定答題對(duì)錯(cuò)的可能性,并根據(jù)智適應(yīng)學(xué)習(xí)系統(tǒng)的掌握條件判斷目標(biāo)用戶是否掌握該知識(shí)點(diǎn)。演示模塊可以演示出目標(biāo)用戶在智適應(yīng)學(xué)習(xí)系端、智能終端或者各類演示屏,本發(fā)明實(shí)施例對(duì)此并不進(jìn)行限制。演示模塊演示的內(nèi)容可以按用戶需求設(shè)計(jì),如可以包括用戶屬性、知識(shí)點(diǎn)屬性及學(xué)習(xí)策略等,本發(fā)明實(shí)施例對(duì)此同樣不進(jìn)行限制。[0078]圖6是本發(fā)明實(shí)施例二提供的一種智能體強(qiáng)化學(xué)習(xí)的流程示意圖,在一個(gè)具體的[0079]S261、通過強(qiáng)化學(xué)習(xí)模型中的智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài)。[0080]其中,多維向量狀態(tài)可以是高維向量表征的智能體對(duì)環(huán)境狀態(tài)的觀察結(jié)果。示例性的,多維向量狀態(tài)可以包括學(xué)生用戶屬性、知識(shí)圖譜的知識(shí)點(diǎn)屬性、學(xué)情屬性以及演示屬性等。[0081]在本發(fā)明的一個(gè)可選實(shí)施例中,若所述知識(shí)點(diǎn)推薦環(huán)境類型包括自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境,則通過所述智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài),可以包括:通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)的自適應(yīng)引擎根據(jù)知識(shí)點(diǎn)推薦算法確定自適應(yīng)推薦知識(shí)點(diǎn);通過所述智能體根據(jù)所述自適應(yīng)推薦知識(shí)點(diǎn)確定所述自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境的多維向量狀態(tài)。[0082]其中,自適應(yīng)推薦知識(shí)點(diǎn)可以是自適應(yīng)引擎根據(jù)知識(shí)點(diǎn)推薦算法自動(dòng)推薦的知識(shí)[0083]可選的,如果操作用戶在學(xué)習(xí)路徑演示指令指示自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境作為強(qiáng)化學(xué)習(xí)的環(huán)境類型,則智適應(yīng)學(xué)習(xí)系統(tǒng)的自適應(yīng)引擎可以根據(jù)知識(shí)點(diǎn)推薦算法確定自適應(yīng)推薦知識(shí)點(diǎn)。進(jìn)一步的,智能體可以根據(jù)自適應(yīng)推薦知識(shí)點(diǎn)確定自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境的多維向量狀態(tài)。[0084]在本發(fā)明的一個(gè)可選實(shí)施例中,若所述知識(shí)點(diǎn)推薦環(huán)境類型包括操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境,則通過所述智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài),可以包括:通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)接收操作用戶確定的反饋推薦知識(shí)點(diǎn);通過所述智能體根據(jù)所述反饋推薦知識(shí)點(diǎn)確定所述操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境的多維向量狀態(tài);其中,若所述操作用戶為所述第一操作用戶,則所述反饋推薦知識(shí)點(diǎn)為所述第一操作用戶根據(jù)自適應(yīng)引擎確定的自適應(yīng)推薦知識(shí)點(diǎn)選擇的目標(biāo)自適應(yīng)推薦知識(shí)點(diǎn);若所述操作用戶為所述第二操作用戶,則所述反饋推薦知識(shí)點(diǎn)為所述第二操作用戶(根據(jù)教學(xué)經(jīng)驗(yàn))確定的自主推薦知識(shí)點(diǎn)。[0085]其中,反饋推薦知識(shí)點(diǎn)可以是操作用戶向智適應(yīng)學(xué)習(xí)演示系統(tǒng)反饋的知識(shí)點(diǎn)。目標(biāo)自適應(yīng)推薦知識(shí)點(diǎn)可以是第一操作用戶根據(jù)自適應(yīng)引擎確定的自適應(yīng)推薦知識(shí)點(diǎn)選擇的其中一個(gè)推薦知識(shí)點(diǎn)。自主推薦知識(shí)點(diǎn)可以是第二操作用戶根據(jù)自身經(jīng)驗(yàn)選擇的推薦知[0086]可選的,如果操作用戶在學(xué)習(xí)路徑演示指令指示操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境作為強(qiáng)化學(xué)習(xí)的環(huán)境類型,則智適應(yīng)學(xué)習(xí)系統(tǒng)可以接收操作用戶確定的反饋推薦知識(shí)點(diǎn)。進(jìn)一步的,智能體可以根據(jù)反饋推薦知識(shí)點(diǎn)確定操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境的多維向量狀態(tài)。[0087]可選的,如果操作用戶為第一操作用戶,則反饋推薦知識(shí)點(diǎn)可以為第一操作用戶根據(jù)自適應(yīng)引擎確定的自適應(yīng)推薦知識(shí)點(diǎn)選擇的目標(biāo)自適應(yīng)推薦知識(shí)點(diǎn);如果操作用戶為第二操作用戶,則反饋推薦知識(shí)點(diǎn)為第二操作用戶確定的自主推薦知識(shí)點(diǎn)。[0088]在本發(fā)明的一個(gè)可選實(shí)施例中,所述通過所述智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài),可以包括:通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)根據(jù)所述知識(shí)點(diǎn)推薦環(huán)境推薦的知識(shí)點(diǎn)獲取模擬推薦習(xí)題;通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)根據(jù)所述目標(biāo)用戶的學(xué)生用戶屬性和學(xué)情屬性自動(dòng)模擬所述目標(biāo)用戶的答題結(jié)果,并根據(jù)所述答題結(jié)果確定所述目標(biāo)用戶的知識(shí)點(diǎn)掌握狀態(tài);通過所述智能體接收所述目標(biāo)用戶的知識(shí)點(diǎn)掌握狀態(tài),并根據(jù)所述知識(shí)點(diǎn)掌握狀態(tài)確定所述多維向量狀態(tài)。[0089]其中,模擬推薦習(xí)題可以是智適應(yīng)學(xué)習(xí)系統(tǒng)的推薦模塊根據(jù)當(dāng)前知識(shí)點(diǎn)推薦的習(xí)題。知識(shí)點(diǎn)掌握狀態(tài)可以表征目標(biāo)用戶是否掌握知識(shí)點(diǎn)。[0090]具體的,智適應(yīng)學(xué)習(xí)系統(tǒng)可以根據(jù)知識(shí)點(diǎn)推薦環(huán)境推薦的知識(shí)點(diǎn)通過推薦模塊自動(dòng)獲取模擬推薦習(xí)題。在獲取到模擬推薦習(xí)題后,智適應(yīng)學(xué)習(xí)系統(tǒng)根據(jù)目標(biāo)用戶的學(xué)生用戶屬性和學(xué)情屬性利用學(xué)習(xí)模擬模塊自動(dòng)模擬目標(biāo)用戶的答題結(jié)果。也即,在整個(gè)演示過程中,目標(biāo)用戶本身不需要參與實(shí)際的答題過程,整個(gè)學(xué)習(xí)過程都可以由智適應(yīng)學(xué)習(xí)系統(tǒng)自動(dòng)模擬。相應(yīng)的,智適應(yīng)學(xué)習(xí)系統(tǒng)可以根據(jù)目標(biāo)用戶的學(xué)生用戶屬性和學(xué)情屬性自動(dòng)模擬目標(biāo)用戶的答題結(jié)果,從而根據(jù)答題結(jié)果確定目標(biāo)用戶是否掌握知識(shí)點(diǎn)的知識(shí)點(diǎn)掌握狀態(tài)。相應(yīng)的,智能體可以觀察智適應(yīng)學(xué)習(xí)系統(tǒng),進(jìn)而得到目標(biāo)用戶對(duì)應(yīng)的多維向量狀態(tài)。[0091]S262、通過智能體根據(jù)動(dòng)作選擇策略模型和所述多維向量狀態(tài)確定智能體動(dòng)作。[0092]S263、通過智能體執(zhí)行所述智能體動(dòng)作,以根據(jù)智能體動(dòng)作執(zhí)行結(jié)果更新所述知識(shí)點(diǎn)推薦環(huán)境的狀態(tài),得到更新多維向量狀態(tài)。[0093]其中,智能體動(dòng)作執(zhí)行結(jié)果也即智能體動(dòng)作的執(zhí)行結(jié)果,可以作用于當(dāng)前的知識(shí)點(diǎn)推薦環(huán)境,從而使得知識(shí)點(diǎn)推薦環(huán)境更新當(dāng)前狀態(tài)。更新多維向量狀態(tài)可以是智能體執(zhí)行智能體動(dòng)作后對(duì)知識(shí)點(diǎn)推薦環(huán)境進(jìn)行更新后的狀態(tài)。[0094]S264、通過智能體接收所述知識(shí)點(diǎn)推薦環(huán)境根據(jù)所述更新多維向量狀態(tài)和所述智能體動(dòng)作確定的獎(jiǎng)勵(lì)值。[0095]S265、通過智能體根據(jù)所述獎(jiǎng)勵(lì)值、所述更新多維向量狀態(tài)和所述學(xué)習(xí)評(píng)價(jià)指標(biāo)確定更新智能體動(dòng)作。[0096]其中,所述學(xué)習(xí)評(píng)價(jià)指標(biāo)包括知識(shí)點(diǎn)掌握目標(biāo)以及獎(jiǎng)勵(lì)值的教學(xué)規(guī)律確定規(guī)則。[0097]其中,更新智能體動(dòng)作可以是智能體根據(jù)動(dòng)作選擇策略確定的新的動(dòng)作。知識(shí)點(diǎn)掌握目標(biāo)可以是在規(guī)定的演示期間內(nèi)盡快的讓目標(biāo)用戶掌握最多的知識(shí)點(diǎn)。教學(xué)規(guī)律確定規(guī)則可以是按照教學(xué)的規(guī)律或邏輯確定獎(jiǎng)勵(lì)值的規(guī)則。[0098]圖7是本發(fā)明實(shí)施例二提供的一種知識(shí)圖譜部分知識(shí)點(diǎn)之間關(guān)聯(lián)關(guān)系的效果示意圖。如圖7所示,以初中數(shù)學(xué)二次根式知識(shí)點(diǎn)學(xué)習(xí)為例具體說明,圖7所示的知識(shí)圖譜的列表為已構(gòu)建完成的知識(shí)圖譜中對(duì)二次根式相關(guān)的一部分納米級(jí)知識(shí)點(diǎn)之間的關(guān)聯(lián)關(guān)系。[0099]在圖7中,列表第三列為納米級(jí)知識(shí)點(diǎn)名稱,列表第二列為該知識(shí)點(diǎn)的標(biāo)記號(hào),列表第四列為該知識(shí)點(diǎn)的前置知識(shí)點(diǎn)標(biāo)記號(hào)。通常情況下,后續(xù)知識(shí)點(diǎn)的難度要比前置知識(shí)沒有掌握,則推薦前置知識(shí)點(diǎn)進(jìn)行學(xué)習(xí)更加合理,退薦后置知識(shí)點(diǎn)則是不合理的。以標(biāo)記為c090201的知識(shí)點(diǎn)舉例,其后續(xù)知識(shí)點(diǎn)包括:c090301,其前置知識(shí)點(diǎn)為c090203、c090204、c090103。在c090201的知識(shí)點(diǎn)學(xué)習(xí)優(yōu)秀后,智適應(yīng)學(xué)習(xí)系統(tǒng)推薦后續(xù)知識(shí)點(diǎn)c090301是符合教學(xué)規(guī)律的,但若c090201的知識(shí)點(diǎn)學(xué)習(xí)不佳,推薦后續(xù)知識(shí)點(diǎn)c090301就是違反教學(xué)規(guī)律的。因此,學(xué)習(xí)評(píng)價(jià)指標(biāo)具體可以根據(jù)知識(shí)點(diǎn)掌握目標(biāo)以及獎(jiǎng)勵(lì)值的教學(xué)規(guī)律確定規(guī)則來確定獎(jiǎng)勵(lì)值。當(dāng)推薦的知識(shí)點(diǎn)符合教學(xué)規(guī)律且目標(biāo)用戶掌握了知識(shí)點(diǎn)的情況下,可以給予一定獎(jiǎng)勵(lì);當(dāng)推薦的知識(shí)點(diǎn)違背教學(xué)規(guī)律和/或目標(biāo)用戶沒有掌握知識(shí)點(diǎn)的情況下,可以給予一定懲罰。[0100]S266、通過智能體判斷是否滿足強(qiáng)化學(xué)習(xí)模型的學(xué)習(xí)終止條件,若是,則執(zhí)行[0101]S267、終止強(qiáng)化學(xué)習(xí)過程,得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程。[0102]具體的,智能體與環(huán)境的交互過程包括智能體感知到的環(huán)境觀察、智能體動(dòng)作和環(huán)境反饋三個(gè)階段。其中,智能體感知到的環(huán)境觀察采用高維向量表征智能體對(duì)環(huán)境狀態(tài)的觀察結(jié)果,該高維向量可以包含從智能體發(fā)出的所獲取信息的集合。智能體動(dòng)作表示目標(biāo)用戶下一個(gè)要學(xué)習(xí)哪一個(gè)知識(shí)點(diǎn)。環(huán)境反饋指的是環(huán)境以數(shù)值回報(bào)的形式對(duì)智能體的反饋。在每個(gè)時(shí)間步t,智能體接收到環(huán)境的狀態(tài)信息S∈S,其中,S是可能狀態(tài)的集合,S表示t時(shí)刻的狀態(tài);基于此狀態(tài)智能體選擇一個(gè)動(dòng)作A∈A(S),其中,A(S.)是狀態(tài)S下所有動(dòng)作的集合,A表示t時(shí)刻的動(dòng)作。一個(gè)時(shí)間步之后,智能體接收一個(gè)數(shù)值的回報(bào)Rt+1(t+1時(shí)刻的回報(bào))∈R,作為此動(dòng)作的回報(bào),同時(shí)觀察到一個(gè)新的環(huán)境狀態(tài)St+1,由此進(jìn)入下一次交互的循環(huán)過程。[0103]可選的,智適應(yīng)學(xué)習(xí)演示系統(tǒng)中的決策模塊可以對(duì)智能體建立深度強(qiáng)化學(xué)習(xí)模型,設(shè)置智能體在環(huán)境中的狀態(tài)空間、智能體可決策的行為空間以及環(huán)境對(duì)智能體的行為獎(jiǎng)勵(lì)。[0104]智能體所欲規(guī)劃學(xué)習(xí)路徑的學(xué)習(xí)范圍中,每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)智適應(yīng)學(xué)習(xí)系統(tǒng)里的一個(gè)納米級(jí)知識(shí)點(diǎn),知識(shí)點(diǎn)之間的連接對(duì)應(yīng)智適應(yīng)學(xué)習(xí)系統(tǒng)里的知識(shí)點(diǎn)間的邏輯關(guān)系。智能體建立模型時(shí)可以從智適應(yīng)學(xué)習(xí)系統(tǒng)的狀態(tài)模塊獲得所需要的輸入,以實(shí)現(xiàn)環(huán)境的觀察:狀態(tài)可以取在目標(biāo)用戶的當(dāng)前學(xué)習(xí)水平對(duì)當(dāng)前知識(shí)點(diǎn)掌握的狀態(tài)作為觀測(cè)值,記作(學(xué)習(xí)[0105]具體地,每一個(gè)知識(shí)點(diǎn)可以具備目標(biāo)用戶掌握的狀態(tài)以及目標(biāo)學(xué)生的學(xué)習(xí)水平。過IRT得到的學(xué)生每個(gè)時(shí)刻的能力值所對(duì)應(yīng)的多個(gè)能力值區(qū)間,如學(xué)習(xí)優(yōu)秀(能力值0.7~1區(qū)間)、學(xué)習(xí)中等(能力值0.36~0.69區(qū)間)、學(xué)習(xí)不佳(能力值0.35~0區(qū)間)。操作用戶只能設(shè)定目標(biāo)學(xué)生初始的學(xué)習(xí)水平,目標(biāo)用戶一經(jīng)學(xué)習(xí)了一個(gè)知識(shí)點(diǎn),即根據(jù)目標(biāo)用戶在智適應(yīng)學(xué)習(xí)系統(tǒng)的能力值作為學(xué)習(xí)水平??紤]到目標(biāo)學(xué)生有可能會(huì)再重學(xué)之前能力值低的時(shí)候沒有掌握的知識(shí)點(diǎn),因此同一個(gè)目標(biāo)用戶在同一個(gè)知識(shí)點(diǎn)可能有多種學(xué)習(xí)水平狀態(tài)。[0106]可選的,對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí)時(shí)可以基于Q學(xué)習(xí)算法(Qlearning)。在Q學(xué)習(xí)算法框架下Q即為Q(s,a),表示在某一時(shí)刻的s狀態(tài)下(s∈S),采取動(dòng)a(a∈A)動(dòng)作能夠獲得收益的期望。知識(shí)點(diǎn)推薦環(huán)境會(huì)根據(jù)智能體的動(dòng)作反饋相應(yīng)的回報(bào)r。也就是說,包含一個(gè)智能體、一個(gè)狀態(tài)集S,表示它在環(huán)境中的狀態(tài)、以及在每個(gè)狀態(tài)可以執(zhí)行的動(dòng)作集A。智能體在起始狀態(tài)s,通過動(dòng)作選擇策略選擇并執(zhí)行一個(gè)動(dòng)作a,a∈A,具體是從目標(biāo)用戶對(duì)應(yīng)的學(xué)習(xí)范圍中隨機(jī)選擇一個(gè)知識(shí)點(diǎn),該知識(shí)點(diǎn)可以由自適應(yīng)引擎選擇,也可以由操作用戶選擇。在與環(huán)境的交互中,智能體會(huì)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)s',并且會(huì)得到環(huán)境的一個(gè)即時(shí)獎(jiǎng)賞r,根據(jù)更新規(guī)則修改Q值??梢岳斫獾氖牵乱?guī)則可以根據(jù)動(dòng)作選擇策略模型的不同以及具體學(xué)習(xí)算法的不同適應(yīng)性設(shè)定,本發(fā)明實(shí)施例對(duì)此并不進(jìn)行限制。智能體學(xué)習(xí)的目的是使從環(huán)境中獲得的累積獎(jiǎng)賞最大,即在每個(gè)狀態(tài)都執(zhí)行獲得獎(jiǎng)賞最大的[0107]Q(s,a)←Q(s,a)+a[r+γmax,Q(s′,=0,表示智能體學(xué)不到新的知識(shí);而α=1,則表示不儲(chǔ)存學(xué)到的知識(shí),全部用新的知識(shí)置換。γ表示折扣因子,折扣因子γ∈[0,1]代表智能體的遠(yuǎn)見,它的大小影響未來的動(dòng)作的預(yù)測(cè)回報(bào)所占的權(quán)重,γ趨近于0表示智能體只看重眼前動(dòng)作的回報(bào),往往會(huì)執(zhí)行使當(dāng)前即時(shí)獎(jiǎng)賞最大的行為;γ趨近于1時(shí)智能體會(huì)更多的考慮未來回報(bào);當(dāng)γ∈[0,1]時(shí)表示越靠前的動(dòng)作影響越大,而后面的動(dòng)作影響變小,甚至可以忽略。[0109]為了解決狀態(tài)空間過大(也就是維度災(zāi)難)的問題,可以通過用函數(shù)而不是Q表來表示Q(s,a)。也就是說對(duì)于給定狀態(tài)選取哪個(gè)動(dòng)作所能得到的Q值,可以由深度神經(jīng)網(wǎng)絡(luò)來[0112]其中,qπ(s,a狀態(tài)采取特定動(dòng)作的效果。E表示期望,G表示t時(shí)刻的折現(xiàn)收益,w表示權(quán)重,可利用機(jī)器學(xué)習(xí)算法里的有監(jiān)督學(xué)習(xí)算法(例如:線性回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等)求解,擬合出合適的函數(shù),對(duì)輸入的狀態(tài)提取特征作為輸入,通過蒙特卡洛法(MonteCarlo,MC)或者時(shí)間差分學(xué)習(xí)(TemporalDifference,TD)計(jì)算出值函數(shù)作為輸出,然后對(duì)函數(shù)參數(shù)進(jìn)行訓(xùn)練,直到收網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)。通過深度強(qiáng)化學(xué)習(xí)方法,即可以知道選取哪個(gè)動(dòng)作能使得未來得到的獎(jiǎng)勵(lì)之和最大。[0113]在環(huán)境反饋階段,可以采用離散的回報(bào)函數(shù)R(RewardFunction)作為學(xué)習(xí)評(píng)價(jià)指標(biāo)?;貓?bào)函數(shù)是環(huán)境對(duì)智能體信息反饋的重要要素之一,回報(bào)函數(shù)是要告訴智能體希望達(dá)到的目標(biāo),而不是怎樣達(dá)到目標(biāo)。回報(bào)函數(shù)的目標(biāo)可以是告訴智能體在演示期間內(nèi)盡快的讓目標(biāo)用戶掌握最多的知識(shí)點(diǎn),在每個(gè)時(shí)間步目標(biāo)用戶掌握知識(shí)點(diǎn)給獎(jiǎng)勵(lì),沒有掌握知識(shí)點(diǎn)做出一定的懲罰。同時(shí),回報(bào)函數(shù)的設(shè)計(jì)還需符合知識(shí)點(diǎn)學(xué)習(xí)順序的規(guī)律和邏輯性,考慮課程的多樣性與過程復(fù)雜性,違反教學(xué)規(guī)律的推薦會(huì)做出一定的懲罰。[0114]在一個(gè)可選的實(shí)施例中,在智適應(yīng)學(xué)習(xí)演示系統(tǒng)的單人交互模式,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以外接人機(jī)交互設(shè)備,可供人機(jī)交互使用的設(shè)備主要包括但不限于鍵盤、鼠標(biāo)、搖桿和各種模式識(shí)別設(shè)備(手勢(shì)識(shí)別、動(dòng)作識(shí)別及語音識(shí)別)等方式。圖8是本發(fā)明實(shí)施例二提供的一種單人交互模式的演示流程示意圖。如圖8所示,智適應(yīng)學(xué)習(xí)系統(tǒng)的知識(shí)點(diǎn)推薦模塊可以向推薦模塊的接口發(fā)送知識(shí)點(diǎn)數(shù)據(jù),并等待目標(biāo)用戶(簡稱用戶)反饋。用戶可以通過人機(jī)交互設(shè)備與智適應(yīng)學(xué)習(xí)演示系統(tǒng)互動(dòng),當(dāng)用戶反饋確認(rèn)該知識(shí)點(diǎn)學(xué)習(xí),智適應(yīng)學(xué)習(xí)演示系統(tǒng)繼續(xù)下一個(gè)流程,進(jìn)行知識(shí)點(diǎn)學(xué)習(xí)模擬。當(dāng)用戶反饋跳過該知識(shí)點(diǎn)學(xué)習(xí),返回到智適應(yīng)學(xué)習(xí)系統(tǒng)知識(shí)點(diǎn)推薦流程,智適應(yīng)學(xué)習(xí)系統(tǒng)推薦下一個(gè)知識(shí)點(diǎn),并再次等待用戶反饋。[0115]在一個(gè)可選的實(shí)施例中,在智適應(yīng)學(xué)習(xí)演示系統(tǒng)的多人交互模式,智能體與環(huán)境的交互過程不需要通過智適應(yīng)學(xué)習(xí)系統(tǒng)的知識(shí)點(diǎn)推薦模塊推薦模塊進(jìn)行目標(biāo)用戶知識(shí)點(diǎn)的推薦,而是接收由操作用戶選擇下一個(gè)知識(shí)點(diǎn)學(xué)習(xí)的動(dòng)作,成為下一個(gè)狀態(tài)。一個(gè)時(shí)間步之后,智能體接收一個(gè)數(shù)值的回報(bào)作為此動(dòng)作的結(jié)果,同時(shí)觀察到一個(gè)新的環(huán)境狀態(tài)S+1,由此進(jìn)入下一次交互的循環(huán)過程。在此模式下,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以演示智能體和操作用戶對(duì)推薦同一目標(biāo)用戶下一個(gè)知識(shí)點(diǎn)學(xué)習(xí)策略時(shí),兩種方式對(duì)其掌握知識(shí)點(diǎn)數(shù)的結(jié)果差異。[0116]S270、對(duì)所述路徑生成過程進(jìn)行直觀演示。[0117]相應(yīng)的,步驟S270具體可以包括下述操作:[0118]S271、確定所述路徑生成過程的演示狀態(tài)屬性。[0119]其中,演示狀態(tài)屬性可以是操作用戶通過學(xué)習(xí)路徑演示指令指定的演示屬性。[0120]在本發(fā)明實(shí)施例中,操作用戶還可以通過學(xué)習(xí)路徑演示指令指定演示狀態(tài)屬性。例如,操作用戶可以指定演示時(shí)長或演示的學(xué)習(xí)范圍等,本發(fā)明實(shí)施例對(duì)此并不進(jìn)行限制。相應(yīng)的,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以根據(jù)學(xué)習(xí)路徑演示指令確定路徑生成過程的演示狀態(tài)屬性。[0121]S272、根據(jù)所述演示狀態(tài)屬性對(duì)所述路徑生成過程進(jìn)行直觀演示。[0122]相應(yīng)的,智適應(yīng)學(xué)習(xí)演示系統(tǒng)根據(jù)學(xué)習(xí)路徑演示指令確定路徑生成過程的演示狀態(tài)屬性之后,即可根據(jù)操作用戶指定的演示方式對(duì)路徑生成過程進(jìn)行直觀演示。[0123]示例性的,演示狀態(tài)屬性為5分鐘演示時(shí)長時(shí),智適應(yīng)學(xué)習(xí)演示系統(tǒng)需要在5分鐘內(nèi)直觀演示在知識(shí)點(diǎn)掌握數(shù)最多的情況下,目標(biāo)用戶的完成的學(xué)習(xí)路徑的路徑生成過程。[0124]需要說明的是,智適應(yīng)學(xué)習(xí)演示系統(tǒng)可以在強(qiáng)化學(xué)習(xí)的過程中,每生成一個(gè)知識(shí)點(diǎn)內(nèi)容決策即可實(shí)時(shí)顯示,也可在強(qiáng)化學(xué)習(xí)結(jié)束后,統(tǒng)一按順序顯示完整的路徑生成過程,本發(fā)明實(shí)施例對(duì)此并不進(jìn)行限制。[0125]綜上所述,本發(fā)明實(shí)施例通過智適應(yīng)學(xué)習(xí)演示系統(tǒng)的智能體根據(jù)環(huán)境的狀態(tài)自動(dòng)決策,以使操作用戶能在規(guī)定的演示期間直觀了解智適應(yīng)學(xué)習(xí)系統(tǒng)動(dòng)態(tài)推薦知識(shí)點(diǎn)的決策過程和效果,豐富了智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示功能,提高了智適應(yīng)學(xué)習(xí)演示系統(tǒng)演示學(xué)習(xí)效果的直觀性和智能性。[0126]需要說明的是,以上各實(shí)施例中各技術(shù)特征之間的任意排列組合也屬于本發(fā)明的保護(hù)范圍。[0128]圖9是本發(fā)明實(shí)施例三提供的一種深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示裝置的示意圖,如圖9所示,所述裝置包括:學(xué)習(xí)路徑演示指令接收模塊310、化學(xué)習(xí)模塊330以及路徑生成過程演示模塊340,其中:[0129]學(xué)習(xí)路徑演示指令接收模塊310,用于接收目標(biāo)用戶的學(xué)習(xí)路徑演示指令;[0130]強(qiáng)化學(xué)習(xí)因素確定模塊320,用于根據(jù)所述學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的強(qiáng)化學(xué)習(xí)因素;其中,所述強(qiáng)化學(xué)習(xí)因素包括狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo);[0131]強(qiáng)化學(xué)習(xí)模塊330,用于響應(yīng)于所述學(xué)習(xí)路徑演示指令,根據(jù)所述強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程;[0132]路徑生成過程演示模塊340,用于對(duì)所述路徑生成過程進(jìn)行直觀演示。[0133]本發(fā)明實(shí)施例通過智適應(yīng)學(xué)習(xí)演示系統(tǒng)根據(jù)接收的學(xué)習(xí)路徑演示指令確定目標(biāo)用戶學(xué)習(xí)路徑的狀態(tài)空間、動(dòng)作空間和學(xué)習(xí)評(píng)價(jià)指標(biāo)等強(qiáng)化學(xué)習(xí)因素,以響應(yīng)于學(xué)習(xí)路徑演示指令,根據(jù)確定的強(qiáng)化學(xué)習(xí)因素對(duì)目標(biāo)用戶學(xué)習(xí)路徑進(jìn)行強(qiáng)化學(xué)習(xí),得到目標(biāo)用戶學(xué)習(xí)路徑的路徑生成過程,并對(duì)路徑生成過程進(jìn)行直觀演示,解決現(xiàn)有智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示效果較差的問題,豐富了智適應(yīng)學(xué)習(xí)演示系統(tǒng)對(duì)學(xué)習(xí)效果的演示功能,提高了智適應(yīng)學(xué)習(xí)演示系統(tǒng)演示學(xué)習(xí)效果的直觀性和智能性。[0134]可選的,強(qiáng)化學(xué)習(xí)因素確定模塊320具體用于:將智適應(yīng)學(xué)習(xí)系統(tǒng)確定為強(qiáng)化學(xué)習(xí)模型中的知識(shí)點(diǎn)推薦環(huán)境;根據(jù)所述學(xué)習(xí)路徑演示指令的類型確定所述狀態(tài)空間匹配的知識(shí)點(diǎn)推薦環(huán)境類型;根據(jù)學(xué)生用戶屬性、知識(shí)圖譜的知識(shí)點(diǎn)屬性、學(xué)情屬性以及演示屬性確定所述狀態(tài)空間;其中,所述學(xué)生用戶屬性包括目標(biāo)用戶的學(xué)習(xí)能力;所述知識(shí)圖譜的知識(shí)點(diǎn)屬性包括知識(shí)點(diǎn)間的邏輯關(guān)系、知識(shí)點(diǎn)考頻、知識(shí)點(diǎn)重要程度以及知識(shí)點(diǎn)難度;所述學(xué)情屬性包括知識(shí)點(diǎn)掌握狀態(tài);所述演示屬性包括知識(shí)點(diǎn)掌握數(shù)量、學(xué)習(xí)路徑演示時(shí)長或知識(shí)點(diǎn)學(xué)習(xí)范圍;根據(jù)目標(biāo)用戶的推薦學(xué)習(xí)知識(shí)點(diǎn)確定所述動(dòng)作空間。[0135]可選的,所述知識(shí)點(diǎn)推薦環(huán)境類型包括自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境和操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境中的至少一項(xiàng);所述自適應(yīng)引擎推薦知識(shí)點(diǎn)環(huán)境用于采用自適應(yīng)引擎向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境用于根據(jù)操作用戶的反饋信息向所述目標(biāo)用戶推薦知識(shí)點(diǎn);所述操作用戶包括第一操作用戶或第二操作用戶;所述第一操作用戶的反饋信息用于確認(rèn)是否接受自適應(yīng)引擎推薦的知識(shí)點(diǎn);所述第二操作用戶的反饋信息用于向所述目標(biāo)用戶自主推薦知識(shí)點(diǎn)。[0136]可選的,強(qiáng)化學(xué)習(xí)模塊330具體用于:通過強(qiáng)化學(xué)習(xí)模型中的智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài);通過智能體根據(jù)動(dòng)作選擇策略模型和所述多維向量狀態(tài)確定智能體動(dòng)作;通過智能體執(zhí)行所述智能體動(dòng)作,以根據(jù)智能體動(dòng)作執(zhí)行結(jié)果更新所述知識(shí)點(diǎn)推薦環(huán)境的狀態(tài),得到更新多維向量狀態(tài);通過智能體接收所述知識(shí)點(diǎn)推薦環(huán)境根據(jù)所述更新多維向量狀態(tài)和所述智能體動(dòng)作確定的獎(jiǎng)勵(lì)值;通過智能體根據(jù)所述獎(jiǎng)勵(lì)值、所述更新多維向量狀態(tài)和所述學(xué)習(xí)評(píng)價(jià)指標(biāo)確定更新智能體動(dòng)作;其中,所述學(xué)習(xí)評(píng)價(jià)指標(biāo)包括知識(shí)點(diǎn)掌握目標(biāo)以及獎(jiǎng)勵(lì)值的教學(xué)規(guī)律確定規(guī)則;通過智能體返回執(zhí)行通過所述智能體觀察知識(shí)點(diǎn)推薦環(huán)境得到多維向量狀態(tài)的操作,直至確定滿足強(qiáng)化學(xué)習(xí)模型的學(xué)習(xí)終止條習(xí)模塊330具體用于:通過所述智適應(yīng)學(xué)習(xí)系統(tǒng)的自適應(yīng)引擎根據(jù)知識(shí)點(diǎn)推薦算法確定自過智能體根據(jù)所述反饋推薦知識(shí)點(diǎn)確定所述操作用戶反饋推薦知識(shí)點(diǎn)環(huán)境的多維向量狀[0141]上述深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的深度[0142]由于上述所介紹的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示裝置為可以執(zhí)行本發(fā)明實(shí)施例習(xí)路徑演示裝置如何實(shí)現(xiàn)本發(fā)明實(shí)施例中的深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑演示方法不再詳細(xì)實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性電子設(shè)備12的框圖。圖10顯示的電子設(shè)備12僅僅是一個(gè)示括但不限于:一個(gè)或者多個(gè)處理器16,存儲(chǔ)器28,連接不同系統(tǒng)組件(包括存儲(chǔ)器28和處理[0146]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(IndustryStandardArchitecture,ISA)總線,微通道體系結(jié)構(gòu)(MicroChannelArchitecture,MCA)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VideoElectronicsStandardsAssociation,VESA)局域總線以及外圍組件互連(PeripheralComponentInterconnect,PCI)總線。[0147]電子設(shè)備12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被電子設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。[0148]存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(RandomAccessMemory,RAM)30和/或高速緩存存儲(chǔ)器32。電子設(shè)備12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)3410中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如只讀光盤(CompactDisc-ReadOnlyMemory,CD-ROM)、數(shù)字視盤(DigitalVideoDisc-ReadOnlyMemory,DVD-ROM)或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。[0149]具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。[0150]電子設(shè)備12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該電子設(shè)備12交互的設(shè)備通信,和/或與使得該電子設(shè)備12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(Input/Output,I/0)接口22進(jìn)行。并且,電子設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(LocalAreaNetwork,LAN),廣域網(wǎng)WideAreaNetwork,WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與電子設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖10中未示出,可以結(jié)合電子設(shè)備12使用其它硬件和/或軟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論