【《基于學(xué)生在學(xué)習(xí)平臺(tái)上的學(xué)生行為數(shù)據(jù)實(shí)現(xiàn)成績(jī)?cè)u(píng)估的系統(tǒng)設(shè)計(jì)》11000字】_第1頁(yè)
【《基于學(xué)生在學(xué)習(xí)平臺(tái)上的學(xué)生行為數(shù)據(jù)實(shí)現(xiàn)成績(jī)?cè)u(píng)估的系統(tǒng)設(shè)計(jì)》11000字】_第2頁(yè)
【《基于學(xué)生在學(xué)習(xí)平臺(tái)上的學(xué)生行為數(shù)據(jù)實(shí)現(xiàn)成績(jī)?cè)u(píng)估的系統(tǒng)設(shè)計(jì)》11000字】_第3頁(yè)
【《基于學(xué)生在學(xué)習(xí)平臺(tái)上的學(xué)生行為數(shù)據(jù)實(shí)現(xiàn)成績(jī)?cè)u(píng)估的系統(tǒng)設(shè)計(jì)》11000字】_第4頁(yè)
【《基于學(xué)生在學(xué)習(xí)平臺(tái)上的學(xué)生行為數(shù)據(jù)實(shí)現(xiàn)成績(jī)?cè)u(píng)估的系統(tǒng)設(shè)計(jì)》11000字】_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[10]??梢栽谄渲杏涗洿a,運(yùn)行代碼,查看結(jié)果,可視化數(shù)據(jù),方便應(yīng)用于數(shù)據(jù)處理,統(tǒng)計(jì)建模,構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型,可視化數(shù)據(jù)等許多其他用途。4.3基于Adaboost的成績(jī)預(yù)測(cè)4.3.1Adaboost的算法原理Adaboost是一種基于基本分類器,對(duì)弱分類器多次學(xué)習(xí),計(jì)算分類樣本的權(quán)值,然后通過(guò)錯(cuò)誤率或者迭代次數(shù)來(lái)集成強(qiáng)分類器的一個(gè)算法。Adaboost的實(shí)現(xiàn)過(guò)程:首先對(duì)學(xué)生學(xué)習(xí)的行為樣本進(jìn)行訓(xùn)練得到第一個(gè)分類器,第二步是將前一步錯(cuò)分的樣本和隨機(jī)生成新的樣本數(shù)據(jù)一起構(gòu)成訓(xùn)練數(shù)據(jù)進(jìn)行下一個(gè)分類器的學(xué)習(xí),以此類推,都是將前面錯(cuò)分的樣本與隨機(jī)生成的新樣本數(shù)據(jù)構(gòu)成新的訓(xùn)練數(shù)據(jù),進(jìn)行下一個(gè)分類器的學(xué)習(xí),直至樣本被正確分類或者達(dá)到最大的學(xué)習(xí)次數(shù),停止迭代,最終集成一個(gè)強(qiáng)學(xué)習(xí)器。4.3.2Adaboost的成績(jī)預(yù)測(cè)模型根據(jù)Adaboost原理,在使用該算法時(shí)需要選擇一個(gè)算法作為它的弱分類算法,然后才能進(jìn)行Adaboost構(gòu)建模型的多次迭代學(xué)習(xí)。在這里選擇默認(rèn)的經(jīng)典決策樹(shù)分類算法作為Adaboost算法的基本分類算法進(jìn)行建模。經(jīng)過(guò)特征工程對(duì)數(shù)據(jù)進(jìn)行前期的處理,滿足對(duì)輸入的要求。使用sklearn庫(kù)中AdaBoostClassifier算法進(jìn)行分類模型的建立,設(shè)置弱分類器為DecisionTreeClassifier算法,基于數(shù)據(jù)的信息熵來(lái)進(jìn)行分類,每個(gè)子節(jié)點(diǎn)最少包含5個(gè)訓(xùn)練樣本,以10為間隔,可視化展示每個(gè)弱分類器的預(yù)測(cè)準(zhǔn)確分?jǐn)?shù)。圖21弱分類器個(gè)數(shù)變化的模型得分分布圖從上圖可以看出以經(jīng)典決策樹(shù)為弱分類器的Adaboost算法,在弱分類器為5個(gè)之后,訓(xùn)練分?jǐn)?shù)得到最好的擬合效果,相對(duì)于測(cè)試集而言,弱分類器的個(gè)數(shù)達(dá)到20個(gè)以上預(yù)測(cè)得分趨于平緩,避免模型過(guò)擬合,設(shè)置Adaboost模型弱分類器的個(gè)數(shù)為50,然后進(jìn)行模型訓(xùn)練,得到樣本訓(xùn)練的各樣指標(biāo)。圖22模型指標(biāo)圖從上圖我們可以看到50個(gè)弱分類器的權(quán)重值,在弱分類器在50個(gè)以內(nèi),權(quán)重值范圍在2.9-6之間,存在一定的欠擬合和過(guò)擬合情況。50個(gè)分類器時(shí)測(cè)試集的錯(cuò)誤預(yù)測(cè)率為12.048%,因?yàn)橛?xùn)練集和測(cè)試集的分割點(diǎn)是隨機(jī)的,所以模型的每次擬合效果有一定的差別,但是預(yù)測(cè)錯(cuò)誤率始終在10%-15%之間,達(dá)到我們預(yù)期的效果。4.3.3Adaboost預(yù)測(cè)模型評(píng)估使用Adaboost算法最終生成的模型本質(zhì)上依然是一個(gè)分類模型,我們使用sklearn庫(kù)里的classification_report函數(shù)生成類指標(biāo)的文本報(bào)告,在報(bào)告中顯示每個(gè)類的精確度,召回率,F(xiàn)1值等信息。圖23模型指標(biāo)的文本報(bào)告圖24模型指標(biāo)的混淆矩陣我們可以從類文本報(bào)告和混淆矩陣中發(fā)現(xiàn),測(cè)試樣本中成績(jī)?yōu)锳類的錯(cuò)分2個(gè)樣本為B類,成績(jī)?yōu)锽類的錯(cuò)分3個(gè)樣本為C類,成績(jī)?yōu)镃類的樣本都有錯(cuò)分在其它三個(gè)成績(jī)中,說(shuō)明模型在對(duì)成績(jī)分類預(yù)測(cè)中,70分到90分之間的學(xué)生成績(jī)?nèi)菀妆诲e(cuò)分,在這個(gè)區(qū)間的學(xué)生行為數(shù)據(jù)的較為接近的,相似度較大分類不是很明顯,所以容易錯(cuò)分,說(shuō)明我們構(gòu)建的模型對(duì)于這個(gè)區(qū)間的學(xué)生成績(jī)預(yù)測(cè)準(zhǔn)確率有待較強(qiáng),后續(xù)需要更高的預(yù)測(cè)準(zhǔn)確度可以從這方面下手調(diào)整參數(shù)或者數(shù)據(jù)集。整個(gè)樣本中預(yù)測(cè)的精確度為87.95%,說(shuō)明數(shù)據(jù)特征值與標(biāo)簽值之間具有較強(qiáng)的關(guān)聯(lián)性,以及模型在一定程度上實(shí)現(xiàn)了對(duì)特征的區(qū)分。4.4總結(jié)與展望基于學(xué)生在LSN平臺(tái)上的學(xué)生行為數(shù)據(jù)實(shí)現(xiàn)成績(jī)?cè)u(píng)估是具有可行性的,而學(xué)生學(xué)習(xí)行為中比較能夠反映成績(jī)的主要特征是學(xué)生課程的各種作業(yè)和測(cè)驗(yàn)的提交得分以及實(shí)驗(yàn)機(jī)的操作。當(dāng)然,對(duì)于整個(gè)成績(jī)預(yù)測(cè)建模過(guò)程還必須正視的是,雖然只是使用了一種算法來(lái)構(gòu)建模型,沒(méi)有從廣度多研究比較各算法在成績(jī)預(yù)測(cè)分類的效果,但是Adaboost成績(jī)預(yù)測(cè)模型的效果也是比較優(yōu)化的,不足的是在數(shù)據(jù)預(yù)處理階段沒(méi)能很好的發(fā)現(xiàn)與挖掘更多與成績(jī)相關(guān)的屬性,這在一定程度上限制了對(duì)成績(jī)預(yù)測(cè)的準(zhǔn)確度。由于我的知識(shí)缺陷以及經(jīng)驗(yàn)過(guò)少,所以對(duì)于學(xué)習(xí)行為預(yù)測(cè)的模型實(shí)現(xiàn),只能說(shuō)是完成實(shí)驗(yàn)的最基礎(chǔ)階段,有機(jī)會(huì)的話希望我能深入研究,學(xué)習(xí)更多的數(shù)據(jù)挖掘知識(shí),探索更多未知的領(lǐng)域。參考文獻(xiàn):劉譞.基于學(xué)生行為的成績(jī)預(yù)測(cè)模型的研究與應(yīng)用[D].電子科技大學(xué),2017.張林紅,劉紅梅.基于一卡通數(shù)據(jù)分析的學(xué)生早餐習(xí)慣與成績(jī)關(guān)聯(lián)規(guī)則挖掘[J].阜陽(yáng)師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,(04):92-95+105.賀超凱,吳蒙.edX平臺(tái)教育大數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測(cè)[J].中國(guó)遠(yuǎn)程教育,2016(06):54-59.張英杰.基于Blackboard平臺(tái)的在線學(xué)習(xí)行為分析與預(yù)測(cè)[D].內(nèi)蒙古師范大學(xué),2017.郁晨.投資者情緒理論、度量及應(yīng)用研究綜述[D].金融評(píng)論,2017.范明,孟小峰.數(shù)據(jù)挖掘:概念與技術(shù)[M].機(jī)械工業(yè)出版社,2007.菅志剛,金旭.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2004,(07):117-118+157.劉宇主編;倪問(wèn)尹副主編;邊耐政主審.中國(guó)網(wǎng)絡(luò)文化發(fā)展二十年(1994-201

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論