版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
II第1章緒論11.1課題背景11.2目的和意義21.2.1課題目的21.2.2課題意義2第2章項(xiàng)目分析32.1功能性需求分析32.2非功能性需求分析32.3項(xiàng)目可行性分析42.3.1經(jīng)濟(jì)可行性42.3.2技術(shù)可行性52.3.3業(yè)務(wù)處理模型52.4項(xiàng)目需求分析52.5業(yè)務(wù)需求6本章小結(jié)6第3章數(shù)據(jù)模型設(shè)計(jì)73.1數(shù)據(jù)獲取83.2數(shù)據(jù)預(yù)處理 103.3數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)10本章小結(jié)11第4章數(shù)據(jù)分析124.1分析準(zhǔn)備144.1.1環(huán)境搭建144.1.2模型選擇164.2數(shù)據(jù)準(zhǔn)備154.3分析過(guò)程174.4輸入數(shù)據(jù)184.5輸出數(shù)據(jù)184.6分析結(jié)果19本章小結(jié)19第5章分析模型評(píng)估205.1模型測(cè)試的概念205.2軟件模型測(cè)試205.3模型測(cè)試計(jì)劃23本章小結(jié)23結(jié)論24致謝錯(cuò)誤!未定義書(shū)簽。參考文獻(xiàn)26附錄1譯文27附錄2英文參考資料29附錄3源程序核心代碼31PAGE23PAGE23第1章緒論1.1課題背景根據(jù)企業(yè)內(nèi)部和外部現(xiàn)有的基本數(shù)據(jù),企業(yè)利用信息技術(shù)使數(shù)據(jù)適應(yīng)所要解決的問(wèn)題,將數(shù)據(jù)納入數(shù)據(jù)庫(kù),并用適當(dāng)?shù)墓ぞ呒右蕴幚怼@迷诰€實(shí)時(shí)數(shù)據(jù)分析和檢索技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析,并向決策者提供已確定的潛在特征或預(yù)報(bào)模型,以支持決策進(jìn)程和實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。逐漸引進(jìn)綜合入學(xué)和培訓(xùn)系統(tǒng)是我們時(shí)代和社會(huì)發(fā)展的當(dāng)務(wù)之急,加強(qiáng)學(xué)科和職業(yè)之間的關(guān)系,社會(huì)對(duì)人才的需求越來(lái)越模糊,社會(huì)越來(lái)越要求培養(yǎng)人才。而具有豐富的基礎(chǔ)知識(shí)和多重技能的復(fù)合型人才已成為社會(huì)的普遍需要。申請(qǐng)人在大學(xué)入學(xué)之前不太了解具體學(xué)科,這就使得挑選申請(qǐng)人的工作復(fù)雜化,從而使它們難以獲得學(xué)科。我國(guó)許多大學(xué)進(jìn)行了自己的改革和創(chuàng)新,并試行了一種新的“大規(guī)?!比瞬胚x擇模式。這不僅使學(xué)生能夠進(jìn)入選擇所有學(xué)科,而且,我們可以建立一個(gè)以提高初級(jí)教育質(zhì)量為基礎(chǔ)的跨學(xué)科體系,為學(xué)校提供真正所需要的綜合型人才。在大類招生模式下,實(shí)現(xiàn)專業(yè)分流培養(yǎng)具有很大的意義。在當(dāng)今社會(huì)教育發(fā)展的背景下,許多高校已經(jīng)或即將開(kāi)始實(shí)施按類招生這一新型的模式內(nèi)容,例如上海交通大學(xué)、北京外國(guó)語(yǔ)大學(xué)等等。國(guó)內(nèi)部分雙一流的該校對(duì)此項(xiàng)改革的實(shí)施已達(dá)到初步試驗(yàn)階段,例如計(jì)算機(jī)科學(xué)與技術(shù)、物聯(lián)網(wǎng)、信息管理與信息系統(tǒng)等等專業(yè)統(tǒng)稱為計(jì)算機(jī)類。學(xué)生在入學(xué)前只需要按類選擇自己喜歡的類別,在經(jīng)過(guò)一段時(shí)間的基礎(chǔ)知識(shí)技能學(xué)習(xí)后,根據(jù)學(xué)習(xí)成績(jī)、個(gè)人志愿、專業(yè)排名選擇自己喜歡的專業(yè)。此項(xiàng)教育改革發(fā)展后有利于適當(dāng)調(diào)整學(xué)生選專業(yè)難、選專業(yè)迷茫的問(wèn)題。典型的數(shù)據(jù)分析工具將在構(gòu)造了數(shù)據(jù)倉(cāng)庫(kù)后產(chǎn)生結(jié)果,而這些結(jié)果獨(dú)立于在數(shù)據(jù)倉(cāng)庫(kù)上完成其他分析。還將產(chǎn)生預(yù)測(cè)和標(biāo)識(shí)關(guān)系,對(duì)就業(yè)數(shù)據(jù)統(tǒng)計(jì)分析起到了促進(jìn)的作用。數(shù)據(jù)庫(kù)分析服務(wù)(SSAS)即用戶利用可視化圖形界面實(shí)現(xiàn)數(shù)據(jù)導(dǎo)入與導(dǎo)出。在SSIS環(huán)境下,同時(shí)以IntegrationServices支持機(jī)器碼與托管程序代碼。Micorsoft的SQLserver集成了數(shù)據(jù)挖掘組分析服務(wù)器,利用數(shù)據(jù)挖掘作為挖掘工具,將整理好的數(shù)據(jù)資源輸入進(jìn)去,在經(jīng)過(guò)一系列的分析服務(wù)即可得到分析結(jié)果。1.2目的和意義在大類招生模式下,實(shí)現(xiàn)專業(yè)分流培養(yǎng)具有很大的意義。有利于提高學(xué)生的綜合素質(zhì)、創(chuàng)新能力、實(shí)踐能力的培養(yǎng),促進(jìn)學(xué)生全面提高。1.2.1課題目的大部分高校實(shí)行新型大類招生后,主要目標(biāo)是適應(yīng)高等教育新型人才培養(yǎng)的發(fā)展需求,這種招生模式正處于發(fā)展和積累經(jīng)驗(yàn)的時(shí)期。而成熟的制度還沒(méi)有形成,其發(fā)展和實(shí)施受到不同條件的限制。實(shí)現(xiàn)專業(yè)分流培養(yǎng)具有很大的意義。有利于提高學(xué)生的綜合素質(zhì)、創(chuàng)新能力、實(shí)踐能力的培養(yǎng),促進(jìn)學(xué)生全面發(fā)展提高。因此,我們應(yīng)該在學(xué)院的指導(dǎo)下積極創(chuàng)造條件,嘗試大類招生這種新型模式,逐步積累經(jīng)驗(yàn)。用聚類算法和回歸算法來(lái)實(shí)現(xiàn)專業(yè)推薦的內(nèi)容。預(yù)測(cè)的目的是從原始記憶中自動(dòng)獲取給定數(shù)據(jù)的擴(kuò)展描述,用來(lái)預(yù)測(cè)未來(lái)相關(guān)數(shù)據(jù)。分類輸出的是同類的類別屬性值?;貧w的結(jié)果輸出的是相關(guān)聯(lián)的值,聚類是一組個(gè)體相似性,可分為若干個(gè)不同的類別,即“物以類聚”。其目的是使屬于同一類的屬性值之間的相似度盡可能減小,分類課中的實(shí)例或數(shù)據(jù)對(duì)象與分類教師相比具有類別特征,而聚類實(shí)例沒(méi)有需要聚類學(xué)習(xí)算法自動(dòng)確定的特征。1.2.2課題意義為了學(xué)生能夠更容易的選擇專業(yè),推出了按大類招生的一種新型模式。學(xué)生對(duì)選擇的專業(yè)更貼切,更適合社會(huì)發(fā)展的需求。它們將在就業(yè)市場(chǎng)上更具競(jìng)爭(zhēng)力和優(yōu)越性。更能吊起從學(xué)校到專業(yè)選擇的積極性。實(shí)現(xiàn)專業(yè)分流培養(yǎng)具有很大的意義。有利于提高學(xué)生的綜合素質(zhì)、創(chuàng)新能力、實(shí)踐能力的培養(yǎng),促進(jìn)學(xué)生全面提高。加速實(shí)施一個(gè)大規(guī)模的人才培養(yǎng)單元,以實(shí)現(xiàn)以學(xué)生和教師為中心的教育目標(biāo)。為學(xué)生提供實(shí)時(shí)學(xué)習(xí)和激勵(lì)的主動(dòng)行動(dòng)。完善學(xué)院的教學(xué)管理機(jī)制,靈活和可變的教學(xué)管理,積極提倡以學(xué)生自主選擇教學(xué)內(nèi)容為中心的學(xué)分制度,根據(jù)主要入學(xué)所選擇的大類類別,大幅度減少了選擇專業(yè)困難的難題。許多專業(yè)被合并到一起招生,從而避免了招聘中長(zhǎng)期存在的不平衡現(xiàn)象,并在某種程度上協(xié)調(diào)了各學(xué)院之間的招生情況,為良好的教育工作管理奠定了基礎(chǔ)。
第2章項(xiàng)目分析項(xiàng)目分析即對(duì)功能性和非功能性需求進(jìn)行詳細(xì)分析的過(guò)程。典型的數(shù)據(jù)分析工具將在構(gòu)造了數(shù)據(jù)倉(cāng)庫(kù)后產(chǎn)生結(jié)果,而這些結(jié)果獨(dú)立于在數(shù)據(jù)倉(cāng)庫(kù)上完成其他分析。還將產(chǎn)生預(yù)測(cè)和標(biāo)識(shí)關(guān)系,對(duì)就業(yè)數(shù)據(jù)統(tǒng)計(jì)分析起到了促進(jìn)的作用。2.1功能性需求分析對(duì)高校學(xué)生就業(yè)數(shù)據(jù)進(jìn)行獲取、管理和分析。采用SSAS框架來(lái)代替?zhèn)鹘y(tǒng)的數(shù)據(jù)管理模式,結(jié)合AnalysisServices技術(shù)完成對(duì)數(shù)據(jù)的管理與更新,依據(jù)分析的數(shù)據(jù)得知專業(yè)推薦的結(jié)果,需求分析的主要內(nèi)容包括本課題用戶、數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的分析。(1)本課題用戶。主要是指即將進(jìn)行專業(yè)分流的學(xué)生,把學(xué)生成績(jī)以及個(gè)人志愿和獲獎(jiǎng)證書(shū)情況綜合管理,以聚類分析為分析工具得出結(jié)果預(yù)測(cè)圖,預(yù)測(cè)其可靠性。(2)數(shù)據(jù)的預(yù)處理。即對(duì)將復(fù)雜的、有噪音的、不規(guī)則的數(shù)據(jù)進(jìn)行清洗以實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確性和高效性。(3)數(shù)據(jù)的分析系統(tǒng)的設(shè)計(jì)實(shí)質(zhì)上是數(shù)據(jù)的分析,良好高效的數(shù)據(jù)分析能夠簡(jiǎn)化系統(tǒng)中的繁瑣問(wèn)題,降低問(wèn)題求解的復(fù)雜程度,便于使用者對(duì)所需要信息的管理與更新;同時(shí)系統(tǒng)的設(shè)計(jì)應(yīng)當(dāng)便于使用者的理解與使用。2.2非功能性需求分析系統(tǒng)非功能需求分析主要包括性能需求和安全需求,主要的內(nèi)容如下:(1)性能需求項(xiàng)目應(yīng)當(dāng)具有一定的自我免疫能力,即自我修復(fù)能力,當(dāng)數(shù)據(jù)發(fā)生部分錯(cuò)誤或者更改時(shí),系統(tǒng)能夠恢復(fù)備份中的數(shù)據(jù),并且將恢復(fù)的市場(chǎng)控制在2個(gè)小時(shí)之內(nèi);同時(shí)系統(tǒng)的響應(yīng)速度要快,如果用戶請(qǐng)求訪問(wèn)某一數(shù)據(jù)內(nèi)容,系統(tǒng)的響應(yīng)時(shí)間不應(yīng)超過(guò)0.5秒鐘;當(dāng)使用者并發(fā)執(zhí)行多項(xiàng)數(shù)據(jù)操作的時(shí)候,系統(tǒng)的響應(yīng)時(shí)間不應(yīng)高于1.5秒鐘;除此之外,系統(tǒng)應(yīng)當(dāng)能夠容納上萬(wàn)名使用者對(duì)系統(tǒng)的請(qǐng)求訪問(wèn)操作,保證這些使用者在一定的時(shí)間段內(nèi)可以同時(shí)地、正常地使用系統(tǒng),完成數(shù)據(jù)的管理與使用。(2)安全需求數(shù)據(jù)存儲(chǔ)安全:根據(jù)安全措施規(guī)劃和安排的數(shù)據(jù)內(nèi)容,配合技術(shù)協(xié)調(diào)發(fā)展,對(duì)安全保護(hù)加大投入,實(shí)現(xiàn)對(duì)處理業(yè)務(wù)數(shù)據(jù)的平臺(tái)保護(hù)。個(gè)人數(shù)據(jù)的保護(hù):必須在技術(shù)和監(jiān)管層面確保數(shù)據(jù)隱私的安全。操作系統(tǒng)安全:操作業(yè)務(wù)支持系統(tǒng)、督查系統(tǒng)、非內(nèi)部信息、決策支持系統(tǒng)、數(shù)據(jù)庫(kù)存儲(chǔ)安全系統(tǒng)等應(yīng)用系統(tǒng)的需求,充分貼切保障系統(tǒng)建設(shè)的安全需求。安全組織和管理:建立安全監(jiān)管體系和安全監(jiān)管組織,包括政策管理、建立安全管理平臺(tái)和安全評(píng)估。2.3項(xiàng)目可行性分析項(xiàng)目可行性分析即對(duì)經(jīng)濟(jì)可行性、技術(shù)可行性進(jìn)行研究。通過(guò)項(xiàng)目分析內(nèi)容的實(shí)現(xiàn),對(duì)數(shù)據(jù)模型設(shè)計(jì)和分析實(shí)現(xiàn)需求分析的準(zhǔn)備。2.4經(jīng)濟(jì)可行性經(jīng)濟(jì)可行性是指系統(tǒng)的設(shè)計(jì)是在高校的經(jīng)濟(jì)許可范圍內(nèi),不能夠超過(guò)學(xué)校的預(yù)支,在經(jīng)濟(jì)可行性的研究過(guò)程中,往往是由專業(yè)的經(jīng)濟(jì)技術(shù)人員進(jìn)行研究與測(cè)試,通過(guò)對(duì)文獻(xiàn)資料的查閱,獲取得到相關(guān)經(jīng)濟(jì)許可極限與實(shí)際經(jīng)濟(jì)收支,進(jìn)而得到精確地財(cái)務(wù)預(yù)判與支出,保證數(shù)據(jù)分析的實(shí)現(xiàn)不會(huì)超過(guò)學(xué)校的經(jīng)濟(jì)許可上限,因此滿足實(shí)際的經(jīng)濟(jì)可行性。整體數(shù)據(jù)分析的經(jīng)濟(jì)情況如表2-1所示。表2-1數(shù)據(jù)分析經(jīng)濟(jì)情況序號(hào)項(xiàng)目人工(人·日)單價(jià)(元)合計(jì)(元)1可行性研究101000100002需求分析201000200003總體設(shè)計(jì)201000200004數(shù)據(jù)預(yù)處理的詳細(xì)設(shè)計(jì)201000200005數(shù)據(jù)建模的詳細(xì)設(shè)計(jì)301000300006數(shù)據(jù)分析的詳細(xì)設(shè)計(jì)401000400007編碼實(shí)現(xiàn)301000300008合計(jì)1700002.3.2技術(shù)可行性Microsoft在SQLServer2005發(fā)展了DTS(數(shù)據(jù)轉(zhuǎn)換服務(wù)),通過(guò)DTS能將其他數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入SQLServer2014中,它包含用于組建調(diào)試和密封的圖形工具和向?qū)?,并提供用于調(diào)整數(shù)據(jù)、容器、轉(zhuǎn)換等工具,期望能使集成工具更加高效運(yùn)行。數(shù)據(jù)庫(kù)分析服務(wù)(SSAS)即用戶利用可視化圖形界面實(shí)現(xiàn)數(shù)據(jù)導(dǎo)入與導(dǎo)出。在SSIS環(huán)境下,同時(shí)以IntegrationServices支持機(jī)器碼與托管程序代碼。與分類算法不同的是,通過(guò)對(duì)不同樣本的相似性進(jìn)行分類分析是聚類分析的常見(jiàn)辦法。與訓(xùn)練數(shù)據(jù)集所要求的分類模型不相同,是以特定按類標(biāo)記的樣本集。而且在沒(méi)有分類標(biāo)記的數(shù)據(jù)上也可以搭建聚類關(guān)系模型,是一種無(wú)監(jiān)管的學(xué)習(xí)算法。2.3.3業(yè)務(wù)處理模型整個(gè)過(guò)程包括任務(wù)發(fā)現(xiàn)、數(shù)據(jù)檢索、數(shù)據(jù)清理、模型開(kāi)發(fā)、數(shù)據(jù)分析和結(jié)果生成。(1)任務(wù)發(fā)現(xiàn):通過(guò)與用戶的反復(fù)交流,可以清晰地理解要完成的任務(wù)。(2)數(shù)據(jù)檢驗(yàn):熟悉數(shù)據(jù)結(jié)構(gòu)的最根本數(shù)據(jù)量的重要性和不確定性,確定任務(wù)范圍內(nèi)的數(shù)據(jù)元素,確定數(shù)據(jù)元素和數(shù)據(jù)提取原則;并采用適當(dāng)?shù)姆椒ㄍ瓿蓪?duì)源數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)的檢索。同時(shí),對(duì)原始數(shù)據(jù)的分析有助于更清晰地確定挖掘的目標(biāo)。(3)數(shù)據(jù)清洗:把模擬得來(lái)的數(shù)據(jù)進(jìn)行清洗,以便適應(yīng)后續(xù)的數(shù)據(jù)處理模型,把后臺(tái)內(nèi)容、數(shù)據(jù)庫(kù)元數(shù)據(jù)及相關(guān)模型工具相結(jié)合,同時(shí)根據(jù)挖掘成果確定數(shù)據(jù)的具體清洗準(zhǔn)則。(4)模型開(kāi)發(fā):為模型選擇以及數(shù)據(jù)分析建初始值的挖掘模型。(5)數(shù)據(jù)分析:系統(tǒng)的中心環(huán)節(jié)內(nèi)容,包括對(duì)所選挖掘模型的詳細(xì)說(shuō)明和模型類別內(nèi)容及相關(guān)屬性值的確定。通過(guò)計(jì)算有關(guān)數(shù)據(jù)信息,測(cè)試出挖掘模型的相關(guān)聯(lián)參數(shù),確定模型的屬性值。檢查并評(píng)估領(lǐng)域模型。評(píng)價(jià)結(jié)果模擬出來(lái)后,挖掘模型需要得到進(jìn)一步的加工。如果有必要我們必須返回到模型開(kāi)始時(shí)來(lái)測(cè)試其他挖掘模型,并最終得到一個(gè)有效的領(lǐng)導(dǎo)模型。(6)結(jié)果生成:將數(shù)據(jù)分析結(jié)果可視化,挖掘結(jié)果可以采用文檔、圖形、報(bào)表等形式。圖2-1以用戶為中心的處理模型2.4項(xiàng)目需求分析建模、培訓(xùn)和測(cè)試過(guò)程是建立應(yīng)用程序的最重要的部分,應(yīng)用程序的開(kāi)發(fā)是一個(gè)簡(jiǎn)單的編程過(guò)程。2.4.1業(yè)務(wù)需求數(shù)據(jù)儲(chǔ)存庫(kù)中的數(shù)據(jù)應(yīng)在數(shù)據(jù)挖掘模型開(kāi)發(fā)之前收集和清洗。MicrosoftSQLServer服務(wù)器可以顯示或分析多變量數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)和多維數(shù)據(jù)。最佳人選是一個(gè)有商業(yè)和技術(shù)技能的人。該模型的開(kāi)發(fā)將受益于其統(tǒng)計(jì)背景,了解重要的業(yè)務(wù)問(wèn)題,對(duì)數(shù)據(jù)和關(guān)系有極大的興趣,并能夠使用MicrosoftSQLserver工具來(lái)處理和存儲(chǔ)數(shù)據(jù)。用戶應(yīng)該創(chuàng)建兩個(gè)記錄:一個(gè)用于模型的開(kāi)發(fā),另一個(gè)用于檢查模型的準(zhǔn)確性,可以從中選擇最適合業(yè)務(wù)問(wèn)題的模型。在創(chuàng)建和檢測(cè)原型之后,可以搭建和檢測(cè)當(dāng)前的數(shù)據(jù)挖掘模型是否符合挖掘模型的標(biāo)準(zhǔn)。在將數(shù)據(jù)內(nèi)容輸入數(shù)據(jù)挖掘模型之前,如果有需要應(yīng)該轉(zhuǎn)換以實(shí)現(xiàn)這些步驟內(nèi)容。2.4.2數(shù)據(jù)要求項(xiàng)目需求分析主要從學(xué)生成績(jī)、專業(yè)排名情況、專業(yè)設(shè)置人數(shù)限制進(jìn)行統(tǒng)計(jì)數(shù)據(jù)。用戶可以搜索了解數(shù)據(jù)與企業(yè)關(guān)系的模型,并利用這些信息,在MicrosoftSQLserver中,最重要的數(shù)據(jù)挖掘功能是處理大型數(shù)據(jù)集的能力創(chuàng)建一個(gè)有效的隨機(jī)樣本并運(yùn)行隨機(jī)樣本的數(shù)據(jù)挖掘應(yīng)用程序。MicrosoftSQLServer允許模型在整個(gè)數(shù)據(jù)集上運(yùn)行,從而消除了采樣挑戰(zhàn),這意味著該算法對(duì)所有數(shù)據(jù)都有效,不需要?jiǎng)?chuàng)建示例集,從而提高最相似的結(jié)果。本章小結(jié)本章首先介紹以用戶為中心的處理模型,在開(kāi)發(fā)數(shù)據(jù)挖掘系統(tǒng)時(shí)特別強(qiáng)調(diào)對(duì)用戶與數(shù)據(jù)庫(kù)的交互的支持,整合了整個(gè)分析理論中各個(gè)環(huán)節(jié)的需求,為后期數(shù)據(jù)挖掘和分析奠定了基礎(chǔ)。第3章數(shù)據(jù)模型設(shè)計(jì)3.1數(shù)據(jù)獲取在數(shù)據(jù)獲取階段,首先要模擬三個(gè)數(shù)據(jù)表結(jié)構(gòu),即錄取專業(yè)信息表、專業(yè)就業(yè)數(shù)據(jù)統(tǒng)計(jì)表、專業(yè)設(shè)置表。獲取某實(shí)施大類招生的學(xué)生成績(jī)信息,通過(guò)綜合整理提取對(duì)大類招生的專業(yè)推薦有價(jià)值的字段。專業(yè)數(shù)據(jù)排名如圖3-1所示。圖3-1專業(yè)數(shù)據(jù)排名數(shù)據(jù)來(lái)源:麥可思-中國(guó)2016~2018屆大學(xué)畢業(yè)生培養(yǎng)質(zhì)量跟蹤評(píng)價(jià)。其中綠牌專業(yè)指的是失業(yè)量較小,就業(yè)率、薪資和就業(yè)滿意度綜合較高的專業(yè),為需求增長(zhǎng)型專業(yè),行業(yè)需求增長(zhǎng)是造就綠牌專業(yè)的主要因素[16]。表3-1專業(yè)就業(yè)數(shù)據(jù)統(tǒng)計(jì)表排名專業(yè)專業(yè)大類1軟件工程工學(xué)2機(jī)械設(shè)計(jì)制造及其自動(dòng)化工學(xué)3電子工程及其自動(dòng)化工學(xué)4電子信息工程工學(xué)5計(jì)算機(jī)科學(xué)與技術(shù)工學(xué)6網(wǎng)絡(luò)工程工學(xué)7自動(dòng)化工學(xué)8建筑學(xué)工學(xué)9車輛工程工學(xué)10土木工程工學(xué)數(shù)據(jù)來(lái)源大學(xué)生必備網(wǎng),數(shù)據(jù)分析時(shí)間2019年6月21日[17]。表3-2專業(yè)設(shè)置表專業(yè)名稱學(xué)生數(shù)教師人數(shù)物聯(lián)網(wǎng)工程493網(wǎng)絡(luò)工程906數(shù)字媒體技術(shù)406軟件工程947計(jì)算機(jī)科學(xué)與技術(shù)936依據(jù)圖3-1專業(yè)數(shù)據(jù)排名、表3-1專業(yè)就業(yè)數(shù)據(jù)統(tǒng)計(jì)表、表3-2專業(yè)設(shè)置表,構(gòu)建專業(yè)就業(yè)數(shù)據(jù)統(tǒng)計(jì)表,如表3-3所示。表3-3專業(yè)就業(yè)數(shù)據(jù)統(tǒng)計(jì)表專業(yè)排名(編號(hào))專業(yè)專業(yè)類別1軟件工程計(jì)算機(jī)類2網(wǎng)絡(luò)工程計(jì)算機(jī)類3物聯(lián)網(wǎng)工程計(jì)算機(jī)類4數(shù)字媒體技術(shù)計(jì)算機(jī)類5計(jì)算機(jī)科學(xué)與技術(shù)計(jì)算機(jī)類3.2數(shù)據(jù)預(yù)處理數(shù)據(jù)處理是一個(gè)重要的步驟,可以通過(guò)數(shù)據(jù)轉(zhuǎn)換或數(shù)據(jù)格式的簡(jiǎn)化來(lái)組織數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。模擬來(lái)的數(shù)據(jù)是復(fù)雜的、由于所收集的數(shù)據(jù)包含大量的噪音,不完整的數(shù)據(jù),相對(duì)于其他數(shù)據(jù)來(lái)說(shuō)采集來(lái)的數(shù)據(jù)不完整,無(wú)法以此為前提為數(shù)據(jù)挖掘模型做準(zhǔn)備,因此必須對(duì)數(shù)據(jù)對(duì)象進(jìn)行預(yù)處理,這些在數(shù)據(jù)分析研究中提到的。在打開(kāi)項(xiàng)目之前,必須清楚地確定其性質(zhì)。雖然最后的挖掘結(jié)果是無(wú)法量化的,挖掘工作的最終結(jié)果是不可預(yù)知的,但是數(shù)據(jù)定位理論是數(shù)據(jù)分析和挖掘的基礎(chǔ)。相對(duì)于來(lái)說(shuō)數(shù)據(jù)提取算法的結(jié)果是不正確的。數(shù)據(jù)轉(zhuǎn)換根據(jù)理解分析數(shù)據(jù)屬性的需要構(gòu)造新的屬性,或者規(guī)范化數(shù)據(jù)以在特定的數(shù)據(jù)間隔內(nèi)刪除它們。選擇和排序進(jìn)入數(shù)據(jù)挖掘階段,通過(guò)建立一個(gè)數(shù)據(jù)挖掘模型,并實(shí)現(xiàn)一個(gè)完整的知識(shí)形成的相應(yīng)算法,一部分?jǐn)?shù)據(jù)被用來(lái)建立模型,其余的數(shù)據(jù)被用來(lái)分析模型,有些是分散的,有些是連接的,有些是混雜的,所以有些數(shù)據(jù)在分類前需要進(jìn)行預(yù)處理。數(shù)據(jù)處理方法:缺少值處理、清理記錄、補(bǔ)償數(shù)據(jù)差異、不處理。鑒于源數(shù)據(jù).xls類型,根據(jù)數(shù)據(jù)預(yù)處理需求,數(shù)據(jù)處理主要都在Excel中完成,具體步驟如下:刪除不相關(guān)的列:將學(xué)制、上課院次、班級(jí)名稱、課程性質(zhì)、課程屬性、學(xué)時(shí)、學(xué)制、學(xué)分、備注列等都刪去。添加替換列:添加列:錄取專業(yè)、志愿一、志愿二、是否有證書(shū)。(1)錄取專業(yè):錄取到哪一個(gè)專業(yè),用專業(yè)代號(hào)1-5替換。(2)志愿一:在Excel表中按1-5排名值填充,可參與分類計(jì)算。(3)志愿二:在Excel表中按1-5排名值填充,可參與分類計(jì)算。(4)是否有證書(shū):1代表有證書(shū),0代表沒(méi)有證書(shū)。3.3數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)以學(xué)號(hào)、學(xué)分績(jī)點(diǎn)、錄取專業(yè)、專業(yè)排名為主要字段;加之以結(jié)合學(xué)生志愿進(jìn)行數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)。專業(yè)排名表經(jīng)過(guò)預(yù)處理之后的數(shù)據(jù)結(jié)構(gòu)表如表3-4所示。表3-4數(shù)據(jù)表結(jié)構(gòu)字段類型描述約束條件能否取空值學(xué)號(hào)Char區(qū)分學(xué)生屬性Null否性別Int區(qū)分性別Null否序號(hào)Int序號(hào)屬性Null否學(xué)分績(jī)點(diǎn)Char學(xué)生成績(jī)Null否錄取專業(yè)Varchar專業(yè)分析Null否志愿一Int個(gè)人志愿一Null否志愿二Int個(gè)人志愿二Null否是否有證書(shū)Varchar有證書(shū)為1沒(méi)有0Null否本章小結(jié)本章介紹了數(shù)據(jù)采集和預(yù)處理的過(guò)程,從完整性和準(zhǔn)確性兩個(gè)方面來(lái)講,經(jīng)過(guò)清洗后的數(shù)據(jù)更具有準(zhǔn)確性,通過(guò)聚類算法的實(shí)現(xiàn)能更清楚的顯示出數(shù)據(jù)分析實(shí)現(xiàn)的過(guò)程以及分類的規(guī)范性。第4章數(shù)據(jù)分析數(shù)據(jù)分析過(guò)程是本項(xiàng)目的關(guān)鍵環(huán)節(jié)。理順?lè)治鏊悸罚WC數(shù)據(jù)分析體系結(jié)構(gòu)化。本章內(nèi)容實(shí)現(xiàn)了聚類算法的全過(guò)程,包括構(gòu)造數(shù)據(jù)訓(xùn)練集及測(cè)試集的輸出。4.1分析準(zhǔn)備分類問(wèn)題是一個(gè)普遍存在的問(wèn)題,其應(yīng)用具有普遍性。4.1.1環(huán)境搭建1.環(huán)境搭建的第一步是在在visioalstdio下創(chuàng)建新的分析項(xiàng)目,連接所需要的數(shù)據(jù)庫(kù)并建立新的分析服務(wù)項(xiàng)目,建立新項(xiàng)目后,應(yīng)建立數(shù)據(jù)源并將其連接到源數(shù)據(jù)庫(kù)。環(huán)境搭建界面分別如圖4-1、4-2所示。圖4-1創(chuàng)建數(shù)據(jù)源視圖圖4-2AnalysisServices啟動(dòng)界面打開(kāi)SQLServer服務(wù)器代理,將導(dǎo)入的數(shù)據(jù)源MicrosoftExcel表與創(chuàng)建分析服務(wù)數(shù)據(jù)庫(kù)表mydb服務(wù)器進(jìn)行連接,連接好的模型實(shí)現(xiàn)數(shù)據(jù)分析的服務(wù)。數(shù)據(jù)庫(kù)連接表如表4-3所示。圖4-3數(shù)據(jù)庫(kù)連接表4.1.2模型選擇(1)聚類通過(guò)找到使背概率p(X|Y)最大的Y類來(lái)對(duì)測(cè)試數(shù)據(jù)集X進(jìn)行分類。分類算法實(shí)現(xiàn)過(guò)程如圖4-4所示。圖4-4分類算法實(shí)現(xiàn)過(guò)程(2)預(yù)測(cè)預(yù)測(cè)是指根據(jù)兩個(gè)或多個(gè)變量之間的相互依賴關(guān)系,然后進(jìn)行估計(jì)或掌控的函數(shù)模型。實(shí)施程序本項(xiàng)目主要用了決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯、聚類分析模型進(jìn)行專業(yè)推薦。根據(jù)各分類方法的結(jié)果對(duì)比,確定使用聚類模型進(jìn)行分類預(yù)測(cè)。SSAS挖掘模型列表如圖4-5所示圖4-5SSAS挖掘模型預(yù)測(cè)模型的實(shí)現(xiàn):第一步是通過(guò)訓(xùn)練集建立預(yù)測(cè)屬性的函數(shù)模型,第二步在模型通過(guò)檢驗(yàn)后進(jìn)行預(yù)測(cè)和控制。分類模型實(shí)現(xiàn)過(guò)程如圖4-6所示。圖4-6分類模型實(shí)現(xiàn)過(guò)程4.2數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備主要包括:數(shù)據(jù)降維、數(shù)據(jù)規(guī)約、數(shù)據(jù)清洗、文本清洗、數(shù)據(jù)離散化。(1)打開(kāi)對(duì)象資源控制器,新建立一個(gè)名為mydb的數(shù)據(jù)庫(kù),將模擬好的數(shù)據(jù)導(dǎo)入該數(shù)據(jù)庫(kù)表中。準(zhǔn)備mydb數(shù)據(jù)庫(kù)如圖4-7所示。圖4-7準(zhǔn)備mydb數(shù)據(jù)庫(kù)(2)以MicrosoftExcel表形式存儲(chǔ)數(shù)據(jù),window7操作系統(tǒng)Excel表形式97-2003。SQLServer2008導(dǎo)入和導(dǎo)出如圖4-8所示。圖4-8SQLServer導(dǎo)入和導(dǎo)出4.3分析過(guò)程分類問(wèn)題是一個(gè)普遍存在的問(wèn)題,其應(yīng)用具有普通性。(1)由于專業(yè)推薦是二分類,所以首選為聚類分類模型,其次為了對(duì)比預(yù)測(cè)結(jié)果的準(zhǔn)確性,對(duì)于同一數(shù)據(jù)源應(yīng)用其他的挖掘模型進(jìn)行分類預(yù)測(cè)。創(chuàng)建聚類分析的挖掘服務(wù)如圖4-9所示。圖4-9創(chuàng)建聚類分析的挖掘服務(wù)(2)打開(kāi)解決目標(biāo)內(nèi)容,進(jìn)入到“數(shù)據(jù)源視圖”模板,分析將要預(yù)測(cè)的就業(yè)數(shù)據(jù)信息。創(chuàng)建數(shù)據(jù)源視圖如圖4-10所示。圖4-10創(chuàng)建數(shù)據(jù)源視圖(3)在接收到數(shù)據(jù)內(nèi)容后,我們必須將數(shù)據(jù)集分為70:30的訓(xùn)練集和測(cè)試集進(jìn)行相應(yīng)的測(cè)試和估量,創(chuàng)建一個(gè)測(cè)試集如圖4-11所示。圖4-11創(chuàng)建測(cè)試集4.4輸入數(shù)據(jù)以學(xué)號(hào)為主鍵,姓名、學(xué)分績(jī)點(diǎn)、是否有證書(shū)、志愿一、志愿二為輸入數(shù)據(jù),錄取專業(yè)為可預(yù)測(cè)數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)的輸入。輸入制定數(shù)據(jù)如圖4-12所示。圖4-12指定輸入數(shù)據(jù)4.5輸出數(shù)據(jù)輸出數(shù)據(jù)挖掘分類矩陣模型,輸出數(shù)據(jù)如圖4-13所示。圖4-13輸出數(shù)據(jù)4.6分析結(jié)果以SQLServer2008分析服務(wù)為分析工具,任何支持將AnalysisServices作為數(shù)據(jù)源的BI工具都可以訪問(wèn)其SSAS作為數(shù)據(jù)輸入、分析和預(yù)測(cè)的基本框架。由數(shù)據(jù)挖掘提升圖分析可以看出,專業(yè)分流統(tǒng)計(jì)和理想模型之間相關(guān)聯(lián)性趨于吻合,故適用于聚類分析方法。分析結(jié)果如圖4-14所示。圖4-14分析結(jié)果本章小結(jié)本章實(shí)現(xiàn)了數(shù)據(jù)分析的全過(guò)程,包括數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)輸入、輸出以及分析結(jié)果實(shí)現(xiàn)。根據(jù)學(xué)生成績(jī)和學(xué)生個(gè)人志愿推薦適合的專業(yè),以實(shí)現(xiàn)專業(yè)分流的目標(biāo)。第5章分析模型評(píng)估本章說(shuō)明了對(duì)分析模型評(píng)估的檢測(cè),將依據(jù)預(yù)測(cè)值與預(yù)測(cè)的可信度排序,選擇最好的模型,根據(jù)模型圖顯示模型的預(yù)測(cè)結(jié)果,然后根據(jù)預(yù)測(cè)模型的可信度進(jìn)行特定值處理或指定可信度范圍。5.1模型測(cè)試的概念模型測(cè)試是在分析模型中對(duì)模型實(shí)現(xiàn)分類比較的過(guò)程。以檢測(cè)模型是否能夠更好地分類,衡量模型的性能,并評(píng)價(jià)其是否能滿足分類設(shè)計(jì)要求的過(guò)程。軟件測(cè)試是指通過(guò)人工或測(cè)試程序?qū)浖到y(tǒng)進(jìn)行實(shí)施操作或測(cè)試的過(guò)程。必須核實(shí)其是否符合規(guī)定的要求,或確定預(yù)期結(jié)果與實(shí)際結(jié)果之間的差異。1.決策樹(shù)(Decisiontree)該算法測(cè)試記錄中輸入列之間的關(guān)系。它使用這些列的值或性能來(lái)預(yù)測(cè)指定可預(yù)測(cè)列之間的關(guān)系。2.貝葉斯兩個(gè)對(duì)立狀態(tài)的簡(jiǎn)單計(jì)算是基于原始屬性值,而不考慮原始屬性值之間的關(guān)系。5.2模型測(cè)試將軟件系統(tǒng)看成是一個(gè)系統(tǒng)的測(cè)試。包括對(duì)數(shù)據(jù)建模、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析各分析結(jié)構(gòu)的測(cè)試。由建模過(guò)程會(huì)得出一系列的分析結(jié)果。測(cè)試計(jì)劃進(jìn)度表如表5-1所示。表5-1測(cè)試計(jì)劃進(jìn)度表序號(hào)測(cè)試活動(dòng)計(jì)劃開(kāi)始時(shí)間計(jì)劃結(jié)束時(shí)間實(shí)施者1制定測(cè)試計(jì)劃2019.11.112019.11.12孫雪2編寫(xiě)測(cè)試用例2019.11.142019.11.15孫雪3選用測(cè)試用例2019.11.162019.11.17孫雪4系統(tǒng)測(cè)試2019.11.172019.11.19孫雪5生成測(cè)試結(jié)果表2019.11.202019.11.20孫雪提升圖是比較每一個(gè)模型的百分比與總體數(shù)據(jù)準(zhǔn)確度的百分比。提升圖會(huì)比較每一個(gè)模型的預(yù)測(cè)準(zhǔn)確度。提升計(jì)算:(在模型中的準(zhǔn)確度/在模型中的筆數(shù))/(總準(zhǔn)確度/總筆數(shù))×100%一個(gè)好的模型,提升應(yīng)該在左邊1.0要有好的起點(diǎn),剩下的向右邊高原上移動(dòng),然后在圖形的右邊向1.0迅速減弱。若模塊沒(méi)有提供任何消息,整個(gè)圖會(huì)徘徊在1.0之間。當(dāng)選擇一個(gè)離散型的目標(biāo)變量并指定一個(gè)目標(biāo)值,則會(huì)得到標(biāo)準(zhǔn)的提升圖,包含一條理想的預(yù)測(cè)正確曲線、一條隨機(jī)猜測(cè)會(huì)得到的正確曲線,以及一條通過(guò)模型預(yù)測(cè)后可得到的正確曲線。(1)貝葉斯算法是在不考慮原始屬性值之間關(guān)系的情況下,利用原始屬性值計(jì)算兩個(gè)相反的狀態(tài),導(dǎo)致其預(yù)測(cè)結(jié)果的狹窄性,不能實(shí)時(shí)預(yù)測(cè)分散或連接的值,但是只有二進(jìn)制值,貝葉斯分類算法被用來(lái)測(cè)試數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性,分類效果不明顯。貝葉斯挖掘結(jié)構(gòu)提升圖如圖5-1所示。圖5-1貝葉斯挖
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025乳房再造加速康復(fù)外科中國(guó)專家共識(shí)(2022版)解讀課件
- 返鄉(xiāng)學(xué)生網(wǎng)絡(luò)安全培訓(xùn)課件
- 施工沖刺階段保通方案
- 車險(xiǎn)培訓(xùn)課件制作
- 車隊(duì)安全駕駛培訓(xùn)記錄課件
- 某醫(yī)藥?kù)o脈輸液知識(shí)試題含答案
- 車間領(lǐng)班安全培訓(xùn)課件
- 酒店客房用品更換與補(bǔ)給制度
- 酒店消防安全巡查制度
- 2025年八級(jí)班主任工作總結(jié)(2篇)
- 1輸變電工程施工質(zhì)量驗(yàn)收統(tǒng)一表式(線路工程)-2024年版
- 陜西省建筑場(chǎng)地墓坑探查與處理技術(shù)規(guī)程
- 2022-2023學(xué)年四川省樂(lè)山市市中區(qū)外研版(三起)六年級(jí)上冊(cè)期末測(cè)試英語(yǔ)試卷(含聽(tīng)力音頻)
- 滕州菜煎餅創(chuàng)新創(chuàng)業(yè)計(jì)劃書(shū)
- 2024北京朝陽(yáng)區(qū)初一(上)期末道法試卷及答案
- 假體隆胸后查房課件
- 送貨單格式模板
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、異丙醇和正丁醇檢驗(yàn)
- 關(guān)于地方儲(chǔ)備糧輪換業(yè)務(wù)會(huì)計(jì)核算處理辦法的探討
- 上海農(nóng)貿(mào)場(chǎng)病媒生物防制工作標(biāo)準(zhǔn)
- YY 0334-2002硅橡膠外科植入物通用要求
評(píng)論
0/150
提交評(píng)論