版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目錄一.背景4數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢(shì)4建設(shè)的必要性51.11.2二.設(shè)計(jì)理念及目標(biāo)5設(shè)計(jì)理念5建設(shè)目標(biāo)與特色6建設(shè)目標(biāo)6特色72.12.22.2.12.2.2三.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)建設(shè)方案8基礎(chǔ)環(huán)境建設(shè)8IT 環(huán)境建設(shè)8網(wǎng)絡(luò)環(huán)境建設(shè)93.2實(shí)驗(yàn)功能9用戶管理功能10實(shí)驗(yàn)管理功能10課件資源管理功能11實(shí)驗(yàn)加載功能12管理功能133.2.5Hadoop 管理功能14部署方式簡(jiǎn)易15科研創(chuàng)新支撐153.3實(shí)訓(xùn)特色16四.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)課程內(nèi)容17EXCEL 數(shù)據(jù)處理20統(tǒng)計(jì)與建模方法演示20數(shù)據(jù)挖掘方法演示21SAS 編程基礎(chǔ)22R 語(yǔ)言編程基礎(chǔ)23數(shù)據(jù)庫(kù)操作234
2、.64.7JAVA 數(shù)據(jù)爬取24- II -EXCEL 高級(jí)編程25SAS 統(tǒng)計(jì)與建模26SAS 數(shù)據(jù)挖掘27R 語(yǔ)言統(tǒng)計(jì)與建模28R 語(yǔ)言數(shù)據(jù)挖掘29HADOOP 大數(shù)據(jù)分析30JAVA 自然語(yǔ)言處理31SAS 數(shù)據(jù)分析綜合應(yīng)用32R 語(yǔ)言數(shù)據(jù)分析綜合應(yīng)用32大數(shù)據(jù)分析綜合應(yīng)用33實(shí)驗(yàn)列表344.84.94.104.114.124.134.144.154.164.174.18五.建設(shè)優(yōu)勢(shì)36方案優(yōu)勢(shì)36技術(shù)優(yōu)勢(shì)375.15.2六.技術(shù)服務(wù)37售前技術(shù)服務(wù)38技術(shù)培訓(xùn)38售后技術(shù)服務(wù)386.16.26.3七.設(shè)備.39- III -一.背景1.1 數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢(shì)移動(dòng)互聯(lián)
3、網(wǎng)、電子商務(wù)以及社交的快速發(fā)展使得企業(yè)需要的數(shù)據(jù)量成指數(shù)增長(zhǎng)。根據(jù) IDC 數(shù)字宇宙(Digitaiverse)顯示,2020 年全球新建和的信息量已經(jīng)超過(guò) 40ZB,是 2012 年的 12 倍;而中國(guó)的數(shù)據(jù)量則會(huì)在 2020 年超過(guò) 8ZB,比 2012 年增長(zhǎng) 22 倍。數(shù)據(jù)量的飛速增長(zhǎng)帶來(lái)了大數(shù)據(jù)技術(shù)和服務(wù)市場(chǎng)的繁榮發(fā)展。IDC 亞太區(qū)(不含)關(guān)于大數(shù)據(jù)和分析(BDA)領(lǐng)域的市場(chǎng)研究表明,大數(shù)據(jù)技術(shù)和服務(wù)市場(chǎng)規(guī)模將會(huì)從 2012 年的 5.48 億增加到 2017 年的 23.8 億美元,未來(lái) 5 年的復(fù)合增長(zhǎng)率達(dá)到 34.1%。該市場(chǎng)涵蓋了、服務(wù)器、網(wǎng)絡(luò)、以及服務(wù)市場(chǎng)。數(shù)據(jù)量的增長(zhǎng)是
4、一種非線性的增長(zhǎng)速度。據(jù) IDC 分析,最近一年來(lái),亞太區(qū)出現(xiàn)了越來(lái)越廣泛的大數(shù)據(jù)和分析領(lǐng)域的應(yīng)用案例。,從互聯(lián)網(wǎng)企業(yè),到電信、金融、這樣的傳統(tǒng)行業(yè),都開(kāi)始采用各種大數(shù)據(jù)和分析技術(shù),開(kāi)始了自己的大數(shù)據(jù)實(shí)踐之旅;應(yīng)用場(chǎng)景也在逐漸拓展,從結(jié)構(gòu)化數(shù)據(jù)的分析,發(fā)展到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析,尤其是社交信息分析受到用戶的關(guān)注。用戶們開(kāi)始評(píng)估以 Hadoop、數(shù)據(jù)庫(kù)以及內(nèi)存計(jì)算技術(shù)為代表的大數(shù)據(jù)相關(guān)新型技術(shù)。調(diào)研結(jié)果顯示,提高競(jìng)爭(zhēng)優(yōu)勢(shì),降低成本以及吸引新的客戶用戶對(duì)大數(shù)據(jù)項(xiàng)目最期望的三大回報(bào)。目前現(xiàn)有的大數(shù)據(jù)項(xiàng)目主要集中在業(yè)務(wù)流程優(yōu)化以及提高客戶滿意度方面的應(yīng)用。IDC 發(fā)現(xiàn)很多用戶希望大數(shù)據(jù)能夠?yàn)槠?/p>
5、業(yè)帶來(lái)業(yè)務(wù)創(chuàng)新,并且開(kāi)始使用高級(jí)分析的解決方案以管理復(fù)雜的數(shù)據(jù)環(huán)境。過(guò)去一年中用戶對(duì)社交數(shù)據(jù)的收集和分析應(yīng)用的關(guān)注度增加明顯。未來(lái),地理位置信息分析將會(huì)增長(zhǎng)迅速,這也會(huì)推動(dòng)用戶對(duì)大數(shù)據(jù)安全和隱私管理的關(guān)注。在亞太區(qū),澳大利亞和新加坡的用戶對(duì)大數(shù)據(jù)的相關(guān)投資主要在服務(wù)方面,更關(guān)注如何根據(jù)新的最佳實(shí)踐需求設(shè)計(jì)和實(shí)施方案。中國(guó)和在大數(shù)據(jù)領(lǐng)域的硬件投資則非常明顯,更傾向于數(shù)據(jù)中心相關(guān)的基礎(chǔ)架構(gòu)的投資。- 4 -在傳統(tǒng)的數(shù)據(jù)分析與商業(yè)數(shù)據(jù)挖掘中,人們通常遵循二八原則。也就是任務(wù) 20%的用戶提供了 80%的價(jià)值,因此利用優(yōu)勢(shì)資源用戶對(duì)于少數(shù)用戶的服務(wù)。隨著互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的低價(jià)值用戶進(jìn)入到商業(yè)體系
6、中,這部分用戶成為商業(yè)企業(yè)競(jìng)爭(zhēng)的目標(biāo)。比如行業(yè),大量顧客都是傳統(tǒng)意義上的低價(jià)值表明對(duì)于這部分用戶價(jià)值的挖掘可以改變二八原則,甚至可達(dá)到價(jià)值的幾乎均勻分布。并且由于計(jì)算技術(shù)的發(fā)展,對(duì)于大數(shù)據(jù)的分析也成為了可能。1.2建設(shè)的必要性數(shù)據(jù)挖掘與大數(shù)據(jù)分析是以計(jì)算機(jī)基礎(chǔ)為基礎(chǔ),以挖掘算法為,緊密面向行業(yè)應(yīng)用的一門綜合性學(xué)科。其主要技術(shù)涉及概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、算法與數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)、并行計(jì)算等多個(gè)專業(yè)方向,因此該學(xué)科對(duì)于具有較高的專業(yè)要求。不僅要提供基礎(chǔ)的開(kāi)發(fā)環(huán)境,還要提供大數(shù)據(jù)的運(yùn)算環(huán)境以及用于實(shí)驗(yàn)的實(shí)戰(zhàn)大數(shù)據(jù)案例。這些實(shí)驗(yàn)素材的準(zhǔn)備均需專業(yè)的大數(shù)據(jù)作為支撐。目前,在我國(guó)高校的專業(yè)設(shè)置上與數(shù)
7、據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)相關(guān)的學(xué)科專業(yè)包括:計(jì)算機(jī)科學(xué)與技術(shù)、信息管理與信息系統(tǒng)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)、金融、貿(mào)易、生物信息以及公共衛(wèi)生等。這些專業(yè)的學(xué)生需要分別從原理、技術(shù)與應(yīng)用等不同的角度掌握大數(shù)據(jù)分析的理論與分析方法。學(xué)生要很好地掌握這些課程,除了課堂學(xué)習(xí),通過(guò)實(shí)驗(yàn)來(lái)加深理解和提高實(shí)際應(yīng)用操作能力也是主要途徑。表明,數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)所需要的算法、計(jì)算環(huán)境以及數(shù)據(jù)等,都無(wú)法在我國(guó)高?,F(xiàn)有的中完成。因此,建設(shè)專門的就顯得非常重要。二.設(shè)計(jì)理念及目標(biāo)2.1設(shè)計(jì)理念的設(shè)計(jì)全面“產(chǎn)、學(xué)、研、用”的和模式,從教學(xué)、實(shí)踐、科研和使用多方面注重專業(yè)和特色的培養(yǎng)。本建設(shè)方案融合數(shù)據(jù)挖掘與大數(shù)據(jù)分析專業(yè)教學(xué)、
8、實(shí)訓(xùn)、實(shí)戰(zhàn)等各層次實(shí)踐教學(xué),能夠從面向大數(shù)據(jù)分析行業(yè)需求和促進(jìn)學(xué)生職業(yè)發(fā)展的角度規(guī)劃和建設(shè),真正在產(chǎn)業(yè)、學(xué)校、科研及實(shí)際項(xiàng)目中相互配合,發(fā)揮優(yōu)- 5 -勢(shì),形成生產(chǎn)、學(xué)習(xí)、科學(xué)研究、實(shí)踐運(yùn)用的系統(tǒng)色專業(yè)。模式,從而建設(shè)大數(shù)據(jù)分析特利用虛擬化教學(xué)資源,搭建實(shí)訓(xùn)和實(shí)戰(zhàn),將理論學(xué)習(xí)、實(shí)踐教學(xué)和大數(shù)學(xué)生的學(xué)習(xí)技能和實(shí)踐水平,據(jù)分析實(shí)戰(zhàn)融為一體,由難而易、循序漸進(jìn),逐步提高“學(xué)”的質(zhì)量和成效。利用大數(shù)據(jù)分析主流框架,搭建與業(yè)界主要用戶一致的實(shí)驗(yàn)與科研環(huán)境,將理論課程中學(xué)到的數(shù)據(jù)挖掘算法運(yùn)用到實(shí)際的數(shù)據(jù)分析過(guò)程中,學(xué)生的動(dòng)手操作和項(xiàng)目實(shí)踐能力。使得學(xué)生所學(xué)與企業(yè)項(xiàng)目密配合。需求無(wú)縫銜接,與教師的科研工作緊
9、通過(guò)專業(yè)的大數(shù)據(jù)分析計(jì)算資源搭建的開(kāi)放式大數(shù)據(jù)分析,可以充分的融合教師的科研需求,教師可以在開(kāi)放的研創(chuàng)新能力,充分提高“研”的成效。環(huán)境下開(kāi)展大數(shù)據(jù)科研工作,教師的科2.2建設(shè)目標(biāo)與特色2.2.1建設(shè)目標(biāo)大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法利用目前主流工具,在合理時(shí)間內(nèi)達(dá)到、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的數(shù)據(jù)信息。大數(shù)據(jù)技術(shù)的意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。因此重點(diǎn)培養(yǎng)學(xué)生對(duì)于數(shù)據(jù)的處理與分析能力。由此可見(jiàn),數(shù)據(jù)
10、挖掘與大數(shù)據(jù)教學(xué)過(guò)程中包含數(shù)據(jù)挖掘算法與大數(shù)據(jù)分析算法兩個(gè)部分的內(nèi)容。學(xué)生首先要掌握數(shù)據(jù)挖掘的基本理論與算法,其次要掌握大數(shù)據(jù)處理的框架與,進(jìn)而掌握針對(duì)大數(shù)據(jù)的數(shù)據(jù)挖掘方法。因此本建設(shè)內(nèi)容包括數(shù)據(jù)挖掘部分與大數(shù)據(jù)算法部分兩大類實(shí)驗(yàn)。數(shù)據(jù)挖掘部分的實(shí)驗(yàn)包括基本實(shí)驗(yàn)與算法實(shí)驗(yàn)兩部分。基本實(shí)驗(yàn)用于給學(xué)生建立起數(shù)據(jù)挖掘的基本概念,展示常用的數(shù)據(jù)挖掘算法。以典型的應(yīng)用數(shù)據(jù)為例,展示常用算法的分析效果。算法實(shí)驗(yàn)為學(xué)生提供編程框架,針對(duì)重要的數(shù)據(jù)挖掘算法進(jìn)行實(shí)- 6 -現(xiàn)。該部分實(shí)驗(yàn)以 R 語(yǔ)言為開(kāi)發(fā)環(huán)境,學(xué)生通過(guò)本將掌握數(shù)據(jù)挖掘主要算法的實(shí)現(xiàn)方法。大數(shù)據(jù)算法實(shí)驗(yàn)包括基本的大數(shù)據(jù)分析與算法實(shí)驗(yàn)以及典型實(shí)戰(zhàn)數(shù)
11、據(jù)分析實(shí)驗(yàn)兩部分。大數(shù)據(jù)分析與算法實(shí)驗(yàn)包括配置與典型算法設(shè)計(jì)兩大類,通過(guò)該類實(shí)驗(yàn)使得學(xué)生能夠完成對(duì)于大數(shù)據(jù)分析的配置與初始化工作并具有基本MapReduce 算法開(kāi)發(fā)能力。典型實(shí)戰(zhàn)數(shù)據(jù)分析實(shí)驗(yàn),讓學(xué)生利用真實(shí)的行業(yè)數(shù)據(jù),完成大數(shù)據(jù)挖掘與分析,掌握數(shù)據(jù)挖掘與大數(shù)據(jù)分析的一般流程。2.2.2特色1、大數(shù)據(jù)環(huán)境搭建與大數(shù)據(jù)算法實(shí)現(xiàn)相結(jié)合。大數(shù)據(jù)算法作為的算法分析技術(shù)具有完全不同的設(shè)計(jì)思路,算法開(kāi)發(fā)過(guò)程對(duì)初次接觸該部分內(nèi)容的本科生而言有較大的難度,一方面是算法的新穎性,另一方面則是算法實(shí)現(xiàn)對(duì)于程序開(kāi)發(fā)的能力要求較高。因此為了實(shí)驗(yàn)的順利完成,需要給學(xué)生一個(gè)入門的過(guò)程,本通過(guò)環(huán)境搭建以及簡(jiǎn)單實(shí)驗(yàn)的過(guò)渡來(lái)實(shí)
12、現(xiàn)的。本實(shí)驗(yàn)對(duì)于學(xué)生的要求是框架性的,允許學(xué)生的創(chuàng)新,以激發(fā)和培養(yǎng)學(xué)生的創(chuàng)新意識(shí)和創(chuàng)新能力。2、多梯度、層次式的系列實(shí)驗(yàn)。為了照顧和覆蓋能力和存在明顯差別的多個(gè)學(xué)生群體,在設(shè)置特色實(shí)驗(yàn)的具體實(shí)驗(yàn)內(nèi)容時(shí),提供層次性、階段性的開(kāi)發(fā)目標(biāo),不同學(xué)生可以根據(jù)自己的能力差別選擇合適的開(kāi)發(fā)任務(wù)難度,而且在實(shí)驗(yàn)過(guò)程中,學(xué)生也可以根據(jù)進(jìn)度調(diào)整相應(yīng)的實(shí)驗(yàn)難度,以避免學(xué)生不能完成實(shí)驗(yàn)的情況,充分和提高學(xué)生參與該特色實(shí)驗(yàn)的和信心。3、充分支撐的科研工作。系統(tǒng)提供數(shù)據(jù)分析接口,可將收集到的大數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),按自己需求生成報(bào)表,為科研工作提供數(shù)據(jù)支承。例如某地區(qū)經(jīng)濟(jì)數(shù)據(jù)分析、數(shù)據(jù)分析等。- 7 -三.數(shù)據(jù)挖掘與大數(shù)據(jù)分
13、析實(shí)驗(yàn)建設(shè)方案大數(shù)據(jù)實(shí)驗(yàn)是由科技與交大共同研發(fā)而成,科技作為專業(yè)的高校建設(shè)方案提供商,結(jié)合相關(guān)知名高校及科研機(jī)構(gòu)的教學(xué)及科研成果,提供了一套完整的高校數(shù)據(jù)挖掘與大數(shù)據(jù)分析的解決方案。該方案按照數(shù)據(jù)挖掘、大數(shù)據(jù)與算法、行業(yè)實(shí)戰(zhàn)數(shù)據(jù)分析三個(gè)層次來(lái)搭建。通過(guò)典型的算法展示、算法實(shí)現(xiàn)結(jié)合大數(shù)據(jù)分析的應(yīng)用場(chǎng)景與案例對(duì)學(xué)生進(jìn)行數(shù)據(jù)分析方面的綜合訓(xùn)練,從而實(shí)現(xiàn)專業(yè)實(shí)驗(yàn)教學(xué)的由點(diǎn)及面、理論到應(yīng)用、涵蓋原理驗(yàn)證/綜合應(yīng)用/設(shè)計(jì)及創(chuàng)新的多層次實(shí)驗(yàn)體系。3.1 基礎(chǔ)環(huán)境建設(shè)基礎(chǔ)環(huán)境建設(shè)主要是支撐實(shí)驗(yàn)用桌椅、教學(xué)用投影音響器材、教行的基本環(huán)境配套建設(shè),包括學(xué)生空調(diào)系統(tǒng)、綜合布線系統(tǒng)、安防系統(tǒng)及裝修系統(tǒng)等。通過(guò)這些基礎(chǔ)
14、支撐環(huán)境的建設(shè),才能保證正常為教學(xué)和科研服務(wù)。綜合基礎(chǔ)環(huán)境建設(shè)的各項(xiàng)內(nèi)容,針對(duì)的空間環(huán)境及現(xiàn)代實(shí)驗(yàn)教學(xué)的發(fā)展趨勢(shì),一個(gè)實(shí)驗(yàn)班級(jí) 50 個(gè)學(xué)生可分為 5 個(gè)實(shí)驗(yàn)組,每組可安排 10 個(gè)學(xué)生同時(shí)進(jìn)行實(shí)驗(yàn),這樣可安排 50 個(gè)學(xué)生同時(shí)進(jìn)行數(shù)據(jù)挖掘與大數(shù)據(jù)分析相關(guān)的實(shí)驗(yàn)課程。3.1.1 IT 環(huán)境建設(shè)IT 環(huán)境建設(shè)包括實(shí)驗(yàn)終端個(gè)人電腦和規(guī)劃建設(shè)。學(xué)生實(shí)驗(yàn)終端計(jì)算機(jī)一方面可以采用普通終端 PC 機(jī),組局域網(wǎng),支撐學(xué)生進(jìn)行實(shí)驗(yàn),另一方面隨著云計(jì)算技術(shù)的發(fā)展,學(xué)生計(jì)算機(jī)可以采用虛擬桌面云終端的設(shè)計(jì)方式,通過(guò)采用云資源服務(wù)器及存云調(diào)度設(shè)備進(jìn)行設(shè)計(jì),利用服務(wù)器虛擬化的方法來(lái)對(duì)終端進(jìn)行支撐,用戶通過(guò)部署在實(shí)驗(yàn)臺(tái)的
15、瘦客戶端進(jìn)行實(shí)驗(yàn)操作,所有應(yīng)用、數(shù)據(jù)存放在服務(wù)器,虛擬桌面云終端不存放任何數(shù)據(jù),可被管理工具管理,包括分發(fā)系統(tǒng)、更新、審計(jì)等操作。虛擬桌面云的重復(fù)工作量。也通過(guò)虛擬化的管理工具管理,大大降低- 8 -3.1.2 網(wǎng)絡(luò)環(huán)境建設(shè)網(wǎng)絡(luò)部署環(huán)境如圖 1 所示。其中,路由器和交換機(jī)連接起來(lái),是用戶之間以及用戶與資源之間的通信設(shè)備;實(shí)資源調(diào)度系統(tǒng)功能,其可以是一臺(tái)設(shè)備,也可以是多臺(tái)等網(wǎng)絡(luò)設(shè)備將用戶和訓(xùn)設(shè)備提供云和設(shè)備的集群部署,以提高設(shè)備的虛擬化能力,用戶通過(guò)資源調(diào)度調(diào)用其中的所所有資源,而無(wú)需關(guān)注硬件設(shè)備;管理員可以對(duì)進(jìn)行管理,包括賬戶管理、資源管理、實(shí)驗(yàn)管理等;普通用戶可以通過(guò)操作。進(jìn)行各項(xiàng)數(shù)據(jù)挖掘?qū)?/p>
16、驗(yàn)及技術(shù)驗(yàn)證等針對(duì)校方已有的網(wǎng)絡(luò)設(shè)備,可以進(jìn)行整合,而且相關(guān)設(shè)備與模塊也可根據(jù)校方專業(yè)教學(xué)和建設(shè)的具體情況進(jìn)行選擇。外部用戶網(wǎng)絡(luò)投影機(jī)大數(shù)據(jù)實(shí)驗(yàn)平臺(tái)Hadoop計(jì)算集群教師管理區(qū)管理控制數(shù)據(jù)實(shí)驗(yàn)臺(tái)實(shí)驗(yàn)臺(tái)圖網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)3.2 實(shí)驗(yàn)功能教學(xué)實(shí)訓(xùn)設(shè)。云計(jì)算虛擬建設(shè)通過(guò)云計(jì)算虛擬化及教育管理實(shí)現(xiàn)教學(xué)實(shí)訓(xùn)的建通過(guò)云計(jì)算管理為計(jì)算機(jī)教學(xué)虛擬各種實(shí)驗(yàn)操作環(huán)境,讓學(xué)生進(jìn)行各種數(shù)據(jù)挖掘算法的演示與開(kāi)發(fā),真實(shí)體驗(yàn)數(shù)據(jù)科學(xué)在實(shí)際環(huán)境中的應(yīng)用。管理即通常說(shuō)的網(wǎng)絡(luò)學(xué)臺(tái),是一種基礎(chǔ)性技術(shù)。 它以課程管理為中心、學(xué)習(xí)活動(dòng)驅(qū)動(dòng)的一套輔助性培訓(xùn)信息化解決方案系統(tǒng)。創(chuàng)新性引進(jìn)了模擬仿真教學(xué)的理念, 可將面授課堂完全搬到網(wǎng)絡(luò)進(jìn)行,
17、同時(shí)引進(jìn)了培訓(xùn)班的- 9 -互聯(lián)接入?yún)^(qū)學(xué)生實(shí)驗(yàn)區(qū)服務(wù)區(qū)管理設(shè)備大數(shù)據(jù)計(jì)算集群概念, 將課程學(xué)習(xí)及與培訓(xùn)班有機(jī)結(jié)合, 對(duì)培訓(xùn)進(jìn)行有效管理。3.2.1 用戶管理功能根據(jù)學(xué)校實(shí)際情況,管理員可以自定義添加刪除專業(yè)、年級(jí)和班級(jí),通過(guò) Excel表格批量導(dǎo)入導(dǎo)出用戶。根據(jù)實(shí)驗(yàn)環(huán)境也可進(jìn)行用戶的可進(jìn)行登錄。,由管理員審核后即專業(yè)、年級(jí)、班級(jí)列表批量導(dǎo)入用戶列表3.2.2 實(shí)驗(yàn)管理功能根據(jù)教學(xué)安排制定課程表,安排學(xué)生的選修課和必修課,最后通過(guò)課程調(diào)度可以按課程或者按用戶進(jìn)行安排課程。- 10 -課程表3.2.3 課件資源管理功能針對(duì)高等院校計(jì)算機(jī)、商科、統(tǒng)計(jì)等學(xué)科相關(guān)專業(yè)要求,本實(shí)驗(yàn)開(kāi)發(fā)了應(yīng)用、算包括低中高
18、不同難度的 17 大類近百個(gè)實(shí)現(xiàn)項(xiàng)目。實(shí)驗(yàn)涵蓋了統(tǒng)計(jì)法展示、統(tǒng)計(jì)算法開(kāi)發(fā)以及大數(shù)據(jù)計(jì)算等內(nèi)容,可以滿足不同學(xué)科不同層次學(xué)生的學(xué)習(xí)需求。針對(duì)這些實(shí)驗(yàn)內(nèi)容,實(shí)驗(yàn)開(kāi)發(fā)了相應(yīng)的實(shí)驗(yàn)指導(dǎo)書(shū)、實(shí)驗(yàn)數(shù)據(jù)說(shuō)明以及實(shí)驗(yàn)數(shù)據(jù)等課件資源。學(xué)生可利用這些資源順利完成實(shí)驗(yàn)內(nèi)容。- 11 -課件資源3.2.4 實(shí)驗(yàn)加載功能通過(guò) web 瀏覽器直接登錄實(shí)訓(xùn)并啟動(dòng)實(shí)驗(yàn),參照實(shí)驗(yàn)課件可以進(jìn)行學(xué)習(xí)。在學(xué)生進(jìn)行實(shí)驗(yàn)的過(guò)程當(dāng)中,教師可以隨時(shí)進(jìn)行協(xié)助,對(duì)學(xué)生進(jìn)行指導(dǎo)。實(shí)驗(yàn)結(jié)束后,自動(dòng)系統(tǒng)資源。學(xué)生實(shí)驗(yàn)環(huán)境- 12 -3.2.5管理功能針對(duì)實(shí)驗(yàn)課程進(jìn)行課程實(shí)訓(xùn)考核,學(xué)生可根據(jù)老師的要求提交實(shí)驗(yàn),老師在進(jìn)行評(píng)分。實(shí)驗(yàn)成績(jī)- 13 -打分3
19、.2.6 Hadoop 管理功能針對(duì)大數(shù)據(jù)處理機(jī)群,提供可視化的管理界在,可查看計(jì)算資源使用情況,可根據(jù)使用情況對(duì)機(jī)群進(jìn)行管理及資源分配。- 14 -Hadoop 機(jī)群管理3.2.7 部署方式簡(jiǎn)易數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)中,客戶端無(wú)須安裝任何客戶端部署非常簡(jiǎn)易,通過(guò)一根網(wǎng)線接入到網(wǎng)絡(luò),即可完成設(shè)備的部署和環(huán)境的搭建。學(xué)生通過(guò)web 頁(yè)面設(shè)備并進(jìn)行實(shí)驗(yàn),教師和管理員通過(guò) web 頁(yè)面進(jìn)行實(shí)驗(yàn)和設(shè)備的管理。實(shí)驗(yàn)工作需求。所需的計(jì)算資源均通過(guò)虛擬化的方式提供,可靈活適應(yīng)教學(xué)實(shí)驗(yàn)與科研3.2.8 科研創(chuàng)新支撐數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)通過(guò)虛擬機(jī)的方式為學(xué)生提供了實(shí)驗(yàn)開(kāi)發(fā)與操作,同時(shí)也為教師科研提供專門的
20、算法開(kāi)發(fā)。通過(guò)這些算法,教師可方便地進(jìn)行數(shù)據(jù)爬取、文本分析、算法實(shí)現(xiàn)等開(kāi)發(fā)工作,并且通過(guò)實(shí)驗(yàn)所提供的 Hadoop運(yùn)算環(huán)境,設(shè)計(jì)算法處理數(shù)據(jù)。- 15 -開(kāi)啟科研虛擬機(jī)實(shí)際科研數(shù)據(jù)案例分析3.3 實(shí)訓(xùn)特色云計(jì)算虛擬功能采用云虛擬化技術(shù),包括 OS 虛擬化(單多操作系統(tǒng),容易擴(kuò)展遷移)、APP 虛擬化(一次安裝,隨處使用,方便共享)、實(shí)驗(yàn)環(huán)境虛擬化(用戶接入實(shí)訓(xùn)平臺(tái),使用云虛擬環(huán)境提供的實(shí)驗(yàn)服務(wù)),提高了單臺(tái)產(chǎn)品虛擬化能力,擴(kuò)充了實(shí)驗(yàn)環(huán)境,達(dá)到了一臺(tái)設(shè)備就是一個(gè)的效果,降低了投入成本和成本。- 16 -虛擬機(jī)管理鏡像功能用戶可以非常方便的完成所需設(shè)備的鏡像制作以及新實(shí)驗(yàn)的環(huán)境搭建,無(wú)需新的硬件設(shè)
21、備。簡(jiǎn)便快捷整合功能可以將實(shí)驗(yàn)需要的材料、虛擬機(jī)資源、網(wǎng)絡(luò)、戶使用。資源等整全新的實(shí)驗(yàn)供用實(shí)驗(yàn)課程并發(fā)功能教師可以同時(shí)開(kāi)展多個(gè)大數(shù)據(jù)分析課程,通過(guò)啟動(dòng)不動(dòng)的實(shí)驗(yàn)課件,為不同的學(xué)員分配相應(yīng)的實(shí)驗(yàn)課程。實(shí)驗(yàn)考評(píng)功能提供教師編寫(xiě)考題的功能,可針對(duì)自身教學(xué)的需要,根據(jù)實(shí)驗(yàn)內(nèi)容或相關(guān)知識(shí)點(diǎn)編寫(xiě)試題及加入題庫(kù);在給學(xué)生分配實(shí)驗(yàn)的同時(shí)可以引入相關(guān)的實(shí)驗(yàn)考題,學(xué)生在完成實(shí)驗(yàn)后回答相關(guān)的試題,系統(tǒng)將根據(jù)提交結(jié)果自動(dòng)進(jìn)行評(píng)分。管理功能具備數(shù)據(jù)管理、實(shí)驗(yàn)內(nèi)容管理等功能,結(jié)合真實(shí)網(wǎng)絡(luò)、Hadoop 環(huán)境、行業(yè)應(yīng)用數(shù)據(jù)進(jìn)行信息大數(shù)據(jù)分析實(shí)驗(yàn)。四.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)課程內(nèi)容數(shù)據(jù)挖掘與大數(shù)據(jù)分析涉及到概率論與數(shù)理統(tǒng)計(jì)
22、、算法與數(shù)據(jù)結(jié)構(gòu)、程序語(yǔ)言開(kāi)發(fā)、數(shù)據(jù)挖掘、計(jì)算機(jī)網(wǎng)絡(luò)、并行計(jì)算等多門學(xué)科。本實(shí)驗(yàn)課程的內(nèi)容涵蓋了上述所- 17 -涉及到的內(nèi)容,并按照實(shí)驗(yàn)內(nèi)容的復(fù)雜度分為初級(jí)、中級(jí)以及高級(jí)三個(gè)等級(jí)。同時(shí)實(shí)驗(yàn)課程也根據(jù)面向的專業(yè)不同,將實(shí)驗(yàn)內(nèi)容分為了演示實(shí)驗(yàn)、一般操作性實(shí)驗(yàn)、開(kāi)發(fā)性實(shí)驗(yàn)以及大數(shù)據(jù)開(kāi)放實(shí)驗(yàn)等不同實(shí)現(xiàn)內(nèi)容。這些內(nèi)容的交叉組合可以實(shí)現(xiàn)針對(duì)不同專業(yè)與不同層次學(xué)生的實(shí)驗(yàn)課程設(shè)計(jì)。實(shí)驗(yàn)內(nèi)容有 4 類共計(jì) 100 多個(gè)實(shí)驗(yàn)項(xiàng)目,采用實(shí)驗(yàn)管理系統(tǒng),能夠?yàn)閿?shù)據(jù)挖掘與大數(shù)據(jù)教學(xué)及科研提供一個(gè)完整的、的實(shí)驗(yàn)教學(xué)環(huán)境,從而打造出全方位的專業(yè)大數(shù)據(jù)分析。- 18 -數(shù)據(jù)庫(kù)操作配置SQL中的DDL語(yǔ)句 SQL中的DML語(yǔ)句
23、 SQL中的DCL語(yǔ)句常用函數(shù)函數(shù)- 19 -計(jì)算機(jī)、信息管理商科、社會(huì)性、統(tǒng)計(jì)、生物信息JAVA自然語(yǔ)言處理字符串編碼正則表達(dá)式自動(dòng)分詞句法分析語(yǔ)義分析JAVA數(shù)據(jù)爬取抓取網(wǎng)頁(yè)處理HTML頁(yè)面非HTML正文抽取設(shè)計(jì)爬蟲(chóng)隊(duì)列并行爬蟲(chóng)大數(shù)據(jù)分析綜合應(yīng)用社交網(wǎng)絡(luò)結(jié)構(gòu)分析超市零售數(shù)據(jù)分析消息分析用戶上網(wǎng)行為分析評(píng)分分析Hadoop大數(shù)據(jù)分析Hadoop配置Hadoop基本操作基本MR程序開(kāi)發(fā)迭代式MR程序開(kāi)發(fā)高級(jí)MR程序開(kāi)發(fā)R語(yǔ)言數(shù)據(jù)挖掘R語(yǔ)言數(shù)據(jù)可視化R語(yǔ)言聚類數(shù)據(jù)R語(yǔ)言降維R語(yǔ)言分類基礎(chǔ)R語(yǔ)言決策樹(shù)分類方法R語(yǔ)言高級(jí)分類方法R語(yǔ)言關(guān)聯(lián)分析R語(yǔ)言編程基礎(chǔ)R語(yǔ)言基礎(chǔ)R語(yǔ)言控制語(yǔ)句R語(yǔ)言數(shù)據(jù)類型R語(yǔ)言
24、常用函數(shù)R語(yǔ)言程序調(diào)試R語(yǔ)言數(shù)據(jù)分析綜合應(yīng)用R語(yǔ)言建立信用評(píng)分模型R語(yǔ)言市場(chǎng)收益R語(yǔ)言經(jīng)濟(jì)指標(biāo)R語(yǔ)言偵測(cè)交易R(shí)語(yǔ)言微陣列樣本分類R語(yǔ)言統(tǒng)計(jì)與建模R語(yǔ)言統(tǒng)計(jì)推斷基礎(chǔ)R語(yǔ)言統(tǒng)計(jì)分布R語(yǔ)言假設(shè)檢驗(yàn)R語(yǔ)言基本線性回歸R語(yǔ)言多變量線性回歸R語(yǔ)言廣義線性模型SAS編程基礎(chǔ)SAS基礎(chǔ)SAS控制語(yǔ)句SAS數(shù)據(jù)類型SAS常用函數(shù)SAS程序調(diào)試SAS數(shù)據(jù)挖掘SAS數(shù)據(jù)可視化SAS聚類SAS數(shù)據(jù)降維SAS分類基礎(chǔ)SAS決策樹(shù)分類方法SAS高級(jí)分類方法SAS關(guān)聯(lián)分析數(shù)據(jù)挖掘方法演示數(shù)據(jù)可視化聚類數(shù)據(jù)降維分類基礎(chǔ)決策樹(shù)分類方法高級(jí)分類方法關(guān)聯(lián)分析SAS數(shù)據(jù)分析綜合應(yīng)用SAS建立信用評(píng)分模型SAS市場(chǎng)收益SAS經(jīng)濟(jì)指標(biāo)S
25、AS偵測(cè)交易SAS微陣列樣本分類SAS統(tǒng)計(jì)與建模SAS統(tǒng)計(jì)推斷基礎(chǔ)SAS統(tǒng)計(jì)分布SAS假設(shè)檢驗(yàn)SAS線性回歸SAS多變量線性回歸SAS廣義線性模型統(tǒng)計(jì)與建模方法演示統(tǒng)計(jì)推斷基礎(chǔ)統(tǒng)計(jì)分布假設(shè)檢驗(yàn)基本線性回歸多變量線性回歸廣義線性模型Excel高級(jí)編程VBA程序基礎(chǔ)VBA控制語(yǔ)句VBA常用函數(shù)VBA綜合應(yīng)用Excel數(shù)據(jù)處理Excel基本操作Excel數(shù)據(jù)可視化Excel函數(shù)與公式Excel表Excel數(shù)據(jù)分析初級(jí)中級(jí)高級(jí)4.1 Excel 數(shù)據(jù)處理Excel 是微軟公司 office 系列辦公的組件之一,它是一個(gè)功能強(qiáng)大的電子表格程序。Excel 不僅可以將整齊而美觀的表格呈現(xiàn)給用戶,還可以用來(lái)
26、進(jìn)行數(shù)據(jù)的分析和,完成許多復(fù)雜的數(shù)據(jù)運(yùn)算,幫助使用者做出更加有根據(jù)的決策。同時(shí)它還具有強(qiáng)大的可視化功能可以將表格中的數(shù)據(jù)通過(guò)各種各樣的圖形、圖表的形式來(lái),工力。因此 Excel 是用于數(shù)據(jù)挖掘與數(shù)據(jù)分析的最基本增強(qiáng)表格的表達(dá)力和具。本類實(shí)驗(yàn)主要側(cè)重 Excel 數(shù)據(jù)處理的教學(xué),對(duì)學(xué)生無(wú)任何基礎(chǔ)要求。本類實(shí)驗(yàn)包括:Excel 基本操作、數(shù)據(jù)可視化、函數(shù)與公式、表和基本的數(shù)據(jù)分析方法。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握 Excel 數(shù)據(jù)處理的基本方法。4.2 統(tǒng)計(jì)與建模方法演示統(tǒng)計(jì)學(xué)是通過(guò)搜索、整理、分析數(shù)據(jù)等,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至對(duì)象未來(lái)的一門綜合性科學(xué)。其中用到了大量的數(shù)學(xué)及其它學(xué)科的專業(yè)知
27、識(shí),它的使用范圍幾乎覆蓋了社會(huì)科學(xué)和自然科學(xué)的各個(gè)領(lǐng)域。建模就是建立模型,就是為了理解事物而對(duì)事物做出的一種抽象,是對(duì)事物的一種無(wú)歧義的描述。建立系統(tǒng)模型的過(guò)程,又稱模型化。建模是研究系統(tǒng)的重要和前提。本類實(shí)驗(yàn)主要側(cè)重統(tǒng)計(jì)學(xué)方法以及常用數(shù)學(xué)建模方法的演示,對(duì)學(xué)生無(wú)編程基礎(chǔ)要求,也并不會(huì)涉及任何代碼。本類實(shí)驗(yàn)包括:統(tǒng)計(jì)推斷基礎(chǔ)、統(tǒng)計(jì)分布、假設(shè)檢驗(yàn)、- 20 -基本線性回歸、多變量線性回歸和廣義線性模型。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握統(tǒng)計(jì)與建模的一般方法和流程。4.3 數(shù)據(jù)挖掘方法演示數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、分析處理、檢索、
28、機(jī)器學(xué)習(xí)、系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。本類實(shí)驗(yàn)主要側(cè)重?cái)?shù)據(jù)挖掘方法的演示,對(duì)學(xué)生無(wú)編程基礎(chǔ)要求,也并不會(huì)涉及任何代碼。本類實(shí)驗(yàn)包括:數(shù)據(jù)可視化、聚類、數(shù)據(jù)降維、分類基礎(chǔ)、決策樹(shù)分類方法、高級(jí)分類方法和關(guān)聯(lián)分析。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握數(shù)據(jù)挖掘的常用方法和流程。- 21 -4.4 SAS 編程基礎(chǔ)SAS(全稱 S公司之一,是由ISTICALYSIS SYSTEM,簡(jiǎn)稱 SAS)是全球最大的NORTH CAROLINA 州立大學(xué) 1966 年開(kāi)發(fā)的統(tǒng)計(jì)。經(jīng)歷了許多版本,并經(jīng)過(guò)多年來(lái)的完善和發(fā)展,SAS 系統(tǒng)在國(guó)際上已被譽(yù)為統(tǒng)計(jì)分析的標(biāo)準(zhǔn),在各個(gè)領(lǐng)域得到廣泛應(yīng)用。
29、本類實(shí)驗(yàn)主要側(cè)重 SAS 編程的教學(xué),對(duì)學(xué)生無(wú)編程基礎(chǔ)要求。本類實(shí)驗(yàn)包括:SAS基礎(chǔ)、控制語(yǔ)句、數(shù)據(jù)類型、常用函數(shù)和程序調(diào)試。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握 SAS編程的基本方法。- 22 -4.5 R 語(yǔ)言編程基礎(chǔ)R 語(yǔ)言是一套完整的數(shù)據(jù)處理、計(jì)算和制圖系統(tǒng)。其功能包括:數(shù)據(jù)和處理系統(tǒng)、數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大)、完整連貫的統(tǒng)計(jì)分析工具、優(yōu)秀的統(tǒng)計(jì)制圖功能、簡(jiǎn)便而強(qiáng)大的編程語(yǔ)言,可可實(shí)現(xiàn)分支、循環(huán),用戶可自定義功能。數(shù)據(jù)的輸入和輸出,本類實(shí)驗(yàn)主要側(cè)重 R 語(yǔ)言編程的教學(xué),對(duì)學(xué)生無(wú)編程基礎(chǔ)要求。本類實(shí)驗(yàn)包括:R 語(yǔ)言基礎(chǔ)、控制語(yǔ)句、數(shù)據(jù)類型、常用函數(shù)和程序調(diào)試。通過(guò)本類實(shí)驗(yàn),
30、學(xué)生可以掌握 R 語(yǔ)言編程的基本方法。4.6數(shù)據(jù)庫(kù)操作是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),是最流行的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)應(yīng)用之一。所使用的 SQL 語(yǔ)言是用于數(shù)據(jù)庫(kù)的最常用標(biāo)準(zhǔn)化語(yǔ)言。由于其體積小、速度快、總體擁有成本低,尤其是開(kāi)放源碼這一特點(diǎn),一般中小型的開(kāi)和發(fā)都選擇作為數(shù)據(jù)庫(kù)。由于其社區(qū)版的性能卓越,搭配Apache 可組成良好的開(kāi)發(fā)環(huán)境。本類實(shí)驗(yàn)主要側(cè)重 SQL 編程和的使用,對(duì)學(xué)生無(wú)編程基礎(chǔ)要求。本類實(shí)配置、SQL 中的 DDL、DML 和 DCL 語(yǔ)句、驗(yàn)包括:常用函數(shù)、過(guò)程和自定義函數(shù)。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握SQL 編程的基本方法。數(shù)據(jù)庫(kù)的基本使用方法和- 23 -4.7 JAVA 數(shù)據(jù)
31、爬取網(wǎng)絡(luò)爬蟲(chóng),又被稱為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動(dòng)的抓取網(wǎng)信息的程序或者。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的 URL 放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。本類實(shí)驗(yàn)主要側(cè)重用 JAVA 編寫(xiě)爬蟲(chóng)程序的基本步驟和模塊,要求學(xué)生在實(shí)驗(yàn)前掌握基本的 JAVA 語(yǔ)法和 JAVA 程序的調(diào)試方法。本類實(shí)驗(yàn)包括:抓取網(wǎng)頁(yè)、處理 HTML頁(yè)面、非 HTML 正文提取、設(shè)計(jì)爬蟲(chóng)隊(duì)列和并行爬蟲(chóng)。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 JAVA 編寫(xiě)爬蟲(chóng)程序的基本方法。- 24 -4.8 Excel 高級(jí)編程在 Excel
32、 中,有些數(shù)據(jù)分析的高級(jí)功能需要掌握 VBA 才能充分實(shí)現(xiàn)。Visual Basic for Applications(VBA)是 Visual Basic 的一種宏語(yǔ)言,是微軟開(kāi)發(fā)出來(lái)在其桌面應(yīng)用程序中執(zhí)行通用的自動(dòng)化任務(wù)的編程語(yǔ)言。主要能用來(lái)擴(kuò)展 Windows 的應(yīng)用程式功Office能,特別是。本類實(shí)驗(yàn)主要側(cè)重 Excel VBA 的教學(xué),要求學(xué)生在實(shí)驗(yàn)前先完成Excel 數(shù)據(jù)處理實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:VBA 程序基礎(chǔ)、控制語(yǔ)句、常用函數(shù)和綜合應(yīng)用。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握 Excel VBA 編程的基本方法。- 25 -4.9 SAS 統(tǒng)計(jì)與建模SAS 具有強(qiáng)大的統(tǒng)計(jì)與建模功能,可以
33、進(jìn)行基本的統(tǒng)計(jì)檢驗(yàn)、線性回歸、方差分析、列聯(lián)表檢驗(yàn)等基本統(tǒng)計(jì)分析,還可以進(jìn)行曲線擬合、線性回歸以及廣義線性模型擬合。本類實(shí)驗(yàn)主要側(cè)重用 SAS 進(jìn)行統(tǒng)計(jì)與建模的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成統(tǒng)計(jì)與建模方法演示和SAS 編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:SAS 統(tǒng)計(jì)推斷基礎(chǔ)、統(tǒng)計(jì)分布、假設(shè)檢驗(yàn)、基本線性回歸、多變量線性回歸和廣義線性模型。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 SAS 進(jìn)行統(tǒng)計(jì)與建模的常用方法和流程。- 26 -4.10 SAS 數(shù)據(jù)挖掘SAS Entrise Miner (SAS EM) 是一個(gè)圖形化界面,菜單驅(qū)動(dòng)的,拖拉式操作,對(duì)用戶非常友好且功能強(qiáng)大的數(shù)據(jù)挖掘集成環(huán)境。其中集成了數(shù)據(jù)獲取
34、工具、數(shù)據(jù)抽樣工具、數(shù)據(jù)篩選工具、數(shù)據(jù)變量轉(zhuǎn)換工具、數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘過(guò)程、多種形式的回歸工具、為建立決策樹(shù)的數(shù)據(jù)剖分工具、決策樹(shù)瀏覽工具、人工神經(jīng)元網(wǎng)絡(luò)和數(shù)據(jù)挖掘的評(píng)價(jià)工具。本類實(shí)驗(yàn)主要側(cè)重用 SAS EM 進(jìn)行數(shù)據(jù)挖掘方法的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成數(shù)據(jù)挖掘方法演示和SAS 編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:SAS 數(shù)據(jù)可視化、聚類、數(shù)據(jù)降維、分類基礎(chǔ)、決策樹(shù)分類方法、高級(jí)分類方法和關(guān)聯(lián)分析。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 SAS EM 進(jìn)行數(shù)據(jù)挖掘的常用方法和流程。- 27 -4.11 R 語(yǔ)言統(tǒng)計(jì)與建模R 語(yǔ)言具有強(qiáng)大的統(tǒng)計(jì)與建模功能。R 并不是僅僅提供若干統(tǒng)計(jì)程序、使用者只需指定
35、數(shù)據(jù)庫(kù)和若干參數(shù)便可進(jìn)行一個(gè)統(tǒng)計(jì)分析。R 的是:它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動(dòng)的進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。本類實(shí)驗(yàn)主要側(cè)重用 R 語(yǔ)言進(jìn)行統(tǒng)計(jì)與建模的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成統(tǒng)計(jì)與建模方法演示和R 語(yǔ)言編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:R 語(yǔ)言統(tǒng)計(jì)推斷基礎(chǔ)、統(tǒng)計(jì)分布、假設(shè)檢驗(yàn)、基本線性回歸、多變量線性回歸和廣義線性模型。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 R 語(yǔ)言進(jìn)行統(tǒng)計(jì)與建模的常用方法和流程。- 28 -4.12 R 語(yǔ)言數(shù)據(jù)挖掘R 語(yǔ)言在數(shù)據(jù)挖掘方面應(yīng)用廣泛,包含了大量的數(shù)據(jù)挖掘方面的算法包,使得它
36、成為一款優(yōu)秀的、不可多得的數(shù)據(jù)挖掘工具。本類實(shí)驗(yàn)主要側(cè)重用 R 語(yǔ)言進(jìn)行數(shù)據(jù)挖掘方法的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成數(shù)據(jù)挖掘方法演示和R 語(yǔ)言編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:R 語(yǔ)言數(shù)據(jù)可視化、聚類、數(shù)據(jù)降維、分類基礎(chǔ)、決策樹(shù)分類方法、高級(jí)分類方法和關(guān)聯(lián)分析。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 R 語(yǔ)言進(jìn)行數(shù)據(jù)挖掘的常用方法和流程。- 29 -4.13 Hadoop 大數(shù)據(jù)分析Hadoop 是一個(gè)由 Apache所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的進(jìn)行高速運(yùn)算和。Hadoop 實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed
37、File System),簡(jiǎn)稱 HDFS。HDFS 有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上;而且它提供高吞吐量來(lái)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。HDFS 放IX 的要求,可以以流的形式寬了文件系統(tǒng)中的數(shù)據(jù)。本類實(shí)驗(yàn)主要側(cè)重用 Hadoop 進(jìn)行大數(shù)據(jù)分析的基本方法,要求學(xué)生在實(shí)驗(yàn)前先數(shù)據(jù)庫(kù)操作實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:Hadoop 配置、基本操作、基本完成MR 程序開(kāi)發(fā)、迭代式 MR 程序開(kāi)發(fā)、高級(jí) MR 程序開(kāi)發(fā)和 Hive 數(shù)據(jù)庫(kù)操作。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 Hadoop 進(jìn)行大數(shù)據(jù)分析的常用方法和流程。- 30 -4.14 JAVA 自然語(yǔ)言處理自然語(yǔ)言處理是
38、計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫恼Z(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。本類實(shí)驗(yàn)主要側(cè)重用 JAVA 進(jìn)行自然語(yǔ)言處理的基本方法,要求學(xué)生在實(shí)驗(yàn)前掌握基本的 JAVA 語(yǔ)法和 JAVA 程序的調(diào)試方法。本類實(shí)驗(yàn)包括:字符串編碼、正則表達(dá)式、自動(dòng)分詞、句法分析
39、和語(yǔ)義分析。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 JAVA 編進(jìn)行自然語(yǔ)言處理的基本方法。- 31 -4.15 SAS 數(shù)據(jù)分析綜合應(yīng)用SAS 被稱贊為“世界五百?gòu)?qiáng)背后的管理大師”。個(gè)中的原因就在于,企業(yè) 通過(guò)使用 SAS 的商業(yè)智能,能夠從海量的數(shù)據(jù)中,挖掘出不易認(rèn)知的各種聯(lián)系。大量企業(yè)正在使用 SAS 進(jìn)行市場(chǎng)的策略分析和研究,在市場(chǎng)細(xì)分、 客戶流失管理、信用管理等諸多領(lǐng)域業(yè)已取得了初步的成效。因此,學(xué)生掌握 SAS 的綜合應(yīng)用對(duì)未來(lái)的職場(chǎng)競(jìng)爭(zhēng)力有著舉足輕重的作用。本類實(shí)驗(yàn)主要側(cè)重用 SAS 在數(shù)據(jù)分析中的綜合應(yīng)用案例,要求學(xué)生在實(shí)驗(yàn)前先完成SAS 統(tǒng)計(jì)與建模和SAS 數(shù)據(jù)挖掘?qū)嶒?yàn)。本類實(shí)驗(yàn)包括:
40、SAS 建立信用評(píng)分模型、市場(chǎng)收益、經(jīng)濟(jì)指標(biāo)、偵測(cè)交易、微陣列樣本分類。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 SAS 處理真實(shí)案例的常用方法和流程。4.16 R 語(yǔ)言數(shù)據(jù)分析綜合應(yīng)用在Tiobe的編程語(yǔ)言榜上,R 語(yǔ)言位列第 27 位,市場(chǎng)占有率目前是 0.5%,SAS 目前是 0.386%,排在第 35 位??梢?jiàn),R 語(yǔ)言比 SAS 使用人數(shù)。R 語(yǔ)言是全世界最強(qiáng)大的用于統(tǒng)計(jì)計(jì)算分析的計(jì)算機(jī)語(yǔ)言。它可以計(jì)算所有的統(tǒng)計(jì)學(xué)方程式。R 語(yǔ)言不只是一門計(jì)算機(jī)語(yǔ)言,而是一個(gè)工具包,一個(gè)群落,一個(gè)眾多免費(fèi)的集合。有了開(kāi)源的 R 語(yǔ)言,人人都能夠準(zhǔn)確地知道他們的房子、車子、公司和前景到底如何。許多世界五百?gòu)?qiáng)企業(yè)也
41、正逐漸引入 R 語(yǔ)言作為他們分析環(huán)境的一部分。本類實(shí)驗(yàn)主要側(cè)重用 R 語(yǔ)言在數(shù)據(jù)分析中的綜合應(yīng)用案例,要求學(xué)生在實(shí)驗(yàn)前先完成R 語(yǔ)言統(tǒng)計(jì)與建模和R 語(yǔ)言數(shù)據(jù)挖掘?qū)嶒?yàn)。本類實(shí)驗(yàn)包括:R 語(yǔ)言建立信用評(píng)分模型、市場(chǎng)收益、經(jīng)濟(jì)指標(biāo)、偵測(cè)交易、微陣列樣本分類。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握用 R 語(yǔ)言處理真實(shí)案例的常用方法和流程。- 32 -4.17 大數(shù)據(jù)分析綜合應(yīng)用Hadoop 目前正在被越來(lái)越多企業(yè)所應(yīng)用,其范圍涉及子商務(wù)、能源發(fā)現(xiàn)、能源節(jié)省、基礎(chǔ)設(shè)施管理、圖像處理、。并且其擴(kuò)張趨勢(shì)日益明顯。旅游、移動(dòng)數(shù)據(jù)、電檢測(cè)、IT 安全和醫(yī)療本類實(shí)驗(yàn)主要側(cè)重用大數(shù)據(jù)分析中的綜合應(yīng)用案例,要求學(xué)生在實(shí)驗(yàn)前先完成
42、R語(yǔ)言數(shù)據(jù)挖掘、Hadoop 大數(shù)據(jù)分析和JAVA 自然語(yǔ)言處理實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:社交網(wǎng)絡(luò)結(jié)構(gòu)分析、超市零售數(shù)據(jù)分析、消息分析、用戶上網(wǎng)行為分析和評(píng)分分析。通過(guò)本類實(shí)驗(yàn),學(xué)生可以掌握大數(shù)據(jù)分析真實(shí)案例的常用方法和流程。- 33 -4.18實(shí)驗(yàn)列表- 34 -實(shí)驗(yàn)大類實(shí)驗(yàn)?zāi)K實(shí)驗(yàn)項(xiàng)目演示類實(shí)驗(yàn)統(tǒng)計(jì)與建模方法演示探索性數(shù)據(jù)分析演示常用概率分布和漸進(jìn)性演示置信區(qū)間和假設(shè)檢驗(yàn)演示單元線性回歸模型演示廣義線性回歸模型演示數(shù)據(jù)挖掘方法演示分類基本流程演示數(shù)據(jù)預(yù)處理演示分類方法演示聚類分析演示關(guān)聯(lián)分析演示Excel 類實(shí)驗(yàn)Excel 數(shù)據(jù)處理Excel 基本操作Excel 數(shù)據(jù)可視化Excel 函數(shù)與公式
43、Excel表Excel 數(shù)據(jù)分析Excel 高級(jí)編程VBA 程序基礎(chǔ)VBA 數(shù)據(jù)類型VBA 流程控制VBA 綜合應(yīng)用R 語(yǔ)言類實(shí)驗(yàn)R 語(yǔ)言編程基礎(chǔ)R 語(yǔ)言數(shù)據(jù)類型R 語(yǔ)言子集和控制語(yǔ)句R 語(yǔ)言數(shù)據(jù)導(dǎo)入導(dǎo)出R 語(yǔ)言數(shù)據(jù)可視化R 語(yǔ)言探索性數(shù)據(jù)分析R 語(yǔ)言統(tǒng)計(jì)與建模R 語(yǔ)言常用概率分布和漸進(jìn)性R 語(yǔ)言置信區(qū)間和假設(shè)檢驗(yàn)初級(jí)中級(jí)高級(jí)- 35 -R 語(yǔ)言單元線性回歸模型R 語(yǔ)言多元線性回歸模型R 語(yǔ)言廣義線性回歸模型R 語(yǔ)言數(shù)據(jù)挖掘R 語(yǔ)言分類基本流程R 語(yǔ)言數(shù)據(jù)預(yù)處理R 語(yǔ)言決策樹(shù)分類方法R 語(yǔ)言高級(jí)分類方法R 語(yǔ)言聚類分析R 語(yǔ)言關(guān)聯(lián)分析R 語(yǔ)言數(shù)據(jù)分析綜合應(yīng)用R 語(yǔ)言建立響應(yīng)模型R 語(yǔ)言價(jià)格R
44、語(yǔ)言建立信用評(píng)分模型R 語(yǔ)言門店銷售額R 語(yǔ)言教育情況分析SAS 類實(shí)驗(yàn)SAS 編程基礎(chǔ)SAS 基本操作SAS 數(shù)據(jù)步SAS 數(shù)據(jù)導(dǎo)入導(dǎo)出SAS 數(shù)據(jù)可視化SAS 宏定義和調(diào)用SAS 統(tǒng)計(jì)與建模SAS 常用概率分布和漸進(jìn)性SAS 置信區(qū)間和假設(shè)檢驗(yàn)SAS 線性回歸模型SAS 廣義線性回歸模型SAS 方差分析SAS 數(shù)據(jù)挖掘SAS 主成分和因子分析SAS 聚類分析SAS 判別分析SAS 相關(guān)分析SAS 生存分析SAS 常用概率分布和漸進(jìn)性SAS 數(shù)據(jù)分析綜合應(yīng)用SAS 建立響應(yīng)模型SAS價(jià)格SAS 建立信用評(píng)分模型五.建設(shè)優(yōu)勢(shì)5.1 方案優(yōu)勢(shì)數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)解決方案全面“產(chǎn)、學(xué)、研、用”
45、的和模式,從教學(xué)、實(shí)踐、科研和使用多方面注重專業(yè)大數(shù)據(jù)產(chǎn)業(yè)需求和發(fā)展的角度規(guī)劃和建設(shè)大數(shù)據(jù)分析和特色的培養(yǎng)。能夠從,真正在產(chǎn)業(yè)、學(xué)校、科研及實(shí)際項(xiàng)目中相互配合,發(fā)揮優(yōu)勢(shì),形成生產(chǎn)、學(xué)習(xí)、科學(xué)研究、實(shí)踐運(yùn)用的系統(tǒng)模式。解決方案一方面能夠?qū)W生的動(dòng)手能力和實(shí)戰(zhàn)能力,按照從理論學(xué)習(xí)到項(xiàng)目實(shí)踐的方式增強(qiáng)學(xué)生大數(shù)據(jù)分析的能力與經(jīng)驗(yàn);另一方面還可以為教師提供良好的數(shù)據(jù)分析科研環(huán)境,提高學(xué)校教師工程化實(shí)踐項(xiàng)目實(shí)施和管理經(jīng)驗(yàn)。- 36 -SAS門店銷售額SAS教育情況分析Hadoop 類實(shí)驗(yàn)Hadoop 大數(shù)據(jù)分析HDFS 基本操作MapReduce 詞頻統(tǒng)計(jì)MapReduce 高級(jí)特性迭代式 MapReduc
46、e 程序開(kāi)發(fā)Hive 基本操作Spark 大數(shù)據(jù)分析Spark 基本操作Spark 詞頻統(tǒng)計(jì)Spark 網(wǎng)絡(luò)日志分析Spark 實(shí)體Spark大數(shù)據(jù)分析綜合應(yīng)用車輛 GPS 位置信息分析超市零售數(shù)據(jù)分析消息分析用戶上網(wǎng)行為分析評(píng)分分析5.2 技術(shù)優(yōu)勢(shì)實(shí)驗(yàn)室的采用業(yè)內(nèi)先進(jìn)的云計(jì)算虛擬化技術(shù),通過(guò)云計(jì)算虛擬化調(diào)度和管理實(shí)驗(yàn)與計(jì)算資源。學(xué)生實(shí)驗(yàn)所需的開(kāi)發(fā)與操作環(huán)境均以虛擬化的方式提供,讓學(xué)生進(jìn)行大數(shù)據(jù)分析相關(guān)的開(kāi)發(fā)與數(shù)據(jù)分析工作。實(shí)驗(yàn)可為每個(gè)學(xué)生分配獨(dú)立的實(shí)驗(yàn)環(huán)境,并提供簡(jiǎn)單可用的開(kāi)發(fā)環(huán)境與真實(shí)有效的數(shù)據(jù)資源。實(shí)驗(yàn)對(duì)計(jì)算復(fù)雜的大數(shù)據(jù)分析提供的 Hadoop 計(jì)算環(huán)境,并用可對(duì)環(huán)境中的學(xué)生資源進(jìn)行有效
47、管理。采用了如下:3V-CloudLab 技術(shù)(Virtual OS, Virtual App, Virtual Environment)服務(wù)運(yùn)行在虛擬 OS 層,有硬件虛擬化支持,保證服務(wù)的一致性、可遷移性與基本性能。虛擬應(yīng)用技術(shù)帶來(lái)的直接好處實(shí)驗(yàn)工具免安裝,實(shí)驗(yàn)主機(jī)直接從網(wǎng)絡(luò)路徑應(yīng)用至本地運(yùn)行。虛擬實(shí)驗(yàn)環(huán)境,在虛擬 OS 與虛擬 APP 的基礎(chǔ)上,進(jìn)一步模擬各類實(shí)驗(yàn)組網(wǎng),根據(jù)課程內(nèi)容需要?jiǎng)討B(tài)完成。實(shí)驗(yàn)環(huán)境虛擬化:以云的方式提供培訓(xùn)服務(wù)。WebTerm 技術(shù)使用 Web 瀏覽器接入桌面,無(wú)需其它。實(shí)驗(yàn)與課程在流程上結(jié)合得更緊密。AutoDeploying 技術(shù)方便實(shí)驗(yàn)。通過(guò) CF 卡上的網(wǎng)絡(luò)安裝程序,完成本地資源規(guī)劃與實(shí)現(xiàn)無(wú)人值守。部署,SelfRecover 技術(shù)借助虛
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工字鋼結(jié)構(gòu)焊接質(zhì)量檢測(cè)標(biāo)準(zhǔn)匯編
- 民間借貸合同范本及注意點(diǎn)
- 小學(xué)低年級(jí)寫(xiě)作啟蒙指導(dǎo)與范文分享
- 小學(xué)網(wǎng)絡(luò)安全教育課程設(shè)計(jì)
- 幼兒園課程體系與教學(xué)資源建設(shè)
- 城市道路標(biāo)線施工組織設(shè)計(jì)方案
- 2026年云南高考理科綜合歷年真題試卷
- 公共場(chǎng)所安全管理實(shí)務(wù)指南
- 智能制造工業(yè)大數(shù)據(jù)應(yīng)用方案
- 2026年青海高考英語(yǔ)真題卷及答案
- 2026青海果洛州久治縣公安局招聘警務(wù)輔助人員30人筆試模擬試題及答案解析
- 2025-2030中國(guó)環(huán)保產(chǎn)業(yè)市場(chǎng)動(dòng)態(tài)及投資機(jī)遇深度分析報(bào)告
- GB/T 6074-2025板式鏈、連接環(huán)和槽輪尺寸、測(cè)量力、抗拉載荷和動(dòng)載載荷
- 《醫(yī)療機(jī)構(gòu)胰島素安全使用管理規(guī)范》
- 華師福建 八下 數(shù)學(xué) 第18章 平行四邊形《平行四邊形的判定 第1課時(shí) 用邊的關(guān)系判定平行四邊形》課件
- 特殊作業(yè)安全管理監(jiān)護(hù)人專項(xiàng)培訓(xùn)課件
- 電梯日管控、周排查、月調(diào)度內(nèi)容表格
- 人教版三年級(jí)上冊(cè)《生命-生態(tài)-安全》全冊(cè)教案(及計(jì)劃)
- 電能表修校工(高級(jí)技師)技能認(rèn)證理論考試總題及答案
- 長(zhǎng)塘水庫(kù)工程環(huán)評(píng)報(bào)告書(shū)
- 工程建設(shè)公司QC小組提高型鋼混凝土柱預(yù)埋地腳螺栓一次施工合格率成果匯報(bào)書(shū)
評(píng)論
0/150
提交評(píng)論