大數據教學大綱-20170720_第1頁
大數據教學大綱-20170720_第2頁
大數據教學大綱-20170720_第3頁
大數據教學大綱-20170720_第4頁
大數據教學大綱-20170720_第5頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據課程教學大綱適合專業(yè):數據科學與大數據技術專業(yè)課程編號:先修課程:高等數據、線性代數、JAVA學分:J 總學時:64一、課程性質、目的與要求課程性質:專業(yè)必修課。課程目的:通過對大數據的相關知識介紹,使學生掌握大數據的概念和原理,熟悉大數據的理論與算法,了解大數據未來發(fā)展趨勢,能夠利用所學知識,進行大數據應用實現和算法設計,培養(yǎng)學生運用大數據技術解決大數據行業(yè)應用問題。課程要求:本課程系統(tǒng)介紹了大數據的理論知識和實戰(zhàn)應用,包括大數據概念與應用、數據采集與預處理、數據挖掘算法與工具、R語言、深度學習以及大數據可視化等,并深度剖析了大數據在互聯網、商業(yè)和典型行業(yè)的應用。期望學生對大數據處理技

2、術有比較深入的理解,能夠從具體問題或實例入手,利用所學的大數據知識在應用中實現數據分析和數據挖掘。二、教學內容理論總學時:36學時第1章大數據概念與應用2學時基本要求:熟悉大數據的概念與意義、大數據的來源、大數據應用場景及大數據處理方法等內容。重點:大數據的定義、研究內容與應用。難點:無。第2章數據采集與預處理4學時基本要求:熟悉常用的大數據采集工具,特別是ApacheKafka數據采集使用方法;熟悉數據預處理原理和方法,包括數據清洗、數據集合、數據轉換;掌握數據倉庫概念與ETL工具Kettle的實際應用。重點:ApacheKafka數據采集、數據清洗、數據倉庫與ETL工具。難點:ETL工具K

3、ettle的實際應用。第3章數據挖掘算法6學時基本要求:熟悉常用的數據挖掘算法,內容上從分類、聚類、關聯規(guī)則和預測模型等數據挖掘常用分析方法出發(fā)掌握相對應的算法,并能熟練進行數據挖掘算法的綜合應用。重點:分類算法、聚類算法、關聯規(guī)則、時間序列預測。難點:數據挖掘算法的綜合應用。第4章大數據挖掘工具4學時基本要求:熟練掌握機器學習系統(tǒng)Mahout和大數據挖掘工具SparkMllib下的分類算法、聚類算法、協同過濾算法的使用,并對其他數據挖掘工具有所了解。重點:Mahout安裝與使用、SparkMllib工具的使用。難點:Mahout和SparkMllib工具的使用。第5章R語言4學時基本要求:了

4、解R語言的發(fā)展歷程、功能和應用領域;熟悉R語言在數據挖掘中的應用;掌握R語言在分布式并行實時計算環(huán)境Spark中的應用SparkR。重點:R語言基本功能、R語言在數據挖掘中的應用、SparkR主要機器學習算法。難點:R語言與數據挖掘。第6章深度學習4學時基本要求:了解深度學習的發(fā)展過程和實際應用場景,并結合人腦的工作原理,理解深度學習的相關概念和工作機制,做到能夠熟練使用常用的深度學習軟件。重點:人腦神經系統(tǒng)與深度學習、卷積神經網絡、深度置信網絡、循環(huán)(遞歸)神經網絡、TensorFlow和Caffe。難點:人工神經網絡。第7章大數據可視化4學時基本要求:熟悉大數據可視化的基礎知識;掌握文本可

5、視化、網絡可視化、時空數據可視化、多維數據可視化等常用的大數據可視化方法,可通過Excel、Processing、NodeXLf口ECharts軟件實現數據的可視化。重點:數據可視化流程、大數據可視化方法、大數據可視化軟件與工具難點:時空數據可視化、多維數據可視化。第8章互聯網大數據處理4學時基本要求:掌握互聯網信息抓取技術,能夠通過互聯網信息抓取、文本分詞、倒排索引與網頁排序這4個主要步驟實現互聯網大數據處理,并能夠熟練運用。重點:Nutch爬蟲、文本分詞、倒排索引、網頁排序。難點:倒排索引。第9章大數據商業(yè)應用2學時基本要求:熟悉用戶畫像和精準營銷的構建;熟悉廣告推薦系統(tǒng)的建設;熟悉互聯網

6、金融的應用方法。重點:用戶畫像構建流程、用戶標簽、廣告推薦、互聯網金融應用方向。難點:信用評分算法、分類模型的性能評估。第10章行業(yè)大數據2學時基本要求:以地震大數據、交通大數據、環(huán)境大數據和警務大數據為例來熟悉行業(yè)大數據的應用,學會利用數據創(chuàng)造價值。重點:理解數據和數據分析在業(yè)務活動中的具體表現。難點:無。三、實踐教學要求實踐總學時:28學時序號實驗項目名稱實驗實驗要求實驗內容簡介基本要求學時分配1ApacheKafka數據采集工具驗證必做在CentOS7操作系統(tǒng)環(huán)境卜,設置大于4GB的交換空間,進行ApacheKafka的安裝和使用。 該實驗可以在大數據實驗平臺上開展。熟練22數據挖掘算法

7、應用設計必做做實驗前需要老師上傳實驗輸入數據,明確實驗目的與要求,熟練4指導學生完成數據挖掘算法的綜合運用實驗。該實驗可以在大數據實驗平臺上開展。3Mahout應用必做安裝Linux操作系統(tǒng)和Hadoop平臺后完成Mahout的部署,并上傳實驗輸入數據,完成分類算法、聚類算法、協同過濾算法的應用。該實驗可以在大數據實驗平臺上開展。熟練24SparkMLlib應用必做在Spark環(huán)境中,運用SparkMllib工具中實現分類算法、聚類算法、協同過濾算法的應用。該實驗可以在大數據實驗平臺上開展。熟練25Cifar-10目標識別應用必做運用Caffe框架狀取Cifar-10數據集,將訓練數據集轉化為

8、訓練需要的格式,將訓練集送入網絡訓練,得到最終的識別模型,識別數據集的10類目標物體。 該實驗可以在深度學習一體機上開展。熟練26MNIS仃寫體數字識別項目應用必做利用caffe框架獲得MNIST手寫體數字數據集和LeNeT網絡描述文件,將原始數據轉化為訓練數據輸入網絡,經過不斷的迭代得到最終網絡模型,利用模型可以識別出和同類型的手寫體數字。該實驗可以在深度學習一體機上開展。熟練27搜索引擎設計必做先從網頁中取部分數據信息, 然后從這些信息中提取去我們所需要的幾項數據,將其存儲在HBase中。 然后我們可以通過關鍵詞搜索從HBase中將這些數據根據我們的關鍵詞提取出來。該實驗可以在大數據實驗平

9、臺上開展。熟練48推薦系統(tǒng)設計必做根據數據集利用Spark進行訓練,得到一個最佳推薦模型,并用實際數據和平均值這兩方面評價該模型的準確度。該實驗可以在大數據實驗平臺上開展。熟練49個人貸款風險評估應用必做通過提取貸款用戶相關特征,使用SparkMLlib構建風險評估模型,使用邏輯回歸算法將用戶分為高風險、低風險兩種風險等級,此分類結果可作為銀行放貸的參考依據。該實驗可以在大數據實驗平臺上開展。熟練210環(huán)境大數據設計必做選取北京2016年1月到6月這半年間的每小時天氣和空氣質量數據,要求每位學生在client服務器上運行這些數據,從中分析出的環(huán)境統(tǒng)計結果,包含月平均氣溫、空氣質量分布情況等。該

10、實驗可以在熟練4大數據實驗平臺上開展。注:1、實驗類型:演示、驗證、綜合、設計、研究2、實驗要求:必做、選做四、課時分配廳 P早下內容理論劃、節(jié)時數實驗時數1第1章大數據概念與應用22第2章數據采集與預處理423第3章數據挖掘算法644弟4早大數據挖掘工具445弟5早R語百46弟6早深度學習447第7章人數據RJ視化48第8章互聯網大數據處理449第9章大數據商業(yè)應用2610第10章行業(yè)大數據24合計:3628總學分4總學時64五、建議教材與教學參考書廳 P書名出版社版本1大數據劉鵬電子工業(yè)出版社12云計算劉鵬電子工業(yè)出版社33大數據庫劉鵬電子工業(yè)出版社14大數據實驗手冊劉鵬電子工業(yè)出版社15實戰(zhàn)Hadoop2.0從云計算到大數據葉曉江、劉鵬電子工業(yè)出版社2六、教學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論