版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1/1旅游大數(shù)據(jù)平臺方案doc資料旅游大數(shù)據(jù)平臺方案
旅游研究院大數(shù)據(jù)挖掘與分析科研平臺建設方案
一.背景
1.1數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢
移動互聯(lián)網(wǎng)、電子商務以及社交媒體的快速發(fā)展使得企業(yè)需要面臨的數(shù)據(jù)量
成指數(shù)增長。根據(jù)IDC《數(shù)字宇宙》(DigitalUniverse)研究報告顯示,2020年全球新建和復制的信息量已經(jīng)超過40ZB,是2015年的12倍;而中國的數(shù)據(jù)量則會在2020年超過8ZB,比2015年增長22倍。數(shù)據(jù)量的飛速增長帶來了大數(shù)據(jù)
技術和服務市場的繁榮發(fā)展。IDC亞太區(qū)(不含日本)最新關于大數(shù)據(jù)和分析(BDA)領域的市場研究表明,大數(shù)據(jù)技術和服務市場規(guī)模將會從2012年的5.48億美元增加到2017年的23.8億美元,未來5年的復合增長率達到34.1%。該市場涵蓋了存儲、服務器、網(wǎng)絡、軟件以及服務市場。數(shù)據(jù)量的增長是一種非線性的增長速度。
據(jù)IDC分析報道,最近一年來,亞太區(qū)出現(xiàn)了越來越廣泛的大數(shù)據(jù)和分析領
域的應用案例。在中國,從互聯(lián)網(wǎng)企業(yè),到電信、金融、政府這樣的傳統(tǒng)行業(yè),
都開始采用各種大數(shù)據(jù)和分析技術,開始了自己的大數(shù)據(jù)實踐之旅;應用場景也在
逐漸拓展,從結構化數(shù)據(jù)的分析,發(fā)展到半結構化、非結構化數(shù)據(jù)的分析,尤
其是社交媒體信息分析受到用戶的更多關注。用戶們開始評估以Hadoop、數(shù)據(jù)庫
一體機以及內存計算技術為代表的大數(shù)據(jù)相關新型技術。
最新調研結果顯示,提高競爭優(yōu)勢,降低成本以及吸引新的客戶是中國用戶對大數(shù)據(jù)項目最期望的三大回報。目前現(xiàn)有的大數(shù)據(jù)項目主要集中在業(yè)務流程優(yōu)化以及提高客戶滿意度方面的應用。IDC發(fā)現(xiàn)很多用戶希望大數(shù)據(jù)能夠為企業(yè)帶來業(yè)務創(chuàng)新,并且開始使用高級分析的解決方案以管理復雜的數(shù)據(jù)環(huán)境。過去一年中用戶對社交數(shù)據(jù)的收集和分析應用的關注度增加明顯。未來,地理位置信息分析將會增長迅速,這也會推動用戶對大數(shù)據(jù)安全和隱私管理的關注。在亞太區(qū),澳大利亞和新加坡的用戶對大數(shù)據(jù)的相關投資主要在咨詢服務方面,更關注如何根據(jù)新的最佳實踐需求設計和實施方案。中國和印度在大數(shù)據(jù)領域的硬件投資則非常明顯,更傾向于數(shù)據(jù)中心相關的基礎架構的投資。
在傳統(tǒng)的數(shù)據(jù)分析與商業(yè)數(shù)據(jù)挖掘中,人們通常遵循二八原則。也就是任務20%的用戶提供了80%的價值,因此利用優(yōu)勢資源用戶對于少數(shù)用戶的服務。隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的低價值用戶進入到商業(yè)體系中,這部分用戶成為商業(yè)企業(yè)競爭的目標。比如電商行業(yè),大量顧客都是傳統(tǒng)意義上的低價值客戶,數(shù)據(jù)表明對于這部分用戶價值的挖掘可以改變二八原則,甚至可達到價值的幾乎均勻分布。并且由于計算技術的發(fā)展,對于大數(shù)據(jù)的分析也成為了可能。
1.2旅游行業(yè)開展大數(shù)據(jù)分析及應用的意義
旅游行業(yè)有行業(yè)廣、規(guī)模大、移動性強的特點,因此更加依賴大數(shù)據(jù)。當前,旅游業(yè)也在“新常態(tài)”下迎來了升級的挑戰(zhàn)和變革的機遇,新常態(tài)對于一般的經(jīng)濟部門是經(jīng)濟速度放慢、人均GDP增速減小,很多傳統(tǒng)行業(yè)在調整結構,但新常態(tài)對旅游行業(yè)卻是速度加快的。旅游大數(shù)據(jù)的解決之道,在于整合國內多途徑的大數(shù)據(jù)源,形成旅游大數(shù)據(jù)生態(tài),為國內旅游業(yè)提供大數(shù)據(jù)解決方案,促進旅游業(yè)的轉型升級。
1.3數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺建設的必要性
數(shù)據(jù)挖掘與大數(shù)據(jù)分析是以計算機基礎為基礎,以挖掘算法為核心,緊密面向行業(yè)應用的一門綜合性學科。其主要技術涉及概率論與數(shù)理統(tǒng)計、數(shù)據(jù)挖掘、
算法與數(shù)據(jù)結構、計算機網(wǎng)絡、并行計算等多個專業(yè)方向,因此該學科對于科研平臺具有較高的專業(yè)要求。科研平臺不僅要提供基礎的編程環(huán)境,還要提供大數(shù)據(jù)的運算環(huán)境以及用于科學研究的實戰(zhàn)大數(shù)據(jù)案例。這些素材的準備均需完整的科研平臺作為支撐。
目前,在我國高校的專業(yè)設置上與數(shù)據(jù)挖掘與大數(shù)據(jù)分析相關的學科專業(yè)包括:計算機科學與技術、信息管理與信息系統(tǒng)、統(tǒng)計學、經(jīng)濟、金融、貿易、生物信息、旅游以及公共衛(wèi)生等。這些專業(yè)的在使用科研平臺時的側重點各不相同,使用人員層次水平也不相同,對算法的使用也不相同,因此,需要建設一個便利、操作簡易、算法全面、可視化的大數(shù)據(jù)科研平臺是非常有必要的。
二.數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺總體規(guī)劃
2.1科研平臺規(guī)劃
科研平臺建設的基本原則是科研為主,同時為教學實驗提供部分計算資源及安全資源,系統(tǒng)在授權范圍內共享科研系統(tǒng)的計算資源,提高教學實驗的真實性。
項目的總體架構如圖1所示。
大數(shù)據(jù)科研環(huán)境
Hadoop集群Hadoop集群可視化計算虛擬化實驗集群集群
21U21U21U
21U
2U2U2U2U
2U2U2U2U
2U2U2U2U
2U2U2U2U
2U2U2U
2U2U2U
10U
2U2U2U
2U2U2U
千兆數(shù)據(jù)千兆數(shù)據(jù)
交換機交換機
核心交
換機
2U
圖1.總體架構圖
系統(tǒng)整體由千兆核心交換機作為核心節(jié)點,并以兩個千兆接入交換機作為科研與實驗環(huán)境的交換節(jié)點??蒲协h(huán)境由我司開發(fā)的商業(yè)Hadoop集群為基礎,上
層集成便于操作的大數(shù)據(jù)科研應用系統(tǒng),集成10TB大數(shù)據(jù)案例集及可拖拽的數(shù)據(jù)算法和可視化算法。
2.2科研平臺功能規(guī)劃
本科研平臺針對數(shù)據(jù)挖掘有大數(shù)據(jù)分析研究內容,兼顧科研與教學的需求,
既能滿足科研工作中對大數(shù)據(jù)分析高性能平臺要求也具有教學實驗平臺簡單易用
的特點。
1)大數(shù)據(jù)資源規(guī)劃
內置商業(yè)級數(shù)據(jù)資源,按常見科研分類規(guī)劃數(shù)據(jù)資源,可以直接用于科學研究,具有數(shù)據(jù)資源授權管控功能。
2)大數(shù)據(jù)分析功能規(guī)劃
建設以商業(yè)版Hadoop為核心的大數(shù)據(jù)分析平臺,系統(tǒng)提供MapReduce以及Spark等大數(shù)據(jù)挖掘功能。系統(tǒng)具有完整的管理調度功能。
3)硬件資源功能規(guī)劃
系統(tǒng)具有24個IntelXeonE5CPU計算能力,提供超過40TB的存儲能力以及1T以上的內存,可滿足1000任務共時計算內能,方便擴充。
三.數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺建設方案
3.1大數(shù)據(jù)科研平臺設備架構
高性能交換機高性能交換機高性能交換機
主節(jié)點備份主節(jié)點管理節(jié)點
接口節(jié)點計算節(jié)點計算節(jié)點
接口節(jié)點計算節(jié)點計算節(jié)點
計算節(jié)點計算節(jié)點計算節(jié)點
計算節(jié)點計算節(jié)點計算節(jié)點
機架1機架2機架3
圖3.設備架構
3.1.1主節(jié)點和備份主節(jié)點
主節(jié)點負責整個分布式大數(shù)據(jù)平臺的運行。主節(jié)點始終在內存中保存整個文件系統(tǒng)的目錄結構,每個目錄有哪些文件,每個文件有哪些分塊及每個分塊保存
在哪個計算上,用于處理讀寫請求。同時,主節(jié)點還負責將作業(yè)分解成子任務,
并將這些子任務分配到各個計算節(jié)點上。備份主節(jié)點在主節(jié)點發(fā)生故障時承擔主節(jié)點的各種任務,使得分布式大數(shù)據(jù)平臺仍然能夠正常運行。
3.1.2管理節(jié)點
管理節(jié)點用于管理整個分布式大數(shù)據(jù)平臺,可進行節(jié)點安裝、配置、服務配置等,提供網(wǎng)頁窗口界面提高了系統(tǒng)配置的可見度,而且降低了集群參數(shù)設置的復雜度。
3.1.3接口節(jié)點
終端用戶通過接口節(jié)點連接和使用分布式大數(shù)據(jù)平臺,提交任務并獲得結
果,并可以用其他數(shù)據(jù)分析工具做進一步處理,與外界進行數(shù)據(jù)交互(如連接關系型數(shù)據(jù)庫)。
3.1.4計算節(jié)點
分布式大數(shù)據(jù)平臺包含了多個計算節(jié)點。計算節(jié)點是系統(tǒng)中真正存儲數(shù)據(jù)和做數(shù)據(jù)運算的節(jié)點。每個計算節(jié)點周期性地和主節(jié)點通信,還時不時和客戶端代
碼以及其他計算節(jié)點通信。計算節(jié)點還維護一個開放的socket服務器,讓客戶端代碼和其他計算節(jié)點通過它可以讀寫數(shù)據(jù),這個服務器還會匯報給主節(jié)點。
3.2大數(shù)據(jù)科研平臺底層架構
大數(shù)據(jù)科研平臺低層架構以我司自主研發(fā)的商業(yè)版Hadoop為基礎架構,包含和大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學習等功能模塊,并以HDFS以及Hbase作為存儲基礎。
任務執(zhí)行調度接口數(shù)據(jù)交互接口統(tǒng)計建模
(Shell)(JDBC,ODBC)(R)
批處理交互式SQL引擎機器學習算法庫內存計算
(MapReduce,Pig)(Hive)(Mahout)(Spark)
分布式資源調度管理
管理監(jiān)控
(HonyaES-data)(YARN)
分布式存儲
(Sentry)
分布式持久化數(shù)據(jù)存儲分布式實時數(shù)據(jù)庫
(HDFS)(Hbase)
圖2.軟件架構
3.2.1分布式持久化數(shù)據(jù)存儲——HDFS
Hadoop分布式文件系統(tǒng)(HDFS)被設計成適合運行在通用硬件上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS放寬了一部分POSIX約束,來實現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。
3.2.2分布式實時數(shù)據(jù)庫——HBase
HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術來源于FayChang所撰寫的Google論文“Bigtable:一個結構化數(shù)據(jù)的分布式存儲系統(tǒng)”。就像
Bigtable利用了Google文件系統(tǒng)(所提供的分布式數(shù)據(jù)存儲一樣,HBase在Hadoop之上提供了類似于BigTable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數(shù)據(jù)庫,它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。
3.2.3分布式資源調度管理——YARN
Yarn是Hadoop2.0的MapReduce框架。YARN分層結構的本質是ResourceManager。這個實體控制整個集群并管理應用程序向基礎計算資源的分配。ResourceManager將各個資源部分(計算、內存、帶寬等)精心安排給基礎NodeManager(YARN的每節(jié)點代理)。ResourceManager還與ApplicationMaster一起分配資源,與NodeManager一起啟動和監(jiān)視它們的基
礎應用程序。在此上下文中,ApplicationMaster承擔了以前的TaskTracker的一些角色,ResourceManager承擔了JobTracker的角色。
3.2.4交互式SQL引擎——Hive
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射
為一張數(shù)據(jù)庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉換為
MapReduce任務進行運行。其優(yōu)點是學習成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數(shù)
據(jù)倉庫的統(tǒng)計分析。
3.2.5內存計算——Spark
Spark是UCBerkeleyAMP實驗室所開源的類HadoopMapReduce的通用的并行計算框架。Spark擁有HadoopMapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫
HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce算法。
3.3科研平臺的功能
3.3.1科研項目管理
在科研平臺中,科研計算是以計算項目來保存的,包括了計算項目建立、計算項目維護、計算項目設計、計算項目運行和結果可視化等幾個環(huán)節(jié)。從技術角度來說,計算項目中也包括了算法組件、算法流程和數(shù)據(jù)集,一旦設計完后,就可用于計算,后期還可以調整算法和基于新的數(shù)據(jù)資源進行計算。
計算項目完成后,可以訓練出算法模型,在新的計算項目中使用已經(jīng)訓練
好的模型進行數(shù)據(jù)的預測,形成一次訓練多次使用的算法實現(xiàn)。
3.3.2平臺內置數(shù)據(jù)集
在科研工作中,如何獲取到海量高質量大數(shù)據(jù)資源是最大的難點。目前在互聯(lián)網(wǎng)等渠道是很難找到科研工作所需的數(shù)據(jù)源,尤其是經(jīng)過數(shù)據(jù)清洗和治理后的高質量數(shù)據(jù)。
數(shù)據(jù)超市平臺利用以下模式,通過外部的資源,為高校的科研工作提供優(yōu)質數(shù)據(jù)資源:
1)通過商務合作的模式,直接與數(shù)據(jù)所有權擁有者進行靈活的商務溝
通,獲得科研的數(shù)據(jù)使用授權;
2)邀請行業(yè)內優(yōu)質的第三方數(shù)據(jù)服務提供商入駐數(shù)據(jù)超市平臺;
3)通過數(shù)據(jù)采集的方式,經(jīng)過數(shù)據(jù)尋源、采集、治理、清洗后,引入具
有公開版權的數(shù)據(jù)資源;
所有引入數(shù)據(jù)都會經(jīng)過數(shù)據(jù)工程師的嚴格審核,保證數(shù)據(jù)的清潔和質量,可
以直接用于數(shù)據(jù)計算。
如平臺內置的專利數(shù)據(jù),包括了國內近2000萬各類商業(yè)數(shù)據(jù),并且不斷更新,可以直接用于旅游各方面的科學研究。有別區(qū)目前行業(yè)提供的數(shù)據(jù)庫,數(shù)據(jù)超市直接提供了原始的數(shù)據(jù),可以打通其他的行業(yè)數(shù)據(jù),用于深層次的數(shù)據(jù)分析和經(jīng)濟預測。
3.3.3科研數(shù)據(jù)上傳
科研老師已有的數(shù)據(jù)可以上傳到平臺參與數(shù)據(jù)計算,老師可以在平臺上建立數(shù)據(jù)表,然后把本地數(shù)據(jù)文件上傳到數(shù)據(jù)表中。也可以維護外部的JDBC數(shù)據(jù)源,平臺會把外部數(shù)據(jù)自動抽取到平臺中進行計算和預測。
3.3.4集成算法組件
為了便于科研老師快速進行科研數(shù)據(jù)的加工、分析和計算,數(shù)據(jù)超市平臺集
成了50多種通用大數(shù)據(jù)算法組件,包括回歸算法、分類算法、聚類算法、關聯(lián)
規(guī)劃算法、推薦算法、預測評估、數(shù)據(jù)預處理算法、機器學習等。所有的算法無
須重新編程,只需要拖拽繪圖完成即可進行計算,如下圖:
算法組件經(jīng)過配置可以實現(xiàn)強大的自定義計算功能和效果,調整后的模型可以完成老師需要的數(shù)據(jù)分析和預測。
3.3.5科研平臺可視化功能
提供20余種可視化展示模式,一鍵選擇,一鍵切換,可按使用者需求展示
大數(shù)據(jù)之美,根據(jù)需要展示對應的緯度,并可以一鍵生成高質量PNG文件,保存到本地后可用于科研報告和論文等。
四.平臺數(shù)據(jù)集清單
科研平臺為方便用戶快速開展科學研究、生成科研數(shù)據(jù)報告,平臺提供了一些通用的數(shù)據(jù)集,包括各類標準科研數(shù)據(jù)等。
平臺也內置了數(shù)百款可選數(shù)據(jù)集,分為多個數(shù)據(jù)包,總量近10TB,并且隨商務和采集工作推進,仍在不斷增加中。
五.定制數(shù)據(jù)服務
根據(jù)科研老師的需求,數(shù)據(jù)超市平臺提供數(shù)據(jù)采集和商務合作等定制數(shù)據(jù)
引入模式,數(shù)據(jù)引入后,可以直接引入數(shù)據(jù)超市,由老師來進行使用。
如老師需要旅游服務評價類數(shù)據(jù)進行服務情況的分析和預測,可以直接通過數(shù)據(jù)超市內的數(shù)據(jù)定制模塊提出數(shù)據(jù)需求,經(jīng)數(shù)據(jù)超市平臺管理員匯總后,可以通過數(shù)據(jù)超市平臺進行數(shù)據(jù)的準備,交給老師進行使用。
六.科研平臺算法清單
平臺集成的算法包括72種,全部來自科研網(wǎng)站,經(jīng)過了商業(yè)機構的驗證,
引入平臺后完成了分布式優(yōu)化,可以高效執(zhí)行,詳細如下表:
序算法分類算法名稱算法描述
號
1回歸算法線性回歸利用線性模型對數(shù)值型變量進行擬合。
2回歸算法決策樹回歸利用平方誤差最小化準則,進行特征選擇,生成二
叉樹,從而對對數(shù)值型變量進行擬合
3回歸算法隨機森林回歸以回歸決策樹為基模型,將一定數(shù)量的基模型組合
對數(shù)值型變量擬合,并對基模型的預測結果平均作
為算法的最終結果
4回歸算法梯度提升回歸樹以二叉回歸決策樹為基函數(shù)的加法模型與前向分
步結合的算法,通過對損失函數(shù)在當前模型的預
測值的梯度作為近似殘差進行擬合,從而對數(shù)值型
變量預測。
5分類算法邏輯回歸二分類對目標變量為二值型分類變量,建立參數(shù)化邏輯斯
諦分布,即sigmoid函數(shù),近似條件概率分布,以
實現(xiàn)二值分類。
6分類算法邏輯回歸多分類邏輯回歸多分類,k個獨立的logistic回歸分類器與
onevsall結合的分類模型,分類對象類別之間不是互
斥的
7分類算法Softmax回歸多分類Softmax回歸就是邏輯回歸的一般形式,是logistic
回歸模型在多分類問題上的推廣,分類對象類別是
互斥的
8分類算法決策樹分類利用信息增益準則或基尼指數(shù)最小化準則,進行特
征選擇,生成二叉樹,從而對對目標變量為離散變
量的數(shù)據(jù)進行分類
9分類算法隨機森林分類以分類決策樹為基模型,將一定數(shù)量的基模型組合
對離散型的目標變量擬合,并根據(jù)基模型的預測結
果進行投票,以占多數(shù)結果的種類作為算法的最終
結果
10分類算法梯度提升分類樹以二叉分類決策樹為基函數(shù)的加法模型與前向分
步結合的算法,通過對損失函數(shù)在當前模型的預測
值的梯度作為近似殘差進行擬合,從而對分類型目
標變量預測。
11分類算法BP神經(jīng)網(wǎng)絡以感知器為基函數(shù),通過將當前基函數(shù)的的輸出作
為下一個感知器的輸入,從而實現(xiàn)對離散型分類變
量的分類
12分類算法貝葉斯分類基于貝葉斯定理與特征條件獨立假設,對給定數(shù)據(jù)
集,學習輸入輸出的聯(lián)合概率分布,利用貝葉斯原
理輸出后驗概率最大的預測類作為預測結果
13分類算法支持向量機分類在感知機的基礎上,通過在特征空間上間隔最大和
核技巧,實現(xiàn)對二類目標變量分類
14聚類算法K均值聚類將無標記樣本根據(jù)特征空間中的數(shù)據(jù)結構,劃入K
個不相交的子集中
15聚類算法二分K均值聚類K均值聚類的改進版,能克服原算法收斂局部最小
的缺點,每次選其中一簇分成兩簇。
16聚類算法高斯混合模型對于符合高斯分布的數(shù)據(jù),假設存在K個高斯模
型,將數(shù)據(jù)反復迭代,期望極大化。將樣本聚到后
驗概率最大的模型類下。
17關聯(lián)規(guī)則算頻繁項集挖掘算法(FP-Growth)主要分為兩個步驟:FP-tree構建、遞歸挖掘FP-tree。
法挖掘出共同出現(xiàn)的頻繁物品集。
18推薦算法協(xié)同過濾算法協(xié)同過濾是在海量數(shù)據(jù)中挖掘出某部分與目標客
戶行為類似的數(shù)據(jù),并根據(jù)某種指標對其進行排
序。
19預測評估分類預測及評估分類算法中,在已有訓練數(shù)據(jù)訓練模型的基礎上,
將未訓練的數(shù)據(jù)代入算法中,預測結果與實際目標
變量比對評估,檢測模型的性能。
20預測評估回歸預測及評估回歸算法中,在已有訓練數(shù)據(jù)訓練模型的基礎上,
將未訓練的數(shù)據(jù)代入算法中,預測結果與實際目標
變量比對評估,檢測模型的性能。
21預測評估聚類預測及評估聚類算法中,在已有訓練數(shù)據(jù)訓練模型的基礎上,
將未訓練的數(shù)據(jù)代入算法中,預測結果與實際數(shù)據(jù)
類型比對評估,檢測模型的性能。
22預測評估推薦評估推薦算法中,在已有訓練數(shù)據(jù)訓練模型的基礎上,
將未訓練的數(shù)據(jù)代入算法中,預測結果與物品類目
比對評估,檢測模型的性能。
23數(shù)據(jù)預處理歸一化將有量綱的數(shù)據(jù)轉化為無量綱的數(shù)據(jù),min-max標
準化
24數(shù)據(jù)預處理Join-兩表關聯(lián)類似sqljoin的功能,將兩張表通過一個字段對或
者多個字段對的相等關系關聯(lián)合成一張表
25數(shù)據(jù)預處理類型轉換(string類型轉換數(shù)值類型)將不同數(shù)據(jù)的類型按需要進行轉換
26數(shù)據(jù)預處理Union對不同數(shù)據(jù)集取并集
27數(shù)據(jù)預處理標準化/正則化標準化是將數(shù)據(jù)縮放到一個區(qū)間范圍內,如正態(tài)分
布,小數(shù)定標,邏輯斯諦分布。正則化是利用先驗
知識,對模型增加約束,防止過擬合。
28數(shù)據(jù)預處理缺失值填充對數(shù)據(jù)中某項數(shù)值所對應的某些樣本缺失,通過某
種先驗假設,根據(jù)樣本其他已知數(shù)據(jù)項對缺失值擬
合預測。
29數(shù)據(jù)預處理拆分按照比例拆分樣本集,如設置0.6,切分成60:40兩
個樣本集。
30數(shù)據(jù)預處理隨機采樣當數(shù)據(jù)量過大或模型訓練批容量有限時,隨機采取
一定量/比例的樣本集。
31數(shù)據(jù)預處理增加序列號在數(shù)據(jù)表第一列追加ID列。
32數(shù)據(jù)預處理Select數(shù)據(jù)庫查詢操作,查詢某限定條件下的樣本
33數(shù)據(jù)預處理Select_Distinct數(shù)據(jù)庫查詢操作,查詢某限定條件下并過濾掉重
復的樣本
34數(shù)據(jù)預處理Select_Where數(shù)據(jù)庫查詢操作,查詢指定條件下的樣本
35數(shù)據(jù)預處理Select_And_Or數(shù)據(jù)庫查詢操作,查詢條件的交集與并集
36數(shù)據(jù)預處理Select_OrderBy數(shù)據(jù)庫查詢操作,查詢結果按某指標排序
37數(shù)據(jù)預處理Select_Limit數(shù)據(jù)庫查詢操作,查詢某限定段的數(shù)據(jù)
38數(shù)據(jù)預處理Select_Like數(shù)據(jù)庫查詢操作,查詢包含指定字段的數(shù)據(jù)
39特征工程主成分分析數(shù)據(jù)降維去噪常用方法,對數(shù)據(jù)的協(xié)方差矩陣取前
K個最大方差方向作為新的數(shù)據(jù)方向。
40特征工程Onehot編碼用戶將特征值進行二元編碼映射成二元向量,并與
數(shù)值向量進行拼接
42特征工程特征尺度變換由于計算需要或根據(jù)數(shù)據(jù)特點將某特征對應數(shù)據(jù)
項進行縮放,不改變樣本間該數(shù)值項的相對大小
43特征工程特征重要性分析指根據(jù)數(shù)據(jù)集各項特征在算法模型中對目標變量
的相對重要程度的分析,從而提出冗余特征,關注
重要特征,提高算法模型的效率準確性
44特征工程特征離散對連續(xù)型特征按某方法轉換為離散型變量
45文本分析SplitWord分布式jieba分詞接口,基于Trie樹結構實現(xiàn)高效
的詞圖掃描,生成句子中漢字所有可能成詞情況所
構成的有向無環(huán)圖(DAG);采用了動態(tài)規(guī)劃查找
最大概率路徑,找出基于詞頻的最大切分組合;對
于未登錄詞,采用了基于漢字成詞能力的HMM模
型,使用了Viterbi算法
46文本分析文檔主題生成模型(LDA)LDA(LatentDirichletallocation),是一種主題模型,
它可以將文檔集中每篇文檔的主題按照概率分布
的形式給出。同時它是一種無監(jiān)督學習算法,在訓
練時不需要手工標注的訓練集,需要的僅僅是文檔
集以及指定主題的數(shù)量k即可。LDA首先由David
M.Blei、AndrewY.Ng和MichaelI.Jordan于2003
年提出,目前在文本挖掘領域包括文本主題識別、
文本分類以及文本相似度計算方面都有應用。
47文本分析TF特征將文本文檔的集合轉換為詞頻計數(shù)的向量。
48文本分析HashingTF特征使用散列技巧將一系列詞語映射到其詞頻的向量,
HashingTF的過程就是對每一個詞作了一次哈希
并對特征維數(shù)取余得到該詞的位置,然后按照該詞
出現(xiàn)的次數(shù)計次。所以就不用像傳統(tǒng)方法一樣每次
維護一張詞表,運用HashingTF就可以方便的得
到該詞所對應向量元素的位置。當然這樣做的代價
就是向量維數(shù)會非常大,好在spark可以支持稀疏
向量,所以計算開銷并不大。
49文本分析TF-IDF特征TF-IDF(termfrequency–inversedocument
frequency)是一種用于資訊檢索與文本挖掘的常用
加權技術。TF-IDF是一種統(tǒng)計方法,用以評估一字
詞對于一個文件集或一個語料庫中的其中一份文
件的重要程度。字詞的重要性隨著它在文件中出
現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中
出現(xiàn)的頻率成反比下降。TF-IDF加權的各種形式常
被搜索引擎應用,作為文件與用戶查詢之間相關程
度的度量或評級。
50文本分析字符串相似度一個字符串轉換成另外一個字符串的代價,轉換的
代價越高則說明兩個字符串的相似度越低。
51文本分析停用詞過濾針對文檔數(shù)據(jù),將包含的特定詞匯過濾掉,不計入
52文本分析Word2Vec
53文本分析詞頻統(tǒng)計
54文本分析文本
59統(tǒng)計分析配對樣本均數(shù)T檢驗配對樣本均數(shù)t檢驗(pairedttest),又稱非獨立兩
樣本均數(shù)t檢驗,適用于配對設計計量資料均數(shù)的
比較,其比較目的是檢驗兩相關樣本均數(shù)所代表的
未知總體均數(shù)是否有差別。
60統(tǒng)計分析兩獨立樣本均數(shù)T檢驗兩獨立樣本t檢驗(two-samplet-test),又稱成組t檢
驗,它適用于完全隨機設計的兩樣本均數(shù)的比較,
其目的是檢驗兩樣本所來自總體的均數(shù)是否相等。
完全隨機設計是將受試對象隨機地分配到兩組中,
每組對象分別接受不同的處理,分析比較兩組的處
理效應。
61統(tǒng)計分析方差齊性檢驗由兩樣本方差推斷兩總體方差是否相同。有三種方
差齊性檢驗的方法可供選擇。選用Bartlett檢驗:
如果我們的數(shù)據(jù)服從正態(tài)分布,那么這種方法將是
最為適用的。對于正態(tài)分布的數(shù)據(jù),這種檢驗極為
靈敏;而當數(shù)據(jù)為非正態(tài)分布時,使用該方法則很
容易導致假陽性誤判。Levene檢驗:當樣本數(shù)據(jù)偏
態(tài)或者非正態(tài)性的情況下,選用Levene檢驗魯棒
性與精度比Bartlett檢驗好。Fligner-Killeen檢驗:
這是一個非參數(shù)的檢驗方法,完全不依賴于對分布
的假設。
62統(tǒng)計分析卡方適配度檢驗卡方適配度檢驗,Chi-SquareGoodnessofFitTest.
驗證一組觀察值的次數(shù)分配是否異于理論上的分
配。其H0假設(虛無假設,nullhypothesis)為一
個樣本中已發(fā)生事件的次數(shù)分配會服從某個特定
的理論分配。通常情況下這個特定的理論分配指的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB41∕T 2055-2020 大蒜網(wǎng)絡銷售服務規(guī)范
- 天津市河西區(qū)2024-2025學年八年級上學期期末地理試題(含答案)
- 輔警的法制教育培訓課件
- 景區(qū)六員一體培訓課件
- 麻醉護理學課件資料
- 妊娠劇吐急診護理的家屬教育
- 2026年深圳中考語文臨考沖刺押題試卷(附答案可下載)
- 2026年深圳中考物理核心考點密押試卷(附答案可下載)
- 廣東省廣州市花都區(qū)2025年九年級上學期期末考試物理試題附答案
- 中考道法題目及答案
- GJB3206B-2022技術狀態(tài)管理
- 2025珠海市鋼鐵交易所鋼材貨物交割合同范本
- (高清版)DB62∕T 5097-2025 羅布麻栽培技術規(guī)程
- 2025血管內導管相關性血流感染預防與診治指南
- 品牌設計師年終總結
- 煤礦智能化發(fā)展藍皮書
- 居住證明合同協(xié)議
- 2024-2025閩教版小學英語五年級上冊期末考試測試卷及參考答案(共3套)
- 臨床協(xié)調員CRC年度總結
- 編鐘樂器市場洞察報告
- 負壓沖洗式口腔護理
評論
0/150
提交評論