《自然語言處理入門與實戰(zhàn)》課件 第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺的游客目的地印象分析_第1頁
《自然語言處理入門與實戰(zhàn)》課件 第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺的游客目的地印象分析_第2頁
《自然語言處理入門與實戰(zhàn)》課件 第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺的游客目的地印象分析_第3頁
《自然語言處理入門與實戰(zhàn)》課件 第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺的游客目的地印象分析_第4頁
《自然語言處理入門與實戰(zhàn)》課件 第8章 基于TipDM大數(shù)據(jù)挖掘建模平臺的游客目的地印象分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于TipDM大數(shù)據(jù)挖掘建模平臺的游客目的地印象分析TipDM大數(shù)據(jù)挖掘建模平臺簡介使用平臺實現(xiàn)游客目的地印象分析TipDM大數(shù)據(jù)挖掘建模平臺簡介TipDM大數(shù)據(jù)挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發(fā),面向大數(shù)據(jù)挖掘項目的工具。平臺使用Java語言開發(fā),采用B/S(Browser/Server,瀏覽器/服務器)結構,用戶不需要下載客戶端,可通過瀏覽器進行訪問。平臺具有支持多種語言、操作簡單、用戶無須具備編程語言基礎等特點,以流程化的方式將數(shù)據(jù)輸入/輸出、統(tǒng)計分析、數(shù)據(jù)預處理、挖掘與建模等環(huán)節(jié)進行連接,從而實現(xiàn)大數(shù)據(jù)挖掘。TipDM大數(shù)據(jù)挖掘建模平臺簡介TipDM大數(shù)據(jù)挖掘建模平臺界面如圖。TipDM大數(shù)據(jù)挖掘建模平臺簡介讀者可通過訪問平臺查看具體的界面情況,操作方法如下。微信搜索公眾號“泰迪學社”或“TipDataMining”,關注公眾號。關注公眾號后,回復“建模平臺”,獲取平臺訪問方式。TipDM大數(shù)據(jù)挖掘建模平臺簡介在介紹如何使用大數(shù)據(jù)挖掘建模平臺實現(xiàn)項目分析之前,需要引入平臺的幾個概念。概念基本介紹組件將建模過程中涉及的輸入/輸出、數(shù)據(jù)探索、數(shù)據(jù)預處理、繪圖、建模等操作分別進行封裝,每一個封裝好的模塊稱為組件。組件分為系統(tǒng)組件和個人組件。(1)系統(tǒng)組件可供所有用戶使用(2)個人組件由個人用戶編輯,僅供個人用戶使用工程為實現(xiàn)某一數(shù)據(jù)挖掘目標,將各組件通過流程化的方式進行連接,整個數(shù)據(jù)流程稱為一個工程參數(shù)每個組件都有提供給用戶進行設置的內容,這部分內容稱為參數(shù)共享庫用戶可以將配置好的工程、數(shù)據(jù)集,分別公開到模型庫、數(shù)據(jù)集庫中作為模板,分享給其他用戶,其他用戶可以使用共享庫中的模板,創(chuàng)建一個無須配置組件便可運行的工程TipDM大數(shù)據(jù)挖掘建模平臺簡介TipDM大數(shù)據(jù)挖掘建模平臺主要有以下幾個特點。平臺組件基于Python、R以及Hadoop/Spark分布式引擎,適用于數(shù)據(jù)分析。Python、R以及Hadoop/Spark是常見的用于數(shù)據(jù)分析的語言或工具,高度契合行業(yè)需求。用戶可在沒有Python、R或Hadoop/Spark編程基礎的情況下,使用直觀的拖曳式圖形界面構建數(shù)據(jù)分析流程,無須編程。平臺提供公開可用的數(shù)據(jù)分析示例工程,實現(xiàn)一鍵創(chuàng)建,快速運行。支持挖掘流程每個節(jié)點的結果在線預覽。平臺包含Python、Spark、R這3種工具的組件包,用戶可以根據(jù)實際需求靈活選擇不同的語言進行數(shù)據(jù)挖掘建模。共享庫登錄平臺后,用戶即可看到“共享庫”模塊提供的示例工程(模板)。“共享庫”模塊主要用于標準大數(shù)據(jù)挖掘建模案例的快速創(chuàng)建和展示。通過“共享庫”模塊,用戶可以創(chuàng)建一個無須導入數(shù)據(jù)及配置參數(shù)就能夠快速運行的工程。用戶可以將自己創(chuàng)建的工程公開到“共享庫”模塊,作為工程模板,供其他用戶一鍵創(chuàng)建。同時,每一個模板的創(chuàng)建者都具有模板的所有權,能夠對模板進行管理。數(shù)據(jù)連接“數(shù)據(jù)連接”模塊支持從Db2、SQLServer、MySQL、Oracle、PostgreSQL等常用關系數(shù)據(jù)庫中導入數(shù)據(jù)。導入數(shù)據(jù)時的“新建連接”對話框如圖。數(shù)據(jù)集“數(shù)據(jù)集”模塊主要用于數(shù)據(jù)挖掘建模工程中數(shù)據(jù)的導入與管理,支持從本地導入任意類型的數(shù)據(jù)。導入數(shù)據(jù)時的“新增數(shù)據(jù)集”對話框如圖。我的工程“我的工程”模塊主要用于數(shù)據(jù)挖掘建模流程的創(chuàng)建與管理,工程示例流程如圖。通過單擊“工程”欄下的(“新建工程”)按鈕,用戶可以創(chuàng)建空白工程并通過“組件”欄下的組件進行工程配置,將數(shù)據(jù)輸入/輸出、預處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進行連接,達到數(shù)據(jù)挖掘與分析的目的。對于完成度高的工程,可以將其公開到“共享庫”中,作為模板讓其他使用者學習和借鑒。我的工程在“組件”欄下,平臺提供了輸入/輸出組件、Python組件、R語言組件、Spark組件等系統(tǒng)組件,如圖,用戶可直接使用。輸入/輸出組件包括輸入源、輸出源、輸出到數(shù)據(jù)庫等。我的工程1.Python組件Python組件包含Python腳本、預處理、統(tǒng)計分析、時間序列、分類、模型評估、模型預測、回歸、聚類、關聯(lián)規(guī)則、文本分析、深度學習和繪圖,共13類。Python組件的類別介紹如表。類別介紹Python腳本“Python腳本”類提供一個Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)編寫好的程序代碼并直接運行,無須額外配置組件預處理“預處理”類提供對數(shù)據(jù)進行預處理的組件,包括數(shù)據(jù)標準化、缺失值處理、表堆疊、數(shù)據(jù)篩選、行列轉置、修改列名、衍生變量、數(shù)據(jù)拆分、主鍵合并、新增序列、數(shù)據(jù)排序、記錄去重和分組聚合等統(tǒng)計分析“統(tǒng)計分析”類提供對數(shù)據(jù)整體情況進行統(tǒng)計的常用組件,包括因子分析、全表統(tǒng)計、正態(tài)性檢驗、相關性分析、卡方檢驗、主成分分析和頻數(shù)統(tǒng)計等時間序列“時間序列”類提供常用的時間序列組件,包括ARCH、AR模型、MA模型、灰色預測、模型定階和ARIMA等分類“分類”類提供常用的分類組件,包括樸素貝葉斯、支持向量機、CART分類樹、邏輯回歸、神經(jīng)網(wǎng)絡和K最近鄰等我的工程1.Python組件Python組件的類別介紹如表。類別介紹模型評估“模型評估”類提供了用于模型評估的組件,包括模型評估模型預測“模型預測”類提供了用于模型預測的組件,包括模型預測回歸“回歸”類提供常用的回歸組件,包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸等聚類“聚類”類提供常用的聚類組件,包括層次聚類、DBSCAN密度聚類和KMeans等關聯(lián)規(guī)則“關聯(lián)規(guī)則”類提供常用的關聯(lián)規(guī)則組件,包括Apriori和FP-Growth等文本分析“文本分析”類提供對文本數(shù)據(jù)進行清洗、特征提取與分析的常用組件,包括情感分析、文本過濾、TF-IDF、Word2Vec等深度學習“深度學習”類提供常用的深度學習組件,包括循環(huán)神經(jīng)網(wǎng)絡、impliciALS和卷積神經(jīng)網(wǎng)絡繪圖“繪圖”類提供常用的畫圖組件,可以用于繪制柱形圖、折線圖、散點圖、餅圖和詞云圖等我的工程2.R語言組件R語言組件包含R語言腳本、預處理、統(tǒng)計分析、分類、時間序列、聚類、回歸和關聯(lián)分析,共8類,R語言組件的類別介紹如表。類別介紹R語言腳本“R語言腳本”類提供一個R語言代碼編輯框。用戶可以在代碼編輯框中粘貼已經(jīng)編寫好的代碼并直接運行,無須額外配置組件預處理“預處理”類提供對數(shù)據(jù)進行預處理的組件,包括缺失值處理、異常值處理、表連接、表合并、數(shù)據(jù)標準化、記錄去重、數(shù)據(jù)離散化、排序、數(shù)據(jù)拆分、頻數(shù)統(tǒng)計、新增序列、字符串拆分、字符串拼接、修改列名等統(tǒng)計分析“統(tǒng)計分析”類提供對數(shù)據(jù)整體情況進行統(tǒng)計的常用組件,包括卡方檢驗、因子分析、主成分分析、相關性分析、正態(tài)性檢驗和全表統(tǒng)計等我的工程2.R語言組件R語言組件的類別介紹如表。類別介紹分類“分類”類提供常用的分類組件,包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經(jīng)網(wǎng)絡、KNN、SVM和邏輯回歸等時間序列“時間序列”類提供常用的時間序列組件,包括ARIMA和指數(shù)平滑等聚類“聚類”類提供常用的聚類組件,包括KMeans、DBSCAN密度聚類和系統(tǒng)聚類等回歸“回歸”類提供常用的回歸組件,包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸等關聯(lián)分析“關聯(lián)分析”類提供常用的關聯(lián)規(guī)則組件,包括Apriori等我的工程3.Spark組件Spark組件包含預處理、統(tǒng)計分析、分類、聚類、回歸、降維、協(xié)同過濾和頻繁模式挖掘,共8類,Spark組件的類別介紹如表。類別介紹預處理“預處理”類提供對數(shù)據(jù)進行預處理的組件,包括數(shù)據(jù)去重、數(shù)據(jù)過濾、數(shù)據(jù)映射、數(shù)據(jù)反映射、數(shù)據(jù)拆分、數(shù)據(jù)排序、缺失值處理、數(shù)據(jù)標準化、衍生變量、表連接、表堆疊和數(shù)據(jù)離散化等統(tǒng)計分析“統(tǒng)計分析”類提供對數(shù)據(jù)整體情況進行統(tǒng)計的常用組件,包括行列統(tǒng)計、全表統(tǒng)計、相關性分析和重復值缺失值探索分類“分類”類提供常用的分類組件,包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機森林、線性支持向量機和多層感知分類器等聚類“聚類”類提供常用的聚類組件,包括KMeans聚類、二分K均值聚類和混合高斯聚類等我的工程3.Spark組件Spark組件的類別介紹如表。類別介紹回歸“回歸”類提供常用的回歸組件,包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機森林回歸和保序回歸等降維“降維”類提供常用的數(shù)據(jù)降維組件,包括PCA降維等協(xié)同過濾“協(xié)同過濾”類提供常用的智能推薦組件,包括ALS組件、ALS推薦和ALS模型預測頻繁模式挖掘“頻繁模式挖掘”類提供常用的頻繁項集挖掘組件,包括FP-Growth等個人組件“個人組件”模塊主要是為了滿足用戶的個性化需求。用戶在使用過程中,可根據(jù)自己的需求定制組件,方便使用。目前支持通過Python和R語言進行個人組件的定制,定制個人組件如圖。TipDM大數(shù)據(jù)挖掘建模平臺簡介使用平臺實現(xiàn)游客目的地印象分析使用平臺實現(xiàn)游客景區(qū)印象分析的總體流程在平臺上實現(xiàn)游客景區(qū)印象分析的總體流程如下圖。使用平臺實現(xiàn)游客景區(qū)印象分析的總體流程在平臺上進行配置的總體流程如下圖。數(shù)據(jù)源配置本案例使用的數(shù)據(jù)共5份,分別為景區(qū)評論.csv、景區(qū)評分.csv、stopword.txt、aixin.jpg、simhei.ttf。新增數(shù)據(jù)集設置新增數(shù)據(jù)集參數(shù)新建一個名為“游客景區(qū)印象分析”的空白工程在工程中配置“輸入源”組件文本預處理文本預處理的操作步驟如下:記錄去重刪除垃圾評論刪除無效評論拆分各景區(qū)數(shù)據(jù)景區(qū)印象分析景區(qū)印象分析的操作步驟如下:解壓文件繪制詞云圖景區(qū)特色分析景區(qū)特色分析的操作步驟如下:各景區(qū)評分排序各景區(qū)特征聚類小結本章介紹了在TipDM數(shù)據(jù)大挖掘建模平臺上配置并完成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論