《數(shù)據(jù)挖掘原理、算法與應用(Python語言描述)》課件 【第一章】概述_第1頁
《數(shù)據(jù)挖掘原理、算法與應用(Python語言描述)》課件 【第一章】概述_第2頁
《數(shù)據(jù)挖掘原理、算法與應用(Python語言描述)》課件 【第一章】概述_第3頁
《數(shù)據(jù)挖掘原理、算法與應用(Python語言描述)》課件 【第一章】概述_第4頁
《數(shù)據(jù)挖掘原理、算法與應用(Python語言描述)》課件 【第一章】概述_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘原理、算法與應用(Python語言描述)學習目標掌握數(shù)據(jù)挖掘的定義了解數(shù)據(jù)挖掘的目標了解數(shù)據(jù)挖掘的相關概念了解數(shù)據(jù)挖掘的基本流程了解常用的數(shù)據(jù)挖掘工具掌握常用數(shù)據(jù)集的獲取方法內容1.1數(shù)據(jù)挖掘簡介1.2常用數(shù)據(jù)挖掘工具1.3常用數(shù)據(jù)集內容1.1數(shù)據(jù)挖掘簡介1.2常用數(shù)據(jù)挖掘工具1.3常用數(shù)據(jù)集1.1數(shù)據(jù)挖掘簡介1.1.1數(shù)據(jù)挖掘的定義與目標1.1.2數(shù)據(jù)挖掘的應用1.1.3數(shù)據(jù)挖掘算法1.1.4數(shù)據(jù)挖掘的相關概念1.1.5數(shù)據(jù)挖掘流程1.1.1數(shù)據(jù)挖掘的定義與目標數(shù)據(jù)挖掘是借助統(tǒng)計機器學習、深度學習等算法,從大量有噪聲的、不完全的、模糊的數(shù)據(jù)中,尋找隱含在其中人們事先不知道的、具有潛在利用價值的信息和知識的過程,從而實現(xiàn)判斷和預測的一種技術。數(shù)據(jù)挖掘的主要目標是從已知的大量數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,并以此為基礎進行結構性決策、發(fā)現(xiàn)新的模式和結構、預測未知的情況以及建立復雜的數(shù)據(jù)關系,使用挖掘技術來提取高質量且相關的知識,幫助企業(yè)制定有效的發(fā)展策略,在洞察市場趨勢中盡量減少不確定性。

數(shù)據(jù)挖掘的應用金融行業(yè)政府機構銷售行業(yè)保險行業(yè)制造業(yè)電子商務領域1.1.2數(shù)據(jù)挖掘的應用在金融行業(yè),使用數(shù)據(jù)挖掘技術預測金融市場變化,結合實際操作把握金融交易機會;建立風控模型衡量客戶信用風險、違約風險,并對金融產(chǎn)品價格進行分析;數(shù)據(jù)挖掘也可以從眾多金融市場信息源中收集和整理金融市場指數(shù)、走勢等信息,結合官方數(shù)據(jù),形成全面的金融市場信息系統(tǒng)。

在政府機構,運用數(shù)據(jù)挖掘技術分析其目前的政策和政策執(zhí)行效果,從而合理調整政策,提升行政效率;實現(xiàn)智能公共服務監(jiān)督,以便于及時發(fā)現(xiàn)和解決各類問題;提高政策決策的精度,有效預測未來可能發(fā)生的問題,為民眾提供更全面更準確的服務。

在銷售行業(yè),如商場從顧客購買商品中發(fā)現(xiàn)一定的關聯(lián)規(guī)則,通過打折、贈送購物券等促銷,提高銷售額。在保險行業(yè),通過數(shù)據(jù)挖掘建立預測模型,辨別出可能的欺詐行為,避免風險,減少成本,提高利潤。在制造業(yè)中,對半導體的生產(chǎn)和測試數(shù)據(jù)進行分析,找出存在的問題,提高產(chǎn)品質量。在電子商務領域,用數(shù)據(jù)挖掘技術對銷售數(shù)據(jù)進行分析,識別客戶的行為模式,為其提供個性化服務。數(shù)據(jù)挖掘的算法主要有傳統(tǒng)機器學習算法、基于神經(jīng)網(wǎng)絡的深度學習算法、強化學習以及深度強化學習算法等。傳統(tǒng)機器學習方法首先需要對原始數(shù)據(jù)進行特征工程,提取有效的特征,然后訓練模型。深度學習,不需要額外的特征工程,神經(jīng)網(wǎng)絡在模型擬合過程中自主完成特征的提取。強化學習是指決策的過程,通過過程模擬和觀察來不斷學習、通過獎勵與懲罰不斷提高決策能力。深度強化學習是指運用了神經(jīng)網(wǎng)絡對強化學習的參數(shù)結構進行優(yōu)化的算法。數(shù)據(jù)挖掘算法又可根據(jù)訓練過程是否需要標簽分為有監(jiān)督學習算法、無監(jiān)督學習算法。有監(jiān)督學習是指數(shù)據(jù)集中樣本帶有標簽,有明確目標。學習的目標是找到樣本到標簽的最佳映射,典型算法有線性回歸、嶺回歸、拉索回歸、多項式回歸等回歸算法以及邏輯回歸、K近鄰、決策樹、支持向量機等分類算法。無監(jiān)督學習是指數(shù)據(jù)集中的樣本沒有標簽或者學習過程不借助數(shù)據(jù)集中的標簽,典型的算法有聚類、降維以及關聯(lián)規(guī)則等。有監(jiān)督學習數(shù)據(jù)集中的樣本帶有標簽目標:找到樣本到標簽的最佳映射典型方法回歸模型:線性回歸、嶺回歸、LASSO和回歸樣條等分類模型:邏輯回歸、K近鄰、決策樹、支持向量機等無監(jiān)督學習可以處理沒有標簽的數(shù)據(jù)根據(jù)數(shù)據(jù)本身的分布特點,挖掘反映數(shù)據(jù)的內在特性典型方法聚類、降維、關聯(lián)規(guī)則挖掘等1.數(shù)據(jù)集:數(shù)據(jù)集又稱為資料集、數(shù)據(jù)集合或資料集合,是一組樣本的集合,通常以表格的形式出現(xiàn)。其中每一列代表一個特征,每一行對應一個具體的樣本。數(shù)據(jù)集是數(shù)據(jù)挖掘的基礎,如表1-1中包含表頭以及5個樣本,“年齡”、“收入”以及“性別”3個特征以及“買/不買”1個標簽。1.1.4數(shù)據(jù)挖掘的相關概念1.1.4數(shù)據(jù)挖掘的相關概念2.樣本:樣本是觀測或調查的一部分個體,是從總體中抽取的所要考查的元素總稱。3.樣本容量:樣本中個體的數(shù)量稱為樣本容量,一個樣本通常就是數(shù)據(jù)集中的一行,表1-1中有五行記錄,包含5個樣本。4.特征:特征是對樣本描述的參數(shù),樣本通常包含一個或多個特征,表1-1中包含的“年齡”、“收入”以及“性別”等都是描述樣本的特征。5.標簽:標簽是樣本的決策屬性,在分類問題中是樣本所屬的類別,表1-1中的“買/不買”就是樣本的標簽。但并不是所有的數(shù)據(jù)集都包含標簽,沒有標簽的數(shù)據(jù)集通常用于無監(jiān)督學習1.1.4數(shù)據(jù)挖掘的相關概念6.過擬合與欠擬合在數(shù)據(jù)挖掘中如果模型過于復雜(例如參數(shù)過多),會導致所訓練出來的模型在訓練集上表現(xiàn)很好,但在測試集數(shù)據(jù)上表現(xiàn)很差,這種情況稱為過擬合。如果在訓練集上也表現(xiàn)很差,可能是模型過于簡單,或者模型不適合在此使用,如果是模型過于簡單導致模型表現(xiàn)很差的情況稱為欠擬合。1.1.4數(shù)據(jù)挖掘的相關概念7.損失函數(shù)損失函數(shù)又稱代價函數(shù),損失函數(shù)用來評價模型的預測值和真實值不一樣的程度,損失函數(shù)函數(shù)值越小,通常認為模型的性能越好,也是優(yōu)化的目標。不同類的模型采用的損失函數(shù)往往不一樣。8.正則化為防止模型過擬合,通常會在損失函數(shù)上添加正則項,正則項通常為參數(shù)向量的范數(shù),稱為正則化方法,實現(xiàn)在訓練誤差和模型復雜度之間的平衡。

1.1.4數(shù)據(jù)挖掘的相關概念9.結構化數(shù)據(jù)是用數(shù)據(jù)或統(tǒng)一的結構加以表示的信息,如數(shù)字、符號等可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù)。通常數(shù)據(jù)庫中的數(shù)據(jù)、Excel表格數(shù)據(jù)都是結構化數(shù)據(jù)。10.半結構化數(shù)據(jù)是結構化數(shù)據(jù)的一種形式,但它并不符合關系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關聯(lián)起來的數(shù)據(jù)模型結構,但包含相關標記,用來分隔語義元素以及對記錄和對字段進行分層,數(shù)據(jù)的結構和內容混在一起,沒有明顯的區(qū)分,也被稱為自描述的結構。例如:JSON,XML等都屬于半結構化數(shù)據(jù)。11.非結構化數(shù)據(jù)指信息沒有一個預先定義好的數(shù)據(jù)模型或者沒有以一個預先定義的方式來組織,不能用二維表結構來邏輯表達實現(xiàn)。如文本、圖像、音頻和視頻信息等都屬非結構化數(shù)據(jù)。1.1.5數(shù)據(jù)挖掘流程確定目標獲取數(shù)據(jù)數(shù)據(jù)探索數(shù)據(jù)預處理建模評價模型發(fā)布模型內容1.1數(shù)據(jù)挖掘簡介1.2常用數(shù)據(jù)挖掘工具1.3常用數(shù)據(jù)集1.2常用數(shù)據(jù)挖掘工具1.2.1SASDataMining1.2.2RapidMiner1.2.3IBMSPSSModeler1.2.4OracleDataMining1.2.5ApacheSpark1.2.6R數(shù)據(jù)挖掘庫1.2.7Python數(shù)據(jù)挖掘工具包1.2.1SASDataMiningSASDataMining提供非常友好的圖形用戶界面,如圖1-1所示,其擁有自動化的數(shù)據(jù)處理工具,其描述性和預測性建模幫助用戶更好的理解數(shù)據(jù)。作為一個商業(yè)軟件,它包括自動化、強化算法、建模、數(shù)據(jù)可視化等工具。1.2.2RapidMinerRapidMiner,是一個用于機器學習和數(shù)據(jù)挖掘的環(huán)境,如圖1-2所示,可用于研究和處理實際的數(shù)據(jù)挖掘任務,是世界領先的數(shù)據(jù)挖掘開源系統(tǒng)。1.2.3IBMSPSSModelerIBMSPSSModeler可視化界面友好,如圖1-3所示,是一系列數(shù)據(jù)挖掘工具,通過這些工具可以使用商業(yè)技術快速建立預測性模型,并且將其應用于商業(yè)行為,從而改進決策過程。1.2.4OracleDataMiningOracleDataMining是Oracle數(shù)據(jù)庫高級分析選項的一部分,可以構建模型來發(fā)現(xiàn)客戶行為、目標客戶和開發(fā)概要文件。Oracle

DataMiner圖形用戶界面,如圖1-4所示。1.2.5OracleDataMiningApacheSpark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,其用戶界面如圖1-5所示。1.2.6R數(shù)據(jù)挖掘庫R是一個免費、開源的軟件編程語言和軟件環(huán)境,用于統(tǒng)計計算和可視化。R環(huán)境中集成了大量的數(shù)據(jù)挖掘庫,使其成為一個強大的數(shù)據(jù)挖掘環(huán)境。其用戶界面如圖1-6所示。1.2.7Python數(shù)據(jù)挖掘工具包Python作為一種免費且開放源代碼的語言,與R不同,Python更容易學習掌握。同時Python提供大量的第三方包,使得Python的數(shù)據(jù)挖掘更加便利、高效。本課程涉及到的第三方包主要有:Numpy、Pandas、Scipy、Matplotlib、Genism、Scikit-Learn、TensorFlow等。NumPy是Python用于科學計算的第三方庫,它主要包括:一個強大的n維數(shù)組對象廣播功能有用的線性代數(shù)、傅立葉變換和隨機數(shù)能力NumPy還可以用作通用數(shù)據(jù)的有效多維容器??梢远x任意的數(shù)據(jù)類型。這允許NumPy無縫地和快速地與各種各樣的數(shù)據(jù)庫集成。NumPyNumPy的安裝若電腦中已安裝了Anaconda科學計算環(huán)境,由于Anaconda中已包含大量常用庫,則可直接使用NumPy,無須再安裝。使用pip進行NumPy的安裝:

pip

install

numpy

Pandas可以在Python中執(zhí)行從數(shù)據(jù)操作到數(shù)據(jù)分析和建模的整個數(shù)據(jù)分析工作流。用于在內存數(shù)據(jù)結構和不同格式之間讀取和寫入數(shù)據(jù)的工具:CSV和文本文件、MicrosoftExcel、SQL數(shù)據(jù)庫和快速HDF5格式可處理缺失數(shù)據(jù)除了線性回歸和面板回歸之外,Pandas沒有實現(xiàn)顯著的建模功能;而Scikit-learn提供了顯著的建模功能。PandasPandas的安裝若電腦中已安裝了Anaconda科學計算環(huán)境,由于Anaconda中已包含大量常用庫,則可直接使用Pandas,無須再安裝。使用pip進行Pandas的安裝:

pip

install

pandas

Scikit-learnPython用于數(shù)據(jù)建模的第三方庫實現(xiàn)主要的機器學習、數(shù)據(jù)挖掘算法Scikit-learn的主要功能:數(shù)據(jù)集預處理數(shù)據(jù)集劃分構建模型模型提升模型評估Scikit-learn概覽/Scikit-learn的安裝使用pip進行Scikit-learn的安裝:

pip

install

scikit-learn

importsklearn

pipinstallopencv-pythonImportcv2ScipyScipy基于Numpy,有URL讀取、HTML解析、存儲數(shù)據(jù)等功能,而且能夠提供矩陣支持,以及大量基于矩陣的數(shù)值計算模塊,包括:插值運算,線性代數(shù)、圖像信號、快速傅里葉變換、優(yōu)化處理、常微分方程求解等,MatplotlibMatplotlib是基于Numpy的一套Python包,這個包提供了豐富的數(shù)據(jù)繪圖工具,主要用于繪制一些統(tǒng)計圖形。主要用于二維作圖,簡單幾行代碼就可以生成各式各樣的圖表,如直方圖,條形圖,散點圖等。TensorFlow是google開源的深度學習框架,目前的版本2.x,采用數(shù)據(jù)流圖的方式,可靈活搭建深度學習模型,它在圖形分類、音頻處理、推薦系統(tǒng)和自然語言處理等場景下有著豐富的應用,是目前最熱門的機器學習框架之一。能搭建各種深度學習模型,例如:自編碼器、循環(huán)神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等。內容1.1數(shù)據(jù)挖掘簡介1.2常用數(shù)據(jù)挖掘工具1.3常用數(shù)據(jù)集1.3常用數(shù)據(jù)來源數(shù)據(jù)集是數(shù)據(jù)挖掘學習的數(shù)據(jù)基礎本課程使用的數(shù)據(jù)集主要來源于網(wǎng)絡的開源數(shù)據(jù)集Sklearn.datasets自帶的數(shù)據(jù)集1.3.1網(wǎng)站數(shù)據(jù)集1.加州大學爾灣分校數(shù)據(jù)集網(wǎng)站UCI機器學習庫網(wǎng)址:/ml/datasets.php1.3.1網(wǎng)站數(shù)據(jù)集2.Kaggle數(shù)據(jù)集網(wǎng)站網(wǎng)址:/datasets1.3.1網(wǎng)站數(shù)據(jù)集3.阿里天池阿里云天池平臺是中國最大的AI開發(fā)者社區(qū)。阿里天池數(shù)據(jù)集網(wǎng)址:/dataset4.和鯨社區(qū)和鯨社區(qū)數(shù)據(jù)集網(wǎng)址:/home/dataset。1.3.1網(wǎng)站數(shù)據(jù)集1.3.1網(wǎng)站數(shù)據(jù)集4.其他亞馬遜數(shù)據(jù)集:https://registry.opendata.aws谷歌的數(shù)據(jù)集:https:///datasetsearch微軟數(shù)據(jù)集:https://Awesome公共數(shù)據(jù)集:https:///awesomedata/awesome-public-datasets歐洲政府數(shù)據(jù)集:https://data.europa.eu/euodp/data/dataset新西蘭政府數(shù)據(jù)集:t.nz/dataset印度政府數(shù)據(jù)集:.in/計算機視覺數(shù)據(jù)集:https://www.visualdata.io斯坦福大型網(wǎng)絡數(shù)據(jù)集:/data/1.3.2Python工具包提供的數(shù)據(jù)集1.Sklearn自帶的數(shù)據(jù)集Sklearn提供的小數(shù)據(jù)集可通過load_xx()方法直接獲取。大的數(shù)據(jù)集通過fetch_xx()方法在線下載。以下介紹部分常用的數(shù)據(jù)集以及獲取方法。

(1)乳腺癌數(shù)據(jù)集適用于二分類問題,通過sklearn的datasets.load_breast_cancer()方法獲取。(2)糖尿病數(shù)據(jù)集適用于回歸任務,通過sklearn的sklearn.datasets.load_diabetes()方法獲取。(3)手寫數(shù)字數(shù)據(jù)集適用于多分類任務,通過sklearn的datasets.load_digits()方法獲取。(4)鳶尾花數(shù)據(jù)集適用于分類任務,通過sklearn的datasets.load_iris()方法獲取。1.3.2Python工具包提供的數(shù)據(jù)集1.Sklearn自帶的數(shù)據(jù)集Sklearn提供的小數(shù)據(jù)集可通過load_xx()方法直接獲取。大的數(shù)據(jù)集通過fetch_xx()方法在線下載。以下介紹部分常用的數(shù)據(jù)集以及獲取方法。

(5)體能數(shù)據(jù)集適用于回歸問題。通過sklearn的datasets.load_linnerud()方法獲取。(6)紅酒品質數(shù)據(jù)集適用于分類任務。通過sklearn的datasets.load_wine()方法獲取。(7)新聞組數(shù)據(jù)集適用于文本分類、文本挖據(jù),通過Sklearn的datasets.fetch_20newsgroups()方法獲取。1.3.2Python工具包提供的數(shù)據(jù)集1.Sklearn自帶的數(shù)據(jù)集Sklearn提供的小數(shù)據(jù)集可通過load_xx()方法直接獲取。大的數(shù)據(jù)集通過fetch_xx()方法在線下載。以下介紹部分常用的數(shù)據(jù)集以及獲取方法。

(8)人臉數(shù)據(jù)集通過Sklearn的datasets.fetch_lfw_people()方法獲取,通過datasets.fetch_lfw_pairs()方法實現(xiàn)人臉驗證。(9)森林植被類型數(shù)據(jù)集通過Sklearn的datasets.fetch_covtype()方法獲取。1.3.2Python工具包提供的數(shù)據(jù)集2.Sklearn生成數(shù)據(jù)集Sklearn還可以按需生成不同用途的仿真數(shù)據(jù)集。(1)make_blobs方法生成聚類數(shù)據(jù)集datasets.make_blobs(n_samples=1000,n_features=2,centers=4,cluster_std=1)其中的參數(shù):n_samples:樣本數(shù)n_features:特征數(shù)(維度)centers:中心數(shù),也可以是中心的坐標cluster_std:簇的方差1.3.2Python工具包提供的數(shù)據(jù)集2.Sklearn生成數(shù)據(jù)集Sklearn還可以按需生成不同用途的仿真數(shù)據(jù)集。(2)make_circles方法生成同心圓數(shù)據(jù)集datasets.make_circles(n_samples=5000,noise=0.04,factor=0.7)noise:噪聲factor:內圓與外圓大小的比例因子1.3.2Python工具包提供的數(shù)據(jù)集2.Sklearn生成數(shù)據(jù)集Sklearn還可以按需生成不同用途的仿真數(shù)據(jù)集。(3)make_moons方法生成月亮數(shù)據(jù)集。datasets.make_moons(n_samples=3000,noise=0.05)noise:噪聲1.3.2Python工具包提供的數(shù)據(jù)集2.Sklearn生成數(shù)據(jù)集Sklearn還可以按需生成不同用途的仿真數(shù)據(jù)集。(4)make_classification方法生成類別數(shù)據(jù)集datasets.make_classification(n_classes=4,n_samples=1000,n_features=2,n_informative=2,n_redundant=0,n_clusters_per_class=1,n_repeated=0,random_state=22)其中的參數(shù):n_classes:類的數(shù)目n_informative:有效的特征數(shù)n_redundant:冗余特征數(shù)n_repeated:有效特征數(shù)和冗余特征數(shù)的有效組合n_informative+n_redundant+n_repeated<=n_featuresn_clusters_per_class:每一類的簇數(shù)n_classes*n_clusters_per_class<=2**n_informative1.3.2Python工具包提供的數(shù)據(jù)集3.利用fetch_openml()方法從下載數(shù)據(jù)集是一個用于機器學習數(shù)據(jù)和實驗的公共存儲庫,它允許個人上傳開放的數(shù)據(jù)集,可以通過Sklearn的datasets.fetch_openml()方法從下載數(shù)據(jù)集。例如,下載geneexpressionsinmicebrains(老鼠大腦中的基因表達)數(shù)據(jù)集:fromsklearn.datasetsimportfetch_openmlmice=fetch_openml(name='miceprotein',version=4)print(mice.DESCR)#查看詳情1.3.2Python工具包提供的數(shù)據(jù)集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論