11-數(shù)據(jù)挖掘與機器學習_第1頁
11-數(shù)據(jù)挖掘與機器學習_第2頁
11-數(shù)據(jù)挖掘與機器學習_第3頁
11-數(shù)據(jù)挖掘與機器學習_第4頁
11-數(shù)據(jù)挖掘與機器學習_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)科學通識導論

IntroductiontoDataScience(LiberalArts)互動課程總覽A-SATAmodel開篇實例:房屋出售問題:現(xiàn)在我手里有一棟房子需要售賣,我應(yīng)該給它標上多大的價格?房子的面積是100平方米,價格是100萬,120萬,還是140萬?網(wǎng)頁分類問題第11課數(shù)據(jù)挖掘與機器學習數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的內(nèi)容與流程機器學習的發(fā)展歷史機器學習的方法機器學習的應(yīng)用數(shù)據(jù)挖掘為什么要數(shù)據(jù)挖掘?數(shù)據(jù)的爆炸性增長:從TB到PB數(shù)據(jù)的收集和數(shù)據(jù)的可獲得性自動數(shù)據(jù)收集工具、數(shù)據(jù)庫系統(tǒng)、WEB、計算機化的社會豐富數(shù)據(jù)的來源商業(yè):WEB、電子商務(wù)、交易數(shù)據(jù)、股市...科學:遙感、生物信息學、科學模擬社會及每個人:新聞、數(shù)碼相機、YouTube我們被數(shù)據(jù)所淹沒,但卻渴望知識“需要是發(fā)明之母”,數(shù)據(jù)挖掘:海量數(shù)據(jù)的自動分析技術(shù)為什么要數(shù)據(jù)挖掘?數(shù)據(jù)爆炸,知識貧乏

苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS.人口統(tǒng)計生命周期數(shù)據(jù)挖掘的社會需求什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識挖掘(KDD)知識提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識挖掘(KDD)數(shù)據(jù)挖掘:知識挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估Knowledge為什么不是傳統(tǒng)的數(shù)據(jù)分析?海量數(shù)據(jù)算法必須有高度的可擴展性,以有效處理TB級數(shù)據(jù)高維數(shù)據(jù)可高達數(shù)萬個不同的維數(shù)據(jù)的高度復(fù)雜性流數(shù)據(jù)和傳感數(shù)據(jù)時間數(shù)據(jù)、序列數(shù)據(jù)、時序數(shù)據(jù)圖、社會網(wǎng)絡(luò)、多關(guān)系數(shù)據(jù)異構(gòu)數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫空間數(shù)據(jù)、時空數(shù)據(jù)、多媒體、文本和WEB數(shù)據(jù)新的、復(fù)雜的應(yīng)用數(shù)據(jù)挖掘:多個學科的融合數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計學其他學科高性能計算機器學習可視化數(shù)據(jù)挖掘的主要功能:可以挖掘什么類型的模式?一般功能描述性的數(shù)據(jù)挖掘預(yù)測性的數(shù)據(jù)挖掘通常并不知道在數(shù)據(jù)中能挖掘出什么,對此會在數(shù)據(jù)挖掘中應(yīng)用一些常用的挖掘功能,挖掘出一些常用的模式,包括:概念/類描述:特性化和區(qū)分關(guān)聯(lián)分析分類和預(yù)測聚類分析孤立點分析趨勢和演變分析數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測數(shù)據(jù)挖掘標準流程CRISP-DM商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建立模型模型評估模型發(fā)布CRISP-DM是CRoss-IndustryStandardProcess-DataMining的縮寫商業(yè)理解(BusinessUnderstanding)

找問題-確定商業(yè)目標對現(xiàn)有資源的評估確定問題是否能夠通過數(shù)據(jù)挖掘來解決確定數(shù)據(jù)挖掘的目標制定數(shù)據(jù)挖掘計劃數(shù)據(jù)理解(DataUnderstanding)

確定數(shù)據(jù)挖掘所需要的數(shù)據(jù)對數(shù)據(jù)進行描述數(shù)據(jù)的初步探索檢查數(shù)據(jù)的質(zhì)量數(shù)據(jù)準備(DataPreparation)選擇數(shù)據(jù)清理數(shù)據(jù)對數(shù)據(jù)進行重建調(diào)整數(shù)據(jù)格式使之適合建模建立模型(Modeling)

對各個模型進行評價選擇數(shù)據(jù)挖掘模型建立模型模型評估(Evaluation)

評估數(shù)據(jù)挖掘的結(jié)果對整個數(shù)據(jù)挖掘過程的前面步驟進行評估確定下一步怎么辦?是發(fā)布模型?還是對數(shù)據(jù)挖掘過程進行進一步的調(diào)整,產(chǎn)生新的模型模型發(fā)布(Deployment)

把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中對模型進行日常的監(jiān)測和維護定期更新數(shù)據(jù)挖掘模型把業(yè)務(wù)經(jīng)驗溶入數(shù)據(jù)挖掘過程是數(shù)據(jù)挖掘成功的關(guān)鍵Better

dataminingresults!InsightBusinessproblem?What

youknow挖掘工具機器學習什么是機器學習?學習是人類具有的一種重要智能行為,但究竟什么是學習,長期以來卻眾說紛紜。社會學家、邏輯學家和心理學家都各有其不同的看法。至今,還沒有統(tǒng)一的“機器學習”定義,而且也很難給出一個公認的和準確的定義。機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問。什么是機器學習?從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數(shù)據(jù),訓練出模型,然后使用模型預(yù)測的一種方法。問題:現(xiàn)在我手里有一棟房子需要售賣,我應(yīng)該給它標上多大的價格?房子的面積是100平方米,價格是100萬,120萬,還是140萬?機器學習的重要性美國JPL實驗室的科學家在《Science》(2001年9月)上撰文指出:機器學習對科學研究的整個過程正起到越來越大的支持作用,……,該領(lǐng)域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā)展生物信息學計算金融學分子生物學行星地質(zhì)學……工業(yè)過程控制機器人……遙感信息處理信息安全機器學習MachineLearningWebelievemachinelearningwillleadtoappropriate,partialautomationofeveryelementofscientificmethod,fromhypothesisgenerationtomodelconstructiontodecisiveexperimentation.Thus,machinelearninghasthepotentialtoamplifyeveryaspectofaworkingscientist’sprogresstounderstanding.Itwillalso,forbetterorworse,endowintelligentcomputersystemswithsomeofthegeneralanalyticpowerofscientificthinking.——Science,14September,2001機器學習與人類思考的類比機器學習與相關(guān)學科機器學習數(shù)據(jù)挖掘數(shù)據(jù)庫機器學習數(shù)據(jù)分析技術(shù)數(shù)據(jù)管理技術(shù)機器學習的發(fā)展史連接主義學習模型

感知機

線性適應(yīng)元統(tǒng)計學習模型“核方法”機器學習深度學習開啟人工智能的新時代深度學習、機器學習、人工智能三者關(guān)系機器學習的基本任務(wù)機器學習的方法按照訓練的數(shù)據(jù)有無標簽,可以將機器學習方法分為監(jiān)督學習算法和無監(jiān)督學習算法,但推薦算法較為特殊,既不屬于監(jiān)督學習,也不屬于非監(jiān)督學習,是單獨的一類。監(jiān)督學習算法:線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),SVM無監(jiān)督學習算法:聚類算法,降維算法特殊算法:推薦算法回歸方法線性回歸就是我們前面說過的房價求解問題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)?例如:“最小二乘法”來求解?;貧w算法有兩個重要的子類:即線性回歸和邏輯回歸。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN),是80年代機器學習界非常流行的方法,其誕生起源于對大腦工作機理的研究。簡單來說,就是分解與整合。Hubel-Wiesel試驗與大腦視覺機理SVM(支持向量機)支持向量機誕生于統(tǒng)計學習界,從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優(yōu)化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。通過跟高斯“核”的結(jié)合,支持向量機可以表達出非常復(fù)雜的分類界線,從而達成很好的的分類效果。聚類這類方法有一個統(tǒng)稱,即無監(jiān)督算法,其中最典型的代表就是聚類。聚類就是計算種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群。聚類算法中最典型的代表就是K-Means算法。推薦算法推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。機器學習也需要借助東風大數(shù)據(jù)語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論