版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
計算與人工智能概論第12章數(shù)據(jù)分析數(shù)據(jù)分析與數(shù)據(jù)管理人工智能技術的三大基石
數(shù)據(jù)分析應用12.1PART數(shù)據(jù)分析定義12.1數(shù)據(jù)分析應用12.1.1數(shù)據(jù)分析定義大數(shù)據(jù)處理技術最重要的部分是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息。大數(shù)據(jù)分析可定義為一組能夠高效存儲和處理海量數(shù)據(jù),并有效達成多種分析目標的工具及技術的集合。即一套針對大數(shù)據(jù)進行知識發(fā)現(xiàn)的方法。數(shù)據(jù)分析挖掘能夠?qū)?shù)據(jù)轉(zhuǎn)化為非專業(yè)人事能夠理解的有意義的見解。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景天氣預報基于歷史海量數(shù)據(jù)的預測分析結(jié)合氣象知識,天氣預報的準確性和實效性將會大大提高,預報的及時性將會大大提升。此外,對于重大自然災害,例如臺風、龍卷風等,大數(shù)據(jù)分析技術可以更加精確地判斷其運動軌跡和危害的等級,有利于幫助人們提高應對自然災害的能力,減少損失。天氣預報準確度的提升和預測周期的延長將會有利于農(nóng)業(yè)生產(chǎn)的安排。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景農(nóng)牧業(yè)
借助于大數(shù)據(jù)技術收集農(nóng)牧產(chǎn)品的產(chǎn)地、產(chǎn)量、品種、流向、銷售等各種信息,在大量數(shù)據(jù)分析基礎上得到農(nóng)牧產(chǎn)品的指導信息、流通信息等。通過不同的應用場景,可以使農(nóng)牧業(yè)從業(yè)者獲取農(nóng)牧產(chǎn)品的市場行情、相關技術等信息,從而做好預判。此外,企業(yè)基于大數(shù)據(jù)分析可以獲得農(nóng)牧產(chǎn)品的流通數(shù)據(jù)、市場消費需求、市場布局情況等專業(yè)的分析報告。政府可以通過大數(shù)據(jù)的整合分析,為農(nóng)牧業(yè)生產(chǎn)提供合理建議,引導市場供需平衡,避免產(chǎn)能過剩,造成不必要的資源和社會財富浪費。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景醫(yī)療衛(wèi)生根據(jù)醫(yī)院病人的就診信息,通過大數(shù)據(jù)分析得出涉及食品安全的信息,及時進行監(jiān)督檢查,降低已有不安全食品的危害;基于用戶在互聯(lián)網(wǎng)的搜索信息,掌握流行疾病在某些區(qū)域和季節(jié)的爆發(fā)趨勢,及時進行干預,降低其危害;基于覆蓋區(qū)域的居民健康檔案和電子病歷數(shù)據(jù)庫,快速檢測傳染病,進行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應程序,快速進行響應。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景教育行業(yè)大數(shù)據(jù)分析技術可以被政府教育部門運用到教學改革實踐中。通過對學生成績、行為表現(xiàn)、心里活動等數(shù)據(jù)的分析,可以讓教育工作者理解學生在個性化層面是怎樣學習的,從而制定相關策略來提高學生的成績。此外,基于大數(shù)據(jù)分析可以將學習興趣相同的學生進行分組,從而提高共同學習效率,還可以為每位學生創(chuàng)建適合自己的學習環(huán)境及個性化的學習方案和學習路徑。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景金融行業(yè)銀行基于客戶資料的大數(shù)據(jù)分析,對申請貸款的客戶進行信用評分,從而確定是否給客戶發(fā)放貸款以及發(fā)放貸款的額度。此外,銀行可以對客戶數(shù)據(jù)進行細分研究,通過聚類分析發(fā)現(xiàn)不同類型客戶的特征,挖掘不同客戶的特點,從而為客戶提供優(yōu)質(zhì)的服務。利用大數(shù)據(jù)挖掘技術對投資的理財產(chǎn)品進行組合策略分析,從而降低投資風險,提高資金使用效率。此外,對已有的投資產(chǎn)品的組合模型進行優(yōu)化分析,為投資者提供更為精準的數(shù)據(jù)分析。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景電商行業(yè)電商平臺的崛起讓用戶不需要出門就能購買到自己需求的商品,移動互聯(lián)網(wǎng)技術的發(fā)展讓用戶可以隨時隨地購物,但這一切的發(fā)展都離不開大數(shù)據(jù)技術的支撐。
隨著數(shù)據(jù)量的日益增長,包括大數(shù)據(jù)存儲、大數(shù)據(jù)處理、大數(shù)據(jù)分析在內(nèi)的各類大數(shù)據(jù)技術也在不斷發(fā)展。
利用大數(shù)據(jù)分析技術,電商企業(yè)可以對用戶的偏好進行分析,然后進行商品推薦,從而提高用戶的購買效率;電商企業(yè)對用戶反饋的評論進行收集并分析,可以用來對產(chǎn)品進行優(yōu)化,從而提高用戶對產(chǎn)品的滿意度。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景制造業(yè)對制造業(yè)企業(yè)的銷售業(yè)績、利潤率、成本等數(shù)據(jù)的分析,有助于了解企業(yè)銷售狀況,從而制定相應的銷售策略,擴大生產(chǎn)利潤。對采購及庫存數(shù)據(jù)的分析,有助于全面掌握企業(yè)采購及庫存狀態(tài),為優(yōu)化采購流程、降低庫存積壓提供決策依據(jù)。針對產(chǎn)品故障數(shù)據(jù)進行預警分析,了解產(chǎn)品的故障狀態(tài),對于發(fā)生概率較高的故障問題、排名靠前的故障產(chǎn)品型號,可以改進生產(chǎn)工藝流程,降低產(chǎn)品故障率。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景物流配送物流的配送效率直接體現(xiàn)在用戶從下單到收到商品之間的間隔時間上,高效的物流配送也是建立在大數(shù)據(jù)分析基礎之上。通過大數(shù)據(jù)分析可以對物流資源配置進行優(yōu)化,合理規(guī)劃物流路線,從而降低物流成本,提升物流配送效率。物流網(wǎng)點的選址、交通網(wǎng)絡規(guī)劃、輻射區(qū)域規(guī)劃,都可以通過大數(shù)據(jù)分析進行輔助決策。此外,對車隊的能耗數(shù)據(jù)、路線跟蹤、調(diào)配信息等數(shù)據(jù)進行整合并分析,進行數(shù)字化管理,可以有效控制車隊的運營成本。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景交通出行大數(shù)據(jù)分析技術在交通出行方面的應用也很廣泛。例如,利用大數(shù)據(jù)分析技術可以實時監(jiān)控車輛通行密度,合理規(guī)劃行駛路線;實現(xiàn)即時的信號燈調(diào)度,提高已有線路運行能力。此外,近幾年來發(fā)展迅猛的打車平臺和共享單車也是利用大數(shù)據(jù)分析技術快速匹配司乘信息,從而提高用戶乘車便利性,降低能源損耗,提高出行效率。數(shù)據(jù)分析應用場景12.1數(shù)據(jù)分析應用12.1.2數(shù)據(jù)分析應用場景游戲產(chǎn)業(yè)游戲廠商可以基于用戶數(shù)據(jù)根據(jù)用戶的偏好行為進行分析,可以主動推薦符合其偏好的游戲產(chǎn)品,減少用戶搜索感興趣游戲的時間。此外,對用戶在游戲平臺內(nèi)產(chǎn)生的大量行為數(shù)據(jù)進行分析挖掘,可以迅速定位產(chǎn)品存在的問題并進行優(yōu)化改進,提高用戶忠誠度,降低用戶流失率。市場推廣渠道的數(shù)據(jù)分析可以幫助渠道進行優(yōu)化,從而降低獲取客戶的成本并實現(xiàn)優(yōu)質(zhì)客戶的新增導入。
數(shù)據(jù)分析案例12.2PART數(shù)據(jù)分析的基本步驟12.2數(shù)據(jù)分析案例12.2.1數(shù)據(jù)分析的基本步驟數(shù)據(jù)分析的基本步驟12.2數(shù)據(jù)分析案例12.2.1數(shù)據(jù)分析的基本步驟數(shù)據(jù)采集數(shù)據(jù)采集是按照確定的數(shù)據(jù)分析框架,收集相關數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供了素材和依據(jù)。數(shù)據(jù)可以是利用互聯(lián)網(wǎng)技術采集的數(shù)據(jù)、從公開出版物收集的權(quán)威數(shù)據(jù)、市場調(diào)研獲取的數(shù)據(jù)以及第三方平臺提供的數(shù)據(jù)等。數(shù)據(jù)處理數(shù)據(jù)處理是指對采集到的數(shù)據(jù)進行建模、組織和管理,處理成適合數(shù)據(jù)分析的樣式,保證數(shù)據(jù)的一致性和有效性,方便數(shù)據(jù)的使用。它是數(shù)據(jù)分析前必不可少的階段。數(shù)據(jù)分析的基本步驟12.2數(shù)據(jù)分析案例12.2.1數(shù)據(jù)分析的基本步驟數(shù)據(jù)分析數(shù)據(jù)分析是指用適當?shù)姆治龇椒肮ぞ撸瑢κ占瘉淼臄?shù)據(jù)進行分析,提取有價值的信息,形成有效結(jié)論的過程。數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規(guī)則建立用于決策的模型,提供支持預測性決策的方法、工具和過程。氣候數(shù)據(jù)分析案例氣象與我們的生活息息相關。氣象大數(shù)據(jù)可以廣泛應用于農(nóng)業(yè)、能源、衛(wèi)生、旅游、交通物流、航空、保險、政府決策、商業(yè)以及新興產(chǎn)業(yè)包括最近興起的新零售等多個方面。氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例序號子問題數(shù)據(jù)分析步驟子問題1獲取城市的氣象數(shù)據(jù)數(shù)據(jù)采集子問題2對氣象數(shù)據(jù)進行預處理數(shù)據(jù)處理子問題3按需求來分析數(shù)據(jù)數(shù)據(jù)分析與挖掘子問題4以直觀的形式展示數(shù)據(jù)數(shù)據(jù)可視化氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)采集目前,在氣象觀測站中,對溫度、濕度、氣壓、風向、風速等物理量的觀測均由電子控制的機械設備和智能傳感器完成。這些觀測站配有嵌入式芯片,芯片上有一個精確的時鐘,可以周期性地準時工作,例如,每隔5min、10min或1h自動采集周圍的環(huán)境數(shù)據(jù),并自動將采集的氣象252計算與人工智能概論數(shù)據(jù)編碼為二進制數(shù)據(jù)流,發(fā)送到數(shù)據(jù)庫中。截至2015年年底,我國大約有50000多個這樣的觀測站,所有觀測站均為自動站。氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)處理氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)處理氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)處理氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)處理氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)處理年號雨天低溫天數(shù)高溫天數(shù)結(jié)果數(shù)據(jù)集氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)分析1951-2010年長沙每年平均雨天數(shù)為154天,一年有接近一半天數(shù)在下雨,說明長沙是一個多雨的城市。而且每年的平均寒冷(平均氣溫低于10度)天數(shù)為98天,將近100天,則說明長沙是一個濕冷的城市。另外,長沙雖然號稱四大火爐城市之一,但每年的平均炎熱(平均氣溫高于30度)天數(shù)只有26天。氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)挖掘利用支持向量機(SVM)挖掘蘊含在歷史數(shù)據(jù)中的天氣規(guī)律,建立基于前10天平均溫度的數(shù)據(jù)來預測未來一天平均氣溫的回歸預測模型,并對此模型進行檢驗。選定訓練集數(shù)據(jù)預處理訓練SVM擬合預測結(jié)果分析氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)挖掘首先,將所獲取的該城市市區(qū)每日天氣的平均氣溫數(shù)據(jù)導入到數(shù)據(jù)文件里,并對其格式進行調(diào)整,如圖12.11所示。每行的前十列為前十日的平均氣溫,最后一列為當日的平均氣溫。其次,通過Python的sklearn庫直接調(diào)用函數(shù)對數(shù)據(jù)進行分割,獲取80%的訓練樣本和20%的測試樣本。然后,從sklearn庫中導入數(shù)據(jù)標準化模塊對數(shù)據(jù)進行預處理,將特征值數(shù)據(jù)歸一化。數(shù)據(jù)歸一化是指將特征值從一個大范圍映射到[0,1]或者[-1,1],并且將目標數(shù)據(jù)處理為整數(shù)。最后,選擇支持向量回歸機作為訓練算法(調(diào)用sklearn庫的SVM模塊),采用高斯核RBF(也稱徑向基核)作為核函數(shù),用訓練集對分類器模型進行訓練,用得到的模型對測試集進行標簽預測。結(jié)果顯示,此SVM回歸預測模型的預測結(jié)果正確率(預測與實際溫度相差一度及以下)為53%,表明此模型具有一定的可靠性。氣候數(shù)據(jù)分析案例12.2數(shù)據(jù)分析案例12.2.2氣候數(shù)據(jù)分析案例數(shù)據(jù)可視化數(shù)據(jù)分析軟件ExcelExcel為微軟辦公套裝軟件的一個重要的組成部分,它可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策操作,廣泛地應用于管理、統(tǒng)計財經(jīng)、金融等眾多領域。在Excel中,可以對數(shù)據(jù)文件實現(xiàn)排序、篩選、分類匯總等實現(xiàn)基本的數(shù)據(jù)處理;使用公式和函數(shù)用于數(shù)值計算和數(shù)據(jù)處理;函數(shù)是系統(tǒng)預先編制好的公式。Excel中共有12大類405個函數(shù),分別為財務函數(shù)、日期與時間函數(shù)、數(shù)值與三角函數(shù)、統(tǒng)計函數(shù)、查找與引用函數(shù)、數(shù)據(jù)庫函數(shù)、文本函數(shù)、邏輯函數(shù)、信息函數(shù)等。可以方便地生成圖表。12.2數(shù)據(jù)分析案例12.2.3數(shù)據(jù)分析軟件數(shù)據(jù)分析軟件12.2數(shù)據(jù)分析案例12.2.3數(shù)據(jù)分析軟件ExcelExcel的數(shù)據(jù)透視表是一種對數(shù)據(jù)進行交叉分析的三維表格。它將數(shù)據(jù)的排序、篩選和分類匯總?cè)齻€過程結(jié)合在一起,可以轉(zhuǎn)換行和列以查看源數(shù)據(jù)的不同匯總結(jié)果,可以顯示不同頁面以篩選數(shù)據(jù),還可以根據(jù)需要顯示所選區(qū)域中的明細數(shù)據(jù),非常便于用戶組織和統(tǒng)計數(shù)據(jù)。數(shù)據(jù)分析軟件12.2數(shù)據(jù)分析案例12.2.3數(shù)據(jù)分析軟件編程類統(tǒng)計軟件SAS是美國北卡羅來納州(NORTHCAROLINA)州立大學1966年開發(fā)的模塊化、集成化的大型分析統(tǒng)計軟件。它由數(shù)十個專用模塊構(gòu)成,功能包括數(shù)據(jù)訪問、數(shù)據(jù)儲存及管理、應用開發(fā)、圖形處理、數(shù)據(jù)分析、報告編制、運籌學方法、計量經(jīng)濟學與預測等。R語言是一個開源軟件,具有完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng),數(shù)組運算工具(其向量、矩陣運算功能尤其強大),完整連貫的統(tǒng)計分析工具,優(yōu)秀的統(tǒng)計制圖功能,簡便而強大的編程語言,可操縱數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),用戶可自定義功能。數(shù)據(jù)分析軟件12.2數(shù)據(jù)分析案例12.2.3數(shù)據(jù)分析軟件編程類統(tǒng)計軟件Python語言作為最受歡迎的程序設計語言之一,擁有功能豐富的庫。在數(shù)據(jù)分析中通常要用到下面幾個庫。(1)Numpy,它給Python提供了真正的數(shù)組功能,包括多維數(shù)組,以及對數(shù)據(jù)進行快速處理的函數(shù)。(2)Scipy,提供了矩陣類型,及其大量基于矩陣運算的對象和函數(shù),功能包括最優(yōu)化、線性代數(shù)、積分、插值、擬合、特殊函數(shù)、快速傅里葉變換、信號處理與圖像處理、常微分方程求解和其他科學與工程中常用的計算。(
3)Matplotlib,最著名的繪圖庫,主要是二維繪圖,也可以支持一些簡單的三維繪圖。(
4)Pandas,最強大的數(shù)據(jù)分析和探索工具,包含高級的數(shù)據(jù)結(jié)構(gòu)和精巧的工具,使得在Python中處理數(shù)據(jù)非??焖俸秃唵?。
(5)Scikit-Learn,提供完善的機器學習工具箱,包括數(shù)據(jù)預處理、分類、回歸、聚類、預測和模型分析等。(6)Keras,一個強大的深度學習庫,利用它不僅可以搭建普通的神經(jīng)網(wǎng)絡,還可以搭建各種深度學習模型,如自編碼器、循環(huán)神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等。數(shù)據(jù)分析軟件12.2數(shù)據(jù)分析案例12.2.3數(shù)據(jù)分析軟件數(shù)據(jù)可視化軟件數(shù)據(jù)分析軟件12.2數(shù)據(jù)分析案例12.2.3數(shù)據(jù)分析軟件數(shù)據(jù)可視化軟件PowerBI是由微軟出品的商業(yè)智能分析軟件,是—款專業(yè)的報表制作及數(shù)據(jù)可視化分析工具,可用作項目組、部門或整個企業(yè)背后的分析和決策引擎。該軟件支持不同數(shù)據(jù)源的連接、數(shù)據(jù)的整合與處理、交互式報表、圖形可視化分析、儀表盤的制作與發(fā)布等。
Tableau是用于可視化分析數(shù)據(jù)的商業(yè)智能工具,可以使用拖放界面以可視化任何數(shù)據(jù),以圖形或圖表的方式描繪數(shù)據(jù)的趨勢、變化和密度。不需要任何復雜的腳本,可以輕松地將多個數(shù)據(jù)源組合在一起。Echarts(EnterpriseCharts)是一款基于JavaScript的數(shù)據(jù)可視化圖表庫,提供直觀、生動、可交互、可個性化定制的數(shù)據(jù)可視化圖表。目前已被國內(nèi)數(shù)百家企業(yè)應用在新聞傳媒、證券金融、電子商務、旅游酒店、天氣地理、游戲、電力等眾多領域。
數(shù)據(jù)分析詳解12.3PART數(shù)據(jù)采集12.3數(shù)據(jù)分析詳解12.3.1數(shù)據(jù)采集數(shù)據(jù)采集是按照確定的數(shù)據(jù)分析框架,收集相關數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供了素材和依據(jù)。數(shù)據(jù)可以是利用互聯(lián)網(wǎng)技術采集的數(shù)據(jù)、從公開出版物收集的權(quán)威數(shù)據(jù)、市場調(diào)研獲取的數(shù)據(jù)以及第三方平臺提供的數(shù)據(jù)等。數(shù)據(jù)采集12.3數(shù)據(jù)分析詳解12.3.1數(shù)據(jù)采集采集方式線上采集數(shù)據(jù)埋點爬蟲線下采集市場調(diào)查問卷數(shù)據(jù)采集12.3數(shù)據(jù)分析詳解12.3.1數(shù)據(jù)采集采集渠道內(nèi)部采集財務數(shù)據(jù)銷售數(shù)據(jù)客戶數(shù)據(jù)運營數(shù)據(jù)外部采集公開出版物市場調(diào)研數(shù)據(jù)處理12.3數(shù)據(jù)分析詳解12.3.2數(shù)據(jù)處理數(shù)據(jù)處理是指對采集到的數(shù)據(jù)進行建模、組織和管理,形成適合數(shù)據(jù)分析的樣式,保證數(shù)據(jù)的一致性和有效性,方便數(shù)據(jù)的使用。它是數(shù)據(jù)分析前必不可少的階段。數(shù)據(jù)處理12.3數(shù)據(jù)分析詳解12.3.2數(shù)據(jù)處理數(shù)據(jù)清洗是對數(shù)據(jù)進行重新審查和校驗,目的在于刪除重復信息,糾正存在的錯誤,并提供數(shù)據(jù)一致性。一致性檢查是根據(jù)每個變量的合理取值范圍和相互關系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。數(shù)據(jù)處理12.3數(shù)據(jù)分析詳解12.3.2數(shù)據(jù)處理由于調(diào)查、編碼和錄入誤差,數(shù)據(jù)中可能存在一些無效值和缺失值,需要給予適當?shù)奶幚?。估算:最簡單的方法就是用某個變量的樣本均值、中位數(shù)或眾數(shù)代替無效值和缺失值。另一種方法就是根據(jù)調(diào)查對象對其他問題的答案,通過變量之間的相關分析或邏輯推論進行估計。整例刪除是剔除含有缺失值的樣本。變量刪除:如果某一變量的無效值和缺失值很多,而且該變量對于所研究的問題不是特別重要,則可以考慮將該變量刪除。成對刪除是用一個特殊碼(通常是9、99、999等)代表無效值和缺失值,同時保留數(shù)據(jù)集中的全部變量和樣本。數(shù)據(jù)處理12.3數(shù)據(jù)分析詳解12.3.2數(shù)據(jù)處理數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)進行轉(zhuǎn)換或歸并,從而構(gòu)成一個適合數(shù)據(jù)處理的描述形式。平滑處理是幫助除去數(shù)據(jù)中的噪聲。合計處理是對數(shù)據(jù)進行總結(jié)或合計操作。數(shù)據(jù)泛化處理是用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。規(guī)格化處理是將有關屬性數(shù)據(jù)按比例投射到特定的小范圍之中。屬性構(gòu)造處理是根據(jù)已有屬性集構(gòu)造新的屬性,以幫助數(shù)據(jù)處理過程。數(shù)據(jù)處理12.3數(shù)據(jù)分析詳解12.3.2數(shù)據(jù)處理數(shù)據(jù)抽取是指從源數(shù)據(jù)源系統(tǒng)抽取需要的數(shù)據(jù)。實際應用中,數(shù)據(jù)源較多采用的是關系數(shù)據(jù)庫??傮w而言,數(shù)據(jù)抽取的常見方法有兩大類:一類是基于查詢式的,以從來源庫來源表查詢數(shù)據(jù)為主。這一類總體又有幾種:觸發(fā)器方式,增量字段方式,時間戳方式等等。另一類是基于日志式的,我們通過采集日志把已經(jīng)提交的事務數(shù)據(jù)抽取出來,對于沒有提交的事務不做操作,進而達到數(shù)據(jù)抽取的目的。數(shù)據(jù)處理12.3數(shù)據(jù)分析詳解12.3.2數(shù)據(jù)處理數(shù)據(jù)整合是把在不同數(shù)據(jù)源的數(shù)據(jù)收集、整理、清洗,轉(zhuǎn)換后加載到一個新的數(shù)據(jù)源,為數(shù)據(jù)消費者提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法數(shù)據(jù)分析狹義的數(shù)據(jù)分析是指用適當?shù)姆治龇椒肮ぞ?,對收集來的?shù)據(jù)進行分析,提取有價值的信息,形成有效結(jié)論的過程。從策略的角度看,統(tǒng)計分析有三類:描述性統(tǒng)計分析探索性統(tǒng)計分析推斷性統(tǒng)計分析數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法數(shù)據(jù)分析策略描述性統(tǒng)計分析側(cè)重于對調(diào)查總體所有變量的有關數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布形狀。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法數(shù)據(jù)分析策略描述性統(tǒng)計分析常用指標的均值、中位數(shù)、眾數(shù)體現(xiàn)了數(shù)據(jù)的集中趨勢;極差、方差、標準差體現(xiàn)了數(shù)據(jù)的離散程度;偏度、峰度體現(xiàn)了數(shù)據(jù)的分布形狀。均值:平均值。中位數(shù):數(shù)據(jù)按照從小到大的順序排列時,最中間的數(shù)據(jù)即為中位數(shù)。當數(shù)據(jù)個數(shù)為奇數(shù)時,中位數(shù)即最中間的數(shù);當數(shù)據(jù)個數(shù)為偶數(shù)時,中位數(shù)為中間兩個數(shù)的平均值。眾數(shù):數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)字,即頻數(shù)最大的數(shù)值。眾數(shù)可能不止一個,眾數(shù)不僅能用于數(shù)值型數(shù)據(jù),還可用于非數(shù)值型數(shù)據(jù)。極差:=最大值-最小值,是描述數(shù)據(jù)分散程度的量,極差描述了數(shù)據(jù)的范圍,但無法描述其分布狀態(tài),且對異常值敏感,異常值的出現(xiàn)使得數(shù)據(jù)集的極差有很強的誤導性。四分位數(shù):數(shù)據(jù)從小到大排列并分成四等份,處于三個分割點位置的數(shù)值,即為四分位數(shù)。四分位數(shù)分為上四分位數(shù)(數(shù)據(jù)從小到大排列排在第75%的數(shù)字,即最大的四分位數(shù))、下四分位數(shù)(數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字,即最小的四分位數(shù))、中間的四分位數(shù)即為中位數(shù)。四分位數(shù)可以很容易地識別異常值。箱線圖就是根據(jù)四分位數(shù)做的圖。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法數(shù)據(jù)分析策略描述性統(tǒng)計分析方差和標準差。方差是每個數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù),標準差是方差開方。方差與標準差表示數(shù)據(jù)集波動的大小。方差小,表示數(shù)據(jù)集比較集中,波動性??;方差大,表示數(shù)據(jù)集比較分散,波動性大。由于標準差只能用于統(tǒng)一體系內(nèi)的數(shù)據(jù)比較,如果要對不同體系的數(shù)據(jù)比較,就要引入標準分的概念。標準分Z:對數(shù)據(jù)進行標準化處理,又叫Z標準化,經(jīng)過Z標準化處理后的數(shù)據(jù)符合正態(tài)分布(即均值為0,標準差為1)。標準分是對不同數(shù)據(jù)集的數(shù)據(jù)進行比較的量,可用來表示數(shù)據(jù)值在所在數(shù)據(jù)集內(nèi)的相對排名。標準分的意義是每個數(shù)值距離平均值有多少個標準差。峰度:描述正態(tài)分布中曲線峰頂尖哨程度的指標。峰度系數(shù)>0,則兩側(cè)極端數(shù)據(jù)較少,比正太分布更高更瘦,呈尖哨峰分布;峰度系數(shù)<0,則兩側(cè)極端數(shù)據(jù)較多,比正太分布更矮更胖,呈平闊峰分布。偏度:以正態(tài)分布為標準描述數(shù)據(jù)對稱性的指標。偏度系數(shù)=0,則分布對稱;偏度系數(shù)>0,則頻數(shù)分布的高峰向左偏移,長尾向右延伸,呈正偏態(tài)分布;偏度系數(shù)<0,則頻數(shù)分布的高峰向右偏移,長尾向左延伸,呈負偏態(tài)分布。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法數(shù)據(jù)分析策略探索性數(shù)據(jù)分析是由統(tǒng)計學家圖基提出的一個概念,指的是在沒有先驗的假設或者很少的假設的情況下,通過數(shù)據(jù)的描述性統(tǒng)計、可視化、特征計算、方程擬合等手段,去發(fā)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種方法。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法數(shù)據(jù)分析策略推斷性統(tǒng)計分析是指以概率論為基礎,用隨機樣本的數(shù)量特征信息,來推斷總體的數(shù)量特征,做出具有一定可靠性保證的估計或檢驗。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法數(shù)據(jù)分析方法對比分析是數(shù)據(jù)分析中最常用、好用、實用的分析方法,它是將兩個或兩個以上的數(shù)據(jù)進行比較,分析其中的差異,從而揭示這些事物代表的發(fā)展變化以及變化規(guī)律。對比常用標準是時間標準、空間標準、特定標準。時間標準為同比-與上年同期比較,環(huán)比-與前一時期比較,某一時期與達到歷史最好水平的時期或歷史上一些關鍵時期進行比較。空間標準為與相似的空間比較,如與同級部門、單位、地區(qū)比;與先進空間比較,如與行業(yè)內(nèi)標桿企業(yè)比較;與擴大的空間標準比較,如與行業(yè)內(nèi)平均水平比較。特定標準為通過對大量歷史資料的歸納總結(jié)或已知理論推理而得到的標準,如借助恩格爾系數(shù)衡量某國家或某地區(qū)的生活質(zhì)量;計劃標準—與計劃數(shù)、定額數(shù)、目標數(shù)對比。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法常用分析方法分組分析法是指通過統(tǒng)計分組的計算和分析,來認識所要分析對象的不同特征、不同性質(zhì)及相互關系的方法。
分組就是根據(jù)研究的目的和客觀現(xiàn)象的內(nèi)在特點,按某個標志或幾個標志把被研究的總體劃分為若干個不同性質(zhì)的組,使組內(nèi)的差異盡可能小,組間的差異盡可能大。分組分析法是在分組的基礎上,對現(xiàn)象的內(nèi)部結(jié)構(gòu)或現(xiàn)象之問的依存關系從定性或定量的角度做進一步分析研究,以便尋找事物發(fā)展的規(guī)律,正確地分析問題和解決問題。
數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法常用分析方法
預測分析法是根據(jù)客觀對象的已知信息對事物在將來的某些特征、發(fā)展狀況的一種估計、測算活動;是運用各種定性和定量的分析理論與方法,對事物未來發(fā)展的趨勢和水平進行判斷和推測的一種活動。定量分析是根據(jù)過去比較完整的統(tǒng)計資料,運用預測變量之間存在的某種關系,如時間關系、因果關系和結(jié)構(gòu)關系等,使用現(xiàn)代數(shù)學的方法,建立模型,進行計算分析得出預測結(jié)果,通常包括指數(shù)平滑法、趨勢外推法、季節(jié)指數(shù)預測法、回歸分析法、投入產(chǎn)出法、經(jīng)濟計量模型法等。定性分析是在調(diào)查研究的基礎上,依靠預測人員的經(jīng)驗和知識,對預測對象進行分析和判斷,據(jù)以得出預測結(jié)論的方法。數(shù)據(jù)分析策略和方法12.3數(shù)據(jù)分析詳解12.3.3數(shù)據(jù)分析策略和方法常用分析方法
漏斗分析是一套流程式數(shù)據(jù)分析,能夠科學反映用戶行為狀態(tài)以及從起點到終點各階段用戶轉(zhuǎn)化率情況的重要分析模型。漏斗分析模型已經(jīng)廣泛應用于用戶行為分析的流量監(jiān)控、產(chǎn)品目標轉(zhuǎn)化等日常數(shù)據(jù)運營與數(shù)據(jù)分析的工作中。數(shù)據(jù)挖掘12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規(guī)則建立用于決策的模型,提供預測性決策支持的方法、工具和過程。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘步驟數(shù)據(jù)挖掘的規(guī)范化步驟可以采用SIG組織在2000年推出的CRISPDM模型數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘步驟業(yè)務理解最初的階段主要是理解項目目標和從業(yè)務的角度理解需求,同時將這個知識轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義和完成目標。
數(shù)據(jù)理解數(shù)據(jù)理解階段從初始的數(shù)據(jù)收集開始,通過一些活動的處理,達到如下目的:熟悉數(shù)據(jù),識別數(shù)據(jù)的質(zhì)量問題,首次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測引起興趣的子集而形成隱含信息的假設。
數(shù)據(jù)準備數(shù)據(jù)準備階段包括從未處理的數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動。這些數(shù)據(jù)將是模型工具的輸入值。這個階段的任務有的能執(zhí)行多次,沒有任何規(guī)定的順序。這些任務包括表、記錄和屬性的選擇,以及為模型工具轉(zhuǎn)換和清洗數(shù)據(jù)。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘步驟
建模在這個階段,可以選擇和應用不同的模型技術,模型參數(shù)被調(diào)整到最佳的數(shù)值。一般來說,有些技術可以解決一類相同的數(shù)據(jù)挖掘問題;有些技術在數(shù)據(jù)形成上有特殊要求,因此需要經(jīng)常跳回到數(shù)據(jù)準備階段。
評估到了項目的評估階段,你已經(jīng)從數(shù)據(jù)分析的角度建立了一個高質(zhì)量模型。在開始部署模型之前,重要的是徹底地評估模型,檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務目標。這個階段的關鍵目標是確定是否有重要業(yè)務問題沒有被充分地考慮。在這個階段結(jié)束后,必須達成使用一個數(shù)據(jù)挖掘結(jié)果的決定。
部署通常,模型的創(chuàng)建不是項目的結(jié)束。模型的作用是從數(shù)據(jù)中找到知識,將獲得的知識以便于用戶使用的方式重新組織和展現(xiàn)。根據(jù)需求,這個階段可以產(chǎn)生簡單的報告,或是實現(xiàn)一個比較復雜的、可重復的數(shù)據(jù)挖掘過程。在很多案例中,部署工作是由客戶而不是數(shù)據(jù)分析人員承擔的。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本任務分類與預測分類是構(gòu)造一個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本映射到預先定義好的類別。分類模型建立在已有標記的數(shù)據(jù)集上,模型在已有樣本上的準確率可以方便地計算,所以分類屬于有監(jiān)督的學習。預測是建立在兩種或兩種以上變量間相互依賴的函數(shù)模型,然后進行預測或控制。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本任務常用的分類與預測算法算法名稱算法描述回歸分析回歸分析是確定預測屬性與其他變量間相互依賴的定量關系最常用的統(tǒng)計學方法,包括線性回歸、非線性回歸、logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型。決策樹決策樹采用自頂向下的遞歸方式,在內(nèi)部節(jié)點進行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點向下分支,最終得到的葉節(jié)點是學習劃分的類。人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡是一種模仿大腦神經(jīng)網(wǎng)絡結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),是表示神經(jīng)網(wǎng)絡的輸入和輸出變量之間的關系的模型。貝葉斯網(wǎng)絡貝葉斯網(wǎng)絡又稱信度網(wǎng)絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。支持向量機支持向量機是一種通過某種非線性映射,把低維的非線性轉(zhuǎn)化為高維的線性可分,在高維空間進行線性分析的算法。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本任務聚類分析聚類分析是在沒有給定劃分類別的情況下,根據(jù)數(shù)據(jù)形似度進行樣本分組的一種方法。聚類模型可以建立在無類標記的數(shù)據(jù)上,是一種非監(jiān)督的學習算法聚類模型的輸入是一組未被標記的樣本,聚類模型根據(jù)數(shù)據(jù)自身的距離或相似度將它們劃分為若干組,劃分的原則是實現(xiàn)組內(nèi)樣本最小化而組間距離最大化。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本任務常用的聚類分析算法算法名稱算法描述K-meansK-均值聚類也叫快速聚類法,在最小化誤差函數(shù)的基礎上將數(shù)據(jù)劃分為預定的類數(shù)k。該算法原理簡單并便于處理大量數(shù)據(jù)。K-中心點K-中心點算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。系統(tǒng)聚類系統(tǒng)聚類也叫多層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu),且所處的位置越低,其包含的對象就越少,這些對象的共同特征也就越多。該聚類方法只適合在數(shù)據(jù)最小的時候使用,數(shù)據(jù)最大的時候速度會非常慢。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本任務關聯(lián)規(guī)則關聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中最活躍的研究方法之一,目的是在一個數(shù)據(jù)集中找出各項之間的關聯(lián)關系,而這種關系并沒有在數(shù)據(jù)中直接表示出來。算法名稱算法描述Apriori關聯(lián)規(guī)則是最常用的也是最經(jīng)典的挖掘頻繁項集的算法,其核心思想是通過連接產(chǎn)生候選項及其支持度,然后通過剪枝產(chǎn)生頻繁項集。FP-Tree針對Apriori算法固有的需要多次掃描數(shù)據(jù)集的缺陷所提出的裁剪數(shù)據(jù)集的方法。Eclat算法Eclat算法是一種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,在概念理論的基礎上利用基于前綴的等價關系將搜索空間劃分為較小的空間?;疑P聯(lián)分析和確定各因素之間的影響程度或是若干個子因素對主因素的貢獻度而進行的一種分析方法。數(shù)據(jù)分析的基本步驟12.3數(shù)據(jù)分析詳解12.3.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本任務時序模式時序模式是描述基于時間或其他序列的經(jīng)常發(fā)生的規(guī)律或趨勢,并對其建模。與回歸一樣,它也用已知的數(shù)據(jù)預測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。序列模式將關聯(lián)模式和時間序列模式結(jié)合起來,重點考慮數(shù)據(jù)之間在時間維度上的關聯(lián)性。時間序列分析:用已有的數(shù)據(jù)序列預測未來。在時間序列分析中,數(shù)據(jù)的屬性值是隨著時間不斷變化的?;貧w不強調(diào)數(shù)據(jù)間的先后順序,而時間序列要考慮時間特性,尤其要考慮時間周期的層次,如天、周、月、年等,有時還要考慮日歷的影響,如節(jié)假日等。序列發(fā)現(xiàn):用于確定數(shù)據(jù)之間與時間相關的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年周口理工職業(yè)學院單招職業(yè)技能考試題庫附答案詳解
- 2026年廣西科技職業(yè)學院單招職業(yè)技能考試題庫及參考答案詳解1套
- 2026年重慶工程職業(yè)技術學院單招職業(yè)傾向性考試題庫及完整答案詳解1套
- 2026年南充電影工業(yè)職業(yè)學院單招職業(yè)適應性考試題庫及答案詳解一套
- 中醫(yī)治未病面試題及答案
- 醫(yī)院考察面試題目及答案
- 賓館廢舊物品處理協(xié)議書范本
- 廣西國際壯醫(yī)醫(yī)院2026年(第二批)人才招聘備考題庫及完整答案詳解1套
- 中國鐵路青藏集團有限公司2026年招聘普通高校本科及以上學歷畢業(yè)生備考題庫(一)及完整答案詳解1套
- 長沙市食品藥品檢驗所2025年公開招聘編外合同制人員備考題庫完整答案詳解
- 2025年薪酬福利專員崗位招聘面試參考試題及參考答案
- 2025年政府財務崗面試題及答案
- 2026屆新高考數(shù)學沖刺突破復習“三角函數(shù)”教學研究與高考備考策略-從基礎到高階的思維建構(gòu)
- 丙烯酸籃球場施工工藝
- 2025醫(yī)療器械檢測行業(yè)全面分析及質(zhì)量監(jiān)管與發(fā)展趨勢報告
- 口腔診所管理運營培訓課件
- 中國葡萄膜炎臨床診斷要點專家共識2025
- 受益所有人識別與風險管理培訓
- 2025年國家開放大學(電大)《護理倫理學》期末考試復習題庫及答案解析
- 幼兒園每日消毒及安全管理操作規(guī)范
- 11.1黨和人民信賴的英雄軍隊課件-2025-2026學年統(tǒng)編版道德與法治八年級上冊
評論
0/150
提交評論