人工智能技術及應用 課件 第四章 基于人工智能的大數據挖掘_第1頁
人工智能技術及應用 課件 第四章 基于人工智能的大數據挖掘_第2頁
人工智能技術及應用 課件 第四章 基于人工智能的大數據挖掘_第3頁
人工智能技術及應用 課件 第四章 基于人工智能的大數據挖掘_第4頁
人工智能技術及應用 課件 第四章 基于人工智能的大數據挖掘_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

4.1大數據的基本概念與產業(yè)發(fā)展趨勢4.2大數據挖掘的基本理論與技術4.3大數據挖掘的典型應用4.1大數據的基本概念與產業(yè)發(fā)展趨勢1.大數據的基本概念與傳統(tǒng)數據相比,大數據是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產。大數據通過數據采集、數據存儲和數據分析,能夠發(fā)現(xiàn)已知變量間的相互關系,從而進行科學決策。大數據的價值在于對數據進行科學分析以及在分析的基礎上進行數據挖掘和智能決策。大數據以數據為單位,計算機學家認為大數據是個體量巨大的數據集,技術人員認為大數據是個收集、處理、分析、應用數據的新模式,經濟學家則把它看成用之不竭的資產。由于大數據擁有巨大量的數據形式的資料,一些傳統(tǒng)的數據庫軟件已經無法對大數據進行獲取、保存、處理、分析等操作,因此需要開發(fā)更加強大的數據庫軟件對大數據進行一系列的操作,并且在數據處理方式上也要進行創(chuàng)新,這樣提取出的數據才更具有可靠性,同時可給企業(yè)和政府管理部門帶來增長迅速、種類多樣、流程簡單、高洞察力和決策力的信息資產。大數據正處于快速擴張階段,各行業(yè)都有涉及,一些行業(yè)的數據存儲量已經遠超了拍字節(jié)(PB)。大數據的主要特點有:(1)數據量的規(guī)模大、儲存量大、計算量大、數據的增長速度以及獲取速度快。(2)數據具有格式種類的多樣性、廣泛性、高價值屬性、無結構性、便捷性。(3)大數據富含巨大價值,但是這種價值的密度卻很低,需要大浪淘沙般地從規(guī)模巨大、類型繁多的數據中快速提取有價值的數據信息。有些數據從表面上看是一些無用數據,但是在數據分析、整合過程中卻能夠體現(xiàn)出巨大的價值,并且這些數據可以被保留并在不同的統(tǒng)計中反復分析和使用而不會被損壞,也不會被降低價值。大數據的處理流程一般包括收集、分析、應用三個環(huán)節(jié)。首先,通過社交網絡、電商、聯(lián)網的移動智能終端、物聯(lián)網、各類傳感器網絡、導航儀等渠道采集數據,這既包括緩存在設備上的Cookies,還包括設備上的數字、圖片等內容。巨大體量的數據匯聚在一起形成了大數據集合,其中所蘊含的數據價值倍增。這些被收集的原始數據利用一些理論和方法進行挖掘、整合、分析等,數據與數據之間發(fā)生諸多關聯(lián),產生更多的信息,這些信息將被運用于構建智慧醫(yī)院、智慧城市、智慧政府等。大數據最早是信息科學的科學概念,即IT學科的概念術語,它是對在數據技術和數據終端快速發(fā)展的背景下產生的龐大數據量和指數化增長的數據量增速的描述。隨后,數據分析人員在對龐大數據背后的信息價值研究的基礎上,進一步將大數據的概念擴展為利用傳統(tǒng)數據處理系統(tǒng)無法完成存儲、處理和分析的具有數據內涵價值的數據整體。根據在大數據分析中所采用的分析方法和對象的不同,大數據的內涵再次得到擴展,即大數據是指不使用隨機分析法這樣途徑獲得數據,而是對所有數據進行分析處理。至此,大數據不單是信息學科的科學概念,更涉及管理咨詢、信息分析等多個學科。IBM管理咨詢專家指出,大數據具有“5V”特性:Volume、Velocity、Variety、Value、Veracity。Volume是指大數據以數據整體為分析對象,在當前數據基數大、數據增速迅猛的情況下,數據總體規(guī)模巨大且數據規(guī)模擴張速度明顯。Velocity是指在大數據背景下的分析工作借助于數據分析技術和現(xiàn)代計算機技術,相較于人工分析技術,分析人員能夠快速地對整體數據實現(xiàn)數據高速分析。Variety是指在新的數據分析技術背景下,計算機的數據分析技術不僅能對數字、文字等結構化數據進行分析,將來也能對圖片、視頻、音頻等非結構化數據進行分析,無需人工進行數據結構的轉化。Value是指盡管大數據是針對數據整體的分析,數據整體的規(guī)模也將不斷擴大,但是其中能夠為分析人員所利用的價值數據僅僅占其中的一小部分。因此,數據規(guī)模越大,其中的價值數據所占的份額比例越小,數據價值密度越低,數據分析人員首先需要對全體數據進行篩選,隨后開展數據分析。Veracity是指大數據的數據來源是真實存在的數據集合,是對現(xiàn)實世界產生的數據的抽取與轉化。相比較以傳統(tǒng)統(tǒng)計分析為基礎的管理咨詢和數據分析,大數據放棄了統(tǒng)計抽樣的方法。大數據的分析對象是數據整體而非抽樣數據,其分析結果依據具有全面性,避免了抽樣風險對數據分析結果的影響??焖俚臄祿治鎏幚砑夹g使得大數據的分析處理結果具有實時性,避免了“保鮮期”極短的數據信息失去原有的信息價值。2.大數據的產業(yè)發(fā)展趨勢今年來,全球大數據的發(fā)展仍處于活躍階段。國際數據公司發(fā)布的報告稱,2019年,大數據與商業(yè)分析解決方案全球市場的整體收益達到1896.6億美元,這一數字相比2018年增長12.1%。國際數據公司(IDC)統(tǒng)計顯示,全球近90%的數據將在這幾年內產生,預計到2025年,全球數據量將比2016年的16.1?ZB增加十倍,可達到163ZB。隨著大數據、移動互聯(lián)網、物聯(lián)網等產業(yè)的深入發(fā)展,我國數據產生量將出現(xiàn)爆發(fā)式增長,數據交易將迎來戰(zhàn)略機遇。我國產生的數據量將從2018年的7.6?ZB增至2025年的48.6ZB,復合年增長率CAGR達30.35%,超過美國同期的數據產生量約18ZB近年來,我國大數據產業(yè)受到黨和國家及地方政府的高度重視。2015年,國務院正式印發(fā)了《促進大數據發(fā)展行動綱要(國發(fā)〔2015〕50號)》,成為我國發(fā)展大數據技術及產業(yè)的首部戰(zhàn)略性指導文件。各省級政府成立了大數據局管理機構,紛紛出臺支持大數據技術開發(fā)、平臺建設和產業(yè)發(fā)展的戰(zhàn)略,使大數據產業(yè)發(fā)展的政策環(huán)境日益完善,大數據技術產品水平持續(xù)提升,大數據產業(yè)蓬勃發(fā)展,行業(yè)融合應用不斷深化,數據資產化步伐穩(wěn)步推進,數字經濟量質提升,對社會經濟的創(chuàng)新驅動、融合帶動作用顯著增強。4.2大數據挖掘的基本理論與技術4.2.1數據挖掘概述數據挖掘是一門交叉科學,它涉及人工智能、機器學習、統(tǒng)計學、模式識別、數據庫等諸多領域。它起源于數據庫中的知識發(fā)現(xiàn),利用統(tǒng)計學、機器學習、數據庫等技術從數據中挖掘人們感興趣的模式,并且找出之前沒有發(fā)現(xiàn)的隱藏在數據中的準確信息。在技術上,它吸收了數據庫和數據倉庫的海量數據管理技術以及數據可視化技術;在方法上,它自成一派,開創(chuàng)了適合自己的一般步驟和流程。數據挖掘將原來存儲在數據庫中的數據的潛在價值挖掘出來,為社會所用,為人類造福。20世紀60年代,統(tǒng)計學家最開始在沒有先驗假設的情況下做了一些基礎的統(tǒng)計分析工作,當時他們稱之為“DataFishing”或者“DataDredging”。數據挖掘最早是在1990年被數據庫社區(qū)的學者們提出的,然后逐漸被其他領域的學者慢慢接受并廣泛使用。這一術語在人工智能和機器學習領域受到了真正的熱捧,人工智能和機器學習領域一直將數據挖掘作為數據庫中知識發(fā)現(xiàn)的一個關鍵技術。自2007年以來,數據科學也用于描述這一領域。數據挖掘要解決的核心問題是知識表示,屬性選擇,處理確實值、異常值和稀疏數據,發(fā)現(xiàn)感興趣的模式等。數據挖掘與數據分析最大的不同是,數據挖掘傾向于發(fā)現(xiàn)以前從未發(fā)現(xiàn)過的模式,這意味著數據挖掘比數據分析要復雜得多。數據挖掘的目標是從大數據集中提取有價值的信息,并將其轉化為可理解的結構以供進一步使用。除了原始的分析步驟之外,它還包括數據庫和數據管理、數據預處理、模型和推理考慮、興趣度度量、復雜性考慮、發(fā)現(xiàn)結構的后處理、可視化和在線更新。總之,數據挖掘是數據庫知識發(fā)現(xiàn)過程的分析步驟。實際的數據挖掘任務是對大量數據進行半自動或自動分析,以提取以前未知的、有趣的模式,如數據記錄組、異常記錄和依賴關系等。這些模式可以被看作是輸入數據的一種總結,并且可以用于進一步的分析。數據挖掘步驟可以識別數據中的多個組,然后通過決策支持系統(tǒng)來獲得更準確的預測結果。隨著社會信息化的不斷推進,各種類型的數據也在爆發(fā)式增長,如何從海量數據中獲得有價值的信息成為當今各行各業(yè)的迫切需求。在這樣的大背景下,數據挖掘技術越來越受到重視并被深入研究。數據挖掘作為數據知識發(fā)現(xiàn)的一個主要手段,它的基本定義是:從大量的、不完全的、有噪音的、模糊的、隨機的實際數據中發(fā)現(xiàn)隱含的、規(guī)律性的,人們事先未知但又具有潛在應用價值并且最終可理解的信息和知識的非平凡過程[8]。數據挖掘所發(fā)現(xiàn)的知識可使用在數據管理、優(yōu)化檢索、提供決策幫助等方面。另外,數據的維護與探查也可通過這一技術完成。與傳統(tǒng)數據庫等靜態(tài)數據統(tǒng)計相比,數據挖掘具有以下四個方面的顯著優(yōu)點:第一,數據挖掘所面對和處理的是海量數據,它利用了諸如分布式等海量運算工具;第二,數據挖掘是為了從數據中發(fā)現(xiàn)人們難以獲得的隱藏信息;第三,數據挖掘整個過程可自動化完成,它也是人工智能的一項成功運用;第四,數據挖掘包含了大量的交叉學科知識,是一門集合了統(tǒng)計學、數據庫、模式識別和人工智能等學科的綜合學科。數據挖掘最主要的任務是利用復雜的數據進行預測性描述,在此基礎上可衍生出以下幾種常用的任務類別。1.分類與回歸學習回歸學習和分類學習是機器學習中的兩大類問題?;貧w學習的輸出是連續(xù)的,而分類學習的輸出則是代表不同類別的有限個離散數值。分類與回歸是數據挖掘中最常用的兩種算法。它們是一類描述了不同類別數據特征的模型,能夠對數據進行正確的分類與量化。分類與回歸能夠在海量數據中自動尋找預測性的信息,并且快速地應對數據的變化,給出數據最直觀的信息。例如在商業(yè)領域的預測問題上,分類與回歸學習能夠預測關于市場未來的數值信息,或者為未來新用戶進行歸類與推薦,對未知事件做出響應與反饋。2.關聯(lián)分析學習從大規(guī)模數據集中尋找物品間的隱含關系被稱作關聯(lián)分析學習或者關聯(lián)規(guī)則學習。這些信息往往難以用常規(guī)的手段統(tǒng)計得到,通過規(guī)則能夠清晰展示數據屬性之間的聯(lián)系。其中數據關聯(lián)可分為單一、時序、因果等關聯(lián)。關聯(lián)分析學習旨在找到數據屬性的關聯(lián)網絡,為數據的進一步識別和區(qū)分提供可信度高的規(guī)則系統(tǒng)。關聯(lián)分析的目標是發(fā)現(xiàn)頻繁項集和發(fā)現(xiàn)關聯(lián)規(guī)則。3.聚類學習聚類學習是機器學習中一種重要的無監(jiān)督算法,它可以將數據點歸結為一系列特定的組合,主要有K均值聚類、均值漂移算法、基于密度的聚類算法、利用高斯混合模型進行最大期望估計和凝聚層次聚類等聚類算法。理論上,歸為一類的數據點具有相同的特性,而不同類別的數據點則具有各不相同的屬性。聚類學習一般包含了模式識別、相似性度量等學科,與分類回歸最主要的區(qū)別在于它主要面向無標簽的數據,通過衡量數據之間的相似性進行分組和歸類,根據數據類間相似性原理分成若干簇群。聚類學習一定程度上提高了人們對數據的客觀認識,大大增加了數據之間的偏差性。4.孤立點分析Hawkins給出了孤立點的本質定義:孤立點是在數據集中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產生于完全不同的機制。它可能是度量或執(zhí)行錯誤所導致的,因此,孤立點分析可以用于發(fā)現(xiàn)標準類型知識外的偏差型知識,這種知識體現(xiàn)在數據集中包含差異性的特例對象上,可以揭示出事物偏離常規(guī)的異?,F(xiàn)象,通常是數據聚類外的一些離群值。偏差型知識可以在不同的概念層次上發(fā)現(xiàn)。孤立點分析有著廣泛的應用。它能用于欺詐監(jiān)測,例如探測不尋常的信用卡的使用情況或電信服務。此外,它可在市場分析中用于確定極低或極高收入的客戶的消費行為,或者在醫(yī)療分析中用于發(fā)現(xiàn)對多種治療方式產生的不尋常反應。5.摘要摘要是一種在數據集中尋找能夠包含整個集合信息代表性子集的過程。摘要任務不僅僅局限于文本摘要,如圖像摘要系統(tǒng)要找到最重要的圖片,監(jiān)控視頻要找到最重要的事件等。6.異常檢測異常檢測的假設是入侵者活動異常于正常主體的活動。根據這一理念建立主體正?;顒拥摹盎顒雍啓n”,將當前主體的活動狀況與“活動簡檔”相比較,當違反其統(tǒng)計規(guī)律時,認為該活動可能是“入侵”行為。異常檢測的主要目的是指從數據中找出不符合預期的模式。在不同的語境中,異常檢驗也被稱為異常值檢測、新穎性檢測、噪聲檢測、偏差檢測或異常挖掘。異常檢測技術用于各種領域。它有時也應用于預處理中,可刪除數據集中的異常數據。上述數據挖掘技術有廣泛的應用,從商業(yè)應用方面來說,數據挖掘技術是一種數據信息化的處理方式,它的核心要點在于對海量結構化和非結構化數據進行抽取、轉換、加載操作與建模,從中提取出人們感興趣并且難以通過常規(guī)手段發(fā)現(xiàn)的信息。其中結構化數據以數據庫結構為代表,例如文本等文件;非結構化數據通常包含了圖像數據、影音數據、傳感器數據等。所以數據挖掘這種分層分析數據的技術可以描述為:按照具體的業(yè)務主題制定挖掘目標,對海量的數據特征進行分析處理后建立模型,從而展示未知的、有價值的信息或者規(guī)律。隨著隨機數據挖掘技術的不斷發(fā)展,基本形成了以人工智能、數據庫系統(tǒng)、理化統(tǒng)計為核心的綜合科學,研究方向包括計算理論、數據倉庫、可視化技術等衍生領域。數據挖掘的基礎是數據庫,但數據庫在數據挖掘中已經不再是一個存儲一張簡單的表或者用于數據分析的工具。首先,數據庫像是一個沒有任何結構和預先定義好的模型的存儲空間。例如,許多非計算機方面的研究人員只需要在文本編輯器上輸入簡單的數據,就能將實驗日期與地址、實驗化學成分等諸如此類的信息放進數據庫中。如果人們想要達到這樣的目的,必須對自然語言使用大量的注釋才可實現(xiàn)。其次,數據庫主要以分層或者關系格式結構存儲數據并且需要使用接口才能查詢存儲數據,這樣做的好處是能夠制定完整的數據標準和固定的訪問規(guī)則。當一個數據庫的數據不是用于學習,而是用于其他方面時,這些數據通常都是雜亂無章并且漏洞百出的。最后,數據挖掘的數據庫其存儲量的增大并不會導致算法變慢。在數據挖掘過程中,DBMS通信不僅要快,而且還必須優(yōu)化訪問數據庫的應用程序。也許比其他領域更為重要的是,當直接訪問或通過選擇訪問少量特別有趣的數據時,必須考慮數據訪問的復雜性。4.2.2數據挖掘框架如前所述,數據挖掘的目的是從海量無規(guī)則的數據中發(fā)現(xiàn)有價值的隱藏信息,根據挖掘目的不同選擇相應合適的算法對數據進行分析、重構、預測、解釋和評估,最后將數據挖掘的結果交給相關領域專業(yè)人員進行分析和表達,并且借助數據可視化技術對結果進行可視化展現(xiàn),使用戶能夠通過數據得到所需要的結論。數據挖掘整體流程可以分為以下幾個基本步驟:確定挖掘任務目標、數據采集、數據預處理、特征工程、模型訓練、模式評估、結果分析、數據展示,其挖掘框架如圖4.1所示。首先根據需要確定挖掘任務的目標所屬問題,比如分類、回歸、時序、聚類學習等,一旦確定了目標便可以在對應的場景下采集原始數據。數據預處理是將收集到的原始數據進行清洗與格式化、采樣處理等操作。這一階段是整個數據處理過程中重要的階段。由于數據的質量會直接影響到預測的結果,所以該步驟直接保證了數據的有效性和一致性。數據預處理階段主要將不一致數據、非對齊數據、缺失數據、異常數據等進行補齊和修正。在數據預處理階段還要保證在不修改原始數據的同時,數據的信息不丟失。經過數據預處理的樣本在特征工程步驟中需要按照業(yè)務邏輯生成與目標變量相關的特征,或者依據統(tǒng)計學原理衍生出其他特征以便更好地描述數據。這一步驟是整個數據挖掘中最為復雜和耗時的工作,它直接決定了預測結果的上限。待經過特征工程的訓練樣本準備完畢后,便可選擇合適的算法進行模型訓練。回歸學習可選擇線性回歸、加權回歸、時序分析方法等多種算法,分類學習可選擇邏輯回歸、支持向量機、貝葉斯算法、神經網絡等模型。數據挖掘的訓練是一個螺旋上升的過程,需要與制定好的評價函數不斷評估、調節(jié)參數以完善挖掘模型。4.2.3數據挖掘的基本步驟通常情況下,完整的數據挖掘過程由以下幾個步驟組成:(1)數據清洗(消除數據的噪聲和不一致性):數據庫中的數據集或多或少都會存在不完整、不一致的數據記錄,在不合格的數據集上無法直接使用數據挖掘算法進行數據分析。而數據清洗可以通過填補缺失數據值、平滑數據噪聲、消除數據異常值等手段,提高數據記錄的質量,使其符合挖掘算法的規(guī)范和要求。(2)數據集成(組合多種數據源):就是將來自多個數據源的數據合并到一起,形成一致的數據存儲,有時數據集成之后還需要進行數據清洗以便消除可能存在的數據冗余。(3)數據規(guī)約(從數據庫中提取與分析任務相關的數據):在不影響數據挖掘結果的前提下,可以通過數據聚集、刪除冗余特性的方法壓縮數據集規(guī)模,只保留與數據挖掘關聯(lián)的數據,從而降低數據挖掘的時間復雜度。(4)數據變換(將數據變換為適合挖掘的形式):數據變換的方法眾多,包括平滑處理、聚集處理、規(guī)格化、數據泛化處理、屬性構造等。此外如果數據是實數型的,還可以使用概念分層和數據離散化的手段來轉換數據。(5)知識發(fā)現(xiàn)(使用算法提取數據集中的有用知識):是數據挖掘的核心步驟。知識發(fā)現(xiàn)使用數據挖掘算法分析數據倉庫中的數據集,從而找到有用的數據模式。(6)模式評估(依照某種度量方法評估知識發(fā)現(xiàn)的結果):去除不符合評估標準的模式,往往需要采取一系列客觀評估標準,比如規(guī)則的準確度、支持度、置信度、有效性等,并從實用性角度來驗證數據挖掘結果的正確性。(7)知識表示(使用可視化等手段展示挖掘出的知識):可以使用可視化手段將數據挖掘所得到的分析結果直觀展示給用戶,當然也可以將分析結果存儲到數據庫當中,供其他應用調用。數據挖掘過程往往不是一次完成的,它是一個反復循環(huán)的過程。如果某個步驟沒有達到預期目標,則需要對處理方式進行調整并重新執(zhí)行。第1步到第4步的數據挖掘環(huán)節(jié)可歸納為數據預處理。簡要地說,數據挖掘的步驟包括:數據預處理、知識發(fā)現(xiàn)、模式評估和知識表示,具體的步驟如圖4.2所示。4.3大數據挖掘的典型應用數據挖掘將高性能計算、機器學習、人工智能、模式識別、統(tǒng)計學、數據可視化、數據庫技術和專家系統(tǒng)等多個范疇的理論與技術融合在一起。大數據時代對數據挖掘而言,既是機遇也是挑戰(zhàn),分析大數據,建立合適準確的體系,持續(xù)優(yōu)化,提升決策的準確性,以便更有利于掌握并順應市場的多端變化。在大數據時代下,數據挖掘作為最常用的數據分析手段得到了各個領域的認可,目前國內外學者主要研究數據挖掘中的分類、優(yōu)化、識別、預測等技術在眾多領域中的應用。數據挖掘的應用范圍十分廣泛。比如在市場營銷領域,我們可以通過對消費者的消費數據進行分析,確定消費者的興趣、愛好和習慣以及消費傾向,從而得出有商業(yè)價值的商業(yè)決策;在競技運動中,教練可以不用出門,利用開發(fā)出來的專業(yè)軟件,分析出每一場比賽的相關事件,進而為以后的訓練提供依據;在商業(yè)銀行中,通過對金融數據進行分析,得出數據模式,可以預測金融市場的變化。數據挖掘在因特網篩選中也有很重要的作用。4.3.1市場營銷領域的應用市場營銷領域是最早應用數據挖掘技術的領域,也是最需要數據挖掘技術的領域。這主要是由其自身的行業(yè)特性所導致的,市場營銷行業(yè)需要對客戶信息進行精準分析,并對客戶進行精準定位,通過最終的數據分析結果來為客戶提供精準服務。數據挖掘技術有效地提升了市場營銷領域的服務能力和銷售業(yè)績。

1.提供個性化產品從消費者的角度來看,個性化產品指的是能滿足消費者個性化消費需求的產品;從企業(yè)競爭優(yōu)勢角度來看,個性化產品就是擁有競爭對手的同類產品所沒有的特性和優(yōu)勢。1)基于用戶偏好的產品設計區(qū)別于傳統(tǒng)用戶偏好識別,基于消費者全方位行為數據的挖掘,能夠更加準確和快捷地識別用戶偏好,以滿足用戶偏好為切入點進行產品設計。2)基于競爭優(yōu)勢的產品外延用戶更希望能夠在消費產品的過程中得到優(yōu)質的服務以及享受到產品直接功能之外的附加功能。在產品核心功能幾乎沒有差異的情況下,企業(yè)只有不斷豐富產品的其他層次的內容和功能,才能夠更好地滿足消費者的多樣化需求,從而獲得競爭優(yōu)勢,贏得消費者。所以,產品外延已然成為企業(yè)獲得競爭優(yōu)勢的一種有效途徑,更是一種新的競爭焦點,因為消費者不再僅僅滿足于產品的直接效用和功能。3)差異化價格制定對于不同的消費者而言,他們有著各自的個性化需求,就算是同樣的一件商品,它可能滿足消費者的不同心理或需求,即它給消費者帶來的效用是不同的。所以,對于這樣一件商品,不同的消費者對于產品的價格會有不同的接受程度,即他們的支付意愿不一樣。企業(yè)要改變以前單一的定價策略,以大數據挖掘為基礎,識別消費者的需求和購買力,根據不同的需求和產品價格彈性進行差異化定價,從而在滿足消費者個性化需求的基礎上實現(xiàn)企業(yè)利益最大化。2.精準化信息傳播精準化信息傳播指的是將關于企業(yè)的產品廣告、促銷活動等商業(yè)信息向目標受眾推送,引起目標受眾關注并產生點擊、閱讀等行為,為消費者購買所需的物品做好前期工作。1)基于實時競價的實時傳播RTB是英文單詞“RealTimeBidding”的首字母縮寫,中文意思是“實時競價”。它是一種以大數據技術為支撐的精準傳播手段,其原理是當某一個網絡用戶利用互聯(lián)網搜索某些信息、瀏覽某些商品、點擊某些廣告窗口或鏈接的時候,所有的這些行為都會被毫無保留地通過Cookie記錄下來。然后通過廣告交易平臺,當用戶下一次上網時,向用戶推送一些符合其興趣偏好的廣告,達到企業(yè)與用戶之間的雙贏。2)基于互動社交的內容傳播隨著社交網絡的快速發(fā)展,我們將圈子搬到了社交軟件上,我們每天都花大量的時間在社交軟件上聊天、交友、訴說心情、分享購物體驗等,而這些社交行為會對其他的圈子成員產生一定的影響。企業(yè)則可以有效利用社交用戶的自主性和基于對社交圈子的信任來營造內容傳播。鑒于圈子成員間具有某種相同特征并且人們更加傾向于相信自己認識的社交圈好友,企業(yè)應該在各社交圈子里積極傳播一些個性化的產品信息和營銷內容。3.客戶需求服務精細化管理基于大數據挖掘的客戶需求服務精細化管理是指通過數據挖掘識別每個客戶所處的生命周期,并予以區(qū)分,針對不同生命周期的客戶采取差異化的管理方式和營銷策略,進而提高客戶忠誠度并使得客戶生命周期價值最大化。客戶生命周期指的是客戶關系的生命周期,它是企業(yè)從開始與客戶建立業(yè)務關系一直到最終關系結束的一個全過程。1)客戶關系管理之反饋機制企業(yè)與客戶之間的關系不是一次性的業(yè)務關系,而是建立起一種長期性的業(yè)務往來關系,每一次的業(yè)務結束都意味著下一次新的業(yè)務往來正在形成,這樣形成一種長期的、循環(huán)的、穩(wěn)定的業(yè)務往來關系。2)客戶關系之個性化推薦系統(tǒng)個性化推薦系統(tǒng)是利用大數據分析用戶對所有信息物品的訪問記錄,在用戶與物品之間建立一種二次元關系,利用二者之間的相似性關系來挖掘用戶可能感興趣的物品,從而進行個性化產品推薦。因此,將傳統(tǒng)的市場調研與大數據相結合,能夠對消費者以及市場進行更為深入的分析,有利于企業(yè)制定出有針對性的營銷策略,提高營銷效率,提升企業(yè)利潤。4.3.2金融投資行業(yè)的應用面對海量數據做出分析,是大數據平臺的目標。金融行業(yè)需要大數據,核心價值在于共享,數據可視化的發(fā)展應用擴展了傳統(tǒng)商業(yè)的視野,應用圖形分析可以使用戶更直觀地了解內容,發(fā)現(xiàn)數據特征,進而幫助其他數據分析人員抓住時機,及時操作。過去銀行里的客戶經理是被動的,盲目等待客戶上門,其模式難以為繼?,F(xiàn)在銀行業(yè)大不一樣,開始主動發(fā)掘用戶的不同偏好,有針對性地積極提供各種營銷服務,例如中信銀行主動采用最新的Greenplum系統(tǒng),實現(xiàn)實時營銷,已降低了數千萬成本。Greenplum系統(tǒng)是一種基于PostgreSQL的分布式數據庫,其采用Shared-nothing架構,主機、操作系統(tǒng)、內存、存儲都是自我控制的,不存在共享。在金融投資行業(yè),大數據擁有巨大的商業(yè)價值,體現(xiàn)在如下幾個方面:一是快速定位,找到高價值客戶群體,挖掘高潛力客戶集群,實現(xiàn)對金融產品的準確營銷;二是利用新型的高性能數據挖掘技術,進行反欺詐商業(yè)分析,避免企業(yè)各種運營風險;三是滿足用戶特有需要,銀行業(yè)歷史上產生的數據巨大,采集、存儲、管理過程中的數據都需要進行分析,應用大數據工具可以解決金融行業(yè)用戶的特有需要,控制種種風險。大數據迫使銀行和電信業(yè)提升現(xiàn)有業(yè)務能力,實現(xiàn)應用目標,利用新的技術,規(guī)劃需求,建立產品數據體系,并開發(fā)相應的戰(zhàn)略捕捉服務信息流數據,進行實時分析,提高服務質量。除了技術創(chuàng)新外,善于利用行業(yè)經驗是金融IT企業(yè)解決問題的關鍵。各行各業(yè)同步發(fā)展共享數據,健全完善國家法律法規(guī),構建合理的商業(yè)模式,都同樣重要,都會產生無比巨大的社會價值。中國銀監(jiān)會設立金融消費者保護局以保障大數據金融的發(fā)展。在國外,消費者金融可以幫助客戶,并能提供豐富便利的大數據應用服務,如對客戶交易日志實施實時檢測,進行債權現(xiàn)狀分析,據此實現(xiàn)客戶分類,提供系統(tǒng)評分,預測客戶未來行為,實現(xiàn)個性精準營銷,避免出現(xiàn)壞賬。而金融管理部門及時把握交易狀態(tài),提供有效監(jiān)督,做出預測分析。在信用卡業(yè)務中,違約預測的數據挖掘具有預言性、有效性、實用性的優(yōu)勢。在信用卡交易的過程中,數據挖掘的應用類型也比較多,如在信用卡異常行為檢測、高端信用客戶的維護和信用卡風險控制等方面均有實際應用。眾所周知,信用卡是由銀行發(fā)放的,銀行首先需要對申請人的個人信息進行核實,確認無誤后再發(fā)放信用卡。Chen等針對商業(yè)銀行貸款行為提出了一種關于信用率的模糊算法。信用卡在辦理之前,銀行首先需要對申請人進行細致調查,根據申請人的實際情況判斷是否有能力來償還所貸金額,劉銘等在傳統(tǒng)的神經網絡基礎上,采用灰狼優(yōu)化算法計算神經網絡的初始權值和閾值,并提出了一種改進的模糊神經網絡的算法,通過建立的信用卡客戶的違約預測模型,與目前其他的預測方法進行比較,得到較好的預測結果,進一步驗證了模糊神經網絡在信用卡客戶的違約預測上具有較好的魯棒性、準確性和高效性。采用有效的數據挖掘技術,針對信用卡客戶屬性和消費行為的海量數據進行分析,可以更好地維護優(yōu)質客戶,消除違約客戶的風險行為,有效提升信用卡等金融業(yè)務的價值。4.3.3教育領域的應用過去學校通過考試或者表格調查對學生數據進行周期性、階段性采集,依靠數據對學生的生理、心理健康、學習狀態(tài)以及對學校的滿意度來進行評估。這種信息采集具有事后性、階段性而非實時性,并且會對被采集者(學生)造成壓迫性。與之相應的,大數據采集是過程性的,它關注每一個學生在上課、作業(yè)、教學互動過程的每個微觀表現(xiàn),采集是在學生不自知的情形下進行的,不影響學生的正常學習和自尊心。這些數據的獲取、整理、采編、統(tǒng)計、分析需要經過專門的程序和專業(yè)人員高效率完成。利益相關者是一個實體,與教育數據挖掘存在著一定的利益關系。利益相關者可以認為是教育數據挖掘過程中的受益者,也可以認為是教育數據挖掘的實施主體、面向用戶等。教育數據挖掘的利益相關者如表4.1所示。1.個性化學習服務個性化學習服務可以為學生提供最合適的學習資源,如推薦課程、個性化干預、開發(fā)預警系統(tǒng)等。目前在教育數據挖掘領域主要存在以下兩種關于個性化學習服務的研究。1)基于推薦系統(tǒng)的個性化學習服務當前研究者提出的基于推薦系統(tǒng)的個性化學習服務主要包括基于內容的推薦算法、協(xié)同過濾以及混合推薦算法,如Wu等人提出了一種基于模糊樹匹配的推薦方法,為學習者推薦合適的學習活動。Bokde等人則開發(fā)了一個多標準協(xié)同過濾與降維技術相結合的推薦系統(tǒng),為學生推薦適合他們的大學。朱天宇等人提出了一種面向學生的協(xié)同過濾試題推薦方法,該方法可根據學生知識點掌握程度推薦難度合適了的試題。2)基于數據挖掘的個性化學習服務用于個性化學習服務的數據挖掘方法主要有分類算法、聚類算法以及關聯(lián)規(guī)則等。如Dora等人提出了一種基于最小二乘法的自動推薦方法,可根據學生學習風格自動推薦學習內容。Natek等人使用決策樹算法對學生進行分類,得到了各類學習者的個人信息特征和教學環(huán)節(jié)特征,為高校提供決策建議。Aher使用Apriori算法和K-means聚類算法,對各類學生的課程學習記錄進行關聯(lián)規(guī)則分析,為學生推薦合適的課程。2.學生學習效果研究數據挖掘可以用于預測學生的學習效果。研究者通常使用學生個人信息、各門課程歷史數據以及學習行為等數據通過分類和回歸等算法建立模型來預測學生未來的學習表現(xiàn)。Asif等人使用決策樹、樸素貝葉斯、隨機森林等10種分類算法基于210名學生的大學預科成績來預測學生大四時的成績。蔣卓軒等人基于北京大學在Coursera上開設的6門慕課共8萬多人次的學習行為數據,使用判別分析、Logistics回歸和線性核支持向量機建立3種分類模型來預測學生是否能獲得證書。Okubo等人使用了基于長短期記憶的循環(huán)神經網絡來預測學生期末成績。Jishan等人利用樸素貝葉斯、決策樹以及人工神經網絡3種分類模型和經過不同預處理的4組數據尋找最優(yōu)組合來預測學生成績。Fernandes等人使用梯度提升機分類方法分析影響學生成績的因素。除了學生學習表現(xiàn),也有研究者十分關心如何提升教師教學效果。3.學習行為研究研究者通過社交網絡分析、聚類、分類等方法對學習者的海量行為數據進行探索與分析,可深入了解學習者的學習習慣和學習特征,教學者可根據學生學習行為特點,制定相應的教學計劃或將學生分為學習風格互補的學習小組來提高學習效率。Rabbany等人使用社交網絡分析算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論