數(shù)據(jù)挖掘的10個常見問題_第1頁
數(shù)據(jù)挖掘的10個常見問題_第2頁
數(shù)據(jù)挖掘的10個常見問題_第3頁
數(shù)據(jù)挖掘的10個常見問題_第4頁
數(shù)據(jù)挖掘的10個常見問題_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘的10個常見問題Q1.DataMining和統(tǒng)計分析有什么不同?硬要去區(qū)分DataMining和Statistics的差異其實是沒有太大意義的。一般將之定義為DataMining技術(shù)的CARTCHAID或模糊計算等等理論方法,也都是由統(tǒng)計學者根據(jù)統(tǒng)計理論所發(fā)展衍生,換另一個角度看,DataMining有相當大的比重是由高等統(tǒng)計學中的多變量分析所支撐。但是為什么DataMining的出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而言,DataMining有下列幾項特性:處理大量實際資料更強勢,且無須太專業(yè)的統(tǒng)計背景去使用DataMining的工具;資料分析趨勢為從大型數(shù)據(jù)庫抓取所需資料并使用專屬計算機分析軟件,DataMining的工具更符合企業(yè)需求;純就理論的基礎(chǔ)點來看,DataMining和統(tǒng)計分析有應(yīng)用上的差別,畢竟DataMining目的是方便企業(yè)末端用者使用而非給統(tǒng)計學家檢測用的。Q2.DataWarehousing和DataMining的關(guān)系為何?若將DataWarehousing(資料倉儲)比喻作礦坑,DataMining就是深入礦坑采礦的工作。畢竟DataMining不是一種無中生有的魔術(shù),也不是點石成金的煉金術(shù),若沒有夠豐富完整的資料,是很難期待DataMining能挖掘出什么有意義的信息的。要將龐大的資料轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集資料的工具。「資料倉儲」,簡單地說,就是搜集來自其它系統(tǒng)的有用資料,存放在一整合的儲存區(qū)內(nèi)。所以其實就是一個經(jīng)過處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng)(DesignSupportSystem)所需的資料,供決策支持或資料分析使用。從信息技術(shù)的角度來看,資料倉儲的目標是在組織中,在正確的時間,將正確的資料交給正確的人。許多人對于DataWarehousing和DataMining時常混淆,不知如何分辨。其實,資料倉儲是數(shù)據(jù)庫技術(shù)的一個新主題,在資料科技日漸普及下,利用計算機系統(tǒng)幫助我們操作、計算和思考,讓作業(yè)方式改變,決策方式也跟著改變。資料倉儲本身是一個非常大的數(shù)據(jù)庫,它儲存著由組織作業(yè)數(shù)據(jù)庫中整合而來的資料,特別是指從線上交易系統(tǒng)OLTP(On-LineTransactionalProcessing)所得來的資料。將這些整合過的資料置放于資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉(zhuǎn)換及整合資料的過程,是建立一個資料倉儲最大的挑戰(zhàn)。因為將作業(yè)中的資料轉(zhuǎn)換成有用的的策略性信息是整個資料倉儲的重點。綜上所述,資料倉儲應(yīng)該具有這些資料:整合性資料(integrateddata)、詳細和匯總性的資料(detailedandsummarizeddata)、歷史資料、解釋資料的資料。從資料倉儲挖掘出對決策有用的信息與知識,是建立資料倉儲與使用DataMining的最大目的,兩者的本質(zhì)與過程是兩碼子事。換句話說,資料倉儲應(yīng)先行建立完成,Datamining才能有效率的進行,因為資料倉儲本身所含資料是干凈(不會有錯誤的資料參雜其中)、完備,且經(jīng)過整合的。因此兩者關(guān)系或許可解讀為「DataMining是從巨大資料倉儲中找出有用信息的一種過程與技術(shù)」。Q3.OLAP能不能代替DataMining?所謂OLAP(OnlineAnalyticalProcess)意指由數(shù)據(jù)庫所連結(jié)出來的線上查詢分析程序。有些人會說:「我已經(jīng)有OLAP的工具了,所以我不需要DataMining?!故聦嵣蟽烧唛g是截然不同的,主要差異在于DataMining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡單來說,OLAP是由使用者所主導,使用者先有一些假設(shè),然后利用OLAP來查證假設(shè)是否成立;而DataMining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration)但DataMining是用工具在幫助做探索。舉個例子來看,一市場分析師在為超市規(guī)劃貨品架柜擺設(shè)時,可能會先假設(shè)嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品,接著便可利用OLAP的工具去驗證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但DataMining則不然,執(zhí)彳亍DataMining的人將龐大的結(jié)帳資料整理后,并不需要假設(shè)或期待可能的結(jié)果,透過Mining技術(shù)可找出存在于資料中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。DataMining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報表來確認某些關(guān)系,是以DataMining此種自動找出甚或不會被懷疑過的資料型樣與關(guān)系的特性,事實上已超越了我們經(jīng)驗、教育、想象力的限制,OLAP可以和DataMining互補,但這項特性是DataMining無法被OLAF取代的。Q4.完整的DataMining包含哪些步驟?以下提供一個DataMining的進行步驟以為參考:明確目標與理解資料;獲取相關(guān)技術(shù)與知識;整合與查核資料;去除錯誤或不一致及不完整的資料;由數(shù)據(jù)選取樣本先行試驗;6.研發(fā)模式(model)與型樣(pattern);7.實際DataMining的分析工作;測試與檢核;找出假設(shè)并提出解釋;持續(xù)應(yīng)用于企業(yè)流程中。由上述步驟可看出,DataMining牽涉了大量的準備工作與規(guī)劃過程,事實上許多專家皆認為整套DataMining的進行有80%的時間精力是花費在資料前置作業(yè)階段,其中包含資料的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知DataMining只是信息挖掘過程中的一個步驟而已,在進行此步驟前還有許多的工作要先完成。Q5.DataMining運用了哪些理論與技術(shù)?DataMining是近年來數(shù)據(jù)庫應(yīng)用技術(shù)中相當熱門的議題,看似神奇、聽來時髦,實際上卻也不是什么新東西,因其所用之諸如預測模式、資料分割,連結(jié)分析(LinkAnalysis)、偏差偵測(DeviationDetection)等,美國早在二次世界大戰(zhàn)前就已應(yīng)用運用在人口普查及軍事等方面。隨著信息科技超乎想象的進展,許多新的計算機分析工具問世,例如關(guān)系型數(shù)據(jù)庫、模糊計算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從資料中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實行的程序。一般而言,DataMining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計分析為代表,舉凡統(tǒng)計學內(nèi)所含之敘述統(tǒng)計、機率論、回歸分析、類別資料分析等皆屬之,尤其DataMining對象多為變量繁多且筆數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計學里所含括之多變量分析中用來精簡變量的因素分析(FactorAnalysis)、用來分類的判別分析(DiscriminantAnalysis),以及用來區(qū)隔群體的分群分析(ClusterAnalysis)等,在DataMining過程中特別常用。在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(DecisionTrees)、類神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)以及規(guī)則歸納法(RulesInduction)等。決策樹是一種用樹枝狀展現(xiàn)資料受各變量的影響情形之預測模型,根據(jù)對目標變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運用在對顧客資料的區(qū)隔分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(ClassificationandRegressionTrees)及CHAID(Chi-SquareAutomaticInteractionDetector)兩種。類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的資料分析模式,由輸入之變量與數(shù)值中自我學習并根據(jù)學習經(jīng)驗所得之知識不斷調(diào)整參數(shù)以期建構(gòu)資料的型樣(patterns)o類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計,與傳統(tǒng)回歸分析相比,好處是在進行分析時無須限定模式,特別當資料變量間存有交互效應(yīng)時可自動偵測出;缺點則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于資料屬于高度非線性且?guī)в邢喈敵潭鹊淖兞拷桓行?yīng)時。規(guī)則歸納法是知識發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則???(If/Then)」之邏輯規(guī)則對資料進行細分的技術(shù),在實際運用時如何界定規(guī)則為有效是最大的問題,通常需先將資料中發(fā)生數(shù)太少的項目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。Q6.DataMining包含哪些主要功能?DataMining實際應(yīng)用功能可分為三大類六分項來說明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預測類;Association和Sequenee則屬于序列規(guī)則類。Classification是根據(jù)一些變量的數(shù)值做計算,再依照結(jié)果作分類。(計算的結(jié)果最后會被分類為幾個少數(shù)的離散數(shù)值,例如將一組資料分為”可能會響應(yīng)”或是”可能不會響應(yīng)"兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗已經(jīng)分類好的資料來研究它們的特征,然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預測。這些我們用來尋找特征的已分類資料可能是來自我們的現(xiàn)有的客戶資料,或是將一個完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實際的運作來測試;譬如利用一個大型郵寄對象數(shù)據(jù)庫的部份取樣來建立一個ClassificationModel,再利用這個Model來對數(shù)據(jù)庫的其它資料或是新的資料作分類預測。Clustering用在將資料分群,其目的在于將群間的差異找出來,同時也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識來解讀這些分群的意義。Regression是使用一系列的現(xiàn)有數(shù)值來預測一個連續(xù)數(shù)值的可能值。若將范圍擴大亦可利用LogisticRegression來預測類別變量,特別在廣泛運用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預測的模式已不在止于傳統(tǒng)線性的局限,在預測的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。Time-SeriesForecasting與Regression功能類似,只是它是用現(xiàn)有的數(shù)值來預測未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時間有關(guān)。Time-SeriesForecasting的工具可以處理有關(guān)時間的一些特性,譬如時間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過去與未來的關(guān)連性)。Association是要找出在某一事件或是資料中會同時出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個顧客同時也會買牛奶的機率是85%)SequeneeDiscovery與Association關(guān)系很密切,所不同的是SequeneeDiscovery中事件的相關(guān)是以時間因素來作區(qū)隔(例如:如果A股票在某一天上漲12%而且當天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機率是68%)。Q7.DataMining在各領(lǐng)域的應(yīng)用情形為何?DataMining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價值與需求的資料倉儲或數(shù)據(jù)庫,皆可利用Mining工具進行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財務(wù)金融保險、通訊業(yè)以及醫(yī)療服務(wù)等。于銷售資料中發(fā)掘顧客的消費習性,并可藉由交易紀錄找出顧客偏好的產(chǎn)品組合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時機點等等都是零售業(yè)常見的實例;直效行銷強調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導入DataMining的技術(shù)后,使直效行銷的發(fā)展性更為強大,例如利用DataMining分析顧客群之消費行為與交易紀錄,結(jié)合基本資料,并依其對品牌價值等級的高低來區(qū)隔顧客,進而達到差異化行銷的目的;制造業(yè)對DataMining的需求多運用在品質(zhì)控管方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。近來電話公司、信用卡公司、保險公司以及股票交易商對于詐欺行為的偵測(FraudDetection)都很有興趣,這些行業(yè)每年因為詐欺行為而造成的損失都非常可觀,DataMining可以從一些信用不良的客戶資料中找出相似特征并預測可能的詐欺交易,達到減少損失的目的。財務(wù)金融業(yè)可以利用DataMining來分析市場動向,并預測個別公司的營運以及股價走向。DataMining的另一個獨特的用法是在醫(yī)療業(yè),用來預測手術(shù)、用藥、診斷、或是流程控制的效率。Q8.WebMining和DataMining有什么不同?如果將Web視為CRM勺一個新的Channel,貝UWebMining便可單純看做DataMining應(yīng)用在網(wǎng)絡(luò)資料的泛稱。該如何測量一個網(wǎng)站是否成功?哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的?主要訪客是哪些人?什么原因吸引他們前來?如何從堆積如山之大量由網(wǎng)絡(luò)所得資料中找出讓網(wǎng)站運作更有效率的操作因素?以上種種皆屬WebMining分析之范疇。WebMining不僅只限于一般較為人所知的logfile分析,除了計算網(wǎng)頁瀏覽率以及訪客人次外,舉凡網(wǎng)絡(luò)上的零售、財務(wù)服務(wù)、通訊服務(wù)、政府機關(guān)、醫(yī)療咨詢、遠距教學等等,只要由網(wǎng)絡(luò)連結(jié)出的數(shù)據(jù)庫夠大夠完整,所有Off-Line可進行的分析,WebMining都可以做,甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫,實施更大規(guī)模的模型預測與推估,畢竟憑借網(wǎng)際網(wǎng)絡(luò)的便利性與滲透力再配合網(wǎng)絡(luò)行為的可追蹤性與高互動特質(zhì),一對一行銷的理念是最有機會在網(wǎng)絡(luò)世界里完全落實的。整體而言,WebMining具有以下特性:1.資料收集容易且不引人注意,所謂凡走過必留下痕跡,當訪客進入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀錄的;2.以交互式個人化服務(wù)為終極目標,除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計的網(wǎng)頁之外,不同的訪客也會有不同的服務(wù);3.可整合外部來源資料讓分析功能發(fā)揮地更深更廣,除了logfile、cookies、會員填表資料、線上調(diào)查資料、線上交易資料等由網(wǎng)絡(luò)直接取得的資源外,結(jié)合實體世界累積時間更久、范圍更廣的資源,將使分析的結(jié)果更準確也更深入。利用DataMining技術(shù)建立更深入的訪客資料剖析,并賴以架構(gòu)精準的預測模式,以期呈現(xiàn)真正智能型個人化的網(wǎng)絡(luò)服務(wù),是WebMining努力的方向。Q9.DataMining在CRM中扮演的角色為何?CRM(CustomerRelationshipManagement)是近來引起熱烈討論與高度關(guān)切的議題,尤其在直效行銷的崛起與網(wǎng)絡(luò)的快速發(fā)展帶動下,跟不上CRM的腳步如同跟不上時代。事實上CRM并不算新發(fā)明,奧美直效行銷推動十數(shù)年的C0(CustomerOwnership)就是現(xiàn)在大家談的CRM—客戶關(guān)系管理。DataMining應(yīng)用在CRM的主要方式可對應(yīng)在GapAnalysis之三個部分:針對AcquisitionGap,可利用CustomerProfiling找出客戶的一些共同的特征,希望能藉此深入了解客戶,藉由ClusterAnalysis對客戶進行分群后再透過PatternAnalysis預測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對象,進而降低成本,也提高行銷的成功率。針對SalesGap,可利用BasketAnalysis幫助了解客戶的產(chǎn)品消費模式,找出哪些產(chǎn)品客戶最容易一起購買,或是利用SequeneeDiscovery預測客戶在買了某一樣產(chǎn)品之后,在多久之內(nèi)會買另一樣產(chǎn)品等等。利用DataMining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進貨量或庫存量,甚或是在店

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論