大數(shù)據(jù)在選股分析中的應(yīng)用分析研究 計算機科學(xué)與技術(shù)專業(yè)_第1頁
大數(shù)據(jù)在選股分析中的應(yīng)用分析研究 計算機科學(xué)與技術(shù)專業(yè)_第2頁
大數(shù)據(jù)在選股分析中的應(yīng)用分析研究 計算機科學(xué)與技術(shù)專業(yè)_第3頁
大數(shù)據(jù)在選股分析中的應(yīng)用分析研究 計算機科學(xué)與技術(shù)專業(yè)_第4頁
大數(shù)據(jù)在選股分析中的應(yīng)用分析研究 計算機科學(xué)與技術(shù)專業(yè)_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中文摘要在科技不斷發(fā)展、網(wǎng)絡(luò)覆蓋率持續(xù)擴張的今天,大數(shù)據(jù)時代早已悄然而至,每個行業(yè)都會形成海量、繁雜的數(shù)據(jù)。對于如何有效地采集信息、如何挖掘出數(shù)據(jù)內(nèi)部的規(guī)律,學(xué)者們一直在不遺余力地研究并不斷提供各種新型的技術(shù)。對于國內(nèi)的私募基金而言,大數(shù)據(jù)的價值及其所蘊含的新商機并未充分體現(xiàn)出來,不過可以肯定的是,大數(shù)據(jù)在私募基金決策的過程中起著越來越重要的作用?;鹦袠I(yè)是一個大數(shù)據(jù)市場,股市每天交易頻繁,由此形成了大量的數(shù)據(jù),大數(shù)據(jù)分析技術(shù)在這一行業(yè)不斷走向成熟的過程中,也在不斷地更新。筆者在本課題中,以金融市場中存在的主要問題為切入點,以上市企業(yè)為對象,探討如何對基本面數(shù)據(jù)以及股票交易展開挖掘分析,并且詳細闡述了K-means算法的基本原理、神經(jīng)網(wǎng)絡(luò)在選股的作用原理;在現(xiàn)有股票預(yù)測原理的基礎(chǔ)上,提出的多聚類分析股票數(shù)據(jù)的方法,結(jié)合分類算法對股票數(shù)據(jù)進行訓(xùn)練,形成基于聚類分析的智能選股算法。然后對算法進行驗證,對整體方案框架進行設(shè)計,通過MATLAB進行聚類實現(xiàn),最后得出最優(yōu)參數(shù)下的聚類結(jié)果。最后結(jié)合聚類分析出來的選股算法,利用HADOOP技術(shù)設(shè)計一個簡單,穩(wěn)定高性能的智能選股系統(tǒng)。實驗結(jié)果顯示,開發(fā)出的模型分析選股系統(tǒng)可以對股票數(shù)據(jù)進行多維的分析預(yù)測,作為投資者的投資決策的輔助工具,是利用數(shù)據(jù)挖掘技術(shù)結(jié)合多聚類分析股票數(shù)據(jù)的方法,分析大量與股票相關(guān)數(shù)據(jù),并做出未來走勢預(yù)測,具有一定的實用意義。關(guān)鍵詞:私募基金;數(shù)據(jù)挖掘;證券分析;互聯(lián)網(wǎng)大數(shù)據(jù);交易數(shù)據(jù)

AbstractWiththecontinuousdevelopmentoftechnologyandthecontinuousexpansionofnetworkcoverage,theeraofbigdatahaslongbeenquietlyemergingandthereismassiveandcomplicateddataineveryindustry.Researchershavebeensparingnoeffortinresearchingandconstantlyprovidingvariousnewtechnologiesforhowtoeffectivelycollectinformationandhowtofindouttheinternallawsofdata.Fordomesticprivateequityfunds,thevalueofbigdataandthenewbusinessopportunitiesbigdatacontainsarenotfullydemonstrated,butitiscertainthatbigdataplaysanincreasinglyimportantroleinthedecision-makingprocessofprivateequityfunds.Thefundindustryisabigdatamarket.Dailytradesinthestockmarketresultinalargeamountofdata.Analysistechnologyofbigdataisconstantlyupdatedwiththeindustrybeingmature.Inthissubject,takeingthemainproblemsexistinginthefinancialmarketasthestartingpointandthelistedcompaniesastheobject,theauthorexploreshowtoexcavateandanalyzethefundamentaldataandstocktransactions,andelaboratesthebasicprincipleofK-meansalgorithm.Basedontheexistingstockforecastingtheory,thispaperproposesamulti-clusteringmethodtoanalyzestockdataandacombinationofclassificationalgorithmstotrainstockdatatoformanintelligentstockselectionalgorithmbasedonclusteringanalysis.Thenthealgorithmisverified,theoverallprogramframeworkisdesigned,andtheclusteringisrealizedbyMATLAB.Finally,theclusteringresultsundertheoptimalparametersareobtained.Atlastcombiningwiththestockselectionalgorithmbasedonclusteringanalysis,asimplestableandhigh-performanceintelligentstockselectionsystemisdesignedbyusingHADOOPtechnology.Theexperimentalresultsshowthatthemodelstockpickingsystemcanmakemulti-dimensionalanalysisandforecastingofstockdata.Asasupportingtoolforinvestors'investmentdecision-making,ithascertainpracticalsignificance,whichusesthemethodofdataminingcombinedwithmulti-clusteranalysisofstockdata,Stock-relateddata,andmakethefuturetrendforecast.KeyWords:privatefund;datamining;securitiesanalysis;Internetbigdata目錄中文摘要 IAbstract II目錄 III圖表目錄 V1緒論 11.1論文選題研究的背景及意義 11.2國內(nèi)外現(xiàn)狀分析 21.2.1國外大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀 21.2.2國內(nèi)大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀 41.3論文的組織結(jié)構(gòu) 52相關(guān)理論技術(shù)基礎(chǔ)及可行性分析 62.1股票二級市場的狀況 62.2數(shù)據(jù)挖掘工作原理 92.2.1聚類算法概述 92.2.2K-means算法原理 102.2.3分類算法 142.2.4分類算法的類型 152.3神經(jīng)網(wǎng)絡(luò)在選股中的作用 182.3.1神經(jīng)網(wǎng)絡(luò)進行股票預(yù)測的原理 182.4本章小結(jié) 193智能數(shù)據(jù)挖掘選股算法 203.1現(xiàn)狀分析 203.2基本概念 213.2.1算法研究 213.2.2多聚類分析股票數(shù)據(jù) 233.2.3多聚類方法描述 243.3本章小結(jié) 254算法模型驗證 264.1實驗方案 264.2數(shù)據(jù)準備 264.3Matlab中聚類的實現(xiàn) 264.4聚類結(jié)果 284.4.1采樣/持有周期對聚類結(jié)果的影響 284.4.2分類數(shù)/滯后期對聚類結(jié)果的影響 304.4.3最優(yōu)參數(shù)下的聚類結(jié)果 304.5本章小結(jié) 315選股系統(tǒng)的設(shè)計 325.1系統(tǒng)的詳細架構(gòu) 325.2并行數(shù)據(jù)挖掘算法實現(xiàn) 335.3數(shù)據(jù)庫設(shè)計 345.3.1數(shù)據(jù)表索引 345.3.2數(shù)據(jù)表詳細設(shè)計 355.4詳細設(shè)計 375.4.1數(shù)據(jù)結(jié)構(gòu)設(shè)計 375.4.2離線交易數(shù)據(jù)入庫 385.4.3主要指標數(shù)據(jù)計算 385.5系統(tǒng)實施 435.5.1日線數(shù)據(jù)入庫 435.5.2指標計算 435.5.3智能選股 435.6應(yīng)用 455.7系統(tǒng)測試 455.8本章小結(jié) 466總結(jié)與不足 47參考文獻 49致謝 50

圖表目錄TOC\h\z\c"圖"圖21K均值聚類算法的流程圖 11圖22數(shù)據(jù)挖掘的流程圖 15圖23數(shù)據(jù)文本分類的流程圖 15圖31行業(yè)收益率序列聚類分析方法 21圖32分類數(shù)據(jù)產(chǎn)生過程 22圖33分類模型的建立 22圖34多重分類模型建立 23圖51系統(tǒng)架構(gòu)圖 32圖52并決策樹算法流程圖 33圖53離線交易數(shù)據(jù)入庫流程圖 38圖54日線數(shù)據(jù)入庫界面 43圖55指標計算界面 43圖56股票預(yù)測數(shù)據(jù) 45TOC\h\z\c"表"表21行業(yè)分類表 8表31股票資產(chǎn)定價的技術(shù)發(fā)展表 20表41不同采樣/持有周期對聚類結(jié)果的影響 29表42不同采樣/持有周期對聚類結(jié)果的影響(反轉(zhuǎn)效應(yīng)) 29表43分類個數(shù)/滯后期對聚類結(jié)果的影響 30表44聚類模型下的收益對比 30表51數(shù)據(jù)庫索引 35表52日常交易數(shù)據(jù)表 35表53股票指標數(shù)據(jù) 36表54指標基本信息表 36緒論論文選題研究的背景及意義在過去短短幾十年間,IT行業(yè)經(jīng)歷了多次歷史性的革命,比如云計算、物聯(lián)網(wǎng)等,而這一行業(yè)最新的突破性成果即為大數(shù)據(jù)。隨著計算機和網(wǎng)絡(luò)的普及,大數(shù)據(jù)時代已經(jīng)降臨,在這樣的背景下,私募基金行業(yè)也迎來了新的機遇和挑戰(zhàn)。無論是從投資者還是創(chuàng)業(yè)者的角度來看,大數(shù)據(jù)都是非常受關(guān)注的融資標簽。大數(shù)據(jù)的首要特點是數(shù)據(jù)體量非常大,通常至少應(yīng)該達到10TB,然而在現(xiàn)實中,很多企業(yè)將自身的數(shù)據(jù)集全部集中起來,最終匯聚成達到PB級的數(shù)據(jù)量。另外,其所包含的數(shù)據(jù)從類型上來看是多種多樣的,數(shù)據(jù)來源豐富多樣,數(shù)據(jù)格式明顯不統(tǒng)一,完全超出了以往人們所說的結(jié)構(gòu)化數(shù)據(jù)范疇,還包含了半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)處理速率非常快,即便它涉及到龐大的體量,但依舊能夠滿足數(shù)據(jù)處理的實時性要求。最后,其數(shù)據(jù)具有很強的真實性,近些年間,社交數(shù)據(jù)、企業(yè)內(nèi)容、交易等方面的信息不斷涌現(xiàn),這些數(shù)據(jù)都來自新的數(shù)據(jù)源,在這樣的背景下,企業(yè)需要更加有效的信息,才能確保其真實性和安全性,為企業(yè)的決策提供準確、及時的依據(jù)。作為一種信息資產(chǎn),大數(shù)據(jù)表現(xiàn)出大量、快速增長、多樣化的特點,其在決策、洞察、流程優(yōu)化方面有著明顯的優(yōu)勢,但這些優(yōu)勢能夠在多大程度上體現(xiàn)出來,主要由處理模式所決定。從數(shù)據(jù)類型角度而言,“大數(shù)據(jù)”是指超出以往的流程和方法的處理范圍的信息。它對所有突破正常處理范圍、必須使用非傳統(tǒng)方法進行處理的數(shù)據(jù)集進行了定義。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)領(lǐng)域的學(xué)者JohnRauser曾經(jīng)對其概念進行高度歸納的闡述,即通過一臺計算機無法處理的龐大數(shù)據(jù)量。研發(fā)小組提到:大數(shù)據(jù)指的是一種最大、最時髦的宣傳技術(shù),一旦發(fā)生了這一現(xiàn)象,定義就會雜亂無章。而Kelly則認為,大數(shù)據(jù)或許并不等同于所有的數(shù)據(jù),但其所包含的大多數(shù)數(shù)據(jù)都是正確的。時至今日,大數(shù)據(jù)的概念都存在廣泛的分歧,但有一點是取得了共識的,即由于它有著龐大的體量,因此在對其進行分析的過程中,要用到多個工作負載。數(shù)據(jù)的極限,是由技術(shù)的極限所決定的。當然,概念上的分歧并未對大數(shù)據(jù)的應(yīng)用造成過大的影響,關(guān)鍵在于如何應(yīng)用,如何在更大程度上發(fā)揮出其作用和價值,因此要在技術(shù)方面不斷地推陳出新,使大數(shù)據(jù)的作用充分的釋放出來。同時還要探討和以往的數(shù)據(jù)庫不同的是,具有開源性特點的大數(shù)據(jù)分析工具比如Hadoop的廣泛應(yīng)用,以其為代表的非結(jié)構(gòu)化數(shù)據(jù)服務(wù)的價值體現(xiàn)在哪些方面等。大數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用,可以追溯到十多年之前。金融行業(yè)是競爭十分激烈的行業(yè),私募基金經(jīng)理每天都需要面對大量的數(shù)據(jù),能否高效地從中找到有價值的信息,并據(jù)此對行情進行判斷,在很大程度上決定了產(chǎn)品收益率的高低。事實證明,大部分投資決策失誤的根源在于信息不對稱,所以,越來越多的學(xué)術(shù)界和實踐界人士開始投入到行業(yè)熱點信息的研究中來。與此同時,在網(wǎng)絡(luò)高速發(fā)展的背景下,網(wǎng)絡(luò)所形成的金融大數(shù)據(jù)對金融分析師而言,充滿了機遇,同時也處處面臨危機和挑戰(zhàn)。筆者在本課題的研究中,從基金經(jīng)理的角度出發(fā),探討大數(shù)據(jù)挖掘技術(shù)對行情分析的作用和價值,從金融數(shù)據(jù)信息里面挖掘有效的因素,并據(jù)此對股市未來的走向進行預(yù)測,對基于聚類分析的智能選股算法進行分析和測試。本課題研究旨在充分利用大數(shù)據(jù)挖掘技術(shù),為私募基金經(jīng)理在業(yè)務(wù)操作過程中提供更有力的依據(jù),使其能夠更加準確地定位股票和分析、預(yù)測市場行情,改變以往實地調(diào)研等傳統(tǒng)方法過于耗時耗力的現(xiàn)狀。國內(nèi)外現(xiàn)狀分析國外大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀縱覽全球,大數(shù)據(jù)技術(shù)的主要潮流和趨勢是易用化、簡單化,大多數(shù)大數(shù)據(jù)分析企業(yè),都將數(shù)據(jù)采集、分析、處理等功能全部集成在一起,通過分析平臺的方式提供這些方面的服務(wù)。比如FractalAnalytics不但實現(xiàn)了數(shù)據(jù)分析的功能,并且能夠在無需人工操作的情況下完成數(shù)據(jù)的清理和驗證等操作,從而提供標準化、規(guī)范化的數(shù)據(jù)。VoyagerLabs則在全球范圍內(nèi)鋪設(shè)了十億個數(shù)據(jù)點,有著廣泛的數(shù)據(jù)來源,從而為用戶提供更加全面的數(shù)據(jù)服務(wù)。如今,很多企業(yè)的產(chǎn)品策略中明確提到,要進一步降低大數(shù)據(jù)技術(shù)的技術(shù)難度和成本,從而提高其易用性,比如Domino公司推出的產(chǎn)品能夠讓研究人員將更多的精力和時間放在數(shù)據(jù)分析上,也就是節(jié)省在軟硬件環(huán)境維護方面的時間。Datameer推出的產(chǎn)品直接將復(fù)雜的底層技術(shù)遮蓋起來,通過表格的形式將數(shù)據(jù)呈現(xiàn)在用戶的眼前,充分地考慮到了用戶的操作習(xí)慣和便利性。RapidMinerStudio無需任何代碼就能夠在客戶端進行操作,擁有機器學(xué)習(xí)、數(shù)據(jù)挖掘、文本挖掘等一系列的功能,能夠更好地滿足用戶的需求。在大數(shù)據(jù)分析應(yīng)用范圍不斷擴張的過程中,此項技術(shù)在性能方面的表現(xiàn)也持續(xù)優(yōu)化,數(shù)據(jù)分析結(jié)果的準確性大幅提高。比如SigOpt公司通過貝葉斯優(yōu)化(BayesianOptimization)算法對模型參數(shù)進行調(diào)整,從而對網(wǎng)格搜索方法予以改進,新的方法能夠在更短的時間內(nèi)提供更為準確、易用性更高的結(jié)果。更重要的是,SigOpt的產(chǎn)品不但能夠?qū)Χ喾N變量進行測試,同時能夠為后續(xù)的測試工作提供可行的建議,從而為用戶提供更加準確的數(shù)據(jù)分析結(jié)果。值得一提的是,很多大數(shù)據(jù)分析企業(yè)通過不斷的研究,突破以往數(shù)據(jù)分析理論的約束,通過新穎的方法實現(xiàn)數(shù)據(jù)分析,為傳統(tǒng)的分析方法無法解決的問題提供了解決之道,在很多領(lǐng)域中都得到了廣泛的應(yīng)用。三位數(shù)學(xué)領(lǐng)域的權(quán)威專家共同成立的Ayasdi公司即為其中之一,這一公司基于拓撲數(shù)據(jù)分析技術(shù)以及大量的機器學(xué)習(xí)算法開發(fā)出性能十分突出的數(shù)據(jù)處理功產(chǎn)品,從而對各種復(fù)雜的數(shù)據(jù)集進行處理,不但能夠采集到更多的高維數(shù)據(jù)空間里面的拓撲信息,并且能夠提供很多以往的方法無法提供的小分類,該產(chǎn)品如今已經(jīng)被應(yīng)用到基因和癌癥研究方面,在醫(yī)療保健領(lǐng)域起著重要的作用,一位醫(yī)生就是利用該產(chǎn)品發(fā)現(xiàn)14種乳腺癌變種的,另外該產(chǎn)品在金融服務(wù)行業(yè)中也積累了一定的用戶。如今,很多國家已經(jīng)從戰(zhàn)略層面來思考大數(shù)據(jù)的作用和價值,并進行了全面的部署,從而緊跟大數(shù)據(jù)技術(shù)革命的潮流。尤其是一些IT強國,比如美國等,為了促進大數(shù)據(jù)技術(shù)的應(yīng)用和發(fā)展,不但制定了全面的戰(zhàn)略和法律,并且擬定了科學(xué)的行動計劃。而在澳大利亞,一些有著較強綜合實力的銀行,針對小微企業(yè)這一客戶,打造了無償?shù)拇髷?shù)據(jù)分析服務(wù),期望通過這種附加的服務(wù),提高客戶忠誠度的同時,吸引更多的客戶,通過此項服務(wù),銀行幫助小企業(yè)進行客戶和競爭對手的分析,使其對其自身的財富結(jié)構(gòu)、消費者購買傾向、競爭對手客戶結(jié)構(gòu)等情況有更加全面的了解。當然,大數(shù)據(jù)分析是需要大量的原始數(shù)據(jù)的,而這些數(shù)據(jù)都是銀行通過零售業(yè)務(wù)積累的,不但數(shù)量較大,而且準確性更高,因此銀行提供的分析結(jié)果比大多數(shù)市場分析機構(gòu)提供的結(jié)果更為全面和準確。很多小企業(yè)就是看中了這方面的服務(wù),才成為銀行的客戶的。大數(shù)據(jù)也為風險控制方面的創(chuàng)新創(chuàng)業(yè)注入了有力的活力,比如來自美國的一家創(chuàng)業(yè)型企業(yè),為了讓銀行更及時地了解貸款風險,將電梯運行的數(shù)據(jù)和黃頁數(shù)據(jù)結(jié)合在一起進行分析。我們知道,如今有很多企業(yè)都是租借辦公樓的某一層或某一區(qū)域的,辦公樓往往都是高層建筑,電梯是此類建筑的標準配置之一。電梯在運行的過程中,會產(chǎn)生各種數(shù)據(jù),比如在其中一層停留了多少次等。黃頁信息具有公開性的特點,一般的個人也能方便地查到,比如辦公樓的某一層被哪一個企業(yè)所租賃等,將這兩方面的數(shù)據(jù)匹配起來,就能夠確定每天電梯在特定的企業(yè)停留多少次。若這一數(shù)據(jù)在短時間內(nèi)出現(xiàn)大幅降低的情況,或許可以證明公司的員工數(shù)量或到公司拜訪的客戶數(shù)量降低,該公司經(jīng)營狀況有所下滑,這對銀行來說是非常重要且有價值的信息。如果銀行能夠在貸款后管理的過程中及時地了解這一信息,將能夠?qū)崿F(xiàn)對貸款風險的跟蹤管理,相比以往每季度進行的全面檢查,能夠更加及時地反映出風險狀況。當然,這一案例僅僅是大數(shù)據(jù)技術(shù)對金融機構(gòu)作用的“冰山一角”,其應(yīng)用前景還需我們?nèi)ヌ剿?、去開發(fā)。但現(xiàn)實卻是,盡管大數(shù)據(jù)處理技術(shù)的發(fā)展十分迅速,但金融機構(gòu)在應(yīng)用大數(shù)據(jù)方面的表現(xiàn)并不理想,導(dǎo)致這一現(xiàn)狀的原因是什么?為了尋求這一問題的答案,波士頓咨詢公司從全球范圍內(nèi)選擇幾十家金融機構(gòu)展開調(diào)查研究,以期發(fā)現(xiàn)數(shù)據(jù)發(fā)揮其價值的整個過程,并因此尋找到限制其價值發(fā)揮的節(jié)點之所在。該公司通過研究發(fā)現(xiàn),數(shù)據(jù)發(fā)揮價值的過程由七個環(huán)節(jié)構(gòu)成,即數(shù)據(jù)收集、獲得數(shù)據(jù)擁有者的許可和信任、儲存和處理技術(shù)、數(shù)據(jù)科學(xué)/算法、協(xié)調(diào)、洞察、嵌入式變革。同時他們還指出,限制數(shù)據(jù)價值發(fā)揮的節(jié)點是數(shù)據(jù)擁有者的許可和信任以及協(xié)調(diào)這兩個環(huán)節(jié),這反映出數(shù)據(jù)整合不力、金融機構(gòu)內(nèi)部不同部門協(xié)調(diào)不暢的問題。比如,很多銀行的問題在于各個部門比如零售、對公等方面的數(shù)據(jù)并未充分地共享,同時技術(shù)和業(yè)務(wù)部門之間的溝通不夠有效,數(shù)據(jù)很難轉(zhuǎn)變成生產(chǎn)力。國內(nèi)大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀截止到2017年,國內(nèi)很多企業(yè)開始全面部署大數(shù)據(jù)處理技術(shù),這種技術(shù)也因此成為生產(chǎn)環(huán)境中最重要的核心企業(yè)級系統(tǒng)。大數(shù)據(jù)的受關(guān)注程度有所降低,但這并未影響到其發(fā)展速度,這方面各種產(chǎn)品不斷走向成熟,更多的財富百強企業(yè)開始將其應(yīng)用到生產(chǎn)經(jīng)營活動中去,一些初創(chuàng)企業(yè)也通過此項技術(shù)的應(yīng)用找到了新的盈利增長點。毫不夸張地說,大數(shù)據(jù)技術(shù)已經(jīng)成為國民生活中重要的基礎(chǔ)設(shè)施之一。大數(shù)據(jù)處理技術(shù)對金融企業(yè)內(nèi)部各個部門都有著一定的用途,比如從銷售部門來看,該部門工作人員可以對客戶性格、資產(chǎn)、所屬行業(yè)等方面的數(shù)據(jù)進行分析和挖掘,以客戶購買傾向為依據(jù),對客戶進行排序,從而讓銷售員將更多的時間和精力放在購買傾向更強的客戶身上,提高銷售成功率。對于企業(yè)宣傳部門而言,在完成市場情緒分析的基礎(chǔ)上,能夠編輯出更容易使客戶共鳴的文案,幫助企業(yè)塑造更好的形象,提升投資者對企業(yè)的信心。對于企業(yè)法務(wù)部門而言,大數(shù)據(jù)處理技術(shù)能夠“閱讀”大量的合同,并根據(jù)具體的案件對法院的判決進行模擬,給出各種判決結(jié)果的概率,為法務(wù)部門選擇辯護思路提供依據(jù),在不久后的未來,企業(yè)的初級法務(wù)工作或許可以完全交由大數(shù)據(jù)處理技術(shù)完成。除此之外,從研發(fā)、策劃部門的角度來看,大數(shù)據(jù)技術(shù)能夠揭示出企業(yè)數(shù)據(jù)內(nèi)部的關(guān)系,從而為基金經(jīng)理進行行情判斷、投放廣告、向客戶推薦金融產(chǎn)品等提供更有力的依據(jù)。大數(shù)據(jù)的應(yīng)用價值和作用早已得到了實踐的驗證,其在人們生活的不同領(lǐng)域發(fā)揮著日益重要的作用。整體來看,大數(shù)據(jù)金融具有普惠性的特點,它讓人們能夠享受到高效、平等的金融服務(wù)。如果某一家金融機構(gòu)能夠了解大數(shù)據(jù)的規(guī)律,這就意味著掌握了更大的核心競爭力,企業(yè)銷售業(yè)務(wù)量因此會大幅增長,企業(yè)市場份額因此而提高。當前,大數(shù)據(jù)分析的理念和方法在國內(nèi)發(fā)展迅猛,但現(xiàn)有的這方面的研究成果基本上都來自計算機科學(xué)領(lǐng)域的研究人員,這些學(xué)者在進行這方面的研究時,基本上都是從信息科學(xué)角度出發(fā)的,將主要的關(guān)注點放在大數(shù)據(jù)采集、保存、處理、挖掘等上,針對具體企業(yè)進行研究,探討大數(shù)據(jù)對企業(yè)管理、決策作用的研究成果相對比較少,在學(xué)科的融合這一點上做得不太到位,知曉商業(yè)語言同時能夠獨自清理和組織大數(shù)據(jù)的專家人數(shù)略顯不足。論文的組織結(jié)構(gòu)本課題研究主要由以下六部分組成:是緒論,闡述本課題研究背景和意義,從分析金融領(lǐng)域大數(shù)據(jù)使用史,進而引導(dǎo)出本課題的創(chuàng)新性,并指明本課題研究思路。論述股票二級市場的狀況,詳細闡述了K-means算法的基本原理、神經(jīng)網(wǎng)絡(luò)在選股的作用原理。結(jié)合現(xiàn)有股票預(yù)測原理的基礎(chǔ)上,提出的多聚類分析股票數(shù)據(jù)的方法,結(jié)合分類算法對股票數(shù)據(jù)進行訓(xùn)練,形成基于聚類分析的智能選股算法。對智能選股算法進行驗證,對驗證方案進行闡述準備,并通過MATLAB進行聚類實現(xiàn),最后得出最優(yōu)參數(shù)下的聚類結(jié)果。第五章設(shè)計整體選股系統(tǒng),結(jié)合第三章給出的基于聚類分析的選股算法,利用HADOOP技術(shù)設(shè)計一個簡單。穩(wěn)定高性能的智能選股系統(tǒng)。第六章對本課題研究內(nèi)容進行歸納,提出針對性和可行性建議,指明未來該領(lǐng)域的研究方向,并客觀地指出本課題研究的不足之處。

相關(guān)理論技術(shù)基礎(chǔ)及可行性分析股票二級市場的狀況股票市場是股票發(fā)行和交易的平臺,參與這一市場的主要主體包括了:交易所、中介機構(gòu)、自律性組織、監(jiān)管機構(gòu)、投資者等。1990年底,為了推進改革開放,滿足國內(nèi)經(jīng)濟增長的需求,政府經(jīng)過多年的準備后,在上海、深圳兩地成立了證券交易所,我國也因此成為全球第一個擁有資本市場的社會主義國家。當前,在國內(nèi)A股市場上市的企業(yè)超過了2500家,股票總市值排名世界第三。在過去將近三十年的歷程里,國內(nèi)股票市場在幫助企業(yè)籌集資金、提高企業(yè)融資結(jié)構(gòu)合理性方面作出了無與倫比的貢獻,為我國經(jīng)濟的發(fā)展創(chuàng)造了更好的環(huán)境。如今,該市場中能夠交易的證券包括了A股、B股、企業(yè)債券、可轉(zhuǎn)換債券、國債等。越來越多的個人和機構(gòu)邁入投資者隊伍中來。中介機構(gòu)是證券市場的重要參與者,國內(nèi)這一機構(gòu)的出現(xiàn),可以追溯到上世紀八十年代中期,在此后的十年間迅猛發(fā)展。統(tǒng)計數(shù)據(jù)顯示,我國一共擁有超過90家的證券公司,開展證券業(yè)務(wù)的會計師事務(wù)所超過100家,律師事務(wù)所超過300家,資產(chǎn)評估機構(gòu)超過100家,證券評級機構(gòu)一共2家。同時,更多的國民將投資目光轉(zhuǎn)向證券市場,2016年6月,國內(nèi)在證券公司開戶的個人達到2億人之多。然而就目前的現(xiàn)狀來看,國內(nèi)的股票市場和國外市場的關(guān)聯(lián)性并不強。國內(nèi)資本市場存在一系列的問題,比如市場結(jié)構(gòu)合理性程度低、在資源配置方面的作用并未完全體現(xiàn)出來、市場約束機制不夠有力、市場運行機制不夠完善等,要解決這些問題,有賴于資本市場自身的調(diào)整和優(yōu)化。A股市場長時間保持低迷,這是市場調(diào)整所必須經(jīng)歷的階段。整體來看,國內(nèi)股票市場的特征主要體現(xiàn)在這些方面:1、在企業(yè)性質(zhì)上,包括了國有企業(yè)以及民營企業(yè)。國有企業(yè):此類企業(yè)的管理目標和股東利益存在一定的出入,國企追求的終極目標,并非紅利的最大化,而是對國家建設(shè)和人民生活貢獻的最大化。在過去的一段時間內(nèi),銀行股的股價不太理想,而在香港的保險公司則長期保持這種低迷的表現(xiàn),尤其是信托行業(yè),其情況更加令人堪憂。境外的經(jīng)驗告訴我們,從短期的角度來看,信托的利潤是非常可觀的,但從中長期的角度來看,股東要承受較大的風險,這是歐美地區(qū)上市企業(yè)對信托行業(yè)不太感興趣的主要原因之所在。民營/私營企業(yè):①過度競爭。我國擁有的汽車、水泥、鋼鐵企業(yè)數(shù)量居全球首位,一個行業(yè)中存在過多的競爭者,很有可能會出現(xiàn)惡性競爭行為,啤酒行業(yè)利潤低于其他國家就是最好的證明。當然,這種現(xiàn)狀并不是有弊無利的,它能夠提高行業(yè)的競爭性,降低生產(chǎn)和經(jīng)營成本,提高在全球市場中的競爭地位,但會對股東利益造成影響,導(dǎo)致企業(yè)盈利能力降低。②私營企業(yè),特別是家族企業(yè)在未來的發(fā)展充滿更多的不確定性。3.企業(yè)作假,存在嚴重的內(nèi)幕交易情況,雖然這種情況在各個國家都有,但相比來看,在國內(nèi)更為嚴重。2、股票政策目標的不合理,現(xiàn)行的很多針對股市進行監(jiān)管的政策,其目標不是以保護股東為主。2009年到現(xiàn)在,美國證監(jiān)會總共開出249張罰單,遠遠多于我國。從管理層面而言,美國證監(jiān)會的首要保護對象為股東,企業(yè)甚至是經(jīng)濟都沒有股東那么重要。3、投資者基礎(chǔ)不理想:投資者投資理念不夠成熟,沒有足夠的資金用于長期投資,大部分都追求的是短期利益。首先,在投資目的上的差異,以巴西為例,該國股市上最大的投資者是以長線投資為主的機構(gòu),并非個人。一旦股市出現(xiàn)大幅的波動,機構(gòu)投資者也會繼續(xù)投資和交易行為,而在國內(nèi)90%都為散戶,在這種情況下容易撤離。其次,上市企業(yè)忽視了長期投資者的利益。不管是國企還是民營企業(yè),都身處競爭過度的困境,大部分的企業(yè)并未對未來5-10年的發(fā)展進行科學(xué)的規(guī)劃。所以從個人層面而言,難以進行長期投資。在國內(nèi),企業(yè)在五年后跨行的事件屢見不鮮,很多投資者選擇短期投資也是無奈之舉。在過去的幾年間,越來越多的個人將投資的目光轉(zhuǎn)向二級市場,然而上市企業(yè)對分紅的積極性并不高,大部分投資者都是通過差價抓取收益的,因此將近八成的投資者每天所跟蹤的,就是股票價格的波動并對大盤的波動情況進行預(yù)測,國內(nèi)股票市場的驅(qū)動力來源在于散戶,因此學(xué)者們在進行股票市場方面的研究時的,都將關(guān)注點放在股價的波動和如何進行更準確的預(yù)測上。眾所周知,證券市場中的上市企業(yè)身處宏觀經(jīng)濟這一大環(huán)境,因此難免受到影響。所以,在股票市場中投資時,通常都會結(jié)合當下的經(jīng)濟形勢進行考慮,選擇可能會帶來收益的上市企業(yè)股票。要準確的判斷經(jīng)濟形勢,通常都需要結(jié)合政府相關(guān)部門制定的財政和貨幣政策,以及披露的行業(yè)數(shù)據(jù)進行全面的考慮。財政政策是政府根據(jù)當前社會各個方面的發(fā)展目標而提出的財政工作總體方針,政府制定和推行此項政策的主要目的,是對國民總需求進行調(diào)整。從財政政策的角度能夠了解發(fā)展空間,通過經(jīng)濟數(shù)據(jù)對發(fā)展取得的成績進行檢驗。各種經(jīng)濟數(shù)據(jù)和貨幣政策存在緊密的關(guān)聯(lián),貨幣政策指的是政府或央行為引導(dǎo)經(jīng)濟活動朝著預(yù)期的方向前行而制定的貨幣方面的政策,主要目的是對貨幣供應(yīng)和利率進行控制,通俗來說就是調(diào)節(jié)貨幣的流通量,這一參數(shù)在很大程度上決定了國民的消費能力。比如,當政府推行收縮性貨幣政策時,利率就會因此而提高,消費者難以從銀行手中獲取貸款資金支持,或者不愿意承擔高額的利息而放棄消費,所以此項政策對房地產(chǎn)行業(yè)的發(fā)展具有打壓性的作用,在這種情況下理性的投資者就會遠離房產(chǎn)股。通過分析對經(jīng)濟形勢有全面的了解后,后續(xù)工作主要是找到發(fā)展前景比較好的行業(yè)了。以行業(yè)中競爭者數(shù)量、產(chǎn)品性質(zhì)、企業(yè)價格控制能力等為依據(jù)來看,市場包括了四種類型,即完全競爭、壟斷競爭、寡頭壟斷、完全壟斷。接著對確定的行業(yè)的周期性展開判斷,行業(yè)發(fā)展狀況和宏觀經(jīng)濟狀況之間存在一定的關(guān)聯(lián),不過各個行業(yè)這一關(guān)聯(lián)性的強弱程度存在或大或小的差異,根據(jù)這一差異可以把各個行業(yè)分成三種,具體如下表2-1:表STYLEREF1\s2SEQ表\*ARABIC\s11行業(yè)分類表增長性行業(yè)該行業(yè)的變動趨勢和宏觀經(jīng)濟并非未完全同步,表現(xiàn)出較強的增長性,無論經(jīng)濟處于增長或衰退階段,行業(yè)都有可能表現(xiàn)出增長的趨勢。周期性行業(yè)該行業(yè)的變動趨勢和宏觀經(jīng)濟是完全同步的,比如鋼鐵、有色金屬、煤炭等行業(yè),都屬于這一類。防御型行業(yè)無論經(jīng)濟處于周期中的哪一階段,行業(yè)的發(fā)展都比較穩(wěn)定,比如視頻業(yè)、公用事業(yè)等,都屬于這一類。無論是哪一種行業(yè),都不可避免地會經(jīng)歷成長、衰退等階段,此即為行業(yè)生命周期理論的核心之所在。投資者能夠按照專業(yè)的偏好對特定的行業(yè)展開分析。從幼稚期、成長期、成熟期、衰退期來看,每個階段行業(yè)中應(yīng)該選擇的企業(yè)是不同的。針對幼稚期行業(yè),通常都會投資管理人員整體素質(zhì)較高的企業(yè);針對成長期行業(yè),通常都會投資技術(shù)成熟、市場容量大、產(chǎn)業(yè)關(guān)聯(lián)性更強的企業(yè);針對成熟期行業(yè),企業(yè)在產(chǎn)品、工藝和技術(shù)方面都達到了成熟水平,企業(yè)競爭力最強;針對衰退期行業(yè),落后的產(chǎn)能應(yīng)該去尋找新的替代品,也就是說企業(yè)發(fā)展的重點在于業(yè)務(wù)的轉(zhuǎn)變。目前應(yīng)用比較廣泛的調(diào)研方法包括了:問卷調(diào)查、電話訪問、實地調(diào)研、深度訪談。在正式調(diào)研之前,需要完成的準備工作包括了:①采集基礎(chǔ)性的行業(yè)數(shù)據(jù);②了解企業(yè)在過去兩年或以上時間的相關(guān)數(shù)據(jù);③瀏覽市場中權(quán)威媒體公布的的文章,從而了解市場以及對手的觀點和最新情況;④創(chuàng)建模型,把采集到的關(guān)于行業(yè)和企業(yè)的數(shù)據(jù)提交給模型,確定模型預(yù)測還需要哪些未知的數(shù)據(jù),編制調(diào)研提綱;⑤對于未知的數(shù)據(jù),根據(jù)市場觀點以及自身的經(jīng)驗,對其進行估量,然后將其提交給模型,基于模型輸出的結(jié)果對企業(yè)進行較為全面的判斷。這一過程涉及到大量的數(shù)據(jù)挖掘工作,需要投入大量的時間和精力,當前行業(yè)研究的框架和邏輯是完全公開的,因此決定基本面判斷結(jié)果的主要因素,是數(shù)據(jù)的及時性和準確性,了解各個行業(yè)的核心數(shù)據(jù)之所在,并及時地進行更新,創(chuàng)建數(shù)據(jù)挖掘系統(tǒng),跟蹤這些數(shù)據(jù),是準確判斷行業(yè)周期的重要前提。整體而言,趨勢的形成、演變的規(guī)律,在很大程度上由因果循環(huán)所決定,市場分析的重點在于趨勢的判斷、跟蹤和迎合。因此,為了提高行情分析的準確性,必須明確和市場發(fā)展有關(guān)的各項因子。數(shù)據(jù)挖掘工作原理聚類算法概述聚類,指的是將大量的數(shù)據(jù)分割成多個簇,確保不同簇彼此間有著明顯的區(qū)別,而同一個簇里面的數(shù)據(jù)的差異非常小。這里的簇指的是樣本的集合,聚類分析讓同一個簇里面的元素的關(guān)聯(lián)性比其和別的簇里面的元素的關(guān)聯(lián)性更強,也就是說同一個簇包含的兩個元素表現(xiàn)出很高的相似度,不同簇里面的元素則表現(xiàn)出很高的相異度。通過對樣本的屬性值進行計算,就能夠確定相異度的大小,通常情況下都會選擇不同樣本的“距離”予以衡量。聚類分析別名群分析,它是遵循“物以類聚”的思想,將樣本或指標分為不同類型的多元統(tǒng)計分析方法,其在數(shù)據(jù)挖掘領(lǐng)域有著廣泛的應(yīng)用、發(fā)揮著重要的價值。有了這種方法后,即便在不存在先驗經(jīng)驗,和能夠借鑒的模式的情況下,也能夠以樣本的特性為依據(jù),將大量的樣本分為不同的類型。在聚類之前,用戶往往不確定需要將數(shù)據(jù)分成幾個簇,并且沒有確定劃分的依據(jù),在聚類分析的過程中,數(shù)據(jù)集的特征是不知道的,應(yīng)用聚類算法的目的就是了解其特征,并因此為依據(jù)將其分為若干個簇。從這個角度來看,聚類和分類存在一定的共同點,也就是把數(shù)據(jù)分成不同的組,不過二者是完全不同的兩個概念。在分類之前,組已經(jīng)定義好,然而在聚類時,組(通常被叫做簇)并未提前定義,是在了解數(shù)據(jù)的特征后,根據(jù)數(shù)據(jù)的相似性進行定義的。數(shù)據(jù)挖掘?qū)垲惙治龅囊笾饕w現(xiàn)在:可伸縮性,如果聚類對象達到幾百萬個,最終的聚類結(jié)果應(yīng)該在準確度方面保持一致;能夠?qū)?shù)據(jù)的各種屬性進行處理;部分聚類算法,只能夠用于數(shù)值類型數(shù)據(jù)的處理,然而在實踐中,數(shù)據(jù)的類型并不局限于數(shù)值,還有很多不同的數(shù)據(jù),比如二元數(shù)據(jù)、分類數(shù)據(jù)等。不過,這些數(shù)據(jù)都能夠被轉(zhuǎn)化成數(shù)值型數(shù)據(jù),不過這樣一來,聚類所需的時間會變長,最終聚類結(jié)果的準確性也會有所降低;能夠找到各種形狀的類簇:考慮到相當一部分的聚類算法都是以距離(eg:歐幾里得距離或曼哈頓距離)反映出不同對象彼此間的相似度的,在這種情況下,只能夠找到尺寸、密度相差較小的球狀類簇或凸形類簇。然而,在實踐中,類簇的形狀有很多種;對聚類算法初始化參數(shù)的知識需求是最小的:相當一部分算法的應(yīng)用,需要用戶提供初始參數(shù)信息,比如所希望得到的類簇的數(shù)量,初始質(zhì)點等。如果參數(shù)出現(xiàn)小幅的變化,最終的聚類結(jié)果會出現(xiàn)明顯的變化,準確性大打折扣,同時給用戶造成更重的負擔。整體而言,數(shù)據(jù)分類是對現(xiàn)有的數(shù)據(jù)展開分析,確定其在屬性上的一致之處,同時利用分類模型將數(shù)據(jù)分成多個類別,并為每個類標記標號。類別往往都是已經(jīng)定義好的,類別數(shù)量是確定的。而數(shù)據(jù)聚類,則是把不存在類別參考的數(shù)據(jù)分為多個組,也就是從數(shù)據(jù)導(dǎo)出類標號。聚類分析是對數(shù)據(jù)進行挖掘,從而得到數(shù)據(jù)對象和它們之間的關(guān)系,然后把數(shù)據(jù)分為不同的組。每組包含的對象具有較高的相似性,不同組里面的對象是不相似的。所以說,判斷分類效果的依據(jù),是組內(nèi)、組間樣本的相似性的高地程度。K-means算法原理屬于硬聚類方法,它是在原型的目標行數(shù)聚類方法基礎(chǔ)上提出的,能夠用于優(yōu)化數(shù)據(jù)點和原型的某種距離,通過函數(shù)求極值的方法,從而確定迭代運算的調(diào)整規(guī)則。這種方法通過歐式距離來衡量相似度,通過計算得到對應(yīng)某一初始聚類中心向量V最優(yōu)分類,從而將評價指標J控制在更低范圍內(nèi)。該方法選擇的聚類準則函數(shù)為誤差平方和準則函數(shù)。對于數(shù)據(jù)挖掘而言,屬于算法范疇,它能夠通過計算提供數(shù)據(jù)聚集,持續(xù)地取離種子點最近均值。我們用c代表聚類分析后樣本集的數(shù)量,該算法的原理為:(1)恰當?shù)剡x擇c個類的初始中心;(2)在進行第k次迭代時,針對任何的樣本,通過計算確定其和c個中心之間的距離,把樣本歸入到最小距離值對應(yīng)的類中;(3)通過均值等方法調(diào)整這一類的中心值;(4)完成上述兩個步驟后,針對c個聚類中心,若其值并未發(fā)生任何變化,停止迭代,否則就應(yīng)該繼續(xù)進行迭代。這種算法最顯著的優(yōu)勢和特征在于計算工作量小、耗時短,初始中心的選擇以及距離公式直接影響到算法結(jié)果的準確性。在采用該算法時,具體的操作步驟是:通過隨機的方法,在n個數(shù)據(jù)里面抽選k個對象,并將其當做初始聚類中心,對于其他的(n-k)個對象,計算其和聚類中心的相似度,也就是距離,并以此為依據(jù),將其歸入到和其相似度最高的聚類中;接著再進行計算,確定新聚類的中心,也就是聚類包含的全部對象的均值;持續(xù)重復(fù)上述過程,直至標準測度函數(shù)開始收斂。通常情況下在標準測度函數(shù)方面都會選擇均方差,k個聚類的特點是:同一聚類實現(xiàn)了最大化的緊湊性,不同聚類實現(xiàn)了最大化的分隔性。算法實現(xiàn)的詳細流程是:(1)通過隨機的方法,在n個數(shù)據(jù)里面抽選k個對象,并將其當做初始聚類中心。(2)對于其他的(n-k)個對象,計算其和聚類中心的相似度,也就是距離,并以此為依據(jù),將其歸入到和其相似度最高的聚類中。(3)結(jié)束全部對象的歸類后,再次計算并更新k個聚類的中心。(4)和之前計算確定的k個聚類中心進行對比,若二者是不同的,回到步驟(2),否則繼續(xù)。(5)輸出聚類結(jié)果。通過流程圖2-1方式可以描述為:圖STYLEREF1\s2SEQ圖\*ARABIC\s11K均值聚類算法的流程圖首先,按照隨機的方法,抽取k個對象,將這些對象當做一個簇的初始均值或中心,然后計算出未被抽取的所有對象和所有簇中心的距離,以此為依據(jù)將其歸入到某一簇中,計算確定所有簇的均值,并將其當做本簇的新中心;持續(xù)重復(fù)上述步驟,直至準則函數(shù)收斂。一般情況下都會選擇平方誤差準則,也就是是針對簇包含的各個對象,計算出其和中心距離的平方和,基于該準則得到的簇具有良好的緊湊性和獨立性。K均值聚類算法的優(yōu)勢和劣勢分析:算法的主要優(yōu)勢在于操作復(fù)雜性低,耗時短,尤其適用于中小型數(shù)據(jù)集,當然,它也有一定的劣勢,主要體現(xiàn)在如下三個方面:(1)聚類結(jié)果不確定算法是按照隨機的方法確定初始中心的,而基于不同的初始中心得到的聚類結(jié)構(gòu)是不同的。因此這種方法的重復(fù)性和穩(wěn)定性并不好。另外,該算法往往選擇的目標函數(shù)都是準則函數(shù),而這種函數(shù)包含的全局最小值和極小值的數(shù)量分別是1和N,所以,經(jīng)過一系列的運算后,有較高的概率陷入局部極小值,進而導(dǎo)致最后無法實現(xiàn)全局最優(yōu)解。(2)聚類個數(shù)不確定算法里面的K代表的是聚簇的數(shù)量,其值的大小直接影響到聚類結(jié)果的準確性。在確定K值時,通常都要結(jié)合具體需求考慮,但在大多數(shù)情況下,這一需求本身是不明確的,所以這也導(dǎo)致了該算法的聚類結(jié)果具有較強的不確定性。(3)數(shù)據(jù)量大、算法時間復(fù)雜度較高在使用算法時,需要持續(xù)進行迭代,為了確定最準確的聚類中心,在計算的過程中,還需要持續(xù)進行調(diào)整,只有這樣才可以得到準確的聚類結(jié)果,計算的主要目的是得到不同對象彼此間的距離,因此,這種方法需要投入很多的時間,算法在效率方面的表現(xiàn)并不太突出。適用于分類問題的方法多種多樣,其中單一的方法有:決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰、支持向量機和基于關(guān)聯(lián)規(guī)則的分類等,當然也可以將這些方法組合起來使用,以更好地解決分類問題。(1)決策樹決策樹在分類和預(yù)測方面有著廣泛的應(yīng)用,決策樹學(xué)習(xí)是基于實例的方法,從本質(zhì)上來看,它屬于歸納學(xué)習(xí)算法范疇,它根據(jù)大量的沒有次序和規(guī)則的實例進行推理,然后通過決策樹的形式揭示出分類規(guī)則。采用這種方法,旨在確定屬性和類型彼此間的關(guān)聯(lián),從而對不確定類別的樣本的類別進行判斷和分析,這種方法按照從上到下的順序進行遞歸,在決策樹的節(jié)點上展開屬性的對比,按照各種屬性值判斷這一節(jié)點下方的分支,最終通過葉節(jié)點獲取結(jié)論。目前應(yīng)用比較廣泛的決策樹算法包括了和算法等。它們在選擇測試屬性采用的技術(shù)、生成的決策樹的結(jié)構(gòu)、剪枝的方法以及時刻,能否處理大數(shù)據(jù)集等方面表現(xiàn)出不同點。(2)貝葉斯這種算法的理論基礎(chǔ)在于概率統(tǒng)計知識,通過Bayes定理,對不確定類別的樣本來自各個類別的概率進行判斷,然后以概率為依據(jù)排序,將樣本歸入到概率最高的那一個樣本類別中去。這一方法是建立在一個假設(shè)性前提條件下的,然而這一前提通常在現(xiàn)實中是不成立的,所以這種方法的分類效果并不好,準確性并不高。針對這一點,學(xué)者們不斷對其進行改進和完善,由此提出了不同的改進型貝葉斯分類算法,比如TAN算法等,這種算法充分考慮了屬性彼此間的關(guān)聯(lián),因此相比傳統(tǒng)貝葉斯算法,其在分類準確性方面的表現(xiàn)大幅提高。(3)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是具有信息處理功能的數(shù)學(xué)模型,它是對大腦神經(jīng)系統(tǒng)進行模擬后創(chuàng)建的,它由一系列的節(jié)點所構(gòu)成,這些節(jié)點彼此間存在一定的關(guān)聯(lián),由此共同形成一張網(wǎng)絡(luò),此即為“神經(jīng)網(wǎng)絡(luò)”,從而對信息進行有效的處理。這種方法的第一個環(huán)節(jié)是訓(xùn)練,通過訓(xùn)練讓網(wǎng)絡(luò)進行“學(xué)習(xí)”,完成學(xué)習(xí)后,節(jié)點的連接權(quán)值會因此而改變,因此能夠起到分類的作用,通過訓(xùn)練的網(wǎng)絡(luò)能夠有效地識別對象。經(jīng)過多年的發(fā)展,研究人員提出了大量的人工網(wǎng)絡(luò)模型,其中應(yīng)用最廣泛的包括了BP網(wǎng)絡(luò)、徑向基RBF網(wǎng)絡(luò)、網(wǎng)絡(luò)、隨機神經(jīng)網(wǎng)絡(luò)(機)、競爭神經(jīng)網(wǎng)絡(luò)(網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。神經(jīng)網(wǎng)絡(luò)的缺陷和不足主要體現(xiàn)在收斂耗時長、計算工作量大、無法解釋等,因此還需要在未來的研究中進一步改進和完善。(4)k-近鄰k-近鄰(kNN,k-NearestNeighbors)算法是一種基于實例的分類方法。該方法就是找出與未知樣本x距離最近的k個訓(xùn)練樣本,看這k個樣本中多數(shù)屬于哪一種類別,就將x歸入到這一類中。這種方法的本質(zhì)是懶惰學(xué)習(xí)方法,它把樣本保存起來,如果不需要的話不會分類,針對非常復(fù)雜的樣本集,如果采用這種方法進行分類,需要完成很大的計算工作量,所以這種方法并不適用于對實時性具有很高要求的場景。(5)支持向量機支持向量機,這種方法是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上提出的,它的主要特征在于基于結(jié)構(gòu)風險最小化員原則,通過盡量大的分類間隔創(chuàng)造最優(yōu)分類超平面,使學(xué)習(xí)機具備更強的泛化能力,因此在面對非線性、高維數(shù)、局部極小點等問題時具有不錯的分類效果。針對分類問題,SVM基于區(qū)域里面的樣本進行計算,進而得到這一區(qū)域的決策曲面,最終確定區(qū)域里面所有樣本應(yīng)該屬于哪一類。(6)基于關(guān)聯(lián)規(guī)則的分類關(guān)聯(lián)規(guī)則挖掘受到了更多數(shù)據(jù)挖掘?qū)W者的關(guān)注。在過去的幾年間,學(xué)者們在這方面的研究中投入了大量的精力和時間。這種方法的挖掘過程類似于的規(guī)則,這里面是項(或?qū)傩?值對)的集合,而C是類標號,這種形式的規(guī)則稱為類關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分類方法的操作過程包括兩個環(huán)節(jié):其一,通過算法在樣本集里面進行挖掘,從而確定全部滿足指定支持度和置信度的類關(guān)聯(lián)規(guī)則;其二,通過啟發(fā)式方法,在上一環(huán)節(jié)中得到的關(guān)聯(lián)規(guī)則里面選擇質(zhì)量最高的規(guī)則,并以此為依據(jù)完成分類。(7)集成學(xué)習(xí)在實踐中,需要分類的數(shù)據(jù)往往都表現(xiàn)出復(fù)雜性和多樣性的特點,如果采用一種分類方法進行分類,效果通常都不夠理想,為此,學(xué)者們開始研究如何針對同一問題采用多種分類方法,也就是集成學(xué)習(xí),這也是全球機器學(xué)習(xí)界最熱門的議題之一,集成學(xué)習(xí)屬于機器學(xué)習(xí)范式,它會持續(xù)地使用不同的學(xué)習(xí)算法,得到多個基學(xué)習(xí)器,接著按照既定的規(guī)則,將其組合在一起,以得到問題最終的解,這種思路能夠使學(xué)習(xí)系統(tǒng)具備更強的泛化能力。分類算法數(shù)據(jù)挖掘的內(nèi)容十分廣泛,分類即為其中之一,它指的是將數(shù)據(jù)項目映射到已知類別中的某一類別,比如當學(xué)者們發(fā)表文章后,分類技術(shù)能夠在無需人工操作的情況下,將文章劃分到具體的類型中去,比如是屬于科技類、藝術(shù)類,還是人文類等,通常情況下需要利用特定的分類算法確定分類規(guī)則,然后以此為依據(jù)完成新數(shù)據(jù)的劃分。從數(shù)據(jù)挖掘的角度來看,分類這一環(huán)節(jié)的工作起著重要的作用,其用途十分廣泛,比如預(yù)測等,也就是根據(jù)現(xiàn)有的樣本數(shù)據(jù)進行推算,從而確定數(shù)據(jù)在未來的發(fā)展演變趨勢,其中最經(jīng)典的預(yù)測案例即為大豆學(xué)習(xí),這種方法也能夠用來對用戶行為進行分析,也就是俗稱的受眾分析,確定產(chǎn)品的用戶群,從而避免企業(yè)銷售人員進行盲目的銷售。在創(chuàng)建分類器時,可以采用的方法有很多,比如統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法的等,而應(yīng)用最廣泛的統(tǒng)計方法則包括了knn算法、基于事離的學(xué)習(xí)方法;常見的機器學(xué)習(xí)方法有決策樹、歸納法等,其中決策樹方法就能夠用來進行受眾分析;常見的神經(jīng)網(wǎng)絡(luò)方法則是bp算法。文本分類指的是將文本歸為不同的類型,按照文章的內(nèi)容將其劃分,文本分類的前提是分詞,然后以分詞得到的項向量為計算因子,最后通過特定的算法和樣本里面的詞匯展開計算,獲取準確性較高的分類結(jié)果。分類在數(shù)據(jù)挖掘起著重要的作用。接下來我們重點介紹數(shù)據(jù)挖掘和數(shù)據(jù)分類的過程。數(shù)據(jù)挖掘的流程圖2-2:圖STYLEREF1\s2SEQ圖\*ARABIC\s12數(shù)據(jù)挖掘的流程圖數(shù)據(jù)文本分類的流程圖2-3:圖STYLEREF1\s2SEQ圖\*ARABIC\s13數(shù)據(jù)文本分類的流程圖分類算法的類型在現(xiàn)實中,應(yīng)用比較廣泛的分類方法包括了統(tǒng)計方法、機器學(xué)習(xí)方法等,較為普及的技術(shù)包括了:1.樸素貝葉斯分類是基礎(chǔ)性的監(jiān)督學(xué)習(xí)分類器這一分類器模型成立的前提是所有類別的特征項目符合正態(tài)分布的特點(也有一些學(xué)者認為即便不滿足獨立分布,也不會影響到最終的效果)。首先,假定分布函數(shù)滿足高斯分布,每個類別存在若干系數(shù),在確定訓(xùn)練數(shù)據(jù)的情況下,算法會估計所有類別的向量均值以及方差矩陣,這些都是后續(xù)預(yù)測所需的重要依據(jù)。特點:在缺乏足夠原始數(shù)據(jù)的情況下,這種模型在性能方面的表現(xiàn)比很多復(fù)雜模型更好,原因在于復(fù)雜的模型往往都是在一定假設(shè)性條件下成立的,因此容易出現(xiàn)欠擬合的問題。2.該算法首先將全部的訓(xùn)練樣本保存起來,接著采用有效的分析方法(比如選舉、計算加權(quán)等),得到新樣本附近K個最近鄰,最終將新樣本歸入到K近鄰點里面頻率最高的那一類里面。部分學(xué)者將該方法叫做“基于樣本的學(xué)習(xí)”,也就是為了達到預(yù)測的目的,針對已知的輸入搜索和其距離最近的特征向量。特點:操作簡單,效果比較理想,當然它也有一定的缺陷,主要體現(xiàn)在需要保存全部的訓(xùn)練集,因此對內(nèi)存的要求較高,耗時比較長,因此在選擇該方法時,往往都會對集聚類進行訓(xùn)練,從而縮小數(shù)據(jù)大小。3.支持向量機SVM是在核函數(shù)的基礎(chǔ)上提出的新方法,它利用核函數(shù)將特征向量映射到高維空間中(通常而言空間的維度越高,就具有更強的線性可分性),接著創(chuàng)建線性判別函數(shù)(也就是在高維空間里面可以區(qū)分訓(xùn)練數(shù)據(jù)的最優(yōu)超平面)。從某種程度來看,解是最優(yōu)的指的是兩類里面距離分割面最近的特征向量和分割面距離最大化。和分割面距離最短的特征向量即為”支持向量”,除此之外的其他向量不會對分割面造成任何的影響。注:在數(shù)據(jù)集合較小的情況下,這種方法的分類效果是最理想的,從核的角度來看,它不但存在于SVM里面,針對任何算法,只要計算的過程中發(fā)現(xiàn)了內(nèi)積的存在的,就能夠通過核函數(shù)予以替代,通過這種方法強化高維數(shù)據(jù)的性能。4.決策樹決策樹的形狀為二叉樹,如果用葉節(jié)點代表類別的話,它就是分類樹平;如果用葉節(jié)點代表常量的話,它就是回歸樹。決策樹是根據(jù)根節(jié)點遞歸創(chuàng)建的,通過全部的訓(xùn)練數(shù)據(jù),在根節(jié)點位置完成分裂。在每個結(jié)點處,優(yōu)化準則(比如最優(yōu)分裂)是基于一些基本原則來確定的(比如ML中的“純度”原則被用來進行分類,方差之和用來進行回歸)。所有的數(shù)據(jù)根據(jù)初始和替代分裂點來劃分給左右子結(jié)點(就像在預(yù)測算法里做的一樣)。然后算法回歸的繼續(xù)分裂左右子結(jié)點。5.是有著強大功能的學(xué)習(xí)算法,或者說是監(jiān)督的分類學(xué)習(xí)方法。它將若干個性能較差的分類器集成在一起,得到性能十分突出的分類器組,用來組合的分類器在性能上僅僅稍微強于隨機選擇,經(jīng)過組合后,得到的分類器組也十分簡單并且在應(yīng)用的過程中計算工作量并不大。分類器和隨機森林在內(nèi)部使用了決策樹,因此二者決策樹的很多有用的性質(zhì)(適用于混合數(shù)據(jù)模型、缺乏歸一化的數(shù)據(jù)、特征丟失)。6.隨機森林除了分類問題之外,這種方法還適用于回歸問題。隨機森林能夠采集不同樹的子節(jié)點從而完成不同類別的投票,并從中找到投票數(shù)最高的類別,將其當做判斷結(jié)果。在面對回歸問題時,往往都需要計算“森林”包含的全部子節(jié)點的值的平均值。這種方法創(chuàng)建的基本子系統(tǒng)同樣為決策樹,持續(xù)創(chuàng)建決策樹,當數(shù)據(jù)純凈后停止。所以,雖然所有的樹都完成了訓(xùn)練數(shù)據(jù)的學(xué)習(xí),但其彼此間并不是完全一致的,因此需要計算所有樹的平均值,提高其一致性,這種方法也因此被叫做隨機森林。當然,若創(chuàng)建的不同樹之間比較相似,隨機森林的作用就會大打折扣,為了解決這一問題,在創(chuàng)建決策樹時,往往都會按照隨機的方法選擇特征子集,從而提高各個之間的差異性。比如,一個目標識別樹的特征多種多樣,比如顏色、質(zhì)地、傾斜度等。樹的任何一個節(jié)點都能夠從特征李滿選擇子集,進而決定如何對數(shù)據(jù)進行分類處理。后期的節(jié)點都能夠得到新的特征子集。優(yōu)點:與和決策樹相比,隨機森林對核心變量的數(shù)量要求更低,在預(yù)測性能方面表現(xiàn)更佳。也就是說我們能夠調(diào)整特征集的大小,在不影響性能的基礎(chǔ)上減低計算量和內(nèi)存使用隨機森林。7.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是對非線性可分數(shù)據(jù)的分類方法。與輸入存在連接關(guān)系的那一層為隱藏層,與輸出存在連接關(guān)系的那一層叫做輸出層。這種算法的主要特點是隱藏層計算的對象的意義是未知的,并且它具有較多的局部最優(yōu)值,因此能夠多次隨機設(shè)定初始值后,通過梯度下降算法得到最優(yōu)值神經(jīng)網(wǎng)絡(luò)在選股中的作用很多投資者都希望能夠找到未來股價大漲的股票,為了滿足其這一需求,很多學(xué)者創(chuàng)建了各式各樣的資產(chǎn)定價模型,同時推出了大量的股票預(yù)測軟件,但現(xiàn)有的模型和軟件都具有一定的缺陷,比如只能預(yù)測短期內(nèi)股價的波動趨勢,無法準確預(yù)測股票的長期波動趨勢,導(dǎo)致這種現(xiàn)象的主要原因在于相當一部分的傳統(tǒng)統(tǒng)計方法在應(yīng)用之前要確定各項參數(shù),并且需要知道在特定的情況下怎樣對參數(shù)進行調(diào)整,所以不太適用于非線性數(shù)據(jù)的處理。二級市場剛好具有非線性的特點。所以可以利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)怎樣從特定的樣本里面找到具備投資價值的標的物,這種特性讓一些投資人不必學(xué)習(xí)專業(yè)的投資技能,了解投資規(guī)則,只要按照訓(xùn)練數(shù)據(jù)構(gòu)建相應(yīng)的模型即可對股票走勢進行預(yù)測。神經(jīng)網(wǎng)絡(luò)進行股票預(yù)測的原理神經(jīng)網(wǎng)絡(luò)基于歷史數(shù)據(jù),揭示出股價的變化規(guī)律,接著將這樣的非線性關(guān)系保存在網(wǎng)絡(luò)的權(quán)值和閥值里面,并以此為依據(jù)對股價未來的波動方向進行預(yù)測。屬于多層網(wǎng)絡(luò)的“逆推”學(xué)習(xí)算法,它的核心思想在于:通過信號的正向傳播和誤差的反向傳播兩個環(huán)節(jié)完成學(xué)習(xí)。在前一個環(huán)節(jié)中,輸入層提供樣本數(shù)據(jù)給隱層,經(jīng)過后者的處理后反饋給輸出層。如果輸出的結(jié)果不滿足預(yù)期,就開始第二個緩解的處理工作。在第二個環(huán)節(jié)中,隱層利用特定的形式把輸出誤差傳遞給輸入層,然后將誤差分攤到每一層包含的單元中,獲取所有單元的誤差信號,并據(jù)此對不同單元的權(quán)值進行調(diào)整。通過上述兩個環(huán)節(jié)對所有層的權(quán)值進行調(diào)整,這兩個環(huán)節(jié)交叉執(zhí)行,在優(yōu)化權(quán)值的過程中,完成網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練。當網(wǎng)絡(luò)提供的誤差達到可接受程度,或完成提前設(shè)定的次數(shù)的學(xué)習(xí)任務(wù)后就會停止。神經(jīng)網(wǎng)絡(luò)模型的特征體現(xiàn)在很多方面,比如巨量并行性、存儲分布性、結(jié)構(gòu)可變性等,并且它能夠逼近最能夠準確反映樣本數(shù)據(jù)規(guī)律的函數(shù),不管函數(shù)的形式是怎樣的,神經(jīng)網(wǎng)絡(luò)憑借其在適應(yīng)、學(xué)習(xí)以及映射方面的強大功能和能力,通過學(xué)習(xí)確定不同數(shù)據(jù)彼此間的依存關(guān)系,在股價預(yù)測方面表現(xiàn)出明顯的優(yōu)勢。利用神經(jīng)網(wǎng)絡(luò)進行選股,此時的訓(xùn)練樣本即為股價信息,將特定交易日的股價當做影響未來股價的因素提供給模型,根據(jù)前向船舶方向,獲取輸出層的輸出值,接著根據(jù)反向傳播方向,按照輸出層的實際和預(yù)期輸出的誤差,調(diào)整不同節(jié)點彼此間的連接權(quán)值,通過這種方式不斷地降低誤差。最終確定的權(quán)值,即為神經(jīng)網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)獲取的正的內(nèi)部表示。通過完成訓(xùn)練的后的BP網(wǎng)絡(luò)模型預(yù)測股價,為投資者選股提供了依據(jù)和方向,幫助其實現(xiàn)更高的投資收益,將投資風險出現(xiàn)的可能性控制在更低范圍內(nèi)。本章小結(jié)在這一章中,筆者重點闡述了股票二級市場的特點,梳理了現(xiàn)有的方法和模式,對數(shù)據(jù)挖掘領(lǐng)域的常用技術(shù)進行介紹,從概念、特征、功能等方面著手,對聚類算法、分類算法、神經(jīng)網(wǎng)絡(luò)進行了全面的說明。歸納這些理論成果,目的是為后續(xù)的研究工作奠定扎實的理論基礎(chǔ),提高文章結(jié)論的正確性和說服力,證明系統(tǒng)的操作性和有效性。

智能數(shù)據(jù)挖掘選股算法如今,大部分的投資者都無法從投資市場獲取穩(wěn)定、可觀的收益,為此,在這一章中,筆者從目前應(yīng)用比較廣泛的股票預(yù)測算法方面著手,對每天形成的交易數(shù)據(jù)展開挖掘分析,提出全新的多聚類方法,對上漲數(shù)據(jù)進行多層聚類,得到具有上漲共性的數(shù)據(jù),從中挖掘出決定股票上漲的核心因素,創(chuàng)建預(yù)期上漲的數(shù)據(jù)分類模型。然后,通過有效的分類算法完成股票數(shù)據(jù)的訓(xùn)練,創(chuàng)建能夠?qū)Χ唐谑找媲闆r進行判斷的分類模型,在聚類分析的基礎(chǔ)上提出智能選股算法。現(xiàn)狀分析如今在國外,量化選股智能挖掘方法的應(yīng)用不斷普及,這主要是因為它在成本和預(yù)測準確性方面都具有一定的優(yōu)勢。隨著我國股權(quán)分置改革的結(jié)束、市場規(guī)模的擴張以及數(shù)據(jù)挖掘技術(shù)不斷走向成熟,量化選股方法有了充分的條件可以施展,投資者也對其提出了要求。以基金、保險資產(chǎn)、、等為代表的機構(gòu)投資者非常青睞于量化選股方法,很多投資經(jīng)理也在基本面投資方面探索如何更好地發(fā)揮數(shù)量化策略的作用和價值。如今,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用已經(jīng)滲透到量化選股、資產(chǎn)配置、組合優(yōu)化、交易執(zhí)行、風險控制、績效評估等環(huán)節(jié)中。股票資產(chǎn)定價的技術(shù)不斷更新和發(fā)展。表STYLEREF1\s3SEQ表\*ARABIC\s11股票資產(chǎn)定價的技術(shù)發(fā)展表我們可以看到金融投資發(fā)展到現(xiàn)在,我們將投資思想通過具體指標、參數(shù)的設(shè)計體現(xiàn)到具體的模型中,讓模型對市場進行不帶任何情緒的跟蹤。基本概念在投資者進行證券分析的過程中,往往都需要對宏觀經(jīng)濟和行業(yè)進行分析。宏觀經(jīng)濟走勢是影響上市企業(yè)業(yè)績的重要因素,當然也受到行業(yè)態(tài)勢的影響。在各個經(jīng)濟周期階段中,每個行業(yè)因為其背景、結(jié)構(gòu)、變化規(guī)律、生命周期的差異,其盈利能力、經(jīng)營穩(wěn)定性往往也是不一致的。在特定的經(jīng)濟環(huán)境下,每個行業(yè)的具體表現(xiàn)、不同行業(yè)彼此間的關(guān)系,這些問題都受到了投資者的廣泛關(guān)注。數(shù)據(jù)挖掘的誕生和應(yīng)用,讓投資者看到了新的希望,它可以從海量的數(shù)據(jù)里面歸納出有效的并且能夠被理解的模式。聚類分析就是在金融領(lǐng)域應(yīng)用十分普及的數(shù)據(jù)挖掘方法之一,在使用這種方法時,不需要提前對類進行定義,也不需要帶類標號的訓(xùn)練實例,以距離或相似性為依據(jù),將對象分為不同的集合,使分割后類內(nèi)距離最小、類間距離最大。聚類方法在國外早已被應(yīng)用到證券投資分析領(lǐng)域中,其在分析不同行業(yè)收益率關(guān)系、區(qū)分基金投資風格等方面發(fā)揮著重要的作用。算法研究行業(yè)收益率序列聚類分析方法將行業(yè)收益、風險等因素全部納入進來,可以在特定宏觀經(jīng)濟背景下,以各個行業(yè)的表現(xiàn)為依據(jù),對其展開合理的分類。在經(jīng)濟周期運行的過程中,各個行業(yè)在業(yè)績方面的表現(xiàn)往往都是不一致的;經(jīng)濟事件的發(fā)生也會給行業(yè)帶來影響。把聚類分析方法和排序方法結(jié)合在一起使用,不但能夠揭示出不同經(jīng)濟發(fā)展階段不同行業(yè)業(yè)績的相似性,并且能夠反映出各個行業(yè)回報率彼此間的關(guān)系,這對投資者而言都是非常重要的參考信息。圖STYLEREF1\s3SEQ圖\*ARABIC\s11行業(yè)收益率序列聚類分析方法在確定了收益率比較高的行業(yè)后,對其股票基本面數(shù)據(jù)展開聚類分析,設(shè)置合理的參數(shù),得到各種聚類群體的特性,最終找到所有高收益股票的共性,具體的聚類模型為:圖STYLEREF1\s3SEQ圖\*ARABIC\s12分類數(shù)據(jù)產(chǎn)生過程通過上圖所示的模型,對上漲數(shù)據(jù)展開聚類分析,并將其分為不同的聚類群體,同時基于非上漲數(shù)據(jù)對交易數(shù)據(jù)進行劃分,獲取分類判別所需要的分類數(shù)據(jù)。整個過程詳見下圖:圖STYLEREF1\s3SEQ圖\*ARABIC\s13分類模型的建立得到相應(yīng)的分類數(shù)據(jù)后,然后完成分類數(shù)據(jù)的劃分,獲取訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)集合,此時就能夠通過訓(xùn)練數(shù)據(jù)進行訓(xùn)練,確定分類模型。具體過程為:在進行模型評價時,考慮到類0、非0的數(shù)據(jù)分別對應(yīng)的是非上漲的股票交易數(shù)據(jù)和上漲數(shù)據(jù),所以雖然模型評價能夠提供多種類標號,然而最后的結(jié)構(gòu)是,將類1、類2、……、類k的結(jié)果都當做上漲數(shù)據(jù)。圖STYLEREF1\s3SEQ圖\*ARABIC\s14多重分類模型建立在為投資者股票投資決策提供咨詢時,選股系統(tǒng)不需要推薦全部預(yù)測結(jié)果為上漲的股票,而是推薦上漲可能性最高的股票,所以,為了實現(xiàn)更為精確的選股結(jié)果,筆者選擇下圖中的方法展開組合分類判別。假定k-means算法里面k的值是2,得到上漲聚類數(shù)量是2的聚類模型,同時利用非上漲數(shù)據(jù)構(gòu)成的類0數(shù)據(jù),此時就有了3類分類數(shù)據(jù),通過分類算法展開模型訓(xùn)練,獲取3類分類模型(2類指的是上漲類別),然后反復(fù)循環(huán),得到情況下的分類模型,將所有的分類模型組合在一起,得到多重分類模型。在預(yù)測交易數(shù)據(jù)時,利用該模型展開分析,通過計算得到不同分類模型的上漲可能性,計算其總和,獲取分類判別的結(jié)果,以這一結(jié)果為依據(jù),按照從高到低的順序完成股票的排序,將精度超過設(shè)定閾值或排名前r位的股票推薦給投資者。基于這一思想,筆者創(chuàng)建了基于聚類分析的選股算法,這一算法屬于多聚類分析方法,能夠?qū)ι蠞q數(shù)據(jù)展開分析,然后通過決策樹方法完成股票數(shù)據(jù)的訓(xùn)練,創(chuàng)建具有短期收益判斷能力的模型,通過測試數(shù)據(jù)對該方法和模型的有效性展開檢驗。多聚類分析股票數(shù)據(jù)在研究聚類分析方法選股之前,首先要明確如下幾個概念:概念1基本屬性:通過wind軟件采集的基本的股票交易數(shù)據(jù),用A表示。交易數(shù)據(jù)的主要基本屬性有昨日收盤價、開盤價、最高/最低價、成交量、日均價。其中,昨日收盤價指的是上一個交易日最終的一筆交易的成交價;開盤價指的是這一天股票第一筆交易的成交價;最高價指的是一天內(nèi)該股票所有交易中最高的成交價;最低價指的是一天內(nèi)該股票所有交易中最低的成交價、成交量指的是一天內(nèi)該股票所有的成交日該股票所有的成交手數(shù);成交額指的是一天內(nèi)全部成交的總額;日均價指的是一天內(nèi)該股票的交易平均價,不過股票交易數(shù)據(jù)不會提供日均價。概念2一級分析指標:按照有效的數(shù)理統(tǒng)計方法,通過復(fù)雜的計算公式,基于基本屬性數(shù)據(jù)用于分析股票趨向、買賣等的分析方法,用I表示。主要有乖離率指標、布林線指標、指標、順勢指標、中間意愿指標CR、平行線差指標DMA、動向指標、隨機指標(、、)、、麥克指標、動量指標、能量潮指標、心理線指標、相對強弱指標、停損指標等。概念3二級分析指標:利用科學(xué)的數(shù)理統(tǒng)計方法,基于一級分析指標展開計算計算,用于分析相關(guān)一級分析指標的變動幅度,用IR表示。具體表示形式為:,這里面X代表一級指標的名稱。比如和一級指標對應(yīng)的二級分析指標為。概念4股票交易數(shù)據(jù)分析樣本空間定義為一個六元組,具體含義為:?T:代表樣本的交易時間集合;?S:代表樣本的交易股票代碼集合;:代表股票交易數(shù)據(jù)記錄中由rn個基本屬性數(shù)據(jù)形成的向量,代表股票交易的基本屬性數(shù)據(jù)。?:包含k個一級分析指標的向量。:包含k個二級分析指標的向量。其中為一級分析指標向量I_S中的第i個一級分析指標基礎(chǔ)上所得到的對應(yīng)二級分析指標。P:預(yù)期漲跌。是和該記錄對應(yīng)的股票在未來某一段時間的波動狀況。對于股票交易而言,如果時間段的設(shè)置太短,已有的交易數(shù)據(jù)包含了過多的感人數(shù)據(jù),否則就會使用戶進行長線投資,無法滿足用戶短線的需求,所以筆者在進行實驗時,將時間段設(shè)定成兩個工作日,也就是說特定股票未來兩個工作日后收盤價格的波動幅度進行預(yù)測,如果預(yù)測結(jié)果滿足規(guī)定要求,就有,如果預(yù)測結(jié)果不滿足規(guī)定要求,就有。概念5正例樣本,它指的是符合給定要求的樣本數(shù)據(jù),也就是P=I的樣本數(shù)據(jù)。多聚類方法描述本算法的執(zhí)行過程包括了四個環(huán)節(jié),即指標計算、聚類、分類和過程評估。第一個環(huán)節(jié),做指標的技術(shù),按照挖掘得到的結(jié)構(gòu)展開一、二級指標和P值分析,為后續(xù)的分析提供基礎(chǔ)數(shù)據(jù)。第二個環(huán)節(jié),對樣本數(shù)據(jù)進行聚類處理,得到分析數(shù)據(jù)集合S和測試數(shù)據(jù)集合T。前者的作用是進行模型分析,后者的作用是對模型的效果進行驗證。第三個環(huán)節(jié),多層聚類,通過特定的聚類算法,將k的值限定在范圍內(nèi),完成正例數(shù)據(jù)的聚類操作,得到聚類模型;第四個環(huán)節(jié),通過分類模型完成T的測試,得到測試結(jié)果,對這里面的前k類結(jié)構(gòu)數(shù)據(jù)展開分析,如果預(yù)測結(jié)果的精度滿足要求,停止算法的實施,否則就要對k執(zhí)行跳蚤操作,詳細來說就是用k+1取代k,然后回到第二環(huán)節(jié)繼續(xù)執(zhí)行。本章小結(jié)在這一章中,筆者圍繞投資者的選股獲利這一問題,基于當前的股票預(yù)測算法,將聚類和分類算法結(jié)合在一起,闡述算法的核心思想,提出全新的多聚類分析算法,對上漲數(shù)據(jù)進行多層聚類處理,得到具有上漲共性的數(shù)據(jù),從而挖掘出和股票上漲有關(guān)的各項因素,創(chuàng)建預(yù)期上漲的數(shù)據(jù)分類模型。對股票交易數(shù)據(jù)展開分析,找到其所包含的干擾數(shù)據(jù),創(chuàng)建并應(yīng)用參數(shù)評價機制,提高分類結(jié)果的準確性,同時利用分類算法完成股票數(shù)據(jù)的訓(xùn)練,創(chuàng)建能夠?qū)善倍唐谑找孢M行判斷的模型,提出基于聚類分析的智能選股方法。

算法模型驗證實驗方案算法設(shè)計需要逐步完成,設(shè)計的流程包括數(shù)據(jù)準備、聚類實現(xiàn)、結(jié)果分析并依據(jù)結(jié)果來進行優(yōu)化。數(shù)據(jù)準備本課題設(shè)計的算法,基本數(shù)據(jù)以中信銀行的實際收益結(jié)果為標準的。數(shù)據(jù)采集的時間段是從2007元旦截止2017年元旦,總共十年的數(shù)據(jù)內(nèi)容。采用周期為1到13個,持有周期采用同樣的頻率,分類個數(shù)為2到10個,隨機以11個不同起始點作為樣本。Matlab中聚類的實現(xiàn)為進行聚類分析準備了兩個工具:1、利用函數(shù)對原始數(shù)據(jù)進行聚類分析,通過這個工具能夠快速精確地實現(xiàn)對數(shù)據(jù)的分析。但是使用起來有一定的限制,不能自由修改參數(shù)。2、分步聚類:(1)用函數(shù)則能夠彌補上個方法的去點,滿足變量距離之間分析的需求,從而在內(nèi)部分析得到不同變量之間的聯(lián)系。(2)用用于連接變量;(3)用函數(shù)進行聚類。下邊詳細介紹兩種方法:?1、一次聚類?函數(shù)可以視為與的綜合,一般比較簡單。?調(diào)用格式:等價于2、分步聚類?(1)計算變量之間的相似性,可以利用計算舉證的相關(guān)值,而距離的計算則可以有多種選擇。在計算之前,需要利用zscore對其進行無量綱化。調(diào)用格式:?說明:X是矩陣,包括M個內(nèi)容,每個具體的樣唄包含N個屬性值。?取值為:;;;;;;;;;。生成一個行向量列表,這個值就代表了兩個樣本之間的距離,也能夠減小內(nèi)存。缺點是,使用起來操作十分復(fù)雜。為了簡化操作,便于表示,可以通過函數(shù)對矩陣進行優(yōu)化,而表標識第i個與第j個樣本的向量大小,處于對角線上的向量之間的距離為0。(2)用函數(shù)來產(chǎn)生聚類樹??調(diào)用格式:?說明:Y為函數(shù)返回的個元素的行向量,可取值:;;;;;;。所得結(jié)果Z為一個的矩陣,在該矩陣中,第一列與第二列的內(nèi)容是索引,索引對應(yīng)的內(nèi)容就是可以進行聚合處理的樣本。第三列的值則是樣本之間的距離大小。當超過M值之后,新加入的變量則用來標識。舉證Z中的數(shù)值是我們進行聚合的重要依據(jù),我們用聚類來表示其中的內(nèi)容,對應(yīng)的操作為:,所得結(jié)果為一個n型數(shù),最底層為采集的樣本,然后依次網(wǎng)上是聚合的結(jié)果。豎坐標是變量的距離。當然,在處理的時候,最底層的樣本所可以根據(jù)需求來進行更改的。參數(shù)n來實現(xiàn),。則表的情況,顯示所有節(jié)點。(3)函數(shù)??調(diào)用格式:?說明:根據(jù)函數(shù)的計算結(jié)果和設(shè)置的N值來創(chuàng)建分類。在本課題中,為了簡化操作,全部設(shè)置為默認值即可滿足需求。也就是:類間距離最短,歐氏距離。聚類結(jié)果采樣/持有周期對聚類結(jié)果的影響在進行算法設(shè)計的時候,還需要充分考慮的一個問題就是采樣/持有周期對聚類計算的結(jié)果。在研究這個問題的時候,我們采取控制變量法,固定8個分類,其它所有內(nèi)容都相同,滯后期等于0。表STYLEREF1\s4SEQ表\*ARABIC\s11不同采樣/持有周期對聚類結(jié)果的影響Alpha持有2345678910111213采樣485.7572.4364.692.3397.3124.3226.9243.9372.152.9-53.7-67.1-77.92319.8533.6115.9140.417.64.3178.1206.132.1-14.828.7453.33337.4226.1121.9-22.285.7125.6-38.6-26.10.896.6-1.1-56-128.64263172.756.7103.328.179.5-39-34-33100-12-23-125289.9105.174.2-70.2149.159.5-43-45-4670-13-45-346-23.423.58.289.7156.123.5-59-56-58-20-21-12-657124-7.9-8.9-69-65-68-34-32-66-788-53.4-82.825.4-33.2-62.2-15.8-73-71-74-60-45-76-89986.3-2.3-93.2-54.8-87.5-59-84-80-83-90-3-87-701021.4-17.8-51.450.2-86.5-79-97-90-93-99-32-89-10111-100.4-60.7-63.1-85.7-99.2-84-112.3-110-121-102-69-121-12112-51.1-49.3-97.2-66.3-104.2-108-120.8-120-123-121-78-90-1913-111.5-107.1-114.2-96.2-108.0-113-130.8-134-137-131-89-123-134從上表所列出的數(shù)據(jù),我們可以直觀地看出,對于金融機構(gòu)來說,在較短時間內(nèi),動量效應(yīng)要比長周期的效果明顯很多。這個結(jié)論與前文的討論不謀而合,這是我國股市所表現(xiàn)出的基本特征。短期動量,長期反轉(zhuǎn)的表現(xiàn)是行業(yè)經(jīng)濟能力與投資人投資行為綜合而表現(xiàn)出的結(jié)果?;谶@個結(jié)論,我們進一步研究了中行業(yè)層面的特征表現(xiàn)是否也是有規(guī)律的。所得結(jié)果詳見下表。表STYLEREF1\s4SEQ表\*ARABIC\s12不同采樣/持有周期對聚類結(jié)果的影響(反轉(zhuǎn)效應(yīng))Alpha持有2345678910111213采樣485.7572.4364.692.3397.3124.3226.9243.9372.152.9-53.7-67.1-77.92319.8533.6115.9140.417.64.3178.1206.132.1-14.828.7453.33337.4226.1121.9-22.285.7125.6-38.6-26.10.896.6-1.1-56-128.64263172.756.7103.328.198-67-23-267-12-6-85289.9105.174.2-70.2149.176-45-45-1045-23-34-126-23.423.58.289.7156.154-76-65-1223-41-50-237124-7.932-82-71-15-21-51-43-288-53.4-82.825.4-33.2-62.245-101-78-18-34-68-69-31986.3-2.3-93.2-54.8-87.5-12-111-82-21-54-78-80-541021.4-17.8-51.450.2-86.52-121-89-22-67-74-90-5611-100.4-60.7-63.1-85.7-99.232-127-121-67-89-90-102-6712-51.1-49.3-97.2-66.3-104.2-19-123

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論