版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據在證券行業(yè)中的應用興業(yè)證券股份有限公司
邱華勇2015年10月22日DRAGONBOATFESTIVAL邱華勇個人介紹公司職位:興業(yè)證券信息科技部高級經理項目經歷:2001-2003核心交易系統(tǒng)資金管理等程序開發(fā)2002-2007營業(yè)部CRM開發(fā)(支持敏捷功能開發(fā))2005-至今數據倉庫、大數據平臺規(guī)劃與建設個人微信曾獲獎項:行業(yè)科技進步獎二等獎(2009)分類項目獲行業(yè)專業(yè)評價(2011)公眾號服務內容:專家深度解析金融數據分析動向,實時更新數據指標,專業(yè)解答證券投資疑問.為客戶提供證券投資的貼身服務.金融大數據分析服務目錄認識大數據證券行業(yè)大數據應用場景興業(yè)證券大數據實踐交流與討論我認識的大數據數據探索時代已經來臨,緣何會有大數據,如何擁抱大數據.數據探索時代今天:數據密集型科學(理論、試驗和模擬的統(tǒng)一)過去幾十年:計算科學,模擬復雜現象過去幾百年:理論科學,牛頓定律,麥克斯維爾方程式之類幾千年前:試驗科學,描述自然現象.圖靈獎得主Jim
Gray在“科學的第四個范型
”,人類步入第四個階段,數據探索。數據密集型科學--案例生物工程----數字化模擬生物細胞
斯坦福教授及J.Craig
Venter研究所128個節(jié)點服務器集群+900份科學論文+1900次科學試驗的數據。海洋勘察----數據捕捉海洋活動不少國家發(fā)射了海洋監(jiān)視衛(wèi)星,用以發(fā)現和跟蹤海上軍用艦船,探測海洋的各種特性。采集數據:海浪高度、方向、海面風向、溫度、含鹽量等。運動科學----奧運選手借助尖端設備提高成績案例:使用運動員的睡眠數據來提高競賽表現。如;發(fā)現自行車運動的最強勁表現和深度睡眠的長度有關。人們日常工作、生活中離不開電子設備,且通過電子資料的形式被大量記錄PC、智能手機、各類監(jiān)視攝像頭、各類傳感器等設備產生大量的圖像、視頻、音頻、地理位置等數據Google公司通過大規(guī)模集群和MapReduce軟件,每月處理的數據量超過400PB;百度每天大約要處理幾十PB數據;淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數千萬筆,產生約20TB數據大數據定義7一般意義上,大數據是指所涉及的資料量規(guī)模非常巨大,已經無
法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策的有用信息,此時這些資料達到大
數據的級別。大數據特征Volume數量數據體量大(據估計2015年全球信息量8萬億GB)對傳統(tǒng)數據存儲與處理能力提出巨大挑戰(zhàn)速度快Variety樣性大
多ty
Value價值大數據產生/更新頻率高,高度實時Veloci數據形式、類型多(結構化、
半結構、非結構,文本、視頻、圖像、語音、位置信息……),非關系型數據庫等得以快速發(fā)
展,日趨成熟?;奶幚硪?,催生如流式處理、實時計算、內存計算等技術。數據價值密度低,但蘊含總體價值總量大。大數據讓海量數據產生價值,讓數據成為寶貴的資產。大數據大數據改變思維方式采樣的目的在于用最少的數據得到最多的信息,但在樣本分析過程中不可避免會有一部分信息
丟失,在可以獲得海量數據的情況下,對全體
數據進行挖掘和分析可以獲得更多信息。過去,數據獲取難,在分析處理數據時傾向于使用抽樣數據并通過不斷改進方法以提升樣本的精確性,從而對整體數據進行推算,并竭力挖掘數據間的因果關系現在,數據獲取容易,數據處理思維方式正逐步向全體性、混沌性以及相關性演變過去
現在只有5%的數據是結構化且能適用于傳統(tǒng)數據化的,接受不精確性能使更多的非結構化數據得到利用。建設在相關關系分析法基礎上的預測是大數據的核心。抽樣數據精確數據因果關系相關關系混雜數據全體數據9金融行業(yè)案例美國知名征信所Equifax的大數據盈利之道財務數據涵蓋:1)所有美國成年人3)全球5億消費者2)16個國家公民4)8100萬企業(yè)家風險管理欺詐檢測市場營銷······交叉分析索引處理10建模大數據改變數據處理技術由于大數據本身的特性,使用傳統(tǒng)的數據分析技術和工具已經無法在合理的時間內實現數據處理和分析,大數據分析通過分布式存儲數據庫、分布式并行處理技術、流處理技術、大規(guī)模的數據分析與可視化平臺等全新技術的支持。監(jiān)控工具Mahout數據挖掘工具MapReduce
分布式計算框架Storm流式處理框架Pig數據流處理語言Hive
sql化的mapreduceNOSQL數據庫(HBase或Mongodb等)實時、分布式、高維數據庫HDFS分布式文件系統(tǒng)大數據分析的主流整體框架11大數據技術的領域支撐大數據的技術云計算技術分布式數據處理技術,如:Hadoop非結構化數據庫,如:NoSQL流數據處理(實時數據處理)復雜事件處理機器學習、統(tǒng)計分析自然語言處理……12技術平臺案例分享某農商行采用
Hadoop架構進行大數據平臺建設,一起來學習下吧大數據平臺系統(tǒng)架構圖14集群物理架構ETL和上層應用:(AppNode)>=4個應用節(jié)點考慮到集群規(guī)劃容量在600TB+,
并且未來還會增長,以平均30TB/節(jié)點算:(DataNode)>=20個計算節(jié)點為了保證集群高可用(HA):(NameNode)
>=2個管理節(jié)點15詳細實施方案-結構化數據接入關系型結構化數據16針對HDS,ODS,EDW等關系型結構化數據的批量導入和導出支持導入全量/增量數據到HDFS/Hive/Hbase支持導出Hive/HBase的數據到關系型數據庫對于實時性要求高的場景,可借助HBase達到實時增量數據同步詳細實施方案-結構化數據處理結構化數據SQL勾兌、統(tǒng)計、匯總等為目的的密集計算類型HiveHBaseHDFS主鍵檢索、緯度檢索等目的的隨機查找類型A:面向匯總統(tǒng)計和勾兌的結構化數據ETL過程進行格式轉換、數據標準化、數據清洗選擇Parquet/Orcfile等性能表現優(yōu)異的列式存儲針對數據查詢的特點,進行數據分區(qū)、分桶的優(yōu)化設置B:面向隨機查詢的結構化數據ETL過程進行格式轉換、數據標準化、數據清洗進行必要的數據關聯,如查找字段、屬性字段等設計合適的HBaseschema,建立必要的二級索引AB17詳細實施方案-非結構化數據接入非結構化數據FlumeKafkaHDFSHBaseHiveFTP、JavaAPI實時日志導入18批量日志或網頁導入大數據平臺消息隊列日志采集對于實時性有要求的場景,通過Flume和Kafka搭建日志采集系統(tǒng),實時導入日志數據到大數據平臺對于非實時性的日志或網頁等數據,采取FTP或JavaAPI的形式上傳到大數據平臺詳細實施方案-非結構化數據處理非結構化數據統(tǒng)計、匯總計算為主的密集計算類型HiveElasticSearchHDFS數據搜索、模糊檢索為主的搜索類型A:面向統(tǒng)計、匯總的非結構化數據:針對數據格式進行轉換,盡可能格式化數據,以便能夠關聯為Hive表進行數據統(tǒng)計對于不能轉化為結構化數據的,應對常用的聚合列數據進行聚簇處理,提高MapReduce性能B:面向搜索、模糊匹配的非結構化數據:針對半結構化的日志數據,應對其進行數據的格式化,使用類似
JSON的格式進行存儲整合開源搜索引擎如ElasticSearch,方便后續(xù)搭建數據檢索服務AB19詳細實施方案-數據存儲合理的目錄結構規(guī)劃??砂凑找欢ㄒ?guī)則構建目錄結構,如網站類型、日期、時間等進行分級目錄存儲可以對小文件進行合并存儲,并將索引數據存儲于HBase以便查詢,或者使用HDFS
Archive方案進行歸檔存儲數據應進行壓縮,文本數據的壓縮比相對較高HDFSHive盡可能使用Parquet格式進行存儲,以便在Hive/Impala/SparkSQL等多種查詢引擎下都表現出優(yōu)異的性能按日期等查詢字段進行分區(qū)設置,減少查詢數據的掃描按常用的聚合字段如ID等進行聚簇和分桶設置,該設置能夠使得掃描更加均勻,能夠優(yōu)化Partition
Join,支持抽樣查詢等HBase開啟HBase數據壓縮(如LZO壓縮算法),能夠大量減少HBase的數據占用空間合理的主鍵設定,避免冗余的主鍵結構。合理的主鍵對數據查詢速度有著決定性的影響HFile中塊大小的設定。根據讀請求的類型來區(qū)分,如果是順序讀居多,應采用較大的設定。如果是隨機讀居多,應采用較小的設定詳細實施方案-數據工作流Shell腳本Hive
SQLOozie工作流調度成功開始失敗主流的大數據平臺都會采用Oozie工作流調度引擎,通過Oozie提供的工作流和協調器等功能,實現基于時間驅動和數據驅動的數據作業(yè)流程:數據傳輸作業(yè)–主要基于Sqoop,FTP,Java來構建數據傳輸工作作業(yè)數據處理作業(yè)–主要基于Hive、Shell、Java、MapReduce、HDFS等來構建數據處理作業(yè)數據加載作業(yè)–主要創(chuàng)建面向Hive、HBase的數據加載作業(yè)數據歸檔作業(yè)–主要基于MapReduce、HDFS
tar等來構建歸檔作業(yè)詳細實施方案-數據接口大數據平臺各組件自身會提供各類接口,如HDFS的JavaAPI,Hive的JDBC,HBase的Shell和Thrift等。實施階段我們也會開發(fā)更多且更為靈活的接口,以REST為主,部分總結如下:文件管理接口包含文件/目錄的創(chuàng)建、刪除、移動、復制、權限修改等接口包含文件上傳、下載、回收等接口元數據管理接口包含Hive數據庫建立、查看、列舉表、刪除接口包含Hive表的建立、查看、刪除、修改、樣本數據、導出數據等接口包含HBase表的建立、查看、刪除等接口工作流管理接口包含新建、修改、刪除工作流等接口包含提交、查看狀態(tài)、停止、重啟工作流任務等接口Hive接口包含Hive提交查詢、獲取結果、取消查詢、解釋語句等接口HBase接口提供HBase查詢、修改等接口算法名稱算法來源Logistic
Regression邏輯回歸Spark
MLLIB\MahoutNaive
Bayes貝葉斯Spark
MLLIB\MahoutSVM支持向量機Spark
MLLIB\MahoutHMM時間序列算法MahoutK-Means聚類算法Spark
MLLIB\MahoutLinear
Regression線性回歸Spark
MLLIB\MahoutCollaborative
Filtering協同過濾Spark
MLLIB\MahoutGeneralized
Linear
Models廣義線性模型Spark
MLLIB\MahoutDecision
Tree決策樹(隨機森林決策樹)Spark
MLLIB\Mahout社團發(fā)現算法近鄰傳播AP自有算法FastUnfold算法自有算法關系發(fā)現算子Spark
MLLIB\Mahout軌跡停留點算法自有算法軌跡相似性算法Mahout軌跡匹配算法Mahout聚類算法DBScan自有算法ALS推薦算法支持增量計算Spark
MLLIB\Mahout詳細實施方案-數據挖掘算法庫大數據平臺的數據挖掘算法庫提供了大量的數據挖掘算法,不僅包含了SparkMlLib和mahout中的并行數據挖掘算法,還開發(fā)了大量基于Spark的并行化算法。允許用戶可以直接調用
SparkMllib和mahout庫中的并行算法,也可以用算法封裝的函數調用平臺開發(fā)的數據挖掘算法。提供多種模型和算法組件,方便建模。目前平臺支持的常用數據挖掘算法如右表所示:詳細實施方案-資源管理基于YARN的資源管理ResourceManager中的調度器負責資源的分配。NodeManager則負責資源的供給和隔離?;赮ARN的資源隔離內存資源隔離,保證任務的進程樹使用的總物理內存或者總虛擬內存量不超過預先設置值。CPU隔離,限制任務使用的總的虛擬CPU個數。詳細實施方案-安全控制YARN資源和安全控制節(jié)點1節(jié)點2…LDAP用戶/用戶組管理節(jié)點nKerberos服務大數據平臺應用程序基于YARN實現隊列訪問控制列表基于YARN實現應用程序訪問控制列表基于YARN實現服務訪問控制列表基于Kerberos協議實現機器和服務之間的安全認證未通過認證的用戶或機器無法訪問集群資源基于角色權限模型管理應用程序和非系統(tǒng)的用戶在應用邏輯層實現權限管理,如某個hdfs目錄,hive表等的訪問控制應用剖析-歷史數據查詢HDFSHiveSpark/Impala實時查詢查詢格式固定隨機查詢查詢格式靈活批量查詢時效性低HBase321①ETL過程,從HDS,ODS等歷史業(yè)務系統(tǒng)抽取數據,源數據保存至
HDFS和Hive②數據勾兌、清洗過程,基于Hive和MapReduce任務加工和關聯生成查詢匯總表等③基于業(yè)務場景設計HBase的Schema并把Hive表通過bulkload的形式導入HBase供實時查詢26應用剖析-日志查詢分析其他日志運維日志網銀日志日志數據源查詢和建模引擎實時日志導入FLUME+KafkaHBase建模平臺日志查詢分析批量日志導入FTP
、JavaAPIElastiSearch日志搜索模糊匹配日志統(tǒng)計報表系統(tǒng)日志挖掘結果可視化12327①基于日志數據建立分析規(guī)則和挖掘模型,同時把結果保存在Base中。②對于日志數據建立MapReduce任務,統(tǒng)計并匯總相關指標,結果保存于Hbase。③對于特定有明細查看需求的日志建立索引,供用戶進行關鍵詞搜索和模糊匹配。視頻欣賞其他材料\能源行業(yè):IBM大數據助Vestas
將氣候轉化為資本_
標清.f
l
v目錄認識大數據證券行業(yè)大數據應用場景興業(yè)證券大數據實踐交流與討論證券行業(yè)主要參與方證券市場格局交易所證券/期貨公司登記結算公司上市公司監(jiān)
管
機
構其
他
市
場
服
務
機
構其他發(fā)行人個人投資者機構投資者資金存管銀行30證券行業(yè)大數據應用成功案例32國外應用案例單位產品內容DerwentCapitalMarkets公司社交媒體對沖基金將Twitter作為觀察大眾情緒的窗口,量化投資者情緒,獲得超額收益納斯達克交易所市場回放服務基于云平臺的數據服務,供廣大用戶回放和分析證券市場活動紐約證券交易所Global
IndexFeed高速實時指數行情,用于指數和ETF產品的估值計算德意志交易集團MNI
Bullets提供分鐘級的、全球外匯、固定收益和信貸市場的市場簡報,包括交易量、訂單量級和市場情況The
StockSonar網站情感分析利用大數據檢索、讀取和分析來自文章、博客、新聞稿公共信息等廣泛的在線資源,為用戶提供第三方實時美股文本情感分析服務33國內應用案例單位產品內容光大證券中文云系統(tǒng)以股票論壇、個股新聞、研究報告作為數據源,利用大數據挖掘技術進行證券分析的智能文本分析系統(tǒng)南方基金、新浪財經、深圳證券信息公司南方-新浪大數據100指數在傳統(tǒng)指數編制方法中加入大數據因子計算綜合得分選取初始樣本股S網站市場情緒指數基于每天收集的20多萬條實名微博,利用大數據挖掘技術識別和量化文本中的看漲和看跌情緒百度百度股市通基于百度每日實時抓取的數百萬新聞資訊和數億
次的股票、政經相關搜索大數據,通過技術建模、人工智能,幫助用戶快速獲知全網關注的投資熱點應用案例南方-新浪大數據系列指數基于大數編制的指據與互聯網挖掘技術數個股熱度得分個股新聞得分個股微博得分市盈率凈資產收益率收入同比增長率利潤同比增長率股票換手率波動率價格變化率34應用案例光大證券“中文云”系統(tǒng)以證券分析為目的的智能文本分析系統(tǒng)文本挖掘Lucene檢索框架個股新聞股票論壇研究報告35交易所應用場景交易所證券交易所市場運行的“主引擎”,匯聚市場信息完整高效的數據交換體系證券交易所大數據信息產品交易數據交易所關聯數據外部數據市場情緒分析市場數據分析新聞資訊產品大數據云服務平臺宏觀信息匯聚互聯網文本分析類產品37交易所應用場景(例)信息化產品研發(fā)利用交易所特有高頻數據,開發(fā)專有信息產品結合交易所自有數據以及第三方數據,建立統(tǒng)一信息收集、整理和發(fā)布渠道交易數據持倉數據自有資訊統(tǒng)計指標類產品實時市場情緒實時買賣方力量對比投資者收益分布第三方資訊商數據大數據分析國家機構發(fā)布數據新聞資訊類產品機器可讀新聞市場行情38交易所應用場景滿足市場對信息產品的需求利用大數據技術研發(fā)信息產品滿足市場需求激發(fā)大數據信息產品需求投資分析39風險管理自動化交易事件交易宏觀產業(yè)、公司信息、市場分析、情感傾向證券公司應用場景證券公司大數據積累了海量數據寶藏,更多種類數據急劇增長,數據價值尚待挖掘已有數據41快速增長的數據場景一:了解客戶,認識客戶了解客戶,認識客戶(KYC)應用于客戶全生命周期管理:客戶潛在價值挖掘適當性管理客戶全景圖精準營銷關鍵時刻服務(
MOT
)……42場景一:了解客戶,認識客戶(二)場景一:了解客戶,認識客戶(KYC)潛在客戶挖掘
客戶潛在價值挖掘通過大量的行為數據分析
進一步了解客戶的潛在需求通過滿足客戶的潛在需求
提升客戶的價值量43場景一:了解客戶,認識客戶(三)產品偏好時機偏好盈利能力風險偏好客戶分類場景一:了解客戶,認識客戶(KYC)客戶適當性管理主觀數據客觀數據資產規(guī)模操作風格分析邏輯更明確分析依據更客觀分析維度更多元分析方法更先進分析過程更動態(tài)訪談測評問卷44場景一:了解客戶,認識客戶(四)場景一:了解客戶,認識客戶(KYC)精準營銷45場景二:證券市場量化研究場景二:證券市場量化研究量化投資決策(市場預測)投資服務(關鍵時刻服務)投資者情緒指數宏觀數據行業(yè)數據公司數據市場行情研究報告策略數據自媒體數據網絡社區(qū)工具/算法優(yōu)化投資組合應用投資時機海量數據挖掘復雜事件處理投資策略模型46數據源場景三:全面風險管理體系場景三:全面風險管理體系47場景四:信息安全管理場景四:信息安全管理48目錄認識大數據證券行業(yè)大數據應用場景興業(yè)證券大數據實踐交流與討論50數據系統(tǒng)應用發(fā)展歷程2013年-至今,大數據技術研究、POC測試、生產應用2011年-至今,基于大數據分析和復雜事件處理的金融信息服務平臺20010年-2013年,金融量化研究及知識管理平臺,科技獎三等獎2009年-2011年,適當性管理中的客戶分類方法創(chuàng)新,通過行業(yè)專業(yè)評價2009年12月,“客戶綜合分析系統(tǒng)”榮獲行業(yè)科技獎”二等獎2009年6月,二期成果通過由福建省信息產業(yè)廳組織的科技成果鑒定;2009年1月開始,客戶精準營銷活動、流失挽留、稽核審計等應用;2008年02月-2008年12月,攜手吉貝克進行數據倉庫二期工程建設,上線應用;2002年4月-2008年,推廣應用效果顯著;福建省科技廳成果鑒定(02-08);2000年11月-2001年7月,Sybase公司合作一期工程建設數據倉庫一期工程;大數據平臺規(guī)劃行業(yè)、股票等金融量化指標庫和策略庫,通過互聯網媒渠道為客戶提供服務。階段一2015-2016年:在POC測試基礎上構建滿足海量客戶級訪問的大數據平臺;加強校企合作,在金融大數據投資分析服務方面取2017年-2018年:大數據基礎平臺擴容;繼續(xù)完善市場、行業(yè)、股票等金融量化指標庫得初步進展;初步建立市場、
和策略庫,達到能夠實現流量變現及收費的服務質量標準。階段二2019年-2020年:根據市場環(huán)境變化及運營需要,持續(xù)進行大數據采集及模型開發(fā);加強用戶分析,協助營銷部門及時調整產品推薦策略,加快大數據價值變現速度。階段三建設目標:建立基于分布式計算、支持海量用戶訪問的大數據處理平臺。通過互聯網輿情數據采集與建模分析,為公司及客戶提供有價值的服務內容。實現用戶分析及精準營銷。基于大數據分析和復雜事件處理的金融信息服務平臺第1
章一、項目概況大數據技術等支持服務創(chuàng)新,能夠更好的實現“以客戶為中心”的服務模式運用新技術創(chuàng)新金融信息服務,是催生金融新業(yè)態(tài)、新服務的重要手段數據是企業(yè)核心資產,數據洞察力成為金融企業(yè)核心競爭力金融信息服務數據洞察創(chuàng)新服務創(chuàng)新技術53一、項目概況金融信息服務平臺54信息發(fā)布時間不確定、渠道多樣化、數量巨大傳統(tǒng)工作模式效率低下人工篩選難以獲取有價值的信息傳統(tǒng)服務缺乏關聯性分析個性化信息服務的需要機構輿情監(jiān)測的需要一、項目概況大數據技術復雜事件處理技術實現多源異構金融數據的獲取、清洗、分析及應用55搭建實時復雜事件引擎構建個性化服務模型一、項目概況56二、關鍵技術多源異構金融數據的獲取與清洗多通道主動采集網頁統(tǒng)一抽取數據標準化多源異構金融數據可定制采集增量式采集無縫擴展57淺層語義統(tǒng)一抽取多記錄網頁抽取長文本網頁抽取XML統(tǒng)一表示定義規(guī)范與語義二、關鍵技術多源異構金融數據的分析與應用金融數據提升數據價值58網絡觀點分析金融領域特征異構圖網絡金融應用用戶觀點用戶行為二、關鍵技術基于復雜事件處理技術,構建實時個性化推薦引擎復雜事件處理技術實時流數據分析個性化服務實時流事件關聯59多輸入多輸出二、關鍵技術基于SOA理念,構建金融信息服務發(fā)布平臺客戶應用員工操作PC終端投顧平臺移動終端中臺網上商城機構CRM研究平臺秉承SOA理念與公司規(guī)劃,通過企業(yè)服務總線與公司各信息系統(tǒng)整合在一起經營管理平臺60三、項目特色金融信息服務金融文本量化準確全網采集,數據全面實時處理,縮短響應周期差異化服務新模式,提升服務預測分析模型,提升數據價值利用開源技術,項目自主可控61四、應用情況服務內容證券投資者證券從業(yè)者證券公司基礎資訊個性化資訊關注股通用量化資訊行為提示資訊推薦持倉股行情預警62四、應用情況_舉例應用一:投資服務63四、應用情況_舉例應用二:資訊服務64四、應用情況_舉例應用三:互聯網信息服務65金融量化研究及知識管理平臺第2
章行業(yè)研究服務的發(fā)展行業(yè)背景基本面研究著眼于政策,經營狀況判斷未來業(yè)績服務對象為機構投資者股評:技術面分析為主無差別資訊服務通道服務綜合研究的特點方向:不再局限于上市公司,更著眼于宏觀、行業(yè)、理財產品、投資策略、風險分析、全球市場等金融行業(yè)各個領域。方法:由原來研究員經驗判斷為主發(fā)展到定性與定量相結合,邏輯與數據相結合。成果:面向機構客戶、私人客戶、產業(yè)投資者等對象,實現為證券行業(yè)各條業(yè)務線提供全方位專業(yè)研究支持。營銷服務財富管理67項目目標如何實現海量數據的統(tǒng)一管理?如何解決研究員和投資顧問不同的資訊需求?如何使研究方法得以沉淀、繼承和延續(xù)?如何把研究成果轉化為專業(yè)服務?面臨的問題項目的目標68資訊終端網站數據數據支持全文檢索模型管理研究方法管理研究成果管理資訊產品管理數據源策略交易投顧工作平臺網上交易終端手機終端網上商城研究管理呼叫中心投資管理興業(yè)證券解決方案企業(yè)級金融數據中心第三方數據…量化研究知識管理集證券量化研究和知識管理于一體的專業(yè)研究服務支撐平臺其他系統(tǒng)數據及應用支撐清洗校驗分類69基于大數據應用的全文檢索引擎,通過智能分詞技術實現搜搜索的精準,高效、靈活。結合金融行業(yè)特點,由專業(yè)人員收集、整理的金融詞庫,使應用更貼近金融行業(yè)各類業(yè)務。語義分析技術及專業(yè)金融詞庫的應用建設了企業(yè)級研究知識積累體系,實現研究過程管理以及研究方法沉淀。解決了研究員流動對研究實力及研究服務延續(xù)性帶來的影響。將各類研究模型、金融數據、研究底稿進行統(tǒng)一管理,實現研究報告貫穿。對研究方法和研究模型的統(tǒng)一知識管理
集成了各類采集解析工具,實現各功能模塊的松耦合;同時應用在線電子表格工具優(yōu)化采集過程。整合各類金融數據源數據解析技術,實現各類數據源、采集任務的集成。采集技術優(yōu)化整合將各類結構化和非結構化數據進行了梳理、整合、分類形成面向證券業(yè)務應用的數據庫,并以此提供數據支撐服務。基于SOA架構,數據中心向各類應用系統(tǒng)提供大量的、以業(yè)務應用為單元的數據服務。面向業(yè)務的金融數據支撐服務把研究成果及時有效地推向客戶服務業(yè)務線,以此解決行業(yè)普遍存在的研究與客戶服務協作不暢的問題?;诠窘y(tǒng)一的企業(yè)服務總線,任何應用系統(tǒng)都可以方便高效地訂閱各類金融資訊服務。企業(yè)級專業(yè)服務協作架構項目創(chuàng)新點70關鍵技術4712351關鍵技術多數據源自動解析及驗證技術金融行業(yè)垂直語義分析技術海量數據處理技術統(tǒng)一的模型管理技術非結構化數據自動抽取技術IT系統(tǒng)金融量化研究及知識管理平臺專業(yè)研究各業(yè)務線證券研究人員機構服務客戶服務個人理財機構客戶私人客戶研究服務研究報告投資組合證券產品研究熱點分析
股票池投資策略行業(yè)分析經營分析委托課題資訊產品咨詢服務理財規(guī)劃投資建議全流程信息化支撐:豐富的功能應用及過程管理整體業(yè)務架構數據及量化工具知識管理72工具ESB客戶經理投資顧問運維分析產品經理合規(guī)風控專員分析師系統(tǒng)管理員市場營銷專員應用系統(tǒng)研究分析支持統(tǒng)一搜索知識庫金融數據中心數集成數據采集管理數據源系統(tǒng)架構73整合目前分散的不同數據源建設具有興業(yè)證券特色的金融數據中心發(fā)布標準的數據服務接口為不同業(yè)務提供數據支持第三方數據終端第三方數據庫行業(yè)網站公告網站各類媒體券商研究員整理基礎數據庫Internet終端Email自定義數據源結構化數據整合非結構化數據緩沖非結構化數據抽取及校驗上市公司資訊行情數據行業(yè)數據宏觀數據策略數據中觀數據研究報告金融數據中心數據模型研究報告股票池投資組合資訊產品數據模型投資建議理財建議各類產品數據采集模塊74金融數據中心模塊行業(yè)特色的海量數據管理采集并整合各類數據源,形成經分類規(guī)整的金融數據中心。歷史數據起于A股發(fā)行日,總數據量達10TB。75據應用的探索,本系統(tǒng)采用了智能分詞算法進行全文檢索近四萬條專業(yè)金融詞匯所構建的專業(yè)金融詞庫文檔分類算法為資訊報告分類提供了新的方向。證券行業(yè)內首次應用,并取得顯著的效果統(tǒng)一搜索模塊檢索應用信息控制資源整合統(tǒng)一檢索知識門戶與關聯系統(tǒng)進行整合不同資源的權限控制新聞資訊研究報告內部文檔市場公告公司知識庫金融數據76研究方法管理研究過程管理研究模型管理研究成果管理研究成果管理研究模型管理研究過程管理研究流程系統(tǒng)化研究步驟標準化考核結果數量化估值模型計算基金評價模型計算研究數據管理研究報告管理研究底稿管理委托課題管理研究分析支持模塊77傳統(tǒng)的數據交換架構面向業(yè)務應用的數據支撐架構應用系統(tǒng)A應用系統(tǒng)B應用系統(tǒng)D應用系統(tǒng)CESB金融數據中心數據采集模塊面向業(yè)務的數據服務企業(yè)服務總線數據支撐服務架構78關鍵技術總結海量數據處理技術多數據源自動解析及驗證技術非結構化數據自動抽取技術統(tǒng)一的模型管理技術金融行業(yè)垂直語義分析技術關鍵技術79多數據源智能解析網站多格式的自動識別數百個網站采集的支持非結構化數據采集Html各類網站第三方金融終端EmailFTP自定義數據ExcelWordPdfTxt多數據源支持多種類格式解析多數據源自動解析及驗證技術80該技術榮獲上海市科學技術委員會
2008年技術創(chuàng)新基金項目,項目編號0801H132900,國家科技部2009年首批技術創(chuàng)新基金支持項目,項目代碼:09C26213100826:中科院專家評價:該技術國內獨創(chuàng),國際先進非結構化數據自動抽取技術81采用獨創(chuàng)的SGRID作為清洗/校驗的載體多種填充方式的支持,適應不同的數據采集內容簡單易配置的數據更新規(guī)則內置多種清洗/校驗機制;公式引用/if/Vlookup函數/填充函數/條件格式ETL調度分布式運算框數據分析&挖掘數據應用關系型+非關系型數據庫協同內存數據庫技術分布式運算框架海量數據處理技術82研究方法及過程統(tǒng)一管理在線、離線多格式兼容統(tǒng)一的模型管理技術83統(tǒng)一搜索平臺內容源管理文檔輸入索引管理分詞管理專業(yè)詞庫通用詞庫同義詞管理搜索結果展現索引合并技術文檔打分測試案例金融行業(yè)垂直語義分析技術84估值模型量化研究全文檢索核心算法及模型核心算法及模型85一、收入和成本及預測營業(yè)收入(百萬元)20122013E2014E2015E2016E光學膜片607.50716.85824.38989.251,187.10同比增長率35.00%18.00%15.00%20.00%20.00%毛利率18.00%18.00%18.00%18.00%19.00%膠粘類制品580.00719.20863.04992.501,141.37同比增長率45.00%24.00%20.00%15.00%15.00%毛利率27.00%26.00%26.00%25.00%25.00%絕緣類制品188.50233.74280.49322.57370.96同比增長率45.00%24.00%20.00%15.00%15.00%毛利率22.00%21.00%20.00%20.00%20.00%主營業(yè)務其他產品(設備、泡棉等70.5088.13105.75111.04116.59同比增長率50.00%25.00%20.00%5.00%5.00%毛利率36.00%35.00%35.00%20.00%20.00%I﹑利潤表假設營業(yè)收入營業(yè)成本營業(yè)稅金及附加營業(yè)費用管理費用資產減值損失公允價值變動凈收益投資凈收益營業(yè)外收入營業(yè)外支出20072008管理費用的銷售百分比(%)0.000.000.000.000.000.000.000.000.000.00戶用算法營業(yè)收入增長率(%)營業(yè)成本的銷售百分比(%)缺省取值用戶自定義用戶自定義營業(yè)稅金及附加/營業(yè)收入(%)自定義營業(yè)費用/營業(yè)收入(%)用戶自定義管理費用/營業(yè)收入(%)用戶自定義用戶自定義用戶自定義用戶自定義用戶自定義用戶自定義主要財務指標會計年度20112012E2013E2014E營業(yè)收入(百萬元)347374481610同比增長(%)20.6%7.9%28.5%26.9%凈利潤(百萬元)80354654同比增長(%)23.1%-55.9%28.8%18.5%毛利率(%)36.2%25.6%24.8%23.3%凈利潤率(%)23.1%9.4%9.5%8.8%每股收益(元)1.000.440.570.67每股經營現金流(元0.650.390.260.18市盈率26594639市凈率7.992.682.532.38使用VSTO(
VisualStudio
Tools
forOffice)技術,實現以插件形式的估值模型管理工具估值模型管理86基金評價研究多因子量化選股模型實現因子表現的動態(tài)監(jiān)控和多因子模型的數據及模型支持事件驅動策略分析研究為基金評價以及基金組合分析研究提供數據及模型支撐實現分析事件沖擊研究及模擬投資模型金融工程量化研究87訓練集向量測試文檔向量分類器分類結果測試結果相似度計算相似度值列表與超過閥值的文檔集合訓練集測試文檔VSM相似度計算文本文檔VSMN維向量搜索結果主流搜索引擎檢索本系統(tǒng)的全文檢索關鍵字模糊搜索包含該關鍵字的文字傳統(tǒng)的內容搜索結構化數據無序、低效、精度低金融專業(yè)用詞搜索精度低基于文本分類算法相似度計算模型為證券金融行業(yè)量身定制88核心算法分類器新增樣本訓練效率準確度KNN0.07s83.8%SVM(支
持向量機)69s85.9%BN貝葉斯1.3s71%89研究支撐服務支持知識管理:解決了業(yè)內普遍的證券研究及客戶服務間的信息障礙,實現研究知識成果的沉淀和共享,提升了專業(yè)服務能力量化研究:通過固化研究流程以及量化支持工具,實現了研究模型與研究數據的統(tǒng)一管理,提高了
整體研究效率和質量數據服務:為公司各部門提供統(tǒng)一、完整的金融數據支持,降低第三方數據采購成本的同時,提高數據服務的質量和效率金融量化研究及知識管理平臺應用效果數據沉淀2013年新財富機構服務第二名2013年新財富研究實力第七名2012年資管產品收益排名第一應用效果90精細化營銷案例--卓越二號第3
章系統(tǒng)簡介結合三者優(yōu)勢IT系統(tǒng)以商業(yè)智能為核心的IT系統(tǒng)商業(yè)智能是數據倉庫之上的查詢、報表和多維數據分析的技術和應用,它是以業(yè)務應用為導向、以應用績效為衡量標準的?!狦artner
2007年峰會分析報告給你后見之明(Hindsight);統(tǒng)計分析給你先機(Foresight);數據挖掘給你洞察力(Insight)。興業(yè)證券客戶綜合分析系統(tǒng)推進投資者適當性管理推進投資者適當性管理向適當的客戶推薦適當的產品超越銷售目標超額完成銷售任務30%提升客戶識別有效性4%的客戶產品認購率67%興業(yè)卓越2號集合資產管理計劃投資者適當性管理實例數據倉庫+數據挖掘目標客戶產品銷售售后分析持續(xù)跟蹤服務銷售跟蹤數據分析與挖掘在卓越2號銷售過程中的應用客戶生命周期客戶衰退客戶提升客戶成熟客戶流失7
流失贏回銷戶1年后、休眠客戶激活等回流程客戶獲取客戶開發(fā)12客戶服務客戶營銷3優(yōu)理寶積分計劃45
流失預警挽留針對銷戶用戶的流程銷戶挽留6主動關懷(全程)呼叫中心服務、金牛資訊服務、財富平臺服務、人文關懷、VIP客戶經理服務等8卓越2號銷售過程數據挖掘技術支持客戶細分實現企業(yè)和客戶雙贏的目標數據分析與挖掘在卓越2號銷售過程中的應用卓越2號銷售過程核心客戶2萬非核心客戶15萬1萬數據分析應用點產品銷售過程典型客戶群尋找最適當的客戶群特征周轉率低盈利能力差……應用結果示例銷售結果分析提供已認購客戶相關指標目標客戶產品銷售售后分析持續(xù)跟蹤服務銷售跟蹤提供
客戶群信息定位客戶服務范圍銷售目標產品定位適當性管理中的客戶分類方法創(chuàng)新第4
章97該項目對投資者適當性管理工作中的客戶分類方法進行研究,形成了將客戶風險承受能力的問卷測試結果與風險偏好的行為分析結果進行比對,從而確定其綜合風險特征的客戶分類方法。(以下稱為“綜合風險特征分類方法”)項目啟動初次申報 優(yōu)化完善2008年起,啟動客戶風險偏好數據建模,同期在網站開展客戶風險測試工作投入應用2009年項目投入應用,面向部分客戶試運行。期間在應用中繼續(xù)探索和優(yōu)化2009年嘗試在專業(yè)銷售中進行應用。年底參加協會專業(yè)評價項目申報。2010年根據初次參評專業(yè)評價的反饋意見進行優(yōu)化完善,狠抓落實與推廣本項目2010年初次參加協會專業(yè)評價項目申報即獲專家肯定和鼓勵,并對方法的推廣提出了進一步的期望。我司根據專家反饋意見,一年來做了大量優(yōu)化完善工作,并在項目推廣方面取得了一定成效.實踐一:適當性管理中的客戶分類方法創(chuàng)新-是證券市場良性健康發(fā)展的重要基礎;是構建多層次市場體系建設的重要基
礎-在投資者教育、投資咨詢服務、投資管理服務等方面有積極的現實作用客戶分類98是落實《關于加強證券經紀業(yè)務管理的規(guī)定》、《證券投資顧問業(yè)務暫行規(guī)定》等重要規(guī)章制度的核心內容-是創(chuàng)業(yè)板、融資融券、股指期貨、國際板等創(chuàng)新業(yè)務的重要基礎證監(jiān)會及自律機構領導曾在不同場合提起,落實了解客戶、向客戶提供適當產品和服務的要求,建立完善客戶分類和金融產品風險評估制度,是當前和今后一個時期,證券公司要著力抓好的工作重點。項目的重要性科學的客戶分類方法是開展投資者適當性管理的基礎以客戶風險特征識別作為客戶分類工作的切入點客戶分類具有多個角度風險特征分類服務分級
客戶價值挖掘適當性管理成本貢獻率分類客戶忠誠度分類生命周期分類…與投資者適當性管理關系最為緊密的是客戶的風險特征,因此我們將客戶的風險特征作為進行客戶分類的切入點99以客戶為中心以業(yè)務為中心綜合風險特征分類方法定義本項目采用的客戶分類方法定義–
綜合風險特征分類方法是指將客戶風險承受能力的問卷測試結果與風險偏好的行為分析結果進行比對,從而確定其綜合風險特征的方法該方法是一種過程化分類方法問卷測試交易數據分析綜合風險特征認定100項目創(chuàng)新點方法創(chuàng)新基于客戶風險偏好和風險承受能力,創(chuàng)新性的提出“綜合風險特征”概念業(yè)務流程創(chuàng)新多方法、多角度評估客戶風險特征,建立“綜合風險特征認定”的標準化流程技術應用創(chuàng)新2008年即將數據挖掘技術應用于客戶分類工作,在業(yè)內領先(注:傳統(tǒng)統(tǒng)計分析方法多數以假設檢驗的方法來驗證已知的規(guī)律,而數據挖掘方法則通過模型自主學習來發(fā)現未知的規(guī)律)準確的進行客戶風險特征識別是一項艱難的工作101關鍵業(yè)務流程102從客觀數據中獲取客戶風險偏好商業(yè)目標定義原數據分析算法選擇訓練與檢驗結果分析反復試算生成聚類模型模型部署交易數據根據模型測算風險偏好分類更新最高風險偏好較高風險偏好中等風險偏好較低風險偏好最低風險偏好103多點觸發(fā)綜合風險特征的持續(xù)認定綜合風險特征認定是一個動態(tài)過程,多種因素的變化都可能導致客戶綜合風險的重新認定,如:客戶交易行為變化客戶重新進行問卷測試客戶經理日常服務風險偏好調整(每季度更新)客戶財務狀況變化(及時跟蹤)風險承受能力調整(實時更新)系統(tǒng)比對與提醒再次溝通認定識別、認定、再識別、再認定…1041、利用數據倉庫技術建立基礎指標體系建立了包括資產、資金、市值、交易量、傭金、
客戶自然屬性、客戶交
易頻率、總資產分段指
標、資產周轉率、客戶
資產貢獻及傭金費率、
客戶群市場份額、客戶
潛力指標、客戶盈利能
力、資金資產流向等多
項指標在內的基礎指標
體系。2、引入國際領先的商業(yè)智能技術,建立客戶偏好細分模型在海量客戶實際交易行
為數據基礎上,引入國
際領先的商業(yè)智能技術,采用主成分分析方法處理變量及K-means聚類算法建立了客戶產品、交易時機、操作風格及盈利能力等多角度的偏好細分模型。3、建立客戶風險偏好識別模型在客戶偏好細分模型基礎上,著重從客戶的風險偏好特征角度進行二次劃分,建立了客戶風險偏好識別模型,包含以下五種類型
“最高風險偏好”
“較高風險偏好”
“中等風險偏好”
“較低風險偏好”
“最低風險偏好”將上述真實客觀的客戶分類數據導入營業(yè)部客戶經理日常使用的工作平臺——客戶經理工作平臺總體思路105榮獲“2009年度證券期貨業(yè)科學技術獎勵”二等獎風險偏好分析的技術應用創(chuàng)新106模型指標選取產品偏好分析輸入原始變量有23個,如表所示,經過主成分分析方法進行處理后,可以用10個綜合性指標涵蓋了原有信息的95%,起到了很好的降維作用。107產品分群—產品偏好細分模型群體群名產品配置特征Class-1偏好新股申購客戶平均約70%以上資產用于新股申購運作Class-2偏好A股+B股混合客戶平均約41%的A股,30%的B股Class-3A股+ST股票投資客戶平均約53%A股及28%ST股票Class-4B股客戶平均約87%的B股持倉比Class-5場內基金投資客戶平均約50%場內基金投資Class-6偏好ST股票投資客戶平均約78%的ST股票占比Class-7配置型客戶平均約30%A股,31%場內基金,15股票型開放基金Class-8偏好創(chuàng)業(yè)板客戶平均約67%的創(chuàng)業(yè)板占比,19%的A股占比Class-9股票型基金客戶平均約90%投資股票型基金Class-10A股+權證客戶平均約67%的A股市值占比,47%的權證交易量,19%的權證市值占比Class-11混合型客戶平均約A股占比25%,開放式基金14%,新股申購8%,貨幣2%Class-12A股客戶平均約82%的A股市值占比Class-13權證客戶+A股票投資權證平均市值占比為34%,權證交易量占比61%,A股票平均持倉度35%Class-14權證客戶平均市值占比為71%,交易量占比83%Class-15場內基金投資客戶平均約90%場內基金投資Class-16偏A股客戶平均約53的A股配比,24的創(chuàng)業(yè)板股票投資,3%新股申購Class-17A股客戶平均約60%投資A股,15%的場內基金配比,3%股票型開放式基金Class-18債券投資為主平均債券型基金80%,股票型基金8%注意:以上產品配置特征以樣本統(tǒng)計,僅供群體命名參考,不作為判斷分群的具體依據。108交易時機偏好細分模型群群體平均特征數目相對風險偏好Class_3平均買入價格高于昨日收盤7%高于5日線8.3%高于10日線13.6%高于20日線18.5%8012最高Class_4平均買入價格高于昨日收盤2.9%高于5日線3.9%高于10日線6.3%高于20日線8.9%51899較高Class_2平均買入價格高于昨日收盤1.4%高于5日線1.9%高于10日線3.1%高于20日線4.5%112599中等Class_1平均買入價格高于昨日收盤0.3%高于5日線0.28%高于10日線0.42%高于20日線0.696%126618較低注意:以上特征以樣本統(tǒng)計,僅供群體命名參考,不作為判斷分群的具體依據。109操作風格及贏利能力分析模型群群體平均特征數目相對風險偏好Class_1波動高,換手率稍高,倉位中等152高Class_2波動稍高,換手率稍高,倉位稍高4199高Class_3波動中等,換手率高,倉位高21206較高Class_4波動中等,換手率中等,倉位高252746中等Class_5波動低,換手率低,倉位低116164低注意:以上特征以樣本統(tǒng)計,僅供群體命名參考,不作為判斷分群的具體依據。本項目的應用成為客戶經理的重要工作內容培養(yǎng)了客戶經理以客戶為中心,主動了解客戶、關注客戶的意識,促進了客戶經理良好工作習慣的養(yǎng)成。自覺應用客戶分類方法創(chuàng)新的成果,將其作為適當性管理的起點和重要環(huán)節(jié)。1105.5.2客戶服務環(huán)節(jié)客戶經理在其工作平臺上進行
持續(xù)的日常資訊跟蹤服務。其中風險變動跟蹤和動態(tài)的綜合風險特征認定在日常服務中的重要性日益提升。截至日期111營業(yè)部員工總數2010.12.3119638894724532011.01.3119889574454822011.02.28200010135045072011.03.31202311010775442011.04.3020341174476577平臺累計登錄次數人均登錄次數1綜合風險特征的持續(xù)認定首頁相關服務提醒↑客戶綜合風險特征認定理由→客戶風險承受能力后續(xù)評估↓風12風險偏好
險承受能力注重風險提示服務2010/10/3154722010/11/30116422010/12/3116509風險提示服務
2011/1/31186512011/2/28236812011/3/3125690113記錄數量
2011/4/30
27285日常咨詢服務中的應用1145.5.3產品營銷服務產品營銷案例:
1、金麒麟2號(原卓越2號)銷售:模型提升率達276%2、興業(yè)合潤分級基金:模型提升率達220%115產品銷售服務案例客戶經理在產品銷售中將客戶綜合風險特征作為重要參考因素,據此開展適當性服務。1165.6
在融資融券業(yè)務中的應用1175.7為開展證券投資顧問業(yè)務奠定堅實的基礎1185.7.1客戶分類在投資顧問業(yè)務中的應用結果市場收益預期客戶識別結果綜合風險特征持續(xù)的充分溝通興業(yè)證券資產配置模型1196
項目未來展望120證券公司非現場稽核分析系統(tǒng)第5
章外部環(huán)境審計署要求加強審計信息化建設。證券業(yè)創(chuàng)新發(fā)展趨勢要求券商風險管理能力與創(chuàng)新能力并重。面對眾多的信息系統(tǒng)和海量的數據,如何分析查找有效的審計線索?業(yè)務規(guī)模越來越大,品種、網點越來越多,有限的審計資源如何保證覆蓋面?項目背景內部需求項目目標興業(yè)證券審計需求數據倉庫技術實現海量異構數據集成深入研究稽核數據分析方法構建稽核分析模型設計靈活的展現框架支持配置擴展稽核分析系統(tǒng)非現場審計業(yè)務架構證券公司審計常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目現場培訓管理制度
- 培訓學校非盈利財務制度
- 中心校普通話培訓制度
- 倒班上崗培訓制度及流程
- 車間培訓核算管理制度
- 沃爾瑪企業(yè)培訓制度
- 培訓學員自主管理制度
- 企業(yè)無安全教育培訓制度
- 老員工培訓制度及流程
- 藥企安全教育培訓制度
- 2026年年長租公寓市場分析
- 學堂在線 雨課堂 學堂云 實繩結技術 章節(jié)測試答案
- 銀行客戶經理壓力與情緒管理培訓
- 推廣經理半年工作計劃
- 無人機駕駛員培訓計劃及大綱
- 價格說明函格式范本正規(guī)范本(通用版)
- 水車澆水施工方案
- 110kV線路運維方案
- 智能化弱電工程常見質量通病的避免方法
- 《中國古代文學通識讀本》pdf
- 罐區(qū)加溫操作規(guī)程
評論
0/150
提交評論