版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
精選優(yōu)質(zhì)文檔-----傾情為你奉上精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)專心---專注---專業(yè)精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)*******************創(chuàng)新課程*******************蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院2015年秋季學(xué)期學(xué)習(xí)總結(jié)報(bào)告專業(yè)班級:計(jì)算機(jī)科學(xué)與技術(shù)13級4班姓名:尚錁學(xué)號:指導(dǎo)教師:王艷成績:TOC\o"1-3"\h\u摘要數(shù)據(jù)(Data)是對事實(shí)、概念或指令的一種表達(dá)形式,可由人工或裝置進(jìn)行處理。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理(dataprocessing)是對數(shù)據(jù)的采集、、檢索、加工、變換和傳輸。本文介紹了多種數(shù)據(jù)分析與處理的方法,數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。這一過程也是的支持過程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。關(guān)鍵詞:數(shù)據(jù)處理、數(shù)據(jù)采集、存儲、檢索一、數(shù)據(jù)分析與處理概述越來越多的應(yīng)用涉及到大數(shù)據(jù),這些數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了數(shù)據(jù)不斷增長的復(fù)雜性,所以,數(shù)據(jù)的分析方法在數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素?;诖耍瑪?shù)據(jù)分析的方法理論有哪些呢?1.1數(shù)據(jù)分析PredictiveAnalyticCapabilities(預(yù)測性分析能力)數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。AnalyticVisualizations(可視化分析)不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。SemanticEngines(語義引擎)我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。DataMiningAlgorithms(數(shù)據(jù)挖掘算法)可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。假如大數(shù)據(jù)真的是下一個重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來的好處,而不僅僅是挑戰(zhàn)。1.2數(shù)據(jù)處理數(shù)據(jù)處理時代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實(shí)有很多,但是根據(jù)長時間的實(shí)踐,筆者總結(jié)了一個基本的大數(shù)據(jù)處理流程,整個處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,以及挖掘。采集數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r有可能會有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。導(dǎo)入/預(yù)處理雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計(jì)算,來滿足部分業(yè)務(wù)的實(shí)時計(jì)算需求。導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。挖掘與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測的效果,從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的K-Means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主二、算法理論2.1隨機(jī)森林算法在機(jī)器學(xué)習(xí)中,隨機(jī)森林(RandomForests)是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。由LeoBreiman和AdeleCutler發(fā)展、推論出的算法。這個術(shù)語是1995年由貝爾實(shí)驗(yàn)室的TinKamHo所提出的隨機(jī)決策森林(randomdecisionforests)而來的。這個方法則是結(jié)合Breimans的"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造決策樹的集合。隨機(jī)森林算法過程:根據(jù)下列算法而建造每棵樹:1.用N來表示訓(xùn)練例子的個數(shù),M表示變量的數(shù)目。2.我們會被告知一個數(shù)m,被用來決定當(dāng)在一個節(jié)點(diǎn)上做決定時,會使用到多少個變量。m應(yīng)小于M3.從N個訓(xùn)練案例中以可重復(fù)取樣的方式,取樣N次,形成一組訓(xùn)練集(即bootstrap取樣)。并使用這棵樹來對剩余預(yù)測其類別,并評估其。4.對于每一個節(jié)點(diǎn),隨機(jī)選擇m個基于此點(diǎn)上的變量。根據(jù)這m個變量,計(jì)算其最佳的分割方式。5.每棵樹都會完整成長而不會剪枝(Pruning)(這有可能在建完一棵正常樹狀分類器后會被采用)。2.2高斯混合模型高斯混合模型和k-means其實(shí)是十分相似的,區(qū)別僅僅在于GMM引入了概率。高斯混合模型屬于統(tǒng)計(jì)學(xué)習(xí)的模型中的概率模型。所謂概率模型,就是指我們要學(xué)習(xí)的模型的形式是P(Y|X),這樣在分類的過程中,我們通過未知數(shù)據(jù)X可以獲得Y取值的一個概率分布,也就是訓(xùn)練后模型得到的輸出不是一個具體的值,而是一系列值的概率(對應(yīng)于分類問題來說,就是對應(yīng)于各個不同的類的概率),然后我們可以選取概率最大的那個類作為判決對象(算法分類softassignment)高斯混合模型的學(xué)習(xí)過程就是訓(xùn)練出幾個概率分布,對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影,就會分別得到在各個類上的概率,然后我們可以選取概率最大的類所為判決結(jié)果。三、算法實(shí)現(xiàn)3.1隨機(jī)森林算法Trainingtree1/100...Trainingtree10/100...Trainingtree20/100...Trainingtree30/100...Trainingtree40/100...Trainingtree50/100...Trainingtree60/100...Trainingtree70/100...Trainingtree80/100...Trainingtree90/100...Trainingtree100/100...Classifierdistributions:18815nodeswereemptyandhadnoclassifier.Classifierwithid=1wasusedat0nodes.Classifierwithid=2wasusedat6685nodes.Classifierwithid=3wasusedat0nodes.Classifierwithid=4wasusedat0nodes.3.2高斯混合模型for(i=0;i<K_MODELS;i++)//K_MODELS為預(yù)先定義的模型數(shù){//calculatethevector,v=(X-u)for(j=0;j<3;j++)v[j]=pixel[j]-model->mean[j];//calculatethesquareddistance,d=|v|^2model->dist2=v[0]*v[0]+v[1]*v[1]+v[2]*v[2];//zot:thisisonlyequaltomahalanobisdistance//whencovariancematrix=vI//(v=scalarvarianceforallchannels)model->mah2=model->dist2/model->var;//即為馬茲距離//seeifXiscloseenoughtothismodelif(model->mah2<SFSquared)break;//thecurrentpixelmatchesoneoftheKmodels//SFSquared是預(yù)定義的值}四、仿真試驗(yàn)結(jié)果及分析4.1隨機(jī)森林算法它是利用bootstrap重抽樣方法從原始樣本中抽取多個樣本,對每bootstrap樣本進(jìn)行決策樹建模,然后組合多棵決策樹的預(yù)測,通過投票得出最終預(yù)測結(jié)果。它具有很高的預(yù)測準(zhǔn)確率,對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合,在醫(yī)學(xué)、生物信息、管理學(xué)等領(lǐng)域有著廣泛的應(yīng)用。4.2高斯混合模型所謂高斯混合模型(GMM)就是指對樣本的概率密度分布進(jìn)行估計(jì),而估計(jì)的模型是幾個高斯模型加權(quán)之和(具體是幾個要在模型訓(xùn)練前建立好)。其中,每個高斯模型就代表了一個類(一個Cluster)。五、結(jié)束語本次課題研究的是數(shù)據(jù)的分析與處理,在統(tǒng)計(jì)學(xué)領(lǐng)域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實(shí)或證偽。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數(shù)據(jù)處理貫穿于社會生產(chǎn)和社會生活的各個領(lǐng)域。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會發(fā)展的進(jìn)程。通過數(shù)據(jù)分析與處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦公場所日常保潔服務(wù)合同協(xié)議2025
- 地殼形變監(jiān)測方法
- 北京初二語文試卷及答案
- 主題作業(yè)評價(一) 中華文明的起源
- 2025年物流基礎(chǔ)分析題庫及答案
- 2025年河北高職真題試卷及答案
- 樹苗道路運(yùn)輸合同范本
- 2025年中學(xué)代數(shù)試卷真題及答案
- 字畫托管銷售合同范本
- 2026年廣西中煙工業(yè)有限責(zé)任公司招聘(51名)參考筆試題庫及答案解析
- 2025余干縣發(fā)展控股集團(tuán)有限公司招聘2人參考模擬試題及答案解析
- 藥品投訴應(yīng)急預(yù)案(3篇)
- 部編人教版一年級上冊語文生字組詞造句
- 鄭州工商學(xué)院《園林史》2025-2026學(xué)年第一學(xué)期期末試卷
- 物業(yè)反恐防暴培訓(xùn)
- 2025年床上四件套市場調(diào)研:純棉印花需求與圖案美觀度分析
- 2025年度物流行業(yè)市場調(diào)研:產(chǎn)業(yè)規(guī)模、政策支持及數(shù)字化趨勢報(bào)告
- 廣東省廣州市越秀區(qū)2024-2025學(xué)年八年級上學(xué)期期末考試英語試題
- 地震波速反演方法-洞察及研究
- 百年未有之大變局課件
評論
0/150
提交評論