版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)對大數(shù)據(jù)的心得體會早在 XX 年,人類制造的信息量有史以來第一次在理論 上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。XX年,全球數(shù)字規(guī)模首次達到了“ ZB”級別。XX年,淘寶 網(wǎng)每天在線商品數(shù)超過 8億件。XX年底,中國手機網(wǎng)民超過 6 億戶。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、傳感器、物聯(lián)網(wǎng)、社交 網(wǎng)站、云計算等的興起,我們這個社會的幾乎所有方面都已 數(shù)字化,產(chǎn)生了大量新型、實時的數(shù)據(jù)。無疑,我們已身處 在大數(shù)據(jù)的海洋。 有兩個重要的趨勢使得目前的這個時代 與之前有顯著的
2、差別:其一,社會生活的廣泛數(shù)字化,其產(chǎn) 生數(shù)據(jù)的規(guī)模、復雜性及速度都已遠遠超過此前的任何時代; 其二,人類的數(shù)據(jù)分析技術(shù)和工藝使得各機構(gòu)、組織和企業(yè) 能夠以從前無法達到的復雜度、速度和精準度從龐雜的數(shù)據(jù) 中獲得史無前例的洞察力和預見性。大數(shù)據(jù)是技術(shù)進步的產(chǎn)物,而其中的關(guān)鍵是云技術(shù)的進 步。在云技術(shù)中, 虛擬化技術(shù)乃最基本、 最核心的組成部份。 計算虛擬化、存儲虛擬化和網(wǎng)絡虛擬化技術(shù),使得大數(shù)據(jù)在 數(shù)據(jù)存儲、 挖掘、分析和應用分享等方面不僅在技術(shù)上可行, 在經(jīng)濟上也可接受。在人類文明史上,人類一直執(zhí)著探索我們處的世界以及 人類自身,一直試圖測量、計量這個世界以及人類自身,試 圖找到隱藏其中的深刻
3、關(guān)聯(lián)、運行規(guī)律及終極答案。大數(shù)據(jù) 以其人類史上從未有過的龐大容量、極大的復雜性、快速的 生產(chǎn)及經(jīng)濟可得性,使人類第一次試圖從總體而非樣本,從 混雜性而非精確性,從相關(guān)關(guān)系而非因果關(guān)系來測量、計量 我們這個世界。人類的思維方式、行為方式及社會生活的諸 多形態(tài)正在開始發(fā)生新的變化?;蛟S是一場革命性、顛覆性 的變化。從這個意義上講,大數(shù)據(jù)不僅是一場技術(shù)運動,更 是一次哲學創(chuàng)新。1 大數(shù)據(jù)的概述大數(shù)據(jù)的概念大數(shù)據(jù)是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。 它的數(shù)據(jù)規(guī)模和轉(zhuǎn)輸速度要求很高,或者其結(jié)構(gòu)不適合原本 的數(shù)據(jù)庫系統(tǒng)。為了獲取大數(shù)據(jù)中的價值,我們必須選擇另 一種方式來處理它。數(shù)據(jù)中隱藏著有價值的模
4、式和信息,在以往需要相當?shù)?時間和成本才能提取這些信息。如沃爾瑪或谷歌這類領(lǐng)先企 業(yè)都要付高昂的代價才能從大數(shù)據(jù)中挖掘信息。而當今的各 種資源,如硬件、云架構(gòu)和開源軟件使得大數(shù)據(jù)的處理更為 方便和廉價。即使是在車庫中創(chuàng)業(yè)的公司也可以用較低的價 格租用云服務時間了。對于企業(yè)組織來講,大數(shù)據(jù)的價值體現(xiàn)在兩個方面:分 析使用和二次開發(fā)。對大數(shù)據(jù)進行分析能揭示隱藏其中的信 息,例如零售業(yè)中對門店銷售、地理和社會信息的分析能提 升對客戶的理解。對大數(shù)據(jù)的二次開發(fā)則是那些成功的網(wǎng)絡 公司的長項。例如 Facebook 通過結(jié)合大量用戶信息,定制 出高度個性化的用戶體驗,并創(chuàng)造出一種新的廣告模式。這 種通過
5、大數(shù)據(jù)創(chuàng)造出新產(chǎn)品和服務的商業(yè)行為并非巧合,谷 歌、雅虎、亞馬遜和 Facebook,它們都是大數(shù)據(jù)時代的創(chuàng)新 者。大數(shù)據(jù)的三層關(guān)系第一層關(guān)系:數(shù)據(jù)與機器的關(guān)系。大數(shù)據(jù)紀元剛開始, 產(chǎn)業(yè)界碰到的第一個核心問題就是“大”的問題。做了幾十 年的數(shù)據(jù)倉庫甚至海量并行處理的數(shù)據(jù)庫都不能處理那么 大的數(shù)據(jù),怎么辦?需要范式切換。主要有三個方面,新型 的數(shù)據(jù)與機器關(guān)系當中的第一條就是重新考慮架構(gòu)與算法, 重新考慮舍得,有舍才能得,天下沒有免費的午餐,所以必 須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型 機和UNIX服務器,得到平民化的更大量的X86服務器。通過這樣一種可橫向、可水平擴展服務器處理每
6、兩年翻番的數(shù) 據(jù)量的挑戰(zhàn)。第二個舍得是舍棄硬件的可靠性和可用性,得 到軟件的可靠性和可用性。這也就是谷歌三大論文以及 Hadoop的核心重點。第三個舍得是舍棄傳統(tǒng)數(shù)據(jù)庫的強一致 性,獲得更放松一致性、可擴展架構(gòu),如NoSQL第四個舍得是傳統(tǒng)算法強調(diào)非常嚴格的精確性,現(xiàn)在要放棄一些精確 性,通過近似、采樣這種方式來獲得更好的擴展性。最早大數(shù)據(jù)的處理范式是 Mapreduce 的批量處理,英特爾慢慢有其他的需求,實時的流處理、多迭代的處理、圖計 算、即時查詢等等新的范式百花齊放,最后萬法歸宗。剛才 王斌老師將講的 SAP的HANA本身就是數(shù)據(jù)管理和分析的融 合,現(xiàn)在非常流行的Hadoop之后的SP
7、AR,就是把前面的各 種范式進行了融合。存儲與內(nèi)存的消長,大數(shù)據(jù)第一個要解決把數(shù)據(jù)存儲下 來,后來發(fā)現(xiàn)要把它放到大的內(nèi)存里進行處理, 獲得實時性, 接著在存儲和內(nèi)存之間現(xiàn)在又出現(xiàn)了閃存,有閃存化甚至全 閃存的存儲,也有閃存化的內(nèi)存,把所有的計算在閃存里面 處理,已經(jīng)被微軟、Facebook等等大量使用。大家可以預期, 兩年以后出現(xiàn)新的非易失性的閃存,它的速度可能要比閃存 快幾百倍,和內(nèi)存相似,這又會極大地顛覆數(shù)據(jù)與機器的關(guān) 系。第二層關(guān)系:數(shù)據(jù)與人的關(guān)系。主要是價值的覺醒,如 果數(shù)據(jù)不能產(chǎn)生價值它可能是負面資產(chǎn)。數(shù)據(jù)怎么能夠給人 帶來價值?我們介紹一下它的價值維度,把它映射到二維的 時空象限里
8、,用六個關(guān)鍵詞來描述它。第一是“Volume”,兩個關(guān)鍵詞,小數(shù)據(jù)見微對個人進行刻劃,大數(shù)據(jù)知著能夠 了解宏觀規(guī)律,它是空間概念,同時也是時間概念,數(shù)據(jù)剛 剛產(chǎn)生的時候,它的個性化價值、見微的價值最大,而隨著 時間的推移, 它漸漸退化到只有集合價值。 第二是 Velocity , 時間軸的原點是當下實時價值,副軸是過往,正軸是預測未 來,如果知道知前后就能夠做到萬物的皆明。 第三是 Variety , 多源異質(zhì)的數(shù)據(jù),能夠過濾噪聲、查漏補缺、去偽存真,就 是辯訛。還有曉意, 能夠從大量的非結(jié)構(gòu)化數(shù)據(jù)中獲得語意, 從而能夠使機器窺探人的思維境界,這六個價值維度怎么去 實現(xiàn)?主要是兩部分人,一是數(shù)
9、據(jù)科學家要洞察數(shù)據(jù),另外 一個是終端用戶和領(lǐng)域?qū)<乙ソ庾x數(shù)據(jù)并利用數(shù)據(jù)。首先 看洞察數(shù)據(jù),數(shù)據(jù)科學,人和機器作用發(fā)生了消長,講個例 子,機器學習大家覺得是機器的問題,其實人在里面起到很 重要的作用,尤其是機器學習是模型加特征,而特征工程是 一個人力工程,你要有經(jīng)驗非常豐富的特征團隊去死磕特征, 找出更好、更多的特征,才能夠使機器學習的效果更好。但 是現(xiàn)在深度學習這些新技術(shù)出來,能夠用機器學習特征,能 夠在大量非結(jié)構(gòu)化數(shù)據(jù)中找到豐富的信息維度用特征表達 出來,這遠遠超出了人的能力。大家知道黑客帝國描述了一 個場景,人腦袋后面插一個插頭,給機器提供營養(yǎng),我可能 不會那么悲觀,但是像這樣的互動關(guān)系
10、以一種更良性的方式 出現(xiàn)了,現(xiàn)在人的一言一行、社交行為、金融行為都已經(jīng)成 為機器的養(yǎng)料、機器的數(shù)據(jù),使得機器獲得更好的洞察。終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數(shù)據(jù)的會, 基本上都是Hadoop和NoSQL現(xiàn)在大家參加大數(shù)據(jù)會可以看到清一色的分析工具和可視化工具。大數(shù)據(jù)跟各行各業(yè)的化學作用正在發(fā)生。如果馬化騰說 “互聯(lián)網(wǎng) +”是互聯(lián)網(wǎng)與各行各業(yè)的加法效應, 那么大數(shù)據(jù)將與各行各業(yè)產(chǎn)生乘法效應。公共第三個關(guān)系,數(shù)據(jù)與數(shù)據(jù)的關(guān)系。現(xiàn)在只有海面平的數(shù) 據(jù)是搜索引擎可以檢索到,深海的數(shù)據(jù)可能是黑暗的數(shù)據(jù), 在政府、在企業(yè)里大家看不到。我們怎么辦呢?必須讓數(shù)據(jù) 發(fā)現(xiàn)數(shù)據(jù)。
11、只有讓數(shù)據(jù)能夠發(fā)現(xiàn)數(shù)據(jù)、遇到數(shù)據(jù),才能產(chǎn)生 金風玉露一相逢、便勝卻人間無數(shù)的效果。這里有三個重要 的觀念,需要法律、技術(shù)、經(jīng)濟理論和實踐上配合。法律上 要明確數(shù)據(jù)的權(quán)利,數(shù)據(jù)所有權(quán),數(shù)據(jù)的隱私權(quán),什么數(shù)據(jù) 不能給你看;數(shù)據(jù)的許可權(quán),什么數(shù)據(jù)是可以給你看的;數(shù) 據(jù)的審計權(quán),我給你看了以后,你是不是按照許可的范圍去 看;數(shù)據(jù)的分紅權(quán)。數(shù)據(jù)像原油又不同于原油,原油用完了 就沒有了,數(shù)據(jù)可以反復地產(chǎn)生價值,因此數(shù)據(jù)的擁有者應 該得到分紅。我們要保證數(shù)據(jù)的開放、共享、交易。 數(shù)據(jù)和部分科研數(shù)據(jù)要開放,開放過程中注意保護隱私。企 業(yè)之間可以進行數(shù)據(jù)的點對點共享,最高境界是不丟失數(shù)據(jù) 的所有權(quán)和隱私權(quán)的前提
12、下共享,這里有多方安全計算的概 念。1982 年姚期智老先生提出了百萬富翁的窘境的問題, 個百萬富翁他們想要比誰更富,但是誰都不愿意說出來自己 都多少錢,在我們的數(shù)據(jù)共享當中要通過各種各樣的技術(shù)達 到這樣的效果。還有數(shù)據(jù)交易,建立多邊多邊平臺來支持數(shù)據(jù)交易互聯(lián)網(wǎng)能發(fā)展起來經(jīng)濟學理論和實踐是很重要的支撐, 梅特卡夫定律決定了一個互聯(lián)網(wǎng)公司的價值,跟它用戶數(shù)的 平方成正比,又比如說谷歌請最好的經(jīng)濟學家,它的一個廣 告業(yè)務的核心就是建立在一個非常先進的拍賣經(jīng)濟學的模 型基礎上。數(shù)據(jù)經(jīng)濟也需要這樣一些基礎的理論,比如數(shù)據(jù) 定價和信息定價不一樣,信息做一個咨詢報告 5000 美金賣 給你,可以賣給所有人
13、。但數(shù)據(jù)對不同的單位價值不一樣, 可能我之毒藥是彼之蜜糖。另外估值,一個企業(yè)擁有大量的 數(shù)據(jù),是無形資產(chǎn)的一部分,對于企業(yè)的市場價值帶來了多 大的增長。大數(shù)據(jù)的四個特性 大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察 發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資 產(chǎn)。這也是一個描述性的定義,在對數(shù)據(jù)描述的基礎上加入 了處理此類數(shù)據(jù)的一些特征,用這些特征來描述大數(shù)據(jù)。當 前,較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征 : 數(shù)據(jù)規(guī)模大 ( Volume) ,數(shù)據(jù)種類多 ( Variety) ,數(shù)據(jù)要求處理 速度快 ( Velocity),數(shù)據(jù)價值密度低 ( Value) ,即所謂的四 V 特性
14、。數(shù)據(jù)規(guī)模大 ( Volume) :企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增 長。例如,IDC最近的報告預測稱,到 2020年,全球數(shù)據(jù)量將擴大 50 倍。目前,大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指 標,單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡而言之,存儲1PB數(shù)據(jù)將需要兩萬臺配備 50GB硬盤的個人電腦。 此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。數(shù)據(jù)種類多 ( Variety) :一個普遍觀點認為,人們使用 互聯(lián)網(wǎng)搜索是形成數(shù)據(jù)多樣性的主要原因,這一看法部分正 確。然而,數(shù)據(jù)多樣性的增加主要是由于新型多結(jié)構(gòu)數(shù)據(jù), 以及包括網(wǎng)絡日志、社交媒體、互聯(lián)網(wǎng)搜索、手機通話記錄 及傳感器網(wǎng)絡等數(shù)據(jù)類型造成。其中,部分
15、傳感器安裝在火 車、汽車和飛機上,每個傳感器都增加了數(shù)據(jù)的多樣性。處理速度快 ( Velocity) :高速描述的是數(shù)據(jù)被創(chuàng)建和 移動的速度。在高速網(wǎng)絡時代,通過基于實現(xiàn)軟件性能優(yōu)化 的高速電腦處理器和服務器,創(chuàng)建實時數(shù)據(jù)流已成為流行趨 勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何 快速處理、分析并返回給用戶,以滿足他們的實時需求。根 據(jù) IMS Research 關(guān)于數(shù)據(jù)創(chuàng)建速度的調(diào)查,據(jù)預測, 到 2020年全球?qū)碛?220 億部互聯(lián)網(wǎng)連接設備。數(shù)據(jù)價值密度低 ( Value) :大數(shù)據(jù)具有多層結(jié)構(gòu),這意 味著大數(shù)據(jù)會呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務數(shù) 據(jù),大數(shù)據(jù)存在不規(guī)則
16、和模糊不清的特性,造成很難甚至無 法使用傳統(tǒng)的應用軟件進行分析。傳統(tǒng)業(yè)務數(shù)據(jù)隨時間演變 已擁有標準的格式, 能夠被標準的商務智能軟件識別。 目前, 企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復雜數(shù)據(jù)中挖 掘價值。大數(shù)據(jù)的三個特征 除了有四個特性之外,大數(shù)據(jù)時代的數(shù)據(jù)還呈現(xiàn)出其他 三個特征。第一個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、音頻、視 頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理 能力提出了更高的要求 .第二個特征是數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的 廣泛應用, 信息感知無處不在, 信息海量, 但價值密度較低, 如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純” 是大數(shù)據(jù)時代亟待解決
17、的難題。大數(shù)據(jù)時代的信息分析平臺搭建安裝報告一、 平臺搭建 描述小組在完成平臺安裝時候遇到的問題以及如何解 決這些問題的,要求截圖加文字描述。問題一:在決定選擇網(wǎng)站綁定時,當時未找到網(wǎng)站綁定 的地方。解決辦法:之后小組討論后,最終找到網(wǎng)站綁定的 地方,點擊后解決了這個問題。問題二:當時未找到 TCP/IP 屬性這一欄解決辦法:當時未找到 TCP/IP 屬性這一欄,通過老師 的幫助和指導,順利的點擊找到了該屬性途徑,啟用了這一 屬性,完成了這一步的安裝步驟。問題三:在數(shù)據(jù)庫這一欄中,當時未找到 “ foodmartsaleDW ”這個文件解決辦法:在數(shù)據(jù)庫這一欄中,當時未找到 “ foodmar
18、tsaleDW ”這個文件,后來詢問老師后,得知該文 件在第三周的文件里,所以很快的找到了該文件,順利的進 行了下一步問題四:在此處的 SQL server 的導入和導出向?qū)?,這 個過程非常的長。解決辦法:在此處的 SQL server 的導入和導出向?qū)?( 出 自: 博 文學習 網(wǎng): 對大數(shù)據(jù)的心得體會 ) ,這個過程非常的 長,當時一直延遲到了下課的時間,小組成員經(jīng)討論,懷疑 是否是電腦不兼容或其他問題,后來經(jīng)問老師,老師說此處 的加載這樣長的時間是正常的,直到下課后,我們將電腦一 直開著到寢室直到軟件安裝完為止。問題五:問題二: . 不知道維度等概念,不知道怎么設 置表間關(guān)系的數(shù)據(jù)源。關(guān)
19、系方向不對解決辦法:百度維度概念,設置好維度表和事實表之間 的關(guān)系,關(guān)系有時候是反的點擊反向,最后成功得到設 置好表間關(guān)系后的數(shù)據(jù)源視圖。這個大圖當時完全不知道怎么做,后來問的老師,老師邊講邊幫我們操作完成的信息時代的到來,我們感受到的是技術(shù)變化日新月異, 隨之而來的是生活方式的轉(zhuǎn)變,我們這樣評論著的信息時代 已經(jīng)變?yōu)樵?jīng)。如今,大數(shù)據(jù)時代成為炙手可熱的話題。信息和數(shù)據(jù)的定義。維基百科解釋:信息,又稱資訊, 是一個高度概括抽象概念,是一個發(fā)展中的動態(tài)范疇,是進 行互相交換的內(nèi)容和名稱,信息的界定沒有統(tǒng)一的定義,但 是信息具備客觀、動態(tài)、傳遞、共享、經(jīng)濟等特性卻是大家 的共識。數(shù)據(jù):或稱資料,指描述事物的符號記錄,是可定 義為意義的實體,它涉及到事物的存在形式。它是關(guān)于事件 之一組離散且客觀的事實描述,是構(gòu)成信息和知識的原始材 料。數(shù)據(jù)可分為模擬數(shù)據(jù)和數(shù)字數(shù)據(jù)兩大類。數(shù)據(jù)指計算機 加工的“原料”,如圖形、聲音、文字、數(shù)、字符和符號等。 從定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 校園食品安全管理制度
- 罕見腫瘤的腫瘤異質(zhì)性分析
- 2026天津中醫(yī)藥大學招聘58人備考題庫及參考答案詳解一套
- 2026廣東廣州大學招聘事業(yè)編制輔導員12人備考題庫(第一次)及答案詳解一套
- 2026天津市武清區(qū)“一區(qū)五園”面向社會招聘國企工作人員24人備考題庫及完整答案詳解
- 2026華東交通大學海外優(yōu)青項目全球引才備考題庫(含答案詳解)
- 同興會計事務所財務制度
- 佛協(xié)財務制度細則
- 汽車美容快修財務制度
- 農(nóng)村村委財務制度
- 2025-2026學年北京市昌平區(qū)高三(上期)期末考試英語試卷(含答案)
- 交通運輸安全檢查與處理規(guī)范(標準版)
- UCL介紹教學課件
- 扁鵲凹凸脈法課件
- 2026年開封大學單招職業(yè)適應性測試題庫及完整答案詳解1套
- 北京市2025北京市體育設施管理中心應屆畢業(yè)生招聘2人筆試歷年參考題庫典型考點附帶答案詳解(3卷合一)2套試卷
- 建筑施工現(xiàn)場材料采購流程
- DB31∕T 1234-2020 城市森林碳匯計量監(jiān)測技術(shù)規(guī)程
- 園林綠化施工工藝及注意事項
- 2025年高中語文必修上冊《登泰山記》文言文對比閱讀訓練(含答案)
- 2025年金蝶AI蒼穹平臺新一代企業(yè)級AI平臺報告-
評論
0/150
提交評論