版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、論大數(shù)據(jù)理論的基本原理及其價值創(chuàng)造華南師范大學(xué)陳俊歡步入大數(shù)據(jù)時代如今,我們已經(jīng)進(jìn)入了一個大數(shù)據(jù)的時代。Facebook在2012年平均每個月 有300億條內(nèi)容被創(chuàng)建,每天處理的數(shù)據(jù)量多達(dá)500TB(1TB=1000GB)。并且 至今Facebook已存1400億張圖片,今年將增700億張。據(jù)YouTube公布數(shù)據(jù)顯 示,目前用戶每分鐘上傳的視頻長度為72小時。eBay的分析平臺每天處理的數(shù) 據(jù)量高達(dá)100PB(1PB=1000TB),超過了納斯達(dá)克交易所每天的數(shù)據(jù)處理量。另 外根據(jù)IDC(國際數(shù)據(jù)公司)的監(jiān)測統(tǒng)計,2011年全球數(shù)據(jù)總量已經(jīng)達(dá)到 1.8ZB(1ZB等于1萬億GB),而這個數(shù)值
2、還在以每兩年翻一番的速度增長,預(yù)計 到2020年全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,增長近20倍。事實上大數(shù)據(jù)絕不僅僅是數(shù)據(jù)的總量增大了,大數(shù)據(jù)指的是以一種集合的形 式來包含所有數(shù)據(jù),其大小或復(fù)雜性使得無法通過常用技術(shù)以合理的成本,并在 可接受的時限內(nèi)對其進(jìn)行捕獲、管理和處理。大數(shù)據(jù)時代的成因我們先來看看大數(shù)據(jù)時代形成的原因,并且從以下三個方面來進(jìn)行解釋。2.1信息生產(chǎn)方式的改革信息生產(chǎn)方式的變革可以從兩個方面來說,一是隨著電腦,手機,小型攝像 機等信息生產(chǎn)設(shè)備的普及,每位擁有者都能很輕易地創(chuàng)建自己的信息;二是信息 的生成方式越來越多樣化,以前人們一般都是通過紙張來記錄信息的,如今我們 還可以用短
3、信,語音,視頻,照片,微博等豐富多樣的方式把各種信息記錄下來。2.2信息傳播方式的改革傳統(tǒng)的三種信息傳播渠道(報紙,電視,廣播),無論是在傳播的及時性還 是廣度始終都受到一定的限制,然而隨著互聯(lián)網(wǎng)的出現(xiàn),這種情況則完全改變了。 互聯(lián)網(wǎng)使得我們每個人都能通過網(wǎng)絡(luò)來傳播我們的信息,而且傳播的速度非常 快,并且能輕易到達(dá)世界上的每一個角落。2.3信息記錄方式的改革如果按照美國國會圖書館的容量來保存信息的話,恐怕幾百個美國國會圖 書館也裝不下一個Facebook公司的數(shù)據(jù)。但是隨著信息存儲技術(shù)的發(fā)展,我們 不僅能夠把如此龐大的數(shù)據(jù)給生產(chǎn)出來,而且還能把他很完整的保存起來。因此,在這三者的影響下,我們進(jìn)
4、入大數(shù)據(jù)時代的條件已經(jīng)被滿足了。信息生產(chǎn)方式變革(信息生產(chǎn)者增多,信息生產(chǎn)形式多樣)大數(shù)據(jù)時代信息傳播方式變革(特別是互聯(lián)網(wǎng)的出現(xiàn))信息存儲方式變革(主要依靠科學(xué)技術(shù))大數(shù)據(jù)理論的本質(zhì)依據(jù)自從人類誕生之始,我們就不停地探索著世界的運行規(guī)律,隨著我們探索的 越多,我們所了解的也越多?!爸栏唷笨梢哉f是我們?nèi)祟惔嬖诘囊粋€終極追 求,千萬年來我們無時無刻不做著這件事情。這時或許有人會反駁說,我們除了 知道結(jié)果還應(yīng)該知道過程,或者說是還應(yīng)該知道他們之間的一種關(guān)系,這并沒有 錯,但事實上我們要知道過程的原因也只是為了以后能更加便捷地知道更多的 結(jié)果。毫無疑問,這個世界的運行總是遵循著某一規(guī)律的,即自然
5、之規(guī)律。所謂規(guī) 律,其實可以分為三種。一者是恒常規(guī)律,如日出日落,生老病死,絕無異常; 二者是混沌規(guī)律,凡事不可捉摸,無法確定;三者即為浮動規(guī)律,有跡可循卻又 無法準(zhǔn)確把握。恒常規(guī)律混沌規(guī)律浮動規(guī)律實際當(dāng)中,恒常規(guī)律和混沌規(guī)律都是極少出現(xiàn)的,那么則可以說無論是在我 們的生活領(lǐng)域還是經(jīng)濟領(lǐng)域上最常會出現(xiàn)的一個規(guī)律就是浮動規(guī)律。事實上這一 點幾乎所有人都知道,也都隱含于每個人的意識之中。那么,這樣的一條規(guī)律或 者說這樣的一種意識又會對我們造成了怎樣的影響呢?讓我們先來看看我們現(xiàn)在主流的方法是如何來認(rèn)知我們所在世界的規(guī)律的。 通常我們會遇到某一個問題,比方說公司的市場份額下降了,然后我們馬上會找 出
6、其內(nèi)在的原因,收集數(shù)據(jù)樣本作出分析,接著就會制訂出一系列的指導(dǎo)方案, 再去執(zhí)行,最后再來印證實施的情況是否符合原假設(shè),如果符合則代表我們的認(rèn) 知是正確的,反之如果不符合則又要從新構(gòu)造模型,建立假設(shè)。誠然,在數(shù)據(jù)量小的時候,這種精確性的因果分析研究是唯一可行的方法, 因為上文已經(jīng)提到我們這個世界的運行規(guī)律本來就是浮動性的,如果分析過程再 不要求精準(zhǔn),那么最終的結(jié)果更是相差甚遠(yuǎn)。然而事實上,這種基于有限樣本的 因果關(guān)系分析只是在數(shù)據(jù)量較小時的一種無奈之舉。不僅操作過程非常麻煩,而 且推測結(jié)果的有效性也往往難以得到保證。然而,如果我們擁有了足夠的海量的數(shù)據(jù),情況就會變得完全不同了。無論 一件事情它有
7、著多么復(fù)雜或隱秘的內(nèi)在規(guī)律,但是只要這件事情一旦發(fā)生了,它 就一定會有所表現(xiàn),也就是說它會表現(xiàn)出這件事情所擁有的特征。就比如使人感 到難過的原因有千種萬種,錯綜復(fù)雜,或許我們根本就無法探至。但是不論如何, 只要一個人感到難過了,他就一定會表現(xiàn)出難過所擁有的特征,例如落淚,一言 不發(fā),甚至是獨自喝酒.又比如說這個月淺綠色的衣服突然變得好賣了,這件 事情的原因可能非常復(fù)雜,但是無論其成因到底是怎樣,我們只需要知道淺綠色 衣服的銷量增加了,接著我們就采購更多的淺綠色衣服就行了。當(dāng)數(shù)據(jù)量小的時 候,我們總會是尋求因果關(guān)系分析,想知道產(chǎn)生這些情況的原因到底是什么,但 事實上這可能很難,甚至我們根本連這些
8、現(xiàn)象都未必能發(fā)現(xiàn)的了。但是借助于大 數(shù)據(jù)的力量,我們能從無數(shù)的例子當(dāng)中得出:如果一個人落淚了或者是流露出悶 悶不樂表情,那么他很有可能是感到難過了。并且淺綠色的衣服銷售量猛增,我 們也是通過統(tǒng)計全部的數(shù)據(jù)才得知的。所以大數(shù)據(jù)理論真正的魅力就是在于它把 所有的理論分析全部都屏蔽掉了,我們無需再從構(gòu)建假設(shè)入手,分析,計劃,實 施,最后印證這樣一步步地推演過來,它直接就能夠把最終的結(jié)果告訴你。實際上大數(shù)據(jù)理論的核心依據(jù)就是表現(xiàn)理論。在1884年,心理學(xué)家威廉詹 姆斯提出了一種特殊的學(xué)說,這個學(xué)說認(rèn)為,情緒只不過是對于身體所發(fā)生的變 化的感覺,如果沒有了身體變化(如肌肉緊張、心中加?。┑龋簿蜎]有什么
9、情 緒。這種學(xué)說我們可以稱之為表現(xiàn)理論,關(guān)于這種理論的正確性我們暫且不論, 但是如果我們將這個理論引伸一下,就能夠得出一個有趣并且極其重要的結(jié)論: 我們能夠通過一個事物所表現(xiàn)出來的特征來認(rèn)識該事物。然而,這樣一個簡單的 結(jié)論卻足以顛覆我們的思維模式!因為我們不需要再從原點開始一步一步地分析 下去得出結(jié)論,如果我們能夠收集到足夠多的數(shù)據(jù),那么這些大量的數(shù)據(jù)就能夠 很完整地把該件事物描繪出來,這樣最終的結(jié)論就顯而易見了。結(jié)論邏輯*推演.a正向理論研究,(因果關(guān)系)+一特征AI反映反向,大數(shù)據(jù)分析(相關(guān)關(guān)系)大數(shù)據(jù)理論思想4.1數(shù)據(jù)量更大(核心思想:數(shù)據(jù)的量變到質(zhì)變)上文已經(jīng)論及大數(shù)據(jù)理論的依據(jù)就在
10、于表現(xiàn)理論,當(dāng)數(shù)據(jù)總量較小時(樣本 模式),樣本的數(shù)據(jù)不足以準(zhǔn)確完整地反映該事物,因此這樣的樣本不能滿足表 現(xiàn)理論,而只能用來推演和預(yù)測。然而當(dāng)數(shù)據(jù)量的規(guī)模足夠大或者是在全數(shù)據(jù)模 式下,當(dāng)它超過了表現(xiàn)理論所需的臨界值,我們就能夠直接用大數(shù)據(jù)來描述該事 物了。4.2數(shù)據(jù)形式更雜(核心思想:混雜即能更全面)隨著信息時代的到來,信息的特征也在發(fā)生著重要的變化。4.2.1信息的記錄形式越來越豐富(多樣化)包括語音,視頻,電子郵件,GPS記錄的地理位置信息,微博上面發(fā)的內(nèi)容華華等等。4.2.2信息之間的組合方式越來越多(非結(jié)構(gòu)化)據(jù)調(diào)查,未來10年結(jié)構(gòu)化數(shù)據(jù)的增速約為32%,而非結(jié)構(gòu)化數(shù)據(jù)的增速則 將達(dá)
11、到63%,非結(jié)構(gòu)化信息將占到未來10年新生數(shù)據(jù)的90%。例如我們要收集 一個人的信息,除了他的姓名,電話號碼,家庭地址等結(jié)構(gòu)化信息,還可以借助 互聯(lián)網(wǎng)查看他的網(wǎng)頁瀏覽記錄,在Facebook上查看他的社會交際網(wǎng)以及上傳的 圖片或者發(fā)布的信息等等。4.3數(shù)據(jù)反映的關(guān)系更直接(核心思想:關(guān)聯(lián)物一預(yù)測的關(guān)鍵)事物的內(nèi)在規(guī)律是通過一系列的特征而表現(xiàn)出來的。特征一 特征三特征五模型一(目標(biāo)已知)關(guān)鍵點:關(guān)聯(lián)性目k特征二標(biāo)特征四k特征六從目標(biāo)紛繁的表象中找出與之最相關(guān)的一個作為關(guān)聯(lián)物。模型二(目標(biāo)未知)關(guān)鍵點:交叉性通過數(shù)據(jù)之間的交叉與組合來發(fā)現(xiàn)新的問題,創(chuàng)造新的價值。大數(shù)據(jù)理論模式的總結(jié):數(shù)據(jù)總量更大特
12、征數(shù)據(jù)更加全面(混雜)表現(xiàn)理論的臨界線相關(guān)關(guān)系直接反映數(shù)據(jù)量變數(shù)據(jù)質(zhì)變大數(shù)據(jù)的價值創(chuàng)造在大數(shù)據(jù)技術(shù)與大數(shù)據(jù)思維的影響下,傳統(tǒng)的交易行為將會發(fā)生重大的改 變,并且從中創(chuàng)造出巨大的價值。大數(shù)據(jù)價值創(chuàng)造的應(yīng)用包括兩個方面,分別從企業(yè)和顧客的角度出發(fā)將大數(shù) 據(jù)應(yīng)用分為顧客大數(shù)據(jù)和商品大數(shù)據(jù)。顧客大數(shù)據(jù)是指企業(yè)收集顧客的信息而建 立起來的一種大數(shù)據(jù)營銷模式;商品大數(shù)據(jù)是指消費者借助企業(yè)所提供的大數(shù)據(jù) 服務(wù)來為自己做消費規(guī)劃和消費決策。在顧客大數(shù)據(jù)中,企業(yè)先收集顧客的歷史交易數(shù)據(jù),還有通過顧客關(guān)系管理 所收集到的的交互數(shù)據(jù),然后通過技術(shù)處理對數(shù)據(jù)進(jìn)行分析,得出用戶的特征, 洞察用戶的喜好,建立顧客檔案。還
13、可以使用一些其他的方法,收集顧客的網(wǎng)站 瀏覽數(shù)據(jù)、社交數(shù)據(jù)和地理追蹤數(shù)據(jù)等,使得消費者描述更加完整更加細(xì)致。而 一旦在我們的數(shù)據(jù)庫中有了完整的顧客描述之后,我們就能用數(shù)據(jù)來分析顧客的 購物行為并且準(zhǔn)確地預(yù)測他們下一步的消費。另外,我們通過顧客的消費信息研 究其購買習(xí)慣,并且能識別出潛在的更有價值的目標(biāo)群體。進(jìn)一步,我們就能夠 優(yōu)化自身的營銷策略,調(diào)整商品庫存與商品之間的組合,向目標(biāo)顧客推薦他們最 感興趣的產(chǎn)品和服務(wù),從而達(dá)到個性化的精準(zhǔn)營銷。在這個過程中,企業(yè)能夠把 自身的資源最大程度地利用起來,減少了不必要的資源浪費,還能使得每位顧客 都享受到了最貼心最個性化的服務(wù),甚至企業(yè)還能從中挖掘出潛
14、在的新的價值。然而另一方面,在傳統(tǒng)的交易過程中,消費者一方往往會處于“信息洼地” 的不利位置。但是隨著大數(shù)據(jù)的發(fā)展,消費智能將會成為一個重要的趨勢。智能 消費是企業(yè)將數(shù)據(jù)分析作為一種服務(wù)提供給消費者,而不是像在商業(yè)智能時代, 數(shù)據(jù)僅被用作企業(yè)內(nèi)部的業(yè)務(wù)分析和決策支持。在傳統(tǒng)的消費過程中,顧客都是 根據(jù)以往自身的購物經(jīng)驗來進(jìn)行消費的,這其實又是一個從分析,計劃,實施, 最后再到檢驗的一種傳統(tǒng)認(rèn)知模式。但是在大數(shù)據(jù)所帶來的新型消費模式下,這 種情況也會得到改變。誠然依靠顧客自己是很難收集到大量的數(shù)據(jù)的,而且也完 全沒有必要。但是這種數(shù)據(jù)服務(wù)可由企業(yè)來提供,并且相關(guān)的數(shù)據(jù)分析處理過程 也交由企業(yè)來完
15、成。比如在日用品行業(yè),如果有顧客想要購買一瓶洗發(fā)水,他首 先就會依據(jù)以往的購物經(jīng)驗來作出選擇,如果他想要嘗試新的品牌那么他只好聽 從銷售員的推薦。但是在大數(shù)據(jù)支持下的智能型消費模式則完全不同,首先顧客 會依據(jù)自己的喜好來為洗發(fā)水做特征描述,例如想要什么功效什么香味等等,并 且輸入自己可接受的價格范圍,這時企業(yè)后臺的大型數(shù)據(jù)庫系統(tǒng)就會做出數(shù)據(jù)分 析,找出最符合顧客描述的商品,以及該商品以往的銷售記錄和銷售趨勢,并且 連接互聯(lián)網(wǎng)在網(wǎng)上自動搜尋其他顧客對該商品的評價。除此之外,企業(yè)還能為顧 客提供個人的消費規(guī)劃建議,根據(jù)搜集到的消費記錄告訴顧客每個月應(yīng)該在什么 時候需要購置什么商品,商品的價格趨勢會怎么變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 常州市溧陽中學(xué)高三地理二輪復(fù)習(xí)區(qū)域地理作業(yè)
- 2026年珠寶鑒定師能力(品質(zhì)評估)考題及答案
- 2025年大學(xué)環(huán)境工程(污水處理工藝設(shè)計)試題及答案
- 2026年專利代理師(專利法律知識)試題及答案
- 2026下半年托福(iBT)口語話題素材與應(yīng)答技巧
- 2025年中職水產(chǎn)養(yǎng)殖技術(shù)(成魚養(yǎng)殖)試題及答案
- 高一生物(真題演練)2027年上學(xué)期期末考核卷
- 2026年注冊公路工程師(專業(yè)考試)試題及答案
- 2025年大學(xué)自動化(機器人減排研究)試題及答案
- 金融科技 習(xí)題及答案題庫匯 - 第1-6章
- 俄語口語課件
- 2025廣西自然資源職業(yè)技術(shù)學(xué)院下半年招聘工作人員150人(公共基礎(chǔ)知識)綜合能力測試題帶答案解析
- django基于Hadoop的黑龍江旅游景點系統(tǒng)-論文11936字
- 2025-2026學(xué)年廣東省深圳市福田中學(xué)高一(上)期中物理試卷(含答案)
- 施工現(xiàn)場安全、文明考核管理辦法
- 香蕉購買協(xié)議書模板
- 神龍公司合并協(xié)議書
- 2025廣東中山市人力資源和社會保障局招聘雇員10人考試歷年真題匯編附答案解析
- 調(diào)度員崗位招聘考試試卷及答案
- UX 設(shè)計師崗位招聘考試試卷及答案
- 2026年高考語文押題作文8篇
評論
0/150
提交評論