大數據時代(生活工作與思維的大變革)_第1頁
大數據時代(生活工作與思維的大變革)_第2頁
大數據時代(生活工作與思維的大變革)_第3頁
大數據時代(生活工作與思維的大變革)_第4頁
大數據時代(生活工作與思維的大變革)_第5頁
已閱讀5頁,還剩243頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

版權信息本書紙版由浙江人民出版社于2012年12月出版作者授權湛廬文化(CheersPublishing)作中國大陸(地區(qū))電子版發(fā)行(限簡體中文)版權所有·侵權必究推薦序一擁抱“大數據時代”推薦序二實實在在大數據引言一場生活、工作與思維的大變革大數據,變革公共衛(wèi)生大數據,變革商業(yè)大數據,變革思維第一部分大數據時代的思維變革讓數據“發(fā)聲”小數據時代的隨機采樣,最少的數據獲得最多的信息全數據模式,樣本=總體 大數據的簡單算法比小數據的復雜算法更有效紛繁的數據越多越好新的數據庫設計的誕生關聯(lián)物,預測的關鍵第二部分大數據時代的商業(yè)變革 ”量化一切,數據化的核心當文字變成數據當方位變成數據當溝通變成數據世間萬物的數據化05價值:“取之不盡,用之不竭”的數據創(chuàng)新 給數據估值大數據價值鏈的3大構成大數據掌控公司大數據技術公司大數據思維公司和個人全新的數據中間商專家的消亡與數據科學家的崛起第三部分大數據時代的管理變革 無處不在的“第三只眼”我們的隱私被二次利用了數據獨裁掙脫大數據的困境 結語正在發(fā)生的未來參考文獻推薦序一擁抱“大數據時代”寬帶資本董事長田溯寧從硅谷到北京,大數據的話題正在被傳播。隨著智能手機以及“可佩帶”計算設備的出現(xiàn),我們的行為、位置,甚至身體生理數據等每一點變化都成為了可被記錄和分析的數據。以此為是和公眾機構,都是非常具有價值的。的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之社交網絡、電子商務與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結構與非結構數據信息的新時代。在云計算出現(xiàn)之前,傳統(tǒng)的計算機是無法處理如此量大、并且不規(guī)則的“非結構數據”的。以云計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、個是問題,一個是解決問題的方法。通過云計算對大數據進行分析、預測,會使得決策更為精準,釋放出更多數據的隱藏價值。數據,這個21世紀人類探索的新邊疆,正在被云計算發(fā)現(xiàn)、征服?!洞髷祿r代》列舉了眾多在公共衛(wèi)生、商業(yè)服務領域大數據變革的例子。一旦“不再追求精確度,不再追求因果關系,而是承認混雜性,探索相關關系”,“思維轉變過來,數據就能被巧妙地用來激發(fā)新產品和新型服務”。數據正成為巨大的經濟資產,成為新世紀的礦產與石油,將帶來全新的創(chuàng)業(yè)方向、商業(yè)模式和投資機會。龐大的人群和應用市場,復雜性高、充滿變化,使得中國成為世界上最復雜的大數據國家。解決這種由大規(guī)模數據引發(fā)的問題,探索以大數據為基礎的解決方案,是中國產業(yè)升級、效率提高的重要手段。數據挖掘不僅能夠成為公司競爭力的來源,也將成為國家競爭力的一部分。聯(lián)系到我國現(xiàn)代化所面臨的種種問題以及教育、交通、醫(yī)療保健等各方面挑戰(zhàn),通過大數變,意義就更大?!按髷祿卑l(fā)展的障礙,在于數據的“流動性”和“可獲取性”。美國政府創(chuàng)建了D網站,界應該首先開始嘗試公開數據、方式與方法。如同工業(yè)革命要開放物質交易、流通一樣,開放、流通的數據是時代趨勢的要求?!洞髷祿r代》一書也提到了數據擁有權、隱私性保護等問題,但相比較來看,新科技可能帶來的改變要遠遠大于其存在的問題。本書的譯者周濤教授是我國最年輕有為的大數據專家。這位27歲的天才型教授,數年來一直帶領我國學術界在大數據研究上向國際一流看齊。更可貴的是,他不僅做研究,也關注著研究成果的商業(yè)化及傳播。這部譯著就是他這種努力的一個成果。國與世界的距離最小,在很多領域甚至還有著創(chuàng)新與領先的可能。只要我們以開放的心態(tài)、創(chuàng)新的勇氣擁抱“大數據時代”,就一定會抓住歷史賦予中國創(chuàng)新的機會。推薦序二實實在在大數據因為我本身十分關注大數據,也寫過若干關于大數據的文章,做過若干關于大數據的演講,所以對有關這一主題的論文和書籍非常有興趣。過去幾年,在這方面我讀過十幾本書、上此書的一大貢獻就是在大數據方興未艾、眾說紛紜的時刻,進一步闡述和厘清了大數據的基本概念和特點,這對許多以為大數據就是“數據大”的人來說很有幫助。在人類歷史長河中,即使是在現(xiàn)代社會日新月異的發(fā)展中,人們還主要是依賴抽樣數據、局部數據和片面數據,甚至在無法獲得實證數據的時候純粹依賴經驗、理論、假設和價值觀去發(fā)現(xiàn)未知領域的規(guī)律。因此,人們對世界的認識往往是表面的、膚淺的、簡單的、扭曲的或者是無知的。維克托指出,大數據時代的來臨使人類第一次有機會和條件,在非常多的領域和非常深入的層次獲得和使用全面數據、完整數據和系統(tǒng)數據,深入探索現(xiàn)實世界的規(guī)律,獲取過去不可能獲取的知識,得到過去無法企及的商機。大數據的出現(xiàn),使得通過數據分析獲得知識、商機和社會服務的能力從以往局限于少數象牙塔之中的學術精英圈子擴大到了普通的機構、企業(yè)和政府部門。門檻的降低直接導致了數據的容錯率提高和成本的降低,但正如維克托所強調的,最重要的是人們可以在很大程度上從對于因果關系的追求中解脫出來,轉而將注意力放在相關關系的發(fā)現(xiàn)和使用上。只要發(fā)現(xiàn)了兩個現(xiàn)象之間存在的顯著相關性,就可以創(chuàng)造巨大的經濟或社會效益,而弄清二者為什么相關可以留待學者們慢慢研究。大數據之所以可能成為一個“時代”,在很大程度上是因為這是一個可以的社會運動,而不僅僅是少數專家學者的研究對象。大數據將逐漸成為現(xiàn)代社會基礎設施的一部分,就像公路、鐵路、港口、水電和通信網絡學、社會學和許多科學門類都會發(fā)生巨大甚至是本質上的變化和發(fā)展,進而影響人類的價值體系、知識體系和生活方式。哲學史上爭論不休的世界可知論和不可知論將會轉變?yōu)閷嵶C科學中對于不從事網絡業(yè)、IT業(yè)以及數據分析和使用的讀者,本書的一大好處就是通俗易懂,通明問題,有助于人們的理解和聯(lián)想。在時限上,作者概括了直到2012年7月大數據方向上的最新發(fā)展,避免了許多同類作品存在的例證過于陳舊、視野相對狹窄的毛病。作為一位生活在歐美現(xiàn)代社會的學者,維克托是把民主、開放和理性作為已知前提來討論大數據革命的。這對生活在發(fā)展中國家,社會現(xiàn)代化程度尚且有限的讀者來說,也許是個遺憾,因為書中描述的許多已經發(fā)生的事例可能更像是神話。沒有市場經濟制度和法治體系作為基礎支撐,大數據很可能成為發(fā)達國家在下一輪全球化競爭中的利器,而發(fā)展中國家依然處于被動依附的狀態(tài)之中。整個世界可能被割裂為大數據時代、小數據時代和無數據時代。,在過去的今適逢世界走向數據化,邁入大數據時代的時刻,無論對個人、企業(yè)還是對社會和國家,都有認真理解、嚴肅決策的必要性和緊迫性。哪怕僅從這一點考慮,讀一讀這本書也是很值得的。譯者序在路上·晃晃悠悠電子科技大學教授,互聯(lián)網科學中心主任周濤爾-舍恩伯格畢竟不像我們每天在一線與數據廝殺搏斗,其愛其恨都更深刻。特別地,我們可以為中文的讀者補充很多中國的例子和參考資料。很遺憾,我們最終只做到了90%,應該補充的一些材料還沒有整理好,遣詞造句也多有生硬疏忽之處。如果再給我一個月的時間,就可以達為什么現(xiàn)在把這個版本呈現(xiàn)給諸位呢?一是因為我們的努力使得本書中譯本的出版和英文原版完全同步,單從獲取知識的角度講,我們一點兒不比美國的讀者慢!二是我相信作者在書中的一個重要觀點,就是大數據時代,要允許一點點的錯誤和不完美,因為效率可能更加重是建議你等到某個更好的版本才去購買,而是說,其實你應該每個版本都買一本:)大數據時代處理數據理念上的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要據化和數據交叉復用的巨大價值兩個方面,講述驅動大數據戰(zhàn)車在作者冷靜描繪了大數據帝國前夜的脆弱和不安,包括產業(yè)生態(tài)環(huán)境、數據安全隱私、信息公正公開等問題。國內最近也出版了一些大數據方面的著作,可以和本書互為補充。鄭毅的《證析》對于數據通過交叉復用體現(xiàn)的新價值、大數據戰(zhàn)略在企業(yè)與政府執(zhí)行層面的流程和大數據科學家這一的能力和責任給出了最深刻、最具體的描述;子沛的《大數據》對于數據的公正性、公平性以及信息和數據管理等方面理念、政策和執(zhí)行的變化,特別是美國在大數據時代最重要的技術——個性化技術,以及與之相關的新商業(yè)模式給出了從理念到技術細節(jié)的全景工筆??偟膩碚f,這三本書都針對本書的某一局部給出了更深刻的介紹和洞見,也各有明顯超出本書的優(yōu)點,但三本之和也無法囊括本書的菁華,亦缺乏本書的宏大視野。簡單地說,這本書好在三個地方:一是觀點擲地有聲,絕非主流媒體上若干討論的簡單匯總和平均,更不是一個宏大概念面前曖昧的叫好聲。讀者可能對其中一些觀點并不認同,但是讀完之后不可能一個都記不住。二是觀念高屋建瓴,作者試圖從很多實例和經驗,包括歷史事件中萃取出普適性的觀念,而不僅僅是適用于幾個特定情況的案例分析。三是例子豐富翔實,不長的篇幅包括了上百個學術和商業(yè)的實例。知識,以及,可能更為厚的雜志。我在這里拼命叫好,是為了這本書賣得更多,但不代表作者的所有觀點都是絕對真理。舉個例子,我本人對于大數據時代“相關關系比因果關系更重要”這個觀點就不認同。有了機器學習,特別是集成學習,我們解決問題的方式變成了訓練所有可能的模型和擬合所有可能的參數成千上萬的參數擬合值里面讀到“科學”,我們讀到的只是“計算機工程”。與其說大數據讓我們重視相關勝于因果,不如說機器學習和以結果為導向的研究思路讓我們變成這樣。那么,大數據是不是都這樣呢?其實很多時候恰恰相反。想想瑞士日內瓦的強子對撞機,我們在上面捕獲了人類有史以來最大規(guī)模的單位時間數據。我們是希望找到或者驗證某種相關玻色子是否存在,我們的宇宙是否有可能用標準模型刻畫。這個問題的最終答案,將打破人和神的界限!認為相關重于因果,是某些有代表性的大數據分析手段(譬如機器學習)里面內稟的實用主義的魅影,絕非大數據自身的訴求。從小處講,作者試圖避免的“數據的獨裁”和“錯誤的前提導致錯誤的結論”,其解決之道恰在于挖掘因果邏輯而非相關性;從大處講,放棄對因果性的追求,就是放棄了人類凌駕于計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落。如果未來某一天機器和計算完全接管了這個世界,那么這種放棄就是末日之始。某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題,所以,它們似乎將有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅入某種新實證科學的法寶,作為可以用來建構一個綜合分析體系的概念軸心。這種‘宏大概念’突然流行起來,一時間把幾乎所有的東西都擠到了一邊。這段話通常被認為是對當時“存在主義”和“精神分析法”這類萬能概念的善意批評,而如今特別適合作為一盆冷水潑在那些沒有任何深刻理解,卻月月日日分分秒秒穿行于各種“大數據嘉年華”的投資人、媒體人和創(chuàng)業(yè)者身上。希望《大數據時代》給予各位的是一些實實在在的知識和思考,并且喚起各位安靜思索相關問題的心境。大數據是一個很重要的概念,代表了很重要的趨勢,但我不希望它成為一種放 (CliffordGeertz)在其著作《文化的解釋》中曾給出了一個樸素而冷靜的勸說:“努力在可以應用、可以拓展的地方,應用它、拓展它;在不能應用、不能拓展的地方,就停下來?!蔽蚁?,這應該是所有人面對一個新領域或新概念時應有的態(tài)度。大數據的道路上沒有戈多,我們已經在路上,晃晃悠悠。人類的自由意志和諸神之下的尊不知道世界的盡頭,是否是一個冷酷的仙境!諸位為之奮斗吧,而我只想,做一個,麥田里的守望者。以為序。引言一場生活、工作與思維的大變革大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務的源【大數據先鋒】谷歌搜索與流感預測Farecast機票價預測系統(tǒng)天文學,信息爆炸的起源2009年出現(xiàn)了一種新的流感病毒。這種甲型H1N1流感結合了導致禽流感和豬流感的病毒的特點,在短短幾周之內迅速傳播開來。全球的公共衛(wèi)生機構都擔心一場致命的流行病即將來襲。有的評論家甚至警告說,可能會爆發(fā)大規(guī)模流感,類似于1918年在西班牙爆發(fā)的影響了5億人口并奪走了數千萬人性命的大規(guī)模流感。更糟糕的是,我們還沒有研發(fā)出對抗這種新型流感病毒的疫苗。公共衛(wèi)生專家能做的只是減慢它傳播的速度。但要做到這一點,他們必須先知道這種流感出現(xiàn)在哪里。美國,和所有其他國家一樣,都要求醫(yī)生在發(fā)現(xiàn)新型流感病例時告知疾病控制與預防中心。但由于人們可能患病多日實在受不了了才會去醫(yī)院,同時這個信息傳達回疾控中心也需要時間,因此,通告新流感病例時往往會有一兩周的延遲。而且,疾控中心每周只進行一次數據匯總。然而,對于一種飛速傳播的疾病,信息滯后兩周的后果將是致命的。這種滯后導致公共衛(wèi)生機構在疫情爆發(fā)的關鍵時期反而無所適從。在甲型H1N1流感爆發(fā)的幾周前,互聯(lián)網巨頭谷歌公司的工程師們在《自然》雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計算機科學家們感到震驚。文中解釋了谷歌為什么能夠預測冬季流感的傳播:不僅是全美范圍的傳播,而且可以具體到特定的地區(qū)和州。谷歌通過觀察人們在網上的搜索記錄來完成這個預測,而這種方法以前一直是被忽略的。谷歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數據資源足以支撐和幫助它完成這項工作。谷歌公司把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時期的數據進行了比較。他們希望通過分析人們的搜索記錄來判斷這些人是否患上了流感,其他公司也曾試圖確定這些相關的詞條,但是他們缺乏像谷歌公司一樣龐大的數據資源、處理能力和統(tǒng)計技術。雖然谷歌公司的員工猜測,特定的檢索詞條是為了在網絡上得到關于流感的信息,如“哪些是治療咳嗽和發(fā)熱的藥物”,但是找出這些詞條并不是重點,他們也不知道哪些詞條更重要。更關鍵的是,他們建立的系統(tǒng)并不依賴于這樣的語義理解。他們設立的這個系統(tǒng)唯一關注的就是特定檢索詞條的使用頻率與流感在時間和空間上的傳播之間的聯(lián)系。谷歌公司為了測試這些檢記錄的實際流感病例進行對比后,谷歌公司發(fā)現(xiàn),他們的軟件發(fā)現(xiàn)了45條檢索詞條的組合,將它們用于一個特定的數學模型后,他們的預測與官方數據的相關性高達97%。和疾控中心一樣,他們也能判斷出流感是從哪里傳播出來的,而且判斷非常及時,不會像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。型H1N1流感爆發(fā)的時候,與習慣性滯后的官方數據相比,谷歌成為了一個更有效、更及時的指示標。公共衛(wèi)生機構的官員獲得了非常有價值的數據信息。驚人的是,谷歌公司的方法甚至不需要分發(fā)口腔試紙和聯(lián)系醫(yī)生——它是建立在大數據的基礎之上的。這是型能力:以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見?;谶@樣的技術理念和數據儲備,下一次流感來襲的時候,世界將會擁有一種更好的預測工具,以預防流感的傳播。大數據不僅改變了公共衛(wèi)生領域,整個商業(yè)領域都因為大數據而重新洗牌。購買飛機票就是一個很好的例子。2003年,奧倫·埃齊奧尼(OrenEtzioni)準備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,于是他在這個大喜日子來臨之前的幾個月,就在網上預訂了一張去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得知雖然那個人的機票比他買得更晚,但是票價卻比他便宜得多時,他感到非常氣憤。于是,他又詢問了另外幾個乘客,結果發(fā)現(xiàn)大家買的票居然都比他的便宜。對大多數人來說,這種被敲竹杠的感覺也許會隨著他們走下飛機而消失。然而,埃齊奧尼是美國最有名的計算機專家之一,從他擔任華盛頓大學人工智能項目的負責人開始,他創(chuàng)立了許多在今天看來非常典型的大數據公司,而那時候還沒有人提出“大數據”這個概念。otExcite文本中挖掘信息的公司ClearForest則被路透社收購了。在他眼中,世界就是一系列的大數據問題,而且他認為自己有能力解決這些問題。作為哈佛大學首屆計算機科學專業(yè)的本科畢業(yè)生,自1986年畢業(yè)以來,他也一直致力于解決這些問題。飛機著陸之后,埃齊奧尼下定決心要幫助人們開發(fā)一個系統(tǒng),用來推測當前網頁上的機票同一架飛機上每個座位的價格本來不應該有差別。但實際上,價格卻千差萬別,其中緣由只有航空公司自己清楚。埃齊奧尼表示,他不需要去解開機票價格差異的奧秘。他要做的僅僅是預測當前的機票價格在未來一段時間內會上漲還是下降。這個想法是可行的,但操作起來并不是那么簡單。這個系統(tǒng)需要分析所有特定航線機票的銷售價格并確定票價與提前購買天數的關系。如果一張機票的平均價格呈下降趨勢,系統(tǒng)就會幫助用戶做出稍后再購票的明智選擇。反過來,如果一張機票的平均價格呈上漲趨勢,系統(tǒng)就會提醒用戶立刻購買該機票。換言之,這是埃齊奧尼針對9000米高空開發(fā)的一個加強版的信息預測系統(tǒng)。這確實是一個浩大的計算機科學項目。不過,這個項目是可行的。于是,埃齊奧尼開始著手啟動這個項目。埃齊奧尼創(chuàng)立了一個預測系統(tǒng),它幫助虛擬的乘客節(jié)省了很多錢。這個預測系統(tǒng)建立在41天之內的12000個價格樣本基礎之上,而這些數據都是從一個旅游網站上爬取過來的。這個預測系統(tǒng)并不能說明原因,只能推測會發(fā)生什么。也就是說,它不知道是哪些因素導致了機票價格的波動。機票降價是因為有很多沒賣掉的座位、季節(jié)性原因,還是所謂的“周六晚上不出門”,它都不知道。這個系統(tǒng)只知道利用其他航班的數據來預測未來機票價格的走勢。“買還是不買,這個小項目逐漸發(fā)展成為一家得到了風險投資基金支持的科技創(chuàng)業(yè)公司,名為Farecast。通過預測機票價格的走勢以及增降幅度,F(xiàn)arecast票價預測工具能幫助消費者抓住最佳購買時機,而在此之前還沒有其他網站能讓消費者獲得這些信息。這個系統(tǒng)為了保障自身的透明度,會把對機票價格走勢預測的可信度標示出來,供消費者參考。系統(tǒng)的運轉需要海量數據的支持。為了提高預測的準確性,埃齊奧尼找到了一個行業(yè)機票預訂數據庫。而系統(tǒng)的預測結果是根據美國商業(yè)航空產業(yè)中,每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出的。如今,F(xiàn)arecast已經擁有驚人的約2000億條飛行數棕色的頭發(fā),露齒的笑容,無邪的面孔,這就是奧倫·埃齊奧尼。他看上去完全不像是一個會讓航空業(yè)損失數百萬潛在收入的人。但事實上,他的目光放得更長遠。2008年,埃齊奧尼計劃將這項技術應用到其他領域,比如賓館預訂、二手車購買等。只要這些領域內的產品差異不大,同時存在大幅度的價格差和大量可運用的數據,就都可以應用這項技術。但是在他實現(xiàn)計劃之前,微軟公司找上了他并以1.1億美元的價格收購了Farecast公司。而后,這個系統(tǒng)被并入必應搜索引擎。大數據的力量到2012年為止,F(xiàn)arecast系統(tǒng)用了將近十萬億條價格記錄來幫助預測美國國內航班的票價。Farecast票價預測的準確度已經高達75%,使用Farecast票價預測工具購買機票的旅客,平均每張機票可節(jié)省50美元。能力和存儲能力太昂貴了!雖說技術上的突破是這一切得以發(fā)生的主要原因,但也有一些細微而重要的改變正在發(fā)生,特別是人們關于如何使用數據的理念。以用來預測和評估疾病的流行。有興趣的讀者可以參考2010年第12期《科學通報》上名為“H1N1甲型流感全球航空傳播與早期譯者注人們不再認為數據是靜止和陳舊的。但在以前,一旦完成了收集數據的目的之后,數據就會被認為已經沒有用處了。比方說,在飛機降落之后,票價數據就沒有用了(對谷歌而言,則是一個檢索命令完成之后)。[1]大數據洞察如今,數據已經成為了一種商業(yè)資本,一項重要的經濟投入,可以創(chuàng)造新的經濟利益。事實上,一旦思維轉變過來,數據就能被巧妙地用來激發(fā)新產品和新型服務。數據的奧妙只為謙遜、愿意聆聽且掌握了聆聽手段的人所知。信息社會所帶來的好處是顯而易見的:每個人口袋里都揣有一部手機,每臺辦公桌上都放有一臺電腦,每間辦公室內都擁有一個大型局域網。但是,信息本身的用處卻并沒有如此引人注目。半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導致了信息形態(tài)的變化——量變引發(fā)了質變。最先經歷信息爆炸的學科,如天文學和基因學,創(chuàng)造出了“大數據”這個概念[2]。如今,這個概念幾乎應用到了所有人類致力于發(fā)展的領域中。大數據并非一個確切的概念。最初,這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具。這導致了新的處理技術的誕生,例如谷歌的MapReduce和開源Hadoop平臺(最初源于雅虎)。這些技術使得人們可以處理的數據量大大增加。更重要的是,這些數據不再需要用傳統(tǒng)的數據庫表格來整可以收集大量有價值的數據,而且有利用這些數據的強烈的利益驅動力,所以互聯(lián)網公司順理成章地成為了最新處理技術的領頭實踐者。它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。今天,一種可能的方式是,亦是本書采取的方式,認為大數據是人們在大規(guī)模數據的基礎上可以做到的事情,而這些事情在小規(guī)模數據的基礎上是無法完成的。大數據是人們獲得新的認知、創(chuàng)造新的價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關系的方大數據洞察最驚人的是,社會需要放棄它對因果關系的渴求,而僅需關注相關關系。也就是說只需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而我們做決定和理解現(xiàn)實的最基本方式也將受到挑戰(zhàn)。[1]設計人員如果沒有大數據的理念,就會丟失掉很多有價值的數據。譬如中國某城市的公交車因為價格不依賴于起點和終點,所以能夠反映重要通勤信息的數據被工作人員“自作主[2]有興趣的讀者可以參考2008年9月4日《自然》推出的名為“大數據”的專刊?!g者注[3]這些都是傳統(tǒng)數據庫結構化查詢語言(SQL)的要求,非關系型數據庫(NoSQL)不再大數據開啟了一次重大的時代轉型。與其他新技術一樣,大數據也必然要經歷硅谷臭名昭們正確理解正在發(fā)生的變革的重要性。就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測微生物,這種能夠收集和分析海量數據的新技術將幫助我們更好地理解世界——這種理解世界的新方法我們現(xiàn)在才意識到。本書旨在如實表達出大數據的內涵,而不會過分熱捧它。當然,真正的革命并不在于分析數據的機器,而在于數據本身和我們如何運用數據。大數據先鋒天文學,信息爆炸的起源只有考慮到社會各個方面的變化趨勢,我們才能真正意識到信息爆炸已經到來。我們的數的時候,位于新墨西哥州的望遠鏡在短短幾周內收集到的數據,已經比天文學歷史上總共收集的大型視場全景巡天望遠鏡(LargeSynopticSurveyTelescope)能在五天之內就獲得同樣多的信息。天文學領域的變化在各個領域都在發(fā)生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了十年才完成了三十億對堿基對的排序。大約十年之后,世界范圍內的基因儀每15分鐘就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是由建立在數學模型和算法之上的計算機程序自動完成的。這些程序運用海量數據來預測利益和降低風險。互聯(lián)網公司更是要被數據淹沒了。谷歌公司每天要處理超過24拍字節(jié)[2]的數據,這意味著其每天的數據處理量是美國國家圖書館所有紙質出版物所含數據量的上千倍。Facebook這個創(chuàng)立時間不足十年的公司,每天更新的照片量超過1000萬張,每天人們在網站上點擊“喜歡”(Like)按鈕或者寫評論大約有三十億次,這就為Facebook公司挖掘用戶喜好提供了大量的數據線索。與此同時,谷歌子公司YouTube每月接待多達8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。Twitter上的信息量幾乎每年翻一番,截止到2012年,每天都會發(fā)布超過4億條微博。從科學研究到醫(yī)療保險,從銀行業(yè)到互聯(lián)網,各個不同的領域都在講述著一個類似的故事,那就是爆發(fā)式增長的數據量。這種增長超過了我們創(chuàng)造機器的速度,甚至超過了我們的想象。我們周圍到底有多少數據?增長的速度有多快?許多人試圖測量出一個確切的數字。盡管測量的對象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學安嫩伯格通信學院的馬丁·希爾伯特(MartinHilbert)進行了一個比較全面的研究,他試圖得出人類所創(chuàng)片、音樂、視頻(模擬和數字),還包括電子游戲、電話、汽車導航和信件。馬丁·希爾伯特還以收視率和收聽率為基礎,對電視、電臺這些廣播媒體進行了研究。大數據的力量據他估算,2007年,人類大約存儲了超過300艾字節(jié)[3]的數據。下面這個比喻應該可以幫助人們更容易地理解這意味著什么了。一部完整的數字電影可以壓縮成一個GB的文件,而一個艾有趣的是,在2007年,所有數據中只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數據[5],其余全部是數字數據[6]。但在不久之前,情況卻完全不是這樣的。雖然1960年就有了“信息時代”和“數字村鎮(zhèn)”的概念,但實際上,這些概念仍然是相當新穎的。甚至在2000年的時候,數黑膠唱片和盒式磁帶這類媒介上。早期數字信息的數量是不多的。對于長期在網上沖浪和購書的人來說,那只是一個微小的部分。事實上,在1986年的時候,世界上約40%的計算能力都被運用在袖珍計算器上,那時候,所有個人電腦的處理能力之和還沒有所有袖珍計算器處理能力之和高。但是因為數字數據的快速增長,整個局勢很快就顛倒過來了。按照希爾伯特的說法,數字數據的數量每三年多就會翻一倍。相反,模擬數據的數量則基本上沒有增加。大數據的力量到2013年,世界上存儲的數據預計能達到約1.2澤字節(jié),其中非數字數據只占不到2%。這樣大的數據量意味著什么?如果把這些數據全部記在書中,這些書可以覆蓋整個美國52次。如果將之存儲在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以伸到月球。公元前3世紀,埃及的托勒密二世竭力收集了當時所有的書寫作品,所以偉大的亞歷山大圖書館可以代表世界上所有的知識量。[7]但當數字數據洪流席卷世界之后,每個地球人都可以獲得大量數據信息,相當于當時亞歷山大圖書館存儲的數據總量的320倍之多。事情真的在快速發(fā)展。人類存儲信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍。難怪人們會抱怨信息過量,因為每個人都受到了這種極速發(fā)展的沖擊。把眼光放遠一點,我們可以把時下的信息洪流與1439年前后古登堡發(fā)明印刷機[8]時造成的信年之間大約有800萬本書籍被印刷,比1200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當時的歐洲還占據了世界上相當部分的信息存儲份額),而如今大約每三年就能增長一倍。這種增長意味著什么呢?彼特·諾維格(PeterNorvig)是谷歌的人工智能專家,也曾任職于美國宇航局噴氣推進實驗室,他喜歡把這種增長與圖畫進行類比。首先,他要我們想想來自法國拉斯科洞穴壁畫上的標志性的馬。這些畫可以追溯到一萬七千年之前的舊石器時代。然后,想想一張馬的照片,再想想畢加索的畫也可以,看起來和那些洞穴壁畫沒有多大的差別。事實上,畢加索看到那些洞穴壁畫的時候就曾開玩笑說:“自那以后,我們就再也沒有創(chuàng)造出什么東他的話既正確又不完全正確。你回想一下壁畫上的那匹馬。當時要畫一幅馬需要花費很久的時間,而現(xiàn)在不需要那么久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說,想象一下,現(xiàn)在我們能每秒鐘播放24幅不同形態(tài)的馬的圖片,這就是一種由量變導致的質變:一部電影與一幅靜態(tài)的畫有本質上的區(qū)別!大數據學都告訴我們,當我們改變規(guī)模時,事物的狀態(tài)有時也會發(fā)生改變。我們就以納米技術為例。納米技術專注于把東西變小而不是變大。其原理就是當事物到達分子的級別時,它的物理性質就會發(fā)生改變。一旦你知道這些新的性質,你就可以用同樣的原料來做以前無法做的事情。銅本來是用來導電的物質,但它一旦到達納米級別就不能在磁場中導電了。銀離子具有抗菌性,但當它以分子形式存在的時候,這種性質會消失。一旦到達納米可以做很多在小數據量的基礎上無法完成的事情。有時候,我們認為約束我們生活的那些限制,對于世間萬物都有著同樣的約束力。事實上,盡管規(guī)律相同,但是我們能夠感受到的約束,很可能只對我們這樣尺度的事物起作用。對于人類來說,唯一一個最重要的物理定律便是萬有引力定律。這個定律無時無刻不在控制著我理宇宙中有效的約束是表面張力,這個張力可以讓它們在水上自由行走而不會掉下去。但人類對于表面張力毫不在意。對于萬有引力產生的約束效果而言,生物體的大小是非常重要的。類似地,對于信息而言,規(guī)模也是非常重要的。谷歌能夠幾近完美地給出和基于大量真實病例信息所得到的流感情的數據項。大數據洞察大數據的科學價值和社會價值正是體現(xiàn)在這里。一方面,對大數據的掌握程度可以轉化為教育、經濟、人文以及社會的其他各個領域。盡管我們仍處于大數據時代來臨的前夕,但我們的日常生活已經離不開它了。垃圾郵件過濾器可以自動過濾垃圾郵件,盡管它并不知道“發(fā)#票#銷#售”是“發(fā)票銷售”的一種變體。交友網站根據個人的性格與之前成功配對的情侶之間的關聯(lián)來進行新的配對。具有“自動改正”功能的智能手機通過分析我們以前的輸入,將個性化的新單詞添加到手機詞典里。然而,對于這些數僅只是一個開始。從可以自動轉彎和剎車的汽車,到IBM沃森超級電腦在游戲節(jié)目《危險邊緣》(Jeopardy)中打敗人類來看,這項技術終將改變我們所居住的星球上的許多東西。間的變化曲線?!g者注[5]模擬數據也稱為模擬量,相對于數字量而言,指的是取值范圍是連續(xù)的變量或者數值,例如聲音、圖像、溫度、壓力等。模擬數據一般采用模擬信號,例如用一系列連續(xù)變化的電磁[6]數字數據也稱為數字量,相對于模擬量而言,指的是取值范圍是離散的變量或者數值。數字數據則采用數字信號,例如用一系列斷續(xù)變化的電壓脈沖(如用恒定的正電壓表示二進制恒定的負電壓表示二進制數0)或光脈沖來表示?!g者注[7]亞歷山大圖書館藏書豐富,有據可考的超過50000卷(紙草卷),包括《荷馬史詩》、《幾何原本》等。亞歷山大圖書館建成之時正是中國戰(zhàn)國時代的末期,此時百家爭鳴,較有影響的十大家(儒、道、墨、法、名、陰陽、縱橫、雜、農、小說)多有著述,且已出現(xiàn)如《詩但也占據了世界知識量的相當份額?!g者注[8]據《中國出版史》記載,中國的畢昇早在11世紀40年代就發(fā)明了泥活字印刷,遠遠早于[9]這是一個美妙有趣的例子,但是對于學習物理的人來說總是有些怪異。顯然,萬有引力一如既往起著作用,不過是因為空氣阻力在不同密度和體積的物體上產生了不同的效果。如果大數據的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考。相反,它是把數學算法運用到海量的數據上來預測事情發(fā)生的可能性。一封郵件被作為垃圾郵件過濾掉的可能teh該是“the”的可能性,從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的范圍。當然,如果一個人能及時穿過馬路,那么他亂穿馬路時,車子就只需要稍稍減速就好。這些預測系統(tǒng)之所以能夠成功,關鍵在于它們是建立在海量數據的基礎之上的。此外,隨著系統(tǒng)接收到的數據越來越多,它們可以聰明到自動搜索在不久的將來,世界許多現(xiàn)在單純依靠人類判斷力的領域都會被計算機系統(tǒng)所改變甚至取代。計算機系統(tǒng)可以發(fā)揮作用的領域遠遠不止駕駛和交友,還有更多更復雜的任務。別忘了,亞馬遜可以幫我們推薦想要的書,谷歌可以為關聯(lián)網站排序,F(xiàn)acebook知道我們的喜好,而至是識別潛在犯罪分子上。就像互聯(lián)網通過給計算機添加通信功能而改變了世界,大數據也將改變我們生活中最重要的方面,因為它為我們的生活創(chuàng)造了前所未有的可量化的維度。大數據已經成為了新發(fā)明和新服務的源泉,而更多的改變正蓄勢待發(fā)。[1]系統(tǒng)可以通過一種“反饋學習”的機制,利用自己產生的數據判斷自身算法和參數選擇的[2]這些任務都和個性化技術相關,包括個性化排序和個性化推薦。個性化技術是大數據時代最重要的技術,這里向專業(yè)讀者推薦呂琳媛等人2012年在《PhysicsReports》上發(fā)表的名大數據的精髓在于我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法。第一個轉變就是,在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現(xiàn)象相關的所有數據,而不再依賴于隨機采樣。這部分內容將在第1章闡述。19世紀以來,當面臨大量數據時,社會都依賴于采樣分析。但是采樣分析是信息缺乏時代和信息流通受限制的模擬數據時代的產物。以前我們通常把這看成是理所當然的限制,但高性能數字技術的流行讓我們意識到,這其實是一種人為的限制。與局限在小數據范圍相比,使用一切數據為我們帶來了更高的精確性,也讓我們看到了一些以前無法發(fā)現(xiàn)的細節(jié)——大數據讓我們更清楚地看到了樣本無法揭示的細節(jié)信息。將在第2章闡述。當我們測量事物的能力受限時,關注最重要的事情和獲取最精確的結果是可取的。如果購買者不知道牛群里有80頭牛還是100頭牛,那么交易就無法進行。直到今天,我們的數字技術依然建立在精準的基礎上。我們假設只要電子數據表格把數據排序,數據庫引擎就可以找出和我們檢索的內容完全一致的檢索記錄。這種思維方式適用于掌握“小數據量”的情況,因為需要分析的數據很少,所以我們必須盡某些方面,我們已經意識到了差別。例如,一個小商店在晚上打烊的時候要把收銀臺里的每分錢都數清楚,但是我們不會、也不可能用“分”這個單位去精確度量國民生產總值。隨著規(guī)模的擴大,對精確度的癡迷將減弱。達到精確需要有專業(yè)的數據庫。針對小數據量和特定事情,追求精確性依然是可行的,比如一個人的銀行賬戶上是否有足夠的錢開具支票。但是,在這個大數據時代,很多時候,追求精確度已經變得不可行,甚至不受歡迎了。當我們擁有海量即時數據時,絕對的精準不再是我們追求的主要目標。大數據紛繁多樣,優(yōu)劣摻雜,分布在全球多個服務器上。擁有了大數據,我們不再需要對是不再沉迷于此。適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。第三個轉變因前兩個轉變而促成,即我們不再熱衷于尋找因果關系。這部分內容將在第3章闡述。尋找因果關系是人類長久以來的習慣。即使確定因果關系很困難而且用途不大,人類還是習慣性地尋找緣由。相反,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系,這會給我們提供非常新穎且有價值的觀點。相關關系也許不能準確地告知我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經足夠大了。如果數百萬條電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體時機,就算不知道機票價格瘋狂變動的原因也無所謂了。大數據告訴我們“是什么”而不是“為什么”。在大數據時代,我們不必知道現(xiàn)象背后的原因,我們只要讓數據自己發(fā)聲。我們不再需要在還沒有收集數據之前,就把我們的分析建立在早已設立的少量假設的基礎之上。讓數據發(fā)聲,我們會注意到很多以前從來沒有意識到的聯(lián)系的存在。例如,對沖基金通過剖析社交網絡Twitter上的數據信息來預測股市的表現(xiàn);亞馬遜和奈飛 用戶的社交網絡圖來得知用戶的喜好。當然,人類從數千年前就開始分析數據。古代美索不達米亞平原的記賬人員為了有效地跟蹤記錄信息發(fā)明了書寫。自從圣經時代開始,政府就通過進行人口普查來建立大型的國民數據庫。兩百多年來,精算師們也一直通過搜集大量的數據來進行風險規(guī)避。模擬時代的數據收集和分析極其耗時耗力,新問題的出現(xiàn)通常要求我們重新收集和分析數據。數字化的到來使得數據管理效率又向前邁出了重要的一步。數字化將模擬數據轉換成計算機可以讀取的數字數據,使得存儲和處理這些數據變得既便宜又容易,從而大大提高了數據管理效率。過去需要幾年時間才能完成的數據搜集,現(xiàn)在只要幾天就能完成。但是,光有改變還于模擬數據時代的設想,即數據庫只有單一的用途和價值,而正是我們使用的技術和方法加深了這種偏見。雖然數字化是促成向大數據轉變的重要原因,但僅有計算機的存在卻不足以實現(xiàn)大數據。我們沒有辦法準確描述現(xiàn)在正在發(fā)生的一切,但是在第4章將提到的“數據化”概念可以幫助我們大致了解這次變革。數據化意味著我們要從一切太陽底下的事物中汲取信息,甚至包括很多我們以前認為和“信息”根本搭不上邊的事情。比方說,一個人所在的位置、引擎的振動、橋梁的承重等。我們要通過量化的方法把這些內容轉化為數據。這就使得我們可以嘗試許多以前無法做到的事情,如根據引擎的散熱和振動來預測引擎是否會出現(xiàn)故障。這樣,我們就激發(fā)出了這些數據此前未被挖掘的潛在價值。大數據時代開啟了一場尋寶游戲,而人們對于數據的看法以及對于由因果關系向相關關系轉化時釋放出的潛在價值的態(tài)度,正是主宰這場游戲的關鍵。新興技術工具的使用使這一切成為可能。寶貝不止一件,每個數據集內部都隱藏著某些未被發(fā)掘的價值。這場發(fā)掘和利用數據價值的競賽正開始在全球上演。第5章和第6章將講述大數據如何改變了商業(yè)、市場和社會的本質。20世紀,價值已經從實就是電腦存儲和分析數據的方法取代電腦硬件成為了價值的源泉。數據成為了有價值的公司資產、重要的經濟投入和新型商業(yè)模式的基石。雖然數據還沒有被列入企業(yè)的資產負債表,但這只是一個時間問題。雖然有些數據處理技術已經出現(xiàn)了一段時間,但是它們只為調查局、研究所和世界上的一些巨頭公司所掌握。沃爾瑪和美國第一資本銀行(CapitalOne)率先將大數據運用在了零售業(yè)和變了整個行業(yè)。如今這些技術大多都實現(xiàn)了大眾化。大數據對個人的影響是最驚人的。在一個可能性和相關性占主導地位的世界里,專業(yè)性變得不那么重要了。行業(yè)專家不會消失,但是他們必須與數據表達的信息進行博弈。如同在電影《點球成金》(Moneyball)里,棒球星探們在統(tǒng)計學家面前相形見絀——直覺的判斷被迫讓位于精準的數據分析。這將迫使人們調整在管理、決策、人力資源和教育方面的傳統(tǒng)理念。我們大部分的習俗和慣例都建立在一個預設好的立場上,那就是我們用來進行決策的信息必須是少量、精確并且至關重要的。但是,當數據量變大、數據處理速度加快,而且數據變得不那么精確時,之前的那些預設立場就不復存在了。此外,因為數據量極為龐大,最后做出決策的將是機器而不是人類自己。第7章將會討論大數據的負面影響。在了解和監(jiān)視人類的行為方面,社會已經有了數千年的經驗。但是,如何來監(jiān)管一個算法系統(tǒng)呢?在信息化時代的早期,有一些政策專家就看到了信息化給人們的隱私權帶來的威脅,社會也已經建立起了龐大的規(guī)則體系來保障個人的信息安全。但是在大數據時代,這些規(guī)則都成了無用的馬其諾防線[2]。人們自愿在網絡上分享信息,而這種分享的能力成為了網絡服務的一個中心特征,而不再是一個需要規(guī)避的薄弱點了。對我們而言,危險不再是隱私的泄露,而是被預知的可能性——這些能預測我們可能生病、拖欠還款和犯罪的算法會讓我們無法購買保險、無法貸款、甚至在實施犯罪前就被預先逮捕。顯然,統(tǒng)計把大數據放在了首位,但即便如此,個人意志是否應該凌駕于大數據之上呢?就像出版印刷行業(yè)的發(fā)展推動國家立法保護言論自由(在此之前沒有出臺類似法律的必要,因為沒有太多的言論需要保護),大數據時代也需要新的規(guī)章制度來保衛(wèi)權勢面前的個人權利。政府機構和社會在控制和處理數據的方法上必須有全方位的改變。不可否認,我們進入了一個用數據進行預測的時代,雖然我們可能無法解釋其背后的原因。如果一個醫(yī)生只要求病人遵從醫(yī)囑,卻沒法說明醫(yī)學干預的合理性的話,情況會怎么樣呢?實際上,這是依靠大數據取得病理分析的醫(yī)生們一定會做的事情。還有司法系統(tǒng)的“合理證據”是不是應該改為“可能證據”呢?如果真是這樣,會對人類自由和尊嚴產生什么影響呢?我們在大數據時代倡導的一系列規(guī)范將在第8章進行介紹。這些規(guī)范建立在我們很熟悉的“小數據”時代發(fā)展并保留下來的規(guī)范的基礎之上。新環(huán)境要求舊規(guī)范與時俱進。大數據洞察大數據給社會帶來的益處將是多方面的。因為大數據已經成為解決緊迫世界性問題,如抑制全球變暖、消除疾病、提高執(zhí)政能力和發(fā)展經濟的一個有力武器。但是大數據時代也向我們提出了挑戰(zhàn),我們需要做好充足的準備迎接大數據技術給我們的機構和自身帶來的改變。大數據標志著人類在尋求量化和認識世界的道路上前進了一大步。過去不可計量、存儲、分析和共享的很多東西都被數據化了。擁有大量的數據和更多不那么精確的數據為我們理解世界打開了一扇新的大門。社會因此放棄了尋找因果關系的傳統(tǒng)偏好,開始挖掘相關關系的好處。尋找原因是一種現(xiàn)代社會的一神論,大數據推翻了這個論斷。但我們又陷入了一個歷史的困境,那就是我們活在一個“上帝已死”的時代。也就是說,我們曾經堅守的信念動搖了。諷刺的是,這些信念正在被“更好”的證據所取代。那么,從經驗中得來的與證據相矛盾的直覺、信念和迷惘應該充當什么角色呢?當世界由探求因果關系變成挖掘相關關系,我們怎樣才能既不損壞建立在因果推理基礎之上的社會繁榮和人類前行的基石,又取得實際的進步呢?本書意在們從何而來,并且提供當下亟需的指導,以應對眼前的利益和危險。[2]馬奇諾防線是法國在第一次世界大戰(zhàn)后,為防德軍入侵而在其東北邊境地區(qū)構筑的筑壘左翼迂回,進抵馬奇諾防線的后方,使防線喪失了作用?!榜R奇諾防線”現(xiàn)在用來意指看似表面堅第一部分大數據時代的思維變革當數據處理技術已經發(fā)生了翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數據,“樣本=總體”。【大數據先鋒】穿孔卡片與美國人口普查大數據與喬布斯的癌癥治療Xoom與跨境匯款異常交易報警巴拉巴西與第一次全社會層面的網絡分析讓數據“發(fā)聲”“大數據”全在于發(fā)現(xiàn)和理解信息內容及信息與信息之間的關系,然而直到最近,我們對此似乎還是難以把握。IBM的資深“大數據”專家杰夫·喬納斯(JeffJonas)提出要讓數據“說話”。從某種層面上來說,這聽起來很平常。人們使用數據已經有相當長一段時間了,無論是日常進行的大量非正式觀察,還是過去幾個世紀里在專業(yè)層面上用高級算法進行的量化研究,都與數據有關。在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。但當我們談論能“說話”的數據時,我們指的遠遠不止這些。實際上,大數據與三個重大的思維轉變有關,這三個轉變是相互聯(lián)系和相互作用的。●首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本?!衿浯?,我們樂于接受數據的紛繁復雜,而不再追求精確性?!褡詈?,我們的思想發(fā)生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。本章就將介紹第一個轉變:利用所有的數據,而不再僅僅依靠一小部分數據。很長一段時間以來,準確分析大量數據對我們而言都是一種挑戰(zhàn)。過去,因為記錄、儲存和分析數據的工具不夠好,我們只能收集少量數據進行分析,這讓我們一度很苦惱。為了讓分析變得簡單,我們會把數據量縮減到最少。這是一種無意識的自省:我們把與數據交流的困難看成是自然的,而沒有意識到這只是當時技術條件下的一種人為的限制。如今,技術條件已經以處理的數據依然是有限的,也永遠是有限的,但是我們可以處理的數據量已經大大地增加,而且未來會越來越多。在某些方面,我們依然沒有完全意識到自己擁有了能夠收集和處理更大規(guī)模數據的能力。我們還是在信息匱乏的假設下做很多事情,建立很多機構組織。我們假定自己只能收集到少量這是一個自我實現(xiàn)的過程。我們甚至發(fā)展了一些使用盡可能少的信可能少的數據來證實盡可能重大的發(fā)現(xiàn)。事實上,我們形成了一種習慣,那就是在我們的制度、處理過程和激勵機制中盡可能地減少數據的使用。為了理解大數據時代的轉變意味著什么,我們需要首先回顧一下過去。小數據時代的隨機采樣,最少的數據獲得最多的信息直到最近,私人企業(yè)和個人才擁有了大規(guī)模收集和分類數據的能力。在過去,這是只有教在很多國家,教會和政府是等同的。有記載的、最早的計數發(fā)生在公元前8000年的,當時蘇美爾的商人用黏土珠來記錄出售的商品。大規(guī)模的計數則是政府的事情。數千年來,政府都試圖通過收集信息來管理國民。以人口普查為例。據說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒主導實施的人口普查,提出了“每個人都必須納稅”,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。1086年的《末日審判書》(TheDoomsdayBook)對當時英國的人口、土地和財產做了一個前所未有的全面記載。皇家委員穿越整個國家對每個人、每件事》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。項耗資且費時的事情。國王威廉一世(KingWilliamI)在他發(fā)起的盡一個大概情況,實施人口普查的人也知道他們不可能準確記錄e算。hnGraunt的方法。他采用了一個新方法推算出鼠疫時期倫敦的人口數,這種方法就是后來的統(tǒng)計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。雖然后來證實他能夠得出正確的數據僅僅是因為運氣好,但在當時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此無論是進行人口普查還是其他大數據類的任務,人們還是一直使用一一清點這種“野蠻”的方法??紤]到人口普查的復雜性以及耗時耗費的特點,政府極少進行普查。古羅馬在擁有數十萬人口的時候每5年普查一次。美國憲法規(guī)定每10年進行一次人口普查,而隨著國家人口越來越變化的速度超過了人口普查局統(tǒng)計分析的能力。大數據先鋒穿孔卡片與美國人口普查數據匯總。因此,他們獲得的很多數據都是過時的。1890年進行的人口普查,預計要花費13年的時間來匯總數據。即使不考慮這種情況違反了憲法規(guī)定,它也是很荒謬的。然而,因為稅收分攤和國會代表人數確定都是建立在人口的基礎上的,所以必須要得到正確的數據,而且必須是及時的數據。美國人口普查局面臨的問題與當代商人和科學家遇到的問題很相似。很明顯,當他們被數據淹沒的時候,已有的數據處理工具已經難以應付了,所以就需要有更多的新技術。后來,美國人口普查局就和當時的美國發(fā)明家赫爾曼·霍爾瑞斯(HermanHollerith)簽訂了一個協(xié)議,用他的穿孔卡片制表機來完成1890年的人口普查。經過大量的努力,霍爾瑞斯成功地在1年時間內完成了人口普查的數據匯總工作。這簡直就志著自動處理數據的開端,也為后來IBM公司的成立奠定了基礎。但是,將其作為收集處理大數據的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進行統(tǒng)計。這么麻煩的情況下,很難想象如果不足十年就要進行一次人口普查應該怎么辦。但是,對于一個跨越式發(fā)展的國家而言,十年一次的人口普查的滯后性已經讓普查失去了大部分意義。這就是問題所在,是利用所有的數據還是僅僅采用一部分呢?最明智的自然是得到有關被分析事物的所有數據,但是當數量無比龐大時,這又不太現(xiàn)實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當的方法。1934年,波蘭統(tǒng)計學家耶日·奈曼(Jerzyan統(tǒng)計學家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數量抽樣調查有著很高的精確性,精確度甚至超過了對所有人進行調查時的97%[3]。這是真的,不管是調查10萬人還是1億人,20次調查里有19次都能猜對。為什么會這樣?原因很復雜,但是有一個比較簡單的解釋就是,當樣本數量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。認為樣本選擇的隨機性比樣本數量更重要,這種觀點是非常有見地的。這種觀點為我們開辟了一條收集信息的新道路。通過收集隨機樣本,我們可以用較少的花費做出高精準度的推斷。因此,政府每年都可以用隨機采樣的方法進行小規(guī)模的人口普查,而不是只能每十年進行。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機采樣的方法對經濟和人口進行200多次小規(guī)模的調查。當收集和分析數據都不容易時,隨機采樣就成為應對信息采集困難的辦法。量和提升商品品質變得更容易,花費也更少。以前,全面的質量監(jiān)管要求對生產出來的每個產品進行檢查,而現(xiàn)在只需從一批商品中隨機抽取部分樣品進行檢查引進了零售行業(yè),將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。隨機采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在許多固有的缺陷。[4]它的成功依賴于采樣的絕對隨機性,但是實現(xiàn)采樣的隨機性非常困難。一旦采樣過程中存在任何偏缺乏隨機性,因為沒有考慮到只使用移動電話的用戶——這些用戶一般更年輕和更熱愛自由。沒有考慮到這些用咨詢公司、皮尤研究中心(Pew)、美國廣播公司和《華盛頓郵報》社這些主要的民調組織都發(fā)現(xiàn),如果他們不把移動用戶考慮進來,民意測試結果就會出現(xiàn)三個點的偏差,而一旦考慮進來,偏差就只有一個點。鑒于這次大選的票數差距極其微弱,這已經是非常大的偏差了。次競選中的投票意向。如果采樣時足夠隨機,這份調查的結果就有可能在3%的誤差范圍內顯示全民的意向。但是如果這個3%左右的誤差本來就是不確定的,卻又把這個調查結果根據性別、地域和收入進行細分,結果是不是越來越不準確呢?用這些細分過后的結果來表現(xiàn)全民的意“東北部的富裕女性”,調查的人數就遠遠少于1000人了。即使是完全隨機的調查,倘若只用了幾十個人來預測整個東北部富裕精確結果?。《?,一旦采樣過程中存在任何偏見,在細分領域所做的預測就會大錯特錯。領域起作用的方法在微觀領域失去了作用。隨機采樣就像是模擬照片打印,遠看很不錯,但是一旦聚焦某個點,就會變得模糊不清。隨機采樣也需要嚴密的安排和執(zhí)行。人們只能從采樣數據中得出事先設計好的問題的結果——千萬不要奢求采樣的數據還能回答你突然意識到的問題。所以雖說隨機采樣是一條捷徑,即調查得出的數據不可以重新分析以實現(xiàn)計劃之外的目的。DNA個人基因排序成為了一門新興產業(yè)。2012年,基因組解碼的價格跌破1000美元,這也是非正式的行業(yè)平均andme可以揭示出人類遺傳密碼中一些會導致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。公司對某人的一小部分DNA進行排序,標注出幾十個特定的基因缺陷。這只是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最后,23andme只能回答其標注過的基因組表新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問題,但不能回答事先未考慮到的問題。大數據先鋒大數據與喬布斯的癌癥治療蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用,這是23andme報價的幾百倍之多。所以,他得到的不是一個只有一系列標記的樣本,他得到了包括整個基因密碼的數據文檔。DNA使用的樣本足夠相似。但是,史蒂夫·喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變就是喬布斯所說的,“從一片睡蓮葉跳到另一片上?!眴滩妓归_玩笑說:“我要么是第一個通過這種方式戰(zhàn)勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人。”雖然他的愿望都沒有實現(xiàn),但是這種獲得所有數據而不僅是樣本的方法還是將他的生命延長了好幾年。在信息處理能力受限的時代,世界需要數據分析,卻缺少用來分析所收集數據的工具,因此隨機采樣應運而生,它也可以被視為那個時代的產物。如今,計算和制表不再像過去一樣困Twitter被動地收集了大量數據,而計算機可以輕易地對這些數據進行處理。采樣的目的就是用最少的數據得到最多的信息。當我們可以獲得海量數據的時候,它就沒有什么意義了。數據處理技術已經發(fā)生了翻天覆地的改變,但我們的方法和思維卻沒有跟上這種改變。采樣一直有一個被我們廣泛承認卻又總有意避開的缺陷,現(xiàn)在這個缺陷越來越難以忽視然我們別無選擇,只能利用采樣分析法來進行考察,但是在很多領域,從收集部分數據到收集盡可能多的數據的轉變已經發(fā)生了。如果可能的話,我們會收集正如我們所看到的,“樣本=總體”是指我們能對數據進行深度探討,而采樣幾乎無法達到這樣的效果。上面提到的有關采樣的例子證明,用采樣的方法分析整個人口的情況,正確率可達97%。對于某些事物來說,3%的錯誤率是可以接受的。但是你無法得到一些微觀細節(jié)的信息,甚至還會失去對某些特定子類別進行進一步研究的能力。我們不能滿足于正態(tài)分布一般中庸平凡的景象。生活中真正有趣的事情經常藏匿在細節(jié)之中,而采樣分析法卻無法捕捉到這些細節(jié)。谷歌流感趨勢預測并不是依賴于對隨機樣本的分析,而是分析了整個美國幾十億條互聯(lián)網檢索記錄。分析整個數據庫,而不是對一個小樣本進行分析,能夠提高微觀層面分析的準確性,甚至能夠推測出某個特定城市的流感狀況,而不只是一個州或是整個國家的情況。Farecast的初始系統(tǒng)使用的樣本包含12000個數據,所以取得了不錯的預測結果。隨著奧倫·埃齊奧尼不斷添加更多的數據,預測的結果越來越準確。最終,F(xiàn)arecast使用了每一條航線整整一年的價格數據來進行預測。埃齊奧尼說:“這只是一個暫時性的數據,隨著你收集的數據越來越多,你的預測結果會越來越準確?!彼裕覀儸F(xiàn)在經常會放棄樣本分析這條捷徑,選擇收集全面而完整的數據。我們需要足要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付這些難題已經變得簡單容易得多。曾經只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。通過使用所有的數據,我們可以發(fā)現(xiàn)如若不然則將會在大量數據中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數據才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進行對比。這是一個大數據問題。而且,因為交易是即時的,所以你的數據分析也應該是即時的。大數據先鋒Xoom與跨境匯款異常交易報警Xoom是一個專門從事跨境匯款業(yè)務的公司,它得到了很多擁有大數據的大公司的支持。它會分析一筆交易的所有相關數據。2011年,它注意到用“發(fā)現(xiàn)卡”從新澤西州匯款的交易量比正Kunze說:“這個系統(tǒng)關注的是不應該出現(xiàn)的情況。”單獨來看,每筆交易都是合法的,但是事實證明分析法錯過的信息。然而,使用所有的數據并不代表這是一項艱巨的任務。大數據中的“大”不是絕對意義上的大,雖然在大多數情況下是這個意思。谷歌流感趨勢預測建立在數億的數學模型上,而它們又建立在數十億數據節(jié)點的基礎之上。完整的人體基因組有約30億個堿基對。但這只是單純的數據節(jié)點的絕對數量,并不代表它們就是大數據。大數據是指不用隨機分析法這樣的捷徑,而采用所有數據的方法。谷歌流感趨勢和喬布斯的醫(yī)生們采取的就是大數據的方法。日本國民體育運動“相撲”中非法操縱比賽結果的發(fā)現(xiàn)過程,就恰到好處地說明了使用“樣本=總體”這種全數據模式的重要性。消極比賽一直被極力禁止,備受譴責,很多運動員深受困擾。芝加哥大學的一位很有前途的經濟學家斯蒂夫·列維特(StevenLevitt),在《美國經濟評論》上發(fā)表了一篇研究論文,其中提到了一種發(fā)現(xiàn)這種情況的方法:查看運動員過去所有的比賽資料。他的暢銷書《魔鬼經濟學》(Freakonomics)中也提到了這個觀點,他認為檢查所有的數據是非常有價值的。列維特和他的同事馬克·達根(MarkDuggan)使用了11年中超過64000場摔跤比賽的記錄,來尋找異常性。他們獲得了重大的發(fā)現(xiàn)。非法操縱比賽結果的情況確實時有發(fā)生,但是不會出現(xiàn)在大家很關注的比賽上。冠軍賽也有可能被操縱,但是數據顯示消極比賽主要還是出現(xiàn)在不太被關注的聯(lián)賽的后幾場中。這時基本上沒有什么風險,因為很多選手根本就沒有獲獎的希望。相撲比賽的一個比較特殊的地方是,選手需要在15場賽事中的大部分場次取得勝利才能保持排名和收入。這樣一來就會出現(xiàn)利益不對稱的問題。當一名7勝7負的摔跤手碰到一個8勝6負的對手時,比賽結果對第一個選手來說極其重要,對他的對手而言則沒有那么重要。列維特和況下,需要贏的那個選手很可能會贏。這看起來像是對手送的“禮物”,因為在聯(lián)系緊密的相撲界,幫別人一把就是給自己留了一條后路。有沒有可能是要贏的決心幫助這個選手獲勝呢?答案是,有可能。但是數據顯示的情況是,需要贏的選手的求勝心也只能把勝率提高25%。所以,把勝利完全歸功于求勝心是不妥當所“回報”,所以第一次的勝利看上去更像是一名選手送給另一名選手的禮物。這個情況是顯而易見的。但是如果采用隨機采樣分析法,就無法發(fā)現(xiàn)這個情況。而大數據分析通過使用所有比賽的極大數據捕捉到了這個情況。這就像捕魚一樣,開始時你不知道是否一個數據庫并不需要有以太字節(jié)[5]計的數據。在這個相撲案例中,整個數據庫包含的字節(jié)量還不如一張普通的數碼照片包含得多。但是大數據分析法不只關注一個隨機的樣本。這里的“大”取的是相對意義而不是絕對意義,也就是說這是相對所有數據來說的。很長一段時間內,隨機采樣都是一條好的捷徑,它使得數字時代之前的大量數據分析變得可能。但就像把一張數碼照片或者一首數碼歌曲截取成多個小文件似的,在采樣分析的時候,很多信息就丟失了——你能欣賞一首歌的抽樣嗎?擁有全部或幾乎全部的數據,我們就能夠從不同的角度,更細致地觀察和研究數據的方方面面。用到了基本的攝影中。與傳統(tǒng)相機只可以記錄一束光不同,Lytro相機可以記錄整個光場里所有的光,達到1100萬束之多。具體生成什么樣的照片則可以在拍攝之后再根據需要決定。用戶沒必要在一開始就聚焦,因為該相機可以捕捉到所有的數據,所以之后可以選擇聚焦圖像中的任片相比,這些照片就更具“可循環(huán)利用性”。如果使用普通相機,攝影師就必須在拍照之前決定好聚焦點。同理,因為大數據是建立在掌握所有數據,至少是盡可能多的數據的基礎上的,所以我們就可以正確地考察細節(jié)并進行新的分析。在任何細微的層面,我們都可以用大數據去論證新的假設。是大數據讓我們發(fā)現(xiàn)了相撲中的非法操縱比賽結果、流感的傳播區(qū)域和對抗癌癥需要針對的那部分DNA。它讓我們能清楚分析微觀層面的情況。當然,有些時候,我們還是可以使用樣本分析法,畢竟我們仍然活在一個資源有限的時代。但是更多時候,利用手中掌握的所有數據成為了最好也是可行的選擇。社會科學是被“樣本=總體”撼動得最厲害的學科。隨著大數據分析取代了樣本分析,社會科學不再單純依賴于分析實證數據。這門學科過去曾非常依賴樣本分析、研究和調查問卷。當記錄下來的是人們的平常狀態(tài),也就不用擔心在做研究和調查問卷時存在的偏見[6]了。現(xiàn)在,我們可以收集過去無法收集到的信息,不管是通過移動電話表現(xiàn)出的關系,還是通過Twitter信息表現(xiàn)出的感情。更重要的是,我們現(xiàn)在也不再依賴抽樣調查了。AlbertLszlBarabási)[7],和他的同事想研究人與人之間的互動。于是他們調查了四個月內所有的移動通信記錄——當然是匿名的,這些記錄是一個為全美五分之一人口提供服務的無線運營商提供的。這是第一次在全社會層面用接近于“樣本=總體”的數據資料進行網絡分析。通過觀察數百萬人的所有通信記錄,我們可以產生也許通過任何其他方式都無法產生的新觀點。有趣的是,與小規(guī)模的研究相比,這個團隊發(fā)現(xiàn),如果把一個在社區(qū)內有很多連接關系的人從社區(qū)關系網中剔除掉,這個關系網會變得沒那么高效但卻不會解體;但如果把一個與所在社區(qū)之外的很多人有著連接關系的人從這個關系網中剔除,整個關系網很快就會破碎成很多小塊。[8]這個研究結果非常重要也非常得出人意料。誰能想象一個在關系網內有著眾多好友的人的重要性還不如一個只是與很多關系網外的人有聯(lián)系的人呢?[9]這說明一般來說無論是針對一個小團體還是整個社會,多樣性是有額外價值的。這個結果促使我們重新審視一個人在社會關系網中的存在價值。大數據洞察我們總是習慣把統(tǒng)計抽樣看做文明得以建立的牢固基石,就如同幾何學定理和萬有引力定律一樣。但是統(tǒng)計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產生的,其歷史尚不足一百年。如今,技術環(huán)境已經有了很大的改善。在大數據時代進行抽樣分析就像是在汽車時代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數據的主要方式。慢慢地,我們會完全拋棄樣本分析。NaturalandPoliticalObservations

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論