版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
知識(shí)目標(biāo)1)熟悉和理解大數(shù)據(jù)思維的3個(gè)重要轉(zhuǎn)變。2)理解數(shù)據(jù)處理中采樣和采樣隨機(jī)性的意義。3)理解傳統(tǒng)情況下的數(shù)據(jù)精確度與大數(shù)據(jù)時(shí)代數(shù)據(jù)混雜性的意義。4)理解大數(shù)據(jù)時(shí)代通過相關(guān)關(guān)系和因果關(guān)系了解世界。素養(yǎng)目標(biāo)1)在“數(shù)字文明”的時(shí)代背景下,重視大數(shù)據(jù)的思維轉(zhuǎn)變。2)理解數(shù)據(jù)采樣中的隨機(jī)性和大數(shù)據(jù)重視相關(guān)關(guān)系的辯證思想。學(xué)習(xí)目標(biāo)學(xué)習(xí)難點(diǎn)1)數(shù)據(jù)處理中的采樣及其隨機(jī)性。2)大數(shù)據(jù)簡(jiǎn)單算法與小數(shù)據(jù)復(fù)雜算法。3)通過相關(guān)關(guān)系了解世界。學(xué)習(xí)目標(biāo)人類使用數(shù)據(jù)已經(jīng)有相當(dāng)長(zhǎng)一段時(shí)間了,無論是日常進(jìn)行的大量非正式觀察,還是過去幾個(gè)世紀(jì)以來在專業(yè)層面上用高級(jí)算法進(jìn)行的量化研究,都與數(shù)據(jù)有關(guān)。在數(shù)字化時(shí)代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數(shù)據(jù)。實(shí)際上,大數(shù)據(jù)的精髓在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系,在于我們分析信息時(shí)的三個(gè)轉(zhuǎn)變,這些轉(zhuǎn)變相互聯(lián)系和相互作用,將改變我們理解和組建社會(huì)的方法。項(xiàng)目2大數(shù)據(jù)思維變革01轉(zhuǎn)變之一:樣本=總體02轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性目錄/CONTENTS03轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系PART01轉(zhuǎn)變之一:樣本=總體19世紀(jì)以來,當(dāng)面臨大量數(shù)據(jù)時(shí),社會(huì)都依賴于采樣分析,而采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。以前我們通常把這看成是理所當(dāng)然的限制,但高性能數(shù)字技術(shù)的流行讓我們意識(shí)到,這其實(shí)是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來了更高的精確性,也讓我們看到了一些以前無法發(fā)現(xiàn)的細(xì)節(jié)——大數(shù)據(jù)讓我們更清楚地了解到一般樣本無法揭示的細(xì)節(jié)信息。2.1轉(zhuǎn)變之一:樣本=總體大數(shù)據(jù)時(shí)代的第一個(gè)轉(zhuǎn)變是,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象或事物相關(guān)的所有數(shù)據(jù),而不再是只依賴于隨機(jī)采樣,分析少量的數(shù)據(jù)樣本。很長(zhǎng)時(shí)間以來,因?yàn)橛涗?、?chǔ)存和分析數(shù)據(jù)的工具不夠好,為了讓分析變得簡(jiǎn)單,人們會(huì)把數(shù)據(jù)量縮減到最少,而依據(jù)少量數(shù)據(jù)進(jìn)行分析。如今,信息技術(shù)的條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來會(huì)越來越多。2.1轉(zhuǎn)變之一:樣本=總體以人口普查為例。據(jù)說古代埃及曾進(jìn)行過人口普查,由羅馬帝國(guó)的開國(guó)君主,元首制的創(chuàng)始人愷撒主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”。1086年的《末日審判書》對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載。皇家委員穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,每個(gè)人的生活都被記載下來的過程就像接受“最后的審判”一樣。然而,人口普查是一項(xiàng)耗資巨大且費(fèi)時(shí)的事情,盡管如此,當(dāng)時(shí)收集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道事實(shí)上他們不可能準(zhǔn)確記錄下每個(gè)人的信息。樣本分析一直都有較大的漏洞,因此,無論是進(jìn)行人口普查還是其他大量數(shù)據(jù)類的任務(wù),人們還是使用清點(diǎn)這種“原始”的方法。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣考慮到人口普查的復(fù)雜性以及耗時(shí)且耗費(fèi)巨大的特點(diǎn),政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬人口的時(shí)候每5年普查一次。我國(guó)政府也規(guī)定每10年進(jìn)行一次人口普查。而隨著國(guó)家人口越來越多,只能以百萬計(jì)數(shù)。一直到19世紀(jì),即使這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過了人口普查統(tǒng)計(jì)分析的能力。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時(shí)的。1890年進(jìn)行的人口普查,計(jì)劃花費(fèi)13年的時(shí)間來匯總數(shù)據(jù)。然而,因?yàn)槎愂辗謹(jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的基礎(chǔ)上的,必須獲得正確且及時(shí)的數(shù)據(jù)。很明顯,已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付,需要有新技術(shù)。后來,美國(guó)人口普查局和發(fā)明家赫爾曼?霍爾瑞斯(被稱為現(xiàn)代自動(dòng)計(jì)算之父)簽訂了一個(gè)協(xié)議,用他的穿孔卡片制表機(jī)來完成1890年的人口普查。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣經(jīng)過大量努力,霍爾瑞斯成功地在1年時(shí)間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這在當(dāng)時(shí)簡(jiǎn)直就是一個(gè)奇跡,它標(biāo)志著自動(dòng)處理數(shù)據(jù)的開始,也為后來IBM公司的成立奠定了基礎(chǔ)。但是,將其作為收集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個(gè)人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。對(duì)于一個(gè)跨越式發(fā)展的國(guó)家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用其中的一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是,當(dāng)數(shù)量無比龐大時(shí),這又不太現(xiàn)實(shí)。那如何選擇樣本呢?有人提出應(yīng)該有目的地選擇最具代表性的樣本。1934年,波蘭統(tǒng)計(jì)學(xué)家耶日·奈曼指出,這樣做只會(huì)導(dǎo)致更多更大的漏洞。事實(shí)證明,問題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但研究表明,當(dāng)樣本數(shù)量達(dá)到了某個(gè)值之后,從新個(gè)體身上得到的信息會(huì)越來越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣通過收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精準(zhǔn)度的推斷。因此,政府每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只能每十年進(jìn)行一次。例如,除了十年一次的人口大普查,每年都會(huì)用隨機(jī)采樣的方法對(duì)經(jīng)濟(jì)和人口進(jìn)行上百次小規(guī)模的人口調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時(shí),隨機(jī)采樣就成為應(yīng)對(duì)信息采集困難的辦法。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不能收集和分析全部數(shù)據(jù)的情況下的選擇,它本身也存在許多固有的缺陷。它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣更糟糕的是,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。因此,在宏觀領(lǐng)域起作用的方法卻在微觀領(lǐng)域失去了作用。隨機(jī)采樣就像是模擬照片打印,遠(yuǎn)看很不錯(cuò),一旦聚焦某個(gè)點(diǎn),就可能變得模糊不清。隨機(jī)采樣也需要嚴(yán)密的安排和執(zhí)行。人們只能從采樣數(shù)據(jù)中得出事先設(shè)計(jì)好的問題的結(jié)果。所以,雖說隨機(jī)采樣是一條捷徑,但它并不適用于所有情況,這種調(diào)查結(jié)果缺乏延展性,即調(diào)查得出的數(shù)據(jù)不可以重新分析以實(shí)現(xiàn)計(jì)劃之外的目的。2.1.1小數(shù)據(jù)時(shí)代的隨機(jī)采樣采樣的目的是用最少的數(shù)據(jù)得到最多的信息,而當(dāng)我們可以獲得海量數(shù)據(jù)的時(shí)候,它就沒有什么意義了。如今,計(jì)算和制表不再像過去一樣困難。傳感器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和微信等應(yīng)用被動(dòng)地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理。不過,雖然數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變,但我們的方法和思維卻沒有跟上這種改變。2.1.2全數(shù)據(jù)模式:樣本=總體采樣忽視細(xì)節(jié)考察的缺陷現(xiàn)在越來越為人們所重視。在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生了。如果可能的話,我們會(huì)收集所有的數(shù)據(jù),即“樣本=總體”?!皹颖?總體”是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討。在上面提到的有關(guān)采樣的例子中,用采樣的方法分析情況,正確率可達(dá)97%。對(duì)于某些事物來說,3%的錯(cuò)誤率是可以接受的。但是這樣就無法得到一些微觀細(xì)節(jié)的信息,甚至還會(huì)失去對(duì)某些特定子類別進(jìn)行進(jìn)一步研究的能力。2.1.2全數(shù)據(jù)模式:樣本=總體分析整個(gè)數(shù)據(jù)庫,而不是對(duì)一個(gè)小樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠用于推測(cè)出某個(gè)特定城市的流感狀況。所以,人們現(xiàn)在經(jīng)常會(huì)放棄樣本分析這條捷徑,而選擇收集全面且完整的數(shù)據(jù)。同時(shí),簡(jiǎn)單廉價(jià)的數(shù)據(jù)收集方法也很重要。過去,這些問題中的任何一個(gè)都很棘手。在一個(gè)資源有限的時(shí)代,要解決這些問題需要付出很高的代價(jià)。但是現(xiàn)在,解決這些難題已經(jīng)變得簡(jiǎn)單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的企業(yè)都可以做到了。2.1.2全數(shù)據(jù)模式:樣本=總體通過使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中被淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識(shí)別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,可以把它與正常交易情況進(jìn)行對(duì)比,這是一個(gè)大數(shù)據(jù)問題。而且,因?yàn)榻灰资羌磿r(shí)的,所以數(shù)據(jù)分析也應(yīng)該是即時(shí)的。然而,使用所有的數(shù)據(jù)并不代表這是一項(xiàng)艱巨的任務(wù)。大數(shù)據(jù)中的“大”不是絕對(duì)意義上的大,雖然在大多數(shù)情況下是這個(gè)意思。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。2.1.2全數(shù)據(jù)模式:樣本=總體因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。當(dāng)然,有時(shí)候還是可以使用樣本分析法,但是更多時(shí)候,利用手中掌握的所有數(shù)據(jù)成為最好也是可行的選擇。2.1.2全數(shù)據(jù)模式:樣本=總體社會(huì)科學(xué)是被“樣本=總體”撼動(dòng)得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,社會(huì)科學(xué)不再單純依賴于分析實(shí)證數(shù)據(jù)。這門學(xué)科過去曾非常依賴樣本分析、研究和調(diào)查問卷。當(dāng)記錄下來的是人們的平常狀態(tài),也就不用擔(dān)心在做研究和調(diào)查問卷時(shí)存在偏見了?,F(xiàn)在,我們可以收集過去無法收集到的信息,更重要的是,我們也不再依賴抽樣調(diào)查,甚至慢慢地,我們會(huì)完全拋棄樣本分析。2.1.2全數(shù)據(jù)模式:樣本=總體PART02轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性當(dāng)我們測(cè)量事物的能力受限時(shí),關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。直到今天,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格將數(shù)據(jù)排好序,數(shù)據(jù)庫引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。2.2轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面,我們已經(jīng)意識(shí)到了差別。例如,一個(gè)小商店在晚上打烊的時(shí)候要把收銀臺(tái)里的每分錢數(shù)清楚,但是我們不會(huì)、也不可能用“分”這個(gè)單位去精確度量國(guó)民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大,對(duì)精確度的癡迷將減弱。2.2轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性達(dá)到精確需要有專業(yè)的數(shù)據(jù)庫。針對(duì)小數(shù)據(jù)量和特定事情,追求精確性依然是可行的,比如一個(gè)人的銀行賬戶上是否有足夠的錢來支付賬單。但在大數(shù)據(jù)時(shí)代,很多時(shí)候,追求精確度已經(jīng)變得不可行,甚至不受歡迎了。當(dāng)我們擁有海量即時(shí)數(shù)據(jù)時(shí),絕對(duì)的精準(zhǔn)不再是我們追求的主要目標(biāo)。擁有了大數(shù)據(jù),我們不再需要對(duì)某個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄精確度,只是不再沉迷于此。適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。2.2轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性大數(shù)據(jù)時(shí)代的第二個(gè)轉(zhuǎn)變是,研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求其精確度。在大數(shù)據(jù)時(shí)代,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不精確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫。然而,重點(diǎn)是我們能夠努力避免這些問題,而且也正在學(xué)會(huì)接受它們。2.2轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來的數(shù)據(jù)盡量精確。無論是確定天體的位置還是觀測(cè)顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測(cè)量的工具。在采樣的時(shí)候,對(duì)精確度的要求就更高、更苛刻了。因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確性。2.2.1允許不精確歷史上很多時(shí)候,人們會(huì)把通過測(cè)量世界來征服世界視為最大的成就。事實(shí)上,對(duì)精確度的高要求始于13世紀(jì)中期的歐洲。那時(shí)候,天文學(xué)家和學(xué)者對(duì)時(shí)間、空間的研究采取了比以往更為精確的量化方式。后來,測(cè)量方法逐漸被運(yùn)用到科學(xué)觀察、解釋方法中,體現(xiàn)為一種進(jìn)行量化研究、記錄,并呈現(xiàn)可重復(fù)結(jié)果的能力。物理學(xué)家開爾文男爵曾經(jīng)說過:“測(cè)量就是認(rèn)知。”這已成為一條至理名言。同時(shí),很多數(shù)學(xué)家以及后來的精算師和會(huì)計(jì)師都發(fā)展了可以準(zhǔn)確收集、記錄和管理數(shù)據(jù)的方法。2.2.1允許不精確然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)正在成為一個(gè)亮點(diǎn)而非缺點(diǎn)。因?yàn)榉潘闪巳蒎e(cuò)的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來,可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡(jiǎn)單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。2.2.1允許不精確同時(shí),我們需要與各種各樣的混亂做斗爭(zhēng)?;靵y,簡(jiǎn)單地說就是隨著數(shù)據(jù)的增加,錯(cuò)誤率也會(huì)相應(yīng)增加。例如,如果橋梁的壓力數(shù)據(jù)量增加1000倍的話,其中的部分讀數(shù)就可能是錯(cuò)誤的,而且隨著讀數(shù)量的增加,錯(cuò)誤率可能也會(huì)繼續(xù)增加。在整合來源不同的各類信息的時(shí)候,因?yàn)樗鼈兺ǔ2煌耆恢?,所以也?huì)加大混亂的程度?;靵y還可以指格式的不一致性,因?yàn)橐_(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。2.2.1允許不精確當(dāng)然,在萃取或處理數(shù)據(jù)的時(shí)候,混亂也會(huì)發(fā)生。因?yàn)樵谶M(jìn)行數(shù)據(jù)轉(zhuǎn)化的時(shí)候,我們是在把它變成另外的事物。例如,假設(shè)你要測(cè)量一個(gè)葡萄園的溫度,但是整個(gè)葡萄園只有一個(gè)溫度測(cè)量?jī)x,那你就必須確保這個(gè)測(cè)量?jī)x是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個(gè)測(cè)量?jī)x,有些測(cè)量數(shù)據(jù)可能會(huì)錯(cuò),會(huì)更加混亂,但眾多的讀數(shù)合起來就可以提供一個(gè)更加準(zhǔn)確的結(jié)果。因?yàn)檫@里面包含了更多的數(shù)據(jù),它不僅能抵消掉錯(cuò)誤數(shù)據(jù)造成的影響,還能提供更多的額外價(jià)值。2.2.1允許不精確再來想想增加讀數(shù)頻率這個(gè)事情。如果每隔一分鐘就測(cè)量一下溫度,我們至少還能夠保證測(cè)量結(jié)果是按照時(shí)間有序排列的。如果變成每分鐘測(cè)量十次甚至百次的話,不僅讀數(shù)可能出錯(cuò),連時(shí)間先后都可能搞混掉。試想,如果信息在網(wǎng)絡(luò)中流動(dòng),那么一條記錄很可能在傳輸過程中被延遲,在其到達(dá)的時(shí)候已經(jīng)沒有意義了,甚至干脆在奔涌的信息洪流中徹底丟失。雖然我們得到的信息不再那么準(zhǔn)確,但收集到的數(shù)量龐大的信息讓放棄嚴(yán)格精確的選擇變得更為劃算。2.2.1允許不精確可見,為了獲得更廣泛的數(shù)據(jù)而犧牲精確性,也因此看到了很多原先無法被關(guān)注到的細(xì)節(jié)。或者,為了高頻率而放棄了精確性,結(jié)果觀察到了一些本可能被錯(cuò)過的變化。如果我們能夠下足夠多的工夫,這些錯(cuò)誤是可以避免的,但在很多情況下,與致力于避免錯(cuò)誤相比,對(duì)錯(cuò)誤的包容會(huì)帶給我們更多好處。2.2.1允許不精確在20世紀(jì)40年代的電子管計(jì)算機(jī)時(shí)代,機(jī)器翻譯還只是計(jì)算機(jī)開發(fā)人員的一個(gè)想法。1947—1991年之間,美國(guó)掌握了大量關(guān)于蘇聯(lián)的各種資料,但缺少翻譯這些資料的人手。所以,計(jì)算機(jī)翻譯成了亟待解決的問題。最初,研究人員考慮將語法規(guī)則和雙語詞典結(jié)合在一起。1954年,IBM以計(jì)算機(jī)中的250個(gè)詞語和6條語法規(guī)則為基礎(chǔ),將60個(gè)俄語詞組翻譯成了英語,結(jié)果振奮人心。IBM701通過穿孔卡片讀取一句話,并將其譯成了“我們通過語言來交流思想”。在慶祝這個(gè)成就的發(fā)布會(huì)上,一篇報(bào)道就提到,這句話翻譯得很流暢。2.2.2大數(shù)據(jù)簡(jiǎn)單算法與小數(shù)據(jù)復(fù)雜算法事實(shí)證明,這個(gè)翻譯最初的成功誤導(dǎo)了人們。從事機(jī)器翻譯的研究人員意識(shí)到,翻譯比他們想象的更困難,機(jī)器翻譯不能只是讓計(jì)算機(jī)熟悉常用規(guī)則,還必須教會(huì)它處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和復(fù)述,也涉及選詞,而明確地教會(huì)計(jì)算機(jī)這些并不現(xiàn)實(shí)。2006年,谷歌公司涉足機(jī)器翻譯。這被當(dāng)作實(shí)現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個(gè)目標(biāo)的其中一個(gè)步驟。谷歌翻譯開始利用一個(gè)更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再是只利用兩種語言之間的文本翻譯。2.2.2大數(shù)據(jù)簡(jiǎn)單算法與小數(shù)據(jù)復(fù)雜算法為了訓(xùn)練計(jì)算機(jī),谷歌翻譯系統(tǒng)會(huì)吸收它能找到的所有翻譯。它從不同語言的公司網(wǎng)站上尋找對(duì)譯文檔,還去尋找聯(lián)合國(guó)和歐盟這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本。它甚至?xí)账僮x項(xiàng)目中的書籍翻譯。翻譯部門的負(fù)責(zé)人弗朗茲·奧齊是機(jī)器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會(huì)只是仔細(xì)地翻譯300萬句話,它會(huì)掌握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億頁的文檔?!辈豢紤]翻譯質(zhì)量的話,上萬億的語料庫就相當(dāng)于950億句英語。2.2.2大數(shù)據(jù)簡(jiǎn)單算法與小數(shù)據(jù)復(fù)雜算法盡管其輸入源很混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對(duì)而言是最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,并有很流利的對(duì)等翻譯。之所以能做到這些,是因?yàn)樗鼘⒄Z言視為能夠判別可能性的數(shù)據(jù),而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會(huì)把英語作為中介語言。因?yàn)樵诜g的時(shí)候它能適當(dāng)增減詞匯,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。2.2.2大數(shù)據(jù)簡(jiǎn)單算法與小數(shù)據(jù)復(fù)雜算法人工智能專家彼得·諾維格在一篇題為《數(shù)據(jù)的非理性效果》的文章中寫道,“大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效?!蔽恼乱仓赋?,混雜是關(guān)鍵。由于谷歌語料庫的內(nèi)容來自未經(jīng)過濾的網(wǎng)頁內(nèi)容,所以會(huì)包含一些不完整的句子、拼寫錯(cuò)誤、語法錯(cuò)誤以及其他各種錯(cuò)誤,而且它也沒有詳細(xì)的人工糾錯(cuò)后的注解。但是,谷歌語料庫的數(shù)據(jù)優(yōu)勢(shì)完全壓倒了其缺點(diǎn)。2.2.2大數(shù)據(jù)簡(jiǎn)單算法與小數(shù)據(jù)復(fù)雜算法摩爾定律認(rèn)為,每塊芯片上晶體管的數(shù)量每?jī)赡昃蜁?huì)翻一倍。正如摩爾定律所預(yù)測(cè)的,過去一段時(shí)間里,計(jì)算機(jī)的數(shù)據(jù)處理能力得到很大提高,機(jī)器運(yùn)算更快,存儲(chǔ)空間更大。但大家沒有意識(shí)到的是,驅(qū)動(dòng)各類系統(tǒng)的算法也進(jìn)步了。有報(bào)告顯示,在很多領(lǐng)域中,算法的進(jìn)步要?jiǎng)龠^芯片的進(jìn)步,而社會(huì)從大數(shù)據(jù)中所能得到的,并非來自運(yùn)行更快的芯片或者更好的算法,而是更多的數(shù)據(jù)。2.2.3從紛繁數(shù)據(jù)中獲取事物發(fā)展的概率大數(shù)據(jù)通常用概率說話。傳統(tǒng)的統(tǒng)計(jì)學(xué)家一般都很難容忍錯(cuò)誤數(shù)據(jù)的存在,在收集樣本的時(shí)候,他們會(huì)用一整套的策略來減少錯(cuò)誤發(fā)生的概率。在結(jié)果公布之前,他們也會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)性偏差。這些策略包括根據(jù)協(xié)議或通過受過專門訓(xùn)練的專家來采集樣本。但是,即使只面對(duì)少量的數(shù)據(jù),這些規(guī)避錯(cuò)誤的策略實(shí)施起來還是耗費(fèi)巨大。尤其是當(dāng)我們收集所有數(shù)據(jù)的時(shí)候,這就更行不通了。不僅是因?yàn)楹馁M(fèi)巨大,還因?yàn)樵诖笠?guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致性不太現(xiàn)實(shí)。2.2.3從紛繁數(shù)據(jù)中獲取事物發(fā)展的概率大數(shù)據(jù)時(shí)代要求我們重新審視對(duì)數(shù)據(jù)精確性的要求。如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)字化、網(wǎng)絡(luò)化的今天,就有可能錯(cuò)過重要的信息。如今,人們掌握的數(shù)據(jù)庫越來越全面,包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整個(gè)分析的不利影響,要做的就是接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性。2.2.3從紛繁數(shù)據(jù)中獲取事物發(fā)展的概率例如,在煉油廠里,無線傳感器遍布于整個(gè)工廠,形成的無形的網(wǎng)絡(luò)能夠產(chǎn)生大量實(shí)時(shí)數(shù)據(jù)。在這里,惡劣環(huán)境和電氣設(shè)備的存在有時(shí)會(huì)對(duì)傳感器的讀數(shù)有所影響,形成錯(cuò)誤的數(shù)據(jù),但數(shù)據(jù)的數(shù)量之多可以彌補(bǔ)這些小錯(cuò)誤。例如隨時(shí)監(jiān)測(cè)管道的承壓使得工廠了解到有些種類的原油比其他種類更具有腐蝕性,而此前這都是無法發(fā)現(xiàn)也無法防止的。2.2.3從紛繁數(shù)據(jù)中獲取事物發(fā)展的概率有時(shí)候,在掌握了大量新數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢(shì)。大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實(shí)現(xiàn)精確性。然而,除了一開始會(huì)與我們的直覺相矛盾之外,接受數(shù)據(jù)的不精確和不完美反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界。2.2.3從紛繁數(shù)據(jù)中獲取事物發(fā)展的概率值得注意的是,錯(cuò)誤性并不是大數(shù)據(jù)本身固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問題,并且有可能長(zhǎng)期存在。它只是我們用來測(cè)量、記錄和交流數(shù)據(jù)的工具的一個(gè)缺陷。擁有更大數(shù)據(jù)量所能帶來的商業(yè)利益遠(yuǎn)遠(yuǎn)超過增加一點(diǎn)精確性,所以通常我們不會(huì)再花大力氣去提升數(shù)據(jù)的精確性。以前統(tǒng)計(jì)學(xué)家們總是把他們的興趣放在提高樣本的隨機(jī)性而不是數(shù)量上,如今,大數(shù)據(jù)帶來的利益,讓我們接受了不精確的存在。2.2.3從紛繁數(shù)據(jù)中獲取事物發(fā)展的概率長(zhǎng)期以來,人們一直用分類法和索引法來幫助自己存儲(chǔ)和檢索數(shù)據(jù)資源。在“小數(shù)據(jù)”范圍內(nèi),這樣的分級(jí)系統(tǒng)通常都不完善但很有效,而一旦把數(shù)據(jù)規(guī)模增加好幾個(gè)數(shù)量級(jí),這些預(yù)設(shè)一切都各就各位的系統(tǒng)就會(huì)崩潰。2.2.4混雜性是標(biāo)準(zhǔn)途徑用戶可以通過抖音錄制或上傳視頻、照片等形成自己的作品,抖音會(huì)把用戶上傳的作品進(jìn)行分類,推送給瀏覽用戶。抖音擁有數(shù)以億計(jì)的用戶,這時(shí),根據(jù)預(yù)先設(shè)定好的分類來標(biāo)注每張照片就沒有意義了,恰恰相反,清楚的分類被更混亂卻更靈活的機(jī)制所取代了。
圖2-2年度熱門圖片2.2.4混雜性是標(biāo)準(zhǔn)途徑當(dāng)人們上傳照片到網(wǎng)站或App的時(shí)候,會(huì)給照片添加標(biāo)簽,也就是使用一組文本標(biāo)簽來編組和搜索這些資源。人們用自己的方式創(chuàng)造和使用標(biāo)簽,所以它是沒有標(biāo)準(zhǔn)、沒有預(yù)先設(shè)定的排列和分類,也沒有必須遵守的類別規(guī)定。任何人都可以輸入新的標(biāo)簽,標(biāo)簽內(nèi)容事實(shí)上就成了網(wǎng)絡(luò)資源的分類標(biāo)準(zhǔn)。標(biāo)簽被廣泛地應(yīng)用于抖音、QQ、微信等社交網(wǎng)絡(luò)上。因?yàn)樗鼈兊拇嬖?,互?lián)網(wǎng)上的資源變得更容易找到,特別是像圖片、視頻和音樂這些無法用關(guān)鍵詞搜索的非文本類資源。2.2.4混雜性是標(biāo)準(zhǔn)途徑當(dāng)然,有時(shí)人們錯(cuò)誤的標(biāo)簽會(huì)導(dǎo)致資源編組的不準(zhǔn)確,但這種混亂的方法也帶來了很多好處。比如,我們擁有了更加豐富的標(biāo)簽內(nèi)容,同時(shí)能更深更廣地獲得各種照片??梢酝ㄟ^合并多個(gè)搜索標(biāo)簽來過濾需要尋找的照片,這在以前是無法完成的。添加標(biāo)簽時(shí)所帶來的不準(zhǔn)確性,從某種意義上說明我們能夠接受世界的紛繁復(fù)雜,這是對(duì)更加精確系統(tǒng)的一種對(duì)抗。當(dāng)數(shù)量規(guī)模變大的時(shí)候,確切的數(shù)量已經(jīng)不那么重要了。另外,數(shù)據(jù)更新得非???,甚至在剛剛顯示出來的時(shí)候可能就已經(jīng)過時(shí)了。如今,要想獲得大規(guī)模數(shù)據(jù)帶來的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不是被竭力避免。2.2.4混雜性是標(biāo)準(zhǔn)途徑PART03轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系在傳統(tǒng)觀念下,人們總是致力于找到一切事情發(fā)生背后的原因。然而在很多時(shí)候,尋找數(shù)據(jù)間的關(guān)系并利用這種關(guān)聯(lián)就足夠了。大數(shù)據(jù)時(shí)代的第三個(gè)轉(zhuǎn)變,即我們不再熱衷于尋找因果關(guān)系。這是因前兩個(gè)轉(zhuǎn)變而促成的。尋找因果關(guān)系是人類長(zhǎng)久以來的習(xí)慣,即使確定因果關(guān)系很困難而且用途不大,人類還是習(xí)慣性地尋找緣由。相反,在大數(shù)據(jù)時(shí)代,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會(huì)給我們提供新穎且有價(jià)值的觀點(diǎn)。2.3轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們事情正在發(fā)生。在許多情況下,這種提醒已經(jīng)足夠了。例如,如果數(shù)百萬條電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機(jī)制就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時(shí)候是買機(jī)票的最佳時(shí)機(jī),就算不知道機(jī)票價(jià)格瘋狂變動(dòng)的原因也無所謂了。大數(shù)據(jù)告訴我們“是什么”,而不是“為什么”。2.3轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系在大數(shù)據(jù)時(shí)代,我們要讓數(shù)據(jù)自己發(fā)聲,人們不再需要在還沒有收集數(shù)據(jù)之前,就把其分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會(huì)注意到很多以前從來沒有意識(shí)到的聯(lián)系的存在。2.3轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系在小數(shù)據(jù)世界中相關(guān)關(guān)系也是有用的,但在大數(shù)據(jù)的背景下,相關(guān)關(guān)系大放異彩。通過應(yīng)用相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵所謂相關(guān)關(guān)系,其核心是指量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加。我們已經(jīng)看到過這種很強(qiáng)的相關(guān)關(guān)系,比如判斷流感趨勢(shì):在一個(gè)特定的地理位置,越多的人通過網(wǎng)絡(luò)搜索特定的詞條,該地區(qū)就有更多的人患了流感。相反,相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化。例如,某個(gè)人的鞋子尺碼和他的幸福感就幾乎扯不上什么關(guān)系。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵相關(guān)關(guān)系通過識(shí)別有用的關(guān)聯(lián)物來幫助人們分析某個(gè)現(xiàn)象,而不是通過揭示其內(nèi)部的運(yùn)作機(jī)制。當(dāng)然,即使是很強(qiáng)的相關(guān)關(guān)系也不一定能解釋每一種情況,比如兩個(gè)事物看上去行為相似,但很有可能只是巧合。相關(guān)關(guān)系沒有絕對(duì),只有可能性。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵通過找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來。如果A和B經(jīng)常一起發(fā)生,我們只需要注意到B發(fā)生了.就可以預(yù)測(cè)A也發(fā)生了。這有助于我們捕捉可能和A一起發(fā)生的事情,即使我們不能直接測(cè)量或觀察到A。更重要的是,它還可以幫助我們預(yù)測(cè)未來可能發(fā)生什么。當(dāng)然,相關(guān)關(guān)系無法預(yù)知未來,只能預(yù)測(cè)可能發(fā)生的事情,但這已經(jīng)極其珍貴了。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵通常,大型超市會(huì)對(duì)歷史交易記錄這個(gè)龐大的數(shù)據(jù)庫進(jìn)行觀察,數(shù)據(jù)庫記錄的不僅包括每一個(gè)顧客的購(gòu)物清單以及消費(fèi)額,還包括購(gòu)物籃中的物品、具體購(gòu)買時(shí)間。超市注意到,每當(dāng)季節(jié)性臺(tái)風(fēng)來臨之前,不僅蠟燭、手電筒銷售量增加,而且面包的銷量也增加了。因此,超市會(huì)把面包放在靠近臺(tái)風(fēng)防護(hù)用品的位置,以方便行色匆匆的顧客選擇從而增加銷量。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵相關(guān)關(guān)系在過去就已經(jīng)被證明大有用途,例如注意到人的身高和手臂的長(zhǎng)度有關(guān)系。相關(guān)關(guān)系背后的數(shù)學(xué)計(jì)算是直接而又有活力的,這是相關(guān)關(guān)系的本質(zhì)特征,也是讓相關(guān)關(guān)系成為最廣泛應(yīng)用的統(tǒng)計(jì)計(jì)量方法的原因。但是以前相關(guān)關(guān)系的應(yīng)用很少。因?yàn)閿?shù)據(jù)很少而且收集數(shù)據(jù)很費(fèi)時(shí)費(fèi)力。在大數(shù)據(jù)時(shí)代,通過建立在人的偏見基礎(chǔ)上的關(guān)聯(lián)物監(jiān)測(cè)法不再可行,因?yàn)閿?shù)據(jù)庫太大而且需要考慮的領(lǐng)域太復(fù)雜。幸好我們現(xiàn)在擁有如此多的數(shù)據(jù),強(qiáng)大的機(jī)器計(jì)算能力,因而不再需要人工選擇一個(gè)關(guān)聯(lián)物或者一小部分相似數(shù)據(jù)來逐一分析了。復(fù)雜的機(jī)器分析能為我們辨認(rèn)出誰是最好的代理。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵我們理解世界不再需要建立在假設(shè)的基礎(chǔ)上,這個(gè)假設(shè)是針對(duì)現(xiàn)象建立的有關(guān)其產(chǎn)生機(jī)制和內(nèi)在機(jī)理的假設(shè)。取而代之的是,我們可以對(duì)大數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析,從而知道哪些檢索詞條是最能顯示流感傳播的,飛機(jī)票的價(jià)格是否會(huì)飛漲,哪些食物是臺(tái)風(fēng)期間待在家里的人最想吃的。我們用數(shù)據(jù)驅(qū)動(dòng)的關(guān)于大數(shù)據(jù)的相關(guān)關(guān)系分析法,取代了基于假想的、易出錯(cuò)的方法。大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、更快,而且不易受偏見的影響。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心。這種預(yù)測(cè)發(fā)生的頻率非常高,以至于我們經(jīng)常忽略了它的創(chuàng)新性。當(dāng)然,它的應(yīng)用會(huì)越來越多。例如,對(duì)于零售商來說,知道一個(gè)顧客是否懷孕是有用的。因?yàn)檫@是一對(duì)夫妻改變消費(fèi)觀念的開始,他們會(huì)開始光顧以前不會(huì)去的商店,漸漸對(duì)新的品牌建立忠誠(chéng)。超市的市場(chǎng)專員們向分析部門求助,看是否有什么辦法能夠通過一個(gè)人的購(gòu)物方式發(fā)現(xiàn)她是否懷孕。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵公司的分析團(tuán)隊(duì)首先查看了簽署嬰兒禮物登記簿的女性的消費(fèi)記錄。注意到登記簿上的婦女會(huì)在懷孕大概第三個(gè)月的時(shí)候買很多無香乳液。幾個(gè)月之后她們會(huì)買一些營(yíng)養(yǎng)品,比如鎂、鈣、鋅。公司最終找出了大概20多種關(guān)聯(lián)物來給顧客的“懷孕趨勢(shì)”評(píng)分,這些相關(guān)關(guān)系甚至使零售商能夠比較準(zhǔn)確地預(yù)測(cè)預(yù)產(chǎn)期,能夠在孕期的每個(gè)階段給客戶寄送相應(yīng)的優(yōu)惠券。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵在社會(huì)環(huán)境下尋找關(guān)聯(lián)物只是大數(shù)據(jù)分析法采取的一種方式。同樣有用的一種方法是,通過找出新種類數(shù)據(jù)之間的相互聯(lián)系來解決日常需要。例如,預(yù)測(cè)分析法就被廣泛地應(yīng)用于商業(yè)領(lǐng)域,它可以預(yù)測(cè)事件的發(fā)生。這可以指一個(gè)能發(fā)現(xiàn)可能的流行歌曲的算法系統(tǒng)——音樂界廣泛采用這種方法來確保它們看好的歌曲真的會(huì)流行;也可以指那些用來防止機(jī)器失效和建筑倒塌的方法。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢的、逐漸的。通過收集所有的數(shù)據(jù),我們可以預(yù)先捕捉到事物要出故障的信號(hào),如發(fā)動(dòng)機(jī)的嗡嗡聲、引擎過熱等,都說明它們可能要出故障了。系統(tǒng)把這些異常情況與正常情況進(jìn)行對(duì)比,就會(huì)知道什么地方出了毛病。通過盡早地發(fā)現(xiàn)異常,系統(tǒng)可以提醒我們?cè)诠收现案鼡Q零件或者修復(fù)問題。通過找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測(cè)未來會(huì)發(fā)生什么。2.3.1關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵在小數(shù)據(jù)時(shí)代,相關(guān)關(guān)系分析和因果分析都不容易,耗費(fèi)巨大,都要從建立假設(shè)開始,然后進(jìn)行實(shí)驗(yàn)——這個(gè)假設(shè)要么被證實(shí),要么被推翻。但是,由于兩者都始于假設(shè),這些分析就都有受偏見影響的可能,極易導(dǎo)致錯(cuò)誤。與此同時(shí),用來做相關(guān)關(guān)系分析的數(shù)據(jù)很難得到。在小數(shù)據(jù)時(shí)代,由于計(jì)算機(jī)能力的不足,大部分相關(guān)關(guān)系分析僅限于尋求線性關(guān)系。而事實(shí)上,實(shí)際情況遠(yuǎn)比我們所想象的要復(fù)雜。經(jīng)過復(fù)雜的分析,我們能夠發(fā)現(xiàn)數(shù)據(jù)的“非線性關(guān)系”。2.3.2“是什么”,而不是“為什么”例如,多年來經(jīng)濟(jì)學(xué)家和政治家一直認(rèn)為收入水平和幸福感是成正比的。從數(shù)據(jù)圖表上可以看到,雖然統(tǒng)計(jì)工具呈現(xiàn)的是一種線性關(guān)系,但事實(shí)上它們之間存在一種更復(fù)雜的動(dòng)態(tài)關(guān)系:例如,對(duì)于收入水平在1萬元以下的人來說,一旦收入增加,幸福感會(huì)隨之提升;但對(duì)于收入水平在1萬元以上的人來說,幸福感并不會(huì)隨著收入水平提高而提升。如果能發(fā)現(xiàn)這層關(guān)系,我們看到的就應(yīng)該是一條曲線,而不是統(tǒng)計(jì)工具分析出來的直線。2.3.2“是什么”,而不是“為什么”這個(gè)發(fā)現(xiàn)對(duì)決策者來說非常重要。如果只看到線性關(guān)系的話,那么政策重心應(yīng)完全放在增加收入上,因?yàn)檫@樣才能增加全民的幸福感。而一旦察覺到這種非線性關(guān)系,策略的重心就會(huì)變成提高低收入人群的收入水平,因?yàn)檫@樣明顯更劃算。2.3.2“是什么”,而不是“為什么”當(dāng)相關(guān)關(guān)系變得更復(fù)雜時(shí),一切就更混亂了。比如,各地麻疹疫苗接種率的差別與人們?cè)卺t(yī)療保健上的花費(fèi)似乎有關(guān)聯(lián)。但是,研究發(fā)現(xiàn),這種關(guān)聯(lián)不是簡(jiǎn)單的線性關(guān)系,而是一個(gè)復(fù)雜的曲線圖。和預(yù)期相同的是,隨著人們?cè)卺t(yī)療上花費(fèi)的增多,麻疹疫苗接種率的差別會(huì)變小;但令人驚訝的是,當(dāng)增加到一定程度時(shí),這種差別又會(huì)變大。發(fā)現(xiàn)這種關(guān)系對(duì)公共衛(wèi)生官員來說非常重要,但是普通的線性關(guān)系分析無法捕捉到這個(gè)重要信息。2.3.2“是什么”,而不是“為什么”大數(shù)據(jù)時(shí)代,專家們正在研發(fā)能發(fā)現(xiàn)并對(duì)比分析非線性關(guān)系的技術(shù)工具。一系列飛速發(fā)展的新技術(shù)和新軟件也從多方面提高了相關(guān)關(guān)系分析工具發(fā)現(xiàn)非因果關(guān)系的能力。這些新的分析工具和思路為我們展現(xiàn)了一系列新的視野,我們看到了很多以前不曾注意到的聯(lián)系,還掌握了以前無法理解的復(fù)雜技術(shù)和社會(huì)動(dòng)態(tài)。但最重要的是,通過去探求“是什么”而不是“為什么”,相關(guān)關(guān)系能幫助我們更好地了解這個(gè)世界。2.3.2“是什么”,而不是“為什么”傳統(tǒng)情況下,人類是通過因果關(guān)系了解世界的。首先,我們的直接愿望就是了解因果關(guān)系。即使無因果聯(lián)系存在,我們也還是會(huì)假定其存在。研究證明,這只是我們的認(rèn)知方式,當(dāng)看到兩件事情接連發(fā)生的時(shí)候,我們會(huì)習(xí)慣性地從因果關(guān)系的角度來看待它們。心理學(xué)專家證明了人有兩種思維模式。第一種是不費(fèi)力的快速思維,通過這種思維方式幾秒鐘就能得出結(jié)果;另一種是比較費(fèi)力的慢性思維,對(duì)于特定的問題,需要考慮到位。2.3.3對(duì)小數(shù)據(jù)的因果關(guān)系分析正是快速思維模式使人們偏向用因果聯(lián)系來看待周圍的一切,即使這種關(guān)系并不存在。過去這種快速思維模式曾經(jīng)很有用,它能幫助人們?cè)谛畔⒘咳狈s必須快速做出決定的危險(xiǎn)情況下化險(xiǎn)為夷。但是,這種因果關(guān)系通常并不存在。卡尼曼指出,平時(shí)生活中,由于惰性,我們很少慢條斯理地思考問題,所以快速思維模式就占據(jù)了上風(fēng)。因此,我們會(huì)經(jīng)常臆想出一些因果關(guān)系。例如父母經(jīng)常告訴孩子,天冷時(shí)不戴帽子和手套就會(huì)感冒。然而事實(shí)上,感冒和穿戴之間卻沒有直接的聯(lián)系。2.3.3對(duì)小數(shù)據(jù)的因果關(guān)系分析有時(shí),我們?cè)谀硞€(gè)餐館用餐后生病了,就會(huì)自然而然地覺得這是餐館食物的問題,以后可能就不再去這家餐館了。事實(shí)上,我們肚子痛也許是因?yàn)槠渌膫魅就緩?,比如和患者握過手之類的。然而,我們的快速思維模式使我們直接將其歸于任何我們能在第一時(shí)間想起來的因果關(guān)系,因此,這經(jīng)常導(dǎo)致我們做出錯(cuò)誤的決定。2.3.3對(duì)小數(shù)據(jù)的因果關(guān)系分析與常識(shí)相反,經(jīng)常憑借直覺而來的因果關(guān)系并沒有幫助我們加深對(duì)這個(gè)世界的理解。很多時(shí)候,這種認(rèn)知捷徑只是給了我們一種自己已經(jīng)理解的錯(cuò)覺,但實(shí)際上,我們完全陷入了理解誤區(qū)之中。就像采樣是我們無法處理全部數(shù)據(jù)時(shí)的捷徑一樣,這種找因果關(guān)系的方法也是我們大腦用來避免辛苦思考的捷徑?,F(xiàn)在情況不一樣了。大數(shù)據(jù)之間的相關(guān)關(guān)系,將經(jīng)常用來證明直覺的因果聯(lián)系是錯(cuò)誤的。最終也能表明,統(tǒng)計(jì)關(guān)系也不蘊(yùn)含多少真實(shí)的因果關(guān)系??傊覀兊目焖偎季S模式將會(huì)遭受各種各樣的現(xiàn)實(shí)考驗(yàn)。2.3.3對(duì)小數(shù)據(jù)的因果關(guān)系分析另一方面,人們用來發(fā)現(xiàn)因果關(guān)系的第二種思維方式——慢性思維,也將因?yàn)榇髷?shù)據(jù)之間的相關(guān)關(guān)系迎來大的改變。日常生活中,我們習(xí)慣性地用因果關(guān)系來考慮事情,所以會(huì)認(rèn)為,因果聯(lián)系是淺顯易尋的。但事實(shí)卻并非如此。即使慢慢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 稅務(wù)師考試真題及答案
- 高頻產(chǎn)品推廣創(chuàng)意面試題及答案
- 專升本解剖題庫及答案
- 四川安全員試題及答案
- 高級(jí)茶藝師題庫附答案
- 教師資格證考試試題及答案
- 監(jiān)理工程師基本理論與相關(guān)法規(guī)真題及答案
- 兒童保健服務(wù)規(guī)范試題庫及答案(習(xí)題試題資料)
- 安全知識(shí)競(jìng)賽經(jīng)典題庫含答案
- 醫(yī)院導(dǎo)醫(yī)考試試題及答案
- 2025年江蘇省高考?xì)v史真題(含答案解析)
- 2025-2030中國(guó)綠色甲烷行業(yè)發(fā)展現(xiàn)狀與未來發(fā)展前景預(yù)測(cè)報(bào)告
- 系統(tǒng)解剖學(xué)章節(jié)練習(xí)題及答案
- (人教版)初中物理九年級(jí) 第二十章綜合測(cè)試及答案03
- 人教版九年級(jí)歷史上冊(cè)期末復(fù)習(xí)知識(shí)點(diǎn)考點(diǎn)背誦提綱
- 2025年電動(dòng)三輪車銷售與農(nóng)村市場(chǎng)拓展合同
- 公路水運(yùn)工程施工安全風(fēng)險(xiǎn)評(píng)估指南 第6部分:航道工程JT∕T 1375
- 陜西掛職人員管理辦法
- 2024-2025學(xué)年四川省達(dá)州市高一上學(xué)期1月期末考試語文試題(解析版)
- 天臺(tái)縣富創(chuàng)塑膠有限公司年產(chǎn)2400噸TPE彈性體塑粒項(xiàng)目環(huán)評(píng)報(bào)告
- 機(jī)關(guān)部門協(xié)作管理制度
評(píng)論
0/150
提交評(píng)論