淺談醫(yī)學(xué)大數(shù)據(jù)_第1頁
淺談醫(yī)學(xué)大數(shù)據(jù)_第2頁
淺談醫(yī)學(xué)大數(shù)據(jù)_第3頁
淺談醫(yī)學(xué)大數(shù)據(jù)_第4頁
淺談醫(yī)學(xué)大數(shù)據(jù)_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、淺談醫(yī)學(xué)大數(shù)據(jù)陳遵秋和陳漪伊夫婦是美籍華人,現(xiàn)在美國定居。其二人是目前研究醫(yī)療大數(shù)據(jù)及生物樣本大數(shù)據(jù)真正的專家?,F(xiàn)將兩位的文章進(jìn)行公開發(fā)表,與大家一起探討?,F(xiàn)在無論國內(nèi)外均出現(xiàn)了移動(dòng)醫(yī)療熱,所有的創(chuàng)業(yè)團(tuán)隊(duì)和投資公司均把商業(yè)模式指向了最后的醫(yī)療大數(shù)據(jù)分析。但是可以很負(fù)責(zé)任的說,90% 以上的人都不知道醫(yī)療大數(shù)據(jù)分析是什么東西,因此這是一篇掃盲貼,但是僅供專業(yè)人士。文中分析了醫(yī)療大數(shù)據(jù)、它的維度、方法和成本,以及需要的專業(yè)人才。本文無論是對(duì)創(chuàng)業(yè)團(tuán)隊(duì)還是投資機(jī)構(gòu)都是非常有指導(dǎo)意義的。大數(shù)據(jù)定義及其其特征大數(shù)據(jù)顧名思義義就是數(shù)量極極其龐大的數(shù)數(shù)據(jù)資料。從從上世紀(jì) 880 年代開開始,每隔 40 個(gè)月月

2、世界上儲(chǔ)存存的人均科技技信息量就會(huì)會(huì)翻倍 (HHibertt & Loopez, 2011)。20122 年,每天天會(huì)有 2.5EB 量量的數(shù)據(jù)產(chǎn)生生 (Anddrew & Erikk, 20112)?,F(xiàn)在在,20144 年,每天天會(huì)有 2.3ZB 量量的數(shù)據(jù)產(chǎn)生生 (IBMM, 20115)。這是是一個(gè)什么概概念? 現(xiàn)在在一般我們電電腦的硬盤大大小都以 GGB,或者 TB 為單單位了。1GGB 的容量量可以儲(chǔ)存約約 5.4 億的漢字,或或者 1700 張普通數(shù)數(shù)碼相機(jī)拍攝攝的高精度照照片,或者 300-3350 首長長度為 5-6 分鐘的的 MP3 歌曲。 那那 GB 和和 TB, EB,Z

3、BB 的關(guān)系又又是怎樣?1ZB=10224EB=110242PPB=102243TB=102444GB。如果果你有一臺(tái) 1TB 硬硬盤容量的電電腦,那 11ZB 就是是大致等于 10 億臺(tái)臺(tái)電腦的容量量, 遠(yuǎn)遠(yuǎn)超超出了我們一一般的想象。早期,IBM 定義了大數(shù)數(shù)據(jù)的特性有有 3 個(gè):大量性( Volumme), 多多樣性(Vaarietyy), 快速速性(Vellocityy) (Ziikopouulos, Eatonn, deRRooos, Deuttsch, & Lappis, 22012)。后后來又有學(xué)者者把價(jià)值(VValue)加加到大數(shù)據(jù)的的特性里。隨隨著時(shí)間的推推移和人們思思考的進(jìn)一

4、步步完善,又有有三個(gè)大數(shù)據(jù)據(jù)的特性被提提出: 易變變性(Varriabillity),準(zhǔn)準(zhǔn)確性 (VVeraciity) 和和復(fù)雜性 (Compllexityy)。作者認(rèn)為價(jià)值本本質(zhì)上是數(shù)據(jù)據(jù)被分析后體體現(xiàn)出來的有有用信息知識(shí)識(shí)的程度,和和其他幾個(gè)特特性有根本區(qū)區(qū)別。其他幾幾個(gè)特性可以以說是數(shù)據(jù)工工作者具體實(shí)實(shí)踐中面臨的的挑戰(zhàn),而價(jià)價(jià)值則是征服服這些挑戰(zhàn)后后獲得的回報(bào)報(bào)。大數(shù)據(jù)的6個(gè)特特性描述如下下:大量性:一般在在大數(shù)據(jù)里,單單個(gè)文件大量量性的級(jí)別至至少為幾十,幾幾百 GB 以上,一調(diào)調(diào)查 (Ruussom, 20133) 顯示相相當(dāng)多的機(jī)構(gòu)構(gòu)擁有的數(shù)據(jù)據(jù)總量在 110 到 999TB 之之

5、間。用我們們傳統(tǒng)的數(shù)據(jù)據(jù)庫軟件,11GB 已經(jīng)經(jīng)可以儲(chǔ)存千千萬條有著幾幾百個(gè)變量的的數(shù)據(jù)記錄了了。多樣性:泛指數(shù)數(shù)據(jù)類型及其其來源的多樣樣化 (Trroesteer, 20012),進(jìn)進(jìn)一步可以把把數(shù)據(jù)結(jié)構(gòu)歸歸納為結(jié)構(gòu)化化 (strructurred),半半結(jié)構(gòu)化 (semi-struccturedd),和非結(jié)結(jié)構(gòu)化 (uunstruuctureed) (SSAS, 22014) ??焖傩裕悍从吃谠跀?shù)據(jù)的快速速產(chǎn)生及數(shù)據(jù)據(jù)變更的頻率率上。比如一一份哈佛商學(xué)學(xué)院的研究報(bào)報(bào)告稱在 22012 年年時(shí),谷歌每每天就需要要要處理 200PB 的數(shù)數(shù)據(jù) (Haarvardd Busiiness Revi

6、eew, 20012)。易變性:伴隨數(shù)數(shù)據(jù)快速性的的特征,數(shù)據(jù)據(jù)流還呈現(xiàn)一一種波動(dòng)的特特征。不穩(wěn)定定的數(shù)據(jù)流會(huì)會(huì)隨著日,季季節(jié),特定事事件的觸發(fā)出出現(xiàn)周期性峰峰值 (Trroesteer, 20012)。準(zhǔn)確性:又稱為為數(shù)據(jù)保證 (dataa assuurancee)。不同方方式,渠道收收集到的數(shù)據(jù)據(jù)在質(zhì)量上會(huì)會(huì)有很大差異異。數(shù)據(jù)分析析和輸出結(jié)果果的錯(cuò)誤程度度和可信度在在很大程度上上取決于收集集到的數(shù)據(jù)質(zhì)質(zhì)量的高低 (W.Raaghupaathi & Raghhupathhi, 20014)。所所謂“垃圾進(jìn),垃垃圾出”。沒有數(shù)據(jù)據(jù)保證,大數(shù)數(shù)據(jù)分析就毫毫無意義。復(fù)雜性:復(fù)雜性性體現(xiàn)在數(shù)據(jù)據(jù)的管

7、理和操操作上。ITT 時(shí)代,隨隨著數(shù)據(jù)來源源及數(shù)據(jù)量的的爆發(fā),各種種不同渠道數(shù)數(shù)據(jù)的大量涌涌現(xiàn),數(shù)據(jù)的的管理和操作作已經(jīng)變得原原來越復(fù)雜。如如何抽取,轉(zhuǎn)轉(zhuǎn)換,加載,連連接,關(guān)聯(lián)以以把握數(shù)據(jù)內(nèi)內(nèi)蘊(yùn)的有用信信息已經(jīng)變得得越來越有挑挑戰(zhàn)性。醫(yī)療大數(shù)據(jù)的爆爆發(fā)早期,大部分醫(yī)醫(yī)療相關(guān)數(shù)據(jù)據(jù)是紙張化的的形式存在,而而非電子數(shù)據(jù)據(jù)化存儲(chǔ), 比如官方的的醫(yī)藥記錄,收收費(fèi)記錄,護(hù)護(hù)士醫(yī)生手寫寫的病例記錄錄,處方藥記記錄,X 光光片記錄,磁磁共振成像(MMRI)記錄錄,CT 影影像記錄等等等。隨著強(qiáng)大的數(shù)據(jù)據(jù)存儲(chǔ),計(jì)算算平臺(tái),及移移動(dòng)互聯(lián)網(wǎng)的的發(fā)展,現(xiàn)在在的趨勢是醫(yī)醫(yī)療數(shù)據(jù)的大大量爆發(fā)及快快速的電子數(shù)數(shù)字化。以上

8、上提到的醫(yī)療療數(shù)據(jù)都在不不同程度上向向數(shù)字化轉(zhuǎn)化化。有報(bào)告顯示,22011 年年,單單美國國的醫(yī)療健康康系統(tǒng)數(shù)據(jù)量量就達(dá)到了 150EBB。照目前的的增長速度, ZB(約 1021GGB)和 YYB(約 11021GBB) 的級(jí)別別也會(huì)很快達(dá)達(dá)到 (IHHTT, 22013)。KKaiserr Permmanentte,一個(gè)在在加州發(fā)展起起來的醫(yī)療健健康網(wǎng)絡(luò)系統(tǒng)統(tǒng), 就有 9 百萬的的會(huì)員,被認(rèn)認(rèn)為擁有 226.5 到到 44PBB 的電子健健康記錄 (IHTT, 20133)。IT 時(shí)代涌現(xiàn)現(xiàn)的還有各種種網(wǎng)絡(luò)社交媒媒體數(shù)據(jù),比比如曾經(jīng) GGooglee 用來預(yù)測測流感的數(shù)據(jù)據(jù)?;驍?shù)據(jù)據(jù)也是

9、非常龐龐大的存在,一一次全面的基基因測序,產(chǎn)產(chǎn)生的個(gè)人數(shù)數(shù)據(jù)則達(dá)到 300GBB (Leaah, 20014)。公公開發(fā)布的基基因 DNAA 微陣列達(dá)達(dá)到 50 萬之多,每每一陣列包含含數(shù)萬的分子子表達(dá)值。在在生物醫(yī)藥方方面,功能性性磁共振影像像的數(shù)據(jù)量也也達(dá)到了數(shù)萬萬 TB 級(jí)級(jí)別,每一幅幅影像包含有有 5 萬像像素值 (FFan, HHan, & Liu, 20144)。此外,各種健身身,健康可穿穿戴設(shè)備的出出現(xiàn),使得血血壓、心率、體體重,血糖,心心電圖(EKKG)等的監(jiān)監(jiān)測都變?yōu)楝F(xiàn)現(xiàn)實(shí)和可能,信信息的獲取和和分析的速度度已經(jīng)從原來來的按“天”計(jì)算,發(fā)展展到了按“小時(shí)”,按“秒”計(jì)算。比如

10、如,一家名為為 Bluee Sparrk 的科技技公司已經(jīng)生生產(chǎn)出能 224 小時(shí)實(shí)實(shí)時(shí)監(jiān)測體溫溫的新型溫度度計(jì)貼片 ttemptrraq。這種數(shù)據(jù)的擴(kuò)展展速度和覆蓋蓋范圍是前所所未有的,數(shù)數(shù)據(jù)的格式也也五花八門,可可能是無格式式文件(fllat fiile),CCSV,關(guān)系系表,ASCCII/ 純純文本文件等等等。同時(shí),數(shù)據(jù)的來來源也紛繁復(fù)復(fù)雜,可能來來自不同的地地區(qū),不同的的醫(yī)療機(jī)構(gòu),不不同的軟件應(yīng)應(yīng)用。不可否否認(rèn),一旦理理順了多格式式,多源頭,呈呈爆炸性成長長的大數(shù)據(jù)的的整合和分析析,醫(yī)療大數(shù)數(shù)據(jù)將對(duì)提高高醫(yī)療質(zhì)量,強(qiáng)強(qiáng)化患者安全全,降低風(fēng)險(xiǎn)險(xiǎn),降低醫(yī)療療成本等方面面發(fā)揮無與倫倫比的巨大

11、作作用。醫(yī)療大數(shù)據(jù)的優(yōu)優(yōu)勢和應(yīng)用場場景有效的整合和利利用數(shù)字化的的醫(yī)療大數(shù)據(jù)據(jù)對(duì)個(gè)體醫(yī)生生,康寶中心心,大型醫(yī)院院,和醫(yī)療研研究機(jī)構(gòu)都有有著顯著的好好處。潛在的利益包括括 (W.RRaghuppathi & Ragghupatthi, 22014):1)更多更準(zhǔn)確確的數(shù)據(jù)使得得疾病能在早早期被監(jiān)測到到,從而使治治療更容易和和有效。2)通過對(duì)特定定個(gè)體或人群群的健康管理理,快速有效效地監(jiān)測保健健詐騙。3)基于大量的的歷史數(shù)據(jù),預(yù)預(yù)測和估計(jì)特特定疾病或人人群的某些未未來趨勢,比比如:預(yù)測特特定病人的住住院時(shí)間,哪哪些病人會(huì)選選擇非急需性性手術(shù), 哪哪些病人不會(huì)會(huì)從手術(shù)治療療中受益,哪哪些病人會(huì)更更

12、容易出現(xiàn)并并發(fā)癥,等等等。麥肯錫估估計(jì),單單就就美國而言,醫(yī)醫(yī)療大數(shù)據(jù)的的利用可以為為醫(yī)療開支節(jié)節(jié)省出 3 千億美元一一年。醫(yī)療大數(shù)據(jù)的利利用可以從以以下幾方面減減少浪費(fèi)和提提高效率 (Manyiika, 以以及其他人, 20111):臨床操作: 相相對(duì)更有效的的醫(yī)學(xué)研究,發(fā)發(fā)展出臨床相相關(guān)性更強(qiáng)和和成本效益更更高的方法用用來診斷和治治療病人。研究和發(fā)展:在在藥品和醫(yī)療療器械方面,建建立更低磨損損度,更精簡簡,更快速,更更有針對(duì)性的的研發(fā)產(chǎn)品線線。統(tǒng)計(jì)工具具和算法方面面,提高臨床床試驗(yàn)設(shè)計(jì)和和患者的招募募,使得治療療方法可以更更好地匹配個(gè)個(gè)體患者的病病癥,從而降降低臨床試驗(yàn)驗(yàn)失敗的可能能和加快

13、新的的治療方法推推向市場。分分析臨床試驗(yàn)驗(yàn)和病人的病病歷,以確定定后續(xù)的跡象象,并在產(chǎn)品品進(jìn)入市場前前發(fā)現(xiàn)病人對(duì)對(duì)藥物醫(yī)療方方法的不良反反應(yīng)。公共衛(wèi)生:分析析疾病模式和和追蹤疾病暴暴發(fā)及傳播方方式途徑,提提高公共衛(wèi)生生監(jiān)測和反應(yīng)應(yīng)速度。更快快更準(zhǔn)確地研研制靶向疫苗苗,例如:開開發(fā)每年的流流感疫苗。此外,醫(yī)療大數(shù)數(shù)據(jù)的分析還還有利于以下下幾方面的發(fā)發(fā)展 (W.Raghuupathii & Raaghupaathi, 2014):循證醫(yī)學(xué):結(jié)合合和分析各種種結(jié)構(gòu)化和非非結(jié)構(gòu)化數(shù)據(jù)據(jù),電子病歷歷,財(cái)務(wù)和運(yùn)運(yùn)營數(shù)據(jù),臨臨床資料和基基因組數(shù)據(jù)用用以尋找與病病癥信息相匹匹配的治療,預(yù)預(yù)測疾病的高高?;颊呋?/p>

14、提提供更多高效效的醫(yī)療服務(wù)務(wù)?;蚪M分析:更更有效和低成成本的執(zhí)行基基因測序,使使基因組分析析成為正規(guī)醫(yī)醫(yī)療保健決策策的必要信息息并納入病人人病歷記錄。提前裁定欺詐分分析:快速分分析大量的索索賠請(qǐng)求,降降低欺詐成功功率,減少浪浪費(fèi)和濫用。設(shè)備/遠(yuǎn)程監(jiān)控控:從住院和和家庭醫(yī)療裝裝置采集和分分析實(shí)時(shí)大容容量的快速移移動(dòng)數(shù)據(jù),用用于安全監(jiān)控控和不良反應(yīng)應(yīng)的預(yù)測。病人的個(gè)人資料料分析:全面面分析病人個(gè)個(gè)人信息(例例如,分割和和預(yù)測模型)從從中找到能從從特定健保措措施中獲益的的個(gè)人。例如如,某些疾病病的高?;颊哒撸ㄈ缣悄虿〔。┛梢詮念A(yù)預(yù)防措施中受受益。這些人人如果擁有足足夠的時(shí)間提提前有針對(duì)性性的預(yù)防病

15、情情,那么大多多數(shù)的危害可可以降到最低低程度,甚至至可以完全消消除。然而,根據(jù)一份份針對(duì)美國和和加拿大 3333 家醫(yī)醫(yī)療機(jī)構(gòu)及 10 家其其他機(jī)構(gòu)的調(diào)調(diào)查 (IHHTT, 22013),22013 年年,醫(yī)療機(jī)構(gòu)構(gòu)累積的數(shù)據(jù)據(jù)量比 20011 年多多出了 855%, 但 77% 的的醫(yī)療健康行行政人員對(duì)自自己機(jī)構(gòu)在數(shù)數(shù)據(jù)管理方面面的能力評(píng)價(jià)價(jià)為“C”。此外,僅僅有 34% 報(bào)告他們們能從電子健健康記錄(EEHR)中獲獲取數(shù)據(jù)用來來幫助病人,而而有 43% 報(bào)告他們們不能收集到到足夠多的數(shù)數(shù)據(jù)來幫助病病人。由此可可見,在北美美的醫(yī)療系統(tǒng)統(tǒng)中,醫(yī)療大大數(shù)據(jù)的管理理使用準(zhǔn)備工工作還有一大大段路要走

16、。中中國也是處在在起步階段。數(shù)據(jù)分析框架(傳傳統(tǒng)數(shù)據(jù)分析析框架,大數(shù)數(shù)據(jù)分析框架架)醫(yī)療大數(shù)據(jù)有著著前面第一節(jié)節(jié)提到的所有有特征。在醫(yī)醫(yī)療大數(shù)據(jù)帶帶來各種優(yōu)勢勢的同時(shí),大大數(shù)據(jù)隨之帶帶來的各種特特性使得傳統(tǒng)統(tǒng)的數(shù)據(jù)處理理和數(shù)據(jù)分析析方法及軟件件捉襟見肘,問問題多多。在在大數(shù)據(jù)時(shí)代代出現(xiàn)之前,受受限于數(shù)據(jù)量量的可獲得性性和計(jì)算能力力的有限性,傳傳統(tǒng)的數(shù)據(jù)管管理和分析采采用著不同的的思路和流程程。傳統(tǒng)上,對(duì)對(duì)于問題的研研究建立在假假設(shè)的基礎(chǔ)上上進(jìn)行驗(yàn)證,進(jìn)進(jìn)而研究事物物的相關(guān)因果果性,希望能能回答“為什么”。而在大數(shù)據(jù)時(shí)代代,海量數(shù)據(jù)據(jù)的涌現(xiàn)提供供了從不同角角度更細(xì)致更更全面觀察研研究數(shù)據(jù)的可可能

17、,從而打打開了人們的的好奇心,探探索欲望,人人們想知道到到數(shù)據(jù)告訴了了我什么,而而不僅僅是我我的猜想是否否被數(shù)據(jù)驗(yàn)證證了。人們?cè)皆絹碓蕉嗟赜糜么髷?shù)據(jù)挖掘掘各種感興趣趣的關(guān)聯(lián),非非關(guān)聯(lián)等相關(guān)關(guān)性,然后再再進(jìn)一步比較較,分析,歸歸納,研究(“為什么”變成一個(gè)選項(xiàng)而不是唯一終極目標(biāo))。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)思路上的不同導(dǎo)致了分析流程的不同,如圖一所示:圖一面對(duì)海量的數(shù)據(jù)據(jù)和不同的分分析思路,大大數(shù)據(jù)的管理理和分析與傳傳統(tǒng)數(shù)據(jù)分析析的差異日益益加大?;卮鸫鹛囟▎栴}的的單一預(yù)設(shè)結(jié)結(jié)構(gòu)化數(shù)據(jù)庫庫明顯不能完完全勝任處理理大數(shù)據(jù)的海海量及混雜等等問題。數(shù)據(jù)據(jù)的混雜多樣樣性具體可以以從一些調(diào)查查數(shù)據(jù)中表現(xiàn)現(xiàn)出來。SA

18、AS 的一份份調(diào)查報(bào)告顯顯示機(jī)構(gòu)內(nèi)的的非結(jié)構(gòu)化數(shù)數(shù)據(jù)最多可以以占到總數(shù)據(jù)據(jù)量的 855%,而這些些非數(shù)字,非非結(jié)構(gòu)化的數(shù)數(shù)據(jù)卻必須被被量化分析和和用到?jīng)Q策分分析中 (TTroestter, 22012)。另一份 20113 年進(jìn)行行的 SASS 調(diào)查報(bào)告告顯示在 4461 個(gè)提提供完整反饋饋信息的機(jī)構(gòu)構(gòu)中只有 226% 的機(jī)機(jī)構(gòu)表示他們們所擁有的大大數(shù)據(jù)是結(jié)構(gòu)構(gòu)化的 (RRussomm, 20113)。 此此外,在機(jī)構(gòu)構(gòu)中,分析的的數(shù)據(jù)一般不不會(huì)只有一個(gè)個(gè)單一的來源源。Alteeryx 的的調(diào)查報(bào)告顯顯示在 2000 家被調(diào)調(diào)查的機(jī)構(gòu)中中只有 6% 的機(jī)構(gòu)表表示他們的數(shù)數(shù)據(jù)是只有一一個(gè)來源,最

19、最為普遍的情情況是 5-10 個(gè)來來源, 具體體分布如圖二二 (Altteryx, 20144)。調(diào)查中還顯示 90% 的的被調(diào)查樣本本表示有數(shù)據(jù)據(jù)整合問題,337% 表示示需要等其他他小組提供數(shù)數(shù)據(jù),30% 表示不能能得到他們想想要的數(shù)據(jù),一一般估計(jì)是一一個(gè)數(shù)據(jù)分析析師的 600% 到 880% 的時(shí)時(shí)間是花在數(shù)數(shù)據(jù)處理準(zhǔn)備備階段上的 (Alteeryx, 2014)。圖二由此可見有效的的數(shù)據(jù)管理,數(shù)數(shù)據(jù)庫建立及及數(shù)據(jù)分析流流程的重要性性。傳統(tǒng)的數(shù)數(shù)據(jù)管理的過過程包括抽取?。‥xtrractioon),轉(zhuǎn)換換(Trannsformmationn)和載入(lload)。通通過 ETLL,可以賦

20、予予數(shù)據(jù)一種合合適恰當(dāng)?shù)慕Y(jié)結(jié)構(gòu)用于特定定的分析發(fā)現(xiàn)現(xiàn)。具體數(shù)據(jù)據(jù)準(zhǔn)備分析流流程如圖三所所示:1)抽抽取單個(gè)或多多個(gè)來源的數(shù)數(shù)據(jù) 。2)凈凈化,格式化化,標(biāo)準(zhǔn)化,聚聚合,添加,或或遵循其他特特定的數(shù)據(jù)處處理規(guī)則。33)載入處理理完的數(shù)據(jù)到到特定的數(shù)據(jù)據(jù)庫或儲(chǔ)存為為特定的文件件格式。4)采采用各種方法法進(jìn)行數(shù)據(jù)分分析。圖三ETL 的中心心內(nèi)容仍舊適適用于大數(shù)據(jù)據(jù),但由于大大數(shù)據(jù)的大量量性和多樣性性對(duì)數(shù)據(jù)庫和和數(shù)據(jù)管理及及處理方法的的要求越來越越高,也越來來越復(fù)雜,這這樣線性處理理整個(gè)數(shù)據(jù)變變得相當(dāng)耗費(fèi)費(fèi)人力,物力力,和時(shí)間。此外,大數(shù)據(jù)的的快速性,易易變性也使得得把數(shù)據(jù)儲(chǔ)存存在單一的中中央數(shù)據(jù)庫變

21、變的不太可行行。 在這種種情況下,最最流行的思路路是把數(shù)據(jù)分分割處理,也也就是把數(shù)據(jù)據(jù)儲(chǔ)存到多個(gè)個(gè)儲(chǔ)存節(jié)點(diǎn)(比比如網(wǎng)絡(luò)數(shù)據(jù)據(jù)庫),在每每個(gè)節(jié)點(diǎn)單獨(dú)獨(dú)處理數(shù)據(jù)(甚甚至處理完就就接著進(jìn)行初初步分析, 但處理的程程度依客戶具具體問題而調(diào)調(diào)整),然后后再匯總整合合到一起,提提供給單個(gè)或或多個(gè)數(shù)據(jù)庫庫,接著根據(jù)據(jù)需要選擇合合適的分析方方法獲取有用用結(jié)果。ETTL 貫穿于于整個(gè)大數(shù)據(jù)據(jù)管理分析的的流程中。圖圖四演示了大大致的大數(shù)據(jù)據(jù)管理分析流流程及一些大大數(shù)據(jù)處理分分析平臺(tái)工具具的名字。圖四SAS的數(shù)據(jù)倉倉庫研究院(TTDWI)針針對(duì)現(xiàn)今存在在的大數(shù)據(jù)處處理分析平臺(tái)臺(tái)工具進(jìn)行了了一項(xiàng)調(diào)查以以幫助人們?cè)谠谶x

22、擇軟硬件件進(jìn)行大數(shù)據(jù)據(jù)分析時(shí)能做做出更好的決決策。針對(duì)大大數(shù)據(jù)技術(shù),特特點(diǎn),和使用用者操作,調(diào)調(diào)查提供了三三個(gè)選擇:11)現(xiàn)在使用用中,并且會(huì)會(huì)繼續(xù)使用。22)會(huì)在三年年中開始使用用。3)沒有有計(jì)劃使用。圖圖五左側(cè)顯示示了對(duì)于各種種大數(shù)據(jù)分析析平臺(tái)工具,被被調(diào)查人員的的回復(fù)比例。圖圖五的右側(cè)顯顯示了平臺(tái)工工具可能的潛潛在成長和對(duì)對(duì)采用此工具具做出承諾的的被調(diào)查人員員比例。圖五根據(jù)潛在成長和和承諾的綜合合考量,此調(diào)調(diào)查還進(jìn)一步步把大數(shù)據(jù)分分析平臺(tái), 工具分成 4 組:第第一組為適度度的承諾,中中度到強(qiáng)的成成長潛力;第第二組為中度度至強(qiáng)有力的的承諾,適度度增長潛力;第三組為弱弱到中度的承承諾,適度

23、增增長潛力;第第四組為中度度至強(qiáng)有力的的承諾,弱增增長潛力。圖圖六顯示了這這些組別的內(nèi)內(nèi)容分布。限限于篇幅,本本文不詳細(xì)介介紹所列的每每一平臺(tái)工具具的具體內(nèi)容容,感興趣的的讀者可以參參考文獻(xiàn)獲取取更詳細(xì)的介介紹。圖六圖五和圖六都顯顯示了最流行行的平臺(tái)和數(shù)數(shù)據(jù)處理方式式為開源免費(fèi)費(fèi)的 Haddoop 和和 MapRReducee。伴隨著他他們的潛在成成長和承諾程程度,可以預(yù)預(yù)見,Haddoop 和和 MapRReducee 正在并會(huì)會(huì)繼續(xù)推動(dòng)和和促進(jìn)大數(shù)據(jù)據(jù)的處理和應(yīng)應(yīng)用。在此,我們簡單單介紹一下 Hadooop 和 MMapRedduce 的的概念。Haadoop 是一種基于于 Javaa 的

24、分散式式數(shù)據(jù)處理框框架。它可以以提供對(duì)儲(chǔ)存存在多個(gè)硬件件設(shè)備上的數(shù)數(shù)據(jù)進(jìn)行高吞吞吐率的讀寫寫。更重要的的是,它對(duì)大大數(shù)據(jù)具有高高容錯(cuò)性 和和對(duì)并行應(yīng)用用程序的高可可用性。Haadoop 框架結(jié)構(gòu)由由若干名字節(jié)節(jié)點(diǎn)(NammeNodee)和數(shù)據(jù)節(jié)節(jié)點(diǎn)(DattaNodee)組成。一一份數(shù)以萬計(jì)計(jì),百萬計(jì)的的大數(shù)據(jù)文件件會(huì)被分割成成更小的文件件信息塊儲(chǔ)存存在多個(gè)數(shù)據(jù)據(jù)節(jié)點(diǎn)里,可可以是任何計(jì)計(jì)算機(jī)硬件設(shè)設(shè)備。有關(guān)這些文件的的數(shù)據(jù)屬性資資料信息稱作作 metaadata 則被存儲(chǔ)在在名字節(jié)點(diǎn)里里(NameeNode). NameeNode 主要管理文文件系統(tǒng)的命命名空間和客客戶端對(duì)文件件的訪問操作作記

25、錄。Haadoop 的框架結(jié)構(gòu)構(gòu)如圖七:圖七當(dāng)訪問和操作數(shù)數(shù)據(jù)文件時(shí),客客戶端會(huì)聯(lián)系系名字節(jié)點(diǎn)提提取文件信息息塊的屬性信信息比如位置置,文件名等等。然后根據(jù)據(jù)這些屬性信信息,客戶端端直接從相應(yīng)應(yīng)的數(shù)據(jù)節(jié)點(diǎn)點(diǎn)同時(shí)讀取數(shù)數(shù)據(jù)塊。Haadoop 本身具有冗冗余和復(fù)制功功能,保證在在單個(gè)硬件儲(chǔ)儲(chǔ)存設(shè)備出現(xiàn)現(xiàn)故障時(shí)數(shù)據(jù)據(jù)仍舊能被恢恢復(fù)而沒有任任何損失,比比如每個(gè)數(shù)據(jù)據(jù)節(jié)點(diǎn)默認(rèn)擁擁有 3 個(gè)個(gè)備份之類。此外,在有新數(shù)數(shù)據(jù)節(jié)點(diǎn)添加加到框架中時(shí)時(shí),Hadooop 還可可以自動(dòng)平衡衡每個(gè)數(shù)據(jù)節(jié)節(jié)點(diǎn)的數(shù)據(jù)載載有量。同樣樣,名字節(jié)點(diǎn)點(diǎn)也可以擁有有冗余和復(fù)制制功能,用于于在單個(gè)儲(chǔ)存存數(shù)據(jù)屬性信信息的名字節(jié)節(jié)點(diǎn)出現(xiàn)故障

26、障時(shí)可以恢復(fù)復(fù)相應(yīng)的數(shù)據(jù)據(jù)屬性信息。MapReduuce 則是是一種可以用用來并行處理理大數(shù)據(jù)的編編程模型。同同一程序在 Hadooop 的框架架下可以用各各種不同的語語言(Javva,Rubby,Pytthon 等等)按 MaapReduuce 的編編程模型進(jìn)行行編寫和運(yùn)行行。其關(guān)鍵就就在于三個(gè)詞詞: mapp,reduuce, 和和并行處理。我我們通過一個(gè)個(gè)例子來理解解 MapRReducee 的大致工工作原理。比比如我們有一一 30 個(gè)個(gè)字的字符串串“開落花纏落落花繞纏開繞繞笑瓜夜村村村舍舍瓜夜藤藤繞下下藤繞繞嬉嬉笑娃娃娃”,任務(wù)是計(jì)計(jì)算每個(gè)字出出現(xiàn)的次數(shù)。最簡單的方法是是按序讀取每每一

27、個(gè)字建立立標(biāo)識(shí)索引并并計(jì)算出現(xiàn)的的次數(shù)值存入入內(nèi)存,如果果是新字,值值為 1,如如果是出現(xiàn)過過的字則次數(shù)數(shù)值累加上去去。此種方式式是按串行的的方式進(jìn)行的的,所花的時(shí)時(shí)間會(huì)隨著字字符串的長度度和復(fù)雜度程程線性增長。當(dāng)當(dāng)字符串是以以萬計(jì)百萬計(jì)計(jì)時(shí),比如基基因組數(shù)據(jù),所所花的時(shí)間將將是相當(dāng)驚人人的。 并行行處理則能節(jié)節(jié)約相當(dāng)多的的時(shí)間。我們先把原文件件分割到幾個(gè)個(gè)小文件塊,然然后對(duì)每個(gè)小小文件塊進(jìn)行行字的標(biāo)識(shí)索索引和附加數(shù)數(shù)值(這兒不不進(jìn)行累計(jì),只只是簡單的單單次點(diǎn)數(shù)),然然后再排序重重組把相同字字放在一起,然然后我們?cè)儆糜每s減法計(jì)算算出字及其相相應(yīng)的出現(xiàn)次次數(shù)值。圖八八顯示了具體體的例子步驟驟:圖

28、八大數(shù)據(jù)特性對(duì)統(tǒng)統(tǒng)計(jì)應(yīng)用上的的際遇和沖擊擊大數(shù)據(jù)的獨(dú)特性性對(duì)傳統(tǒng)的統(tǒng)統(tǒng)計(jì)方法發(fā)出出了挑戰(zhàn),刺刺激著新的,適適用于大數(shù)據(jù)據(jù)分析的統(tǒng)計(jì)計(jì)方法的發(fā)展展。本文提到到的一些際遇遇和問題,一一部分是作者者自己的觀點(diǎn)點(diǎn),一部分摘摘自其他文章章( (Faan, Haan, & Liu, 2014) (Wanng & WWang, 2014)。相較于統(tǒng)計(jì)文章章的專業(yè)寫作作手法,作者者試圖用更淺淺顯易懂的說說法來介紹這這些問題,讓讓一般的讀者者對(duì)此也能有有一定的了解解并對(duì)此產(chǎn)生生興趣。傳統(tǒng)統(tǒng)數(shù)據(jù)一般來來說是樣本量量遠(yuǎn)遠(yuǎn)大于感感興趣的因素素,比如一數(shù)數(shù)據(jù)有2000條記錄關(guān)于于個(gè)人是否有有心血管病,可可能相關(guān)因素素為

29、性別,年年齡,血壓。這這兒只有4個(gè)個(gè)因素,但樣樣本量為2000(20004)。而大數(shù)據(jù)則擁有有海量的樣本本及相當(dāng)多的的因素。還是是用心血管的的例子,現(xiàn)在在比如我們有有了幾萬條記記錄的樣本量量,但同時(shí)也也擁有了上百百個(gè)的因素,各各種以前沒法法收集的因素素都收集了,像像運(yùn)動(dòng)與否,運(yùn)運(yùn)動(dòng)量如何,運(yùn)運(yùn)動(dòng)類型,飲飲食習(xí)慣,飲飲食內(nèi)容,喝喝酒與否,喝喝什么酒,喝喝酒習(xí)慣次數(shù)數(shù)等等。這使使統(tǒng)計(jì)中對(duì)數(shù)數(shù)據(jù)的研究應(yīng)應(yīng)用得到了新新的際遇同時(shí)時(shí)也面臨了新新的挑戰(zhàn)。數(shù)據(jù)異質(zhì)性(hheteroogeneiity)數(shù)據(jù)異質(zhì)性,可可以簡單理解解成一個(gè)大樣樣本數(shù)據(jù)里有有很多小樣本本,每個(gè)小樣樣本有著不同同的數(shù)據(jù)特征征,比如小

30、樣樣本的平均值值有高有低,離離散程度有密密有疏,就好好象海洋中有有著不同溫度度,不同密度度的各種洋流流一樣。我們們不能簡單的的只在大樣本本的層面進(jìn)行行統(tǒng)計(jì)分析,這這樣得出的結(jié)結(jié)果如果被用用于對(duì)小樣本本或樣本中的的個(gè)體的估計(jì)計(jì)或預(yù)測時(shí)就就會(huì)出現(xiàn)偏差差,因?yàn)槊總€(gè)個(gè)小樣本可能能有著一些它它自己獨(dú)特的的特征。在數(shù)據(jù)樣本小的的時(shí)候,里面面的小樣本相相應(yīng)的就更小小。 這種情情況下小樣本本里的數(shù)據(jù)記記錄可能只有有一,兩個(gè),它它們只能被當(dāng)當(dāng)作異常值處處理,無法分分析。而在大大數(shù)據(jù)里,這這種具有獨(dú)特特特征的數(shù)據(jù)據(jù)記錄收集出出現(xiàn)多了,就就擁有了被統(tǒng)統(tǒng)計(jì)分析的條條件,從而使使我們更好地地探究特定因因素的關(guān)聯(lián)性性,理

31、解這些些數(shù)據(jù)異質(zhì)性性。比如有些些只在特定人人群里發(fā)生的的極其罕見的的疾病,大數(shù)數(shù)據(jù)使我們得得以研究發(fā)病病原因,發(fā)病病風(fēng)險(xiǎn)因素;理解為什么么有些治療方方法對(duì)某些人人群有利,而而同樣的方法法對(duì)另一人群群卻有害,等等等。同樣,由于海量量樣本和巨多多的因素存在在于大數(shù)據(jù)里里,信息的復(fù)復(fù)雜度也會(huì)增增加不少,受受復(fù)雜度的影影響,可能導(dǎo)導(dǎo)致統(tǒng)計(jì)上的的過度擬合(ooverfiittingg)。過度擬擬合就是指我我們建立了一一個(gè)復(fù)雜的統(tǒng)統(tǒng)計(jì)模型,它它能很好的描描述現(xiàn)有數(shù)據(jù)據(jù)的情況,但但當(dāng)我們想把把這模型應(yīng)用用到預(yù)測新數(shù)數(shù)據(jù)時(shí),它的的表現(xiàn)卻相當(dāng)當(dāng)差。比如圖圖九所示:圖九圖九左邊上的曲曲線是我們針針對(duì)藍(lán)點(diǎn)(當(dāng)當(dāng)作現(xiàn)

32、有數(shù)據(jù)據(jù))做出的模模型,基本上上能很好的描描述藍(lán)點(diǎn)的分分布及曲線和和藍(lán)點(diǎn)的吻合合度較高。用用這曲線去描描述黃點(diǎn)(當(dāng)當(dāng)作新數(shù)據(jù)),吻吻合度也還不不錯(cuò)。圖九右右邊的曲線則則完全通過了了每一藍(lán)點(diǎn),吻吻合度極高,完完全描述了藍(lán)藍(lán)點(diǎn)的復(fù)雜特特性。然而,它它在描述黃點(diǎn)點(diǎn)時(shí),吻合度度就差多了,偏偏差就比左邊邊的曲線大不不少。簡單來來說,數(shù)據(jù)越越復(fù)雜,需要要考慮的因素素越多,建立立普遍有效的的統(tǒng)計(jì)模型的的難度就越大大。偏差識(shí)別(Biias acccumullationn)分析數(shù)據(jù)時(shí),我我們需要估計(jì)計(jì)或測試很多多參數(shù)用以建建立可靠的統(tǒng)統(tǒng)計(jì)數(shù)據(jù)模型型。期間不可可避免會(huì)產(chǎn)生生偏差,這些些估計(jì)中產(chǎn)生生的偏差積累累,很

33、大程度度上受著數(shù)據(jù)據(jù)量大小及參參數(shù)多寡的影影響。 在一一般小數(shù)據(jù)時(shí)時(shí),這問題可可以并不顯著著。但在大數(shù)數(shù)據(jù)的情況下下,這問題就就變的相當(dāng)值值得注意。 我們用一簡簡化的例子來來說明這個(gè)問問題。假設(shè)我們有兩組組數(shù)據(jù)A和BB,A組數(shù)據(jù)據(jù)收集估算時(shí)時(shí)沒有偏差,所所有樣本數(shù)值值都為10000。B組數(shù)數(shù)據(jù),實(shí)際所所有樣本數(shù)值值也是10000,但存在在偏差,而且且偏差隨收集集樣本量的增增加呈指數(shù)式式成長(為了了說明情況,偏偏差指數(shù)式成成長是一個(gè)很很極端的例子子)。每增加加一個(gè)記錄,偏偏差增長公式式為:這樣B組第一個(gè)個(gè)記錄包含偏偏差為1.0001=1.0011. B組第一一個(gè)值為10000 1.001=110

34、01. B組第二個(gè)個(gè)記錄包含偏偏差為1.00020011=1.00012. BB組第一個(gè)值值為10000 1.0002001=1002.001. B組第十個(gè)個(gè)值為10000 1.0010045512=10010.0445.這樣如如果是小數(shù)據(jù)據(jù)n=10, A組數(shù)據(jù)據(jù)其實(shí)和B組組數(shù)據(jù)比起來來相差是不大大的。B組內(nèi)內(nèi)的每一個(gè)數(shù)數(shù)字增加的偏偏差不足以引引起注意,如如果2%以內(nèi)內(nèi)的偏差都可可以接受的話話。然而當(dāng)我們收集集了1萬個(gè)數(shù)數(shù)據(jù)記錄后,情情況就發(fā)生了了很大的變化化。我們來看看最后10個(gè)個(gè)數(shù)據(jù)相差情情況已經(jīng)相當(dāng)當(dāng)相當(dāng)大了。A組數(shù)據(jù)和B組組數(shù)據(jù),在擁擁有海量的數(shù)數(shù)據(jù)樣本的情情況下,相差差已是十萬八八千

35、里了。圖圖十顯示了偏偏差隨樣本量量增加的變化化情況。在樣樣本數(shù)量為44236左右右,偏差的增增加還不明顯顯。一過42236,偏差差則出現(xiàn)了驚驚人的增長。圖十所以依此為判斷斷的話,我們們可以說在數(shù)數(shù)據(jù)樣本量44000左右右,A組和BB組比較,差差別可能不大大。但數(shù)據(jù)樣樣本量大于44000以后后,A組和BB組比較,可可能就會(huì)相當(dāng)當(dāng)不一樣了。這這個(gè)例子充分分說明了大數(shù)數(shù)據(jù)相比較小小數(shù)據(jù)而言對(duì)對(duì)數(shù)據(jù)偏差更更容易進(jìn)行識(shí)識(shí)別,從而發(fā)發(fā)現(xiàn)數(shù)據(jù)收集集過程中的問問題并加以改改善。虛假相關(guān)(sppuriouus corrrelattion)虛假相關(guān),我們們用一個(gè)例子子來加以解釋釋說明。這兒兒還是以前面面提到過的心

36、心血管數(shù)據(jù)為為例?,F(xiàn)在只只收集了2000個(gè)記錄,但但每條記錄都都有100個(gè)個(gè)各方各面因因素的信息。這這樣,我們想想看是否這1100個(gè)因素素和“是否有心血血管病”相關(guān)。如此此,我們進(jìn)行行兩兩檢驗(yàn)測測試: 是否否有心血管病病和因素一進(jìn)進(jìn)行檢驗(yàn),是是否有心血管管病和因素二二進(jìn)行檢驗(yàn)是否有心心血管病和因因素一百進(jìn)行行檢驗(yàn)。每一個(gè)檢驗(yàn)測試試結(jié)果只會(huì)出出現(xiàn)兩種情況況:統(tǒng)計(jì)學(xué)上有有意義和統(tǒng)計(jì)計(jì)學(xué)上無意義義。統(tǒng)計(jì)學(xué)上有意義義,簡單來說說就是認(rèn)為心心血管病和該該因素有關(guān)。統(tǒng)統(tǒng)計(jì)學(xué)上無意意義就是認(rèn)為為心血管病和和該因素?zé)o關(guān)關(guān)。 在此過過程中,你可可能發(fā)現(xiàn),大大約會(huì)有5次次在統(tǒng)計(jì)學(xué)上上被認(rèn)為與心心血管病相關(guān)關(guān)的因素

37、,實(shí)實(shí)際上從常識(shí)識(shí)和現(xiàn)實(shí)來判判斷是沒有任任何關(guān)聯(lián)的,也也就是說統(tǒng)計(jì)計(jì)學(xué)上有意義義是錯(cuò)誤的。這這就是虛假相相關(guān)。為了讓我們能知知其然也知其其所以然,這這兒要解釋一一下“統(tǒng)計(jì)學(xué)上有有意義”究竟是怎么么界定的 。一一般做檢驗(yàn)測測試時(shí),我們們會(huì)界定一個(gè)個(gè)值,叫做第第一類統(tǒng)計(jì)錯(cuò)錯(cuò)誤率。這個(gè)個(gè)錯(cuò)誤率通常常被設(shè)定為55%,也就是是說每1000次檢驗(yàn)測試試,我們?cè)试S許有5次在統(tǒng)統(tǒng)計(jì)學(xué)上實(shí)際際無意義的被被錯(cuò)誤判斷為為統(tǒng)計(jì)學(xué)上有有意義(如果果不允許統(tǒng)計(jì)計(jì)錯(cuò)誤率的存存在,那就是是100%的的正確率,也也就是說沒有有不確定性的的存在。如果果有這樣的數(shù)數(shù)據(jù),就不需需要做任何統(tǒng)統(tǒng)計(jì)上的假設(shè)設(shè)檢驗(yàn)了)。也就是說,如果果實(shí)際

38、不存在在相關(guān)性,我我們?cè)试S1000次假設(shè)檢檢驗(yàn)中出現(xiàn)55次錯(cuò)誤相關(guān)關(guān)。這就是以以上例子中出出現(xiàn)虛假相關(guān)關(guān)的原因。 在面對(duì)龐大大的海量數(shù)據(jù)據(jù)和超多維度度的因素時(shí),當(dāng)當(dāng)同時(shí)對(duì)一個(gè)個(gè)數(shù)據(jù)進(jìn)行許許多檢驗(yàn)測試試時(shí),不可避避免會(huì)出現(xiàn)虛虛假相關(guān)。如如何處理這個(gè)個(gè)問題,統(tǒng)計(jì)計(jì)學(xué)上還在做做著進(jìn)一步的的研究。無意義顯著性(meaniinglesss siggnificcance)還有一種情況我我們稱為無意意義的顯著性性 (Linn, Luccas, & Shmuueli, 2013)。當(dāng)我們做做兩組數(shù)據(jù)的的分析比較時(shí)時(shí),如果A組組,B組各只只有10000個(gè)數(shù)據(jù)記錄錄,我們測試試兩組數(shù)據(jù)的的平均值是否否一樣,結(jié)果果

39、告訴我們統(tǒng)統(tǒng)計(jì)學(xué)上無意意義。也就是是說,這兩組組數(shù)據(jù)的平均均值無統(tǒng)計(jì)學(xué)學(xué)上的差異。但但當(dāng)數(shù)據(jù)記錄錄達(dá)到上萬上上百萬時(shí),測測試的結(jié)果告告訴我們統(tǒng)計(jì)計(jì)學(xué)上是有意意義的了。這又是怎么回事事?我們回到到源頭上去看看,為什么要要做兩組數(shù)據(jù)據(jù)的統(tǒng)計(jì)分析析比較?不可可以就算出兩兩組的平均值值,比一比他他們是否相同同嗎?當(dāng)然不不可以,因?yàn)闉槲覀冋嬲OM治霰容^較的結(jié)果是能能夠反映1000%總體數(shù)數(shù)量數(shù)據(jù)的客客觀現(xiàn)象。單單純孤立的比比較兩組各11000個(gè)記記錄的平均值值,就是比大大小,比出來來的結(jié)論不能能推廣到1000%總體數(shù)數(shù)量數(shù)據(jù)的客客觀現(xiàn)象上。但這兩組數(shù)據(jù)等等同于1000%總體數(shù)量量數(shù)據(jù)嗎? 當(dāng)然不是,

40、就就算是海量的的大數(shù)據(jù)也并并不能1000%等同于總總體數(shù)量數(shù)據(jù)據(jù)。這樣我們們分析總結(jié)出出的這兩組數(shù)數(shù)據(jù)的一些統(tǒng)統(tǒng)計(jì)指標(biāo)就會(huì)會(huì)和總體數(shù)量量數(shù)據(jù)的統(tǒng)計(jì)計(jì)指標(biāo)有一定定的偏差。這這個(gè)偏差一般般有一個(gè)下限限和上限,我我們稱為置信信區(qū)間。真實(shí)實(shí)的總體數(shù)量量數(shù)據(jù)的統(tǒng)計(jì)計(jì)指標(biāo)就落在在樣本數(shù)據(jù)統(tǒng)統(tǒng)計(jì)指標(biāo)的左左邊或右邊的的一定范圍內(nèi)內(nèi)(置信區(qū)間間)。好了,我們實(shí)際際要看的是AA組總體數(shù)量量數(shù)據(jù)和B組組總體數(shù)量數(shù)數(shù)據(jù)在平均值值上是否一樣樣,換種說法法就是A組總總體數(shù)量數(shù)據(jù)據(jù)平均值減BB組總體數(shù)量量數(shù)據(jù)平均值值是否等于零零: ?,F(xiàn)在在我們只有AA組樣本數(shù)量量數(shù)據(jù)平均值值和B組樣本本數(shù)量數(shù)據(jù)平平均值,表達(dá)達(dá)符號(hào)就是和和

41、。要看的就就是A組樣本本數(shù)量數(shù)據(jù)平平均值減B組組樣本數(shù)量數(shù)數(shù)據(jù)平均值的的差值是否等等于0: 但但我們已經(jīng)知知道由于樣本本均分差的存存在,樣本平平均值相減的的差值不一定定是零,而且且這個(gè)差值有有一定的置信信區(qū)間。那么我們實(shí)際上上更精確的說說是看0是否否落在樣本差差值的置信區(qū)區(qū)間內(nèi)(置信信區(qū)間的上限限和下限和上上面提到的第第一統(tǒng)計(jì)錯(cuò)誤誤率是相一致致的,有一個(gè)個(gè)5%的概念念在里面,這這兒就不詳細(xì)細(xì)介紹了。反反正是否落在在置信區(qū)間里里否也可以用用來判斷統(tǒng)計(jì)計(jì)學(xué)上是有意意義還是沒有有意義)。落落在里面我們們就說是統(tǒng)計(jì)計(jì)學(xué)上是沒有有意義的也就就是兩組數(shù)據(jù)據(jù)的平均值是是一樣。不落落在里面我們們就說是統(tǒng)計(jì)計(jì)學(xué)

42、上是有意意義的也就是是兩組數(shù)據(jù)的的平均值不一一樣。如圖十十一所示:圖十一那為什么在樣本本數(shù)據(jù)量為11000和 上萬上百萬萬的情況下結(jié)結(jié)果會(huì)不一樣樣。這兒我們們進(jìn)一步要講講的就是樣本本數(shù)量和置信信區(qū)間之間的的關(guān)系了。隨隨著樣本數(shù)量量的增加,樣樣本差值會(huì)和和真實(shí)的總體體數(shù)據(jù)差值接接近(不一定定就是0哦),同同時(shí)不確定性性會(huì)減小,置置信區(qū)間會(huì)縮縮短,其實(shí)就就是估計(jì)的差差值越來越精精準(zhǔn)了。這種種情況下,就就算樣本差值值是非常接近近0的一個(gè)數(shù)數(shù)(就是說我我們都覺得兩兩組數(shù)據(jù)的平平均值是一樣樣的了),但但是由于置信信區(qū)間的縮小小,0仍舊會(huì)會(huì)落在置信區(qū)區(qū)間的外面(如如圖十一,下下部分2所示示)。這樣一來,結(jié)

43、果果就會(huì)是統(tǒng)計(jì)計(jì)學(xué)上是有意意義的:兩組組數(shù)據(jù)的平均均值是不一樣樣的?,F(xiàn)有的的統(tǒng)計(jì)方法運(yùn)運(yùn)用在大數(shù)據(jù)據(jù)時(shí)會(huì)帶來這這樣的一種錯(cuò)錯(cuò)誤信息。這這是因?yàn)楝F(xiàn)有有的傳統(tǒng)統(tǒng)計(jì)計(jì)方法是針對(duì)對(duì)小數(shù)據(jù)的,在在被提出的時(shí)時(shí)候,還沒有有面對(duì)過或想想到數(shù)據(jù)量可可以如此龐大大。如何解決決如何改進(jìn)由由于這樣的數(shù)數(shù)據(jù)特性帶來來的問題,我我們還在研究究的路上。羊群效應(yīng)(heerdingg effeect)大數(shù)據(jù)時(shí)代,我我們的社會(huì)已已經(jīng)在越來越越多的把個(gè)人人的觀點(diǎn)數(shù)字字化,匯總化化,并依賴于于此做出決策策(比如根據(jù)據(jù)收集到的評(píng)評(píng)分來進(jìn)行產(chǎn)產(chǎn)品或服務(wù)的的推薦)。這這一現(xiàn)象在醫(yī)醫(yī)療界也漸漸漸的變的普遍遍起來。好多多輔助醫(yī)療應(yīng)應(yīng)用軟件在

44、移移動(dòng)平臺(tái)上都都會(huì)有使用者者的評(píng)分,人人們會(huì)根據(jù)評(píng)評(píng)分來選擇是是否使用一下下。某些醫(yī)療療網(wǎng)絡(luò)平臺(tái)推推出的服務(wù),比比如網(wǎng)絡(luò)問診診,使用者也也可以對(duì)提供供服務(wù)的醫(yī)療療人員進(jìn)行滿滿意度的評(píng)分分,進(jìn)而影響響他人決定是是否選擇此醫(yī)醫(yī)療人員來進(jìn)進(jìn)行問診咨詢?cè)儭@眠@種“眾人人的智慧”的一個(gè)關(guān)鍵鍵要求是個(gè)人人意見的獨(dú)立立性。然而,在在現(xiàn)實(shí)的世界界中,匯總收收集的集體意意見卻很少是是由互不相干干的獨(dú)立的個(gè)個(gè)體意見所組組成的。最近近的實(shí)驗(yàn)研究究證明先前已已經(jīng)存在的收收集到的意見見會(huì)歪曲隨后后個(gè)人的決策策還有對(duì)質(zhì)量量及價(jià)值的認(rèn)認(rèn)知。凸顯出出了一個(gè)根本本的差異既: 我們從集集體意見感知知到的價(jià)值和和產(chǎn)品本身固固有的

45、價(jià)值之之間的差異。產(chǎn)生這種差異的的原因在于“羊群效應(yīng)” 。羊群效效應(yīng)簡單的描描述就是個(gè)體體的從眾跟風(fēng)風(fēng)心理和行為為。羊群是一一種很散亂的的組織,平時(shí)時(shí)在一起也是是盲目地左沖沖右撞,但一一旦有一只頭頭羊動(dòng)起來,其其他的羊也會(huì)會(huì)不假思索地地一哄而上,全全然不顧前 面可能有狼狼或者不遠(yuǎn)處處有更好的草草。因此,“羊群效應(yīng)”就是比喻一一種從眾效應(yīng)應(yīng),很容易導(dǎo)導(dǎo)致盲從,而而盲從往往會(huì)會(huì)陷入認(rèn)知偏偏差,決策偏偏差。IBM Wattson 研研究中心 (Wang & Wanng, 20014)使用用大規(guī)??v向向的客戶評(píng)分分?jǐn)?shù)據(jù)集(亞亞馬遜的)并并建立統(tǒng)計(jì)模模型演示了評(píng)評(píng)分和意見的的產(chǎn)生不是獨(dú)獨(dú)立,均勻的的過程,而是是創(chuàng)建了一個(gè)個(gè)環(huán)境進(jìn)而影影響以后評(píng)分分或意見的產(chǎn)產(chǎn)生。體現(xiàn)在在這種社會(huì)化化的客戶評(píng)分分系統(tǒng)中的“羊群效應(yīng)”具體表現(xiàn)為為:高評(píng)分傾傾向于產(chǎn)生新新的高評(píng)分同同時(shí)抑制低評(píng)評(píng)分的產(chǎn)生。接下來的問題就就是:什么是是真實(shí)的符合合產(chǎn)品真正質(zhì)質(zhì)量的評(píng)分如如果我們能把把“羊群效應(yīng)”給剔除出去去的話? 應(yīng)應(yīng)用IBM Watso

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論