版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)的處理和分析大數(shù)據(jù)的處理和分析1課程內(nèi)容課程內(nèi)容(本次講座與下述內(nèi)容關(guān)系不大)圍繞學(xué)科理論體系中的模型理論,程序理論和計(jì)算理論1.模型理論關(guān)心的問題給定模型M,哪些問題可以由模型M解決;如何比較模型的表達(dá)能力2.程序理論關(guān)心的問題給定模型M,如何用模型M解決問題包括程序設(shè)計(jì)范型、程序設(shè)計(jì)語(yǔ)言、程序設(shè)計(jì)形式語(yǔ)義、類型論、程序驗(yàn)證、程序分析等3.計(jì)算理論關(guān)心的問題給定模型M和一類問題,解決該類問題需多少資源課程內(nèi)容2講座提綱大數(shù)據(jù)的魅力數(shù)據(jù)挖掘、大數(shù)據(jù)、大數(shù)據(jù)案例、大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)時(shí)代的思維變革樣本和全體、精確性和混雜性、因果關(guān)系和相關(guān)關(guān)系大數(shù)據(jù)的處理幾種主要處理方式、Mapreduce編程模型大數(shù)據(jù)的分析關(guān)鍵技術(shù)概述、Pagerank初步講座提綱3大數(shù)據(jù)的魅力數(shù)據(jù)挖掘數(shù)據(jù)挖掘的定義從數(shù)據(jù)中提取出隱含的過(guò)去未知的有價(jià)值的潛在信息從大量數(shù)據(jù)或者數(shù)據(jù)庫(kù)中提取有用信息的科學(xué)相關(guān)概念:知識(shí)發(fā)現(xiàn)1.數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過(guò)程中的一步粗略看:數(shù)據(jù)預(yù)處理→數(shù)據(jù)挖掘→數(shù)據(jù)后處理預(yù)處理:將未加工輸入數(shù)據(jù)轉(zhuǎn)換為適合處理的形式后處理:如可視化,便于從不同視角探查挖掘結(jié)果大數(shù)據(jù)的魅力4大數(shù)據(jù)的魅力數(shù)據(jù)挖掘典型事例:購(gòu)物籃分析顧客次購(gòu)買商品123面包、黃油、尿布、牛奶咖啡、糖、小甜餅、鮭魚面包、黃油、咖啡、尿布、牛奶、雞蛋面包、黃油、鮭魚、雞雞蛋、面包、黃油鮭魚、尿布、牛奶67890面包、茶葉、糖、雞蛋咖啡、糖、雞、雞蛋面包、尿布、牛奶、鹽茶葉、雞蛋、小甜餅、尿布、牛奶經(jīng)關(guān)聯(lián)分析,可發(fā)現(xiàn)顧客經(jīng)常同時(shí)購(gòu)買的商品:尿布→牛奶大數(shù)據(jù)的魅力5大數(shù)據(jù)的魅力大數(shù)據(jù)大數(shù)據(jù),或稱海量數(shù)據(jù),指所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取管理、處理、并整理成為人類所能解讀的信息在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來(lái)察覺商業(yè)趨勢(shì)、避免疾病擴(kuò)散、打擊犯罪、測(cè)定實(shí)時(shí)交通路況或判定研究質(zhì)量等這樣的用途正是大型數(shù)據(jù)集盛行的原因數(shù)據(jù)挖掘則是探討用以解析大數(shù)據(jù)的方法大數(shù)據(jù)的魅力6大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播209年出現(xiàn)了一種稱為甲型H1N1的新流感病毒,在短短幾周內(nèi)迅速傳播開來(lái),全球的公共衛(wèi)生機(jī)構(gòu)都擔(dān)心一場(chǎng)致命的流行病即將來(lái)襲美國(guó)也要求醫(yī)生在發(fā)現(xiàn)甲型HN病例時(shí)告知疾病控制與預(yù)防中心。但人們從患病到求醫(yī)會(huì)滯后,信息傳到疾控中心也需要時(shí)間,因此通告新病例往往有一兩周的延遲。而且疾控中心每周只進(jìn)行次數(shù)據(jù)匯總信息滯后兩周對(duì)一種飛速傳播的疾病是致命的它使得公共衛(wèi)生機(jī)構(gòu)在疫情爆發(fā)的關(guān)鍵時(shí)期難以有效發(fā)揮作用大數(shù)據(jù)的魅力7大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播在這種流感爆發(fā)的幾周前,谷歌的工程師在《自然》雜志發(fā)表引人注目的論文,令公共衛(wèi)生官員和計(jì)算機(jī)科學(xué)家感到震驚因?yàn)槲恼虏粌H預(yù)測(cè)了流感在全美的傳播,而且具體到特定的地區(qū)和州谷歌是通過(guò)觀察人們?cè)诰W(wǎng)上的搜索記錄來(lái)完成這個(gè)預(yù)測(cè)的,這種方法以前一直是被忽略的谷歌保存了多年來(lái)所有的搜索記錄,每天有來(lái)自全球30億條搜索指令(僅谷歌有這樣的數(shù)據(jù)資源),如此龐大數(shù)據(jù)資源足以支撐和幫助它完成這項(xiàng)工作大數(shù)據(jù)的魅力8大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播原理十分簡(jiǎn)單現(xiàn)在大家都有上網(wǎng)搜索信息的習(xí)慣,連頭痛感冒也上網(wǎng)搜索,谷歌流感趨勢(shì)項(xiàng)目通過(guò)記錄搜索有關(guān)“流感”詞條的地區(qū)和頻率,并分析其與流感在時(shí)間和空間上的傳播之間的聯(lián)系,追蹤到流感廣泛傳播的地區(qū),進(jìn)而預(yù)測(cè)流感可能爆發(fā)的高危地區(qū)。即當(dāng)某地區(qū)在網(wǎng)上搜尋與流感有關(guān)信息的人日益增多,很可能意味著該地區(qū)有許多人患上流感類疾病因?yàn)榱鞲汹厔?shì)項(xiàng)目能夠近乎實(shí)時(shí)地估計(jì)流感活動(dòng)情況,故它比其他系統(tǒng)能夠更早地發(fā)現(xiàn)流感疫情大數(shù)據(jù)的魅力9大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播谷歌把5000萬(wàn)條美國(guó)人最頻繁檢索的詞條與疾控中心在2019年到2019年間季節(jié)性流感傳播期間的數(shù)據(jù)進(jìn)行比較,以確定相關(guān)檢索詞條,并總共處理了45億(?)個(gè)不同的數(shù)學(xué)模型在把得出的預(yù)測(cè)與2019年和2019年美國(guó)疾控中心記錄的實(shí)際流感病例進(jìn)行對(duì)比后,篩選了45條檢索詞條的組合,并把它們用于一個(gè)特定的數(shù)學(xué)模型后,其預(yù)測(cè)與官方數(shù)據(jù)相關(guān)性高達(dá)97%因此當(dāng)2009年甲型HN1流感爆發(fā)時(shí),與滯后的官方數(shù)據(jù)相比,谷歌成為一個(gè)更有效及時(shí)的指示者大數(shù)據(jù)的魅力10大數(shù)據(jù)的處理與分析課件11大數(shù)據(jù)的處理與分析課件12大數(shù)據(jù)的處理與分析課件13大數(shù)據(jù)的處理與分析課件14大數(shù)據(jù)的處理與分析課件15大數(shù)據(jù)的處理與分析課件16大數(shù)據(jù)的處理與分析課件17大數(shù)據(jù)的處理與分析課件18大數(shù)據(jù)的處理與分析課件19大數(shù)據(jù)的處理與分析課件20大數(shù)據(jù)的處理與分析課件21大數(shù)據(jù)的處理與分析課件22大數(shù)據(jù)的處理與分析課件23大數(shù)據(jù)的處理與分析課件24大數(shù)據(jù)的處理與分析課件25大數(shù)據(jù)的處理與分析課件26大數(shù)據(jù)的處理與分析課件27大數(shù)據(jù)的處理與分析課件28大數(shù)據(jù)的處理與分析課件29大數(shù)據(jù)的處理與分析課件30大數(shù)據(jù)的處理與分析課件31大數(shù)據(jù)的處理與分析課件32大數(shù)據(jù)的處理與分析課件33大數(shù)據(jù)的處理與分析課件34大數(shù)據(jù)的處理與分析課件35大數(shù)據(jù)的處理與分析課件36大數(shù)據(jù)的處理與分析課件37大數(shù)據(jù)的處理與分析課件38大數(shù)據(jù)的處理與分析課件39大數(shù)據(jù)的處理與分析課件40大數(shù)據(jù)的處理與分析課件41大數(shù)據(jù)的處理與分析課件42大數(shù)據(jù)的處理與分析課件43大數(shù)據(jù)的處理與分析課件44大數(shù)據(jù)的處理與分析課件45大數(shù)據(jù)的處理與分析課件46大數(shù)據(jù)的處理與分析課件47大數(shù)據(jù)的處理與分析課件48大數(shù)據(jù)的處理和分析大數(shù)據(jù)的處理和分析49課程內(nèi)容課程內(nèi)容(本次講座與下述內(nèi)容關(guān)系不大)圍繞學(xué)科理論體系中的模型理論,程序理論和計(jì)算理論1.模型理論關(guān)心的問題給定模型M,哪些問題可以由模型M解決;如何比較模型的表達(dá)能力2.程序理論關(guān)心的問題給定模型M,如何用模型M解決問題包括程序設(shè)計(jì)范型、程序設(shè)計(jì)語(yǔ)言、程序設(shè)計(jì)形式語(yǔ)義、類型論、程序驗(yàn)證、程序分析等3.計(jì)算理論關(guān)心的問題給定模型M和一類問題,解決該類問題需多少資源課程內(nèi)容50講座提綱大數(shù)據(jù)的魅力數(shù)據(jù)挖掘、大數(shù)據(jù)、大數(shù)據(jù)案例、大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)時(shí)代的思維變革樣本和全體、精確性和混雜性、因果關(guān)系和相關(guān)關(guān)系大數(shù)據(jù)的處理幾種主要處理方式、Mapreduce編程模型大數(shù)據(jù)的分析關(guān)鍵技術(shù)概述、Pagerank初步講座提綱51大數(shù)據(jù)的魅力數(shù)據(jù)挖掘數(shù)據(jù)挖掘的定義從數(shù)據(jù)中提取出隱含的過(guò)去未知的有價(jià)值的潛在信息從大量數(shù)據(jù)或者數(shù)據(jù)庫(kù)中提取有用信息的科學(xué)相關(guān)概念:知識(shí)發(fā)現(xiàn)1.數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過(guò)程中的一步粗略看:數(shù)據(jù)預(yù)處理→數(shù)據(jù)挖掘→數(shù)據(jù)后處理預(yù)處理:將未加工輸入數(shù)據(jù)轉(zhuǎn)換為適合處理的形式后處理:如可視化,便于從不同視角探查挖掘結(jié)果大數(shù)據(jù)的魅力52大數(shù)據(jù)的魅力數(shù)據(jù)挖掘典型事例:購(gòu)物籃分析顧客次購(gòu)買商品123面包、黃油、尿布、牛奶咖啡、糖、小甜餅、鮭魚面包、黃油、咖啡、尿布、牛奶、雞蛋面包、黃油、鮭魚、雞雞蛋、面包、黃油鮭魚、尿布、牛奶67890面包、茶葉、糖、雞蛋咖啡、糖、雞、雞蛋面包、尿布、牛奶、鹽茶葉、雞蛋、小甜餅、尿布、牛奶經(jīng)關(guān)聯(lián)分析,可發(fā)現(xiàn)顧客經(jīng)常同時(shí)購(gòu)買的商品:尿布→牛奶大數(shù)據(jù)的魅力53大數(shù)據(jù)的魅力大數(shù)據(jù)大數(shù)據(jù),或稱海量數(shù)據(jù),指所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取管理、處理、并整理成為人類所能解讀的信息在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來(lái)察覺商業(yè)趨勢(shì)、避免疾病擴(kuò)散、打擊犯罪、測(cè)定實(shí)時(shí)交通路況或判定研究質(zhì)量等這樣的用途正是大型數(shù)據(jù)集盛行的原因數(shù)據(jù)挖掘則是探討用以解析大數(shù)據(jù)的方法大數(shù)據(jù)的魅力54大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播209年出現(xiàn)了一種稱為甲型H1N1的新流感病毒,在短短幾周內(nèi)迅速傳播開來(lái),全球的公共衛(wèi)生機(jī)構(gòu)都擔(dān)心一場(chǎng)致命的流行病即將來(lái)襲美國(guó)也要求醫(yī)生在發(fā)現(xiàn)甲型HN病例時(shí)告知疾病控制與預(yù)防中心。但人們從患病到求醫(yī)會(huì)滯后,信息傳到疾控中心也需要時(shí)間,因此通告新病例往往有一兩周的延遲。而且疾控中心每周只進(jìn)行次數(shù)據(jù)匯總信息滯后兩周對(duì)一種飛速傳播的疾病是致命的它使得公共衛(wèi)生機(jī)構(gòu)在疫情爆發(fā)的關(guān)鍵時(shí)期難以有效發(fā)揮作用大數(shù)據(jù)的魅力55大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播在這種流感爆發(fā)的幾周前,谷歌的工程師在《自然》雜志發(fā)表引人注目的論文,令公共衛(wèi)生官員和計(jì)算機(jī)科學(xué)家感到震驚因?yàn)槲恼虏粌H預(yù)測(cè)了流感在全美的傳播,而且具體到特定的地區(qū)和州谷歌是通過(guò)觀察人們?cè)诰W(wǎng)上的搜索記錄來(lái)完成這個(gè)預(yù)測(cè)的,這種方法以前一直是被忽略的谷歌保存了多年來(lái)所有的搜索記錄,每天有來(lái)自全球30億條搜索指令(僅谷歌有這樣的數(shù)據(jù)資源),如此龐大數(shù)據(jù)資源足以支撐和幫助它完成這項(xiàng)工作大數(shù)據(jù)的魅力56大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播原理十分簡(jiǎn)單現(xiàn)在大家都有上網(wǎng)搜索信息的習(xí)慣,連頭痛感冒也上網(wǎng)搜索,谷歌流感趨勢(shì)項(xiàng)目通過(guò)記錄搜索有關(guān)“流感”詞條的地區(qū)和頻率,并分析其與流感在時(shí)間和空間上的傳播之間的聯(lián)系,追蹤到流感廣泛傳播的地區(qū),進(jìn)而預(yù)測(cè)流感可能爆發(fā)的高危地區(qū)。即當(dāng)某地區(qū)在網(wǎng)上搜尋與流感有關(guān)信息的人日益增多,很可能意味著該地區(qū)有許多人患上流感類疾病因?yàn)榱鞲汹厔?shì)項(xiàng)目能夠近乎實(shí)時(shí)地估計(jì)流感活動(dòng)情況,故它比其他系統(tǒng)能夠更早地發(fā)現(xiàn)流感疫情大數(shù)據(jù)的魅力57大數(shù)據(jù)的魅力大數(shù)據(jù)案例一谷歌預(yù)測(cè)冬季流感的傳播谷歌把5000萬(wàn)條美國(guó)人最頻繁檢索的詞條與疾控中心在2019年到2019年間季節(jié)性流感傳播期間的數(shù)據(jù)進(jìn)行比較,以確定相關(guān)檢索詞條,并總共處理了45億(?)個(gè)不同的數(shù)學(xué)模型在把得出的預(yù)測(cè)與2019年和2019年美國(guó)疾控中心記錄的實(shí)際流感病例進(jìn)行對(duì)比后,篩選了45條檢索詞條的組合,并把它們用于一個(gè)特定的數(shù)學(xué)模型后,其預(yù)測(cè)與官方數(shù)據(jù)相關(guān)性高達(dá)97%因此當(dāng)2009年甲型HN1流感爆發(fā)時(shí),與滯后的官方數(shù)據(jù)相比,谷歌成為一個(gè)更有效及時(shí)的指示者大數(shù)據(jù)的魅力58大數(shù)據(jù)的處理與分析課件59大數(shù)據(jù)的處理與分析課件60大數(shù)據(jù)的處理與分析課件61大數(shù)據(jù)的處理與分析課件62大數(shù)據(jù)的處理與分析課件63大數(shù)據(jù)的處理與分析課件64大數(shù)據(jù)的處理與分析課件65大數(shù)據(jù)的處理與分析課件66大數(shù)據(jù)的處理與分析課件67大數(shù)據(jù)的處理與分析課件68大數(shù)據(jù)的處理與分析課件69大數(shù)據(jù)的處理與分析課件70大數(shù)據(jù)的處理與分析課件71大數(shù)據(jù)的處理與分析課件72大數(shù)據(jù)的處理與分析課件73大數(shù)據(jù)的處理與分析課件74大數(shù)據(jù)的處理與分析課件75大數(shù)據(jù)的處理與分析課件76大數(shù)據(jù)的處理與分析課件77大數(shù)據(jù)的處理與分析課件78大數(shù)據(jù)的處理與分析課件79大數(shù)據(jù)的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026江西贛職網(wǎng)人力資源有限公司招聘若干名工作人員筆試參考題庫(kù)及答案解析
- 2026上半年云南事業(yè)單位聯(lián)考紅河州招聘1570人筆試參考題庫(kù)及答案解析
- 林業(yè)執(zhí)法試題試卷及答案
- 2026首都師范大學(xué)金澤小學(xué)招聘教師考試備考試題及答案解析
- 2026福建福州市城投園林集團(tuán)有限公司所屬福州市花木有限責(zé)任公司選聘1人考試備考題庫(kù)及答案解析
- 2026福建南平市建甌市徐墩鎮(zhèn)人民政府招聘殘疾人聯(lián)絡(luò)員1人筆試參考題庫(kù)及答案解析
- 2026年湖北省文物考古研究院招聘派遣制駕駛員2人考試備考試題及答案解析
- 2026浙江省農(nóng)業(yè)科學(xué)院招聘1人筆試參考題庫(kù)及答案解析
- 2026云南紅河州個(gè)舊市醫(yī)療衛(wèi)生共同體賈沙分院招聘編外工作人員1人筆試備考試題及答案解析
- 2026年度馬鞍山市直事業(yè)單位公開招聘工作人員88名考試備考試題及答案解析
- 【二下數(shù)學(xué)】計(jì)算每日一練60天(口算豎式脫式應(yīng)用題)
- 殘疾人服務(wù)與權(quán)益保護(hù)手冊(cè)(標(biāo)準(zhǔn)版)
- 車隊(duì)春節(jié)前安全培訓(xùn)內(nèi)容課件
- 2025年溫州肯恩三位一體筆試英語(yǔ)真題及答案
- 云南師大附中2026屆高三高考適應(yīng)性月考卷(六)歷史試卷(含答案及解析)
- PCR技術(shù)在食品中的應(yīng)用
- 輸液滲漏處理課件
- 教育培訓(xùn)行業(yè)發(fā)展趨勢(shì)與機(jī)遇分析
- 物業(yè)與商戶裝修協(xié)議書
- 湖南鐵道職業(yè)技術(shù)學(xué)院2025年單招職業(yè)技能測(cè)試題
評(píng)論
0/150
提交評(píng)論