版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025/6/2115:261信息分析本科生必修課程信息分析基礎(chǔ)2025/6/2115:262清明上河圖空曠的天空問題:哪一幅圖包含的信息量大?為什么?如何判斷?信息分析基礎(chǔ)潛在信息與顯在信息信息(信息單元):信息量的大小、充分與否-觀察、獲取、檢索關(guān)系:信息單元間存在的關(guān)聯(lián)推理:分析、判斷、推斷2025/6/2115:263信息分析基礎(chǔ)基本結(jié)論能看到的是顯在信息,看不到的是潛在信息海量信息總是隱藏在深處和背后右圖中潛在信息量比前者大一至兩個數(shù)量級信息單元量及其關(guān)聯(lián)系是信息分析的基礎(chǔ)2025/6/2115:264美國《華盛頓郵報》記者杜德爾利用信息分析提前一周獲知蘇聯(lián)領(lǐng)導(dǎo)人安德羅波夫去世2025/6/2115:265信息分析案例及啟示杜德爾綜合分析的7條信息2025/6/2115:26(1)安德羅波夫有173天沒有在公開場合露面,近幾天還不時傳出他身體狀況不佳的消息;(2)蘇聯(lián)國防部長暫緩出訪;(3)安德羅波夫之子被從瑞典召回;(4)這天晚上的電視節(jié)目不加說明地將原來安排的瑞典“阿巴”流行音樂改為嚴肅的古典音樂;(5)蘇共新上任的高級官員耶戈爾·利加喬夫在一次向全國發(fā)表電視講話時省略了蘇聯(lián)高級官員在電視講話前必須轉(zhuǎn)向安德羅波夫問候的習(xí)慣;杜德爾綜合分析的7條信息(6)他驅(qū)車通過蘇參謀部大樓與國防大樓時,發(fā)現(xiàn)幾百扇窗戶都異常地亮著燈,而且大樓附近增加了衛(wèi)兵和巡邏隊;(7)他的一位通知蘇聯(lián)高級官員活動內(nèi)情的朋友沒有能如期與他通電話。杜德爾把這一系列現(xiàn)象聯(lián)系起來綜合分析,并與1982年11月勃烈日涅夫逝世前的情況進行了比較分析,發(fā)現(xiàn)有許多驚人的相似,于是他得出結(jié)論:安德羅波夫已于星期四這一天去世了。2025/6/2115:26信息分析案例及啟示杜德爾是采用什么方法得出的結(jié)論?定性方法-因果關(guān)系-邏輯推斷2025/6/2115:262025/6/2115:269信息分析的基礎(chǔ)兩個基本問題:如何理解信息分析?憑什么進行信息分析?或者說信息分析的依據(jù)是什么?2025/6/2115:2610一、信息分析概述關(guān)于信息的理解:香農(nóng)、維納;本體論、認識論;自然信息與社會信息;信息鏈:信息鏈1:事實(現(xiàn)象)、符號(描述)、數(shù)據(jù)(原始記錄)、信息(賦予意義)、知識(提煉轉(zhuǎn)化)、情報(用于決策)、智慧或智能(提高能力)。信息鏈2:信息源、信息收集、信息整理、信息分析、信息產(chǎn)品、信息利用。信息分析基礎(chǔ)2025/6/2115:26香農(nóng)提出了信息熵的概念,為信息論和數(shù)字通信奠定了基礎(chǔ)。信息是用來消除人們認識上不確定性的東西。維納控制論的創(chuàng)始人。信息就是信息,不是物質(zhì)也不是能量。信息是人們在適應(yīng)外部世界,并使這種適應(yīng)反作用于外部世界的過程中,同外部世界進行互相交換的內(nèi)容和名稱。信息分析基礎(chǔ)本體論層次(Ontology):客觀信息、自然信息,
探尋世界的本原(物質(zhì)宇宙與元宇宙)-信息是事物的運動狀態(tài)與變化方式。認識論層次(Epistemology):主觀信息、社會信息、生物信息,認識的本質(zhì)與規(guī)律-信息是事物的運動狀態(tài)與變化方式在頭腦中的反映。2025/6/2115:26信息分析基礎(chǔ)-詩詠信息美國MITRE公司資深信息系統(tǒng)工程師EdwardM.Housman寫了一首關(guān)于信息的詩歌,叫《信息之性質(zhì)》
,分為七篇描述了信息的屬性特征。2025/6/2115:26第一篇當(dāng)我告訴你什么事的時候我倆之間的傳遞的就是信息。信息持續(xù)保有一段時間后,弱化遁入混沌。不弄出點噪聲來,信息無法運動。笑就是信息在舞蹈。信息占據(jù)空間。還占據(jù)時間。信息的運動需要能量。信息對于生命、對于任何組織化的活動不可或缺。信息是無實質(zhì)之形式,是無形之實質(zhì)。兩者都是信息。像光子一樣,信息也有重量;信息分析基礎(chǔ)第二篇信息涉及形態(tài)在空間和時間中的位移。洞見就是信息撞上了信息。信息意味著結(jié)構(gòu)。信息可以歷時運動,也可以凝固于時間中。信息是混沌云中水晶般的秩序。信息是對一個問題的令人滿意的回答,或許這回答也令人不安。2025/6/2115:26信息分析基礎(chǔ)第三篇一塊石頭的重量,與用以描述它的信息是等價的。信息既是實質(zhì),又是形式;就像光既是波,又是粒子。信息具有固態(tài);它可以凍結(jié)成剛性的東西(存儲)。信息具有液態(tài);它流動著-傳播交流。它像物質(zhì)一樣慢慢衰壞(熵)。信息是雕塑,是用密碼寫入自然界的思想,是事實。在某處,信息運動著;宇宙隆隆作響,將事實吼叫出來。以自我為中心的人類,以為信息只是為人類而存在的。非也。2025/6/2115:26信息分析基礎(chǔ)第四篇有兩種信息:自然信息和生物信息。沒有它們,宇宙將是一片靜謐的黑暗。第一種信息是比特在出擊;飛機編成隊形。是星星在吶喊:“我在這!”第一種信息不需要觀察者。第二種對于生命至關(guān)重要,是生命的纖維。第二種信息是貓在對付其獵物,是花兒對著太陽綻放。信息造就了一切,造就了孩子,造就了戰(zhàn)戰(zhàn)競競。它是神秘偉大的生命力,驅(qū)使我們穿越智慧,走向死亡。2025/6/2115:26信息分析基礎(chǔ)第五篇同一信息可表達為不同方式:一種聲音,一封信。不像物質(zhì),信息可以同時處于不同地方。握手是信息,點頭、凝視、嘆氣也是。將兩股比特流匯在一起便是信息。信息住在比特流中,住在紙上、石頭上,住在姿勢中。信息渴求媒介,渴求一片滾動的時空以棲居。2025/6/2115:26信息分析基礎(chǔ)第六篇信息很易混同于知識、確定性、智慧和數(shù)據(jù)。一幅畫、一片景色、一種感覺之意義,是信息。信息在隨機之海中閃耀。一個組織不是物理性的;其員工被信息所限定。沒有信息,組織和任何組織化活動都是不可能的。2025/6/2115:26信息分析基礎(chǔ)第七篇噪聲和隨機性是信息的常伴。詩歌是立在雕塑基座上或裝在人心里的一叢比特。詩歌是信息爆竹。詩歌是堅硬的、閃亮的信息金剛石。詩歌是壓縮了的洞見,狀態(tài)不穩(wěn),可能爆炸。2025/6/2115:26信息分析基礎(chǔ)信息鏈1:由事實(Facts,現(xiàn)象)→數(shù)據(jù)(Data,原始記錄)→信息(Information,賦予意義)→知識(Knowledge,提煉轉(zhuǎn)化)→“情報”、“智能”(Intelligence,決策,解決問題、提高能力)五個鏈環(huán)構(gòu)成。2025/6/2115:26信息分析基礎(chǔ)信息鏈2:信息源、信息需求、信息采集、信息加工、信息存儲、信息檢索、信息傳輸、信息分析、信息利用、信息反饋。2025/6/2115:26信息管理流程2025/6/2115:2622信息分析基礎(chǔ)關(guān)于分析的理解邏輯學(xué):分析是一種方法,與綜合對應(yīng),把對象或系統(tǒng)分解成部分或因素單獨分析與理解,找出和發(fā)現(xiàn)規(guī)律、關(guān)系;信息管理:分析是一個過程,包括一系列流程、環(huán)節(jié)和活動。關(guān)于預(yù)測的理解預(yù)知、判斷、預(yù)告、推理、推斷;趨勢外推:從已知到未知、現(xiàn)狀到趨勢、現(xiàn)在到未來、局部到整體、樣本到整體、現(xiàn)象到本質(zhì)、表層到潛在;凡事預(yù)則立,不預(yù)則廢。2025/6/2115:2623信息分析基礎(chǔ)信息分析的依據(jù)一:思維邏輯-因果關(guān)系事物之間的關(guān)聯(lián):普遍聯(lián)系;普遍聯(lián)系的形式:時間:發(fā)展過程(時間序列)空間:位置關(guān)系(相鄰、隸屬,層次分析)邏輯:因果、矛盾、并列、對立、包含(回歸分析)2025/6/2115:2624信息分析基礎(chǔ)信息分析的依據(jù)二:數(shù)理邏輯-大概率事件分析和推理的依據(jù)是信息:信息即事物發(fā)生的概率,亦稱為概率信息。事物發(fā)生的概率:任何事物的發(fā)生都取決于概率,大概率事件發(fā)生的可能性高,小概率事件發(fā)生的可能性小。我們稱之為成功產(chǎn)生成功原理。但也有例外,如黑馬效應(yīng)。香農(nóng):信息論—信息是用于消除不確定性的東西。不確定性即概率。如拋硬幣、擲骰子。信息分析基礎(chǔ)2025/6/2115:26信息分析基礎(chǔ)2025/6/2115:26Xi——表示第i個狀態(tài)(總共有n種狀態(tài));P(Xi)——表示第i個狀態(tài)出現(xiàn)的概率;H(X)——表示用以消除這個事物的不確定性所需要的信息量。信息分析1.1概念及理解1.2對象1.3思維模式1.4要素1.5作用1.6流程2025/6/2115:261.7信息分析的原理1.8理論依據(jù)/理論基礎(chǔ)1.9信息分析的內(nèi)容1.10信息分析的方法1.11信息分析的工具1.12信息分析的應(yīng)用與案例2025/6/2115:26281.1信息分析的概念及理解信息分析的概念信息:自然信息和社會信息、本體論信息和認識論信息。分析:把事物、現(xiàn)象、概念等整體分解成較簡單的組成部分,找出組成部分的本質(zhì)屬性和彼此間的關(guān)系。信息分析:通過對搜集到的零散的原始數(shù)據(jù)和信息進行識別、鑒定、篩選、濃縮等加工整理及系統(tǒng)深入的分析和研究,挖掘隱藏于信息、數(shù)據(jù)中的規(guī)律、情報和知識,提供針對性、預(yù)測性、科學(xué)性、綜合性和可用性結(jié)論或方案,為管理和決策服務(wù)。2025/6/2115:26291.1信息分析對信息分析的理解廣義的信息分析:指在搜集和占有信息、數(shù)據(jù)的基礎(chǔ)上進行整理、排序、篩選、組織、存儲、加工、分析和研究,發(fā)現(xiàn)新知識和情報的過程。狹義的信息分析:指信息分析的各個環(huán)節(jié),包括信息整理、排序、篩選、組織、存儲、加工、分析和研究等。信息分析的學(xué)科差異:—情報學(xué):情報分析、情報研究;—經(jīng)濟學(xué):市場分析、市場預(yù)測;—統(tǒng)計學(xué):數(shù)據(jù)分析、統(tǒng)計分析;—計算機:數(shù)據(jù)挖掘、知識發(fā)現(xiàn)。2025/6/2115:26301.1信息分析信息分析的對象原始及衍生數(shù)據(jù)——信息、知識、情報、智慧事物及其現(xiàn)象——本質(zhì)、屬性、特征、規(guī)律、聯(lián)系信息分析的思維模式以數(shù)據(jù)和現(xiàn)象為分析對象:從全樣本或總體樣本中選擇部分樣本——樣本分析采用定性和定量方法及數(shù)學(xué)、統(tǒng)計學(xué)模型擬合樣本特征和規(guī)律——邏輯推理與模型擬合發(fā)現(xiàn)樣本數(shù)據(jù)和現(xiàn)象的本質(zhì)、規(guī)律、特征、屬性、聯(lián)系并進行趨勢外推,擴大到樣本整體——因果分析與趨勢外推2025/6/2115:26311.1信息分析信息分析的要素——從成因來看:源于社會信息需求;——從本質(zhì)來看:發(fā)現(xiàn)數(shù)據(jù)和現(xiàn)象的特征、屬性、規(guī)律和關(guān)聯(lián);——從方法來看:定性分析和定量分析方法,由科學(xué)邏輯思維方法、統(tǒng)計學(xué)方法、情報學(xué)方法等學(xué)科方法組成;——從過程來看:需要經(jīng)過搜集、整理、排序、篩選、組織、存儲、加工、分析和研究等一系列環(huán)節(jié)和程序;——從成果來看:需要產(chǎn)生新的增值信息產(chǎn)品,即知識、情報、方案、報告等;——從目的來看:為科學(xué)管理和決策服務(wù)。2025/6/2115:26321.1信息分析信息分析的作用:基本功能——整理功能:序化;——評價功能:現(xiàn)狀;——預(yù)斷功能:預(yù)測;——反饋功能:控制。主要作用——鑒別和篩選作用:判斷數(shù)據(jù)和信息的真實性和價值;——排列和整序作用:通過組織反映關(guān)聯(lián)、本質(zhì)和規(guī)律;——監(jiān)視和預(yù)警作用:監(jiān)視競爭對手,預(yù)防威脅和不利;——參謀和導(dǎo)航作用:決策參謀,信息導(dǎo)航。2025/6/2115:26331.1信息分析▼信息分析流程2025/6/2115:26341.1信息分析信息分析的原理信息分析的基礎(chǔ):事物之間的關(guān)系,即事物、現(xiàn)象、數(shù)據(jù)、信息等的屬性、特征、本質(zhì)、規(guī)律、關(guān)聯(lián);關(guān)系是指事物之間因為秩序、結(jié)構(gòu)、運動等產(chǎn)生的聯(lián)系,包括時間、空間、發(fā)生和發(fā)展邏輯(流程,如工業(yè)流程、業(yè)務(wù)流程等;規(guī)律,如生命體的生老病死循環(huán)、自然運動規(guī)律等)。事物之間關(guān)系的類型——不確定關(guān)系:相關(guān)關(guān)系,定性分析——確定性關(guān)系:數(shù)量關(guān)系,定量分析——直接、顯在關(guān)系:可以發(fā)現(xiàn)——間接、隱含關(guān)系:難以發(fā)現(xiàn)2025/6/2115:26351.1信息分析信息分析的理論依據(jù)——事物和現(xiàn)象之間的普遍聯(lián)系:唯物辯證法;——人與人之間的普遍聯(lián)系:小世界現(xiàn)象、社會網(wǎng)絡(luò)分析;——事物發(fā)展的基本規(guī)律:繼承性和發(fā)展性,發(fā)展觀,揚棄;——事物和現(xiàn)象之間的因果關(guān)系:歸納、演繹、穆勒五法;——事物和現(xiàn)象之間的相似性:類比、想象、聯(lián)想;——事物和現(xiàn)象之間的數(shù)量關(guān)系:統(tǒng)計學(xué)和數(shù)學(xué)模型;——“信息有限理性”假設(shè)(注意力導(dǎo)致信息收集偏向,主觀能力導(dǎo)致信息解讀偏差)。1.1信息分析情報學(xué)最重的假設(shè)是“信息有限理性”假設(shè)。有限理性是指相對信息的規(guī)模、復(fù)雜性而言,人類處理信息能力的局限性。因此,人類的決策在很多情況下不可能是理性的。只可能在收集信息和解讀信息時進行選擇,即信息選擇具有偏好或偏向性,只關(guān)注自身注意到的信息,信息解讀受自身主觀能力制約。2025/6/2115:261.1信息分析注意力導(dǎo)致信息收集偏向人們看到什么,看不到什么,取決于注意力聚焦,只有注意到的信息才會被看到。1978年諾獎得主西蒙指出:“信息消耗接收者的注意力。大量
信息造成注意力缺乏,需要在可能消耗注意力過多信息源中分配注意力。”由于人只有有限的注意力、記憶力和和信息加工能力,不管外面有多少信息,他都只能收集和分析其中很小的一部分。亞西米羅認為:“決策者和情報界在收集信息時都存在信息過濾現(xiàn)象。”2025/6/2115:261.1信息分析信息注意力聚焦的影響因素:預(yù)期(假設(shè)):與自身預(yù)期一致的信息容易被接收和理解認知圖式(思維模式):心智模式、分析假設(shè)(基于過去的、現(xiàn)在的或預(yù)計的外部現(xiàn)象或經(jīng)驗建立內(nèi)部概念)先驗知識:教育、知識結(jié)構(gòu)和過去的經(jīng)驗(信息分析人員比較容易注意到其經(jīng)歷過的東西,忽略其不了解的東西)環(huán)境:科技、經(jīng)濟、社會、安全等信息特征:顯著性、差異性、可及性、生動性和易處理性(內(nèi)容和形式特征),信息在感覺、空間、時間上的可接近性。人際關(guān)系網(wǎng)絡(luò):正式的和非正式
人際關(guān)系網(wǎng)絡(luò)都是重要的信息源。2025/6/2115:261.1信息分析解讀能力影響信息偏差信息分析和情報研究的核心是通過意義建構(gòu)解讀信息。意義建構(gòu)是將線索放入思維框架中以獲取意義的過程。在意義建構(gòu)過程中,人不只是被動、消極、機械的信息觀察者和接收者,而是積極的行動者,他們把自己的觀點、看法、經(jīng)驗等投射到信息上,進行創(chuàng)造,對獲得的信息解讀具有強的主觀性。-信息建構(gòu)2025/6/2115:261.1信息分析信息解讀能力的影響因素:預(yù)期(假設(shè)):傾向于感知和預(yù)期感知的東西認知圖式(思維模式):概念圖式、心智模式、思維模式差異影響信息理解先驗知識:教育、知識結(jié)構(gòu)和過去的經(jīng)驗積累環(huán)境:背景、語境、語義影響信息理解信息特征:顯著性、差異性、可及性、生動性和易處理性(內(nèi)容和形式特征),信息在感覺、空間、時間上的可接近性。人際關(guān)系網(wǎng)絡(luò):信息意義建構(gòu)受內(nèi)部行為(認知)和外部行為(過程)共同影響,社會網(wǎng)絡(luò)、社會互動、共同語言、共同興趣、思維依賴等影響信息解讀。2025/6/2115:262025/6/2115:2641信息分析的內(nèi)容信息分析概述:概念、類型、作用、流程信息分析的本質(zhì)與原理信息分析的方法與工具信息分析的應(yīng)用與案例1.1信息分析2025/6/2115:26421.1信息分析信息分析方法邏輯學(xué)的方法系統(tǒng)分析的方法圖書情報學(xué)的方法社會學(xué)的方法統(tǒng)計學(xué)的方法2025/6/2115:2643信息分析方法的層次
哲學(xué)方法一般方法具體方法1.1信息分析2025/6/2115:2644信息分析方法的層次
哲學(xué)基礎(chǔ)定性方法定量方法定性與定量相結(jié)合的方法分類與比較綜合與分析歸納與演繹創(chuàng)造思維抽象思維靈感思維直接思維時間序列分析多元分析信息計量分析系統(tǒng)分析投入產(chǎn)出分析趨勢外推相關(guān)分析層次分析德爾菲法交叉影響分析系統(tǒng)動力學(xué)方法內(nèi)容分析哲學(xué)方法一般方法具體方法1.1信息分析2025/6/2115:26451.1信息分析信息分析方法體系相關(guān)分析回歸分析聚類分析因子分析引文分析信息計量分析時間序列分析……社會調(diào)查法歷史比較法邏輯思維法抽象思維法因素分解法……層次分析法德爾菲法內(nèi)容分析法關(guān)聯(lián)分析法系統(tǒng)動力學(xué)交叉影響分析……信息分析方法相關(guān)分析預(yù)測技術(shù)評估技術(shù)以定性為主定性定量結(jié)合以定量為主2025/6/2115:26461.1信息分析信息分析工具邏輯思維和科學(xué)思維:推理工具統(tǒng)計學(xué)和數(shù)學(xué)模型社會調(diào)查和專家調(diào)查:問卷數(shù)據(jù)庫和計算機數(shù)據(jù)挖掘2025/6/2115:26471.1信息分析信息分析應(yīng)用與案例20世紀40年代,德國的雅各布利用地方報紙準確分析出德國兵力分布情況。20世紀50年代,日本利用信息分析準確判斷我國大慶油田地址和產(chǎn)油量,并在油井鉆探設(shè)備出口中提高價格,獲得巨額利潤。20世紀60年代,美國的蘭德公司利用德爾菲法準確預(yù)測蘇聯(lián)人造衛(wèi)星上天,前后只相差一個星期。20世紀80年代,美國利用信息分析準確預(yù)測蘇聯(lián)領(lǐng)導(dǎo)人勃列日涅夫去世后的下一屆領(lǐng)導(dǎo)人安德羅波夫會當(dāng)選。20世紀80年代,奈斯比特利用內(nèi)容分析法對美國發(fā)行的200萬份報紙進行信息分析,得出影響2000年全球人類生活的十大趨勢。20世紀90年代,美國總統(tǒng)顧問委員會召集7名專家,對美國公開出版發(fā)行的報紙、期刊等信息進行分析,準確評估了美國的軍事實力。1.1信息分析崗位2025/6/2115:26國家信息分析師職業(yè)信息分析師競爭情報分析員專利情報分析員專利代理人數(shù)據(jù)分析2025/6/2115:2649本科生必修課程數(shù)據(jù)分析2.1數(shù)據(jù)及其理解2.2數(shù)據(jù)分析的概念2.3數(shù)據(jù)分析的分類及作用2.4數(shù)據(jù)分析的步驟2.5數(shù)據(jù)分析的模型2.6數(shù)據(jù)分析的方法2.7數(shù)據(jù)分析崗位2.8數(shù)據(jù)分析的內(nèi)容2.9數(shù)據(jù)分析的素質(zhì)要求2.10數(shù)據(jù)分析工具與平臺2025/6/2115:262.1數(shù)據(jù)及其理解數(shù)據(jù)的概念在計算機科學(xué)領(lǐng)域,數(shù)據(jù)是指可以輸入計算機中并被計算機程序處理的符號。數(shù)據(jù)除數(shù)字外,還包括字母、符號、模擬量等。狹義的數(shù)據(jù)是指數(shù)字,廣義的數(shù)據(jù)泛指所有定性或定量的描述。有據(jù)可查的數(shù)字才是數(shù)據(jù)。關(guān)于數(shù)據(jù)的理解代表性數(shù)據(jù)定義如下表。2025/6/2115:262.1數(shù)據(jù)及其理解2025/6/2115:262.1數(shù)據(jù)及其理解完整數(shù)據(jù)的三要素:數(shù)據(jù)來源(從哪里來)采集方式(以何種方式收集)記錄格式(以何種形式記錄、單位及字段類型是什么)2025/6/2115:262.2數(shù)據(jù)分析的概念數(shù)據(jù)分析的概念數(shù)據(jù)分析是指運用統(tǒng)計分析方法將收集來的數(shù)據(jù)進行分析,以求最大化開發(fā)數(shù)據(jù)功能,發(fā)揮數(shù)據(jù)作用的過程。數(shù)據(jù)分析就是用特定的技術(shù)、方法和手段,將隱藏在大量雜亂無章的數(shù)據(jù)背后的有效信息集中和提煉出來,使之盡可能接近真相的過程。2025/6/2115:262.3數(shù)據(jù)分析的類型及作用數(shù)據(jù)分析的類型數(shù)據(jù)分析可分為三種:描述性數(shù)據(jù)分析探索性數(shù)據(jù)分析驗證性數(shù)據(jù)分析2025/6/2115:262.3數(shù)據(jù)分析的類型及作用數(shù)據(jù)分析的作用現(xiàn)狀分析:體現(xiàn)發(fā)展水平原因分析:反映因果關(guān)系預(yù)測分析:進行趨勢預(yù)測2025/6/2115:262.4數(shù)據(jù)分析的步驟數(shù)據(jù)分析的步驟:六個環(huán)節(jié)2025/6/2115:26回歸分析:變量間的函數(shù)關(guān)系及其推理時間序列分析:以時間為自變量的數(shù)據(jù)關(guān)系及其趨勢外推2.5數(shù)據(jù)分析的模型數(shù)據(jù)分析的理論模型數(shù)學(xué)和統(tǒng)計學(xué)模型相關(guān)系數(shù)回歸模型:線性、非線性時間序列模型聚類模型:相似度、距離矩陣:向量模型概率模型2025/6/2115:262.5數(shù)據(jù)分析的模型數(shù)據(jù)分析的理論模型用戶使用行為分析模型2025/6/2115:262.5數(shù)據(jù)分析的模型數(shù)據(jù)分析理論模型SWOT分析模型:strenths,weaknesses,opportunities,threats2025/6/2115:262.5數(shù)據(jù)分析的模型數(shù)據(jù)分析理論模型PEST分析模型政治環(huán)境(political)經(jīng)濟環(huán)境(economic)社會環(huán)境(social)技術(shù)環(huán)境(technological)2025/6/2115:262.5數(shù)據(jù)分析的模型數(shù)據(jù)分析理論模型5W2H分析模型2025/6/2115:262.6數(shù)據(jù)分析的方法數(shù)據(jù)分析方法基于數(shù)據(jù)分析作用的分析方法2025/6/2115:262.6數(shù)據(jù)分析的方法數(shù)據(jù)分析方法基于數(shù)據(jù)分析對象的分析方法2025/6/2115:262.7數(shù)據(jù)分析的崗位2025/6/2115:2665數(shù)據(jù)分析崗位2.7數(shù)據(jù)分析的崗位2025/6/2115:2666數(shù)據(jù)分析師的級別:1、數(shù)據(jù)跟蹤員:機械拷貝數(shù)據(jù),很少處理數(shù)據(jù)2、數(shù)據(jù)查詢員/處理員:數(shù)據(jù)處理沒,缺乏數(shù)據(jù)解讀能力3、數(shù)據(jù)分析師:解讀數(shù)據(jù),定位問題提出答案4、數(shù)據(jù)應(yīng)用師:將數(shù)據(jù)還原到產(chǎn)品中,為產(chǎn)品所用5、數(shù)據(jù)規(guī)劃師:走在產(chǎn)品前面,讓數(shù)據(jù)有新的價值方向2.8數(shù)據(jù)分析的內(nèi)容2025/6/2115:2667數(shù)據(jù)分析的主要內(nèi)容2.8數(shù)據(jù)分析的內(nèi)容2025/6/2115:26682.9數(shù)據(jù)分析的素質(zhì)要求數(shù)據(jù)分析的素質(zhì)要求:態(tài)度嚴謹負責(zé)(客戶信任)好奇心強烈(分析為什么)邏輯思維清晰(結(jié)構(gòu)為王)擅長模仿(借鑒他法)勇于創(chuàng)新(超越自我)2025/6/2115:26692.10數(shù)據(jù)分析的工具與平臺數(shù)據(jù)分析工具與平臺(1)公開數(shù)據(jù)庫:-國家數(shù)據(jù)http:///index.htm2025/6/2115:26數(shù)據(jù)來源于中國國家統(tǒng)計局,包含了我國經(jīng)濟民生等多個方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,較為全面和權(quán)威,對于社會科學(xué)的研究不要太有幫助。最關(guān)鍵的是,網(wǎng)站簡潔美觀,還有專門的可視化讀物。2.10數(shù)據(jù)分析的工具與平臺-CEIC/zh-hans2025/6/2115:26最完整的一套超過128個國家的經(jīng)濟數(shù)據(jù),能夠精確查找GDP,CPI,進口,出口,外資直接投資,零售,銷售,以及國際利率等深度數(shù)據(jù)。其中的“中國經(jīng)濟數(shù)據(jù)庫”收編了300,000多條時間序列數(shù)據(jù),數(shù)據(jù)內(nèi)容涵蓋宏觀經(jīng)濟數(shù)據(jù)、行業(yè)經(jīng)濟數(shù)據(jù)和地區(qū)經(jīng)濟數(shù)據(jù)。2.10數(shù)據(jù)分析的工具與平臺-wind(萬得)/2025/6/2115:26被譽為中國的Bloomberg,在金融業(yè)有著全面的數(shù)據(jù)覆蓋,金融數(shù)據(jù)的類目更新非???,據(jù)說很受國內(nèi)的商業(yè)分析者和投資人的親睞。2.10數(shù)據(jù)分析的工具與平臺-搜數(shù)網(wǎng)/2025/6/2115:26已加載到搜數(shù)網(wǎng)站的統(tǒng)計資料達到7,874本,涵蓋1,761,009張統(tǒng)計表格和364,580,479個統(tǒng)計數(shù)據(jù),匯集了中國資訊行業(yè)自92年以來收集的所有統(tǒng)計和調(diào)查數(shù)據(jù),并提供多樣化的搜索功能。2.10數(shù)據(jù)分析的工具與平臺-中國統(tǒng)計信息網(wǎng)/2025/6/2115:26國家統(tǒng)計局的官方網(wǎng)站,匯集了海量的全國各級政府各年度的國民經(jīng)濟和社會發(fā)展統(tǒng)計信息,建立了以統(tǒng)計公報為主,統(tǒng)計年鑒、階段發(fā)展數(shù)據(jù)、統(tǒng)計分析、經(jīng)濟新聞、主要統(tǒng)計指標排行等。2.10數(shù)據(jù)分析的工具與平臺-亞馬遜aws-/cn/datasets/?nc1=h_ls2025/6/2115:26來自亞馬遜的跨科學(xué)云數(shù)據(jù)平臺,包含化學(xué)、生物、經(jīng)濟等多個領(lǐng)域的數(shù)據(jù)集。2.10數(shù)據(jù)分析的工具與平臺-figshare-/2025/6/2115:26研究成果共享平臺可以獲取研究數(shù)據(jù),內(nèi)容很有啟發(fā)性,網(wǎng)站頗具設(shè)計感。2.10數(shù)據(jù)分析的工具與平臺-github-/caesar0301/awesome-public-atasets2025/6/2115:26包含各個學(xué)科細分領(lǐng)域的數(shù)據(jù)庫資源,自然科學(xué)和社會科學(xué)的覆蓋都很全面,是做研究和數(shù)據(jù)分析的利器。2.10數(shù)據(jù)分析的工具與平臺2025/6/2115:262.10數(shù)據(jù)分析的工具與平臺(2)數(shù)據(jù)交易平臺-國云數(shù)據(jù)市場/data-market/2025/6/2115:26魔鏡數(shù)據(jù)市場涵蓋億萬免費數(shù)據(jù),包括期貨交易數(shù)據(jù)、通信數(shù)據(jù)、教育數(shù)據(jù)等綜合數(shù)據(jù),為使用者提供更大的發(fā)揮空間,還囊括建筑行業(yè)、運輸和郵電業(yè)、旅游業(yè)、科技、文化、批發(fā)和零售等30大行業(yè)精品數(shù)據(jù),魔鏡會員1元即可體驗。2.10數(shù)據(jù)分析的工具與平臺-優(yōu)易數(shù)據(jù)/2025/6/2115:26由國家信息中心發(fā)起,擁有國家級信息資源的數(shù)據(jù)平臺,國內(nèi)領(lǐng)先的數(shù)據(jù)交易平臺。平臺有B2B、B2C兩種交易模式,包含政務(wù)、社會、社交、教育、消費、交通、能源、金融、健康等多個領(lǐng)域的數(shù)據(jù)資源。2.10數(shù)據(jù)分析的工具與平臺數(shù)據(jù)堂/2025/6/2115:262.10數(shù)據(jù)分析的工具與平臺(3)網(wǎng)絡(luò)指數(shù)-百度指數(shù)/2025/6/2115:26可以根據(jù)指數(shù)的變化查看某個主題在各個時間段受關(guān)注的情況,進行趨勢分析、輿情預(yù)測有很好的指導(dǎo)作用。還有需求分析、人群畫像等精準分析的工具,對于市場調(diào)研來說具有很好的參考意義。類似的還有搜狗、360指數(shù)等。2.10數(shù)據(jù)分析的工具與平臺-阿里指數(shù)/2025/6/2115:26國內(nèi)權(quán)威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺的交易數(shù)據(jù)基本能夠看出國內(nèi)商品交易的概況,對于趨勢分析、行業(yè)觀察具有重要意義。2.10數(shù)據(jù)分析的工具與平臺-愛奇藝指數(shù)/2025/6/2115:26專門針對視頻的播放行為、趨勢分析的平臺,對于互聯(lián)網(wǎng)視頻的播放有著全面的統(tǒng)計和分析,涉及到播放趨勢、播放設(shè)備、用戶畫像、地域分布、等多個方面。2.10數(shù)據(jù)分析的工具與平臺-貓眼專業(yè)版/2025/6/2115:26電影票房統(tǒng)計分析平臺,貓眼專業(yè)版有實時的票房統(tǒng)計,影片的排盤情況、上座率和影院數(shù)據(jù)。2.10數(shù)據(jù)分析的工具與平臺-八爪魚/2025/6/2115:262.10數(shù)據(jù)分析的工具與平臺-集搜客/2025/6/2115:26能夠抓取網(wǎng)頁文字、圖表、超鏈接等多種網(wǎng)頁元素,提供好用的網(wǎng)頁抓取軟件、數(shù)據(jù)挖掘攻略、行業(yè)資訊和前沿科技等。2.10數(shù)據(jù)分析的工具與平臺(5)數(shù)據(jù)導(dǎo)航-數(shù)據(jù)分析網(wǎng)導(dǎo)航/hao2025/6/2115:262.10數(shù)據(jù)分析的工具與平臺-199IT大數(shù)據(jù)導(dǎo)航/2025/6/2115:26包括各類指數(shù)、數(shù)據(jù)庫、排行榜、數(shù)據(jù)工具2.10數(shù)據(jù)分析的工具與平臺-大數(shù)據(jù)人導(dǎo)航http://hao.bigdata.ren/2025/6/2115:262.10數(shù)據(jù)分析的工具與平臺(4)網(wǎng)絡(luò)數(shù)據(jù)采集器-火車采集器/2025/6/2115:26一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準確挖掘出所需數(shù)據(jù),最常用的就是采集某些網(wǎng)站的文字、圖片、數(shù)據(jù)等在線資源。大數(shù)據(jù)分析2025/6/2115:2692本科生必修課程大數(shù)據(jù)分析3大數(shù)據(jù)分析3.1大數(shù)據(jù)的概念與特點3.2大數(shù)據(jù)分析的理解3.3大數(shù)據(jù)分析問題3.4大數(shù)據(jù)技術(shù)3.5大數(shù)據(jù)處理3.6大數(shù)據(jù)環(huán)境下信息分析與數(shù)據(jù)分析的變化3.7大數(shù)據(jù)分析與信息分析比較2025/6/2115:2693案例及啟示:可怕的大數(shù)據(jù)一男子情人節(jié)買比薩,打了個電話,然后徹底崩潰了……大數(shù)據(jù)時代,誰來保護我們的隱私?必勝客店的電話鈴響了。客服拿起電話:必勝客。您好!請問有什么需要我為您服務(wù)?顧客:你好!我想要一份……客服:先生,請先把您的會員卡號告訴我,好嗎?顧客:16846146***。客服:王先生,您好!您住在泉州路一號12樓1205室。您家電話是2646****,您公司電話是4666****,您的手機是1391234****。請問您想用哪一個電話付費?顧客:你為什么知道我所有的電話號碼?客服:王先生,因為我們聯(lián)機CRM系統(tǒng)。顧客:我想要一個海鮮比薩……客服:王先生,海鮮比薩不適合您。2025/6/2115:26案例及啟示:可怕的大數(shù)據(jù)顧客:為什么?客服:根據(jù)您的醫(yī)療記錄,你的血壓和膽固醇都偏高。顧客:那你有什么可以推薦的?客服:您可以試試我們的低脂健康比薩。顧客:你怎么知道我會喜歡這種的?客服:您上星期一在國家圖書館借了一本《低脂健康食譜》。顧客:好。那我要一個家庭大號比薩。客服:王先生,大號的不夠吃。顧客:為什么?客服:因為您家一共有六口人。來個特大號的,怎樣?顧客:要付多少錢?客服:99元。這個足夠您一家六口吃了。但您母親應(yīng)該少吃,她上個月剛剛做了心臟搭橋手術(shù),還處在恢復(fù)期。2025/6/2115:26案例及啟示:可怕的大數(shù)據(jù)顧客:那可以刷卡嗎?客服:王先生,對不起。請您付現(xiàn)款。顧客:你們不是可以刷卡的嗎?客服:一般是可以的。但是您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括您的房貸利息。顧客:那我先去附近的提款機提款??头和跸壬鶕?jù)您的記錄,您已經(jīng)超過今日提款限額了。顧客:算了,你們直接把比薩送我家吧,家里有現(xiàn)金。你們多久會送到?客服:大約30分鐘。如果您不想等,可以自己騎摩托車來取。顧客:為什么?客服:根據(jù)我們CRM全球定位系統(tǒng)車輛行駛自動跟蹤記錄顯示,您登記的一輛車號為SB-748的摩托車,目前正在解放路東段華聯(lián)商場右側(cè)行駛,離我們店只有50米。2025/6/2115:26案例及啟示:可怕的大數(shù)據(jù)顧客:好吧(頭開始暈)??头和跸壬ㄗh您再帶一小份海鮮比薩。顧客:為什么?你不是說我不能吃嗎?客服:根據(jù)我們CRM通訊系統(tǒng)分析,今天您與一位女性通話頻率高、時間長,今天又是2.14,我們分析應(yīng)該是您的情人。而這位手機用戶近來一直買的是海鮮比薩,她應(yīng)該喜歡這種口味。顧客:……客服:您最好現(xiàn)在就送回家,否則您就不方便出來了。顧客:為什么?客服:根據(jù)我們定位系統(tǒng),您的愛人大約30分鐘后到家。顧客:我為什么要出來?客服:您已在匯峰酒店定了今晚的房間,估計您是與情人約會吧?顧客:當(dāng)即暈倒……2025/6/2115:26案例及啟示:大數(shù)據(jù)經(jīng)典案例1。啤酒與尿布全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。“啤酒+尿布”的數(shù)據(jù)分析成果已成為大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例。2。數(shù)據(jù)新聞讓英國撤軍2010年10月23日《衛(wèi)報》利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中所有的人員傷亡情況均標注于地圖之上。地圖上一個紅點便代表一次死傷事件,鼠標點擊紅點后彈出的窗口則有詳細的說明:傷亡人數(shù)、時間,造成傷亡的具體原因。密布的紅點多達39萬,顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊的決定。2025/6/2115:26案例及啟示:大數(shù)據(jù)經(jīng)典案例3。意料之外:胸部最大的是新疆妹子淘寶數(shù)據(jù)平臺顯示,購買最多的文胸尺碼為B罩杯。B罩杯占比達41.45%,其中又以75B的銷量最好。其次是A罩杯,購買占比達25.26%,C罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。4。QQ圈子把前女友推薦給未婚妻2012年3月騰訊推出QQ圈子,按共同好友的連鎖反應(yīng)攤開用戶的人際關(guān)系網(wǎng),把用戶的前女友推薦給未婚妻,把同學(xué)同事朋友圈子分門別類,利用大數(shù)據(jù)處理能力給人帶來“震撼”。5?!澳хR”預(yù)知石油市場走向“魔鏡”是蘇州國云數(shù)據(jù)科技公司的一款牛逼的大數(shù)據(jù)可視化產(chǎn)品,而且是國內(nèi)首款?!澳хR”可以通過數(shù)據(jù)的整合分析可視化不僅可以得出誰是世界上最美的女人,還能通過價量關(guān)系得出市場的走向。在不久前,“魔鏡”幫助中石等企業(yè)分析數(shù)據(jù),將數(shù)據(jù)可視化,使企業(yè)科學(xué)的判斷、決策,節(jié)約成本,合理配置資源,提高了收益。2025/6/2115:26案例及啟示:大數(shù)據(jù)經(jīng)典案例6。Google成功預(yù)測冬季流感2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行比較,并建立一個特定的數(shù)學(xué)模型。最終google成功預(yù)測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。7。大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。8。奧巴馬大選連任成功2012年11月奧巴馬大選連任成功的勝利果實也被歸功于大數(shù)據(jù),因為他的競選團隊進行了大規(guī)模與深入的數(shù)據(jù)挖掘。時代雜志更是斷言,依靠直覺與經(jīng)驗進行決策的優(yōu)勢急劇下降,在政治領(lǐng)域,大數(shù)據(jù)的時代已經(jīng)到來;各色媒體、論壇、專家鋪天蓋地的宣傳讓人們對大數(shù)據(jù)時代的來臨興奮不已,無數(shù)公司和創(chuàng)業(yè)者都紛紛跳進了這個狂歡隊伍。2025/6/2115:26案例及啟示:大數(shù)據(jù)經(jīng)典案例9。微軟大數(shù)據(jù)成功預(yù)測奧斯卡21項大獎2013年,微軟紐約研究院的經(jīng)濟學(xué)家大衛(wèi)?羅斯柴爾德(DavidRothschild)利用大數(shù)據(jù)成功預(yù)測24個奧斯卡獎項中的19個,成為人們津津樂道的話題。今年羅斯柴爾德再接再厲,成功預(yù)測第86屆奧斯卡金像獎頒獎典禮24個獎項中的21個,繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。10。超市預(yù)知高中生顧客懷孕明尼蘇達州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因為女兒經(jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數(shù)據(jù),然后通過相關(guān)關(guān)系分析得出事情的真實狀況。2025/6/2115:26案例及啟示:大數(shù)據(jù)挖掘應(yīng)用案例例1:Farecast通過對于機票數(shù)據(jù)的趨勢變化情況,提供票價預(yù)測的服務(wù),目前公布準確度高達75%,現(xiàn)在被微軟收購,整合在了bing的搜索中。例2:Xoom是從事跨境匯款業(yè)務(wù)的公司,處理過的一個案例是,單獨看一筆交易是合法的,但是重新檢查了所有的數(shù)據(jù)之后,發(fā)現(xiàn)犯罪集團正在進行咋騙。例3:hadoop分析VISA的數(shù)據(jù),將原來需要一個月的時間縮短為13分鐘。例4:亞馬遜三分之一的銷售額來自個性化推薦系統(tǒng)。例5:UPS有6W輛車,通過對車倆損害的數(shù)據(jù)挖掘,能夠及時的預(yù)測那些車輛需要維修,達到預(yù)警的目的。例6:美國零售商發(fā)現(xiàn)颶風(fēng)與蛋撻的關(guān)系,提高颶風(fēng)預(yù)防商品銷量。2025/6/2115:26案例及啟示:大數(shù)據(jù)挖掘應(yīng)用案例例子7:日本通過研究駕駛員的坐姿數(shù)據(jù),用來作為汽車防盜系統(tǒng)中。例子8:UPS通過對于位置數(shù)據(jù)的分析,獲取最佳行車路徑。例子9:IBM開發(fā)了一套復(fù)雜的預(yù)測模型,完成了電動汽車動力與電力供應(yīng)系統(tǒng)的預(yù)測。例子10:微軟和谷歌以及百度等搜索引擎的拼寫檢查以及糾錯提示,有效的利用的數(shù)據(jù)廢氣。例子11:巴諾通過分析人們在閱讀的時候的行為,得出人們往往會放棄長篇幅的非小說類書籍。例子12:The-numbers通過對于歷史電影相關(guān)的數(shù)據(jù)的相關(guān)關(guān)系,來預(yù)測電影票房。2025/6/2115:263.1大數(shù)據(jù)的概念大數(shù)據(jù)的概念“大數(shù)據(jù)”是一個體量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser:大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。麥肯錫的定義:“大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群或數(shù)據(jù)集”。維基百科(Wikipedia):“大數(shù)據(jù)是難以用現(xiàn)有的數(shù)據(jù)庫管理工具處理的兼具海量特征和復(fù)雜性特征的數(shù)據(jù)集成?!?025/6/2115:261043.1大數(shù)據(jù)的概念與特點涂子沛的定義:指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數(shù)據(jù),認為一般應(yīng)該是“太字節(jié)”的數(shù)量級。阿里創(chuàng)始人馬云:大數(shù)據(jù)就是一種服務(wù)?!按髷?shù)據(jù)”研究機構(gòu)Gartner(高德納):大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力、發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”指的是無法使用傳統(tǒng)流程或工具處理或分析的數(shù)據(jù)和信息。瑞士達沃斯世界經(jīng)濟論壇報告《大數(shù)據(jù),大影響(BigData,BigImpact)》:大數(shù)據(jù)就象貨幣和黃金一樣,是一種新型的經(jīng)濟資產(chǎn)。
2025/6/2115:263.1大數(shù)據(jù)的概念與特點對大數(shù)據(jù)的理解從存在形態(tài)看:大數(shù)據(jù)分為可以用二維表反映的結(jié)構(gòu)化數(shù)據(jù)和不能以二維表反映的非結(jié)構(gòu)化數(shù)據(jù),如音頻、視頻、圖像、實物等。從數(shù)據(jù)來源看:大數(shù)據(jù)可分為行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、互聯(lián)網(wǎng)及搜索引擎數(shù)據(jù)三大類。——行政記錄數(shù)據(jù)包括個人信息記錄數(shù)據(jù)、單位信息記錄數(shù)據(jù)和自然資源記錄數(shù)據(jù)等;——商業(yè)記錄數(shù)據(jù)包括電子商務(wù)交易數(shù)據(jù),企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)和信息咨詢報告數(shù)據(jù)等;——互聯(lián)網(wǎng)數(shù)據(jù)則包括搜索引擎數(shù)據(jù),新聞媒體數(shù)據(jù)和社交平臺數(shù)據(jù)等。2025/6/2115:261063.1大數(shù)據(jù)的概念與特點從與傳統(tǒng)數(shù)據(jù)比較來看:——大數(shù)據(jù)多是自動化或半自動化生成;——數(shù)據(jù)搜集、處理、存儲和分析能力已極大提高;——數(shù)據(jù)主體和來源日趨多元化;——非結(jié)構(gòu)化數(shù)據(jù)占絕大多數(shù);——需要大量過濾才能提取有用價值;——隱私與安全也存在著巨大隱患。
從數(shù)據(jù)類型來看:由文字、聲音、視頻、多媒體、流媒體等組成的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)和信息。2025/6/2115:261073.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的主要來源:各類通信終端電腦:臺式機、移動PC、服務(wù)器網(wǎng)絡(luò):因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)手機:文字、音頻、視頻、多媒體、流媒體平板電腦:IPAD,文字、音頻、視頻、多媒體、流媒體拍攝設(shè)備:錄音機、錄像機、攝像機GPS:地理信息系統(tǒng)云計算、網(wǎng)格可穿戴設(shè)備……2025/6/2115:261083.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的主要來源大數(shù)據(jù)主要產(chǎn)生于超大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)、移動數(shù)據(jù)、射頻采集數(shù)據(jù)、社會計算數(shù)據(jù)。行業(yè)領(lǐng)域:醫(yī)療衛(wèi)生、地理信息、電子商務(wù)、影視娛樂、天文、科學(xué)研究、交通運輸、教育、政府管理等領(lǐng)域每天也都在創(chuàng)造著大量的數(shù)據(jù)。2025/6/2115:261093.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的計量單位Byte(1字節(jié))KB(千字節(jié),2的10次方)MB(兆字節(jié),2的20次方)GB(吉字節(jié),2的30次方)TB(太字節(jié),2的40次方)PB(拍字節(jié),2的50次方)EB(艾字節(jié),2的60次方)ZB(澤字節(jié),2的70次方)2025/6/2115:261103.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)體量Gartner(高德納)公司研究認為,新產(chǎn)生的數(shù)據(jù)量每年正以至少50%的速度遞增,使得每年新增的數(shù)據(jù)量不到兩年就翻一番。Cisco(思科)公司在一份報告中推測2015年僅移動數(shù)據(jù)量將會突破每月6EB,等于60億GB。據(jù)麥肯錫全球研究院IDC最新的數(shù)據(jù)測算,到2020年,世界上的數(shù)據(jù)存儲總量達到35ZB,等于35萬億GB。文獻增長定律:至2010年,全世界信息總量幾乎每1小時翻一番。摩爾斯定律:計算機芯片存儲容量每18個月翻一番,價格下降一半。摩爾斯修正定律:計算機芯片存儲容量每24個月翻一番,價格下降一半。2025/6/2115:261113.1大數(shù)據(jù)的概念與特點淘寶網(wǎng)站每天的交易達數(shù)千萬,數(shù)據(jù)量超過50TB。百度公司每天大約要處理60億次搜索請求,數(shù)據(jù)量達幾十PB。一個8Mbps的攝像頭一小時能產(chǎn)生3.6GB數(shù)據(jù),一個城市若安裝幾十萬個交通和安防攝像頭,每月產(chǎn)生的數(shù)據(jù)量將達幾十PB。2025/6/2115:261123.1大數(shù)據(jù)的概念與特點大數(shù)據(jù)的特征:6V+1C數(shù)據(jù)體量大(Volume):從GB、TB級躍升到PB、EB級;類型多樣化(Variety):包括文字、網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化異構(gòu)信息;處理速度快(Velocity);應(yīng)用價值大(Value);獲取與發(fā)送自由靈活(Vender);準確性(veracity);處理和分析難度大(Complexity):復(fù)雜化。2025/6/2115:261133.2大數(shù)據(jù)分析的理解大數(shù)據(jù)的產(chǎn)生與發(fā)展:大致可以分為三個階段一是20世紀80年代至90年代中期,是大數(shù)據(jù)認知的萌芽階段。1980年,美國著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中將大數(shù)據(jù)盛贊為“第三次浪潮的華彩樂章”。二是20世紀90年代中期到21世紀前10年,是大數(shù)據(jù)廣受各界關(guān)注的階段。美國高德納(GartnerGroup)公司的分析師道格拉斯·蘭尼(DouglasLaney)2001年首次從大數(shù)據(jù)的特征的角度對大數(shù)據(jù)進行了相對明確的定義,強調(diào)大數(shù)據(jù)必須具備3V特征,即容量大、多樣化和速度快。三是2010年至今,是大數(shù)據(jù)戰(zhàn)略應(yīng)用被提上日程并迅速發(fā)展的階段。美國總統(tǒng)科學(xué)技術(shù)顧問委員會于2010年給奧巴馬總統(tǒng)和國會呈報了題為《規(guī)劃數(shù)字化的未來》的報告。麥肯錫公司于2011年發(fā)布了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》的報告。2012年更是一個重要年份。1月,瑞士達沃斯世界經(jīng)濟論壇發(fā)布報告《大數(shù)據(jù)大影響》;3月,美國奧巴馬政府頒布了《大數(shù)據(jù)的研究和發(fā)展計劃》;5月,聯(lián)合國秘書長執(zhí)行辦公室發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》的報告;6月,經(jīng)合組織OECD統(tǒng)計委員會第9屆會議發(fā)布《使用大數(shù)據(jù)作決策》研究報告;各國都制訂了大數(shù)據(jù)發(fā)展國家戰(zhàn)略。2025/6/2115:261143.2大數(shù)據(jù)分析的理解國內(nèi)外大數(shù)據(jù)產(chǎn)生與發(fā)展“大數(shù)據(jù)”(Bigdata)是繼“云計算”之后IT行業(yè)最熱的詞匯。2007年,國外學(xué)者開始關(guān)注“大數(shù)據(jù)”。2008年9月,《nature》雜志發(fā)表了“BigData:Scienceinthepetabyteera”系列專題文章,提出了“大數(shù)據(jù)”的概念。隨后“大數(shù)據(jù)”一詞在IT行業(yè)流行開來。“大數(shù)據(jù)”這一術(shù)語最早可追溯到apacheorg的開源項目Nutch。當(dāng)時,大數(shù)據(jù)用來描述更新網(wǎng)絡(luò)搜索需要同時進行批量處理或分析的大量數(shù)據(jù)集。2010年,隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不僅用于描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度,被稱為大數(shù)據(jù)元年。2012年10月《哈佛商業(yè)評論》刊登了一篇“大數(shù)據(jù)”專題文章《數(shù)據(jù)科學(xué)家:21世紀最性感的職業(yè)》,文章指出,“數(shù)據(jù)科學(xué)家”的主要工作就是在大數(shù)據(jù)上找出有用的信息。2013年則可以稱為中國統(tǒng)計的大數(shù)據(jù)元年。7月,“大數(shù)據(jù)時代統(tǒng)計學(xué):機遇與挑戰(zhàn)——中國統(tǒng)計學(xué)高端論壇”在上海財經(jīng)大學(xué)舉辦;10月,主題為“大數(shù)據(jù)背景下的統(tǒng)計”的第十七次全國統(tǒng)計科學(xué)討論會在杭州舉行;11月,國家統(tǒng)計局與阿里、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。
2025/6/2115:261153.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析(BigDataAnalytics,BDA)是指對海量、類型多樣、增長快速且內(nèi)容真實的數(shù)據(jù)(即大數(shù)據(jù))進行分析,從中找出可以幫助決策的隱藏模式、未知的相關(guān)關(guān)系以及其他有用信息的過程。大數(shù)據(jù)分析的思維模式——以大數(shù)據(jù)為分析對象:全樣本、總體樣本——全樣本分析——以數(shù)據(jù)庫、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)算法為工具——數(shù)據(jù)挖掘——發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律、聯(lián)系——相關(guān)分析與關(guān)聯(lián)發(fā)現(xiàn)大數(shù)據(jù)分析的核心——注重數(shù)據(jù)非定量分析——關(guān)注多源數(shù)據(jù)融合——強調(diào)相關(guān)性分析2025/6/2115:261163.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析:三大理念要全體不要抽樣:抽樣割裂了數(shù)據(jù)之間的聯(lián)系;要效率不要精確:在海量數(shù)據(jù)時代,時間和成本比精確結(jié)果更有意義;要相關(guān)不要因果:知道是什么比知道為什么更重要。如股票信息,根據(jù)大數(shù)據(jù)分析很容易知道漲還是跌,但很難知道為什么會漲或跌。2025/6/2115:261173.2大數(shù)據(jù)分析的理解大數(shù)據(jù)分析大數(shù)據(jù)分析的對象是總體樣本或全樣本。大數(shù)據(jù)分析的目的通過分析獲取更多智能的、深入的、潛在的、有價值的信息。大數(shù)據(jù)分析方法是決定最終信息是否有價值的決定性因素。大數(shù)據(jù)分析的基礎(chǔ):——數(shù)據(jù)挖掘算法;——趨勢預(yù)測和關(guān)聯(lián)發(fā)現(xiàn):如谷歌對流感的預(yù)測;——數(shù)據(jù)質(zhì)量;——數(shù)據(jù)管理;——可視化展示。2025/6/2115:261183.3大數(shù)據(jù)分析問題2025/6/2115:261193.4大數(shù)據(jù)分析技術(shù)解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術(shù)集。2025/6/2115:262025/6/2115:261213.4大數(shù)據(jù)分析技術(shù)3.4大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù):——數(shù)據(jù)采集技術(shù):負責(zé)將分布的、ETL(extract、transform、load)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
2025/6/2115:261223.4大數(shù)據(jù)分析技術(shù)——數(shù)據(jù)存取技術(shù):關(guān)系數(shù)據(jù)庫、NOSQL、SQL等?!A(chǔ)架構(gòu):云存儲、分布式文件存儲等?!獢?shù)據(jù)處理技術(shù):自然語言處理(NLP,NaturalLanguageProcessing)是研究人機交互語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計算機“理解”自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguageUnderstanding),也稱為計算語言學(xué)(ComputationalLinguistics。也是人工智能(AI,ArtificialIntelligence)的核心課題。2025/6/2115:261233.4大數(shù)據(jù)分析技術(shù)——統(tǒng)計分析技術(shù):假設(shè)檢驗、顯著性檢驗、差異分析、相關(guān)分析、T檢驗、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等?!獢?shù)據(jù)挖掘技術(shù):分類(Classification)估計(Estimation)預(yù)測、(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)聚類、(Clustering)描述和可視化、DescriptionandVisualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)?!P皖A(yù)測技術(shù):預(yù)測模型、機器學(xué)習(xí)、建模仿真?!Y(jié)果呈現(xiàn)技術(shù):云計算、標簽云、關(guān)系圖、可視化等。2025/6/2115:261243.5大數(shù)據(jù)處理大數(shù)據(jù)處理:四個基本步驟大數(shù)據(jù)處理之一:大數(shù)據(jù)采集——大數(shù)據(jù)采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理。如電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù)?!髷?shù)據(jù)采集的主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作。如火車票售票網(wǎng)站和淘寶,并發(fā)的訪問量在峰值時達到上百萬,需要在采集端部署大量數(shù)據(jù)庫才能支撐。
2025/6/2115:261253.5大數(shù)據(jù)處理大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理——數(shù)據(jù)采集端本身有很多數(shù)據(jù)庫,但無法對海量數(shù)據(jù)進行有效分析,必須將數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作?!脩粼趯?dǎo)入數(shù)據(jù)時也會使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,滿足部分業(yè)務(wù)的實時計算需求?!獢?shù)據(jù)導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達到百兆,甚至千兆級別。2025/6/2115:261263.5大數(shù)據(jù)處理大數(shù)據(jù)處理之三:統(tǒng)計/分析
——統(tǒng)計與分析主要是利用分布式數(shù)據(jù)庫或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求?!獙崟r性需求可能會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。——數(shù)據(jù)統(tǒng)計與分析的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,對系統(tǒng)資源,特別是I/O會有極大的占用。
2025/6/2115:261273.5大數(shù)據(jù)處理大數(shù)據(jù)處理之四:數(shù)據(jù)挖掘——數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是對現(xiàn)有數(shù)據(jù)進行基于各種算法的計算,從而起到預(yù)測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。——比較典型的挖掘算法有:用于聚類的Kmeans算法、用于統(tǒng)計學(xué)習(xí)的SVM算法和用于分類的NaiveBayes算法?!饕ぞ哂蠬adoop、Mahout、Mapreduce等?!獢?shù)據(jù)挖掘的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用的數(shù)據(jù)挖掘算法都是以單線程為主,不能滿足大數(shù)據(jù)挖掘的需要。
2025/6/2115:261283.6大數(shù)據(jù)時代信息分析的變化大數(shù)據(jù)時代信息分析的變化變化一:分析對象的變化。大數(shù)據(jù)處理和分析的對象不是隨機樣本,而是全體數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)處理和分析的小樣本、抽樣樣本、部分樣本已無法代表大數(shù)據(jù)的特征,或者說大數(shù)據(jù)時代已無法從部分樣本的特征中推導(dǎo)全體數(shù)據(jù)的特征和規(guī)律。關(guān)聯(lián)、規(guī)則和規(guī)律可能隱含在大數(shù)據(jù)中,樣本則可能割裂了事物之間的關(guān)聯(lián)。變化二:信息處理方式的變化。大數(shù)據(jù)是非結(jié)構(gòu)化信息,數(shù)據(jù)結(jié)構(gòu)混亂,需要改變傳統(tǒng)結(jié)構(gòu)化、標準化和精確化的信息處理方式,設(shè)計新的且適合大數(shù)據(jù)特征的數(shù)據(jù)庫。大數(shù)據(jù)分析可能得不到精確的分析結(jié)果,但可能提供更多需要的結(jié)果和發(fā)現(xiàn)。2025/6/2115:261293.6大數(shù)據(jù)時代信息分析的變化變化三:關(guān)聯(lián)發(fā)現(xiàn)代替數(shù)學(xué)模型。大數(shù)據(jù)分析的目的是發(fā)現(xiàn)大容量數(shù)據(jù)中隱含的關(guān)聯(lián)和規(guī)律,即事物相關(guān)關(guān)系的挖掘與發(fā)現(xiàn),亦即解決“是什么”的問題。而不是試圖發(fā)現(xiàn)、解釋和推導(dǎo)事物間的因果關(guān)系,即解決“為什么”的問題。變化四:一切皆可“量化”、“數(shù)據(jù)化”。大數(shù)據(jù)發(fā)展的核心動力源于人類測量、記錄和分析世界的渴望,但我們更應(yīng)該把注意力放在數(shù)據(jù)和信息本身上,而不是本末倒置,只關(guān)注數(shù)據(jù)和信息處理的手段、方法和技術(shù)。一切事物都有時空及運動變化特征,都會產(chǎn)生數(shù)據(jù)和信息,因此,一切事物都可數(shù)據(jù)化。2025/6/2115:263.6大數(shù)據(jù)時代信息分析的變化變化五:數(shù)據(jù)開放與創(chuàng)新。大數(shù)據(jù)的價值在于數(shù)據(jù)創(chuàng)新,包括數(shù)據(jù)再利用、數(shù)據(jù)重組、數(shù)據(jù)擴展、數(shù)據(jù)折舊、數(shù)據(jù)廢氣清理和數(shù)據(jù)開放等。孤立、閑置、污染的數(shù)據(jù)價值不太,只有開放、激活和清潔的數(shù)據(jù)才能解釋巨大的價值。變化六:思維方式的變化。大數(shù)據(jù)時代需要重新厘清思維、技術(shù)和數(shù)據(jù)的關(guān)系及其角色定位,思維提供數(shù)據(jù)處理方法和思路,技術(shù)提供數(shù)據(jù)處理手段,而數(shù)據(jù)本身才是基礎(chǔ),完整的具有價值的數(shù)據(jù)才是思維和技術(shù)的出發(fā)點,有什么樣的數(shù)據(jù)及數(shù)據(jù)處理需求才會有什么樣的數(shù)據(jù)處理思維方式和數(shù)據(jù)處理技術(shù)。2025/6/2115:261313.6大數(shù)據(jù)時代信息分析的變化變化七:風(fēng)險和危機并存。在大數(shù)據(jù)時代,數(shù)據(jù)蘊含著巨大的價值,是一種重要的戰(zhàn)略資源,因此也深藏著誘惑和風(fēng)險。數(shù)據(jù)開放和安全、數(shù)據(jù)共享和壟斷、數(shù)據(jù)利用和隱私等都使大數(shù)據(jù)發(fā)展面臨一系列風(fēng)險和危機。變化八:制度和規(guī)則的變化。大數(shù)據(jù)已在推動人類信息管理準則的重新定位,使我們面臨信息自由和社會責(zé)任、數(shù)據(jù)共享與壟斷、數(shù)據(jù)利用與隱私、數(shù)據(jù)開放與安全、數(shù)據(jù)污染與清理、數(shù)據(jù)擁有者和與用戶等的激烈沖突,需要重新考慮大數(shù)據(jù)時代帶來的法律、制度和規(guī)則等問題。2025/6/2115:263.7大數(shù)據(jù)分析與信息分析比較比較維度大數(shù)據(jù)分析信息分析數(shù)據(jù)對象多源信息數(shù)值、文本信息數(shù)據(jù)規(guī)模大而全適度數(shù)據(jù),突出關(guān)鍵分析時機實時分析分析有時滯分析任務(wù)挖掘新模式任務(wù)明確,模式既定分析模式相關(guān)分析因果分析分析方法數(shù)據(jù)挖掘定性和定量分析方法2025/6/2115:261333.7大數(shù)據(jù)分析與信息分析比較大數(shù)據(jù)分析的典型任務(wù)是通過相關(guān)性實現(xiàn)模式挖掘與預(yù)測分析。大數(shù)據(jù)分析強調(diào)發(fā)現(xiàn)事先不知道的新模式和未知的相關(guān)關(guān)系。信息分析的目的和任務(wù)明確,要回答具體的問題,通過廣泛搜集各類相關(guān)信息,運用多種工具與方法進行內(nèi)容分析,監(jiān)測其中的新現(xiàn)象、新情況、新異常,并根據(jù)蛛絲馬跡發(fā)現(xiàn)其中的規(guī)律、本質(zhì)、戰(zhàn)略意圖等。2025/6/2115:26134補充-大數(shù)據(jù)分析案例國家競爭中的大數(shù)據(jù)應(yīng)用案例:——全球有18個根節(jié)點服務(wù)器,其中15個在美國,2個在歐洲,1個在日本,根節(jié)點服務(wù)器上的數(shù)據(jù)是真正的、典型的大數(shù)據(jù)集,是不可估量的信息財富和信息資源。——美國有一個由400人組成的秘密網(wǎng)絡(luò)軍團,每天從事網(wǎng)絡(luò)信息分析,并計劃將網(wǎng)絡(luò)軍團人員擴大一倍?!鲊荚谥贫ù髷?shù)據(jù)發(fā)展計劃,試圖占據(jù)大數(shù)據(jù)發(fā)展制高點。2025/6/2115:26135
第4講
信息分析程序
大學(xué)本科必修課程本章知識路線圖信息分析流程信息分析流程美國佐治亞州?了解當(dāng)?shù)丶垙S生產(chǎn)能力和實際產(chǎn)量工廠開出的火車車皮數(shù)量火車開過后鐵銹的變化情況—鋼軌承重—減去車皮重量=火車載重—紙的生產(chǎn)量詢問工人:機器數(shù)量、類型、制造商結(jié)果:工廠開工率大部分達到90%決策:再建一個造紙廠如何開展一次信息分析研究?
課題來源?
有哪些主要步驟?
研究成果怎么體現(xiàn)?
如何評價?
?????信息分析程序選題制訂實施計劃信息收集整理信息分析結(jié)果報告
第一節(jié)
衛(wèi)生信息分析選題
選題:信息分析課題的選擇,也就是明確信息分析的對象、目標以及方向政府部門委托單位用戶委托醫(yī)學(xué)信息人員自選課題來源選題的原則
政策性原則
必要性原則可能性原則效益性原則選題程序課題選擇工作的組織課題初步評價課題可行性研究課題整體審查課題立項課題修改、完善課題取消合格不合格第二節(jié)制訂實施計劃我國衛(wèi)生行政部門政府信息公開范圍實證研究糖尿病風(fēng)險評估模型及移動終端應(yīng)用研究第三節(jié)信息、數(shù)據(jù)的搜集整理
調(diào)查方法文獻調(diào)查社會調(diào)查現(xiàn)場調(diào)查實地參觀參加會議出國考察訪問調(diào)查面談、電話采訪樣品調(diào)查實物問卷調(diào)查問卷調(diào)查確定研究題目及研究目的根據(jù)研究目的詳細列舉所要知道的問題確定樣本及如何產(chǎn)生樣本撰擬問卷預(yù)試問卷發(fā)放問卷回收和催復(fù)統(tǒng)計和分析解釋結(jié)果撰寫調(diào)查報告實例1:中南大學(xué)財務(wù)報賬問卷調(diào)查表
實例2:我國醫(yī)院網(wǎng)站信息服務(wù)功能與質(zhì)量評價指標體系結(jié)構(gòu)維度”專家咨詢表調(diào)查內(nèi)容基本信息行為信息態(tài)度信息基本信息(調(diào)查)實例1計財處了解您對財務(wù)服務(wù)的期望和對財務(wù)工作的要求,以更好的開展財務(wù)報賬工作,改進工作作風(fēng),提高服務(wù)質(zhì)量和服務(wù)水平教師管理,人員,學(xué)生實例2研究人員對構(gòu)建的“我國醫(yī)院網(wǎng)站信息服務(wù)功能與質(zhì)量評價指標體系(初擬)”中的各項指標進行評價和修正專家基本信息(調(diào)查對象)實例1調(diào)查對象:教師口
管理人員口
學(xué)生口
實例2行為信息實例1您完成一次網(wǎng)上自助報賬申報所需時間:
()A.小于10分鐘B.10分鐘-30分鐘
C.30分鐘-60分鐘
D.60分鐘以上實例2態(tài)度信息實例11.您對財務(wù)人員提供服務(wù)時的態(tài)度滿意度如何?
()A.很滿意,態(tài)度好,耐心
B.較滿意,態(tài)度認真
C.一般,完成工作
D.不滿意,要改進態(tài)度信息實例2指標體系維度結(jié)構(gòu)專家認同程度123451信息服務(wù)功能質(zhì)量屬性√1.1基本描述信息維度√醫(yī)院標志√醫(yī)院簡介√醫(yī)院規(guī)模√提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)度測量式提問2.1資源品質(zhì)信息維度√信息的表達準確性√信息的易理解性√信息可信度√信息覆蓋度√信息來源√修改意見:2.15和2.13有理解上的重復(fù),另外,信息的新穎性如何體現(xiàn)?實例230:您對財務(wù)工作有什么建議和意見?(服務(wù)方面、報賬方面、信息化方面等)實例1提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)度測量式提問14.您知道下列哪些業(yè)務(wù)需要使用公務(wù)卡辦理?()A.財務(wù)報銷業(yè)務(wù)B.工資發(fā)放C.酬金發(fā)放D.所有業(yè)務(wù)15.您對知道完成報賬工作后,錢未到賬的情況了解嗎?()A.了解B.比較了解C.不了解提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)度測量式提問13.您希望通過什么方式獲取您的最新財務(wù)信息?()A.短信通知B.微信提醒C.自己上網(wǎng)查詢D.其他方式____實例1提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)度測量式提問實例2被調(diào)查者的背景資料:用于對被調(diào)查者進行分類職業(yè)、年齡、家庭狀況,教育程度,居住條件,興趣愛好等提問方式自由式提問封閉式提問綜合式提問事實性提問態(tài)(程)度測量式提問1類別量表順序量表差距量表定比量表調(diào)查問題示例量表特點類別量表受教育程度1中學(xué)生2高中生3本科生4碩士生5博士生質(zhì)的差別順序量表根據(jù)你的喜歡程度對下列幾種品牌的汽車進行排序:勞斯萊斯奔馳尼桑沃爾沃高爾夫1喜歡2較喜歡3無所謂4不喜歡5很不喜歡高低順序差距量表學(xué)生測評成績<60不及格,60-70中,71-80良,81-90良+,91-100優(yōu)測量等級距離,沒有0起點,總體差距小定比量表收入情況0-3000,3000-6000,6000-12000,12000-24000測量等級距離,有0起點,總體差距大提問順序原則要求舉例先大后小先總后分,先因后果先易后難基本信息-行為信息—態(tài)度信息封閉式問題—綜合式問題—自由式問題先趣味性再實質(zhì)性先一般后敏感無法避免的隱私問題應(yīng)盡量安排在后面與上一原則相似時間性由近及遠或由遠及近相關(guān)性同類或密切相關(guān)的問題不要分散調(diào)查表設(shè)計時應(yīng)注意的問題用語準確含義清楚避免模糊或雙關(guān)語你喜歡看什么電影???了解1個門診病人一次就診所花的時間提
問
的
必
要
性你從家里出發(fā)的時間?到達醫(yī)院的時間?掛上號的時間?完成就診離開家的時間?其中真正用在就診的時間是多少?用在等待的時間是多少?你對就診情況滿意不?調(diào)查表設(shè)計時應(yīng)注意的問題調(diào)查表設(shè)計時應(yīng)注意的問題示例把握問題的數(shù)量和難易程度半小時之內(nèi)被調(diào)查者憑經(jīng)驗、記憶避免引導(dǎo)性提問有人認為智慧型醫(yī)院是以后的發(fā)展方向,你也贊同嗎?避免一般性問題你對這個醫(yī)院的信息化水平滿意嗎?避免雙重問題或概念有交叉的問題你會投資理財和股票嗎?你每周都會去圖書館和電影院嗎?盡量避免假設(shè)性問題假如你得到500萬大獎,你會捐助公益性組織嗎?避免學(xué)術(shù)專用名詞和冷僻的專用名詞你認為引力波會對未來的社會帶來什么樣的變化?使用說明詞調(diào)查人(組織)的身份目的被調(diào)查者問答問題的重要性聲明為回答者及回答結(jié)果保密說明結(jié)果反饋事宜說明如何填寫調(diào)查表表示希望被調(diào)查者以真實的態(tài)度填寫調(diào)查表對被調(diào)查者表示感謝提供聯(lián)系方式“我國醫(yī)院網(wǎng)站信息服務(wù)功能與質(zhì)量評價指標體系結(jié)構(gòu)維度”專家咨詢表抽樣調(diào)查被調(diào)查的總體全部單位中抽取一部分單位(樣本)來進行調(diào)查,并以樣本特征值來推算總體特征的一種調(diào)查方法隨機抽樣原則:每個部分都有同等機會被抽中方法適用范圍舉例簡單隨機抽樣抽簽隨機數(shù)字表法總體個數(shù)不是特別多專業(yè)所有班級同學(xué)抽簽或隨機數(shù)字表法抽樣分層抽樣總體按特征分層后抽樣不同層有明顯差異的情況下男生中抽樣女生中抽樣整群抽樣總體按特征分群,抽取1個或多個群的全部個體各群有共同特征的情況下隨機抽取一個或多個班等距抽樣按相等距離抽取樣本總體個數(shù)不是特別多按學(xué)號,每隔5個人抽取一個PPS:按規(guī)模大小成比例的概率抽樣樣本量大小確定總體大小樣本量大小100030%1000010%1000001%100萬及以上樣本比例增加不產(chǎn)生實際作用思路1思路2借鑒同類研究成果思路3問卷問題數(shù)量的5-10倍,一般取8倍1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- IP網(wǎng)絡(luò)基礎(chǔ)知識
- 氣切患者心理支持與溝通
- 沖壓員工考試題及答案
- 財務(wù)崗前培訓(xùn)考試試題及答案
- 2025-2026人教版八年級物理上冊測試
- 2026年重點高中自主招生考試語文試卷試題(含答案+答題卡)
- 2025-2026二年級科學(xué)學(xué)期末測試
- 2025-2026一年級體育期末考卷
- 衛(wèi)生室倉庫盤存制度
- 學(xué)校衛(wèi)生室廠家管理制度
- 2026年山東省威海市單招職業(yè)傾向性測試題庫附答案解析
- 2026新疆伊犁州新源縣總工會面向社會招聘工會社會工作者3人考試備考試題及答案解析
- 《研學(xué)旅行課程設(shè)計》課件-研學(xué)課程設(shè)計原則
- JJG 693-2011可燃氣體檢測報警器
- (本科)大學(xué)生勞動教育理論與實踐教程全書電子教案完整版
- 黑龍江省中藥飲片炮制規(guī)范及標準
- 盤口暗語及盤口數(shù)字語言
- QC-提高衛(wèi)生間防水一次驗收合格率
- 彈藥庫防火防爆消防演示
- 大地測量控制點坐標轉(zhuǎn)換技術(shù)規(guī)程
- 食材配送服務(wù)方投標方案(技術(shù)標)
評論
0/150
提交評論