版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)分析與可視化1.什么是數(shù)據(jù)分析?數(shù)據(jù)分析是基于商業(yè)目的,有目的的進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)信 息的一個(gè)過程。其過程概括起來主要包括:明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù) 據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報(bào)告等6個(gè)階段。1、明確分析目的與框架一個(gè)分析項(xiàng)目,你的數(shù)據(jù)對(duì)象是誰?商業(yè)目的是什么?要解決什么業(yè)務(wù)問題?數(shù)據(jù)分 析師對(duì)這些都要了然于心?;谏虡I(yè)的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優(yōu)化活動(dòng)效果、 提高客戶響應(yīng)率等等。不同的項(xiàng)目對(duì)數(shù)據(jù)的要求,使用的分析手段也是不一樣的。2、數(shù)據(jù)收集數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析和框架內(nèi)容,有目的的收集、整合相關(guān)數(shù)據(jù)的一個(gè)過 程,它
2、是數(shù)據(jù)分析的一個(gè)基礎(chǔ)。3、數(shù)據(jù)處理數(shù)據(jù)處理是指對(duì)收集到的數(shù)據(jù)進(jìn)行加工、整理,以便開展數(shù)據(jù)分析,它是數(shù)據(jù)分析前 必不可少的階段。這個(gè)過程是數(shù)據(jù)分析整個(gè)過程中最占據(jù)時(shí)間的,也在一定程度上取決于數(shù)據(jù)倉庫的搭建和數(shù)據(jù)質(zhì)量的保證。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化等處理方法。4、數(shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行探索、分析,從中發(fā)現(xiàn) 因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律,為商業(yè)目提供決策參考。到了這個(gè)階段,要能駕馭數(shù)據(jù)、開展數(shù)據(jù)分析,就要涉及到工具和方法的使用。其一 要熟悉常規(guī)數(shù)據(jù)分析方法,最基本的要了解例如方差、回歸、因子、聚類、分類、時(shí)間序列 等多元和數(shù)據(jù)分析方法的原理、使用范圍
3、、優(yōu)缺點(diǎn)和結(jié)果的解釋;其二是熟悉1+1種數(shù)據(jù)分析工具,Excel是最常見,一般的數(shù)據(jù)分析我們可以通過Excel完成,后而要熟悉一個(gè)專業(yè)的分析軟件,如數(shù)據(jù)分析工具 SPSS/SAS/R/Matlab等,便于進(jìn)行一些專業(yè)的統(tǒng)計(jì)分析、數(shù)據(jù)建模等。5、數(shù)據(jù)展現(xiàn)一般情況下,數(shù)據(jù)分析的結(jié)果都是通過圖、表的方式來呈現(xiàn),俗話說:字不如表,表 不如圖。借助數(shù)據(jù)展現(xiàn)手段,能更直觀的讓數(shù)據(jù)分析師表述想要呈現(xiàn)的信息、觀點(diǎn)和建議。常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點(diǎn)圖、雷達(dá)圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6、撰寫報(bào)告最后階段,就是撰寫數(shù)據(jù)分析報(bào)告,這是對(duì)整個(gè)數(shù)據(jù)分析成果的一個(gè)呈現(xiàn)。通過分析報(bào)告,
4、把數(shù)據(jù)分析的目的、過程、結(jié)果及方案完整呈現(xiàn)出來,以供商業(yè)目的提供參考。一份好的數(shù)據(jù)分析報(bào)告,首先需要有一個(gè)好的分析框架,并且圖文并茂,層次明晰, 能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報(bào)告內(nèi)容;圖文并茂, 可以令數(shù)據(jù)更加生動(dòng)活潑,提高視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結(jié) 論,從而產(chǎn)生思考。另外,數(shù)據(jù)分析報(bào)告需要有明確的結(jié)論、建議和解決方案,不僅僅是找出問題,后者 是更重要的,否則稱不上好的分析,同時(shí)也失去了報(bào)告的意義,數(shù)據(jù)的初衷就是為解決一個(gè) 商業(yè)目的才進(jìn)行的分析,不能舍本求末。2.數(shù)據(jù)分析常用的方法有哪些?他們多用來分析哪些類型的數(shù)據(jù)?通過分析可以得到怎
5、樣的結(jié)果和結(jié)論?怎樣得到保證其信度和效度?常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關(guān)分析、對(duì)應(yīng)分析、回歸分析、方差分析;數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點(diǎn)圖(scatterdiagram)、魚骨圖(Ishikawa )、FMEA點(diǎn)圖、柱狀圖、雷達(dá)圖、趨勢(shì)圖。數(shù)據(jù)分析統(tǒng)計(jì)工具:SPSS minitab、JMR常用數(shù)據(jù)分析方法:1、聚類分析(Cluster Analysis )?聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很
6、大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析, 所得到的聚類數(shù)未必一致。2、因子分析(Factor Analysis )?因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析就是從大量的數(shù)據(jù)中 尋找內(nèi)在的聯(lián)系,減少?zèng)Q策的困難。?因子分析的方法約有 10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾 發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似方法,是以相關(guān)系數(shù)矩陣為基礎(chǔ)的,所不同的是相關(guān)系數(shù)矩陣對(duì)角線
7、上的值,采用不同的共同性口 2估值。在社會(huì)學(xué)研究 中,因子分析常采用以主成分分析為基礎(chǔ)的反覆法。3、相關(guān)分析(Correlation Analysis )?相關(guān)分析(correlation analysis ),相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系, 并對(duì)具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān) 系,例如,以X和Y分別記一個(gè)人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這就是相關(guān)關(guān)系。4、對(duì)應(yīng)分析( Correspondence Analysis )? 對(duì)應(yīng)分析(Corre
8、spondence analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,通過分析由定性 變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。可以揭示同一變量的各個(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。對(duì)應(yīng)分析的基本思想是將一個(gè)聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點(diǎn)的形式在較低維的空間中表示出來。5、回歸分析?研究一個(gè)隨機(jī)變量 Y對(duì)另一個(gè)(X)或一組(X1, X2,,Xk)變量的相依關(guān)系的統(tǒng)計(jì)分析方 法?;貧w分析(regression analysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的 一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;
9、按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。6、方差分析(ANOVA/Analysis of Variance)?又稱“變異數(shù)分析”或“ F檢驗(yàn)”,是發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著 性檢驗(yàn)。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類, 一是不可控的隨機(jī)因素,另一是研究中施加的對(duì)結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對(duì)觀測變量有顯著影響的變量。數(shù)據(jù)分析常用的圖表方法有:柏拉圖(排列圖)?排列圖是分析和尋找影響質(zhì)量主原因素的一種工具,其形式用雙直角坐標(biāo)圖,左邊縱坐標(biāo)表示頻數(shù)(如件數(shù)金額
10、等),右邊縱坐標(biāo)表示頻率 (如百分比表示)。分折線表示累積頻率,橫坐標(biāo)表示影響質(zhì)量的各項(xiàng)因素,按影響程度的大小(即出現(xiàn)頻數(shù)多少)從左向右排列。通 過對(duì)排列圖的觀察分析可抓住影響質(zhì)量的主原因素。直方圖(每一矩形的面積對(duì)應(yīng)于頻數(shù))。?將一個(gè)變量的不同等級(jí)的相對(duì)頻數(shù)用矩形塊標(biāo)繪的圖表?直方圖(Histogram)又稱柱狀圖、質(zhì)量分布圖。是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。散點(diǎn)圖(scatter diagram)?散點(diǎn)圖表示因變量隨自變量而變化的大致趨勢(shì),據(jù)此可以選擇合適的函數(shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬 合。用兩組數(shù)據(jù)構(gòu)成多個(gè)坐標(biāo)點(diǎn),考察坐
11、標(biāo)點(diǎn)的分布,判斷兩變量之間是否存在某種關(guān)聯(lián)或 總結(jié)坐標(biāo)點(diǎn)的分布模式。魚骨圖(Ishikawa )"魚頭"外。?魚骨圖是一種發(fā)現(xiàn)問題“根本原因”的方法,它也可以稱之為“因果圖”。其特點(diǎn)是簡捷 實(shí)用,深入直觀。它看上去有些象魚骨,問題或缺陷(即后果)標(biāo)在FMEA?FME端一種可靠性設(shè)計(jì)的重要方法。它實(shí)際上是FMA(故障模式分析)和 FEA (故障影響 分析)的組合。它對(duì)各種可能的風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià)、分析,以便在現(xiàn)有技術(shù)的基礎(chǔ)上消除這些風(fēng) 險(xiǎn)或?qū)⑦@些風(fēng)險(xiǎn)減小到可接受的水平。數(shù)據(jù)分析統(tǒng)計(jì)工具:?SPSS SPSS是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,它最突出的特點(diǎn)就是操作界面極為友
12、好,輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來,使用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能,對(duì)話框展示出各種功能選擇 項(xiàng)。用戶只要掌握一定的 Windows操作技能,粗通統(tǒng)計(jì)分析原理,就可以使用該軟件為特定的科研工作服務(wù)。?minitab : MINITAB功能菜單包括:假設(shè)檢驗(yàn)(參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)),回歸分析(元回歸和多元回歸、線性回歸和非線性回歸),方差分析(單因子、多因子、一般線性模型Pareto、Fishbone、運(yùn)行圖等)、等),時(shí)間序列分析,圖表(散點(diǎn)圖、點(diǎn)圖、矩陣圖、直方圖、莖葉圖、箱線圖、概率圖、 概率分布圖、邊際圖、矩陣圖、單值圖、餅
13、圖、區(qū)間圖、 蒙特卡羅模擬和仿真、SPC(Statistical Process Control -統(tǒng)計(jì)過程控制)、可靠性分析(分布擬合、檢驗(yàn)計(jì)劃、加速壽命測試等)、MSA(交叉、嵌套、量具運(yùn)行圖、類型 I量具研究?JMR JMP的算法源于SA§特別強(qiáng)調(diào)以統(tǒng)計(jì)方法的實(shí)際應(yīng)用為導(dǎo)向,交互性、可視化能力強(qiáng),使用方便,尤其適合非統(tǒng)計(jì)專業(yè)背景的數(shù)據(jù)分析人員使用,在同類軟件中有較大的優(yōu)勢(shì)。JMP的應(yīng)用領(lǐng)域包括業(yè)務(wù)可視化、探索性數(shù)據(jù)分析、六西格瑪及持續(xù)改善(可視化六西格瑪、質(zhì)量管理、流程優(yōu)化)、試驗(yàn)設(shè)計(jì)、生存及可靠性、統(tǒng)計(jì)分析與建模、交互式數(shù)據(jù)挖掘、分 析程序開發(fā)等。JMP是六西格瑪軟件的鼻祖,
14、當(dāng)年摩托羅拉開始推六西格瑪?shù)臅r(shí)候,用的就 是JMP軟件,目前有非常多的全球頂尖企業(yè)采用JMP作為六西格瑪軟件,包括陶氏化學(xué)、惠而浦、鐵姆肯、招商銀行、美國銀行、中國石化等等。1 .描述性統(tǒng)計(jì)分析?包括樣本基本資料的描述,作各變量的次數(shù)分配及百分比分析,以了解樣本的分布情況。此外,以平均數(shù)和標(biāo)準(zhǔn)差來描述市場導(dǎo)向、競爭優(yōu)勢(shì)、組織績效等各個(gè)構(gòu)面,以了解樣本企 業(yè)的管理人員對(duì)這些相關(guān)變量的感知,并利用t檢驗(yàn)及相關(guān)分析對(duì)背景變量所造成的影響做檢驗(yàn)。2 . Cronbach ' a信度系數(shù)分析信度是指測驗(yàn)結(jié)果的一致性、穩(wěn)定性及可靠性,一般多以內(nèi)部一致性(consistency) 來加以表示該測驗(yàn)信
15、度的高低。 信度系數(shù)愈高即表示該測驗(yàn)的結(jié)果愈一致、穩(wěn)定與可靠。針對(duì)各研究變量的衡量題項(xiàng)進(jìn)行 Cronbach'a信度分析,以了解衡量構(gòu)面的內(nèi)部一致性。一般來說,Cronbach' a僅大于0. 7為高信度,低于 0. 35為低信度(Cuieford , 1965), 0. 5為 最低可以接受的信度水準(zhǔn) (Nunnally ,1978)。3 .探索性因素分析(exploratory factor analysis)和驗(yàn)江性因素分析(confirmatoryfactor analysis)用以測試各構(gòu)面衡量題項(xiàng)的聚合效度(convergent validity) 與區(qū)別效度 (di
16、scriminant validity) 。因?yàn)閮H有信度是不夠的,可信度高的測量,可能是完全無效或 是某些程度上無效。所以我們必須對(duì)效度進(jìn)行檢驗(yàn)。效度是指工具是否能測出在設(shè)計(jì)時(shí)想測 出的結(jié)果。收斂效度的檢驗(yàn)根據(jù)各個(gè)項(xiàng)目和所衡量的概念的因素的負(fù)荷量來決定;而區(qū)別效度的檢驗(yàn)是根據(jù)檢驗(yàn)性因素分析計(jì)算理論上相關(guān)概念的相關(guān)系數(shù),檢定相關(guān)系數(shù)的95%信賴區(qū)間是否包含 1. 0,若不包含1. 0,則可確認(rèn)為具有區(qū)別效度(Anderson , 1987)。4 .結(jié)構(gòu)方程模型分析 (structural equations modeling)由于結(jié)構(gòu)方程模型結(jié)合了因素分析(factor analysis)和路徑
17、分析(path analysis),并納入計(jì)量經(jīng)濟(jì)學(xué)的聯(lián)立方程式,可同時(shí)處理多個(gè)因變量,容許自變量和因變量含測量誤差, 可同時(shí)估計(jì)因子結(jié)構(gòu)和因子關(guān)系。容許更大彈性的測量模型,可估計(jì)整個(gè)模型的擬合程度 (Bollen和Long, 1993),因而適用于整體模型的因果關(guān)系。在模型參數(shù)的估計(jì)上,采用最 大似然估計(jì)法(Maximum Likelihood , ML);在模型的適合度檢驗(yàn)上,以基本的擬合標(biāo)準(zhǔn) (preliminary fit criteria)、整體模型擬合優(yōu)度 (overall model fit)以及模型內(nèi)在結(jié)構(gòu)擬合優(yōu)度(fit of internal structure of mo
18、del)(Bagozzi和 Yi , 1988)三個(gè)方面的各項(xiàng)指標(biāo)作為判定的標(biāo)準(zhǔn)。在評(píng)價(jià)整體模式適配標(biāo)準(zhǔn)方面,本研究采用x2(卡方)/df(自由度)值、擬合優(yōu)度指數(shù)(goodness . of. f : iJt . in . dex, GFI)、平均殘差平方根(root mean, square : residual , RMSR)近似誤差均方根(root-mean square-error-of-approximation , RMSEA)等指標(biāo);模型內(nèi)在結(jié)構(gòu)擬合優(yōu)度則參考Bagozzi和Yi(1988)的標(biāo)準(zhǔn),考察所估計(jì)的參數(shù)是否都到達(dá)顯著水平。一、信度分析信度(Reliability )
19、即可靠性,是指采用同一方法對(duì)同一對(duì)象進(jìn)行調(diào)查時(shí),問卷調(diào)查 結(jié)果的穩(wěn)定性和一致性,即測量工具(問卷或量表)能否穩(wěn)定地測量所測的事物或變量。信 度指標(biāo)多以相關(guān)系數(shù)表示,具體評(píng)價(jià)方法大致可分為三類:穩(wěn)定系數(shù)(跨時(shí)間的一致性), 等值系數(shù)(跨形式的一致性)和內(nèi)在一致性系數(shù)(跨項(xiàng)目的一致性)。信度分析的方法主要 有以下四種:大部分的信度指標(biāo)都以相關(guān)系數(shù)來表示,即用同一被試樣本所得的兩組資料的相關(guān)作為測量一致性的指標(biāo),稱作信度系數(shù),主要分為四大類:1 .重測信度是指用同樣的測量工具, 對(duì)同一組被測者隔一定時(shí)間重復(fù)測量, 考察兩次測量結(jié)果的相 關(guān)程度,可以直接采用相關(guān)分析,得到的相關(guān)系數(shù)即為重測信度系數(shù)。
20、也可以對(duì)兩次重復(fù)測 試結(jié)果做兩相關(guān)樣本差異的統(tǒng)計(jì)檢驗(yàn)。2 .復(fù)本信度是指讓同一組被測者一次填寫兩份平行問卷,計(jì)算兩份數(shù)據(jù)的相關(guān)系數(shù),復(fù)本信度要求兩份問卷除了在問題表述不同之外,其余方面要完全一致,實(shí)際操作比較困難。3 .內(nèi)部一致性信度是指測驗(yàn)內(nèi)部所有題目間的一致性程度。這里的一致性是指題目測量目的的一致,而不是題目描述或形式的一致,主要方法有:<1>分半信度是指將一份問卷分成兩部分,計(jì)算這兩部分的相關(guān)系數(shù),即分半信度系數(shù),以此來衡量整份 問卷的信度<2>克朗巴哈信度是最常用的測量內(nèi)部一致性信度的方法,計(jì)算出的克朗巴哈a系數(shù)是所有可能分半信度的均值,取值在0-1之間,系數(shù)
21、越高一致性越好,常用在量表的信度分析K為量表做包含的總題目數(shù)si2為量表題項(xiàng)的方差總和s2為量表題項(xiàng)加總后方差<3>庫德-理查森信度計(jì)算出的KR20系數(shù)是克朗巴哈系數(shù)的一個(gè)特例,用于計(jì)算二分類變量的量表4 .評(píng)分者信度用來考察評(píng)分者對(duì)于問卷評(píng)分的信度,有兩種方法:<1>隨機(jī)抽取一些問卷,由兩位評(píng)分者評(píng)分,然后根據(jù)每份問卷的分?jǐn)?shù)計(jì)算相關(guān)系數(shù)<2>一位評(píng)分者兩次或兩次以上進(jìn)行評(píng)分,然后計(jì)算這幾次評(píng)分的Kendall和諧系數(shù)或Kappa系數(shù)對(duì)信度系數(shù)要注意三點(diǎn):1 .在不同的情況下,對(duì)不同樣本,采用不同方法會(huì)得到不同的信度系數(shù),因此一個(gè)測驗(yàn)可能不止一個(gè)信度系數(shù)。2
22、 .信度系數(shù)只是對(duì)測量分?jǐn)?shù)不一致程度的估計(jì),并沒有指出不一致的原因。3 .獲得較高的信度系數(shù)并不是測量追求的最終目標(biāo),它只是邁向目標(biāo)的一步,是使測驗(yàn)有效的一個(gè)必要條件。5.提高信度的方法1 .適當(dāng)延長問卷長度2 .問卷難度適中3 .問卷內(nèi)容盡量同質(zhì)4 .測量時(shí)間充分5 .測量程序要統(tǒng)一二、效度分析效度是指測量工具能夠準(zhǔn)確測量出所要測量特性的程度,除受隨機(jī)誤差影響外,還受系統(tǒng)誤差的影響。效度越高表示測量真實(shí)性越高,由于真實(shí)值往往未知, 所以我們對(duì)于效度的評(píng)價(jià)也不可能有絕對(duì)肯定的答案,但是可以用指標(biāo)來評(píng)價(jià),對(duì)于一個(gè)標(biāo)準(zhǔn)的測量來說,效度比信度更為重要。效度的性質(zhì):1 .效度具有相對(duì)性,任何測驗(yàn)的效度
23、都是針對(duì)一定的目標(biāo)而言2 .效度具有連續(xù)性?測驗(yàn)效度通常用相關(guān)系數(shù)表示,它只有程度上的不同,不是“全有”或“全無”的區(qū)別。效度的評(píng)估方法:效度分為四大類:標(biāo)準(zhǔn)效度,內(nèi)容效度、結(jié)構(gòu)效度、區(qū)分效度1 .標(biāo)準(zhǔn)效度:人為指定一種測量結(jié)果作為“金標(biāo)準(zhǔn)”,考察其他待測結(jié)果與其是否一致2 .內(nèi)容效度:是一種定性評(píng)價(jià)標(biāo)準(zhǔn), 主要通過經(jīng)驗(yàn)判斷進(jìn)行, 評(píng)價(jià)測量指標(biāo)(問卷內(nèi)容) 的含義是否能準(zhǔn)確反映真實(shí)情況,通常用專家評(píng)價(jià)的方法。3 .結(jié)構(gòu)效度:是評(píng)價(jià)量表效度常用的指標(biāo),是指測量結(jié)果體現(xiàn)出來的某種結(jié)構(gòu)與測量值之間的對(duì)應(yīng)程度,常使用因子分析。4 .區(qū)分效度:如果測量的結(jié)果能區(qū)分不同的測量結(jié)果,就認(rèn)為該測量具有區(qū)分效度
24、,例如如果測量結(jié)果能區(qū)分 A/B兩類人群,那么對(duì)這兩類人群做t檢驗(yàn)或方差分析,比較差異是 否具有統(tǒng)計(jì)學(xué)意義,以此判斷測量是否具有區(qū)分效度。信度與效度的關(guān)系:1 .可信的測量未必有效,而有效的測量必定可信。2.沒有信度就不可能有效度,沒有效度,信度也就毫無意義情況1:過于分散,既沒有效度也沒有信度情況2:點(diǎn)很集中,雖然有一致性,但是沒有命中中心,有信度但是無效度情況3:即有信度也有效度3. 影響數(shù)據(jù)分析的結(jié)果因素有哪些?舉例說明?預(yù)期結(jié)果分析(1)描述性模式:該方法通過挖掘歷史和當(dāng)前數(shù)據(jù),分析過去展現(xiàn)情況來決定接下來的 計(jì)劃步驟。描述性模式能確定許多不同客戶或產(chǎn)品之間的關(guān)系,來決定需要采取什么方
25、法向前發(fā)展。幾乎所有的報(bào)表,如:銷售、市場、操作以及財(cái)務(wù)都適用這樣的模式進(jìn)行事后分析, 來提出這些問題:發(fā)什么什么?多少?頻率如何?什么地方?何時(shí)?問題關(guān)鍵是什么?應(yīng)該 采取怎樣的行動(dòng)?(2)預(yù)測模式:分析過去可以知道客戶可能會(huì)有的操作,這樣可以預(yù)測單一用戶的操作。他可以陳述這樣的問題:將會(huì)發(fā)生什么?如果這個(gè)趨勢(shì)持續(xù)會(huì)怎樣?如果,下一次會(huì)怎樣?(3)規(guī)范模式:又叫做決定模式。這個(gè)模式闡述了所有的決定因素之間的關(guān)系,來預(yù)測 決定可能帶來的結(jié)果。我們可以預(yù)測這樣的問題:怎樣才能達(dá)到最好的效果?怎樣應(yīng)對(duì)變 數(shù)?客戶可能感興趣的其他商品是什么?雖然預(yù)測分析在現(xiàn)在數(shù)據(jù)分析中凸顯, 但是他還是經(jīng)常以描述模
26、式出現(xiàn)在傳統(tǒng)商業(yè)智能 領(lǐng)域。一個(gè)例子看去年的銷售收入, 再為下一年指定目標(biāo)?;仡櫼郧暗臄?shù)據(jù),指定未來的目 標(biāo),這就是數(shù)年來商業(yè)的標(biāo)準(zhǔn)模式。更加復(fù)雜的預(yù)測、規(guī)范模式現(xiàn)在正在商業(yè)中扮演更加重要的角色,這是因?yàn)橛布杀镜南陆?,大量的?shù)據(jù)隨之而來,特別是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。深入理解這些模式間的關(guān)系對(duì)于正確分析預(yù)測數(shù)據(jù)至關(guān)重要。就像所有的項(xiàng)目,剛開始我們都要明確他的商業(yè)目標(biāo)目的一樣。一旦有明確的業(yè)務(wù)目標(biāo)目的, 任何模式或者這三個(gè)模 式都可以用在BI系統(tǒng)中,為達(dá)到最終目標(biāo)目的服務(wù)。重復(fù)篩選 (Rinse-and-Repeat )我們不能忽略掉預(yù)測數(shù)據(jù)給我們帶來的誤區(qū)。 大多數(shù)情況下,100%精準(zhǔn)的數(shù)據(jù)
27、分析師不可能的,原因如下:1、歷史數(shù)據(jù)不能準(zhǔn)確預(yù)測未來2、預(yù)測模式中可能會(huì)有不定因素3、操作各種模式的時(shí)候,可能會(huì)有偏頗以及不符合實(shí)際的預(yù)測當(dāng)實(shí)踐各個(gè)模式的時(shí)候, 可能的錯(cuò)誤區(qū)域應(yīng)該被記錄。 通常表現(xiàn)為預(yù)測分析系統(tǒng)質(zhì)量提高,或者說第三方因素對(duì)其的影響下降。 因此,不斷優(yōu)化數(shù)據(jù)分析預(yù)測模式非常有必要。模式部署周期,不斷優(yōu)化,不斷操作實(shí)踐,這樣可以保證他在分析預(yù)測中以最高精度運(yùn)行。4. 數(shù)據(jù)統(tǒng)計(jì),數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)處理,知識(shí)發(fā)現(xiàn),大數(shù)據(jù)處理等,這些概念之間的區(qū)別和聯(lián)系?數(shù)據(jù)統(tǒng)計(jì): 數(shù)據(jù)統(tǒng)計(jì), 是互聯(lián)網(wǎng)傳媒行業(yè)或其他操作流程的數(shù)據(jù)統(tǒng)計(jì)的統(tǒng)稱, 用于歷史資料、科學(xué)實(shí)驗(yàn)、檢驗(yàn)、統(tǒng)計(jì)等領(lǐng)域。以便精準(zhǔn)
28、快速的查找與分類。知識(shí)發(fā)現(xiàn): 從數(shù)據(jù)中鑒別出有效模式的非平凡過程, 該模式是新的、 可能有用的和最終可理解的。 知識(shí)發(fā)現(xiàn)是指在積累了大量數(shù)據(jù)后, 利用各種數(shù)據(jù)挖掘算法來分析數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù), 從中識(shí)別出有效的、 新穎的、 潛在有用的及最終可以理解的知識(shí)。 我們可以理解為,知識(shí)發(fā)現(xiàn)就是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程, 即把數(shù)據(jù)轉(zhuǎn)化為知識(shí)、 把知識(shí)轉(zhuǎn)化為決策的一個(gè)多次循環(huán)反復(fù)的高級(jí)處理過程。數(shù)據(jù)挖掘: 數(shù)據(jù)挖掘又叫數(shù)據(jù)開采, 數(shù)據(jù)采掘,分為基于數(shù)據(jù)庫的數(shù)據(jù)挖掘、 基于應(yīng)用數(shù)據(jù)的挖掘、 基于信息集合的挖掘等多種概念。 數(shù)據(jù)挖掘的定義雖然表達(dá)方式不同, 但本質(zhì)都是一樣的,我們認(rèn)為數(shù)據(jù)挖掘是指從各種數(shù)
29、據(jù)庫或觀察的數(shù)據(jù)集合中提取人們事先未知的、隱含的、潛在有用的、感興趣的概念、規(guī)則、規(guī)律、模式等形式的知識(shí),用以支持用戶的決策。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)都可以看作是一門交叉性學(xué)科, 它們都涉及到機(jī)器學(xué)習(xí)、 模式識(shí)別、統(tǒng)計(jì)學(xué)、 數(shù)據(jù)可視化、 高性能計(jì)算機(jī)和專家系統(tǒng)等多個(gè)領(lǐng)域, 特別是都可以被看成是數(shù)據(jù)庫理論和機(jī)器學(xué)習(xí)的交叉科學(xué)。 兩個(gè)術(shù)語在定義上有一定的重合度, 內(nèi)涵也大致相同, 都是從數(shù)據(jù)中挖掘或發(fā)現(xiàn)隱藏的知識(shí) ; 它們的研究對(duì)象、 方法和結(jié)果的表現(xiàn)形式等方面基本上都是相同的。 因此, 有些人認(rèn)為, 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)只是叫法不一樣, 其含義是相同的。 而且, 在現(xiàn)今的文獻(xiàn)中,有許多場合,如技術(shù)綜述等
30、,這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)有一定的區(qū)別。關(guān)于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的區(qū)別有不同的表述,典型的表述有兩種:知識(shí)發(fā)現(xiàn)是數(shù)據(jù)挖掘的特例, 即把用于挖掘的數(shù)據(jù)集限制在數(shù)據(jù)庫這種 數(shù)據(jù)組織形式上,因此數(shù)據(jù)挖掘可以看作是知識(shí)發(fā)現(xiàn)在挖掘?qū)ο蟮难由旌蛿U(kuò)展。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程中的一個(gè)特定步驟。知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的全部過程.而數(shù)據(jù)挖掘則是此全部過程的一個(gè)特定的關(guān)鍵步驟。從知識(shí)發(fā)現(xiàn)的含義可以得知,知識(shí)發(fā)現(xiàn)一般可包括以下步驟:數(shù)據(jù)清理,消除噪聲和不一致數(shù)據(jù);數(shù)據(jù)集成,多種數(shù)據(jù)源可以組合在 一起;數(shù)據(jù)選擇,從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù);數(shù)據(jù)變換,通過匯總、聚集操作等方式將數(shù)據(jù)統(tǒng)
31、一變換成適合挖掘的形式;數(shù)據(jù)挖掘,使用智能方法提取數(shù)據(jù)模式 ;模式評(píng)估,根據(jù)某種興趣度量,識(shí)別表示知識(shí)的真正有趣的模式 ;知識(shí)表示,使用可視 化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)。從這 7個(gè)步驟,可以看出,數(shù)據(jù)挖掘只是知 識(shí)發(fā)現(xiàn)整個(gè)過程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中提取數(shù)據(jù)模式,是知識(shí)發(fā)現(xiàn)過程中重要的環(huán)節(jié)。而知識(shí)發(fā)現(xiàn)是一個(gè)高級(jí)的復(fù)雜的處理過程,它還包括前期處理和后期評(píng)估,即是一個(gè)應(yīng)用了數(shù)據(jù)挖倔算法和評(píng)價(jià)解釋模式的循環(huán)反復(fù)過程,它們之間相互影響、反復(fù)調(diào)整。數(shù)據(jù)分析:數(shù)據(jù)分析只是在已定的假設(shè),先驗(yàn)約束上處理原有計(jì)算方法,統(tǒng)計(jì)方法,將數(shù)據(jù)分析轉(zhuǎn)化為信息, 而這些信息需要進(jìn)一步的獲得認(rèn)知,轉(zhuǎn)
32、化為有效的預(yù)測和決策, 這時(shí)就需要數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與數(shù)據(jù)分析兩者緊密相連,具有循環(huán)遞歸的關(guān)系, 數(shù)據(jù)分析結(jié)果需要進(jìn)一步進(jìn)行數(shù)據(jù)挖掘才能指導(dǎo)決策,而數(shù)據(jù)挖掘進(jìn)行價(jià)值評(píng)估的過程也需要調(diào)整先驗(yàn)約束而再次進(jìn)行數(shù)據(jù)分析。而兩者的具體區(qū)別在于:(其實(shí)數(shù)據(jù)分析的范圍廣,包含了數(shù)據(jù)挖掘,在這里區(qū)別主要是指統(tǒng)計(jì)分析)數(shù)據(jù)量上:數(shù)據(jù)分析的數(shù)據(jù)量可能并不大,而數(shù)據(jù)挖掘的數(shù)據(jù)量極大。約束上:數(shù)據(jù)分析是從一個(gè)假設(shè)出發(fā),需要自行建立方程或模型來與假設(shè)吻合,而 數(shù)據(jù)挖掘不需要假設(shè),可以自動(dòng)建立方程。對(duì)象上:數(shù)據(jù)分析往往是針對(duì)數(shù)字化的數(shù)據(jù),而數(shù)據(jù)挖掘能夠采用不同類型的數(shù)據(jù),比如聲首,文本等。結(jié)果上:數(shù)據(jù)分析對(duì)結(jié)果進(jìn)行解釋,
33、呈現(xiàn)出有效信息,數(shù)據(jù)挖掘的結(jié)果不容易解釋, 對(duì)信息進(jìn)行價(jià)值評(píng)估,著眼于預(yù)測未來,并提出決策性建議。數(shù)據(jù)分析是把數(shù)據(jù)變成信息的工具,數(shù)據(jù)挖掘是把信息變成認(rèn)知的工具,如果我們想要從數(shù)據(jù)中提取一定的規(guī)律(即認(rèn)知)往往需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合使用。5. 第 (4) 題中所列出的概念有哪些數(shù)學(xué)模型? ( 寫出這些模型的形式化描述 ) ,那些是新近的模型,以教育( 教學(xué)、學(xué)習(xí) ) 為例,可以分析和挖掘的數(shù)據(jù)模型?數(shù)據(jù)分析的模型: (1.)PEST 分析模型 (2.)5W2H 分析模型 (3.) 邏輯樹分析模型(4.)4P 營銷理論 (5). 用戶行為模型數(shù)據(jù)分析模型的形式化描述:(1.)PEST 分析模
34、型主要針對(duì)宏觀市場環(huán)境進(jìn)行分析,從政治、經(jīng)濟(jì)、社會(huì)以及技術(shù)四個(gè)維度對(duì)產(chǎn)品或服務(wù)是否適合進(jìn)入市場進(jìn)行數(shù)據(jù)化的分析, 最終得到結(jié)論, 輔助判斷產(chǎn)品或服務(wù)是否滿足大環(huán)境。 (2.)5W2H 分析模型的應(yīng)用場景較廣,可用于對(duì)用戶行為進(jìn)行分析以及產(chǎn)品業(yè)務(wù)分析。 (3.) 邏輯樹分析模型主要針對(duì)已知問題進(jìn)行分析, 通過對(duì)已知問題的細(xì)化分析,通過分析結(jié)論找到問題的最優(yōu)解決方案。 (4.)4P 營銷理論模型主要用于公司或其中某一個(gè)產(chǎn)品線的整體運(yùn)營情況分析, 通過分析結(jié)論, 輔助決策近期運(yùn)營計(jì)劃與方案。 (5.) 用戶行為分析模型應(yīng)用場景比較單一,完全針對(duì)用戶的行為進(jìn)行研究分析。數(shù)據(jù)統(tǒng)計(jì)的數(shù)學(xué)模型:多變量統(tǒng)計(jì)分
35、析主要用于數(shù)據(jù)分類和綜合評(píng)價(jià)。 綜合評(píng)價(jià)是區(qū)劃和規(guī)劃的基礎(chǔ)。 從人類認(rèn)識(shí)的角度來看有精確的和模糊的兩種類型, 因?yàn)榻^大多數(shù)地理現(xiàn)象難以用精確的定量關(guān)系劃分和表示?, 因此模糊的模型更為實(shí)用, 結(jié)果也往往更接近實(shí)際, 模糊評(píng)價(jià)一般經(jīng)過四個(gè)過程:(1) 評(píng)價(jià)因子的選擇與簡化 ;(2) 多因子重要性指標(biāo)( 權(quán)重 ) 的確定 ;(3) 因子內(nèi)各類別對(duì)評(píng)價(jià)目標(biāo)的隸屬度確定;(4) 選用某種方法進(jìn)行多因子綜合。1. 主成分分析地理問題往往涉及大量相互關(guān)聯(lián)的自然和社會(huì)要素, 眾多的要素常常給模型的構(gòu)造帶來很大困難, 為使用戶易于理解和解決現(xiàn)有存儲(chǔ)容量不足的問題, 有必要減少某些數(shù)據(jù)而保留最必要的信息。主成分
36、分析是通過數(shù)理統(tǒng)計(jì)分析, 求得各要素間線性關(guān)系的實(shí)質(zhì)上有意義的表達(dá)式, 將這就克服了變量選擇時(shí)的冗余和相眾多要素的信息壓縮表達(dá)為若干具有代表性的合成變量, 關(guān),然后選擇信息最豐富的少數(shù)因子進(jìn)行各種聚類分析,構(gòu)造應(yīng)用模型。2. 層次分析法(AHP)Hierarahy Analysis 是等在 70 年代提出和廣泛應(yīng)用的 , 是系統(tǒng)分析的數(shù)學(xué)工具之一,它把人的思維過程層次化、數(shù)量化, 并用數(shù)學(xué)方法為分析、決策、 預(yù)報(bào)或控制提供定量的依據(jù)。AHP 方法把相互關(guān)聯(lián)的要素按隸屬關(guān)系分為若干層次, 請(qǐng)有經(jīng)驗(yàn)的專家對(duì)各層次各因素的相對(duì)重要性給出定量指標(biāo), 利用數(shù)學(xué)方法綜合專家意見給出各層次各要素的相對(duì)重要性
37、權(quán)值,作為綜合分析的基礎(chǔ)。例如要比較n個(gè)因素y=yl , y2,,yn 對(duì)目標(biāo)Z的影響,確定它們?cè)?z 中的比重,每次取兩個(gè)因素 yi 和 yJ ,用 aij 表示 yi 與 yJ 對(duì) Z 的影響之比,全部比較結(jié)果可用矩陣A=(aij)n*n 表示, A 叫成對(duì)比矩陣,它應(yīng)滿足:aij>0,aij=1/aij (i,j=1,2,.n)使上式成立的矩陣稱互反陣,必有aij=l 。3. 系統(tǒng)聚類分析聚類分析的主要依據(jù)是把相似的樣本歸為一類,而把差異大的樣本區(qū)分開來。在由 m 個(gè)變量組成為m維的空間中可以用多種方法定義樣本之間的相似性和差異性統(tǒng)計(jì)量。4. 判別分析判別分析是根據(jù)表明事物特點(diǎn)的變
38、量值和它們所屬的類求出判別函數(shù), 根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法, 與聚類分析不同, 它需要已知一系列反映事物特性的數(shù)值變量值及其變量值。判別分析就是在已知研究對(duì)象分為若干類型( 組別) 并已經(jīng)取得各種類型的一批已知樣品的觀測數(shù)據(jù)基礎(chǔ)上, 根據(jù)某些準(zhǔn)則, 建立起盡可能把屬于不同類型的數(shù)據(jù)區(qū)分開來的判別函數(shù), 然后用它們來判別未知類型的樣品應(yīng)該屬于哪一類。 根據(jù)判別的組數(shù), 判別分析可以分為兩組判別分析和多組判別分析; 根據(jù)判別函數(shù)的形式,判別分析可以分為線性判別和非線性判別 ; 根據(jù)判別時(shí)處理變量的方法不同, 判別分析可以分為逐步判別、 序貫判別等; 根據(jù)判別標(biāo)準(zhǔn)的不同
39、,判別分析有距離判別、 Fisher 判別、 Bayes 判別等。數(shù)據(jù)挖掘的數(shù)學(xué)模型:可分為四大類( 1. ) 分類與預(yù)測, 決策樹、 神經(jīng)網(wǎng)絡(luò)、 回歸、 時(shí)間序列 ( 2. ) 聚類,K-means,快速聚類,系統(tǒng)聚類( 3. )關(guān)聯(lián), apriori 算法等( 4. )異常值處理。以教育 ( 教學(xué)、學(xué)習(xí) ) 為例,可以分析和挖掘的數(shù)據(jù)模型?基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究為例進(jìn)行論述( 1. )教育數(shù)據(jù)挖掘及其應(yīng)用。教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的具體應(yīng)用。 根據(jù)國際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義, 教育數(shù)據(jù)挖掘是指運(yùn)用不斷發(fā)展的方法和技術(shù), 探索特定的教育環(huán)境中的數(shù)據(jù)類型,挖掘
40、出有價(jià)值的信息,以幫助教師更好地理解學(xué)生, 并改善他們所學(xué)習(xí)的環(huán)境,為教育者、學(xué)習(xí)者、管理者等教育工作者提供服務(wù)。 教育數(shù)據(jù)挖掘的主要目標(biāo)包括:構(gòu)建學(xué)習(xí)者模型,預(yù)測學(xué)習(xí)發(fā)展趨勢(shì);分析已有教學(xué)內(nèi)容、教學(xué)模型,提出改進(jìn)優(yōu)化建議;針對(duì)各種教育軟件系統(tǒng),評(píng)估其有效性;構(gòu)建教育領(lǐng)域模型,促進(jìn)有效學(xué)習(xí)的產(chǎn)生。教育數(shù)據(jù)挖掘的數(shù)據(jù)來源可以來自于網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)或者教育辦公軟件等, 也可以來自于傳統(tǒng)學(xué)習(xí)課堂或傳統(tǒng)測試結(jié)果等。數(shù)據(jù)屬性既可以是個(gè)人信息 (人口學(xué)信息),也可以是學(xué)習(xí)過程信息。 教育數(shù)據(jù)挖掘過程包括數(shù)據(jù)獲取與預(yù)處理、 數(shù)據(jù)分析和結(jié)果解釋三個(gè)階段。 教育數(shù)據(jù)挖掘的模型主要可分為描述性模型和預(yù)測性模型兩類。
41、描述性模型用于模式的描述, 為決策制定提供參考意見; 而預(yù)測性模型主要用于基于數(shù)據(jù)的預(yù)測 (如預(yù)測學(xué)生成績或課程通過情況等)。( 2. )網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型根據(jù)網(wǎng)絡(luò)學(xué)習(xí)的特殊屬性及教育數(shù)據(jù)挖掘流程, 本研究構(gòu)建了如圖 1 所示的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型。 數(shù)據(jù)源主要來自網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)數(shù)據(jù)庫, 以及教務(wù)管理平臺(tái)數(shù)據(jù)庫中的學(xué)生課程考試成績、 個(gè)人信息等數(shù)據(jù)。 由于數(shù)據(jù)來源的多樣化, 因此在完成數(shù)據(jù)采集之后,必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括去除冗余數(shù)據(jù)、處理缺失數(shù)據(jù)、數(shù)值轉(zhuǎn)換等。數(shù)據(jù)預(yù)處理完成后, 進(jìn)入教育數(shù)據(jù)挖掘的核心環(huán)節(jié)選擇挖掘方法分析數(shù)據(jù)并得出結(jié)果。 針對(duì)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的學(xué)習(xí)過
42、程監(jiān)管, 使用統(tǒng)計(jì)分析與可視化方法了解學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)時(shí)間分布、偏好頁面等;使用關(guān)聯(lián)規(guī)則了解學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)屬性與學(xué)業(yè)成績之間的關(guān)聯(lián);使用聚類分析對(duì)學(xué)習(xí)者分類, 教師可以依據(jù)分類結(jié)果對(duì)各類學(xué)生進(jìn)行不同形式的監(jiān)管, 也可根據(jù)分類結(jié)果給予相應(yīng)的網(wǎng)絡(luò)學(xué)習(xí)效果評(píng)價(jià)。 最后, 將教育數(shù)據(jù)挖掘的結(jié)果應(yīng)用到網(wǎng)絡(luò)學(xué)習(xí)過程的監(jiān)管中, 學(xué)生進(jìn)行新一輪的網(wǎng)絡(luò)學(xué)習(xí), 產(chǎn)生新的網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù), 對(duì)產(chǎn)生的新數(shù)據(jù)繼續(xù)進(jìn)行分析。 如此不斷迭代, 對(duì)網(wǎng)絡(luò)學(xué)習(xí)過程進(jìn)行調(diào)整和優(yōu)化, 使其朝著研究性學(xué)習(xí)和自主性學(xué)習(xí)的目標(biāo)實(shí)現(xiàn)可持續(xù)發(fā)展。6. 大數(shù)據(jù)的本質(zhì)特征是什么?大數(shù)據(jù)是指按照一定的組織結(jié)構(gòu)連接起來的數(shù)據(jù), 是非常簡單而且直接的事物
43、, 但是從現(xiàn)象上分析,大數(shù)據(jù)所呈現(xiàn)出來的狀態(tài)復(fù)雜多樣,這是因?yàn)楝F(xiàn)象是由觀察角度決定的 . 大數(shù)據(jù)的結(jié)構(gòu)是一個(gè)多層次、交織關(guān)聯(lián)的復(fù)雜系 統(tǒng)結(jié)構(gòu),數(shù)據(jù)是分布在節(jié)點(diǎn)上的構(gòu)成物質(zhì),數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系是由節(jié)點(diǎn)的位置決定的, 而不是由數(shù)據(jù)本身來決定。 也就是說, 不同的數(shù)據(jù)位于同一個(gè)節(jié)點(diǎn)時(shí),就可 以獲得相同的關(guān)聯(lián)關(guān)系。(1.) 使用所有的數(shù)據(jù)運(yùn)用用戶行為觀察等大數(shù)據(jù)出現(xiàn)前的分析方法,通常是將調(diào)查對(duì)象范圍縮小至幾個(gè)人。這是因?yàn)椋?整理所有目標(biāo)用戶的數(shù)據(jù)實(shí)在太費(fèi)時(shí)間, 所以采取了從總用戶群中, 爭取不產(chǎn)生偏差地抽取一部分作為調(diào)查對(duì)象, 并僅僅根據(jù)那幾個(gè)人的數(shù)據(jù)進(jìn)行分析。 而使用大數(shù)據(jù)技術(shù),能夠通過發(fā)達(dá)的數(shù)據(jù)抽
44、選和分析技術(shù), 完全可以做到對(duì)所有的數(shù)據(jù)進(jìn)行分析, 以提高數(shù)據(jù)的正確性。(2.) 不拘泥于單個(gè)數(shù)據(jù)的精確度如果我們連續(xù)扔骰子, 偶爾會(huì)連續(xù)好幾次都扔出同樣的數(shù)字。 但是如果無限增加扔骰子的次數(shù),每個(gè)數(shù)字出現(xiàn)的概率都將越來越接近六分之一。 同樣的, 在大數(shù)據(jù)領(lǐng)域, 通過觀察數(shù)量龐大的數(shù)據(jù), 更容易提高整體而言的數(shù)據(jù)的精準(zhǔn)度。 因此, 可以不拘泥于個(gè)別數(shù)據(jù)的精確度, 而迅速地進(jìn)階到數(shù)據(jù)分析的步驟。 (不過這種情況當(dāng)然不包括人為的篡改等由于外部因素扭曲了數(shù)據(jù)的情況)(3.) 不過分強(qiáng)調(diào)因果關(guān)系企業(yè)在考慮服務(wù)方針時(shí), 會(huì)綜合考慮現(xiàn)狀、問題、 改善措施、 實(shí)施后果等要素之間的相互關(guān)系, 在此基礎(chǔ)上建立假
45、設(shè)。但是大數(shù)據(jù)能夠通過觀察海量的數(shù)據(jù), 發(fā)現(xiàn)人所注意不到的相互關(guān)聯(lián)。7. 怎樣使用并行計(jì)算的方法(模型)實(shí)現(xiàn)并行數(shù)據(jù)的處理與分析?面向大數(shù)據(jù)處理的并行計(jì)算模型及性能優(yōu)化:(1.) p-DOT模型分析p-DOT模型在設(shè)計(jì)時(shí)將BPS模型作為基礎(chǔ),模型的基本組成是一系列iteration ,該模型主要由三個(gè)層次組成:首先, D-layer ,也就是數(shù)據(jù)層,整個(gè)系統(tǒng)的結(jié)構(gòu)呈現(xiàn)出分布式,各個(gè)數(shù)據(jù)節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù)集。其次, O-layer ,也就是計(jì)算層,假設(shè)q 為計(jì)算的一個(gè)階段,那么該階段內(nèi)的所有節(jié)點(diǎn)會(huì)同時(shí)進(jìn)行獨(dú)立計(jì)算, 所有節(jié)點(diǎn)只需要處理自己對(duì)應(yīng)的數(shù)據(jù), 這些數(shù)據(jù)中包括最初輸入的數(shù)據(jù), 也包括計(jì)算中生成
46、的中間數(shù)據(jù), 這樣實(shí)現(xiàn)了并發(fā)計(jì)算, 得到的中間結(jié)果直接存儲(chǔ)在模型中。最后, T-layer ,也就是通信層,在q 這一階段內(nèi),通信操作子會(huì)自動(dòng)傳遞模型中的消息, 傳遞過程遵循點(diǎn)對(duì)點(diǎn)的原則, 因?yàn)?q 階段中的所有節(jié)點(diǎn)在經(jīng)過計(jì)算以后都會(huì)產(chǎn)生一個(gè)中間結(jié)果,在通信操作子的作用下,這些中間結(jié)果會(huì)被一一傳遞到 q 1 階段內(nèi)。也就是說,一個(gè)階段的輸出數(shù)據(jù)會(huì)直接被作為下一個(gè)階段的輸入數(shù)據(jù),如果不存在下一個(gè)階段或者是兩個(gè)相鄰階段之間不存在通信, 則這些數(shù)據(jù)會(huì)被作為最終結(jié)果輸出并存儲(chǔ)。在并行計(jì)算模型下, 應(yīng)用大數(shù)據(jù)和應(yīng)用高性能之間并不矛盾,因此并行計(jì)算模型具有普適性的特征,前者為后者提供模式支持, 反過來,
47、后者也為前者提供運(yùn)算能力上的支持。另外,在并行計(jì)算模型下, 系統(tǒng)的擴(kuò)展性和容錯(cuò)性明顯提升,在不改變?nèi)蝿?wù)效率的前提下,數(shù)據(jù)規(guī)模以及機(jī)器數(shù)量之間的關(guān)系就能夠描述出系統(tǒng)的擴(kuò)展性, 而即使系統(tǒng)中的一些組件出現(xiàn)故障,系統(tǒng)整體運(yùn)行也不會(huì)受到影響,體現(xiàn)出較好的容錯(cuò)性。p-DOT模型雖然是在 DOT莫型的基礎(chǔ)上發(fā)展起來的, 但是其絕對(duì)不會(huì)是后者的簡單擴(kuò)展或者延伸, 而是具備更加強(qiáng)大的功能:一是p-DOT模型可以涵蓋 DOT以及BSP模型的處理范式,應(yīng)用范圍比較廣;二是將該模型作為依據(jù)能夠構(gòu)造出時(shí)間成本函數(shù), 如果在某個(gè)環(huán)境負(fù)載下大數(shù)據(jù)運(yùn)算任務(wù)已經(jīng)確定, 我們就可以根據(jù)該函數(shù)計(jì)算出整個(gè)運(yùn)算過程所需要的機(jī)器數(shù)量(
48、這里將最短運(yùn)行時(shí)間作為計(jì)算標(biāo)準(zhǔn)) ;三是該并行計(jì)算模型是可以擴(kuò)展的,模型也自帶容錯(cuò)功能,具有一定的普適性。( 2. ) D-layer 的優(yōu)化要想實(shí)現(xiàn)容錯(cuò)性, 要對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行備份, 因?yàn)椴僮魅藛T出現(xiàn)失誤或者是系統(tǒng)自身存在問題, 數(shù)據(jù)有可能大面積丟失, 這時(shí)備份數(shù)據(jù)就會(huì)發(fā)揮作用。 一般情況下,系統(tǒng)中比較重要的數(shù)據(jù)會(huì)至少制作三個(gè)備份, 這些備份數(shù)據(jù)會(huì)被存儲(chǔ)在不同場所, 一旦系統(tǒng)數(shù)據(jù)層出現(xiàn)問題就會(huì)利用這些數(shù)據(jù)進(jìn)行回存。 對(duì)于數(shù)據(jù)復(fù)本可以這樣布局: 一是每個(gè)數(shù)據(jù)塊中的每個(gè)復(fù)本只能存儲(chǔ)在對(duì)應(yīng)節(jié)點(diǎn)上; 二是如果集群中機(jī)架數(shù)量比較多, 每個(gè)機(jī)架中可以存儲(chǔ)一個(gè)數(shù)據(jù)塊中的一個(gè)復(fù)本或者是兩個(gè)復(fù)本。 從以上布
49、局策略中我們可以看出, 數(shù)據(jù)復(fù)本的存儲(chǔ)與原始數(shù)據(jù)一樣, 都是存儲(chǔ)在數(shù)據(jù)節(jié)點(diǎn)上, 呈現(xiàn)出分散性存儲(chǔ)的特征, 這種存儲(chǔ)方式是實(shí)現(xiàn)大數(shù)據(jù)容錯(cuò)性的基礎(chǔ)。O-layer 的優(yōu)化隨著信息技術(shù)的發(fā)展以及工業(yè)規(guī)模的擴(kuò)大,人們對(duì)大數(shù)據(jù)任務(wù)性能提出了更高的要求,為了實(shí)現(xiàn)提高性能的目標(biāo), 一般計(jì)算機(jī)程序會(huì)對(duì)系統(tǒng)的橫向擴(kuò)展提供支持。 隨著計(jì)算機(jī)多核技術(shù)的普及, 系統(tǒng)的并行處理能力明顯增強(qiáng), 計(jì)算密度明顯提高, 對(duì)多核硬件資源的利用效率明顯提升。 傳統(tǒng)并行計(jì)算模型主要依靠進(jìn)程間的通信, 而優(yōu)化后的模型則主要依靠線程間的通信, 由于后者明顯小于前者, 因此在利用多核技術(shù)進(jìn)行并行計(jì)算時(shí), 能夠在不增大通信開銷的基礎(chǔ)上明顯提
50、升計(jì)算性能。T-layer 的優(yōu)化為了提升計(jì)算模型的通信性能, 需要對(duì)大數(shù)據(jù)進(jìn)行深度學(xué)習(xí), 具體原因如下: 首先,無論使用哪種算法, 都需要不斷更新模型, 從分布式平臺(tái)的角度來說, 每一次迭代都代表一次全局通信, 而一部分模型的迭代次數(shù)又非常多, 同時(shí)模型中包含大量位移參數(shù)以及權(quán)重, 例如模型 Alex Net 的基礎(chǔ)是卷積神經(jīng)網(wǎng)絡(luò),其迭代次數(shù)可以達(dá)到 45 萬,耗費(fèi)系統(tǒng)大量通信開銷。 其次, 如果分布式平臺(tái)上本身就有很多機(jī)器, 那么迭代過程就需要將機(jī)器的運(yùn)行或者計(jì)算作為基礎(chǔ), 就是說要想完成一次迭代, 平臺(tái)上所有的機(jī)器都要逐一進(jìn)行計(jì)算, 計(jì)算完成以后還需要對(duì)參數(shù)進(jìn)行同步。 這種迭代模式容易受
51、到短板效應(yīng)的制約, 算法通信開銷并不取決于計(jì)算速度最快的機(jī)器, 而是取決于最慢的機(jī)器。 為了避免短板效應(yīng), 在對(duì)并行計(jì)算模型進(jìn)行優(yōu)化時(shí), 可以采用同步策略, 對(duì)于計(jì)算速度較慢的機(jī)器進(jìn)行加速, 提升迭代類任務(wù)的通信性能。8. 什么是數(shù)據(jù)可視化?有哪些可視化方法?有哪些可視化工具?數(shù)據(jù)可視化技術(shù)包含以下幾個(gè)基本概念: 借助于圖形化的手段, 清晰、 快捷有效的傳達(dá)與溝通信息。 從用戶的角度, 數(shù)據(jù)可視化可以讓用戶快速抓住要點(diǎn)信息, 讓關(guān)鍵的數(shù)據(jù)點(diǎn)從人類的眼睛快速通往心靈深處。 數(shù)據(jù)可視化一般會(huì)具備以下幾個(gè)特點(diǎn): 準(zhǔn)確性、 創(chuàng)新性 和簡潔性。數(shù)據(jù)空間:是由n維屬性和m個(gè)元素組成的數(shù)據(jù)集所構(gòu)成的多維信息
52、空間;數(shù)據(jù)開發(fā):是指利用一定的算法和工具對(duì)數(shù)據(jù)進(jìn)行定量的推演和計(jì)算;數(shù)據(jù)分析:指對(duì)多維數(shù)據(jù)進(jìn)行切片、塊、旋轉(zhuǎn)等動(dòng)作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù);數(shù)據(jù)可視化: 是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示, 并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化已經(jīng)提出了許多方法, 這些方法根據(jù)其可視化的原理不同可以劃分為基于幾何的技術(shù)、 面向像素技術(shù)、基于圖標(biāo)的技術(shù)、 基于層次的技術(shù)、基于圖像的技術(shù)和分布式技術(shù)等等。常用的可視化的方法:( 1 )、面積&尺寸可視化對(duì)同一類圖形(例如柱狀、圓環(huán)和蜘蛛圖等)的長度、高度或面積加以區(qū)別,來清晰的表達(dá)不同指標(biāo)對(duì)應(yīng)的指標(biāo)值之間的對(duì)比
53、。 這種方法會(huì)讓瀏覽者對(duì)數(shù)據(jù)及其之間的對(duì)比一目了然。制作這類數(shù)據(jù)可視化圖形時(shí),要用數(shù)學(xué)公式計(jì)算,來表達(dá)準(zhǔn)確的尺度和比例。例如:a: 天貓的店鋪動(dòng)態(tài)評(píng)分b: 聯(lián)邦預(yù)算圖 c: 公司黃頁 - 企業(yè)能力模型蜘蛛圖( 2 )、顏色可視化通過顏色的深淺來表達(dá)指標(biāo)值的強(qiáng)弱和大小, 是數(shù)據(jù)可視化設(shè)計(jì)的常用方法, 用戶一眼看上去便可整體的看出哪一部分指標(biāo)的數(shù)據(jù)值更突出。例如: a: 點(diǎn)擊頻次熱力圖 b: 年度失業(yè)率統(tǒng)計(jì)c: 手機(jī)用戶城市分布( 3)、圖形可視化在我們?cè)O(shè)計(jì)指標(biāo)及數(shù)據(jù)時(shí), 使用有對(duì)應(yīng)實(shí)際含義的圖形來結(jié)合呈現(xiàn), 會(huì)使數(shù)據(jù)圖表更加生動(dòng)的被展現(xiàn),更便于用戶理解圖表要表達(dá)的主題。例如:a: iOS 手機(jī)及
54、平板分布b: 人人網(wǎng)用戶的網(wǎng)購調(diào)查( 4)、地域空間可視化當(dāng)指標(biāo)數(shù)據(jù)要表達(dá)的主題跟地域有關(guān)聯(lián)時(shí), 我們一般會(huì)選擇用地圖為大背景。 這樣用戶可以直觀的了解整體的數(shù)據(jù)情況, 同時(shí)也可以根據(jù)地理位置快速的定位到某一地區(qū)來查看詳細(xì)數(shù)據(jù)。( 5 )、概念可視化通過將抽象的指標(biāo)數(shù)據(jù)轉(zhuǎn)換成我們熟悉的容易感知的數(shù)據(jù)時(shí), 用戶便更容易理解圖形要表達(dá)的意義。注意: 在總結(jié)了常見維度的數(shù)據(jù)可視化方法和范例之后, 要再次總體強(qiáng)調(diào)下做數(shù)據(jù)可視化設(shè)計(jì)時(shí)的注意事項(xiàng),總結(jié)了三點(diǎn)如下:1)設(shè)計(jì)的方案至少適用于兩個(gè)層次:一是能夠整體展示大的圖形輪廓,讓用戶能夠快速的了解圖表所要表達(dá)的整體概念; 之后再以合適的方式對(duì)局部的詳細(xì)數(shù)據(jù)
55、加以呈現(xiàn) (如鼠標(biāo) hover 展示)。2)做數(shù)據(jù)可視化時(shí),上述的五個(gè)方法經(jīng)常是混合用的,尤其是做一些復(fù)雜圖形和多維度數(shù)據(jù)的展示時(shí)。3) 做出的可視化圖表一定要易于理解, 在顯性化的基礎(chǔ)上越美觀越好, 切忌華而不實(shí)。可視化的工具: json 3.?Google Chart API 4. 浮懸 5. 拉斐爾9. 近兩年教育數(shù)據(jù)分析處理的國內(nèi)為論文(至少三篇,其中一篇為外國論文),寫一個(gè)所閱讀論文的綜述,(用自己的語言,列出你所閱讀的文獻(xiàn))?教育數(shù)據(jù)分析處理及其在教育領(lǐng)域的研究綜述隨著MOOC等在線學(xué)習(xí)平臺(tái)的飛速發(fā)展,針對(duì)在線教育數(shù)據(jù)的挖掘與分析正成為教育學(xué)與數(shù)據(jù)挖掘領(lǐng)域相結(jié)合的新研究熱點(diǎn), 為分
56、析學(xué)習(xí)規(guī)律和構(gòu)建課程知識(shí)體系提供了新的思路。 本綜述對(duì)面向大規(guī)模在線學(xué)習(xí)平臺(tái)的教育數(shù)據(jù)分析的一些相關(guān)方法進(jìn)行綜述, 并對(duì)該領(lǐng)域的一些最新發(fā)展趨勢(shì)進(jìn)行探討。 從大數(shù)據(jù)的特征入手, 給出了大數(shù)據(jù)的處理流程, 分析了數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)、數(shù)據(jù)可視化的要點(diǎn),給出了教育大數(shù)據(jù)的應(yīng)用模式,從個(gè)性化課程分析、教育領(lǐng)域的數(shù)據(jù)挖掘、監(jiān)測學(xué)生的考試、為教育決策和教育改革提供參考、幫助家長和教師找到適合孩子的學(xué)習(xí)方法五方面論述了大數(shù)據(jù)的應(yīng)用實(shí)踐。教育領(lǐng)域的數(shù)據(jù)挖掘教育數(shù)據(jù)挖掘領(lǐng)域側(cè)重于在線教育數(shù)據(jù)的挖掘分析方法研究,目前主要包括以下幾種分析方法:預(yù)測、結(jié)構(gòu)挖掘、關(guān)系挖掘、模型發(fā)現(xiàn)等。預(yù)測( prediction ) ,指通過對(duì)在線教育數(shù)據(jù)的挖掘得到關(guān)于某個(gè)變量的模型, 從而對(duì)該變量未來的走勢(shì)進(jìn)行預(yù)測, 比如數(shù)據(jù)趨勢(shì)預(yù)測等。目前常用的預(yù)測手段包括分類、回歸、潛在知識(shí)評(píng)估( latent knowledgeestimation )等。特別是潛在知識(shí)評(píng)估, 作為一種對(duì)學(xué)生知識(shí)掌握情況的評(píng)價(jià)手段,能夠更為客觀地對(duì)學(xué)生知識(shí)掌握情況及能力水平進(jìn)行評(píng)測,在MOOC平臺(tái)等在線教育乃至傳統(tǒng)教育領(lǐng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋修復(fù)原樣申請(qǐng)書
- 醫(yī)院藥品換規(guī)格的申請(qǐng)書
- 遷入本村戶口個(gè)人申請(qǐng)書
- 店長退股申請(qǐng)書樣本
- 2025年旅游景點(diǎn)導(dǎo)游服務(wù)質(zhì)量規(guī)范手冊(cè)
- 學(xué)校國防課題申請(qǐng)書模板
- 房屋燒毀司法鑒定申請(qǐng)書
- 學(xué)生證丟了的申請(qǐng)書
- 2025年企業(yè)信息化安全與隱私保護(hù)指南
- 教育學(xué)籍注銷申請(qǐng)書
- 2024年延安市市直事業(yè)單位選聘工作人員筆試真題
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳畫冊(cè)
- 2020高職院校教學(xué)能力比賽大學(xué)語文課程實(shí)施報(bào)告(定)
- 長期合作協(xié)議書合同書
- 浙江省小型液化天然氣氣化站技術(shù)規(guī)程
- ?;钒踩芾砼嘤?xùn)課件
- 小兒鞘膜積液
- 畢業(yè)設(shè)計(jì)粘土心墻土石壩設(shè)計(jì)含計(jì)算書cad圖
- 黑龍江省控制性詳細(xì)規(guī)劃編制規(guī)范
- 6工程竣工驗(yàn)收交付證明書
- 《俠客風(fēng)云傳前傳》支線流程攻略1.0.2.4
評(píng)論
0/150
提交評(píng)論