《教育測量與評價》電子教案-第三章 教育測量與評價的質(zhì)量特性_第1頁
《教育測量與評價》電子教案-第三章 教育測量與評價的質(zhì)量特性_第2頁
《教育測量與評價》電子教案-第三章 教育測量與評價的質(zhì)量特性_第3頁
《教育測量與評價》電子教案-第三章 教育測量與評價的質(zhì)量特性_第4頁
《教育測量與評價》電子教案-第三章 教育測量與評價的質(zhì)量特性_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

單元/章節(jié)名稱第三章教育測量與評價的質(zhì)量特性學時3學期總課次授課時間第周,星期,第節(jié)學習目標1.解釋信度。2.解釋效度。3.解釋難度。4.解釋區(qū)分度。5.依據(jù)不同情況采用恰當?shù)姆椒ㄓ嬎銣y驗的信度。6.依據(jù)不同情況選用恰當?shù)姆椒▽y驗的效度進行評價。7.計算測驗題目的難度、區(qū)分度。8.反思教育測量與評價方案的可用性。教學重點及解決措施重點:信度、效度、難度、區(qū)分度的定義和類型。解決措施:教學難點及解決措施難點:能夠根據(jù)不同情況選擇合適的信度、效度計算方法,正確計算難度和區(qū)分度。解決措施:通過引入生活種的相關(guān)案例,請學生分組討論,判斷并說明理由。教學反思授課內(nèi)容及教學活動設(shè)計附注(教學方法、活動形式、輔助手段等)課堂導入:體檢時,用同一臺體重秤連續(xù)稱重三次,如果讀數(shù)不一致,比如第一次45kg,第二次55kg,第三次49kg,那么這臺體重秤可信嗎?請思考什么是信度?新授課:第一節(jié)教育測量與評價的信度一、信度的意義信度(reliability),簡單地說就是測量結(jié)果的可信程度。信度指的是測量結(jié)果的穩(wěn)定性程度,記為rxx。教育與心理測量不同于物理測量,人們不可能用同一測量工具反復測量一個人的同一心理特質(zhì)。二、信度的統(tǒng)計定義我們不妨把測驗實施過程中直接得到的分數(shù),叫做觀察分數(shù),記為X;把被試在所測特質(zhì)上客觀具有的水平值,叫一般真分數(shù)(簡稱真分數(shù)),記為T;那么,觀察分數(shù)與一般真分數(shù)的差就是測量誤差,記為E。這樣,三者的關(guān)系可以表示為:X=T+E(3-1)三、信度的估計方法(一)重測信度(testretestreliability)重測信度指的是用同一個量表(測驗或評價表)對同一組被試施測兩次所得結(jié)果的一致性程度,其大小等于同一組被試在兩次測驗上所得分數(shù)的相關(guān)系數(shù)。(二)復本信度(alternateformsreliability)復本信度指的是兩個平行測驗測量同一批被試所得結(jié)果的一致性程度,其大小等于同一批被試在兩個復本測驗上所得分數(shù)的相關(guān)系數(shù)。(三)同質(zhì)性信度(homogeneityreliability)同質(zhì)性信度也叫內(nèi)部一致性信度(internalconsistencyreliability),它是指測驗內(nèi)部所有題目間的一致性程度。1.分半信度(splithalfreliability)2.庫德—理查遜信度(Kuder&Richardsonreliability)3.克龍巴赫(cronbach)α系數(shù)當測驗題型較多,并非都是二分記分題時,估計測驗信度可采用克龍巴赫α系數(shù)。四、標準參照測驗的信度分析1.百分比一致性指標百分比一致性(percentagreement,簡稱PA)指標是指同一測驗或兩平行測驗先后兩次施測,其對被試的分類結(jié)果一致的比例。2.κ一致性系數(shù)κ一致性系數(shù)(kappacoefficientofagreement),是指實際被評定為一致的百分比與在理論上被評定為一致的最大可能次數(shù)百分比的比率。五、測量標準誤與測驗信度的關(guān)系測量標準誤是指測驗中所得測值偏離真分數(shù)的程度,記為SE。顯然,它與測驗信度系數(shù)之間存在著必然聯(lián)系,這種關(guān)系可定量地表示如下:SE=Sx1-rxx(3-15)式中,SE為測量的標準誤,Sx為觀察分數(shù)的標準差,rxx是測量的信度系數(shù)。測量標準誤是反映測量結(jié)果精確性和可靠性的又一指標,同時也是人們正確解釋測驗分數(shù)的科學依據(jù)。六、評分者信度1.評分者信度的含義評分者信度(scorerreliability)指的是多個評分者給同一批人的答卷進行評分的一致性程度。2.評分者信度的計算第二節(jié)教育測量與評價的效度一、效度的意義效度是指一個測驗或量表實際能測出其所要測量的特性的程度。1.效度始終是針對一定測量目的而言的2.效度只有程度上的差異3.效度是針對測量結(jié)果而言的4.評價一個測量是否有效要多角度、多方面地收集證據(jù)二、效度的統(tǒng)計定義實質(zhì)上,一般真分數(shù)還可進一步分解為兩個部分:目標真分數(shù)(記為V)和非目標真分數(shù)(記為I)。目標真分數(shù),指的是反映被試某種心理特質(zhì)真正水平的數(shù)值。非目標真分數(shù),指的是被試在某種心理特質(zhì)測量量表上表現(xiàn)的與測量目標無關(guān)的穩(wěn)定測值。所以觀察分數(shù)可表示為:X=V+I+E(3-18)由以上論述可以看出,測量效度實質(zhì)上就是指一次測量測出目標真分數(shù)的程度。課堂討論題從統(tǒng)計學定義看,效度和信度有什么關(guān)系?三、內(nèi)容效度及其分析方法(一)內(nèi)容效度的含義及應用范圍內(nèi)容效度就是測驗題目樣本對于應測內(nèi)容與行為領(lǐng)域的代表性程度。顯然,要考察測驗題目樣本的代表性,首先就要對應測內(nèi)容與行為領(lǐng)域有明確的界定,有比較清楚的組織結(jié)構(gòu)。(二)內(nèi)容效度的分析方法內(nèi)容效度的分析方法常用邏輯分析法,即依靠有關(guān)專家對測驗題目與應測內(nèi)容范圍的吻合程度作出判斷。以考試的內(nèi)容效度分析來講,就是依靠專家來分析一份試卷的所有題目,把所有題目按考試內(nèi)容分布和考查目標分布進行雙向分類,形成實際的“題目雙向分類表”。四、結(jié)構(gòu)效度及其驗證方法(一)結(jié)構(gòu)效度的含義及其驗證的一般步驟所謂結(jié)構(gòu)(construct),是指心理學或社會學上的一種理論構(gòu)想或特質(zhì)。它本身觀察不到,并且也無法直接測量到,但學術(shù)理論假設(shè)它是存在的,以便能夠來解釋和預測個人或團體的行為表現(xiàn)??偟膩碚f,結(jié)構(gòu)效度的驗證一般包括四個步驟:第一,提出有關(guān)理論結(jié)構(gòu)的說明,并據(jù)此設(shè)計測量用的試題。第二,提出可以驗證該理論結(jié)構(gòu)存在的假設(shè)說明。第三,采用各種方法收集實際的資料,以驗證第二步提出的假設(shè)的正確性。第四,收集其他類型的輔助證據(jù),淘汰與理論結(jié)構(gòu)相反的試題,或是修正理論,并重復第二和第三步,直到上述的假設(shè)得到驗證,即測驗的結(jié)構(gòu)效度獲得支持為止。(二)結(jié)構(gòu)效度的驗證方法具體地說,結(jié)構(gòu)效度的驗證方法有以下幾種:1.測驗內(nèi)部尋找證據(jù)法(1)內(nèi)容效度(2)作答過程分析(3)測驗的同質(zhì)性(4)因素分析法2.考察測驗的實證效度法(1)差異被試比較法(2)先后測試分析法五、效標關(guān)聯(lián)效度及其估計方法(一)效標關(guān)聯(lián)效度的含義、種類及適用范圍效標關(guān)聯(lián)效度(criterionrelatedvalidity)的驗證方法是指一個測驗對于處于特定情境中的個體行為進行預測時的有效性。1.同時效度測驗分數(shù)與效標資料的取得約在同一時間內(nèi)連續(xù)完成,計算這兩種資料的相關(guān)系數(shù)即代表測驗的同時效度。2.預測效度在測驗分數(shù)取得一段時間后才獲得效標資料,計算這兩種資料間的相關(guān)系數(shù)即代表測驗的預測效度。(二)效標關(guān)聯(lián)效度的估計方法從效度估計的方法上看,效標關(guān)聯(lián)效度常用以下幾種方法進行估計:1.相關(guān)法相關(guān)法就是計算測驗分數(shù)與效標測量的相關(guān)系數(shù),具體方法有:積差相關(guān)、等級相關(guān)、點雙列相關(guān)、二列相關(guān)、四分相關(guān)、Φ相關(guān)、列聯(lián)相關(guān),等等。2.顯著差異法該方法是根據(jù)效標測量將被試分為兩個極端組(如:好與壞,成功與失敗等),然后檢驗這兩組測驗分數(shù)是否具有統(tǒng)計學上的差異顯著性。研究性學習專題國外重要的教育考試對信度和效度的標準有何要求?六、結(jié)果效度的概念與分析思想琳恩(R.L.Linn)和格朗蘭德(1995)提出效度的四個向度,即內(nèi)容效度、效標關(guān)聯(lián)效度、構(gòu)想效度和結(jié)果效度。結(jié)果效度分析主要圍繞以下幾點:(1)測驗指導手冊中對測驗目標和測驗效度的說明是否合理;(2)基于測驗結(jié)果,在給被試寫出測驗報告或推薦書時,有關(guān)推論是否恰如其分;(3)對測驗的優(yōu)點和缺點是否在應用中過于夸大其實;(4)是否把測驗用到所測特性的范圍之外;(5)基于測驗結(jié)果的解釋和推論是否符合科學原理以及測驗道德;(6)測驗結(jié)果能否給被試以及所有關(guān)注測驗結(jié)果的使用者提供有益的幫助。第三節(jié)教育測量與評價中題目(項目)的難度定量刻畫被試作答一個題目所遇到的困難程度的量數(shù),就叫題目的難度系數(shù),也常稱為難度值,用符號P表示。一、難度系數(shù)的計算方法1.二值記分題的難度值計算2.多值記分題的難度值計算3.難度值的其他計算方法(1)以全體被試失分率為難度系數(shù)(2)以兩端組被試得分率的均值為難度系數(shù)二、難度指標的等距變換為了解決難度指標的不等距問題,人們常假設(shè)每個試題所要測量的潛在特質(zhì)或能力是呈正態(tài)分布的,然后就可以根據(jù)正態(tài)分布曲線,將試題的難度值P作為正態(tài)曲線下的(概率)面積,轉(zhuǎn)換成具有相等單位的等距量表,即Z分數(shù)(標準分數(shù))。由于標準分數(shù)具有相等單位,屬于等距量表,所以,用標準分數(shù)作為題目難度的指標,為進一步作難度分析帶來了一些方便。三、測驗題目的恰當難度和恰當難度分布一般的標準化常模參照測驗,目的是要盡可能地區(qū)分被試的個別差異,因此希望測驗結(jié)果能將被試盡可能地拉開距離。在常模參照測驗中,測驗的目的是要區(qū)分學生能力或成就的高低,因此,教師所期望的難度系數(shù)以接近0.50左右為理想,此時的試題最能夠區(qū)分學生水平的高低。但是在標準參照測驗中,測驗的目的是檢驗學生是否已達到教學目標規(guī)定的掌握程度,因此,教師所期望的是學生都能夠在教學之后掌握所有的教學內(nèi)容。第四節(jié)教育測量與評價中題目(項目)的區(qū)分度一、區(qū)分度的意義題目區(qū)分度就是題目區(qū)別被試水平能力的量度,常記為D。測驗多少都帶有將被試的水平加以區(qū)分的意圖,那么構(gòu)成測驗的每一個題目就應該為這一目標作貢獻,區(qū)分度就是刻畫試題的這種功能的質(zhì)量指標。區(qū)分度的值域范圍在-1.00至+1.00之間。通常D為正值,稱作積極區(qū)分;D為負值,稱作消極區(qū)分;D為0,稱作無區(qū)分作用。具有積極區(qū)分作用的項目,其D值越大,區(qū)分的效果就越好。二、區(qū)分度的計算區(qū)分度的計算方法較多,各種方法在含義上略有差別。在使用時應根據(jù)測驗的目的以及題目記分和測驗總分的兩個變量的性質(zhì)不同,從而選擇不同的計算方法。當然,有時可以同時用幾種方法相互驗證。1.相關(guān)法區(qū)分度的實質(zhì)是題分與總分的相關(guān),因此,各種計算相關(guān)系數(shù)的方法都可以用于計算區(qū)分度。但具體采用哪一個,應根據(jù)題分、總分的數(shù)據(jù)形式而定,常用的有:(1)點雙列相關(guān)系數(shù)(2)二列相關(guān)系數(shù)(3)積差相關(guān)系數(shù)2.高低分組法在測驗分數(shù)序列中高分組、低分組被認為是兩個極端效標組。這兩個極端效標組在特定題目上的反應差別程度可以刻畫題目的區(qū)分能力。第五節(jié)教育測量與評價方案的可用性一、科學性、公平性和可行性1.科學性從測量與評價的結(jié)果來說,科學性指的是測評結(jié)果能準確地反映被測對象的真實情況,達到測量的目的,即測量要具有較高的信度和效度。2.公平性在教育測量與評價過程中,要做到公平性,首先就是測量與評價方案內(nèi)容對所有被測量與評價對象來說必須是公平的。3.可行性可行性原則是指測量與評價方案的制定符合實際,并能被人們所理解和接受。要做到這一點:第一,要求方案的制定必須充分考慮人力、物力、財力、時間、空間、技術(shù)等各種因素,只有在此基礎(chǔ)上制定的方案才可能實施。第二,測量與評價方案應具有易用性。第三,測量與評價方案應具有直接可測性或可操作性。二、針對性、區(qū)分性和簡潔性1.針對性針對性一方面指的是測量與評價的內(nèi)容及指標體系必須充分科學地反映當前教育目標或管理目標的實際需求。2.區(qū)分性區(qū)分性指的是測量與評價方案中的每一項內(nèi)容、每一個指標及其相應的評價標準,必須符合目前我國教育的實際,能夠區(qū)分和鑒別評價對象在該指標方面不同的達到程度。關(guān)鍵術(shù)語信度測量誤差重測信度復本信度同質(zhì)性信度內(nèi)部一致性信度分半信度KR20信度KR21信度評分者信度效度內(nèi)容效度結(jié)構(gòu)效度效標關(guān)聯(lián)效度難度難度系數(shù)區(qū)分度區(qū)分度指數(shù)教育測量與評價方案的可用性內(nèi)容提要與小結(jié)1.教育測量與評價的質(zhì)量特性分析主要是“四度”的分析:信度、效度、難度、區(qū)分度。另外,還應考察教育測量與評價方案的可用性。2.信度指的是測量結(jié)果的穩(wěn)定性程度,是指對無系統(tǒng)的隨機誤差的控制。測驗信度是對測驗工具及其操作的整體質(zhì)量的一種量度,是測驗性能的重要質(zhì)量指標。信度的估計方法有多種,其適用的條件不同,這是使用中應注意的問題。由于標準參照測驗的特點,其信度的估計方法有其特殊性。評分者信度指的是多個評分者給同一批人的答卷進行評分的一致性程度。3.效度是指一個測驗或量表實際能測出所要測量的特性的程度。效度是測量質(zhì)量的一個極其重要的指標,由于教育測量與評價對象的特殊性,效度的重要性更為突出。效度評價的方法主要有內(nèi)容效度、結(jié)構(gòu)效度和效標關(guān)聯(lián)效度,這三種方法指明了效度驗證過程的差異。每種方法框架內(nèi)有一些具體的方法,可視具體情況而采用。4.難度與區(qū)分度是題目質(zhì)量的兩個重要指標。它們可為編制測驗或編制測量量表提供有效的信息。題目的難度,就是被試完成題目作答任務時所遇到的困難程度。定量刻畫一個測驗項目的被試作答困難程度的量數(shù),稱為題目的難度系數(shù)。題目區(qū)分度就是題目區(qū)別被試水平能力的量度,是測驗項目有效性的指標。區(qū)分度的計算有外在效度法和內(nèi)部一致性分析法,實際應用中主要是后者,其實質(zhì)就是題分與總分的相關(guān)一致性程度。5.標準參照測驗的題目難度分析,方法上沒有什

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論