華東師大數(shù)學(xué)教學(xué)測量和評估教案02測驗的統(tǒng)計指標(biāo)

上傳人：東*** IP屬地：浙江上傳時間：2025-11-28 格式：DOC 頁數(shù)：20 大?。?80.26KB 積分：7.2 舉報 版權(quán)申訴

華東師大數(shù)學(xué)教學(xué)測量和評估教案02測驗的統(tǒng)計指標(biāo)_第2頁

華東師大數(shù)學(xué)教學(xué)測量和評估教案02測驗的統(tǒng)計指標(biāo)_第3頁

華東師大數(shù)學(xué)教學(xué)測量和評估教案02測驗的統(tǒng)計指標(biāo)_第4頁

華東師大數(shù)學(xué)教學(xué)測量和評估教案02測驗的統(tǒng)計指標(biāo)_第5頁

已閱讀5頁，還剩15頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第二章測驗的統(tǒng)計指標(biāo)根據(jù)數(shù)學(xué)教學(xué)目標(biāo)所進行的數(shù)學(xué)教學(xué)測量，主要是研究如何對學(xué)生的數(shù)學(xué)能力和數(shù)學(xué)學(xué)習(xí)水平提供客觀的、準(zhǔn)確的、穩(wěn)定的度量。數(shù)學(xué)測驗是數(shù)學(xué)教學(xué)測量的一種工具。當(dāng)前數(shù)學(xué)教學(xué)改革提出了有關(guān)測驗的類型、題型、編制和定量分析等多方面值得探索的課題。本章主要討論測驗的可靠性和有效性，題目的難度和區(qū)分度等問題。第一節(jié)信度信度是衡量測驗分數(shù)一致性或可靠性的一個指標(biāo)，即用一個或一組測驗對同一被試群體施測多次，所得結(jié)果的一致性程度，以及測驗分數(shù)所反映被試真實水平(即真分數(shù))的可靠性程度。如果對一組學(xué)生用同一個測驗實施兩次，測試的結(jié)果完全一樣，可以認為該測驗完全可靠，這時它的信度系數(shù)為1。但在現(xiàn)實中這種測驗是很難找到的。在測量心理屬性的教學(xué)測量中，與測量目標(biāo)無關(guān)的變量(或因素)對測量的不準(zhǔn)確和不一致的效應(yīng)，使這類測量產(chǎn)生各種誤差。誤差越大，信度越低；而誤差越小，信度越高。因此，確定測驗的客觀性和可靠性程度的關(guān)鍵在于控制各種誤差，使測驗?zāi)軠y出心理屬性的客觀量數(shù)，并使其具有良好的穩(wěn)定性。怎樣提高測驗的信度，是值得進一步研究的問題。一、信度的概念我們知道，影響信度的主要因素是測量中的誤差。那么誤差又是如何產(chǎn)生的呢？一般情況下，測量資料存在三種誤差。一是抽樣誤差。它是由機遇或抽樣變動而造成的誤差。它的估計值Sx是樣本標(biāo)準(zhǔn)差S與樣本容量n的算術(shù)平方根之比。由于測驗取樣容量n總是相當(dāng)大，因此Sx很小，可以忽略不計。二是隨機誤差。它是由偶然因素引起的無規(guī)律的誤差，是由心理屬性的行為反應(yīng)所造成的。三是系統(tǒng)誤差。它是由與測驗?zāi)繕?biāo)無關(guān)的某種常定因素所引起的恒定的、有規(guī)律性變化的誤差。由于這種誤差的影響，可使每個學(xué)生的得分普遍偏高或普遍偏低，但是，它在測驗成績中不會引起不一致性。因此，測驗的可靠性主要是研究如何控制隨機誤差問題。為此，我們將通過真分數(shù)、隨機誤差與所得分數(shù)的關(guān)系來揭示隨機誤差對信度的影響程度。1．真分數(shù)在無數(shù)次測驗中所得分數(shù)的期望值稱作真分數(shù)。由于測量誤差在測驗中不可避免地存在，因此，真分數(shù)只是理論上的概念。根據(jù)真分數(shù)理論，我們可以將學(xué)生個體的測驗實際得分X表示成真分數(shù)T與隨機誤差分數(shù)E的和，即X＝T＋E。真分數(shù)理論存在著兩個假設(shè)：一是真分數(shù)與誤差分數(shù)相互獨立，即真分數(shù)與誤差分數(shù)的相關(guān)系數(shù)rte為零；二是由于隨機誤差是無規(guī)律的，不會傾向于任何一個方面，所以當(dāng)測量次數(shù)n足夠大時，隨機誤差的總和為零。隨機誤差反映了在一定條件下，測驗的某一種特性。像X＝T＋E2．信度的定義信度是反映測驗成績在不同條件下一致性程度的指標(biāo)。信度在理論上被定義為：在一組測驗中真分數(shù)方差與所得分數(shù)方差之比，即這里的rxx也稱為信度系數(shù)。由上述兩式，可得信度反映了在所得分數(shù)的方差中，測驗受隨機誤差影響的程度，也就是測驗的可靠程度。由信度的理論定義可知，信度系數(shù)rxx的范圍是[0，1]。當(dāng)rxx＝0.90時，可以認為測驗所得分數(shù)中有90%的方差來自真分數(shù)的方差，僅有10%來自測量的隨機誤差。同時，所得分數(shù)的方差強調(diào)團體測驗的一致性，這就說明信度不僅與測量工具有關(guān)，而且還與受測團體有關(guān)。因此討論信度時，必須明確標(biāo)明在某種條件下，用于某一團體的測驗所具有的可靠性程度。信度的另一個涵義是：測驗所得分數(shù)與真分數(shù)的相關(guān)系數(shù)rxt之平方，就是rxx＝r2XT。信度和真分數(shù)—樣是一個無法確切知道的理論概念，只能通過一些估計的方法來推斷。一般情況下，在規(guī)模較大的測驗中，信度系數(shù)應(yīng)不低于0.90，以達到0.95為好；學(xué)校平時測驗的信度系數(shù)也應(yīng)不低于0.60。3．影響信度的因素由誤差來源可知，隨機誤差是影響信度的因素。它的主要表現(xiàn)，一是測驗內(nèi)容的自身方面，如測驗內(nèi)容取樣的多少，作答時猜測的機率，指導(dǎo)語的清晰程度；二是施測過程方面，如測驗環(huán)境，測驗時間，主試因素，意外干擾，閱卷評分；三是受測者自身方面，如應(yīng)試動機，焦慮心理，生理因素，測驗的經(jīng)驗與技巧等。除了隨機誤差以外，影響測驗信度的還有如下因素。(1)受測團體的范圍信度系數(shù)與相關(guān)系數(shù)一樣，受到分數(shù)分布范圍的影響，受測團體的水平越接近，測驗分數(shù)的分布范圍越小，隨機誤差的影響就越大，信度就越低。反之，分數(shù)分布范圍越大，信度就越高。從信度的理論定義可rxx就隨之增大。例如，在數(shù)學(xué)學(xué)科高考和會考中市重點中學(xué)、區(qū)(縣)重點中學(xué)、普通完全中學(xué)分類所得分數(shù)方差均小于全市所得分數(shù)方差，這三類學(xué)校分別的統(tǒng)計信度低于全市學(xué)?？傮w的信度。它反映了不同受測團體對信度的影響。(2)測驗的長度測驗所含題目的數(shù)量稱作測驗的長度。測驗的題目越多，測量學(xué)生水平的可靠性越高，即信度越高。在一般情況下，測驗長度增加時信度也隨之提高。如果在某個測驗中增加與該測驗同質(zhì)的試題，并且它們具有相同的難度，就可以改進信度。由斯皮爾曼－布朗(Spearman－Brown)公式可導(dǎo)出計算測驗長度的公式其中，n是增加試題后的測驗長度與原測驗長度的比率，rtt是原測驗信度系數(shù)，rnn是增加測驗長度為原測驗的n倍時的信度系數(shù)。由計算測驗長度公式可以確定一個信度較低的測驗，需要增加多少題目才能使它的信度達到預(yù)期的目標(biāo)。例如，某測驗的信度系數(shù)是0.75，要增加多少長度才能使信度達到0.90？由于所以當(dāng)原測驗信度為0.75時，測驗題量需增加至原來的3倍，才可使信度達到0.90。另一方面，當(dāng)測驗長度過長，需要刪減適當(dāng)題量，而刪減多少才不致對信度造成較大的影響，這也可利用計算公式作出斷定。(3)測驗的難度測驗的難易將會影響分數(shù)的分布范圍。測驗太易或太難都會使分數(shù)的分布范圍縮小，隨之使信度降低。這就需要研究，測驗應(yīng)該具有怎樣的難度才能提高信度。本章第三節(jié)將繼續(xù)討論這個問題。我們知道，根據(jù)解釋測驗成績的參照標(biāo)準(zhǔn)，可以把測驗劃分為常模參照測驗和標(biāo)準(zhǔn)參照測驗。在常模參照測驗中，測驗的成績以常模作為參照標(biāo)準(zhǔn)進行解釋。所謂常模，是指參加測驗的全體學(xué)生或者一個標(biāo)準(zhǔn)化樣本(經(jīng)過選擇，能代表全體學(xué)生的一個學(xué)生群體)在測驗中實際達到的平均水平。而標(biāo)準(zhǔn)參照測驗是以事先制定的標(biāo)準(zhǔn)或表示完成這一標(biāo)準(zhǔn)程度的等級分數(shù)作為參照標(biāo)準(zhǔn)解釋成績的一種測驗。以下分別討論常模參照測驗和標(biāo)準(zhǔn)參照測驗的信度。二、常模參照測驗的信度由于真分數(shù)無法直接測量，前面所述的信度定義是一種理論概念，所以只能根據(jù)測驗所得分數(shù)來推算信度。對常模參照測驗來說，主要有穩(wěn)定性信度，等值性信度和內(nèi)在一致性信度。1．穩(wěn)定性信度對一組受測者先后兩次施測同一測驗所得分數(shù)的一致性稱作穩(wěn)定性信度，它通常被表示為兩次測驗所得分數(shù)的相關(guān)系數(shù)(以下稱穩(wěn)定系數(shù))。由于兩次測驗先后進行，所以又稱為再測信度。計算穩(wěn)定系數(shù)的方法是求兩次測驗分數(shù)的積差相關(guān)系數(shù)。如果收集到的是原始數(shù)據(jù)，可用下列公式計算：其中，rtt是信度系數(shù)，x1i、x2i是第i個受測者先后兩次測驗所得分數(shù)，n是受測人數(shù)。如果收集到的數(shù)據(jù)還有兩次測驗分數(shù)的平均數(shù)和標(biāo)準(zhǔn)差，則上式為次測驗分數(shù)的標(biāo)準(zhǔn)差。在計算穩(wěn)定系數(shù)時，首測與再測時間間隔的長短應(yīng)該依據(jù)測驗的性質(zhì)、題型、題量和受測者的特點來決定。穩(wěn)定性信度適用于包含幾個相關(guān)程度很低的不同性質(zhì)內(nèi)容的測驗。穩(wěn)定性信度適用于速度測驗而不適用于難度測驗。速度測驗的測題數(shù)量較多，且有一定的時間限制，受測者很難記住前一次測驗的內(nèi)容，受記憶影響較小。難度測驗則相反。2．等值性信度兩個復(fù)份測驗之間分數(shù)的一致性稱作等值性信度，通常被表示為兩個復(fù)份測驗分數(shù)的相關(guān)系數(shù)(以下稱等值系數(shù))。所謂復(fù)份測驗是指在測驗性質(zhì)、內(nèi)容、題型、題量、難度等方面均為一致的A、B兩個測驗，這兩個測驗中的一個幾乎是另一個的復(fù)本，所以等值性信度又稱為復(fù)本信度。計算等值系數(shù)的方法是，先用A卷施測，然后在較短的時間間隔內(nèi)施測B卷，再求它們得分的積差相關(guān)系數(shù)。例如，以摸底測試和高中會考兩份試卷對高三部分學(xué)生施測，摸底測試成績?nèi)绫?－1中x1所示，高中會考成績?nèi)绫?－1中x2所示。測驗的等值性信度可以用這兩類成績的積差相關(guān)系數(shù)表示：為了排除施測的順序效應(yīng)，可以讓二分之一受測者先答A卷，再答B(yǎng)卷，另外二分之一受測者則相反。求得相關(guān)系數(shù)后，需要進行顯著性檢驗。相關(guān)系數(shù)較高的兩份測驗不一定具有“等值”的意義。由于難度不同、變異幅度不同的兩份試卷之間也可能具有較高的相關(guān)，因此，在對測驗內(nèi)容定性評價的基礎(chǔ)上，應(yīng)該考察測驗的正確反應(yīng)比率和完成測驗的時間，觀察它們之間是否存在顯著性差異。等值性信度是考察測驗可靠性的較好方法。它不僅適用于難度測驗，也適用于速度測驗。常用等值性信度作追蹤研究或探討某些影響測驗成績的因素。3．內(nèi)在一致性信度在一個測驗中，各個測題上所得成績的一致性稱作內(nèi)在一致性信度。測驗內(nèi)部的一致性是確定測驗中的所有題目是否測量了同一個心理屬性。一般情況下，可以用分半相關(guān)、庫特－理查遜(Kuder－Richardson)公式或α系數(shù)來計算內(nèi)在一致性系數(shù)。(1)分半相關(guān)當(dāng)一種測驗既無復(fù)份，又不可能重復(fù)進行時，通常用分半相關(guān)來估計測驗的信度。一個測驗施測后，將題目分成兩個假設(shè)相等但又獨立的部分，求這兩部分測驗得分的積差相關(guān)系數(shù)。它是一個測驗的分半相關(guān)量，即分半測驗信度系數(shù)rhh的估計量。整份測驗的信度系數(shù)可用斯皮爾曼－布朗公式的特殊形式來測量，即應(yīng)當(dāng)注意，在應(yīng)用上式時，分半的兩部分測驗須滿足在平均數(shù)、標(biāo)準(zhǔn)差、分布形態(tài)、測題間相關(guān)、內(nèi)容、形式和題數(shù)都相似的假設(shè)條件。否則，測驗的信度估計將會產(chǎn)生誤差。如果用下列兩個公式，則不需要滿足上述假設(shè)。弗拉南根(Flanagan)公式：方差。盧龍(Rulon)公式方差。例如，對初中二年級學(xué)生進行“相似形”測驗，用0、1評分法，其測驗結(jié)果如表2－2。試估計該測驗的信度。將測驗題奇偶分半后，求出每個學(xué)生奇偶題的分數(shù)之差，再計算其差數(shù)和測驗分數(shù)的方差。由盧龍公式，得所以，該年級學(xué)生“相似形”測驗的信度為0．65。(2)庫德－理查遜公式由于一個測驗的兩分方法很多，因此求得的信度系數(shù)也不相同。用庫德－理查遜公式計算內(nèi)在一致性信度，可以避免由于任意分半而造成的偏差，當(dāng)題目以0、1評分時尤為合適。應(yīng)用庫德－理查遜公式須滿足的假設(shè)與斯皮爾曼－布朗公式的相同。庫德－理查遜(K－R20)公式：人數(shù)的比率；qi＝1—pi，是第i題答錯人數(shù)的比率；n是題目數(shù)。仍以表2－2的測驗成績?yōu)槔傻玫揭韵陆y(tǒng)計結(jié)果：用K－R20公式計算，可得到：如果題目難度接近，可以應(yīng)用K－R21公式：由于分半信度是根據(jù)被分成相等的兩部分測驗計算的，它們之間的同質(zhì)性較強；K－R公式是根據(jù)對測驗試題的答對與答錯兩部分計算的，它們之間異質(zhì)性較強。因此，所求信度系數(shù)后者較低，尤其是用K－R21公式，所得信度系數(shù)更低些。(3)α系數(shù)當(dāng)測驗題目是多值評分時，克倫巴赫(Cronbach)提供了更通用的公式：，在通常情況下，當(dāng)測驗是同質(zhì)性時，其內(nèi)在一致性信度較高；當(dāng)測驗是異質(zhì)性時，其穩(wěn)定性信度較高。上述三種估計信度的方法主要用于衡量學(xué)生的相對水平，區(qū)分他們之間差異的常模參照測驗。它們都是研究教育測驗的一致性程度，不同的是研究的側(cè)面各不相同。穩(wěn)定性信度是估計不同時間測驗的一致性；等值性信度是估計不同形式測驗的一致性；內(nèi)在一致性信度是估計一個測驗中，在不同測題上所得分數(shù)的一致性。三、標(biāo)準(zhǔn)參照測驗的信度標(biāo)準(zhǔn)參照測驗強調(diào)注重于考查學(xué)生對教學(xué)內(nèi)容熟練掌握的程度，在教與學(xué)各個環(huán)節(jié)處理得較好或較差的情況下，受測團體的水平將比較一致，測驗分數(shù)的分布范圍比較小。這樣，既使測驗具有一定的穩(wěn)定性或可靠性，它的信度系數(shù)仍然較低。根據(jù)標(biāo)準(zhǔn)參照測驗的特點，可用下面較為簡便的方法估計信度。1．階段比較法對數(shù)學(xué)學(xué)科內(nèi)部某一分支的標(biāo)準(zhǔn)參照測驗，可用階段比較法來判斷測驗的信度。例如，施測“不等式”的內(nèi)容。先對學(xué)生進行“不等式的性質(zhì)”的標(biāo)準(zhǔn)參照測驗，鑒別出學(xué)生通過和未通過的類別。學(xué)生經(jīng)過下一階段的學(xué)習(xí)，再進行“不等式證明”的標(biāo)準(zhǔn)參照測驗。如果前階段通過的學(xué)生中后階段未通過的比率較高，經(jīng)過考察，發(fā)現(xiàn)這些學(xué)生不會證明的原因，是由于沒有真正熟練掌握不等式的性質(zhì)，那么說明前階段的測驗可靠性較低。階段比較法還適用于同一知識內(nèi)容在不同時期(或不同水平上)的標(biāo)準(zhǔn)參照測驗。例如，先對學(xué)生施測較低水平的標(biāo)準(zhǔn)參照測驗，找出通過的學(xué)生，經(jīng)過一段時間學(xué)習(xí)，再用較高水平的標(biāo)準(zhǔn)參照測驗施測。如果第一次測驗通過的學(xué)生已具備學(xué)習(xí)下階段內(nèi)容的條件，他們在下階段學(xué)習(xí)中又確實取得成功，也就是說，在第一次測驗通過的學(xué)生中第二次測驗達到熟練掌握的學(xué)生人數(shù)比率較高，那么說明該測驗信度較高。2．比率系數(shù)估計法以甲、乙兩個復(fù)份的標(biāo)準(zhǔn)參照測驗對同一組學(xué)生施測，用兩個測驗都通過和都未通過的人數(shù)之和與該組學(xué)生總數(shù)之比作為測驗的信度系數(shù)。根據(jù)表2－3，信度系數(shù)為：如果兩次測驗都通過與都未通過的人數(shù)之和與總?cè)藬?shù)之比的比值較高，可以認為測驗具有穩(wěn)定性。

第二節(jié)效度在物理測量中，使用某種合適的測量工具測量物體所獲得的數(shù)量資料(即數(shù)值與單位)可以對所要測量物體的屬性給出明確的意義。但在教學(xué)測量中，用分數(shù)描述行為反應(yīng)的心理屬性，它的意義就不那么明確了。例如，學(xué)生的某次數(shù)學(xué)測驗成績是依賴他們掌握語文或物理的知識和能力所得到的，那么這次數(shù)學(xué)成績在很大程度上并不能反映所要測量的邏輯思維、運算和空間想象等方面的心理屬性。因此，需要考察測驗到底測量了哪些心理屬性，對這些心理屬性能夠測量到什么程度，這就是測驗的有效性。為了估計測驗的有效性，需要建立參照標(biāo)準(zhǔn)。我們常常把反映某種屬性的有效客觀標(biāo)準(zhǔn)稱作效標(biāo)。它可用一份測驗卷來體現(xiàn)，用這份測驗卷去測試學(xué)生稱作效標(biāo)測量，由此得到的分數(shù)稱作效標(biāo)分數(shù)。一個測驗的有效性，必須著眼于該測驗本身所具有的獨特的目的、功能和適用范圍。對于某種獨特的目的、功能和適用范圍是正確、有效的測驗，對另一種目的，功能和適用范圍可能就是不正確、無效的。不存在對于任何目的、功能和適用范圍都有效的測驗。此外，由于測驗是通過行為樣本，對特定的某種屬性作間接測量，它只能達到某種程度的正確性，一般用兩個測驗分數(shù)之間的相關(guān)系數(shù)表示，這種相關(guān)程度越高，可稱該測驗的效度越好。因此，只有程度上的不同而不存在全有或全無的差別，而且測驗的有效性是相對的。一、效度的概念1．效度的定義我們知道，個體的測驗分數(shù)可以表示成真分數(shù)與誤差分數(shù)之和。根據(jù)真分數(shù)理論，可以進一步將真分數(shù)表示成與測驗?zāi)康挠嘘P(guān)的有效分數(shù)V和與測驗?zāi)康臒o關(guān)的系統(tǒng)誤差分數(shù)SE之和：T＝V＋SE。這樣，個體的測驗分數(shù)可表示成X＝V＋SE＋E。對于團體的測驗分數(shù)方差，相應(yīng)地有以下關(guān)系：效度是測驗有效性或準(zhǔn)確性的指標(biāo)，在理論上被定義為：有效分數(shù)方差與測驗所得分數(shù)方差之比，即這里，Val表示效度系數(shù)。由效度的理論定義可以知道，效度系數(shù)Val的范圍是［0，1］。由于效度分析可以針對各種要求和運用各種程序，而在特定的條件下，使用不同的分析方法可以得到不同的效度。因此，一個測驗可以具有不同的效度指標(biāo)。當(dāng)我們討論一個測驗的效度時，只有界定了它的條件，效度才有確切的意義。2．效度與信度的關(guān)系由測驗分數(shù)方差的關(guān)系式可以知道，效度的提高受到信度的制約。效度高的必要條件，但不是充分條件。另一方面，降低信度，也會使效度降低。例如，測驗信度和它的效標(biāo)測量信度降低時，會使測驗和效標(biāo)之間的相關(guān)程度減弱(即效度降低)。為了估計測驗與效標(biāo)真分數(shù)之間的相關(guān)系數(shù)，可以用如下公式校正。式中，rc是測驗與效標(biāo)真分數(shù)的相關(guān)系數(shù)，rxy是實得的測驗分數(shù)與效標(biāo)分數(shù)之間的相關(guān)系數(shù)，rxx、ryy分別是測驗和效標(biāo)測量的信度。由于相關(guān)系數(shù)|rc|≤1，所以由上式可知當(dāng)效標(biāo)測量信度未知時，用其最大值代入，則有由此可知，效度系數(shù)的最大值為信度系數(shù)的算術(shù)平方根。3．影響效度的因素影響測驗的效度除了有測驗本身、測驗實施過程、被試主觀狀態(tài)等因素外，還有以下主要因素。(1)受測樣本測驗的效度系數(shù)是依據(jù)樣本中的受測者在測驗和效標(biāo)上的得分，求其相關(guān)系數(shù)而得到的。一個測驗施測于不同的樣本，由于受測者在年齡、文化程度以及經(jīng)驗背景上的差別，效度就會隨之不同，因此，受測樣本的選取是用來考察效度所依據(jù)的重要因素。例如，初中學(xué)業(yè)成就測驗，用初三畢業(yè)生的成績作受測樣本確定效度才是合理的。樣本容量的大小與效度系數(shù)的高低有一定關(guān)系。樣本容量越大，測量誤差就會有相互抵消的趨勢，由此會有助于提高測驗和效標(biāo)測量的信度，同時有助于提高效度系數(shù)。此外，樣本的同質(zhì)性也會影響效度系數(shù)。當(dāng)測驗的其他條件均相同時，樣本的測驗分數(shù)和效標(biāo)分數(shù)分布范圍越小，則效度系數(shù)就越小。因此，隨機抽樣可以保證樣本中受測者的異質(zhì)性，有利于提高效度系數(shù)。在估計預(yù)測效度時，如果測驗分數(shù)的樣本范圍縮小，則會因測驗分數(shù)分布范圍的縮小而低估了測驗的效度。例如，以高一數(shù)學(xué)期末考試的成績?yōu)樾?biāo)，估計初中升學(xué)考試的預(yù)測效度時，以進入高中的學(xué)生作為樣本來計算二者的相關(guān)系數(shù)，卻沒有包括參加升學(xué)考試但在中專、技校、職校中學(xué)習(xí)和未進入各類學(xué)校的學(xué)生，這樣就縮小了效標(biāo)成績的分布范圍，因而會低估它的預(yù)測效度。為此可用公式

予以校正。式中，r是校正后的效度系數(shù)，r′是樣本范圍受到條件限制時的效度系數(shù)，Sx、S′x分別是兩個樣本范圍內(nèi)測驗分數(shù)的標(biāo)準(zhǔn)差。(2)效標(biāo)選擇適當(dāng)?shù)男?biāo)是統(tǒng)計效度的先決條件。一個測驗由于采用的效標(biāo)不同，其效度可能會大相徑庭。甚至，由于效標(biāo)選擇不當(dāng)，可能導(dǎo)致無法衡量測驗的效度。二、常模參照測驗的效度對常模參照測驗來說，主要有效標(biāo)關(guān)聯(lián)效度、內(nèi)容效度和結(jié)構(gòu)效度。1．效標(biāo)關(guān)聯(lián)效度測驗的效標(biāo)又可稱為準(zhǔn)則，它是衡量測驗效度的參照標(biāo)準(zhǔn)。既然是參照標(biāo)準(zhǔn)，就必須充分反映所要測量的屬性，并且是獨立于該測驗的“標(biāo)準(zhǔn)尺子”，而不是根據(jù)被檢驗的測驗制定的尺子，否則就會誤入“循環(huán)”的圈子。我們可以用一類標(biāo)準(zhǔn)化測驗作為某次測驗的效標(biāo)。由于標(biāo)準(zhǔn)化測驗是一種取樣范圍大，覆蓋面寬，并經(jīng)過專家鑒定和權(quán)威性機構(gòu)認定的測驗(如國家級高考、省級各類會考等)，所以它具有有效的客觀標(biāo)準(zhǔn)效應(yīng)。選擇適當(dāng)?shù)男?biāo)是件既重要又困難的工作，需要根據(jù)不同的測驗類別有區(qū)分地加以選擇。例如教學(xué)測驗可以采用相應(yīng)的學(xué)科成績或教師評定的等級作為效標(biāo)，但不能用某種特殊能力或特殊訓(xùn)練的成績作效標(biāo)。效標(biāo)還可能隨著時間和個別差異的變化而改變。因此，效標(biāo)需要有一定的可靠性(即信度)。測驗對效標(biāo)行為具有代表性的程度或進行預(yù)測的有效程度稱作效標(biāo)關(guān)聯(lián)效度(又可稱準(zhǔn)則關(guān)聯(lián)效度)。這里以測驗分數(shù)與其效標(biāo)分數(shù)之間的相關(guān)系數(shù)來表示效度系數(shù)。根據(jù)效標(biāo)資料收集的時間，又可分為共時效度和預(yù)測效度。共時效度的效標(biāo)資料可以與測驗同時收集，它是以測驗分數(shù)與現(xiàn)有效標(biāo)分數(shù)之間的相關(guān)系數(shù)表示效度，所關(guān)心的是測驗是否取代了效標(biāo)的有效性。預(yù)測效度的效標(biāo)資料需要經(jīng)過一定時間以后才能收集，它是以測驗分數(shù)與其未來效標(biāo)分數(shù)之間的相關(guān)系數(shù)表示效度，所關(guān)心的是受測者的測驗分數(shù)對于其未來成就預(yù)測的有效程度。由于測驗分數(shù)和效標(biāo)分數(shù)這兩個變量的類型不同，兩者的相關(guān)系數(shù)計算方法也不同。以下介紹幾種常用的方法。①積差相關(guān)法當(dāng)測驗分數(shù)和效標(biāo)分數(shù)是連續(xù)變量時，可以用這兩組分數(shù)的積差相關(guān)系數(shù)表示效度系數(shù)。例如，在高考前幾天，用一套數(shù)學(xué)測試卷對某校高三15名學(xué)生施測，并以這些學(xué)生的數(shù)學(xué)高考成績?yōu)樾?biāo)(見表2－4)，試估計高三數(shù)學(xué)測試卷的效標(biāo)關(guān)聯(lián)效度。將有關(guān)的數(shù)據(jù)代入積差相關(guān)公式，得r＝0．72。因此，該校高三數(shù)學(xué)測試題的效標(biāo)關(guān)聯(lián)效度為0．72。然后必須對r的值進行顯著性檢驗。假設(shè)這樣的兩個變量不相關(guān)，則統(tǒng)計量服從自由度f＝n－2的t分布。給定顯著性水平α，比較用上式計算得關(guān)，否則不顯著相關(guān)。對這兩次測驗來說，r＝0．72，n＝15，通過計算，得t＝3．7408。給定顯著性水平α，查表得t0.025(13)＝2．1604。可見|t|＞t0.025(13)。因此，這兩次測驗的成績顯著相關(guān)。(2)二列相關(guān)法若測驗分數(shù)和效標(biāo)分數(shù)是兩個正態(tài)的連續(xù)變量，并且由于某種原因被分為兩個類別(如學(xué)校被分為重點和非重點，學(xué)生被分為及格和不及格等)，測驗的效標(biāo)關(guān)聯(lián)效度系數(shù)可用二列相關(guān)系數(shù)公式求得。其中，rb是二列相關(guān)系數(shù)，p是兩個類別中某一類別的頻率，q變量的平均數(shù)，St是連續(xù)變量的總體標(biāo)準(zhǔn)差，y為正態(tài)曲線下p值縱線的高度。二列相關(guān)系數(shù)公式還有另一種形式當(dāng)測驗分數(shù)和效標(biāo)分數(shù)中有一個是連續(xù)變量，另一個為兩個類別變量或該變量的分布是雙峰分布時，可用點二列相關(guān)系數(shù)公式(3)等級相關(guān)法當(dāng)測驗分數(shù)和效標(biāo)分數(shù)(或其中一個)以等級次序表示時，效標(biāo)關(guān)聯(lián)效度系數(shù)可以用等級相關(guān)系數(shù)公式求得。其中，r是等級相關(guān)系數(shù)，di是第i個測驗分數(shù)和效標(biāo)分數(shù)的等級差，n是受測人數(shù)。2．內(nèi)容效度測驗的題目對所要測量的內(nèi)容具有代表性的程度稱作內(nèi)容效度。它反映測驗題目在所要測量的內(nèi)容范圍和教學(xué)目標(biāo)內(nèi)取樣是否充分和確切的問題，主要用于學(xué)科成績測驗。內(nèi)容效度一般不用數(shù)量化指標(biāo)來表示，主要依靠在某種依據(jù)的基礎(chǔ)上作出邏輯分析。為了提高測驗的內(nèi)容效度，首先要注意界定測驗的內(nèi)容范圍，其次要注意基于經(jīng)驗判斷基礎(chǔ)上的系統(tǒng)取樣。目前，大多數(shù)學(xué)科成績測驗的編制者根據(jù)教學(xué)目標(biāo)的分類，先擬就測驗的藍圖，將各部分內(nèi)容和教學(xué)目標(biāo)各層次按確定的比重表達出來，然后編制測題，以滿足提高內(nèi)容效度的要求。評價內(nèi)容效度，一般由學(xué)科專家根據(jù)所要測量的心理屬性和內(nèi)容范圍的界定，以及各部分內(nèi)容、認知層次的比重，用分析的方法對測驗作出判斷。如果專家認為，不僅每個測題，而且整個測驗與預(yù)期的測量屬性之間吻合程度較高，那么測驗具有較高的內(nèi)容效度，否則就認為內(nèi)容效度較低。這種評價方法缺乏數(shù)量化指標(biāo)，可能帶有一定的主觀性。由于不同的專家對同一門學(xué)科的內(nèi)容范圍和教學(xué)目標(biāo)可能有不同的理解，不同的專家對同一個測題的性能也可能有不同的理解，因此，對整個測驗的內(nèi)容效度所作的判斷就有可能不一致，但在現(xiàn)階段，它還是一種簡單而又容易操作的方法。在有些情況下，可以借助比較平均數(shù)差異的顯著性來評價內(nèi)容效度。對同一組受測者用一個測驗的兩個復(fù)本在教學(xué)或訓(xùn)練前后施測，該測驗內(nèi)容的有效性可以由兩次測驗成績差異的顯著性加以判斷。若兩次測驗分數(shù)的平均數(shù)之差在統(tǒng)計上有顯著性差異，則表明測驗所測量的內(nèi)容正是教學(xué)或訓(xùn)練的內(nèi)容，可以認為測驗內(nèi)容具有有效性。反之，可以認為內(nèi)容效度較低或缺乏有效性。如果用效標(biāo)關(guān)聯(lián)效度表示測驗的有效性，雖然不需要考察測驗的內(nèi)容效度，但是對于效標(biāo)的測量仍然要考察它的內(nèi)容效度。3．結(jié)構(gòu)效度測驗對假設(shè)的理論概念或心理屬性測量的有效程度稱作結(jié)構(gòu)效度。對于這些理論概念或心理屬性所決定的行為反應(yīng)的潛在特性，無法給予操作性的定義。實際上沒有效標(biāo)能夠測量這些假設(shè)的心理屬性，只能尋求其他方法估計效標(biāo)分數(shù)。評價結(jié)構(gòu)效度的目的在于從心理特性的理論觀點上對測驗的結(jié)果加以解釋和探討。確定結(jié)構(gòu)效度的方法，一般是根據(jù)某種結(jié)構(gòu)理論提出各項心理屬性或行為的假設(shè)結(jié)構(gòu)，編制測驗，然后以測驗結(jié)果為依據(jù)，運用相關(guān)、因素分析或?qū)嶒灥确椒ǎ炞C測驗結(jié)果是否符合上述假設(shè)結(jié)構(gòu)。推算結(jié)構(gòu)效度，常用下面的方法。(1)測驗內(nèi)容法用測驗的內(nèi)容和考查要求規(guī)定所要測量的結(jié)構(gòu)性質(zhì)，它的內(nèi)容效度就為結(jié)構(gòu)效度提供了依據(jù)。例如，在編制考查空間想象能力的測驗時，將內(nèi)容和要求描述成：畫水平放置的平面多邊形直觀圖；敘述兩條異面直線公垂線及距離的定義；判斷異面直線所成角的大?。蛔C明直線和平面平行的判定定理，并能將線面平行與線線平行互相轉(zhuǎn)化；用線面垂直的定義和判定定理進行證明和計算；用三垂線定理及其逆定理進行證明和計算；判斷兩個平面的位置；根據(jù)二面角及其平面角的定義進行計算和證明。上述內(nèi)容和考查要求可提供該測驗的結(jié)構(gòu)效度。它由畫空間直觀圖的技能、邏輯推理能力和空間想象能力所組成，同時給出了該測驗由教學(xué)目標(biāo)的各水平層次所組成的認知結(jié)構(gòu)效度。這種方法是通過研究測驗的內(nèi)容結(jié)構(gòu)來界定所測量的結(jié)構(gòu)框架。(2)相關(guān)系數(shù)法對同一組受測者施測新編制的、需要確定其結(jié)構(gòu)的測驗與已知其結(jié)構(gòu)效度的測驗，求它們所得分數(shù)的相關(guān)系數(shù)。如果相關(guān)程度高，則表明新編制測驗與已知結(jié)構(gòu)的測驗具有相同的結(jié)構(gòu)效度。反之，兩個測驗測量的結(jié)構(gòu)效度不同。(3)因素分析法評價結(jié)構(gòu)效度最主要、最精確的方法是因素分析(有關(guān)因素分析的原理和方法，可見參考書［12］)。應(yīng)用因素分析可確定一個測驗測量了哪幾個主要的心理因素，這些因素在總方差中所占的比率。因素分析是一種多元統(tǒng)計分析方法。它可以將觀察得到的一組隨機變量xi用另一組隨機變量fj來表示：當(dāng)m＜n時，變量fj就是變量xi的因素，一般稱為公共因素，aij是xi在fj上的負荷，Ei是誤差。這些公共因素不可能直接觀察到，它們包含在可觀察的變量之中，并且決定著可觀察變量，是測驗中最基本的變量。因素分析的功能在于使人們可以在眾多的變量中確定少量且又十分重要的幾個互相正交的因素向量，同時最大限度地解釋這組變量的總方差。因素分析的“因素抽取”步驟就是確定因素向量的過程；“向量旋轉(zhuǎn)”步驟是為了使得到的因素有比較明確的涵義，以便對公共因素作出合理的解釋。例如，全國初中數(shù)學(xué)教學(xué)抽樣調(diào)查(測試題見附件一)通過對測驗分數(shù)進行因素分析，得因素矩陣如表2－5所示。由上表可知，因素I反映了數(shù)學(xué)基本能力，它對單位方差的貢獻率達68．7%；因素II反映了靈活與綜合運用知識探究問題的能力，它對單位方差的貢獻率為29%。這兩個因素的累積貢獻率達97．7%，可以認為這次測試所測量的數(shù)學(xué)能力基本由上述兩個因素構(gòu)成，其結(jié)構(gòu)效度既明確又完善。三、標(biāo)準(zhǔn)參照測驗的效度標(biāo)準(zhǔn)參照測驗主要是檢查學(xué)生的學(xué)習(xí)效果，考察學(xué)生對規(guī)定的內(nèi)容掌握得如何，或是否達到某種標(biāo)準(zhǔn)。如果全體學(xué)生都已經(jīng)掌握，他們所得分數(shù)的方差是零。根據(jù)影響效度的因素——受測團體同質(zhì)性可知，即使這類測驗再有效，效標(biāo)關(guān)聯(lián)效度系數(shù)也不會高。所以，標(biāo)準(zhǔn)參照測驗的主要評價方法是內(nèi)容效度。此外，還可以考察測驗的分數(shù)，是否能區(qū)分以效標(biāo)行為水平所界定的不同的團體來確定效度。例如，中學(xué)數(shù)學(xué)某一內(nèi)容的測驗是以“及格“和“不及格”評定學(xué)生成績的，那么效標(biāo)行為水平將學(xué)生分成及格與不及格兩組。如果兩組受測者在測驗分數(shù)上有顯著性差異，則可認為測驗是有效的，即測驗可對效標(biāo)水平進行“質(zhì)”的區(qū)分。例如，以60分為及格線，根據(jù)效標(biāo)成績將學(xué)生分為及格和不及格兩組，其成績統(tǒng)計數(shù)據(jù)如表2－6。利用獨立小樣本統(tǒng)計量求得t＝3．964，查t分布表，t0.05＝2．048，df＝28，因為t＝3．964＞t0.05＝2．048，于是表明，根據(jù)效標(biāo)成績劃分的兩組學(xué)生在測驗成績上有顯著性差異，因此，該測驗具有有效性。

第三節(jié)難度和區(qū)分度一個測驗的信度和效度在很大程度上取決于該測驗的題目參數(shù)(難度和區(qū)分度)，編制和篩選具有適當(dāng)參數(shù)的題目是改善測驗信度和效度的前提。在通常情況下只要討論常模參照測驗中題目的難度和區(qū)分度。一、難度受測團體中被試者在答案范圍內(nèi)回答題目的程度稱為難度。一般用難度指數(shù)p表示題目的難度。1．題目難度的計算當(dāng)題目的評分為多值時，受測者的得分可能是x(x＝1，2，…，n，n為該題滿分數(shù))。所謂難度指數(shù)(有時也稱得分率)，就是該題平由此可見，平均分越高，p值越大，題目的難度越??；平均分越低，p值越小，題目的難度越大。當(dāng)題目為二值評分(即0、1評分)時，上式可變形為其中，N是答題人數(shù)，R是答對人數(shù)。這種難度指數(shù)也稱為通過率，一般用于是非題或多項選擇題。由通過率可知，答對人數(shù)越多，p值越大，題目的難度越?。淮饘θ藬?shù)越少，p值越小，題目的難度越大。形式為多選一的選擇題有多個可能的答案供受測者選擇。選擇正確答案的人數(shù)可能會受猜測機遇的影響，可供選擇的答案越少，這種機遇的影響就越大。對此，可以用公式對難度指數(shù)p進行校正。其中，Cp是校正后的難度指數(shù)，p是校正前的難度指數(shù)，k是每個題目可供選擇的答案數(shù)。2．題目難度的等距量表在進行測量時，用來表示一些對象和事件的某些特征的指標(biāo)稱作量表。根據(jù)不同的單位和參照點，從低級到高級，從模糊到精確，可以用不同的量表表示。用平均得分比率或答對人數(shù)比率表示難度，僅說明事物含有某種屬性的多少，它是無相等單位，不具有等距性和可加性的順序量表。這種量表只能表示事物間的大小、次序關(guān)系，不能反映兩個比率間的數(shù)量差異。我們可以把這種量表轉(zhuǎn)換成不僅有大小關(guān)系，而且有相等單位和規(guī)定參照點的等距量表，使其能表示題目之間難度差異的大小。美國教育測驗服務(wù)處(ETS)采用的難度指數(shù)為Δ＝13＋4Z，其中，Δ是正態(tài)化的等距難度指數(shù)，13是平均數(shù)，4是標(biāo)準(zhǔn)差，Z是標(biāo)準(zhǔn)正態(tài)曲線下的面積(即p值)所對應(yīng)的值。轉(zhuǎn)換后的難度指數(shù)介于1～25之間，不會出現(xiàn)負值。題目的難度指數(shù)以多少為宜，以及它與方差、測驗信度、效度、成績分布的關(guān)系，都是值得進一步研究的問題。3．難度指數(shù)與方差的關(guān)系當(dāng)題目以0、1評分時，難度指數(shù)p是N個受測者中答對人數(shù)的平均數(shù)。即∑x＝Np。答對分數(shù)的平方和是∑x2＝12＋12＋12＋…＋02＋02＝Np。由原始數(shù)據(jù)計算方差，得＝p－p2＝p(1－p)＝pq。由此可知，答對人數(shù)比率與答錯人數(shù)比率之積正是題目得分的方差。4．難度對信度與效度的影響我們知道，測驗總分的方差可由各個題目的方差和協(xié)方差求得，其中，pi、qi分別是題目i答對與答錯人數(shù)的比率，rij是題目i和題目j之間的相關(guān)系數(shù)。上式可變形為注意到，這等式的左邊就是K－R20公式的分子，當(dāng)rij增大時，等式右邊隨之增大，K－R信度系數(shù)也增大。這說明提高題目間的相關(guān)程度，使題目間的難度接近時，信度系數(shù)就會提高。但是，預(yù)測效度又要求題目的難度有所差異，差異越大，效度越高。也就是說，難度接近的題目對預(yù)測效度不利?？梢姡瑑?nèi)在一致性信度與預(yù)測效度之間存在著矛盾。因此實施一個測驗，應(yīng)該根據(jù)測驗的目的，使上述矛盾的兩個方面保持合理的得失。5．難度與測驗分數(shù)的分布對于一個測驗，不能為了追求高信度，使每個題目的難度都很接近，也不能為了追求高效度，而使題目的難度從最易到最難全都涉及。在一般情況下，標(biāo)準(zhǔn)化的樣本組所構(gòu)成的測驗分數(shù)分布呈正態(tài)分布(圖2－1)；如果題目太難，頻數(shù)集中于分布的左側(cè)，呈現(xiàn)正偏態(tài)(圖2－2)；如果題目太易，頻數(shù)集中于分布的右側(cè)，呈現(xiàn)負偏態(tài)(圖2－3)。測驗中各個題目的難度必須與測驗的性質(zhì)、目的相協(xié)調(diào)。如果是篩選尖子的數(shù)學(xué)競賽，應(yīng)該盡可能有相當(dāng)難度的題目；如果為選拔學(xué)生進入高一級學(xué)校學(xué)習(xí)的能力測驗或?qū)W業(yè)成就測驗，應(yīng)盡量使題目的難度適中；如果是教學(xué)狀態(tài)測驗，應(yīng)以基本的、難度較低的題目為主。盡管難度適中的測驗以難度指數(shù)0.5為宜，但并不是一個測驗每一題的難度都為0.5。因為這會使測驗分數(shù)的分布呈雙峰狀態(tài)，50%的學(xué)生將所有題目都答對，另外50%的學(xué)生將所有題目都答錯。測驗題的難度應(yīng)有合理的分布，如分布在0.30～0.70，這樣可使測驗的成績接近正態(tài)分布，并使測驗的難度適中。二、區(qū)分度題目對受測者作答反應(yīng)的鑒別程度稱為區(qū)分度。它是題目對受測者心理屬性進行區(qū)分能力的指標(biāo)。題目區(qū)分度的高低意味著測題對于能力強與弱的學(xué)生在測驗分數(shù)上區(qū)分和鑒別度的高低。因此，它是編制常模參照測驗中篩選題目的主要指標(biāo)。1．題目區(qū)分度的計算根據(jù)測驗題目和已經(jīng)具備的數(shù)據(jù)資料可以確定題目的區(qū)分度。(1)分組法將受測團體按某題目得分的高低排列，取

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

華東師大數(shù)學(xué)教學(xué)測量和評估教案02測驗的統(tǒng)計指標(biāo)

文檔簡介

溫馨提示

最新文檔

評論

華東師大數(shù)學(xué)教學(xué)測量和評估教案02測驗的統(tǒng)計指標(biāo)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔