下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第五章 測試與測試理論,測試與測試理論,測量的意義與分類 教育測量一般概念及量表 測量數(shù)據(jù)的記述與處理 項目反應理論 項目反應理論的應用,一、測量的意義和分類,狹量測試:針對具體的技能、知識、能力、適應性等特性的測試,1、測量的分類,器具測試與筆紙測試 客觀測試與非客觀測試 綜合測試與分析測試 標準測試與非標準測試 集團基準測試與達到基準測試,二、教育測量一般概念及量表,測量:根據(jù)一定規(guī)則用數(shù)字對事物的特性加以描述和確定的過程。,測量包含,1)要明確被測量對象的屬性或性質(zhì) 2)確定能使這些屬性顯示出來并又可以被感知的一系列操作 3)制定一個程序使得結(jié)果可以量化,1、教育測量的一般概念,參照點計
2、算的起點,有絕對零點和相對零點(人為定的參照點)。 教育測量中的參照點為相對零點。,單位測量的基礎。理想單位的條件: 要有確定的意義;具有相等的價值,?,教育測量:根據(jù)教育目標的要求,按一定規(guī)則用數(shù)字對教育效果加以描述和確定的過程。,即,遵照教育學、心理學和測量學的理論和原則,通過各種測驗來確定由于教育引起的學生知識、能力變化的方向和數(shù)量。,間接測量。通過測量學生對所學知識的掌握程度來了解其智力或?qū)W業(yè)水平的現(xiàn)狀和發(fā)展情況。,測量的結(jié)果是相對的。學生學業(yè)成績只有在某種標準的比較中才有意義。只有把它們和集體的平均水平比較,或者和教學計劃規(guī)定的教學內(nèi)容、教學目標比較,才能確定測驗分數(shù)的含義。,2、教
3、育測量的量表,量表測量工具。具有一定單位和參照點的連續(xù)體,為獲得有用的數(shù)據(jù)而設計。,根據(jù)精確度,1)類別(稱名)量表 2)等級(順序)量表 3)等距(間隔)量表 4)等比(比率)量表,1)類別量表,對被測對象進行分類,并賦予各類以不同的符號。,類之間只具有“質(zhì)”的差別而不具有“量”的差別。,功能,標記 分類,適用的統(tǒng)計,百分比 卡方檢驗,2)等級量表,數(shù)字或符號表示測量對象在某一屬性上的順序或等級關(guān)系。,不表明各數(shù)字間的差距相等,不能進行四則運算。,適用的統(tǒng)計,中位數(shù) 百分位數(shù),3)等距量表,具有類別量表和等級量表的性質(zhì)外,還具有連續(xù)數(shù)量之間的差距相等。,數(shù)值間不能進行乘除運算,但可以進行加減
4、運算。量表的數(shù)值加或減一個常數(shù)或用一個常數(shù)乘除,不會破壞原有數(shù)據(jù)間的關(guān)系。,適用的統(tǒng)計,均數(shù) 相關(guān)系數(shù) Ft檢驗,教育測量,4)等比量表,具有最高的水平量度,除了具有前三者性質(zhì)外,還具有絕對零度,可進行四則運算。,物理測量,心理測量中,反應時間屬于該類。,教學與時間數(shù)據(jù)進行分析即可采用等比量表。,3、教育測量的誤差,測量誤差:在測量過程中由與目的無關(guān)的因素產(chǎn)生的不準確的或不一致的結(jié)果。,隨機誤差:,系統(tǒng)誤差:,由與測量目的無關(guān)的偶然因素引起的變化無規(guī)律的誤差,由與測量目的無關(guān)的因素引起的恒定的有規(guī)律的誤差,經(jīng)典測量理論關(guān)于誤差三個假設,1)測驗的觀察分數(shù)X可看作真分數(shù)T和測驗誤差分數(shù)E的線性組
5、合; 2)誤差分數(shù)E的數(shù)學期望為0; 3)任何兩次測量所產(chǎn)生的誤差相互獨立。,誤差的來源,1)測驗自身所引起的誤差; 2)測驗過程所引起的誤差; 3)被試本身所引起的誤差。,三、測量數(shù)據(jù)的記述和處理,(一)測量數(shù)據(jù)的統(tǒng)計測度,1、平均值、分散和標準偏差,方差(分散)S2x,測量得分的分散程度,變異數(shù),標準偏差Sx,2、協(xié)方差和相關(guān)系數(shù),協(xié)方差Sxy,相關(guān)系數(shù)xy,xy,Sxy,Sx,Sy,(二)測量數(shù)據(jù)應具備的特性,1、測量的誤差模型,xi測試值 ti 真值 ei 測量誤差,xitiei,N足夠多,若測量誤差與得分真值間是完全獨立的,則:,Ste,0,N,1,i=1,N,(ti+ei),(ti
6、+e)2,S2t,+,S2e,+,2Ste,S2t,+,S2e,2、測量的信度,信度:當一個測驗多次測量的結(jié)果一致或穩(wěn)定時,它就被認為是可靠的。而估計測量一致性或穩(wěn)定性程度的指標,稱為信度。,即指:測驗中,被試的實得分數(shù)與真實分數(shù)差距越小,測驗的分數(shù)就越可靠,信度就越高;反之,信度就越低。,估計信度的方法:,1)再測信度 2)復本信度 3)分半信度 4)內(nèi)部一致性信度 5)評分者信度,1)再測信度,用同一個測驗,對同一組被試前后兩次施測,兩次測驗分數(shù)之間的相關(guān)程度就是再測信度。 測驗跨時間的一致性穩(wěn)定性系數(shù)。,例1,假設有20個學生在1月1日接受了一個測驗,到2月1日,又再一次接受同一測驗,把
7、1月1日的首測與2月1日的再測的分數(shù)分別記為X1X2,測驗結(jié)果為:,計算得:,X1X2,S2,S1,9.95,11.45,2.46,2.42,2385,0.9,再測信度滿足條件,所測量的特性必須是穩(wěn)定的; 遺忘與練習的效果相同; 兩次施測期間被試的學習效果沒有差別。,優(yōu)點:提供測驗結(jié)果是否隨時間而變化的資料,可作為預測被試將來行為的依據(jù); 缺點:易受練習和記憶的影響。,適用于速度測驗,不適用于難度測驗,2)復本信度平行測試法,根據(jù)一組被試在兩個等值測驗上的得分計算的相關(guān)系數(shù)即為復本信度系數(shù)。,反映的是兩個測驗之間的等值程度等值系數(shù),公式與穩(wěn)定性系數(shù)公式相同,即再測信度公式。,優(yōu)點:一定程度上避
8、免了受練習和記憶的影響 缺點:很難編制兩份等值的試卷,3)分半信度折半法,按正常的程序?qū)嵤y驗,然后將全部試題分成相等的兩半,被試組在這兩半測驗上的分數(shù)之間的相關(guān)系數(shù)即為信度系數(shù)。,如何分半?,優(yōu)點:分半法估計信度比再測法和副本法簡便,減少了學生的疲勞、厭煩等因素; 局限:分半信度系數(shù)只能表示兩半試題的等值程度,不能提供時間穩(wěn)定性的信息。,不采用前后分半,采用奇偶分半法,即將題目的奇數(shù)號分為一組,偶數(shù)號分為一組; 求出所有被試在奇數(shù)和偶數(shù)題上總分的相關(guān)系數(shù); 求得的信度為半個測驗信度,整個測驗的信度需要進行矯正。, 求得當兩半測驗等值時,兩半測驗分數(shù)具有相同的平均數(shù)和標準差,可用斯皮爾曼布朗公
9、式校正:, 當兩半測驗具不同的均值和方差時,可用盧倫公式校正:,4)內(nèi)部一致性信度,也稱同質(zhì)性,指測驗內(nèi)部所有題目間的一致性。,如果在一個測驗中各道試題得分有較大的正相關(guān)時,我們說這個測驗是同質(zhì)的,也就是說,在該測驗項目中所有的項目都測量相同的特質(zhì)或程度略同的特質(zhì)。,估計測驗內(nèi)部一致性的常用方法:, 庫德理查遜公式,例2,假設在一次有100人參加的客觀性試題的測驗中,題量為20道,學生考試分數(shù)的標準差為4分,各試題的答對人數(shù)如表所示:,例3,假定某次考試共有105道題,學生平均分數(shù)為75分,標準差為19分,則利用kR21公式可計算得這次考試的信度是:,庫德理查遜法只適于客觀性測驗,不適用于主觀
10、性測驗;只適用于題目得分不為1則為0的測驗,不適用于其他判分方式的測驗。,克倫巴赫系數(shù),可用于多重評分測驗,kk,k,k1,(1 ),Sx2,Si2,k測驗的題目數(shù) Si2第I道題目分數(shù)的方差 Sx2測驗總分的方差,與庫德理查遜法不適用于速度測驗,5)評分者信度,考察評分者信度的方法是隨機抽取部分試卷,由兩個或多個評分者按評分標準打分,然后求其間的相關(guān)。,一般認為,當經(jīng)過訓練的成對評分者之間的相關(guān)系數(shù)達到0.9以上時,才能認為評分客觀。評分者之間的一致性越好,其信度也越高。,1)5)估計信度的方法,只適用于常模參照測驗,而不適用于標準參照測驗;,信度系數(shù)是衡量測驗好壞的一個重要指標。最理想的情
11、況是信度為;,一般能力與學績測驗的信度系數(shù)常在0.90以上,性格、興趣、態(tài)度等人格測驗的信度系數(shù)通常在0.800.85之間。,6)信度系數(shù)與個人測驗真分數(shù)的估計,常通過估計測量標準誤的方法對個人真正能力作置信區(qū)間的估計。,測量標準誤的大小影響實得分數(shù)對真分數(shù)估計的精確度,其數(shù)值與信度有關(guān),兩者之間的關(guān)系:,SESX(1rxx)1/2,SE測量的標準誤,SX 所得分數(shù)的標準差,rxx測驗的信度,個人在測驗中所得分數(shù)X有95的可能性落在真分數(shù)T加減1.96個標準誤的范圍內(nèi),即:,(X1.96SE) T (X1.96SE),7)影響信度的因素,被試、主試、測驗內(nèi)容和施測環(huán)境等均能引起隨機誤差,導致分
12、數(shù)不一致,從而降低測驗的信度。,測驗的題目數(shù)越多,則其信度越高。 題目越多,試題的取樣越適當;題目越多,測驗分數(shù)受猜測因素的影響越小。,團體的異質(zhì)程度與測驗信度有關(guān),分數(shù)分布的范圍越大,信度越高;,信度系數(shù)與樣本團體的異質(zhì)性有關(guān)。對不同的團體需要重新確定測量的信度;,測驗難度水平使測驗分數(shù)分布范圍最大時,測驗的信度才會最高。,3、測量的效度,指測量的有效性,即一個測驗對它所要測量的特性準確測量的程度。一個測驗,如果能正確地測量出所要測的東西,那么它就是高效度的測驗。,效度:與測量目的有關(guān)的分數(shù)的方差與實得分數(shù)的方差之比,S2V/S2X,測驗的效度除受隨機誤差影響外,還受系統(tǒng)誤差的影響;,可信的
13、測驗未必有效,而有效的測驗未必可信;,測驗本身、測驗的實施和被試等對測驗的信度有影響的因素對效度也有影響。,根據(jù)考察一個測驗有效程度的途徑,把測驗的效度分為:,1)內(nèi)容效度 2)構(gòu)想效度構(gòu)成概念效度 3)校標關(guān)聯(lián)效度基準關(guān)聯(lián)效度,1)內(nèi)容效度,指題目對欲測的內(nèi)容或行為范圍取樣的適當程度。,通俗地說,它就是一個測驗的覆蓋問題,用于測量某一范圍知識和能力的一個測驗,它所采用的那些題目是否充分代表了該范圍內(nèi)的基本知識和基本能力。,具備較好的內(nèi)容效度必須滿足的兩個條件:,要有確定好的內(nèi)容范圍,并使測驗的全部題目均落在此范圍內(nèi);,測驗題目應是已界定的內(nèi)容范圍的代表性樣本,即選出的題目應能包含所測的內(nèi)容范
14、圍的主要方面,并且使各部分題目所占比例適當。,確定內(nèi)容效度的方法:,專家判斷法(定性)由專家對測驗題目與所涉及的內(nèi)容范圍進行符合性判斷;,再測法在教學之前先將測驗施測于被試。然后對被試進行教學訓練,結(jié)束時再測一次。,內(nèi)容效度適合于評價教育成就測驗和職業(yè)選拔測驗,局限:缺乏可靠的數(shù)量指標,妨礙了測驗間的比較,2)構(gòu)想效度構(gòu)成概念效度,指測驗對理論上的構(gòu)想或特質(zhì)的測量程度。或者說測驗所提供的數(shù)據(jù)同理論假設的符合程度。,確定構(gòu)想效度的步驟:,首先,從某一理論出發(fā),提出關(guān)于某一心理特質(zhì)的假設; 然后,設計和編制測驗并進行施測; 最后,對測驗的結(jié)果采用相關(guān)或因子分析等方法進行分析,驗證與理論假設相符的程
15、度。,3)校標關(guān)聯(lián)效度基準關(guān)聯(lián)效度,對于效標的理解:,衡量測驗有效性的一個重要方法是看根據(jù)測驗所作出的預測是否能被證實,如果一個測驗的預測與將來實際發(fā)生的事情非常接近,那么它就是一個好測驗。因此,被預測的行為是衡量測驗是否有效的標準,簡稱效標。,效標關(guān)聯(lián)效度就是考察測驗分數(shù)與效標的關(guān)系,分析測驗對我們所感興趣的行為的預測程度。,效標關(guān)聯(lián)效度可以通過統(tǒng)計分析而得出一個數(shù)量指標,該指標是一個測驗與作為準則的另一個測驗、評定或工作成績等之間的相關(guān)系數(shù)。以此來表示被衡量的測驗變量與作為準則的另一變量之間的相關(guān)強弱,從而反映出前者的有效性程度。,例4,計算大學入學考試的效標關(guān)聯(lián)效度。表中列出的僅是一組人
16、為壓縮了容量的樣本數(shù)據(jù),實際計算效標關(guān)聯(lián)效度時,樣本容量還應大大增加。,4、測驗項目(題目)分析,1)題目的難度,題目的難度是衡量題目難易水平的指標,通常以題目的答對比率來表示。,難度的計算,二分法計分的題目,P(R/N)100,非二分法計分的題目,題目難度水平的確定,題目的難度是否合適取決于測驗的目的、性質(zhì)以及題目的形式。,若測驗是為了了解被試在某方面知識技能的情況,則不必考慮難度; 若測驗是為了測量個體之間的差別,則以選擇接近中等難度的題目為好; 若測驗用于選拔錄用人員時,就應該比較多地采用那些難度值接近錄取率的題目。,測驗難度對分數(shù)分布的影響,若被試的取樣具有代表性,對于中等難度的測驗,
17、其分數(shù)分布應呈正態(tài)分布。,題目難度普遍較大,被試的得分普遍較低,使得低分端出現(xiàn)高峰,呈正偏態(tài); 題目難度普遍較小,被試的得分普遍較高,使得高分端出現(xiàn)高峰,呈負偏態(tài)。,當測驗的分數(shù)分布明顯偏態(tài)時,可以通過改變不同難度題目的比例來進行調(diào)整。,2)題目的區(qū)分度,指題目對不同水平的被試的心理特質(zhì)的區(qū)分能力。,若在某道試題上得高分的被試實際能力水平也高;得低分的被試實際能力水平也低,則該題就具有較高的區(qū)分度。,區(qū)分度的取值范圍都介于1至1之間,絕對值越大,區(qū)分的效果越好。,鑒別指數(shù)法,比較測驗總分高和總分低的兩組被試在題目通過率上的差別。計算公式如下:,DPHPL,D:鑒別指數(shù) PH:高分組被試在該題上
18、的通過率 PL:低分組被試在該題上的通過率 D值越大,題目的區(qū)分度越高,題目越有效,題目鑒別指數(shù)與評價標準,方差法,題目分數(shù)的離散程度越大,該題的區(qū)分度也越大。,缺點:當題目滿分不同時,題目之間不能比較。,變異系數(shù)CV作為區(qū)分度的指標: CVS/X,相關(guān)法,以題目分數(shù)與效標分數(shù)或測驗總分的相關(guān)程度作為題目區(qū)分度的指標。相關(guān)程度越高,題目區(qū)分度越高。,相關(guān),適用于題目分數(shù)與測驗總分數(shù)都是二級評分的場合。如,題目得分為“通過”、“未通過”,測驗總成績?yōu)椤昂细瘛薄ⅰ安缓细瘛薄?對于任意兩個二分稱名變量的數(shù)據(jù)資料,之間的相關(guān)系數(shù)可用如下公式計算:,r (adbc)/(ab)(cd)(ac)(bd),1
19、/2,例5,45名學生參加高考,錄取情況與在某題上的通過情況如圖所示,若以錄取情況作效標,那么此題對學生是否有區(qū)分能力?,合計 18 27,20 25,考取 未考取 合計,未通過,通過,題目反應,升學情況,r (adbc)/(ab)(cd)(ac)(bd),(132075)/(20251827)1/2,1/2,0.456,(三)測試數(shù)據(jù)的變換,測試數(shù)據(jù)的變換多用于以相對評價為主要目的的集團基準測試(NRT)。,1、百分排位 2、標準得分 3、正則化得分 4、多級評定值,1、百分排位,指被測試集團人數(shù)為100名,從低位開始,相當于指定的某一位的成績是多少,或者說,從低位開始,相當于百分之多少位的
20、成績是多少的一種排位方法。,只能用于同一次測試中不同學生的得分進行比較和評價,某一被測試者的得分為x,在x分以下的被測試者的人數(shù)為參加測試總?cè)藬?shù)的P,此時,稱該被測試者的得分為P百分排位,或簡稱P百分位。,百分排位的計算,從低位開始,對每一個得分(或每一得分級別)求累積頻度,基于累積頻度的百分位為:,例6,設給定的成績?yōu)?0,從低位開始,出現(xiàn)低于80分以下的頻度為45,被測試人數(shù)為60,80分的成績對應的百分位為:,2、線性變換與標準得分,yiaxib,Xi原始得分,yi變換得分,其中:,1)線性變換,將多個測試得分變換為具有相同的平均值、標準偏差的標準分,便于對多個不同的測試進行比較,易知:
21、,S2ya2S2x,則:,yiaxib,可得:,z變換中,z得分的平均值為0,標準偏差為1,若對z進行如下變換:,yiAziB,則得:,S2yA2S2zA2,可以將原始得分變換為具有指定的平均值為B、標準偏差為A的得分。,3、正態(tài)(則)分布與正態(tài)(則)化得分,某一測試的得分滿足正態(tài)分布,或近似于正態(tài)分布。經(jīng)線性變換后的得分仍滿足正態(tài)分布或近似于正態(tài)分布。,正態(tài)分布的密度函數(shù):,正態(tài)分布的性質(zhì),1)正態(tài)曲線位于x軸的上方,以直線x為對稱軸,為正態(tài)分布的均值,它向左向右對稱地無限延伸,且以x軸為漸近線。但始終不與x軸相交;,標準正態(tài)分布均值為0,標準差為1時的正態(tài)分布,記作N(0,1),曲線如圖B。 位置和形狀都是確定的,z0達到最大值,f(0)0.3989;曲線Z1兩點是拐點,f(1)0.2419,任何一般的正態(tài)分布都可以化為標準正態(tài)分布。 若xN( ,2),令,Z(x)/,則ZN(0,1),可以將各式各樣形態(tài)的正態(tài)曲線轉(zhuǎn)換成標準正態(tài)曲線。轉(zhuǎn)換后正態(tài)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026廣西南寧市婦女兒童活動中心招聘筆試備考試題及答案解析
- 2025川北醫(yī)學院選調(diào)工作人員3人(公共基礎知識)綜合能力測試題附答案
- 2025廣東茂名市電白區(qū)招聘大學生鄉(xiāng)村醫(yī)生1人備考題庫附答案
- 2026西北工業(yè)大學動力與能源學院爆震燃燒團隊非事業(yè)編人員招聘1人(陜西)筆試備考試題及答案解析
- 2025年河北秦皇島市公開選聘事業(yè)單位工作人員1名(公共基礎知識)測試題附答案
- 2026浙江金華市武義縣醫(yī)療保障局招聘4人筆試備考題庫及答案解析
- 2026云南玉溪市華寧縣公共就業(yè)和人才服務中心招聘公益性崗位人員3人筆試模擬試題及答案解析
- 2025秋人教版道德與法治八年級上冊第一單元單元單元思考與行動課件
- 2026上海復旦大學馬克思主義學院招聘2人筆試參考題庫及答案解析
- 2026年甘肅省隴南市康縣周家壩鎮(zhèn)專業(yè)化管理村文書招聘筆試參考題庫及答案解析
- 2026江蘇省公務員考試公安機關(guān)公務員(人民警察)歷年真題匯編附答案解析
- 2026年失眠患者睡眠調(diào)理指南
- 2026年盤錦職業(yè)技術(shù)學院單招職業(yè)適應性測試題庫及答案詳解一套
- 2025年10月自考00610高級日語(二)試題及答案
- 2026年包頭鐵道職業(yè)技術(shù)學院單招職業(yè)技能考試題庫帶答案解析
- 循證護理在基礎護理中的應用
- 復旦大學招生面試常見問題及回答要點
- 危險化學品兼容性矩陣表
- 道路交通法律課件
- 老年人營養(yǎng)不良篩查與營養(yǎng)支持方案
- 搶劫案件偵查課件
評論
0/150
提交評論