《教育統(tǒng)計(jì)與測(cè)量》課件 趙德成 第1-7章 緒論、教育測(cè)量與測(cè)驗(yàn)-數(shù)據(jù)與統(tǒng)計(jì)圖表_第1頁(yè)
《教育統(tǒng)計(jì)與測(cè)量》課件 趙德成 第1-7章 緒論、教育測(cè)量與測(cè)驗(yàn)-數(shù)據(jù)與統(tǒng)計(jì)圖表_第2頁(yè)
《教育統(tǒng)計(jì)與測(cè)量》課件 趙德成 第1-7章 緒論、教育測(cè)量與測(cè)驗(yàn)-數(shù)據(jù)與統(tǒng)計(jì)圖表_第3頁(yè)
《教育統(tǒng)計(jì)與測(cè)量》課件 趙德成 第1-7章 緒論、教育測(cè)量與測(cè)驗(yàn)-數(shù)據(jù)與統(tǒng)計(jì)圖表_第4頁(yè)
《教育統(tǒng)計(jì)與測(cè)量》課件 趙德成 第1-7章 緒論、教育測(cè)量與測(cè)驗(yàn)-數(shù)據(jù)與統(tǒng)計(jì)圖表_第5頁(yè)
已閱讀5頁(yè),還剩84頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

教育統(tǒng)計(jì)與測(cè)量

第一章緒論第一節(jié)走近教育測(cè)量一、測(cè)量測(cè)量是人類(lèi)生產(chǎn)生活實(shí)踐中普遍存在的活動(dòng),測(cè)量就在我們身邊。以下列舉了一些例子:●裝修工人用卷尺測(cè)量房屋中各個(gè)房間地面的長(zhǎng)度、寬度,以計(jì)算需要鋪設(shè)瓷磚的面積,估算需要購(gòu)買(mǎi)的瓷磚數(shù)量?!褶r(nóng)民用秤測(cè)量當(dāng)年各種農(nóng)作物的產(chǎn)量,以比較不同品種農(nóng)作物在產(chǎn)量上的差異。●醫(yī)生用各種儀器測(cè)量病人的血壓、心率、肺活量等生理指標(biāo),以診斷病人的病情?!駥W(xué)校管理者在期末用測(cè)驗(yàn)測(cè)量學(xué)生的學(xué)習(xí)成就水平,以此作為評(píng)價(jià)學(xué)生學(xué)習(xí)和教師教學(xué)的依據(jù)?!窦议L(zhǎng)定期測(cè)量幼年子女的身高、體重、頭圍,監(jiān)測(cè)孩子的生長(zhǎng)發(fā)育?!裱芯咳藛T采用自編量表測(cè)量學(xué)生的家庭社會(huì)經(jīng)濟(jì)地位,然后探討學(xué)生成績(jī)受其家庭社會(huì)經(jīng)濟(jì)地位影響的程度。第一節(jié)走近教育測(cè)量二、測(cè)量的基本要素(一)測(cè)量的單位(二)測(cè)量的參照點(diǎn)第一節(jié)走近教育測(cè)量三、教育測(cè)量的定義與特點(diǎn)教育測(cè)量有狹義和廣義兩種理解。狹義的教育測(cè)量指通過(guò)測(cè)驗(yàn)對(duì)學(xué)生的學(xué)業(yè)成就和心理特質(zhì)進(jìn)行定量描述的過(guò)程。而廣義的教育測(cè)量泛指對(duì)教育領(lǐng)域內(nèi)各種事物或現(xiàn)象的特征進(jìn)行定量描述的過(guò)程,它可以是對(duì)學(xué)生學(xué)業(yè)成就的測(cè)量,可以是對(duì)學(xué)生心理特質(zhì)的測(cè)量,還可以是對(duì)學(xué)校辦學(xué)條件或質(zhì)量的測(cè)量。與生產(chǎn)生活中常見(jiàn)的物理測(cè)量相比,教育測(cè)量既有一般測(cè)量的共同特點(diǎn),又具有其獨(dú)特的特點(diǎn)。(一)目的性(二)間接性(三)不確定性第一節(jié)走近教育測(cè)量四、教育測(cè)量學(xué)的發(fā)展歷史我國(guó)教育測(cè)量技術(shù)的發(fā)展源遠(yuǎn)流長(zhǎng),早在西周時(shí)期(公元前1046—前771年),為教育貴族子弟而設(shè)立的大學(xué)就已建立了系統(tǒng)的評(píng)價(jià)制度?!抖Y記·學(xué)記》有載:“比年入學(xué),中年考校,一年視離經(jīng)辨志,三年視敬業(yè)樂(lè)群,五年視博習(xí)親師,七年視論學(xué)取友,謂之小成。九年知類(lèi)通達(dá),強(qiáng)立而不反,謂之大成。”這一制度,不僅規(guī)定了對(duì)學(xué)生實(shí)施評(píng)價(jià)的時(shí)間,每隔一年進(jìn)行一次,而且規(guī)定了評(píng)價(jià)的內(nèi)容,第一年考查分析經(jīng)文、章句的能力及學(xué)習(xí)志向,第三年考查學(xué)習(xí)態(tài)度及與學(xué)友的互助情況,第五年考查學(xué)業(yè)的廣博程度及尊師情況,第七年考查分析學(xué)業(yè)問(wèn)題的能力及擇善而交的能力,第九年則要考查推理論事、觸類(lèi)旁通的能力和是否具有堅(jiān)強(qiáng)的意志力。及至隋朝,我國(guó)開(kāi)始科舉取士,在考生來(lái)源、考試科目、考試辦法、錄用程序等方面已形成一整套較完備的制度??婆e制度對(duì)官吏選拔產(chǎn)生了重要影響。第二節(jié)認(rèn)識(shí)教育統(tǒng)計(jì)一、什么是教育統(tǒng)計(jì)統(tǒng)計(jì)學(xué)作為一門(mén)學(xué)科,產(chǎn)生于歐洲。[5]統(tǒng)計(jì)這個(gè)詞源于中世紀(jì)拉丁語(yǔ)Status,指各種現(xiàn)象的狀態(tài)和狀況。由這一語(yǔ)根組成的意大利語(yǔ)Stato,表示“國(guó)家”的概念,也含有國(guó)家結(jié)構(gòu)和國(guó)情知識(shí)的意思。根據(jù)這一語(yǔ)根,最早作為專(zhuān)門(mén)概念使用的“統(tǒng)計(jì)”,出現(xiàn)在德國(guó)政治學(xué)教授阿亨瓦爾(GottfriedAchenwall,1719—1772)于179年所著的《近代歐洲各國(guó)國(guó)勢(shì)學(xué)綱要》一書(shū)中。第二節(jié)認(rèn)識(shí)教育統(tǒng)計(jì)二、教育統(tǒng)計(jì)的分類(lèi)教育統(tǒng)計(jì)可依不同的分類(lèi)標(biāo)準(zhǔn)區(qū)分為不同的類(lèi)別。一種最常見(jiàn)的分類(lèi)是,人們依據(jù)統(tǒng)計(jì)功能將教育統(tǒng)計(jì)分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)兩類(lèi)。描述統(tǒng)計(jì)主要研究的問(wèn)題是,如何把調(diào)查得來(lái)的數(shù)據(jù)加以整理、歸類(lèi)、概括和表述,以定量描述樣本或總體的特征。具體來(lái)說(shuō),描述統(tǒng)計(jì)的主要內(nèi)容有:(1)數(shù)據(jù)分組。對(duì)數(shù)據(jù)進(jìn)行分組和統(tǒng)計(jì),使用各種圖表描述一組數(shù)據(jù)的分布情況。(2)計(jì)算一組數(shù)據(jù)的特征值。簡(jiǎn)化數(shù)據(jù),描述數(shù)據(jù)的集中量數(shù)與差異量數(shù)。比如,計(jì)算一組數(shù)據(jù)的算術(shù)平均數(shù)、幾何平均數(shù)、中數(shù)、眾數(shù),以描述數(shù)據(jù)的集中情況;又如,計(jì)算一組數(shù)據(jù)的標(biāo)準(zhǔn)差、方差、全距、差異系數(shù),從而描述數(shù)據(jù)的離散情況。(3)相關(guān)分析。對(duì)某一事物兩種或兩種以上的屬性間的相互關(guān)系進(jìn)行描述,探討變量之間的關(guān)系。第三節(jié)教育測(cè)量與統(tǒng)計(jì)的內(nèi)容二、教育統(tǒng)計(jì)的分類(lèi)在內(nèi)容選擇上我們堅(jiān)持如下原則:(1)基礎(chǔ)性。教育測(cè)量與統(tǒng)計(jì),尤其是教育統(tǒng)計(jì),需要處理數(shù)據(jù),需要具備一定的數(shù)學(xué)基礎(chǔ),很多人感覺(jué)很頭疼,有點(diǎn)畏難,所以,我們?cè)诮滩木帉?xiě)的過(guò)程中化繁為簡(jiǎn),由淺入深,選擇本領(lǐng)域最為基礎(chǔ)性的知識(shí)與技能教給大家。(2)操作性。教育測(cè)量與統(tǒng)計(jì)是一門(mén)應(yīng)用性學(xué)科,技術(shù)性比較強(qiáng),所以我們?cè)诮滩木帉?xiě)的過(guò)程中會(huì)將復(fù)雜的技術(shù)分解成若干操作性步驟,結(jié)合實(shí)例予以講解。只要大家讀懂例題,并認(rèn)真完成書(shū)中的練習(xí)題,基本上就能掌握這些技能。此外,我們還在必要時(shí)于每章末尾介紹如何使用數(shù)據(jù)處理軟件簡(jiǎn)化統(tǒng)計(jì)工作。(3)實(shí)踐性。教育測(cè)量與統(tǒng)計(jì)是實(shí)踐中非常有用的一門(mén)學(xué)科,我們不僅選擇了實(shí)踐中最需要的相關(guān)知識(shí)和技能,而且結(jié)合最新也是最鮮活的實(shí)例予以闡釋?zhuān)M蠹夷軐W(xué)有所成,且學(xué)以致用第四節(jié)學(xué)習(xí)教育測(cè)量與統(tǒng)計(jì)的意義一、科學(xué)測(cè)評(píng)學(xué)生學(xué)習(xí)進(jìn)展,為教育教學(xué)改進(jìn)提供依據(jù)二、定量分析影響學(xué)生學(xué)習(xí)的因素,尋找有效的改進(jìn)策略三、加強(qiáng)定量分析,推動(dòng)教育研究走向科學(xué)化第二章教育測(cè)量與測(cè)驗(yàn)第一節(jié)測(cè)量與量表一、體驗(yàn)測(cè)量在緒論一章,我們已經(jīng)介紹過(guò)一些有關(guān)測(cè)量的基礎(chǔ)性知識(shí)。比如,測(cè)量就是依據(jù)一定法則對(duì)事物特征進(jìn)行定量描述的過(guò)程;又如,任何測(cè)量都必須具備兩個(gè)基本要素,分別是測(cè)量的單位和參照點(diǎn)。為進(jìn)一步提高大家對(duì)測(cè)量的認(rèn)識(shí),我們以短時(shí)記憶容量測(cè)量為例,帶領(lǐng)大家比較完整地體驗(yàn)測(cè)量。第一節(jié)測(cè)量與量表二、測(cè)量的量表(一)稱(chēng)名量表(二)順序量表(三)等距量表(四)比率量表第二節(jié)教育測(cè)量一、體驗(yàn)教育測(cè)量教育測(cè)量經(jīng)常發(fā)生在生活中。每個(gè)人從小到大會(huì)經(jīng)歷很多很多次的測(cè)驗(yàn),要被測(cè)量;每個(gè)教師都將測(cè)驗(yàn)作為測(cè)量學(xué)生學(xué)業(yè)成就和心理特質(zhì)的重要方式,正所謂“考考考,教師的法寶”。但經(jīng)常接觸教育測(cè)量,并不必然讓大家都成為測(cè)量專(zhuān)家。測(cè)量需要學(xué)習(xí),更需要研究。第二節(jié)教育測(cè)量二、相關(guān)概念辨析(一)教育測(cè)量與教育統(tǒng)計(jì)(二)教育測(cè)量與教育評(píng)價(jià)第三節(jié)測(cè)驗(yàn)一、測(cè)驗(yàn)的定義與條件一般來(lái)說(shuō),測(cè)驗(yàn)要求被試完成一個(gè)或一系列任務(wù),施測(cè)者從中推斷出所測(cè)屬性的情況。像教師在教學(xué)過(guò)程中編制一道或一套試題,讓學(xué)生完成,由此推斷學(xué)生學(xué)業(yè)成就水平,就是典型的測(cè)驗(yàn)。測(cè)驗(yàn)是用于定量描述人教育成就或心理特質(zhì)的一個(gè)或一系列任務(wù)[9](17),其實(shí)質(zhì)上是對(duì)行為樣本進(jìn)行客觀(guān)的標(biāo)準(zhǔn)化的測(cè)量。[10](513)編制一個(gè)測(cè)驗(yàn)應(yīng)該具備下列四個(gè)基本條件。(一)有代表性的行為樣本(二)測(cè)驗(yàn)標(biāo)準(zhǔn)化(三)適當(dāng)?shù)碾y度或應(yīng)答率(四)良好的信度和效度第三節(jié)測(cè)驗(yàn)二、測(cè)驗(yàn)的種類(lèi)(一)按測(cè)驗(yàn)內(nèi)容所作的分類(lèi)1.智力測(cè)驗(yàn)2.能力傾向測(cè)驗(yàn)3.成就測(cè)驗(yàn)4.人格測(cè)驗(yàn)(二)按測(cè)驗(yàn)實(shí)施方式所作的分類(lèi)1.個(gè)別測(cè)驗(yàn)2.團(tuán)體測(cè)驗(yàn)第三節(jié)測(cè)驗(yàn)二、測(cè)驗(yàn)的種類(lèi)(三)按測(cè)驗(yàn)題目的形式所作的分類(lèi)1.紙筆測(cè)驗(yàn)2.操作測(cè)驗(yàn)(四)按測(cè)驗(yàn)結(jié)果解釋參照的標(biāo)準(zhǔn)所作的分類(lèi)1.常模參照測(cè)驗(yàn)2.標(biāo)準(zhǔn)參照測(cè)驗(yàn)(五)其他分類(lèi)第三節(jié)測(cè)驗(yàn)三、測(cè)驗(yàn)、評(píng)價(jià)與教學(xué)的關(guān)系如前所述,測(cè)驗(yàn)是用于定量描述個(gè)體教育成就或心理特質(zhì)的一個(gè)或一系列任務(wù)。在教育領(lǐng)域,教師經(jīng)常使用測(cè)驗(yàn)定量描述和分析學(xué)生的學(xué)習(xí)表現(xiàn)或身心特點(diǎn)。例如,教師通過(guò)智力測(cè)驗(yàn)了解學(xué)生的智力基礎(chǔ),據(jù)此判斷學(xué)生是否需要接受特殊教育;又如,教師通過(guò)測(cè)驗(yàn)了解學(xué)生的興趣、動(dòng)機(jī)、人格、學(xué)習(xí)風(fēng)格,乃至與教師的關(guān)系等,從而分析學(xué)生的個(gè)體差異,促進(jìn)因材施教,提高教育的針對(duì)性與實(shí)效性。第三章測(cè)驗(yàn)的編制第一節(jié)編制測(cè)驗(yàn)的基本程序一、明確測(cè)量對(duì)象和目標(biāo)明確測(cè)量對(duì)象是測(cè)驗(yàn)編制的前提。測(cè)量的對(duì)象是小學(xué)生,還是中學(xué)生?是1年級(jí)小學(xué)生,還是5年級(jí)小學(xué)生?是農(nóng)村學(xué)生,還是城市學(xué)生?是普通學(xué)生,還是需要特殊教育的學(xué)生?不同測(cè)量對(duì)象的認(rèn)知能力、過(guò)往經(jīng)驗(yàn)、表達(dá)能力都存在差異,對(duì)測(cè)驗(yàn)編制的要求也就有所不同。比如,針對(duì)1年級(jí)小學(xué)生的測(cè)驗(yàn)必須考慮其識(shí)字、理解和表達(dá)能力,盡量采用非文字測(cè)驗(yàn),如果一定要采用紙筆測(cè)驗(yàn),則必須充分考慮他們的認(rèn)知水平;又如,針對(duì)農(nóng)村學(xué)生的成就測(cè)驗(yàn),需要考慮其生活經(jīng)驗(yàn)與城市學(xué)生的差異,如果沒(méi)有考慮到這種差異,設(shè)定的問(wèn)題情境都取材于城市生活,就可能造成不同程度的不公平,也不能準(zhǔn)確反映農(nóng)村學(xué)生的學(xué)習(xí)成就。第一節(jié)編制測(cè)驗(yàn)的基本程序二、確定測(cè)驗(yàn)?zāi)康暮陀猛疽约议L(zhǎng)滿(mǎn)意度測(cè)驗(yàn)為例,如果組織者試圖在眾多學(xué)校中選拔家長(zhǎng)更滿(mǎn)意的優(yōu)質(zhì)學(xué)校那么,這個(gè)測(cè)驗(yàn)中區(qū)分度不高的題目可以考慮刪除;但如果組織者實(shí)施測(cè)驗(yàn)的目的主要是了解家長(zhǎng)對(duì)學(xué)校各項(xiàng)工作的感受,以識(shí)別學(xué)校工作中的優(yōu)勢(shì)與不足,那么,這個(gè)測(cè)驗(yàn)中某個(gè)或某些題目即使區(qū)分度不高,也應(yīng)予以保留。在題目形式上,如果以選拔優(yōu)質(zhì)學(xué)校為目的,那么家長(zhǎng)滿(mǎn)意度測(cè)驗(yàn)應(yīng)以封閉式題目為主,以便于進(jìn)行量化分析和比較;而如果以診斷學(xué)校工作優(yōu)劣勢(shì)為目的,那么家長(zhǎng)滿(mǎn)意度測(cè)驗(yàn)可以適量增加開(kāi)放性題目,比如,“關(guān)于學(xué)校工作,你最滿(mǎn)意的三件事和最不滿(mǎn)意的三件事分別是什么?請(qǐng)逐條說(shuō)一說(shuō),越具體越好”,如此收集信息,可以使調(diào)查者深入了解家長(zhǎng)的感受及理由,從而使診斷更具體,基于診斷所提出的改進(jìn)建議也就更有針對(duì)性。第一節(jié)編制測(cè)驗(yàn)的基本程序三、編輯測(cè)驗(yàn)題目首先,測(cè)驗(yàn)編制者要提出編題計(jì)劃。再次,測(cè)驗(yàn)編制者要選擇合適的題目形式。最后,測(cè)驗(yàn)編制者要實(shí)際編寫(xiě)題目。第一節(jié)編制測(cè)驗(yàn)的基本程序四、試測(cè)和題目分析驗(yàn)的試測(cè)非常重要,正規(guī)的測(cè)驗(yàn)都必須有這個(gè)步驟。試測(cè)的對(duì)象要與實(shí)際施測(cè)的對(duì)象保持一致。如果測(cè)驗(yàn)要針對(duì)的對(duì)象是小學(xué)5~6年級(jí)學(xué)生,那么試測(cè)就不能僅針對(duì)6年級(jí)。同理,如果測(cè)驗(yàn)針對(duì)的是某區(qū)在普通中學(xué)就讀的8年級(jí)學(xué)生,那么試測(cè)的對(duì)象也要取自該區(qū)普通中學(xué)的8年級(jí)學(xué)生,不能來(lái)自9年級(jí)或7年級(jí),也不能僅選取來(lái)自重點(diǎn)普通中學(xué)的學(xué)生,而不選取一般普通中學(xué)的學(xué)生。當(dāng)然,試測(cè)所選擇的樣本可以小一點(diǎn),只要具備相當(dāng)?shù)拇硇约纯?。有時(shí)候,為了避免測(cè)驗(yàn)題目泄露,也可以適當(dāng)微調(diào)試測(cè)對(duì)象。比如,某地在中考命題中為確保試題難度合適及多套試卷復(fù)本間的等值,需要對(duì)新命制的試題進(jìn)行試測(cè),可如果試題在本地初三學(xué)生中試測(cè)會(huì)造成試題泄露,于是該地選擇與當(dāng)?shù)亟?jīng)濟(jì)、社會(huì)和教育發(fā)展水平相當(dāng)?shù)囊粋€(gè)外省某區(qū)縣,從中抽取一定數(shù)量的初三學(xué)生進(jìn)行了試測(cè)。第一節(jié)編制測(cè)驗(yàn)的基本程序五、合成測(cè)驗(yàn)合成測(cè)驗(yàn)就是把經(jīng)過(guò)試測(cè)證明有價(jià)值的題目排列組合成一個(gè)測(cè)驗(yàn)。經(jīng)過(guò)一輪或多輪的試測(cè),在信度、效度、難度、區(qū)分度和公平方面存在明顯問(wèn)題的題目被刪除或修改,保留下來(lái)的題目還需要根據(jù)測(cè)驗(yàn)進(jìn)行第二次選擇。選擇出數(shù)量足夠、難度適當(dāng)、信效度有保證的題目后,測(cè)驗(yàn)編制者要對(duì)題目進(jìn)行排列組合,最終形成測(cè)驗(yàn)文本。成就測(cè)驗(yàn)的題目一般由易到難排列,因?yàn)橄茸尡辉囎鰩椎老鄬?duì)簡(jiǎn)單的題目,可以解除被試的緊張情緒,幫助其樹(shù)立信心,較快進(jìn)入狀態(tài)。如果題目先難后易,可能讓被試在難題上耽擱太多時(shí)間,既影響后面問(wèn)題的解答,也影響被試的心理狀態(tài)。第一節(jié)編制測(cè)驗(yàn)的基本程序六、測(cè)驗(yàn)標(biāo)準(zhǔn)化(一)測(cè)驗(yàn)內(nèi)容標(biāo)準(zhǔn)化(二)施測(cè)過(guò)程標(biāo)準(zhǔn)化(三)測(cè)驗(yàn)評(píng)分與解釋標(biāo)準(zhǔn)化第一節(jié)編制測(cè)驗(yàn)的基本程序七、鑒定測(cè)驗(yàn)測(cè)驗(yàn)編好后,必須對(duì)其質(zhì)量進(jìn)行審查和鑒定,合乎要求之后才可以正式投入使用。反映測(cè)驗(yàn)質(zhì)量的主要指標(biāo)有效度、信度和公平等,其中效度是反映測(cè)驗(yàn)質(zhì)量最為核心、最重要的指標(biāo)。只有準(zhǔn)確測(cè)量了預(yù)測(cè)量的特質(zhì),能基于測(cè)驗(yàn)所收集的信息做出有效的推論,測(cè)驗(yàn)才具有實(shí)質(zhì)性意義。第五章我們會(huì)專(zhuān)門(mén)討論測(cè)驗(yàn)的信效度估計(jì)。第一節(jié)編制測(cè)驗(yàn)的基本程序八、編寫(xiě)測(cè)驗(yàn)說(shuō)明書(shū)測(cè)驗(yàn)說(shuō)明書(shū)要向使用者(包括主試、被試及其他相關(guān)人員)介紹測(cè)驗(yàn),說(shuō)明測(cè)驗(yàn)的意圖、題目的構(gòu)成、施測(cè)要求等。一般來(lái)說(shuō),測(cè)驗(yàn)說(shuō)明書(shū)可以包括如下內(nèi)容:●本測(cè)驗(yàn)的目的●本測(cè)驗(yàn)編制的依據(jù)●測(cè)驗(yàn)內(nèi)容●測(cè)驗(yàn)實(shí)施程序與要求●評(píng)分標(biāo)準(zhǔn)及細(xì)則●測(cè)驗(yàn)的信效度●常模表(必要時(shí))第二節(jié)成就測(cè)驗(yàn)的編制一、明確測(cè)驗(yàn)?zāi)康模ㄒ唬┰\斷(二)達(dá)標(biāo)驗(yàn)收(三)評(píng)比與選拔(四)教學(xué)改進(jìn)第二節(jié)成就測(cè)驗(yàn)的編制二、編制測(cè)驗(yàn)細(xì)目表(一)課程標(biāo)準(zhǔn)(二)教學(xué)目標(biāo)(三)測(cè)驗(yàn)細(xì)目表第二節(jié)成就測(cè)驗(yàn)的編制三、選擇題目類(lèi)型(一)客觀(guān)題與主觀(guān)題(二)客觀(guān)題也能測(cè)評(píng)復(fù)雜能力(三)選擇合適的任務(wù)類(lèi)型第二節(jié)成就測(cè)驗(yàn)的編制四、設(shè)計(jì)題目(一)題目要與預(yù)期成果相匹配(二)要清楚地表述每道題目(三)題目要適合學(xué)生的閱讀水平(四)題目表述不能包含民族、種族、性別或城鄉(xiāng)偏見(jiàn)(五)避免題目中的無(wú)意線(xiàn)索(六)確保每道題目的答案或評(píng)分細(xì)則沒(méi)有爭(zhēng)議(七)編寫(xiě)題目和任務(wù)的數(shù)量要多于最終測(cè)驗(yàn)實(shí)際使用的數(shù)量(八)注重對(duì)測(cè)驗(yàn)題目的檢查與修改第二節(jié)成就測(cè)驗(yàn)的編制五、匯編測(cè)驗(yàn)教師根據(jù)測(cè)驗(yàn)細(xì)目表編制好題目后,就可以著手匯編測(cè)驗(yàn)了。一個(gè)完整的測(cè)驗(yàn)應(yīng)該首先提供指導(dǎo)語(yǔ),對(duì)測(cè)驗(yàn)進(jìn)行簡(jiǎn)短的說(shuō)明。一般來(lái)說(shuō),指導(dǎo)語(yǔ)可以包括如下內(nèi)容:(1)測(cè)驗(yàn)的目的;(2)完成測(cè)驗(yàn)的可用時(shí)間;(3)如何作答;(4)當(dāng)不確定答案時(shí),是否可猜測(cè);(5)交卷方式。第三節(jié)李克特量表的編制一、什么是李克特量表李克特量表(Likertscale)是評(píng)分加總式測(cè)驗(yàn)量表中最常用的一種。它由美國(guó)社會(huì)心理學(xué)家李克特(RensisLikert,1903—1981)于1932年首次提出并使用,因而得名。李克特量表不同于一般的等級(jí)評(píng)定量表(ratingscale)。其最大的特點(diǎn)就是先提供一系列有關(guān)陳述,要求被試根據(jù)真實(shí)情況報(bào)告自己同意每一陳述的程度,或每一陳述與自身實(shí)際符合的程度。以下面的酒店服務(wù)滿(mǎn)意度評(píng)定為例,A量表是一般的等級(jí)評(píng)定量表,它要求被試直接報(bào)告自己對(duì)酒店各項(xiàng)服務(wù)的滿(mǎn)意度等級(jí);而B量表是典型的李克特量表,它提供有關(guān)酒店服務(wù)的陳述,然后讓被試報(bào)告他們同意這些陳述的程度。李克特量表也是等級(jí)評(píng)定量表,是一種采用了特殊形式的等級(jí)評(píng)定量表。第三節(jié)李克特量表的編制二、如何編制李克特量表李克特量表的編制比較簡(jiǎn)單,很容易學(xué)習(xí)。編制李克特量表的過(guò)程與編制其他測(cè)驗(yàn)有很多相似之處,一般要遵循以下幾個(gè)步驟。[15](177178)第一,選擇要測(cè)評(píng)的變量。第二,編寫(xiě)一系列與這一變量相關(guān)的正向陳述和反向陳述。第三,找?guī)讉€(gè)同事確定每一個(gè)陳述是積極的還是消極的。第四,確定每一個(gè)陳述的反應(yīng)選項(xiàng)有幾個(gè)及如何措辭。第五,編寫(xiě)指導(dǎo)語(yǔ)。指導(dǎo)語(yǔ)要向?qū)W生說(shuō)明問(wèn)卷的目的,告訴學(xué)生如何填答。第六,對(duì)量表進(jìn)行試用和修訂。第三節(jié)李克特量表的編制三、一個(gè)實(shí)例:學(xué)習(xí)情感測(cè)評(píng)為了讓大家深入了解李克特量表,這里提供一個(gè)實(shí)例:學(xué)習(xí)情感測(cè)評(píng)。人的心理活動(dòng)都帶有一定的情緒情感。學(xué)生在一定情感狀態(tài)下接受或發(fā)起學(xué)習(xí)任務(wù),從事學(xué)習(xí)活動(dòng)。學(xué)習(xí)情感不但直接影響學(xué)生認(rèn)知的過(guò)程及其結(jié)果,而且對(duì)學(xué)生個(gè)性的和諧發(fā)展也具有重要影響。[16]教師在教學(xué)實(shí)踐中要關(guān)注學(xué)生的學(xué)習(xí)情感,通過(guò)測(cè)評(píng)及時(shí)發(fā)現(xiàn)其中的優(yōu)勢(shì)與不足,為工作改進(jìn)提供依據(jù)。我們?cè)谥笇?dǎo)學(xué)校改進(jìn)教學(xué)的過(guò)程中編制了一份適用于4~6年級(jí)學(xué)生的學(xué)習(xí)情感量表。量表采用李克特形式,用5點(diǎn)計(jì)分,讓學(xué)生報(bào)告同意相關(guān)陳述的程度。第四章測(cè)驗(yàn)的項(xiàng)目分析第一節(jié)難度一、難度的意義在日常生活中,難度是人們對(duì)任務(wù)復(fù)雜性、挑戰(zhàn)性,以及所需投入程度的綜合感受。說(shuō)一個(gè)任務(wù)的難度大,意味著這個(gè)任務(wù)比較復(fù)雜,挑戰(zhàn)性大,對(duì)知識(shí)與技能的要求高,所需投入的時(shí)間精力多。而在教育測(cè)量領(lǐng)域的項(xiàng)目分析中,難度專(zhuān)指一道或一組測(cè)評(píng)題目的難易程度。具體來(lái)說(shuō),對(duì)于客觀(guān)題難度與主觀(guān)題難度的理解有點(diǎn)不同。在客觀(guān)題難度分析中,一道題目,如果大部分被試都能答對(duì),那么它的難度就較??;如果大部分被試都答不對(duì),就說(shuō)明它的難度比較大。而在主觀(guān)題難度分析中,一個(gè)被試的得分通常在零分與滿(mǎn)分之間,全體被試在一道題上的得分率越高,這道題的難度就越小;全體被試在一道題上的得分率越低,這道題的難度就越大。第一節(jié)難度二、難度的計(jì)算(一)通過(guò)率(二)平均得分率(三)極端分組法第一節(jié)難度三、難度值的轉(zhuǎn)換由難度值P的計(jì)算方法可知,P越大,題目的難度越小,題目越容易,所以有人提出異議,認(rèn)為P實(shí)際反映的是“易度”,不是“難度”,將P稱(chēng)為難度值容易造成誤解。然而,難度已是教育測(cè)量領(lǐng)域?yàn)榇蠹宜熘母拍睢S谑?,美?guó)教育考試服務(wù)中心(Educa-tionalTestingService,ETS)的專(zhuān)家提出一種難度值轉(zhuǎn)換方法。[3]這種方法基于正態(tài)分布曲線(xiàn)的線(xiàn)下面積大小,將難度指數(shù)轉(zhuǎn)化成與之方向相反的Δ指數(shù)。第一節(jié)難度四、難度與測(cè)驗(yàn)分?jǐn)?shù)分布的關(guān)系(一)難度與測(cè)驗(yàn)分?jǐn)?shù)的分布形態(tài)(二)難度與測(cè)驗(yàn)分?jǐn)?shù)的離散程度第一節(jié)難度五、難度水平的確定題目的難度水平會(huì)影響學(xué)生分?jǐn)?shù)的高低以及對(duì)教師教學(xué)質(zhì)量的判斷,在大規(guī)模、高利害、選拔性測(cè)驗(yàn)中,難度還會(huì)影響學(xué)生的升學(xué)或就業(yè),因而需要謹(jǐn)慎確定。如果測(cè)驗(yàn)的目的是甄別和選拔,要盡可能區(qū)分被試的個(gè)體差異,對(duì)被試進(jìn)行比較,那么這種測(cè)驗(yàn)屬于常模參照測(cè)驗(yàn),屬于相對(duì)評(píng)價(jià)范疇。在這種常模參照測(cè)驗(yàn)中,如果測(cè)驗(yàn)總體難度接近0.50,構(gòu)成測(cè)驗(yàn)的多數(shù)題目難度分布在0.30~0.70之間,測(cè)驗(yàn)分?jǐn)?shù)分布的離散程度通常比較大,能夠在最大限度上區(qū)分個(gè)體差異。一般而言,在選拔性測(cè)驗(yàn)中,題目難度應(yīng)控制在錄取率左右。第二節(jié)區(qū)分度一、區(qū)分度的意義區(qū)分度指測(cè)驗(yàn)題目或題組對(duì)被試心理特質(zhì)表現(xiàn)差異的區(qū)分能力。具有良好區(qū)分度的題目,能有效將不同水平的被試區(qū)分開(kāi)來(lái),即水平高的被試在這道題上通過(guò)的可能性大或會(huì)在這道題上得到較高的分?jǐn)?shù),而水平低的被試在這道題上通過(guò)的可能性小或在這道題上得分較低。相反,區(qū)分度差的題目則不能區(qū)分被試水平,水平高和水平低的被試做同一道題目,在得分上沒(méi)有什么差異,或者顯示出方向相反的差異。第二節(jié)區(qū)分度二、區(qū)分度的統(tǒng)計(jì)分析(一)鑒別指數(shù)法(二)題總相關(guān)法(三)獨(dú)立樣本t檢驗(yàn)法第二節(jié)區(qū)分度三、難度與區(qū)分度的關(guān)系從難度、區(qū)分度的計(jì)算公式可以看出,兩者是緊密聯(lián)系的。如果一道題目太難,很少人甚至幾乎沒(méi)有人能答對(duì),那么這道題就難以有效區(qū)分高水平和低水平的學(xué)生,區(qū)分度不好;如果一道題目太容易,大家都能正確作答,那么這道題的區(qū)分度也不好;如果題目保持中等難度,比如是0.50,則有可能高分組的所有被試都正確作答,而低分組卻無(wú)人通過(guò),那么這時(shí)的鑒別指數(shù)D就能達(dá)到最大值1.00;如果題目難度為0.70,有可能高分組通過(guò)率為1.00,低分組通過(guò)率為0.40,那么鑒別指數(shù)D就是0.60。第三節(jié)公平一、不公平的來(lái)源公平通常是在不同群體之間發(fā)生的,說(shuō)評(píng)價(jià)對(duì)某一個(gè)群體不公平,總是相對(duì)于另外一個(gè)群體而言的。每個(gè)群體都可能在評(píng)價(jià)中受到冒犯或歧視,需要敏感地識(shí)別和分析。第三節(jié)公平二、公平審查由美國(guó)教育研究協(xié)會(huì)、美國(guó)心理學(xué)協(xié)會(huì)(與全美教育測(cè)量學(xué)會(huì)共同編定的《教育與心理測(cè)試標(biāo)準(zhǔn)》一直高度重視公平審查。比如,這一標(biāo)準(zhǔn)要求,除了被認(rèn)為是內(nèi)容范疇的正當(dāng)需要,測(cè)驗(yàn)研制人員應(yīng)努力鑒別并消除在人種、族裔、性別或其他方面具有冒犯性的語(yǔ)言、標(biāo)記、短語(yǔ)或其他內(nèi)容。又如,這一標(biāo)準(zhǔn)說(shuō)明,當(dāng)有研究報(bào)告指出某一測(cè)驗(yàn)導(dǎo)致考生因?yàn)槟挲g、性別、人種、族裔、文化、殘疾或語(yǔ)言等因素而在成績(jī)上有很大差異時(shí),測(cè)驗(yàn)編制者應(yīng)在可行的情況下開(kāi)展相應(yīng)的研究,為自己辯護(hù),或者承認(rèn)問(wèn)題,并找出克服偏見(jiàn)的方法。[7](140)ETS發(fā)布的質(zhì)量和公平性標(biāo)準(zhǔn)[8](1924),也十分重視評(píng)價(jià)的公平,要求對(duì)測(cè)驗(yàn)和題目進(jìn)行正規(guī)的公平性審查。第五章測(cè)驗(yàn)的信效度估計(jì)第一節(jié)經(jīng)典測(cè)量理論一、測(cè)量誤差的定義及分類(lèi)所謂誤差,是指測(cè)量過(guò)程中由于欲測(cè)量特質(zhì)以外各種主客觀(guān)因素引起的一種結(jié)果不準(zhǔn)確或不一致的測(cè)量效應(yīng)。要理解這個(gè)概念,需要注意兩點(diǎn):(1)誤差是由欲測(cè)量特質(zhì)以外因素引起的,與要測(cè)量特質(zhì)的表現(xiàn)無(wú)關(guān);(2)誤差可能導(dǎo)致測(cè)量結(jié)果不準(zhǔn)確或不一致。誤差可以分為隨機(jī)誤差與系統(tǒng)誤差兩種。所謂隨機(jī)誤差,是指那些與預(yù)測(cè)特質(zhì)無(wú)關(guān)、由偶然因素引起又不易控制的誤差。它使測(cè)量產(chǎn)生了不一致的結(jié)果,其方向和大小的變化完全是隨機(jī)的。以英語(yǔ)聽(tīng)力測(cè)驗(yàn)為例,被試的表現(xiàn)受被試當(dāng)時(shí)的情緒狀態(tài)、環(huán)境中的突發(fā)噪聲等因素影響,這種偶發(fā)因素導(dǎo)致的誤差就屬于隨機(jī)誤差。第一節(jié)經(jīng)典測(cè)量理論二、測(cè)量誤差的來(lái)源在物理測(cè)量中,測(cè)量誤差主要來(lái)源于測(cè)量工具、被試和施測(cè)過(guò)程。以體重測(cè)量來(lái)說(shuō),誤差產(chǎn)生可能是因?yàn)樗玫碾娮芋w重計(jì)電池電量較低,導(dǎo)致電壓不穩(wěn)定,超出了正常的范圍,這種誤差的來(lái)源是測(cè)量工具;可能是因?yàn)楸辉囌驹隗w重計(jì)上雙腳沒(méi)有保持平衡,這種誤差的來(lái)源是被試;也可能是因?yàn)槭褂谜邔㈦娮芋w重計(jì)放在不平整的地面或地毯上面,體重計(jì)表面不平,這種誤差的來(lái)源是施測(cè)過(guò)程。與物理測(cè)量類(lèi)似,教育測(cè)量的誤差也來(lái)源于三個(gè)方面:測(cè)量工具、被試以及施測(cè)過(guò)程。第二節(jié)信度一、什么是信度信度指多次測(cè)驗(yàn)結(jié)果的一致性程度,具體點(diǎn)說(shuō),就是在不同時(shí)間,使用同一測(cè)驗(yàn)或使用兩個(gè)平行測(cè)驗(yàn),或者在不同測(cè)試條件下,對(duì)同一組被試實(shí)施多次測(cè)驗(yàn)所得分?jǐn)?shù)的一致性程度。[2](84)信度反映了測(cè)量過(guò)程中所存在的隨機(jī)誤差的大小。經(jīng)典測(cè)量理論認(rèn)為,每次實(shí)際測(cè)量的數(shù)值(X)都很難和該特質(zhì)的真正水平值(T)完全一致,都或大或小地包含了一定數(shù)量的隨機(jī)誤差(E)。用公式表示即:X=T+E。由這一公式可以發(fā)現(xiàn),在一個(gè)測(cè)驗(yàn)中,隨機(jī)誤差越小,測(cè)量分?jǐn)?shù)越穩(wěn)定和一致,測(cè)驗(yàn)的信度就越高。于是,有人提出了信度的操作性定義第二節(jié)信度二、重測(cè)信度的估計(jì)重測(cè)信度指用同一個(gè)測(cè)評(píng)工具對(duì)同一組對(duì)象施測(cè)兩次所得結(jié)果的一致性程度,其大小等同于同一組對(duì)象在兩次測(cè)驗(yàn)上所得分?jǐn)?shù)的相關(guān),一般用皮爾遜積差相關(guān)計(jì)算。這個(gè)相關(guān)系數(shù)反映了測(cè)評(píng)數(shù)據(jù)的穩(wěn)定性,因而也叫穩(wěn)定性系數(shù)。當(dāng)穩(wěn)定性系數(shù)較大時(shí),說(shuō)明前后兩次測(cè)驗(yàn)的結(jié)果比較一致,測(cè)評(píng)工具比較穩(wěn)定。在第一次測(cè)驗(yàn)中得高分的人,在第二次測(cè)驗(yàn)中也會(huì)得高分;在第一次測(cè)驗(yàn)中得低分的人,在第二次測(cè)驗(yàn)中也會(huì)得低分。第二節(jié)信度三、復(fù)本信度的估計(jì)復(fù)本信度指用兩個(gè)平行的測(cè)評(píng)工具測(cè)評(píng)同一批對(duì)象所得結(jié)果的一致性程度,其大小等于同一批對(duì)象在兩個(gè)復(fù)本上所得分?jǐn)?shù)的相關(guān)。一般用皮爾遜積差相關(guān)計(jì)算。這個(gè)相關(guān)系數(shù)也叫等值性系數(shù)。在大規(guī)模、高利害的重大考試中,命題者不能只編一套考試題目,他們通常要編制多份平行的測(cè)驗(yàn)。嚴(yán)格意義上,多個(gè)平行測(cè)驗(yàn)在題目?jī)?nèi)容、數(shù)量、形式、效度、信度、難度、區(qū)分度、指導(dǎo)語(yǔ)、時(shí)限以及所用的公式等諸多方面都要相同或相似,這才能保證復(fù)本間的一致性,保證即便不同的人使用不同的平行試卷,也可以獲得公平的評(píng)價(jià)。第二節(jié)信度四、評(píng)分者信度的估計(jì)評(píng)分者信度指多個(gè)評(píng)分者給同一批人的答卷進(jìn)行評(píng)分的一致性程度。在測(cè)驗(yàn)中,客觀(guān)題的答案是唯一的,評(píng)分很少出現(xiàn)誤差。而主觀(guān)題則不同,它的答案是開(kāi)放的、多樣的,評(píng)分具有一定的主觀(guān)性,針對(duì)同一個(gè)被試的回答,不同的評(píng)分者可能給出不同的評(píng)分。圖51是一個(gè)示意圖,它描述了評(píng)分者甲和乙兩人對(duì)同一批被試答題的評(píng)分。在圓圈中的這個(gè)學(xué)生,評(píng)分者甲給了她5分,但乙給了4分,兩人評(píng)分相差不大;而在方框中的這個(gè)學(xué)生,評(píng)分者甲給了他6分,但乙給了2分,兩人評(píng)分相差有點(diǎn)大。在主觀(guān)題評(píng)分中,要使多個(gè)評(píng)分者的評(píng)分完全一致不太可能。在圖51中,除方框中這個(gè)學(xué)生的評(píng)分需要討論和矯正之外,兩個(gè)評(píng)分者給其余學(xué)生的評(píng)分基本一致,相差不大,在可接受范圍之內(nèi)。評(píng)分者信度應(yīng)該處于0.8以上,屬于較好的水平。第二節(jié)信度五、同質(zhì)性信度的估計(jì)同質(zhì)性信度,也稱(chēng)內(nèi)部一致性信度,它有兩層含義:其一是指同一測(cè)評(píng)工具中所有題目測(cè)的都是同一種心理特質(zhì),其二是指所有題目得分之間都具有較高的正相關(guān)關(guān)系。如果一個(gè)測(cè)評(píng)工具的同質(zhì)性信度不高,就說(shuō)明測(cè)評(píng)結(jié)果可能是某幾種心理特質(zhì)的綜合,用題目總分或平均分來(lái)解釋測(cè)驗(yàn)結(jié)果就要謹(jǐn)慎。這時(shí)候,需要經(jīng)過(guò)探索性因素分析將題目分解成多個(gè)具有同質(zhì)性的分測(cè)驗(yàn),再根據(jù)測(cè)評(píng)對(duì)象在分測(cè)驗(yàn)上的得分做出解釋。在教育實(shí)踐中,多數(shù)測(cè)驗(yàn)都希望測(cè)量單一的變量,比如數(shù)學(xué)學(xué)習(xí)成就,又如閱讀能力,那就需要分析考查同一種變量的所有題目是否具有內(nèi)部一致性,其同質(zhì)性信度是否合乎測(cè)量學(xué)要求。第三節(jié)效度一、什么是效度要深入理解評(píng)價(jià)效度,需要對(duì)測(cè)驗(yàn)發(fā)展的歷史進(jìn)行回顧和分析。測(cè)驗(yàn)最早的用途,主要是評(píng)價(jià)個(gè)體在特定領(lǐng)域已經(jīng)學(xué)會(huì)了什么,已經(jīng)掌握了哪些知識(shí)和技能,或者已經(jīng)具備了哪些能力。學(xué)校的單元測(cè)驗(yàn)、期末考試,以及駕駛員考試,都體現(xiàn)了這種用途。對(duì)這種測(cè)驗(yàn)進(jìn)行質(zhì)量分析,需要把實(shí)際測(cè)驗(yàn)內(nèi)容與測(cè)驗(yàn)所要評(píng)價(jià)的內(nèi)容相比較,從而確定測(cè)驗(yàn)內(nèi)容是否代表了要測(cè)評(píng)的內(nèi)容,這里分析的是評(píng)價(jià)的內(nèi)容效度(contentvalidity)。第三節(jié)效度二、效度的估計(jì)從經(jīng)典測(cè)量理論來(lái)看,每一次測(cè)量中所得到的觀(guān)察分?jǐn)?shù)(x)都是有效分?jǐn)?shù)(V)與誤差的和,而這誤差中既有系統(tǒng)誤差(I),又有隨機(jī)誤差(E)。當(dāng)系統(tǒng)誤差增大時(shí),觀(guān)察分?jǐn)?shù)偏離有效分?jǐn)?shù)的程度就會(huì)增加,測(cè)驗(yàn)的效度就會(huì)下降;同樣,當(dāng)隨機(jī)誤差增大時(shí),測(cè)驗(yàn)的效度也會(huì)下降。第三節(jié)效度三、信度與效度的關(guān)系(一)測(cè)驗(yàn)效度受其信度的制約(二)信度高是效度高的必要而非充分條件(三)信度高是好測(cè)量的前提,效度高才是好測(cè)量的核心特征第三節(jié)效度四、內(nèi)容效度及其估計(jì)內(nèi)容效度是指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到的內(nèi)容與欲測(cè)量?jī)?nèi)容之間的吻合程度。對(duì)測(cè)評(píng)內(nèi)容進(jìn)行分析,可以確保一個(gè)測(cè)驗(yàn)所測(cè)為所欲測(cè),所評(píng)為所欲評(píng)。[6](80)[7](314)分析測(cè)驗(yàn)的效度,通常首先要求提供內(nèi)容效度方面的證據(jù)?!督逃c心理測(cè)試標(biāo)準(zhǔn)》明確指出,當(dāng)測(cè)驗(yàn)被作為一個(gè)課堂教學(xué)成績(jī)的考查指標(biāo)時(shí),或針對(duì)某個(gè)具體的課程標(biāo)準(zhǔn)考查教育質(zhì)量時(shí),需要提供證據(jù)說(shuō)明測(cè)驗(yàn)在內(nèi)容取樣方面的代表性程度。在我國(guó),近些年來(lái),隨著課程改革的深入推進(jìn),學(xué)生到底是否達(dá)成及在多大程度上達(dá)成了課程標(biāo)準(zhǔn),要通過(guò)測(cè)驗(yàn)予以分析。測(cè)驗(yàn)編制者應(yīng)向公眾提供有關(guān)內(nèi)容效度的證據(jù),說(shuō)明測(cè)驗(yàn)的合理性。即便是在單元結(jié)束時(shí)或期末舉行的自編測(cè)驗(yàn),教師也要參照有關(guān)程序?qū)y(cè)驗(yàn)的內(nèi)容進(jìn)行分析,確保測(cè)驗(yàn)內(nèi)容的代表性,提高測(cè)驗(yàn)的內(nèi)容效度第三節(jié)效度五、構(gòu)念效度及其估計(jì)構(gòu)念效度指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到所要測(cè)量特質(zhì)或結(jié)構(gòu)的程度。它具有以下特點(diǎn)。(1)構(gòu)念效度的大小取決于事先假定的理論。(2)當(dāng)實(shí)際測(cè)量的資料無(wú)法證實(shí)理論假設(shè)時(shí),并不一定都是因?yàn)闇y(cè)驗(yàn)的構(gòu)念效度不良,也有可能是因?yàn)榍懊嫣岢龅睦碚摷僭O(shè)本身有問(wèn)題。(3)構(gòu)念效度是通過(guò)測(cè)到什么及不能測(cè)量什么的證據(jù)予以估計(jì)的,因而通常需要多樣的證據(jù),而不是單一指標(biāo)來(lái)分析。第三節(jié)效度六、效標(biāo)關(guān)聯(lián)效度及其估計(jì)效標(biāo)關(guān)聯(lián)效度指測(cè)驗(yàn)分?jǐn)?shù)與外部效標(biāo)之間的相關(guān)程度。在這一定義中,外部效標(biāo)的理解至關(guān)重要。外部效標(biāo)是衡量一個(gè)測(cè)驗(yàn)是否有效的外部標(biāo)準(zhǔn),它獨(dú)立于測(cè)驗(yàn)并可以從實(shí)踐中獲得我們感興趣的行為。比如,高考作為選拔優(yōu)秀學(xué)生進(jìn)入大學(xué)的一個(gè)重要測(cè)驗(yàn),要估計(jì)它是否有效測(cè)量了學(xué)生的已有學(xué)習(xí)成就與未來(lái)學(xué)習(xí)潛力,我們可以用大學(xué)頭兩年學(xué)生在主要學(xué)科考試中的平均成績(jī)作為外部效標(biāo),如果大學(xué)生當(dāng)年的高考成績(jī)與大學(xué)頭兩年學(xué)科考試的平均分具有顯著相關(guān),就可以在一定程度上認(rèn)為高考的效度是良好的。第六章測(cè)驗(yàn)分?jǐn)?shù)的解釋與應(yīng)用第一節(jié)分?jǐn)?shù)與常模一、原始分?jǐn)?shù)的種類(lèi)測(cè)量是依據(jù)一定法則對(duì)事物特征進(jìn)行定量描述的過(guò)程。通過(guò)測(cè)量獲得的,對(duì)事物特征水平進(jìn)行定量描述的數(shù)字就是分?jǐn)?shù)?;跍y(cè)量直接得到的數(shù)字,叫原始分?jǐn)?shù)。比如,張雅在小學(xué)3年級(jí)期末數(shù)學(xué)考試中得了92分;又如,李偉光參加艾森克人格測(cè)驗(yàn),在神經(jīng)質(zhì)維度上得了17分。原始分?jǐn)?shù)可以有不同的分類(lèi)。根據(jù)分?jǐn)?shù)的來(lái)源,可將分?jǐn)?shù)分成計(jì)數(shù)數(shù)據(jù)、測(cè)量評(píng)估數(shù)據(jù)和人工編碼數(shù)據(jù);根據(jù)測(cè)量量表的水平,可將分?jǐn)?shù)分成稱(chēng)名數(shù)據(jù)、順序數(shù)據(jù)、等距數(shù)據(jù)和比率數(shù)據(jù);根據(jù)數(shù)據(jù)分布的形式,可將分?jǐn)?shù)分成離散數(shù)據(jù)和連續(xù)數(shù)據(jù)。有關(guān)數(shù)據(jù)分類(lèi)更詳細(xì)的資料,見(jiàn)第七章。第一節(jié)分?jǐn)?shù)與常模二、分?jǐn)?shù)的解釋原始分?jǐn)?shù)體現(xiàn)了個(gè)體在某一特質(zhì)上的表現(xiàn)水平,但單純的原始分?jǐn)?shù)如果沒(méi)有與其他解釋資料相配合,那么其意義是不明確的。仍然以張雅在小學(xué)3年級(jí)期末數(shù)學(xué)考試中得了92分為例,這92分說(shuō)明張雅學(xué)習(xí)好還是不好呢??jī)H有這個(gè)分?jǐn)?shù),似乎難以說(shuō)清。有人說(shuō)她得到了100分中的92分,得分率很高,學(xué)習(xí)不錯(cuò)。但實(shí)際上,張雅在100分考試題中能得多少分,有賴(lài)于考試命題的難度,題出得再簡(jiǎn)單點(diǎn),她得的分?jǐn)?shù)會(huì)更高,可這并不能說(shuō)明她的成就水平提高了。還有一種可能,將張雅分?jǐn)?shù)與和她同時(shí)參加同一考試的其他3年級(jí)同學(xué)所得分?jǐn)?shù)相比,如果絕大多數(shù)同學(xué)都得95分以上,那么也不能說(shuō)她學(xué)習(xí)很好。要解釋分?jǐn)?shù)的意義,既要考慮測(cè)驗(yàn)的質(zhì)量,比如難度、區(qū)分度、效度,又要參照一定的基準(zhǔn)。第一節(jié)分?jǐn)?shù)與常模三、絕對(duì)解釋中分?jǐn)?shù)分界點(diǎn)的確定對(duì)于絕對(duì)解釋參照的基準(zhǔn),需要進(jìn)行明確清晰的界定。以學(xué)業(yè)成就測(cè)驗(yàn)來(lái)說(shuō),教育者首先要明確學(xué)生學(xué)習(xí)的內(nèi)容標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn),即到某個(gè)時(shí)間點(diǎn)學(xué)生要學(xué)習(xí)什么和學(xué)到什么程度;其次要基于標(biāo)準(zhǔn)編制能有效測(cè)量這些目標(biāo)達(dá)成程度的測(cè)驗(yàn),也就是說(shuō),測(cè)驗(yàn)必須有良好的內(nèi)容效度和結(jié)構(gòu)效度;最后要明確“及格”與“不及格”的分?jǐn)?shù)分界點(diǎn)。第一節(jié)分?jǐn)?shù)與常模四、相對(duì)解釋中的常模相對(duì)解釋所參照的基準(zhǔn)是被試集合中一個(gè)或多個(gè)被試的表現(xiàn),那么以不同的被試表現(xiàn)為基準(zhǔn),所得到的解釋可能是不一樣的。為了更便于比較和溝通,人們經(jīng)常在相對(duì)解釋中使用常模。常模是分?jǐn)?shù)解釋時(shí)的參照體系,指標(biāo)準(zhǔn)化樣本被試在特定測(cè)驗(yàn)所測(cè)特質(zhì)上的普遍水平或水平分布狀況。測(cè)驗(yàn)是用來(lái)測(cè)量人的某種身心特質(zhì)的,如身體素質(zhì)、智力、人格或?qū)W業(yè)成就。第二節(jié)百分等級(jí)常模與應(yīng)用一、什么是百分等級(jí)個(gè)原始分?jǐn)?shù)的百分等級(jí)是指在一個(gè)群體的測(cè)驗(yàn)分?jǐn)?shù)中,得分低于這個(gè)分?jǐn)?shù)的人數(shù)百分比。比如,某一被試在某一項(xiàng)測(cè)驗(yàn)中得分為82分,經(jīng)過(guò)換算,其百分等級(jí)是75,那么,在參加該測(cè)驗(yàn)的所有人中,有75%的人得分低于82分,而超過(guò)82分的人則只有25%。第二節(jié)百分等級(jí)常模與應(yīng)用二、百分等級(jí)的計(jì)算(一)針對(duì)未整理分?jǐn)?shù)資料的百分等級(jí)計(jì)算方法(二)針對(duì)分組分?jǐn)?shù)資料的百分等級(jí)計(jì)算方法第二節(jié)百分等級(jí)常模與應(yīng)用三、百分等級(jí)常模的應(yīng)用在標(biāo)準(zhǔn)化學(xué)業(yè)成就測(cè)驗(yàn)和心理測(cè)驗(yàn)中,百分等級(jí)的應(yīng)用相當(dāng)廣泛。這主要是因?yàn)榘俜值燃?jí)的計(jì)算比較簡(jiǎn)單,其意義也比較直觀(guān),易于理解。如果幾個(gè)不同的測(cè)驗(yàn)針對(duì)同一個(gè)常模團(tuán)體實(shí)施,可以建立不同測(cè)驗(yàn)的百分等級(jí)常模,那么原來(lái)無(wú)法比較的不同測(cè)驗(yàn)中的原始分?jǐn)?shù)就可以相互比較了。以中考為例,趙嘉怡在語(yǔ)文考試中得分是105分,數(shù)學(xué)得分是110分,英語(yǔ)是97分,她哪一科成績(jī)相對(duì)更好呢?原始分?jǐn)?shù)很難在不同學(xué)科間進(jìn)行比較,因?yàn)槊恳粚W(xué)科考試的難度、學(xué)生群體得分的分布都存有很大的差異。但如果將這些原始分?jǐn)?shù)都轉(zhuǎn)化成百分等級(jí),就可以看到她各科成績(jī)?cè)趨⒓又锌紝W(xué)生群體中的相對(duì)位置,哪科排名相對(duì)靠前,哪科排名相對(duì)靠后,就可以一目了然。第三節(jié)標(biāo)準(zhǔn)分?jǐn)?shù)常模與應(yīng)用一、什么是標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)是一種以標(biāo)準(zhǔn)差為單位的分?jǐn)?shù),通常以z表示,所以也被稱(chēng)作z分?jǐn)?shù)。它是將原始分?jǐn)?shù)與常模團(tuán)體平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù),是以標(biāo)準(zhǔn)差為單位度量原始分?jǐn)?shù)離開(kāi)其平均數(shù)的程度第三節(jié)標(biāo)準(zhǔn)分?jǐn)?shù)常模與應(yīng)用二、標(biāo)準(zhǔn)分?jǐn)?shù)的意義將原始分?jǐn)?shù)轉(zhuǎn)化成標(biāo)準(zhǔn)分?jǐn)?shù)具有重要的意義。首先,標(biāo)準(zhǔn)分?jǐn)?shù)是等距數(shù)據(jù),可以進(jìn)行加減運(yùn)算。教育與心理測(cè)量中的原始分?jǐn)?shù)都是順序數(shù)據(jù),數(shù)據(jù)有大小和順序之分,但由于不等距,不能進(jìn)行加減運(yùn)算。標(biāo)準(zhǔn)分?jǐn)?shù)不同,它與原始分?jǐn)?shù)最大的區(qū)別在于,它是等距數(shù)據(jù),刻畫(huà)了每一個(gè)原始分?jǐn)?shù)距離平均分的程度,單位是標(biāo)準(zhǔn)差。因?yàn)闃?biāo)準(zhǔn)分?jǐn)?shù)是等距的,所以可以進(jìn)行加減運(yùn)算。以中考為例,中考科目包括語(yǔ)文、數(shù)學(xué)、英語(yǔ)、物理和化學(xué)等,從嚴(yán)格意義上講,各科的原始分?jǐn)?shù)是順序數(shù)據(jù),不能通過(guò)加減運(yùn)算求取各科平均分,但如果將原始分?jǐn)?shù)轉(zhuǎn)化成平均分為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)分?jǐn)?shù),順序數(shù)據(jù)轉(zhuǎn)化成等距數(shù)據(jù),就可以計(jì)算各科平均分了。其次,在分?jǐn)?shù)合成時(shí),標(biāo)準(zhǔn)分?jǐn)?shù)使每種分?jǐn)?shù)的權(quán)重相等第三節(jié)標(biāo)準(zhǔn)分?jǐn)?shù)常模與應(yīng)用三、標(biāo)準(zhǔn)分?jǐn)?shù)的性質(zhì)標(biāo)準(zhǔn)分?jǐn)?shù)是以一批分?jǐn)?shù)的平均數(shù)為參照點(diǎn),以標(biāo)準(zhǔn)差為單位的等距數(shù)據(jù)。標(biāo)準(zhǔn)分?jǐn)?shù)不僅具有順序性,而且具有可加性。它由符號(hào)和絕對(duì)值兩部分構(gòu)成。正負(fù)符號(hào)表示原始分?jǐn)?shù)在平均分之上或之下,絕對(duì)值則表示原始分?jǐn)?shù)與平均分的距離。歸結(jié)起來(lái),標(biāo)準(zhǔn)分?jǐn)?shù)還具有以下性質(zhì)。其一,標(biāo)準(zhǔn)分?jǐn)?shù)與原始分?jǐn)?shù)的分布形態(tài)相同。標(biāo)準(zhǔn)分?jǐn)?shù)實(shí)際上只是對(duì)原始分?jǐn)?shù)做了線(xiàn)性轉(zhuǎn)換,所以標(biāo)準(zhǔn)分?jǐn)?shù)的分布與原始分?jǐn)?shù)的分布形態(tài)相同。若原始分?jǐn)?shù)不服從正態(tài)分布,轉(zhuǎn)化成標(biāo)準(zhǔn)分?jǐn)?shù)后,其分布仍然不是正態(tài)分布。其二,標(biāo)準(zhǔn)分?jǐn)?shù)可以使不同測(cè)驗(yàn)分?jǐn)?shù)之間進(jìn)行比較。任何一組原始分?jǐn)?shù)都可以轉(zhuǎn)化成平均分為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)分?jǐn)?shù),變成等距數(shù)據(jù),所以可以在不同測(cè)驗(yàn)分?jǐn)?shù)之間進(jìn)行比較。如果原始分?jǐn)?shù)呈正態(tài)分布或近似正態(tài)分布,那么標(biāo)準(zhǔn)分?jǐn)?shù)的范圍大致在-3.00至+3.00之間,落在這一范圍內(nèi)的分?jǐn)?shù)占全體分?jǐn)?shù)的99.73%。第三節(jié)標(biāo)準(zhǔn)分?jǐn)?shù)常模與應(yīng)用四、正態(tài)化的標(biāo)準(zhǔn)分?jǐn)?shù)將原始分?jǐn)?shù)轉(zhuǎn)化成標(biāo)準(zhǔn)分?jǐn)?shù)是為了對(duì)不同測(cè)驗(yàn)中的分?jǐn)?shù)進(jìn)行比較,但是,標(biāo)準(zhǔn)分?jǐn)?shù)的分布與原始分?jǐn)?shù)的分布一致,如果兩個(gè)測(cè)驗(yàn)的原始分?jǐn)?shù)分布形態(tài)不同,兩個(gè)測(cè)驗(yàn)的標(biāo)準(zhǔn)分?jǐn)?shù)之間也就無(wú)法比較。若要將兩者進(jìn)行比較,必須采用非線(xiàn)性轉(zhuǎn)換,將非正態(tài)分布的分?jǐn)?shù)強(qiáng)制性轉(zhuǎn)換成正態(tài)分布。具體做法是:首先將每個(gè)原始分?jǐn)?shù)轉(zhuǎn)化成百分等級(jí),然后使用正態(tài)分布表,將對(duì)應(yīng)的百分等級(jí)直接看成是正態(tài)分布曲線(xiàn)下的面積值,找出所對(duì)應(yīng)的z值,這種范式所得到的分?jǐn)?shù)叫正態(tài)化的標(biāo)準(zhǔn)分?jǐn)?shù)。圖61即為負(fù)偏態(tài)分布轉(zhuǎn)換成正態(tài)分布的示意圖。第三節(jié)標(biāo)準(zhǔn)分?jǐn)?shù)常模與應(yīng)用五、標(biāo)準(zhǔn)分?jǐn)?shù)的變式(一)T分?jǐn)?shù)(二)其他形式第三節(jié)標(biāo)準(zhǔn)分?jǐn)?shù)常模與應(yīng)用六、常模資料的呈現(xiàn)方法百分等級(jí)和標(biāo)準(zhǔn)分?jǐn)?shù)是常見(jiàn)的常模分?jǐn)?shù)表達(dá)形式。常模資料要明確原始分?jǐn)?shù)與導(dǎo)出分?jǐn)?shù)之間的轉(zhuǎn)化關(guān)系。轉(zhuǎn)化表是最簡(jiǎn)單、最基本且最常用的常模資料呈現(xiàn)方法。它由原始分?jǐn)?shù)、相應(yīng)的導(dǎo)出分?jǐn)?shù)和對(duì)常模團(tuán)體的具體描述構(gòu)成。有了轉(zhuǎn)化表,使用者可以將原始分?jǐn)?shù)轉(zhuǎn)化成導(dǎo)出分?jǐn)?shù),或由已知的導(dǎo)出分?jǐn)?shù)找到相應(yīng)的原始分?jǐn)?shù)。第七章數(shù)據(jù)整理與統(tǒng)計(jì)圖表第一節(jié)數(shù)據(jù)整理一、處理缺失值在錄入問(wèn)卷數(shù)據(jù)的過(guò)程中,你會(huì)發(fā)現(xiàn)一些比較“粗心”的被試并沒(méi)有在所有題項(xiàng)中均給出回答,導(dǎo)致他們?cè)谙鄳?yīng)未填答的題項(xiàng)上出現(xiàn)空值,即所謂的缺失值(missingvalue),比如問(wèn)卷編號(hào)為“4”“7”的被試,其語(yǔ)文成績(jī)就是空值。如果未對(duì)缺失值進(jìn)行必要的處理,則會(huì)導(dǎo)致后續(xù)的統(tǒng)計(jì)分析出現(xiàn)錯(cuò)誤。即使你使用的是已有的大型數(shù)據(jù)庫(kù),缺失值問(wèn)題也可能存在。缺失值的處理策略與缺失值類(lèi)型之間存在較大的關(guān)聯(lián)。根據(jù)數(shù)據(jù)缺失的形式,可以將缺失值劃分為完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失三大類(lèi)。第一節(jié)數(shù)據(jù)整理二、調(diào)整變量命名對(duì)于剛接觸統(tǒng)計(jì)分析的學(xué)生而言,可能不會(huì)特別在意變量命名的規(guī)范問(wèn)題,以致出現(xiàn)表71樣例中的情況:既有以英文來(lái)表示變量名的,比如把ID作為問(wèn)卷編號(hào)標(biāo)識(shí),也有直接把問(wèn)卷題干作為變量名的,比如“相比于其他學(xué)生家庭,你的家庭富裕嗎?”。有些人對(duì)變量名的設(shè)置比較隨意,造成變量名不夠簡(jiǎn)潔、一致。通常情況下,我們會(huì)使用漢字來(lái)錄入變量名,并且保證變量名是一個(gè)比較明確的概念,而非直接以問(wèn)卷題干的形式錄入。第一節(jié)數(shù)據(jù)整理三、完善數(shù)據(jù)錄入形式當(dāng)你完成問(wèn)卷數(shù)據(jù)錄入的時(shí)候,你可能會(huì)發(fā)現(xiàn),數(shù)據(jù)庫(kù)并沒(méi)有那么美觀(guān)、簡(jiǎn)潔,既可能有數(shù)值型的變量,比如類(lèi)似于語(yǔ)文成績(jī)中的80、88等,也可能有字符串型的變量,比如性別中的“男”“女”或年級(jí)中的“A”“B”等。然而,常規(guī)的統(tǒng)計(jì)分析僅能針對(duì)數(shù)值型變量進(jìn)行有效處理,因此,一般情況下,我們會(huì)將字符串型的變量轉(zhuǎn)換成數(shù)值型的變量,這一過(guò)程被稱(chēng)為數(shù)據(jù)編碼(dataencoding)或重新賦值(recode)。第二節(jié)次數(shù)分布表一、單變量的次數(shù)分布表當(dāng)我們學(xué)會(huì)計(jì)算相應(yīng)的頻次和頻率時(shí),可以通過(guò)簡(jiǎn)易表格的形式將相應(yīng)的結(jié)果展現(xiàn)出來(lái)。這時(shí)候就需要用到次數(shù)分布表。依據(jù)我們對(duì)性別統(tǒng)計(jì)量的計(jì)算,我們可以完成表74:第二節(jié)次數(shù)分布表二、列聯(lián)表前文僅針對(duì)單變量頻次或頻率的計(jì)算和呈現(xiàn)進(jìn)行了介紹。但是,有的時(shí)候,我們會(huì)對(duì)兩個(gè)變量之間的關(guān)系更感興趣。比如,我們不但想知道樣本中有多少學(xué)生的家庭經(jīng)濟(jì)狀況比較差(我們將家庭經(jīng)濟(jì)狀況非常不富裕、不太富裕以及一般的學(xué)生界定為家庭經(jīng)濟(jì)狀況比較差的學(xué)生,重新賦值為0)或良好(我們將家庭經(jīng)濟(jì)狀況比較富裕、非常富裕的學(xué)生界定為家庭經(jīng)濟(jì)狀況良好的學(xué)生,重新賦值為1),還想知道家庭經(jīng)濟(jì)狀況比較差的學(xué)生中,男女生的分布狀況,或家庭經(jīng)濟(jì)狀況良好的學(xué)生中,男女生的分布狀況。第三節(jié)次數(shù)分布圖一、條形圖條形圖是用寬度相同的條形的高度或長(zhǎng)短來(lái)表示數(shù)據(jù)頻次信息的圖形。條形圖可以橫置或縱置,縱置時(shí)也稱(chēng)為柱形圖。此外,條形圖還有簡(jiǎn)單條形圖、復(fù)式條形圖等形式。仍然依據(jù)表73,用條形圖呈現(xiàn)性別變量的頻次分布情況,如圖72所示。橫坐標(biāo)為性別變量的取值

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論