版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
教育測量與評價(jià)學(xué)習(xí)內(nèi)容第一章教育測評概述第二章教育測評的質(zhì)量指標(biāo)第三章
教育測驗(yàn)的編制與實(shí)施第四章教育評價(jià)方案的編制與實(shí)施第五章
教育評價(jià)的方法第六章
教育測量結(jié)果的整理、轉(zhuǎn)換與組合第七章
教育評價(jià)的心理調(diào)控第十章標(biāo)準(zhǔn)化考試第十一章智力測驗(yàn)第十二章學(xué)生評價(jià)第十三章學(xué)生品德測評第十四章教師評價(jià)第十五章
教學(xué)工作評價(jià)第十六章課程評價(jià)第十八章中小學(xué)學(xué)校評價(jià)第一章教育測評概述第一節(jié)教育測量概述一、什么是測量(一)測量的定義測量是根據(jù)法則給事物分派數(shù)字。(史蒂文斯)測量這一定義包含了三個(gè)要素:1、法則——給事物的屬性分派數(shù)字的依據(jù)和準(zhǔn)則2、事物屬性——測量的對象或目標(biāo)3、數(shù)字——描述事物屬性的符號,是測量結(jié)果的表現(xiàn)形式比如:重量——杠桿原理;溫度——熱脹冷縮原理?!胺▌t”不同,測量結(jié)果不一樣,因此法則有好壞之分。根據(jù)能否直接測量,可以將事物屬性分為兩類:一是可以直接測量的事物屬性,如長度、體積、重量等;二是只能間接測量的事物屬性,如溫度、心理等數(shù)字具有如下特征:1、數(shù)字具有區(qū)分性:數(shù)字不同,事物的屬性也不同。2、數(shù)字具有順序性,如1﹤2﹤3······3、數(shù)字具有等距性,如2-1=13-2=1······4、數(shù)字有0,使事物的測量具有參照點(diǎn)但是,在不同的測量中,測量結(jié)果所使用的數(shù)字可能具有不同的屬性。(二)測量的三個(gè)要素
——單位、參照點(diǎn)、量表1、單位。是計(jì)量事物的標(biāo)準(zhǔn)量的名稱。理想的測量單位應(yīng)具備兩個(gè)條件:(1)要有確定的意義。即對同一單位,所有人的理解都是相同的,不應(yīng)有異義和多義。(2)單位的距離要等值,即相鄰兩個(gè)單位點(diǎn)之間的差別總是相等的。但是,在教育測量中運(yùn)用的單位大多是不等值的。2、參照點(diǎn)是指在測量工作中,計(jì)算的起點(diǎn)。參照點(diǎn)有兩種:(1)絕對零點(diǎn)?!?”表示沒有,如重量為“0”表示“恰恰沒有一點(diǎn)重量”。(2)相對零點(diǎn)(人定參照點(diǎn))。“0”并不表示沒有,溫度(成績)為“0”并不表示沒有溫度(一無所知),如以海洋面為測量陸地和山的高度的起點(diǎn),稱為海拔**米,以冰點(diǎn)(00C)作為測量溫度的起點(diǎn)等。教育測量中使用的參照點(diǎn)都是相對零點(diǎn)。3、量表即測量的工具,是“具有確定單位和測量參照點(diǎn)的連續(xù)體”。如尺子、天平、試卷、問卷、圖形、符號等。“將欲測量的事物特征與這個(gè)連續(xù)體相比較,確定它的位置,看它距參照點(diǎn)的遠(yuǎn)近,就會(huì)得到該事物特征的一個(gè)測量值?!彼姆N測量量表1、稱名量表——(類別量表)最低水平的一種量表它只是用數(shù)字表明事物的類別或性質(zhì)不同而已,沒有任何數(shù)量大小的意義,不能作數(shù)量化分析,也不能將之進(jìn)行加減乘除運(yùn)算。有人認(rèn)為運(yùn)用類別量表進(jìn)行的測量不能算是真正意義上的測量。它主要用于次數(shù)的統(tǒng)計(jì)、求百分比、列聯(lián)相關(guān)、X2檢驗(yàn)等。四種測量量表2、等級量表——(順序量表)用來描述各個(gè)類別的數(shù)字,不僅具有區(qū)分性,而且還具有等級性(或順序性),因此,量表上的數(shù)字之間能表示事物大小的位次關(guān)系,但不具有等距性和可加性,也不能進(jìn)行加減乘除運(yùn)算。它主要用于求中位數(shù)、百分?jǐn)?shù)、等級相關(guān)系數(shù)、肯德爾和諧系數(shù)等。四種測量量表3、等距量表——較高水平的量表量表上的數(shù)值不僅具有區(qū)分性、等級性,還有等距性,等距量表的數(shù)字是一個(gè)真正的數(shù)字,因此可以進(jìn)行加減運(yùn)算,但等距量表沒有絕對零點(diǎn),所以不能作乘除運(yùn)算。主要用于計(jì)算平均數(shù)、標(biāo)準(zhǔn)差、積差相關(guān)系數(shù)、T檢驗(yàn)、F檢驗(yàn)等。四種測量量表4、比率量表——最高水平的量表有相等單位和絕對零點(diǎn),量表數(shù)值可以進(jìn)行加減乘除運(yùn)算。大多數(shù)物理測量量表是比率量表,但教育測量基本沒有比率量表。二、什么是教育測量(一)教育測量的涵義教育測量是根據(jù)測量學(xué)的原理和方法對教育現(xiàn)象及其屬性進(jìn)行數(shù)量化研究的過程。教育測量主要是對學(xué)生內(nèi)在精神屬性的測量,如學(xué)習(xí)成績、智力水平、品德狀況、心理健康狀況等。所以教育測量主要是一種間接測量。(二)教育測量的特點(diǎn)1、測量結(jié)果的間接性:教育測量是通過被試對測驗(yàn)項(xiàng)目的行為反應(yīng)來測量他的內(nèi)在的心理特征。2、度量單位的相對性:單位是測量的基本要求,理想的單位應(yīng)有確定的意義和相等的價(jià)值。但測量人的行為時(shí)并不具備這樣理想的兩個(gè)條件,所以要對教育測量的分?jǐn)?shù)進(jìn)行轉(zhuǎn)換,如T分?jǐn)?shù),百分等級分?jǐn)?shù)等。(二)教育測量的特點(diǎn)3、測量對象的復(fù)雜性:教育測量主要是對學(xué)生內(nèi)在精神屬性的測量。內(nèi)在性——不能直接測量;多變性——前后測量結(jié)果不一致其他因素——如疲勞、情緒、心理掩飾也會(huì)影響測量結(jié)果4、測量目的的針對性測量總有一定的目的,教育測量必須為實(shí)現(xiàn)教育目的服務(wù)。三、教育測量的誤差問題凡測量必有誤差,但為了盡可能準(zhǔn)確測量,必須盡量控制誤差,使其最小。誤差主要來源于三方面:1、測量的工具(物理測量——儀器和設(shè)備;教育與心理測量——量表)(1)項(xiàng)目取樣(代表性)(2)項(xiàng)目題型(猜測率)(3)項(xiàng)目措詞和要求(模棱兩可,表述不清)如:春天的水怎么樣?三、教育測量的誤差問題2、所測量的事物的一致性程度。測量在短期內(nèi)不受測驗(yàn)經(jīng)驗(yàn)、練習(xí)效應(yīng)的影響。3、測量者的因素主測者:熟練掌握測量技術(shù)。比如,指導(dǎo)語另外,如何計(jì)時(shí)、記分,對被試的各種提問如何回答,以及在測驗(yàn)中途發(fā)生意外情況(如停電,有人遲到,生病;作弊等應(yīng)該如何處理)。受測者:應(yīng)試動(dòng)機(jī)、測驗(yàn)焦慮。指導(dǎo)語會(huì)直接影響受測者的作答態(tài)度與方法。有人以不同的指導(dǎo)語對幾組被試實(shí)施同一個(gè)能力測驗(yàn),結(jié)果表明,將該測驗(yàn)說成“智力測驗(yàn)”的一組,成績最高;將之說成“日常測驗(yàn)”的一組,成績最低。動(dòng)機(jī)不同會(huì)影響其作答態(tài)度、注意力、持久性、反應(yīng)速度等,從而影響測驗(yàn)成績四、教育測量的作用1、有利于提高教育、教學(xué)水平形成性測驗(yàn)、終結(jié)性測驗(yàn)2、有利于提高教育管理水平克服主觀經(jīng)驗(yàn)管理3、有利于發(fā)展教育研究方法用數(shù)據(jù)說話第二節(jié)教育評價(jià)概述思考:當(dāng)你看到這個(gè)問題時(shí),或者說,當(dāng)你聽到教育評價(jià)這個(gè)詞時(shí),你最先想到的是什么?實(shí)驗(yàn)結(jié)果:依人數(shù)的多少排列:師范生:A、測驗(yàn)B、等級C、成績D、不公平E、判斷任課教師:A、測驗(yàn)B、測量C、等級D、成績責(zé)任制E、對個(gè)人秘密的侵犯一、什么是評價(jià)顧名思義,評價(jià)就是評判價(jià)值。書本定義:評價(jià)是指根據(jù)某種價(jià)值觀對事物及其屬性進(jìn)行判斷、衡量,亦即對人或物做出好與壞、真與假、善與惡、美與丑、優(yōu)與劣等等的判斷。評價(jià)意味著對某一事物的價(jià)值給予一般的衡量。價(jià)值是指客體滿足主體需要的程度。實(shí)際上,一種事物的價(jià)值是客觀存在的,但是各人的需要不同,所以各人的價(jià)值觀不一樣,作出的價(jià)值判斷(評價(jià))也不同,可見,評價(jià)是主觀需要與客觀價(jià)值的統(tǒng)一。比如集郵。二、什么是教育評價(jià)教育評價(jià)是一門新興的學(xué)科,迄今尚未形成統(tǒng)一的為大家所公認(rèn)的科學(xué)定義。下面是幾種具有代表性的界說:(一)早期解釋泰勒在40年代初將教育評價(jià)解釋為:“確定教育目標(biāo)在實(shí)際上被理解到何種程度的過程?!薄繕?biāo)評價(jià)模式后來日本學(xué)者進(jìn)一步把它界定為:“教育評價(jià)就是系統(tǒng)地、有步驟地從數(shù)量上測量或從性質(zhì)上描述兒童的學(xué)習(xí)過程和結(jié)果,據(jù)此判定是否達(dá)到了所期望的教育目標(biāo)的一種手段?!薄⒅乜偨Y(jié)性評價(jià),忽視形成性評價(jià)有貫徹之意目標(biāo)評價(jià)實(shí)施二、什么是教育評價(jià)(二)60年代的界說克龍巴赫的定義:“評價(jià)是為決策提供信息的過程。”后來有人對這一界說做了具體的描述:“教育評價(jià)是一種有系統(tǒng)地去尋找并搜集信息資料,以便協(xié)助決策者在諸種可行的途徑(方案)中擇一而行的歷程?!睂逃u價(jià)的闡釋突破了行為目標(biāo)模式的觀點(diǎn),強(qiáng)調(diào)了評價(jià)的信息作用(為教師教學(xué)、管理者決策等),擴(kuò)大拓寬了評價(jià)的功能、范圍。二、什么是教育評價(jià)(三)較深層的定義斯克里文和豪斯的定義:“評價(jià)是一種對優(yōu)缺點(diǎn)和價(jià)值的評估,是一種既有描述又有判斷的活動(dòng)?!比毡拘睦韺W(xué)家大橋正夫認(rèn)為:“教育評價(jià)就是對照教育目標(biāo),對教育行為產(chǎn)生的變化進(jìn)行價(jià)值上的判斷?!边@種觀點(diǎn)強(qiáng)調(diào)評價(jià)者必須進(jìn)行價(jià)值判斷,而非只測量事物或決定目標(biāo)是否達(dá)成。評價(jià)活動(dòng)從反映管理者、決策者的意圖轉(zhuǎn)變?yōu)榉从尘滞馊说囊庠富騼r(jià)值。至此,價(jià)值問題由“價(jià)值中立”的假設(shè),或者說剝離價(jià)值的評價(jià)設(shè)想,重新得到了反思和審視,價(jià)值因素開始“登堂入室”。二、什么是教育評價(jià)(四)我國對教育評價(jià)的初步界定和理解(20世紀(jì)80年代以后)“教育評價(jià)是對教育的社會(huì)價(jià)值做出判斷的過程?!薄敖逃u價(jià)是按照一定的價(jià)值標(biāo)準(zhǔn),對受教育者的發(fā)展變化及構(gòu)成其變化的諸種因素進(jìn)行價(jià)值判斷的過程?!北窘滩牡挠^點(diǎn):“教育評價(jià)是根據(jù)一定的教育價(jià)值觀或教育目標(biāo),運(yùn)用可行的科學(xué)手段,通過系統(tǒng)地搜集信息、分析解釋,對教育現(xiàn)象進(jìn)行價(jià)值判斷,從而為不斷優(yōu)化教育和教育決策提供依據(jù)的過程?!惫餐兀海?)評價(jià)是一個(gè)過程;(2)價(jià)值判斷是評價(jià)的本質(zhì)特征;(3)以一定的教育價(jià)值觀為依據(jù);(4)采用一切可行的科學(xué)手段。
二、什么是教育評價(jià)要理解評價(jià)的本質(zhì),必須明確幾點(diǎn):1.教育評價(jià)的對象、范圍——評什么教育評價(jià)從早期以學(xué)生學(xué)習(xí)結(jié)果為對象,逐漸擴(kuò)大了應(yīng)用的范圍,現(xiàn)代教育評價(jià)則以教育的全領(lǐng)域?yàn)閷ο?。從宏觀到中觀、微觀,各種教育現(xiàn)象都可以作為評價(jià)對象,而且不僅評價(jià)教育結(jié)果,教育計(jì)劃、教育活動(dòng)和教育過程是教育評價(jià)的對象。二、什么是教育評價(jià)
2.教育評價(jià)的目的和作用——為什么評這里涉及評價(jià)的指導(dǎo)思想和教育觀等基本理論問題。教育評價(jià)是為了鑒定、考核,還是為了推動(dòng)、改進(jìn);是為了選拔、淘汰,還是為了教育、發(fā)展,這是兩種不同的教育觀和評價(jià)觀。傳統(tǒng)的教育評價(jià)目的是為了“選拔適合教育的兒童”。而現(xiàn)代教育評價(jià)的目的是為了“創(chuàng)造適合兒童的教育”,即評價(jià)是為了診斷評價(jià)對象的現(xiàn)狀,以便發(fā)現(xiàn)問題,使教育、教學(xué)工作不斷改進(jìn)、不斷完善,不斷適合教育對象的需要,為促進(jìn)兒童個(gè)性全面發(fā)展和提高教育質(zhì)量服務(wù)的——“為了學(xué)生的發(fā)展”。二、什么是教育評價(jià)3.教育評價(jià)的依據(jù)——根據(jù)什么來評價(jià)值判斷是教育評價(jià)的本質(zhì)特征。根據(jù)什么進(jìn)行價(jià)值判斷?這就是評價(jià)的實(shí)質(zhì)和關(guān)鍵。因此必需有一個(gè)衡量和判斷的客觀依據(jù)和標(biāo)準(zhǔn),即教育的價(jià)值目標(biāo)和標(biāo)準(zhǔn)問題。這里又涉及什么是價(jià)值、教育價(jià)值、教育價(jià)值觀的問題。我們應(yīng)當(dāng)根據(jù)馬克思主義價(jià)值觀和社會(huì)主義現(xiàn)代化建設(shè)的需要,根據(jù)人才成長發(fā)展的規(guī)律,確立我們的教育價(jià)值觀和價(jià)值取向,確定教育評價(jià)的價(jià)值目標(biāo)和標(biāo)準(zhǔn)。從這個(gè)意義上說,教育方針、政策和教育目標(biāo)就是我們的教育價(jià)值觀的集中體現(xiàn),我們應(yīng)當(dāng)以教育方針和教育目標(biāo)為依據(jù)確定評價(jià)的目標(biāo)和標(biāo)準(zhǔn)。二、什么是教育評價(jià)4.教育評價(jià)的手段——怎樣評教育評價(jià)是運(yùn)用科學(xué)的方法和手段,對教育現(xiàn)象及其效果作出價(jià)值判斷的活動(dòng)。教育評價(jià)的科學(xué)性在很大程度上取決于方法和手段的科學(xué)性。沒有科學(xué)的方法和手段,就沒有評價(jià)的科學(xué)性。(五)教育評價(jià)與教育測量的關(guān)系1、聯(lián)系:教育測量是教育評價(jià)的基礎(chǔ),教育測量是對教育進(jìn)行量的測定,所獲得的結(jié)果是教育評價(jià)所需信息的主要的、可靠的來源,是對教育的狀態(tài)和價(jià)值進(jìn)行客觀判斷的前提。教育評價(jià)=事實(shí)判斷+價(jià)值判斷教育測量所獲得的數(shù)據(jù)只有通過評價(jià)判斷這個(gè)環(huán)節(jié)才能獲得實(shí)際意義,否則便成了一堆抽象而枯燥的數(shù)字。二、什么是教育評價(jià)二、什么是教育評價(jià)2、區(qū)別:兩者著眼點(diǎn)不同:教育測量是為了取得數(shù)據(jù);教育評價(jià)是要分析解釋,對教育價(jià)值作出判斷。兩者特點(diǎn)不同:教育測量是一種純客觀的過程,具有客觀性特點(diǎn);教育評價(jià)具有客觀性與主體性相結(jié)合特點(diǎn)。兩者復(fù)雜程度不同:教育測量是對教育數(shù)量化的描述,關(guān)心量的獲得,活動(dòng)較為單一;教育評價(jià)著眼于事物質(zhì)的判定,含定性與定量分析,活動(dòng)是多重的。三、教育評價(jià)系統(tǒng)的結(jié)構(gòu)和功能(一)教育評價(jià)系統(tǒng)的結(jié)構(gòu)系統(tǒng)論認(rèn)為,所謂系統(tǒng),是由若干相互聯(lián)系、相互作用的要素所構(gòu)成的、具有特定結(jié)構(gòu)和功能的有機(jī)整體。比如教學(xué)系統(tǒng)——由教師、學(xué)生、教學(xué)組織形式、教學(xué)方法、教學(xué)手段、教材等要素構(gòu)成。任何一個(gè)系統(tǒng)都是較高一級系統(tǒng)的一個(gè)要素,任何一個(gè)要素,通常又是較低一級的系統(tǒng)。凡系統(tǒng)都有一定的結(jié)構(gòu)和功能。構(gòu)成系統(tǒng)的各要素在系統(tǒng)內(nèi)組成的方式就是系統(tǒng)的結(jié)構(gòu),這種結(jié)構(gòu)在運(yùn)動(dòng)狀態(tài)下所發(fā)揮的效能就是功能。因此,系統(tǒng)結(jié)構(gòu)與系統(tǒng)功能是相互制約、相互影響的。(一)教育評價(jià)系統(tǒng)的結(jié)構(gòu)從教育評價(jià)系統(tǒng)結(jié)構(gòu)上分析,教育評價(jià)一般由以下幾個(gè)要素構(gòu)成:1、價(jià)值目標(biāo)和標(biāo)準(zhǔn)2、組織機(jī)構(gòu)和人員
3、評價(jià)方法和技術(shù)4、評價(jià)對象與評價(jià)人員的心理調(diào)控教育評價(jià)必須以目標(biāo)為導(dǎo)向,以標(biāo)準(zhǔn)為依據(jù),因此必須根據(jù)教育目標(biāo)、培養(yǎng)目標(biāo)和課程標(biāo)準(zhǔn),設(shè)計(jì)好評價(jià)目標(biāo)、指標(biāo)、標(biāo)準(zhǔn)等。具體說就是實(shí)施教育評價(jià)所依據(jù)的評價(jià)標(biāo)準(zhǔn)體系。是指實(shí)施評價(jià)的組織機(jī)構(gòu)、領(lǐng)導(dǎo)人員和評價(jià)者。一定的評價(jià)任務(wù)要求設(shè)置與之相適應(yīng)的組織機(jī)構(gòu)和人員,或領(lǐng)導(dǎo)小組和負(fù)責(zé)評價(jià)的人員。目前我國普通教育評價(jià)的實(shí)施,還沒有專門組織機(jī)構(gòu)和負(fù)責(zé)評價(jià)的專業(yè)人員,與國外相比顯得非常落后。
是指實(shí)施教育評價(jià)的技術(shù)和方法,基本技能和能力。其中包括各種搜集評價(jià)信息的方法和技術(shù)、統(tǒng)計(jì)處理評價(jià)信息的方法技術(shù)和進(jìn)行綜合分析判斷的方法和技術(shù)等。是指參與教育評價(jià)的主體(評價(jià)者)與客體(被評者)雙方在評價(jià)過程中所表現(xiàn)的動(dòng)機(jī)、需要和人際關(guān)系等心理狀態(tài),它直接影響評價(jià)過程、評價(jià)程序的順利進(jìn)行,影響評價(jià)任務(wù)的完成,因此對評價(jià)主體與客體的心理調(diào)控就具有重大的意義和作用。必須通過各種調(diào)控的途徑,取得及時(shí)的有針對性的有效控制,才能保證評價(jià)的效果,達(dá)到評價(jià)的目的。
(二)教育評價(jià)的功能1、教育評價(jià)的意義(1)教育評價(jià)是教育管理的重要組成部分教育管理的各個(gè)環(huán)節(jié)(計(jì)劃、實(shí)施、檢查和總結(jié))都需要評價(jià)。評價(jià)能及時(shí)反饋信息,及時(shí)發(fā)現(xiàn)問題,解決問題,是一種科學(xué)的管理。(2)教育評價(jià)是深化教育改革的重要措施要進(jìn)行一項(xiàng)教育改革,首先要進(jìn)行改革方案的可行性評價(jià);在改革進(jìn)程中,必須加強(qiáng)形成性評價(jià);在某一改革告一段落時(shí)必須進(jìn)行終結(jié)性評價(jià)。1、教育評價(jià)的意義(3)教育評價(jià)是全面提高教育質(zhì)量的重要手段通過教育評價(jià),可以加強(qiáng)學(xué)校各項(xiàng)教育教學(xué)工作的有效性。(4)教育評價(jià)是教育科學(xué)研究的重要內(nèi)容現(xiàn)代教育科學(xué)研究被劃分為三大領(lǐng)域:教育基礎(chǔ)理論研究、教育發(fā)展研究和教育評價(jià)研究。可見,教育評價(jià)是教育科學(xué)研究的重要內(nèi)容。2.教育評價(jià)的功能(1)導(dǎo)向功能教育評價(jià)是根據(jù)教育目標(biāo)進(jìn)行的,通過評價(jià)目標(biāo)、指標(biāo)體系的引導(dǎo),可以為學(xué)校指明辦學(xué)方向,為教師與學(xué)生指明教與學(xué)的奮斗目標(biāo)。(2)監(jiān)督檢查功能社會(huì)各界要了解、考察教育的發(fā)展?fàn)顩r,教育行政領(lǐng)導(dǎo)部門要對學(xué)校工作進(jìn)行指導(dǎo)與管理;學(xué)校要對師生的教學(xué)活動(dòng)進(jìn)行調(diào)節(jié)和控制;教師要對學(xué)生的學(xué)習(xí)進(jìn)行監(jiān)督和幫助,都需要通過一個(gè)具有檢查監(jiān)督功能的形式和手段,即教育評價(jià)。(3)激勵(lì)功能教育評價(jià)能起到激勵(lì)先進(jìn),鞭策后進(jìn)的作用。正(負(fù))評價(jià)要社會(huì)承認(rèn)的需要得到滿足(受到挫折)要得到成功的需要得到滿足(受到挫折)自尊感提高(低落)情緒穩(wěn)定(不穩(wěn)定)喚起新的要社會(huì)承認(rèn)的需要(擴(kuò)大或放棄喚起新的要得到成功的需要(擴(kuò)大和放棄)2.教育評價(jià)的功能2.教育評價(jià)的功能(4)篩選擇優(yōu)功能在教育的實(shí)際工作中,經(jīng)常要對評價(jià)對象進(jìn)行篩選擇優(yōu)。這就需要將眾多的對象根據(jù)一個(gè)標(biāo)準(zhǔn)來衡量和判斷,也就是要對他們進(jìn)行科學(xué)的教育評價(jià)。(5)診斷改進(jìn)功能通過教育評價(jià),可以發(fā)現(xiàn)教育、教學(xué)過程中存在的問題和不足,然后提出改進(jìn)的措施,這就是教育評價(jià)的診斷與改進(jìn)功能。四、教育評價(jià)的種類(一)根據(jù)評價(jià)的對象和范圍1.宏觀教育評價(jià)以教育的全領(lǐng)域及宏觀決策方面的教育現(xiàn)象、措施為對象的教育評價(jià),或?qū)σ粋€(gè)具有相當(dāng)規(guī)模的地區(qū)的教育進(jìn)行的評價(jià)。這類評價(jià)屬于總體的、全局性的、高層次的評價(jià)。2.中觀教育評價(jià)以學(xué)校為對象,對學(xué)校內(nèi)部各方面的工作進(jìn)行的評價(jià)。如學(xué)校辦學(xué)質(zhì)量評價(jià)、學(xué)校教學(xué)工作評價(jià)、學(xué)校德育工作評價(jià)、學(xué)校后勤工作評價(jià)等等。3.微觀教育評價(jià)以學(xué)生為對象的教育評價(jià)。如對學(xué)生的學(xué)業(yè)成績、思想品德、智能發(fā)展等的評價(jià)。四、教育評價(jià)的種類(二)根據(jù)評價(jià)的時(shí)間和作用1.診斷性評價(jià)是指在教育、教學(xué)活動(dòng)開始之前,為使計(jì)劃更有效地實(shí)施而進(jìn)行的預(yù)測性、摸底性評價(jià)。其目的是為了摸清評價(jià)對象的基礎(chǔ)和情況,分析存在的問題,為解決問題搜集必要的資料,以找到解決問題的辦法。2.形成性評價(jià)是指在教育、教學(xué)活動(dòng)計(jì)劃實(shí)施的過程中,對計(jì)劃、方案執(zhí)行的情況進(jìn)行的評價(jià)。其目的是為了了解動(dòng)態(tài)過程的效果,及時(shí)反饋信息,及時(shí)調(diào)節(jié),使計(jì)劃、方案不斷完善,以便順利達(dá)到預(yù)期的目的。3.總結(jié)性評價(jià)是指某一教育、教學(xué)活動(dòng)項(xiàng)目告一段落或完成以后進(jìn)行的評價(jià)。其目的是為了了解這項(xiàng)活動(dòng)達(dá)到預(yù)期目標(biāo)的情況以及它的最終效果或效益。診斷性評價(jià)形成性評價(jià)總結(jié)性評價(jià)作用確定評價(jià)對象(主要是學(xué)生)的常見錯(cuò)誤,以便進(jìn)行補(bǔ)償性教育對評價(jià)對象階段性的進(jìn)步進(jìn)行評價(jià),并及時(shí)反饋,以便改進(jìn)和輔導(dǎo)給評價(jià)對象作出鑒定或分等,了解教育目標(biāo)到達(dá)程度和教育效果實(shí)施時(shí)間在教育工作開始或教育工作進(jìn)行中在教育工作進(jìn)行中在一個(gè)教育工作過程完成后四、教育評價(jià)的種類(三)根據(jù)評價(jià)的基準(zhǔn)不同1.相對評價(jià)是指在評價(jià)對象團(tuán)體中確定一個(gè)基準(zhǔn),或以某一團(tuán)體的評價(jià)狀況為基準(zhǔn),對團(tuán)體中的個(gè)體成員在這個(gè)團(tuán)體中所處的相對位置進(jìn)行評價(jià)。相對評價(jià)的特點(diǎn):一是評價(jià)基準(zhǔn)是在評價(jià)對象團(tuán)體內(nèi)部確定的;二是參照的標(biāo)準(zhǔn)是對團(tuán)體進(jìn)行測量以后確定的;三是它關(guān)心的是團(tuán)體成員在該團(tuán)體中所處的相對位置。
A1A2A3M0…An四、教育評價(jià)的種類2.絕對評價(jià)是指以預(yù)先制訂的目標(biāo)為評價(jià)基準(zhǔn),評價(jià)每個(gè)對象達(dá)到目標(biāo)或基準(zhǔn)的程度。也稱目標(biāo)參照評價(jià)。絕對評價(jià)的特點(diǎn):一是評價(jià)基準(zhǔn)是在評價(jià)對象團(tuán)體以外確定的;二是參照標(biāo)準(zhǔn)是在對團(tuán)體進(jìn)行測量以前確定的;三是它關(guān)心的是評價(jià)對象達(dá)標(biāo)的程度。
A1A2A3M0…An四、教育評價(jià)的種類(四)根據(jù)評價(jià)的性質(zhì)1.需要性評價(jià)是指根據(jù)某種需要,對新提出的教育目標(biāo)、計(jì)劃方案的必要性作出價(jià)值判斷。其目的是要判斷新提出的教育目標(biāo)、計(jì)劃方案或活動(dòng)是否有必要進(jìn)行或開展。需要性評價(jià)一般是在某種教育改革項(xiàng)目開始前或?qū)逃顒?dòng)整個(gè)過程進(jìn)行總體反思時(shí)進(jìn)行的。2.可行性評價(jià)是指對教育目標(biāo)、計(jì)劃、方案實(shí)現(xiàn)的條件、可行程度的評價(jià)。其目的是了解實(shí)施教育目標(biāo)、計(jì)劃、方案的物質(zhì)條件、技術(shù)條件和經(jīng)濟(jì)效益。3.配置性評價(jià)是指對教育目標(biāo)、計(jì)劃、方案,所需要的資源條件,人員與業(yè)務(wù)技術(shù)條件的配置進(jìn)行價(jià)值判斷。其目的是合理安排和利用人力、物力和財(cái)力。四、教育評價(jià)的種類(五)根據(jù)評價(jià)的主客體不同
1.自我評價(jià)是指被評者按照一定的評價(jià)目的與要求,對自身的工作、學(xué)習(xí)、品德等方面的表現(xiàn)進(jìn)行價(jià)值判斷。自我評價(jià)能充分發(fā)揮評價(jià)對象在評價(jià)中的積極性,激發(fā)被評價(jià)者的自尊心、自信心,使之自覺地、主動(dòng)地接受評價(jià)。
2.他人評價(jià)是指被評者以外的人進(jìn)行的評價(jià),又叫外部評價(jià)。他人評價(jià),一般較嚴(yán)格、慎重,也比較客觀,可信度較高,具有一定的權(quán)威性,自評只有經(jīng)過他評才能得到有關(guān)方面的認(rèn)可。作業(yè):如何評價(jià)中國的科舉考試?第三節(jié)教育測評的發(fā)展階段先測后評一、教育測量的發(fā)展階段一般可將教育測評的發(fā)展分為以下三個(gè)階段:(一)教育測評的萌芽階段(1864年以前)1、我國古代教育測量思想早在2500多年前,我國古代教育家孔子就曾根據(jù)自己的觀察評定學(xué)生的個(gè)別差異,將人的智力分成三個(gè)等級:“中上之人”,“中人”,“中下之人”。并指出:“中人以上可以語上也,中人以下不可以語上也?!?、我國古代教育測量思想孔子之后約150年,大思想家孟子指出了“萬物皆可測量”的思想:“權(quán),然后知輕重;度,然后知短長。物皆然,心為甚?!睋?jù)可考證的史料分析,世界上最早的心理與教育測量出現(xiàn)于中國西周奴隸制時(shí)期(公元前1100——771年)。(1)《禮記·學(xué)記》記載,在西周的“國學(xué)”中已經(jīng)建立具有相當(dāng)系統(tǒng)性的教育測量制度:“比年入學(xué),中年考校。一年視離經(jīng)辨志,三年視敬業(yè)樂群,五年視博習(xí)親師,七年視論學(xué)取友,謂之小成。九年知類通達(dá),強(qiáng)立而不反,謂之大成?!保?)現(xiàn)代許多教育測量學(xué)家認(rèn)為,教育測量起源于中國的科舉考試(606~1905年,1300年)。科舉考試始于隋,興盛完備于唐,廢于清末,是我國實(shí)行時(shí)間最長的一種選士制度,對我國乃至于對世界的考試制度有重要的影響。法國大革命時(shí)期,資產(chǎn)階級啟蒙思想家伏爾泰曾贊嘆地說:“人類精神,肯定想象不出比這樣的政府更好的政府。在這個(gè)政府里,重要的衙門彼此統(tǒng)屬,任何事情都在那里決定,而其成員,都是經(jīng)過幾場嚴(yán)格的考試的?!笨婆e制是通過分科考試來選取人才,采用口試、貼經(jīng)、墨義、策問、詩賦等方法測試考生。討論:中國科舉考試的優(yōu)缺點(diǎn)2、西方早期教育測量思想中國的科舉考試自16世紀(jì)由利瑪竇傳入歐洲。1702年,英國的劍橋大學(xué)首先以筆試替代口試,開西方學(xué)??荚嚬P試之先河(比中國的科舉制晚了近1100年)。1845年,美國初等學(xué)校普及,學(xué)生數(shù)激增,對畢業(yè)生一一口試已不可能,于是,波士頓市教育委員會(huì)率先在美國相繼以筆試取代口試,考察該市所屬學(xué)校的畢業(yè)生(比中國的科舉制晚了近1240年)。(二)教育測量的蓬勃興起階段(1864—1940年)該階段以費(fèi)舍1864年的《量表集》為標(biāo)志;1897萊斯的拼字測驗(yàn)引起人們對測驗(yàn)問題的極大關(guān)注;1879年,馮特在德國萊比錫建立了第一個(gè)心理學(xué)實(shí)驗(yàn)室,其方法論的變革促進(jìn)了教育測量運(yùn)動(dòng)的興起;1882年,英國高爾頓(Galton)受達(dá)爾文影響,在倫敦建立了人類學(xué)測驗(yàn)實(shí)驗(yàn)室和德國馮特的心理學(xué)實(shí)驗(yàn)室相對峙。高爾頓在他的實(shí)驗(yàn)室里發(fā)明了許多測量儀器,如用來測量長度視覺辨別的“高爾頓棒”、用于測量聽力的“高爾頓笛”,并以這些感覺敏銳度為指標(biāo)來判斷人的智力。他通過測量發(fā)現(xiàn)白癡對熱、冷、痛等感覺的鑒別能力較低。他還是應(yīng)用等級評定量表、問卷法以及自由聯(lián)想法的先驅(qū),他創(chuàng)造了粗略計(jì)算相關(guān)系數(shù)的方法,他的學(xué)生皮爾遜就是積差相關(guān)系數(shù)的發(fā)明者。(二)教育測量的蓬勃興起階段(1864—1940年)1904年,法國教育部委派許多教育家、醫(yī)學(xué)家組成一個(gè)委員會(huì),研究公立學(xué)校內(nèi)低能兒童班級的管理問題,心理學(xué)家比奈是其中的成員之一,他主張用一種測驗(yàn)的方法去辨別心理缺陷兒童。經(jīng)過他與助手西蒙的精心研究,于1905年在《心理學(xué)年報(bào)》上發(fā)表了題為《診斷異常兒童智力的新方法》的論文。該文介紹的新方法就是世界上第一個(gè)智力量表——比納—西蒙智力量表。(二)教育測量的蓬勃興起階段(1864—1940年)20世紀(jì)20年代,美國的教育測驗(yàn)運(yùn)動(dòng)蓬勃發(fā)展起來。美國的教育測驗(yàn)運(yùn)動(dòng)的發(fā)展可分為三個(gè)時(shí)期。(1)開拓期(1904—1915年)。這是方法的探索與初步的發(fā)展時(shí)期。在美國心理學(xué)家卡特爾研究的基礎(chǔ)上,1904年桑代克發(fā)表了在測驗(yàn)學(xué)史上的劃時(shí)代巨著——《精神與社會(huì)測驗(yàn)學(xué)導(dǎo)論》,標(biāo)志著教育測驗(yàn)運(yùn)動(dòng)的開始。桑代克在書中提出了“凡是存在的東西都有數(shù)量,凡有數(shù)量的東西都可測量”的著名信條。美國心理學(xué)家卡特爾(J.M.Cattell)曾留學(xué)德國,師從馮特,在英國劍橋大學(xué)任教期間與高爾頓交往甚密。回師從美后,他編制了幾十個(gè)測驗(yàn),包括測量肌肉力量、運(yùn)動(dòng)速度、痛感受性、視聽敏度、重量辨別力、反應(yīng)時(shí)、記憶力以及類似的一些項(xiàng)目。美國學(xué)者波林指出:“在測驗(yàn)領(lǐng)域中,19世紀(jì)80年代是高爾頓的10年,90年代是卡特爾的10年,20世紀(jì)頭10年則是比奈的10年”。(二)教育測量的蓬勃興起階段(1864—1940年)2、興盛期(1915—1930年)。這一時(shí)期對桑代克提出的信條,不但在技術(shù)方面努力求得正確應(yīng)用,而且不斷提高到理論上加以證實(shí)。這一時(shí)期已發(fā)展了三種不同性質(zhì)的測驗(yàn),即學(xué)力測驗(yàn)、智力測驗(yàn)和人格測驗(yàn)。據(jù)統(tǒng)計(jì),到1928年止,便有3000多種測驗(yàn)問世。(二)教育測量的蓬勃興起階段(1864—1940年)3、教育測驗(yàn)的批判期(1930—1940年)。隨著教育測驗(yàn)運(yùn)動(dòng)的不斷發(fā)展,人們逐漸認(rèn)識(shí)到,教育測驗(yàn)盡管能使考試客觀化、標(biāo)準(zhǔn)化,并能把人的能力換算成數(shù)字,甚至個(gè)別差異的程度也可以量化,但測驗(yàn)畢竟不能測得人的全部,如社會(huì)態(tài)度、實(shí)際技術(shù)、創(chuàng)造力、興趣、鑒賞力等等,因難以數(shù)量化,教育測驗(yàn)便不能充分把握,往往被教育者所冷落。然而,這些又都是教育的重要方面。1931年,塞蒙茲(Symonbs,P.M)發(fā)表了《人格與行動(dòng)的診斷》一書,主張人格測量應(yīng)用評定法、問卷法、交談法、軼事記錄法等,從而從思想上否定了單純的人格測量法。從此,教育測量運(yùn)動(dòng)逐步過渡到教育評價(jià)的時(shí)期。(三)教育測量的深入發(fā)展階段(1940至今)30年代,美國進(jìn)步主義的一些學(xué)者針對教育測量過分追求客觀化、標(biāo)準(zhǔn)化、數(shù)量化的缺陷,提出了改革措施。教育測量有了新的進(jìn)展,表現(xiàn)在:第一,開始重視學(xué)生智力和思想品德的測量,不能單測量學(xué)生的知識(shí)。第二,教育測量量表的編制突破了過去單一答案的求同式思維題,發(fā)展為包括多種答案的求異式思維題和論文式試題。(二)教育測量的蓬勃興起階段(1864—1940年)第三,教育測量的范圍由過去偏重于學(xué)生學(xué)習(xí)成績的測量,發(fā)展到涉及課程設(shè)置、教材、教育改革方案等教育工作的各個(gè)方面的測量。第四,現(xiàn)代的教育測量由過去單一的常模參照性測驗(yàn)?zāi)J桨l(fā)展到常模參照性測驗(yàn)與目標(biāo)參照性測驗(yàn)相結(jié)合的模式。第五,教育測量本身的理論研究與技術(shù)開發(fā)更加深入與完善。如關(guān)于測驗(yàn)等值、項(xiàng)目反應(yīng)理論(IRT)、測驗(yàn)信度、評分誤差控制的研究等都有了較大的發(fā)展?,F(xiàn)代化的測量工具(如電腦、光學(xué)掃描器等)也在教育測量中得到廣泛的使用。二、教育評價(jià)的發(fā)展階段教育評價(jià)作為科學(xué)概念,是20世紀(jì)30年代,在美國進(jìn)步主義教育聯(lián)盟的新教育課程的改革實(shí)驗(yàn)“八年研究”中正式誕生的。具體地說,教育評價(jià)思想源于中國古代教育的考試,孕育于西方教育測量的批判,形成于“八年研究”的改革實(shí)踐。(一)教育評價(jià)產(chǎn)生的社會(huì)背景20世紀(jì)20年代末,30年代初,美國爆發(fā)了一場空前的經(jīng)濟(jì)危機(jī)。二、教育評價(jià)的發(fā)展階段教育評價(jià)自產(chǎn)生至今大致經(jīng)歷了三個(gè)發(fā)展階段,在這三個(gè)階段中教育評價(jià)方法論各有其不同的特點(diǎn):
1.教育評價(jià)的開創(chuàng)時(shí)期(1930—1958年)泰勒在“八年研究”(1933-1940)的報(bào)告《史密斯——泰勒報(bào)告》里,系統(tǒng)地總結(jié)了教育評價(jià)思想體系,第一次提出了教育評價(jià)的科學(xué)概念——“評價(jià)過程在本質(zhì)上是確定課程和教學(xué)大綱在實(shí)際上實(shí)現(xiàn)教育目標(biāo)的程度的過程。”二、教育評價(jià)的發(fā)展階段泰勒的“目標(biāo)中心模式”深深打上了行為主義心理學(xué)的烙印,其方法論的實(shí)證化特點(diǎn)非常明顯。首先,泰勒認(rèn)為開展評價(jià)的依據(jù)是把所要評價(jià)的內(nèi)容分成具體可見的、可操作的學(xué)生行為目標(biāo),以便在評價(jià)中能夠圍繞這些行為目標(biāo)進(jìn)行觀察和測定,以此來控制教育活動(dòng),評價(jià)教育成敗。如果制定的目標(biāo)越明確、具體,可操作性越強(qiáng),則實(shí)用性也就越大。他說:“除非對目標(biāo)所指的那種行為有比較清楚的概念,否則就無法知道期待學(xué)生產(chǎn)生哪種行為,以了解這些目標(biāo)實(shí)現(xiàn)程度?!倍?、教育評價(jià)的發(fā)展階段其次,泰勒在他的評價(jià)模式中非常強(qiáng)調(diào)對學(xué)習(xí)和教育結(jié)果進(jìn)行客觀地測量、統(tǒng)計(jì)。他曾提出過三種評價(jià)手段:(1)由評價(jià)專家組織測驗(yàn),通過這些測驗(yàn)測得學(xué)生的行為變化情況;(2)把學(xué)生置于特定情境之中,對學(xué)生的特定行為進(jìn)行有目的的觀察;(3)用提問的形式使學(xué)生表達(dá)觀點(diǎn),借以引起學(xué)生作出能體現(xiàn)其知識(shí)和能力的回答。泰勒在運(yùn)用這些手段時(shí),提出過三個(gè)重要準(zhǔn)則:客觀性、信度和效度。如果任何一種手段違背了這三條準(zhǔn)則,都將是無效的手段。二、教育評價(jià)的發(fā)展階段泰勒的目標(biāo)中心模式,教育目標(biāo)至關(guān)重要。為了幫助教育者更清楚地表達(dá)教育目標(biāo),美國布盧姆于1948年開始致力于教育目標(biāo)的分類研究,1956年布盧姆等研究完成了認(rèn)知領(lǐng)域的目標(biāo)分類,1964年克拉斯弗完成了情感領(lǐng)域的目標(biāo)分類,1965年和1972年辛普森和哈羅分別完成了動(dòng)作技能領(lǐng)域的目標(biāo)分類。使評價(jià)手段的可操作性向前邁了一步,加強(qiáng)了評價(jià)的實(shí)證化傾向。此外,泰勒模式還催生了標(biāo)準(zhǔn)化測驗(yàn),使評價(jià)手段的客觀化程度進(jìn)一步加強(qiáng)。
二、教育評價(jià)的發(fā)展階段2.大發(fā)展時(shí)期(1958—1972年)背景:1957年蘇聯(lián)的人造衛(wèi)星上天,美國朝野轟動(dòng)。1958年美國《國防教育法》頒布,一方面給教育投入大量經(jīng)費(fèi),另一方面又要求對教育工作實(shí)行科學(xué)的評價(jià)。1963年美國政府正式提出要對教育的效能和質(zhì)量進(jìn)行評價(jià),并撥出大量??钣糜诮逃u價(jià)理論與技術(shù)、方法的研究和培養(yǎng)專門的教育評價(jià)工作人員。二、教育評價(jià)的發(fā)展階段1963年,克龍巴赫發(fā)表了《通過評價(jià)改進(jìn)教程》一文,尖銳地批評了以往的評價(jià)工作,他批評以往的評價(jià)概念缺乏實(shí)用性和合理性,用實(shí)驗(yàn)組和控制組的測驗(yàn)分?jǐn)?shù)進(jìn)行比較,這是偏重于事后評價(jià)。他認(rèn)為,應(yīng)把評價(jià)作為一個(gè)收集和報(bào)告對課程設(shè)計(jì)有指導(dǎo)意義的信息過程,只報(bào)告測驗(yàn)的平均分?jǐn)?shù)沒有報(bào)告測驗(yàn)項(xiàng)目及其分析是沒有用的。他指出:(1)評價(jià)人不僅應(yīng)關(guān)心教育的目標(biāo),檢驗(yàn)教育目標(biāo)達(dá)到的程度,更應(yīng)關(guān)心教育的決策;(2)評價(jià)的重點(diǎn)應(yīng)放在教育過程之中,而不是在教育過程結(jié)束之后;(3)評價(jià)不是決定優(yōu)劣的過程,而是作為一個(gè)收集和反饋信息的過程。二、教育評價(jià)的發(fā)展階段1963年,格拉澤發(fā)表文章,在指出相對評價(jià)的不足時(shí),提出在今后學(xué)校教育中應(yīng)著重進(jìn)行絕對評價(jià)。1966年,斯塔夫賓提出了把背景評價(jià)(Context)、輸入評價(jià)(Input)、過程評價(jià)(Process)和結(jié)果評價(jià)(Product)結(jié)合起來而形成的CIPP模式。首次提出了過程評價(jià)的思想,他認(rèn)為,評價(jià)不應(yīng)局限于評判決策者所確定的教育目標(biāo)預(yù)期效果的達(dá)到程度,而應(yīng)該收集有關(guān)教育方案實(shí)施全過程及其成果的資料,評價(jià)是為決策提供信息的過程——“評價(jià)的最主要目的不是為了證明(prove),而是為了改進(jìn)(Improve)”
。二、教育評價(jià)的發(fā)展階段1、預(yù)期結(jié)果的決策,為這類決策提供信息的是背景評價(jià)。這種評價(jià)實(shí)際上是根據(jù)社會(huì)需要對教育目標(biāo)本身作出價(jià)值判斷,以圖發(fā)現(xiàn)教育計(jì)劃的目標(biāo)同計(jì)劃的實(shí)際影響的差異。所以,其實(shí)質(zhì)是診斷性的。2、預(yù)期方法的決策,為這類決策提供信息的是輸入評價(jià),它是在闡明了決策目標(biāo)后,對達(dá)到目標(biāo)所需要的條件進(jìn)行評價(jià),實(shí)質(zhì)上是對教育方案、計(jì)劃可行性的評價(jià)。二、教育評價(jià)的發(fā)展階段3、實(shí)際方法的決策,為這類決策提供信息的是過程評價(jià),它為計(jì)劃方案的制定者提供反饋信息,用于發(fā)現(xiàn)其實(shí)施過程中的潛在問題。4、實(shí)際結(jié)果的決策,為這類決策提供信息的是結(jié)果評價(jià),它的重點(diǎn)也在于目標(biāo)到達(dá)度。該模式的主要特點(diǎn):突破了泰勒的框架,在許多地方有了新的發(fā)展,其中最主要的是目標(biāo)的合理性和可行性受到了充分的重視,泰勒模式的缺陷在這里得到了克服。二、教育評價(jià)的發(fā)展階段1967年,斯克里文發(fā)表了《評價(jià)方法論》,提出了以下幾種概念的區(qū)別:(1)形成性評價(jià)和終結(jié)性評價(jià);(2)專業(yè)性評價(jià)和業(yè)余性評價(jià);(3)比較性評價(jià)和非比較性評價(jià);(4)目標(biāo)達(dá)成度的評價(jià)和目標(biāo)是否值得達(dá)成的評價(jià)。同時(shí),斯克里文還提出了目標(biāo)游離模式(GoalFree),認(rèn)為教育活動(dòng)除了收到預(yù)期的效應(yīng)外,還會(huì)產(chǎn)生各種“非預(yù)期效應(yīng)”。這些非預(yù)期效應(yīng)可能是積極的,也可能是消極的,但它對教育活動(dòng)的社會(huì)價(jià)值總要產(chǎn)生或多或少的影響,因此,為了降低評價(jià)活動(dòng)中方案、計(jì)劃制定者主觀意圖的影響,不能把評價(jià)目的告訴評價(jià)者,以利于評價(jià)者收集教育的全部成果和信息,這種不受預(yù)定活動(dòng)目標(biāo)影響的評價(jià)模式被稱之為“目標(biāo)游離模式”或“無目標(biāo)模式”。二、教育評價(jià)的發(fā)展階段1969年,艾斯納對泰勒的目標(biāo)評價(jià)理論進(jìn)行了抨擊。他認(rèn)為,對教育本質(zhì)的不同理解,可以造成對目標(biāo)的不同表述,泰勒的評價(jià)方法不一定適用于教育實(shí)際。因?yàn)樗葲]有提供評價(jià)目標(biāo)本身的方法,也沒有提出判斷評價(jià)目標(biāo)與結(jié)果之間差異的標(biāo)準(zhǔn)。在這個(gè)階段,出現(xiàn)了40多種評價(jià)模式。其發(fā)展演變情況是:從專家學(xué)者的研究領(lǐng)域變成政府工作范圍;評價(jià)的內(nèi)容和范疇從學(xué)生學(xué)習(xí),課程與教學(xué)效果發(fā)展到教育決策和教育規(guī)劃;評價(jià)的理論與方法技術(shù)有了迅速發(fā)展。教育評價(jià)方法論的主要特點(diǎn)是實(shí)證化傾向仍占主要地位,人文化傾向已開始萌芽。二、教育評價(jià)的發(fā)展階段
3.專業(yè)時(shí)期(1973年至今)背景:第二次世界大戰(zhàn)后,隨著美國經(jīng)濟(jì)的增長,公民權(quán)運(yùn)動(dòng)開始高漲,特別是60年代的社會(huì)動(dòng)亂和社會(huì)變革時(shí)期,迫使人們在研究教育問題時(shí),開始考慮人的需要和人與人之間交互作用對教育的影響,在方法論上逐漸向人文主義哲學(xué)靠攏。二、教育評價(jià)的發(fā)展階段人文主義哲學(xué)思潮:德國的赫爾德認(rèn)為人類生命與自然世界中的背景相聯(lián)系,他從人的自然與精神的統(tǒng)一和雙重特征出發(fā),認(rèn)為人性不是一個(gè)給定的數(shù)據(jù)而是一個(gè)問題,不是到處都一致的某種東西,它的基本特征可以一勞永逸地被人發(fā)現(xiàn),而是可變的東西,它的特征要求在特殊的事例中進(jìn)行單獨(dú)的調(diào)查研究。二、教育評價(jià)的發(fā)展階段狄而泰認(rèn)為:精神科學(xué)與自然科學(xué)完全不同,自然科學(xué)研究的是外在于人的客觀或物質(zhì)現(xiàn)象,而精神科學(xué)研究的則是人的精神生活,精神生活的中心或基本內(nèi)容是價(jià)值和意義的體驗(yàn)、表達(dá)和理解。叔本華和尼采的意志哲學(xué),新康德主義者溫德爾班德和李凱爾特的文化科學(xué)方法論,狄爾泰學(xué)派的生命哲學(xué)和解釋學(xué),以及胡塞爾的現(xiàn)象學(xué)和海德格爾、加達(dá)默爾的存在主義和哲學(xué)解釋學(xué)。這些哲學(xué)思潮和運(yùn)動(dòng),成為現(xiàn)代人文主義思潮的主要來源。二、教育評價(jià)的發(fā)展階段為了順應(yīng)人文主義哲學(xué)潮流,教育評價(jià)出現(xiàn)了一系列新的模式。這些評價(jià)模式的共同特點(diǎn)就是在評價(jià)中不過分追求客觀性,而是試圖摒棄數(shù)量特征,不只是單純從評價(jià)者的需要出發(fā),而是考慮到所有參與人的需要,強(qiáng)調(diào)個(gè)體的經(jīng)驗(yàn)、活動(dòng)和主觀認(rèn)識(shí)的作用,強(qiáng)調(diào)必須把人類行為置于特定情境中加以理解,重視在調(diào)查研究中,在隨機(jī)觀察中,在與參與者的會(huì)談和討論中,獲得定性的、而非定量的資料,主張以問題中心,把價(jià)值和意識(shí)問題作為研究的起點(diǎn),提倡所謂的人文的方法,如個(gè)案法、談話法、臨床法、歷史法等。二、教育評價(jià)的發(fā)展階段1975年,斯塔克創(chuàng)立了一種重視所有評價(jià)參與人的觀點(diǎn)和看法的評價(jià)模式——“應(yīng)答評價(jià)模式”。斯塔克認(rèn)為“如果教育評價(jià)更直接地指向方案的活動(dòng)而非方案的內(nèi)容,如果它能滿足評價(jià)聽取人對信息的需求,或者在反映方案得失長短的評價(jià)報(bào)告中更能反映人們不同的價(jià)值觀念,那么,這種評價(jià)即可稱為‘應(yīng)答評價(jià)’?!痹撃J街荚谕怀鋈说男枰谠u價(jià)過程中的作用。二、教育評價(jià)的發(fā)展階段在具體的評價(jià)過程中,應(yīng)答性評價(jià)不是象預(yù)定式評價(jià)那樣強(qiáng)調(diào)目標(biāo)的表述和客觀的測驗(yàn),“該方法以犧牲某些測量上的準(zhǔn)確性換取評價(jià)結(jié)果對方案有關(guān)人員來說更多的有用性,”它要求評價(jià)人要與被評價(jià)活動(dòng)有關(guān)的各種人員接觸,了解他們的愿望、看法并作實(shí)地觀察,根據(jù)由此獲得的信息確定評價(jià)范圍,設(shè)計(jì)評價(jià)方案、選擇收集信息的方法,然后對收集的信息進(jìn)行分析判斷并按需要對回答的問題進(jìn)行分類,再將分類評價(jià)結(jié)果寫成正式報(bào)告分發(fā)各有關(guān)人員,最后,在分類評價(jià)的基礎(chǔ)上對教育方案作出全面評價(jià)。這是一個(gè)廣泛征詢意見,了解評價(jià)需要的過程。二、教育評價(jià)的發(fā)展階段1973年毆文斯提出了對手式評價(jià)模式。對手式評價(jià)模式是為揭示教育方案和教育活動(dòng)正反兩個(gè)方面的長短得失所采用的準(zhǔn)法律過程評委會(huì)審議形式的評價(jià)模式。它十分重視聽取教育方案和教育活動(dòng)的爭議意見,尤其是反對的意見,所以又稱“反對者”、“反向”或“抗衡”評價(jià)模式。對手式評價(jià)抓住了決策范圍的兩端,采用了“斗爭”理論,靠相互對立的評價(jià)者通過出示更好的、也是更有說服力的證據(jù),或者用能導(dǎo)致優(yōu)勢的法律或辯論技術(shù)(或其它技術(shù))去努力獲勝。對手通過爭論,使各方面的意見得到充分反映,以便決策者全面掌握情況,作出正確的結(jié)論。二、教育評價(jià)的發(fā)展階段20世紀(jì)80年代,美國出現(xiàn)了自稱“第四代教育評價(jià)”的理論,由古巴(E.Cuba)和林肯(Y.S.Lincoln)合作創(chuàng)立。古巴和林肯認(rèn)為:從評價(jià)本質(zhì)上看,評價(jià)描述的并不是事物真正的、客觀的狀態(tài),而是參與評價(jià)的人或團(tuán)體關(guān)于評價(jià)對象的一種主觀性認(rèn)識(shí),是一種通過“協(xié)商”而形成的“心理建構(gòu)”。是參與評價(jià)及與評價(jià)有關(guān)的人和團(tuán)體基于對對象的認(rèn)識(shí)而整合成的一種共同的、公認(rèn)的主觀看法。從某種意義上說,評價(jià)結(jié)果由于受人們的物質(zhì)心理、社會(huì)、文化條件限制,不是絕對意義上的“真理”,連“近似真理”也算不上,常常為人們主觀偏好與誤差所制約。因此,評價(jià)中應(yīng)充分聽取不同方面的意見,協(xié)調(diào)各種價(jià)值標(biāo)準(zhǔn)間的分歧,縮短不同意見間的距離,最后形成公認(rèn)的一致的看法。二、教育評價(jià)的發(fā)展階段古巴和林肯認(rèn)為,評估過程可以包括以下環(huán)節(jié):其一,確定所有與評估有關(guān)的人員,包括決策者、執(zhí)行者、評估者、調(diào)適對象和局外人員;其二,征詢各有關(guān)人員的評估構(gòu)想與要求;其三,對不同的構(gòu)想和要求加以評判說明;其四,針對未達(dá)成共識(shí)的觀點(diǎn)擬定協(xié)商議程,收集提供協(xié)商所需的信息;其五,各種觀點(diǎn)的代表進(jìn)行協(xié)商論辯,通過論辯、協(xié)商以求達(dá)成共識(shí);其六,通過不斷的論辯、協(xié)商,解決不斷出現(xiàn)的新問題。中國發(fā)展性評價(jià)網(wǎng)http:///第二章教育測量的質(zhì)量指標(biāo)分析一個(gè)測驗(yàn)的質(zhì)量,一般要從兩個(gè)方面來進(jìn)行:一是考察整個(gè)測驗(yàn)的質(zhì)量指標(biāo),即考察測驗(yàn)的信度和效度;二是考察每個(gè)題目(項(xiàng)目)的質(zhì)量指標(biāo),即考察測驗(yàn)項(xiàng)目的難度和區(qū)分度。信度主要對整個(gè)測量而言。效度難度主要對測量的項(xiàng)目而言。區(qū)分度第一節(jié)信度一、什么是信度信度是指測量結(jié)果的穩(wěn)定性或可靠性程度。換句話說,一個(gè)信度高的測驗(yàn),對同一個(gè)人或同一組被試先后施測兩次,結(jié)果應(yīng)保持一致,否則,就是信度不高的測驗(yàn)。一般地說,一個(gè)好的測量必須具有較高的信度,也就是說,一個(gè)好的測量工具,只要遵守操作規(guī)則,其結(jié)果就不應(yīng)隨工具的使用者或使用時(shí)間等方面的變化而發(fā)生較大的變化。例如:用標(biāo)準(zhǔn)的鋼尺和一種具有較大彈性的皮尺去測量一張桌子的長度,皮尺的測量信度不高。一、什么是信度可以從以下三個(gè)方面去理解測量的信度:1、信度指實(shí)測值和真值相差的程度;凡測量必有誤差。實(shí)際測得的分?jǐn)?shù)往往難以和這個(gè)人的真正水平值完全一致,它總會(huì)略高于或略低于其真實(shí)水平值,有時(shí)甚至?xí)?yán)重偏離其真正水平值。例如:我們平常說“××考生基本上考出了其應(yīng)有水平”,“××考生失手了”,或“××這次測驗(yàn)超水平發(fā)揮”等,就是對測量現(xiàn)象的一種描述。一、什么是信度我們可以用一個(gè)公式表示實(shí)測值(X)和真值(T)相差的程度:X=T+E式中,X表示實(shí)測值,T表示真值,E表示誤差。但測量的真值是未知的(如果已知就沒有必要進(jìn)行測量了),因此,誤差也是無法求出來的。當(dāng)然,可以把很多次測量的實(shí)測值的平均值作為真值的近似值,但這在實(shí)踐上不具有可操作性。所以,根據(jù)這種理解,無法求出信度的大小。一、什么是信度(二)信度指統(tǒng)計(jì)量與參數(shù)之間的接近程度統(tǒng)計(jì)量是指樣本上的各種數(shù)字特征(如樣本的平均數(shù)、標(biāo)準(zhǔn)差等),參數(shù)是總體上的各種數(shù)字特征(如總體的平均數(shù)、標(biāo)準(zhǔn)差等)。統(tǒng)計(jì)量越接近參數(shù),這個(gè)統(tǒng)計(jì)量的可靠性便越高,因此,信度就越高。要知道統(tǒng)計(jì)量與參數(shù)的接近程度,可以對參數(shù)進(jìn)行區(qū)間估計(jì)。這種方法對估計(jì)真分?jǐn)?shù)也是有用的。但這種理解也無法計(jì)算出信度。一、什么是信度(三)信度指兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度如果對同一對象進(jìn)行兩次重復(fù)測量或者等值測量后,計(jì)算兩次測量的相關(guān)系數(shù),相關(guān)系數(shù)越高,說明測量的信度就越高;反之,就越低。對于信度的這種理解,有利于信度的計(jì)算。但重復(fù)測量會(huì)受到被測對象的經(jīng)驗(yàn)、知識(shí)的增長等因素的影響,等值測量又較難編制,因此,采用這種方法計(jì)算信度時(shí),也是有誤差的。X=T+E根據(jù)方差的可加性,有:Sx2=St2+Se2Sx2為測驗(yàn)總方差(實(shí)得分?jǐn)?shù)方差),St2為真分?jǐn)?shù)方差,Se2為測驗(yàn)誤差的方差。當(dāng)Sx2不變時(shí),St2越大,Se2越小,反之亦然二、信度的理論公式在測量理論中,信度被定義為:一組測驗(yàn)分?jǐn)?shù)的真方差(真變異數(shù))與總方差(實(shí)得變異數(shù))的比值,即:
由于Sx2=St2+Se2,公式變?yōu)椋嚎梢?,隨機(jī)誤差分?jǐn)?shù)的方差越小,測量的信度就越高。信度的取值范圍為[0,1],如果測量誤差的方差為0,那么,測量的信度等于1,如果測量誤差的方差等于觀察分?jǐn)?shù)的方差,則測量的信度為0。二、信度的理論公式但在實(shí)際測量中,St2和Se2都是不能直接求得的,因此信度是一個(gè)理論值三、信度的類型和估計(jì)方法(一)重測信度(穩(wěn)定性系數(shù))——估計(jì)測驗(yàn)跨時(shí)間一致性的指標(biāo)1、概念:是指用同一測驗(yàn),對同一組被試先后施測兩次,然后根據(jù)被試兩次測驗(yàn)分?jǐn)?shù)計(jì)算其相關(guān)系數(shù)。重測信度是假定所測量的特性處于相對穩(wěn)定的狀態(tài),如果用同一測驗(yàn)對相同被試先后施測兩次,其結(jié)果應(yīng)相同或相近,我們就說測驗(yàn)結(jié)果具有穩(wěn)定性,信度高,如果兩次測驗(yàn)結(jié)果不同或相差很大,則表明測驗(yàn)結(jié)果缺乏穩(wěn)定性,即信度低。2、重測信度的估計(jì)方法——重測法即用同一測驗(yàn)以一定的時(shí)間間隔,對相同的被試先后施測兩次,然后計(jì)算兩次實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)。其模式是:測驗(yàn)A1
適當(dāng)時(shí)間測驗(yàn)A2兩次測驗(yàn)均以A表示,即兩次測驗(yàn)完全相同,A的下標(biāo)1、2表示同一測驗(yàn)施測兩次,時(shí)距可短至幾分鐘,長可達(dá)數(shù)年。計(jì)算公式——積差相關(guān)系數(shù)例:用學(xué)習(xí)動(dòng)機(jī)測驗(yàn)對15名被試先后施測兩次(間隔時(shí)間為2周),得分如下表,求該測驗(yàn)的信度。被試123456789101112131415前測(1)后測(2)20182321171820171613141312882022192218151417151614121076你認(rèn)為重測法存在什么問題?1、兩次測驗(yàn)之間的時(shí)間間隔要適宜。重測信度的大小常常受兩次測驗(yàn)的時(shí)間間隔長短的影響,間隔時(shí)間過短,第一次測驗(yàn)記憶猶新,容易回憶出上次的答案,因而夸大了穩(wěn)定性,間隔時(shí)間過長,被試可能由于經(jīng)驗(yàn)積累、練習(xí)、成熟的影響,成績就可能與第一次大有差別,因而降低穩(wěn)定性。間距應(yīng)多長,應(yīng)視測驗(yàn)類型和準(zhǔn)備如何利用測驗(yàn)結(jié)果而定。在報(bào)告重測信度時(shí),一般要說明時(shí)間間隔及被試在此期間的有關(guān)活動(dòng)。2、重測法適用于速度測驗(yàn)而不適用于難度測驗(yàn)。因?yàn)樗俣葴y驗(yàn)題目較多,測驗(yàn)有足夠長度,時(shí)間較緊,被試無暇慢慢地回憶,所以第一次測驗(yàn)的記憶影響較少。3、應(yīng)注意提高被試的積極性,由于重測法是把原測驗(yàn)再重測一次,所以被試容易興趣索然,采取不積極合作的態(tài)度,使第二次測驗(yàn)質(zhì)量降低,所以,調(diào)動(dòng)被試的積極性很重要。4、要實(shí)施兩次測驗(yàn),耗費(fèi)人力、物力和時(shí)間較多。你認(rèn)為重測法存在什么問題?(二)復(fù)本信度(等值性系數(shù))——估計(jì)測驗(yàn)跨形式的一致性指標(biāo)1、概念:是指用兩個(gè)等值(題型、題數(shù)、難度、區(qū)分度相等),但具體內(nèi)容不同的測驗(yàn),在最短時(shí)間內(nèi),對相同被試先后施測兩次,然后根據(jù)兩次測驗(yàn)分?jǐn)?shù)計(jì)算其相關(guān)系數(shù)。復(fù)本信度是衡量兩個(gè)不同版本的測驗(yàn)的等值程度的指標(biāo),被試如果具備某一心理特質(zhì),那么,用性質(zhì)相同而題目不同的兩個(gè)等值測驗(yàn)來施測,結(jié)果應(yīng)該具有一致性,否則的話,說明測驗(yàn)信度低。2、復(fù)本信度的估計(jì)方法——復(fù)本法編制兩份等值的測驗(yàn)(復(fù)本),先用第一種測驗(yàn)對被試進(jìn)行測驗(yàn),接著再用第二種測驗(yàn)進(jìn)行施測,然后求兩次測驗(yàn)的積差相關(guān)系數(shù)(公式同上)。其模式是:測驗(yàn)A最短時(shí)距測驗(yàn)B3、使用復(fù)本信度應(yīng)注意的問題(1)復(fù)本法的關(guān)鍵是兩個(gè)測驗(yàn)必須等值(2)兩次測驗(yàn)時(shí)距盡可能短,以便避免知識(shí)積累、練習(xí)效應(yīng)等因素的影響(3)如果兩次測驗(yàn)緊接進(jìn)行,應(yīng)該注意避免被試易厭倦。(三)同質(zhì)信度(內(nèi)部一致性系數(shù))
——估計(jì)測驗(yàn)內(nèi)部跨測題的一致性指標(biāo)1、概念:是指將一個(gè)測驗(yàn)分成兩部分(例如分成奇數(shù)題和偶數(shù)題,或前半部分和后半部分),然后計(jì)算兩部分測題得分的相關(guān)系數(shù)。前述的兩種方法,都必須對被試施測兩次,然后計(jì)算兩次得分的相關(guān)系數(shù)。同質(zhì)信度只需施測一次。2、同質(zhì)信度的估計(jì)方法——分半信度法、庫德—理查遜公式法和α系數(shù)法(1)分半信度法。分半信度法是將測驗(yàn)中的測題平均分成兩組,然后分別計(jì)算每一組的得分,并求兩者的相關(guān)系數(shù)。求得的相關(guān)系數(shù)還不是同質(zhì)信度,因?yàn)榘言囶}分成兩組后,試卷的長度減少了一半,這會(huì)降低測驗(yàn)的信度,一般來說,測驗(yàn)越長,信度越高,因此求出相關(guān)系數(shù)后還需用斯皮爾曼—布朗公式加以校正,公式為:rtt為分半信度,rxy為測驗(yàn)兩部分得分的相關(guān)系數(shù)表115名被試在6個(gè)項(xiàng)目組成的測驗(yàn)上的得分被試123456789101112131415項(xiàng)目12345643552434322221134355123123312167876676544533288877555765442410810998107878674391081069797865532若將上述測驗(yàn)奇、偶分半形成兩個(gè)半測驗(yàn),可得下表:被試123456789101112131415奇數(shù)題偶數(shù)題20182321171820171613141312882022192218151417151614121076表215名被試在奇偶分半測驗(yàn)上的得分(2)庫德—查理遜公式法由于測驗(yàn)分半的方法多種多樣,不同的分法將影響到分半信度,而要把一個(gè)測驗(yàn)分拆成真正平行等值的兩半,是不容易的。能否不作拆分而直接利用單一形式作一次施測所獲資料來估計(jì)測驗(yàn)信度呢?庫德和查理遜提出了幾個(gè)計(jì)算公式,其中常用的有rKR20
和rKR21。①rKR20的用法:這個(gè)公式以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù)為基礎(chǔ)計(jì)算(每題只有通過或未通過兩種分?jǐn)?shù))。k為項(xiàng)目數(shù),S2為各人總分的方差,P為正確通過率。②rKR21的用法:這個(gè)公式以各反應(yīng)者總分的平均數(shù)和方差為基礎(chǔ)計(jì)算,無需各題難度的信息。公式如下:式中,是各人總分的平均數(shù),S2是各人總分的方差,K是題目數(shù)。對8名被試實(shí)施某測驗(yàn),數(shù)據(jù)如下表,求該測驗(yàn)的信度被試ABCDEFGHpqpq滿分題號3512423112345678910000000001000000010100000110010000101001011101010111111001111110011110101111111110.0000.1250.2500.3750.3750.6250.7500.7500.7501.0001.0000.8750.7500.6250.6250.3750.2500.2500.2500.0000.0000.1090.1860.2340.2340.2340.1860.1860.1860.000∑87655432=5S2=3.5
1.555
rKR21所得的信度要低于rKR20rKR21公式適用于各試題難度相近的情況,如果各試題難度相差太大,就會(huì)出現(xiàn)低估現(xiàn)象,因此rKR20要比rKR21精確些。注意:只適用于客觀性試題練習(xí):
對10名被試實(shí)施某測驗(yàn),數(shù)據(jù)如下表,求該測驗(yàn)的信度
被試題號滿分ABCDEFGHIJ123456351242330330300305500555000100110102022202200404004402200222220合計(jì)175324424542計(jì)算內(nèi)部一致性系數(shù),需注意下列問題:①若用分半法時(shí),以按奇數(shù)題和偶數(shù)題分為兩半為宜。若把整個(gè)測驗(yàn)分為前后兩半,一方面前半部試題與后半部試題未必等值,另方面被試者在完成后半部試題時(shí),可能因疲勞、厭倦等原因而影響回答質(zhì)量,以致前后反應(yīng)不一致,影響信度。②若速率是測驗(yàn)的重要因素,則不宜用分半法。因?yàn)樗俣葴y驗(yàn)中試題的難度低,被試者得分的多少,在很大程度上是因?yàn)榇痤}的多少,分半法易使得分相同,從而會(huì)夸大分半法的信度估計(jì)。③如果答案多種多樣,得分也多種多樣時(shí)(如論文式考試),則不能用上列公式計(jì)算一致性系數(shù)。(3)論文式測驗(yàn)的信度系數(shù)
——克龍巴赫的α系數(shù)法分半信度適用于(01)和(0K)記分的測題。庫德—查理遜公式只適用于(01)記分的測題。α系數(shù)法適用于(0K)記分的測題。Si2為每一題得分的方差,St2為被試總分的方差。例:有一個(gè)包含6個(gè)論文式題目的測驗(yàn),對5個(gè)被試施測,試求該測驗(yàn)的信度被試12345Si2題號123456
71181111697896106898116837118111171181111
3.041.362.566.963.043.04∑416343575420St2=68.96(四)評分者信度
1、概念:估計(jì)不同評分者對同一測驗(yàn)評分標(biāo)準(zhǔn)一致性程度的指標(biāo)。(針對主觀題)
2、估計(jì)方法:分兩種情況:第一種:評分者為兩人時(shí),先將兩人的評分轉(zhuǎn)化為等級,求等級相關(guān)系數(shù)D為兩人評分的等級之差例:甲、乙兩位教師評閱10份試卷,結(jié)果如下,問兩位教師的評分是否一致?試卷得分名次DD2甲教師乙教師甲教師乙教師123456789109490868672706866646193929270827665766860123.53.5567891012.52.5745.595.58100-0.51-3.510.5-22.51000.25112.2510.2546.2510∑26第二種:有多名評分者,將評分轉(zhuǎn)化為等級,用肯德爾和諧系數(shù)估計(jì)。W為和諧系數(shù),Ri為第i份試卷被評等級的總和,K為評分者人數(shù),N為被評試卷數(shù)。一般而言,W大于0.9時(shí),可認(rèn)為評分者信度較好.例:6位教師評閱5篇作文,下表是評分等級,問6位教師的評分是否一致(可信)?n=5作文評分者k=6123456RiRi2123453333354555211224544411221118291025832484110062564∑901954四、提高信度的方法(一)信度系數(shù)以多大為宜學(xué)科測驗(yàn):r﹥0.9智力測驗(yàn):r﹥0.8教師自編測驗(yàn)和品德測驗(yàn):r﹥0.6(二)測量誤差的來源(前面已講)測量誤差的來源基本可分為三類:1.測驗(yàn)本身所引起的誤差2.測驗(yàn)的實(shí)施所引起的誤差3.被試所引起的誤差
(三)提高測驗(yàn)信度的方法1、適當(dāng)增加測驗(yàn)題目的數(shù)量:測驗(yàn)越長,信度越高。2、測驗(yàn)的難度要適中3.測驗(yàn)的內(nèi)容應(yīng)盡量同質(zhì)4.測驗(yàn)的程序應(yīng)統(tǒng)一5.測驗(yàn)的時(shí)間要充分6.評分要盡量做到客觀化、減少評分誤差練習(xí)與作業(yè)1、15人參加詞匯理解測驗(yàn),第一次測驗(yàn)與第二次測驗(yàn)間隔兩周進(jìn)行,求該測驗(yàn)的信度被試123456789101112131415前測后測1821161425231526132827221924162023171226251827152629212022182、15人參加一次測驗(yàn)后在奇數(shù)題和偶數(shù)題上的得分如下,求測驗(yàn)信度被試123456789101112131415奇數(shù)題偶數(shù)題3240422830304128323426343625403139453029293930323230403626403、一位教師評閱10份試卷,評完一次并列出等級后,為慎重起見,重評一次,結(jié)果如下,問兩次評分是否一致被試12345678910初評再評
1681024795326891471054、4位教師評閱5篇作文,結(jié)果如下,問教師所評等級是否一致閱卷者劉張王李作文編號12345121223313143452454555、某態(tài)度量表有6道題,被試在各題上的得分的方差分別是0.80、0.81、0.79、0.78、0.80、0.82,測驗(yàn)總分的方差為16.00,求α值第二節(jié)效度
對于任何一種測量來說,信度是必要條件,但并非充要條件。不可信的測驗(yàn)肯定沒有效,但可信的測驗(yàn)未必有效,而有效測驗(yàn)必定可信,因此,對教育測量而言,效度顯得更為重要。
一、效度的概念
效度是指測量結(jié)果的準(zhǔn)確性和有效性的程度,即一個(gè)測驗(yàn)對它所要測量的目標(biāo)準(zhǔn)確測量的程度。通俗地說,測驗(yàn)?zāi)芊駵y量到我們所要測量的東西的程度就是效度。我們可以從以下幾方面來理解效度:1、測量的效度始終是對一定的測量目的而言的。2、測量的效度也是對測量的結(jié)果而言的。3、一種測量的效度只是高或低的問題。4、在教育測量中,效度問題比在其他領(lǐng)域的測量更為重要。二、效度的理論公式任何測量都有誤差,誤差分為隨機(jī)誤差和系統(tǒng)誤差,所謂隨機(jī)誤差是指那種由與測量目的無關(guān)的、偶然因素引起的,而又不易控制的誤差,它使多次測量產(chǎn)生力量不一致的結(jié)果,其方向和大小的變化完全是隨機(jī)的。系統(tǒng)誤差是指那種由與測量目的無關(guān)的變因引起的一種恒定的而有規(guī)律的效應(yīng)。這種誤差穩(wěn)定地存在于每一次測量之中,此時(shí)盡管多次測量的結(jié)果非常一致,但實(shí)測結(jié)果仍與真實(shí)數(shù)值有所差異,是不正確的。在實(shí)際測量中,測量的效度除受隨機(jī)誤差影響外,還受系統(tǒng)誤差影響。所以必須從統(tǒng)計(jì)學(xué)的角度對效度作進(jìn)一步的分析。在前面的信度中說過,實(shí)得分?jǐn)?shù)(X)的方差(SX2)等于真分?jǐn)?shù)(T)方差(ST2)加測量誤差(E)的方差(SE2),SX2=ST2+SE2(這里沒有考慮系統(tǒng)誤差問題)。因而信度(rxx)被定義為真分?jǐn)?shù)方差與實(shí)得分?jǐn)?shù)方差之比,即:在討論效度時(shí),還必須把真分?jǐn)?shù)方差(ST2
)分解為兩部分,一部分是與測量目標(biāo)吻合、反映所欲測量的特性的真實(shí)差異的真分?jǐn)?shù)方差,也稱有效方差(Sv2
);另一部分是與測量目標(biāo)無關(guān),但穩(wěn)定地與真分?jǐn)?shù)方差結(jié)合在一起的誤差分?jǐn)?shù)方差,它是由系統(tǒng)誤差引起的變異,所以也稱為系統(tǒng)誤差方差(SI2),它與由隨機(jī)誤差引起的變異不同(SE2)。于是有:ST2=Sv2+SI2因而,SX2=Sv2+SI2+SE2在這個(gè)公式中,假設(shè)隨機(jī)誤差方差足夠小而且不變,則系統(tǒng)誤差分?jǐn)?shù)方差越小,有效方差就越大,有效方差在實(shí)得分?jǐn)?shù)方差中所占的比重越大,那么達(dá)到測驗(yàn)?zāi)康牡某潭纫簿驮酱?,或者說效度也就越高。因此,在測量學(xué)中,效度被定義為與測量目的有關(guān)的變異(有效變異)與實(shí)測值變異之比。即:三、效度的類型和估計(jì)1974年美國心理學(xué)會(huì)發(fā)行的《教育和心理測驗(yàn)的標(biāo)準(zhǔn)》一書將效度分為三大類:內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和結(jié)構(gòu)效度。(一)內(nèi)容效度1、什么是內(nèi)容效度是指測驗(yàn)?zāi)康拇硭麥y量的內(nèi)容和引起預(yù)期反應(yīng)所達(dá)到的程度。也就是測量內(nèi)容的代表性程度。以考查學(xué)習(xí)成績?yōu)槟康牡臏y驗(yàn)來說,課程標(biāo)準(zhǔn)所規(guī)定的全部教材內(nèi)容是學(xué)生必須掌握的。但一份試卷不可能考全部內(nèi)容,這就有試題內(nèi)容是否有代表性的問題。在編制測驗(yàn)時(shí),內(nèi)容效度是一個(gè)相當(dāng)復(fù)雜和不易解決的問題。以智力測驗(yàn)為例,由于智力結(jié)構(gòu)十分復(fù)雜,內(nèi)容異常豐富,若用若干測題代表全部智力,必須進(jìn)行深入細(xì)致的研究。著名的斯坦?!燃{智力測驗(yàn),就是在經(jīng)過五年的潛心研究和大規(guī)模測試后才編制出來的。此外,還由于智力和知識(shí)有密切的關(guān)系,所以有的智力測驗(yàn)題目不能代表智力內(nèi)容,實(shí)際上成了測量知識(shí)的題目,以致降低
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年寶鈦集團(tuán)有限公司高層次人才招聘考試筆試備考題庫及答案解析
- 2026山西忻州市岢嵐縣兵役登記暨征兵參考筆試題庫附答案解析
- 2025山東濱州醫(yī)學(xué)院煙臺(tái)附屬醫(yī)院高級專業(yè)技術(shù)崗位招聘1人參考考試試題及答案解析
- 2025北京坤泰昌盛建筑工程有限公司投標(biāo)專員招聘備考筆試題庫及答案解析
- 2025浙江嘉興市海寧市老干部活動(dòng)中心招聘1人參考考試題庫及答案解析
- (15篇)施工管理崗總結(jié)
- 網(wǎng)店使用合同范本
- 網(wǎng)用戶保密協(xié)議書
- 耗苗購買合同范本
- 職工合同聘用協(xié)議
- (一診)達(dá)州市2026屆高三第一次診斷性測試語文試題(含答案)
- 從臨床指南更新看IBD生物劑治療策略
- (2026年)如何做好科室護(hù)理質(zhì)量管理課件
- 2025年湖南省長沙市政府采購評審專家考試真題(附含答案)
- 2025年嘉魚縣輔警招聘考試真題及答案1套
- 《阿拉善右旗阿拉騰敖包鐵礦、螢石礦開采方案》評審意見書
- 國際胰腺病學(xué)會(huì)急性胰腺炎修訂指南(2025年)解讀課件
- 2025年《稅收征收管理法》新修訂版知識(shí)考試題庫及答案解析
- 帶隙基準(zhǔn)電路的設(shè)計(jì)
- 2025年《廣告策劃與創(chuàng)意》知識(shí)考試題庫及答案解析
- 壓力管道安裝交叉作業(yè)方案
評論
0/150
提交評論