教育測量評價(jià)

上傳人：a*** IP屬地：湖北上傳時(shí)間：2023-02-01 格式：PPT 頁數(shù)：619 大小：4.46MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩614頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

教育測量與評價(jià)學(xué)習(xí)內(nèi)容第一章教育測評概述第二章教育測評的質(zhì)量指標(biāo)第三章

教育測驗(yàn)的編制與實(shí)施第四章教育評價(jià)方案的編制與實(shí)施第五章

教育評價(jià)的方法第六章

教育測量結(jié)果的整理、轉(zhuǎn)換與組合第七章

教育評價(jià)的心理調(diào)控第十章標(biāo)準(zhǔn)化考試第十一章智力測驗(yàn)第十二章學(xué)生評價(jià)第十三章學(xué)生品德測評第十四章教師評價(jià)第十五章

教學(xué)工作評價(jià)第十六章課程評價(jià)第十八章中小學(xué)學(xué)校評價(jià)第一章教育測評概述第一節(jié)教育測量概述一、什么是測量（一）測量的定義測量是根據(jù)法則給事物分派數(shù)字。（史蒂文斯）測量這一定義包含了三個(gè)要素：1、法則——給事物的屬性分派數(shù)字的依據(jù)和準(zhǔn)則2、事物屬性——測量的對象或目標(biāo)3、數(shù)字——描述事物屬性的符號，是測量結(jié)果的表現(xiàn)形式比如：重量——杠桿原理；溫度——熱脹冷縮原理?！胺▌t”不同，測量結(jié)果不一樣，因此法則有好壞之分。根據(jù)能否直接測量，可以將事物屬性分為兩類：一是可以直接測量的事物屬性，如長度、體積、重量等；二是只能間接測量的事物屬性，如溫度、心理等數(shù)字具有如下特征：1、數(shù)字具有區(qū)分性：數(shù)字不同，事物的屬性也不同。2、數(shù)字具有順序性，如1﹤2﹤3······3、數(shù)字具有等距性，如2-1=13-2=1······4、數(shù)字有0，使事物的測量具有參照點(diǎn)但是，在不同的測量中，測量結(jié)果所使用的數(shù)字可能具有不同的屬性。（二）測量的三個(gè)要素

——單位、參照點(diǎn)、量表1、單位。是計(jì)量事物的標(biāo)準(zhǔn)量的名稱。理想的測量單位應(yīng)具備兩個(gè)條件：（1）要有確定的意義。即對同一單位，所有人的理解都是相同的，不應(yīng)有異義和多義。（2）單位的距離要等值，即相鄰兩個(gè)單位點(diǎn)之間的差別總是相等的。但是，在教育測量中運(yùn)用的單位大多是不等值的。2、參照點(diǎn)是指在測量工作中，計(jì)算的起點(diǎn)。參照點(diǎn)有兩種：（1）絕對零點(diǎn)?！?”表示沒有，如重量為“0”表示“恰恰沒有一點(diǎn)重量”。（2）相對零點(diǎn)（人定參照點(diǎn)）。“0”并不表示沒有，溫度（成績）為“0”并不表示沒有溫度（一無所知），如以海洋面為測量陸地和山的高度的起點(diǎn)，稱為海拔**米，以冰點(diǎn)（00C）作為測量溫度的起點(diǎn)等。教育測量中使用的參照點(diǎn)都是相對零點(diǎn)。3、量表即測量的工具，是“具有確定單位和測量參照點(diǎn)的連續(xù)體”。如尺子、天平、試卷、問卷、圖形、符號等。“將欲測量的事物特征與這個(gè)連續(xù)體相比較，確定它的位置，看它距參照點(diǎn)的遠(yuǎn)近，就會(huì)得到該事物特征的一個(gè)測量值?！彼姆N測量量表1、稱名量表——（類別量表）最低水平的一種量表它只是用數(shù)字表明事物的類別或性質(zhì)不同而已，沒有任何數(shù)量大小的意義，不能作數(shù)量化分析，也不能將之進(jìn)行加減乘除運(yùn)算。有人認(rèn)為運(yùn)用類別量表進(jìn)行的測量不能算是真正意義上的測量。它主要用于次數(shù)的統(tǒng)計(jì)、求百分比、列聯(lián)相關(guān)、X2檢驗(yàn)等。四種測量量表2、等級量表——（順序量表）用來描述各個(gè)類別的數(shù)字，不僅具有區(qū)分性，而且還具有等級性（或順序性），因此，量表上的數(shù)字之間能表示事物大小的位次關(guān)系，但不具有等距性和可加性，也不能進(jìn)行加減乘除運(yùn)算。它主要用于求中位數(shù)、百分?jǐn)?shù)、等級相關(guān)系數(shù)、肯德爾和諧系數(shù)等。四種測量量表3、等距量表——較高水平的量表量表上的數(shù)值不僅具有區(qū)分性、等級性，還有等距性，等距量表的數(shù)字是一個(gè)真正的數(shù)字，因此可以進(jìn)行加減運(yùn)算，但等距量表沒有絕對零點(diǎn)，所以不能作乘除運(yùn)算。主要用于計(jì)算平均數(shù)、標(biāo)準(zhǔn)差、積差相關(guān)系數(shù)、T檢驗(yàn)、F檢驗(yàn)等。四種測量量表4、比率量表——最高水平的量表有相等單位和絕對零點(diǎn)，量表數(shù)值可以進(jìn)行加減乘除運(yùn)算。大多數(shù)物理測量量表是比率量表，但教育測量基本沒有比率量表。二、什么是教育測量（一）教育測量的涵義教育測量是根據(jù)測量學(xué)的原理和方法對教育現(xiàn)象及其屬性進(jìn)行數(shù)量化研究的過程。教育測量主要是對學(xué)生內(nèi)在精神屬性的測量，如學(xué)習(xí)成績、智力水平、品德狀況、心理健康狀況等。所以教育測量主要是一種間接測量。（二）教育測量的特點(diǎn)1、測量結(jié)果的間接性：教育測量是通過被試對測驗(yàn)項(xiàng)目的行為反應(yīng)來測量他的內(nèi)在的心理特征。2、度量單位的相對性：單位是測量的基本要求，理想的單位應(yīng)有確定的意義和相等的價(jià)值。但測量人的行為時(shí)并不具備這樣理想的兩個(gè)條件，所以要對教育測量的分?jǐn)?shù)進(jìn)行轉(zhuǎn)換，如T分?jǐn)?shù)，百分等級分?jǐn)?shù)等。（二）教育測量的特點(diǎn)3、測量對象的復(fù)雜性：教育測量主要是對學(xué)生內(nèi)在精神屬性的測量。內(nèi)在性——不能直接測量；多變性——前后測量結(jié)果不一致其他因素——如疲勞、情緒、心理掩飾也會(huì)影響測量結(jié)果4、測量目的的針對性測量總有一定的目的，教育測量必須為實(shí)現(xiàn)教育目的服務(wù)。三、教育測量的誤差問題凡測量必有誤差，但為了盡可能準(zhǔn)確測量，必須盡量控制誤差，使其最小。誤差主要來源于三方面：1、測量的工具（物理測量——儀器和設(shè)備；教育與心理測量——量表）（1）項(xiàng)目取樣（代表性）（2）項(xiàng)目題型（猜測率）（3）項(xiàng)目措詞和要求（模棱兩可，表述不清）如：春天的水怎么樣？三、教育測量的誤差問題2、所測量的事物的一致性程度。測量在短期內(nèi)不受測驗(yàn)經(jīng)驗(yàn)、練習(xí)效應(yīng)的影響。3、測量者的因素主測者：熟練掌握測量技術(shù)。比如，指導(dǎo)語另外，如何計(jì)時(shí)、記分，對被試的各種提問如何回答，以及在測驗(yàn)中途發(fā)生意外情況(如停電，有人遲到，生病；作弊等應(yīng)該如何處理）。受測者：應(yīng)試動(dòng)機(jī)、測驗(yàn)焦慮。指導(dǎo)語會(huì)直接影響受測者的作答態(tài)度與方法。有人以不同的指導(dǎo)語對幾組被試實(shí)施同一個(gè)能力測驗(yàn)，結(jié)果表明，將該測驗(yàn)說成“智力測驗(yàn)”的一組，成績最高；將之說成“日常測驗(yàn)”的一組，成績最低。動(dòng)機(jī)不同會(huì)影響其作答態(tài)度、注意力、持久性、反應(yīng)速度等，從而影響測驗(yàn)成績四、教育測量的作用1、有利于提高教育、教學(xué)水平形成性測驗(yàn)、終結(jié)性測驗(yàn)2、有利于提高教育管理水平克服主觀經(jīng)驗(yàn)管理3、有利于發(fā)展教育研究方法用數(shù)據(jù)說話第二節(jié)教育評價(jià)概述思考：當(dāng)你看到這個(gè)問題時(shí)，或者說，當(dāng)你聽到教育評價(jià)這個(gè)詞時(shí)，你最先想到的是什么？實(shí)驗(yàn)結(jié)果：依人數(shù)的多少排列：師范生：A、測驗(yàn)B、等級C、成績D、不公平E、判斷任課教師：A、測驗(yàn)B、測量C、等級D、成績責(zé)任制E、對個(gè)人秘密的侵犯一、什么是評價(jià)顧名思義，評價(jià)就是評判價(jià)值。書本定義：評價(jià)是指根據(jù)某種價(jià)值觀對事物及其屬性進(jìn)行判斷、衡量，亦即對人或物做出好與壞、真與假、善與惡、美與丑、優(yōu)與劣等等的判斷。評價(jià)意味著對某一事物的價(jià)值給予一般的衡量。價(jià)值是指客體滿足主體需要的程度。實(shí)際上，一種事物的價(jià)值是客觀存在的，但是各人的需要不同，所以各人的價(jià)值觀不一樣，作出的價(jià)值判斷（評價(jià)）也不同，可見，評價(jià)是主觀需要與客觀價(jià)值的統(tǒng)一。比如集郵。二、什么是教育評價(jià)教育評價(jià)是一門新興的學(xué)科，迄今尚未形成統(tǒng)一的為大家所公認(rèn)的科學(xué)定義。下面是幾種具有代表性的界說：（一）早期解釋泰勒在40年代初將教育評價(jià)解釋為：“確定教育目標(biāo)在實(shí)際上被理解到何種程度的過程?！薄繕?biāo)評價(jià)模式后來日本學(xué)者進(jìn)一步把它界定為：“教育評價(jià)就是系統(tǒng)地、有步驟地從數(shù)量上測量或從性質(zhì)上描述兒童的學(xué)習(xí)過程和結(jié)果，據(jù)此判定是否達(dá)到了所期望的教育目標(biāo)的一種手段?！薄⒅乜偨Y(jié)性評價(jià)，忽視形成性評價(jià)有貫徹之意目標(biāo)評價(jià)實(shí)施二、什么是教育評價(jià)（二）60年代的界說克龍巴赫的定義：“評價(jià)是為決策提供信息的過程。”后來有人對這一界說做了具體的描述：“教育評價(jià)是一種有系統(tǒng)地去尋找并搜集信息資料，以便協(xié)助決策者在諸種可行的途徑（方案）中擇一而行的歷程?！睂逃u價(jià)的闡釋突破了行為目標(biāo)模式的觀點(diǎn)，強(qiáng)調(diào)了評價(jià)的信息作用（為教師教學(xué)、管理者決策等），擴(kuò)大拓寬了評價(jià)的功能、范圍。二、什么是教育評價(jià)（三）較深層的定義斯克里文和豪斯的定義：“評價(jià)是一種對優(yōu)缺點(diǎn)和價(jià)值的評估，是一種既有描述又有判斷的活動(dòng)?！比毡拘睦韺W(xué)家大橋正夫認(rèn)為：“教育評價(jià)就是對照教育目標(biāo)，對教育行為產(chǎn)生的變化進(jìn)行價(jià)值上的判斷?！边@種觀點(diǎn)強(qiáng)調(diào)評價(jià)者必須進(jìn)行價(jià)值判斷，而非只測量事物或決定目標(biāo)是否達(dá)成。評價(jià)活動(dòng)從反映管理者、決策者的意圖轉(zhuǎn)變?yōu)榉从尘滞馊说囊庠富騼r(jià)值。至此，價(jià)值問題由“價(jià)值中立”的假設(shè)，或者說剝離價(jià)值的評價(jià)設(shè)想，重新得到了反思和審視，價(jià)值因素開始“登堂入室”。二、什么是教育評價(jià)（四）我國對教育評價(jià)的初步界定和理解（20世紀(jì)80年代以后）“教育評價(jià)是對教育的社會(huì)價(jià)值做出判斷的過程?！薄敖逃u價(jià)是按照一定的價(jià)值標(biāo)準(zhǔn)，對受教育者的發(fā)展變化及構(gòu)成其變化的諸種因素進(jìn)行價(jià)值判斷的過程?！北窘滩牡挠^點(diǎn)：“教育評價(jià)是根據(jù)一定的教育價(jià)值觀或教育目標(biāo)，運(yùn)用可行的科學(xué)手段，通過系統(tǒng)地搜集信息、分析解釋，對教育現(xiàn)象進(jìn)行價(jià)值判斷，從而為不斷優(yōu)化教育和教育決策提供依據(jù)的過程?！惫餐兀海?）評價(jià)是一個(gè)過程；（2）價(jià)值判斷是評價(jià)的本質(zhì)特征；（3）以一定的教育價(jià)值觀為依據(jù)；（4）采用一切可行的科學(xué)手段。

二、什么是教育評價(jià)要理解評價(jià)的本質(zhì)，必須明確幾點(diǎn)：1．教育評價(jià)的對象、范圍——評什么教育評價(jià)從早期以學(xué)生學(xué)習(xí)結(jié)果為對象，逐漸擴(kuò)大了應(yīng)用的范圍，現(xiàn)代教育評價(jià)則以教育的全領(lǐng)域?yàn)閷ο?。從宏觀到中觀、微觀，各種教育現(xiàn)象都可以作為評價(jià)對象，而且不僅評價(jià)教育結(jié)果，教育計(jì)劃、教育活動(dòng)和教育過程是教育評價(jià)的對象。二、什么是教育評價(jià)

2．教育評價(jià)的目的和作用——為什么評這里涉及評價(jià)的指導(dǎo)思想和教育觀等基本理論問題。教育評價(jià)是為了鑒定、考核，還是為了推動(dòng)、改進(jìn)；是為了選拔、淘汰，還是為了教育、發(fā)展，這是兩種不同的教育觀和評價(jià)觀。傳統(tǒng)的教育評價(jià)目的是為了“選拔適合教育的兒童”。而現(xiàn)代教育評價(jià)的目的是為了“創(chuàng)造適合兒童的教育”，即評價(jià)是為了診斷評價(jià)對象的現(xiàn)狀，以便發(fā)現(xiàn)問題，使教育、教學(xué)工作不斷改進(jìn)、不斷完善，不斷適合教育對象的需要，為促進(jìn)兒童個(gè)性全面發(fā)展和提高教育質(zhì)量服務(wù)的——“為了學(xué)生的發(fā)展”。二、什么是教育評價(jià)3．教育評價(jià)的依據(jù)——根據(jù)什么來評價(jià)值判斷是教育評價(jià)的本質(zhì)特征。根據(jù)什么進(jìn)行價(jià)值判斷？這就是評價(jià)的實(shí)質(zhì)和關(guān)鍵。因此必需有一個(gè)衡量和判斷的客觀依據(jù)和標(biāo)準(zhǔn)，即教育的價(jià)值目標(biāo)和標(biāo)準(zhǔn)問題。這里又涉及什么是價(jià)值、教育價(jià)值、教育價(jià)值觀的問題。我們應(yīng)當(dāng)根據(jù)馬克思主義價(jià)值觀和社會(huì)主義現(xiàn)代化建設(shè)的需要，根據(jù)人才成長發(fā)展的規(guī)律，確立我們的教育價(jià)值觀和價(jià)值取向，確定教育評價(jià)的價(jià)值目標(biāo)和標(biāo)準(zhǔn)。從這個(gè)意義上說，教育方針、政策和教育目標(biāo)就是我們的教育價(jià)值觀的集中體現(xiàn)，我們應(yīng)當(dāng)以教育方針和教育目標(biāo)為依據(jù)確定評價(jià)的目標(biāo)和標(biāo)準(zhǔn)。二、什么是教育評價(jià)4．教育評價(jià)的手段——怎樣評教育評價(jià)是運(yùn)用科學(xué)的方法和手段，對教育現(xiàn)象及其效果作出價(jià)值判斷的活動(dòng)。教育評價(jià)的科學(xué)性在很大程度上取決于方法和手段的科學(xué)性。沒有科學(xué)的方法和手段，就沒有評價(jià)的科學(xué)性。（五）教育評價(jià)與教育測量的關(guān)系1、聯(lián)系：教育測量是教育評價(jià)的基礎(chǔ)，教育測量是對教育進(jìn)行量的測定，所獲得的結(jié)果是教育評價(jià)所需信息的主要的、可靠的來源，是對教育的狀態(tài)和價(jià)值進(jìn)行客觀判斷的前提。教育評價(jià)=事實(shí)判斷+價(jià)值判斷教育測量所獲得的數(shù)據(jù)只有通過評價(jià)判斷這個(gè)環(huán)節(jié)才能獲得實(shí)際意義，否則便成了一堆抽象而枯燥的數(shù)字。二、什么是教育評價(jià)二、什么是教育評價(jià)2、區(qū)別：兩者著眼點(diǎn)不同：教育測量是為了取得數(shù)據(jù)；教育評價(jià)是要分析解釋，對教育價(jià)值作出判斷。兩者特點(diǎn)不同：教育測量是一種純客觀的過程，具有客觀性特點(diǎn)；教育評價(jià)具有客觀性與主體性相結(jié)合特點(diǎn)。兩者復(fù)雜程度不同：教育測量是對教育數(shù)量化的描述，關(guān)心量的獲得，活動(dòng)較為單一；教育評價(jià)著眼于事物質(zhì)的判定，含定性與定量分析，活動(dòng)是多重的。三、教育評價(jià)系統(tǒng)的結(jié)構(gòu)和功能（一）教育評價(jià)系統(tǒng)的結(jié)構(gòu)系統(tǒng)論認(rèn)為，所謂系統(tǒng)，是由若干相互聯(lián)系、相互作用的要素所構(gòu)成的、具有特定結(jié)構(gòu)和功能的有機(jī)整體。比如教學(xué)系統(tǒng)——由教師、學(xué)生、教學(xué)組織形式、教學(xué)方法、教學(xué)手段、教材等要素構(gòu)成。任何一個(gè)系統(tǒng)都是較高一級系統(tǒng)的一個(gè)要素，任何一個(gè)要素，通常又是較低一級的系統(tǒng)。凡系統(tǒng)都有一定的結(jié)構(gòu)和功能。構(gòu)成系統(tǒng)的各要素在系統(tǒng)內(nèi)組成的方式就是系統(tǒng)的結(jié)構(gòu)，這種結(jié)構(gòu)在運(yùn)動(dòng)狀態(tài)下所發(fā)揮的效能就是功能。因此，系統(tǒng)結(jié)構(gòu)與系統(tǒng)功能是相互制約、相互影響的。（一）教育評價(jià)系統(tǒng)的結(jié)構(gòu)從教育評價(jià)系統(tǒng)結(jié)構(gòu)上分析，教育評價(jià)一般由以下幾個(gè)要素構(gòu)成：1、價(jià)值目標(biāo)和標(biāo)準(zhǔn)2、組織機(jī)構(gòu)和人員

3、評價(jià)方法和技術(shù)4、評價(jià)對象與評價(jià)人員的心理調(diào)控教育評價(jià)必須以目標(biāo)為導(dǎo)向，以標(biāo)準(zhǔn)為依據(jù)，因此必須根據(jù)教育目標(biāo)、培養(yǎng)目標(biāo)和課程標(biāo)準(zhǔn)，設(shè)計(jì)好評價(jià)目標(biāo)、指標(biāo)、標(biāo)準(zhǔn)等。具體說就是實(shí)施教育評價(jià)所依據(jù)的評價(jià)標(biāo)準(zhǔn)體系。是指實(shí)施評價(jià)的組織機(jī)構(gòu)、領(lǐng)導(dǎo)人員和評價(jià)者。一定的評價(jià)任務(wù)要求設(shè)置與之相適應(yīng)的組織機(jī)構(gòu)和人員，或領(lǐng)導(dǎo)小組和負(fù)責(zé)評價(jià)的人員。目前我國普通教育評價(jià)的實(shí)施，還沒有專門組織機(jī)構(gòu)和負(fù)責(zé)評價(jià)的專業(yè)人員，與國外相比顯得非常落后。

是指實(shí)施教育評價(jià)的技術(shù)和方法，基本技能和能力。其中包括各種搜集評價(jià)信息的方法和技術(shù)、統(tǒng)計(jì)處理評價(jià)信息的方法技術(shù)和進(jìn)行綜合分析判斷的方法和技術(shù)等。是指參與教育評價(jià)的主體（評價(jià)者）與客體（被評者）雙方在評價(jià)過程中所表現(xiàn)的動(dòng)機(jī)、需要和人際關(guān)系等心理狀態(tài)，它直接影響評價(jià)過程、評價(jià)程序的順利進(jìn)行，影響評價(jià)任務(wù)的完成，因此對評價(jià)主體與客體的心理調(diào)控就具有重大的意義和作用。必須通過各種調(diào)控的途徑，取得及時(shí)的有針對性的有效控制，才能保證評價(jià)的效果，達(dá)到評價(jià)的目的。

（二）教育評價(jià)的功能1、教育評價(jià)的意義（1）教育評價(jià)是教育管理的重要組成部分教育管理的各個(gè)環(huán)節(jié)（計(jì)劃、實(shí)施、檢查和總結(jié)）都需要評價(jià)。評價(jià)能及時(shí)反饋信息，及時(shí)發(fā)現(xiàn)問題，解決問題，是一種科學(xué)的管理。（2）教育評價(jià)是深化教育改革的重要措施要進(jìn)行一項(xiàng)教育改革，首先要進(jìn)行改革方案的可行性評價(jià)；在改革進(jìn)程中，必須加強(qiáng)形成性評價(jià)；在某一改革告一段落時(shí)必須進(jìn)行終結(jié)性評價(jià)。1、教育評價(jià)的意義（3）教育評價(jià)是全面提高教育質(zhì)量的重要手段通過教育評價(jià)，可以加強(qiáng)學(xué)校各項(xiàng)教育教學(xué)工作的有效性。（4）教育評價(jià)是教育科學(xué)研究的重要內(nèi)容現(xiàn)代教育科學(xué)研究被劃分為三大領(lǐng)域：教育基礎(chǔ)理論研究、教育發(fā)展研究和教育評價(jià)研究。可見，教育評價(jià)是教育科學(xué)研究的重要內(nèi)容。2．教育評價(jià)的功能（1）導(dǎo)向功能教育評價(jià)是根據(jù)教育目標(biāo)進(jìn)行的，通過評價(jià)目標(biāo)、指標(biāo)體系的引導(dǎo)，可以為學(xué)校指明辦學(xué)方向，為教師與學(xué)生指明教與學(xué)的奮斗目標(biāo)。（2）監(jiān)督檢查功能社會(huì)各界要了解、考察教育的發(fā)展?fàn)顩r，教育行政領(lǐng)導(dǎo)部門要對學(xué)校工作進(jìn)行指導(dǎo)與管理；學(xué)校要對師生的教學(xué)活動(dòng)進(jìn)行調(diào)節(jié)和控制；教師要對學(xué)生的學(xué)習(xí)進(jìn)行監(jiān)督和幫助，都需要通過一個(gè)具有檢查監(jiān)督功能的形式和手段，即教育評價(jià)。（3）激勵(lì)功能教育評價(jià)能起到激勵(lì)先進(jìn)，鞭策后進(jìn)的作用。正（負(fù)）評價(jià)要社會(huì)承認(rèn)的需要得到滿足（受到挫折）要得到成功的需要得到滿足（受到挫折)自尊感提高（低落）情緒穩(wěn)定（不穩(wěn)定）喚起新的要社會(huì)承認(rèn)的需要（擴(kuò)大或放棄喚起新的要得到成功的需要（擴(kuò)大和放棄）2．教育評價(jià)的功能2．教育評價(jià)的功能（4）篩選擇優(yōu)功能在教育的實(shí)際工作中，經(jīng)常要對評價(jià)對象進(jìn)行篩選擇優(yōu)。這就需要將眾多的對象根據(jù)一個(gè)標(biāo)準(zhǔn)來衡量和判斷，也就是要對他們進(jìn)行科學(xué)的教育評價(jià)。（5）診斷改進(jìn)功能通過教育評價(jià)，可以發(fā)現(xiàn)教育、教學(xué)過程中存在的問題和不足，然后提出改進(jìn)的措施，這就是教育評價(jià)的診斷與改進(jìn)功能。四、教育評價(jià)的種類（一）根據(jù)評價(jià)的對象和范圍1．宏觀教育評價(jià)以教育的全領(lǐng)域及宏觀決策方面的教育現(xiàn)象、措施為對象的教育評價(jià)，或?qū)σ粋€(gè)具有相當(dāng)規(guī)模的地區(qū)的教育進(jìn)行的評價(jià)。這類評價(jià)屬于總體的、全局性的、高層次的評價(jià)。2．中觀教育評價(jià)以學(xué)校為對象，對學(xué)校內(nèi)部各方面的工作進(jìn)行的評價(jià)。如學(xué)校辦學(xué)質(zhì)量評價(jià)、學(xué)校教學(xué)工作評價(jià)、學(xué)校德育工作評價(jià)、學(xué)校后勤工作評價(jià)等等。3．微觀教育評價(jià)以學(xué)生為對象的教育評價(jià)。如對學(xué)生的學(xué)業(yè)成績、思想品德、智能發(fā)展等的評價(jià)。四、教育評價(jià)的種類（二）根據(jù)評價(jià)的時(shí)間和作用1．診斷性評價(jià)是指在教育、教學(xué)活動(dòng)開始之前，為使計(jì)劃更有效地實(shí)施而進(jìn)行的預(yù)測性、摸底性評價(jià)。其目的是為了摸清評價(jià)對象的基礎(chǔ)和情況，分析存在的問題，為解決問題搜集必要的資料，以找到解決問題的辦法。2．形成性評價(jià)是指在教育、教學(xué)活動(dòng)計(jì)劃實(shí)施的過程中，對計(jì)劃、方案執(zhí)行的情況進(jìn)行的評價(jià)。其目的是為了了解動(dòng)態(tài)過程的效果，及時(shí)反饋信息，及時(shí)調(diào)節(jié)，使計(jì)劃、方案不斷完善，以便順利達(dá)到預(yù)期的目的。3．總結(jié)性評價(jià)是指某一教育、教學(xué)活動(dòng)項(xiàng)目告一段落或完成以后進(jìn)行的評價(jià)。其目的是為了了解這項(xiàng)活動(dòng)達(dá)到預(yù)期目標(biāo)的情況以及它的最終效果或效益。診斷性評價(jià)形成性評價(jià)總結(jié)性評價(jià)作用確定評價(jià)對象（主要是學(xué)生）的常見錯(cuò)誤，以便進(jìn)行補(bǔ)償性教育對評價(jià)對象階段性的進(jìn)步進(jìn)行評價(jià)，并及時(shí)反饋，以便改進(jìn)和輔導(dǎo)給評價(jià)對象作出鑒定或分等，了解教育目標(biāo)到達(dá)程度和教育效果實(shí)施時(shí)間在教育工作開始或教育工作進(jìn)行中在教育工作進(jìn)行中在一個(gè)教育工作過程完成后四、教育評價(jià)的種類（三）根據(jù)評價(jià)的基準(zhǔn)不同1．相對評價(jià)是指在評價(jià)對象團(tuán)體中確定一個(gè)基準(zhǔn)，或以某一團(tuán)體的評價(jià)狀況為基準(zhǔn)，對團(tuán)體中的個(gè)體成員在這個(gè)團(tuán)體中所處的相對位置進(jìn)行評價(jià)。相對評價(jià)的特點(diǎn)：一是評價(jià)基準(zhǔn)是在評價(jià)對象團(tuán)體內(nèi)部確定的；二是參照的標(biāo)準(zhǔn)是對團(tuán)體進(jìn)行測量以后確定的；三是它關(guān)心的是團(tuán)體成員在該團(tuán)體中所處的相對位置。

A1A2A3M0…An四、教育評價(jià)的種類2．絕對評價(jià)是指以預(yù)先制訂的目標(biāo)為評價(jià)基準(zhǔn)，評價(jià)每個(gè)對象達(dá)到目標(biāo)或基準(zhǔn)的程度。也稱目標(biāo)參照評價(jià)。絕對評價(jià)的特點(diǎn)：一是評價(jià)基準(zhǔn)是在評價(jià)對象團(tuán)體以外確定的；二是參照標(biāo)準(zhǔn)是在對團(tuán)體進(jìn)行測量以前確定的；三是它關(guān)心的是評價(jià)對象達(dá)標(biāo)的程度。

A1A2A3M0…An四、教育評價(jià)的種類（四）根據(jù)評價(jià)的性質(zhì)1．需要性評價(jià)是指根據(jù)某種需要，對新提出的教育目標(biāo)、計(jì)劃方案的必要性作出價(jià)值判斷。其目的是要判斷新提出的教育目標(biāo)、計(jì)劃方案或活動(dòng)是否有必要進(jìn)行或開展。需要性評價(jià)一般是在某種教育改革項(xiàng)目開始前或?qū)逃顒?dòng)整個(gè)過程進(jìn)行總體反思時(shí)進(jìn)行的。2．可行性評價(jià)是指對教育目標(biāo)、計(jì)劃、方案實(shí)現(xiàn)的條件、可行程度的評價(jià)。其目的是了解實(shí)施教育目標(biāo)、計(jì)劃、方案的物質(zhì)條件、技術(shù)條件和經(jīng)濟(jì)效益。3．配置性評價(jià)是指對教育目標(biāo)、計(jì)劃、方案，所需要的資源條件，人員與業(yè)務(wù)技術(shù)條件的配置進(jìn)行價(jià)值判斷。其目的是合理安排和利用人力、物力和財(cái)力。四、教育評價(jià)的種類（五）根據(jù)評價(jià)的主客體不同

1．自我評價(jià)是指被評者按照一定的評價(jià)目的與要求，對自身的工作、學(xué)習(xí)、品德等方面的表現(xiàn)進(jìn)行價(jià)值判斷。自我評價(jià)能充分發(fā)揮評價(jià)對象在評價(jià)中的積極性，激發(fā)被評價(jià)者的自尊心、自信心，使之自覺地、主動(dòng)地接受評價(jià)。

2．他人評價(jià)是指被評者以外的人進(jìn)行的評價(jià)，又叫外部評價(jià)。他人評價(jià)，一般較嚴(yán)格、慎重，也比較客觀，可信度較高，具有一定的權(quán)威性，自評只有經(jīng)過他評才能得到有關(guān)方面的認(rèn)可。作業(yè)：如何評價(jià)中國的科舉考試？第三節(jié)教育測評的發(fā)展階段先測后評一、教育測量的發(fā)展階段一般可將教育測評的發(fā)展分為以下三個(gè)階段：（一）教育測評的萌芽階段（１８６４年以前）1、我國古代教育測量思想早在2500多年前，我國古代教育家孔子就曾根據(jù)自己的觀察評定學(xué)生的個(gè)別差異，將人的智力分成三個(gè)等級：“中上之人”，“中人”，“中下之人”。并指出：“中人以上可以語上也，中人以下不可以語上也?！?、我國古代教育測量思想孔子之后約150年，大思想家孟子指出了“萬物皆可測量”的思想：“權(quán)，然后知輕重；度，然后知短長。物皆然，心為甚?！睋?jù)可考證的史料分析，世界上最早的心理與教育測量出現(xiàn)于中國西周奴隸制時(shí)期（公元前1100——771年）。（1）《禮記·學(xué)記》記載，在西周的“國學(xué)”中已經(jīng)建立具有相當(dāng)系統(tǒng)性的教育測量制度：“比年入學(xué)，中年考校。一年視離經(jīng)辨志，三年視敬業(yè)樂群，五年視博習(xí)親師，七年視論學(xué)取友，謂之小成。九年知類通達(dá)，強(qiáng)立而不反，謂之大成?！保?）現(xiàn)代許多教育測量學(xué)家認(rèn)為，教育測量起源于中國的科舉考試（606～1905年，1300年）。科舉考試始于隋，興盛完備于唐，廢于清末，是我國實(shí)行時(shí)間最長的一種選士制度，對我國乃至于對世界的考試制度有重要的影響。法國大革命時(shí)期，資產(chǎn)階級啟蒙思想家伏爾泰曾贊嘆地說：“人類精神，肯定想象不出比這樣的政府更好的政府。在這個(gè)政府里，重要的衙門彼此統(tǒng)屬，任何事情都在那里決定，而其成員，都是經(jīng)過幾場嚴(yán)格的考試的?！笨婆e制是通過分科考試來選取人才，采用口試、貼經(jīng)、墨義、策問、詩賦等方法測試考生。討論：中國科舉考試的優(yōu)缺點(diǎn)2、西方早期教育測量思想中國的科舉考試自16世紀(jì)由利瑪竇傳入歐洲。1702年，英國的劍橋大學(xué)首先以筆試替代口試，開西方學(xué)?？荚嚬P試之先河（比中國的科舉制晚了近1100年）。1845年，美國初等學(xué)校普及，學(xué)生數(shù)激增，對畢業(yè)生一一口試已不可能，于是，波士頓市教育委員會(huì)率先在美國相繼以筆試取代口試，考察該市所屬學(xué)校的畢業(yè)生（比中國的科舉制晚了近1240年）。（二）教育測量的蓬勃興起階段（１８６４—１９４０年）該階段以費(fèi)舍1864年的《量表集》為標(biāo)志；1897萊斯的拼字測驗(yàn)引起人們對測驗(yàn)問題的極大關(guān)注；1879年，馮特在德國萊比錫建立了第一個(gè)心理學(xué)實(shí)驗(yàn)室，其方法論的變革促進(jìn)了教育測量運(yùn)動(dòng)的興起；1882年，英國高爾頓（Galton）受達(dá)爾文影響，在倫敦建立了人類學(xué)測驗(yàn)實(shí)驗(yàn)室和德國馮特的心理學(xué)實(shí)驗(yàn)室相對峙。高爾頓在他的實(shí)驗(yàn)室里發(fā)明了許多測量儀器，如用來測量長度視覺辨別的“高爾頓棒”、用于測量聽力的“高爾頓笛”，并以這些感覺敏銳度為指標(biāo)來判斷人的智力。他通過測量發(fā)現(xiàn)白癡對熱、冷、痛等感覺的鑒別能力較低。他還是應(yīng)用等級評定量表、問卷法以及自由聯(lián)想法的先驅(qū)，他創(chuàng)造了粗略計(jì)算相關(guān)系數(shù)的方法，他的學(xué)生皮爾遜就是積差相關(guān)系數(shù)的發(fā)明者。（二）教育測量的蓬勃興起階段（１８６４—１９４０年）1904年，法國教育部委派許多教育家、醫(yī)學(xué)家組成一個(gè)委員會(huì)，研究公立學(xué)校內(nèi)低能兒童班級的管理問題，心理學(xué)家比奈是其中的成員之一，他主張用一種測驗(yàn)的方法去辨別心理缺陷兒童。經(jīng)過他與助手西蒙的精心研究，于1905年在《心理學(xué)年報(bào)》上發(fā)表了題為《診斷異常兒童智力的新方法》的論文。該文介紹的新方法就是世界上第一個(gè)智力量表——比納—西蒙智力量表。（二）教育測量的蓬勃興起階段（１８６４—１９４０年）20世紀(jì)20年代，美國的教育測驗(yàn)運(yùn)動(dòng)蓬勃發(fā)展起來。美國的教育測驗(yàn)運(yùn)動(dòng)的發(fā)展可分為三個(gè)時(shí)期。（1）開拓期（1904—1915年）。這是方法的探索與初步的發(fā)展時(shí)期。在美國心理學(xué)家卡特爾研究的基礎(chǔ)上，1904年桑代克發(fā)表了在測驗(yàn)學(xué)史上的劃時(shí)代巨著——《精神與社會(huì)測驗(yàn)學(xué)導(dǎo)論》，標(biāo)志著教育測驗(yàn)運(yùn)動(dòng)的開始。桑代克在書中提出了“凡是存在的東西都有數(shù)量，凡有數(shù)量的東西都可測量”的著名信條。美國心理學(xué)家卡特爾（J.M.Cattell）曾留學(xué)德國，師從馮特，在英國劍橋大學(xué)任教期間與高爾頓交往甚密。回師從美后，他編制了幾十個(gè)測驗(yàn)，包括測量肌肉力量、運(yùn)動(dòng)速度、痛感受性、視聽敏度、重量辨別力、反應(yīng)時(shí)、記憶力以及類似的一些項(xiàng)目。美國學(xué)者波林指出：“在測驗(yàn)領(lǐng)域中，19世紀(jì)80年代是高爾頓的10年，90年代是卡特爾的10年，20世紀(jì)頭10年則是比奈的10年”。（二）教育測量的蓬勃興起階段（１８６４—１９４０年）2、興盛期（1915—1930年）。這一時(shí)期對桑代克提出的信條，不但在技術(shù)方面努力求得正確應(yīng)用，而且不斷提高到理論上加以證實(shí)。這一時(shí)期已發(fā)展了三種不同性質(zhì)的測驗(yàn)，即學(xué)力測驗(yàn)、智力測驗(yàn)和人格測驗(yàn)。據(jù)統(tǒng)計(jì)，到1928年止，便有3000多種測驗(yàn)問世。（二）教育測量的蓬勃興起階段（１８６４—１９４０年）3、教育測驗(yàn)的批判期（1930—1940年）。隨著教育測驗(yàn)運(yùn)動(dòng)的不斷發(fā)展，人們逐漸認(rèn)識(shí)到，教育測驗(yàn)盡管能使考試客觀化、標(biāo)準(zhǔn)化，并能把人的能力換算成數(shù)字，甚至個(gè)別差異的程度也可以量化，但測驗(yàn)畢竟不能測得人的全部，如社會(huì)態(tài)度、實(shí)際技術(shù)、創(chuàng)造力、興趣、鑒賞力等等，因難以數(shù)量化，教育測驗(yàn)便不能充分把握，往往被教育者所冷落。然而，這些又都是教育的重要方面。1931年，塞蒙茲（Symonbs，P.M）發(fā)表了《人格與行動(dòng)的診斷》一書，主張人格測量應(yīng)用評定法、問卷法、交談法、軼事記錄法等，從而從思想上否定了單純的人格測量法。從此，教育測量運(yùn)動(dòng)逐步過渡到教育評價(jià)的時(shí)期。（三）教育測量的深入發(fā)展階段（1940至今）30年代，美國進(jìn)步主義的一些學(xué)者針對教育測量過分追求客觀化、標(biāo)準(zhǔn)化、數(shù)量化的缺陷，提出了改革措施。教育測量有了新的進(jìn)展，表現(xiàn)在：第一，開始重視學(xué)生智力和思想品德的測量，不能單測量學(xué)生的知識(shí)。第二，教育測量量表的編制突破了過去單一答案的求同式思維題，發(fā)展為包括多種答案的求異式思維題和論文式試題。（二）教育測量的蓬勃興起階段（１８６４—１９４０年）第三，教育測量的范圍由過去偏重于學(xué)生學(xué)習(xí)成績的測量，發(fā)展到涉及課程設(shè)置、教材、教育改革方案等教育工作的各個(gè)方面的測量。第四，現(xiàn)代的教育測量由過去單一的常模參照性測驗(yàn)?zāi)Ｊ桨l(fā)展到常模參照性測驗(yàn)與目標(biāo)參照性測驗(yàn)相結(jié)合的模式。第五，教育測量本身的理論研究與技術(shù)開發(fā)更加深入與完善。如關(guān)于測驗(yàn)等值、項(xiàng)目反應(yīng)理論（IRT）、測驗(yàn)信度、評分誤差控制的研究等都有了較大的發(fā)展?，F(xiàn)代化的測量工具（如電腦、光學(xué)掃描器等）也在教育測量中得到廣泛的使用。二、教育評價(jià)的發(fā)展階段教育評價(jià)作為科學(xué)概念，是20世紀(jì)30年代，在美國進(jìn)步主義教育聯(lián)盟的新教育課程的改革實(shí)驗(yàn)“八年研究”中正式誕生的。具體地說，教育評價(jià)思想源于中國古代教育的考試，孕育于西方教育測量的批判，形成于“八年研究”的改革實(shí)踐。（一）教育評價(jià)產(chǎn)生的社會(huì)背景20世紀(jì)20年代末，30年代初，美國爆發(fā)了一場空前的經(jīng)濟(jì)危機(jī)。二、教育評價(jià)的發(fā)展階段教育評價(jià)自產(chǎn)生至今大致經(jīng)歷了三個(gè)發(fā)展階段，在這三個(gè)階段中教育評價(jià)方法論各有其不同的特點(diǎn)：

1．教育評價(jià)的開創(chuàng)時(shí)期（1930—1958年）泰勒在“八年研究”(1933-1940)的報(bào)告《史密斯——泰勒報(bào)告》里，系統(tǒng)地總結(jié)了教育評價(jià)思想體系，第一次提出了教育評價(jià)的科學(xué)概念——“評價(jià)過程在本質(zhì)上是確定課程和教學(xué)大綱在實(shí)際上實(shí)現(xiàn)教育目標(biāo)的程度的過程。”二、教育評價(jià)的發(fā)展階段泰勒的“目標(biāo)中心模式”深深打上了行為主義心理學(xué)的烙印，其方法論的實(shí)證化特點(diǎn)非常明顯。首先，泰勒認(rèn)為開展評價(jià)的依據(jù)是把所要評價(jià)的內(nèi)容分成具體可見的、可操作的學(xué)生行為目標(biāo)，以便在評價(jià)中能夠圍繞這些行為目標(biāo)進(jìn)行觀察和測定，以此來控制教育活動(dòng)，評價(jià)教育成敗。如果制定的目標(biāo)越明確、具體，可操作性越強(qiáng)，則實(shí)用性也就越大。他說：“除非對目標(biāo)所指的那種行為有比較清楚的概念，否則就無法知道期待學(xué)生產(chǎn)生哪種行為，以了解這些目標(biāo)實(shí)現(xiàn)程度?！倍?、教育評價(jià)的發(fā)展階段其次，泰勒在他的評價(jià)模式中非常強(qiáng)調(diào)對學(xué)習(xí)和教育結(jié)果進(jìn)行客觀地測量、統(tǒng)計(jì)。他曾提出過三種評價(jià)手段：（1）由評價(jià)專家組織測驗(yàn)，通過這些測驗(yàn)測得學(xué)生的行為變化情況；（2）把學(xué)生置于特定情境之中，對學(xué)生的特定行為進(jìn)行有目的的觀察；（3）用提問的形式使學(xué)生表達(dá)觀點(diǎn)，借以引起學(xué)生作出能體現(xiàn)其知識(shí)和能力的回答。泰勒在運(yùn)用這些手段時(shí)，提出過三個(gè)重要準(zhǔn)則：客觀性、信度和效度。如果任何一種手段違背了這三條準(zhǔn)則，都將是無效的手段。二、教育評價(jià)的發(fā)展階段泰勒的目標(biāo)中心模式，教育目標(biāo)至關(guān)重要。為了幫助教育者更清楚地表達(dá)教育目標(biāo)，美國布盧姆于1948年開始致力于教育目標(biāo)的分類研究，1956年布盧姆等研究完成了認(rèn)知領(lǐng)域的目標(biāo)分類，1964年克拉斯弗完成了情感領(lǐng)域的目標(biāo)分類，1965年和1972年辛普森和哈羅分別完成了動(dòng)作技能領(lǐng)域的目標(biāo)分類。使評價(jià)手段的可操作性向前邁了一步，加強(qiáng)了評價(jià)的實(shí)證化傾向。此外，泰勒模式還催生了標(biāo)準(zhǔn)化測驗(yàn)，使評價(jià)手段的客觀化程度進(jìn)一步加強(qiáng)。

二、教育評價(jià)的發(fā)展階段2．大發(fā)展時(shí)期（1958—1972年）背景：1957年蘇聯(lián)的人造衛(wèi)星上天，美國朝野轟動(dòng)。1958年美國《國防教育法》頒布，一方面給教育投入大量經(jīng)費(fèi)，另一方面又要求對教育工作實(shí)行科學(xué)的評價(jià)。1963年美國政府正式提出要對教育的效能和質(zhì)量進(jìn)行評價(jià)，并撥出大量?？钣糜诮逃u價(jià)理論與技術(shù)、方法的研究和培養(yǎng)專門的教育評價(jià)工作人員。二、教育評價(jià)的發(fā)展階段1963年，克龍巴赫發(fā)表了《通過評價(jià)改進(jìn)教程》一文，尖銳地批評了以往的評價(jià)工作，他批評以往的評價(jià)概念缺乏實(shí)用性和合理性，用實(shí)驗(yàn)組和控制組的測驗(yàn)分?jǐn)?shù)進(jìn)行比較，這是偏重于事后評價(jià)。他認(rèn)為，應(yīng)把評價(jià)作為一個(gè)收集和報(bào)告對課程設(shè)計(jì)有指導(dǎo)意義的信息過程，只報(bào)告測驗(yàn)的平均分?jǐn)?shù)沒有報(bào)告測驗(yàn)項(xiàng)目及其分析是沒有用的。他指出：（1）評價(jià)人不僅應(yīng)關(guān)心教育的目標(biāo)，檢驗(yàn)教育目標(biāo)達(dá)到的程度，更應(yīng)關(guān)心教育的決策；（2）評價(jià)的重點(diǎn)應(yīng)放在教育過程之中，而不是在教育過程結(jié)束之后；（3）評價(jià)不是決定優(yōu)劣的過程，而是作為一個(gè)收集和反饋信息的過程。二、教育評價(jià)的發(fā)展階段1963年，格拉澤發(fā)表文章，在指出相對評價(jià)的不足時(shí)，提出在今后學(xué)校教育中應(yīng)著重進(jìn)行絕對評價(jià)。1966年，斯塔夫賓提出了把背景評價(jià)（Context）、輸入評價(jià)(Input)、過程評價(jià)(Process)和結(jié)果評價(jià)(Product)結(jié)合起來而形成的CIPP模式。首次提出了過程評價(jià)的思想，他認(rèn)為，評價(jià)不應(yīng)局限于評判決策者所確定的教育目標(biāo)預(yù)期效果的達(dá)到程度，而應(yīng)該收集有關(guān)教育方案實(shí)施全過程及其成果的資料，評價(jià)是為決策提供信息的過程——“評價(jià)的最主要目的不是為了證明(prove)，而是為了改進(jìn)(Improve)”

。二、教育評價(jià)的發(fā)展階段1、預(yù)期結(jié)果的決策，為這類決策提供信息的是背景評價(jià)。這種評價(jià)實(shí)際上是根據(jù)社會(huì)需要對教育目標(biāo)本身作出價(jià)值判斷，以圖發(fā)現(xiàn)教育計(jì)劃的目標(biāo)同計(jì)劃的實(shí)際影響的差異。所以，其實(shí)質(zhì)是診斷性的。2、預(yù)期方法的決策，為這類決策提供信息的是輸入評價(jià)，它是在闡明了決策目標(biāo)后，對達(dá)到目標(biāo)所需要的條件進(jìn)行評價(jià)，實(shí)質(zhì)上是對教育方案、計(jì)劃可行性的評價(jià)。二、教育評價(jià)的發(fā)展階段3、實(shí)際方法的決策，為這類決策提供信息的是過程評價(jià)，它為計(jì)劃方案的制定者提供反饋信息，用于發(fā)現(xiàn)其實(shí)施過程中的潛在問題。4、實(shí)際結(jié)果的決策，為這類決策提供信息的是結(jié)果評價(jià)，它的重點(diǎn)也在于目標(biāo)到達(dá)度。該模式的主要特點(diǎn)：突破了泰勒的框架，在許多地方有了新的發(fā)展，其中最主要的是目標(biāo)的合理性和可行性受到了充分的重視，泰勒模式的缺陷在這里得到了克服。二、教育評價(jià)的發(fā)展階段1967年，斯克里文發(fā)表了《評價(jià)方法論》，提出了以下幾種概念的區(qū)別：（1）形成性評價(jià)和終結(jié)性評價(jià)；（2）專業(yè)性評價(jià)和業(yè)余性評價(jià)；（3）比較性評價(jià)和非比較性評價(jià)；（4）目標(biāo)達(dá)成度的評價(jià)和目標(biāo)是否值得達(dá)成的評價(jià)。同時(shí)，斯克里文還提出了目標(biāo)游離模式（GoalFree），認(rèn)為教育活動(dòng)除了收到預(yù)期的效應(yīng)外，還會(huì)產(chǎn)生各種“非預(yù)期效應(yīng)”。這些非預(yù)期效應(yīng)可能是積極的，也可能是消極的，但它對教育活動(dòng)的社會(huì)價(jià)值總要產(chǎn)生或多或少的影響，因此，為了降低評價(jià)活動(dòng)中方案、計(jì)劃制定者主觀意圖的影響，不能把評價(jià)目的告訴評價(jià)者，以利于評價(jià)者收集教育的全部成果和信息，這種不受預(yù)定活動(dòng)目標(biāo)影響的評價(jià)模式被稱之為“目標(biāo)游離模式”或“無目標(biāo)模式”。二、教育評價(jià)的發(fā)展階段1969年，艾斯納對泰勒的目標(biāo)評價(jià)理論進(jìn)行了抨擊。他認(rèn)為，對教育本質(zhì)的不同理解，可以造成對目標(biāo)的不同表述，泰勒的評價(jià)方法不一定適用于教育實(shí)際。因?yàn)樗葲]有提供評價(jià)目標(biāo)本身的方法，也沒有提出判斷評價(jià)目標(biāo)與結(jié)果之間差異的標(biāo)準(zhǔn)。在這個(gè)階段，出現(xiàn)了40多種評價(jià)模式。其發(fā)展演變情況是：從專家學(xué)者的研究領(lǐng)域變成政府工作范圍；評價(jià)的內(nèi)容和范疇從學(xué)生學(xué)習(xí)，課程與教學(xué)效果發(fā)展到教育決策和教育規(guī)劃；評價(jià)的理論與方法技術(shù)有了迅速發(fā)展。教育評價(jià)方法論的主要特點(diǎn)是實(shí)證化傾向仍占主要地位，人文化傾向已開始萌芽。二、教育評價(jià)的發(fā)展階段

3．專業(yè)時(shí)期（1973年至今）背景：第二次世界大戰(zhàn)后，隨著美國經(jīng)濟(jì)的增長，公民權(quán)運(yùn)動(dòng)開始高漲，特別是60年代的社會(huì)動(dòng)亂和社會(huì)變革時(shí)期，迫使人們在研究教育問題時(shí)，開始考慮人的需要和人與人之間交互作用對教育的影響，在方法論上逐漸向人文主義哲學(xué)靠攏。二、教育評價(jià)的發(fā)展階段人文主義哲學(xué)思潮：德國的赫爾德認(rèn)為人類生命與自然世界中的背景相聯(lián)系，他從人的自然與精神的統(tǒng)一和雙重特征出發(fā)，認(rèn)為人性不是一個(gè)給定的數(shù)據(jù)而是一個(gè)問題，不是到處都一致的某種東西，它的基本特征可以一勞永逸地被人發(fā)現(xiàn)，而是可變的東西，它的特征要求在特殊的事例中進(jìn)行單獨(dú)的調(diào)查研究。二、教育評價(jià)的發(fā)展階段狄而泰認(rèn)為：精神科學(xué)與自然科學(xué)完全不同，自然科學(xué)研究的是外在于人的客觀或物質(zhì)現(xiàn)象，而精神科學(xué)研究的則是人的精神生活，精神生活的中心或基本內(nèi)容是價(jià)值和意義的體驗(yàn)、表達(dá)和理解。叔本華和尼采的意志哲學(xué)，新康德主義者溫德爾班德和李凱爾特的文化科學(xué)方法論，狄爾泰學(xué)派的生命哲學(xué)和解釋學(xué)，以及胡塞爾的現(xiàn)象學(xué)和海德格爾、加達(dá)默爾的存在主義和哲學(xué)解釋學(xué)。這些哲學(xué)思潮和運(yùn)動(dòng)，成為現(xiàn)代人文主義思潮的主要來源。二、教育評價(jià)的發(fā)展階段為了順應(yīng)人文主義哲學(xué)潮流，教育評價(jià)出現(xiàn)了一系列新的模式。這些評價(jià)模式的共同特點(diǎn)就是在評價(jià)中不過分追求客觀性，而是試圖摒棄數(shù)量特征，不只是單純從評價(jià)者的需要出發(fā)，而是考慮到所有參與人的需要，強(qiáng)調(diào)個(gè)體的經(jīng)驗(yàn)、活動(dòng)和主觀認(rèn)識(shí)的作用，強(qiáng)調(diào)必須把人類行為置于特定情境中加以理解，重視在調(diào)查研究中，在隨機(jī)觀察中，在與參與者的會(huì)談和討論中，獲得定性的、而非定量的資料，主張以問題中心，把價(jià)值和意識(shí)問題作為研究的起點(diǎn)，提倡所謂的人文的方法，如個(gè)案法、談話法、臨床法、歷史法等。二、教育評價(jià)的發(fā)展階段1975年，斯塔克創(chuàng)立了一種重視所有評價(jià)參與人的觀點(diǎn)和看法的評價(jià)模式——“應(yīng)答評價(jià)模式”。斯塔克認(rèn)為“如果教育評價(jià)更直接地指向方案的活動(dòng)而非方案的內(nèi)容，如果它能滿足評價(jià)聽取人對信息的需求，或者在反映方案得失長短的評價(jià)報(bào)告中更能反映人們不同的價(jià)值觀念，那么，這種評價(jià)即可稱為‘應(yīng)答評價(jià)’?！痹撃Ｊ街荚谕怀鋈说男枰谠u價(jià)過程中的作用。二、教育評價(jià)的發(fā)展階段在具體的評價(jià)過程中，應(yīng)答性評價(jià)不是象預(yù)定式評價(jià)那樣強(qiáng)調(diào)目標(biāo)的表述和客觀的測驗(yàn)，“該方法以犧牲某些測量上的準(zhǔn)確性換取評價(jià)結(jié)果對方案有關(guān)人員來說更多的有用性，”它要求評價(jià)人要與被評價(jià)活動(dòng)有關(guān)的各種人員接觸，了解他們的愿望、看法并作實(shí)地觀察，根據(jù)由此獲得的信息確定評價(jià)范圍，設(shè)計(jì)評價(jià)方案、選擇收集信息的方法，然后對收集的信息進(jìn)行分析判斷并按需要對回答的問題進(jìn)行分類，再將分類評價(jià)結(jié)果寫成正式報(bào)告分發(fā)各有關(guān)人員，最后，在分類評價(jià)的基礎(chǔ)上對教育方案作出全面評價(jià)。這是一個(gè)廣泛征詢意見，了解評價(jià)需要的過程。二、教育評價(jià)的發(fā)展階段1973年毆文斯提出了對手式評價(jià)模式。對手式評價(jià)模式是為揭示教育方案和教育活動(dòng)正反兩個(gè)方面的長短得失所采用的準(zhǔn)法律過程評委會(huì)審議形式的評價(jià)模式。它十分重視聽取教育方案和教育活動(dòng)的爭議意見，尤其是反對的意見，所以又稱“反對者”、“反向”或“抗衡”評價(jià)模式。對手式評價(jià)抓住了決策范圍的兩端，采用了“斗爭”理論，靠相互對立的評價(jià)者通過出示更好的、也是更有說服力的證據(jù)，或者用能導(dǎo)致優(yōu)勢的法律或辯論技術(shù)（或其它技術(shù)）去努力獲勝。對手通過爭論，使各方面的意見得到充分反映，以便決策者全面掌握情況，作出正確的結(jié)論。二、教育評價(jià)的發(fā)展階段20世紀(jì)80年代，美國出現(xiàn)了自稱“第四代教育評價(jià)”的理論，由古巴（E.Cuba）和林肯(Y.S.Lincoln)合作創(chuàng)立。古巴和林肯認(rèn)為：從評價(jià)本質(zhì)上看，評價(jià)描述的并不是事物真正的、客觀的狀態(tài)，而是參與評價(jià)的人或團(tuán)體關(guān)于評價(jià)對象的一種主觀性認(rèn)識(shí)，是一種通過“協(xié)商”而形成的“心理建構(gòu)”。是參與評價(jià)及與評價(jià)有關(guān)的人和團(tuán)體基于對對象的認(rèn)識(shí)而整合成的一種共同的、公認(rèn)的主觀看法。從某種意義上說，評價(jià)結(jié)果由于受人們的物質(zhì)心理、社會(huì)、文化條件限制，不是絕對意義上的“真理”，連“近似真理”也算不上，常常為人們主觀偏好與誤差所制約。因此，評價(jià)中應(yīng)充分聽取不同方面的意見，協(xié)調(diào)各種價(jià)值標(biāo)準(zhǔn)間的分歧，縮短不同意見間的距離，最后形成公認(rèn)的一致的看法。二、教育評價(jià)的發(fā)展階段古巴和林肯認(rèn)為，評估過程可以包括以下環(huán)節(jié)：其一，確定所有與評估有關(guān)的人員，包括決策者、執(zhí)行者、評估者、調(diào)適對象和局外人員；其二，征詢各有關(guān)人員的評估構(gòu)想與要求；其三，對不同的構(gòu)想和要求加以評判說明；其四，針對未達(dá)成共識(shí)的觀點(diǎn)擬定協(xié)商議程，收集提供協(xié)商所需的信息；其五，各種觀點(diǎn)的代表進(jìn)行協(xié)商論辯，通過論辯、協(xié)商以求達(dá)成共識(shí)；其六，通過不斷的論辯、協(xié)商，解決不斷出現(xiàn)的新問題。中國發(fā)展性評價(jià)網(wǎng)http:///第二章教育測量的質(zhì)量指標(biāo)分析一個(gè)測驗(yàn)的質(zhì)量，一般要從兩個(gè)方面來進(jìn)行：一是考察整個(gè)測驗(yàn)的質(zhì)量指標(biāo)，即考察測驗(yàn)的信度和效度；二是考察每個(gè)題目（項(xiàng)目）的質(zhì)量指標(biāo)，即考察測驗(yàn)項(xiàng)目的難度和區(qū)分度。信度主要對整個(gè)測量而言。效度難度主要對測量的項(xiàng)目而言。區(qū)分度第一節(jié)信度一、什么是信度信度是指測量結(jié)果的穩(wěn)定性或可靠性程度。換句話說，一個(gè)信度高的測驗(yàn)，對同一個(gè)人或同一組被試先后施測兩次，結(jié)果應(yīng)保持一致，否則，就是信度不高的測驗(yàn)。一般地說，一個(gè)好的測量必須具有較高的信度，也就是說，一個(gè)好的測量工具，只要遵守操作規(guī)則，其結(jié)果就不應(yīng)隨工具的使用者或使用時(shí)間等方面的變化而發(fā)生較大的變化。例如：用標(biāo)準(zhǔn)的鋼尺和一種具有較大彈性的皮尺去測量一張桌子的長度，皮尺的測量信度不高。一、什么是信度可以從以下三個(gè)方面去理解測量的信度：1、信度指實(shí)測值和真值相差的程度；凡測量必有誤差。實(shí)際測得的分?jǐn)?shù)往往難以和這個(gè)人的真正水平值完全一致，它總會(huì)略高于或略低于其真實(shí)水平值，有時(shí)甚至?xí)?yán)重偏離其真正水平值。例如：我們平常說“××考生基本上考出了其應(yīng)有水平”，“××考生失手了”，或“××這次測驗(yàn)超水平發(fā)揮”等，就是對測量現(xiàn)象的一種描述。一、什么是信度我們可以用一個(gè)公式表示實(shí)測值（X）和真值（T）相差的程度：X=T+E式中，X表示實(shí)測值，T表示真值，E表示誤差。但測量的真值是未知的（如果已知就沒有必要進(jìn)行測量了），因此，誤差也是無法求出來的。當(dāng)然，可以把很多次測量的實(shí)測值的平均值作為真值的近似值，但這在實(shí)踐上不具有可操作性。所以，根據(jù)這種理解，無法求出信度的大小。一、什么是信度（二）信度指統(tǒng)計(jì)量與參數(shù)之間的接近程度統(tǒng)計(jì)量是指樣本上的各種數(shù)字特征（如樣本的平均數(shù)、標(biāo)準(zhǔn)差等），參數(shù)是總體上的各種數(shù)字特征（如總體的平均數(shù)、標(biāo)準(zhǔn)差等）。統(tǒng)計(jì)量越接近參數(shù)，這個(gè)統(tǒng)計(jì)量的可靠性便越高，因此，信度就越高。要知道統(tǒng)計(jì)量與參數(shù)的接近程度，可以對參數(shù)進(jìn)行區(qū)間估計(jì)。這種方法對估計(jì)真分?jǐn)?shù)也是有用的。但這種理解也無法計(jì)算出信度。一、什么是信度（三）信度指兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度如果對同一對象進(jìn)行兩次重復(fù)測量或者等值測量后，計(jì)算兩次測量的相關(guān)系數(shù)，相關(guān)系數(shù)越高，說明測量的信度就越高；反之，就越低。對于信度的這種理解，有利于信度的計(jì)算。但重復(fù)測量會(huì)受到被測對象的經(jīng)驗(yàn)、知識(shí)的增長等因素的影響，等值測量又較難編制，因此，采用這種方法計(jì)算信度時(shí)，也是有誤差的。X=T+E根據(jù)方差的可加性，有：Sx2=St2+Se2Sx2為測驗(yàn)總方差（實(shí)得分?jǐn)?shù)方差），St2為真分?jǐn)?shù)方差，Se2為測驗(yàn)誤差的方差。當(dāng)Sx2不變時(shí)，St2越大，Se2越小，反之亦然二、信度的理論公式在測量理論中，信度被定義為：一組測驗(yàn)分?jǐn)?shù)的真方差（真變異數(shù)）與總方差（實(shí)得變異數(shù)）的比值，即：

由于Sx2=St2+Se2，公式變?yōu)椋嚎梢?，隨機(jī)誤差分?jǐn)?shù)的方差越小，測量的信度就越高。信度的取值范圍為[0，1]，如果測量誤差的方差為0，那么，測量的信度等于1，如果測量誤差的方差等于觀察分?jǐn)?shù)的方差，則測量的信度為0。二、信度的理論公式但在實(shí)際測量中，St2和Se2都是不能直接求得的，因此信度是一個(gè)理論值三、信度的類型和估計(jì)方法（一）重測信度（穩(wěn)定性系數(shù)）——估計(jì)測驗(yàn)跨時(shí)間一致性的指標(biāo)1、概念：是指用同一測驗(yàn)，對同一組被試先后施測兩次，然后根據(jù)被試兩次測驗(yàn)分?jǐn)?shù)計(jì)算其相關(guān)系數(shù)。重測信度是假定所測量的特性處于相對穩(wěn)定的狀態(tài)，如果用同一測驗(yàn)對相同被試先后施測兩次，其結(jié)果應(yīng)相同或相近，我們就說測驗(yàn)結(jié)果具有穩(wěn)定性，信度高，如果兩次測驗(yàn)結(jié)果不同或相差很大，則表明測驗(yàn)結(jié)果缺乏穩(wěn)定性，即信度低。2、重測信度的估計(jì)方法——重測法即用同一測驗(yàn)以一定的時(shí)間間隔，對相同的被試先后施測兩次，然后計(jì)算兩次實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)。其模式是：測驗(yàn)A1

適當(dāng)時(shí)間測驗(yàn)A2兩次測驗(yàn)均以A表示，即兩次測驗(yàn)完全相同，A的下標(biāo)1、2表示同一測驗(yàn)施測兩次，時(shí)距可短至幾分鐘，長可達(dá)數(shù)年。計(jì)算公式——積差相關(guān)系數(shù)例：用學(xué)習(xí)動(dòng)機(jī)測驗(yàn)對15名被試先后施測兩次（間隔時(shí)間為2周），得分如下表，求該測驗(yàn)的信度。被試123456789101112131415前測（1）后測（2）20182321171820171613141312882022192218151417151614121076你認(rèn)為重測法存在什么問題？1、兩次測驗(yàn)之間的時(shí)間間隔要適宜。重測信度的大小常常受兩次測驗(yàn)的時(shí)間間隔長短的影響，間隔時(shí)間過短，第一次測驗(yàn)記憶猶新，容易回憶出上次的答案，因而夸大了穩(wěn)定性，間隔時(shí)間過長，被試可能由于經(jīng)驗(yàn)積累、練習(xí)、成熟的影響，成績就可能與第一次大有差別，因而降低穩(wěn)定性。間距應(yīng)多長，應(yīng)視測驗(yàn)類型和準(zhǔn)備如何利用測驗(yàn)結(jié)果而定。在報(bào)告重測信度時(shí)，一般要說明時(shí)間間隔及被試在此期間的有關(guān)活動(dòng)。2、重測法適用于速度測驗(yàn)而不適用于難度測驗(yàn)。因?yàn)樗俣葴y驗(yàn)題目較多，測驗(yàn)有足夠長度，時(shí)間較緊，被試無暇慢慢地回憶，所以第一次測驗(yàn)的記憶影響較少。3、應(yīng)注意提高被試的積極性，由于重測法是把原測驗(yàn)再重測一次，所以被試容易興趣索然，采取不積極合作的態(tài)度，使第二次測驗(yàn)質(zhì)量降低，所以，調(diào)動(dòng)被試的積極性很重要。4、要實(shí)施兩次測驗(yàn)，耗費(fèi)人力、物力和時(shí)間較多。你認(rèn)為重測法存在什么問題？（二）復(fù)本信度（等值性系數(shù)）——估計(jì)測驗(yàn)跨形式的一致性指標(biāo)1、概念：是指用兩個(gè)等值（題型、題數(shù)、難度、區(qū)分度相等），但具體內(nèi)容不同的測驗(yàn)，在最短時(shí)間內(nèi)，對相同被試先后施測兩次，然后根據(jù)兩次測驗(yàn)分?jǐn)?shù)計(jì)算其相關(guān)系數(shù)。復(fù)本信度是衡量兩個(gè)不同版本的測驗(yàn)的等值程度的指標(biāo)，被試如果具備某一心理特質(zhì)，那么，用性質(zhì)相同而題目不同的兩個(gè)等值測驗(yàn)來施測，結(jié)果應(yīng)該具有一致性，否則的話，說明測驗(yàn)信度低。2、復(fù)本信度的估計(jì)方法——復(fù)本法編制兩份等值的測驗(yàn)（復(fù)本），先用第一種測驗(yàn)對被試進(jìn)行測驗(yàn)，接著再用第二種測驗(yàn)進(jìn)行施測，然后求兩次測驗(yàn)的積差相關(guān)系數(shù)（公式同上）。其模式是：測驗(yàn)A最短時(shí)距測驗(yàn)B3、使用復(fù)本信度應(yīng)注意的問題（1）復(fù)本法的關(guān)鍵是兩個(gè)測驗(yàn)必須等值（2）兩次測驗(yàn)時(shí)距盡可能短，以便避免知識(shí)積累、練習(xí)效應(yīng)等因素的影響（3）如果兩次測驗(yàn)緊接進(jìn)行，應(yīng)該注意避免被試易厭倦。（三）同質(zhì)信度（內(nèi)部一致性系數(shù)）

——估計(jì)測驗(yàn)內(nèi)部跨測題的一致性指標(biāo)1、概念：是指將一個(gè)測驗(yàn)分成兩部分（例如分成奇數(shù)題和偶數(shù)題，或前半部分和后半部分），然后計(jì)算兩部分測題得分的相關(guān)系數(shù)。前述的兩種方法，都必須對被試施測兩次，然后計(jì)算兩次得分的相關(guān)系數(shù)。同質(zhì)信度只需施測一次。2、同質(zhì)信度的估計(jì)方法——分半信度法、庫德—理查遜公式法和α系數(shù)法（1）分半信度法。分半信度法是將測驗(yàn)中的測題平均分成兩組，然后分別計(jì)算每一組的得分，并求兩者的相關(guān)系數(shù)。求得的相關(guān)系數(shù)還不是同質(zhì)信度，因?yàn)榘言囶}分成兩組后，試卷的長度減少了一半，這會(huì)降低測驗(yàn)的信度，一般來說，測驗(yàn)越長，信度越高，因此求出相關(guān)系數(shù)后還需用斯皮爾曼—布朗公式加以校正，公式為：rtt為分半信度，rxy為測驗(yàn)兩部分得分的相關(guān)系數(shù)表115名被試在6個(gè)項(xiàng)目組成的測驗(yàn)上的得分被試123456789101112131415項(xiàng)目12345643552434322221134355123123312167876676544533288877555765442410810998107878674391081069797865532若將上述測驗(yàn)奇、偶分半形成兩個(gè)半測驗(yàn)，可得下表：被試123456789101112131415奇數(shù)題偶數(shù)題20182321171820171613141312882022192218151417151614121076表215名被試在奇偶分半測驗(yàn)上的得分(2)庫德—查理遜公式法由于測驗(yàn)分半的方法多種多樣，不同的分法將影響到分半信度，而要把一個(gè)測驗(yàn)分拆成真正平行等值的兩半，是不容易的。能否不作拆分而直接利用單一形式作一次施測所獲資料來估計(jì)測驗(yàn)信度呢？庫德和查理遜提出了幾個(gè)計(jì)算公式，其中常用的有rKR20

和rKR21。①rKR20的用法：這個(gè)公式以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù)為基礎(chǔ)計(jì)算（每題只有通過或未通過兩種分?jǐn)?shù)）。k為項(xiàng)目數(shù)，S2為各人總分的方差，P為正確通過率。②rKR21的用法：這個(gè)公式以各反應(yīng)者總分的平均數(shù)和方差為基礎(chǔ)計(jì)算，無需各題難度的信息。公式如下：式中，是各人總分的平均數(shù)，S2是各人總分的方差，K是題目數(shù)。對8名被試實(shí)施某測驗(yàn)，數(shù)據(jù)如下表，求該測驗(yàn)的信度被試ABCDEFGHpqpq滿分題號3512423112345678910000000001000000010100000110010000101001011101010111111001111110011110101111111110.0000.1250.2500.3750.3750.6250.7500.7500.7501.0001.0000.8750.7500.6250.6250.3750.2500.2500.2500.0000.0000.1090.1860.2340.2340.2340.1860.1860.1860.000∑87655432=5S2=3.5

1.555

rKR21所得的信度要低于rKR20rKR21公式適用于各試題難度相近的情況，如果各試題難度相差太大，就會(huì)出現(xiàn)低估現(xiàn)象，因此rKR20要比rKR21精確些。注意：只適用于客觀性試題練習(xí)：

對10名被試實(shí)施某測驗(yàn)，數(shù)據(jù)如下表，求該測驗(yàn)的信度

被試題號滿分ABCDEFGHIJ123456351242330330300305500555000100110102022202200404004402200222220合計(jì)175324424542計(jì)算內(nèi)部一致性系數(shù)，需注意下列問題：①若用分半法時(shí)，以按奇數(shù)題和偶數(shù)題分為兩半為宜。若把整個(gè)測驗(yàn)分為前后兩半，一方面前半部試題與后半部試題未必等值，另方面被試者在完成后半部試題時(shí)，可能因疲勞、厭倦等原因而影響回答質(zhì)量，以致前后反應(yīng)不一致，影響信度。②若速率是測驗(yàn)的重要因素，則不宜用分半法。因?yàn)樗俣葴y驗(yàn)中試題的難度低，被試者得分的多少，在很大程度上是因?yàn)榇痤}的多少，分半法易使得分相同，從而會(huì)夸大分半法的信度估計(jì)。③如果答案多種多樣，得分也多種多樣時(shí)（如論文式考試），則不能用上列公式計(jì)算一致性系數(shù)。（3）論文式測驗(yàn)的信度系數(shù)

——克龍巴赫的α系數(shù)法分半信度適用于（01）和（0K）記分的測題。庫德—查理遜公式只適用于（01）記分的測題。α系數(shù)法適用于（0K）記分的測題。Si2為每一題得分的方差，St2為被試總分的方差。例：有一個(gè)包含6個(gè)論文式題目的測驗(yàn)，對5個(gè)被試施測，試求該測驗(yàn)的信度被試12345Si2題號123456

71181111697896106898116837118111171181111

3.041.362.566.963.043.04∑416343575420St2=68.96（四）評分者信度

1、概念：估計(jì)不同評分者對同一測驗(yàn)評分標(biāo)準(zhǔn)一致性程度的指標(biāo)。（針對主觀題）

2、估計(jì)方法：分兩種情況：第一種：評分者為兩人時(shí)，先將兩人的評分轉(zhuǎn)化為等級，求等級相關(guān)系數(shù)D為兩人評分的等級之差例：甲、乙兩位教師評閱10份試卷，結(jié)果如下，問兩位教師的評分是否一致？試卷得分名次DD2甲教師乙教師甲教師乙教師123456789109490868672706866646193929270827665766860123.53.5567891012.52.5745.595.58100-0.51-3.510.5-22.51000.25112.2510.2546.2510∑26第二種：有多名評分者，將評分轉(zhuǎn)化為等級，用肯德爾和諧系數(shù)估計(jì)。W為和諧系數(shù)，Ri為第i份試卷被評等級的總和，K為評分者人數(shù)，N為被評試卷數(shù)。一般而言，W大于0.9時(shí)，可認(rèn)為評分者信度較好.例：6位教師評閱5篇作文，下表是評分等級，問6位教師的評分是否一致（可信）？n=5作文評分者k=6123456RiRi2123453333354555211224544411221118291025832484110062564∑901954四、提高信度的方法(一）信度系數(shù)以多大為宜學(xué)科測驗(yàn)：r﹥0.9智力測驗(yàn)：r﹥0.8教師自編測驗(yàn)和品德測驗(yàn)：r﹥0.6（二）測量誤差的來源（前面已講）測量誤差的來源基本可分為三類：1．測驗(yàn)本身所引起的誤差2．測驗(yàn)的實(shí)施所引起的誤差3．被試所引起的誤差

（三）提高測驗(yàn)信度的方法1、適當(dāng)增加測驗(yàn)題目的數(shù)量：測驗(yàn)越長，信度越高。2、測驗(yàn)的難度要適中3．測驗(yàn)的內(nèi)容應(yīng)盡量同質(zhì)4．測驗(yàn)的程序應(yīng)統(tǒng)一5．測驗(yàn)的時(shí)間要充分6．評分要盡量做到客觀化、減少評分誤差練習(xí)與作業(yè)1、15人參加詞匯理解測驗(yàn)，第一次測驗(yàn)與第二次測驗(yàn)間隔兩周進(jìn)行，求該測驗(yàn)的信度被試123456789101112131415前測后測1821161425231526132827221924162023171226251827152629212022182、15人參加一次測驗(yàn)后在奇數(shù)題和偶數(shù)題上的得分如下，求測驗(yàn)信度被試123456789101112131415奇數(shù)題偶數(shù)題3240422830304128323426343625403139453029293930323230403626403、一位教師評閱10份試卷，評完一次并列出等級后，為慎重起見，重評一次，結(jié)果如下，問兩次評分是否一致被試12345678910初評再評

1681024795326891471054、4位教師評閱5篇作文，結(jié)果如下，問教師所評等級是否一致閱卷者劉張王李作文編號12345121223313143452454555、某態(tài)度量表有6道題，被試在各題上的得分的方差分別是0.80、0.81、0.79、0.78、0.80、0.82，測驗(yàn)總分的方差為16.00，求α值第二節(jié)效度

對于任何一種測量來說，信度是必要條件，但并非充要條件。不可信的測驗(yàn)肯定沒有效，但可信的測驗(yàn)未必有效，而有效測驗(yàn)必定可信，因此，對教育測量而言，效度顯得更為重要。

一、效度的概念

效度是指測量結(jié)果的準(zhǔn)確性和有效性的程度，即一個(gè)測驗(yàn)對它所要測量的目標(biāo)準(zhǔn)確測量的程度。通俗地說，測驗(yàn)?zāi)芊駵y量到我們所要測量的東西的程度就是效度。我們可以從以下幾方面來理解效度：1、測量的效度始終是對一定的測量目的而言的。2、測量的效度也是對測量的結(jié)果而言的。3、一種測量的效度只是高或低的問題。4、在教育測量中，效度問題比在其他領(lǐng)域的測量更為重要。二、效度的理論公式任何測量都有誤差，誤差分為隨機(jī)誤差和系統(tǒng)誤差，所謂隨機(jī)誤差是指那種由與測量目的無關(guān)的、偶然因素引起的，而又不易控制的誤差，它使多次測量產(chǎn)生力量不一致的結(jié)果，其方向和大小的變化完全是隨機(jī)的。系統(tǒng)誤差是指那種由與測量目的無關(guān)的變因引起的一種恒定的而有規(guī)律的效應(yīng)。這種誤差穩(wěn)定地存在于每一次測量之中，此時(shí)盡管多次測量的結(jié)果非常一致，但實(shí)測結(jié)果仍與真實(shí)數(shù)值有所差異，是不正確的。在實(shí)際測量中，測量的效度除受隨機(jī)誤差影響外，還受系統(tǒng)誤差影響。所以必須從統(tǒng)計(jì)學(xué)的角度對效度作進(jìn)一步的分析。在前面的信度中說過，實(shí)得分?jǐn)?shù)(X)的方差（SX2）等于真分?jǐn)?shù)(T)方差（ST2）加測量誤差(E)的方差（SE2）,SX2=ST2+SE2（這里沒有考慮系統(tǒng)誤差問題）。因而信度(rxx)被定義為真分?jǐn)?shù)方差與實(shí)得分?jǐn)?shù)方差之比，即：在討論效度時(shí)，還必須把真分?jǐn)?shù)方差（ST2

）分解為兩部分，一部分是與測量目標(biāo)吻合、反映所欲測量的特性的真實(shí)差異的真分?jǐn)?shù)方差，也稱有效方差（Sv2

）；另一部分是與測量目標(biāo)無關(guān)，但穩(wěn)定地與真分?jǐn)?shù)方差結(jié)合在一起的誤差分?jǐn)?shù)方差，它是由系統(tǒng)誤差引起的變異，所以也稱為系統(tǒng)誤差方差(SI2)，它與由隨機(jī)誤差引起的變異不同(SE2)。于是有：ST2=Sv2+SI2因而，SX2=Sv2+SI2+SE2在這個(gè)公式中，假設(shè)隨機(jī)誤差方差足夠小而且不變，則系統(tǒng)誤差分?jǐn)?shù)方差越小，有效方差就越大，有效方差在實(shí)得分?jǐn)?shù)方差中所占的比重越大，那么達(dá)到測驗(yàn)?zāi)康牡某潭纫簿驮酱?，或者說效度也就越高。因此，在測量學(xué)中，效度被定義為與測量目的有關(guān)的變異（有效變異）與實(shí)測值變異之比。即：三、效度的類型和估計(jì)1974年美國心理學(xué)會(huì)發(fā)行的《教育和心理測驗(yàn)的標(biāo)準(zhǔn)》一書將效度分為三大類：內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和結(jié)構(gòu)效度。（一）內(nèi)容效度1、什么是內(nèi)容效度是指測驗(yàn)?zāi)康拇硭麥y量的內(nèi)容和引起預(yù)期反應(yīng)所達(dá)到的程度。也就是測量內(nèi)容的代表性程度。以考查學(xué)習(xí)成績?yōu)槟康牡臏y驗(yàn)來說，課程標(biāo)準(zhǔn)所規(guī)定的全部教材內(nèi)容是學(xué)生必須掌握的。但一份試卷不可能考全部內(nèi)容，這就有試題內(nèi)容是否有代表性的問題。在編制測驗(yàn)時(shí)，內(nèi)容效度是一個(gè)相當(dāng)復(fù)雜和不易解決的問題。以智力測驗(yàn)為例，由于智力結(jié)構(gòu)十分復(fù)雜，內(nèi)容異常豐富，若用若干測題代表全部智力，必須進(jìn)行深入細(xì)致的研究。著名的斯坦?！燃{智力測驗(yàn)，就是在經(jīng)過五年的潛心研究和大規(guī)模測試后才編制出來的。此外，還由于智力和知識(shí)有密切的關(guān)系，所以有的智力測驗(yàn)題目不能代表智力內(nèi)容，實(shí)際上成了測量知識(shí)的題目，以致降低

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教育測量評價(jià)

文檔簡介

溫馨提示

最新文檔

評論

教育測量評價(jià)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔