教育測(cè)量與評(píng)價(jià) 課件全套 朱德全 第1-15章 教育測(cè)量與評(píng)價(jià)概述- 教育測(cè)評(píng)結(jié)果的統(tǒng)計(jì)處理_第1頁(yè)
教育測(cè)量與評(píng)價(jià) 課件全套 朱德全 第1-15章 教育測(cè)量與評(píng)價(jià)概述- 教育測(cè)評(píng)結(jié)果的統(tǒng)計(jì)處理_第2頁(yè)
教育測(cè)量與評(píng)價(jià) 課件全套 朱德全 第1-15章 教育測(cè)量與評(píng)價(jià)概述- 教育測(cè)評(píng)結(jié)果的統(tǒng)計(jì)處理_第3頁(yè)
教育測(cè)量與評(píng)價(jià) 課件全套 朱德全 第1-15章 教育測(cè)量與評(píng)價(jià)概述- 教育測(cè)評(píng)結(jié)果的統(tǒng)計(jì)處理_第4頁(yè)
教育測(cè)量與評(píng)價(jià) 課件全套 朱德全 第1-15章 教育測(cè)量與評(píng)價(jià)概述- 教育測(cè)評(píng)結(jié)果的統(tǒng)計(jì)處理_第5頁(yè)
已閱讀5頁(yè),還剩482頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章

教育測(cè)量與評(píng)價(jià)的概論教育測(cè)量與評(píng)價(jià)的內(nèi)涵教育測(cè)量與評(píng)價(jià)的特點(diǎn)教育測(cè)量與評(píng)價(jià)的功能教育測(cè)量與評(píng)價(jià)的類型第一節(jié)教育測(cè)量與評(píng)價(jià)的內(nèi)涵第一節(jié)教育測(cè)量與評(píng)價(jià)的內(nèi)涵(一)測(cè)量

(二)教育測(cè)量一、測(cè)量與教育測(cè)量(一)評(píng)價(jià)(二)教育評(píng)價(jià)二、評(píng)價(jià)與教育評(píng)價(jià)(一)教育測(cè)量與評(píng)價(jià)的內(nèi)涵(二)幾個(gè)相關(guān)概念辨析三、教育測(cè)量與評(píng)價(jià)內(nèi)涵第二節(jié)教育測(cè)量與評(píng)價(jià)的特點(diǎn)第二節(jié)教育測(cè)量與評(píng)價(jià)的特點(diǎn)四大特點(diǎn)1234一、融合性:事實(shí)判斷與價(jià)值判斷相統(tǒng)一二、導(dǎo)向性:目標(biāo)指引和問(wèn)題解決共驅(qū)動(dòng)三、情境性:程序?qū)嵤┡c過(guò)程調(diào)控同步走四、制約性:價(jià)值尺度與結(jié)果效用一并管控第三節(jié)教育測(cè)量與評(píng)價(jià)的功能第三節(jié)教育測(cè)量與評(píng)價(jià)的功能終結(jié)性測(cè)評(píng)

教師對(duì)被測(cè)評(píng)者所取得的成績(jī)做出鑒定,以反饋到后續(xù)的教育教學(xué)中,從而改進(jìn)教學(xué)活動(dòng)。形成性測(cè)評(píng)

教師了解階段性教學(xué)的結(jié)果和學(xué)生學(xué)習(xí)的進(jìn)展情況、存在問(wèn)題等,從而及時(shí)調(diào)整和改進(jìn)教學(xué)工作。診斷性測(cè)評(píng)

了解學(xué)生對(duì)學(xué)習(xí)活動(dòng)的準(zhǔn)備情況和已有學(xué)習(xí)水平,教師進(jìn)行因材施教,實(shí)現(xiàn)讓所有學(xué)生獲得最大限度發(fā)展的目的。一、反饋功能

教育測(cè)量與評(píng)價(jià)的反饋功能是指教育測(cè)評(píng)結(jié)果可以為教育工作者提供可靠的決策信息和依據(jù)。一般來(lái)說(shuō),教育測(cè)量與評(píng)價(jià)的反饋功能主要是通過(guò)一定手段的測(cè)評(píng),發(fā)現(xiàn)教育教學(xué)中的各種問(wèn)題,促進(jìn)教育教學(xué)的發(fā)展。第三節(jié)教育測(cè)量與評(píng)價(jià)的功能第三,對(duì)學(xué)生學(xué)習(xí)的導(dǎo)向功能。第二,對(duì)教師教學(xué)的導(dǎo)向功能。第一,對(duì)學(xué)校教學(xué)管理的導(dǎo)向功能。二、導(dǎo)向功能

教育測(cè)量與評(píng)價(jià)起著檢驗(yàn)教學(xué)效果的作用,了解教學(xué)實(shí)際效果與頂設(shè)目標(biāo)之間的差距,并促進(jìn)被測(cè)評(píng)者朝著理想標(biāo)準(zhǔn)與日標(biāo)不斷努力。因此,教育測(cè)量與評(píng)價(jià)對(duì)學(xué)校教育教學(xué)改革起著定向異航的作用,并為其提供動(dòng)力支持。第三節(jié)教育測(cè)量與評(píng)價(jià)的功能第三,資格鑒定資格鑒定第二,評(píng)優(yōu)鑒定優(yōu)秀學(xué)生,優(yōu)秀教師第一,水平鑒定學(xué)業(yè)成績(jī)水平,教學(xué)水平等三、鑒定功能

亞里士多德(Aristotle)曾經(jīng)說(shuō)過(guò):“人類所需要的知識(shí)有三種,即理論、實(shí)用、鑒定?!?/p>

簡(jiǎn)單來(lái)說(shuō),教育測(cè)量與評(píng)價(jià)的鑒定功能就是通過(guò)教育測(cè)評(píng)對(duì)教育活動(dòng)成效優(yōu)劣加以甄別。具體來(lái)說(shuō),就是考查教育測(cè)量與評(píng)價(jià)的對(duì)象是否達(dá)到了教育目標(biāo),對(duì)其優(yōu)劣程度、水平高低進(jìn)行鑒定。第三節(jié)教育測(cè)量與評(píng)價(jià)的功能第二,對(duì)學(xué)生的激勵(lì)。優(yōu)秀學(xué)生,優(yōu)秀教師第一,對(duì)教師的激勵(lì)。學(xué)業(yè)成績(jī)水平,教學(xué)水平等四、激勵(lì)功能

教育測(cè)量與評(píng)價(jià)的激勵(lì)功能是指教育測(cè)評(píng)具有激發(fā)測(cè)評(píng)對(duì)象行為動(dòng)機(jī),使其為實(shí)現(xiàn)預(yù)期目標(biāo)而不斷進(jìn)取的內(nèi)在動(dòng)力的效能,主要包括對(duì)教師的激勵(lì)與對(duì)學(xué)生的激勵(lì)兩個(gè)方面。第四節(jié)教育測(cè)量與評(píng)價(jià)的類型第四節(jié)教育測(cè)量與評(píng)價(jià)的類型五種分類標(biāo)準(zhǔn)教育測(cè)量與評(píng)價(jià)的分類標(biāo)準(zhǔn)主要有以下五種:按測(cè)評(píng)內(nèi)容分類、按測(cè)評(píng)對(duì)象的數(shù)量分類,按測(cè)評(píng)對(duì)象的行為表現(xiàn)分類、按測(cè)量與評(píng)價(jià)的實(shí)施時(shí)機(jī)分類、按解釋測(cè)量與評(píng)價(jià)結(jié)果的參照點(diǎn)分類。一、按測(cè)量與評(píng)價(jià)的內(nèi)容分類76%65%48%82%智力測(cè)驗(yàn)的目的主要是測(cè)量受測(cè)者的智力,以判斷其智力水平的高低,測(cè)驗(yàn)范圍包括受測(cè)者的觀察力、記憶力、想象力、判斷力、創(chuàng)造力等,所有關(guān)于人的普通心智功能的測(cè)驗(yàn)均為智力測(cè)驗(yàn)。(二)智力測(cè)驗(yàn)職業(yè)能力傾向測(cè)驗(yàn)旨在測(cè)量受測(cè)者從事某項(xiàng)職業(yè)活動(dòng)所具有的潛能,從而預(yù)測(cè)其在一定職業(yè)領(lǐng)域內(nèi)取得成功的可能性。在我國(guó),《行政職業(yè)能力測(cè)驗(yàn)》是職業(yè)能力傾向測(cè)驗(yàn)之一。

學(xué)習(xí)能力傾向測(cè)驗(yàn)旨在測(cè)量學(xué)生的一般學(xué)習(xí)能力,以考查學(xué)生是否具備完成學(xué)業(yè)所必需的學(xué)習(xí)與研究上的潛在能力。當(dāng)前具有千憶表性的學(xué)習(xí)能力傾向測(cè)驗(yàn)有美國(guó)的《大學(xué)學(xué)習(xí)能力傾向測(cè)驗(yàn)》(SAT)和本納特(Bennett)等人編制的《鑒別能力傾向測(cè)驗(yàn)》(DAT)。(三)能力傾向測(cè)驗(yàn)學(xué)業(yè)成就測(cè)驗(yàn)主要是對(duì)學(xué)生的學(xué)習(xí)效果進(jìn)行測(cè)量,它是關(guān)于教學(xué)目標(biāo)的考試。一般是對(duì)學(xué)生學(xué)過(guò)的知識(shí)以及完成的學(xué)習(xí)任務(wù)作終結(jié)性評(píng)價(jià)。(一)學(xué)業(yè)成就測(cè)驗(yàn)

人格測(cè)驗(yàn)也稱個(gè)性測(cè)驗(yàn),其目的是測(cè)量受測(cè)者個(gè)體行為獨(dú)特性和傾向性等人格心理特征,如受測(cè)者的性格、氣質(zhì)、興趣、情緒、動(dòng)機(jī)等方面的人格心理特征和個(gè)性傾向性,即對(duì)個(gè)性中除能力以外的部分進(jìn)行測(cè)驗(yàn),通過(guò)專門針對(duì)人格特點(diǎn)的標(biāo)準(zhǔn)化測(cè)量工具,以各項(xiàng)指標(biāo)測(cè)量受測(cè)者的特定人格特征,比如性格測(cè)驗(yàn)、意志測(cè)驗(yàn)、興趣測(cè)驗(yàn)、品格測(cè)驗(yàn)等。(四)人格測(cè)驗(yàn)(個(gè)性測(cè)驗(yàn))二、按測(cè)量對(duì)象的數(shù)量分類0104020301040203(一)個(gè)別測(cè)驗(yàn)個(gè)別測(cè)驗(yàn)指在規(guī)定的同一時(shí)間內(nèi)施測(cè)者每次只能對(duì)一個(gè)受測(cè)者進(jìn)行測(cè)驗(yàn),即一對(duì)一形式的測(cè)驗(yàn)。個(gè)別測(cè)驗(yàn)多用于特殊教育的測(cè)驗(yàn)、智力測(cè)驗(yàn)以及心理特征測(cè)驗(yàn)。(二)團(tuán)體測(cè)驗(yàn)

團(tuán)體測(cè)驗(yàn)與個(gè)別測(cè)驗(yàn)相反,是指在規(guī)定的同一時(shí)間內(nèi)施測(cè)者用相同的測(cè)試內(nèi)容,對(duì)許多人進(jìn)行的測(cè)驗(yàn),即一對(duì)多的測(cè)驗(yàn)。各種人格量表、團(tuán)體智力測(cè)驗(yàn)、一般的教育測(cè)驗(yàn)。三、按測(cè)評(píng)對(duì)象的行為表現(xiàn)分類0104020301040203(一)最佳行為測(cè)驗(yàn)

最佳行為測(cè)驗(yàn)主要以受測(cè)者的放佳行為表現(xiàn)為測(cè)址目的,希望測(cè)量出受測(cè)者在某方面的最佳水平,它是建立在能力基礎(chǔ)上的測(cè)評(píng)。(二)典型行為測(cè)驗(yàn)

典型行為測(cè)驗(yàn)的主要目的是測(cè)量受測(cè)者是否具備某種(或某些)特定的典型行為,而非測(cè)評(píng)受測(cè)者的能力高低。四、按測(cè)評(píng)的時(shí)機(jī)分類

診斷性測(cè)驗(yàn)主要是起診斷性作用的測(cè)驗(yàn)。兩種情況:第一種是在教學(xué)活動(dòng)進(jìn)行之前實(shí)施的測(cè)驗(yàn),第二種是在形成性測(cè)驗(yàn)之后進(jìn)行的。(一)診斷性測(cè)驗(yàn)

形成性測(cè)驗(yàn)是在教學(xué)進(jìn)程中實(shí)施的測(cè)驗(yàn),主要用以測(cè)量學(xué)生目前的學(xué)習(xí)情況和學(xué)習(xí)目標(biāo)的實(shí)現(xiàn)程度,從而提供形成性反饋信息,通常又被稱為進(jìn)展性測(cè)驗(yàn)。這種測(cè)驗(yàn)主要有兩種功能。(二)形成性測(cè)驗(yàn)

終結(jié)性測(cè)驗(yàn)主要是在某一教學(xué)階段結(jié)束時(shí)進(jìn)行測(cè)驗(yàn),即在一個(gè)學(xué)期、一門課程或完成課程中某些重要內(nèi)容的學(xué)習(xí)之后對(duì)學(xué)生學(xué)習(xí)情況進(jìn)行的綜合評(píng)定。(三)終結(jié)性測(cè)驗(yàn)五、按解釋測(cè)評(píng)結(jié)果的參照點(diǎn)分類常模參照測(cè)驗(yàn)是一種以已建立的常模為標(biāo)準(zhǔn),衡量受測(cè)者成績(jī)?cè)谔囟▓F(tuán)體中的相對(duì)位置。并以此來(lái)解釋分?jǐn)?shù)意義的測(cè)驗(yàn)。所謂常模,即個(gè)人之間進(jìn)行比較的標(biāo)準(zhǔn)。在學(xué)校教育中,某科的常模是指確定的某團(tuán)體在該利一考試中的平均水平,如平均數(shù)和標(biāo)準(zhǔn)差。

目標(biāo)參照測(cè)驗(yàn)主要是測(cè)量受測(cè)者掌握的知識(shí)與測(cè)量目標(biāo)之間的關(guān)系,它是根據(jù)原來(lái)確定的所希望達(dá)到的教學(xué)目標(biāo)來(lái)解釋分?jǐn)?shù)意義的測(cè)驗(yàn)。在實(shí)施過(guò)程中,主要是將受測(cè)者的表現(xiàn)與既定的教學(xué)目標(biāo)或行為標(biāo)準(zhǔn)進(jìn)行比較,以評(píng)價(jià)受測(cè)者達(dá)到教學(xué)目標(biāo)或標(biāo)準(zhǔn)的程度。這種測(cè)驗(yàn)多以教育教學(xué)目標(biāo)(或課程標(biāo)準(zhǔn)、教學(xué)大綱)為參照標(biāo)準(zhǔn),故被稱作目標(biāo)參照測(cè)驗(yàn)或標(biāo)準(zhǔn)參照測(cè)驗(yàn)。(一)常模參照測(cè)驗(yàn)(二)目標(biāo)參照測(cè)驗(yàn)感謝觀看第二章教育測(cè)量與評(píng)價(jià)的歷史發(fā)展含弘光大繼往開(kāi)來(lái)第二節(jié)

國(guó)外教育測(cè)量與評(píng)價(jià)的歷史發(fā)展第一節(jié)

中國(guó)教育測(cè)量與評(píng)價(jià)的歷史發(fā)展第三節(jié)

教育測(cè)量與評(píng)價(jià)的未來(lái)趨勢(shì)學(xué)習(xí)目標(biāo)2.掌握教育測(cè)量與評(píng)價(jià)的重要理論及模式1.了解教育測(cè)量與評(píng)價(jià)發(fā)展的歷史脈絡(luò)及各個(gè)發(fā)展階段的代表性事件3.準(zhǔn)確把握未來(lái)教育測(cè)量與評(píng)價(jià)的發(fā)展趨勢(shì)第一節(jié)中國(guó)教育測(cè)量與評(píng)價(jià)的歷史發(fā)展一、中國(guó)古代教育測(cè)量與評(píng)價(jià)中國(guó)古代的教育測(cè)量與評(píng)價(jià)主要是指科舉考試制度形成以前的人才選拔制度,經(jīng)歷了從西周到南北朝1600年左右的時(shí)間。先后出現(xiàn)了選士制度、察舉制、九品中正制等主要測(cè)評(píng)與考核制度。以科舉考試制度為分水嶺,中國(guó)古代教育測(cè)量與評(píng)價(jià)的發(fā)展歷程可分為兩個(gè)階段:第一階段是古典教育測(cè)量與評(píng)價(jià)萌芽期,從西周到南北朝;第二階段是科舉制時(shí)期,從隋朝開(kāi)創(chuàng)科舉制到清末廢除科舉制。(一)中國(guó)古代的人才選舉制度一、中國(guó)古代教育測(cè)量與評(píng)價(jià)科舉制產(chǎn)生于隋朝,發(fā)展于唐朝,廢除于清末,共延續(xù)了近1300年,是我國(guó)封建社會(huì)中持續(xù)時(shí)間最長(zhǎng)、影響最大的選士制度??婆e制開(kāi)創(chuàng)了人才測(cè)評(píng)新紀(jì)元,在教育測(cè)量與評(píng)價(jià)史上具有重要地位,其強(qiáng)調(diào)人才選拔的公平性和真實(shí)性,促進(jìn)了現(xiàn)代教育測(cè)量與評(píng)價(jià)的發(fā)展。但是,隨著科舉制的發(fā)展,特別是在封建社會(huì)下,科舉制也產(chǎn)生了一些消極影響。(二)科舉制度的源起與發(fā)展二、中國(guó)近代教育測(cè)量與評(píng)價(jià)1918年,俞子夷自編《小學(xué)國(guó)文毛筆書(shū)法量表》,這是出現(xiàn)在我國(guó)最早的標(biāo)準(zhǔn)測(cè)驗(yàn)1926年,陶行知編制了我國(guó)最早的學(xué)校評(píng)價(jià)量表《鄉(xiāng)村小學(xué)比賽表》1924年,陸志偉將《斯坦福—比納量表》進(jìn)行了多次修訂并發(fā)表。至1925年前后,編成的中小學(xué)教育測(cè)量多達(dá)幾十種開(kāi)設(shè)測(cè)量課程:1920年,廖世承和陳鶴琴在南京高等師范學(xué)校開(kāi)設(shè)測(cè)量課程,并于1921年出版《智力測(cè)驗(yàn)法》一書(shū),這是我國(guó)正式應(yīng)用科學(xué)心理測(cè)驗(yàn)的開(kāi)端,標(biāo)志著我國(guó)教育測(cè)量與評(píng)價(jià)運(yùn)動(dòng)的開(kāi)始創(chuàng)辦測(cè)驗(yàn)雜志:1932年,《測(cè)驗(yàn)》雜志創(chuàng)刊,教育測(cè)量與評(píng)價(jià)出現(xiàn)研究小高潮引介和改造各種測(cè)驗(yàn)量表開(kāi)展測(cè)量理論研究二、中國(guó)近代教育測(cè)量與評(píng)價(jià)【小結(jié)】盡管教育測(cè)量與評(píng)價(jià)發(fā)源于中國(guó),并在古代得到淋漓盡致的發(fā)展,但這種優(yōu)勢(shì)并未在近代社會(huì)中保持下來(lái)。雖然在“五四”前后到1922年和20世紀(jì)30年代初到抗日戰(zhàn)爭(zhēng)爆發(fā)前,我國(guó)開(kāi)始引介和改造外國(guó)教育評(píng)價(jià)研究成果,教育測(cè)量與評(píng)價(jià)出現(xiàn)過(guò)兩個(gè)發(fā)展小高潮,但由于飽受戰(zhàn)爭(zhēng)摧殘,這一時(shí)期我國(guó)教育測(cè)量與評(píng)價(jià)時(shí)斷時(shí)續(xù),尤其是抗日戰(zhàn)爭(zhēng)的爆發(fā),教育測(cè)量與評(píng)價(jià)運(yùn)動(dòng)被迫中斷。自此,我國(guó)教育測(cè)量與評(píng)價(jià)與世界拉開(kāi)了較大距離。三、中國(guó)現(xiàn)代教育測(cè)量與評(píng)價(jià)建國(guó)初期,我國(guó)的教育主要以學(xué)習(xí)蘇聯(lián)模式為主,對(duì)學(xué)生的測(cè)評(píng),也是借鑒蘇聯(lián)的五級(jí)分制法,即依據(jù)學(xué)生的成績(jī),按照規(guī)定的各級(jí)分?jǐn)?shù)標(biāo)準(zhǔn)計(jì)分。20世紀(jì)60年代初,由于中蘇關(guān)系的破裂及后來(lái)文化大革命的影響,我國(guó)的教育測(cè)量與評(píng)價(jià)研究基本處于停止?fàn)顟B(tài)。在這期間,西方先進(jìn)的教育測(cè)量與評(píng)價(jià)思想和制度也未能得到及時(shí)引進(jìn),我國(guó)現(xiàn)代教育測(cè)量與評(píng)價(jià)發(fā)展滯后。直至1977年,我國(guó)恢復(fù)了高考制度,部分地區(qū)和學(xué)校積極開(kāi)展教育測(cè)評(píng)研究和實(shí)踐,現(xiàn)代教育測(cè)量與評(píng)價(jià)的理論研究和實(shí)踐得以恢復(fù)和發(fā)展。(一)教育測(cè)量與評(píng)價(jià)復(fù)蘇三、中國(guó)現(xiàn)代教育測(cè)量與評(píng)價(jià)在20世紀(jì)80年代中后期,關(guān)于教育測(cè)量與評(píng)價(jià)的研究活動(dòng)如雨后春筍般涌現(xiàn),概括起來(lái)主要有以下幾點(diǎn):1.成立研討班和舉行學(xué)術(shù)會(huì)議,廣泛開(kāi)展對(duì)外交流與合作2.在借鑒國(guó)外先進(jìn)理念的基礎(chǔ)上積極開(kāi)展本土化研究,加強(qiáng)理論與實(shí)踐的聯(lián)系,構(gòu)建具有中國(guó)特色的教育測(cè)量與評(píng)價(jià)體系3.關(guān)于教育測(cè)量與評(píng)價(jià)的行政法規(guī)文件相繼出臺(tái),專門的教育評(píng)價(jià)機(jī)構(gòu)成立(二)教育測(cè)量與評(píng)價(jià)蓬勃發(fā)展三、中國(guó)現(xiàn)代教育測(cè)量與評(píng)價(jià)【小結(jié)】進(jìn)入21世紀(jì),我國(guó)教育測(cè)量與評(píng)價(jià)進(jìn)入深化發(fā)展時(shí)期。一方面,教育評(píng)價(jià)的體制機(jī)制逐漸完善。自第八次新課改以來(lái),我國(guó)深入推進(jìn)教育評(píng)價(jià)的科學(xué)化發(fā)展;另一方面,在教育信息化的背景下,教育測(cè)量與評(píng)價(jià)的實(shí)踐形式呈現(xiàn)多元化發(fā)展。我國(guó)迅速走完了西方近百年的發(fā)展歷程,因此在很多方面還存在較大的發(fā)展空間,這就要求我國(guó)應(yīng)該更加重視教育測(cè)量與評(píng)價(jià)在理論和實(shí)踐領(lǐng)域的縱深發(fā)展,構(gòu)建符合中國(guó)實(shí)際、具有世界水平的評(píng)價(jià)體系,加快推進(jìn)教育現(xiàn)代化、建設(shè)教育強(qiáng)國(guó)、辦好人民滿意教育。第二節(jié)國(guó)外教育測(cè)量與評(píng)價(jià)的歷史發(fā)展第二節(jié)國(guó)外教育測(cè)量與評(píng)價(jià)的歷史發(fā)展第一代評(píng)價(jià)理論是從19世紀(jì)末到20世紀(jì)30年代,以考試和測(cè)驗(yàn)為主要特征測(cè)驗(yàn)時(shí)期第二代評(píng)價(jià)理論是從20世紀(jì)30年代到50年代,以泰勒模式為代表描述時(shí)期第三代評(píng)價(jià)理論是從1957年到20世紀(jì)80年代,開(kāi)始強(qiáng)調(diào)“價(jià)值判斷”,還要制定一定的判斷標(biāo)準(zhǔn)與目標(biāo)判斷時(shí)期第四代評(píng)價(jià)理論是從20世紀(jì)80年代中期開(kāi)始,共同建構(gòu)、全面參與、多元價(jià)值的評(píng)價(jià)思想逐漸興起描述時(shí)期美國(guó)評(píng)價(jià)專家古巴(E.G.Guba)和林肯(Y.S.Lincolu)于1989年出版了《第四代教育評(píng)價(jià)》一書(shū),提出了第四代教育評(píng)價(jià)的基本理論。其中,將教育評(píng)價(jià)發(fā)展過(guò)程劃分為四大時(shí)期:一、國(guó)外教育測(cè)量與評(píng)價(jià)的測(cè)驗(yàn)時(shí)期筆試工業(yè)革命口試在19世紀(jì)上半葉以前,西方的教育測(cè)量與評(píng)價(jià)主要以口試的形式存在。學(xué)校對(duì)學(xué)生的考評(píng)采用逐個(gè)口試的方式進(jìn)行,這種針對(duì)不同學(xué)生采用不同問(wèn)題進(jìn)行口試的考核方式,缺乏統(tǒng)一的測(cè)評(píng)標(biāo)準(zhǔn),且效率較低。(一)筆試的引入1702年,英國(guó)劍橋大學(xué)率先用筆試代替口試,成為西方學(xué)校筆試的開(kāi)端,隨后美國(guó)也在公立初、中等教育學(xué)校實(shí)行筆試,這在教育測(cè)評(píng)史上具有劃時(shí)代的意義。1845年,美國(guó)著名教育家賀拉斯·曼(H.Mann)提出在波士頓市采用筆試考查學(xué)生,并迅速得到推廣和發(fā)展,開(kāi)辟了用相同試卷測(cè)量眾多學(xué)生的新篇章。一、國(guó)外教育測(cè)量與評(píng)價(jià)的測(cè)驗(yàn)時(shí)期1869年,英國(guó)遺傳學(xué)家高爾頓(F.Galton)發(fā)表《遺傳的天才》一書(shū),拉開(kāi)教育測(cè)量的序幕1879年,德國(guó)心理學(xué)家馮特(W.Wundt)在德國(guó)萊比錫大學(xué)成立了心理學(xué)實(shí)驗(yàn)室,開(kāi)始用實(shí)驗(yàn)的方法研究心理現(xiàn)象1883年,高爾頓在《人類才能及其發(fā)展的研究》一書(shū)中首先提出“測(cè)驗(yàn)”“心理測(cè)驗(yàn)”兩個(gè)術(shù)語(yǔ),并于1884年創(chuàng)設(shè)了“人類學(xué)測(cè)量實(shí)驗(yàn)室”,1895年至1905年間,美國(guó)學(xué)者萊斯(J.Rice)提出用統(tǒng)一測(cè)驗(yàn)的方法去考查學(xué)生的成績(jī),編制了拼字、算術(shù)、語(yǔ)言等測(cè)驗(yàn),被譽(yù)為客觀測(cè)驗(yàn)的創(chuàng)始人(二)科學(xué)測(cè)驗(yàn)的發(fā)端一、國(guó)外教育測(cè)量與評(píng)價(jià)的測(cè)驗(yàn)時(shí)期智力量表1905年,法國(guó)的比納及其助手西蒙設(shè)計(jì)了第一個(gè)智力量表,即《比納—西蒙量表》智力量表人格測(cè)驗(yàn)測(cè)量原理1916年推出最新研究成果《斯坦福量表》,測(cè)試內(nèi)容更加多元,適用范圍更加廣泛,加之“智力商數(shù)”的引入,使得測(cè)驗(yàn)結(jié)果也更加明確。1921年華納德嘗試進(jìn)行人格測(cè)驗(yàn);1924年至1929年,哈芝恩與梅氏等人組織了人格教育委員會(huì)1904年,桑代克出版《心理與社會(huì)測(cè)驗(yàn)學(xué)導(dǎo)論》一書(shū),詳細(xì)介紹了統(tǒng)計(jì)方法和編制測(cè)驗(yàn)的基本原理,并提出“凡物的存在必有其數(shù)量”的著名論斷一、國(guó)外教育測(cè)量與評(píng)價(jià)的測(cè)驗(yàn)時(shí)期【小結(jié)】測(cè)驗(yàn)時(shí)期的教育測(cè)量與評(píng)價(jià)追求測(cè)量結(jié)果的客觀化與標(biāo)準(zhǔn)化,通過(guò)編制各種測(cè)量量表,并按照嚴(yán)格的規(guī)范和精準(zhǔn)的指標(biāo)來(lái)測(cè)定學(xué)生的各種心理品質(zhì)?!爸橇y(cè)驗(yàn)”是當(dāng)時(shí)最流行的工具,并一度成為衡量學(xué)生一切的標(biāo)準(zhǔn)。作為第一代評(píng)價(jià)理論,評(píng)價(jià)的實(shí)質(zhì)是“測(cè)量”,因此這一時(shí)期可稱為“測(cè)驗(yàn)時(shí)代”??陀^地說(shuō),教育測(cè)量固然有利于對(duì)學(xué)生學(xué)業(yè)成就進(jìn)行精確化評(píng)價(jià),但是一方面它并不能說(shuō)明學(xué)生的學(xué)習(xí)狀態(tài)、興趣、情感以及其他各種能力,不利于學(xué)生的個(gè)性發(fā)展;另一方面,這一時(shí)期的測(cè)驗(yàn)只強(qiáng)調(diào)了客觀的信度,并不足以說(shuō)明效度。二、國(guó)外教育測(cè)量與評(píng)價(jià)的描述時(shí)期背景:1929—1933年,經(jīng)濟(jì)危機(jī)席卷美國(guó),教育危機(jī)隨即而來(lái)。經(jīng)濟(jì)大蕭條的背景下,大量工人下崗、工廠倒閉,一時(shí)間社會(huì)上出現(xiàn)大批失業(yè)青年,他們紛紛涌向?qū)W校,使得學(xué)校學(xué)生人數(shù)空前擴(kuò)大。由于當(dāng)時(shí)美國(guó)中學(xué)受大學(xué)入學(xué)考試的評(píng)價(jià)指揮棒影響,所開(kāi)設(shè)的課程無(wú)法適應(yīng)失業(yè)青年的需要。為解決這一矛盾,美國(guó)俄亥俄州的泰勒(R.W.Tyler)受進(jìn)步主義教育協(xié)會(huì)邀請(qǐng),主持為期八年的課程與評(píng)價(jià)研究。(一)“教育評(píng)價(jià)”的提出二、國(guó)外教育測(cè)量與評(píng)價(jià)的描述時(shí)期泰勒提出了教育評(píng)價(jià)較為完整的指導(dǎo)思想和方法:第一,教育是改變?nèi)说男袆?dòng)方式的過(guò)程;第二,教育目標(biāo)是各種行動(dòng)方式的變化;第三,教育能夠根據(jù)對(duì)該目標(biāo)實(shí)際完成情況的分析進(jìn)行評(píng)價(jià);第四,人的行動(dòng)是復(fù)雜的,所以要從各方面進(jìn)行評(píng)價(jià);第五,僅靠用紙筆的測(cè)驗(yàn)是不充分的,應(yīng)采用包括觀察行動(dòng)在內(nèi)的更為廣泛的方法。同時(shí),泰勒將評(píng)價(jià)過(guò)程分為四個(gè)步驟:首先,確定教育目標(biāo);其次,設(shè)計(jì)評(píng)價(jià)情境;再次,選擇和編制評(píng)價(jià)工具;最后,分析評(píng)價(jià)結(jié)果。(二)對(duì)目標(biāo)的“描述”解釋現(xiàn)代教育評(píng)價(jià)之父拉爾夫·泰勒(R.W.Tyler)二、國(guó)外教育測(cè)量與評(píng)價(jià)的描述時(shí)期【小結(jié)】這一時(shí)期評(píng)價(jià)目標(biāo)不再是學(xué)生本身,而關(guān)注什么樣的學(xué)習(xí)目標(biāo)模式對(duì)學(xué)生最有效;評(píng)價(jià)手段也從單一的紙筆測(cè)驗(yàn)擴(kuò)展到對(duì)觀察、問(wèn)卷、訪談等方法的運(yùn)用。泰勒所提出的教育評(píng)價(jià)在對(duì)已有測(cè)驗(yàn)結(jié)果的基礎(chǔ)上增加了“描述性”解釋,評(píng)價(jià)者要描述學(xué)生的行為表現(xiàn),描述教育目標(biāo)在多大程度上得以實(shí)現(xiàn),因此這一時(shí)期被稱作“描述時(shí)代”。三、國(guó)外教育測(cè)量與評(píng)價(jià)的判斷時(shí)期1966年,斯塔弗爾比姆(D.L.Stufflebeam)提出CIPP評(píng)價(jià)模式CIPP模式1967年,斯克里文(M.Scriven)提出了目標(biāo)游離模式目標(biāo)游離模式1989年,古巴與林肯提出的“第四代教育評(píng)價(jià)”理論第四代教育評(píng)價(jià)理論1967年,斯克里文(M.Scriven)提出了目標(biāo)游離模式應(yīng)答模式01020304(一)各種教育評(píng)價(jià)模式的涌現(xiàn)背景評(píng)價(jià)(ContextEvaluation)、輸入評(píng)價(jià)(InputEvaluation)、過(guò)程評(píng)價(jià)(ProcessEvaluation)、結(jié)果評(píng)價(jià)(ProductEvaluation)構(gòu)成了CIPP評(píng)價(jià)模式。三、國(guó)外教育測(cè)量與評(píng)價(jià)的判斷時(shí)期這一時(shí)期涌現(xiàn)出40多種評(píng)價(jià)模式,它們適用于不同范圍,使得教育測(cè)量與評(píng)價(jià)呈現(xiàn)出生機(jī)勃勃的發(fā)展趨勢(shì)。而且各種評(píng)價(jià)雜志機(jī)構(gòu)、評(píng)價(jià)中心、評(píng)價(jià)委員會(huì)紛紛創(chuàng)立,極大程度地推動(dòng)了教育測(cè)量與評(píng)價(jià)的發(fā)展。第三代教育評(píng)價(jià)理論是基于教育價(jià)值論的研究范式,重視客觀事實(shí)與主觀標(biāo)準(zhǔn)的價(jià)值判斷,因此“判斷”成為這一時(shí)期的特色。(二)把評(píng)價(jià)作為一種價(jià)值判斷三、國(guó)外教育測(cè)量與評(píng)價(jià)的判斷時(shí)期【小結(jié)】把評(píng)價(jià)作為價(jià)值判斷的過(guò)程,強(qiáng)調(diào)評(píng)價(jià)不能停留于描述時(shí)期對(duì)預(yù)定目標(biāo)的結(jié)果描述,需要對(duì)預(yù)定目標(biāo)本身進(jìn)行價(jià)值判斷。因此,評(píng)價(jià)要突破預(yù)定目標(biāo)這一不變的標(biāo)準(zhǔn)限制,考慮到過(guò)程本身的價(jià)值。較之于測(cè)驗(yàn)時(shí)期與描述時(shí)期,判斷時(shí)期的教育測(cè)量與評(píng)價(jià)將“價(jià)值判斷”的問(wèn)題引入到評(píng)價(jià)中,而且將之作為評(píng)價(jià)工作的重點(diǎn)??梢钥闯觯?0世紀(jì)50年代以來(lái)的教育測(cè)量與評(píng)價(jià)不僅要收集各種參數(shù)去描述事實(shí),更要幫助制定一定的判斷標(biāo)準(zhǔn)。由此,西方教育測(cè)量與評(píng)價(jià)真正進(jìn)入到專業(yè)化的發(fā)展時(shí)期。四、國(guó)外教育測(cè)量與評(píng)價(jià)的建構(gòu)時(shí)期古巴和林肯指出“前三代教育評(píng)價(jià)”理論存在不足:一是把評(píng)價(jià)對(duì)象及其他一切有關(guān)的人排除在外,容易造成評(píng)價(jià)者與評(píng)價(jià)對(duì)象的緊張關(guān)系;二是忽視了其他價(jià)值體系在評(píng)價(jià)中的作用,沒(méi)有關(guān)注到由文化差異造成的“價(jià)值差異”,使得評(píng)價(jià)難以被各種文化背景下的人普遍接受;三是過(guò)分強(qiáng)調(diào)評(píng)價(jià)中的“科學(xué)方法”,缺少對(duì)背景因素的重視,導(dǎo)致評(píng)價(jià)過(guò)程缺少靈活性。基于此,提出第四代教育評(píng)價(jià)理論,其思想核心是共同建構(gòu)、全面參與和多元價(jià)值。(一)第四代教育評(píng)價(jià)理論四、國(guó)外教育測(cè)量與評(píng)價(jià)的建構(gòu)時(shí)期ABDC把“評(píng)價(jià)”看作所有參與評(píng)價(jià)的人共同建構(gòu)的過(guò)程,關(guān)注每個(gè)人的人格與尊嚴(yán),打破了評(píng)價(jià)者與評(píng)價(jià)對(duì)象對(duì)立緊張的關(guān)系,強(qiáng)調(diào)人人平等,提升了評(píng)價(jià)對(duì)象的“主體”地位。認(rèn)為評(píng)價(jià)的實(shí)質(zhì)是參與評(píng)價(jià)的主體對(duì)評(píng)價(jià)對(duì)象的主觀認(rèn)識(shí),要通過(guò)“協(xié)商”形成“心理建構(gòu)”。片面性:它對(duì)“前三代評(píng)價(jià)”的批駁缺乏辯證觀點(diǎn),只是簡(jiǎn)單地全面否定;其雖然主張“建構(gòu)主義的方法”,但完全信奉建構(gòu)主義的相對(duì)本體論,排斥世界的客觀性,有陷入唯心主義的嫌疑。評(píng)價(jià)與參與評(píng)價(jià)活動(dòng)的人們的生理、心理以及社會(huì)及文化條件有關(guān),這些物質(zhì)性、精神性條件是評(píng)價(jià)工作得以順利開(kāi)展的基礎(chǔ)。(一)第四代教育評(píng)價(jià)理論四、國(guó)外教育測(cè)量與評(píng)價(jià)的建構(gòu)時(shí)期發(fā)展性教師評(píng)價(jià)主張教師進(jìn)行相互評(píng)價(jià),讓評(píng)價(jià)者與評(píng)價(jià)對(duì)象共同參與制定未來(lái)發(fā)展目標(biāo),而非把評(píng)價(jià)作為獎(jiǎng)懲的機(jī)制。這種新型評(píng)價(jià)方式有效促進(jìn)了教師的專業(yè)發(fā)展。(二)發(fā)展性教師評(píng)價(jià)制度表現(xiàn)性評(píng)定是目前國(guó)際上較為流行的一種學(xué)生成績(jī)的評(píng)定方式,它建立在對(duì)傳統(tǒng)測(cè)驗(yàn)方式批判的基礎(chǔ)上。20世紀(jì)80年代,表現(xiàn)性評(píng)定在藝術(shù)、歷史、寫(xiě)作等學(xué)科中得到運(yùn)用,美國(guó)一些州已采取州立法的形式規(guī)定,對(duì)學(xué)生的學(xué)業(yè)成績(jī)?cè)u(píng)價(jià)要從標(biāo)準(zhǔn)化測(cè)驗(yàn)轉(zhuǎn)向表現(xiàn)性評(píng)定。在國(guó)家層面,新標(biāo)準(zhǔn)方案(NewStandardProject)也嘗試使用表現(xiàn)性評(píng)定,并建議國(guó)家教育目標(biāo)委員會(huì)將此方法運(yùn)用于國(guó)家教育考試系統(tǒng)中。(三)表現(xiàn)性評(píng)定第三節(jié)教育測(cè)量與評(píng)價(jià)的未來(lái)趨勢(shì)第三節(jié)教育測(cè)量與評(píng)價(jià)的未來(lái)趨勢(shì)縱觀國(guó)內(nèi)外教育測(cè)量與評(píng)價(jià)的發(fā)展歷程,其專業(yè)化、現(xiàn)代化程度越來(lái)越高,未來(lái)的教育測(cè)量與評(píng)價(jià)也必將沿著此方向深入發(fā)展。2020年10月,中共中央、國(guó)務(wù)院印發(fā)《深化新時(shí)代教育評(píng)價(jià)改革總體方案》,為此后教育測(cè)量與評(píng)價(jià)的發(fā)展指明了方向。第三節(jié)教育測(cè)量與評(píng)價(jià)的未來(lái)趨勢(shì)01030204評(píng)價(jià)不僅是為了選拔與甄別,更是為了人的全面發(fā)展,使學(xué)生學(xué)會(huì)自我評(píng)價(jià)評(píng)價(jià)目的與理念的人本化學(xué)生、家長(zhǎng)、教師、專家等教育活動(dòng)的利益相關(guān)者都將廣泛參與到教育測(cè)量與評(píng)價(jià)中評(píng)價(jià)主體與范圍的多元化未來(lái)的教育測(cè)量與評(píng)價(jià)將與信息技術(shù)實(shí)現(xiàn)深度融合,并從單一機(jī)械的紙筆測(cè)驗(yàn)走向多維靈活的評(píng)價(jià)形式評(píng)價(jià)手段與方法的多維化強(qiáng)化發(fā)展性功能,以測(cè)量與評(píng)價(jià)促進(jìn)學(xué)生全面發(fā)展、引領(lǐng)教師專業(yè)發(fā)展、推進(jìn)學(xué)校質(zhì)量發(fā)展評(píng)價(jià)功能與標(biāo)準(zhǔn)的綜合化感謝觀看第三章教育測(cè)量與評(píng)價(jià)的基礎(chǔ)理論含弘光大繼往開(kāi)來(lái)第二節(jié)

項(xiàng)目反應(yīng)理論第一節(jié)

經(jīng)典測(cè)量理論第三節(jié)

概化理論第四節(jié)

發(fā)展性評(píng)價(jià)理論學(xué)習(xí)目標(biāo)2.理解發(fā)展性評(píng)價(jià)理論的內(nèi)涵、特點(diǎn)、類型及應(yīng)用。1.理解經(jīng)典測(cè)量理論、項(xiàng)目反應(yīng)理論、概化理論的核心觀點(diǎn)、優(yōu)缺點(diǎn)及在實(shí)踐中的應(yīng)用。第一節(jié)

經(jīng)典測(cè)量理論一、經(jīng)典測(cè)量理論的概述經(jīng)典測(cè)量理論萌芽于17世紀(jì)第莫菲爾(Demoirer)關(guān)于測(cè)量的隨機(jī)誤差服從正態(tài)分布的思想。到19世紀(jì)初期,斯皮爾曼(Spearman)、皮爾遜(Pearson)等人在智力測(cè)驗(yàn)方面的研究將經(jīng)典測(cè)量理論向前推進(jìn)了一步,于20世紀(jì)30年代形成了較為完整的體系。1968年,洛德和諾維克在《心理測(cè)驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》一書(shū)中對(duì)經(jīng)典測(cè)量理論進(jìn)行了詳細(xì)的闡釋,將其推至頂峰狀態(tài),有效地實(shí)現(xiàn)了向現(xiàn)代測(cè)量理論的轉(zhuǎn)換。經(jīng)典測(cè)量理論對(duì)心理與教育測(cè)量理論和實(shí)踐的貢獻(xiàn)是巨大的,它往往被認(rèn)為是后期出現(xiàn)的一些測(cè)量理論的基礎(chǔ),如今的一些通用測(cè)驗(yàn)依舊是根據(jù)經(jīng)典測(cè)驗(yàn)的方法編制的,我國(guó)關(guān)于教育測(cè)驗(yàn)的信度與效度理論,也是以經(jīng)典測(cè)量理論為基礎(chǔ)的。一、經(jīng)典測(cè)量理論的概述真分?jǐn)?shù)觀測(cè)分?jǐn)?shù)誤差分?jǐn)?shù)真分?jǐn)?shù)(truescore,一般記作T

),即被測(cè)者在所測(cè)特質(zhì)上的真實(shí)值。被試在無(wú)數(shù)個(gè)平行測(cè)驗(yàn)上得分的平均值稱為期望值,一般記作?觀測(cè)分?jǐn)?shù)或觀測(cè)值(observedscore,一般記作X

),即用一定的測(cè)量工具進(jìn)行測(cè)量而直接獲得的值,也叫實(shí)得分?jǐn)?shù)。若一個(gè)人的某種心理特質(zhì)可以用平行測(cè)驗(yàn)反復(fù)測(cè)量足夠多次,則其觀測(cè)分?jǐn)?shù)的平均值接近于真分?jǐn)?shù),用公式表示為:?=T測(cè)量誤差所導(dǎo)致的偏差分?jǐn)?shù)即為誤差分?jǐn)?shù)(erorscore,一般記作E)

(一)“三個(gè)核心詞”觀測(cè)分?jǐn)?shù)(X)與真分?jǐn)?shù)(T)之間是一種線性關(guān)系,并只相差一個(gè)隨機(jī)誤差,即:

X=T+E。一、經(jīng)典測(cè)量理論的概述假設(shè)1:真分?jǐn)?shù)的恒定性在某個(gè)特定的問(wèn)題情境中,反映個(gè)體某心理特質(zhì)水平與程度的真分?jǐn)?shù)是假定不變的,其為一個(gè)常數(shù),具有某種程度的穩(wěn)定性,因而測(cè)量的任務(wù)就是估計(jì)這一真分?jǐn)?shù)的大小假設(shè)2:誤差具有完全隨機(jī)性測(cè)量誤差是一個(gè)平均數(shù)為零的正態(tài)隨機(jī)變量測(cè)量誤差分?jǐn)?shù)與真分?jǐn)?shù)之間相互獨(dú)立測(cè)量誤差之間以及測(cè)量誤差和所測(cè)特質(zhì)外的其他變量之間也是彼此獨(dú)立的,相關(guān)性為零假設(shè)3:觀測(cè)分?jǐn)?shù)是真分?jǐn)?shù)與誤差分?jǐn)?shù)之和這假定觀測(cè)分?jǐn)?shù)與真分?jǐn)?shù)之間是一種線性關(guān)系,用表達(dá)式可以表示為:X=T+E。這也是真分?jǐn)?shù)理論的經(jīng)典數(shù)學(xué)模型(二)“三個(gè)基本假設(shè)”一、經(jīng)典測(cè)量理論的概述在一組測(cè)驗(yàn)中受測(cè)者的真分?jǐn)?shù)的平均數(shù)與其觀測(cè)分?jǐn)?shù)的平均數(shù)相等。根據(jù)經(jīng)典測(cè)量理論的真分?jǐn)?shù)數(shù)學(xué)定義,此推論明顯成立。用數(shù)學(xué)表達(dá)式表示為:觀測(cè)分?jǐn)?shù)變異數(shù)(方差)是真分?jǐn)?shù)變異數(shù)(方差)與誤差分?jǐn)?shù)變異數(shù)(方差)之和。用數(shù)學(xué)表達(dá)式表示為:(三)“兩個(gè)重要推論”二、經(jīng)典測(cè)量理論的優(yōu)點(diǎn)與缺點(diǎn)具有廣泛的適用性經(jīng)典測(cè)量理論建立在弱假設(shè)的基礎(chǔ)上,而這些弱假設(shè)條件又容易被大多數(shù)測(cè)驗(yàn)數(shù)據(jù)資料所滿足,因而其在實(shí)際應(yīng)用上具有廣泛的適用性。易于理解和掌握經(jīng)典測(cè)量理論經(jīng)過(guò)長(zhǎng)時(shí)間的錘煉與發(fā)展,已具備一套較為完善的理論體系。其以真分?jǐn)?shù)理論為基礎(chǔ),形成了對(duì)題目和測(cè)驗(yàn)進(jìn)行統(tǒng)計(jì)分析的方法,而這些方法在理論上直觀明了,在計(jì)算上易于操作,容易被廣大教育工作者理解、掌握并得以廣泛傳播。易于測(cè)量本土化的實(shí)現(xiàn)我國(guó)的教育工作者在具體使用經(jīng)典測(cè)量理論的過(guò)程中,因其所具有的優(yōu)勢(shì),更能結(jié)合教育教學(xué)實(shí)踐的實(shí)際情況,便逐步對(duì)其進(jìn)行了發(fā)展與完善,從而形成了一套適合我國(guó)教育教學(xué)實(shí)踐的本土化應(yīng)用方法和原則。(一)優(yōu)點(diǎn)二、經(jīng)典測(cè)量理論的優(yōu)點(diǎn)與缺點(diǎn)第一,經(jīng)典測(cè)量理論在實(shí)際使用中所求得的項(xiàng)目統(tǒng)計(jì)指標(biāo)具有不穩(wěn)定性,容易受到受測(cè)者樣本選取的影響。第二,經(jīng)典測(cè)量理論下的項(xiàng)目統(tǒng)計(jì)量和受測(cè)者測(cè)驗(yàn)得分往往是分別求得的,因此,受測(cè)者測(cè)驗(yàn)得分與測(cè)驗(yàn)統(tǒng)計(jì)量之間無(wú)法建立起一定的函數(shù)關(guān)系。第三,經(jīng)典測(cè)量理論中提到了兩個(gè)重要假設(shè)條件,即嚴(yán)格意義上的平行測(cè)驗(yàn)以及測(cè)驗(yàn)誤差與真分?jǐn)?shù)之間不相關(guān),這在實(shí)際的測(cè)驗(yàn)操作中是很難控制并實(shí)現(xiàn)的。(二)局限與不足三、經(jīng)典測(cè)量理論的應(yīng)用與實(shí)踐目前國(guó)內(nèi)人才測(cè)評(píng)所用的量表多是在經(jīng)典測(cè)驗(yàn)的基礎(chǔ)上編制而成的,尤其在應(yīng)用于常見(jiàn)的標(biāo)準(zhǔn)化測(cè)驗(yàn)上,經(jīng)典測(cè)量理論優(yōu)勢(shì)突出。雖然經(jīng)典測(cè)量理論仍存在很多不足,并有被更為先進(jìn)的理論所取代的趨勢(shì),但由于其自身優(yōu)勢(shì)的存在,在今后相當(dāng)長(zhǎng)的時(shí)間內(nèi),它依舊會(huì)在教育和心理研究中發(fā)揮重要作用。第二節(jié)

項(xiàng)目反應(yīng)理論一、項(xiàng)目反應(yīng)理論的概述1952年,被譽(yù)為“項(xiàng)目反應(yīng)理論之父”的洛德在其博士論文中第一次對(duì)項(xiàng)目反應(yīng)理論作了系統(tǒng)闡述,從而宣告了項(xiàng)目反應(yīng)理論的誕生。項(xiàng)目反應(yīng)理論是依據(jù)一定的數(shù)學(xué)模型,用項(xiàng)目特征參數(shù)估計(jì)受測(cè)者潛在特質(zhì)的一種測(cè)量理論,通常又被稱為項(xiàng)目特征曲線理論或潛在特質(zhì)理論。項(xiàng)目反應(yīng)理論假設(shè)每個(gè)受測(cè)者都具有某種相對(duì)穩(wěn)定的內(nèi)在特質(zhì),從而支配他們對(duì)相應(yīng)的測(cè)驗(yàn)作出反應(yīng),并造成這種反應(yīng)具有一致性。由于這種特質(zhì)具有內(nèi)部的潛在性而不能被直接觀察到,因而又被稱為“潛在特質(zhì)”,通常以希臘字母θ表示。一、項(xiàng)目反應(yīng)理論的概述這一假設(shè)假定影響受測(cè)者對(duì)測(cè)驗(yàn)項(xiàng)目作出反應(yīng)的只有一種潛在特質(zhì)或能力,受測(cè)者的某一測(cè)驗(yàn)結(jié)果只取決于此,其他特質(zhì)或能力對(duì)受測(cè)者反應(yīng)的影響均可忽略不計(jì)。假設(shè)二:局部獨(dú)立性假設(shè)假設(shè)一:能力單維性假設(shè)假設(shè)三:項(xiàng)目特征曲線假設(shè)(一)項(xiàng)目反應(yīng)理論的基本假設(shè)受測(cè)者對(duì)測(cè)驗(yàn)的任一項(xiàng)目的反應(yīng)僅受其特質(zhì)水平的影響,并不受其他測(cè)驗(yàn)項(xiàng)目反應(yīng)的干擾和影響。測(cè)驗(yàn)項(xiàng)目之間是互不相關(guān)的,同一特質(zhì)水平的受測(cè)者對(duì)不同測(cè)驗(yàn)的反應(yīng)在統(tǒng)計(jì)上是獨(dú)立的。由于受測(cè)者對(duì)測(cè)驗(yàn)項(xiàng)目的反應(yīng)與其潛在特質(zhì)之間有著某種特殊關(guān)系,因而可以根據(jù)受測(cè)者在某測(cè)驗(yàn)項(xiàng)目上的正確反應(yīng)率和其能力之間的函數(shù)關(guān)系,建構(gòu)一種項(xiàng)目反應(yīng)模型。一、項(xiàng)目反應(yīng)理論的概述單參數(shù)LogiStic模型雙參數(shù)LogiStic模型三參數(shù)LogiStic模型項(xiàng)目反應(yīng)理論的模型較多,如RaSch模型、LogiStic模型、NormalOgive模型等,項(xiàng)目反應(yīng)理論通常通過(guò)這些數(shù)學(xué)模型對(duì)項(xiàng)目的特征進(jìn)行描述。因?yàn)長(zhǎng)ogiStic模型是使用范圍最廣的模型,現(xiàn)主要對(duì)其予以介紹。因參數(shù)的不同,LogiStic模型可以分為單參數(shù)LogiStic模型、雙參數(shù)LogiStic模型和三參數(shù)LogiStic模型。(二)項(xiàng)目反應(yīng)理論的典型模型一、項(xiàng)目反應(yīng)理論的概述以三參數(shù)Logistic模型為例,其項(xiàng)目特征曲線實(shí)際上是一條以拐點(diǎn)為對(duì)稱中心的曲線。拐點(diǎn)處的斜率a,即是斜率的最大值,表示測(cè)驗(yàn)項(xiàng)目的區(qū)分度,其數(shù)值越大,說(shuō)明其區(qū)分程度越高;圖中拐點(diǎn)所對(duì)應(yīng)的θ值(拐點(diǎn)在橫軸上的投影)即b,表示測(cè)驗(yàn)項(xiàng)目的難度;而圖中特征曲線的截距c,則表示項(xiàng)目的猜測(cè)參數(shù);曲線的拐點(diǎn)在縱軸上的投影1+c正好落在c與1之間的中點(diǎn)

上。項(xiàng)目特征曲線較好地反映了受測(cè)者的能力與測(cè)驗(yàn)項(xiàng)目之間的關(guān)系,其主要表示具有某種能力θ的受測(cè)者,在某測(cè)驗(yàn)項(xiàng)目上的答對(duì)概率Pi(e),因而,只要受測(cè)者的能力值是已知的,就能較好地預(yù)測(cè)其答對(duì)某測(cè)驗(yàn)項(xiàng)目的概率。(三)項(xiàng)目反應(yīng)理論的項(xiàng)目特征曲線二、項(xiàng)目反應(yīng)理論的優(yōu)點(diǎn)與缺點(diǎn)項(xiàng)目反應(yīng)理論測(cè)驗(yàn)項(xiàng)目的參數(shù)具有不變性真實(shí)地反映受測(cè)者的特質(zhì)或能力水平與難度之間的關(guān)系和本質(zhì)有效控制測(cè)量誤差,使測(cè)驗(yàn)?zāi)軌蚋_地估計(jì)和反映每個(gè)受測(cè)者的特質(zhì)或能力水平提供了方便(一)項(xiàng)目反應(yīng)理論的主要優(yōu)點(diǎn)有效控制測(cè)量誤差,使測(cè)驗(yàn)?zāi)軌蚋_地估計(jì)和反映每個(gè)受測(cè)者的特質(zhì)或能力水平提供了方便從計(jì)量學(xué)角度對(duì)各類測(cè)驗(yàn)的編制、題庫(kù)建設(shè)、試卷的自動(dòng)生成、項(xiàng)目功能差異分析等方面,都實(shí)現(xiàn)了某種程度的創(chuàng)新二、項(xiàng)目反應(yīng)理論的優(yōu)點(diǎn)與缺點(diǎn)對(duì)數(shù)學(xué)模型與實(shí)測(cè)數(shù)據(jù)的擬合度要求較高由于實(shí)測(cè)數(shù)據(jù)與數(shù)學(xué)模型的擬合度會(huì)受到受測(cè)者樣本容量、測(cè)驗(yàn)項(xiàng)目數(shù)量的影響,因而在作項(xiàng)目分析時(shí),必須對(duì)擬合度進(jìn)行統(tǒng)計(jì)檢驗(yàn)。只有當(dāng)擬合度高的時(shí)候,項(xiàng)目反應(yīng)理論的優(yōu)點(diǎn)才能有效地發(fā)揮出來(lái)。是一維性假設(shè),其合理性還有待驗(yàn)證實(shí)際上項(xiàng)目反應(yīng)理論提出的這種假設(shè)是一個(gè)強(qiáng)假設(shè)條件,現(xiàn)實(shí)很難找到一種能夠驗(yàn)證的方法。目前,雖然用因素分析方法可以檢驗(yàn)對(duì)一組測(cè)驗(yàn)項(xiàng)目作一維性假設(shè)的合理性,但在實(shí)際操作上卻困難重重。項(xiàng)目反應(yīng)理論在運(yùn)用上較受限制目前項(xiàng)目反應(yīng)理論的運(yùn)用仍以兩級(jí)計(jì)分模型為主,在多維模型、多級(jí)與連續(xù)計(jì)分模型的研究上還比較薄弱。由于計(jì)算復(fù)雜,工作量大,多采用計(jì)算機(jī)技術(shù),使得其運(yùn)用與推廣的范圍相對(duì)受到了限制。(二)局限與不足三、項(xiàng)目反應(yīng)理論的應(yīng)用與實(shí)踐與經(jīng)典測(cè)量理論相比,項(xiàng)目反應(yīng)理論主要建立在復(fù)雜的數(shù)學(xué)模型基礎(chǔ)上,其復(fù)雜的模型公式給參數(shù)估計(jì)工作帶來(lái)了許多計(jì)算上的困難,對(duì)多數(shù)教育與心理研究者來(lái)說(shuō),要深入理解并靈活運(yùn)用項(xiàng)目反應(yīng)理論就顯得比較困難。項(xiàng)目反應(yīng)理論本身的復(fù)雜性及其固有的缺陷,使其在國(guó)內(nèi)的發(fā)展應(yīng)用較為受限,因此不斷克服項(xiàng)目反應(yīng)理論本身以及實(shí)踐運(yùn)用上的缺陷,使其方法精確且在運(yùn)用上易于操作,成為項(xiàng)目反應(yīng)理論研究的一個(gè)方向。相對(duì)于經(jīng)典測(cè)量理論,項(xiàng)目反應(yīng)理論對(duì)推進(jìn)未來(lái)教育與心理測(cè)量發(fā)展的意義更為重大。三、項(xiàng)目反應(yīng)理論的應(yīng)用與實(shí)踐隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,項(xiàng)目反應(yīng)理論借助計(jì)算機(jī)運(yùn)算速度快、精確性高等優(yōu)勢(shì),并有效結(jié)合統(tǒng)計(jì)學(xué)的方法,解決了計(jì)算工作量大以及計(jì)算過(guò)程復(fù)雜等一些問(wèn)題。特別是建立在項(xiàng)目反應(yīng)理論基礎(chǔ)上的計(jì)算機(jī)適應(yīng)性測(cè)驗(yàn),它借助計(jì)算機(jī)抽取項(xiàng)目樣本,使得受測(cè)者在項(xiàng)目反應(yīng)過(guò)程中所遇到的困難可以被確定在某一具體項(xiàng)目范圍內(nèi)。不僅如此,這種實(shí)現(xiàn)計(jì)算機(jī)化的適用性測(cè)驗(yàn)在提高測(cè)驗(yàn)的信度、效度等方面也優(yōu)勢(shì)明顯,因而項(xiàng)目反應(yīng)理論的這種教育與心理測(cè)量技術(shù)跟現(xiàn)代信息技術(shù)有效結(jié)合的計(jì)算機(jī)適應(yīng)性測(cè)評(píng),已經(jīng)蓬勃興起并呈現(xiàn)出巨大的發(fā)展前景。第三節(jié)概化理論一、概化理論的概述1963年,克隆巴赫等人在《英國(guó)統(tǒng)計(jì)心理學(xué)雜志》上發(fā)表了題為《概化理論:信度理論的豐富和發(fā)展》的論文。這標(biāo)志著概化理論的正式誕生。隨后,克隆巴赫等人又提出了概化理論的基本框架,在經(jīng)典測(cè)量理論的基礎(chǔ)上建構(gòu)了一個(gè)全新的概念體系,到20世紀(jì)90年代,概化理論已經(jīng)發(fā)展成為一種與項(xiàng)目反應(yīng)理論同等重要的現(xiàn)代測(cè)量理論,并被廣泛運(yùn)用于測(cè)驗(yàn)的信度、測(cè)量誤差的估計(jì)等研究中。一、概化理論的概述(二)概化理論的測(cè)驗(yàn)設(shè)計(jì)概化理論提出,要全面分析測(cè)驗(yàn)的性質(zhì),需要在實(shí)施前進(jìn)行測(cè)驗(yàn)設(shè)計(jì)。概化理論的測(cè)驗(yàn)設(shè)計(jì)包括對(duì)測(cè)量目標(biāo)、測(cè)量側(cè)面、各測(cè)量側(cè)面水平的確定以及對(duì)測(cè)驗(yàn)數(shù)據(jù)采集方法的設(shè)計(jì)。測(cè)驗(yàn)數(shù)據(jù)采集的方法主要有全交叉采集、相互嵌套采集以及交叉與嵌套混合采集三種類型。全交叉采集:主要是指對(duì)所有測(cè)量側(cè)面的所有水平上的所有測(cè)量目標(biāo)進(jìn)行測(cè)量的數(shù)據(jù)采集方法嵌套采集:指某個(gè)測(cè)量側(cè)面的各個(gè)水平分別被包含在另一個(gè)測(cè)量側(cè)面的各個(gè)水平之中施測(cè)的數(shù)據(jù)采集方法混合采集:混合了以上兩種數(shù)據(jù)采集方法,主要用于三個(gè)及三個(gè)以上測(cè)量側(cè)面的情況這三種數(shù)據(jù)采集方法的設(shè)計(jì)分別被稱為交叉設(shè)計(jì)、嵌套設(shè)計(jì)和混合設(shè)計(jì),它們?cè)谑褂弥懈骶邇?yōu)勢(shì),尤其是交叉設(shè)計(jì)的數(shù)據(jù)信息最為豐富。一、概化理論的概述(三)概化研究和決策研究概化理論的統(tǒng)計(jì)分析主要由概化研究和決策研究?jī)蓚€(gè)階段構(gòu)成。概化研究也被稱為G研究,決策研究也被稱為D研究。一般說(shuō)來(lái),G研究主要為D研究作準(zhǔn)備,即通過(guò)G研究輔助設(shè)計(jì)一項(xiàng)具有充分概括力的D研究。因此,G研究一般是在D研究之前進(jìn)行的,D研究主要在G研究的基礎(chǔ)上展開(kāi)。G研究的主要目的是定量估計(jì)觀察域中測(cè)量目標(biāo)的方差以及各測(cè)量側(cè)面所產(chǎn)生的測(cè)量誤差方差,主要采用方差分量分析的方法將觀測(cè)數(shù)據(jù)總體方差進(jìn)行分解,并估計(jì)各因素期望方差。運(yùn)用方差分量分析法將數(shù)據(jù)總體方差進(jìn)行分解,主要分解為測(cè)量目標(biāo)主效應(yīng)方差、測(cè)量側(cè)面主效應(yīng)方差以及各種交互效應(yīng)方差三大類。G研究概化理論中的D研究,相當(dāng)于經(jīng)典測(cè)量理論里的分?jǐn)?shù)轉(zhuǎn)換與解釋的環(huán)節(jié),包括對(duì)測(cè)量的信度和效度等的評(píng)價(jià),主要是在G研究的基礎(chǔ)上,對(duì)所收集的信息進(jìn)行解釋或作出決策。D研究二、概化理論的優(yōu)點(diǎn)與缺點(diǎn)1.理論假設(shè)條件比較容易滿足且更加切實(shí)可行克服了經(jīng)典測(cè)量理論中“經(jīng)典平行測(cè)量假設(shè)”的不足,并提出了“隨機(jī)平行測(cè)驗(yàn)假設(shè)”,這一假設(shè)使得分析問(wèn)題的條件變得更容易滿足,在理論運(yùn)用上更加切實(shí)可行。2.控制測(cè)量誤差的方法可行且易于操作根據(jù)不同的測(cè)量情境對(duì)測(cè)量誤差的來(lái)源進(jìn)行估計(jì),將方差分析技術(shù)引入測(cè)量領(lǐng)域,將測(cè)驗(yàn)變異分成了幾個(gè)不同的部分,使其對(duì)應(yīng)特定的誤差來(lái)源,這種將誤差來(lái)源進(jìn)行分解的方法使得測(cè)量誤差更易控制,有效彌補(bǔ)了經(jīng)典測(cè)量理論對(duì)誤差籠統(tǒng)界定的缺陷。3.在一定程度上推進(jìn)了測(cè)量質(zhì)量的提升強(qiáng)調(diào)對(duì)測(cè)驗(yàn)的整體設(shè)計(jì),對(duì)引起信度變化的測(cè)量條件進(jìn)行了具體考察,并將多種測(cè)量條件引起的信度變化反映出來(lái),提升了測(cè)量推斷的準(zhǔn)確性,賦予了傳統(tǒng)信度觀以新的內(nèi)涵。(一)主要優(yōu)點(diǎn)二、概化理論的優(yōu)點(diǎn)與缺點(diǎn)強(qiáng)調(diào)受測(cè)者心理特質(zhì)的單維性,在實(shí)際運(yùn)用中同樣強(qiáng)調(diào)試題樣組的同質(zhì)性。然而在現(xiàn)實(shí)中心理特質(zhì)往往是多維性的,致使概化理論在多維性測(cè)量方面不太適用,從而使得其在實(shí)踐中受到一定限制。2.在計(jì)量方法上的局限性,影響其作用的有效發(fā)揮1.在多維性測(cè)量的研究和運(yùn)用上較為受限3.在測(cè)量運(yùn)用上對(duì)實(shí)測(cè)的事先指導(dǎo)略顯不足(二)局限與不足以方差分析為基礎(chǔ),并以方差分量估計(jì)考察各類誤差源,但由于數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜,方差分量估計(jì)的值往往具有不確定性,甚至有負(fù)值情況的出現(xiàn),在實(shí)測(cè)研究中較難解釋。

在實(shí)測(cè)的事先指導(dǎo)上對(duì)研究者的測(cè)量素質(zhì)要求較高,不僅要求研究者必須具備較高的測(cè)驗(yàn)設(shè)計(jì)水平,而且對(duì)研究者的測(cè)量技能,如實(shí)測(cè)監(jiān)控能力等方面,也要求嚴(yán)格,從而限制了概化理論在實(shí)測(cè)的事先指導(dǎo)上的運(yùn)用。三、概化理論的應(yīng)用與實(shí)踐概化理論由于自身的復(fù)雜性,在誕生初期并沒(méi)有得到迅速的推廣,隨著越來(lái)越多的研究者加入到對(duì)它的研究中,到20世紀(jì)90年代,概化理論在其內(nèi)涵上或是研究水平上得到了較大的發(fā)展,如在方差分析基礎(chǔ)上發(fā)展起來(lái)的單變量概化理論,基于多元方差分析的多元概化理論等。概化理論的深入發(fā)展使其具有了廣泛的推廣價(jià)值,并被越來(lái)越多地運(yùn)用于測(cè)驗(yàn)分?jǐn)?shù)的推廣性、評(píng)分者信度估計(jì)、臨界分?jǐn)?shù)誤差估計(jì)以及標(biāo)準(zhǔn)參照測(cè)驗(yàn)的信度研究之中,尤其是單側(cè)面隨機(jī)交叉設(shè)計(jì)與隨機(jī)雙側(cè)面設(shè)計(jì)在實(shí)踐中更是被廣泛運(yùn)用。概化理論經(jīng)過(guò)縱深發(fā)展,已成為與項(xiàng)目反應(yīng)理論同等重要的現(xiàn)代測(cè)量理論。概化理論在我國(guó)的應(yīng)用與發(fā)展相對(duì)較緩慢,經(jīng)歷了較長(zhǎng)的實(shí)驗(yàn)研究階段,現(xiàn)主要運(yùn)用于考核、面試等主觀性測(cè)評(píng)中。第四節(jié)

發(fā)展性評(píng)價(jià)理論一、發(fā)展性評(píng)價(jià)理論的概述發(fā)展性評(píng)價(jià)最初作為一種評(píng)價(jià)理念出現(xiàn),隨著評(píng)價(jià)理論和實(shí)踐的深入而逐漸發(fā)展成一套理論體系。發(fā)展性評(píng)價(jià)作為包含了教師發(fā)展評(píng)價(jià)、學(xué)校發(fā)展評(píng)價(jià)、學(xué)生發(fā)展評(píng)價(jià)等多個(gè)評(píng)價(jià)范疇的整體系統(tǒng),其對(duì)評(píng)價(jià)對(duì)象持續(xù)發(fā)展變化的動(dòng)態(tài)過(guò)程的強(qiáng)調(diào),也為現(xiàn)今的教育教學(xué)評(píng)價(jià)指引了方向。發(fā)展性評(píng)價(jià)理論主要是在對(duì)以獎(jiǎng)懲為主要目的的傳統(tǒng)評(píng)價(jià)的反思和批判基礎(chǔ)上建立起來(lái)的。20世紀(jì)80年代,隨著以改進(jìn)工作為評(píng)價(jià)目的、以民主協(xié)商為核心思想的第四代評(píng)價(jià)觀的興起,西方國(guó)家掀起了一場(chǎng)評(píng)價(jià)改革運(yùn)動(dòng)。以英國(guó)為首的發(fā)達(dá)國(guó)家開(kāi)始逐漸采用發(fā)展性教育評(píng)價(jià)代替以往弊大于利的以鑒別和獎(jiǎng)懲為主要目的的傳統(tǒng)教育評(píng)價(jià)制度,繼而發(fā)展性教育評(píng)價(jià)逐漸在這場(chǎng)教育評(píng)價(jià)改革運(yùn)動(dòng)中蔓延與發(fā)展開(kāi)來(lái)。

二、發(fā)展性評(píng)價(jià)理論的特點(diǎn)建立在對(duì)獎(jiǎng)懲性評(píng)價(jià)批判和反思的基礎(chǔ)上,因而它據(jù)棄了獎(jiǎng)懲性評(píng)價(jià)在評(píng)價(jià)過(guò)程中存在的一些不足,評(píng)價(jià)的主要目的是促進(jìn)評(píng)價(jià)對(duì)象的過(guò)程性發(fā)展。非獎(jiǎng)懲性強(qiáng)調(diào)對(duì)評(píng)價(jià)對(duì)象發(fā)展過(guò)程的評(píng)價(jià),并以過(guò)程性的評(píng)價(jià)促進(jìn)評(píng)價(jià)對(duì)象過(guò)程性的發(fā)展。過(guò)程性強(qiáng)調(diào)評(píng)價(jià)者與評(píng)價(jià)對(duì)象共同協(xié)商評(píng)價(jià)目標(biāo),使評(píng)價(jià)對(duì)象能積極參與到評(píng)價(jià)過(guò)程中,在一定程度上反映了評(píng)價(jià)的民主性,更有利于評(píng)價(jià)對(duì)象的發(fā)展。協(xié)作性不追求片面統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),而是基于個(gè)體特有的身心發(fā)展?fàn)顟B(tài),關(guān)注不同個(gè)體間發(fā)展的差異性,有針對(duì)性地促進(jìn)評(píng)價(jià)對(duì)象的發(fā)展。個(gè)體差異性是評(píng)價(jià)者與評(píng)價(jià)對(duì)象對(duì)被評(píng)價(jià)者的發(fā)展特征、發(fā)展現(xiàn)狀及發(fā)展水平的共同認(rèn)定過(guò)程,為評(píng)價(jià)者與評(píng)價(jià)對(duì)象的共同改進(jìn)提供建議與參考。診斷性其他與評(píng)價(jià)活動(dòng)有關(guān)的人員,只要能夠?yàn)樵u(píng)價(jià)對(duì)象的發(fā)展貢獻(xiàn)力量,均可直接或間接地參與到評(píng)價(jià)活動(dòng)中去。評(píng)價(jià)主體多元性三、發(fā)展性評(píng)價(jià)的類型發(fā)展性教師評(píng)價(jià)教師積極參與評(píng)價(jià)活動(dòng),在教師與評(píng)價(jià)者之間雙向互動(dòng)并建立互信關(guān)系的基礎(chǔ)上,共同商定教師發(fā)展的目標(biāo),基于目標(biāo)對(duì)教師過(guò)去的成績(jī)、當(dāng)前的工作表現(xiàn)進(jìn)行價(jià)值評(píng)判,并對(duì)教師未來(lái)的各方面發(fā)展提供指引的一種過(guò)程性評(píng)價(jià)。包括五個(gè)環(huán)節(jié),即明確評(píng)價(jià)的目標(biāo)、確定評(píng)價(jià)的主體、制訂評(píng)價(jià)指標(biāo)體系、開(kāi)展評(píng)價(jià)活動(dòng)以及總結(jié)與反饋評(píng)價(jià)結(jié)果。發(fā)展性學(xué)生評(píng)價(jià)依據(jù)一定的教育目標(biāo)與價(jià)值理念,引導(dǎo)學(xué)生積極參與評(píng)價(jià)活動(dòng)并與評(píng)價(jià)者建立互信關(guān)系,在此基礎(chǔ)上共同商定評(píng)價(jià)雙方認(rèn)可的評(píng)價(jià)目標(biāo),并基于目標(biāo)對(duì)學(xué)生的全面素質(zhì)進(jìn)行判斷,旨在以評(píng)價(jià)促進(jìn)學(xué)生的全面發(fā)展。實(shí)施程序包括以下五點(diǎn):確定評(píng)價(jià)目標(biāo),選擇評(píng)價(jià)方法并設(shè)計(jì)評(píng)價(jià)工具,全面收集評(píng)價(jià)信息,整理并分析評(píng)價(jià)信息,反饋評(píng)價(jià)信息。發(fā)展性學(xué)校評(píng)價(jià)在現(xiàn)代教育發(fā)展目標(biāo)與理念的指引下,以學(xué)校的可持續(xù)發(fā)展為目的,對(duì)學(xué)校的辦學(xué)方向、辦學(xué)條件、教學(xué)與管理、辦學(xué)效益等發(fā)展情況進(jìn)行價(jià)值判斷的一種評(píng)價(jià)。一般包括三個(gè)階段,即學(xué)校自評(píng)自建階段、專家進(jìn)校評(píng)價(jià)階段、評(píng)價(jià)整改階段。(一)發(fā)展性教師評(píng)價(jià)1.明確評(píng)價(jià)的目標(biāo)主要以教師發(fā)展的具體目標(biāo)為基礎(chǔ),如教師的前提素質(zhì)、過(guò)程素質(zhì)、工作績(jī)效以及教師的其他工作等,基于這幾個(gè)層面的具體內(nèi)容再設(shè)定相應(yīng)的具體發(fā)展目標(biāo)。由于

各個(gè)教師自身發(fā)展的差異性,在具體目標(biāo)的設(shè)定上也會(huì)有一定的差別。2.確定評(píng)價(jià)的主體評(píng)價(jià)主體確定的具體方法包括:評(píng)價(jià)者與被評(píng)價(jià)者間的雙向選擇、被評(píng)價(jià)者逆向選擇自己的評(píng)價(jià)者、領(lǐng)導(dǎo)或會(huì)議決定、抽簽決定等。評(píng)價(jià)者一般為業(yè)務(wù)骨干、領(lǐng)導(dǎo)小組成員、骨干教師及校外聘請(qǐng)的專家等,大多數(shù)情況下由具有較高素質(zhì)或業(yè)務(wù)水平的人員擔(dān)當(dāng)。評(píng)價(jià)指標(biāo)體系的確立首先是對(duì)評(píng)價(jià)目標(biāo)的層層剖析,進(jìn)而根據(jù)目標(biāo)確定評(píng)價(jià)的具體指標(biāo),并在此基礎(chǔ)上為各項(xiàng)指標(biāo)設(shè)定權(quán)重并建立評(píng)價(jià)標(biāo)準(zhǔn),從而為正式開(kāi)展評(píng)價(jià)奠定基礎(chǔ)。(1)評(píng)價(jià)雙方的初次見(jiàn)面,評(píng)價(jià)雙方根據(jù)評(píng)價(jià)者擬定的面談議程進(jìn)行初次面談;(2)教師信息的收集,在初次面談后,基于評(píng)價(jià)的指標(biāo)體系對(duì)教師信息的收集成為評(píng)價(jià)的關(guān)鍵環(huán)節(jié),對(duì)教師信息的收集主要通過(guò)教師自評(píng)課堂聽(tīng)課、廣泛征求第三方意見(jiàn)和查閱文獻(xiàn)等方式進(jìn)行;(3)評(píng)價(jià)面談,主要是對(duì)教師一定時(shí)間段內(nèi)的工作情況的總結(jié),指出其中的優(yōu)點(diǎn)和不足,并提出解決問(wèn)題的方法。總結(jié)是對(duì)發(fā)展性評(píng)價(jià)實(shí)施階段收集到的信息的診斷性評(píng)估,主要以撰寫(xiě)評(píng)價(jià)報(bào)告的形式進(jìn)行。在撰寫(xiě)完評(píng)價(jià)報(bào)告后,需要對(duì)被評(píng)教師的評(píng)價(jià)意見(jiàn)加以反饋,不僅要指出教師在工作中存在的不足,更要肯定教師取得的進(jìn)步,以促進(jìn)被評(píng)教師的長(zhǎng)遠(yuǎn)發(fā)展。3.制訂評(píng)價(jià)指標(biāo)體系4.開(kāi)展評(píng)價(jià)活動(dòng)5.總結(jié)與反饋評(píng)價(jià)結(jié)果(二)發(fā)展性學(xué)生評(píng)價(jià)1.確定評(píng)價(jià)目標(biāo)2.選擇評(píng)價(jià)方法并設(shè)計(jì)評(píng)價(jià)工具3.全面收集評(píng)價(jià)信息5.反饋評(píng)價(jià)信息4.整理并分析評(píng)價(jià)信息主要包括學(xué)科評(píng)價(jià)目標(biāo)和一般性評(píng)價(jià)目標(biāo)。學(xué)科評(píng)價(jià)目標(biāo)主要依據(jù)國(guó)家制定的各個(gè)學(xué)科的課程標(biāo)準(zhǔn)進(jìn)行目標(biāo)確立。一般性評(píng)價(jià)目標(biāo)主要是對(duì)涉及學(xué)生個(gè)體全面發(fā)展的基本素質(zhì),如學(xué)習(xí)能力、道德品質(zhì)、交流合作、運(yùn)動(dòng)健康、審美鑒賞等方面確定所要達(dá)到的層次。評(píng)價(jià)方法的選擇需要根據(jù)評(píng)價(jià)的內(nèi)容和評(píng)價(jià)對(duì)象的特點(diǎn)而定,一般以質(zhì)性評(píng)價(jià)方法居多。評(píng)價(jià)工具一般以評(píng)價(jià)表的形式呈現(xiàn),有時(shí)可直接使用現(xiàn)有的評(píng)價(jià)表。但多數(shù)情況下需要評(píng)價(jià)者根據(jù)評(píng)價(jià)內(nèi)容及評(píng)價(jià)對(duì)象的特點(diǎn)自行設(shè)計(jì)評(píng)價(jià)工具。選擇切實(shí)的信息源,運(yùn)用有效的方法和手段,在保證與評(píng)價(jià)目標(biāo)一致的前提下,多渠道、全面地收集評(píng)價(jià)信息,為評(píng)價(jià)主體客觀、準(zhǔn)確地對(duì)學(xué)生發(fā)展進(jìn)行價(jià)值判斷作好鋪墊。評(píng)價(jià)者首先要通過(guò)去粗取精與去偽存真的方式對(duì)所收集到的原始信息進(jìn)行整理,進(jìn)而對(duì)量化材料進(jìn)行統(tǒng)計(jì)分析或標(biāo)準(zhǔn)化處理,對(duì)定性材料進(jìn)行邏輯分析與論證,最后以評(píng)價(jià)報(bào)告的形式客觀描述學(xué)生發(fā)展性評(píng)價(jià)的總體情況。不僅要將學(xué)生發(fā)展過(guò)程的信息客觀地反饋給學(xué)生,還要注重信息反饋的策略,以便促進(jìn)學(xué)生更好地認(rèn)知自我發(fā)展的狀況,幫助學(xué)生提出自我改進(jìn)的意見(jiàn)并制訂改進(jìn)計(jì)劃,從而為學(xué)生的長(zhǎng)遠(yuǎn)發(fā)展打好基礎(chǔ)。(三)發(fā)展性學(xué)校評(píng)價(jià)學(xué)校的自評(píng)自建實(shí)質(zhì)是學(xué)校的自評(píng),也稱為學(xué)校的內(nèi)部評(píng)價(jià)。通過(guò)建立自我評(píng)價(jià)機(jī)制,全面收集能反映學(xué)校工作的各項(xiàng)資料、數(shù)據(jù),在對(duì)資料數(shù)據(jù)進(jìn)行整理、分析的基礎(chǔ)上形成學(xué)校自評(píng)報(bào)告,從而為后面階段的評(píng)價(jià)奠定基礎(chǔ)的過(guò)程。2.專家進(jìn)校評(píng)價(jià)階段1.自評(píng)自建階段3.評(píng)價(jià)整改階段專家進(jìn)校評(píng)價(jià)階段的實(shí)質(zhì)是他評(píng),屬于外部評(píng)價(jià)。包括6步:(1)聽(tīng)取學(xué)校匯報(bào),(2)閱讀自評(píng)報(bào)告,(3)實(shí)地調(diào)研考察,(4)匯總評(píng)價(jià)情況,(5)形成評(píng)價(jià)結(jié)論,(6)反饋評(píng)價(jià)意見(jiàn)。在評(píng)價(jià)整改階段,學(xué)校是發(fā)展性評(píng)價(jià)的主體,此時(shí),學(xué)校需要高效利用評(píng)價(jià)結(jié)果,根據(jù)評(píng)價(jià)意見(jiàn)來(lái)反思工作中出現(xiàn)的問(wèn)題,找準(zhǔn)解決問(wèn)題的突破口,以有針對(duì)性地改進(jìn)工作,揚(yáng)長(zhǎng)避短,實(shí)現(xiàn)學(xué)校的良性發(fā)展。第四章

信度含弘光大繼往開(kāi)來(lái)信度的概述信度的估算測(cè)驗(yàn)信度的評(píng)價(jià)信度系數(shù)的一般性指標(biāo)第一節(jié)信度的概述一、信度的定義

信度是指可靠性或穩(wěn)定性程度,測(cè)驗(yàn)的信度是指測(cè)量結(jié)果的可靠程度。并列性組合(也稱類

在經(jīng)典測(cè)量理論的真分?jǐn)?shù)模型中,受測(cè)者在測(cè)驗(yàn)中所獲得的測(cè)定值叫作實(shí)得分?jǐn)?shù)或觀察分?jǐn)?shù),記為X;受測(cè)者在測(cè)驗(yàn)預(yù)測(cè)的心理特質(zhì)上所具有的真實(shí)水平值叫作真分?jǐn)?shù),記為T;在實(shí)際測(cè)驗(yàn)中,實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)不會(huì)完全相等,二者之差稱為測(cè)量誤差(即誤差分?jǐn)?shù)),記為E。因此理論上三者的關(guān)系式可以表示為:X=T+E(公式4-1)X(實(shí)得分?jǐn)?shù)或觀察分?jǐn)?shù))=T(真實(shí)水平值叫作真分?jǐn)?shù))+E(測(cè)量誤差(即誤差分?jǐn)?shù)))(公式4-1)一、信度的定義一、信度的定義二、信度的功能

(一)評(píng)估測(cè)量結(jié)果的一致性并列性組合(也稱類

信度的取值越接近1,信度越高,說(shuō)明誤差分?jǐn)?shù)所占的比重越小,測(cè)驗(yàn)的實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)差距越小,測(cè)量結(jié)果的一致性程度也越高。相反,信度的取值越接近0,信度越低,說(shuō)明誤差分?jǐn)?shù)所占比重越大,測(cè)驗(yàn)的實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)差距越大,所得結(jié)果也越不可靠。二、信度的功能

(二)計(jì)算測(cè)量的標(biāo)準(zhǔn)誤,正確解釋個(gè)體測(cè)驗(yàn)分?jǐn)?shù)并列性組合(也稱類二、信度的功能

(二)計(jì)算測(cè)量的標(biāo)準(zhǔn)誤,正確解釋個(gè)體測(cè)驗(yàn)分?jǐn)?shù)并列性組合(也稱類

根據(jù)公式4-7可知:信度越高,測(cè)量標(biāo)準(zhǔn)誤越小,則誤差分布范圍越窄;信度越低,測(cè)量標(biāo)準(zhǔn)誤越大,則誤差分布范圍越廣。在解釋個(gè)體的測(cè)驗(yàn)分?jǐn)?shù)時(shí),如果兩個(gè)受測(cè)者的實(shí)得分?jǐn)?shù)差距不大且以孤立的點(diǎn)來(lái)判斷,那么所下的結(jié)論可能過(guò)于武斷,所以應(yīng)當(dāng)先計(jì)算出各自的一個(gè)置信區(qū)間、再作出恰當(dāng)?shù)慕忉尅6?、信度的功能第二?jié)信度的估算一、重測(cè)信度的估算(穩(wěn)定性系數(shù))

(一)重測(cè)信度的估算方法

并列性組合(也稱類

重測(cè)信度是指用同一個(gè)量表在兩個(gè)不同的時(shí)間內(nèi),對(duì)同一組受測(cè)者施測(cè)兩次所得結(jié)果的一致性程度,其大小等于該組受測(cè)者在兩次測(cè)驗(yàn)中實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)。

即用同一量表對(duì)相同受測(cè)者測(cè)驗(yàn)兩次,其結(jié)果應(yīng)當(dāng)是一致的、穩(wěn)定的,不會(huì)隨著時(shí)間的推移而改變。所以重測(cè)信度又被稱為穩(wěn)定性系數(shù)。一、重測(cè)信度的估算(穩(wěn)定性系數(shù))

(一)重測(cè)信度的估算方法并列性組合(也稱類一、重測(cè)信度的估算(穩(wěn)定性系數(shù))

(二)局限性與注意問(wèn)題并列性組合(也稱類首先,重測(cè)信度的大小受兩次測(cè)驗(yàn)時(shí)間間隔長(zhǎng)短的影響較為明顯。其次,重測(cè)信度的適用場(chǎng)景。(1)重測(cè)信度適用于異質(zhì)性測(cè)驗(yàn)而不適用于同質(zhì)性測(cè)驗(yàn)。(2)重測(cè)信度適川于速度測(cè)驗(yàn)而不適川于難度測(cè)驗(yàn)。(3)重測(cè)信度還適用于運(yùn)動(dòng)技能的測(cè)驗(yàn)。(4)重測(cè)信度只適用于所測(cè)特質(zhì)相對(duì)穩(wěn)定的情況,如IQ測(cè)驗(yàn)、人格測(cè)驗(yàn),測(cè)量這些相對(duì)穩(wěn)定的特質(zhì)就比較適合。二、復(fù)本信度的估算

(一)復(fù)本信度的估算方法

并列性組合(也稱類

為測(cè)量受測(cè)者的同一特質(zhì),可編制一些平行的等值測(cè)驗(yàn),這些在性質(zhì)、內(nèi)容、題型、題量、難度、區(qū)分度、指導(dǎo)語(yǔ)說(shuō)明以及時(shí)限等方面都相當(dāng)?shù)囶}本身不相同的測(cè)驗(yàn)即為復(fù)本測(cè)驗(yàn),又稱平行測(cè)驗(yàn)。同一組受測(cè)者在兩個(gè)平行測(cè)驗(yàn)上所得結(jié)果的一致性程度被稱為復(fù)本信度,復(fù)本信度的大小等于同一組受測(cè)者在兩個(gè)復(fù)本測(cè)驗(yàn)上所得分?jǐn)?shù)的相關(guān)系數(shù)。二、復(fù)本信度的估算

(一)復(fù)本信度的估算方法

并列性組合(也稱類二、復(fù)本信度的估算

(二)局限性與注意問(wèn)題

并列性組合(也稱類

復(fù)本信度的應(yīng)用要比重測(cè)信度廣泛,但它也存在一定的局限性。

首先,要編制出兩份真正的復(fù)本測(cè)驗(yàn),不僅要求兩次測(cè)驗(yàn)在性質(zhì)、內(nèi)容、題型、題量、難度、區(qū)分度、指異語(yǔ)說(shuō)明以及時(shí)限等方而都相當(dāng),還要求兩次測(cè)驗(yàn)結(jié)果的平均值和標(biāo)準(zhǔn)差都相近,這個(gè)相當(dāng)困難。

其次,復(fù)本測(cè)驗(yàn)由于試題不同且受測(cè)者不受記憶的影響,所以它既適應(yīng)于速度測(cè)驗(yàn),也適用于難度測(cè)驗(yàn)。

最后,對(duì)于等值穩(wěn)定性系數(shù)也存在與重測(cè)信度一樣的制約因素,即兩次測(cè)驗(yàn)間隔期間受測(cè)者身心發(fā)展、經(jīng)驗(yàn)積累、練習(xí)效應(yīng)等的變化,所以對(duì)兩次測(cè)驗(yàn)間隔時(shí)間長(zhǎng)短的把握非常重要。三、同質(zhì)信度的估算

(一)同質(zhì)性信度的估算方法

同質(zhì)性信度指的是同一測(cè)驗(yàn)內(nèi)部所有試題間的一致性程度,也叫作內(nèi)都一致性信度,具體來(lái)說(shuō)就是指測(cè)驗(yàn)各個(gè)題目間得分的相關(guān)系數(shù)。

1.分半信度分半信度指將一個(gè)測(cè)驗(yàn)分成對(duì)等的兩部分后,所有受測(cè)者在這兩部分上所得分?jǐn)?shù)的一致性程度。通常情況采用奇偶分半的方法,也就是將測(cè)驗(yàn)中的奇數(shù)題為一組,偶數(shù)題為另一組,計(jì)算兩組的相關(guān)系數(shù)。但分半之后實(shí)際計(jì)算的是兩個(gè)“半測(cè)驗(yàn)”得分的相關(guān)系數(shù)。

測(cè)驗(yàn)長(zhǎng)度減小會(huì)對(duì)信度產(chǎn)生影響,所以最后還需要用斯皮爾曼一布朗公式加以校正,以求得整個(gè)測(cè)驗(yàn)的信度。

另外兩個(gè)“半測(cè)驗(yàn)”可以看成極短時(shí)距內(nèi)連續(xù)施測(cè)的兩個(gè)平行測(cè)驗(yàn),因此分半信度還可以歸為等值性系數(shù),其計(jì)算方法也與其相似。三、同質(zhì)信度的估算

(一)同質(zhì)性信度的估算方法

三、同質(zhì)信度的估算

(一)同質(zhì)性信度的估算方法

三、同質(zhì)信度的估算

(一)同質(zhì)性信度的估算方法

三、同質(zhì)信度的估算

(一)同質(zhì)性信度的估算方法

四、評(píng)分者信度的估算

若一個(gè)測(cè)驗(yàn)的試題主觀性很高,如作文測(cè)驗(yàn)、品德測(cè)驗(yàn)等,則評(píng)分者間的差異就成為必須要考慮的誤差因素。評(píng)分者以等級(jí)評(píng)分,因此不同的評(píng)分者對(duì)同一份試卷判定的等級(jí)往往不同,就造成了較大的差異。此時(shí)必須考察不同評(píng)分者對(duì)同一組受測(cè)者評(píng)分的一致性程度,即評(píng)分者信度。

兩種估算評(píng)分者信度的方法,根據(jù)評(píng)分者人數(shù)的不同選擇相應(yīng)的計(jì)算方法。若由兩人評(píng)N份試卷或一人先后兩次評(píng)N份試卷,則采用斯皮爾曼等級(jí)相關(guān)公式計(jì)算;若由三人以上的評(píng)分者評(píng)N份試卷,則采用肯德?tīng)柡椭C系數(shù)公式計(jì)算。

(一)評(píng)分者信度的估算方法

四、評(píng)分者信度的估算

(一)評(píng)分者信度的估算方法

四、評(píng)分者信度的估算

(一)評(píng)分者信度的估算方法

四、評(píng)分者信度的估算

(二)適用情況與注意問(wèn)題

評(píng)分者信度是為了評(píng)判主觀性試題的評(píng)分可信度。評(píng)分者信度的估算要根據(jù)評(píng)分者的數(shù)量而采用不同的計(jì)算公式。當(dāng)只有兩個(gè)評(píng)分者或者一人先后進(jìn)行兩次評(píng)分時(shí),則采用斯皮爾曼等級(jí)相關(guān)公式計(jì)算,在實(shí)際評(píng)卷中,若兩位評(píng)分者評(píng)定等級(jí)是按照秩次的排列規(guī)則得到,那么用斯皮爾曼檢驗(yàn)時(shí),可直接用數(shù)據(jù)或用相應(yīng)的等級(jí)數(shù)據(jù)進(jìn)行運(yùn)算,所得到的最終結(jié)果是相同的。若評(píng)分者有三人以上,則采用肯德?tīng)柡椭C系數(shù)進(jìn)行計(jì)算。

肯德?tīng)柡椭C系數(shù)又分為兩種情況:一是評(píng)分者評(píng)定等級(jí)不相同的情況;二是評(píng)分者評(píng)定等級(jí)出現(xiàn)相同的情況。除了以上介紹的兩種估算評(píng)分者信度的方法外,對(duì)于兩個(gè)評(píng)分者對(duì)同一試題進(jìn)行評(píng)分的情況還可以采用Kappa系數(shù)法、列聯(lián)系數(shù)法、Pearson積差相關(guān)法;對(duì)于多個(gè)評(píng)分者進(jìn)行評(píng)分的情況還可以采用克隆巴赫系數(shù)和多系列相關(guān)分析的方法。第三節(jié)測(cè)驗(yàn)信度的評(píng)價(jià)第三節(jié)、測(cè)驗(yàn)信度的評(píng)價(jià)

一、確定合理的信度系數(shù)指標(biāo)

并列性組合(也稱類

在其信度檢驗(yàn)方面,研究者采用了三個(gè)信度指標(biāo),即分半信度,克隆巴赫a系數(shù),重測(cè)信度。

結(jié)果該量表各領(lǐng)域的克隆巴赫系數(shù)均達(dá)到0.70以上,分半信度經(jīng)校正為0.90,絕大部分分測(cè)試的重測(cè)信度也都達(dá)到0.70以上。這表明該量表的各項(xiàng)指標(biāo)均達(dá)到了心理測(cè)量學(xué)對(duì)量表信度的要求,即該量表具有很好的信度,其測(cè)量結(jié)果穩(wěn)定可靠。

要確定一個(gè)合理的信度系數(shù)指標(biāo),不能用一個(gè)死的標(biāo)準(zhǔn)來(lái)衡量,這里提供幾個(gè)一般性的標(biāo)準(zhǔn)作為參考。在一般情況下,標(biāo)準(zhǔn)化的學(xué)習(xí)成績(jī)或能力測(cè)驗(yàn),其信度應(yīng)達(dá)到0.90以上;人格測(cè)驗(yàn)應(yīng)達(dá)到0.80以上;標(biāo)準(zhǔn)化智力測(cè)驗(yàn)應(yīng)達(dá)到0.85以上;教師自編的學(xué)習(xí)成績(jī)測(cè)驗(yàn)應(yīng)達(dá)到0.60以上。第三節(jié)、測(cè)驗(yàn)信度的評(píng)價(jià)

一、確定合理的信度系數(shù)指標(biāo)

并列性組合(也稱類第三節(jié)、測(cè)驗(yàn)信度的評(píng)價(jià)(一)增加題目數(shù)量(二)難度適中(三)內(nèi)容同質(zhì)

(四)程序統(tǒng)一

(五)時(shí)間充分

(六)評(píng)分客觀

二、提高測(cè)驗(yàn)信度的方法

并列性組合(也稱類第四節(jié)信度系數(shù)的一般性指標(biāo)信度系數(shù)的一般性指標(biāo)

要確定一個(gè)合理的信度系數(shù)指標(biāo),不能用一個(gè)死的標(biāo)準(zhǔn)來(lái)衡量,這里提供幾個(gè)一般性的標(biāo)準(zhǔn)作為參考。

在一般情況下,標(biāo)準(zhǔn)化的學(xué)習(xí)成績(jī)或能力測(cè)驗(yàn),其信度應(yīng)達(dá)到0.90以上;人格測(cè)驗(yàn)應(yīng)達(dá)到0.80以上;標(biāo)準(zhǔn)化智力測(cè)驗(yàn)應(yīng)達(dá)到0.85以上;教師自編的學(xué)習(xí)成績(jī)測(cè)驗(yàn)應(yīng)達(dá)到0.60以上。課堂反思與參與你的觀點(diǎn)很重要你的參與很重要課堂練習(xí):知識(shí)鞏固與應(yīng)用1.重測(cè)信度的適用范圍是什么?使用時(shí)應(yīng)注意什么?2.復(fù)本信度的局限性是什么?3.影響分半信度的因素有哪些?4.克隆巴赫a系數(shù)的適用范圍是什么?5.評(píng)分者信度的估算方法有哪些?

(一)問(wèn)題思考:

并列性組合(也稱類反思總結(jié)

信度是指測(cè)量結(jié)果的穩(wěn)定性程度或可靠性程度。在教育測(cè)量中對(duì)信度的估算一般采用相關(guān)分析的方法?;趯?duì)信度定義的理解,可以得出信度具有衡量測(cè)量結(jié)果的一致性和穩(wěn)定性程度、正確解釋個(gè)體測(cè)驗(yàn)分?jǐn)?shù)、比較不同測(cè)驗(yàn)分?jǐn)?shù)等功能。

關(guān)于信度的估算方法,由于誤差來(lái)源的不同,以及分析測(cè)驗(yàn)一致性的側(cè)重點(diǎn)不同,主要有重測(cè)信度、復(fù)本信度、同質(zhì)性信度和評(píng)分者信度四種類型。

不同類型的信度有不同的應(yīng)用范圍,實(shí)際應(yīng)用當(dāng)中確定測(cè)驗(yàn)的信度指標(biāo)需根據(jù)具體情況而定,主要應(yīng)考慮誤差變異來(lái)源的因素。

通過(guò)增加題目數(shù)量,控制測(cè)驗(yàn)的難度保持適中,提高測(cè)驗(yàn)內(nèi)容的同質(zhì)性,保持測(cè)驗(yàn)程序的統(tǒng)一,確保測(cè)驗(yàn)時(shí)間充分和嚴(yán)格把關(guān)評(píng)分的客觀性等方法可以提高測(cè)驗(yàn)的信度。課后學(xué)習(xí)3.學(xué)習(xí)主題

從期刊和雜志中閱讀與信度相關(guān)的文章,了解信度的適用場(chǎng)景、學(xué)會(huì)解釋信度的相關(guān)數(shù)據(jù)與運(yùn)用形式等。

1.復(fù)習(xí)本節(jié)課的相關(guān)知識(shí),做好課堂筆記,設(shè)計(jì)本節(jié)課的知識(shí)邏輯與網(wǎng)絡(luò)圖。下節(jié)課課前、課中或課后向同學(xué)們展示。

2.預(yù)習(xí)下節(jié)課的學(xué)習(xí)內(nèi)容(效度)4.預(yù)習(xí)主題

預(yù)習(xí)下一節(jié)內(nèi)容“效度”的相關(guān)內(nèi)容。感謝觀看第五章

效度含弘光大繼往開(kāi)來(lái)效度的概述效度的估計(jì)提高測(cè)驗(yàn)效度的方法效度系數(shù)的一般性指標(biāo)第一節(jié)效度的概述一、效度的定義二、效度的性質(zhì)效度有如下五條性質(zhì):

第一,效度始終針對(duì)一定的測(cè)量目的。第二,效度針對(duì)測(cè)量結(jié)果。第三,效度只有程度上的差別。第四,效度是測(cè)量的隨機(jī)誤差和系統(tǒng)誤差的綜合反映。二、效度的性質(zhì)二、效度的性質(zhì)效度有如下五條性質(zhì):

第一,效度始終針對(duì)一定的測(cè)量目的。第二,效度針對(duì)測(cè)量結(jié)果。第三,效度只有程度上的差別。第四,效度是測(cè)量的隨機(jī)誤差和系統(tǒng)誤差的綜合反映。

第五,判斷一個(gè)測(cè)量是否有效要從多方面搜集證據(jù)。第二節(jié)效度的估計(jì)一、內(nèi)容效度的估算

(一)效度的分類

1974年美國(guó)心理學(xué)會(huì)在《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)》中正式將效度劃分為內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和構(gòu)想效度,至此進(jìn)入效度的“三分論”的時(shí)代。

并列性組合(也稱類

內(nèi)容效度是指測(cè)驗(yàn)內(nèi)容是否足以代表測(cè)驗(yàn)?zāi)繕?biāo)內(nèi)容的范疇。這種對(duì)測(cè)驗(yàn)?zāi)繕?biāo)內(nèi)容的代表性使得內(nèi)容效度中的“內(nèi)容”具有廣泛的意義。也就是說(shuō),內(nèi)容效度關(guān)注的是測(cè)驗(yàn)題目對(duì)所要測(cè)量?jī)?nèi)容的全域的取樣代表性。因此,如何保證測(cè)驗(yàn)內(nèi)容的代表性成為內(nèi)容效度驗(yàn)證的最大難點(diǎn)。一、內(nèi)容效度的估算

邏輯分析法是一種驗(yàn)證內(nèi)容效度的典型方法,一般要求由一組本學(xué)科的專家根據(jù)所要測(cè)量特性的定義和對(duì)測(cè)量?jī)?nèi)容范圍的界定,以及各部分內(nèi)容所占的比重,以邏輯分析的方法判斷測(cè)驗(yàn)題目與應(yīng)測(cè)內(nèi)容范圍的符合程度。邏輯分析法本質(zhì)上是一種定性的方法,它主要由專家來(lái)進(jìn)行評(píng)判。

有時(shí)也會(huì)將評(píng)分者信度作為內(nèi)容效度評(píng)判的一個(gè)指標(biāo)。除此之外,人們還試圖用定量分析的辦法去估計(jì)測(cè)驗(yàn)的內(nèi)容效度。

(一)內(nèi)容效度的驗(yàn)證方法1.邏輯分析法(定性方法)一、內(nèi)容效度的估算

2.統(tǒng)計(jì)分析法

統(tǒng)計(jì)分析法主要有復(fù)本法和前后測(cè)比較法兩種類型。并列性組合(也稱類

(1)復(fù)本法

編制兩套獨(dú)立的測(cè)驗(yàn)試題,要求試題的內(nèi)容取自同樣的教學(xué)內(nèi)容范圍,然后用這兩套試題對(duì)同一組受測(cè)者施測(cè),根據(jù)測(cè)驗(yàn)結(jié)果計(jì)算復(fù)本信度。若相關(guān)系數(shù)高,則可以將其作為評(píng)估內(nèi)容效度的一個(gè)證據(jù);若相關(guān)系數(shù)低,則說(shuō)明兩套測(cè)驗(yàn)試題中至少有一套的內(nèi)容效度低。

(2)前后測(cè)比較法

首先,在進(jìn)行某一知識(shí)或技能的教學(xué)、訓(xùn)練之前對(duì)同一組受測(cè)者實(shí)施前測(cè),此時(shí)受測(cè)者對(duì)所要測(cè)驗(yàn)的內(nèi)容應(yīng)當(dāng)是知之甚少的,然后在對(duì)有關(guān)內(nèi)容進(jìn)行教學(xué)、訓(xùn)練之后,再對(duì)該組受測(cè)者實(shí)施后測(cè),根據(jù)兩次測(cè)驗(yàn)結(jié)果差異的顯著性來(lái)判斷測(cè)驗(yàn)內(nèi)容的有效性。若前后測(cè)結(jié)果有顯著性差異,且后測(cè)結(jié)果優(yōu)于前測(cè),則表明測(cè)驗(yàn)所要測(cè)量的內(nèi)容與教學(xué)的內(nèi)容相符,即該測(cè)驗(yàn)的內(nèi)容效度高;若前后測(cè)結(jié)果無(wú)顯著性差異,則表明測(cè)驗(yàn)所要測(cè)量的內(nèi)容與教學(xué)內(nèi)容不相符,即該測(cè)驗(yàn)的內(nèi)容效度低。一、內(nèi)容效度的估算(二)局限性與注意問(wèn)題

1.內(nèi)容效度主要適用于教學(xué)情境下的學(xué)業(yè)成就測(cè)驗(yàn),選拔性和分類性的職業(yè)測(cè)驗(yàn);

2.反映心理特質(zhì)或心理過(guò)程的能力傾向測(cè)驗(yàn)以及人格測(cè)驗(yàn)并不適合用內(nèi)容效度。3.內(nèi)容效度與表面效度的區(qū)別一、內(nèi)容效度的估算(二)局限性與注意問(wèn)題

3.內(nèi)容效度與表面效度的區(qū)別二、效標(biāo)關(guān)聯(lián)效度的估算

效標(biāo)關(guān)聯(lián)效度(實(shí)證效度)分為:同時(shí)效度與預(yù)測(cè)效度并列性組合(也稱類二、效標(biāo)關(guān)聯(lián)效度的估算

效標(biāo)關(guān)聯(lián)效度(實(shí)證效度)分為:同時(shí)效度與預(yù)測(cè)效度并列性組合(也稱類二、效標(biāo)關(guān)聯(lián)效度的估算(一)效標(biāo)及效標(biāo)選擇

效標(biāo),即效度標(biāo)準(zhǔn),它是反映測(cè)驗(yàn)?zāi)康牡男袨閰⒄?,?dú)立于測(cè)驗(yàn)并可以用于預(yù)測(cè)特定情境中的個(gè)體行為,也稱作效標(biāo)行為。

阿斯汀(A.W.Astin)將效標(biāo)分為觀念效標(biāo)和效標(biāo)測(cè)量。觀念效標(biāo)是一個(gè)理論描述層面的概念,效標(biāo)測(cè)量是指觀念效標(biāo)的量化。每一個(gè)效標(biāo)行為往往由多種特質(zhì)構(gòu)成,因此,同一觀念的效標(biāo)可能會(huì)有多個(gè)不同的效標(biāo)測(cè)量。二、效標(biāo)關(guān)聯(lián)效度的估算

作為效度驗(yàn)證的參考標(biāo)準(zhǔn),效標(biāo)的選擇與測(cè)量應(yīng)當(dāng)具備以下六個(gè)條件。并列性組合(也稱類第一,相關(guān)性。第二,有效性。第三,可靠性。第四,無(wú)污染。第五,客觀性。第六,實(shí)用性。010203040506二、效標(biāo)關(guān)聯(lián)效度的估算(三)

局限性與注意問(wèn)題

(二)效標(biāo)關(guān)聯(lián)效度的估計(jì)列性組合(也稱類

1.相關(guān)法2.分組法3.取舍命中率4.預(yù)期表法二、效標(biāo)關(guān)聯(lián)效度的估算

(四)構(gòu)想效度的估算列性組合(也稱類

1.測(cè)驗(yàn)內(nèi)部搜尋證據(jù)法

(1)內(nèi)容效度

(2)測(cè)驗(yàn)的內(nèi)部的一致性

(3)因素分析2.測(cè)驗(yàn)之間搜尋證據(jù)法(1)相容效度(2)多元特質(zhì)和多重方法矩陣第三節(jié)提高測(cè)驗(yàn)效度的方法提高測(cè)驗(yàn)效度的方法二、提高測(cè)驗(yàn)效度的方法(一)控制系統(tǒng)誤差(二)精心編制量表(三)有效組織測(cè)驗(yàn)(四)樣本取樣具有代表性(五)合理處理效度與信度的關(guān)系(六)增加測(cè)驗(yàn)長(zhǎng)度一、確定合理的效度系數(shù)指標(biāo)列性組合(也稱類反思總結(jié)

效度是指測(cè)量結(jié)果的有效性或正確性程度,它是衡量測(cè)驗(yàn)質(zhì)量的重要依據(jù),始終針對(duì)一定的測(cè)量目的而言。同時(shí),效度又是針對(duì)測(cè)量結(jié)果而言的。效度只有程度上的差別,例如,在評(píng)價(jià)一個(gè)測(cè)驗(yàn)的效度時(shí)通常不會(huì)說(shuō)“有效”或“無(wú)效”,而是用高低來(lái)評(píng)判測(cè)驗(yàn)結(jié)果的有效性。從統(tǒng)計(jì)學(xué)的角度來(lái)看,效度是測(cè)量的隨機(jī)誤差和系統(tǒng)誤差的綜合反映,因而

判斷一個(gè)測(cè)量是否有效要從多方面搜集證據(jù)。本章介紹了三大效度類別,即內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和構(gòu)想效度。內(nèi)容效度是指測(cè)驗(yàn)內(nèi)容是否足以代表測(cè)驗(yàn)?zāi)繕?biāo)內(nèi)容的范疇;效標(biāo)關(guān)聯(lián)效度是指測(cè)驗(yàn)分?jǐn)?shù)與一個(gè)外部效標(biāo)的一致性程度;構(gòu)想效度是指一個(gè)測(cè)驗(yàn)?zāi)軐?shí)際測(cè)到所要測(cè)量的理論構(gòu)想或心理特質(zhì)的程度。不同的測(cè)驗(yàn)類型偏重于不同的效度證據(jù),一個(gè)測(cè)驗(yàn)應(yīng)選擇何種效度進(jìn)行檢驗(yàn),要根據(jù)具體的情況而定。關(guān)于效度的驗(yàn)證,現(xiàn)代效度理論強(qiáng)調(diào)證據(jù)和論證的過(guò)程,因而要確定一個(gè)合理的效度系數(shù)指標(biāo),不能用單一標(biāo)準(zhǔn)來(lái)衡量。要提高測(cè)驗(yàn)效度,可以通過(guò)控制系統(tǒng)誤差、精心編制量表、有效組織測(cè)驗(yàn)、保證樣本的取樣代表性、合理處理效度與信度的關(guān)系、適當(dāng)增加測(cè)驗(yàn)長(zhǎng)度等方法來(lái)實(shí)現(xiàn)。課后學(xué)習(xí)3.學(xué)習(xí)主題

從期刊和雜志中閱讀與難度相關(guān)的文章,了解難度的適用場(chǎng)景、學(xué)會(huì)解釋難度的相關(guān)數(shù)據(jù)與運(yùn)用形式等。

1.復(fù)習(xí)本節(jié)課的相關(guān)知識(shí),做好課堂筆記,設(shè)計(jì)本節(jié)課的知識(shí)邏輯與網(wǎng)絡(luò)圖。下節(jié)課課前、課中或課后向同學(xué)們展示。

2.預(yù)習(xí)下節(jié)課的學(xué)習(xí)內(nèi)容(難度)4.預(yù)習(xí)主題

預(yù)習(xí)下一節(jié)內(nèi)容“難度”的相關(guān)內(nèi)容。感謝觀看第六章

難度含弘光大繼往開(kāi)來(lái)難度概述難度的計(jì)算項(xiàng)目難度的評(píng)價(jià)第一節(jié)難度概述一、難度的定義一、難度的定義難度是衡量教育測(cè)量質(zhì)量的重要指標(biāo)之一,難度指標(biāo)主要是針對(duì)測(cè)驗(yàn)項(xiàng)目(也即測(cè)驗(yàn)試題、題目)而言的,反映了受測(cè)者在完成測(cè)驗(yàn)試題或測(cè)量項(xiàng)目時(shí)所遇到的困難程度??茖W(xué)合理的難度設(shè)置,能夠提高教育測(cè)量的效度與信度,保障教育測(cè)量的區(qū)分度。

這里的難度實(shí)際上表示的是容易程度,與受測(cè)者完成測(cè)驗(yàn)試題或測(cè)量項(xiàng)目時(shí)所遇到的實(shí)際困難程度正好相反,其難度系數(shù)在本質(zhì)上反映的是某測(cè)驗(yàn)試題正確作答人數(shù)的比例,也叫通過(guò)率。P值介于0和1之間。P值越大,則表示測(cè)驗(yàn)試題或測(cè)量項(xiàng)目越簡(jiǎn)單;P值越小,則表示測(cè)驗(yàn)試題或測(cè)量項(xiàng)目越難。一、難度的定義

這里的難度實(shí)際上表示的是困難程度,與受測(cè)者在完成測(cè)驗(yàn)試題或測(cè)量項(xiàng)目時(shí)的實(shí)際困難程度正相關(guān),其難度系數(shù)在本質(zhì)上反映的是某測(cè)驗(yàn)試題錯(cuò)誤作答人數(shù)的比例,也叫失分率(q)。P值介于0和1之間。P值越大,失分率越高,則表示測(cè)驗(yàn)試題或測(cè)量項(xiàng)目越難;P值越小,失分率越低,則表示測(cè)驗(yàn)試題或測(cè)量項(xiàng)目越簡(jiǎn)單。

可見(jiàn),難度系數(shù)具有不同的計(jì)算方法,難度也有不同的定義形式,因此,在報(bào)告測(cè)驗(yàn)試題難度時(shí)應(yīng)指明是哪種難度系數(shù)。由于當(dāng)前國(guó)內(nèi)外文獻(xiàn)中普遍使用得分率(也即通過(guò)率)來(lái)指稱難度,故本書(shū)中選擇難度的第一種定義形式(公式6-1)。二、難度的功能

難度有三個(gè)功能,即影響教育測(cè)量的鑒別能力,測(cè)量分?jǐn)?shù)的分布形態(tài)和測(cè)量分?jǐn)?shù)的離散程度。

(一)影響教育測(cè)量的鑒別能力

難度計(jì)算是為了得出特定測(cè)驗(yàn)試題或測(cè)量項(xiàng)目與受測(cè)者之間的適合程度。難度的本質(zhì)是一個(gè)相對(duì)概念,我們通常用某測(cè)驗(yàn)試題或測(cè)量項(xiàng)目的平均得分率或通過(guò)率來(lái)表示。難度水平的高低與受測(cè)者在特定項(xiàng)目上的水平直接相關(guān)。難度適中的測(cè)驗(yàn)試題或測(cè)量項(xiàng)目可以使教育測(cè)量的區(qū)分度達(dá)到最大,保障測(cè)量的鑒別能力。

(二)影響測(cè)量分?jǐn)?shù)的分布形態(tài)

一般情況下,難度適中的測(cè)驗(yàn)試題或測(cè)量項(xiàng)目,獲得的測(cè)量分?jǐn)?shù)大體呈正態(tài)分布形態(tài)。難度過(guò)大或過(guò)小,將直接造成測(cè)量分?jǐn)?shù)的偏態(tài)分布。難度越大,p位越小,則受測(cè)者的平均得分率或通過(guò)率就越小,測(cè)量分?jǐn)?shù)就越趨向于低分?jǐn)?shù)段,從而呈正偏態(tài)分布;難度越小,P值越大,則受測(cè)者的平均得分率或通過(guò)率就越大,測(cè)量分?jǐn)?shù)就越趨向于高分?jǐn)?shù)段,從而呈負(fù)偏態(tài)分布。

例如,某高中的一次月考后,語(yǔ)文平均得分為132分,數(shù)學(xué)平均得分為81分??梢?jiàn),月考語(yǔ)文試題的難度明顯低于數(shù)學(xué)。二、難度的功能

(三)影響測(cè)量分?jǐn)?shù)的離散程度

測(cè)量分?jǐn)?shù)的離散程度與分布形態(tài)直接相關(guān),可以由分?jǐn)?shù)的平均數(shù)、中位數(shù)、方差等指標(biāo)來(lái)體現(xiàn)。由分析可以得出,難度過(guò)大或過(guò)小會(huì)直接造成測(cè)量分?jǐn)?shù)集中在低分?jǐn)?shù)段或高分?jǐn)?shù)段,而呈偏態(tài)分布。偏態(tài)分布形態(tài)下的測(cè)量分?jǐn)?shù)過(guò)于集中,分?jǐn)?shù)的分層情況不明顯,離散程度小(如圖6-1所示)。

例如,某地區(qū)某年中考化學(xué)難度過(guò)大,平均分是12分。統(tǒng)計(jì)發(fā)現(xiàn),86%的考生分?jǐn)?shù)介于9分和14分之間,成績(jī)過(guò)于集中,離散程度小。考生的分?jǐn)?shù)呈偏態(tài)分布,分層情況不明顯,難以鑒別考生之間的水平層次。而難度適中的測(cè)驗(yàn)試題獲得的測(cè)量分?jǐn)?shù)不可能過(guò)于集中,分?jǐn)?shù)的分布范圍有可能達(dá)到最大,即分?jǐn)?shù)的分層情況明顯,能夠有效鑒別考生之間的水平層次。可見(jiàn),測(cè)驗(yàn)試題的難度直接影響測(cè)量分?jǐn)?shù)的離散程度。第二節(jié)難度的計(jì)算一、難度測(cè)量前的估算

(一)方法簡(jiǎn)介

并列性組合(也稱類

難度的計(jì)算包括測(cè)量前的估算與測(cè)量后的估算。測(cè)量前的估算是篩選、確定測(cè)驗(yàn)試題或測(cè)量項(xiàng)目并控制教育測(cè)量整體難度的重要依據(jù),測(cè)量后的難度計(jì)算是研究、分析測(cè)量分?jǐn)?shù),并改進(jìn)完善同類教育測(cè)量的重要依據(jù)。

命題人員的經(jīng)驗(yàn)預(yù)測(cè)主要依據(jù)測(cè)驗(yàn)試題或測(cè)量項(xiàng)目的難度影響因素和實(shí)踐經(jīng)驗(yàn)來(lái)進(jìn)行評(píng)判,重在質(zhì)性評(píng)價(jià);小范圍測(cè)量預(yù)測(cè)是指選取與受測(cè)者同質(zhì)的觀察組樣本,進(jìn)行小范圍實(shí)測(cè),并根據(jù)測(cè)量分?jǐn)?shù)進(jìn)行難度計(jì)算,從而得出教育測(cè)量的難度,重在量性評(píng)價(jià)。(二)具體操作

運(yùn)用測(cè)量前的小范圍預(yù)測(cè)來(lái)估算教育測(cè)量難度是一種相對(duì)準(zhǔn)確的量性估算方法,其操作步驟和計(jì)算方法與測(cè)量后的難度計(jì)算分析完全一樣。一、難度測(cè)量前的估算一、難度測(cè)量前的估算

(三)不足

并列性組合(也稱類

測(cè)量前的難度估算具有一定的局限性,難免存在一定誤差。這是因?yàn)榻逃郎y(cè)量反映的是相對(duì)難度,而不是絕對(duì)難度。某一測(cè)驗(yàn)試題或測(cè)量項(xiàng)目的難度大小,不僅與測(cè)量?jī)?nèi)容或技能本身的難易有關(guān),還與編制技術(shù)、受測(cè)者的經(jīng)驗(yàn)等因素密切相關(guān)。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論