心理與教育測量課件

上傳人：子*** IP屬地：未知上傳時間：2024-04-03 格式：PPT 頁數(shù)：808 大?。?0.92MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩803頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

心理與教育測量第一章心理與教育測量概論第一節(jié)一般測量概述第二節(jié)心理與教育測量的性質(zhì)第三節(jié)心理與教育測量的種類及其功能第四節(jié)心理與教育測量工作者的素質(zhì)要求及道德準則第一節(jié)一般測量概述

心理與教育測量在心理科學、教育科學的基礎學科和應用學科之間起著一種中介作用。一、測量及其種類二、測量的基本要素三、測量的量表第一節(jié)一般測量概述一、測量及其種類

1．測量(Measurement)的定義測量就是依據(jù)一定的法則使用量具對事物的特征進行定量描述的過程。第一節(jié)一般測量概述一、測量及其種類1。定義：法則→量具→事物（屬性）→定量描述物理、社會和心理測量共性

一定的法則：任何測量都要建立在科學規(guī)則和科學原理基礎之上，并通過科學的方法和程序完成測量過程。事物的特征：是指所要測量的事物的特定屬性。量具：測量中所使用的工具定量描述：對事物特征的量的確定。2。測量的精確度決定于測量對象本身的性質(zhì)與測量工具的精密性。3．測量的分類（根據(jù)測量對象的性質(zhì)和特點）

物理測量：長度、重量、面積、速度等。生理測量：化學成分、生理機能等。社會測量：人口普查、經(jīng)濟統(tǒng)計、民意調(diào)查等。心理測量：智力、人格、成就、職業(yè)興趣、態(tài)度等。單位意義明確單位等距參照點絕對參照點相對參照點全無人為二、測量的基本要素

二、測量的基本要素參照點(ReferencePoint)

采用相對參照點為測量起點的測量結果只能進行加減運算，而不能進行乘除運算。比如，智商，攝氏溫度等。三、測量量表按標準化樣本中大量測驗結果制定的、有一定單位和參照點的、

標度由低到高排列的連續(xù)體。含義

三、測量的量表能夠使事物的特征數(shù)量化的具有特定單位和參照點的數(shù)字的連續(xù)體就是量表。

（1）命名量表

命名變量只說明某一事物與其他事物在名稱、類別或屬性上的不同，并不說明事物與事物之間差異的大小、順序的先后及質(zhì)的優(yōu)劣。應用例子：牌照號碼，人名，地名，足球運動員的號碼。局限性：不能說明類別的數(shù)量差別

（2）順序量表順序量表是指可以就事物的某一屬性的多少或大小按次序將各事物加以排列的變量，具有等級性和次序性的特點。應用例子：軍銜、比賽中的名次排列局限性：不考慮差異的絕對量，只考慮相對差別。（3）等距量表等距量表除能表明量的相對大小外，還具有相等的單位。應用例子：溫度局限性：比率是無意義的，零點是任意規(guī)定的。（4）比率量表比率量表除了具有量的大小、相等單位外，還有絕對零點。應用例子：距離，重量

種類

基本特征

功能

運算

舉例命名屬性、類別分類或描述性別、民族職業(yè)、?順序無相等單位無絕對零點1+等級不能＋－×÷品德、能力、愛好?等距有相等單位無絕對零點2+差異決策和比較可＋－溫度?比率有相等單位有絕對零點3+比值決策和比較可＋－×÷身高、體重、投資?不同水平的量表0攝氏度-273.151020厘米090180考試成績心理量表屬于什么水平？第二節(jié)心理與教育測量的性質(zhì)一、心理與教育測量的定義依據(jù)一定的心理學和教育學理論，使用測驗對人的心理特質(zhì)和教育成就進行定量描述的過程。

心理與教育測量的特點：

1。所依據(jù)的很大程度上只是一種理論典型例子——智力理論：（1）抽象的思維能力。斯皮爾曼認為，所謂智力是認識事物關系的能力。（2）學習能力。如蓋茨認為，所謂智力，是關于學習能力的合成力。（3）對環(huán)境的適應能力。如斯滕認為，智力是對生活的新課題和條件的一般性心理適應力。（4）作為媒介變量。如弗里曼認為，智力是智力測驗所測定的東西。智力結構的構成成分：（1）斯皮爾曼強調(diào)智力二因素論，一般因素和特殊因素比內(nèi)量表和韋氏量表都是按照二因素論編制，主要用來測G因素。（2）桑代克強調(diào)多因素論，社會智力、具體智力、抽象智力（3）瑟斯頓強調(diào)群因素理論（4）卡特爾又強調(diào)流體智力和晶體智力（5）加德納則強調(diào)多元智力理論

2。對象是人的心理特質(zhì)和教育成就——間接測量

3。量具是由有關領域的專家編制的標準化測驗——客觀性

4。精確度遠不及物理測量的高二、心理與教育測量的理論基礎凡客觀存在的事物都有其數(shù)量——桑代克凡有其數(shù)量的事物都可以測量——麥柯爾三、心理與教育測量的量表

1。從所使用的參照點來看，教育與心理測量領域的參照點均為相對參照點。智力測驗成就為零，智商一定為零嗎？

2。從所使用的單位來看，教育與心理測量的單位遠沒有其他單位成熟和完善?！胺帧?/p>

從本質(zhì)上講，心理與教育測量的量表屬于順序量表通過標準分數(shù)的轉換，把次序量表轉換成以標準差為單位的等距量表。四、心理與教育測量中的測驗

測驗是一個或一群標準的刺激，用以引起人們的行為，根據(jù)此行為以估計其智力、品格、興趣、學業(yè)等。

——陳選善所謂測驗，是對一個行為樣組進行測量的系統(tǒng)程序。

——Brown

心理測驗實質(zhì)上是對行為樣本的客觀的和標準化的測量

——阿娜斯塔西

1。行為樣本從人的大量行為中抽取與欲測量的心理特質(zhì)直接相關的一組行為進行測量，并依據(jù)對這一組行為的測量結果推斷其心理特質(zhì)和教育成就。這一組被抽取出來的、作為直接的測量對象的行為就是行為樣本。

2。標準化測驗的標準化就是指測驗的編制、實施、記分以及測量分數(shù)解釋的程序的一致性。

3。難度或應答率

4。信度和效度標準化測驗內(nèi)容施測條件評分規(guī)則測驗常模信度：一個測驗的可靠性，即用同一測驗多次測量同一團體所得結果之間的一致性程度。效度：一個測驗的有效性，即一個測驗在多大程度上能夠測到它所要測量的心理特質(zhì)。心理測驗和心理測量區(qū)別心理測驗：工具心理測量：活動第三節(jié)心理與教育測量的種類及其功能一、心理與教育測驗的種類1。以測驗的對象來分2。以測驗的方式來分3。以測驗的內(nèi)容來分4。以測驗的功能來分5。按評價參照的標準分類1。按測驗對象所作的分類智力測驗：一般能力水平能力傾向測驗：潛能或發(fā)展傾向成就測驗：學業(yè)成就人格測驗：非認知性的特征2、按測量方式所作的分類

個體測驗團體測驗

3。按測驗內(nèi)容的形式所作的分類

文字測驗非文字測驗(圖形,儀器,工具,實物)4。按測驗內(nèi)容所作的分類（1）成就測驗與預測測驗（2）難度測驗與速度測驗（3）描述測驗與診斷測驗5。按評價所參照的標準分類（1）常模參照測驗（2）目標參照測驗（3）潛力參照測驗二、心理與教育測驗的功能1。理論研究功能（1）收集研究資料（2）建立和檢驗理論假設（3）實驗分組2。實際應用功能（1）選拔人才美國二戰(zhàn)飛行員選拔（2）人員安置沒有無用的人，只有放錯地方的人。（3）心理診斷（4）描述評價（5）心理診斷心理測驗在心理診斷中的應用

智力測驗吳天敏：中國比內(nèi)智力量表龔耀先韋氏成人智力量表（WAIS-RC）韋氏兒童智力量表（C-WISC）韋氏幼兒智力量表（C-WYCSI）林傳鼎：韋氏兒童量表（WISC-CR）張厚粲：瑞文標準型測驗（SPM）李丹：聯(lián)合型瑞文測驗（CRT）

人格測驗艾森克人格問卷（EPQ）卡特爾16項人格因素問卷（16PF）明尼蘇達多項人格調(diào)查表（MMPI）

心理評定量表精神病評定量表躁狂狀態(tài)評定量表抑郁量表，焦慮量表，恐怖量表

案例明尼蘇達多相人格問卷（MMPI）

背景：1942年首發(fā)。新版MMPI-2，1989年發(fā)行。新版

MMPI-A用于青少年。設計：標準記分鍵，個人回答模式與已被診斷歸入某一臨床人群者比較。出自８個臨床量表分數(shù)加男子氣—

女子氣和社交內(nèi)向性及三個效度量表。題目：原版550題，“是”，“否”或“不肯定”回答。新版替換了約100題。計分：分數(shù)剖析圖?，F(xiàn)測驗解釋按高分模式，產(chǎn)生編碼描述不同的剖析圖。有電腦測驗解釋。應用：臨床評估，為臨床篩選設計。子版本：加州心理問卷從中抽取一半題目，用于正常人；

5000多已發(fā)表研究用了MMPI。第四節(jié)心理與教育測量工作者的素質(zhì)要求及道德準則

案例：

1959年6月，休斯敦（得克薩斯州）獨立學區(qū)投票表決燒毀了5000份問卷，原因是家長們認為在一個對9年級學生進行的全國大調(diào)查中包含有所謂的個人隱私問題（Netter,1959）。這份問卷問學生是否同意下列表述：一個在約會中遇到麻煩的女孩只能責備她自己有時我會講低級的笑話，但事實上我并不愿意說。我喜歡在浴缸中浸泡如果你不和一群人飲酒，他們的反應會使你覺得自己是一個膽小鬼爸爸總是看起來很忙，不能與我結為好友

6年后，美國心理學會（APA）被很多市民包圍，他們拿著傳單和旗幟，上面寫著“別讓博士強行灌輸思想，去見你們的牧師或醫(yī)生”、“給你們的議員或代表寫信，讓他們立法，要求在學校、公共機構和私人公司里停止使用性虐待的心理測驗”（APA，1965）一、心理與教育測量工作者的素質(zhì)要求

1。心理與教育測量工作的知識結構（基礎知識、專業(yè)知識）

2。對心理與教育測驗的科學態(tài)度錯誤觀測驗萬能論——20世紀20年代測驗無用論：測驗遭到的最強烈的批評是：測驗為宿命論和種族歧視提供心理學依據(jù)。

“美國黑人和其他美國人的平均智商之間的差異，幾乎完全可以用從胎兒起直至整個一生的處境不利來說明?！?/p>

——歐文·戈茨曼正確觀（1）重要的研究方法之一——輔助工具（2）尚不完善二、心理與教育測量工作者的道德準則

1。測驗的保密和控制原則

2。測驗中個人隱私的保護“我可以要一份斯坦?！燃{測驗空白卷嗎？我的侄子想進某學校，下個星期參加斯坦?！燃{測驗，我很想讓他練習一下，他就能通過了?！盀榱烁倪M學校的閱讀課程，我們需要一個排除文化影響的智力測驗來測量每個兒童的潛力?！薄白蛲砦一卮鹨槐倦s志上所發(fā)表的智力測驗問題，IQ得了80分，我認為心理測驗是無聊的?！薄拔业氖矣颜趯W習心理學。她讓我做了一個人格測驗，結果是我有神經(jīng)癥。自此，我心煩意亂，不能上學?！薄叭ツ昴闾幱谘芯磕康淖屛覀儐T工做了一個新編人格測驗，我們想把分數(shù)歸入他們的個人檔案?！睂π睦頊y量的評價第二章心理與教育測量的產(chǎn)生與發(fā)展

現(xiàn)代心理測量和測驗作為心理科學的一個重要分支，是在19世紀的歐洲才發(fā)展成熟起來的，其直接動因乃是源于人們對心理特征的個別差異進行評定的需要。心理特征的個別差異是客觀存在的，人們在日常生活中創(chuàng)造了豐富的語匯來描述這種差異。但是，對科學的心理研究來說，定性的描述是遠遠不夠的，必須尋找到有效的方法對之加以定量的刻畫，于是心理測驗這一工具性的實用技術在各種關于心理實質(zhì)的理論的指導下應運而生了。它與對變量加以嚴格控制的實驗方法構成心理學實證研究的兩大范式，并且近來有相互融合的趨勢。

心理測驗的發(fā)展史歷史時期先驗期時間：20世紀以前特點：重實用，缺理論，主觀性強科學期時間：20世紀初～至今階段經(jīng)典測驗理論：50′前現(xiàn)代測驗理論：50′后特點測驗理論形成測驗工作系統(tǒng)化

孔子

孟子中人、中人以上、中人以下“中人以上可以語上也、中人以下不可語上也”權，然后知輕重；度，然后知長短。物皆然，心為甚，王者度之。第一節(jié)中國古代的心理與教育測量中國是心理與教育測量技術的最早故鄉(xiāng)。一、能力測量

劉劭“觀其感變，以審常度”?！皯潯?/p>

劉勰思《人物志》J.K.Shryock《人類能力的研究》使左物畫方，右的畫圓，無一時俱成《新論·專學篇》由心不兩用則物不并運也。

民間七巧板九連環(huán)等顏氏家訓《風操篇》周歲試兒第一節(jié)中國古代的心理與教育測量一、能力測量

1?？鬃釉诮逃龑嵺`中將人的智力分成三個等級，即中上之人、中人和中下之人?！爸腥艘陨?，可以語上也；中人以下，不可以語上也。”

2。董仲舒一手畫方，一手畫圓，莫能成。這無疑是世界上最早的注意測驗。

3。劉劭《人物志》，“觀其感變，以審常度?！笨梢哉f是一本研究力的專門著作。他把人的才能劃分為12種類型，即清節(jié)、法家、術家、國體、器能等。1937年，美國學者瑞奧克將本書翻譯后,名為《人類能力之研究》

4。民間，周歲試兒在現(xiàn)在看來，即嬰幼兒的動作測量

5。出現(xiàn)于清代的九連環(huán)、七巧板可以被認為最早的創(chuàng)造力測驗。美國心理學家伍德沃斯對九連環(huán)及其贊賞，把它視為“中國式的迷津”。二、人格測量

1?？鬃硬粌H論及學生智力水平的評定，同時也提出了性格類型的觀點?？鬃影讶朔殖扇N類型：狂者、狷者、中行

2。劉劭根據(jù)陰陽、五行和形體的關系及其人的行為表現(xiàn)，把人的性格劃分成12種類型。三、教育測量最早的教育測量出現(xiàn)于中國西周奴隸制時期——國學漢武帝初年制定歲考制，并首開筆試先河。

描述性，不定量，分類的；心理特點與道德觀念相結合；

科舉考試3千年前六藝取士及隋唐科舉制起源特點四、對測驗理論的最初探索

孟子提出了測量人類心理的必要性和可能性?！皺?，然后知輕重；度，然后知長短；物皆然，心為甚?！?/p>

劉劭八觀，五視八觀是：觀其奪救，以明間雜；觀其感變，以審常度；觀其志質(zhì)，以知其名；觀其所由，以辯依似；觀其愛敬，以知通塞；觀其情機，以辨恕惑；觀其所短，以知所長；觀其聰明，以知所達”。五視是：居，視其所安；達，視其所舉；富，視其所由；窮，視其所為；貧，視其所取。

中國古代心理與教育測量的特點：

1。描述性，非定量的；

2。分類式的；

3。注重對人做整體的評價，并傾向于何人的道德品質(zhì)聯(lián)系起來；

4。與教育中的因材施教和人才使用有著密切聯(lián)系，具有強烈應用性質(zhì)。三國時期的諸葛亮在其《心書》一文中講到如何知人時，提出了七條途徑：其一，“問之以是非而觀其志”，即從其對是非的判斷來考察其將來的志向，看看是否胸有大志；

其二，“窮之以辭辯而觀其變”，即提出尖銳的問題對其詰難，看其觀點有什么變化，能否隨機應變；

其三，“咨之以計謀而觀其識”，即就某方面的問題咨詢其看法和對策，看其知識經(jīng)驗如何，具不具備分析問題和解決問題的能力

其四，“告之以禍難而觀其勇”，即觀察其在困難面前的表現(xiàn)，看其有沒有知難而進的勇氣和處世不驚的良好心理素質(zhì)；

其五，“醉之以酒而觀其性”，即以美酒款待，看其個人品德如何，是否兩面三刀，陽奉陰違；

其六，“臨之以利而觀其廉”，即觀察其在金錢財富面前的表現(xiàn)，看其是否能經(jīng)得住物質(zhì)利益的誘惑，是否能保持良好的心態(tài)；

其七，“期之以事而觀其信”，即托付其辦事以視其信用如何，是一諾千金，還是信口開河。第二節(jié)現(xiàn)代心理與教育測量在西方國家的產(chǎn)生和發(fā)展

《舊約全書》中，基列山人用于偵察逃亡的以色列人的測驗產(chǎn)生了相當驚人的結果：基列山人利用約旦河的淺灘來對付以色列人。當以色列的逃亡者中有人說：“讓我過去！”基列山人就對他說：“那么請說Shibboleth。”（譯者注：《圣經(jīng)》中考驗的詞，看某人能否正確地發(fā)此詞的音，以判斷他是否是逃亡者）如果逃亡者不能正確發(fā)出“Shibboleth”的音，他們就會把他抓住并殺死在約旦河的淺灘里。在那里他們殺死了42000個以色列人。[譯者注：士師記《舊約全書》第一卷]

這是個帶有報復性的測試，幸好并非所有的教育或心理測驗都會有如此極端的影響。

現(xiàn)代心理與教育測量的理論和技術是產(chǎn)生于工業(yè)革命后的西方國家。一、現(xiàn)代心理與教育測量的起源（1）西方科學家最初發(fā)現(xiàn)人的心理的個別差異的重要性——天文學上的一個事件（馬斯林基、金內(nèi)布魯克、貝塞爾）（2）實驗心理學的誕生是心理測驗產(chǎn)生的另一個重要原因。實驗心理學的誕生和發(fā)展，還給心理測量帶來了另一個副產(chǎn)品：嚴格的標準化程序。標準化是現(xiàn)代心理測驗的重要評價指標。（3）社會發(fā)展的需要原因社會需要個別差異研究實驗心理學鑒別智殘和精神障礙專才訓練和職業(yè)指導早期嘗試E.G.Boring（美）19世紀80年代是高爾頓的十年，90年代是卡特爾的十年，20世紀頭十年是比奈的十年二、心理與教育測量的早期探索者1、高爾頓

堪稱直接推動測驗運動發(fā)展的第一人，也是最早實際從事測驗活動的學者。

第一個研究智力測驗的人研究個體之間心理活動的差異

1884，倫敦國際健康展覽會，“人體測量實驗室”；13項心理生理特征：反應時間，視聽靈敏度，色彩分辨能力，長度判斷能力，拉力，呼吸力量等等。他的這一舉動是心理測驗史上第一個大規(guī)模系統(tǒng)地測量個體差異的嘗試。發(fā)明了大量心理測驗儀器：高爾頓棒，高爾頓笛創(chuàng)始：評定量表，自由聯(lián)想法、問卷法統(tǒng)計學研究方面的貢獻:學生Pearson完善了相關概念的計算方法

“（優(yōu)生學是）改善血統(tǒng)的科學，它……認識到各種影響力的作用，而這些影響力傾向于以無論多么渺小的程度給予更合適的種族或者血統(tǒng)以更好的快速發(fā)展的機會，而不是給予那些不那么合適的種族以否則也會很快的速度發(fā)展的機會?！薄拔铱床怀觯燃壷贫鹊男U橫之處，怎么可能會妨礙有天賦的社會階層，因為他們有能力用慈愛對待同胞，只要他們保持住自己的獨身生活?？墒?，如果這些人還接二連三地生出一些道德感、智力和生理素質(zhì)都很差的孩子，很容易相信，這些人被視為國家的敵人，并且使許多仁慈之舉前功盡棄的一天也許就會到來?！?/p>

——高爾頓高爾頓的10年

F.Galton,英，1822測驗運動首倡者第1個研究智力測驗者；第1個大量系統(tǒng)測量個別差異者；1884-1890，“人類測量實驗室”，測9337人。應用評定量表和問卷法的先驅；統(tǒng)計學家、生物學家、業(yè)余心理學家；優(yōu)生學的創(chuàng)始人；反應時間，拉力和擰力，吹氣的力量，身高，體重，臂長，呼吸力量，肺活量，視力和聽力的靈敏度，色彩分辨能力，判斷長度的能力“人體測量研究室”測量內(nèi)容2?？ㄌ貭?890年發(fā)表《心理測驗與測量》一文于《心理》雜志上，這是在心理學文獻中首次出現(xiàn)“心理測驗”一詞。心理學只有立足于實驗與測量，才能達到如同自然科學的準確性；心理測量只有建立普遍的統(tǒng)一標準，并要與常模相比較，才能充分地實現(xiàn)其科學價值和實用價值?？ㄌ貭柕?0年CattellJ.M.,美，1861實驗心理與測驗運動結合；“心理測驗”首次在心理學文獻出現(xiàn)（《心理測驗與測量》）；創(chuàng)立心理測驗公司；培養(yǎng)優(yōu)秀學生：桑代克，佛朗茲等；握力，動作速度，觸覺兩點閾，重量辨別，聲音反應時，痛感受性說出四種混雜顏色名稱的速度，時間判斷力，平分線段的精確性復述聽過一次字母數(shù)目的能力卡特爾智力測驗內(nèi)容1891-1901：學生成績與人體測驗無明顯相關，各測驗間相關性也極差。

馮特的學生，德國萊比錫大學博士畢業(yè)英國劍橋受到高爾頓的影響，對個體差異研究感興趣

19世紀末返回美國，賓夕法尼亞大學，建立實驗室，傳播心理測驗

1890年在《心理》上第一次提出“心理測驗”的概念測驗內(nèi)容：運動速度，痛感，視聽，反應時，記憶力，重量辨別，肌力（但它們與學習能力無關）科學期3。比內(nèi)的10年A.Binet，法，1857-19111898年，《人格心理學中的測量》，近代思想1903年，《智力的實驗研究》，廣義智力概念；1905年，B-S量表；第一個正式智力量表。經(jīng)典測驗理論階段三、心理與教育測量運動的發(fā)展（20世紀20年代——至今）特點20’—狂熱，40’—頂峰，50’—CCT趨于成熟、平穩(wěn)，60年代以后測量理論出現(xiàn)新的動向。1、智力測驗的發(fā)展（1）1916推孟修訂斯坦福-比內(nèi)量表首次使用了比率智商，簡稱為IQ，是心理年齡和實際年齡的比值。（2）團體智力測驗的發(fā)展

Otis陸軍甲種測驗(1917)Otis陸軍乙種測驗(1927)

（3）對智力本質(zhì)及其結構的統(tǒng)計學研究應運而生。斯皮爾曼首次運用因素分析研究智力結構，提出智力結構的二因素論，為編制新的智力測驗奠定了理論基礎。（4）瑞文推理測驗和韋克斯勒智力測驗2。能力傾向測驗的發(fā)展3。成就測驗的發(fā)展

桑代克編制第一個標準化的教育成就測驗，被公推為教育測量的鼻祖。1923年，凱利、魯奇、推孟合作編制了第一個成套成就測驗——斯坦福成就測驗斯坦福成就測驗（1923）美國教育測驗中心（ETS，1947）成立；（可以參考百度）4。人格測驗的發(fā)展

最早進行人格測量的是克雷培林，最早采用自由聯(lián)想法診斷病人自陳人格問卷：1917年武德沃斯設計的“個人資料調(diào)查表”。由哈撒韋和麥金利編制的目前影響最大的MMPI-明尼蘇達多相人格調(diào)查表。16PF，EPQ

投射測驗：1921年問世的羅夏克墨跡圖測驗（RIT），TAT四、心理與教育測量的當代趨勢

1、信息加工測驗

2、紙筆測驗逐漸被電腦程序測驗所取代

3、項目反應理論和概化理論心理測量發(fā)展近代歷史簡表1905，比奈-西蒙發(fā)表第一個智力測驗量表（中國廢止科舉）1908，比奈修訂比奈-西蒙智力測驗量表，提出“智力年齡”概念1916，推孟發(fā)表斯坦福-比奈量表1917，陸軍甲、乙種測驗應用（最早的能力傾向測驗）武德沃斯發(fā)表第一個標準化人格測驗1920，羅夏發(fā)表墨跡測驗1923，斯坦福成就測驗1927，斯特朗男性職業(yè)興趣量表1937，斯坦福-比奈量表年在首次引入“比率智商”概念（德國漢堡大學LWStern教授最先提出“智商”概念）1939，韋氏智力測驗研制和試用1942，明尼蘇達多項人格測驗1949，韋氏兒童智力測驗，提出“離差智商”概念1955，韋氏成人智力測驗1967，韋氏幼兒智力測驗1980，考夫曼兒童成套評估量表第三節(jié)現(xiàn)代心理與教育測量在中國的發(fā)展一、現(xiàn)代心理與教育測量建國前的發(fā)展（1）1916年，樊炳清先生首先介紹了比內(nèi)-西蒙智力量表。

（2）1920年，北京高等師范學校和南京師范學校建立了我國最早的兩個心理學實驗室，廖世承和陳鶴琴先生在南京高等師范學校開設心理測驗課。1921年，他倆正式出版《心理測驗法》一書。

（3）1922年夏天，中華教育改進社聘請美國教育心理測驗專家麥考爾來華講學。

（4）1924年，陸志韋先生發(fā)表了《訂正比內(nèi)西蒙智力測驗說明書》，30年代又與吳天敏再次做了修訂。

（5）1931年由艾偉、陸志韋、陳鶴琴、蕭孝嶸等倡議，組織并成立了中國測驗學會。

（6）1932年《測驗》雜志創(chuàng)刊。

（7）至抗戰(zhàn)前夕，由我國心理學工作者制定或編制出的合乎標準的智力測驗和人格測驗約20種，教育測驗50多種。二、現(xiàn)代心理與教育測量建國后的發(fā)展（1）1936年，蘇聯(lián)在批判“兒童學”時擴大化，心理測驗也被一概禁止。

（2）從1978年北京大學首建心理系開始，心理測驗才重新得到恢復。

（3）1979年，林傳鼎、張厚粲等以國外資料為參考，編制了少年兒童學習能力測驗。

（4）1980年初，北師大心理系開設了心理測量課。1984年，在北京召開的第五屆全國心理學年會上，成立了心理測驗工作委員會，加強了測驗工作的指導和監(jiān)督。1、智力測驗龔耀先修訂“韋克斯勒成人智力量表”林傳鼎、張厚粲修訂韋克斯勒兒童智力量表吳天敏出版“第三次修訂中國比內(nèi)測驗”龔耀先修訂韋克斯勒幼兒智力量表張厚粲修訂瑞文標準推理測驗李丹修訂瑞文測驗（聯(lián)合型）戴忠恒修訂了“一般能力傾向測驗”。2、人格測驗宋維真修訂MMPI劉紹衣修訂16PF，遼寧常模戴忠恒、祝蓓里制定了16PF全國常模。龔耀先、陳仲庚分別修訂EPQ張明園修訂生活事件量表吳文源修訂SCL-901979年來國內(nèi)現(xiàn)有主要智力測驗1978丹佛發(fā)展篩選測驗宋杰，朱月妹1980比內(nèi)-西蒙量表Ⅲ修訂吳天敏1981韋氏兒童智力量表林傳鼎，張厚粲1981韋氏記憶量表龔耀先1982韋氏成人智力量表龔耀先1983韋氏幼兒智力量表郭迪，汪梅先1984韋氏幼兒智力量表龔耀先1984臨床記憶量表許淑蓮1987標準型瑞文測驗張厚粲國內(nèi)參考書目戴忠恒《心理與教育測量》江蘇，87《教育測量》余嘉元《教育測量》王孝玲華東師大，88）《心理測量》鄭日昌湖南，88凌文輇，濱治世《心理測驗法》科學，88凌文輇，方俐洛.心理與行為的測量.02心理測驗彭凱平華夏，90心理與教育測量張厚粲浙江教育，97教育測量學張敏強人教，98心理與教育測量戴海崎暨大，99心理測量車宏生北師大，00教育測量與評價黃光揚華東師大，02心理測驗的原理與應用郭慶科人民軍醫(yī)，02項目反應理論及其應用研究漆書青戴海崎著（江西高校，92）國外參考書心理測驗分數(shù)的統(tǒng)計理論（美）M.羅德葉佩華譯人教，85心理與教育測量和評價（美）R.L.桑代克葉佩華譯福建教育，92）心理測驗安娜期塔西，厄比納著（97）繆小春等譯（浙江教育，01）PsychologicalTestingA.Anastasi（A，88-6）Criterion-ReferencedMeasurement》W.J.Popham（A，78）UsingPsychometricsR.Edenborough（B，99）

EssentialsofPsychologicalTeatingLee，J.Cronbach（A，90）教育測量綱要羅伯特·L·艾伯爾著漆書青等譯（江西師大高教室，84）項目反應理論——在心理測量中的應用（美）查爾斯·L·赫林，弗里茨·德雷斯哥，查爾斯·K·帕森斯華東師大教育咨詢中心譯（湖北教育，90）第三章經(jīng)典測驗理論的基本假設第一節(jié)心理特質(zhì)及其可測性假設一、心理特質(zhì)（Trait）的含義

定義：表現(xiàn)在一個人身上所特有的相對穩(wěn)定的行為方式如何理解：（1）一組內(nèi)部相關的行為概括，具有一定的抽象性；（2）一種一般的神經(jīng)心理系統(tǒng)，可以綜合不同的刺激，使人對這些刺激做出相同的反應；（3）一個人身上比較穩(wěn)定的特點；（4）一個人的精神面貌是由多種特質(zhì)多層次有機結合而成的；（5）特質(zhì)決定一個人對特定刺激的反應傾向。第三章經(jīng)典測驗理論的基本假設第一節(jié)心理特質(zhì)及其可測性假設二、心理特質(zhì)的可測性凡客觀存在的事物都有其數(shù)量——桑代克凡有數(shù)量的東西都可以測量——麥柯爾請列舉一些你所使用過或接觸過的量表思考:量表的作用是什么？你如何解釋下述現(xiàn)象？

一個很聰明的孩子，測得智商是80分一個學習很好的學生，考試成績?yōu)?0分一個人緣很好的人，人際關系測量低于常模值量表幫助我們了解心理現(xiàn)象（心理特質(zhì)），就像尺子幫助我們測量身高。

思考:我們?nèi)绾沃牢覀冇卸喔?？有兩個工具：尺子/秤

尺子的數(shù)據(jù)與我們的目測更一致，而秤盤的數(shù)據(jù)則與我們的目測不一致。因此，尺子是測量身高的有效工具——效度。什么材料的尺子？——鋼鐵（熱脹冷縮）涉及到一致性的問題?！哦任锢聿坏扔跀?shù)學1.70與1.7的關系總結：量表是我們用來了解心理特質(zhì)的工具，但這個工具是有誤差的。誤差要控制在一個許可的范圍內(nèi)?；仡櫴裁词钦`差?誤差的種類?誤差是在測量中與目的無關的變因所產(chǎn)生的不準確或不一致的效應。誤差分為隨機誤差和系統(tǒng)誤差。第二節(jié)測量誤差及其來源一、測量誤差的含義在測量過程中由那些與測量目的無關的變化因素所產(chǎn)生的一種不準確或不一致的測量效應。二、測量誤差的種類隨機誤差：那種與測量目的無關的、偶然因素所引起的一種恒定而有規(guī)律的效應。

系統(tǒng)誤差：那種與測量目的無關的變因所引起的一種恒定而有規(guī)律的效應。

系統(tǒng)誤差只影響測量的準確性，不影響穩(wěn)定性。而隨機誤差既影響穩(wěn)定性又影響準確性。第二節(jié)測量誤差來源及其控制一、測量誤差的來源（1）來自測量工具。心理測量量表是否穩(wěn)定，是否測到了我們所要測得東西是測量工具造成誤差的主要原因1、測驗的項目過少或缺乏代表性2、復本不同，測驗結果不同第二節(jié)測量誤差來源及其控制一、測量誤差的來源（2）來自測量對象。受測者真正水平是否得到真正發(fā)揮1、應試焦慮2、應試經(jīng)驗3、應試動機4、學習、發(fā)展和訓練5、練習效應6、反應傾向7、生理因素（3）來自施測過程。物理環(huán)境，主試者方面，評分計分環(huán)節(jié)。第二節(jié)測量誤差來源及其控制一、測量誤差的來源（3）來自施測過程。最易控制和檢驗1、測試環(huán)境2、測試時間3、主試因素4、意外干擾5、評分計分

第二節(jié)測量誤差來源及其控制二、測量誤差的控制（1）題目等值（2）題目編制（3）相同施測條件（4）評分客觀--相同評分標準（5）結果解釋標準化—建立參照標準測量誤差的估計：SX2=ST2+SE2

ST2=SV2+SI2

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

第二節(jié)真分數(shù)及其有關的假設一、真分數(shù)的含義反映被試某種心理特質(zhì)真正水平的那個數(shù)值一個理論構想出來的抽象概念，在實際測量中是很難得到的。第三節(jié)真分數(shù)及其有關的假設二、數(shù)學模型及其假設

經(jīng)典測驗理論假定，觀察分數(shù)X與真分數(shù)T之間是一種線形關系，并只相差一個隨機誤差E，即

X=T+E

根據(jù)這一模型，我們可以引申出3個相關聯(lián)的假設公理：（1）若一個人的某種心理特質(zhì)可以用平行測驗反復測量足夠多次，則其觀察分數(shù)的平均值會接近于真分數(shù)。即

ε（X）=T或ε（E）=0

（2）真分數(shù)和誤差分數(shù)之間的相關為零。即

ρ（T，E）=0

（3）各平行測驗上的誤差分數(shù)之間相關為零。即

ρ（E1，E2）=0如何理解CTT數(shù)學模型及其假設：首先，在問題研究范圍之內(nèi)，反映個體某種心理特質(zhì)水平的真分數(shù)是假定不會變的，測量的任務就是估計這一真分數(shù)的大小其次，觀察分數(shù)與真分數(shù)之間是線性關系。再次，測量誤差是完全隨機的，并服從均值為零的正態(tài)分布。思考：如何應用CTT模型？平行測驗兩個題目不同的測驗測得是同一特質(zhì)，并且題目形式、數(shù)量、難度、區(qū)分度以及測查等值團體后所得分數(shù)的分布都是一致的用多個平行測驗反復測量同一個人的同一種心理特質(zhì)的做法往往難以實現(xiàn)，所以CTT模型假設僅僅是理論上的描述。為什么CTT模型能用？

如果按照CTT模型的描述，要用多個彼此平行的測驗反復測量同一個人的同一種心理特質(zhì)是很難實現(xiàn)的。但是事實上，我們在實施一個標準化測驗時，并不是用許多平行測驗來反復測查同一批被試，而是用一個測驗來同時測查許多被試。由于每個人的誤差都是隨機的，且服從均值為零的正態(tài)分布，所以，當被試團體足夠大時，團體內(nèi)的各種隨機誤差會相互抵消，整個團體的觀察分數(shù)的均值會趨近于該團體真分數(shù)的均值。這里，多個被試接受同一個測驗相當于多個平行測驗反復測查一個具有團體真分數(shù)均值水平的一個個體。因此，CTT的理論模型和假設便派上了用場。

根據(jù)CTT模型和假設推導出：根據(jù)CTT模型和假設，我們很容易推導出如下關系：S2X=S2T+S2E

即：在一次測量中，被試觀察分數(shù)的方差等于其真分數(shù)方差與誤差分數(shù)方差之和。

上面公式中只涉及到了隨機誤差的變異，系統(tǒng)誤差的變異包含在真分數(shù)的變異之中。即：真分數(shù)還可以分為兩部分：與測量目的有關的變異和與測量目的無關的變異

S2T=S2V+S2I（系統(tǒng)誤差）

S2X=S2V+S2I+S2E經(jīng)典測量理論的局限：信度估計精度不高，平行測驗難以實現(xiàn)；誤差指標籠統(tǒng)單一、不精細；各種參數(shù)估計對樣本的依賴性太大，參數(shù)指標之間的匹配性較差；真分數(shù)與觀測分數(shù)間存在線性關系的假定不合理。經(jīng)典測量理論的優(yōu)點：直觀易懂適用性廣測驗結果可信經(jīng)典測試理論&項目反應理論經(jīng)典測試理論形成：出現(xiàn)于20世紀初，到了50年代形成了完整的體系?；舅枷耄喊褱y試的得分（observedscore）看作是真分數(shù)和誤差分數(shù)的線性組合。數(shù)學模型：X=T+E（X為觀測分數(shù)，T為真分數(shù)，E為誤差分數(shù)）經(jīng)典測試理論_項目分析指標1.平均分（meanscore）_最常用的一種集中量數(shù)（反映分數(shù)集中位置，代表一批分數(shù)，反應一批分數(shù)的典型情況）2.標準差_差異量數(shù)，即分數(shù)的離散程度。標準差是最重要的差異量數(shù)。經(jīng)典測試理論_項目分析指標3.難度_試題的難易程度4.區(qū)分度_測試項目對考生的區(qū)分程度經(jīng)典測試理論_項目分析指標5.信度_測試結果的一致或者穩(wěn)定程度。換句話說，有信度的試題在任何時間、地點下通過測試都能得到一致的結果。測試方法：再測法_同一份試卷，在不同的時間內(nèi)對同一組受測者實測兩次，根據(jù)兩次測試分數(shù)計算得到的相關系數(shù)成為再測信度。（受間隔時間影響）經(jīng)典測試理論_項目分析指標復本法_編制兩套題目不同，形式相同的試卷，在最短時間內(nèi)用兩套試卷測試同一個群體，所得結果的相關系數(shù)成為復本信度。分半法（奇偶分半）經(jīng)典測試理論_項目分析指標庫理法（只適用于客觀性測試）經(jīng)典測試理論_項目分析指標用克倫巴赫系數(shù)公式估測主觀性測試信度：經(jīng)典測試理論_項目分析指標6.效度_測試的有效性或測試結果的正確程度，是指測試在多大程度上測量到了所要測的東西。內(nèi)容效度_測試內(nèi)容與所要測量的內(nèi)容之間的一致性程度。經(jīng)典測試理論_項目分析指標效標關聯(lián)效度：效標：衡量測試有效性的參照標準，效標關聯(lián)效度也就是該參照標準有關的效度。結構效度：測試能測量理論上的結構或心理特性的程度。經(jīng)典測試理論_優(yōu)缺點優(yōu)點：直觀形象；數(shù)學模型簡單；對數(shù)據(jù)的假設比較弱。缺點：1、試卷的特征指標樣本相關。（能力高低，所測難度系數(shù)不同；能力相似程度不同，區(qū)分度不同）

2、被測試者的能力水平“測試相關”。（測試難易不同，所反映出相同被試者能力不同）

項目反應理論形成：1.雛形在本世紀四十年代中期出現(xiàn)，由丹麥學者拉什（GeogeRasch）提出。2.但直到60-70年代，由于計算機的廣泛應用和普及，計算機程序BICAL的出現(xiàn)，才使得項目反應理論的應用成為現(xiàn)實。

項目反應理論基本思想：在心理測驗中尋找一個相對“恒定”的度量標準，從而更加客觀的描述和評價測試手段中被測試對象的特征。特質(zhì)：被測驗者的某種相對穩(wěn)定的支配其對相應的測驗做出反應，并造成這種反應的一致性的內(nèi)在特征，用希臘字母表示。（通常在-3到+3之間討論）項目反應理論基本原理：通過一定的數(shù)學模型，在測得的原始數(shù)據(jù)或其等價形式和被測試者的“特質(zhì)”之間建立某種函數(shù)關系，利用測得的原始數(shù)據(jù)確定被測試者的值以及用相同的R度得出試卷或實體的各種特征值。IRT是對被試能力的一種估計，并將被試對單個測驗項目的某種反應概率與此項目的一定特征聯(lián)系起來。項目反應理論_四條基本假設1.潛在特質(zhì)空間的單維性假設：指測驗只測量考生的某一種能力，而可以忽略其他能力對測量能力的影響。（閱讀）2.局部獨立性假設：考生在測驗中對某題目上的正確反應概率不依賴于他在其他題目上的正確反應概率。項目反應理論_四條基本假設3.項目特征曲線假設：考生對項目所作反應的概率遵循一定的函數(shù)關系，這種函數(shù)關系可以用項目特征曲線形式表示出來。（知道-正確假設，即被試知道某一項目的正確答案，他必然答對。反之，亦然。）4.非速度限制假設測驗的進行是在沒有時間限制的條件下完成的，被試在項目反應上不理想，是能力不足引起的，而不是時間不夠所致。項目反應理論_模型項目反應理論由許多數(shù)學模型組成，每種模式都是建立在一定假設基礎之上的，是反映考生在測試中觀察不到的能力水平和觀察不到的反應之間的數(shù)學函數(shù)關系。構成模式的元素稱為項目參數(shù)（項目難度參數(shù)，項目區(qū)分度參數(shù)，猜測參數(shù)）項目反應理論_模型項目反應理論中模式的共性：1.模式是單維的，函數(shù)反應的可能性僅依賴于個體的能力水平，并隨能力水平的增加而增加；2.項目之間存在有條件的獨立；3.大多數(shù)項目反應理論模式采用二記分法。項目反應理論_模型單參數(shù)模型三參數(shù)邏輯斯蒂模型（threeparameterlogisticmodels）項目反應理論_模型三參數(shù)模式的特征曲線：項目反應理論_模型第三章測驗信度

教學要點：通過本章的學習，掌握信度的意義，信度系數(shù)的計算，了解影響信度的主要因素以及提高信度的常用方法等內(nèi)容。教學內(nèi)容：

一、信度的意義1．信度指實測值和真值相差的程度2．信度指統(tǒng)計量與參數(shù)之間的接近程度3．信度是指一種測驗對相同的應試者再次測驗時引起同樣反應的程度二、信度系數(shù)的計算1．穩(wěn)定性系數(shù)2．等值性系數(shù)3．等值穩(wěn)定性系數(shù)4內(nèi)部一致性系數(shù)5．評分者的信度系數(shù)例題1。在一次測驗中有些學生得80分，這是否反映了他們的真實水平？如果再測一次他們的分數(shù)將改變多少？已知該次測驗的標準差為5，信度系數(shù)為0.84。2。某班期末考試，張生語文、數(shù)學的成績轉換成了T分數(shù)（平均數(shù)為50、標準差為10）分別為65和70，由此我們知道張生的數(shù)學比語文好一些，但二者之間的差異是否有意義（語文考試與數(shù)學考試的信度系數(shù)分別為0.84、0.91）。三、提高測驗信度的方法1．信度系數(shù)以多大為宜2．影響信度的因素3．提高測驗信度的方法考核要求：

1.信度的意義2.信度系數(shù)的計算識記：穩(wěn)定性系數(shù)，等值性系數(shù)，等值穩(wěn)定性系數(shù)，內(nèi)部一致性系數(shù)，評分者的信度系數(shù)3.提高測驗信度的方法請列舉一些你所使用過或接觸過的量表思考:量表的作用是什么？你如何解釋下述現(xiàn)象？

思考:我們?nèi)绾沃牢覀冇卸喔?？有兩個工具：尺子/秤

尺子的數(shù)據(jù)與我們的目測更一致，而秤盤的數(shù)據(jù)則與我們的目測不一致。因此，尺子是測量身高的有效工具——效度。什么材料的尺子？——鋼鐵（熱脹冷縮）涉及到一致性的問題?！哦任锢聿坏扔跀?shù)學1.70與1.7的關系總結：量表是我們用來了解心理特質(zhì)的工具，但這個工具是有誤差的。誤差要控制在一個許可的范圍內(nèi)?；仡櫴裁词钦`差?誤差的種類?誤差是在測量中與目的無關的變因所產(chǎn)生的不準確或不一致的效應。誤差分為隨機誤差和系統(tǒng)誤差。高爾頓的智力觀比奈的智力觀判斷題、選擇題和問答題SX2=ST2+SE2

ST2=SV2+SI2

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

信度信度：測量結果的穩(wěn)定性程度

若能用同一測量工具反復測量某人的同一種心理特質(zhì)，則其多次測量的結果間的一致性程度，或測量的可靠性。定義1信度乃是一個組測驗分數(shù)的真分數(shù)的變異數(shù)與總變異（實得分數(shù)的變異數(shù)）之比。rXX=ST2/SX2信度的定義2定義2信度乃是一個被測團體真分數(shù)與實得分數(shù)的相關系數(shù)的平方。rXX=P2TX思考：相關系數(shù)的平方？信度的定義三定義3信度乃是一個測驗X與它的任意一個平行測驗X＇的相關系數(shù)。rXX=PXX＇

第二節(jié)信度的估計方法一、重測信度二、復本信度三、分半信度四、同質(zhì)性信度五、評分者信度一、重測信度（Test-RetestReliability）定義：同一量表，同一被試群體，在不同時間，兩次施測，求其相關。實質(zhì)：表示測驗結果的穩(wěn)定性。故稱之為穩(wěn)定性系數(shù)（CoefficientofStability）形式：施測—適當時間—再施測時間間隔的把握間隔時間越長，穩(wěn)定性系數(shù)越低。適宜時間間隔依照測驗目的、性質(zhì)及被試特點而定。幾分鐘至幾年。年幼兒童，間隔要??；年長群體，間隔可大。智力測驗的間隔不能太短，成就測驗的間隔不能太長。一般間隔時間不超過六個月。（即不能讓被試記住上一次測驗的內(nèi)容，又不能讓其特質(zhì)發(fā)生變化，或對所學知識產(chǎn)生遺忘）重測信度的優(yōu)缺點優(yōu)點：能夠提供有關測驗結果是否隨時間而變異的資料，可作為預測受測者將來行為表現(xiàn)的依據(jù)。缺點：易受練習和記憶的影響，前后兩次施測間隔的長短務須適度。二、復本信度（Alternate-formraliability）因為任何測驗只是所有可能題目中的一份取樣（行為樣本），所以可編制許多平行的等值測驗，叫做復本。復本等值要符合下列條件：

各份測驗測量的是同一種心理特性。各份測驗具有相同的內(nèi)容和形式。各份測驗的題目不應重復。各份測驗題目數(shù)量相等，難度和區(qū)分度大體相同。各份測驗的分數(shù)分布（平均數(shù)和標準差）大致相等。復本編好后，應再測一次，以確保各份測驗的等值。定義：兩個復本施測同一被試群體，求其相關。1.等值性系數(shù)：同時連續(xù)施測，反映內(nèi)容變異。形式：復本A—同時—復本B2.穩(wěn)定性與等值性系數(shù)：時間間隔施測，內(nèi)容變異＋重測信度誤差形式：復本A—適當時間—復本B復本信度的優(yōu)缺點優(yōu)點：可以在一定程度上避免重測法的缺點缺點：

（1）只能減少而不能排除練習和記憶的影響。（2）第二個測驗只改變了測驗的具體內(nèi)容，已經(jīng)掌握的解題原則，可以很容易地遷移到同類問題。（3）對于許多測驗來說，建立復本十分困難。三、分半信度（Split-HalfReliability）定義：在測驗沒有復本且只能實施一次的情況下，可將測驗項目分成對等的兩半，根據(jù)被試在這兩半測驗中所得的分數(shù)計算相關系數(shù)，即得分半信度。計算分半信度先要對測驗分半。不同的分半法可能會得到不同的信度值。分半信度（Split-HalfReliability）為了使兩半基本等值，可將項目按由易到難的順序排列編號，然后按奇數(shù)和偶數(shù)序號將項目分半。要注意使那些性質(zhì)相同、聯(lián)系緊密的項目分在相同的一半，否則會使信度值偏高。由于分半信度實際上只是半個測驗的信度，測驗越長、項目越多，兩半分數(shù)的相關就越高。計算時注意校正：

兩半方差同質(zhì)：

斯皮爾曼-布朗公式：

r=2rhh/(1+rhh)，

rhh：兩半分數(shù)間的相關系數(shù)

前提條件：一次施測，沒有副本，測驗可分成兩半。

特點：同一測驗可以有多個分半信度值。不適合用于速度測驗。適用于難度測驗。

四、同質(zhì)性信度（HomogeneityReliability）同質(zhì)性指測驗的所有題目測量的是同一種心理特質(zhì)，表現(xiàn)為各個題目得分之間有較高的相關，相關越高則同質(zhì)性越強。同質(zhì)性信度，也叫內(nèi)部一致性系數(shù)，它是指測驗內(nèi)部所有題目間的一致性程度。同質(zhì)性信度就是一個測驗所測內(nèi)容或特質(zhì)的相同程度。存在問題優(yōu)點：測驗只施測一次，可排除記憶和練習的效果缺點：1、只可在單一特質(zhì)的測驗上使用。2、不適用于速度測驗，不能單一使用，需和重測信度、復本信度配合使用。五、評分者信度（ScorerReliability）評分者信度是指不同評分者之間在測驗結果計分上的一致性。在心理測驗中,評分者信度的計算,通常是隨機抽取若干份試卷,由至少兩位受過訓練的評分者按計分規(guī)則分別判分,然后計算它們的相關。幾個評分者的評分越一致,評分者信度越高。

五、評分者信度（ScorerReliability）最簡單的估計方法就是隨機抽取若干份答卷，由兩個獨立的評分者打分，再求每份答卷兩個評判分數(shù)的相關系數(shù)。這種相關系數(shù)的計算可以用積差相關方法，也可以采用斯皮爾曼等級相關方法。如果評分者在三人以上，而且又采用等級記分時，就需要用肯德爾和諧系數(shù)來求評分者信度。估計信度的方法與測驗復本的數(shù)目

以及施測次數(shù)的關系所需要施測的次數(shù)所需要復本的數(shù)目一二一分半信度同質(zhì)性信度評分者信度復本信度（連續(xù)施測）二再測信度復本信度（間隔施測）在一般情況下，間隔施測的復本信度最低，因為很多因素有機會影響到分數(shù)。相反，校正過的分半相關，因為影響的因素少，所得的信度估計為最高。各種信度系數(shù)相應誤差變異的來源信度系數(shù)的類型誤差變異的來源再測信度復本信度（連續(xù)施測）復本信度（間隔施測）分半信度同質(zhì)性信度評分者信度時間取樣內(nèi)容取樣時間與內(nèi)容取樣內(nèi)容取樣內(nèi)容的異質(zhì)性評分者間的差異

估計信度的方法遠不止上面談的幾種.實際上，有多少種誤差來源，便有多少種估計信度的方法。一個測驗哪種誤差大，便應該用哪種誤差估計。有時一個測驗需要有幾種信度系數(shù)，這樣我們就把總分數(shù)的變異數(shù)分成不同的分支。

例題假設對100個六年級學生以兩個月的時間間隔先后施測一個創(chuàng)造力測驗的A\B兩個復本，所得的等值性與穩(wěn)定性系數(shù)為0.70。我們還根據(jù)被試對每個復本的反應計算出分半信度為0.80（先計算每個復本的分半相關系數(shù)。將二者平均后再用斯皮爾曼-布朗公式校正）。同時，我們讓另一個評分者隨機抽取50份卷子另外評分，得到評分者信度為0.92。然后，我們對這三種方法所產(chǎn)生的誤差變異進行分析。一個假想測驗的誤差變異來源分析信度類型誤差變異量誤差變異來源復本信度（間隔施測)1-0.70=0.30時間與內(nèi)容取樣分半信度1-0.80=0.20內(nèi)容取樣上述二者差異0.30-0.20=0.10時間取樣評分者信度1-0.92=0.08評分者差異誤差變異總和0.20+0.10+0.08=0.38真實變異1-0.38=0.62一個假想測驗的誤差變異來源分析真實變異誤差變異時間上的穩(wěn)定性，復本之間的一致性，評分者之間的一致性內(nèi)容取樣誤差時間取樣誤差評分者間差異62%20%10%8%第三節(jié)提高測量信度的方法一、影響測量信度的主要因素二、提高測量信度的常用方法三、幾點說明一、影響測量信度的主要因素1。被試方面2。主試者方面3。施測情景方面4。測量工具方面5。兩次施測得間隔時間例題

1.假設有一個包括10個題目的測驗，信度為0.50,若把測驗增加到50個題目,其信度將增加到多少?雖然增加題目可以提高信度，但并非多多益善。增加測驗長度的效果遵循報酬遞減率，測驗過長是得不償失的，有時還會引起被試的疲勞和反感而降低可靠性。還要注意一點，只有當新題目是與原題目選自同一總體，即與原題目具有同質(zhì)性時，增長測驗才能改進信度。二、提高測量信度的常用方法1、適當增加測驗的長度2、使測驗中所有試題的難度接近正態(tài)分布，并控制在中等水平。3、努力提高測驗試題的區(qū)分度4、選取恰當?shù)谋辉噲F體，提高測驗在各同質(zhì)性較強的亞團體上的信度。5、減少無關因素的影響。三、幾點說明1、提高測驗信度的方法很多，以上只是常用幾種2、本章所用方法僅適用于常模參照測驗3、目標參照測驗的信度問題必須以測量的概化理論為基礎才能進行較好的處理速度測驗4、幾個一般性參照標準

思考一個信度系數(shù)必須多高才算“足夠高”？0.7-0.8基本滿足基礎研究中的多數(shù)目的。智力測驗、標準化學績測驗：0.9人格測驗：0.8自編測驗：0.6

第四章測驗的效度

第一節(jié)效度概述一、什么是效度二、效度與信度的關系一、什么是效度效度是指一個測驗或量表實際能測出其所要測的心理特質(zhì)的程度。1。效度是針對測驗結果的2。效度是針對某種特定測量目的的3。效度只有程度上的差異

效度=S2V/

S2X=r2xy

效度是相對的，在特定人群、特定時間和特定使用條件下是有效的。二、效度與信度的關系

效度驗證和效度概化1、效度驗證要確定測驗在解決某方面問題時的效度，需要收集充分的客觀事實材料和證據(jù)，這種收集大量資料和證據(jù)來檢驗測驗效度的工作過程就叫效度驗證。內(nèi)容效度的重點是確定測驗內(nèi)容與某個行為領域的一致性，而該行為領域往往是已經(jīng)被明確界定了的，效標效度著重于測驗分數(shù)是否與效標測量有高度相關，構想效度的重點則是測驗編制所一句的心理特質(zhì)理論和測驗測量到該理論構想或特質(zhì)的相關程度。2、效度概化指在某一情境中所做的效度研究能否推廣到其他情境。（特定時間、特定情境、樣本的局限性）預測源效標施測情境被試團體建立效度的方法第二節(jié)效度的估計比較常見的解釋效度的角度：1。用測量的內(nèi)容來說明目的——內(nèi)容效度2。用心理學上某種理論結構來說明目的——結構效度3。用工作實效來說明目的——實證效度以上分類是相對的，有些專家認為，效度就是多方尋找證據(jù)來證明一個測驗有效性的過程。第二節(jié)效度的估計1966年美國心理學會在《教育心理測驗值標準》中將效度分為三大類：1．內(nèi)容效度（ContentValidity）內(nèi)容效度指測驗實際測到的內(nèi)容與所要測量的內(nèi)容之間的吻合程度。2．結構效度(ConstructValidity)結構效度是指測驗對于被稱作構想的某一理論概念或特質(zhì)測量的程度。3．實證效度(CriterionrelatedValidity)實證效度是指一個測驗對處于特定情景中的個體的行為進行估計的有效性一、內(nèi)容效度定義：內(nèi)容效度指測驗實際測到的內(nèi)容與所要測量的內(nèi)容之間的吻合程度。適用于成就測驗、選拔和分類的職業(yè)測驗，不適于能力傾向測驗和人格測驗。方法：邏輯分析法注意與表面效度的區(qū)分內(nèi)容效度與表面效度的區(qū)別

（1）表面效度是由外行對測驗做表面上的檢查確定的，而內(nèi)容效度是由夠資格的判斷者（專家）詳盡地、系統(tǒng)地對測驗評價而建立的。（2）這兩者都是根據(jù)測驗的內(nèi)容作出的主觀判斷，但判斷的標準不同。前者只考慮題目與測量目的之間明顯的、直接的關系，后者則同時考慮到題目與測量目的和內(nèi)容之間邏輯的微妙關系。常常有這種情況，外行人認為無效的題目，實際上并不一定無效。例如，MMPI中有這樣的題目：“我的喉嚨里總好象有一塊東西堵著似的。”表面上看來這種題目似乎與個性無關，但在臨床上，回答“是”的人很可能為癔病或神經(jīng)衰弱患者。表面效度不是效度的客觀指標，但能對受測者的動機產(chǎn)生影響，因而也會影響到效度。（3）最高行為測驗要求有較高的表面效度，典型行為測驗卻要求較低的表面效度。雙向細目表（舉例）一、教學目標(以橫軸表示)

以Bloom所提的認知領域六個教學目標為依據(jù)：知識、理解、應用、分析、綜合、評鑑。

(此次編製成就測驗的歷程，可將分析、綜合、評鑑，統(tǒng)合成「高層次思考」)二、教材內(nèi)容(以縱軸表示)

以出題的範圍，表示出包含幾個不同的單元。以臺灣學校教育文科為例知識理解應用分析綜合評鑑總和唐詩88442228文言文64642224新詩86442226散文64622222總和2822201488100內(nèi)容效度的評價

內(nèi)容效度不但是評價學績測驗的最適合的方法，而且編制任何測驗都要加以考慮的方面。內(nèi)容效度既具有一定的優(yōu)點，也有一定的局限。它的主要缺點是缺乏理想的數(shù)量指標，因而妨礙了信息交流和各測驗間的相互比較。二、結構效度定義：結構效度是指測驗對于被稱作構想的某一理論概念或特質(zhì)測量的程度。例如：智力、性向、動機、社會性、社經(jīng)地位等。主要用于智力測驗、人格測驗方法：1。測驗內(nèi)部尋找證據(jù)法（1）確定內(nèi)容效度作為結構效度的證據(jù)（2）分析被試的答題過程（3）通過計算測驗的同質(zhì)性信度來檢驗結構效度2。測驗之間尋找證據(jù)法（1）相容效度（2）區(qū)分效度（3）因素分析3。考察測驗的實證效度法4。多種特質(zhì)——多種方法矩陣法1。測驗內(nèi)部尋找證據(jù)法（1）確定內(nèi)容效度作為結構效度的證據(jù)例如，編制語文能力測驗時，編制者將總體內(nèi)容描述為對詞匯下定義、對語言做類比推理、以及在句子中正確運用文字的能力，這在實際上就是給“語文能力”的構想下了定義。（2）分析被試的答題過程例如，在人格測驗上有這樣一些題目：“當事情不順我意時，我時常動怒?！薄拔铱偙苊馀u別人的言行?！保?）通過計算測驗的同質(zhì)性信度來檢驗結構效度2。測驗之間尋找證據(jù)法（1）相容效度(與權威測驗的相關系數(shù))斯坦?！饶瘟勘硎鞘廊斯J有效的智力測驗，后人編的智力測驗大多與此量表作比較，如果相關高，便說明新編測驗有效。（2）區(qū)分效度（3）因素分析因素分析一、探索性因素分析如果測驗要自編時，則采用探索性因素分析。采用SPSS或SAS統(tǒng)計分析軟件即可。二、驗證性因素分析若要采用別人以編好的測驗，則需采用驗證性因素分析，驗證是否具有其宣稱的因素。需采用LISREL或AMOS統(tǒng)計軟件。多種特質(zhì)——多種方法矩陣法坎貝爾和費司克（1959）A：同方法測同特質(zhì)B：不同方法測同特質(zhì)C：同方法測不同特質(zhì)D：不同方法測不同特質(zhì)相關系數(shù)的高低應為：A>B>C>D多種特質(zhì)——多種方法矩陣法多種特質(zhì)——多種方法矩陣法表明，測驗的信度實際上是用最相似的方法（例如再測法或復本法）對同一特質(zhì)進行測量所得結果間的一致性；效度實際上是用極不相同的方法對同一特質(zhì)進行測量所得結果間的一致性?？梢?，信度與效度的基本區(qū)別在于測量方法的相似性。對構想效度的評價構想效度是個有爭議的概念。優(yōu)點：其貢獻在于把著眼點放在提出假設、檢驗假設上，因此使心理測驗不再只是作實際決定的輔助工具，同時還成為發(fā)展心理學理論的重要工具，從而使測驗有了更廣闊的發(fā)展前景。缺點：三、實證效度定義：實證效度是指一個測驗對處于特定情景中的個體的行為進行估計的有效性。也稱為效標關聯(lián)效度。根據(jù)效標資料搜集的時間差異，實證效度可以分成同時效度和預測效度兩種。方法：1。相關法最常用來建立實證效度的方法是求測驗分數(shù)與效標測量間的相關（積差相關法、等級相關法、二列相關法、四分相關法）2。分組檢驗法3。命中率4。功利率

U=B（NS）-C（NU）-SU代表功利率，B代表用一個成功的工人所產(chǎn)生的平均利潤，C代表錄用一個不合格的工人所造成的損失，NS和NU分別代表所錄用的人中成功和不成功的人數(shù)，S代表整個選人程序的費用。其他效度1、表面效度對測驗原理不熟悉的人表面上看一個測驗是否有效。表面效度會影響被試測驗動機區(qū)別效度用以檢驗職業(yè)測驗效標關聯(lián)效度的一種指標。3、內(nèi)部效度和外部效度內(nèi)部效度（內(nèi)部一致性效度）反應了測驗的結構效度。本質(zhì)上是對同質(zhì)性的考量。對測驗效度的解釋有限。外部效度指將研究結果概化到其他情境和總體的程度。影響一項研究應用價值的大小。效度概化提高外部效度的方法之一。2、合成效度和區(qū)別效度合成效度以職業(yè)表現(xiàn)為效標，根據(jù)工作分析的結果確定該職業(yè)中不同工作項目所占的比重，分別求出測驗分數(shù)與各工作項目之間的相關系數(shù)，再按不同的比重加權計算，即可。用以預測整個工作績效。第三節(jié)提高測量效度的方法一、影響測量效度的因素測驗本身的因素1。測驗的長度記住公式，并注意與信度的相應公式相區(qū)分：r(Kx)y=Krxy/√K（1-rxx+Krxx)rkk=Krxx/[1+(k-1)rxx]2。測量的信度效標因素1、效標的選擇2、測驗結果與效標之間的關系類型

是否是線性相關3、效標測量的信度

效標系數(shù)校正公式樣本代表性干涉變量二、提高測量效度的方法1。精心編制測驗量表，避免出現(xiàn)較大的系統(tǒng)誤差2。妥善組織測驗，控制隨機誤

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

心理與教育測量課件

文檔簡介

溫馨提示

最新文檔

評論

心理與教育測量課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔