十、人員素質(zhì)測評授課(助學班)_第1頁
十、人員素質(zhì)測評授課(助學班)_第2頁
十、人員素質(zhì)測評授課(助學班)_第3頁
十、人員素質(zhì)測評授課(助學班)_第4頁
十、人員素質(zhì)測評授課(助學班)_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第十章第十章 素質(zhì)測評的質(zhì)量管理素質(zhì)測評的質(zhì)量管理 一、信度分析 二、效度分析 三、項目分析 第一節(jié)第一節(jié) 信度分析信度分析 一、信度的概念 信度就是指測評結(jié)果反映所測素質(zhì)的一致性,也就是說測評結(jié)果的穩(wěn)定性、可靠性程度,即在相似情境下,用同一測評工具對相同個體重復施測,所得結(jié)果的一致性程度。1、信度測量的理論定義 (1) 傳統(tǒng)的信度理論認為:一個人的測驗分數(shù)X是由真實分數(shù)(T)和誤差(E)兩部分構(gòu)成的,公式是X = T + E。 (2) 因此信度就被定義為:一組測量分數(shù)的真實方差與實得方差的比,或者是指真實方差占總方差的百分比。公式為:rxx=22TSXS(3) 根據(jù)統(tǒng)計學理論,真實方差與實得

2、方差的比是一個相關(guān)系數(shù)的平方,所以我們把這種相關(guān)系數(shù)的平方叫做信度系數(shù)。(4)計算公式為:rxx= 22TSXS 該定義有兩點要注意:(1)信度指的是一組測驗分數(shù)或一列測量的特性,而不是個人分數(shù)的特性。(2)真分數(shù)的變異數(shù)是不能直接測量的,因此信度是一個理論上構(gòu)想的概念,只能根據(jù)一組實得分數(shù)作出估計。 信度設(shè)計所解決的主要問題是對測驗分數(shù)的意義的概化能力,即從一次測量來推論總體(真實分數(shù))能達到何種正確程度。xx 2、信度系數(shù)r 大部分的信度指標都是用相關(guān)系數(shù)來表示,即用同一被試樣本所得的兩組資料的相關(guān)作為測量一致性的指標,稱做信度系數(shù)。 確定測驗好壞的一個指標。一般的原則是:當rxx 0.7

3、0時,測驗不能用于對個人作出評價或預測,而且不能做團體間比較。當0.70rxx0.85時,可用于團體比較。當rxx 0.85時,才可以用來鑒別或預測個人成績或作用。 信度的范圍:0.001.00 幾種心理測驗的信度系數(shù) 信度 測驗類型 低 中 高 成套成就測驗 0.66 0.92 0.98 學術(shù)能力測驗 0.56 0.90 0.97 成套傾向性測驗 0.26 0.88 0.96 客觀人格測驗 0.46 0.85 0.97 興趣問卷 0.42 0.84 0.93 態(tài)度量表 0.47 0.79 0.98 信度系數(shù)需要注意: (1)在不同情況下,對不同樣本,采用不同方法會得到不同的信度系數(shù),因此一個

4、測驗可能會不止有一個信度系數(shù) (2)信度系數(shù)只是對測量分數(shù)不一致性程度的估計,并沒有指出不一致的原因 (3)獲得較高的信度系數(shù)并不是測量追求的最終目的,它只是邁向目標的一個步驟,是使測驗有效的一個必要條件 二、信度的類型和估計方法 (一)重測信度 重測信度又稱為穩(wěn)定性系數(shù),它的計量方法是采用重測法:用同一測驗,在不同時間對同一群體施測兩次,這兩次測驗分數(shù)的相關(guān)系數(shù)即為重測系數(shù)。 重測信度的計算方法是積差相關(guān)法,因而rxx就是皮爾遜的積差相關(guān)系數(shù)。 r=Nxy-xy/ 重測信度的優(yōu)點是:首測和再測中使用同一套測評試題,較之編制兩套等值測評題目要省時、省力;同一套試題無論施測多少次,所測評的屬性是

5、完全相同的;可作為預測被試者將來行為表現(xiàn)的依據(jù),因為該方法提供了有關(guān)測評結(jié)果是否隨著時間而發(fā)生變化的資料。) y( -yNx)( -xN 2222 重測信度的缺點是:如果前后兩次施測間隔的時間選擇不當,則測評易受練習和記憶的影響;同一組被試者對同一測試先后兩次作答相互之間是不獨立的;兩次施測的環(huán)境不同不會產(chǎn)生測評誤差。 重測信度的假設(shè): 1、所測量的特性必須是穩(wěn)定的 2、遺忘與練習的效果相同 3、在兩次施測期間被試者的學習效果沒有差別 由于以上幾條假設(shè)難以做到,所以有些測驗是不宜用重測法估計信度的。 一般在沒有復本可用,而現(xiàn)實條件又允許重復施測的情況下才采用此方法 (二)復本信度 復本信度又稱

6、為等值系數(shù),是指在測評性質(zhì)、內(nèi)容、題型、題量、難度等方面均一致的兩個測量。其方法是,先精心編制兩個互相平行的測驗復本,然后用它們測量同一群體,則被試者在這兩個測驗上的分數(shù)的相關(guān)系數(shù)即為等值性系數(shù)。 同重測信度相比,復本信度控制了兩次施測間的相互影響,因而既適用于難度測試,也適用于速度測試。但完全等值的復本只在理論上存在,實際應用中抽樣誤差在所難免,而且編制復本也需要很大精力。 (三)內(nèi)部一致性信度 內(nèi)部一致性信度主要反映的是測驗內(nèi)部題目之間的關(guān)系,考察測驗的各個題目是否測量了相同的內(nèi)容或特質(zhì)。內(nèi)部一致性又分為分半信度和同質(zhì)性信度。 1、分半信度 分半信度系數(shù)是通過將測驗分成兩半,計算這兩半測驗

7、之間的相關(guān)性而獲得的信度系數(shù)。 2、同質(zhì)性信度(homogeneity reliability)就是指測驗內(nèi)部的各題目在多大程度上考察了同一內(nèi)容。 同質(zhì)性是指測驗的所有題目間性質(zhì)的一致性,即測的是同一種心理特質(zhì)或行為。 同質(zhì)性是測量單一特質(zhì)的必要條件。這里講的同質(zhì)性是指測驗題目得分反映的心理特質(zhì)一致 同質(zhì)性的判別標準是:題目間呈高正相關(guān),如果相關(guān)很低或是呈負相關(guān),則題目為異質(zhì)。 3、克隆巴赫 系數(shù)法 (四)評分者信度 評分者信度(raters reliability)是指不同評分者對同樣對象進行評定時的一致性。 最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評

8、判分數(shù)的相關(guān)系數(shù)。這種相關(guān)系數(shù)的計算可以用積差相關(guān)方法,也可以采用斯皮爾曼等級相關(guān)方法。 如果評分者再三人以上,而且又采用等級計分時,就需要用肯德爾和諧系數(shù)來求評分者信度。 三、影響信度的因素 1、樣本團體的性質(zhì) (1)任何相關(guān)系數(shù)都要受到團體中分數(shù)分布的影響,當分布范圍增大時,其信度估計就較高;當差異減小時,相關(guān)系數(shù)隨之下降,信度值則下降。 (2)信度系數(shù)也受到樣本團體異質(zhì)性的影響 (3)測驗的信度不僅受取樣團體中個別差異范圍的影響,也會由于不同團體間平均能力水平的不同而有所不同 2、測驗的長度 一般而言,測驗越長,信度值越高。 (1)測驗越長,則試題取樣或內(nèi)容取樣越恰當 (2)較長的測驗也

9、不易受到猜測的影響 3、測驗的難度 測驗難度與信度沒有簡單的對應關(guān)系。但是,當測驗分數(shù)分布范圍縮小時,測驗的信度降低。因此,如果一個測驗對某團體而言太容易,會使所得分數(shù)都集中在高分端,當題目太困難時,得分會集中在低分端。這兩種情況會使測驗分數(shù)分布范圍縮小而使結(jié)果變得不夠可靠 第二節(jié)第二節(jié) 效度分析效度分析 一、效度的概念 所謂效度,是指測評結(jié)果對所測素質(zhì)反映的真實程度。 效度考慮的問題主要有兩個:一是測評測量什么;二是測量對測評目標的測量精確性和真實性有多大 對效度測評的理解: 1、效度是針對測評結(jié)果的 2、效度是針對某種特定的測評目的的 3、效度只有程度上的差異 二、效度的種類和估計方法 (

10、一)內(nèi)容效度 內(nèi)容效度(content validity)是檢查測驗內(nèi)容是否是所欲測量的行為領(lǐng)域的代表性取樣的指標。 內(nèi)容效度注意的問題:1、針對性;2、全面性;3、代表性 好的內(nèi)容效度須滿足的條件: 1、要確定好的內(nèi)容范圍,并使測驗的全部項目均在此范圍內(nèi)。 2、測驗項目應是已界定的內(nèi)容范圍的代表性樣本。 確定內(nèi)容效度的方法1、專家判斷2、復本法3、經(jīng)驗法 (二)結(jié)構(gòu)效度 1、概念 結(jié)構(gòu)效度指的是測驗能夠測量到理論上的結(jié)構(gòu)或特質(zhì)的程度,或者說用某種心理結(jié)構(gòu)或特質(zhì)來說明測驗分數(shù)的恰當程度。 2、結(jié)構(gòu)效度的確定方法 一、建立理論框架,以解釋被試者在測評上的表現(xiàn) 二、依據(jù)理論框架,推演出各種有關(guān)測評

11、成績的假設(shè) 三、以邏輯和實證的方法來檢驗假設(shè),如果不能作出恰當?shù)慕忉?,則應該修正上述理論假設(shè),直到能作出恰當?shù)慕忉尀橹?(三)效標關(guān)聯(lián)效度 也稱效標效度(criterion validity),它反映的是測驗分數(shù)與外在標準的相關(guān)程度,即測驗分數(shù)對個體的效標行為表現(xiàn)進行預測的有效性程度。 效標測量的注意事項: 1、效標要在理論上體現(xiàn)測驗有效性的主要方面,即跟所研究的問題有實質(zhì)性的相關(guān) 2、效標測量必須是客觀的,要避免偏見的影響 3、在收集效標資料時,必須注意防止所抽取的代表性樣本中個體的流失 4、效標測量必須穩(wěn)定可靠,即有高的信度 效標污染(criterion contamination),即由

12、于評定者知道測驗分數(shù)而影響個人的效標成績的情形。 (四)表面效度 表面效度是指受測者、測驗結(jié)果的使用者及一般大眾對于某測驗的試題和形式等所作的主觀判斷,判斷該測驗能否達到其所宣稱的目的。 表面效度的改進方法: 1、依據(jù)特定的測驗目的,修改測驗名稱、重新安排試題的用詞用字,使它顯得更切題、更合理 2、改進版面設(shè)計、印刷、裝訂、紙質(zhì),使得整個測驗看上去是經(jīng)過精心設(shè)計的,進而贏得使用者的重視 三、影響測驗效度的因素(一)就內(nèi)容效度而言:1、缺乏學科專家或資深教師參與擬題 2、雙向細目表設(shè)計不良 3、預試的題數(shù)不多且品質(zhì)不良,經(jīng)試題分析淘汰部分試題后難以達到雙向細目表上的要求 (二)就建構(gòu)效度來說:

13、1、該測驗的心理學理論建構(gòu)尚不完備,有待加強或修改 2、題目設(shè)計不良,與原理論脫節(jié) 3、所提出待考驗的假設(shè)不當 (三)表面效度方面 1、版面設(shè)計與印刷的品質(zhì)不良 2、遣詞用字不能配合受測者的程度與背景 3、指導手冊或技術(shù)手冊內(nèi)容不夠完備,未能作充分的溝通 (四)效標關(guān)聯(lián)效度 1、樣本的性質(zhì) 2、事先篩選與樣本同質(zhì)性 第三節(jié)第三節(jié) 項目分析項目分析 項目分析是指根據(jù)被試者的反應堆組成測評的各個題目進行分析,從而評價其適用的程序和方法。 項目分析既能幫助測評使用者評價現(xiàn)有的各種測評,還非常適合特殊的和非正式的測評的編制 項目分析包括定性分析和定量分析。 定性分析包括考慮內(nèi)容效度、題目編寫的恰當性和

14、有效性等 定量分析主要是指題目難度和區(qū)分度的測量 一、項目難度 難度是指題目的難易程度 在能力測驗中通常需要一個反映難度水平的指標,在非能力測評中,類似的指標是“通俗性”,即取自相同總體的樣本中,能在答案范圍內(nèi)回答該題的人數(shù)。 (一)難度的估計方法 1、二值計分題目的難度 (1)通過率法 如果忽略應試者作答時的猜測成分,二值計分的測驗題目難度一般用通過率表示,即答對或通過該題目的人數(shù)占總?cè)藬?shù)的比 (2)高低分組法 當應試者人數(shù)較多時,計算難度的一個簡便方法是,先將應試者依照測驗總分的高低次序排列,然后分出人數(shù)相等的高分組和低分組,再分別求出此兩組在每一題目上的通過率,以兩組通過率的平均值作為每

15、一題目的難度。 2、非二值計分的題目難度計算 很多測驗題目是按多級方式計分的,如論述題,有從零分到滿分之間的多種可能結(jié)果。對于這類非二值計分的題目,通常用平均得分率表示難度 (二)難度的確定 1、試題難度的確定 要看測評的目的是什么,測評的性質(zhì)以及題目形式有什么特點 當p等于0.5時區(qū)別力最高,為了使測評具有盡可能大的區(qū)別力,應該選擇難度在0.5左右的試題。 如果我們編制的一個測評是為了選拔或進行診斷,應該比較多地選擇難度值接近錄取率的題目。 編制的測評是要診斷或篩選出少量交叉的被試者,如果公司中的末位被淘汰,那么題目p值應該高,使得大部分的人都能夠順利通過,而只有那些差的被試者不能通過 2、

16、測評難度的確定 人的心理特征基本上是呈正態(tài)分布的,因此大多數(shù)測評結(jié)果應該符合正態(tài)分布的模型。如果我們選擇的被試者具有代表性,則測評總分應該接近正態(tài)分布 在某個測評分數(shù)出現(xiàn)了正偏態(tài)或負偏態(tài)時,并非都是需要修改的,因為有些效標參照的測評,出現(xiàn)偏態(tài)分布是允許的。 二、項目區(qū)分度 項目區(qū)分度,也叫項目鑒別度,是指測評的題目對于所研究的人的特性的區(qū)分程度或鑒別能力。 每個題目都可以看做一個獨立的測評 三、項目反應理論 (一)項目反應理論的概念 項目反應理論又叫潛特質(zhì)理論,它不是直接對被試者題目的反應進行統(tǒng)計分析的,而是找到被試者能力與題目反應概論之間的函數(shù)關(guān)系,通過這個函數(shù)來估計出被試者的能力 (二)項目反應理論的假設(shè) 1、潛在特質(zhì)空間的單維性假設(shè),在項目反應理論中,假定測評中的所有測題都是測量同一種能力(潛在特質(zhì))或者同一種能力的不同方面 2、題目間的空間獨立性假設(shè) 3、項目特征曲線假設(shè) 4、非速度實驗假設(shè) (三)項目反應理論的優(yōu)勢 1、經(jīng)典測評理論依據(jù)其項目分析法所得到的項目統(tǒng)計量受樣本的抽樣變動大 2、經(jīng)典測評理論中,被試者的測評分數(shù)依賴于項目難度的高低,參加不同測驗的被試者無法直接比較 3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論