版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于概化理論的職前中學英語教師口語考試設計研究
1.誤差來源分析概化理論是一種將測量誤差作為模型參數(shù)的測量理論(楊志明,張雷,2003)。它根據(jù)不同的誤差來源對測量分數(shù)進行具體分解,采用方差分析的方法,深入考察誤差來源對測量信度的影響程度。在此基礎上,可以幫助人們針對具體誤差來源,提出有效控制和改善測量精度的措施和方法。本研究將概化理論應用于一項針對職前中學英語教師的口語考試設計過程中,對這項考試的試測數(shù)據(jù)進行了概化和多元概化分析,為改進和完善這項考試提供了重要的信息。2.英語口語能力要求英語教師是課堂輸入的主要提供者,是規(guī)范英語的示范者和課堂教學的組織者與管理者,其口語能力對有效的英語教學起著至關重要的作用?!度罩屏x務教育英語課程標準》(2001)對中小學階段英語教學的課程目標和內(nèi)容標準提出了詳細的要求,課程標準的實施對中小學英語教師的口語能力提出了更高的要求。為了更好地保證中學英語教師的質(zhì)量,學校和教育機構(gòu)在聘任新教師時應對教師候選人的英語口語能力作出嚴格要求。然而,目前國內(nèi)還沒有一項專門針對職前中學英語教師的口語考試,學校在招聘教師時沒有統(tǒng)一可靠的參考標準。因此,探索職前中學英語教師口語考試的研究不僅有理論價值,而且具有非常重要的現(xiàn)實意義。3.概化理論cort概化理論是Cronbach等人在20世紀70年代提出的一種心理計量理論,后經(jīng)Brennan(2001)等人發(fā)展完善,現(xiàn)已成為與經(jīng)典測驗理論和項目反應理論并駕齊驅(qū)的三大測量理論之一。概化理論不僅保留了經(jīng)典測驗理論中控制誤差的方法,而且發(fā)展出了把誤差控制與決策需要或測量結(jié)果的概括程度相結(jié)合的理論和方法,為研究標準化和標準化程度不高的測試開辟了新思路。概化理論分為一元概化理論和多元概化理論(楊志明、張雷2003)。簡單來講,一元概化將所有的測試項目作為一個側(cè)面計算其測量誤差,而對于由多個相關聯(lián)的潛在能力因子組成的測試,則需要運用多元概化計算其每個組成部分的誤差。因此,多元概化分析能夠發(fā)現(xiàn)一些整體信度較高而其中某一部分信度不夠理想的測試的問題,為實際考試設計提供更有價值的信息。概化理論誕生之初并未得到迅速推廣,直到20世紀80年代后期才逐步發(fā)展起來,應用范圍越來越廣,涉及到心理測量、語言測試、績效評估、醫(yī)學測量等多個領域(Brown&Bailey1984;Brennan1980,2001;Shavelson&Webb1991;Lee2005;Sawaki2007;Gebril2009;等)。在我國概化理論主要用于高考、標準參照性測驗、心理測量、普通話測試、教學評價、評分員一致性等研究中(劉遠我、張厚粲1998;張雷等2001;楊志明等2004;徐建平2004;等),在語言測試尤其是英語測試中運用概化理論的實證研究鳳毛麟角(趙向民、王占禮2005;羅娟、肖云南2008)。4.學習步驟4.1朗讀和提問我們征求了在職中學英語教師和基礎英語教育專家以及語言測試專家的意見,在此基礎上確定了考試的內(nèi)容、形式以及評分標準??荚噧?nèi)容包括朗讀、提問、宣布消息、陳述課堂指令語、聽講座錄音回答問題和即興演講共計6種任務類型。其中,朗讀包括兩篇文章,分別為故事和詩歌。提問基于朗讀的內(nèi)容,有兩個題目。聽錄音回答問題包括兩個問題:一個考查考生總結(jié)和概括所聽內(nèi)容的能力,另一個考查考生根據(jù)所聽內(nèi)容陳述觀點的能力。所有任務內(nèi)容均與教學有關??荚嚥捎娩浺艨荚嚨姆绞?錄音內(nèi)容播放時間大致為15分鐘,考生作答大約15分鐘,整個考試過程大約30分鐘。針對不同任務,我們建立了不同的評分標準:朗讀從語音語調(diào)的準確性、清楚性和自然性,語速和節(jié)奏的恰當性,以及整體的流利程度幾個方面評分;提問從內(nèi)容的恰當性,語言的準確性和整體流利性來評分;而其它任務則從內(nèi)容的切題性、充實性和新穎性,語言運用的準確性和恰當性,以及話語表達的清晰性、流利性和連貫性來評分。每個維度均采用6級量表,1為最低分,6為最高分。4.2實習教師測試結(jié)果參加測試的被試為國內(nèi)兩所師范院校英語專業(yè)大四學生,他們都去中學聽過課,做過實習教師。兩所學校共91名學生參加了測試,但是有10位被試沒有完成所有考試任務。為了方便數(shù)據(jù)的整理和分析,這10位被試的數(shù)據(jù)沒有進入最后的分析。因此,本次測試共收集到81名學生完整的考試錄音,其中包括13名男生68名女生。4.3評分標準的確定此次測試共有3位評分員(其中包括1位研究者),每人都有多次口語考試評分經(jīng)驗。評分之前研究者向其他兩位評分員詳細講解了評分標準,并進行了試評,統(tǒng)一了標準。每位評分員對考生每個任務都按照4.1所介紹的維度打分,總分取各維度的平均分。本研究通過概化分析來確定總體方差組成和信度,通過多元概化分析來探索最佳考試設計模式,概化分析使用GENOVA3.6完成,多元概化分析采用mGENOVA3.6完成。5.結(jié)果與討論5.1任務、任務數(shù)量、考試量表3個任務的交叉設計Shavelson和Webb(1991)指出,概化理論的優(yōu)越性是在一次分析中分解測量的不同誤差來源。本研究的概化分析采用隨機雙面完全交叉設計,兩個側(cè)面為評分員(r)和考試任務(t)??捎^測全域包括3個評分員和9個考試任務(兩篇朗讀,兩個提問,1個宣布消息,1個課堂指令陳述,兩個聽說和1個即興演講)表1是交叉設計方差成分的估計值:方差貢獻量最大的是被試、任務和評分員的交互效應(26.7%),表明某些評分員在某些考試任務上對一部分考生的等級排名不一致。第二大方差來自于主效應側(cè)面被試和交互效應p×t(均為22.9%),表明相當一部分考生在某些任務上的等級排名與他們在其它任務上的排名不一致。除此之外,任務側(cè)面也產(chǎn)生了16.5%的方差,測量標準誤也較大(0.124),這表明本次測試的任務難度有較大差別,而且對于相當一部分考生,這些任務的難度差別不同(p×t交互效應較大)。然而評分員產(chǎn)生了最小的方差,僅占總方差的0.3%,這表明3位評分員的嚴厲度差別非常小,并在評分過程中保持了較好的自身一致性。表2是9個任務雙面交叉設計p×R×T的決策研究結(jié)果。由于此項測試是標準參照考試,我們只匯報可靠性指數(shù)和信噪比。表2顯示,評分員人數(shù)不變時,使用8個任務時可靠性指數(shù)最高。一般說來,任務越少信度越低,而本研究的結(jié)果是少3個任務時信度比原來高。這主要是由于主效應任務側(cè)面產(chǎn)生了較多的方差,且測量誤差較大,這時適當減少任務數(shù)量反而會增加信度。評分員側(cè)面水平不變,當任務越來越少時可靠性指數(shù)變化越來越大:2個評分員時,當任務數(shù)從8減到7時可靠性指數(shù)僅降低了0.029,而從4個減到3個時可靠性指數(shù)則降低了0.080。盡管評分員側(cè)面對總方差的貢獻量很小,減少評分員人數(shù)信度仍然會降低,只是幅度比較小。這些結(jié)果表明,當考試任務比較少時,可以通過增加評分員人數(shù)來提高考試的信度;當任務比較多、任務對方差貢獻量較大,且任務側(cè)面測量誤差較大時,適當減少任務反而會提高信度。嵌套設計可以提高評分的效率,也可節(jié)省人力物力,因此在大型測試評分工作中,一般都采用嵌套設計。本研究為了提供更多的測量誤差信息,在進行概化研究時采用了完全交叉設計;然而概化研究是交叉設計,決策研究也可以是嵌套設計(楊志明、張雷2003:84)。楊志明和張雷(2003:113)將雙面嵌套設計定義為“具有兩個測量側(cè)面,側(cè)面與側(cè)面之間或側(cè)面與測量目標之間至少有一對關系是嵌套關系的設計”,即一側(cè)面的所有水平并非都要與另一側(cè)面的所有水平相遇,例如將評分員分成不同組,不同組評閱不同的題目,或者將考生和評分員分成不同組,一組評分員評閱一組考生的所有題目。為了對比交叉設計和嵌套設計的誤差大小,本研究在決策研究中采用p×(R:T)的嵌套設計,即任務嵌套于評分員的設計。具體來講就是將評分員和任務分組,每組評分員評閱不同組的題目。表3是此設計的決策研究結(jié)果,對照表2可以發(fā)現(xiàn),同樣多的任務和評分員,嵌套設計的可靠性指數(shù)大于交叉設計,表明嵌套設計產(chǎn)生的誤差較小。5.2教學改革測試概化分析只能看出測量目標和側(cè)面對方差的貢獻量,無法得到測量側(cè)面各組成部分對方差的貢獻量。本測試9項任務包括4個組成部分:2篇朗讀考查朗讀能力,2個提問考查提問能力,2個聽說考查聽說能力,而3個綜合任務則考查學生綜合運用英語教學的能力。本節(jié)報告這4部分對方差的貢獻量,以及改變這4部分任務的數(shù)目而引起的信度變化情況。5.2.1設計決策研究結(jié)果如果沿用前面一元概化研究的3個評分員,這樣可將研究設計設定為涉及到朗讀、提問、綜合和聽說四種潛在變量的雙側(cè)面交叉設計p·×T?!罵·1。如果取3個評分員對每個考生在每個任務上的平均分,這樣研究設計就變?yōu)橹挥锌荚嚾蝿盏膯蝹?cè)面交叉設計p·×T。。根據(jù)這兩個設計模型可以分別對四個潛在變量進行概化研究,估計它們對整體方差的貢獻程度。由于概化研究結(jié)果的方差和協(xié)方差估計值非均值意義上的數(shù)值,其現(xiàn)實意義不大(楊志明、張雷2003),這里只匯報決策研究結(jié)果。表4是p·×T?!罵·設計決策研究對各效應的方差和協(xié)方差分量的矩陣。由表4可知,在效應p上,方差分量最小的為朗讀部分(0.198),最大的為聽說部分(0.488)。提問、綜合和聽說三個變量的協(xié)方差分量較大(0.378,0.405,0.415),三者之間的相關系數(shù)也很高(大都在.800以上),但提問部分在p×t交互效應上產(chǎn)生了較大的方差(0.463),這表明提問部分的測量誤差較大。因此,用綜合和聽說成績判斷被試水平高低結(jié)果應該比較一致。表5是p·×T。設計決策研究各效應方差與協(xié)方差的估計值。去掉評分員側(cè)面,各部分在p效應上的方差分量比p·×T?!罵·設計大一些,但排名次序沒變,仍然是提問、綜合和聽說三部分的協(xié)方差較大(0.408,0.431,0.408),相關系數(shù)也較高。但不同的是,在p×t交互效應上,除了提問部分的方差較大(0.522)之外,綜合和聽說產(chǎn)生的方差也有所增加(0.126,0.156),但誤差的最大來源還是提問部分。5.2.2測量精度和方案表6是選用3個評分員時p·×T?!罵·設計決策研究各變量全域方差分量、絕對誤差方差分量、可靠性指數(shù)以及絕對信噪比等估計值。由表6可知,有3個評分員時,提問部分的絕對誤差方差分量最大(0.556),而朗讀部分對全域分數(shù)的方差貢獻量最小(0.198),也有一定的誤差。因此,此考試對聽說和綜合兩部分的測量精度較高,而朗讀和提問部分的測量精度較低,但仍在可以接受范圍之內(nèi)。四部分的可靠性指數(shù)中提問部分最低,其次為朗讀部分。由于4部分彼此之間的協(xié)方差較高,所以把它們合成后信度會有很大提高。表7是去掉了評分員側(cè)面p·×T。設計決策研究各變量全域方差、絕對誤差方差、可靠性指數(shù)以及絕對信噪比等估計值。由表7可知,此設計朗讀部分的可靠性指數(shù)最高(0.820),提問部分的可靠性指數(shù)最低(0.450)。對比表6和表7可以發(fā)現(xiàn),可靠性指數(shù)變化最大的是朗讀,增加了0.269。此外,朗讀部分的絕對誤差方差分量也降低了很多,從0.161降低到0.062,降低了0.099,這意味著平均3個評分員的分數(shù)之后,朗讀部分的誤差被中和了。這些結(jié)果表明,要提高整個考試的信度應改善提問部分的信度。5.2.3合成評分的可靠性按照此項測試每部分任務數(shù)量所占的比重來決定權系數(shù)對四個變量全域分進行合成,可以得到全域總分的方差、相應誤差的方差分量估計值,以及各變量對方差的貢獻(見表8),進而估計全域總分的可靠性指數(shù)等(見表9)。由表8可知,無論是單面還是雙面交叉設計,朗讀部分對全域總分的方差貢獻量(14.58%和15.29%)都小于其按任務數(shù)量所賦予的權系數(shù)(0.222)。這個結(jié)果表明,如果要合成各任務的總分,不能將朗讀部分按照任務數(shù)所占的比例納入總分,可以減少朗讀的任務數(shù),也可以縮小這部分評分等級的范圍,例如用1~5的等級來打分。由表9可知,兩種設計的全域合成總分的可靠性指數(shù)分別為0.816和0.846,絕對誤差非常小(方差分量僅為0.073和0.062)。這個結(jié)果對于標準參照考試來講非常好,表明此次考試的整體測量信度很好。此外,兩個可靠性指數(shù)均大于兩種設計中每部分的可靠性指數(shù)(見表6和表7),與研究預期相符,即合成總分的信度高于每部分的信度。5.2.4任務總數(shù)對考試的影響為了改善測量方法,提高測量效率,我們通過改變各變量樣本容量及其總樣本容量的方法考察了測量信度的變化特點(見表10),以確定最佳設計方案。本測試共使用了9個任務,對口語測試來說,題目數(shù)量偏多,考試時間也較長。如果能在更短的時間內(nèi)可靠地測出被試的能力,可以極大改善測量的效率。因此,在此部分的設計中,我們只考察了比現(xiàn)有樣本容量較小的情況??疾旆秶鷱?個任務到4個任務,每部分的任務數(shù)至少為1。由于只有1個評分員時評分信度很難得到保證,現(xiàn)實中大型考試一般都選用兩個評分員,所以我們沒有考察1個評分員時改變?nèi)蝿湛倲?shù)可靠性指數(shù)的變化情況。由表10可知,將任務總數(shù)依次遞減至每部分至少包括1個任務,即總數(shù)為4時,可靠性指數(shù)變化最大的是兩個評分員的p·×T?!罵·設計,減少了0.152,變化最小的是3個評分員的p·×T?!罵·設計,減少了0.126。在一定的任務總數(shù)內(nèi),相對來講,朗讀和提問數(shù)量減少時信度較大。例如,當任務總數(shù)為8時,雙面設計3個評分員信度最大(.811)時是2個朗讀任務,1個提問,3個綜合和2個聽說任務的組合,單面設計信度最大(.841)時也是這個組合,而雙面設計2個評分員信度最大(.782)時是1個朗讀,2個提問,3個綜合和2個聽說任務的組合。這與前面決策研究各部分可靠性指數(shù)的結(jié)果一致,即任務總數(shù)不變時,減少可靠性指數(shù)較低的任務數(shù)量可以增加考試整體的信度。如果與前面的一元概化決策研究結(jié)果結(jié)合起來,我們可以對每部分任務的數(shù)量重新進行分配。當任務總數(shù)為8時,3個評分員的雙面設計或者單面設計的最佳選擇是2個朗讀,1個提問,3個綜合和2個聽說(可靠性指數(shù)分別為.811和.841),2個評分員的雙面設計最佳選擇是1個朗讀,2個提問,3個綜合和2個聽說(可靠性指數(shù)為.782)。一元概化決策研究結(jié)果還顯示,選用2個和3個評分員時使用6個任務信度均在0.8以上。在任務總數(shù)為6的各部分組合中,3個評分員和2個評分員雙面設計的最佳選擇都是1個朗讀,1個提問,2個綜合和2個聽說(可靠性指數(shù)分別為.784和.750)。綜合這些結(jié)果,在保證較好信度的前提下,朗讀和提問各選用1個任務,聽說和綜合各選用2個任務,任務總數(shù)為6是較好的設計方案,可以提高考試效率。此外,表10還顯示,單面設計的可靠性指數(shù)均大于雙面設計,這意味著
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年甘肅建筑職業(yè)技術學院單招綜合素質(zhì)考試題庫參考答案詳解
- 2026年河南林業(yè)職業(yè)學院單招職業(yè)傾向性測試題庫及完整答案詳解1套
- 2026年山西衛(wèi)生健康職業(yè)學院單招職業(yè)適應性測試題庫帶答案詳解
- 2026年遼源職業(yè)技術學院單招綜合素質(zhì)考試題庫參考答案詳解
- 2026年山東文化產(chǎn)業(yè)職業(yè)學院單招職業(yè)技能測試題庫參考答案詳解
- 2026年蘭州資源環(huán)境職業(yè)技術大學單招綜合素質(zhì)考試題庫帶答案詳解
- 上市銀行面試題庫及答案
- 水電站渠道加固承包協(xié)議書范本
- 2025年北京郵電大學人工智能學院招聘備考題庫(人才派遣)及完整答案詳解1套
- 2025年崇州市人民醫(yī)院醫(yī)共體成員單位自主招聘(補充招聘)備考題庫及答案詳解一套
- 2025年谷胱甘肽及酵母提取物合作協(xié)議書
- 2026廣西融資擔保集團校園招聘補充參考筆試題庫及答案解析
- 2026貴州安創(chuàng)數(shù)智科技有限公司社會公開招聘119人參考筆試題庫及答案解析
- 韓家園林業(yè)局工勤崗位工作人員招聘40人備考題庫新版
- 2025年云南省人民檢察院聘用制書記員招聘(22人)參考筆試題庫及答案解析
- 維修班組長設備故障應急處理流程
- 2026年湖南司法警官職業(yè)學院單招職業(yè)技能測試題庫及完整答案詳解1套
- 兔年抽紅包課件
- DB31∕T 634-2020 電動乘用車運行安全和維護保障技術規(guī)范
- 醫(yī)師證租借協(xié)議書
- 2025年11月國家注冊質(zhì)量審核員(QMS)審核知識考試題(附答案)
評論
0/150
提交評論