現(xiàn)代語言測(cè)試的新發(fā)展_第1頁
現(xiàn)代語言測(cè)試的新發(fā)展_第2頁
現(xiàn)代語言測(cè)試的新發(fā)展_第3頁
現(xiàn)代語言測(cè)試的新發(fā)展_第4頁
現(xiàn)代語言測(cè)試的新發(fā)展_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

現(xiàn)代語言測(cè)試的新發(fā)展曾用強(qiáng)(作者簡(jiǎn)介:曾用強(qiáng),博士,教授,廣東外語外貿(mào)大學(xué)外國(guó)語言學(xué)及應(yīng)用語言學(xué)研究中心主任,廣東廣州,510420。)摘要:語言測(cè)試從20世紀(jì)60年代開始發(fā)展,經(jīng)過四十多年,現(xiàn)代語言測(cè)試有了新的發(fā)展,突出體現(xiàn)在以下四個(gè)方面:考試內(nèi)容的真實(shí)、能力評(píng)估的過程化、考試形式的個(gè)性化以及考試手段的電腦化。關(guān)鍵詞:語言測(cè)試真實(shí)性能力評(píng)估個(gè)性化計(jì)算機(jī)化考試語言測(cè)試隨著語言教學(xué)的發(fā)展而發(fā)展,語言測(cè)試發(fā)展到今天,已自成一門學(xué)科,有其自身的不同于語言教學(xué)學(xué)科的內(nèi)容、特點(diǎn)、要求和考慮。語言測(cè)試從20世紀(jì)60年代開始發(fā)展,首先它從語言學(xué)領(lǐng)域的結(jié)構(gòu)主義語言學(xué)獲得了科學(xué)的內(nèi)容,從測(cè)量學(xué)領(lǐng)域的心理測(cè)量學(xué)借取了科學(xué)的手段,形成了歷史上第一代的科學(xué)語言測(cè)試。其后四十多年,語言測(cè)試一方面接受了語言學(xué)及應(yīng)用語言學(xué)領(lǐng)域,尤其是語言教學(xué)的先進(jìn)思想和方法,在考試內(nèi)容和形式等方面得到了發(fā)展;另一方面隨著科學(xué)技術(shù)的進(jìn)步,語言測(cè)試手段開始朝著更加科學(xué)化和現(xiàn)代化方向發(fā)展。經(jīng)過幾十年的發(fā)展,現(xiàn)代語言測(cè)試有了新的發(fā)展,突出體現(xiàn)在以下四個(gè)方面:考試內(nèi)容的真實(shí)、能力評(píng)估的過程化、考試形式的個(gè)性化以及考試手段的電腦化。1.考試內(nèi)容的真實(shí)性所謂真實(shí)性(authenticity)就是指,考試的內(nèi)容要真實(shí)于實(shí)際的語言交際任務(wù)。Bachman&Palmer(1996)把真實(shí)性定義為語言測(cè)試的任務(wù)與使用目標(biāo)語言的真實(shí)任務(wù)之間的一致性程度,也就是考試的內(nèi)容必須真實(shí)體現(xiàn)受試者在實(shí)際的語言交際情景中可能或必須完成的任務(wù),而不是簡(jiǎn)單地把語言分解成詞匯、語法和四個(gè)基本技能(聽、說、讀和寫)進(jìn)行單項(xiàng)的考試。早在20世紀(jì)70年代,語言教學(xué)就開始提倡“交際法”(communicativeapproach)。“交際”或“真實(shí)”語言測(cè)試80年代以后才被引入語言測(cè)試的研究領(lǐng)域中。進(jìn)入90年代以后,語言測(cè)試開始越來越強(qiáng)調(diào)測(cè)試內(nèi)容的“交際性”和“真實(shí)性”,主要有兩方面的原因:一方面因?yàn)檎Z言教學(xué)強(qiáng)調(diào)培養(yǎng)學(xué)習(xí)者的語言交際能力,它必然要求語言測(cè)試與之相適應(yīng);另一方面由于越來越多的人感到標(biāo)準(zhǔn)化的選擇填空考試不夠真實(shí),在一定程度上減低了考試的效度(validity),其反撥作用(washback)也比較差。語言測(cè)試的“交際性”和“真實(shí)性”研究在過去的十多年里取得了很大的進(jìn)展,比如:在試卷結(jié)構(gòu)和題型設(shè)計(jì)方面,人們更多考慮了如何考察受試者的實(shí)際語言應(yīng)用能力,尤其是產(chǎn)出性能力(productiveskills)的測(cè)量。我國(guó)流行的幾種公開的大型考試,開始引進(jìn)真實(shí)情景對(duì)話的考試,如:公共英語等級(jí)考試、高考英語復(fù)試和大學(xué)英語四、六級(jí)考試等都增加了不同形式的口頭表達(dá)能力的測(cè)試,對(duì)改進(jìn)我國(guó)英語教學(xué)和培養(yǎng)學(xué)生的實(shí)際語言應(yīng)用能力起到了積極的促進(jìn)作用。近些年發(fā)展起來的語言行為評(píng)估(performanceassessment)和跨文化交際中的語用能力測(cè)試(pragmaticcompetenceincross-culturalcommunication)也是真實(shí)性語言測(cè)試發(fā)展的產(chǎn)物。在80年代以前,語言測(cè)試的發(fā)展主流依然是傳統(tǒng)的語言能力(1inguisticcompetence)考試,如:詞匯和語法以及語言四項(xiàng)基本技能(聽、說、讀和寫)。但是,隨著基于任務(wù)的語言教學(xué)(task-basedlanguageteaching)的興起,語言行為評(píng)估也隨之誕生。所謂語言行為評(píng)估,就是根據(jù)語言行為的真實(shí)標(biāo)準(zhǔn)對(duì)受試者完成具體某項(xiàng)語言任務(wù)的過程作出評(píng)估。Norrisetall998年對(duì)語言行為評(píng)估和基于任務(wù)的語言教學(xué)等問題作了詳盡的論述,提出了如何發(fā)展語言行為評(píng)估的具體原則和過程。此外,應(yīng)用語言學(xué)的不斷發(fā)展,使得人們對(duì)語言能力(1anguageability)和語言使用(1anguageuse)有了新認(rèn)識(shí),語言測(cè)試的研究融入應(yīng)用語言學(xué)的領(lǐng)域中,它開始吸收二語習(xí)得、語用學(xué)和社會(huì)語言學(xué)的研究成果,促使語言測(cè)試的內(nèi)容從語言能力向語用能力的轉(zhuǎn)移。2.能力評(píng)估的過程化自從20世紀(jì)70年代以來,外語教學(xué)的研究中心開始從教學(xué)方法的研究轉(zhuǎn)移至學(xué)習(xí)過程的研究。這種研究中心的轉(zhuǎn)移促使研究者開始重視調(diào)查學(xué)習(xí)者特征以及二語習(xí)得的研究,尤其是外語學(xué)習(xí)過程的認(rèn)知因素、學(xué)習(xí)策略與學(xué)習(xí)效果之間的關(guān)系等問題。這種趨勢(shì)也同樣影響了語言測(cè)試的研究,越來越多的語言測(cè)試研究者也開始對(duì)影響測(cè)試行為的各種因素感興趣(如:測(cè)試條件、試題形式以及測(cè)試者的個(gè)性特征等)。語言測(cè)試研究的中心開始轉(zhuǎn)移到測(cè)試的過程中,也就是結(jié)合二語習(xí)得的研究成果,研究測(cè)試者的認(rèn)知特征如何影響測(cè)試的過程,如:學(xué)習(xí)策略與測(cè)試成績(jī)之間的關(guān)系、認(rèn)知策略與測(cè)試行為之間的關(guān)系等等。語言測(cè)試是一個(gè)從受試者的觀察分(observedscore)推導(dǎo)出其能力真分(truescore)的過程,如何保證觀察分真實(shí)有效地反映能力真分是語言測(cè)試研究中的一個(gè)基本問題。在80年代之前,測(cè)試者關(guān)心的只是這個(gè)過程的結(jié)果,即:受試者答題的正確與否,比如:在經(jīng)典真分模式(ClassicalTrueScoreModel)中,受試者的能力估算只是簡(jiǎn)單地計(jì)算他/她正確回答測(cè)試項(xiàng)目的數(shù)量(即答對(duì)率);項(xiàng)目反應(yīng)理論(ItemResponseTheory,IRT)則是根據(jù)受試者對(duì)不同難度項(xiàng)目的反應(yīng)推導(dǎo)出其能力值。不論是經(jīng)典模式,還是項(xiàng)目反應(yīng)理論,目前采用的能力評(píng)估模式都是建立在單維能力假設(shè)(unidimentionality)的基礎(chǔ)上,即:影響受試者測(cè)試行為的因素只是受試者某一特定的單一語言能力(如:詞匯能力或閱讀理解能力等)。但是,我們都知道,在實(shí)際的語言測(cè)試中,影響受試者測(cè)試行為的因素除了受試者的語言能力外,還有許多其他因素,如:測(cè)試條件、測(cè)試焦慮以及其他個(gè)性特征等。所有這些其他因素在單維能力假設(shè)中被認(rèn)為是構(gòu)成測(cè)試誤差的主要來源。單維能力假設(shè)的最大缺陷就是,在估算能力真分的過程中,它不考慮影響受試者測(cè)試行為的諸多因素,因此無法對(duì)受試者的能力真分作出客觀、準(zhǔn)確的評(píng)估。隨著語言測(cè)試?yán)碚摰陌l(fā)展和測(cè)試手段的現(xiàn)代化,語言測(cè)試已經(jīng)開始朝著多維能力評(píng)估的方向發(fā)展,即受試者的測(cè)試行為被認(rèn)為是多個(gè)能力共同作用的結(jié)果。受試者語言能力的評(píng)估不僅僅考慮了他們的測(cè)試結(jié)果,而且開始考慮受試者的測(cè)如圖l所示,在個(gè)性化自適應(yīng)性測(cè)試中,受試者先自我評(píng)估自己的能力水平,并以此確定初始項(xiàng)目。答題時(shí)受試者從A、B、C和D中選擇最佳答案,然后評(píng)估自己對(duì)答對(duì)這個(gè)測(cè)試項(xiàng)目的自信心。每回答完一道題之后,采用極大似然值估算法(maximumlikelihoodestimation)重新估算受試者的能力值,其中項(xiàng)目難度采用加權(quán)后的難度,即:根據(jù)受試者的自信心,用加權(quán)的方法調(diào)整測(cè)試項(xiàng)目的難度。加權(quán)之后的難度我們稱之為相對(duì)難度。受試者回答完每道題之后,根據(jù)答對(duì)或答錯(cuò)的情況以及自信心的加權(quán)分值獲得一個(gè)相對(duì)難度:如果ri=1,那么bij=bi+cji如果ri=0,那么bij=bi-cji其中ri=1表示答對(duì)第i道題,ri=0表示答錯(cuò)第i道題,bij表示受試者j回答第i道測(cè)試項(xiàng)目時(shí)獲得的相對(duì)難度,bi表示第i道測(cè)試項(xiàng)目的參照難度值,cji表示受試者j回答第i道測(cè)試項(xiàng)目的自信心加權(quán)系數(shù)。不同的受試者答對(duì)相同難度的測(cè)試項(xiàng)目,如果自信心不同,其相對(duì)難度也不同,能力估算也不同。在個(gè)性化自適應(yīng)性測(cè)試中,我們采用加權(quán)之后的難度,或相對(duì)難度估算受試者的能力值,下一個(gè)測(cè)試項(xiàng)目的難度就與這個(gè)能力估算值相適應(yīng)。和其他適應(yīng)性測(cè)試模式一樣,這種相適應(yīng)一直進(jìn)行到測(cè)試達(dá)到特定的精度水平,或低于預(yù)先定義的測(cè)試標(biāo)準(zhǔn)誤差。這種個(gè)性化自適應(yīng)性測(cè)試不僅實(shí)現(xiàn)了測(cè)試項(xiàng)目的難度與受試者的能力之間的相適應(yīng)性,而且實(shí)現(xiàn)了測(cè)試過程與受試者個(gè)性特征(如:自信心)之間的適應(yīng)性。4.考試手段的電腦化考試手段電腦化是實(shí)現(xiàn)能力評(píng)估過程化和考試形式個(gè)性化的必然要求,因?yàn)閭€(gè)性化考試以及對(duì)能力進(jìn)行過程化評(píng)估都只能依賴計(jì)算機(jī)得以實(shí)現(xiàn)。計(jì)算機(jī)化考試將成為本世紀(jì)考試發(fā)展的必然趨勢(shì)。一方面它是適應(yīng)現(xiàn)代語言測(cè)試發(fā)展的需求,另一方面電腦和網(wǎng)絡(luò)技術(shù)的發(fā)展為實(shí)現(xiàn)電腦化考試提供了必要的物質(zhì)條件。計(jì)算機(jī)化考試具有傳統(tǒng)的紙筆考試無法比擬的一些優(yōu)勢(shì),比如:它不受考試時(shí)間的限制,十分方便于受試者;它可以減少許多繁瑣的考務(wù)組織工作,降低考試的成本;它可以實(shí)現(xiàn)個(gè)性化考試,提高考試的信、效度;它可以及時(shí)反饋考試的結(jié)果,提高考試的效率;它具有信息量大、處理速度快等特點(diǎn),能夠詳細(xì)記錄受試者的考試過程,實(shí)現(xiàn)過程化的能力評(píng)估。所有這些優(yōu)勢(shì)決定了發(fā)展計(jì)算機(jī)化考試的重要性和必要性。計(jì)算機(jī)化考試的未來發(fā)展還體現(xiàn)在基于語料庫的語言考試(Corpus-basedlanguagetesting)。語料庫是一個(gè)龐大的語言素材的集合體。它具有信息量大、應(yīng)用廣泛等特征。語料庫在語言測(cè)試中的應(yīng)用主要體現(xiàn)在命題和基于語料庫的語言測(cè)試模式設(shè)計(jì)等方面。在命題方面,語料庫首先可以為命題者提供合適的素材,查找合適的材料是命題者普遍感到比較困難而且費(fèi)時(shí)的一個(gè)過程。更為重要的是,語料庫可以為命題者提供考點(diǎn)信息,如果已經(jīng)建設(shè)一個(gè)規(guī)模較大的而且具有語言使用失誤標(biāo)注的學(xué)習(xí)者語料庫,根據(jù)錯(cuò)誤的分布和頻率等信息,命題者就很容易確定哪些詞、語言結(jié)構(gòu)應(yīng)該作為考試的重點(diǎn)。根據(jù)語料庫提供的信息進(jìn)行命題,可以十分有效地提高考試的效度,同時(shí)保證考試的科學(xué)性和針對(duì)性。學(xué)習(xí)者語料庫由于標(biāo)注了學(xué)習(xí)者的語言失誤等信息,它為診斷學(xué)習(xí)者的語言能力提供了科學(xué)的依據(jù),目前我們正利用CLEC(ChineseLearners’EnglishCorpus,桂詩春)設(shè)計(jì)一種基于語料庫的適應(yīng)性診斷測(cè)試(Corpus-basedAdaptiveDiagnosisTesting,CADT)。CLEC是桂詩春教授主持的一項(xiàng)國(guó)家“九五”社科項(xiàng)目,它收集了一百多萬詞的中國(guó)英語學(xué)習(xí)者的寫作語料,學(xué)習(xí)者分為中學(xué)生、公共英語四級(jí)、公共英語六級(jí)、專業(yè)英語低年級(jí)和專業(yè)英語高年級(jí)等五個(gè)層次。CLEC標(biāo)注了這五個(gè)層次學(xué)生在英語寫作中出現(xiàn)的各類錯(cuò)誤,錯(cuò)誤類型包括了詞的拼寫、詞的用法、詞的搭配以及語法等62類錯(cuò)誤?;谡Z料庫的適應(yīng)性診斷測(cè)試可以根據(jù)錯(cuò)誤頻率信息為不同類別的學(xué)生設(shè)計(jì)不同的測(cè)試項(xiàng)目,其中包括單詞拼寫、詞義匹配、詞語搭配、詞語填空、詞義關(guān)系、功能詞填空、動(dòng)詞形式填空、組詞造句、錯(cuò)誤辨別、語篇理解以及寫作練習(xí)等。測(cè)試項(xiàng)目的形式又是決定于對(duì)受試者的語言水平評(píng)估及其學(xué)習(xí)心理的診斷結(jié)果,例如:如果某個(gè)學(xué)習(xí)者的詞匯記憶能力比較強(qiáng),但是詞匯在句子中的應(yīng)用能力相對(duì)弱些,那么,基于語料庫的適應(yīng)性診斷測(cè)試就會(huì)為他/她設(shè)計(jì)一組難度適中的詞匯填空練習(xí)等。這種測(cè)試具有以下幾方面的優(yōu)勢(shì):(1)語料庫為診斷學(xué)習(xí)者的語言能力提供更為科學(xué)的依據(jù);(2)學(xué)習(xí)者的語言能力診斷體現(xiàn)了適應(yīng)性,也就是學(xué)習(xí)者的語言能力分布不同,其能力診斷過程也不同;(3)實(shí)現(xiàn)了計(jì)算機(jī)化的命題過程等。參考文獻(xiàn)[1]Bachman,L.F.a(chǎn)ndPalmer,A.S.1996:Languagetestinginpractice:designinganddevelopingusefullanguagetests[M].Oxford:OxfordUniversityPress.[2]Bachman,L.F.1998.Languagetesting-SLAresearchinterfaces[A].InBachman,L.F.&Cohen,A.D.(eds).InterfacesBetweenSecondLanguageAcquisitionandLanguageTestingResearch[C].NewYork:CambridgeUniversityPress.[3]Bachman,L.F.1998.Modernlanguagetestingattheturnofthecentury:assuringthatwhatwecountcounts[J].languagetesting.[4]Buck,G.1991.Thetestingoflisteningcomprehension:anintrospectivestudy[J].languagetesting8:67-91[5]Cohen,A.D.1998.StrategiesandprocessintesttakingandSLA[A].InBachman,L.F.&cohen.A.D.(eds).InterfacesBetweenSecondLanguageAcquisitionandLanguageTestingResearch[C].NewYork:CambridgeUniversityPress.[6]Hambleton,R.K.a(chǎn)ndSwaminathan,H.1985.ItemResponseTheory:PrinciplesandApplication[M].Boston/Dordrecht/Lancaster:Kluwer.NijhoffPublishing[7]Hambleton,R.K.1989.PrinciplesandSelectedApplicationsofItemResponseTheory[A].InR.L.Linn,(ed).EducationalMeasurement[C].NewYork:Macmillan.[8]Kunnan,A.J.1995.Testtakercharacteristicsandtestperformance:astructuralmodelingapproach[M].Cambridge:UniversityofCambridgeLocalExaminationsSyndicateandCambridgeUniversityPress.[9]Nev0,N.1989.Test-takingstrategiesonamultiple-choicetestofreadingcomprehension[J].LanguageTesting,2:199-215.[10]Norris,J.M.,BrownJ.D.,Hudson,T.a(chǎn)ndYoshioka,J.1998.Designingsecondlanguageperformanceassessments[M].Honolulu:UniversityofHaw[11]Purpura,J.E.1999.Learnerstrategyuseandperformanceonlanguagetests:Astructuralequationmodelingapproach[M].[12]Rocklin,T.R.1994.Self-adaptiveTesting[J].AppliedMeasurementinE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論