度量的概念及其可靠性(ppt 110頁).ppt_第1頁
度量的概念及其可靠性(ppt 110頁).ppt_第2頁
度量的概念及其可靠性(ppt 110頁).ppt_第3頁
度量的概念及其可靠性(ppt 110頁).ppt_第4頁
度量的概念及其可靠性(ppt 110頁).ppt_第5頁
已閱讀5頁,還剩105頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第五章 度量與可靠性,一、概念的度量 二、指標與尺度 三、尺度設置 四、度量的可靠性 五、度量可靠性的評價 六、提高可靠性的方法,一、概念的度量,管理研究涉及各種抽象的概念(Constructs)。做管理研究,首先要對研究中涉及到的概念有準確而全面的把握和認識。 為了正確地度量概念,首先必須明確概念域,在概念的定義中精確描述概念包含了什么以及要排除什么。然后通過操作化用可觀測變量來反映概念。,尺度,一個變量的取值范圍或取值類別的集合稱為“尺度”(Scale),給描述對象賦值的過程稱為“度量”(Scaling),度量既基于理論又基于經(jīng)驗。 操作性描述就是在理論框架的基礎上選擇合適的變量與尺度反映

2、抽象概念。,概念度量面臨的困難,操作性描述必須具有客觀性,在給定條件下要可以重復操作并能得出相同或相近的結果。 要找到一種尺度去度量某個抽象概念往往是困難的,很難找到合適的可測度變量充分反映一個理論概念所包含的意思。操作性描述永遠不會是完全恰當?shù)?。(如診病),概念度量面臨的困難,由于變量受環(huán)境及測試方法等各種因素的影響,使得每個測量都有偏差。強調度量的可重復性和客觀性并不能保證度量的真實性,每個測量結果都只是對真實狀況的一種逼近。 操作性描述具有不充分性,不存在十全十美的度量抽象概念的方法。只靠改進測度方法本身難以解決度量的有效性問題。,概念度量與理論的關系,理論與具體的度量操作是兩個不同的層

3、次,理論概念是一切度量的起點。 理論概念通常是從一組相關原理派生出來的,需要用抽象的、理論上的相關概念來描述。 在進行操作性描述之前,首先要構造一個邏輯框架,即先假設一個命題,作為研究的出發(fā)點。,概念度量與理論的關系,構造假設命題的主要依據(jù)可以是已有的公理或理論。假設命題通常是因果關系命題,研究的目的是要證明假設成立與否,構成假設的基本元素通常就是概念。 由于具體的量度往往不能充分反映理論概念的豐富內涵,因而,不能反過來用操作性描述的結果來描述抽象的理論概念。例如, 對“智商”這一抽象概念,不能定義為“智力測驗的結果” 。,變量與概念之間的關系,單一變量不能包含概念的所有相關方面。同時,變量會

4、涉及一些與擬測度概念無關的方面。單一變量通常不能提供唯一正確的度量。 變量與抽象概念可能是線性關系,也可能是非線性關系。例如:“年薪”與“激勵強度”之間的關系。 關于概念的相關知識可以用來指導我們對度量方法和變量的選擇。比如,在黑夜用一把夜光尺去測量一頭大象的身體。根據(jù)測量去描畫這頭大象,圖中的一部分是來自我們已有的有關大象形狀和大小的知識。,二、指標與尺度,指標和尺度都用于對變量的測度,對變量的度量一般包括一個以上的指標和尺度。 一個指標反映所測度變量的某一個方面的內容,指標的取值是由尺度來表示的。 在被測度內容上的值域范圍或取值的類別集稱為尺度(scale)。尺度被用來反映事物現(xiàn)象在性質、

5、規(guī)模方面的差異。,指標與尺度舉例,企業(yè)盈利能力是一個反映企業(yè)這一分析單位屬性的一個變量; 反映這一變量的指標可以有凈資產(chǎn)收益率、總資產(chǎn)報酬率、銷售利潤率、利潤總額、凈利潤等。 這些指標多度量分別使用比率尺度和貨幣尺度。用不同尺度表示的指標取值表明被測企業(yè)相對于其它企業(yè)在盈利能力方面的優(yōu)劣程度。 智商是一個反映個人這一分析單位屬性的一個變量,智商得分是度量智商的一種尺度,智商得分是根據(jù)受試者對大量問題的回答給出的。,尺度的表示,不同的指標常使用不同的尺度度量。為了對度量結果進行匯總、整理、計算、分析,常常要用數(shù)字來表示尺度。 對某些抽象概念(如技術能力、競爭優(yōu)勢等)可以通過打分來度量。 “有”、

6、“無” 或 “高”、“低”是最簡單的打分,可以用分別數(shù)字“1” 和 “2”來表示。這些數(shù)字在不同情況下具體含義是不同的。 度量的客觀性不應被誤解為定量化,并非所有量度都必須使用定量尺度,文字表述也可能是有效的。,尺度的類別,按度量目的劃分,管理研究中常用的尺度有評價尺度和態(tài)度尺度。 按尺度的賦值是否需要與參照對象比較劃分,尺度可分為比較式尺度和非比較式尺度。 按尺度的賦值是否涉及受試者的偏好劃分,尺度可分為偏好度量尺度和非偏好度量尺度。,尺度的類別,尺度如果用數(shù)字表示,按數(shù)字的數(shù)學特性來劃分,尺度大致可分為四類: 分類尺度 次序尺度 差距尺度 比率尺度,分類尺度,指用數(shù)字來反映現(xiàn)象的性質和類別

7、的尺度。 例如對性別進行分類,可用“1”和“2”分別代表男和女。 這類尺度的數(shù)字之間不能進行任何數(shù)學運算。,次序尺度,指用數(shù)字來反映現(xiàn)象之間的等級和順序的尺度。 如文化程度,可分別用1、2、3、4、5、6來表示文盲、小學、初中、高中、大學、大學以上; 這類尺度不僅能反映現(xiàn)象性質或類別上的差異,而且還能反映現(xiàn)象在高低、大小、強弱、先后等順序上的差別。 這類尺度的數(shù)字可用來比較大小,但還不能反映不同等級間的差異程度,不能進行加、減、乘、除等數(shù)學運算。,差距尺度,指用數(shù)字定量反映現(xiàn)象之間差異程度的尺度。 如用溫度計的刻度來反映環(huán)境溫度的高低。 這類尺度的數(shù)字不僅能反映現(xiàn)象性質或類別上的等級和順序差異

8、,而且還能反映差異的數(shù)量化程度。 這類尺度的數(shù)字之間可以進行加、減運算但不能進行乘、除運算。,比率尺度,指用數(shù)字反映現(xiàn)象之間存在的比例或比率關系。 如出生率、工資增長率等概念就使用這類尺度。這類尺度一般用百分比來表示。 尺度的數(shù)字之間不僅可以進行加、減運算而且可以進行乘、除運算。 用比率尺度度量的現(xiàn)象特性中必須有絕對的或真實的“0”值存在,例如,人口增長率為“0”,就是真實的“0”值。 在使用比率尺度時,必須加以分析和識別。如數(shù)學考試中成績?yōu)椤?”并不表示受試者數(shù)學能力一點沒有,不存在真實的“0”值。,使用不同度量尺度的變量,依不同的度量尺度,變量可分為定名變量、定序變量、定距變量和定比變量。

9、 定名變量:指用分類尺度度量的變量,變量的取值只包括有限的和互不包容的屬性,如性別。 定序變量:指用次序尺度度量的變量,取值可以按某種邏輯進行順序排列,但不能區(qū)分不同取值間的差距。,使用不同度量尺度的變量,定距變量: 指用差距尺度度量的變量,取值間的距離具有的實際意義。 定比變量:指用比率尺度度量的變量,定比變量除具有上述三種變量的全部性質之外,還有一個具有實際意義的“0”點。,三、尺度設置,尺度設置的目的是為研究者提供一個進行變量測度的參照標準或形式。比如,為測試家庭經(jīng)濟水平,可以設計這樣一個尺度:1. 貧窮;2. 一般;3. 富裕。 尺度設置直接關系到測試結果的可靠性及有效性。如果尺度設置

10、不合理,測試結果就會失去意義。 不存在完美無缺的度量方法,各種度量方法都只能近似代表研究對象。在尺度設置過程中經(jīng)常要通過反復試用和對結果進行分析,對度量方案加以修改。,直接判定式尺度設置,比較簡單的尺度設置方法是直接判定式尺度設置,即測試時直接從所設尺度中選擇一個值(答案)作為測試結果。上面所舉的測試家庭經(jīng)濟水平的例子就是直接判定式尺度設置。 尺度設置常用的具體方法有: 圖示尺度、條目化尺度、比較尺度,圖示尺度,將尺度用圖示的辦法表示出來,稱圖示尺度。例如,考察管理者的人際關系情況,可設計如下的圖示尺度測試企業(yè)員工對管理者喜歡的程度。,圖示尺度,圖中有尺度含義的提示,圖上刻度的功能是作為對尺度

11、等級位置的判斷標準,而不是給出離散的類別。 受試者根據(jù)自己的判斷選擇一個最能代表自己意見的尺度值。 圖示尺度是最廣泛使用的方法之一。這種方法的優(yōu)點是使用起來比較方便,但測試結果的有效性較差,這是由于各人對“喜歡”的理解不同,或者說各人在判斷時使用的“參照系”不同而造成的。使用圖示尺度要避免過于極端的結論。,條目化尺度,條目化尺度是選擇一定數(shù)量的反映屬性類別和屬性強度的條目作為尺度的值。條目的設置數(shù)量以511個為適宜。每一尺度值都被賦以或簡略或詳細的文字說明,受試者根據(jù)自己的理解選出合乎意愿的尺度值。 尺度形式要根據(jù)擬研究問題和所需判斷的類型決定。比如要測試員工對領導風格的看法,可以設置如下的尺

12、度:(1)非常民主;(2)民主;(3)中庸;(4)獨斷;(5)非常獨斷。 條目化尺度使用方便,但受到受試者所用“參照系”的影響,有效性較差。,比較尺度,比較尺度明確地要求通過與參照對象的的已知特征進行比較來做出判斷。 比如,要測試某人的領導才能??梢栽O置這樣一個尺度:(1)與A(領導才能)最相近;(2)與B最相近;(3)與C最相近。在這種情況下,要求測試者對A、B、C三人的情況了解得比較清楚。 又如,要測試某項技術的先進程度。尺度值可以設置為(1)國際先進水平;(2)國內先進水平;(3)國內一般水平。,比較尺度,在層次分析法中,測度人們對兩項評價指標相對重要性判斷的尺度為:(1)極端重要;(2

13、)非常重要;(3)相當重要;(4)稍微重要;(5)同樣重要。 比較尺度的一種特殊情況是排序尺度(rank-order scale) ,即對測試內容按一定標準進行比較排隊,如對重要程度、緊迫程度、喜愛程度等的排序。排序能很簡單地表明特定對象按一定標準的順序,使用這種尺度要求測試對象是有限的。,比較尺度舉例,你選擇目前工作的理由是: 工作有意義; 待遇較高; 有機會做創(chuàng)造性工作; 有利于個人成長。 對上述理由從1到4排序,1代表最有解釋力。 請對以下品牌的汽車從1到4排序, 1代表你最想購買,4代表最不想購買。 請將給以下電視機品牌打分,分數(shù)越高表示質量越好,滿分為100分。,多項目(multi-

14、item)度量,由于概念通常具有多維性,而抽象概念的真實值無法直接測度,在概念已明確定義,概念域已確定的情況下,研究者要生成符合概念域的用來度量概念每個維度的項目集合。 與概念域對應的項目集合稱為項目域。理論上,如果項目域中的項目與擬度量的概念維度和元素相對應,并且用項目域中的所有項目來度量概念,那么項目的度量值即為概念的真實值。這是不可能做到的。實際上,要從項目域中抽取項目樣本,用樣本項目的度量值估計概念的真實值。,多項目(multi-item)度量,使用某種方式進行多次度量(比如要求回答多個相關的問題),再把這些度量或回答組合成變量的單一值的方法稱為多項目度量。多項目度量可以對多維性概念進

15、行測度和分析。 在管理研究中,對復雜概念的度量,應盡量避免依靠單一的測度指標和測度方法,盡量使用多維的操作性描述,設計組合的指標和度量尺度,采取多種不同方法和度量項目來度量概念。,多項目度量的必要性,實際研究工作中,很難用單一的標準來度量復雜的變量,特別是觀點和傾向這類復雜的變量。單一的標準只能提供某變量的大概情況,幾種數(shù)據(jù)的組合則可以提供更全面更準確的情況。 使用問卷調查時,沒有任何一個問題可以單獨描述一個變量。應當設計若干問題,每個問題代表變量的一部分。 如果用定序尺度處理變量,單一的標準很難提供足夠的類別,而由幾項內容組成的指標和尺度卻可以做到這一點。,多項目度量的必要性,不同的度量方法

16、可以相互驗證,由于通常不同方法的偏差來源不相同,多項目度量有利于減少測量偏差 ,提高量度的可靠性和有效性。 通過對采用不同指標和方法的度量結果進行對比分析,可以發(fā)現(xiàn)導致偏差的因素,進而有目的、有重點地選擇和改進測試方法。,多項目尺度設置,內容的選擇 組合指標是用來度量變量的。選擇指標內容的首要標準是邏輯上的正確性。例如要度量企業(yè)競爭力,選擇的每項內容都應與企業(yè)競爭力有關。在選擇內容時還要注意差異程度。如果就某項內容而言,企業(yè)之間沒有明顯差異,這項內容在組合指標時就不宜采用。,多項目尺度設置,內容之間的關系 要檢驗組合指標中不同內容之間的相關性。如果某項內容與其他內容完全不相關則應把它刪去。而如

17、果兩項內容相關性太強,那么其中的一項就不必留在組合指標中。 例如,研究企業(yè)的創(chuàng)新傾向,若研究對象在某項內容上表現(xiàn)出有較強的創(chuàng)新傾向,在另一項內容上也應大致具有這種傾向。即便不是如此,在甲內容上表現(xiàn)出創(chuàng)新傾向的研究對象在乙內容上表現(xiàn)出創(chuàng)新傾向的可能性應當比在甲內容上表現(xiàn)出保守傾向的另一研究對象大一些。,多項目尺度設置舉例,例如,要研究商學院教授中“理論型”的教授與“實踐型”的教授面向不同教學對象時的教學效果。需要對“理論型”和“實踐型”的概念加以定義和度量。 度量“理論型”和“實踐型”的指標由三個問題組成。每個問題有兩個選項,對每一問題的回答,選擇第二選項的比選擇第一選項的更重視理論。,度量“理

18、論型”和“實踐型”的項目, “作為商學院的教授你認為哪種能力對教學更重要:管理實踐能力還是管理研究能力?” 這一問題反映受試者對“最佳教學身份”的認識。 “在提高業(yè)務能力方面,你的主要興趣在于管理實踐還是在于對基本管理理論的理解?” 這一問題反映受試者對“主要興趣”的認識。 “在管理研究領域你對案例研究的文章更感興趣還是對探索管理理論的文章更感興趣?” 這一問題反映受試者對“閱讀興趣”的認識。,度量項目之間的兩兩相關關系,度量項目之間的兩兩相關關系,數(shù)據(jù)表明,87選擇“研究者” 作為最佳教學身份的受試者選擇了“管理理論” 作為業(yè)務興趣。只有51選擇“管理者” 作為最佳教學身份的受試者選擇了“管

19、理理論” 作為業(yè)務興趣。這兩項內容的差異為36。同樣,閱讀興趣和業(yè)務興趣之間關系的差異為38(7032),閱讀興趣與最佳教學身份之間關系的差異為21(3615)。 最初這三個問題是由于邏輯上的正確性被選中的。通過對每對問題之間關系的檢驗,證明它們確實可以成為同一變量的度量尺度。,三項度量項目之間的關系,研究對象按照最佳教學身份和閱讀興趣被分為四組,括號里的數(shù)字是各組人數(shù)。每個組的百分數(shù)表明最終興趣在于管理理論的人所占的比例。表的左上角是理論傾向最弱的,表的右下角是理論傾向最強的。,三項度量項目之間的關系(假設),上表中,加上閱讀興趣這項內容之后,業(yè)務興趣和最佳教學身份之間的關系不變。如果這三項

20、內容之間的關系如上表所示,閱讀興趣不能為這組指標增加任何新的信息,就不必保留了。,上市公司財務指標相關性分析,上市公司財務指標相關性分析,多項目度量中要注意的問題,第一,項目必須根據(jù)經(jīng)驗與被測量的概念有關。 第二,項目必須把對所測量維度持有不同觀點的人區(qū)別開。 第三,要避免雙關的或含糊的項目。 第四,項目既要包括積極的也要包括消極的方向,使“同意”或“是”大致和“反對”和“不”各半,這樣防止測量中的默許回答型(acquiescent response style)。,指標分數(shù)的評定,當選定測度內容之后,接著要為不同的答案評定分數(shù)。評定分數(shù)過程中要做出兩個決定: 第一,決定指標取值的范圍。例如,

21、領導風格的取值范圍可以從“非常民主”到“非常獨斷”。 要注意平衡指標各個取值點之間的距離,使每一個點上有足夠的個案。 第二,決定每個問題的具體分數(shù)。一種作法是每個問題分數(shù)相等,另一種作法是對問題做加權處理。,未詳數(shù)據(jù)的處理,處理未詳數(shù)據(jù)(如填“不知道”)的方法有: 第一,如果未詳數(shù)據(jù)不多,可以把它們刪去。原則是保證還有足夠的數(shù)據(jù)供分析用,同時要保證無系統(tǒng)偏差。 第二,可以假定未詳數(shù)據(jù)為某一種答案。如某問卷要求研究對象回答是否參加過某幾項活動。有人只填寫參加過的活動,沒參加過的就空在那里。在這種情況下,可以假定空白處是“沒有參加”。,未詳數(shù)據(jù)的處理,第三,仔細分析未詳數(shù)據(jù)有可能發(fā)現(xiàn)它們所代表的意

22、義。如在某些研究中,人們對某種觀點填“不了解”實際上是“不同意”。要具體情況具體分析。 第四,設中間數(shù)值為未詳數(shù)據(jù)的數(shù)值,如在某指標數(shù)值為0、1、2、3時,可設未詳數(shù)據(jù)為2;對連續(xù)型變量可用平均數(shù)為未詳數(shù)據(jù)的數(shù)值。 第五,可用隨機數(shù)字作為未詳數(shù)據(jù)的數(shù)值。,指標的證實,衡量對某一變量的度量成功與否的方法是對指標的證實。證實組合指標可用下列方法:(1)內部證實 證實指標首先是內部證實。方法是作一個表,以指標總得分為自變量,各項內容的得分為因變量,看其變化是否一致。如果某項內容得分與指標總得分相關系數(shù)很低則應刪去。(2)外部證實 再以關于商學院教授的研究為例?!袄碚撔汀敝笜烁叩氖茉囌咴谄渌麊栴}上也應

23、顯示較強的理論傾向;“理論型”指標低的研究對象在其他問題上也應顯示較低的理論傾向。,指標的外部證實舉例,內容的相對重要性,組合指標中,并非所有的內容都同等重要。例如,反映企業(yè)償債能力的指標可以包括利息保障倍數(shù)、資產(chǎn)負債率、流動比率、速動比率、強制性現(xiàn)金支出比率、到期債務支出比率、現(xiàn)金流動負債比率、現(xiàn)金總債務比率等,這些指標的重要程度是不同的,對兩個企業(yè)進行比較時,在8項指標中有5項指標較好的企業(yè)不一定償債能力比另一個企業(yè)強。解決這一問題的辦法是給指標加權或設置單項控制指標。,根據(jù)組合指標對研究對象分類,當對研究對象進行二維或多維量度時,可以根據(jù)組合指標的量度結果對研究對象分類。例如,美國管理學

24、家羅伯特 布萊克和簡 穆頓在對領導行為的研究中根據(jù)“以任務為中心”和“以人員為中心”這兩種領導風格的組合設計了著名的“管理方格圖”,總結出5種典型的組合狀態(tài),反映出五種典型的領導方式。 分類往往能夠幫助我們理解數(shù)據(jù),但應當注意最好以分類變量為自變量而不是因變量。,管理方格圖,常用的多項目尺度設置方法,里克特(Likert)尺度 迦特曼(Guttman)尺度 保迦德斯(Bogardus)社會距離尺度 瑟斯滕(Thur stone)尺度,里克特(Likert)尺度,里克特尺度是現(xiàn)代調查問卷中普遍采用的提問格式。它的基本形式是給出一個陳述,按照同意的程度進行項目排列。要求調查對象表明他“強烈贊成”、

25、“贊成”、“反對”、“強烈反對”、或“未決定”。(也可不用“贊成”而用“同意”)。 這種格式的特殊價值在于答案具有明確的順序,且容易評定分數(shù)。有五種答案則評分為04或15。 要注意評分的方向,對正面問題給“強烈贊成”者評5分;對反面問題給“強烈反對”者評5分。,里克特(Likert)尺度,里克特度量要求概念是一維的,如果是多維概念的話,要求將其細分成多個一維子集。 里克特尺度可以是由一組問題組成,但每一問題都是一種觀點判斷,要求受試者在列出的贊成或反對的等級尺度中選擇一值。,里克特尺度設置方式舉例,上表是超市對顧客滿意度的調查,里克特尺度的明顯特征是,為避免產(chǎn)生偏差,所有題目都按“正向提問”和

26、“反向提問”分成數(shù)目相等的兩類,并分別以()和()號標識兩種提問,最后分別統(tǒng)計()項題目得分及(一)項題目得分。,使用里克特尺度度量的步驟,使用里克特尺度度量某一概念包括以下幾步: 明確要測量的態(tài)度涉及的基本理論概念; 總結歸納出與態(tài)度有關的項目;要求被調查者作回答;計算分值; 分析哪個項目對測量的可靠性和價值貢獻最大。,里克特尺度的優(yōu)點和不足,里克特尺度制作簡單,用途廣泛,結論可靠,調查內容有一定深度,可以用來測試具有多維尺度的內容,是一種應用范圍比較廣的方法。學校里讓學生對教師的教學效果進行評估所用的調查問卷,往往也包括一組采用里克特尺度度量的問題。 里克特尺度的不足是,沒有給出關于主題接

27、受范圍的信息;當考慮多維的概念時,相同分數(shù)可能會由不同的觀點組合產(chǎn)生的,即得分一樣的結果,每道題的得分可能是不同或相反的(這不一定是一個缺點)。,里克特尺度的變通形式,里克特尺度有許多變通形式,如“語義差異法”,它的題目是由兩個詞義相反的詞組成,然后由測試者給出自己的認同程度分。 使用里克特尺度有時會設置一些掩飾項目。項目的內容不一定要明顯地與概念有關,掩飾項目的作用是掩飾研究者的目的。但掩飾項目有其缺點:一是尋找相關性好又沒有明顯聯(lián)系的微妙項目比較難;二是對結果會有干擾。除非有必要掩飾目的,最好不要用掩飾項目。,語義差異度量,語義差異度量是里克特度量的一種變通形式,語義差異度量是通過對一個主

28、題進行多角度回答來進行度量。 語義差異度量要求人們在兩個反義詞中做選擇 ,然后運用統(tǒng)計技術包括因子分析進行打分。,對領導作風的語義差異度量舉例,為了避免系統(tǒng)偏差,最好不把看上去接近的詞放在一側。,消費者對某超市態(tài)度的語義差異度量,語義差異度量很有實用價值,其最普遍的應用是建立直觀的圖形輪廓。,三維語義差異度量,語義差異判斷也可以將一個概念分成三個維度。如,評價某一個人或組織的行為,可以用社會價值評價、力量強度、主動性等三個維度度量。X軸反映社會價值評價的好壞,Y軸反映力量的強弱,Z軸反映積極和被動。用一個三維圖像來反映各個項目程度。,迦特曼(Guttman)尺度,迦特曼尺度又稱累積度量。其特點

29、是單調的,對調查對象的贊成與否是清楚的。與里克特尺度一樣,迦特曼尺度也注重度量變量指標的強度。迦特曼尺度由一系列題目構成,每一題都有明確的文字說明,對每道題的內容受試者只能用“會”、“同意”或“不會”、“不同意”等來回答。迦特曼尺度是“累積”模式,每題具有一個尺度值(得分),題目之間具有高分題內容包含低分題內容的的關系,滿足數(shù)值大的項目時,同時也滿足小數(shù)值項目。,迦特曼尺度舉例,比如數(shù)學能力測試中,可以設(1)加減法一題,(2)乘除法一題,(3)四則運算一題。這樣受試者對每道題的回答結果只能是“會”或“不會”。而且會四則運算一般也會前兩道題,這就是題目之間的包含關系。 迦特曼尺度要求題目的設置

30、是一維尺度,也就是說題目的內容都是反映單一內涵,而不具有多層含義。,迦特曼尺度的優(yōu)點,迦特曼尺度的優(yōu)點是:測試結果具有單調性,對每一個測試項目的回答都反映了對所有項目回答的完整信息,知道一個人的測試得分情況,就可以推知該人對每一個問題的態(tài)度; 測試結果也是對題目設置是否符合一維性的復核。如果排除隨機誤差后,測試結果不具有包含性,則說明題目設置不是迦特曼尺度。,迦特曼尺度的缺點,只能對一維尺度問題進行測試,多維問題不適用; 對許多管理問題,設置迦特曼尺度較難把握問題的一維性; 簡單的隨機誤差會破壞累積模式,使得確定是否是“真”變得困難; 受單調性特點的限制,如果某一人群態(tài)度模式不具備單調性質,或

31、某一時刻是單調的,以后又不是單調的,測試就不具有有效性。,迦特曼尺度適用的答案模式,答案模式分為兩種。反映了指標的趨強結構的答案模式稱為“尺度型”答案模式未反映指標的趨強結構的答案模式稱為“混合型”答案模式。迦特曼尺度適用于“尺度型”答案模式,“指標得分”與“尺度得分”,前例中對商學院教授理論傾向的度量,可以有兩種評分方式。 一種方式是每個問題分數(shù)相等,對選擇“理論型”答案的給1分,選擇“實踐型”答案的給0分。所有得分加起來為總得分,這里稱“指標得分”; 另一種方式是按指標的趨強結構計分,在最強指標最佳教學身份上選擇“理論型”答案的給3分,在次強指標業(yè)務興趣上選擇“理論型”答案的給2分,在最弱

32、指標閱讀興趣上選擇“理論型”答案的給1分,對各個問題的得分不相加,只計最高分,這里稱“尺度得分”。,不同答案模式的指標得分和尺度得分,尺度型的答案模式指標得分和尺度得分一致,適合于采用迦特曼尺度。混合型的答案模式指標得分和尺度得分不完全一致,不適合于采用迦特曼尺度。,答案的再現(xiàn)系數(shù),混合型答案是有偏差的答案,混合型答案的個數(shù)占答案總個數(shù)的比例反映了測度偏差的大小。 我們把尺度型的答案個數(shù)占答案總個數(shù)的比例稱為再現(xiàn)系數(shù),再現(xiàn)系數(shù)越高,度量的偏差越小。,瑟斯滕(Thur stone)尺度,與迦特曼尺度類似,瑟斯滕尺度的形式是: 給受試者提供與同一內容相關的一系列題目選項,每一題都有明確的文字說明,

33、并且每一題都根據(jù)對有關事物所持傾向的程度不同,被賦予不同的得分值。 每道題目的得分都是經(jīng)專家事先評估給定的。受試者選擇其中與自己觀點相近的幾個題目選項,相應的也就有了幾個得分值,把這幾個分值平均后,最后就得出反映受試者觀點的得分值。,瑟斯滕(Thur stone)尺度,與里克特尺度和迦特曼尺度不同的是:瑟斯滕尺度的測試項目不要求具有單調性,判斷者只有當項目陳述近似于其觀點時才同意,而在里克特尺度和迦特曼尺度的測試項目中,判斷者的選項是連續(xù)變化的。,構建瑟斯滕尺度的過程,構建瑟斯滕尺度是一個復雜的多步過程: 首先要設計一系列代表不同觀點的陳述,對這些陳述進行分類、賦值,第一類包括判斷人認為最贊成

34、的陳述,以此類推。含糊的、無關的陳述應舍棄。 然后將各類陳述打亂讓被調查者選擇,最后計算他們所同意的項目得分的平均值。,瑟斯滕尺度的基本形式,瑟斯滕尺度的基本形式是“間距相等”。反映變量把多項內容交給一組專家裁判,請他們評定每項內容適于做某變量指標的程度。 比如,將“員工士氣”作為變量,分數(shù)從1到13,如果裁判認為某項內容很弱,則評1分,某項內容很強,則評13分,余類推。 所有裁判評定完之后,研究者要查看某項內容上所有裁判評分的一致程度。評分很不一致的內容應刪去。,瑟斯滕尺度的優(yōu)點和缺點,瑟斯滕尺度的優(yōu)點是,尺度項目可以劃分得較細;可以計算被調查者的接受程度;測試結果是對題目設置合理性的一種復

35、核。 瑟斯滕尺度缺點是,尺度設置比較復雜和困難,剔除含糊的和無意義的題目需要花較多時間;題目設置及判斷賦值受主觀影響比較大,其結果的有效性不強。瑟斯滕尺度如今較少被采用,原因在于每位裁判評分的質量取決于其自身的經(jīng)驗與知識,而且變量的重要性也會隨時間而改變。,幾種典型度量尺度的基本差別,里克特尺度、迦特曼尺度和瑟斯滕尺度的基本差別在于關于人的觀點和對個別項目給出的答案之間關系的假設不同。 瑟斯滕(Thurstone)尺度(也稱差別度量)基于這樣的假設:持有特定態(tài)度的人只同意所表達的觀點與他們的自己的觀點相近似的項目,只反對所表達的觀點與他們的自己的觀點不相一致的項目。,幾種典型度量尺度的基本差別

36、,迦特曼(Guttman)尺度(也稱累積度量)包含這樣的假設:持有特定觀點的人將同意在某一維度與其觀點同一方向的項目,反對與其觀點不同方向的項目; 里克特(Likert)尺度(也稱求和度量)基于這樣的假設:同意每一個項目的概率的增加或減少,決定于對觀點的個人態(tài)度。,四、概念度量的可靠性,可靠性是指在何種程度上度量避免了隨機誤差成分。隨機誤差小,可靠性就強,反之就差。 可靠性是有效性的必要非充分條件。可靠性與概念建構有效性之間,一般有下述四種關系:(1)有效的度量一定是可靠的度量。(2)無效的度量可能可靠,也可能不可靠。(3)可靠的度量,既可能有效,也可能無效。(4)不可靠的度量一定是無效的。,

37、度量可靠性與有效性的關系,精確和準確的關系,可靠并不意味著正確??煽慷粶蚀_屬于系統(tǒng)誤差;準確而不可靠則屬于隨機誤差。 不應混淆精確和準確這兩個概念。精確程度反映度量的可靠性,而準確程度反映度量的有效性。精確和準確都是衡量度量成敗的重要標準。 一般來說,精確的度量優(yōu)于不精確的度量,然而精確并不一定總是必要的。精確度與準確性之間存在著某種程度的相克關系。概念的操作化應當對精確度作出規(guī)定。如果不能確定精確到什么程度合適,則盡量精確一些。,影響有效性與可靠性的因素,一旦大量的主觀判斷元素用于分析,系統(tǒng)誤差和隨機誤差都會影響測量。 在度量過程中,常見的導致系統(tǒng)誤差的因素有: 分布誤差(distribu

38、tional error) 光暈偏差(halo bias ) 參照系偏差( reference frame bias ) 自我中心效應(egoecentric error) 循序效應(sequential error) 評估者偏差( evaluator bias ) 這些因素導致的系統(tǒng)誤差會降低度量的有效性。,分布誤差,分布誤差可分為 仁慈誤差(error of leniency) 嚴峻誤差(error of severity) 中間傾向誤差(error of central tendency),光暈偏差和參照系偏差,光暈偏差 指的是評價者將對評價對象在某一特定維度的積極或消極的評價推廣到到另

39、一維度的評價中的傾向。 參照系偏差 指的是被調查者的主觀印象與某個特定的度量值不能準確對應造成的偏差。被調查者用于分析判斷的參照系會影響他所選擇的度量值。在某些情況下,被調查者會將他人的判斷作為參照系,傾向于迎合社會價值判斷而規(guī)避極端的回答。,自我中心效應導致的偏差,自我中心效應 自我中心效應的產(chǎn)生源于評價者以自我知覺作為評價標準,可分為“對比效應”和“類比效應” 。 對比效應(contrast effect) 受自我知覺的影響,評價者將評價對象評得與自我知覺完全相反。 類比效應(similarity effect) 受自我知覺的影響,評價者將評價對象評得與自我知覺完全一致。,循序效應偏差和評

40、價者偏差,循序效應 評價可能涉及若干層面,先做的評價影響后做的評價。評價者對評價對象的前一個層面評價較高,在后一個層面會故意壓低評價。這常見于上司對部屬的評價中。 評估者偏差 評價者在評價中受評價對象的身份及其它屬性的影響,有意無意(通常是無意的)造成偏差。,導致隨機誤差的因素,隨機誤差降低度量的可靠性。在實際研究中有許多因素使度量不具有可重復性,這些因素的數(shù)量與種類取決于測試的性質及測試是如何進行的。 影響可靠性的因素可分為不同測試間的影響因素和一次測試內的影響因素。,根據(jù)不同測試的結果判斷可靠性,可靠性評價所關心的隨機錯誤成分不是一成不變的,不同情形下會有所不同。這樣,在不同情況下的度量結

41、果的相關性(重復測試相關性)就為評價可靠性提供了基礎。 可靠性與多次度量結果的穩(wěn)定性有關,如果多次度量所得結果相同或相近,則說明度量結果受隨機誤差的影響較小,可靠性好,反之則差。 根據(jù)重復進行的度量之間的關系,可靠性又可分為反復測試可靠性(Test-Retest Reliability)和平行測試可靠性(Parallel-Form Reliability)。,根據(jù)一次測試的結果判斷可靠性,隨機誤差成分不僅隨時間變化,而且在同一次測試過程中在不同的問題或測試項目之間也會變化。測試內影響因素就是指在一次測試中,在測試的不同問題或項目之間發(fā)生的隨機干擾。 這類干擾主要是通過評價項目間的內部一致性而加

42、以評定的。運用內部一致性的原理,我們可以通過檢查不同題目的測試結果是否一致,從而據(jù)此判斷隨機誤差的影響程度,并評估測試結果的可靠性。,評價測試結果可靠性的假設,采用這種方法評價可靠性的關鍵假設是在沒有隨機誤差發(fā)生的情況下,所有的度量項目(items)所度量的都是同一個基本屬性(trait),具體項目之間的度量差異就可以作為評價隨機誤差影響的基礎。 如果隨機誤差對度量影響很大,在個別項目上的得分就會有高有低,從而降低了項目之間的相關性。與此相應,如果隨機誤差很小,則意味著每個項目度量的是同一個屬性,從而在一個項目上得分高,在另一個項目上得分也會高,即項目間相關程度高。,五、度量可靠性評價,度量可

43、靠性的評價分為 1與度量穩(wěn)定性有關的可靠性評定 (1)反復測試可靠性 (Test-Retest Reliability) (2)平行測試可靠性 (Parallel-Form Reliability) 2基于度量的內部一致性的可靠性評定,反復測試可靠性,在兩次不同的時間,對完全相同的測試對象進行完全相同的度量。兩次度量結果之間的相關程度可以解釋為度量隨時間變化的穩(wěn)定性。 由于受試對象是人,兩次測試的時間間隔應足夠長,否則受試人對上次測試的記憶會影響第二次測試的回答,使兩次測試獲得不真實的高相關性。 兩次測試的時間間隔也應足夠近,否則待測的屬性可能在這期間受某些影響而發(fā)生變化,這樣兩次測試的真實值

44、可能變化。實際研究中這一時間間隔通常取兩個星期。,平行測試可靠性,這種方法與反復測試方法的差別在于兩次測試具有可比的高度相似性而不是完全相同。 通常兩次測試有相似的項目和同樣的回答方式,而只是在措詞和項目順序等方面有差別,如果兩次度量結果間顯示出高相關性,就可以排除由于措詞、問題順序以及其他因素導致的隨機干擾。,基于內部一致性的可靠性評定,度量項目間缺乏內部一致性的原因來自兩方面: 一是項目間本身缺乏公共核,這是表面有效性和內容有效性的問題; 二是度量過程中不同項目間受到隨機因素干擾,引起度量結果不可靠。 假設沒有隨機誤差發(fā)生,所有的度量項目(items)所度量的都是同一個基本屬性,因此,具體

45、項目之間的差異可以作為評價隨機誤差影響的基礎。,二分法(Split-Half Reliability),二分法是將一次度量中的項目分為兩部分,以這兩部分度量結果的相關程度作為評價可靠性的基礎。 二分法存在的問題是,評價的準確與否依賴于項目如何劃分。這一因素一定程度上把不希望有的主觀性引入了可靠性的評價過程。 若有2n個度量項目,可能的劃分方式有,種,對于有10個項目的量表就有126種項目分半劃分的可能,選擇項目劃分方式會引入主觀性。,參數(shù)法(Cronbach ),參數(shù)法是對每一個項目與其他所有項目作相關度計算,從而避免了在二分法中把項目分為兩半所引入的主觀性。 一般認為,參數(shù)法優(yōu)于二分法。事實

46、上,在數(shù)量上與所有可能的二分法測得的可靠性平均值相等。 的取值從0到1,取值為0表示完全不可靠,取值為1表示完全可靠。,參數(shù)法(Cronbach ),的計算公式如下:,其中: k = 量表中項目的個數(shù); 項目 i 的方差; 量表的總方差。,參數(shù)法(Cronbach ),對于項目值域只有兩個值的情況,公式為:,其中:k = 量表中項目的個數(shù);p = 第一種類型回答的比例;q = 第二種類型回答的比例; 量表的總方差。,參數(shù)法示例,用參數(shù)法可以衡量度量的內部一致性,在具有較高參數(shù)的情況下,可以同時得到滿意的內容有效性和可靠性。 我們設想用一個量表對實行CIMS工程可能帶來目標效益的概率進行評估。量

47、表由6個項目組成,分別是財務收益提高,市場應變能力增強,企業(yè)信譽提高,管理水平提高,技術能力提高,對外合作能力增強。每個項目的得分從1分(不可能)到7分(可能)。用這個量表對不同的專家和技術、管理人員進行測試。下表是測試結果的協(xié)方差矩陣。,測試結果的協(xié)方差矩陣,* 帶下劃線的值是項目方差,參數(shù)法示例,因為量表的總方差 因此,,參數(shù)法示例,首先計算各項目方差(對角線元素)和: = (3.49+2.46+3.37+3.62+3.62+3.52)=20.08 再計算對角線下方元素即協(xié)方差和: =2(1.07+2.04+1.45+1.10+1.91+0.83+1.62 +1.00+0.58+1.97+1.80+2.30+1.61+1.35+2.03)45.32 于是得: 證明度量具有較高的可靠性。,六、提高可靠性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論