數(shù)據(jù)的初步整理-統(tǒng)計圖表_第1頁
數(shù)據(jù)的初步整理-統(tǒng)計圖表_第2頁
數(shù)據(jù)的初步整理-統(tǒng)計圖表_第3頁
數(shù)據(jù)的初步整理-統(tǒng)計圖表_第4頁
數(shù)據(jù)的初步整理-統(tǒng)計圖表_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章數(shù)據(jù)的初步整理

——統(tǒng)計圖表第一節(jié)范疇型數(shù)據(jù)的整理第二節(jié)數(shù)值型數(shù)據(jù)的整理一、原始數(shù)據(jù)二、次數(shù)分布表三、次數(shù)分布圖

同任何研究一樣,語言研究的目的是為了探討和說明問題,以便深入地了解事物或現(xiàn)象的本質(zhì)及其相互關(guān)系,而對數(shù)據(jù)的統(tǒng)計分析是實現(xiàn)這一目的的重要一環(huán)。對原始數(shù)據(jù)進行整理的基本方法之一是編制統(tǒng)計圖表。統(tǒng)計表把被說明的事物及有關(guān)統(tǒng)計數(shù)字分門別類地整齊地表示出來,簡潔明了,易于比較分析;統(tǒng)計圖則使數(shù)據(jù)的突出特征具體、形象、直觀、生動地展示出來,易于理解,且印象深刻。因而,圖表的適當(dāng)應(yīng)用可以起到去粗取精、化繁為簡的作用。第一節(jié)范疇型數(shù)據(jù)的整理

在語言研究中經(jīng)常要把研究對象(人、反應(yīng)、語言現(xiàn)象等)按某種標準分成相互排斥的類或范(或者根據(jù)多種標準交叉分類),這類數(shù)據(jù)叫做范疇型數(shù)據(jù)(見第一章“稱名變量”)。對于范疇型數(shù)據(jù)的整理,主要是進行分類并計算出每一類的觀察次數(shù)和相對次數(shù)(即在總次數(shù)中所占的百分比),最后以表和條線圖的形式表示出來。

例如,我們從學(xué)生的英語作業(yè)中收集到90個錯誤,經(jīng)分析,其中30個是由漢語干擾造成的,25個是由過度概括造成的,個是個是由教學(xué)方法不當(dāng)造成的,20個是由教學(xué)方法不當(dāng)造成的,15個是由其它原因造成的。此數(shù)據(jù)可以整理如下表(相對次數(shù)也可以加括號放在次數(shù)之后):該數(shù)據(jù)也可以用條線圖進行更直觀的表示:坐標中橫坐標代表范疇或類別,縱坐標代表每個類別的觀察次數(shù)。第二節(jié)數(shù)值型數(shù)據(jù)的整理語言研究中更經(jīng)常遇到的是數(shù)值型數(shù)據(jù),譬如考試分數(shù)、句子閱讀時間、每句單詞數(shù)等。如果數(shù)據(jù)量很?。ㄆ┤缰挥袔讉€數(shù)值),把它列舉出來即可,而不需進行任何整理,但是對于數(shù)量較大的數(shù)據(jù),則必須利用圖表進行初步整理,才能更易看出其中帶有規(guī)律性的特點,尤其是數(shù)據(jù)中各數(shù)值的分布情況,譬如數(shù)據(jù)的集中趨勢及離中趨勢(詳細討論見第三章),即數(shù)據(jù)的典型數(shù)值以及數(shù)值之間的差異程度。一、原始數(shù)據(jù)下面一組數(shù)據(jù)為一篇英語閱讀材料中100個句子的長度數(shù)據(jù)(以音節(jié)數(shù)表示):表2.2(a)100個英語句子的長度值﹡294036582023441847182217131211202191462681724279162812222156442635215517504048201412171025242018181920152623161812241240342613371922224817231416131019179161213916191914101116161588151539445129

582921171356282017125527201612512620161250262016124826201612482619161247251916114424191611442419151044241915104023181510402318159402318149392218149372218149362217148352217138342117138292117136表2.2(b)100個句子的長度(按數(shù)值大小排列)

對于這樣數(shù)值數(shù)目較大的數(shù)據(jù),按表2.2(a)列舉,其用處是很有限的,因為它雜亂無序,難以獲得有價值的信息。如果像表2.2(b)按照數(shù)值的大小順序列舉,數(shù)據(jù)的條理性和清晰性就可以大大提高。表2.2(b)看起來比表2.2(a)清晰多了,稍加分析就可以看出數(shù)據(jù)的分布情況,例如,最長句與最短句的長度是多少,二者之間的距離有多大(可粗略表示數(shù)據(jù)的離散情況),哪些長度的句子出現(xiàn)次數(shù)比較多(大體表示數(shù)據(jù)的集中情況,等等。二、次數(shù)分布表

盡管通過排序,數(shù)據(jù)的條理性有所提高,但是表2.2(b)仍然不夠簡明,不能做到一目了然。從表中可以看出,數(shù)據(jù)中數(shù)值出現(xiàn)的次數(shù)或頻率是不同的,有的只出現(xiàn)一次,而大部分是重復(fù)出現(xiàn)的,如果把重復(fù)出現(xiàn)的數(shù)值在表中只列舉一次,隨后標明其出現(xiàn)的次數(shù),就可以把數(shù)據(jù)進一步壓縮,使其更加條理化。這樣的表稱為次數(shù)分布表。1.未分組與分組次數(shù)分布表

次數(shù)分布表示數(shù)據(jù)的散布情況,而次數(shù)分布表則是對數(shù)據(jù)進行初步整理的重要手段,它能較為直觀地表示出數(shù)據(jù)的分布情況,使人們得以大體上了解數(shù)據(jù)的平均水平和差異情況等。一般來講,次數(shù)分布表的最左邊一列為各個數(shù)值,接下來為登記次數(shù),其次為各數(shù)值出現(xiàn)的次數(shù)。上述句子長度數(shù)據(jù)的次數(shù)分布表如下:表2.2(c)不僅清楚地顯示出了句子長度的分散范圍,而且表明了各長度的句子出現(xiàn)的次數(shù),其中次數(shù)最高(7)的長度是16,其他長度的句子,出現(xiàn)的次數(shù)向兩邊逐漸減少直至1,出現(xiàn)次數(shù)較低的句子多為長句。2.編制分組次數(shù)分布表的方法

編制分組次數(shù)分布表的關(guān)鍵是確定組距和組數(shù)。具體方法如下:(1)求全距或兩極差:全距是指一組數(shù)據(jù)中最大數(shù)值與最小數(shù)值之差,因此,只要在數(shù)據(jù)中找出最大數(shù)值與最小數(shù)值,然后從前者減去后者,即得全距。(2)求組距:組距也叫做分組區(qū)間,指每組中最高數(shù)值(成為“上限”)與最低數(shù)值(成為“下限”)之間的距離,常用符號i表示,為了便于計算分組區(qū)間和組中點。各組組距應(yīng)盡量相等。常用組距一般為2,3,5,10等,但最好取單數(shù),這樣便于定組中點。為了能確定一個最佳的組數(shù),當(dāng)數(shù)據(jù)的總體分布為正態(tài)時,可以用下面的公式計算K=1.87(N-1)2/5(2.1)式中K——組數(shù)(取近似整數(shù))N——數(shù)據(jù)中數(shù)值的個數(shù)(3)確定具體分組區(qū)間:各分組區(qū)間按照數(shù)值的大小,從高到低或從低到高排列均可,最高一組和最低一組應(yīng)能分別包含數(shù)據(jù)中的最大值和最小值。而且最高組或最低組的下限最好只組距的整數(shù)倍。分組區(qū)間列出后,要找出組中點,方法:上限與下限之和除以2,或每組下限加組距之半。例如10~15這一分組區(qū)間的組中點為(10+15)/2=12.5,或10+5/2=12.5。(4)登記次數(shù):這一步需注意兩點:一是每組的精確上下限,這樣才能處于組限的數(shù)據(jù)(尤其是含有小數(shù)的數(shù)值)歸入適當(dāng)?shù)慕M別;二是要防止漏登或重復(fù)登記等訛誤。(5)計算次數(shù):全部數(shù)據(jù)登記完畢,數(shù)一數(shù)每個分組區(qū)間內(nèi)數(shù)值的個數(shù),即得出各組的次數(shù),然后把各組次數(shù)相加,就得出總次數(shù)。通常用字母f來表示次數(shù),那么總次數(shù)就為,等于數(shù)據(jù)中數(shù)值的的總個數(shù)N。還可在各組次數(shù)的基礎(chǔ)上進一步計算相對次數(shù)、累計次數(shù)和相對累積次數(shù)。三、次數(shù)分布圖如果用統(tǒng)計圖來表示數(shù)據(jù)的次數(shù)分布,則更加直觀清楚。比較常用的統(tǒng)計圖有次數(shù)分布直方圖和次數(shù)分布多邊圖。這兩種圖都是用面積來表示數(shù)據(jù)的分布。1.次數(shù)分布直方圖分組數(shù)據(jù)的次數(shù)分布直方圖的繪制方法如下:(1)畫一個直角坐標系,在橫坐標上標明各分組區(qū)間,在縱坐標上標出次數(shù)。分組區(qū)間一般有兩種標示方法:一種是標出各組的下限;另一種是標出各組的組中點。

(2)在每個分組區(qū)間上面畫一直方形,其寬度等于組距,高度等于每分組區(qū)間的次數(shù)。如果橫坐標上標的是每組的組中點,那么組中點應(yīng)位于直方形底邊的正中間。(3)把各直方形連在一起(中間不留間隙)。上述句子長度數(shù)據(jù)的次數(shù)分布直方圖如圖2.2當(dāng)然,也可以用未分組的數(shù)據(jù)繪制次數(shù)分布直方圖。這時橫坐標表示的是每一個數(shù)值,縱坐標表示數(shù)值的次數(shù),直方形要繪在橫坐標上的每個數(shù)值之上,其寬度要相等,標出的數(shù)值應(yīng)位于直方形底邊的中間。但是如果數(shù)據(jù)量較大,就會給分布圖的繪制以及顯示信息的清晰度帶來一些問題,因為在一定的空間內(nèi)難以把所有數(shù)值清楚地安排在橫坐標上;此外,這樣的分布圖對數(shù)據(jù)的整理和壓縮作用也不大。2.次數(shù)分布多邊圖次數(shù)分布多邊圖的繪制與直方圖的繪制基本相同。對于未分組數(shù)據(jù),在橫坐標上的每個數(shù)值的上方畫一個點,點的高度等于各數(shù)值的次數(shù)。對于分組數(shù)據(jù),則在橫坐標的每個分組區(qū)間的組中點上方畫一個點,點的高度等于各分組區(qū)間的次數(shù)。然后用直線把各點連接起來。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論