版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
目錄TOC\o"1-5"\h\z\o"CurrentDocument"第二章數(shù)據(jù)的收集與整理 2\o"CurrentDocument"第一節(jié)數(shù)據(jù)的收集 3一、數(shù)據(jù)的來源 3\o"CurrentDocument"二、統(tǒng)計調(diào)查方案設(shè)計 3\o"CurrentDocument"三、統(tǒng)計調(diào)查方法 5\o"CurrentDocument"四、統(tǒng)計調(diào)查的組織方式 5第二節(jié)數(shù)據(jù)的整理 8一、數(shù)據(jù)的審定 8\o"CurrentDocument"二、數(shù)據(jù)的分組 8\o"CurrentDocument"第三節(jié)次數(shù)分布 9\o"CurrentDocument"一、次數(shù)分布數(shù)列及其種類 9\o"CurrentDocument"二、變量數(shù)列的編制 9\o"CurrentDocument"英文摘要與關(guān)鍵詞 13習題 14第二章數(shù)據(jù)的收集與整理通過本章的學習,我們應(yīng)該知道數(shù)據(jù)的來源數(shù)據(jù)是如何收集的數(shù)據(jù)是如何整理的如何做次數(shù)分布表數(shù)據(jù)的收集與整理是依據(jù)統(tǒng)計分析的目的和要求,有組織有計劃地搜集數(shù)據(jù)資料并對其進行去偽存真、去粗取精的分類整理、濃縮簡化的工作過程。它是進行統(tǒng)計分析的必要前提,是保證統(tǒng)計數(shù)據(jù)客觀、真實、準確、可靠的關(guān)鍵。由于我們所研究的現(xiàn)象復(fù)雜多變,特別是在市場經(jīng)濟條件下,利益主體的多元化以及同行之間保守商業(yè)秘密,要取得令人滿意的數(shù)據(jù)成為一個相當艱巨的過程。這就使得數(shù)據(jù)的收集與整理,成為人們所關(guān)注和研究的重要問題。第一節(jié)數(shù)據(jù)的收集數(shù)據(jù)收集,就是根據(jù)統(tǒng)計研究的目的要求,采用一定組織形式與科學方法,進行采集與研究問題有關(guān)的各類數(shù)據(jù)信息的工作過程。數(shù)據(jù)收集是一種廣義的統(tǒng)計調(diào)查,其收集的總體范圍可大可小,收集的內(nèi)容可簡單亦可復(fù)雜,可以是原始資料也可以是次級資料,收集的方式靈活多樣。一、數(shù)據(jù)的來源按照獲取途徑不同,數(shù)據(jù)可分為原始數(shù)據(jù)和次級數(shù)據(jù)資料。原始數(shù)據(jù)也稱為第一手資料,是反映被調(diào)查對象原始狀況的資料。如原始記錄、統(tǒng)計臺帳、調(diào)查問卷答案、實驗結(jié)果等。次級數(shù)據(jù)也稱為第二手資料,是已經(jīng)存在的經(jīng)他人整理分析過的資料。如期刊、報紙、廣播、電視以及因特網(wǎng)上的資料,各級政府機構(gòu)公布的資料,企業(yè)內(nèi)部記錄和報告等。一般在可能的情況下盡量使用第一手資料,它比第二手資料更加豐富、更加準確。使用第二手資料是因為其收集成本和所花費時間比較節(jié)省。數(shù)據(jù)集01的數(shù)據(jù)來自《中國統(tǒng)計年鑒》,數(shù)據(jù)集02是世界銀行根據(jù)各國國家所報送的資料整理的,所以它們是次級數(shù)據(jù);數(shù)據(jù)集03是直接對公司職工情況的記錄;數(shù)據(jù)集04是直接從流水線上采集的,所以它們都是原始數(shù)據(jù)。一般而言,統(tǒng)計調(diào)查是獲取數(shù)據(jù)的主要形式,收集到的主要是第一手資料;查閱文獻、年鑒,上因特網(wǎng)等是獲取統(tǒng)計資料的輔助形式,收集到的主要是第二手資料。在信息化時代,數(shù)據(jù)成為海洋。如何在數(shù)據(jù)海洋中汲取豐富的營養(yǎng)而不被大海的波濤吞沒?首先應(yīng)該對自己的事業(yè)投入更多的精力,對它有更清晰的理解;其次是掌握信息渠道,即知道自己所需要的數(shù)據(jù)如何獲得;再者就是對獲得的數(shù)據(jù)進行深度加工,成為指導(dǎo)我們決策的依據(jù)。如數(shù)據(jù)集02是1995年的資料,十年過去了,現(xiàn)在的情況怎么樣了?你知道如何去收集現(xiàn)在的資料嗎?網(wǎng)絡(luò)鏈接: 世界銀行的數(shù)據(jù)庫 /data-query/除了著名的國際組織、各國的官方統(tǒng)計機構(gòu)免費提供宏觀數(shù)據(jù)外,許多行業(yè)組織和咨詢機構(gòu)也以免費或收費的方式提供行業(yè)數(shù)據(jù)、企業(yè)數(shù)據(jù)庫以支持企業(yè)決策。網(wǎng)絡(luò)鏈接:數(shù)據(jù)中華一情報分析 /DataCenter/dataindex.asp二、統(tǒng)計調(diào)查方案設(shè)計數(shù)據(jù)收集的主要形式是統(tǒng)計調(diào)查,它是一項復(fù)雜的工作。要搞好統(tǒng)計調(diào)查必須按照統(tǒng)計任務(wù)的要求,運用科學的方法,有組織、有計劃地進行。為使統(tǒng)計調(diào)查得以順利進行,在組織調(diào)查之前,必須首先設(shè)計一個周密、可行的調(diào)查方案。統(tǒng)計調(diào)查方案的設(shè)計包括以下內(nèi)容:明確調(diào)查目的明確調(diào)查目的,就是要明確統(tǒng)計調(diào)查要解決什么問題,為什么要進行統(tǒng)計調(diào)查。只有明確了調(diào)查目的,才能有的放矢,才能根據(jù)調(diào)查目的收集與之相關(guān)的資料。這樣,既可以降低調(diào)查成本,又可以保證調(diào)查資料的時效性。例如,我國進行了五次人口普查,其目的均不一樣。1953年人口普查,是為了準備全國人民代表大會及地方人民代表大會的選舉做好選民登記工作,并為國家的經(jīng)濟、文化建設(shè)提供確實的人口數(shù)字。1964年人口普查,是為了給編制國民經(jīng)濟建設(shè)第三個五年計劃和長遠規(guī)劃提供依據(jù)。1982年人口普查是為了進行社會主義現(xiàn)代化建設(shè),統(tǒng)籌安排人民的物質(zhì)和文化生活,制訂人口政策和規(guī)劃,提供人口資料。1990年人口普查是為了查清中國人口在數(shù)量、地區(qū)分布、結(jié)構(gòu)和素質(zhì)方面的變化,為科學地制定國民經(jīng)濟和社會發(fā)展戰(zhàn)略與規(guī)劃,安排人民的物質(zhì)和文化生活,檢查人口政策執(zhí)行情況,提供可靠的資料。2000年人口普查,是為了準確查清人口在數(shù)量、地域分布、結(jié)構(gòu)素質(zhì)和居民環(huán)境等方面的變化情況,獲得社會經(jīng)濟、人口等方面大量而豐富的信息。調(diào)查目的一定要表述清楚,調(diào)查項目的設(shè)定取決于調(diào)查目標。確定調(diào)查對象和調(diào)查單位調(diào)查對象和調(diào)查單位是根據(jù)調(diào)查目的而確定的。所謂調(diào)查對象是指需要調(diào)查和研究的由許多性質(zhì)相同的調(diào)查單位所組成的現(xiàn)象總體。所謂調(diào)查單位,是指所要研究的個體,也就是我們所要調(diào)查的具體單位,它是進行調(diào)查登記的標志承擔者。例如,調(diào)查目的是為了獲取國有企業(yè)的改制狀況,那么,所有的國有企業(yè)就是調(diào)查對象,而具體的每一個國有企業(yè)就是調(diào)查單位。確定調(diào)查對象是一個比較復(fù)雜的問題,因此,必須明確總體界限,劃清調(diào)查的范圍,區(qū)別應(yīng)調(diào)查和不應(yīng)調(diào)查的現(xiàn)象。例如調(diào)查城鎮(zhèn)居民家庭收入狀況,必須把城鎮(zhèn)居民家庭與農(nóng)村居民家庭的收入?yún)^(qū)分開來;調(diào)查城鎮(zhèn)家庭中工人收入狀況,除了明確城鎮(zhèn)家庭的范圍外,還必須區(qū)分工人的界限。確定調(diào)查單位,既是一個理論問題,又是一個實際問題,從理論角度出發(fā),就是要賦予調(diào)查單位以科學的定義。從實際工作出發(fā),還要區(qū)分調(diào)查單位與報告單位。調(diào)查單位是調(diào)查項目的承擔者,而報告單位則是負責上報調(diào)查資料的單位。兩者有時一致,有時不一致。上面例子中,當收集城鎮(zhèn)居民家庭收入狀況資料時,每一個城鎮(zhèn)家庭既是調(diào)查單位,也是報告單位;當收集居民家庭中工人收入狀況資料時,城鎮(zhèn)居民家庭中的工人則是調(diào)查單位,而城鎮(zhèn)居民家庭則是報告單位。確定調(diào)查項目調(diào)查項目就是調(diào)查中所要登記的調(diào)查單位的特征,即調(diào)查單位所承擔的基本標志,它由一系列品質(zhì)標志和數(shù)量標志所構(gòu)成。調(diào)查項目所要解決的問題是,向被調(diào)查者調(diào)查什么,即需要被調(diào)查者回答什么問題。在擬定調(diào)查項目時應(yīng)注意如下四個問題:(1)調(diào)查少而精;(2)需要和可能相結(jié)合;(3)調(diào)查項目之間應(yīng)具有聯(lián)系性;(4)有的項目可擬定“選擇式”。列入計劃的調(diào)查項目是依據(jù)調(diào)查目的而確定的,仍以歷年的人口普查為例,1953年人口的項目為:與戶主關(guān)系、姓名、性別、年齡、民族以及本戶住址6項;1964年人口普查增加了本人成分、文化程度和職業(yè)3個項目;1982年人口普查項目增加為19項,增加了常住人口的戶口登記狀況、在業(yè)人口的行業(yè)、職業(yè)和不在業(yè)人口狀況,生育子女總數(shù)、存活子女總數(shù)和生育胎次等;1990年人口普查項目增加到21項,增加了“五年前居住地及其城鄉(xiāng)類型”和“遷移原因”兩個項目。調(diào)查表與問卷的設(shè)計調(diào)查表,就是把若干調(diào)查項目按照一定的順序排列在表格上,就形成了調(diào)查表。調(diào)查表一般有兩種:一種是一覽表,另一種是單一表。一覽表是在調(diào)查項目不多時采用,它是將許多調(diào)查單位填寫在一張表上;單一表一般用于項目較多的調(diào)查,該表可容納較多的標志,每個調(diào)查單位填寫一份。調(diào)查時應(yīng)采用哪種表式,則需根據(jù)調(diào)查的目的和任務(wù)而定。利用調(diào)查表,能夠有條理地收集到所需要的資料,便于資料匯總整理。問卷調(diào)查是一種特殊的調(diào)查形式,根據(jù)調(diào)查目的,在調(diào)查對象中隨機選擇或有意識地確定調(diào)查單位。問卷是以書面文字或表格的形式了解被調(diào)查者的意見,被調(diào)查者可自愿、自由地回答問卷中所提出的問題。在設(shè)計調(diào)查表和問卷時,應(yīng)盡可能地簡明扼要,便于被調(diào)查者回答,以保證所收集資料的準確性。確定調(diào)查時間和調(diào)查期限調(diào)查時間是指調(diào)查資料所屬的時間。在統(tǒng)計調(diào)查中,有的資料所反映的現(xiàn)象是在某一時點上的狀態(tài),這時必須規(guī)定統(tǒng)一的時點;有的資料所反映的現(xiàn)象是在某一時期內(nèi)發(fā)展過程的結(jié)果,這時則必須明確所要收集的資料所屬時期的起止時間;即所登記的資料應(yīng)是該時期第一天到最后一天的累計數(shù)字。如,我國第五次人口普查的調(diào)查標準時點是2000年11月1日零點;例如,調(diào)查某年第二季度全國鋼鐵產(chǎn)量,則調(diào)查時間應(yīng)從4月1日起至6月30日止。調(diào)查期限是指進行調(diào)查工作的時限,即調(diào)查工作的起止時間,它包括收集資料和報送資料的工作所需要的時間。為保證資料的時效性,調(diào)查時限應(yīng)盡可能地縮短。例如,我國第五次人口普查規(guī)定的時限為:2000年11月1日至11月10日登記完畢,則調(diào)查時限為10天。制定調(diào)查的組織實施計劃制定嚴密細致的實施計劃,是統(tǒng)計調(diào)查得以順利進行的必要保證。調(diào)查工作的組織計劃包括的內(nèi)容是:建立調(diào)查機構(gòu),組織與培訓調(diào)查人員,確定調(diào)查步驟,明確調(diào)查方式、方法及調(diào)查地點,落實調(diào)查經(jīng)費的來源與經(jīng)費使用計劃,確定調(diào)查資料的報送方法和公布調(diào)查結(jié)果的時間等。三、統(tǒng)計調(diào)查方法1.現(xiàn)場觀察法現(xiàn)場觀察法是觀察者帶有明確目的到觀察現(xiàn)場,借助人的視覺、聽覺或者錄音錄像設(shè)備,對調(diào)查對象進行直接觀察而獲得信息資料的一種收集方法,又稱為直接觀察法。其優(yōu)點,能夠保證所收集資料的準確性;其缺點,觀察成本較大(耗用人力、物力、財力、時間等較大),由于觀察者認識事物的能力不同,并帶有主觀見解,其結(jié)果往往因人而異。采用該種方法則應(yīng)遵循:客觀性、全方位性、深入性、持久性以及遵守紀律與道德等原則。2.報告法報告法亦稱通訊法。這種方法是被調(diào)查者根據(jù)統(tǒng)計報表的格式要求,按照隸屬關(guān)系,逐級向有關(guān)部門上報統(tǒng)計資料的一種調(diào)查方法。這種方法是根據(jù)《統(tǒng)計法》的規(guī)定,要求各地區(qū)、各部門、各單位必須對國家履行的一種義務(wù)?,F(xiàn)行統(tǒng)計報表制度就是采用的這種方法。3.問卷法問卷法,是指資料收集者運用統(tǒng)一設(shè)計的問卷向被調(diào)查者了解情況、征詢意見的資料收集方法。問卷法的優(yōu)點是:省時、省錢、省力,所得資料便于定量處理與分析,可以避免主觀偏見、減少誤差,具有很好的匿名性;問卷也有缺點,即:回收率以及資料的質(zhì)量均難以保證。運用此法在設(shè)計問卷時,應(yīng)注意:所提問題要簡短、準確,避免復(fù)重提問,提問應(yīng)避免帶有傾向性和誘導(dǎo)性,更不要直接提出具有敏感性或威脅性的問題。4.訪談法訪談法是有目的、有計劃、有方向的運用口頭交談方式向被調(diào)查者了解問題的一種統(tǒng)計資料收集方法。它的基本性質(zhì)是具有顯著的目的性、計劃性與方向性。該種方法的優(yōu)點是:被調(diào)查對象的回答率大大高于問卷法,適應(yīng)性強,調(diào)查內(nèi)容機動性大,訪談?wù)邔Y料收集過程可進行有效控制。其缺點是:訪談成本大,匿名性差,訪談結(jié)果與訪談人員的素質(zhì)、能力及其現(xiàn)場表現(xiàn)直接相關(guān)。5.實驗采集法實驗采集法,是指資料收集者,通過實驗對比獲取統(tǒng)計資料的一種方法。一般作法是,從影響問題的諸多因素中選出一至若干個因素,在一定的實驗條件下觀察其反映,然后對實驗結(jié)果進行對比分析,并確定是否大規(guī)模推廣。實驗收集法的應(yīng)用范圍較廣。如對某一商品在改變其品種、價格、包裝、廣告等任何因素時,均可采用此方法。一般是先作小規(guī)模的試驗性改變,以觀察顧客的各種反映。具體的試驗方法有試用、試穿、試聽、現(xiàn)場表演等等。利用該種方法可以取得較為正確的原始資料,但其成本高、研究時間長。四、統(tǒng)計調(diào)查的組織方式1.統(tǒng)計報表統(tǒng)計報表(statisticalreportforms)是指依照國家統(tǒng)計局或國家各行政管理部門的規(guī)定,自上而下地統(tǒng)一布置,以一定的原始記錄為依據(jù),按照統(tǒng)一的表式,統(tǒng)一的指標項目,統(tǒng)一的報送時間與報送程序,自下而上地逐級定期提供基本統(tǒng)計資料的一種調(diào)查方式。2.普查普查(census)是對調(diào)查對象的全部調(diào)查單位逐一進行的調(diào)查。其特點:是一次性調(diào)查,是專門組織的全面調(diào)查,即普查主要用來調(diào)查屬于一定時點上的現(xiàn)象總量。普查主要用來全面、系統(tǒng)地掌握重要的國情國力方面的統(tǒng)計資料。由于普查涉及面廣、耗費人、財、物多、組織工作繁重,因此只能按一定周期進行。普查的具體方式有兩種:一種是通過專門組織的普查機構(gòu)自上而下的對被調(diào)查單位直接進行登記。如5/15我國人口普查就采用這種形式,另一種是利用被調(diào)查單位的原始記錄與核算資料,調(diào)查單位分發(fā)一定的調(diào)查表,由被調(diào)查單位自行填報。如我國在1955年對私營商業(yè)及飲食業(yè)的普查就采用這種形式。各個國家對普查都給予的充分的重視,甚至把普查看作是僅次于戰(zhàn)爭的“運動”。西方國家?guī)缀鯖]有統(tǒng)計報表制度,所以全面的資料只能依靠普查獲得。美國有專門的普查局負責各類普查,并有專門網(wǎng)頁提供相關(guān)信息與資料。點擊下面的鏈接,在右上方有“PopulationClock”敲敲看。網(wǎng)絡(luò)鏈接:美國普查局/根據(jù)國務(wù)院的決定,我國于2001年進行了第二次全國基本單位普查。國家統(tǒng)計局普查中心對普查結(jié)果進行了系列分析,形成了豐富的信息資源。網(wǎng)絡(luò)鏈接:國家統(tǒng)計局普查中心的分析資料 /tjfx/ztfx/decjbdwpc/抽樣調(diào)查抽樣調(diào)查(samplingsurvey)是「一種非全面調(diào)查,它是在全部調(diào)查單位中抽取一部分單位作為樣本進行調(diào)查,再根據(jù)調(diào)查結(jié)果推斷總體的一種調(diào)查方法。廣義的抽樣調(diào)查包括隨機抽樣與非隨機抽樣。非隨機抽樣是一種按照人們主觀愿望選取樣本的方法,如下面提到的重點調(diào)查和典型調(diào)查,也稱為有目的的調(diào)查、判斷調(diào)查和定額調(diào)查。這些抽樣的目的是要通過了解一部分個體的情況而獲取全面的信息。但由于非隨機抽樣無法估計誤差的概率,所以也就無法作統(tǒng)計推斷。我們一般提到的“抽樣調(diào)查”主要是指隨機抽樣,其基本特征:一是樣本單位是按隨機原則抽取,這就排除了主觀因素對選擇的影響;二是對所抽得的樣本進行調(diào)查,取得數(shù)據(jù),并據(jù)此推斷總體特征。抽樣調(diào)查的組織方式主要有以下四種:簡單隨機抽樣(simplerandomsampling),又叫純隨機抽樣,是最簡單、最普遍的抽樣組織方法。它是按照隨機性原則直接從總體的全部單位中,抽取若干個單位作為樣本單位,保證總體中每個單位在抽選中都有同等被抽中的機會。隨機抽選樣本單位的具體做法有:抽簽法、隨機數(shù)字表法(見附錄一)和用計算機軟件中的隨機函數(shù)產(chǎn)生隨機數(shù)。分層抽樣(stratifiedsampling),又叫類型抽樣,它是先將總體各單位按某一有關(guān)標志分成若干個類型組,然后按照一定比例再從各類型組中隨機抽取樣本單位。在抽樣調(diào)查實踐中,經(jīng)常遇到的情況是:在動手設(shè)計抽樣方案之前,我們對所要研究的總體構(gòu)成已經(jīng)有了某種程度的了解。例如已知總體單位分屬于不同類型的子總體;已知與調(diào)查標志相關(guān)的一些輔助標志等等。此時,我們可以而且應(yīng)該利用這種事先獲得的有關(guān)信息來改進抽樣方案設(shè)計,以提高抽樣推斷的精度。分層抽樣就是這樣一種組織方法。例如,在職工家庭生活調(diào)查中,可先將全部職工按部門分為工業(yè)、商業(yè)、文教、衛(wèi)生等部門,然后再從這些部門中按一定比例抽選基本單位和職工戶。采用這種抽樣方法可以提高樣本的代表性,減少抽樣誤差。對于那些總體情況復(fù)雜、各單位之間差異較大、單位數(shù)量較多的抽樣調(diào)查問題,一般都可以采用分層抽樣的方法進行抽樣調(diào)查。由于各個類型組的單位數(shù)一般是不相等的,從各個類型組中抽取多少樣本單位有兩種不同的確定方法。一種是按各組標志值變動的大小來確定,沒有統(tǒng)一的抽樣比例;另一種是按比例抽樣,即保持每組樣本單位數(shù)與樣本容量之比等于各組總體單位數(shù)與全及總體單位數(shù)之比。系統(tǒng)抽樣(systematicsampling),又叫等距抽樣或機械抽樣。它是先把總體所有單位按某一標志排隊,并根據(jù)總體單位數(shù)與樣本單位數(shù)的比例計算出抽樣距離和間隔,隨機確定一個起始點作為第一個樣本單位,以后每隔相等的距離和間隔抽取樣本單位。對總體單位排隊時所采用的標志,可以是與調(diào)查項目有關(guān)的,也可以是與調(diào)查項目無關(guān)的,前者稱為有關(guān)標志排隊法;后者稱為無關(guān)標志排隊法。例如,對某校學生學習情況進行調(diào)查,如按身高排隊就是無關(guān)標志排隊;如按考試分數(shù)排隊就是有關(guān)標志排隊。按無關(guān)標志排隊的機械抽樣,其抽樣平均誤差與簡單隨機抽樣十分接近,一般都采用簡單隨機抽樣的平均抽樣誤差公式代替計算。而采用有關(guān)標志排隊時,其抽樣平均誤差一般要小于簡單隨機抽樣的平均誤差。在實際進行抽樣時必須注意到,機械抽樣在排定順序,且第一個樣本單位的位置確定后,其余單位的位置也就隨之確定。因此,要避免抽樣間隔和現(xiàn)象本身的周期性節(jié)奏相重合引起系統(tǒng)性的影響,如工業(yè)產(chǎn)品質(zhì)量抽查,產(chǎn)品抽查時間間隔不宜和上下班時間一致,防止發(fā)生系統(tǒng)性偏差。(4)整群抽樣(clustersampling),將總體所有單位劃分為若干個群(組),然后以群(組)為單位從中隨機抽取部分群(組),對抽中的群(組)內(nèi)所有單位進行全面調(diào)查的抽樣組織形式。如調(diào)查某縣小學教育情況,我們可以從該縣中隨機抽取若干個小學,然后對抽中的小學進行全面調(diào)查。整群抽樣與前面三種抽樣組織方法相比,是抽樣單位擴大了,即抽取的基本單位不再是總體單位而是群(組)。Excel提供了幫助我們進行抽樣的工具,可以進行簡單隨機抽樣和系統(tǒng)抽樣?!纠}2.1】根據(jù)數(shù)據(jù)集03中的470人名單,如何抽取一個樣本容量為10的隨機樣本?【解】圖2.1“抽樣”分析工具對話框抽樣調(diào)查是世界上許多國家收集資料的重要方法。隨著改革的不斷深化,我國官方統(tǒng)計對調(diào)查方法進行了一系列的改革,要求各統(tǒng)計主體在各領(lǐng)域廣泛采用抽樣調(diào)查方法以逐步取代傳統(tǒng)的統(tǒng)計報表,以確立它在統(tǒng)計調(diào)查方法體系中的主體地位。有關(guān)抽樣調(diào)查的理論及方法將在本書第五章作詳細介紹。4.重點調(diào)查重點調(diào)查(key-pointsurvey)是指在調(diào)查對象中,選擇一部分重點調(diào)查單位收集統(tǒng)計資料的一種非全面調(diào)查。所謂重點調(diào)查單位,是指這些被調(diào)查的總體單位中數(shù)目不多,所占比重不大,但其調(diào)查的標志值卻在總量中占有很大比重,在總體中具有舉足輕重的作用。通過對這部分重點單位的調(diào)查,可以從數(shù)量上說明總體在該標志總量方面的基本情況。當調(diào)查任務(wù)只要求掌握基本情況,而部分單位又能比較集中地反映所要研究的問題時,采用重點調(diào)查較為適宜。比如,對鋼鐵行業(yè)的調(diào)查,由于大型的鋼鐵企業(yè)為數(shù)不多,但產(chǎn)出量卻很大,因此可以通過對少數(shù)企業(yè)的調(diào)查,而掌握整個行業(yè)大致情況。5.典型調(diào)查典型調(diào)查(modelsurvey)是指根據(jù)調(diào)查目的與要求,在對所研究現(xiàn)象全面分析的基礎(chǔ)上,有意識地選擇有代表性的典型單位進行深入細致地調(diào)查,以便認識事物的本質(zhì)與發(fā)展變化規(guī)律的一種非全面調(diào)查方法。所謂典型單位,是指那些能充分、集中地體現(xiàn)調(diào)查對象總體某些方面共性特征的最有代表性的單位。典型調(diào)查方式有兩種:一是“解剖麻雀”式調(diào)查,它在調(diào)查對象總體單位之間的差異較小時適用。這時,只選擇個別典型單位進行深入細致的調(diào)查,以便通過對典型單位特征的認識來找出同類事物的一般情況及其發(fā)展變化規(guī)律。二是“劃類選典”式的調(diào)查,它在調(diào)查對象總體各單位之間的差異較大時適用。這時,先對調(diào)查對象總體進行分類,然后從各類中選擇少數(shù)具有代表性的典型單位進行深入細致地調(diào)查,以便找出事物的發(fā)展化規(guī)律并以此對調(diào)查對象總體進行推斷估計。各種統(tǒng)計資料收集的組織方式,我們可以根據(jù)自己的統(tǒng)計任務(wù)與要求靈活選用。第二節(jié)數(shù)據(jù)的整理數(shù)據(jù)的整理,是根據(jù)統(tǒng)計研究的目的與要求,對所收集到的大量、零星分散的原始資料進行科學加工與綜合,使之系統(tǒng)化、條理化、科學化,為統(tǒng)計分析提供反映事物總體綜合特征資料的工作過程。它的一般程序則是:統(tǒng)計資料的審核認定、統(tǒng)計資料分組、統(tǒng)計資料匯總、編制統(tǒng)計表、繪制統(tǒng)計圖。其核心則是統(tǒng)計資料分組。一、數(shù)據(jù)的審定調(diào)查資料的審定目的,就是要保證資料的準確性,盡可能地縮小調(diào)查誤差。調(diào)查誤差是指經(jīng)過調(diào)查所獲得的統(tǒng)計數(shù)值與被調(diào)查對象實際數(shù)值之間的差別。調(diào)查誤差有兩種:一種是登記誤差,一種是代表性誤差。登記誤差是由于調(diào)查過程中各有關(guān)環(huán)節(jié)工作的失誤而造成的。例如,調(diào)查方案中有關(guān)規(guī)定或解釋不清楚而產(chǎn)生歧義,或計算錯誤、抄錄錯誤,或匯總錯誤以及不真實填報等。代表性誤差是由于非全面調(diào)查只觀察總體一部分單位,這部分單位不能完全反映總體的性質(zhì)而產(chǎn)生的誤差。所謂審定就是對調(diào)查資料的準確性、完整性和及時性進行檢查。審定可以采用計算機審定,也可以采用人工審定。二、數(shù)據(jù)的分組數(shù)據(jù)分組的概念數(shù)據(jù)分組,是指根據(jù)統(tǒng)計總體內(nèi)在的特征與統(tǒng)計研究的任務(wù)需要,將統(tǒng)計總體按照一定的標志劃分為若干組成部分的一種統(tǒng)計方法。數(shù)據(jù)分組的目的,就在于把同質(zhì)總體中的具有不同性質(zhì)的單位分開,把性質(zhì)相同的單位合并在一起,保持各組內(nèi)數(shù)據(jù)的一致性和各組之間數(shù)據(jù)的差異性,以便進一步研究調(diào)查對象的數(shù)量表現(xiàn)與數(shù)量關(guān)系,進而正確認識調(diào)查對象的本質(zhì)及其規(guī)律性。例如,在我國人口普查中,作為個體的每個人,在年齡、性別、民族、文化程度以及居住地等諸多調(diào)查標志上不完全相同。為反映我國人口總體內(nèi)部的差異、就需要按照不同的標志對全國人口進行分組。如,按性別可分為男、女兩組;按年齡、民族可劃分為若干組,這就有助于對我國人口的性別、年齡、民族等各方面的結(jié)構(gòu)及其比例關(guān)系的認識。數(shù)據(jù)分組的作用一是區(qū)分總體類型,現(xiàn)象的類型是多種多樣的,不同類型的現(xiàn)象存在本質(zhì)差別,通過統(tǒng)計資料的分組就可以把不同類型的現(xiàn)象區(qū)別開來;二是反映總體內(nèi)部結(jié)構(gòu),通過分組,統(tǒng)計總體被劃分為若干組成部分,計算各組成部分的總量在總體總量中所占的比重,即可反映總體結(jié)構(gòu)特征與總體結(jié)構(gòu)類型;三是可以分析總體在數(shù)量現(xiàn)象之間的依存關(guān)系,現(xiàn)象之間總是相互聯(lián)系、相互依存、相互制約的,分組就是要在現(xiàn)象各種錯綜復(fù)雜的聯(lián)系中,找出內(nèi)在的聯(lián)系和數(shù)量關(guān)系。具體作法,可將一個可變標志(自變量)作為分組標志,來觀察另一個標志(因變量)相應(yīng)的變動狀況。如居民家庭收入與就業(yè)人數(shù)有關(guān)密切的聯(lián)系。通過分組就可以反映這兩個標志之間相互聯(lián)系的程度和方向。數(shù)據(jù)分組的原則要保證分組的科學性,要遵循“窮盡原則”和“互斥原則”。“窮盡原則”是指各分組的空間必須容納所有個體單位,即總體中的每一個個體都必須有組的歸屬。如勞動者按文化程度分組,若只分為小學、中學畢業(yè)、和大學畢業(yè)三組;那么,未上過小學的以及大學以上文化程度的勞動者就無組可歸。這種分組未作到“窮盡”?;コ庠瓌t是指在特定的分組標志下,總體中的任何一個單位不能同時歸屬于幾個組,而只能歸屬于某一組。把鞋子分為男鞋、女鞋、童鞋三類,就不符合互斥原則,因為童鞋也有男鞋與女鞋之分。數(shù)據(jù)分組的種類對數(shù)據(jù)的分組是按照不同的標志進行的。分組標志則是進行分組的標準和依據(jù)。因此,分組標志能否正確地選擇,則關(guān)系到分組的科學性。為此,必須根據(jù)統(tǒng)計研究的目的和任務(wù)來選擇分組標志;必須在若干個可以選擇的標志中,選擇最能反映事物本質(zhì)特征的標志作為分組標志。按分組標志的多少,可分為簡單分組與復(fù)合分組,簡單分組是按照一個分組標志對所研究的對象進行分組。如人口按性別分為男、女兩組。復(fù)合分組是按照兩個或兩個以上的分組標志對所研究的對象進行分組。這種分組,先按一個分組標志對所研究對象進行分組,然后再按第二個分組標志進一步分組,再次層疊地按第三個分組標志分成更小的組。如表2.1對高校教師進行的復(fù)合分組。表2.1高校教師的復(fù)合分組第一標志(職務(wù))第二標志(年齡)第三標志(性別)45歲以上男高級職稱女(教授、副教授)男45歲以下 女非高級職稱45歲以上男女(講師、助教)45歲以下男女按分組標志性質(zhì)不同,分為品質(zhì)分組和數(shù)量分組。品質(zhì)分組就是選擇反映事物屬性差異的品質(zhì)標志進行分組,并在品質(zhì)標志變異的范圍內(nèi),劃分各組的性質(zhì)界限,把總體分為若干性質(zhì)不同的組成部分。數(shù)量分組就是選擇反映事物數(shù)量差異的數(shù)量標志進行分組,并在數(shù)量標志的變異范圍內(nèi)劃定各組的數(shù)量界限,把總體劃分為若干性質(zhì)不同的組成部分。進行分組后,統(tǒng)計每組所擁有的次數(shù),再將其列成表格,就形成了次數(shù)分布,以后我們經(jīng)常會遇到這類數(shù)據(jù)形式。第三節(jié)次數(shù)分布一、次數(shù)分布數(shù)列及其種類次數(shù)分布數(shù)列的概念次數(shù)分布是統(tǒng)計分組的重要形式。在統(tǒng)計分組的基礎(chǔ)上,把總體全部單位按組歸類整理,將其按一定順序加以排列,形成總體中每一個單位在各組間的分布,稱為次數(shù)分布。分布在各組中的總體單位數(shù),叫做次數(shù)(frequency),亦稱頻數(shù);次數(shù)與總次數(shù)的比值,叫做比率,亦稱頻率。把各組的頻數(shù)或頻率按照一定的順序排列而成的數(shù)列,稱為次數(shù)分布數(shù)列,簡稱分布數(shù)列。次數(shù)分布數(shù)列是統(tǒng)計整理的結(jié)果,是進行統(tǒng)計描述和統(tǒng)計分析的重要方法。次數(shù)分布數(shù)列的種類由于分組標志不同,次數(shù)分布數(shù)列可分為兩種:按照品質(zhì)標志進行分組形成品質(zhì)數(shù)列。它用來反映不同屬性的各組次數(shù)在總體中的分布狀況,它由各組名稱、各組頻數(shù)或頻率組成;按照數(shù)量標志進行分組形成變量數(shù)列,它用來反映不同變量值的各組次數(shù)在總體中的分布狀況,它由各組變量值和各組次數(shù)組成。二、變量數(shù)列的編制由于數(shù)列中每組變量值的多少及取值范圍不同,變量分布數(shù)列可分為單項數(shù)列和組距數(shù)列兩種。單項數(shù)列就是每一個組只有一個變量值的數(shù)列。它是按變量值大小順序排列的。單項數(shù)列是在變量值不多以及變量值變動幅度不大時運用,一般是有多少個不同的變量值就分為多少個組。組距數(shù)列是把變量的取值范圍劃分成若干區(qū)間,以一段變動區(qū)間為一個組的數(shù)列。即組距數(shù)列中的每一個組是由一個變量值的區(qū)間表示。組距數(shù)列是在變量個數(shù)較多、變量值變動幅度較大的離散型變量時運用,它又分為等距數(shù)例和異距數(shù)列。變量數(shù)列的編制,主要是組距數(shù)列的編制。在編制過程中,一定要處理好如下幾個問題:1.組數(shù)與組距組距數(shù)列是用變量值變動的一定范圍代表一個組,每個組的最大值為組的上限,最小值為組的下限。每個組的上限與下限間的距離稱為組距。編制時,先要找全距(R),即全部變量的最大值與最小值的距離;然后確定組數(shù)(m),實際工作中,主要憑經(jīng)驗確定,也可按不同的組數(shù)進行試驗,比較其次數(shù)分布表,看哪一個能夠更好地顯示出分組數(shù)據(jù)的特征,另外有一個經(jīng)驗公式一“斯透奇斯規(guī)則”(Sturges'rule),m=1+3.322IgN,(N為總次數(shù))是幫助確定組數(shù)的;組數(shù)與組距(i)的關(guān)系是:i=R/m,兩者成反比變化。根據(jù)各組距是否相等分等距數(shù)列和異距數(shù)列,編制何種應(yīng)根據(jù)統(tǒng)計研究的目的來確定。采用等距分組目的是為了直接比較各組次數(shù)分布或分析對比各組的指標;采用異距分組目的是為了從數(shù)量上區(qū)分性質(zhì)不同的總體。組距數(shù)列中還可以區(qū)分閉口數(shù)列與開口數(shù)列:閉口數(shù)列是指首末兩組的上、下限齊全的數(shù)列;開口數(shù)列是指首組組距缺下限或末組組距缺上限的數(shù)列。2.組限和組中值組限的表示方法,應(yīng)根據(jù)所研究現(xiàn)象的性質(zhì)而定,并要注意如下幾點:第一,第一組(最小組)的下限不能大于最小變量值;最末一組(最大組)的上限不得小于最大變量值;這就能夠使同質(zhì)的總體單位在同一組內(nèi),而使標志值在各組的變動,能夠反映事物質(zhì)的變化。第二,組限應(yīng)是引起事物質(zhì)變的數(shù)量界限,并有利于表現(xiàn)總體分布的規(guī)律性。第三,分組變量可分為離散變量與連續(xù)變量,它們的組限表示方法也是不同的。在劃分離散變量的組限時,相鄰組的組限可以間斷,而在劃分連續(xù)變量的組限時,相鄰組的組限必須重疊,并在統(tǒng)計次數(shù)時,一般應(yīng)遵循“上組限不在內(nèi)”的原則。這是因為,在對連續(xù)變量分組時,每一組的上限同時又是下一組的下限,即相鄰兩組的上限與下限是用同一數(shù)值表示的。為了避免計算的混亂,一般是把達到上限數(shù)值的單位數(shù)計入下一組內(nèi)。組數(shù)、組距、組限確定后,把全部的變量值歸類列各組,并按順序排列,就是所要編制的變量數(shù)列了。在統(tǒng)計分析中,通常會以組中值來代表各組標志值的平均水平,當各組標志值均勻分布時,組中值所代表的各組標志值的水平,其代表性就高。組中值,就是組的上下限之間的中點數(shù)值,計算公式:閉口組的組中值=(上限+下限)/2缺下限的開口組組中值=上限—鄰組組距/2;缺上限的開口組組中值=下限+鄰組組距/2【例2.2】江浦縣苗圃對110株樹苗的高度進行測量(單位:厘米),數(shù)據(jù)如下,編制次數(shù)分布表1541331161288510010515011897110131119103931081001111301041351131221151039010811412787127108112100117121105136123108899413982113110109118115126106108115133114119104147134117119911371011071121211251038911012212312412511511312885113143801021329612983142112120107108111100971111311091459313598142127106110101116110123【解】第一步,先將110個數(shù)據(jù)排序,找出最大值154和最小值80,這個數(shù)列的全距R=154-80=74厘米。第二步,根據(jù)斯透奇斯規(guī)則確定組數(shù):m=1+3.322X(lg110)=7.78,再根據(jù)組數(shù)與組距的關(guān)系確定組距:i=R/m=74/7.78=9.51(厘米)。根據(jù)以上的計算結(jié)果,組數(shù)定為8組;組距定為10厘米。特別注意|在用經(jīng)驗公式計算m和i時,計算結(jié)果的取舍,不采用四舍五入法,而采用舍去進一法,即:只要有小數(shù),就把小數(shù)舍去,并在整數(shù)位上加1。這種做法保證次數(shù)分布表有足夠?qū)挼膹?fù)蓋區(qū)間。另外,一般說來組距宜于取整百整十,起始組的下限也宜于取整百整十,這樣看起來比較舒服。還有,有些數(shù)據(jù)本身是有特殊或固定的分組要求的,如學生成績?nèi)绻霈F(xiàn)“54-62”這樣一組,則將不同性質(zhì)的學生混在了一起,即在這組里有成績不合格的學生,又有成績合格的學生,這樣的分組肯定是錯誤的。第三步,根據(jù)所定組數(shù)和組距確定組限。第一組下組限定為80,第一組上組限則為90(即80+10);10/15第二組下組限就是第一組上組限,第二組上組限為100;……;依此類推,第八組下組限是150,其上組限則為160。這樣共有8個下組限和8個上組限。由于有重合值,故只有9個組限值。第四步,進行歸組,即將各個變量值歸入相應(yīng)的組中,比如154歸入第八組(150-160);133歸入第六組(130-140);……依此類推。最后的結(jié)果用次數(shù)分布表顯示,見表2.2。表2.2樹苗高度的次數(shù)分布表樹苗高度x(厘米)樹苗數(shù)f80-90890-1009100-11026110-12030120-13018130-14012140-1505150-1602合計110如果數(shù)據(jù)量很大,歸組的工作會很煩人,Excel中有“FREQENCY”函數(shù),可以完成這一任務(wù)。FREQENCY函數(shù)的格式為:=FREQUENCY(ARRAY,BINS)其中ARRAY是指原始資料的存放區(qū)域,BINS是指統(tǒng)計分組的組上限構(gòu)成的數(shù)值序列。圖2.3是用Excel操作過程與結(jié)果的部分截圖。aExcel解決方案輸入原始資料,本例的資料存放在A2:A111計算基礎(chǔ)數(shù)據(jù),如B、C列,B列是文字提示,C列存放的是相應(yīng)公式和函數(shù)輸入分組標志,如本例的D列;列出各組的上限,如本例的H3:H10用鼠標選定函數(shù)返回值存放的區(qū)域,如本例應(yīng)選13:110輸入函數(shù)“=FREQUENCY(A2:A111,H3:H10)”冋時按下組合鍵“Ctrl+Shift+Enter”,計算機會將統(tǒng)計出的次數(shù)放在13:110中特別注意IFREQUENCY函數(shù)在統(tǒng)計次數(shù)時,將與對應(yīng)上限值一樣大的數(shù)也統(tǒng)計在內(nèi)。以第一個上限為例,若H3中上限定為90,當原始資料中恰有90時,則該“90”被計入這一組,這樣就和我們常說的“上限不包括原則”相違背,因而我們在H列所列的上限必須是一個略小于90的數(shù),如89.5。ABCDEFGHI1觸厳耀憐m井碣Mill?懣緘2'154txi;1禍70-80跡1313^80B0-9O90a8S.584116全範90iw12取$A5128鐵100410U&2726&85110-120J刃261址5307100120-130皿18123.5IS8105130-U011/JA5129150140450S14S.5510吃150-160側(cè)12119Tno歸 11012110圖2.3用FREQUENCY函數(shù)完成次數(shù)統(tǒng)計
4.次數(shù)分布表表2.2是一個最簡單的次數(shù)分布表,我們還可以對簡單表中的數(shù)據(jù)進行計算匯總,得到一個內(nèi)容更加豐富的次數(shù)分布表,見表2.3。表2.3樹苗高度的次數(shù)分布表樹苗高度X(厘米)頻數(shù)f(棵)頻率(%)向上累積向下累積頻數(shù)(棵)頻率(%)頻數(shù)(棵)頻率(%)80-9087.387.3110100.090-10098.21715.510292.7100-1102623.64339.19384.5110-1203027.37366.46760.9120-1301816.49182.73733.6130-1401210.910393.61917.3140-15054.510898.276.4150-16021.8110100.021.8合計110100————————我們可以將各組的頻數(shù)除以總次數(shù),得到頻率,用以代表各組占總次數(shù)的比率。如30/110=27.3%,則表示樹苗高度在120-130厘米之間的樹苗占所有樹苗的27.3%。向上累積有時又稱“較小制累計”,它表示的是低于某分組上限的頻數(shù)與頻率,如樹苗高度在120厘米以下的樹苗有73棵,占總數(shù)的66.4%;向下累積有時又稱“較大制累計”,它表示的是高于某分組下限的頻數(shù)與頻率,如樹苗高度在110以上的樹苗有67棵,占總數(shù)的60.9%。英文摘要與關(guān)鍵詞Thecollectionandreorganizationofstatisticaldataareimportantcomponentsofstatisticalwork,aswellastheworkingprocessofcollectingdatasystematicallyandpurposefullybasedontheaimsandrequestsofstatisticalanalysis,classifyingandpackingupdata,andcondensingandsimplifyingdata.Theyaretheprerequisiteofconductingstatisticalanalysis,andthekeytoguaranteeingthestatisticaldataisobjectiveandreal.Statisticaldatacollectedincludeprimarydataandsecondarydata,andthemainformofcollectingdataisthroughstatisticalsurvey.Thedesignofastatisticalsurveyschemeincludesidentifyingtheaimofthesurvey,fixingonthesurveyobject,thesurveyunit,thesurveyitem,thesurveytimeandtimelimit,designingthesurveytableandquestionnaire,andformulatingtheprogramfororganizingandconductingthesurvey.Themethodofstatisticalsurveymainlyincludesthemethodsoffieldobservation,thereport,thequestionnaire,theinterviewanddirectexperimentation.Theorganizationalformofthestatisticalsurveyprimarilyincludesthestatisticalreportform,thecensus,thesamplingsurvey,thekey-pointsurveyandthemodelsurvey.Thereorganizationofstatisticaldatachieflyincludestheauditingofstatisticaldata,thegroupingofstatisticaldatawhichisthecoreofthereorganizationofstatisticaldata,thesummaryofstatisticaldata,theconstructionofastatisticaltable,andtheplottingofastatisticalgraph.Thegroupingofstatisticaldataincludessimpleclassificationandcompoundclassification.Afrequencydistributionisasummarytableinwhichthedataarearrangedintoconvenientlyestablished,numericallyorderedclassgroupingsorcategories.ExcelgivesusaFrequencyfunctionforestablishingthisdistribution.Keywords:primarydata,secondarydata,statisticalsurv
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年深圳中考語文高分沖刺綜合試卷(附答案可下載)
- 2026年魯教版生物八年級下冊期中質(zhì)量檢測卷(附答案解析)
- 2026-2032年中國石英掩模版行業(yè)市場全景分析及投資機會研判報告
- 水庫管理人員培訓課件
- 水庫供水知識課件
- 創(chuàng)業(yè)板基礎(chǔ)知識課件
- 消防安全黨校培訓計劃
- 體制內(nèi)離職溝通話術(shù)
- 2026年財務(wù)稅務(wù)培訓合同協(xié)議
- 科研經(jīng)驗分享心得
- 5年(2021-2025)山東高考生物真題分類匯編:專題17 基因工程(解析版)
- 新華資產(chǎn)招聘筆試題庫2025
- 智能化項目驗收流程指南
- 搶劫案件偵查課件
- 2026年遼寧軌道交通職業(yè)學院單招職業(yè)技能測試題庫必考題
- 老年人遠離非法集資講座
- 沙子石子采購合同范本
- 軍采協(xié)議供貨合同范本
- 2025年醫(yī)院年度應(yīng)急演練計劃表
- 2024年新高考Ⅰ卷英語真題(原卷+答案)
- 機械安裝安全培訓課件
評論
0/150
提交評論