《統(tǒng)計學-思想、方法與應用(第二版)》 課件 第1、2章 統(tǒng)計學導論、分類數(shù)據(jù)的描述分析_第1頁
《統(tǒng)計學-思想、方法與應用(第二版)》 課件 第1、2章 統(tǒng)計學導論、分類數(shù)據(jù)的描述分析_第2頁
《統(tǒng)計學-思想、方法與應用(第二版)》 課件 第1、2章 統(tǒng)計學導論、分類數(shù)據(jù)的描述分析_第3頁
《統(tǒng)計學-思想、方法與應用(第二版)》 課件 第1、2章 統(tǒng)計學導論、分類數(shù)據(jù)的描述分析_第4頁
《統(tǒng)計學-思想、方法與應用(第二版)》 課件 第1、2章 統(tǒng)計學導論、分類數(shù)據(jù)的描述分析_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計學:思想、方法與應用第1章什么是統(tǒng)計學?如何運用統(tǒng)計學?統(tǒng)計學的基本概念數(shù)據(jù)的收集數(shù)據(jù)陣/數(shù)據(jù)文件統(tǒng)計學和數(shù)學、統(tǒng)計軟件的關系學習目標用一句話說明統(tǒng)計學;理解我們?yōu)槭裁匆獙W習統(tǒng)計學;懂得如何運用統(tǒng)計學;知道統(tǒng)計學的基本概念;什么是描述統(tǒng)計學和推斷統(tǒng)計學;了解數(shù)據(jù)如何收集以及數(shù)據(jù)收集中存在的問題;知道常用的統(tǒng)計軟件。

數(shù)據(jù)顯示,2010年中國名義GDP為58786億美元,GDP增速為

10%左右。而2010年日本名義GDP為54742億美元,GDP增速為3.9%。中國GDP比日本多4044億美元,這意味著中國超越日本

成為世界第二大經(jīng)濟體。盡管中國總量GDP超過日本,但中國人均GDP卻只有日本1/10,在世界排名第100位左右,不到世界平

均水平的一半。這樣的結果對我們意味著什么呢?毫無疑問,我們需要知道一些統(tǒng)計知識。1960到2009全球主要國家人均GDP的增長圖表(來源:Google網(wǎng)站)

作為一名潛在的汽車購買者和一名有責任心的市民,你樂意為保護地球生態(tài)環(huán)境應有的貢獻。根據(jù)最新的研究結果,消費者的行為對自然資源到底有怎樣的影響呢?你應該買使用柴油發(fā)動機的汽車,還是購買電動車,或者干脆騎自行車呢?報紙、雜志或網(wǎng)絡中的統(tǒng)計結果對于你的決定非常關鍵,這些結果建議你該有怎樣的消費觀。低碳社會要求汽車廠商根據(jù)他們的總產(chǎn)量生產(chǎn)一定比例的電動車,以減少機動車造成的空氣污染,這已開始成為整個國家的趨勢。對于立法者來說,統(tǒng)計信息在使他們相信并檢測使用電動車在改進空氣質量上的有效性方面起著關鍵性的作用。

在金融危機發(fā)生后,各國政府對于國家經(jīng)濟的現(xiàn)狀和對未來經(jīng)濟走勢的預測十分關注,每個月都要編制CPI等各類指數(shù)以評價通貨膨脹情況。有關商品銷售額、新開工的住宅、貨幣流通以及工業(yè)生產(chǎn)的信息僅僅是構成預測基礎的成百上千類信息的一小部分。我們該如何解讀這些數(shù)據(jù)呢?知道一些統(tǒng)計知識有助于我們知道這些數(shù)據(jù)是如何與我們的生活息息相關的。

假設你是市場部的新任經(jīng)理,一次廣告活動的統(tǒng)計結果擺到了你面前,聲稱某個結果是“統(tǒng)計顯著”的。你如何解釋這份報告而又不暴露你對該術語的無知呢?趕快學點統(tǒng)計,這對你和你的事業(yè)都非常有用。1.1什么是統(tǒng)計學在三百多年前,統(tǒng)計的英文單詞Statistics首次被人們應用。統(tǒng)計學是研究收集數(shù)據(jù),整理數(shù)據(jù),分析數(shù)據(jù)以及由數(shù)據(jù)分析得出結論的方法,簡稱為“數(shù)據(jù)的科學”。2010年6月3日,第64屆聯(lián)合國大會第90次會議通過決議確定每年10月20日為“世界統(tǒng)計日”。

20

1年初,國務院學位委員會在新的研究生專業(yè)目錄中將統(tǒng)計學上升為一級學科,為統(tǒng)計學科和統(tǒng)計教育的發(fā)展提供了更廣闊的平臺,也顯示出統(tǒng)計對科學研究、經(jīng)濟增長和社會發(fā)展的重要性。人物小傳:瓦爾德有人把統(tǒng)計學定義為數(shù)據(jù)處理的一門藝術,瓦爾德(A.Wald,1902—1950年)的事例就是明證。

瓦爾德是二戰(zhàn)時期的統(tǒng)計學家,他發(fā)明的一些統(tǒng)計方法在戰(zhàn)時被視為軍事機密。

瓦爾德被咨詢飛機上什么部位應該加強鋼板時,他開始研究從戰(zhàn)役中返航的軍機上受敵軍創(chuàng)傷的彈孔位置。他畫了飛機的輪廓,并且標示出彈孔的位置。資料累積一段時間后,幾乎把機身各部位都填滿了。于是瓦爾德提議,把剩下少數(shù)幾個沒有彈孔的部位補強……因為這些部位被擊中的飛機都沒有返航。

這是一個簡單但近乎完美的實例,簡單的統(tǒng)計方法一旦融入了統(tǒng)計學家的智慧,便顯得生動而唯美!1.2如何運用統(tǒng)計學統(tǒng)計在許多學科中得到廣泛的應用。比如說,學術研究雜志就依賴于統(tǒng)計結果。在許多學科中,一篇文章是否能夠發(fā)表在主要雜志上,在很大程度上取決于該文章是否能正確地使用統(tǒng)計方法。除了學術領域,統(tǒng)計在其他領域也被人們廣泛使用。統(tǒng)計在工業(yè)中得到大量使用,尤其用于研究新產(chǎn)品、質量控制和市場開發(fā)中;市場調查也需要統(tǒng)計。讀者文摘的總統(tǒng)選舉調查這個故事有關一次著名的失敗的統(tǒng)計調查。在1936年美國總統(tǒng)選舉前,一份名為讀者文摘(LiterαryDigest)的雜志曾進行了一次民意調查。調查的焦點是誰將成為下一屆總統(tǒng)——是挑戰(zhàn)者,堪薩斯州州長阿爾夫·蘭登(AlfLandon),還是現(xiàn)任總統(tǒng)富蘭克林·德拉諾·羅斯福(Franklin

Delano

Roosevelt)。為了了解選民意向,民意調查專家們根據(jù)電話簿和車輛登記簿上的名單給一大批人發(fā)了簡單的調查表(電話和汽車在1936-年并不像現(xiàn)在這樣普遍,但是這些名單比較容易得到)。盡管發(fā)出的調查表大約有一千萬張,但收回的比例并不高。在收回的調查表中,蘭登非常受歡迎。于是,該雜志預測蘭登將贏得選舉。你可能對聲稱蘭登將贏得選舉的預測結果有疑問。正如你所懷疑的,在經(jīng)濟大蕭條時期調查擁有電話和汽車的人們,并不能夠很好地反映全體選民的觀點。此外,只有少數(shù)的調查表被收回,這一點也是值得懷疑的。事實表明,最終是羅斯福而不是蘭登贏得了這次選舉。由此可見,那次的調查結果有多么錯誤了。當前大多數(shù)應用統(tǒng)計不會像這個例子錯得那樣厲害,但即便在今天,我們也很容易發(fā)現(xiàn)統(tǒng)計被誤用的情況,尤其在需要考慮選擇正確的樣本時。1.3統(tǒng)計學的基本概念1.3.1隨機性和規(guī)律性當我們不能預測一件事情的結果時,這件事就和隨機性聯(lián)系起來了。例如,擲硬幣,參加統(tǒng)計考試是否會達到預期的分數(shù)。當把大量隨機事件放在一起時,就表現(xiàn)出令人驚奇的規(guī)律性。比如,考察擲硬幣這樣的隨機事件,如果你將同樣的硬幣擲

100次,經(jīng)驗告訴我們差不多50次正面朝上,50次反面朝上。類似地,盡管每個人死于二手煙的可能性很小,但是全球每年有60萬人死于二手煙,這個恐怖的數(shù)字卻令人難以置信地穩(wěn)定。通過對看起來隨機的現(xiàn)象進行統(tǒng)計分析,統(tǒng)計知識能夠幫助我們把隨機性歸納于可能的規(guī)律性中。統(tǒng)計從我們如何觀察事物和事物本身如何真正發(fā)生這兩個方面幫助我們理解隨機性和規(guī)律性的重要性。因此,統(tǒng)計可以看做是一項對隨機性中的規(guī)律性的研究。1.3.1隨機性和規(guī)律性規(guī)律也表現(xiàn)出某種隨機性。如果你再擲100次硬幣,正面朝上的次數(shù)幾乎不會和前100次完全一樣。在第一個100次中,也許有52次硬幣的正面朝上,然而在第二個100次中,也許就有49次正面朝上。這種偏差不僅僅發(fā)生于擲硬幣時,而且發(fā)生于調查、實驗和其它任何一種方式的數(shù)據(jù)收集中。比如在某次調查中,如果對兩個不同群的人做同樣的調查,則有不同的比例的人支持這一觀點。這兩個比例之間的差異主要是由于數(shù)據(jù)本身的隨機性引起的。在這種意義下來說,統(tǒng)計就成了對數(shù)據(jù)中的偏差問題的研究。根據(jù)作為統(tǒng)計基礎的數(shù)學理論,我們可以確定一項調查中的某一比例有多大的隨機性,以及在下一次的重復調查中,這個比例可能有多大的偏差。我們還可以指出,兩個比例之間的差異是否大到了隨機性本身所不能解釋的地步。我們將在以后章節(jié)中詳細討論這些思想。1.3.2概率因為涉及到隨機性,統(tǒng)計學還需要一個很重要的概念——概率(probability)。概率是一個0到1之間的數(shù),它告訴我們某一事件發(fā)生的機會有多大。概率為統(tǒng)計學的第三個方面——如何從數(shù)據(jù)中得出結論——奠定了基石。我們可能永遠不能確定兩個數(shù)字的差異是否超出了隨機性本身所預期的范圍,但是我們可以確定,這種差異發(fā)生的概率是大還是小。根據(jù)這個基本思想,在很多情況下,我們可以得出關于我們所處的這個世界的重要結論。我們將在第四章及其后章節(jié)中詳細闡述。1.3.3變量變量(variable)是指一個可以取兩個或更多個可能值的特征、特質或 屬性。比如,性別是取兩個值的變量,因為一個人只可能是男性或女性。還有其它變量的例子,如人的壽命,體重,以及汽車每升汽油所能行駛的距離,等等。圖1.1變量及其取值1.3.3變量變量的值(value)通常是對某一特定個體的度量,特定個體可能是指一個人,一個家庭,一個地區(qū),或一個國家。表1.1列出了一些變量、變量的取值及其所測量的個體的例子。從表中可知,性別變量是以人為個體的觀測,孩子的數(shù)目是以家庭為個體的觀測。表1.1變量,值和個體1.3.3變量

上面介紹的是經(jīng)驗變量(empirical

variables),級處理的對像是我們周圍可觀測到的物質世界中的事物。

用數(shù)學方法推導的變量稱為理論變量(theoreticalvariables)——z,t,和F變量。與變量相對的概念是常數(shù)(constant)。在統(tǒng)計中經(jīng)常使用的一種被稱做參數(shù)(parameter)的常數(shù)。1.4數(shù)據(jù)的收集1.4.1定義變量數(shù)據(jù)收集的第一個準則是要清楚測量的是什么。換句話說,變量必須有一個明確的適合研究目的的定義。這有時是說起來容易做起來難。如果我們對問題考慮得不全面,那么就沒理由指望回答問題的人(一般稱為響應者)能按照我們期望的回答問題。在我們做研究之前,對變量必須要有一個清晰、詳盡的定義。1.4數(shù)據(jù)的收集1.4.1定義變量假定我們在一次食品企業(yè)的市場調查中包含了這樣的問題"在您的家庭中有多少個孩子?"我們也許認為自己知道想要了解的是什么,但是,沒有理由期待響應者和我們有同樣的想法。1.4數(shù)據(jù)的收集1.4.1定義變量我們也許不加考慮地認為,"孩子"應定義為一個不滿18歲并和他(她)的親生父母一起生活的人。但如果一個家庭中包含大于18歲的親生子女、前妻或前夫的孩子、養(yǎng)子或養(yǎng)女、過繼子女或者其他年輕的親戚,那該怎么辦呢?對于不和親生父母生活在一起的孩子怎么算呢?對于父母離了婚而共同撫養(yǎng)的孩子怎么算呢?這有很多種發(fā)生混淆的可能。因此,我們在調查之前首先需要明確"孩子"的定義。1.4.2觀測數(shù)據(jù)數(shù)據(jù)收集有兩種主要方法,其中一種是當我們觀測現(xiàn)實世

界時收集到的數(shù)據(jù),如在不同城市中的流動人口數(shù)量。觀測數(shù)據(jù)(observational

data)是指僅通過對世界的觀察(而沒有操縱或控制它)所得到的數(shù)據(jù)。收集觀測數(shù)據(jù)的研究者們盡量不干涉研究對象的行為模式。例如,證券分析人員可能會記錄某即將被收購的公司在被收購的前一天的股市收盤價格,并與其宣布被收購的當天的收盤價比較??傮w和樣本收集數(shù)據(jù)是為了從收集的個體中得出結論。

所有我們感興趣的個體就組成了總體(population)。比如,你讀本教材這一時刻,我國所有居民就構成了一個總體。有時我們能夠收集到總體中所有個體的數(shù)據(jù)。在這種情況下,我們就是對總體做了普查(census)。我國進行的第六次全國人口普查就是希望確定我國所有居民數(shù)。然而,在苛刻的現(xiàn)實生活中,由于資金、時間有限以及不斷變化的環(huán)境條件,普查通常是很困的。此時,我們需要把收集數(shù)據(jù)限制在總體的一個樣本(sample)上,樣本是總體的中的一個被選中的部分。樣本的選擇統(tǒng)計研究者所面臨的一個關鍵問題是如何選擇樣本。我們希望基于樣本得出的結論能夠適用于該樣本所屬的總體,這依賴于獲得一個"好"的樣本,否則這是不可能實現(xiàn)的。以烹調為例子來幫助你理解為什么一個好的樣本如此重要。當我們品嘗一勺我們做的湯時,我們關心的不是這勺湯怎樣,而是整個鍋里的湯味道如何。如果鍋里的湯被充分攪拌了,我們只需品嘗一勺即可知道整鍋湯的味道。我們品嘗的這一勺湯無論是來自家庭廚房中的一個小鍋,還是來自一個更大的鍋,我們都可以窺一斑而知全豹。這正如我們從總體中選擇一個樣本,從某種意義上來說,需要選擇一個來自"攪拌均勻"的總體的樣本。如果總體能被攪拌均勻,那么一個包含1000個個體的樣本,不管它是以整個國家為總體,還是以一個城市為總體,都可以告訴我們同樣多的內容。樣本的選擇我們可以把這個例子應用于樣本調查。某產(chǎn)品上市之前的市場調查表明,有70%的人喜該產(chǎn)品。如果樣本選擇正確,這個比例將和整個市場中的消費者中的比例大致相同。類似地,在對大學畢業(yè)生就業(yè)狀況的研究中,檢查畢業(yè)生的某個樣本的目的,不是要看這些抽查到的畢業(yè)生是否能順利就業(yè),而是要要看所有大學畢業(yè)生組成的總體能否順利就業(yè)。選擇的這個樣本應該能夠很好地反映總體,因此也就能夠很好地反映大學畢業(yè)生就業(yè)狀況。如果不能正確地選擇樣本,那么對于"整鍋湯"的判斷可能導致錯誤的結論。如果市場調查專家們只對他們的家人和朋友提問,那么將可能產(chǎn)生壞樣本。如果只對已經(jīng)就業(yè)的畢業(yè)生進行調查,而忽略校漂族,那么此樣本將產(chǎn)生錯誤的結論。由于樣本選擇對于結果的可信度有重要作用,所以根據(jù)正確的統(tǒng)計原理選擇樣本是非常必要的。隨機樣本隨機樣本(random

sample)指一個合適的、能夠被推廣應用 于更大的總體的統(tǒng)計樣本。從一個紙箱子中抽簽對學生點 名回答問題,是選擇隨機樣本的最簡單的例子。疊好的寫 有學生名字的紙簽是組成整個總體的個體,每一個個體都 有相等的被選中的機會。從這種意義上說完全可能實現(xiàn)總 體中所有的群體在某樣本中的代表的數(shù)量比例大致等于這 些群體在總體中的比例。比如,如果一個工科院系的班級 有25個男生和5個女生,那么在該班級的一個隨機樣本中, 每5個男生應該對應著大約1個女生。當一個總體中的名字或代碼被放進一個紙箱子里,攪拌均勻,并隨機抽取,其結果就是一個簡單隨機樣本(simplerandom

sample)。本書中每一章末尾的所有公式都基于簡單隨機樣本的使用。方便樣本:如何產(chǎn)生一個"壞的"樣本研究者們經(jīng)常習慣于研究手頭方便的總體中的個體。例如,醫(yī)學研究者經(jīng)常對他們自己的病人做研究;市場調查者研究被他們說服進行合作的消費者。能夠很容易、很經(jīng)濟地得到的樣本稱為方便樣本

(convenience

sample)。從方便樣本中得出的結果有時候很難推廣到整個總體。有時候大型商場會要求他們的顧客回答某些問題并收回問卷,由此得到一些樣本。根據(jù)隨機取樣的原則,我們可以對此提出疑問:不在該商場買東西的人顯然不包含在樣本中,而回答問卷的人構成了方便樣本,從他們那兒得到的數(shù)據(jù)是不能夠作為該樣本以外的其他人的推廣的;即使對于該商場的顧客總體本身而言,它們也不一定是典型的。這些數(shù)據(jù)只是很好地描述了那些花了時間和精力回答問卷的顧客,僅此而已。抽樣的其它形式抽取比簡單隨機樣本更復雜的樣本也是可能的。其中一種抽樣方法是隨機選取若干小的地區(qū),然后隨機選取居住在這個地區(qū)的一些人進行直接調查。這是得到樣本的一種有效途徑。通過調查每一地區(qū)居住相臨的一些人,研究者們就避免了走好遠的路從一個居住區(qū)到另一個居住區(qū)。任何一種抽樣程序的一個普遍的困難是,很少能完全包含屬于某一特定總體的所有樣本。1.4.3收集觀測數(shù)據(jù)時的錯誤和誤差

研究抽樣技術使我們意識到,很多因素可使樣本中的數(shù)據(jù)產(chǎn)生錯誤并導致錯誤結論。若僅憑某一樣本中有55%的人認為他們的生活很幸福,我們還不能夠得出結論說全國人口中的55%的人生活很幸福。從剛開始決定調查到最后報告結果,任何一件事情都有可能出錯。大部分調查也的確犯了這樣或那樣的錯誤。抽樣誤差:并非錯誤的"誤差"調查中的有些誤差純粹是統(tǒng)計上的,主要的統(tǒng)計誤差即所謂的抽樣誤差(sampling

error)。這并不是某件事出錯造成的誤差,而是指這樣的一個事實:如果研究被再做一遍,結果未必會和上次一模一樣。例如,前面提到過的在第二個100次擲硬幣中,也許就有49次正面朝上,即正面朝上的比例為49%,不同于第一個100次擲硬幣中正面朝上的比例52%。又例如,在下一次的抽樣中,也許并不是60%的人贊同政府開征的房地產(chǎn)稅,而是57%或63%或其它相近比例的人贊同房地產(chǎn)稅。但是,即便不同的樣本會產(chǎn)生不同的答案,大部分答案仍都位于總體中的真正比例的某一變化范圍內。例如,通過每次大約1000個響應者的多次抽樣,大部分樣本(95%)得出的比例和實際的比例至多相差3個百分點。也就是說,抽樣誤差等于加或減三個百分點

(±3%)。這種結果僅僅是每一個統(tǒng)計研究所固有的隨機性的反映。別忘了這些比例是來自不同的樣本,我們沒有理由相信一個樣本的結果會和另一個樣本的結果一模一樣。并且,沒有理由相信某一特定樣本的結果恰好等于從整個總體可能得到的結果。抽樣誤差:并非錯誤的"誤差"圖1.2表明當實際的總體比例為50%時,計算機產(chǎn)生的數(shù)據(jù)的情況。其中,

100個不同樣本中的95個樣本比例位于47%和53%之間。在這種情況下,我們說有±3%的抽樣誤差——53%比50%多(+)3個百分點,47%比50%少(-)3個百分點。?圖1.2實際的總體比例和抽樣誤差為±3%的例子這一例子是基于實際的總體比例為50%的基礎之上的。而現(xiàn)實中,我們幾乎從來不知道這個數(shù)字。實際上,我們之所以做調查,就是要估計總體比例。然而,我們通過樣本依然可以計算出抽樣誤差有多大。在第5章和第6章的參數(shù)估計和假設檢驗中會給出一些計算抽樣誤差的公式。抽樣誤差的大小依賴于得到樣本的方式和樣本中包含的觀測的個數(shù)。樣本越大,誤差越小。如果樣本等于整個總體,則樣本比例就等于總體比例。在總體變化以前,對整個總體做重復研究,就會得到相同的結果。在這種情況下,抽樣誤差是0。抽樣誤差:并非錯誤的"誤差"在公布任何一次抽樣調查的結果時都應說明抽樣誤差的大小,不管是比例、均值還是其它形式。抽樣誤差告訴我們,樣本離總體的實際值可能有多遠。我們將在第5章和第6章的參數(shù)估計和假設檢驗中再次提到抽樣誤差。未響應誤差另外一種影響抽樣調查結果的誤差是未響應誤差(

nonresponse

error)。未響應誤差是指由于包含在樣本中的一部分人未回答調查而造成的誤差。這可能是由于某一選定的電話號碼撥了多次也沒有反應或接通后那人拒絕回

答問題。郵寄調查通常比電話調查有更多的未響應誤差,

因為不理會一封信比不理會一個響著的電話容易得多,而

且信被寄錯地址的可能性也要比撥一個無人使用的電話號

碼的可能性大得多。有時,一次好的電話調查,通常會有

85%至90%的響應率;而一次郵寄調查的響應率很少有到達50%的.對研究者來說,高拒絕率是一個很大的問題,因為他們對于被選中但未參與調查的人了解很少。于是出現(xiàn)許多無法回答的問題:是什么使得人們有了不響應和響應的區(qū)別?相對響應者來說,未響應者是富有還是貧窮?保守還是自由?有影響力還是缺乏影響力?如果他們響應,他們的回答會怎樣影響研究結果?未響應誤差

我們通過一個最壞的假設情況來表明未響應誤差的影響可能有多大。假定我們計劃調查1200個人,卻只有1000人接受了調查,這意味著我們缺了200人的數(shù)據(jù)。在1000個我們調查的響應者中,我們發(fā)現(xiàn)600人(或60%)贊成某事物而其余人反對它。如果我們假定另外200人也贊成,那么在1200人中就有800人贊成,比例為67%。但另一方面,如果我們假定那200人反對,那么1200人中只有600人贊成,比例為

50%。因此,僅僅由于未響應誤差,觀測樣本中60%的贊成比例有可能實際只是50%和67%之間的一個隨機數(shù)。這就可能給我們的研究結論帶來很大的差別。一些經(jīng)驗表明,在大部分情況下,未響應者和響應者并無多大差別。如果我們開始時有一個高的響應率,那么可假定未響應者也依同樣的比例作出回答。但是如果響應率很低,例如不超過50%,那么不響應的影響可能會很大。響應誤差

如果研究者小心一點的話,由調查得來的數(shù)據(jù)是有可能避免響應誤差(response

error)的。

響應誤差是在調查過程中,由于問題的提問方式、問題所處的位置或訪員的影響而使得響應者在回答問題時產(chǎn)生的偏差。我們在這里討論其中的一部分(而不是全部)情況。即使所有的問題都有了回答,我們所知道的也僅僅是調查時人們告訴訪員的,而未必是他們實際上做的、感覺的或想的。當我們在報紙上讀到,在最近的一次調查中有55%的人認為他們的生活很幸福,那么我們應該知道這句話其實是這個意思:被調查并回答了問題的人在當時有55%對訪員說他們認為生活很幸福。1.4.4實驗數(shù)據(jù):尋找造成結果的原因收集數(shù)據(jù)的另一種辦法是在實驗中控制一個或多個變量并測量操縱的結果。例如,如果我們給一組植物施肥,另外一組不給施肥,那么我們就是在控制植物土壤的成分。我們可以測量像增長率、成活率等變量。實驗數(shù)據(jù)(experimental

data)是指在實驗中控制實驗對 象而收集到的變量的數(shù)據(jù)。實驗是檢驗變量間因果關系的

一種方法。在實驗中,研究者試圖控制某一情形的所有相

關方面,操縱少數(shù)感興趣的變量,然后觀察實驗結果。1.5數(shù)據(jù)陣/數(shù)據(jù)文件

數(shù)據(jù)表通常叫做數(shù)據(jù)陣或數(shù)據(jù)文件。表1.2是一個根據(jù)抽樣調查得來的數(shù)據(jù)生成的小數(shù)據(jù)陣的例子。表1.2一次抽樣調查的原始數(shù)據(jù)1.5數(shù)據(jù)陣/數(shù)據(jù)文件在計算機分析數(shù)據(jù)時,需要把數(shù)據(jù)文件中的描述性文字轉化成數(shù)字。每一個人都被分配一個身份號碼作為名字。年齡變量本來就是用數(shù)字測量的,因此不需要任何轉化。性別變量的兩個取值是“女”或“男”,因此,“女”用數(shù)字0代替,“男”用數(shù)字1代替。當然還可以使用任何兩個別的數(shù)字,比如用17代替“女”,用23代替“男”?!皯B(tài)度”這個值可以用三個等級數(shù)1、2和3表示反對、中立和贊成。表1.3適合計算機處理的一次抽樣調查的數(shù)據(jù)1.6統(tǒng)計學和數(shù)學、統(tǒng)計軟件的關系統(tǒng)計學的基礎是數(shù)學,尤其是統(tǒng)計推斷牢牢地建立于數(shù)學基礎之上。但是,沒有數(shù)學知識也是有可能學會統(tǒng)計,這是本書的講述方式。

在本教材中,我們同時使用Excel和SPSS17.0或PASW作為應用軟件,這將有助于你擺脫枯燥的計算,使你能夠更好的專注于對數(shù)據(jù)的分析。因此,理解計算機的輸人和輸出的內容比知道計算機軟件如何計算重要得多。

但是,我們在這里要強調的是,你要學會基本的統(tǒng)計思想——某些專業(yè)術語,數(shù)據(jù)如何被收集、演示、分析,結果意味著什么,及它們何時該或不該應用于實際生活——而不至于深陷于公式和計算細節(jié)的泥潭中。

在使用統(tǒng)計軟件進行數(shù)據(jù)分析時也應該特別留神,因為只要數(shù)據(jù)格式無誤、選項不矛盾而且不用零作為除數(shù),統(tǒng)計軟件就一定給你結果,而且?guī)缀鯖]有任何警告。另外,統(tǒng)計軟件輸出的結果太多。即使是同樣的方法,不同軟件輸出的內容還不一樣,甚至有時同樣的內容名稱也不一樣。這就使得使用者大傷腦筋。即使是統(tǒng)計學家也不一定能解釋所有的輸出。因此,你要明白自己是在干什么,不要在得到一堆毫無意義的垃圾之后還沾沾自喜。常用統(tǒng)計軟件簡介(1)SPSS:這是一個很受歡迎的統(tǒng)計軟件,它容易操作,輸出漂亮,功能齊全,價格合理。它也有自己的程序語言,但基本上已經(jīng)“傻瓜化”。它對于非專業(yè)統(tǒng)計工作者是很好的選擇。2009年4月,SPSS公司被IBM收購后將其重新命名為PASW(PredictiveAnalytics

Software,預測分析軟件),不過本書仍然使用SPSS名稱。(2)Excel:嚴格說來并不是統(tǒng)計軟件,但作為數(shù)據(jù)表格軟件有一定統(tǒng)計計算功能。而且凡是裝有Microsoft

Office的計算機,基本上都有Excel。但要注意,有時在安裝Office時沒有安裝數(shù)據(jù)分析的功能,則必須安裝該功能后才能進行數(shù)據(jù)分析。當然,畫圖功能

是默認具備的。對于簡單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用宏命令來編程,這時就沒有相應的簡單選項了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。(3)SAS:這是功能非常齊全的軟件,盡管價格相當不菲,但是許多公司,特別是美國制藥公司偏愛使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”,但仍然需要一定的訓練才可以進入。也可以對它編程,但對于基本統(tǒng)計課程則不那么方便。(4)Eviews:這是一個處理回歸和時間序列等問題很方便的經(jīng)濟計量學軟件,能夠處理以時間序列為主的多種類型數(shù)據(jù),進行包括描述統(tǒng)計、回歸分析、傳統(tǒng)時間序列分析等基本數(shù)據(jù)分析以及建立條件異方差、向量自回歸等復雜的計量經(jīng)濟模型。(5)R軟件:這是一個免費的,由志愿者管理的軟件。其編程語言與S-plus所基于的S語言一樣,使用很方便。還有不少統(tǒng)計學家和愛好者不斷在R網(wǎng)站提供他們編寫的各種最新方法的統(tǒng)計軟件包和程序。它的所有計算過程和代碼都是公開的,不像多數(shù)“傻瓜

”軟件“黑盒子”式的模塊。它的函數(shù)還可以被用戶按需要改寫,容易舉一反三。對于一般非統(tǒng)計工作者來說,主要問題是它沒有“傻瓜化”。統(tǒng)計學:思想、方法與應用第2章分類數(shù)據(jù)的描述方法數(shù)據(jù)分析的三個原則頻數(shù)表統(tǒng)計圖列聯(lián)表學習目標用頻數(shù)表描述數(shù)據(jù)的分布;用條形圖、餅圖、百分條圖等圖形來展示數(shù)據(jù);用列聯(lián)表分析兩個分類指標之間的關系;相關理論在統(tǒng)計軟件中的應用;相應統(tǒng)計分析結果的解讀。

在收集好數(shù)據(jù)之后,我們必須在數(shù)據(jù)中尋找所包含的信息。

雖然我們在電子表格或其他數(shù)據(jù)文件中可以直接看到數(shù)據(jù),但是數(shù)據(jù)如此之多,以至于我們無法把他們全部理解。

因此,我們必須使用一些方法從數(shù)據(jù)中提取信息,并轉化成可用的形式。

數(shù)據(jù)分析包括三種形式:為數(shù)據(jù)畫一個圖,制作一個表或者計算一些我們感興趣的東西。

這可以幫助我們對數(shù)據(jù)進行簡化。簡化使得理解數(shù)據(jù)和從數(shù)據(jù)中提取信息變得容易了。

但是數(shù)據(jù)簡化有一個不足之處,就是難以從簡化的形式中恢復原始數(shù)據(jù),因此,當我們分析數(shù)據(jù)時,幾乎總會丟失某些信息。2.1數(shù)據(jù)分析的三個原則一幅好圖勝千言。數(shù)據(jù)分析有三個原則:1、繪制一個圖。圖像可以幫助你看到從數(shù)據(jù)表里看不到的信息,有助于你選擇分析的方法,幫你明確思考隱藏在數(shù)據(jù)背后的模式和關系。2、繪制一個圖。精心設計的圖像在分析工作中很重要。它能夠展現(xiàn)重要的特征和模式,有時候可以揭示出你意想不到的事情:值得注意的(可能是錯誤的)數(shù)據(jù)或意想不到的模式。3、繪制一個圖。使用一個精心挑選的圖像是向其他人匯報你的數(shù)據(jù)分析結果的最佳方式。2.2頻數(shù)表

頻數(shù)表(frequency

table)或頻數(shù)分布表(frequencydistribution

table)可以幫助了解變量取值的分布狀況。頻數(shù)表是遵循既不重疊又不遺漏的原則,按變量(數(shù)據(jù)特征)的取值歸類分組,把總體的所有單位按組歸并排列,其各個組別所包含的數(shù)據(jù)數(shù)目(頻數(shù))的匯總表格。簡而言之,頻數(shù)表包括兩個要素:總體按其標志所分的組和各組所分布的單位數(shù)量。2.2頻數(shù)表

表2.1是KEEN網(wǎng)站的訪問者使用的搜索引擎的頻數(shù)表,“Direct”表示直接輸入網(wǎng)址訪問。

該表給出了搜索引擎的類別名稱,每個類別的訪問數(shù)量以及合計數(shù)量。表2.1訪問KEEN網(wǎng)站的訪問者使用的搜索引擎的頻數(shù)表2.2頻數(shù)表

表2.2是訪問KEEN網(wǎng)站的訪問者使用的搜索引擎的相對頻數(shù)表,表中展示了每個類別的訪問比例。通過這種方式,我們可以描述分類變量的分布。表2.2相對頻數(shù)表2.3統(tǒng)計圖如果想獲得更生動的展示,我們可以使用統(tǒng)計圖。

統(tǒng)計圖是用幾何圖形或具體事物的形象來表現(xiàn)統(tǒng)計數(shù)據(jù)的一種形式。

統(tǒng)計圖既可以節(jié)省大量文字敘述,又可便于數(shù)據(jù)的對比分析與積累。利用統(tǒng)計圖表現(xiàn)統(tǒng)計數(shù)據(jù),能更為鮮明醒目、一目了然、形象具體地顯示現(xiàn)象之間的相互關系。

按照圖形的形式,統(tǒng)計圖大體上可以分為幾何圖、象形圖和統(tǒng)計地圖三種。2.3統(tǒng)計圖幾何圖。幾何圖是利用幾何的形和線來表明統(tǒng)計數(shù)據(jù)的圖形,包括條形圖、餅圖等。象形圖。象形圖是以表示現(xiàn)象本身形象的長度、大小、多少來表示數(shù)值大小的一種圖形。例如用油桶的大小表示的某地1990年、

2000年和2005年三年的原油產(chǎn)量如左圖所示:(3)統(tǒng)計地圖。統(tǒng)計地圖是用不同的顏色或紋理表示變量或某種指標在地域上的分布特征及規(guī)律,用以顯示不同地域事物數(shù)量的分布情況。例如可以利用顏色的深淺來表示某地區(qū)各縣某種產(chǎn)品的生產(chǎn)情況。如右圖所示:2.3.1面積原則

在得到頻數(shù)表之后,我們就可以按照數(shù)據(jù)分析的三個原則來對數(shù)據(jù)進行繪圖。但是不能隨便做圖,因為一個糟糕的圖像反而會歪曲我們對數(shù)據(jù)的認識。

例如,盡管大部分的人都是通過Google來訪問KEEN網(wǎng)站,但是圖2.1展示的情況是瀏覽者似乎全部是通過Google來訪問

KEEN網(wǎng)站。問題出在哪里呢?圖2.1一個容易讓人迷惑的圖2.3.1面積原則

圖2.1中的涼鞋的長度對應著頻數(shù)表中的數(shù)據(jù),但是我們的眼睛更容易被涼鞋的“面積”或者“體積”迷惑。

通過Google來訪問KEEN網(wǎng)站的人數(shù)是直接輸入網(wǎng)址來訪問的人數(shù)的2倍多,代表通過Google來訪問KEEN網(wǎng)站的涼鞋的長度就是代表直接輸入網(wǎng)址來訪問的2倍多,但是前者的面積是后者的4倍多,于是我們從這個圖上就會有錯誤的認識。獲得最佳數(shù)據(jù)展示的一個基礎原則就是面積原則,即圖像一部分所占的面積應該與數(shù)據(jù)的量級對應。2.3.2條形圖和柱形圖

分類數(shù)據(jù)的一個常用統(tǒng)計圖是條形圖(bar

chart,bar

plot,bar

graph)。

條形圖是用等寬直條的長短來表示各個相互獨立的指標大小的圖形,適用于相互獨立的數(shù)據(jù)(數(shù)據(jù)有明確分組,不連續(xù))。條形圖可以描述那些已經(jīng)用頻數(shù)或頻率匯總了的定性變量。一個坐標軸代表定性變量的各個取值,在每個變量位置的條的長度和其所代表的水平的頻數(shù)或頻率成比例。

條形圖分為單式和復式兩種,單式適用于只有一組觀察數(shù)據(jù),復式適用于有若干組觀察數(shù)據(jù)。

條形圖有很多變種。比如,縱軸和橫軸可以互換,這決定條形是垂直放置(柱形圖)還是水平放置。條形圖還可以描述離散定量變量數(shù)據(jù)的頻數(shù)、頻率或概率分布。2.3.2條形圖和柱形圖

圖2.2是通過搜索引擎訪問的條形圖,該圖遵守了面積原則。

做法:在Excel中使用“插入圖表”工具按鈕,選擇柱形圖或條形圖。圖2.2通過搜索引擎訪問的條形圖2.3.2條形圖和柱形圖如果我們想了解搜索引擎的頻率,還可以畫出相對頻數(shù)條形圖(relative

frequency

bar

chart),如下圖2.3所示。圖2.3通過搜索引擎訪問的相對頻數(shù)的條形圖2.3.3帕累托圖帕累托圖(pareto

chart)是以意大利經(jīng)濟學家V.帕累托(1848---1923年)的名字命名的,又稱主次因素分析、排列圖。帕累托圖是根據(jù)“關鍵的少數(shù)和次要的多數(shù)”的原理而制做的。根據(jù)表2.1中不同類型搜索引擎的頻數(shù)分布表繪制的帕累托圖如圖2.8所示。圖2.8不同類型搜索引擎的頻數(shù)分布表繪制的帕累托圖該帕累托圖表明:對網(wǎng)站的訪問主要途徑依靠Google和Direct,KEEN公司需要在這兩個途徑上進行加強和改進。2.3.4餅圖餅圖(pie

chart)又叫圓形圖,是一個圓面積為100%,由許多扇形組成的圓,各個扇形的大小比例等于變量各個水平(或

類別)的頻率或比例,即表示了不同組成部分的相對重要性。餅圖對描述定類尺度的數(shù)據(jù)特別有用。Excel中使用“插入圖表”工具按鈕,選擇餅圖。餅圖比條形圖簡單,描述比例較直觀。但是當變量太多時,餅圖就不那么好看了。2.3.4餅圖

圖2.8是搜索引擎訪問的相對頻數(shù)表的餅圖。餅圖中列出了每個類別的名稱、頻數(shù)和頻率。從餅圖可以比較不同類別之間的差異。但是,有時候我們不容易看出不同類別之間的差異。比如,從餅圖能看出通過Yahoo訪問量大還是通過其他方式訪問的量大?這很難講,因為這兩塊的面積看起來似乎一樣大。而這個比較在條形圖中是很容易看出來的,在條形圖2.2中我們很容易看出來自于Yahoo的訪問量較小。2.4列聯(lián)表

為了了解不同地區(qū)或市場對這款新涼鞋款式的接受程度,調查了5個國家769名顧客,收集了兩個變量:態(tài)度和國家,數(shù)據(jù)見表2.5。

這些變量每個都有兩個或更多的可能取值,這些取值稱為變量的水平。

表2.5中對新涼鞋的態(tài)度就有“完全贊成、有些贊成、既不反對也不贊成、有些不贊成、完全不贊成、不知道”六個水平,國家類別包括了五個國家,表示該變量有5個水平。

為了分析的方便,我們往往用水平用符號或數(shù)字代碼來表示這些變量,例如:對新涼鞋的六種態(tài)度就可以用代碼1、2、3、4、5、6表示;五個國家可以用代碼1、2、3、4、5或者A、B、C、D、E表示。2.4列聯(lián)表

根據(jù)表2.5,整理得到這些顧客對新涼鞋的態(tài)度如下表2.6:表2.6對新涼鞋的接受態(tài)度的調查數(shù)據(jù)表2.4列聯(lián)表

對表2.6,可以通過前面介紹的餅圖和條形圖來了解顧客對新涼鞋款式的接受狀況。

下面的餅圖反映出有一半的顧客贊成新款式(包括有些贊成和完全贊成兩部分)。2.4列聯(lián)表

不同國家的顧客對該鞋款式的態(tài)度是怎么樣的,有沒有區(qū)別?

換句話說,對該鞋新款式的態(tài)度是否隨著國家的改變而變化。

為了獲得答案,我們需要把根據(jù)兩個分類變量(即“對新涼鞋的態(tài)度”和“國家”)匯總得到的數(shù)據(jù)放在一個二維列聯(lián)表里面,見表2.7。2.4列聯(lián)表表2.7對新涼鞋的接受態(tài)度的調查數(shù)據(jù)表(列聯(lián)表)2.4列聯(lián)表

列聯(lián)表(contingencytable)是由兩個或兩個以上變量進行交叉分類得到的頻數(shù)分布表。

列聯(lián)表中間的各個變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計數(shù)(count)。比如表2.7中的“中國”這一行的數(shù)字52,表明有52名中國顧客完全贊成新涼鞋的款式。

構成列聯(lián)表的變量都是定性變量或定序變量。一個r

行c

列的列聯(lián)表稱為r×c

列聯(lián)表,一般的把2×2的二維列聯(lián)表又稱為交叉表(cross

table)。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。2.4列聯(lián)表

注意到表2.7還展示了每一行人數(shù)的總和及每一列的總和,分別放在最后一列和最后一行中。

實際上,最后一行就是表2.6中的數(shù)據(jù),即對新涼鞋態(tài)度的頻數(shù)分布。

列聯(lián)表的最后一列反應的是變量“國家”的頻數(shù)分布。

在統(tǒng)計上就把列聯(lián)表的這兩部分數(shù)據(jù)稱為對應變量的邊際分布(marginal

distribution)。2.4列聯(lián)表

我們可能還想知道哪個國家的顧客更贊成新涼鞋的款式,哪個國家的顧客更反對新涼鞋的款式,或者哪個國家的顧客覺得無所謂

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論