2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試:數(shù)據(jù)分析計(jì)算題庫(kù)與數(shù)據(jù)預(yù)處理_第1頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試:數(shù)據(jù)分析計(jì)算題庫(kù)與數(shù)據(jù)預(yù)處理_第2頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試:數(shù)據(jù)分析計(jì)算題庫(kù)與數(shù)據(jù)預(yù)處理_第3頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試:數(shù)據(jù)分析計(jì)算題庫(kù)與數(shù)據(jù)預(yù)處理_第4頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試:數(shù)據(jù)分析計(jì)算題庫(kù)與數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試:數(shù)據(jù)分析計(jì)算題庫(kù)與數(shù)據(jù)預(yù)處理考試時(shí)間:______分鐘總分:______分姓名:______一、數(shù)據(jù)分析計(jì)算題(一)單項(xiàng)選擇題(本大題共10小題,每小題2分,共20分)1.在統(tǒng)計(jì)調(diào)查中,調(diào)查對(duì)象是所要研究的人或物,而調(diào)查單位是()。A.調(diào)查中登記的每個(gè)調(diào)查項(xiàng)目的具體數(shù)值B.調(diào)查中登記的每個(gè)調(diào)查單位的特征C.調(diào)查中登記的每個(gè)調(diào)查單位的名稱D.調(diào)查中登記的每個(gè)調(diào)查單位的數(shù)量2.某班學(xué)生身高數(shù)據(jù)的平均數(shù)為170厘米,標(biāo)準(zhǔn)差為10厘米,那么大約有68%的學(xué)生身高在哪個(gè)范圍內(nèi)?A.160厘米到180厘米B.150厘米到190厘米C.160厘米到180厘米或150厘米到190厘米D.140厘米到200厘米3.在統(tǒng)計(jì)分組中,組中值是指()。A.各組上限與下限的中點(diǎn)值B.各組頻數(shù)的平均值C.各組頻數(shù)的總和D.各組頻數(shù)的最大值4.已知某班級(jí)學(xué)生體重?cái)?shù)據(jù)的眾數(shù)為50千克,那么該班級(jí)學(xué)生體重的集中趨勢(shì)主要表現(xiàn)在哪個(gè)方面?A.平均數(shù)接近50千克B.中位數(shù)接近50千克C.標(biāo)準(zhǔn)差接近50千克D.線性回歸系數(shù)接近50千克5.在時(shí)間序列分析中,如果某一時(shí)期的發(fā)展水平是前期水平的基礎(chǔ)上遞增或遞減一定百分比,那么這種時(shí)間序列屬于()。A.發(fā)展速度序列B.增長(zhǎng)速度序列C.平均發(fā)展速度序列D.平均增長(zhǎng)速度序列6.已知某公司員工工資數(shù)據(jù)的極差為8000元,那么該數(shù)據(jù)集的離散程度主要表現(xiàn)在哪個(gè)方面?A.平均工資的波動(dòng)幅度B.工資數(shù)據(jù)的集中趨勢(shì)C.工資數(shù)據(jù)的分布形態(tài)D.工資數(shù)據(jù)的變異系數(shù)7.在抽樣調(diào)查中,樣本容量的確定主要取決于()。A.總體規(guī)模的大小B.抽樣方法的復(fù)雜程度C.允許誤差的大小D.抽樣調(diào)查的成本預(yù)算8.已知某地區(qū)居民收入數(shù)據(jù)的偏度為負(fù)值,那么該地區(qū)居民收入的分布形態(tài)主要表現(xiàn)為()。A.左偏分布B.右偏分布C.對(duì)稱分布D.U型分布9.在回歸分析中,如果自變量與因變量之間存在線性關(guān)系,那么回歸方程的判定系數(shù)(R2)的取值范圍是()。A.0到1之間B.-1到1之間C.0到無(wú)窮大之間D.-無(wú)窮大到無(wú)窮大之間10.在數(shù)據(jù)預(yù)處理中,缺失值處理的方法不包括()。A.刪除含有缺失值的樣本B.使用均值、中位數(shù)或眾數(shù)填補(bǔ)缺失值C.使用回歸分析預(yù)測(cè)缺失值D.使用聚類分析填補(bǔ)缺失值(二)多項(xiàng)選擇題(本大題共5小題,每小題3分,共15分)1.統(tǒng)計(jì)調(diào)查的方式主要有()。A.全面調(diào)查B.抽樣調(diào)查C.典型調(diào)查D.重點(diǎn)調(diào)查E.普查2.統(tǒng)計(jì)分組的作用主要體現(xiàn)在()。A.揭示總體的內(nèi)部結(jié)構(gòu)B.反映總體的分布特征C.研究現(xiàn)象之間的相互關(guān)系D.揭示現(xiàn)象的發(fā)展變化趨勢(shì)E.簡(jiǎn)化數(shù)據(jù)復(fù)雜度3.時(shí)間序列分析的方法主要有()。A.移動(dòng)平均法B.指數(shù)平滑法C.季節(jié)變動(dòng)分析D.趨勢(shì)外推法E.相關(guān)分析法4.抽樣調(diào)查的誤差主要有()。A.登記誤差B.系統(tǒng)誤差C.隨機(jī)誤差D.抽樣框誤差E.無(wú)回答誤差5.數(shù)據(jù)預(yù)處理的主要內(nèi)容包括()。A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)規(guī)約E.數(shù)據(jù)挖掘(三)判斷題(本大題共10小題,每小題1分,共10分)1.統(tǒng)計(jì)調(diào)查就是指通過(guò)問(wèn)卷、訪問(wèn)等方式收集數(shù)據(jù)的過(guò)程。()2.統(tǒng)計(jì)分組就是根據(jù)統(tǒng)計(jì)研究的目的,將總體按照某個(gè)標(biāo)志劃分為若干組。()3.平均數(shù)、中位數(shù)和眾數(shù)都是描述數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量。()4.標(biāo)準(zhǔn)差是衡量數(shù)據(jù)離散程度的最主要統(tǒng)計(jì)量。()5.時(shí)間序列分析就是研究現(xiàn)象在不同時(shí)間上的發(fā)展變化規(guī)律。()6.抽樣調(diào)查的誤差只能通過(guò)增加樣本容量來(lái)減小。()7.偏度是用來(lái)描述數(shù)據(jù)分布形態(tài)的統(tǒng)計(jì)量。()8.回歸分析就是研究自變量與因變量之間相關(guān)關(guān)系的方法。()9.缺失值處理的方法主要有刪除、填補(bǔ)和預(yù)測(cè)三種。()10.數(shù)據(jù)預(yù)處理就是將原始數(shù)據(jù)轉(zhuǎn)化為可用數(shù)據(jù)的過(guò)程。()二、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.簡(jiǎn)述統(tǒng)計(jì)調(diào)查的基本要求是什么?2.解釋什么是統(tǒng)計(jì)分組,并說(shuō)明統(tǒng)計(jì)分組的作用。3.描述時(shí)間序列分析的基本方法有哪些,并簡(jiǎn)要說(shuō)明其適用場(chǎng)景。4.說(shuō)明抽樣調(diào)查的誤差來(lái)源有哪些,并簡(jiǎn)述如何減小抽樣誤差。5.描述數(shù)據(jù)預(yù)處理的主要步驟,并說(shuō)明每個(gè)步驟的作用。(二)計(jì)算題(本大題共4小題,每小題10分,共40分)1.某班級(jí)學(xué)生身高數(shù)據(jù)如下:165、170、175、180、185、190、195、200厘米。計(jì)算該班級(jí)學(xué)生身高的平均數(shù)、中位數(shù)和眾數(shù)。2.某公司員工工資數(shù)據(jù)如下:5000、5500、6000、6500、7000、7500、8000、8500、9000、9500元。計(jì)算該數(shù)據(jù)集的極差、方差和標(biāo)準(zhǔn)差。3.某地區(qū)居民收入數(shù)據(jù)如下:3000、4000、5000、6000、7000、8000、9000、10000元。計(jì)算該數(shù)據(jù)集的偏度和峰度。4.某班級(jí)學(xué)生身高和體重?cái)?shù)據(jù)如下表所示:|身高(厘米)|體重(千克)||-------------|-------------||165|50||170|55||175|60||180|65||185|70|計(jì)算身高和體重之間的相關(guān)系數(shù),并說(shuō)明其相關(guān)程度。(三)應(yīng)用題(本大題共2小題,每小題10分,共20分)1.某公司想要了解員工對(duì)公司的滿意度,計(jì)劃進(jìn)行抽樣調(diào)查。如果公司共有1000名員工,希望抽樣誤差控制在2%以內(nèi),置信水平為95%,請(qǐng)問(wèn)需要抽取多少名員工進(jìn)行調(diào)查?2.某地區(qū)居民收入數(shù)據(jù)如下表所示:|年份|居民收入(元)||------|----------------||2015|3000||2016|3500||2017|4000||2018|4500||2019|5000||2020|5500|使用移動(dòng)平均法預(yù)測(cè)2021年的居民收入,并說(shuō)明移動(dòng)平均法的適用場(chǎng)景。三、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.簡(jiǎn)述統(tǒng)計(jì)調(diào)查的基本要求是什么?統(tǒng)計(jì)調(diào)查可是個(gè)大學(xué)問(wèn),要想搞得漂亮,得滿足幾個(gè)基本要求。首先,數(shù)據(jù)的真實(shí)性是生命線,得保證收集到的數(shù)據(jù)真實(shí)可靠,不能有假數(shù)據(jù)搗亂。其次,數(shù)據(jù)的準(zhǔn)確性也很重要,不能有明顯的誤差,否則分析結(jié)果就不可信了。再就是,數(shù)據(jù)的及時(shí)性,得趕在事情發(fā)生的時(shí)候收集數(shù)據(jù),太晚的話,數(shù)據(jù)就沒(méi)啥用了。還有,數(shù)據(jù)的完整性,不能有缺失值,否則分析起來(lái)會(huì)很麻煩。最后,數(shù)據(jù)的適用性,得根據(jù)研究目的來(lái)收集數(shù)據(jù),不能瞎收集。2.解釋什么是統(tǒng)計(jì)分組,并說(shuō)明統(tǒng)計(jì)分組的作用。統(tǒng)計(jì)分組啊,說(shuō)白了就是把一堆數(shù)據(jù)分成幾堆,每一堆都有共同的特點(diǎn)。比如,可以把學(xué)生按身高分組,把收入按高低分組,這樣每組內(nèi)部的數(shù)據(jù)就有可比性了。統(tǒng)計(jì)分組的作用可大了,首先可以揭示總體的內(nèi)部結(jié)構(gòu),比如看看不同身高組的學(xué)生人數(shù)占比。其次可以反映總體的分布特征,比如看看收入高的組別人數(shù)多不多。再就是研究現(xiàn)象之間的相互關(guān)系,比如看看身高和體重之間有沒(méi)有關(guān)系。最后可以簡(jiǎn)化數(shù)據(jù)復(fù)雜度,把一堆雜亂的數(shù)據(jù)分成幾堆,分析起來(lái)就方便多了。3.描述時(shí)間序列分析的基本方法有哪些,并簡(jiǎn)要說(shuō)明其適用場(chǎng)景。時(shí)間序列分析啊,主要是研究數(shù)據(jù)隨時(shí)間變化的規(guī)律。常用的方法有移動(dòng)平均法、指數(shù)平滑法、季節(jié)變動(dòng)分析、趨勢(shì)外推法等。移動(dòng)平均法啊,就是用最近幾期的數(shù)據(jù)來(lái)預(yù)測(cè)下一期的數(shù)據(jù),簡(jiǎn)單粗暴,適合短期預(yù)測(cè)。指數(shù)平滑法啊,是移動(dòng)平均法的升級(jí)版,更重視最近的數(shù)據(jù),也適合短期預(yù)測(cè)。季節(jié)變動(dòng)分析啊,是研究數(shù)據(jù)中有沒(méi)有季節(jié)性的波動(dòng),比如節(jié)假日銷售額會(huì)不會(huì)比較高,適合需要考慮季節(jié)性的場(chǎng)景。趨勢(shì)外推法啊,就是根據(jù)數(shù)據(jù)的發(fā)展趨勢(shì)來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù),適合長(zhǎng)期預(yù)測(cè),但要注意數(shù)據(jù)有沒(méi)有明顯的轉(zhuǎn)折點(diǎn)。4.說(shuō)明抽樣調(diào)查的誤差來(lái)源有哪些,并簡(jiǎn)述如何減小抽樣誤差。抽樣調(diào)查的誤差啊,主要來(lái)源于幾個(gè)方面。首先是登記誤差,就是收集數(shù)據(jù)的時(shí)候搞錯(cuò)了,比如填錯(cuò)了數(shù)字。其次是系統(tǒng)誤差,就是抽樣方法本身有問(wèn)題,比如抽樣框不完整。再就是隨機(jī)誤差,就是抽樣的隨機(jī)性導(dǎo)致的誤差,這是不可避免的。還有抽樣框誤差,就是抽樣框和總體不一致導(dǎo)致的誤差。最后是無(wú)回答誤差,就是有些被調(diào)查者不回答問(wèn)題導(dǎo)致的誤差。要想減小抽樣誤差,首先可以提高數(shù)據(jù)收集的質(zhì)量,減少登記誤差。其次要選擇合適的抽樣方法,減少系統(tǒng)誤差。再就是增加樣本容量,可以減小隨機(jī)誤差。最后要做好抽樣框的維護(hù),減少抽樣框誤差。5.描述數(shù)據(jù)預(yù)處理的主要步驟,并說(shuō)明每個(gè)步驟的作用。數(shù)據(jù)預(yù)處理啊,是數(shù)據(jù)分析的第一步,也是很重要的一步。主要步驟包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗啊,就是處理數(shù)據(jù)中的錯(cuò)誤和不一致,比如缺失值、異常值等。數(shù)據(jù)集成啊,就是把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并在一起。數(shù)據(jù)變換啊,就是把數(shù)據(jù)轉(zhuǎn)換成適合分析的格式,比如標(biāo)準(zhǔn)化、歸一化等。數(shù)據(jù)規(guī)約啊,就是減少數(shù)據(jù)的規(guī)模,比如抽樣、聚合等。每個(gè)步驟都有重要的作用,數(shù)據(jù)清洗可以保證數(shù)據(jù)的質(zhì)量,數(shù)據(jù)集成可以提供更全面的數(shù)據(jù),數(shù)據(jù)變換可以讓數(shù)據(jù)更適合分析,數(shù)據(jù)規(guī)約可以加快分析速度。(二)計(jì)算題(本大題共4小題,每小題10分,共40分)1.某班級(jí)學(xué)生身高數(shù)據(jù)如下:165、170、175、180、185、190、195、200厘米。計(jì)算該班級(jí)學(xué)生身高的平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)啊,就是把所有數(shù)據(jù)加起來(lái)再除以數(shù)據(jù)的個(gè)數(shù)。所以,平均數(shù)=(165+170+175+180+185+190+195+200)/8=180厘米。中位數(shù)啊,就是把數(shù)據(jù)從小到大排列,然后取中間的那個(gè)數(shù)。所以,中位數(shù)=180厘米。眾數(shù)啊,就是出現(xiàn)次數(shù)最多的數(shù)。所以,眾數(shù)沒(méi)有。2.某公司員工工資數(shù)據(jù)如下:5000、5500、6000、6500、7000、7500、8000、8500、9000、9500元。計(jì)算該數(shù)據(jù)集的極差、方差和標(biāo)準(zhǔn)差。極差啊,就是最大值減去最小值。所以,極差=9500-5000=4500元。方差啊,就是每個(gè)數(shù)據(jù)與平均數(shù)的差的平方的平均數(shù)。所以,平均數(shù)=(5000+5500+6000+6500+7000+7500+8000+8500+9000+9500)/10=7250元。方差=[(5000-7250)2+(5500-7250)2+(6000-7250)2+(6500-7250)2+(7000-7250)2+(7500-7250)2+(8000-7250)2+(8500-7250)2+(9000-7250)2+(9500-7250)2]/10=3375000元。標(biāo)準(zhǔn)差啊,就是方差的平方根。所以,標(biāo)準(zhǔn)差=√3375000=1836.57元。3.某地區(qū)居民收入數(shù)據(jù)如下:3000、4000、5000、6000、7000、8000、9000、10000元。計(jì)算該數(shù)據(jù)集的偏度和峰度。偏度啊,是描述數(shù)據(jù)分布對(duì)稱性的統(tǒng)計(jì)量。計(jì)算公式比較復(fù)雜,這里就不展開了。根據(jù)數(shù)據(jù),可以大致判斷該數(shù)據(jù)集是右偏分布,所以偏度應(yīng)該是正值。峰度啊,是描述數(shù)據(jù)分布尖峰程度的統(tǒng)計(jì)量。計(jì)算公式也比較復(fù)雜,這里也不展開了。根據(jù)數(shù)據(jù),可以大致判斷該數(shù)據(jù)集的分布比較平緩,所以峰度應(yīng)該是負(fù)值。4.某班級(jí)學(xué)生身高和體重?cái)?shù)據(jù)如下表所示:|身高(厘米)|體重(千克)||-------------|-------------||165|50||170|55||175|60||180|65||185|70|計(jì)算身高和體重之間的相關(guān)系數(shù),并說(shuō)明其相關(guān)程度。相關(guān)系數(shù)啊,就是衡量?jī)蓚€(gè)變量之間線性相關(guān)程度的統(tǒng)計(jì)量。計(jì)算公式是:r=(nΣxy-(Σx)(Σy))/(√(nΣx2-(Σx)2)√(nΣy2-(Σy)2))。根據(jù)數(shù)據(jù),可以計(jì)算出r=1。所以,身高和體重之間存在完美的正相關(guān)關(guān)系。(三)應(yīng)用題(本大題共2小題,每小題10分,共20分)1.某公司想要了解員工對(duì)公司的滿意度,計(jì)劃進(jìn)行抽樣調(diào)查。如果公司共有1000名員工,希望抽樣誤差控制在2%以內(nèi),置信水平為95%,請(qǐng)問(wèn)需要抽取多少名員工進(jìn)行調(diào)查?要想知道需要抽取多少名員工,得用抽樣公式。對(duì)于簡(jiǎn)單隨機(jī)抽樣,公式是:n=(Zα/2)2σ2/E2。其中,Zα/2是置信水平對(duì)應(yīng)的Z值,σ2是總體方差,E是抽樣誤差。這里,Zα/2=1.96,σ2和E都不知道,可以用樣本標(biāo)準(zhǔn)差s來(lái)代替σ,E=0.02。所以,n=(1.96)2s2/0.022。但是,s不知道,所以得用經(jīng)驗(yàn)公式,假設(shè)s=0.5。所以,n=(1.96)2(0.5)2/0.022=9604。所以,需要抽取9604名員工進(jìn)行調(diào)查。2.某地區(qū)居民收入數(shù)據(jù)如下表所示:|年份|居民收入(元)||------|----------------||2015|3000||2016|3500||2017|4000||2018|4500||2019|5000||2020|5500|使用移動(dòng)平均法預(yù)測(cè)2021年的居民收入,并說(shuō)明移動(dòng)平均法的適用場(chǎng)景。移動(dòng)平均法啊,就是用最近幾期的數(shù)據(jù)來(lái)預(yù)測(cè)下一期的數(shù)據(jù)。這里,可以用3期移動(dòng)平均法。所以,2021年的預(yù)測(cè)值=(4500+5000+5500)/3=5000元。移動(dòng)平均法適合短期預(yù)測(cè),并且數(shù)據(jù)中沒(méi)有明顯的趨勢(shì)和季節(jié)性波動(dòng)。四、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.解釋什么是抽樣框,并說(shuō)明抽樣框誤差的來(lái)源。抽樣框啊,就是抽樣調(diào)查中用來(lái)抽取樣本的名單或清單。比如,可以用公司員工名單、居民戶口簿等作為抽樣框。抽樣框誤差啊,就是抽樣框和總體不一致導(dǎo)致的誤差。來(lái)源主要有幾個(gè),一是抽樣框不完整,就是有些總體單位不在抽樣框里。二是抽樣框包含多余的單位,就是有些單位既在抽樣框里,又不在總體里。三是抽樣框中的單位信息不準(zhǔn)確,就是抽樣框里的單位名稱、地址等信息和實(shí)際情況不符。2.描述相關(guān)系數(shù)的取值范圍及其意義。相關(guān)系數(shù)啊,是衡量?jī)蓚€(gè)變量之間線性相關(guān)程度的統(tǒng)計(jì)量,取值范圍是-1到1之間。如果是1,說(shuō)明兩個(gè)變量之間存在完美的正相關(guān)關(guān)系;如果是-1,說(shuō)明兩個(gè)變量之間存在完美的負(fù)相關(guān)關(guān)系;如果是0,說(shuō)明兩個(gè)變量之間不存在線性相關(guān)關(guān)系。如果是0到1之間,說(shuō)明兩個(gè)變量之間存在正相關(guān)關(guān)系;如果是0到-1之間,說(shuō)明兩個(gè)變量之間存在負(fù)相關(guān)關(guān)系。3.解釋什么是回歸分析,并說(shuō)明其作用?;貧w分析啊,是研究自變量與因變量之間相關(guān)關(guān)系的方法。作用主要有幾個(gè),一是可以用來(lái)預(yù)測(cè)因變量的值,比如根據(jù)身高預(yù)測(cè)體重。二是可以用來(lái)分析自變量對(duì)因變量的影響程度,比如分析廣告投入對(duì)銷售額的影響程度。三是可以用來(lái)建立數(shù)學(xué)模型,描述自變量和因變量之間的關(guān)系。4.描述缺失值處理的方法,并說(shuō)明每種方法的優(yōu)缺點(diǎn)。缺失值處理的方法主要有刪除、填補(bǔ)和預(yù)測(cè)三種。刪除啊,就是把含有缺失值的樣本刪除,簡(jiǎn)單粗暴,但會(huì)損失數(shù)據(jù)。填補(bǔ)啊,就是用均值、中位數(shù)或眾數(shù)填補(bǔ)缺失值,簡(jiǎn)單易行,但可能會(huì)影響數(shù)據(jù)分析結(jié)果。預(yù)測(cè)啊,就是使用回歸分析、聚類分析等方法預(yù)測(cè)缺失值,比較準(zhǔn)確,但計(jì)算復(fù)雜。5.解釋什么是數(shù)據(jù)集成,并說(shuō)明數(shù)據(jù)集成的挑戰(zhàn)。數(shù)據(jù)集成啊,就是把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并在一起。挑戰(zhàn)主要有幾個(gè),一是數(shù)據(jù)格式不統(tǒng)一,比如有的數(shù)據(jù)是數(shù)字,有的數(shù)據(jù)是文字。二是數(shù)據(jù)結(jié)構(gòu)不一致,比如有的數(shù)據(jù)是表格,有的數(shù)據(jù)是文本。三是數(shù)據(jù)內(nèi)容不兼容,比如有的數(shù)據(jù)有缺失值,有的數(shù)據(jù)有異常值。四是數(shù)據(jù)合并后的冗余問(wèn)題,比如合并后有些數(shù)據(jù)重復(fù)了。(二)計(jì)算題(本大題共4小題,每小題10分,共40分)1.某班級(jí)學(xué)生身高和體重?cái)?shù)據(jù)如下表所示:|身高(厘米)|體重(千克)||-------------|-------------||165|50||170|55||175|60||180|65||185|70|計(jì)算身高和體重之間的相關(guān)系數(shù),并說(shuō)明其相關(guān)程度。相關(guān)系數(shù)啊,就是衡量?jī)蓚€(gè)變量之間線性相關(guān)程度的統(tǒng)計(jì)量。計(jì)算公式是:r=(nΣxy-(Σx)(Σy))/(√(nΣx2-(Σx)2)√(nΣy2-(Σy)2))。根據(jù)數(shù)據(jù),可以計(jì)算出r=1。所以,身高和體重之間存在完美的正相關(guān)關(guān)系。2.某公司員工工資數(shù)據(jù)如下:5000、5500、6000、6500、7000、7500、8000、8500、9000、9500元。計(jì)算該數(shù)據(jù)集的極差、方差和標(biāo)準(zhǔn)差。極差啊,就是最大值減去最小值。所以,極差=9500-5000=4500元。方差啊,就是每個(gè)數(shù)據(jù)與平均數(shù)的差的平方的平均數(shù)。所以,平均數(shù)=(5000+5500+6000+6500+7000+7500+8000+8500+9000+9500)/10=7250元。方差=[(5000-7250)2+(5500-7250)2+(6000-7250)2+(6500-7250)2+(7000-7250)2+(7500-7250)2+(8000-7250)2+(8500-7250)2+(9000-7250)2+(9500-7250)2]/10=3375000元。標(biāo)準(zhǔn)差啊,就是方差的平方根。所以,標(biāo)準(zhǔn)差=√3375000=1836.57元。3.某地區(qū)居民收入數(shù)據(jù)如下:3000、4000、5000、6000、7000、8000、9000、10000元。計(jì)算該數(shù)據(jù)集的偏度和峰度。偏度啊,是描述數(shù)據(jù)分布對(duì)稱性的統(tǒng)計(jì)量。計(jì)算公式比較復(fù)雜,這里就不展開了。根據(jù)數(shù)據(jù),可以大致判斷該數(shù)據(jù)集是右偏分布,所以偏度應(yīng)該是正值。峰度啊,是描述數(shù)據(jù)分布尖峰程度的統(tǒng)計(jì)量。計(jì)算公式也比較復(fù)雜,這里也不展開了。根據(jù)數(shù)據(jù),可以大致判斷該數(shù)據(jù)集的分布比較平緩,所以峰度應(yīng)該是負(fù)值。4.某班級(jí)學(xué)生身高數(shù)據(jù)如下:165、170、175、180、185、190、195、200厘米。計(jì)算該班級(jí)學(xué)生身高的平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)啊,就是把所有數(shù)據(jù)加起來(lái)再除以數(shù)據(jù)的個(gè)數(shù)。所以,平均數(shù)=(165+170+175+180+185+190+195+200)/8=180厘米。中位數(shù)啊,就是把數(shù)據(jù)從小到大排列,然后取中間的那個(gè)數(shù)。所以,中位數(shù)=180厘米。眾數(shù)啊,就是出現(xiàn)次數(shù)最多的數(shù)。所以,眾數(shù)沒(méi)有。(三)應(yīng)用題(本大題共2小題,每小題10分,共20分)1.某公司想要了解員工對(duì)公司的滿意度,計(jì)劃進(jìn)行抽樣調(diào)查。如果公司共有1000名員工,希望抽樣誤差控制在2%以內(nèi),置信水平為95%,請(qǐng)問(wèn)需要抽取多少名員工進(jìn)行調(diào)查?要想知道需要抽取多少名員工,得用抽樣公式。對(duì)于簡(jiǎn)單隨機(jī)抽樣,公式是:n=(Zα/2)2σ2/E2。其中,Zα/2是置信水平對(duì)應(yīng)的Z值,σ2是總體方差,E是抽樣誤差。這里,Zα/2=1.96,σ2和E都不知道,可以用樣本標(biāo)準(zhǔn)差s來(lái)代替σ,E=0.02。所以,n=(1.96)2s2/0.022。但是,s不知道,所以得用經(jīng)驗(yàn)公式,假設(shè)s=0.5。所以,n=(1.96)2(0.5)2/0.022=9604。所以,需要抽取9604名員工進(jìn)行調(diào)查。2.某地區(qū)居民收入數(shù)據(jù)如下表所示:|年份|居民收入(元)||------|----------------||2015|3000||2016|3500||2017|4000||2018|4500||2019|5000||2020|5500|使用移動(dòng)平均法預(yù)測(cè)2021年的居民收入,并說(shuō)明移動(dòng)平均法的適用場(chǎng)景。移動(dòng)平均法啊,就是用最近幾期的數(shù)據(jù)來(lái)預(yù)測(cè)下一期的數(shù)據(jù)。這里,可以用3期移動(dòng)平均法。所以,2021年的預(yù)測(cè)值=(4500+5000+5500)/3=5000元。移動(dòng)平均法適合短期預(yù)測(cè),并且數(shù)據(jù)中沒(méi)有明顯的趨勢(shì)和季節(jié)性波動(dòng)。五、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.解釋什么是數(shù)據(jù)清洗,并說(shuō)明數(shù)據(jù)清洗的主要任務(wù)。數(shù)據(jù)清洗啊,就是處理數(shù)據(jù)中的錯(cuò)誤和不一致,保證數(shù)據(jù)的質(zhì)量。主要任務(wù)有幾個(gè),一是處理缺失值,就是找出數(shù)據(jù)中的缺失值,并決定如何處理它們,比如刪除或填補(bǔ)。二是處理異常值,就是找出數(shù)據(jù)中的異常值,并決定如何處理它們,比如刪除或修正。三是處理重復(fù)值,就是找出數(shù)據(jù)中的重復(fù)值,并刪除它們。四是處理格式錯(cuò)誤,就是修正數(shù)據(jù)中的格式錯(cuò)誤,比如日期格式不正確。2.描述時(shí)間序列分析的基本方法,并說(shuō)明其適用場(chǎng)景。時(shí)間序列分析啊,主要是研究數(shù)據(jù)隨時(shí)間變化的規(guī)律。常用的方法有移動(dòng)平均法、指數(shù)平滑法、季節(jié)變動(dòng)分析、趨勢(shì)外推法等。移動(dòng)平均法啊,就是用最近幾期的數(shù)據(jù)來(lái)預(yù)測(cè)下一期的數(shù)據(jù),簡(jiǎn)單粗暴,適合短期預(yù)測(cè)。指數(shù)平滑法啊,是移動(dòng)平均法的升級(jí)版,更重視最近的數(shù)據(jù),也適合短期預(yù)測(cè)。季節(jié)變動(dòng)分析啊,是研究數(shù)據(jù)中有沒(méi)有季節(jié)性的波動(dòng),比如節(jié)假日銷售額會(huì)不會(huì)比較高,適合需要考慮季節(jié)性的場(chǎng)景。趨勢(shì)外推法啊,就是根據(jù)數(shù)據(jù)的發(fā)展趨勢(shì)來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù),適合長(zhǎng)期預(yù)測(cè),但要注意數(shù)據(jù)有沒(méi)有明顯的轉(zhuǎn)折點(diǎn)。3.解釋什么是回歸分析,并說(shuō)明其作用。回歸分析啊,是研究自變量與因變量之間相關(guān)關(guān)系的方法。作用主要有幾個(gè),一是可以用來(lái)預(yù)測(cè)因變量的值,比如根據(jù)身高預(yù)測(cè)體重。二是可以用來(lái)分析自變量對(duì)因變量的影響程度,比如分析廣告投入對(duì)銷售額的影響程度。三是可以用來(lái)建立數(shù)學(xué)模型,描述自變量和因變量之間的關(guān)系。4.描述缺失值處理的方法,并說(shuō)明每種方法的優(yōu)缺點(diǎn)。缺失值處理的方法主要有刪除、填補(bǔ)和預(yù)測(cè)三種。刪除啊,就是把含有缺失值的樣本刪除,簡(jiǎn)單粗暴,但會(huì)損失數(shù)據(jù)。填補(bǔ)啊,就是用均值、中位數(shù)或眾數(shù)填補(bǔ)缺失值,簡(jiǎn)單易行,但可能會(huì)影響數(shù)據(jù)分析結(jié)果。預(yù)測(cè)啊,就是使用回歸分析、聚類分析等方法預(yù)測(cè)缺失值,比較準(zhǔn)確,但計(jì)算復(fù)雜。5.解釋什么是數(shù)據(jù)集成,并說(shuō)明數(shù)據(jù)集成的挑戰(zhàn)。數(shù)據(jù)集成啊,就是把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并在一起。挑戰(zhàn)主要有幾個(gè),一是數(shù)據(jù)格式不統(tǒng)一,比如有的數(shù)據(jù)是數(shù)字,有的數(shù)據(jù)是文字。二是數(shù)據(jù)結(jié)構(gòu)不一致,比如有的數(shù)據(jù)是表格,有的數(shù)據(jù)是文本。三是數(shù)據(jù)內(nèi)容不兼容,比如有的數(shù)據(jù)有缺失值,有的數(shù)據(jù)有異常值。四是數(shù)據(jù)合并后的冗余問(wèn)題,比如合并后有些數(shù)據(jù)重復(fù)了。(二)計(jì)算題(本大題共4小題,每小題10分,共40分)1.某班級(jí)學(xué)生身高和體重?cái)?shù)據(jù)如下表所示:|身高(厘米)|體重(千克)||-------------|-------------||165|50||170|55||175|60||180|65||185|70|計(jì)算身高和體重之間的相關(guān)系數(shù),并說(shuō)明其相關(guān)程度。相關(guān)系數(shù)啊,就是衡量?jī)蓚€(gè)變量之間線性相關(guān)程度的統(tǒng)計(jì)量。計(jì)算公式是:r=(nΣxy-(Σx)(Σy))/(√(nΣx2-(Σx)2)√(nΣy2-(Σy)2))。根據(jù)數(shù)據(jù),可以計(jì)算出r=1。所以,身高和體重之間存在完美的正相關(guān)關(guān)系。2.某公司員工工資數(shù)據(jù)如下:5000、5500、6000、6500、7000、7500、8000、8500、9000、9500元。計(jì)算該數(shù)據(jù)集的極差、方差和標(biāo)準(zhǔn)差。極差啊,就是最大值減去最小值。所以,極差=9500-5000=4500元。方差啊,就是每個(gè)數(shù)據(jù)與平均數(shù)的差的平方的平均數(shù)。所以,平均數(shù)=(5000+5500+6000+6500+7000+7500+8000+8500+9000+9500)/10=7250元。方差=[(5000-7250)2+(5500-7250)2+(6000-7250)2+(6500-7250)2+(7000-7250)2+(7500-7250)2+(8000-7250)2+(8500-7250)2+(9000-7250)2+(9500-7250)2]/10=3375000元。標(biāo)準(zhǔn)差啊,就是方差的平方根。所以,標(biāo)準(zhǔn)差=√3375000=1836.57元。3.某地區(qū)居民收入數(shù)據(jù)如下:3000、4000、5000、6000、7000、8000、9000、10000元。計(jì)算該數(shù)據(jù)集的偏度和峰度。偏度啊,是描述數(shù)據(jù)分布對(duì)稱性的統(tǒng)計(jì)量。計(jì)算公式比較復(fù)雜,這里就不展開了。根據(jù)數(shù)據(jù),可以大致判斷該數(shù)據(jù)集是右偏分布,所以偏度應(yīng)該是正值。峰度啊,是描述數(shù)據(jù)分布尖峰程度的統(tǒng)計(jì)量。計(jì)算公式也比較復(fù)雜,這里也不展開了。根據(jù)數(shù)據(jù),可以大致判斷該數(shù)據(jù)集的分布比較平緩,所以峰度應(yīng)該是負(fù)值。4.某班級(jí)學(xué)生身高數(shù)據(jù)如下:165、170、175、180、185、190、195、200厘米。計(jì)算該班級(jí)學(xué)生身高的平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)啊,就是把所有數(shù)據(jù)加起來(lái)再除以數(shù)據(jù)的個(gè)數(shù)。所以,平均數(shù)=(165+170+175+180+185+190+195+200)/8=180厘米。中位數(shù)啊,就是把數(shù)據(jù)從小到大排列,然后取中間的那個(gè)數(shù)。所以,中位數(shù)=180厘米。眾數(shù)啊,就是出現(xiàn)次數(shù)最多的數(shù)。所以,眾數(shù)沒(méi)有。(三)應(yīng)用題(本大題共2小題,每小題10分,共20分)1.某公司想要了解員工對(duì)公司的滿意度,計(jì)劃進(jìn)行抽樣調(diào)查。如果公司共有1000名員工,希望抽樣誤差控制在2%以內(nèi),置信水平為95%,請(qǐng)問(wèn)需要抽取多少名員工進(jìn)行調(diào)查?要想知道需要抽取多少名員工,得用抽樣公式。對(duì)于簡(jiǎn)單隨機(jī)抽樣,公式是:n=(Zα/2)2σ2/E2。其中,Zα/2是置信水平對(duì)應(yīng)的Z值,σ2是總體方差,E是抽樣誤差。這里,Zα/2=1.96,σ2和E都不知道,可以用樣本標(biāo)準(zhǔn)差s來(lái)代替σ,E=0.02。所以,n=(1.96)2s2/0.022。但是,s不知道,所以得用經(jīng)驗(yàn)公式,假設(shè)s=0.5。所以,n=(1.96)2(0.5)2/0.022=9604。所以,需要抽取9604名員工進(jìn)行調(diào)查。2.某地區(qū)居民收入數(shù)據(jù)如下表所示:|年份|居民收入(元)||------|----------------||2015|3000||2016|3500||2017|4000||2018|4500||2019|5000||2020|5500|使用移動(dòng)平均法預(yù)測(cè)2021年的居民收入,并說(shuō)明移動(dòng)平均法的適用場(chǎng)景。移動(dòng)平均法啊,就是用最近幾期的數(shù)據(jù)來(lái)預(yù)測(cè)下一期的數(shù)據(jù)。這里,可以用3期移動(dòng)平均法。所以,2021年的預(yù)測(cè)值=(4500+5000+5500)/3=5000元。移動(dòng)平均法適合短期預(yù)測(cè),并且數(shù)據(jù)中沒(méi)有明顯的趨勢(shì)和季節(jié)性波動(dòng)。本次試卷答案如下一、XXX要求:XXXXX。二、XXX要求:XXXXX。三、XXX要求:XXXXX。四、XXX要求:XXXXX。五、XXX要求:XXXXX。一、數(shù)據(jù)分析計(jì)算題(一)單項(xiàng)選擇題(本大題共10小題,每小題2分,共20分)1.B解析:調(diào)查對(duì)象是所要研究的人或物,而調(diào)查單位是調(diào)查中登記的每個(gè)調(diào)查單位的特征。2.A解析:根據(jù)正態(tài)分布的性質(zhì),大約有68%的數(shù)據(jù)落在平均數(shù)加減一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。3.A解析:組中值是指各組上限與下限的中點(diǎn)值,是組內(nèi)數(shù)據(jù)的代表值。4.B解析:眾數(shù)是出現(xiàn)次數(shù)最多的數(shù),反映了數(shù)據(jù)集中趨勢(shì)的一個(gè)方面,當(dāng)數(shù)據(jù)集中存在明顯的眾數(shù)時(shí),中位數(shù)通常接近眾數(shù)。5.A解析:發(fā)展速度序列是表示現(xiàn)象在不同時(shí)間上的發(fā)展變化速度,增長(zhǎng)速度序列是表示現(xiàn)象在不同時(shí)間上的增長(zhǎng)速度,平均發(fā)展速度序列和平均增長(zhǎng)速度序列是發(fā)展速度和增長(zhǎng)速度的平均值。6.A解析:極差是衡量數(shù)據(jù)離散程度的最簡(jiǎn)單統(tǒng)計(jì)量,反映了數(shù)據(jù)分布的范圍。7.C解析:樣本容量的確定主要取決于允許誤差的大小,抽樣方法的復(fù)雜程度,總體規(guī)模的大小和抽樣調(diào)查的成本預(yù)算。8.A解析:偏度是描述數(shù)據(jù)分布對(duì)稱性的統(tǒng)計(jì)量,負(fù)偏度表示左偏分布,正偏度表示右偏分布。9.A解析:回歸分析的判定系數(shù)R2的取值范圍是0到1之間,表示回歸模型對(duì)因變量變異的解釋程度。10.D解析:數(shù)據(jù)預(yù)處理的方法主要有刪除、填補(bǔ)和預(yù)測(cè)三種,聚類分析不是常用的缺失值處理方法。(二)多項(xiàng)選擇題(本大題共5小題,每小題3分,共15分)1.ABCD解析:統(tǒng)計(jì)調(diào)查的方式主要有全面調(diào)查、抽樣調(diào)查、典型調(diào)查和重點(diǎn)調(diào)查。2.ABCE解析:統(tǒng)計(jì)分組的作用主要體現(xiàn)在揭示總體的內(nèi)部結(jié)構(gòu)、反映總體的分布特征、研究現(xiàn)象之間的相互關(guān)系和簡(jiǎn)化數(shù)據(jù)復(fù)雜度。3.ABCD解析:時(shí)間序列分析的方法主要有移動(dòng)平均法、指數(shù)平滑法、季節(jié)變動(dòng)分析、趨勢(shì)外推法等。4.ABCDE解析:抽樣調(diào)查的誤差主要有登記誤差、系統(tǒng)誤差、隨機(jī)誤差、抽樣框誤差和無(wú)回答誤差。5.ABCD解析:數(shù)據(jù)預(yù)處理的主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。(三)判斷題(本大題共10小題,每小題1分,共10分)1.×解析:統(tǒng)計(jì)調(diào)查是通過(guò)問(wèn)卷、訪問(wèn)等方式收集數(shù)據(jù)的過(guò)程,但不僅僅是收集數(shù)據(jù),還包括數(shù)據(jù)的整理、分析和解釋。2.√解析:統(tǒng)計(jì)分組就是根據(jù)統(tǒng)計(jì)研究的目的,將總體按照某個(gè)標(biāo)志劃分為若干組。3.√解析:平均數(shù)、中位數(shù)和眾數(shù)都是描述數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量,它們從不同的角度反映了數(shù)據(jù)的集中趨勢(shì)。4.×解析:標(biāo)準(zhǔn)差是衡量數(shù)據(jù)離散程度的最主要統(tǒng)計(jì)量,但并不是唯一的統(tǒng)計(jì)量,還有方差、極差等。5.√解析:時(shí)間序列分析就是研究現(xiàn)象在不同時(shí)間上的發(fā)展變化規(guī)律。6.×解析:抽樣調(diào)查的誤差只能通過(guò)增加樣本容量、改進(jìn)抽樣方法、提高數(shù)據(jù)收集質(zhì)量等方式來(lái)減小,不能完全消除。7.√解析:偏度是用來(lái)描述數(shù)據(jù)分布對(duì)稱性的統(tǒng)計(jì)量,負(fù)偏度表示左偏分布,正偏度表示右偏分布。8.√解析:回歸分析就是研究自變量與因變量之間相關(guān)關(guān)系的方法,通過(guò)建立回歸模型來(lái)描述和預(yù)測(cè)因變量的變化。9.√解析:缺失值處理的方法主要有刪除、填補(bǔ)和預(yù)測(cè)三種,每種方法都有其優(yōu)缺點(diǎn)和適用場(chǎng)景。10.√解析:數(shù)據(jù)預(yù)處理就是將原始數(shù)據(jù)轉(zhuǎn)化為可用數(shù)據(jù)的過(guò)程,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等步驟。二、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.簡(jiǎn)述統(tǒng)計(jì)調(diào)查的基本要求是什么?統(tǒng)計(jì)調(diào)查的基本要求包括數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、及時(shí)性、完整性和適用性。數(shù)據(jù)真實(shí)性要求收集到的數(shù)據(jù)真實(shí)可靠,不能有假數(shù)據(jù)搗亂;數(shù)據(jù)準(zhǔn)確性要求數(shù)據(jù)的誤差要小,不能有明顯的偏差;數(shù)據(jù)及時(shí)性要求數(shù)據(jù)要及時(shí)收集,不能太晚,否則數(shù)據(jù)就沒(méi)啥用了;數(shù)據(jù)完整性要求數(shù)據(jù)要齊全,不能有缺失值;數(shù)據(jù)適用性要求數(shù)據(jù)要符合研究目的,不能瞎收集。2.解釋什么是統(tǒng)計(jì)分組,并說(shuō)明統(tǒng)計(jì)分組的作用。統(tǒng)計(jì)分組就是把一堆數(shù)據(jù)分成幾堆,每一堆都有共同的特點(diǎn)。比如,可以把學(xué)生按身高分組,把收入按高低分組,這樣每組內(nèi)部的數(shù)據(jù)就有可比性了。統(tǒng)計(jì)分組的作用可大了,首先可以揭示總體的內(nèi)部結(jié)構(gòu),比如看看不同身高組的學(xué)生人數(shù)占比;其次可以反映總體的分布特征,比如看看收入高的組別人數(shù)多不多;再就是研究現(xiàn)象之間的相互關(guān)系,比如看看身高和體重之間有沒(méi)有關(guān)系;最后可以簡(jiǎn)化數(shù)據(jù)復(fù)雜度,把一堆雜亂的數(shù)據(jù)分成幾堆,分析起來(lái)就方便多了。3.描述時(shí)間序列分析的基本方法有哪些,并簡(jiǎn)要說(shuō)明其適用場(chǎng)景。時(shí)間序列分析啊,主要是研究數(shù)據(jù)隨時(shí)間變化的規(guī)律。常用的方法有移動(dòng)平均法、指數(shù)平滑法、季節(jié)變動(dòng)分析、趨勢(shì)外推法等。移動(dòng)平均法啊,就是用最近幾期的數(shù)據(jù)來(lái)預(yù)測(cè)下一期的數(shù)據(jù),簡(jiǎn)單粗暴,適合短期預(yù)測(cè);指數(shù)平滑法啊,是移動(dòng)平均法的升級(jí)版,更重視最近的數(shù)據(jù),也適合短期預(yù)測(cè);季節(jié)變動(dòng)分析啊,是研究數(shù)據(jù)中有沒(méi)有季節(jié)性的波動(dòng),比如節(jié)假日銷售額會(huì)不會(huì)比較高,適合需要考慮季節(jié)性的場(chǎng)景;趨勢(shì)外推法啊,就是根據(jù)數(shù)據(jù)的發(fā)展趨勢(shì)來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù),適合長(zhǎng)期預(yù)測(cè),但要注意數(shù)據(jù)有沒(méi)有明顯的轉(zhuǎn)折點(diǎn)。4.說(shuō)明抽樣調(diào)查的誤差來(lái)源有哪些,并簡(jiǎn)述如何減小抽樣誤差。抽樣調(diào)查的誤差啊,主要來(lái)源于幾個(gè)方面。首先是登記誤差,就是收集數(shù)據(jù)的時(shí)候搞錯(cuò)了,比如填錯(cuò)了數(shù)字;其次是系統(tǒng)誤差,就是抽樣方法本身有問(wèn)題,比如抽樣框不完整;再就是隨機(jī)誤差,就是抽樣的隨機(jī)性導(dǎo)致的誤差,這是不可避免的;還有抽樣框誤差,就是抽樣框和總體不一致導(dǎo)致的誤差;最后是無(wú)回答誤差,就是有些被調(diào)查者不回答問(wèn)題導(dǎo)致的誤差。要想減小抽樣誤差,首先要提高數(shù)據(jù)收集的質(zhì)量,減少登記誤差;其次要選擇合適的抽樣方法,減少系統(tǒng)誤差;再就是增加樣本容量,可以減小隨機(jī)誤差;最后要做好抽樣框的維護(hù),減少抽樣框誤差。5.描述數(shù)據(jù)預(yù)處理的主要步驟,并說(shuō)明每個(gè)步驟的作用。數(shù)據(jù)預(yù)處理啊,是數(shù)據(jù)分析的第一步,也是很重要的一步。主要步驟包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗啊,就是處理數(shù)據(jù)中的錯(cuò)誤和不一致,比如缺失值、異常值等;數(shù)據(jù)集成啊,就是把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并在一起;數(shù)據(jù)變換啊,就是把數(shù)據(jù)轉(zhuǎn)換成適合分析的格式,比如標(biāo)準(zhǔn)化、歸一化等;數(shù)據(jù)規(guī)約啊,就是減少數(shù)據(jù)的規(guī)模,比如抽樣、聚合等。每個(gè)步驟都有重要的作用,數(shù)據(jù)清洗可以保證數(shù)據(jù)的質(zhì)量,數(shù)據(jù)集成可以提供更全面的數(shù)據(jù),數(shù)據(jù)變換可以讓數(shù)據(jù)更適合分析,數(shù)據(jù)規(guī)約可以加快分析速度。(二)計(jì)算題(本大題共4小題,每小題10分,共40分)1.某班級(jí)學(xué)生身高數(shù)據(jù)如下:165、170、175、180、185、190、195、200厘米。計(jì)算該班級(jí)學(xué)生身高的平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)=(165+170+175+180+185+190+195+200)/8=180厘米;中位數(shù)=(180+185)/2=182.5厘米;眾數(shù)沒(méi)有。2.某公司員工工資數(shù)據(jù)如下:5000、5500、6000、6500、7000、7500、8000、8500、9000、9500元。計(jì)算該數(shù)據(jù)集的極差、方差和標(biāo)準(zhǔn)差。極差=9500-5000=4500元;方差=[(5000-7250)2+(5500-7250)2+(6000-7250)2+(6500-7250)2+(7000-7250)2+(7500-7250)2+(8000-7250)2+(8500-7250)2+(9000-7250)2+(9500-7250)2]/10=3375000元;標(biāo)準(zhǔn)差=√3375000=1836.57元。3.某地區(qū)居民收入數(shù)據(jù)如下:3000、4000、5000、6000、7000、8000、9000、10000元。計(jì)算該數(shù)據(jù)集的偏度和峰度。偏度根據(jù)數(shù)據(jù)大致判斷為正值;峰度根據(jù)數(shù)據(jù)大致判斷為負(fù)值。4.某班級(jí)學(xué)生身高和體重?cái)?shù)據(jù)如下表所示:|身高(厘米)|體重(千克)||-------------|-------------||165|50||170|55||175|60||180|65||185|70|計(jì)算身高和體重之間的相關(guān)系數(shù),并說(shuō)明其相關(guān)程度。相關(guān)系數(shù)r=(5[(165*50)+(170*55)+(175*60)+(180*65)+(185*70)]-[(165+170+175+180+185)*(50+55+60+65+70])2/(5[1652+1702+1752+1802+1852]-[(165+170+175+180+185)2])√(5[502+552+602+652+702]-[(50+55+60+65+70)2]))=1。所以,身高和體重之間存在完美的正相關(guān)關(guān)系。(三)應(yīng)用題(本大題共2小題,每小題10分,共20分)1.某公司想要了解員工對(duì)公司的滿意度,計(jì)劃進(jìn)行抽樣調(diào)查。如果公司共有1000名員工,希望抽樣誤差控制在2%以內(nèi),置信水平為95%,請(qǐng)問(wèn)需要抽取多少名員工進(jìn)行調(diào)查?根據(jù)抽樣公式,n=(1.96)2(0.5)2/0.022=9604。所以,需要抽取9604名員工進(jìn)行調(diào)查。2.某地區(qū)居民收入數(shù)據(jù)如下表所示:|年份|居民收入(元)||------|----------------||2015|3000||2016|3500||2017|4000||2018|4500||2019|5000||2020|5500|使用移動(dòng)平均法預(yù)測(cè)2021年的居民收入,并說(shuō)明移動(dòng)平均法的適用場(chǎng)景。使用3期移動(dòng)平均法,預(yù)測(cè)值為(4500+5000+5500)/3=5000元。移動(dòng)平均法適合短期預(yù)測(cè),并且數(shù)據(jù)中沒(méi)有明顯的趨勢(shì)和季節(jié)性波動(dòng)。三、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.解釋什么是數(shù)據(jù)清洗,并說(shuō)明數(shù)據(jù)清洗的主要任務(wù)。數(shù)據(jù)清洗啊,就是處理數(shù)據(jù)中的錯(cuò)誤和不一致,保證數(shù)據(jù)的質(zhì)量。主要任務(wù)有幾個(gè),一是處理缺失值,就是找出數(shù)據(jù)中的缺失值,并決定如何處理它們,比如刪除或填補(bǔ);二是處理異常值,就是找出數(shù)據(jù)中的異常值,并決定如何處理它們,比如刪除或修正;三是處理重復(fù)值,就是找出數(shù)據(jù)中的重復(fù)值,并刪除它們;四是處理格式錯(cuò)誤,就是修正數(shù)據(jù)中的格式錯(cuò)誤,比如日期格式不正確。2.描述時(shí)間序列分析的基本方法,并說(shuō)明其適用場(chǎng)景。時(shí)間序列分析啊,主要是研究數(shù)據(jù)隨時(shí)間變化的規(guī)律。常用的方法有移動(dòng)平均法、指數(shù)平滑法、季節(jié)變動(dòng)分析、趨勢(shì)外推法等。移動(dòng)平均法啊,就是用最近幾期的數(shù)據(jù)來(lái)預(yù)測(cè)下一期的數(shù)據(jù),簡(jiǎn)單粗暴,適合短期預(yù)測(cè);指數(shù)平滑法啊,是移動(dòng)平均法的升級(jí)版,更重視最近的數(shù)據(jù),也適合短期預(yù)測(cè);季節(jié)變動(dòng)分析啊,是研究數(shù)據(jù)中有沒(méi)有季節(jié)性的波動(dòng),比如節(jié)假日銷售額會(huì)不會(huì)比較高,適合需要考慮季節(jié)性的場(chǎng)景;趨勢(shì)外推法啊,就是根據(jù)數(shù)據(jù)的發(fā)展趨勢(shì)來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù),適合長(zhǎng)期預(yù)測(cè),但要注意數(shù)據(jù)有沒(méi)有明顯的轉(zhuǎn)折點(diǎn)。3.解釋什么是回歸分析,并說(shuō)明其作用。回歸分析啊,是研究自變量與因變量之間相關(guān)關(guān)系的方法。作用主要有幾個(gè),一是可以用來(lái)預(yù)測(cè)因變量的值,比如根據(jù)身高預(yù)測(cè)體重;二是可以用來(lái)分析自變量對(duì)因變量的影響程度,比如分析廣告投入對(duì)銷售額的影響程度;三是可以用來(lái)建立數(shù)學(xué)模型,描述自變量和因變量之間的關(guān)系。4.描述缺失值處理的方法,并說(shuō)明每種方法的優(yōu)缺點(diǎn)。缺失值處理的方法主要有刪除、填補(bǔ)和預(yù)測(cè)三種。刪除啊,就是把含有缺失值的樣本刪除,簡(jiǎn)單粗暴,但會(huì)損失數(shù)據(jù);填補(bǔ)啊,就是用均值、中位數(shù)或眾數(shù)填補(bǔ)缺失值,簡(jiǎn)單易行,但可能會(huì)影響數(shù)據(jù)分析結(jié)果;預(yù)測(cè)啊,就是使用回歸分析、聚類分析等方法預(yù)測(cè)缺失值,比較準(zhǔn)確,但計(jì)算復(fù)雜。5.解釋什么是數(shù)據(jù)集成,并說(shuō)明數(shù)據(jù)集成的挑戰(zhàn)。數(shù)據(jù)集成啊,就是把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并在一起。挑戰(zhàn)主要有幾個(gè),一是數(shù)據(jù)格式不統(tǒng)一,比如有的數(shù)據(jù)是數(shù)字,有的數(shù)據(jù)是文字;二是數(shù)據(jù)結(jié)構(gòu)不一致,比如有的數(shù)據(jù)是表格,有的數(shù)據(jù)是文本;三是數(shù)據(jù)內(nèi)容不兼容,比如有的數(shù)據(jù)有缺失值,有的數(shù)據(jù)有異常值;四是數(shù)據(jù)合并后的冗余問(wèn)題,比如合并后有些數(shù)據(jù)重復(fù)了。(二)計(jì)算題(本大題共4小題,每小題10分,共40分)1.某班級(jí)學(xué)生身高和體重?cái)?shù)據(jù)如下表所示:|身高(厘米)|體重(千克)||-------------|-------------||165|50||170|55||175|60||180|65||185|70|計(jì)算身高和體重之間的相關(guān)系數(shù),并說(shuō)明其相關(guān)程度。相關(guān)系數(shù)r=(5[(165*50)+(170*55)+(175*60)+(180*65)+(185*70)]-[(165+170+175+180+185)*(50+55+60+65+70])2/(5[1652+1702+1752+1802+1852]-[(165+170+175+180+185)2])√(5[502+552+602+652+702]-[(50+55+60+65+70)2]))=1。所以,身高和體重之間存在完美的正相關(guān)關(guān)系。2.某公司員工工資數(shù)據(jù)如下:5000、5500、6000、6500、7000、7500、8000、8500、9000、9500元。計(jì)算該數(shù)據(jù)集的極差、方差和標(biāo)準(zhǔn)差。極差=9500-5000=4500元;方差=[(5000-7250)2+(5500-7250)2+(6000-7250)2+(6500-7250)2+(7000-7250)2+(7500-7250)2+(8000-7250)2+(8500-7250)2+(9000-7250)2+(9500-7250)2]/10=3375000元;標(biāo)準(zhǔn)差=√3375000=1836.57元。3.某地區(qū)居民收入數(shù)據(jù)如下:3000、4000、5000、6000、7000、8000、9000、10000元。計(jì)算該數(shù)據(jù)集的偏度和峰度。偏度根據(jù)數(shù)據(jù)大致判斷為正值;峰度根據(jù)數(shù)據(jù)大致判斷為負(fù)值。4.某班級(jí)學(xué)生身高數(shù)據(jù)如下:165、170、175、180、185、190、195、200厘米。計(jì)算該班級(jí)學(xué)生身高的平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)=(165+170+175+180+185+190+195+200)/8=180厘米;中位數(shù)=(180+185)/2=182.5厘米;眾數(shù)沒(méi)有。(三)應(yīng)用題(本大題共2小題,每小題10分,共20分)1.某公司想要了解員工對(duì)公司的滿意度,計(jì)劃進(jìn)行抽樣調(diào)查。如果公司共有1000名員工,希望抽樣誤差控制在2%以內(nèi),置信水平為95%,請(qǐng)問(wèn)需要抽取多少名員工進(jìn)行調(diào)查?根據(jù)抽樣公式,n=(1.96)2s2/0.022。但s不知道,所以得用經(jīng)驗(yàn)公式,假設(shè)s=0.5。所以,n=(1.96)2(0.5)2/0.022=9604。所以,需要抽取9604名員工進(jìn)行調(diào)查。2.某地區(qū)居民收入數(shù)據(jù)如下表所示:|年份|居民收入(元)||------|----------------||2015|3000||2016|3500||2017|4000||2018|4500||2019|5000||2020|5500|使用移動(dòng)平均法預(yù)測(cè)2021年的居民收入,并說(shuō)明移動(dòng)平均法的適用場(chǎng)景。使用3期移動(dòng)平均法,預(yù)測(cè)值為(4500+5000+5500)/3=5000元。移動(dòng)平均法適合短期預(yù)測(cè),并且數(shù)據(jù)中沒(méi)有明顯的趨勢(shì)和季節(jié)性波動(dòng)。四、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.解釋什么是抽樣框,并說(shuō)明抽樣框誤差的來(lái)源。抽樣框啊,就是抽樣調(diào)查中用來(lái)抽取樣本的名單或清單。比如,可以用公司員工名單、居民戶口簿等作為抽樣框。抽樣框誤差啊,就是抽樣框和總體不一致導(dǎo)致的誤差。來(lái)源主要有幾個(gè),一是抽樣框不完整,就是有些總體單位不在抽樣框里;二是抽樣框包含多余的單位,就是有些單位既在抽樣框里,又不在總體里;三是抽樣框中的單位信息不準(zhǔn)確,就是抽樣框里的單位名稱、地址等信息和實(shí)際情況不符。2.描述相關(guān)系數(shù)的取值范圍及其意義。相關(guān)系數(shù)啊,是衡量?jī)蓚€(gè)變量之間線性相關(guān)程度的統(tǒng)計(jì)量,取值范圍是-1到1之間。如果是1,說(shuō)明兩個(gè)變量之間存在完美的正相關(guān)關(guān)系;如果是-1,說(shuō)明兩個(gè)變量之間存在完美的負(fù)相關(guān)關(guān)系;如果是0,說(shuō)明兩個(gè)變量之間不存在線性相關(guān)關(guān)系。如果是0到1之間,說(shuō)明兩個(gè)變量之間存在正相關(guān)關(guān)系;如果是0到-1之間,說(shuō)明兩個(gè)變量之間存在負(fù)相關(guān)關(guān)系。3.解釋什么是回歸分析,并說(shuō)明其作用。回歸分析啊,是研究自變量與因變量之間相關(guān)關(guān)系的方法。作用主要有幾個(gè),一是可以用來(lái)預(yù)測(cè)因變量的值,比如根據(jù)身高預(yù)測(cè)體重;二是可以用來(lái)分析自變量對(duì)因變量的影響程度,比如分析廣告投入對(duì)銷售額的影響程度;三是可以用來(lái)建立數(shù)學(xué)模型,描述自變量和因變量之間的關(guān)系。4.描述缺失值處理的方法,并說(shuō)明每種方法的優(yōu)缺點(diǎn)。缺失值處理的方法主要有刪除、填補(bǔ)和預(yù)測(cè)三種。刪除啊,就是把含有缺失值的樣本刪除,簡(jiǎn)單粗暴,但會(huì)損失數(shù)據(jù);填補(bǔ)啊,就是用均值、中位數(shù)或眾數(shù)填補(bǔ)缺失值,簡(jiǎn)單易行,但可能會(huì)影響數(shù)據(jù)分析結(jié)果;預(yù)測(cè)啊,就是使用回歸分析、聚類分析等方法預(yù)測(cè)缺失值,比較準(zhǔn)確,但計(jì)算復(fù)雜。5.解釋什么是數(shù)據(jù)集成,并說(shuō)明數(shù)據(jù)集成的挑戰(zhàn)。數(shù)據(jù)集成啊,就是把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并在一起。挑戰(zhàn)主要有幾個(gè),一是數(shù)據(jù)格式不統(tǒng)一,比如有的數(shù)據(jù)是數(shù)字,有的數(shù)據(jù)是文字;二是數(shù)據(jù)結(jié)構(gòu)不一致,比如有的數(shù)據(jù)是表格,有的數(shù)據(jù)是文本;三是數(shù)據(jù)內(nèi)容不兼容,比如有的數(shù)據(jù)有缺失值,有的數(shù)據(jù)有異常值;四是數(shù)據(jù)合并后的冗余問(wèn)題,比如合并后有些數(shù)據(jù)重復(fù)了。(二)計(jì)算題(本大題共4小題,每小題10分,共40分)1.某班級(jí)學(xué)生身高和體重?cái)?shù)據(jù)如下表所示:|身高(厘米)|體重(千克)||-------------|-------------||165|50||170|55||175|60||180|65||185|70|計(jì)算身高和體重之間的相關(guān)系數(shù),并說(shuō)明其相關(guān)程度。相關(guān)系數(shù)r=(5[(165*50)+(170*55)+(175*60)+(180*65)+(185*70)]-[(165+170+175+180+185)*(50+55+60+65+70])2/(5[1652+1702+1752+1802+1852]-[(165+170+175+180+185)2])√(5[502+552+602+652+702]-[(50+55+60+65+70)2]))=1。所以,身高和體重之間存在完美的正相關(guān)關(guān)系。2.某公司員工工資數(shù)據(jù)如下:5000、5500、6000、6500、7000、7500、8000、8500、9000、9500元。計(jì)算該數(shù)據(jù)集的極差、方差和標(biāo)準(zhǔn)差。極差=9500-5000=4500元;方差=[(5000-7250)2+(5500-7250)2+(6000-7250)2+(6500-7250)2+(7000-7250)2+(7500-7250)2+(8000-7250)2+(8500-7250)2+(9000-7250)2+(9500-7250)2]/10=3375000元;標(biāo)準(zhǔn)差=√3375000=1836.57元。3.某地區(qū)居民收入數(shù)據(jù)如下:3000、4000、5000、6000、7000、8000、9000、10000元。計(jì)算該數(shù)據(jù)集的偏度和峰度。偏度根據(jù)數(shù)據(jù)大致判斷為正值;峰度根據(jù)數(shù)據(jù)大致判斷為負(fù)值。4.某班級(jí)學(xué)生身高數(shù)據(jù)如下:165、170、175、180、185、190、195、200厘米。計(jì)算該班級(jí)學(xué)生身高的平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)=(165+170+175+180+185+190+195+200)/8=180厘米;中位數(shù)=(180+185)/2=182.5厘米;眾數(shù)沒(méi)有。(三)應(yīng)用題(本大題共2小題,每小題10分,共20分)1.某公司想要了解員工對(duì)公司的滿意度,計(jì)劃進(jìn)行抽樣調(diào)查。如果公司共有1000名員工,希望抽樣誤差控制在2%以內(nèi),置信水平為95%,請(qǐng)問(wèn)需要抽取多少名員工進(jìn)行調(diào)查?根據(jù)抽樣公式,n=(1.96)2s2/0.022。但s不知道,所以得用經(jīng)驗(yàn)公式,假設(shè)s=0.5。所以,n=(1.96)2(0.5)2/0.022=9604。所以,需要抽取9604名員工進(jìn)行調(diào)查。2.某地區(qū)居民收入數(shù)據(jù)如下表所示:|年份|居民收入(元)||------|----------------||2015|3000||2016|3500||2017|4000||2018|4500||2019|5000||2020|5500|使用移動(dòng)平均法預(yù)測(cè)2021年的居民收入,并說(shuō)明移動(dòng)平均法的適用場(chǎng)景。使用3期移動(dòng)平均法,預(yù)測(cè)值為(4500+5000+5500)/3=5000元。移動(dòng)平均法適合短期預(yù)測(cè),并且數(shù)據(jù)中沒(méi)有明顯的趨勢(shì)和季節(jié)性波動(dòng)。五、數(shù)據(jù)分析計(jì)算題(一)簡(jiǎn)答題(本大題共5小題,每小題5分,共25分)1.解釋什么是數(shù)據(jù)清洗,并說(shuō)明數(shù)據(jù)清洗的主要任務(wù)。數(shù)據(jù)清洗啊,就是處理數(shù)據(jù)中的錯(cuò)誤和不一致,保證數(shù)據(jù)的質(zhì)量。主要任務(wù)有幾個(gè),一是處理缺失值,就是找出數(shù)據(jù)中的缺失值,并決定如何處理它們,比如刪除或填補(bǔ);二是處理異常值,就是找出數(shù)據(jù)中的異常值,并決定如何處理它們,比如刪除或修正;三是處理重復(fù)值,就是找出數(shù)據(jù)中的重復(fù)值,并刪除它們;四是處理格式錯(cuò)誤,就是修正數(shù)據(jù)中的格式錯(cuò)誤,比如日期格式不正確。2.描述時(shí)間序列分析的基本方法,并說(shuō)明其適用場(chǎng)景。時(shí)間序列分析啊,主

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論