Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第1頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第2頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第3頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第4頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Python數(shù)據(jù)分析與可視化習(xí)題答案弟一早1、闡述統(tǒng)計(jì)分析與數(shù)據(jù)挖掘的特點(diǎn)。傳統(tǒng)的統(tǒng)計(jì)分析是在已定假設(shè)、先驗(yàn)約束的內(nèi)情況下,對(duì)數(shù)據(jù)進(jìn)行整理篩選 和加工,由此得到一些信息。數(shù)據(jù)挖掘是將信息需要進(jìn)一步處理以獲得認(rèn)知,繼而轉(zhuǎn)為有效的預(yù)測和決策。統(tǒng)計(jì)分析是把數(shù)據(jù)變成信息的工具,數(shù)據(jù)挖掘是把信息變成認(rèn)知的工具。2、數(shù)據(jù)分析的基本步驟包括哪些?(1)數(shù)據(jù)收集;(2)數(shù)據(jù)預(yù)處理;(3)數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);(4)數(shù)據(jù)后處理。3、相比R語言、MATLAB、SAS、SPSS等語言或工具,Python有哪些優(yōu)點(diǎn)?(1) Python是面向生產(chǎn)的;(2)強(qiáng)大的第三方庫的支持;(3) Python的膠水語言特性。AA*

2、 弟一早選擇題1、python之父是以下哪位?(A)A、吉多范羅蘇姆B、丹尼斯里奇C、詹姆斯高林思D、克里夫默勒2、python的縮進(jìn)功能有什么作用? (C)A、增加代碼可讀性B、方便放置各類符號(hào)C、決定程序的結(jié)構(gòu)D、方便修改程序3、python的單行注釋通過什么符號(hào)完成?(B)A、雙斜杠(/)B、井號(hào)(#)C、三引號(hào)(”)D 回歸分析二、判斷題1. k近鄰算法的訓(xùn)練時(shí)間開銷為0。True.線性判別分析,針對(duì)訓(xùn)練集,將其投影到一條直線上,使得同類樣本點(diǎn)盡可能接近,異 類樣本點(diǎn)盡量遠(yuǎn)離。True.同一個(gè)問題和樣本產(chǎn)生的決策樹一定相同。False.回歸分析的目的在于了解變量間是否相關(guān)、相關(guān)方向和相

3、關(guān)強(qiáng)度,并建立數(shù)學(xué)模型來進(jìn) 行預(yù)測。True. DBSCAN聚類速度快且能夠有效處理噪聲和發(fā)現(xiàn)任意形狀的空間聚類。True三、填空題.貝葉斯公式:。(p (y | x) = (p (x | y) p (y) / (p (x).關(guān)聯(lián)規(guī)那么挖掘分為 和 o(生成頻繁項(xiàng)集生成強(qiáng)規(guī)那么). Apriori算法定律1:如果一個(gè)集合是頻繁項(xiàng)集,那么它的所有 都是頻繁項(xiàng)集;Apriori算法定律2:如果一個(gè)集合不是頻繁項(xiàng)集,那么它的所有 都不是頻繁項(xiàng)集。(子集超集).關(guān)聯(lián)規(guī)那么分析中,如果窮舉項(xiàng)集的所有組合,并測試每個(gè)組合是否滿足條件。那么對(duì)于一個(gè)元素個(gè)數(shù)為n的項(xiàng)集,所需要的時(shí)間復(fù)雜度為 o(0(2n).列

4、舉典型的無監(jiān)督學(xué)習(xí):和 o(關(guān)聯(lián)分析聚類分析)第七章一、單項(xiàng)選擇題1、在支持向量機(jī)分類方法中,在擬合以后,可以通過以下哪一個(gè)參數(shù)獲取支持向量的索引()BB support.D以上均不是B NuSVCD以上均是B support.D以上均不是B NuSVCD以上均是A support_vectors_C nsupport2、以下能夠?qū)崿F(xiàn)多元分類的是()DA SVCC高斯過程分類3、以下說法不正確的選項(xiàng)是()AA scikit-learn實(shí)現(xiàn)的lineajmodel. Lasso類使用了坐標(biāo)上升算法來擬合系數(shù)B linear_model. BayesianRidge類實(shí)現(xiàn)了貝葉斯嶺回歸,能夠在回歸

5、問題的估計(jì)過程中引入?yún)?shù)正規(guī)化C gaussian_process. GaussianProcessRegressor 類實(shí)現(xiàn) f 一個(gè)用于回歸問題的高斯過 程D與最近鄰分類一樣,scikit-learn也實(shí)現(xiàn)了兩種鄰回歸,KNeighborsRegressor與RadiusNeighborsRegressor分別基于每個(gè)查詢點(diǎn)的k個(gè)最近鄰、每個(gè)查詢點(diǎn)的固定半徑內(nèi) 的“鄰居”數(shù)量實(shí)現(xiàn)4、以下關(guān)于k均值以下說法不正確的選項(xiàng)是()CA兩種k均值算法在使用時(shí)都需要通過n_clusters參數(shù)指定聚類的個(gè)數(shù)。B給足夠多的時(shí)間,k均值算法總能夠收斂,但可能得到的是局部最小值。C 在使用cluster.

6、KMeans時(shí),通過n_jobs參數(shù)能指定該模型使用的處理器個(gè)數(shù)。假設(shè)為正 值,那么使用“n_jobs”個(gè)處理器,-3代表使用全部處理器,-2代表除了兩個(gè)處理器以外全 部使用,代表除了某個(gè)處理器以外全部使用。D cluster. MiniBatchKMeans類實(shí)現(xiàn)了 k均值的算法的小批量變體5、以下關(guān)于聚類說法不正確的選項(xiàng)是()CA在譜聚類中,可以設(shè)置assignabels參數(shù)以使用不同的分配策略。B在層次聚類中使用n_clusters參數(shù)可以指定聚類個(gè)數(shù),linkage參數(shù)用于指定合并的策略, 可選用 ward、 complete、 averageC DBSCAN的核心概念是Core Sa

7、mples,即位于高密度區(qū)域的樣本,其中較小的min_samples 或者較大的esp表示形成聚類的密度較高。D 在BIRCH中,有兩個(gè)重要的參數(shù):branching_factor (分支因子)和threshold(閾值), 分支因子限制了一個(gè)節(jié)點(diǎn)中的子集群的數(shù)量,閾值限制了新加入的樣本和存在于現(xiàn)有子集群 中樣本的最大距離。二、對(duì)錯(cuò)題1、在邏輯回歸中,saga求解器基于隨機(jī)平均梯度下降算法,其在大數(shù)據(jù)集上的收斂速度更 快。()錯(cuò)2、在最近鄰分類方法中,KNeighborsClassifier是基于每個(gè)查詢點(diǎn)的固定半徑r內(nèi)的鄰居 數(shù)量實(shí)現(xiàn),其中r是用戶指定的浮點(diǎn)數(shù)。()是k,是數(shù)量,是整數(shù),錯(cuò)3

8、、MultinomialNB BernoulliNB GaussianNB 還提供了 partial_f it 方法,該方法能夠動(dòng) 態(tài)地解決加載大數(shù)據(jù)集的問題。與fit使用方法相同,操作比擬簡單。,錯(cuò),與fit使用方 法不同4、嶺回歸從本質(zhì)上來說也是最小二乘法,只不過是通過對(duì)系數(shù)的大小施加懲罰來改進(jìn)。對(duì) 5、Mean-Shift算法不是高度可擴(kuò)展的,因?yàn)樵趫?zhí)行算法期間需要執(zhí)行多個(gè)最近鄰搜索。因 為當(dāng)質(zhì)心較少時(shí),會(huì)停止迭代,所以此算法不收斂,錯(cuò),是收斂的三、填空題1、scikit-learn是SciPy中一個(gè)非常著名的分支,scikit-learn所支持的算法、模型均 是經(jīng)過廣泛驗(yàn)證的。在本章的

9、學(xué)習(xí)中,主要介紹了、等3大類。2、在隨機(jī)梯度下降分類方法中,lineajmodel.SGDClassifier類實(shí)現(xiàn)了簡單的隨機(jī)梯度下 降分類,可以通過loss函數(shù)來設(shè)置損失函數(shù),要軟件間隔對(duì)應(yīng)向量機(jī)、平滑Hinge或邏輯 回歸,loss的值應(yīng)分別選用、o3、目前,MLPClassifier只支持 函數(shù),通過運(yùn)行 方法進(jìn)行概率估計(jì),MLP算法使用的是 傳播的方式。4、Scikit-learn支持高斯樸素貝葉斯、多項(xiàng)分布樸素貝葉斯與伯努利樸素貝葉斯算法,分 別由、實(shí)現(xiàn)。5、AffinintyPropagation類中,假設(shè)要設(shè)置相似度度量方式,設(shè)置阻尼因子,設(shè)置向量,代 表對(duì)各個(gè)點(diǎn)的偏好應(yīng)該要分

10、別設(shè)置、等參數(shù)。答案:1、分類方法;回歸方法;聚類方法2、 hinge; modifiedhuber; log3、交叉嫡損失函數(shù);predict_proba;反向傳播naive_bayes. GaussianNB naive bayes. MultinomialNB naive bayes. BernoulliNBAffinity damping、 preferencedpitight如以下圖所示,In3表示的意思是:()B第八章一、單項(xiàng)選擇題1、在使用savefile函數(shù)將生成的函數(shù)圖像保存為圖片時(shí),可以使用以下哪個(gè)參數(shù)來指定圖 片清晰度()AB bbox_inchesD axesIn 1

11、: import matplotlib.pyplot as pitIn 2 : fig=plt.figure ()In 3 : axes=plt.subplot (2,2,1) axes=plt . subplot (2,2,3)In 4 : fig.suptitle(Example of multiple subplots *) In 5 : pit . show ()A figure對(duì)象中的subplot布局為2X2,B figure對(duì)象中的subplot布局為2X 1,C figure對(duì)象中的subplot布局為2義3,D figure對(duì)象中的subplot布局為2X2,A figure

12、對(duì)象中的subplot布局為2X2,B figure對(duì)象中的subplot布局為2X 1,C figure對(duì)象中的subplot布局為2義3,D figure對(duì)象中的subplot布局為2X2,選中了索引為1的subplot同時(shí)分別選中了索引為1和3的subplot選中了索引為1的subplot選中了索引為3的subplot3、代碼“axes, plot (t, s, color=k , linestyle=一的意思是()AA以t為橫軸,s為縱軸,A以t為橫軸,s為縱軸,畫函數(shù)圖像,線條類型為虛線B以s為橫軸,t為縱軸,B以s為橫軸,t為縱軸,畫函數(shù)圖像,線條類型為虛線C以t為橫軸,s為縱軸,

13、C以t為橫軸,s為縱軸,畫函數(shù)圖像,線條類型為實(shí)線D以s為橫軸,t為縱軸,D以s為橫軸,t為縱軸,畫函數(shù)圖像,線條類型為實(shí)線4、如以下圖所示,請(qǐng)問哪一行代碼創(chuàng)立了兩個(gè)柱狀圖()BIn 1 : import matplotlib.pyplot as pit import numpy as npIn 2 : figraxes=plt.subplots()In 3 : data_m=(40r 120, 20, 100, 30, 200) data_f=(60r 180, 30, 150, 20, 50)In 4 : index = np.arange(6)width=0 . 4In 5 : axes

14、.bar(index, data_m, width, color= * c1z label= * men1) axes.bar(index+width, data_fz width, color=1b, label=1 women *)In 6 : axes.set_xticks(index + width / 2)axes . set_xticklabels (TaxiMetro, Walk*, * Bus * f * Bicycle * r * Driving axes.legend()In 7 : pit.show()A In 4B In 6A In 4B In 6B In 5D In

15、75、在柱狀圖設(shè)計(jì)中,為了設(shè)置顏色的透明度可以設(shè)置哪個(gè)函數(shù)的哪個(gè)參數(shù)()DA axes, barh widthA axes, barh widthB axes, barh alphaC axes, bar widthD axes, bar alpha二、對(duì)錯(cuò)題1、一個(gè)figure對(duì)象只能建立一個(gè)axes, 一個(gè)axes中能夠建立多個(gè)subplot ()錯(cuò)誤2、minor tick比major tick更短,而且顯示具體的坐標(biāo)值()錯(cuò)誤3、為了讓直方圖的條紋面積為1,可以為axes, hist函數(shù)設(shè)置參數(shù)density二true ()對(duì)4、使用pylot進(jìn)行3D圖表的繪制,需要?jiǎng)?chuàng)立axes時(shí)設(shè)置

16、projection為3d對(duì)5、繪制餅圖時(shí)要調(diào)用axes, pie函數(shù),shadow表示百分比數(shù)值的顯示格式()錯(cuò)三、填空題1、如果我們要建立一個(gè)figure對(duì)象,讓它擁有2X2的axes布局,可以輸入以下代碼參考答案Import matplotlib. pyplot as pitfig, axes=plt. subplots (2,2)pit. show()2、構(gòu)建圖表的主要步驟包括、.參考答案:準(zhǔn)備數(shù)據(jù);生成圖表對(duì)象并將數(shù)據(jù)數(shù)據(jù)傳入;調(diào)整圖表裝飾項(xiàng);3、如以下圖所示,添加箭頭尖端的位置為;注釋文字位置為Code 8-6添加注釋例如In 1 : import matplotlib.pyplo

17、t as pit import numpy as npIn 2 : fig=plt.figure() figr axes=plt.subplots()In 3 : axes.plot(np.arange(0r 24z 2), 14,9,7,5, 12, 19,23, 26, 27,24,21,19, ,-o,)In 4 : axes.set_xticks(np.arange (0,24,2)In 5 : axes.annotate(hottest at 16:00, xy=(16, 27), xytext=(16z 22), arrowprops=dict(facecolor=,black,r

18、 shrink=0.2), horizontalalignment=center1, verticalalignment= * centerIn 6 : axes.text(12, 10, * Date: March 26th, 2018 * z bbox=1 facecolor1: cyan1 ,alpha*: 0.3, 1pad1: 6)In 7 : pit.show()參考答案:(16,27) ; (16,22) 4、在繪制餅圖時(shí),要調(diào)用axes, pie函數(shù),其中參數(shù)labels, sizes, explode分別代表參考答案:餅圖中分區(qū)所代表的的含義;每個(gè)分區(qū)各自的面積占比,每個(gè)分區(qū)

19、相對(duì)中心的偏 移值5、在繪制表格時(shí),需要調(diào)用axes, table函數(shù),還可以通過、來設(shè)置行 標(biāo)簽和列標(biāo)簽。rowLabels; colLabelsD、雙分號(hào)(;)4、以下選項(xiàng)中,Python數(shù)據(jù)分析方向的庫是? (C)A、PILB、DjangoC、 pandasD flask5、以下選項(xiàng)中,Python網(wǎng)絡(luò)爬蟲方向的庫是? (D)A、numpyB、openpyxlC、PyQt5D、scrapy對(duì)錯(cuò)題1 winpython 會(huì)寫入 windows 注冊(cè)表(F)2、python與大多數(shù)程序設(shè)計(jì)語言的語法非常相近(T)3、Python的縮進(jìn)是一種增加代碼可讀性的措施(F)4、PANDAS是一個(gè)構(gòu)建

20、在Numpy之上的高性能數(shù)據(jù)分析庫(T)5、Jupyter是一個(gè)交互式的數(shù)據(jù)科學(xué)與科學(xué)計(jì)算開發(fā)環(huán)境(T)填空題1、python中的多行注釋使用三引號(hào)廣表示。2、pandas能對(duì)數(shù)據(jù)進(jìn)行排序、分組、歸并等操作。3、Scikitjearn包括多種分類、回歸、聚類、降維、模型選擇和預(yù)處理的算法。4、Matplotlib是一個(gè)繪圖庫。5、將Ipython工程中與其程序設(shè)計(jì)語言無關(guān)的局部獨(dú)立出來形成的新工程是Jupyter。弟二早選擇題1、以下不是集中趨勢的主要測度的是? (D)A、均值B、中位數(shù)C、眾數(shù)D、方差2、以下不是離散程度的主要測度的是?(D)A、極差B、方差C、標(biāo)準(zhǔn)差D、中位數(shù)3、以下不屬于

21、數(shù)據(jù)質(zhì)量的評(píng)估標(biāo)準(zhǔn)的是? (C)A、完整性B、一致性C、可控性D、及時(shí)性4、以下不屬于噪聲數(shù)據(jù)處理方法的是你?(B)A、分箱技術(shù)B、同化技術(shù)C、聚類技術(shù)D、回歸技術(shù)5、以下不屬于特征提取方法的是? (B)A、主成分分析B、多重判別分析C、獨(dú)立成分分析D、線性判別分析對(duì)錯(cuò)題1、數(shù)據(jù)庫中不含缺失值的變量被稱為完全變量(T)2、噪聲是指被觀測變量的隨機(jī)誤差或標(biāo)準(zhǔn)差(F)3、一致性是指數(shù)據(jù)是否合乎規(guī)范,數(shù)據(jù)內(nèi)的數(shù)據(jù)是否保持一致的格 式(T)4、及時(shí)性是指數(shù)據(jù)產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí) 長(T)5、特征構(gòu)建是指從預(yù)處理的數(shù)據(jù)中人工構(gòu)建新的特征(F)填空題1、數(shù)據(jù)分析需要特別關(guān)注集中趨勢、

22、離散程度兩點(diǎn)。2、一般可以通過數(shù)據(jù)統(tǒng)計(jì)中的記錄值和唯一值兩個(gè)值來評(píng)估數(shù)據(jù)質(zhì) 量的完整性。3、數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析結(jié)果的有效性和準(zhǔn)確性的前提保證。4、異常數(shù)據(jù)如果沒喲規(guī)律可循幾乎不可能被還原,只能將其過濾。5、特征提取是在原始特征的基礎(chǔ)上,自動(dòng)構(gòu)建新的特征,將源石特 征轉(zhuǎn)換為一組更具物理意義、統(tǒng)計(jì)意義或者核的特征。第四章選擇題:1、關(guān)于NumPy說法不正確正確的選項(xiàng)是(D)A、NumPy是Python處理數(shù)組和矢量運(yùn)算的庫。B、NumPy是高性能計(jì)算的基礎(chǔ)。C、NumPy是數(shù)據(jù)分析的基礎(chǔ)。D、Pandas scikit-learn 和 Matplotlib 是 NumPy 的基礎(chǔ)2、關(guān)于ndarr

23、ay對(duì)象說法不正確正確的選項(xiàng)是(D)As Ndarray對(duì)象指的是多維數(shù)組對(duì)象。B、Ndarray對(duì)象是NumPy中很重要的對(duì)象。C、Ndarray保存的是同一類型的對(duì)象。D、Ndarray的訪問方式不同于列表。3、以下哪些不是描述ndarray對(duì)象的屬性(C)A、 shapeB、ndimC、arrayD、size4、創(chuàng)立單位矩陣,對(duì)角線元素為1,其余為0需要用到以下哪個(gè)函數(shù)(D)A、 onesB、onesjikeC、empty J ikeD、eye identity5、對(duì)以下函數(shù)說法正確的選項(xiàng)是(B)A、reshape會(huì)修改原adarray對(duì)象B、reveal不會(huì)修改原adarray對(duì)象C、

24、T會(huì)修改原adarray對(duì)象D、resize不會(huì)修改原adarray對(duì)象判斷題1、floatl6為半精度浮點(diǎn)數(shù)。(對(duì))2、floatl28為雙精度浮點(diǎn)數(shù)(錯(cuò))擴(kuò)展精度3、complexl28 (cl6)使用兩個(gè)雙精度浮點(diǎn)數(shù)表示的復(fù)數(shù)。(對(duì))4、empty指定shape,創(chuàng)立新數(shù)組,且填充為0 (錯(cuò))不填充5、size指ndarray對(duì)象的維度。(錯(cuò))元素個(gè)數(shù)填空題1、代碼中用指代NumPy。2、查詢某個(gè)ndarray對(duì)象的dtype屬性,會(huì)返回一個(gè)(dtype)類型的對(duì)象。3、T函數(shù)返回原ndarray對(duì)象的(轉(zhuǎn)置)4、布爾值的字節(jié)長度為(1)5、ndim指ndarray對(duì)象的(維度)。第五章

25、一、單項(xiàng)選擇題.以下哪一個(gè)Series對(duì)象不同()AA disc = T :1,,2, :2,,3, :3 obj c = Series (disc, index=11, 2, 3)B disc =1 :1, 2 :2, 3 :3 obj_c = Series(disc, index= 1, 2, 3)C disc = a : 1, b :2, c :3 obj c = Series (disc, index=11, 2, 3)D disc = a : 1, b :2, c :3 obj_c 二 Series (disc, index= 1, 2, 3).以下哪一項(xiàng)不是DataFrame對(duì)象的屬性()DA columnsB indexC valuesD length.以下哪一項(xiàng)可以對(duì)DataFrame對(duì)象進(jìn)行行的刪除()AAdrop, axis=0Bdrop, axis=lC delD pop. Index對(duì)象中,以下哪一項(xiàng)針對(duì)時(shí)間間隔數(shù)據(jù)()DA Int64IndexB MultilndexC DatetimeindexD Perio

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論