版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
項目五
SciPy統(tǒng)計推斷與探索性分析任務(wù)一
相關(guān)性分析任務(wù)二
卡方檢驗任務(wù)三、t檢驗任務(wù)四
方差分析任務(wù)一
相關(guān)性分析一、正態(tài)分布的相關(guān)分析二、非正態(tài)分布的相關(guān)分析一、正態(tài)分布的相關(guān)分析小李集鳶尾花數(shù)據(jù),含花瓣、花萼長度。欲分析花瓣、花萼長度是否顯著相關(guān)及方向。需做相關(guān)性分析,選合適相關(guān)系數(shù)。
知識準(zhǔn)備相關(guān)性分析方法多,初級方法可發(fā)現(xiàn)數(shù)據(jù)關(guān)系;中級方法度量關(guān)系強(qiáng)弱;高級方法轉(zhuǎn)化關(guān)系為模型預(yù)測未來。數(shù)據(jù)的相關(guān)性關(guān)系主要分類如下,相關(guān)性的方向和強(qiáng)弱如圖
所示。Python可以計算多種相關(guān)系數(shù),包括皮爾遜相關(guān)系數(shù)、Spearman相關(guān)系數(shù)、Kendall相關(guān)系數(shù)等。一、正態(tài)分布的相關(guān)分析皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoe?cient)是反映兩變量之間線性相關(guān)程度的統(tǒng)
計量,用它來分析正態(tài)分布的兩個連續(xù)型變量之間的相關(guān)性,常用于分析自變量之間,以
及自變量和因變量之間的相關(guān)性。皮爾遜相關(guān)系數(shù)在-1和+1之間變化,0表示沒有相關(guān)性、-1或+1的相關(guān)性暗示著一種精確的線性關(guān)系。案例——運(yùn)輸距離與成本相關(guān)性分析現(xiàn)有表5-1所列的運(yùn)輸數(shù)據(jù),本案例將應(yīng)用皮爾遜相關(guān)系數(shù),量化分析運(yùn)輸距離(公里)
與運(yùn)輸成本(元)之間的關(guān)聯(lián)程度,揭示二者是否存在顯著的線性關(guān)系。一、正態(tài)分布的相關(guān)分析運(yùn)行結(jié)果如圖所示。運(yùn)輸距離與運(yùn)輸成本相關(guān)性二、非正態(tài)分布的相關(guān)分析斯皮爾曼等級相關(guān)系數(shù)(Spearman’sCorrelationCoefficientforRankedData)主要用于評價順序變量間的線性相關(guān)關(guān)系,常用于計算類型變量的相關(guān)性。相關(guān)系數(shù)表示線性相關(guān)程度,即correlation趨近于1表示正相關(guān)。pvalue越小,表示相關(guān)程度越強(qiáng)。spearmanr函數(shù)用來計算斯皮爾曼等級相關(guān)系數(shù)和pvalue,檢驗非相關(guān)性。該函數(shù)的調(diào)用格式如下:其中,x和y為變量數(shù)據(jù)。二、非正態(tài)分布的相關(guān)分析案例——房屋面積和房屋價格相關(guān)性分析為探究房屋面積與價格之間的潛在關(guān)聯(lián),本案例采用非參數(shù)統(tǒng)計方法——斯皮爾曼等級相關(guān)分析。分析所用數(shù)據(jù)見表,檢驗房屋面積的等級排序與房屋價格是否具有相關(guān)性。二、非正態(tài)分布的相關(guān)分析運(yùn)行結(jié)果如下,散點(diǎn)圖如圖所示。散點(diǎn)圖任務(wù)二
卡方檢驗一、正態(tài)性檢驗二、方差齊性檢驗三、擬合優(yōu)度卡方檢驗任務(wù)二
卡方檢驗任務(wù)引入小李想研究鳶尾花的花瓣長度和花萼寬度這兩個特征之間是否存在關(guān)聯(lián)。他測量
了多株鳶尾花的花瓣長度和花萼寬度,并將數(shù)據(jù)按長度和寬度分別分為“長”和“短”兩類。他想知道,花瓣長度和花萼寬度這兩個分類變量是否獨(dú)立。這也可以用卡方檢
驗來分析!那么,小烈應(yīng)該如何構(gòu)建列聯(lián)表,并使用Python進(jìn)行獨(dú)立性檢驗?zāi)兀?/p>
知識準(zhǔn)備卡方檢驗是一種非參數(shù)檢驗方法。相對來說,
非參數(shù)檢驗對數(shù)據(jù)分布的要求比
較寬松,并且也不要求有太大的數(shù)據(jù)量??ǚ綑z驗主要比較理論頻數(shù)和實際頻數(shù)的
吻合程度,常用于特征選擇。例如,檢驗?zāi)腥撕团嗽谑欠窕加懈哐獕荷嫌袩o區(qū)別,
如果有區(qū)別,則說明性別與是否患有高血壓有關(guān),在后續(xù)分析時,就需要把性別這
個分類變量放入模型訓(xùn)練。一、正態(tài)性檢驗正態(tài)性檢驗是利用觀測數(shù)據(jù)判斷總體是否服從正態(tài)分布的檢驗。是數(shù)據(jù)分析的第一步,決定后續(xù)分析方法。常用方法有正態(tài)概率紙法、Shapiro-Wilk檢驗法、柯爾莫哥洛夫檢驗法、偏度-峰度檢驗法等。1.偏度-峰度檢驗法正態(tài)性檢驗基于偏度和峰度。偏度和峰度同時是分布特征分析統(tǒng)計量。skew函數(shù)用來計算數(shù)據(jù)的偏度。kurtosis函數(shù)用來計算數(shù)據(jù)的峰度。案例——某公司在全國有40個銷售點(diǎn),試分析各銷售點(diǎn)銷售額是否符合正態(tài)
分布運(yùn)行結(jié)果如下,折線圖如圖所示。折線圖一、正態(tài)性檢驗2.夏皮羅-威爾克檢驗法夏皮羅-威爾克檢驗法驗小樣本數(shù)據(jù)正態(tài)性,統(tǒng)計量大則符合,但非正態(tài)數(shù)據(jù)也可能大,需查表。低于顯著性水平則不符合正態(tài)分布。shapiro函數(shù)用來檢驗數(shù)據(jù)是否符合正態(tài)分布,計算零假設(shè)的pvalue。該函數(shù)的調(diào)用格式如下:案例——測試?yán)L畫成績是否符合正態(tài)分布已知某市小學(xué)生比賽分?jǐn)?shù),抽取繪畫、鋼琴、笛子、書法、古箏中的40組樣本,試通過夏皮羅-威爾克檢驗法測試?yán)L畫成績是否符合正態(tài)分布。運(yùn)行結(jié)果如下,繪畫成績折線圖如圖所示。繪畫成績折線圖一、正態(tài)性檢驗3.柯爾莫哥洛夫檢驗法柯爾莫哥洛夫檢驗(Kolmogorov-SmirnovTest)法檢驗樣本數(shù)據(jù)是否服從某一分布,僅適用于連續(xù)分布的檢驗。kstest函數(shù)使用柯爾莫哥洛夫檢驗法檢驗數(shù)據(jù)是否符合正態(tài)分布。案例——使用柯爾莫哥洛夫檢驗法檢驗數(shù)據(jù)是否符合正態(tài)分布運(yùn)行結(jié)果如圖所示。運(yùn)行結(jié)果二、方差齊性檢驗方差反映了一組數(shù)據(jù)與其平均值的偏離程度,計算公式如下:方差齊性檢驗用以檢驗兩組或多組數(shù)據(jù)與其均值偏離程度是否存在差異,也是很多檢驗和算法的先決條件。當(dāng)不確定兩總體方差是否相等時,應(yīng)先利用levene函數(shù)進(jìn)行檢驗,檢驗兩總體是否具有方差齊性。它的使用格式如下:案例——對表中數(shù)據(jù)進(jìn)行方差齊性分析為了考察染整工藝對布的縮水率是否有影響,選用5種不同的染整工藝,分別用A1、A2、A3、A4、A5表示,每種工藝處理4塊布樣,測得縮水率的百分?jǐn)?shù),如表所示,試對其進(jìn)行方差齊性分析。三、擬合優(yōu)度卡方檢驗擬合優(yōu)度卡方檢驗檢驗一組觀察到的頻數(shù)分布是否與一個理論分布相符。例如:一個地區(qū)的出生性別比例是否符合預(yù)期的1:1?網(wǎng)站訪問量的每日數(shù)據(jù)是否符合泊松分布?chisquare函數(shù)用來進(jìn)行擬合優(yōu)度卡方檢驗,它的使用格式如下:案例——對表中數(shù)據(jù)進(jìn)行卡方檢驗為了研究性別與NBA比賽觀看人次的關(guān)系,2020年在10座城市調(diào)查了1000個樣本,調(diào)查數(shù)據(jù)如表所示。試對其進(jìn)行卡方檢驗(原假設(shè)是沒有顯著差異)。任務(wù)三、t檢驗一、單樣本t檢驗二、獨(dú)立樣本t檢驗三、配對樣本t檢驗任務(wù)三、t檢驗任務(wù)引入小李收集了一批鳶尾花的花萼長度數(shù)據(jù)。他想知道,這批鳶尾花的平均花萼長
度是否與已知的某個品種的平均花萼長度(比如5.8cm)存在顯著差異。這就需要
用到t檢驗了!那么,具體應(yīng)該選擇哪種t檢驗?情景式任務(wù)引入(單樣本t檢驗-飲料容量):情景式任務(wù)引入(獨(dú)立樣本t檢驗-藥物療效):情景式任務(wù)引入(配對樣本t檢驗-學(xué)習(xí)效果):知識準(zhǔn)備t檢驗主要用于檢驗定量數(shù)據(jù),無論哪種t檢驗,都要符合以下的基本前提條件:樣本數(shù)據(jù)符合正態(tài)分布,各樣本之間是相互獨(dú)立的。t檢驗的步驟如下?!?/p>
提出原假設(shè)和備擇假設(shè)?!?/p>
構(gòu)造t統(tǒng)計量?!?/p>
計算t統(tǒng)計量?!?/p>
對于得到的p值進(jìn)行分析,若大于0.05,則接受原假設(shè),反之則接受備擇假設(shè)。一、單樣本t檢驗單樣本t檢驗用于檢驗數(shù)據(jù)是否來自同一均值的總體。t檢驗主要是以均值為核心的檢
驗。標(biāo)準(zhǔn)誤差計算公式:標(biāo)準(zhǔn)誤差單樣本t檢驗計算公式:在stats中,ttest_1samp函數(shù)用來進(jìn)行單樣本t檢驗。它的使用格式如下:
案例——對不同年齡段消費(fèi)者的消費(fèi)水平進(jìn)行單樣本t檢驗從淘寶“雙12”消費(fèi)信息中抽取不同年齡段消費(fèi)者的消費(fèi)水平樣本,如表所示。其
中,整體消費(fèi)水平為3000元。二、獨(dú)立樣本t檢驗獨(dú)立樣本t檢驗用于分析定類數(shù)據(jù)與定量數(shù)據(jù)之間的關(guān)系,如男、女生的身高是否有顯
著差異。在stats中,ttest_ind函數(shù)用來進(jìn)行獨(dú)立樣本t檢驗。它的使用格式如下:其中,data1、data2是樣本數(shù)據(jù)。案例——對表中數(shù)據(jù)進(jìn)行獨(dú)立樣本t檢驗為了考察氣溫對樹木落葉是否有影響,選用10天不同的溫度分別測得兩個區(qū)域環(huán)衛(wèi)工
人清掃落葉的車數(shù),如表所示。試對其進(jìn)行獨(dú)立樣本t檢驗。三、配對樣本t檢驗配對樣本t檢驗分析配對定量數(shù)據(jù)差異,要求樣本量相同且順序?qū)?yīng)。可視為單樣本t檢驗擴(kuò)展,對象為配對樣本觀測值之差??赏ㄟ^差值轉(zhuǎn)化為單樣本t檢驗,常用于比較同一受試對象處理前后差異。。在stats中,ttest_rel函數(shù)用來進(jìn)行配對樣本t檢驗。它的使用格式如下:
其中,data1、data2是樣本數(shù)據(jù)。案例——對表中數(shù)據(jù)進(jìn)行配對樣本t檢驗在某市普查某種疾病,為此要抽驗12個人的血,可用兩種檢測方法進(jìn)行檢測,兩種檢
測方法測得的數(shù)據(jù)如表所示。試對其進(jìn)行配對樣本t檢驗。任務(wù)四
方差分析一、單因素方差分析二、多因素方差分析任務(wù)四
方差分析任務(wù)引入小李不僅想知道不同品種的鳶尾花在花萼長度上是否有差異,還想知道不同生
長地點(diǎn)(例如,陽坡和陰坡)是否也會影響花萼長度,以及品種和生長地點(diǎn)之間是
否存在交互作用。他收集了不同品種、不同生長地點(diǎn)的鳶尾花的花萼長度數(shù)據(jù)。這
時,就需要用到更復(fù)雜的方差分析了!那么,
小烈應(yīng)該選擇哪種類型的方差分析?
知識準(zhǔn)備方差分析(AnalysisofVariance,ANOVA)又稱F檢驗,聯(lián)合了假設(shè)檢驗、差
比率檢驗、方差齊性檢驗,是一種在零假設(shè)之下,統(tǒng)計值服從F分布的檢驗。它用
于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗,主要考慮各組之間的均數(shù)差別。試驗樣本的分組方式不同,采用的方差分析方法也不同,一般常用的有單因素
方差分析與雙因素方差分析。一、單因素方差分析單因素方差分析(One-wayANOVA)用來檢驗由單一因素影響的多組樣本某因變量的
均值是否有顯著差異。當(dāng)因變量為數(shù)值型、自變量為分類值時,通常的做法是按自變量的類別把實例分成多
組,分析因變量在自變量的不同分組中是否存在差異。f_oneway函數(shù)用來對數(shù)據(jù)進(jìn)行單因
素方差分析,返回的是統(tǒng)計量和p值。
案例——試檢驗不同配比油漆對空氣的污染效果是否有顯著影響某油漆公司為了比較5種不同配比的油漆對空氣的污染效果,選取了條件基本相同的20套房間,隨機(jī)分成4組,一個月后,房間內(nèi)甲醛含量的測試結(jié)果如表所示。二、多因素方差分析當(dāng)有兩個或兩個以上的自變量對因變量產(chǎn)生影響時,可以用多因素方差分析的方法進(jìn)
行分析,此時不僅要考慮每個因素的主效應(yīng),還要考慮因素之間的交互效應(yīng)。多因素方差分析需要加載statsmodels模塊,在statsmodels中,anova.anova_lm函數(shù)用來
進(jìn)行配對樣本t檢驗。它的使用格式如下:參數(shù)說明如下?!?args:一個或多個擬合線性模型?!?*kwargs:第二組或更多屬性。①scale:方差的估計,默認(rèn)從最大的模型開始估計。②test:提供測試統(tǒng)計數(shù)據(jù),可選值為"F"、"ChiSq"和"CP",默認(rèn)值為"F"。③typ:數(shù)據(jù)類型。④robust:魯棒性,包括None、"hc0"、"hc1"、"hc2"和"hc3"。二、多因素方差分析案例——測試某新藥,進(jìn)行多因素方差分析研究者測試某新藥對血液黏稠是否有療效,研究者共招募100名志愿者,男、女分別50名。另外,將男、女分別細(xì)分使用新藥和普通藥物。影響因素共分為兩個,分別是藥物(舊
藥和新藥)、性別;自變量data為血液黏稠水平。項目總結(jié)項目實操:實操一
遺失的信件數(shù)據(jù)分析全省各地均有大量的愛國主義教育基地,走進(jìn)這些基地,通過梳理歷史文化資源,
挖
掘其中的道德教育價值,感悟道德的力量。某愛國主義教育基地收到全國各地的信件并抽取部分信件進(jìn)行回復(fù)。
一天
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鹽城2025年江蘇鹽城射陽縣教育局下屬事業(yè)單位招聘教師5人筆試歷年參考題庫附帶答案詳解
- 溫州2025年浙江溫州瑞安市人民檢察院聘用制書記員招錄筆試歷年參考題庫附帶答案詳解
- 江西2025年江西生物科技職業(yè)學(xué)院招聘人事代理人員筆試歷年參考題庫附帶答案詳解
- 恩施2025年湖北恩施州巴東縣教育局所屬部分城區(qū)學(xué)校選調(diào)教師22人筆試歷年參考題庫附帶答案詳解
- 平頂山2025年河南汝州市紀(jì)委監(jiān)委機(jī)關(guān)所屬事業(yè)單位選調(diào)11人筆試歷年參考題庫附帶答案詳解
- 安康2025年陜西省安康市縣直及縣城周邊學(xué)校(單位)選聘教師44人筆試歷年參考題庫附帶答案詳解
- 嘉興浙江嘉興職業(yè)技術(shù)學(xué)院海鹽學(xué)院招聘編制外工作人員筆試歷年參考題庫附帶答案詳解
- 臺州浙江臺州玉環(huán)市文化館招聘編外工作人員筆試歷年參考題庫附帶答案詳解
- 職業(yè)人群健康促進(jìn)的精準(zhǔn)化方案
- 耗材管理績效與科室考核聯(lián)動
- 急診預(yù)檢分診課件教學(xué)
- (完整版)小學(xué)一年級20以內(nèi)加減法混合運(yùn)算3000題(每頁100題-已排版)
- GB/T 46509-2025玩具中揮發(fā)性有機(jī)化合物釋放量的測定
- 2026屆浙江省杭州城區(qū)6學(xué)校數(shù)學(xué)七年級第一學(xué)期期末教學(xué)質(zhì)量檢測試題含解析
- 2025年中國菜板市場調(diào)查研究報告
- 《杭州市建設(shè)工程消防驗收技術(shù)導(dǎo)則》
- 總公司與分公司承包協(xié)議6篇
- 煉鋼生產(chǎn)線自動化控制系統(tǒng)建設(shè)方案
- 塔吊安裝安全培訓(xùn)教育課件
- 民事答辯狀(信用卡糾紛)樣式
- 設(shè)備安裝施工應(yīng)急預(yù)案
評論
0/150
提交評論