版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一簡(jiǎn)答題1.在機(jī)器學(xué)習(xí)中,什么是回歸?回歸用數(shù)學(xué)表達(dá)式如何描述?答:回歸,就是研究一個(gè)隨機(jī)變量y對(duì)另一個(gè)變量x或一組變量[x1,x2,…,xn]的相依關(guān)系的統(tǒng)計(jì)分析方法?;貧w模型用數(shù)學(xué)語(yǔ)言描述為y=f(x1,x2,…,xn)+ξ,其中x1,x2,…,xn是確定性的或可控的因素,f是映射函數(shù),ξ是不確定或不可控的因素。通過(guò)大量的數(shù)據(jù)進(jìn)行擬合,求解出映射函數(shù)f的具體表達(dá)式,這就回歸建模的過(guò)程。2.回歸可以分為哪二大類(lèi)?答:線性回歸、廣義線性回歸3.回歸方程組Y=XB,采用最小二乘法進(jìn)行參數(shù)估計(jì),寫(xiě)出B的估計(jì)表達(dá)式。答:B=(XTX)-1XTY4.什么是顯著性檢驗(yàn)?對(duì)回歸方程的顯著性檢驗(yàn)包括哪兩個(gè)方面?答:顯著性檢驗(yàn)就是事先對(duì)總體的參數(shù)或總體分布形式做出一個(gè)假設(shè),然后利用樣本信息來(lái)判斷這個(gè)假設(shè)是否合理,即判斷總體的真實(shí)情況與原假設(shè)是否有顯著性差異。對(duì)回歸方程的顯著性檢驗(yàn)包括:線性關(guān)系顯著性檢驗(yàn)和回歸參數(shù)檢驗(yàn)。5.在回歸方程中,自變量可能會(huì)有不同的量綱,如何消除量綱造成的影響?答:對(duì)變量值做標(biāo)準(zhǔn)化變換,從而得到標(biāo)準(zhǔn)化的回歸系數(shù)。二計(jì)算題1已知回歸方程為:y=0.15+0.20x1+0.15x2+0.45x3,求樣本[0.4,1.1,0.6]的預(yù)測(cè)值。解:y=0.15+0.20*0.4+0.15*1.1+0.45*0.6=0.6652當(dāng)x=0時(shí),觀測(cè)到y(tǒng)=0.9;當(dāng)x=1時(shí),觀測(cè)到y(tǒng)=2.1;當(dāng)x=2時(shí),觀測(cè)到y(tǒng)=3.05。求y和x滿足的線性回歸方程。解:Y=[[0.9][2.1][3.05]]X=[[1,0][1,1][1,2]]XTX=[[33][35]](XTX)-1=[[0.83333333-0.5][-0.50.5]](XTX)-1XT=[[0.833333330.33333333-0.16666667][-0.50.0.5]]Beta=(XTX)-1XTY=[[0.94166667][1.075]]滿足的回歸方程:y=0.942+1.075*x三編程題1.某地區(qū)旅游業(yè)的年收入可能與該地區(qū)人口數(shù)量、每月人均可支配收入、公路與軌道交通里程數(shù)有關(guān),如表5-3。(1)設(shè)因變量為旅游業(yè)年收入,自變量為地區(qū)人口數(shù)量、每月人均可支配收入、公路與軌道交通里程數(shù)?;貧w方程為:y=(2)計(jì)算回歸方程的擬合優(yōu)度判斷系數(shù)、修正的擬合優(yōu)度判斷系數(shù)。(3)進(jìn)行線性關(guān)系顯著性檢驗(yàn),取顯著性水平α=0.05。F0.05(3,3)=9.28。(4)進(jìn)行回歸參數(shù)的顯著性檢驗(yàn),取顯著性水平α=0.05。t0.05/2(3)=3.182。(5)根據(jù)(4)的結(jié)果,刪除對(duì)因變量影響不顯著的自變量,重新確定回歸方程。表5-3:某地區(qū)旅游收入表旅游業(yè)年收入(億元)人口數(shù)量(萬(wàn)人)每月人均可支配收入(元)公路與軌道交通里程數(shù)(公里)250352023001456264256724231552269759925401672274263225891770282665526671842287867326991956292070127202042解:(1)X=[[1,520,2300,1456],[1,567,2423,1552],[1,599,2540,1672],[1,632,2589,1770],[1,655,2667,1842],[1,673,2699,1956],[1,701,2720,2042]]Y=[[2503],[2642],[2697],[2742],[2826],[2878],[2920]]B=因此:β(2)m=7,n=3TSS=i=1RSS=i=1ESS=i=1R2R2(3)第一步:提出假設(shè)。H0:β1=β2=…=βn=0H1:β1,β2,…,βn至少有一個(gè)不等于0第二步:計(jì)算統(tǒng)計(jì)量F。F=ESS/n第三步:做出統(tǒng)計(jì)決策。F>Fα(n,m-n-1)=F0.05(3,3)=9.28,拒絕原假設(shè),說(shuō)明回歸方程線性關(guān)系顯著(4)第一步:提出假設(shè)。對(duì)于任意參數(shù)βi(i=1,2,…,n),有H0:βi=0;H1:βi≠0。第二步:計(jì)算統(tǒng)計(jì)量t。構(gòu)造統(tǒng)計(jì)量:ti其中sβi是βi的抽樣分布標(biāo)準(zhǔn)差sβsyt1=11.058,t2=3.653,t3=1.228第三步:做出統(tǒng)計(jì)決策。對(duì)于i=1,2,|ti|>tα/2(3),則拒絕H0,說(shuō)明該自變量對(duì)因變量的影響顯著。對(duì)于i=3,|ti|<=tα/2(3),則接受H0,說(shuō)明該自變量對(duì)因變量影響不顯著,應(yīng)該從回歸方程中刪除。(5)根據(jù)(4)的結(jié)論,刪除x3m=7;n=2X=[[1,520,2300],[1,567,2423],[1,599,2540],[1,632,2589],[1,655,2667],[1,673,2699],[1,701,2720]]Y=[[2503],[2642],[2697],[2742],[2826],[2878],[2920]]B=新的回歸方程:y=Python代碼:importnumpyasnpm=7;n=3X=np.array([[1,520,2300,1456],[1,567,2423,1552],[1,599,2540,1672],[1,632,2589,1770],[1,655,2667,1842],[1,673,2699,1956],[1,701,2720,2042]])Y=np.array([[2503],[2642],[2697],[2742],[2826],[2878],[2920]])X_g=np.dot(np.linalg.inv(np.dot(X.T,X)),X.T)B=np.dot(X_g,Y)print("B=\n",B.round(3))y_avg=Y.sum()/mY_regression=np.dot(X,B)TSS=((Y-y_avg)*(Y-y_avg)).sum()print("TSS=",TSS)RSS=((Y-Y_regression)*(Y-Y_regression)).sum()print("RSS=",RSS)ESS=((Y_regression-y_avg)**2).sum()print("ESS=",ESS)R_2=ESS/TSSprint("R_2=",R_2)R_2_=1-((m-1)/(m-n-1))*(1-R_2)print("R_2_=",R_2_)F=(ESS/n)/(RSS/(m-n-1))print("F統(tǒng)計(jì)量:F=",F)#F0.05(3,3)=9.28x1=X[:,1];x2=X[:,2];x3=X[:,3]s_1=(np.sum(x1**2)-(1/m)*np.sum(x1)**2)**0.5s_2=(np.sum(x2**2)-(1/m)*np.sum(x2)**2)**0.5s_3=(np.sum(x3**2)-(1/m)*np.sum(x3)**2)**0.5s_y=(RSS/(m-n-1))**0.5print("s_1=",s_1,"s_2=",s_2,"s_3=",s_3,"s_y=",s_y)s_b1=s_y/s_1;s_b2=s_y/s_2;s_b3=s_y/s_3print("s_b1=",s_b1,"s_b2=",s_b2,"s_b3=",s_b3)t_1=B[1,0]/s_b1;t_2=B[2,0]/s_b2;t_3=B[3,0]/s_b3print("t統(tǒng)計(jì)量:t_1=",t_1,"t_2=",t_2,"t_3=",t_3)#t0.05/2(3)=3.182#刪除自變量x3m=7;n=2X=np.array([[1,520,2300],[1,567,2423],[1,599,2540],[1,632,2589],[1,655,2667],[1,673,2699],[1,701,2720]])Y=np.array([[2503],[2642],[2697],[2742],[2826],[2878],[2920]])X_g=np.dot(np.linalg.inv(np.dot(X.T,X)),X.T)B=np.dot(X_g,Y)print("B=\n",B.round(3))2除了線性回歸,Spark的MLlib中也提供了對(duì)廣義線性回歸的支持,利用MLlib的GeneralizedLinearRegression函數(shù)對(duì)房?jī)r(jià)文件usa_housing_price.csv做多元回歸分析,其中第1-5列為預(yù)測(cè)變量,第6列為目標(biāo)變量。文件中的部分?jǐn)?shù)據(jù)如表5-5所示。表5-5:房屋價(jià)格數(shù)據(jù)Avg_Area_IncomeAvg_Area_House_AgeAvg_Area_Number_of_RoomsArea_PopulationsizePrice79545.465.3171397.00918823086.8188.2142105903479248.644.99716.73082140173.07160.0425150589161287.075.134118.51272736882.16227.2735105898863345.243.8117645.58672934310.24164.81661260617………………代碼:importorg.apache.log4j.{Level,Logger}importorg.apache.spark.ml.evaluation.RegressionEvaluatorimportorg.apache.spark.ml.feature.VectorAssemblerimportorg.apache.spark.ml.regression.{GeneralizedLinearRegression,LinearRegression}importorg.apache.spark.sql.SparkSessionobjectxiti05_03{defmain(args:Array[String]):Unit={Logger.getLogger("akka").setLevel(Level.OFF)Logger.getLogger("org").setLevel(Level.OFF)valspark=SparkSession.builder().master("local[*]").appName("aaa").getOrCreate()valdf01=spark.read.option("inferSchema",true).option("header",true).csv("usa_housing_price.csv")df01.show(5,false)valfeatures=Array("Avg_Area_Income","Avg_Area_House_Age","Avg_Area_Number_of_Rooms","Area_Population","size")valassembler=newVectorAssembler().setInputCols(features).setOutputCol("features")valdf02=assembler.transform(df01)df02.show(5,false)valseed=1234valsplit=df02.randomSplit(Array(0.8,0.2),seed)valdf_train=split(0)valdf_test=split(1)df_train.show(1)df_test.show(1)valglr=newGeneralizedLinearRegression().setLabelCol("Price").setFeaturesCol("features").setFamily("gaussian").setLink("identity").setMaxIter(20).fit(df_train)//valglr=newLinearRegression().setLabelCol("Price").setFeaturesCol("features").fit(df_train)println(s"intercept常數(shù)項(xiàng):${ercept}")println(s"coefficients系數(shù)項(xiàng):${glr.coefficients}")valsummary=glr.summaryprintln("CoefficientStandardErrors:"+summary.coefficientStandardErrors.toBuffer)println("TValues:"+summary.tValues.toBuffer)println("PValues:"+summary.pValues.toBuffer)println("Dispersion:"+summary.dispersion)println("NullDeviance:"+summary.nullDeviance)println("ResidualDegreeOfFreedomNull:"+summary.residualDegreeOfFreedomNull)println("Deviance:"+summary.deviance)println("ResidualDegreeOfFreedom:"+summary.residualDegreeOfFreedom)println("AIC:"+summary.aic)valevaluator=newRegressionEvaluator().setLabelCol("Price").setPredictionCol("prediction").setMetricName("rmse")valdf_eva=glr.transform(df_test)println("rmse="+evaluator.evaluate(df_eva))}}運(yùn)行結(jié)果:intercept常數(shù)項(xiàng):-804648.6507507935coef
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn) 管理制度
- 可穿戴設(shè)備市場(chǎng)發(fā)展趨勢(shì)分析
- 2026年物流管理專(zhuān)業(yè)學(xué)生實(shí)踐考試題物流規(guī)劃與優(yōu)化案例分析題
- 2026年工業(yè)自動(dòng)化系統(tǒng)調(diào)試模擬題
- 2026年銀行職員招聘考試金融知識(shí)會(huì)計(jì)實(shí)務(wù)模擬試題
- 2026年電子商務(wù)營(yíng)銷(xiāo)專(zhuān)家網(wǎng)絡(luò)營(yíng)銷(xiāo)策略分析與實(shí)施模擬試題及答案
- 2026年電氣工程師專(zhuān)業(yè)招聘筆試題庫(kù)大全
- 2026年大學(xué)入學(xué)考試英語(yǔ)筆試模擬題
- 2026年會(huì)計(jì)師中級(jí)職稱(chēng)考試核心題目與詳解
- 2026年注冊(cè)會(huì)計(jì)師財(cái)務(wù)成本管理預(yù)測(cè)模擬試題
- 兩癌預(yù)防知識(shí)講座
- 用電安全隱患檢測(cè)的新技術(shù)及應(yīng)用
- 新疆克州阿合奇縣2024-2025學(xué)年七年級(jí)上學(xué)期期末質(zhì)量檢測(cè)英語(yǔ)試卷(含答案及聽(tīng)力原文無(wú)音頻)
- 《水庫(kù)泥沙淤積及影響評(píng)估技術(shù)規(guī)范》
- 2023-2024學(xué)年浙江省杭州市西湖區(qū)教科版五年級(jí)上冊(cè)期末考試科學(xué)試卷
- GB/T 7948-2024滑動(dòng)軸承塑料軸套極限PV試驗(yàn)方法
- DL∕T 1057-2023 自動(dòng)跟蹤補(bǔ)償消弧線圈成套裝置技術(shù)條件
- AQ 2003-2018 軋鋼安全規(guī)程(正式版)
- 兒童特發(fā)性矮身材診斷與治療中國(guó)專(zhuān)家共識(shí)(2023版)解讀
- 村委會(huì)指定監(jiān)護(hù)人證明書(shū)模板
- 送給業(yè)主禮物方案
評(píng)論
0/150
提交評(píng)論