交通數(shù)據(jù)分析基礎 習題_第1頁
交通數(shù)據(jù)分析基礎 習題_第2頁
交通數(shù)據(jù)分析基礎 習題_第3頁
交通數(shù)據(jù)分析基礎 習題_第4頁
交通數(shù)據(jù)分析基礎 習題_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章1-8,略。9.將特征status轉換為有序因子,等級依次為Poor、Improved、Excellent。#假設原始數(shù)據(jù)中的status列是字符型向量

status_ordered<-factor(

x=status,#原始數(shù)據(jù)向量

levels=c("Poor","Improved","Excellent"),#指定有序等級

ordered=TRUE#聲明為有序因子

)10.創(chuàng)建一個名為fruits的字符向量,包含以下水果名稱:"apple"、"banana"、"cherry"、"date"、"elderberry"。將"fig"添加到這個向量的末尾。#創(chuàng)建初始向量

fruits<-c("apple","banana","cherry","date","elderberry")

#添加新元素到末尾

fruits<-c(fruits,"fig")11.創(chuàng)建一個名為matrixA的3×3矩陣,將其中所有元素均初始化為0,并將第1行第2列的元素設置為5。#創(chuàng)建全0的3x3矩陣

matrixA<-matrix(0,nrow=3,ncol=3)

#修改第1行第2列元素為5

matrixA[1,2]<-512.創(chuàng)建一個名為students的數(shù)據(jù)框,包含3列,分別為Name(字符型)、Age(整數(shù)型)、Score(數(shù)值型);并添加3行數(shù)據(jù),分別為("Alice",20,85)、("Bob",22,90)、("Charlie",19,88)。students<-data.frame(

Name=c("Alice","Bob","Charlie"),

Age=c(20L,22L,19L),#顯式聲明整數(shù)類型(L后綴)

Score=c(85,90,88),

stringsAsFactors=FALSE#關閉字符自動轉因子(R4.0+默認關閉)

)13.使用students數(shù)據(jù)框(習題12中創(chuàng)建的),篩選出年齡大于20歲且分數(shù)高于87分的學生。filtered_students<-subset(

students,

Age>20&Score>87#邏輯條件:年齡>20且分數(shù)>87

)14.使用plot()函數(shù)繪制students數(shù)據(jù)框(習題12中創(chuàng)建的)中Age和Score的散點圖,并給該散點圖添加標題和坐標軸標題。plot(

x=students$Age,

y=students$Score,

main="StudentAgevs.Score",#標題

xlab="Age(years)",#x軸標簽

ylab="Score(%)",#y軸標簽

pch=19#設置點的形狀(實心圓點)

)第二章1.將數(shù)據(jù)框ggplot2::diamonds中的特征color轉換為字符型特征。library(ggplot2)

diamonds$color<-as.character(diamonds$color)2.對數(shù)據(jù)框ggplot2::diamonds中的所有數(shù)值型特征進行標準化。#方法1:使用基礎R的scale函數(shù)

diamonds_scaled<-as.data.frame(scale(diamonds[,sapply(diamonds,is.numeric)]))

#方法2:使用dplyr(需加載包)

#library(dplyr)

#diamonds_scaled<-diamonds%>%

#mutate(across(where(is.numeric),scale))3.篩選出數(shù)據(jù)框ggplot2::diamonds中x大于4,并且特征cut為"Fair"的樣本。filtered_diamonds<-subset(diamonds,x>4&cut=="Fair")4.為數(shù)據(jù)框ggplot2::diamonds增加一個日期型的列date_vec,其中,第1行的日期為"2023-01-01",第2行的日期在第1行的基礎上加1天,依次類推。diamonds$date_vec<-seq.Date(

from=as.Date("2023-01-01"),

by="day",

length.out=nrow(diamonds)

)5.查看數(shù)據(jù)框ggplot2::diamonds的基本信息。str(diamonds)6.將數(shù)據(jù)框ggplot2::diamonds的特征cut、color、clarity的名稱改為大寫形式。colnames(diamonds)[colnames(diamonds)%in%c("cut","color","clarity")]<-

c("CUT","COLOR","CLARITY")7.對于數(shù)據(jù)框ggplot2::diamonds,根據(jù)特征cut對數(shù)據(jù)集進行劃分,并分組統(tǒng)計各組信息。library(dplyr)

group_summary<-diamonds%>%

group_by(CUT)%>%

summarise(

count=n(),

avg_price=mean(price,na.rm=TRUE),

min_carat=min(carat),

max_carat=max(carat)

)8.根據(jù)特征price和carat對數(shù)據(jù)框ggplot2::diamonds進行排序。sorted_diamonds<-diamonds%>%

arrange(price,carat)#先按price升序,再按carat升序第三章1.利用R語言計算數(shù)據(jù)框ggplot::diamonds中特征carat的均值、中位數(shù)、眾數(shù)、幾何平均數(shù)、調和平均數(shù)、方差、標準差、變異系數(shù)、四分位數(shù)、偏度和峰度。library(ggplot2)

library(psych)#用于幾何平均和調和平均

library(e1071)#用于偏態(tài)和峰態(tài)

#計算統(tǒng)計量

stats<-list(

mean=mean(diamonds$carat),

median=median(diamonds$carat),

mode=names(which.max(table(diamonds$carat))),#眾數(shù)(可能有多個)

geometric_mean=geometric.mean(diamonds$carat),

harmonic_mean=harmonic.mean(diamonds$carat),

variance=var(diamonds$carat),

std_dev=sd(diamonds$carat),

coeff_variation=sd(diamonds$carat)/mean(diamonds$carat),

quantiles=quantile(diamonds$carat,probs=c(0.25,0.75)),

skewness=skewness(diamonds$carat),

kurtosis=kurtosis(diamonds$carat)-3#峰態(tài)(減去3調整)

)

#打印結果

print(stats)2.計算數(shù)據(jù)框ggplot::diamonds中特征color的頻數(shù)和頻率。color_freq<-table(diamonds$color)

color_prop<-prop.table(color_freq)

#打印結果

print(color_freq)

print(round(color_prop,3))3.繪制圖形查看數(shù)據(jù)框ggplot::diamonds中特征color的分布。library(ggplot2)

ggplot(diamonds,aes(x=color))+

geom_bar(fill="skyblue")+

labs(title="DistributionofDiamondColors",x="Color",y="Count")+

theme_minimal()4.繪制圖形查看數(shù)據(jù)框ggplot::diamonds中特征price的分布。ggplot(diamonds,aes(x=price))+

geom_histogram(bins=50,fill="lightgreen",color="black")+

labs(title="DistributionofDiamondPrices",x="Price(USD)",y="Count")+

scale_x_log10()+#對數(shù)轉換處理右偏分布

theme_minimal()5.繪制圖形查看數(shù)據(jù)框iris中特征Sepal.Length與Sepal.Width的關系,圖中要根據(jù)特征Species對點進行類別劃分,并根據(jù)特征Petal.Length設置點的大小。ggplot(iris,aes(

x=Sepal.Length,

y=Sepal.Width,

color=Species,

size=Petal.Length

))+

geom_point(alpha=0.7)+

labs(

title="SepalDimensionsbySpecies",

x="SepalLength(cm)",

y="SepalWidth(cm)",

color="Species",

size="PetalLength(cm)"

)+

scale_color_manual(values=c("setosa"="red","versicolor"="blue","virginica"="green"))+

theme_minimal()第四章1.有一信號交叉口,其信號周期為60s,經(jīng)測得該交叉口的一個進口的平均交通流量為180輛/h,且車輛到達數(shù)n符合泊松分布n~Pλ解:一個周期(60s)內到達的車輛數(shù):m設一個周期到達k輛車的概率為Pk,則由遞推公式P當k≤2時,Pk遞增;時,因此,當k=2時,P2.某交叉口有25%的騎自行車的人不遵守交通規(guī)則,假設到達該交叉口的騎行者服從二項分布X~Bn,p解:不遵守交通規(guī)則的人數(shù)概率為p=0.25n將上述數(shù)據(jù)代入公式:P則有:PPP那么,8人中有3人及以上不遵守交通規(guī)則的概率是:P3.在平均交通量為120輛/h的道路上,觀測斷面上的車輛達到符合泊松分布n~Pλ,其中λ=120/3600,問30解:一個觀測周期(30s)內到達的車輛數(shù):m泊松分布計算公式:P在30s內無車到達的概率為:P在30s內有1輛車到達的概率為:P在30s內有2輛車到達的概率為:P在30s內有3輛車到達的概率為:P在30s內有4輛及以上的車到達的概率為:P4.某信號交叉口設置了左轉信號相位,經(jīng)研究來車符合二項分布X~Bn,p,每一周期平均來車30輛,其中有30%(1)到達的5輛車中,有2輛左轉的概率;(2)到達的5輛車中,少于2輛左轉的概率;(3)到達的10輛車中,少于2輛左轉的概率;(4)某一信號周期內無左轉車的概率。解:(1)左轉概率為p=0.3,將上述數(shù)據(jù)代入公式:P得:P(2)由(1)有:PPP(3)n=10Pk<2(4)n=30P5.對于單向平均流量為360veh/h的車流,其車頭時距h服從負指數(shù)分布?~Eλ,其中λ=3603600=0.1,求車頭時距大于10s的概率。解:車頭時距大于10s的概率也就是10s以內無車的概率。由λ=PP同樣,車頭時距小于或等于10s的概率為:P6.在一條有隔離帶的雙向四車道道路上,單向流量為360veh/h,車頭時距h服從負指數(shù)分布?~Eλ,其中λ=3603600=0.1。單方向路寬7.5m,設行人步行解:行人橫過單向行車道所需要的時間:t=因此,只有當?≥7.5s時,行人才能安全穿越,由于雙車道道路可以充分超車,車頭時距符合負指數(shù)分布,對于任意前后兩輛車而言,車頭時距大于7.5s的概率為:P對于Q=360veh/h的車流,1h車頭時距次數(shù)為360,其中h≥7.5s的車頭時距為可以安全橫穿的次數(shù):360×0.4724=170(次)第五章1、設某路口車輛到達數(shù)服從二項分布X~Bm,p,x1,x2解:EX=mp=2、在某一地區(qū),一年發(fā)生的交通事故次數(shù)X,設X的密度函數(shù)為fx;θ=θ2xe?解:EX似然函數(shù)為:Lln令ddθlnL=3、某自動駕駛公交車速度X服從正態(tài)分布Nμ,σ2,從某天中隨機抽取6輛自動駕駛公交車測其速度(單位為km/h)分別為14.615.114.914.815.215.1(1)已知σ2=0.06,(2)σ2未知,α解:x=14.95,s(1)σ2已知,u0.025=1.96,均值μ在置信度為xu0.05=1.64,均值μ在置信度為x(2)σ2未知,t0.0255=2.571,均值μ在置信度為0.95t0.055=2.015,均值μ在置信度為0.904、某公司想探究職員乘坐汽車的暈車程度(數(shù)值為0-10,數(shù)值越大,暈車程度越重),現(xiàn)給出男、女職員暈車程度。設兩組數(shù)據(jù)分別來自正態(tài)總體Nμ1,σ12和Nμ2,σ22,兩樣本相互獨立,男性職員nx女性職員nx解:μ1?μ2x15、貨運公司A、B從甲地到乙地運輸貨物的時間分別服從正態(tài)分布Nμ1,σ12和Nμ2,σ22,兩總體方差相同,兩樣本相互獨立,μ1,μ2貨運公司A:2.662.632.682.602.67貨運公司B:2.582.572.632.592.60試求兩貨運公司的運輸時間均值差μ1解:x1=2.65,x2=2.59sμ1?μx6、隨機調查某路段100輛車的速度,測得其平均速度為45km/h,根據(jù)以往數(shù)據(jù)可知,該路段的車速標準差為42.5。試求該路段車輛平均速度的置信區(qū)間,α=0.1。解:均值μ的置信度為0.90的區(qū)間估計為:x7、為了解交通安全宣傳視頻的傳播效果,隨機調查了500人,其中有100人收看了該宣傳視頻,試在0.9的置信水平下估計該宣傳視頻收視率的置信區(qū)間。解:p=20%置信度90%總體比率P的置信區(qū)間為p8、為了調查兩條線路每輛公交車的日營業(yè)額(元),隨機抽取了兩條線路的公交車樣本。這兩個樣本相互獨立,設x1,x2分別為第一個和第二個總體的樣本均值,S12,S22分別是兩個總體的樣本方差。兩個總體均值分別為μ1和μ2,方差分別為σ12和σ22且未知,兩個樣本的數(shù)據(jù)量、均值、方差如下:n1解:μ1?μx9、某道路汽車的速度服從正態(tài)分布,方差σ2=1.21,現(xiàn)隨機抽取6輛汽車,測得的汽車速度(單位為km/h32.4631.5430.1029.7631.6731.32請問當顯著性水平α=0.01時,能否認為該道路汽車的平均速度為32.50km/h解:H0:μ=32.50H檢驗統(tǒng)計量:z=x決策:拒絕H0結論:這條道路汽車的平均速度不是32.50km/h10、某自行車租賃公司聲稱其新推出的騎行套餐可以讓騎行者在兩個月內減重8.5kg以上。為了驗證這一聲稱是否屬實,有關研究人員抽檢了10名參與者,得知他們的減重(單位為kg)情況如下:9.511.58.57.51189.57.51114.5請問在α=0.05的顯著性水平下,解:H0:μ≥8.5H1檢驗統(tǒng)計量:z決策:不拒絕H結論:該公司的聲稱可信。11、某地鐵公司想要了解乘客性別會不會顯著影響地鐵滿意度。于是,他們從女性乘客中抽取了50名,測得平均滿意度為8.2,從男性乘客中抽取了60名,測得平均滿意度為7.8,統(tǒng)計資料表明男性乘客和女性乘客的滿意度都服從正態(tài)分布,其標準差分別為0.73和1.16,請問在顯著性水平為0.05的條件下,女性乘客的地鐵滿意度是否比男性乘客的地鐵滿意度高?解:n1=50n2=60H檢驗統(tǒng)計量:U決策:拒絕H結論:顯著性水平為0.05的條件下,女性乘客的地鐵滿意度比男性乘客的地鐵滿意度高。12、地鐵公司聲稱其某條地鐵線路主要服務于通勤族,其乘客中有70%為通勤族。為了驗證這一聲稱是否屬實,某研究機構隨機抽取了300人,發(fā)現(xiàn)有200名通勤族經(jīng)常通過該地鐵線路出行。取顯著性水平α=0.05,檢驗該地鐵線路乘客群中通勤族的比率是否為70%。解:H檢驗統(tǒng)計量:z決策:不拒絕H結論:該地鐵公司的說法屬實。13、隨機選取某條道路10個小時的交通流量(單位為pcu/h):97.8532.55296.37561.652256.7599.54179.23782.16110.67540.53請繪制正態(tài)概率圖。解:這10個點不在正態(tài)概率圖上,因此可以認為該道路交通量的分布不是正態(tài)分布,對數(shù)據(jù)進行對數(shù)變換,結果如下:IXiLnxiXk132.553.4830.061297.854.5830.159399.544.6010.2564110.674.7070.3545179.235.1890.4516296.375.6920.5497540.536.2930.6468561.656.3310.7439782.166.6620.841將lnxi.xk在正態(tài)概率圖描點,點在一條直線附近,則認為該批數(shù)據(jù)來自于正態(tài)總體。14、以下是40到83之間的24個隨機數(shù),按從大到小排列:83,79,77,75,73,72,71,70,69,67,64,63,61,60,60,59,57,56,55,53,53,50,48,47。對此數(shù)據(jù)進行正態(tài)性檢驗。解:xKXkXnDkAk14783360.449324879310.309835077270.255445375220.214555373200.180765572170.151275671150.124585770130.099795969100.076410606770.053911606440.032112616320.0107W若取α=0.05,在n=24時給出W0.0515、某收費站觀察平時經(jīng)過的車輛司機的性別(用M代表男性,用F代表女性)依次如下:MMMMMMMMMFFFFFFFFFFM,請問男、女性司機出現(xiàn)的順序是否隨機?解:設男性為1,女性為0,得到樣本序列:11111111100000000001,其中0的個數(shù)為10,1的個數(shù)為10,R=3,取α=0.05,16、抽取A、B兩個品牌的自動駕駛出租車在同一線路的平均速度如下(單位為km/h)。A品牌:34.333.537.238.432.429.835.0。B品牌:33.734.639.236.4。請問品牌B的自動駕駛出租車速度是否不小于A品牌的自動駕駛出租車的速度(α=解:要檢驗的假設為:H0:首先混合兩組樣本,由小到大排序RX129.8232.4333.5433.7534.3634.6735.0836.4937.21038.41139.2得知m=7,n=第六章1、能見度會影響司機開車的速度,在同一條道路上測定能見度好、較好、一般、較差、差時車輛的速度,每種情況都隨機抽取了4輛車的速度(單位:km/h),測定的結果列于表6-11中。試比較不同能見度下的車輛速度是否有顯著差異。表6-11不同能見度下的車輛速度能見度好較好一般較差差132.029.225.223.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7解:其中,影響因素為不同的能見度,共有5個不同水平,分別為好、較好、一般、較差和差。則r=5,n方差來源平方和自由度均方MS因素ASSArMSA誤差SSEnMSE總和SSTn得到F比值為$F=\frac{{MSA}}{{MSE}}=\frac{{43.43}}{{0.866}}{\rm{=}}50.15$$F{\r

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論