基于XGBoost-SHAP的公路貨車事故嚴重程度關鍵因素識別研究_第1頁
基于XGBoost-SHAP的公路貨車事故嚴重程度關鍵因素識別研究_第2頁
基于XGBoost-SHAP的公路貨車事故嚴重程度關鍵因素識別研究_第3頁
基于XGBoost-SHAP的公路貨車事故嚴重程度關鍵因素識別研究_第4頁
基于XGBoost-SHAP的公路貨車事故嚴重程度關鍵因素識別研究_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

緒論研究背景當前,在數(shù)字經(jīng)濟和實體經(jīng)濟深度融合的背景下,全球供應鏈體系對運輸服務的需求持續(xù)攀升。我國構(gòu)建的五維立體運輸格局中,道路貨運憑借其無可替代的靈活性、通達性和適應性,牢牢占據(jù)著區(qū)域物流配送領域的主導權。根據(jù)2023年交通運輸行業(yè)發(fā)展統(tǒng)計公報相關統(tǒng)計數(shù)據(jù)REF_Ref10508\r\h[1],截至2023年末全國擁有公路營運汽車1226.20萬輛,其中載貨汽車1170.97萬輛,全國貨物運輸總量共達557.06億噸,其中公路貨車運輸量達403.37億噸,占全國貨運總量的72.41%,貨運周轉(zhuǎn)量占比接近30%。2018—2023年6年期間全國貨物運輸量、公路貨物運輸量以及公路貨物運輸量占比REF_Ref22126圖STYLEREF1\s1-1所示然而,全國范圍內(nèi)公路運輸量的持續(xù)增長,也讓貨車事故在交通事故中的占比呈現(xiàn)持續(xù)攀升的嚴峻態(tài)勢,已成為我國道路交通安全治理的重點難點問題。由于貨車自身重量較大、夜間行駛比例較高以及存在視野盲區(qū)等原因,涉及貨車的交通事故往往會導致更為嚴重的人員傷亡和財產(chǎn)損失。根據(jù)國家統(tǒng)計局《中國統(tǒng)計年鑒》REF_Ref10580\r\h[2],我國2023年共發(fā)生254738起交通事故,事故導致60028人死亡,253895人受傷,造成直接財產(chǎn)損失11.79億元。其中,貨車涉案量占比近30%,遠高于我國貨車占全國汽車保有量總量比例,嚴重危害了人民生命財產(chǎn)安全。以南昌“1·8”重大交通事故為例,一輛嚴重超載的牽引貨車因超速行駛撞擊送葬人群,造成19人死,20人受傷,充分暴露出貨車事故的特殊危害性。因此,深入研究公路貨車事故的嚴重性及其關鍵影響因素,對于提升交通安全水平、降低人員傷亡和經(jīng)濟損失具有重要的現(xiàn)實意義。研究目的與意義研究目的本文以英國STATS事故數(shù)據(jù)庫中2020年至2023年涉及貨車的雙車碰撞事故數(shù)據(jù)為依據(jù),借助構(gòu)建多種機器學習模型,剖析并評估駕駛員行為特征、車輛狀況以及道路交通環(huán)境等關鍵危險因素對公路貨車嚴重程度的影響機制。在此基礎上,運用SHAP可解釋性技術,針對各影響因素的邊際效應展開量化分析,構(gòu)建起基于機器學習和解釋性分析的公路貨車事故嚴重程度預測模型,為制定更具針對性且有效的安全措施提供了堅實的理論基礎與數(shù)據(jù)支持。研究意義(1)理論意義近年來智能交通系統(tǒng)持續(xù)快速發(fā)展,機器學習技術在交通事故嚴重程度預測領域呈現(xiàn)出強大的應用潛力,本研究依據(jù)當前研究狀況,采用集成學習方法作為核心預測框架,引入深度神經(jīng)網(wǎng)絡等非線性模型以及邏輯回歸等傳統(tǒng)線性模型作為對比基準,構(gòu)建多層次模型評估體系,研究得出,相較于傳統(tǒng)線性建模方法,本研究融合機器學習算法與SHAP可解釋性技術,構(gòu)建的非線性預測模型突破了線性關系的限制,可更精準地描繪事故風險因素的相互作用,有效提升預測精度。SHAP技術的運用使模型結(jié)果更具可視化與透明化,可直觀地量化各個風險因素對事故嚴重性的貢獻程度,為剖析和評估各因素對事故嚴重程度的影響提供依據(jù),這種構(gòu)建不同機器學習模型對比框架并與可解釋性分析技術深度融合的研究方式,不僅拓寬了交通安全管理領域的理論視野,也為復雜系統(tǒng)分析研究提供了理論參考架構(gòu)。(2)現(xiàn)實意義本研究為提高公路貨運安全水平提供了科學依據(jù)以及實踐指導,有關鍵的現(xiàn)實意義與應用價值,借助建立可解釋的事故嚴重程度預測模型,研究結(jié)果可協(xié)助交通管理部門辨別高風險路段和時段,優(yōu)化警力部署以及道路安全配置,預計可有效降低嚴重及死亡型事故發(fā)生率。對于駕駛員培訓機構(gòu)來講,本研究成果指出致使事故的關鍵駕駛行為特征,為開發(fā)針對性培訓課程、強化防御性駕駛技能訓練給予了數(shù)據(jù)支持,從源頭上減少因駕駛員因素引發(fā)的事故,在車輛安全設計方面,本研究明確了各類車輛控制方式與事故后果的關聯(lián)性,為制造商改進車輛安全系統(tǒng)、優(yōu)化車輛結(jié)構(gòu)設計提供了關鍵參考依據(jù)。對車輛制造商而言,本研究可為其提供改進車輛安全性能的參考,依靠優(yōu)化車輛設計或者增加安全配置,可提高車輛在道路行駛過程中的安全性,貨運企業(yè)可依據(jù)本研究成果制定更為科學的車輛運輸調(diào)度方案以及駕駛員管理制度,在保證安全的前提下提升運營效率。國內(nèi)外研究現(xiàn)狀目前國內(nèi)外相關學者已經(jīng)運用了多種模型和算法針對道路交通事故嚴重程度分析方面做了大量有價值的研究。本文主要研究涉及貨車的兩車碰撞事故嚴重程度影響因素,以下將從貨車事故成因及其影響因素、事故嚴重程度預測模型構(gòu)建及模型可解釋性三個方面梳理國內(nèi)外研究現(xiàn)狀。貨車事故成因及影響因素研究現(xiàn)狀學術界專家學者針對貨車事故嚴重程度影響因素展開研究的起步較早,并已取得了豐富的研究成果,近年來,隨著數(shù)據(jù)分析技術的不斷發(fā)展,越來越多的研究開始關注多因素聯(lián)合作用對事故嚴重程度產(chǎn)生的影響,以及各因素間的交互關系。(1)國外研究現(xiàn)狀早期國外研究者主要探討了駕駛員疲勞、車輛狀況、道路條件等單一因素對貨車事故的影響。H?kk?nen和SummalaREF_Ref13904\r\h[3]對1991年至1997年期間發(fā)生的致命兩車事故中涉及拖掛卡車司機的因果因素、駕駛員責任以及疲勞相關因素進行了研究,研究表明,在長途駕駛過程中,駕駛員疲勞是導致貨車事故的重要原因之一,并且年齡和是否夜間駕駛是事故是否發(fā)生的重要影響因素。Kharrazi和ThomsonREF_Ref18003\r[4]基于大型卡車事故原因研究數(shù)據(jù)庫,分析了事故類型、失控類型、關鍵操作、車輛組合類型及不同道路特征對重型卡車事故的影響,確定了三種最常見的導致失控的關鍵操作,包括超速、剎車不當和車輛故障。隨著研究的不斷推進,國外學者針對貨車事故影響因素的研究,逐漸從定性分析轉(zhuǎn)為定量研究,開始運用多元回歸、結(jié)構(gòu)方程模型、貝葉斯網(wǎng)絡等統(tǒng)計方法,深入剖析駕駛員特征、車輛因素、道路環(huán)境因素以及交通管理因素之間存在的復雜交互關系,以及這些因素對貨車事故嚴重程度所產(chǎn)生的具體影響。MouyidREF_Ref18212\r[5]采用均值和方差異質(zhì)性混合logit模型,針對駕駛員傷害嚴重程度展開建模分析工作,以此來量化影響貨車事故傷害嚴重程度的因素。研究結(jié)果顯示,如駕駛員的身體狀況、行為模式、道路交通所有的特征以及環(huán)境條件等各類因素,都切實會對事故傷害程度產(chǎn)生一定的影響。WaskitoREF_Ref18323\r[6]運用貝葉斯網(wǎng)絡方法對HFACS(HumanFactorsAnalysisandClassificationSystem)框架下駕駛員的不安全行為及其引發(fā)的后果進行因果因素識別,并通過貝葉斯網(wǎng)絡進行逆向推理,研究認為,駕駛員違規(guī)行為對致命事故和多車事故的影響最大,且機械系統(tǒng)故障對駕駛員操作錯誤具有顯著的促進作用。ChampahomREF_Ref18454\r[7]采用決策樹(DecisionTree,DT)和基于均值及方差異質(zhì)性的混合二元邏輯回歸模型(RandomParameterBinaryLogitModelwithHeterogeneityinMeansandVariances,RPBLHMV)對影響汽車與貨車單車碰撞的因素進行了實證分析。研究結(jié)果顯示,事故嚴重程度與駕駛員性別、是否使用安全帶、安裝島、缺陷設備以及安全設備等因素有關。(2)國內(nèi)研究現(xiàn)狀當前,在我國道路貨物運輸量持續(xù)增長的形勢下,貨運車輛安全事故頻發(fā)已成為不容忽視的社會問題。學界通過整合多源事故數(shù)據(jù),運用系統(tǒng)工程的思維方法,從人因失誤、設備潛在故障、道路環(huán)境約束及惡劣氣象條件等多維度交互作用機制出發(fā),系統(tǒng)闡釋了事故致因的深層機理與演化規(guī)律,為安全管理提供了堅實的理論基礎。木拉迪里江·拜克居力REF_Ref18532\r[8]等基于文獻調(diào)研和實際事故數(shù)據(jù)分析,通過構(gòu)建交通流仿真模型,系統(tǒng)性地量化評估了不同類型不當駕駛行為對道路交通安全與運行效率的獨立及協(xié)同效應,結(jié)果表明,在各類駕駛行為中,貨車駕駛員的違規(guī)操作與過失行為對交通事故發(fā)生概率的貢獻度最為顯著。張向東REF_Ref18594\r[9]利用數(shù)據(jù)包絡分析和機器學習等方法,重點進行貨車駕駛員安全風險評估和風險因素挖掘研究,分析了年齡、駕駛經(jīng)驗等個體屬性和駕駛風格特征對駕駛安全的影響,構(gòu)建了基于多源異構(gòu)數(shù)據(jù)的貨車駕駛員安全風險評估模型,有效識別高風險駕駛員群體。王健宇等REF_Ref18738\r[10]圍繞建成環(huán)境要素與交通事故的關聯(lián)性開展研究,得出的結(jié)果顯示,季節(jié)變化以及交通模式選擇對于致死性交通事故有著正向影響,而像主干道路網(wǎng)密度、快速路覆蓋程度、工業(yè)用地占比以及道路物理隔離設施等空間要素,呈現(xiàn)出風險抑制作用。呂慶志等REF_Ref18800\r[11]運用多元統(tǒng)計技術針對重型貨車事故做專項分析,研究發(fā)現(xiàn)山區(qū)復雜線形路段是貨車事故高發(fā)區(qū)域,其中制動系統(tǒng)故障是主要風險因素,同時道路反光標識不足、車輛防護裝置失效以及燈光信號系統(tǒng)異常等隱患因素會共同提升事故風險水平。趙晨等REF_Ref18878\r[12]構(gòu)建多維度分析模型對貨車追尾事故特征進行系統(tǒng)研究,發(fā)現(xiàn)高速公路環(huán)境下重特大事故發(fā)生率呈現(xiàn)峰值特征,0時至6時時段風險等級最高,研究還指出在各類車型組合事故中,涉及重型貨車的車際碰撞事故發(fā)生頻率最為突出。事故嚴重程度預測模型構(gòu)建研究現(xiàn)狀事故嚴重程度預測模型構(gòu)建是指通過建立一系列數(shù)學統(tǒng)計模型,針對交通事故數(shù)據(jù)展開分析研究,以預測貨車事故可能造成的嚴重程度,在模型構(gòu)建過程中,研究者一般會運用多種算法和技術,以提高預測的準確性和可靠性。近些年來,隨著機器學習技術的迅速發(fā)展,國內(nèi)外學者廣泛將其運用于事故嚴重程度預測領域,使得預測精度和效率得到較大提升。國外研究現(xiàn)狀針對貨運事故嚴重性預測這一課題,國外研究者測試了多種計算智能技術的適用性。其中包括:擅長解決小樣本問題的支持向量機、抗過擬合能力突出的隨機森林算法、具有強大特征提取能力的深度神經(jīng)網(wǎng)絡,以及易于理解和實現(xiàn)的決策樹模型。Shashiprabha等REF_Ref19015\r[13]分析了導致事故的五個因素:路面狀況、道路走向、位置、天氣條件和照明效果,并采用隨機森林(RF)、決策樹(DT)、極限梯度提升(XGB)和K近鄰算法(K-NN)四種算法預測公路事故嚴重程度,并與邏輯回歸(LR)進行比較,研究結(jié)果表明,相較于邏輯回歸模型,機器學習算法在預測準確性方面展現(xiàn)出顯著優(yōu)勢。Sunkpho等REF_Ref19094\r[14]提出了三種卷積神經(jīng)網(wǎng)絡(CNN)模型的變體,用于對泰國高速公路交叉口碰撞事故的嚴重程度進行分類。研究發(fā)現(xiàn),具有dropout和L2正則化的CNN-DR模型在性能上表現(xiàn)最優(yōu)。該研究揭示了事故機制,例如與相鄰車道車輛的碰撞以及追尾事故,是導致嚴重事故可能性增加的關鍵影響因素。Khattak等REF_Ref19228\r[15]以巴基斯坦N-5國道交通事故為研究案例,提出了三種最先進的動態(tài)集成學習(DynamicEnsembleSelection,DES)算法,分別是動態(tài)集成選擇元學習(META-DES)、K近鄰消除法(KNORAE)和動態(tài)集成選擇性能(DES-P),并運用SHAP技術對風險因素進行深入的解釋性分析。研究表明,駕駛員年齡、月份、星期幾和車輛類型是影響SHAP估計的關鍵因素。具體而言,年輕駕駛員面臨較高的致命事故風險,而周末和夏季月份的交通事故導致的致命傷害更為頻繁。AldhariREF_Ref19303\r[16]針對沙特阿拉伯(KSA)高速公路事故數(shù)據(jù),運用了三種基于機器學習模型的事故嚴重性預測模型,即隨機森林、XGBoost和邏輯回歸,用于碰撞傷害嚴重性的分類,并運用SHAP分析解釋并排名了導致碰撞傷害的因素。研究結(jié)果表明,駕駛員分心是導致KSA嚴重交通事故增加的主要原因,道路類型和照明條件是影響事故嚴重程度的其他重要因素。國內(nèi)研究現(xiàn)狀為推動我國道路運輸安全發(fā)展,學界針對貨運車輛事故開展了系統(tǒng)性研究,逐步引入智能算法來預測事故損害等級并識別核心風險因子。在事故預測建模方面,研究人員整合支持向量機、集成學習算法和深度學習網(wǎng)絡等先進技術,基于真實事故數(shù)據(jù)建立了多種預測體系。豐染群REF_Ref19385\r[17]采用多源數(shù)據(jù)融合策略,基于XGBoost算法開發(fā)了事故預測模型,并運用SHAP可解釋性框架解析特征重要性。研究發(fā)現(xiàn):高速公路擁堵指數(shù)上升、上游車速波動增大時事故風險顯著提升;駕駛行為中的急加減速現(xiàn)象,特別是加速度幅值較大時,會明顯增加事故發(fā)生率。張騰REF_Ref19447\r[18]結(jié)合隨機森林、XGBoost算法和邏輯回歸算法,分析研究高速公路交通事故嚴重程度的影響因素和各個特征與事故嚴重程度的相關性。結(jié)果表明,時間、經(jīng)緯度、天氣、能見度等對于事故所造成的嚴重程度均產(chǎn)生了一定的影響作用。闞丁萍REF_Ref19646\r[19]選取了15個事故影響因素作為自變量,以事故嚴重程度作為因變量,分別構(gòu)建隨機森林、GBDT以及XGBoost模型,結(jié)果顯示,在農(nóng)村公路事故嚴重程度的模型預測方面,XGBoost模型在各個方面的指標中均表現(xiàn)最為出色。徐揚REF_Ref19737\r[20]通過構(gòu)建隨機森林和XGBoost的對比實驗架構(gòu),開發(fā)了面向高速公路場景的駕駛員壓力評估模型。研究發(fā)現(xiàn),XGBoost算法在預測準確性方面明顯優(yōu)于隨機森林,借助SHAP可解釋人工智能技術,研究進一步指出了各輸入特征與預測結(jié)果之間的非線性關系及其潛在作用機制。模型可解釋性研究現(xiàn)狀貨車發(fā)生事故后相較于其他類型的事故往往會造成更嚴重的人員傷亡和財產(chǎn)損失,在針對貨車事故嚴重性預測研究領域中,精準地對事故嚴重程度加以預測并且深入了解其產(chǎn)生影響的各類因素,對于預防嚴重事故的發(fā)生具有重要意義。傳統(tǒng)的統(tǒng)計方法在面對高維、非線性的事故數(shù)據(jù)時存在著一定程度的局限性,機器學習模型盡管可在一定程度上有效提升預測的精準度,但其“黑箱”特性卻限制了模型在實際應用中的解釋性和可接受性。針對此問題,國內(nèi)外專家學者開展了廣泛的探索與實踐工作,提出了多種方法和工具,運用可視化技術輔助直觀地理解模型的預測結(jié)果及每個特征的邊際貢獻。(1)國外研究現(xiàn)狀國外學者廣泛采用了諸如部分依賴圖(PartialDependencePlot,PDP)、局部可解釋模型-無關解釋(LocalInterpretableModel-agnosticExplanations,LIME)、梯度敏感性分析(GradientSensitivityAnalysis,GSA)以及SHAP等方法,以深入探究變量之間的因果關系與相關性。經(jīng)系統(tǒng)比較不同算法的評估結(jié)果發(fā)現(xiàn),和全局敏感性分析相比,基于博弈論的SHAP解釋器可清楚呈現(xiàn)預測結(jié)果與風險因子之間的關聯(lián)圖譜,還可以有效識別變量間潛在的非線性交互作用,這種有多維度的解釋能力提升了模型的可解釋性。在機器學習領域,特征關鍵性評估作為關鍵研究議題面臨不少挑戰(zhàn),雖說主流模型普遍采用特征關鍵性屬性來量化各特征對輸出的影響,然而該方法在解釋具體特征作用機制方面有明顯局限性。為解決此問題,SHAP解釋框架憑借構(gòu)建特征貢獻值的分配機制,從局部預測和全局模型兩個層面系統(tǒng)闡釋黑箱模型的決策邏輯,具體而言,該算法運用數(shù)學推導把預測值分解成基線值與各特征貢獻值的線性組合,其中每個變量的貢獻度有正向促進效應又有負向抑制效應,這種可加性解釋結(jié)構(gòu)為理解復雜模型的決策機制提供了理論依據(jù)。鑒于SHAP方法在決策樹模型中實現(xiàn)簡便且計算精確,它在樹集成學習模型解釋中的應用越來越廣泛。Ren等REF_Ref19816\r[21]運用XGBoost模型結(jié)合SHAP方法對美國未分隔公鐵平交道口的安全評估,研究顯示,該方法能有效建立傷害嚴重程度與風險因素之間的定量關系,其中死亡預測模型的準確率最高能達到93.36%,為交通安全管理提供了可靠的決策依據(jù)。Ismail等REF_Ref19966\r[22]在初始階段結(jié)合CatBoost模型和SHAP方法,以識別和分析風險因素對傷害嚴重程度的影響及其依賴關系;再開發(fā)了多個預測模型,并應用了與模型無關的解釋技術以區(qū)分模型的解釋性;在最終階段,對跨特征類別的系統(tǒng)級分類進行了深入分析和總結(jié),利用匯總的SHAP分數(shù)將碰撞數(shù)據(jù)分類為高層次的因果因素,闡釋了每個風險因素如何導致不同的傷害嚴重程度。Li等REF_Ref20041\r[23]利用CatBoost和XGBoost模型構(gòu)建高速公路交通安全模型,并引入SHAP值分析了幾何設計特征、交通運行特征、時間特征和土地利用等安全影響因素。研究發(fā)現(xiàn),匝道類型是影響高速公路事故頻率的最主要因素,曲線對事故的影響較大,而貨車比例對事故的影響較小,交通量與貨車比例有高度的相關性。這些發(fā)現(xiàn)為高速公路的安全運行管理和有針對性地改進措施提供了理論依據(jù)。(2)國內(nèi)研究現(xiàn)狀在模型可解釋性方面,為克服機器學習模型“黑箱”操作的局限性,許多國內(nèi)學者致力于提升模型的透明度,使其輸出結(jié)果更具可解釋性,為模型的進一步優(yōu)化和調(diào)整提供依據(jù)。陳凱亮等REF_Ref20168\r[24]在構(gòu)建了包含準確率、查準率、召回率、F-1分數(shù)等多項指標的綜合評估體系,系統(tǒng)比較了XGBoost、LightGBM、隨機森林與CatBoost四種模型的性能差異,并利用SHAP方法對XGBoost模型進行可視化分析,揭示了碰撞類型和人員類別等因素對事故嚴重程度的決定性影響。胡嫣然等REF_Ref20247\r[25]運用XGboost算法創(chuàng)建了實時事故風險預測模型,借助SHAP解釋器量化了交通流變量、道路條件、天氣狀況以及時間特征等要素對事故風險的影響權重,還探討了特征間的二維交互效應,為高速公路實時事故風險建模研究提供了依據(jù)。王譽翔等REF_Ref20302\r[26]采用CatBoost算法構(gòu)建國省道交通事故預測模型,借助SHAP算法解析發(fā)現(xiàn),駕駛分心行為及人車碰撞等六類特征與死亡事故存在顯著關聯(lián),該研究成果為國省道交通安全治理提供了理論支持。國內(nèi)外研究綜述綜合分析國內(nèi)外學者在貨車事故成因及其影響因素、事故嚴重程度預測模型構(gòu)建及模型可解釋性三個方面的研究現(xiàn)狀后,研究發(fā)現(xiàn),盡管國內(nèi)外在貨車事故預測領域均取得了顯著進展,但都面臨著一些挑戰(zhàn)與不足。(1)在貨車事故成因及影響因素分析方面,國內(nèi)外專門針對貨車事故的研究相對較少,大多數(shù)研究工作主要集中在對所有類型車輛交通事故的普遍性問題上。國外學者更注重從微觀層面探究駕駛員生心理因素對事故的影響,對于從宏觀層面分析道路條件、交通環(huán)境等因素對貨車事故的作用機制尚顯不足。國內(nèi)研究在貨車事故分析領域起步較晚,但近年來發(fā)展迅速,尤其是在結(jié)合我國道路交通實際情況,從人、車、路、環(huán)境四個維度綜合探究貨車事故成因及其影響機制方面取得了顯著成果,但是在事故數(shù)據(jù)的深度挖掘和細致分析方面仍有待加強,對于貨車事故的特殊性及其影響因素的深入探究尚顯不足。(2)在事故嚴重程度預測模型構(gòu)建領域,國內(nèi)外眾多學者廣泛運用了各類先進的機器學習算法,如XGBoost、深度森林以及卷積神經(jīng)網(wǎng)絡等,最終得到了較高的預測精度,國外的研究在算法選擇上更為多樣,在模型性能評估和優(yōu)化方面也做得更為精細,國內(nèi)研究則更注重模型的實用性和可操作性,致力于開發(fā)出可在實際道路交通管理中發(fā)揮作用的預測模型,然而在模型的泛化能力方面仍然存在著挑戰(zhàn),在面對復雜多變的道路交通環(huán)境以及貨車事故特性時,模型的預測性能有可能會受到影響。(3)在模型可解釋性研究方面,國內(nèi)外學者都采用了如SHAP、LIME等方法來提高機器學習模型的透明度,取得了一定的成果,與國外研究相比,國內(nèi)研究在模型可解釋性方面有所欠缺,對于如何利用SHAP等方法深入挖掘模型決策機制、提升模型透明度方面仍有較大提升空間。國內(nèi)研究在貨車事故成因及影響因素分析方面,雖然涉及了道路條件、交通環(huán)境、駕駛員行為等多個方面,但對于各因素之間的相互作用機制以及它們對事故嚴重程度的綜合影響仍需進一步深入研究。本文將重點研究涉及貨車的雙車碰撞事故,深入剖析此類事故的成因及影響因素,構(gòu)建更為精準的事故嚴重程度預測模型,并運用SHAP等方法提升模型的可解釋性,期望能為我國道路交通安全水平的提升提供理論支持與科學依據(jù)。研究內(nèi)容與技術路線研究內(nèi)容基于對公路貨運車輛運行安全狀態(tài)的調(diào)查研究與數(shù)據(jù)采集,本研究系統(tǒng)梳理了國內(nèi)外學者在貨車事故致因領域的研究進展,著重剖析了貨車與乘用車、貨車與貨車兩類典型碰撞事故的形態(tài)特征。通過構(gòu)建多維分析框架,研究從駕駛行為個體差異、車輛特性、道路基礎設施及環(huán)境變量四個層面,深入探究了上述因素對公路貨運相關兩車碰撞事故損害程度的交互影響機制,采用隨機森林和XGBoost算法,精確量化各危險因素對事故嚴重程度的邊際貢獻,并據(jù)此建立定量評估模型,最終構(gòu)建出以機器學習和解釋性分析為基礎的公路貨車事故風險預測模型,提出了相應的干預策略,為公路安全管理提供科學依據(jù)。文章主體內(nèi)容共分為六個章節(jié),各章節(jié)的組織架構(gòu)和主要研究內(nèi)容如下:第一章緒論。介紹研究背景和目的,總結(jié)關于基于機器學習和SHAP的關鍵危險因素對公路貨車事故嚴重程度影響國內(nèi)外相關研究成果,在此基礎上提出研究公路貨車事故嚴重程度影響的重要性及具體內(nèi)容,并闡述研究方法和技術路線。第二章事故數(shù)據(jù)預處理。闡述事故的來源,詳細剖析了事故數(shù)據(jù)特征篩選、缺失值處置、異常值處置、數(shù)據(jù)標準化等數(shù)據(jù)清洗和預處理技術的關鍵環(huán)節(jié),以保障數(shù)據(jù)的質(zhì)量與一致性,預處理后事故數(shù)據(jù)將作為后續(xù)統(tǒng)計分析、特征選擇、模型構(gòu)建以及影響因素機制剖析的基礎。第三章事故統(tǒng)計分析及特征選擇。本章節(jié)在前文的基礎上,闡釋道路交通事故與貨車等定義,再從時空、人、車輛、道路、環(huán)境等維度著手,針對預處理后的數(shù)據(jù)展開初步統(tǒng)計分析工作,以確定它們對事故影響的初步評估結(jié)果,然后,通過包裝法、過濾法等一系列特征選擇流程來確定最終用于事故預測的特征集,以提升模型的預測能力。第四章事故嚴重程度預測模型構(gòu)建。本章首先介紹集成學習、深度學習和傳統(tǒng)線性模型三類模型的核心原理與評價指標,同時闡述不平衡數(shù)據(jù)集的采樣方法,針對樣本數(shù)據(jù)分布不均衡的問題,采用數(shù)據(jù)平衡化處理方法,以提升各類機器學習模型在分類任務中的適用性和性能表現(xiàn)。在此基礎上,運用集成學習、深度學習以及傳統(tǒng)線性模型三類不同的算法構(gòu)建來公路貨車事故嚴重程度預測模型,統(tǒng)一借助貝葉斯超參數(shù)優(yōu)化方法對模型進行優(yōu)化,通過對各模型的預測結(jié)果進行比較和分析,選出最優(yōu)的事故嚴重程度預測模型。第五章基于SHAP的模型可解釋性分析?;赟HAP可解釋性框架,本章采用由全局至個體再到特征交互作用的多層次分析方法,系統(tǒng)量化評估各危險因素對事故嚴重程度的影響機制,通過不同維度的解釋性分析,不僅揭示了單一因素的重要性,更深入探討了多因素間的交互作用,從而全面闡釋貨車事故影響因素與事故嚴重程度之間存在的復雜關聯(lián)關系。結(jié)果表明,在造成死亡類型事故的因素中,道路因素對事故嚴重性具有顯著影響,事故發(fā)生時間、車速限制、道路等級、交叉口位置等特征對于死亡類型事故的影響最為明顯。第六章總結(jié)與展望。歸納與概述全文所開展的研究工作,闡明本研究的創(chuàng)新點,對后續(xù)研究工作進行展望,并針對本文存在的不足之處,探討后續(xù)有可能的優(yōu)化方向。事故數(shù)據(jù)預處理本章節(jié)主要介紹了事故的具體來源詳細剖析了事故數(shù)據(jù)特征篩選、缺失值處置、異常值處置、數(shù)據(jù)標準化等數(shù)據(jù)清洗和預處理技術的關鍵環(huán)節(jié),以保障數(shù)據(jù)的質(zhì)量與一致性,經(jīng)過預處理的事故數(shù)據(jù)將作為后續(xù)統(tǒng)計分析、特征選擇、模型構(gòu)建以及影響因素機制剖析的基礎。事故來源及適用性分析現(xiàn)有文獻檢索結(jié)果顯示,針對我國交通事故嚴重程度影響因素的研究成果較少,這主要是因為國內(nèi)交通事故數(shù)據(jù)很難獲取且數(shù)據(jù)質(zhì)量較低。因此,本實驗選擇數(shù)據(jù)精度更高的英國STATS事故數(shù)據(jù)庫中的2020—2023年的事故數(shù)據(jù),以期深入了解貨車事故嚴重程度的致因理論。作為標準化的結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),STATS數(shù)據(jù)庫在年度數(shù)據(jù)采集過程中采用模塊化架構(gòu)設計,具體由三大核心數(shù)據(jù)模塊構(gòu)成:事故特征數(shù)據(jù)模塊、車輛屬性信息模塊以及人員傷亡特征模塊,每個模塊由“accident-index”和“accident-reference”字段鏈接。由于中英兩國在社會制度與發(fā)展階段上存在明顯不同,本研究在數(shù)據(jù)預處理階段采取差異化處理策略,優(yōu)先排除國情相關性過強的指標,重點聚焦事故機理中的共性要素與車輛基礎參數(shù)展開分析。初步選取的事故特征數(shù)據(jù)、車輛數(shù)據(jù)的具體分類及變量解釋分別見REF_Ref14695\h表STYLEREF1\s2-1和REF_Ref14711\h表STYLEREF1\s2-2。數(shù)據(jù)預處理分析數(shù)據(jù)集成數(shù)據(jù)集成步驟涉及使用python編程。在完成數(shù)據(jù)適用性分析并篩選出相關數(shù)據(jù)特征后,這些特征被保存在每年的事故特征數(shù)據(jù)庫和車輛信息數(shù)據(jù)庫中。由于本次實驗研究的數(shù)據(jù)覆蓋了202年至2023年四年的時間范圍,本實驗選擇通過“accident-index”字段來匹配每年的事故特征數(shù)據(jù)庫和車輛信息數(shù)據(jù)庫,并將生成的大文件中重復的字段,如accident-index、accident-year等刪去,從而得到每年的事故數(shù)據(jù)。隨后,將這四年的數(shù)據(jù)文件進行整合,初步構(gòu)建出2020—2023年所有事故的完整信息數(shù)據(jù)庫。數(shù)據(jù)篩選STATS事故數(shù)據(jù)庫對涉及事故的車輛類型進行了分類和編碼,部分車輛分類和標簽說明如下REF_Ref3780\h表STYLEREF1\s2-3所示。由上表可知,數(shù)據(jù)庫所收錄的交通事故涉及多種車輛類型,包括但不限于自行車、摩托車、乘用車、貨運車輛、公共汽車以及有軌電車等,本研究重點關注貨運車輛參與的兩車碰撞事故類型,即汽車-貨車、貨車-貨車事故,貨車分類為最大總重在3.5噸及以下、3.5噸—7.5噸、7.5噸及以上和噸數(shù)未知四種類型,汽車類型編碼為“9”,所以需要篩選出編碼為“9、19、20、21、98”的車輛。由于本研究聚焦于涉及貨車的兩車碰撞事故數(shù)據(jù)類型,本文數(shù)據(jù)篩選流程如下:首先,在篩選出車輛編碼的數(shù)據(jù)庫中,進一步篩選出標記為“vehicle-numbers=2”的事故記錄,即兩車碰撞事故;其次,根據(jù)“accident-index”字段將碰撞涉及的兩車數(shù)據(jù)進行重新匹配,篩選并保留涉及貨車-貨車、汽車-貨車車輛類型的事故數(shù)據(jù)。最后,通過“accident-index”字段對數(shù)據(jù)進行核查,排除存在重復值及單個值的無效數(shù)據(jù),并確保每個“accident-index”字段均對應兩行不重復的事故信息。數(shù)據(jù)清洗(1)缺失值處理由于統(tǒng)計問題或數(shù)據(jù)記錄過程中的疏忽,數(shù)據(jù)集中可能會存在一些缺失值。這些缺失值如果未經(jīng)處理,可能會在分析過程中引入偏差,影響結(jié)果的準確性。分析初始得到的貨車-貨車、汽車-貨車數(shù)據(jù)集,發(fā)現(xiàn)有較多因素變量中存在些許缺失值,STATS數(shù)據(jù)庫中,將數(shù)值為“-1”的數(shù)據(jù)標記為“datamissingoroutofrange”,即數(shù)據(jù)缺失,同時部分變量因素中存在編碼為“unknown”的缺失值,例如“weather_conditions”中數(shù)值為“9”的數(shù)據(jù)和數(shù)值為“-1”的數(shù)據(jù)均代表數(shù)據(jù)缺失,需要對這些缺失值進行統(tǒng)計分析及相應的處理。為了方便統(tǒng)計缺失值,本研究選擇將編碼為“unknown”的數(shù)值全部轉(zhuǎn)化為“-1”的形式,故而在數(shù)據(jù)集中所有標記為“-1”的數(shù)據(jù)均代表缺失值。在此基礎上,對整個數(shù)據(jù)集的缺失值進行統(tǒng)計,如REF_Ref3878\h表STYLEREF1\s2-4。在有關交通事故數(shù)據(jù)對于缺失值處理的工作中,直接刪除法是目前最常規(guī)的處理方式,但該方法存在一定的局限性,當數(shù)據(jù)集存在較多缺失值時,采用直接刪除策略不僅會造成樣本量的急劇縮減,更可能導致關鍵信息的嚴重流失,進而對分析結(jié)果的穩(wěn)健性與可靠性產(chǎn)生負面影響。因此,本實驗在處理缺失值時,綜合考慮缺失值的數(shù)量及缺失值比例,選擇合適的處理方法:對于缺失率在0.1%以下的數(shù)據(jù),如“urban_or_rural_area”“second_road_class”等缺失率極低的數(shù)據(jù),其缺失數(shù)值遠低于樣本量,可直接刪除;對于缺失率較低,且屬于分類屬性的數(shù)據(jù),如“road_type”“trunk_road_flag”等,選擇采用眾數(shù)填充法作為數(shù)據(jù)插補處理方法;對于缺失率較低,且屬于數(shù)值屬性的數(shù)據(jù),如“age_of_driver”“age_of_vehicle”等,選擇采用均值填充法;對于缺失率超過40%的數(shù)據(jù),如“journey_purpose_of_driver”“enhanced_casualty_severity”等,缺失情況過于嚴重,進行填充可能會對數(shù)據(jù)分析結(jié)果產(chǎn)生較大影響,考慮刪除這些變量。(2)異常值處理異常值指數(shù)據(jù)集中存在的不合理的值,雖然出現(xiàn)概率較低,但此種偏離正常范圍的值會影響事故影響分析,在數(shù)據(jù)預處理過程中應予以重視。其中,3σ原則建立在正態(tài)分布假設之上,當某一測量值的殘差絕對值超過3倍標準差時,就可以判定其為異常數(shù)據(jù)并將其剔除,箱線圖法基于數(shù)據(jù)集的四分位數(shù)構(gòu)造箱體結(jié)構(gòu),加上延伸的觸須線以此來直觀地呈現(xiàn)數(shù)據(jù)分布特征,這種較為簡潔的可視化方法能有效地識別數(shù)據(jù)集中的潛在異常點,一般會把上下觸須邊界定義為數(shù)據(jù)分布的合理范圍,只要是超出這個范圍的觀測值,不管是位于上限外側(cè)還是下限外側(cè),都可判定為是需要重點關注的離群值。本實驗選擇結(jié)合3σ原則和箱線圖的方法對數(shù)據(jù)屬性為數(shù)值型的數(shù)據(jù)進行異常值檢測,如下REF_Ref4091\h圖STYLEREF1\s2-1和REF_Ref4117\h圖STYLEREF1\s2-2所示。從REF_Ref4091\h圖STYLEREF1\s2-1可以看出,“age-of-vehicle”和“age-of-driver”兩個屬性中存在一些明顯偏離大多數(shù)數(shù)據(jù)點的值,車齡超過22.58以及駕駛員年齡超過86.12的數(shù)據(jù)即為3原則檢測出的異常值。REF_Ref4117\h圖STYLEREF1\s2-2(a)展示了“age-of-vehicle”根據(jù)箱線圖方法繪制檢測異常值的結(jié)果。從圖中可以看出,箱線圖與3原則檢測結(jié)果相似,存在一些明顯偏離正常分布范圍的數(shù)據(jù)點。圖2-2(b)則展示了“age-of-driver”屬性的異常值檢測結(jié)果,駕駛員年齡超過82歲的數(shù)值即為異常值,共451個。結(jié)合以上兩種方法及英國實際情況,本研究選擇刪去車齡大于40、駕駛員年齡小于16或大于82歲的數(shù)據(jù)所在的索引標簽行。數(shù)據(jù)轉(zhuǎn)換(1)數(shù)據(jù)轉(zhuǎn)換對于數(shù)值類型的數(shù)據(jù),如“age_of_driver”“age_of_vehicle”等,分布不符合分析要求,需要進行適當?shù)臄?shù)據(jù)轉(zhuǎn)換。在英國STATS數(shù)據(jù)庫中,對“age_of_driver”按每五年進行分段,例如將16-20歲、21-25歲等分別編碼為4、5等,以便更好地分析駕駛員年齡對事故的影響。對于“age_of_vehicle”,本研究選擇參考以上方法并結(jié)合箱線圖異常值檢測結(jié)果,對車齡在20以下的車輛按每4年進行分段,車齡在20以上的車輛統(tǒng)一編碼為“6”,并將此類編碼保存于age_bandof_vehicle中,以便更細致地分析車齡對事故的影響。對于分類屬性的數(shù)據(jù),如“speed-limit”,其在數(shù)據(jù)集中的代碼為20、30、40、50、60、70,分別代表不同的速度限制,為了更直觀地分析速度對事故的影響,本研究選擇將這些代碼轉(zhuǎn)化為對應的速度區(qū)間,如20-30的數(shù)據(jù)視為低速編碼為1,并將此類描述保存于“speed”中。其中,編碼1代表低速,編碼2代表中速,編碼3代表高速。(2)時間格式轉(zhuǎn)換在交通事故數(shù)據(jù)分析工作中,時間因素往往是一個關鍵的考量維度。為了能較好地分析不同時間段以及季節(jié)對貨車碰撞事故所產(chǎn)生的影響,本研究選擇將時間格式的數(shù)據(jù),如“date”“time”等,分解為一天之中的不同時段和一年中的不同月份。為了獲取季節(jié)性變化對事故的影響情況,選擇將月份字段進一步轉(zhuǎn)換為季節(jié)信息。根據(jù)英國的地理位置和氣候特點,將一年劃分為四個季節(jié):春季(4月至6月)、夏季(7月至9月)、秋季(10月至12月)和冬季(1月至3月),部分轉(zhuǎn)換結(jié)果如下REF_Ref13874\h表STYLEREF1\s2-5所示:處理后的數(shù)據(jù)集共25255條事故信息,涉及50510輛碰撞車輛及對應數(shù)量的駕駛員。由于駕駛員及車輛特征包含多個變量,為降低數(shù)據(jù)維度的復雜性,本研究考慮對每條事故涉事車輛相關信息進行處理,按照“一行記錄對應一個車輛和一個駕駛員的原則”將每條事故分為兩行記錄,有效簡化了數(shù)據(jù)結(jié)構(gòu),為后續(xù)分析建立了規(guī)范化的數(shù)據(jù)基礎。本章小結(jié)本章聚焦于事故數(shù)據(jù)的預處理工作,對數(shù)據(jù)清洗等關鍵步驟展開了較為細致的探討,為后續(xù)的分析工作構(gòu)筑了可靠的數(shù)據(jù)根基。首先,闡述了事故數(shù)據(jù)的來源及其適用性,然后,嚴格按照數(shù)據(jù)清洗的核心環(huán)節(jié)進行數(shù)據(jù)處理,包括事故數(shù)據(jù)特征的篩選、缺失值與異常值的處理以及數(shù)據(jù)標準化等步驟,以此來保障數(shù)據(jù)的完整性與準確性。經(jīng)過上述預處理操作后的事故數(shù)據(jù),將為后續(xù)的統(tǒng)計分析、特征選擇、模型構(gòu)建以及影響因素機制分析提供支持。事故統(tǒng)計分析及特征選擇為探索貨車對于公路的交通影響,提升模型預測能力,本章節(jié)在前文的基礎上,從時空、人、車、路、環(huán)境這五個維度出發(fā),結(jié)合貨車的固有風險特性,對預處理完畢的數(shù)據(jù)進行初步統(tǒng)計分析,以確定它們對事故影響的初步評估。然后,通過包裝法、過濾法等特征選擇過程確定用于事故預測的最終特征集。相關概念界定道路交通事故,是指在公共通行區(qū)域參與交通活動的各類主體,包括機動車駕駛?cè)?、行人、乘客及其他相關人員,由于未能遵守《中華人民共和國道路交通安全法》及相關道路交通管理法規(guī)、規(guī)章的規(guī)定,因過失行為導致人員傷亡或財產(chǎn)損失的意外事件REF_Ref20410\r[27]。道路交通事故依據(jù)我國現(xiàn)行道路交通安全法,現(xiàn)行法律框架下對道路交通事故的等級劃分主要依據(jù)事故嚴重程度,將其系統(tǒng)性地劃分為四個等級,具體分類情況如下REF_Ref14127表STYLEREF1\s3-1道路交通事故分類:貨車定義與分類貨車,又稱載貨汽車或者卡車,是主要功能用于運送貨物的汽車,有時也可指代可牽引其他車輛的汽車,屬于商用車輛這一類別,一般貨車有較大的載重能力以及貨車或掛車的結(jié)構(gòu),這與載客車輛,例如轎車、客車,存在明顯區(qū)別,國內(nèi)對于貨車分類的問題,多數(shù)標準是依據(jù)車輛的長度、重量、載重等因素來劃分,不過這些標準并不統(tǒng)一。美國公路貨車按照車輛總重等級分類,將貨車分成了8個等級,其中1到3級屬于輕型貨車,4到6級是中型貨車,7到8級為重型貨車REF_Ref20524\r[28],具體分類結(jié)果見REF_Ref6262\h表STYLEREF1\s3-2:在我國,根據(jù)《收費公路車輛通行費車型分類》(JT/T489-2019)的規(guī)定,我國貨運車輛的分類體系主要基于車輛軸數(shù)、整車長度以及核定最大載質(zhì)量三項核心指標,將貨車劃分為六個具體類別,具體分類結(jié)果見下REF_Ref14983表STYLEREF1\s3-3收費公路車輛通行費貨車車型分類。貨車的風險固有特性基于海因里希事故因果連鎖理論REF_Ref27982\r\h[29],公路貨車事故的發(fā)生機制可視為由多重風險因素依序作用而形成的因果鏈式反應,這一理論表明,貨運車輛的事故往往是由多種風險因素共同作用所導致的。因此,研究分析公路貨車事故特征必須立足于貨車本身固有的風險特性,可將影響公路貨車運行安全的風險因素歸納為以下四個維度:駕駛行為風險因素作為公路貨運交通系統(tǒng)的直接貨車駕駛員既是貨運車輛交通運行的參與者,更是公路貨車事故的承擔者。通過對以往涉及貨車的交通事故的數(shù)據(jù)統(tǒng)計分析發(fā)現(xiàn),貨車在公路交通運行中發(fā)生交通事故多與駕駛員的不良操作習慣有關。例如,長時間駕駛導致的疲勞、跟車距離過近、開車時注意力分散(如使用手機、聊天)、不規(guī)范操作(如急剎、強行變道)等,都是常見誘因。車輛工程風險特性從車輛工程學的角度分析,貨車由于其特有的質(zhì)量-結(jié)構(gòu)特性,存在顯著的安全風險。具體表現(xiàn)為:荷重越大,制動越困難;質(zhì)心高、視線高,易傾側(cè)失穩(wěn);右側(cè)盲區(qū)范圍達3.8—5.5m,轉(zhuǎn)彎時擴大至7.2m,在高速轉(zhuǎn)向時更容易失控、側(cè)翻或相撞。其中,未裝ABS的貨車在μ<0.4的低附著路面,方向失控風險增加3.2倍,更容易發(fā)生交通事故。載貨管理風險特性貨運車輛在運輸期間,因受經(jīng)濟利益的影響,貨車司機普遍存在超重情況,依據(jù)牛頓第一運動定律,當貨運車輛載重超過一定限定數(shù)值,貨車的運動慣性會呈現(xiàn)非線性增長,更易致使制動失效以及車架機構(gòu)過載損傷等運行風險,另外貨物固定不妥、裝運特殊貨物也會使事故風險性增加。當貨物固定不恰當,駕駛員急剎車時貨物很容易向前移動撞擊駕駛室,或者因堆積不均勻致使轉(zhuǎn)彎時發(fā)生側(cè)翻。道路環(huán)境風險特性貨車的安全行駛高度依賴路況,具體而言,雨天路面濕滑產(chǎn)生的低附著路面系數(shù)容易導致制動失效貨車側(cè)翻等風險。夜間照明不足的條件下,駕駛員的視認距離遠不及白天,反應時間也會相應延長0.5—1.2秒,更容易因突發(fā)狀況措手不及。長下坡、急拐彎等高風險路段對貨車司機的挑戰(zhàn)極大,操作稍有不慎就很可能導致車輛失控。在混合交通流環(huán)境中,小車隨意變道、行人突然橫穿等行為都會增加貨車司機的駕駛難度,稍有不慎就可能釀成事故。公路貨車事故致因統(tǒng)計分析基于前述內(nèi)容,交通事故的發(fā)生往往由多種風險因素共同作用所導致,貨車作為道路交通的主要參與者,其事故致因同樣復雜多樣,本節(jié)擬從時空、駕駛員特征、車輛特征、道路特征、環(huán)境特征等五個維度展開分析,以確定各特征對事故影響的初步評估。時空維度分析本節(jié)將從事故發(fā)生年份、事故發(fā)生區(qū)域、事故發(fā)生時間、事故發(fā)生時段等內(nèi)容對處理后的數(shù)據(jù)進行統(tǒng)計分析,以揭示事故在不同時間和空間上的分布規(guī)律駕駛員主導因素根據(jù)現(xiàn)有研究數(shù)據(jù)顯示REF_Ref20704\r[30],在道路交通事故成因分析中,人為因素占據(jù)主導地位,尤其以機動車駕駛員的違規(guī)操作對交通安全構(gòu)成最為顯著的威脅。國際駕駛員行為研究學會(IDBRA)開展的跨國實證研究表明,如REF_Ref29853\h表STYLEREF1\s3-8所示,不同地域的交通事故中約65%由駕駛員直接過失引發(fā),另有25%源于駕駛員與道路環(huán)境的交互作用,值得注意的是,超過九成的事故案例均與駕駛員的操作失誤存在不同程度的關聯(lián)性REF_Ref20890\r[31]。貨車作為機動車中體積最大、質(zhì)量最重的車型,其駕駛員的操作失誤往往會造成更為嚴重的后果。有學者通過對國內(nèi)某貨運平臺560輛貨車的行車數(shù)據(jù)研究,得到了在駕駛員駕駛期間存在的危險駕駛行為REF_Ref18594\r[9]。其中,容易導致道路交通事故的駕駛員因素包括激進駕駛、車道偏離、臨近碰撞等風險駕駛行為與疲勞駕駛、分心駕駛等異常行為狀態(tài)。在復雜的道路環(huán)境中,貨車駕駛員需要在短時間內(nèi)完成“感知-判斷-決策-執(zhí)行”的完整認知過程,這既考驗著駕駛員的生理機能,也檢驗著其心理素質(zhì),任何一個環(huán)節(jié)偏差都可能導致嚴重的后果。數(shù)據(jù)集中涉及駕駛員特征的數(shù)據(jù)主要包括駕駛員性別、駕駛員年齡段等,這些數(shù)據(jù)對于分析和理解事故風險具有重要意義,下面將從這兩個方面分別進行統(tǒng)計分析:車輛影響因素車輛作為交通事故的主體,是引發(fā)交通事故的關鍵因素之一,在數(shù)據(jù)統(tǒng)計中,因純粹車輛故障直接引發(fā)的交通事故,其所占比例僅為15%至20%,但這類事故往往會造成最為嚴重的生命財產(chǎn)損失,而這一特性在貨車事故當中呈現(xiàn)得非常明顯。數(shù)據(jù)集中有關車輛特性的數(shù)據(jù)有車輛行駛年限和車輛控制方式兩種特征。其中,車輛行駛年限已根據(jù)車齡進行了分段編碼,而車輛控制方式則包括掉頭、停車、轉(zhuǎn)彎、變道等不同形式。道路條件因素道路條件對貨車行駛安全的影響主要體現(xiàn)在道路線形特征和路面狀況兩個關鍵方面。道路線形屬于影響貨車行駛安全的關鍵要素范疇,主要包含平面線形、縱斷面線形以及線形組合這三個方面,平曲線半徑越大,駕駛員的視野會變得更加開闊,交通事故的發(fā)生幾率會相應降低??v斷面線形設計主要涉及坡長、最大縱坡、豎曲線半徑,相關研究表明,縱坡絕對值處于3%至4%之間時事故率最低,當坡度絕對值超過4%,坡度越大,交通事故率越高。良好的路面狀況需要同時滿足平整度與抗滑性這兩項核心指標,這對于保障貨車行駛安全十分關鍵,路面不平整會讓貨車行駛時產(chǎn)生顛簸,這增加了駕駛員的駕駛難度,又可能致使貨車部件出現(xiàn)額外磨損,特別是輪胎和懸掛系統(tǒng)。長時間在不平整路面行駛,會加快這些關鍵部件的老化,增加貨車發(fā)生故障的風險。路面的抗滑性直接關乎貨車在濕滑條件下的制動性能和行駛穩(wěn)定性,當路面抗滑能力不足時,貨車制動時可能出現(xiàn)滑移,制動距離延長,甚至導致制動失效。整理所得的數(shù)據(jù)集則包括了道路行政等級、道路類型、車速限制、是否為主干道以及路面環(huán)境等特征類型,下面將分別對這幾部分因素造成不同嚴重程度事故進行統(tǒng)計分析。道路行政等級英國道路行政等級一般分為高速公路(motorway)、干線公路(A級)、地方公路(B級)、低等級道路(C級)等類別,分析不同道路行政等級事故嚴重程度可知,干線公路發(fā)生事故率遠高于其他等級公路,共發(fā)生12525起,占比近半,且干線公路發(fā)生死亡性事故比例遠高于其他等級公路,具體數(shù)據(jù)見下REF_Ref29071表STYLEREF1\s3-13:車速限制為了便于統(tǒng)計,前文已將不同限速值(mph)進行了分類,其中低速為20-30mph限速值,中速為40-50mph限速值,高速為60-70mph限速值,不同限速值發(fā)生事故嚴重程度統(tǒng)計見下REF_Ref29410表STYLEREF1\s3-15,分析可得低限速值公路發(fā)生事故數(shù)最高,共發(fā)生11802起,占比約46.73%,但發(fā)生死亡類型事故僅50起,占低速事故的0.42%,而高限速值公路發(fā)生事故次多,并且其死亡和嚴重受傷占比遠超其他限速值公路。分析道路是否為主干道所發(fā)生的事故嚴重程度可知,道路為非主干道時發(fā)生的事故數(shù)占比遠多于主干道上發(fā)生的事故數(shù),其中非主干道涉及汽貨碰撞事故數(shù)共20503起,占比81.18%,但主干道上發(fā)生死亡的事故占比多于非主干道,具體統(tǒng)計數(shù)據(jù)見下REF_Ref29629表STYLEREF1\s3-16:路面環(huán)境從不同路面環(huán)境來看,干燥的路面環(huán)境發(fā)生交通事故數(shù)最多,共18115次,占比71.73%。有積雪或霜凍的路面環(huán)境發(fā)生事故率雖然占比較少,但是一旦發(fā)生,其事故嚴重程度往往較高,尤其是死亡和嚴重受傷事故的頻率顯著高于其他路面環(huán)境。這可能是因為在積雪或霜凍的路面上,車輛的操控性能會大幅下降,駕駛員的視線也會受到影響,導致事故風險增加。具體統(tǒng)計情況見下REF_Ref29727表STYLEREF1\s3-17:外部環(huán)境因素外部環(huán)境對貨車行駛安全的影響不容忽視,主要包括道路照明條件、天氣條件、季節(jié)氣候條件等。這些因素相互作用,顯著增加了貨運過程中的風險系數(shù)。道路照明條件從事故發(fā)生時的道路照明條件來看,白天發(fā)生事故數(shù)較多,共發(fā)生事故19934起,占比78.93%。夜間無光照條件下發(fā)生事故占比雖較小,但一旦發(fā)生,其嚴重程度往往較高,尤其是死亡和嚴重受傷事故的頻率顯著高于有光照條件。這可能與夜間無光照時,駕駛員視線受限、反應時間延長、車輛操控性能下降等因素有關。具體數(shù)據(jù)見下REF_Ref29949表STYLEREF1\s3-18:天氣條件從事故發(fā)生時的天氣條件來看,晴天時發(fā)生事故數(shù)最多,共21025起,占比83.25%,雨天發(fā)生事故數(shù)次多,共3238起,占比12.82。雪天和霧天發(fā)生事故總數(shù)占比雖小,但是往往事故嚴重程度最高,具體數(shù)據(jù)統(tǒng)計見下REF_Ref30093表STYLEREF1\s3-19:季節(jié)氣候條件對比事故發(fā)生時所處的不同季節(jié)發(fā)現(xiàn),四個季節(jié)發(fā)生事故數(shù)大致相當,且各嚴重程度占比也大致相當,可考慮刪去此特征值。具體統(tǒng)計數(shù)據(jù)見下REF_Ref30240表STYLEREF1\s3-20:特征選擇數(shù)據(jù)預處理及事故致因初步分析后,為進一步篩選出對交通事故嚴重程度有顯著影響的特征,還需采用特征選擇,以選出最終特征變量進行模型預測。特征選擇屬于機器學習中關鍵的數(shù)據(jù)處理環(huán)節(jié),其目的在于從原始特征集合當中挑選出最具判別能力的特征,主要囊括過濾法、包裝法以及嵌入法這三種方式。過濾法作為基于統(tǒng)計量化的特征選擇辦法,其核心手段是依據(jù)統(tǒng)計指標去評估每個特征和目標變量之間的相關性,并且獨立于模型,可迅速篩選特征,減輕后續(xù)計算的負擔。包裝法把特征選擇當作搜索優(yōu)化問題,主要借助訓練模型來評估不同特征間的性能,適用于有復雜非線性關系的數(shù)據(jù)集,嵌入法是把特征選擇融入模型的訓練進程,借助模型自身的優(yōu)化機制來自動選取關鍵的特征,不過存在一定的模型依賴性,還需要額外進行調(diào)參,增加了計算成本,本文選擇將過濾法與包裝法這兩種特征選擇方法相結(jié)合,對特征給予篩選和優(yōu)化。過濾法過濾法在分類任務中常采用卡方過濾、互信息和方差閾值等方法,在回歸任務中則采用Pearson相關系數(shù)、Spearman相關系數(shù)等方法,兼具高效性和可解釋性,本文選擇結(jié)合方差閾值、卡方過濾等分類方法和Pearson相關系數(shù)的回歸方法來初步選擇有意義的特征變量。(1)方差閾值如下REF_Ref30475表STYLEREF1\s3-21所示,為數(shù)據(jù)集中不同特征變量的方差,該值反映了單個特征變量的離散程度。分析不同特征變量的方差發(fā)現(xiàn),大部分特征方差較大,為強方差特征,對于模型訓練具有較高價值。對于方差低于0.5的特征,如trunk_road_flag、sex_of_driver等,波動較小,對于目標變量accident_severity的預測能力較弱,可以考慮刪去。(2)卡方過濾卡方過濾,即Chi-SquareFilter,是一種依靠統(tǒng)計檢驗的特征選擇辦法,適用于分類任務,它會計算每個特征跟目標變量之間的卡方值(Chi2-Score)以及P值(P-value),以此評估特征對目標類別的區(qū)分能力,篩選出較大性高的特征,若卡方值越大,同時P值越小,則說明特征跟目標的關聯(lián)性越強,對目標變量的預測能力同樣越強。部分特征的卡方值和P值數(shù)據(jù)見下REF_Ref30677表STYLEREF1\s3-22:本研究中,選擇P值為0.5,超過這一閾值,則視為該特征變量與目標特征相關性很小,可考慮將其從特征集中排除。從上表可以看出,“urban_or_rural_area”“second_road_class”“special_conditions_at_site”等特征的P值均遠小于0.05,表現(xiàn)出與目標變量“accident_severity”有極強的關聯(lián)性,“sex_of_driver”“hit_object_in_carriageway”等特征的P值也小于0.5,表現(xiàn)出與目標變量有較強的相關性,而“carriageway_hazards”和“day_of_week”這兩個特征變量卡方值偏高,可以考慮刪除這兩個特征變量,以減少數(shù)據(jù)噪聲。(3)Pearson相關系數(shù)Pearson相關系數(shù)γ在統(tǒng)計學里用于衡量兩個連續(xù)變量之間線性相關性的強度以及方向,取值范圍一般是在-1至1之間。若兩個特征變量的相關系數(shù)很高,則證明兩者之間存在冗余情況,有可能引發(fā)模型訓練時的多重共線性問題,影響模型的預測精度與穩(wěn)定性。本文借助繪制Pearson熱力相關圖來將各變量之間的線性相關性進行可視化呈現(xiàn),下REF_Ref31481圖STYLEREF1\s3-3,在本研究中,選取0.7作為相關系數(shù)的閾值來對特征加以篩選,以此去除高度相關的冗余特性。從圖中可以看出,變量之間基本上不具備強相關性,但“junction_detail”和“second_road_class”兩個特征變量之間的相關系數(shù)為0.74,具有較強的相關性,可以考慮刪去其中之一。包裝法通過上述過濾法對特征變量的初步篩選后,本研究選擇采用包裝法進一步篩選有意義的變量。不同于過濾法和嵌入法,包裝法可以直接依賴于模型的預測能力來篩選特征,能獲得更好的模型表現(xiàn)。常用方法有前向選擇、后向消除、遞歸特征消除等。為精確選擇有意義的特征變量,本研究結(jié)合Boruta和RFECV兩種算法,經(jīng)過交叉驗證+統(tǒng)計驗證的雙重過濾,可以彌補單一方法的局限性,從而得到特征重要性評估和模型性能優(yōu)化的雙重保證。(1)Boruta算法Boruta算法是一種基于統(tǒng)計顯著性檢驗的特征選擇方法,由KursaBM等REF_Ref19653\r\h[32]在2010年提出。得益于隨機森林算法,Boruta算法對非線性關系和交互作用具有高度敏感,并且能夠自動確定特征的重要性閾值,避免了人為設定閾值的主觀性,適用于高維數(shù)據(jù)集的特征選擇。該算法的基本方法是通過構(gòu)建“影子特征”作為對照,來識別真正重要的特征,核心思想是“如果一個特征的重要性顯著高于隨機噪聲,則認為它是重要的”。若該特征變量的重要性高于影子特征,則返回“True”,反之,則返回“False”。在本研究中,將采用Boruta算法對特征進行進一步篩選,以得到對交通事故嚴重程度有顯著影響的特征變量,該算法對部分特征變量的選擇如下REF_Ref19728\h表STYLEREF1\s3-23:從上表可知,最終有9個特征被剔除,分別為“season”“weather_conditions”“special_conditions_at_site”“road_surface_conditions”“carriageway_hazards”“age_band_of_vehicle”“driver_imd_decile”“driver_home_area_type”和“age_band_of_driver”,具體特征篩選結(jié)果將結(jié)合RFECV算法選擇的特征。(2)RFECV算法RFECV算法是一種結(jié)合了遞歸特征消除(RFE)和交叉驗證(CV)的特征選擇方法。核心思想是通過遞歸地消除不重要的特征,并在每一步使用交叉驗證來評估特征子集的性能,從而找到使模型性能最優(yōu)的特征組合,其交叉驗證過程如下REF_Ref20088\h圖STYLEREF1\s3-2所示。觀察上圖發(fā)現(xiàn),模型在包含22個特征時表現(xiàn)最佳,最終RFECV算法淘汰的特征共7個,分別為“road_surface_conditions”“special_conditions_at_site”“carriageway_hazards”“trunk_road_flag”“vehicle_location_restricted_lane”“skidding_and_overturning”“hit_object_in_carriageway”。對比整合以上所有方法選擇的特征變量,為了避免刪除一些可能對模型預測有重要影響的特征,本文將在上述實驗結(jié)果的基礎上結(jié)合人工復核的方法,對特征進行最終篩選,選擇刪除“season”“road_surface_conditions”“special_conditions_at_site”“carriageway_hazards”“trunk_road_flag”“hit_object_in_carriageway”“driver_imd_decile”“driver_home_area_type”八個特征。綜合數(shù)據(jù)預處理、統(tǒng)計分析與特征選擇的結(jié)果,本文后續(xù)將選擇剩余的21個特征進行后續(xù)的事故嚴重程度預本章小結(jié)本章對預處理后的數(shù)據(jù)進行了充分的探索,首先基于“人-車-路-環(huán)境”系統(tǒng)理論框架,運用統(tǒng)計分析方法以事故嚴重程度為分類準則,對最初數(shù)據(jù)集進行分析。在此基礎上,綜合運用過濾法、包裝法等多種特征選擇方法,對特征進行篩選,得到了最終的事故預測模型數(shù)據(jù)集,為后續(xù)的事故嚴重程度預測模型構(gòu)建奠定了堅實的數(shù)據(jù)基礎。事故嚴重程度預測模型構(gòu)建本章將應用前文進行數(shù)據(jù)預處理及特征選擇后得到的最終事故預測特征數(shù)據(jù)集,進行事故嚴重程度預測模型的構(gòu)建。本章首先介紹集成學習、深度學習和傳統(tǒng)線性模型三類模型的核心原理及評價指標,并闡述不平衡數(shù)據(jù)集的采樣方法,對不平衡樣本數(shù)據(jù)進行平衡化處理,使之適用于各模型的分類算法。在此基礎上,運用集成學習、深度學習和傳統(tǒng)線性模型三類不同的算法構(gòu)建公路貨車事故嚴重程度預測模型,統(tǒng)一采用貝葉斯超參數(shù)優(yōu)化方法對模型進行優(yōu)化,以提高模型的精度和泛化能力。最后,通過對各模型的預測結(jié)果進行比較和分析,選出最優(yōu)的事故嚴重程度預測模型。預測模型及評價指標介紹近年來,機器學習技術在交通事故嚴重程度預測領域的研究不斷深入,各類研究方法在事故風險評估中展現(xiàn)了不同的特性。為系統(tǒng)地評估交通事故嚴重程度預測中不同機器學習方法的性能差異,并選出最優(yōu)的模型進行可視化分析,本研究以集成學習作為核心預測模型,并選取典型深度學習模型與傳統(tǒng)線性模型,進行多維度的綜合比較,以期獲得更具穩(wěn)健性的研究結(jié)論。集成學習模型集成學習算法的理論基礎源于19世紀迪杰朗(Darwin)學派的早期構(gòu)想,其核心機制在于通過整合多個學習器的預測結(jié)果,充分發(fā)揮各學習器的差異化優(yōu)勢,從而提升整體預測的準確性和魯棒性。20世紀60年代,隨著隨機森林概念的提出和booststrap方法的發(fā)展,該算法的理論框架得到了顯著完善。從技術實現(xiàn)層面來看,該算法主要依賴于對不同學習器預測結(jié)果的協(xié)同融合,這種融合機制能夠有效平衡各學習器的特性差異,進而實現(xiàn)預測性能的系統(tǒng)性優(yōu)化。20世紀90年代初期,隨著多數(shù)投票(MajorityVoting)和Bagging(BootstrapAggregating)等關鍵技術的相繼問世,集成學習算法在方法論層面獲得了進一步的發(fā)展和完善REF_Ref21217\r\h[33]。根據(jù)協(xié)同方式的不同,這些方法主要分為三大類:套袋法(Bagging)、提升法(Boosting)和堆疊法(Stacking)。套袋法采用并行獨立的訓練策略,其核心思想是通過有放回的隨機抽樣,從原始訓練數(shù)據(jù)集中生成多個相互獨立的數(shù)據(jù)子集,在每個數(shù)據(jù)子集上并行訓練基學習器,最后通過投票或平均等方式聚合所有基學習器的結(jié)果,以獲得最終的預測結(jié)果。與套袋法類似,提升法也是基于“群體智慧”的核心思想,但在具體實現(xiàn)機制上有所不同,采用的是串行迭代的訓練方式,其核心在于通過多輪次的訓練逐步提升模型性能——在每一輪訓練中,算法會著重關注前一輪預測錯誤的樣本,并調(diào)整樣本權重,使得后續(xù)的弱學習器能夠持續(xù)修正前序模型的預測偏差,最終將這些弱學習器集成為一個強預測模型。堆疊法主要方法是將多個不同的基學習器的預測結(jié)果作為新的特征,再使用一個元學習器對這些特征進行學習,從而得到最終的預測模型。由于堆疊法需要并行運算多個異構(gòu)機器學習模型,在訓練過程中會產(chǎn)生顯著的時間成本,且在實時應用場景中難以實現(xiàn)模型的快速迭代與動態(tài)優(yōu)化。因此,本研究將研究范圍聚焦于單分類器,選擇基于提升法和套袋法的AdaBoost、XGBoost、CatBoost、LightGBM和隨機森林等五種集成學習模型。AdaBoost模型由Schapire和Freund在1995年提出,是一種基于提升法的集成學習模型,其核心思想是通過串行訓練多個弱學習器,并在每次訓練過程中,根據(jù)上一個弱學習器的預測結(jié)果調(diào)整樣本權重,使得下一個弱學習器能夠更加關注被上一個弱學習器錯誤分類的樣本。AdaBoost模型算法過程如下REF_Ref1038表STYLEREF1\s4-1所示:XGBoost模型最初是陳天奇在分布式(深度)機器學習社區(qū)的一個研究項目,是一種典型的基于提升法的集成方法,基于梯度提升決策樹(GBDT),XGBoost模型引入二階泰勒展開來優(yōu)化目標函數(shù),能通過不斷地添加樹來擬合目標函數(shù)的負梯度,即前一輪模型的殘差REF_Ref8659\r\h[34]。并且,XGBoost在目標函數(shù)中加入了正則化項,用于控制模型的復雜程度,一定程度上避免了模型過擬合問題的出現(xiàn)。其算法過程如下REF_Ref1191表STYLEREF1\s4-2所示:CatBoost模型于2017年由俄羅斯最大的搜索引擎YandexREF_Ref22008\r\h[35]開發(fā)而成,旨在處理具有大量類別特征的數(shù)據(jù),主要原理也是基于梯度提升框架,采用對稱二叉樹作為基學習器。在處理類別特征時,該模型使用的獨特編碼的改進方式,能夠自動處理類別特征,減少特征工程的工作量。在此基礎上,CatBoost模型還通過引入排序提升技術,解決了梯度估計的偏差問題,提高了模型的準確性和泛化能力REF_Ref8975\r\h[36]。模型的算法過程如下REF_Ref1443表STYLEREF1\s4-3所示:LightGBM模型也是針對GBDT的一種改進方法,是一種基于樹的算法。與傳統(tǒng)的決策樹算法不同,LightGBM算法先將連續(xù)特征離散化為直方圖,然后在直方圖上進行計算和決策,大大減少了計算量。同時,該算法引入了葉生長策略和大規(guī)模數(shù)據(jù)并行學習算法,能夠處理大規(guī)模數(shù)據(jù)集。其算法過程如下REF_Ref1596表STYLEREF1\s4-4所示:隨機森林是一種基于Bagging思想的集成學習算法,由LeoBreiman和AdeleCutler在2001年提出。其主要原理是從原始訓練數(shù)據(jù)集有放回地隨機抽樣生成多個子數(shù)據(jù)集,在每個子數(shù)據(jù)集上獨立訓練一棵決策樹,最后將這些決策樹的預測結(jié)果進行組合來得到最終的預測結(jié)果。其算法過程如下REF_Ref1959表STYLEREF1\s4-5所示:深度學習模型深度學習是機器學習的一個子領域,核心思想是通過多層神經(jīng)網(wǎng)絡(DeepNeuralNetworks,DNN)來自動學習數(shù)據(jù)的多層次特征表示,從而實現(xiàn)對復雜模式(如圖像、語音、文本)的高效建模。該算法最初的理念起始于1943年,是由WarrenMcCulloch和WalterPitts所提出的MCP模型,這一模型的出現(xiàn)標志著神經(jīng)網(wǎng)絡以及數(shù)學模型的誕生。在學術領域,國內(nèi)外學者普遍覺得1986年由FrankRosenblatt等科學家提出的反向傳播算法是現(xiàn)代深度神經(jīng)網(wǎng)絡的原型根基。歷經(jīng)了數(shù)十年時間的發(fā)展,深度學習經(jīng)歷了從單層感知機朝著深度神經(jīng)網(wǎng)絡的演變過程,在2012年AlexNet取得突破性成果之后迎來了快速增長的態(tài)勢,當下深度學習已經(jīng)形成了包含前饋神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡等多種典型結(jié)構(gòu)。前饋神經(jīng)網(wǎng)絡(FeedforwardNeuralNetwork,FNN),屬于深度學習中較為基礎的網(wǎng)絡架構(gòu)類型REF_Ref9371\r\h[37],該網(wǎng)絡的核心特征是信息的單方向流動,數(shù)據(jù)從輸入層出發(fā),經(jīng)過數(shù)量不等的隱藏層,最終抵達輸出層,整個過程不存在任何循環(huán)或反饋連接。在FNN家族中,多層感知機(MultilayerPerceptron,MLP)是最為典型和最具代表性的實現(xiàn)形式,它完美體現(xiàn)了FNN的基本原理和特點。如REF_Ref2602圖STYLEREF1\s4-1所示的MLP模型結(jié)構(gòu)流程圖,其網(wǎng)絡結(jié)構(gòu)是由輸入層、若干隱藏層以及輸出層共同構(gòu)成。每一個空心圓都代表著一個神經(jīng)元,箭頭則表示信息的傳輸方向,依據(jù)神經(jīng)元之間的相互連接狀況,形成了圖中所示的層級結(jié)構(gòu),這種層級式設計可讓數(shù)據(jù)能夠從輸入層起步,借助逐層的非線性變換,最終于輸出層得出預測結(jié)果,在信息傳遞期間,前一層的所有神經(jīng)元輸出都會與后一層的每個神經(jīng)元相互連接,這種全連接的特性是MLP最為突出的結(jié)構(gòu)特征。隨著網(wǎng)絡深度的不斷增加,高層隱藏層可逐步提取更為抽象的特征表示。卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetwork,CNN)是深度學習領域當中頗具影響力的架構(gòu)之一,其核心思想是通過局部連接、權重共享以及層次化特征提取等機制,有效捕捉數(shù)據(jù)里的空間或時序模式。如REF_Ref2661圖STYLEREF1\s4-2,是CNN的基本結(jié)構(gòu)圖,它總共涉及了三大關鍵組件:卷積層、池化層以及全連接層,卷積層運用可進行學習的濾波器,在輸入的數(shù)據(jù)之上滑動著去計算局部感受所產(chǎn)生的特征,憑借多個這樣的濾波器來提取不同的特征映射,池化層(如最大池化)會針對特征圖開展下采樣的操作,以此來提高特征的空間不變性,同時降低計算方面的復雜程度。網(wǎng)絡的末端一般會連接全連接層,實現(xiàn)分類或者回歸輸出,在這種局部連接以及權重共享的機制作用下,模型的參數(shù)數(shù)量大幅減少,計算效率也隨之較大提升。多層感知機(MLP)依靠其強大的非線性擬合能力,可從輸入特征里學習復雜的映射關系,適合用于處理特征之間非線性關系較為強烈的情形。卷積神經(jīng)網(wǎng)絡(CNN)則憑借其獨特的局部連接和權重共享機制,在捕捉數(shù)據(jù)中的局部特征以及相關性方面呈現(xiàn)出優(yōu)勢,基于此,本研究在深度學習框架下挑選上述兩種有代表性的神經(jīng)網(wǎng)絡架構(gòu)來開展交通事故預測建模工作,并且與集成學習模型進行對比,來評估不同模型在事故數(shù)據(jù)上的預測性能。傳統(tǒng)線性模型在交通事故預測領域中,盡管機器學習目前較為熱門,傳統(tǒng)線性模型始終因其可解釋性和計算效率而保持著重要的應用價值。作為經(jīng)典的統(tǒng)計建模方法,其發(fā)展歷程可追溯到18-19世紀最小二乘法的提出。這類模型假設因變量與自變量之間存在線性關系,通過最小化損失函數(shù)(如均方誤差、交叉熵等)來估計模型參數(shù)。其基本形式可表示為:Y(4.1)式中,Y表示事故發(fā)生的概率或嚴重程度,X1至Xn為預測變量(如車速、能見度、路面條件、車輛使用年限等),β為待估參數(shù),在交通事故預測任務中,邏輯回歸是一種合理且廣泛使用的基線模型,相比于深度學習,邏輯回歸的訓練速度快,尤其是在數(shù)據(jù)量較少時,邏輯回歸比一些復雜模型更具有穩(wěn)定性,避免過擬合問題的產(chǎn)生。但是,當特征維度較高時,容易出現(xiàn)多重共線性問題,這使其在復雜的交通場景預測中存在明顯的局限性。本研究選取傳統(tǒng)線性模型作為基線對照,重點比較集成學習模型和深度學習模型在非線性關系建模能力、特征交互作用捕捉和計算效率等方面的差異。模型評價指標本章主要對事故的嚴重程度預測模型進行研究,是典型的分類問題,對于此類模型常用的評價指標有混淆矩陣、準確率、精確率、召回率、F1-srore、ROC等,下面將依次介紹各評價指標。(1)混淆矩陣混淆矩陣是一種特定的表格布局,用于可視化算法性能,以矩陣的形式展示分類模型的預測結(jié)果與真實標簽之間的對應關系,其結(jié)構(gòu)如REF_Ref4457圖STYLEREF1\s4-3所示。其中,TP(TruePositive)為真正例,即真正預測的正樣本,模型預測為正,實際也為正;FP(FalsePositive)為假正例,即誤報的樣本,模型預測為正,但實際預測為負;TN(TrueNegative)為真負例,即正確預測的負樣本,模型預測為負,實際也為負;FN(FalseNegative)為假負例,即漏報的樣本,模型預測為負,但實際為正。對于多分類問題,矩陣的維度會根據(jù)類別數(shù)增加,每個單元格表示真實類別為某一類,而被預測為另一類的樣本數(shù)量。它能直觀地呈現(xiàn)出模型在各個類別上的分類情況,方便分析模型的錯誤模式。(2)準確率準確率(Accuracy)表示模型正確預測的樣本數(shù)占總樣本數(shù)的比例,在二分類問題中,樣本被分為正類和負類兩種類別;多分類問題中則有多個類別,其通用計算公式為:Accuracy(4.2)在樣本分布均衡時,該指標能有效評估模型性能,可用于初步衡量模型效果。但在正負樣本比例極度失衡時,準確率會失去參考價值,需要選用更合適的評價指標。(3)精確率精確率(Precision),又稱查準率,在分類模型評估里是一項關鍵指標,主要用來衡量模型預測為正類的樣本中,真正屬于正類的比例,此指標僅僅關注模型預測為正類的樣本集合,對于預測為負類的樣本情況并不涉及,精確率的值越高,意味著模型預測為正類時的可靠性也就越強。其計算公式如下:Precision(4.3)(4)召回率召回率(Recall),又稱查全率,用于衡量模型正確預測出的正例樣本占實際正例樣本總數(shù)的比例,召回率越高,說明模型遺漏的正例越少,對正例的識別能力越強,但也存在單指標片面性的問題。其計算公式為:Recall(4.4)(5)F1-sroreF1-srore是分類模型中常用的評價指標,是精確率和召回率的調(diào)和平均數(shù),能更全面地評估模型性能,其公式為:F1(4.5)(6)Cohen'sKappaCohen'sKappa是一個統(tǒng)計指標,用于衡量分類模型在一致性和準確性方面的表現(xiàn),特別適用于評估兩個評估者之間分類結(jié)果的一致性,或者同一評估者在不同時間點上的分類一致性。不平衡數(shù)據(jù)處理數(shù)據(jù)分布分析數(shù)據(jù)類別不平衡是指在分類任務中,不同類別的樣本數(shù)量存在顯著差異的現(xiàn)象,通常表現(xiàn)為多數(shù)類樣本數(shù)量遠多于少數(shù)類樣本數(shù)量,在進行機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論