基于不平衡數(shù)據(jù)分類方法的航班價格精準預測技術探究_第1頁
基于不平衡數(shù)據(jù)分類方法的航班價格精準預測技術探究_第2頁
基于不平衡數(shù)據(jù)分類方法的航班價格精準預測技術探究_第3頁
基于不平衡數(shù)據(jù)分類方法的航班價格精準預測技術探究_第4頁
基于不平衡數(shù)據(jù)分類方法的航班價格精準預測技術探究_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于不平衡數(shù)據(jù)分類方法的航班價格精準預測技術探究一、引言1.1研究背景與動因在全球經(jīng)濟一體化和旅游業(yè)蓬勃發(fā)展的大背景下,航空業(yè)作為現(xiàn)代交通運輸體系的重要組成部分,取得了迅猛的發(fā)展。航空旅行憑借其高效、便捷的特點,已經(jīng)成為人們長途出行的首選方式之一,尤其在中國,航空客運量持續(xù)呈現(xiàn)出強勁的增長態(tài)勢,航空公司之間的競爭也愈發(fā)激烈。航班價格作為航空市場中最為關鍵的因素之一,不僅直接影響著航空公司的收益和市場競爭力,還與消費者的出行成本和選擇密切相關。對于航空公司而言,精準的航班價格預測能夠為其定價策略的制定提供有力支持,有助于優(yōu)化航班資源配置,提高客座率和運營效益,在激烈的市場競爭中占據(jù)優(yōu)勢地位;對于消費者來說,準確的價格預測可以幫助他們合理規(guī)劃出行計劃,選擇在價格最為合適的時機購買機票,從而有效節(jié)省旅行成本,提升出行體驗。此外,航班價格預測對于政府相關部門和行業(yè)監(jiān)管機構也具有重要意義,能夠為其監(jiān)測和調控航空市場價格、保障消費者權益、維護市場公平競爭提供科學依據(jù)。航班價格的形成機制極為復雜,受到眾多因素的交互影響。航空公司自身的定價策略是影響航班價格的直接因素,不同的航空公司會根據(jù)自身的成本結構、市場定位、運營目標等制定差異化的價格策略。航線因素也起著關鍵作用,熱門航線由于需求旺盛,價格往往相對較高;而冷門航線為了吸引乘客,價格則可能更為親民。出發(fā)地和目的地的經(jīng)濟發(fā)展水平、旅游資源豐富程度、季節(jié)和節(jié)假日等因素也會導致市場需求的波動,進而影響航班價格。此外,停站次數(shù)、起飛時間、到達時間、航班持續(xù)時間以及乘客的預訂時間等因素,也都會對消費者的出行體驗和價格敏感度產(chǎn)生影響,從而間接作用于航班價格。在對航班價格進行預測時,數(shù)據(jù)的質量和分布情況對預測結果的準確性起著決定性作用。然而,在實際的航班價格數(shù)據(jù)中,往往存在著嚴重的數(shù)據(jù)不平衡問題。某些特定情況下的數(shù)據(jù),如節(jié)假日、旅游旺季期間的航班價格數(shù)據(jù),或者某些熱門航線、特殊時段的航班價格數(shù)據(jù),可能在數(shù)據(jù)集中所占的比例極小,屬于少數(shù)類樣本;而大多數(shù)普通情況下的航班價格數(shù)據(jù)則構成了多數(shù)類樣本。這種數(shù)據(jù)不平衡現(xiàn)象會給傳統(tǒng)的預測模型帶來諸多挑戰(zhàn)。傳統(tǒng)的預測模型通?;跀?shù)據(jù)分布均衡的假設進行設計和訓練,在面對不平衡數(shù)據(jù)時,模型往往會傾向于學習多數(shù)類樣本的特征,而忽略少數(shù)類樣本的重要信息。這是因為在模型訓練過程中,多數(shù)類樣本的數(shù)量優(yōu)勢會使其對模型參數(shù)的更新產(chǎn)生更大的影響,導致模型在少數(shù)類樣本上的預測能力大幅下降。當模型對少數(shù)類樣本的特征學習不足時,在遇到這些特殊情況的航班價格預測任務時,就難以準確捕捉到價格變化的規(guī)律和趨勢,從而導致預測結果出現(xiàn)較大偏差,無法滿足實際應用的需求。以國慶黃金周期間的機票價格為例,熱門旅游目的地如北京至三亞、上海至成都等航線,由于出行需求激增,票價可能會飆升至平日的2-3倍,甚至出現(xiàn)“一票難求”的局面。而在這些特殊時期的航班價格數(shù)據(jù),在整個航班價格數(shù)據(jù)集中可能只占很小的比例。如果預測模型不能充分學習到這些少數(shù)類樣本所蘊含的價格上漲規(guī)律和影響因素,就很難準確預測出國慶期間這些熱門航線的機票價格走勢,這對于消費者提前規(guī)劃出行和航空公司制定合理的定價策略都會造成很大的困擾。同樣,在旅游淡季或者一些非熱門航線,航班價格可能會出現(xiàn)較大幅度的折扣,但由于這些數(shù)據(jù)在數(shù)據(jù)集中也屬于少數(shù)類,傳統(tǒng)模型也容易忽視這些價格下降的信息,導致預測結果與實際價格相差甚遠。鑒于數(shù)據(jù)不平衡問題對航班價格預測的嚴重影響,研究有效的不平衡數(shù)據(jù)分類方法并將其應用于航班價格預測具有迫切的必要性和重要的現(xiàn)實意義。通過深入研究不平衡數(shù)據(jù)分類方法,能夠提高模型對少數(shù)類樣本的學習能力和預測準確性,從而更全面、準確地把握航班價格的變化規(guī)律,為航空公司和消費者提供更具價值的價格預測服務,促進航空市場的健康、穩(wěn)定發(fā)展。1.2國內外研究現(xiàn)狀剖析在不平衡數(shù)據(jù)分類領域,國內外學者已開展了大量深入且富有成效的研究工作。國外方面,Chawla等人在2002年提出了SMOTE(SyntheticMinorityOver-samplingTechnique)算法,該算法通過在少數(shù)類樣本的特征空間中生成新的合成樣本,有效地擴充了少數(shù)類樣本的數(shù)量,顯著改善了數(shù)據(jù)的不平衡狀況,為后續(xù)的不平衡數(shù)據(jù)分類研究奠定了堅實的基礎,也成為了過采樣方法中的經(jīng)典之作。此后,眾多學者基于SMOTE算法展開了一系列的改進和拓展研究。例如,Borderline-SMOTE算法通過對少數(shù)類樣本進行邊界判斷,有針對性地在邊界區(qū)域生成合成樣本,進一步提高了模型對邊界樣本的分類能力,增強了模型的泛化性能;ADASYN(AdaptiveSyntheticSamplingApproach)算法則根據(jù)樣本的分布情況自適應地調整合成樣本的數(shù)量和位置,使得生成的合成樣本更具代表性,更能反映數(shù)據(jù)的真實分布特征,從而在復雜的數(shù)據(jù)分布場景下也能取得較好的分類效果。在集成學習與不平衡數(shù)據(jù)分類的結合研究中,國外也取得了豐碩的成果。Breiman提出的Bagging算法通過對原始數(shù)據(jù)集進行有放回的抽樣,構建多個子數(shù)據(jù)集,并基于這些子數(shù)據(jù)集訓練多個分類器,最后將這些分類器的預測結果進行綜合集成,有效地降低了模型的方差,提高了模型的穩(wěn)定性和泛化能力,在處理不平衡數(shù)據(jù)時也展現(xiàn)出了一定的優(yōu)勢。隨機森林(RandomForest)算法作為Bagging算法的一種擴展,在構建決策樹時不僅對樣本進行抽樣,還對特征進行隨機選擇,進一步增強了模型的多樣性和抗干擾能力,在不平衡數(shù)據(jù)分類任務中表現(xiàn)出色,被廣泛應用于各個領域的數(shù)據(jù)分析和預測中。國內學者在不平衡數(shù)據(jù)分類領域同樣貢獻卓越。一些學者致力于研究基于聚類的不平衡數(shù)據(jù)處理方法,通過將多數(shù)類樣本進行聚類分析,挖掘樣本的內在結構和分布規(guī)律,然后根據(jù)聚類結果對數(shù)據(jù)進行重采樣或調整分類策略,從而提高模型對不平衡數(shù)據(jù)的處理能力。例如,有研究提出先對多數(shù)類樣本進行聚類,將其劃分為多個簇,然后針對每個簇分別進行欠采樣或過采樣操作,使得每個簇內的數(shù)據(jù)分布更加均衡,進而提升整體的分類性能。這種方法充分考慮了多數(shù)類樣本的多樣性和復雜性,能夠更好地適應不同的數(shù)據(jù)分布情況。在航班價格預測方面,國外的研究起步較早,并且在大數(shù)據(jù)和機器學習技術的應用上取得了顯著進展。一些研究利用時間序列分析方法,如ARIMA(AutoregressiveIntegratedMovingAverage)模型,對航班價格的歷史數(shù)據(jù)進行建模和分析,捕捉價格隨時間的變化趨勢和周期性規(guī)律,從而實現(xiàn)對未來航班價格的預測。隨著機器學習技術的快速發(fā)展,越來越多的研究開始采用機器學習算法進行航班價格預測。例如,支持向量機(SVM)算法憑借其在小樣本、非線性分類問題上的出色表現(xiàn),被應用于航班價格預測中,通過對影響航班價格的各種因素進行特征提取和建模,能夠較好地預測航班價格的變化。神經(jīng)網(wǎng)絡算法,如多層感知機(MLP)和遞歸神經(jīng)網(wǎng)絡(RNN)及其變體長短期記憶網(wǎng)絡(LSTM)等,也在航班價格預測領域得到了廣泛應用。LSTM網(wǎng)絡能夠有效地處理時間序列數(shù)據(jù)中的長期依賴問題,通過學習歷史價格數(shù)據(jù)和相關影響因素之間的復雜關系,對航班價格的走勢進行準確預測。國內對于航班價格預測的研究也在不斷深入。一方面,學者們在借鑒國外先進方法的基礎上,結合國內航空市場的特點和實際數(shù)據(jù),進行了大量的實證研究和模型優(yōu)化。例如,通過對國內不同航空公司、不同航線的航班價格數(shù)據(jù)進行分析,發(fā)現(xiàn)國內航空市場在價格波動上存在一些獨特的規(guī)律,如節(jié)假日期間價格波動更為劇烈,熱門旅游航線的價格受季節(jié)和旅游淡旺季影響明顯等?;谶@些發(fā)現(xiàn),研究人員對傳統(tǒng)的預測模型進行了改進,引入了更多與國內市場相關的特征變量,如節(jié)假日因素、旅游熱點地區(qū)的旅游指數(shù)等,提高了預測模型在國內市場的適用性和準確性。另一方面,國內也有研究嘗試將深度學習技術與領域知識相結合,提出了一些創(chuàng)新性的預測模型。例如,將知識圖譜技術應用于航班價格預測中,通過構建包含航空公司、航線、時間、價格等多維度信息的知識圖譜,充分挖掘數(shù)據(jù)之間的語義關系和潛在聯(lián)系,為預測模型提供更豐富的信息支持,從而提升預測的精度和可靠性。盡管國內外在不平衡數(shù)據(jù)分類及航班價格預測領域已取得了諸多成果,但仍存在一些不足之處和可拓展的方向。在不平衡數(shù)據(jù)分類方面,現(xiàn)有的重采樣方法在生成合成樣本時,往往容易出現(xiàn)樣本重疊、邊界模糊等問題,導致模型的過擬合風險增加,泛化能力下降。此外,對于高度不平衡的數(shù)據(jù),如何更有效地平衡各類樣本的分布,同時保持數(shù)據(jù)的原始特征和內在結構,仍然是一個亟待解決的難題。在航班價格預測領域,雖然目前已經(jīng)有多種方法被應用,但由于航班價格受到眾多復雜因素的影響,且這些因素之間存在著復雜的交互作用,現(xiàn)有的預測模型往往難以全面、準確地捕捉到這些因素的影響,導致預測結果的準確性和穩(wěn)定性還有待提高。同時,對于一些新興的影響因素,如全球經(jīng)濟形勢的變化、突發(fā)公共事件(如疫情、自然災害等)對航班價格的影響,現(xiàn)有的研究還不夠深入,缺乏有效的預測方法和應對策略。未來的研究可以朝著進一步改進不平衡數(shù)據(jù)分類方法,提高模型對復雜數(shù)據(jù)分布的適應性;深入挖掘航班價格的影響因素,構建更加全面、準確的預測模型;加強對新興影響因素的研究,提高預測模型的抗干擾能力和魯棒性等方向展開。1.3研究創(chuàng)新點與實踐意義本研究在方法和模型等方面具有顯著的創(chuàng)新點,這些創(chuàng)新點不僅豐富了不平衡數(shù)據(jù)分類和航班價格預測領域的研究成果,還具有重要的實踐意義,對航空公司定價、乘客購票以及市場監(jiān)管等方面都能產(chǎn)生積極的影響。在方法創(chuàng)新方面,本研究創(chuàng)新性地將改進的自適應重采樣方法與集成學習算法深度融合。傳統(tǒng)的重采樣方法在處理不平衡數(shù)據(jù)時,往往難以精準地把握樣本分布的變化,導致生成的合成樣本與實際數(shù)據(jù)特征存在偏差。而本研究提出的改進自適應重采樣方法,通過引入動態(tài)權重機制,能夠根據(jù)樣本的分布密度和特征差異自適應地調整重采樣的比例和方式。具體而言,對于分布稀疏且特征獨特的少數(shù)類樣本,賦予其更高的權重,從而在重采樣過程中生成更多具有代表性的合成樣本;對于分布密集的多數(shù)類樣本,則適當降低其權重,避免合成樣本的過度生成導致模型過擬合。在集成學習算法的應用中,摒棄了傳統(tǒng)的單一分類器集成方式,采用了基于多策略融合的集成學習框架。該框架結合了不同類型的分類器,如決策樹、支持向量機和神經(jīng)網(wǎng)絡等,充分發(fā)揮它們在處理不同數(shù)據(jù)特征和模式時的優(yōu)勢。通過對不同分類器的預測結果進行加權融合,根據(jù)各個分類器在不同樣本子集上的表現(xiàn)動態(tài)調整權重,進一步提高了模型的泛化能力和預測準確性。在模型創(chuàng)新上,本研究構建了一種基于注意力機制的深度學習預測模型。注意力機制能夠讓模型在處理大量的航班價格影響因素時,自動聚焦于關鍵因素,從而更準確地捕捉價格變化的規(guī)律。在模型訓練過程中,注意力機制會根據(jù)不同因素對價格的影響程度,為每個因素分配不同的注意力權重。例如,對于節(jié)假日、旅游旺季等對價格影響較大的因素,賦予較高的注意力權重,使模型能夠更深入地學習這些因素與價格之間的復雜關系;對于一些影響較小的因素,則分配較低的權重,避免模型被無關信息干擾。該模型還引入了遷移學習技術,利用其他相關領域的成熟模型和數(shù)據(jù),加速模型的訓練過程并提升其性能。通過遷移學習,模型可以借鑒其他類似市場或行業(yè)中關于價格預測的經(jīng)驗和知識,快速適應航班價格預測的任務,減少對大規(guī)模標注數(shù)據(jù)的依賴,提高模型在小樣本情況下的預測能力。這些創(chuàng)新點具有重要的實踐意義。對于航空公司而言,精準的航班價格預測能夠為其定價策略的制定提供強有力的支持。航空公司可以根據(jù)預測結果,在不同的市場需求情況下靈活調整票價。在旅游旺季或熱門航線,提前預測到高需求和高票價趨勢,合理提高票價以實現(xiàn)收益最大化;在淡季或冷門航線,通過準確預測價格走勢,及時推出優(yōu)惠活動吸引乘客,提高客座率,優(yōu)化航班資源配置,增強市場競爭力。對于乘客來說,準確的價格預測能夠幫助他們合理規(guī)劃出行計劃,選擇在價格最為合適的時機購買機票,從而有效節(jié)省旅行成本,提升出行體驗。乘客可以借助價格預測工具,提前了解機票價格的波動趨勢,避免在價格高峰期購票,實現(xiàn)經(jīng)濟出行。對于市場監(jiān)管機構來說,本研究的成果有助于其更有效地監(jiān)測和調控航空市場價格。通過對航班價格的準確預測,監(jiān)管機構可以及時發(fā)現(xiàn)市場價格的異常波動,防止航空公司的不正當價格競爭行為,維護市場的公平競爭環(huán)境,保障消費者的合法權益。二、不平衡數(shù)據(jù)分類理論基石2.1不平衡數(shù)據(jù)概念與特點解析不平衡數(shù)據(jù)是指在分類任務中,不同類別的樣本數(shù)量存在顯著差異的數(shù)據(jù)集。這種數(shù)量上的巨大差距打破了傳統(tǒng)機器學習算法所依賴的樣本均衡假設,給模型的訓練和預測帶來了諸多挑戰(zhàn)。在實際應用中,不平衡數(shù)據(jù)的現(xiàn)象極為普遍,例如在醫(yī)療診斷領域,患有罕見疾病的患者樣本數(shù)量相對健康人群樣本數(shù)量往往少之又少;在金融風險評估中,欺詐交易記錄相比于正常交易記錄也是極少數(shù)。在航班價格預測的情境下,不平衡數(shù)據(jù)同樣表現(xiàn)明顯。以時間維度為例,旅游旺季(如暑假、國慶假期等)和節(jié)假日期間的航班價格數(shù)據(jù),由于出行需求集中且價格波動較大,在整個數(shù)據(jù)集中屬于少數(shù)類樣本;而在旅游淡季和平日的航班價格數(shù)據(jù)則構成了多數(shù)類樣本。從航線角度來看,熱門旅游航線(如北京-三亞、上海-昆明等)和商務繁忙航線(如北京-上海、廣州-深圳等)的價格數(shù)據(jù),因需求特性與其他普通航線不同,也可能在數(shù)據(jù)集中呈現(xiàn)少數(shù)類狀態(tài)。不平衡數(shù)據(jù)具有以下顯著特點:首先是類別分布不均,這是其最直觀的特征。在航班價格數(shù)據(jù)集中,多數(shù)類樣本(如平日普通航線的價格數(shù)據(jù))的數(shù)量遠遠超過少數(shù)類樣本(如節(jié)假日熱門航線的價格數(shù)據(jù)),這種數(shù)量上的巨大差距使得模型在訓練過程中容易過度關注多數(shù)類樣本的特征,而忽視少數(shù)類樣本所蘊含的重要信息。其次,少數(shù)類樣本雖然數(shù)量少,但往往具有重要的實際意義。在航班價格預測中,準確把握少數(shù)類樣本(如節(jié)假日、熱門航線的價格)的變化規(guī)律,對于航空公司制定合理的定價策略、實現(xiàn)收益最大化,以及乘客合理規(guī)劃出行、節(jié)省費用至關重要。此外,不平衡數(shù)據(jù)還可能導致數(shù)據(jù)的分布復雜,由于少數(shù)類樣本數(shù)量有限,其分布可能較為稀疏和分散,與多數(shù)類樣本的分布模式存在較大差異,這進一步增加了模型學習和分類的難度。例如,在某些特殊情況下,少數(shù)類樣本可能受到多種復雜因素的交互影響,其價格變化規(guī)律難以用常規(guī)的模型進行準確描述,使得模型在處理這些樣本時容易出現(xiàn)偏差。2.2常見不平衡數(shù)據(jù)分類方法詳解2.2.1重采樣方法重采樣方法是處理不平衡數(shù)據(jù)的基礎方法,主要通過對樣本數(shù)量較少的少數(shù)類進行過采樣或對樣本數(shù)量較多的多數(shù)類進行欠采樣,使數(shù)據(jù)集的類別分布達到相對均衡的狀態(tài)。隨機過采樣是一種較為簡單直接的過采樣方法,它通過從少數(shù)類樣本中進行有放回的隨機抽樣,重復復制少數(shù)類樣本,直至少數(shù)類樣本的數(shù)量與多數(shù)類樣本數(shù)量相近。這種方法的優(yōu)點是實現(xiàn)簡單,能夠快速增加少數(shù)類樣本的數(shù)量,有效提升模型對少數(shù)類樣本的學習能力。然而,隨機過采樣也存在明顯的缺陷,由于是簡單的重復采樣,新生成的樣本與原始少數(shù)類樣本完全相同,這容易導致模型在訓練過程中過度學習這些重復樣本的特征,從而出現(xiàn)過擬合現(xiàn)象,降低模型的泛化能力。例如,在航班價格數(shù)據(jù)集中,如果對節(jié)假日期間的少數(shù)類航班價格樣本進行隨機過采樣,可能會使模型過度依賴這些重復的樣本特征,而無法準確學習到節(jié)假日航班價格變化的真實規(guī)律,當遇到新的節(jié)假日航班價格數(shù)據(jù)時,模型的預測準確性就會受到影響。隨機欠采樣則是針對多數(shù)類樣本進行處理,它通過隨機刪除多數(shù)類樣本,使得多數(shù)類和少數(shù)類樣本數(shù)量達到平衡。這種方法的優(yōu)勢在于操作簡便,能夠減少數(shù)據(jù)量,降低模型訓練的時間和計算成本。但隨機欠采樣也會帶來信息丟失的問題,因為在刪除多數(shù)類樣本的過程中,可能會誤刪一些對模型學習有重要價值的樣本,導致模型無法全面學習到多數(shù)類樣本的特征,進而影響模型的性能。在航班價格數(shù)據(jù)集中,若對平日多數(shù)類航班價格樣本進行隨機欠采樣,可能會刪除一些包含特殊價格調整策略或市場供需變化信息的樣本,使得模型在學習過程中無法捕捉到這些關鍵信息,影響對航班價格的準確預測。SMOTE(SyntheticMinorityOver-samplingTechnique)算法是一種更為智能的過采樣算法,在解決不平衡數(shù)據(jù)問題中得到了廣泛應用。其基本原理是基于少數(shù)類樣本的特征空間,對于每一個少數(shù)類樣本,通過計算它與少數(shù)類樣本集中其他樣本的歐氏距離,找到其k近鄰樣本。然后,根據(jù)樣本不平衡比例設置采樣倍率,從k近鄰中隨機選擇若干個樣本,在原始樣本與所選近鄰樣本之間的連線上隨機生成新的合成樣本。例如,對于一個少數(shù)類航班價格樣本,SMOTE算法會找到它的k個近鄰航班價格樣本,假設選擇其中一個近鄰樣本,在這兩個樣本的特征空間連線上隨機確定一個點,該點對應的特征值構成新的合成航班價格樣本。SMOTE算法的優(yōu)點顯著,它克服了隨機過采樣中簡單復制樣本的弊端,生成的合成樣本具有一定的隨機性和多樣性,更能反映少數(shù)類樣本的分布特征,有助于提高模型的泛化能力。但SMOTE算法也并非完美無缺,在近鄰選擇時,k值的確定較為困難,若k值設置過小,生成的合成樣本可能與原始樣本過于相似,無法充分擴充樣本的多樣性;若k值設置過大,可能會引入噪聲樣本,導致生成的合成樣本質量下降。此外,SMOTE算法在處理數(shù)據(jù)分布復雜的不平衡數(shù)據(jù)時,可能會出現(xiàn)樣本邊緣化問題,即生成的合成樣本集中在少數(shù)類樣本的邊緣區(qū)域,模糊了少數(shù)類與多數(shù)類樣本之間的邊界,增加了分類的難度。為了克服SMOTE算法的不足,眾多學者提出了一系列變體算法。例如,Borderline-SMOTE算法通過對少數(shù)類樣本進行邊界判斷,將少數(shù)類樣本分為三類:安全樣本、危險樣本和噪聲樣本。對于危險樣本,即處于分類邊界附近的少數(shù)類樣本,有針對性地進行過采樣,生成更多的合成樣本,以增強模型對邊界樣本的分類能力;而對于安全樣本和噪聲樣本,則不進行過采樣或進行相應的處理。這種方法能夠更精準地在分類邊界區(qū)域生成有效樣本,避免在遠離邊界的安全區(qū)域生成過多不必要的樣本,從而提高模型的分類性能。ADASYN(AdaptiveSyntheticSamplingApproach)算法則根據(jù)樣本的分布情況自適應地調整合成樣本的數(shù)量和位置。該算法通過計算每個少數(shù)類樣本的密度分布,對于密度較低的少數(shù)類樣本,生成更多的合成樣本,以豐富這些區(qū)域的樣本信息;對于密度較高的少數(shù)類樣本,則減少合成樣本的生成。這樣可以使生成的合成樣本更合理地分布在整個特征空間中,更能反映數(shù)據(jù)的真實分布特征,進一步提高模型在不平衡數(shù)據(jù)上的分類效果。在航班價格預測中,ADASYN算法可以根據(jù)不同航線、不同時間段的航班價格數(shù)據(jù)分布情況,自適應地生成合成樣本,從而更準確地學習到各種復雜情況下航班價格的變化規(guī)律。2.2.2集成學習方法集成學習方法通過組合多個弱分類器,形成一個強大的分類器,以提高模型的性能和泛化能力,在處理不平衡數(shù)據(jù)時展現(xiàn)出獨特的優(yōu)勢。Bagging(BootstrapAggregating)算法是集成學習中的經(jīng)典算法之一。其核心思想是通過自助采樣的方式,從原始數(shù)據(jù)集中有放回地抽取多個子數(shù)據(jù)集。每個子數(shù)據(jù)集都包含與原始數(shù)據(jù)集相同數(shù)量的樣本,但由于是有放回抽樣,子數(shù)據(jù)集中可能會存在重復樣本?;谶@些子數(shù)據(jù)集,分別訓練多個分類器,如決策樹、支持向量機等。在預測階段,將這些分類器的預測結果進行綜合,對于分類任務,通常采用投票的方式,少數(shù)服從多數(shù),確定最終的預測類別;對于回歸任務,則采用平均的方式,計算各個分類器預測結果的平均值作為最終的預測值。在處理不平衡數(shù)據(jù)時,Bagging算法通過多個子數(shù)據(jù)集的訓練,使得每個分類器都能學習到不同的樣本特征,降低了模型對少數(shù)類樣本的敏感性,從而提高了整體模型在不平衡數(shù)據(jù)上的穩(wěn)定性和準確性。例如,在航班價格預測中,基于不同的子數(shù)據(jù)集訓練多個決策樹分類器,每個決策樹可能關注到不同的航班價格影響因素和樣本特征,通過投票或平均的方式綜合這些決策樹的預測結果,能夠更全面地考慮各種因素對航班價格的影響,提高預測的準確性。Boosting算法也是一種常用的集成學習算法,它通過迭代的方式逐步構建多個分類器。在每一輪迭代中,根據(jù)上一輪分類器的預測結果,調整樣本的權重。對于被錯誤分類的樣本,增加其權重,使得后續(xù)的分類器更加關注這些樣本;對于被正確分類的樣本,則降低其權重。這樣,隨著迭代的進行,分類器會不斷聚焦于那些難以分類的樣本,從而提高模型對復雜數(shù)據(jù)的學習能力。在處理不平衡數(shù)據(jù)時,Boosting算法能夠通過權重調整機制,使模型更加關注少數(shù)類樣本,有效提升模型對少數(shù)類樣本的分類性能。以航班價格預測為例,在Boosting算法的迭代過程中,若某個節(jié)假日航班價格樣本被錯誤分類,后續(xù)的分類器會給予該樣本更高的權重,加強對該樣本特征的學習,從而提高對類似少數(shù)類樣本的預測準確性。RandomForest(隨機森林)算法是Bagging算法的一種擴展,它在構建決策樹時不僅對樣本進行抽樣,還對特征進行隨機選擇。在每個節(jié)點分裂時,隨機森林從所有特征中隨機選擇一個特征子集,然后在這個子集中選擇最優(yōu)的特征進行分裂。這種方式增加了決策樹之間的差異性,使得隨機森林具有更好的抗干擾能力和泛化性能。在不平衡數(shù)據(jù)分類中,隨機森林通過多個決策樹的集成,能夠充分學習到多數(shù)類和少數(shù)類樣本的特征,減少模型對少數(shù)類樣本的誤判。在航班價格預測中,隨機森林中的每棵決策樹可能基于不同的樣本和特征子集進行訓練,它們從不同的角度學習航班價格與各種影響因素之間的關系,綜合這些決策樹的預測結果,可以更準確地捕捉到航班價格的變化趨勢。XGBoost(eXtremeGradientBoosting)算法是一種高效的梯度提升框架,它在Boosting算法的基礎上進行了一系列優(yōu)化。XGBoost采用了二階泰勒展開來近似損失函數(shù),使得模型在訓練過程中能夠更快地收斂。它還引入了正則化項,用于控制模型的復雜度,防止過擬合。在處理不平衡數(shù)據(jù)時,XGBoost可以通過調整樣本權重或設置類別權重參數(shù),來平衡不同類別的重要性。例如,可以為少數(shù)類樣本賦予更高的權重,使得模型在訓練過程中更加關注少數(shù)類樣本的特征學習。在航班價格預測任務中,XGBoost憑借其高效的訓練算法和靈活的參數(shù)調整機制,能夠快速處理大規(guī)模的航班價格數(shù)據(jù),并通過合理設置權重,提高對不平衡數(shù)據(jù)中少數(shù)類樣本(如特殊時期或特殊航線的航班價格)的預測能力。2.2.3代價敏感學習方法代價敏感學習方法的核心思想是通過調整分類代價來解決不平衡數(shù)據(jù)問題。在傳統(tǒng)的分類任務中,通常假設所有類別的分類錯誤代價是相同的。然而,在不平衡數(shù)據(jù)集中,這種假設不再成立,因為少數(shù)類樣本往往具有更高的實際價值或重要性,對其分類錯誤的代價可能遠高于多數(shù)類樣本。例如,在航班價格預測中,準確預測出節(jié)假日或熱門航線的高票價(少數(shù)類樣本),對于航空公司制定合理的定價策略和收益管理至關重要,若將這些高票價誤判為普通票價,可能會導致航空公司損失大量潛在收益;而將普通票價誤判為高票價,雖然也會對乘客造成一定影響,但相對損失較小。代價敏感學習方法通過為不同類別的樣本分配不同的錯誤分類代價,引導分類器在訓練過程中更加關注代價較高的少數(shù)類樣本。具體實現(xiàn)方式有多種,一種常見的方法是在分類器的損失函數(shù)中引入代價權重。以支持向量機(SVM)為例,其原始的目標函數(shù)是在最大化分類間隔的同時最小化分類誤差,在代價敏感學習中,可以為不同類別的樣本設置不同的懲罰參數(shù)C。對于少數(shù)類樣本,設置較大的C值,使得誤分類少數(shù)類樣本時的懲罰力度更大,從而促使模型更加努力地正確分類少數(shù)類樣本;對于多數(shù)類樣本,設置較小的C值,降低對多數(shù)類樣本誤分類的懲罰。這樣,在模型訓練過程中,會更加注重減少少數(shù)類樣本的分類錯誤,提高模型對少數(shù)類樣本的分類性能。在決策樹算法中,代價敏感學習可以通過調整節(jié)點分裂的準則來實現(xiàn)。傳統(tǒng)的決策樹分裂準則通常基于信息增益、信息增益比或基尼指數(shù)等指標,在代價敏感學習中,可以將分類代價納入這些準則中。例如,在計算信息增益時,考慮不同類別樣本的錯誤分類代價,使得決策樹在選擇分裂屬性時,不僅關注樣本的純度提升,還會考慮分裂后對不同類別樣本分類代價的影響。這樣,決策樹會傾向于生成能夠降低少數(shù)類樣本分類代價的決策規(guī)則,從而提高對不平衡數(shù)據(jù)的分類效果。在航班價格預測中應用代價敏感學習方法時,首先需要根據(jù)實際業(yè)務需求和市場情況,合理確定不同價格類別(如低價、中價、高價)的錯誤分類代價??梢酝ㄟ^對航空公司的歷史收益數(shù)據(jù)進行分析,結合市場競爭態(tài)勢和乘客對價格的敏感度等因素,評估將不同價格類別誤判所帶來的經(jīng)濟損失和市場影響,以此為依據(jù)設定代價權重。在模型訓練過程中,將這些代價權重應用到所選擇的分類算法中,如神經(jīng)網(wǎng)絡、邏輯回歸等。對于神經(jīng)網(wǎng)絡,可以在計算損失函數(shù)時,根據(jù)樣本的類別和設定的代價權重,對不同樣本的誤差進行加權求和,使得模型在反向傳播更新參數(shù)時,更加關注那些分類代價高的樣本。通過這種方式,模型能夠更好地學習到不同價格類別之間的特征差異,尤其是少數(shù)類高票價樣本的特征,從而提高航班價格預測的準確性。2.3評價指標體系構建與分析在不平衡數(shù)據(jù)分類的評價中,構建科學合理的評價指標體系至關重要,它能夠全面、準確地衡量模型在處理不平衡數(shù)據(jù)時的性能表現(xiàn)。常用的評價指標包括準確率、召回率、F1值、AUC等,每個指標都從不同的角度反映了模型的特性,同時也具有各自的適用性和局限性。準確率是最直觀的評價指標之一,它指的是模型預測正確的樣本數(shù)量占總樣本數(shù)量的比例,計算公式為:準確率=(TP+TN)/(TP+TN+FP+FN),其中TP(TruePositive)表示真正例,即實際為正類且被正確預測為正類的樣本數(shù)量;TN(TrueNegative)表示真負例,即實際為負類且被正確預測為負類的樣本數(shù)量;FP(FalsePositive)表示假正例,即實際為負類卻被錯誤預測為正類的樣本數(shù)量;FN(FalseNegative)表示假負例,即實際為正類卻被錯誤預測為負類的樣本數(shù)量。在數(shù)據(jù)分布相對均衡的情況下,準確率能夠較為準確地反映模型的性能,因為各類樣本在數(shù)據(jù)集中所占比例相近,模型對各類樣本的預測準確性對總體準確率的影響較為均衡。然而,在不平衡數(shù)據(jù)分類中,準確率存在明顯的局限性。由于少數(shù)類樣本數(shù)量較少,即使模型在少數(shù)類樣本上的預測效果很差,只要能夠準確預測大量的多數(shù)類樣本,仍然可以獲得較高的準確率。假設在一個航班價格預測的數(shù)據(jù)集中,95%的樣本為低價航班(多數(shù)類),5%的樣本為高價航班(少數(shù)類),如果一個模型簡單地將所有航班都預測為低價航班,其準確率可以達到95%,但實際上這個模型完全沒有正確預測出任何一個高價航班,對于實際應用來說毫無價值。召回率,也稱為查全率,它衡量的是在實際為正類的樣本中,被正確預測為正類的樣本比例,計算公式為:召回率=TP/(TP+FN)。召回率對于不平衡數(shù)據(jù)分類中的少數(shù)類樣本評估具有重要意義。在航班價格預測中,如果我們關注的是準確預測出高票價的航班(少數(shù)類),召回率能夠直觀地反映出模型對這些高票價航班的捕捉能力。較高的召回率意味著模型能夠盡可能多地識別出實際為高票價的航班,減少漏報情況。在一些實際場景中,如航空公司進行收益管理時,準確預測出高票價航班可以幫助其合理安排航班資源、制定營銷策略,此時召回率就成為了關鍵的評價指標。但召回率也并非完美無缺,它只關注了正類樣本的被正確預測情況,而忽視了假正例的影響。即使模型將大量負類樣本錯誤地預測為正類樣本,只要真正的正類樣本被正確預測的數(shù)量足夠多,召回率仍然可能很高。這可能會導致模型在實際應用中產(chǎn)生大量的誤報,給后續(xù)的決策帶來困擾。在航班價格預測中,如果模型為了追求高召回率,將許多普通票價航班誤判為高票價航班,雖然高票價航班的召回率提高了,但卻會誤導航空公司做出錯誤的定價決策,影響市場競爭力。F1值是精確率和召回率的調和平均數(shù),它綜合考慮了模型在查準和查全方面的性能,計算公式為:F1=2*(精確率*召回率)/(精確率+召回率),其中精確率=TP/(TP+FP),它反映了在所有被預測為正類的樣本中,實際為正類樣本的比例。F1值的優(yōu)點在于它能夠平衡精確率和召回率之間的關系,避免單一指標的片面性。在不平衡數(shù)據(jù)分類中,F(xiàn)1值能夠更全面地評估模型的性能,因為它同時考慮了模型對少數(shù)類樣本的正確預測能力以及對預測結果的準確性。在航班價格預測中,F(xiàn)1值可以幫助我們判斷模型在預測高票價航班時,既能夠準確地識別出真正的高票價航班(高精確率),又能夠盡可能多地覆蓋實際的高票價航班(高召回率)。然而,F(xiàn)1值也存在一定的局限性,它對于精確率和召回率的權重分配是固定的,在某些特定的應用場景中,可能無法滿足對精確率和召回率不同側重的需求。如果在某個場景下,航空公司更注重避免將普通票價航班誤判為高票價航班(即更關注精確率),而F1值的固定權重分配可能無法突出這種需求。AUC(AreaUnderCurve)即曲線下面積,它是基于ROC(ReceiverOperatingCharacteristic)曲線計算得到的。ROC曲線以假正率(FPR=FP/(FP+TN))為橫坐標,真正率(TPR=TP/(TP+FN),與召回率相同)為縱坐標,通過繪制不同分類閾值下的FPR和TPR值得到。AUC的取值范圍在0到1之間,AUC值越大,說明模型的分類性能越好。當AUC=0.5時,模型的預測效果等同于隨機猜測;當AUC=1時,模型能夠完美地將正負樣本區(qū)分開來。AUC的優(yōu)勢在于它不受樣本類別分布的影響,能夠綜合評估模型在不同閾值下的分類性能。在不平衡數(shù)據(jù)分類中,這一特性使得AUC能夠更客觀地評價模型的優(yōu)劣,因為它避免了由于樣本不平衡導致的評價偏差。在航班價格預測中,無論高票價航班(少數(shù)類)和普通票價航班(多數(shù)類)的數(shù)量比例如何,AUC都能準確地反映模型對不同價格類別的區(qū)分能力。AUC也存在一些缺點,它無法提供模型在具體某個分類閾值下的性能信息,而且在某些情況下,即使AUC值較高,模型在少數(shù)類樣本上的實際分類效果可能仍然不理想。如果模型在多數(shù)類樣本上的區(qū)分能力很強,但在少數(shù)類樣本上存在部分誤判,AUC值可能仍然較高,但這并不能說明模型在少數(shù)類樣本的預測上表現(xiàn)出色。三、航班價格數(shù)據(jù)特性與處理流程3.1數(shù)據(jù)來源與采集策略航班價格數(shù)據(jù)的來源具有多樣性,不同來源的數(shù)據(jù)各具特點和優(yōu)勢,共同為航班價格預測提供了豐富的信息基礎。航空公司官網(wǎng)是獲取航班價格數(shù)據(jù)的直接且關鍵的來源。各大航空公司會在其官方網(wǎng)站上實時更新航班的票價信息,這些數(shù)據(jù)包含了豐富的細節(jié),如不同艙位的具體價格、票價所包含的服務內容、航班的班次安排以及具體的日期等。以中國國際航空公司官網(wǎng)為例,用戶可以查詢到從北京飛往上海的各個航班在未來一段時間內的經(jīng)濟艙、商務艙和頭等艙的票價,以及不同票價對應的退改簽政策等詳細信息。官網(wǎng)數(shù)據(jù)的準確性和權威性極高,因為航空公司直接掌控著航班的運營和定價,能夠確保數(shù)據(jù)的及時更新和真實可靠。但官網(wǎng)數(shù)據(jù)也存在一定的局限性,通常僅涵蓋本航空公司的航班信息,數(shù)據(jù)的覆蓋范圍相對較窄,難以全面反映整個航空市場的價格動態(tài)。在線旅游平臺,如攜程、去哪兒、飛豬等,在航班價格數(shù)據(jù)獲取方面發(fā)揮著重要作用。這些平臺整合了眾多航空公司的機票信息,為用戶提供了一站式的查詢和預訂服務。它們的數(shù)據(jù)來源廣泛,通過與各大航空公司的系統(tǒng)對接,實時獲取航班的價格、艙位、余票等信息。攜程平臺不僅展示了國內各大航空公司的航班價格,還涵蓋了許多國際航班的信息,用戶可以方便地比較不同航空公司在同一航線、同一日期的價格差異,以及不同時間段的價格波動情況。在線旅游平臺的數(shù)據(jù)具有全面性和綜合性的優(yōu)勢,能夠為用戶提供更廣闊的選擇空間,也為研究人員分析市場整體價格趨勢提供了豐富的數(shù)據(jù)資源。然而,由于數(shù)據(jù)來源于多個航空公司,可能存在數(shù)據(jù)格式不一致、更新延遲等問題。不同航空公司提供的數(shù)據(jù)格式和字段定義可能存在差異,需要進行數(shù)據(jù)清洗和轉換才能進行統(tǒng)一分析;而且在數(shù)據(jù)傳輸和更新過程中,可能會出現(xiàn)一定的時間差,導致部分數(shù)據(jù)并非完全實時。行業(yè)數(shù)據(jù)報告也是航班價格數(shù)據(jù)的重要來源之一。民航局、航空咨詢公司等機構會定期發(fā)布關于機票價格的報告。這些報告基于大量的市場調研和數(shù)據(jù)分析,不僅包含了歷史價格走勢,還對市場供需關系、政策法規(guī)變化等因素對價格的影響進行了深入分析。民航局發(fā)布的年度航空運輸市場報告中,會詳細統(tǒng)計和分析國內各主要航線的平均票價變化情況,以及不同季節(jié)、不同時間段的價格波動特點,同時還會探討行業(yè)政策調整對機票價格的影響。行業(yè)數(shù)據(jù)報告的價值在于其專業(yè)性和宏觀性,能夠從行業(yè)整體的角度為航班價格預測提供參考和指導,幫助研究人員把握市場的宏觀趨勢和發(fā)展方向。但報告的數(shù)據(jù)通常具有一定的滯后性,因為數(shù)據(jù)收集、整理和分析需要一定的時間周期,無法及時反映市場的最新變化。公共數(shù)據(jù)平臺,如國家統(tǒng)計局、城市統(tǒng)計局等,提供的人口、經(jīng)濟、旅游等數(shù)據(jù),雖然并非直接的航班價格數(shù)據(jù),但與航班價格之間存在著密切的關聯(lián),對于分析航班價格的影響因素具有重要的參考價值。國家統(tǒng)計局發(fā)布的各地區(qū)人口流動數(shù)據(jù),可以幫助研究人員了解不同地區(qū)之間的人員往來需求,進而分析這些需求對相關航線航班價格的影響。如果某個城市的經(jīng)濟發(fā)展迅速,人口流動頻繁,那么該城市與其他城市之間的航線需求可能會增加,從而影響航班價格。公共數(shù)據(jù)平臺的數(shù)據(jù)具有權威性和廣泛性,能夠為航班價格預測提供多維度的外部因素分析,有助于更全面地理解航班價格的形成機制。但這些數(shù)據(jù)與航班價格之間的關系較為間接,需要通過復雜的數(shù)據(jù)分析和建模才能挖掘出其中的潛在聯(lián)系。在數(shù)據(jù)采集方法方面,網(wǎng)絡爬蟲是一種常用的技術手段。通過編寫程序模擬瀏覽器的行為,按照一定的規(guī)則自動訪問航空公司官網(wǎng)、在線旅游平臺等網(wǎng)站,提取其中的航班價格數(shù)據(jù)。在使用網(wǎng)絡爬蟲采集攜程平臺的航班價格數(shù)據(jù)時,可以利用Python的相關庫,如BeautifulSoup和Selenium。BeautifulSoup庫可以方便地解析網(wǎng)頁的HTML結構,提取出所需的航班信息,如航班號、出發(fā)地、目的地、價格等;而Selenium庫則可以模擬瀏覽器的操作,解決網(wǎng)頁動態(tài)加載的問題,確保能夠獲取到最新的價格數(shù)據(jù)。使用網(wǎng)絡爬蟲時需要注意遵守相關法律法規(guī),尊重網(wǎng)站的版權和使用規(guī)定,避免過度頻繁的訪問對網(wǎng)站服務器造成壓力,引發(fā)反爬蟲機制??梢栽O置合理的訪問間隔時間,隨機化請求頭信息,以降低被識別為爬蟲的風險。API接口調用也是一種高效的數(shù)據(jù)采集方式。許多航空公司和在線旅游平臺都提供了API接口,允許授權的開發(fā)者通過調用接口獲取特定的數(shù)據(jù)。航空公司為合作伙伴提供的API接口,可以讓開發(fā)者獲取到航班的實時價格、座位availability等信息。通過API接口調用獲取的數(shù)據(jù)通常具有更高的準確性和穩(wěn)定性,因為數(shù)據(jù)直接來自于數(shù)據(jù)源的核心系統(tǒng),且經(jīng)過了嚴格的驗證和處理。但使用API接口需要具備一定的技術能力和開發(fā)經(jīng)驗,同時需要與數(shù)據(jù)提供方進行溝通和協(xié)商,獲取合法的授權和使用權限。數(shù)據(jù)共享平臺也是獲取航班價格數(shù)據(jù)的途徑之一。一些專門的數(shù)據(jù)共享平臺會收集和整理各類數(shù)據(jù),其中可能包括航班價格數(shù)據(jù)。這些平臺通過與多個數(shù)據(jù)源合作,整合不同來源的數(shù)據(jù),為用戶提供一站式的數(shù)據(jù)獲取服務。在數(shù)據(jù)共享平臺上,研究人員可以找到來自不同航空公司和地區(qū)的航班價格數(shù)據(jù),并且可以根據(jù)自己的需求進行篩選和下載。使用數(shù)據(jù)共享平臺時需要注意數(shù)據(jù)的質量和可靠性,對數(shù)據(jù)進行必要的驗證和清洗,確保數(shù)據(jù)符合研究的要求。同時,還需要關注平臺的使用條款和隱私政策,保障數(shù)據(jù)的合法使用和個人隱私安全。3.2數(shù)據(jù)特征分析與提取在航班價格數(shù)據(jù)中,日期特征對價格有著顯著的影響。不同的日期,如工作日、周末、節(jié)假日以及旅游旺季和淡季等,航班價格往往呈現(xiàn)出明顯的差異。以節(jié)假日為例,春節(jié)、國慶等重要節(jié)假日期間,人們出行需求旺盛,尤其是旅游和探親訪友的需求激增,導致航班客座率大幅提高。航空公司為了平衡供需關系并實現(xiàn)收益最大化,通常會提高票價。據(jù)相關數(shù)據(jù)統(tǒng)計,在春節(jié)期間,熱門旅游航線(如北京-三亞)的機票價格相比平日可能會上漲30%-50%。旅游旺季也是影響航班價格的重要時間因素。在暑假期間,學生群體的出行需求大幅增加,許多家庭也會選擇在此時出游,使得旅游目的地的航班需求大增。像云南昆明、大理等熱門旅游城市,在暑假期間的航班價格會明顯高于其他時間段。相反,旅游淡季時,出行需求相對較低,航空公司為了吸引乘客,會推出各種優(yōu)惠活動,降低票價以提高客座率。在每年的11月至次年2月的旅游淡季,一些非熱門旅游航線的機票價格可能會出現(xiàn)較大幅度的折扣,甚至低至平日價格的3-5折。航線特征同樣是影響航班價格的關鍵因素。熱門航線由于其高需求和高客流量,價格通常相對較高。北京-上海這條航線,作為國內最繁忙的商務航線之一,每天往返的航班眾多,不僅商務出行的需求大,旅游和探親的乘客也不少。據(jù)市場監(jiān)測數(shù)據(jù)顯示,該航線的平均票價在一年中的大部分時間都維持在較高水平,經(jīng)濟艙全價票通常在1000-1500元左右。即使在旅游淡季,其票價也不會出現(xiàn)大幅下跌,因為商務出行的需求相對穩(wěn)定,對價格的敏感度較低。而一些冷門航線,由于客流量較小,航空公司為了提高客座率,往往會降低票價。一些偏遠地區(qū)之間的航線,或者連接經(jīng)濟欠發(fā)達地區(qū)的航線,由于出行需求有限,機票價格可能會相對較低。例如,從某三線城市到另一個經(jīng)濟不發(fā)達地區(qū)的航班,其票價可能只有熱門航線的一半甚至更低。航空公司作為航班的運營主體,其自身的定價策略、運營成本、市場定位和品牌形象等因素都會對航班價格產(chǎn)生重要影響。不同的航空公司在同一條航線上的價格可能會存在差異。一些大型航空公司,如中國國際航空、東方航空和南方航空,憑借其廣泛的航線網(wǎng)絡、優(yōu)質的服務和良好的品牌聲譽,在市場上具有較高的定價權。它們在熱門航線上的票價可能相對較高,但同時也提供更豐富的服務和更穩(wěn)定的航班時刻。而一些低成本航空公司,如春秋航空、九元航空等,以低價策略吸引乘客,通過減少服務項目、提高飛機利用率等方式降低運營成本,從而在市場上以較低的票價競爭。春秋航空在一些熱門旅游航線上,通過推出“9元機票”等特價活動,吸引了大量對價格敏感的乘客。即使在正常票價情況下,低成本航空公司的票價也通常會比大型航空公司低10%-30%。在特征提取和編碼方面,對于日期特征,可以采用多種方式進行提取??梢蕴崛≡路?、星期、工作日/周末等特征。將月份作為一個獨立的特征,不同的月份對應不同的出行需求和季節(jié)特點,對航班價格可能產(chǎn)生影響。在旅游旺季對應的月份,如7月和8月,航班價格往往較高;而在旅游淡季的月份,如1月和2月,價格可能相對較低。提取星期特征,周一至周五通常是商務出行的高峰期,而周末則是旅游和探親訪友的熱門時間,不同的星期可能會導致航班價格的波動。對于工作日/周末特征,可以將其編碼為0-1變量,0表示工作日,1表示周末,以便模型能夠更好地學習到不同時間類型對價格的影響。還可以提取節(jié)假日特征,將節(jié)假日編碼為1,非節(jié)假日編碼為0。通過這種方式,模型可以準確地識別出節(jié)假日期間航班價格的變化規(guī)律。對于航線特征,可以將出發(fā)地和目的地分別提取為獨立的特征。由于不同的城市對之間的航線需求和價格差異較大,將出發(fā)地和目的地作為特征可以幫助模型學習到不同航線的特點。還可以進一步提取航線的熱度特征,通過統(tǒng)計一段時間內該航線的客流量、搜索量等數(shù)據(jù),評估航線的熱門程度,并將其量化為一個數(shù)值特征。對于熱門航線,熱度值可以設置為較高的數(shù)值,如8-10;對于冷門航線,熱度值可以設置為較低的數(shù)值,如1-3。這樣,模型在學習過程中可以根據(jù)航線的熱度特征,更好地理解航線對航班價格的影響。對于航空公司特征,可以直接將航空公司的名稱作為一個類別特征。由于航空公司眾多,直接使用名稱可能會導致特征維度過高,影響模型的訓練效率和性能??梢圆捎锚殶峋幋a(One-HotEncoding)的方式對航空公司進行編碼。獨熱編碼是將每個類別映射為一個二進制向量,其中只有一個元素為1,其余元素為0。假設數(shù)據(jù)集中有5家航空公司,分別為A、B、C、D、E,那么對航空公司A進行獨熱編碼后,得到的向量可能是[1,0,0,0,0];對航空公司B進行編碼后,向量為[0,1,0,0,0],以此類推。通過這種方式,將航空公司的類別特征轉換為數(shù)值特征,便于模型進行處理和學習。還可以提取航空公司的一些屬性特征,如航空公司的規(guī)模(可以通過機隊數(shù)量、員工數(shù)量等指標衡量)、運營成本(包括燃油成本、人力成本等)等,這些特征可以進一步豐富模型對航空公司的理解,提高對航班價格的預測能力。3.3不平衡問題在航班數(shù)據(jù)中的表現(xiàn)及影響在航班價格數(shù)據(jù)中,不平衡問題主要體現(xiàn)在價格類別分布不均衡上。以價格區(qū)間劃分數(shù)據(jù)時,低價航班數(shù)據(jù)往往占據(jù)了大部分比例,成為多數(shù)類樣本;而高價航班數(shù)據(jù)則相對較少,屬于少數(shù)類樣本。在某一時間段內收集的北京-上海航線的航班價格數(shù)據(jù)中,低價航班(價格在500-800元區(qū)間)的樣本數(shù)量占比達到70%,而高價航班(價格在1200元以上)的樣本數(shù)量占比僅為10%,其余20%為中價航班數(shù)據(jù)。這種不平衡的價格類別分布在不同航線、不同時間段都普遍存在。節(jié)假日與平日價格數(shù)據(jù)的不均衡是航班數(shù)據(jù)不平衡的一個顯著表現(xiàn)。在春節(jié)、國慶等重要節(jié)假日期間,人們出行需求大幅增加,尤其是旅游和探親訪友的需求集中爆發(fā)。航空公司為了平衡供需關系并實現(xiàn)收益最大化,通常會提高票價。這些節(jié)假日期間的航班價格數(shù)據(jù)在整個數(shù)據(jù)集中所占比例相對較小,但價格波動幅度較大,與平日的航班價格數(shù)據(jù)存在明顯差異。據(jù)統(tǒng)計,春節(jié)期間北京-三亞航線的平均票價相比平日可能會上漲50%-80%。在平日,該航線的航班價格相對穩(wěn)定,數(shù)據(jù)分布較為集中;而在春節(jié)期間,由于票價的大幅上漲以及不同艙位、不同預訂時間的價格差異,數(shù)據(jù)變得更加分散,且在數(shù)據(jù)集中所占比例較低。旅游旺季和淡季的價格數(shù)據(jù)也呈現(xiàn)出明顯的不平衡。在暑假等旅游旺季,許多家庭會選擇出游,學生群體的出行需求也大幅增加,導致熱門旅游目的地的航班需求大增。像云南昆明、大理等熱門旅游城市,在旅游旺季期間的航班價格會明顯高于淡季。旅游旺季的航班價格數(shù)據(jù)在整個數(shù)據(jù)集中屬于少數(shù)類,但由于其需求的特殊性,價格往往處于較高水平,且變化較為復雜。相反,在旅游淡季,出行需求相對較低,航空公司為了吸引乘客,會推出各種優(yōu)惠活動,降低票價以提高客座率。此時的航班價格數(shù)據(jù)相對較多,屬于多數(shù)類樣本,但價格普遍較低且波動較小。在每年的11月至次年2月的旅游淡季,一些非熱門旅游航線的機票價格可能會出現(xiàn)較大幅度的折扣,甚至低至旺季價格的3-5折。這種不平衡的數(shù)據(jù)分布對預測模型產(chǎn)生了多方面的影響。在模型訓練過程中,由于多數(shù)類樣本(如平日普通價格航班數(shù)據(jù))數(shù)量上的絕對優(yōu)勢,模型容易過度學習多數(shù)類樣本的特征,而忽略少數(shù)類樣本(如節(jié)假日、旅游旺季的高價格航班數(shù)據(jù))的特征。這是因為在傳統(tǒng)的機器學習算法中,模型的目標通常是最小化整體的誤差,而多數(shù)類樣本的大量存在使得它們對誤差的貢獻更大,從而主導了模型的學習方向。以決策樹算法為例,決策樹在構建過程中會根據(jù)樣本的特征和類別信息選擇最優(yōu)的分裂點,以實現(xiàn)樣本的最大純度劃分。在不平衡數(shù)據(jù)集中,多數(shù)類樣本的特征會在分裂過程中被更多地考慮,導致決策樹傾向于生成對多數(shù)類樣本分類準確的規(guī)則,而對少數(shù)類樣本的分類能力較弱。當決策樹基于大量的平日航班價格數(shù)據(jù)進行訓練時,可能會學習到一些與平日價格相關的特征模式,但對于節(jié)假日期間價格的特殊變化規(guī)律卻無法有效捕捉。不平衡數(shù)據(jù)還會導致模型的泛化能力下降。由于模型過度擬合多數(shù)類樣本,當遇到少數(shù)類樣本時,無法準確地對其進行分類或預測。在航班價格預測中,如果模型不能準確學習到節(jié)假日、旅游旺季等特殊時期航班價格的變化規(guī)律,那么在預測這些時期的航班價格時,就會出現(xiàn)較大的偏差。當模型在訓練過程中主要學習了平日航班價格的穩(wěn)定特征,而沒有充分考慮到節(jié)假日期間價格的大幅波動和復雜變化,那么在預測節(jié)假日航班價格時,可能會低估或高估價格,無法為航空公司和乘客提供準確的價格預測信息。這對于航空公司制定合理的定價策略和乘客規(guī)劃出行都帶來了很大的困擾,可能導致航空公司在特殊時期的收益受損,乘客無法在合適的時機購買到價格合理的機票。3.4數(shù)據(jù)預處理與清洗策略在航班價格數(shù)據(jù)中,缺失值是一個常見的問題,需要采取合適的方法進行處理。以某一航線的航班價格數(shù)據(jù)集為例,其中部分記錄的票價信息存在缺失。對于這些缺失值,可以采用均值填充的方法進行處理。首先,計算該航線所有非缺失票價的平均值,假設平均值為800元。然后,將缺失票價的記錄用這個平均值進行填充。這種方法簡單直觀,適用于數(shù)據(jù)分布較為均勻,且缺失值數(shù)量相對較少的情況。在航班價格數(shù)據(jù)中,當大部分航班價格圍繞某個均值波動時,均值填充能夠在一定程度上保留數(shù)據(jù)的整體特征。但均值填充也存在局限性,它可能會掩蓋數(shù)據(jù)的真實分布情況,尤其是當數(shù)據(jù)存在異常值時,均值可能會受到異常值的影響而偏離真實的中心趨勢。對于存在明顯時間序列特征的航班價格數(shù)據(jù),如連續(xù)一段時間內的每日航班價格記錄,均值移動填充是一種更為合適的方法。假設我們有一周內某航線的每日航班價格數(shù)據(jù),其中周三的價格出現(xiàn)缺失。均值移動填充會根據(jù)周二和周四的價格來計算填充值。如果周二價格為750元,周四價格為850元,那么可以取這兩天價格的平均值(750+850)/2=800元來填充周三的缺失值。這種方法考慮了數(shù)據(jù)的時間順序和相鄰數(shù)據(jù)之間的關聯(lián)性,能夠更好地反映數(shù)據(jù)的變化趨勢。在航班價格隨時間呈現(xiàn)穩(wěn)定變化趨勢的情況下,均值移動填充可以有效地填充缺失值,并且保持數(shù)據(jù)的連貫性。但如果數(shù)據(jù)存在較大的波動或異常變化,均值移動填充可能會產(chǎn)生較大的誤差。異常值的存在會嚴重影響航班價格預測模型的性能,因此需要對其進行識別和處理。箱線圖是一種常用的異常值識別方法。以航班價格數(shù)據(jù)為例,首先計算數(shù)據(jù)的四分位數(shù)。假設第一四分位數(shù)(Q1)為600元,第三四分位數(shù)(Q3)為1000元,那么四分位距(IQR)=Q3-Q1=400元。根據(jù)箱線圖的規(guī)則,異常值被定義為小于Q1-1.5*IQR或大于Q3+1.5*IQR的數(shù)據(jù)點。在這個例子中,小于600-1.5*400=0元(實際情況中價格不能為負,可設定一個下限,如100元)或大于1000+1.5*400=1600元的航班價格數(shù)據(jù)點可被視為異常值。對于識別出的異常值,可以根據(jù)具體情況進行處理。如果異常值是由于數(shù)據(jù)錄入錯誤或其他明顯的錯誤導致的,可以直接將其刪除。在數(shù)據(jù)集中發(fā)現(xiàn)某個航班價格被錯誤錄入為10000元,遠超出正常價格范圍,且經(jīng)過核實確認是錄入錯誤,就可以將這條記錄刪除。但如果異常值是真實存在的,反映了特殊情況下的航班價格,如節(jié)假日、旅游旺季等特殊時期的高價機票,那么可以對其進行修正。對于一個在春節(jié)期間價格高達2000元的航班價格數(shù)據(jù)點,雖然超出了正常價格范圍,但這是合理的特殊情況,此時可以對其進行標記,或者通過一些統(tǒng)計方法對其進行修正,使其既能反映特殊情況,又不會對模型訓練產(chǎn)生過大的干擾??梢圆捎梅€(wěn)健統(tǒng)計方法,如M估計量,對異常值進行修正,使其更符合數(shù)據(jù)的整體分布特征。數(shù)據(jù)標準化和歸一化是提高數(shù)據(jù)質量和模型性能的重要步驟。最大最小標準化是一種常用的歸一化方法,它將數(shù)據(jù)映射到[0,1]區(qū)間。對于航班價格數(shù)據(jù),假設原始價格數(shù)據(jù)的最小值為500元,最大值為2000元。對于一個價格為1000元的數(shù)據(jù)點,經(jīng)過最大最小標準化后的結果為(1000-500)/(2000-500)≈0.33。這種方法能夠將不同量綱的數(shù)據(jù)轉化為統(tǒng)一的尺度,消除量綱對模型訓練的影響,使得模型能夠更好地學習數(shù)據(jù)的特征。在航班價格數(shù)據(jù)中,不同航線、不同時間段的價格范圍可能差異較大,通過最大最小標準化,可以將這些價格數(shù)據(jù)統(tǒng)一到相同的尺度,便于模型進行比較和分析。Z-score標準化則是將數(shù)據(jù)轉化為均值為0,標準差為1的標準正態(tài)分布。對于航班價格數(shù)據(jù),假設某航線的航班價格均值為800元,標準差為200元。一個價格為1200元的數(shù)據(jù)點,經(jīng)過Z-score標準化后的結果為(1200-800)/200=2。Z-score標準化能夠突出數(shù)據(jù)的相對位置和分布特征,對于一些對數(shù)據(jù)分布敏感的模型,如基于高斯分布假設的模型,Z-score標準化可以提高模型的性能。在航班價格預測中,如果使用的模型對數(shù)據(jù)的正態(tài)分布假設較為敏感,那么Z-score標準化可以使數(shù)據(jù)更符合模型的要求,從而提升預測的準確性。四、基于不平衡數(shù)據(jù)分類的預測模型構建4.1模型選擇與組合策略在航班價格預測中,單一分類模型和集成分類模型各有其獨特的特點和適用場景,需要深入對比分析它們的性能,以選擇最為合適的模型,并設計有效的組合策略。單一分類模型具有結構相對簡單、易于理解和訓練的優(yōu)點。以邏輯回歸模型為例,它是一種經(jīng)典的線性分類模型,通過構建線性方程來描述輸入特征與輸出類別之間的關系。在航班價格預測中,邏輯回歸模型可以將航班的日期、航線、航空公司等特征作為輸入,通過對這些特征的線性組合和邏輯函數(shù)的轉換,預測航班價格所屬的類別(如低價、中價、高價)。邏輯回歸模型的優(yōu)點在于計算效率高,訓練速度快,并且模型的參數(shù)具有明確的解釋性,能夠直觀地反映各個特征對航班價格的影響方向和程度。但邏輯回歸模型也存在明顯的局限性,它假設特征與價格之間存在線性關系,而在實際的航班價格數(shù)據(jù)中,這種關系往往是非線性的,這就導致邏輯回歸模型在處理復雜數(shù)據(jù)時的擬合能力不足,預測準確性受限。在面對節(jié)假日、旅游旺季等特殊時期航班價格的復雜變化時,邏輯回歸模型可能無法準確捕捉到價格與各因素之間的非線性關系,從而導致預測偏差較大。決策樹模型也是一種常用的單一分類模型,它通過對特征進行遞歸劃分,構建樹形結構來進行分類預測。在航班價格預測中,決策樹可以根據(jù)不同的特征(如日期、航線熱度、航空公司等)對數(shù)據(jù)進行逐步劃分,每個內部節(jié)點表示一個特征,每個分支表示一個劃分條件,每個葉節(jié)點表示一個預測結果。決策樹模型的優(yōu)勢在于能夠自動處理特征之間的交互作用,對數(shù)據(jù)的分布沒有嚴格要求,并且模型的可解釋性強,通過樹形結構可以清晰地展示決策過程。決策樹模型也存在一些問題,容易出現(xiàn)過擬合現(xiàn)象,尤其是在數(shù)據(jù)量較小或者特征較多的情況下,決策樹可能會過度學習訓練數(shù)據(jù)中的噪聲和細節(jié),導致模型在測試數(shù)據(jù)上的泛化能力下降。決策樹對數(shù)據(jù)的微小變化比較敏感,數(shù)據(jù)的輕微擾動可能會導致決策樹結構的大幅改變,從而影響模型的穩(wěn)定性。集成分類模型則通過組合多個弱分類器,能夠有效提升模型的性能和泛化能力。隨機森林作為一種典型的集成分類模型,它基于Bagging算法,通過對樣本和特征的雙重隨機抽樣,構建多個決策樹,并將這些決策樹的預測結果進行綜合。在航班價格預測中,隨機森林中的每棵決策樹都基于不同的樣本子集和特征子集進行訓練,它們從不同的角度學習航班價格與各種影響因素之間的關系。在預測階段,隨機森林采用投票(對于分類任務)或平均(對于回歸任務)的方式,綜合各決策樹的預測結果,得到最終的預測值。隨機森林的優(yōu)點在于具有較強的抗干擾能力和泛化性能,能夠有效降低過擬合風險,對不平衡數(shù)據(jù)的處理能力也相對較強。由于隨機森林綜合了多個決策樹的預測結果,能夠充分利用數(shù)據(jù)中的信息,減少單一決策樹可能出現(xiàn)的偏差,從而提高預測的準確性和穩(wěn)定性。在選擇模型時,需要綜合考慮多個因素。對于數(shù)據(jù)量較小、特征相對簡單且數(shù)據(jù)分布較為均勻的航班價格數(shù)據(jù)集,單一分類模型中的邏輯回歸模型可能是一個不錯的選擇,因為它計算簡單、訓練速度快,能夠快速給出預測結果。但如果數(shù)據(jù)量較大、特征復雜且存在明顯的非線性關系,或者數(shù)據(jù)不平衡問題較為嚴重,集成分類模型如隨機森林則更具優(yōu)勢。隨機森林能夠通過多個決策樹的集成,更好地學習數(shù)據(jù)中的復雜模式,并且對不平衡數(shù)據(jù)的適應性更強,能夠在不同的場景下保持較好的預測性能。為了進一步提高航班價格預測的準確性,還可以采用模型組合策略。一種常見的策略是將多個不同類型的模型進行融合,充分發(fā)揮它們各自的優(yōu)勢??梢詫⑦壿嫽貧w模型和隨機森林模型進行融合。邏輯回歸模型能夠快速捕捉數(shù)據(jù)中的線性關系,而隨機森林模型則擅長處理非線性關系和不平衡數(shù)據(jù)。在融合過程中,可以將邏輯回歸模型的預測結果和隨機森林模型的預測結果作為新的特征,輸入到一個元模型(如多層感知機)中進行二次學習。在航班價格預測中,首先分別使用邏輯回歸模型和隨機森林模型對航班價格進行預測,得到兩個預測結果。然后,將這兩個預測結果與原始數(shù)據(jù)的特征一起作為輸入,輸入到多層感知機中進行訓練。多層感知機通過學習這些輸入特征與實際航班價格之間的關系,綜合兩個模型的優(yōu)勢,得到更準確的預測結果。還可以采用Stacking集成學習框架進行模型組合。Stacking框架將多個基模型的預測結果作為新的特征,輸入到一個元模型中進行最終的預測。在航班價格預測中,可以選擇決策樹、支持向量機和樸素貝葉斯等作為基模型,通過對這些基模型的訓練和預測,得到它們對航班價格的預測結果。然后,將這些預測結果作為新的特征,輸入到邏輯回歸模型或神經(jīng)網(wǎng)絡模型等元模型中進行訓練和預測。Stacking框架能夠充分利用不同基模型在不同數(shù)據(jù)特征和模式上的優(yōu)勢,通過元模型的學習和融合,提高整體模型的預測性能。通過合理選擇和組合模型,可以有效提升航班價格預測的準確性和穩(wěn)定性,更好地滿足航空公司和乘客對航班價格預測的需求。4.2模型訓練與優(yōu)化過程在完成模型選擇與組合策略的確定后,便進入到關鍵的模型訓練與優(yōu)化階段。以選擇隨機森林和神經(jīng)網(wǎng)絡組合的模型為例,其訓練過程具有明確的步驟和參數(shù)設置。隨機森林模型在訓練時,首先確定決策樹的數(shù)量,這是影響模型性能的重要參數(shù)之一。經(jīng)過多次實驗和調優(yōu),發(fā)現(xiàn)將決策樹數(shù)量設定為100時,模型在準確性和計算效率之間能夠達到較好的平衡。決策樹數(shù)量過少,模型可能無法充分學習數(shù)據(jù)的特征,導致擬合不足;而決策樹數(shù)量過多,則會增加模型的計算復雜度,延長訓練時間,甚至可能出現(xiàn)過擬合現(xiàn)象。對于每棵決策樹的最大深度,設置為8。合適的最大深度可以防止決策樹過度生長,避免過擬合問題。如果最大深度過大,決策樹可能會學習到訓練數(shù)據(jù)中的噪聲和細節(jié),導致在測試數(shù)據(jù)上的泛化能力下降;而最大深度過小,決策樹可能無法充分挖掘數(shù)據(jù)的內在結構,影響模型的預測能力。在節(jié)點分裂時,選擇信息增益作為分裂準則,這種準則能夠有效地衡量特征對樣本分類的貢獻程度,幫助決策樹選擇最優(yōu)的分裂特征,提高分類的準確性。通過這些參數(shù)設置,隨機森林模型能夠基于訓練數(shù)據(jù)集中的航班價格數(shù)據(jù)及其相關特征,構建起包含100棵決策樹的集成模型,每棵決策樹根據(jù)信息增益準則對數(shù)據(jù)進行逐步分裂和學習,從不同角度捕捉航班價格與各影響因素之間的關系。神經(jīng)網(wǎng)絡模型的訓練同樣需要精細的參數(shù)設置和訓練步驟。采用Adam優(yōu)化器來更新模型的參數(shù),Adam優(yōu)化器結合了Adagrad和Adadelta的優(yōu)點,能夠自適應地調整學習率,在訓練過程中表現(xiàn)出較快的收斂速度和較好的穩(wěn)定性。將學習率設置為0.001,這是經(jīng)過多次試驗確定的較為合適的數(shù)值。學習率過大,模型在訓練過程中可能會跳過最優(yōu)解,導致無法收斂;學習率過小,則會使訓練過程變得緩慢,需要更多的訓練時間和計算資源。神經(jīng)網(wǎng)絡的隱藏層設置為3層,每層的神經(jīng)元數(shù)量分別為64、32和16。隱藏層的數(shù)量和神經(jīng)元數(shù)量對模型的學習能力和表達能力有著重要影響。隱藏層數(shù)量過少,模型可能無法學習到數(shù)據(jù)中的復雜模式;隱藏層數(shù)量過多,則可能導致模型過擬合,增加訓練的復雜性。每層的神經(jīng)元數(shù)量也需要根據(jù)數(shù)據(jù)的特征和模型的需求進行合理調整,以確保模型能夠充分學習到航班價格數(shù)據(jù)中的特征信息。在訓練過程中,采用交叉熵損失函數(shù)來衡量模型的預測值與真實值之間的差異。交叉熵損失函數(shù)在分類問題中能夠有效地反映模型的預測準確性,通過最小化交叉熵損失,模型不斷調整參數(shù),提高對航班價格的預測能力。將訓練的輪數(shù)(epoch)設置為100,這意味著模型會對訓練數(shù)據(jù)進行100次的學習和參數(shù)更新。通過多輪訓練,模型能夠逐漸學習到數(shù)據(jù)中的規(guī)律,提高預測的準確性。但訓練輪數(shù)也并非越多越好,過多的訓練輪數(shù)可能會導致過擬合,因此需要根據(jù)模型在驗證集上的表現(xiàn)進行合理調整。在模型訓練過程中,驗證數(shù)據(jù)起著至關重要的作用,用于評估模型的性能并進行優(yōu)化。將預處理后的數(shù)據(jù)集按照70%訓練集、20%驗證集和10%測試集的比例進行劃分。在每一輪訓練結束后,使用驗證集對模型進行評估,計算模型在驗證集上的準確率、召回率、F1值等評價指標。如果模型在驗證集上的準確率持續(xù)上升,而召回率和F1值也保持穩(wěn)定或有所提升,說明模型的訓練效果良好,能夠有效地學習到數(shù)據(jù)的特征,對航班價格的預測能力不斷增強。但如果在訓練過程中發(fā)現(xiàn)模型在驗證集上的準確率開始下降,而召回率和F1值也出現(xiàn)明顯下滑,這可能是模型出現(xiàn)了過擬合的信號。此時,需要采取相應的優(yōu)化措施,如調整模型的參數(shù),減少決策樹的數(shù)量或降低神經(jīng)網(wǎng)絡隱藏層的神經(jīng)元數(shù)量,以降低模型的復雜度;或者采用正則化方法,如L1和L2正則化,對模型進行約束,防止過擬合。還可以調整訓練數(shù)據(jù)的分布,通過重采樣等方法增加少數(shù)類樣本的數(shù)量,使訓練數(shù)據(jù)更加均衡,從而提高模型對少數(shù)類樣本(如節(jié)假日、旅游旺季等特殊時期的航班價格數(shù)據(jù))的學習能力。通過不斷地在驗證集上進行評估和優(yōu)化,模型能夠在訓練過程中不斷改進,提高對航班價格的預測準確性和穩(wěn)定性。4.3案例分析與模型驗證以北京-上海航線的航班價格預測為例,對所構建的預測模型進行深入的案例分析與驗證,全面展示模型在實際應用中的性能表現(xiàn)。在數(shù)據(jù)收集階段,通過網(wǎng)絡爬蟲技術從攜程、去哪兒等多個在線旅游平臺以及中國國際航空、東方航空、南方航空等主要航空公司官網(wǎng),收集了該航線過去一年的航班價格數(shù)據(jù)。同時,從國家統(tǒng)計局獲取了北京和上海兩地的經(jīng)濟數(shù)據(jù),從相關旅游網(wǎng)站收集了兩地的旅游熱度數(shù)據(jù),作為輔助分析的外部因素數(shù)據(jù)。在數(shù)據(jù)清洗過程中,發(fā)現(xiàn)部分數(shù)據(jù)存在缺失值,如個別航班的票價信息缺失。對于這些缺失值,采用均值填充的方法進行處理,即計算該航線同時間段、同艙位、同航空公司的航班票價均值,用該均值填充缺失值。還通過箱線圖識別出一些異常值,如某些價格明顯偏離正常范圍的航班記錄,經(jīng)核實為數(shù)據(jù)錄入錯誤,將這些異常值刪除。經(jīng)過數(shù)據(jù)清洗后,對數(shù)據(jù)進行特征提取。對于日期特征,提取了月份、星期、是否為節(jié)假日等信息。將月份作為一個連續(xù)特征,取值范圍為1-12;星期則編碼為0-6,分別代表周一至周日;對于是否為節(jié)假日,采用0-1編碼,0表示非節(jié)假日,1表示節(jié)假日。在航線特征方面,將北京-上海航線作為一個特定的類別特征,同時提取了該航線的歷史客流量數(shù)據(jù),作為航線熱度的衡量指標。對于航空公司特征,采用獨熱編碼方式,將中國國際航空、東方航空、南方航空等分別編碼為不同的向量。在模型訓練階段,將處理后的數(shù)據(jù)集按照70%訓練集、20%驗證集和10%測試集的比例進行劃分。以隨機森林和神經(jīng)網(wǎng)絡組合的模型為例,對隨機森林模型,設置決策樹數(shù)量為100,最大深度為8,節(jié)點分裂準則為信息增益。對神經(jīng)網(wǎng)絡模型,采用Adam優(yōu)化器,學習率設置為0.001,隱藏層設置為3層,每層神經(jīng)元數(shù)量分別為64、32和16,損失函數(shù)采用交叉熵損失函數(shù),訓練輪數(shù)為100。在訓練過程中,通過驗證集不斷調整模型參數(shù),觀察模型在驗證集上的準確率、召回率和F1值等指標的變化情況。當模型在驗證集上的準確率不再提升,且召回率和F1值開始下降時,停止訓練,認為模型達到了較好的性能狀態(tài)。模型訓練完成后,使用測試集對模型進行驗證。將測試集中的航班數(shù)據(jù)輸入到訓練好的模型中,得到預測的航班價格。將預測價格與實際價格進行對比,計算相關評價指標。以某一時間段內的100個航班樣本為例,模型預測價格與實際價格的對比如表1所示:航班序號實際價格(元)預測價格(元)誤差(元)1850830-20210001020203920900-20............10011501130-20通過計算,該模型在這100個航班樣本上的平均絕對誤差(MAE)為25元,均方根誤差(RMSE)為30元,決定系數(shù)(R2)為0.85。平均絕對誤差反映了預測價格與實際價格的平均絕對偏差,25元的MAE表明模型的預測價格與實際價格的平均偏差較小;均方根誤差則對較大的誤差給予了更大的權重,30元的RMSE說明模型在處理個別偏差較大的樣本時表現(xiàn)尚可;決定系數(shù)R2衡量了模型對數(shù)據(jù)的擬合優(yōu)度,0.85的R2值表明模型能夠解釋85%的航班價格變化,具有較好的擬合效果。與實際情況對比,在春節(jié)期間,該航線的實際航班價格出現(xiàn)了明顯上漲,模型準確地預測到了價格的上升趨勢,且預測價格與實際價格的偏差在可接受范圍內。在旅游淡季,模型也能較好地捕捉到價格的下降趨勢,為乘客和航空公司提供了有價值的價格預測信息。五、實驗設計與結果解讀5.1實驗方案設計在本次實驗中,數(shù)據(jù)集的劃分遵循科學且嚴謹?shù)脑瓌t,以確保模型訓練和評估的準確性與可靠性。將收集到的航班價格數(shù)據(jù)集按照70%、20%和10%的比例劃分為訓練集、驗證集和測試集。訓練集用于模型的訓練,使模型能夠學習到航班價格與各種影響因素之間的關系;驗證集在模型訓練過程中發(fā)揮著重要作用,用于評估模型的性能,通過監(jiān)控模型在驗證集上的表現(xiàn),如準確率、召回率、F1值等指標的變化,及時調整模型的參數(shù),防止模型過擬合或欠擬合;測試集則用于對訓練完成后的模型進行最終的評估,以驗證模型在未知數(shù)據(jù)上的泛化能力。為了全面、準確地評估模型在航班價格預測任務中的性能,選擇了多個評價指標。準確率作為一個基礎的評價指標,直觀地反映了模型預測正確的樣本數(shù)量占總樣本數(shù)量的比例,它能夠從整體上衡量模型的預測能力。召回率對于評估模型對少數(shù)類樣本(如節(jié)假日、旅游旺季等特殊時期的高價格航班數(shù)據(jù))的捕捉能力具有重要意義,它表示在實際為正類(高價格航班)的樣本中,被正確預測為正類的樣本比例。F1值綜合考慮了精確率和召回率,通過調和平均數(shù)的方式平衡了兩者之間的關系,能夠更全面地評估模型在查準和查全方面的性能。AUC(AreaUnderCurve)基于ROC(ReceiverOperatingCharacteristic)曲線計算得到,它不受樣本類別分布的影響,能夠綜合評估模型在不同閾值下的分類性能,在不平衡數(shù)據(jù)分類中,能夠更客觀地評價模型的優(yōu)劣。在對比實驗中,選擇了多種常見的預測方法作為對比,以凸顯本研究模型的優(yōu)勢。邏輯回歸模型作為一種經(jīng)典的線性分類模型,具有計算效率高、模型參數(shù)可解釋性強的特點,將其作為對比模型之一,用于評估本研究模型在處理非線性關系時的優(yōu)勢。決策樹模型能夠自動處理特征之間的交互作用,對數(shù)據(jù)的分布沒有嚴格要求,但容易出現(xiàn)過擬合現(xiàn)象,通過與決策樹模型對比,可以驗證本研究模型在抗過擬合方面的能力。隨機森林模型作為一種強大的集成學習模型,在處理不平衡數(shù)據(jù)和復雜數(shù)據(jù)關系時表現(xiàn)出色,與隨機森林模型進行對比,能夠直觀地展示本研究模型在性能提升方面的效果。還選擇了支持向量機(SVM)模型,SVM在小樣本、非線性分類問題上具有獨特的優(yōu)勢,通過對比可以進一步說明本研究模型在不同場景下的適用性和優(yōu)越性。這些對比模型在航班價格預測領域都有一定的應用,通過與它們進行比較,可以更全面、客觀地評估本研究模型的性能,為模型的改進和優(yōu)化提供有力的參考。5.2實驗結果呈現(xiàn)經(jīng)過嚴謹?shù)膶嶒炦^程,不同模型在航班價格預測任務中的性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論