版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
計算機研究與發(fā)展DOI:10.7544/issn1000-1239.202110780JournalofComputerResearchandDevelopment60(1):59?84,2023因果機器學(xué)習(xí)的前沿進展綜述1(中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室(中國科學(xué)院計算技術(shù)研究所)北京100190)2(中國科學(xué)院大學(xué)北京100049)3(清華大學(xué)智能產(chǎn)業(yè)研究院北京100086)4(中國科學(xué)院計算技術(shù)研究所數(shù)據(jù)智能系統(tǒng)研究中心北京100190) (lijianing@)OverviewoftheFrontierProgressofCausalMachineLearningLiJianing1,2,XiongRuibin1,2,LanYanyan3,PangLiang4,GuoJiafeng1,2,andChengXueqi1,21(CASKeyLaboratoryofNetworkDataScienceandTechnology(InstituteofComputingTechnology,ChineseAcademyofSciences),Beijing100190)2(UniversityofChineseAcademyofSciences,Beijing100049)3(InstituteforAIIndustryResearch,TsinghuaUniversity,Beijing100086)4(DataIntelligenceSystemResearchCenter,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190)AbstractMachinelearningisoneoftheimportanttechnicalmeanstorealizeartificialintelligence,andithasimportantapplicationsinthefieldsofcomputervision,naturallanguageprocessing,searchenginesandrecommendationsystems.Existingmachinelearningmethodsoftenfocusonthecorrelationsinthedataandignorethecausality.Withtheincreaseinapplicationrequirements,theirdrawbackshavegraduallybeguntoappear,facingaseriesofurgentproblemsintermsofinterpretability,transferability,robustness,andfairness.Inordertosolvetheseproblems,researchershavebeguntore-examinethenecessityofmodelingcausalrelationship,andrelatedmethodshavebecomeoneoftherecentresearchhotspots.Weorganizeandsummarizetheworkofapplyingcausaltechniquesandideastosolvepracticalproblemsinthefieldofmachinelearninginrecentyears,andsortoutthedevelopmentvenationofthisemergingresearchdirection.First,webrieflyintroducethecloselyrelatedcausaltheorytomachinelearning.Then,weclassifyandintroduceeachworkbasedontheneedsofdifferentproblemsinmachinelearning,explaintheirdifferencesandconnectionsfromtheperspectiveofsolutionideasandtechnicalmeans.Finally,wesummarizethecurrentsituationofcausalmachinelearning,andmakepredictionsandprospectsforfuturedevelopmenttrends.Keywordscausalrelationship;spuriouscorrelation;causalinference;machinelearning;deeplearning;artificialintelligence摘要機器學(xué)習(xí)是實現(xiàn)人工智能的重要技術(shù)手段之一,在計算機視覺、自然語言處理、搜索引擎與推薦系統(tǒng)等領(lǐng)域有著重要應(yīng)用.現(xiàn)有的機器學(xué)習(xí)方法往往注重數(shù)據(jù)中的相關(guān)關(guān)系而忽視其中的因果關(guān)系,而隨收稿日期:2021?07?23;修回日期:2021?11?15家項目;重慶市基礎(chǔ)科學(xué)與前沿技術(shù)研究專項項目(重點)(cstc2017jcyjBX0059)ThisworkwassupportedbytheNationalNaturalScienceFoundationofChina(61722211,61773362,61906180),theYouthInnovationPromotionAssociationCAS(20144310),theLenovo-CASJointLabYouthScientistProject,andtheProjectofChongqingResearchProgramofBasicResearchandFrontierTechnology(cstc2017jcyjBX0059).通信作者:蘭艷艷(lanyanyan@)計算機研究與發(fā)展2023,60(1)著應(yīng)用需求的提高,其弊端也逐漸開始顯現(xiàn),在可解釋性、可遷移性、魯棒性和公平性等方面面臨一系列亟待解決的問題.為了解決這些問題,研究者們開始重新審視因果關(guān)系建模的必要性,相關(guān)方法也成為近期的研究熱點之一.在此對近年來在機器學(xué)習(xí)領(lǐng)域中應(yīng)用因果技術(shù)和思想解決實際問題的工作進行整理和總結(jié),梳理出這一新興研究方向的發(fā)展脈絡(luò).首先對與機器學(xué)習(xí)緊密相關(guān)的因果理論做簡要介紹;然后以機器學(xué)習(xí)中的不同問題需求為劃分依據(jù)對各工作進行分類介紹,從求解思路和技術(shù)手段的視角闡釋其區(qū)別與聯(lián)系;最后對因果機器學(xué)習(xí)的現(xiàn)狀進行總結(jié),并對未來發(fā)展趨勢做出預(yù)測和展望.關(guān)鍵詞因果關(guān)系;偽相關(guān)關(guān)系;因果推斷;機器學(xué)習(xí);深度學(xué)習(xí);人工智能中圖法分類號TP181機器學(xué)習(xí)是一門研究如何設(shè)計算法、利用數(shù)據(jù)使機器在特定任務(wù)上取得更優(yōu)表現(xiàn)的學(xué)科,其中以深度學(xué)習(xí)[1]為代表的相關(guān)技術(shù)已成為人們研究實現(xiàn)人工智能方法的重要手段之一.至今機器學(xué)習(xí)研究已經(jīng)取得大量令人矚目的成就:在圖像分類任務(wù)上的識別準(zhǔn)確率超過人類水平[2];能夠生成人類無法輕易識別的逼真圖像[3]和文本[4];在圍棋項目中擊敗人類果[6]等.目前機器學(xué)習(xí)在計算機視覺、自然語言處理、搜索引擎與推薦系統(tǒng)等領(lǐng)域發(fā)揮著不可替代的作用,相關(guān)應(yīng)用涉及互聯(lián)網(wǎng)、安防、醫(yī)療、交通和金融等眾多行業(yè),對社會發(fā)展起到了有力的促進作用.盡管機器學(xué)習(xí)研究獲得了一系列豐碩的成果,其自身的問題卻隨著應(yīng)用需求的提高而日益凸顯.機器學(xué)習(xí)模型往往在給出預(yù)測結(jié)果的同時不會解釋其中的理由,以至于其行為難以被人理解[7];同時機器學(xué)習(xí)模型還十分脆弱,在輸入數(shù)據(jù)受到擾動時可能完全改變其預(yù)測結(jié)果,即使這些擾動在人看來是難以察覺的[8];機器學(xué)習(xí)模型還容易產(chǎn)生歧視行為,對不同性別或種族的人群給予不同的預(yù)測傾向,即使這些敏感特征不應(yīng)當(dāng)成為決策的原因[9].這些問題嚴(yán)重限制了機器學(xué)習(xí)在實際應(yīng)用中發(fā)揮進一步的作用.造成這一系列問題的一個關(guān)鍵原因是對因果關(guān)系的忽視.因果關(guān)系,指的是2個事物之間,改變一者將會影響另一者的關(guān)系.然而其與相關(guān)關(guān)系有所不同,即使2個事物之間存在相關(guān)關(guān)系,也未必意味著它們之間存在因果關(guān)系.例如圖像中草地與牛由于常在一起出現(xiàn)而存在正相關(guān)關(guān)系,然而兩者之間卻沒有必然的因果關(guān)系,單純將草地改為沙地并不會改變圖像中物體為牛的本質(zhì).機器學(xué)習(xí)的問題在于其模型的訓(xùn)練過程僅僅是在建模輸入與輸出變量之間的相關(guān)關(guān)系,例如一個識別圖像中物體類別的機器學(xué)習(xí)模型容易將沙地上的牛識別為駱駝,是因為訓(xùn)練數(shù)據(jù)中的牛一般出現(xiàn)在草地上而沙地上更常見的是駱駝.這種具備統(tǒng)計意義上的相關(guān)性卻不符合客觀的因果規(guī)律的情況也被稱為偽相關(guān)(spuriouscorrelation).偽相關(guān)問題的存在對只考慮相關(guān)性的機器學(xué)習(xí)模型帶來了災(zāi)難性的影響:利用偽相關(guān)特征進行推斷的過程與人的理解不相符,引發(fā)可解釋性問題;在偽相關(guān)特征發(fā)生變化時模型預(yù)測結(jié)果會隨之改變從而導(dǎo)致預(yù)測錯誤,引發(fā)可遷移性和魯棒性問題;如果偽相關(guān)特征恰好是性別和膚色等敏感特征,則模型決策還會受到敏感特征的影響,引發(fā)公平性問題.忽視因果關(guān)系導(dǎo)致的這些問題限制了機器學(xué)習(xí)在高風(fēng)險領(lǐng)域及各類社會決策中的應(yīng)用.圖靈獎得主Bengio指出,除非機器學(xué)習(xí)能夠超越模式識別并對因果有更多的認識,否則無法發(fā)揮全部的潛力,也不會帶來真正的人工智能革命.因此,因果關(guān)系的建模對機器學(xué)習(xí)是必要的,需求也是十分迫切的.因果理論即是描述、判別和度量因果關(guān)系的理論,由統(tǒng)計學(xué)發(fā)展而來.長期以來,由于缺乏描述因果關(guān)系的數(shù)學(xué)語言,因果理論在統(tǒng)計學(xué)中的發(fā)展十分緩慢.直到20世紀(jì)末因果模型被提出后,相關(guān)研究才開始蓬勃興起,為自然科學(xué)和社會科學(xué)領(lǐng)域提供了重要的數(shù)據(jù)分析手段,同時也使得在機器學(xué)習(xí)中應(yīng)Pearl將這一發(fā)展歷程稱為“因果革命”[10],并列舉了本文將在機器學(xué)習(xí)中引入因果技術(shù)和思想的研究方向稱為因果機器學(xué)習(xí)(causalmachinelearning).目前機器學(xué)習(xí)領(lǐng)域正處于因果革命的起步階段,研究者們逐漸認識到了因果關(guān)系建模的必要性和緊迫性,而因果機器學(xué)習(xí)的跨領(lǐng)域交叉特點卻限制了其自身的前進步伐.本文希望通過對因果理論和因果機器學(xué)習(xí)前沿進展的介紹,為相關(guān)研究者掃清障礙,促進因果機器學(xué)習(xí)方向的快速發(fā)展.目前針對因果本身的研究已有相關(guān)綜述文獻[12?14],內(nèi)容主要涵蓋因果發(fā)現(xiàn)和因果效應(yīng)估計的相關(guān)方法,但很少涉及在機器學(xué)李家寧等:因果機器學(xué)習(xí)的前沿進展綜述61習(xí)任務(wù)上的應(yīng)用.綜述文獻[15?16]詳細地介紹了因果理論對機器學(xué)習(xí)發(fā)展的指導(dǎo)作用,著重闡述現(xiàn)有機器學(xué)習(xí)方法的缺陷和因果理論將如何發(fā)揮作用,但缺少對這一方向最前沿工作進展的整理和介紹,而這正是本文重點介紹的內(nèi)容.1因果理論簡介因果理論發(fā)展至今已成為統(tǒng)計學(xué)中的一個重要分支,具有獨有的概念、描述語言和方法體系.對于因果關(guān)系的理解也已經(jīng)不再僅停留在哲學(xué)概念的層面,而是有著明確的數(shù)學(xué)語言表述和清晰的判定準(zhǔn)則.當(dāng)前廣泛被認可和使用的因果模型有2種:潛在結(jié)果框架(potentialoutcomeframework)和結(jié)構(gòu)因果模型(structuralcausalmodel,SCM).Splawa-Neyman等人[17]和Rubin[18]提出的潛在結(jié)果框架又被稱為魯賓CM變量的平均因果效應(yīng)問題;Pearl[19]提出的結(jié)構(gòu)因果模型使用圖結(jié)構(gòu)建模一組變量關(guān)系,除了效應(yīng)估計也會關(guān)注結(jié)構(gòu)發(fā)現(xiàn)問題.RCM與SCM對因果的理解一致,均描述為改變一個變量是否能夠影響另一個變量,這也是本文所考慮的因果范疇.兩者的主要區(qū)別在于表述方法不同,RCM更加簡潔直白,相關(guān)研究更為豐富;而SCM表達能力更強,更擅長描述復(fù)雜的問題.雖然目前依然存在對因果的其他不同理解,這些理解通常不被視為真正的因果,例如格蘭杰因?qū)α硪粋€變量的預(yù)測有促進作用,本質(zhì)上仍是一種相關(guān)關(guān)系.本節(jié)將對因果相關(guān)概念以及RCM與SCM的相關(guān)理論和技術(shù)進行簡要介紹.由于本文關(guān)注的主要內(nèi)容是因果機器學(xué)習(xí)而不是因果本身,本節(jié)將側(cè)重于介紹機器學(xué)習(xí)中所使用的因果的概念和思想,而不會過多關(guān)注因果領(lǐng)域自身的前沿研究.1.1因果概念統(tǒng)計學(xué)中對于因果關(guān)系的定義符合人們直覺上的認知.在一個數(shù)據(jù)系統(tǒng)中,用于分析的數(shù)據(jù)通常會表述為一組變量,每個變量都對應(yīng)一種已知或未知的產(chǎn)生機制.對于2個給定的變量,如果在保持其他機制不變的情況下,改變一個變量會使得另一個變量也發(fā)生改變,則稱前者為因,后者為果,同時稱兩者之間存在因果關(guān)系(causalrelationship),因變量對果變量的影響稱為因果效應(yīng)(causaleffect).求解1對或多對變量是否存在因果關(guān)系以及因果效應(yīng)強度的任務(wù)稱為因果推斷(causalinference).通常而言,如果對因果效應(yīng)強度的定量研究是顯著的,則認為因果關(guān)系存在.判定因果關(guān)系的存在性將不可避免地涉及到對原始變量系統(tǒng)的改變,即需要改變目標(biāo)變量的產(chǎn)生機制,這也是其區(qū)別于相關(guān)關(guān)系(correlation)的關(guān)鍵點.相對而言,判定2個變量X和Y是否存在相關(guān)關(guān)系則不需要改變系統(tǒng),只需檢驗觀測變量的邊際分布與條件分布是否一致,即判定P(X|Y)=P(X)是否成立.Pearl等人[10]在闡述相關(guān)和因果之間的差異時提出了“因果之梯(ladderofcausation)”的概念,自下而上將問題劃分為關(guān)聯(lián)、干預(yù)和反事實3個層次,分別對應(yīng)于觀察、行動和想象3類活動.通常而言,回答因果問題需要借助反事實或者干預(yù),若希望僅借助關(guān)聯(lián)來判定因果關(guān)系則必須處理好混雜因素,這些都是研究因果理論所需的重要概念.下面將從回答因果關(guān)系判定問題的角度出發(fā),對反事實、干預(yù)和混雜因素3個概念進行介紹.反事實(counterfactual)指的是在已經(jīng)觀測到一組變量的情況下,假設(shè)其中部分變量具有另外的取值如果我當(dāng)時沒有做某事而是做了其他某事,那么結(jié)果將會怎樣”,這是典型的基于反事實的思考,是根據(jù)結(jié)果溯源尋找原因的有效手段.如果發(fā)現(xiàn)某個變量改變?nèi)≈岛髸?dǎo)致結(jié)果改變,該變量即是結(jié)果的原因之一.反事實考慮的是一種實際并未發(fā)生過也難以再次觀測到的情景,因為它假定2次觀測之間除了需要研究的變量有所改變外,其他外部變量取值和作用機制需完全保持一致.盡管反事實操作的結(jié)果直接反映了變量之間的因果關(guān)系,由于通常無法針對同一個體平行地實施2種不同操作,使得在實際應(yīng)用中幾乎無法用于因果判定,更多情況下只是作為一種指導(dǎo)性思想使用.想要判斷因果關(guān)系的存在性,人們只能訴諸群體層面上的平均觀測結(jié)果,即采用干預(yù)操作.制并維持其余機制不變的操作,是因果關(guān)系判定和度量的關(guān)鍵操作.如果對一個變量的干預(yù)改變了另一個變量的概率分布,則意味著前者是后者的因.例如,通常認為海拔高度是氣溫的因,這是因為海拔高度通過特定的物理機制對氣溫產(chǎn)生了影響.如果對海拔高度進行干預(yù),即調(diào)整地理位置來改變海拔,氣溫也會隨之產(chǎn)生變化,因為背后的物理機制仍然能夠生效;相反,如果對氣溫進行干預(yù),例如提供額外的熱源對空氣進行加熱,這改變了氣溫的產(chǎn)生機制卻保持計算機研究與發(fā)展2023,60(1)海拔的產(chǎn)生機制不變,最終海拔并不會因此而改變.可見通過干預(yù)操作可以對因果關(guān)系的存在性和方向性做出清晰的判斷,事實上這也是科學(xué)研究中最常用的手段,隨機對照實驗即屬于這一思路.干預(yù)不同于反事實,不要求外部變量的取值嚴(yán)格一致,只需要滿足概率分布不變的假設(shè)即可,這在一般的應(yīng)用場景中通??梢詽M足,因此更常用于因果關(guān)系的判定.然而這種通過干預(yù)觀測系統(tǒng)的改變來判斷因果關(guān)系的做法并不能解決實際中所有的因果問題,在許多情況下干預(yù)操作的成本過高或?qū)嵤╋L(fēng)險過大,甚至可能因為違反倫理道德而無法實際實施,如研究吸煙對肺癌的影響時不能強制要求普通人群吸煙.這種情況下就需要避免對目標(biāo)變量進行干預(yù),而僅僅通過觀測原有機制產(chǎn)生的數(shù)據(jù)來估計干預(yù)的效果,這類研究問題也成為了因果推斷領(lǐng)域重點關(guān)注的問題.混雜因素(confounder)指的是一類變量,如果不對它們的取值進行控制,通過觀測數(shù)據(jù)得到的干預(yù)結(jié)果的估計就會產(chǎn)生偏差.通常來說,混雜因素指的是那些能夠?qū)λ芯康囊粚ψ兞客瑫r產(chǎn)生影響的因素.例如對于兒童穿鞋尺碼與閱讀能力呈正相關(guān)的現(xiàn)象,年齡即是一個混雜因素,如果不控制年齡則會得出“兒童穿更大尺碼的鞋子能提升其閱讀能力”的錯誤結(jié)論,相反若控制年齡變量,即針對不同年齡的兒童分組考察他們鞋子尺碼與閱讀能力的關(guān)系,則會發(fā)現(xiàn)兩者之間不存在相關(guān)關(guān)系.理論上如果可以發(fā)現(xiàn)并控制所有的混雜因素,那么因果關(guān)系的判定就等價于該條件下相關(guān)性的判定.然而尋找一個充分的變量集合以囊括所有的混雜因素是十分困難的,也不可能在不做任何假設(shè)的情況下判斷已有變量集合是否充分.另外,簡單地將所有其他變量都視為混雜因素的做法也不可取,例如研究一個人才華和外貌的關(guān)系時,對其是否是名人這一變量進行控制就是錯誤的.因為一個人成名需要好的才華或者好的外貌,兩者都不好的人很難成為名人,所以如果一個名人的外貌不好那么他就更可能有好的才華.在這種受控條件下兩者呈現(xiàn)一種負相關(guān),即使原本兩者是不相關(guān)的.如何鑒別和處理混雜因素始終是因果推斷領(lǐng)域的核心問題之一.1.2因果模型記待研究的變量為X和Y,其他協(xié)變量(covariate)二值變量,即取值只能為0或1.現(xiàn)在觀測到1組數(shù)據(jù)D={X(i),Y(i),Z(i)}1,需要估計X取值由0變?yōu)?時對Y的因果效應(yīng).由于Z中可能存在混雜因素,直接使用條件期望差值E[Y|X=1]?E[Y|X=0]作為估計值可能導(dǎo)致偏差.在這種情況下想要準(zhǔn)確進行因果效應(yīng)估計,SCM這2種因果模型的概念理論內(nèi)容進行簡要介紹.1.2.1潛在結(jié)果框架(RCM)潛在結(jié)果指的是一個個體如果接受了某種處理會怎樣,也就是指如果X(i)取某種值時對應(yīng)Y(i)取值會如何.對于個體i來說,采取X=x的處理的潛在結(jié)果記作Yx(i),X(i)對Y(i)帶來的因果效應(yīng)可由X(i)的不同取值對應(yīng)的潛在結(jié)果差值來計算,即個體處理效應(yīng)(indi-vidualtreatmenteffect,ITE),定義為ITE(i)=Y1(i)?Y0(i).由于同一個個體通常不可能既采取X=0的處理同時也采取X=1的處理,實際最多只能觀測到1個結(jié)果,另一個結(jié)果則是反事實的,這也是被稱為“潛在結(jié)果”的原因.X對Y的總體因果效應(yīng)記為個體處理效應(yīng)的(1)ATE=E[ITE]=E[Y1]?E[Y0](1)平均處理效應(yīng)等同于對X的不同干預(yù)所得結(jié)果之差.如果這種干預(yù)是實際可行的,那么可以直接通ATE.干預(yù)意味著X的取值不再由觀測決定,而是由實驗者確定,這種方式通常稱為隨機對照實驗,X=1的群體稱為處理組,X=0的群體稱為控制組.然而如1.1節(jié)所述,干預(yù)在許多情況下是不可行的,只能使用觀測數(shù)據(jù)對ATE進行估計.基于潛在結(jié)Rubin[18]提出,因此該模型也稱作魯賓因果模型,即RCM.RCM對因果的描述較為簡潔,除了要研究因果效應(yīng)的一對變量以外,對其他變量的相互作用機制不做假設(shè),因此經(jīng)常在進行因果效應(yīng)估計的場景中使用.這種情況下需要考慮混雜因素,真實的ATE可以由通過控制全部混雜因素獲得.對變量進行控制指的是按照該變量的不同取值分組,組內(nèi)計算效應(yīng)期望之后再在組間計算期望.如果Z包含了全部混雜因(2)ATE=Ez[E[Y|X=1,Z=z(2)E[Y|X=0,Z=z]].在RCM中,如果滿足一定的假設(shè),上述計算得到的ATE即是X對Y的真實因果效應(yīng).這些假設(shè)1)個體處理值穩(wěn)定假設(shè)(stableunittreatmentval-ueassumption,SUTVA)[21],指的是一個個體的潛在結(jié)果不受其他個體處理的影響.例如一個人服用藥物獲李家寧等:因果機器學(xué)習(xí)的前沿進展綜述63ZXXY穿鞋尺碼閱讀能力NNNZXXY穿鞋尺碼閱讀能力NNN后,潛在結(jié)果不受處理方式的影響.例如對于一個人是否服藥導(dǎo)致的潛在治療效果具有確定性,不隨實際是否服藥的行為而發(fā)生改變.3)正值性(positivity)[22],指的是對于每個個體均有非零的可能性采取每種處理方式.采用控制所有混雜因素的方法計算ATE在實際問題中可能會遇到困難,通常是由于混雜因素的維度很高,控制相同取值的樣本可能數(shù)量很少,導(dǎo)致期望估計不準(zhǔn)確.針對這一問題,研究者們提出了多種解決方案.常見的方法有基于傾向性得分的估計方法、基于回歸的估計方法以及兩者相結(jié)合的方法.傾向性得分(propensityscore)指的是給定協(xié)變量Z的情況下獲得處理X=1的概率,即P(X=1|Z),可以使用機器學(xué)習(xí)模型進行建模.文獻[22]指出,在ATE的表達式中使用傾向性得分代替協(xié)變量Z仍能夠保證估計的正確性,因此可以通過控制傾向性得分計算分組期望 選擇得分最接近的1個或1組對照組個體進行匹配,計算它們結(jié)果的平均差值,然后在整個處理組上取理概率加權(quán)(inverseprobabilityoftreatmentweighting,果除以傾向性得分后再取平均,即可得到ATE的估計值IPTW:IPTW=?.(3)基于回歸的估計方法簡稱回歸估計[24],其思想是使用機器學(xué)習(xí)模型建模給定處理X和協(xié)變量Z時結(jié)果Y的期望,即E[Y|X,Z],然后用這一回歸模型來模擬干預(yù),即可得到ATE的估計值REG:REG=E[Y|X=1,Z(i)]?E[Y|X=0,Z(i)].(4)回歸估計方法可以和IPTW方法相結(jié)合得到雙穩(wěn)健估計(doublyrobustestimation,DRE)[25]:DRE=X(i)×(Y(i)?E[Y|X=1,Z(i)])P(X=1|Z(i))?(1?X(i))×(Y(i)?E[Y|X=0,Z(i)])1?P(X=1|Z(i))+REG. 只要2種估計中的1種是可靠的,那么DRE整體即是可靠的.除以上方法外,還有混雜平衡(confounderbalan- 混雜因素的問題,可參考文獻[28]中的介紹,在此不再詳細展開.這些方法都要求混雜因素的值是可觀測的,限制了RCM在一些場景中的應(yīng)用.這種情況下的部分問題可以使用SCM解決.1.2.2結(jié)構(gòu)因果模型(SCM)SCM由Pearl[19]提出,其思想是將所有需要考慮的變量組織成一個有向無環(huán)圖,圖的每個節(jié)點都代表1個變量,1條由節(jié)點A指向節(jié)點B的有向連邊代表A對B有直接的因果作用.這種圖又稱為因果圖(causal包含所有考慮的變量,邊集合E包含所有對變量直接因果關(guān)系的先驗假設(shè).例如兒童穿鞋尺碼與閱讀能力關(guān)系的因果圖可如圖1(a)表示(假設(shè)穿鞋尺碼對閱讀能力的因果效應(yīng)是待研究的未知量): (structuralequations),其假設(shè)每個節(jié)點都對應(yīng)一個未觀測到的外生變量(exogenousvariable),節(jié)點的值由該外生變量及所有直接父節(jié)點變量通過一個方程來唯一確定,例如X=fX(PAX,NX),其中PAX指的是節(jié)點X的所有父節(jié)點變量,NX是X對應(yīng)的外生變量.圖1所對應(yīng)的完整結(jié)構(gòu)方程為Z=NZ,X=fX(Z,NX),Y=fY(Z,X,NY).之所以稱為這些方程是“結(jié)構(gòu)方程”,是因為其代表變量的生成機制,只能由等式右邊對左邊賦值,而不能隨意變換方向.外生變量描述的是對應(yīng)節(jié)點變量的所有隨機因素,其自身具有確定性的概率分布,通常未被觀測也無法進行控制,而且SCM中假設(shè)所有外生變量之間相互獨立,圖1(b)展示了一個外生變量的例子.通過結(jié)構(gòu)方程和外生變量,SCM能夠很清晰地定義干預(yù)和反事實操作,其中干預(yù)操作是將干預(yù)節(jié)點的結(jié)構(gòu)方程替換掉,對應(yīng)在因果圖中即是去掉年齡ZZYY(a)原始因果圖((a)原始因果圖Fig.1Exampleofcausalgraph圖1因果圖示例計算機研究與發(fā)展2023,60(1)ZZYXYTYZZYXYTY所有指向干預(yù)節(jié)點的箭頭.這在SCM中也稱為do操do(X=1),X的結(jié)構(gòu)方程也對應(yīng)修改為X=1,意味著X不再受其父節(jié)點和外生變量的影響.反事實操作同樣由do操作給出,但同時會限制所有外生變量取值在SCM中,混雜因素識別可以直接借助因果圖結(jié)構(gòu)完成,一個變量成為混雜因素當(dāng)且僅當(dāng)存在由該節(jié)點指向X和Y的各1條有向路徑(指向Y的路徑一樣在識別混雜因素后計算ATE得到,不過在SCMEYdoX?E[Y|do(X=0)].這種方法的關(guān)鍵是計算P(Y|do(X=x)),這可以通過將因果圖視為貝葉斯網(wǎng)絡(luò)(Bayesiannet-work)進行概率分解得到.然而由do操作定義直接給出的求解方法面對稍復(fù)雜的因果圖時也會變得很復(fù)雜,因此一般不會直接使用.更常用的方法稱為后門調(diào)整(backdooradjustment):一條指向X并連接Y的路徑稱為X到Y(jié)的后門路徑,通過控制路徑上的某些節(jié)點使得所有后門路徑被關(guān)閉的方法稱為后門調(diào)整.路徑上的邊均指向自身的節(jié)點稱為對撞節(jié)點(collider).一條路徑是關(guān)閉的,當(dāng)且僅當(dāng)某個對撞節(jié)點沒有被控制或者某個非對撞節(jié)點被控制.RCM中控制所有混雜因素而不控制其他節(jié)點的做法恰恰是后門調(diào)整中的一個特例.例如圖2(a)中的因果圖,Z是一個混雜因素,X←W←Z→Y是一條后門路徑,W和Z均不是對撞節(jié)點,所以單獨控制Z或W,或者同時控制兩者都是可以的.WWXX(b)后門調(diào)整((b)后門調(diào)整Fig.2Exampleoffrontdoor/backdooradjustment圖2前門/后門調(diào)整示例使用SCM相對于RCM的優(yōu)勢最主要體現(xiàn)在混雜因素?zé)o法觀測的場景.這種情形下RCM將無法使用,而SCM可以通過一種稱為do演算(do-calculus)的方法將因果效應(yīng)的計算轉(zhuǎn)化為僅在可觀測變量上的計算,從而解決部分問題.do演算包含3條規(guī)則,這些規(guī)則已被證明是完備的,即如果存在一種僅通過可觀測變量的觀測分布計算因果效應(yīng)的方法,那么這種方法一定能由do演算推導(dǎo)得到,由于篇幅所限不在此展開詳細介紹.do演算的一個常見實例是前門調(diào)整(frontdooradjustment)[29],如圖2(b)中的因果圖,變量T稱為前門變量,因為其不受Z的直接影響,且X對Y的效應(yīng)僅僅通過T生效.通過前門變量T可以在不觀測Z的情況下計算因果效應(yīng):P(Y|do(X=x))=P(Y|T=t,X=x′).P(X=x′)P(T=t|X=x). 在因果推斷及因果機器學(xué)習(xí)任務(wù)中,因果圖通常是未知的.一種方式是根據(jù)具體問題結(jié)合領(lǐng)域知識給出先驗的因果圖結(jié)構(gòu),另一種方式是從數(shù)據(jù)中學(xué)discovery)任務(wù),目的是從一系列變量的觀測結(jié)果中推斷因果圖結(jié)構(gòu).因果發(fā)現(xiàn)有3類主要方法:基于約束的方法、基于評分的方法和基于結(jié)構(gòu)方程的方法.基于約束的方法主要考慮數(shù)據(jù)中的條件獨立性,通過檢驗各個變量之間是否條件獨立,給出可能的因果圖的等價類,即確定部分連邊及其方向.這類方法包括PC(PeterandClark)[30],IC(inductivecausation)[31],思路是利用評分函數(shù)來求解得分最高的因果圖,常信息準(zhǔn)則(Bayesianinformation 雜度,代表性方法是GES(greedyequivalencesearch)[34].基于結(jié)構(gòu)方程的方法是對結(jié)構(gòu)方程的形式做一定的假設(shè),從而可以求解完整的因果圖,但同時適用范圍 (linearnon-Gaussianacyclicmodel)[35]和后非線性模型 (post-nonlinearmodel)[36]等.因果發(fā)現(xiàn)在實際應(yīng)用中面臨的最大問題是可識別性(identifiability),即能否從觀測數(shù)據(jù)中識別唯一確定的因果圖.因果圖的出現(xiàn)還催生了中介分析[37-38]的研究方向,即在有中介變量(mediator)存在的情況下將X對Y所示,X對Y產(chǎn)生的因果效應(yīng)由2條路徑共同決定,一條是經(jīng)由中介變量M間接影響Y,一條是直接對Y產(chǎn)生影響.MMXXFig.3Exampleofmediationanalysis圖3中介分析示例李家寧等:因果機器學(xué)習(xí)的前沿進展綜述65 1)歸因分析①③2)反事實解釋①④1)反因果域適應(yīng)①2)其他可遷移性問題因果理論機器學(xué)習(xí)問題1)反事實數(shù)據(jù)增強④2)因果效應(yīng)校準(zhǔn)①②③3 1)歸因分析①③2)反事實解釋①④1)反因果域適應(yīng)①2)其他可遷移性問題因果理論機器學(xué)習(xí)問題1)反事實數(shù)據(jù)增強④2)因果效應(yīng)校準(zhǔn)①②③3)不變性學(xué)習(xí)①魯棒性問題1)反事實公平性①③④2)其他公平性問題反事實評估問題1)逆傾向性得分加權(quán)②④2)反事實風(fēng)險最小化②④1)干預(yù)和反事實預(yù)測①④2)其他其他問題差距稱為全效應(yīng)(totaleffect,TE),即TE=Yxm?E[Yx].直接效應(yīng)和間接效應(yīng)需要依靠反事實來定義,例如直接效應(yīng)可以視為在觀測樣本上缺少X=x造成的差距或者在參考情況下添加X=x造成的差距,前者稱為全直接效應(yīng)(totaldirecteffect,TDE),后者稱為自然直接效應(yīng)(naturaldirecteffect,NDE),分別有TDE=Yxm?Yxm,NDE=E[Yx]?E[Yx].同樣地,間接效應(yīng)也分間接效應(yīng)(naturalindirecteffect,NIE),分別有TIE=Yxm?E[Yx],NIE=Yxm?E[Yx].以上效應(yīng)之間滿足關(guān)系TE=TDE+NIE=TIE+NDE.2因果機器學(xué)習(xí)相關(guān)工作介紹近年來隨著因果理論和技術(shù)的成熟,機器學(xué)習(xí)領(lǐng)域開始借助因果相關(guān)技術(shù)和思想解決自身的問題,這一研究方向逐漸受到研究者越來越多的關(guān)注.至今,因果問題被認為是機器學(xué)習(xí)領(lǐng)域亟待解決的重要問題,已成為當(dāng)下研究的前沿?zé)狳c之一.機器學(xué)習(xí)可以從因果技術(shù)和思想中獲得多個方面的益處.首先,因果理論是一種針對數(shù)據(jù)中規(guī)律的普適分析工具,借助因果圖等語言可以對研究的問題做出細致的分析,有利于對機器學(xué)習(xí)模型的目標(biāo)進行形式化以及對問題假設(shè)的表述.其次,因果推斷提供了消除混雜因素以及進行中介分析的手段,對于機器學(xué)習(xí)任務(wù)中需要準(zhǔn)確評估因果效應(yīng)及區(qū)分直接與間接效應(yīng)的場景有十分重要的應(yīng)用價值.再者,反事實作為因果中的重要概念,也是人在思考求解問題時的常用手段,對于機器學(xué)習(xí)模型的構(gòu)建和問題的分析求解有一定的指導(dǎo)意義.本節(jié)將對近年來因果機器學(xué)習(xí)的相關(guān)工作進行整理介紹,涉及應(yīng)用領(lǐng)域包括計算機視覺、自然語言處理、搜索引擎和推薦系統(tǒng)等.按照所解決問題的類型進行劃分,因果機器學(xué)習(xí)主要包括以下內(nèi)容:可解釋性問題主要研究如何對已有機器學(xué)習(xí)模型的運作機制進行解釋;可遷移性問題主要研究如何將模型在特定訓(xùn)練數(shù)據(jù)上學(xué)到的規(guī)律遷移到新的特定環(huán)境;魯棒性問題主要研究尋找普適存在的規(guī)律使模型能夠應(yīng)對各種未知的環(huán)境;公平性問題主要研究公平性度量指標(biāo)并設(shè)計算法避免歧視;反事實評估問題主要研究如何在存在數(shù)據(jù)缺失的場景中進行反事實學(xué)習(xí).這些問題與因果理論的關(guān)系如圖4所示,下面針對這些問題分別展開介紹.可解釋性問題①因果圖建模②消除混雜③中介分析④反事實思想Fig.4Overviewofmainresearchproblemsincausalmachinelearning圖4因果機器學(xué)習(xí)的主要研究問題總覽2.1可解釋性問題機器學(xué)習(xí)模型會根據(jù)給定輸入計算得到對應(yīng)的輸出,但一般不會給出關(guān)于“為什么會得到此輸出”的解釋.然而這種解釋有助于人們理解模型的運作機制,合理的解釋能夠使結(jié)果更具有說服力.因此近年來涌現(xiàn)出許多致力于為現(xiàn)有模型提供解釋方法的工作,為模型的診斷分析提供了有效手段[39].解釋的核心在于“模型得到此輸出,是因為輸入具有什么樣的特征”,這本質(zhì)上是在探討在此模型參與過程中輸入特征與輸出結(jié)果之間的因果關(guān)系,例如估計特征對輸出變量的因果效應(yīng)強度.由于機器學(xué)習(xí)模型對輸入數(shù)據(jù)的處理過程是一個獨立而完整的過程,輸入與輸出變量之間一般不會受到混雜因素的影響,因此即使不使用因果術(shù)語也可以對任務(wù)進行描述.這體現(xiàn)為早期的模型解釋方法并不強調(diào)因果,少數(shù)強調(diào)因果的方法也并不一定計算機研究與發(fā)展2023,60(1)依賴因果術(shù)語.因果理論的引入為可解釋性問題領(lǐng)域帶來的貢獻主要有2個方面:一是在基于歸因分析的解釋方法中建模特征內(nèi)部的因果關(guān)系;二是引入一類新的解釋方法即基于反事實的解釋.基于歸因分析和基于反事實的解釋構(gòu)成了當(dāng)前最主要的2大類模型解釋方法如表1所示,以下分別展開介紹.2.1.1基于歸因分析的解釋方法基于歸因分析(attribution)的方法是機器學(xué)習(xí)模型解釋方法中最早出現(xiàn)也是最為成熟的方法.對于一映射為輸出Y=y,歸因分析指的是為每個特征分配 (本節(jié)所用符號與前文無關(guān)).基于歸因分析的常見解Gradient(IG)[42],ShapleyValues(SHAP)[43]等.以SHAP方法為例,SHAP方法認為一個特征對于輸出變量的效應(yīng)強度應(yīng)該為:使用該特征的預(yù)測結(jié)果與不使用該特征的預(yù)測結(jié)果之差.將整個特征集合記作F={1,2,···,n},預(yù)測輸出結(jié)果需要選擇一個特征子集,計算特征i的效應(yīng)需要對比不含i的所有子集與對應(yīng)添加i的子集的差別,即fS∪{i}(XS∪{i})?fS(XS).在所有滿足條件的子集上取加權(quán)平均的結(jié)果即為特征i的Shapley值.SHAP方法將Shapley值作為特征的基于歸因分析的解釋方法雖然描述的是因果關(guān)系,但一般不依賴因果術(shù)語,一些文獻采用了因果的表述,本質(zhì)上仍屬于歸因解釋的框架.例如文獻[44]提出一種針對端到端文本生成模型的因果解釋框架,預(yù)測源文本中的單詞對目標(biāo)文本中單詞的影響強度,相當(dāng)于將源文本單詞視為特征集合,針對每個目標(biāo)提出一種在不確定因素下圖像分類模型的因果解釋方法,其主要貢獻在于對每個特征除了計算其歸因值以外還會計算其置信度.文獻[46]提出將機器學(xué)習(xí)模型整體視為一個SCM模型,然后計算每個特征對輸出結(jié)果的平均處理效應(yīng),相當(dāng)于將解釋問題重新使用因果語言進行形式化,但在做法上與其他歸因解釋方法并無本質(zhì)不同.基于歸因分析的解釋方法一般將每個特征視為獨立的變量進行考慮,而當(dāng)特征之間存在相互影響時就必須借助因果理論進行刻畫和求解.文獻[47]基SHAP方法,其核心思想在于:原始Shapley值計算方SHAP會調(diào)整這些置換的權(quán)重,例如將不符合因果順序的置換的權(quán)重置為0,從而將子節(jié)點的因果效應(yīng)匯總歸于祖先節(jié)點的因果效應(yīng).文獻[48]同樣基于SHAPv(S),為保持樣本位于數(shù)據(jù)流形之上,一般選擇計算以XS=xS為條件下的期望.該文獻認為,在給定因果圖結(jié)構(gòu)的情況下應(yīng)使用do操作而非取條件的操作,在不同因果結(jié)構(gòu)下對于相同觀測數(shù)據(jù)的解釋存在的2.1.2基于反事實的解釋方法基于反事實的解釋方法是近年來新興的一類模型解釋方法,其中“反事實”作為一種因果術(shù)語指的是如果樣本的部分特征發(fā)生了改變而其他特征不變將會怎樣.一般而言,反事實解釋方法會尋找一種樣本特征處理方法使樣本的預(yù)測結(jié)果發(fā)生顯著改變,例如對圖像的局部進行替換或遮擋從而改變分類類別等.與歸因分析不同,反事實解釋并不會提供每個特征的重要度,而是直接給出改變預(yù)測結(jié)果的途徑,相當(dāng)于給出信息“模型對樣本X的輸出為A而不是B,是因為X具有特征f,如果該特征變?yōu)間則其輸出會變?yōu)锽”(本節(jié)所用符號與前文無關(guān)).Table1ApplicationofCausalMethodsonInterpretabilityProblems表1因果方法在可解釋性問題上的應(yīng)用分類子類別典型思路和方法基于歸因分析忽略特征間結(jié)構(gòu)考慮特征間結(jié)構(gòu)直接計算每個輸入特征對模型輸出的因果效應(yīng)引入輸入特征間的先驗因果圖結(jié)構(gòu),調(diào)整特征對模型輸出的因果效應(yīng)基于反事實輸入數(shù)據(jù)反事實輸出數(shù)據(jù)反事實反事實可行性在模型輸入空間構(gòu)造反事實樣本對生成模型的中間節(jié)點進行反事實,構(gòu)造反事實生成樣本對反事實操作的約束條件進行額外建模李家寧等:因果機器學(xué)習(xí)的前沿進展綜述67文獻[49-50]提供了一類典型的反事實解釋方法.針對圖像分類任務(wù),需要從給定原始圖像中選擇一塊區(qū)域使其替換為其他內(nèi)容后變?yōu)槟繕?biāo)類別.所替換修改后的復(fù)合圖像構(gòu)成了原樣本的一個反事實解釋,如圖5所示:(a)原始圖像(b)干擾圖像(c)復(fù)合圖像Fig.5Exampleofcounterfactualexplanation[49]圖5反事實解釋示例[49]文獻[51]在為圖像分類模型構(gòu)造反事實解釋時避開了圖像的修改合成過程,直接生成可讀的文本解釋,例如“它不是猩紅麗唐納雀,因為它沒有黑色的翅膀”.文獻[52]通過優(yōu)化的方式求解圖像的掩碼,使得遮擋該區(qū)域后模型不再將其分類為原始類別.文獻[53]在視頻分類上應(yīng)用反事實解釋,選取視頻中關(guān)鍵片段的關(guān)鍵矩形區(qū)域,并通過預(yù)測該區(qū)域的語言學(xué)屬性為其搭配簡單的文本解釋,如“是騎行而不是滑板運動,因為姿勢是坐著”.文獻[54]利用局部語解釋原始圖像需要增減哪些語義特征才能改變?yōu)槟縎CM,為智能體的行為做模板式的反事實解釋,例如“智能體選擇建造供應(yīng)站而不是兵營,因為可以擁有更多供應(yīng)站,有利于破壞對手更多的單位和建筑”.文獻[56]提出反事實解釋需滿足可行性和多樣性,并采用優(yōu)化的方式求解反事實解釋的集合.文獻[57]為貝葉斯網(wǎng)絡(luò)分類器構(gòu)造反事實解釋,求解值改變即引起結(jié)果改變的變量集合.文獻[58]在反事實解釋的基礎(chǔ)上提出半事實(semi-factual)解釋的概念,與反事實解釋的區(qū)別在于其對于樣本的修改接近改變輸出但實際并未真正改變.文獻[59]為針對圖(graph)數(shù)據(jù)的分類器設(shè)計反事實解釋方法,提出一種基于搜索的方法尋找反事實圖.文獻[60]針對以往基于算法的反事實樣本構(gòu)造方法過于耗時的問題,提出一種基 (treeensemble)模型設(shè)計了反事實解釋方法,建模為混合整數(shù)規(guī)劃問題并進行求解.文獻[62]針對圖像生成模型研究了一種特殊的反事實解釋方法.由于圖像生成模型的輸入為無直觀意義的噪聲,一般的反事實研究不易產(chǎn)生有價值的解釋,因此該方法不再針對輸入特征進行反事實,而是將神經(jīng)網(wǎng)絡(luò)模型視為白盒SCM,在其內(nèi)部表達節(jié)點上進行反事實,其目的是尋找模型中的獨立生成機制,從而有助于對模型的理解.具體方法是尋找一些網(wǎng)絡(luò)內(nèi)部節(jié)點集合,使得在2幅圖像上做數(shù)值交換后輸出差異盡可能大,這些節(jié)點即反映了圖像的關(guān)鍵生成機制.圖6展示了該文獻方法可通過2幅圖像在關(guān)鍵內(nèi)部節(jié)點上的數(shù)值交換實現(xiàn)反事實的圖片混合效果.(a)圖像1(b)圖像2(c)混合結(jié)果Fig.6Exampleofcounterfactualimagehybridization[62]圖6反事實圖像混合示例[62]基于反事實的模型解釋方法相對于歸因解釋的優(yōu)勢在于其直接提供了改變當(dāng)前模型預(yù)測結(jié)果的操作手段.然而一些文獻指出,反事實解釋提出的建議并不會考慮實際實施的代價,甚至可能是無法操作的.文獻[63]研究了反事實解釋偏離數(shù)據(jù)分布的問題,提出基于馬氏距離和局部異常因子的代價函數(shù)約束反事實解釋的可行度,將尋找可行反事實解釋的問題轉(zhuǎn)化為混合整數(shù)線性優(yōu)化的求解問題.文獻[64]在此基礎(chǔ)上基于因果圖分析了在多個特征上反事實操作的順序問題,因果圖可由因果發(fā)現(xiàn)技術(shù)獲得.文獻[65]研究了在特征為二值情景下的反事實解釋的可行性問題,證明尋找最優(yōu)反事實策略是NP難的,因此提出一種高效的隨機算法進行近似求解.文獻[66]研究了特征之間存在因果關(guān)聯(lián)時如何提供可行反事實解釋的問題,在假設(shè)因果圖結(jié)構(gòu)已知的情況下,用高斯過程建模結(jié)構(gòu)方程的不確定性,提出個體和亞群體級別的2類可行性反事實解釋,使用梯度優(yōu)化的方式求解.2.2可遷移性問題機器學(xué)習(xí)研究通常會在一個給定的訓(xùn)練數(shù)據(jù)集上訓(xùn)練模型,然后在同數(shù)據(jù)分布的驗證集或測試集上進行測試,這種情況下模型的表現(xiàn)稱為分布內(nèi)泛化(in-distributiongeneralization).在一般的應(yīng)用場景中,機器學(xué)習(xí)模型會部署在特定數(shù)據(jù)環(huán)境中,并使用該環(huán)境中產(chǎn)生的數(shù)據(jù)進行模型訓(xùn)練,其性能表現(xiàn)可以計算機研究與發(fā)展2023,60(1)XYYYXYYY用分布內(nèi)泛化能力來度量.然而在一些場景中,目標(biāo)環(huán)境中的標(biāo)注數(shù)據(jù)難以獲取,因此更多的訓(xùn)練數(shù)據(jù)只能由相似的替代環(huán)境提供.例如訓(xùn)練自動駕駛的智能體時由于風(fēng)險過高不能直接在真實道路上行駛收集數(shù)據(jù),而只能以模擬系統(tǒng)中所獲取的數(shù)據(jù)為主進行訓(xùn)練.這種場景下的機器學(xué)習(xí)任務(wù)又稱為域適應(yīng) domainadaptation遷移學(xué)習(xí)(transferlearning)的范疇,即將源域(sourcedomain)中所學(xué)到知識遷移至目標(biāo)域(targetdomain).這里的域(domain)和環(huán)境 (environment)的含義相同,可以由產(chǎn)生數(shù)據(jù)的不同概率分布來描述,下文將沿用文獻中各自的習(xí)慣稱呼,不再對這2個概念進行區(qū)分.在可遷移性問題中,因果理論的主要價值在于提供了清晰的描述語言和分析工具,使研究者能夠更準(zhǔn)確地判斷可遷移和不可遷移的成分,有助于設(shè)計針對不同場景的解決方案.因果推斷中關(guān)注的效應(yīng)估計問題本質(zhì)上是在研究改變特定環(huán)境作用機制而保持其他機制不變的影響,這與遷移學(xué)習(xí)中域的改變的假設(shè)相符,即目標(biāo)域和源域相比繼承了部分不變的機制可以直接遷移,而剩余部分改變的機制則需要進行適應(yīng).因此在因果理論的指導(dǎo)下,遷移學(xué)習(xí)中的關(guān)鍵問題就是建模并識別變與不變的機制.目前因果遷移學(xué)習(xí)一般假設(shè)輸入X與輸出Y之間有直接因果關(guān)系,重點關(guān)注無混雜因素情況下變量的因果方向和不變機制,如表2所示,以下介紹相關(guān)工作.Table2ApplicationofCausalMethodsonTransferabilityProblems表2因果方法在可遷移性問題上的應(yīng)用分類典型思路和方法 僅考慮輸入輸出與域變量間的因果圖求解在協(xié)變量偏移、目標(biāo)偏移、條件偏移、廣義目標(biāo)偏移情況下的建模方法考慮含其他復(fù)雜變量的因果圖引入先驗因果圖或從數(shù)據(jù)中進行因果發(fā)現(xiàn)文獻[77]是早期研究因果理論對機器學(xué)習(xí)指導(dǎo)作用的經(jīng)典工作,主要使用結(jié)構(gòu)方程模型研究輸入變量X與輸出變量Y之間的因果方向?qū)蛇w移性的影響:1)如果有X→Y,那么輸入分布P(X)與條件分布P(Y|X)可視為獨立的機制,目標(biāo)域數(shù)據(jù)所提供的輸入P′(X)信息對P′(Y|X)的預(yù)測不會產(chǎn)生直接作用,而2)如果有Y→X,則輸入分布P(Y)與條件分布P(X|Y)可視為獨立的機制,結(jié)論將與1)情況完全相反,這種P(X)發(fā)生改變而P(Y|X)不變的情況常被稱為協(xié)變量偏移(covariateshift,CovS).文獻[70]針對實際情形中更常見的反因果遷移問題進行了進一步的建模,如shift,TarS);如果只有P(X|Y)發(fā)生了改變則稱為條件偏移(conditionalshift,ConS);如果兩者都發(fā)生了改變則稱為廣義目標(biāo)偏移(generalizedtargetshift,GeTarS).這些工作為因果理論指導(dǎo)遷移學(xué)習(xí)奠定了基礎(chǔ).后續(xù)許多工作沿用正反向因果框架展開,在不同的先驗因果圖結(jié)構(gòu)下求解遷移學(xué)習(xí)問題.文獻[78]探討了在有多個源域提供數(shù)據(jù)的情況下如何求解各類反因果遷移問題.文獻[67]提出協(xié)變量偏移情況下對P(Y|X)不變的假設(shè)過強,認為只需假設(shè)存在特征集合S使得P(Y|S)跨環(huán)境不變即可,并設(shè)計搜索算法尋找S.文獻[68]針對目標(biāo)偏移問題已有方法無法處理高維數(shù)據(jù)、連續(xù)數(shù)據(jù)和大規(guī)模數(shù)據(jù)等問題,提出一種新的標(biāo)簽變換方法求解,將源域的標(biāo)簽Y變換之后再重新訓(xùn)練或微調(diào)獲得P(Y|X)模型.文獻[69]研究條件偏移情況,基于變分自編碼器結(jié)構(gòu)學(xué)習(xí)X的隱變量表達,并引入對抗訓(xùn)練使語義表達與域表達解耦合,語義表達即可用于遷移.文獻[71]指出在廣義目標(biāo)偏移的情況下使用文獻[70]中的局部尺度變換方法可能無法滿足需求,進而設(shè)計算法通過尋找條件可遷移成分(conditionaltransferablecomponents)進行求解.一些遷移學(xué)習(xí)的工作也考慮從其他角度引入因果理論和技術(shù).文獻[72]在因果圖建模的基礎(chǔ)上額外建模了結(jié)構(gòu)方程,基于非線性獨立成分分析構(gòu)造目標(biāo)域的偽樣本對訓(xùn)練數(shù)據(jù)進行擴充.文獻[73]利用因果圖在一個虛擬的“密室逃生”任務(wù)上建模不同層次的因果結(jié)構(gòu),以將所學(xué)知識遷移到未見過的相似場景.文獻[74]研究了一種特殊的模仿學(xué)習(xí)遷移任務(wù),即演示者與學(xué)習(xí)者接收不同的傳感器輸入,如自動域域(a)目標(biāo)偏移域域XX(b)條件偏移域域XX(c)廣義目標(biāo)偏移Fig.7Causalgraphsofthreetypesofanti-causaltransferproblems[70]圖73類反因果遷移問題的因果圖[70]李家寧等:因果機器學(xué)習(xí)的前沿進展綜述69駕駛智能體上路時無法觀測到學(xué)習(xí)時的指示燈信號,使用SCM分析可變與不變的部分以指導(dǎo)學(xué)習(xí).文獻域適應(yīng)任務(wù),認為預(yù)訓(xùn)練知識是特征和標(biāo)簽的混雜因素,采用后門調(diào)整消除其影響.文獻[76]將域適應(yīng)問題轉(zhuǎn)化為增廣的因果圖上的推斷問題,在多個源域的數(shù)據(jù)上進行結(jié)構(gòu)發(fā)現(xiàn),然后使用條件生成對抗網(wǎng)絡(luò)建模.遷移學(xué)習(xí)問題與因果密切相關(guān),對于跨環(huán)境不變機制的挖掘和利用始終是其核心問題之一.由于問題場景的不同會導(dǎo)致因果機制可變也可不變,無法統(tǒng)一下定論,需要具體問題具體分析,因果機器學(xué)習(xí)在這一問題上仍有寬闊的發(fā)展空間.2.3魯棒性問題遷移學(xué)習(xí)允許模型獲得目標(biāo)環(huán)境的少量數(shù)據(jù)以進行適應(yīng)學(xué)習(xí),然而在一些高風(fēng)險場景中,可能需要機器學(xué)習(xí)模型在完全陌生的環(huán)境中也能正常工作,如醫(yī)療、法律、金融及交通等.以自動駕駛為例,即使有大量的真實道路行駛數(shù)據(jù),自動駕駛智能體仍會面臨各種突發(fā)情況,這些情況可能無法被預(yù)見但仍需要被正確處理.這類任務(wù)無法提供目標(biāo)環(huán)境下的訓(xùn)外泛化能力,則稱其具有魯棒性(robustness).這類問題在未引入因果術(shù)語的情況下就已經(jīng)展開了廣泛的研究.如分布魯棒性研究[79-81]考慮當(dāng)數(shù)據(jù)分布改變在一定幅度之內(nèi)時如何學(xué)習(xí)得到魯棒的模型,常見思路是對訓(xùn)練樣本做加權(quán)處理;對抗魯棒性研究[8,82-83]考慮當(dāng)樣本受到小幅度擾動時模型不應(yīng)當(dāng)改變輸出結(jié)果,常見思路是將對抗攻擊樣本加入訓(xùn)練.這類研究常常忽略變量間的因果結(jié)構(gòu),面臨的主要問題是很難決定數(shù)據(jù)分布或者樣本的擾動幅度大小和度量準(zhǔn)則,這就使得研究中所做的假設(shè)很難符合真實場景,極大地限制了在實際中的應(yīng)用.因果理論的引入為建模變量間的結(jié)構(gòu)提供了可能,同時其蘊含的“機制不變性”原理為魯棒性問題提供了更合理的假設(shè),因為真實數(shù)據(jù)往往是從遵循物理規(guī)律不變的現(xiàn)實世界中采集獲得.例如針對輸入為X、輸出為Y的預(yù)測問題,不考慮結(jié)構(gòu)的分布魯棒性方法會假設(shè)未知環(huán)境P\(X,Y)應(yīng)當(dāng)與真實環(huán)境P(X,Y)的差異較小,如限制聯(lián)合分布的KL散度小于一定閾值;而考慮結(jié)構(gòu)的因果方法則通常會假設(shè)機制不變,例如當(dāng)Y是X的因時假設(shè)P\(X|Y)=P(X|Y),在因果關(guān)系成立的情況下后者通常是更合理的.一些從偽相關(guān)特征入手研究魯棒性問題的工作雖然未使用因果術(shù)語,實際上已經(jīng)引入了因果結(jié)構(gòu)的假設(shè).這些工作針對的往往是已知的偽相關(guān)特征,如圖像分類任務(wù)中的背景、文本同義句判斷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江蘇南京醫(yī)科大學(xué)第四附屬醫(yī)院(南京市浦口醫(yī)院)招聘專技人員33人考試備考題庫及答案解析
- 2025東臺市消防救援綜合保障中心公開招聘人員16人模擬筆試試題及答案解析
- 2025遼寧康復(fù)醫(yī)學(xué)中心科研助理招聘模擬筆試試題及答案解析
- 2025湖北武漢愛莎文華學(xué)校(國內(nèi)中高考方向)招聘備考考試試題及答案解析
- 2026年中國科協(xié)所屬單位面向社會招聘工作人員參考筆試題庫附答案解析
- 傳染病知識技能考核試題及答案
- 2025江西省中贛投勘察設(shè)計有限公司招聘6人備考筆試題庫及答案解析
- 2025年下半年安徽交控驛達集團招聘3人備考筆試試題及答案解析
- 2025中國黃金所屬企業(yè)中金輻照社會招聘備考筆試試題及答案解析
- 2025年北方學(xué)生考試試卷及答案
- 裝載機管理辦法及制度
- 地鐵保安考試題庫及答案
- 2025佛山農(nóng)商銀行社會招聘考試備考題庫及答案解析
- 中醫(yī)基礎(chǔ)學(xué)考試題(附答案)
- 六分鐘步行試驗臨床規(guī)范應(yīng)用中國專家共識解讀
- 鍋莊舞教學(xué)課件
- 混合性認知障礙診治專家共識解讀課件
- 統(tǒng)編版語文二年級上冊 語文園地七教學(xué)課件
- 醫(yī)院保密教育培訓(xùn)課件
- 2026年高考語文復(fù)習(xí):文言文背誦篇目理解性默寫練習(xí)題匯編(含答案)
- 母嬰??谱o士拓展匯報
評論
0/150
提交評論