人機混合增強智能 課件全套 1-5 簡介、基礎(chǔ) -直覺推理_第1頁
人機混合增強智能 課件全套 1-5 簡介、基礎(chǔ) -直覺推理_第2頁
人機混合增強智能 課件全套 1-5 簡介、基礎(chǔ) -直覺推理_第3頁
人機混合增強智能 課件全套 1-5 簡介、基礎(chǔ) -直覺推理_第4頁
人機混合增強智能 課件全套 1-5 簡介、基礎(chǔ) -直覺推理_第5頁
已閱讀5頁,還剩322頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人機混合增強智能內(nèi)容

介紹《人機混合增強智能》課程簡介近年來人工智能的發(fā)展現(xiàn)狀與不足:ChatGPT、DeepSeek、OpenAI文生圖、文生視頻等人工智能歷史回顧:五大流派、人工智能的數(shù)學及相關(guān)基礎(chǔ):度量、標準化、交叉驗證、偏差方差分解、精度/召回率等人機混合智能增強的基礎(chǔ)理論特征表示:多模態(tài)信息統(tǒng)一表征;共享子空間學習;對比學習;知識蒸餾高維數(shù)據(jù)理解:降維(PCA、ICA、LDA、流形學習、NMF、對比學習)、可視化、持續(xù)同調(diào)稀疏學習、統(tǒng)計學習理論(感知機的數(shù)學原理)深度學習、穩(wěn)定擴散模型、Transformer、VAE、VIT面向人機協(xié)同的視覺知識理論視覺知識的重要性視覺知識和視覺理解脈沖神經(jīng)網(wǎng)絡(luò):編碼、學習不確定估計理論及相關(guān)知識:不確定性、歸納偏置人機混合增強的在線演化

人機協(xié)同知識學習強化學習、逆強化學習、模仿學習、離線強化學習、基于人類反饋的強化學習,GPRO(成組相關(guān)優(yōu)化的強化學習)在線知識演化:小樣本弱監(jiān)督自學習、領(lǐng)域自適應(yīng)與遷移學習、持續(xù)學習、課程學習、自步學習動態(tài)自適應(yīng)人機協(xié)同:人機協(xié)同系統(tǒng)框架、人機協(xié)同模型與控制、人機協(xié)同關(guān)鍵技術(shù)建模特點、建模方法、關(guān)鍵技術(shù);路徑規(guī)劃、協(xié)同決策、研究現(xiàn)狀;人的狀態(tài)、習性、技能:人體模型構(gòu)建、姿態(tài)估計研究、步態(tài)識別腦機接口、腦神經(jīng)媒體組腦機接口與類腦智能;腦神經(jīng)媒體組學;腦機存算一體技術(shù)(憶阻器、存算一體);精準安全腦機;腦機接口的意義人機混合增強智能的直覺推理面向人機協(xié)同的因果學習與因果發(fā)現(xiàn)概率圖模型:表示、學習、推斷;圖神經(jīng)網(wǎng)絡(luò);因果推斷;人機協(xié)同知識推斷技術(shù)反事實推斷;群智協(xié)同推斷;貝葉斯推斷基于直覺推理的場景推理直覺推理機制與認知地圖;基于直覺的場景推理;人機協(xié)同直覺推理技術(shù)人機協(xié)同的感知、認知與決策人在回路的人機協(xié)同;面向決策規(guī)劃的人機協(xié)同;面向控制執(zhí)行的人機協(xié)同;人機協(xié)同驗證平臺人機協(xié)同的圖像生成與創(chuàng)意人機協(xié)同的圖像生成;人機協(xié)同的多媒體生成;人機協(xié)同的創(chuàng)意設(shè)計人機混合增強智能

-歷史與基礎(chǔ)歷史概要孕育期(1956年前)初創(chuàng)期(1956年—1980年)成長期(1981年-2000年)交叉研究期(2001年---)孕育期(1956年前)特點:數(shù)理邏輯、自動機理論、控制論、信息論、人工神經(jīng)元理論、電子計算機等學科的建立和發(fā)展1936:圖靈--理想計算機模型的自動機理論1943:麥卡洛奇(McCullochWS)和皮茲(PittsW):M-P模型(數(shù)學模型)1945:馮諾伊曼(VonNeumannJ)提出存儲程序概念,1946年研制成功第一臺電子計算機ENIAC1946年:薛定鄂:《生命是什么》---

開啟人工智能的大門1948:香農(nóng)(ClaudeShannon)的信息論1948:維納(WienerN)控制論1949:赫布(DonaldHebb):學習中人腦神經(jīng)元之間連接的規(guī)律1950:圖靈(AlanTuring):“圖靈測試”1.圖靈機1936年提出了作為通用計算機模型的圖靈機非真實的,想象的理論模型

是否存在一臺圖靈機,可以判定任意圖靈機的輸出結(jié)果。1)是否存在一臺機器,它能確定在磁帶上的任意機器是在“循環(huán)”的機器。這里循環(huán)包括停機、未能繼續(xù)它的計算任務(wù)。2)是否存在一臺機器,它能確定在磁帶上的任意機器曾經(jīng)打印過一組給定的符號。圖靈機也可以看作是,現(xiàn)在主流計算機采用的馮?諾依曼架構(gòu)的雛形版圖靈測試vs

中文房間(ChineseRoom,JohnSearle,1980)初創(chuàng)期(1956-1980)達特茅斯學院1956:人工智能正式成為一門學科摩爾、麥卡錫、明斯基、塞弗里奇、所羅門諾夫斷言:學習或者智能的任何其他特性的每一個方面都應(yīng)能被精確地加以描述,使得機器可以對其進行模擬1956:紐厄爾(AllenNewell)和西蒙(HerbertA.

Simon)提出了“邏輯理論家”程序。1956:塞繆爾(ArthurSamuel)研制了跳棋程序1958:麥卡錫(JohnMcCarthy)提出表處理語言LISP1958:王浩

數(shù)學定理證明(IBM704)

吳文俊1959:塞繆爾創(chuàng)造了“機器學習”一詞第一代AI研究者的預言1958年,H.A.Simon,AllenNewell:“十年之內(nèi),數(shù)字計算機將成為國際象棋世界冠軍。”“十年之內(nèi),數(shù)字計算機將發(fā)現(xiàn)并證明一個重要的數(shù)學定理?!?965年,H.A.Simon:“二十年內(nèi),機器將能完成人能做到的一切工作?!?967年,MarvinMinsky:“一代之內(nèi)……創(chuàng)造‘人工智能’的問題將獲得實質(zhì)上的解決。”1970年,MarvinMinsky:“在三到八年的時間里我們將得到一臺具有人類平均智能的機器。”1997年5月11日,深藍成為戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫的第一個計算機系統(tǒng)。人工智能的科學基礎(chǔ)人工智能主要受啟于神經(jīng)科學的研究19世紀末James發(fā)現(xiàn)神經(jīng)元相互連接。20世紀中期McCulloch和Pitts發(fā)現(xiàn)神經(jīng)元的工作方式是“興奮”和“抑制”。Wiener,《控制論》(Cybernetics)Ashby,《大腦設(shè)計》Arbib,《大腦、機器與數(shù)學》道金斯,《自私的基因》《盲人鐘表匠》哥德爾,艾舍爾,巴赫,《集異壁之大成》神經(jīng)科學的兩種學說HoraceBasilBarlow1921---DonaldO.Hebb1904---1985Barlow倡導單細胞學說,假設(shè)從初級階段而來的輸入集中到具有專一性響應(yīng)特點的單細胞,并使用這個神經(jīng)單細胞來表象視覺客體。Hebb倡導多細胞集成學說,主張視覺客體是由相互關(guān)聯(lián)的神經(jīng)細胞集合體來表象,并稱其為ensemble。人工智能早期研究1956:Rosenblatt的感知機1965:Samuel的符號機器學習1965:費根鮑姆(EdwardFeigenbaum)DENDRAL專家系統(tǒng)1969:Minsky

(1927-2016)和Papert的著作《Perceptron》1973:Lighthill萊特希爾報告,組合爆炸

AI寒冬二十世紀八十年代的研究

符號機器學習取得進展專家系統(tǒng)vs知識工程:通用--》特定

計算學習理論-PAC(概率近似正確)模糊數(shù)學,1965--,扎德

神經(jīng)網(wǎng)絡(luò)的研究計算學習理論

(ComputationalLearningTheory:COLT)1984年,Valiant提出機器學習應(yīng)該以模型概率近似正確(1-

)為指標,而不是以概率為1為指標。學習算法必須對樣本集合的規(guī)模呈多項式。統(tǒng)計機器學習、集成機器學習等方法的理論基礎(chǔ)。神經(jīng)網(wǎng)絡(luò):第二次高潮Hopfield模型(1982)Grossberg的ART模型(1986)Kohonen模型(1989)……最有影響的是Remulhart等人提出的BP算法(1986)Minsky的“Perceptron”著作(1988)Hopfield神經(jīng)網(wǎng)絡(luò)神經(jīng)元–晶格自旋相互作用:相鄰、跳連接遞歸神經(jīng)網(wǎng)絡(luò)電路設(shè)計模擬Hopfield,JJ(April1982).

"Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities".

ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica.

79

(8):2554–2558Kohonen網(wǎng)絡(luò)(自組織映射網(wǎng)絡(luò),SOM,1982)原型說vs流形學習認知心理學Selfridge(1959)提出“鬼城”

(Pandemonium)

模仿:大腦視覺機理Autoencoder人工智能研究熱點的變遷

1989年(Carbonell),1997年(Dietterich)

符號機器學習。

符號機器學習。

連接機器學習。

統(tǒng)計機器學習。

遺傳機器學習。

集成機器學習。

分析機器學習。

強化機器學習。什么是學習機器學習是人工智能的核心研究領(lǐng)域之一任何一個沒有學習能力的系統(tǒng)很難被認為是一個真正的智能系統(tǒng)學習的定義如果一個系統(tǒng)能夠通過執(zhí)行某種過程而改進它的性能,這就是學習----

Simon.利用經(jīng)驗改善系統(tǒng)自身的性能--

[T.Mitchell,Book97]統(tǒng)計機器學習的特點

算法的泛化能力Vapnik的有限樣本統(tǒng)計理論[1971]

線性空間的學習算法(劃分)SVM(fromperceptron)“泛化誤差界”研究的演變

PAC界(Valiant[1984])。VC維界(Blumer[1989])。

最大邊緣(Shawe-Taylor[1998])。最大邊緣(Shawe-Taylor,1998)改進線性可分問題如果一個樣本集合是線性可分的,它們一定可以構(gòu)成兩個不相交的閉凸集。這樣,線性可分問題變?yōu)橛嬎銉蓚€閉凸集的最大邊緣問題。線性不可分問題---核函數(shù)可以證明,一定存在一個映射,稱為核函數(shù),將在歐氏空間定義的樣本映射到特征空間(一個更高維的空間),使得在特征空間上,樣本構(gòu)成兩個不相交的閉凸集。集成機器學習---弱模型1994年,Kearns和Valiant在PAC學習基礎(chǔ)上,將PAC區(qū)分為強可學習與弱可學習。概念強可學習:存在一個復雜性為P的學習算法來識別一組概念的錯誤率以概率1-

小于一個很小的常數(shù)

。概念弱可學習:存在一個復雜性為P的學習算法識別一組概念的正確率僅比隨機猜測略好。即,只要略大于50%。猜想:弱模型可以提升為強模型嗎?對一組概念的模型(假設(shè))滿足弱可學習條件,稱為弱模型或弱假設(shè)。Schapire的貢獻1990年Schapire通過一個構(gòu)造性方法對上述猜想作出了肯定的證明。命題是這樣陳述的:一個概念是PAC弱可學習,當且僅當它是PAC強可學習的。

人工智能五大流派及人物派別問題解決方案符號主義(Symbolist)知識結(jié)構(gòu)逆演繹算法(Inversededuction)聯(lián)結(jié)主義(Connectionist)信度分配反向傳播算法(Backpropagation)進化主義(Evolutionaries)結(jié)構(gòu)發(fā)現(xiàn)基因編程(GeneticProgramming)貝葉斯派(Bayesians)不確定性概率推理(ProbabilisticInference)統(tǒng)計學習(Analogizer)相似性核機器(KernelMachine)決策樹:思維鏈的鼻祖貝葉斯派統(tǒng)計學習理論最大邊緣(Shawe-Taylor,1998)遺傳算法Transformer(2017)Attentionisallyouneed!

1936194319461948194919511954195619571958195919651967196919741980198119841986199719982000200220052009201120122014201520171960201820192020202120222023圖靈提出通用計算機模型的“圖靈機”McCulloch和Pitts提出神經(jīng)元模型MP模型馮諾依曼等建成ENIAC電子數(shù)字積分計算機維納《控制論》香農(nóng)探討機器下棋的可能性1950圖靈測試明斯基與艾德蒙茲創(chuàng)建第一個人工智能實驗室第一次機器翻譯達特茅斯學院AI誕生Newell&Simon38條數(shù)學定理證明Rosenblatt提出感知機王浩IBM704用3-4分鐘證明220條數(shù)學定理Wiesel

&

Huber從貓視覺皮層發(fā)現(xiàn)神經(jīng)元具有方向性第一臺工業(yè)機器人誕生塞繆爾,跳棋程序SemanticNetworks語義網(wǎng)JosephWeizenbaum建成第一個智能聊天機器人EliZAZadeh提出模糊邏輯Newell

&

Simon通用問題求解(GPS)互聯(lián)網(wǎng)誕生Minsky&Papert出版《感知機》1971SHRDLU虛擬機器人1966-1972Shakey第一個可移動機器人人工智能寒冬1973萊特希爾報告LISP,AI標準編程語言走出寒冬專家系統(tǒng)盛行MyCin醫(yī)療診斷,19791968費根鮑姆等提出DENDRAL第一個專家系統(tǒng)化合物分子結(jié)構(gòu)推斷日本研發(fā)第五代計算機Cyc,百科全書項目Rumelhart、Hinton、Williams提出反向傳播算法Hornik&Cybenko提出萬能近似定理1992關(guān)聯(lián)規(guī)則:啤酒與尿布深藍戰(zhàn)勝國際象棋世界冠軍加里-卡斯帕羅夫Vapnik統(tǒng)計機器學習支持向量機YannLeCun卷積神經(jīng)網(wǎng)絡(luò)LeNet-5流形學習iRobot家用機器人Roomba問世斯坦福大學和谷歌:Google街景項目李飛飛ImageNet圖像分類數(shù)據(jù)集IBM的AI計算機Watson在游戲Jeopardy中擊敗人類冠軍Alex和Hinton等提出AlexNet網(wǎng)絡(luò)深度學習取得性能突破GPU得到廣泛使用谷歌:知識圖譜IanGoodfellow提出生成對抗網(wǎng)(GAN)何愷明等提出殘差網(wǎng)

(ResNet)2016谷歌AlphaGo擊敗圍棋世界冠軍李世石谷歌AlphaZero谷歌大腦提出TransformerOpenAI提出生成式預訓練模型GPT

AlphaStar擊敗星際爭霸II職業(yè)玩家OpenAI提出生成式預訓練模型GPT-3谷歌無人車行駛300萬以上公里谷歌AlphaFold預測蛋白質(zhì)結(jié)構(gòu)谷歌提出面向?qū)υ挼恼Z言大模型LaMDAOpenAI提出:ChatGPT,GPT-4,DALL-E3Meta提出圖像分割模型SAMMidJourney公司:人工智能繪畫2006Hinton在《Science》提出深度網(wǎng)絡(luò)人工智能的萌芽期(1936-1955)

人工智能的初創(chuàng)期(1956-1980)人工智能的成長期(1981-2011)人工智能的第三次熱潮(2012-至今)

1979福島邦彥提出新認知機20242OpenAI,SoraGPT-4o12025DeepSeek神經(jīng)網(wǎng)絡(luò)的再次復興2006GeoffreyHinton在《Science》上發(fā)表了深度學習的論文伯茲曼機:解決了初始權(quán)值的問題重新把神經(jīng)網(wǎng)絡(luò)的研究帶回了人們的視野InternationalConferenceonLearningRepresentation會議NeuralInformationProcessingSystems會議(NeruIPS)大量新的應(yīng)用成果圖像、語音、自然語言處理2012,GoogleBrain視覺系統(tǒng)的分級信息處理典型的深度學習模型RBM

(Hinton,2006)DBN(DeepBeliefNetwork)CNN(LecunYan,1998)RNN/LSTMMultimodalRBMConvolutionalNeuralNetwork(LeNet-5)

Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner.Gradient-basedlearningappliedtodocumentRecognition.ProceedingsoftheIEEE,Nov.1998.為什么先考慮數(shù)字識別呢?郵政,信件ILSVRC-2009/1400萬張全尺寸圖像

ImageNetLargeScaleVisualRecognitionChallenge更深的層。超越人類深度學習成功的原因大數(shù)據(jù)的形成深層CNN網(wǎng)絡(luò)新型技巧的運用GPU硬件性能的提升分布式技巧的研究特征工程End-to-End的革命基礎(chǔ)知識BasicprocedureofmachinelearninginbigdataBasicConcepts

Variables/Attributes

/

Features

Samples,Measures

Classes/Categories

LearningModels

EvaluationCriteria

ModelSelectionTypesofVariables/FeaturesContinuousvariables(連續(xù)變量){temperature,humidity}

(溫度、濕度)Discretevariables(離散變量){thenumberofstudentspresent}(到場學生數(shù)量)Nominate(Categorical)variables名義(范疇)變量{male,female},{blonde,brown,red,brunette}(男、女)Ordinalvariables:clearordering有序變量(清晰的序){low,mediumandhigh},

{elementary,middle,andhighschool}FilmRatingSystems(電影評分)Intervalvariables(區(qū)間變量)[0.70.8];[$90,000

$95,000]Attributes/Features鳶尾花iris數(shù)據(jù)集包含150個數(shù)據(jù)集,分為3類,每類50個數(shù)據(jù),每個數(shù)據(jù)包含4個屬性??赏ㄟ^花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類常出現(xiàn)問題:數(shù)據(jù)缺失/數(shù)據(jù)異常Attributes/Features距離計算SimilaritymeasureMeasuresNormalizationStandardScore:FeatureScaling:EuclideanDistanceMahalanobisDistanceMachineLearningBasicCategories Supervisedmodel

(監(jiān)督):labeleddataUnsupervisedmodel

(非監(jiān)督):unlabeleddataSemi-supervisedmodel

(半監(jiān)督):bothlabeledandunlabeleddataReinforcementlearning

(強化學習):learnbyinteractingwithanenvironment

Self-supervisedlearning(自監(jiān)督學習)TypesofMLalgorithms:Prediction

(預測):predictingavariablefromdata Classification(分類):assigningrecordstopredefinedgroupsClustering(聚類):splittingrecordsintogroupsbasedonsimilarityAssociation-rulelearning(關(guān)聯(lián)規(guī)則學習):seeingwhatoftenappearstogetherwithwhat----beeranddiaper關(guān)聯(lián)規(guī)則的例子:宜家和諾獎的關(guān)系本文研究了作者和頂級期刊編委的關(guān)系。發(fā)現(xiàn)大約43%的文章里作者與刊物的編輯有學術(shù)聯(lián)系。如果是編委的博士生和學校同事也會改進他們的論文發(fā)表結(jié)果,當這個編委負責一個期刊的評審時。BasicLearningTypesCurve

(Surface)fitting

RegressionClustering

。

。

。

■ClassificationEvaluationMSE(MeanSquareError)/RMSEPrecision

/

RecallROC/AUCFalsepositive/Truepositive回歸:分類TypeIvsTypeIIerrors(安防vs胰腺癌)ROCandAUC受試者工作特征曲線

(receiveroperatingcharacteristiccurve,簡稱ROC曲線),又稱為感受性曲線(sensitivitycurve)ExampleModelSelectionModelSelectionOverfittingCross-validationLeaveoneoutOverfittingindataBiasandVarianceTradeoffErrorduetobias:Thedifferencebetweentheexpected(oraverage)predictionofourmodelandthecorrectvaluewhichwearetryingtopredict由試圖預測的正確值和模型的期望預測之間的差異Errorduetovariance:Thevariabilityofamodelpredictionforagivendatapoint.給定數(shù)據(jù)點情況下,模型預測的波動Bias–VarianceTradeoffBiasandVarianceTradeoffModelComplexityModelComplexity(Selection)Occam’sRazor

principle:entitiesmustnotbemultipliedbeyondnecessitySimpleisbetterParameterComplexityCodeComplexityMinimumDescriptionLengthVCComplexityStatisticalLearningtheoryCross-Validationandleaveoneout常用分布:

Gaussian(Normal)DistributionProsandConsofGaussianDistr.Pros:Easytoderivate/SymmetricEasygeneralizetoamixtureofGaussiandistributionsCons:AssumptionisstrongLotofotheralternativedistributionsCannotdealwithcomplexdistributionsHeavytaildistribution張軍平復旦計算與智能學院DimensionReduction

----理解數(shù)據(jù)幾何結(jié)構(gòu)OutlineMotivationSurveyOurWorksDiscussion/ConclusionMotivationBigData

BiometricAuthenticationInternet/MobileVisualSearchMultimediaBioinformaticsPrecisionMedicineCurseofDimensionalityUnderlyingDimensionVisualizationComputationalEfficiency三維空間超球的體積計算:立方體體積計算:隨著維度d的增加,有:幾乎所有的高維空間都會遠離其中心,最小值和最大值的距離會不可辨別(CopiedfromMarioKoppen)對高斯分布的影響(CopiedfromWiki)Survey可視化技術(shù)

StatisticalProperty(統(tǒng)計特性)---PCA/ICADiscriminability(判別特性)---LDAUnderlyingDimension(內(nèi)在維度)----

Manifold

Learning

ConditionalIndependent(條件獨立)---SDRandKDR

Correlation(相關(guān)性)---CCA

Sparsity(稀疏性)---NMF,Lasso………高維數(shù)據(jù)可視化的策略主成分分析--數(shù)據(jù)的統(tǒng)計特性MaximizeVariance(最大化方差)

X矩陣N*d;d維度;N樣本數(shù)MinimizeResidualErrors(最小化殘差)SingleValueDecomposition(奇異值分解,SVD)

(CopiedfromMarkusRingnér)Discriminability(判別性)LinearDiscriminantAnalysis(LDA)Within-varianceBetween-varianceObjective:Dimensionreduction:ManifoldLearning[H.S.Seung&D.D.Lee.2000][Tenenbaumetal,2000][RoweisandSaul,2000]UnderlyingDimensionGeneratedfromLow-dimensionalvariables.InterpretabilityExample:PCASubspaceofTranslatedFacesDefinitionAmanifoldisatopologicalspacethatislocallyEuclidean(i.e.,aroundeverypoint,thereisaneighborhoodthatistopologicallythesameastheopenunitballin).IsometricMapping[Tenenbaumetal.,2000]Step1:

Givenaneighborhoodsize$k$,computepairwisedistanceofeachpointanditsneighboringpoints.Step2:ComputeGeodesicdistancebetweenfar-awaypointsbyutilizinggraphdistanceStep3:EmployMultidimensionalscalingtocalculateitslow-dimensionalsubspace.LocallyLinearEmbedding[RoweisandSaul,2000]LLEStep1:Computetheneighborsofeachdatapoint,XiStep2:ComputetheweightsWijthatbestreconstructeachdatapointXifromitsneighbors,minimizethecostinEq.(1)Step3:ComputethevectorYibestreconstructedbytheweightWij,minimizingthequadraticforminEq.(2)byitsbottomnonzeroeigenvectors.

推導拉格朗日-->求導--->歸一化StochasticNeighborEmbeddingConvertingthehigh-dimensionalEuclideandistancesbetweendata

pointsintoconditionalprobabilitiesthatrepresentsimilaritiest-SNEDespitethestrongperformanceofthesetechniquesonartificialdatasets,theyareoftennotverysuccessfulatvisualizingreal,high-dimensionaldataSammonmapping,CCA,MVU,LLE,LE,Isomap,SNE

areincapableofretainingboththelocalandtheglobalstructureofthedatainasinglemap.Avariationofstochasticneighborembedding

SignificantlybettervisualizationbyReducingthetendencyofcrowdpointstogetherinthecenterofthemap.Crowdproblem—t-SNE

SymmetrizedversionoftheSNEcostfunctionwithsimplergradients

UsesaStudent-tdistributionratherthanaGaussiantocomputethesimilaritybetweentwopointsinthelow-dimensionalspace.

Heavy-taileddistributioninthelow-dimensionalspacetoalleviateboththecrowdingproblemandtheoptimizationproblemsofSNE.Studentt-distributionStudentt-distributionwithonedegreeoffreedomHeavy-taileddistributioninthelow-dimensionalmap.實際效果MNISTSparsity---InterpretabilityFeaturerepresentation(Parts):Non-negativeMatrixFactorization

[SeungandLee,1999]數(shù)據(jù)的拓撲結(jié)構(gòu)--克萊因瓶GunnarCarlsson,TigranIshkhanov,VindeSilva,AfraZomorodian.OntheLocalBehaviorofSpacesofNatural

Images,InternationalJournalofComputerVision,vol.76,no.1,pp.1-12,2008.人機混合增強智能

-在線演化與動態(tài)自適應(yīng)張軍平,復旦計算機2.26起,

2025智華103;晚11-13節(jié)在線演化與動態(tài)自適應(yīng)人機協(xié)同知識學習在線知識演化動態(tài)自適應(yīng)人機協(xié)同人的狀態(tài)、習性、技能腦機接口、腦神經(jīng)媒體組人機協(xié)同混合增強智能關(guān)鍵技術(shù)人在回路的混合增強智能--》引入人的作用基于認知計算的混合增強智能--》依賴于生物啟發(fā)中國工程院院士、中國自動化學會理事長鄭南寧院士,2017年7月,西安,混合智能專委會成立大會沙龍

混合智能---孤立依賴人或機都不可靠2019年3月10日,埃塞俄比亞航空一架波音737MAX8飛機發(fā)生墜機空難2014年3月8日,馬航mh370失聯(lián)人機差異:一千個人中有一千個哈姆雷特外部環(huán)境:復雜性、開放性、脆弱性機器需具備感知、推理、決策(執(zhí)行)的認知模型解決現(xiàn)實問題認知模型訓練需要構(gòu)建機器與人類專家之間的交互框架學習人類智能擅長能力:創(chuàng)新、決策、想象與聯(lián)想等抽象能力底層邏輯/結(jié)構(gòu)差異機器:馮諾依曼結(jié)構(gòu):進行符號系統(tǒng)的編碼/在限定計算框架下利用計算過程處理計算作用人類智能:依賴于腦結(jié)構(gòu)與神經(jīng)元復雜系統(tǒng),應(yīng)對動態(tài)、開放的復雜環(huán)境人類智能:通過環(huán)境適應(yīng)力與選擇注意力機制來度量風險與收益,提升人的抽象能力環(huán)境適應(yīng)力:漫長進化,外在肢體行為內(nèi)化到肌肉記憶的基因里,并通過與環(huán)境交互來優(yōu)化交互:零交互(離線專家)、半交互(離線+在線)、全交互(專家設(shè)計框架、在線交互)專家交互框架專家行為表示:包括經(jīng)典概率圖、圖神經(jīng)網(wǎng)絡(luò)、因果表示、解耦表示學習等方式,構(gòu)建了一個可供學習的知識表示——專家知識空間專家知識表征提?。喊ń?jīng)典的特征約束集、深度監(jiān)督學習、深度無監(jiān)督學習等方式,對專家知識空間進行特征表示的抽取,提煉出專家知識的通用表征,從而能方便地對智能體提供有效的指導——專家指導信息專家策略學習:包括基于對抗式訓練、基于魯棒性訓練、基于互信息篩選等學習方式以及基于內(nèi)在好奇心、貪心等探索策略,將專家指導更好地融入智能體的學習過程中,提升智能體策略的訓練過程——策略學習專家知識表示、提取、學習過程,只是智能體做決策的一部分信息來源智能體還要接受來自環(huán)境的信息反饋,以及更細化更具體的目標任務(wù)信息,從而更精確地規(guī)范智能體的行為,并且在環(huán)境歷史經(jīng)驗的常識下,以近似專家指導的行為完成目標任務(wù)人機協(xié)同知識學習

強化學習模仿學習逆強化學習離線強化學習ProbabilitiesonallillegalmovesAction(movewiththehighestscore)DecisionmakingandactionPerceptionAlphaGo強化學習框架ReinforcementLearningAnagentinteractswithitsenvironmentbyperformingactions

andlearningfromerrorsorrewards.Nopredefineddata!

Andnopredefineddistribution(i.i.d)!Reward-based.ElementsofReinforcementLearning(8要素)

Agent:thelearnerandthedecisionmakerEnvironment:wheretheagentlearnsanddecideswhatactionstoperform1.Action:asetofactionswhichtheagentcanperform2.State:thestateoftheagentintheenvironment3.Reward:foreachactionsselectedtheenvironmentprovidesareward4.策略(policy):5.價值函數(shù):6.獎勵衰減因子gamma:[0,1]之間取值環(huán)境狀態(tài)轉(zhuǎn)化模型:在狀態(tài)??下采取動作??,轉(zhuǎn)到下一個狀態(tài)s′的概率探索率??:該比率主要用在強化學習訓練迭代過程中,由于一般會選擇使當前輪迭代價值最大的動作,但會導致一些較好的但沒有執(zhí)行過的動作被錯過。因此我們在訓練選擇最優(yōu)動作時,會有一定的概率??不選擇使當前輪迭代價值最大的動作,而選擇其他的動作強化學習基本定義軌跡期望回報最大化后獲得的為最優(yōu)策略pi*MDP基礎(chǔ)設(shè)定框架貝爾曼方程(Bellmanequation)強化學習延伸設(shè)定強化學習Actor-Critic框架:旨在解決HighVariance和Highbias

之間的矛盾129130Actor-Critic算法流程131132模仿學習/學徒學習

ImitationLearning/ApprenticeLearning在強化學習的經(jīng)典任務(wù)設(shè)置中,所能獲得的反饋信息僅有多步?jīng)Q策后的

累計獎賞但在限時任務(wù)中,往往能得到人類專家的決策過程范例

例如在種瓜任務(wù)上能得到農(nóng)業(yè)專家的種植過程范例。從這樣的范例中學習,稱為“模仿學習”,也被稱為“學徒學習”。模仿學習技術(shù)旨在模仿給定任務(wù)中的人類行為。通過學習,觀察價值和動作之間的映射關(guān)系,對智能體進行訓練,使其能夠從示教中學習并獨立執(zhí)行任務(wù)

在人機協(xié)同情形下,強化學習側(cè)重于提升樣本有效性

模仿學習的范式有助于以最少的專家知識來教授復雜的任務(wù)。通用的模仿學習方法可以將講授任務(wù)的問題減少為提供示范的問題,而無須針對任務(wù)進行顯式編程或設(shè)計獎勵功能

模仿學習鼓勵智能體在不與環(huán)境交互的前提下學習知識,這種學習在自動駕駛車輛避障、醫(yī)學輔助術(shù)前診斷等交互成本偏高的場景中具有很大應(yīng)用前景

RLfD:基于不完美專家數(shù)據(jù)的模仿學習算法如RLfD(RL

from

Demonstration),在軟約束下的RLfD,以及基于GAIL(GenerativeAdversarialImitationLearning)算法的改進,這些方法在不同程度上提升了模仿學習范式的泛化能力,降低了對應(yīng)用場景的要求,同時提升了強化學習算法的樣本使用效率。示例生成對抗模仿學習算法(GAIL)(Ho,2016)在GAIL當中,策略網(wǎng)絡(luò)對應(yīng)于GAN中的生成器,用于根據(jù)狀態(tài)來得到動作判別網(wǎng)絡(luò)用于判別一個狀態(tài)動作對是由專家數(shù)據(jù)產(chǎn)生還是由策略產(chǎn)生,兩者相互對抗。在專家數(shù)據(jù)量足夠的一個前提下,GAIL可以得到一個較好的策略網(wǎng)絡(luò)和判別網(wǎng)絡(luò)。它繞開了中間的逆強化學習過程,直接從數(shù)據(jù)中學習策略。生成對抗訓練的技巧被廣泛使用在擬合判別器以及估計狀態(tài)和動作的分布等算法的重要環(huán)節(jié)中。就專家數(shù)據(jù)而言,GAIL通常具有相當高的樣本效率。但是,就訓練期間的環(huán)境交互而言,它并不能特別有效地利用樣本。與基于模型的方法相比,它通常需要更多的環(huán)境交互。多模態(tài)生成對抗模仿學習方法

(Hausman,2017)該方法能夠在非結(jié)構(gòu)化的示教數(shù)據(jù)中學習,并且能夠在不同環(huán)境下進行模仿學習,以適應(yīng)不同類型的任務(wù),一定程度上提高了模型的魯棒性

DQfD基于行為克隆的想法,有學者提出了從示范中進行深度Q學習的方法(DQfD),嘗試通過加入時序差分和正則化損失來平衡專家數(shù)據(jù),加速學習過程

Hester等人以類似的思路將DDPG

(deepdeterministicpolicygradient,深度確定性策略梯度算法)與專家數(shù)據(jù)相結(jié)合,構(gòu)建出了DDPGfD算法

策略選擇的動作是函數(shù)決定,效率高但缺乏探索Off-policy策略,緩解探索問題,即采樣的policy是隨機的,待優(yōu)化的是確定的Nair等人后續(xù)也提出了類似于DQfD和DDPGfD的算法,該算法在DDPG的基礎(chǔ)上增加了示教數(shù)據(jù)經(jīng)驗回放緩沖區(qū)(DemonstrationReplayBuffer),利用最小二乘損失訓練策略網(wǎng)絡(luò),同時將強化學習中已有的損失函數(shù)與視角數(shù)據(jù)中的最小二乘損失相結(jié)合,使得策略網(wǎng)絡(luò)去學習專家數(shù)據(jù)中的動作

第三人稱模仿學習

鑒于許多模仿學習的方法都有第一人稱專家數(shù)據(jù)的局限性,因此從無監(jiān)督的第三人稱的示教數(shù)據(jù)進行學習,讓智能體通過觀察其他人達成目標的過程來達到模仿專家的效果。這種學習方式從想法上與示教學習的目標不謀而合,同時也方便使用蒸餾學習等方法進行優(yōu)化,利于跨領(lǐng)域進行算法層面的優(yōu)化和集成。

DQfD不足單純使用模仿學習的效果非常依賴于專家數(shù)據(jù)的質(zhì)量。例如,在自動駕駛中,專家數(shù)據(jù)可能總保持良好的駕駛習慣,其中缺乏或罕見緊急情況下的人類反應(yīng),這使得智能體無法學習特定駕駛情形下的處理能力,安全駕駛也就無從談起。

模仿學習方法將問題直接轉(zhuǎn)化為監(jiān)督學習的問題,降低了學習難度,一定程度上提高了樣本的使用效率

。盡管這類算法能夠加速學習過程,但缺陷在于表現(xiàn)不會勝過專家示教數(shù)據(jù)

基于最小化分布差異的示教學習如今露頭角,盡管仍然存在如分布度量近似計算損失的性能等等問題,但對比基于標準強化學習、逆強化學習的算法而言,具有更高的數(shù)據(jù)利用率、更低的計算復雜度、更穩(wěn)定以及更快速的學習效率,是發(fā)展的熱門方向不足模仿學習算法通過專家示例軌跡進行訓練學習,其性能嚴重依賴于專家樣本

生成對抗模仿學習是近年提出的一種高效的模仿學習算法,它使用基于生成對抗網(wǎng)絡(luò)的判別器獎勵,指導智能體策略朝著專家策略的方向優(yōu)化,最終實現(xiàn)模仿專家策略的目的。然而,模仿的過程不會一蹴而就,需要逐步指導,才能實現(xiàn)性能最優(yōu);同時受限于生成對抗網(wǎng)絡(luò)框架的局限性,平衡判別器與生成器是算法實現(xiàn)的關(guān)鍵所在。

模仿學習的仿真平臺已經(jīng)高度還原真實場景,但與現(xiàn)實場景仍然存在很大的差距,導致難以對多任務(wù)場景的課程模仿學習,可以試圖借鑒數(shù)字孿生的思想,減小仿真環(huán)境到現(xiàn)實世界的鴻溝(Sim2RealGap),也可加入了語義分割的輔助任務(wù)來加強模型對場景的理解,進一步利用在線的模仿強化學習通過在線交互來達到模型預測的修正,從而真正實現(xiàn)模仿學習算法在自主駕駛、工業(yè)運維、疾病診斷等領(lǐng)域的應(yīng)用落地。

基于強化學習的專家示教分析框架專家示教數(shù)據(jù)的獲取與表示專家知識表示在

強化學習中的指

導方式直接式先驗式:指導對象為價值網(wǎng)絡(luò)預訓練:策略網(wǎng)絡(luò)或價值網(wǎng)絡(luò)回放式(replay):交互經(jīng)驗池間接式作用于價值網(wǎng)絡(luò)的目標作用于策略網(wǎng)絡(luò)的目標作用于收益網(wǎng)絡(luò)的目標基于專家聚類結(jié)構(gòu)的引導性探索算法實驗結(jié)果逆強化學習(InverseReinforcementLearning,IRL)強化學習專注于根據(jù)收到的(人為設(shè)定)獎勵信號

學習智能體(agent)在任務(wù)上的行為

和強化學習在思路上相反,在給定策略或觀察到的行為的前提下,推斷獎勵函數(shù)的問題

主要問題和主要挑戰(zhàn),包括執(zhí)行準確推理的難度和可推廣性、對先驗知識的敏感性以及解決方案的復雜度隨問題規(guī)模的非線性增長。在給定一個策略(optimalornot)或者一些操作示范的前提下,反向推導出馬爾可夫決策過程的獎勵函數(shù),讓智能體通過專家示范(experttrajectories),來學習如何模仿決策復雜問題的一種算法

使用觀察到的一個智能體的行為對另一個智能體的偏好進行建模的問題,從而避免強化學習中常被詬病的人為設(shè)定獎勵函數(shù)方法

IRL選擇獎勵函數(shù)

R

來優(yōu)化策略,并且使得任何不同于πE

aE~πE

)的動作決策(

a∈A?aE

),其中盡可能產(chǎn)生更大損失。其中

aE=πE(s)

aE~πE(?|s)

是專家最優(yōu)動作優(yōu)勢無須人為設(shè)定獎勵函數(shù)。預先設(shè)定獎勵函數(shù)的要求將強化學習的實用性、最優(yōu)控制理論限制在一定范圍內(nèi),然而逆強化學習則可以擴展強化學習的適用性,并減少任務(wù)說明的人為設(shè)計,前提是可以提供所需行為的策略或演示??梢蕴嵘夯阅?。獎勵函數(shù)用簡潔的形式來表示一個智能體的偏好,并且同樣適用于另一個同類智能體。如果目標主體和其他主體共享相同的環(huán)境和目標,那么就可以按照原樣使用學習的獎勵函數(shù),即使是主體的環(huán)境略有不同,逆強化學習也可以提供有效幫助。

逆強化學習的潛在應(yīng)用廣泛

分類

用數(shù)學的形式來表示逆強化學習的思想

最大邊際化問題,根據(jù)這個思想發(fā)展的算法包括學徒學習、最大邊緣規(guī)劃(Maximummarginplanning,MMP)方法、結(jié)構(gòu)化分類和神經(jīng)逆強化學習

學習一個能夠使得專家策略下的軌跡的期望回報遠高于非專家策略的獎勵函數(shù),從而達到無監(jiān)督學習獎勵函數(shù)的目的。在這樣的優(yōu)化目標下,習得的獎勵函數(shù)會使得專家和非專家的差距不斷增大最大邊際化的最大缺點是,很多時候不存在單獨的獎勵函數(shù)

使得專家示例行為既是最優(yōu)的又比其他任何行為好很多,或者有很多不同的獎勵函數(shù)會導致相同的專家策略。也就是說,這種方法無法解決歧義的問題,所學到的獎勵函數(shù)往往具有隨機的偏好

基于模型概率的方法,并利用概率模型發(fā)展出了很多逆強化學習算法,如最大熵的逆強化學習、相對熵逆強化學習、最大熵深度逆強化學習,基于策略最優(yōu)的逆強化學習等等

貝葉斯的方法,它將軌跡當中的狀態(tài)-動作對視為觀察結(jié)果,以促進貝葉斯更新候選獎勵函數(shù)的先驗分布。這種方法為逆強化學習提供了一種不同但有效的思路,并且在這種方法當中,獎勵函數(shù)通常沒有預設(shè)的固定結(jié)構(gòu)

分類和回歸之類的經(jīng)典機器學習框架也在逆強化學習中發(fā)揮了重要的作用,但這類方法也同時受到了逆強化學習并非直接監(jiān)督的影響

離線強化學習(無交互)基于內(nèi)嵌某種準則的獎勵函數(shù),從中習得一個具有決策特性的策略行為克?。簩<业膭幼鳂撕?,具有直接模仿的特性,策略的目標是對標簽的最大似然離線強化:具有序列決策的特性,策略的目標是為了使內(nèi)嵌某種準則的獎勵函數(shù)最大優(yōu)點:例如,在金融領(lǐng)域里,學習

不依賴于

因為在線交互會產(chǎn)生巨大損失的策略。在健康醫(yī)療領(lǐng)域里,避免因在線交互的診治方案導致的不良反應(yīng)等。不需要為了應(yīng)用強化算法而構(gòu)建一個高仿真度的虛擬環(huán)境基于人類反饋的強化學習Step1:預訓練語言模型+有標簽數(shù)據(jù)微調(diào)(可選)Step2:訓練獎勵模型Step3:通過強化學習微調(diào)語言模型SFT(SupervisedFine-Tuning):有監(jiān)督的微調(diào),使用正常的instructionfollowing或者對話的樣本,來訓練模型的基礎(chǔ)對話、聽從prompt的能力RM(RewardModeling):基于人類的偏好和標注,來訓練一個能模擬人偏好的打分模型RL(ReinforcementLearning):在前面的SFT模型的基礎(chǔ)上,借助RM提供反饋,來不斷通過PPO的強化學習框架來調(diào)整模型的行為。RLHF有效的解釋多樣性假設(shè):在SFT期間,模型的輸出預計在某種程度上與演示的回答相匹配。例如,給出提示“語言的示例是什么?”,如果演示的回答是“西班牙語”,而模型的回答是“Java”,則模型的回答可能會被標記為錯誤。負反饋假設(shè):演示僅向模型提供積極信號(例如,僅向模型顯示良好的回答),而不向模型提供消極信號(例如,向模型顯示不良回答的樣例)。強化學習允許我們向模型顯示消極信號?;糜X假設(shè):RLHF應(yīng)該有助于消除幻覺DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(arxiv’2402)KIMIK1.5:

ScalingReinforcementLearningWithLLMS價值函數(shù)模擬每一步的價值(詳細)規(guī)則或者RM,幫助判斷輸出結(jié)果的傾向計算A的基準長COT,監(jiān)督信息過遠DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(arxiv’2402)normalize,平滑PPO基本公式和ref不差太多這樣定義相對優(yōu)勢,如果采樣都不好呢DeepSeek-R1在監(jiān)督微調(diào)(SFT)的基礎(chǔ)上,引入GRPO進行強化學習(RL)微調(diào)。首先,對于每個輸入提示,模型根據(jù)當前策略生成多個可能輸出,為后續(xù)獎勵計算提供豐富信息。獎勵模型依據(jù)特定任務(wù)需求對每個輸出打分。隨后對獎勵值進行歸一化處理,使不同樣本之間的獎勵具有可比性,并計算相對優(yōu)勢對比同一輸入下的多個輸出,減少方差提高學習效率。根據(jù)相對優(yōu)勢調(diào)整策略模型,使其生成高獎勵輸出的概率增加,低獎勵輸出概率減少。同時,為防止策略在更新過程中發(fā)生劇烈變化,引入KL散度約束確保模型穩(wěn)定性。循環(huán)執(zhí)行上述步驟,逐步優(yōu)化策略,使模型在特定任務(wù)上的表現(xiàn)不斷提升。當模型性能達到穩(wěn)定狀態(tài)時,停止訓練或調(diào)整策略。在強化學習訓練完成后,DeepSeek-R1進一步采用拒絕采樣技術(shù)(RejectionSampling,RS)。之后DeepSeek-R1進入最終的強化學習階段。在模型具備較強的通用性后,再次應(yīng)用GRPO算法,使其符合安全性要求,強化模型適應(yīng)性。DeepSeek開發(fā)群體相對策略優(yōu)化算法是算法變革的關(guān)鍵轉(zhuǎn)折點。GRPO在價值網(wǎng)絡(luò)應(yīng)用、獎勵計算方式、策略更新機制、計算效率等許多方面優(yōu)于PPO。在價值網(wǎng)絡(luò)使用方面,PPO算法中,策略網(wǎng)絡(luò)(actor)和價值網(wǎng)絡(luò)(critic)通常是并行訓練的。PPO依賴于一個與策略模型大小相當?shù)膬r值網(wǎng)絡(luò),來估計優(yōu)勢函數(shù),調(diào)整策略網(wǎng)絡(luò)的參數(shù)。每次更新時,PPO需要對每個時間步的狀態(tài)進行評估,計算復雜度高。GRPO不再需要顯式的價值網(wǎng)絡(luò),而是在分組范圍內(nèi)對多個采樣輸出進行對比,隨后依據(jù)對比結(jié)果選取更優(yōu)策略。在每次更新過程中,不再依靠價值函數(shù)來實施評估,而是通過比較同一狀態(tài)下多個輸出的獎勵情況,直接判斷哪些動作更為優(yōu)良,這極大降低計算與存儲方面的需求。在獎勵計算方式方面,PPO采用廣義優(yōu)勢估計(GAE)來計算優(yōu)勢函數(shù)。GAE需要對每個動作的即時獎勵和未來獎勵的折扣總和進行估計,并且要結(jié)合多個時間步的獎勵信息,計算過程較為復雜。GRPO通過采樣一組動作,并直接計算這些動作的獎勵值,進行歸一化處理,得到相對優(yōu)勢。這種方法避免復雜的GAE計算,直接依賴當前的獎勵信號,計算更加簡潔高效,靈活性更強。策略更新機制方面,PPO通過裁剪概率比(clipoperation)來限制策略更新的幅度,確保策略分布的變化在可控范圍內(nèi)。由于每次更新都需要裁剪,計算效率受到一定影響。GRPO采用KL散度約束來控制策略更新的幅度。KL散度度量的是兩個概率分布之間的差異,用于對比新舊策略分布,從而限制更新的幅度。引入KL散度項,GRPO可以精確控制每次策略更新的幅度,確保策略不會發(fā)生過大的變化。計算效率方面,PPO需要反復維護和更新價值網(wǎng)絡(luò),并依賴于廣義優(yōu)勢估計(GAE)來估計每個動作的優(yōu)勢,在每輪訓練中需要大量計算和存儲數(shù)據(jù),計算效率更低。GRPO通過避免價值網(wǎng)絡(luò)的使用,顯著減少計算量并提高計算效率,降低內(nèi)存占用。計算效率高使GRPO能夠提高訓練效率,減少模型訓練時間,更適合大規(guī)模語言模型的微調(diào)。DeepSeek團隊開發(fā)的GRPO算法,摒棄耗時且計算成本高昂的人類反饋強化學習和傳統(tǒng)監(jiān)督微調(diào)過程,使訓練過程高效低耗,模型性能在某些任務(wù)上取得顯著提升,模型進一步與人類偏好對齊,提高訓練效率。研究人員在訓練DeepSeek-R1-Zero時,發(fā)現(xiàn)模型出現(xiàn)“頓悟時刻”,即在完全沒有人工標注數(shù)據(jù)的情況下,模型展現(xiàn)出持續(xù)的自我進化能力?!邦D悟時刻”為推進AI系統(tǒng)的自主性和智能化提供寶貴的啟示。Deepseek-R1中的強化學習特點純強化學習,沒有監(jiān)督學習微調(diào),沒有評價模型(CriticModel)頓悟時刻AhaMoment自我演化(Self-evolution)計算效率提升小結(jié)數(shù)據(jù)利用率是深度強化學習的難點,因為需要智能體與環(huán)境交互產(chǎn)生數(shù)據(jù),再用數(shù)據(jù)學習改善策略的方法:當前策略或同策略(on-policy)和異策略(off-policy)。異策略算法數(shù)據(jù)利用率高,可以使用歷史數(shù)據(jù),而且可以同時學習多個技能的策略,但是穩(wěn)定性差。同策略算法在學習過程中無法重新利用歷史數(shù)據(jù),因為每次行動策略更新后,之前的數(shù)據(jù)就非當前策略,而是異策略的數(shù)據(jù)了。但是,其穩(wěn)定性比異策略強。獎勵函數(shù)的設(shè)計是另一難點:某些復雜決策任務(wù),很難設(shè)計,即使專家也難以設(shè)計好的?;谀P偷膹娀瘜W習(Model-BasedReinforcementLearning)有著比異策略強化學習方法更高的數(shù)據(jù)利用率?;谀P偷膹娀瘜W習通常會先收集數(shù)據(jù),學習一個動力學模型,之后基于模型,學習策略。對于有些任務(wù),學一個好的模型比學一個好的策略要容易。逆強化學習領(lǐng)域,少有方法可證明分析其技術(shù)的樣本或時間復雜度,并將其與其他方法比較。對于逆強化方法的復雜性和準確性,現(xiàn)如今普遍缺乏理論指導,并且大多數(shù)側(cè)重于經(jīng)驗比較來提升性能。有一個比較關(guān)鍵的缺點是,現(xiàn)有的方法集很難合理且高效地擴展到連續(xù)的狀態(tài)或動作空間,這一定程度上限制了逆強化學習的發(fā)展和實際的應(yīng)用。逆強化學習許多方法都依賴于參數(shù)估計技術(shù)。元啟發(fā)式算法可以有效地估計最佳參數(shù),如杜鵑搜索算法(也有稱布谷鳥搜索算法)、粒子群優(yōu)化、螢火蟲算法是一些比較著名的元啟發(fā)算法。元啟發(fā)式算法的優(yōu)勢不依賴于凸性,而是可以相對快速地搜索一般空間,并且致力于找到全局最優(yōu)解,因此,元啟發(fā)式算法也為逆強化學習的發(fā)展提供了新的視野離線強化學習禁止與環(huán)境的交互,意味著限制了智能體對高獎勵區(qū)域的探索,若靜態(tài)數(shù)據(jù)集中不包含高獎勵的樣本,則學習出來的策略在真實環(huán)境中應(yīng)用,難以保證卓越的性能表現(xiàn),因此靜態(tài)數(shù)據(jù)集的構(gòu)成需要均勻地包含高獎勵的樣本從真實交互收集得到的靜態(tài)數(shù)據(jù)集中習得策略,同樣需要解決分布偏移(distributionshift)的問題如果遇到了靜態(tài)數(shù)據(jù)集中沒出現(xiàn)過的樣本,該如何處理?這本質(zhì)上是一個反事實推斷的問題。分布偏移中的“分布”,可以看作是狀態(tài)邊際分布、動作分布、狀態(tài)-動作的聯(lián)合分布的偏移。對于分布偏移的處理,兩者出發(fā)點不盡相同

標準的監(jiān)督學習如模仿學習中,假設(shè)數(shù)據(jù)獨立同分布,其目的是希望通過擬合數(shù)據(jù)得到的模型分布,對于真實分布來說具有良好的表現(xiàn)性能與泛化性,來解決分布偏移的問題離線強化學習,通過序列決策的建模,希望通過靜態(tài)數(shù)據(jù)集得到一個在真實測試環(huán)境中稍微不同、比數(shù)據(jù)集表現(xiàn)稍好的策略如何從靜態(tài)數(shù)據(jù)集中訓練出來的策略更好地與專家交互,而不是與環(huán)境交互,并融合專家的反饋進行持續(xù)地增量學習(incrementallearning),是潛在方向在線知識演化

小樣本弱監(jiān)督自學習領(lǐng)域自適應(yīng)與遷移學習持續(xù)學習課程學習自步學習小樣本弱監(jiān)督自學習小樣本學習(Few-ShotLearning,F(xiàn)SL)要求機器僅利用少量樣本學習解決問題的模型監(jiān)督信息少,易過擬合引入先驗知識是關(guān)鍵解決方法一:數(shù)據(jù)增廣從數(shù)據(jù)集中變化數(shù)據(jù),可以利用傳統(tǒng)機器學習算法,例如,構(gòu)造一個函數(shù)將不同類別之間的變化施加到原始樣本中從而增加樣本數(shù)量;充分利用弱標簽或無標簽數(shù)據(jù),這兩類數(shù)據(jù)都相對容易獲取,可以通過對完全監(jiān)督標簽數(shù)據(jù)進行學習來構(gòu)造預測器,給弱標簽或無標簽數(shù)據(jù)提供更為完善且易學習的標簽,再將這些數(shù)據(jù)加入原始數(shù)據(jù)集。利用與目標數(shù)據(jù)集相似但更為龐大的數(shù)據(jù)集進行數(shù)據(jù)生成,例如利用GAN來進行數(shù)據(jù)生成。算法二:模型方面數(shù)據(jù)層模型層算法層多任務(wù)學習(MultitaskLearning)、嵌入學習(EmbeddingLearning)、外部記憶學習(LearningwithExternalMemory)以及基于生成模型方法解決方案三:算法層面數(shù)據(jù)層模型層算法層主動學習

樣本的多樣性能增強模型的泛化性和抵抗噪聲

的魯棒性防止人工錯誤標注、惡意標注對抗樣本以及長尾分布的樣本數(shù)據(jù)也會影響模型性能目標:減少標注成本主動學習:讓模型主動去優(yōu)先選擇盡可能少且最具有價值的無標注樣本來進行標注,使模型達到所期望的性能它從未標記樣本集中對樣本進行查詢,通過選擇函數(shù)采樣出最具有代表性的無標注樣本讓具有領(lǐng)域知識的專家進行標注,隨后將標注后的樣本放入標記樣本集讓模型繼續(xù)學習,如此往復循環(huán)迭代子模學習(Submodularlearning)不確定性準則和差異性準則

如何定義樣本查詢選擇函數(shù),即以何種策略去選擇最具有代表性、區(qū)分性的樣本來進行標注,兩類準則基于信息熵選擇較高不確定性樣本的熵值袋裝查詢方法(EntropyQuerybyBagging,EQB)基于投票機制選擇預測分歧大的樣本委員會投票方法(QuerybyCommittee,QBC)基于誤差減少的樣本查詢方法(ExpectedErrorReduction,EER)基于方差減少的樣本查詢方法(VarianceReduction,VR)基于密度權(quán)重的樣本查詢方法(Density-weightedMethods,DM)深度主動學習主動選擇策略轉(zhuǎn)化為回歸問題進行學習,讓機器自己根據(jù)學到的知識來選擇出具有價值的樣本進行標注(Konyushkova等)利用生成對抗網(wǎng)絡(luò)學習有標注樣本和無標注樣本之間在隱空間中的表征,再利用判別器來選擇需要進行標注的樣本(Sinha等)使用希爾伯特施密特準則估計未標注集合中樣本的相關(guān)性,從而挑選出信息量最大的待選樣本(Jain等)將圖上的主動學習建模為序列馬爾可夫決策過程并通過強化學習的手段來得到一種可遷移的主動學習策略(Hu等)使用分布式的子模學習方法從圖上找到覆蓋率最高且具有代表性的節(jié)點(Bateni等)小結(jié)主動學習體現(xiàn)了人機協(xié)同的特點。它依賴于人類學習得到的先驗知識讓智能體學習、并自主選擇有價值樣本的能力,再通過具有領(lǐng)域知識的專家進行標注,讓智能體繼續(xù)學習,實現(xiàn)了人在回路中的智能學習。生成層級式:在GAN網(wǎng)絡(luò)引入層級式的金字塔結(jié)構(gòu),不同模塊負責不同尺度圖像塊的數(shù)據(jù)分布學習,可以簡潔且高效地應(yīng)對上述挑戰(zhàn)。建立具有不同尺度子結(jié)構(gòu)的GAN模型,以各個子結(jié)構(gòu)分別承擔對圖像不同尺度語義信息理解,并研究子結(jié)構(gòu)間分工、耦合、信息傳遞的關(guān)聯(lián)機制以合理高效組織成緊密整體,保證在少數(shù)據(jù)量情形下也能實現(xiàn)對樣本特征的充分提煉。

解耦生成針對模型無法區(qū)分前景與背景的難題,同時引入兩個不同的隱變量分別負責前景與背景部分的生成。同時,考慮到前景與背景生成結(jié)果的差異化要求,采用并行獨立的層級式結(jié)構(gòu)分別用于生成前景與背景為了保證不同層級之間特征信息交互的質(zhì)量與生成圖像的多樣性,研究針對不同尺度子結(jié)構(gòu)的歸一化方法及數(shù)據(jù)增強技術(shù)。前景分支以從完整樣本中分離出來的前景部分作為學習目標,在該分支中,為了保證模型在生成多樣性形態(tài)變化的同時保留原有正確的語義結(jié)構(gòu),基于示例標準化(InstanceNormalization),設(shè)計輕量級前景分支信息提取模塊,獲得經(jīng)過數(shù)據(jù)增強后的原始圖像蘊含的深層次風格信息例:GPT-4o,分層處理文生圖風格提取模塊:為最大化生成樣本的多樣性,設(shè)計風格提取模塊,跟隨整體模型一起完成端到端的訓練而無須預訓練。風格提取模塊的輸入由單張自然圖像樣本經(jīng)過常規(guī)數(shù)據(jù)增強后得到,輸出是一個系數(shù)張量和一個偏置張量,并作用在原始樣本的數(shù)據(jù)流上。該模塊將經(jīng)數(shù)據(jù)增強后的原始圖像轉(zhuǎn)化為風格信息以供模型學習,指導模型在生成多樣性形態(tài)變化的同時、保留原有正確的語義結(jié)構(gòu)。注意力機制和可變形卷積設(shè)計:可變形卷積使用附加偏移量以增加模塊中的空間采樣位置,是一種簡單高效的建模方法。引入可變形卷積層,可減輕數(shù)據(jù)增強帶來的噪聲干擾。并引入通道注意力機制,對通道間的依賴關(guān)系進行建模,以引導模型更關(guān)注目標本身而忽略其他干擾因素的影響,從而提升模型的穩(wěn)定性與自適應(yīng)能力。基于主動學習的人機協(xié)同算法設(shè)計:

針對人工手動標注標簽成本較高的問題,研究基于不確定性抽樣查詢策略的主動學習方法,基于數(shù)據(jù)跨域相似性度量實時更新查詢策略的目標函數(shù),實現(xiàn)主動學習過程中高價值樣本的優(yōu)先標注。研究基于圖的半監(jiān)督分類方法,通過代價最小的路徑對標簽進行傳播,彌補標記樣本量不足的缺陷。針對流式新增樣本中標記樣本所占比例較小的問題,研究基于拉普拉斯回歸主動學習的大數(shù)據(jù)流分類算法,通過閾值判斷當前數(shù)據(jù)流的標記樣本量,有效提高數(shù)據(jù)流的分類準確率。

領(lǐng)域自適應(yīng)與遷移學習TransferLearning利用已有標簽數(shù)據(jù)來輔助無標簽新數(shù)據(jù)進行學習任務(wù)DomainAdapta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論