基于強(qiáng)化學(xué)習(xí)的倒立擺控制系統(tǒng)設(shè)計2_第1頁
基于強(qiáng)化學(xué)習(xí)的倒立擺控制系統(tǒng)設(shè)計2_第2頁
基于強(qiáng)化學(xué)習(xí)的倒立擺控制系統(tǒng)設(shè)計2_第3頁
基于強(qiáng)化學(xué)習(xí)的倒立擺控制系統(tǒng)設(shè)計2_第4頁
基于強(qiáng)化學(xué)習(xí)的倒立擺控制系統(tǒng)設(shè)計2_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGEPAGEIIIPAGEI摘要強(qiáng)化學(xué)習(xí)可以算作是這幾年來在人工智能和機(jī)器學(xué)習(xí)研究領(lǐng)域內(nèi)非常熱門的項目,而在強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)中有著許多不同之處。強(qiáng)化學(xué)習(xí)不需要教師信號,但是它也不等同于只能夠完成有限功能的無監(jiān)督學(xué)習(xí),而這種無監(jiān)督學(xué)習(xí)在學(xué)習(xí)過程中無法得到提示。強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)能夠獲得評價性反饋信號,并且使用評價信息來達(dá)到行為決策上的優(yōu)化。顯而易見,強(qiáng)化學(xué)習(xí)具有廣闊的前景。復(fù)雜系統(tǒng)控制中有許多經(jīng)典的問題,倒立擺就是其中之一。倒立擺系統(tǒng)是一種絕對不穩(wěn)定的,具有非線性、多變量等多種性質(zhì)的系統(tǒng)。而在控制過程中,倒立擺系統(tǒng)也是一個驗證各種控制理論的很理想的模型之一。它可以反映例如可鎮(zhèn)定性、魯棒性和隨動性等等問題。近代以來,倒立擺系統(tǒng)廣泛應(yīng)用于我們的生活當(dāng)中。衛(wèi)星的運(yùn)行、機(jī)器人的行走等都是運(yùn)用了類似倒立擺系統(tǒng)穩(wěn)定控制的例子。顯而易見倒立擺的研究具有其深刻的理論意義和重要的工程意義。在本次的課題中,我們會以大學(xué)四年相關(guān)的學(xué)習(xí)內(nèi)容作為基礎(chǔ),把強(qiáng)化學(xué)習(xí)作為研究對象,將倒立擺系統(tǒng)作為實驗?zāi)P?,進(jìn)行系統(tǒng)科學(xué)的實驗研究。我們會通過對一級單臂倒立擺的平衡控制進(jìn)行研究,使系統(tǒng)具備學(xué)習(xí)能力,并且可以在運(yùn)行的過程中獲得新的內(nèi)容和信息,具有類似生物的運(yùn)動控制技能。本課題在強(qiáng)化學(xué)習(xí)和Python語言的基礎(chǔ)上,提出了基于Q學(xué)習(xí)的的強(qiáng)化學(xué)習(xí)系統(tǒng)。我們用Pycharm進(jìn)行實驗仿真,證明提出的強(qiáng)化學(xué)習(xí)系統(tǒng)具有認(rèn)知倒立擺系統(tǒng)的平衡控制技能的能力。關(guān)鍵詞強(qiáng)化學(xué)習(xí),Q學(xué)習(xí)算法,倒立擺系統(tǒng)ABSTRACTTherearemanyclassicproblemsincomplexsystemcontrol,theinvertedpendulumisoneofthem.Theinvertedpendulumsystemisanabsolutelyunstablesystemwithnonlinearandmultivariableproperties.Inthecontrolprocess,theinvertedpendulumsystemisalsooneoftheidealmodelstoverifyvariouscontroltheories.Itcanreflectsuchproblemsasstability,robustnessandfollow-up.Sincemoderntimes,theinvertedpendulumsystemhasbeenwidelyusedinourlife.Satelliteoperation,robotwalkingandsoonaretheuseoftheinvertedpendulumsystemstabilitycontrolexamples.Obviously,theresearchofinvertedpendulumhasprofoundtheoreticalsignificanceandimportantengineeringsignificance.Inthisproject,wewilltaketherelevantlearningcontentinthefouryearsofcollegeasthebasis,takereinforcementlearningastheresearchobject,andtaketheinvertedpendulumsystemastheexperimentalmodeltoconductsystematicscientificexperimentalresearch.Wewillstudythebalancecontrolofaone-arminvertedpendulumtomakethesystemcapableoflearningandacquirenewcontentsandinformationintheprocessofoperation,withthemovementcontrolskillssimilartothoseoflivingcreatures.BasedonreinforcementlearningandPythonlanguage,thispaperproposesareinforcementlearningsystembasedonQlearning.WeusedPycharmtocarryoutexperimentalsimulationandprovedthattheproposedreinforcementlearningsystemhastheabilityofbalancecontrolskillsofthecognitiveinvertedpendulumsystem.Keywordsreinforcementlearning,Qlearningalgorithm,invertedpendulumsystem目錄TOC\o"1-2"\h\uTOC\o"1-3"\h\u31236第一章緒論 1233311.1引言 1203601.2關(guān)于強(qiáng)化學(xué)習(xí) 1244481.2.1強(qiáng)化學(xué)習(xí)的介紹 227641.2.2強(qiáng)化學(xué)習(xí)的發(fā)展歷史及研究現(xiàn)狀 2202811.3關(guān)于倒立擺系統(tǒng) 3264181.3.1我國研究倒立擺的發(fā)展歷史和現(xiàn)狀 317861.4本論文主要工作及論文安排 327195第二章強(qiáng)化學(xué)習(xí)理論及其算法 4193582.1強(qiáng)化學(xué)習(xí)原理與模型 4197572.2強(qiáng)化學(xué)習(xí)系統(tǒng)的組成要素 5168412.3強(qiáng)化學(xué)習(xí)的主要算法 5309252.4強(qiáng)化學(xué)習(xí)的主要算法 6212922.4.1SARSA算法 6194532.4.2Q-學(xué)習(xí) 6305152.5強(qiáng)化學(xué)習(xí)的應(yīng)用 7277132.6小結(jié) 816884第三章倒立擺系統(tǒng) 960083.1引言 9295713.2環(huán)形倒立擺 9267003.3直線一級倒立擺 9212873.3.1直線一級倒立擺系統(tǒng)建模 10192323.4小結(jié) 1315623第四章基于強(qiáng)化學(xué)習(xí)的倒立擺控制 1439824.1引言 14159274.2表格型強(qiáng)化學(xué)習(xí)算法 1488804.2.1SARSA算法 14149394.2.2Q學(xué)習(xí)算法 1583894.3程序運(yùn)行結(jié)果 16120894.4仿真結(jié)果分析與結(jié)論 1784374.4.1不同初始角度的控制效果 1935614.4.2不同初始位置的控制效果 20297614.4.3有外界擾動的控制效果 2178224.4.4變換參數(shù)的控制效果 2263674.5小結(jié) 2419121第五章總結(jié)與展望 2528056參考文獻(xiàn) 2619394致謝 2819064第一章緒論1.1引言眾所周知,我們獲得新的知識的主要途徑之一就是學(xué)習(xí),學(xué)習(xí)是我們具有智力的標(biāo)志之一。而讓機(jī)器也像人類一樣具有學(xué)習(xí)新事物的能力,能夠?qū)θ祟悓W(xué)習(xí)活動為結(jié)果的機(jī)器學(xué)習(xí)進(jìn)行模擬與實現(xiàn),是近年來人工智能研究領(lǐng)域中的一個重要的部分。把機(jī)器學(xué)習(xí)與人類學(xué)習(xí)相比較的話,機(jī)器學(xué)習(xí)學(xué)習(xí)速度快,而且不被生命周期所限制,還有學(xué)習(xí)成果容易復(fù)制傳播等特點。[1]機(jī)器學(xué)習(xí)如果可以實現(xiàn)人的學(xué)習(xí)過程,那么學(xué)習(xí)不會因為人類的壽命因素被影響,有利于知識的儲備。強(qiáng)化學(xué)習(xí)[2]理論方法的發(fā)展,離不開心理學(xué)與機(jī)器學(xué)習(xí)產(chǎn)生的的交叉。強(qiáng)化學(xué)習(xí)基于動物學(xué)習(xí)與心理學(xué)的相關(guān)原理,采用生物學(xué)習(xí)中的“嘗試與失敗”機(jī)制,以獲得評價性的反饋信號,使用評價信息來對行為決策進(jìn)行一定的的優(yōu)化。強(qiáng)化學(xué)習(xí)是這幾年人工智能領(lǐng)域研究的熱門,是一個多學(xué)科交叉的研究方向[3]。智能控制,人工智能研究的目標(biāo)始終是實現(xiàn)具有類似人類的智能機(jī)器產(chǎn)生。詳細(xì)的說就是使智能控制系統(tǒng)具有學(xué)習(xí)的能力,并且可以在系統(tǒng)運(yùn)行過程中獲得新的知識,最后真正具備類似生物的運(yùn)動控制技能[4]。到目前來說也取得了不少成果,但不管是自動機(jī),還是其他的現(xiàn)有的以機(jī)器人為主體的認(rèn)知模型,都很少接觸運(yùn)動平衡控制的認(rèn)知問題。由于運(yùn)動平衡控制問題對于機(jī)器人研究來說是十分重要的,所以會對運(yùn)動平衡控制技能的相關(guān)認(rèn)知問題來進(jìn)行研究[5]。而在相關(guān)的研究中,倒立擺的控制是其中一個研究的熱點。倒立擺系統(tǒng)具有很多特點,例如高階次、快速、多變量、嚴(yán)重非線性等。倒立擺系統(tǒng)是非常經(jīng)典的自控理論的實驗設(shè)備,同樣是經(jīng)典的控制理論教學(xué)物理模型[6]。倒立擺控制系統(tǒng)因為其線性設(shè)計可以很好地說明現(xiàn)代線性控制理論的有效與優(yōu)勢,同時還接觸到了系統(tǒng)辨識和非線性系統(tǒng)的線性化等方面,所以一直是相關(guān)領(lǐng)域的熱點。可以說倒立擺的研究具有深刻的理論意義和工程意義[7]。在近代的系統(tǒng)控制的研究中,例如火箭發(fā)射和衛(wèi)星的運(yùn)行等等都與倒立擺系統(tǒng)穩(wěn)定控制有所聯(lián)系。所以倒立擺系統(tǒng)的研究對于我們生活中的許多高新技術(shù)的研究有著重要的意義[8]。本次課題是以研究運(yùn)動平衡控制做為出發(fā)點,強(qiáng)化學(xué)習(xí)作為研究對象,倒立擺系統(tǒng)作為實驗?zāi)P?。在這些的基礎(chǔ)上使用一種基于Q學(xué)習(xí)的強(qiáng)化學(xué)習(xí)系統(tǒng)以對倒立擺平衡控制進(jìn)行研究,使其具有學(xué)習(xí)能力,體現(xiàn)在能在運(yùn)行過程中獲取新的信息,以及具有類似生物的運(yùn)動控制技能。該實驗的研究成果可以廣泛應(yīng)用于諸多領(lǐng)域[9]。1.2關(guān)于強(qiáng)化學(xué)習(xí)1.2.1強(qiáng)化學(xué)習(xí)的介紹按照與環(huán)境交互的特點可以把已經(jīng)提出的機(jī)器學(xué)習(xí)方法分為監(jiān)督學(xué)習(xí)(SupervisedLearning,又稱有導(dǎo)師學(xué)習(xí))、無監(jiān)督學(xué)習(xí)(UnsupervisedLearning,又稱無導(dǎo)師學(xué)習(xí))和強(qiáng)化學(xué)習(xí)[10]三大類。監(jiān)督學(xué)習(xí)這種學(xué)習(xí)方式需要有一個類似“老師”的角色,它可以對指定的輸入給出對應(yīng)的輸出結(jié)果。而這組輸入輸出數(shù)據(jù)會成為一個樣本集,系統(tǒng)會根據(jù)理論輸出與實際輸出之間的誤差來調(diào)節(jié)系統(tǒng)的參數(shù)。但監(jiān)督學(xué)習(xí)需要在不同的環(huán)境下給予相對應(yīng)的教師信號,所以會對監(jiān)督學(xué)習(xí)在復(fù)雜的控制問題應(yīng)用中產(chǎn)生限制的作用。無監(jiān)督學(xué)習(xí)不需要類似“教師”的角色,系統(tǒng)會完全按照固定的規(guī)律對環(huán)境提供的數(shù)據(jù)來調(diào)節(jié)自身的結(jié)構(gòu)或者參數(shù)。因為在無監(jiān)督學(xué)習(xí)系統(tǒng)中輸入僅有環(huán)境狀態(tài)向量,所以不存在與環(huán)境的交互[11]。通過仔細(xì)的觀察,在生物適應(yīng)環(huán)境學(xué)習(xí)的過程中,有兩個顯著的特點:第一是生物會主動的對環(huán)境進(jìn)行試探;二是在絕大多數(shù)多數(shù)的情況下結(jié)果是評價性的。生物在過程中達(dá)到學(xué)習(xí)知識,改良行動方案,適應(yīng)環(huán)境等目的。這種學(xué)習(xí)就是強(qiáng)化學(xué)習(xí)[12]。強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)有著許多不同之處,主要表現(xiàn)在教師信號中。在強(qiáng)化學(xué)習(xí)中,產(chǎn)生的強(qiáng)化信號是對動作優(yōu)劣進(jìn)行反饋的一種評價。因為外部環(huán)境提供的信息往往比較有限,所以強(qiáng)化學(xué)習(xí)系統(tǒng)必須靠自己進(jìn)行學(xué)習(xí),在行動-評價的環(huán)境中學(xué)習(xí)知識,以最后做到更好地適應(yīng)環(huán)境[13]。在強(qiáng)化學(xué)習(xí)中具有很多特點:首先強(qiáng)化學(xué)習(xí)是一種弱的學(xué)習(xí)方式,在學(xué)習(xí)的過程中使用的反饋不需要提供正確答案;強(qiáng)化學(xué)習(xí)的信息可能是稀疏的并且會具有一定的延遲性;其次強(qiáng)化學(xué)習(xí)從本質(zhì)上來看上是一種可以在線上使用的增量式學(xué)習(xí)方法;最后強(qiáng)化學(xué)習(xí)可以應(yīng)用于許多復(fù)雜的環(huán)境[14];1.2.2強(qiáng)化學(xué)習(xí)的發(fā)展歷史及研究現(xiàn)狀強(qiáng)化學(xué)習(xí)近年來是人工智能領(lǐng)域中研究的重要問題之一大致可以化分為幾個階段:“強(qiáng)化”和“強(qiáng)化學(xué)習(xí)”這些術(shù)語由Minsky[15]首次提出。在當(dāng)時數(shù)學(xué)心理學(xué)家們認(rèn)為學(xué)習(xí)會是隨機(jī)進(jìn)行的,并進(jìn)一步研究了隨機(jī)學(xué)習(xí)模型[16]。Widrow、Hoff和Rosenblatt,以及Bush和Mosteller等對強(qiáng)化學(xué)習(xí)做過對應(yīng)的研究。他們的研究做出了許多成果以及在領(lǐng)域內(nèi)的進(jìn)步,但他們的研究也有一定的缺陷,那就是越來越趨向于監(jiān)督學(xué)習(xí)[17,18]。在1973年Widow發(fā)現(xiàn)了它們之間存在著的差異,后來Widrow、Gupta和Maitra對監(jiān)督學(xué)習(xí)規(guī)則做出了相應(yīng)的改正[19]。到了六七十年代,強(qiáng)化學(xué)習(xí)的發(fā)展速度緩慢了下來。到了八十年代以后,在許多因素的影響下,人們對強(qiáng)化學(xué)習(xí)的研究有了空前的進(jìn)步,強(qiáng)化學(xué)習(xí)也成為了機(jī)器學(xué)習(xí)研究中的活躍領(lǐng)域。進(jìn)入90年代,強(qiáng)化學(xué)習(xí)開始向著高維的方向進(jìn)行發(fā)展,分布式強(qiáng)化學(xué)習(xí)成為了新的研究熱點但是目前仍僅處于理論研究和算法仿真階段[20]。1.3關(guān)于倒立擺系統(tǒng)1.3.1我國研究倒立擺的發(fā)展歷史和現(xiàn)狀倒立擺控制系統(tǒng)的研究的歷史是從上世紀(jì)60年代開始的。Schaefer等人首先在1966年利用Bang-Bang理論,做到了把一個曲軸在倒置位置實現(xiàn)穩(wěn)定[21]。Sturgen在1972年對二級倒立擺做到了平衡控制[22]。Mori在1976年設(shè)計出了PID控制器[23]。國內(nèi)的研究則始于80年代,這幾年來在倒立擺控制領(lǐng)域的研究有了不小的進(jìn)步與豐碩的成果,如模糊控制、神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等[24]。李洪興等人實現(xiàn)了三級倒立擺的實物控制和四級倒立擺的平衡控制[25]。張義明等人在2004年使用LQR和LQY實現(xiàn)了二級倒立擺系統(tǒng)的平衡控制。Wang等人在2015年對Q學(xué)習(xí)算法進(jìn)行了優(yōu)化,實現(xiàn)了一級倒立擺的平衡控制[26]。1.4本論文主要工作及論文安排在本次畢業(yè)設(shè)計中,我們會使用強(qiáng)化學(xué)習(xí)作為我們的研究對象,使用倒立擺系統(tǒng)作為我們的實驗?zāi)P汀T诒敬萎厴I(yè)設(shè)計中會使用幾種強(qiáng)化學(xué)習(xí)系統(tǒng)進(jìn)行實驗。然后在不同的條下進(jìn)行實驗仿真,以證明強(qiáng)化學(xué)習(xí)系統(tǒng)在倒立擺平衡控制過程中有認(rèn)知、學(xué)習(xí)的能力。而本論文會主要完成以下工作:在論文的第二章里會對強(qiáng)化學(xué)習(xí)的基本原理與結(jié)構(gòu)進(jìn)行介紹,會對強(qiáng)化學(xué)習(xí)的組成要素和算法類型進(jìn)行分析,會對強(qiáng)化學(xué)習(xí)中主要的算法進(jìn)行介紹,最后對強(qiáng)化學(xué)習(xí)在實際生活中的應(yīng)用進(jìn)行一定的介紹。在論文的第三章里首先會對直線一級倒立擺系統(tǒng)的數(shù)學(xué)模型做出推導(dǎo),以便于對論文中提出的算法的進(jìn)行實驗仿真驗證。同時,在模型的基礎(chǔ)上分析直線一級倒立擺系統(tǒng)的控制性能指標(biāo)。在論文的第四章里會在強(qiáng)化學(xué)習(xí)與動態(tài)規(guī)劃算法的基礎(chǔ)上,提出幾種強(qiáng)化學(xué)習(xí)系統(tǒng),通過直線一級倒立擺系統(tǒng)平衡控制的仿真實驗,對其有效性進(jìn)行驗證。在第五章里會對全文進(jìn)行總結(jié),并對以后進(jìn)一步的研究方向做出展望。強(qiáng)化學(xué)習(xí)理論及其算法2.1強(qiáng)化學(xué)習(xí)原理與模型眾所周知,強(qiáng)化學(xué)習(xí)(Reinforcementlearning)是一種機(jī)器學(xué)習(xí)的重要方法[27][28]。在我們的身邊的諸多領(lǐng)域都與強(qiáng)化學(xué)習(xí)有著不少聯(lián)系。強(qiáng)化學(xué)習(xí)首先通過智能體與環(huán)境的交互與反饋,再通過反饋信息不斷更新策略,直到最終獲得最優(yōu)決策。在訓(xùn)練的過程中系統(tǒng)會通過不斷的嘗試并且在這個過程中得到相應(yīng)環(huán)境反饋評價。系統(tǒng)會在這整個過程中不斷的積累經(jīng)驗并且更新策略,最后可以使累積的獎懲值達(dá)到最大值。強(qiáng)化學(xué)習(xí)的示意圖如2-1所示:圖2-1強(qiáng)化學(xué)習(xí)模型圖從圖2-1中,我們不難得到一個結(jié)論:把學(xué)習(xí)看作一個試探評價的過程就是強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)過程中,智能體會先對環(huán)境狀態(tài)做出相應(yīng)的感知并且用做出相應(yīng)的反應(yīng)和作用于環(huán)境中。在環(huán)境接受到相應(yīng)的反饋后,在進(jìn)行反應(yīng)的同時會把一個獎勵或懲罰的強(qiáng)化信號給強(qiáng)化學(xué)習(xí)系統(tǒng)。而在這之后強(qiáng)化學(xué)習(xí)系統(tǒng)也會對強(qiáng)化信號做出反應(yīng),并且在當(dāng)前環(huán)境狀態(tài)的前提下再選擇接下的一個動作,而這個動作會增大收到獎勵的概率。當(dāng)智能體和環(huán)境進(jìn)行交互的時間段內(nèi)會發(fā)生許多事件:首先智能體會對當(dāng)前的環(huán)境狀態(tài)做出相應(yīng)的感知,再選擇合適的動作進(jìn)行執(zhí)行(針對狀態(tài)與強(qiáng)化信號)。然后所選擇的動作會對當(dāng)前的環(huán)境造成變化。當(dāng)使環(huán)境的狀態(tài)有所變化時,會給予智能體相應(yīng)的強(qiáng)化信號,最后實現(xiàn)整體的循環(huán)。很明顯由強(qiáng)化學(xué)習(xí)的原理與模型可知強(qiáng)化學(xué)習(xí)不等同于自適應(yīng)控制技術(shù)和規(guī)劃技術(shù)。強(qiáng)化學(xué)習(xí)與自適應(yīng)控制技術(shù)有著共同的獎賞函數(shù)模式,但是自適應(yīng)控制技術(shù)是要處理參數(shù)問題,系統(tǒng)也要求能夠在統(tǒng)計數(shù)據(jù)中獲得結(jié)果。但強(qiáng)化學(xué)習(xí)并沒有這些限制。而強(qiáng)化學(xué)習(xí)與規(guī)劃技術(shù)相比,兩者之間的差別有許多。主要是是否需要規(guī)劃構(gòu)造相應(yīng)的復(fù)雜的狀態(tài)圖這一問題,規(guī)劃技術(shù)需要規(guī)劃構(gòu)造復(fù)雜的狀態(tài)圖,與之相比強(qiáng)化學(xué)習(xí)只需要對所處的環(huán)境狀態(tài)和策略行為進(jìn)行記憶即可。除此之外,強(qiáng)化學(xué)習(xí)與規(guī)劃技術(shù)相比更加強(qiáng)調(diào)與環(huán)境的交互。也由此可見,強(qiáng)化學(xué)習(xí)擁有更廣闊的適用面。2.2強(qiáng)化學(xué)習(xí)系統(tǒng)的組成要素強(qiáng)化學(xué)習(xí)的三個主要組成要素是策略、獎賞函數(shù)和值函數(shù)。在一般情況下智能體在給定的時間內(nèi)產(chǎn)生相應(yīng)的動作的方法就是策略(Policy)。策略在一定程度上可以作為強(qiáng)化學(xué)習(xí)里智能體的核心部分,因為智能體的行為基本上是被策略影響和決定的。在一般情況下策略會給予智能體特定的答案,告訴在智能體應(yīng)該采取哪些動作。獎賞函數(shù)(RewardFunction)在強(qiáng)化學(xué)習(xí)問題中有著舉足輕重的地位,一般表現(xiàn)在獎賞函數(shù)往往會對問題中的目標(biāo)會起到?jīng)Q定性的作用。獎賞函數(shù)具有確定性和客觀性等性質(zhì),這些性質(zhì)會給予智能體正確的動作選擇。最后再來介紹一下值函數(shù)(ValueFunction),值函數(shù)一般是以長遠(yuǎn)的視角來評價狀態(tài)的好壞,所以值函數(shù)又往往被稱為評價函數(shù)。因為設(shè)計有效的快速的估計值函數(shù)基本上就是在完成強(qiáng)化學(xué)習(xí)算法的研究,所以可以說這種算法的關(guān)鍵就是解決值函數(shù)問題。2.3強(qiáng)化學(xué)習(xí)的主要算法圖2-2主要的強(qiáng)化學(xué)習(xí)算法強(qiáng)化學(xué)習(xí)在近幾年來的發(fā)展非常的迅速,夸張地說可能今天正確的分類在明天就會出現(xiàn)錯誤。所以只能以現(xiàn)在的研究水平給出大致的分類。我們可以把強(qiáng)化學(xué)習(xí)大致分為兩類:Model-Free(無模型的)和Model-based(有模型的)兩大類。無模型又可以再細(xì)分為PolicyOptimization(策略優(yōu)化)和Q-learning兩類。有模型又可以再細(xì)分為模型學(xué)習(xí)(LearntheModel)和給定模型(GiventheModel)兩類。2.4強(qiáng)化學(xué)習(xí)的主要算法在本次畢業(yè)設(shè)計中,我們會主要對兩種強(qiáng)化學(xué)習(xí)的算法進(jìn)行研究,包括:SARSA算法,Q-學(xué)習(xí)(Q-learning)。在下面我們會對其進(jìn)行詳細(xì)的闡述。2.4.1SARSA算法SARSA算法是我們研究的第一種強(qiáng)化學(xué)習(xí)算法,它的名字就基本反應(yīng)了其大致概念與功能:S(狀態(tài)),A(行動),R(獎勵)以及S'(狀態(tài))A'(行動)形成的一個組合,當(dāng)前和下一步的內(nèi)容都很重要。智能體在SARSA算法里的主要目標(biāo)是:(2-1)是多少取決于哪一個Action被智能體選擇。智能體有近九成的的概率選擇Q值最大的Action(),剩下一成的概率智能體會隨機(jī)選擇一個Action。所以SARSA的算法是:(2-2)由公式易知,SARSA與Qlearning的不同之處是目標(biāo)值有所不同。SARSA是在線學(xué)習(xí)(OnPolicy)的算法而Qlearning是離線學(xué)習(xí)(OffPolicy)的算法。SARSA在行動學(xué)習(xí)中不會有多套Policy,而Qlearning會根據(jù)學(xué)習(xí)和行動采用不同的兩套Policy。在SARSA算法中和是由兩次greedy-epsilon方法來選擇出的。而在Qlearning中g(shù)reedy方法和max方法都有被使用。而且Qlearning比較大膽而Sarsa卻相對謹(jǐn)慎。2.4.2Q-學(xué)習(xí)C.Watkins在1989年中首次提出了Q學(xué)習(xí)算法。Q學(xué)習(xí)在學(xué)習(xí)過程中會使智能體根據(jù)特定的環(huán)境嘗試特定的動作。智能體會對所進(jìn)行的行動估計相應(yīng)的狀態(tài)價值,最后會對在相應(yīng)環(huán)境下評價動作的后果。在Q學(xué)習(xí)的迭代中,會把狀態(tài)-動作對的值和作為估計函數(shù),如下:(2-3)在相應(yīng)狀態(tài)下代表采用動作可以得到的最優(yōu)獎賞折扣,其中γ和分別代表了折扣因子和步長。2.5強(qiáng)化學(xué)習(xí)的應(yīng)用強(qiáng)化學(xué)習(xí)在許多系統(tǒng)中都擁有良好的學(xué)習(xí)性能,這也是強(qiáng)化學(xué)習(xí)近年來被廣泛運(yùn)用的重要原因。在控制系統(tǒng)、機(jī)器人的設(shè)計、任務(wù)調(diào)度和游戲比賽等等領(lǐng)域內(nèi)強(qiáng)化學(xué)習(xí)都扮演著越來越重要的角色。強(qiáng)化學(xué)習(xí)在控制系統(tǒng)中會對控制系統(tǒng)的性能的不同而進(jìn)行相應(yīng)的評級,然后會根據(jù)不同的評級對其進(jìn)行懲罰或獎勵。而在這些眾多的復(fù)雜的控制系統(tǒng)中,倒立擺控制系統(tǒng)可以算是一種經(jīng)常被應(yīng)用到的例子[29]。倒立擺控制系統(tǒng)也常常被作為驗證強(qiáng)化學(xué)習(xí)算法的工具。在機(jī)器人設(shè)計的相關(guān)領(lǐng)域中強(qiáng)化學(xué)習(xí)也有廣泛的應(yīng)用,例如PeterStone對足球機(jī)器人進(jìn)行的相關(guān)研究等等。任務(wù)調(diào)度問題具有很大的研究價值和意義,車間作業(yè)調(diào)度、交通信號控制和網(wǎng)絡(luò)路由等等都是強(qiáng)化學(xué)習(xí)在調(diào)度管理中得到應(yīng)用的例子。例如關(guān)于多個電梯的調(diào)度算法和蜂窩電話的動態(tài)信道分配問題都依據(jù)強(qiáng)化學(xué)習(xí)得到了進(jìn)一步的研究和總結(jié)。最后,在游戲比賽中,強(qiáng)化學(xué)習(xí)仍然是一個熱門領(lǐng)域,前幾年阿爾法狗打敗柯潔的新聞仍然家喻戶曉??傊?,強(qiáng)化學(xué)習(xí)的應(yīng)用充斥在我們身邊的各個領(lǐng)域。我們對于強(qiáng)化學(xué)習(xí)的研究也是與實際相結(jié)合的,而不是紙上談兵。圖2-2強(qiáng)化學(xué)習(xí)應(yīng)用的例子2.6小結(jié)在本章我們對強(qiáng)化學(xué)習(xí)基本的原理和模型進(jìn)行了初步的研究和討論。我們探究了策略、獎賞函數(shù)和值函數(shù)這三個強(qiáng)化學(xué)習(xí)整體的主要組成部分。我們接著還初步研究討論了會在本次畢業(yè)設(shè)計中應(yīng)用到的兩種算法,包括SARSA算法和Q-學(xué)習(xí)算法。在所有的最后我們對其在實際中的應(yīng)用進(jìn)行了分析。第三章倒立擺系統(tǒng)3.1引言在每年一年一度的春晚都缺少不了精彩的雜技表演,而這些精彩的雜技表演也體現(xiàn)了一種我們往往會忽視掉的規(guī)律:那就是我們可以通過對系統(tǒng)進(jìn)行控制讓其從自然不穩(wěn)定的狀態(tài)趨向穩(wěn)定。本章我們對倒立擺系統(tǒng)進(jìn)行研究與學(xué)習(xí),倒立擺具有成本低廉、結(jié)構(gòu)簡單、物理參數(shù)結(jié)構(gòu)易于調(diào)整、高階次、非線性、強(qiáng)耦合和絕對不定性等等特點性質(zhì)。這些特點和性質(zhì)決定了倒立擺系統(tǒng)被作為一種經(jīng)常被使用的自動控制實驗設(shè)備和物理模型。倒立擺常常被我們用來檢驗控制方法能否達(dá)到預(yù)期并且足夠有效。3.2環(huán)形倒立擺環(huán)形倒立擺在本次畢業(yè)設(shè)計中不做為重點研究學(xué)習(xí)的對象,我們只稍微了解相關(guān)信息即可。環(huán)形倒立擺由很多部分組成,包括:電機(jī)、連桿、擺桿等部分。環(huán)形倒立擺直線倒立擺類一樣也有一級、二級倒立擺。環(huán)形倒立擺的擺桿會與連桿成直角豎直向上,這同樣也是其控制目的。在本次畢業(yè)設(shè)計中我們只選擇直線一級倒立擺系統(tǒng)作為實驗對象來進(jìn)行研究。3.3直線一級倒立擺圖3-1直線一級倒立擺物理模型圖直線一級倒立擺系統(tǒng)是本次畢業(yè)設(shè)計主要的實驗研究對象。在直線一級倒立擺系統(tǒng)中,小車行動的軌道是沒有限制的。倒立擺控制的原理是通過推動小車的移動來使倒立擺保持相對的平衡狀態(tài)。3.3.1直線一級倒立擺系統(tǒng)建模小車質(zhì)量1.096Kg擺桿質(zhì)量0.109Kg小車摩擦系數(shù)0.1N/m/sec擺桿轉(zhuǎn)動軸心到桿質(zhì)心的長度0.25m擺桿慣量0.0034kg*m*m給小車的力小車所在的位置擺桿與垂直上方向的夾角擺桿與垂直下方向的夾角表3-1直線一級倒立擺系統(tǒng)的模型參數(shù)如上表所示是直線一級倒立擺系統(tǒng)的模型參數(shù)。機(jī)理建模和實驗建模是兩種我們通常接觸到的系統(tǒng)建模方式。在研究過程中,目標(biāo)對象首先會被添加已定的輸入信號并且得到激勵;在這之后我們可以使用傳感器對其輸出進(jìn)行檢測;在最后我們會使用數(shù)學(xué)領(lǐng)域的知識對輸入-輸出關(guān)系進(jìn)行建立。包括了設(shè)計選取對應(yīng)的輸入信號并對其進(jìn)行檢測和對算法的研究等等使用物理和化學(xué)的相關(guān)知識,使用數(shù)學(xué)作為手段,一起建立輸入-狀態(tài)關(guān)系,這就是機(jī)理建模。實驗建模因為倒立擺系統(tǒng)是一個自不穩(wěn)定的系統(tǒng)而會存在一定的困難。在本次畢業(yè)設(shè)計中我們會對直線型一級倒立擺系統(tǒng)的數(shù)學(xué)模型進(jìn)行建模并采用牛頓-歐拉方法。在圖3-2中,介紹了在倒立擺系統(tǒng)中小車和擺桿受到的各個方向的力。N和P分別代表了小車擺桿相互作用力的不同方向的分量(水平和垂直)。另外很明顯的是矢量正方向我們也不難從圖片中得到結(jié)論。圖3-2直線一級倒立擺系統(tǒng)的受力圖在我們分別對小車和擺桿進(jìn)行受力分析后可以得到方程組如下:(3-1)合并式(3-1)中的前兩項,我們可以得到第一個運(yùn)動方程:(3-2)合并式(3-1)中的后兩項方程我們可以推導(dǎo)倒立擺系統(tǒng)的第二個運(yùn)動方程:(3-3)我們設(shè)然后假設(shè)遠(yuǎn)遠(yuǎn)小于1。當(dāng)其滿足條件時我們就可以對其近似處理:使。u代表輸入力F,對其進(jìn)行線性化處理得到以下的方程:(3-4)對(3-4)進(jìn)行拉普拉斯變換易得:(3-5)對式(3-5)第一個方程進(jìn)行求解易得:(3-6)把式(3-6)帶入式(3-5)的第二個方程易得:(3-7)由式(3-7)我們可以得到系統(tǒng)傳遞函數(shù):(3-8)在式(3-8)中。我們可以把式(3-8)線性化得到其狀態(tài)空間方程(3-9):(3-9)在上式中,狀態(tài)變量代表小車在軌道上的位置;代表小車的運(yùn)動速度;和則分別代表了在倒立擺系統(tǒng)中桿與垂直方向夾角的角度和角速度。3.4小結(jié)本章著重對研究對象直線一級倒立擺進(jìn)行了研究和學(xué)習(xí),在本章一開始簡單的介紹了環(huán)形倒立擺并在明確本章的研究重點對象后對直線一級倒立擺進(jìn)行了建模。接下來對一級倒立擺的數(shù)學(xué)模型進(jìn)行了推導(dǎo),最后在此模型中分析了倒立擺系統(tǒng)的控制性能指標(biāo),并進(jìn)行總結(jié)。第四章基于強(qiáng)化學(xué)習(xí)的倒立擺控制4.1引言在本章我們會把前幾章的內(nèi)容結(jié)合起來,將直線一級倒立擺控制系統(tǒng)作為我們實驗的對象,證明智能體可以通過SARSA算法和Q學(xué)習(xí)算法進(jìn)行在線學(xué)習(xí),最后可以對不穩(wěn)定的倒立擺控制系統(tǒng)做到有效地控制。證明倒立擺控制系統(tǒng)達(dá)到平衡的要求為:小車在規(guī)定的軌道內(nèi)移動,同時要做到擺桿保持直立并且與垂直向上方向的夾角保持,在本章會提出兩種強(qiáng)化學(xué)習(xí)算法滿足目標(biāo)。4.2表格型強(qiáng)化學(xué)習(xí)算法馬爾可夫決策問題在人類科技進(jìn)步的過程中扮演著重要的角色,而動態(tài)規(guī)劃方法的提出可謂是馬爾可夫決策問題里具有代表性的成果之一,Q學(xué)習(xí)算法和SARSA學(xué)習(xí)算法可以通過值函數(shù)的逼近來尋求最優(yōu)策略,這兩種算法可以說把時間差分和動態(tài)規(guī)劃結(jié)合起來的典型。4.2.1SARSA算法到現(xiàn)在,無論是在算法方面還是理論研究方面表格型強(qiáng)化學(xué)習(xí)都取得了豐碩的研究成果。Sarsa學(xué)習(xí)算法和Q學(xué)習(xí)算法可以算作是里面具有代表性的兩個。Rummery在1994年第一次提出了SARSA這種強(qiáng)化學(xué)習(xí)算法[30],我們可以把SARSA學(xué)習(xí)算法看作Q學(xué)習(xí)算法的一種改進(jìn)過的在線的(Online)形式。在上文(2-3)已經(jīng)列出了SARSA算法的公式。在本章會對SARSA算法的相關(guān)算法描述和偽代碼結(jié)構(gòu)圖進(jìn)行進(jìn)一步的補(bǔ)充,表格型Sarsa學(xué)習(xí)算法的完整描述如下:需給定:折扣因子為γ的折扣總回報目標(biāo)函數(shù)有限離散狀態(tài)下的狀態(tài)集和行為集行為值函數(shù)估計和行為選擇策略π對行為值函數(shù)估計、學(xué)習(xí)因子和Markov決策過程的狀態(tài)進(jìn)行初始化。在狀態(tài)下由行為選擇策略π決定行為;在滿足停止條件前不斷進(jìn)行循環(huán);a.在當(dāng)前狀態(tài)下根據(jù)行為選擇策略π對此時刻下的行為進(jìn)行選擇,結(jié)束后對下一時刻的狀態(tài)進(jìn)行觀測;b.由公式(4-1)對當(dāng)前狀態(tài)—行為對的行為值函數(shù)的估計值進(jìn)行更新;c.對學(xué)習(xí)因子也進(jìn)行相應(yīng)的更新,;d.返回到a。而SARSA算法的的偽代碼結(jié)構(gòu)圖如圖4-1所示:圖4-1SARSA算法的偽代碼結(jié)構(gòu)圖4.2.2Q學(xué)習(xí)算法在上文我們已經(jīng)對Q學(xué)習(xí)進(jìn)行了較為詳細(xì)的介紹,在本章會對其算法流程和偽代碼結(jié)構(gòu)圖進(jìn)行相應(yīng)的補(bǔ)充和說明。整體的算法流程如下所示:對初始化在每一個情節(jié)都會進(jìn)行以下的操作:初始化狀態(tài)并且重復(fù)以下的操作一直到能夠到達(dá)終態(tài)由貪心策略確定和執(zhí)行動作,狀態(tài)得到轉(zhuǎn)移到并且能夠獲得獎賞;由式(2-3)對進(jìn)行更新,令列式如下所示:(4-1)其中為常數(shù),如果式子成立Q學(xué)習(xí)采用貪心策略就可使其收斂,所以說目前強(qiáng)化學(xué)習(xí)中最有效的模型無關(guān)算法就是Q學(xué)習(xí)了。圖4-2Q學(xué)習(xí)算法的偽代碼結(jié)構(gòu)圖4.3程序運(yùn)行結(jié)果我們分別運(yùn)行SARSA算法,Q學(xué)習(xí)算法的有模型和無模型三個程序,得到如下的結(jié)果:圖4-3SARSA算法運(yùn)行結(jié)果圖4-4Q學(xué)習(xí)算法在固定模型上的運(yùn)行結(jié)果圖4-5Q學(xué)習(xí)算法在固定模型上的運(yùn)行仿真圖圖4-6Q學(xué)習(xí)算法在無模型情況的運(yùn)行結(jié)果由上圖可知,三個程序都順利的驗證了不同的強(qiáng)化學(xué)習(xí)算法按照目標(biāo)驗證了其在倒立擺平衡控制過程中有認(rèn)知和學(xué)習(xí)的能力。4.4仿真結(jié)果分析與結(jié)論在本次畢業(yè)設(shè)計中,我們主要會對Q學(xué)習(xí)算法的倒立擺實驗進(jìn)行波形的仿真與研究。我們會把倒立擺的初始狀態(tài)設(shè)置為一個隨機(jī)值,而這個隨機(jī)值常常被指定在一定的范圍內(nèi)。圖4-7訓(xùn)練過程中倒立擺系統(tǒng)響應(yīng)曲線圖4-8強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)曲線從圖4-7的仿真曲線中我們不難看出即使沒有儲備的知識條件,強(qiáng)化學(xué)習(xí)也可以讓倒立擺系統(tǒng)具備自我的學(xué)習(xí)能力和記憶聯(lián)想能力并且很快的得到控制。在圖4-8中,不難看出這是強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)曲線,我們可以觀察到的是平衡控制技能在強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)過程中在被逐漸掌握,直至最后強(qiáng)化學(xué)習(xí)系統(tǒng)成功的控制了倒立擺系統(tǒng)。接下來我們會通過不同的仿真波形探究在不同的條件下Q學(xué)習(xí)強(qiáng)化學(xué)習(xí)系統(tǒng)對于倒立擺系統(tǒng)平衡的掌握。4.4.1不同初始角度的控制效果圖4-9不同初始角度的系統(tǒng)響應(yīng)曲線我們先改變擺桿的初始角度,再去觀察系統(tǒng)控制性能是否會產(chǎn)生明顯的變化。我們觀察圖4-9不難看出即使是不同的初始角度也不會對強(qiáng)化學(xué)習(xí)系統(tǒng)良好的控制效果產(chǎn)生明顯的影響。強(qiáng)化學(xué)習(xí)系統(tǒng)會在再次讓倒立擺到達(dá)平衡狀態(tài)。4.4.2不同初始位置的控制效果我們改變小車初始位置來觀察強(qiáng)化學(xué)習(xí)系統(tǒng)的控制性能是否會產(chǎn)生明顯的變化。我們從圖4-10不難看出即使小車處在不同的初始位置,倒立擺的控制精度仍然可以達(dá)到要求并在短時間內(nèi)再次返回到平衡狀態(tài)。圖4-10不同初始位置的系統(tǒng)響應(yīng)曲線4.4.3有外界擾動的控制效果圖4-11有脈沖擾動的系統(tǒng)響應(yīng)曲線在我們加入幅值不同的脈沖干擾后強(qiáng)化學(xué)習(xí)系統(tǒng)仍然可以順利的完成對倒立擺的控制。在圖4-11中不難看出在控制過程中的脈沖干擾無法對但強(qiáng)化學(xué)習(xí)系統(tǒng)產(chǎn)生明顯的影響,證明了其具有良好的抗干擾能力。4.4.4變換參數(shù)的控制效果強(qiáng)化學(xué)習(xí)系統(tǒng)對倒立擺的平衡控制的相關(guān)認(rèn)知能力會在很多方面有所體現(xiàn),對參數(shù)變化后的控制能力也是很重要的一點。我們把初始角度設(shè)置為。由下圖我們不難看出,的變化會讓系統(tǒng)的控制效果產(chǎn)生不同的影響:當(dāng)增大時控制效果會變差,而當(dāng)減小時控制效果不會產(chǎn)生明顯的變化。這個實驗也成功的證明了倒立擺系統(tǒng)的平衡控制能力仍然是可以被強(qiáng)化學(xué)習(xí)系統(tǒng)認(rèn)知到的。總而言之,強(qiáng)化學(xué)習(xí)即使是在不同的條件下都仍然會掌握倒立擺系統(tǒng)的平衡控制。不同條件的仿真實驗讓我們收獲頗豐,是寶貴的實踐機(jī)會和經(jīng)驗。圖4-12變參數(shù)的系統(tǒng)響應(yīng)曲線4.5小結(jié)在本章我們使用強(qiáng)化學(xué)習(xí)算法作為工具對倒立擺控制系統(tǒng)的相關(guān)問題進(jìn)行了研究仿真,并對其結(jié)果與波形進(jìn)行了分析。我們使用了兩種算法三個程序分別運(yùn)行并且都順利地有效地對不穩(wěn)定的系統(tǒng)起到了控制作用。同樣,相關(guān)實驗仿真的結(jié)果也讓我們對其有了更深刻的認(rèn)識和更全面的理解。第五章總結(jié)與展望強(qiáng)化學(xué)習(xí)采用了生物學(xué)習(xí)中的“行動——評價——改進(jìn)”機(jī)制。它強(qiáng)調(diào)與環(huán)境的交互并在這個過程中獲得評價性的反饋信號,最后利用獲得的信息實現(xiàn)行為決策的優(yōu)化。強(qiáng)化學(xué)習(xí)在目前已經(jīng)成為了很多領(lǐng)域研究的熱點之一,是一個多學(xué)科交叉的研究方向。在本次實驗中,我們把倒立擺系統(tǒng)作為實驗的載體,對幾個強(qiáng)化學(xué)習(xí)算法做了研究與學(xué)習(xí),并探究了強(qiáng)化學(xué)習(xí)在倒立擺系統(tǒng)中的控制和應(yīng)用。具體對整體的過程進(jìn)行總結(jié):(1)通過查閱文獻(xiàn)的方式來分析總結(jié)強(qiáng)化學(xué)習(xí)研究的現(xiàn)狀。(2)介紹分析本文中用到的相關(guān)強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念以及模型。(3)在Python語言開發(fā)環(huán)境下利用Pycharm完成了強(qiáng)化學(xué)習(xí)SARSA算法和Q學(xué)習(xí)算法在一級直線倒立擺平衡控制的實驗仿真,三種控制算法均可以完成訓(xùn)練以達(dá)到一級直線倒立擺的平衡控制。(4)對實驗仿真的波形進(jìn)行提取分析,對實驗進(jìn)行總結(jié)與展望??傊畯?qiáng)化學(xué)習(xí)已經(jīng)在默默影響與改變我們的生活,在機(jī)器人規(guī)劃和控制和人工智能問題的求解等領(lǐng)域取得了成績,擁有值得期待的未來與前景。

參考文獻(xiàn)[1]MinskyML.Theoryofneuralanalogreinforcementsystemsanditsapplicationtothebrainmodelproblem.PHD:PrincetonUniversity,1954[2]BushRR,MostellerF.StochasticModelforleaming.NewYork:Wiley.l995[3]WidrowB,HoffME.Adaptiveswitchingcircuits.In:AndersonJAandRosenfeldE.Neurocompating:FoundatonsofResearch.Cambriage,MA:TheMITPress.1988,126-134[4]RosenblattF.PrinciplesofNeurodynamics:PerceptronsandthetheoryofBrainMechanisms.WashingtonDC:SpartanBooks.1961[5]WaltzMD,FuKS.Aheuristicapproachtoreinforcementlearningcontrolsystems.IEEETrans.AutomaticControl1965,10(3):390?398[6]WidrowB,GuptaNK,MaitraS.Punish/reward:Learningwithacriticinadaptivethresholdsystem.IEEETrans.onSystem,ManandCybernetics.1973,3(5):455~465[7]SaridisGN.self-OrganizingControlofStochasticSystem.NewYork:MarcelDekker.1977,319-332BartoAG,SuttonRS,BrouwerPS.Associativesearchnetwork:areinforcementlearningassociativememory

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論