下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、桂林電子科技大學學科前沿技術講座心得體會學 號: 102031105 姓 名: 劉 瑞 指導教師: 王 沖 專業(yè)名稱: 計算機應用技術 所屬學院: 計算機科學與工程學院 成 績: 近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用, 并且迫切需要將這些數(shù)據(jù)轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產(chǎn)控制,市場分析,工程設計和科學探索等。機器學習和數(shù)據(jù)挖掘這些年一直是計算機應用方面研究的重點和熱點,首先要了解什么是數(shù)據(jù)挖掘,簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或"挖掘"知識。我一直對這方面的知識頗感興趣,這學
2、期學院開設的學術前沿講座的課程,很有幸聽到了文益民教授對于自己在機器學習和數(shù)據(jù)挖掘方面研究的講座,讓我對這些知識有了深入淺出的理解,受益匪淺。12月5號,文益民教授做了題為“大規(guī)模數(shù)據(jù)的分類”的講座,在講座的最開始,文教授提到了戈登·德萊頓學習的革命一書,皆在指導我們如何積累知識如何思考如何學習如何去做研究,具有拋磚引玉的指導意義。在這之后,又對了解機器學習和數(shù)據(jù)挖掘首先要了解的知識做了簡要的說明,比如對于問題的分類是分為線性問題和非線性問題;比如聚類的含義是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程;比如對于這個世界上計算機的分類可以只分成工人(maker)和思考者(
3、thinker)兩類。至此正式進入問題的討論。對于這次講座,文教授從四個方面進行了講授。第一,實際應用中的大規(guī)模數(shù)據(jù)分類問題。第二,大規(guī)模數(shù)據(jù)給機器學習帶來的挑戰(zhàn)。第三,大規(guī)模數(shù)據(jù)分類算法的研究。第四,展望發(fā)展前景。文教授主要是在第三點中做了很多工作也取得了可喜的成績。在機器學習的實際應用中,大規(guī)模數(shù)據(jù)分類問題一般會應用在以下幾個方面,在高速高精度的工業(yè)圖像檢測方面,在專利分類方面,在生物信息數(shù)據(jù)快速增長方面,在支持向量機參數(shù)選擇方面。大規(guī)模數(shù)據(jù)給機器學習帶來的問題有:1、算法一般不是收斂太慢就是難以收斂,訓練時間過長。2、海量數(shù)據(jù)無法一次裝入內存。3、算法可靠性得不到保證。4、已經(jīng)訓練好的學
4、習器遇到心得訓練樣本時需要重新訓練。在最重要的部分,文教授提到了幾個重要的研究方法,包括算法,這里面包含有:1、基于并行計算的算法,2、以并行計算方法求解工作集方法中每個迭代步中二次規(guī)劃的子問題,3、Meta-learning,最小最大模塊化支持向量機以及快速模塊化支持向量機,4、Cluster-SVM,Cluster-based-SVM,Cascade-SVM。文教授在第三和第四點中都有自己的工作和貢獻,在第三點中,他提出了分類面拼接算法,在第四點中,提出了分層并行支持向量機訓練算法。對于分類面拼接算法我進行了比較仔細的了解,并下載閱讀了文教授于2009年3月份在湖南大學學報上發(fā)表的論文“基
5、于分類面的快速模塊化支持向量機研究”,對于分類面拼接算法有了初步的研究,下面說說我對這個算法的理解。信息采集和信息處理技術的快速發(fā)展導致了諸如公共健康數(shù)據(jù)、信用交易數(shù)據(jù)、國家經(jīng)濟普查數(shù)據(jù)、網(wǎng)絡文本數(shù)據(jù)和地理信息數(shù)據(jù)等大規(guī)模數(shù)據(jù)集的產(chǎn)生。 由于訓練時間很長和空間需求很大,現(xiàn)有的大多數(shù)機器學習算法很難被直接用于大規(guī)模數(shù)據(jù)的機器學習。這個算法是針對大多數(shù)現(xiàn)有的機器學習算法處理大規(guī)模問題時需要的訓練時間很長和存儲空間很大的難點而提出的,英文名是psfnr SVMs,在訓練階段,psfm2SVMs采用一簇平行超平面對大規(guī)模問題實施軟劃分,然后針對每個子問題并行訓練支持向量機。 在測試階段,測試樣本坐落于
6、哪個子問題所在空間中,就由該子問題訓練的支持向量機給出判別結果。 在4個大規(guī)模問題上的實驗表明:與采取硬劃分的快速模塊化支持向量機(fm2SVMs)相比,軟劃分能夠使psfm2SVMs得到更加光滑的分類面,因而ps2fm2SVMs的泛化能力較高。 在不增加訓練時間的條件下,psfm2SVMs減少了由于訓練集分割導致的分類器泛化能力下降。支持向量機方法的本質是在訓練集的一個高維像空間中尋找最大間隔分類超平面,這個分類超平面對應于訓練集所在空間的一個光滑曲面。 如果采用訓練集分割的方法,將這個光滑曲面分段求出,然后進行連接,就可以得到這個光滑曲面的近似曲面。該算法使用平行超平面簇對訓練集實施軟劃分
7、,使得拼接后的分類面相比fm2SVMs得到的分類面更光滑,更接近最優(yōu)分類曲面。 因而,psfm2SVMs 的泛化能力比fm2SVMs的泛化能力要高。 在并行條件下,兩者的訓練時間和測試時間相同。 在多核計算技術快速發(fā)展的今天,本文提出的算法,提供了一種可行的并行機器學習框架,對于研制高速高精度的機器學習算法具有一定的借鑒意義。 未來計劃研究隨機向量w的方向對psfm2SVMs泛化能力的影響,并將該算法用于高速高精度工業(yè)圖像檢測。這就是我的心得體會,在講座的最后,文教授還對機器學習和數(shù)據(jù)挖掘的未來進行了展望,諸如現(xiàn)在流行的云計算,還有動態(tài)數(shù)據(jù)流學習,例外的發(fā)現(xiàn),學習更復雜的函數(shù),粒計算等等,都是今后發(fā)展的的熱點。聽完這個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 小學一年級科學下冊認識常見植物花朵課件
- 2026年玄武巖礦化封存項目可行性研究報告
- 2025年江蘇省徐州市中考生物真題卷含答案解析
- 2025年中級(四級)化學檢驗員(石油化工科研實驗)理論知識試題及答案
- 2025年建筑施工技術練習題庫+答案(附解析)
- 2025年焊工(三級)焊接工藝評估考試試卷(附答案)
- 人力資源部年度工作總結和計劃
- 2025年鼻炎考試試題及答案
- 消防保衛(wèi)措施
- 2025年化工行業(yè)應知應會試題及答案
- 如愿二聲部合唱簡譜文檔
- GB/T 5578-1985固定式發(fā)電用汽輪機技術條件
- GB/T 24526-2009炭素材料全硫含量測定方法
- GB/T 17793-2010加工銅及銅合金板帶材外形尺寸及允許偏差
- GB/T 15107-2005旅游鞋
- GB/T 1184-1996形狀和位置公差未注公差值
- 單晶結構分析原理與實踐
- 蒸汽管道安裝監(jiān)理實施細則
- 2022年武漢首義科技創(chuàng)新投資發(fā)展集團有限公司招聘筆試試題及答案解析
- 旅游地接合作協(xié)議(模板)
- 眾智SUN日照分析軟件操作手冊
評論
0/150
提交評論