下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)降維相關(guān)算法概述目錄TOC\o"1-3"\h\u14481數(shù)據(jù)降維相關(guān)算法概述 173801.1主成分分析(PCA) 1105851.2因子分析(FactorAnalysis,F(xiàn)A) 2288161.3線性判別分析(LinearDiscriminantAnalysis,LDA) 2190841.4數(shù)據(jù)降維的難點 31.1主成分分析(PCA)主成分分析法(PCA)REF_Ref27676\r\h[2]的示意圖如圖1-1,其主要思想在于,同一緯度上,直觀看上去數(shù)據(jù)的分布是密集的,其中具有代表性的點堆積在一起,我們要找的內(nèi)容混在其中??墒敲芗臄?shù)據(jù)不方便我們觀測與處理,PCA首要做的是,先限定一個方向,或者理解為一個軸,使這些數(shù)據(jù)相對其是分散開的,這樣再對數(shù)據(jù)進(jìn)行分類等處理,就輕松許多了。而將這些點擴(kuò)散開,就是要在這個方向上去方差,找到越大方差的方向,數(shù)據(jù)點就會分散的更開闊,數(shù)據(jù)點分散的越開闊,分類任務(wù)就越輕松,信息提取的效率就越高??偟膩碚f,PCA就是先找方向,先找軸,然后把這些數(shù)據(jù)盡可能的分開。圖1-1主成成分分析示意圖PCA最終目的就是提取數(shù)據(jù)的主要特征。在多維數(shù)據(jù)的內(nèi)部必然有一部分是其主要內(nèi)容,假如其中有n維是我們需要提取出來的,那么這n維就是主成分,是能代表這組多維數(shù)據(jù)的。而PCA需要做的就是對這些數(shù)據(jù)進(jìn)行多輪探測,找到一個滿足條件的方向軸,每輪的軸都與上一輪的軸正交,要能夠使我們最終得到最大的方差,攜帶的信息也就最多。在這不停探測的過程中,可以發(fā)現(xiàn)大部分?jǐn)?shù)據(jù)的方差,主要還是在前面部分的軸中,而最終迭代出來的軸,除去前面那部分軸,我們都可以認(rèn)為他們是無關(guān)信息,不需要保留,選擇性地丟棄掉即可。不難看出,PCA就是如何選擇性保留與丟棄特征的問題,保留方差大的維度,丟棄方差小或為零的維度,從而降低數(shù)據(jù)的維數(shù)。PCA看似直接對維數(shù)進(jìn)行操作,降低了數(shù)據(jù)的維度,但從各維度的角度出發(fā),如前面所提,PCA線性改變一個維度,可能會丟失其他維度的信息,這看似沒什么問題,但是畢竟丟失掉的維度也包含了數(shù)據(jù),這數(shù)據(jù)若僅僅是相對于已確定保留的維度不重要,其本身的信息在一定程度上是重要的,那么這在某些層面看來是造成數(shù)據(jù)信息損失的,而且有可能損失掉的是后續(xù)的關(guān)鍵數(shù)據(jù)。況且,其實通過對實驗的觀測,會發(fā)現(xiàn)PCA并不能如我們所愿的對樣本進(jìn)行概括,被丟棄的“不重要信息”是否會造成關(guān)鍵信息丟失的風(fēng)險問題無法有效解決,其對于只能處理線性數(shù)據(jù)的局限性,也是其逐漸少有人選擇的原因。1.2因子分析(FactorAnalysis,F(xiàn)A)前文我們提到主成分分析是對原有自變量中線性組合的尋找處理,而因子分析就不是提取數(shù)據(jù)中的主要成分了。因子分析(FA)REF_Ref28362\r\h[3]的過程是我們要提前作出假設(shè),假設(shè)所有存在的變量為什么出現(xiàn),這些變量出現(xiàn)的原因都是由于他們背后存在同一個潛在的變量,這個潛在的變量就是我們要說的因子。區(qū)別于主成分是代表一組數(shù)據(jù)的類似包含的關(guān)系,因子的存在是導(dǎo)致變量以及我們所觀測到的變化的遞進(jìn)關(guān)系。例如,學(xué)生在數(shù)理化考試中的表現(xiàn)為滿分,那么我們可以假設(shè)他的理性思維能力強(qiáng)作為導(dǎo)致他滿分的原因,理性思維就是一個因素。在這一因素的影響下,理科得分較高。因子分析和主成分分析的區(qū)別就在于此。因子分析的主要任務(wù)是探索變量后面的潛在變量,主成分分析是發(fā)現(xiàn)方差最大的線性組合。主成分分析只提出假設(shè),因子分析則基于假設(shè),就因素的影響產(chǎn)生原始特征,然后逐步求解假設(shè)。1.3線性判別分析(LinearDiscriminantAnalysis,LDA)線性判別分析(LDA)REF_Ref28901\r\h[4]可以處理二分類問題,也可以進(jìn)行有監(jiān)督的數(shù)據(jù)降維。線性判別分析處理二類問題通常作為一種分類器,是貝葉斯準(zhǔn)則的一種特例,樣本采樣于高斯分布,且協(xié)方差相同;處理多類問題則采用K近鄰?fù)镀狈ㄅc監(jiān)督降維。如圖1-2所示,同樣是做一種假設(shè),假設(shè)相鄰的樣本之間應(yīng)該存在相同的類別標(biāo)簽,通過這些標(biāo)簽對數(shù)據(jù)進(jìn)行分類,但是假設(shè)的可靠性可能隨著訓(xùn)練數(shù)據(jù)的密度降低而降低,分類的效果也會降低,另外,當(dāng)數(shù)據(jù)的維度過高時,近鄰搜索的計算成本和儲存儲存成本都會隨著樣本的維度增長,所以我們一般要到低緯去提取,也就是把數(shù)據(jù)投影到低緯度的空間,找到更有判別力的特征。這樣既能提高K近鄰方法的效果,也能降低降維成本。圖1-2線性判別分析LDA1.4數(shù)據(jù)降維的難點(1)數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年海南體育職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試參考題庫帶答案解析
- 2026年河南中醫(yī)藥大學(xué)高職單招職業(yè)適應(yīng)性測試參考題庫帶答案解析
- 2026年成都航空職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試備考題庫帶答案解析
- 2026年安徽汽車職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試模擬試題帶答案解析
- 2026年廣州科技貿(mào)易職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試備考試題帶答案解析
- 土地租賃終止合同協(xié)議2025年版本
- 投資咨詢合同2025年風(fēng)險條款
- 2026年廣東科貿(mào)職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 2026年福州軟件職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 2026年廣西體育高等??茖W(xué)校單招職業(yè)技能考試備考題庫帶答案解析
- 門診年度總結(jié)
- 沈陽盛京軍勝農(nóng)業(yè)發(fā)展科技有限公司及所屬企業(yè)2025年面向社會招聘備考題庫帶答案詳解
- 入駐直播協(xié)議書
- 2025年監(jiān)理工程師考試案例分析(土木建筑)真題答案(完整版)
- 2025 新能源電力交易實戰(zhàn)指南
- 血液凈化中心(透析室)年度述職報告
- 教科版(2024)二年級科學(xué)上冊期末綜合質(zhì)量調(diào)研卷(含答案)
- 2025年合肥安徽潛晟城市運(yùn)營管理有限公司公開招聘工作人員考試題庫必考題
- 新生兒氣道管理臨床實踐指南(2025版)
- 酒吧消防安培訓(xùn)
- 養(yǎng)老院消防培訓(xùn)方案2025年課件
評論
0/150
提交評論