外文翻譯---不完整測量數據的概念建構  中文版.doc_第1頁
外文翻譯---不完整測量數據的概念建構  中文版.doc_第2頁
外文翻譯---不完整測量數據的概念建構  中文版.doc_第3頁
外文翻譯---不完整測量數據的概念建構  中文版.doc_第4頁
外文翻譯---不完整測量數據的概念建構  中文版.doc_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

不完整測量數據的概念建構王壽宏,王海摘要:對資料挖掘來說,未經加工的調查數據通常是不完整的。資料挖掘中缺失數據的問題在知識發(fā)現過程中常被忽略。這篇文章介紹了在不完整調查數據中資料挖掘的基礎概念,以及計劃知識發(fā)現中的咨詢過程,和在調查資料挖掘咨詢功能在概念解釋上的發(fā)展趨勢。這篇文章通過一個事例,論證了通過使用人工智力工具譬如自組織映射,不完整數據的概念解釋可以完成。1.引言數據挖掘就是分析數據以圖從中找出有用模型的過程。而數據挖掘與傳統(tǒng)的統(tǒng)計分析有所不同,因為數據挖掘的目的是找出對數據所有者或數據挖掘員有價值而又確定的關系。鑒于數據的維數和數據量本身的巨大,傳統(tǒng)的的統(tǒng)計分析方法在數據挖掘時有其局限性。為滿足數據挖掘的最新需要,在數據挖掘領域里面已經廣泛采用基于人-機互動技術的人工智能技術。數據挖掘時有很多非統(tǒng)計技術。基于Kohonen神經網絡的自組織映射(SOM)法是其中一種比較有前途的方法。基于集群技術的SOM法對其他方法來說有優(yōu)勢。通常數據挖掘技術處理一些十分高維的數據,也就是說做數據挖掘的數據庫通常是由很多變量決定的?!熬S數災難”使得對數據關系的統(tǒng)計分析變得毫無意義,這也使得統(tǒng)計方法變得無能為力了。然而SOM方法并不依賴任何假定的統(tǒng)計測試,因而被認為是處理多維數據的有效方法。更為重要的是SOM方法提供了多維可視化數據串的基礎。這種特色是其他任何數據分析方法都不具備的。它允許數據挖掘者分析該問題域中的集群。測量只是數據采集中的一種普通數據獲取方法。在數據挖掘的中,我們得到的調研數據集通常很難滿足每個變量都有填寫完全的觀測結果。一般地,被調查者只部分地完成調研和問卷調查的內容。當事實上我們無法再次面向被調查者完成調研和問卷調查的全部內容時,我們并不知道缺失數據的嚴重性,但這是數據掘中有待發(fā)現的最重要部分之一。事實上,在知識工程領域缺失數據是一個重要而具有爭議的問題。通過集群分析在挖掘由不完整數據構成的調查數據庫過程中,缺失數據的類型及缺失數據對數據挖掘的潛在影響是一門學問。例如,數據挖掘者通常希望能知道集群分析的可信程度;一些有價值的類型通常是什么時候和怎樣丟失的;以及丟失有價值數據的時候哪些變量與之有關系。這些有價值東西在缺失數據集部分被充分發(fā)掘之后才能發(fā)現。這篇文章討論了知識發(fā)現中在發(fā)掘調研數據庫過程中數據缺失的問題,并介紹了概念解釋的概念基礎,以及建議設立基于SOM數據挖掘概念解釋查詢功能。以下部分是這樣安排的:第二部分討論數據缺失與數據挖掘的關系問題;第三部分介紹數據挖掘中SOM的概念解釋;第四部分說明了挖掘不完整數據的4個概念的知識發(fā)現;并提供了應用SOM挖掘不完整數據的概念解釋的圖解。第五部分建立用于操控SOM的概念解釋查詢工具。第六部分介紹一個例子,該例子應用咨詢工具對一個學生判斷測量的數據集進行熟練操作SOM系統(tǒng)的概念建構。最后,第七部分作了結束語。2數據缺失問題不完整數據集普遍存在于數據挖掘中。數據缺失的解決辦法有許多種,其中對付不完整數據的一種方便辦法是將那些已記錄沒有價值的數據集排除掉。然而這忽略了這些記錄中潛在的有用信息。萬一缺失數據的比重較大,從篩選過的數據中得出的結論就會有偏頗或引起誤導。另一種處理丟失數據的簡單方法是用一類通用的“未知”來代替所有丟失數據項。數據挖掘中,不確定的“未知”通常在丟失數據項中引起混亂和誤解。對付缺失數據的第三種辦法是排除數據域中沒有價值的數據。對于時序數列,可觀察到的相鄰數據點可以插補。一般情況下,數據域中預期值可用于統(tǒng)計測量。然而,數據挖掘中,調研數據類型通常是隊、類,有多項選擇的,二進制的。這些例子中,插補及特殊缺失數據變量的使用通常是不夠的。更為重要的是,研究表明,解決缺失數據的有效辦法應該總是獨立于問題之外去研究。新近,發(fā)現損缺失數據集的合計概念方向有了精確的方法。這些方法與傳統(tǒng)逼近法處理缺失數據截然不同,它著眼于缺失數據的整體,而不是個別缺失的價值。這些方法的這個高級特征使不完整數據的數據挖掘得以加強。然而這些統(tǒng)計方法有其局限性。首先,得假定缺失價值存在于隨機方式或者新遵循一定的分配儀式。這些關于數據分配嚴格假定通常是無效的,特別對不完善數據的測定。第二,這些數學模型通常是數據驅動,而不是“問題領域驅動”。實際上,由于數據挖掘的目標常常與具體問題域有關聯(lián),一個單獨普通概念建構算法不足以應付數據挖掘的多樣目標。數據庫的知識發(fā)現是鑒別有效的、新奇的、有潛在作用并最終可以理解的數據模式的有實際意義的過程。根據這個定義,這項研究強調利用不完整數據進行數據挖掘概念構建的兩個方面。首先,利用不完整數據進行數據挖掘中,有效、新奇、有用的標準隨問題而定。那就是,一個數據模式不單獨依賴于該模式估計的統(tǒng)計力,也依賴于數據挖掘者。第二,通過對建立于計算機和人類認識理論的組合空間的啟發(fā)式研究,可以完成基于不完整數據的概念建構。人機協(xié)作進行概念建構就是在數據挖掘者和計算機之間發(fā)掘出新奇、似是而非、有用的、相關的和有趣味性與缺失數據相關的知識的人機交互式過程。照我們看來,數據挖掘與傳統(tǒng)統(tǒng)計在處理缺失數據方面有很多不同。(1)數據挖掘試圖從數據中去發(fā)掘出無疑的、潛在的有用模式,是由于數據挖掘者的新奇目標在于缺失數據而不在于估計個別缺失數據的價值。(2)數據挖掘是人類知識發(fā)現環(huán)道中心環(huán)節(jié)工具,該過程是通過人機交互而認識到由集合水平上缺失數據引起的沖擊,更甚于僅用基于未經證實的假設的數學方法得出的結論。3.概念建構的工具:自映射組織(SOM)假如有一個很大多維集調研的例子,通常就會有很大一部分觀察資料丟失價值,然而并非所有的缺失數據都引起數據挖掘者的興趣。因此,對于一個有巨大數據來說,任何簡單的強力搜索缺失數據的方法都是不可行,而且,當數據挖掘者通過數據挖掘僅為了找出問題或者發(fā)展概念時該方法是沒有用的。為明確問題或創(chuàng)建概念,數據挖掘者需要一種工具來觀察可利用數據與缺失數據的確定模式。由于自映射組織(SOM)比流行的k-群集算法在計算方面更有效率,因此在群集分組中廣泛應用。更為重要的是,SOM為數據挖掘者提供數據的可視化,用來觀察多維數據。研究表明,SOM在數據挖掘中鑒別未可懷疑的數據模式中很有效。特別是,SOM可用在多變量測量數據的集群分析。這個研究更進一步,把SOM作為有關缺失數據的概念建構的工具。不完整數據的概念建構是為了研究缺失數據的模式,如同這些缺失數據對基于完整數據的挖掘結果的潛在沖擊。下面例子說明,SOM提供一種人機協(xié)作從缺失價值的數據中建構概念的機制。SOM能輸入模式中,通過無人監(jiān)督(競爭的)學習過程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論