GIS數(shù)據(jù)庫中的數(shù)據(jù)挖掘_第1頁
GIS數(shù)據(jù)庫中的數(shù)據(jù)挖掘_第2頁
GIS數(shù)據(jù)庫中的數(shù)據(jù)挖掘_第3頁
GIS數(shù)據(jù)庫中的數(shù)據(jù)挖掘_第4頁
GIS數(shù)據(jù)庫中的數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、GIS數(shù)據(jù)庫中的數(shù)據(jù)挖掘整理時間2009-07-21閱讀次數(shù)1100來源:中國GIS資訊網(wǎng) 文字大?。骸敬蟆俊局小俊拘 空?要:首先探討了 DM在GIS中應(yīng)用的必要性和可能性,然后討論了 GIS 數(shù)據(jù)庫中的DM可以發(fā)現(xiàn)的知識類型、可以使用的方法,可以采用的DM系統(tǒng)原 型,最后簡單介紹了 DM對GIS的貢獻(xiàn)。關(guān)鍵詞:數(shù)據(jù)挖掘(DM)地理信息系統(tǒng)(GIS)專家系統(tǒng)(ES)1引言DM(Data Mining數(shù)據(jù)挖掘)是指把人工智能、機器學(xué)習(xí)與數(shù)據(jù)庫等技術(shù)結(jié) 合起來,由計算機自動地從數(shù)據(jù)庫或數(shù)據(jù)倉庫中的大量數(shù)據(jù)中揭示出隱含的、 先前未知的并具有潛在價值的信息或模式,以解決數(shù)據(jù)量大而知識貧乏這一 困擾專

2、家系統(tǒng)(ES)的知識瓶頸問題的非平凡過程。這一概念一經(jīng)提出,立即引 起了學(xué)者、軟件開發(fā)商和用戶的極大興趣,國外紛紛建立了許多專門研究知 識發(fā)現(xiàn)和數(shù)據(jù)挖掘的公司或部門,從數(shù)據(jù)挖掘的基本概念和原理開始,直到挖 掘方法、算法以及軟件工具,進(jìn)行了廣泛深入的研究。到目前為止,已經(jīng)形 成了比較完整的數(shù)據(jù)挖掘理論和方法體系,并且出現(xiàn)了許多實用的數(shù)據(jù)挖掘工 具,廣泛應(yīng)用于商業(yè)、金融、保險、醫(yī)療、化工、制造業(yè)、工程和科學(xué)等領(lǐng) 域,產(chǎn)生了巨大的效益。GIS(Geographic Information System地理信息系統(tǒng))是以采集、存儲、 描述、分析和應(yīng)用與空間地理分布有關(guān)的數(shù)據(jù)的計算機系統(tǒng)。作為數(shù)據(jù)庫管理

3、 技術(shù)、計算機圖形學(xué)以及空間分析方法的共同產(chǎn)物,它已在社會、軍事、經(jīng) 濟和管理部門得到了長足的發(fā)展和廣泛的應(yīng)用。目前,它正逐步與遙感(RS) 和全球定位系統(tǒng)(GPS)技術(shù)相結(jié)合,向集成 化、自動化及智能化邁進(jìn)。專家系 統(tǒng)技術(shù)在遙感影像解釋、地形數(shù)據(jù)的表達(dá)及語義和非語義信息的提取等方面的 應(yīng)用,正是為了提高這種高集成度的地理信息系統(tǒng)的自動化和可靠性。然而, 盡管專家系統(tǒng)中的知識表達(dá)和知識應(yīng)用的研究取得了不少的進(jìn)展和成果,其知 識獲取仍然主要依賴于專家和知識工程師,離知識自動生成還有相當(dāng)大的差 距。因此,知識獲取問題成了專家系統(tǒng)發(fā)展的瓶頸,也成了建立智能化遙感與 地理信息系統(tǒng)的瓶頸。事實上,GIS

4、數(shù)據(jù)庫中含有豐富的數(shù)據(jù)和信息,是自 然界和人類活動的共同產(chǎn)物,專家系統(tǒng)所需的許多知識就隱含在這些數(shù)據(jù)和信 息之中。所以,如果能將計算機科學(xué)的DM技術(shù)用于GIS,從GIS數(shù)據(jù)庫中自動 生成專家系統(tǒng)所需的知識,無疑將會給知識獲取問題的解決帶來無限生機。基于上述分析,該文旨在討論MD技術(shù)在GIS中的應(yīng)用。文章下面部分分 別就DM在GIS中應(yīng)用的必要性和可能性、GIS數(shù)據(jù)庫中的DM可以發(fā)現(xiàn)的知識 類型、可以使用的方法、可以采用的DM系統(tǒng)原型以及DM對GIS的貢獻(xiàn)展開詳 細(xì)的論述。2 DM在GIS中應(yīng)用的必要性和可能性大千世界中,許多事物之間都存在著千絲萬縷的聯(lián)系,在描述客觀世界的 數(shù)據(jù)中必然存在其內(nèi)部

5、的相互依賴性。Tobler的第一地理規(guī)則就描述了這 樣 一種空間依賴性:“所有的事物都是有聯(lián)系的,一個地方發(fā)生的事件總是與它 附近發(fā)生的事件有關(guān)聯(lián),并且相距近的事物之間的聯(lián)系一般比相距遠(yuǎn)的事物之 間的聯(lián)系要緊密?!比绻軓倪@些數(shù)據(jù)中找出其規(guī)律性或相互聯(lián)系,就可以 反過來推斷客觀世界的情況。GIS是一個對地球表面及空間物體描述,的信息 系統(tǒng),其數(shù)據(jù)庫中豐富的數(shù)據(jù)和信息本身就是大自然和人類社會活動的雙重 產(chǎn)物,專家系統(tǒng)中所需要的許多知識就可能隱藏在GIS數(shù)據(jù)庫中。若能利用 DM技術(shù),從GIS的空間和屬性數(shù)據(jù)中得出有關(guān)自然界與人類活動的內(nèi)在規(guī)律, 就必將為專家系統(tǒng)在GIS中的應(yīng)用和發(fā)展提供新的手段和

6、方法,也將為GIS 自身的發(fā)展提供更廣闊的前景。一方面,GIS的應(yīng)用需要DM技術(shù)的幫助,這 種需要使得GIS必將成為DM的一個極好的應(yīng)用領(lǐng)域。因為GIS數(shù)據(jù)庫中不 僅包含了大量的屬性數(shù)據(jù),而 且還包含了大量的空間數(shù)據(jù)。社會上許多行 業(yè)需要GIS作決策支持和規(guī)劃管理,而且各應(yīng)用領(lǐng)域的特點互不相同,都存在 著許多顯著的但又不充分的領(lǐng)域知識。另一方面,DM在GIS中的應(yīng)用必將促 進(jìn)DM自身的發(fā)展。因為GIS數(shù)據(jù)庫中含有的大量的空間數(shù)據(jù)比DM已有的應(yīng)用 領(lǐng)域中的數(shù)據(jù)類型更加豐富和復(fù)雜。3數(shù)據(jù)庫中的DM可以發(fā)現(xiàn)的知識類型3.1有關(guān)目標(biāo)的幾何信息知識從GIS的圖形數(shù)據(jù)庫中,可以很方便地得到關(guān)于某一類目標(biāo)的

7、位置、形狀、 大小及結(jié)構(gòu)等幾何特征,通過歸納與演繹的方法就可得出關(guān)于該類地物目標(biāo) (如飛機場、運動場、果園等)的一般性(或規(guī)律性)的幾何信息知識。3.2目標(biāo)與目標(biāo)之間的相連、相鄰與共生關(guān)系的知識從GIS的圖形和屬性數(shù)據(jù)庫中,不難發(fā)現(xiàn)目標(biāo)間的相連(如火車站與鐵路相連)、相鄰(房屋與 道路相鄰)及共生關(guān)系(如蒙古包與草場的關(guān)系)。3.3目標(biāo)的幾何性質(zhì)與屬性之間的關(guān)系的知識將GIS中的空間數(shù)據(jù)與屬性數(shù)據(jù)對應(yīng)起來,可發(fā)現(xiàn)目標(biāo)的幾何與屬性之間 的對 應(yīng)關(guān)系。如山區(qū)植被的垂直地帶性,在不同的高度和坡度生長著不同的 植被。在郊區(qū)以植被為主,以建筑物為輔;在城市以建筑物為主,以植被為輔。 在北方以旱季作物為主

8、,在南方以水稻為主。這些知識對遙感影像的判讀是 十分有效的。3.4面向?qū)ο蟮闹R若GIS中采用了面向?qū)ο蟮臄?shù)據(jù)模型,則可以很方便地提供超類一類一子 類目標(biāo)之間的知識繼承、傳播和集成。因此,只要借助于GIS中有效的空間分 析工具、面向?qū)ο蟮臄?shù)據(jù)模型和DM技術(shù),便可以從GIS中提取對GIS分析、 應(yīng)用、更新等方面所需要的知識。GIS數(shù)據(jù)庫中的DM可以使用的方法盡管有不少的文獻(xiàn)和研究者探討過DM的方法,但關(guān)于GIS數(shù)據(jù)庫中的DM 的方法的研究寥寥無幾。筆者認(rèn)為,在現(xiàn)階段,至少有以下方法適用于GIS 數(shù)據(jù)庫中的DM。4.1歸納與演繹的方法這是一種邏輯方法,是從數(shù)據(jù)庫中獲取知識的最基本的方法,即從多個已

9、 存在的事實中歸納出規(guī)則。在GIS中,無論是屬性數(shù)據(jù)還是空間拓?fù)潢P(guān)系, 若進(jìn)行抽象和概括時,均可用到此方法。如在對游牧民族地區(qū)草資源調(diào)查中, 通過相鄰分析,便可歸納出只要有蒙古包,其周圍都有草地,且附近必有淡 水湖泊。這樣的規(guī)則完全可以從GIS數(shù)據(jù)庫中發(fā)現(xiàn),并用于以后的遙感調(diào)查和 建立新的GIS。4.2統(tǒng)計的方法統(tǒng)計的方法一直是DM中最主要的方法,在AI領(lǐng)域的關(guān)系數(shù)據(jù)庫中它已經(jīng) 得到了充分的利用,它還可以用于GIS中的屬性和空間數(shù)據(jù)庫中。如在遙感 影像分析中,對影像進(jìn)行監(jiān)督分類和非監(jiān)督分類,都是利用統(tǒng)計的方法得出影 像模式后,再按此模式對影像分類。實際上,遙感影像的計算機自動分類也 可算是較簡

10、單的DM過程,只是其數(shù)據(jù)為一些以柵格方式存儲的影像數(shù)據(jù),而 不是像關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)那樣以關(guān)系元組的方式存儲。因此,完全可以說 在GIS中早就有了 DM的思想。4.3 空間分析的方法空間分析是指一組技術(shù),其結(jié)果取決于被分析對象的位置。這些技術(shù)不僅 需要獲取對象的位置,還需要知道對象的屬性。GIS數(shù)據(jù)庫中的空間數(shù)據(jù)提 供了空間分析所需要的位置,非空間數(shù)據(jù)提供了對象的屬性數(shù)據(jù),因此GIS 數(shù)據(jù)庫提供了空間分析所需要的各種數(shù)據(jù),利用GIS數(shù)據(jù)庫中的數(shù)據(jù)可以進(jìn) 行空間分析??臻g分析的主要目的是從空間關(guān)系中開發(fā)數(shù)據(jù),以得到空間的內(nèi) 部關(guān)系并加以理解。例如空間分析中的探測性空間分析方法不僅可以揭示空 間數(shù)

11、據(jù)庫中許多非直觀的內(nèi)容,如空間異常點、層次關(guān)系、時域變化及空間交 互模型,還可以揭示用傳統(tǒng)的地圖不能辨明的數(shù)據(jù)模式和趨 勢。為了達(dá)到此 目的,空間分析應(yīng)利用和開發(fā)GIS及其數(shù)字環(huán)境。在這種數(shù)字環(huán)境中,數(shù)據(jù)的 比例尺寸能夠很方便地改變,能放下層次間的不連續(xù)性,還能將不同的數(shù)據(jù) 媒介如文字、聲音、圖形和影像聯(lián)結(jié)在一起。此外,數(shù)字環(huán)境要能提供物體間 更廣泛的聯(lián)系,因為地圖上只是表明了物體空間上的接近及鄰近關(guān)系,而不能 提供物體間的相互作用,以及文化、貿(mào)易和社會網(wǎng)絡(luò)的聯(lián)系。在面向?qū)ο蟮?環(huán)境中,屬性和空間數(shù)據(jù)統(tǒng)一在一個對象中存儲和管理,以上這些想法相對而 言更易于實現(xiàn)。從現(xiàn)實來看,地理位置與地形、土壤

12、、植被及氣候等要素是 緊密相關(guān)的,相互制約的。所以說屬性與空間數(shù)據(jù)是一對矛盾統(tǒng)一體,如果能 找到屬性形成與空間分布的對應(yīng)關(guān)系,那么若已知某一對象的屬性則可知道 其相應(yīng)的空間分布,若已知其空間分布情況,則也可以根據(jù)其對應(yīng)關(guān)系知道其 相應(yīng)的屬性。4.4 Rough集方法Rough集理論(Rough Set Theory)是波蘭華沙大學(xué)Z.Pawlak教授在1982 年提出的一種智能數(shù)據(jù)決策分析工具,被廣泛研究并應(yīng)用于不精確、不確定、 不完全的信息的分類 分析和知識獲取。Rough集理論為GIS的屬性分析和知 識發(fā)現(xiàn)開辟了一條新途徑,可用于GIS數(shù)據(jù)庫屬性表的一致性分析、屬性的重 要性、屬性依賴、屬

13、性表簡化、最小決策和分類算法生成等。Rough集方法 與其它知識發(fā)現(xiàn)方法相結(jié)合,可以在GIS數(shù)據(jù)庫中數(shù)據(jù)不確定情況下獲取多種 知識。例如,在經(jīng)過統(tǒng)計和歸納從原始數(shù)據(jù)得到普遍化數(shù)據(jù)的基礎(chǔ)上,Rough 集用于普遍化數(shù)據(jù)的進(jìn)一步簡化和最小決策算法生成,使得在保持普遍化數(shù)據(jù) 內(nèi)涵的前提下最大限度地精練知 識。當(dāng)然,除了以上介紹的4種主要的方法外,還有其它的一些方法也可以用 于GIS數(shù)據(jù)庫中的DM,比如神經(jīng)元網(wǎng)絡(luò)的方法、決策樹的方法等。GIS數(shù)據(jù)庫中的DM可以采用的DM系統(tǒng)原型加拿大Simon大學(xué)計算機科學(xué)系,在關(guān)系數(shù)據(jù)庫挖掘系統(tǒng)DBMiner的基礎(chǔ) 上,增加空間數(shù)據(jù)挖掘功能,開發(fā)出了一種空間數(shù)據(jù)挖掘

14、系統(tǒng)原型GeoMiner。 該系統(tǒng)能夠在地理信息數(shù)據(jù)庫中挖掘特征規(guī)則、判別規(guī)則和關(guān)聯(lián)規(guī)則,擴充后 還包括分類規(guī)則和數(shù)據(jù)聚類。系統(tǒng)除了用SAND體系結(jié)構(gòu)建立空間數(shù)據(jù)庫模型 外,還有空間數(shù)據(jù)立方構(gòu)造、空間OLAP等功能模塊。此外,該系統(tǒng)還設(shè)計和 實現(xiàn)了空間數(shù)據(jù)挖掘語言GMQL,以及用戶接口和空間知識的可視化工具。因 此,這一空間數(shù)據(jù)挖掘系統(tǒng)原型GeoMiner是可以采用的DM系統(tǒng)原型。5.1 GeoMiner的系統(tǒng)結(jié)構(gòu)它包含有三大模塊:空間數(shù)據(jù)立方體構(gòu)建模塊、空間聯(lián)機分析處理(OLAP) 模塊和空間數(shù)據(jù)挖掘模塊,采用的空間數(shù)據(jù)挖掘語言是GMQL。目前已能挖掘 3種類型的規(guī)則:特征規(guī)則、判別規(guī)則和關(guān)

15、聯(lián)規(guī)則。GeoMiner的體系結(jié)構(gòu)如圖 1所示,包含4個部分:(1)圖形用戶界面,用于進(jìn)行交互式地挖掘并顯示挖 掘結(jié)果;(2)發(fā)現(xiàn)模塊集合,含有上述3個已實現(xiàn)的知識發(fā)現(xiàn)模塊以及.個計 劃實現(xiàn)的模塊(分別以實線框和虛線框表示);(3)空間數(shù)據(jù)庫服務(wù)器,包括 MapInfo,ESRI/Oracle, SDE,Informix- Illustra 以及其它空間數(shù)據(jù)庫引擎; (4)存儲非空間數(shù)據(jù)、空間數(shù)據(jù)和概念層次的數(shù)據(jù)庫和知識庫。5.2的數(shù)據(jù)挖掘語言Han等人為了挖掘地理空間數(shù)據(jù)庫設(shè)計了一種地理數(shù)據(jù)挖掘查詢語言 GMQL(Geo-Mining Query Language),它是對空間SQL的擴展,

16、并成功地應(yīng)用 于空間數(shù)據(jù)挖掘系統(tǒng)原型GeoMiner中。它用于描述和執(zhí)行空間數(shù)據(jù)庫中的數(shù) 據(jù)挖掘。下面為一個用GMQL語言描述的挖掘空間互聯(lián)規(guī)則的例子。例:找出某省pro-a范圍內(nèi)大城鎮(zhèn)的空間互聯(lián)規(guī)則Mine spatial associatinsAs 大城鎮(zhèn)In relevance to , states.area-nameFrom towns, water, state, provincesWhere towns.population25000 and towns.geo inside province.geo and province.area-name = pro-

17、a and g-close-to (towns.geo, water.geo, 75, km) and state.area-name = USADM對GIS的貢獻(xiàn)DM用于GIS,可使GIS在以下幾個方面得到較大的進(jìn)展或突破:使有限數(shù)據(jù)的GIS成為具有無限知識的GIS。盡管GIS中存儲了大量 的數(shù)據(jù),但其容量總是有限的,總是對客觀世界的不完全描述。而DM利用機 器學(xué)習(xí)技術(shù),能從這些有限的數(shù) 據(jù)庫發(fā)現(xiàn)新的知識,將這些知識反作用于已 有的數(shù)據(jù),就可得到更新的數(shù)據(jù)和知識,這樣循環(huán)下去,GIS不僅是一個信息 系統(tǒng),而且是一個數(shù)據(jù)源和知識源,也就使有限的GIS變成了無限的GIS,也 使靜態(tài)的數(shù)據(jù)變成了動

18、態(tài)的數(shù)據(jù)和知識??捎糜贕IS的數(shù)據(jù)精練。現(xiàn)有的GIS數(shù)據(jù)庫中存儲了大量的數(shù)據(jù),其 中有些數(shù)據(jù)是必需的,有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是最基本 的,有些數(shù)據(jù) 是可導(dǎo)出的。利用DM,可以尋找出數(shù)據(jù)間的相互依賴性,得到數(shù)據(jù)間的層次 和層次間的相互關(guān)系。因而,數(shù)據(jù)庫中就可只存儲那些必需的數(shù)據(jù)和關(guān)系, 而不必存儲其它的數(shù)據(jù),就可將GIS數(shù)據(jù)庫進(jìn)行精練。這樣不僅可以節(jié)省存 儲空間,而且可以提高數(shù)據(jù)庫的管理效率和整個系統(tǒng)的運行速度??捎糜贕IS的數(shù)據(jù)更新。現(xiàn)有的GIS數(shù)據(jù)庫中存儲了描述客觀世界的 大量數(shù)據(jù),而客觀世界在人類活動的影響下是時刻變化的,如何將這些變化 在GIS中進(jìn)行快速地更新,也是一個十分棘手的問題。GIS數(shù)據(jù)庫的更新通常 是利用新的航空或航天遙感數(shù)據(jù),但這時需要解決的問題是哪些數(shù)據(jù)需要更 新,如何自動地從遙感影像中獲取更新數(shù)據(jù)。用DM中的空間分析方法可以解 決此問題,它通過對不同時域的數(shù)據(jù)進(jìn)行比較,得到事物隨時間變化的規(guī)律, 并找 到影響此變化的主要因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論