【畢業(yè)學(xué)位論文】(Word原稿)Web文本信息挖掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究_第1頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)Web文本信息挖掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究_第2頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)Web文本信息挖掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究_第3頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)Web文本信息挖掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究_第4頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)Web文本信息挖掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類號(hào): 密級(jí): 專 業(yè) 學(xué) 位 研 究 生 學(xué) 位 論 文 論文題目(中文) 本信息挖掘中聚類算法 在甘肅省扶貧 網(wǎng) 中的應(yīng)用研究 論文題目(外文) of eb in 究 生 姓 名 裴凌 學(xué) 位 類 別 工程碩士 專 業(yè) 學(xué) 位 領(lǐng) 域 計(jì)算機(jī)技術(shù) 學(xué) 位 級(jí) 別 碩 士 校內(nèi) 導(dǎo)師姓名、職稱 馬義忠 教授 校外導(dǎo)師單位、姓名 蘭州市勘察測(cè)繪研究院 張永忠 論 文 工 作 起 止 年 月 2012 年 2 月至 2012 年 9 月 論 文 提 交 日 期 2013 年 3 月 論 文 答 辯 日 期 2013 年 5 月 學(xué) 位 授 予 日 期 校址:甘肅省蘭州市 原 創(chuàng) 性 聲 明 本人鄭重聲明:本人所呈交的學(xué)位論文,是在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的成果。學(xué)位論文中凡引用他人已經(jīng)發(fā)表或未發(fā)表的成果、數(shù)據(jù)、觀點(diǎn)等,均已明確注 明出處。除文中已經(jīng)注明引用的內(nèi)容外,不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的科研成果。對(duì)本文的研究成果做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。 本聲明的法律責(zé)任由本人承擔(dān)。 論文作者簽名: 日 期: 關(guān)于學(xué)位論文使用授權(quán)的聲明 本人在導(dǎo)師指導(dǎo)下所完成的論文及相關(guān)的職務(wù)作品,知識(shí)產(chǎn)權(quán)歸屬蘭州大學(xué)。本人完全了解蘭州大學(xué)有關(guān)保存、使用學(xué)位論文的規(guī)定,同意學(xué)校保存或向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的 紙質(zhì)版 和 電子版,允許論文被查閱和借閱;本人授權(quán)蘭州大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用任何復(fù)制手段保存和匯編本學(xué)位論文。本人離校后發(fā)表、使用學(xué)位論文或與該論文直接相關(guān)的學(xué)術(shù)論文或成果時(shí),第一署名單位仍然為蘭州大學(xué)。 本學(xué)位論文研究?jī)?nèi)容: 可以公開(kāi) 不易公開(kāi),已在學(xué)位辦公室辦理保密申請(qǐng),解密后適用本授權(quán)書(shū)。 (請(qǐng)?jiān)谝陨线x項(xiàng)內(nèi)選擇其中一項(xiàng)打“ ”) 論文作者簽名: 導(dǎo)師簽名: 日 期: 日 期: 本信息挖掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 摘 要 需求是發(fā)明之母。近年來(lái),數(shù)據(jù)挖掘之所以引起業(yè)界 的 極 大 關(guān)注,主要原因還是 用戶迫切需要將 產(chǎn)生的大量數(shù)據(jù) 轉(zhuǎn)換成有用的信息和知識(shí),并且 將 所獲取的信息和知識(shí)廣泛應(yīng)用于商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等領(lǐng)域。 它是相對(duì)于 更注重用戶的交互作用 。 在 戶只是網(wǎng)站內(nèi)容的瀏覽者,而在 代, 用戶不僅僅是網(wǎng)站內(nèi)容的瀏覽者,更是網(wǎng)站內(nèi)容的制造者, 由被動(dòng)的接收互聯(lián)網(wǎng)信息向主動(dòng)創(chuàng)造互聯(lián)網(wǎng)信息發(fā)展,這顯示出 互聯(lián)網(wǎng)的 人性化。但是 , 一個(gè)新的問(wèn)題 就此產(chǎn)生 ,信息量暴增,人們從中獲取信息 和 知識(shí)就變得越來(lái)越困難,僅僅依靠以前單一的手段已遠(yuǎn)遠(yuǎn)不能滿足需要。所以 ,如何 解決好這個(gè)問(wèn)題,讓互聯(lián)網(wǎng)中海量的信息資源庫(kù)能夠更好的為 人類 的生產(chǎn)和生活提供服務(wù) ,就成為了 這些年來(lái)諸多專家學(xué)者為之奮斗的一個(gè)方向 , 從而也就誕生了一個(gè)新的名詞: 作用 就是它可以對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行切分歸類并進(jìn)行搜索提取,用來(lái)幫助互聯(lián)網(wǎng)用戶進(jìn)行知識(shí)的搜索和提取,進(jìn)而提高用戶使用互聯(lián)網(wǎng)的效率,它 屬于 延伸出來(lái)的一個(gè)新的 研究 領(lǐng)域。 本文 著重 研究 了 據(jù)挖掘所使用的 技術(shù)以及挖掘方法、運(yùn)行過(guò)程, 同時(shí), 為了能對(duì) 進(jìn)一步的研究和了解 , 本文實(shí)現(xiàn)了一個(gè)結(jié)構(gòu)簡(jiǎn)單但功能 完整的 下面對(duì) 本文所做的主要的研究工作 做一個(gè)簡(jiǎn)要概述 : 1、介紹了 據(jù)挖掘及其延伸 本信息 數(shù)據(jù) 挖掘 的 應(yīng)用 背景 、研究現(xiàn)狀及發(fā)展趨勢(shì) , 以及 我們 進(jìn)行 據(jù) 挖掘 研究 的意義。 2、 介紹了甘肅省扶貧信息網(wǎng)的整體體系結(jié)構(gòu)以及包括 中文分詞技術(shù)、 本信息 數(shù)據(jù) 挖掘過(guò)程中的所使用 的核心 技術(shù) 。 3、 簡(jiǎn)單 討論了 K 均值算法 、 基于 K 均值和遺傳算法的聚類算法 等 幾種常用算法在甘肅扶貧信息網(wǎng)中的應(yīng)用 ,并 通過(guò)甘肅省扶貧信息網(wǎng) 進(jìn)行了驗(yàn)證。 關(guān)鍵詞: 息資源,傳統(tǒng)數(shù)據(jù)挖掘技術(shù), 息提取 he is of In of an to of to in of .0 it is to a it is on In .0 in s is of by to to a of is to on a to of of in to of in of a eb is a eb It eb on It to in to of eb eb by eb in to eb t it eb eb in 1. an eb it eb 2. an in of eb as of eb so 3. an of eb do an to of on 目 錄 中文摘要 I 一章 引言 1 研究背景 1 研究現(xiàn)狀 2 研究?jī)?nèi)容 3 論文的整體 結(jié)構(gòu) 3 第二章 本信息挖掘 與相關(guān)技術(shù) 5 數(shù)據(jù)挖掘 5 數(shù)據(jù)挖掘的發(fā)展 5 基于 8 掘 11 11 用涉及到的技術(shù)理論 13 實(shí)驗(yàn)結(jié)果 24 本章小結(jié) 26 第三章 甘肅扶貧網(wǎng)體系結(jié)構(gòu) 與典型模塊分析 27 甘肅扶貧網(wǎng)整體結(jié)構(gòu) 27 勞務(wù)輸轉(zhuǎn)板塊分析 29 “兩后生”板塊分析 30 甘肅蘋果 價(jià)格走勢(shì)分析 32 大蒜價(jià)格走勢(shì)分析 33 土豆價(jià)格走勢(shì)分析 34 本章小結(jié) 35 第四章 文本 信息挖掘在甘肅扶貧網(wǎng)中的應(yīng)用 36 系統(tǒng)開(kāi)發(fā)環(huán)境 36 系統(tǒng)框架 36 系統(tǒng)結(jié)構(gòu) 37 中文分詞模塊 37 特征表示和提取模塊 40 文本信息挖掘模塊 43 系統(tǒng)運(yùn)行實(shí)現(xiàn) 45 網(wǎng)頁(yè)采集 45 網(wǎng)頁(yè)的清理 46 系統(tǒng)初始化 47 系統(tǒng)運(yùn)行 50 本章小結(jié) 52 第 五 章 總結(jié)與展望 53 研究工作總結(jié) 53 未來(lái)展望 53 參考文獻(xiàn) . 55 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 1 第一章 引言 研究背景 文 所做的主要 研究 工作 。 互聯(lián)網(wǎng)的發(fā)展速度,已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)人們的預(yù)測(cè),在這個(gè)現(xiàn)代化的社會(huì)中,人們不論是生產(chǎn)或是生活,都已經(jīng)離不開(kāi)網(wǎng)絡(luò),它不再是一種高高在上的新鮮事物,而是已經(jīng)成為了人們手中的一種工具,通過(guò)它 來(lái)獲取某種 信息已經(jīng)是再普通不過(guò)的事情,相較于以前傳統(tǒng)的 三大信息媒體,現(xiàn)如今的人們獲取知識(shí)的渠道也更加的多元化 1。 互聯(lián)網(wǎng) 作為一個(gè)新興的信息媒介,自身自然有著無(wú)可比擬的優(yōu)勢(shì)。首先 是巨大的信息量,互聯(lián)網(wǎng)包含了 數(shù)以億計(jì)的 、 各種 各樣的 而無(wú)數(shù)的承載著各種文字、聲音、圖片和視頻信息的 樣擺在用戶面前的就是一個(gè)龐大的難以想象的信息庫(kù);其次是 互聯(lián)網(wǎng) 具有 電視、廣播、報(bào)紙等 傳統(tǒng) 媒介所 不具備的及時(shí)性和開(kāi)放性等特點(diǎn) ,一條即時(shí)信息可以通過(guò)互聯(lián)網(wǎng)在很短的時(shí)間內(nèi)傳遍全球,這在傳統(tǒng)媒介上是 不可能實(shí)現(xiàn)的 ; 第三是交互性,用戶對(duì)傳統(tǒng)的信息傳播媒介只是被動(dòng)的接收,不能按照自己的愛(ài)好和需求來(lái)選擇,更不能發(fā)表自己的看法和意見(jiàn),但是互聯(lián)網(wǎng)就不同,它不僅允許用戶根據(jù)自己的 的興趣來(lái)選擇相關(guān)的信息,而且可以給用戶提供一個(gè)平臺(tái)來(lái)發(fā)表一些意見(jiàn)和看法,也就是說(shuō)可以和用戶進(jìn)行互動(dòng) 2。正是由于這三點(diǎn),互聯(lián)網(wǎng)得到了一個(gè)很大的發(fā)展空間,得以急速膨脹。 但是, 在網(wǎng)絡(luò)大行其道的今天,我們也不應(yīng)該忽視它所帶給我們的一些問(wèn)題 ,當(dāng)用戶在面對(duì)互聯(lián)網(wǎng)上海量的信息的時(shí)候,常常顯得手足無(wú)措, 很難通過(guò) 一些 簡(jiǎn)單、易用的方式 從互聯(lián)網(wǎng)上獲取自己需要 的信息 , 這與互聯(lián)網(wǎng)的初衷是背道而馳的,所以怎樣才能使用戶能夠快速并 且 準(zhǔn)確地從 互聯(lián)網(wǎng) 上 獲取到自己 所需 要 的信息, 也就是說(shuō)互聯(lián)網(wǎng)怎樣才能做到自我檢索,即就是對(duì)自身所包含的大量數(shù)據(jù)進(jìn)行歸類,并建立索引以便隨時(shí)查找,這是現(xiàn)在網(wǎng)絡(luò)技術(shù)研究的一個(gè)新方向, 也就是我們所說(shuō)的 本信息 數(shù)據(jù) 挖掘。 是利用 一些特有的搜索、歸類、分析和篩選技術(shù) 從互聯(lián)網(wǎng)上大量的 本信息中 提取到對(duì)用戶有用的 信息 知識(shí)的過(guò)程 ,它是數(shù)據(jù)挖掘領(lǐng)域 的 一個(gè)新的研究方向。 利用 術(shù) 可以協(xié)助 現(xiàn)有的搜索引擎 來(lái) 自動(dòng) 搜索 、分析和 抓取 關(guān)聯(lián)度高的網(wǎng)頁(yè),并根據(jù)用戶的需求將這些抓取到的信息進(jìn)行篩選,進(jìn)而以可視化的形式返回給用戶,這樣就使得 人們可以通過(guò)自己的實(shí)際需求來(lái)定制相應(yīng)的 2。 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 2 實(shí)際上, 本信息 挖掘 就是 據(jù)挖掘的 一個(gè) 子集 。 據(jù)挖掘的研究方向主要有三個(gè): 第一個(gè)是 通過(guò)一些搜索、歸類、分析的方法,在互聯(lián)網(wǎng)中大量的、非結(jié)構(gòu)化的文本資源中提取跟用戶相關(guān)的 一些關(guān)鍵字,進(jìn)而根據(jù)文檔之間的關(guān)系對(duì)文檔進(jìn)行分類,最終獲取有用的信息,這樣可以提 高人們獲取 源的效率。第二個(gè)研究方向是 第三個(gè)研究方向是 2。 研究現(xiàn)狀 現(xiàn)如今, 越來(lái)越多的專家學(xué)者們都投身于數(shù)據(jù)挖掘這一領(lǐng)域,尤其是 一方面是由于 有極強(qiáng)的挑戰(zhàn)性;另一方面也是由于大家都看到了 闊的發(fā)展前景。這些來(lái)自于各個(gè)領(lǐng)域的研究者們 利用 他們各自掌握的 理論和 相關(guān)技術(shù) 來(lái)研究 且結(jié)合實(shí)際操作提出了許多 新的 、帶有交叉性的 挖掘技術(shù) 2。在國(guó)際上 ,同行業(yè)對(duì)于 究 的開(kāi)展工作要 比國(guó)內(nèi)同行要早,例如早期的信息抽取技術(shù) 經(jīng)過(guò)在實(shí)際操作過(guò)程中不斷的改進(jìn)、演化為現(xiàn)在的文本信息挖掘技術(shù)。但是,即使是這樣,在這一方面的研究所拓展的空間也不是很大,目前 主要集中在文本信息的自動(dòng)分類技術(shù) 和如何優(yōu)化搜索引擎等方面,還有一些智能化方面的應(yīng)用。 在 個(gè) 上世紀(jì) 50 年代末, 一次在文本信息的搜索分類方面使用了頻率統(tǒng)計(jì)思想,原理是根據(jù)關(guān)鍵詞在文本中出現(xiàn)的頻率來(lái) 進(jìn)行劃分歸類, 這是一項(xiàng)創(chuàng)造性的研究 。在 此 隨后的 許多 年里, 不斷的有許多的研究者們都相繼提出了自己在文本信息搜索方面的想法,并轉(zhuǎn)化為相應(yīng)的研究成果 。 到目前為止, 在這一領(lǐng)域已經(jīng)產(chǎn)生了相當(dāng)多的研究成果,并且其中有很多研究都 已經(jīng)取得了令人矚目的研究成果。 文本信息挖掘己經(jīng)從最基礎(chǔ)的理論研究,發(fā)展到 現(xiàn)在的 實(shí)際應(yīng)用化階段, 例如在 電子會(huì)議、郵件分類等方面 的應(yīng)用都非常的廣泛 3。 在商業(yè)領(lǐng)域, 以及 同時(shí), 在軍事和企業(yè)的情報(bào)搜集方面, 文本信息挖掘技術(shù) 也得到了大量的應(yīng)用, 可以說(shuō),文本信息挖掘技術(shù)現(xiàn)在已經(jīng)作為搜集有用信息的重要手段和方法 3。 相對(duì)于國(guó)外,我國(guó)國(guó)內(nèi) 的研究狀況就沒(méi)有 那么樂(lè)觀了 。 在 1981 年 的時(shí)候 ,候漢清教授 才在國(guó)內(nèi)介紹了國(guó)外在分類檢索等相關(guān)方面的 研究 情況, 同時(shí)對(duì)這項(xiàng)研究在國(guó)內(nèi)的應(yīng)用做了一些探討分析 。 但直到 1998 年, 我國(guó) 才將文本信息挖掘的研究列入了 國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃。目前,高等院校、科研院所和一些信息公司是我國(guó)國(guó)內(nèi)對(duì)文本信息挖掘技術(shù)的主要研究機(jī)構(gòu)。 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 3 比如 : (1)、 科 學(xué) 院計(jì)算機(jī)語(yǔ)言信息工程中心所研究的 中文詞劃分 、 語(yǔ)音識(shí)別轉(zhuǎn)換等 項(xiàng)目 。 (2)、上海交通大學(xué)計(jì)算機(jī)系研究的自然語(yǔ)言模型、語(yǔ)句語(yǔ)義、范例推理、構(gòu)造解釋模型等 項(xiàng)目 。 (3)、東北大學(xué) 所研究 的中文信息自動(dòng)抽取 、詞性標(biāo)注、漢語(yǔ)文本自動(dòng)分類模型等 項(xiàng)目 。 這些都是我國(guó)在文本信息挖掘方面所取得的不小的成績(jī), 但是, 我們?cè)诳吹竭@些成績(jī)的同時(shí), 也必須清醒的認(rèn)識(shí)到, 我們針對(duì)這一領(lǐng)域起步晚,所掌握的技術(shù) 十分 有限 , 特別是將研究成果的商業(yè)化方面還是非常滯后 。 3所以 , 怎樣讓我國(guó)的研究水平能夠快速提高, 并且能夠及時(shí)的將研究成果轉(zhuǎn)化為實(shí)際生產(chǎn)力,這是擺在我們計(jì)算機(jī)工作者面前的一道不小的難題。 研究?jī)?nèi)容 本文 主要是根據(jù) 經(jīng)形成的技術(shù)應(yīng)用,以及相關(guān)研究的商業(yè)化應(yīng)用等方面進(jìn)行了簡(jiǎn)單的論述 ,包括 一些 算法 在 本挖掘中的應(yīng)用,利用 現(xiàn)有 的研究成果,結(jié)合實(shí)際應(yīng)用, 基本 上能夠 實(shí)現(xiàn)信息挖掘原型系統(tǒng) 的 開(kāi)發(fā)運(yùn)行 。 下述三種技術(shù)由于經(jīng)常被應(yīng)用信息挖掘,所以本文將其作為研究重點(diǎn): 1、特征向量的表示 以及 提取: 由于向量空間模型的特征維數(shù)很高,為了適應(yīng)空間模型的計(jì)算方法,如何降維就是首要的工作。 2、 中文 分詞技術(shù): 由于中文語(yǔ)系的特殊性,所以它所使用的分詞方法 也有別于其它語(yǔ)系。 本文著重 描述了正向和逆向的最大匹配方法。 3、 本信息的聚類和分類: 這部分主要介紹了目前的幾種聚類和分類方法, 并將幾種算法的優(yōu)缺點(diǎn) 互相結(jié)合,給出 了 新 的聚類算法。 論文整體 結(jié)構(gòu) 論文整體結(jié)構(gòu) 如下 : 第一章 引言 , 主要介紹了本領(lǐng)域研究背景與研究現(xiàn)狀,提出了本文研究的內(nèi)容以及整體結(jié)構(gòu)和 基本框架。 第二章 要討論了數(shù)據(jù)挖掘、 本信息挖掘等技術(shù)和理論知識(shí),介紹了 實(shí)現(xiàn)蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 4 同時(shí)詳述了挖掘過(guò)程 。 第三章 甘肅扶貧網(wǎng)體系結(jié)構(gòu)與典型模塊分析,主要介紹了甘肅扶貧網(wǎng)整體結(jié)構(gòu),對(duì)勞務(wù)輸轉(zhuǎn)板塊、“兩后生”板塊、甘肅蘋果價(jià)格走勢(shì)、大蒜價(jià)格走勢(shì)、土豆價(jià)格 走勢(shì)等進(jìn)行了分析。 第四章 文本信息挖掘在甘肅扶貧網(wǎng)中的應(yīng)用,主要討論了系統(tǒng)開(kāi)發(fā)環(huán)境,系統(tǒng)框架、特征表示與提取、文本信息挖掘模塊以及系統(tǒng)運(yùn)行實(shí)現(xiàn)。 第五 章 總結(jié), 總結(jié)本論文所做的一些工作,并對(duì) 本信息挖掘 技術(shù)的發(fā)展前景進(jìn)行了 展望。 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 5 第二章 本信息挖掘 與相關(guān)技術(shù) 重要 延伸, 是工作在互聯(lián)網(wǎng)上的一種挖掘技術(shù)。 隨著互聯(lián)網(wǎng)的迅速擴(kuò)張和發(fā)展,當(dāng)人們?cè)俅蚊鎸?duì)海量數(shù)據(jù)信息的時(shí)候,不會(huì)再變得手足無(wú)措,使用 們可以很輕松的從互聯(lián)網(wǎng) 上獲取相關(guān)的知識(shí)信息。 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的發(fā)展 人類的活動(dòng) 會(huì) 產(chǎn)生大 量隨機(jī)、無(wú)序的 信息數(shù)據(jù), 由于初期所產(chǎn)生的數(shù)據(jù)量很小,結(jié)構(gòu)單一,且 人們只是利用它們來(lái)進(jìn)行簡(jiǎn)單的查詢工作, 需求并不復(fù)雜 4。人么可以對(duì)其進(jìn)行登記造冊(cè),建立簡(jiǎn)單的索引目錄,以便隨時(shí)查找。 但是隨著 互聯(lián)網(wǎng)的飛速發(fā)展, 尤其是 得信息量的劇增,傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不能夠適應(yīng)與日俱增的數(shù)據(jù),而且人們也已經(jīng)不再滿足于對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的查詢,他們對(duì)數(shù)據(jù)本身所含的信息提出了更高的要求。這一切都促使我們需要?jiǎng)?chuàng)建一種 規(guī)則,或者是開(kāi)發(fā)一套程序,用來(lái)管理、搜索、挖據(jù)我們的數(shù)據(jù)庫(kù),從 數(shù)量龐大的、關(guān)系復(fù)雜的數(shù)據(jù)資源中找出各類具有指導(dǎo)意義的、有價(jià)值的信息 。 我們將這種活動(dòng)稱之為數(shù)據(jù)挖掘,顧名思義,數(shù)據(jù)挖掘就是從數(shù)據(jù)庫(kù)中挖掘出有用信息的過(guò)程。 首次形成 數(shù)據(jù)挖掘的概念 是在 上個(gè)世紀(jì) 八十年代的 第十一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議 上 ,當(dāng)時(shí)提出數(shù)據(jù)挖掘 就 是指從 存儲(chǔ)在倉(cāng) 庫(kù)中 的 大量 信息 中 尋找 并發(fā)現(xiàn)一些還未知的、有價(jià)值的信息的 過(guò)程 7。 簡(jiǎn)單來(lái)說(shuō), 數(shù)據(jù)挖掘一般由以下步驟組成: 第一 步是準(zhǔn)備數(shù)據(jù), 它主要是 挑出一些互相之間有關(guān)聯(lián)的數(shù)據(jù)。 第二步是 整合數(shù)據(jù) , 因?yàn)椴煌臄?shù)據(jù)它所分布的地方也是不同的,這一步就是要將 來(lái)自于不同地方的數(shù)據(jù)整合到一塊,以便下一步操作。 第三 步 是 挑選數(shù)據(jù) , 這一步主要是根據(jù)不同任務(wù)的需求,將與之匹配的各種數(shù)據(jù)挑選出來(lái)。 第四 步 是數(shù)據(jù) 的變換, 因?yàn)樗枰臄?shù)據(jù)不僅分布在不同的地方,同樣也以各種各樣的形態(tài)存在著,所以將這些各式各樣的數(shù)據(jù)整合為統(tǒng)一的形態(tài),以便挖掘程序的進(jìn)一步工作。 第五 步就 是 整個(gè)工作的核心了, 數(shù)據(jù) 挖掘, 它利用一些預(yù)先設(shè)定好的程序和蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 6 法則來(lái)分析、提取數(shù)據(jù)之間的關(guān)系 。 第六 步是 評(píng)價(jià), 它 是 根據(jù) 特定的模式評(píng)價(jià)方法來(lái)對(duì)發(fā)現(xiàn)的數(shù)據(jù)進(jìn)行挑選。 第七 步是 返回 結(jié)果 , 這一步工作是直接面向用戶的,是將之前所有 工作的成果都向用戶來(lái)反饋 8。 其實(shí), 從另一方面來(lái)講, 數(shù)據(jù)挖掘 所面對(duì)的對(duì)象又不僅僅局限于數(shù)據(jù)庫(kù),它可以是任何形態(tài)的數(shù)據(jù),所以 綜合上述觀點(diǎn),我們所說(shuō)的數(shù)據(jù)挖掘系統(tǒng) 的流程 主要由 圖 圖 數(shù)據(jù)挖掘系統(tǒng)的主要成分 由數(shù)據(jù)挖掘所面對(duì)的對(duì)象的不同,從而決定了數(shù)據(jù)挖掘程序的多樣化。 按照技術(shù)標(biāo)準(zhǔn)可以 將 現(xiàn)有的 數(shù)據(jù)挖掘技術(shù) 分為三類 : 1、 根據(jù)數(shù)據(jù)庫(kù)類型 分類 數(shù)據(jù)庫(kù)包括了各種各樣的信息數(shù)據(jù) ,種類也非常繁多, 所以根據(jù) 對(duì)象的不同,數(shù)據(jù)挖掘系統(tǒng)也分為以下三 種: 基于數(shù)據(jù)庫(kù)、基于數(shù)據(jù)倉(cāng)庫(kù)以及基于 互聯(lián)網(wǎng) 的數(shù)據(jù)挖掘 等。 2、根據(jù)挖掘發(fā)現(xiàn)知識(shí)的種類分類 由于挖掘程序所面對(duì)的數(shù)據(jù)是千差萬(wàn)別的,那么它們所包含的關(guān)系也是千差萬(wàn)別的, 所以, 根據(jù)挖掘所 產(chǎn)生的信息的 種類 不同 ,數(shù)據(jù)挖掘 又 可 以 分為:分類模型知識(shí)的發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)、序列模式 的發(fā)現(xiàn)、存在 關(guān)系 的發(fā)現(xiàn)、 發(fā)展方向 的 發(fā)現(xiàn)等。 數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和其他信息庫(kù) 數(shù)據(jù)挖掘引擎 模式評(píng)價(jià) 用戶圖形界面 知 識(shí) 庫(kù) 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 7 3、根據(jù)所使用的方法 分類 數(shù)據(jù)庫(kù)結(jié)構(gòu)紛繁復(fù)雜 、數(shù)據(jù)量等信息都會(huì)不太相同,所以挖掘 的方法也會(huì)相應(yīng)的有一些不同。 根據(jù)所 使用的方法, 挖掘 可以分為多種情況 :機(jī)器學(xué)習(xí)方法、面向 數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)、可視化技術(shù)和神經(jīng)網(wǎng)絡(luò)等 9。 只有一點(diǎn)是可以明確的,那就是數(shù)據(jù)挖掘程序永遠(yuǎn)是為了解決實(shí)際問(wèn)題而準(zhǔn)備的, 不同的數(shù)據(jù)所要用的挖掘程序也不盡相同,所以必須要根據(jù)實(shí)際情況來(lái)配置挖掘程序,這樣才能夠滿足不同的需求,這樣的系統(tǒng)才是健壯的、高效的系統(tǒng)。 那么一套完整的數(shù)據(jù)挖掘流程究竟是怎樣的呢? 如圖 示 就 是 一個(gè)完整的數(shù)據(jù)挖掘的 過(guò)程。 首先確定需求,然后根據(jù)原始數(shù)據(jù)源來(lái)準(zhǔn)備數(shù)據(jù),并進(jìn)行預(yù)處理,然后根據(jù)所設(shè)定的程序和法則來(lái)進(jìn)行分析處理,提取相關(guān)信息, 并進(jìn)行結(jié)果的評(píng)價(jià)驗(yàn)證,最后以某種特定的形式反饋 給用戶。 圖 數(shù)據(jù)挖掘過(guò)程圖 在整個(gè)數(shù)據(jù)挖掘過(guò)程中,每一步都是必不可少的。首先要確定問(wèn)題, 任何 應(yīng)用系統(tǒng)都是根據(jù)需求來(lái)設(shè)計(jì)的,不同的需求對(duì)應(yīng)于不同的應(yīng)用系統(tǒng),所以,在要進(jìn)行一個(gè)操作之前,必須要明確它所要面對(duì)的對(duì)象是哪些,提出問(wèn)題,進(jìn)而解決確定問(wèn)題 準(zhǔn)備數(shù)據(jù) 建立模型 驗(yàn)證和評(píng)價(jià)模型 模型實(shí)施 原始數(shù)據(jù)源 預(yù)處理后的數(shù)據(jù) 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 8 問(wèn)題, 根據(jù)實(shí)際來(lái)設(shè)計(jì)方案,這樣可以大大提高效率。 其次就是要準(zhǔn)備好足夠的數(shù)據(jù)來(lái)等待挖掘, 這一步是基礎(chǔ), 要進(jìn)行加工,就必須要 有足夠的 原料 , 而且是質(zhì)量上乘的原料,沒(méi)有好的原料,一切都是空談。第三步就是 建立模型 , 一個(gè)數(shù)據(jù)挖掘工 作的開(kāi)展必須預(yù)先根據(jù)用戶的需求來(lái)建立相應(yīng)的模型,而且要不斷的反復(fù)驗(yàn)證,來(lái)確定哪一種模型對(duì)于解決實(shí)際問(wèn)題最快速,返回的結(jié)果質(zhì)量最高。 第四就是 驗(yàn)證和評(píng)價(jià)模型 , 在建立完數(shù)據(jù)挖掘模型以后,還要對(duì)已建立的模型進(jìn)行驗(yàn)證和評(píng)價(jià),因?yàn)樵谝呀⒌哪P椭杏锌赡艽嬖谝恍┒嘤嗟哪K,這些模塊有可能會(huì)影響到最終結(jié)果的準(zhǔn)確性。 第五就是模型的實(shí)施 , 建立有效的模型,并且經(jīng)過(guò)驗(yàn)證以后,就可以將模型應(yīng)用于實(shí)際的商業(yè)應(yīng)用中,為分析、決策人員提供輔助信息。 其實(shí)數(shù)據(jù)挖掘所做的工作也只是提供一些 依據(jù)信息,不能決定全部,但是在某種程度上它也有可能會(huì)影響 到?jīng)Q策結(jié)果。所以一個(gè)好的數(shù)據(jù)挖掘程序,它是會(huì)自動(dòng)根據(jù)用戶的需求隨時(shí)選擇更加準(zhǔn)確的模型和方法,具體問(wèn)題具體對(duì)待,以實(shí)現(xiàn)最好的結(jié)果。 基于 數(shù)據(jù)挖掘 目前, 數(shù)據(jù)挖掘技術(shù)已經(jīng)非常成熟, 正在 廣泛應(yīng)用與生產(chǎn) 和 生活的各個(gè)方面,有了這樣一個(gè) 好的 基礎(chǔ), 作為數(shù)據(jù)挖掘技術(shù)的一個(gè)延伸 據(jù)挖掘 也得到了長(zhǎng)足的發(fā)展 10。 據(jù)挖掘 從本質(zhì)上來(lái)說(shuō)就是傳統(tǒng)數(shù)據(jù)挖掘的一個(gè)網(wǎng)絡(luò)升級(jí)版,它所面對(duì)的數(shù)據(jù)庫(kù)就是互聯(lián)網(wǎng),所面對(duì)的數(shù)據(jù)就是互聯(lián)網(wǎng)中的 無(wú)數(shù)的 主要就是對(duì)互聯(lián)網(wǎng)中的 現(xiàn) 隱含于其中的、有價(jià)值的信息 的過(guò)程。 而 傳統(tǒng) 的 數(shù)據(jù)挖掘 技術(shù)所針對(duì)的僅僅是本地化的數(shù)據(jù)庫(kù) , 它所面對(duì)的數(shù)據(jù)也是有限的,結(jié)構(gòu)也基本上是統(tǒng)一化的,所以就單單所面對(duì)的數(shù)據(jù)庫(kù)而言,兩者是有著質(zhì)的差別, 應(yīng)用范圍要 比傳統(tǒng)的數(shù)據(jù)挖掘范圍廣得多,當(dāng)然 也要復(fù)雜得多。 互聯(lián)網(wǎng)中的數(shù)據(jù),不僅是數(shù)量龐大,結(jié)構(gòu)不統(tǒng)一,而且最主要的是數(shù)據(jù)時(shí)刻是動(dòng)態(tài)變化著的, 時(shí)也要時(shí)刻監(jiān)視原始數(shù)據(jù)的變化,以便及時(shí)更新;而基于本地?cái)?shù)據(jù)庫(kù)的數(shù)據(jù)挖掘則相對(duì)要簡(jiǎn)單得多,它所面對(duì)的數(shù)據(jù)庫(kù)基本上是穩(wěn)定的,而且結(jié)構(gòu)統(tǒng)一,所要做的就僅是對(duì)現(xiàn)有的 數(shù)據(jù)進(jìn)行分析掃描就可以了,不涉及到監(jiān)視和掃描 10。所以, 且它要高于數(shù)據(jù)挖掘技術(shù)。 事實(shí)上 , 所謂的 就是 通過(guò) 對(duì) 不同頁(yè)面之間的聯(lián)系 進(jìn)行 歸類劃分,以便能夠 實(shí)現(xiàn) 對(duì)相關(guān)結(jié)果的 分析, 并監(jiān)測(cè)其變化 11。 1、 頁(yè)面 數(shù)據(jù) 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 9 因?yàn)榫W(wǎng)頁(yè)是表達(dá)信息的主題,所以一個(gè)網(wǎng)頁(yè)所包含的信息是十分復(fù)雜的,既有文字,也有圖像,甚至可能還有視頻等多種信息。 2、 頁(yè) 面之間的 關(guān)系 整個(gè)網(wǎng)絡(luò)是由一個(gè)一個(gè)的頁(yè)面所組成的,這些頁(yè)面相互之間也有著千絲萬(wàn)縷的聯(lián)系,這種聯(lián)系就是頁(yè)面之間的關(guān)系。 3、服務(wù)器 日志 服務(wù)器的日志就是記錄了針對(duì)服務(wù)器的訪問(wèn)情況,由于這一類型的文件本身就是機(jī)器語(yǔ)言,所以也很容易被計(jì)算機(jī)所理解。 12 如圖 應(yīng)可以 分為三類 : 圖 (1)、內(nèi)容挖掘 的 就是從頁(yè)面中搜索發(fā)現(xiàn)的數(shù)據(jù)中 分析 提取有價(jià)值信息 的過(guò)程 。它可以被分為 兩種策略: 第一種是 直接挖掘 ;第二種是 在其它搜索工具 搜索結(jié)果的基礎(chǔ)上進(jìn)行進(jìn)一步分析 。 名思義所面對(duì)的 就是 它可以對(duì)龐大繁雜的 類,進(jìn)而對(duì)其中的 信息進(jìn)行總結(jié),從而對(duì)整體進(jìn)行一種預(yù)測(cè)。 一個(gè)頁(yè)面包括 了 各種各樣 表達(dá)信息 的數(shù)據(jù), 以及這些數(shù)據(jù)之間的關(guān)系等, 它們之間的數(shù)據(jù)結(jié)構(gòu)和編碼形式都大不一樣,對(duì)這些數(shù)據(jù)的挖掘我們 稱之為 它對(duì)文檔的處理過(guò)程可以分為兩種: 一 種是傳統(tǒng)的數(shù)據(jù)庫(kù)方法, 是指運(yùn)用適當(dāng)?shù)?轉(zhuǎn)化 技術(shù)把 結(jié)構(gòu)相似 的 檔數(shù)據(jù) 轉(zhuǎn)化成為 結(jié)構(gòu)更加 相似的 數(shù)據(jù)集合, 以便能夠適應(yīng)于傳統(tǒng)數(shù)據(jù)庫(kù)的挖掘 方法 ;另外一種是直接掃描分析 據(jù)內(nèi)容提取 關(guān)鍵詞 , 然后根據(jù)關(guān)鍵詞對(duì) 后再針對(duì)分類進(jìn)行掃描分析,提取相關(guān)的信息知識(shí)。 掘 構(gòu)挖掘 容挖掘 用挖掘 本信息挖掘 媒體挖掘 訪問(wèn)模式挖掘 個(gè)性化使用 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 10 (2)、 針對(duì) 面 中的超鏈接和組織結(jié)構(gòu)等進(jìn)行分析 并提取信息的 過(guò)程 就叫做在 互聯(lián)網(wǎng) 中, 無(wú)數(shù)的 互聯(lián)網(wǎng)中沒(méi)有獨(dú)立的頁(yè)面,所以超鏈接就代表了頁(yè)面之間的關(guān)系。超鏈接中的 一些 標(biāo)記 實(shí)質(zhì)上就是一種文檔的表現(xiàn)形式,這種事直觀且顯而易見(jiàn)的。而且由于 這種 標(biāo) 記 的存在 , 使得同類信息不再是以一種形式來(lái)表達(dá),而是通過(guò)標(biāo)記使得一種信息可以以多種方式來(lái)表達(dá),這就造成了互聯(lián)網(wǎng)中信息的多樣化。這是一種非常重要的手段,可以把它充分應(yīng)用于信息的表達(dá)。 13 下面我們介紹兩種算法: 法 和 法;這都是在 法 來(lái)源于兩個(gè)名叫 斯坦福大學(xué)博士生。 它 的原理就是 只關(guān)心 用戶 的點(diǎn)擊行為,而 不關(guān)心 點(diǎn)擊內(nèi)容, 它認(rèn)為 一個(gè)得到 的鏈接數(shù)的 多 少 , 就體現(xiàn)了一種頁(yè)面的重要性。 13 個(gè)出鏈集合 O(i)和一個(gè)入鏈集合 I(i), 出鏈集合和入鏈集合相互關(guān)聯(lián),數(shù)目分別決定了貢獻(xiàn)度的大小,即就是 入鏈集合的數(shù)目越多, 那么該頁(yè)面的重要性也越高;相應(yīng)的 , 如果 出鏈集合的數(shù)目越多, 那么則 表示其 重要性也越低 。 這一高一低就直接表明了該頁(yè)面的重要性。 14 法 來(lái)源于 士。 它的原理就是建立一個(gè) 頁(yè),這個(gè) 戶進(jìn)行檢索的請(qǐng)求通過(guò)向相關(guān)的包含信息的頁(yè)面 15。其實(shí)從本質(zhì)上來(lái)說(shuō), 是它所起的作用卻是比較重要的,它是一個(gè)權(quán)威信息的鏈接的集合。 一般來(lái)說(shuō),一個(gè)好的 威信息 網(wǎng)頁(yè),而一個(gè)好的權(quán)威信息 網(wǎng)頁(yè) 則 是 由 許許多多個(gè)好的 指向。 他們之間是互相聯(lián)系、互相依存的,我們可以利用他們之間的這種關(guān)系來(lái)分析發(fā)現(xiàn)檢索結(jié)構(gòu)與資源之間的關(guān)系。 (3)、 要作用 是從使用 行為所產(chǎn)生的 日志 文件 中 或是所產(chǎn)生的數(shù)據(jù)中 提取 有價(jià)值 的信息的 過(guò)程 。 服務(wù)器會(huì)自動(dòng)記錄下每一次用戶的 訪問(wèn)記錄 和針對(duì) 該 服務(wù)器所進(jìn)行的操作,然后 將這些記錄的行為數(shù)據(jù)生成 文件 保存起來(lái) , 這就是日志,它記錄了服務(wù)器運(yùn)行的相關(guān)信息。 用挖掘 所針對(duì)的就是這些信息,它將這些日志信息從服務(wù)器中提取出來(lái),進(jìn)行分析, 從中發(fā)現(xiàn)訪問(wèn)用戶的訪問(wèn)習(xí)慣,然后將相似的用戶進(jìn)行歸類 15。通過(guò) 用挖掘還可以得出哪些頁(yè)面是受用戶歡迎的,哪些頁(yè)面是無(wú)關(guān)緊要的,有了這些信息,站長(zhǎng)們就可以及時(shí)的根據(jù)實(shí)際需要來(lái)調(diào)整站點(diǎn)的結(jié)構(gòu)和信息方向,進(jìn)一步對(duì)站點(diǎn)進(jìn)行優(yōu)化,使之能夠更蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 11 加適應(yīng)用戶的訪問(wèn)習(xí)慣,能夠更好的服務(wù)于用戶,這對(duì)于一個(gè)站點(diǎn)的發(fā)展是非常重要的。 本信息挖掘 在整個(gè) 據(jù) 挖掘 又是極其重要的一環(huán),它 是指從 互聯(lián)網(wǎng) 文檔中發(fā)現(xiàn)并提取有用的信息的過(guò)程。 其實(shí) , 從本 質(zhì)上來(lái)說(shuō), 據(jù)挖掘和傳統(tǒng) 的文本信息 數(shù)據(jù)挖掘非常的相似。 傳統(tǒng)的 文本信息挖掘 所面對(duì)的只是一些純文本,不包括任何的標(biāo)記符號(hào),所以它的任務(wù)也非常的簡(jiǎn)單,只是從這些大量的純文本中去掃描、發(fā)現(xiàn)一些有用的、未知的信息 16;而 包括了一些標(biāo)記和符號(hào),這些標(biāo)記和符號(hào)用來(lái)表示文本的樣式和表現(xiàn)方式 , 以使得文 本能夠顯示出多樣化 ,這樣,光要分析文本信息,還要分析大量的標(biāo)記和符號(hào)信息,這樣才能夠更好和更全面的反映出挖掘?qū)ο蟮膬r(jià)值 17。所以,由所面對(duì)的對(duì)象所決定, 需要用到的技術(shù) 要比單純的文本信息數(shù)據(jù)挖掘復(fù)雜得多 。 本信息挖掘技術(shù)的原理及其工作流程 據(jù) 挖掘技術(shù) 與傳統(tǒng) 的數(shù)據(jù)挖掘技術(shù) 的區(qū)別主要體現(xiàn)在一下幾個(gè)方面: 第一、 它們 所面對(duì)的 數(shù)據(jù)庫(kù) 不同,傳統(tǒng)的 數(shù)據(jù)挖掘技術(shù)所面對(duì)的 數(shù)據(jù)庫(kù) 中的數(shù)據(jù) 只是一些邊界清晰、結(jié)構(gòu)統(tǒng)一的數(shù)據(jù),而 據(jù) 挖掘所面對(duì)的 數(shù)據(jù)庫(kù)則是整個(gè)互聯(lián)網(wǎng),在這個(gè)互聯(lián)網(wǎng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)則千變?nèi)f化,包含了各種樣式和形態(tài),這些數(shù)據(jù)都 不能 夠 直接被計(jì)算機(jī)所識(shí)別, 不能直接應(yīng)用數(shù)據(jù)挖掘技術(shù),需要將這些數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一形態(tài)和格式的數(shù)據(jù) 才能使用。 第二、 它們所面對(duì)的數(shù)據(jù)庫(kù)規(guī)模不同, 據(jù) 挖掘所 面對(duì) 的是 互聯(lián)網(wǎng) , 其 數(shù)據(jù) 規(guī)模 要 遠(yuǎn) 遠(yuǎn) 超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù) 規(guī)模。 傳統(tǒng)的數(shù)據(jù)庫(kù)挖掘技術(shù)不需要考慮數(shù)據(jù)庫(kù)的發(fā)展規(guī)模,它 只是針對(duì)已經(jīng)建立好的數(shù)據(jù)庫(kù) 進(jìn)行分析、整理和提取有用 信息,而 據(jù) 挖掘 技術(shù) 所要做的不僅僅是分析、整理和提取過(guò)程,它還要針對(duì)海 量的、動(dòng)態(tài) 變化著 的 互聯(lián)網(wǎng) 文本信息進(jìn)行 監(jiān)測(cè)和掃描 ,以便能夠及時(shí)更新。 所以, 須能夠進(jìn)行增量的執(zhí)行,而且要保證數(shù)據(jù)挖掘的效率和 結(jié)果的 準(zhǔn)確性。 所以 根據(jù)上述兩點(diǎn), 直接將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)有的 據(jù)挖掘中是行不通的。 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 12 據(jù)的 挖掘過(guò)程一般有以下幾個(gè)步驟:特征表示、特征提取、識(shí)別 模式和質(zhì)量 評(píng)價(jià) 。 1、特征 的 表示 檔 的本質(zhì)就是標(biāo)記語(yǔ)言,即就是 一組 式文檔 的集合 , 它不僅包含了傳統(tǒng)的純文本,也包含了讓文本表現(xiàn)出各種樣式 的標(biāo)記符號(hào) , 所以 統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù) ,它沒(méi)有嚴(yán)格的 完整性, 也沒(méi)有統(tǒng)一的樣式,在進(jìn)行數(shù)據(jù)挖掘的時(shí)候不能采用傳統(tǒng)的挖掘技術(shù), 必須要采用某種特定 的 模型來(lái) 處理這些千變?nèi)f化的數(shù)據(jù), 將其轉(zhuǎn)化成為 統(tǒng)一的 形式, 然后再進(jìn)行分析,并將能夠代表其本質(zhì)的特征表示出來(lái)。 2、特征提取 特征表示處理完成后的特征空間一般都具有很高的維數(shù),維 數(shù)過(guò)高 的特征并不利于 隨后的數(shù)據(jù) 挖掘,因此,我們必須在特征表示完成以后,通過(guò)適當(dāng)?shù)姆椒▉?lái)降低特征空間 過(guò)高 的維數(shù), 而且要 適當(dāng)?shù)靥崛∩倭康奶卣鳎?以便能夠 提高 效率和準(zhǔn)確度。 3、識(shí)別 模式 使用 特定的 本信息挖掘 的處理方法來(lái)提取知識(shí)模式。提取的 知識(shí)模式就代表了挖掘程序即將處理的文本的特征。 4、評(píng)價(jià)模型質(zhì)量 我們?cè)跀?shù)據(jù)挖掘進(jìn)行完成以后,要對(duì) 結(jié)果進(jìn)行評(píng)價(jià),如果符合預(yù)定的要求,就存儲(chǔ)起來(lái) 或者 以可視化的形式向用戶返回得到的信息 , 如果不滿足預(yù)設(shè)的要求,則返回到某個(gè)出現(xiàn)問(wèn)題的環(huán)節(jié)進(jìn)行新一輪次的挖掘工作。那么怎樣去評(píng)價(jià)信息的質(zhì)量? 評(píng)價(jià)質(zhì)量 的方法 可以 選用 一些常用的評(píng)價(jià)方法,也可以選擇 一些特定的 評(píng)價(jià)模型,這取決于我們 對(duì)目標(biāo)結(jié)果的要求 17。 據(jù) 挖掘 工作的流程大致分為以下三個(gè)步驟 , 如圖 首先是 頁(yè)面數(shù)據(jù) 的收 集和預(yù)處理, 由于從互聯(lián)網(wǎng)上收集的頁(yè)面存在各種各樣的形態(tài),所以收集完成以后要對(duì)這些頁(yè)面進(jìn)行預(yù)處理,處理成統(tǒng)一格式和形態(tài);第二步是提取收集到頁(yè)面的特征,根據(jù)頁(yè)面的實(shí)際內(nèi)容,提取到最適合、最能概括頁(yè)面的特征詞,然后根據(jù)特征詞對(duì)收集到的頁(yè)面進(jìn)行歸類分析;第三步就是使用預(yù)先設(shè)定好的算法進(jìn)行數(shù)據(jù)挖掘,得出初步結(jié)論,然后對(duì)結(jié)論進(jìn)行分析、評(píng)價(jià),最后向用戶返回處理結(jié)果。 蘭州大學(xué)碩士學(xué)位論文 本信息挖 掘中聚類算法在甘肅省扶貧網(wǎng)中的應(yīng)用研究 13 圖 本 數(shù)據(jù) 挖掘的 工作 流程圖 在 全過(guò)程中,每一步都有其 重要的作用,都是必不可少的 。 本信息挖掘技術(shù) 應(yīng)用 涉及到的技術(shù)理論 一、 中文分詞技術(shù) 據(jù) 挖掘所要面對(duì)的是自然語(yǔ)言文本, 所以 怎樣將自然語(yǔ)言轉(zhuǎn)化為機(jī)器能夠識(shí)別的機(jī)器語(yǔ)言,并提取相關(guān)的關(guān)鍵詞,適用相應(yīng)的模型,這就是整個(gè)挖掘工作的核心和基

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論