版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二章知識獲取同濟大學“智能制造工程專業(yè)聯(lián)盟”教材編委會概述數(shù)據(jù)挖掘主要內容機器學習Web挖掘文本挖掘圖挖掘應用案例概述第一節(jié)概述一、知識獲取的概念
二、知識獲取的來源三、知識獲取的過程四、知識獲取的主要方法五、基于神經網(wǎng)絡的知識獲取方法概述一、知識獲取的概念
知識獲取是將某種知識源的專門知識轉換為計算機中知識采用的表示形式。這些專門知識是關于特定領域的特定事實、過程和判斷規(guī)則,而不包括有關領域的一般性知識或關于世界的常識性知識。
知識獲取是構造知識系統(tǒng)的關鍵和主要工作,包括獲取事實和規(guī)則、從規(guī)則中演繹新的事實,精煉和維護知識,構建知識系統(tǒng)需要的完整的、一致的知識庫。概述通常情況下,知識獲取工作的完成需要由相關專家和知識工程師(分析員)全力配合,共同完成。20世紀七八十年代的傳統(tǒng)知識工程時期所采用的知識都是由知識工程師進行手工處理的,這就要求知識工程師具有專家的知識水平,而且知識工程師常常把推理和專家知識結合到整個程序中。如今,知識系統(tǒng)通常將推理過程與知識分開,并將知識放入知識庫中。知識工程師的工作是幫助專家建立知識系統(tǒng),其重點是知識獲取。知識工程師最困難的任務是幫助專家完成知識轉換,構建領域知識以及統(tǒng)一和形式化領域中的概念。專家也可以通過智能編輯程序將其知識直接轉換為可以在計算機中運行的知識。編輯程序必須具有啟發(fā)式對話的能力,并且可以將獲取的知識存儲在知識庫中。概述
為了加快知識獲取的過程,有必要選擇合適的知識獲取工具。知識獲取工具可以是簡單的程序,也可以是復雜的系統(tǒng)。簡單的知識獲取工具就是一種知識庫編輯程序,其功能如下:1)簡化知識庫的輸入并自動進行一些記錄工作。2)檢查語法以避免輸入和語法錯誤。3)保持知識庫的一致性和完整性。復雜的知識獲取工具還應有如下功能:1)根據(jù)現(xiàn)有知識庫中的信息,協(xié)助完成知識庫的輸入和求精。2)直接同領域專家展開會談并提取相關領域知識。3)能夠動態(tài)地檢查知識庫的一致性與完整性。4)機器學習的功能。概述二、知識獲取的來源1、在企業(yè)內部獲取知識
(1)對現(xiàn)有的已掌握的知識進行收集整理
1)面向人的知識源來做收集工作
2)面向文獻資料的知識源來做收集工作
(2)對未來日常工作所產生的知識進行收集整理2、從企業(yè)內網(wǎng)服務器挖掘文檔資料3、從外購專利庫中獲取知識4、互聯(lián)網(wǎng)上獲取知識5、從電子布告欄(BBS)中獲取知識概述三、知識獲取的過程
知識獲取的整個過程可以大致分為四個階段,這四個階段之間存在著重疊和反復。1、明確問題的性質,建立問題求解模型
此階段的目的是建立一個粗略的問題解決模。在此階段,知識工程師和領域專家應密切合作,以確定問題的性質、系統(tǒng)的作用,并梳理解決問題的專家思路。
以下問題通常在這一階段需要著重考慮:
(1)問題求解的目標及其類型;
(2)問題是如何劃分成子問題的;
(3)問題求解中涉及的主要概念及它們的關系;
(4)信息流的特征,哪些信息是由用戶提供的,哪些信息是應當導出的;
(5)問題求解策略。
在此階段,知識工程師利用與領域專家的聯(lián)系來熟悉領域知識并建立該領域的重要概念,從而為下一步工作做好準備概述2、確定知識表示形式,建立問題求解的基本框架
此階段是形式化領域知識的過程。在此過程中,有必要對關鍵概念、信息流特征和子問題進行形式化,并根據(jù)問題的性質選擇合適的系統(tǒng)框架或專家系統(tǒng)構建工具。形式化過程中有三個主要因素:假設空間、基本過程模型和數(shù)據(jù)表征。為了理解假設空間的結構,必須對概念進行形式化,確定它們之間的關系,并確定概念的粒度和結構。因此應該關注以下問題:(1)將概念描述為結構化對象或將其視為基本實體;(2)概念之間的因果關系或時空關系是否重要,是否應明確表達,以及假設空間是否有限;(3)假設空間由預定類型組成或通過某種過程生成;(4)是否應考慮假設的層次;(5)是否存在與最終假設和中間假設有關的不確定性或其它決定性因素;(6)是否應考慮不同的抽象級別。概述3、實現(xiàn)知識庫,建立原型專家系統(tǒng)
在形式化階段,已經明確了知識表示形式和問題求解策略,同時也已經選定了系統(tǒng)框架或構造工具,接下來便是把前一階段形式化的知識映射到選定的表示框架中。前一階段產生的形式化知識與選定的表示框架所要求的數(shù)據(jù)結構、推理規(guī)則與控制策略可能有不匹配之處,這一階段要消除這些不匹配實現(xiàn)原型知識庫。如果這些不匹配不能消除,則要考慮重新選擇系統(tǒng)框架或構造工具。4、測試與精煉知識庫這一階段的任務是通過運行實例發(fā)現(xiàn)知識庫和推理機制的缺陷。通常出現(xiàn)的導致性能不佳的因素有以下幾種:(1)輸入輸出特性,即數(shù)據(jù)獲取與結論表示方面存在缺陷。例如:含義模糊、提問難于理解,使得存在錯誤或不充分的數(shù)據(jù)進入系統(tǒng)。結論過多或者太少,沒有適當?shù)亟M織和排序,或者詳細的程度不適當。(2)推理規(guī)則有錯誤、不一致或不完備。(3)控制策略有問題,不是按專家采用的“自然順序”解決問題。概述
在測試過程中,實例的選擇應考慮到所有方面,包括“典型”情況和“邊緣”情況。根據(jù)測試結果,確定是否修改原型系統(tǒng)。修改過程包括重新實現(xiàn)、重新形式化,甚至重新定義問題的性質。測試和修改過程可以重復進行,直到系統(tǒng)達到令人滿意的性能,這一過程被稱為求精。求精過程可大致分為五個步驟,如下圖所示。概述四、知識獲取的主要方法
知識獲取是知識工程師和領域專家共同合作的過程,可以分為交互式和非交互式知識獲取過程。交互式(也稱為主動式)是當知識工程師提出詢問時,領域專家回答,在交互中獲取領域知識。非交互式(也稱為被動式)中知識工程師不會干擾領域專家的工作,而是以觀察方式獲取領域知識。這種獲取知識的方式比交互式更難,但在某些情況下只能用這種方式完成。以下是知識獲取的一些主要方法。
1、面談法
2、模擬法
3、口語記錄分析
4、多維度量法
5、概念分類法
上述每種方法都有其自身的特點,但也有其局限性。由于人類專家知識的多樣性和復雜性,經常需要采用多種不同的方法來提取專家知識。概述五、基于神經網(wǎng)絡的知識獲取方法
常用的實現(xiàn)知識自動獲取的方法是基于神經網(wǎng)絡的知識獲取方法,該方法能夠有效解決專家系統(tǒng)的知識獲取瓶頸問題。人工神經網(wǎng)絡是一種具有自組織、自學習和自適應特點的大規(guī)模信息并行處理系統(tǒng),能夠在智能系統(tǒng)中很好地自動獲取知識,即通過實例學習獲取知識,基于神經網(wǎng)絡的知識求精以及從神經網(wǎng)絡提取規(guī)則知識。1、通過學習獲取知識
神經網(wǎng)絡通過學習訓練實現(xiàn)知識獲取。學習過程是先根據(jù)應用問題選擇神經網(wǎng)絡的模型和結構,再選擇學習算法,對求解問題有關的樣本進行學習,通過學習調整神經網(wǎng)絡的聯(lián)接權值,完成知識的自動獲取。
目前,知識獲取最常用的神經網(wǎng)絡是采用BP算法的多層前饋神經網(wǎng)絡,它由輸入層、隱含層和輸出層構成。其中隱含層可以有一層或多層,相鄰層的神經元之間相互連接,但同一層的神經元之間不相互連接。輸入信號從輸入層向前傳播到輸出層,成為輸出信號,這種神經網(wǎng)絡也常被稱為BP神經網(wǎng)絡。概述概述2、基于神經網(wǎng)絡的知識求精
知識求精是知識獲取不可缺少的一步。通常情況下,得到的初始知識庫常常存在一些問題,比如知識不完全、知識之間不一致、有的知識不正確等,因此需要對初始知識庫調試、修改與補充。
基于神經網(wǎng)絡的知識求精方法的流程如圖2-3所示,圖中的初始規(guī)則集即初始知識庫,訓練樣本即專家例證,由3個步驟組成:第1步:將初始規(guī)則集轉化為初始神經網(wǎng)絡。第2步:用訓練樣本和學習算法訓練初始神經網(wǎng)絡,也就是知識的求精過程。第3步:提取求精后的規(guī)則知識。概述3、從神經網(wǎng)絡中提取規(guī)則
通過神經網(wǎng)絡獲取的知識是分布式的、隱式的、難于理解的,因此從神經網(wǎng)絡提取規(guī)則十分重要,下面介紹一種用神經網(wǎng)絡來獲取規(guī)則知識的典型方法。首先用如圖2-4
所示的三層BP神經網(wǎng)絡來學習訓練樣本,并用公式(2-1)獲取輸出節(jié)點b和輸入節(jié)點a之間的邏輯相關程度度量(越小,a和b之間相關程度越大)
式中,是原始輸入節(jié)點a和隱含層節(jié)點j之間的連接權值,是附加輸入節(jié)點b(對應于某個輸出節(jié)點)和隱含層節(jié)點j之間的連接權值。
然后用一個如圖2-5所示的單層神經網(wǎng)絡對樣本進行學習,獲取輸出節(jié)點b與輸入節(jié)點a之間的邏輯不相關(無關)程度度量Weightab;最后將Weightab和SSEab的乘積Productab作為a和b之間的因果關系度量。若Productab接近于0,則a是b的邏輯前提,將b的所有邏輯前提(ai)進行“邏輯與”,得到如下的邏輯規(guī)則:概述數(shù)據(jù)挖掘第二節(jié)數(shù)據(jù)挖掘一、
數(shù)據(jù)挖掘概述
二、
數(shù)據(jù)挖掘的構成和分類
三、
數(shù)據(jù)挖掘的方法四、
數(shù)據(jù)挖掘的過程五、
數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘起源于知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),是知識發(fā)現(xiàn)的一個關鍵步驟。1989年8月,GregoryI.Piatetsky-Shapiro等人在美國底特律的國際人工智能聯(lián)合會議首次提出知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的概念。知識發(fā)現(xiàn)的過程是一種以知識用戶為中心的人機交互探索過程,通過從數(shù)據(jù)中識別有效的、潛在有用的、最終可理解的模式。它包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)過濾、數(shù)據(jù)轉換、數(shù)據(jù)挖掘、模式評估、知識表示和其他處理過程。每個步驟相互影響并形成一個螺旋上升的過程。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)最重要的一步。有時可以不加選擇地使用知識發(fā)現(xiàn)和數(shù)據(jù)挖掘。數(shù)據(jù)挖掘數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的構成和分類一個典型的數(shù)據(jù)挖掘系統(tǒng)由以下主要部分組成:(1)數(shù)據(jù)倉庫或其他信息庫:這是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、展開的表或其他類型的信息庫,可以在數(shù)據(jù)上進行數(shù)據(jù)清理或集成。(2)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器:根據(jù)用戶的數(shù)據(jù)挖掘請求數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器負責提取相關數(shù)據(jù)。(3)知識庫:領域知識,用于指導搜索或評估結果模式的興趣度。(4)數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)最基本的部分,由一組功能模塊組成,用于特征、關聯(lián)、分類、聚類、演變和偏差分析。(5)模式評估:該部分通常使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上,它是使用興趣度閾值過濾發(fā)現(xiàn)的模式。(6)圖形用戶接口:該模塊使用戶和挖掘系統(tǒng)對接,允許用戶與系統(tǒng)進行交互,制定數(shù)據(jù)挖掘查詢或搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結果進行探索式數(shù)據(jù)挖掘。此外,該成分還允許用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結構,評估挖掘的模式,以不同的形式對模式進行可視化處理。數(shù)據(jù)挖掘三、數(shù)據(jù)挖掘的方法
利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法或關鍵技術主要有:關聯(lián)分析、時序模式、聚類、分類、偏差檢測和預測等6項,它們分別從不同的角度對數(shù)據(jù)進行挖掘,用于描述對象內涵、概括對象特征、發(fā)現(xiàn)數(shù)據(jù)規(guī)律、檢測異常數(shù)據(jù)等。1、關聯(lián)分析關聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一種重要方法。若兩個或多個數(shù)據(jù)項的取值之間重復出現(xiàn)且概率很高時,那么就可以斷定它們之間存在著某種關聯(lián),因而可以建立起這些數(shù)據(jù)項的關聯(lián)規(guī)則。2、時序模式通過時間序列發(fā)現(xiàn)具有高重復概率的模式,并在此強調時間序列的影響。在時序模式下,有必要找出一個規(guī)則,即在一定的最短時間內該比率始終高于一定的最小百分比(閾值)。數(shù)據(jù)挖掘4、分類
分類在數(shù)據(jù)挖掘中使用最廣泛。在聚類的基礎上,分類是找出所確定類的概念描述,該類描述表示此類數(shù)據(jù)的整體信息。通常,它由規(guī)則或決策樹模式表示,可以將數(shù)據(jù)庫中的元組映射到給定類別。5、偏差檢測
數(shù)據(jù)庫中可能存在很多異常情況,因此找到這些異常情況以引起人們的注意也很重要。偏差包括以下內容:分類異常示例、模式異常、觀測結果與模型預測的偏差、量值隨時間變化。6、預測預測是使用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并使用該模型預測未來數(shù)據(jù)的類型和特征的手段。3、聚類
數(shù)據(jù)庫中的數(shù)據(jù)可以根據(jù)其內部的距離關系劃分為一系列有意義的子集,即類。簡而言之,就是在原本沒有劃分類別的數(shù)據(jù)集中,根據(jù)其內容的“距離”的概念集成了多個類別。在同一類別中,個體之間的距離較小,而在不同類別中的個體之間的距離較大。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘的過程一般來說,數(shù)據(jù)挖掘過程有五個步驟:確定挖掘目的、數(shù)據(jù)準備、進行數(shù)據(jù)挖掘、結果分析、知識的同化。圖2-7
數(shù)據(jù)挖掘過程有五個步驟數(shù)據(jù)挖掘五、數(shù)據(jù)挖掘的發(fā)展目前,對KDD的研究主要圍繞理論、技術和應用這三個方面展開。多種理論與方法的合理整合是大多數(shù)研究者采用的有效技術。
21世紀以來國內外數(shù)據(jù)挖掘的新發(fā)展主要是對發(fā)現(xiàn)知識的方法的進一步研究,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和改進提高;KDD與數(shù)據(jù)庫的緊密結合;傳統(tǒng)的統(tǒng)計學回歸方法在KDD中的應用;對海量數(shù)據(jù)的處理;將粗糙集和模糊集理論融合用于知識發(fā)現(xiàn);以及研究中文文本挖掘的理論模型與實現(xiàn)技術等。
在應用構造智能專家系統(tǒng)方面主要體現(xiàn)在KDD商業(yè)軟件工具從解決問題的孤立過程轉向建立解決問題的整體系統(tǒng),主要用戶有保險公司、大型銀行和銷售業(yè)等。許多計算機公司和研究機構都非常重視數(shù)據(jù)挖掘的開發(fā)應用,IBM和微軟都相繼成立了相應的研究中心。使用數(shù)據(jù)挖掘技術解決大型或者復雜的應用問題是數(shù)據(jù)挖掘研究領域重要的任務。機器學習第三節(jié)機器學習一、
機器學習概述二、
機器學習的發(fā)展三、
機器學習的方法四、
機器學習的過程五、
機器學習在數(shù)據(jù)挖掘領域的應用機器學習一、機器學習概述
機器學習(MachineLearning)是一種研究學習的理論,其通過計算機模型,模擬或實現(xiàn)人類的學習行為,給予計算機學習能力,進而獲取新的知識或技能,或者重新組織已有的知識結構,使之不斷改善自身性能的過程、原理和方法。機器學習是人工智能的研究核心,是計算機具有智能的重要標志。機器學習也是一種知識獲取手段,由計算機取代部分知識工程師和領域專家的工作。
人們研究機器學習的目的主要是希望理論上能夠從認知科學的角度研究人類學習的機理,工程上開發(fā)具有學習能力的計算機系統(tǒng)。二、機器學習的發(fā)展數(shù)值表示和參數(shù)調整概念學習和語言獲取歸納學習、類比學習等神經網(wǎng)絡知識發(fā)現(xiàn)和數(shù)據(jù)挖掘20世紀50年代中期20世紀60年代初期20世紀70年代中后期20世紀80年代中后期21世紀初期機器學習三、機器學習的方法
與人類有著多種多樣的學習方法一樣,機器學習也有很多方法。根據(jù)機器學習所采用的學習策略、知識表示方法及其應用領域,可把機器學習方法劃分為6類:1、機械學習(rotelearning)2、通過采納建議學習(learningbyadvicetaking)3、通過例子學習((learningfromexamples)4、通過類比學習(learningbyanalogy)5、基于解釋的學習(explanation-basedlearning)6、通過觀察學習((learningfromobservationanddiscovery)機器學習四、機器學習的過程機器學習系統(tǒng)的一般結構。機器學習五、機器學習在數(shù)據(jù)挖掘領域的應用
在大數(shù)據(jù)環(huán)境中,機器學習算法的設計與實現(xiàn)涉及很多方面,包括分布式計算,數(shù)據(jù)流技術,云技術等。結合這些技術,機器學習算法可以有效地處理數(shù)億個數(shù)據(jù)對象,并快速訓練模型,從而獲得有價值的知識。機器學習技術已廣泛用于企業(yè)數(shù)據(jù)挖掘中,例如推薦系統(tǒng)、智能語音識別、搜索引擎等。大數(shù)據(jù)的發(fā)展,關鍵技術和評估指標的開發(fā)與研究對機器學習方法的研究工作提出了新的挑戰(zhàn)和要求。
當前,大數(shù)據(jù)技術已廣泛應用于電信、金融和醫(yī)療保健等許多行業(yè)和領域。在實際應用中如何從高維、稀疏、異構和動態(tài)的大數(shù)據(jù)中獲取模式,迫切需要深層機器學習的理論和技術來進行指導。由此,可以預見,以下幾個領域必然會受到未來的機器學習研究的關注:(1)超高維數(shù)據(jù)采樣和特征提取。(2)借助Hadoop和Spark等分布式計算平臺設計和實現(xiàn)分布式機器學習算法。(3)研究機器學習算法的泛化能力,執(zhí)行效率和可理解性。Web挖掘第四節(jié)Web挖掘一、
Web挖掘概述二、
Web挖掘的分類三、
Web挖掘的過程四、
Web挖掘技術的應用Web挖掘一、Web挖掘概述
隨著Internet/Web技術的快速普及和發(fā)展,如何在這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息,成為數(shù)據(jù)挖掘研究的熱點,由此產生了Web挖掘。Web挖掘是指通過數(shù)據(jù)技術在萬維網(wǎng)(WWW)數(shù)據(jù)中發(fā)現(xiàn)潛在和有用的模式或信息。Web挖掘研究涵蓋了許多研究領域,包括數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計、機器學習和神經網(wǎng)絡等。與傳統(tǒng)的數(shù)據(jù)和數(shù)據(jù)倉庫不同,Web上的信息是半結構化或非結構化的,并且是動態(tài)的,易于混淆。它必須經過必要的數(shù)據(jù)處理,否則很難直接從網(wǎng)頁上進行數(shù)據(jù)挖掘。二、Web挖掘的分類
根據(jù)在挖掘過程中使用的數(shù)據(jù)類別不同,Web挖掘通常可以被分成如下三種類別:Web內容挖掘、Web用法挖掘、Web結構挖掘。
Web內容挖掘是一個從Web內容、數(shù)據(jù)、文檔中獲取潛在的、有價值的知識或模式的過程。Web用法挖掘是挖掘用戶訪問時Web在服務器留下的訪問記錄,挖掘的對象是保留在服務器上的日志信息,也稱Web訪問信息挖掘。Web結構挖掘是從WWW的組織結構和鏈接關系中獲取知識,主要通過對網(wǎng)站結構的分析、變形和歸納,對網(wǎng)頁進行分類,以方便信息搜索。Web挖掘三、Web挖掘的過程
1.查找資源:從目標Web文檔中得到數(shù)據(jù),除了在線Web文檔,還包括電子郵件、電子文檔新聞組以及網(wǎng)站的日志數(shù)據(jù),甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)。
2.信息選擇和預處理:從取得的Web資源中剔除無用信息,并對信息進行必要的整理。例如,從Web文檔中自動去除廣告鏈接,去除多余格式標記、自動識別段落或字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關系表。
3.模式發(fā)現(xiàn):在同一個站點內部或在多個站點之間自動進行模式發(fā)現(xiàn)。
4.模式分析:驗證、解釋上一步驟產生的模式。該任務可以是機器自動完成,也可以是與分析人員進行交互完成Web挖掘四、Web挖掘技術的應用當前,Web數(shù)據(jù)挖掘的研究重點已從理論轉向應用,Web數(shù)據(jù)挖掘在以下實際生活領域被普及:(1)電子商務(2)網(wǎng)頁搜索(3)知識定向服務(4)政府部門文本挖掘第五節(jié)文本挖掘一、
文本挖掘的概述二、
文本挖掘的發(fā)展三、
文本挖掘的方法四、
文本挖掘的過程五、
文本挖掘的研究與應用文本挖掘一、文本挖掘的概述
文本挖掘是指從文本文件中提取有價值的知識,并利用它更好的組織信息的過程。通過使用基于案例的推理,可能性理解和其他神經網(wǎng)絡智能算法,并結合文字處理技術,通過分析大量非結構化文本源(例如文檔、電子表格、客戶電子郵件、網(wǎng)頁等),提取或標記關鍵字的概念以及文字之間的關系,根據(jù)內容對文檔進行分類,從而發(fā)現(xiàn)和提取隱藏的未知知識,最終形成用戶可以理解的有價值的信息和知識。文本挖掘是知識獲取的一個分支,是人工智能研究領域中自然語言理解和計算機語言學的結合用于基于文本信息的知識發(fā)現(xiàn),是一個跨學科領域,涉及許多技術,例如數(shù)據(jù)挖掘、信息檢索、機器學習、自然語言處理、計算語言學、統(tǒng)計數(shù)據(jù)分析、線性幾何、概率論和圖論等。二、文本挖掘的發(fā)展
文本挖掘的產生主要是人們發(fā)現(xiàn)傳統(tǒng)的信息檢索技術不能滿足海量數(shù)據(jù)的處理需求。特別是隨著互聯(lián)網(wǎng)時代的到來,用戶可以獲得大量的非結構化文本數(shù)據(jù),包括技術數(shù)據(jù)、業(yè)務信息、新聞報道、娛樂信息和其他類別的文檔,這些數(shù)據(jù)構成了一個巨大的異構開放的分布式數(shù)據(jù)庫。文本挖掘三、文本挖掘的方法
目前,對于自然語言處理的方法主要包含三類:基于語言學和人工智能的方法、基于語料庫和統(tǒng)計語言模型的方法、混合的方法。第一種方法是一種理性主義方法,又稱為基于規(guī)則的方法;第二種方法是一種經驗主義方法,又稱為基于統(tǒng)計的方法;混合的方法是指理想主義方法和經驗主義方法的有機結合。從語句分析的角度講,文本知識獲取的方法主要有兩種:基于語句分析的方法和基于語境的方法。文本分析法首先對文本進行詞性標注,然后將出現(xiàn)頻率高的詞語識別為領域概念,最后人工驗證概念以及人工標注。從學習的角度講,文本知識獲取方法主要有機器學習方法和基于記憶的方法。采用的機器學習算法主要有:關聯(lián)學習算法和自底向上學習算法。四、文本挖掘的過程文本挖掘處理主要經過三個階段:文檔預處理、特征信息提取和數(shù)據(jù)挖掘。文本挖掘五、文本挖掘的研究與應用
拉丁語系國家的研究人員最早展開了對文本挖掘的研究。他們的研究主要包括了諸如文本的表示方法以及對相關模型的建立;結合自然語言理解領域的基礎進行更深層次語義挖掘的相關研究;針對文本數(shù)據(jù)高維性問題的特征提取以及降維方法的研究;針對目標特點選擇不同類型的挖掘算法,來解決文本的分類、聚類問題;結合不同領域的文本挖掘的應用,如應用在金融證券領域的股票預測、科學研究領域文獻的挖掘以及Internet上的主題檢測、Web挖掘、自動問答等。目前使用比較廣泛的文本挖掘系統(tǒng)有KDT、IBMBusinessIntelligence、TextVis等。
國內的文本挖掘研究除緊跟國際前沿外,有相當一部分研究集中在如何充分利用中文文本特點進行更好的文本挖掘上。圍繞中文文本的處理,特別是結合自然語言理解技術,找到適合中文文本的快速高效方法從而更好地設計和開發(fā)中文文本挖掘應用。中國知網(wǎng)的學位論文學術不端行為檢測系統(tǒng),拓爾思的文本檢索系統(tǒng)TRS,香港科技大學的中文自動問答系統(tǒng)等都是針對不同目標實施的不同的文本挖掘應用實例。圖挖掘第六節(jié)圖挖掘一、
圖挖掘概述二、
圖挖掘的主要內容三、
圖挖掘的應用四、
圖挖掘的發(fā)展圖挖掘一、圖挖掘概述1、圖挖掘的概念
圖挖掘(GraphMining)是指利用圖模型從海量數(shù)據(jù)中發(fā)現(xiàn)和提取有用知識和信息的過程。圖挖掘已廣泛應用于商務管理、市場分析、生產控制、科學探索和工程設計等領域。圖挖掘所涉及的領域主要是圖的聚類、圖的分類和頻繁子圖(子結構)挖掘等,其中頻繁子圖挖掘的目的是找到在圖集中頻繁出現(xiàn)的子圖集模式。2、圖數(shù)據(jù)的定義
圖是最常用的數(shù)據(jù)結構之一,能夠描述事物之間錯綜復雜的關系。圖是由若干節(jié)點和連接點與點之間的邊所構成的結構,用于描述節(jié)點對象之間的特定關系,每一個節(jié)點代表一個對象,用邊來表示節(jié)點之間的確定關系。各節(jié)點的位置可以變化,而且點與點之間的連線也可以為任意距離,并沒有長短之分,具有拓撲性質。在圖論中,網(wǎng)絡是頂點和邊的集合,通常用G=(V,E)表示,V表頂點,E表示邊。頂點代表現(xiàn)實世界中的各類實體,兩點的之間的邊表示兩個實體的關聯(lián)關系。作為一種常見的數(shù)據(jù)結構,采用圖論知識來描述各類實體間的數(shù)據(jù)關系,形式上更生動準確易于理解。圖挖掘
邊的存在可能性為1表示邊一定存在。因此,確定圖(定義2.1)可以看作所有邊的存在可能性皆為1的特殊的不確定圖。不確定圖模型圖挖掘右圖表明了圖同構與子圖同構的不同。其中,圖(b)、圖(a)同構,圖(c)、(a)子圖同構圖。圖同構與子圖同構圖挖掘二、圖挖掘的主要內容1、圖的匹配2、圖數(shù)據(jù)關鍵字查詢3、頻繁子圖挖掘4、圖的聚類5、圖的分類三、圖挖掘的應用1、社交網(wǎng)絡2、隱私保護3、軟件缺陷定位4、生物網(wǎng)絡5、Web挖掘圖挖掘四、圖挖掘的發(fā)展
近年來,越來越多的圖數(shù)據(jù)結構在我們的日常生活中出現(xiàn),例如社交網(wǎng)絡、生物信息學領域、Web應用等,這對圖數(shù)據(jù)挖掘提出了更多的新要求:(1)如何有效、高效管理大量的圖數(shù)據(jù)(圖數(shù)據(jù)庫);(2)如何針對現(xiàn)實的數(shù)據(jù)利用圖結構進行建模;(3)如何從圖數(shù)據(jù)中挖掘出感興趣的模式,如頻繁模式、顯露模式等。同時,在過去的數(shù)年中,圖數(shù)據(jù)挖掘的相關論文在數(shù)據(jù)挖掘領域的主流會議,如ICDM、SigKDD、SiamDM等中有逐年遞增的趨勢;圍繞圖挖掘的主題展開的Workshop越來越多,包括有關鏈接分析和群組檢測、多維數(shù)據(jù)挖掘的KDDWorkshop以及有關圖、樹、序列挖掘的EuropeanWorkshop。同時,越來越多的國內外重要期刊明確提出對有關圖挖掘方面的文章的征集。應用案例第七節(jié)應用案例案例一、知識獲取在制造業(yè)的應用:數(shù)控機床ICAID系統(tǒng)數(shù)控機床ICAID系統(tǒng)是面向機床行業(yè)提供的一種基于知識的工業(yè)設計解決方案,系統(tǒng)的使用者是機床的設計主體,包括工業(yè)設計師與機床工程師。其目的是針對裝備制造關鍵共性技術-工業(yè)設計技術,進行研究、應用,發(fā)揮提升產品質量的作用,解決機床行業(yè)和制造業(yè)的設計問題。該系統(tǒng)以基于因特網(wǎng)的計算機輔助工業(yè)設計概念(InternetbasedcomputeraidedindustrialdesignICAID)為原型和研究基礎,通過引入基于網(wǎng)絡的設計和基于知識的設計等理念和技術,在網(wǎng)絡環(huán)境下建立一個工業(yè)設計師和機床工程師共同參與的、由知識驅動的計算機輔助工業(yè)設計系統(tǒng),系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學創(chuàng)新教育論壇組織方案
- 兒童醫(yī)院信息化培訓課程設計方案
- 2026年?;钒踩a知識題庫含答案(培優(yōu))
- 2026年朔州職業(yè)技術學院單招(計算機)考試參考題庫附答案
- 2026年浙江安防職業(yè)技術學院輔導員招聘備考題庫附答案
- 礦山項目生命周期管理方案
- 2026年科研項目保密員保密管理考試試題及答案參考
- 2026年貴州省黔南布依族苗族自治州單招職業(yè)適應性測試模擬測試卷附答案
- 2026年重慶應用技術職業(yè)學院單招(計算機)考試備考題庫必考題
- 生物醫(yī)藥行業(yè)生產研發(fā)布局
- 人力資源服務安全培訓
- 生物質能燃料供應合同
- GB/T 45078-2024國家公園入口社區(qū)建設指南
- 新版中國食物成分表
- 安全生產標準化基本規(guī)范評分表
- 附件3:微創(chuàng)介入中心評審實施細則2024年修訂版
- 嗜血細胞綜合征查房
- 財務共享中心招聘筆試環(huán)節(jié)第一部分附有答案
- 安徽紅陽化工有限公司年產1萬噸有機酯(三醋酸甘油酯)、5500噸醋酸鹽系列產品擴建項目環(huán)境影響報告書
- 汽車各工況下輪轂軸承壽命計算公式EXCEL表
- 教務工作的培訓內容
評論
0/150
提交評論