版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章緒論1.1數(shù)據(jù)概述1.2數(shù)據(jù)與社會(huì)變革1.3數(shù)據(jù)挖掘的定義1.4數(shù)據(jù)挖掘的發(fā)展與應(yīng)用1.5數(shù)據(jù)挖掘的任務(wù)與挑戰(zhàn)1.6本書內(nèi)容與組織本章小結(jié)
1.1
數(shù)據(jù)概述
1980年,美國著名未來學(xué)家阿爾溫·托夫勒闡述了科技發(fā)展所引起的社會(huì)變化及其未來的發(fā)展趨勢(shì),并且出版了鴻篇巨作《第三次浪潮》(TheThirdWave)。他認(rèn)為人類社會(huì)正進(jìn)入一個(gè)嶄新的時(shí)期———第三次浪潮文明時(shí)期。如圖1-1所示,浪潮文明一共有三次,在第三次浪潮文明之前,人類已經(jīng)經(jīng)歷了兩次浪潮文明。圖1-1
人類歷史文明發(fā)展的三次浪潮
第一次浪潮文明是“農(nóng)業(yè)革命”,歷時(shí)數(shù)千年,帶領(lǐng)人類從原始野蠻的漁獵時(shí)代進(jìn)入以農(nóng)業(yè)為基礎(chǔ)的新時(shí)代,其特點(diǎn)是家庭式的農(nóng)耕和定居生活。第二次浪潮文明是“工業(yè)革命”,歷時(shí)三百年?!肮I(yè)革命”摧毀了古老的文明社會(huì),改變了人類的生產(chǎn)方式,并在第二次世界大戰(zhàn)后達(dá)到頂峰,其特點(diǎn)是化石燃料成為能源基礎(chǔ)、科學(xué)技術(shù)發(fā)展突飛猛進(jìn)、協(xié)作
方式變?yōu)楣S式等。第三次浪潮文明是一個(gè)以電子工業(yè)、宇航工業(yè)、海洋工業(yè)、遺傳工程組成工業(yè)群的新時(shí)期,其特點(diǎn)是全球化協(xié)作。在第三次浪潮文明中,社會(huì)進(jìn)步不單以技術(shù)發(fā)展水平和物質(zhì)生活標(biāo)準(zhǔn)來衡量,豐富多彩的文化生活水平也成為新的指標(biāo)。
影響數(shù)據(jù)及其應(yīng)用的兩大因素包括大容量存儲(chǔ)設(shè)備與高性能計(jì)算機(jī),其中大容量存儲(chǔ)設(shè)備為大數(shù)據(jù)存儲(chǔ)奠定基礎(chǔ),高性能計(jì)算機(jī)為海量數(shù)據(jù)分析提供計(jì)算平臺(tái)。在存儲(chǔ)器方
面,磁盤容量已從兆字節(jié)級(jí)別發(fā)展到現(xiàn)在的太字節(jié)級(jí)別,這為大數(shù)據(jù)的自由存儲(chǔ)與分析提供了物理基礎(chǔ)。
基于大容量存儲(chǔ)設(shè)備和高性能計(jì)算機(jī)方面的發(fā)展,移動(dòng)互聯(lián)網(wǎng)應(yīng)運(yùn)而生,隨之產(chǎn)生的又一重要概念就是大數(shù)據(jù)。
在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將基于數(shù)據(jù)及其分析而產(chǎn)生,而非以往的經(jīng)驗(yàn)和直覺。對(duì)此,哈佛大學(xué)社會(huì)學(xué)教授加里·金指出:“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程。”加里·金的發(fā)言絕不是空穴來風(fēng),在21世紀(jì),信息感知和采集終端負(fù)責(zé)實(shí)時(shí)收集海量數(shù)據(jù),以云計(jì)算為代表的大型計(jì)算平臺(tái)則對(duì)所收集到的數(shù)據(jù)進(jìn)行有效分析,借此構(gòu)建起一個(gè)與物質(zhì)世界相平行的數(shù)據(jù)世界。目前,這樣的技術(shù)已經(jīng)成功應(yīng)用到政務(wù)、商業(yè)、城市交通、醫(yī)療、教育等各行各業(yè),如圖1-2所示。圖1-2數(shù)據(jù)已深度融入社會(huì)
1.2數(shù)據(jù)與社會(huì)變革
1.2.1-數(shù)據(jù)改變思維模式數(shù)據(jù)已被廣泛應(yīng)用在經(jīng)濟(jì)、政治、文化和生活的方方面面,對(duì)人們的行為、生活和交往方式都造成了深遠(yuǎn)的影響。與此同時(shí),人們的生產(chǎn)、生活方式也隨之發(fā)生了改變,最終導(dǎo)致傳統(tǒng)思維的崩塌及新思維方式的形成。
這體現(xiàn)在以下三個(gè)方面:
(1)決策使用全部數(shù)據(jù),而非部分?jǐn)?shù)據(jù)。
(2)接受以不精確性取代精確性。
(3)接受關(guān)聯(lián)性,拋棄因果性。
1.2.2數(shù)據(jù)改變社會(huì)模式
在信息化社會(huì),數(shù)據(jù)發(fā)展主要呈現(xiàn)出資源化、基礎(chǔ)化、系統(tǒng)化等特點(diǎn)。
(1)資源化:數(shù)據(jù)成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源,并已成為大家爭(zhēng)相搶奪的新焦點(diǎn)。
(2)基礎(chǔ)化:如同計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪技術(shù)革命的基礎(chǔ)。
(3)系統(tǒng)化:大數(shù)據(jù)世界不只是一個(gè)單一的、巨大的計(jì)算機(jī)網(wǎng)絡(luò),而是一個(gè)由大量活動(dòng)構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng),一個(gè)由終端設(shè)備提供商、基礎(chǔ)設(shè)施提供商、網(wǎng)絡(luò)服務(wù)提供商、網(wǎng)絡(luò)接入服務(wù)提供商、數(shù)據(jù)服務(wù)使用者、數(shù)據(jù)服務(wù)提供商、觸點(diǎn)服務(wù)商、數(shù)據(jù)服務(wù)零售商等一系列參與者共同構(gòu)建的生態(tài)系統(tǒng)。
1.2.3數(shù)據(jù)改變國家戰(zhàn)略
2013年,百度公司總裁李彥宏指出:“大數(shù)據(jù)不僅是互聯(lián)網(wǎng)企業(yè)的事,更應(yīng)是國家的事,要從國家層面發(fā)展大數(shù)據(jù),實(shí)施網(wǎng)絡(luò)安全與信息化戰(zhàn)略。”就全球來看,西方發(fā)達(dá)國家多年前就積極主動(dòng)開放大數(shù)據(jù),甚至為開放大數(shù)據(jù)立法,確保寶貴的大數(shù)據(jù)不被浪費(fèi)。
在我國,由于企業(yè)、個(gè)人與政府部門的地位不對(duì)等,數(shù)據(jù)安全等因素造成政府部門開放大數(shù)據(jù)的主觀意愿并不強(qiáng)烈。中國政務(wù)大數(shù)據(jù),除了一些大企業(yè)以及政府合作企業(yè)能獲得外,大部分企業(yè)與個(gè)人均無法使用,這就造成了數(shù)據(jù)的極大浪費(fèi),也阻礙了中國企業(yè)的發(fā)展與創(chuàng)新。此外,我國各個(gè)公司在數(shù)據(jù)共享方面的合作也亟待加強(qiáng)。
為了改變現(xiàn)狀,2015年經(jīng)李克強(qiáng)總理簽批,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(以下簡(jiǎn)稱《綱要》),系統(tǒng)性部署大數(shù)據(jù)發(fā)展工作?!毒V要》明確推動(dòng)大數(shù)據(jù)發(fā)展和應(yīng)用,在未來5~10年內(nèi)打造精準(zhǔn)治理、多方協(xié)作的社會(huì)治理新模式,建立運(yùn)行平穩(wěn)、安全高效的經(jīng)濟(jì)運(yùn)行新機(jī)制,構(gòu)建以人為本、惠及全民的民生服務(wù)新體系,開啟大眾創(chuàng)業(yè)、萬眾創(chuàng)新的創(chuàng)新驅(qū)動(dòng)新格局,培育高端智能產(chǎn)業(yè)發(fā)展新生態(tài)。
《綱要》部署三方面主要任務(wù)。
一要加快政府?dāng)?shù)據(jù)開放共享,推動(dòng)資源整合,提升治理能力。
二要推動(dòng)產(chǎn)業(yè)創(chuàng)新發(fā)展,培育新興業(yè)態(tài),助力經(jīng)濟(jì)轉(zhuǎn)型。
三要強(qiáng)化安全保障,提高管理水平,促進(jìn)健康發(fā)展。
1.3數(shù)據(jù)挖掘的定義
如圖1-3所示,數(shù)據(jù)挖掘(DataMining)是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(Knowledge-DiscoveryinDatabase,KDD)的關(guān)鍵步驟之一,是指從原始數(shù)據(jù)中通過算法提取隱藏信息的過程。準(zhǔn)確來說,數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫中自動(dòng)地發(fā)現(xiàn)有用信息的過程,它具有利用挖掘出來的模式理解與分析復(fù)雜問題并預(yù)測(cè)未來的能力。圖1-3數(shù)據(jù)挖掘與數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)
定義1.1(學(xué)科層面定義)
數(shù)據(jù)挖掘?qū)儆诮徊鎸W(xué)科(如圖1-4所示),它是數(shù)據(jù)庫(Database)、人工智能(ArtificialIntelligence)、機(jī)器學(xué)習(xí)(MachineLearning)、統(tǒng)計(jì)學(xué)(Statistic)、知識(shí)工程(KnowledgeEngineering)等技術(shù)的融合。圖1-4數(shù)據(jù)挖掘是交叉學(xué)科
定義1.2(模式層面定義)
數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(KDD)是通過對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的操作,提取有趣、未知模式的過程。在模式層面定義下的數(shù)據(jù)挖掘,其三大要素是以數(shù)據(jù)為研究對(duì)象、對(duì)數(shù)據(jù)進(jìn)行計(jì)算操作、從數(shù)據(jù)中提取未知有用模式。模式層面定義如圖1-5所示。圖1-5數(shù)據(jù)挖掘是模式挖掘過程
1.4數(shù)據(jù)挖掘的發(fā)展與應(yīng)用
1.4.1-數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘經(jīng)歷了三個(gè)歷史階段,即萌芽階段、形成階段和高速發(fā)展階段,如表1-1所示。
1.萌芽階段
數(shù)據(jù)挖掘始于20世紀(jì)下半葉,是在當(dāng)時(shí)多個(gè)學(xué)科的基礎(chǔ)上發(fā)展起來的。隨著數(shù)據(jù)庫技術(shù)的發(fā)展和數(shù)據(jù)總量的不斷增加,簡(jiǎn)單的查詢和統(tǒng)計(jì)已經(jīng)無法滿足企業(yè)的商業(yè)需求,急需一些嶄新的技術(shù)去挖掘數(shù)據(jù)背后的信息。
2.形成階段
1989年召開了第11屆國際人工智能聯(lián)合會(huì)議專題討論會(huì),會(huì)上研究人員首次提出了知識(shí)發(fā)現(xiàn)這個(gè)術(shù)語。到目前為止,知識(shí)發(fā)現(xiàn)的重點(diǎn)已經(jīng)從發(fā)現(xiàn)方法轉(zhuǎn)向了實(shí)踐應(yīng)用,而數(shù)據(jù)挖掘則是知識(shí)發(fā)現(xiàn)的核心部分,它是從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的有用信息的非平凡過程,這些信息的表現(xiàn)形式一般為規(guī)則、概念、規(guī)律及模式等。
3.高速發(fā)展階段
在21世紀(jì),數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學(xué)科,相關(guān)技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來。總體來說,數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索和空間數(shù)據(jù)分析等多個(gè)領(lǐng)域的理論和技術(shù),成為21世紀(jì)初期對(duì)人類產(chǎn)生重大影響的十大新興技術(shù)之一。
1.4.2數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘所要處理的問題就是在龐大的數(shù)據(jù)中找出有價(jià)值的隱藏事件并加以分析,以獲取有意義的信息和模式,為決策提供依據(jù)。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域非常廣泛,只要存在具有分析價(jià)值數(shù)據(jù)的領(lǐng)域,都可以應(yīng)用數(shù)據(jù)挖掘算法滿足自身在信息方面的需求(可參見圖1-2)
1.金融領(lǐng)域
金融數(shù)據(jù)具有可靠性、完整性和高質(zhì)量等特點(diǎn),這在很大程度上有利于開展數(shù)據(jù)挖掘與應(yīng)用。數(shù)據(jù)挖掘在金融領(lǐng)域中有許多具體的應(yīng)用,例如,通過分析多維數(shù)據(jù)預(yù)測(cè)金融市場(chǎng)的變化趨勢(shì);運(yùn)用孤立點(diǎn)分析方法研究洗黑錢等犯罪活動(dòng);應(yīng)用分類技術(shù)對(duì)顧客信用進(jìn)行預(yù)測(cè)等。除此之外,金融領(lǐng)域的數(shù)據(jù)挖掘方法在不同的細(xì)分行業(yè)(如銀行和證券)也存在差別,例如銀行內(nèi)的數(shù)據(jù)挖掘側(cè)重統(tǒng)計(jì)建模,數(shù)據(jù)分析對(duì)象主要為截面數(shù)據(jù),開發(fā)的模型以離線為主;證券行業(yè)的挖掘工作則更加側(cè)重于量化分析,更多的是分析對(duì)象的時(shí)間序列數(shù)據(jù),該領(lǐng)域的數(shù)據(jù)挖掘算法旨在從大盤指數(shù)、波動(dòng)特點(diǎn)、歷史數(shù)據(jù)中發(fā)現(xiàn)趨勢(shì)和機(jī)會(huì),為客戶進(jìn)行短期的套利操作提供便利。
2.醫(yī)療領(lǐng)域
在人類遺傳密碼、遺傳史、疾病史以及醫(yī)療方法中,都隱藏著海量的數(shù)據(jù)信息。此外,對(duì)醫(yī)院內(nèi)部結(jié)構(gòu)、醫(yī)藥器具、病人檔案以及其他資料的管理也將產(chǎn)生巨量的數(shù)據(jù)。如何利
用數(shù)據(jù)挖掘相關(guān)技術(shù)對(duì)這些巨量的數(shù)據(jù)進(jìn)行處理,從而得到相關(guān)知識(shí)規(guī)律以優(yōu)化醫(yī)療資源配給,是醫(yī)療領(lǐng)域數(shù)據(jù)挖掘的難點(diǎn)之一。運(yùn)用數(shù)據(jù)挖掘技術(shù),在很大程度上有助于醫(yī)療人
員發(fā)現(xiàn)疾病的一些規(guī)律,從而提高診斷的準(zhǔn)確率和治療的有效性,不斷促進(jìn)人類健康醫(yī)療事業(yè)的發(fā)展。
3.科技領(lǐng)域
航天、宇航、氣候預(yù)測(cè)、通信等科技領(lǐng)域產(chǎn)生了大量非結(jié)構(gòu)化的異質(zhì)數(shù)據(jù)。例如,中國電信融合了語音、圖像、視頻等數(shù)據(jù),將自身發(fā)展成一個(gè)全方位立體化的綜合電信服務(wù)商。中國電信在發(fā)展過程中,合理運(yùn)用了數(shù)據(jù)挖掘技術(shù),分析商業(yè)形式和模式并以此制定了合適的商業(yè)計(jì)劃,極大地提升了自身的競(jìng)爭(zhēng)力。
4.交通領(lǐng)域
在交通領(lǐng)域,積累了大量的數(shù)據(jù),比如出租公司積累的乘客出行數(shù)據(jù)、公交公司的運(yùn)營數(shù)據(jù)等。通過對(duì)乘客和運(yùn)營數(shù)據(jù)進(jìn)行分析和挖掘,能夠?yàn)楣弧⒊鲎夤竞徒煌ú块T的科學(xué)運(yùn)營及決策提供依據(jù),使其合理規(guī)劃公交線路,實(shí)時(shí)為出租車的行駛線路提供建議等。同時(shí),可以提升城市運(yùn)力和幸福指數(shù),還可以有效減少因交通擁堵問題造成的成本浪費(fèi)。另外,航空公司也可依據(jù)歷史記錄來尋找乘客的旅行模式,以便提供更加個(gè)性化的服務(wù),如合理設(shè)置航線等。
目前,交通領(lǐng)域最受人矚目的應(yīng)用是智能交通系統(tǒng)(IntelligentTransportationSystem,ITS),它是未來交通系統(tǒng)的重點(diǎn)發(fā)展方向之一。它將先進(jìn)的信息技術(shù)、數(shù)據(jù)通信傳輸技術(shù)、電子傳感技術(shù)、控制技術(shù)及計(jì)算機(jī)技術(shù)等有效地集成,并運(yùn)用于整個(gè)地面交通管理系統(tǒng),建立一種在大范圍內(nèi)、全方位發(fā)揮作用的,實(shí)時(shí)、準(zhǔn)確、高效的綜合交通運(yùn)輸管理系統(tǒng)。隨著信息技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人們可以非常方便地獲取和存儲(chǔ)大量的數(shù)據(jù)。面對(duì)海量的數(shù)據(jù),傳統(tǒng)數(shù)據(jù)分析工具只能做一些表層處理,不能獲取數(shù)據(jù)間的內(nèi)在關(guān)系和隱含信息,這種對(duì)數(shù)據(jù)分析的需求使得數(shù)據(jù)挖掘得以運(yùn)用。
1.5數(shù)據(jù)挖掘的任務(wù)與挑戰(zhàn)
數(shù)據(jù)挖掘是從海量的、不完全的、有噪聲的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中的有價(jià)值的、潛在有用的信息和知識(shí)的過程。除此之外,它也是一種決策支持過程,其主要基于人工智能、機(jī)器學(xué)習(xí)、模式學(xué)習(xí)與統(tǒng)計(jì)學(xué)等方法,對(duì)數(shù)據(jù)進(jìn)行高度自動(dòng)化的分析,做出歸納性的推理,并從中挖掘出潛在的模式,以幫助企業(yè)、商家、用戶調(diào)整市場(chǎng)政策、減少風(fēng)險(xiǎn)、理性面對(duì)市場(chǎng),并做出正確的決策。
1.5.1-數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘的任務(wù)可大致分為預(yù)測(cè)與描述兩大類。
預(yù)測(cè)任務(wù)是指根據(jù)數(shù)據(jù)對(duì)象的屬性值,構(gòu)建數(shù)學(xué)模型,并對(duì)數(shù)據(jù)對(duì)象的屬性進(jìn)行預(yù)判。其中,被預(yù)測(cè)的屬性稱為因變量,用于建模的屬性稱為自變量,其本質(zhì)是在最大限度滿足已有觀測(cè)數(shù)據(jù)的基礎(chǔ)上,盡可能準(zhǔn)確地構(gòu)建自變量與因變量之間的函數(shù)關(guān)系。
描述任務(wù)是指數(shù)據(jù)挖掘任務(wù)是探索性任務(wù),其不能有效明確關(guān)聯(lián)模式,包括軌跡、趨勢(shì)、異常等,是需要后處理技術(shù)進(jìn)行驗(yàn)證和解釋的一類任務(wù)。
按照技術(shù)分類,數(shù)據(jù)挖掘的任務(wù)包含分類預(yù)測(cè)、關(guān)聯(lián)分析、聚類分析與異常檢測(cè)四大類,如圖1-6所示。圖1-6基本數(shù)據(jù)挖掘任務(wù)
1.分類預(yù)測(cè)
分類預(yù)測(cè)(ClassificationandPrediction)涉及兩類任務(wù),即分類(Classification)與回歸(Regression),兩者的主要區(qū)別在于分類對(duì)應(yīng)的因變量是離散值,而回歸對(duì)應(yīng)的因變量是連續(xù)值。分類的任務(wù)是找出數(shù)據(jù)庫中一組數(shù)據(jù)對(duì)象的共同特點(diǎn),并按照分類模式將對(duì)象劃分到不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別中。
例1.1-信用卡欺詐行為預(yù)測(cè)。
考慮如下任務(wù):銀行系統(tǒng)通過申請(qǐng)人的信息判斷申請(qǐng)人存在信用欺詐的可能性。為了簡(jiǎn)單起見,只考慮二分類的情況。為了完成這一任務(wù),需要一個(gè)數(shù)據(jù)集合,該集合包含兩類申請(qǐng)人的屬性值與類別信息,如房產(chǎn)、婚姻狀況與年收入情況等。通過對(duì)數(shù)據(jù)進(jìn)行分析,構(gòu)建如圖1-7所示的決策樹模型。圖1-7決策樹分類器
2.關(guān)聯(lián)分析
關(guān)聯(lián)分析(AssociationAnalysis)是通過分析發(fā)現(xiàn)數(shù)據(jù)中存在的強(qiáng)關(guān)聯(lián)性組合模式。一般來說,關(guān)聯(lián)分析模式是隱含的。由于特征組合模式的搜索空間呈指數(shù)上升,因此關(guān)聯(lián)分析一般需要對(duì)數(shù)據(jù)進(jìn)行剪枝操作。關(guān)聯(lián)分析旨在設(shè)計(jì)有效的算法,挖掘最具有代表性的模式。
例1.2牛奶與尿布組合。
表1-2中列舉了某超市一天的銷售數(shù)據(jù),通過關(guān)聯(lián)性分析可發(fā)現(xiàn)顧客頻繁購買的商品的種類。
3.聚類分析
聚類分析(ClusteringAnalysis)類似于分類,但與分類的目的不同。聚類是針對(duì)數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別,屬于同一類別的數(shù)據(jù)相似性很大,不同類別之間的數(shù)據(jù)相似性很小。致癌基因模塊挖掘、文本聚類分析都屬于聚類分析的范疇。
例1.3致癌基因模塊挖掘。
生物醫(yī)學(xué)領(lǐng)域存在一個(gè)結(jié)構(gòu)決定功能的假設(shè):有相同或者相似功能的基因具有相同或者相似的功能,呈現(xiàn)出相同或者相似的模式。這一假設(shè)為致癌基因模塊挖掘提供了思路。
通常而言,研究人員利用基因表達(dá)數(shù)據(jù)構(gòu)建癌癥網(wǎng)絡(luò),通過所構(gòu)建的癌癥網(wǎng)絡(luò)進(jìn)行聚類分析,并提取高度相似的模塊,發(fā)現(xiàn)同一模塊中的基因,進(jìn)而識(shí)別致癌基因。如圖1-8所示,圖中虛線框包含聚類結(jié)果,無填充節(jié)點(diǎn)對(duì)應(yīng)致癌基因。圖1-8致癌基因挖掘示意圖
4.異常檢測(cè)
異常檢測(cè)(AnomalyDetection)是對(duì)不匹配預(yù)期模式或數(shù)據(jù)集中的項(xiàng)目、事件或觀測(cè)值的識(shí)別。異常項(xiàng)目會(huì)轉(zhuǎn)變成銀行欺詐、結(jié)構(gòu)缺陷、醫(yī)療問題、文本錯(cuò)誤等類型的問題。在數(shù)據(jù)挖掘領(lǐng)域中,異常也被稱為離群值、新奇、噪聲、偏差和例外。一個(gè)優(yōu)秀的異常檢測(cè)算法與檢測(cè)器應(yīng)該具備高檢測(cè)率與低誤報(bào)率的特點(diǎn)。
例1.4網(wǎng)絡(luò)入侵監(jiān)測(cè)。
丹寧教授在1986年提出了入侵檢測(cè)系統(tǒng)的異常檢測(cè)方法。其異常檢測(cè)操作一般是通過閾值和統(tǒng)計(jì)完成的,但也可以用軟計(jì)算和歸納學(xué)習(xí)的方式完成。在入侵檢測(cè)系統(tǒng)中,與異常檢測(cè)模式相對(duì)應(yīng)的還有誤用檢測(cè)模式。
1.5.2數(shù)據(jù)挖掘面臨的挑戰(zhàn)
大數(shù)據(jù)時(shí)代的到來,為數(shù)據(jù)挖掘提供了新的發(fā)展機(jī)遇,也提出了嚴(yán)峻的挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)分析技術(shù)不能勝任大數(shù)據(jù)挖掘與分析的需要。挑戰(zhàn)可簡(jiǎn)要?dú)w納為:數(shù)據(jù)規(guī)模大、數(shù)據(jù)維度高、數(shù)據(jù)異構(gòu)性、數(shù)據(jù)分布式。詳細(xì)來說,可分為可伸縮、高維性、異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)、數(shù)據(jù)的所有權(quán)與分布、非傳統(tǒng)的分析等類。
(1)可伸縮:由于數(shù)據(jù)產(chǎn)生和收集技術(shù)的進(jìn)步,吉字節(jié)、太字節(jié)甚至拍字節(jié)的數(shù)據(jù)集越來越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是可伸縮的
(Scalable)。許多數(shù)據(jù)挖掘算法使用特殊的搜索策略處理指數(shù)級(jí)搜索空間問題。為實(shí)現(xiàn)可伸縮,可能還需要實(shí)現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能以有效的方式訪問每個(gè)記錄。
(2)高維性:現(xiàn)在,常常遇到具有成百上千屬性的數(shù)據(jù)集,而不是幾十年前常見的只具有少量屬性的數(shù)據(jù)集。在生物信息學(xué)領(lǐng)域,微陣列技術(shù)的進(jìn)步已經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達(dá)數(shù)據(jù)。具有時(shí)間或空間分量的數(shù)據(jù)集也經(jīng)常具有很高的維度。
(3)異種數(shù)據(jù)和復(fù)雜數(shù)據(jù):通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在商務(wù)、科學(xué)、醫(yī)學(xué)和其他領(lǐng)域的作用越來越大,越來越需要能夠處理異種屬性的技術(shù)。
(4)數(shù)據(jù)所有權(quán)與分布:有時(shí),需要分析的數(shù)據(jù)并非存放在一個(gè)站點(diǎn),或歸屬于一個(gè)機(jī)構(gòu),而是存放于在地理上分布的多個(gè)機(jī)構(gòu)中。這就需要開發(fā)分布式數(shù)據(jù)挖掘技術(shù)。分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括:①如何降低執(zhí)行分布式計(jì)算所需的通信量;②如何有效地統(tǒng)一從多個(gè)資源得到數(shù)據(jù)挖掘的結(jié)果;③如何處理數(shù)據(jù)安全性問題。
(5)非傳統(tǒng)分析:傳統(tǒng)的統(tǒng)計(jì)方法基于一種假設(shè)檢驗(yàn)?zāi)J?即提出一種假設(shè),設(shè)計(jì)實(shí)驗(yàn)來收集數(shù)據(jù),然后針對(duì)假設(shè)分析數(shù)據(jù)。但是,這個(gè)過程勞力費(fèi)神。當(dāng)前的數(shù)據(jù)分析任務(wù)常常需要產(chǎn)生和評(píng)估數(shù)千種假設(shè),因此需要自動(dòng)地產(chǎn)生和評(píng)估假設(shè),這促使人們開發(fā)了一些新的數(shù)據(jù)挖掘技術(shù)。此外,數(shù)據(jù)挖掘所分析的數(shù)據(jù)集通常不是精心設(shè)計(jì)的實(shí)驗(yàn)的結(jié)果,并且它們通常代表數(shù)據(jù)的時(shí)機(jī)性樣本(OpportunisticSample),而不是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 真實(shí)世界證據(jù)在RCT方案設(shè)計(jì)中指導(dǎo)作用
- 真實(shí)世界數(shù)據(jù)在神經(jīng)微創(chuàng)成本評(píng)價(jià)中的價(jià)值
- 皮膚腫瘤的早期篩查與病理診斷
- 皮膚型大皰性類天皰瘡指南
- 癲癇灶定位的神經(jīng)影像技術(shù)應(yīng)用
- 癌癥幸存者健康促進(jìn)的長期隨訪管理策略
- 痛風(fēng)社區(qū)健康管理操作規(guī)范
- 偏癱患者營養(yǎng)調(diào)理方案
- 豬仔視覺設(shè)計(jì)方案
- 家具廠員工培訓(xùn)
- 衛(wèi)生院孕優(yōu)知識(shí)培訓(xùn)課件
- 2025年重慶高考高職分類考試中職語文試卷真題(含答案詳解)
- 電商預(yù)算表格財(cái)務(wù)模板全年計(jì)劃表格-做賬實(shí)操
- 委托付款管理辦法
- 煤礦后勤管理辦法
- 《英耀篇》全文文檔
- 中職數(shù)學(xué)高等教育出版社
- ab股權(quán)協(xié)議書范本
- 工程造價(jià)審計(jì)服務(wù)投標(biāo)方案(技術(shù)方案)
- 蟹苗買賣合同協(xié)議
- 胸外科手術(shù)圍手術(shù)期的護(hù)理
評(píng)論
0/150
提交評(píng)論